CN113033160A - 对话的意图分类方法及设备和生成意图分类模型的方法 - Google Patents
对话的意图分类方法及设备和生成意图分类模型的方法 Download PDFInfo
- Publication number
- CN113033160A CN113033160A CN201911251188.6A CN201911251188A CN113033160A CN 113033160 A CN113033160 A CN 113033160A CN 201911251188 A CN201911251188 A CN 201911251188A CN 113033160 A CN113033160 A CN 113033160A
- Authority
- CN
- China
- Prior art keywords
- text
- pinyin
- vector
- word segmentation
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000013145 classification model Methods 0.000 title claims abstract description 55
- 230000011218 segmentation Effects 0.000 claims abstract description 199
- 239000013598 vector Substances 0.000 claims description 261
- 239000011159 matrix material Substances 0.000 claims description 22
- 239000013604 expression vector Substances 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 22
- 238000009826 distribution Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种对话的意图分类方法和装置,本申请的输入意图分类模型的信息除了分词文本,还包括分词拼音文本,这样,由于表示该词的信息中还包括正确的拼音成分,增加了该词对应的准确度,为获得更好的意图分类性能提供了保障。在一种示例性实例中,本申请通过自注意机制和/或互注意机制,获得了更好的文本表示,从而获得了更好的意图分类性能。
Description
技术领域
本申请涉及但不限于语音处理技术,尤指一种对话的意图分类方法及设备和生成意图分类模型的方法。
背景技术
对话的意图分类在语音处理中具有非常重要的应用价值。如果没有好的意图分类性能,需要大量的人工处理工作,造成人工成本的增加,从而降低工作效率。
发明内容
本申请提供一种对话的意图分类方法及设备和生成意图分类模型的方法,能够获得更好的意图分类性能。
本发明实施例提供了一种对话的意图分类方法,包括:
将对话对应的第一分词文本转换为第一分词拼音文本,将对话对应的第二分词文本转换为第二分词拼音文本;
将第一分词文本、第二分词文本、第一分词拼音文本和第二分词拼音文本输入预先训练的意图分类模型对所述对话进行意图类别识别;其中,意图分类模型根据包括文本对的对话样本集生成。
在一种示例性实例中,所述方法之前还包括:
对文本对中的第一文本进行分词处理获取所述第一分词文本,对文本对中的第二文本进行分词处理获取所述第二分词文本;
其中,第一文本为所述对话对应的文本对中的问题文本,第二文本为所述对话对应的文本对中的答复文本。
在一种示例性实例中,所述方法之前还包括:
将包括文本对的对话样本集作为训练数据输入预先构建的算法模型,训练得到对对话进行意图分类的所述意图分类模型;其中,文本对的对话样本集包括:第一分词文本、第二分词文本,以及第一分词拼音文本、第二分词拼音文本。
在一种示例性实例中,所述将第一分词文本、第二分词文本、第一分词拼音文本和第二分词拼音文本输入预先训练的意图分类模型进行意图类别识别,包括:
对所述第一分词文本和所述第一分词拼音文本分别进行处理得到每个词语对应的词向量和每个拼音对应的拼音向量,拼接对应每个词语的词向量和拼音向量作为该词的表示向量;对所述第二分词文本和所述第二分词拼音文本分别进行处理得到每个词语对应的词向量和每个拼音对应的拼音向量,拼接对应每个词语的词向量和拼音向量作为该词语的表示向量;
对所述第一分词文本和所述第一分词拼音文本对应的表示向量进行编码得到第一隐含向量,对所述第二分词文本和所述第二分词拼音文本对应的表示向量进行编码得到第二隐含向量;
根据得到的隐含向量,获取所述第一分词文本和所述第一分词拼音文本的自向量表示,以及所述第二分词文本和所述第二分词拼音文本的自向量表示,以获得每个文本对的向量表示;
拼接获得的向量表示,将拼接得到的输出向量输入所述意图分类模型进行意图类别预测,得到意图分类结果。
在一种示例性实例中,所述得到每个词语对应的词向量和每个拼音对应的拼音向量,包括:
通过查询预先训练的词向量矩阵获得所述每个词语对应的词向量;
通过查询预先训练的拼音向量矩阵来获得所述每个词语的拼音向量。
在一种示例性实例中,得到所述第一隐含向量或所述第二隐含向量,包括:
针对所述表示向量,分别从前往后以及从后往前两个方向分别获取前向隐含向量和后向隐含向量;
将对应位置向量拼接得到对应的隐含向量。
在一种示例性实例中,所述拼接获得的向量表示中的向量表示包括:
所述第一分词文本和所述第一分词拼音文本的自向量表示,和所述第二分词文本和所述第二分词拼音文本的自向量表示。
在一种示例性实例中,所述方法还包括:
根据所述得到的隐含向量和自向量表示,获取所述第一分词文本和所述第一分词拼音文本的互向量表示以及所述第二分词文本和所述第二分词拼音文本的互向量表示,以获得所述第一文本对应的问题影响下的所述第二文本对应的回答的向量表示,以及所述第二文本对应的回答影响下的所述第一文本对应的问题的向量表示。
在一种示例性实例中,所述拼接获得的向量表示中的向量表示包括:
所述第一分词文本和所述第一分词拼音文本的互向量表示,和所述第二分词文本和所述第二分词拼音文本的互向量表示。
在一种示例性实例中,所述拼接获得的向量表示中的向量表示包括:
所述第一分词文本和所述第一分词拼音文本的自向量表示,和所述第二分词文本和所述第二分词拼音文本的自向量表示,所述第一分词文本和所述第一分词拼音文本的自互向量表示,和所述第二分词文本和所述第二分词拼音文本的互向量表示。
本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项所述的对话的意图分类方法。
本申请又提供了一种对话的意图分类设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的对话的意图分类方法的步骤。
本申请还提供了一种生成意图分类模型的方法,包括:
将包括文本对的对话样本集作为训练数据输入预先构建的算法模型中,训练得到对对话进行意图分类的意图分类模型;
其中,文本对包括对话对应的问题文本和答复文本。
在一种示例性实例中,所述文本对的对话样本集包括:
所述文本对中的问题文本经过分词处理后得到的第一分词文本;
所述文本对中的答复文本经过分词处理后得到的第二分词文本;
第一分词文本对应的拼音形式的第一分词拼音文本;
第二分词文本对应的拼音形式的第二分词拼音文本。
在一种示例性实例中,所述算法模型采用交叉熵损失作为目标函数。
在一种示例性实例中,所述方法还包括:采用后向传播算法计算所述意图分类模型的模型参数的梯度。
在一种示例性实例中,所述方法还包括:更新所述意图分类模型的参数,以对所述意图分类模型的参数进行优化。
本申请又提供了一种对话的意图分类方法,包括:
将客服和客户对话的文本对中的提问文本转换为第一分词文本,答复文本转换为第二分词文本;
将第一分词文本转换为第一分词拼音文本,将第二分词文本转换为第二分词拼音文本;
将第一分词文本、第二分词文本、第一分词拼音文本和第二分词拼音文本输入预先训练的意图分类模型对所述客服和客户对话进行意图类别识别;其中,意图分类模型根据包括文本对的对话样本集生成。
本申请再提供了一种对话的意图分类方法,包括:
将客服和客户对话的文本对中的提问文本转换为第一分词文本,答复文本转换为第二分词文本;
将第一分词文本转换为第一分词拼音文本,将第二分词文本转换为第二分词拼音文本;
将第一分词文本、第二分词文本、第一分词拼音文本和第二分词拼音文本输入预先训练的意图分类模型对所述客服和客户对话进行意图类别识别;其中,意图分类模型根据包括文本对的对话样本集生成;
展现对所述客服和客户对话进行意图类别识别的结果,以利用得到的结果实现后续对话。
本申请实施例的输入意图分类模型的信息除了分词文本,还包括分词拼音文本,这样,由于表示该词的信息中还包括正确的拼音成分,增加了该词对应的准确度,为获得更好的意图分类性能提供了保障。
在一种示例性实例中,本申请实施例通过自注意机制来获得每个文本(客服提问/客户回答)的向量表示,这样,在生成文本表示时,考虑了文本中词语的不同重要性,从而获得了更好的文本表示,从而获得了更好的意图分类性能。
在一种示例性实例中,本申请实施例通过互注意机制,在生成文本表示时,考虑了提问的文本中词语在回答中的不同重要性以及回答的文本中词语在提问中的不同重要性,从而获得了更好的文本表示,从全局来获得了文本的表示,从而获得了更好的意图分类性能。
在一种示例性实例中,本申请实施例一方面通过自注意机制来获得每个文本(客服提问/客户回答)的向量表示,这样,在生成文本表示时,考虑了文本中词语的不同重要性,从而获得了更好的文本表示;另一方面,通过互注意机制,在生成文本表示时,考虑了提问的文本中词语在回答中的不同重要性以及回答的文本中词语在提问中的不同重要性,从而获得了更好的文本表示,从全局来获得了文本的表示。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请对话的意图分类方法的流程示意图;
图2为本申请实现意图类别识别的实施例的流程示意图;
图3为本申请对话的意图分类的应用场景实施例的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在本申请一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
对话的意图分类在包括如:智能云电销、智能话术辅助、智能人机协同、精准营销以及智能培训等很多场景下,都有着非常重要的应用价值。
以智能云电销场景为例,对话的角色包括客服和客户两种,客服提出问题,客户进行回答响应,本申请实施例中,将这种包括问题文本如客服提出问题的文本(统称为第一文本)和答复文本如客户进行回答响应的文本(统称为第二文本)的文本对称为关联文本对。对话内容通过相关技术中的语音转文本工具如自动语音识别(ASR,Automatic SpeechRecognition)技术得到对应的中文文本,并保存在数据库中用于分析。为了识别客户的意图,将多轮形式的对话文本(如表1中的所有行中的客服提问和客户回答部分)拆分成单轮的(客服提问-客户回答)文本对(如表1中的每一行中的客服提问和客户回答部分问一个文本对)形式,每一轮表示一次提问和回答,如表1的意图分类数据样例所示:
表1
如表1所示,在给定输入的文本对(客服提问,客户回答)后,任务的目的就是识别输入文本最可能的意图类别,意图类别包括8种:肯定、否定、没听清、拒绝、是谁、在忙、稍等和其他。如表1中所示,对于输入文本对(客服:你看可以吗?客户:可以的),可以清晰地判断其意图类别为肯定。
仍以输入文本对(客服:你看可以吗?客户:可以的)为例,相关技术中,首先,对通过自动语音识别(ASR,Automatic Speech Recognition)技术获得的第一文本(本实例中的客服提问文本)或第二文本(本实例中的客户回答文本)进行分词,获得分词后的第一分词文本(本实例中的客服提问分词文本)为:您/看/可以/吗/?,和获得分词后的第二分词文本(本示例中的客户回答分词文本)为:可以/的;然后再经过后续处理识别出输入文本最可能的意图类别。
图1为本申请对话的意图分类方法的流程示意图,如图1所示,包括以下步骤:
步骤100:将对话对应的第一分词文本/第二分词文本转换为第一分词拼音文本/第二分词拼音文本。
本步骤具体包括:将经过分词处理得到的第一分词文本转换为第一分词拼音文本,将经过分词处理得到的第二分词文本转换为第二分词拼音文本。
在一种示例性实例中,第一分词文本为对话文本对中的客服提出问题的问题文本经过分词处理后得到的客服提出问题的分词文本,第二分词文本为对话文本对中的客户进行答复的答复文本经过分词处理后得到的客户进行答复的分词文本。第一分词拼音文本为第一分词文本的拼音形式的文本,第二分词拼音文本为第二分词文本的拼音形式的文本。
举个例子来看,经过ASR的客服提问文本或客户回答文本经过分词处理后得到:客服提问分词文本即第一分词文本(您/看/可以/吗/?)和客户回答分词文本第二分词文本(可以/的),这样,经过本步骤的转换后得到:客服提问分词拼音文本即第一分词拼音文本(nin/kan/ke_yi/ma/?)和客户回答分词拼音文本即第二分词拼音文本(ke_yi/de)。需要说明的是,拼音之间的符号“_”为同一个分词中不同字对应的拼音之间的分隔符,也可以是其他符号,如“*”等,只要能分开表示同一个分词中不同字的拼音即可。
步骤101:将第一分词文本/第二分词文本和第一分词拼音文本/第二分词拼音文本输入预先训练的意图分类模型对所述对话进行意图类别识别;其中,意图分类模型根据包括文本对的对话样本集生成。
本步骤中,输入预先训练的意图分类模型的信息包括:第一分词文本、第二分词文本、第一分词拼音文本和第二分词拼音文本。
在外呼场景下,由于双方通过电话交流过程中会存在背景噪音、口音、方言等不可抗拒的原因,因此,会为语音转文本带来误识别问题,比如误识别为读音相同但字不同的错别字,比如本来应该是“乡”字,但是误识别为“香”字,这样会直接影响后续识别结果的准确性。
而本申请实施例中,输入意图分类模型的信息除了分词文本,还包括分词拼音文本,这样,由于表示该词的信息中还包括正确的拼音成分,增加了该词对应的准确度,即使在自动语音识别中出现误识别而产生错别字的情况,也能为后续的意图分类分析过程提供更准确的输入数据,也就是说,本申请实施例为获得更好的意图分类性能提供了保障。本申请发明人在研究中,巧妙地应用拼音的准确性来弱化错别字带来的误识别问题,提高了意图分类识别的准确性。
本申请实施例提供的对话的意图分类方法的执行主体可以是任一具有计算能力的服务器。
在一种示例性实例中,步骤101之前还包括生成意图分类模型,包括:
将包括文本对的对话样本集作为训练数据输入预先构建的算法模型中,训练得到对对话进行意图分类的意图分类模型。
在一种示例性实例中,文本对的对话样本集包括:
第一分词文本、第二分词文本,以及第一分词拼音文本、第二分词拼音文本。其中,第一分词文本为对话文本对中的客服提出问题的问题文本经过分词处理后得到的客服提出问题的分词文本,第二分词文本为对话文本对中的客户进行答复的答复文本经过分词处理后得到的客户进行答复的分词文本,第一分词拼音文本为第一分词文本对应的拼音形式的分词文本,第二分词拼音文本为第二分词文本对应的拼音形式的分词文本。
在一种示例性实例中,算法模型可以采用交叉熵损失函数(Cross Entropy ErrorFunction)作为目标函数。
在一种示例性实例中,给定训练集合D={dk},对于每轮对话dk有Tk组问答对,那么,目标函数可以形式化为公式(1)所示:
训练结束后估计出θ的参数,对于任意输入意图分类模型的测试样例,都可以计算出其最可能的通用意图类别。
在一种示例性实例中,意图分类模型可以采用后向传播(BP,Back Propagation)算法计算模型参数的梯度。在一种示例性实例中,可以采用自适应矩估计(Adam)优化器更新意图分类模型的参数,其中,Adam优化器是计算每个参数的自适应学习率的一种方法。
在一种示例性实例中,图2为本申请实现意图类别识别的实施例的流程示意图,如图2所示,步骤101可以包括:
步骤1010:对第一分词文本/第二分词文本和第一分词拼音文本/第二分词拼音文本分别进行处理得到每个词语对应的词向量和每个拼音对应的拼音向量,拼接对应每个词语的词向量和拼音向量作为该词语的表示向量。
本步骤具体包括:对第一分词文本和第一分词拼音文本分别进行处理得到每个词语对应的词向量和每个拼音对应的拼音向量,拼接对应每个词语的词向量和拼音向量作为该词的表示向量;对第二分词文本和第二分词拼音文本分别进行处理得到每个词语对应的词向量和每个拼音对应的拼音向量,拼接对应每个词语的词向量和拼音向量作为该词语的表示向量。这里,可以采用如CBOW、Skip-Gram等训练词向量的方法获取词向量,其中,CBOW和Skip-Gram都是在word2vec中用于将文本进行向量表示的实现方法,具体算法实现可以参考相关技术,并不用于限定本申请的保护范围。
本申请实施例中,每个词语的表示向量包括该词的词向量和拼音向量,这样,即使在自动语音识别中出现误识别而产生错别字的情况,因为表示该词的表示向量中还包括正确的拼音向量的成分,因此,增加了该词对应的表示向量的准确度,为后续的意图分类分析过程提供了更准确的输入数据,也就是说,为获得更好的意图分类性能提供了保障。本申请发明人在研究中,巧妙地应用拼音的准确性来弱化错别字带来的识别错误问题,提高了意图分类识别的准确性。
在一种示例性实例中,可以通过查询预先训练的词向量矩阵来获得每个词语对应的词向量,可以通过查询预先训练的拼音向量矩阵来获得每个词语的拼音向量。这里,词向量矩阵/拼音向量矩阵是通过多个词向量/拼音向量的连接而生成的,也称为查询表。每个词语通过查询表可以获取该词语对应的词向量/拼音向量。
在一种示例性实例中,步骤1010可以包括:
在一种示例性实例中,可以基于大量分词后的中文语料训练词向量矩阵,本领域技术人员容易理解,也可以使用相似的方法如采用如CBOW、Skip-Gram等来训练对应的拼音向量矩阵,也就是说,同样可以基于大量分词后的拼音语料训练拼音向量矩阵。
步骤1011:对第一分词文本/第二分词文本和第一分词拼音文本/第二分词拼音文本对应的表示向量进行编码得到的第一隐含向量/第二隐含向量,使得第一隐含向量/第二隐含向量能体现出之前所有词语序列的语义信息。
本步骤具体包括:对第一分词文本和第一分词拼音文本对应的表示向量进行编码得到嵌入之前所有词语序列的语义信息的第一隐含向量,对第二分词文本和第二分词拼音文本对应的表示向量进行编码得到嵌入之前所有词语序列的语义信息的第二隐含向量。
在一种示例性实例中,长短时记忆网络(LSTM)可以将文字序列编码成隐含向量序列,每个词语对应的隐含向量会嵌入之前所有词语序列的语义信息。本实施例中,可以使用双向LSTM(BiLSTM),分别从前往后以及从后往前两个方向分别获取前向隐含向量和后向隐含向量再将对应位置向量拼接得到对应的隐含向量其中,LSTM是一种时间递归神经网络(RNN)。
需要说明的是,本申请其它实施例中,也可以采用如单向LSTM、或者循环神经网络(RNN,Recurrent Neural Networks)等实现本步骤的编码。
步骤1012:根据得到的隐含向量,获取第一分词文本/第二分词文本和第一分词拼音文本/第二分词拼音文本的自向量表示。
本步骤具体包括:根据得到的隐含向量,获取第一分词文本和所述第一分词拼音文本的自向量表示,以及所述第二分词文本和所述第二分词拼音文本的自向量表示,以获得每个文本对的向量表示,以获得每个文本对的向量表示。在一种示例性实例中,可以利用自注意机制实现自向量表示的获取。
本申请实施例中,通过自注意机制来获得每个文本(客服提问/客户回答)的向量表示,这样,在生成文本表示时,考虑了文本中词语的不同重要性,从而获得了更好的文本表示,从而获得了更好的意图分类性能。
注意力机制(Attention Mechanism)可以快速提取稀疏数据的重要特征。自注意力机制(Self-Attention)可以从局部捕获不同重要性的词语,有助于探索文本对中的语义依赖,即获取数据或特征的内部相关性。本文中,自向量表示是通过自注意力机制获得每个文本的向量表示。
在一种示例性实例中,对于客服提问分词文本即第一分词文本和第一分词拼音文本,其自向量表示为:vq=∑iαihi,其中,权重αi表示客服提问分词文本中词语wi的重要程度,q表示该向量为客服提问的向量。在一种示例性实例中,权重αi可以采用如下公式计算:αi=V(hiW+b),其中,W,V和b表示可以通过训练得到的本申请意图分类模型的模型参数;对于客户回答分词文本即第二分词文本和第二分词拼音文本,其自向量表示为:va=∑jβjhj,其中,βj表示客户回答分词文本中词语wj的重要程度,a表示该向量为客户回答的向量。
步骤1013:拼接获得的向量表示,将拼接得到的输出向量输入意图分类模型进行意图类别预测,得到意图分类结果。
此时,本步骤中的向量表示包括自向量表示。
在一种示例性实例中,步骤1013具体可以包括:
然后,对拼接得到的输出向量v进行计算获得N种不同意图对应的概率分布,在一种示例性实例中,N=8,如表1所示的8种意图。具体可以包括:输出向量v依次通过全连接层和softmax层,获得N种通用意图下的概率分布p∈RN,其中,全连接层,通俗来讲就是前面一层的每个单元都与后面一层的相连接;softmax可以理解为归一化,比如:假设某信息的分类有一百种,那么,经过softmax层的输出就是一个一百维的向量,向量中的第一个值就是该信息属于第一类的概率值,向量中的第二个值就是该信息属于第二类的概率值…这一百维的向量之和为1。全连接层和Softmax层的计算如下所示:
其中,X是可训练的参数矩阵,将拼接得到的输出向量v映射成长度等于意图种类数目N的向量通过Softmax函数获得意图归属的概率分布pi,向量p中每个元素值表示属于该意图的可能性即概率值,将最大的概率值对应的意图类别为最终预测的意图分类结果。
可选地,在一种示例性实例中,步骤1012之后,步骤1013之前,本申请还包括:
根据得到的隐含向量和自向量表示,获取第一分词文本和第一分词拼音文本的互向量表示以及第二分词文本和第二分词拼音文本的互向量表示,以获得第一文本对应的问题影响下的第二文本对应的回答的向量表示,以及第二文本对应的回答影响下的第一文本对应的问题的向量表示;此时,步骤1013中的向量表示包括互向量表示。在一种示例性实例中,可以利用互注意机制实现互向量表示的获取。
本实施例中,通过互注意机制获得客服提出的问题影响下的客户回答的向量表示vqa,以及客户回答影响下的客服提出问题的向量表示vaq,这样,在生成文本表示时,获得了不同文本对的依赖关系,考虑了提问的文本中词语在回答中的不同重要性以及回答的文本中词语在提问中的不同重要性,从而获得了更好的文本表示,从全局来获得了文本的表示,从而获得了更好的意图分类性能。其中,互注意力机制(Cross-Attention)可以捕获不同文本对的依赖关系,即获取数据或特征间的相关性。本文中,互向量表示是通过互注意力机制获得每个文本的向量表示。
在一种示例性实例中,以客户回答分词文本表示为例,考虑自注意力机制的输出即客服提问分词文本的自向量表示vq,则客服提问分词文本的互向量表示为:其中,注意力权重表示词语wi在客户回答分词文本中的重要程度。在一种示例性实例中,注意力权重的可以采用如下公式计算:其中,W1,W2,b′和V′表示可以通过训练得到的本申请意图分类模型的模型参数;从注意力权重的计算公式可以看出,考虑了客服提问的自向量表示vq对客户回答的互向量表示vqa的影响。
对于步骤1013中的向量表示包括互向量表示的情况,在一种示例性实例中,步骤1013具体可以包括:
首先,拼接获得的第一分词文本和第一分词拼音文本的互向量表示vaq,和第二分词文本和第二分词拼音文本的互向量表示vqa,符号表示如下:v=vaq⊕vqa;
然后,对拼接得到的输出向量v进行计算获得N种不同通用意图对应的概率分布,在一种示例性实例中,N=8,如表1所示的8种通用意图。具体可以包括:输出向量v依次通过全连接层和softmax层,获得N种通用意图下的概率分布p∈RN,其中,全连接层和Softmax层的计算如下所示:
其中,x是可训练的参数矩阵,将拼接得到的输出向量v映射成长度等于意图种类数目N的向量通过Softmax函数获得意图归属的概率分布p,向量p中每个元素值表示属于该意图的可能性,将最大的概率值对应的意图类别为最终预测的意图分类结果。
可选地,在一种示例性实例中,步骤1012之后,步骤1013之前,本申请还包括:
根据得到的隐含向量和自向量表示并利用互注意机制,获取第一分词文本和第一分词拼音文本的互向量表示以及第二分词文本和第二分词拼音文本的互向量表示;
此时,步骤1013中的向量表示包括自向量表示和互向量表示。
本实施例中,一方面,通过自注意机制来获得每个文本(客服提问/客户回答)的向量表示,这样,在生成文本表示时,考虑了文本中词语的不同重要性,从而获得了更好的文本表示,从而获得了更好的意图分类性能;另一方面,通过互注意机制获得客服提出的问题影响下的客户回答的向量表示vqa,以及客户回答影响下的客服提出问题的向量表示vaq,这样,在生成文本表示时,获得了不同文本对的依赖关系,考虑了提问的文本中词语在回答中的不同重要性以及回答的文本中词语在提问中的不同重要性,从而获得了更好的文本表示,从全局来获得了文本的表示,从而获得了更好的意图分类性能。
对于步骤1013中的向量表示包括自向量表示和互向量表示的情况,在一种示例性实例中,步骤1013具体可以包括:
然后,对拼接得到的输出向量v进行计算获得N种不同意图对应的概率分布,在一种示例性实例中,N=8,如表1所示的8种通用意图。具体可以包括:输出向量v依次通过全连接层和softmax层,获得N种意图下的概率分布p∈RN,其中,全连接层和Softmax层的计算如下所示:
其中,X是可训练的参数矩阵,将拼接得到的输出向量v映射成长度等于意图种类数目N的向量通过Softmax函数获得意图归属的概率分布p,向量p中每个元素值表示属于该意图的可能性即概率值,将最大的概率值对应的意图类别为最终预测的意图分类结果。
本申请实施例提供的对话的意图分类方法可以应用在如:智能云电销、智能话术辅助、智能人机协同、精准营销以及智能培训等很多场景下。比如:在智能云电销场景中,存在大量的重复低效工作,通过本申请实施例实现了对潜在的客户进行筛选,进而提升了客服工作效率。再如:对于智能话术辅助,采用本申请实施例通过分析客户话语的意图,实现了自动协助或提示客服采取最恰当的响应。
在一种示例性实例中,本申请还提供一种对话的意图分类方法,包括:
将客服和客户对话的文本对中的提问文本转换为第一分词文本,答复文本转换为第二分词文本;
将第一分词文本转换为第一分词拼音文本,将第二分词文本转换为第二分词拼音文本;
将第一分词文本、第二分词文本、第一分词拼音文本和第二分词拼音文本输入预先训练的意图分类模型对客服和客户对话进行意图类别识别;其中,意图分类模型根据包括文本对的对话样本集生成。
在一种示例性实例中,本申请还提供一种对话的意图分类方法,包括:
将客服和客户对话的文本对中的提问文本转换为第一分词文本,答复文本转换为第二分词文本;
将第一分词文本转换为第一分词拼音文本,将第二分词文本转换为第二分词拼音文本;
将第一分词文本、第二分词文本、第一分词拼音文本和第二分词拼音文本输入预先训练的意图分类模型对客服和客户对话进行意图类别识别;其中,意图分类模型根据包括文本对的对话样本集生成;
展现对客服和客户对话进行意图类别识别的结果,以利用得到的结果实现后续对话。
本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项的对话的意图分类方法。
本申请再提供一种对话意图分类设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上任一项所述的对话的意图分类方法的步骤。
图3为本申请对话的意图分类的应用场景实施例的示意图,为了实现对话的意图分类,本实施例中,意图分类模型可以包括6个神经网络层,意图分类模型的输入文本对包括语音转换并进行分词处理(本申请的语音转换包括中文和对应的拼音两部分)后的单轮客服提出问题分词文本如:您/看/可以/吗/?,以及客户进行答复分词文本如:可以/的,意图分类模型的输出为识别出的文本对最可能的通用意图。如图3所示,6个神经网络层可以包括:查询层,BiLSTM层,局部注意力层,全局注意力层,连接层和分类层。其中,
查询层,用于通过查询预先训练的词向量矩阵来获得每个词语对应的词向量,通过查询预先训练的拼音向量矩阵来获得每个词语的拼音向量;拼接得到的词语向量和拼音向量得到每个词语对应的表示向量。具体实现如步骤1010所述,这里不再赘述。
对于查询层,传统方法是基于大量分词后的中文语料训练词向量资源,即获得中文词语的词向量矩阵。而本申请实施例中还会通过训练对应的拼音向量矩阵,使得输入的分词后的文本分别通过词向量矩阵和拼音向量矩阵获得每个词语对应的词向量和拼音向量。最后,将输出的两个向量拼接作为该词语的最终表示向量。
局部注意力层,用于根据得到的客服提出问题分词文本对应的隐含向量和客户进行答复分词文本对应的隐含向量,分别利用自注意机制获取客服提出问题分词文本的自向量表示,以及客户进行答复分词文本的自向量表示。具体实现如步骤1012所述,这里不再赘述。
全局注意力层,用于根据得到的客服提出问题分词文本对应的隐含向量和自向量表示,以及客户进行答复分词文本对应的隐含向量和自向量表示,分别利用互注意机制,获取客服提出问题分词文本的互向量表示以及客户进行答复分词文本的互向量表示。具体实现如上文步骤1012之后步骤1013之前包括的步骤所述,这里不再赘述。
对于局部注意力层和全局注意力层,利用自注意力机制从局部捕获不同重要性的词语,获取文本对的内部相关性,利用交互注意力机制从获取文本对间的相关性以捕获不同文本对的依赖关系。
连接层,用于将拼接获得的客服提出问题分词文本对应的自向量表示、互向量表示,和客户进行答复分词文本对应的自向量表示、互向量表示。
分类层,用于对连接层拼接得到的输出向量v进行计算,获得N种不同通用意图对应的概率分布,将最大的概率值对应的意图类别确定为最终预测的输入夫的文本对的意图分类结果并输出。比如,本实施例中输入的文本对包括:您/看/可以/吗/?,可以/的;那么,经过本申请图3所示的神经网络,输出的文本对的意图分类结果为:肯定。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (19)
1.一种对话的意图分类方法,包括:
将对话对应的第一分词文本转换为第一分词拼音文本,将对话对应的第二分词文本转换为第二分词拼音文本;
将第一分词文本、第二分词文本、第一分词拼音文本和第二分词拼音文本输入预先训练的意图分类模型对所述对话进行意图类别识别;其中,意图分类模型根据包括文本对的对话样本集生成。
2.根据权利要求1所述的意图分类方法,所述方法之前还包括:
对文本对中的第一文本进行分词处理获取所述第一分词文本,对文本对中的第二文本进行分词处理获取所述第二分词文本;
其中,第一文本为所述对话对应的文本对中的问题文本,第二文本为所述对话对应的文本对中的答复文本。
3.根据权利要求1所述的意图分类方法,所述方法之前还包括:
将包括文本对的对话样本集作为训练数据输入预先构建的算法模型,训练得到对对话进行意图分类的所述意图分类模型;其中,文本对的对话样本集包括:第一分词文本、第二分词文本,以及第一分词拼音文本、第二分词拼音文本。
4.根据权利要求1、2或3所述的意图分类方法,其中,所述将第一分词文本、第二分词文本、第一分词拼音文本和第二分词拼音文本输入预先训练的意图分类模型进行意图类别识别,包括:
对所述第一分词文本和所述第一分词拼音文本分别进行处理得到每个词语对应的词向量和每个拼音对应的拼音向量,拼接对应每个词语的词向量和拼音向量作为该词的表示向量;对所述第二分词文本和所述第二分词拼音文本分别进行处理得到每个词语对应的词向量和每个拼音对应的拼音向量,拼接对应每个词语的词向量和拼音向量作为该词语的表示向量;
对所述第一分词文本和所述第一分词拼音文本对应的表示向量进行编码得到第一隐含向量,对所述第二分词文本和所述第二分词拼音文本对应的表示向量进行编码得到第二隐含向量;
根据得到的隐含向量,获取所述第一分词文本和所述第一分词拼音文本的自向量表示,以及所述第二分词文本和所述第二分词拼音文本的自向量表示,以获得每个文本对的向量表示;
拼接获得的向量表示,将拼接得到的输出向量输入所述意图分类模型进行意图类别预测,得到意图分类结果。
5.根据权利要求4所述的意图分类方法,其中,所述得到每个词语对应的词向量和每个拼音对应的拼音向量,包括:
通过查询预先训练的词向量矩阵获得所述每个词语对应的词向量;
通过查询预先训练的拼音向量矩阵来获得所述每个词语的拼音向量。
6.根据权利要求4所述的意图分类方法,其中,得到所述第一隐含向量或所述第二隐含向量,包括:
针对所述表示向量,分别从前往后以及从后往前两个方向分别获取前向隐含向量和后向隐含向量;
将对应位置向量拼接得到对应的隐含向量。
7.根据权利要求4所述的意图分类方法,其中,所述拼接获得的向量表示中的向量表示包括:
所述第一分词文本和所述第一分词拼音文本的自向量表示,和所述第二分词文本和所述第二分词拼音文本的自向量表示。
8.根据权利要求4所述的意图分类方法,所述方法还包括:
根据所述得到的隐含向量和自向量表示,获取所述第一分词文本和所述第一分词拼音文本的互向量表示以及所述第二分词文本和所述第二分词拼音文本的互向量表示,以获得所述第一文本对应的问题影响下的所述第二文本对应的回答的向量表示,以及所述第二文本对应的回答影响下的所述第一文本对应的问题的向量表示。
9.根据权利要求8所述的意图分类方法,其中,所述拼接获得的向量表示中的向量表示包括:
所述第一分词文本和所述第一分词拼音文本的互向量表示,和所述第二分词文本和所述第二分词拼音文本的互向量表示。
10.根据权利要求8所述的意图分类方法,其中,所述拼接获得的向量表示中的向量表示包括:
所述第一分词文本和所述第一分词拼音文本的自向量表示,和所述第二分词文本和所述第二分词拼音文本的自向量表示,所述第一分词文本和所述第一分词拼音文本的自互向量表示,和所述第二分词文本和所述第二分词拼音文本的互向量表示。
11.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~权利要求10任一项所述的对话的意图分类方法。
12.一种对话的意图分类设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行权利要求1~权利要求10任一项所述的对话的意图分类方法的步骤。
13.一种生成意图分类模型的方法,包括:
将包括文本对的对话样本集作为训练数据输入预先构建的算法模型中,训练得到对对话进行意图分类的意图分类模型;
其中,文本对包括对话对应的问题文本和答复文本。
14.根据权利要求13所述的方法,其中,所述文本对的对话样本集包括:
所述文本对中的问题文本经过分词处理后得到的第一分词文本;
所述文本对中的答复文本经过分词处理后得到的第二分词文本;
第一分词文本对应的拼音形式的第一分词拼音文本;
第二分词文本对应的拼音形式的第二分词拼音文本。
15.根据权利要求13所述的方法,其中,所述算法模型采用交叉熵损失作为目标函数。
16.根据权利要求13所述的方法,所述方法还包括:采用后向传播算法计算所述意图分类模型的模型参数的梯度。
17.根据权利要求13所述的方法,所述方法还包括:更新所述意图分类模型的参数,以对所述意图分类模型的参数进行优化。
18.一种对话的意图分类方法,包括:
将客服和客户对话的文本对中的提问文本转换为第一分词文本,答复文本转换为第二分词文本;
将第一分词文本转换为第一分词拼音文本,将第二分词文本转换为第二分词拼音文本;
将第一分词文本、第二分词文本、第一分词拼音文本和第二分词拼音文本输入预先训练的意图分类模型对所述客服和客户对话进行意图类别识别;其中,意图分类模型根据包括文本对的对话样本集生成。
19.一种对话的意图分类方法,包括:
将客服和客户对话的文本对中的提问文本转换为第一分词文本,答复文本转换为第二分词文本;
将第一分词文本转换为第一分词拼音文本,将第二分词文本转换为第二分词拼音文本;
将第一分词文本、第二分词文本、第一分词拼音文本和第二分词拼音文本输入预先训练的意图分类模型对所述客服和客户对话进行意图类别识别;其中,意图分类模型根据包括文本对的对话样本集生成;
展现对所述客服和客户对话进行意图类别识别的结果,以利用得到的结果实现后续对话。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911251188.6A CN113033160A (zh) | 2019-12-09 | 2019-12-09 | 对话的意图分类方法及设备和生成意图分类模型的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911251188.6A CN113033160A (zh) | 2019-12-09 | 2019-12-09 | 对话的意图分类方法及设备和生成意图分类模型的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113033160A true CN113033160A (zh) | 2021-06-25 |
Family
ID=76452011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911251188.6A Pending CN113033160A (zh) | 2019-12-09 | 2019-12-09 | 对话的意图分类方法及设备和生成意图分类模型的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033160A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880472A (zh) * | 2022-04-28 | 2022-08-09 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993599A (zh) * | 2017-12-30 | 2019-07-09 | 青海沃爱思智能科技有限公司 | 汉语自然语文本远程遥控的智能销售系统 |
CN109992792A (zh) * | 2017-12-30 | 2019-07-09 | 苗码信息科技(上海)股份有限公司 | 智能外语文本现场控制的销售系统 |
WO2019153522A1 (zh) * | 2018-02-09 | 2019-08-15 | 卫盈联信息技术(深圳)有限公司 | 智能交互方法、电子装置及存储介质 |
WO2019210557A1 (zh) * | 2018-05-03 | 2019-11-07 | 平安科技(深圳)有限公司 | 语音质检方法、装置、计算机设备及存储介质 |
-
2019
- 2019-12-09 CN CN201911251188.6A patent/CN113033160A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993599A (zh) * | 2017-12-30 | 2019-07-09 | 青海沃爱思智能科技有限公司 | 汉语自然语文本远程遥控的智能销售系统 |
CN109992792A (zh) * | 2017-12-30 | 2019-07-09 | 苗码信息科技(上海)股份有限公司 | 智能外语文本现场控制的销售系统 |
WO2019153522A1 (zh) * | 2018-02-09 | 2019-08-15 | 卫盈联信息技术(深圳)有限公司 | 智能交互方法、电子装置及存储介质 |
WO2019210557A1 (zh) * | 2018-05-03 | 2019-11-07 | 平安科技(深圳)有限公司 | 语音质检方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
YONGBIN LIU; XIAOJIE WANG: "A hierarchical intention recognition model for situated dialogue system", IEEE, 6 August 2015 (2015-08-06) * |
王开扬;: "汉语的自动理解与汉语文本的改进", 术语标准化与信息技术, no. 04, 25 December 2006 (2006-12-25) * |
胡浩;李平;陈凯琪;: "基于汉字固有属性的中文字向量方法研究", 中文信息学报, no. 03, 15 May 2017 (2017-05-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880472A (zh) * | 2022-04-28 | 2022-08-09 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108694225B (zh) | 一种图像搜索方法、特征向量的生成方法、装置及电子设备 | |
CN108428447B (zh) | 一种语音意图识别方法及装置 | |
CN111291183B (zh) | 利用文本分类模型进行分类预测的方法及装置 | |
WO2022095380A1 (zh) | 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质 | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
US20160358599A1 (en) | Speech enhancement method, speech recognition method, clustering method and device | |
CN111143530B (zh) | 一种智能答复方法及装置 | |
CN113239147A (zh) | 基于图神经网络的智能会话方法、系统及介质 | |
CN111858854A (zh) | 一种基于历史对话信息的问答匹配方法及相关装置 | |
WO2020214253A1 (en) | Condition-invariant feature extraction network for speaker recognition | |
CN114416989A (zh) | 一种文本分类模型优化方法和装置 | |
CN111639162A (zh) | 信息交互方法和装置、电子设备和存储介质 | |
CN110717027B (zh) | 多轮智能问答方法、系统以及控制器和介质 | |
CN116150651A (zh) | 基于ai的深度合成检测方法和系统 | |
CN117493513A (zh) | 一种基于向量和大语言模型的问答系统及方法 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CA3171020A1 (en) | Systems and methods for performing automated interactive conversation with a user | |
CN112667792B (zh) | 人机对话数据处理方法、装置、计算机设备和存储介质 | |
CN113850387A (zh) | 专家系统知识库构建方法、问答方法、系统、装置及介质 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN113033160A (zh) | 对话的意图分类方法及设备和生成意图分类模型的方法 | |
CN113111855B (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
Andra et al. | Contextual keyword spotting in lecture video with deep convolutional neural network | |
CN114333770A (zh) | 自动发音评估方法、装置、设备及存储介质 | |
CN114492452A (zh) | 一种预训练语言模型的训练、诉求转接方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |