CN113886548A - 意图识别模型训练方法、识别方法、装置、设备及介质 - Google Patents
意图识别模型训练方法、识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113886548A CN113886548A CN202111159845.1A CN202111159845A CN113886548A CN 113886548 A CN113886548 A CN 113886548A CN 202111159845 A CN202111159845 A CN 202111159845A CN 113886548 A CN113886548 A CN 113886548A
- Authority
- CN
- China
- Prior art keywords
- intention
- feature extraction
- semantic
- feature
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000013598 vector Substances 0.000 claims description 362
- 238000000605 extraction Methods 0.000 claims description 242
- 239000003795 chemical substances by application Substances 0.000 claims description 35
- 230000002457 bidirectional effect Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 16
- 235000019580 granularity Nutrition 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000007670 refining Methods 0.000 description 4
- 101150026173 ARG2 gene Proteins 0.000 description 3
- 101100005166 Hypocrea virens cpa1 gene Proteins 0.000 description 3
- 101100379633 Xenopus laevis arg2-a gene Proteins 0.000 description 3
- 101100379634 Xenopus laevis arg2-b gene Proteins 0.000 description 3
- 101150088826 arg1 gene Proteins 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 208000031361 Hiccup Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明用于人工智能领域,涉及区块链领域,公开了一种意图识别模型训练方法、识别方法、装置、设备及介质,其中,方法部分包括:获取预设对话样本数据集,预设对话样本数据集中对话样本对应有意图级别依次细化的多个标准意图标签;将对话样本输入含有初始参数的预设识别模型中,得到意图级别依次细化的多个意图预测标签;根据多个意图预测标签和多个标准意图标签,确定预设识别模型的总损失值;在总损失值未达到预设收敛条件时,迭代更新预设识别模型的初始参数,直至总损失值达到预设收敛条件时得到意图识别模型;本发明提高了每一级意图识别任务的准确率,提高了意图识别模型的算法精度,进而提高了对客户意图识别的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种意图识别模型训练方法、识别方法、装置、设备及介质。
背景技术
对话系统是自然语言处理中的一项非常具有挑战的任务,对话系统包括闲聊、问答和任务多种系统类型,能够在不同场景为客户提供不同的信息。在对话系统中,需要对客户的意图进行识别,以根据识别到的客户意图为用户提供服务,意图识别准确率影响对话系统的整体质量。
目前,意图识别方法主要采用机器学习的方法,训练获得意图识别模型,然后利用训练好的意图识别模型,对系统中客户输入文本的意图进行识别。但在实际应用中,对客户输入文本的意图识别可以细分为依次细化的多层级的意图识别任务,例如在催收场景对话下,需要依次识别客户本人-咨询类-账户信息-还款时间等四个意图标签,下级意图标签是上级标签的细分标签,对具有不同层级的四个意图标签进行识别,能够准确识别客户输入的意图。
但现有的意图识别模型,一般是根据客户输入文本在多个同级标签中,匹配一个标签作为客户意图识别结果,意图识别模型的算法较为简单,精度不高,导致意图识别结果不够准确。
发明内容
本发明提供一种意图识别模型训练方法、识别方法、装置、设备及介质,以解决意图识别模型的算法较为简单,导致意图识别结果不够准确的问题。
提供一种意图识别模型训练方法,包括:
获取预设对话样本数据集,预设对话样本数据集中的对话样本对应一个意图标签链,意图标签链包括意图级别依次细化的多个标准意图标签;
将对话样本输入含有初始参数的预设识别模型中,以通过预设识别模型对对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签;
根据多个意图预测标签和多个标准意图标签,确定预设识别模型的总损失值;
在总损失值未达到预设收敛条件时,迭代更新预设识别模型的初始参数,直至总损失值达到预设收敛条件时,将收敛之后的预设识别模型记录为意图识别模型。
提供一种意图识别方法,包括:
获取坐席文本和客户文本组成的对话文本;
将对话文本输入意图识别模型,以使意图识别模型对对话文本进行意图识别,得到意图级别依次细化的多个意图识别标签,意图识别模型为根据上述意图识别模型训练方法得到的模型;
将多个意图识别标签进行拼接,以作为对话文本的意图。
提供一种意图识别模型训练装置,包括:
获取模块,用于获取预设对话样本数据集,预设对话样本数据集中的对话样本对应一个意图标签链,意图标签链包括意图级别依次细化的多个标准意图标签;
预测模块,用于将对话样本输入含有初始参数的预设识别模型中,以通过预设识别模型对对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签;
确定模块,用于根据多个意图预测标签和多个标准意图标签,确定预设识别模型的总损失值;
迭代模块,用于在总损失值未达到预设收敛条件时,迭代更新预设识别模型的初始参数,直至总损失值达到预设收敛条件时,将收敛之后的预设识别模型记录为意图识别模型。
提供一种意图识别装置,包括:
获取模块,用于获取坐席文本和客户文本组成的对话文本;
输入模块,用于将对话文本输入意图识别模型,以使意图识别模型对对话文本进行意图识别,得到意图级别依次细化的多个意图识别标签,意图识别模型根据上述意图识别模型训练方法得到的模型;
拼接模块,用于将多个意图识别标签进行拼接,以作为对话文本的意图。
一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述意图识别模型训练方法的步骤,和/或计算机程序被处理器执行时实现上述意图识别方法的步骤。
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述意图识别模型训练方法的步骤,和/或计算机程序被处理器执行时实现上述意图识别方法的步骤。
上述意图识别模型训练方法、识别方法、装置、设备及介质所提供的一个方案中,通过获取预设对话样本数据集,预设对话样本数据集中的对话样本对应一个意图标签链,意图标签链包括意图级别依次细化的多个标准意图标签;然后将对话样本输入含有初始参数的预设识别模型中,以通过预设识别模型对对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签;再根据多个意图预测标签和多个标准意图标签,确定预设识别模型的总损失值;最后在总损失值未达到预设收敛条件时,迭代更新预设识别模型的初始参数,直至总损失值达到预设收敛条件时,将收敛之后的预设识别模型记录为意图识别模型;本发明中,通过对话样本的多个标准意图标签,描述对话样本中各层级意图级别之间层次性的语义关系,由于不同层级的意图标签对应不同粒度的信息,因而根据对话样本数据训练获得意图识别模型,能够充分挖掘出各层级意图识别任务对应的粒度信息,从而提高每一级意图识别任务的准确率,提高了意图识别模型的算法精度,进而提高了对客户意图识别的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中意图识别模型训练方法的一应用环境示意图;
图2是本发明一实施例中意图识别模型训练方法的一流程示意图;
图3是图2中步骤S20的一实现流程示意图;
图4是图3中步骤S22的一实现流程示意图;
图5是图4中步骤S221的一实现流程示意图;
图6是图5中步骤S2211的一实现流程示意图;
图7是本发明一实施例中意图识别方法的一流程示意图;
图8是本发明一实施例中意图识别装置的一结构示意图;
图9是本发明一实施例中意图识别模型训练装置的一结构示意图;
图10是本发明一实施例中计算机设备的一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的意图识别模型训练方法和/或意图识别方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。
其中,服务器获取终端设备发送的预设对话样本数据集,预设对话样本数据集中的对话样本对应一个意图标签链,意图标签链包括意图级别依次细化的多个标准意图标签;然后将对话样本输入含有初始参数的预设识别模型中,以通过预设识别模型对对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签;再根据多个意图预测标签和多个标准意图标签,确定预设识别模型的总损失值;最后在总损失值未达到预设收敛条件时,迭代更新预设识别模型的初始参数,直至总损失值达到预设收敛条件时,将收敛之后的预设识别模型记录为意图识别模型。通过对话样本的多个标准意图标签,描述对话样本中各层级意图级别之间层次性的语义关系,由于不同层级的意图标签对应不同粒度的信息,因而根据对话样本数据训练获得意图识别模型,能够充分挖掘出各层级意图识别任务对应的粒度信息,从而提高每一级意图识别任务的准确率,提高了意图识别模型的算法精度,进而提高了对客户意图识别的准确性。
在训练获得意图识别模型之后,服务器获取客户通过终端设备发送的客户文本,并将坐席文本和客户文本组成的对话文本,然后将对话文本输入意图识别模型,以使意图识别模型对对话文本进行意图识别,得到意图级别依次细化的多个意图识别标签,意图识别模型为根据上述意图识别模型训练方法得到的模型;最后将多个意图识别标签进行拼接,以作为对话文本的意图,通过使用精度较高的意图识别模型对客户的意图进行识别,提高了对客户意图识别的准确性,最终进一步提高了问答系统的人工智能化,提高了用户体验。
其中,预设对话样本数据集、意图识别模型、坐席文本和客户文本等相关数据存储在服务器的数据库中,在需要对用户意图进行识别时,直接从服务器的数据库获取相关数据,提高对客户意图进行识别的效率。
本实施例中的数据库存储于区块链网络中,用于存储意图识别模型训练方法和/或意图识别方法中用到、生成的数据,如预设对话样本数据集、意图识别模型、坐席文本和客户文本等相关数据。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。将数据库部署于区块链可提高数据存储的安全性。
其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种意图识别模型训练方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取预设对话样本数据集,预设对话样本数据集中的对话样本对应一个意图标签链,意图标签链包括意图级别依次细化的多个标准意图标签。
先获取对话系统中多个对话样本,其中,对话样本包括坐席文本样本和客户输入的客户文本样本,然后对每一对话样本进行不同意图级别的人工标注,以获得意图级别依次细化的多个标准意图标签,将标注有多个标准意图标签的每一对话样本汇总为预设对话样本数据集,以便于后续基于预设对话样本数据集进行模型训练。
可知,由于多个标准意图标签为意图级别依次细化的标签,则每个对话样本的多个标准意图标签即形成一个类别依次细化的意图标签链,意图标签链中的每一级标准意图标签均代表一个意图级别,意图标签链中为下一标准意图标签为上级标准意图标签进行细化后的子标签。其中,意图标签链的第一级标签为最大的意图级别(如客户本人),意图标签链的第二级标签为第一级标签下的子标签(如客户本人下的咨询类),意图标签链的第三级标签为第二级标签下的子标签(如咨询类下的费用明细),以此类推,直至细化到第n级标签。
例如,对话样本中的坐席文本样本为:您昨天账单日的这笔借款已经逾期1天了,现在能转一下吗?还得存个1145.37元。对应地,对话样本中的客户文本样本为:呃,还欠多少?对上述对话样本进行不同意图级别的人工标注后,意图级别依次细化的多个标准意图标签依次为:客户本人、咨询类、费用明细、剩余本金,客户本人、咨询类、费用明细、剩余本金形成一个意图标签链,咨询类为对客户本人这一意图级别进行细化的子标签,费用明细为咨询类这一意图级别进行细化的子标签,剩余本金为费用明细这一意图级别进行细化的子标签。
S20:将对话样本输入含有初始参数的预设识别模型中,以通过预设识别模型对对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签。
在获得预设对话样本数据集之后,将对话样本输入含有初始参数的预设识别模型中,以通过预设识别模型对对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签。多个意图预测标签对应不同级别的意图预测标签(如第一级意图预测标签、第二级意图预测标签…第m级意图预测标签),多个意图预测标签形成意图级别依次细化的预测标签链。
其中,预设识别模型包括输入层、特征提取模块和多个多层感知机(multilayerperceptron,简称MLP)。其中,输入层用于将输入的对话样本转化为具有上下文语义关系的向量表示,即将输入的对话样本转化为上下文语义向量。特征提取模块用于将输入层输出的上下文语义向量进行多次特征提取,每次特征提取均获得上下文语义向量对应的一组特征向量(包括客户文本样本对应的特征向量和坐席文本样本对应的特征向量),特征提取的次数越多,获得的特征向量对应的信息粒度越细;然后对该组特征向量进行基于注意力机制的语义关系捕获,以获得语义特征向量,从而获得多次特征提取后对应捕获的语义特征向量,即多个语义特征向量;多层感知机用于将多个语义特征向量进行意图预测,获得意图预测标签,对多个语义特征向量进行不同的组合,即可获得不同意图级别依次细化的多个意图预测标签,形成预测标签链。
其中,预设识别模型中多层感知机MLP的数量,以意图标签链中标准意图标签的数量对应,例如,意图标签链中标准意图标签的数量为4,即意图标签链包括4级标准意图标签,则意图识别模型中多层感知机MLP的数量为4,对应地,输出的意图预测标签的数量也为4。
S30:根据多个意图预测标签和多个标准意图标签,确定预设识别模型的总损失值。
需要理解的是,在对预设识别模型进行训练的过程中,通过标准随机梯度下降算法对预设识别模型进行训练,使用交叉熵函数作为每个意图级别预测(意图分类)的代价函数,其中,代价函数的数量与意图标签链中标准意图标签的数量对应。
在得到意图级别依次细化的多个意图预测标签之后,根据多个意图预测标签和多个标准意图标签,确定预设识别模型的总损失值。其中,将多个标准意图标签的各标准意图标签,与多个意图预测标签中的意图预测标签一一对应,然后根据代价函数计算标准意图标签和标准意图标签对应的意图预测标签的子损失值,以获得多个子损失值,再根据多个损失值计算预设识别模型的总损失值。预设识别模型的总损失值为最小化多个代价函数的线形和。
以意图标签链中标准意图标签的数量为4为例,即意图标签链中包括4级标准意图标签,则预设识别模型具有4个意图分类的代价函数,意图标签链中多个标准意图标签的分布分别为标准意图标签对应的意图预测标签的分布依次为:y1、y2、y3、y4,则根据4个代价函数对应计算的四个子损失值分别为Jo、Jt、Js、Jf,四个子损失值依次通过如下4个代价函数计算:
则总损失值为4个代价函数的线形和,总损失值的计算公式如下所示:
其中,L为预设识别模型的总损失值;M表示预设对话样本数据集的对话样本个数(事例个数)。
本实施例中,以意图标签链中标准意图标签的数量为4仅为示例性说明,在其他实施例中,意图标签链中标准意图标签的数量还可以是其他,在此不再赘述。
S40:在总损失值未达到预设收敛条件时,迭代更新预设识别模型的初始参数,直至总损失值达到预设收敛条件时,将收敛之后的预设识别模型记录为意图识别模型。
在根据多个意图预测标签和多个标准意图标签,确定预设识别模型的总损失值之后,需要确定总损失值是否达到预设收敛条件,在确定总损失值未达到预设收敛条件时,迭代更新预设识别模型的初始参数,直至总损失值达到预设收敛条件时,将收敛之后的预设识别模型记录为意图识别模型。
可以理解的,预设收敛条件可以为总损失值小于预定阈值的条件,也即在总损失值小于预定阈值时,确定总损失值达到预设收敛条件,停止训练;预设收敛条件还可以是总损失值经过预设次数的计算后值很小且不会再下降的条件,也即当总损失值经过预设次数的计算后值很小且不会再下降时,确定总损失值达到预设收敛条件,停止训练;预设收敛条件还可以是最小化4个代价函数的线形和,即当总损失值为最小4个代价函数的线形和时,确定总损失值达到预设收敛条件,停止训练,此时总损失值如下公式所示:
本实施例中,通过获取预设对话样本数据集,预设对话样本数据集包括由坐席文本样本和客户文本样本构成的多个对话样本,对话样本对应一个意图标签链,意图标签链包括意图级别依次细化的多个标准意图标签预设对话样本数据集包括由坐席文本和客户文本构成的多个对话样本,对话样本对应有意图级别依次细化的多个标准意图标签;然后将对话样本输入含有初始参数的预设识别模型中,以通过预设识别模型对对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签;再根据多个意图预测标签和多个标准意图标签,确定预设识别模型的总损失值;最后在总损失值未达到预设收敛条件时,迭代更新预设识别模型的初始参数,直至总损失值达到预设收敛条件时,将收敛之后的预设识别模型记录为意图识别模型;本发明中,通过对话样本的多个标准意图标签链,描述对话样本中各层级意图级别之间层次性的语义关系,由于不同层级的意图标签对应不同粒度的信息,因而根据对话样本数据训练获得意图识别模型,能够充分挖掘出各层级意图识别任务对应的粒度信息,从而提高每一级意图识别任务的准确率,提高了意图识别模型的算法精度,进而提高了对客户意图识别的准确性。
在一实施例中,如图3所示,步骤S20中,即将对话样本输入含有初始参数的预设识别模型中,以通过预设识别模型对对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签,具体包括如下步骤:
S21:将对话样本输入预设识别模型的输入层,以获得输入层输出的对话样本的上下文语义向量。
在获得预设对话样本数据集之后,将预设对话样本数据集中的对话样本依次输入预设识别模型的输入层,以获得输入层输出的对话样本的上下文语义向量。其中,对话样本的上下文语义向量包括坐席文本样本的上下文语义向量、客户文本样本的上下文语义向量。
例如,对话样本的坐席文本样本为arg1,对话样本的客户文本样本为arg2,将arg1和arg2构成的对话样本输入预设识别模型,则预设识别模型的输入层会将arg1和arg2编码为具有上下文语义关系的向量表示和对话样本的上下文语义向量的如下列公式所示:
其中,输入层可以为浅层神经网络或者长短期记忆网络(Long Short TermMemory networks,简称LSTM网络)等。
S22:将上下文语义向量输入预设识别模型的特征提取模块,以获得特征提取模块输出的多个拼接特征向量序列。
在获得对话样本的上下文语义向量之后,将输入层输出的上下文语义向量,输入预设识别模型的特征提取模块中,以使特征提取模块对上下文语义向量进行多次特征提取,并对每次提取到的特征向量进行基于注意力机制的语义关系捕获,以得到多个语义特征向量并对多个语义特征向量进行组合拼接,从而获得特征提取模块输出的多个拼接特征向量序列。
其中,为保证多个拼接特征向量序列与预测标签链的各级意图预测标签对应,多个拼接特征向量序列的语义特征向量依次叠加,以使各拼接特征向量序列对应的文本信息粒度依次增加。即各拼接特征向量序列由不同数量的语义特征向量拼接而成,且各拼接特征向量序列具有多个相同的语义特征向量。
例如,预测标签链具有4级意图预测标签,则多个拼接特征向量序列的数量为4,为保证多个拼接特征向量序列与预测标签链的各级意图预测标签对应,特征提取模块中可以获得f个语义特征向量,将f个语义特征向量组合拼接为4个拼接特征向量序列。其中,将第1个至第o个语义特征向量拼接为第一拼接特征向量序列(o1;o2;…;oo);将第1个至第t个语义特征向量拼接为第二拼接特征向量序列(o1;o2;…;ot);将第1个至第s个语义特征向量拼接为第三拼接特征向量序列(o1;o2;…;os);将第1个至第f个语义特征向量拼接为第四拼接特征向量序列(o1;o2;…;of)。可以看出第一拼接特征向量序列、第二拼接特征向量序列、第三拼接特征向量序列、第四拼接特征向量序列中的语义特征向量是依次叠加的关系,第一拼接特征向量序列、第二拼接特征向量序列、第三拼接特征向量序列、第四拼接特征向量序列的具有共享的第1个至第o个语义特征向量,第二拼接特征向量序列、第三拼接特征向量序列、第四拼接特征向量序列的具有共享的第1个至第t个语义特征向量,第三拼接特征向量序列、第四拼接特征向量序列的具有共享的第1个至第s个语义特征向量。
其中,oo,ot,os,of均为预设识别模型的超参数,且oo<ot<os<of。由上述内容可知,第一级意图预测的特征向量([o1;o2;…;oo])会参与到第二级意图预测、第三级意图预测以及第四级意图预测的特征向量中,类似的,第二级意图预测、第三级意图预测同样会参与到下一级的意图预测中,以达到不同粒度的特征提取。
S23:将拼接特征向量序列输入预设识别模型中对应的多层感知机,以使多层感知机对拼接特征向量序列进行意图预测。
在获得多个拼接特征向量序列之后,将拼接特征向量序列输入预设识别模型中对应的多层感知机MLP,以使多层感知机MLP对拼接特征向量序列进行意图预测。
S24:获取多个多层感知机输出的意图预测标签,作为多个意图预测标签。
例如,多个多层感知机包括4个,与各级预测标签一一对应,将第一拼接特征向量序列(o1;o2;…;oo)、第二拼接特征向量序列(o1;o2;…;ot)、第三拼接特征向量序列(o1;o2;…;os)、第四拼接特征向量序列(o1;o2;…;of)输入对应的多层感知机MLP,以使多层感知机MLP对上述4个拼接特征向量序列进行意图预测,获取对应多层感知机MLP对输出的意图预测标签,则4个意图预测标签依次为:
y1=softmax(MLP(o1;o2;…;oo]))
y1=softmax(MLP(o1;o2;…;ot]))
y3=softmax(MLP(o1;o2;…;os]))
y4=softmax(MLP(o1;o2;…;of]))
其中,归一化指数函数softmax为多层感知机MLP的函数;y1表示第一级意图预测标签(如客户本人);y2表示第二级意图预测标签(如咨询类);y3表示第三级意图预测标签(如费用明细);y4表示第四级意图预测标签(如剩余本金)。
本实施例中,将对话样本输入预设识别模型的输入层,以获得输入层输出的对话样本的上下文语义向量;将上下文语义向量输入预设识别模型的特征提取模块,以获得特征提取模块输出的多个拼接特征向量序列,多个拼接特征向量序列的语义特征向量依次叠加;将拼接特征向量序列输入预设识别模型中对应的多层感知机,以使多层感知机对拼接特征向量序列进行意图预测;获取多个多层感知机输出的意图预测标签,作为多个意图预测标签,细化了将对话样本输入含有初始参数的预设识别模型中,以通过预设识别模型对对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签的具体步骤,为后续的计算和模型训练提供了基础。
在一实施例中,如图4所示,步骤S22中,即将上下文语义向量输入预设识别模型的特征提取模块,以获得特征提取模块输出的多个拼接特征向量序列,具体包括如下步骤:
S221:将上下文语义向量输入特征提取模块,以获取特征提取模块中多个特征提取层对应输出的语义特征向量。
在获得对话样本的上下文语义向量之后,将将上下文语义向量输入特征提取模块,以获取特征提取模块中多个特征提取层对应输出的语义特征向量,以获得多个语义特征向量。
其中,特征提取模块由多个特征提取层依次堆叠形成,特征提取层的输出为下一特征提取层的输入。其中,每一特征提取层的结构相同,每一特征提取层均包括编码器和双向注意力模块,双向注意力模块为基于双向注意力机制的神经网络结构。
在将对话样本输入预设识别模型之后,输入层将对样文本转换为上下文语义向量并输出,然后将输出的上下文语义向量输入特征提取模块的第一个特征提取层,第一个特征提取层的编码器将对样文本的上下文语义向量进行特征提取,然后将提取到的特征向量输入第一个特征提取层的双向注意力模块,以使双向注意力模块对输入的特征向量进行语义关系捕获,并输出语义特征向量;同时,第一个特征提取层将提取到的特征向量输入至下一个特征提取层(第二特征提取层),以使下一个特征提取层的编码器对输入的特征向量进行特征提取,以获得下一个特征提取层中注意力模块输出的语义特征向量,并将下一特征提取层提取到的特征向量作为下下个特征提取层的输入,依次循环,以获得每一特征提取层中注意力模块输出的语义特征向量,作为多个特征提取层对应输出的语义特征向量。
S222:根据多个特征提取层的排列顺序,将多个特征提取层对应输出的语义特征向量进行划分组合,以获得多个拼接特征向量序列。
在获得多个特征提取层对应输出的语义特征向量之后,根据多个特征提取层的排列顺序,将多个特征提取层对应输出的语义特征向量进行划分组合,以获得多个拼接特征向量序列。在获得多个拼接特征向量序列之后,将各个拼接特征向量序列输入对应的多层感知机,获取各对应多层感知机输出的意图预测标签,作为意图级别依次细化的多个意图预测标签。该多个意图预测标签即为该对话样本的多个意图预测标签。
其中,特征提取模块可以包括f个特征提取层,以特征提取模块可以包括f个特征提取层,标签链为4级的标签链为例,根据多个特征提取层的排列顺序,将多个特征提取层对应输出的语义特征向量进行划分组合,以获得多个拼接特征向量序列,包括:
将第1个特征提取层至第o个特征提取层输出的多个语义特征向量进行拼接,得到第一拼接特征向量序列;
将第一个特征提取层至第t个特征提取层输出的多个语义特征向量进行拼接,得到第二拼接特征向量序列;
将第1个特征提取层至第s个特征提取层输出的多个语义特征向量进行拼接,得到第三拼接特征向量序列;
将第1个特征提取层至第f个特征提取层输出的多个语义特征向量进行拼接,得到第四拼接特征向量序列。
本实施例中,特征提取模块包括f个特征提取层,标签链为4级的标签链仅为示例性说明,将各个拼接特征向量序列包括的语义特征向量组合仅为示例性说明,在其他实施例,特征提取模块中特征提取层的数量还可以是其他,标签链还可以为包括其他级别的标签链,如2级的标签链、3级的标签链、5级的标签链等等,各个拼接特征向量序列包括的语义特征向量也可以是其他组合,在此不再赘述。
本实施例中,将上下文语义向量输入特征提取模块,以获取特征提取模块中多个特征提取层对应输出的语义特征向量,特征提取模块由多个特征提取层依次堆叠形成,各特征提取层输出的特征向量为下一特征提取层的输入;根据多个特征提取层的排列顺序,将多个特征提取层对应输出的多个语义特征向量进行划分组合,以获得多个拼接特征向量序列,细化了将上下文语义向量输入预设识别模型的特征提取模块,以获得特征提取模块输出的多个拼接特征向量序列的步骤,为后续基于多个拼接特征向量序列进行多级意图预测提供了基础。
在一实施例中,如图5所示,步骤S221中,即将上下文语义向量输入特征提取模块,以获取特征提取模块中多个特征提取层对应输出的语义特征向量,具体包括如下步骤:
S2211:在对话样本的上下文语义向量中,确定坐席文本样本的第一语义向量和客户文本样本的第二语义向量。
在获得对话样本的上下文语义向量之后,在话文本的上下文语义向量中,确定坐席文本样本的第一语义向量和客户文本样本的第二语义向量。
S2212:将第一语义向量和第二语义向量输入第一个特征提取层,以使第一个特征提取层对第一语义向量和第二语义向量进行特征提取,并对提取到的特征向量进行语义关系捕获,以获得第一个特征提取层输出的语义特征向量。
在确定坐席文本样本的第一语义向量和客户文本样本的第二语义向量之后,将第一语义向量和第二语义向量输入第一个特征提取层,以使第一个特征提取层对第一语义向量和第二语义向量进行特征提取,获得第一语义向量对应的第一特征向量、第二语义向量对应的第二特征向量,然后对第一特征向量和第二特征向量进行语义关系捕获,以获得第一特征向量和第二特征向量进行语义交互后的语义特征向量,作为第一个特征提取层输出的语义特征向量。
S2213:将第一个特征提取层提取到的特征向量输入下一特征提取层,以使下一特征提取层对输入的特征向量进行特征提取,并对提取到的特征向量进行语义关系捕获,以获得下一特征提取层输出的语义特征向量。
在第一个特征提取层提取到的特征向量之后,将第一个特征提取层提取到的特征向量输入下一特征提取层,以使下一特征提取层对输入的特征向量进行特征提取,并对提取到的特征向量进行语义关系捕获,以获得下一特征提取层输出的语义特征向量。
S2214:依次遍历所有的特征提取层,以获得多个特征提取层对应输出的语义特征向量。
在获得下一特征提取层提取到的特征向量之后,继续输入下一特征提取层的下一特征提取层(下下个特征提取层),重复上述步骤S2213,获得下下个特征提取层的提取到的特征向量,以根据提取到的特征向量输出的语义特征向量,依次遍历所有的特征提取层,以获得所有的特征提取层对应输出的语义特征向量,从而获得多个语义特征向量。
本实施例中,在对话样本的上下文语义向量中,确定坐席文本样本的第一语义向量和客户文本样本的第二语义向量;将第一语义向量和第二语义向量输入第一个特征提取层,以使第一个特征提取层对第一语义向量和第二语义向量进行特征提取,并对提取到的特征向量进行语义关系捕获,以获得第一个特征提取层输出的语义特征向量;将第一个特征提取层提取到的特征向量输入下一特征提取层,以使下一特征提取层对输入的特征向量进行特征提取,并对提取到的特征向量进行语义关系捕获,以获得下一特征提取层输出的语义特征向量;依次遍历所有的特征提取层,以获得多个语义特征向量,细化了将上下文语义向量输入特征提取模块,以获取特征提取模块中多个特征提取层对应输出的语义特征向量的过程,为后续根据多个语义特征向量确定多个拼接特征向量序列提供了基础。
在一实施例中,如图6所示,步骤S2211中,即将第一语义向量和第二语义向量输入第一个特征提取层,以使第一个特征提取层对第一语义向量和第二语义向量进行特征提取,并对提取到的特征向量进行语义关系捕获,以获得第一个特征提取层输出的语义特征向量,具体包括如下步骤:
S22111:将第一语义向量输入第一个特征提取层的第一编码器,以获得第一编码器输出的第一特征向量。
本实施例中,特征提取层包括第一编码器、第二编码器和双向注意力模块,第一编码器用于提取坐席文本样本对应的特征向量,第二编码器用于提取客户文本样本对应的特征向量,双向注意力模块用于对本特征提取层中第一编码器、第二编码器输出的特征向量进行语义关系捕获。
在获取第一语义向量之后,将第一语义向量输入第一个特征提取层的第一编码器,以获得第一编码器输出的第一特征向量。
S22112:将第二语义向量输入第一个特征提取层的第二编码器,以获得第二编码器输出的第二特征向量。
在获取第一语义向量之后,将第二语义向量输入第一个特征提取层的第二编码器,以获得第二编码器输出的第二特征向量。
本实施例中,第一编码器和第二编码器可以是任意编码器。本实施例中的意图识别模型可以不依赖于特定的编码器,只要现有的任意方法的编码器都可以作为特征提取器,提高了模型的通用性。
S22113:将第一特征向量和第二特征向量,输入第一个特征提取层的双向注意力模块,以使双向注意力模块对第一特征向量和第二特征向量进行语义关系捕获,并输出语义特征向量。
在获取第一语义向量和第二语义向量之后,将第一语义向量输入第一个特征提取层的第一编码器,以获得第一编码器输出的第一特征向量,同时将第二语义向量输入第一个特征提取层的第二编码器,以获得第二编码器输出的第二特征向量,然后将第一特征向量和第二特征向量,输入第一个特征提取层的双向注意力模块,以使双向注意力模块对第一特征向量和第二特征向量进行语义关系捕获,并输出语义特征向量,明确了第一个特征提取层的工作原理。
其他特征提取层的结构与第一个特征提取层的结构相同,均包括第一编码器、第二编码器和双向注意力模块。因此其他特征提取层的工作原理类似,区别在于其他特征提取层的输入为上一个特征提取层的输出的特征向量,在工作过程,其他特征提取层中的每个编码器接收上一层对应编码器的输出作为输入,然后将得到的输出作为本特征提取层中双向注意力模块和下一特征提取层对应编码器的输入。
本实施例中,将第一语义向量输入第一个特征提取层的第一编码器,以获得第一编码器输出的第一特征向量;将第二语义向量输入第一个特征提取层的第二编码器,以获得第二编码器输出的第二特征向量;将第一特征向量和第二特征向量,输入第一个特征提取层的双向注意力模块,以使双向注意力模块对第一特征向量和第二特征向量进行语义关系捕获,并输出语义特征向量,明确了将第一语义向量和第二语义向量输入第一个特征提取层,以使第一个特征提取层对第一语义向量和第二语义向量进行特征提取,并对提取到的特征向量进行语义关系捕获,以获得第一个特征提取层输出的语义特征向量,明确了语义特征向量获取过程,并为第一个特征提取层后的特征提取层的特征提取和语义特征向量捕获提供了基础。
在一实施例中,如图7所示,提供一种意图识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S01:获取坐席文本和客户文本组成的对话文本。
在客户使用对话系统的过程中,需要获取客户输入的客户文本,以及与客户文本对应的坐席文本,坐席文本一般为出现在客户文本之前的坐席文本。由于客户文本的信息量可能比较少,基于客户文本无法识别出客户意图,因此需要根结合客户文本之前的坐席文本,对客户的意图进行准确识别。在获取客户文本和坐席文本之后,将坐席文本和客户文本组成的对话文本,以便后续根据对话文本对客户意图进行识别。
S02:将对话文本输入意图识别模型,以使意图识别模型对对话文本进行意图识别,得到意图级别依次细化的多个意图识别标签。
其中,意图识别模型为根据上述意图识别模型训练方法得到的意图识别模型。
在获取坐席文本和客户文本组成的对话文本之后,将对话文本输入意图识别模型,以使意图识别模型对对话文本进行意图识别,得到意图级别依次细化的多个意图识别标签。
意图识别模型包括输入层、包含多个特征提取层的特征提取模块和多个多层感知机MLP。多层感知机MLP的数量与意图识别标签的数量对应。每个特征提取层均包括第一编码器、第二编码器和双向注意力模块,且特征提取层中编码器的输出,为本特征提取层中双向注意力模块的输入,同时,特征提取层中编码器的输出,为下一特征提取层对应编码的输入。
具体地,在获取坐席文本和客户文本组成的对话文本之后,将坐席文本和客户文本组成的对话文本输入意图识别模型,输入层将对话文本进行向量转换,获得坐席文本的上下文语义向量、客户文本的上下文语义向量。将坐席文本的上下文语义向量、客户文本的上下文语义向量输入特征提取模块,第一特征提取层中的第一编码器对坐席文本的上下文语义向量进行特征提取,获得第一特征向量,将第一编码器输出的第一特征向量输入第一特征提取层中的双向注意力模块,并将第一编码器输出的第一特征向量输入下一特征提取层的第一编码器,以进行特征提取;第一特征提取层中的第二编码器对客户文本的上下文语义向量进行特征提取,获得第二特征向量,将第二编码器输出的第二特征向量输入当前特征提取层(此时为第一特征提取层)中的双向注意力模块,并将第二编码器输出的第二特征向量输入下一特征提取层的第二编码器,以进行特征提取;特征提取层的双向注意力模块,接收本特征提取层中第一编码器和第二编码器分别输出的第一特征向量、第二特征向量之后,对第一特征向量、第二特征向量之间的语义关系进行捕获,获得语义特征向量并输出,作为当前特征提取层输出的语义特征向量。其他特征提取层的工作原理类似,以获取多个特征提取层中双向注意力模块对应输出的语义特征向量,获得多个语义特征向量之后,以及标签链的层级特征,将多个语义特征向量进行不同层级的向量组合拼接,获得多个拼接结果,将多个拼接结果输入对应的多层感知机MLP进行意图识别,以使各多层感知机MLP输出的意图识别标签,从而获得多个意图识别标签。
例如,意图识别模型中多层感知机MLP的数量为4,则将对话文本输入意图识别模型之后,获取f个特征提取层对对话文本的输出结果:f个表征对话文本的语义特征向量,将f个语义特征向量进行4个层级的向量组合拼接,获得4个拼接结果。其中,第一个拼接结果包括1至o个特征提取层输出的语义特征向量;第二个拼接结果包括1至t个特征提取层输出的语义特征向量;第三个拼接结果包括1至s个特征提取层输出的语义特征向量;第四个拼接结果包括1至f个特征提取层输出的语义特征向量。将第一个拼接结果输出对应的第一个多层感知机MLP进行意图识别,获得第一级意图识别标签;将第二个拼接结果输出对应的第二个多层感知机MLP进行意图识别,获得第二级意图识别标签;将第三个拼接结果输出对应的第三个多层感知机MLP进行意图识别,获得第三级意图识别标签;将第四个拼接结果输出对应的第四个多层感知机MLP进行意图识别,获得第四级意图识别标签。
第一级意图识别标签、第二级意图识别标签、第三级意图识别标签和第四级意图识别标签的意图级别依次细化,下级的意图识别标签为上级意图识别标签的子标签。
S03:将多个意图识别标签进行拼接,以作为对话文本的意图。
在获得意图级别依次细化的多个意图识别标签之后,将多个意图识别标签进行拼接,以作为对话文本的意图,即作为客户的意图。多个意图识别标签进行拼接之后,拼接标签包含了不同意图类别的标签,充分挖掘出各层级意图识别任务对应的粒度信息,将该拼接标签作为对话文本的意图,提高了意图识别的准确性,可以依据该拼接标签向客户提供精准的服务,从而提高客户满意度。
本实施例中,通过获取坐席文本和客户文本组成的对话文本;将对话文本输入意图识别模型,以使意图识别模型对对话文本进行意图识别,得到意图级别依次细化的多个意图识别标签,意图识别模型为根据上述意图识别模型训练方法得到的模型;将多个意图识别标签进行拼接,以作为对话文本的意图,明确了意图识别过程,将多个意图识别标签进行拼接,以作为对话文本的意图,提高了意图识别的准确性,可以依据该拼接标签向客户提供精准的服务,从而提高客户满意度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种意图识别装置,该意图识别装置与上述实施例中意图识别方法一一对应。如图8所示,该意图识别装置包括获取模块801、输入模块802和拼接模块803。各功能模块详细说明如下:
获取模块801,用于获取坐席文本和客户文本组成的对话文本;
输入模块802,用于将对话文本输入意图识别模型,以使意图识别模型对对话文本进行意图识别,得到意图级别依次细化的多个意图识别标签,意图识别模型根据上述意图识别模型训练方法得到的模型;
拼接模块803,用于将多个意图识别标签进行拼接,以作为对话文本的意图。
关于意图识别装置的具体限定可以参见上文中对于意图识别方法的限定,在此不再赘述。上述意图识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供一种意图识别模型训练装置,该意图识别模型训练装置与上述实施例中意图识别模型训练方法一一对应。如图9所示,该意图识别模型训练装置包括获取模块901、预测模块902、确定模块903和迭代模块904各功能模块详细说明如下:
获取模块901,用于获取预设对话样本数据集,预设对话样本数据集中的对话样本对应一个意图标签链,意图标签链包括意图级别依次细化的多个标准意图标签;
预测模块902,用于将对话样本输入含有初始参数的预设识别模型中,以通过预设识别模型对对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签;
确定模块903,用于根据多个意图预测标签和多个标准意图标签,确定预设识别模型的总损失值;
迭代模块904,用于在总损失值未达到预设收敛条件时,迭代更新预设识别模型的初始参数,直至总损失值达到预设收敛条件时,将收敛之后的预设识别模型记录为意图识别模型。
进一步地,预测模块902具体用于:
将对话样本输入预设识别模型的输入层,以获得输入层输出的对话样本的上下文语义向量;
将上下文语义向量输入预设识别模型的特征提取模块,以获得特征提取模块输出的多个拼接特征向量序列,多个拼接特征向量序列的特征向量依次增加;
将拼接特征向量序列输入预设识别模型中对应的多层感知机,以使多层感知机对拼接特征向量序列进行意图预测;
获取多个多层感知机输出的意图预测标签,作为多个意图预测标签。
进一步地,预测模块902具体还用于:
将上下文语义向量输入特征提取模块,以获取特征提取模块中多个特征提取层对应输出的语义特征向量,特征提取模块由多个特征提取层依次堆叠形成,特征提取层输出的特征向量为下一特征提取层的输入;
根据多个特征提取层的排列顺序,对多个特征提取层对应输出的语义特征向量进行划分组合,以获得多个拼接特征向量序列。
进一步地,预测模块902具体还用于:
在对话样本的上下文语义向量中,确定坐席文本样本的第一语义向量和客户文本样本的第二语义向量;
将第一语义向量和第二语义向量输入第一个特征提取层,以使第一个特征提取层对第一语义向量和第二语义向量进行特征提取,并对提取到的特征向量进行语义关系捕获,以获得第一个特征提取层输出的语义特征向量;
将第一个特征提取层提取到的特征向量输入下一特征提取层,以使下一特征提取层对输入的特征向量进行特征提取,并对提取到的特征向量进行语义交互,以获得下一特征提取层输出的语义特征向量;
依次遍历所有的特征提取层,以获得多个语义特征向量。
进一步地,预测模块902具体还用于:
将第一语义向量输入第一个特征提取层的第一编码器,以获得第一编码器输出的第一特征向量;
将第二语义向量输入第一个特征提取层的第二编码器,以获得第二编码器输出的第二特征向量;
将第一特征向量和第二特征向量,输入第一个特征提取层的双向注意力模块,以使双向注意力模块对第一特征向量和第二特征向量进行语义关系捕获,并输出语义特征向量。
关于意图识别模型训练装置的具体限定可以参见上文中对于意图识别模型训练方法的限定,在此不再赘述。上述意图识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设对话样本数据集、意图识别模型和对话文本等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种意图识别模型方法,和/或一种意图识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述意图识别模型方法的步骤,和/或上述意图识别方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述意图识别模型方法的步骤,和/或上述意图识别方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种意图识别模型训练方法,其特征在于,包括:
获取预设对话样本数据集,所述预设对话样本数据集中的对话样本对应一个意图标签链,所述意图标签链包括意图级别依次细化的多个标准意图标签;
将所述对话样本输入含有初始参数的预设识别模型中,以通过所述预设识别模型对所述对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签;
根据所述多个意图预测标签和所述多个标准意图标签,确定所述预设识别模型的总损失值;
在所述总损失值未达到预设收敛条件时,迭代更新所述预设识别模型的初始参数,直至所述总损失值达到所述预设收敛条件时,将收敛之后的所述预设识别模型记录为意图识别模型。
2.如权利要求1所述的意图识别模型训练方法,其特征在于,所述将所述对话样本输入含有初始参数的预设识别模型中,以通过所述预设识别模型对所述对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签,包括:
将所述对话样本输入所述预设识别模型的输入层,以获得所述输入层输出的所述对话样本的上下文语义向量;
将所述上下文语义向量输入所述预设识别模型的特征提取模块,以获得所述特征提取模块输出的多个拼接特征向量序列,所述多个拼接特征向量序列的特征向量依次增加;
将所述拼接特征向量序列输入所述预设识别模型中对应的多层感知机,以使所述多层感知机对所述拼接特征向量序列进行意图预测;
获取多个所述多层感知机输出的意图预测标签,作为所述多个意图预测标签。
3.如权利要求2所述的意图识别模型训练方法,其特征在于,所述将所述上下文语义向量输入所述预设识别模型的特征提取模块,以获得所述特征提取模块输出的多个拼接特征向量序列,包括:
将所述上下文语义向量输入所述特征提取模块,以获取所述特征提取模块中多个特征提取层对应输出的语义特征向量,所述特征提取模块由所述多个特征提取层依次堆叠形成,所述特征提取层输出的特征向量为下一特征提取层的输入;
根据所述多个特征提取层的排列顺序,对所述多个特征提取层对应输出的语义特征向量进行划分组合,以获得所述多个拼接特征向量序列。
4.如权利要求3所述的意图识别模型训练方法,其特征在于,所述将所述上下文语义向量输入所述特征提取模块,以使所述特征提取模块的多个特征提取层对应输出语义特征向量,包括:
在所述对话样本的上下文语义向量中,确定坐席文本样本的第一语义向量和客户文本样本的第二语义向量;
将所述第一语义向量和所述第二语义向量输入第一个特征提取层,以使所述第一个特征提取层对所述第一语义向量和所述第二语义向量进行特征提取,并对提取到的特征向量进行语义关系捕获,以获得所述第一个特征提取层输出的语义特征向量;
将所述第一个特征提取层提取到的特征向量输入下一特征提取层,以使下一特征提取层对输入的特征向量进行特征提取,并对提取到的特征向量进行语义关系捕获,以获得下一特征提取层输出的语义特征向量;
依次遍历所有的特征提取层,以获得多个所述特征提取层对应输出的语义特征向量。
5.如权利要求4所述的意图识别模型训练方法,其特征在于,所述将所述第一语义向量和所述第二语义向量输入第一个特征提取层,以使所述第一个特征提取层对所述第一语义向量和所述第二语义向量进行特征提取,并对提取到的特征向量进行语义关系捕获,以获得所述第一个特征提取层输出的语义特征向量,包括:
将所述第一语义向量输入所述第一个特征提取层的第一编码器,以获得所述第一编码器输出的第一特征向量;
将所述第二语义向量输入所述第一个特征提取层的第二编码器,以获得所述第二编码器输出的第二特征向量;
将所述第一特征向量和所述第二特征向量,输入所述第一个特征提取层的双向注意力模块,以使所述双向注意力模块对所述第一特征向量和所述第二特征向量进行语义关系捕获,并输出所述语义特征向量。
6.一种意图识别方法,其特征在于,包括:
获取坐席文本和客户文本组成的对话文本;
将所述对话文本输入意图识别模型,以使所述意图识别模型对所述对话文本进行意图识别,得到意图级别依次细化的多个意图识别标签,所述意图识别模型为根据如权利要求1至5任一项所述意图识别模型训练方法得到的模型;
将所述多个意图识别标签进行拼接,以作为所述对话文本的意图。
7.一种意图识别模型训练装置,其特征在于,包括:
获取模块,用于获取预设对话样本数据集,所述预设对话样本数据集中的对话样本对应一个意图标签链,所述意图标签链包括意图级别依次细化的多个标准意图标签;
预测模块,用于将所述对话样本输入含有初始参数的预设识别模型中,以通过所述预设识别模型对所述对话样本进行意图预测,得到意图级别依次细化的多个意图预测标签;
确定模块,用于根据所述多个意图预测标签和所述多个标准意图标签,确定所述预设识别模型的总损失值;
迭代模块,用于在所述总损失值未达到预设收敛条件时,迭代更新所述预设识别模型的初始参数,直至所述总损失值达到所述预设收敛条件时,将收敛之后的所述预设识别模型记录为意图识别模型。
8.一种意图识别装置,其特征在于,包括:
获取模块,用于获取坐席文本和客户文本组成的对话文本;
输入模块,用于将所述对话文本输入意图识别模型,以使所述意图识别模型对所述对话文本进行意图识别,得到意图级别依次细化的多个意图识别标签,所述意图识别模型为根据如权利要求1至5任一项所述意图识别模型训练方法得到的模型;
拼接模块,用于将所述多个意图识别标签进行拼接,以作为所述对话文本的意图。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述意图识别模型训练方法的步骤,和/或所述计算机程序被处理器执行时实现如权利要求6所述意图识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述意图识别模型训练方法的步骤,和/或所述计算机程序被处理器执行时实现如权利要求6所述意图识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111159845.1A CN113886548A (zh) | 2021-09-30 | 2021-09-30 | 意图识别模型训练方法、识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111159845.1A CN113886548A (zh) | 2021-09-30 | 2021-09-30 | 意图识别模型训练方法、识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113886548A true CN113886548A (zh) | 2022-01-04 |
Family
ID=79004710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111159845.1A Pending CN113886548A (zh) | 2021-09-30 | 2021-09-30 | 意图识别模型训练方法、识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113886548A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628177A (zh) * | 2023-05-22 | 2023-08-22 | 福建省网络与信息安全测评中心 | 针对网络安全平台的交互数据处理方法及系统 |
CN116796290A (zh) * | 2023-08-23 | 2023-09-22 | 江西尚通科技发展有限公司 | 一种对话意图识别方法、系统、计算机及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674639A (zh) * | 2019-09-24 | 2020-01-10 | 拾音智能科技有限公司 | 一种基于预训练模型的自然语言理解方法 |
CN110968692A (zh) * | 2019-10-23 | 2020-04-07 | 全球能源互联网研究院有限公司 | 一种文本分类方法及系统 |
CN112069302A (zh) * | 2020-09-15 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 会话意图识别模型的训练方法、会话意图识别方法及装置 |
-
2021
- 2021-09-30 CN CN202111159845.1A patent/CN113886548A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674639A (zh) * | 2019-09-24 | 2020-01-10 | 拾音智能科技有限公司 | 一种基于预训练模型的自然语言理解方法 |
CN110968692A (zh) * | 2019-10-23 | 2020-04-07 | 全球能源互联网研究院有限公司 | 一种文本分类方法及系统 |
CN112069302A (zh) * | 2020-09-15 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 会话意图识别模型的训练方法、会话意图识别方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628177A (zh) * | 2023-05-22 | 2023-08-22 | 福建省网络与信息安全测评中心 | 针对网络安全平台的交互数据处理方法及系统 |
CN116628177B (zh) * | 2023-05-22 | 2023-11-14 | 福建省网络与信息安全测评中心 | 针对网络安全平台的交互数据处理方法及系统 |
CN116796290A (zh) * | 2023-08-23 | 2023-09-22 | 江西尚通科技发展有限公司 | 一种对话意图识别方法、系统、计算机及存储介质 |
CN116796290B (zh) * | 2023-08-23 | 2024-03-29 | 江西尚通科技发展有限公司 | 一种对话意图识别方法、系统、计算机及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
CN112732911B (zh) | 基于语义识别的话术推荐方法、装置、设备及存储介质 | |
CN108563782B (zh) | 商品信息格式处理方法、装置、计算机设备和存储介质 | |
CN109992664B (zh) | 争议焦点的标注分类方法、装置、计算机设备和存储介质 | |
CN110717514A (zh) | 会话意图识别方法、装置、计算机设备和存储介质 | |
CN108563624A (zh) | 一种基于深度学习的自然语言生成方法 | |
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及系统 | |
CN110399472B (zh) | 面试提问提示方法、装置、计算机设备及存储介质 | |
CN113886548A (zh) | 意图识别模型训练方法、识别方法、装置、设备及介质 | |
CN113723288A (zh) | 基于多模态混合模型的业务数据处理方法及装置 | |
CN110569356A (zh) | 基于智能面试交互系统的面试方法、装置和计算机设备 | |
CN113240510B (zh) | 异常用户预测方法、装置、设备及存储介质 | |
CN114021524B (zh) | 一种情感识别方法、装置、设备及可读存储介质 | |
CN112732871A (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN111738017B (zh) | 一种意图识别方法、装置、设备及存储介质 | |
CN113886550A (zh) | 基于注意力机制的问答匹配方法、装置、设备及存储介质 | |
CN115099326A (zh) | 基于人工智能的行为预测方法、装置、设备及存储介质 | |
CN115810068A (zh) | 一种图像描述生成方法、装置、存储介质及电子设备 | |
CN114511023A (zh) | 分类模型训练方法以及分类方法 | |
CN115357718B (zh) | 主题集成服务重复材料发现方法、系统、设备和存储介质 | |
CN116450943A (zh) | 基于人工智能的话术推荐方法、装置、设备及存储介质 | |
CN113486167B (zh) | 文本补全方法、装置、计算机设备和存储介质 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
CN115358473A (zh) | 基于深度学习的电力负荷预测方法及预测系统 | |
CN115309862A (zh) | 基于图卷积网络和对比学习的因果关系识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |