CN115114407B - 意图识别方法、装置、计算机设备及存储介质 - Google Patents
意图识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115114407B CN115114407B CN202210822568.6A CN202210822568A CN115114407B CN 115114407 B CN115114407 B CN 115114407B CN 202210822568 A CN202210822568 A CN 202210822568A CN 115114407 B CN115114407 B CN 115114407B
- Authority
- CN
- China
- Prior art keywords
- vector
- intention
- label
- dimensional
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 424
- 238000012512 characterization method Methods 0.000 claims abstract description 183
- 238000012549 training Methods 0.000 claims abstract description 155
- 230000003993 interaction Effects 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000000295 complement effect Effects 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000000605 extraction Methods 0.000 description 15
- 230000001965 increasing effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例属于人工智能领域,涉及一种意图识别方法、装置、计算机设备及存储介质,方法包括:获取训练文本和全量标签序列;对训练文本和全量标签序列进行交叉编码,得到联合表征向量,并对其中的文本序列表征向量和标签序列表征向量进行注意力交互得到训练文本表征向量;通过初始意图识别模型处理训练文本表征向量,得到多意图预测结果;并通过标签二维共现预测得到二维共现预测结果,通过标签高维共现预测得到高维共现预测结果;基于各预测结果计算联合损失,以调整模型得到意图识别模型;并通过其进行意图识别得到多意图识别结果。此外,本申请还涉及区块链技术,训练文本和全量标签序列可存储于区块链中。本申请提高了意图识别的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种意图识别方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的发展,通过计算机进行意图识别也变得越来越常见。意图识别通常是将目标对象相关的文本输入神经网络,由神经网络预测目标对象的意图。在实际应用中,文本还可能包含多个意图。
当前的意图识别技术,在训练中通常仅仅专注于文本的上下文交互,没有充分使用标签,特征信息使用较少,使得意图识别的准确性较低。
发明内容
本申请实施例的目的在于提出一种意图识别方法、装置、计算机设备及存储介质,以解决意图识别准确性较低的问题。
为了解决上述技术问题,本申请实施例提供一种意图识别方法,采用了如下所述的技术方案:
获取带有意图标签序列的训练文本和全量标签序列;
将所述训练文本和所述全量标签序列输入初始意图识别模型,以对所述训练文本和所述全量标签序列进行交叉编码,得到联合表征向量;
对所述联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互,得到训练文本表征向量;
通过所述初始意图识别模型处理所述训练文本表征向量,得到多意图预测结果;
从所述意图标签序列中随机选取意图标签以将其标签表征向量作为第一向量,并从所述全量标签序列中随机选取意图标签以将其标签表征向量作为第二向量;其中,标签表征向量为对意图标签交叉编码后得到的向量;
将所述第一向量和所述第二向量拼接后输入标签二维共现预测模型,得到二维共现预测结果;
从所述意图标签序列中随机选取预设数量的意图标签作为高维预测标签,以根据其标签表征向量计算融合向量,并将所述全量标签序列中各高维预测标签以外的意图标签的标签表征向量设置为补集向量;
将所述融合向量与各补集向量拼接后输入标签高维共现预测模型,得到高维共现预测结果;
基于所述多意图预测结果、所述二维共现预测结果和所述高维共现预测结果计算联合损失;
根据所述联合损失对所述初始意图识别模型进行调整,直至所述联合损失满足训练停止条件,得到意图识别模型;
通过所述意图识别模型对待识别文本进行意图识别,得到多意图识别结果。
为了解决上述技术问题,本申请实施例还提供一种意图识别装置,采用了如下所述的技术方案:
获取模块,用于获取带有意图标签序列的训练文本和全量标签序列;
交叉编码模块,用于将所述训练文本和所述全量标签序列输入初始意图识别模型,以对所述训练文本和所述全量标签序列进行交叉编码,得到联合表征向量;
向量交互模块,用于对所述联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互,得到训练文本表征向量;
意图预测模块,用于通过所述初始意图识别模型处理所述训练文本表征向量,得到多意图预测结果;
二维选取模块,用于从所述意图标签序列中随机选取意图标签以将其标签表征向量作为第一向量,并从所述全量标签序列中随机选取意图标签以将其标签表征向量作为第二向量;其中,标签表征向量为对意图标签交叉编码后得到的向量;
二维预测模块,用于将所述第一向量和所述第二向量拼接后输入标签二维共现预测模型,得到二维共现预测结果;
高维选取模块,用于从所述意图标签序列中随机选取预设数量的意图标签作为高维预测标签,以根据其标签表征向量计算融合向量,并将所述全量标签序列中各高维预测标签以外的意图标签的标签表征向量设置为补集向量;
高维预测模块,用于将所述融合向量与各补集向量拼接后输入标签高维共现预测模型,得到高维共现预测结果;
损失计算模块,用于基于所述多意图预测结果、所述二维共现预测结果和所述高维共现预测结果计算联合损失;
模型调整模块,用于根据所述联合损失对所述初始意图识别模型进行调整,直至所述联合损失满足训练停止条件,得到意图识别模型;
意图识别模块,用于通过所述意图识别模型对待识别文本进行意图识别,得到多意图识别结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
获取带有意图标签序列的训练文本和全量标签序列;
将所述训练文本和所述全量标签序列输入初始意图识别模型,以对所述训练文本和所述全量标签序列进行交叉编码,得到联合表征向量;
对所述联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互,得到训练文本表征向量;
通过所述初始意图识别模型处理所述训练文本表征向量,得到多意图预测结果;
从所述意图标签序列中随机选取意图标签以将其标签表征向量作为第一向量,并从所述全量标签序列中随机选取意图标签以将其标签表征向量作为第二向量;其中,标签表征向量为对意图标签交叉编码后得到的向量;
将所述第一向量和所述第二向量拼接后输入标签二维共现预测模型,得到二维共现预测结果;
从所述意图标签序列中随机选取预设数量的意图标签作为高维预测标签,以根据其标签表征向量计算融合向量,并将所述全量标签序列中各高维预测标签以外的意图标签的标签表征向量设置为补集向量;
将所述融合向量与各补集向量拼接后输入标签高维共现预测模型,得到高维共现预测结果;
基于所述多意图预测结果、所述二维共现预测结果和所述高维共现预测结果计算联合损失;
根据所述联合损失对所述初始意图识别模型进行调整,直至所述联合损失满足训练停止条件,得到意图识别模型;
通过所述意图识别模型对待识别文本进行意图识别,得到多意图识别结果。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
获取带有意图标签序列的训练文本和全量标签序列;
将所述训练文本和所述全量标签序列输入初始意图识别模型,以对所述训练文本和所述全量标签序列进行交叉编码,得到联合表征向量;
对所述联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互,得到训练文本表征向量;
通过所述初始意图识别模型处理所述训练文本表征向量,得到多意图预测结果;
从所述意图标签序列中随机选取意图标签以将其标签表征向量作为第一向量,并从所述全量标签序列中随机选取意图标签以将其标签表征向量作为第二向量;其中,标签表征向量为对意图标签交叉编码后得到的向量;
将所述第一向量和所述第二向量拼接后输入标签二维共现预测模型,得到二维共现预测结果;
从所述意图标签序列中随机选取预设数量的意图标签作为高维预测标签,以根据其标签表征向量计算融合向量,并将所述全量标签序列中各高维预测标签以外的意图标签的标签表征向量设置为补集向量;
将所述融合向量与各补集向量拼接后输入标签高维共现预测模型,得到高维共现预测结果;
基于所述多意图预测结果、所述二维共现预测结果和所述高维共现预测结果计算联合损失;
根据所述联合损失对所述初始意图识别模型进行调整,直至所述联合损失满足训练停止条件,得到意图识别模型;
通过所述意图识别模型对待识别文本进行意图识别,得到多意图识别结果。
与现有技术相比,本申请实施例主要有以下有益效果:获取带有意图标签序列的训练文本和记录全部意图标签的全量标签序列,对训练文本和全量标签序列进行交叉编码得到联合表征向量,并对其中的文本序列表征向量和标签序列表征向量进行注意力交互,增加了文本字符与意图标签之间、意图标签之间的语义连接,提高了模型的特征提取能力,获得了信息更丰富的训练文本表征向量,提高了初始意图预测模型依据训练文本表征向量生成多意图预测结果的准确性;再从意图标签序列中选取意图标签,从全量标签序列中选取意图标签进行标签二维共现预测,得到二维共现预测结果,并从意图标签序列中选取若干个意图标签,结合全量标签序列中剩余标签进行标签高维共现预测,得到高维共现预测结果,增强标签相关性学习;根据多意图预测结果、二维共现预测结果和高维共现预测结果计算联合损失,以调整模型得到意图识别模型;将待识别文本输入意图识别模型即可得到多意图识别结果;本申请在意图识别的主任务中提高了模型的特征提取能力,丰富了文本表示,在标签共现预测的辅助任务中学习标签相关性,大大提高了训练完毕的意图识别模型进行意图识别的准确性。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的意图识别方法的一个实施例的流程图;
图3是根据本申请的意图识别装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的意图识别方法一般由服务器执行,相应地,意图识别装置一般设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的意图识别方法的一个实施例的流程图。所述的意图识别方法,包括以下步骤:
步骤S201,获取带有意图标签序列的训练文本和全量标签序列。
在本实施例中,意图识别方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
其中,训练文本可以是训练模型时使用到的文本,训练文本可以包含多种意图,训练文本的意图标签序列中包含多个意图标签,记录了训练文本所包含的意图。
本申请用于检测某个场景下的文本中所包含的意图,在该场景下,预先定义了全部可能出现的意图,全部意图所对应的意图标签构成了全量标签序列。
具体地,本申请通过意图识别模型进行多意图识别,需要通过模型训练得到意图识别模型。首先需要获取带有意图标签序列的训练文本和全量标签序列。
本申请可以应用于多种场景,在一个实施例中,本申请应用于客服语义质检场景,在该场景中,需要检测客服与客户沟通对话中的意图,以检测客服是否按照要求表达了相关的语义信息。可以将客服的对话语音转化为对话文本,将对话文本作为训练文本。
举例说明,Ti(text)是客服的第Ti段对话文本(例如,其内容可以为:您好,我是xxx,我的工号是xxx,您咨询的这款产品xxx),可以将其作为训练文本,长度为n的训练文本Ti由n个字符token组成,Ti={x1,x2,…,xn}。L(label)为全量标签序列,例如可以包含自我介绍、产品介绍、产品推荐、产品答疑等意图标签。L={y1,y2,…,ym}是一个包含m个意图标签的全量标签序列。
每一段训练文本Ti都会有对应的意图标签序列Yi,Yi是全量标签序列L的真子集。例如,T1-Y1={y1,y4}表示第一段训练文本包含自我介绍和产品答疑这两个意图标签。本申请通过学习已标注的训练文本Ti拼接全量标签序列L和意图标签序列Yi,使得意图学习模型可以对没有标注的待识别文本Tj进行意图识别,得到它所包含的意图类型构成的意图标签序列Yj。
步骤S202,将训练文本和全量标签序列输入初始意图识别模型,以对训练文本和全量标签序列进行交叉编码,得到联合表征向量。
其中,初始意图识别模型可以是尚未完成训练的意图识别模型,意图识别模型可以基于神经网络搭建,可以实现多意图识别。
具体地,将训练文本T和全量标签序列L进行拼接,然后输入初始意图识别模型。初始意图识别模型具有编码器,可以对训练文本和全量标签序列进行交叉编码,即将训练文本中的各字符和全量标签序列中的各意图标签进行交叉编码,实现各字符和各字符之间的注意力交互、各字符和各意图标签之间的注意力交互、各意图标签和各意图标签之间的注意力交互,得到联合表征向量。
步骤S203,对联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互,得到训练文本表征向量。
具体地,联合表征向量包含文本序列表征向量和标签序列表征向量,其中,文本序列表征向量由训练文本中各字符在交叉编码后得到,标签序列表征向量由全量标签序列中各意图标签在交叉编码后得到。
通过初始意图识别模型对联合表征向量中的文本序列表征向量和标签序列表征向量进行交互计算,从而继续进行交叉注意力交互,得到训练文本表征向量。
本申请通过交叉编码,引入文本字符token之间的语义连接,还增加了文本字符与意图标签之间的语义连接,以及意图标签之间的语义连接,提高了模型的特征提取能力。本申请将训练文本中的字符和全量标签序列中的意图标签进行联合嵌入表示,取代了传统的提取CLS获取文本表示向量。同时对联合表征向量中的文本序列表征向量和标签序列表征向量进行交叉注意力交互,获得了语义信息更丰富的文本表征向量。
步骤S204,通过初始意图识别模型处理训练文本表征向量,得到多意图预测结果。
具体地,初始意图识别模型可以依据训练文本表征向量进行意图识别,得到多意图预测结果。多意图预测结果中可以包含至少一个意图类型。
步骤S205,从意图标签序列中随机选取意图标签以将其标签表征向量作为第一向量,并从全量标签序列中随机选取意图标签以将其标签表征向量作为第二向量;其中,标签表征向量为对意图标签交叉编码后得到的向量。
具体地,上述意图识别的多标签分类任务为主任务,此外,本申请还包括标签二维共现预测任务和标签高维共现预测任务两个辅助任务,通过辅助任务进行标签相关性学习,以解决低频标签预测准确率低(现实世界中分类问题往往表现出长尾标签分布,某些低频标签仅与少数实例相关且难以学习)、标签依赖性(有些标签内容较为相似,可能一起出现,这就是标签之间的依赖性)、标签组合多样性和模型推理速度较慢(某些模型采用自回归的方式进行预测,推理速度较慢)的问题。
在标签二维共现预测任务中,需要从意图标签序列中随机选取一个意图标签,将意图标签所对应的标签表征向量设为第一向量;然后从全量标签序列中随机选取一个意图标签,将该意图标签所对应的标签表征向量作为第二向量。
全量标签序列经过初始意图识别模型的交叉编码可以生成标签序列表征向量,标签序列表征向量由全量的意图标签的标签表征向量构成。由于意图标签序列是全量标签序列的真子集,因此,在得到标签序列表征向量后,也可以得到意图标签序列中各意图标签的标签表征向量。
步骤S206,将第一向量和第二向量拼接后输入标签二维共现预测模型,得到二维共现预测结果。
具体地,将第一向量和第二向量拼接后输入标签二维共现预测模型,例如通过concat操作将第一向量和第二向量拼接到一起。可以理解,第一向量所对应的意图标签为训练文本中一定包含的标签,第二向量所对应的意图标签来自全量标签序列,可能包含于训练文本,也可能不包含于训练文本。
标签二维共现预测模型可以是一个二分类器,例如MLP二分类器,MLP二分类器是一种基于神经网络的动态分类器。标签二维共现预测模型输出二维共现预测结果,预测第一向量所对应的意图标签和第二向量所对应的意图标签是否同时存在于训练文本。
步骤S207,从意图标签序列中随机选取预设数量的意图标签作为高维预测标签,以根据其标签表征向量计算融合向量,并将全量标签序列中各高维预测标签以外的意图标签的标签表征向量设置为补集向量。
在标签高维共现预测任务中,从意图标签序列中提取预设数量的意图标签作为高维预测标签,例如,假设意图标签序列包含g个意图标签,从中随机选取k个意图标签作为高维预测标签,其中0≤k<g,将各高维预测标签所对应的标签表征向量相加后求平均值,得到融合向量。
在包含m个意图标签的全量标签序列中,除去上述抽取到的k个意图标签,还剩下(m-k)个意图标签,这些标签为补集标签,标签高维共现预测任务是预测抽取到的高维预测标签与补集标签是否共现,即是否同时包含于训练文本,同时,将补集标签所对应的标签表征向量设为补集向量。
步骤S208,将融合向量与各补集向量拼接后输入标签高维共现预测模型,得到高维共现预测结果。
具体地,将融合向量和各补集向量分别进行拼接,然后输入标签高维共现预测模型。在一个实施例中,融合向量和各补集向量分别进行拼接后,可以先输入一个全连接层,然后输入标签高维共现预测模型。
标签高维共现预测模型可以包含多个二分类器,例如MLP二分类器。当补集标签的数量为(m-k)时,融合向量和各补集向量分别进行拼接后得到(m-k)个拼接向量,然后将(m-k)个拼接向量输入标签高维共现预测模型中的(m-k)个二分类器。
各二分类器的输出可以是二分类器对高维预测标签与补集标签是否共现于训练文本的预测,各二分类器的输出组成高维共现预测结果。
在一个实施例中,训练文本中包含的语义标签为全量标签序列的子集,包含都提到、都没提到和提到一部分,将提到的意图标签记为Y+,将没提到的语义标签记为Y-。在构造标签二维共现预测任务的数据集时,数据集中的每组元素都包含两个标签表征向量<Ya,Yb>,其中,Ya仅从Y+中采样,Yb从Y+和Y-中采样。同样地,在构造标签高维共现预测任务的数据集时,从Y+中随机挑选k个意图标签组成Ya,然后预测Y+和Y-中剩余的意图标签与Ya是否共现。
步骤S209,基于多意图预测结果、二维共现预测结果和高维共现预测结果计算联合损失。
具体地,本申请训练中涉及三个模型,依次为初始意图识别模型、标签二维共现预测模型和标签高维共现预测模型。初始意图识别模型输出多意图预测结果,标签二维共现预测模型输出二维共现预测结果,标签高维共现预测模型输出高维共现预测结果。
本申请需要根据多意图预测结果、二维共现预测结果和高维共现预测结果共同进行损失计算,得到联合损失。
步骤S210,根据联合损失对初始意图识别模型进行调整,直至联合损失满足训练停止条件,得到意图识别模型。
具体地,根据联合损失调整初始意图识别模型,并在调整初始意图识别模型后,根据训练文本和全量标签序列对初始意图识别模型进行迭代训练,直至得到的联合损失满足训练停止条件,则停止训练,并将停止训练时的初始意图识别模型设置为意图识别模型。
步骤S211,通过意图识别模型对待识别文本进行意图识别,得到多意图识别结果。
具体地,在应用时,获取待识别文本,将待识别文本输入意图识别模型进行意图识别,即可得到多意图识别结果。多意图识别结果可以包含至少一个意图类型。
本实施例中,获取带有意图标签序列的训练文本和记录全部意图标签的全量标签序列,对训练文本和全量标签序列进行交叉编码得到联合表征向量,并对其中的文本序列表征向量和标签序列表征向量进行注意力交互,增加了文本字符与意图标签之间、意图标签之间的语义连接,提高了模型的特征提取能力,获得了信息更丰富的训练文本表征向量,提高了初始意图预测模型依据训练文本表征向量生成多意图预测结果的准确性;再从意图标签序列中选取意图标签,从全量标签序列中选取意图标签进行标签二维共现预测,得到二维共现预测结果,并从意图标签序列中选取若干个意图标签,结合全量标签序列中剩余标签进行标签高维共现预测,得到高维共现预测结果,增强标签相关性学习;根据多意图预测结果、二维共现预测结果和高维共现预测结果计算联合损失,以调整模型得到意图识别模型;将待识别文本输入意图识别模型即可得到多意图识别结果;本申请在意图识别的主任务中提高了模型的特征提取能力,丰富了文本表示,在标签共现预测的辅助任务中学习标签相关性,大大提高了训练完毕的意图识别模型进行意图识别的准确性。
进一步的,上述步骤S202可以包括:根据训练文本中的各字符和全量标签序列中的各意图标签构建初始序列;将初始序列映射为向量序列;将向量序列输入编码器,以通过编码器中的多个编码层对向量序列中的字符向量和标签向量进行交叉编码,得到最后一层编码层输出的文本序列表征向量和标签序列表征向量;将文本序列表征向量和标签序列表征向量确定为联合表征向量。
具体地,训练文本由多个字符(token)组成,全量标签序列中包含多个意图标签,通过分隔符sep对训练文本T和全量标签序列L进行分割,并在训练文本前加上cls字符作为开始符,在全量标签序列L的结束位置加上sep作为结束符,得到初始序列。
通过嵌入层,将初始序列映射成向量序列,在向量序列中,每个字符和意图标签都会有一个向量表示,这种表示是token级的表示,每个token的隐藏层维度可以设为768,得到向量序列EX=[[cls],[x1],…,[xn],[sep],[y1],…,[ym],[sep]],其中,每一个括号[]中的元素均为一个1*768的向量,EX的维度是(n+m+3)*768。
然后将向量序列EX输入到编码器中,编码器包含多层编码层。在一个实施例中,编码器可以基于bert模型构建,bert模型包含12层编码层,即12层encoder结构。每一层编码层都会进行token级别的注意力交互,对向量序列中的字符向量和标签向量进行交叉编码,引入字符向量和字符向量之间的语义连接、字符向量和标签向量之间的语义连接、标签向量与标签向量之间的语义连接,上一层编码层的输出是下一层编码层的输入。
最后,得到最后一层编码层即bert模型中第12层encoder输出的文本序列表征向量和标签序列表征向量,其中,文本序列表征向量是对训练文本中各字符进行编码后得到的向量序列,标签序列表征向量是对全量标签序列中各意图标签进行编码后得到的向量序列,将最后一层编码层输出的文本序列表征向量和标签序列表征向量确定为联合表征向量,即,将得到的E12X=[[hcls],[hx1],…,[hxn],[hsep],[hy1],…,[hym],[hsep]]确定为联合表征向量,EX和E12X的维度大小一样,但数值发生了变化。
本实施例中,根据各字符和各意图标签构建初始序列,将初始序列映射为向量序列,然后输入编码器进行字符和意图标签之间的交叉编码,额外增加了字符与标签之间的交互、标签与标签之间的交互,提高了模型的特征提取能力。
进一步的,上述步骤S203可以包括:对联合表征向量中的标签序列表征向量进行转置,得到转置标签序列表征向量;将联合表征向量中的文本序列表征向量与转置标签序列表征向量进行点乘运算,得到相关度分数矩阵;相关度分数矩阵表征字符与意图标签之间的相关度;将相关度分数矩阵输入激活模型,得到第三向量;将第三向量输入第一激活函数,并将激活函数的函数结果进行转置,得到第四向量;将第四向量与文本序列表征向量进行点乘运算,得到训练文本表征向量。
具体地,联合表征向量包含文本序列表征向量Hx和标签序列表征向量Hy。其中,Hx=[[hx1],…,[hxn]],是E12X中的文本序列表征向量,维度为n*768;Hy=[[hy1],…,[hym]],是E12X中的标签序列表征向量,维度为m*768。
对标签序列表征向量Hy进行转置,得到转置标签序列表征向量,然后将文本序列表征向量Hx与转置标签序列表征向量进行点乘运算,得到字符token和意图标签token一一对应的相关度分数矩阵W。相关度分数矩阵W是n*m的矩阵,Wij位置元素的值表示训练文本中第i个字符token和全量标签序列第j个意图标签token的相关度分数。
由于点乘运算属于线性运算,为了提高稀疏正则化的有效性,防止过拟合,增强模型泛化能力,将相关度分数矩阵W输入激活模型。激活模型可以基于CNN模型构建,其带有ReLU激活函数,通过CNN模型对相关度分数矩阵W进行激活,并使用最大池化,得到n*1维度的第三向量。再将第三向量通过第一激活函数,第一激活函数可以是tanh双曲线切线激活函数,将第一激活函数的函数结果进行转置,得到第四向量。
第四向量与文本序列表征向量Hx进行点乘运算,得到训练文本表征向量New_x,维度为1*768。
本实施例中,对文本序列表征向量和标签序列表征向量进行注意力交互,取代了传统的直接将CLS作为文本表征,获得了语义信息更加丰富的训练文本表征向量。
进一步的,上述步骤S204可以包括:将训练文本表征向量输入初始意图识别模型的全连接层,得到第五向量;将第五向量输入第二激活函数,得到第六向量;根据第六向量中各元素的数值,生成多意图预测结果。
具体地,将训练文本表征向量New_x(1*768维)通过一层全连接Dense层,该全连接层捕获了来自训练文本不同区域的更多细粒度特征,得到第五向量。
将第五向量输入第二激活函数,第二激活函数可以是sigmoid激活函数,得到第六向量。
第六向量维度为1*m,包含m个元素,每个元素数值在0到1之间,表示训练文本在m个意图标签上的得分,如果数值大于0.5,表示训练文本提到了这个元素所对应的意图标签语义,将其记为1;如果数值小于等于0.5,则表示训练文本没有提到这个元素所对应的意图标签语义,记为0,从而可以生成由0和1表示的多意图预测结果。
本实施例中,通过初始意图识别模型进行意图预测,得到第六向量,第六向量中每个位置的数值是对训练文本中是否提到相关的意图标签语义的预测,从而可以生成多意图预测结果。
进一步的,上述步骤S209可以包括:基于多意图预测结果和意图标签序列计算第一损失;根据选取到的意图标签构建二维共现标签和高维共现标签;通过二维共现预测结果和二维共现标签计算第二损失;根据高维共现预测结果和高维共现标签计算第三损失;对第一损失、第二损失和第三损失进行线性运算,得到联合损失。
具体地,联合损失包含三部分,依次为第一损失、第二损失和第三损失。其中,第一损失根据多意图预测结果和意图标签序列计算得到,第一损失loss采用sigmoid+BinaryCross Entropy(二元交叉熵)的形式,把训练文本在所有意图标签(m个意图标签)上的二元交叉熵损失做加和,作为这个训练文本在多标签分类任务上的第一损失Loss_m。
第二损失根据二维共现预测结果和二维共现标签计算得到,损失函数仍然采用sigmoid+Binary Cross Entropy(二元交叉熵)的形式,记为Loss_b。
第三损失根据高维共现预测结果和高维共现标签计算得到,损失函数仍然采用sigmoid+Binary Cross Entropy(二元交叉熵)的形式,把(m-k)个损失做加和,作为高维共现预测任务的损失,记为Loss_c。
给第一损失、第二损失和第三损失添加权重,然后对带有权重的第一损失、第二损失和第三损失进行线性运算,具体可以是对各损失进行加权求和运算得到联合损失,其中,联合损失Loss=loss_m+r*loss_b+(1-r)*loss_c,r可以是预先定义的超参数,属于(0,1)之间的一个实数值。
二维共现标签和高维共现标签可以构建得到。意图标签序列是训练文本的标签,表明训练文本涉及哪些意图标签,从全量标签序列中选取意图标签后,对比意图标签序列,即可知道是否产生了标签共现,从而可以构建二维共现标签和高维共现标签。
本实施例中,联合损失基于多意图预测结果、二维共现预测结果和高维共现预测结果计算得到,同时考虑到了意图识别主任务和标签共现预测辅助任务带来的损失,提高了损失计算的准确性。
进一步的,上述步骤S210可以包括:以减小联合损失为目标调整初始意图识别模型、二维共现预测模型和高维共现预测模型的模型参数;对参数调整后的初始意图识别模型、二维共现预测模型和高维共现预测模型进行迭代训练,直至联合损失满足训练停止条件,得到意图识别模型。
具体地,服务器以减小联合损失为目标,同时调整初始意图识别模型、二维共现预测模型和高维共现预测模型的模型参数,并在完成当次的参数调整后,根据训练文本和全量标签序列进行迭代训练,直至得到的联合损失满足训练停止条件,则停止训练,得到意图识别模型。其中训练停止条件可以是联合损失小于预设的损失阈值。
本实施例中,以减小联合损失为目标,同时调整初始意图识别模型、二维共现预测模型和高维共现预测模型的模型参数,直至训练结束得到意图识别模型,确保可以通过意图识别模型进行多意图识别。
进一步的,上述步骤S211可以包括:获取待识别文本;将待识别文本和全量标签序列输入意图识别模型,以对待识别文本和全量标签序列进行交叉编码,得到联合表征向量;对联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互,得到文本表征向量;通过意图识别模型处理文本表征向量,得到多意图识别结果。
具体地,在应用时,获取待识别文本,将待识别文本和全量标签序列输入训练好的意图识别模型。意图识别模型对待识别文本和全量标签序列的处理与训练过程一致,先对待识别文本和全量标签序列进行交叉编码得到联合表征向量,然后对联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互得到文本表征向量;依据文本表征向量进行意图识别,得到多意图识别结果。
多意图识别结果可以包含m个元素,每个元素取值为0或1,用于表示待识别文本中是否提到对应的意图标签语义。在应用时,标签二维共现预测模型和标签高维共现预测模型不再发挥作用。
本实施例中,训练完毕的意图识别模型增加了文本字符与意图标签之间、意图标签之间的语义连接,提高了模型的特征提取能力,获得了语义信息更丰富的文本表征向量,提高了根据文本表征向量进行意图识别的准确性。
需要强调的是,为进一步保证上述带有意图标签序列的训练文本和全量标签序列的私密和安全性,上述带有意图标签序列的训练文本和全量标签序列还可以存储于一区块链的节点中;可以理解,上述待识别文本也可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请属于智慧城市领域,例如智慧家居和智慧生活等以实现意图识别,通过本方案能够推动智慧城市的建设。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种意图识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的意图识别装置300包括:获取模块301、交叉编码模块302、向量交互模块303、意图预测模块304、二维选取模块305、二维预测模块306、高维选取模块307、高维预测模块308、损失计算模块309、模型调整模块310以及意图识别模块311,其中:
获取模块301,用于获取带有意图标签序列的训练文本和全量标签序列。
交叉编码模块302,用于将训练文本和全量标签序列输入初始意图识别模型,以对训练文本和全量标签序列进行交叉编码,得到联合表征向量。
向量交互模块303,用于对联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互,得到训练文本表征向量。
意图预测模块304,用于通过初始意图识别模型处理训练文本表征向量,得到多意图预测结果。
二维选取模块305,用于从意图标签序列中随机选取意图标签以将其标签表征向量作为第一向量,并从全量标签序列中随机选取意图标签以将其标签表征向量作为第二向量;其中,标签表征向量为对意图标签交叉编码后得到的向量。
二维预测模块306,用于将第一向量和第二向量拼接后输入标签二维共现预测模型,得到二维共现预测结果。
高维选取模块307,用于从意图标签序列中随机选取预设数量的意图标签作为高维预测标签,以根据其标签表征向量计算融合向量,并将全量标签序列中各高维预测标签以外的意图标签的标签表征向量设置为补集向量。
高维预测模块308,用于将融合向量与各补集向量拼接后输入标签高维共现预测模型,得到高维共现预测结果。
损失计算模块309,用于基于多意图预测结果、二维共现预测结果和高维共现预测结果计算联合损失。
模型调整模块310,用于根据联合损失对初始意图识别模型进行调整,直至联合损失满足训练停止条件,得到意图识别模型。
意图识别模块311,用于通过意图识别模型对待识别文本进行意图识别,得到多意图识别结果。
本实施例中,获取带有意图标签序列的训练文本和记录全部意图标签的全量标签序列,对训练文本和全量标签序列进行交叉编码得到联合表征向量,并对其中的文本序列表征向量和标签序列表征向量进行注意力交互,增加了文本字符与意图标签之间、意图标签之间的语义连接,提高了模型的特征提取能力,获得了信息更丰富的训练文本表征向量,提高了初始意图预测模型依据训练文本表征向量生成多意图预测结果的准确性;再从意图标签序列中选取意图标签,从全量标签序列中选取意图标签进行标签二维共现预测,得到二维共现预测结果,并从意图标签序列中选取若干个意图标签,结合全量标签序列中剩余标签进行标签高维共现预测,得到高维共现预测结果,增强标签相关性学习;根据多意图预测结果、二维共现预测结果和高维共现预测结果计算联合损失,以调整模型得到意图识别模型;将待识别文本输入意图识别模型即可得到多意图识别结果;本申请在意图识别的主任务中提高了模型的特征提取能力,丰富了文本表示,在标签共现预测的辅助任务中学习标签相关性,大大提高了训练完毕的意图识别模型进行意图识别的准确性。
在本实施例的一些可选的实现方式中,交叉编码模块302可以包括:初始构建子模块、初始映射子模块、交叉编码子模块以及向量确定子模块,其中:
初始构建子模块,用于根据训练文本中的各字符和全量标签序列中的各意图标签构建初始序列。
初始映射子模块,用于将初始序列映射为向量序列。
交叉编码子模块,用于将向量序列输入编码器,以通过编码器中的多个编码层对向量序列中的字符向量和标签向量进行交叉编码,得到最后一层编码层输出的文本序列表征向量和标签序列表征向量。
向量确定子模块,用于将文本序列表征向量和标签序列表征向量确定为联合表征向量。
本实施例中,根据各字符和各意图标签构建初始序列,将初始序列映射为向量序列,然后输入编码器进行字符和意图标签之间的交叉编码,额外增加了字符与标签之间的交互、标签与标签之间的交互,提高了模型的特征提取能力。
在本实施例的一些可选的实现方式中,向量交互模块303可以包括:序列转置子模块、点乘运算子模块、矩阵输入子模块、向量输入子模块以及向量运算子模块,其中:
序列转置子模块,用于对联合表征向量中的标签序列表征向量进行转置,得到转置标签序列表征向量。
点乘运算子模块,用于将联合表征向量中的文本序列表征向量与转置标签序列表征向量进行点乘运算,得到相关度分数矩阵;相关度分数矩阵表征字符与意图标签之间的相关度。
矩阵输入子模块,用于将相关度分数矩阵输入激活模型,得到第三向量。
向量输入子模块,用于将第三向量输入第一激活函数,并将激活函数的函数结果进行转置,得到第四向量。
向量运算子模块,用于将第四向量与文本序列表征向量进行点乘运算,得到训练文本表征向量。
本实施例中,对文本序列表征向量和标签序列表征向量进行注意力交互,取代了传统的直接将CLS作为文本表征,获得了语义信息更加丰富的训练文本表征向量。
在本实施例的一些可选的实现方式中,意图预测模块304包括:表征输入子模块、激活输入子模块以及预测生成子模块,其中:
表征输入子模块,用于将训练文本表征向量输入初始意图识别模型的全连接层,得到第五向量。
激活输入子模块,用于将第五向量输入第二激活函数,得到第六向量。
预测生成子模块,用于根据第六向量中各元素的数值,生成多意图预测结果。
本实施例中,通过初始意图识别模型进行意图预测,得到第六向量,第六向量中每个位置的数值是对训练文本中是否提到相关的意图标签语义的预测,从而可以生成多意图预测结果。
在本实施例的一些可选的实现方式中,损失计算模块309可以包括:第一计算子模块、标签构建子模块、第二计算子模块、第三计算子模块以及联合计算子模块,其中:
第一计算子模块,用于基于多意图预测结果和意图标签序列计算第一损失。
标签构建子模块,用于根据选取到的意图标签构建二维共现标签和高维共现标签。
第二计算子模块,用于通过二维共现预测结果和二维共现标签计算第二损失。
第三计算子模块,用于根据高维共现预测结果和高维共现标签计算第三损失。
联合计算子模块,用于对第一损失、第二损失和第三损失进行线性运算,得到联合损失。
本实施例中,联合损失基于多意图预测结果、二维共现预测结果和高维共现预测结果计算得到,同时考虑到了意图识别主任务和标签共现预测辅助任务带来的损失,提高了损失计算的准确性。
在本实施例的一些可选的实现方式中,模型调整模块310可以包括:参数调整子模块以及迭代训练子模块,其中:
参数调整子模块,用于以减小联合损失为目标调整初始意图识别模型、二维共现预测模型和高维共现预测模型的模型参数。
迭代训练子模块,用于对参数调整后的初始意图识别模型、二维共现预测模型和高维共现预测模型进行迭代训练,直至联合损失满足训练停止条件,得到意图识别模型。
本实施例中,以减小联合损失为目标,同时调整初始意图识别模型、二维共现预测模型和高维共现预测模型的模型参数,直至训练结束得到意图识别模型,确保可以通过意图识别模型进行多意图识别。
在本实施例的一些可选的实现方式中,意图识别模块311可以包括:文本获取子模块、编码子模块、交互子模块以及意图识别子模块,其中:
文本获取子模块,用于获取待识别文本。
编码子模块,用于将待识别文本和全量标签序列输入意图识别模型,以对待识别文本和全量标签序列进行交叉编码,得到联合表征向量。
交互子模块,用于对联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互,得到文本表征向量。
意图识别子模块,用于通过意图识别模型处理文本表征向量,得到多意图识别结果。
本实施例中,训练完毕的意图识别模型增加了文本字符与意图标签之间、意图标签之间的语义连接,提高了模型的特征提取能力,获得了语义信息更丰富的文本表征向量,提高了根据文本表征向量进行意图识别的准确性。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如意图识别方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述意图识别方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本实施例中提供的计算机设备可以执行上述意图识别方法。此处意图识别方法可以是上述各个实施例的意图识别方法。
本实施例中,获取带有意图标签序列的训练文本和记录全部意图标签的全量标签序列,对训练文本和全量标签序列进行交叉编码得到联合表征向量,并对其中的文本序列表征向量和标签序列表征向量进行注意力交互,增加了文本字符与意图标签之间、意图标签之间的语义连接,提高了模型的特征提取能力,获得了信息更丰富的训练文本表征向量,提高了初始意图预测模型依据训练文本表征向量生成多意图预测结果的准确性;再从意图标签序列中选取意图标签,从全量标签序列中选取意图标签进行标签二维共现预测,得到二维共现预测结果,并从意图标签序列中选取若干个意图标签,结合全量标签序列中剩余标签进行标签高维共现预测,得到高维共现预测结果,增强标签相关性学习;根据多意图预测结果、二维共现预测结果和高维共现预测结果计算联合损失,以调整模型得到意图识别模型;将待识别文本输入意图识别模型即可得到多意图识别结果;本申请在意图识别的主任务中提高了模型的特征提取能力,丰富了文本表示,在标签共现预测的辅助任务中学习标签相关性,大大提高了训练完毕的意图识别模型进行意图识别的准确性。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的意图识别方法的步骤。
本实施例中,获取带有意图标签序列的训练文本和记录全部意图标签的全量标签序列,对训练文本和全量标签序列进行交叉编码得到联合表征向量,并对其中的文本序列表征向量和标签序列表征向量进行注意力交互,增加了文本字符与意图标签之间、意图标签之间的语义连接,提高了模型的特征提取能力,获得了信息更丰富的训练文本表征向量,提高了初始意图预测模型依据训练文本表征向量生成多意图预测结果的准确性;再从意图标签序列中选取意图标签,从全量标签序列中选取意图标签进行标签二维共现预测,得到二维共现预测结果,并从意图标签序列中选取若干个意图标签,结合全量标签序列中剩余标签进行标签高维共现预测,得到高维共现预测结果,增强标签相关性学习;根据多意图预测结果、二维共现预测结果和高维共现预测结果计算联合损失,以调整模型得到意图识别模型;将待识别文本输入意图识别模型即可得到多意图识别结果;本申请在意图识别的主任务中提高了模型的特征提取能力,丰富了文本表示,在标签共现预测的辅助任务中学习标签相关性,大大提高了训练完毕的意图识别模型进行意图识别的准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (7)
1.一种意图识别方法,其特征在于,包括下述步骤:
获取带有意图标签序列的训练文本和全量标签序列;
将所述训练文本和所述全量标签序列输入初始意图识别模型,以对所述训练文本和所述全量标签序列进行交叉编码,得到联合表征向量;
对所述联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互,得到训练文本表征向量;
通过所述初始意图识别模型处理所述训练文本表征向量,得到多意图预测结果;
从所述意图标签序列中随机选取意图标签以将其标签表征向量作为第一向量,并从所述全量标签序列中随机选取意图标签以将其标签表征向量作为第二向量;其中,标签表征向量为对意图标签交叉编码后得到的向量;
将所述第一向量和所述第二向量拼接后输入标签二维共现预测模型,得到二维共现预测结果;
从所述意图标签序列中随机选取预设数量的意图标签作为高维预测标签,以根据其标签表征向量计算融合向量,并将所述全量标签序列中各高维预测标签以外的意图标签的标签表征向量设置为补集向量;
将所述融合向量与各补集向量拼接后输入标签高维共现预测模型,得到高维共现预测结果;
基于所述多意图预测结果、所述二维共现预测结果和所述高维共现预测结果计算联合损失;
根据所述联合损失对所述初始意图识别模型进行调整,直至所述联合损失满足训练停止条件,得到意图识别模型;
通过所述意图识别模型对待识别文本进行意图识别,得到多意图识别结果;
所述将所述训练文本和所述全量标签序列输入初始意图识别模型,以对所述训练文本和所述全量标签序列进行交叉编码,得到联合表征向量的步骤包括:
根据所述训练文本中的各字符和所述全量标签序列中的各意图标签构建初始序列;
将所述初始序列映射为向量序列;
将所述向量序列输入编码器,以通过所述编码器中的多个编码层对所述向量序列中的字符向量和标签向量进行交叉编码,得到最后一层编码层输出的文本序列表征向量和标签序列表征向量;
将所述文本序列表征向量和所述标签序列表征向量确定为联合表征向量;
所述对所述联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互,得到训练文本表征向量的步骤包括:
对所述联合表征向量中的标签序列表征向量进行转置,得到转置标签序列表征向量;
将所述联合表征向量中的文本序列表征向量与所述转置标签序列表征向量进行点乘运算,得到相关度分数矩阵;所述相关度分数矩阵表征字符与意图标签之间的相关度;
将所述相关度分数矩阵输入激活模型,得到第三向量;
将所述第三向量输入第一激活函数,并将所述激活函数的函数结果进行转置,得到第四向量;
将所述第四向量与所述文本序列表征向量进行点乘运算,得到训练文本表征向量;
所述通过所述初始意图识别模型处理所述训练文本表征向量,得到多意图预测结果的步骤包括:
将所述训练文本表征向量输入所述初始意图识别模型的全连接层,得到第五向量;
将所述第五向量输入第二激活函数,得到第六向量;
根据所述第六向量中各元素的数值,生成多意图预测结果。
2.根据权利要求1所述的意图识别方法,其特征在于,所述基于所述多意图预测结果、所述二维共现预测结果和所述高维共现预测结果计算联合损失的步骤包括:
基于所述多意图预测结果和所述意图标签序列计算第一损失;
根据选取到的意图标签构建二维共现标签和高维共现标签;
通过所述二维共现预测结果和所述二维共现标签计算第二损失;
根据所述高维共现预测结果和所述高维共现标签计算第三损失;
对所述第一损失、所述第二损失和所述第三损失进行线性运算,得到联合损失。
3.根据权利要求1所述的意图识别方法,其特征在于,所述根据所述联合损失对所述初始意图识别模型进行调整,直至所述联合损失满足训练停止条件,得到意图识别模型的步骤包括:
以减小所述联合损失为目标调整所述初始意图识别模型、所述二维共现预测模型和所述高维共现预测模型的模型参数;
对参数调整后的所述初始意图识别模型、所述二维共现预测模型和所述高维共现预测模型进行迭代训练,直至所述联合损失满足训练停止条件,得到意图识别模型。
4.根据权利要求1所述的意图识别方法,其特征在于,所述通过所述意图识别模型对待识别文本进行意图识别,得到多意图识别结果的步骤包括:
获取待识别文本;
将所述待识别文本和所述全量标签序列输入意图识别模型,以对所述待识别文本和所述全量标签序列进行交叉编码,得到联合表征向量;
对所述联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互,得到文本表征向量;
通过所述意图识别模型处理所述文本表征向量,得到多意图识别结果。
5.一种意图识别装置,其特征在于,所述意图识别装置实现如权利要求1至4中任一项所述的意图识别方法的步骤,所述意图识别装置包括:
获取模块,用于获取带有意图标签序列的训练文本和全量标签序列;
交叉编码模块,用于将所述训练文本和所述全量标签序列输入初始意图识别模型,以对所述训练文本和所述全量标签序列进行交叉编码,得到联合表征向量;
向量交互模块,用于对所述联合表征向量中的文本序列表征向量和标签序列表征向量进行注意力交互,得到训练文本表征向量;
意图预测模块,用于通过所述初始意图识别模型处理所述训练文本表征向量,得到多意图预测结果;
二维选取模块,用于从所述意图标签序列中随机选取意图标签以将其标签表征向量作为第一向量,并从所述全量标签序列中随机选取意图标签以将其标签表征向量作为第二向量;其中,标签表征向量为对意图标签交叉编码后得到的向量;
二维预测模块,用于将所述第一向量和所述第二向量拼接后输入标签二维共现预测模型,得到二维共现预测结果;
高维选取模块,用于从所述意图标签序列中随机选取预设数量的意图标签作为高维预测标签,以根据其标签表征向量计算融合向量,并将所述全量标签序列中各高维预测标签以外的意图标签的标签表征向量设置为补集向量;
高维预测模块,用于将所述融合向量与各补集向量拼接后输入标签高维共现预测模型,得到高维共现预测结果;
损失计算模块,用于基于所述多意图预测结果、所述二维共现预测结果和所述高维共现预测结果计算联合损失;
模型调整模块,用于根据所述联合损失对所述初始意图识别模型进行调整,直至所述联合损失满足训练停止条件,得到意图识别模型;
意图识别模块,用于通过所述意图识别模型对待识别文本进行意图识别,得到多意图识别结果。
6.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至4中任一项所述的意图识别方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的意图识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210822568.6A CN115114407B (zh) | 2022-07-12 | 2022-07-12 | 意图识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210822568.6A CN115114407B (zh) | 2022-07-12 | 2022-07-12 | 意图识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115114407A CN115114407A (zh) | 2022-09-27 |
CN115114407B true CN115114407B (zh) | 2024-04-19 |
Family
ID=83332467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210822568.6A Active CN115114407B (zh) | 2022-07-12 | 2022-07-12 | 意图识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115114407B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050428B (zh) * | 2023-03-07 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、设备及存储介质 |
CN116628177B (zh) * | 2023-05-22 | 2023-11-14 | 福建省网络与信息安全测评中心 | 针对网络安全平台的交互数据处理方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287283A (zh) * | 2019-05-22 | 2019-09-27 | 中国平安财产保险股份有限公司 | 意图模型训练方法、意图识别方法、装置、设备及介质 |
CN111462752A (zh) * | 2020-04-01 | 2020-07-28 | 北京思特奇信息技术股份有限公司 | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 |
CN112069302A (zh) * | 2020-09-15 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 会话意图识别模型的训练方法、会话意图识别方法及装置 |
CN113220828A (zh) * | 2021-04-28 | 2021-08-06 | 平安科技(深圳)有限公司 | 意图识别模型处理方法、装置、计算机设备及存储介质 |
CN114528844A (zh) * | 2022-01-14 | 2022-05-24 | 中国平安人寿保险股份有限公司 | 意图识别方法、装置、计算机设备及存储介质 |
WO2022141864A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 对话意图识别模型训练方法、装置、计算机设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6805112B2 (ja) * | 2017-11-08 | 2020-12-23 | 株式会社東芝 | 対話システム、対話方法および対話プログラム |
US11308938B2 (en) * | 2019-12-05 | 2022-04-19 | Soundhound, Inc. | Synthesizing speech recognition training data |
-
2022
- 2022-07-12 CN CN202210822568.6A patent/CN115114407B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287283A (zh) * | 2019-05-22 | 2019-09-27 | 中国平安财产保险股份有限公司 | 意图模型训练方法、意图识别方法、装置、设备及介质 |
CN111462752A (zh) * | 2020-04-01 | 2020-07-28 | 北京思特奇信息技术股份有限公司 | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 |
CN112069302A (zh) * | 2020-09-15 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 会话意图识别模型的训练方法、会话意图识别方法及装置 |
WO2022141864A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 对话意图识别模型训练方法、装置、计算机设备及介质 |
CN113220828A (zh) * | 2021-04-28 | 2021-08-06 | 平安科技(深圳)有限公司 | 意图识别模型处理方法、装置、计算机设备及存储介质 |
CN114528844A (zh) * | 2022-01-14 | 2022-05-24 | 中国平安人寿保险股份有限公司 | 意图识别方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
结合句法特征和卷积神经网络的多意图识别模型;杨春妮;冯朝胜;;计算机应用;20180320(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115114407A (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN115114407B (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
CN112069302A (zh) | 会话意图识别模型的训练方法、会话意图识别方法及装置 | |
CN112085091B (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN112395390B (zh) | 意图识别模型的训练语料生成方法及其相关设备 | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN114091452B (zh) | 一种基于适配器的迁移学习方法、装置、设备及存储介质 | |
CN113947095B (zh) | 多语种文本翻译方法、装置、计算机设备及存储介质 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN113505601A (zh) | 一种正负样本对构造方法、装置、计算机设备及存储介质 | |
CN115757731A (zh) | 对话问句改写方法、装置、计算机设备及存储介质 | |
CN115757725A (zh) | 问答处理方法、装置、计算机设备及存储介质 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN113723077B (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN118070072A (zh) | 基于人工智能的问题处理方法、装置、设备及存储介质 | |
CN113987162A (zh) | 文本摘要的生成方法、装置及计算机设备 | |
CN116186295B (zh) | 基于注意力的知识图谱链接预测方法、装置、设备及介质 | |
CN113569094A (zh) | 视频推荐方法、装置、电子设备及存储介质 | |
CN116701593A (zh) | 基于GraphQL的中文问答模型训练方法及其相关设备 | |
CN116610784A (zh) | 一种保险业务场景问答推荐方法及其相关设备 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN113239215A (zh) | 多媒体资源的分类方法、装置、电子设备及存储介质 | |
CN118227910B (zh) | 一种媒体资源聚合方法、装置、设备及存储介质 | |
CN115470325B (zh) | 消息回复方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |