CN111597342B - 一种多任务意图分类方法、装置、设备及存储介质 - Google Patents
一种多任务意图分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111597342B CN111597342B CN202010443530.9A CN202010443530A CN111597342B CN 111597342 B CN111597342 B CN 111597342B CN 202010443530 A CN202010443530 A CN 202010443530A CN 111597342 B CN111597342 B CN 111597342B
- Authority
- CN
- China
- Prior art keywords
- hidden state
- task
- classification
- layer
- state vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多任务意图分类方法、装置、设备及存储介质,该方法包括:获取文本信息,将文本信息转换为词向量;将词向量转换为第一隐藏状态向量;利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务,得到意图分类结果和实体识别结果。该方法实现避免槽位标记,节省人工成本。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种多任务意图分类方法、装置、设备及存储介质。
背景技术
目前,智能机器人交互是实现城市智能化的一项重要工作。近年来,随着计算机集群计算能力的大幅度提升,人工智能算法研究和产业落地步入了发展快车道,而智能机器人交互作为人工智能重要分支——自然语言处理的一个重要应用,也逐渐成为学术界、工业界重点投入的研究热点和产品方向。无论在教育领域,金融领域,还是医疗领域都有着广泛的应用,通过使用智能机器人,可以提高效率,减少人力资源。智能机器人交互对社会经济效益和国家科技发展都具有重大意义。
命名实体识别在智能机器人交互系统中,需要从用户的提问中准确的识别出各种实体的类型才能更好地回答用户,例如:“我想订一张后天从杭州到三亚的机票?”“从三亚飞杭州的机票多少钱?”,分别需要准确地识别出“后天”,“三亚”和“杭州”才能准确回答用户的问题。对话系统需要接收纯文本形式的自然语言,必需经过实体识别将无结构化的数据转化为结构化数据,才能进行后续的意图识别等步骤。
意图识别也被称为SUC(Spoken Utterance Classification),是将用户输入的自然语言会话进行划分,类别(classification)对应的就是用户意图。例如“今天天气如何”,其意图为“询问天气”。自然地,可以将意图识别看作一个典型的分类问题。意图的分类和定义可参考ISO-24617-2标准,其中共有56种详细的定义。面向任务的对话系统中的意图识别通常可以视为文本分类任务。同时,意图的定义与对话系统自身的定位和所具有的知识库有很大关系,即意图的定义具有非常强的领域相关性。意图分类是口语理解(SLU)系统中的重要任务。
现有技术中,开始联合处理意图分类(ID)和填槽(SF)任务一起完成多任务意图分类处理。但是,当前的联合模型需要大量手动标注的数据样本,手动标注数据需要很多成本,尤其是槽位标记。因此,如何避免槽位标记,节省人工成本是亟待解决的问题。
发明内容
本发明的目的是提供一种多任务意图分类方法、装置、设备及存储介质,以实现避免槽位标记,节省人工成本。
为解决上述技术问题,本发明提供一种多任务意图分类方法,包括:
获取文本信息,将文本信息转换为词向量;
将词向量转换为第一隐藏状态向量;
利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务,得到意图分类结果和实体识别结果。
优选的,所述将文本信息转换为词向量,包括:
从文本信息中提取词信息;
将词信息进行向量转换,生成词向量。
优选的,所述将词向量转换为第一隐藏状态向量,包括:
将词向量输入至第一双向LSTM神经网络,输出得到第一隐藏状态向量。
优选的,所述利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务,得到意图分类结果和实体识别结果,包括:
将第一隐藏状态向量输入至意图分类任务,执行意图分类任务得到意图分类结果;
将第一隐藏状态向量输入至命名实体识别任务,执行命名实体识别任务得到实体识别结果。
优选的,所述将第一隐藏状态向量输入至意图分类任务,执行意图分类任务得到意图分类结果,包括:
将第一隐藏状态向量输入至第二双向LSTM神经网络,输出得到对话意图;
将对话意图输入至softmax分类层,输出得到意图分类结果。
优选的,所述第一隐藏状态向量输入至命名实体识别任务,执行命名实体识别任务得到实体识别结果,包括:
将第一隐藏状态向量输入至单向LSTM神经网络,输出得到第二隐藏状态向量;
将第二隐藏状态向量输入至条件随机场CRF,输出得到实体识别结果。
优选的,所述将词向量转换为第一隐藏状态向量之后,还包括:
对第一隐藏状态向量进行正则化,得到正则化结果。
本发明还提供一种多任务意图分类装置,包括:
第一转换模块,用于获取文本信息,将文本信息转换为词向量;
第二转换模块,用于将词向量转换为第一隐藏状态向量;
执行模块,用于利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务,得到意图分类结果和实体识别结果。
本发明还提供一种多任务意图分类设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述的多任务意图分类方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的多任务意图分类方法的步骤。
本发明所提供的一种多任务意图分类方法、装置、设备及存储介质,获取文本信息,将文本信息转换为词向量;将词向量转换为第一隐藏状态向量;利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务,得到意图分类结果和实体识别结果。可见,不再是联合意图分类任务和填槽任务,而是利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务,即使用命名实体识别任务替换联合模型中的填槽任务,联合意图分类任务和命名实体识别任务实现多任务意图分类,避免槽位标记,节省人工成。并且,由于意图分类任务和命名实体识别任务共同使用了底层的共享特征,提升了意图分类任务的意图分类结果准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明所提供的一种多任务意图分类方法的流程图;
图2为多任务意图分类模型示意图;
图3为意图分类单任务模型示意图;
图4为本发明所提供的一种多任务意图分类装置结构示意图;
图5为本发明所提供的一种多任务意图分类设备结构示意图。
具体实施方式
本发明的核心是提供一种多任务意图分类方法、装置、设备及存储介质,以实现避免槽位标记,节省人工成本。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的一种多任务意图分类方法的流程,该方法包括以下步骤:
S11:获取文本信息,将文本信息转换为词向量;
S12:将词向量转换为第一隐藏状态向量;
S13:利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务,得到意图分类结果和实体识别结果。
可见,本方法不再是联合意图分类任务和填槽任务,而是利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务,即使用命名实体识别任务替换联合模型中的填槽任务,联合意图分类任务和命名实体识别任务实现多任务意图分类,避免槽位标记,节省人工成。并且,由于意图分类任务和命名实体识别任务共同使用了底层的共享特征,提升了意图分类任务的意图分类结果准确性。
基于上述方法,进一步的,步骤S11中,将文本信息转换为词向量的过程包括以下步骤:
S21:从文本信息中提取词信息;
S22:将词信息进行向量转换,生成词向量。
其中,将每一个输入的词或字符映射到分布式表示空间,它是低维稠密的向量表示空间,能够捕捉单词的语义和句法特性。早期研究工作使用One-Hot(“独热”)方法来编码文本信息,为了缓解维度灾难和数据稀疏的问题,本发明中基于深度学习方法采用稠密、连续、低维度的文本向量来代替One-Hot编码,采用基于矩阵分布式表示的Word2vec模型,使用某种度量下向量之间的空间距离来表示其语义相似度。
进一步的,步骤S12具体包括:将词向量输入至第一双向LSTM神经网络,输出得到第一隐藏状态向量。LSTM(Long Short-Term Memory)是长短期记忆网络,双向LSTM即为双向长短期记忆网络,简称为BI-LSTM。
LSTM(Long Short-Term Memory)长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM是解决循环神经网络RNN结构中存在的“梯度消失”问题而提出的,是一种特殊的循环神经网络。双向RNN由两个普通的RNN所组成,一个正向的RNN,利用过去的信息,一个逆序的RNN,利用未来的信息,这样在时刻t,既能够使用t-1时刻的信息,又能够利用到t+1时刻的信息。一般来说,由于双向LSTM能够同时利用过去时刻和未来时刻的信息,会比单向LSTM最终的预测更加准确。
图2为多任务意图分类模型示意图,多任务意图分类模型是意图分类和命名实体识别的联合模型的结构。双向LSTM层2和softmax层用于意图分类,单向LSTM层和CRF层用于命名实体识别。双向LSTM层1和词嵌入层被两个任务共享。由于意图分类任务和命名实体识别任务共同使用了底层的共享特征,即共同使用了双向LSTM层1和词嵌入层,提升了意图分类任务的意图分类结果准确性。
其中,输入是一组句子S=(s1,s2,…,sm),m是句子数,每个句子s包含n个单词s=(x1,x2,…,xn)。在图2中,绘制了四个单词。通过单词嵌入层将单词转换为向量。通过GloVe预训练的单词向量初始化嵌入层。然后,这些矢量将送入BiLSTM层即图2中的双向LSTM层1,LSTM在时间步骤t的隐藏状态ht的计算公式如下:
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht,xt-1]+bi)
Ct=tanh(Wc[ht,xt-1]+bc)
Ct=ft*Ct-1+it*Ct
ot=σ(Wo[ht,xt-1]+bo)
ht=ot*tanh(Ct)
式中xt是t时间步的输入,ht-1是上次t-1时间步的隐藏状态,是t时间步的细胞状态,Ct是t时间步的候选向量,W是变换矩阵,b是偏置,*表示两个向量的点乘。σ是sigmod函数。
双向LSTM层1中前向和后向都采用单词序列s=(x1,x2,…,xn)作为输入。然后,双向LSTM层1在时间步t生成隐藏状态和/>双向LSTM在时间步ht的最终隐藏状态定义为:
因此,双向LSTM层1生成隐藏状态序列(h1,h2…,hn)。
进一步的,步骤S13包括以下步骤:
S31:将第一隐藏状态向量输入至意图分类任务,执行意图分类任务得到意图分类结果;
S32:将第一隐藏状态向量输入至命名实体识别任务,执行命名实体识别任务得到实体识别结果。
详细的,步骤S31包括以下步骤:
S41:将第一隐藏状态向量输入至第二双向LSTM神经网络,输出得到对话意图;
其中,第二双向LSTM神经网络包括前向LSTM神经网络和后向LSTM神经网络,将第一隐藏状态向量输入到前向LSTM神经网络,前向LSTM神经网络的最后一个时间步的隐藏状态向量和后向LSTM神经网络的第一个时间步的隐藏状态向量拼接在一起,得到对话意图;
S42:将对话意图输入至softmax分类层,输出得到意图分类结果。
基于步骤S41和步骤S42,详细的,对于意图分类任务,BiLSTM层1生成的这些隐藏状态被送到BiLSTM层2,将BiLSTM层2中的前向LSTM的最后一个时间步的隐状态与后向LSTM的第一个时间步的隐状态拼接在一起,以获得对话意图表示hintent,然后将其输入softmax分类层进行分类:
yintent=softmax(Wihintent+bi)
式子中,是BiLSTM层2的前向LSTM的最后一步,/>是BiLSTM层2的后向LSTM的第一步。Wi,bi是softmax分类层的权重矩阵偏置,yinten是话语的预测意图标签。
详细的,步骤S32包括以下步骤:
S51:将第一隐藏状态向量输入至单向LSTM神经网络,输出得到第二隐藏状态向量;
S52:将第二隐藏状态向量输入至条件随机场CRF,输出得到实体识别结果。
对于命名实体识别或填槽任务,BiLSTM层1生成的隐藏状态被馈送到LSTM层。在每个时间步t,LSTM层生成隐藏状态yt,然后形成隐藏状态(y1,y2,…,yn)的序列。将这些隐藏状态提供给CRF层,并生成一系列命名实体或槽标签:
NE1 /ST1,NE2 /ST2,…,NEn /STn=CRF(y1,y2,…,yn)
式中,NE1 /ST1,NE2 /ST2,…,NEn /STn是生成的命名实体或槽位的标签,CRF代表的CRF层,(y1,y2,…,yn)代表的是LSTM层生成的隐状态序列。在LSTM层之后,添加了一个用于正则化的dropout层。
图3为意图分类单任务模型示意图,如图3所示,意图分类单任务模型的神经网络与图2中联合模型的意图分类神经网络相同,这确保了联合模型和单任务模型具有相同的能力来提取意图分类任务上的特征。如果联合模型在意图分类任务上可以实现比单任务模型更好的性能,那完全是由辅助任务获得的。
条件随机场(conditional random field,简称CRF)是一个以观察序列为条件的全局随机场。CRF在基于特征的监督学习方法中得到了广泛的应用。在许多的深度学习模型中,将CRF作为模型的标签解码器,比如:应用到双向LSTM的顶层和CNN网络的顶层。
基于上述方法,进一步的,步骤S12之后,对第一隐藏状态向量进行正则化,得到正则化结果。在词嵌入层和BiLSTM层1之后,我们添加了dropout层和批正则化层来进行正则化。
本发明中,使用工业强度自然语言处理工具spaCy生成基准数据集的命名实体标签,然后使用命名实体识别(NER)替换联合模型中的SF任务。使用NER来替换SF任务是因为NER标签比许多不同域和意图中的槽标签更通用。相同的NER标签标准可用于许多不同的域和意图。本发明的主要目的是利用深度学习技术解决智能机器人交互中意图分类问题,提出命名实体识别(NER)和意图分类(ID)联合任务模型。本发明的主要内容是提出利用命名实体识别技术来提升意图分类任务的准确率,使用命名实体识别(NER)替换联合模型中的SF任务,探究命名实体识别任务(NER)对意图分类(ID)任务有效性。
请参考图4,图4为本发明所提供的一种多任务意图分类装置结构示意图,该装置用于实现上述方法,包括:
第一转换模块101,用于获取文本信息,将文本信息转换为词向量;
第二转换模块102,用于将词向量转换为第一隐藏状态向量;
执行模块103,用于利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务,得到意图分类结果和实体识别结果。
可见,该装置中,不再是联合意图分类任务和填槽任务,而是利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务,即使用命名实体识别任务替换联合模型中的填槽任务,联合意图分类任务和命名实体识别任务实现多任务意图分类,避免槽位标记,节省人工成。并且,由于意图分类任务和命名实体识别任务共同使用了底层的共享特征,提升了意图分类任务的意图分类结果准确性。
对于本发明提供的多任务意图分类装置的介绍请参照前述的多任务意图分类方法的实施例,本发明实施例在此不再赘述。
请参考图5,图5为本发明所提供的一种多任务意图分类设备结构示意图,该设备包括:
存储器201,用于存储计算机程序;
处理器202,用于执行所述计算机程序时实现如前述实施例中的多任务意图分类方法的步骤。
对于本发明提供的多任务意图分类设备的介绍请参照前述的多任务意图分类方法的实施例,本发明实施例在此不再赘述。
本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述实施例中的多任务意图分类方法的步骤。
对于本发明提供的计算机可读存储介质的介绍请参照前述的方法的多任务意图分类实施例,本发明实施例在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种多任务意图分类方法、装置、设备及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (6)
1.一种多任务意图分类方法,其特征在于,包括:
获取文本信息,将文本信息转换为词向量;
将词向量转换为第一隐藏状态向量;
利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务,得到意图分类结果和实体识别结果;
其中,所述利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务,得到意图分类结果和实体识别结果,包括:
将第一隐藏状态向量输入至意图分类任务,执行意图分类任务得到意图分类结果;
将第一隐藏状态向量输入至命名实体识别任务,执行命名实体识别任务得到实体识别结果;
其中,所述将第一隐藏状态向量输入至意图分类任务,执行意图分类任务得到意图分类结果,包括:
将第一隐藏状态向量输入至第二双向LSTM神经网络,输出得到对话意图;
将对话意图输入至softmax分类层,输出得到意图分类结果;
对于意图分类任务,BiLSTM层1生成的这些隐藏状态被送到BiLSTM层2,将BiLSTM层2中的前向LSTM的最后一个时间步的隐状态与后向LSTM的第一个时间步的隐状态拼接在一起,以获得对话意图表示hintent,然后将其输入softmax分类层进行分类:
yintentt=softmax(Wihintent+bi)
式子中,是BiLSTM层2的前向LSTM的最后一步,/>是BiLSTM层2的后向LSTM的第一步;Wi,bi是softmax分类层的权重矩阵偏置,yintent是话语的预测意图标签;
其中,所述第一隐藏状态向量输入至命名实体识别任务,执行命名实体识别任务得到实体识别结果,包括:
将第一隐藏状态向量输入至单向LSTM神经网络,输出得到第二隐藏状态向量;
将第二隐藏状态向量输入至条件随机场CRF,输出得到实体识别结果;
对于命名实体识别,BiLSTM层1生成的隐藏状态被馈送到LSTM层;在每个时间步t,LSTM层生成隐藏状态yt,然后形成隐藏状态(y1,y2,…,yn)的序列;将这些隐藏状态提供给CRF层,并生成一系列命名实体或槽标签:
NE1/ST1,NE2/ST2,…,NEn/STn=CRF(y1,y2,…,yn)
式中,NE1/ST1,NE2/ST2,…,NEn/STn是生成的命名实体或槽位的标签,CRF代表的CRF层,(y1,y2,…,yn)代表的是LSTM层生成的隐状态序列;在LSTM层之后,添加了一个用于正则化的dropout层。
2.如权利要求1所述的方法,其特征在于,所述将文本信息转换为词向量,包括:
从文本信息中提取词信息;
将词信息进行向量转换,生成词向量。
3.如权利要求1所述的方法,其特征在于,所述将词向量转换为第一隐藏状态向量,包括:
将词向量输入至第一双向LSTM神经网络,输出得到第一隐藏状态向量。
4.如权利要求1所述的方法,其特征在于,所述将词向量转换为第一隐藏状态向量之后,还包括:
对第一隐藏状态向量进行正则化,得到正则化结果。
5.一种多任务意图分类设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述的多任务意图分类方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的多任务意图分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010443530.9A CN111597342B (zh) | 2020-05-22 | 2020-05-22 | 一种多任务意图分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010443530.9A CN111597342B (zh) | 2020-05-22 | 2020-05-22 | 一种多任务意图分类方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597342A CN111597342A (zh) | 2020-08-28 |
CN111597342B true CN111597342B (zh) | 2024-01-26 |
Family
ID=72187529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010443530.9A Active CN111597342B (zh) | 2020-05-22 | 2020-05-22 | 一种多任务意图分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597342B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084336A (zh) * | 2020-09-09 | 2020-12-15 | 浙江综合交通大数据中心有限公司 | 一种高速公路突发事件的实体提取和事件分类方法及装置 |
CN112183061B (zh) * | 2020-09-28 | 2024-03-01 | 云知声智能科技股份有限公司 | 一种多意图口语理解方法、电子设备和存储介质 |
CN112214998B (zh) * | 2020-11-16 | 2023-08-22 | 中国平安财产保险股份有限公司 | 意图与实体的联合识别方法、装置、设备和存储介质 |
CN113515946B (zh) * | 2021-06-22 | 2024-01-05 | 亿咖通(湖北)技术有限公司 | 信息处理方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193865A (zh) * | 2017-04-06 | 2017-09-22 | 上海奔影网络科技有限公司 | 人机交互中自然语言意图理解方法及装置 |
CN107924680A (zh) * | 2015-08-17 | 2018-04-17 | 三菱电机株式会社 | 口语理解系统 |
CA3039551A1 (en) * | 2016-11-03 | 2018-05-11 | Salesforce.Com, Inc. | Training a joint many-task neural network model using successive regularization |
WO2018102240A1 (en) * | 2016-12-02 | 2018-06-07 | Microsoft Technology Licensing, Llc | Joint language understanding and dialogue management |
CN108363978A (zh) * | 2018-02-12 | 2018-08-03 | 华南理工大学 | 采用深度学习和ukf的基于肢体语言的情感感知方法 |
CN108920445A (zh) * | 2018-04-23 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 |
KR20190019661A (ko) * | 2017-08-18 | 2019-02-27 | 동아대학교 산학협력단 | 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법 |
CN109461039A (zh) * | 2018-08-28 | 2019-03-12 | 厦门快商通信息技术有限公司 | 一种文本处理方法及智能客服方法 |
CN109785833A (zh) * | 2019-01-02 | 2019-05-21 | 苏宁易购集团股份有限公司 | 用于智能设备的人机交互语音识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10366163B2 (en) * | 2016-09-07 | 2019-07-30 | Microsoft Technology Licensing, Llc | Knowledge-guided structural attention processing |
-
2020
- 2020-05-22 CN CN202010443530.9A patent/CN111597342B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107924680A (zh) * | 2015-08-17 | 2018-04-17 | 三菱电机株式会社 | 口语理解系统 |
CA3039551A1 (en) * | 2016-11-03 | 2018-05-11 | Salesforce.Com, Inc. | Training a joint many-task neural network model using successive regularization |
WO2018102240A1 (en) * | 2016-12-02 | 2018-06-07 | Microsoft Technology Licensing, Llc | Joint language understanding and dialogue management |
CN107193865A (zh) * | 2017-04-06 | 2017-09-22 | 上海奔影网络科技有限公司 | 人机交互中自然语言意图理解方法及装置 |
KR20190019661A (ko) * | 2017-08-18 | 2019-02-27 | 동아대학교 산학협력단 | 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법 |
CN108363978A (zh) * | 2018-02-12 | 2018-08-03 | 华南理工大学 | 采用深度学习和ukf的基于肢体语言的情感感知方法 |
CN108920445A (zh) * | 2018-04-23 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 |
CN109461039A (zh) * | 2018-08-28 | 2019-03-12 | 厦门快商通信息技术有限公司 | 一种文本处理方法及智能客服方法 |
CN109785833A (zh) * | 2019-01-02 | 2019-05-21 | 苏宁易购集团股份有限公司 | 用于智能设备的人机交互语音识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于BLSTM-CNN-CRF模型的槽填充与意图识别;华冰涛;袁志祥;肖维民;郑啸;;计算机工程与应用(09);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111597342A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597342B (zh) | 一种多任务意图分类方法、装置、设备及存储介质 | |
CN111783462B (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN110321418B (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
WO2020140487A1 (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN114091460B (zh) | 一种多任务中文实体命名识别方法 | |
CN114298053B (zh) | 一种基于特征和注意力机制融合的事件联合抽取系统 | |
CN115146057B (zh) | 基于交互注意力的供应链生态区图文融合情感识别方法 | |
CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
CN113743099A (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN112308080A (zh) | 面向指向性视觉理解和分割的图像描述预测方法 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN114781375A (zh) | 一种基于bert与注意力机制的军事装备关系抽取方法 | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
CN112307179A (zh) | 文本匹配方法、装置、设备及存储介质 | |
JP2023017759A (ja) | セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置 | |
CN114926716A (zh) | 一种学习参与度识别方法、装置、设备及可读存储介质 | |
CN118350464A (zh) | 基于任意粒度文本输入的对话式目标定位方法及装置 | |
CN117151121B (zh) | 一种基于波动阈值与分割化的多意图口语理解方法 | |
CN113642862A (zh) | 基于bert-mbigru-crf模型的电网调度指令命名实体识别方法及系统 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |