CN112699686A - 基于任务型对话系统的语义理解方法、装置、设备及介质 - Google Patents
基于任务型对话系统的语义理解方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112699686A CN112699686A CN202110008442.0A CN202110008442A CN112699686A CN 112699686 A CN112699686 A CN 112699686A CN 202110008442 A CN202110008442 A CN 202110008442A CN 112699686 A CN112699686 A CN 112699686A
- Authority
- CN
- China
- Prior art keywords
- semantic understanding
- module
- text information
- vector corresponding
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 166
- 239000011159 matrix material Substances 0.000 claims abstract description 90
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 62
- 238000000605 extraction Methods 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 22
- 238000002372 labelling Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于任务型对话系统的语义理解方法、装置、设备及介质;在本方案中,提取的特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量,通过该方式,可以让特征向量保留更多的语义信息、上下文和句子结构信息,提高语义理解的准确性;并且,本方案通过联合意图分类及实体分类的语义理解模块对特征向量进行处理,相比于单一任务具有更高的识别效率及准确率。
Description
技术领域
本发明涉及对话系统和自然语言理解领域,更具体地说,涉及一种基于任务型对话系统的语义理解方法、装置、设备及介质。
背景技术
自然语言处理是人工智能的一个子领域,是指机器能够理解和解释人类语言的能力,应用场景非常广泛,例如情感分析,自动文摘,对话系统等。对话系统主要分为任务型,问答型和闲聊型三大类,其中任务型对话系统需要较强的领域知识,实现模块主要由语音识别(Automatic Speech Recognition,ASR)、语义理解(Natural LanguageUnderstanding,NLU)、对话管理(Dialog Management,DM)、自然语言生成(NaturalLanguage Generation,NLG)和语音合成(Text To Speech,TIS)这五部分组成。
目前,对话系统的难点主要在于语义理解和对话管理,而语义理解模块是对话管理正常执行的前提和保障,目标是将语音识别后的文本转化为结构化的语义表示,主要包括意图分类和实体识别。当前主流的实现方法一般将两者当作独立的任务进行处理,即通过不同的模型分别进行识别。意图分类属于文本分类问题,目前主要方法有朴素贝叶斯,支持向量机(Support Vector Machine,SVN)等基于传统机器学习模型的方法,以及卷积神经网络(Convolutional Neural Networks,CNN),循环神经网络(Recurrent NeuralNetwork,RNN)等基于深度神经网络模型的方法。实体识别属于序列标注问题,常用的模型同样有传统机器学习方法和深度学习方法,例如最大熵马尔可夫(Maximum EntropyMarkov Model,MEMM),条件随机场(Conditional Random Fields,CRF),长短期机器网络模型(Long Short-Term Memory,LSTM)等。另外,当下最为流行的实体抽取方法是将神经网络模型和传统个机器学习模型以计算联合概率的方式结合在一起,例如LSTM+CRF模型。
意图分类和实体抽取处理的数据均为文本数据,因此都需要先将文本数据转化为特征向量。特征提取的方法主要包括两大类,稀疏矩阵表示和稠密矩阵表示,前者主要包括字和词级别的One-Hot、n-gram等方法,后者主要是指引入预训练模型,例如BERT,Glove等句子级别的特征提取方法。
语义理解模块主要流程是先对语料进行特征向量化,通过字词级别的稀疏矩阵表示或者句子级别的稠密矩阵表示,然后分别通过不同深度网络模型进行意图分类和实体抽取。这样存在两处问题,一是提取的特征向量不足以充分表示对话文本信息,即只存在字词级别的语义信息,或者只存在句子级别的上下文和结构信息;二是将意图分类和实体识别当作单一任务对待处理,不仅降低了在线识别效率,也降低了识别准确率。
发明内容
本发明的目的在于提供一种基于任务型对话系统的语义理解方法、装置、设备及介质,以提高语义理解的准确率。
为实现上述目的,本发明提供一种基于任务型对话系统的语义理解方法,包括:
获取待处理的文本信息;
确定所述文本信息中与每个字符对应的一维向量;
将每个字符对应的一维向量输入特征提取模块,通过所述特征提取模块提取与所述文本信息对应的特征向量;所述特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量;
将所述特征向量输入语义理解模块,通过所述语义理解模块获得与所述文本信息对应的语义理解结果;其中,所述语义理解模块为联合意图分类及实体分类的语义理解模块。
其中,所述将每个字符对应的一维向量输入特征提取模块,通过所述特征提取模块提取与所述文本信息对应的特征向量,包括:
将每个字符对应的一维向量输入稀疏矩阵提取模块,获得与所述文本信息对应的稀疏矩阵特征向量;
将每个字符对应的一维向量输入稠密矩阵提取模块,获得与所述文本信息对应的稠密矩阵特征向量;
将所述稀疏矩阵特征向量与所述稠密矩阵特征向量拼接,获得与所述文本信息对应的特征向量。
其中,所述将每个字符对应的一维向量输入稀疏矩阵提取模块,获得与所述文本信息对应的稀疏矩阵特征向量,包括:
将每个字符对应的一维向量输入n-gram语言模型,获取n-gram特征;
将所述n-gram特征进行one-hot编码获得与所述文本信息对应的稀疏矩阵特征向量。
其中,所述将每个字符对应的一维向量输入稠密矩阵提取模块,获得与所述文本信息对应的稠密矩阵特征向量,包括:
将每个字符对应的一维向量输入预训练模型,获得与所述文本信息对应的稠密矩阵特征向量。
其中,所述语义理解模块的训练过程包括:
确定训练数据;
对所述训练数据进行意图标注和实体标注,得到意图标签和实体标签;
确定所述训练数据中与每个字符对应的一维向量,并输入所述特征提取模块,获得训练特征向量;
将所述意图标签、所述实体标签和所述训练特征向量输入初始语义理解模块,对初始语义理解模块进行训练得到所述语义理解模块。
其中,对所述初始语义理解模块进行训练的过程中,还包括:
计算意图分类损失和实体识别损失;
利用所述意图分类损失和实体识别损失确定整体识别损失;
在对所述初始语义理解模块训练的过程,通过所述整体识别损失对所述初始语义理解模块的参数进行调整。
其中,所述将所述特征向量输入语义理解模块,通过所述语义理解模块获得与所述文本信息对应的语义理解结果,包括:
通过Transformer模型对所述特征向量处理,并将处理结果输入CRF模型,得到与所述文本信息对应的语义理解结果。
为实现上述目的,本发明进一步提供一种基于任务型对话系统的语义理解装置,包括:
文本获取模块,用于获取待处理的文本信息;
向量确定模块,用于确定所述文本信息中与每个字符对应的一维向量;
向量输入模块,用于将每个字符对应的一维向量输入特征提取模块;
特征提取模块,用于提取与所述文本信息对应的特征向量;所述特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量;
特征输入模块,用于将所述特征向量输入语义理解模块;
语义理解模块,用于通过所述特征向量获得与所述文本信息对应的语义理解结果;所述语义理解模块为联合意图分类及实体分类的语义理解模块。
为实现上述目的,本发明进一步提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述基于任务型对话系统的语义理解方法的步骤。
为实现上述目的,本发明进一步提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于任务型对话系统的语义理解方法的步骤。
通过以上方案可知,本发明实施例提供的一种基于任务型对话系统的语义理解方法,包括:获取待处理的文本信息;确定文本信息中与每个字符对应的一维向量;将每个字符对应的一维向量输入特征提取模块,通过特征提取模块提取与文本信息对应的特征向量;特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量;将特征向量输入语义理解模块,通过语义理解模块获得与文本信息对应的语义理解结果;其中,语义理解模块为联合意图分类及实体分类的语义理解模块。
可见,本方案提取的特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量,通过该方式,可以让特征向量保留更多的语义信息、上下文和句子结构信息,提高语义理解的准确性;并且,本方案通过联合意图分类及实体分类的语义理解模块对特征向量进行处理,相比于单一任务具有更高的识别效率及准确率;本发明还公开了一种基于任务型对话系统的语义理解装置、设备及介质,同样能实现上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种基于任务型对话系统的语义理解方法流程示意图;
图2为本发明实施例公开的一种特征提取流程示意图;
图3为本发明实施例公开的训练流程示意图;
图4为本发明实施例公开的模型总体损失确定流程图;
图5为本发明实施例公开的一种基于任务型对话系统的语义理解装置结构示意图;
图6为本发明实施例公开的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于任务型对话系统的语义理解方法、装置、设备及介质,以提高语义理解的准确率。
参见图1,本发明实施例提供的一种基于任务型对话系统的语义理解方法流程示意图,包括:
S101、获取待处理的文本信息;
S102、确定文本信息中与每个字符对应的一维向量;
具体来说,本方案中文本信息为待进行语义理解的文本信息,可以为对话文本信息。确定文本信息后,需要将文本信息以字符为单位划分,根据字表获得与每个字符对应的向量,若该文本信息中字符数为N,则会得到与该文本信息对应的N个一维向量。
S103、将每个字符对应的一维向量输入特征提取模块,通过特征提取模块提取与文本信息对应的特征向量;该特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量;
在本方案中,获得文本信息的一维向量后,需要将每个一维向量都输入特征提取模块,进行文本特征的提取。本方案中的特征提取模块具体包括稀疏矩阵提取模块和稠密矩阵提取模块,因此该特征提取过程具体包括:将每个字符对应的一维向量输入稀疏矩阵提取模块,获得与文本信息对应的稀疏矩阵特征向量;将每个字符对应的一维向量输入稠密矩阵提取模块,获得与文本信息对应的稠密矩阵特征向量;将稀疏矩阵特征向量与稠密矩阵特征向量拼接,获得与文本信息对应的特征向量。可见,本方案可同时获取该文本信息对应的稀疏矩阵特征向量和稠密矩阵特征向量,从而使得提取的特征向量包含更多的语义信息及上下文和结构信息,充分获取该对话文本想要表达的意图和实体信息。
具体的,本方案生成稀疏矩阵特征向量的过程具体包括:将每个字符对应的一维向量输入n-gram语言模型,获取n-gram特征;将n-gram特征进行one-hot编码获得与文本信息对应的稀疏矩阵特征向量。本方案生成稠密矩阵特征向量的过程具体包括:将每个字符对应的一维向量输入预训练模型,获得与文本信息对应的稠密矩阵特征向量。
参见图2,本发明实施例提供的一种特征提取流程示意图,通过图2可以看出,特征提取模块的第一层为两个并行模块:稀疏矩阵提取模块和稠密矩阵提取模块;若文本信息中的字符“我”转换为一维向量后,得到一维向量“x1”,将该一维向量输入左侧n-gram语言模型获取到文本上下文特征表示,其中,n表示滑动窗口大小;然后将提取到的n-gram特征进行one-hot编码获取文本的稀疏特征,该稀疏特征还可以经过一个全连接层进行特征维度变换,获得最后的稀疏矩阵特征向量,这样可以使文本的稀疏矩阵特征向量和稠密矩阵特征向量更好地融合。同时,还需要将该一维向量并行输入右侧的预训练模型,获取到字符的稠密向量表示,这里的预训练模型可以用BERT,Glove等等,在此并不具体限定;最后,将稀疏矩阵和稠密矩阵拼接到一起,获得最后的特征向量,该特征向量不仅能够表示字词级别的语义信息,同时包含了整个句子所要表达的上下文和结构信息。
S104、将特征向量输入语义理解模块,通过语义理解模块获得与文本信息对应的语义理解结果;该语义理解模块为联合意图分类及实体分类的语义理解模块。
具体来说,本方案通过语义理解模块获得与文本信息对应的语义理解结果的过程,具体包括:通过Transformer模型对特征向量处理,并将处理结果输入CRF模型,得到与文本信息对应的语义理解结果。
具体来说,本方案中的语义理解模块包括Transformer模型和CRF模型,Transformer模型可以将输入的包括稀疏矩阵特征向量和稠密矩阵特征向量的特征向量进行结合,例如:特征向量中的稀疏矩阵特征向量只能表示字词级别的语义信息,稠密矩阵特征向量只能表示上下文和句子结构信息,通过Transformer模型处理后,得到的向量会对上下文和句子结构信息以及语义信息进行融合,得到具有文本信息逻辑的向量。其中,该Transformer模型可通过多层transformer叠加,还可以根据实际场景设置transformersize,如:若针对的具体任务均较为简单,语料规模也相对较少,则可以将size设置为1或者直接去掉transformer部分,以免模型过于复杂,出现过拟合现象;其中,本方案在对Transformer模型训练过程中,可将size设置为2,即使用两层transformer叠加进行模型训练。
综上可以看出,本方案在特征化处理时,同时采用了稀疏矩阵和稠密矩阵表示文本特征,比单一表示保留了更多的语义和上下文信息,提高了模型识别的准确率;并且,本方案还提出了一种联合模型,同时处理意图分类和实体识别两个任务,在识别对话意图的同时提取实体信息,通过消融研究,比单独处理单一任务具有更高的识别效率和准确率。
在本实施例中,对该语义理解模块的训练过程具体说明,该过程包括:
确定训练数据,对训练数据进行意图标注和实体标注,得到意图标签和实体标签;确定训练数据中与每个字符对应的一维向量,并输入特征提取模块,获得训练特征向量;将意图标签、实体标签和训练特征向量输入初始语义理解模块,对初始语义理解模块进行训练得到所述语义理解模块。
参见图3,为本发明实施例公开的训练流程示意图,通过图3可以看出,在训练时首先需要确定训练数据,该训练数据为预先获取和整理的中文对话语料,在本方案中,该中文对话语料为:智能办公助手相关任务场景下的真实中文对话语料。训练数据确定后,需要根据对话的上下文信息进行意图和实体标注,该过程具体包括:
1、对获取到的原始语料进行任务意图标注,每一个原始文本用text表示,对应的意图标签为:label,例如text为“我要预定一个明天下午的会议室”,则其中的label为“conference_reservation”;
2、对获取到的原始语料进行实体标注,按照对话系统的具体应用任务场景,对原始语料中的每一个元素进行标签标注。本方案中,将文本中的每个字看作一个元素,例如text为“我要预定一个明天下午的会议室”,则对应entities实体标注为“O O O O O Oconference_time conference_time conference_time conference_time O O O O”。将上述标注后的数据按照9:1的比例划分为训练数据集和验证数据集。
进一步,实体标注及意图标注后,需要通过字表查找与每个训练字符对应的一维向量,然后输入特征提取模块,得到训练特征向量,训练特征向量还可以输入全连接层,为了防止过拟合,设置dropout为0.7;该全连接层对特征向量的维度进行调整后,再输入语义理解模块,对语义理解模块进行进行训练,并保存模型。其中,在对初始语义理解模块进行训练的过程中,还包括:计算意图分类损失和实体识别损失;利用意图分类损失和实体识别损失确定整体识别损失;在对初始语义理解模块训练的过程,通过整体识别损失对初始语义理解模块的参数进行调整。
参见图4,为本发明实施例公开的模型总体损失确定流程图;具体来说,在训练过程中,训练特征向量输入Transformer模型后,还可以将Transformer模型的输出经过词嵌入层,该过程包括:将Transformer模型的输出经过平均池化层作为文本的特征表示,在将该文本特征表示送入一个全连接层提取特定维度的向量表示。同时,将意图标签也经过一个全连接层转化成相同维度的向量。最后,用Dot-product损失计算方法,获得意图分类的损失,该意图分类损失计算公式如下所示:
其中,average表示对所有样本的意图损失值取平均,∑求和操作是在负样本标签上,即即所属意图与当前样本不一致的标签集合;表示预测标签与真正目标标签的相似度,表示预测标签与其他标签的相似度,e为自然常数。aCLS表示每个样本经过Transformer层输出后的CLS符号对应的向量,表示目标意图标签,表示其他标签,E(.)表示经过嵌入层。
进一步,将Transformer模型输出的向量输入到CRF模型,CRF模型在实体识别过程中,同时将实体标签经过一个全连接层转化成相同维度的向量,并输入该CRF模型,获得实体识别损失,该实体识别损失的计算方式如下:
Lossner=LCRF(a,yentity);
LCRF=log(p(y|X))=log(softmax(s(X,y)));
其中,LCRF表示对数似然可能性,a表示对应样本的输入,yentity表示该样本对应的实体;s(X,y)表示对于每种标注序列的打分结果,X表示输入的文本,y为yentity,p表示概率,softmax用来对标注计算概率;A表示分数转移矩阵,P表示分数矩阵。
最后,将意图分类损失和实体识别损失相加,获得最终模型的整体识别损失函数Loss,具体为:Loss=LossID+Lossner。其中,该整体识别损失函数主要用来衡量此次得到的模型,预测出来的结果与实际结果之间的差距,以此来调整模型的参数。对模型训练后,还可以将测试数据输入模型进行模型校验,得到模型评估结果,在本方案中,评价指标包括精确率、召回率和综合评价指标,计算方式如下所示:
其中,TP表示正样本被预测为正样本,FP表示负样本被预测为正样本,FN表示正样本被预测为负样本;该正负表示是否为真实标签,若文本为:我要请假,预测为预定会议室,则对于请假这个类别来说,这个样本为正样本,但是被预测为负样本,因此算FN集合。
综上可见,在本方案中,特征提取模块通过n-gram模型获得文本对应的稀疏矩阵表示,获得字词级别的语义信息,同时通过预训练模型获得句子级别的上下文和句子结构信息,能够充分获取对话文本想要表达的意图和实体信息;并且,本方案还可以将意图分类损失和实体识别损失联合在一起,作为模型整体损失进行一起训练,获得的模型通过自主学习的方式让两个任务在执行过程中相辅相成,同时提高了识别效率和准确率。
下面对本发明实施例提供的语义理解装置、设备及介质进行介绍,下文描述的语义理解装置、设备及介质与上文描述的语义理解方法可以相互参照。
参见图5,本发明实施例提供的一种基于任务型对话系统的语义理解装置结构示意图,包括:
文本获取模块100,用于获取待处理的文本信息;
向量确定模块200,用于确定所述文本信息中与每个字符对应的一维向量;
向量输入模块300,用于将每个字符对应的一维向量输入特征提取模块;
特征提取模块400,用于提取与所述文本信息对应的特征向量;所述特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量;
特征输入模块500,用于将所述特征向量输入语义理解模块;
语义理解模块600,用于通过所述特征向量获得与所述文本信息对应的语义理解结果;所述语义理解模块为联合意图分类及实体分类的语义理解模块。
其中,所述向量输入模块包括:
第一输入单元,用于将每个字符对应的一维向量输入稀疏矩阵提取模块,以获得与所述文本信息对应的稀疏矩阵特征向量;
第二输入单元,用于将每个字符对应的一维向量输入稠密矩阵提取模块,以获得与所述文本信息对应的稠密矩阵特征向量;
拼接单元,用于将所述稀疏矩阵特征向量与所述稠密矩阵特征向量拼接,获得与所述文本信息对应的特征向量。
其中,所述第一输入单元,具体用于将每个字符对应的一维向量输入所述稀疏矩阵提取模块的n-gram语言模型;
所述稀疏矩阵提取模块,具体用于通过n-gram语言模型获取输入的一维向量的n-gram特征,将所述n-gram特征进行one-hot编码获得与所述文本信息对应的稀疏矩阵特征向量。
其中,所述第二输入单元,具体用于将每个字符对应的一维向量输入所述稠密矩阵提取模块的预训练模型;
所述稠密矩阵提取模块,具体用于通过预训练模型获得与所述文本信息对应的稠密矩阵特征向量。
其中,所述装置还包括训练模块;
该训练模块具体用于:确定训练数据,对所述训练数据进行意图标注和实体标注,得到意图标签和实体标签,确定所述训练数据中与每个字符对应的一维向量,并输入所述特征提取模块,获得训练特征向量,将所述意图标签、所述实体标签和所述训练特征向量输入初始语义理解模块,对初始语义理解模块进行训练得到所述语义理解模块。
其中,所述训练模块还用于:
计算意图分类损失和实体识别损失,利用所述意图分类损失和实体识别损失确定整体识别损失;在对所述初始语义理解模块训练的过程,通过所述整体识别损失对所述初始语义理解模块的参数进行调整。
其中,所述语义理解模块具体用于:通过Transformer模型对特征向量处理,并将处理结果输入CRF模型,得到与所述文本信息对应的语义理解结果。
参见图6,为本发明实施例提供的一种电子设备结构示意图,包括:
存储器11,用于存储计算机程序;
处理器12,用于执行所述计算机程序时实现上述任意方法实施例所述的基于任务型对话系统的语义理解方法的步骤。
在本实施例中,设备可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。
该设备可以包括存储器11、处理器12和总线13。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是设备的内部存储单元,例如该设备的硬盘。存储器11在另一些实施例中也可以是设备的外部存储设备,例如设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括设备的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于设备的应用软件及各类数据,例如执行语义理解方法的程序代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行语义理解方法的程序代码等。
该总线13可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,设备还可以包括网络接口14,网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该设备与其他电子设备之间建立通信连接。
可选地,该设备还可以包括用户接口15,用户接口15可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口15还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在设备中处理的信息以及用于显示可视化的用户界面。
图6仅示出了具有组件11-15的设备,本领域技术人员可以理解的是,图6示出的结构并不构成对设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例所述的基于任务型对话系统的语义理解方法的步骤。
其中,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于任务型对话系统的语义理解方法,其特征在于,包括:
获取待处理的文本信息;
确定所述文本信息中与每个字符对应的一维向量;
将每个字符对应的一维向量输入特征提取模块,通过所述特征提取模块提取与所述文本信息对应的特征向量;所述特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量;
将所述特征向量输入语义理解模块,通过所述语义理解模块获得与所述文本信息对应的语义理解结果;其中,所述语义理解模块为联合意图分类及实体分类的语义理解模块。
2.根据权利要求1所述的语义理解方法,其特征在于,所述将每个字符对应的一维向量输入特征提取模块,通过所述特征提取模块提取与所述文本信息对应的特征向量,包括:
将每个字符对应的一维向量输入稀疏矩阵提取模块,获得与所述文本信息对应的稀疏矩阵特征向量;
将每个字符对应的一维向量输入稠密矩阵提取模块,获得与所述文本信息对应的稠密矩阵特征向量;
将所述稀疏矩阵特征向量与所述稠密矩阵特征向量拼接,获得与所述文本信息对应的特征向量。
3.根据权利要求2所述的语义理解方法,其特征在于,所述将每个字符对应的一维向量输入稀疏矩阵提取模块,获得与所述文本信息对应的稀疏矩阵特征向量,包括:
将每个字符对应的一维向量输入n-gram语言模型,获取n-gram特征;
将所述n-gram特征进行one-hot编码获得与所述文本信息对应的稀疏矩阵特征向量。
4.根据权利要求2所述的语义理解方法,其特征在于,所述将每个字符对应的一维向量输入稠密矩阵提取模块,获得与所述文本信息对应的稠密矩阵特征向量,包括:
将每个字符对应的一维向量输入预训练模型,获得与所述文本信息对应的稠密矩阵特征向量。
5.根据权利要求1所述的语义理解方法,其特征在于,所述语义理解模块的训练过程包括:
确定训练数据;
对所述训练数据进行意图标注和实体标注,得到意图标签和实体标签;
确定所述训练数据中与每个字符对应的一维向量,并输入所述特征提取模块,获得训练特征向量;
将所述意图标签、所述实体标签和所述训练特征向量输入初始语义理解模块,对初始语义理解模块进行训练得到所述语义理解模块。
6.根据权利要求5所述的语义理解方法,其特征在于,对所述初始语义理解模块进行训练的过程中,还包括:
计算意图分类损失和实体识别损失;
利用所述意图分类损失和实体识别损失确定整体识别损失;
在对所述初始语义理解模块训练的过程,通过所述整体识别损失对所述初始语义理解模块的参数进行调整。
7.根据权利要求1至6中任意一项所述的语义理解方法,其特征在于,所述将所述特征向量输入语义理解模块,通过所述语义理解模块获得与所述文本信息对应的语义理解结果,包括:
通过Transformer模型对所述特征向量处理,并将处理结果输入CRF模型,得到与所述文本信息对应的语义理解结果。
8.一种基于任务型对话系统的语义理解装置,其特征在于,包括:
文本获取模块,用于获取待处理的文本信息;
向量确定模块,用于确定所述文本信息中与每个字符对应的一维向量;
向量输入模块,用于将每个字符对应的一维向量输入特征提取模块;
特征提取模块,用于提取与所述文本信息对应的特征向量;所述特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量;
特征输入模块,用于将所述特征向量输入语义理解模块;
语义理解模块,用于通过所述特征向量获得与所述文本信息对应的语义理解结果;所述语义理解模块为联合意图分类及实体分类的语义理解模块。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的基于任务型对话系统的语义理解方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于任务型对话系统的语义理解方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110008442.0A CN112699686B (zh) | 2021-01-05 | 2021-01-05 | 基于任务型对话系统的语义理解方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110008442.0A CN112699686B (zh) | 2021-01-05 | 2021-01-05 | 基于任务型对话系统的语义理解方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699686A true CN112699686A (zh) | 2021-04-23 |
CN112699686B CN112699686B (zh) | 2024-03-08 |
Family
ID=75514752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110008442.0A Active CN112699686B (zh) | 2021-01-05 | 2021-01-05 | 基于任务型对话系统的语义理解方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699686B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094475A (zh) * | 2021-06-08 | 2021-07-09 | 成都晓多科技有限公司 | 一种基于上下文注意流的对话意图识别系统及方法 |
CN113361285A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 自然语言处理模型的训练方法、自然语言处理方法及装置 |
CN115329062A (zh) * | 2022-10-17 | 2022-11-11 | 中邮消费金融有限公司 | 一种低数据场景下的对话模型训练方法及计算机设备 |
CN116542256A (zh) * | 2023-07-05 | 2023-08-04 | 广东数业智能科技有限公司 | 一种融合对话上下文信息的自然语言理解方法与装置 |
CN117196259A (zh) * | 2023-11-01 | 2023-12-08 | 湖南强智科技发展有限公司 | 一种智能提升高校教学任务安排的方法、系统及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009048641A (ja) * | 2007-08-20 | 2009-03-05 | Fujitsu Ltd | 文字認識方法および文字認識装置 |
CN109101552A (zh) * | 2018-07-10 | 2018-12-28 | 东南大学 | 一种基于深度学习的钓鱼网站url检测方法 |
CN110188344A (zh) * | 2019-04-23 | 2019-08-30 | 浙江工业大学 | 一种多特征融合的关键词提取方法 |
CN110399385A (zh) * | 2019-06-24 | 2019-11-01 | 厦门市美亚柏科信息股份有限公司 | 一种用于小数据集的语义分析方法和系统 |
CN110928997A (zh) * | 2019-12-04 | 2020-03-27 | 北京文思海辉金信软件有限公司 | 意图识别方法、装置、电子设备及可读存储介质 |
CN110990559A (zh) * | 2018-09-29 | 2020-04-10 | 北京国双科技有限公司 | 用于对文本进行分类的方法和装置、存储介质及处理器 |
US20200151571A1 (en) * | 2018-11-14 | 2020-05-14 | Nvidia Corporation | Transposed sparse matrix multiply by dense matrix for neural network training |
CN111414758A (zh) * | 2020-02-21 | 2020-07-14 | 平安科技(深圳)有限公司 | 零指代位置检测方法、装置、设备及计算机可读存储介质 |
CN111695689A (zh) * | 2020-06-15 | 2020-09-22 | 中国人民解放军国防科技大学 | 一种自然语言处理方法、装置、设备及可读存储介质 |
-
2021
- 2021-01-05 CN CN202110008442.0A patent/CN112699686B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009048641A (ja) * | 2007-08-20 | 2009-03-05 | Fujitsu Ltd | 文字認識方法および文字認識装置 |
CN109101552A (zh) * | 2018-07-10 | 2018-12-28 | 东南大学 | 一种基于深度学习的钓鱼网站url检测方法 |
CN110990559A (zh) * | 2018-09-29 | 2020-04-10 | 北京国双科技有限公司 | 用于对文本进行分类的方法和装置、存储介质及处理器 |
US20200151571A1 (en) * | 2018-11-14 | 2020-05-14 | Nvidia Corporation | Transposed sparse matrix multiply by dense matrix for neural network training |
CN110188344A (zh) * | 2019-04-23 | 2019-08-30 | 浙江工业大学 | 一种多特征融合的关键词提取方法 |
CN110399385A (zh) * | 2019-06-24 | 2019-11-01 | 厦门市美亚柏科信息股份有限公司 | 一种用于小数据集的语义分析方法和系统 |
CN110928997A (zh) * | 2019-12-04 | 2020-03-27 | 北京文思海辉金信软件有限公司 | 意图识别方法、装置、电子设备及可读存储介质 |
CN111414758A (zh) * | 2020-02-21 | 2020-07-14 | 平安科技(深圳)有限公司 | 零指代位置检测方法、装置、设备及计算机可读存储介质 |
CN111695689A (zh) * | 2020-06-15 | 2020-09-22 | 中国人民解放军国防科技大学 | 一种自然语言处理方法、装置、设备及可读存储介质 |
Non-Patent Citations (5)
Title |
---|
XI CHEN: "Sparse Latent Semantic Analysis", SIAM, pages 474 - 485 * |
乔羽;姚舒威;: "基于不同文本表示的大规模蛋白功能预测探究", 微型电脑应用, no. 07, pages 5 - 9 * |
孙婧婧: "基于轻量级网络的自然场景下的文本检测", 电子测量技术, pages 101 - 107 * |
李利娟: "基于多特征的中文语义关键词提取方法的研究", 计算机科学, pages 138 - 866 * |
郑文斌: "基于正则化线性统计模型的文本分类研究", 中国博士学位论文电子期刊网, pages 138 - 68 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094475A (zh) * | 2021-06-08 | 2021-07-09 | 成都晓多科技有限公司 | 一种基于上下文注意流的对话意图识别系统及方法 |
CN113361285A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 自然语言处理模型的训练方法、自然语言处理方法及装置 |
CN115329062A (zh) * | 2022-10-17 | 2022-11-11 | 中邮消费金融有限公司 | 一种低数据场景下的对话模型训练方法及计算机设备 |
CN115329062B (zh) * | 2022-10-17 | 2023-01-06 | 中邮消费金融有限公司 | 一种低数据场景下的对话模型训练方法及计算机设备 |
CN116542256A (zh) * | 2023-07-05 | 2023-08-04 | 广东数业智能科技有限公司 | 一种融合对话上下文信息的自然语言理解方法与装置 |
CN116542256B (zh) * | 2023-07-05 | 2024-02-06 | 广东数业智能科技有限公司 | 一种融合对话上下文信息的自然语言理解方法与装置 |
CN117196259A (zh) * | 2023-11-01 | 2023-12-08 | 湖南强智科技发展有限公司 | 一种智能提升高校教学任务安排的方法、系统及设备 |
CN117196259B (zh) * | 2023-11-01 | 2024-02-02 | 湖南强智科技发展有限公司 | 一种智能提升高校教学任务安排的方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112699686B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
CN109918680B (zh) | 实体识别方法、装置及计算机设备 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN112100349A (zh) | 一种多轮对话方法、装置、电子设备及存储介质 | |
CN113297360B (zh) | 基于弱监督学习和联合学习机制的法律问答方法及设备 | |
CN113051380B (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN114818665B (zh) | 一种基于bert+bilstm+crf与xgboost模型的多意图识别方法和系统 | |
CN111625636B (zh) | 一种人机对话的拒绝识别方法、装置、设备、介质 | |
CN114139548A (zh) | 基于模板匹配结合小样本深度模型的口语语言理解方法 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN116069916A (zh) | 旅游景点问答系统 | |
CN115545030A (zh) | 实体抽取模型的训练方法、实体关系抽取方法及装置 | |
CN116881457A (zh) | 一种基于知识对比增强提示的小样本文本分类方法 | |
CN112036186A (zh) | 语料标注方法、装置、计算机存储介质及电子设备 | |
CN113935331A (zh) | 异常语义截断检测方法、装置、设备及介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN112434513A (zh) | 一种基于依存语义注意力机制的词对上下位关系训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |