CN115934891A - 问句理解方法及装置 - Google Patents

问句理解方法及装置 Download PDF

Info

Publication number
CN115934891A
CN115934891A CN202211546264.8A CN202211546264A CN115934891A CN 115934891 A CN115934891 A CN 115934891A CN 202211546264 A CN202211546264 A CN 202211546264A CN 115934891 A CN115934891 A CN 115934891A
Authority
CN
China
Prior art keywords
training
question
template
language model
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211546264.8A
Other languages
English (en)
Inventor
熊子奇
孔德智
谭敏
薛彦凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Big Data Research Institute Co Ltd
Original Assignee
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Big Data Research Institute Co Ltd filed Critical CETC Big Data Research Institute Co Ltd
Priority to CN202211546264.8A priority Critical patent/CN115934891A/zh
Publication of CN115934891A publication Critical patent/CN115934891A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种问句理解方法及装置,该方法包括:基于问句标注数据集及提示器模板生成训练数据集,所述训练数据集中包括多个训练样本;利用所述训练数据集训练得到预训练语言模型;利用所述预训练语言模型对待理解问句进行理解。利用本发明方案,可以同时提高意图识别和要素抽取的准确率,进而提升问句理解效果。

Description

问句理解方法及装置
技术领域
本发明涉及自然语言处理领域,具体涉及一种问句理解方法及装置。
背景技术
问答系统中的问句理解是通过分析问句来判断用户的意图,提取相关的要素,从而进一步实现用户的需求。问句理解有广阔的应用前景,如问答系统、人机交互系统等。以自动问答系统为例,当获得用户提出的问题后,问句理解引擎理解用户的提问,提取出相关要素用于查询或其他处理,直接给出用户所需的答案或者相应操作,从而大大简化了人机交互的流程。
问句理解主要有两个子任务:意图识别和要素抽取。给定一句话,意图识别是判断这句话的意图,可视作分类问题;要素抽取是对这句话中的每个成分填上标签,可视作实体识别问题。以“办理身份证需要什么材料?”这句话为例,其意图为咨询身份证办理业务,要素是“材料”,通过要素抽取将要素表示出来。要素抽取可以通过命名实体识别实现,根据不同的命名实体识别算法,可提取要素为“材料”。
近些年来,许多研究者提出了多种方法来解决这两个任务。传统方法依赖人工设计的特征,使用分类器进行预测,这些方法需要大量的人工干预,且存在着特征稀疏的问题。目前,基于神经网络的方法大量涌现。对于要素抽取任务,主流采用循环神经网络取得,也有通过多任务的方式来进行意图识别和要素抽取,通过联合建模进行意图识别和要素抽取,取得了较之前分别建模更好的结果。然而,一方面,联合建模仍然采用LSTM(Longshort-term memory,长短期记忆)架构,其词/字向量或采用固定的静态词向量如Word2vec,或采用随机生成的方式,这些方式不能更好地建模字词上下文;另一方面,意图识别和要素抽取是两个不同类型的任务(前者是分类问题、后者是序列标注问题),这两个不同类型的任务在统一建模时面临损失权重分配问题。
发明内容
本发明提供一种问句理解方法及装置,以同时提高意图识别和要素抽取的准确率,进而提升问句理解效果。
为此,本发明提供如下技术方案:
本发明提供一种问句理解方法,所述方法包括:
基于问句标注数据集及提示器模板生成训练数据集,所述训练数据集中包括多个训练样本;
利用所述训练数据集训练得到预训练语言模型;
利用所述预训练语言模型对待理解问句进行理解。
可选地,所述预训练语言模型为BART模型;每个训练样本包括:问句、与所述问句对应的当前时刻模板语句及下一时刻模板语句;
所述基于问句标注数据集及提示器模板生成训练数据集包括:
基于问句标注数据集,生成意图集合及对应的意图要素集合;
将与问句相关的意图及其对应的意图要素映射到带有固定槽位的提示器模板中,得到与所述问句对应的当前时刻模板语句及下一时刻模板语句。
可选地,所述提示器模板包括以下任意一种或多种:有意图无槽位模板、有意图有槽位模板、无意图模板。
可选地,所述利用所述训练数据集训练得到预训练语言模型参数包括:将所述训练样本中的问句作为预训练语言模型的编码器输入,将与所述问句对应的当前时刻模板语句作为所述预训练语言模型的解码器输入,将与所述问句对应的下一时刻模板语句作为所述预训练语言模型的输出,训练预训练语言模型参数,得到预训练语言模型。
可选地,所述利用所述训练数据集训练得到预训练语言模型参数还包括:在训练预训练语言模型参数过程中,根据所述预训练语言模型的输出与对应的所述下一时刻模板语句之间的交叉熵损失更新模型参数。
可选地,所述利用所述预训练语言模型对待理解问句进行理解包括:
生成基于所述待理解问句的所有候选模板语句;
利用所述预训练语言模型计算各候选模板语句的得分;
根据得分最高的候选模板语句,确定所述待理解问句的意图和意图要素。
本发明还提供一种问句理解装置,所述方法包括:
训练样本生成模块,用于基于问句标注数据集及提示器模板生成训练数据集,所述训练数据集中包括多个训练样本;
模型构建模块,用于利用所述训练数据集训练得到预训练语言模型;
问句理解模块,用于利用所述预训练语言模型对待理解问句进行理解。
可选地,所述预训练语言模型为BART模型;每个训练样本包括:问句、与所述问句对应的当前时刻模板语句及下一时刻模板语句;
所述训练样本生成模块包括:
数据处理单元,用于基于问句标注数据集,生成意图集合及对应的意图要素集合;
映射单元,用于将与问句相关的意图及其对应的意图要素映射到带有固定槽位的提示器模板中,得到与所述问句对应的当前时刻模板语句及下一时刻模板语句。
可选地,所述模型构建模块,具体用于将所述训练样本中的问句作为预训练语言模型的编码器输入,将与所述问句对应的当前时刻模板语句作为所述预训练语言模型的解码器输入,将与所述问句对应的下一时刻模板语句作为所述预训练语言模型的输出,训练预训练语言模型参数,得到预训练语言模型。
可选地,所述模型构建模块在训练预训练语言模型参数过程中,根据所述预训练语言模型的输出与对应的所述下一时刻模板语句之间的交叉熵损失更新模型参数。
可选地,所述问句理解模块包括:
候选语句生成单元,用于生成基于所述待理解问句的所有候选模板语句;
预测单元,用于利用所述预训练语言模型计算各候选模板语句的得分;
意图确定单元,用于根据得分最高的候选模板语句,确定所述待理解问句的意图和意图要素。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上面所述方法的步骤。
本发明还提供一种问句理解装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上面所述方法的步骤。
本发明提供一种问句理解方法及装置,基于问句标注数据集及提示器模板生成训练数据集,利用训练数据集中的训练样本,训练得到预训练语言模型参数。利用预训练语言模型,为意图识别和要素抽取提供更好的词/字向量嵌入。进一步地,在模型训练过程中,采用统一损失函数,统一建模意图识别和要素抽取任务。
本发明方案通过预训练语言模型和提示器模板技术,统一建模意图识别任务和要素抽取任务,不仅可减少标注数据工作量,而且同时还提高了问句理解的准确度。
附图说明
图1是本发明实施例提供的问句理解方法的一种流程图;
图2是本发明实施例中将训练样本输入预训练语言模型中的示意图;
图3是本发明实施例提供的问句理解装置的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
下面首先对本发明实施例中提到的几个概念进行简要说明。
意图识别(Intent Identification):是指判断一句话的意图,划分到一个类别中。
词(或字)向量:是指使用低维实数向量表示一个词(或字)。与传统的稀疏表示相比,维度更低,适合作为神经网络的输入。
预训练:是指在利用标注数据之前,先利用无标注的数据即纯文本数据,去训练一个模型,这个模型能够学到一些潜在的跟标注无关的知识。
Transformer网络:描述了一种摒弃CNN(Convolutional Neural Networks,卷积神经网络)和RNN(Recurrent Neural Network,循环神经网络),完全由注意力机制构建的多层编码器-解码器神经网络结构。该网络结构兼具CNN的并行运算和RNN的远距离依赖能力,是目前最流行的神经网络结构。
BART(Bidirectional and Auto-Regressive Transformers,兼具上下文语境信息和自回归特性的Transformer):是一种符合生成任务的预训练方法。BART吸收了BERT(Bidirectional Encoder Representations from Transformers,双向Transformers的编码器)的双向编码和GPT(Generative Pre-Training,生成式的预训练)的从左到右编码各自的特点,建立在标准的seq2seq(sequenceto sequence,序列到序列)Transformer模型的基础之上,这使得它比BERT更适合文本生成的场景;相比GPT,也多了双向上下文语境信息。在生成任务上获得进步的同时,它也可以在一些文本理解类任务上取得最好成绩。
本发明的原理是:通过构造提示器模板,将输入文本以及通过提示器模板所构造的模板语句作为预训练语言模型编码器和解码器的输入,通过文本生成的方式,建立输入文本与意图以及要素抽取之间的关联。实现意图识别和要素抽取任务的统一表示。
具体地,本发明实施例提供一种基于提示器的问句理解方法及装置,基于问句标注数据集及提示器模板生成训练数据集,所述训练数据集中包括多个训练样本,利用所述训练数据集训练得到预训练语言模型,利用所述预训练语言模型对待理解问句进行理解。
如图1所示,是本发明提供的问句理解方法的一种流程图,包括以下步骤:
步骤101,基于问句标注数据集及提示器模板生成训练数据集,所述训练数据集中包括多个训练样本。
所述预训练语言模型为BART模型;每个训练样本包括:问句、与所述问句对应的当前时刻模板语句及下一时刻模板语句。
基于问句标注数据集及提示器模板生成训练数据集的过程如下:首先,基于问句标注数据集,生成意图集合及对应的意图要素集合;然后将与问句相关的意图及其对应的意图要素映射到带有固定槽位的提示器模板中,得到与所述问句对应的当前时刻模板语句及下一时刻模板语句。
令标注数据集为(X,I,S),其中X是问句集合,X={X1,…,Xn},Xj代表一个语句,Xj={x1,...,xc},xo是句子Xj在o时刻的单词;
Y为意图集合,Y={y1,…,ym};
S是意图要素集合,S={S1,…,Sk};
上述三者之间的关系形式化如下:
Sj=xi:j
intention(Xj)=yj
slots(yj)∈S
也就是说,一个意图就是语句中的一个跨度,一个语句只有一个或没有意图,一个意图可能包含多个或者不包含意图要素。令ynone代表空意图,则最终的意图集合为Y=Y∩ynone,意图要素集合为S=S∩Snone
经过整理后,标注数据集形如:{(Xj,yj,(Si,..,Sj))}。
所述提示器模板是带有固定槽位的自然语言句子,所述槽位对应的是该语句的意图和/或意图要素。
需要说明的是,所述提示器模板可以对应以下模板函数:
xi:j is a yk slot.
其中,yk代表第k个意图,xi:j∈S,是一个意图要素,代表问句中的一个文本跨度,是意图yk的槽位。
在本发明实施例中,所述提示器模板可以包括但不限于以下任意一种或多种:有意图无槽位模板、有意图有槽位模板、无意图模板。
有意图无槽位模板对应的模板函数可表示为:
noneisykslot.
无意图模板对应的模板函数可表示为:
xi:jisynoneslot.
其中,
Figure BDA0003979581770000071
步骤102,利用所述训练数据集训练得到预训练语言模型。
将所述训练样本中的问句作为预训练语言模型的编码器输入,将与所述问句对应的当前时刻模板语句作为所述预训练语言模型的解码器输入,将与所述问句对应的下一时刻模板语句作为所述预训练语言模型的输出,训练预训练语言模型参数,得到预训练语言模型。
例如图2所示,将问句“办理身份证需要什么材料?”作为编码器的输入,将该问句对应的当前时该模板语句“s材料is身份证slot”作为解码器的输入,将该问句对应的下一时刻模板语句“材料is身份证slot.”作为解码器的输出。
需要说明的是,在训练预训练语言模型参数过程中,可以根据所述预训练语言模型的输出与对应的所述下一时刻模板语句之间的交叉熵损失更新模型参数,具体如下:
给定一个语句对(X,T),其中X表示原始问句,T表示模板语句,将X作为预训练语言模型的编码器输入,得到该问句的隐藏表示:
henc=encoderbart(X);
在预训练语言模型解码器的c时刻,隐藏表示henc和c时刻之前所输出的所有字符t作为输入,利用注意力机制,生成c时刻字符的隐藏表示:
Figure BDA0003979581770000081
将c时刻字符的隐藏表示
Figure BDA0003979581770000082
利用softmax得到其c时刻字符的条件概率,字符t的条件概率定义为:
Figure BDA0003979581770000083
其中,
Figure BDA0003979581770000084
Figure BDA0003979581770000085
代表所述预训练语言模型的词汇集大小。
通过解码器输出与原始模板语句(即对应的所述下一时刻模板语句)之间的交叉熵作为损失函数来更新参数。损失函数为:
Figure BDA0003979581770000086
步骤103,利用所述预训练语言模型对待理解问句进行理解。
具体地,生成基于所述待理解问句的所有候选模板语句,并利用所述预训练语言模型计算各候选模板语句的得分,然后根据得分最高的候选模板语句,确定所述待理解问句的意图和意图要素。
在本发明实施例中,可以利用预先建立的意图模板生成基于所述待理解问句的所有候选模板语句。比如,对于一个给定的待理解问句X={x1,...,xm},其中,m为所述待理解问句中的分词数,根据意图模板枚举所有的意图。
所述意图模板与前面提到的提示器模板结构相同,只是在生成所述候选模板语句时,需要将所述待理解问句中的各分词枚举所有的意图,即将各分词逐一作为意图和意图要素映射到该意图模板中,从而得到所有的候选模板语句。
需要说明的是,为加快解码速度,在进行枚举确定所述候选模板语句时,可以将跨度限定为2到10个字符,假设一个意图平均有k个要素,则一个问句共有约9(m+1)k个候选模板语句。
利用训练好的预训练语言模型给每一个候选模板语句计算一个得分:
Figure BDA0003979581770000091
其中,
Figure BDA0003979581770000092
表示模板句xi:jisaykslot。
选择最高得分的
Figure BDA0003979581770000093
作为最终的输出,其意图为yk,对应的槽位即意图要素为xi:j
本发明提供一种问句理解方法,基于问句标注数据集及提示器模板生成训练数据集,利用训练数据集中的训练样本,训练得到预训练语言模型参数。利用预训练语言模型,为意图识别和要素抽取提供更好的词/字向量嵌入。进一步地,在模型训练过程中,采用统一损失函数,统一建模意图识别和要素抽取任务。
相应地,本发明实施例还提供一种问句理解装置,如图3所示,是该装置的一种结构示意图。
该问句理解装置300包括以下各模块:
训练样本生成模块301,用于基于问句标注数据集及提示器模板生成训练数据集,所述训练数据集中包括多个训练样本;
模型构建模块302,用于利用所述训练数据集训练得到预训练语言模型400;
问句理解模块303,用于利用所述预训练语言模型400对待理解问句进行理解。
本发明实施例中,所述预训练语言模型可以采用BART模型;每个训练样本包括:问句、与所述问句对应的当前时刻模板语句及下一时刻模板语句。
相应地,所述训练样本生成模块301的一种具体结构可以包括以下各单元:
数据处理单元,用于基于问句标注数据集,生成意图集合及对应的意图要素集合;
映射单元,用于将与问句相关的意图及其对应的意图要素映射到带有固定槽位的提示器模板中,得到与所述问句对应的当前时刻模板语句及下一时刻模板语句。
在进行模型训练时,所述模型构建模块302将所述训练样本中的问句作为预训练语言模型的编码器输入,将与所述问句对应的当前时刻模板语句作为所述预训练语言模型的解码器输入,将与所述问句对应的下一时刻模板语句作为所述预训练语言模型的输出,训练预训练语言模型参数,得到预训练语言模型。
需要说明的是,所述模型构建模块302在训练预训练语言模型参数过程中,可以根据所述预训练语言模型的输出与对应的所述下一时刻模板语句之间的交叉熵损失更新模型参数。
模型的具体训练过程与现有技术类似,所述交叉熵损失的计算可参照前在本发明方法实施例中的描述,在此不再赘述。
在利用所述预训练语言模型对待理解问句进行理解时,可以基于预先建立的意图模板,利用所述预训练语言模型计算各候选模板语句的得分,根据得分确定最终的意图和意图要素。
相应地,所述问句理解模块303的一种具体结构可以包括以下各单元:
候选语句生成单元,用于生成基于所述待理解问句的所有候选模板语句;
预测单元,用于利用所述预训练语言模型计算各候选模板语句的得分;
意图确定单元,用于根据得分最高的候选模板语句,确定所述待理解问句的意图和意图要素。
本发明提供一种问句理解装置,基于问句标注数据集及提示器模板生成训练数据集,利用训练数据集中的训练样本,训练得到预训练语言模型参数。利用预训练语言模型,为意图识别和要素抽取提供更好的词/字向量嵌入。进一步地,在模型训练过程中,采用统一损失函数,统一建模意图识别和要素抽取任务。
本发明实施例提供的问句理解方法及装置,针对一段问句文本,将问句对应的意图以及意图要素通过提示器模板生成模板语句,然后与原始问句进行拼接,使得问句与意图以及意图要素通过模板语句进行关联,然后将问句与模板语句分别输入至预训练语言模型的编码器和解码器,通过交叉熵损失来拟合解码器的输出与输入,达到完成问句理解的目的。
利用本发明实施例提供的技术方案,可以将意图识别和槽位填充两个任务通过模板转化成统一的文字生成任务,降低了问句理解的复杂性。进一步地,通过意图模板可以方便地进行意图和槽位的转化,同时在确定得分最高的候选意图后,利用该候选意图对应的意图模板也可以很方便地获取到意图和对应槽位(即意图要素)。另外,本发明方案可以最大限度地利用预训练语言模型的优势,在小批量标注数据下即可取得优异效果。
采用本发明提供的方案在两个数据集上进行实验,两个数据集为ATIS(AirlineTravel Information Systems,航空旅行信息系统)数据集和政务网站上收集的2856个政务相关问答数据。其中,ATIS数据集由关于在自动航空公司旅行查询系统上询问航班信息的人的音频记录和相应的人工抄本组成,数据由17个独特的意图类别组成。
结果表明,在ATIS数据集上意图识别率为99.11%,槽位填充F1值为98.12%,F1值=正确率×召回率×2/(正确率+召回率)。对于政府网站上收集的政务问答数据集,意图识别准确率为97.56%,槽位填充F1值为88.32%。需要提出的是,利用本发明的技术方案,在少量数据样本下,即取得很好的结果。其槽位填充结果如下表所示:
ATIS
标注样本数 10 20 50 best
seq-bert 44.1 76.7 90.7 96.89
ner-bart 71.6 79.1 92.4 98.12
政务问答
Figure BDA0003979581770000121
其中,上述两个表中seq-bert对应的行是基于现有的seq-bert模型,对应不同标注样本数得到的槽位填充F1值;所述seq-bert模型是基于预训练语言模型bert的序列识别模型,其是通过在BERT模型上堆叠softmaxt层进行序列识别。ner-bart对应的行是基于本发明方案提供的模型(即基于预训练语言模型BART的提示器模型),对应不同标注样本数得到的槽位填充F1值。
其中,best表示该模型的最好效果。
由表1可以看出,在样本数量为50个时,本方案的效果已经接近最佳效果。
需要说明的是,本发明方案可以应用于自动问答系统、人机对话等场景,提升人机对话质量,进而提升用户对产品的使用体验。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述图1对应实施例提供的方法中的部分或全部步骤。
本发明实施例还提供了一种问句理解装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述图1对应实施例提供的方法中的部分或全部步骤。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,即可以位于一个网络单元上,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统,其仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围,本说明书内容不应理解为对本发明的限制。因此,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种问句理解方法,其特征在于,所述方法包括:
基于问句标注数据集及提示器模板生成训练数据集,所述训练数据集中包括多个训练样本;
利用所述训练数据集训练得到预训练语言模型;
利用所述预训练语言模型对待理解问句进行理解。
2.根据权利要求1所述的方法,其特征在于,所述预训练语言模型为BART模型;每个训练样本包括:问句、与所述问句对应的当前时刻模板语句及下一时刻模板语句;
所述基于问句标注数据集及提示器模板生成训练数据集包括:
基于问句标注数据集,生成意图集合及对应的意图要素集合;
将与问句相关的意图及其对应的意图要素映射到带有固定槽位的提示器模板中,得到与所述问句对应的当前时刻模板语句及下一时刻模板语句。
3.根据权利要求1所述的方法,其特征在于,所述提示器模板包括以下任意一种或多种:有意图无槽位模板、有意图有槽位模板、无意图模板。
4.根据权利要求2所述的方法,其特征在于,所述利用所述训练数据集训练得到预训练语言模型参数包括:
将所述训练样本中的问句作为预训练语言模型的编码器输入,将与所述问句对应的当前时刻模板语句作为所述预训练语言模型的解码器输入,将与所述问句对应的下一时刻模板语句作为所述预训练语言模型的输出,训练预训练语言模型参数,得到预训练语言模型。
5.根据权利要求4所述的方法,其特征在于,所述利用所述训练数据集训练得到预训练语言模型参数还包括:
在训练预训练语言模型参数过程中,根据所述预训练语言模型的输出与对应的所述下一时刻模板语句之间的交叉熵损失更新模型参数。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述利用所述预训练语言模型对待理解问句进行理解包括:
生成基于所述待理解问句的所有候选模板语句;
利用所述预训练语言模型计算各候选模板语句的得分;
根据得分最高的候选模板语句,确定所述待理解问句的意图和意图要素。
7.一种问句理解装置,其特征在于,所述方法包括:
训练样本生成模块,用于基于问句标注数据集及提示器模板生成训练数据集,所述训练数据集中包括多个训练样本;
模型构建模块,用于利用所述训练数据集训练得到预训练语言模型;
问句理解模块,用于利用所述预训练语言模型对待理解问句进行理解。
8.根据权利要求7所述的装置,其特征在于,所述预训练语言模型为BART模型;每个训练样本包括:问句、与所述问句对应的当前时刻模板语句及下一时刻模板语句;
所述训练样本生成模块包括:
数据处理单元,用于基于问句标注数据集,生成意图集合及对应的意图要素集合;
映射单元,用于将与问句相关的意图及其对应的意图要素映射到带有固定槽位的提示器模板中,得到与所述问句对应的当前时刻模板语句及下一时刻模板语句。
9.根据权利要求8所述的装置,其特征在于,
所述模型构建模块,具体用于将所述训练样本中的问句作为预训练语言模型的编码器输入,将与所述问句对应的当前时刻模板语句作为所述预训练语言模型的解码器输入,将与所述问句对应的下一时刻模板语句作为所述预训练语言模型的输出,训练预训练语言模型参数,得到预训练语言模型。
10.根据权利要求9所述的装置,其特征在于,
所述模型构建模块在训练预训练语言模型参数过程中,根据所述预训练语言模型的输出与对应的所述下一时刻模板语句之间的交叉熵损失更新模型参数。
11.根据权利要求7至10任一项所述的装置,其特征在于,所述问句理解模块包括:
候选语句生成单元,用于生成基于所述待理解问句的所有候选模板语句;
预测单元,用于利用所述预训练语言模型计算各候选模板语句的得分;
意图确定单元,用于根据得分最高的候选模板语句,确定所述待理解问句的意图和意图要素。
12.一种计算机可读存储介质,所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至6中任一项所述方法的步骤。
13.一种问句理解装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至6中任一项所述方法的步骤。
CN202211546264.8A 2022-12-05 2022-12-05 问句理解方法及装置 Pending CN115934891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211546264.8A CN115934891A (zh) 2022-12-05 2022-12-05 问句理解方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211546264.8A CN115934891A (zh) 2022-12-05 2022-12-05 问句理解方法及装置

Publications (1)

Publication Number Publication Date
CN115934891A true CN115934891A (zh) 2023-04-07

Family

ID=86700366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211546264.8A Pending CN115934891A (zh) 2022-12-05 2022-12-05 问句理解方法及装置

Country Status (1)

Country Link
CN (1) CN115934891A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313748A (zh) * 2023-11-24 2023-12-29 中电科大数据研究院有限公司 面向政务问答的多特征融合语义理解方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313748A (zh) * 2023-11-24 2023-12-29 中电科大数据研究院有限公司 面向政务问答的多特征融合语义理解方法及装置
CN117313748B (zh) * 2023-11-24 2024-03-12 中电科大数据研究院有限公司 面向政务问答的多特征融合语义理解方法及装置

Similar Documents

Publication Publication Date Title
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN112100349A (zh) 一种多轮对话方法、装置、电子设备及存储介质
CN115329779B (zh) 一种多人对话情感识别方法
CN110472235A (zh) 一种面向中文文本的端到端实体关系联合抽取方法
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN110851599A (zh) 一种中文作文自动评分方法及教辅系统
CN106529525A (zh) 一种中日文手写字符的识别方法
CN114298121A (zh) 基于多模态的文本生成方法、模型训练方法和装置
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
CN110489747A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN112559749A (zh) 在线教育师生智能匹配方法、装置及存储介质
CN110297909A (zh) 一种无标签语料的分类方法及装置
WO2023231576A1 (zh) 混合语言语音识别模型的生成方法及装置
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN116049387A (zh) 一种基于图卷积的短文本分类方法、装置、介质
CN115934891A (zh) 问句理解方法及装置
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN114003700A (zh) 一种对话信息的处理方法、系统、电子设备及存储介质
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
CN115617974B (zh) 一种对话处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination