CN110909144A - 问答对话方法、装置、电子设备及计算机可读存储介质 - Google Patents
问答对话方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110909144A CN110909144A CN201911195188.9A CN201911195188A CN110909144A CN 110909144 A CN110909144 A CN 110909144A CN 201911195188 A CN201911195188 A CN 201911195188A CN 110909144 A CN110909144 A CN 110909144A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- question
- neural network
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000003062 neural network model Methods 0.000 claims abstract description 88
- 238000000605 extraction Methods 0.000 claims description 24
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 206010042602 Supraventricular extrasystoles Diseases 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种问答对话方法、装置、电子设备及计算机可读存储介质,应用于计算机技术领域,其中该方法包括:通过预训练的基于BERT的神经网络模型的编码层实现对目标问题文本的表征,使得提取得到的文本向量能表达更多的语义信息内容;以及通过注意力网络进行目标问题文本的文本特征的提取,从而能提取到全局的文本特征;此外,基于提取得到的目标问题文本的文本特征进行意图类别的识别,从而能提升目标问题文本的意图类别识别的准确率。
Description
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种问答对话方法、装置、电子设备及计算机可读存储介质。
背景技术
较传统人工客服相比,由于智能问答客服具有可以大幅度提升客户服务效率、缩短用户等待时间、7x24小时提供专业的客户服务等优点,智能问答客服广受广大服务提供商青睐。智能问答客服通常以一问一答的交互方式为用户提供相应的信息服务,而如何准确识别用户的问题的意图成为了提供良好信息服务的关键。
意图识别的关键问题在于文本特征的刻画,意图分类的正确率的提高有赖于文本表征算子的提升,传统机器学习算法(如SVM,LDA等),主要是基于词袋模型的特征,对自然语言语义理解刻画的能力有限,实际运用效果难以达到工业生产的精度。自深度学习大热之后,CNNS、RNNS等网络结构开始用于自然语言处理领域,深度网络结构大大增强了语言的语义表征能力,在一些数据集测试的效果,显著优于传统算法,但是这些网络依然存在对关键语义的捕捉不够精准,对语言内部细节的联系揭露得不够充分的问题。因此,如何提升对文本问题的语义的捕捉能力以及提升用户的问题的意图识别的准确性成为了一个问题。
发明内容
本申请提供了一种问答对话方法、装置、电子设备及计算机可读存储介质,用于提升对文本问题的语义捕捉能力以及提升用户的问题的意图识别的准确性,本申请采用的技术方案如下:
第一方面,提供了一种问答对话方法,该方法包括,
获取目标问题文本;
通过预训练的目标神经网络模型的编码层提取得到目标问题文本的文本向量,预训练的目标神经网络模型为基于BERT的神经网络模型;
基于目标问题文本的文本向量,通过预训练的目标神经网络模型的多层注意力网络提取得到目标问题文本的文本特征;
基于目标问题文本的文本特征得到目标问题文本的多个意图类别概率;
基于目标问题文本的多个意图类别概率确定针对目标问题文本的答案信息。
可选地,通过预训练的目标神经网络模型的编码层提取得到目标问题文本的文本向量,包括:
通过预训练的目标神经网络模型的编码层分别提取得到目标问题文本的字编码、段编码与位置编码;
基于目标问题文本的字编码、段编码与位置编码确定目标问题文本的文本向量。
可选地,注意力网络包括自注意力网络与前馈全连接网络。
可选地,基于目标问题文本的多个意图类别概率确定针对目标问题文本的答案信息,包括:
基于多个意图类别概率确定出概率大于预设的置信度阈值的意图类别;
基于概率大于预设的置信度阈值的意图类别确定目标问题文本的答案信息。
可选地,该方法还包括:通过近似正确方法确定置信度阈值。
可选地,该方法还包括:
获取目标问题语音信息;
将通过相应的语音识别方法识别得到的目标问题语音信息的文本信息作为目标问题文本。
可选地,该方法还包括:
当接收到多个问题文本后,通过多线程机制从分布式部署的多个预训练的神经网络模型中分别确定出相应的预训练的目标神经网络模型对各个问题文本进行意图识别处理。
第二方面,提供了一种问答对话装置,该装置包括,
第一获取模块,用于获取目标问题文本;
编码模块,用于通过预训练的目标神经网络模型的编码层提取得到第一获取模块获取得到的目标问题文本的文本向量,预训练的目标神经网络模型为基于BERT的神经网络模型;
特征提取模块,用于基于编码模块编码得到的目标问题文本的文本向量,通过预训练的目标神经网络模型的多层注意力网络提取得到目标问题文本的文本特征;
意图识别模块,用于基于特征提取模块提取得到的目标问题文本的文本特征得到目标问题文本的多个意图类别概率;
第一确定模块,用于基于意图识别模块识别得到的目标问题文本的多个意图类别概率确定针对目标问题文本的答案信息。
可选地,编码模块包括:
提取单元,用于通过预训练的目标神经网络模型的编码层分别提取得到目标问题文本的字编码、段编码与位置编码;
第一确定单元,用于基于提取单元提取得到的目标问题文本的字编码、段编码与位置编码确定目标问题文本的文本向量。
可选地,注意力网络包括自注意力网络与前馈全连接网络。
可选地,第一确定模块包括:
第二确定单元,用于基于多个意图类别概率确定出概率大于预设的置信度阈值的意图类别;
第三确定单元,用于基于概率大于预设的置信度阈值的意图类别确定目标问题文本的答案信息。
可选地,该装置还包括:
第二确定模块,用于通过近似正确方法确定置信度阈值。
可选地,该装置还包括:
第二获取模块,用于获取目标问题语音信息;
识别模块,用于将通过相应的语音识别方法识别得到的目标问题语音信息的文本信息作为目标问题文本。
可选地,该装置还包括:
第三确定模块,用于当接收到多个问题文本后,通过多线程机制从分布式部署的多个预训练的神经网络模型中分别确定出相应的预训练的目标神经网络模型对各个问题文本进行意图识别处理。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面所示的问答对话方法。
第四方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面所示的问答对话方法。
本申请提供了一种问答对话方法、装置、电子设备及计算机可读存储介质,与现有技术通过传统机器算法捕捉文本的语义信息并进行意图识别相比,本申请获取目标问题文本,然后通过预训练的目标神经网络模型的编码层提取得到目标问题文本的文本向量,预训练的目标神经网络模型为基于BERT的神经网络模型,继而基于目标问题文本的文本向量,通过预训练的目标神经网络模型的多层注意力网络提取得到目标问题文本的文本特征,继而基于目标问题文本的文本特征得到目标问题文本的多个意图类别概率,最后基于目标问题文本的多个意图类别概率确定针对目标问题文本的答案信息。即通过预训练的基于BERT的神经网络模型的编码层实现对目标问题文本的表征,使得提取得到的文本向量能表达更多的语义信息内容;以及通过注意力网络进行目标问题文本的文本特征的提取,从而能提取到全局的文本特征;此外,基于提取得到的目标问题文本的文本特征进行意图类别的识别,从而能提升目标问题文本的意图类别识别的准确率。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的一种问答对话方法的流程示意图;
图2为本申请实施例的目标神经网络模型的结构示意图;
图3为本申请实施例的一种问答对话装置的结构示意图;
图4为本申请实施例的另一种问答对话装置的结构示意图;
图5为本申请实施例的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种问答对话方法,如图1所示,该方法可以包括以下步骤:
步骤S101,获取目标问题文本;
具体地,获取用户通过APP输入的相应问题的目标问题文本,也可以是获取用户通过WEB页面输入的相应问题的目标问题文本。
步骤S102,通过预训练的目标神经网络模型的编码层提取得到所述目标问题文本的文本向量,所述预训练的目标神经网络模型为基于BERT的神经网络模型;
具体地,通过多个客服预料数据样本,预先训练得到基于BERT(BidirectionalEncoder Representation from Transformers)的目标神经网络模型,通过目标神经网络模型的编码层可以得到目标问题文本的文本向量;
其中,目标神经网络模型的训练可以包括预训练(pre-training),即使用大规模的无标注语料对词的表示进行优化,得到预训练好的BERT词表示模型;微调(fine-tuning),利用多个客服语料数据作为样本,对预训好的BERT词表示模型进行多分类任务的有监督训练,在预测的置信度较低的语料中挑出错误标注的语料样本进行标签的重新标注,经过训练预测的平均错误率不再降低(约20~30epoch之后),模型停止微调训练。
其中,在分类任务中,由于噪音数据的存在,在无法保证完全剔除噪音数据的情况下,为了拟合总体分布,决策超平面容易被诱导拉伸靠近噪音数据,为了提高模型的泛化效果以及减缓噪音数据干扰,在保证分类标签正确的同时保证预测有足够的置信度,可以引入正则项损失,以提高模型的泛化能力。
步骤S103,基于所述目标问题文本的文本向量,通过所述预训练的目标神经网络模型的多层注意力网络提取得到所述目标问题文本的文本特征;
具体地,得到的目标问题文本的文本向量输入至目标神经网络模型的多层注意注意力网络(attention layer),用于提取目标问题文本的全局特征,从而得到目标问题文本的文本特征;其中,注意力网络可以为12层。
步骤S104,基于所述目标问题文本的文本特征得到所述目标问题文本的多个意图类别概率;
具体地,可以通过一个全连接网络,将得到的目标问题文本的文本特征输入至分类网络层,得到目标问题文本的多个意图类别概率值,其中该分类网络层可以是基于softmax的网络层。
步骤S105,基于所述目标问题文本的多个意图类别概率确定针对所述目标问题文本的答案信息。
具体地,基于各个意图类别的概率,根据预定的规则,确定针对目标问题文本的答案信息,并反馈给用户,其中,可以是通过文本向用户展示,也可以是通过语音向用户提示。
本申请实施例提供了一种问答对话方法,与现有技术通过传统机器算法捕捉文本的语义信息并进行意图识别相比,本申请实施例通过获取目标问题文本,然后通过预训练的目标神经网络模型的编码层提取得到目标问题文本的文本向量,预训练的目标神经网络模型为基于BERT的神经网络模型,继而基于目标问题文本的文本向量,通过预训练的目标神经网络模型的多层注意力网络提取得到目标问题文本的文本特征,继而基于目标问题文本的文本特征得到目标问题文本的多个意图类别概率,最后基于目标问题文本的多个意图类别概率确定针对目标问题文本的答案信息。即通过预训练的基于BERT的神经网络模型的编码层实现对目标问题文本的表征,使得提取得到的文本向量能表达更多的语义信息内容;以及通过注意力网络进行目标问题文本的文本特征的提取,从而能提取到全局的文本特征;此外,基于提取得到的目标问题文本的文本特征进行意图类别的识别,从而能提升目标问题文本的意图类别识别的准确率。
本申请实施例提供了一种可能的实现方式,具体地,步骤S102包括:
步骤S1021(图中未示出),通过预训练的目标神经网络模型的编码层分别提取得到所述目标问题文本的字编码、段编码与位置编码;
具体地,预训练的目标神经网络包括字编码网络(vocabulary embedding)、位置编码网络(position embedding)以及段编码网络(segement embedding),用于分别提取目标问题文本的字编码、位置编码、段编码。
步骤S1022(图中未示出),基于所述目标问题文本的字编码、段编码与位置编码确定所述目标问题文本的文本向量。
具体地,将得到的目标问题文本的字编码、位置编码、段编码进行合并处理得到目标问题文本的文本向量,其中,字编码、位置编码、段编码的具体合并顺序不做具体限制。
对于本申请实施例,通过目标神经网络模型的编码层分别提取得到所述目标问题文本的字编码、段编码与位置编码,并对得到的字编码、段编码与位置编码进行合并处理得到所述目标问题文本的文本向量,提高了目标问题文本的文本向量的语义表征能力。
本申请实施例提供了一种可能的实现方式,具体地,所述注意力网络包括自注意力网络与前馈全连接网络。
具体地,所述注意力网络(attention layer)包括自注意力网络(self-attention)与前馈全连接网络(feed forward neural network);其中,在长距离依赖上,由于self-attention是每个词和所有词都要计算attention,所以不管他们中间有多长距离,最大的路径长度也都只是1,可以捕获长距离依赖关系,从而捕获全局的特征。
对于本申请实施例,通过引入自注意力机制,解决了目标问题文本的全局特征的提取问题。
本申请实施例提供了一种可能的实现方式,步骤S105包括:
步骤S1051(图中未示出),基于所述多个意图类别概率确定出概率大于预设的置信度阈值的意图类别;
步骤S1052(图中未示出),基于所述概率大于预设的置信度阈值的意图类别确定所述目标问题文本的答案信息。
具体地,根据得到的各个意图类别概率,确定出概率大于预设的置信度阈值的意图类别,然后根据该确定出的概率大于预设的置信度阈值的意图类别与答案信息的映射关系确定出目标问题文本的答案信息。
其中,当各个意图类别的概率都都小于预设置的置信度阈值时,则不进行问题的回答,或者反馈预设置的标准文本信息。
对于本申请实施例,解决了如何根据各个意图识别概率,确定向用户反馈的答案信息的问题。
进一步地,本申请实施例提供了一种可能的实现方式,该方法还包括:
步骤S106(图中未示出),通过近似正确方法确定所述置信度阈值。
其中,可能近似正确(probably approximately correct,PAC),这里用了两个描述“正确”的词,“可能”和“近似”;“近似”是在取值上只要和真实值的偏差小于一个足够小的值就认为”近似正确,“可能”是在概率上,即只要“近似正确”的概率足够大就认为“可能近似正确”;
PAC对算法引入了成功率的属性,即允许算法在一定几率下可以失败,这和统计学习中经验误差的要求很类似,但是统计学习中对经验误差有最小化要求(目标化),而PAC是给定这个阀值要求,然后去学习寻找近似函数(前提、条件化);PAC关心的是能不能从假设空间空选出一个最优的假设,也就是说在这样有限的训练集下,能不能在假设空间中找到一个好的假设来完成任务,也就是说PAC可以用来判断达没达到可以选择出足够好的假设来解决问题的下限。
对于本申请实施例,通过可能近似正确模型解决了置信度的确定问题。
进一步地,本申请实施例提供了一种可能的实现方式,该方法还包括:
步骤S107(图中未示出),获取目标问题语音信息;
步骤S108(图中未示出),将通过相应的语音识别方法识别得到的所述目标问题语音信息的文本信息作为所述目标问题文本。
具体地,也可以是获取用户相关问题的目标问题语音信息,然后通过相应的语音识别方法,将目标问题语音信息的文本信息作为所述目标问题文本;其中,该语音识别方法可以是隐马尔科夫模型、高斯混合模型,也可以是基于深度神经网络、递归神经网络、长短期神经网络的模型。
对于本申请实施例,用户可以通过语音进行相应问题的提问,用户不必进行逐字进行文本的输入操作,降低了操作的繁琐性,提升了用户体验。
进一步地,本申请实施例提供了一种可能的实现方式,该方法还包括:
步骤S109(图中未示出),当接收到多个问题文本后,通过多线程机制从分布式部署的多个预训练的神经网络模型中分别确定出相应的预训练的目标神经网络模型对各个所述问题文本进行意图识别处理。
具体地,可以有分布式部署的多个预训练的神经网络模型,当接到多个问题文本后,即可以是多个用户同时进行问题提问时,通过多线程机制确定出各个问题文本对应的神经网络模型并进行意图识别处理,并向用户反馈答案信息。
对于本申请实施例,通过多个预训练的神经网络模型分布式部署,从而能够解决有大批量问题的处理问题。
为了更好理解本申请实施例,图2示出了本申请实施例的目标神经网络模型的结构示意图,其中,获取自然语言预料为输入层,输入预料编码为编码层,vocabularyembedding、position embedding与segement embedding分别对应字编码网络、位置编码网络与段编码网络,12层attention layer为12层注意力网络用于提取目标问题文本的文本特征,然后注意力网络连接一个全连接网络,全连接网络连接一个softmax分类器用于得到分类结果。
图3为本申请实施例提供的一种问答对话装置,该装置30包括:第一获取模块301、编码模块302、特征提取模块303、意图识别模块304以及第一确定模块305,其中,
第一获取模块301,用于获取目标问题文本;
编码模块302,用于通过预训练的目标神经网络模型的编码层提取得到所述第一获取模块获取得到的所述目标问题文本的文本向量,所述预训练的目标神经网络模型为基于BERT的神经网络模型;
特征提取模块303,用于基于所述编码模块编码得到的所述目标问题文本的文本向量,通过所述预训练的目标神经网络模型的多层注意力网络提取得到所述目标问题文本的文本特征;
意图识别模块304,用于基于所述特征提取模块提取得到的所述目标问题文本的文本特征得到所述目标问题文本的多个意图类别概率;
第一确定模块305,用于基于所述意图识别模块识别得到的所述目标问题文本的多个意图类别概率确定针对所述目标问题文本的答案信息。
本申请实施例提供了一种问答对话装置,与现有技术通过传统机器算法捕捉文本的语义信息并进行意图识别相比,本申请实施例通过获取目标问题文本,然后通过预训练的目标神经网络模型的编码层提取得到目标问题文本的文本向量,预训练的目标神经网络模型为基于BERT的神经网络模型,继而基于目标问题文本的文本向量,通过预训练的目标神经网络模型的多层注意力网络提取得到目标问题文本的文本特征,继而基于目标问题文本的文本特征得到目标问题文本的多个意图类别概率,最后基于目标问题文本的多个意图类别概率确定针对目标问题文本的答案信息。即通过预训练的基于BERT的神经网络模型的编码层实现对目标问题文本的表征,使得提取得到的文本向量能表达更多的语义信息内容;以及通过注意力网络进行目标问题文本的文本特征的提取,从而能提取到全局的文本特征;此外,基于提取得到的目标问题文本的文本特征进行意图类别的识别,从而能提升目标问题文本的意图类别识别的准确率。
本实施例的问答对话装置可执行本申请上述实施例中提供的一种问答对话方法,其实现原理相类似,此处不再赘述。
如图4所示,本申请实施例提供了另一种问答对话装置,该装置40包括:第一获取模块401、编码模块402、特征提取模块403、意图识别模块404以及第一确定模块405,其中,
第一获取模块401,用于获取目标问题文本;
其中,图4中的第一获取模块401与图3中的第一获取模块301的功能相同或者相似。
编码模块402,用于通过预训练的目标神经网络模型的编码层提取得到所述第一获取模块获取得到的所述目标问题文本的文本向量,所述预训练的目标神经网络模型为基于BERT的神经网络模型;
其中,图4中的编码模块402与图3中的编码模块302的功能相同或者相似。
特征提取模块403,用于基于所述编码模块编码得到的所述目标问题文本的文本向量,通过所述预训练的目标神经网络模型的多层注意力网络提取得到所述目标问题文本的文本特征;
其中,图4中的特征提取模块403与图3中的特征提取模块303的功能相同或者相似。
意图识别模块404,用于基于所述特征提取模块提取得到的所述目标问题文本的文本特征得到所述目标问题文本的多个意图类别概率;
其中,图4中的意图识别模块404与图3中的意图识别模块304的功能相同或者相似。
第一确定模块405,用于基于所述意图识别模块识别得到的所述目标问题文本的多个意图类别概率确定针对所述目标问题文本的答案信息。
其中,图4中的第一确定模块405与图3中的获取模块305的功能相同或者相似。
本申请实施例提供了一种可能的实现方式,具体地,所述编码模块402包括:
提取单元4021,用于通过预训练的目标神经网络模型的编码层分别提取得到所述目标问题文本的字编码、段编码与位置编码;
第一确定单元4022,用于基于所述提取单元提取得到的所述目标问题文本的字编码、段编码与位置编码确定所述目标问题文本的文本向量。
对于本申请实施例,通过目标神经网络模型的编码层分别提取得到所述目标问题文本的字编码、段编码与位置编码,并对得到的字编码、段编码与位置编码进行合并处理得到所述目标问题文本的文本向量,提高了目标问题文本的文本向量的语义表征能力。
本申请实施例提供了一种可能的实现方式,具体地,所述注意力网络包括自注意力网络与前馈全连接网络。
对于本申请实施例,通过引入自注意力机制,解决了目标问题文本的全局特征的提取问题。
本申请实施例提供了一种可能的实现方式,具体地,所述第一确定模块405包括:
第二确定单元4051,用于基于所述多个意图类别概率确定出概率大于预设的置信度阈值的意图类别;
第三确定单元4052,用于基于所述概率大于预设的置信度阈值的意图类别确定所述目标问题文本的答案信息。
对于本申请实施例,解决了如何根据各个意图识别概率,确定向用户反馈的答案信息的问题。
本申请实施例提供了一种可能的实现方式,该装置还包括:第二确定模块406,用于通过近似正确方法确定所述置信度阈值。
对于本申请实施例,通过可能近似正确模型解决了置信度的确定问题。
本申请实施例提供了一种可能的实现方式,该装置还包括:
第二获取模块407,用于获取目标问题语音信息;
识别模块408,用于将通过相应的语音识别方法识别得到的所述目标问题语音信息的文本信息作为所述目标问题文本。
对于本申请实施例,用户可以通过语音进行相应问题的提问,用户不必进行逐字进行文本的输入操作,降低了操作的繁琐性,提升了用户体验。
本申请实施例提供了一种可能的实现方式,进一步地,该装置还包括:
第三确定模块409,用于当接收到多个问题文本后,通过多线程机制从分布式部署的多个预训练的神经网络模型中分别确定出相应的预训练的目标神经网络模型对各个所述问题文本进行意图识别处理。
对于本申请实施例,通过多个预训练的神经网络模型分布式部署,从而能够解决有大批量问题的处理问题。
本申请实施例提供了一种问答对话装置,与现有技术通过传统机器算法捕捉文本的语义信息并进行意图识别相比,本申请获取目标问题文本,然后通过预训练的目标神经网络模型的编码层提取得到目标问题文本的文本向量,预训练的目标神经网络模型为基于BERT的神经网络模型,继而基于目标问题文本的文本向量,通过预训练的目标神经网络模型的多层注意力网络提取得到目标问题文本的文本特征,继而基于目标问题文本的文本特征得到目标问题文本的多个意图类别概率,最后基于目标问题文本的多个意图类别概率确定针对目标问题文本的答案信息。即通过预训练的基于BERT的神经网络模型的编码层实现对目标问题文本的表征,使得提取得到的文本向量能表达更多的语义信息内容;以及通过注意力网络进行目标问题文本的文本特征的提取,从而能提取到全局的文本特征;此外,基于提取得到的目标问题文本的文本特征进行意图类别的识别,从而能提升目标问题文本的意图类别识别的准确率。
本申请实施例提供了一种问答对话装置,适用于上述实施例所示的方法,在此不再赘述。
本申请实施例提供了一种电子设备,如图5所示,图5所示的电子设备50包括:处理器5001和存储器5003。其中,处理器5001和存储器5003相连,如通过总线5002相连。进一步地,电子设备50还可以包括收发器5004。需要说明的是,实际应用中收发器5004不限于一个,该电子设备50的结构并不构成对本申请实施例的限定。其中,处理器4001应用于本申请实施例中,用于实现图3或图4所示的第一获取模块、编码模块、特征提取模块、意图识别模块以及第一确定模块的功能,以及图4所示的第二确定模块406、第二获取模块407、识别模块408以及第三确定模块409的功能。收发器5004包括接收机和发射机。
处理器5001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器5001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线5002可包括一通路,在上述组件之间传送信息。总线5002可以是PCI总线或EISA总线等。总线5002可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器5003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器5003用于存储执行本申请方案的应用程序代码,并由处理器5001来控制执行。处理器5001用于执行存储器5003中存储的应用程序代码,以实现图3或图4所示实施例提供的问答对话装置的功能。
本申请实施例提供了一种电子设备,与现有技术通过传统机器算法捕捉文本的语义信息并进行意图识别相比,本申请获取目标问题文本,然后通过预训练的目标神经网络模型的编码层提取得到目标问题文本的文本向量,预训练的目标神经网络模型为基于BERT的神经网络模型,继而基于目标问题文本的文本向量,通过预训练的目标神经网络模型的多层注意力网络提取得到目标问题文本的文本特征,继而基于目标问题文本的文本特征得到目标问题文本的多个意图类别概率,最后基于目标问题文本的多个意图类别概率确定针对目标问题文本的答案信息。即通过预训练的基于BERT的神经网络模型的编码层实现对目标问题文本的表征,使得提取得到的文本向量能表达更多的语义信息内容;以及通过注意力网络进行目标问题文本的文本特征的提取,从而能提取到全局的文本特征;此外,基于提取得到的目标问题文本的文本特征进行意图类别的识别,从而能提升目标问题文本的意图类别识别的准确率。
本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例中所示的方法。
本申请实施例提供了一种计算机可读存储介质,与现有技术通过传统机器算法捕捉文本的语义信息并进行意图识别相比,本申请获取目标问题文本,然后通过预训练的目标神经网络模型的编码层提取得到目标问题文本的文本向量,预训练的目标神经网络模型为基于BERT的神经网络模型,继而基于目标问题文本的文本向量,通过预训练的目标神经网络模型的多层注意力网络提取得到目标问题文本的文本特征,继而基于目标问题文本的文本特征得到目标问题文本的多个意图类别概率,最后基于目标问题文本的多个意图类别概率确定针对目标问题文本的答案信息。即通过预训练的基于BERT的神经网络模型的编码层实现对目标问题文本的表征,使得提取得到的文本向量能表达更多的语义信息内容;以及通过注意力网络进行目标问题文本的文本特征的提取,从而能提取到全局的文本特征;此外,基于提取得到的目标问题文本的文本特征进行意图类别的识别,从而能提升目标问题文本的意图类别识别的准确率。
本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种问答对话方法,其特征在于,包括:
获取目标问题文本;
通过预训练的目标神经网络模型的编码层提取得到所述目标问题文本的文本向量,所述预训练的目标神经网络模型为基于BERT的神经网络模型;
基于所述目标问题文本的文本向量,通过所述预训练的目标神经网络模型的多层注意力网络提取得到所述目标问题文本的文本特征;
基于所述目标问题文本的文本特征得到所述目标问题文本的多个意图类别概率;
基于所述目标问题文本的多个意图类别概率确定针对所述目标问题文本的答案信息。
2.根据权利要求1所述的方法,其特征在于,所述通过预训练的目标神经网络模型的编码层提取得到所述目标问题文本的文本向量,包括:
通过预训练的目标神经网络模型的编码层分别提取得到所述目标问题文本的字编码、段编码与位置编码;
基于所述目标问题文本的字编码、段编码与位置编码确定所述目标问题文本的文本向量。
3.根据权利要求1或2所述的方法,其特征在于,所述注意力网络包括自注意力网络与前馈全连接网络。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标问题文本的多个意图类别概率确定针对所述目标问题文本的答案信息,包括:
基于所述多个意图类别概率确定出概率大于预设的置信度阈值的意图类别;
基于所述概率大于预设的置信度阈值的意图类别确定所述目标问题文本的答案信息。
5.根据权利要求4所述的方法,其特征在于,该方法还包括:通过近似正确方法确定所述置信度阈值。
6.根据权利要求1所述的方法,其特征在于,该方法还包括:
获取目标问题语音信息;
将通过相应的语音识别方法识别得到的所述目标问题语音信息的文本信息作为所述目标问题文本。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:
当接收到多个问题文本后,通过多线程机制从分布式部署的多个预训练的神经网络模型中分别确定出相应的预训练的目标神经网络模型对各个所述问题文本进行意图识别处理。
8.一种问答对话装置,其特征在于,包括:
第一获取模块,用于获取目标问题文本;
编码模块,用于通过预训练的目标神经网络模型的编码层提取得到所述第一获取模块获取得到的所述目标问题文本的文本向量,所述预训练的目标神经网络模型为基于BERT的神经网络模型;
特征提取模块,用于基于所述编码模块编码得到的所述目标问题文本的文本向量,通过所述预训练的目标神经网络模型的多层注意力网络提取得到所述目标问题文本的文本特征;
意图识别模块,用于基于所述特征提取模块提取得到的所述目标问题文本的文本特征得到所述目标问题文本的多个意图类别概率;
第一确定模块,用于基于所述意图识别模块识别得到的所述目标问题文本的多个意图类别概率确定针对所述目标问题文本的答案信息。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至7任一项所述的问答对话方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1至7中任一项所述的问答对话方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911195188.9A CN110909144A (zh) | 2019-11-28 | 2019-11-28 | 问答对话方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911195188.9A CN110909144A (zh) | 2019-11-28 | 2019-11-28 | 问答对话方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110909144A true CN110909144A (zh) | 2020-03-24 |
Family
ID=69820348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911195188.9A Pending CN110909144A (zh) | 2019-11-28 | 2019-11-28 | 问答对话方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909144A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340148A (zh) * | 2020-05-22 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种业务分类模型的训练方法、业务分类方法以及终端 |
CN111428005A (zh) * | 2020-04-12 | 2020-07-17 | 中信银行股份有限公司 | 标准问答对确定方法、装置及电子设备 |
CN111767371A (zh) * | 2020-06-28 | 2020-10-13 | 微医云(杭州)控股有限公司 | 一种智能问答方法、装置、设备及介质 |
CN112100340A (zh) * | 2020-11-18 | 2020-12-18 | 智者四海(北京)技术有限公司 | 问题内容匹配方法及装置 |
CN112131364A (zh) * | 2020-09-22 | 2020-12-25 | 沈阳东软智能医疗科技研究院有限公司 | 问答方法、装置、电子设备和存储介质 |
WO2021159816A1 (zh) * | 2020-09-04 | 2021-08-19 | 平安科技(深圳)有限公司 | 成语填空题的答案选择方法、装置和计算机设备 |
CN114218381A (zh) * | 2021-12-08 | 2022-03-22 | 北京中科闻歌科技股份有限公司 | 立场识别方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263141A (zh) * | 2019-06-25 | 2019-09-20 | 杭州微洱网络科技有限公司 | 一种基于bert的客服问答系统 |
CN110287285A (zh) * | 2019-05-31 | 2019-09-27 | 平安科技(深圳)有限公司 | 一种问题意图识别方法、装置、计算机设备及存储介质 |
US20190325029A1 (en) * | 2018-04-18 | 2019-10-24 | HelpShift, Inc. | System and methods for processing and interpreting text messages |
CN110413746A (zh) * | 2019-06-25 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 对用户问题进行意图识别的方法及装置 |
CN110442675A (zh) * | 2019-06-27 | 2019-11-12 | 平安科技(深圳)有限公司 | 问答匹配处理、模型训练方法、装置、设备及存储介质 |
-
2019
- 2019-11-28 CN CN201911195188.9A patent/CN110909144A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190325029A1 (en) * | 2018-04-18 | 2019-10-24 | HelpShift, Inc. | System and methods for processing and interpreting text messages |
CN110287285A (zh) * | 2019-05-31 | 2019-09-27 | 平安科技(深圳)有限公司 | 一种问题意图识别方法、装置、计算机设备及存储介质 |
CN110263141A (zh) * | 2019-06-25 | 2019-09-20 | 杭州微洱网络科技有限公司 | 一种基于bert的客服问答系统 |
CN110413746A (zh) * | 2019-06-25 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 对用户问题进行意图识别的方法及装置 |
CN110442675A (zh) * | 2019-06-27 | 2019-11-12 | 平安科技(深圳)有限公司 | 问答匹配处理、模型训练方法、装置、设备及存储介质 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428005A (zh) * | 2020-04-12 | 2020-07-17 | 中信银行股份有限公司 | 标准问答对确定方法、装置及电子设备 |
CN111340148A (zh) * | 2020-05-22 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种业务分类模型的训练方法、业务分类方法以及终端 |
CN111340148B (zh) * | 2020-05-22 | 2020-09-22 | 支付宝(杭州)信息技术有限公司 | 一种业务分类模型的训练方法、业务分类方法以及终端 |
CN111767371A (zh) * | 2020-06-28 | 2020-10-13 | 微医云(杭州)控股有限公司 | 一种智能问答方法、装置、设备及介质 |
CN111767371B (zh) * | 2020-06-28 | 2024-03-12 | 微医云(杭州)控股有限公司 | 一种智能问答方法、装置、设备及介质 |
WO2021159816A1 (zh) * | 2020-09-04 | 2021-08-19 | 平安科技(深圳)有限公司 | 成语填空题的答案选择方法、装置和计算机设备 |
CN112131364A (zh) * | 2020-09-22 | 2020-12-25 | 沈阳东软智能医疗科技研究院有限公司 | 问答方法、装置、电子设备和存储介质 |
CN112131364B (zh) * | 2020-09-22 | 2024-03-26 | 沈阳东软智能医疗科技研究院有限公司 | 问答方法、装置、电子设备和存储介质 |
CN112100340A (zh) * | 2020-11-18 | 2020-12-18 | 智者四海(北京)技术有限公司 | 问题内容匹配方法及装置 |
CN114218381A (zh) * | 2021-12-08 | 2022-03-22 | 北京中科闻歌科技股份有限公司 | 立场识别方法、装置、设备及介质 |
CN114218381B (zh) * | 2021-12-08 | 2022-08-30 | 北京中科闻歌科技股份有限公司 | 立场识别方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909144A (zh) | 问答对话方法、装置、电子设备及计算机可读存储介质 | |
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN110516253B (zh) | 中文口语语义理解方法及系统 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
WO2017094911A1 (en) | Method for processing utterances | |
CN112836496B (zh) | 一种基于bert和前馈神经网络的文本纠错方法 | |
CN114169330A (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN107797987B (zh) | 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112163429B (zh) | 结合循环网络及bert的句子相关度获取方法、系统及介质 | |
Masumura et al. | Hierarchical transformer-based large-context end-to-end asr with large-context knowledge distillation | |
Hori et al. | Dialog state tracking with attention-based sequence-to-sequence learning | |
CN116127952A (zh) | 一种多粒度中文文本纠错方法和装置 | |
CN115292463B (zh) | 一种基于信息抽取的联合多意图检测和重叠槽填充的方法 | |
CN109726400B (zh) | 实体词识别结果评价方法、装置、设备及实体词提取系统 | |
CN116127953B (zh) | 一种基于对比学习的中文拼写纠错方法、装置和介质 | |
CN107977353A (zh) | 一种基于lstm-cnn的混合语料命名实体识别方法 | |
CN113282714B (zh) | 一种基于区分性词向量表示的事件检测方法 | |
CN112800239A (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN107797988A (zh) | 一种基于Bi‑LSTM的混合语料命名实体识别方法 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN117217233A (zh) | 文本纠正、文本纠正模型训练方法及装置 | |
CN107992468A (zh) | 一种基于lstm的混合语料命名实体识别方法 | |
CN113177113B (zh) | 任务型对话模型预训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200324 |
|
RJ01 | Rejection of invention patent application after publication |