CN113254613A

CN113254613A - 对话问答方法、装置、设备及存储介质

Info

Publication number: CN113254613A
Application number: CN202110566940.7A
Authority: CN
Inventors: 朱锦祥; 臧磊
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-08-13
Anticipated expiration: 2041-05-24
Also published as: CN113254613B

Abstract

本发明涉及人工智能的语义解析技术领域，本发明公开了一种对话问答方法、装置、设备及存储介质，所述方法包括：通过获取对话中的待识别文本数据；通过基于N‑gram的语言模型，对待处理文本进行分词处理，得到分词文本向量，并和语气标识组合，生成组合标注文本向量；通过基于ALBERT的意图实体识别模型，运用跨层参数共享后的初始参数对组合标注文本向量进行意图特征提取和实体抽取，得到意图结果和实体结果；通过基于深度学习的应答模型，进行多任务应答分析，得到应答结果。因此，本发明实现了快速地、准确地自动识别出对话的意图和实体，分析出应答结果，使模型轻量化，便于应用至移动设备。本发明适用于智慧城市等领域，可进一步推动智慧城市的建设。

Description

对话问答方法、装置、设备及存储介质

技术领域

本发明涉及语义解析技术领域，尤其涉及一种对话问答方法、装置、设备及存储介质。

背景技术

随着大数据和人工智能的发展，智能客服已经成为电商、出行等各个领域的一个关键组成部分，在金融领域，智能客服也被广泛应用到用户数据的审批过程当中。通过获取目标对象的表述内容，对该表述内容进行识别，可以对目标对象进行进一步的判别与分类。

目前，问答对话中的意图识别和实体抽取技能主要由传统机器学习如SVM或HMM等，或者基于word2vector+RNN的深度学习技术实现，其中，预训练模型由于其优秀的语义理解能力，很快在自然语言处理领域取得了不错的效果，因此被广泛使用，但是在实际应用中，预训练模型占用的显存大，模型推理速度慢，导致智能客服的响应时间长，参数量高达110M，在移动终端的应用受到极大的限制，并且由于神经网络模型只能抽取特定的实体，并未对意图进行结合，最终导致问答对话中的应答内容不符合用户的需要的答案，以致应答的准确准确率低。

发明内容

本发明提供一种对话问答方法、装置、计算机设备及存储介质，能够快速地、准确地自动识别出对话的意图和实体，针对意图和实体分析出最能符合对话的应答结果，并提高了意图识别和实体抽取的准确率，降低了模型的响应时长，大大压缩了模型的容量，使模型轻量化，便于应用至移动设备中，本发明适用于智慧医疗等领域，可进一步推动智慧城市的建设，能够提高了对话中应答的准确率，提升了用户体验满意度。

一种对话问答方法，包括：

获取对话中的待识别文本数据；其中，所述待识别文本数据包括待处理文本及与其对应的语气标识；

通过基于N-gram的语言模型，对所述待处理文本进行分词处理，得到分词文本向量，并将所述分词文本向量和所述语气标识组合，生成组合标注文本向量；

通过基于ALBERT的意图实体识别模型，运用跨层参数共享后的初始参数对所述组合标注文本向量进行意图特征提取和实体抽取，得到意图结果和实体结果；

通过基于深度学习的应答模型，对所述意图结果和实体结果进行多任务应答分析，得到与所述对话对应的应答结果。

一种对话问答装置，包括：

获取模块，用于获取对话中的待识别文本数据；其中，所述待识别文本数据包括待处理文本及与其对应的语气标识；

分词模块，用于通过基于N-gram的语言模型，对所述待处理文本进行分词处理，得到分词文本向量，并将所述分词文本向量和所述语气标识组合，生成组合标注文本向量；

识别模块，用于通过基于ALBERT的意图实体识别模型，运用跨层参数共享后的初始参数对所述组合标注文本向量进行意图特征提取和实体抽取，得到意图结果和实体结果；

分析模块，用于通过基于深度学习的应答模型，对所述意图结果和实体结果进行多任务应答分析，得到与所述对话对应的应答结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述对话问答方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述对话问答方法的步骤。

本发明提供的对话问答方法、装置、计算机设备及存储介质，通过获取对话中的待识别文本数据；其中，所述待识别文本数据包括待处理文本及与其对应的语气标识；通过基于N-gram的语言模型，对所述待处理文本进行分词处理，得到分词文本向量，并将所述分词文本向量和所述语气标识组合，生成组合标注文本向量；通过基于ALBERT的意图实体识别模型，运用跨层参数共享后的初始参数对所述组合标注文本向量进行意图特征提取和实体抽取，得到意图结果和实体结果；通过基于深度学习的应答模型，对所述意图结果和实体结果进行多任务应答分析，得到与所述对话对应的应答结果，如此，实现了通过基于N-gram的语言模型进行分词处理，并通过基于ALBERT的意图实体识别模型运用跨层参数共享的方法进行意图特征提取和实体抽取，自动识别出对话中的意图结果和实体结果，再通过深度学习的多任务应答分析，获得应答该对话的应答结果，能够快速地、准确地自动识别出对话的意图和实体，针对意图和实体分析出最能符合对话的应答结果，并提高了意图识别和实体抽取的准确率，降低了模型的响应时长，大大压缩了模型的容量，使模型轻量化，便于应用至移动设备中，以及提高了应答准确率，提升了用户体验满意度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中对话问答方法的应用环境示意图；

图2是本发明一实施例中对话问答方法的流程图；

图3是本发明一实施例中对话问答方法的步骤S10的流程图；

图4是本发明一实施例中对话问答方法的步骤S20的流程图；

图5是本发明一实施例中对话问答方法的步骤S30的流程图；

图6是本发明一实施例中对话问答方法的步骤S40的流程图；

图7是本发明一实施例中对话问答装置的原理框图；

图8是本发明一实施例中对话问答装置中的识别模块的原理框图；

图9是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的对话问答方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务器进行通信。其中，客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种对话问答方法，其技术方案主要包括以下步骤S10-S40：

S10，获取对话中的待识别文本数据；其中，所述待识别文本数据包括待处理文本及与其对应的语气标识。

可理解地，所述待识别文本数据为需要识别出意图和实体的数据，所述待识别文本数据包括所述待处理文本和所述语气标识，所述待处理文本为对话的文本内容，所述语气标识为根据对话中的语气标识出的唯一码，对话的语气包括疑问语气、陈述语气、感叹语气和祈使语气等。

在一实施例中，如图3所示，所述步骤S10之前，即所述获取对话中的待识别文本数据之前，包括：

S101，获取与所述对话对应的待处理音频文件。

可理解地，在用户发出一个语音问题之后，触发待处理请求，触发的方式可以根据需求设定，比如触发的方式可以为的接收到用户点击按键或者按钮触发，也可以为通过采集到所述语音问题之后的预设时长内未接收到新的音频内容后自动触发等等，所述待处理音频文件为对话中采集到用户的一段音频的内容。

S102，对所述待处理音频文件进行去噪处理，得到去噪音频文件。

可理解地，所述去噪处理的过程为对所述待处理音频文件进行静音检测，检测出没有用户发音的部分，将该部分进行去除，将去除后的所述待处理音频文件进行傅里叶变换，将其从时域变换至频域，得到若干系列的初相、振幅和角频率等参数，最后将不需要的频率从变换后的所述待处理音频文件中去除的过程，经过所述去噪处理后的所述待处理音频文件记录为所述去噪音频文件，其中，所述静音检测的过程为将未出现连续且大幅度的声波的音频片段确定为静音片段。

S103，对所述去噪音频文件进行语音识别，得到所述待处理文本。

可理解地，所述语音识别技术(Automatic Speech Recognition，ASR)就是把语音信号转变为相应的文本的技术，通过所述语音识别技术，可以将所述去噪音频文件转换成文本内容，即对所述去噪音频文件进行信号处理后，按帧(毫秒级)拆分出预设段的波形，并对拆分出的预设段波形按照人耳特征转换成多维向量信息，将转换后的多维向量信息进行识别出状态信息，在将状态信息组合成音素，最后将音素组成字词并串连成句的技术。

S104，通过语气检测模型对所述去噪音频文件和所述待处理文本进行语气识别，得到与所述待处理文本对应的所述语气标识。

可理解地，所述语气检测模型为训练完成的用于识别一段音频文件的语气的模型，所述语气检测模型通过对所述去噪音频文件进行语气特征的提取，提取出所述语气特征，所述语气特征为音频文件中音素升降的特征，以及对所述待处理文本进行语义预测，预测出与所述待处理文本最匹配的语义句型，所述语义句型包括疑问句型、陈述句型、感叹句型等等，所述语气识别包括语气特征的提取和预测语义句型的过程，通过所述语气检测模型结合提取的所述语气特征和预测的语义句型两个维度，准确地识别出所述语气标识。

本发明实现了通过获取与所述对话对应的待处理音频文件；对所述待处理音频文件进行去噪处理，得到去噪音频文件；对所述去噪音频文件进行语音识别，得到所述待处理文本；通过语气检测模型对所述去噪音频文件和所述待处理文本进行语气识别，得到与所述待处理文本对应的所述语气标识，如此，能够准确地识别出对话中的文本内容和语气，提高了后续意图识别和实体抽取的准确性，并且能够提供语气维度的数据依据。

S20，通过基于N-gram的语言模型，对所述待处理文本进行分词处理，得到分词文本向量，并将所述分词文本向量和所述语气标识组合，生成组合标注文本向量。

可理解地，所述语言模型为训练完成的基于N-gram的网络结构的神经网络模型，所述语音模型能够对输入的文本进行分词处理得到防止过拟合的分词文本向量，以便后续进行意图识别和实体抽取，通过所述语言模型，对所述待处理文本进行正则表达式转换和子词划分处理，得到分词文本向量，再对所述分词文本向量进行遮掩及序列标注处理，得到所述分词文本向量，所述分词处理包括所述正则表达式转换、子词划分处理、遮掩和序列标注的处理过程，所述正则表达式转换为将所有所述待处理文本中的字母转换成小写字母，并且剔除英文中的重音标记，数字转换成字符串格式等等，所述子词划分处理为运用贪婪匹配算法对输入的内容从预设的词汇表中进行匹配，将内容分解成一个个子词，例如：输入句子“listen to westbamalumb allergic on google music”，则tokens为['[CLS]','listen','to','west','##ba','##m','al','##umb','allergic','on','google','music','[SEP]']，所述遮掩为运用N-gram算法对分词文本向量进行随机遮掩，防止过拟合，所述序列标注为对遮掩后的所述分词文本向量进行序列标注，标注出各个子词的位置及在段落中的连续性标注，例如上述例子中标注为valid_positions为[1,1,1,1,0,0,1,0,1,1,1,1,1]等操作。

其中，将所述分词文本向量和所述语气标识进行拼接，得到所述组合标注文本向量，所述拼接过程为在所述分词文本向量的基础上增加一维数组，该数组为由语气标识组成的与所述分词文本向量相同宽度的数组。

在一实施例中，如图4所示，所述步骤S20中，即所述通过基于N-gram的语言模型，对所述待处理文本进行分词处理，得到分词文本向量，包括：

S201，通过基于N-gram的语言模型，对所述待处理文本进行正则表达式转换，得到转换文本。

可理解地，所述正则表达式转换为将所有所述待处理文本中的字母转换成小写字母，并且剔除英文中的重音标记，数字转换成字符串格式等等，所述转换文本为经过所述正则表达式转换后符合统一规则的文本内容。

S202，通过基于N-gram的语言模型，运用贪婪最长匹配算法，对所述转换文本进行子词划分处理，得到分词文本向量。

可理解地，所述语言模型中的所述词汇表为存储了所有可供划分子词的词组的集合，所述贪婪最长匹配算法为从所述转换文本中的第一个字符开始向后移动，判断移动一个字符是否能够在所述词汇表中查找出与其字符之前组成的字符串相匹配的词组，如果可以查找到，继续移动下一个字符进行匹配，如果不能够查找到，就从该字符切分开，直至将所述转换文本匹配完成的算法，所述子词划分处理为运用所述贪婪最长匹配算法划分出多个子词，并在不处于一串字符串开头的子词在前面增加“##”标识的处理过程，从而将划分的子词用数组表示得到所述分词文本向量。

S203，通过基于N-gram的语言模型，对所述分词文本向量进行遮掩及序列标注处理，得到所述分词文本向量。

可理解地，所述遮掩为运用N-gram算法对分词文本向量进行随机遮掩，防止过拟合，所述序列标注为对遮掩后的所述分词文本向量进行序列标注，标注出各个子词的位置及在段落中的连续性标注，例如上述例子中标注为[1,1,1,1,0,0,1,0,1,1,1,1,1]等操作。

本发明实现了通过基于N-gram的语言模型，对所述待处理文本进行正则表达式转换，得到转换文本；运用贪婪最长匹配算法，对所述转换文本进行子词划分处理，得到分词文本向量；对所述分词文本向量进行遮掩及序列标注处理，得到所述分词文本向量，如此，实现了运用正则表达式、贪婪最长匹配算法、基于N-gram的遮掩及序列标注，能够准确地自动划分出多个子词，并组成多维的分词文本向量，为后续的意图识别和实体抽取提高了准确率。

S30，通过基于ALBERT的意图实体识别模型，运用跨层参数共享后的初始参数对所述组合标注文本向量进行意图特征提取和实体抽取，得到意图结果和实体结果。

可理解地，所述意图识别模型为训练完成的基于ALBERT的网络架构的神经网络模型，所述意图实体识别模型实现了自动识别出输入的所述组合标注文本向量中的意图和实体的模型，所述ALBERT的网络框架是BERT的网络架构的改进，所述ALBERT的网络框架的参数少，但是精度保持，通过降维因式分解法处理各个参数的维度，以及跨层参数共享和去除dropout层，大大压缩了模型的容量，使意图实体识别模型轻量化，便于应用至移动设备，运用跨层参数共享后的初始参数，对所述组合标注文本向量进行意图特征提取和实体抽取，所述意图特征为文本中的意图相关的特征，所述实体抽取为抽取出文本中的实体的过程，即识别出文本中具有实体特征的词组，结合所述组合标注文本向量中的意图特征和抽取出的实体，得到所述意图结果和实体结果，所述意图结果表明了所述待识别文本数据的意图，所述实体结果表明了所述待识别文本数据中的关键的实体及分布。

其中，所述跨层参数共享的方法为将每层的权重参数进行共享，将各层的权重参数设置成一致，或者各层的权重参数通过由共享参数和公差参数构成，通过所述跨层参数共享的方法大大压缩了各层的权重参数的容量，从而便于应用至移动设备。

在一实施例中，所述步骤S30之前，即所述通过基于ALBERT的意图实体识别模型，运用跨层参数共享后的初始参数对所述组合标注文本向量进行意图特征提取和实体抽取，得到意图结果和实体结果之前，包括：

获取文本向量样本集；其中，所述文本向量样本集包括多个所述文本向量样本以及与所述文本向量样本对应的标签组；所述标签组包括意图标签和实体标签。

可理解地，所述文本向量样本集为收集的所述文本向量样本的集合，所述文本向量样本为历史收集的一句话并且对该句话进行遮掩及序列标注处理后获得的文本向量，所述文本向量样本集还包括与各所述文本向量样本对应的标签组，其中，所述标签组包括所述意图标签和所述实体标签，所述意图标签表明了与其对应的所述文本向量样本的意图，所述实体标签体现了与其对应的所述文本向量样本中的需要关注的实体。

将所述文本向量样本输入含有初始参数的初始识别模型；其中，所述初始识别模型为基于ALBERT的神经网络模型。

可理解地，所述初始识别模型的输入层包括五个输入接口，分别一一对应所述文本向量样本的五个维度，即分别为语气维度、句子标注(input_ids)、遮掩标注(input_masks)、分词标注(segment_ids)和词位置标注(valid_positions)，通过对所述文本向量样本进行五个维度的转换，可以收集到所述文本向量样本在五个维度的信息，所述初始识别模型的隐藏层为12层，在训练过程中，可以对靠近输入层的前两层进行冻结，仅对后续的10层进行训练。

通过所述初始识别模型对所述文本向量样本进行意图特征提取和实体抽取，得到意图样本结果和实体样本结果。

可理解地，所述意图特征为文本中的意图相关的特征，根据提取出所述文本向量样本中的意图特征，并通过五个维度进行识别，得到所述意图样本结果，所述意图样本结果表明了所述文本向量样本的各个意图的概率值，所述实体抽取为抽取出文本中的实体的过程，所述实体样本结果表明了所述文本向量样本中的实体及实体的概率分布。

根据所述意图样本结果和所述意图标签，确定第一损失值，以及根据所述实体样本结果和所述实体标签，确定第二损失值。

可理解地，通过所述初始识别模型中的损失函数，计算所述意图样本结果与所述意图标签之间的差距，确定出所述第一损失值，同时计算所述实体样本结果和所述实体标签之间的差距，确定出第二损失值。

其中，所述损失函数可以根据需求进行设定，比如交叉熵损失函数、多分类损失函数等等，计算所述第一损失值的损失函数和计算所述第二损失值的损失函数可以相同，也可以不相同。

将所述第一损失值和所述第二损失值加权求和，计算得到总损失值。

可理解地，通过将所述第一损失值和与所述第一损失值对应的第一权重相乘，并将所述第二损失值与所述第二损失值对应的第二权重相乘，计算将两个相乘的结果求和，得到所述总损失值。

在所述总损失值未达到预设的收敛条件时，运用跨层参数共享和LAMB优化器迭代更新所述初始识别模型中的初始参数，直至所述总损失值达到所述收敛条件时，将收敛之后的所述初始识别模型记录为意图实体识别模型。

可理解地，所述跨层参数共享的方法为将每层的权重参数进行共享，将各层的权重参数设置成一致，或者各层的权重参数通过由共享参数和公差参数构成，各层的共享参数一致，训练过程中，向共享参数一致靠拢，训练后将公差参数不为零的该层进行标记并组成数组，大大压缩了各层的权重参数的容量，所述LAMB优化器的作用便在于使模型在进行大批量数据训练时，能够维持梯度更新的精度，即所述LAMB优化器支持自适应元素级更新(adaptive element-wise updating)和准确的逐层修正(layer-wise correction)，通过所述LAMB优化器可将ALBERT预训练的批量大小扩展到64K，且不会造成准确率损失。

本发明实现了通过跨层参数共享的方法和LAMB优化器，能够大大缩小模型的训练周期，以及压缩了模型的容量。

在一实施例中，如图5所示，所述步骤S30中，即所述通过基于ALBERT的意图实体识别模型，运用跨层参数共享后的初始参数对所述组合标注文本向量进行意图特征提取和实体抽取，得到意图结果和实体结果，包括：

S301，运用降维因式分解法，对所述组合标注文本向量进行降维处理，得到降维文本向量。

可理解地，所述降维因式分解法为词嵌入向量参数的因式分解，将词嵌入向量参数由O(V*H)降低至O(V*E+E*H)，例如：V＝30000,H＝4096,E＝128，那么原先参数为V*H＝30000*4096＝1.23亿个参数，现在则为V*E+E*H＝30000*128+128*4096＝384万+52万＝436万，词嵌入相关的参数变化前是变换后的28倍，所述降维处理为运用所述降维因式分解法进行处理的过程。

S302，运用跨层参数共享后的初始参数，对所述降维文本向量进行所述意图特征提取，得到意图输出向量，同时对所述降维文本向量进行所述实体抽取处理，得到实体输出向量。

可理解地，所述初始参数为训练完成的基于ALBERT的意图实体识别模型的参数，并且通过跨层参数共享获得，所述意图输出向量为通过对所述降维文本向量进行所述意图特征提取及池化后输出的向量，所述意图输出向量可以为768维(768dim)的特征向量图，所述实体输出向量为通过所述降维文本向量进行所述实体抽取处理后提取出的向量，所述实体输出向量也可以为768维(768dim)的特征向量图。

S303，通过所述意图实体识别模型中的softmax层对所述意图输出向量进行激活处理，得到所述意图结果。

可理解地，通过所述意图实体识别模型中的全连接层的所述softmax层对所述意图输出向量进行激活处理，其中，神经元数为意图种类的数量，通过激活处理可以得到各个意图种类的概率值，从而得到所述意图结果。

S304，根据所述意图结果，对所述实体输出向量进行增维处理，并对增维处理后的所述实体输出向量进行实体分类，得到所述实体结果。

可理解地，所述增维处理为对所述实体输出向量的基础上增加所述意图结果的维度，增加的所述意图结果的宽度与所述实体输出向量的宽度一致，如此可以对每个所述实体输出向量中的特征与所述意图结果关联，从而对增维处理后的所述实体输出向量进行更加切合意图的实体分类，从而得到所述实体结果。

本发明实现了通过运用降维因式分解法，对所述组合标注文本向量进行降维处理，得到降维文本向量；运用跨层参数共享后的初始参数，对所述降维文本向量进行所述意图特征提取，得到意图输出向量，同时对所述降维文本向量进行所述实体抽取处理，得到实体输出向量；通过所述意图实体识别模型中的softmax层对所述意图输出向量进行激活处理，得到所述意图结果；根据所述意图结果，对所述实体输出向量进行增维处理，并对增维处理后的所述实体输出向量进行实体分类，得到所述实体结果，如此，实现了通过运用降维因式分解法和跨层参数共享后的初始参数，能够大大压缩模型的容量，且保证了模型的意图识别和实体抽取的准确性和可靠性，便于应用至移动设备中。

S40，通过基于深度学习的应答模型，对所述意图结果和实体结果进行多任务应答分析，得到与所述对话对应的应答结果。

可理解地，所述应答模型为训练完成的基于深度学习方式学习的神经网络模型，所述应答模型能够实现提取输入的意图结果和实体结果融合后的应答场景特征和应答因子，根据提取的应答场景特征和应答因子匹配出应答的内容，所述多任务应答分析为将所述意图结果和所述实体结果进行融合获得多个待分析数据；通过对各个所述待分析数据进行应答场景特征和应答因子特征提取，分析出与各所述待分析数据一一对应的应答模板和应答因子结果的分析过程，再结合应答模板和获取与应答因子结果中的各应答因子匹配的应答因子数据，输出匹配度最高的应答结果，将所述应答结果经过文本语音转换后输出。

本发明实现了通过获取对话中的待识别文本数据；其中，所述待识别文本数据包括待处理文本及与其对应的语气标识；通过基于N-gram的语言模型，对所述待处理文本进行分词处理，得到分词文本向量，并将所述分词文本向量和所述语气标识组合，生成组合标注文本向量；通过基于ALBERT的意图实体识别模型，运用跨层参数共享后的初始参数对所述组合标注文本向量进行意图特征提取和实体抽取，得到意图结果和实体结果；通过基于深度学习的应答模型，对所述意图结果和实体结果进行多任务应答分析，得到与所述对话对应的应答结果，如此，实现了通过基于N-gram的语言模型进行分词处理，并通过基于ALBERT的意图实体识别模型运用跨层参数共享的方法进行意图特征提取和实体抽取，自动识别出对话中的意图结果和实体结果，再通过深度学习的多任务应答分析，获得应答该对话的应答结果，能够快速地、准确地自动识别出对话的意图和实体，针对意图和实体分析出最能符合对话的应答结果，并提高了意图识别和实体抽取的准确率，降低了模型的响应时长，大大压缩了模型的容量，使模型轻量化，便于应用至移动设备中，以及提高了应答准确率，提升了用户体验满意度。

在一实施例中，如图6所示，所述步骤S40中，即所述通过基于深度学习的应答模型，对所述意图结果和实体结果进行多任务应答分析，得到与所述对话对应的应答结果，包括：

S401，将所述意图结果和所述实体结果进行融合，得到至少一个待分析数据。

可理解地，将所述意图结果和所述实体结果中的各个实体进行组合，组合得到多个所述待分析数据，组合的方式可以先对所述实体结果中的实体进行组合，再将组合后的多个实体组合和所述意图结果进行组合的方式。

S402，将所有所述待分析数据输入所述应答模型中，通过所述应答模型对各所述待分析数据进行应答场景特征和应答因子特征提取，根据提取的所述应答场景特征识别出与各所述待分析数据一一对应的应答模板，以及根据提取的所述应答因子特征识别出应答因子结果。

可理解地，所述应答场景特征为与应答意图和实体相关的场景的特征，例如：意图为“查天气”，实体为“明天”“天气”的待分析数据，其应答场景特征为提取出查询、天气、第二天的特征，所述应答因子特征为应答相关的因子的特征，例如应答因子对于意图为“查天气”，实体为“明天”的待分析数据，其应答因子有“第二天”和“天气”。

其中，所述应答模板为根据不同的应答场景特征而设定的模板，比如：其应答场景特征为提取出查询、天气、第二天的特征，识别出的应答模板为“明天的天气为XXX”，同时将识别出的应答因子确定为所述应答因子结果。

S403，获取与所述应答因子结果匹配的应答因子数据。

可理解地，从实时更新的数据库中查找与所述应答因子结果中的应答因子相关的数据，并运用文本相似度匹配算法，匹配出与各应答因子均匹配的所述应答因子数据，所述应答因子数据为均符合应答因子的数据，例如：应答因子为“第二天”和“天气”，当天为3月13日，从数据库中查找到日期属性“3月13日”“3月14日”，与日期属性“3月13日”对应的天气属性为“阴天，20度至23度”，与日期属性“3月14日”对应的天气属性为“晴天，20度至25度”，通过文本相似度算法，匹配出与日期属性“3月14日”对应的天气属性为“晴天，20度至25度”的数据为与应答因子为“第二天”和“天气”均匹配的数据。

S404，根据所述应答模板和所述应答因子数据，确定所述应答结果。

可理解地，将所述应答因子数据自动填充至所述应答模板中的相应位置，从而输出所述应答结果，例如：将“晴天，20度至25度”的应答因子数据自动在“明天的天气为XXX”的应答模板之后进行填充，即得到“明天的天气为晴天，20度至25度”的应答结果。

本发明实现了通过将所述意图结果和所述实体结果进行融合，得到至少一个待分析数据；将所有所述待分析数据输入所述应答模型中，通过所述应答模型对各所述待分析数据进行应答场景特征和应答因子特征提取，根据提取的所述应答场景特征识别出与各所述待分析数据一一对应的应答模板，以及根据提取的所述应答因子特征识别出应答因子结果；获取与所述应答因子结果匹配的应答因子数据；根据所述应答模板和所述应答因子数据，确定所述应答结果，如此，能够准确地、科学地基于意图识别和实体抽取自动识别出对话的应答内容，提高了应答准确率，提高了客户满意度。

在一实施例中，提供一种对话问答装置，该对话问答装置与上述实施例中对话问答方法一一对应。如图7所示，该对话问答装置包括获取模块11、分词模块12、识别模块13和分析模块14。各功能模块详细说明如下：

获取模块11，用于获取对话中的待识别文本数据；其中，所述待识别文本数据包括待处理文本及与其对应的语气标识；

分词模块12，用于通过基于N-gram的语言模型，对所述待处理文本进行分词处理，得到分词文本向量，并将所述分词文本向量和所述语气标识组合，生成组合标注文本向量；

识别模块13，用于通过基于ALBERT的意图实体识别模型，运用跨层参数共享后的初始参数对所述组合标注文本向量进行意图特征提取和实体抽取，得到意图结果和实体结果；

分析模块14，用于通过基于深度学习的应答模型，对所述意图结果和实体结果进行多任务应答分析，得到与所述对话对应的应答结果。

在一实施例中，如图8所示，所述识别模块13包括：

降维单元31，用于运用降维因式分解法，对所述组合标注文本向量进行降维处理，得到降维文本向量；

提取单元32，用于运用跨层参数共享后的初始参数，对所述降维文本向量进行所述意图特征提取，得到意图输出向量，同时对所述降维文本向量进行所述实体抽取处理，得到实体输出向量；

激活单元33，用于通过所述意图实体识别模型中的softmax层对所述意图输出向量进行激活处理，得到所述意图结果；

增维单元34，用于根据所述意图结果，对所述实体输出向量进行增维处理，并对增维处理后的所述实体输出向量进行实体分类，得到所述实体结果。

关于对话问答装置的具体限定可以参见上文中对于对话问答方法的限定，在此不再赘述。上述对话问答装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端或者服务端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对话问答方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中对话问答方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中对话问答方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种对话问答方法，其特征在于，包括：

2.如权利要求1所述的对话问答方法，其特征在于，所述获取对话中的待识别文本数据之前，包括：

获取与所述对话对应的待处理音频文件；

对所述待处理音频文件进行去噪处理，得到去噪音频文件；

对所述去噪音频文件进行语音识别，得到所述待处理文本；

通过语气检测模型对所述去噪音频文件和所述待处理文本进行语气识别，得到与所述待处理文本对应的所述语气标识。

3.如权利要求1所述的对话问答方法，其特征在于，所述通过基于N-gram的语言模型，对所述待处理文本进行分词处理，得到分词文本向量，包括：

通过基于N-gram的语言模型，对所述待处理文本进行正则表达式转换，得到转换文本；

通过基于N-gram的语言模型，运用贪婪最长匹配算法，对所述转换文本进行子词划分处理，得到分词文本向量；

通过基于N-gram的语言模型，对所述分词文本向量进行遮掩及序列标注处理，得到所述分词文本向量。

4.如权利要求1所述的对话问答方法，其特征在于，所述通过基于ALBERT的意图实体识别模型，运用跨层参数共享后的初始参数对所述组合标注文本向量进行意图特征提取和实体抽取，得到意图结果和实体结果之前，包括：

获取文本向量样本集；其中，所述文本向量样本集包括多个所述文本向量样本以及与所述文本向量样本对应的标签组；所述标签组包括意图标签和实体标签；

将所述文本向量样本输入含有初始参数的初始识别模型；其中，所述初始识别模型为基于ALBERT的神经网络模型；

通过所述初始识别模型对所述文本向量样本进行意图特征提取和实体抽取，得到意图样本结果和实体样本结果；

根据所述意图样本结果和所述意图标签，确定第一损失值，以及根据所述实体样本结果和所述实体标签，确定第二损失值；

将所述第一损失值和所述第二损失值加权求和，计算得到总损失值；

5.如权利要求1所述的对话问答方法，其特征在于，所述通过基于ALBERT的意图实体识别模型，运用跨层参数共享后的初始参数对所述组合标注文本向量进行意图特征提取和实体抽取，得到意图结果和实体结果，包括：

运用降维因式分解法，对所述组合标注文本向量进行降维处理，得到降维文本向量；

运用跨层参数共享后的初始参数，对所述降维文本向量进行所述意图特征提取，得到意图输出向量，同时对所述降维文本向量进行所述实体抽取处理，得到实体输出向量；

通过所述意图实体识别模型中的softmax层对所述意图输出向量进行激活处理，得到所述意图结果；

根据所述意图结果，对所述实体输出向量进行增维处理，并对增维处理后的所述实体输出向量进行实体分类，得到所述实体结果。

6.如权利要求1所述的对话问答方法，其特征在于，所述通过基于深度学习的应答模型，对所述意图结果和实体结果进行多任务应答分析，得到与所述对话对应的应答结果，包括：

将所述意图结果和所述实体结果进行融合，得到至少一个待分析数据；

将所有所述待分析数据输入所述应答模型中，通过所述应答模型对各所述待分析数据进行应答场景特征和应答因子特征提取，根据提取的所述应答场景特征识别出与各所述待分析数据一一对应的应答模板，以及根据提取的所述应答因子特征识别出应答因子结果；

获取与所述应答因子结果匹配的应答因子数据；

根据所述应答模板和所述应答因子数据，确定所述应答结果。

7.一种对话问答装置，其特征在于，包括：

8.如权利要求7所述的对话问答装置，其特征在于，所述识别模块包括：

降维单元，用于运用降维因式分解法，对所述组合标注文本向量进行降维处理，得到降维文本向量；

提取单元，用于运用跨层参数共享后的初始参数，对所述降维文本向量进行所述意图特征提取，得到意图输出向量，同时对所述降维文本向量进行所述实体抽取处理，得到实体输出向量；

激活单元，用于通过所述意图实体识别模型中的softmax层对所述意图输出向量进行激活处理，得到所述意图结果；

增维单元，用于根据所述意图结果，对所述实体输出向量进行增维处理，并对增维处理后的所述实体输出向量进行实体分类，得到所述实体结果。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述对话问答方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述对话问答方法。