CN110019741A

CN110019741A - 问答系统答案匹配方法、装置、设备及可读存储介质

Info

Publication number: CN110019741A
Application number: CN201810556487.XA
Authority: CN
Inventors: 陈源
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2019-07-16
Anticipated expiration: 2038-06-01
Also published as: CN110019741B

Abstract

本发明公开了一种问答系统答案匹配方法、装置、设备及计算机可读存储介质，包括：对查询语句进行分词处理，获得查询语句的分词；对查询语句的分词进行量化处理，获得查询语句的分词的词向量；将查询语句的分词的词向量输入至预设数据库模型中，获得查询语句的分词的词向量与预设数据库中的词向量的欧式距离；根据查询语句的分词的词向量与预设数据库中的词向量的欧式距离分析查询语句的具体内容；根据查询语句的具体内容分析查询语句所属查询类别，并将查询语句分配至所属查询类别对应的答案数据库中；通过查询语句的具体内容在查询类别对应的答案数据库中匹配查询答案，将查询答案向用户进行推送。本发明能够减少冗余的询问时间，提高工作效率。

Description

问答系统答案匹配方法、装置、设备及可读存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种问答系统答案匹配方法、装置、设备及计算机可读存储介质。

背景技术

当前较大的公司人员以及部门等都很多，当需要业务对接或需要了解业务流程时，若需要获知具体变更后的信息，只能通过电话或邮件联系相关人员，由相关人员提供具体变更后的信息，而当相关人员处于繁忙状态时，会导致获知信息的效率较低，提问过程较冗余。

发明内容

本发明的主要目的在于提出一种问答系统答案匹配方法、装置、设备及计算机可读存储介质，旨在提高获知信息的效率。

为实现上述目的，本发明提供一种问答系统答案匹配方法，所述方法包括：

当接收到查询语句时，通过全切分算法对所述查询语句进行分词处理，获得所述查询语句的分词；

通过神经网络语言模型对所述查询语句的分词进行量化处理，获得所述查询语句的分词的词向量；

将所述查询语句的分词的词向量输入至预设数据库模型中，获得所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离；

根据所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离分析所述查询语句的具体内容；

根据所述查询语句的具体内容分析所述查询语句所属查询类别，并将所述查询语句分配至所述所属查询类别对应的答案数据库中；

通过所述查询语句的具体内容在所述查询类别对应的答案数据库中匹配对应的查询答案，并将所述查询答案向用户进行推送。

此外，为实现上述目的，本发明还提供一种问答系统答案匹配装置，所述装置包括：

分词模块，用于当接收到查询语句时，通过全切分算法对所述查询语句进行分词处理，获得所述查询语句的分词；

量化处理模块，用于通过神经网络语言模型对所述查询语句的分词进行量化处理，获得所述查询语句的分词的词向量；

输入模块，用于将所述查询语句的分词的词向量输入至预设数据库模型中，获得所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离；

分析模块，用于根据所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离分析所述查询语句的具体内容；根据所述查询语句的具体内容分析所述查询语句所属查询类别，并将所述查询语句分配至所述所属查询类别对应的答案数据库中；

匹配模块，用于通过所述查询语句的具体内容在所述查询类别对应的答案数据库中匹配对应的查询答案，并将所述查询答案向用户进行推送。

此外，为实现上述目的，本发明还提供一种问答系统答案匹配设备，所述问答系统答案匹配设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的问答系统答案匹配程序，所述问答系统答案匹配程序被所述处理器执行时实现如上所述的问答系统答案匹配方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有问答系统答案匹配程序，所述问答系统答案匹配程序被处理器执行时实现如上所述的问答系统答案匹配方法的步骤。

本发明提出的问答系统答案匹配方法、装置、设备及计算机可读存储介质，当接收到查询语句时，通过全切分算法对所述查询语句进行分词处理，获得所述查询语句的分词；通过神经网络语言模型对所述查询语句的分词进行量化处理，获得所述查询语句的分词的词向量；将所述查询语句的分词的词向量输入至预设数据库模型中，获得所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离；根据所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离分析所述查询语句的具体内容，从而提高了词义分析的准确性；然后根据所述查询语句的具体内容分析所述查询语句所属查询类别，并将所述查询语句分配至所述所属查询类别对应的答案数据库中；通过所述查询语句的具体内容在所述查询类别对应的答案数据库中匹配对应的查询答案，通过具体类别进行答案匹配，从而提高了答案匹配的准确性，然后将所述查询答案向用户进行推送，不需要用户通过电话、邮件等方式进行询问，从而提高了获取信息的效率，提高用户体验。

附图说明

图1为本发明问答系统答案匹配方法第一实施例的流程示意图；

图2为本发明问答系统答案匹配方法第二实施例的流程示意图；

图3为本发明问答系统答案匹配方法第三实施例的流程示意图；

图4为本发明问答系统答案匹配方法第四实施例的流程示意图；

图5是本发明实施例方案涉及的硬件运行环境的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种问答系统答案匹配方法。

参照图1，图1为本发明问答系统答案匹配方法第一实施例的流程示意图。

在本实施例中，该方法包括：

步骤S10，当接收到查询语句时，通过全切分算法对所述查询语句进行分词处理，获得所述查询语句的分词；

在本实施例中，当接收到用户输入的文本查询语句时，通过全切分算法对所述查询语句进行分词处理，获得所述查询语句的分词；具体地，首先将用户输入的文本查询语句切分出与预设词库匹配的所有可能的词，再运用统计语言模型决定最优的切分结果，首先进行词条检索(一般用Trie存储)，找到匹配的所有词条，以词网格(word lattices)形式表示，接着做路径搜索，基于统计语言模型(例如n-gram)找到最优路径，即可计算得到最优的切分结果，从而获得分词结果；

步骤S20，通过神经网络语言模型对所述查询语句的分词进行量化处理，获得所述查询语句的分词的词向量；

在获得用户输入的文本查询语句的分词之后，即可将文本查询语句的分词输入至神经网络语言模型中，通过神经网络语言模型对所述查询语句的分词进行量化处理，具体地，通过神经网络语言模型的输入层将文本查询语句的分词进行输入，即可输出文本查询语句的分词的词向量，进一步地，为了提高分词输出的词向量的准确性，可以预先对神经网络语言模型进行训练，具体地，选取与本公司业务相关的语料，然后将选取的语料输入至神经网络语言模型中进行训练，通过迭代算法(Baum-welch算法)对该神经网络语言模型的参数进行更新，并对选取的语料进行迭代训练，不断地循环迭代，直到达到先前设置的迭代次数或已经收敛，此时，可得到该神经网络语言模型的最优模型参数，即可完成神经网络语言模型的训练。

步骤S30，将所述查询语句的分词的词向量输入至预设数据库模型中，获得所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离；

具体地，在获得所述查询语句的分词的词向量之后，即可将所述查询语句的分词的词向量输入至预设数据库模型中，通过预设数据库模型计算查询语句的分词的词向量与预设数据库中的词向量的欧式距离，从而获得所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离；

进一步地，所述步骤S30包括：

词的词向量与所述预设数据库中的词向量的欧式距离的步骤包括：

将所述查询语句的分词的词向量输入至预设数据库模型中，通过公式计算查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离，其中，x_1k表示所述查询语句的分词的词向量的1k个坐标，x_2k表示所述预设数据库中的词向量的2k个坐标，d₁₂表示欧式距离。

具体地，通过公式即可计算查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离。

步骤S40，根据所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离分析所述查询语句的具体内容；

在计算得到所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离之后，将计算得到的欧式距离与预设阈值的欧式距离进行对比，获得大于预设阈值的欧式距离，然后将大于预设阈值的查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离作为分析查询语句的具体内容的目标欧式距离，具体地，提取目标欧式距离对应的预设数据库中的词向量的文本内容，并将提取到的文本内容作为查询语句的具体内容。

步骤S50，根据所述查询语句的具体内容分析所述查询语句所属查询类别，并将所述查询语句分配至所述所属查询类别对应的答案数据库中；

在获得查询语句的具体内容之后，可以对所述查询语句的具体内容进行关键词提取，然后将提取到的关键词与查询类别的标签进行对比，从而获得查询语句所属查询类别，并将所述查询语句分配至所述所属查询类别对应的答案数据库中；

步骤S60，通过所述查询语句的具体内容在所述查询类别对应的答案数据库中匹配对应的查询答案，并将所述查询答案向用户进行推送。

然后将查询语句的具体内容与对应的答案数据库中的问题进行匹配，从而获得查询语句对应的查询答案。

本实施例提出的问答系统答案匹配方法，当接收到查询语句时，通过全切分算法对所述查询语句进行分词处理，获得所述查询语句的分词；通过神经网络语言模型对所述查询语句的分词进行量化处理，获得所述查询语句的分词的词向量；将所述查询语句的分词的词向量输入至预设数据库模型中，获得所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离；根据所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离分析所述查询语句的具体内容，从而提高了词义分析的准确性；然后根据所述查询语句的具体内容分析所述查询语句所属查询类别，并将所述查询语句分配至所述所属查询类别对应的答案数据库中；通过所述查询语句的具体内容在所述查询类别对应的答案数据库中匹配对应的查询答案，通过具体类别进行答案匹配，从而提高了答案匹配的准确性，然后将所述查询答案向用户进行推送，不需要用户通过电话、邮件等方式进行询问，从而提高了获取信息的效率，提高用户体验。

进一步地，参照图2，基于本发明问答系统答案匹配方法第一实施例提出本发明问答系统答案匹配方法第二实施例。

在本实施例中，所述步骤S50之前的步骤，还包括：

步骤S70，基于查询类别的属性与答案数据库之间的映射表创建答案匹配搜索树；

步骤S80，将与所述查询类别的属性对应的查询语句及答案保存至所述答案匹配搜索树中。

在本发明实施例中，为方便用户根据答案数据库查找查询语句对应的查询答案，本发明实施例通过构建搜索树，可提高识别速度，节省系统资源。

具体的，基于查询类别的属性与答案数据库之间的映射表创建答案匹配搜索树；然后分别构建各查询类别到所述数据库之间的映射表，当然，在具体实施例中，还可以分开构建多种搜索树，例如，可以根据查询类别种类单独构建如保险查询搜索树、电话号码查询搜索树、地址查询搜索树，从而在实际应用时，如果通过分析，获知用户想查询保险时，则可以只通过保险查询搜索树进行答案匹配，可进一步提高匹配速度。

进一步地，参照图3，基于本发明问答系统答案匹配方法第一实施例提出本发明问答系统答案匹配方法第三实施例。

在本实施例中，所述步骤S10之前的步骤，还包括：

步骤S90，当接收到语音查询时，获取用户输入的第一语音数据，并对所述第一语音数据进行分割得到对应的音节，其中所述音节包括声母和韵母；

在本实施例中，用户还可以通过输入语音进行答案查询，具体地，当接收到语音查询时，获取用户输入的第一语音数据，然后对所述第一语音数据进行分割得到对应的音节，其中音节包括声母和韵母。其中，对于第一语音数据的分割方法可以基于时域特征参数的方法进行分割，时域参数包括短时平均能量E_n、短时过零率Z_n、平均能量过零数积A＝E_n*Z_n及平均能量过零数比B＝E_n/Z_n。也可以基于频域特征参数的方法进行分割，通过利用语音信号的谱特征如LPC(Linear Predictive Coding，线性预测编码)倒谱、MFCC(Mel FrequencyCepstrum Coefficient，梅尔频率倒谱系数)倒谱等，利用清、浊音频谱的能量分布及谱值幅度不同，可用判别出清、浊音，进一步得到音节分割的结果。语音数据的自动分割是汉语语音识别的关键步骤之一，通过上述基于时域特征参数或基于频域特征参数的分割方法，可将声母和韵母分隔开来，从而有利于后续的语音分析和识别。

步骤S100，通过训练好的语音识别模型对所述声母和韵母进行识别，得到对应的语音识别结果，并将所述语音识别结果转换为查询语句。

在将第一语音数据分割成声母和韵母后，通过训练好的语音识别模型对分割后的声母和韵母进行识别，得到对应的语音识别结果，并将所述语音识别结果转换为查询语句，具体的，训练好的语音识别模型对所述声母和韵母的识别过程可以为：对声母或韵母对应的语音数据进行预处理(包括预加重、加窗分帧处理、端点检测和降噪处理)，然后提取经过预处理的声母或韵母对应的语音数据的语音特征，然后根据该语音特征，通过训练好的语音识别模型进行识别，即可得到对应的语音识别结果，语音识别结果包括通过训练好的语音识别模型识别出的声母/韵母及其对应的识别概率。

进一步地，参照图4，基于本发明问答系统答案匹配方法第三实施例提出本发明问答系统答案匹配方法第四实施例。

在本实施例中，所述步骤S90之前的步骤，还包括：

步骤S110，分别采集通过不同方言和普通话朗读目标音节时的第二语音数据；

在本发明实施例中，采集多名测试者通过不同方言和普通话朗读目标音节时的第二语音数据，其中所述方言可以包括官话方言、吴方言、湘方言、客家方言、闽方言、粤方言和赣方言。当然，也可以从语音数据库中挑选适合的录音，来作为第二语音数据；或者在考虑声母和韵母覆盖率的前提下收下一些录音语料，让测试者根据这些语料录制对应的第二语音数据。

步骤S120，对所述第二语音数据进行预处理，并提取经预处理后的第二语音数据的语音特征；

然后，对第二语音数据进行预处理，其中预处理主要包括预加重、加窗分帧处理、端点检测和降噪处理四个过程。其中，预加重处理是利用信号特性和噪声特性的差别来有效地对信号进行处理，对语音的高频部分进行加重，去除口鼻辐射的影响，增加语音的高频分辨率。加窗分帧处理包括加窗和分帧，其中，一般的分帧方法为交叠分段的方法，前一帧和后一帧的交叠部分称为帧移，而分帧是采用可移动的有限长度的窗口进行加权的方法来实现的，即用一定的窗函数，从而形成加窗语音信号，其中窗函数一般采用汉明窗和矩形窗。端点检测是从一段给定的语音信号中找出语音的起始点和结束点，正确、有效的进行端点检测不仅可以减少计算量和缩短处理时间，而且还能排除无声段的噪声干扰、提高语音识别的正确率。语音降噪处理主要是通过自适应滤波器/谱减法/维纳滤波法等降噪算法来实现的，以提高性噪比。

步骤S130，根据所述语音特征，通过迭代算法计算出语音识别模型的最优模型参数，并根据所述语音识别模型的最优模型参数得到所述训练好的语音识别模型。

接着，提取经预处理后的第二语音数据的语音特征，然后根据所述语音特征，通过迭代算法计算出语音识别模型的最优模型参数，并根据所述语音识别模型的最优模型参数得到所述训练好的语音识别模型。其中，该语音识别模型是基于HMM(Hidden MarkovModel，隐马尔可夫模型)建立的，隐马尔可夫模型实质就是对第二语音数据中表征语音信息的特征进行建模，通过对第二语音数据中的语音特征进行了大量的统计而得到模型参数，而迭代算法可以采用Baum–Welch(鲍姆韦尔奇)算法，也可以采用经K均值算法改进后的Baum–Welch算法，可提高模型的准确性。具体的，语音识别模型的训练过程如下：1)基于HMM模型构建语音是被模型，并设置语音识别模型的参数初始值，参数初始值可以通过等划分状态或者根据经验估计设置；2)设置最大的迭代次数和收敛阈值；3)采用Viterbi算法(Viterbi Algorithm，维特比算法)对输入的第二语音数据进行状态的分段操作；4)通过迭代算法(Baum-welch算法)对该语音识别模型的参数进行更新，并对第二语音数据进行迭代训练，不断地循环迭代，直到达到先前设置的迭代次数或已经收敛，此时，可得到该语音识别模型的最优模型参数，进而根据该最优模型参数获得训练好的语音识别模型。

本发明实施例进一步提供一种问答系统答案匹配装置，所述装置包括：

需要说明的是，问答系统答案匹配装置的各个实施例与上述问答系统答案匹配方法的各实施例基本相同，在此不再详细赘述。

此外，本发明实施例还提供一种问答系统答案匹配设备。如图5所示，图5是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图5即可为问答系统答案匹配设备的硬件运行环境的结构示意图。本发明实施例问答系统答案匹配设备可以是PC，便携计算机等终端设备。

如图5所示，该问答系统答案匹配设备可以包括：处理器1001，例如CPU，网络接口1004，存储器1005，用户接口1003，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，问答系统答案匹配设备还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。

本领域技术人员可以理解，图5中示出的问答系统答案匹配设备结构并不构成对问答系统答案匹配设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及问答系统答案匹配程序。其中，操作系统是管理和控制问答系统答案匹配设备硬件和软件资源的程序，支持问答系统答案匹配程序以及其它软件或程序的运行。

在图5所示的问答系统答案匹配设备中，用户接口1003主要用于获取待传输数据，以及输出提示信息等，网络接口1004主要用于连接接收端，与接收端进行数据通信；处理器1001可以用于调用存储器1005中存储的问答系统答案匹配程序，并执行如上所述的问答系统答案匹配方法的步骤。

本发明问答系统答案匹配设备具体实施方式与上述问答系统答案匹配方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有问答系统答案匹配程序，所述问答系统答案匹配程序被处理器执行时实现如上所述的问答系统答案匹配方法的步骤。

本发明计算机可读存储介质具体实施方式与上述问答系统答案匹配方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种问答系统答案匹配方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的问答系统答案匹配方法，其特征在于，所述将所述查询语句的分词的词向量输入至预设数据库模型中，获得所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离的步骤包括：

3.如权利要求1所述的问答系统答案匹配方法，其特征在于，所述根据所述查询语句的具体内容分析所述查询语句所属查询类别，并将所述查询语句分配至所述所属查询类别对应的答案数据库中的步骤之前，还包括：

基于查询类别的属性与答案数据库之间的映射表创建答案匹配搜索树；

将与所述查询类别的属性对应的查询语句及答案保存至所述答案匹配搜索树中。

4.如权利要求1所述的问答系统答案匹配方法，其特征在于，所述当接收到查询语句时，通过全切分算法对所述查询语句进行分词处理，获得所述查询语句的分词的步骤之前，还包括：

当接收到语音查询时，获取用户输入的第一语音数据，并对所述第一语音数据进行分割得到对应的音节，其中所述音节包括声母和韵母；

通过训练好的语音识别模型对所述声母和韵母进行识别，得到对应的语音识别结果，并将所述语音识别结果转换为查询语句。

5.如权利要求4所述的问答系统答案匹配方法，其特征在于，所述当接收到语音查询时，获取用户输入的第一语音数据，并对所述第一语音数据进行分割得到对应的音节，其中所述音节包括声母和韵母的步骤之前，还包括：

分别采集通过不同方言和普通话朗读目标音节时的第二语音数据；

对所述第二语音数据进行预处理，并提取经预处理后的第二语音数据的语音特征；

根据所述语音特征，通过迭代算法计算出语音识别模型的最优模型参数，并根据所述语音识别模型的最优模型参数得到所述训练好的语音识别模型。

6.一种问答系统答案匹配装置，其特征在于，所述装置包括：

7.一种问答系统答案匹配设备，其特征在于，所述问答系统答案匹配设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的问答系统答案匹配程序，所述问答系统答案匹配程序被所述处理器执行时实现如下步骤：

8.如权利要求7所述的问答系统答案匹配设备，其特征在于，所述将所述查询语句的分词的词向量输入至预设数据库模型中，获得所述查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离的步骤包括：

将所述查询语句的分词的词向量输入至预设数据库模型中，通过公式计算查询语句的分词的词向量与所述预设数据库中的词向量的欧式距离，其中，x_1k表示所述查询语句的分词的词向量的1k个坐标，x_2k表示所述预设数据库中的词向量的2k个坐标，d12表示欧式距离。

9.如权利要求7所述的问答系统答案匹配设备，其特征在于，所述问答系统答案匹配程序被所述处理器执行时还实现如下步骤：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有问答系统答案匹配程序，所述问答系统答案匹配程序被处理器执行时实现如权利要求1至5中任一项所述的问答系统答案匹配方法的步骤。