CN112487165A

CN112487165A - 一种基于关键词的问答方法、装置及介质

Info

Publication number: CN112487165A
Application number: CN202011389975.XA
Authority: CN
Inventors: 尤翔远; 周玉立; 王刚; 刘俊杰; 沈懿忱
Original assignee: Servyou Software Group Co ltd
Current assignee: Servyou Software Group Co ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-12

Abstract

本申请公开了一种基于关键词的问答方法、装置及介质，其中，该方法包括：获取线上语料，提取线上语料中的关键词，从所得到的关键词中筛选出与训练语料匹配的目标关键词，并将目标关键词与训练语料共同输入至语料训练模型中，基于该模型的输出结果调整该模型的参数以得到语义理解模型。在得到语义理解模型后，根据用户问得到与用户问对应的标准问，从而输出与标准问对应的答案，完成问答模式。由此可见，由于目标关键词作为辅助，与训练语料一并作为输入样本，从而提高了训练语料中与关键词匹配的信息的权重，主动提高语义理解模型对关键词的注意力，准确识别出相近的用户问，故能够输出更加准确地答案，提高了用户体验感。

Description

一种基于关键词的问答方法、装置及介质

技术领域

本申请涉及智能问答技术领域，特别是涉及一种基于关键词的问答方法、装置及介质。

背景技术

智能问答模式的兴起，极大的解放了人工问答，不能节约人力成本，而且易于维护，在多种领域得到广泛应用，例如，税务领域。

语义理解模型实际上是表征用户问(也称之为语料)与标准问(也称之为标签)存在的特定关系，该模型通常是基于搜集到的语料经语料训练模型(深度学习模型)训练后得到，例如，将用户问(输入对象)输入至语料训练模型中，从而得到标准问(输出结果)。当前，语料训练模型的训练过程中，仅以搜集到的语料作为训练样本，而未区分语料中不同字词对于输出结果的影响，导致无法区分包含有相近字词的语料，使得输出结果准确率较低。例如，两条用户问分别为：“个税汇算清缴怎么报？”和“个税汇算清缴自行申报怎么报？”，在输出结果准确的情况下，应该分别对应到不同的标准问“个税年终汇算清缴如何操作”和“个税年度自行申报流程”，但是根据当前的语义理解模型，其无法识别出上述两条用户问的区别，所以只能给出同一个标准问。

目前，为了克服上述问题，通常采用投入更多的语料进行训练，但是该方式效果甚微，并且容易导致模型混淆，反而降低了模型的准确率，导致用户体验差。

发明内容

本申请的目的是提供一种基于关键词的问答方法、装置及介质，用于提高语义理解模型输出结果的准确性，提高用户体验感。

为解决上述技术问题，本申请提供一种基于关键词的问答方法，包括：

获取线上语料；

提取所述线上语料中影响语料训练模型的输出结果的关键词；

从所得到的所述关键词中筛选出与训练语料匹配的目标关键词，并将所述目标关键词与所述训练语料共同作为训练样本输入至语料训练模型中；

基于所述语料训练模型的输出结果调整所述语料训练模型的参数以得到语义理解模型；

在获取到用户问的情况下，将所述用户问输入至所述语义理解模型中以得到与所述用户问对应的标准问；

输出与所述标准问对应的答案。

优选地，所述提取所述线上语料中影响语料训练模型的输出结果的关键词包括：

对所述线上语料进行预处理以剔除无用信息；

获取处理后的语料的凝聚度；

通过所述凝聚度得到信息熵从而确定所述关键词。

优选地，还包括：

通过逆文档频率计算所述关键词与所属领域的相关性；

将所述相关性不大于阈值的所述关键词剔除，并将所述相关性大于所述阈值的所述关键词保留。

优选地，还包括：

依据过滤指令从所得到的所述关键词中删除指定的关键词；

依据添加指令将指定的字词增加至所得到的所述关键词中。

优选地，在所述将所述目标关键词与所述训练语料共同作为训练样本输入至语料训练模型中之前，还包括：

去除所述训练语料中的停用词。

优选地，确定所述目标关键词包括：

利用正则表达式从所述关键词中筛选出所述目标关键词。

优选地，所述基于所述语料训练模型的输出结果调整所述语料训练模型的参数以得到语义理解模型包括：

确定所述语料训练模型的损失值；

通过反向传播算法进行学习以得到所述语义理解模型。

为解决上述技术问题，本申请提供一种基于关键词的问答装置，其特征在于，包括：

第一获取模块，用于获取线上语料；

提取模块，用于提取所述线上语料中影响语料训练模型的输出结果的关键词；

输入模块，用于从所得到的所述关键词中筛选出与训练语料匹配的目标关键词，并将所述目标关键词与所述训练语料共同作为训练样本输入至语料训练模型中；

调整模块，用于基于所述语料训练模型的输出结果调整所述语料训练模型的参数以得到语义理解模型；

第二获取模块，用于在获取到用户问的情况下，将所述用户问输入至所述语义理解模型中以得到与所述用户问对应的标准问；

输出模块，用于输出与所述标准问对应的答案。

为解决上述技术问题，本申请提供一种基于关键词的问答装置，包括存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如所述的基于关键词的问答方法的步骤。

为解决上述技术问题，本申请提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如所述的基于关键词的问答方法的步骤。

本申请所提供的基于关键词的问答方法包括：获取线上语料，提取线上语料中的关键词，从所得到的关键词中筛选出与训练语料匹配的目标关键词，并将目标关键词与训练语料共同输入至语料训练模型中，基于该模型的输出结果调整该模型的参数以得到语义理解模型。在得到语义理解模型后，根据用户问得到与用户问对应的标准问，从而输出与标准问对应的答案，完成问答模式。由此可见，由于目标关键词作为辅助，与训练语料一并作为输入样本，从而提高了训练语料中与关键词匹配的信息的权重，主动提高语义理解模型对关键词的注意力，准确识别出相近的用户问，故能够输出更加准确地答案，提高了用户体验感。

此外，本申请所提供的基于关键词的问答装置及介质，与上述方法对应，效果同上。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于关键词的问答方法的流程图；

图2为本申请实施例提供的一种基于关键词的问答装置的结构图；

图3为本申请另一实施例提供的基于关键词的问答装置的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

本申请的核心是提供一种基于关键词的问答方法、装置及介质。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

图1为本申请实施例提供的一种基于关键词的问答方法的流程图。如图1所示，该方法包括：

S10：获取线上语料。

需要说明的是，本申请中提到的线上语料可以来自历史问答对应的语料，也可以从相关文章中获取，可以理解的是，需要对这些语料进行标注。

S11：提取线上语料中影响语料训练模型的输出结果的关键词。

由于线上语料中包含有大量无用数据，为了降低对训练模型的输出结果的影响，需要从其中提取关键词。本步骤提到的关键词的数量不作限定，可以是单个字，也可以是词语。

作为优选地实施方式，提取线上语料中影响语料训练模型的输出结果的关键词包括：

对线上语料进行预处理以剔除无用信息；

获取处理后的语料的凝聚度；

通过凝聚度得到信息熵从而确定关键词。

在具体实施中，预处理主要包括对已标注的语料去除html标签，表情等无关字符。将一些通用信息替换为统一字符，例如，对于税务方面的语料来说，通用信息可以为税号，时间，地点，用正则以及实体识别技术替换成统一特殊字符，比如[tax]，[time]，[location]。这样做的目的是为了减少无关字符或者是具体但是无用的信息影响模型的效果。

需要说明的是，本申请中提到的语料的凝聚度的计算为现有技术，本申请不再赘述。由凝聚度得到信息熵具体通过如下公式实现：

其中，w为单个词语，w_n为当前w的某个邻词，W_neighbor为w的所有邻词。

信息熵是表征特定信息出现的频率，在本文中就表示关键词出现的频率，通过所得到的信息熵，筛选出符合要求的关键词。

S12：从所得到的关键词中筛选出与训练语料匹配的目标关键词，并将目标关键词与训练语料共同作为训练样本输入至语料训练模型中。

本步骤中的训练语料可以与上文中的线上语料相同，也可以不同，对于一条训练语料来说，可能与所得到的关键词中的某个或某几个关键词匹配，此处的匹配是绝对匹配，例如一条训练语料中包含“个税汇算清缴自行申报怎么报”，关键词中的包含“自行申报”，那么“自行申报”对于该条训练语料就是目标关键词。如果按照现有的训练方法，直接将该条训练语料输入至语料训练模型中，本申请中是将目标关键词拼接到该条训练语料后共同作为输入样本输入至语料训练模型中。在具体实施中，确定目标关键词包括：利用正则表达式从关键词中筛选出目标关键词。

本申请中提到的语料训练模型可以是BERT模型，也可以是卷积神经网络模型(CNN模型)或循环神经网络模型(RNN模型)。BERT模型比较适合解决输入长度不太长的自然语言处理(NLP)任务，故适用于单轮问答模式中，例如，应用于税务系统中。作为优选地实施方式，语料训练模型为BERT模型。下文中以BERT模型为例说明。

本文的训练模型以BERT模型为基础，后接两层的多层感知机(MLP)作为简单的特征转换以及输出结果转换。当输入样本输入至BERT模型中后，将其结果作为分类任务的输入，最后通过Softmax将MLP的输出归一化，作为每一个标准问的概率输出。其中，Softmax在机器学习和深度学习中有着非常广泛的应用。尤其在处理多分类(C>2)问题，分类器最后的输出单元需要Softmax函数进行数值处理。关于Softmax函数的定义如下所示：

其中，s_k(x)为分类器前级输出单元的输出，k为类别的总个数，j为类别索引，p_k表示的是当前元素的指数与所有元素指数和的比值。

S13：基于语料训练模型的输出结果调整语料训练模型的参数以得到语义理解模型。

再训练过程中，需要不断调整语料训练模型的参数，具体是确定语料训练模型的损失值，再通过反向传播算法进行学习以得到语义理解模型。在具体实施中，损失值可以根据交叉熵计算得到。

步骤S10-S13是语义理解模型的构建过程，在得到语义理解模型后，需要将其应用于实际问答中。

S14：在获取到用户问的情况下，将用户问输入至语义理解模型中以得到与用户问对应的标准问。

在具体实施中，不同的用户在提问时的问题各有不同，即使想问同一个问题，表达方式也不同，所以需要通过语义理解模型将非标准的用户问得到标准问。

S15：输出与标准问对应的答案。

在问答模式下，当获取到用户问的情况下，需要对用户进行回应，即本文提到的答案。需要说明的是，标准问与答案的对应关系需要预先建立，并存储。

本实施例提供的基于关键词的问答方法，包括：获取线上语料，提取线上语料中影响语料训练模型的输出结果的关键词，从所得到的关键词中筛选出与训练语料匹配的目标关键词，并将目标关键词与训练语料共同作为训练样本输入至语料训练模型中，基于语料训练模型的输出结果调整语料训练模型的参数以得到语义理解模型。在得到语义理解模型后，根据用户问得到与用户问对应的标准问，从而输出与标准问对应的答案，完成问答模式。由此可见，由于目标关键词作为辅助，与训练语料一并作为输入样本，从而提高了训练语料中与关键词匹配的信息的权重，主动提高语义理解模型对关键词的注意力，准确识别出相近的用户问，故能够输出更加准确地答案，提高了用户体验感。

在上述实施例的基础上，还包括：

通过逆文档频率计算关键词与所属领域的相关性；

将相关性不大于阈值的关键词剔除，并将相关性大于阈值的关键词保留。

在具体实施中，步骤S11中所得到的关键词中可能存在一些与所属领域不相关的关键词，从而造成关键词数量较大，给后续的计算过程带来较大压力，也影响语义理解模型的输出结果的准确性。

本实施例中，通过计算与所属领域的相关性，从而剔除部分关键词，实现将关键词的筛选，保证召回率。此外，由于采用逆文档频率计算关键词与所属领域的相关性，所以相比于人工筛选来说，速度更快，节约了人工成本。

在上述实施例的基础上，还包括：

依据过滤指令从所得到的关键词中删除指定的关键词；

依据添加指令将指定的字词增加至所得到的关键词中。

在具体实施中，一些无关的词汇如果被当作关键词处理，模型的注意力可能会被影响，为了更加准确地得到有用关键词，还可以依赖人工的参与，具体的，可以删除和增加关键词，以此保证辅助输入更准确。

在上述实施例的基础上，在将目标关键词与训练语料共同作为训练样本输入至语料训练模型中之前，还包括：

去除训练语料中的停用词。

由于训练语料中是搜集用户问所得到的，故该语料中会包含有大量停用词，训练之前先去停用词，比如，“你好”，“请问”，这些无关紧要的词语，从而减少模型学习的压力。需要说明的是，本实施例中提到的停用词的类型不做限定。

在上述实施例中，对于基于关键词的问答方法进行了详细描述，本申请还提供基于关键词的问答装置对应的实施例。需要说明的是，本申请从两个角度对装置部分的实施例进行描述，一种是基于功能模块的角度，另一种是基于硬件结构的角度。

图2为本申请实施例提供的一种基于关键词的问答装置的结构图。如图2所示，该方法包括：

第一获取模块10，用于获取线上语料；

提取模块11，用于提取线上语料中影响语料训练模型的输出结果的关键词；

输入模块12，用于从所得到的关键词中筛选出与训练语料匹配的目标关键词，并将目标关键词与训练语料共同作为训练样本输入至语料训练模型中；

调整模块13，用于基于语料训练模型的输出结果调整语料训练模型的参数以得到语义理解模型；

第二获取模块14，用于在获取到用户问的情况下，将用户问输入至语义理解模型中以得到与用户问对应的标准问；

输出模块15，用于输出与标准问对应的答案。

作为优选地实施方式，基于关键词的问答装置还包括：

计算模块，用于通过逆文档频率计算所述关键词与所属领域的相关性；

剔除模块，用于将所述相关性不大于阈值的所述关键词剔除，并将所述相关性大于所述阈值的所述关键词保留。

作为优选地实施方式，基于关键词的问答装置还包括：

更新模块，用于依据过滤指令从所得到的所述关键词中删除指定的关键词；依据添加指令将指定的字词增加至所得到的所述关键词中。

作为优选地实施方式，基于关键词的问答装置还包括：

去除模块，用于在所述将所述目标关键词与所述训练语料共同作为训练样本输入至语料训练模型中之前，去除所述训练语料中的停用词。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本实施例提供的基于关键词的问答装置，包括：第一获取模块，用于获取线上语料；提取模块，用于提取线上语料中影响语料训练模型的输出结果的关键词；输入模块，用于从所得到的关键词中筛选出与训练语料匹配的目标关键词，并将目标关键词与训练语料共同作为训练样本输入至语料训练模型中；调整模块，用于基于语料训练模型的输出结果调整语料训练模型的参数以得到语义理解模型；第二获取模块，用于在获取到用户问的情况下，将用户问输入至语义理解模型中以得到与用户问对应的标准问；输出模块，用于输出与标准问对应的答案。由此可见，由于目标关键词作为辅助，与训练语料一并作为输入样本，从而提高了训练语料中与关键词匹配的信息的权重，主动提高语义理解模型对关键词的注意力，准确识别出相近的用户问，故能够输出更加准确地答案，提高了用户体验感。

图3为本申请另一实施例提供的基于关键词的问答装置的结构图，如图3所示，基于关键词的问答装置包括：存储器20，用于存储计算机程序；

处理器21，用于执行计算机程序时实现如上述实施例所提到的基于关键词的问答装置方法的步骤。

本实施例提供的基于关键词的问答装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的基于关键词的问答方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于线上语料和训练语料等。

在一些实施例中，基于关键词的问答装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图3中示出的结构并不构成对基于关键词的问答装置的限定，可以包括比图示更多或更少的组件。

本申请实施例提供的基于关键词的问答装置，包括存储器和处理器，处理器在执行存储器存储的程序时，能够实现如下方法：获取线上语料，提取线上语料中影响语料训练模型的输出结果的关键词，从所得到的关键词中筛选出与训练语料匹配的目标关键词，并将目标关键词与训练语料共同作为训练样本输入至语料训练模型中，基于语料训练模型的输出结果调整语料训练模型的参数以得到语义理解模型。在得到语义理解模型后，根据用户问得到与用户问对应的标准问，从而输出与标准问对应的答案，完成问答模式。由此可见，由于目标关键词作为辅助，与训练语料一并作为输入样本，从而提高了训练语料中与关键词匹配的信息的权重，主动提高语义理解模型对关键词的注意力，准确识别出相近的用户问，故能够输出更加准确地答案，提高了用户体验感。

最后，本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的基于关键词的问答方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于关键词的问答方法，其特征在于，包括：

获取线上语料；

输出与所述标准问对应的答案。

2.根据权利要求1所述的方法，其特征在于，所述提取所述线上语料中影响语料训练模型的输出结果的关键词包括：

对所述线上语料进行预处理以剔除无用信息；

获取处理后的语料的凝聚度；

通过所述凝聚度得到信息熵从而确定所述关键词。

3.根据权利要求2所述的方法，其特征在于，还包括：

通过逆文档频率计算所述关键词与所属领域的相关性；

4.根据权利要求1至3任意一项所述的方法，其特征在于，还包括：

依据过滤指令从所得到的所述关键词中删除指定的关键词；

依据添加指令将指定的字词增加至所得到的所述关键词中。

5.根据权利要求1所述的方法，其特征在于，在所述将所述目标关键词与所述训练语料共同作为训练样本输入至语料训练模型中之前，还包括：

去除所述训练语料中的停用词。

6.根据权利要求1所述的方法，其特征在于，确定所述目标关键词包括：

利用正则表达式从所述关键词中筛选出所述目标关键词。

7.根据权利要求1所述的方法，其特征在于，所述基于所述语料训练模型的输出结果调整所述语料训练模型的参数以得到语义理解模型包括：

确定所述语料训练模型的损失值；

通过反向传播算法进行学习以得到所述语义理解模型。

8.一种基于关键词的问答装置，其特征在于，包括：

第一获取模块，用于获取线上语料；

输出模块，用于输出与所述标准问对应的答案。

9.一种基于关键词的问答装置，其特征在于，包括存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的基于关键词的问答方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于关键词的问答方法的步骤。