CN111930911A

CN111930911A - 一种快速领域问答方法及其装置

Info

Publication number: CN111930911A
Application number: CN202010807749.2A
Authority: CN
Inventors: 李欢欢; 陈亚萍
Original assignee: Hangzhou Eastcom Software Technology Co ltd
Current assignee: Hangzhou Eastcom Software Technology Co ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-11-13
Anticipated expiration: 2040-08-12
Also published as: CN111930911B

Abstract

本发明实施例提供了一种领域问答方法及其装置，该方法包括：获取用户问题语句；提取该用户问题语句的关键词组；通过近义词典获取关键词组中的各个关键词的近义词，用每个近义词分别替换用户问题语句中对应的关键词，生成若干扩展问题语句；提取若干扩展问题语句的关键词组，根据关键词组包含的关键词、关键词所属问题子领域，确认各个扩展问题语句匹配的问题子领域；通过问答语料集，确定各个扩展问题语句匹配的问题子领域包含的各个标准问题语句，根据各个标准问题语句与各个扩展问题语句的文本相似度，确定第一标准问题；根据问答语料集，获取第一标准问题的标准问题答案，以其作为用户问题语句的答案。

Description

一种快速领域问答方法及其装置

技术领域

本发明涉及智能问答技术领域，尤其涉及一种快速领域问答方法及其装置。

背景技术

对于一些领域内的知识问答，一般都是通过技术文档或技术人员在线支持的方式进行，即通过提供可在线预览或可下载的技术文档，或者通过创建QQ群、微信群等方式和用户对接，也有一些通过邮箱或提交工单的方式进行用户的问题收集和反馈，但交互效率会比较差，一般用于bug收集和特种操作，不太适用于通常情况下的知识问答。

目前市面上也存在一些相对成熟的问答系统，比如各种常见的智能客服和智能机器人等，较常见的形式是通过递进问询的方式进行，比如先给几个选项，然后选择对应的选项后，再依次抛出选项内的问题，直到范围收敛到答案域，随即给出答案或建议等。

技术文档通常存在以下一些问题,一是检索不方便，二是答案匹配度可能不佳，且难以进行有效的筛选和排序。技术人员实时在线支持又比较耗时耗力，特别是当用户量较大时，需要的人员配备也就越多，而用户问题中又包含大量的相似问题，一定程度上加剧了人力等资源浪费。

此外，现有的一些问答系统，搭建起来难度较大，一般都需要大量的语料支持及规则模板设置，其通过训练语义理解模型或者通过多轮问询的手段去实现智能问答，需要投入较高的人力和时间，对于语料集较小或者资源不充沛的情况，难免有些许巧妇难为无米之炊的无奈。

因此，需要一种新的领域内知识问答方法。

发明内容

本发明的实施例提供了一种快速的领域问答方法和装置，是通过近义映射加排列组合的进行问题域扩展、通过问题子域占比进行匹配的问题域压缩及利用文本相似度算法进行匹配度评估，该方法不依赖大的语料集进行模型训练，也不需要定制大量的规则模板，即可实现快速的问答匹配。采用该方法和装置，可以解决了现有主流的远程备份方法中软件部署复杂、跨平台不友好、操作和配置不灵活的问题。

本发明为解决上述技术问题采用的技术方案为，一方面提供一种领域问答方法，所述方法包括：

获取用户问题语句；

提取该用户问题语句的关键词组；所述关键词组包含该用户问题语句的若干关键词；

通过近义词典获取关键词组中的各个关键词的近义词，用每个所述近义词分别替换用户问题语句中对应的关键词，生成若干扩展问题语句；所述近义词典包含关键词、关键词的近义词、关键词所属问题子领域；

提取所述若干扩展问题语句的关键词组，根据所述关键词组包含的关键词、以及关键词所属问题子领域，确认各个扩展问题语句匹配的问题子领域；

通过问答语料集，确定各个扩展问题语句匹配的问题子领域包含的各个标准问题语句，根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句，与各个扩展问题语句的文本相似度，确定第一标准问题；所述问答语料集包括若干条问答语料，每条问答语料至少包括标准问题语句、标准问题答案和问题子领域；

根据问答语料集，获取第一标准问题的标准问题答案，以其作为用户问题语句的答案。

优选地，提取该用户问题语句的关键词组，包括：

利用用户自定义字典对用户问题语句分词、去停用词，获取其关键词组。

优选地，通过近义词典获取关键词组中的各个关键词的近义词，包括：

在近义词典包含的关键词以及关键词的近义词中，查找所述关键词组中的每个关键词,获取其近义词；

优选地,根据所述关键词组包含的关键词、以及关键词所属问题子领域，确认各个扩展问题语句匹配的问题子领域,包括:

根据每个扩展问题语句的关键词组，以及关键词组包含的各关键词所属问题子领域，确定每个扩展问题语句所属的若干问题子领域、以及各问题子领域所占比重；

根据所述各问题子领域所占比重,确定每个扩展问题语句匹配的问题子领域。

具体地，根据所述各问题子领域所占比重,确定每个扩展问题语句匹配的问题子领域，包括：

对每个扩展问题语句,将其所属的各个问题子领域按其所占比重排序；

对每个扩展问题语句，将其与所述排序中次序最前的问题子领域相匹配；若所述次序最前的问题子领域超过一个，则将其与每个次序最前的问题子领域均相匹配；所述次序最前的问题子领域超过一个，包括，所述排序中居前的若干问题子领域所占比重相等，或所述排序中居前的若干问题子领域之间的比重差小于预定的数值。

优选地，根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句，与各个扩展问题语句的文本相似度，确定第一标准问题，包括：

结合杰卡德相似度算法和文本编辑距离，确认所述文本相似度。

将与各个扩展问题语句的文本相似度满足预定阈值的各个标准问题语句，按文本相似度大小进行排序，以排序最前的标准问题语句为第一标准问题。

具体地，所述领域问答方法，还包括：

若所述各个标准问题语句与扩展问题语句的文本相似度均达不到预定阈值，则结束问答。

另一方面，提供一种领域问答装置，所述装置包括：

用户问题获取单元，配置为获取用户问题语句；

关键词组提取单元，配置为提取该用户问题语句的关键词组；所述关键词组包含该用户问题语句的若干关键词；

扩展问题单元，配置为通过近义词典获取关键词组中的各个关键词的近义词，用每个所述近义词分别替换用户问题语句中对应的关键词，生成若干扩展问题语句；所述近义词典包含关键词、关键词的近义词、关键词所属问题子领域；

问题子领域匹配单元，配置为提取所述若干扩展问题语句的关键词组，根据所述关键词组包含的关键词、以及关键词所属问题子领域，确认各个扩展问题语句匹配的问题子领域；

第一标准问题确定单元，配置为通过问答语料集，确定各个扩展问题语句匹配的问题子领域包含的各个标准问题语句，根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句，与各个扩展问题语句的文本相似度，确定第一标准问题啊；所述问答语料集包括若干条问答语料，每条问答语料至少包括标准问题语句、标准问题答案和问题子领域；

用户答案确定单元，配置为根据问答语料集，获取第一标准问题的标准问题答案，以其作为用户问题语句的答案。

第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面所述的方法。

附图说明

为了更清楚说明本发明实施例的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种领域问答方法的流程图；

图2为本发明实施例提供的一种领域问答装置的结构图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如前所述，现有的用户问答方法中，一方面存在检索不方便、答案匹配度可能不佳，且难以进行有效的筛选和排序的问题。另一方面存在当用户量较大时，人工应答需要的人员配备变多，而用户问题中包含大量的相似问题，造成了人力资源的浪费的问题。第三方面存在问答系统搭建起来难度较大，通常需要大量的语料支持或规则模板设置，其训练的人力和时间成本较高，尤其在语料集较小或者资源不充沛的情况下，难以有效发挥作用。

如以某单位AI平台为例，目前已整理完备的问答对仅有不到百条，现有技术中常用有监督训练模型来训练问答模型，或是构建轮询式问答系统。但是，对于该单位AI平台，使用有监督训练模型具有如下主要问题，一是数据远远不足，二是训练样本的标注工作也会相当耗费人力。而轮询问答系统则需要先归类问题，然后制定轮询模板，其也存在人力投入和项目周期都比较大的问题。

为解决上述问题，本发明提出一种领域问答方法。图1为本发明实施例提供的一种领域问答方法的流程图，如图1所示,该问答方法的过程至少包括如下步骤：

步骤11,获取用户问题语句。

用户问题语句,是由用户提出的、并希望获得答案的问题语句。

步骤12,提取该用户问题语句的关键词组，关键词组包含该用户问题语句的若干关键词。

根据一种实施方式，可以利用用户自定义字典对用户问题语句分词、去停用词，得到关键词组。

在具体的实施例中,用户自定义字典可以是一种结合业务场景的自定义的字典，可以是对现有技术中的分词模块进行的修正，停用词可以是没有意义的词汇或干扰符号。

步骤13,通过近义词典获取关键词组中的各个关键词的近义词，用每个近义词分别替换用户问题语句中对应的关键词，生成若干扩展问题语句；近义词典可以包含关键词、关键词的近义词、关键词所属问题子领域。

该步骤中，将得到的近义词替换原用户问句中的关键词，生成新的问句，当多个关键词都查询到近义词时，会组合替换生成多个问句。再将得到的问句整合，即得到多个相近的问句，其实际上实现了问题域的扩展，使得用户问题扩展成了更多的问题。

在一个实施例中，可以在近义词典包含的关键词以及关键词的近义词中，查找所述关键词组中的每个关键词,获取其近义词。

在另一个实施例中，近义词典还包括关键词的近义词组合中每个近义词的所属问题子领域。

根据一种实施方式，近义词典可以包含三部分，分别为keyword-关键词、synonyms-近义词组(或术语词组)、subtype-问题子类别(子域)。在一个例子中，QA语料集包含的三部分可以每条语料可以包括的三个字段。在一个例子中，近义词组包含于关键词含义近似的词、词组；在另一个例子中，近义词组还包括术语(词、词组)的别称、简称、全称。

根据另一种实施方式，对步骤12得到的关键词组，可以逐个进行近义词查询，因为所述关键词组中的关键词，在近义词典中可能是keyword或者为keyword对应的synonyms，因此该查询为双向查询，即根据keyword查synonyms，或由synonyms查keyword，其中，无论是keyword或synonyms，每个词都携带所属问题子域信息。

步骤14,提取各个扩展问题语句的关键词组，根据关键词组包含的关键词、以及关键词所属问题子领域，确认各个扩展问题语句匹配的问题子领域。

在一个实施例中，可以根据每个扩展问题语句的关键词组，以及关键词组包含的各关键词所属问题子领域，确定每个扩展问题语句所属的若干问题子领域、以及各问题子领域所占比重。在一个具体的实施例中，逐个对每个问句的关键词所属的子领域进行计数和占比统计。

然后，根据所述各问题子领域所占比重,确定每个扩展问题语句匹配的问题子领域。

根据一种具体的实施方式，可以对每个扩展问题语句,将其所属的各个问题子领域按其所占比重排序；对每个扩展问题语句，将其与所述排序中次序最前的问题子领域相匹配，也就是说，将各个扩展问题语句与所属各子领域中占比重最高的问题子领域相匹配；若次序最前的问题子领域超过一个，则将其与每个次序最前的问题子领域均相匹配。

在一个例子中，次序最前的问题子领域超过一个，可以是排序中居前的若干问题子领域所占比重相等。在另一个例子中，次序最前的问题子领域超过一个，也可以是排序中居前的若干问题子领域之间的比重差小于预定的数值。

在一个实施例中，对上一步得到的多个问句，使用其分词去停用词后的转态。

该步骤中，对每个问句的子领域按占比排序；针对每个问句，将匹配空间锁定到占比最高的子领域，当前n个子领域的占比相等或极为接近时，这n个子领域均需锁定到匹配空间。这样就实现了匹配空间的压缩，一是提升了效率，同时避免了全局匹配带来的干扰和误差。

步骤15,通过问答语料集，确定各个扩展问题语句匹配的问题子领域包含的各个标准问题语句，根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句，与各个扩展问题语句的文本相似度，确定第一标准问题；所述问答语料集包括若干条问答语料，每条问答语料至少包括标准问题语句、标准问题答案和问题子领域。

根据一种实施方式，可以结合杰卡德相似度算法和文本编辑距离，确认文本相似度。

在一个实施例中，可以将与各个扩展问题语句的文本相似度满足预定阈值的各个标准问题语句，按文本相似度大小进行排序，以排序最前的标准问题语句为第一标准问题。

在另一个实施例中，若各个标准问题语句与扩展问题语句的文本相似度均达不到预定阈值，则结束问答。

在一个具体的实施例中，可以针对步骤12得到的每一个问句，在步骤14压缩后的空间内，将问句和标准问句利用杰卡德相似度算法和编辑距离综合进行相似度评估；将相似度满足阈值的按相似度大小进行排序；若最高相似度满足阈值，取最高相似度的标准问句，映射得到标准答案。若最高相似度达不到阈值，则返回给用户相关的固定提示。

步骤16,根据问答语料集，获取第一标准问题的标准问题答案，以其作为用户问题语句的答案。

到此，一轮问答对话即已经完成。

根据本发明另一方面的实施例，提供了一种领域问答装置，该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。图2为本发明实施例提供的一种领域问答装置的结构图，如图2所示，该装置200包括：

用户问题获取单元21，配置为获取用户问题语句；

关键词组提取单元22，配置为提取该用户问题语句的关键词组；所述关键词组包含该用户问题语句的若干关键词；

扩展问题单元23，配置为通过近义词典获取关键词组中的各个关键词的近义词，用每个所述近义词分别替换用户问题语句中对应的关键词，生成若干扩展问题语句；所述近义词典包含关键词、关键词的近义词、关键词所属问题子领域；

问题子领域匹配单元24，配置为提取所述若干扩展问题语句的关键词组，根据所述关键词组包含的关键词、以及关键词所属问题子领域，确认各个扩展问题语句匹配的问题子领域；

第一标准问题确定单元25，配置为通过问答语料集，确定各个扩展问题语句匹配的问题子领域包含的各个标准问题语句，根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句，与各个扩展问题语句的文本相似度，确定第一标准问题啊；所述问答语料集包括若干条问答语料，每条问答语料至少包括标准问题语句、标准问题答案和问题子领域；

用户答案确定单元26，配置为根据问答语料集，获取第一标准问题的标准问题答案，以其作为用户问题语句的答案。

根据又一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图1所描述的方法。

从以上实施例可以看出，采用本发明实施例提供的一种远程文件备份方法及其装置，具有如下的优点：

1)对语料集的要求低，也无需定制规则模板，前期准备工作量少，可以快速实现依照该方法的问答匹配系统的搭建。

2)该方法的限制条件少，语料变更或更新也不需要重新训练模型，亦不需要基于新的语料开发规则模板，可以依照该方法的问答匹配系统可以实现语料热更新等。

3)常规的关键词检索系统难以进行相关度筛选和排序，该方法利用文本相似度算法进行相似度评估后，可以给出答案的最匹配解。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种领域问答方法，所述方法包括：

获取用户问题语句；

2.根据权利要求1所述的方法，其中，提取该用户问题语句的关键词组，包括：

3.根据权利要求1所述的方法，通过近义词典获取关键词组中的各个关键词的近义词，包括：

在近义词典包含的关键词以及关键词的近义词中，查找所述关键词组中的每个关键词,获取其近义词。

4.根据权利要求1所述的方法，其中,根据所述关键词组包含的关键词、以及关键词所属问题子领域，确认各个扩展问题语句匹配的问题子领域,包括:

5.根据权利要求4所述的方法，其中，根据所述各问题子领域所占比重,确定每个扩展问题语句匹配的问题子领域，包括：

6.根据权利要1所述的方法，其中，根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句，与各个扩展问题语句的文本相似度，确定第一标准问题，包括：

7.根据权利要求1所述的方法，其中，根据各个扩展问题语句匹配的问题子领域包含的各个标准问题语句，与各个扩展问题语句的文本相似度，确定第一标准问题，包括：

8.根据权利要求7所述的方法，还包括：

9.一种领域问答装置，所述装置包括：

用户问题获取单元，配置为获取用户问题语句；

10.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。