CN112231448A

CN112231448A - 一种文档智能问答方法和装置

Info

Publication number: CN112231448A
Application number: CN202011425520.9A
Authority: CN
Inventors: 王清琛; 孟凡华; 杜振东; 程云; 刘聪; 茆传羽; 张洪磊
Original assignee: Nanjing Yunwen Network Technology Co ltd
Current assignee: Nanjing Yunwen Network Technology Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-01-15

Abstract

本发明提出了一种文档智能问答方法和装置，所述方法包括：步骤1，对文档集合进行分割，生成段落集；步骤2，接收查询语句；步骤3，根据所述查询语句，对所述段落集进行粗筛选，获取粗选段落集；步骤4，根据所述查询语句，对所述粗选段落集进行细筛选，获取细选段落集；步骤5，根据所述查询语句，对所述细选段落集中每个段落进行首尾位置预测，找到与所述查询语句相对应的答案；步骤6，结合所述细选段落集中每个段落分别在步骤3、步骤4和步骤5中的得分，对所述细选段落集中每个段落进行综合排序，获取最优段落和对应答案。本发明减少了人工维护知识库的成本，并且可以快速进行查询语句的检索。

Description

一种文档智能问答方法和装置

技术领域

本发明涉及计算机信息技术领域，具体而言，涉及一种文档智能问答方法和装置。

背景技术

文档智能问答，简单地讲，就是从具有海量文档的数据库中，寻找到用户问题所对应的答案。文档智能问答可以解决的业务场景主要集中在企业文档更新频繁、文档量大的企业业务上，该类业务利用传统的整理拆解工作量大，文档信息繁杂，人工整理的难度较高。例如保险行业，有着大量的保单资料、险种说明文档、理赔手册、国家政策等，再比如科技公司的产品说明、高校的论文课件、律师事务所、电力、金融服务公司、设计院、物流、电商等等。

传统的基于知识库的文档智能问答系统需要提前进行人工提取问题-答案对，然后构建问答知识库，再通过检索的方法从知识库中找寻出用户问题所对应的答案，然而维护知识库往往需要较大时间成本和经济成本。

发明内容

鉴于上述问题，本发明提供了一种文档智能问答方法和装置，降低知识库维护成本的问题。

为解决上述技术问题，本发明采用的技术方案是：一种文档智能问答方法，包括：

步骤1，对文档集合进行分割，生成段落集；

步骤2，接收查询语句；

步骤3，根据所述查询语句，对所述段落集进行粗筛选，获取粗选段落集；

步骤4，根据所述查询语句，对所述粗选段落集进行细筛选，获取细选段落集；

步骤5，根据所述查询语句，对所述细选段落集中每个段落进行首尾位置预测，找到与所述查询语句相对应的答案；

步骤6，结合所述细选段落集中每个段落分别在步骤3、步骤4和步骤5中的得分，对所述细选段落集中每个段落进行综合排序，获取最优段落和对应答案。

作为优选方案，所述对文档集合进行分割，包括：将文档集合中的每篇文档按标点符号分割成多个句子；按照固定长度将多个句子合并成段落，且多个句子的总长度小于固定长度；在段落前增加文档题目和段落题目。

作为优选方案，对所述段落集进行粗筛选，包括：通过BM25算法计算所述段落集中每个段落与查询语句的相关性，获取段落相关性分数并进行排序，筛选出排序靠前的段落构建粗选段落集。

作为优选方案，所述段落相关性分数的计算公式如下所示：

其中， pi为段落集P中的一个段落， n为查询语句中词的个数， qj为查询语句中第j个词， Wj为查询语句中词的权重，R(qj,pi)为词与段落pi的相关性分数；

其中，N表示段落集P中段落的总个数，df_j表示包含词汇q_j的段落的个数；

其中，k₁、k₂和b是调协因子，分别设为2，1，0.75，f_j表示查询语句Q中q_j词汇在段落中出现的次数，q表示q_j词汇在查询语句Q中出现的次数，dl为段落的长度,avg_dl为段落集P中所有段落的平均长度。

作为优选方案，所述对所述粗选段落集进行细筛选，包括：利用RoBerta-Search模型获取所述粗选段落集中每个段落与查询语句的匹配表征，再结合softmax函数对每个匹配表征进行打分，所述对每个匹配表征进行打分的计算公式如下所示：

其中，E_i是查询语句与段落pi的匹配表征，W和b分别为权重和偏置，m_i表示查询语句与段落pi的匹配表征的分数，

为段落pi分数的自然数指数，

为所有段落分数的自然数指数之和。

作为优选方案，所述对所述细选段落集中每个段落进行首尾位置预测，找到与所述查询语句相对应的答案，包括：利用RoBerta-MRC模型获取所述细选段落集中每个段落与查询语句的匹配表征，再结合softmax函数对每个匹配表征进行打分，计算公式如下所示：

其中，E_pi为查询语句与细选段落集中每个段落pi的匹配表征，W_start和b_start分别为答案起始位置的权重和偏置，m_start为段落pi每个字对应的分数，score_start为最佳答案起始位置的分数；W_end和b_end分别为答案结束位置的权重和偏置，m_end为段落pi每个字对应的分数，score_end为最佳答案结束位置的分数；score为答案的最终分数。

作为优选方案，所述细选段落集中每个段落分别在步骤3、步骤4和步骤5中的得分的计算公式如下所示：

最终得分=步骤3得分*0.1+步骤4得分*0.5+步骤5得分*0.4。

作为优选方案，所述文档集合的文档格式为PDF时，使用pdfbox将其转化成纯文本格式，然后使用poi工具读取文档内容。

本发明还提供了一种智能问答装置，包括：段落集生成模块，用于对文档集合进行分割，生成段落集；语句接收模块，用于接收查询语句；粗选段落集获取模块，用于根据所述查询语句，对所述段落集进行粗筛选，获取粗选段落集；细选段落集获取模块，根据所述查询语句，对所述粗选段落集进行细筛选，获取细选段落集；答案预测模块，用于根据所述查询语句，对所述细选段落集中每个段落进行首尾位置预测，找到与所述查询语句相对应的答案；最优段落获取模块，用于结合所述细选段落集中每个段落分别在粗选段落集获取模块、细选段落集获取模块和答案预测模块中的得分，对所述细选段落集中每个段落进行综合排序，获取最优段落和对应答案。

与现有技术相比，本发明的有益效果包括：通过检索的方法直接从文档集合中找出与查询语句最相关的段落，并在段落中定位答案所在的区域，减少了人工维护知识库的成本，并且可以快速进行查询语句的检索。

附图说明

参照附图来说明本发明的公开内容。应当了解，附图仅仅用于说明目的，而并非意在对本发明的保护范围构成限制。在附图中，相同的附图标记用于指代相同的部件。其中：

图1为本发明实施例的文档智能问答方法的实际演示图；

图2为本发明实施例的文档智能问答方法的流程示意图；

图3为本发明实施例的智能问答装置的结构示意图。

具体实施方式

容易理解，根据本发明的技术方案，在不变更本发明实质精神下，本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

应理解，在进行智能问答之前，需要通过大量数据对阅读理解模型进行训练。本实施例中，采用军工和设计院两个领域的标注数据对阅读理解模型进行训练，每条标注数据均包括一个查询语句，五篇与查询语句对应的文档，而且配有与查询语句对应的答案，并标注答案在文档中的位置。

当然也可以采用保险行业、高校、律师事务所、电力、金融服务公司等领域的说明书、规章制度等进行训练，如下表所示：

产品说明书	各类产品（电商、软件、硬件）的说明书、操作手册等
		国标文件	设计院文档、国家规范制度
保险保单	责任免除、销售时间、保险责任、保额说明、投保规则
		理财说明	准入条件、准出条件、收益说明、手续费
法律政策	法律文书、社保、户政
		公司规章	考勤、薪资、员工手册

由于采用多种领域的数据进行训练，使得该模型具有一定的泛化能力，因此，在面对其他领域数据时，也可以保证较高的准确率，可用性好。

如图1所示，将现有的文档集合和查询语句载入阅读理解模型，阅读理解模型从文档集合中自动检索出与查询语句最相关的段落，并对该段落中的答案进行高亮显示。

根据本发明的一实施方式结合图2示出。一种文档智能问答方法，包括如下步骤：

步骤S101，对文档集合D进行分割，生成段落集P。对现有文档集合D进行分割，包括：按照固定长度L对文档集合D进行分割，每篇文档di被分割成多个段落pi，构建成段落集P。其中，每个段落pi包括文档题目、段落题目和文档正文。

分割时，首先按句号、问号、感叹号等标点符号将文档集合D分割成多个句子，然后按照固定长度L将句子合并成段落，且多个句子的总长度小于固定长度L，最后在段落前增加文档题目和段落题目构成检索使用的真实段落。

当文档集合D的文档格式可以为PDF、word、txt，当文档格式为PDF时，使用pdfbox将其转化成纯文本格式，然后使用poi工具读取文档内容。

步骤S102，接收查询语句Q。

步骤S103，根据查询语句Q，对段落集P进行粗筛选，获取粗选段落集P30。

具体的，对段落集P进行粗筛选，包括：通过BM25算法计算段落集P中每个段落pi与查询语句Q的相关性，获取段落相关性分数并进行排序，筛选出排序靠前的段落，构建粗选段落集P30。例如，筛选出与查询语句Q最相关的前30个段落构建粗选段落集P30。

段落相关性分数的计算公式如下所示：

其中， pi为段落集P中的一个段落， n为查询语句Q中词的个数， q_j为查询语句Q中第j个词， W_j为查询语句Q中词的权重，R(q_j,pi)为词与段落pi的相关性分数；

其中，k₁、k₂和b是调协因子，一般分别设为2，1，0.75，f_j表示查询语句Q中q_j词汇在段落中出现的次数，q表示q_j词汇在查询语句Q中出现的次数，dl为段落的长度,avg_dl为段落集P中所有段落的平均长度。

步骤S104，根据查询语句Q，对粗选段落集P30进行细筛选，获取细选段落集P5。具体的，对粗选段落集P30进行细筛选，包括：

利用RoBerta-Search模型获取粗选段落集P30中每个段落pi与查询语句Q的匹配表征E_i，再结合softmax函数对30个匹配表征E_i进行打分并排序。例如：从粗选段落集P30中筛选出与查询语句Q最相关的前5个段落构建细选段落集P5。

对每个匹配表征E_i进行打分的计算公式如下所示：

为段落pi分数的自然数指数，

为所有段落分数的自然数指数之和。

步骤S105，根据查询语句Q，对细选段落集P5中每个段落pi进行首尾位置预测，找到与查询语句Q相对应的答案。

具体的，对细选段落集P5中每个段落pi进行首尾位置预测，找到与查询语句Q相对应的答案，包括：利用RoBerta-MRC模型获取细选段落集P5中每个段落pi与查询语句Q的匹配表征E_pi，再结合softmax函数对5个匹配表征E_pi进行打分，从每个段落pi中找到与查询语句Q相对应的答案。计算公式如下所示：

其中，E_pi为查询语句Q与细选段落集P中每个段落pi的匹配表征，W_start和b_start分别为答案起始位置的权重和偏置，m_start为段落pi每个字对应的分数，score_start为最佳答案起始位置的分数；W_end和b_end分别为答案结束位置的权重和偏置，m_end为段落pi每个字对应的分数，score_end为最佳答案结束位置的分数；score为答案的最终分数。

步骤S106，结合细选段落集P5中每个段落pi分别在步骤S103、步骤S104和步骤S105中的得分，对细选段落集P5中每个段落pi进行综合排序，获取最优段落和对应答案，即分数最高的段落为最优段落。

细选段落集P5中每个段落pi分别在步骤S103、步骤S104和步骤S105中的得分的计算公式如下所示：

最终得分=步骤S103得分*0.1+步骤S104得分*0.5+步骤S105得分*0.4。

如图3所示，本发明还提供了一种智能问答装置，包括：

段落集生成模块101，用于对文档集合D进行分割，生成段落集P；

语句接收模块102，用于接收查询语句Q；

粗选段落集获取模块103，用于根据查询语句Q，对段落集进行粗筛选，获取粗选段落集P30；

细选段落集获取模块104，根据查询语句Q，对粗选段落集P30进行细筛选，获取细选段落集P5；

答案预测模块105，用于根据查询语句Q，对细选段落集P5中每个段落进行首尾位置预测，找到与查询语句Q相对应的答案；

最优段落获取模块106，用于结合细选段落集P5中每个段落分别在粗选段落集获取模块103、细选段落集获取模块104和答案预测模块105中的得分，对细选段落集中每个段落进行综合排序，获取最优段落和对应答案。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上所述，本发明的有益效果包括：通过检索的方法直接从文档集合D中找出与查询语句最相关的段落，并在段落中定位答案所在的区域，减少了人工维护知识库的成本，并且可以快速进行查询语句的检索。

应理解，所述集成的装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的技术范围不仅仅局限于上述说明中的内容，本领域技术人员可以在不脱离本发明技术思想的前提下，对上述实施例进行多种变形和修改，而这些变形和修改均应当属于本发明的保护范围内。