CN112052326A

CN112052326A - 一种基于长短文本匹配的智能问答方法及系统

Info

Publication number: CN112052326A
Application number: CN202011064355.9A
Authority: CN
Inventors: 李振; 张刚; 鲍东岳; 尹正; 刘昊霖; 陈婷; 彭加欣; 吕亚波; 傅佳美; 张晓迪
Original assignee: Minsheng Science And Technology Co ltd
Current assignee: Minsheng Science And Technology Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2020-12-08

Abstract

一种基于长短文本匹配的智能问答方法及系统，涉及智能问答技术领域，所述方法包括以下步骤S1：构建智能问答语料库，包括若干段落、问题和答案；S2：获取用户问题，基于文本相似度算法计算用户问题与每个段落的第一相关性得分，基于主题模型计算用户问题与每个段落的第二相关性得分；S3：针对每个段落，将相应的第一相关性得分与第二相关性得分进行几何平均，得到用户问题与每个段落的平均相关性得分，选取平均相关性得分最高段落；S4：基于机器阅读理解模型在所述S3的得分最高段落中抽取用户问题答案，完成对用户问题的回答。本发明提供的一种基于长短文本匹配的智能问答方法及系统，能够准确定位用户输入的问题所在的文档段落，抽取答案。

Description

一种基于长短文本匹配的智能问答方法及系统

技术领域

本发明涉及智能问答技术领域，尤其是涉及一种基于长短文本匹配的智能问答方法及系统。

背景技术

银行网络融资业务是银行人员对客户通过网银等自助渠道完成在线融资申请、在线签署电子合同、在线放款、还款等全流程融资操作业务，客户范围覆盖大中小型客户，也是银行人员经常帮助客户办理的业务。当银行人员进行此项业务操作时，必须熟记各项业务操作流程，根据不同类型客户的不同申请，进行相应的业务操作。由于网络融资业务操作流程复杂繁琐，注意事项众多，银行业务人员难免记不住，而从海量的业务文档或者操作手册中搜索需要的信息会花费大量时间。而且，网络融资业务是与“钱”相关的业务，不容有错，否则会给银行的形象造成不良影响。因此需要一种高精度的智能问答系统来帮助银行人员完成网络融资业务。

目前，智能问答系统的实现主要包括文本匹配和答案抽取两部分，文本匹配是该类问答系统一个非常关键的环节，该模块主要功能是匹配用户输入的问题所对应的文档段落。对于该文本匹配模块，现有的技术仅是简单的基于关键词的匹配，没有考虑问句的语义信息；而且用户输入的问题一般都比较简短，相对于文档段落来说是短文本，没有考虑长短文本匹配的问题。

发明内容

有鉴于此，本发明提出了一种基于长短文本匹配的智能问答方法及系统，能够准确定位用户输入的问题所在的文档段落，抽取答案。该方法包括：将文本相似度BM25算法与基于senLDA主题模型的长短文本相似度计算方法相融合，分别从词语层级和句子层级匹配用户输入的问题和数据库中相应的段落；并基于机器阅读理解模型，从相应段落中抽取问题所对应的答案。

为实现上述目的，本发明采用如下技术方案：

根据本发明的第一方面，提供了一种基于长短文本匹配的智能问答方法，所述方法包括以下步骤：

S1：构建智能问答语料库，包括若干段落、问题和答案；

S2：获取用户问题，基于文本相似度算法计算用户问题与每个段落的第一相关性得分，基于主题模型计算用户问题与每个段落的第二相关性得分；

S3：针对每个段落，将相应的第一相关性得分与第二相关性得分进行几何平均，得到用户问题与每个段落的平均相关性得分，选取平均相关性得分最高段落；

S4：基于机器阅读理解模型在所述S3的得分最高段落中抽取用户问题答案，完成对用户问题的回答。

进一步的，所述S1具体包括：收集业务相关问答数据，将问答数据划分成{段落，问题，答案}的形式作为智能问答语料库，并针对同一问题设置不同的表达方式。

进一步的，所述S2中基于文本相似度算法计算用户问题与每个段落的第一相关性得分具体包括：

S2.1：利用分词工具对用户问题进行分词并过滤停用词，得到用于匹配的单词。

S2.2：计算每个用于匹配的单词和语料库中段落的相关性得分，将所有单词的相关性得分进行加权求和，从而得到用户问题和段落的第一相关性得分。

进一步的，所述S2.2的计算方式为：

其中，Q表示用户问题，q_i表示Q分词后的每一个词；d表示语料库中的一个段落；W_i表示词q_i的权重；R(q_i,d)表示词q_i与段落d的相关性得分；

权重W_i为IDF值，计算公式如下：

R(q_i,d)的计算公式如下：

其中，N为段落总数，n(q_i)为包含q_i的段落数，f_i为q_i在段落d中出现的频率；dl为段落d的长度，avgdl为所有段落的平均长度；k₁、b为调节因子。

进一步的，所述S2中基于主题模型计算用户问题与每个段落的第二相关性得分具体包括：

S2.3：将每个段落文本以标点符号为间隔分成句子的形式，然后基于senLDA主题模型对整理好的句子进行训练，生成每个段落的主题分布概率；

S2.4：根据S2.3中得到的主题分布概率，计算该分布概率下生成用户问题的概率，作为问题与该段落之间的相似度，计算公式如下：

其中，q表示问题，c表示段落，w表示q中的单词，z_k表示第k个主题。

进一步的，所述S3中通过几何平均的方式获得平均相关性得分的计算方式如下：

其中，pred_a为第一相关性得分，pred_b为第二相关性得分，β为权重。

进一步的，所述S4中的机器阅读理解模型由所述S1中构建的智能问答语料库训练得到。

进一步的，所述S4具体包括：

S4.1：利用分词工具对用户问题和得分最高段落进行分词，对各个词进行词嵌入和字符嵌入编码，并将编码后的词向量和字符向量进行拼接，通过高速网络后，得到第一问题矩阵和第一段落矩阵；

S4.2：将所述S4.1得到的第一问题矩阵和第一段落矩阵通过编码层得到第二问题矩阵和第二段落矩阵；

S4.3：将所述S4.2得到的第二问题矩阵和第二段落矩阵进行问题-段落注意力交互处理后，得到第三段落矩阵；

S4.4：将第三段落矩阵通过三组model encoder block模块，进行进一步信息提取；

S4.5：使用指针网络预测答案开始位置和结束位置概率，分别记为p¹,p²，计算公式如下：

p¹＝softmax(W₁[M₀；M₁])

p²＝softmax(W₂[M₀；M₂])

其中，W₁、W₂是可训练矩阵，M₀、M₁、M₂分别是三组model encoder block的输出；

选取概率最大的词作为答案的开始位置和结束位置，由此得到确切答案语句的位置。

根据本发明的第二方面，提供了一种基于长短文本匹配的智能问答系统，所述系统应用如本发明第一方面所述的方法，其特征在于，包括：

语料库构建模块，用于构建智能问答语料库，所述语料库包括若干段落、问题和答案；

段落评分模块，用于基于文本相似度算法计算用户问题与每个段落的第一相关性得分，基于主题模型计算用户问题与每个段落的第二相关性得分；

段落筛选模块，用于针对每个段落，将相应的第一相关性得分与第二相关性得分进行几何平均，得到用户问题与每个段落的平均相关性得分，选取平均相关性得分最高段落；

答案抽取模块，用于基于机器阅读理解模型在所述S3的得分最高段落中抽取用户问题答案，完成对用户问题的回答。

根据本发明的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如本发明第一方面所述的方法。

相对于现有技术，本发明所述的一种基于长短文本匹配的智能问答方法及系统具有以下优势：

1)不同于其他的业务场景，银行网络融资业务是与“钱”打交道的业务，需要更加专业、高精度的“智能问答”。本发明所提出的智能问答方法将自然语言处理领域的知识与银行网络融资业务场景相结合，综合考虑了银行网络融资业务场景下问题段落匹配的特点，能够更加准确定位问题所在的段落，为银行网络融资业务提供更加专业和准确的“智能问答”。

2)本发明专利针对问题与段落之间的长短文本匹配问题，将BM25文本相似度算法与senLDA主题模型融合，从词语和句子两个不同的层级同时进行语义挖掘，得到更丰富的语义信息表达，不仅解决了问题与段落之间长短文本匹配问题，还可避免段落中长文本比短文本相似性得分高的问题，准确率得到显著提高。

3)针对银行网络融资业务的“智能问答”，不仅需要高准确率，还需要保证运行效率。为了在提高文本匹配准确率的同时保证运行速度，本发明将BM25文本相似度算法与senLDA主题模型设计为并行处理，文本段落的向量化表示在加载模型时通过文件的方式导入，存储在内存中，避免重复计算。而且在机器阅读理解模型中使用多头注意力机制，不仅能学习潜在的相关信息，还能实现并行，大大加快计算速度。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为用户问题与段落匹配的具体流程图；

图2为本发明所使用的机器阅读理解模型的结构流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

多个，包括两个或者两个以上。

和/或，应当理解，对于本公开中使用的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

一种基于长短文本匹配的智能问答方法，包括以下步骤：

S1：整理网络融资业务数据。

S1.1：将现有的网络融资业务相关数据整理成{段落、问题、答案}的形式。其中，对于同一个问题设计了多种不同的问法，如：“企业网络融资业务是什么？”和“企业网络融资业务的定义？”，这两种问法对应着同一个段落和相同的答案。

S1.2：根据高频词和常用停用词表整理一份银行网络融资业务场景下的停用词表。

S2：如图1所示，获取用户输入的问题，使用文本相似度BM25算法匹配相关段落，返回问题与每一个段落的第一相关性得分，使用基于senLDA主题模型来计算问题与段落之间的相似度，返回问题与每一个段落匹配的第二相似性得分。

S2.1：使用jieba分词工具将问题和段落进行分词、过滤停用词。

S2.2：计算问题中每一个单词和段落的相关性得分，将所有词的相关性得分进行加权求和，从而得到问题Q和段落D的相关性得分。具体计算公式如下：

其中，Q表示问题，q_i表示Q分词后的每一个词；d表示一个段落内容；W_i表示词q_i的权重；R(q_i，d)表示词q_i与段落d的相关性得分。

权重W_i为IDF值，计算公式如下：

R(q_i,d)的计算公式如下：

其中，N为段落总数，n(q_i)为包含q_i的段落数，f_i为q_i在段落d中出现的频率。dl为段落d的长度，avgdl为所有段落的平均长度。k₁、b为调节因子，在本系统中，令k₁＝1，b＝0.75。从公式中可以看出，在f_i相同的情况下，长段落与q_i的相关性应该比短段落与q_i的相关性弱。

S2.3：将每个段落文本以“，”“。”“！”“？”为间隔分成句子的格式，然后基于senLDA主题模型对整理好的语料进行训练，生成每个段落的主题分布。

其中，senLDA主题模型是常见主题模型的一种，修改了传统主题模型LDA的吉布斯采样过程的主题模型，是LDA模型的扩展，该模型的中心思想是：一个句子中所有词的潜在主题都应该是一致的。对于短文本来说，尤其是新闻标题，通常一个句子只会涉及一个主题。通过分析句子或短语的结构，可以实现细粒度级别的语义信息提取。在LDA“文本-主题-词”分布的3层结构上，senLDA在文本和主题之间,新加入了句子层，变为“文本-句子-主题-词”模型。

S2.4：根据senLDA主题模型得到的主题分布概率，计算该分布下生成短文本(问题)的概率，作为问题与该段落之间的相似度。计算公式如下：

其中，q表示问题，c表示段落，w表示q中的词，z_k表示第k个主题。

S3：针对每个段落，将相应的第一相关性得分与第二相关性得分进行几何平均，得到用户问题与每个段落的平均相关性得分，选取平均相关性得分最高段落。其中，几何平均公式如下：

其中，pred_a为第一相关性得分，pred_b为第二相关性得分，β为权重，根据经验选取为0.5。

综上所述，BM25文本相似度算法是基于TF-IDF的向量空间模型文本相似度方法，这种方法以词的IDF值来表征词的权重，在计算词与段落之间的相似性得分公式中加入了文档的平均长度和调节因子，能够避免在处理同一问题的匹配中长段落比短段落相似性得分高的问题；

使用senLDA主题模型计算长文本的主题分布概率，然后计算该分布生成短文本的概率，此方法假设一个句子中所有词的潜在主题都是一致的，通过分析句子或者短语的结构，实现文本语义信息提取，可针对解决长短文本匹配问题。

将两种方法进行融合，在词语层级和句子层级同时进行文本语义挖掘，能够显著提高问题与段落匹配的准确率。

S4：基于如图2所示的机器阅读理解模型，在S3步骤中匹配到的段落中确定答案起始位置和结束位置，抽取答案。具体步骤如下：

S4.1：对输入的问题和匹配到的段落进行分词，对各个词进行词嵌入和字符嵌入编码，并将编码后的词向量和字符向量进行拼接，通过一个高速网络(highway network)后，得到第一问题矩阵和第一段落矩阵。

S4.2：将第一问题矩阵和第一段落矩阵通过编码层得到第二问题矩阵和第二段落矩阵。此处的编码层由一个编码块(Encoder Block)组成，单个编码块(Encoder Block)的结构自底向上依次为位置编码(Position Encoding)、卷积层(Conv)、自注意力机制(selfattention)和前馈网络层(fnn)四个部分。每个部分开头都做layernorm处理，结尾都做残差(residual block)。这里的卷积层部分使用的是深度可分离卷积，能够捕获上下文局部结构，相比于普通的卷积网络集有更少的参数和更低的计算量。self-attention是多头注意力机制，对于输入的问题句子，每个单词都要和句子中所有的单词计算attention，可以捕获文本之间全局的相互作用。而且self-attention不依赖于前一时刻的状态，可以实现并行，加快计算速度。

S4.3：将第二问题矩阵和第二段落矩阵进行问题-段落注意力交互处理后，得到第三段落矩阵。

其中，S4.3步骤即阅读理解模型中注意力交互层，根据二维匹配模型，计算第二问题矩阵中每一个单词对于段落(Context)中每个单词的注意力值，和第二段落矩阵中每个单词相对于(Question)的每个单词的注意力值，分别得到context-to-questionattention和question-to-context-attention矩阵，然后将这两个矩阵进行融合拼接得到即可得到第三段落矩阵。

S4.4：将第三段落矩阵通过模型编码层，使用双向LSTM捕获上下文之间的交互，进行进一步信息提取。模型编码层由三组模型编码块(model encoder block)组成，每组模型编码块由7个编码块(encoder block)堆叠而成，3组模型编码块之间共享参数。

S4.5：使用指针网络预测答案开始位置和结束位置概率，分别记为p¹,p²。计算公式如下：

p¹＝softmax(W₁[M₀；M₁])

p²＝softmax(W₂[M₀；M₂])

其中，softmax函数为归一化指数函数，它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1，可作为概率理解。

W₁、W₂是可训练矩阵，可以通过模型训练过程一步步迭代优化，M₀、M₁、M₂分别是三组model encoder block的输出。选取概率最大的词作为答案的开始位置和结束位置。

在机器阅读理解模型训练过程中，利用S1步中整理好的{段落、问题、答案}格式的数据作为训练数据，其中，“答案”就是训练数据中的标签。经过与S4.1-S4.5相同的步骤后得到预测答案的起始位置概率和结束位置概率。在模型训练阶段，将损失函数定义为真实开始索引和结束索引的交叉熵之和，然后取平均值。公式如下：

其中，θ是模型中所有可训练参数的集合，N是语料库中的数量，

和是

开始和结束索引。通过采用小批量梯度下降法，来不断的调节参数，最小化损失函数。参数更新公式如下：

α为学习率，θ_j为θ中第j个参数。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。