CN113761890B

CN113761890B - 一种基于bert上下文感知的多层级语义信息检索方法

Info

Publication number: CN113761890B
Application number: CN202110941330.0A
Authority: CN
Inventors: 蔡伟鸿; 胡子俊; 罗雅兰; 姚名峰
Original assignee: Tong Xing Technology Co ltd; Shantou University
Current assignee: Tong Xing Technology Co ltd; Shantou University
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2024-04-16
Anticipated expiration: 2041-08-17
Also published as: CN113761890A

Abstract

本发明实施例公开了一种基于BERT上下文感知的多层级语义信息检索方法，主要利用文本摘要提取技术获取文档段落级别信息，作为局部上下文信息拼接至文本段落，辅以全文主题提炼作为全局信息，从而构成了上下文感知的段落级别嵌入表示，并将其作为ad‑hoc检索任务的模型输入。采用本发明，与现有的语义信息检索方法相比，本方法更注重段落的上下文信息，本文通过MMR算法实现段落级别文本摘要提取作为局部上下文信息，相比于直接使用原文做上下文线索模型训练和预测效果显著提升，解决了处理长文档时间过长的问题，节省了计算时间，与现有的语义信息检索方法相比，解决了长文档在进行嵌入表示的局限性和处理长文档内存不足的问题，节省了计算资源。

Description

一种基于BERT上下文感知的多层级语义信息检索方法

技术领域

本发明涉及一种检索方法，尤其涉及一种基于BERT上下文感知的多层级语义信息检索方法。

背景技术

相关性匹配（Relevance Matching）是信息检索（information retrieval, IR）领域中一个关键问题，它要求检索系统能够根据用户提出的特定查询需求返回一个按相关性从高到低排列的文档列表。

目前主流的搜索引擎如谷歌、百度等，通常采用基于机器学习的学习排序（Learning To Rank）模型，虽然相关性搜索的准确性相对于传统信息检索模型有所提升，但是人工设计的特征耗时耗力，且难以保证所选择特征的完整性。深度学习作为一种基于表示学习的方法，具有从大规模训练数据中发掘对预测任务有用的隐藏结构和特征的能力，因此，它可以较好的缓解基于机器学习的检索方法的局限性，如何利用深度学习提升信息检索中相关性计算的准确性已成为当下研究的热点问题。

近年来，基于预训练的语言模型在信息检索任务的应用取得了不错的成果。早期的神经排序模型使用诸如word2vec作为词的嵌入表示，然而词共现（word co-ocurrence）只是一个浅层的词袋模型，无法避免词项表示的歧义性。之后一些常见的语言模型，比如Transformer、LSTM被应用于提升信息检索任务性能，然而这些单向模型通常在预训练期间使用从左到右或从右到左的体系结构，每次词项在训练过程中的自注意力机制只会关注于其前面n个词项，直接导致了语言模型在学习词的嵌入表示时不能学到完整的上下文信息。

2018年底，Google提出了一种基于双向Transformer的预训练语言模型BERT，它通过遮蔽词语言模型（Masked Language Model）和下一句预测任务（next sentenceprediction）两种训练策略解决了单向训练带来的问题。BERT模型由于可以通过在大规模语料库中进行训练得到词通用的嵌入表示，且可以通过预训练（pre-training）和微调（fine-tuning）方式应用于下游任务，已成为信息检索任务中的基本构建块。

然而，将BERT应用于查询和长文档的匹配任务时存在以下限制：1）已有的相关性匹配模型往往是处理文档级别的相关性匹配任务，但文档的长度会超出BERT对于输入长度的限制；2）将BERT应用于长文档时，由于要计算每一对词项之间的交互，因此会导致内存使用和运行时间的巨大开销。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于BERT上下文感知的多层级语义信息检索方法。可解决上述存在的问题。

为了解决上述技术问题，本发明实施例提供了一种基于BERT上下文感知的多层级语义信息检索方法，包括以下步骤：

S1：将训练模型使用的文档分割成若干个独立段落、去除停用词、进行词干提取；

S2：通过TF-IDF权重机制来完成段落中词项的重要性评估、句子打分和句向量之间相似度计算；

S3：使用MMR算法提取摘要；

S4：将所述摘要和段落原文进行整合；

S5：按照BERT标准格式构建查询和段落的输入嵌入表示；

S6：使用BERT在大规模语料库中预训练好的通用词向量作为词的嵌入表示，将查询和新构建的段落作为BERT的输入序列，辅以分类符号和分隔符号进行拼接，作为BERT模型的输入；

S7：将查询和处理后的段落按照步骤S1-S6进行处理，并在句子对分类任务进行微调，将所述分类符号对应的输出向量将被用作是整个查询-段落对的表示，将其作为多层感知机的输入，从而预测查询和段落之间的相关性概率。

其中，所述步骤S3具体包括使用S2得到句子的TF-IDF得分作为句子相似度的衡量指标。

其中，所述步骤S4具体包括：对于段落i，其多层级上下文段落结构组成包括：标题、上文段落摘要、段落i的原始文本、下文段摘要。

其中，所述步骤S5还包括：将原始文本序列映射为低维的词向量表示，每个词的输入嵌入表示分别由其对应的词向量、片段嵌入和位置嵌入相加得到。

实施本发明实施例，具有如下有益效果：本发明通过文本摘要提取技术生成上下文相关的段落级别线索，为神经排序模型应用于查询-文档匹配任务提供了一种段落级别的解决方案，一方面解决了长文档作为模型输入时面临的最大序列长度限制另一方面解决了目前神经排序模型应用于长文档时出现的内存不足和运行时间过长的问题。

附图说明

图1是本发明的整体架构结构示意图；

图2为本发明进行文本预处理时的停用词表；

图3为本发明所述的段落摘要提取流程图；

图4为本发明所述的多层级上下文段落结构生成流程图；

图5为多层级上下文段落结构的组成示例；

图6为BERT模型的输入表示；

图7为查询文档相关性预测过程图；

图8是本发明所提出方法与其他模型在Robust04数据集上的对比。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

本发明实施例的一种基于BERT上下文感知的多层级语义信息检索方法，其基本架构如图1所示，并通过以下步骤进行实施。

步骤一：

先将训练模型使用的文档分割成几个独立段落，去除停用词，进行词干提取（词干提取是去除词缀得到词根的过程，例如fishing，提取词干得到fish），常用的停用词如图2所示。

步骤二：

通过TF-IDF权重机制来完成段落中词项的重要性评估，句子打分和句向量之间相似度计算。

步骤三：

使用MMR算法提取摘要，使用步骤二计算得到句子的TF-IDF得分作为句子相似度的衡量指标。具体流程如图3所示。

步骤四：

将步骤三获取的摘要进行整合，图4展示了对于原始文本段落的处理过程，对于段落i其多层级上下文段落结构的组成包括以下几个部分：1）标题。文章标题通常被认为是对全文主旨的精炼表达，在查询-段落相关性匹配任务中可以作为全局信息（globalinformation）添加进来。2）上下文段落摘要。假设段落i不是文档的第一段也不是最后一段，即2≤i≤n-1，则将第i-1段和第i+1段提取出来的摘要作为上下文段落信息添加至段落i的原文前后，从而提供局部上下文线索（local contextual evidence）；假设段落i是文档的第一段(i=1)，则其上文信息为空；假设段落i是文档的最后一段(i=n-1)，则其下文信息为空。3）段落i的原始文本。经过对以上几个部分的拼接所得到段落i的多层级上下文段落结构，多层级上下文段落结构的信息结构为[title]+ [Sum_i-1]+ [pass] + [Sum_i+1]，段落i的多层级上下文段落结构的组成如图5所示。

步骤五：

参照BERT标准的格式来构建查询和段落的输入嵌入表示(input embedding)。首先将原始文本序列映射为低维的词向量表示，接着，每个词的输入嵌入表示分别由其对应的词向量（Token Embedding）、片段嵌入（Segment Embedding）和位置嵌入（PositionEmbedding）相加得到。具体嵌入表示的组成结构如图6所示。

通过步骤5将查询和段落输入矩阵化，然后之后通过模型计算得到查询和段落的相关性表示，也是将bert模型应用于查询-文档任务的标准化输入。

步骤六：

采用BERT在大规模语料库中预训练好的通用词向量作为词的嵌入表示，将查询Q和新构建的段落P作为BERT的输入序列，辅以两个特殊符号：分类符号[CLS]和分隔符号[SEP]，拼接为“[CLS]Q [SEP] P [SEP]”格式，作为BERT模型的输入。分类符号[CLS]和分隔符号[SEP]是在构建BERT模型输入表示时用到的两种特殊符号，其中分类符号[CLS]主要有两个作用：一方面其对应的最终隐藏层状态可以作为整个输入序列的嵌入表示；另一方面也可以作为多层感知机MLP的输入，从而计算得到查询和文档的相关性。分隔符号[SEP]主要用于区分查询和段落部分。

步骤七：

将查询和处理后的段落按照步骤一至步骤六的方式处理，并在句子对分类任务（sentence pair classification）中进行微调（fine-tuning）。最终，分类符号[CLS]所对应的输出向量将被用作是整个查询-段落对的表示，将其作为多层感知机（Multi-LayerPerceptron，MLP）的输入，从而预测查询和段落之间的相关性概率。由于相关性匹配模型往往是处理文档级别的相关性匹配任务，因此，采用文档中段落最高得分作为文档的最终得分，查询文档相关性评估流程如图7所示。

本方法提出了一种多层级上下文信息结构，主要利用文本摘要提取技术获取文档段落级别信息，作为局部上下文信息拼接至文本段落，辅以全文主题提炼作为全局信息，从而构成了上下文感知的段落级别嵌入表示，并将其作为ad-hoc检索任务的模型输入，实验表明可以显著提升文档相关性排序的准确性。我们在两个ad-hoc检索标准数据集上验证本方法模型的效果，在Robust04新闻数据集上有2个评价指标一是nDCG指标（归一化折损累计增益），该标准主要是用来衡量和评价搜索结果算法，二是P指标（查准率），我们的方法在nDCG指标上比传统信息检索方法平均提升27%，比神经排序模型方法平均提升99%，比同样基于BERT的另2种模型方法平均提升3%；在P指标上比传统信息检索方法平均提升24%，比神经排序模型方法平均提升97%，比同样基于BERT的另2种模型方法平均提升3%，具体表现如图8中（a）所示，在ClueWeb09-B网页数据集上有2个评价一是MAP指标（Mean AveragePrecision），该指标主要用来衡量精确度的指标，二是nDCG指标，我们的方法在MAP指标上比传统信息检索方法平均提升88%，比神经排序模型方法平均提升211%，比同样基于BERT的另2种模型方法平均提升8%；在nDCG指标上比传统信息检索方法平均提升28%，比神经排序模型方法平均提升124%，比同样基于BERT的另2种模型方法平均提升5%；具体表现如图8中（b）所示。

本发明与现有的语义信息检索方法相比，本方法更注重段落的上下文信息，本文通过MMR算法实现段落级别文本摘要提取作为局部上下文信息，相比于直接使用原文做上下文线索模型训练和预测效果显著提升，解决了处理长文档时间过长的问题，节省了计算时间，与现有的语义信息检索方法相比，解决了长文档在进行嵌入表示的局限性和处理长文档内存不足的问题，节省了计算资源。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于BERT上下文感知的多层级语义信息检索方法，其特征在于，包括以下步骤：

S3：使用MMR算法提取摘要；

S4：将所述摘要和所述S1中划分的独立段落原文以多层级上下文段落结构的方式进行整合，第i个所述独立段落结构组成包括：标题、上文段落摘要、段落i的原始文本、下文段摘要；

S5：按照BERT标准格式构建查询和所述S4中整合得到段落的输入嵌入表示；

S7：将查询和处理后的段落按照步骤S1-S6进行处理，并在句子对分类任务进行微调，将所述分类符号对应的输出向量用作是整个查询-段落对的表示，将其作为多层感知机的输入，从而预测查询和段落之间的相关性概率。

2.根据权利要求1所述的基于BERT上下文感知的多层级语义信息检索方法，其特征在于，所述步骤S3具体包括使用S2得到句子的TF-IDF得分作为句子相似度的衡量指标。

3.根据权利要求1或2所述的基于BERT上下文感知的多层级语义信息检索方法，其特征在于，所述步骤S5还包括：将原始文本序列映射为低维的词向量表示，每个词的输入嵌入表示分别由其对应的词向量、片段嵌入和位置嵌入相加得到。