CN113139048B

CN113139048B - 一种检索结果提供方法及系统

Info

Publication number: CN113139048B
Application number: CN202110417238.4A
Authority: CN
Inventors: 冯晓硕; 万克; 陈鸣; 李梁
Original assignee: People's Liberation Army 91054 Troops
Current assignee: People's Liberation Army 91054 Troops
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2022-11-04
Anticipated expiration: 2041-04-19
Also published as: CN113139048A

Abstract

本发明提供一种检索结果提供方法及系统，涉及计算机信息处理技术领域。该方法及系统针对摘要模型即序列到序列的文本生成模型能够接收的输入十分有限，而检索结果中与检索文本相关的内容比较少。通过将原文文本拆分为段落，对段落进行检索，使检索返回结果更加地精确。无需受到原文文本段落安排的限制，可以按照与检索文本的相关程度进行排序。而包含与检索文本高度相关的段落文本所在原文的其他不相关文本可以根据相似度不包含于搜索结果中。使用了自然语言模型将文本转换为文本嵌入，并且语义相近的文本在文本嵌入空间距离较小，相似度较高。使用序列到序列的文本生成模型将得到的检索结果做智能表述，在了解检索结果语义的情况下减少阅读时间。

Description

一种检索结果提供方法及系统

技术领域

本发明涉及计算机信息处理技术领域，尤其涉及一种检索结果提供方法及系统。

背景技术

目前的搜索引擎等无法根据检索结果做单一简短智能表述。

当前能对文本生成摘要的语言模型，无法接收长文本的输入，仅能对长文本按语言模型能接收的最大长度进行截断处理仅保留文本前一部分作为输入。

搜索引擎仅能返回与检索文本相关的多个文本全文，而将这些文本全文拼接后，长度远超过语言模型能接收输入的最大长度。所以仅能对单一文本分别生成对应摘要，而非检索的多个结果。

搜索引擎返回的全文结果中，与检索文本相关的内容大部分情况下仅有一小段相关，而其他均为无意义内容。而该无意义内容无法在检索过程中进行排除。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种检索结果提供方法及系统，结合段落级别的语义搜索与语言模型的使用，为搜索引擎返回的多个检索结果提供单一的摘要对用户进行展示。

为解决上述技术问题，本发明所采取的技术方案是：

一方面，本发明提供一种检索结果提供方法，包括以下步骤；

步骤1：获取待检索文本，进行数据清洗及文本相关数据的提取；再根据“\n”字符，采用段落切分方法，将待检索原始文本切分成段落级别的文本，并与其他文本相关数据存入文本数据库中；

使用爬虫工具，从互联网获取待检索的网页文本，并对网页文本进行清洗去除无关文本；对清洗后的文本，使用正则表达式对文本的标题、发布时间、作者、栏目进行文本相关数据进行提取；再根据“\n”标识符将清洗后的文本切分成段落级别的文本，并且删除空文本；将文本根据段落切分后，每个段落对应原文的索引，以获取原文的其他信息；

步骤2：使用逆向完形填空任务在切分后的待检索文本上或其他与待检索文本相关文本数据集上对语言模型进行训练，使语义上相近的文本在使用该语言模型输出的嵌入空间上也相近；

从文本数据库中随机选取多个段落文本，同时随机选取其中一个段落中的一个句子，并将该句子从该段落中删除；使用BERT语言模型对该句子和所有段落文本生成语义嵌入，并使该句子与所在的段落文本的嵌入之间的距离最近，然后使用梯度下降算法对BERT语言模型中的参数进行更新；多次重复该步骤直至遍历待检索文本N次，保存BERT语言模型；

步骤3：使用摘要数据集以及切分后的待检索文本训练序列到序列文本生成模型，使模型输出能保留输入文本的中心语义的同时缩减输出文本长度；

使用CNN-dailymail摘要数据集对序列到序列文本生成模型进行训练，使序列到序列文本生成模型对文本输入生成的摘要与数据集中提供的摘要一致；并选取待检索文本中概括性语句作为摘要对序列到序列文本生成模型继续训练，保存序列到序列文本生成模型；

步骤4：使用步骤2训练之后的语言模型将步骤1中保存的段落文本转换为对应的文本嵌入表示，并将文本的嵌入表示作为段落文本的属性持久化保存；

步骤5：将用户输入的检索文本使用语言模型转换为文本嵌入表示；

步骤6：使用最近邻算法将检索文本的嵌入表示与待检索文本段落的嵌入表示使用相似度指标进行比较，返回n个与检索文本的嵌入表示最相近的段落嵌入表示对应的段落文本；

步骤7：根据相似度指标对返回的n个段落文本进行排序，与检索文本相似度大的段落文本排在前端，并将段落文本按照排序后顺序进行直接拼接；

步骤8：使用步骤3中训练后的序列到序列文本生成模型对拼接后的文本生成摘要，并与其他检索结果相关信息一同进行展示。

另一方面，本发明还提供一种检索结果提供系统，包括数据存储模块、文本切分模块、文本嵌入计算模块、最近邻搜索模块以及文本摘要模块；

所述数据存储模块，用于存储待检索的原文文本、段落文本、文本嵌入以及文章标题、文章作者以及发布日期；

所述文本切分模块，用于将待检索的原文本切分为段落级别的段落文本；

所述文本嵌入计算模块，用于将段落级别的段落文本与检索文本转化为文本嵌入，其中语义上相近的文本在该嵌入的空间中也相近；

所述最近邻搜索模块，用于召回与检索文本的嵌入最相近的几条段落级别的文本；

所述文本摘要模块，用于将检索结果转化为保留检索结果中心语义但长度变短的文本。

优选地，所述数据存储模块使用pandas函数库中的DataFrame结构进行存储数据，并使用csv文件进行持久化保存，对每个文本分配各自唯一的数字作为索引。

采用上述技术方案所产生的有益效果在于：本发明提供一种检索结果提供方法及系统，能为多个检索结果提供单一文本表述，节省阅读时间。目前的检索引擎对文本进行检索时，大多包含来自多个信息源的语义重复内容，即便为每个检索结果提供对应的摘要，也会有大量的语义上的冗余。通过提供单一的文本表述，能减少检索结果中重复内容。并且通过段落级别的检索能减少无关信息的出现，进一步减少阅读时间。

附图说明

图1为本发明实施例提供的一种检索结果提供方法的流程图；

图2为本发明实施例提供的一种检索结果提供系统的结构框图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明的系统及方法，针对摘要模型即序列到序列的文本生成模型能够接收的输入十分有限，而检索结果全文中与检索文本相关的内容仅有少部分。通过将原文文本拆分为段落，对段落进行检索，使检索返回结果更加地精确。无需受到原文文本段落安排的限制，可以按照与检索文本的相关程度进行排序。而包含与检索文本高度相关的段落文本所在原文的其他不相关文本可以根据相似度不包含于搜索结果中。

本发明使用了自然语言模型，该模型被用于将文本转换为文本嵌入。并且语义相近的文本在文本嵌入空间距离较小，相似度较高。该模型使用逆向完形填空等任务在待检索文本或其他类似文本上进行训练。逆向完形填空任务具体地即为在训练文本中任意挑选连续的几条语句，选择挑选的语句中一条并删去。同时任意挑选其他不相关语句，使被删去语句对应的文本嵌入与原文本中其他语句的文本嵌入距离小于被删去语句对应的文本嵌入与其他不相关语句的文本嵌入的距离。具体公式如下所示。该文本嵌入为固定长度的一维向量，不随输入文本的长度的改变而改变。

本发明使用了序列到序列的文本生成模型将得到的检索结果做智能表述。该文本生成模型使用摘要数据集以及待检索文本进行训练，能根据输入的长文本输出与输入文本中心语义相近的短文本，并且该生成的文本中包含输入文本中不存在的语句。该序列到序列的文本生成模型能对检索结果做智能表述，在了解检索结果语义的情况下减少阅读时间。

本实施例采用本发明的检索结果提供方法及系统实现检索结果的展示，该方法及系统使用Python语言进行实现，运行于Linux系统。

本实施例中，一种检索结果提供方法，如图1所示，包括以下步骤；

步骤1：获取待检索文本，进行数据清洗及文本相关数据的提取；再根据“\n”字符，采用段落切分方法，将待检索原始文本切分成段落级别的文本，并与其他文本相关数据如原文标题、发布时间、作者存入文本数据库中；

本实施例使用爬虫工具，从互联网获取待检索文本，并对网页文本进行清洗去除无关文本。对清洗后的文本，使用正则表达式对文本的标题、发布时间、作者、栏目进行文本相关内容的提取。本实施例中，文本数据库使用pandas函数库中的DataFrame结构进行存储，使用csv文件进行持久化保存，并对每个文本分配各自唯一的数字作为索引。再根据“\n”标识符将文本切分，并且删除空文本。将文本根据段落切分后，每个段落对应原文的索引，以获取原文的其他信息。

本实施例根据设备内存大小，从文本数据库中选取几十到一百多个段落文本。随机选取其中的一个段落中的一个句子，并将该句子从该段落中删除。使用BERT(Bidirectional Encoder Representations from Transformers)语言模型对该句子和所有段落文本生成语义嵌入，并使该句子与所在的段落文本的嵌入之间的距离最为相近，并使用梯度下降算法对BERT语言模型中的参数进行更新。并多次重复该步骤直至遍历待检索文本多次，保存BERT语言模型。

选取CNN-dailymail摘要数据集，使用该摘要数据集对BART(Bidirectional andAuto-Regressive Transformers)模型训练，使BART模型对文本输入生成的摘要与数据集中提供的摘要基本一致。并选取待检索文本中概括性语句作为摘要对BART模型继续训练，保存BART模型。

步骤4：使用步骤2训练之后的BERT模型将步骤1中保存的段落文本转换为对应的文本嵌入表示，并将文本的嵌入表示作为段落文本的属性持久化保存；

以上步骤为提供检索结果的前置步骤，若待检索文本不变化则无需重复执行，而后续步骤则根据用户输入循环执行。

本实施例使用flask函数库创建搜索界面，获取用户输入的检索文本，并将用户输入的检索文本使用步骤2中保存的BERT模型转换为对应的文本嵌入表示。

本实施例使用hnswlib函数库召回与检索文本的嵌入最相近的几条段落级别的文本，通过cosine相似度指标寻找在步骤4中得到的嵌入中与步骤5中得到的嵌入最相近的嵌入，并返回前10个对应的段落文本。返回与步骤5中得到嵌入的相似度，同时根据步骤1中保存的索引找到原文信息一齐返回。

本实施例根据相似度，从大到小将返回的信息排序，并将10个段落文本拼接后一齐返回。

步骤8：使用步骤3中训练后的BART模型对拼接后的文本生成摘要，并与其他检索结果相关信息一同进行展示。

本实施例将步骤7中返回的拼接后的文本输入步骤3中保存的BART模型，生成对应的文本摘要，作为检索结果的单一表述并返回。

最后将步骤8中检索结果的单一表述与步骤7中的排序信息写入到flask函数库生成的页面中，并返回给用户展示。

一种检索结果提供系统，如图2所示，包括数据存储模块、文本切分模块、文本嵌入计算模块、最近邻搜索模块以及文本摘要模块；

本实施例中，数据存储模块使用pandas函数库中的DataFrame结构进行存储数据，并使用csv文件进行持久化保存，对每个文本分配各自唯一的数字作为索引。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种检索结果提供方法，其特征在于：包括以下步骤；

2.根据权利要求1所述的一种检索结果提供方法，其特征在于：所述步骤1的具体方法为：

使用爬虫工具，从互联网获取待检索的网页文本，并对网页文本进行清洗去除无关文本；对清洗后的文本，使用正则表达式对文本的标题、发布时间、作者、栏目进行文本相关数据进行提取；再根据“\n”标识符将清洗后的文本切分成段落级别的文本，并且删除空文本；将文本根据段落切分后，每个段落对应原文的索引，以获取原文的其他信息。

3.根据权利要求1所述的一种检索结果提供方法，其特征在于：所述步骤2的具体方法为：

从文本数据库中随机选取多个段落文本，同时随机选取其中一个段落中的一个句子，并将该句子从该段落中删除；使用BERT语言模型对该句子和所有段落文本生成语义嵌入，并使该句子与所在的段落文本的嵌入之间的距离最近，然后使用梯度下降算法对BERT语言模型中的参数进行更新；多次重复该步骤直至遍历待检索文本N次，保存BERT语言模型。

4.根据权利要求1所述的一种检索结果提供方法，其特征在于：所述步骤3的具体方法为：

使用CNN-dailymail摘要数据集对序列到序列文本生成模型进行训练，使序列到序列文本生成模型对文本输入生成的摘要与数据集中提供的摘要一致；并选取待检索文本中概括性语句作为摘要对序列到序列文本生成模型继续训练，保存序列到序列文本生成模型。

5.一种检索结果提供系统，基于权利要求1所述一种检索结果提供方法实现，其特征在于：包括数据存储模块、文本切分模块、文本嵌入计算模块、最近邻搜索模块以及文本摘要模块；

6.根据权利要求5所述的一种检索结果提供系统，其特征在于：所述数据存储模块使用pandas函数库中的DataFrame结构进行存储数据，并使用csv文件进行持久化保存，对每个文本分配各自唯一的数字作为索引。