CN113590763A

CN113590763A - 一种基于深度学习的相似文本检索方法、装置及存储介质

Info

Publication number: CN113590763A
Application number: CN202111132371.1A
Authority: CN
Inventors: 胡玉鹏; 李丹; 邓冠宇; 李宗营; 秦拯
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-11-02

Abstract

本发明公开了一种基于深度学习的相似文本检索方法，包括文本采集、数据预处理、候选关键词选取、Seq2Seq模型提取摘要、基于词向量的相似度计算以及基于摘要的相似度计算。本发明的有益效果如下：借助了生成摘要式生成模型Seq2Seq，该Seq2Seq模型利用其LSTM神经元分析上下文语境情感，生成更贴近于原文本意思相近的文本摘要，应用在系统之中用于上传的逐个文本与文本库内的所有文本进行相似度匹配计算，在运行速度上取得了显著的效果。

Description

一种基于深度学习的相似文本检索方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于深度学习的相似文本检索方法、装置及存储介质。

背景技术

在深度学习研究的逐步开展，以及海量文档待续处理的前提下，自然语言处理应运而生。当今时代快速发展，学科的文献和各个领域性文档极具参考价值，文档类型多样，并且文档数据既反应了一个领域在时间和空间上不断演变的过程，也能以此适当的推断出一些未来发展趋势。

计算机与信息科学、语言学、数学、电气与电子工程、人工智能与机器人以及心理学之间的交叉研究经常是自然语言处理研究的学科基础。在对某一领域进行研究时，其相关文献可帮助我们快速入手这一领域的研究学习。如今大量的文献以及相关机构发布的公文遍布于网络中，在获取网络资源获取文档及其数据时，资源的碎片化不利于全面了解研究。所以对于研究机构，其尽可能讲所需研究资料进行统一管理；对于发布公文机构，自己发布的以及上层领导单位发布的文件也需要一个统一的管理。在这个管理的过程中，重复的文本会给存储带来压力，并且在研究时也会因大量重复的文本浪费时间及人力。

发明内容

本发明的目的在于提供一种基于深度学习的相似文本检索方法、装置及存储介质，其可以解决背景技术中涉及的技术问题。

本发明的技术方案为：

一种基于深度学习的相似文本检索方法，该方法包括如下步骤：

步骤一、文本采集，利用爬虫在目标网站的网页上爬取正文文本数据，并去除正文文本数据中的无用文本数据，得到目标文本数据；

步骤二、数据预处理，具体包括如下步骤：

分词和词性标注，采用Jieba分词工具对目标文本数据中的词语进行分词处理，并对分词处理后的词语进行词性标注；

停用词过滤，去除分词处理后的目标文本数据中的停用词；

步骤三、候选关键词选取，采用keyBERT值从数据预处理后的目标文本数据中选取候选关键词，并通过BERT模型对选取的候选关键词进行训练，得到对应的词向量，并执行步骤五；

步骤四、通过Seq2Seq模型从目标文本数据中获取并生成文本摘要，并执行步骤六；

步骤五、利用以下公式对得到的词向量做距离运算，得到距离值，根据得到的距离值得到对应的候选关键词的相似度：

其中，x、y分别是两个词向量，

为两个词向量的夹角，

为余弦值，

为欧氏距离；

步骤六、采用Simhash算法计算生成的文本摘要的指纹值，并将该指纹值与数据库内预存的其它文本的文本摘要指纹值进行匹配计算，当计算的值小于3时，判定为重复。

作为本发明的一种优选改进，在步骤一中，利用爬虫在目标网站的网页上爬取正文文本数据，具体包括如下步骤：

步骤1.1、采集目标网站；

步骤1.2、代码中存入相应的url地址；

步骤1.3、进入该url地址获取正文文本数据，判断是否存在链接至其他新网页的相关url链接，若有，则执行步骤1.4；若无，则结束；

步骤1.4、通过相关url链接进入一个新网页，并获取正文文本数据，判断是否存在链接至其他新网页的相关url链接，若有，则继续执行步骤1.4；若无，则结束。

作为本发明的一种优选改进，在步骤一中，去除正文文本数据中的无用文本数据具体包括如下步骤：

对网页上的网页信息处理，去除标签、Javascript脚本以及样式脚本；

对标签的正则表达式匹配；

对网页的标签进行过滤处理。

作为本发明的一种优选改进，在步骤二中，使用停用词词典来查询去除停用词。

作为本发明的一种优选改进，在步骤二中，所述Jieba分词工具为Python版本的Jieba分词工具。

作为本发明的一种优选改进，在步骤四中，通过Seq2Seq模型从目标文本数据中获取并生成文本摘要具体包括如下步骤：

Seq2Seq模型构建，在Encoder层，定义输入的tensor，同时对字母进行Embedding处理，再输入到RNN层；在Decoder端，对target数据进行处理，在构造Decoder时需要构造Embedding，构造Decoder层，构造输出层中的每个时间序列的RNN，训练Decoder，预测Decoder；

Seq2Seq模型训练，在Encoder里定义一个双向的LSTM作为Encoder的部分，而Decoder由一个单向的LSTM和两个线性层构成，前向传播公式为：

其中，

为前向传播的值，即

函数激活的值，

为输入的文本向量，

和

是每一层的权重，

和

是每一层的偏置值；

在Attention部分的计算公式为：

其中，

为注意力值，即经过

函数和

函数依次激活的值，

和

是该部分的输入，

和

是注意力的第一权重，

是注意力的偏置值，

是注意力的第二权重；

上述

和

关系又如下式，由于在训练过程中对batch的样本会padding，对于padding的输入需要把填充位置的attention权值过滤掉，然后对剩下位置的attention权值进行归一化处理，从而由文本

得到文本向量

：

再使用ReduceState模块实现数据降维；

最后生成文本摘要，采用Beam Search算法生成文本摘要。

本发明还提供了一种基于深度学习的相似文本检索装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述基于深度学习的相似文本检索方法。

本发明还提供了一种存储介质，存储有处理器可执行的指令，处理器执行所述处理器可执行的指令时执行所述基于深度学习的相似文本检索方法。

本发明的有益效果如下：借助了生成摘要式生成模型Seq2Seq，该Seq2Seq模型利用其LSTM神经元分析上下文语境情感，生成更贴近于原文本意思相近的文本摘要，应用在系统之中用于上传的逐个文本与文本库内的所有文本进行相似度匹配计算，在运行速度上取得了显著的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明利用爬虫在目标网站的网页上爬取正文文本数据的流程图；

图2为本发明去除正文文本数据中的无用文本数据的流程图；

图3为本发明信访领域与兵工领域关键词概率图一；

图4为本发明信访领域与兵工领域关键词概率图二；

图5为本发明两算法P-R-F以及ROUGE值结果对比图一；

图6为本发明两算法P-R-F以及ROUGE值结果对比图二；

图7为本发明两算法计算所需时间结果对比图。

具体实施方式

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种基于深度学习的相似文本检索方法，该方法包括如下步骤：

具体的，请参阅图1所示，利用爬虫在目标网站的网页上爬取正文文本数据，具体包括如下步骤：

步骤1.1、采集目标网站；

步骤1.2、代码中存入相应的url地址；

再参阅图2所示，去除正文文本数据中的无用文本数据具体包括如下步骤：

对网页上的网页信息处理，去除标签、Javascript脚本以及样式脚本，保留除这些特殊网页内容之外的其他文本信息；

对标签的正则表达式匹配，通过不同的标签来识别标题，摘要，正文文本内容等信息，正文内容在title标签后其他标签内的数据；

对网页的标签进行过滤处理，<class>、<p>、<b>的标签一般在内部包含的是目标网页信息中文章篇幅较长的部分，在上个步骤中处理得到的内容中仍然包含较多类似的HTML标签，所以在进行上个步骤后还需要进一步进行过滤。

需要进一步说明的是，该网页为HTML网页，标签为HTML标签。

步骤二、数据预处理，具体包括如下步骤：

具体的，所述Jieba分词工具为Python版本的Jieba分词工具。

停用词过滤，去除分词处理后的目标文本数据中的停用词；

具体的，使用停用词词典来查询去除停用词。

具体的，候选关键词选取算法如下：

首先将数据预处理后的目标文本数据输入到getword函数中，利用函数中已有的n-gram模型来统计并提取候选关键词，满足条件为：关键词长度大于2且小于4，并且满足具有关键字的标志，最后根据关键词长度排序后，输出候选关键词集合。

具体的，通过Seq2Seq模型从目标文本数据中获取并生成文本摘要具体包括如下步骤：

Seq2Seq模型构建，主要是Encoder层与Decoder层的构建，即在Encoder层，定义输入的tensor，同时对字母进行Embedding处理，再输入到RNN层；在Decoder端，对target数据进行处理，在构造Decoder时需要构造Embedding，构造Decoder层，构造输出层中的每个时间序列的RNN，训练Decoder，预测Decoder；

其中，

为前向传播的值，即

函数激活的值，

为输入的文本向量，

和

是每一层的权重，

和

是每一层的偏置值；

在Attention部分的计算公式为：

其中，

为注意力值，即经过

函数和

函数依次激活的值，

和

是该部分的输入，

和

是注意力的第一权重，

是注意力的偏置值，

是注意力的第二权重；

上述

和

得到文本向量

：

再使用ReduceState模块实现数据降维；

需要进一步说明的是，由于Encoder选择双向LSTM而Decoder选择单向LSTM，所以直接对Encoder的hiddenstate和Decoder的hiddenstate进行运算会出现维度冲突，因此需要维度降维，发明采用的是直接将Encoder的双向LSTM中两个方向的hiddenstate简单相加。

最后文本摘要生成，采用Beam Search算法生成文本摘要。

其中，x、y分别是两个词向量，

为两个词向量的夹角，

为余弦值，

为欧氏距离；

步骤六、采用Simhash算法计算生成的文本摘要的指纹值，并将该指纹值与数据库内预存的其它文本的文本摘要指纹值进行匹配计算，当计算的值小于3时，判定为重复，此时文档上传失败，并返回文档重复结果。

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

对本发明提供的基于深度学习的相似文本检索方法进行实验，包括实验环境、实验方法和结果分析具体如下：

1、实验环境

表1为进行实验的基本环境配置表。

表1实验基本环境表

表2是进行实验前python代码主要需要引用的包。

表2 实验所需主要python 包

2、针对关键词提取方法的结果分析

本节主要是针对词与文本之间文本相似度算法性能的评估。评估标准采用准确率(P)和召回率(R)以及相关关系F来衡量相似度计算的效果。他们的定义如下：

公式当中A、B、C、D 具体含义如下表3 所示。

表3参数表

测试当中，应当选取适当的准确率和召回率，因为大多情况下，召回率和准确率有相对性。

其中TextRank 方法是一种基于图排序的关键词提取方法，因为该方法是目前常用的关键词提取算法，并且TextRank 已广泛应用于工业界，所以选取TextRank 方法做对比能更好的看出本发明提出的方法的实际效果。

下表4 为测试结果对比表。

表4相似度计算实验结果对别表

TextRank是一种基于图排序的测试方法。本发明使用的方法是利用BERT模型提取的关键词，BERT作为取代Word2vec的模型，准确率和效率均得到显著提高，在这个方面发现本发明提到的基于BERT的关键词提取方法是具有实际意义的。本发明利用文本信息的预处理也对最后的实验结果影响较大，下面讲述了预处理时词语长度的取值对测试结果的影响。

经过研究发现长度值小于2大于4的值时获取的关键词效果最佳，测试两次，在信访领域中不同长度的词语为关键词概率和在兵器工业领域中不同长度词语为关键词的概率，结果如图3和4所示。

由图3和4的两次测试的对比说明不同领域当中的关键词概率与长度值息息相关，并不是所有的领域中的候选关键词长度都是2-4之间，所以在判断不同领域的文本相似度计算时所采用的关键词概率提取方式也不同。应当在提取关键词之前根据语料库的方法了解到该领域中关键词的一般长度。

3、针对摘要生成的评测

为了准确了解到在本发明中提出的单本发明与海量文本之间的相似度计算方法有无显著提高，经过实验评比得到评比标准。

在2004年正式使用的一个评价方法ROUGE评价方法，目前应用于多个方面，以判断方法的准确性。他有三种评价方法，分别是ROUGE-N、ROUGE-L和ROUGE-W。

GOUGE-N的计算方式是系统里的文档摘要和人工文档摘要中n-gram的召回率值。

ROUGE-L是根据最长公共子序列来计算系统提取的文本摘要和人工提取的文本摘要之间的相似程度。其假设，如果系统提取的文本摘要和人工提取的文本摘要的公共子序列越长，则其相似程度越大。这两项之间的关系呈正比关系。

ROUGE-W是对ROUGE-L的进一步改进，计算的是带权重的最长公共子序列。在本发明当中采用ROUGE-N的值来衡量文本相似度算法的准确性。

对于经过Seq2Seq模型生成的摘要之间的文本相似度计算，主要衡量结果就是准确率(P)、召回率(R)、F以及以1万篇文档为基准的文本库内，几种文本相似度计算方法所消耗时间的对比，参阅如图5和6所示。

由图5和6中信息可以很明确的得知改进后的算法对比原本的Simhash在P-R-F方面基本保持原来的水准，之后进行了两组方法的时间效率上的对比。通过图7可以明显的发现，本发明提出的方法所需时间明显减少，计算效率大大提高。需要说明的是，图5-7中提到的本文方法即本发明提供的方法。

在对文本进行相似度计算时本发明提出的方法明显具有更好的现实意义。考虑在一些需要提高文本匹配计算效率的场合，本发明的方法明显优于一般方法。

在一些可选择的实施例中，在本发明的步骤所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本发明所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本发明中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

本发明实施例还提供了一种存储介质，存储有处理器可执行的指令，处理器执行所述处理器可执行的指令时执行所述检索和相似度分析一体化的方法。

同样可见，上述方法实施例中的内容均适用于本存储介质实施例中，实现的功能和有益效果与方法实施例相同。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例中的步骤表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本说明书的描述中，参考术语“一个实施例”、“本实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。