CN113590763A - 一种基于深度学习的相似文本检索方法、装置及存储介质 - Google Patents

一种基于深度学习的相似文本检索方法、装置及存储介质 Download PDF

Info

Publication number
CN113590763A
CN113590763A CN202111132371.1A CN202111132371A CN113590763A CN 113590763 A CN113590763 A CN 113590763A CN 202111132371 A CN202111132371 A CN 202111132371A CN 113590763 A CN113590763 A CN 113590763A
Authority
CN
China
Prior art keywords
text
text data
deep learning
abstract
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111132371.1A
Other languages
English (en)
Inventor
胡玉鹏
李丹
邓冠宇
李宗营
秦拯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202111132371.1A priority Critical patent/CN113590763A/zh
Publication of CN113590763A publication Critical patent/CN113590763A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的相似文本检索方法,包括文本采集、数据预处理、候选关键词选取、Seq2Seq模型提取摘要、基于词向量的相似度计算以及基于摘要的相似度计算。本发明的有益效果如下:借助了生成摘要式生成模型Seq2Seq,该Seq2Seq模型利用其LSTM神经元分析上下文语境情感,生成更贴近于原文本意思相近的文本摘要,应用在系统之中用于上传的逐个文本与文本库内的所有文本进行相似度匹配计算,在运行速度上取得了显著的效果。

Description

一种基于深度学习的相似文本检索方法、装置及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于深度学习的相似文本检索方法、装置及存储介质。
背景技术
在深度学习研究的逐步开展,以及海量文档待续处理的前提下,自然语言处理应运而生。当今时代快速发展,学科的文献和各个领域性文档极具参考价值,文档类型多样,并且文档数据既反应了一个领域在时间和空间上不断演变的过程,也能以此适当的推断出一些未来发展趋势。
计算机与信息科学、语言学、数学、电气与电子工程、人工智能与机器人以及心理学之间的交叉研究经常是自然语言处理研究的学科基础。在对某一领域进行研究时,其相关文献可帮助我们快速入手这一领域的研究学习。如今大量的文献以及相关机构发布的公文遍布于网络中,在获取网络资源获取文档及其数据时,资源的碎片化不利于全面了解研究。所以对于研究机构,其尽可能讲所需研究资料进行统一管理;对于发布公文机构,自己发布的以及上层领导单位发布的文件也需要一个统一的管理。在这个管理的过程中,重复的文本会给存储带来压力,并且在研究时也会因大量重复的文本浪费时间及人力。
发明内容
本发明的目的在于提供一种基于深度学习的相似文本检索方法、装置及存储介质,其可以解决背景技术中涉及的技术问题。
本发明的技术方案为:
一种基于深度学习的相似文本检索方法,该方法包括如下步骤:
步骤一、文本采集,利用爬虫在目标网站的网页上爬取正文文本数据,并去除正文文本数据中的无用文本数据,得到目标文本数据;
步骤二、数据预处理,具体包括如下步骤:
分词和词性标注,采用Jieba分词工具对目标文本数据中的词语进行分词处理,并对分词处理后的词语进行词性标注;
停用词过滤,去除分词处理后的目标文本数据中的停用词;
步骤三、候选关键词选取,采用keyBERT值从数据预处理后的目标文本数据中选取候选关键词,并通过BERT模型对选取的候选关键词进行训练,得到对应的词向量,并执行步骤五;
步骤四、通过Seq2Seq模型从目标文本数据中获取并生成文本摘要,并执行步骤六;
步骤五、利用以下公式对得到的词向量做距离运算,得到距离值,根据得到的距离值得到对应的候选关键词的相似度:
Figure 883220DEST_PATH_IMAGE001
其中,x、y分别是两个词向量,
Figure 660684DEST_PATH_IMAGE002
为两个词向量的夹角,
Figure 141343DEST_PATH_IMAGE003
为余弦值,
Figure 433785DEST_PATH_IMAGE004
为欧氏距离;
步骤六、采用Simhash算法计算生成的文本摘要的指纹值,并将该指纹值与数据库内预存的其它文本的文本摘要指纹值进行匹配计算,当计算的值小于3时,判定为重复。
作为本发明的一种优选改进,在步骤一中,利用爬虫在目标网站的网页上爬取正文文本数据,具体包括如下步骤:
步骤1.1、采集目标网站;
步骤1.2、代码中存入相应的url地址;
步骤1.3、进入该url地址获取正文文本数据,判断是否存在链接至其他新网页的相关url链接,若有,则执行步骤1.4;若无,则结束;
步骤1.4、通过相关url链接进入一个新网页,并获取正文文本数据,判断是否存在链接至其他新网页的相关url链接,若有,则继续执行步骤1.4;若无,则结束。
作为本发明的一种优选改进,在步骤一中,去除正文文本数据中的无用文本数据具体包括如下步骤:
对网页上的网页信息处理,去除标签、Javascript脚本以及样式脚本;
对标签的正则表达式匹配;
对网页的标签进行过滤处理。
作为本发明的一种优选改进,在步骤二中,使用停用词词典来查询去除停用词。
作为本发明的一种优选改进,在步骤二中,所述Jieba分词工具为Python版本的Jieba分词工具。
作为本发明的一种优选改进,在步骤四中,通过Seq2Seq模型从目标文本数据中获取并生成文本摘要具体包括如下步骤:
Seq2Seq模型构建,在Encoder层,定义输入的tensor,同时对字母进行Embedding处理,再输入到RNN层;在Decoder端,对target数据进行处理,在构造Decoder时需要构造Embedding,构造Decoder层,构造输出层中的每个时间序列的RNN,训练Decoder,预测Decoder;
Seq2Seq模型训练,在Encoder里定义一个双向的LSTM作为Encoder的部分,而Decoder由一个单向的LSTM和两个线性层构成,前向传播公式为:
Figure 290882DEST_PATH_IMAGE005
其中,
Figure 922852DEST_PATH_IMAGE006
为前向传播的值,即
Figure 574413DEST_PATH_IMAGE007
函数激活的值,
Figure 619729DEST_PATH_IMAGE008
为输入的文本向量,
Figure 952622DEST_PATH_IMAGE009
Figure 501415DEST_PATH_IMAGE010
是每一层的权重,
Figure 589456DEST_PATH_IMAGE011
Figure 856490DEST_PATH_IMAGE012
是每一层的偏置值;
在Attention部分的计算公式为:
Figure 993073DEST_PATH_IMAGE013
其中,
Figure 396372DEST_PATH_IMAGE014
为注意力值,即经过
Figure 655316DEST_PATH_IMAGE015
函数和
Figure 409645DEST_PATH_IMAGE007
函数依次激活的值,
Figure 881078DEST_PATH_IMAGE016
Figure 404463DEST_PATH_IMAGE017
是该部分的输入,
Figure 834307DEST_PATH_IMAGE018
Figure 948369DEST_PATH_IMAGE019
是注意力的第一权重,
Figure 489072DEST_PATH_IMAGE020
是注意力的偏置值,
Figure 132543DEST_PATH_IMAGE021
是注意力的第二权重;
上述
Figure 467709DEST_PATH_IMAGE022
Figure 134314DEST_PATH_IMAGE016
关系又如下式,由于在训练过程中对batch的样本会padding,对于padding的输入需要把填充位置的attention权值过滤掉,然后对剩下位置的attention权值进行归一化处理,从而由文本
Figure 213128DEST_PATH_IMAGE016
得到文本向量
Figure 711106DEST_PATH_IMAGE016
Figure 154857DEST_PATH_IMAGE023
再使用ReduceState模块实现数据降维;
最后生成文本摘要,采用Beam Search算法生成文本摘要。
本发明还提供了一种基于深度学习的相似文本检索装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述基于深度学习的相似文本检索方法。
本发明还提供了一种存储介质,存储有处理器可执行的指令,处理器执行所述处理器可执行的指令时执行所述基于深度学习的相似文本检索方法。
本发明的有益效果如下:借助了生成摘要式生成模型Seq2Seq,该Seq2Seq模型利用其LSTM神经元分析上下文语境情感,生成更贴近于原文本意思相近的文本摘要,应用在系统之中用于上传的逐个文本与文本库内的所有文本进行相似度匹配计算,在运行速度上取得了显著的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本发明利用爬虫在目标网站的网页上爬取正文文本数据的流程图;
图2为本发明去除正文文本数据中的无用文本数据的流程图;
图3为本发明信访领域与兵工领域关键词概率图一;
图4为本发明信访领域与兵工领域关键词概率图二;
图5为本发明两算法P-R-F以及ROUGE值结果对比图一;
图6为本发明两算法P-R-F以及ROUGE值结果对比图二;
图7为本发明两算法计算所需时间结果对比图。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种基于深度学习的相似文本检索方法,该方法包括如下步骤:
步骤一、文本采集,利用爬虫在目标网站的网页上爬取正文文本数据,并去除正文文本数据中的无用文本数据,得到目标文本数据;
具体的,请参阅图1所示,利用爬虫在目标网站的网页上爬取正文文本数据,具体包括如下步骤:
步骤1.1、采集目标网站;
步骤1.2、代码中存入相应的url地址;
步骤1.3、进入该url地址获取正文文本数据,判断是否存在链接至其他新网页的相关url链接,若有,则执行步骤1.4;若无,则结束;
步骤1.4、通过相关url链接进入一个新网页,并获取正文文本数据,判断是否存在链接至其他新网页的相关url链接,若有,则继续执行步骤1.4;若无,则结束。
再参阅图2所示,去除正文文本数据中的无用文本数据具体包括如下步骤:
对网页上的网页信息处理,去除标签、Javascript脚本以及样式脚本,保留除这些特殊网页内容之外的其他文本信息;
对标签的正则表达式匹配,通过不同的标签来识别标题,摘要,正文文本内容等信息,正文内容在title标签后其他标签内的数据;
对网页的标签进行过滤处理,<class>、<p>、<b>的标签一般在内部包含的是目标网页信息中文章篇幅较长的部分,在上个步骤中处理得到的内容中仍然包含较多类似的HTML标签,所以在进行上个步骤后还需要进一步进行过滤。
需要进一步说明的是,该网页为HTML网页,标签为HTML标签。
步骤二、数据预处理,具体包括如下步骤:
分词和词性标注,采用Jieba分词工具对目标文本数据中的词语进行分词处理,并对分词处理后的词语进行词性标注;
具体的,所述Jieba分词工具为Python版本的Jieba分词工具。
停用词过滤,去除分词处理后的目标文本数据中的停用词;
具体的,使用停用词词典来查询去除停用词。
步骤三、候选关键词选取,采用keyBERT值从数据预处理后的目标文本数据中选取候选关键词,并通过BERT模型对选取的候选关键词进行训练,得到对应的词向量,并执行步骤五;
具体的,候选关键词选取算法如下:
首先将数据预处理后的目标文本数据输入到getword函数中,利用函数中已有的n-gram模型来统计并提取候选关键词,满足条件为:关键词长度大于2且小于4,并且满足具有关键字的标志,最后根据关键词长度排序后,输出候选关键词集合。
步骤四、通过Seq2Seq模型从目标文本数据中获取并生成文本摘要,并执行步骤六;
具体的,通过Seq2Seq模型从目标文本数据中获取并生成文本摘要具体包括如下步骤:
Seq2Seq模型构建,主要是Encoder层与Decoder层的构建,即在Encoder层,定义输入的tensor,同时对字母进行Embedding处理,再输入到RNN层;在Decoder端,对target数据进行处理,在构造Decoder时需要构造Embedding,构造Decoder层,构造输出层中的每个时间序列的RNN,训练Decoder,预测Decoder;
Seq2Seq模型训练,在Encoder里定义一个双向的LSTM作为Encoder的部分,而Decoder由一个单向的LSTM和两个线性层构成,前向传播公式为:
Figure 371074DEST_PATH_IMAGE005
其中,
Figure 253580DEST_PATH_IMAGE006
为前向传播的值,即
Figure 606064DEST_PATH_IMAGE007
函数激活的值,
Figure 486295DEST_PATH_IMAGE008
为输入的文本向量,
Figure 924229DEST_PATH_IMAGE009
Figure 344846DEST_PATH_IMAGE010
是每一层的权重,
Figure 551837DEST_PATH_IMAGE011
Figure 399707DEST_PATH_IMAGE012
是每一层的偏置值;
在Attention部分的计算公式为:
Figure 324938DEST_PATH_IMAGE013
其中,
Figure 549246DEST_PATH_IMAGE014
为注意力值,即经过
Figure 17267DEST_PATH_IMAGE015
函数和
Figure 301618DEST_PATH_IMAGE007
函数依次激活的值,
Figure 714145DEST_PATH_IMAGE016
Figure 414248DEST_PATH_IMAGE017
是该部分的输入,
Figure 595830DEST_PATH_IMAGE018
Figure 51082DEST_PATH_IMAGE019
是注意力的第一权重,
Figure 950905DEST_PATH_IMAGE020
是注意力的偏置值,
Figure 251437DEST_PATH_IMAGE021
是注意力的第二权重;
上述
Figure 287526DEST_PATH_IMAGE022
Figure 913679DEST_PATH_IMAGE016
关系又如下式,由于在训练过程中对batch的样本会padding,对于padding的输入需要把填充位置的attention权值过滤掉,然后对剩下位置的attention权值进行归一化处理,从而由文本
Figure 444673DEST_PATH_IMAGE016
得到文本向量
Figure 548896DEST_PATH_IMAGE016
Figure 705070DEST_PATH_IMAGE024
再使用ReduceState模块实现数据降维;
需要进一步说明的是,由于Encoder选择双向LSTM而Decoder选择单向LSTM,所以直接对Encoder的hiddenstate和Decoder的hiddenstate进行运算会出现维度冲突,因此需要维度降维,发明采用的是直接将Encoder的双向LSTM中两个方向的hiddenstate简单相加。
最后文本摘要生成,采用Beam Search算法生成文本摘要。
步骤五、利用以下公式对得到的词向量做距离运算,得到距离值,根据得到的距离值得到对应的候选关键词的相似度:
Figure 502125DEST_PATH_IMAGE025
其中,x、y分别是两个词向量,
Figure 845382DEST_PATH_IMAGE002
为两个词向量的夹角,
Figure 18874DEST_PATH_IMAGE003
为余弦值,
Figure 29555DEST_PATH_IMAGE004
为欧氏距离;
步骤六、采用Simhash算法计算生成的文本摘要的指纹值,并将该指纹值与数据库内预存的其它文本的文本摘要指纹值进行匹配计算,当计算的值小于3时,判定为重复,此时文档上传失败,并返回文档重复结果。
本发明还提供了一种基于深度学习的相似文本检索装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述基于深度学习的相似文本检索方法。
本发明还提供了一种存储介质,存储有处理器可执行的指令,处理器执行所述处理器可执行的指令时执行所述基于深度学习的相似文本检索方法。
对本发明提供的基于深度学习的相似文本检索方法进行实验,包括实验环境、实验方法和结果分析具体如下:
1、实验环境
表1为进行实验的基本环境配置表。
表1实验基本环境表
Figure 997512DEST_PATH_IMAGE026
表2是进行实验前python代码主要需要引用的包。
表2 实验所需主要python 包
Figure 234589DEST_PATH_IMAGE027
2、针对关键词提取方法的结果分析
本节主要是针对词与文本之间文本相似度算法性能的评估。评估标准采用准确率(P)和召回率(R)以及相关关系F来衡量相似度计算的效果。他们的定义如下:
Figure 680614DEST_PATH_IMAGE028
公式当中A、B、C、D 具体含义如下表3 所示。
表3参数表
Figure 811381DEST_PATH_IMAGE029
测试当中,应当选取适当的准确率和召回率,因为大多情况下,召回率和准确率有相对性。
其中TextRank 方法是一种基于图排序的关键词提取方法,因为该方法是目前常用的关键词提取算法,并且TextRank 已广泛应用于工业界,所以选取TextRank 方法做对比能更好的看出本发明提出的方法的实际效果。
下表4 为测试结果对比表。
表4相似度计算实验结果对别表
Figure 887921DEST_PATH_IMAGE030
TextRank是一种基于图排序的测试方法。本发明使用的方法是利用BERT模型提取的关键词,BERT作为取代Word2vec的模型,准确率和效率均得到显著提高,在这个方面发现本发明提到的基于BERT的关键词提取方法是具有实际意义的。本发明利用文本信息的预处理也对最后的实验结果影响较大,下面讲述了预处理时词语长度的取值对测试结果的影响。
经过研究发现长度值小于2大于4的值时获取的关键词效果最佳,测试两次,在信访领域中不同长度的词语为关键词概率和在兵器工业领域中不同长度词语为关键词的概率,结果如图3和4所示。
由图3和4的两次测试的对比说明不同领域当中的关键词概率与长度值息息相关,并不是所有的领域中的候选关键词长度都是2-4之间,所以在判断不同领域的文本相似度计算时所采用的关键词概率提取方式也不同。应当在提取关键词之前根据语料库的方法了解到该领域中关键词的一般长度。
3、针对摘要生成的评测
为了准确了解到在本发明中提出的单本发明与海量文本之间的相似度计算方法有无显著提高,经过实验评比得到评比标准。
在2004年正式使用的一个评价方法ROUGE评价方法,目前应用于多个方面,以判断方法的准确性。他有三种评价方法,分别是ROUGE-N、ROUGE-L和ROUGE-W。
GOUGE-N的计算方式是系统里的文档摘要和人工文档摘要中n-gram的召回率值。
ROUGE-L是根据最长公共子序列来计算系统提取的文本摘要和人工提取的文本摘要之间的相似程度。其假设,如果系统提取的文本摘要和人工提取的文本摘要的公共子序列越长,则其相似程度越大。这两项之间的关系呈正比关系。
ROUGE-W是对ROUGE-L的进一步改进,计算的是带权重的最长公共子序列。在本发明当中采用ROUGE-N的值来衡量文本相似度算法的准确性。
对于经过Seq2Seq模型生成的摘要之间的文本相似度计算,主要衡量结果就是准确率(P)、召回率(R)、F以及以1万篇文档为基准的文本库内,几种文本相似度计算方法所消耗时间的对比,参阅如图5和6所示。
由图5和6中信息可以很明确的得知改进后的算法对比原本的Simhash在P-R-F方面基本保持原来的水准,之后进行了两组方法的时间效率上的对比。通过图7可以明显的发现,本发明提出的方法所需时间明显减少,计算效率大大提高。需要说明的是,图5-7中提到的本文方法即本发明提供的方法。
在对文本进行相似度计算时本发明提出的方法明显具有更好的现实意义。考虑在一些需要提高文本匹配计算效率的场合,本发明的方法明显优于一般方法。
本发明的有益效果如下:借助了生成摘要式生成模型Seq2Seq,该Seq2Seq模型利用其LSTM神经元分析上下文语境情感,生成更贴近于原文本意思相近的文本摘要,应用在系统之中用于上传的逐个文本与文本库内的所有文本进行相似度匹配计算,在运行速度上取得了显著的效果。
在一些可选择的实施例中,在本发明的步骤所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本发明所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本发明中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
本发明实施例还提供了一种存储介质,存储有处理器可执行的指令,处理器执行所述处理器可执行的指令时执行所述检索和相似度分析一体化的方法。
同样可见,上述方法实施例中的内容均适用于本存储介质实施例中,实现的功能和有益效果与方法实施例相同。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
实施例中的步骤表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本说明书的描述中,参考术语“一个实施例”、“本实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种基于深度学习的相似文本检索方法,其特征在于,该方法包括如下步骤:
步骤一、文本采集,利用爬虫在目标网站的网页上爬取正文文本数据,并去除正文文本数据中的无用文本数据,得到目标文本数据;
步骤二、数据预处理,具体包括如下步骤:
分词和词性标注,采用Jieba 分词工具对目标文本数据中的词语进行分词处理,并对分词处理后的词语进行词性标注;
停用词过滤,去除分词处理后的目标文本数据中的停用词;
步骤三、候选关键词选取,采用keyBERT 值从数据预处理后的目标文本数据中选取候选关键词,并通过BERT 模型对选取的候选关键词进行训练,得到对应的词向量,并执行步骤五;
步骤四、通过Seq2Seq 模型从目标文本数据中获取并生成文本摘要,并执行步骤六;
步骤五、利用以下公式对得到的词向量做距离运算,得到距离值,根据得到的距离值得到对应的候选关键词的相似度:
Figure 843832DEST_PATH_IMAGE001
其中,x、y 分别是两个词向量,𝜃为两个词向量的夹角,sim X, Y 为余弦值,dist X, Y
为欧氏距离;
步骤六、采用Simhash 算法计算生成的文本摘要的指纹值,并将该指纹值与数据库内预存的其它文本的文本摘要指纹值进行匹配计算,当计算的值小于3 时,判定为重复。
2.根据权利要求1 所述的一种基于深度学习的相似文本检索方法,其特征在于:在步骤一中,利用爬虫在目标网站的网页上爬取正文文本数据,具体包括如下步骤:
步骤1.1、采集目标网站;
步骤1.2、代码中存入相应的url 地址;
步骤1.3、进入该url 地址获取正文文本数据,判断是否存在链接至其他新网页的相关url 链接,若有,则执行步骤1.4;若无,则结束;
步骤1.4、通过相关url 链接进入一个新网页,并获取正文文本数据,判断是否存在链接至其他新网页的相关url 链接,若有,则继续执行步骤1.4;若无,则结束。
3.根据权利要求1 所述的一种基于深度学习的相似文本检索方法,其特征在于:在步骤一中,去除正文文本数据中的无用文本数据具体包括如下步骤:
对网页上的网页信息处理,去除标签、Javascript 脚本以及样式脚本;
对标签的正则表达式匹配;
对网页的标签进行过滤处理。
4.根据权利要求1所述的一种基于深度学习的相似文本检索方法,其特征在于:在步骤二中,使用停用词词典来查询去除停用词。
5.根据权利要求1所述的一种基于深度学习的相似文本检索方法,其特征在于:在步骤二中,所述Jieba分词工具为Python版本的Jieba分词工具。
6.根据权利要求1或5所述的一种基于深度学习的相似文本检索方法,其特征在于:在步骤四中,通过Seq2Seq模型从目标文本数据中获取并生成文本摘要具体包括如下步骤:
Seq2Seq模型构建,在Encoder层,定义输入的tensor,同时对字母进行Embedding处理,再输入到RNN层;在Decoder端,对target数据进行处理,在构造Decoder时需要构造Embedding,构造Decoder层,构造输出层中的每个时间序列的RNN,训练Decoder,预测Decoder;
Seq2Seq模型训练,在Encoder里定义一个双向的LSTM作为Encoder的部分,而Decoder由一个单向的LSTM和两个线性层构成,前向传播公式为:
Figure 93547DEST_PATH_IMAGE002
其中,
Figure 78821DEST_PATH_IMAGE003
为前向传播的值,即
Figure 326263DEST_PATH_IMAGE004
函数激活的值,
Figure 396987DEST_PATH_IMAGE005
为输入的文本向量,
Figure 450393DEST_PATH_IMAGE006
Figure 224927DEST_PATH_IMAGE007
是每一层的权重,
Figure 705587DEST_PATH_IMAGE008
Figure 998028DEST_PATH_IMAGE009
是每一层的偏置值;
在Attention部分的计算公式为:
Figure 792809DEST_PATH_IMAGE010
其中,
Figure 487095DEST_PATH_IMAGE011
为注意力值,即经过
Figure 138656DEST_PATH_IMAGE012
函数和
Figure 121656DEST_PATH_IMAGE004
函数依次激活的值,
Figure 516865DEST_PATH_IMAGE013
Figure 65658DEST_PATH_IMAGE014
是该部分的输入,
Figure 91383DEST_PATH_IMAGE015
Figure 358416DEST_PATH_IMAGE016
是注意力的第一权重,
Figure 291737DEST_PATH_IMAGE017
是注意力的偏置值,
Figure 960616DEST_PATH_IMAGE018
是注意力的第二权重;
上述
Figure 157242DEST_PATH_IMAGE019
Figure 645992DEST_PATH_IMAGE020
关系又如下式,由于在训练过程中对batch 的样本会padding,对于padding的输入需要把填充位置的attention 权值过滤掉,然后对剩下位置的attention权值进行归一化处理,从而由文本
Figure 648583DEST_PATH_IMAGE020
得到文本向量
Figure 109652DEST_PATH_IMAGE020
Figure 273917DEST_PATH_IMAGE021
再使用ReduceState模块实现数据降维;
最后生成文本摘要,采用Beam Search算法生成文本摘要。
7.一种基于深度学习的相似文本检索装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-6任一项所述基于深度学习的相似文本检索方法。
8.一种存储介质,存储有处理器可执行的指令,其特征在于:处理器执行所述处理器可执行的指令时执行如权利要求1-6任一项所述基于深度学习的相似文本检索方法。
CN202111132371.1A 2021-09-27 2021-09-27 一种基于深度学习的相似文本检索方法、装置及存储介质 Pending CN113590763A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111132371.1A CN113590763A (zh) 2021-09-27 2021-09-27 一种基于深度学习的相似文本检索方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111132371.1A CN113590763A (zh) 2021-09-27 2021-09-27 一种基于深度学习的相似文本检索方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN113590763A true CN113590763A (zh) 2021-11-02

Family

ID=78242372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111132371.1A Pending CN113590763A (zh) 2021-09-27 2021-09-27 一种基于深度学习的相似文本检索方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113590763A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187997A (zh) * 2021-11-16 2022-03-15 同济大学 一种面向抑郁人群的心理咨询聊天机器人实现方法
CN115310564A (zh) * 2022-10-11 2022-11-08 北京睿企信息科技有限公司 一种分类标签更新方法及系统
WO2023173537A1 (zh) * 2022-03-17 2023-09-21 平安科技(深圳)有限公司 文本情感分析方法、装置、设备及存储介质
KR20230166332A (ko) * 2022-05-30 2023-12-07 국민대학교산학협력단 딥러닝 기반 고객 관점 중요 키워드 도출 장치 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN109471933A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110348014A (zh) * 2019-07-10 2019-10-18 电子科技大学 一种基于深度学习的语义相似度计算方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN109471933A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110348014A (zh) * 2019-07-10 2019-10-18 电子科技大学 一种基于深度学习的语义相似度计算方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
O.LEVY等: "Neural word embedding as implicit matrix factorization", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
梅玉婷等: "深度学习在文本相似度中的应用", 《现代计算机》 *
陆亚男: "基于深度学习的摘要生成模型研究", 《中国优秀硕士学位论文》 *
陈露: "基于主题的多线程网络爬虫系统的研究与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187997A (zh) * 2021-11-16 2022-03-15 同济大学 一种面向抑郁人群的心理咨询聊天机器人实现方法
WO2023173537A1 (zh) * 2022-03-17 2023-09-21 平安科技(深圳)有限公司 文本情感分析方法、装置、设备及存储介质
KR20230166332A (ko) * 2022-05-30 2023-12-07 국민대학교산학협력단 딥러닝 기반 고객 관점 중요 키워드 도출 장치 및 방법
KR102656015B1 (ko) 2022-05-30 2024-04-09 국민대학교산학협력단 딥러닝 기반 고객 관점 중요 키워드 도출 장치 및 방법
CN115310564A (zh) * 2022-10-11 2022-11-08 北京睿企信息科技有限公司 一种分类标签更新方法及系统
CN115310564B (zh) * 2022-10-11 2023-01-13 北京睿企信息科技有限公司 一种分类标签更新方法及系统

Similar Documents

Publication Publication Date Title
CN113590763A (zh) 一种基于深度学习的相似文本检索方法、装置及存储介质
Wang et al. Common sense knowledge for handwritten chinese text recognition
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
Valarakos et al. Enhancing ontological knowledge through ontology population and enrichment
Zu et al. Resume information extraction with a novel text block segmentation algorithm
JP2022508738A (ja) 特許文書を検索するための方法
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
JP2022508737A (ja) 自然言語文書を検索するシステム
US20210397790A1 (en) Method of training a natural language search system, search system and corresponding use
Sivakumar Effectual web content mining using noise removal from web pages
US20190205470A1 (en) Hypotheses generation using searchable unstructured data corpus
CN111651675A (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
Fisichella Siamese coding network and pair similarity prediction for near-duplicate image detection
Almugbel et al. Automatic structured abstract for research papers supported by tabular format using NLP
Liu Automatic argumentative-zoning using word2vec
CN112417147A (zh) 训练样本的选取方法与装置
Hovy et al. Extending metadata definitions by automatically extracting and organizing glossary definitions
Chahal et al. An ontology based approach for finding semantic similarity between web documents
CN115757760A (zh) 文本摘要提取方法及系统、计算设备、存储介质
Lingwal Noise reduction and content retrieval from web pages
CN117688140B (zh) 文档查询方法、装置、计算机设备和存储介质
CN113553839B (zh) 一种文本原创识别方法、装置、电子设备及存储介质
Shi Transformer-F: A Transformer network with effective methods for learning universal sentence representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211102

RJ01 Rejection of invention patent application after publication