CN110738049B - 相似文本的处理方法、装置及计算机可读存储介质 - Google Patents

相似文本的处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110738049B
CN110738049B CN201910975841.7A CN201910975841A CN110738049B CN 110738049 B CN110738049 B CN 110738049B CN 201910975841 A CN201910975841 A CN 201910975841A CN 110738049 B CN110738049 B CN 110738049B
Authority
CN
China
Prior art keywords
text
comparison
keyword
dictionary
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910975841.7A
Other languages
English (en)
Other versions
CN110738049A (zh
Inventor
黄晨
徐楠
张蓓
刘屹
沈志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Finance Technology Co Ltd
Original Assignee
China Merchants Finance Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Finance Technology Co Ltd filed Critical China Merchants Finance Technology Co Ltd
Priority to CN201910975841.7A priority Critical patent/CN110738049B/zh
Publication of CN110738049A publication Critical patent/CN110738049A/zh
Application granted granted Critical
Publication of CN110738049B publication Critical patent/CN110738049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种人工智能技术,揭露了一种相似文本的处理方法,包括:根据用户输入的关键词集搜索得到原始文本集;对所述原始文本集与用户输入的比对文件通过海明距离相似度计算,执行对所述原始文本集内第一次筛选操作,得到优化文本集;进一步地对所述优化文本集及所述比对文件通过余弦相似度计算,执行对所述优化文本集内的第二次筛选操作,完成相似文本的处理,得到搜索文本集,将所述搜索文本集反馈给用户。本发明还提出一种相似文本的处理装置以及一种计算机可读存储介质。本发明可以实现精准高效的相似文本的处理功能。

Description

相似文本的处理方法、装置及计算机可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种相似文本的处理的方法、装置及计算机可读存储介质。
背景技术
从海量文本数据中找寻用户感兴趣的文本已经成为热门趋势,但由于海量文本数据中包括大量相似度高的文本数据,如何对相似文本进行去重同样也是重要环节。目前常见的编辑距离、Jaccard相似度等计算文本相似度的方法由于计算复杂度的原因在海量文本数据下并不适用,且缺少二次去重,去重精度有待提升。
发明内容
本发明提供一种相似文本的处理方法、装置及计算机可读存储介质,其主要目的在于提供一种对文本数据集进行二次筛选的相似文本处理方案。
为实现上述目的,本发明提供的一种相似文本的处理方法,包括:
接收用户输入的比对文本和关键词集,将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序;
运行所述文本爬虫程序爬取得到与所述关键词集相关的原始文本集;
将所述比对文本和所述原始文本集分别进行离散化处理,得到比对词典和离散文本集;
将所述比对词典和所述离散文本集分别进行哈希转化,得到比对数字签名集和文本数字签名集,计算所述比对数字签名集和所述文本数字签名集的海明距离相似度,得到海明距离相似度集,根据所述海明距离相似度集从所述原始文本集内去除一个或者多个文本,得到优化文本集;
分别计算所述比对词典和所述优化文本集的独热向量,得到词典独热向量集和优化文本独热向量集,计算所述词典独热向量集和所述优化文本独热向量集的余弦相似度,得到余弦相似度集,根据所述余弦相似度集去除所述优化文本集内的一个或者多个文本,完成相似文本的处理,得到搜索文本集,将所述搜索文本集反馈给用户。
可选地,所述离散化处理包括:
使用动态规划法则寻找所述比对文本和所述原始文本集的所有的词语切分组合;
计算每种词语切分组合下的词语权重;
遍历得到数值最大的词语权重所对应的词语切分组合,得到该词语切分组合下的比对词典和离散文本集。
可选地,所述使用动态规划法则寻找所述比对文本和所述原始文本集所有的词语切分组合,包括:
构建基于所述比对文本和所述原始文本集的梯度下降算法和迭代函数;
求解所述迭代函数的切分参数;
根据切分参数的不同,求解所述梯度下降算法的结果值,根据所述结果值得到不同的词语切分组合。
可选地,该方法还包括:
将所述关键词集进行拆分,得到标题关键字集和文本内容关键字集;及
所述将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序,包括:
将所述标题关键字集输入至所述文本爬虫框架内的标题关键字搜索函数内;
将所述文本内容关键字集输入至所述文本爬虫框架内的文本内容关键字搜索函数内;
编译添加了所述标题关键字集和所述文本内容关键字集的文本爬虫框架,若所述编译未通过,提示用户编译失败并重新接收所述关键词集,若所述编译通过,则生成所述文本爬虫程序。
可选地,所述余弦相似度的计算方法为:
COSsim_AB=||A||||B||cosδ
其中,A表示所述比对词典内词语的向量表示或哈希表示,B表示所述离散文本集内词语的向量表示或哈希表示,||A||表示取模运算,cosδ为所述比对词典内词语与所述离散文本集内词语的余弦值,所述余弦值的计算方法为:
Figure BDA0002231702160000031
其中,
Figure BDA0002231702160000032
表示所述词典独热向量集内的独热向量,
Figure BDA0002231702160000033
表示所述优化文本独热向量集内的独热向量。
此外,为实现上述目的,本发明还提供一种相似文本的处理装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的相似文本的处理程序,所述相似文本的处理程序被所述处理器执行时实现如下步骤:
接收用户输入的比对文本和关键词集,将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序;
运行所述文本爬虫程序爬取得到与所述关键词集相关的原始文本集;
将所述比对文本和所述原始文本集分别进行离散化处理,得到比对词典和离散文本集;
将所述比对词典和所述离散文本集分别进行哈希转化,得到比对数字签名集和文本数字签名集,计算所述比对数字签名集和所述文本数字签名集的海明距离相似度,得到海明距离相似度集,根据所述海明距离相似度集从所述原始文本集内去除一个或者多个文本,得到优化文本集;
分别计算所述比对词典和所述优化文本集的独热向量,得到词典独热向量集和优化文本独热向量集,计算所述词典独热向量集和所述优化文本独热向量集的余弦相似度,得到余弦相似度集,根据所述余弦相似度集去除所述优化文本集内的一个或者多个文本,完成相似文本的处理,得到搜索文本集,将所述搜索文本集反馈给用户。
可选地,所述离散化处理包括:
计算每种词语切分组合下的词语权重;
遍历得到数值最大的词语权重所对应的词语切分组合,得到该词语切分组合下的比对词典和离散文本集。
可选地,所述使用动态规划法则寻找所述比对文本和所述原始文本集所有的词语切分组合,包括:
构建基于所述比对文本和所述原始文本集的梯度下降算法和迭代函数;
求解所述迭代函数的切分参数;
根据切分参数的不同,求解所述梯度下降算法的结果值,根据所述结果值得到不同的词语切分组合。
可选地,所述相似文本的处理程序被所述处理器执行时还实现如下步骤:
将所述关键词集进行拆分,得到标题关键字集和文本内容关键字集;及
所述将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序,包括:
将所述标题关键字集输入至所述文本爬虫框架内的标题关键字搜索函数内;
将所述文本内容关键字集输入至所述文本爬虫框架内的文本内容关键字搜索函数内;
编译添加了所述标题关键字集和所述文本内容关键字集的文本爬虫框架,若所述编译未通过,提示用户编译失败并重新接收所述关键词集,若所述编译通过,则生成所述文本爬虫程序。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有相似文本的处理程序,所述相似文本的处理程序可被一个或者多个处理器执行,以实现如上所述的相似文本的处理方法的步骤。
本发明首先根据用户所提供的关键字集和预先构建的文本爬虫程序爬取到与所述关键词集相关的原始文本集,再根据用户提供的对比文本,对所述原始文本集进行初次筛选,得到优化文本集,从而避免一些不需要的文本进行后续的相似度计算,以进行第二次筛选,从而降低了计算压力,同时使用计算简单的海明距离相似度和余弦相似度,降低了计算复杂度,并且基于两种相似度进行二次去重,提高了文本去重精度。因此本发明提出的相似文本的处理方法、装置及计算机可读存储介质,可以实现简便精确的文本去重功能。
附图说明
图1为本发明一实施例提供的相似文本的处理方法的流程示意图;
图2为本发明一实施例提供的相似文本的处理装置的内部结构示意图;
图3为本发明一实施例提供的相似文本的处理装置中相似文本的处理程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种相似文本的处理方法。参照图1所示,为本发明一实施例提供的相似文本的处理方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,相似文本的处理方法包括:
S1、接收用户输入的比对文本和关键词集,将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序。
本发明的目的是帮助用户搜索需要的文本数据,并将搜索出的文本数据经过一系列筛选操作得到优化后的文本,从而更贴合用户最终需要。所述比对文本是进行文本去重的参照文本,如用户看到了一篇关于国庆庆祝的新闻,故想要进一步了解已看过的国庆庆祝的新闻之外的其他国庆文本新闻,因此所述已看过的国庆庆祝的新闻即为所述比对文本,而国庆即为所述比对文本的关键词,若用户仅仅想了解的是中国的国庆,则所述关键字集包括:中国、国庆两个关键字。
所述文本爬虫程序的作用是根据所述关键词集从相关网站爬取与所述关键词集相关的文本数据集。所述文本爬虫框架是预先采用Python语言编写好的,缺失函数参数的所有程序,如获得网页URL程序,抓取网页文本内容的程序等,网页搜索程序等。
进一步地,所述S1还可以包括:将所述关键词集进行拆分,得到标题关键字集和文本内容关键字集。
详细地,本发明将所述关键词集按照标题搜索及文本内容搜索的形式进行拆分,得到所述标题关键字集和文本内容关键字集,并将所述标题关键字集和文本内容关键字集输入至预先构建的文本爬虫框架中。
优选地,所述将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序,包括:提示用户根据所述关键词集进行标题关键字选择和文本内容关键字选择,得到标题关键字集和文本内容关键字集,将所述标题关键字集输入至所述文本爬虫框架内的标题关键字搜索函数内,将所述文本内容关键字集输入至所述文本爬虫框架内的文本内容关键字搜索函数内,编译添加了所述标题关键字集和所述文本内容关键字集的文本爬虫框架,若所述编译未通过,提示用户编译失败并重新接收所述关键词集,若所述编译通过,则生成所述文本爬虫程序。
进一步地,所述标题关键字搜索函数较佳地存在形式为:
Def title_search(title_key_words):{文本爬取代码}
所述文本内容关键字搜索函数较佳地存在形式为:
Def text_search(text_key_words):{文本爬取代码}
如用户输入的关键字集包括:中国、国庆两个关键字,用户选择将国庆作为标题关键字,将中国作为文本内容关键字,则上述的标题关键字搜索函数和文本内容关键字搜索函数分别变为:
Def title_search(国庆):{文本爬取代码}
Def text_search(中国):{文本爬取代码}
进一步地,所述编译的作用是将所述文本爬虫框架转化为计算机可识别的可执行程序。
S2、运行所述文本爬虫程序爬取得到与所述关键词集相关的原始文本集。
较佳地,因为所述文本爬虫程序是已经编译成功的可执行程序,通过直接运行所述可执行程序后,可自动的从网页中爬取到与所述所述关键词集相关的文本数据得到原始文本集。
S3、将所述比对文本和所述原始文本集分别进行离散化处理,得到比对词典和离散文本集。
详细地,所述离散化处理包括:使用动态规划法则寻找所述比对文本和所述原始文本集所有的词语切分组合,计算每种词语切分组合下的词语权重,遍历得到数值最大的词语权重所对应的词语切分组合,得到该词语切分组合下的比对词典和离散文本集。
进一步地,所述动态规划法则寻找词语切分组合包括:构建基于所述比对文本和所述原始文本集的梯度下降算法和迭代函数,求解所述迭代函数的切分参数,根据切分参数的不同求解所述梯度下降算法的结果值,根据结果值得到不同的词语切分组合。
优选地,所述梯度下降算法为:
Figure BDA0002231702160000071
其中,θ为所述切分参数,J(θ)为基于所述θ下不同的切分组合,xi表示所述比对文本或所述原始文本集第i个词语的向量表示,
Figure BDA0002231702160000072
表示所述比对文本或所述原始文本集第j个词语的向量表示,t表示在第j个词语前,已有多少个向量表示的词语,T表示矩阵的转置。
所述迭代函数为:
Figure BDA0002231702160000073
其中,δ为迭代函数的噪声参数。
进一步地,所述词语权重的计算方法为:
Figure BDA0002231702160000074
其中,WS(xi)表示第i个词语的权重,d为阻尼系数,In(xi)表示所述在未做词语切分时的情况,本发明未做词语切分时即为所述比对文本或所述原始文本集,out(xi)表示已完成所述词语切分组合下的情况,TextRank(xi)表示根据TextRank算法所计算出的词语关键度得分,wi表示第i个词语在out(xi)词语切分组合下的出现比例。
S4、将所述比对词典和所述离散文本集分别进行哈希转化,得到比对数字签名集和文本数字签名集,计算所述比对数字签名集和所述文本数字签名集的海明距离相似度,得到海明距离相似度集,根据所述海明距离相似度集从所述原始文本集内去除一个或者多个文本,得到优化文本集。
详细地,所述哈希转化可使用哈希转化算法(如HashMap算法、APHash算法等)进行操作得到比对数字签名集和文本数字签名集。由于哈希转化后的数字签名集都是二进制形式,如比对数字签名集为[1010,101010,11101,10111,…],文本数字签名集为:{文本A:[101110,111100,101,11001,…],文本B:[1101110,10100,10101,…],文本C:[10110,1001,100011,110010,…],…},故用传统的相似度计算方法并不精确,所述海明距离相似度是通过比对每个二进制数值在位数上的不同,从而达到相似度判断的目的。如二进制数据10101和二进制数据00110从第一位开始依次有第一位、第四、第五位不同,则海明距离相似度为3。结合以上所述,如比对数字签名集为[1010,101010,…],文本数字签名集为:{文本A:[101110,111100,…],文本B:[1101110,…],文本C:[10110,1001,,…],…},分别计算所述比对数字签名集与所述文本数字签名集中文本A、文本B、文本C等的海明距离相似度,并取距离相似度的平均值得到海明距离相似度集为[4,7,3,9,1,…]。
详细地,本发明所述去除的方式可以由用户设置。如用户输入的比对文件是关于国庆庆祝的新闻,用户想要了解其他相关的国庆文本新闻,则输入的关键字集包括:中国、国庆。进一步地,若用户是想寻找跟作为比对文件的所述国庆庆祝新闻在文本内容和题目内容大不一样,但文本的关键字相同,都是围绕中国、国庆而撰写的新闻时,所述去除方式是去除海明距离相似度大的相似文本;若用户想寻找跟作为比对文件的所述国庆庆祝新闻在文本内容和题目内容都相关,则所述去除方式是去除海明距离相似度小的相似文本。
本发明可设置一个相似度阈值,计算海明距离相似度和所述相似度阈值的大小关系,根据所述大小关系进行去除操作得到优化离散文本集。
S5、分别计算所述比对词典和所述优化文本集的独热向量,得到词典独热向量集和优化文本独热向量集,计算所述词典独热向量集和所述优化文本独热向量集的余弦相似度,得到余弦相似度集,根据所述余弦相似度集去除所述优化文本集内的一个或者多个文本,完成相似文本的处理,得到搜索文本集,将所述搜索文本集反馈给用户。
详细地,所述独热向量的计算方式可采用one-hot独热编码方式,如所述国庆文本新闻的对比词典为{“我”,“爱”,“中国”,“无论”,“走到”,“哪里”,“都”,“忘不了”},所述对比词典总有8个词语,则依次进行计算每个词的独热向量得到:“我”[1,0,0,0,0,0,0,0],“中国”[0,1,0,0,0,0,0,0],“无论”[0,0,1,0,0,0,0,0]…,汇总所述对比词典的每个词的独热向量得到所述词典独热向量集,依次类推。对所述优化文本集进行独热向量计算得到优化文本独热向量集采用相同的方式。
所述余弦相似度的计算方法为:
COSsim_AB=||A||||B||cosδ
其中,A表示所述比对词典内词语的向量表示或哈希表示,B表示所述离散文本集内词语的向量表示或哈希表示,||A||表示取模运算,cosδ为所述比对词典内词语与所述离散文本集内词语的余弦值,所述余弦值的计算方法为:
Figure BDA0002231702160000091
其中,
Figure BDA0002231702160000092
表示所述词典独热向量集内的独热向量,
Figure BDA0002231702160000093
表示所述优化文本独热向量集内的独热向量。
详细地,根据所述余弦相似度集进行去除的目的是为了进行二次文本去重,以提高文本去重的精确度。同样的,根据所述余弦相似度集去除的方式与所述海明距离相似度集去除的方式相同,都可以由用户设置,或直接与所述海明距离相似度集去除方式相同。
本发明还提供一种相似文本的处理装置。参照图2所示,为本发明一实施例提供的相似文本的处理装置的内部结构示意图。
在本实施例中,所述相似文本的处理装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该相似文本的处理装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是相似文本的处理装置1的内部存储单元,例如该相似文本的处理装置1的硬盘。存储器11在另一些实施例中也可以是相似文本的处理装置1的外部存储设备,例如相似文本的处理装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括相似文本的处理装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于相似文本的处理装置1的应用软件及各类数据,例如相似文本的处理程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行相似文本的处理程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在相似文本的处理装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及相似文本的处理程序01的相似文本的处理装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对相似文本的处理装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有相似文本的处理程序01;处理器12执行存储器11中存储的相似文本的处理程序01时实现如下步骤:
步骤一、接收用户输入的比对文本和关键词集,将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序。
本发明的目的是帮助用户搜索需要的文本数据,并将搜索出的文本数据经过一系列去重操作得到优化后的文本,从而更贴合用户最终需要。所述比对文本是进行文本去重的参照文本,如用户看到了一篇关于国庆庆祝的新闻,故想要进一步了解已看过的国庆庆祝的新闻之外的其他国庆文本新闻,因此所述已看过的国庆庆祝的新闻即为所述比对文本,而国庆即为所述比对文本的关键词,若用户仅仅想了解的是中国的国庆,则所述关键字集包括:中国、国庆两个关键字。
所述文本爬虫程序的作用是根据所述关键词集从相关网站爬取与所述关键词集相关的文本数据集。所述文本爬虫框架是预先采用Python语言编写好的,缺失函数参数的所有程序,如获得网页URL程序,抓取网页文本内容的程序等,网页搜索程序等。
进一步地,所述步骤一还可以包括:将所述关键词集进行拆分,得到标题关键字集和文本内容关键字集。
详细地,本发明将所述关键词集按照标题搜索及文本内容搜索的形式进行拆分,得到所述标题关键字集和文本内容关键字集,并将所述标题关键字集和文本内容关键字集输入至预先构建的文本爬虫框架中。
优选地,所述将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序,包括:提示用户根据所述关键词集进行标题关键字选择和文本内容关键字选择,得到标题关键字集和文本内容关键字集,将所述标题关键字集输入至所述文本爬虫框架内的标题关键字搜索函数内,将所述文本内容关键字集输入至所述文本爬虫框架内的文本内容关键字搜索函数内,编译添加了所述标题关键字集和所述文本内容关键字集的文本爬虫框架,若所述编译未通过,提示用户编译失败并重新接收所述关键词集,若所述编译通过,则生成所述文本爬虫程序。
进一步地,所述标题关键字搜索函数较佳地存在形式为:
Def title_search(title_key_words):{文本爬取代码}
所述文本内容关键字搜索函数较佳地存在形式为:
Def text_search(text_key_words):{文本爬取代码}
如用户输入的关键字集包括:中国、国庆两个关键字,用户选择将国庆作为标题关键字,将中国作为文本内容关键字,则上述的标题关键字搜索函数和文本内容关键字搜索函数分别变为:
Def title_search(国庆):{文本爬取代码}
Def text_search(中国):{文本爬取代码}
进一步地,所述编译的作用是将所述文本爬虫框架转化为计算机可识别的可执行程序。
步骤二、运行所述文本爬虫程序爬取得到与所述关键词集相关的原始文本集。
较佳地,因为所述文本爬虫程序是已经编译成功的可执行程序,通过直接运行所述可执行程序后,可自动的从网页中爬取到与所述所述关键词集相关的文本数据得到原始文本集。
步骤三、将所述比对文本和所述原始文本集分别进行离散化处理,得到比对词典和离散文本集。
详细地,所述离散化处理包括:使用动态规划法则寻找所述比对文本和所述原始文本集所有的词语切分组合,计算每种词语切分组合下的词语权重,遍历得到数值最大的词语权重所对应的词语切分组合,得到该词语切分组合下的比对词典和离散文本集。
进一步地,所述动态规划法则寻找词语切分组合包括:构建基于所述比对文本和所述原始文本集的梯度下降算法和迭代函数,求解所述迭代函数的切分参数,根据切分参数的不同求解所述梯度下降算法的结果值,根据结果值得到不同的词语切分组合。
优选地,所述梯度下降算法为:
Figure BDA0002231702160000121
其中,θ为所述切分参数,J(θ)为基于所述θ下不同的切分组合,xi表示所述比对文本或所述原始文本集第i个词语的向量表示,
Figure BDA0002231702160000122
表示所述比对文本或所述原始文本集第j个词语的向量表示,t表示在第j个词语前,已有多少个向量表示的词语,T表示矩阵的转置。
所述迭代函数为:
Figure BDA0002231702160000123
其中,δ为迭代函数的噪声参数。
进一步地,所述词语权重的计算方法为:
Figure BDA0002231702160000124
其中,WS(xi)表示第i个词语的权重,d为阻尼系数,In(xi)表示所述在未做词语切分时的情况,本发明未做词语切分时即为所述比对文本或所述原始文本集,out(xi)表示已完成所述词语切分组合下的情况,TextRank(xi)表示根据TextRank算法所计算出的词语关键度得分,wi表示第i个词语在out(xi)词语切分组合下的出现比例。
步骤四、将所述比对词典和所述离散文本集分别进行哈希转化,得到比对数字签名集和文本数字签名集,计算所述比对数字签名集和所述文本数字签名集的海明距离相似度,得到海明距离相似度集,根据所述海明距离相似度集从所述原始文本集内去除一个或者多个文本,得到优化文本集。
详细地,所述哈希转化可使用哈希转化算法(如HashMap算法、APHash算法等)进行操作得到比对数字签名集和文本数字签名集。由于哈希转化后的数字签名集都是二进制形式,如比对数字签名集为[1010,101010,11101,10111,…],文本数字签名集为:{文本A:[101110,111100,101,11001,…],文本B:[1101110,10100,10101,…],文本C:[10110,1001,100011,110010,…],…},故用传统的相似度计算方法并不精确,所述海明距离相似度是通过比对每个二进制数值在位数上的不同,从而达到相似度判断的目的。如二进制数据10101和二进制数据00110从第一位开始依次有第一位、第四、第五位不同,则海明距离相似度为3。结合以上所述,如比对数字签名集为[1010,101010,…],文本数字签名集为:{文本A:[101110,111100,…],文本B:[1101110,…],文本C:[10110,1001,,…],…},分别计算所述比对数字签名集与所述文本数字签名集中文本A、文本B、文本C等的海明距离相似度,并取距离相似度的平均值得到海明距离相似度集为[4,7,3,9,1,…]。
详细地,本发明所述去除的方式可以由用户设置。如用户输入的比对文件是关于国庆庆祝的新闻,用户想要了解其他相关的国庆文本新闻,则输入的关键字集包括:中国、国庆。进一步地,若用户是想寻找跟作为比对文件的所述国庆庆祝新闻在文本内容和题目内容大不一样,但文本的关键字相同,都是围绕中国、国庆而撰写的新闻时,所述去除方式是去除海明距离相似度大的相似文本;若用户想寻找跟作为比对文件的所述国庆庆祝新闻在文本内容和题目内容都相关,则所述去除方式是去除海明距离相似度小的相似文本。
本发明可设置一个相似度阈值,计算海明距离相似度和所述相似度阈值的大小关系,根据所述大小关系进行去除操作得到优化离散文本集。
步骤五、分别计算所述比对词典和所述优化文本集的独热向量,得到词典独热向量集和优化文本独热向量集,计算所述词典独热向量集和所述优化文本独热向量集的余弦相似度,得到余弦相似度集,根据所述余弦相似度集去除所述优化文本集内的一个或者多个文本,完成相似文本的处理,得到搜索文本集,将所述搜索文本集反馈给用户。
详细地,所述独热向量的计算方式可采用one-hot独热编码方式,如所述国庆文本新闻的对比词典为{“我”,“爱”,“中国”,“无论”,“走到”,“哪里”,“都”,“忘不了”},所述对比词典总有8个词语,则依次进行计算每个词的独热向量得到:“我”[1,0,0,0,0,0,0,0],“中国”[0,1,0,0,0,0,0,0],“无论”[0,0,1,0,0,0,0,0]…,汇总所述对比词典的每个词的独热向量得到所述词典独热向量集,依次类推。对所述优化文本集进行独热向量计算得到优化文本独热向量集采用相同的方式。
所述余弦相似度的计算方法为:
COSsim_AB=||A||||B||cosδ
其中,A表示所述比对词典内词语的向量表示或哈希表示,B表示所述离散文本集内词语的向量表示或哈希表示,||A||表示取模运算,cosδ为所述比对词典内词语与所述离散文本集内词语的余弦值,所述余弦值的计算方法为:
Figure BDA0002231702160000141
其中,
Figure BDA0002231702160000142
表示所述词典独热向量集内的独热向量,
Figure BDA0002231702160000143
表示所述优化文本独热向量集内的独热向量。
详细地,根据所述余弦相似度集进行去除的目的是为了进行二次文本去重,以提高文本去重的精确度。同样的,根据所述余弦相似度集去除的方式与所述海明距离相似度集去除的方式相同,都可以由用户设置,或直接与所述海明距离相似度集去除方式相同。
可选地,在其他实施例中,相似文本的处理程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述相似文本的处理程序在相似文本的处理装置中的执行过程。
例如,参照图3所示,为本发明相似文本的处理装置一实施例中的相似文本的处理程序的程序模块示意图,该实施例中,所述相似文本的处理程序可以被分割为数据接收模块10、搜索模块20、文本处理模块30、初次筛选模块40、二次筛选模块50,示例性地:
所述数据接收模块10用于:接收用户输入的比对文本和关键词集,将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序。
所述搜索模块20用于:运行所述文本爬虫程序爬取得到与所述关键词集相关的原始文本集。
所述文本处理模块30用于:将所述比对文本和所述原始文本集分别进行离散化处理,得到比对词典和离散文本集。
所述初次筛选模块40用于:将所述比对词典和所述离散文本集分别进行哈希转化,得到比对数字签名集和文本数字签名集,计算所述比对数字签名集和所述文本数字签名集的海明距离相似度,得到海明距离相似度集,根据所述海明距离相似度集从所述原始文本集内去除一个或者多个文本,得到优化文本集。
所述二次筛选模块50用于:分别计算所述比对词典和所述优化文本集的独热向量,得到词典独热向量集和优化文本独热向量集,计算所述词典独热向量集和所述优化文本独热向量集的余弦相似度,得到余弦相似度集,根据所述余弦相似度集去除所述优化文本集内的一个或者多个文本,完成相似文本的处理,得到搜索文本集,将所述搜索文本集反馈给用户。
上述数据接收模块10、搜索模块20、文本处理模块30、初次筛选模块40、二次筛选模块50等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有相似文本的处理程序,所述相似文本的处理程序可被一个或多个处理器执行,以实现如下操作:
接收用户输入的比对文本和关键词集,将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序;
运行所述文本爬虫程序爬取得到与所述关键词集相关的原始文本集;
将所述比对文本和所述原始文本集分别进行离散化处理,得到比对词典和离散文本集;
将所述比对词典和所述离散文本集分别进行哈希转化,得到比对数字签名集和文本数字签名集,计算所述比对数字签名集和所述文本数字签名集的海明距离相似度,得到海明距离相似度集,根据所述海明距离相似度集从所述原始文本集内去除一个或者多个文本,得到优化文本集;
分别计算所述比对词典和所述优化文本集的独热向量,得到词典独热向量集和优化文本独热向量集,计算所述词典独热向量集和所述优化文本独热向量集的余弦相似度,得到余弦相似度集,根据所述余弦相似度集去除所述优化文本集内的一个或者多个文本,完成相似文本的处理,得到搜索文本集,将所述搜索文本集反馈给用户。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种相似文本的处理方法,其特征在于,所述方法包括:
接收用户输入的比对文本和关键词集,将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序;
运行所述文本爬虫程序爬取得到与所述关键词集相关的原始文本集;
将所述比对文本和所述原始文本集分别进行离散化处理,得到比对词典和离散文本集;
将所述比对词典和所述离散文本集分别进行哈希转化,得到比对数字签名集和文本数字签名集,计算所述比对数字签名集和所述文本数字签名集的海明距离相似度,得到海明距离相似度集,根据所述海明距离相似度集从所述原始文本集内去除一个或者多个文本,得到优化文本集;
分别计算所述比对词典和所述优化文本集的独热向量,得到词典独热向量集和优化文本独热向量集,计算所述词典独热向量集和所述优化文本独热向量集的余弦相似度,得到余弦相似度集,根据所述余弦相似度集去除所述优化文本集内的一个或者多个文本,完成相似文本的处理,得到搜索文本集,将所述搜索文本集反馈给用户。
2.如权利要求1所述的相似文本的处理方法,其特征在于,所述离散化处理包括:
使用动态规划法则寻找所述比对文本和所述原始文本集的所有的词语切分组合;
计算每种词语切分组合下的词语权重;
遍历得到数值最大的词语权重所对应的词语切分组合,得到该词语切分组合下的比对词典和离散文本集。
3.如权利要求2所述的相似文本的处理方法,其特征在于,所述使用动态规划法则寻找所述比对文本和所述原始文本集所有的词语切分组合,包括:
构建基于所述比对文本和所述原始文本集的梯度下降算法和迭代函数;
求解所述迭代函数的切分参数;
根据切分参数的不同,求解所述梯度下降算法的结果值,根据所述结果值得到不同的词语切分组合。
4.如权利要求1至3中任意一项所述的相似文本的处理方法,其特征在于,该方法还包括:
将所述关键词集进行拆分,得到标题关键字集和文本内容关键字集;及
所述将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序,包括:
将所述标题关键字集输入至所述文本爬虫框架内的标题关键字搜索函数内;
将所述文本内容关键字集输入至所述文本爬虫框架内的文本内容关键字搜索函数内;
编译添加了所述标题关键字集和所述文本内容关键字集的文本爬虫框架,若所述编译未通过,提示用户编译失败并重新接收所述关键词集,若所述编译通过,则生成所述文本爬虫程序。
5.如权利要求1至3中任意一项所述的相似文本的处理方法,其特征在于,所述余弦相似度的计算方法为:
COSsim_AB=||A||||B||cosδ
其中,A表示所述比对词典内词语的向量表示或哈希表示,B表示所述离散文本集内词语的向量表示或哈希表示,||A||表示取模运算,cosδ为所述比对词典内词语与所述离散文本集内词语的余弦值,所述余弦值的计算方法为:
Figure FDA0004116667790000021
其中,
Figure FDA0004116667790000022
表示所述词典独热向量集内的独热向量,
Figure FDA0004116667790000023
表示所述优化文本独热向量集内的独热向量。
6.一种相似文本的处理装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的相似文本的处理程序,所述相似文本的处理程序被所述处理器执行时实现如下步骤:
接收用户输入的比对文本和关键词集,将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序;
运行所述文本爬虫程序爬取得到与所述关键词集相关的原始文本集;
将所述比对文本和所述原始文本集分别进行离散化处理,得到比对词典和离散文本集;
将所述比对词典和所述离散文本集分别进行哈希转化,得到比对数字签名集和文本数字签名集,计算所述比对数字签名集和所述文本数字签名集的海明距离相似度,得到海明距离相似度集,根据所述海明距离相似度集从所述原始文本集内去除一个或者多个文本,得到优化文本集;
分别计算所述比对词典和所述优化文本集的独热向量,得到词典独热向量集和优化文本独热向量集,计算所述词典独热向量集和所述优化文本独热向量集的余弦相似度,得到余弦相似度集,根据所述余弦相似度集去除所述优化文本集内的一个或者多个文本,完成相似文本的处理,得到搜索文本集,将所述搜索文本集反馈给用户。
7.如权利要求6所述的相似文本的处理装置,其特征在于,所述离散化处理包括:
使用动态规划法则寻找所述比对文本和所述原始文本集的所有的词语切分组合;
计算每种词语切分组合下的词语权重;
遍历得到数值最大的词语权重所对应的词语切分组合,得到该词语切分组合下的比对词典和离散文本集。
8.如权利要求7所述的相似文本的处理装置,其特征在于,所述使用动态规划法则寻找所述比对文本和所述原始文本集所有的词语切分组合,包括:
构建基于所述比对文本和所述原始文本集的梯度下降算法和迭代函数;
求解所述迭代函数的切分参数;
根据切分参数的不同,求解所述梯度下降算法的结果值,根据所述结果值得到不同的词语切分组合。
9.如权利要求6至8中任意一项所述的相似文本的处理装置,其特征在于,所述相似文本的处理程序被所述处理器执行时还实现如下步骤:
将所述关键词集进行拆分,得到标题关键字集和文本内容关键字集;及
所述将所述关键词集输入至预先构建的文本爬虫框架中得到文本爬虫程序,包括:
将所述标题关键字集输入至所述文本爬虫框架内的标题关键字搜索函数内;
将所述文本内容关键字集输入至所述文本爬虫框架内的文本内容关键字搜索函数内;
编译添加了所述标题关键字集和所述文本内容关键字集的文本爬虫框架,若所述编译未通过,提示用户编译失败并重新接收所述关键词集,若所述编译通过,则生成所述文本爬虫程序。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有相似文本的处理程序,所述相似文本的处理程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的相似文本的处理方法的步骤。
CN201910975841.7A 2019-10-12 2019-10-12 相似文本的处理方法、装置及计算机可读存储介质 Active CN110738049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910975841.7A CN110738049B (zh) 2019-10-12 2019-10-12 相似文本的处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910975841.7A CN110738049B (zh) 2019-10-12 2019-10-12 相似文本的处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110738049A CN110738049A (zh) 2020-01-31
CN110738049B true CN110738049B (zh) 2023-04-18

Family

ID=69268846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910975841.7A Active CN110738049B (zh) 2019-10-12 2019-10-12 相似文本的处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110738049B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930897B (zh) * 2020-09-14 2021-04-27 平安国际智慧城市科技股份有限公司 专利检索方法、装置、电子设备及计算机可读存储介质
CN112308048B (zh) * 2020-12-03 2023-12-19 云知声智能科技股份有限公司 基于少量标注数据的病历完整性判别的方法、装置及系统
CN112527948B (zh) * 2020-12-08 2024-06-18 上海大智慧财汇数据科技有限公司 基于句子级索引的数据实时去重方法及系统
CN112733537A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 文本去重方法、装置、电子设备及计算机可读存储介质
CN113505835A (zh) * 2021-07-14 2021-10-15 杭州隆埠科技有限公司 新闻相似去重的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344236A (zh) * 2018-09-07 2019-02-15 暨南大学 一种基于多种特征的问题相似度计算方法
CN109472008A (zh) * 2018-11-20 2019-03-15 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置及电子设备
CN109885813A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344236A (zh) * 2018-09-07 2019-02-15 暨南大学 一种基于多种特征的问题相似度计算方法
CN109472008A (zh) * 2018-11-20 2019-03-15 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置及电子设备
CN109885813A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙志远 等.移动营销领域的文本相似度计算方法.计算机应用.2017,(第S1期),全文. *
黄栋 等.基于词向量和EMD距离的短文本聚类.山东大学学报(理学版).2017,(第07期),全文. *

Also Published As

Publication number Publication date
CN110738049A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN110738049B (zh) 相似文本的处理方法、装置及计算机可读存储介质
CN107679144B (zh) 基于语义相似度的新闻语句聚类方法、装置及存储介质
US8239387B2 (en) Structural clustering and template identification for electronic documents
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN111046221B (zh) 歌曲推荐方法、装置、终端设备以及存储介质
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
WO2016201511A1 (en) Methods and systems for object recognition
Zhao et al. Ranking on heterogeneous manifolds for tag recommendation in social tagging services
US9514113B1 (en) Methods for automatic footnote generation
CN101911042A (zh) 用户的浏览器历史的相关性排序
CN110427480B (zh) 个性化文本智能推荐方法、装置及计算机可读存储介质
US20100211533A1 (en) Extracting structured data from web forums
WO2020056977A1 (zh) 知识点推送方法、装置及计算机可读存储介质
CN112115232A (zh) 一种数据纠错方法、装置及服务器
US11263062B2 (en) API mashup exploration and recommendation
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN110866098A (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
US20180137098A1 (en) Methods and systems for providing universal portability in machine learning
US12013903B2 (en) System and method for search discovery
CN110222144B (zh) 文本内容提取方法、装置、电子设备及存储介质
US20140129543A1 (en) Search service including indexing text containing numbers in part using one or more number index structures
CN104778232A (zh) 一种基于长查询的搜索结果的优化方法和装置
CN112445862A (zh) 物联网设备数据集构建方法、装置、电子设备和存储介质
CN112527954A (zh) 非结构化数据全文搜索方法、系统及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant