CN106649221A - 重复文本的检测方法及装置 - Google Patents

重复文本的检测方法及装置 Download PDF

Info

Publication number
CN106649221A
CN106649221A CN201611108388.2A CN201611108388A CN106649221A CN 106649221 A CN106649221 A CN 106649221A CN 201611108388 A CN201611108388 A CN 201611108388A CN 106649221 A CN106649221 A CN 106649221A
Authority
CN
China
Prior art keywords
text
long
short
detected
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611108388.2A
Other languages
English (en)
Inventor
刘鹏
赵杰
韦强申
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201611108388.2A priority Critical patent/CN106649221A/zh
Publication of CN106649221A publication Critical patent/CN106649221A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种重复文本的检测方法及装置。所述方法包括:获取待检测文本;将所述待检测文本区分为短文本及长文本;对所述短文本采用基于文本关联的重复检测;对所述长文本采用基于局部敏感哈希算法的重复检测。本发明实施例提供的重复文本的检测方法及装置实现了对短文本的有效的重复检测处理。

Description

重复文本的检测方法及装置
技术领域
本发明实施例涉及大数据分析技术领域,尤其涉及一种重复文本的检测方法及装置。
背景技术
在互联网大规模普及的今天,各种资源呈爆炸式增长,越来越庞大的互联网促进了搜索引擎技术的不断发展,使它越来越成为人们从网络上获取信息的主要手段。但是,互联网上有大量的重复网页信息。为了提高搜索引擎提供的搜索结果的有效性,文本的重复检测就成为了互联网企业提高搜索引擎质量的关键技术。
在文本的重复检测技术中,一种十分常用的技术就是基于哈希算法而完成的。这种技术已经相当成熟,运行效率和鲁棒性都是能够满足搜索引擎目前的需要。当时,利用哈希算法完成的文本重复检测有一个缺点,就是在面对短文本的重复检测时,会出现运行效率不高的情况。
发明内容
针对上述技术问题,本发明实施例提供了一种重复文本的检测方法及装置,以实现对短文本的有效的重复检测处理。
一方面,本发明实施例提供了一种重复文本的检测方法,所述方法包括:
获取待检测文本;
将所述待检测文本区分为短文本及长文本;
对所述短文本采用基于文本关联的重复检测;
对所述长文本采用基于局部敏感哈希算法的重复检测。
另一方面,本发明实施例还提供了一种重复文本的检测装置,所述装置包括:
文本获取模块,用于获取待检测文本;
文本区分模块,用于将所述待检测文本区分为短文本及长文本;
短文本检测模块,用于对所述短文本采用基于文本关联的重复检测;
长文本检测模块,用于对所述长文本采用基于局部敏感哈希算法的重复检测。
本发明实施例提供的重复文本的检测方法及装置,通过获取待检测文本,将所述待检测文本区分为短文本及长文本,对所述短文本采用基于文本关联的重复检测,对所述长文本采用基于局部敏感哈希算法的重复检测,实现了对短文本的有效的重复检测处理。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明第一实施例提供的重复文本的检测方法的流程图;
图2是本发明第二实施例提供的重复文本的检测装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
第一实施例
本实施例提供了重复文本的检测方法的一种技术方案。
参见图1,重复文本的检测方法包括:
S11,获取待检测文本。
上述对待检测文本的获取可以是通过网络爬虫程序由互联网获取,也可以是从指定的语料数据库中获取。
如果通过上述获取手段获取到的待检测文本的正确性难以判断,则一般在获取到原始的待检测文本之后还需要对原始的文本进行一次数据清洗的操作。经过数据清洗之后,保留下来的待检测文本就是进行重复文本检测的原始语料。
S12,将所述待检测文本区分为短文本及长文本。
优选的,可以根据实际的检测需要预先构造对短文本及长文本进行区分的区分规则。在实际进行短文本及长文本区分时,应用上述规则。
更为优选的,可以预先设定一个区分短文本及长文本的文本长度阈值,当待检测文本的文本长度大于这个长度阈值时,待检测文本是长文本,而当待检测文本的文本长度小于或者这个等于这个长度阈值时,待检测文本是短文本。
需要理解的是,构建的区分规则可以不仅仅以上述列举的长度参数作为判定要素,还可以引入除文本长度以外的其他参数作为判定要素。比如,可以将文本内容作为上述区分规则中的判定要素之一。
另外,还可以以预先构建的分类器完成对短文本及长文本的区分。如果以分类器完成长短文本的区分,则分类器的输入参数可以有多种。比如,分类器的输入参数可以包括:文本长度、特征语段等。
S13,对所述短文本采用基于文本关联的重复检测。
由于对待检测的短文本直接应用哈希算法,会出现运行效率不高的情况,在本实施例中,采用首先将待检测的短文本关联至一个长文本,再根据对长文本应用哈希算法的重复检测结果,判断待检测的短文本是否出现了重复。
上述文本关联是指对同一主题的文本进行关联。例如,微博的主帖和该主帖所有的回帖可以关联;或者论坛的主帖和该主帖所有的回帖可以关联到一起。然后对同一主题的短文本,通过hash算法进行重复性检测。
采用上述的方式实现对短文本的重复检测,不仅克服了在短文本上直接应用哈希算法而造成的运行效率问题,而且重复检测的准确性也十分有保障。
S14,对所述长文本采用基于局部敏感哈希算法的重复检测。
遇到待检测文本是长文本的情况时,采用局部敏感哈希(Local sensitive hash,LSH)算法对待检测文本进行重复检测。上述局部敏感哈希算法包括:MinHash算法,或者SimHash算法。具体的,对长文本的重复检测可以是:基于MinHash算法,或者SIMHash算法生成长文本的文件指纹,并基于所述文件指纹进行重复检测。
本实施例通过获取待检测文本,将所述待检测文本区分为短文本及长文本,对所述短文本采用基于文本关联的重复检测,以及对所述长文本采用基于局部敏感哈希算法的重复检测,实现了对短文本的有效的重复检测处理。
第二实施例
本实施例提供了重复文本的检测装置的一种技术方案。在该技术方案中,所述重复文本的检测装置包括:文本获取模块21、文本区分模块22、短文本检测模块23,以及长文本检测模块24。
所述文本获取模块21用于获取待检测文本。
所述文本区分模块22用于将所述待检测文本区分为短文本及长文本。
所述短文本检测模块23用于对所述短文本采用基于文本关联的重复检测。
所述长文本检测模块24用于对所述长文本采用基于局部敏感哈希算法的重复检测。
进一步的,所述文本区分模块22具体用于:基于规则或者分类器,将所述待检测文本区分为短文本及长文本。
进一步的,所述短文本检测模块23包括:文本关联单元,以及检测单元。
所述文本关联单元用于对所述短文本进行短文本关联。
所述检测单元用于对关联后的文本进行基于哈希算法的重复检测。
进一步的,所述长文本检测模块24具体用于:采用局部敏感哈希算法生成所述长文本的文件指纹,并基于所述文件指纹进行重复检测。
进一步的,所述局部敏感哈希算法包括:MinHash算法,以及S imHash算法。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种重复文本的检测方法,其特征在于,包括:
获取待检测文本;
将所述待检测文本区分为短文本及长文本;
对所述短文本采用基于文本关联的重复检测;
对所述长文本采用基于局部敏感哈希算法的重复检测。
2.根据权利要求1所述的方法,其特征在于,将所述待检测文本区分为短文本及长文本包括:
基于规则或者分类器,将所述待检测文本区分为短文本及长文本。
3.根据权利要求1所述的方法,其特征在于,对所述短文本采用基于文本关联的重复检测包括:
对所述短文本进行短文本关联;
对关联后的文本进行基于哈希算法的重复检测,其中,关联后的文本为长文本。
4.根据权利要求1所述的方法,其特征在于,对所述长文本采用基于局部敏感哈希算法的重复检测包括:
采用局部敏感哈希算法生成所述长文本的文件指纹,并基于所述文件指纹进行重复检测。
5.根据权利要求4所述的方法,其特征在于,所述局部敏感哈希算法包括但不限于:MinHash算法,或者SimHash算法。
6.一种重复文本的检测装置,其特征在于,包括:
文本获取模块,用于获取待检测文本;
文本区分模块,用于将所述待检测文本区分为短文本及长文本;
短文本检测模块,用于对所述短文本采用基于文本关联的重复检测;
长文本检测模块,用于对所述长文本采用基于局部敏感哈希算法的重复检测。
7.根据权利要求6所述的装置,其特征在于,所述文本区分模块具体用于:
基于规则或者分类器,将所述待检测文本区分为短文本及长文本。
8.根据权利要求6所述的装置,其特征在于,所述短文本检测模块包括:
文本关联单元,用于对所述短文本进行短文本关联;
检测单元,用于对关联后的文本进行基于哈希算法的重复检测,其中,关联后的文本为长文本。
9.根据权利要求6所述的装置,其特征在于,所述长文本检测模块具体用于:
采用局部敏感哈希算法生成所述长文本的文件指纹,并基于所述文件指纹进行重复检测。
10.根据权利要求9所述的装置,其特征在于,所述局部敏感哈希算法包括但不限于:MinHash算法,或者SimHash算法。
CN201611108388.2A 2016-12-06 2016-12-06 重复文本的检测方法及装置 Pending CN106649221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611108388.2A CN106649221A (zh) 2016-12-06 2016-12-06 重复文本的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611108388.2A CN106649221A (zh) 2016-12-06 2016-12-06 重复文本的检测方法及装置

Publications (1)

Publication Number Publication Date
CN106649221A true CN106649221A (zh) 2017-05-10

Family

ID=58818834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611108388.2A Pending CN106649221A (zh) 2016-12-06 2016-12-06 重复文本的检测方法及装置

Country Status (1)

Country Link
CN (1) CN106649221A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885705A (zh) * 2017-10-09 2018-04-06 中国科学院信息工程研究所 一种高效可扩展的安全的文档相似性计算方法和装置
CN107977347A (zh) * 2017-12-04 2018-05-01 海南云江科技有限公司 一种题目去重方法和计算设备
CN110209659A (zh) * 2019-06-10 2019-09-06 广州合摩计算机科技有限公司 一种简历过滤方法、系统和计算机可读存储介质
CN110472201A (zh) * 2019-07-26 2019-11-19 阿里巴巴集团控股有限公司 基于区块链的文本相似性检测方法及装置、电子设备
CN110717328A (zh) * 2019-07-04 2020-01-21 北京达佳互联信息技术有限公司 文本识别方法、装置、电子设备及存储介质
US10909317B2 (en) 2019-07-26 2021-02-02 Advanced New Technologies Co., Ltd. Blockchain-based text similarity detection method, apparatus and electronic device
CN113721978A (zh) * 2021-11-02 2021-11-30 北京大学 一种混源软件中开源成分检测的方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809117A (zh) * 2014-01-24 2015-07-29 深圳市云帆世纪科技有限公司 视频数据聚合处理方法、聚合系统及视频搜索平台
CN105718506A (zh) * 2016-01-04 2016-06-29 胡新伟 一种科技项目查重对比的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809117A (zh) * 2014-01-24 2015-07-29 深圳市云帆世纪科技有限公司 视频数据聚合处理方法、聚合系统及视频搜索平台
CN105718506A (zh) * 2016-01-04 2016-06-29 胡新伟 一种科技项目查重对比的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
莫紫鹃: "试论短文本聚类算法在微博的应用", 《科技致富向导》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885705A (zh) * 2017-10-09 2018-04-06 中国科学院信息工程研究所 一种高效可扩展的安全的文档相似性计算方法和装置
CN107885705B (zh) * 2017-10-09 2020-12-15 中国科学院信息工程研究所 一种高效可扩展的安全的文档相似性计算方法和装置
CN107977347A (zh) * 2017-12-04 2018-05-01 海南云江科技有限公司 一种题目去重方法和计算设备
CN107977347B (zh) * 2017-12-04 2021-12-21 海南云江科技有限公司 一种题目去重方法和计算设备
CN110209659A (zh) * 2019-06-10 2019-09-06 广州合摩计算机科技有限公司 一种简历过滤方法、系统和计算机可读存储介质
CN110717328A (zh) * 2019-07-04 2020-01-21 北京达佳互联信息技术有限公司 文本识别方法、装置、电子设备及存储介质
CN110717328B (zh) * 2019-07-04 2021-06-18 北京达佳互联信息技术有限公司 文本识别方法、装置、电子设备及存储介质
CN110472201A (zh) * 2019-07-26 2019-11-19 阿里巴巴集团控股有限公司 基于区块链的文本相似性检测方法及装置、电子设备
US10909317B2 (en) 2019-07-26 2021-02-02 Advanced New Technologies Co., Ltd. Blockchain-based text similarity detection method, apparatus and electronic device
US11100284B2 (en) 2019-07-26 2021-08-24 Advanced New Technologies Co., Ltd. Blockchain-based text similarity detection method, apparatus and electronic device
CN113721978A (zh) * 2021-11-02 2021-11-30 北京大学 一种混源软件中开源成分检测的方法和系统
CN113721978B (zh) * 2021-11-02 2022-02-11 北京大学 一种混源软件中开源成分检测的方法和系统

Similar Documents

Publication Publication Date Title
CN106649221A (zh) 重复文本的检测方法及装置
US11727114B2 (en) Systems and methods for remote detection of software through browser webinjects
US11899800B2 (en) Open source vulnerability prediction with machine learning ensemble
Lakshmi et al. Efficient prediction of phishing websites using supervised learning algorithms
US9483455B1 (en) Ingestion planning for complex tables
US10706032B2 (en) Unsolicited bulk email detection using URL tree hashes
CN104143008B (zh) 基于图片匹配检测钓鱼网页的方法及装置
CN106295333A (zh) 用于检测恶意代码的方法和系统
US20170277756A1 (en) Approach to Recommending Mashups
US11184313B1 (en) Message content cleansing
US10885188B1 (en) Reducing false positive rate of statistical malware detection systems
CN109783356A (zh) 一种自动化测试方法及终端
CN111177719B (zh) 地址类别判定方法、装置、计算机可读存储介质及设备
CN111159697A (zh) 一种密钥检测方法、装置及电子设备
CN107786529B (zh) 网站的检测方法、装置及系统
JPWO2019053844A1 (ja) メール検査装置、メール検査方法およびメール検査プログラム
CN106789951A (zh) 一种网络web页面异常检测实现系统
WO2017074710A1 (en) Search system
CN108268775B (zh) 一种Web漏洞检测方法、装置、电子设备及存储介质
CN112835810B (zh) 一种基于日志分析的接口测试方法及装置
CN108021951A (zh) 一种文档检测的方法、服务器及计算机可读存储介质
CN112463319A (zh) 内容检测模型的生成方法和装置、电子设备及存储介质
CN113762846A (zh) 一种面单文本判别方法和装置
CN111767918A (zh) 一种图片识别方法和装置
RU2778460C1 (ru) Способ и устройство для кластеризации фишинговых веб-ресурсов на основе изображения визуального контента

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication