CN111382233A - 一种相似文本检测方法、装置、电子设备及存储介质 - Google Patents

一种相似文本检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111382233A
CN111382233A CN202010191122.9A CN202010191122A CN111382233A CN 111382233 A CN111382233 A CN 111382233A CN 202010191122 A CN202010191122 A CN 202010191122A CN 111382233 A CN111382233 A CN 111382233A
Authority
CN
China
Prior art keywords
text
total number
fingerprint
similar
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010191122.9A
Other languages
English (en)
Inventor
王正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Suijin Technology Co ltd
Original Assignee
Shenzhen Suijin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Suijin Technology Co ltd filed Critical Shenzhen Suijin Technology Co ltd
Priority to CN202010191122.9A priority Critical patent/CN111382233A/zh
Publication of CN111382233A publication Critical patent/CN111382233A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种相似文本检测方法、装置、电子设备及存储介质,该方法包括:确定给定文本的文本指纹;统计所述文本指纹中第一标识的总个数或者第二标识的总个数;基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集;针对所述可能相似文本集中的每个待检测文本,基于文本指纹之间的海明距离确定所述给定文本的准相似文本。本发明实施例的技术方案,实现了提高相似文本检测效率的目的。

Description

一种相似文本检测方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种相似文本检测方法、装置、电子设备及存储介质。
背景技术
随着计算机对文本信息等自然语言处理应用的普及,人们对计算机的文本处理效率提出了更高的要求,例如,希望计算机能够从海量文本数据中快速且准确地查找到自己感兴趣的文本。
其中一种常用的相似文本检测方法为:首先将文本表示成文本指纹的形式,文本指纹通常为64位的数字串,然后计算两个文本指纹之间的海明距离,通过海明距离确定两个文本之间的相似度。
在实现本发明的过程中,发明人发现现有相似文本检测方法存在如下问题:
海明距离的计算需要逐位进行比较,如果文本数据库中待检测的文本数量很大,则计算量会比较大,难以保证检测效率。
发明内容
本发明实施例提供一种相似文本检测方法、装置、电子设备及存储介质,提高了相似文本的检测效率。
第一方面,本发明实施例提供了一种相似文本检测方法,该方法包括:
确定给定文本的文本指纹;
统计所述文本指纹中第一标识的总个数或者第二标识的总个数;
基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集;
针对所述可能相似文本集中的每个待检测文本,基于文本指纹之间的海明距离确定所述给定文本的准相似文本。
第二方面,本发明实施例还提供了一种相似文本检测装置,该装置包括:
确定模块,用于确定给定文本的文本指纹;
统计模块,用于统计所述文本指纹中第一标识的总个数或者第二标识的总个数;
筛选模块,用于基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集;
检测模块,用于针对所述可能相似文本集中的每个待检测文本,基于文本指纹之间的海明距离确定所述给定文本的准相似文本。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例任一所述的相似文本检测方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例任一所述的相似文本检测方法。
本发明实施例的技术方案,通过确定给定文本的文本指纹;统计所述文本指纹中第一标识的总个数或者第二标识的总个数;基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集;针对所述可能相似文本集中的每个待检测文本,基于文本指纹之间的海明距离确定所述给定文本的准相似文本的技术手段,实现了提高相似文本检测效率的目的。
附图说明
结合附图并参考以下具体实施方式,本发明各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本发明实施例一所提供的一种相似文本检测方法流程示意图;
图2为本发明实施例二所提供的一种相似文本检测装置结构示意图;
图3为本发明实施例三所提供的一种电子设备结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
实施例一
图1为本发明实施例一所提供的一种相似文本检测方法流程示意图,该方法可适用于对给定文本的相似文本进行检测的场景。典型的,例如查重应用场景或者根据给定输入检索与给定输入相关的目标文本的检索应用场景。该方法可以由相似文本检测装置来执行,该装置可以通过软件和/或硬件的形式实现。
如图1所述,本实施例提供的相似文本检测方法包括如下步骤:
步骤110、确定给定文本的文本指纹。
其中,文本指纹是一个文本的唯一标识,用于区别于其它的文本。理想的文本指纹应该具备如下特点:确定性,即相同文本的文本指纹是相同的;文本指纹越相似,则文本的相似性就越高;指纹生成和匹配效率高。
目前,用于确定文本指纹的算法有很多种,典型的例如Simhash算法,Simhash是用来处理海量文本去重的算法,局部敏感哈希可以将相似的字符串hash得到相似的hash值,使得相似项会比非相似项更可能的hash到一个桶中,hash到同一个桶中的文档间成为候选对。这样就可以以接近线性的时间去解决相似性判断和去重问题。Simhash算法通过计算每个特征(关键词)的哈希值,并最终合并成一个特征值即文本指纹,具体的流程为:
首先将文本转换为一组加权的特征值构成的特征向量;然后初始化一个f维的向量V,其中每一个元素初始值为0,对于文本的特征向量中的每一个特征,做如下计算:利用传统的hash算法映射到一个f-bit(一般设成32位或者64位)的签名,对于这个f-bit的签名,如果签名的第i位元素为1,则对向量V中第i维元素加上这个特征的权值,否则对向量V的第i维元素减去该特征的权值;整个特征向量迭代上述运算后,根据向量V中每一维元素的符号来确定生成的f-bit指纹的值,如果向量V的第i维元素为正数,则生成f-bit指纹的第i维元素为1,否则为0。
文本指纹通常为0和1组成的64位数字串,例如10010010 10001000 0011001101010101 10010010 10001000 00110011 01010101。
步骤120、统计所述文本指纹中第一标识的总个数或者第二标识的总个数。
其中,所述第一标识具体可以是1,所述第二标识具体可以是0。假设文本A的文本指纹为:00000000 11110000 00000000 00000000,则所述文本指纹中第一标识1的总个数为4,第二标识0的总个数为28。
通过统计文本指纹中第一标识的总个数或者第二标识的总个数可以粗略判断两文本之间的相似度,例如假设有文本A和文本B的文本指纹分别如下:
文本指纹A:00000000 11110000 00000000 00000000
文本指纹B:00000000 11111111 00000000 00000000
文本指纹A中1的数量为4
文本指纹B中1的数量为8
则可知,文本指纹A与文本指纹B之间的海明距离至少为4,至多为12,当相似文本判定条件的设定海明距离阈值小于3时,则可确定文本A以及文本B均不符合相似文本判断条件,因此文本A以及文本B可以跳过海明距离的计算,从而缩小了相似文本的检测范围,可达到提高检测效率的目的。
步骤130、基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集。
通过基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,可缩小相似文本的检测范围,进而达到提高检测效率的目的。
示例性的,所述基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集,包括:
从所述待检测文本中确定文本指纹中第一标识的总个数处于区间(N-M,N+M)的目标文本;
将所述目标文本确定为所述可能相似文本集;
其中,N表示所述第一标识的总个数,M表示设定海明距离阈值。
假设给定文本A的文本指纹为:00000000 11110000 00000000 00000000
文本指纹中1的数量为4,若设定海明距离阈值M为3,则文本指纹中1的总个数处于区间(1,7)的目标文本为给定文本A的可能相似文本,而文本指纹中1的总个数小于1,或者大于7的目标文本为给定文本A的非相似文本。通过仅基于文本指纹中相同标识的个数对待检测文本进行过滤筛选,可以缩小检测范围,进而提高检测效率。
为了进一步提高实时检测效率,所述方法还包括:
在对所述待检测文本进行存储时,分别存储所述待检测文本的文本指纹以及文本指纹中第一标识的总个数或者第二标识的总个数。如此则不用每次检测时均实时计算每个待检测文本的文本指纹以及其中第一标识的总个数或者第二标识的总个数,降低了检测时的运算量,提高了检测效率。
步骤140、针对所述可能相似文本集中的每个待检测文本,基于文本指纹之间的海明距离确定所述给定文本的准相似文本。
具体的,针对所述可能相似文本集中的每个待检测文本,计算当前待检测文本的文本指纹与所述给定文本的文本指纹之间的海明距离;
若所述海明距离小于设定海明距离阈值,则确定当前待检测文本为所述给定文本的准相似文本。
所述计算当前待检测文本的文本指纹与所述给定文本的文本指纹之间的海明距离,包括:
对当前待检测文本的文本指纹与所述给定文本的文本指纹进行逐位比较,若在比较位两者取值不相同,则比较结果为第一标识,若在比较位两者取值相同,则比较结果为第二标识;
比较结果为第一标识的个数为当前待检测文本的文本指纹与所述给定文本的文本指纹之间的海明距离。
例如,文本指纹A:00000000 11110000 00000000 00000000
文本指纹B:00000000 11111111 00000000 00000000
则通过逐位比较可得比较结果为:00000000 00001111 00000000 00000000
比较结果为第一标识1的个数为:4,则文本A与文本B的海明距离为:4。
对当前待检测文本的文本指纹与所述给定文本的文本指纹进行逐位比较的过程实质是对两个文本指纹执行异或操作,若在比较位两者取值不相同,则比较结果为1,若在比较位两者取值相同,则比较结果为0。
本发明实施例的技术方案,通过基于文本指纹中1的总个数或者0的总个数,以及设定海明距离阈值对待检测文本进行过滤筛选,缩小了待检测文本的范围,即减少了参与海明距离计算的对象,进而达到了提高检测效率的目的。
实施例二
图2为本发明实施例二提供的一种相似文本检测装置,该装置包括:确定模块210、统计模块220、筛选模块230和检测模块240。
其中,确定模块210,用于确定给定文本的文本指纹;统计模块220,用于统计所述文本指纹中第一标识的总个数或者第二标识的总个数;筛选模块230,用于基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集;检测模块240,用于针对所述可能相似文本集中的每个待检测文本,基于文本指纹之间的海明距离确定所述给定文本的准相似文本。
在上述技术方案的基础上,所述筛选模块230具体用于:
从所述待检测文本中确定文本指纹中第一标识的总个数处于区间(N-M,N+M)的目标文本;
将所述目标文本确定为所述可能相似文本集;
其中,N表示所述第一标识的总个数,M表示设定海明距离阈值。
在上述各技术方案的基础上,所述装置还包括:
存储模块,用于在对所述待检测文本进行存储时,分别存储所述待检测文本的文本指纹以及文本指纹中第一标识的总个数或者第二标识的总个数。
在上述各技术方案的基础上,确定模块210具体用于:
基于Simhash算法计算给定文本的文本指纹。
在上述各技术方案的基础上,检测模块240包括:
计算单元,用于针对所述可能相似文本集中的每个待检测文本,计算当前待检测文本的文本指纹与所述给定文本的文本指纹之间的海明距离;
检测单元,用于若所述海明距离小于设定海明距离阈值,则确定当前待检测文本为所述给定文本的准相似文本。
在上述各技术方案的基础上,所述计算单元具体用于:
对当前待检测文本的文本指纹与所述给定文本的文本指纹进行逐位比较,若在比较位两者取值不相同,则比较结果为第一标识,若在比较位两者取值相同,则比较结果为第二标识;比较结果为第一标识的个数为当前待检测文本的文本指纹与所述给定文本的文本指纹之间的海明距离。
本发明实施例的技术方案,通过基于文本指纹中1的总个数或者0的总个数,以及设定海明距离阈值对待检测文本进行过滤筛选,缩小了待检测文本的范围,即减少了参与海明距离计算的对象,进而达到了提高检测效率的目的。
本发明实施例所提供的相似文本检测装置可执行本发明任意实施例所提供的相似文本检测方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
实施例三
下面参考图3,其示出了适于用来实现本发明实施例的电子设备(例如图3中的终端设备或服务器)400的结构示意图。本发明实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置406加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置406;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置406被安装,或者从ROM 402被安装。在该计算机程序被处理装置401执行时,执行本发明实施例的方法中限定的上述功能。
本发明实施例提供的终端与上述实施例提供的相似文本检测方法属于同一发明构思,未在本发明实施例中详尽描述的技术细节可参见上述实施例,并且本发明实施例与上述实施例具有相同的有益效果。
实施例四
本发明实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的相似文本检测方法。
需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
确定给定文本的文本指纹;
统计所述文本指纹中第一标识的总个数或者第二标识的总个数;
基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集;
针对所述可能相似文本集中的每个待检测文本,基于文本指纹之间的海明距离确定所述给定文本的准相似文本。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,可编辑内容显示单元还可以被描述为“编辑单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (10)

1.一种相似文本检测方法,其特征在于,包括:
确定给定文本的文本指纹;
统计所述文本指纹中第一标识的总个数或者第二标识的总个数;
基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集;
针对所述可能相似文本集中的每个待检测文本,基于文本指纹之间的海明距离确定所述给定文本的准相似文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集,包括:
从所述待检测文本中确定文本指纹中第一标识的总个数处于区间(N-M,N+M)的目标文本;
将所述目标文本确定为所述可能相似文本集;
其中,N表示所述第一标识的总个数,M表示设定海明距离阈值。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
在对所述待检测文本进行存储时,分别存储所述待检测文本的文本指纹以及文本指纹中第一标识的总个数或者第二标识的总个数。
4.根据权利要求1或2所述的方法,其特征在于,所述确定给定文本的文本指纹,包括:
基于Simhash算法计算给定文本的文本指纹。
5.根据权利要求1或2所述的方法,其特征在于,所述针对所述可能相似文本集中的每个待检测文本,基于文本指纹之间的海明距离确定所述给定文本的准相似文本,包括:
针对所述可能相似文本集中的每个待检测文本,计算当前待检测文本的文本指纹与所述给定文本的文本指纹之间的海明距离;
若所述海明距离小于设定海明距离阈值,则确定当前待检测文本为所述给定文本的准相似文本。
6.根据权利要求5所述的方法,其特征在于,所述计算当前待检测文本的文本指纹与所述给定文本的文本指纹之间的海明距离,包括:
对当前待检测文本的文本指纹与所述给定文本的文本指纹进行逐位比较,若在比较位两者取值不相同,则比较结果为第一标识,若在比较位两者取值相同,则比较结果为第二标识;
比较结果为第一标识的个数为当前待检测文本的文本指纹与所述给定文本的文本指纹之间的海明距离。
7.一种相似文本检测装置,其特征在于,包括:
确定模块,用于确定给定文本的文本指纹;
统计模块,用于统计所述文本指纹中第一标识的总个数或者第二标识的总个数;
筛选模块,用于基于所述第一标识的总个数或者第二标识的总个数,以及设定海明距离阈值对待检测文本进行筛选,得到所述给定文本的可能相似文本集;
检测模块,用于针对所述可能相似文本集中的每个待检测文本,基于文本指纹之间的海明距离确定所述给定文本的准相似文本。
8.根据权利要求7所述的装置,其特征在于,所述筛选模块用于:
从所述待检测文本中确定文本指纹中第一标识的总个数处于区间(N-M,N+M)的目标文本;
将所述目标文本确定为所述可能相似文本集;
其中,N表示所述第一标识的总个数,M表示设定海明距离阈值。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一项所述的相似文本检测方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一项所述的相似文本检测方法。
CN202010191122.9A 2020-03-18 2020-03-18 一种相似文本检测方法、装置、电子设备及存储介质 Pending CN111382233A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010191122.9A CN111382233A (zh) 2020-03-18 2020-03-18 一种相似文本检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010191122.9A CN111382233A (zh) 2020-03-18 2020-03-18 一种相似文本检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111382233A true CN111382233A (zh) 2020-07-07

Family

ID=71215484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010191122.9A Pending CN111382233A (zh) 2020-03-18 2020-03-18 一种相似文本检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111382233A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722238A (zh) * 2021-11-01 2021-11-30 北京大学 一种实现对源码文件快速开源成分检测的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法
US20180137090A1 (en) * 2016-11-14 2018-05-17 International Business Machines Corporation Identification of textual similarity
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置
CN109145080A (zh) * 2018-07-26 2019-01-04 新华三信息安全技术有限公司 一种文本指纹获得方法及装置
CN110059193A (zh) * 2019-06-21 2019-07-26 南京擎盾信息科技有限公司 基于法律语义件与文书大数据统计分析的法律咨询系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法
US20180137090A1 (en) * 2016-11-14 2018-05-17 International Business Machines Corporation Identification of textual similarity
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置
CN109145080A (zh) * 2018-07-26 2019-01-04 新华三信息安全技术有限公司 一种文本指纹获得方法及装置
CN110059193A (zh) * 2019-06-21 2019-07-26 南京擎盾信息科技有限公司 基于法律语义件与文书大数据统计分析的法律咨询系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722238A (zh) * 2021-11-01 2021-11-30 北京大学 一种实现对源码文件快速开源成分检测的方法和系统
CN113722238B (zh) * 2021-11-01 2022-04-26 北京大学 一种实现对源码文件快速开源成分检测的方法和系统

Similar Documents

Publication Publication Date Title
CN110634047B (zh) 一种推荐房源的方法、装置、电子设备及存储介质
CN110222775B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN114422267B (zh) 流量检测方法、装置、设备及介质
CN112650790B (zh) 目标点云平面确定方法,装置,电子设备及存储介质
CN110198473B (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
CN114153959A (zh) 键值匹配方法、装置、可读介质及电子设备
CN112419312B (zh) 相似房源信息检测方法、装置、电子设备和可读介质
CN113590857A (zh) 键值匹配方法、装置、可读介质及电子设备
CN111382233A (zh) 一种相似文本检测方法、装置、电子设备及存储介质
CN113971400A (zh) 一种文本检测方法、装置、电子设备及存储介质
CN116483891A (zh) 一种信息预测方法、装置、设备和存储介质
CN113807056B (zh) 一种文档名称序号纠错方法、装置和设备
CN110781066A (zh) 用户行为分析方法、装置、设备及存储介质
CN110765238A (zh) 数据加密查询方法及装置
CN114417102A (zh) 文本去重方法、装置和电子设备
CN114611120A (zh) 数据加密方法、装置、设备及介质
CN110413603B (zh) 重复数据的确定方法、装置、电子设备及计算机存储介质
CN113051400A (zh) 标注数据确定方法、装置、可读介质及电子设备
CN111680754A (zh) 图像分类方法、装置、电子设备及计算机可读存储介质
CN111507734B (zh) 作弊请求识别方法、装置、电子设备及计算机存储介质
CN116186093B (zh) 地址信息处理方法、装置、电子设备与计算机可读介质
CN113032808B (zh) 数据处理方法、装置、可读介质及电子设备
CN114625876B (zh) 作者特征模型的生成方法、作者信息处理方法和装置
CN111814807B (zh) 用于处理图像的方法、装置、电子设备和计算机可读介质
CN116343905B (zh) 蛋白质特征的预处理方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination