CN108345586B - 一种文本去重方法及系统 - Google Patents

一种文本去重方法及系统 Download PDF

Info

Publication number
CN108345586B
CN108345586B CN201810134643.3A CN201810134643A CN108345586B CN 108345586 B CN108345586 B CN 108345586B CN 201810134643 A CN201810134643 A CN 201810134643A CN 108345586 B CN108345586 B CN 108345586B
Authority
CN
China
Prior art keywords
text
sample
hash value
title
sensitive hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810134643.3A
Other languages
English (en)
Other versions
CN108345586A (zh
Inventor
孙世通
刘德彬
万杰
严开
陈玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Yijin Technology Co.,Ltd.
Chongqing Yucun Technology Co ltd
Original Assignee
Chongqing Socialcredits Big Data Technology Co ltd
Chongqing Telecommunication System Integration Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Socialcredits Big Data Technology Co ltd, Chongqing Telecommunication System Integration Co ltd filed Critical Chongqing Socialcredits Big Data Technology Co ltd
Priority to CN201810134643.3A priority Critical patent/CN108345586B/zh
Publication of CN108345586A publication Critical patent/CN108345586A/zh
Application granted granted Critical
Publication of CN108345586B publication Critical patent/CN108345586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种文本去重方法,包括以下步骤,目标文本数据预处理步骤;生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值步骤;去重步骤。本发明针对网络文本独有的特性,在应用SimHash算法的策略上做出调整,在以新闻文本背后事件为主体进行去重时,获得更优效果与更高鲁棒性。

Description

一种文本去重方法及系统
技术领域
本发明涉及信息处理领域,具体涉及一种文本去重方法及系统。
背景技术
文本去重技术在海量数据采集阶段被广泛地应用,任何一家大数据公司都无法绕开这个问题。当前主流的文本去重方案大致可分为以下两种:
1基于文本特征向量的相似度匹配
2利用基于分词结果的SimHash实现距离度量
但在识别文本背后的相同事件时,局部少量篇章的引用等现象将会影响最终结果,造成误判、漏判等现象。
现有技术基于文本特征向量的相似度匹配,运用LSI、LDA算法或one-hot的方式将文本表征为特定维度的文本向量,两两之间计算相似度,运算开销非常大,效率低下。
现有技术运用SimHash对整篇文本生成hashcode,simhash是locality sensitivehash(局部敏感哈希)的一种,最早由Moses Charikar在《similarity estimationtechniques from rounding algorithms》一文中提出。Google就是基于此算法实现网页文件查重的。hashcode的相似程度能直接反映输入内容的相似程度。目前主流的SimHash特征是基于中文分词的。现有技术在处理以事件为主体的去重任务时,较低相似度的两篇文章也有可能指代同一事件,这会导致漏判。这一现象主要体现在网络文本标题、摘要、正文骨干语句的个别引用现象。
发明内容
为了解决上述问题,本发明提供一种文本去重方法,包括以下步骤,
目标文本数据预处理;
生成目标文本正文局部敏感哈希值和生成目标文本标题局部敏感哈希值;
去重步骤。
进一步的,目标文本数据预处理包括,
去除目标文本中的停用词,获取目标文本标题分词信息,获取目标文本正文断句信息;
生成目标文本标题局部敏感哈希值,分词权重按以下公式获取,
Figure BDA0001575938450000021
其中N为正文特征数量,M为标题特征数量,β为预先设定的参数;
生成目标文本正文局部敏感哈希值,句子权重按以下公式获取,
Wsententce-i=(N-pos)α,α∈(0,1],
其中N为正文特征数量,M为标题特征数量,α为预先设定的参数,pos为语句在正文中的顺序下标。
进一步的,去重步骤包括,依据下述公式判断目标文本与样本是否表述相同事件,
Figure BDA0001575938450000022
Figure BDA0001575938450000023
Figure BDA0001575938450000024
Rule=Rule1U(Rule2∩Rul3)
其中,C1,C2为预先设置的常量参数,t为预先设置的海明距离阈值,titlehash为目标文本标题局部敏感哈希值,contenthash为目标文本正文局部敏感哈希值,titlei为样本数据库中样本文本标题局部敏感哈希值,contenti为样本数据库中样本文本正文局部敏感哈希值,Rule表示目标文本和样本是否为表述相同事件的判断条件;
进一步的,还包括步骤,
若目标文本与样本表述不相同事件,则将目标文本信息加入样本数据库中;
目标文本信息包括目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值。
进一步的,还包括获取样本数据库,获取样本数据库包括,
去除样本文本中的停用词;
获取样本文本标题分词信息,获取样本文本正文断句信息;
依据样本文本正文断句信息生成样本文本正文局部敏感哈希值,正文中的位置越靠前的句子权值越大;
依据样本文本标题分词信息生成样本文本标题局部敏感哈希值,分词权重参考样本标题特征与样本正文特征的数量比例;
将样本信息加入样本数据库中,样本信息包括样本文本标题局部敏感哈希值和样本文本正文局部敏感哈希值。
为了保证上述方法的实施,本发明还提供一种文本去重系统,包括以下单元,预处理单元,用于目标文本数据预处理;
目标文本处理单元,用于生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值;
去重单元,用于去重。
进一步的,预处理单元去除目标文本中的停用词;
预处理单元获取目标文本标题分词信息,获取目标文本正文断句信息;
目标文本处理单元生成目标文本标题局部敏感哈希值,分词权重按以下公式获取,
Figure BDA0001575938450000041
其中N为正文特征数量,M为标题特征数量,β为预先设定的参数;
目标文本处理单元生成目标文本正文局部敏感哈希值,句子权重按以下公式获取,
Wsententce-i=(N-pos)α,α∈(0,1],
其中N为正文特征数量,M为标题特征数量,α为预先设定的参数,pos为语句在正文中的顺序下标。
进一步的,去重单元依据下述公式判断目标文本与样本是否表述相同事件,
Figure BDA0001575938450000042
Figure BDA0001575938450000043
Figure BDA0001575938450000044
Rule=Rule1∪(Rule2∩Rule3)
其中,C1,C2为预先设置的常量参数,t为预先设置的海明距离阈值,titlehash为目标文本标题局部敏感哈希值,contenthash为目标文本正文局部敏感哈希值,titlei为样本数据库中样本文本标题局部敏感哈希值,contenti为样本数据库中样本文本正文局部敏感哈希值,Rule表示目标文本和样本是否为表述相同事件的判断条件;
进一步的,去重单元执行如下,
若目标文本与样本表述不相同事件,则将目标文本信息加入样本数据库中;
目标文本信息包括目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值。
进一步的,还包括获取样本数据库,获取样本数据库包括,
去除样本文本中的停用词;
获取样本文本标题分词信息,获取样本文本正文断句信息;
依据样本文本正文断句信息生成样本文本正文局部敏感哈希值,正文中的位置越靠前的句子权值越大;
依据样本文本标题分词信息生成样本文本标题局部敏感哈希值,分词权重参考样本标题特征与样本正文特征的数量比例;
将样本信息加入样本数据库中,样本信息包括样本文本标题局部敏感哈希值和样本文本正文局部敏感哈希值。
本发明的有益效果是:
1本发明针对网络文本独有的特性,在应用SimHash算法的策略上做出调整,在以新闻文本背后事件为主体进行去重时,获得更优效果与更高鲁棒性。
2能解决网络文章摘抄和引用所造成的相似性匹配问题。
3能对新闻背后的事件进行去重。
4能识别相似度较高的文本,能识别相似度较低但部分语句引用自目标库的文本。
5准确率和召回率可统计。
6在文章尤其是新闻中,正文和标题同时会对文章表达起到作用,本发明在去重时同时参考正文敏感哈希值和标题敏感哈希值,相对于现有技术单纯采用正文敏感哈希值去重具有更好的去重效果。
附图说明
图1为一种文本去重方法流程图。
图2为一种文本去重方法系统结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。另外还需要说明的是,为了便于说明,以下实施例中示出了与本发明相关的示例,这些示例仅作为说明本发明实施例的原理所用,并不作为对本发明实施例的限定,同时,这些示例的具体数值会根据不同的应用环境和装置或者组件的参数不同而不同。
本发明实施例的用于短文本去重的方法及装置可以运行于安装Windows(微软公司开发的操作系统平台)、Android(谷歌公司开发的用于便携式可移动智能设备的操作系统平台)、iOS(苹果公司开发的用于便携式可移动智能设备的操作系统平台)、WindowsPhone(微软公司开发的用于便携式可移动智能设备的操作系统平台)等操作系统的终端中,该终端可以是台式机、笔记本电脑、移动电话、掌上电脑、平板电脑、数码相机、数码摄像机等等中的任意一种。
实施例1
本发明针对网络文本独有的特性,在应用SimHash算法的策略上做出调整,在以新闻文本背后事件为主体进行去重时,获得更优效果与更高鲁棒性。
目标文本可以是网络爬虫从互联网上抓取的新闻文本,本发明要解决的问题之一是,在抓取到的新闻文本库中判断那些新闻文本在报道同一事件,并对报道同一事件的新闻文本进行归类和去重。
如图1所示,本发明提供一种文本去重方法,包括以下步骤,
目标文本数据预处理步骤;
生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值步骤;
去重步骤。
进一步的,目标文本数据预处理步骤包括,去除目标文本中的停用词,获取目标文本标题分词信息,获取目标文本正文断句信息;
对标题实现中文分词,可以采用现有的中文分词工具,例如中科院分词系统、hanlp、jieba等。
生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值步骤包括,依据目标文本标题分词信息生成目标文本标题局部敏感哈希值,分词权重参考标题特征与正文特征的数量比例;
标题以词为特征单位生成titlehash,可以是64位的二进制串;标题部分的权重参考标题特征与正文特征的数量比例,
标题特征数量是标题以词作为特征单位的数量。
生成目标文本标题局部敏感哈希值,分词权重按以下公式获取,
Figure BDA0001575938450000071
其中N为正文特征数量,M为标题特征数量,β为预先设定的参数;
生成目标文本正文局部敏感哈希值,句子权重按以下公式获取,
Wsententce-i=(N-pos)α,α∈(0,1],
其中N为正文特征数量,M为标题特征数量,α为预先设定的参数,pos为语句在正文中的顺序下标。
正文特征数量是正文以句子作为特征单位的数量。
正文以句子为特征单位生成contenthash(正文局部敏感哈希值),可以是64位的二进制串;在contenthash生成过程中的句子单位权重判定阶段,正文中的位置越靠前的句子权值越大,即:
sentence_weight(pos)<sentence_weight(pos-1),pos为语句在正文中的顺序下标。
在文章尤其是新闻中,会在正文的第一句对新闻要表达的事件进行概括,正文中句子越靠前表明句子在文章整体表达中起到的作用越大。正文中越靠前的句子权重越大可以更加准确的反应文章所表达的事件,实现更好的去重效果。
在文章尤其是新闻中,正文内容越少,既正文特征数量越少,标题在整篇文章表达中所起到的作用越大,参考正文特征数量和标题特征数量来确定标题特征的权重,可以更加准确的反应正文所表达的事件,实现更好的去重效果。
进一步的,去重步骤包括,依据下述公式判断目标文本与样本是否表述相同事件,
Figure BDA0001575938450000081
Figure BDA0001575938450000082
Figure BDA0001575938450000091
Rule=Rule1∪(Rule2∩Rule3)
其中,C1,C2为预先设置的常量参数,t为预先设置的海明距离阈值,titlehash为目标文本标题局部敏感哈希值,contenthash为目标文本正文局部敏感哈希值,titlei为样本数据库中样本文本标题局部敏感哈希值,contenti为样本数据库中样本文本正文局部敏感哈希值,Rule表示目标文本和样本是否为表述相同事件的判断条件;
在文章尤其是新闻中,正文和标题同时会对文章表达起到作用,通过上述公式在去重时同时参考正文敏感哈希值和标题敏感哈希值,相对于现有技术单纯采用正文敏感哈希值去重具有更好的去重效果
Hamming Distance,又称海明距离,在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。也就是说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。例如:1011101与1001001之间的海明距离是2。
在具体实施过程中,一般取C1<1.0,C2>1.0。参数t在本发明一实施例取值17,越小对重复的定义越严格(即越不容易重复)
进一步的,若目标文本与样本表述不相同事件,则将目标文本信息加入样本数据库中;
目标文本信息包括目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值。
进一步的,还包括获取样本数据库步骤,获取样本数据库步骤包括,
去除样本文本中的停用词;
获取样本文本标题分词信息,获取样本文本正文断句信息;
依据样本文本正文断句信息生成样本文本正文局部敏感哈希值,正文中的位置越靠前的句子权值越大;
依据样本文本标题分词信息生成样本文本标题局部敏感哈希值,分词权重参考样本标题特征与样本正文特征的数量比例;
将样本信息加入样本数据库中,样本信息包括样本文本标题局部敏感哈希值和样本文本正文局部敏感哈希值。
对表示相同事件的样本进行哈希值融合,随着新闻的增多,其查重的效果会逐步优化。
显然,本领域技术人员应该明白,上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能单元和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种文本去重方法,其特征在于,包括以下步骤,
目标文本数据预处理;其中,目标文本数据预处理包括,
去除目标文本中的停用词,获取目标文本标题分词信息,获取目标文本正文断句信息;
生成目标文本标题局部敏感哈希值,分词权重按以下公式获取,
Figure DEST_PATH_IMAGE001
其中N为正文特征数量,M为标题特征数量,β为预先设定的参数;
生成目标文本正文局部敏感哈希值,句子权重按以下公式获取,
Wsententce-i=(N-pos)α,α∈(0 ,1],
其中N为正文特征数量,M为标题特征数量,α为预先设定的参数,pos为语句在正文中的顺序下标
生成目标文本正文局部敏感哈希值和生成目标文本标题局部敏感哈希值;
去重步骤。
2.如权利要求1所述的一种文本去重方法,其特征在于,去重步骤包括,依据下述公式判断目标文本与样本是否表述相同事件,
Figure 857891DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure 837349DEST_PATH_IMAGE004
Rule=Rule1∪(Rule2∩Rule3)
其中,C1,C2为预先设置的常量参数,t为预先设置的海明距离阈值,titlehash为目标文本标题局部敏感哈希值,contenthash为目标文本正文局部敏感哈希值,titlei为样本数据库中样本文本标题局部敏感哈希值,contenti为样本数据库中样本文本正文局部敏感哈希值,Rule表示目标文本和样本是否为表述相同事件的判断条件。
3.如权利要求2所述的一种文本去重方法,其特征在于,还包括步骤,
若目标文本与样本表述不相同事件,则将目标文本信息加入样本数据库中;
目标文本信息包括目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值。
4.如权利要求1所述的一种文本去重方法,其特征在于,还包括获取样本数据库,获取样本数据库包括,
去除样本文本中的停用词;
获取样本文本标题分词信息,获取样本文本正文断句信息;
依据样本文本正文断句信息生成样本文本正文局部敏感哈希值,正文中的位置越靠前的句子权值越大;
依据样本文本标题分词信息生成样本文本标题局部敏感哈希值,分词权重参考样本标题特征与样本正文特征的数量比例;
将样本信息加入样本数据库中,样本信息包括样本文本标题局部敏感哈希值和样本文本正文局部敏感哈希值。
5.一种文本去重系统,其特征在于,包括以下单元,
预处理单元,用于目标文本数据预处理;预处理单元去除目标文本中的停用词;
预处理单元获取目标文本标题分词信息,获取目标文本正文断句信息;
目标文本处理单元,用于生成目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值;
目标文本处理单元生成目标文本标题局部敏感哈希值,分词权重按以下公式获取,
Figure DEST_PATH_IMAGE005
其中N为正文特征数量,M为标题特征数量,β为预先设定的参数;
目标文本处理单元生成目标文本正文局部敏感哈希值,句子权重按以下公式获取,
Wsententce-i=(N-pos)α,α∈(0 ,1],
其中N为正文特征数量,M为标题特征数量,α为预先设定的参数,pos为语句在正文中的顺序下标
去重单元,用于去重。
6.如权利要求5所述的一种文本去重系统,其特征在于,去重单元依据下述公式判断目标文本与样本是否表述相同事件,
Figure 617086DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure 74612DEST_PATH_IMAGE008
Rule=Rule1∪(Rule2∩Rule3)
其中,C1,C2为预先设置的常量参数,t为预先设置的海明距离阈值,titlehash为目标文本标题局部敏感哈希值,contenthash为目标文本正文局部敏感哈希值,titlei为样本数据库中样本文本标题局部敏感哈希值,contenti为样本数据库中样本文本正文局部敏感哈希值,Rule表示目标文本和样本是否为表述相同事件的判断条件。
7.如权利要求6所述的一种文本去重系统,其特征在于,去重单元执行以下,
若目标文本与样本表述不相同事件,则将目标文本信息加入样本数据库中;
目标文本信息包括目标文本正文局部敏感哈希值和目标文本标题局部敏感哈希值。
8.如权利要求5所述的一种文本去重系统,其特征在于,还包括获取样本数据库,获取样本数据库包括,
去除样本文本中的停用词;
获取样本文本标题分词信息,获取样本文本正文断句信息;
依据样本文本正文断句信息生成样本文本正文局部敏感哈希值,正文中的位置越靠前的句子权值越大;
依据样本文本标题分词信息生成样本文本标题局部敏感哈希值,分词权重参考样本标题特征与样本正文特征的数量比例;
将样本信息加入样本数据库中,样本信息包括样本文本标题局部敏感哈希值和样本文本正文局部敏感哈希值。
CN201810134643.3A 2018-02-09 2018-02-09 一种文本去重方法及系统 Active CN108345586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810134643.3A CN108345586B (zh) 2018-02-09 2018-02-09 一种文本去重方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810134643.3A CN108345586B (zh) 2018-02-09 2018-02-09 一种文本去重方法及系统

Publications (2)

Publication Number Publication Date
CN108345586A CN108345586A (zh) 2018-07-31
CN108345586B true CN108345586B (zh) 2021-04-02

Family

ID=62959186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810134643.3A Active CN108345586B (zh) 2018-02-09 2018-02-09 一种文本去重方法及系统

Country Status (1)

Country Link
CN (1) CN108345586B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299443B (zh) * 2018-09-04 2023-04-14 中山大学 一种基于最小顶点覆盖的新闻文本去重方法
CN109710729A (zh) * 2018-12-14 2019-05-03 麒麟合盛网络技术股份有限公司 一种文本数据的采集方法及装置
CN110297879B (zh) * 2019-05-15 2023-05-30 平安科技(深圳)有限公司 一种基于大数据的数据去重的方法、装置及存储介质
CN110705310B (zh) * 2019-09-20 2023-07-18 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110750731B (zh) * 2019-09-27 2023-10-27 成都数联铭品科技有限公司 针对新闻舆情的去重方法及系统
CN114398968B (zh) * 2022-01-06 2022-09-20 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779188A (zh) * 2012-06-29 2012-11-14 北京奇虎科技有限公司 文本消重系统和方法
CN103970722A (zh) * 2014-05-07 2014-08-06 江苏金智教育信息技术有限公司 一种文本内容去重的方法
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090198677A1 (en) * 2008-02-05 2009-08-06 Nuix Pty.Ltd. Document Comparison Method And Apparatus
US10380073B2 (en) * 2013-11-04 2019-08-13 Falconstor, Inc. Use of solid state storage devices and the like in data deduplication

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779188A (zh) * 2012-06-29 2012-11-14 北京奇虎科技有限公司 文本消重系统和方法
CN103970722A (zh) * 2014-05-07 2014-08-06 江苏金智教育信息技术有限公司 一种文本内容去重的方法
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"基于关键词的搜索引擎网页去重算法研究";贺知义;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第2期);第I139-196页 *
"基于内容的搜索引擎网页去重研究";刘阳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110515(第5期);第I139-221页 *
Yi Yu 等." Rearch on Large Scale Documents Deduplication Technique based on Simhash Algorithm".《Proceedings of International Conference on Information Sciences,Machinery,Materials and Energy(ICISMME 2015)》.2015, *

Also Published As

Publication number Publication date
CN108345586A (zh) 2018-07-31

Similar Documents

Publication Publication Date Title
CN108345586B (zh) 一种文本去重方法及系统
Lazar et al. Improving the accuracy of duplicate bug report detection using textual similarity measures
CN111581355B (zh) 威胁情报的主题检测方法、装置和计算机存储介质
US10402499B2 (en) System and method for coupled detection of syntax and semantics for natural language understanding and generation
CN108241741B (zh) 一种文本分类方法、服务器及计算机可读存储介质
KR20120042829A (ko) 쓰기 체계 및 언어 검출
Povoda et al. Sentiment analysis based on support vector machine and big data
US10089411B2 (en) Method and apparatus and computer readable medium for computing string similarity metric
CN110750615B (zh) 文本重复性判定方法和装置、电子设备和存储介质
CN109933648B (zh) 一种真实用户评论的区分方法和区分装置
US9633009B2 (en) Knowledge-rich automatic term disambiguation
CN112800919A (zh) 一种检测目标类型视频方法、装置、设备以及存储介质
Ahmed et al. Natural language processing and machine learning based cyberbullying detection for Bangla and Romanized Bangla texts
CN106569989A (zh) 一种用于短文本的去重方法及装置
CN104636415A (zh) 提取重要关键字的方法和执行所述方法的服务器
WO2016191912A1 (en) Comment-centered news reader
CN112905753A (zh) 一种判别文本信息的方法和装置
Mohammadi et al. A fast text similarity measure for large document collections using multireference cosine and genetic algorithm
CN115344563B (zh) 数据去重方法及装置、存储介质、电子设备
CN111488452A (zh) 一种网页篡改检测方法、检测系统及相关设备
CN115827867A (zh) 文本类型的检测方法及装置
Xu et al. Cer: Complementary entity recognition via knowledge expansion on large unlabeled product reviews
CN113316786B (zh) 用于识别漏洞利用工具包的方法
CN109063117B (zh) 一种基于特征抽取的网络安全博客分类方法及系统
JP5694989B2 (ja) 文書分類装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191112

Address after: 400021 No.51 dapingzheng street, Yuzhong District, Chongqing

Applicant after: CHONGQING TELECOMMUNICATION SYSTEM INTEGRATION CO.,LTD.

Applicant after: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

Address before: 401121 the 18 layer of kylin C, No. 2, No. 53, Mount Huangshan Avenue, Yubei District, Chongqing

Applicant before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 51, Daping Main Street, Yuzhong District, Chongqing 400021

Patentee after: Zhongdian Zhi'an Technology Co.,Ltd.

Country or region after: China

Patentee after: Chongqing Yucun Technology Co.,Ltd.

Address before: No. 51, Daping Main Street, Yuzhong District, Chongqing 400021

Patentee before: CHONGQING TELECOMMUNICATION SYSTEM INTEGRATION CO.,LTD.

Country or region before: China

Patentee before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240409

Address after: 401120 Tower B, No. 10 Datagu West Road, Yubei District, Xiantao Street, Yubei District, Chongqing

Patentee after: China Telecom Yijin Technology Co.,Ltd.

Country or region after: China

Patentee after: Chongqing Yucun Technology Co.,Ltd.

Address before: No. 51, Daping Main Street, Yuzhong District, Chongqing 400021

Patentee before: Zhongdian Zhi'an Technology Co.,Ltd.

Country or region before: China

Patentee before: Chongqing Yucun Technology Co.,Ltd.