CN103389987A - 文本相似性比较方法及系统 - Google Patents

文本相似性比较方法及系统 Download PDF

Info

Publication number
CN103389987A
CN103389987A CN2012101426515A CN201210142651A CN103389987A CN 103389987 A CN103389987 A CN 103389987A CN 2012101426515 A CN2012101426515 A CN 2012101426515A CN 201210142651 A CN201210142651 A CN 201210142651A CN 103389987 A CN103389987 A CN 103389987A
Authority
CN
China
Prior art keywords
file
analyzed
proper vector
similarity
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101426515A
Other languages
English (en)
Inventor
高峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2012101426515A priority Critical patent/CN103389987A/zh
Publication of CN103389987A publication Critical patent/CN103389987A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本相似性比较方法,首先提取各待分析文件的各特征向量及各特征向量的值;然后将各待分析文件的特征向量进行削峰处理,即将各待分析文件的特征向量按值的大小分别排序,分别将各待分析文件的排序最高的一个或多个特征向量移除;再根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。本申请还公开了一种文本相似性比较系统。本申请的文本相似性比较方法及系统,能准确判断文本的相似性。

Description

文本相似性比较方法及系统
技术领域
本申请涉及信息技术,尤其涉及一种文本相似性比较方法及系统。
背景技术
随着网络通信技术的发展,使得人们可以接受到即时的、最新的消息;但同时随着网络的普及、网上的信息量越来越大,不仅对计算机对这些海量信息的获取、存储及实时分析处理能力提出了严峻的挑战,也给人们在搜索信息时的准确性和可靠性带来了一定的难度;
伴随着三网融合的进程,互联网中文本形式变得多样化,普通网页所占比例越来越小。微博、WAP、评论、短信等内容比例会逐渐提高。同普通网页类似,这类文本中也存在大量的相同或极为相似的内容。
类似论坛,博客这些文本发布类网站,每天都会面临大量重复文本(如广告)的问题。大量垃圾信息会干扰用户正常访问,带来糟糕的用户体验,所以如何对文本的相似性进行比较,以防治重复类文本等问题,是非常重要的。
常见的文本相似性比较的技术方案是,首先对各待分析文件进行预处理,然后提取各待分析文件的各特征向量及各特征向量的值,特征向量的值的大小反映的是该特征向量对文本特征贡献的重要程度,对各特征向量的值进行归一化后,采用余弦相似性、相关相似性、调整余弦相似性等相似度计算方法,根据各待分析文件的各特征向量及各特征向量的值,得到各待分析文件间的相似度。
特征向量可以最有效地刻划一份文本的特征,但某些特征向量会受到额外的噪声的干扰而失去有效性,但是许多提取文本特征向量的方法,通常是强调在待分析文件中出现次数较多,而在全局考察样本中较少出现的词语对文本特征向量的贡献,无法考虑到某些特征向量会受到额外的噪声的干扰而失去有效性。例如常见的TF-IDF(term frequency–inversedocument frequency)方式提取的文本特征向量,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。因此恶意破坏者只要简单在文本开头贴一段诸如佛经、史记上的文字,就可以干扰常见的文本相似性比较系统的判断。因为根据TF-IDF打分特征,TF-IDF会认为这些文字对于全局的意义更为重要。即使排除恶意破坏的场景,直接分析线上实际样本,我们也可以看到,大量广告帖的特征只存在局部差异:比方说,机票广告会存在大段相同文本,但只有在开头的往返地上存在差异。
发明内容
本申请要解决的技术问题是,准确判断文本的相似性。
为解决上述技术问题,本申请提供了一种文本相似性比较方法,包括以下步骤,
一.提取各待分析文件的各特征向量及各特征向量的值;
二.将各待分析文件的特征向量进行削峰处理,即将各待分析文件的特征向量按值的大小分别排序,分别将各待分析文件的排序最高的一个或多个特征向量移除;
三.根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
为解决上述技术问题,本申请还提供了一种文本相似性比较系统,包括:
一文件特征向量提取模块,用于提取各待分析文件的各特征向量及各特征向量的值;
一削峰处理模块,用于将各待分析文件的特征向量进行削峰处理,即将各待分析文件的特征向量按值的大小分别排序,分别将各待分析文件的排序最高的一个或多个特征向量移除;
一相似度分析模块,用于根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
本申请的文本相似性比较方法及系统,在得到各待分析文件的特征向量后,采取削峰的做法,抛弃若干个值最大的文本特征向量,如果待分析文件存在刻意干扰的文本信息,由于刻意干扰的文本信息所涉及的特征向量的值通常较大,刻意干扰的文本信息所涉及的特征向量通常就可以在这个环节被移除,使多个受到额外的干扰而失去有效性的特征向量不至于对文本相似性分析造成影响,从而更准确判断各待分析文件间的相似性。
附图说明
为了更清楚地说明本申请的技术方案,下面对本申请所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的文本相似性比较方法一实施例的示意图;
图2是本申请的文本相似性比较系统一实施例的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
文本相似性比较方法,如图1所示,包括以下步骤:
一.提取各待分析文件的各特征向量及各特征向量的值;
二.将各待分析文件的特征向量进行削峰处理,即将各待分析文件的特征向量按值的大小分别排序,分别将各待分析文件的排序最高的一个或多个特征向量移除;移除的排序最高的特征向量的个数,可以在对线上数据进行程序化的反复调试后确定;
三.根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
实施例二
采用TF-IDF(term frequency–inverse document frequency)方式或者TF-RIDF等各种向量权重评估方式(Term Weighting Approaches),提取各个待分析文件的各特征向量及各特征向量的值。
实施例三
采用余弦相似性或相关相似性、调整余弦相似性等基于向量权重的文本相似性算法,根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
实施例四
有三个各待分析文件,文件A、文件B、文件C,文件A为标准文本,恶意破坏者在文件A开头贴了一段教育相关的文字形成文件B,在文件A开头贴了一段法律相关的文字形成文件C;
将该三个待分析文件的特征向量进行削峰处理时,可以采用TF-IDF方式对所述各待分析文件包括的词语或短语进行特征向量提取。对各待分析文件提取的特征向量的处理方式如下:
文件A的值最大的50个特征向量依次为A1、A2、…、A50,将文件A的值最大的4个特征向量A1、A2、A3、A4移除;
文件B的值最大的50个特征向量依次为B1、A1、B2、B3、A2、A3、B4、A4、…A46,将文件B的值最大的4个特征向量B1、A1、B2、B3移除;B1、B2、B3、B4为添加的该段教育相关的文字所涉及的特征向量;
文件C的值最大的50个特征向量依次为C1、A1、A2、C2、A3、C3、A4、…A47,将文件C的值最大的4个特征向量C1、A1、A2、C2移除;C1、C2、C3为添加的该段法律相关的文字所涉及的特征向量。
将三个待分析文件的特征向量进行削峰处理后,文件A的值最大的46个特征向量依次为A5、A6、…、A50,文件B的值最大的46个特征向量依次为A2、A3、B4、A4、…A46,文件C的值最大的46个特征向量依次为A3、C3、A4、…A46,可见根据进行削峰处理后的三个待分析文件的特征向量分析文件间的相似度,由于文件B中刻意干扰的教育相关的文字所涉及的值较大特征向量B1、B2、B3被移除,文件C中刻意干扰的法律相关的文字所涉及的值较大特征向量C1、C2被移除,从而使文件B、文件C中的一部分额外干扰特征向量B1、B2、B3及C1、C2失去有效性,不至于对文本相似性分析造成影响,从而能更准确判断该三个待分析文件间的相似性。
实施例五
文本相似性比较系统,如图2所示,包括:
一文件特征向量提取模块,用于提取各待分析文件的各特征向量及各特征向量的值;
一削峰处理模块,用于将各待分析文件的特征向量进行削峰处理,即将各待分析文件的特征向量按值的大小分别排序,分别将各待分析文件的排序最高的一个或多个特征向量移除;
一相似度分析模块,用于根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
实施例七
文件特征向量提取模块,采用TF-IDF(term frequency–inversedocument frequency)方式或者TF-RIDF等各种向量权重评估方式(TermWeighting Approaches),提取各个待分析文件的各特征向量及各特征向量的值。
实施例八
相似度分析模块,采用余弦相似性或相关相似性、调整余弦相似性等基于向量权重的文本相似性算法,根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
本申请的文本相似性比较方法及系统,在得到各待分析文件的特征向量后,采取削峰的做法,抛弃若干个值最大的文本特征向量,如果待分析文件存在刻意干扰的文本信息,由于刻意干扰的文本信息所涉及的特征向量的值通常较大,刻意干扰的文本信息所涉及的特征向量通常就可以在这个环节被移除,使多个受到额外的干扰而失去有效性的特征向量不至于对文本相似性分析造成影响,从而更准确判断各待分析文件间的相似性。
而对于没有干扰文本信息的文本,此做法会损失一些最重要的文本信息特征,但对于比较文本相似性来说,其任务并不是精确提取文本特征向量,两篇分别抹去最大特征向量的文本,依然可以根据其它特征向量进行相似性判断。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (6)

1.一种文本相似性比较方法,其特征在于,包括以下步骤,
一.提取各待分析文件的各特征向量及各特征向量的值;
二.将各待分析文件的特征向量进行削峰处理,即将各待分析文件的特征向量按值的大小分别排序,分别将各待分析文件的排序最高的一个或多个特征向量移除;
三.根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
2.根据权利要求1所述的文本相似性比较方法,其特征在于,采用TF-IDF方式,提取各个待分析文件的各特征向量及各特征向量的值。
3.根据权利要求1所述的文本相似性比较方法,其特征在于,采用余弦相似性计算方法,根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
4.一种文本相似性比较系统,其特征在于,包括
一文件特征向量提取模块,用于提取各待分析文件的各特征向量及各特征向量的值;
一削峰处理模块,用于将各待分析文件的特征向量进行削峰处理,即将各待分析文件的特征向量按值的大小分别排序,分别将各待分析文件的排序最高的一个或多个特征向量移除;
一相似度分析模块,用于根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
5.根据权利要求4所述的文本相似性比较系统,其特征在于,
所述文件特征向量提取模块,采用TF-IDF方式,提取各个待分析文件的各特征向量及各特征向量的值。
6.根据权利要求4所述的文本相似性比较系统,其特征在于,
所述相似度分析模块,采用余弦相似性计算方法,根据经削峰处理后的各待分析文件的各特征向量的值,得到各待分析文件间的相似度。
CN2012101426515A 2012-05-09 2012-05-09 文本相似性比较方法及系统 Pending CN103389987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101426515A CN103389987A (zh) 2012-05-09 2012-05-09 文本相似性比较方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101426515A CN103389987A (zh) 2012-05-09 2012-05-09 文本相似性比较方法及系统

Publications (1)

Publication Number Publication Date
CN103389987A true CN103389987A (zh) 2013-11-13

Family

ID=49534263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101426515A Pending CN103389987A (zh) 2012-05-09 2012-05-09 文本相似性比较方法及系统

Country Status (1)

Country Link
CN (1) CN103389987A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202055A (zh) * 2016-07-27 2016-12-07 湖南蚁坊软件有限公司 一种针对长文本的相似性判定方法
CN107346344A (zh) * 2017-07-24 2017-11-14 北京京东尚科信息技术有限公司 文本匹配的方法和装置
CN109145299A (zh) * 2018-08-16 2019-01-04 北京金山安全软件有限公司 一种文本相似度确定方法、装置、设备及存储介质
CN110874526A (zh) * 2018-12-29 2020-03-10 北京安天网络安全技术有限公司 一种文件相似性检测方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828610A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种改进的基于文档结构的文档相似性度量方法
CN101308496A (zh) * 2008-07-04 2008-11-19 沈阳格微软件有限责任公司 大规模文本数据的外部聚类方法及系统
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828610A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种改进的基于文档结构的文档相似性度量方法
CN101308496A (zh) * 2008-07-04 2008-11-19 沈阳格微软件有限责任公司 大规模文本数据的外部聚类方法及系统
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202055A (zh) * 2016-07-27 2016-12-07 湖南蚁坊软件有限公司 一种针对长文本的相似性判定方法
CN107346344A (zh) * 2017-07-24 2017-11-14 北京京东尚科信息技术有限公司 文本匹配的方法和装置
CN109145299A (zh) * 2018-08-16 2019-01-04 北京金山安全软件有限公司 一种文本相似度确定方法、装置、设备及存储介质
CN109145299B (zh) * 2018-08-16 2022-06-21 北京金山安全软件有限公司 一种文本相似度确定方法、装置、设备及存储介质
CN110874526A (zh) * 2018-12-29 2020-03-10 北京安天网络安全技术有限公司 一种文件相似性检测方法、装置、电子设备及存储介质
CN110874526B (zh) * 2018-12-29 2024-03-01 北京安天网络安全技术有限公司 一种文件相似性检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Shrestha et al. Convolutional neural networks for authorship attribution of short texts
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN104484343B (zh) 一种对微博进行主题发现与追踪的方法
CN108965245A (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN102486791A (zh) 书签智能分类的方法和服务器
CN109873810B (zh) 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN103914494A (zh) 一种微博用户身份识别方法及系统
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN102521248A (zh) 一种网络用户分类方法及其装置
CN102622553A (zh) 检测网页安全的方法及装置
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
Man Feature extension for short text categorization using frequent term sets
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
Alghamdi et al. Topic detections in Arabic dark websites using improved vector space model
WO2014029318A1 (en) Method and apparatus for identifying webpage type
CN104915399A (zh) 基于新闻标题的推荐数据处理方法及系统
CN109471932A (zh) 基于学习模型的谣言检测方法、系统及存储介质
CN104778283A (zh) 一种基于微博的用户职业分类方法及系统
CN106250402B (zh) 一种网站分类方法及装置
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN103389987A (zh) 文本相似性比较方法及系统
Sitorus et al. Sensing trending topics in twitter for greater Jakarta area

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20131113

RJ01 Rejection of invention patent application after publication