CN103257957B - 一种基于中文分词的文本相似性识别方法及装置 - Google Patents

一种基于中文分词的文本相似性识别方法及装置 Download PDF

Info

Publication number
CN103257957B
CN103257957B CN201210033600.9A CN201210033600A CN103257957B CN 103257957 B CN103257957 B CN 103257957B CN 201210033600 A CN201210033600 A CN 201210033600A CN 103257957 B CN103257957 B CN 103257957B
Authority
CN
China
Prior art keywords
text
characteristic value
participle
feature words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210033600.9A
Other languages
English (en)
Other versions
CN103257957A (zh
Inventor
万波
曹训志
谢志远
陈盛荣
刘锐强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201210033600.9A priority Critical patent/CN103257957B/zh
Publication of CN103257957A publication Critical patent/CN103257957A/zh
Application granted granted Critical
Publication of CN103257957B publication Critical patent/CN103257957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明实施例公开了一种基于中文分词的文本相似性识别方法,其特征在于,该方法包括:对给定编码格式的文本中不能识别的字符以及无意义字符进行过滤,得到预处理文本;按照预设的分词模式对所述预处理文本进行分词;按照预设的策略从所述分词得到的单词中选择特征词;对选择的特征词进行排序得到特征字符串,并根据所述特征字符串计算文本的特征值;通过比较文本的特征值,确定文本之间的相似性。本发明还公开了一种基于中文分词的文本相似性识别装置,该方法及装置可以降低识别复杂度,提高识别效率,同时达到较高的识别正确率。

Description

一种基于中文分词的文本相似性识别方法及装置
技术领域
本发明涉及文本识别技术领域,特别涉及一种基于中文分词的文本相似性识别方法及装置。
背景技术
随着Web 2.0技术及SNS的快速发展,虽然使信息传播更加便利,但重复信息也越来越多,据公开资料统计,网页的重复率平均大约为4。也就是说,当你通过一个连接看到一篇文章信息的时候,平均还有另外3个不同的链接也给出相同或者基本相似的内容。
对于相同或相似的信息,现有的一些网站、社区等会对网页或文章中的文本内容进行识别,提取文本中的一些特征信息,并基于这些特征信息判断文本之间的相似程度,并通过聚类、过滤等手段对相似的文本进行处理,减少过多的无效重复信息,以及拦截批量传播的非法内容、垃圾广告等不良信息。
对于文本相似性的识别,现有方法一般是基于关键字的提取,即提取文本中的关键字作为特征信息,再根据文本之间特定关键字的共性,如相同关键字的数量、相同关键字出现的次数等,确定文本之间的相似性,之后,即可基于文本相似性进行后续的聚类、过滤、拦截等处理操作。
但是,这种基于关键字的文本相似性识别并不能很好的反映文本真实意思表示的相似性,其相似性识别的准确率比较低,很多文本虽然都包含某些相同的关键字,但是其要表达的意思可能完全不同甚至相反,致使很多虽然带有相同关键词,但意思表示与已知文本完全不同的文本被认为相似而被误杀,对网站、社区用户的体验伤害很大,对业务发展带来较大压力。
为提高相似性识别的准确性,人们提出了其它改进的方法:
向量矩阵算法,该算法将文本转换为一个向量矩阵,通过对向量矩阵进行比较,确定文本之间的相似性。
全文分段签名算法,该算法把文本按一定的原则分成N段(如每n行作为一段),然后对每一段进行签名(即计算指纹),于是文本就可以用N个签名后的指纹来表示。对于两个文本,当它们的N个签名中有M个相同时(m是系统定义的阈值),则认为两个文本相似。
虽然上述两种算法能够保证较高的识别准确率,降低了关键字提取方法所带来的误杀,但这两种算法所需的计算量相当大,它们在时间上的复杂度(提取特征信息和特征信息比较过程所需时间)和空间的复杂度(提取出的特征信息需要占用的存储空间)都很高,大大降低了文本相似性识别的效率,难以胜任海量文本业务的应用。
发明内容
有鉴于此,本发明提供了一种基于中文分词的文本相似性识别方法及装置,可以降低识别复杂度,提高识别效率,同时达到较高的识别正确率。
为达上述目的,本发明的技术方案具体是这样实现的:
一种基于中文分词的文本相似性识别方法,该方法包括:
对文本进行分词;
根据分词的词性和出现的次数从所有分词中选择预设数量的分词作为特征词;
对选择的特征词进行排序得到特征字符串,并计算所述排序得到的特征字符串的特征值;将所述特征值作为整个文本的特征值;所述排序包括:根据特征词的词性和出现的次数作为权重,对特征词进行加权排序,得到排序后的特征词字符串;
通过比较文本的特征值,确定文本之间的相似性。
较佳地,对文本进行分词包括:
按照大粒度或小粒度模式,结合词频词性选择特定的分词单元对文本以单词为单位进行划分,并标注每个单词的词性。
较佳地,对文本进行分词之前还包括:
对文本中不能识别的字符以及无意义字符进行过滤。
较佳地,所述特征值为根据所述排序后的特征词字符串计算的MD5值。
较佳地,该方法进一步包括:
预先选取样本文本并计算特征值;
根据所述样本文本的特征值建立分类样本库;
计算特定文本的特征值并与所述分类样本库中样本文本的特征值进行匹配;
若匹配到相同的特征值,则确定该特定文本对应的分类,根据该特定文本的分类,进行对应的处理。
较佳地,该方法进一步包括:
若没有匹配到相同的特征值,则将该特定文本进行手工分类,并将该特定文本的特征值加入分类样本库。
一种基于中文分词的文本相似性识别装置,该装置包括:
分词模块,用于按照预设的分词模式对文本进行分词;
选择模块,与所述分词模块相连,用于预先设定选取特征词的数量,根据分词的词性和出现的次数从所有分词中选择预设数量的分词作为特征词;
特征值计算模块,与所述选择模块相连,用于根据选择的特征词的词性和出现的次数作为权重,对选择的特征词进行加权排序得到特征字符串,并计算所述排序得到的特征字符串的特征值;将所述特征值作为整个文本的特征值;
比较模块,与所述特征值计算模块相连,用于通过比较文本的特征值,确定文本之间的相似性。
较佳地,所述分词模块包括:
模式确定单元,用于确定分词模式,包括大粒度模式或小粒度模式;
划分单元,与所述模式确定单元相连,用于根据确定的分词模式,结合词频词性选择特定的分词单元对文本以单词为单位进行划分;
标注单元,与所述划分单元相连,用于标注每个单词的词性。
较佳地,该装置还包括:
预处理模块,与分词模块相连,用于在分词之前对文本中不能识别的字符以及无意义字符进行过滤。
较佳地,所述特征值计算模块包括:
排序单元,用于根据特征词的词性和出现的次数作为权重,对特征词进行加权排序,得到排序后的特征词字符串;
计算单元,用于根据所述排序后的特征词字符串计算MD5值。
较佳地,该装置进一步包括:
分类样本库,用于保存对预先选取的样本文本计算的特征值;
所述比较模块,进一步与所述分类样本库相连,用于将特定文本的特征值与所述分类样本库中样本文本的特征值进行匹配;
处理模块,与所述比较模块相连,若所述比较模块匹配到相同的特征值,则确定该特定文本对应的分类,根据该特定文本的分类,进行对应的处理。
较佳地,所述处理模块进一步与所述分类样本库相连,若所述比较模块没有匹配到相同的特征值,则所述处理模块将该特定文本进行手工分类,并将该特定文本的特征值加入分类样本库。
由上述技术方案可见,本发明的这种基于中文分词的文本相似性识别方法及装置,通过将文本划分为分词,再从分词中提取特征词,并计算这些特征词的特征值进行比较,可以降低识别过程的复杂度,提高识别效率,同时达到较高的识别正确率。
附图说明
图1为本发明实施例的文本相似性识别方法流程图。
图2为基于本发明实施例的文本相似性识别方法进行文本分类应用的流程图。
图3为本发明实施例的文本相似性识别装置结构示意图;
图4为本发明实施例的分词模块结构示意图;
图5为本发明实施例的选择模块结构示意图;
图6为本发明实施例的特征值计算模块结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
本发明主要是以中文分词为基础,在分词时可以通过文本分词及词频排序,并可以进一步依靠文本语义分析和词性调优等,找到能准确反映文本含义的分词,再对找到的分词计算特征值,这样就可以把任意一文本转换计算成唯一的特征值来表示,对于任意文本之间的相似性比较,就可以被简化为文本之间唯一特征值的比较,从而大大降低文本之间相似性识别的复杂度,提高了识别效率,同时该方法通过智能分词而不是简单的关键词提取来获取文本的特征,也保证了较高的识别准确率。在获得文本相似性结果之后,无论是对历史文本进行聚类,还是对于新产生的文本进行相似性匹配过滤、拦截等,都将变得简化和高效。
本发明的识别方法如图1所示,包括如下步骤:
步骤101,对文本进行过滤噪音预处理;
过滤噪音是指对给定编码格式的文本中不能识别的字符(即非指定编码格式)以及无意义字符,如制表符、空格等进行过滤;主要目的是防止文本被恶意添加噪音而被绕过。对于经过滤噪音预处理后的文本,可以标记为Filter(Texti)。
步骤102,对预处理后的文本进行分词处理;
具体的做法是将给定的文本段落切分为词,具体切分时可以采用大粒度或小粒度模式;例如,"世界杯足球赛"这个词,如果我们按照大粒度模式,则切分为“世界杯/足球赛”,小粒度模式则是“世界/杯/足球/赛”,区别在于划分出的单词的字数范围。实际进行分词时还可以结合智能的词频统计,结合词频词性选择特定的分词单元来进行划分。
最后对切分后生成的词进行词性标注。例如给定一个文本:“2014年世界杯足球赛在巴西举办”,那么分词后的结果可以是:2014(数词)、世界杯(名词)、足球赛(名词)、巴西(地名)、举办(动词)。进行分词处理后的文本可以标记为Seg(Filter(Texti)。
步骤103,选择特征词;
根据分词后得到的每个词的词性以及出现的频率,以及实际需要对所有分词取N个代表性的词作为文本的特征词,标记为K={K1,K1,K1,…,Kn};仍然以步骤102中的文本样本来举例,假如我们只选三个特征词,一般来讲地名、名词、动词能较好的反应原文的意思,另外若一个词在文中出现多次,则可以考虑加重此词的入选概率,具体选择特征词的算法可以根据需要确定。这里由于样本中各个词仅出现一次,因此可以不考虑词频的因素,例如选取“巴西”、“世界杯”、“举办”作为特征词。
步骤104,计算特征词的特征值。
对选择出的文本的特征词按照预设的策略排序后组成的字符串计算特征值,如MD5值;此特征值作为整个文本的唯一标识;其中,具体排序策略可以根据需要确定,例如根据特征词的词性、出现的次数等参数作为权重,对特征词进行加权排序;仍以上述样本为例,排序后得到“巴西、举办、世界杯”的特征字符串,然后计算此特征字符串的MD5值,可以标记为MD5(Concatenate-Sort(K))。
步骤105,比较特征值,确定相似性;
若有两个文本,他们的MD5值相同,即对于Texti和Textj,其特征词分别Ki和Kj,且MD5(Concatenate-Sort(Ki))=MD5(Concatenate-Sort(Kj)),那么我们就认为这两个文本相似,否则不相似。例如有另一个样本,“巴西获得了2014年的世界杯举办权”,分词的结果是:巴西(地名)、获得(动词)、2014(数词)、世界杯(名词)、举办(动词)。假如仍然只选用三个词,根据选词算法,及排序策略,得到的特征字符串选出的结果也是“巴西、举办、世界杯”与之前的样本得到的特征字符串相同,那么计算出的MD5值也是相同的,因此在本步骤中,就会得到“2014年世界杯足球赛在巴西举办”和“巴西获得了2014年的世界杯举办权”这两个文本相似的结果。
上述实施例给出了识别任意两个文本之间相似性的方法,利用该方法获得的相似性结果,可以用于对文本进行后续处理,如对文本进行分类,过滤等。
互联网用户经常被非法广告或不良信息干扰,严重影响了用户对互联网产品的体验,而本发明实施例的基于中文分词的文本相似性识别方法能够快速、有效的实现对文本进行分类,有助于对互联网中垃圾信息的清理,使得从海量文本中,找出目标类别文本,并进行相应的处理,变得简单高效,对于海量文本的应用提供了真正实现的可能。
以文本分类为例子,本发明实施例基于中文分词的文本相似性识别方法能快速、有效的对文本进行分类,具体的做法如图2所示,包括如下步骤:
步骤201,建立分类样本库;
选取某个分类的N篇文本作为分类样本,通过上述步骤101~104计算这些文本的MD5值并保存,得到该分类的样本特征值;若有多个分类,则重复上述步骤,获取多个分类的样本特征值。
步骤202,特征值匹配;
对于任意文本,同样通过步骤101~104计算该文本的MD5值,并通过上述步骤105将该文本的MD5值与MD5样本库中每一个分类的样本特征值逐一进行比较,如果匹配到相同的MD5值,就能很快知道该篇文本是属于哪个分类,分类确定了,就可以对这篇文本进行相应处理。
步骤203,分类样本库的累积。
若某些文本不能匹配到已有的分类,则可以通过其他方式,如人工检查的方式,对它们进行手工分类,将这些文本加入现有分类或作为新的分类,把这些文本的特征值添加到分类样本库。
对于过滤、拦截应用,也可以基于上述分类样本库进行,如果某文本的特征值匹配为某一预设的需要进行过滤、拦截的分类,则对该文本进行相应的处理即可。
经统计,利用上述方法,可以有效减少不良文本的传播,降低不良文本对正常内容文本的噪音干扰,同时不需要消耗过多的文本处理资源,使处理不良文本的能力大大加强。
另外,对应上述方法实施例,本发明还提供一种基于中文分词的文本相似性识别装置,如图3所示,该装置包括:
预处理模块301,用于对给定编码格式的文本中不能识别的字符以及无意义字符进行过滤,得到预处理文本;
分词模块302,与所述预处理模块301相连,用于按照预设的分词模式对所述预处理文本进行分词;
选择模块303,与所述分词模块302相连,用于按照预设的策略从分词得到的单词中选择特征词;
特征值计算模块304,与所述选择模块303相连,用于对选择的特征词进行排序得到特征字符串,并根据所述特征字符串计算文本的特征值;
比较模块305,与所述特征值计算模块304相连,用于通过比较文本的特征值,确定文本之间的相似性。
其中,所述分词模块302的具体结构如图4所示,包括:
模式确定单元401,用于确定分词模式,包括大粒度模式或小粒度模式;
划分单元402,与所述模式确定单元401相连,用于根据确定的分词模式,结合词频词性选择特定的分词单元对文本以单词为单位进行划分;
标注单元403,与所述划分单元402相连,用于标注每个单词的词性。
所述选择模块303的具体结构如图5所示,包括:
数量确定单元501,用于预先设定选取特征词的数量;
选择单元502,与所述数量确定单元501相连,用于根据分词的词性和出现的次数从所有分词中选择预设数量的分词作为特征词。
所述特征值计算模块304的具体结构如图6所示,包括:
排序单元601,用于根据特征词的词性和出现的次数作为权重,对特征词进行加权排序,得到排序后的特征词字符串;
计算单元602,与所述排序单元601相连,用于根据所述排序后的特征词字符串计算MD5值。
另外,作为另一实施例,该装置还可以进一步包括:
分类样本库306,用于保存对预先选取的样本文本计算的特征值;
所述比较模块305,进一步与所述分类样本库306相连,用于将特定文本的特征值与所述分类样本库306中样本文本的特征值进行匹配;
处理模块307,与所述比较模块305相连,若所述比较模块305匹配到相同的特征值,则确定该特定文本对应的分类,根据该特定文本的分类,进行对应的处理。
较佳地,所述处理模块307可以进一步与所述分类样本库306相连,若所述比较模块305没有匹配到相同的特征值,则所述处理模块307将该特定文本进行手工分类,并将该特定文本的特征值加入分类样本库306。
由上述的实施例可见,本发明的这种基于中文分词的文本相似性识别方法及装置,通过将文本划分为分词,再从分词中提取特征词,并计算这些特征词的特征值进行比较,可以降低识别过程的复杂度,提高识别效率,同时达到较高的识别正确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种基于中文分词的文本相似性识别方法,其特征在于,该方法包括:
对文本进行分词;
根据分词的词性和出现的次数从所有分词中选择预设数量的分词作为特征词;
对选择的特征词进行排序得到特征字符串,并计算所述排序得到的特征字符串的特征值;将所述特征值作为整个文本的特征值;所述排序包括:根据特征词的词性和出现的次数作为权重,对特征词进行加权排序,得到排序后的特征词字符串;
通过比较文本的特征值,确定文本之间的相似性。
2.如权利要求1所述的基于中文分词的文本相似性识别方法,其特征在于,所述对文本进行分词包括:
按照大粒度或小粒度模式,结合词频词性选择特定的分词单元对文本以单词为单位进行划分,并标注每个单词的词性。
3.如权利要求1所述的基于中文分词的文本相似性识别方法,其特征在于,对文本进行分词之前还包括:
对文本中不能识别的字符以及无意义字符进行过滤。
4.如权利要求1所述的基于中文分词的文本相似性识别方法,其特征在于,所述特征值为根据所述排序后的特征词字符串计算的MD5值。
5.如权利要求1所述的基于中文分词的文本相似性识别方法,其特征在于,该方法进一步包括:
预先选取样本文本并计算特征值;
根据所述样本文本的特征值建立分类样本库;
计算特定文本的特征值并与所述分类样本库中样本文本的特征值进行匹配;
若匹配到相同的特征值,则确定该特定文本对应的分类,根据该特定文本的分类,进行对应的处理;
若没有匹配到相同的特征值,则将该特定文本进行手工分类,并将该特定文本的特征值加入分类样本库。
6.一种基于中文分词的文本相似性识别装置,其特征在于,该装置包括:
分词模块,用于按照预设的分词模式对文本进行分词;
选择模块,与所述分词模块相连,用于预先设定选取特征词的数量,根据分词的词性和出现的次数从所有分词中选择预设数量的分词作为特征词;
特征值计算模块,与所述选择模块相连,用于根据选择的特征词的词性和出现的次数作为权重,对选择的特征词进行加权排序得到特征字符串,并计算所述排序得到的特征字符串的特征值;将所述特征值作为整个文本的特征值;
比较模块,与所述特征值计算模块相连,用于通过比较文本的特征值,确定文本之间的相似性。
7.如权利要求6所述的基于中文分词的文本相似性识别装置,其特征在于,所述分词模块包括:
模式确定单元,用于确定分词模式,包括大粒度或小粒度模式;
划分单元,与所述模式确定单元相连,用于根据确定的分词模式,结合词频词性选择特定的分词单元对文本以单词为单位进行划分;
标注单元,与所述划分单元相连,用于标注每个单词的词性。
8.如权利要求6所述的基于中文分词的文本相似性识别装置,其特征在于,还包括:
预处理模块,与分词模块相连,用于在分词之前对文本中不能识别的字符以及无意义字符进行过滤。
9.如权利要求6所述的基于中文分词的文本相似性识别装置,其特征在于,所述特征值计算模块包括:
排序单元,用于根据特征词的词性和出现的次数作为权重,对特征词进行加权排序,得到排序后的特征词字符串;
计算单元,用于根据所述排序后的特征词字符串计算MD5值。
10.如权利要求6所述的基于中文分词的文本相似性识别装置,其特征在于,该装置进一步包括:
分类样本库,用于保存对预先选取的样本文本计算的特征值;
所述比较模块,进一步与所述分类样本库相连,用于将特定文本的特征值与所述分类样本库中样本文本的特征值进行匹配;
处理模块,与所述比较模块、所述分类样本库相连:若所述比较模块匹配到相同的特征值,则确定该特定文本对应的分类,根据该特定文本的分类,进行对应的处理;若所述比较模块没有匹配到相同的特征值,则所述处理模块将该特定文本进行手工分类,并将该特定文本的特征值加入分类样本库。
CN201210033600.9A 2012-02-15 2012-02-15 一种基于中文分词的文本相似性识别方法及装置 Active CN103257957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210033600.9A CN103257957B (zh) 2012-02-15 2012-02-15 一种基于中文分词的文本相似性识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210033600.9A CN103257957B (zh) 2012-02-15 2012-02-15 一种基于中文分词的文本相似性识别方法及装置

Publications (2)

Publication Number Publication Date
CN103257957A CN103257957A (zh) 2013-08-21
CN103257957B true CN103257957B (zh) 2017-09-08

Family

ID=48961886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210033600.9A Active CN103257957B (zh) 2012-02-15 2012-02-15 一种基于中文分词的文本相似性识别方法及装置

Country Status (1)

Country Link
CN (1) CN103257957B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572736A (zh) * 2013-10-23 2015-04-29 北大方正集团有限公司 基于社交网络的关键词提取方法及装置
CN103544309B (zh) * 2013-11-04 2017-03-15 北京中搜网络技术股份有限公司 一种中文垂直搜索的检索串拆分方法
CN104615714B (zh) * 2015-02-05 2019-05-24 北京中搜云商网络技术有限公司 基于文本相似度和微博频道特征的博文排重方法
CN106598986B (zh) * 2015-10-16 2020-11-27 北京国双科技有限公司 相似度计算的方法及装置
US10217025B2 (en) 2015-12-22 2019-02-26 Beijing Qihoo Technology Company Limited Method and apparatus for determining relevance between news and for calculating relevance among multiple pieces of news
CN105718506B (zh) * 2016-01-04 2019-03-05 胡新炜 一种科技项目查重对比的方法
CN105701085B (zh) * 2016-01-13 2018-05-22 湖南通远网络科技有限公司 一种网络查重方法及系统
CN105701076B (zh) * 2016-01-13 2018-05-22 湖南通远网络科技有限公司 一种论文抄袭检测方法及系统
CN105677641B (zh) * 2016-01-13 2018-03-16 夏峰 一种论文自检方法及系统
CN105893533B (zh) * 2016-03-31 2021-05-07 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN106202055A (zh) * 2016-07-27 2016-12-07 湖南蚁坊软件有限公司 一种针对长文本的相似性判定方法
TWI656450B (zh) * 2017-01-06 2019-04-11 香港商光訊網絡科技有限公司 從中文語料庫提取知識的方法和系統
CN106815605B (zh) * 2017-01-23 2021-04-13 上海上讯信息技术股份有限公司 一种基于机器学习的数据分类方法及设备
CN107229605B (zh) * 2017-04-07 2020-05-29 阿里巴巴集团控股有限公司 文本相似度的计算方法及装置
CN107122348A (zh) * 2017-04-24 2017-09-01 维沃移动通信有限公司 一种信息保存方法及移动终端
CN107680585B (zh) * 2017-08-23 2020-10-02 海信集团有限公司 一种中文分词方法、中文分词装置和终端
CN109543174B (zh) * 2017-09-21 2023-05-09 广州腾讯科技有限公司 文本选择方法、装置、计算机可读存储介质和计算机设备
CN107908649B (zh) * 2017-10-11 2020-07-28 北京智慧星光信息技术有限公司 一种文本分类的控制方法
CN107784110B (zh) * 2017-11-03 2020-07-03 北京锐安科技有限公司 一种索引建立方法及装置
CN108153728B (zh) * 2017-12-22 2021-05-25 新奥(中国)燃气投资有限公司 一种关键词确定方法及装置
CN108304480B (zh) * 2017-12-29 2020-08-04 东软集团股份有限公司 一种文本相似度确定方法、装置及设备
CN109165669B (zh) * 2018-07-09 2021-11-16 浙江大学 基于模型识别码的三维面片模型文件相似性检测方法
CN109145529B (zh) * 2018-09-12 2021-12-03 重庆工业职业技术学院 一种用于版权认证的文本相似性分析方法与系统
CN110008343A (zh) * 2019-04-12 2019-07-12 深圳前海微众银行股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN110399483A (zh) * 2019-06-12 2019-11-01 五八有限公司 一种主题分类方法、装置、电子设备及可读存储介质
CN110909161B (zh) * 2019-11-12 2022-04-08 西安电子科技大学 基于密度聚类和视觉相似度的英文单词分类方法
CN111160042B (zh) * 2019-12-31 2023-04-28 重庆觉晓科技有限公司 一种文本语义解析方法和装置
CN113963359B (zh) * 2021-12-20 2022-03-18 北京易真学思教育科技有限公司 文本识别模型训练方法、文本识别方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093485A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 一种网页重复内容过滤方法
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627613B1 (en) * 2003-07-03 2009-12-01 Google Inc. Duplicate document detection in a web crawler system
US20070112754A1 (en) * 2005-11-15 2007-05-17 Honeywell International Inc. Method and apparatus for identifying data of interest in a database
CN101079031A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种网页主题提取系统和方法
CN101101599A (zh) * 2007-06-20 2008-01-09 精实万维软件(北京)有限公司 一种从网页中提取广告主信息的方法
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093485A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 一种网页重复内容过滤方法
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
相似网页识别算法的研究与实现;段飞;《中国优秀硕士学位论文全文数据库信息科技辑》;20110915(第9期);第4-12、24-33页 *

Also Published As

Publication number Publication date
CN103257957A (zh) 2013-08-21

Similar Documents

Publication Publication Date Title
CN103257957B (zh) 一种基于中文分词的文本相似性识别方法及装置
CN107943941B (zh) 一种可迭代更新的垃圾文本识别方法和系统
US9781139B2 (en) Identifying malware communications with DGA generated domains by discriminative learning
Gharge et al. An integrated approach for malicious tweets detection using NLP
Zhang et al. A domain-feature enhanced classification model for the detection of Chinese phishing e-Business websites
CN103514238B (zh) 基于分类查找的敏感词识别处理方法
Sonowal Phishing email detection based on binary search feature selection
CN102346829A (zh) 基于集成分类的病毒检测方法
TW201115370A (en) Systems and methods for capturing and managing collective social intelligence information
CN109446404A (zh) 一种网络舆情的情感极性分析方法和装置
CN104735074A (zh) 一种恶意url检测方法及其实现系统
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN105574544A (zh) 一种数据处理方法和装置
CN110727766A (zh) 敏感词的检测方法
CN110046196A (zh) 标识关联方法及装置、电子设备
CN103886077B (zh) 短文本的聚类方法和系统
CN109933648B (zh) 一种真实用户评论的区分方法和区分装置
Mohammed et al. Classifying unsolicited bulk email (UBE) using python machine learning techniques
CN108197474A (zh) 移动终端应用的分类和检测方法
CN102945246A (zh) 网络信息数据的处理方法及装置
Mrowca et al. Stance detection for fake news identification
Mahmoudi et al. Web spam detection based on discriminative content and link features
CN113645173A (zh) 一种恶意域名的识别方法、系统和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant