CN103605694A - 一种相似文本检测装置和方法 - Google Patents

一种相似文本检测装置和方法 Download PDF

Info

Publication number
CN103605694A
CN103605694A CN201310537965.XA CN201310537965A CN103605694A CN 103605694 A CN103605694 A CN 103605694A CN 201310537965 A CN201310537965 A CN 201310537965A CN 103605694 A CN103605694 A CN 103605694A
Authority
CN
China
Prior art keywords
text
feature
database
proper vector
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310537965.XA
Other languages
English (en)
Inventor
孙林
陈培军
秦吉胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310537965.XA priority Critical patent/CN103605694A/zh
Publication of CN103605694A publication Critical patent/CN103605694A/zh
Priority to PCT/CN2014/087175 priority patent/WO2015062377A1/zh
Priority to US15/034,307 priority patent/US20160283582A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种相似文本检测装置和方法,用于识别相似文本,该装置包括:中文文本获取单元,适于对文本进行文本处理以获取中文文本;拼音文本获取单元,适于将获取的中文文本中的汉字转为拼音得到拼音文本;指纹获取单元,适于提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量;检测单元,适于根据所述特征向量,判断待检测的文本是否与一个数据库中的记录匹配。使用本发明的装置和方法,可以由待检测的文本得到中文文本、进而得到拼音文本、形成拼音文本的特征向量,以及根据特征向量判断待检测的文本是否与一个数据库中的记录匹配,达到降低运算量、准确识别相似文本的变种的有益效果。

Description

一种相似文本检测装置和方法
技术领域
本发明涉及计算机领域,具体涉及一种相似文本检测装置和方法。
背景技术
随着问答社区等网络应用的兴起,网络上出现了大量的文本,比如用户的提问和回答,然而大量的广告信息充斥在网络应用中,给用户查找信息带来了诸多不便,同时也降低了网络应用的质量。为了解决这个问题,文本相似度计算的研究工作逐渐开展起来,以期望能够通过计算文本相似度找出广告等垃圾信息。
一种相似文本检测方法为:首先提取文本的特征(例如对文本进行分词,提取实体词)并使用各种技术对特征进行扩展(例如使用同义词词林,近义词词典等知识库进行词汇扩展),并使用VSM模型来描述文本(例如使用VSM模型将一篇文本表示为一个向量),然后使用聚类方法对文本进行聚类(例如对于两篇文本,经过向量化表示后,计算两个向量的余弦夹角用于表征两篇文本的相似性,如果相似度大于一定阈值,则认为两篇文本是相似的),被聚到一起的文本是相似的。
然而,在网络应用中,存在着大量的相似文本的变种,如使用繁体字、适用拼音代替文字、用同音字代替原字、加入大量无意义的干扰字符,等等,上述技术存在以下缺点:(一)分词结果存在误差;(二)同音不同字的文本无法判断为相似;(三)无法将经过拼音化处理的两篇文本识别为相似文本;(四)对文本的计算复杂度太高(例如,将文本表示为向量,需要较大的运算量),无法满足当前大数据量情况下的运算实时性要求。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种相似文本检测装置和相应的一种相似文本检测方法。
依据本发明的一个方面,提供了一种相似文本检测装置,其中,该装置包括:
中文文本获取单元,适于对文本进行文本处理以获取中文文本;
拼音文本获取单元,适于将获取的中文文本中的汉字转为拼音得到拼音文本;
指纹获取单元,适于提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量;
检测单元,适于根据所述特征向量,判断待检测的文本是否与一个数据库中的记录匹配。
可选地,所述检测单元,适于对所述特征向量中的每个特征,检测数据库中是否多次出现该特征;所述检测单元,适于判断所述特征向量中的在数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述待检测的文本与数据库中的记录匹配,否则不匹配。
可选地,所述检测单元,适于对所述特征向量中的每个特征,从数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则数据库中多次出现该特征。
可选地,该装置进一步包括数据库更新单元,所述数据库更新单元,适于在确定所述待检测的文本与数据库中的记录匹配时,对于所述特征向量中的每个特征,如果检测到数据库中存在该特征,则将数据库中该特征的权值加1。
可选地,所述检测单元,适于在对于所述特征向量中的每个特征,检测数据库中是否存在该特征之前,判断所述特征向量中的特征的数目是否小于第三阈值,是则所述待检测的文本与数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测数据库中是否多次出现该特征。
可选地,所述中文文本获取单元,适于对文本进行数据清洗操作,将文本中的内容转换为规则字符;将拼音转化为汉字;以及保留常用的汉字。
可选地,所述中文文本获取单元,适于识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url,以将文本中的内容转换为规则字符;所述中文文本获取单元,适于使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个,以将文本中的拼音转化为汉字;所述中文文本获取单元,适于使用GBK编码表中的常用汉字对文本进行过滤,丢弃所有不属于常用汉字的字符,以保留常用的汉字。
可选地,所述拼音文本获取单元,适于使用拼音汉字对照表,将每个汉字转换为对应的拼音串,以得到拼音文本。
可选地,所述指纹获取单元,适于以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。
根据本发明的另一方面,提供了一种相似文本检测方法,其中,该方法包括如下步骤:
对待检测的文本进行文本处理以获取中文文本;
将获取的中文文本中的汉字转为拼音得到拼音文本;
提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量;
根据所述特征向量,判断待检测的文本是否与一个数据库中的记录匹配。
可选地,所述判断待检测的文本是否与数据库中的记录匹配包括:对所述特征向量中的每个特征,检测数据库中是否多次出现该特征;判断所述特征向量中的在数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述待检测的文本与数据库中的记录匹配,否则不匹配。
可选地,所述检测数据库中是否多次出现该特征包括:从数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则数据库中多次出现该特征。
可选地,在确定所述待检测的文本与数据库中的记录匹配时,该方法进一步包括:对于所述特征向量中的每个特征,如果检测到数据库中存在该特征,则该将数据库中该特征的权值加1。
可选地,在对于所述特征向量中的每个特征,检测数据库中是否存在该特征之前,所述判断待检测的文本是否与数据库中的记录匹配进一步包括:判断所述特征向量中的特征的数目是否小于第三阈值,是则所述待检测的文本与数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测数据库中是否多次出现该特征。
可选地,所述对文本进行文本处理以获取中文文本,具体包括:对文本进行数据清洗操作,将文本中的内容转换为规则字符;将拼音转化为汉字;保留常用的汉字。
可选地,所述对文本进行数据清洗操作,具体包括:识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url;所述将文本中的拼音转化为汉字,具体包括:使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个;所述保留常用的汉字,具体包括:使用GBK编码表中的常用汉字对文本进行过滤,丢弃所有不属于常用汉字的字符。
可选地,所述将获取的中文文本中的汉字转为拼音得到拼音文本,具体包括:使用拼音汉字对照表,将每个汉字转换为对应的拼音串,得到拼音文本。
可选地,所述提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量,具体包括:以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。
根据本发明的相似文本检测装置和方法,可以由待检测的文本得到中文文本、进而得到拼音文本、形成所述拼音文本的特征向量,以及根据所述特征向量判断待检测的文本是否与一个数据库中的记录匹配,解决了背景技术运算量大、不能有效识别相似文本的变种的问题,取得了降低运算量、准确识别相似文本的变种的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的相似文本检测方法的流程图;
图2示出了如图1所示的步骤S100、步骤S200和步骤S300的详细的流程图;
图3示出了如图1所示的步骤S400的详细的流程图;
图4示出了根据本发明第一实施例的相似文本检测装置的框图;以及
图5示出了根据本发明第二实施例的相似文本检测装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的相似文本检测方法的流程图。图2示出了图1中步骤S100、步骤S200和步骤S300的详细的流程图。该方法包括以下的步骤S100、S200、S300和S400。
S100、对待检测的文本进行文本处理以获取中文文本。
通过由待检测的文本获取中文文本,可以消除包括有无意义的干扰字符、繁体字等相似文本的变种对本实施例相似文本检测方法的影响。
S200、将获取的中文文本中的汉字转为拼音得到拼音文本。
通过将中文文本中的汉字统一转化为拼音,可以消除用拼音代替文字、用同音字代替原字等相似文本的变种对本实施例相似文本检测方法的影响。
S300、提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量。
本实施例中,可以采用N元语言模型(N-gram)提起拼音文本的特征向量,基于步骤S100获取的中文文本中的汉字粒度,对步骤S200获取的拼音文本提取N-gram特征SHINGLE1、SHINGLE2、…SHINGLEm。例如,如果步骤S100获取的中文文本为“我爱北京天安门”,汉字粒度为“我”、“爱”、“北”、“京”、“天”,“安”,“门”,步骤S200获取的拼音文本为“wo ai bei jing tian an men”,那么拼音串被切分为“wo”、“ai”、“bei”、“jing”、“tian”、“an”、“men”,如果令N=6则步骤S300中,获取的N-gram特征SHINGLE1为“wo ai bei jing tian an”、SHINGLE2为“ai bei jingtian an men”,依次类推。并使用向量空间模型(VSM,Vector Space Model)形成特征向量D=<SHINGLE1,SHINGLE2,…,SHINGLEm>。
S400、根据所述特征向量,判断待检测的文本是否与一个数据库中的记录匹配。
本实施例中,对每一个特征,会检测在一个预设的数据库中是否多次出现该特征。检测了一个特征向量中的所有特征之后,判断特征向量中的在数据库中多次出现的特征占特征向量的全部特征的比例,从而判断待检测的文本与数据库中的记录是否匹配。本实施例中预设的数据库使用Redis数据库,可以是通过对海量的网络文本(例如抓取收集的网络广告等垃圾信息)进行分析得到海量的特征,并统计得到的各个特征的数目而得到权值,令特征(Shingle)和权值(Value)构成数据库。
图2示出了图1中步骤S100、步骤S200和步骤S300的详细的流程图。步骤S100具体包括:
S110、对文本进行数据清洗操作,将文本中的内容转换为规则字符。
其中,对文本进行数据清洗操作,具体包括:识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url。
S120、将拼音转化为汉字。
其中,将文本中的拼音转化为汉字,具体包括:使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个。
S130、保留常用的汉字。
其中,保留常用的汉字,具体包括:使用GBK编码表中的常用汉字对文本进行过滤,丢弃所有不属于常用汉字的字符,即只保留汉字GBK编码在0xB0A0~0xF7FE中的汉字。
步骤S200具体包括:使用拼音汉字对照表,将每个汉字转换为对应的拼音串,得到拼音文本。
通过步骤S100由待检测的文本获取中文文本,以及通过步骤S200将获取的中文文本中的汉字转为拼音得到拼音文本,可以将相似文本的不同变种,识别为相同的拼音文本。例如将如表1所示的文本和三种变种,通过步骤S100和S200得到相同的拼音文本。
表1文本及三种变种
Figure BDA0000407738250000071
使用本发明的步骤S100和步骤S200分别处理上述的原文和三种变种,可以得到相同的拼音文本:“tian mao shou ye zhan tie dao liu lan qi fang wentian mao chao shi zhan tie dao liu lan qi fang wen”。以变种3为例:经步骤S110进行数据清洗后的文本为:“1x3f天緢首页粘贴到刘揽器访问tfa天mao超市粘贴到刘揽器访问sdjh”拼音转汉字,经步骤S120将拼音转化为汉字后的结果为:“1x3f天緢首页粘贴到刘揽器访问tfa天猫超市粘贴到刘揽器访问sdjh”,其中“1x3f”、“tfa”和“sdjh”由于不在拼音词典里,因此不做处理,“mao”在拼音词典里,因此随机选择一个汉字“猫”用来替代它;经步骤S130保留常用的汉字,结果为:“天緢首页粘贴到刘揽器访问天猫超市粘贴到刘揽器访问”,进一步使用拼音汉字对照表,将每个汉字转换为对应的拼音,则得到上述拼音文本。原文、变种1和变种2也可以得到相同的拼音文本。
当N=6时,经步骤S300得到的特征向量为<tian mao shou ye zhan tie,maoshou ye zhan tie dao,shou ye zhan tie dao liu,ye zhan tie dao liu lan,zhan tie daoliu lan qi,tie dao liu lan qi fang,dao liu lan qi fang wen,liu lan qi fang wen tan,lan qi fang wen tan mao,qi fang wen tan mao chao,fang wen tan mao chao shi,wen tan mao chao shi zhan,tan mao chao shi zhan tie,mao chao shi zhan tie dao,chao shi zhan tie dao liu,shi zhan tie dao liu lan,zhan tie dao liu lan qi,tie dao liulan qi fang,dao liu lan qi fang wen>。
图3示出了图1中步骤S400的详细的流程图。对由上述步骤S300获取的每一个特征向量,步骤S400具体包括以下步骤:
S410、判断特征向量中的特征的数目K是否小于第三阈值T3,是则执行步骤S490,否则执行步骤S420。这一步操作的优点至少有两点,首先,在实际的互联网论坛中,广告等垃圾文本的长度往往不会太,而论坛中相当量的文本是长度很小的文本(例如不多于三个汉字)因此通过这一步判断,使得对文本长度小(获取的特征的数目小于预设的阈值)的特征向量不再进行步骤S420-S470的判断,降低了本实施例方法的运算量;再者,文本的文本长度所以特征数目少,根据后续的步骤S470可知,对于文本而言存在因为个别特征在数据库中出现而被误判为与数据库中的记录匹配的概率,通过步骤S410,避免了这一误判。
S420、选取特征向量中的一个未与数据库中的记录进行比较的特征(Shingle)。
S430、判断数据库中是否存在步骤S420中获取的特征,若是则执行步骤S440,否则执行步骤S460。
S440、判断数据库中该特征的权值是否大于或等于第二阈值T2,若是则执行步骤S450,否则执行步骤S460。
S450、判断数据库中多次出现该特征,并执行步骤S460。由于步骤S440中已经判定权值大于或等于第二阈值T2,所以步骤S450中判断数据库中多次出现该特征。
S460、判断特征向量中的全部特征,是否已经与数据库中的记录进行比较,若是则执行步骤S470,否则返回执行步骤S420,读取一个未与数据库中的记录进行比较的特征,则对特征向量的每一个特征,都会执行步骤S430。
S470、判断所述特征向量中的在数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值T1,是则执行步骤S480,否则执行步骤S490。本实施例中,通过判断一个特征向量中的在数据库中多次出现的特征占该特征向量的全部特征的比例,反映待检测的文本与数据库中的记录是否匹配。由上可知,本实施例采用的运算方法均属于简单的文本变换操作和简单的数据比较操作,运算量与文本长度之间的关系大致是一次线性关系,运算开销小。
S480、确定待检测的文本与数据库中的记录匹配并结束判断操作。
S490、确定待检测的文本与数据库中的记录不匹配并结束判断操作。
较佳地,在步骤S480中确定所述待检测的文本与数据库中的记录匹配时,本实施例的方法进一步包括:对于所述特征向量中的每个特征,如果检测到数据库中存在该特征,则该将数据库中该特征的权值加1。换言之,如果待检测的文本与数据库中的记录匹配,则更新数据库Redis,从而在使用本发明的方法的同时,实现对数据库的更新。
继续以由表1中的文本获取的特征向量为例,当N=6时,经步骤S300得到的特征向量为<tian mao shou ye zhan tie,mao shou ye zhan tie dao,shou yezhan tie dao liu,ye zhan tie dao liu lan,zhan tie dao liu lan qi,tie dao liu lan qifang,dao liu lan qi fang wen,liu lan qi fang wen tan,lan qi fang wen tan mao,qifang wen tan mao chao,fang wen tan mao chao shi,wen tan mao chao shi zhan,tan mao chao shi zhan tie,mao chao shi zhan tie dao,chao shi zhan tie dao liu,shizhan tie dao liu lan,zhan tie dao liu lan qi,tie dao liu lan qi fang,dao liu lan qifang wen>。首先通过步骤S410,判断特征向量中的特征的数目K=24是否小于第三阈值T3,假定第三阈值T3=10,则K〉T3,进一步通过步骤S420,选取一个未与数据库中的记录进行比较的特征,例如“tian mao shou ye zhantie”,通过步骤S430,判断数据库中是否存在这个特征,若判断为否,则通过步骤S460返回步骤S420选取另一个特征,若步骤S430的判断为是,则通过步骤S440,判断数据库中该特征的权值Value是否大于或等于第二阈值T2,假定权值Value=6,第二阈值T2=2,则通过步骤S450判断数据库中多次出现该特征,较佳地,可以通过多种方式例如对特征进行标记或者通过表格记录该特征以记录这一步骤的操作结果。当对24个特征都进行了判断(至少经过步骤S420和步骤S430),则执行步骤S470,判断在数据库中多次出现的特征占上述24个特征的比例是否达到第一阈值T1,假定在数据库中多次出现的特征为12个,则占上述24个特征的比例是50%,假定第一阈值T1为30%,则确定待检测的文本与数据库中的记录匹配并结束判断操作。
图4示出了根据本发明第一实施例的相似文本检测装置的框图。该装置包括中文文本获取单元100、拼音文本获取单元200、指纹获取单元300、检测单元400和数据库500。
其中,中文文本获取单元100,适于对文本进行文本处理以获取中文文本。
更具体地,中文文本获取单元100,适于对文本进行数据清洗操作,数据清洗操作包括识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url,以将文本中的内容转换为规则字符将文本中的内容转换为规则字符;中文文本获取单元100,进一步适于将拼音转化为汉字,包括使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个,以将文本中的拼音转化为汉字;中文文本获取单元100,进一步适于保留常用的汉字,包括使用GBK编码表中的常用汉字对文本进行过滤,丢弃所有不属于常用汉字的字符,即只保留汉字GBK编码在0xB0A0~0xF7FE中的汉字,以保留常用的汉字。
拼音文本获取单元200,适于将获取的中文文本中的汉字转为拼音得到拼音文本,包括使用拼音汉字对照表,将每个汉字转换为对应的拼音串,以得到拼音文本。
通过中文文本获取单元100由待检测的文本获取中文文本,以及通过拼音文本获取单元200将获取的中文文本中的汉字转为拼音得到拼音文本,可以将相似文本的不同变种,识别为相同的拼音文本。
指纹获取单元300,适于提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量,具体地,指纹获取单元300,适于以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。较佳地,指纹获取单元300采用N元语言模型(N-gram)提起拼音文本的特征向量,基于中文文本获取单元100获取的中文文本中的汉字粒度,对拼音文本获取单元200获取的拼音文本提取N-gram特征SHINGLE1、SHINGLE2、…SHINGLEm。并使用向量空间模型形成特征向量D=<SHINGLE1,SHINGLE2,…,SHINGLEm>。
检测单元400,适于根据所述特征向量,判断待检测的文本是否与数据库500中的记录匹配。本实施例中的数据库500使用Redis数据库,可以是通过对海量的网络文本(例如抓取收集的网络广告等垃圾信息)进行分析得到海量的特征,并统计得到的各个特征的数目而得到权值,令特征(Shingle)和权值(Value)构成数据库。
具体地,检测单元400,适于对所述特征向量中的每个特征,检测数据库500中是否多次出现该特征。具体地,检测单元400,适于对所述特征向量中的每个特征,从数据库500中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于预设的第二阈值T2,则判断数据库500中多次出现该特征。
检测单元400,进一步适于判断所述特征向量中的在数据库500中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值T1,是则确定所述待检测的文本与数据库500中的记录匹配,否则不匹配。
进一步地,检测单元400,适于在对于所述特征向量中的每个特征,检测数据库500中是否存在该特征之前,判断所述特征向量中的特征的数目是否小于第三阈值T3,是则所述待检测的文本与数据库500中的记录不匹配并结束判断操作,否则进一步对于所述特征向量中的每个特征,检测数据库500中是否多次出现该特征。
图5示出了根据本发明第二实施例的相似文本检测装置的框图。该装置的第二实施例与第一实施例大致相同,不同之处在于,该装置进一步包括数据库更新单元600。
所述数据库更新单元600,适于在确定所述待检测的文本与数据库500中的记录匹配时,对于所述特征向量中的每个特征,如果检测到数据库500中存在该特征,则将数据库500中该特征的权值加1。换言之,如果待检测的文本与数据库中的记录匹配,则更新数据库500,从而实现对数据库500的更新。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的×××设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种相似文本检测装置,其中,该装置包括:
中文文本获取单元,适于对文本进行文本处理以获取中文文本;
拼音文本获取单元,适于将获取的中文文本中的汉字转为拼音得到拼音文本;
指纹获取单元,适于提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量;
检测单元,适于根据所述特征向量,判断待检测的文本是否与一个数据库中的记录匹配。
2.根据权利要求1所述的装置,其中,
所述检测单元,适于对所述特征向量中的每个特征,检测数据库中是否多次出现该特征;
所述检测单元,适于判断所述特征向量中的在数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述待检测的文本与数据库中的记录匹配,否则不匹配。
3.根据权利要求1或2所述的装置,其中,
所述检测单元,适于对所述特征向量中的每个特征,从数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则数据库中多次出现该特征。
4.根据权利要求1-3任一项所述的装置,其中,该装置进一步包括数据库更新单元,
所述数据库更新单元,适于在确定所述待检测的文本与数据库中的记录匹配时,对于所述特征向量中的每个特征,如果检测到数据库中存在该特征,则将数据库中该特征的权值加1。
5.根据权利要求1-4任一项所述的装置,其中,
所述检测单元,适于在对于所述特征向量中的每个特征,检测数据库中是否存在该特征之前,判断所述特征向量中的特征的数目是否小于第三阈值,是则所述待检测的文本与数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测数据库中是否多次出现该特征。
6.一种相似文本检测方法,其中,该方法包括如下步骤:
对待检测的文本进行文本处理以获取中文文本;
将获取的中文文本中的汉字转为拼音得到拼音文本;
提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量;
根据所述特征向量,判断待检测的文本是否与一个数据库中的记录匹配。
7.根据权利要求6所述的方法,其中,所述判断待检测的文本是否与数据库中的记录匹配包括:
对所述特征向量中的每个特征,检测数据库中是否多次出现该特征;
判断所述特征向量中的在数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述待检测的文本与数据库中的记录匹配,否则不匹配。
8.根据权利要求6或7所述的方法,其中,所述检测数据库中是否多次出现该特征包括:
从数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则数据库中多次出现该特征。
9.根据权利要求6-8任一项所述的方法,其中,在确定所述待检测的文本与数据库中的记录匹配时,该方法进一步包括:
对于所述特征向量中的每个特征,如果检测到数据库中存在该特征,则该将数据库中该特征的权值加1。
10.根据权利要求6-9任一项所述的方法,其中,
在对于所述特征向量中的每个特征,检测数据库中是否存在该特征之前,所述判断待检测的文本是否与数据库中的记录匹配进一步包括:
判断所述特征向量中的特征的数目是否小于第三阈值,是则所述待检测的文本与数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测数据库中是否多次出现该特征。
CN201310537965.XA 2013-11-04 2013-11-04 一种相似文本检测装置和方法 Pending CN103605694A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310537965.XA CN103605694A (zh) 2013-11-04 2013-11-04 一种相似文本检测装置和方法
PCT/CN2014/087175 WO2015062377A1 (zh) 2013-11-04 2014-09-23 一种相似文本检测装置、方法以及应用
US15/034,307 US20160283582A1 (en) 2013-11-04 2014-09-23 Device and method for detecting similar text, and application

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310537965.XA CN103605694A (zh) 2013-11-04 2013-11-04 一种相似文本检测装置和方法

Publications (1)

Publication Number Publication Date
CN103605694A true CN103605694A (zh) 2014-02-26

Family

ID=50123917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310537965.XA Pending CN103605694A (zh) 2013-11-04 2013-11-04 一种相似文本检测装置和方法

Country Status (1)

Country Link
CN (1) CN103605694A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015062377A1 (zh) * 2013-11-04 2015-05-07 北京奇虎科技有限公司 一种相似文本检测装置、方法以及应用
CN106815593A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 中文文本相似度的确定方法和装置
CN106874258A (zh) * 2017-02-16 2017-06-20 西南石油大学 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN107273359A (zh) * 2017-06-20 2017-10-20 北京四海心通科技有限公司 一种文本相似度确定方法
CN107330127A (zh) * 2017-07-21 2017-11-07 湘潭大学 一种基于文本图片检索的相似文本检测方法
CN107729300A (zh) * 2017-09-18 2018-02-23 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN108319978A (zh) * 2018-02-01 2018-07-24 北京捷通华声科技股份有限公司 一种语义相似度计算方法及装置
CN109460461A (zh) * 2018-11-13 2019-03-12 苏州思必驰信息科技有限公司 基于文本相似度模型的文本匹配方法及系统
WO2019165832A1 (zh) * 2018-02-27 2019-09-06 北京达佳互联信息技术有限公司 文字信息处理方法、装置及终端
CN110309297A (zh) * 2018-03-16 2019-10-08 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN111090982A (zh) * 2018-10-24 2020-05-01 迈普通信技术股份有限公司 文本比较方法、装置、电子设备及计算机可读存储介质
CN111382562A (zh) * 2020-03-05 2020-07-07 百度在线网络技术(北京)有限公司 文本相似度的确定方法、装置、电子设备及存储介质
CN113255316A (zh) * 2020-02-13 2021-08-13 阿里巴巴集团控股有限公司 检测方法、显示方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076800A (zh) * 2004-08-23 2007-11-21 汤姆森环球资源公司 重复文档检测及表示功能
CN103064928A (zh) * 2012-12-21 2013-04-24 北京二六三企业通信有限公司 基于关键词的垃圾文档过滤方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076800A (zh) * 2004-08-23 2007-11-21 汤姆森环球资源公司 重复文档检测及表示功能
CN103064928A (zh) * 2012-12-21 2013-04-24 北京二六三企业通信有限公司 基于关键词的垃圾文档过滤方法和装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015062377A1 (zh) * 2013-11-04 2015-05-07 北京奇虎科技有限公司 一种相似文本检测装置、方法以及应用
CN106815593A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 中文文本相似度的确定方法和装置
CN106815593B (zh) * 2015-11-27 2019-12-10 北京国双科技有限公司 中文文本相似度的确定方法和装置
CN106874258A (zh) * 2017-02-16 2017-06-20 西南石油大学 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN106874258B (zh) * 2017-02-16 2020-04-07 西南石油大学 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN107273359A (zh) * 2017-06-20 2017-10-20 北京四海心通科技有限公司 一种文本相似度确定方法
CN107330127A (zh) * 2017-07-21 2017-11-07 湘潭大学 一种基于文本图片检索的相似文本检测方法
CN107330127B (zh) * 2017-07-21 2020-06-05 湘潭大学 一种基于文本图片检索的相似文本检测方法
CN107729300A (zh) * 2017-09-18 2018-02-23 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN108319978A (zh) * 2018-02-01 2018-07-24 北京捷通华声科技股份有限公司 一种语义相似度计算方法及装置
CN108319978B (zh) * 2018-02-01 2021-01-22 北京捷通华声科技股份有限公司 一种语义相似度计算方法及装置
WO2019165832A1 (zh) * 2018-02-27 2019-09-06 北京达佳互联信息技术有限公司 文字信息处理方法、装置及终端
CN110309297A (zh) * 2018-03-16 2019-10-08 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN110309297B (zh) * 2018-03-16 2024-01-02 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN111090982A (zh) * 2018-10-24 2020-05-01 迈普通信技术股份有限公司 文本比较方法、装置、电子设备及计算机可读存储介质
CN109460461A (zh) * 2018-11-13 2019-03-12 苏州思必驰信息科技有限公司 基于文本相似度模型的文本匹配方法及系统
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN113255316A (zh) * 2020-02-13 2021-08-13 阿里巴巴集团控股有限公司 检测方法、显示方法、装置及设备
CN111382562A (zh) * 2020-03-05 2020-07-07 百度在线网络技术(北京)有限公司 文本相似度的确定方法、装置、电子设备及存储介质
CN111382562B (zh) * 2020-03-05 2024-03-01 百度在线网络技术(北京)有限公司 文本相似度的确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103605694A (zh) 一种相似文本检测装置和方法
US7461056B2 (en) Text mining apparatus and associated methods
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN103605691A (zh) 用于处理社交网络中发布内容的装置和方法
CN111104794A (zh) 一种基于主题词的文本相似度匹配方法
CN107423278B (zh) 评价要素的识别方法、装置及系统
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN101128822A (zh) 权威性文档识别
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
CN103605690A (zh) 一种即时通信中识别广告消息的装置和方法
CN110728151B (zh) 基于视觉特征的信息深度处理方法及系统
Banerjee et al. Bengali question classification: Towards developing qa system
CN111241230A (zh) 一种基于文本挖掘识别串标风险的方法及系统
Wong et al. iSentenizer‐μ: Multilingual Sentence Boundary Detection Model
Stamatatos et al. Automatic extraction of rules for sentence boundary disambiguation
CN110580337A (zh) 一种基于实体相似度计算的专业实体消歧实现方法
CN113806483A (zh) 数据处理方法、装置、电子设备及计算机程序产品
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN103605692A (zh) 用于问答社区中屏蔽广告内容的装置和方法
CN103605693A (zh) 用于识别网络游戏中发布消息的广告特征的装置和方法
Rao et al. Analysis of polysemy words in Kannada sentences based on parts of speech
Kang et al. A language independent n-gram model for word segmentation
CN112925961A (zh) 一种基于企业实体的智能问答方法及装置
Jauhiainen et al. Introduction to language identification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140226