CN106649749A - 一种基于汉语音位特征的文本查重方法 - Google Patents
一种基于汉语音位特征的文本查重方法 Download PDFInfo
- Publication number
- CN106649749A CN106649749A CN201611219144.1A CN201611219144A CN106649749A CN 106649749 A CN106649749 A CN 106649749A CN 201611219144 A CN201611219144 A CN 201611219144A CN 106649749 A CN106649749 A CN 106649749A
- Authority
- CN
- China
- Prior art keywords
- text
- chinese
- similarity
- cos
- tone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于汉语音位特征的文本查重方法,属于数据处理领域。查重方法包括如下步骤:S1:选取包括声母、韵母和声调在内的音位特征,使其覆盖汉语拼音标准下包括整体认读音节的所有情况;S2:遍历待查重的两个文档中的所有字,分别得到每个文档中各汉字的声母、韵母和声调在该文档中的频率,并分别将其作为声母、韵母和声调三个空间的向量;再求得两个文档在声母、韵母和声调三个空间的余弦距离;S3:基于得到的三个余弦距离,求得两个文档的相似度,并根据相似度阈值判断两个文档是否重复。本发明由于音位频率的计算只需一次内存访问的开销,因此效率高于基于关键词向量的方法。
Description
技术领域
本发明涉及属于数据处理领域,具体涉及一种基于汉语音位特征的文本查重方法。
背景技术
文本查重是根据一定相似度模型从数据流中发现相重文本的过程。它在搜索引擎构建、抄袭检测、新闻分类等领域有广泛的应用。文本查重是一种特殊的文本过滤,过滤条件是目标文本与源文本相似度大于阈值。传统的文本查重方法基于两种基础技术:文本向量空间模型和文本指纹,前者解决相似性度量的问题,后者优化检索。
向量空间模型的作用是将无结构的文本表示成计算机易处理的特征向量,文本间的相似性问题随之转变成向量间距离的问题。特征提取算法包括TF-IDF(Term Frequency-Inverse Document Frequency)、词频方法、互信息方法、信息增益方法等。其中TF-IDF用关键词的权重做特征,权重计算兼顾了关键词在全局的重要性和在局部的频率这两种信息,使用广泛,是经典方法。有些应用场合需修改TF-IDF的权重公式以优化排序。针对中文,有些应用在特征选取中考虑了词频,也考虑了标点符号,并且将文本的位置因素加入在内;一些应用提出"动词中心词"的概念,将文本中的部分动词组成动词序列作为一种特征;一些应用用以中文句号为基础的特征实现了大规模的新闻网页查重。
特征向量确定后,文本间的相似性可用某种空间距离来表示,如余弦距离、数量积、相关系数、指数相似系数、几何平均最小、算数平均最小等。特征向量与距离公式配合,就可以进行文本查重的计算。现实中某些应用,如Google的搜索引擎对存储空间和计算时间特别敏感,需要使用文本指纹技术。它将文本的特征向量通过Hash函数映射为一定字长比如64bit的二进制数,称为指纹,文本的比较通过指纹进行。长度固定的指纹适合构造指纹库,可进行快速检索。从原始文本到特征向量、再到文本指纹是一个单向不可逆的信息减少的过程。64bit的指纹实际只保留了64维向量空间的方向信息。在各种指纹算法之中,Google的SimHash保留了较多信息,即向量间的相似性,可根据指纹间的海明距离反映文档间的差异程度,因此优于MD5等Hash算法,是主要使用的文本指纹技术。根据Google的经验,64位SimHash值的海明距离在3-5之间可认为是同一文本。
中文文本的分词是提取关键词向量的前置步骤。分词算法已非常成熟,基于统计的方法是其主流;与人工智能新技术结合的、基于大规模神经网络学习的方法是当前的热点。分词算法至少是O(n2)的复杂度。定性地看,关键词向量可以看做文本“含义”的一种统计表达,大部分文本处理应用如摘要生成、倒排索引、机器翻译等的后续计算需要对文本的含义作一定程度的理解,因此分词的计算开销是完全必要的。而在一些特殊应用如盗版检测中,文本查重、判断是否相同文本是唯一重要的计算,“含义”并不是必须的。对这些应用而言,分词计算开销是一个比较大的负担,如能避免,将加快系统速度。
发明内容
本发明的目的在于解决现有技术中存在的问题,并提供一种基于汉语音位特征的文本查重方法。
本发明是通过以下技术方案来实现的:
基于汉语音位特征的文本查重方法,包括如下步骤:
S1:选取包括声母、韵母和声调在内的音位特征,使其覆盖汉语拼音标准下包括整体认读音节的所有情况;
S2:遍历待查重的两个文档中的所有字,分别得到每个文档中各汉字的声母、韵母和声调在该文档中的频率,并分别将其作为声母、韵母和声调三个空间的向量;再求得两个文档在声母、韵母和声调三个空间的余弦距离;
S3:基于得到的三个余弦距离,求得两个文档的相似度,并根据相似度阈值判断两个文档是否重复。
作为优选,所述的S1中,音位特征具体为:声母为标准的23个加上零声母:{b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,w,y,none},其中none表示零声母;韵母为标准的24个加10个三拼韵母:
{a,o,e,i,u,v,an,en,in,un,vn,ia,ua,uo,ai,ei,ui,ao,ou,iu,ie,ue,er,iang,uang,iong,ang,eng,ing,ong,uai,iao,ian,uan};声调为5种:阴、阳、上、去、轻;根据“ü”去两点的规则,除了nü、lü、nüe、lüe四个音节之外,都作“u”计。
作为优选,所述的S2中,针对每个文档,求得两个文档在声母、韵母和声调三个空间的余弦距离的方法如下:
设文档d是汉字zk的序列,字长n的文本为
d=(z1z2z3…zk…zn)
其中zk∈Z,Z为汉字集;汉字zk的音位由声母a、韵母b和声调c组成;对多音字取其第一种发音,则zk=(ak,bk,ck),其中ak∈S,bk∈Y,ck∈T;S={s1,s2,s3,…si…s24},是声母集合;Y={y1,y2,y3,…yi…y34},是韵母集合;T={t1,t2,t3,…t5},是声调集合;
再计算声母si、韵母yi、声调ti在文档d中的频率f(si,d)、f(yi,d)、f(ti,d),计算公式为:
其中I为指示函数,且函数值在参数表达式成立时为1,否则为0;将文档d表示为三个特征向量的组合,其中:
对于两个待查重的文档d1,d2,定义其在空间的余弦距离cos_s(d1,d2)、cos_y(d1,d2)和cos_t(d1,d2)分别如下:
进一步的,所述的S3中,待查重的文档d1、d2间的相似度Similarity计算公式如下:
Similarity=αcos_s(d1,d2)+βcos_y(d1,d2)+θcos_t(d1,d2)
其中α、β和θ均为权重系数,且满足α+β+θ=1;
权重系数α、β、θ计算公式如下:
其中Hs、Hy、Ht是声母、韵母、声调的信息熵,计算公式如下:
其中p(si)、p(yi)、p(ti)分别为第i个声母si、韵母yi、声调ti在文档中出现的
概率,分别通过对大语料统计的频率值来近似。
再进一步的,所述的S3中,相似度阈值采用如下方法确定:
利用包含多个文本的汉语语料D,首先对其掺入噪声获得语料D’;
语料D={di}掺噪声后得语料D’={di’},对每对文本di与di’,提取文字音位的声母、韵母和声调成分,计算各成分频率,获得向量和之后计算它们在S、Y、T空间的夹角cos_s(di,di’),cos_y(di,di’)和cos_t(di,di’);
按如下公式得一组Similarity参数的计算值:
Similarityi=α’cos_s(di,di’)+β’cos_y(di,di’)+θ’cos_t(di,di’)
其中,α’、β’、θ’为权重系数估计值,通过将通过对大语料统计的频率值近似得到的p(si)、p(yi)、p(ti),代入α、β、θ计算公式后得到;
最后统计{Similarityi}的最小值min(Similarityi)和均方差SD(Similarityi),令相似度阈值gsimilairty为:
gsimilairty=min(Similarityi)+SD(Similarityi)。
再进一步的,所述的掺噪声的流程如下:
1)预先准备包含随机汉字的现代汉语文本的噪声模板;
2)对D中的文本d,获取关键词向量及其SimHash指纹u1;
3)从噪声模板中随机取一个字z,选择d文档中一随机位置,用z替换原文字;
4)获取d文档的新指纹u2;
5)计算u1和u2的海明距离H_dist,若H_dist<3,跳转3),循环;若H_dist==3,转6),出循环;若H_dist>3,比较本次掺噪声前的文本和掺噪声后的文本的指纹哪个更接近3,取接近者为输出文本,转6);
6)若最终H_dist==3,d的处理结束;否则,若累积尝试次数小于上限,转2),重新开始文本d的掺噪声处理;否则若尝试次数大于上限,结束文本d的掺噪声处理。
再进一步的,所述的掺噪声的流程中,若掺入一个字的噪声后导致海明距离跃迁超过预设值,此时回到原状、重新尝试,直至语料中所有文本d都得到了对应的含噪声为海明距离3的相似文本d’。
传统文本查重方法基于两种基础技术:以TF/IDF为代表的向量表示和以SimHash为代表的文本指纹。其弱点是必须先进行耗时的分词操作。本发明基于汉语“字”音位均匀的特点,提出基于音位的查重办法。文本被表示为声、韵、调三个空间的向量,相似性以余弦距离度量。相似度模型取三向量的线性组合,其系数由音位元素的信息熵算出。本发明的最大特点是不需进行分词,由于音位频率的计算只需一次内存访问的开销,因此效率高于基于关键词向量的方法。
语言是含义和发音的综合物。关键词向量是对含义的统计表达而不顾及其发音;本发明方法利用了汉语的发音而不顾及其含义。定性地考虑,前者相当于人通过默读区分文档,后者相当于不识字的人通过辨音区分文档。两者都是可行的,但必定有各有特点。基于音位的方法优点是不需分词,可以以较快速度实现一定精确率的过滤。它可以单独使用,也可与其他方法联合。在必要的场合,也可通过SimHash产生指纹以加快检索。
相对于传统的技术,本发明在如下方面均进行了优化改进:
1.提取文本的音位信息,构造特征向量,并计算余弦距离的方法。
2.相似度计算公式。
3.相似度计算中权重系数的基于信息熵的计算方法。
4.以“关键词向量+SimHash指纹”为参照的相似度阈值计算方法。
5.基于音位特征判断文档是否相重的流程。
附图说明
图1为本发明实施例中网络盗版发现系统示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述。
中文是极其独特的语言,“字”是独一无二的“音/意”载体,是其他语言没有的构造单位。字的音位构成规整一致,音节占用时长和书写占位大体平均。从字的二进制表示(如Unicode)得到其拼音只需一次内存访问的开销,远低于最好的分词算法。以字的音位统计信息作为特征进行文本查重,符合汉字自身的规律。如能用音位信息代替关键词,或作为关键词向量方法的前置和补充,避免大量分词计算,将提高速度。本发明提出了一套完整的利用音位信息的查重方法。对文本提取声母、韵母、声调三个特征向量,以余弦距离为基本度量;提出了查重操作的流程;提出了相似性公式和求取公式参数的方法。
本发明采用的技术方案具体如下:
一、音位特征选取
国家汉语拼音标准规定了23个声母、24个韵母和16个整体认读音节。本发明选用的音位特征范围如下:
1.声母为标准的23个加上零声母,共24个,即:
{b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,w,y,none}
none表示零声母。
2.韵母为标准的24个加10个三拼韵母:ia,ua,uo,uai,iao,ian,iang,uan,uang,iong,共34个,即:
{a,o,e,i,u,v,an,en,in,un,vn,ia,ua,uo,ai,ei,ui,ao,ou,iu,ie,ue,er,iang,uang,iong,ang,eng,ing,ong,uai,iao,ian,uan}
3.声调为“阴、阳、上、去、轻”5种不变。
继承“ü”去两点的规则,除了nü、lü、nüe、lüe四个音节之外,都作“u”计。
如此覆盖汉语拼音标准下包括整体认读音节的所有情况,使从汉字到音位的映射可做到1字1声1韵1调。设文本d是字zk的序列,如忽略标点、数字等非汉字元素,字长n的文本为
d=(z1z2z3…zk…zn)
其中zk∈Z,Z为汉字集。汉字z的音位由声母a、韵母b和声调c组成。若对多音字取其第一种发音,则zk=(ak,bk,ck),其中ak∈S,bk∈Y,ck∈T。S={s1,s2,s3,…si…s24},是声母集合;Y={y1,y2,y3,…yi…y34},是韵母集合;T={t1,t2,t3,…t5},是声调集合。
令f(si,d)、f(yi,d)、f(ti,d)是声母si、韵母yi、声调ti在文档d中的频率,即
其中I为指示函数,函数值在参数表达式成立时为1,否则为0。则文档d可表示为三个特征向量的组合,其中:
设有两个文档d1,d2,可在空间各定义余弦距离如下:
以余弦距离cos_s(d1,d2)、cos_y(d1,d2)和cos_t(d1,d2)为基础可对d1、d2间的相似度作出基于音位的度量。
二、相似度公式和系数计算
文档d1、d2间的相似度Similarity由以下公式计算:
Similarity=αcos_s(d1,d2)+βcos_y(d1,d2)+θcos_t(d1,d2)
其中α+β+θ=1。
查重计算中文本d1,d2相重的条件为:Similarity>gsimilairty,gsimilairty为相似度阈值。
权重系数α、β、θ计算公式如下:
其中Hs、Hy、Ht是声母、韵母、声调的信息熵,计算公式如下:
其中p(si)、p(yi)、p(ti)分别为第i个声母si、韵母yi、声调ti在文本中出现的概率。它们可通过对大语料统计的频率值来近似。设此近似的频率值为p’(si)、p’(yi)、p’(ti),依次代入α、β、θ计算公式中可得权重系数估计值α’、β’、θ’。
三、阈值计算
相似度公式的阈值gsimilairty的计算用传统的“关键词向量+SimHash指纹”办法作为参照,以行业的经验值、指纹海明距离3作为文档相重的标准。具体做法是,用随机字替换的办法给源文本掺入噪声,直至海明距离为阈值3为止,如此用大量文档作训练,取结果的统计值。
如包含多个文本的汉语语料为D,首先对其掺入噪声获得语料D’,掺噪声的流程如下:
1)预先准备噪声模板,这是一个包含随机汉字的现代汉语文本。
2)对D中文本d,获取关键词向量及其SimHash指纹u1。
3)从噪声模板中随机取一个字z,选择d文中一随机位置,用z替换原文字。
4)获取d的新指纹u2。
5)计算u1和u2的海明距离H_dist。若H_dist<3,跳转3),循环。若H_dist==3,转6),出循环。若H_dist>3,比较本次掺噪声前的文本和掺噪声后的文本的指纹哪个更接近3,取接近者为输出文本,转6)。
6)若最终H_dist==3,d的处理结束。否则,若累积尝试次数小于上限(如3000),转2),文本d的掺噪声处理重新开始;否则若尝试次数大于上限,结束该掺噪声处理。
有时掺入一个字的噪声会导致海明距离跃迁,比如从2跳到6,此时回到原状、重新尝试,直至语料中所有文本d都得到了对应的含噪声为海明距离3的相似文本d’。
语料D={di}掺噪声后得语料D’={di’},对每对文本di与di’,提取文字音位的声母、韵母和声调成分,计算各成分频率,获得向量和之后计算它们在S、Y、T空间的夹角cos_s(di,di’),cos_y(di,di’)和cos_t(di,di’)。按如下公式得一组Similarity参数的计算值:
Similarityi=α’cos_s(di,di’)+β’cos_y(di,di’)+θ’cos_t(di,di’)
统计{Similarityi}的最小值min(Similarityi)和均方差SD(Similarityi),令:
gsimilairty=min(Similarityi)+SD(Similarityi)
4、查重操作流程
已通过大语料统计获得相似度公式系数的估计值α’、β’、θ’,通过“阈值计算”流程获得参数gsimilairty。判断文档d1、d2是否相重的流程如下:
1)对文档d1,遍历所有字zk,取每个字的声、韵、调成分,计算其三个空间的向量
2)对文档d2,遍历所有字zk,取每个字的声、韵、调成分,计算其三个空间的向量
3)求得余弦距离:
4)求得d1、d2相似度Similarity=α’cos_s(d1,d2)+β’cos_y(d1,d2)+θ’cos_t(d1,d2)
5)如Similarity≥gsimilairty,则d1、d2相重。否则d1、d2不相重。
下面通过给出本发明的一个实施例,使本领域技术人员能够更好地理解本发明。实施例的基本步骤如前所述,不再赘述。对部分具体步骤和参数进行进一步说明。
实施例
本实施例可用于如图1所示互联网盗版发现系统的前置过滤。出版社、研究单位等拥有大量文字著作权的机构,其文字作品构成原作库;对其中源文本提取音位特征,保存于特征库。网络爬虫连续获取网络文本,存入内容库。对其中内容逐个提取音位信息,用本文方法进行前置过滤,之后再作同一性(查重)检测。同一性为正的未必构成盗版,因此需继续进行违法性检测,找到真正的侵权项目,将其送去取证并反馈给爬虫以优化其策略。
网络盗版行为猖獗,但在海量的文本流中涉嫌盗版的毕竟是少数,绝大部分是无关的。由于内容库文本数量巨大,系统效率很大程度取决于能否将这99%以上的无关文本快速排除,因此在精确率和速度之间,系统更关注速度;在精确率和召回率之间,系统更关注召回率。本发明的方法有很好速度和召回率,非常适合做前置过滤。
对数据库中的两个待比较的文档,判断文档d1、d2是否相重的流程如下:
1)对文档d1,遍历所有字zk,取每个字的声、韵、调成分,计算其三个空间的向量
2)对文档d2,遍历所有字zk,取每个字的声、韵、调成分,计算其三个空间的向量
3)求得余弦距离:
4)求得d1、d2相似度Similarity=α’cos_s(d1,d2)+β’cos_y(d1,d2)+θ’cos_t(d1,d2)
5)如Similarity≥gsimilairty,则d1、d2相重。否则d1、d2不相重。
系数α’、β’、θ’计算办法如下:对1,41 1,996篇、共481,065,247字搜狐实验室全网新闻语料作音位统计,结果如表1-3:
表1 声母频率统计
声母 | b | p | m | f | d | t | n | l | g | k |
频率 | 4.314% | 1.723% | 2.773% | 2.940% | 9.419% | 3.202% | 1.986% | 5.022% | 5.062% | 1.985% |
声母 | h | j | q | x | zh | ch | sh | r | z | c |
频率 | 4.365% | 8.121% | 3.382% | 6.185% | 6.337% | 3.461% | 7.218% | 2.331% | 3.497% | 1.639% |
声母 | s | w | y | none | ||||||
频率 | 1.668% | 3.264% | 9.005% | 1.099% |
表2 韵母频率统计
韵母 | iang | uang | iong | ang | eng | ing | ong | uai | iao | ian |
频率 | 1.877% | 0.631% | 0.033% | 3.686% | 3.202% | 4.040% | 4.456% | 0.136% | 1.741% | 4.304% |
韵母 | uan | ai | ei | ui | ao | ou | iu | ie | ue | er |
频率 | 2.808% | 3.892% | 3.287% | 2.077% | 3.516% | 3.496% | 0.923% | 1.349% | 0.974% | 0.427% |
韵母 | an | en | in | un | vn | ia | ua | uo | a | o |
频率 | 4.137% | 3.088% | 2.702% | 1.285% | 0.000% | 1.199% | 0.578% | 3.056% | 2.970% | 0.611% |
韵母 | e | i | u | v | ||||||
频率 | 8.386% | 15.997% | 6.567% | 2.569% |
表3 声调频率统计
声调 | yin | yang | shang | qu | qing |
频率 | 21.775% | 21.200% | 17.134% | 35.816% | 4.075% |
用表中声、韵、调频率值的作为概率值的估计,得到Hs、Hy、Ht的估计值:
Hs’=4.3644;Hy’=4.5300;Ht’=2.1081;
进而得到模型系数α、β、θ的估计值:
α’=0.3967;β’=0.4117;θ’=0.1916。
对gsimilairty的获取办法如下,选用包含925个文本共534,924汉字的现代汉语语料,命名为D,首先对其掺入噪声获得语料D’。掺噪声的流程如下:
1)预先准备噪声模板NoiseTemplate.txt,这是一个包含7000余字的现代汉语文本。
2)对D中文本d,获取关键词向量及其SimHash指纹u1。
3)从噪声模板中随机取一个字z,选择d文中一随机位置,用z替换原文字。
4)获取d的新指纹u2。
5)计算u1和u2的海明距离H_dist。若H_dist<3,跳转3),循环。若H_dist==3,转6),出循环。若H_dist>3,比较本次掺噪声前的文本和掺噪声后的文本的指纹哪个更接近3,取接近者为输出文本,转6)。
6)若最终H_dist==3,d的处理结束。否则,若累积尝试次数小于上限3000,转2),文本d的处理重新开始;否则若尝试次数大于上限,结束。
若掺入一个字的噪声会导致海明距离跃迁,比如从2跳到6,此时回到原状、重新尝试,直至语料中所有文本d都得到了对应的含噪声为海明距离3的相似文本d’。
语料D={di|i=1..925}掺噪声后得语料D’={di’|i=1..925},对每对文本di与di’,提取文字音位的声、韵、调成分,计算各成分频率,获得向量和之后计算它们在S、Y、T空间的夹角cos_s(di,di’),cos_y(di,di’)和cos_t(di,di’),并按如下公式得一组Similarity计算值:
Similarityi=α’cos_s(di,di’)+β’cos_y(di,di’)+θ’cos_t(di,di’)
最终结果如表4:
表4模型参数训练结果
均值 | 最大值 | 最小值 | 均方差 | |
cos_s | 0.978 | 0.992 | 0.953 | 0.00174 |
cos_y | 0.979 | 0.995 | 0.932 | 0.00168 |
cos_t | 0.989 | 0.992 | 0.964 | 0.00044 |
Similarity | 0.981 | 0.989 | 0.962 | 0.00140 |
得gsimilairty=0.9634。
利用上述gsimilairty对库中的文本进行比较,从而实现互联网盗版发现系统的前置过滤,然后再进行同一性检测和违法性检测,大大提高整体效率。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (7)
1.一种基于汉语音位特征的文本查重方法,其特征在于,包括如下步骤:
S1:选取包括声母、韵母和声调在内的音位特征,使其覆盖汉语拼音标准下包括整体认读音节的所有情况;
S2:遍历待查重的两个文档中的所有字,分别得到每个文档中各汉字的声母、韵母和声调在该文档中的频率,并分别将其作为声母、韵母和声调三个空间的向量;再求得两个文档在声母、韵母和声调三个空间的余弦距离;
S3:基于得到的三个余弦距离,求得两个文档的相似度,并根据相似度阈值判断两个文档是否重复。
2.如权利要求1所述的基于汉语音位特征的文本查重方法,其特征在于,所述的S1中,音位特征具体为:声母为标准的23个加上零声母:{b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,w,y,none},其中none表示零声母;韵母为标准的24个加10个三拼韵母:
{a,o,e,i,u,v,an,en,in,un,vn,ia,ua,uo,ai,ei,ui,ao,ou,iu,ie,ue,er,iang,uang,iong,ang,eng,ing,ong,uai,iao,ian,uan};声调为5种:阴、阳、上、去、轻;根据“ü”去两点的规则,除了nü、lü、nüe、lüe四个音节之外,都作“u”计。
3.如权利要求1所述的基于汉语音位特征的文本查重方法,其特征在于,所述的S2中,针对每个文档,求得两个文档在声母、韵母和声调三个空间的余弦距离的方法如下:
设文档d是汉字zk的序列,字长n的文本为
d=(z1z2z3…zk…zn)
其中zk∈Z,Z为汉字集;汉字zk的音位由声母a、韵母b和声调c组成;对多音字取其第一种发音,则zk=(ak,bk,ck),其中ak∈S,bk∈Y,ck∈T;S={s1,s2,s3,…si…s24},是声母集合;Y={y1,y2,y3,…yi…y34},是韵母集合;T={t1,t2,t3,…t5},是声调集合;
再计算声母si、韵母yi、声调ti在文档d中的频率f(si,d)、f(yi,d)、f(ti,d),计算公式为:
其中I为指示函数,且函数值在参数表达式成立时为1,否则为0;将文档d表示为三个特征向量的组合,其中:
对于两个待查重的文档d1,d2,定义其在空间的余弦距离cos_s(d1,d2)、cos_y(d1,d2)和cos_t(d1,d2)分别如下:
4.如权利要求3所述的基于汉语音位特征的文本查重方法,其特征在于,所述的S3中,待查重的文档d1、d2间的相似度Similarity计算公式如下:
Similarity=αcos_s(d1,d2)+βcos_y(d1,d2)+θcos_t(d1,d2)
其中α、β和θ均为权重系数,且满足α+β+θ=1;
权重系数α、β、θ计算公式如下:
其中Hs、Hy、Ht是声母、韵母、声调的信息熵,计算公式如下:
其中p(si)、p(yi)、p(ti)分别为第i个声母si、韵母yi、声调ti在文档中出现的概率,分别通过对大语料统计的频率值来近似。
5.如权利要求4所述的基于汉语音位特征的文本查重方法,其特征在于,所述的S3中,相似度阈值采用如下方法确定:
利用包含多个文本的汉语语料D,首先对其掺入噪声获得语料D’;
语料D={di}掺噪声后得语料D’={di’},对每对文本di与di’,提取文字音位的声母、韵母和声调成分,计算各成分频率,获得向量和之后计算它们在S、Y、T空间的夹角cos_s(di,di’),cos_y(di,di’)和cos_t(di,di’);按如下公式得一组Similarity参数的计算值:
Similarityi=α’cos_s(di,di’)+β’cos_y(di,di’)+θ’cos_t(di,di’)
其中,α’、β’、θ’为权重系数估计值,通过将通过对大语料统计的频率值近似得到的p(si)、p(yi)、p(ti),代入α、β、θ计算公式后得到;
最后统计{Similarityi}的最小值min(Similarityi)和均方差SD(Similarityi),令相似度阈值gsimilairty为:
gsimilairty=min(Similarityi)+SD(Similarityi)。
6.如权利要求5所述的基于汉语音位特征的文本查重方法,其特征在于,所述的掺噪声的流程如下:
1)预先准备包含随机汉字的现代汉语文本的噪声模板;
2)对D中的文本d,获取关键词向量及其SimHash指纹u1;
3)从噪声模板中随机取一个字z,选择d文档中一随机位置,用z替换原文字;
4)获取d文档的新指纹u2;
5)计算u1和u2的海明距离H_dist,若H_dist<3,跳转3),循环;若H_dist==3,转6),出循环;若H_dist>3,比较本次掺噪声前的文本和掺噪声后的文本的指纹哪个更接近3,取接近者为输出文本,转6);
6)若最终H_dist==3,d的处理结束;否则,若累积尝试次数小于上限,转2),重新开始文本d的掺噪声处理;否则若尝试次数大于上限,结束文本d的掺噪声处理。
7.如权利要求6所述的基于汉语音位特征的文本查重方法,其特征在于,所述的掺噪声的流程中,若掺入一个字的噪声后导致海明距离跃迁超过预设值,此时回到原状、重新尝试,直至语料中所有文本d都得到了对应的含噪声为海明距离3的相似文本d’。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611219144.1A CN106649749B (zh) | 2016-12-26 | 2016-12-26 | 一种基于汉语音位特征的文本查重方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611219144.1A CN106649749B (zh) | 2016-12-26 | 2016-12-26 | 一种基于汉语音位特征的文本查重方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106649749A true CN106649749A (zh) | 2017-05-10 |
CN106649749B CN106649749B (zh) | 2019-07-16 |
Family
ID=58826778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611219144.1A Active CN106649749B (zh) | 2016-12-26 | 2016-12-26 | 一种基于汉语音位特征的文本查重方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649749B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729313A (zh) * | 2017-09-25 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 基于深度神经网络的多音字读音的判别方法和装置 |
CN108073708A (zh) * | 2017-12-20 | 2018-05-25 | 北京百度网讯科技有限公司 | 信息输出方法和装置 |
CN108984493A (zh) * | 2018-07-19 | 2018-12-11 | 中国联合网络通信集团有限公司 | 一种中文文章查重方法和系统 |
CN109471921A (zh) * | 2018-11-23 | 2019-03-15 | 深圳市元征科技股份有限公司 | 一种文本查重方法、装置及设备 |
CN113779027A (zh) * | 2021-08-24 | 2021-12-10 | 中国传媒大学 | 一种方言同音字汇自动生成系统 |
CN113901783A (zh) * | 2021-11-18 | 2022-01-07 | 青岛科技大学 | 面向领域的文档查重方法及系统 |
CN114398888A (zh) * | 2022-01-07 | 2022-04-26 | 北京明略软件系统有限公司 | 生成声母韵母向量的方法、装置、电子设备及存储介质 |
CN118070810A (zh) * | 2024-03-21 | 2024-05-24 | 中国人民解放军32011部队 | 一种基于Simhash算法的文本查重方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184169A (zh) * | 2011-04-20 | 2011-09-14 | 北京百度网讯科技有限公司 | 用于确定字符串信息间相似度信息的方法、装置和设备 |
CN103324664A (zh) * | 2013-04-27 | 2013-09-25 | 国家电网公司 | 一种基于傅里叶变换的文档相似判别方法 |
CN105320772A (zh) * | 2015-11-02 | 2016-02-10 | 武汉大学 | 一种专利查重的关联论文查询方法 |
CN105446954A (zh) * | 2015-11-18 | 2016-03-30 | 广东省科技基础条件平台中心 | 一种面向科技大数据的项目查重方法 |
CN105718506A (zh) * | 2016-01-04 | 2016-06-29 | 胡新伟 | 一种科技项目查重对比的方法 |
-
2016
- 2016-12-26 CN CN201611219144.1A patent/CN106649749B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184169A (zh) * | 2011-04-20 | 2011-09-14 | 北京百度网讯科技有限公司 | 用于确定字符串信息间相似度信息的方法、装置和设备 |
CN103324664A (zh) * | 2013-04-27 | 2013-09-25 | 国家电网公司 | 一种基于傅里叶变换的文档相似判别方法 |
CN105320772A (zh) * | 2015-11-02 | 2016-02-10 | 武汉大学 | 一种专利查重的关联论文查询方法 |
CN105446954A (zh) * | 2015-11-18 | 2016-03-30 | 广东省科技基础条件平台中心 | 一种面向科技大数据的项目查重方法 |
CN105718506A (zh) * | 2016-01-04 | 2016-06-29 | 胡新伟 | 一种科技项目查重对比的方法 |
Non-Patent Citations (3)
Title |
---|
JILEI TIAN 等: "Phoneme cluster based state mapping for text-independent voice conversion", 《2009 IIIE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEENCH AND SIGNAL PROCESSING》 * |
陈江华: "面向科技项目申报文本相似性检测算法的研究与应用", 《信息科技辑》 * |
黄菊: "一种基于语义向量空间模型的作业查重算法", 《电子科学技术》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729313A (zh) * | 2017-09-25 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 基于深度神经网络的多音字读音的判别方法和装置 |
CN107729313B (zh) * | 2017-09-25 | 2021-09-17 | 百度在线网络技术(北京)有限公司 | 基于深度神经网络的多音字读音的判别方法和装置 |
CN108073708A (zh) * | 2017-12-20 | 2018-05-25 | 北京百度网讯科技有限公司 | 信息输出方法和装置 |
CN108984493A (zh) * | 2018-07-19 | 2018-12-11 | 中国联合网络通信集团有限公司 | 一种中文文章查重方法和系统 |
CN108984493B (zh) * | 2018-07-19 | 2022-04-29 | 中国联合网络通信集团有限公司 | 一种中文文章查重方法和系统 |
CN109471921A (zh) * | 2018-11-23 | 2019-03-15 | 深圳市元征科技股份有限公司 | 一种文本查重方法、装置及设备 |
CN113779027A (zh) * | 2021-08-24 | 2021-12-10 | 中国传媒大学 | 一种方言同音字汇自动生成系统 |
CN113901783A (zh) * | 2021-11-18 | 2022-01-07 | 青岛科技大学 | 面向领域的文档查重方法及系统 |
CN113901783B (zh) * | 2021-11-18 | 2024-07-16 | 青岛科技大学 | 面向领域的文档查重方法及系统 |
CN114398888A (zh) * | 2022-01-07 | 2022-04-26 | 北京明略软件系统有限公司 | 生成声母韵母向量的方法、装置、电子设备及存储介质 |
CN118070810A (zh) * | 2024-03-21 | 2024-05-24 | 中国人民解放军32011部队 | 一种基于Simhash算法的文本查重方法 |
CN118070810B (zh) * | 2024-03-21 | 2024-07-26 | 中国人民解放军32011部队 | 一种基于Simhash算法的文本查重方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106649749B (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649749A (zh) | 一种基于汉语音位特征的文本查重方法 | |
US11222167B2 (en) | Generating structured text summaries of digital documents using interactive collaboration | |
Kestemont et al. | Authenticating the writings of Julius Caesar | |
Kenter et al. | Short text similarity with word embeddings | |
Alzahrani et al. | Understanding plagiarism linguistic patterns, textual features, and detection methods | |
Berardi et al. | Word Embeddings Go to Italy: A Comparison of Models and Training Datasets. | |
CN109165380B (zh) | 一种神经网络模型训练方法及装置、文本标签确定方法及装置 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
Ji et al. | A BILSTM-CRF method to Chinese electronic medical record named entity recognition | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN109829151B (zh) | 一种基于分层狄利克雷模型的文本分割方法 | |
CN106257455A (zh) | 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法 | |
Gao et al. | Text classification research based on improved Word2vec and CNN | |
CN111325015B (zh) | 一种基于语义分析的文档查重方法及系统 | |
Wang et al. | Learning to rank semantic coherence for topic segmentation | |
Du et al. | Topic modeling with document relative similarities | |
Cheng et al. | A hierarchical multimodal attention-based neural network for image captioning | |
Shen et al. | Neural headline generation with sentence-wise optimization | |
Gupta et al. | Plagiarism detection in text documents using sentence bounded stop word n-grams | |
Kumar et al. | Ranking clarification questions via natural language inference | |
CN113901783B (zh) | 面向领域的文档查重方法及系统 | |
Shen et al. | Practical text phylogeny for real-world settings | |
Zhao et al. | Leveraging pre-trained language model for summary generation on short text | |
Lei et al. | Open domain question answering with character-level deep learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |