CN104636325A - 一种基于极大似然估计确定文档相似度的方法 - Google Patents
一种基于极大似然估计确定文档相似度的方法 Download PDFInfo
- Publication number
- CN104636325A CN104636325A CN201510063881.6A CN201510063881A CN104636325A CN 104636325 A CN104636325 A CN 104636325A CN 201510063881 A CN201510063881 A CN 201510063881A CN 104636325 A CN104636325 A CN 104636325A
- Authority
- CN
- China
- Prior art keywords
- document
- documents
- similarity
- minwise
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于极大似然估计确定文档相似度的方法,包括以下步骤:步骤1:文本特征提取步骤:该步骤2:对文本特征集合进行数值映射,得到文档对应的数值集合Sd;步骤3:文档对应的数值集合Sd采用minwise指纹表征:步骤4:基于文档的minwise指纹,基于极大似然函数计算两个文档的相似度a;该方法利用哈希值比对的各种结果(<,>,=)的概率,基于所述概率巧妙的设计出结合这些概率的似然函数,建立极大似然Minwise哈希估计子;将该方法推广运用到三篇文档相似度确定,准确有效的得到了精度较高的文本相似度;由于极大似然方法所得的方差平均值最小,这样所获得的相似度自然精度高于Minwise方法。
Description
技术领域
本发明属于信息检索领域,特别涉及一种基于极大似然估计确定文档相似度的方法。
背景技术
WEB正经历着爆炸性增长,越来越多的文献资料开始在网上公布,这种趋势使得网络上文档资源成几何级数增长,为人类共享知识和创造财富提供了前所未有的便利,也对我国的现代化建设有着积极的推动作用。然而,这些数字化资源给人们提供帮助的同时,资源的易获性也使得文档的非法复制、抄袭、剽窃等行为越来越猖獗,使得在各种论文和项目申请书等中,可能存在比较严重的抄袭现象。同时,随着国家对教育科研的大量投入,提供了各种教育和科技项目的资助,如:国家自然科学基金项目、教育部的博士点项目,各省市的基金项目、各种科技计划等。由于这些项目属于不同的职能部门单位分管,这就使得项目申请书存在着多次申报和多头申报的现象。申请书的抄袭、多次申报和多头申报现象严重影响了项目审批的客观性和公平性,对国家科研经费的合理分配产生不良的影响,造成科学研究经费可能得不到高效利用。为防止抄袭剽窃,端正学术风气,进行文档相似性检测技术的研究非常有意义。由此,世界各地的搜索引擎、图书馆、基金会、论文库、知识产权部门等都投入巨大的人力、物力和财力,正努力地在文档相似性检测上摸索和探究,以期尽快突破相似性检测的关键科学问题,为论文、项目申请书、奖励申报书、专利的查重或搜索引擎的网页去重等提供了良好的解决方案。
相似性检测数据具有海量性的特点,以国家自然科学基金申请书为例,目前就2013年申请量来说,申请书数量达17万份以上,每年还将以较快的速度增长。又如,近几年中国每年高校毕业生人数约为700万,其中大部分的毕业论文都需要进行相似性检测,每年5月份论文检测量达到高峰,日均在几万份以上,相似性检测不但要和当年的数据进行查重,还需要和历史数据进行检测,而如此海量的文档,光靠常规检测方式是根本行不通的,因此迫切需要借助哈希估计技术,建立一套精度和效率俱优的检测机制,实现对海量文档的相似性比对技术。文本相似度度量这一概念及相关技术也应运而生。一个好的文本相似度度量方法在相似性检测、自动问答系统、智能检索、网页去重、自然语言处理等研究领域具有重要的意义。
文本相似度是指两个或者多个文本之间的匹配程度的一个度量参数,相似度越高,表示两个文本之间的相似程度越大,反之越低。传统的文本相似度度量方法是向量空间模型(VSM)通过计算待查文档与数据集中某一篇文档带有权重的频率向量内积,得到两篇文档的相似度。算法需要存储大量的特征词汇、比对速度慢、准确率低等缺点,无法应用于海量数据中相似度度量。基于Minwise相似性度量算法作为最主流、成熟的相似性检测方法,通过将相似度问题转换为一个事件的发生概率问题,将文本词汇集合映射到hash值集合中,将字符串比对问题转化为特征指纹比对问题,适用于海量数据相似度度量。
基于Minwise相似性度量算法及其变种算法具有较高的估计精度,但各研究机构仍在不断追求更高的精度。这是由于实际检测数据的多样性和随机性,经常容易出现一类大文本包含小文本(f1>>f2≈a)的情况。其中,f1、f2是文档1、文档2的词集大小,a为交集大小。因为f1>>f2(文本f1远远大于f2),故相似性很小,又因为f2≈a,故文档2相对于文档1的包含率接近于1,如此高的包含率也说明了文档2完全抄袭于文档1。对于这类低相似率、高包含率的情况,基于Minwise相似性度量算法的方差均较大,精度不够。这虽然是一类较为特殊的数据,但实际中屡见不鲜,有时候相似度偏差可高达20%以上,目前并没有较好的处理方法。
发明内容
本发明提出了一种基于极大似然估计确定文档相似度的方法,其目的在于解决针对现有技术中文档相似度的精度不高的问题。
一种基于极大似然估计确定文档相似度的方法,包括以下几个步骤:
步骤1:提取文档的文本特征,获得文本特征集合Sshgs;
步骤2:对文本特征集合进行数值映射,得到文档对应的数值集合Sd;
步骤3:文档对应的数值集合Sd采用minwise指纹表征:
步骤4:基于文档的minwise指纹,计算两个文档的交集a,所述两个文档的交集a满足使得似然函数取得最大值,即满足:
对上式求解时,所得解需满足a大于或等于1,且a小于或等于两个文档中的最小文档;
其中,f1和f2分别为两个文档的大小,即所包含的文本特征数量;集合S1、S2分别表示两个文档对应的数值集合,z1、z2是某一个随机置换群π作用在集合S1、S2的最小值:z1=min{π(S1)}、z2=min{π(S2)};
当z1=z2时的概率值为Pr=,
当z1>z2时的概率值为Pr>,
当z1<z2时的概率值为Pr<:
k=为k次随机排列中两个文本对应的minwise指纹相等的次数,k==|{z1,j=z2,j,j=1,2,..,k}|;
k>为k次随机排列中min{π(S1)}大于min{π(S2)}的次数,k>=|{z1,j>z2,j,j=1,2,..,k}|;
k<为k次随机排列中min{π(S1)}小于min{π(S2)}的次数,k<=|{z1,j<z2,j,j=1,2,..,k}|;
z1,j=min{πj(S1)},z2,j=min{πj(S2)}分别为随机置换群π作用在文档对应的数值集合S1和S2上,在第j次随机置换的最小值;
步骤5:两篇文档的极大似然相似度为RMLE:
【由于,
这三个公式中的a的求解可以分别通过k=、k>、k<来估计:
当文本大小f1≈f2时,取估计量的方差最小,相似度估计精度最高;当文本大小f1>>f2≈a时,取估计量的方差最小,相似度估计精度最高;当a≈f1<<f2时,取估计量的方差最小,相似度估计精度最高。但由于估计量a是未知量,因此事先不可能知道取值范围,故使用极大似然估计结合两者比对的三种情况来估计交集a,是最折中、平均精度最好的方法,因此,利用极大似然函数 当l(a)取得最大值时,所求得的a即为所需的文档相似度。
通过上述方法所求得的解中,若包含两个或两个以上的有效解,取最接近最小文档长度的解作为文档相似度a的值。
所述文本特征集合Sshgs,是利用中文分词算法对文档进行分词,利用停用词表过滤掉文本噪音数据后的分词集合。
所述对文本特征集合进行数值映射,得到文档对应的数值集合Sd的具体过程是指,对词集Sshgs中的每个分词采用Rabin函数,词映射为N位的二进制数;
所述N为计算机进行数据处理的最大数据位数。
【minwise指纹形成过程:
假定全集Ω={0,1,...,D-1},D足够大(包含所有Rabin函数映射的整数,能够映射)。a0a1,…aD-1恒指Ω上的一个随机排列,向量(a0,a1,…,aD-1)代表Ω的一个置换:
如果对于数据集X∈Ω且元素x∈X,存在一个排列π,使得
则π为一个随机minwise排列,换句话说,数据集X中的任意一个元素x在随机置换π下都有相同的概率是这个置换后的最小值。这样,通过k个独立随机的置换群π1,π2,...,πk,就把集合Sd转换为minwise特征指纹: 】
优选的,确定三个文档间的相似度RMLE时,其中,三个文档间的交集a满足使得似然函数取得最大值,即满足:
对上式求解时,所得解需满足以下条件:
1)所得解需满足a大于或等于1,且a小于或等于两个文档中的最小文档;2)存在多个解时,取最接近最小本长度的值;
其中,三者minwise指纹比对所有事件发生的概率公式如下:
T为中间变量,T=(f1+f2+f3-a12-a13-a23),f1、f2和f3分别为三个文档的大小,即所包含的文本特征数量;a12为文档1和文档2的交集,a13为文档1和文档3的交集,a23为文档2和文档3的交集;
z1、z2、z3是某一个随机置换群π作用在集合S1、S2、S3的最小值:z1=min{π(S1)}、z2=min{π(S2)}、z3=min{π(S3)};
z1,j=min{πj(S1)}、z2,j=min{πj(S2)}、z3,j=min{πj(S3)}分别为随机置换群π作用在文档对应的数值集合S1、S2、S3上,在第j次随机置换的最小值;
k0为k次随机排列中三个文本对应的minwise指纹相等的次数:
k0=|{z1,j=z2,j=z3,j,j=1,..,k}|;
k1为k次随机排列中满足min{π(S1)}<min{π(S2)},min{π(S1)}<min{π(S3)}且min{π(S2)}≠min{π(S3)}的次数:k1=|{z1,j<z2,j,z1,j<z3,j,z2,j≠z3,j,j=1,..,k}|;
k2为k次随机排列中满足min{π(S2)}<min{π(S2)},min{π(S2)}<min{π(S3)}且min{π(S1)}≠min{π(S2)}的次数:k2=|{z2,j<z1,j,z2,j<z3,j,z1,j≠z3,j,j=1,..,k}|;
k3为k次随机排列中满足min{π(S3)}<min{π(S1)},min{π(S3)}<min{π(S2)}且min{π(S1)}≠min{π(S2)}的次数:k3=|{z3,j<z1,j,z3,j<z2,j,z1,j≠z2,j,j=1,..,k}|;
k4为k次随机排列中满足min{π(S1)}≠min{π(S2)},且min{π(S2)}≠min{π(S3)}的次数:
k4=|{z1,j≠z2,j=z3,j,j=1,...,k}|;
k5为k次随机排列中满足min{π(S1)}≠min{π(S2)},且min{π(S1)}≠min{π(S3)}的次数:
k5=|{z2,j≠z1,j=z3,j,j=1,..,k}|;
k6为k次随机排列中满足min{π(S3)}≠min{π(S1)},且min{π(S1)}=min{π(S2)}的次数:
k6=|{z3,j≠z1,j=z2,j,j=1,..,k}|;
其中,集合S1、S2及S3分别表示三个文档对应的数值集合;
a1,2=|S1∩S2|,a1,3=|S1∩S3|,a2,3=|S2∩S3|,a1,3=|S1∩S3|,分别表示两两文档间的交集,按照本文中所述两个文档相似度的计算方法获得。
有益效果
本发明提供了一种基于极大似然估计确定文档相似度的方法,包括以下步骤:步骤1:文本特征提取步骤:该步骤2:对文本特征集合进行数值映射,得到文档对应的数值集合Sd;步骤3:文档对应的数值集合Sd采用minwise指纹表征:步骤4:基于文档的minwise指纹,基于极大似然函数计算两个文档的相似度a;该方法利用哈希值比对的各种结果(<,>,=)的概率,基于所述的所有概率事件巧妙的设计出结合这些概率的似然函数,建立极大似然Minwise哈希估计子;将该方法推广运用到三篇文档相似度确定,准确有效的得到了精度较高的文本相似度;由于极大似然方法所得的方差平均值最小,这样所获得的相似度自然精度高于Minwise方法。
附图说明
图1为S1和S2的两者相似性指纹比对时出现的3种事件概率的区域图;
图2为S1、S2和S3的三者相似性指纹比对时出现的7种事件概率的区域图;
图3为应用本发明所述方法的实施例在XX数据集中极大似然度量方法的准确率和召唤率的实验结果示意图,其中,(a)和(b)分别表示在相似度阈值R0为0.3时,对应的准确率和召回率曲线图;(c)和(d)分别表示在相似度阈值R0为0.5时,对应的准确率和召回率曲线图;(e)和(f)分别表示在相似度阈值R0为0.8时,对应的准确率和召回率曲线图。
具体实施方式
以下将结合附图对本发明提供的方法进行详细的说明,并将结合实例及实验数据对根据本发明的方法的优势进行具体的说明。
一种基于极大似然估计确定文档相似度的方法,包括以下几个步骤:
步骤1:提取文档的文本特征,获得文本特征集合Sshgs;
步骤2:对文本特征集合进行数值映射,得到文档对应的数值集合Sd;
步骤3:文档对应的数值集合Sd采用minwise指纹表征:
对词集Sshgs采用Rabin函数,每个词映射为64位或32位的整数(二进制),将得到的数值集合命名为Sd。例如,将分词处理好的{申请专|利需要|注意的|要点}的词集Sshgs,通过Rabin函数映射为{001…11|011..000|001…101|010…111}的数值集合命名为Sd,将文档转换为数值指纹表征。假定全集Ω={0,1,...,D-1},D足够大(包含所有Rabin函数映射的整数,能够映射)。a0a1,…aD-1恒指Ω上的一个随机排列(假设Ω={0,1,2,3,4,5,6},它的一个随机排列可以是{3,4,5,1,0,2,6})向量(a0,a1,…,aD-1)代表Ω的一个置换:
如果对于数据集X∈Ω且元素x∈X,存在一个排列π,使得
则π为一个随机minwise排列。换句话说,数据集X中的任意一个元素x在随机置换π下都有相同的概率是这个置换后的最小值。这样,通过k个独立随机的置换群π1,π2,...,πk,就把集合Sd转换为minwise特征指纹:
步骤4:基于文档的minwise指纹,计算两个文档的相似度a,所述两个文档的相似度a满足使得似然函数取得最大值,即满足:
对上式求解时,所得解需满足a大于或等于1,且a小于或等于两个文档中的最小文档;
其中,f1和f2分别为两个文档的大小,即所包含的文本特征数量;集合S1、S2分别表示两个文档对应的数值集合,z1、z2是某一个随机置换群π作用在集合S1、S2的最小值:z1=min{π(S1)}、z2=min{π(S2)};
当z1=z2时的概率值为Pr=,
当z1>z2时的概率值为Pr>,
当z1<z2时的概率值为Pr<:
k=为k次随机排列中两个文本对应的minwise指纹相等的次数,k==|{z1,j=z2,j,j=1,2,..,k}|;
k>为k次随机排列中min{π(S1)}大于min{π(S2)}的次数,k>=|{z1,j>z2,j,j=1,2,..,k}|;
k<为k次随机排列中min{π(S1)}小于min{π(S2)}的次数,k<=|{z1,j<z2,j,j=1,2,..,k}|;
z1,j=min{πj(S1)},z2,j=min{πj(S2)}分别为随机置换群π作用在文档对应的数值集合S1和S2上,在第j次随机置换的最小值。
【由于,
这三个公式中的a的求解可以分别通过k=、k>、k<来估计:
当文本大小f1≈f2时,取估计量的方差最小,相似度估计精度最高;当文本大小f1>>f2≈a时,取估计量的方差最小,相似度估计精度最高;当a≈f1<<f2时,取估计量的方差最小,相似度估计精度最高。但由于估计量a是未知量,因此事先不可能知道取值范围,故使用极大似然估计结合两者比对的三者情况来估计交集a,是最折中、平均精度最好的方法,因此,利用极大似然函数 当l(a)取得最大值时,所求得的a即为所需的文档相似度。
通过上述方法所求得的解中,若包含两个或两个以上的有效解,取最接近最小文档长度的解作为文档相似度a的值。
例如S1={专利申|请须知},S2={专利申|请日期},那么集合中元素的数量为2,所以f1=|S1|=2,f2=|S2|=2。
S1的minwise指纹集合为{1,2,3,5,6},S2的minwise指纹集合为{1,3,2,4,6},对应位置数值比较结果有k==2,k>=2,k<=1,所以有
假设全集Ω={0,1,2,3,4,5,6,7}(包含了S1,S2的所有元素),现在有两个文档被Robin函数映射为:S1={1,2,4},S2={1,4,3,6},有相似度
取k=6,对两个文档进行6次随机排列,取全集的六次随机排列π1,π2,π3,π4,π5,π6为:
通过π1,π2,π3,π4,π5,π6对S1映射后为(全集是按从小到大排列的,S1选取全集对应1,2,4位置的随机排列行数值元素,作为一次随机排列集合):π1(S1)={3,0,6},π2(S1)={6,5,2},π3(S1)={1,7,6},π4(S1)={1,5,3},π5(S1)={7,6,4},π6(S1)={1,5,3};
取6个随机排列集合中各自的最小值组成文档1的minwise指纹(指纹不同于集合,它由经过minwise哈希算法处理得到的数值组成,可以有重复的数值。从第一个数值到最后一个数值,位置是固定的。在指纹比对中,只对比同一位置的数值。指纹中数值越多估计相似度的精度越高,这是由随机排列次数k决定的):
这个minwise指纹,用来表征S1整篇文档(指纹中的每一个数值不再对应单个词,而是对应整篇文档)。
通过π1,π2,π3,π4,π5,π6对S1映射后为(全集的按从小到大排列,S1选取全集对应1,3,3,6位置的随机排列行数值元素,作为一次随机排列集合):π1(S1)={3,4,6,1},π2(S1)={6,5,4,2},π3(S1)={1,7,5,6},π4(S1)={1,4,5,3},π5(S1)={7,6,0,4},π6(S1)={1,0,5,3};
取6次随机排列集合中的最小值组成文档1的minwise指纹:
这个minwise指纹,用来表征S2整篇文档
比较同一位置的minwise值,则基于minwise方法求取两篇文档的相似度如下:
R(1,2)与相差0.1,这是因为在实际系统中,k的取值在500到1000之间,精度才能达到要求,例子中k=6,只是为了进行说明,如果相似度恰好相等,或接近也只是巧合。
接着再按照本发明所述的基于极大似然的方法来确定两篇文档的相似度:
已知实例1中的两个minwise值集合长度为f1=3,f2=4,求解k=,k>,k<,并利用极大似然方法求解交集aMLE
1)k=的求解
实例1中的S1和S2的minwise指纹对应位置数值有:
min{π2(S1)}=2=min{π2(S2)}=2,
min{π3(S1)}=1=min{π3(S2)}=1,
min{π4(S1)}=1=min{π4(S2)}=1
所以k==3
2)k>的求解
实例1中的S1和S2的minwise指纹对应位置数值有:
min{π5(S1)}=4>min{π5(S2)}=0,,
min{π6(S1)}=1>min{π6(S2)}=0
所以k>=2
3)k<的求解
实例1中的S1和S2的minwise指纹对应位置数值有:
min{π1(S1)}=0<min{π1(S2)}=1
k<=1
4)二者极大似然估计子aMLE(由极大似然方法得到的二者交集)的求解。
将实例1中的f1=6,f2=6以及k==3,k>=2,k<=1代入公式有:
得到一元二次方程7a2-40a+54=0,得到两个解a1=2.19,a2=3.53(舍去)。因为a2>f1,但是交集不可能大于集合,所以由本发明所述的极大似然方法解得二者交集aMLE=2.19,所以二者的极大似然相似度
实例2:
3个文档的极大似然相似度确定:
在实例1的基础上,增加文档S3={1,3,4,5},利用现有技术方法中得到的三者相似度为:
S3的minwise指纹为:
1)minwise三者相似度求解
min(π3(S1))=min(π3(S2))=min(π3(S3))=1,
min(π4(S1))=min(π4(S2))=min(π4(S3))=1
代入公式(10)
2)通过比较和对应位置数值的大小,结合步骤三中k0,k1,k2,k3,k4,k5,k6的限定条件,来求解它们的值。
k0的限定条件,k0=|{z1,j=z2,j=z3,j,j=1,..,k}|
min(π3(S1))=min(π3(S2))=min(π3(S3))=1,
因为min(π4(S1))=min(π4(S2))=min(π4(S3))=1
所以k0=2,
k1的限定条件,k1=|{z1,j<z2,j,z1,j<z3,j,z2,j≠z3,j,j=1,..,k}|
min(π1(S1))=0<min(π1(S2))=1,
min(π1(S1))=0<min(π1(S3))=3,
min(π1(S3))≠min(π1(S2))
所以k1=1;
k2的限定条件,k2=|{z2,j<z1,j,z2,j<z3,j,z1,j≠z3,j,j=1,..,k}|
因为没有数值满足,所以k2=0;
因为没有数值满足k3的限定条件,k3=|{z3,j<z1,j,z3,j<z2,j,z1,j≠z2,j,j=1,..,k}|
因为没有数值满足,所以k3=0;
k4的限定条件,k4=|{z1,j≠z2,j=z3,j,j=1,...,k}|,
min(π5(S1))=4≠min(π5(S2))=0,
min(π5(S2))=0min(π5(S3))=0;
因为min(π6(S1))=1≠min(π6(S2))=0,
min(π6(S2))=0min(π6(S3))=0
所以k4=2;
k5的限定条件,k5=|{z2,j≠z1,j=z3,j,j=1,..,k}|,
因为没有数值满足,所以k5=0;
k6的限定条件,k6=|{z3,j≠z1,j=z2,j,j=1,..,k}|;
因为没有数值满足,所以k6=0;
3)求解三者的极大似然估计子aMLE
易得和之间的交集大小:a12=2、a13=2、a23=3、a123=2,又已经解出k0,k1,k2,k3,k4,k5,k6的数值大小,T=(f1+f2+f3-a12-a13-a23)=4代入以下公式:
可得:一元二次方程25a2-69a+24=0;解a1=2.35,a2=0.41。因为交集不可能小于1,故舍去),因此,解得由极大似然方法求得三者交集aMLE=2.3。
故利用本发明所述的极大似然解得的相似度:
实际上对文本随机排列的次数k取值在500到1000之间,相似度估计才能取得较高的精度,以上的例子只是为了说明,极大似然估计方法的使用原理,具体的实验结果在图3中,得到说明。
以某基金的申报项目为数据来源,对10万文档对和10万文档三元组进行了估计量的相似性度量实验,其中,极大似然相似度定义R0为相似度阈值,定义准确率和召回率:
通过准确率和召回率的计算公式,测得在相似度R≥R0的二者、三者估计的准确率和召回率如图3所示。
图3显示召回率曲线几乎没有区别,准确率却有一定的差别,图中,Mle表示本发明所述的基于极大似然的确定相似度方法,Minwise表示现有技术中的Minwise文本相似度确定方法,数字2和3分别表示两篇文档和三篇文档。
由图3的准确率曲线可以得出以下结论:
1)随着样本大小k的增大,准确度和召回率都随之增大,这说明当k越大时,极大似然估计的方差是减小的,估计值和真实值就会越来越接近,估计也就越准。
2)在相同的k、R0下,极大似然估计的精度是高于Minwise估计。例如当R0=0.5,k=300时,
3)在相同的k、R0下,三者极大似然估计的准确率提升幅度高于二者的提升幅度。例如当R0=0.5,k=300时, 准确率提升了14%高于二者的10%。
所述Pre()表示准确率。
其原因在于:三者相似性度量时会出现7种概率事件,如图2所示,而Minwise估计只使用了其中的1种概率事件(z1=z2=z3)用来估计相似性。二者相似性度量时会出现3种概率事件,如图1所示,同样的Minwise估计只使用了其中的1种概率事件(z1=z2)。极大似然估计的实质是结合所有概率事件形成的估计值,三者极大似然估计结合的概率事件有7种,二者极大似然估计结合了3种。假设每种的概率相等,从比重上来看,三者的Minwise估计只使用了1/7的总概率事件,而二者的Minwise估计只使用了1/3的总概率事件,因此,在失准的程度上,三者的Minwise估计要高于二者的Minwise估计。因此当采用了极大似然估计后,三者极大似然估计的准确率提升幅度高于二者的提升幅度。
因此,在文档大小未知,以及文档之间交集未知的情况下,利用本发明所述的极大似然估计的方差平均最小,因此所得到的文档间的相似度平均精度高于现有技术中的Minwise估计方法。
Claims (5)
1.一种基于极大似然估计确定文档相似度的方法,其特征在于,包括以下几个步骤:
步骤1:提取文档的文本特征,获得文本特征集合Sshgs;
步骤2:对文本特征集合进行数值映射,得到文档对应的数值集合Sd;
步骤3:文档对应的数值集合Sd采用minwise指纹表征:
步骤4:基于文档的minwise指纹,计算两个文档的交集a,所述两个文档的交集a满足使得似然函数取得最大值,即满足:
对上式求解时,所得解需满足a大于或等于1,且a小于或等于两个文档中的最小文档;
其中,f1和f2分别为两个文档的大小,即所包含的文本特征数量;集合S1、S2分别表示两个文档对应的数值集合,z1、z2是某一个随机置换群π作用在集合S1、S2的最小值:z1=min{π(S1)}、z2=min{π(S2)};
当z1=z2时的概率值为Pr=,
当z1>z2时的概率值为Pr>,
当z1<z2时的概率值为Pr<:
k=为k次随机排列中两个文本对应的minwise指纹相等的次数,k==|{z1,j=z2,j,j=1,2,..,k}|;
k>为k次随机排列中min{π(S1)}大于min{π(S2)}的次数,k>=|{z1,j>z2,j,j=1,2,..,k}|;
k<为k次随机排列中min{π(S1)}小于min{π(S2)}的次数,k<=|{z1,j<z2,j,j=1,2,..,k}|;
z1,j=min{πj(S1)},z2,j=min{πj(S2)}分别为随机置换群π作用在文档对应的数值集合S1和S2上,在第j次随机置换的最小值;
步骤5:两篇文档的极大似然相似度为RMLE:
2.根据权利要求1所述的一种基于极大似然估计确定文档相似度的方法,其特征在于,通过上述方法所求得的解中,若包含两个或两个以上的有效解,取最接近最小文档长度的解作为文档相似度a的值。
3.根据权利要求2所述的一种基于极大似然估计确定文档相似度的方法,其特征在于,所述文本特征集合Sshgs,是利用中文分词算法对文档进行分词,利用停用词表过滤掉文本噪音数据后的分词集合。
4.根据权利要求3所述的一种基于极大似然估计确定文档相似度的方法,其特征在于,所述对文本特征集合进行数值映射,得到文档对应的数值集合Sd的具体过程是指,对词集Sshgs中的每个分词采用Rabin函数,词映射为N位的二进制数;
所述N为计算机进行数据处理的最大数据位数。
5.根据权利要求1-4任一项所述的一种基于极大似然估计确定文档相似度的方法,其特征在于,确定三个文档间的相似度RMLE时,其中,三个文档间的交集a满足使得似然函数取得最大值,即满足:
对上式求解时,所得解需满足以下条件:
1)所得解需满足a大于或等于1,且a小于或等于两个文档中的最小文档;2)存在多个解时,取最接近最小本长度的值;
其中,三者minwise指纹比对所有事件发生的概率公式如下:
T为中间变量,T=(f1+f2+f3-a12-a13-a23),f1、f2和f3分别为三个文档的大小,即所包含的文本特征数量;a12为文档1和文档2的交集,a13为文档1和文档3的交集,a23为文档2和文档3的交集;
z1、z2、z3是某一个随机置换群π作用在集合S1、S2、S3的最小值:z1=min{π(S1)}、z2=min{π(S2)}、z3=min{π(S3)};
z1,j=min{πj(S1)}、z2,j=min{πj(S2)}、z3,j=min{πj(S3)}分别为随机置换群π作用在文档对应的数值集合S1、S2、S3上,在第j次随机置换的最小值;
k0为k次随机排列中三个文本对应的minwise指纹相等的次数:
k0=|{z1,j=z2,j=z3,j,j=1,..,k}|;
k1为k次随机排列中满足min{π(S1)}<min{π(S2)},min{π(S1)}<min{π(S3)}且min{π(S2)}≠min{π(S3)}的次数:k1=|{z1,j<z2,j,z1,j<z3,j,z2,j≠z3,j,j=1,..,k}|;
k2为k次随机排列中满足min{π(S2)}<min{π(S2)},min{π(S2)}<min{π(S3)}且min{π(S1)}≠min{π(S2)}的次数:k2=|{z2,j<z1,j,z2,j<z3,j,z1,j≠z3,j,j=1,..,k}|;
k3为k次随机排列中满足min{π(S3)}<min{π(S1)},min{π(S3)}<min{π(S2)}且min{π(S1)}≠min{π(S2)}的次数:k3=|{z3,j<z1,j,z3,j<z2,j,z1,j≠z2,j,j=1,..,k}|;
k4为k次随机排列中满足min{π(S1)}≠min{π(S2)},且min{π(S2)}≠min{π(S3)}的次数:
k4=|{z1,j≠z2,j=z3,j,j=1,...,k}|;
k5为k次随机排列中满足min{π(S1)}≠min{π(S2)},且min{π(S1)}≠min{π(S3)}的次数:
k5=|{z2,j≠z1,j=z3,j,j=1,..,k}|;
k6为k次随机排列中满足min{π(S3)}≠min{π(S1)},且min{π(S1)}=min{π(S2)}的次数:
k6=|{z3,j≠z1,j=z2,j,j=1,..,k}|;
其中,集合S1、S2及S3分别表示三个文档对应的数值集合;
a1,2=|S1∩S2|,a1,3=|S1∩S3|,a2,3=|S2∩S3|,a1,3=|S1∩S3|,分别表示两两文档间的交集,按照权利要求1所述方法计算获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510063881.6A CN104636325B (zh) | 2015-02-06 | 2015-02-06 | 一种基于极大似然估计确定文档相似度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510063881.6A CN104636325B (zh) | 2015-02-06 | 2015-02-06 | 一种基于极大似然估计确定文档相似度的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104636325A true CN104636325A (zh) | 2015-05-20 |
CN104636325B CN104636325B (zh) | 2015-09-30 |
Family
ID=53215097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510063881.6A Active CN104636325B (zh) | 2015-02-06 | 2015-02-06 | 一种基于极大似然估计确定文档相似度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104636325B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183836A (zh) * | 2015-09-01 | 2015-12-23 | 南京工程学院 | 一种基于符号特征获取事件大数据信息的算法 |
CN105373521A (zh) * | 2015-12-04 | 2016-03-02 | 湖南工业大学 | 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法 |
CN105718430A (zh) * | 2016-01-13 | 2016-06-29 | 湖南工业大学 | 一种基于分组最小值作为指纹计算相似度的方法 |
CN106326197A (zh) * | 2016-08-23 | 2017-01-11 | 达而观信息科技(上海)有限公司 | 一种快速检测重复抄袭文本的方法 |
CN108038202A (zh) * | 2017-12-13 | 2018-05-15 | 奕响(大连)科技有限公司 | 一种文档相似度判定方法 |
CN108415889A (zh) * | 2018-03-19 | 2018-08-17 | 中南大学 | 一种基于带权一次置换哈希算法的文本相似性检测方法 |
CN108829660A (zh) * | 2018-05-09 | 2018-11-16 | 电子科技大学 | 一种基于随机数分治递归的短文本签名生成方法 |
CN109582933A (zh) * | 2018-11-13 | 2019-04-05 | 北京合享智慧科技有限公司 | 一种确定文本新颖度的方法及相关装置 |
CN111444325A (zh) * | 2020-03-30 | 2020-07-24 | 湖南工业大学 | 一种位置编码单次随机置换哈希度量文档相似度的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080049264A1 (en) * | 2006-08-24 | 2008-02-28 | Sharp Kabushiki Kaisha | Image processing method, image processing apparats, document reading apparatus, image forming apparatus, computer program and recording medium |
CN102682104A (zh) * | 2012-05-04 | 2012-09-19 | 中南大学 | 一种查找相似文本的方法及连接位相似性度量算法 |
-
2015
- 2015-02-06 CN CN201510063881.6A patent/CN104636325B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080049264A1 (en) * | 2006-08-24 | 2008-02-28 | Sharp Kabushiki Kaisha | Image processing method, image processing apparats, document reading apparatus, image forming apparatus, computer program and recording medium |
CN102682104A (zh) * | 2012-05-04 | 2012-09-19 | 中南大学 | 一种查找相似文本的方法及连接位相似性度量算法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183836B (zh) * | 2015-09-01 | 2018-06-15 | 江苏润邦智能车库股份有限公司 | 一种基于符号特征获取事件大数据信息的算法 |
CN105183836A (zh) * | 2015-09-01 | 2015-12-23 | 南京工程学院 | 一种基于符号特征获取事件大数据信息的算法 |
CN105373521A (zh) * | 2015-12-04 | 2016-03-02 | 湖南工业大学 | 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法 |
CN105373521B (zh) * | 2015-12-04 | 2018-06-29 | 湖南工业大学 | 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法 |
CN105718430A (zh) * | 2016-01-13 | 2016-06-29 | 湖南工业大学 | 一种基于分组最小值作为指纹计算相似度的方法 |
CN105718430B (zh) * | 2016-01-13 | 2018-05-04 | 湖南工业大学 | 一种基于分组最小值作为指纹计算相似度的方法 |
CN106326197A (zh) * | 2016-08-23 | 2017-01-11 | 达而观信息科技(上海)有限公司 | 一种快速检测重复抄袭文本的方法 |
CN108038202A (zh) * | 2017-12-13 | 2018-05-15 | 奕响(大连)科技有限公司 | 一种文档相似度判定方法 |
CN108415889A (zh) * | 2018-03-19 | 2018-08-17 | 中南大学 | 一种基于带权一次置换哈希算法的文本相似性检测方法 |
CN108415889B (zh) * | 2018-03-19 | 2021-05-14 | 中南大学 | 一种基于带权一次置换哈希算法的文本相似性检测方法 |
CN108829660A (zh) * | 2018-05-09 | 2018-11-16 | 电子科技大学 | 一种基于随机数分治递归的短文本签名生成方法 |
CN108829660B (zh) * | 2018-05-09 | 2021-08-31 | 电子科技大学 | 一种基于随机数分治递归的短文本签名生成方法 |
CN109582933A (zh) * | 2018-11-13 | 2019-04-05 | 北京合享智慧科技有限公司 | 一种确定文本新颖度的方法及相关装置 |
CN111444325A (zh) * | 2020-03-30 | 2020-07-24 | 湖南工业大学 | 一种位置编码单次随机置换哈希度量文档相似度的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104636325B (zh) | 2015-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104636325B (zh) | 一种基于极大似然估计确定文档相似度的方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN105718506B (zh) | 一种科技项目查重对比的方法 | |
CN105653706B (zh) | 一种基于文献内容知识图谱的多层引文推荐方法 | |
US11132372B2 (en) | Method and apparatus for precise positioning of scholar based on mining of scholar's scientific research achievement | |
CN107193797A (zh) | 中文微博的热点话题检测及趋势预测方法 | |
CN103617157A (zh) | 基于语义的文本相似度计算方法 | |
CN102682104A (zh) | 一种查找相似文本的方法及连接位相似性度量算法 | |
CN106055539B (zh) | 姓名消歧的方法和装置 | |
CN104408153A (zh) | 一种基于多粒度主题模型的短文本哈希学习方法 | |
CN103235772A (zh) | 一种文本集人物关系自动提取方法 | |
CN103823859A (zh) | 基于决策树规则和多种统计模型相结合的人名识别算法 | |
CN102880631A (zh) | 一种基于双层分类模型的中文作者识别方法及其装置 | |
KR20230142754A (ko) | 모델 교차들을 이용한 문서 분석 | |
CN103678279A (zh) | 基于异质网络时态语义路径相似度的人物唯一性识别方法 | |
CN110866125A (zh) | 基于bert算法模型的知识图谱构建系统 | |
CN111221976A (zh) | 基于bert算法模型的知识图谱构建方法 | |
CN109977131A (zh) | 一种房型匹配系统 | |
CN109344233A (zh) | 一种中文人名识别方法 | |
WO2021142968A1 (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 | |
CN105373521A (zh) | 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法 | |
KR101571316B1 (ko) | Poi 추출 모호성 해소 방법, 문서로부터 poi를 추출하는 방법, poi 추출 장치 | |
CN116579791A (zh) | 一种用户挖掘方法及装置 | |
CN107423294A (zh) | 一种社群图像检索方法及系统 | |
CN105718430A (zh) | 一种基于分组最小值作为指纹计算相似度的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |