CN104636325A

CN104636325A - 一种基于极大似然估计确定文档相似度的方法

Info

Publication number: CN104636325A
Application number: CN201510063881.6A
Authority: CN
Inventors: 龙军; 袁鑫攀; 盛鑫海; 李祖德
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2015-02-06
Filing date: 2015-02-06
Publication date: 2015-05-20
Anticipated expiration: 2035-02-06
Also published as: CN104636325B

Abstract

本发明公开了一种基于极大似然估计确定文档相似度的方法，包括以下步骤：步骤1：文本特征提取步骤：该步骤2：对文本特征集合进行数值映射，得到文档对应的数值集合S_d；步骤3：文档对应的数值集合S_d采用minwise指纹表征：步骤4：基于文档的minwise指纹，基于极大似然函数计算两个文档的相似度a；该方法利用哈希值比对的各种结果(<，>，＝)的概率，基于所述概率巧妙的设计出结合这些概率的似然函数，建立极大似然Minwise哈希估计子；将该方法推广运用到三篇文档相似度确定，准确有效的得到了精度较高的文本相似度；由于极大似然方法所得的方差平均值最小，这样所获得的相似度自然精度高于Minwise方法。

Description

一种基于极大似然估计确定文档相似度的方法

技术领域

本发明属于信息检索领域，特别涉及一种基于极大似然估计确定文档相似度的方法。

背景技术

WEB正经历着爆炸性增长，越来越多的文献资料开始在网上公布，这种趋势使得网络上文档资源成几何级数增长，为人类共享知识和创造财富提供了前所未有的便利，也对我国的现代化建设有着积极的推动作用。然而，这些数字化资源给人们提供帮助的同时，资源的易获性也使得文档的非法复制、抄袭、剽窃等行为越来越猖獗，使得在各种论文和项目申请书等中，可能存在比较严重的抄袭现象。同时，随着国家对教育科研的大量投入，提供了各种教育和科技项目的资助，如：国家自然科学基金项目、教育部的博士点项目，各省市的基金项目、各种科技计划等。由于这些项目属于不同的职能部门单位分管，这就使得项目申请书存在着多次申报和多头申报的现象。申请书的抄袭、多次申报和多头申报现象严重影响了项目审批的客观性和公平性，对国家科研经费的合理分配产生不良的影响，造成科学研究经费可能得不到高效利用。为防止抄袭剽窃，端正学术风气，进行文档相似性检测技术的研究非常有意义。由此，世界各地的搜索引擎、图书馆、基金会、论文库、知识产权部门等都投入巨大的人力、物力和财力，正努力地在文档相似性检测上摸索和探究，以期尽快突破相似性检测的关键科学问题，为论文、项目申请书、奖励申报书、专利的查重或搜索引擎的网页去重等提供了良好的解决方案。

相似性检测数据具有海量性的特点，以国家自然科学基金申请书为例，目前就2013年申请量来说，申请书数量达17万份以上，每年还将以较快的速度增长。又如，近几年中国每年高校毕业生人数约为700万，其中大部分的毕业论文都需要进行相似性检测，每年5月份论文检测量达到高峰，日均在几万份以上，相似性检测不但要和当年的数据进行查重，还需要和历史数据进行检测，而如此海量的文档，光靠常规检测方式是根本行不通的，因此迫切需要借助哈希估计技术，建立一套精度和效率俱优的检测机制，实现对海量文档的相似性比对技术。文本相似度度量这一概念及相关技术也应运而生。一个好的文本相似度度量方法在相似性检测、自动问答系统、智能检索、网页去重、自然语言处理等研究领域具有重要的意义。

文本相似度是指两个或者多个文本之间的匹配程度的一个度量参数，相似度越高，表示两个文本之间的相似程度越大，反之越低。传统的文本相似度度量方法是向量空间模型(VSM)通过计算待查文档与数据集中某一篇文档带有权重的频率向量内积，得到两篇文档的相似度。算法需要存储大量的特征词汇、比对速度慢、准确率低等缺点，无法应用于海量数据中相似度度量。基于Minwise相似性度量算法作为最主流、成熟的相似性检测方法，通过将相似度问题转换为一个事件的发生概率问题，将文本词汇集合映射到hash值集合中，将字符串比对问题转化为特征指纹比对问题，适用于海量数据相似度度量。

基于Minwise相似性度量算法及其变种算法具有较高的估计精度，但各研究机构仍在不断追求更高的精度。这是由于实际检测数据的多样性和随机性，经常容易出现一类大文本包含小文本(f₁>>f₂≈a)的情况。其中，f₁、f₂是文档1、文档2的词集大小，a为交集大小。因为f₁>>f₂(文本f₁远远大于f₂)，故相似性很小，又因为f₂≈a，故文档2相对于文档1的包含率接近于1，如此高的包含率也说明了文档2完全抄袭于文档1。对于这类低相似率、高包含率的情况，基于Minwise相似性度量算法的方差均较大，精度不够。这虽然是一类较为特殊的数据，但实际中屡见不鲜，有时候相似度偏差可高达20％以上，目前并没有较好的处理方法。

发明内容

本发明提出了一种基于极大似然估计确定文档相似度的方法，其目的在于解决针对现有技术中文档相似度的精度不高的问题。

一种基于极大似然估计确定文档相似度的方法，包括以下几个步骤：

步骤1：提取文档的文本特征，获得文本特征集合S_shgs；

步骤2：对文本特征集合进行数值映射，得到文档对应的数值集合S_d；

步骤3：文档对应的数值集合S_d采用minwise指纹表征：

{\overset{&OverBar;}{S}}_{d} = (\min {{π}_{1} (S_{d})}, \min {π_{2} (S_{d})}, . . ., \min {π_{k} (S_{d})});

步骤4：基于文档的minwise指纹，计算两个文档的交集a，所述两个文档的交集a满足使得似然函数取得最大值，即满足：

k_{=} \frac{f_{1} + f_{2}}{a} - k_{<} \frac{f_{2}}{f_{1} - a} - k_{>} \frac{f_{1}}{f_{2} - a} = 0

对上式求解时，所得解需满足a大于或等于1，且a小于或等于两个文档中的最小文档；

其中，f₁和f₂分别为两个文档的大小，即所包含的文本特征数量；集合S₁、S₂分别表示两个文档对应的数值集合，z₁、z₂是某一个随机置换群π作用在集合S₁、S₂的最小值：z₁＝min{π(S₁)}、z₂＝min{π(S₂)}；

当z₁＝z₂时的概率值为Pr_＝，

\Pr_{=} = \Pr (z_{1} = z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) = \min (π_{j} (S_{2}))} = \frac{a}{f_{1} + f_{2} - a};

当z₁>z₂时的概率值为Pr_>，

\Pr_{>} = \Pr (z_{1} > z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) > \min (π_{j} (S_{2}))} = \frac{f_{1} - a}{f_{1} + f_{2} - a};

当z₁<z₂时的概率值为Pr_<：

\Pr_{<} = \Pr (z_{1} < z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) < \min (π_{j} (S_{2}))} = \frac{f_{1} - a}{f_{1} + f_{2} - a};

k_＝为k次随机排列中两个文本对应的minwise指纹相等的次数，k_＝＝|{z_1,j＝z_2,j,j＝1,2,..,k}|；

k_>为k次随机排列中min{π(S₁)}大于min{π(S₂)}的次数，k_>＝|{z_1,j>z_2,j,j＝1,2,..,k}|；

k_<为k次随机排列中min{π(S₁)}小于min{π(S₂)}的次数，k_<＝|{z_1,j<z_2,j,j＝1,2,..,k}|；

z_1,j＝min{π_j(S₁)}，z_2,j＝min{π_j(S₂)}分别为随机置换群π作用在文档对应的数值集合S₁和S₂上，在第j次随机置换的最小值；

步骤5：两篇文档的极大似然相似度为R_MLE：

【由于，

\Pr_{=} = \Pr (z_{1} = z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) = \min (π_{j} (S_{2}))} = \frac{a}{f_{1} + f_{2} - a},

\Pr_{>} = \Pr (z_{1} > z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) > \min (π_{j} (S_{2}))} = \frac{f_{1} - a}{f_{1} + f_{2} - a},

\Pr_{<} = \Pr (z_{1} < z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) < \min (π_{j} (S_{2}))} = \frac{f_{1} - a}{f_{1} + f_{2} - a},

这三个公式中的a的求解可以分别通过k_＝、k_>、k_<来估计：

{\hat{a}}_{=} = \frac{(f_{1} + f_{2}) k_{=}}{k + k_{=}}, {\hat{a}}_{<} = f_{1} - f_{2} \frac{k_{<}}{k - k_{<}}, {\hat{a}}_{>} = f_{2} - f_{1} \frac{k_{>}}{k - k_{>}}

当文本大小f₁≈f₂时，取估计量的方差最小，相似度估计精度最高；当文本大小f₁>>f₂≈a时，取估计量的方差最小，相似度估计精度最高；当a≈f₁<<f₂时，取估计量的方差最小，相似度估计精度最高。但由于估计量a是未知量，因此事先不可能知道取值范围，故使用极大似然估计结合两者比对的三种情况来估计交集a，是最折中、平均精度最好的方法，因此，利用极大似然函数

l (a) = \log ({\Pr_{=}}^{k_{=}} \cdot {\Pr_{<}}^{k_{<}} \cdot {\Pr_{>}}^{k_{>}}) = k_{=} \log \Pr_{=} + k_{<} \log \Pr_{<} + k_{>} \log \Pr_{>},

当l(a)取得最大值时，所求得的a即为所需的文档相似度。

通过上述方法所求得的解中，若包含两个或两个以上的有效解，取最接近最小文档长度的解作为文档相似度a的值。

所述文本特征集合S_shgs，是利用中文分词算法对文档进行分词，利用停用词表过滤掉文本噪音数据后的分词集合。

所述对文本特征集合进行数值映射，得到文档对应的数值集合S_d的具体过程是指，对词集S_shgs中的每个分词采用Rabin函数，词映射为N位的二进制数；

所述N为计算机进行数据处理的最大数据位数。

【minwise指纹形成过程：

假定全集Ω＝{0,1,...,D-1}，D足够大(包含所有Rabin函数映射的整数，能够映射)。a₀a₁,…a_D-1恒指Ω上的一个随机排列，向量(a_0,a₁,…,a_D-1)代表Ω的一个置换：

π = (\begin{matrix} 0 & 1 & . . . & D - 1 \\ a_{0} & a_{1} & . . . & a_{D - 1} \end{matrix})

如果对于数据集X∈Ω且元素x∈X，存在一个排列π，使得

\Pr (\min {π (X)} = π (x)) = \frac{1}{| X |}

则π为一个随机minwise排列，换句话说，数据集X中的任意一个元素x在随机置换π下都有相同的概率是这个置换后的最小值。这样，通过k个独立随机的置换群π₁,π₂,...,π_k，就把集合S_d转换为minwise特征指纹：

{\overset{&OverBar;}{S}}_{d} = (\min {{π}_{1} (S_{d})}, \min {π_{2} (S_{d})}, . . ., \min {π_{k} (S_{d})}) .

】

优选的，确定三个文档间的相似度R_MLE时，其中，三个文档间的交集a满足使得似然函数取得最大值，即满足：

k_{0} \frac{T}{a} + k_{1} \frac{T + a_{23}}{a - a_{23}} + k_{2} \frac{T + a_{13}}{a - a_{13}} + k_{3} \frac{T + a_{12}}{a - a_{12}} + k_{4} \frac{T - f_{1} + a_{12} + a_{13}}{f_{1} - a_{12} - a_{13} + a} + k_{5} \frac{T - f_{2} + a_{12} + a_{23}}{f_{2} - a_{12} - a_{23} + a} + k_{6} \frac{T - f_{3} + a_{13} + a_{23}}{f_{3} - a_{13} - a_{23} + a} = 0

对上式求解时，所得解需满足以下条件：

1)所得解需满足a大于或等于1，且a小于或等于两个文档中的最小文档；2)存在多个解时，取最接近最小本长度的值；

其中，三者minwise指纹比对所有事件发生的概率公式如下：

\Pr_{0} = \Pr (z_{1} = z_{2} = z_{3}) = \frac{a}{T + a}, \Pr_{1} = \Pr (z_{1} < z_{2}, z_{1} < z_{3}, z_{2} &NotEqual; z_{3}) = \frac{f_{1} - a_{12} - a_{13} + a}{T + a};

\Pr_{2} = \Pr (z_{2} < z_{1}, z_{2} < z_{3}, z_{1} &NotEqual; z_{3}) = \frac{f_{2} - a_{12} - a_{23} + a}{T + a}, \Pr_{3} = \Pr (z_{3} < z_{1}, z_{3} < z_{2}, z_{1} &NotEqual; z_{2}) = \frac{f_{3} - a_{13} - a_{23} + a}{T + a};

\Pr_{4} = \Pr (z_{1} &NotEqual; z_{2} = z_{3}) = \frac{a_{23} - a}{T + a}, \Pr_{5} = \Pr (z_{2} &NotEqual; z_{1} = z_{3}) = \frac{a_{13} - a}{T + a}, \Pr_{6} = \Pr (z_{3} &NotEqual; z_{1} = z_{2}) = \frac{a_{12} - a}{T + a};

T为中间变量，T＝(f₁+f₂+f₃-a₁₂-a₁₃-a₂₃)，f₁、f₂和f₃分别为三个文档的大小，即所包含的文本特征数量；a₁₂为文档1和文档2的交集，a₁₃为文档1和文档3的交集，a₂₃为文档2和文档3的交集；

z₁、z₂、z₃是某一个随机置换群π作用在集合S₁、S₂、S₃的最小值：z₁＝min{π(S₁)}、z₂＝min{π(S₂)}、z₃＝min{π(S₃)}；

z_1,j＝min{π_j(S₁)}、z_2,j＝min{π_j(S₂)}、z_3,j＝min{π_j(S₃)}分别为随机置换群π作用在文档对应的数值集合S₁、S₂、S₃上，在第j次随机置换的最小值；

k₀为k次随机排列中三个文本对应的minwise指纹相等的次数：

k₀＝|{z_1,j＝z_2,j＝z_3,j,j＝1,..,k}|；

k₁为k次随机排列中满足min{π(S₁)}<min{π(S₂)},min{π(S₁)}<min{π(S₃)}且min{π(S₂)}≠min{π(S₃)}的次数：k₁＝|{z_1,j<z_2,j,z_1,j<z_3,j,z_2,j≠z_3,j,j＝1,..,k}|；

k₂为k次随机排列中满足min{π(S₂)}<min{π(S₂)},min{π(S₂)}<min{π(S₃)}且min{π(S₁)}≠min{π(S₂)}的次数：k₂＝|{z_2,j<z_1,j,z_2,j<z_3,j,z_1,j≠z_3,j,j＝1,..,k}|；

k₃为k次随机排列中满足min{π(S₃)}<min{π(S₁)},min{π(S₃)}<min{π(S₂)}且min{π(S₁)}≠min{π(S₂)}的次数：k₃＝|{z_3,j<z_1,j,z_3,j<z_2,j,z_1,j≠z_2,j,j＝1,..,k}|；

k₄为k次随机排列中满足min{π(S₁)}≠min{π(S₂)},且min{π(S₂)}≠min{π(S₃)}的次数：

k₄＝|{z_1,j≠z_2,j＝z_3,j,j＝1,...,k}|；

k₅为k次随机排列中满足min{π(S₁)}≠min{π(S₂)},且min{π(S₁)}≠min{π(S₃)}的次数：

k₅＝|{z_2,j≠z_1,j＝z_3,j,j＝1,..,k}|；

k₆为k次随机排列中满足min{π(S₃)}≠min{π(S₁)},且min{π(S₁)}＝min{π(S₂)}的次数：

k₆＝|{z_3,j≠z_1,j＝z_2,j,j＝1,..,k}|；

其中，集合S₁、S₂及S₃分别表示三个文档对应的数值集合；

a_1,2＝|S₁∩S₂|,a_1,3＝|S₁∩S₃|,a_2,3＝|S₂∩S₃|,a_1,3＝|S₁∩S₃|，分别表示两两文档间的交集，按照本文中所述两个文档相似度的计算方法获得。

有益效果

本发明提供了一种基于极大似然估计确定文档相似度的方法，包括以下步骤：步骤1：文本特征提取步骤：该步骤2：对文本特征集合进行数值映射，得到文档对应的数值集合S_d；步骤3：文档对应的数值集合S_d采用minwise指纹表征：步骤4：基于文档的minwise指纹，基于极大似然函数计算两个文档的相似度a；该方法利用哈希值比对的各种结果(<，>，＝)的概率，基于所述的所有概率事件巧妙的设计出结合这些概率的似然函数，建立极大似然Minwise哈希估计子；将该方法推广运用到三篇文档相似度确定，准确有效的得到了精度较高的文本相似度；由于极大似然方法所得的方差平均值最小，这样所获得的相似度自然精度高于Minwise方法。

附图说明

图1为S₁和S₂的两者相似性指纹比对时出现的3种事件概率的区域图；

图2为S₁、S₂和S₃的三者相似性指纹比对时出现的7种事件概率的区域图；

图3为应用本发明所述方法的实施例在XX数据集中极大似然度量方法的准确率和召唤率的实验结果示意图，其中，(a)和(b)分别表示在相似度阈值R₀为0.3时，对应的准确率和召回率曲线图；(c)和(d)分别表示在相似度阈值R₀为0.5时，对应的准确率和召回率曲线图；(e)和(f)分别表示在相似度阈值R₀为0.8时，对应的准确率和召回率曲线图。

具体实施方式

以下将结合附图对本发明提供的方法进行详细的说明，并将结合实例及实验数据对根据本发明的方法的优势进行具体的说明。

步骤1：提取文档的文本特征，获得文本特征集合S_shgs；

步骤3：文档对应的数值集合S_d采用minwise指纹表征：

{\overset{&OverBar;}{S}}_{d} = (\min {{π}_{1} (S_{d})}, \min {π_{2} (S_{d})}, . . ., \min {π_{k} (S_{d})});

对词集S_shgs采用Rabin函数，每个词映射为64位或32位的整数(二进制)，将得到的数值集合命名为S_d。例如，将分词处理好的{申请专|利需要|注意的|要点}的词集S_shgs，通过Rabin函数映射为{001…11|011..000|001…101|010…111}的数值集合命名为S_d，将文档转换为数值指纹表征。假定全集Ω＝{0,1,...,D-1}，D足够大(包含所有Rabin函数映射的整数，能够映射)。a₀a₁,…a_D-1恒指Ω上的一个随机排列(假设Ω＝{0,1,2,3,4,5,6}，它的一个随机排列可以是{3,4,5,1,0,2,6})向量(a_0,a₁,…,a_D-1)代表Ω的一个置换：

π = (\begin{matrix} 0 & 1 & . . . & D - 1 \\ a_{0} & a_{1} & . . . & a_{D - 1} \end{matrix})

如果对于数据集X∈Ω且元素x∈X，存在一个排列π，使得

\Pr (\min {π (X)} = π (x)) = \frac{1}{| X |}

则π为一个随机minwise排列。换句话说，数据集X中的任意一个元素x在随机置换π下都有相同的概率是这个置换后的最小值。这样，通过k个独立随机的置换群π₁,π₂,...,π_k，就把集合S_d转换为minwise特征指纹：

{\overset{&OverBar;}{S}}_{d} = (\min {{π}_{1} (S_{d})}, \min {π_{2} (S_{d})}, . . ., \min {π_{k} (S_{d})}) .

步骤4：基于文档的minwise指纹，计算两个文档的相似度a，所述两个文档的相似度a满足使得似然函数取得最大值，即满足：

k_{=} \frac{f_{1} + f_{2}}{a} - k_{<} \frac{f_{2}}{f_{1} - a} - k_{>} \frac{f_{1}}{f_{2} - a} = 0

当z₁＝z₂时的概率值为Pr_＝，

\Pr_{=} = \Pr (z_{1} = z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) = \min (π_{j} (S_{2}))} = \frac{a}{f_{1} + f_{2} - a};

当z₁>z₂时的概率值为Pr_>，

\Pr_{>} = \Pr (z_{1} > z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) > \min (π_{j} (S_{2}))} = \frac{f_{1} - a}{f_{1} + f_{2} - a};

当z₁<z₂时的概率值为Pr_<：

\Pr_{<} = \Pr (z_{1} < z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) < \min (π_{j} (S_{2}))} = \frac{f_{1} - a}{f_{1} + f_{2} - a};

z_1,j＝min{π_j(S₁)}，z_2,j＝min{π_j(S₂)}分别为随机置换群π作用在文档对应的数值集合S₁和S₂上，在第j次随机置换的最小值。

【由于，

\Pr_{=} = \Pr (z_{1} = z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) = \min (π_{j} (S_{2}))} = \frac{a}{f_{1} + f_{2} - a},

\Pr_{>} = \Pr (z_{1} > z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) > \min (π_{j} (S_{2}))} = \frac{f_{1} - a}{f_{1} + f_{2} - a},

\Pr_{<} = \Pr (z_{1} < z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) < \min (π_{j} (S_{2}))} = \frac{f_{1} - a}{f_{1} + f_{2} - a},

这三个公式中的a的求解可以分别通过k_＝、k_>、k_<来估计：

{\hat{a}}_{=} = \frac{(f_{1} + f_{2}) k_{=}}{k + k_{=}}, {\hat{a}}_{<} = f_{1} - f_{2} \frac{k_{<}}{k - k_{<}}, {\hat{a}}_{>} = f_{2} - f_{1} \frac{k_{>}}{k - k_{>}}

当文本大小f₁≈f₂时，取估计量的方差最小，相似度估计精度最高；当文本大小f₁>>f₂≈a时，取估计量的方差最小，相似度估计精度最高；当a≈f₁<<f₂时，取估计量的方差最小，相似度估计精度最高。但由于估计量a是未知量，因此事先不可能知道取值范围，故使用极大似然估计结合两者比对的三者情况来估计交集a，是最折中、平均精度最好的方法，因此，利用极大似然函数

l (a) = \log ({\Pr_{=}}^{k_{=}} \cdot {\Pr_{<}}^{k_{<}} \cdot {\Pr_{>}}^{k_{>}}) = k_{=} \log \Pr_{=} + k_{<} \log \Pr_{<} + k_{>} \log \Pr_{>},

当l(a)取得最大值时，所求得的a即为所需的文档相似度。

例如S₁＝{专利申|请须知}，S₂＝{专利申|请日期}，那么集合中元素的数量为2，所以f₁＝|S₁|＝2，f₂＝|S₂|＝2。

S₁的minwise指纹集合为{1,2,3,5,6}，S₂的minwise指纹集合为{1,3,2,4,6}，对应位置数值比较结果有k_＝＝2，k_>＝2，k_<＝1，所以有

假设全集Ω＝{0,1,2,3,4,5,6,7}(包含了S₁，S₂的所有元素)，现在有两个文档被Robin函数映射为：S₁＝{1,2,4}，S₂＝{1,4,3,6}，有相似度

取k＝6，对两个文档进行6次随机排列，取全集的六次随机排列π₁，π₂，π₃，π₄，π₅，π₆为：

π_{1} = (\begin{matrix} 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 \\ 2 & 3 & 0 & 4 & 6 & 7 & 1 & 5 \end{matrix}), π_{2} = (\begin{matrix} 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 \\ 1 & 6 & 5 & 7 & 2 & 0 & 4 & 3 \end{matrix})

π_{3} = (\begin{matrix} 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 \\ 5 & 1 & 7 & 2 & 6 & 3 & 4 & 0 \end{matrix}), π_{4} = (\begin{matrix} 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 \\ 7 & 1 & 5 & 4 & 3 & 2 & 6 & 0 \end{matrix})

π_{5} = (\begin{matrix} 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 \\ 3 & 7 & 6 & 0 & 4 & 5 & 1 & 5 \end{matrix}), π_{6} = (\begin{matrix} 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 \\ 4 & 1 & 5 & 0 & 3 & 6 & 7 & 2 \end{matrix})

通过π₁，π₂，π₃，π₄，π₅，π₆对S₁映射后为(全集是按从小到大排列的，S₁选取全集对应1,2,4位置的随机排列行数值元素，作为一次随机排列集合)：π₁(S₁)＝{3，0，6}，π₂(S₁)＝{6，5，2}，π₃(S₁)＝{1，7，6}，π₄(S₁)＝{1，5，3}，π₅(S₁)＝{7，6，4}，π₆(S₁)＝{1，5，3}；

取6个随机排列集合中各自的最小值组成文档1的minwise指纹(指纹不同于集合，它由经过minwise哈希算法处理得到的数值组成，可以有重复的数值。从第一个数值到最后一个数值，位置是固定的。在指纹比对中，只对比同一位置的数值。指纹中数值越多估计相似度的精度越高，这是由随机排列次数k决定的)：

\overset{&OverBar;}{S_{1}} = (\min {π_{1} (S_{1})}, \min {π_{2} (S_{1})}, . . ., \min {π_{6} (S_{1})} = (0,2,1,1,4,1)

这个minwise指纹，用来表征S₁整篇文档(指纹中的每一个数值不再对应单个词，而是对应整篇文档)。

通过π₁，π₂，π₃，π₄，π₅，π₆对S₁映射后为(全集的按从小到大排列，S₁选取全集对应1,3,3,6位置的随机排列行数值元素，作为一次随机排列集合)：π₁(S₁)＝{3，4，6，1}，π₂(S₁)＝{6，5，4，2}，π₃(S₁)＝{1，7，5，6}，π₄(S₁)＝{1，4，5，3}，π₅(S₁)＝{7，6，0，4}，π₆(S₁)＝{1，0，5，3}；

取6次随机排列集合中的最小值组成文档1的minwise指纹：

\overset{&OverBar;}{S_{2}} = (\min {π_{1} (S_{2})}, \min {π_{2} (S_{2})}, . . ., \min {π_{6} (S_{2})} = (1,2,1,1, 0, 0) .

这个minwise指纹，用来表征S₂整篇文档

比较同一位置的minwise值，则基于minwise方法求取两篇文档的相似度如下：

{\hat{R}}_{M} = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) = \min (π_{j} (S_{2}))} = \frac{3}{6} = 0.5

R(1,2)与相差0.1，这是因为在实际系统中，k的取值在500到1000之间，精度才能达到要求，例子中k＝6，只是为了进行说明，如果相似度恰好相等，或接近也只是巧合。

接着再按照本发明所述的基于极大似然的方法来确定两篇文档的相似度：

已知实例1中的两个minwise值集合长度为f₁＝3，f₂＝4，求解k_＝，k_>，k_<，并利用极大似然方法求解交集a_MLE

1)k_＝的求解

实例1中的S₁和S₂的minwise指纹对应位置数值有：

min{π₂(S₁)}＝2＝min{π₂(S₂)}＝2,

min{π₃(S₁)}＝1＝min{π₃(S₂)}＝1,

min{π₄(S₁)}＝1＝min{π₄(S₂)}＝1

所以k_＝＝3

2)k_>的求解

实例1中的S₁和S₂的minwise指纹对应位置数值有：

min{π₅(S₁)}＝4>min{π₅(S₂)}＝0,，

min{π₆(S₁)}＝1>min{π₆(S₂)}＝0

所以k_>＝2

3)k_<的求解

实例1中的S₁和S₂的minwise指纹对应位置数值有：

min{π₁(S₁)}＝0<min{π₁(S₂)}＝1

k_<＝1

4)二者极大似然估计子a_MLE(由极大似然方法得到的二者交集)的求解。

将实例1中的f₁＝6，f₂＝6以及k_＝＝3，k_>＝2，k_<＝1代入公式有：

k_{=} \frac{f_{1} + f_{2}}{a} - k_{<} \frac{f_{2}}{f_{1} - a} - k_{>} \frac{f_{1}}{f_{2} - a} = 3 \frac{6 + 6}{a} - 1 \frac{6}{6 - a} - 2 \frac{6}{6 - a} = 0

得到一元二次方程7a²-40a+54＝0，得到两个解a₁＝2.19，a₂＝3.53(舍去)。因为a₂>f₁，但是交集不可能大于集合，所以由本发明所述的极大似然方法解得二者交集a_MLE＝2.19，所以二者的极大似然相似度

R_{MLE} = \frac{a_{MLE}}{f_{1} + f_{2} - MLE} = 0.455 .

实例2：

3个文档的极大似然相似度确定：

在实例1的基础上，增加文档S₃＝{1,3,4,5}，利用现有技术方法中得到的三者相似度为：

R (1,2,3) = \frac{| S_{1} \cap S_{2} \cap S_{3} |}{| S_{1} \cup S_{2} \cup S_{3} |} = \frac{a}{f_{1} + f_{2} + f_{3} - a_{1,2} - a_{1,3} - a_{2,3} + a} = \frac{2}{3 + 4 + 4 - 2 - 2 - 3 + 2} = 0.333

S₃的minwise指纹为：

\overset{&OverBar;}{S_{3}} = (\min {π_{1} (S_{3})}, \min {π_{2} (S_{3})}, . . ., \min {π_{6} (S_{3})} = (3, 0, 1,1, 0, 0)

1)minwise三者相似度求解

min(π₃(S₁))＝min(π₃(S₂))＝min(π₃(S₃))＝1,

min(π₄(S₁))＝min(π₄(S₂))＝min(π₄(S₃))＝1

代入公式(10)

\begin{matrix} {\hat{R}}_{M} (1,2,3) = \Pr (\min {π (S_{1})} = \min {π (S_{2})} = \min {π (S_{3})} \\ = \frac{1}{k} Σ_{i = 1}^{k} 1 {\min (π_{1} (S_{1})) = \min (π_{i} (S_{2})) = \min (π_{i} (S_{3}))} = \frac{2}{6} = 0.333 \end{matrix}

2)通过比较和对应位置数值的大小，结合步骤三中k₀，k₁，k₂，k₃，k₄，k₅，k₆的限定条件，来求解它们的值。

k₀的限定条件，k₀＝|{z_1,j＝z_2,j＝z_3,j,j＝1,..,k}|

min(π₃(S₁))＝min(π₃(S₂))＝min(π₃(S₃))＝1,

因为min(π₄(S₁))＝min(π₄(S₂))＝min(π₄(S₃))＝1

所以k₀＝2，

k₁的限定条件，k₁＝|{z_1,j<z_2,j,z_1,j<z_3,j,z_2,j≠z_3,j,j＝1,..,k}|

min(π₁(S₁))＝0<min(π₁(S₂))＝1,

min(π₁(S₁))＝0<min(π₁(S₃))＝3,

min(π₁(S₃))≠min(π₁(S₂))

所以k₁＝1；

k₂的限定条件,k₂＝|{z_2,j<z_1,j,z_2,j<z_3,j,z_1,j≠z_3,j,j＝1,..,k}|

因为没有数值满足，所以k₂＝0；

因为没有数值满足k₃的限定条件，k₃＝|{z_3,j<z_1,j,z_3,j<z_2,j,z_1,j≠z_2,j,j＝1,..,k}|

因为没有数值满足，所以k₃＝0；

k₄的限定条件，k₄＝|{z_1,j≠z_2,j＝z_3,j,j＝1,...,k}|，

min(π₅(S₁))＝4≠min(π₅(S₂))＝0,

min(π₅(S₂))＝0min(π₅(S₃))＝0；

因为min(π₆(S₁))＝1≠min(π₆(S₂))＝0,

min(π₆(S₂))＝0min(π₆(S₃))＝0

所以k₄＝2；

k₅的限定条件，k₅＝|{z_2,j≠z_1,j＝z_3,j,j＝1,..,k}|，

因为没有数值满足，所以k₅＝0；

k₆的限定条件，k₆＝|{z_3,j≠z_1,j＝z_2,j,j＝1,..,k}|；

因为没有数值满足，所以k₆＝0；

3)求解三者的极大似然估计子a_MLE

易得和之间的交集大小：a₁₂＝2、a₁₃＝2、a₂₃＝3、a₁₂₃＝2，又已经解出k₀，k₁，k₂，k₃，k₄，k₅，k₆的数值大小，T＝(f₁+f₂+f₃-a₁₂-a₁₃-a₂₃)＝4代入以下公式：

k_{0} \frac{T}{a} + k_{1} \frac{T + a_{23}}{a - a_{23}} + k_{2} \frac{T + a_{13}}{a - a_{13}} + k_{3} \frac{T + a_{12}}{a - a_{12}} + k_{4} \frac{T - f_{1} + a_{12} + a_{13}}{f_{1} - a_{12} - a_{13} + a} + k_{5} \frac{T - f_{2} + a_{12} + a_{23}}{f_{2} - a_{12} - a_{23} + a} + k_{6} \frac{T - f_{3} + a_{13} + a_{23}}{f_{3} - a_{13} - a_{23} + a} = 0

可得：一元二次方程25a²-69a+24＝0；解a₁＝2.35,a₂＝0.41。因为交集不可能小于1，故舍去)，因此，解得由极大似然方法求得三者交集a_MLE＝2.3。

故利用本发明所述的极大似然解得的相似度：

R_{MLE} = \frac{a_{MLE}}{f_{1} + f_{2} + f_{3} - a_{1,2} - a_{1,3} - a_{2,3} + a_{MLE}} = \frac{2.35}{6.35} = 0.37

实际上对文本随机排列的次数k取值在500到1000之间，相似度估计才能取得较高的精度，以上的例子只是为了说明，极大似然估计方法的使用原理，具体的实验结果在图3中，得到说明。

以某基金的申报项目为数据来源，对10万文档对和10万文档三元组进行了估计量的相似性度量实验，其中，极大似然相似度定义R₀为相似度阈值，定义准确率和召回率：

通过准确率和召回率的计算公式，测得在相似度R≥R₀的二者、三者估计的准确率和召回率如图3所示。

图3显示召回率曲线几乎没有区别，准确率却有一定的差别，图中，Mle表示本发明所述的基于极大似然的确定相似度方法，Minwise表示现有技术中的Minwise文本相似度确定方法，数字2和3分别表示两篇文档和三篇文档。

由图3的准确率曲线可以得出以下结论：

1)随着样本大小k的增大，准确度和召回率都随之增大，这说明当k越大时，极大似然估计的方差是减小的，估计值和真实值就会越来越接近，估计也就越准。

2)在相同的k、R₀下，极大似然估计的精度是高于Minwise估计。例如当R₀＝0.5，k＝300时，

Pre ({\hat{R}}_{Mle, 2}) = 80 % > Pre ({\hat{R}}_{Minwise, 2}) = 70 %, Pre ({\hat{R}}_{Mle, 3}) = 79 % > Pre ({\hat{R}}_{Minwise, 3}) = 65 % .

3)在相同的k、R₀下，三者极大似然估计的准确率提升幅度高于二者的提升幅度。例如当R₀＝0.5，k＝300时，

Pre ({\hat{R}}_{Mle, 3}) = Pre ({\hat{R}}_{Minwise, 3}) = 79 % - 65 % = 14 %,

Pre ({\hat{R}}_{Mle, 2}) - Pre ({\hat{R}}_{Minwise, 2}) = 80 % - 70 % = 10 %,

准确率提升了14％高于二者的10％。

所述Pre()表示准确率。

其原因在于：三者相似性度量时会出现7种概率事件，如图2所示，而Minwise估计只使用了其中的1种概率事件(z₁＝z₂＝z₃)用来估计相似性。二者相似性度量时会出现3种概率事件，如图1所示，同样的Minwise估计只使用了其中的1种概率事件(z₁＝z₂)。极大似然估计的实质是结合所有概率事件形成的估计值，三者极大似然估计结合的概率事件有7种，二者极大似然估计结合了3种。假设每种的概率相等，从比重上来看，三者的Minwise估计只使用了1/7的总概率事件，而二者的Minwise估计只使用了1/3的总概率事件，因此，在失准的程度上，三者的Minwise估计要高于二者的Minwise估计。因此当采用了极大似然估计后，三者极大似然估计的准确率提升幅度高于二者的提升幅度。

因此，在文档大小未知，以及文档之间交集未知的情况下，利用本发明所述的极大似然估计的方差平均最小，因此所得到的文档间的相似度平均精度高于现有技术中的Minwise估计方法。

Claims

1.一种基于极大似然估计确定文档相似度的方法，其特征在于，包括以下几个步骤：

步骤1：提取文档的文本特征，获得文本特征集合S_shgs；

步骤3：文档对应的数值集合S_d采用minwise指纹表征：

{\overset{&OverBar;}{S}}_{d} = (\min {π_{1} (S_{d})}, \min {π_{2} (S_{d})}, . . ., \min {π_{k} (S_{d})});

k_{=} \frac{f_{1} + f_{2}}{a} - k_{<} \frac{f_{2}}{f_{1} - a} - k_{>} \frac{f_{1}}{f_{2} - a} = 0

当z₁＝z₂时的概率值为Pr_＝，

\Pr_{=} = \Pr (z_{1} = z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) = \min (π_{j} (S_{2}))} = \frac{a}{f_{1} + f_{2} - a};

当z₁>z₂时的概率值为Pr_>，

\Pr_{>} = \Pr (z_{1} > z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) > \min (π_{j} (S_{2}))} = \frac{f_{1} - a}{f_{1} + f_{2} - a};

当z₁<z₂时的概率值为Pr_<：

\Pr_{<} = \Pr (z_{1} < z_{2}) = \frac{1}{k} Σ_{j = 1}^{k} 1 {\min (π_{j} (S_{1})) < \min (π_{j} (S_{2}))} = \frac{f_{1} - a}{f_{1} + f_{2} - a};

步骤5：两篇文档的极大似然相似度为R_MLE：

2.根据权利要求1所述的一种基于极大似然估计确定文档相似度的方法，其特征在于，通过上述方法所求得的解中，若包含两个或两个以上的有效解，取最接近最小文档长度的解作为文档相似度a的值。

3.根据权利要求2所述的一种基于极大似然估计确定文档相似度的方法，其特征在于，所述文本特征集合S_shgs，是利用中文分词算法对文档进行分词，利用停用词表过滤掉文本噪音数据后的分词集合。

4.根据权利要求3所述的一种基于极大似然估计确定文档相似度的方法，其特征在于，所述对文本特征集合进行数值映射，得到文档对应的数值集合S_d的具体过程是指，对词集S_shgs中的每个分词采用Rabin函数，词映射为N位的二进制数；

所述N为计算机进行数据处理的最大数据位数。

5.根据权利要求1-4任一项所述的一种基于极大似然估计确定文档相似度的方法，其特征在于，确定三个文档间的相似度R_MLE时，其中，三个文档间的交集a满足使得似然函数取得最大值，即满足：

k_{0} \frac{T}{a} + k_{1} \frac{T + a_{23}}{a - a_{23}} + k_{2} \frac{T + a_{13}}{a - a_{13}} + k_{3} \frac{T + a_{12}}{a - a_{12}} + k_{4} \frac{T - f_{1} + a_{12} + a_{13}}{f_{1} - a_{12} - a_{13} + a} + k_{5} \frac{T - f_{2} + a_{12} + a_{23}}{f_{2} - a_{12} - a_{23} + a} + k_{6} \frac{T - f_{3} + a_{13} + a_{23}}{f_{3} - a_{13} - a_{23} + a} = 0

对上式求解时，所得解需满足以下条件：

其中，三者minwise指纹比对所有事件发生的概率公式如下：

\Pr_{0} = \Pr (z_{1} = z_{2} = z_{3}) = \frac{a}{T + a},

\Pr_{1} = \Pr (z_{1} < z_{2}, z_{1} < z_{3}, z_{2} &NotEqual; z_{3}) = \frac{f_{1} - a_{12} - a_{13} + a}{T + a};

\Pr_{2} = \Pr (z_{2} < z_{1}, z_{2} < z_{3}, z_{1} &NotEqual; z_{3}) = \frac{f_{2} - a_{12} - a_{23} + a}{T + a},

\Pr_{3} = \Pr (z_{3} < z_{1}, z_{3} < z_{2}, z_{1} &NotEqual; z_{2}) = \frac{f_{3} - a_{13} - a_{23} + a}{T + a};

\Pr_{4} = \Pr (z_{1} &NotEqual; z_{2} = z_{3}) = \frac{a_{23} - a}{T + a},

\Pr_{5} = \Pr (z_{2} &NotEqual; z_{1} = z_{3}) = \frac{a_{13} - a}{T + a},

\Pr_{6} = \Pr (z_{3} &NotEqual; z_{1} = z_{2}) = \frac{a_{12} - a}{T + a};

k₀为k次随机排列中三个文本对应的minwise指纹相等的次数：

k₀＝|{z_1,j＝z_2,j＝z_3,j,j＝1,..,k}|；

k₄＝|{z_1,j≠z_2,j＝z_3,j,j＝1,...,k}|；

k₅＝|{z_2,j≠z_1,j＝z_3,j,j＝1,..,k}|；

k₆＝|{z_3,j≠z_1,j＝z_2,j,j＝1,..,k}|；

a_1,2＝|S₁∩S₂|,a_1,3＝|S₁∩S₃|,a_2,3＝|S₂∩S₃|,a_1,3＝|S₁∩S₃|，分别表示两两文档间的交集，按照权利要求1所述方法计算获得。