CN102651034B

CN102651034B - 一种基于核函数的文档相似检测方法

Info

Publication number: CN102651034B
Application number: CN2012101059427A
Authority: CN
Inventors: 王秀红; 鞠时光
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2012-04-11
Filing date: 2012-04-11
Publication date: 2013-11-20
Anticipated expiration: 2032-04-11
Also published as: CN102651034A

Abstract

本发明公开了一种基于核函数的文档相似检测方法，它属于信息检索技术领域，主要解决文本检索的综合评价效果不好的问题。其步骤为：1建文档集合即文集，其词项组成的集合构成词典，大小为N；2将待比对的文档dX和dZ表示成文本向量

和

；3通过两文本向量间的乘积和欧氏距离来描述二者的相似程度，构造了适合文档相似检测的新的S_Wang核函数，式中σ(σ>0)为宽度参数，用来控制函数的径向作用范围，调节由于词语不同导致两篇文档距离对相似度的影响程度；4通过构造的该核函数完成文档相似检测的任务。该方法具有检测精准率、招回率高和综合表现好的优点，可用于文本的相似度计算、文本分类、文本信息过滤、模式识别与人工智能。

Description

一种基于核函数的文档相似检测方法

技术领域

本发明涉及到信息检索领域，具体说是将本发明构造的S_Wang核函数用于文档相似检测的方法。

背景技术

核方法的思想是将在低维空间中一个非线性可分的问题，向高维空间转化，即映射到高维空间，使其在高维空间中变得线性可分，然后在特征空间中使用线性学习机建立优化超平面，利用高维特征空间中的内积来对低维空间的问题进行分类，从而解决问题。而转化最关键的部分在于找到输入空间中的x到高维空间中的φ(x)的映射方法，如何找到这个映射φ没有系统的方法。事实上，该映射函数往往不易找到，且不一定能显式表达。这个办法带来的困难就是计算复杂度的增加，且直接在这个特征空间作内积计算会面临一个维数灾难问题。核函数的基本作用就是接受两个低维空间里的向量输入值x和z，能够计算出经过某个变换后在高维空间里的向量内积值，实现将低维空间的数据代入该函数之后即可算出高维空间中的内积，从而无需寻找那个从低维空间到高维空间的具体映射。核函数的应用很好地解决了计算复杂度和维数灾难问题。

关于核函数的描述如下；设x和z∈X，X属于R(n)空间，非线性函数Φ实现输入空间X到特征空间H(内积空间或Hilbert空间：H，<·，·>)的映射(Φ：X→H)，其中H属于R(m)，n＜＜m。根据核函数技术有：

k(x，z)＝<φ(x)，φ(z)> (1)

其中：<，>为内积，k(x，z)为核函数。

针对具体的问题，构造适合该问题的核函数是解决该领域具体非线性分类问题的关键所在，具有非常重要的意义。关于核函数的构造目前没有统一的方法。根据泛函的有关理论，只要一种核函数k满足Mercer条件，它就对应某一变换空间中的内积，满足Mercer条件的任意对称函数，都可以作为核函数。

文档相似检测本质上是计算两篇文档的相似程度。每一个文档均可表示成一个向量，文档相似检测问题就转化为计算两个输入向量的相似度的问题。两篇文档相似与不相似是一个在低维空间中非线性可分的问题。将该低维空间中线性不可分的问题映射到高维空间，通过映射函数在高维特征空间的内积来计算两个输入数据之间的距离(即相似性)。

现有的关于文本处理的核方法主要有将文本视为概念体集合(set ofconcepts)的核，如潜在语义核(Latent Semantic Kernel，简称为LSK)[Dristianini N，Shawe-Taylor J，Lodhi H.Latent semantic kernels[J].Journal of Intelligent Information Systems，2002，18(2-3)：127-152.]，考虑了词间的潜在语义关系，虽然相似检测的招回率很高，但检测的精准率很低，导致相似检测的综合表现不高。将文本视为词包或词袋(bag of words)的核，如点积或多项式核(dot product or polynomial kernels)等。词袋核基于词的独立性假设，相似检测的招回率不高；多项式核当阶数大于2时会出现不平衡特征项，且其相似计算的精准率和招回率均不高。Cauchy核来自于Cauchy分布(Basak，2008)，具有形式

K (x, z) = \frac{1}{1 + \frac{{| | x - z | |}^{2}}{σ}},

其在进行文档相似检测时的精准率和招回率较差。方差分析(ANOVA)核(r阶)确定的特征集是所有r阶1次幂单项式构成，不存在不平衡特征项和过学习现象，但其相似检测的精准率和招回率也不太高。CLA复合核[王秀红，鞠时光.基于混合核函数的分布式信息检索结果融合[J].通信学报，2011，32(4)：112-118，125.]虽然与潜在语义核和ANOVA核相比在相似检测的精准率和招回率上有所改进，但相似检测的精准率、招回率和综合表现仍有待提高。

发明内容

本发明的目的在于针对文档相似检测招回率、精准率不高、综合评价表现差的缺陷，克服上述已有技术的不足，提出了一种新的核函数用以进行文档相似检测，以提高文档相似检测的精准率和综合评价表现，从而更有效地进行文档相似检测。

实现本发明的技术方案包括如下步骤：

1.输入及预处理步骤：构造文档集合，即文集，文集中所有的词项组成的集合为词典，大小为N；将待比对的文档dX和dZ经过特征映射后进行向量表示成文本向量x和z；

2.核函数构造步骤：结合文档相似检测过程中的具体实际，通过两文本向量间的乘积和欧氏距离来描述二者的相似程度，从而构造适合文档相似检测的新的S_Wang核函数

k (x, z) = \frac{x^{T} z}{x^{T} z + \frac{{| | x - z | |}^{2}}{σ}};

3.相似计算步骤：通过构造的核函数计算文本的相似度，从而进行文档相似检测。

关于本发明的核函数构造，其具体步骤如下：

2a)当词典中某一词t_i在某一篇文档中未出现，即对应的向量维数位置值为0，则认为该词对两篇文档相似的贡献值为0，如果待比对的两篇文档没有共同的词，则认为该两篇文档的相似度为0，于是考虑利用两个行向量对应维数相乘xz^T的形式来计算其相似度，作为构造的核函数的分子；

2b)当某一词t_i在两篇待比对的文档中词频统计结果差值|tf(t_i，x)-tf(t_i，z)|越大，表明两篇文档越不相似，该词t_i使相似程度的计算结果越小，用||x-z||²表明两篇文档之间由于词语不同产生的欧氏距离，且将其置于构造的核函数的分母上；

2c)当两篇文档dX和dZ完全相同，则有x＝z，此时有||x-z||＝0，且有xz^T＝1；当两篇文档完全相同的时候其相似度计算值应为1，于是考虑构造的核函数的分母形式为xz^T+||x-z||²；

2d)用宽度参数σ(σ＞0)来控制函数的径向作用范围，调节由于词语不同导致两篇文档距离对相似度的影响程度。

所述的输入及预处理步骤中的特征映射为φ₁

φ₁：x→φ₁(x)＝(tf(t₁，x)，tf(t₂，x)，...，tf(t_N，x))∈R^N，

φ₁：z→φ₁(z)＝(tf(t₁，z)，tf(t₂，z)，...，tf(t_N，z))∈R^N。

当考虑词的潜在语义关系时，所述的输入及预处理步骤中的特征映射为φ₂

φ₂：x→φ₂(x)＝(ω(t₁)tf(t₁，x)，ω(t₂)tf(t₂，x)，...，ω(t_N)tf(t_N，x))∈R^N，

φ₂：z→φ₂(z)＝(ω(t₁)tf(t₁，z)，ω(t₂)tf(t₂，z)，...，ω(t_N)tf(t_N，z))∈R^N，

式中w(t_i)为词t_i的衡量词的权重的绝对尺度，w(t_i)具有形式

其中l为文集中存在的文档个数，df(t_i)是包含词t_i的文档个数；tf(t_i，x)是词典中的第i个词t_i在文档dX中出现的频率，tf(t_i，z)是第i个词t_i在文档dZ中出现的频率，其中i＝1，2，...，N。

以下是理论证明构建的函数可以作为核函数。

统计学习的理论指出，根据Hilbert-Schmidt原理，只要一种运算满足Mercer条件，则可作为变换空间的内积使用，即可作为核函数。

引理(Mercer定理)：令X是Rⁿ上的一个紧集，k(x，z)是X×X上连续实值对称函数。则有：

\underset{X \times X}{&Integral; &Integral;} k (x, z) f (x) f (z) dxdz &GreaterEqual; 0, &ForAll; f &Element; L_{2} (x) - - - (2)

(称此为Mercer条件)。

(2)式等价于k(x，z)是一个核函数即k(x，z)＝(φ(x)·φ(z))，x，z∈X其中φ为某个从X到Hilbert空间H的映射φ：|→φ(x)∈H，(·)是Hilbert空间L₂上的内积。下面证明所构建的函数可以作为核函数(满足Mercer条件)。

1)令k₁(x，z)＝x^Tz，

k_{2} (x, z) = \frac{{| | x - z | |}^{2}}{σ}

则S_Wang核可改写为

k (x, z) = \frac{k_{1} (x, z)}{k_{1} (x, z) + k_{2} (x, z)} - - - (3)

2)显然k₁(x，z)＝x^Tz是线性核函数，它满足当X是Rⁿ上的一个紧集时，k₁(x，z)是X×X上为连续实值对称函数，因文档向量x和z所有元素值均为非负，所以k₁(x，z)为非负；

3)

(σ＞0)是Homogeneous kernels(RBF)径向基核函数，只依赖于距离的大小。它满足当X是Rⁿ上的一个紧集时，k₂(x，z)是X×X上为连续实值对称函数，且因σ＞0所以函数为非负。

4)当x-z为0，即两篇文档x和z完全相同时，k₂(x，z)＝0，而此时必然有k₁(x，z)＝x^Tz＝1≠0。当两篇文档完全不同时，k₂(x，z)＝1，而此时必然有k₁(x，z)＝x^Tz＝0。可见(3)式分母不可能为0。

综上所述，当X是Rⁿ上的一个紧集时，

k (x, z) = \frac{x^{T} z}{x^{T} z + \frac{{| | x - z | |}^{2}}{σ}}

是X×X上为连续实值对称函数，且为非负。则由Mercer定理可推出

\underset{X \times X}{&Integral; &Integral;} k (x, z) f (x) f (z) dxdz &GreaterEqual; 0, &ForAll; f &Element; L_{2} .

于是有所构造的k(x，z)可以作为核函数，即k(x，z)＝(φ(x)·φ(z))，x，z∈X。

证毕。

本发明由于构造了适于文本相似比对的S_Wang核函数，实现对文档的相似检测，提高了相似检测的精准率、招回率和综合评价表现。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是基于核函数的文档相似检测流程图。

图2是不同核函数进行相似检测时在不同的文档水平上的精准率表现图。

图3是四种核函数在8个文档水平上的平均表现图。

图2中，Precision为相似计算的精准率，Document level为文档水平；CauchyKernel为Cauchy核，LSK代表潜在语义核，CLAKernel表示CLA核，S_WangKernel表示本发明新构造的核函数。

图3中，avg.P为在8个文档水平上平均后得平均精准率，avg.R为在8个文档水平上平均招回率，avg.F₁为在8个文档水平上的平均综合表现；Cauchy Kernel为Cauchy核，LSK代表潜在语义核，CLA Kernel表示CLA核，S_Wang Kernel表示本发明新构造的核函数。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，结合附图及实施例，对本发明进行进一步详细说明。此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图中1所示的基于核函数的文档相似检测流程图，本发明包括

(1)输入及预处理步骤

需比对相似度的两篇文档为dX和dZ，统计词后具有如下内容如表1所示。

dX

A

B

C

F

P

M

B

dZ

B

C

D

G

L

D

有10篇文档构成一个文集，该文集中所有的概念词项由A，B，C，D，E，F，G，H，I，J，K，L，M，N，O，P构成字典，字典大小N＝16。则在映射φ₁下将待比对的两篇文本文档表示为向量x和z为：

词项	t₁	t₂	t₃	t₄	t₅	t₆	t₇	t₈	t₉	t₁₀	t₁₁	t₁₂	t₁₃	t₁₄	t₁₅	t₁₆
																	词典(N)	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O	P
tf(t_i，x)	1	2	1	0	0	1	0	0	0	0	0	0	1	0	0	1
																	tf(t_i，z)	0	1	1	2	0	0	1	0	0	0	0	1	0	0	0	0

考虑词间的潜在语义关系，将待比对的文档dX和dZ经过特征映射后表示成向量x和z，其中

φ₁：x→φ₁(x)＝(tf(t₁，x)，tf(t₂，x)，...，tf(t_N，x))∈R^N

φ₁：z→φ₁(z)＝(tf(t₁，z)，tf(t₂，z)，...，tf(t_N，z))∈R^N

tf(t_i，x)是词典中的第i个词t_i在文档dX中出现的频率，tf(t_i，z)是第i个词

t_i在文档dZ中出现的频率，其中i＝1，2，...，16。

文本文档dX和dZ向量表示后分别为：x＝(1210010000001001)和z＝(0112001000010000)。

(2)核函数构造步骤

2a)词典中D、G和L三个词在文档dX中未出现，其对应的向量维数位置值为0；词典中A、M和P三个词在文档dZ中未出现，其对应的向量维数位置值为0；A、G、L、M和P对两篇文档相似的贡献值为0；如果待比对的两篇文档没有共同的词，则认为该两篇文档的相似度为0。用两个行向量对应维数相乘xz^T的形式来计算其相似度，作为构造的核函数的分子；

2b)词t₄即D在两篇待比对的文档中词频统计结果差值大|2-0|＝2、其它词A、B、F、G、L、M和P在两篇待比对的文档中词频统计结果差值为1，词C在两篇文档中同时都出现了1次，其词频统计结果差值为0。词频统计结果差值|tf(t_i，x)-tf(t_i，z)|越大，表明两篇文档越不相似；|tf(t₄，x)-tf(t₄，z)|最大，词t₄最能使相似程度的计算结果偏小。用||x-z||²表明两篇文档之间由于词语不同产生的欧氏距离，且将其置于构造的核函数的分母上

2d)用宽度参数σ(σ＞0)来控制函数的径向作用范围，调节由于词语不同导致两篇文档距离对相似度的影响程度，此处取σ＝1。

得构造的S_Wang核函数为

k (x, z) = \frac{x^{T} z}{x^{T} z + {| | x - z | |}^{2}},

该例中相似度计算值为

k (x, z) = \frac{x^{T} z}{x^{T} z + {| | x - z | |}^{2}} = \frac{3}{3 + 11} \approx 21.43 % .

(3)相似计算步骤

通过构造的核函数计算文本的相似度，从而进行文档相似检测。

采用50个TREC ad hoc主题(251-300)l₀个文档，包括AP88，CR93，FR94，FT91-94，WSJ90-92以及ZF等中的文档构成文集，文集中的词构成的字典大小为N₀。

考虑到词的潜在语义关系，实验中从文本到向量的的变换采用如下映射：

式中w(t_i)为词t_i的衡量词的权重的绝对尺度，具有形式

df(t_i)是包含词t_i的文档个数；tf(t_i，x)是词典中的第i个词t_i在文档dX中出现的频率，tf(t_i，z)是第i个词t_i在文档dZ中出现的频率，其中i＝1，2，...，N₀。

对文集进行了随机划分，训练/测试的数据比例是3∶1，线性学习器采用LibSVM。评估了4种核函数，包括潜在语义核(LSK)、Cauchy核(Cauchy Kernel)、CLA复合核(CLA Kernel)以及本发明提出的S_Wang核函数(S_Wang Kernel)。实验是在8个文档水平(top 5，top 10，top 15，top 20，top 25，top 30，top 50，top 100)上进行。这里所说的文档水平是指经过融合排序后的结果，称排在最前面的n个文档(top n)为一个文档水平作为实验验证有效性的对象。

实验评价指标采用典型的信息检索评价指标：精准率(Precision)、招回率(Recall)和综合评价指标F₁，具体算法为：

精准率

招回率

综合评价指标

F_{β} = \frac{(1 + β^{2}) * P * R}{β^{2} (P + R)}

考虑到结果融合中招回率和精准率同等重要，本实施例中综合评价指标中的参数β取1，得F₁指标。将检索的招回率和精准率视为同等重要，故在CLA核中系数δ₁＝0.5。最终得用不同核函数进行文档相似检测的效果如表1所示。其中P表示相似检测的精准率，R表示相似检测的招回率。

表1利用不同的核函数进行相似检测的精准度、招回率以及F₁实验结果数据表

通过对不同的核函数其相似度计算精准率实验结果进行作图分析，如图2所示。

从图2可以看出8个不同文档水平上进行文本相似度计算的精准率表现表明S_Wang核在top5，top10，top15，top20，top25，top30，top 50以及top100这8个文档水平(Document level)上，其精度分别达到0.3561、0.326、0.304、0.281、0.2645、0.241、0.2093及0.1698，均分别大于其余3个核函数在对应的文档水平上的相似度计算精准率。

分别将4个核函数在相似度计算中的精准率、招回率和综合表现F₁在8个文档水平上平均后得平均精准率avg.P，平均招回率avg.R和平均综合表现avg.F₁比较不同核函数的相似度计算表现，结果如图3所示。

从图3中可以看出，S_Wang核用于文档相似检测时有很好的精准率、较好的招回率以及突出的综合评价表现。S_Wang核的平均召回率为0.8452，虽不及LSK，但均高出Cauchy Kernel(σ＝1)和CLA复合核；S_Wang核在精准率上明显高于其它核方法，其平均精度达0.26896，分别比Cauchy Kernel(σ＝1)高出18.12％，比潜在语义核(LSK)高出43.09％，比CLA复合核高出9.63％。S_Wang核的综合表现F₁优势明显，高达0.4059比Cauchy Kernel(σ＝1)、潜在语义核(LSK)、CLA复合核分别提高了15.54％、29.87％和7.8％。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。