CN102651034B - 一种基于核函数的文档相似检测方法 - Google Patents
一种基于核函数的文档相似检测方法 Download PDFInfo
- Publication number
- CN102651034B CN102651034B CN2012101059427A CN201210105942A CN102651034B CN 102651034 B CN102651034 B CN 102651034B CN 2012101059427 A CN2012101059427 A CN 2012101059427A CN 201210105942 A CN201210105942 A CN 201210105942A CN 102651034 B CN102651034 B CN 102651034B
- Authority
- CN
- China
- Prior art keywords
- document
- similarity
- word
- kernel function
- pieces
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及到信息检索领域,具体说是将本发明构造的S_Wang核函数用于文档相似检测的方法。
背景技术
核方法的思想是将在低维空间中一个非线性可分的问题,向高维空间转化,即映射到高维空间,使其在高维空间中变得线性可分,然后在特征空间中使用线性学习机建立优化超平面,利用高维特征空间中的内积来对低维空间的问题进行分类,从而解决问题。而转化最关键的部分在于找到输入空间中的x到高维空间中的φ(x)的映射方法,如何找到这个映射φ没有系统的方法。事实上,该映射函数往往不易找到,且不一定能显式表达。这个办法带来的困难就是计算复杂度的增加,且直接在这个特征空间作内积计算会面临一个维数灾难问题。核函数的基本作用就是接受两个低维空间里的向量输入值x和z,能够计算出经过某个变换后在高维空间里的向量内积值,实现将低维空间的数据代入该函数之后即可算出高维空间中的内积,从而无需寻找那个从低维空间到高维空间的具体映射。核函数的应用很好地解决了计算复杂度和维数灾难问题。
关于核函数的描述如下;设x和z∈X,X属于R(n)空间,非线性函数Φ实现输入空间X到特征空间H(内积空间或Hilbert空间:H,<·,·>)的映射(Φ:X→H),其中H属于R(m),n<<m。根据核函数技术有:
k(x,z)=<φ(x),φ(z)> (1)
其中:<,>为内积,k(x,z)为核函数。
针对具体的问题,构造适合该问题的核函数是解决该领域具体非线性分类问题的关键所在,具有非常重要的意义。关于核函数的构造目前没有统一的方法。根据泛函的有关理论,只要一种核函数k满足Mercer条件,它就对应某一变换空间中的内积,满足Mercer条件的任意对称函数,都可以作为核函数。
文档相似检测本质上是计算两篇文档的相似程度。每一个文档均可表示成一个向量,文档相似检测问题就转化为计算两个输入向量的相似度的问题。两篇文档相似与不相似是一个在低维空间中非线性可分的问题。将该低维空间中线性不可分的问题映射到高维空间,通过映射函数在高维特征空间的内积来计算两个输入数据之间的距离(即相似性)。
现有的关于文本处理的核方法主要有将文本视为概念体集合(set ofconcepts)的核,如潜在语义核(Latent Semantic Kernel,简称为LSK)[Dristianini N,Shawe-Taylor J,Lodhi H.Latent semantic kernels[J].Journal of Intelligent Information Systems,2002,18(2-3):127-152.],考虑了词间的潜在语义关系,虽然相似检测的招回率很高,但检测的精准率很低,导致相似检测的综合表现不高。将文本视为词包或词袋(bag of words)的核,如点积或多项式核(dot product or polynomial kernels)等。词袋核基于词的独立性假设,相似检测的招回率不高;多项式核当阶数大于2时会出现不平衡特征项,且其相似计算的精准率和招回率均不高。Cauchy核来自于Cauchy分布(Basak,2008),具有形式 其在进行文档相似检测时的精准率和招回率较差。方差分析(ANOVA)核(r阶)确定的特征集是所有r阶1次幂单项式构成,不存在不平衡特征项和过学习现象,但其相似检测的精准率和招回率也不太高。CLA复合核[王秀红,鞠时光.基于混合核函数的分布式信息检索结果融合[J].通信学报,2011,32(4):112-118,125.]虽然与潜在语义核和ANOVA核相比在相似检测的精准率和招回率上有所改进,但相似检测的精准率、招回率和综合表现仍有待提高。
发明内容
本发明的目的在于针对文档相似检测招回率、精准率不高、综合评价表现差的缺陷,克服上述已有技术的不足,提出了一种新的核函数用以进行文档相似检测,以提高文档相似检测的精准率和综合评价表现,从而更有效地进行文档相似检测。
实现本发明的技术方案包括如下步骤:
1.输入及预处理步骤:构造文档集合,即文集,文集中所有的词项组成的集合为词典,大小为N;将待比对的文档dX和dZ经过特征映射后进行向量表示成文本向量x和z;
2.核函数构造步骤:结合文档相似检测过程中的具体实际,通过两文本向量间的乘积和欧氏距离来描述二者的相似程度,从而构造适合文档相似检测的新的S_Wang核函数
3.相似计算步骤:通过构造的核函数计算文本的相似度,从而进行文档相似检测。
关于本发明的核函数构造,其具体步骤如下:
2a)当词典中某一词ti在某一篇文档中未出现,即对应的向量维数位置值为0,则认为该词对两篇文档相似的贡献值为0,如果待比对的两篇文档没有共同的词,则认为该两篇文档的相似度为0,于是考虑利用两个行向量对应维数相乘xzT的形式来计算其相似度,作为构造的核函数的分子;
2b)当某一词ti在两篇待比对的文档中词频统计结果差值|tf(ti,x)-tf(ti,z)|越大,表明两篇文档越不相似,该词ti使相似程度的计算结果越小,用||x-z||2表明两篇文档之间由于词语不同产生的欧氏距离,且将其置于构造的核函数的分母上;
2c)当两篇文档dX和dZ完全相同,则有x=z,此时有||x-z||=0,且有xzT=1;当两篇文档完全相同的时候其相似度计算值应为1,于是考虑构造的核函数的分母形式为xzT+||x-z||2;
2d)用宽度参数σ(σ>0)来控制函数的径向作用范围,调节由于词语不同导致两篇文档距离对相似度的影响程度。
所述的输入及预处理步骤中的特征映射为φ1
φ1:x→φ1(x)=(tf(t1,x),tf(t2,x),...,tf(tN,x))∈RN,
φ1:z→φ1(z)=(tf(t1,z),tf(t2,z),...,tf(tN,z))∈RN。
当考虑词的潜在语义关系时,所述的输入及预处理步骤中的特征映射为φ2
φ2:x→φ2(x)=(ω(t1)tf(t1,x),ω(t2)tf(t2,x),...,ω(tN)tf(tN,x))∈RN,
φ2:z→φ2(z)=(ω(t1)tf(t1,z),ω(t2)tf(t2,z),...,ω(tN)tf(tN,z))∈RN,
式中w(ti)为词ti的衡量词的权重的绝对尺度,w(ti)具有形式
其中l为文集中存在的文档个数,df(ti)是包含词ti的文档个数;tf(ti,x)是词典中的第i个词ti在文档dX中出现的频率,tf(ti,z)是第i个词ti在文档dZ中出现的频率,其中i=1,2,...,N。
以下是理论证明构建的函数可以作为核函数。
统计学习的理论指出,根据Hilbert-Schmidt原理,只要一种运算满足Mercer条件,则可作为变换空间的内积使用,即可作为核函数。
引理(Mercer定理):令X是Rn上的一个紧集,k(x,z)是X×X上连续实值对称函数。则有:
(称此为Mercer条件)。
(2)式等价于k(x,z)是一个核函数即k(x,z)=(φ(x)·φ(z)),x,z∈X其中φ为某个从X到Hilbert空间H的映射φ:|→φ(x)∈H,(·)是Hilbert空间L2上的内积。下面证明所构建的函数可以作为核函数(满足Mercer条件)。
1)令k1(x,z)=xTz, 则S_Wang核可改写为
2)显然k1(x,z)=xTz是线性核函数,它满足当X是Rn上的一个紧集时,k1(x,z)是X×X上为连续实值对称函数,因文档向量x和z所有元素值均为非负,所以k1(x,z)为非负;
3)(σ>0)是Homogeneous kernels(RBF)径向基核函数,只依赖于距离的大小。它满足当X是Rn上的一个紧集时,k2(x,z)是X×X上为连续实值对称函数,且因σ>0所以函数为非负。
4)当x-z为0,即两篇文档x和z完全相同时,k2(x,z)=0,而此时必然有k1(x,z)=xTz=1≠0。当两篇文档完全不同时,k2(x,z)=1,而此时必然有k1(x,z)=xTz=0。可见(3)式分母不可能为0。
综上所述,当X是Rn上的一个紧集时, 是X×X上为连续实值对称函数,且为非负。则由Mercer定理可推出 于是有所构造的k(x,z)可以作为核函数,即k(x,z)=(φ(x)·φ(z)),x,z∈X。
证毕。
本发明由于构造了适于文本相似比对的S_Wang核函数,实现对文档的相似检测,提高了相似检测的精准率、招回率和综合评价表现。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是基于核函数的文档相似检测流程图。
图2是不同核函数进行相似检测时在不同的文档水平上的精准率表现图。
图3是四种核函数在8个文档水平上的平均表现图。
图2中,Precision为相似计算的精准率,Document level为文档水平;CauchyKernel为Cauchy核,LSK代表潜在语义核,CLAKernel表示CLA核,S_WangKernel表示本发明新构造的核函数。
图3中,avg.P为在8个文档水平上平均后得平均精准率,avg.R为在8个文档水平上平均招回率,avg.F1为在8个文档水平上的平均综合表现;Cauchy Kernel为Cauchy核,LSK代表潜在语义核,CLA Kernel表示CLA核,S_Wang Kernel表示本发明新构造的核函数。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,结合附图及实施例,对本发明进行进一步详细说明。此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图中1所示的基于核函数的文档相似检测流程图,本发明包括
(1)输入及预处理步骤
需比对相似度的两篇文档为dX和dZ,统计词后具有如下内容如表1所示。
dX | A | B | C | F | P | M | B |
dZ | B | C | D | G | L | D |
有10篇文档构成一个文集,该文集中所有的概念词项由A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P构成字典,字典大小N=16。则在映射φ1下将待比对的两篇文本文档表示为向量x和z为:
词项 | t1 | t2 | t3 | t4 | t5 | t6 | t7 | t8 | t9 | t10 | t11 | t12 | t13 | t14 | t15 | t16 |
词典(N) | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P |
tf(ti,x) | 1 | 2 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 1 |
tf(ti,z) | 0 | 1 | 1 | 2 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
考虑词间的潜在语义关系,将待比对的文档dX和dZ经过特征映射后表示成向量x和z,其中
φ1:x→φ1(x)=(tf(t1,x),tf(t2,x),...,tf(tN,x))∈RN
φ1:z→φ1(z)=(tf(t1,z),tf(t2,z),...,tf(tN,z))∈RN
tf(ti,x)是词典中的第i个词ti在文档dX中出现的频率,tf(ti,z)是第i个词
ti在文档dZ中出现的频率,其中i=1,2,...,16。
文本文档dX和dZ向量表示后分别为:x=(1210010000001001)和z=(0112001000010000)。
(2)核函数构造步骤
2a)词典中D、G和L三个词在文档dX中未出现,其对应的向量维数位置值为0;词典中A、M和P三个词在文档dZ中未出现,其对应的向量维数位置值为0;A、G、L、M和P对两篇文档相似的贡献值为0;如果待比对的两篇文档没有共同的词,则认为该两篇文档的相似度为0。用两个行向量对应维数相乘xzT的形式来计算其相似度,作为构造的核函数的分子;
2b)词t4即D在两篇待比对的文档中词频统计结果差值大|2-0|=2、其它词A、B、F、G、L、M和P在两篇待比对的文档中词频统计结果差值为1,词C在两篇文档中同时都出现了1次,其词频统计结果差值为0。词频统计结果差值|tf(ti,x)-tf(ti,z)|越大,表明两篇文档越不相似;|tf(t4,x)-tf(t4,z)|最大,词t4最能使相似程度的计算结果偏小。用||x-z||2表明两篇文档之间由于词语不同产生的欧氏距离,且将其置于构造的核函数的分母上
2c)当两篇文档dX和dZ完全相同,则有x=z,此时有||x-z||=0,且有xzT=1;当两篇文档完全相同的时候其相似度计算值应为1,于是考虑构造的核函数的分母形式为xzT+||x-z||2;
2d)用宽度参数σ(σ>0)来控制函数的径向作用范围,调节由于词语不同导致两篇文档距离对相似度的影响程度,此处取σ=1。
得构造的S_Wang核函数为 该例中相似度计算值为
(3)相似计算步骤
通过构造的核函数计算文本的相似度,从而进行文档相似检测。
采用50个TREC ad hoc主题(251-300)l0个文档,包括AP88,CR93,FR94,FT91-94,WSJ90-92以及ZF等中的文档构成文集,文集中的词构成的字典大小为N0。
考虑到词的潜在语义关系,实验中从文本到向量的的变换采用如下映射:
φ2:x→φ2(x)=(ω(t1)tf(t1,x),ω(t2)tf(t2,x),...,ω(tN)tf(tN,x))∈RN,
φ2:z→φ2(z)=(ω(t1)tf(t1,z),ω(t2)tf(t2,z),...,ω(tN)tf(tN,z))∈RN,
式中w(ti)为词ti的衡量词的权重的绝对尺度,具有形式df(ti)是包含词ti的文档个数;tf(ti,x)是词典中的第i个词ti在文档dX中出现的频率,tf(ti,z)是第i个词ti在文档dZ中出现的频率,其中i=1,2,...,N0。
对文集进行了随机划分,训练/测试的数据比例是3∶1,线性学习器采用LibSVM。评估了4种核函数,包括潜在语义核(LSK)、Cauchy核(Cauchy Kernel)、CLA复合核(CLA Kernel)以及本发明提出的S_Wang核函数(S_Wang Kernel)。实验是在8个文档水平(top 5,top 10,top 15,top 20,top 25,top 30,top 50,top 100)上进行。这里所说的文档水平是指经过融合排序后的结果,称排在最前面的n个文档(top n)为一个文档水平作为实验验证有效性的对象。
实验评价指标采用典型的信息检索评价指标:精准率(Precision)、招回率(Recall)和综合评价指标F1,具体算法为:
综合评价指标
考虑到结果融合中招回率和精准率同等重要,本实施例中综合评价指标中的参数β取1,得F1指标。将检索的招回率和精准率视为同等重要,故在CLA核中系数δ1=0.5。最终得用不同核函数进行文档相似检测的效果如表1所示。其中P表示相似检测的精准率,R表示相似检测的招回率。
表1利用不同的核函数进行相似检测的精准度、招回率以及F1实验结果数据表
通过对不同的核函数其相似度计算精准率实验结果进行作图分析,如图2所示。
从图2可以看出8个不同文档水平上进行文本相似度计算的精准率表现表明S_Wang核在top5,top10,top15,top20,top25,top30,top 50以及top100这8个文档水平(Document level)上,其精度分别达到0.3561、0.326、0.304、0.281、0.2645、0.241、0.2093及0.1698,均分别大于其余3个核函数在对应的文档水平上的相似度计算精准率。
分别将4个核函数在相似度计算中的精准率、招回率和综合表现F1在8个文档水平上平均后得平均精准率avg.P,平均招回率avg.R和平均综合表现avg.F1比较不同核函数的相似度计算表现,结果如图3所示。
从图3中可以看出,S_Wang核用于文档相似检测时有很好的精准率、较好的招回率以及突出的综合评价表现。S_Wang核的平均召回率为0.8452,虽不及LSK,但均高出Cauchy Kernel(σ=1)和CLA复合核;S_Wang核在精准率上明显高于其它核方法,其平均精度达0.26896,分别比Cauchy Kernel(σ=1)高出18.12%,比潜在语义核(LSK)高出43.09%,比CLA复合核高出9.63%。S_Wang核的综合表现F1优势明显,高达0.4059比Cauchy Kernel(σ=1)、潜在语义核(LSK)、CLA复合核分别提高了15.54%、29.87%和7.8%。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于核函数的文档相似检测方法,其特征包括以下步骤:
a)当词典中某一词在某一篇文档中未出现,即对应的向量维数位置值为0,则认为该词对两篇文档相似的贡献值为0,如果待比对的两篇文档没有共同的词,则认为该两篇文档的相似度为0,于是考虑利用两个行向量对应维数相乘的形式来计算其相似度,作为构造的核函数的分子;
相似计算步骤:通过构造的核函数计算文本的相似度,从而进行文档相似检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101059427A CN102651034B (zh) | 2012-04-11 | 2012-04-11 | 一种基于核函数的文档相似检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101059427A CN102651034B (zh) | 2012-04-11 | 2012-04-11 | 一种基于核函数的文档相似检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102651034A CN102651034A (zh) | 2012-08-29 |
CN102651034B true CN102651034B (zh) | 2013-11-20 |
Family
ID=46693042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101059427A Expired - Fee Related CN102651034B (zh) | 2012-04-11 | 2012-04-11 | 一种基于核函数的文档相似检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102651034B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455609B (zh) * | 2013-09-05 | 2017-06-16 | 江苏大学 | 一种基于核函数Luke核的专利文献相似度检测方法 |
CN107145560B (zh) * | 2017-05-02 | 2021-01-29 | 北京邮电大学 | 一种文本分类方法及装置 |
CN109492693A (zh) * | 2018-11-07 | 2019-03-19 | 西安邮电大学 | 通信数据处理方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4250098B2 (ja) * | 2004-02-06 | 2009-04-08 | 日本電信電話株式会社 | 素性選択機能付き離散カーネル関数の計算装置、プログラムならびに該プログラムを格納した記録媒体 |
CN102236693A (zh) * | 2010-04-28 | 2011-11-09 | 国际商业机器公司 | 确定文档之间的相似度的方法和设备 |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
-
2012
- 2012-04-11 CN CN2012101059427A patent/CN102651034B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4250098B2 (ja) * | 2004-02-06 | 2009-04-08 | 日本電信電話株式会社 | 素性選択機能付き離散カーネル関数の計算装置、プログラムならびに該プログラムを格納した記録媒体 |
CN102236693A (zh) * | 2010-04-28 | 2011-11-09 | 国际商业机器公司 | 确定文档之间的相似度的方法和设备 |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
Non-Patent Citations (2)
Title |
---|
基于混合核函数的分布式信息检索结果融合;王秀红等;《通信学报》;20110425;第32卷(第04期);第112-118页 * |
王秀红等.基于混合核函数的分布式信息检索结果融合.《通信学报》.2011,第32卷(第04期),全文. |
Also Published As
Publication number | Publication date |
---|---|
CN102651034A (zh) | 2012-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kozubowski et al. | Multivariate generalized Laplace distribution and related random fields | |
Plan et al. | Dimension reduction by random hyperplane tessellations | |
CN108710613A (zh) | 文本相似度的获取方法、终端设备及介质 | |
Li et al. | DPSynthesizer: differentially private data synthesizer for privacy preserving data sharing | |
CN104036051B (zh) | 一种基于标签传播的数据库模式摘要生成方法 | |
CN105512679A (zh) | 一种基于极限学习机的零样本分类方法 | |
US8458182B2 (en) | Method and system for clustering data arising from a database | |
CN102651034B (zh) | 一种基于核函数的文档相似检测方法 | |
CN106899426A (zh) | 用户访问数量统计方法及其系统 | |
CN106599227B (zh) | 用于获取基于属性值的对象之间的相似度的方法与装置 | |
CN104111969A (zh) | 一种相似性度量的方法以及系统 | |
CN104484601B (zh) | 基于加权距离度量以及矩阵分解的入侵检测方法及装置 | |
de Mast et al. | Modeling and evaluating repeatability and reproducibility of ordinal classifications | |
Xia et al. | Conceptual clustering categorical data with uncertainty | |
CN102999764B (zh) | 图像中基于聚类的多物体检测方法 | |
Sari et al. | Exploring Word Embeddings and Character N-Grams for Author Clustering. | |
Daowadung et al. | Stop word in readability assessment of Thai text | |
Chaggara et al. | On d-orthogonal polynomials of Sheffer type | |
CN101286159A (zh) | 一种基于emd的文档语义相似距离度量化方法 | |
Chatterjee | Impact of multivariate normality assumption on multivariate process capability indices | |
Magnani et al. | A low rank property and nonexistence of higher-dimensional horizontal Sobolev sets | |
Chen et al. | Further results on sum-of-squares tensors | |
Xu et al. | A New Data Mining Approach to Predicting Matrix Condition Numbers\ | |
Kong et al. | Well-posedness and averaging principle of McKean-Vlasov SPDEs driven by cylindrical α-stable process | |
Loots et al. | On the real representation of quaternion random variables |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131120 Termination date: 20190411 |
|
CF01 | Termination of patent right due to non-payment of annual fee |