CN102651034A - 一种基于核函数的文档相似检测方法 - Google Patents

一种基于核函数的文档相似检测方法 Download PDF

Info

Publication number
CN102651034A
CN102651034A CN2012101059427A CN201210105942A CN102651034A CN 102651034 A CN102651034 A CN 102651034A CN 2012101059427 A CN2012101059427 A CN 2012101059427A CN 201210105942 A CN201210105942 A CN 201210105942A CN 102651034 A CN102651034 A CN 102651034A
Authority
CN
China
Prior art keywords
document
kernel function
similarity
speech
pieces
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101059427A
Other languages
English (en)
Other versions
CN102651034B (zh
Inventor
王秀红
鞠时光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN2012101059427A priority Critical patent/CN102651034B/zh
Publication of CN102651034A publication Critical patent/CN102651034A/zh
Application granted granted Critical
Publication of CN102651034B publication Critical patent/CN102651034B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于核函数的文档相似检测方法,它属于信息检索技术领域,主要解决文本检索的综合评价效果不好的问题。其步骤为:1建文档集合即文集,其词项组成的集合构成词典,大小为N;2将待比对的文档dX和dZ表示成文本向量
Figure 780403DEST_PATH_IMAGE001
Figure 560140DEST_PATH_IMAGE002
;3通过两文本向量间的乘积和欧氏距离来描述二者的相似程度,构造了适合文档相似检测的新的S_Wang核函数
Figure 391567DEST_PATH_IMAGE003
,式中σ(σ>0)为宽度参数,用来控制函数的径向作用范围,调节由于词语不同导致两篇文档距离对相似度的影响程度;4通过构造的该核函数完成文档相似检测的任务。该方法具有检测精准率、招回率高和综合表现好的优点,可用于文本的相似度计算、文本分类、文本信息过滤、模式识别与人工智能。

Description

一种基于核函数的文档相似检测方法
技术领域
本发明涉及到信息检索领域,具体说是将本发明构造的S_Wang核函数用于文档相似检测的方法。
背景技术
核方法的思想是将在低维空间中一个非线性可分的问题,向高维空间转化,即映射到高维空间,使其在高维空间中变得线性可分,然后在特征空间中使用线性学习机建立优化超平面,利用高维特征空间中的内积来对低维空间的问题进行分类,从而解决问题。而转化最关键的部分在于找到输入空间中的x到高维空间中的φ(x)的映射方法,如何找到这个映射φ没有系统的方法。事实上,该映射函数往往不易找到,且不一定能显式表达。这个办法带来的困难就是计算复杂度的增加,且直接在这个特征空间作内积计算会面临一个维数灾难问题。核函数的基本作用就是接受两个低维空间里的向量输入值x和z,能够计算出经过某个变换后在高维空间里的向量内积值,实现将低维空间的数据代入该函数之后即可算出高维空间中的内积,从而无需寻找那个从低维空间到高维空间的具体映射。核函数的应用很好地解决了计算复杂度和维数灾难问题。
关于核函数的描述如下;设x和z∈X,X属于R(n)空间,非线性函数Φ实现输入空间X到特征空间H(内积空间或Hilbert空间:H,<·,·>)的映射(Φ:X→H),其中H属于R(m),n<<m。根据核函数技术有:
k(x,z)=<φ(x),φ(z)>             (1)
其中:<,>为内积,k(x,z)为核函数。
针对具体的问题,构造适合该问题的核函数是解决该领域具体非线性分类问题的关键所在,具有非常重要的意义。关于核函数的构造目前没有统一的方法。根据泛函的有关理论,只要一种核函数k满足Mercer条件,它就对应某一变换空间中的内积,满足Mercer条件的任意对称函数,都可以作为核函数。
文档相似检测本质上是计算两篇文档的相似程度。每一个文档均可表示成一个向量,文档相似检测问题就转化为计算两个输入向量的相似度的问题。两篇文档相似与不相似是一个在低维空间中非线性可分的问题。将该低维空间中线性不可分的问题映射到高维空间,通过映射函数在高维特征空间的内积来计算两个输入数据之间的距离(即相似性)。
现有的关于文本处理的核方法主要有将文本视为概念体集合(set ofconcepts)的核,如潜在语义核(Latent Semantic Kernel,简称为LSK)[Dristianini N,Shawe-Taylor J,Lodhi H.Latent semantic kernels[J].Journal of Intelligent Information Systems,2002,18(2-3):127-152.],考虑了词间的潜在语义关系,虽然相似检测的招回率很高,但检测的精准率很低,导致相似检测的综合表现不高。将文本视为词包或词袋(bag of words)的核,如点积或多项式核(dot product or polynomial kernels)等。词袋核基于词的独立性假设,相似检测的招回率不高;多项式核当阶数大于2时会出现不平衡特征项,且其相似计算的精准率和招回率均不高。Cauchy核来自于Cauchy分布(Basak,2008),具有形式 K ( x , z ) = 1 1 + | | x - z | | 2 &sigma; , 其在进行文档相似检测时的精准率和招回率较差。方差分析(ANOVA)核(r阶)确定的特征集是所有r阶1次幂单项式构成,不存在不平衡特征项和过学习现象,但其相似检测的精准率和招回率也不太高。CLA复合核[王秀红,鞠时光.基于混合核函数的分布式信息检索结果融合[J].通信学报,2011,32(4):112-118,125.]虽然与潜在语义核和ANOVA核相比在相似检测的精准率和招回率上有所改进,但相似检测的精准率、招回率和综合表现仍有待提高。
发明内容
本发明的目的在于针对文档相似检测招回率、精准率不高、综合评价表现差的缺陷,克服上述已有技术的不足,提出了一种新的核函数用以进行文档相似检测,以提高文档相似检测的精准率和综合评价表现,从而更有效地进行文档相似检测。
实现本发明的技术方案包括如下步骤:
1.输入及预处理步骤:构造文档集合,即文集,文集中所有的词项组成的集合为词典,大小为N;将待比对的文档dX和dZ经过特征映射后进行向量表示成文本向量x和z;
2.核函数构造步骤:结合文档相似检测过程中的具体实际,通过两文本向量间的乘积和欧氏距离来描述二者的相似程度,从而构造适合文档相似检测的新的S_Wang核函数 k ( x , z ) = x T z x T z + | | x - z | | 2 &sigma; ;
3.相似计算步骤:通过构造的核函数计算文本的相似度,从而进行文档相似检测。
关于本发明的核函数构造,其具体步骤如下:
2a)当词典中某一词ti在某一篇文档中未出现,即对应的向量维数位置值为0,则认为该词对两篇文档相似的贡献值为0,如果待比对的两篇文档没有共同的词,则认为该两篇文档的相似度为0,于是考虑利用两个行向量对应维数相乘xzT的形式来计算其相似度,作为构造的核函数的分子;
2b)当某一词ti在两篇待比对的文档中词频统计结果差值|tf(ti,x)-tf(ti,z)|越大,表明两篇文档越不相似,该词ti使相似程度的计算结果越小,用||x-z||2表明两篇文档之间由于词语不同产生的欧氏距离,且将其置于构造的核函数的分母上;
2c)当两篇文档dX和dZ完全相同,则有x=z,此时有||x-z||=0,且有xzT=1;当两篇文档完全相同的时候其相似度计算值应为1,于是考虑构造的核函数的分母形式为xzT+||x-z||2
2d)用宽度参数σ(σ>0)来控制函数的径向作用范围,调节由于词语不同导致两篇文档距离对相似度的影响程度。
所述的输入及预处理步骤中的特征映射为φ1
φ1:x→φ1(x)=(tf(t1,x),tf(t2,x),...,tf(tN,x))∈RN
φ1:z→φ1(z)=(tf(t1,z),tf(t2,z),...,tf(tN,z))∈RN
当考虑词的潜在语义关系时,所述的输入及预处理步骤中的特征映射为φ2
φ2:x→φ2(x)=(ω(t1)tf(t1,x),ω(t2)tf(t2,x),...,ω(tN)tf(tN,x))∈RN
φ2:z→φ2(z)=(ω(t1)tf(t1,z),ω(t2)tf(t2,z),...,ω(tN)tf(tN,z))∈RN
式中w(ti)为词ti的衡量词的权重的绝对尺度,w(ti)具有形式
Figure BDA0000152121210000041
其中l为文集中存在的文档个数,df(ti)是包含词ti的文档个数;tf(ti,x)是词典中的第i个词ti在文档dX中出现的频率,tf(ti,z)是第i个词ti在文档dZ中出现的频率,其中i=1,2,...,N。
以下是理论证明构建的函数可以作为核函数。
统计学习的理论指出,根据Hilbert-Schmidt原理,只要一种运算满足Mercer条件,则可作为变换空间的内积使用,即可作为核函数。
引理(Mercer定理):令X是Rn上的一个紧集,k(x,z)是X×X上连续实值对称函数。则有:
&Integral; &Integral; X &times; X k ( x , z ) f ( x ) f ( z ) dxdz &GreaterEqual; 0 , &ForAll; f &Element; L 2 ( x ) - - - ( 2 )
(称此为Mercer条件)。
(2)式等价于k(x,z)是一个核函数即k(x,z)=(φ(x)·φ(z)),x,z∈X其中φ为某个从X到Hilbert空间H的映射φ:|→φ(x)∈H,(·)是Hilbert空间L2上的内积。下面证明所构建的函数可以作为核函数(满足Mercer条件)。
1)令k1(x,z)=xTz, k 2 ( x , z ) = | | x - z | | 2 &sigma; 则S_Wang核可改写为
k ( x , z ) = k 1 ( x , z ) k 1 ( x , z ) + k 2 ( x , z ) - - - ( 3 )
2)显然k1(x,z)=xTz是线性核函数,它满足当X是Rn上的一个紧集时,k1(x,z)是X×X上为连续实值对称函数,因文档向量x和z所有元素值均为非负,所以k1(x,z)为非负;
3)
Figure BDA0000152121210000051
(σ>0)是Homogeneous kernels(RBF)径向基核函数,只依赖于距离的大小。它满足当X是Rn上的一个紧集时,k2(x,z)是X×X上为连续实值对称函数,且因σ>0所以函数为非负。
4)当x-z为0,即两篇文档x和z完全相同时,k2(x,z)=0,而此时必然有k1(x,z)=xTz=1≠0。当两篇文档完全不同时,k2(x,z)=1,而此时必然有k1(x,z)=xTz=0。可见(3)式分母不可能为0。
综上所述,当X是Rn上的一个紧集时, k ( x , z ) = x T z x T z + | | x - z | | 2 &sigma; 是X×X上为连续实值对称函数,且为非负。则由Mercer定理可推出 &Integral; &Integral; X &times; X k ( x , z ) f ( x ) f ( z ) dxdz &GreaterEqual; 0 , &ForAll; f &Element; L 2 . 于是有所构造的k(x,z)可以作为核函数,即k(x,z)=(φ(x)·φ(z)),x,z∈X。
证毕。
本发明由于构造了适于文本相似比对的S_Wang核函数,实现对文档的相似检测,提高了相似检测的精准率、招回率和综合评价表现。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是基于核函数的文档相似检测流程图。
图2是不同核函数进行相似检测时在不同的文档水平上的精准率表现图。
图3是四种核函数在8个文档水平上的平均表现图。
图2中,Precision为相似计算的精准率,Document level为文档水平;CauchyKernel为Cauchy核,LSK代表潜在语义核,CLAKernel表示CLA核,S_WangKernel表示本发明新构造的核函数。
图3中,avg.P为在8个文档水平上平均后得平均精准率,avg.R为在8个文档水平上平均招回率,avg.F1为在8个文档水平上的平均综合表现;Cauchy Kernel为Cauchy核,LSK代表潜在语义核,CLA Kernel表示CLA核,S_Wang Kernel表示本发明新构造的核函数。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,结合附图及实施例,对本发明进行进一步详细说明。此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图中1所示的基于核函数的文档相似检测流程图,本发明包括
(1)输入及预处理步骤
需比对相似度的两篇文档为dX和dZ,统计词后具有如下内容如表1所示。
  dX   A   B   C   F   P   M   B
  dZ   B   C   D   G   L   D
有10篇文档构成一个文集,该文集中所有的概念词项由A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P构成字典,字典大小N=16。则在映射φ1下将待比对的两篇文本文档表示为向量x和z为:
 词项   t1   t2   t3   t4   t5   t6   t7   t8   t9   t10   t11   t12   t13   t14   t15   t16
 词典(N)   A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P
 tf(ti,x)   1   2   1   0   0   1   0   0   0   0   0   0   1   0   0   1
 tf(ti,z)   0   1   1   2   0   0   1   0   0   0   0   1   0   0   0   0
考虑词间的潜在语义关系,将待比对的文档dX和dZ经过特征映射后表示成向量x和z,其中
φ1:x→φ1(x)=(tf(t1,x),tf(t2,x),...,tf(tN,x))∈RN
φ1:z→φ1(z)=(tf(t1,z),tf(t2,z),...,tf(tN,z))∈RN
tf(ti,x)是词典中的第i个词ti在文档dX中出现的频率,tf(ti,z)是第i个词
ti在文档dZ中出现的频率,其中i=1,2,...,16。
文本文档dX和dZ向量表示后分别为:x=(1210010000001001)和z=(0112001000010000)。
(2)核函数构造步骤
2a)词典中D、G和L三个词在文档dX中未出现,其对应的向量维数位置值为0;词典中A、M和P三个词在文档dZ中未出现,其对应的向量维数位置值为0;A、G、L、M和P对两篇文档相似的贡献值为0;如果待比对的两篇文档没有共同的词,则认为该两篇文档的相似度为0。用两个行向量对应维数相乘xzT的形式来计算其相似度,作为构造的核函数的分子;
2b)词t4即D在两篇待比对的文档中词频统计结果差值大|2-0|=2、其它词A、B、F、G、L、M和P在两篇待比对的文档中词频统计结果差值为1,词C在两篇文档中同时都出现了1次,其词频统计结果差值为0。词频统计结果差值|tf(ti,x)-tf(ti,z)|越大,表明两篇文档越不相似;|tf(t4,x)-tf(t4,z)|最大,词t4最能使相似程度的计算结果偏小。用||x-z||2表明两篇文档之间由于词语不同产生的欧氏距离,且将其置于构造的核函数的分母上
2c)当两篇文档dX和dZ完全相同,则有x=z,此时有||x-z||=0,且有xzT=1;当两篇文档完全相同的时候其相似度计算值应为1,于是考虑构造的核函数的分母形式为xzT+||x-z||2
2d)用宽度参数σ(σ>0)来控制函数的径向作用范围,调节由于词语不同导致两篇文档距离对相似度的影响程度,此处取σ=1。
得构造的S_Wang核函数为 k ( x , z ) = x T z x T z + | | x - z | | 2 , 该例中相似度计算值为 k ( x , z ) = x T z x T z + | | x - z | | 2 = 3 3 + 11 &ap; 21.43 % .
(3)相似计算步骤
通过构造的核函数计算文本的相似度,从而进行文档相似检测。
采用50个TREC ad hoc主题(251-300)l0个文档,包括AP88,CR93,FR94,FT91-94,WSJ90-92以及ZF等中的文档构成文集,文集中的词构成的字典大小为N0
考虑到词的潜在语义关系,实验中从文本到向量的的变换采用如下映射:
φ2:x→φ2(x)=(ω(t1)tf(t1,x),ω(t2)tf(t2,x),...,ω(tN)tf(tN,x))∈RN
φ2:z→φ2(z)=(ω(t1)tf(t1,z),ω(t2)tf(t2,z),...,ω(tN)tf(tN,z))∈RN
式中w(ti)为词ti的衡量词的权重的绝对尺度,具有形式
Figure BDA0000152121210000081
df(ti)是包含词ti的文档个数;tf(ti,x)是词典中的第i个词ti在文档dX中出现的频率,tf(ti,z)是第i个词ti在文档dZ中出现的频率,其中i=1,2,...,N0
对文集进行了随机划分,训练/测试的数据比例是3∶1,线性学习器采用LibSVM。评估了4种核函数,包括潜在语义核(LSK)、Cauchy核(Cauchy Kernel)、CLA复合核(CLA Kernel)以及本发明提出的S_Wang核函数(S_Wang Kernel)。实验是在8个文档水平(top 5,top 10,top 15,top 20,top 25,top 30,top 50,top 100)上进行。这里所说的文档水平是指经过融合排序后的结果,称排在最前面的n个文档(top n)为一个文档水平作为实验验证有效性的对象。
实验评价指标采用典型的信息检索评价指标:精准率(Precision)、招回率(Recall)和综合评价指标F1,具体算法为:
精准率
Figure BDA0000152121210000082
招回率
Figure BDA0000152121210000083
综合评价指标 F &beta; = ( 1 + &beta; 2 ) * P * R &beta; 2 ( P + R )
考虑到结果融合中招回率和精准率同等重要,本实施例中综合评价指标中的参数β取1,得F1指标。将检索的招回率和精准率视为同等重要,故在CLA核中系数δ1=0.5。最终得用不同核函数进行文档相似检测的效果如表1所示。其中P表示相似检测的精准率,R表示相似检测的招回率。
表1利用不同的核函数进行相似检测的精准度、招回率以及F1实验结果数据表
Figure BDA0000152121210000091
通过对不同的核函数其相似度计算精准率实验结果进行作图分析,如图2所示。
从图2可以看出8个不同文档水平上进行文本相似度计算的精准率表现表明S_Wang核在top5,top10,top15,top20,top25,top30,top 50以及top100这8个文档水平(Document level)上,其精度分别达到0.3561、0.326、0.304、0.281、0.2645、0.241、0.2093及0.1698,均分别大于其余3个核函数在对应的文档水平上的相似度计算精准率。
分别将4个核函数在相似度计算中的精准率、招回率和综合表现F1在8个文档水平上平均后得平均精准率avg.P,平均招回率avg.R和平均综合表现avg.F1比较不同核函数的相似度计算表现,结果如图3所示。
从图3中可以看出,S_Wang核用于文档相似检测时有很好的精准率、较好的招回率以及突出的综合评价表现。S_Wang核的平均召回率为0.8452,虽不及LSK,但均高出Cauchy Kernel(σ=1)和CLA复合核;S_Wang核在精准率上明显高于其它核方法,其平均精度达0.26896,分别比Cauchy Kernel(σ=1)高出18.12%,比潜在语义核(LSK)高出43.09%,比CLA复合核高出9.63%。S_Wang核的综合表现F1优势明显,高达0.4059比Cauchy Kernel(σ=1)、潜在语义核(LSK)、CLA复合核分别提高了15.54%、29.87%和7.8%。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于核函数的文档相似检测方法,其特征包括以下步骤:
输入及预处理步骤:构造文档集合,即文集,文集中所有的词项组成的集合为词典,大小为N;将待比对的文档dX和dZ经过特征映射后进行向量表示成文本向量x和z;
核函数构造步骤:结合文档相似检测过程中的具体实际,通过两文本向量间的乘积和欧氏距离来描述二者的相似程度,从而构造适合文档相似检测的新的S_Wang核函数 k ( x , z ) = x T z x T z + | | x - z | | 2 &sigma; ;
相似计算步骤:通过构造的核函数计算文本的相似度,从而进行文档相似检测。
2.如权利要求1所述的基于核函数的文档相似检测方法,其特征在于所述的核函数构造步骤具体如下:
2a)当词典中某一词ti在某一篇文档中未出现,即对应的向量维数位置值为0,则认为该词对两篇文档相似的贡献值为0,如果待比对的两篇文档没有共同的词,则认为该两篇文档的相似度为0,于是考虑利用两个行向量对应维数相乘xzT的形式来计算其相似度,作为构造的核函数的分子;
2b)当某一词ti在两篇待比对的文档中词频统计结果差值|tf(ti,x)-tf(ti,z)|越大,表明两篇文档越不相似,该词ti使相似程度的计算结果越小,用||x-z||2表明两篇文档之间由于词语不同产生的欧氏距离,且将其置于构造的核函数的分母上;
2c)当两篇文档dX和dZ完全相同,则有x=z,此时有||x-z||=0,且有xzT=1;
当两篇文档完全相同的时候其相似度计算值应为1,于是考虑构造的核函数的分母形式为xzT+||x-z||2
2d)用宽度参数σ(σ>0)来控制函数的径向作用范围,调节由于词语不同导致两篇文档距离对相似度的影响程度。
3.如权利要求1所述的基于核函数的文档相似检测方法,其特征在于所述输入及预处理步骤中的的特征映射为φ1
φ1:x→φ1(x)=(tf(t1,x),tf(t2,x),...,tf(tN,x))∈RN
φ1:z→φ1(z)=(tf(t1,z),tf(t2,z),...,tf(tN,z))∈RN
4.如权利要求1所述的基于核函数的文档相似检测方法,其特征在于所述输入及预处理步骤中的特征映射为φ2
φ2:x→φ2(x)=(ω(t1)tf(t1,x),ω(t2)tf(t2,x),...,ω(tN)tf(tN,x))∈RN
φ2:z→φ2(z)=(ω(t1)tf(t1,z),ω(t2)tf(t2,z),...,ω(tN)tf(tN,z))∈RN
式中w(ti)为词ti的衡量词的权重的绝对尺度。
5.如权利要求2或3或4任一权利要求中所述的基于核函数的文档相似检测方法,其特征在于所述的tf(ti,x),是词典中的第i个词ti在文档dX中出现的频率,所述的tf(ti,z)是第i个词ti在文档dZ中出现的频率,其中i=1,2,...,N。
6.权利要求4所述的基于核函数的文档相似检测方法,其特征在于所述的w(ti)具有形式
Figure FDA0000152121200000021
其中l为文集中存在的文档个数,df(ti)
是包含词ti的文档个数,i=1,2,...,N。
CN2012101059427A 2012-04-11 2012-04-11 一种基于核函数的文档相似检测方法 Expired - Fee Related CN102651034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101059427A CN102651034B (zh) 2012-04-11 2012-04-11 一种基于核函数的文档相似检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101059427A CN102651034B (zh) 2012-04-11 2012-04-11 一种基于核函数的文档相似检测方法

Publications (2)

Publication Number Publication Date
CN102651034A true CN102651034A (zh) 2012-08-29
CN102651034B CN102651034B (zh) 2013-11-20

Family

ID=46693042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101059427A Expired - Fee Related CN102651034B (zh) 2012-04-11 2012-04-11 一种基于核函数的文档相似检测方法

Country Status (1)

Country Link
CN (1) CN102651034B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455609A (zh) * 2013-09-05 2013-12-18 江苏大学 一种基于新核函数Luke核的专利文献相似度检测方法
CN107145560A (zh) * 2017-05-02 2017-09-08 北京邮电大学 一种文本分类方法及装置
CN109492693A (zh) * 2018-11-07 2019-03-19 西安邮电大学 通信数据处理方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4250098B2 (ja) * 2004-02-06 2009-04-08 日本電信電話株式会社 素性選択機能付き離散カーネル関数の計算装置、プログラムならびに該プログラムを格納した記録媒体
CN102236693A (zh) * 2010-04-28 2011-11-09 国际商业机器公司 确定文档之间的相似度的方法和设备
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4250098B2 (ja) * 2004-02-06 2009-04-08 日本電信電話株式会社 素性選択機能付き離散カーネル関数の計算装置、プログラムならびに該プログラムを格納した記録媒体
CN102236693A (zh) * 2010-04-28 2011-11-09 国际商业机器公司 确定文档之间的相似度的方法和设备
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王秀红等: "基于混合核函数的分布式信息检索结果融合", 《通信学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455609A (zh) * 2013-09-05 2013-12-18 江苏大学 一种基于新核函数Luke核的专利文献相似度检测方法
WO2015032301A1 (zh) * 2013-09-05 2015-03-12 江苏大学 一种基于新核函数Luke核的专利文献相似度检测方法
CN103455609B (zh) * 2013-09-05 2017-06-16 江苏大学 一种基于核函数Luke核的专利文献相似度检测方法
CN107145560A (zh) * 2017-05-02 2017-09-08 北京邮电大学 一种文本分类方法及装置
CN107145560B (zh) * 2017-05-02 2021-01-29 北京邮电大学 一种文本分类方法及装置
CN109492693A (zh) * 2018-11-07 2019-03-19 西安邮电大学 通信数据处理方法、装置及存储介质

Also Published As

Publication number Publication date
CN102651034B (zh) 2013-11-20

Similar Documents

Publication Publication Date Title
Choi et al. Emerging topic detection in twitter stream based on high utility pattern mining
Yang et al. Real-variable theory of Musielak-Orlicz Hardy spaces
Brzezinski Power laws in citation distributions: evidence from Scopus
Plan et al. Dimension reduction by random hyperplane tessellations
Ye et al. An optimization criterion for generalized discriminant analysis on undersampled problems
CN108710613A (zh) 文本相似度的获取方法、终端设备及介质
CN103092828A (zh) 基于语义分析和语义关系网络的文本相似度度量方法
Cui et al. Balanced reliability systems under Markov processes
CN105307200A (zh) 一种基于轨迹的无线传感器网络多维数据异常值检测方法
CN106156154A (zh) 相似文本的检索方法及其装置
CN102651034B (zh) 一种基于核函数的文档相似检测方法
CN104036051A (zh) 一种基于标签传播的数据库模式摘要生成方法
CN106599227B (zh) 用于获取基于属性值的对象之间的相似度的方法与装置
Li et al. The perturbation bound for the Perron vector of a transition probability tensor
CN102033867A (zh) 用于xml文档分类的语义相似度度量方法
CN108228566A (zh) 多文档关键词自动抽取方法及系统、计算机程序
CN104268217B (zh) 一种用户行为时间相关性的确定方法及装置
CN105654126A (zh) 一种计算设备、核矩阵评估方法以及多核学习方法
Muranishi et al. Xie-beni-type fuzzy cluster validation in fuzzy co-clustering of documents and keywords
Daowadung et al. Stop word in readability assessment of Thai text
CN106339293A (zh) 一种基于签名的日志事件提取方法
CN101286159B (zh) 一种基于emd的文档语义相似距离度量化方法
Shirke et al. Two-sample nonparametric test for testing equality of locations based on data depth
Tran et al. Document clustering using incremental and pairwise approaches
CN103150371A (zh) 正反向训练去混淆文本检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131120

Termination date: 20190411