CN103455609A

CN103455609A - 一种基于新核函数Luke核的专利文献相似度检测方法

Info

Publication number: CN103455609A
Application number: CN2013104002444A
Authority: CN
Inventors: 王秀红; 卢章平; 陈潇君; 汪满容; 鞠时光
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2013-09-05
Filing date: 2013-09-05
Publication date: 2013-12-18
Anticipated expiration: 2033-09-05
Also published as: US20160224622A1; WO2015032301A1; CN103455609B

Abstract

本发明公开了一种基于新核函数Luke核的专利文献相似度检测方法，将专利文献分成5要素,即专利名称、摘要、权利要求书、说明书和主分类号；构造新的核函数Luke核，利用Luke核分别计算两篇专利文献前四个要素间的相似度，再利用字符串匹配计算两专利文献的主分类号之间的相似度，然后将两专利文献5要素间的相似度进行加权求和得专利文献的总体相似度。本发明的技术方案进一步提高了专利文献的相似度检测的精准率和召回率,可应用于专利文献的相似度检测。

Description

一种基于新核函数Luke核的专利文献相似度检测方法

技术领域

本发明属于信息检索技术领域，具体涉及专利文献的文本相似度计算技术。

背景技术

专利的相似度是旨专利间技术内容上的相似性，现有的计算方法大体分成两类：一是基于专利引文的分析，二是基于专利内容的分析。利用引文分析法来来分析文献间的相似性的研究已久。在专利相似检测方面，Stuart用专利的共引关系测量日本10家半导体企业的技术相似度。Lai利用共引分析法来测量专利的相似度。McGill和Mowery等在分析专利联盟内企业之间的关系时，采用互引率测量企业的专利相似度。利用引文分析法来测量专利的相似度有许多不足：只能体现有引用有关系的专利间的相似，不能表明所有真正相关的专利间的相似关系，如中国专利大部分没有引文，这样的专利文献相似度计算通过引文分析法无法很好地解决。基于专利内容来分析专利内容上的相似性的目前研究主要有：Bergmann,Moehrle等提出专利语义分析方法；Gerken于2012年提出一种基于语义专利分析的方法来测量专利的新颖性。Cascini提出发明功能树方法，通过比较该树中组件以及组件的功能和层次关系来确定专利的相似度，反映的是专利概念上的相似度而非专利内容上的相似度。Magerman等验证了文本挖掘技术测量专利相似度的准确性和可能性，Yoon等利用文本挖掘技术对专利文献进行预处理，构建专利的关键词向量、利用传统的方法，通过计算向量间的欧氏距离来计算专利的相似度，相似检测的精准率和召回率有待进一步提高。陈芨熙等依据专利文献特征构建专利模型树和节点，基于现有的向量空间模型进行相似计算，以专利的名称和摘要信息加权相似度作为分类的依据。彭继东和谭宗颖提出一种基于文本挖掘技术，以专利名称、摘要、权利要求和说明书4个文本要素的加权相似度作为专利相似度的计算方法^[1]。Kim等2012年提出使用奇异值方法来计算给定的节点对节点相似矩阵的贡献，从而检测有影响力的专利。Moehrle于2012年提出基于设计决策和结果的文本专利相似测量方法。基于内容的专利相似度计算方法，比起引文分析方法来具有更准确和全面的优势。现有的研究中，大部分是通过分析专利文献的特征，利用现有的向量空间模型计算方法或文本挖掘技术来计算同来类间或一同一特征内的相似度；本课题组提出的S_Wang核^[2]（专利号ZL201210105942.7）在分布式信息检索结果融合中有较好的表现。

专利文献的相似度检测中最本质的问题是计算两个专利文献间的相似度。现有技术中用于计算专利文献的相似度的数学模型往往采用传统的现有向量相似计算数学模型，缺少针对性；在专利文献的结构要素方面只考虑到名称、摘要、权利要求和说明书，忽视了国际专利分类号在专利文献相似计算中的重要作用；现有的方法导致在对专利文献进行相似度计算时的精准率和召回率均有待进一步提高。

[1]彭继东;谭宗颖一种基于文本挖掘的专利相似度测量方法及其应用，情报理论与实践，2012（12）：114-118.

[2]王秀红.一种基于核函数的文档相似检测方法，专利号ZL201210105942.7.

发明内容

本发明的目的在于提供一种基于新核函数Luke核的专利文献相似度检测方法，进一步提高专利相似计算的精准率和召回率。

为了解决以上技术问题，本发明构造新的适合专利文献相似度计算的核函数，并结合考虑国际专利分类号在专利文献相似度计算中的重要作用。具体技术方案如下：

一种基于新核函数Luke核的专利文献相似度检测方法，其特征在于包括以下步骤：

步骤1，将待比对的两篇专利文献DX和DZ的文本分别表示成向量x和z的步骤；

步骤2，专利文献结构化表示的步骤：将专利文献分成专利名称、摘要、权利要求、说明书以及主分类号即IPC主分类号5个要素；所述待比对的两篇专利文献DX和DZ的所述前4个要素分别依次据步骤1所述的方法表示成向量为x₁、x₂、x₃、x₄和z₁、z₂、z₃、z₄；

步骤3，构造适于专利文献相似度计算的新核函数k(x,z)，并对所述函数k(x,z)是否可以作为相似度计算的核函数给予理论证明；

步骤4，首先利用所述核函数k(x,z)，先计算所述待比对的两篇专利文献DX和DZ前四个各对应要素间的相似度S_j，S_j＝k(x_j,z_j)，j＝1,2,3,4；

然后，对于所述待比对的两篇专利文献DX和DZ的主分类号，直接进行字符串匹配比对计算两篇专利文献DX和DZ的主分类号之间的相似度S₅，具体算法过程为：依部、大类、小类、大组、小组顺序从前往后比较主分类号，如果两个专利的主分类号完全相同即小组号相同，则S₅=1；如果小组号不同，但大组号相同，则S₅=0.75；如果大组号不同，但小类号相同，则S₅=0.5；如果小类号不同，但大类号相同，则S₅=0.25；如果大类号不同，但部号相同，则S₅=0.1；如果完全不同，即部号不同，则S₅=0；

最后加权求和得所述待比对的两篇专利文献DX和DZ的相似度S，具有如下形式

此处，

0≤ζ_j≤1，j＝1,2,...,5。

所述的新核函数k(x,z)具有形式

所述的新核函数可以作为核函数的理论证明过程如下：

令X是Rⁿ上的一个紧集，k(x,z)是X×X上连续实值对称函数，则有：

\underset{X \times X}{&Integral; &Integral;} k (x, z) f (x) f (z) dxdz &GreaterEqual; 0, &ForAll; f &Element; L_{2} (x) - - - (1)

称此为Mercer条件；

(1)式等价于k(x,z)是一个核函数即k(x,z)＝(φ(x)·φ(z))，x,z∈X其中φ为某个从X到Hilbert空间H的映射φ:|→φ(x)∈H，(·)是Hilbert空间L₂上的内积。

下面证明所构建的函数

可以作为核函数，满足Mercer条件；

1)令k₁(x,z)＝x^Tz，所述新核函数可以改写为

k (x, z) = \log_{2}^{(x^{T} z + 1)} = \log_{2}^{(k_{1} (x, y) + 1)} - - - (2)

2)显然k₁(x,z)＝x^Tz是线性核函数，它满足当X是Rⁿ上的一个紧集时，k₁(x,z)是X×X上为连续实值对称函数，因文档向量x和z所有元素值均为非负，所以k₁(x,z)为非负；

3)当两篇专利文献DX和DZ完全相同时，k₁(x,z)＝x^Tz＝1，而此时必然有

当两篇文档完全不同时，k₁(x,z)=0，而此时必然有

k (x, z) = \log_{2}^{(k_{1} (x, z) + 1)} = \log_{2}^{1} = 0;

综上所述，当X是Rⁿ上的一个紧集时，

是X×X上为连续实值对称函数，且为非负；则由Mercer定理可推出

\underset{X \times X}{&Integral; &Integral;} k (x, z) f (x) f (z) dxdz &GreaterEqual; 0, &ForAll; f &Element; L_{2} .

于是有所构造的k(x,z)可以作为核函数，即k(x,z)＝(φ(x)·φ(z))，x,z∈X。

所述的步骤1具体为：

Step1，词包表达：将所有待比对的专利文献的整个集合称为文集，将出现在文集中的实词的集合称为词典；分别将待比对的两篇专利文献DX和DZ视为两个词包；

φ:DZ→zz＝φ₁(Z)＝(tf(t₁,z),tf(t₂,z),...,tf(t_N,z))∈R^N，

φ:DX→xx＝φ₁(X)＝(tf(t₁,x),tf(t₂,x),...,tf(t_N,x))∈R^N，

φ为词包法映射关系，N为所有待比对的专利文献中的实词构成的词典中词的个数；t_i为词典中的实词；f(t_i,z)表示实词t_i在专利文献DZ中出现的频率，f(t_i,x)表示实词t_i在专利文献DX中出现的频率;i＝1,2,...,N；

Step2，语义表示：由于词包表示未考虑词的语义信息，为此在包表示法的基础上构建语义核；不同的词对主题的重要程度不同，采用一个词在文档中出现的频率来量化这个词所带的信息重要程度，即逆文档频率IDF（InverseDocumentFrequency）规则，具体为

w (t) = \ln (\frac{l}{df (t)}) - - - (3)

其中l为所述文集中存在的专利文献的个数，df(t)是包含实词t的专利文献的个数，w(t)为逆文档频率IDF规则定义的衡量实词t的权重的绝对尺度；

所述待比对的专利文献的带语义的向量表示形式为：

z₀＝(ω(t₁)tf(t₁,z),ω(t₂)tf(t₂,z),...,ω(t_N)tf(t_N,z))∈R^N

x₀＝(ω(t₁)tf(t₁,x),ω(t₂)tf(t₂,x),...,tfω(t_N)(t_N,x))∈R^N

再对向量z₀和x₀分别进行归一化处理，得所述向量x和z。

本发明具有有益效果。一方面，将本发明构造的新的核函数Luke核应用到专利文献的相似度计算，进一步提高了专利文献相似度计算的精准率和召回率。另一方面，本发明通过将专利文献分成5个要素，考虑到国际专利分类号在相似度计算方面的作用，通过先分别计算两个待比对的专利文献的对应要素间的相似度然后再加权求和得两篇专利文献的总相似度，提高了相似度计算的精准率和召回率的同时，减少了计算开销，提高了计算效率。

附图说明

图1为本发明方法流程图。

具体实施方式

下面结合附图，对本发明的技术方案作进一步详细说明。

如图1所示为本发明的思路图。为了方便描述，将本发明的新核核函数

简称为Luke核。

步骤1，利用词包法和逆文档频率IDF规则将专利文献的专利名称、摘要、权利要求、说明书四个要素分别表示成对应的向量x₁、x₂、x₃、x₄和z₁、z₂、z₃、z₄；

步骤2，利用构造的新核函数Luke核分别计算专利名称、摘要、权利要求、说明书各要素对应的文本相似度

j＝1,2,3,4。

步骤3，利用字符串比较算法计算不同专利文献主分类号之间的相似度S₅，具体算法过程为：从前往后比较，依部、大类、小类、大组、小组顺序比较。如果两个专利的主分类号相同即到小组号均相同，则S₅=1；如果小组号不同，但大组号相同，则S₅=0.75；如果大组号不同，但小类号相同，则S₅=0.5；如果小类号不同，但大类号相同，则S₅=0.25；如果大类号不同，但部号相同，则S₅=0.1；如果部号也不同，则S₅=0。

步骤4，计算两篇专利文献的总体相似度

实验采用的评价指标分别为精准率（Precision）、招回率（Recall）和综合评价指标F。

评价指标的具体算法为：

Precision = \frac{true positive}{true positive + flase positive} - - - (4)

Recall = \frac{truepositive}{truepositive + flasenegative} - - - (5)

F_{β} - measure = \frac{(1 + β^{2}) * precision * recall}{β^{2} precision + recall} - - - (6)

将专利文献相似度计算中的招回率和精准率视为同等重要，本实施例中综合评价指标中的参数β取1，得F₁指标。

实验数据取DEWENT专利数据库中2000个美国专利，则文集中专利文献的个数l=2000，训练/测试的比例是3:1。使用的软件有MATLAB7.0。信息检索工具箱选用卡内基-梅隆大学信息检索及语言模型工作组研发的Lemur工具箱。该Lemur工具箱支持对大规模文本数据库的索引，以及对文档、提问或文档子集构建简单的语言模型，除此之外，它还支持传统的检索模型，如向量空间模型VSM等。实验中线性学习器采用LibSVM。

现有研究中专利号为ZL201210105942.7的“一种基于核函数的文档相似检测方法”中的S-Wang核与其它现有的核函数比较起来在文本相似度计算方面有更好的精准率和召回率表现。在此基础上，本实施例将Luke核与S-Wang核函数和线性核在专利文献相似度检测中的效果进行了比较最终得不同核函数的相似度计算表现。实验还对比了将专利文献作为整体、依前四个要素即专利名称、摘要、权利要求书和说明书先分别进行相似度计算再加权求和、考虑主分类号在内的5个要素进行相似度计算再加权求和，实验结果分别如表1、表2和表3所示。表中，P表示相似度计算精准率分值，R表示相似度计算招回率分值，F₁为综合评价指标分值。

表1专利文献作为一个整体，直接利用核函数计算相似度

	线性核	S_wang核	Luke核
				P	0.21	0.36	0.43
R	0.87	0.91	0.93
				F₁	0.34	0.52	0.59

表2不考虑IPC，只考虑前4个要素间的相似度，然后再加权求和

	线性核	S_wang核	Luke核
				P	0.25	0.39	0.50
R	0.88	0.93	0.95
				F₁	0.39	0.55	0.66

表3考虑5个要素间的相似度，然后再加权求和

	线性核	S_wang核	Luke核
				P	0.29	0.41	0.58
R	0.90	0.94	0.96
				F₁	0.44	0.57	0.72

*本实施例中，专利名称、摘要、权利要求、说明书以及主分类号五个要素的相似度权系数分别依次取ζ₁=0.1,ζ₂=0.1,ζ₃=0.25,ζ₄=0.25,ζ₅=0.3。

从表1、表2和表3中可以看出，本发明的Luke核具有很好的相似度计算表现。从表2和表3的比较中可以看出，本发明将主分类号考虑进去将专利文献分成5个要素，先计算各要素间的相似度然后再加权求和得专利文献的相似度的技术方案，进一步提高了相似度计算的表现。

实验结果表明，本发明采用的专利文献的相似度计算技术方案，提高了专利文献相似度计算的精准率和召回率。

Claims

1.一种基于新核函数Luke核的专利文献相似度检测方法，其特征在于包括以下步骤：

步骤2，专利文献结构化表示的步骤：将专利文献分成专利名称、摘要、权利要求、说明书以及主分类号5个要素；所述待比对的两篇专利文献DX和DZ的所述前4个要素分别依次据步骤1所述的方法表示成向量为x₁、x₂、x₃、x₄和z₁、z₂、z₃、z₄；

然后，对于所述待比对的两篇专利文献DX和DZ的主分类号要素，直接进行字符串匹配比对计算两篇专利文献DX和DZ的主分类号之间的相似度S₅，具体算法过程为：依部、大类、小类、大组、小组顺序从前往后比较主分类号，如果两个专利的主分类号完全相同即小组号相同，则S₅=1；如果小组号不同，但大组号相同，则S₅=0.75；如果大组号不同，但小类号相同，则S₅=0.5；如果小类号不同，但大类号相同，则S₅=0.25；如果大类号不同，但部号相同，则S₅=0.1；如果完全不同，即部号不同，则S₅=0；

最后加权求和得所述待比对的两篇专利文献DX和DZ的相似度S