CN103455609A - 一种基于新核函数Luke核的专利文献相似度检测方法 - Google Patents

一种基于新核函数Luke核的专利文献相似度检测方法 Download PDF

Info

Publication number
CN103455609A
CN103455609A CN2013104002444A CN201310400244A CN103455609A CN 103455609 A CN103455609 A CN 103455609A CN 2013104002444 A CN2013104002444 A CN 2013104002444A CN 201310400244 A CN201310400244 A CN 201310400244A CN 103455609 A CN103455609 A CN 103455609A
Authority
CN
China
Prior art keywords
patent documentation
similarity
kernel function
word
pieces
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013104002444A
Other languages
English (en)
Other versions
CN103455609B (zh
Inventor
王秀红
卢章平
陈潇君
汪满容
鞠时光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN201310400244.4A priority Critical patent/CN103455609B/zh
Publication of CN103455609A publication Critical patent/CN103455609A/zh
Priority to PCT/CN2014/085732 priority patent/WO2015032301A1/zh
Priority to US14/915,643 priority patent/US20160224622A1/en
Application granted granted Critical
Publication of CN103455609B publication Critical patent/CN103455609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于新核函数Luke核的专利文献相似度检测方法,将专利文献分成5要素,即专利名称、摘要、权利要求书、说明书和主分类号;构造新的核函数Luke核,利用Luke核分别计算两篇专利文献前四个要素间的相似度,再利用字符串匹配计算两专利文献的主分类号之间的相似度,然后将两专利文献5要素间的相似度进行加权求和得专利文献的总体相似度。本发明的技术方案进一步提高了专利文献的相似度检测的精准率和召回率,可应用于专利文献的相似度检测。

Description

一种基于新核函数Luke核的专利文献相似度检测方法
技术领域
本发明属于信息检索技术领域,具体涉及专利文献的文本相似度计算技术。
背景技术
专利的相似度是旨专利间技术内容上的相似性,现有的计算方法大体分成两类:一是基于专利引文的分析,二是基于专利内容的分析。利用引文分析法来来分析文献间的相似性的研究已久。在专利相似检测方面,Stuart用专利的共引关系测量日本10家半导体企业的技术相似度。Lai利用共引分析法来测量专利的相似度。McGill和Mowery等在分析专利联盟内企业之间的关系时,采用互引率测量企业的专利相似度。利用引文分析法来测量专利的相似度有许多不足:只能体现有引用有关系的专利间的相似,不能表明所有真正相关的专利间的相似关系,如中国专利大部分没有引文,这样的专利文献相似度计算通过引文分析法无法很好地解决。基于专利内容来分析专利内容上的相似性的目前研究主要有:Bergmann,Moehrle等提出专利语义分析方法;Gerken于2012年提出一种基于语义专利分析的方法来测量专利的新颖性。Cascini提出发明功能树方法,通过比较该树中组件以及组件的功能和层次关系来确定专利的相似度,反映的是专利概念上的相似度而非专利内容上的相似度。Magerman等验证了文本挖掘技术测量专利相似度的准确性和可能性,Yoon等利用文本挖掘技术对专利文献进行预处理,构建专利的关键词向量、利用传统的方法,通过计算向量间的欧氏距离来计算专利的相似度,相似检测的精准率和召回率有待进一步提高。陈芨熙等依据专利文献特征构建专利模型树和节点,基于现有的向量空间模型进行相似计算,以专利的名称和摘要信息加权相似度作为分类的依据。彭继东和谭宗颖提出一种基于文本挖掘技术,以专利名称、摘要、权利要求和说明书4个文本要素的加权相似度作为专利相似度的计算方法[1]。Kim等2012年提出使用奇异值方法来计算给定的节点对节点相似矩阵的贡献,从而检测有影响力的专利。Moehrle于2012年提出基于设计决策和结果的文本专利相似测量方法。基于内容的专利相似度计算方法,比起引文分析方法来具有更准确和全面的优势。现有的研究中,大部分是通过分析专利文献的特征,利用现有的向量空间模型计算方法或文本挖掘技术来计算同来类间或一同一特征内的相似度;本课题组提出的S_Wang核[2](专利号ZL201210105942.7)在分布式信息检索结果融合中有较好的表现。
专利文献的相似度检测中最本质的问题是计算两个专利文献间的相似度。现有技术中用于计算专利文献的相似度的数学模型往往采用传统的现有向量相似计算数学模型,缺少针对性;在专利文献的结构要素方面只考虑到名称、摘要、权利要求和说明书,忽视了国际专利分类号在专利文献相似计算中的重要作用;现有的方法导致在对专利文献进行相似度计算时的精准率和召回率均有待进一步提高。
[1]彭继东;谭宗颖一种基于文本挖掘的专利相似度测量方法及其应用,情报理论与实践,2012(12):114-118.
[2]王秀红.一种基于核函数的文档相似检测方法,专利号ZL201210105942.7.
发明内容
本发明的目的在于提供一种基于新核函数Luke核的专利文献相似度检测方法,进一步提高专利相似计算的精准率和召回率。
为了解决以上技术问题,本发明构造新的适合专利文献相似度计算的核函数,并结合考虑国际专利分类号在专利文献相似度计算中的重要作用。具体技术方案如下:
一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于包括以下步骤:
步骤1,将待比对的两篇专利文献DX和DZ的文本分别表示成向量x和z的步骤;
步骤2,专利文献结构化表示的步骤:将专利文献分成专利名称、摘要、权利要求、说明书以及主分类号即IPC主分类号5个要素;所述待比对的两篇专利文献DX和DZ的所述前4个要素分别依次据步骤1所述的方法表示成向量为x1、x2、x3、x4和z1、z2、z3、z4
步骤3,构造适于专利文献相似度计算的新核函数k(x,z),并对所述函数k(x,z)是否可以作为相似度计算的核函数给予理论证明;
步骤4,首先利用所述核函数k(x,z),先计算所述待比对的两篇专利文献DX和DZ前四个各对应要素间的相似度Sj,Sj=k(xj,zj),j=1,2,3,4;
然后,对于所述待比对的两篇专利文献DX和DZ的主分类号,直接进行字符串匹配比对计算两篇专利文献DX和DZ的主分类号之间的相似度S5,具体算法过程为:依部、大类、小类、大组、小组顺序从前往后比较主分类号,如果两个专利的主分类号完全相同即小组号相同,则S5=1;如果小组号不同,但大组号相同,则S5=0.75;如果大组号不同,但小类号相同,则S5=0.5;如果小类号不同,但大类号相同,则S5=0.25;如果大类号不同,但部号相同,则S5=0.1;如果完全不同,即部号不同,则S5=0;
最后加权求和得所述待比对的两篇专利文献DX和DZ的相似度S,具有如下形式
此处,
Figure BDA0000377714520000032
0≤ζj≤1,j=1,2,...,5。
所述的新核函数k(x,z)具有形式
Figure BDA0000377714520000033
所述的新核函数可以作为核函数的理论证明过程如下:
令X是Rn上的一个紧集,k(x,z)是X×X上连续实值对称函数,则有:
∫ ∫ X × X k ( x , z ) f ( x ) f ( z ) dxdz ≥ 0 , ∀ f ∈ L 2 ( x ) - - - ( 1 )
称此为Mercer条件;
(1)式等价于k(x,z)是一个核函数即k(x,z)=(φ(x)·φ(z)),x,z∈X其中φ为某个从X到Hilbert空间H的映射φ:|→φ(x)∈H,(·)是Hilbert空间L2上的内积。
下面证明所构建的函数
Figure BDA0000377714520000035
可以作为核函数,满足Mercer条件;
1)令k1(x,z)=xTz,所述新核函数可以改写为
k ( x , z ) = log 2 ( x T z + 1 ) = log 2 ( k 1 ( x , y ) + 1 ) - - - ( 2 )
2)显然k1(x,z)=xTz是线性核函数,它满足当X是Rn上的一个紧集时,k1(x,z)是X×X上为连续实值对称函数,因文档向量x和z所有元素值均为非负,所以k1(x,z)为非负;
3)当两篇专利文献DX和DZ完全相同时,k1(x,z)=xTz=1,而此时必然有
Figure BDA0000377714520000037
当两篇文档完全不同时,k1(x,z)=0,而此时必然有 k ( x , z ) = log 2 ( k 1 ( x , z ) + 1 ) = log 2 1 = 0 ;
综上所述,当X是Rn上的一个紧集时,
Figure BDA0000377714520000039
是X×X上为连续实值对称函数,且为非负;则由Mercer定理可推出 ∫ ∫ X × X k ( x , z ) f ( x ) f ( z ) dxdz ≥ 0 , ∀ f ∈ L 2 . 于是有所构造的k(x,z)可以作为核函数,即k(x,z)=(φ(x)·φ(z)),x,z∈X。
所述的步骤1具体为:
Step1,词包表达:将所有待比对的专利文献的整个集合称为文集,将出现在文集中的实词的集合称为词典;分别将待比对的两篇专利文献DX和DZ视为两个词包;
φ:DZ→zz=φ1(Z)=(tf(t1,z),tf(t2,z),...,tf(tN,z))∈RN
φ:DX→xx=φ1(X)=(tf(t1,x),tf(t2,x),...,tf(tN,x))∈RN
φ为词包法映射关系,N为所有待比对的专利文献中的实词构成的词典中词的个数;ti为词典中的实词;f(ti,z)表示实词ti在专利文献DZ中出现的频率,f(ti,x)表示实词ti在专利文献DX中出现的频率;i=1,2,...,N;
Step2,语义表示:由于词包表示未考虑词的语义信息,为此在包表示法的基础上构建语义核;不同的词对主题的重要程度不同,采用一个词在文档中出现的频率来量化这个词所带的信息重要程度,即逆文档频率IDF(InverseDocumentFrequency)规则,具体为
w ( t ) = ln ( l df ( t ) ) - - - ( 3 )
其中l为所述文集中存在的专利文献的个数,df(t)是包含实词t的专利文献的个数,w(t)为逆文档频率IDF规则定义的衡量实词t的权重的绝对尺度;
所述待比对的专利文献的带语义的向量表示形式为:
z0=(ω(t1)tf(t1,z),ω(t2)tf(t2,z),...,ω(tN)tf(tN,z))∈RN
x0=(ω(t1)tf(t1,x),ω(t2)tf(t2,x),...,tfω(tN)(tN,x))∈RN
再对向量z0和x0分别进行归一化处理,得所述向量x和z。
本发明具有有益效果。一方面,将本发明构造的新的核函数Luke核应用到专利文献的相似度计算,进一步提高了专利文献相似度计算的精准率和召回率。另一方面,本发明通过将专利文献分成5个要素,考虑到国际专利分类号在相似度计算方面的作用,通过先分别计算两个待比对的专利文献的对应要素间的相似度然后再加权求和得两篇专利文献的总相似度,提高了相似度计算的精准率和召回率的同时,减少了计算开销,提高了计算效率。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合附图,对本发明的技术方案作进一步详细说明。
如图1所示为本发明的思路图。为了方便描述,将本发明的新核核函数
Figure BDA0000377714520000051
简称为Luke核。
步骤1,利用词包法和逆文档频率IDF规则将专利文献的专利名称、摘要、权利要求、说明书四个要素分别表示成对应的向量x1、x2、x3、x4和z1、z2、z3、z4
步骤2,利用构造的新核函数Luke核分别计算专利名称、摘要、权利要求、说明书各要素对应的文本相似度
Figure BDA0000377714520000053
j=1,2,3,4。
步骤3,利用字符串比较算法计算不同专利文献主分类号之间的相似度S5,具体算法过程为:从前往后比较,依部、大类、小类、大组、小组顺序比较。如果两个专利的主分类号相同即到小组号均相同,则S5=1;如果小组号不同,但大组号相同,则S5=0.75;如果大组号不同,但小类号相同,则S5=0.5;如果小类号不同,但大类号相同,则S5=0.25;如果大类号不同,但部号相同,则S5=0.1;如果部号也不同,则S5=0。
步骤4,计算两篇专利文献的总体相似度
Figure BDA0000377714520000054
实验采用的评价指标分别为精准率(Precision)、招回率(Recall)和综合评价指标F。
评价指标的具体算法为:
Precision = true positive true positive + flase positive - - - ( 4 )
Recall = truepositive truepositive + flasenegative - - - ( 5 )
F β - measure = ( 1 + β 2 ) * precision * recall β 2 precision + recall - - - ( 6 )
将专利文献相似度计算中的招回率和精准率视为同等重要,本实施例中综合评价指标中的参数β取1,得F1指标。
实验数据取DEWENT专利数据库中2000个美国专利,则文集中专利文献的个数l=2000,训练/测试的比例是3:1。使用的软件有MATLAB7.0。信息检索工具箱选用卡内基-梅隆大学信息检索及语言模型工作组研发的Lemur工具箱。该Lemur工具箱支持对大规模文本数据库的索引,以及对文档、提问或文档子集构建简单的语言模型,除此之外,它还支持传统的检索模型,如向量空间模型VSM等。实验中线性学习器采用LibSVM。
现有研究中专利号为ZL201210105942.7的“一种基于核函数的文档相似检测方法”中的S-Wang核与其它现有的核函数比较起来在文本相似度计算方面有更好的精准率和召回率表现。在此基础上,本实施例将Luke核与S-Wang核函数和线性核在专利文献相似度检测中的效果进行了比较最终得不同核函数的相似度计算表现。实验还对比了将专利文献作为整体、依前四个要素即专利名称、摘要、权利要求书和说明书先分别进行相似度计算再加权求和、考虑主分类号在内的5个要素进行相似度计算再加权求和,实验结果分别如表1、表2和表3所示。表中,P表示相似度计算精准率分值,R表示相似度计算招回率分值,F1为综合评价指标分值。
表1专利文献作为一个整体,直接利用核函数计算相似度
线性核 S_wang核 Luke核
P 0.21 0.36 0.43
R 0.87 0.91 0.93
F1 0.34 0.52 0.59
表2不考虑IPC,只考虑前4个要素间的相似度,然后再加权求和
线性核 S_wang核 Luke核
P 0.25 0.39 0.50
R 0.88 0.93 0.95
F1 0.39 0.55 0.66
表3考虑5个要素间的相似度,然后再加权求和
线性核 S_wang核 Luke核
P 0.29 0.41 0.58
R 0.90 0.94 0.96
F1 0.44 0.57 0.72
*本实施例中,专利名称、摘要、权利要求、说明书以及主分类号五个要素的相似度权系数分别依次取ζ1=0.1,ζ2=0.1,ζ3=0.25,ζ4=0.25,ζ5=0.3。
从表1、表2和表3中可以看出,本发明的Luke核具有很好的相似度计算表现。从表2和表3的比较中可以看出,本发明将主分类号考虑进去将专利文献分成5个要素,先计算各要素间的相似度然后再加权求和得专利文献的相似度的技术方案,进一步提高了相似度计算的表现。
实验结果表明,本发明采用的专利文献的相似度计算技术方案,提高了专利文献相似度计算的精准率和召回率。

Claims (4)

1.一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于包括以下步骤:
步骤1,将待比对的两篇专利文献DX和DZ的文本分别表示成向量x和z的步骤;
步骤2,专利文献结构化表示的步骤:将专利文献分成专利名称、摘要、权利要求、说明书以及主分类号5个要素;所述待比对的两篇专利文献DX和DZ的所述前4个要素分别依次据步骤1所述的方法表示成向量为x1、x2、x3、x4和z1、z2、z3、z4
步骤3,构造适于专利文献相似度计算的新核函数k(x,z),并对所述函数k(x,z)是否可以作为相似度计算的核函数给予理论证明;
步骤4,首先利用所述核函数k(x,z),先计算所述待比对的两篇专利文献DX和DZ前四个各对应要素间的相似度Sj,Sj=k(xj,zj),j=1,2,3,4;
然后,对于所述待比对的两篇专利文献DX和DZ的主分类号要素,直接进行字符串匹配比对计算两篇专利文献DX和DZ的主分类号之间的相似度S5,具体算法过程为:依部、大类、小类、大组、小组顺序从前往后比较主分类号,如果两个专利的主分类号完全相同即小组号相同,则S5=1;如果小组号不同,但大组号相同,则S5=0.75;如果大组号不同,但小类号相同,则S5=0.5;如果小类号不同,但大类号相同,则S5=0.25;如果大类号不同,但部号相同,则S5=0.1;如果完全不同,即部号不同,则S5=0;
最后加权求和得所述待比对的两篇专利文献DX和DZ的相似度S
Figure FDA0000377714510000011
此处,
Figure FDA0000377714510000012
0≤ζj≤1,j=1,2,...,5。
2.如权利要求1所述的一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于:所述的新核函数k(x,z)具有形式
Figure FDA0000377714510000013
3.如权利要求2所述的一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于所述的新核函数可以作为核函数的理论证明过程如下:
令X是Rn上的一个紧集,k(x,z)是X×X上连续实值对称函数,则有:
∫ ∫ X × X k ( x , z ) f ( x ) f ( z ) dxdz ≥ 0 , ∀ f ∈ L 2 ( x ) - - - ( 1 )
称此为Mercer条件;
(1)式等价于k(x,z)是一个核函数即k(x,z)=(φ(x)·φ(z)),x,z∈X其中φ为某个从X到Hilbert空间H的映射φ:|→φ(x)∈H,(·)是Hilbert空间L2上的内积。
下面证明所构建的函数
Figure FDA0000377714510000022
可以作为核函数,满足Mercer条件;
1)令k1(x,z)=xTz,所述新核函数可以改写为
k ( x , z ) = log 2 ( x T z + 1 ) = log 2 ( k 1 ( x , y ) + 1 ) - - - ( 2 )
2)显然k1(x,z)=xTz是线性核函数,它满足当X是Rn上的一个紧集时,k1(x,z)是X×X上为连续实值对称函数,因文档向量x和z所有元素值均为非负,所以k1(x,z)为非负;
3)当两篇专利文献DX和DZ完全相同时,k1(x,z)=xTz=1,而此时必然有
Figure FDA0000377714510000024
当两篇文档完全不同时,k1(x,z)=0,而此时必然有 k ( x , z ) = log 2 ( k 1 ( x , z ) + 1 ) = log 2 1 = 0 ;
综上所述,当X是Rn上的一个紧集时,
Figure FDA0000377714510000026
是X×X上为连续实值对称函数,且为非负;则由Mercer定理可推出 ∫ ∫ X × X k ( x , z ) f ( x ) f ( z ) dxdz ≥ 0 , ∀ f ∈ L 2 , 于是有所构造的k(x,z)可以作为核函数,即k(x,z)=(φ(x)·φ(z)),x,z∈X。
4.如权利要求1所述的一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于所述的步骤1具体为:
Step1,词包表示:将所有待比对的专利文献的整个集合称为文集,将出现在文集中的实词的集合称为词典;分别将待比对的两篇专利文献DX和DZ视为两个词包,
φ:DZ→zz=φ1(Z)=(tf(t1,z),tf(t2,z),...,tf(tN,z))∈RN
φ:DX→xx=φ1(X)=(tf(t1,x),tf(t2,x),...,tf(tN,x))∈RN
φ为词包法映射关系,N为所有待比对的专利文献中的实词构成的词典中实词的个数;ti为词典中的实词;f(ti,z)表示实词ti在专利文献DZ中出现的频率,f(ti,x)表示实词ti在专利文献DX中出现的频率;i=1,2,...,N;
Step2,语义表达:由于词包表示未考虑词的语义信息,为此在包表示法的基础上构建语义核;不同的词对主题的重要程度不同,采用一个词在文档中出现的频率来量化这个词所带的信息重要程度,即逆文档频率IDF规则,具体为
w ( t ) = ln ( l df ( t ) ) - - - ( 3 )
其中l为所述文集中存在的专利文献的个数,df(t)是包含实词t的专利文献的个数,w(t)为逆文档频率IDF规则定义的衡量实词t的权重的绝对尺度;
进一步地,所述待比对的专利文献DX和DZ的带语义的向量表示形式为:
z0=(ω(t1)tf(t1,z),ω(t2)tf(t2,z),...,ω(tN)tf(tN,z))∈RN
x0=(ω(t1)tf(t1,x),ω(t2)tf(t2,x),...,tfω(tN)(tN,x))∈RN
再对向量z0和x0分别进行归一化处理,得所述向量x和z。
CN201310400244.4A 2013-09-05 2013-09-05 一种基于核函数Luke核的专利文献相似度检测方法 Active CN103455609B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310400244.4A CN103455609B (zh) 2013-09-05 2013-09-05 一种基于核函数Luke核的专利文献相似度检测方法
PCT/CN2014/085732 WO2015032301A1 (zh) 2013-09-05 2014-09-02 一种基于新核函数Luke核的专利文献相似度检测方法
US14/915,643 US20160224622A1 (en) 2013-09-05 2014-09-02 Method for detecting the similarity of the patent documents on the basis of new kernel function luke kernel

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310400244.4A CN103455609B (zh) 2013-09-05 2013-09-05 一种基于核函数Luke核的专利文献相似度检测方法

Publications (2)

Publication Number Publication Date
CN103455609A true CN103455609A (zh) 2013-12-18
CN103455609B CN103455609B (zh) 2017-06-16

Family

ID=49737972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310400244.4A Active CN103455609B (zh) 2013-09-05 2013-09-05 一种基于核函数Luke核的专利文献相似度检测方法

Country Status (3)

Country Link
US (1) US20160224622A1 (zh)
CN (1) CN103455609B (zh)
WO (1) WO2015032301A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942295A (zh) * 2014-04-14 2014-07-23 江苏大学 一种专利文献要素对相似度计算影响的表示方法
CN104199809A (zh) * 2014-04-24 2014-12-10 江苏大学 一种专利文本向量的语义表示方法
WO2015032301A1 (zh) * 2013-09-05 2015-03-12 江苏大学 一种基于新核函数Luke核的专利文献相似度检测方法
CN107895334A (zh) * 2016-10-04 2018-04-10 韩国科学技术情报研究院 专利纠纷预测装置及其方法
CN109284360A (zh) * 2018-09-18 2019-01-29 江苏润桐数据服务有限公司 一种专利检索自动去噪方法和装置
CN109522404A (zh) * 2018-08-30 2019-03-26 电子科技大学 一种基于nlp的专利自动识别分类的方法
CN112307055A (zh) * 2019-07-26 2021-02-02 傲为信息技术(江苏)有限公司 技术类开放式数字资产的检索方法
CN115686432A (zh) * 2022-12-30 2023-02-03 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015030796A1 (en) * 2013-08-30 2015-03-05 Intel Corporation Extensible context-aware natural language interactions for virtual personal assistants
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN107122482B (zh) * 2017-05-04 2018-06-15 北京望远迅杰科技有限公司 一种为项目所有人推荐专利代理机构的方法
WO2020074787A1 (en) * 2018-10-13 2020-04-16 IPRally Technologies Oy Method of searching patent documents
CN110083674B (zh) * 2019-03-04 2023-05-12 深圳云联智汇物联科技有限公司 一种知识产权信息处理方法和装置
CN112307201A (zh) * 2019-07-26 2021-02-02 傲为信息技术(江苏)有限公司 判断任意两个技术系统相似程度的方法
CN112307009A (zh) * 2019-07-26 2021-02-02 傲为信息技术(江苏)有限公司 技术类数字资产的查询方法
CN114580557A (zh) * 2022-03-10 2022-06-03 北京中知智慧科技有限公司 基于语义分析的文献相似度确定方法及装置
JP7421740B1 (ja) 2023-09-12 2024-01-25 Patentfield株式会社 分析プログラム、情報処理装置、および分析方法
CN116912047B (zh) * 2023-09-13 2023-11-28 湘潭大学 一种专利结构感知相似性检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031460A (ja) * 2004-07-16 2006-02-02 Advanced Telecommunication Research Institute International データ検索方法及びコンピュータプログラム
CN101625680A (zh) * 2008-07-09 2010-01-13 东北大学 面向专利领域的文档检索方法
CN102651034A (zh) * 2012-04-11 2012-08-29 江苏大学 一种基于核函数的文档相似检测方法
US20130138665A1 (en) * 2011-06-15 2013-05-30 The University Of Memphis Research Foundation Methods of evaluating semantic differences, methods of identifying related sets of items in semantic spaces, and systems and computer program products for implementing the same

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6038561A (en) * 1996-10-15 2000-03-14 Manning & Napier Information Services Management and analysis of document information text
US8065307B2 (en) * 2006-12-20 2011-11-22 Microsoft Corporation Parsing, analysis and scoring of document content
CN103455609B (zh) * 2013-09-05 2017-06-16 江苏大学 一种基于核函数Luke核的专利文献相似度检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031460A (ja) * 2004-07-16 2006-02-02 Advanced Telecommunication Research Institute International データ検索方法及びコンピュータプログラム
CN101625680A (zh) * 2008-07-09 2010-01-13 东北大学 面向专利领域的文档检索方法
US20130138665A1 (en) * 2011-06-15 2013-05-30 The University Of Memphis Research Foundation Methods of evaluating semantic differences, methods of identifying related sets of items in semantic spaces, and systems and computer program products for implementing the same
CN102651034A (zh) * 2012-04-11 2012-08-29 江苏大学 一种基于核函数的文档相似检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王秀红 等: "用于文本相似度计算的新核函数", 《通信学报》, vol. 33, no. 12, 25 December 2012 (2012-12-25), pages 43 - 48 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015032301A1 (zh) * 2013-09-05 2015-03-12 江苏大学 一种基于新核函数Luke核的专利文献相似度检测方法
CN103942295A (zh) * 2014-04-14 2014-07-23 江苏大学 一种专利文献要素对相似度计算影响的表示方法
CN104199809A (zh) * 2014-04-24 2014-12-10 江苏大学 一种专利文本向量的语义表示方法
CN107895334A (zh) * 2016-10-04 2018-04-10 韩国科学技术情报研究院 专利纠纷预测装置及其方法
CN109522404A (zh) * 2018-08-30 2019-03-26 电子科技大学 一种基于nlp的专利自动识别分类的方法
CN109284360A (zh) * 2018-09-18 2019-01-29 江苏润桐数据服务有限公司 一种专利检索自动去噪方法和装置
CN112307055A (zh) * 2019-07-26 2021-02-02 傲为信息技术(江苏)有限公司 技术类开放式数字资产的检索方法
WO2021017633A1 (zh) * 2019-07-26 2021-02-04 南京瑞祥信息技术有限公司 技术类开放式数字资产的检索方法
CN115686432A (zh) * 2022-12-30 2023-02-03 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端
CN115686432B (zh) * 2022-12-30 2023-04-07 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端

Also Published As

Publication number Publication date
CN103455609B (zh) 2017-06-16
WO2015032301A1 (zh) 2015-03-12
US20160224622A1 (en) 2016-08-04

Similar Documents

Publication Publication Date Title
CN103455609A (zh) 一种基于新核函数Luke核的专利文献相似度检测方法
CN104834747A (zh) 基于卷积神经网络的短文本分类方法
CN103020851B (zh) 一种支持商品评论数据多维分析的度量计算方法
CN103631858B (zh) 一种科技项目相似度计算方法
CN105260474A (zh) 一种基于信息交互网络的微博用户影响力计算方法
US20140195518A1 (en) System and Method for Data Mining Using Domain-Level Context
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN101807211B (zh) 一种面向海量小规模xml文档融合路径约束的xml检索方法
Su et al. Dam safety prediction model considering chaotic characteristics in prototype monitoring data series
CN104090936B (zh) 一种基于超图排序的新闻推荐方法
CN103077157B (zh) 一种文本集合相似性的可视化方法和装置
CN105550170A (zh) 一种中文分词方法及装置
Heinze et al. Confidence intervals after multiple imputation: combining profile likelihood information from logistic regressions
Li et al. TagDC: A tag recommendation method for software information sites with a combination of deep learning and collaborative filtering
CN105955975A (zh) 一种面向学术文献的知识推荐方法
CN106598949A (zh) 一种词语对文本贡献度的确定方法及装置
CN103389973A (zh) 一种利用中文人名判定性别的方法
Qiu et al. GKEEP: an enhanced graph‐based keyword extractor with error‐feedback propagation for geoscience reports
CN104090918B (zh) 一种基于信息量的句子相似度计算方法
Tingey et al. Development of a parameterized reduced-order vertical-axis wind turbine wake model
Li et al. Dsco: A language modeling approach for time series classification
Tratnik A method for computing the edge-hyper-Wiener index of partial cubes and an algorithm for benzenoid systems
Wang et al. Incorporating graphical structure of predictors in sparse quantile regression
De et al. An unsupervised approach to automated selection of good essays
McInnes et al. Improving Correlation with Human Judgments by Integrating Semantic Similarity with Second--Order Vectors

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant