CN103455609A - 一种基于新核函数Luke核的专利文献相似度检测方法 - Google Patents
一种基于新核函数Luke核的专利文献相似度检测方法 Download PDFInfo
- Publication number
- CN103455609A CN103455609A CN2013104002444A CN201310400244A CN103455609A CN 103455609 A CN103455609 A CN 103455609A CN 2013104002444 A CN2013104002444 A CN 2013104002444A CN 201310400244 A CN201310400244 A CN 201310400244A CN 103455609 A CN103455609 A CN 103455609A
- Authority
- CN
- China
- Prior art keywords
- patent documentation
- similarity
- kernel function
- word
- pieces
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 30
- 238000004458 analytical method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 241000288904 Lemur Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 241001523383 Achnatherum Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000010903 husk Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/11—Patent retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于新核函数Luke核的专利文献相似度检测方法,将专利文献分成5要素,即专利名称、摘要、权利要求书、说明书和主分类号;构造新的核函数Luke核,利用Luke核分别计算两篇专利文献前四个要素间的相似度,再利用字符串匹配计算两专利文献的主分类号之间的相似度,然后将两专利文献5要素间的相似度进行加权求和得专利文献的总体相似度。本发明的技术方案进一步提高了专利文献的相似度检测的精准率和召回率,可应用于专利文献的相似度检测。
Description
技术领域
本发明属于信息检索技术领域,具体涉及专利文献的文本相似度计算技术。
背景技术
专利的相似度是旨专利间技术内容上的相似性,现有的计算方法大体分成两类:一是基于专利引文的分析,二是基于专利内容的分析。利用引文分析法来来分析文献间的相似性的研究已久。在专利相似检测方面,Stuart用专利的共引关系测量日本10家半导体企业的技术相似度。Lai利用共引分析法来测量专利的相似度。McGill和Mowery等在分析专利联盟内企业之间的关系时,采用互引率测量企业的专利相似度。利用引文分析法来测量专利的相似度有许多不足:只能体现有引用有关系的专利间的相似,不能表明所有真正相关的专利间的相似关系,如中国专利大部分没有引文,这样的专利文献相似度计算通过引文分析法无法很好地解决。基于专利内容来分析专利内容上的相似性的目前研究主要有:Bergmann,Moehrle等提出专利语义分析方法;Gerken于2012年提出一种基于语义专利分析的方法来测量专利的新颖性。Cascini提出发明功能树方法,通过比较该树中组件以及组件的功能和层次关系来确定专利的相似度,反映的是专利概念上的相似度而非专利内容上的相似度。Magerman等验证了文本挖掘技术测量专利相似度的准确性和可能性,Yoon等利用文本挖掘技术对专利文献进行预处理,构建专利的关键词向量、利用传统的方法,通过计算向量间的欧氏距离来计算专利的相似度,相似检测的精准率和召回率有待进一步提高。陈芨熙等依据专利文献特征构建专利模型树和节点,基于现有的向量空间模型进行相似计算,以专利的名称和摘要信息加权相似度作为分类的依据。彭继东和谭宗颖提出一种基于文本挖掘技术,以专利名称、摘要、权利要求和说明书4个文本要素的加权相似度作为专利相似度的计算方法[1]。Kim等2012年提出使用奇异值方法来计算给定的节点对节点相似矩阵的贡献,从而检测有影响力的专利。Moehrle于2012年提出基于设计决策和结果的文本专利相似测量方法。基于内容的专利相似度计算方法,比起引文分析方法来具有更准确和全面的优势。现有的研究中,大部分是通过分析专利文献的特征,利用现有的向量空间模型计算方法或文本挖掘技术来计算同来类间或一同一特征内的相似度;本课题组提出的S_Wang核[2](专利号ZL201210105942.7)在分布式信息检索结果融合中有较好的表现。
专利文献的相似度检测中最本质的问题是计算两个专利文献间的相似度。现有技术中用于计算专利文献的相似度的数学模型往往采用传统的现有向量相似计算数学模型,缺少针对性;在专利文献的结构要素方面只考虑到名称、摘要、权利要求和说明书,忽视了国际专利分类号在专利文献相似计算中的重要作用;现有的方法导致在对专利文献进行相似度计算时的精准率和召回率均有待进一步提高。
[1]彭继东;谭宗颖一种基于文本挖掘的专利相似度测量方法及其应用,情报理论与实践,2012(12):114-118.
[2]王秀红.一种基于核函数的文档相似检测方法,专利号ZL201210105942.7.
发明内容
本发明的目的在于提供一种基于新核函数Luke核的专利文献相似度检测方法,进一步提高专利相似计算的精准率和召回率。
为了解决以上技术问题,本发明构造新的适合专利文献相似度计算的核函数,并结合考虑国际专利分类号在专利文献相似度计算中的重要作用。具体技术方案如下:
一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于包括以下步骤:
步骤1,将待比对的两篇专利文献DX和DZ的文本分别表示成向量x和z的步骤;
步骤2,专利文献结构化表示的步骤:将专利文献分成专利名称、摘要、权利要求、说明书以及主分类号即IPC主分类号5个要素;所述待比对的两篇专利文献DX和DZ的所述前4个要素分别依次据步骤1所述的方法表示成向量为x1、x2、x3、x4和z1、z2、z3、z4;
步骤3,构造适于专利文献相似度计算的新核函数k(x,z),并对所述函数k(x,z)是否可以作为相似度计算的核函数给予理论证明;
步骤4,首先利用所述核函数k(x,z),先计算所述待比对的两篇专利文献DX和DZ前四个各对应要素间的相似度Sj,Sj=k(xj,zj),j=1,2,3,4;
然后,对于所述待比对的两篇专利文献DX和DZ的主分类号,直接进行字符串匹配比对计算两篇专利文献DX和DZ的主分类号之间的相似度S5,具体算法过程为:依部、大类、小类、大组、小组顺序从前往后比较主分类号,如果两个专利的主分类号完全相同即小组号相同,则S5=1;如果小组号不同,但大组号相同,则S5=0.75;如果大组号不同,但小类号相同,则S5=0.5;如果小类号不同,但大类号相同,则S5=0.25;如果大类号不同,但部号相同,则S5=0.1;如果完全不同,即部号不同,则S5=0;
最后加权求和得所述待比对的两篇专利文献DX和DZ的相似度S,具有如下形式
所述的新核函数可以作为核函数的理论证明过程如下:
令X是Rn上的一个紧集,k(x,z)是X×X上连续实值对称函数,则有:
称此为Mercer条件;
(1)式等价于k(x,z)是一个核函数即k(x,z)=(φ(x)·φ(z)),x,z∈X其中φ为某个从X到Hilbert空间H的映射φ:|→φ(x)∈H,(·)是Hilbert空间L2上的内积。
1)令k1(x,z)=xTz,所述新核函数可以改写为
2)显然k1(x,z)=xTz是线性核函数,它满足当X是Rn上的一个紧集时,k1(x,z)是X×X上为连续实值对称函数,因文档向量x和z所有元素值均为非负,所以k1(x,z)为非负;
所述的步骤1具体为:
Step1,词包表达:将所有待比对的专利文献的整个集合称为文集,将出现在文集中的实词的集合称为词典;分别将待比对的两篇专利文献DX和DZ视为两个词包;
φ:DZ→zz=φ1(Z)=(tf(t1,z),tf(t2,z),...,tf(tN,z))∈RN,
φ:DX→xx=φ1(X)=(tf(t1,x),tf(t2,x),...,tf(tN,x))∈RN,
φ为词包法映射关系,N为所有待比对的专利文献中的实词构成的词典中词的个数;ti为词典中的实词;f(ti,z)表示实词ti在专利文献DZ中出现的频率,f(ti,x)表示实词ti在专利文献DX中出现的频率;i=1,2,...,N;
Step2,语义表示:由于词包表示未考虑词的语义信息,为此在包表示法的基础上构建语义核;不同的词对主题的重要程度不同,采用一个词在文档中出现的频率来量化这个词所带的信息重要程度,即逆文档频率IDF(InverseDocumentFrequency)规则,具体为
其中l为所述文集中存在的专利文献的个数,df(t)是包含实词t的专利文献的个数,w(t)为逆文档频率IDF规则定义的衡量实词t的权重的绝对尺度;
所述待比对的专利文献的带语义的向量表示形式为:
z0=(ω(t1)tf(t1,z),ω(t2)tf(t2,z),...,ω(tN)tf(tN,z))∈RN
x0=(ω(t1)tf(t1,x),ω(t2)tf(t2,x),...,tfω(tN)(tN,x))∈RN
再对向量z0和x0分别进行归一化处理,得所述向量x和z。
本发明具有有益效果。一方面,将本发明构造的新的核函数Luke核应用到专利文献的相似度计算,进一步提高了专利文献相似度计算的精准率和召回率。另一方面,本发明通过将专利文献分成5个要素,考虑到国际专利分类号在相似度计算方面的作用,通过先分别计算两个待比对的专利文献的对应要素间的相似度然后再加权求和得两篇专利文献的总相似度,提高了相似度计算的精准率和召回率的同时,减少了计算开销,提高了计算效率。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合附图,对本发明的技术方案作进一步详细说明。
步骤1,利用词包法和逆文档频率IDF规则将专利文献的专利名称、摘要、权利要求、说明书四个要素分别表示成对应的向量x1、x2、x3、x4和z1、z2、z3、z4;
步骤3,利用字符串比较算法计算不同专利文献主分类号之间的相似度S5,具体算法过程为:从前往后比较,依部、大类、小类、大组、小组顺序比较。如果两个专利的主分类号相同即到小组号均相同,则S5=1;如果小组号不同,但大组号相同,则S5=0.75;如果大组号不同,但小类号相同,则S5=0.5;如果小类号不同,但大类号相同,则S5=0.25;如果大类号不同,但部号相同,则S5=0.1;如果部号也不同,则S5=0。
实验采用的评价指标分别为精准率(Precision)、招回率(Recall)和综合评价指标F。
评价指标的具体算法为:
将专利文献相似度计算中的招回率和精准率视为同等重要,本实施例中综合评价指标中的参数β取1,得F1指标。
实验数据取DEWENT专利数据库中2000个美国专利,则文集中专利文献的个数l=2000,训练/测试的比例是3:1。使用的软件有MATLAB7.0。信息检索工具箱选用卡内基-梅隆大学信息检索及语言模型工作组研发的Lemur工具箱。该Lemur工具箱支持对大规模文本数据库的索引,以及对文档、提问或文档子集构建简单的语言模型,除此之外,它还支持传统的检索模型,如向量空间模型VSM等。实验中线性学习器采用LibSVM。
现有研究中专利号为ZL201210105942.7的“一种基于核函数的文档相似检测方法”中的S-Wang核与其它现有的核函数比较起来在文本相似度计算方面有更好的精准率和召回率表现。在此基础上,本实施例将Luke核与S-Wang核函数和线性核在专利文献相似度检测中的效果进行了比较最终得不同核函数的相似度计算表现。实验还对比了将专利文献作为整体、依前四个要素即专利名称、摘要、权利要求书和说明书先分别进行相似度计算再加权求和、考虑主分类号在内的5个要素进行相似度计算再加权求和,实验结果分别如表1、表2和表3所示。表中,P表示相似度计算精准率分值,R表示相似度计算招回率分值,F1为综合评价指标分值。
表1专利文献作为一个整体,直接利用核函数计算相似度
线性核 | S_wang核 | Luke核 | |
P | 0.21 | 0.36 | 0.43 |
R | 0.87 | 0.91 | 0.93 |
F1 | 0.34 | 0.52 | 0.59 |
表2不考虑IPC,只考虑前4个要素间的相似度,然后再加权求和
线性核 | S_wang核 | Luke核 | |
P | 0.25 | 0.39 | 0.50 |
R | 0.88 | 0.93 | 0.95 |
F1 | 0.39 | 0.55 | 0.66 |
表3考虑5个要素间的相似度,然后再加权求和
线性核 | S_wang核 | Luke核 | |
P | 0.29 | 0.41 | 0.58 |
R | 0.90 | 0.94 | 0.96 |
F1 | 0.44 | 0.57 | 0.72 |
*本实施例中,专利名称、摘要、权利要求、说明书以及主分类号五个要素的相似度权系数分别依次取ζ1=0.1,ζ2=0.1,ζ3=0.25,ζ4=0.25,ζ5=0.3。
从表1、表2和表3中可以看出,本发明的Luke核具有很好的相似度计算表现。从表2和表3的比较中可以看出,本发明将主分类号考虑进去将专利文献分成5个要素,先计算各要素间的相似度然后再加权求和得专利文献的相似度的技术方案,进一步提高了相似度计算的表现。
实验结果表明,本发明采用的专利文献的相似度计算技术方案,提高了专利文献相似度计算的精准率和召回率。
Claims (4)
1.一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于包括以下步骤:
步骤1,将待比对的两篇专利文献DX和DZ的文本分别表示成向量x和z的步骤;
步骤2,专利文献结构化表示的步骤:将专利文献分成专利名称、摘要、权利要求、说明书以及主分类号5个要素;所述待比对的两篇专利文献DX和DZ的所述前4个要素分别依次据步骤1所述的方法表示成向量为x1、x2、x3、x4和z1、z2、z3、z4;
步骤3,构造适于专利文献相似度计算的新核函数k(x,z),并对所述函数k(x,z)是否可以作为相似度计算的核函数给予理论证明;
步骤4,首先利用所述核函数k(x,z),先计算所述待比对的两篇专利文献DX和DZ前四个各对应要素间的相似度Sj,Sj=k(xj,zj),j=1,2,3,4;
然后,对于所述待比对的两篇专利文献DX和DZ的主分类号要素,直接进行字符串匹配比对计算两篇专利文献DX和DZ的主分类号之间的相似度S5,具体算法过程为:依部、大类、小类、大组、小组顺序从前往后比较主分类号,如果两个专利的主分类号完全相同即小组号相同,则S5=1;如果小组号不同,但大组号相同,则S5=0.75;如果大组号不同,但小类号相同,则S5=0.5;如果小类号不同,但大类号相同,则S5=0.25;如果大类号不同,但部号相同,则S5=0.1;如果完全不同,即部号不同,则S5=0;
最后加权求和得所述待比对的两篇专利文献DX和DZ的相似度S
3.如权利要求2所述的一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于所述的新核函数可以作为核函数的理论证明过程如下:
令X是Rn上的一个紧集,k(x,z)是X×X上连续实值对称函数,则有:
称此为Mercer条件;
(1)式等价于k(x,z)是一个核函数即k(x,z)=(φ(x)·φ(z)),x,z∈X其中φ为某个从X到Hilbert空间H的映射φ:|→φ(x)∈H,(·)是Hilbert空间L2上的内积。
1)令k1(x,z)=xTz,所述新核函数可以改写为
2)显然k1(x,z)=xTz是线性核函数,它满足当X是Rn上的一个紧集时,k1(x,z)是X×X上为连续实值对称函数,因文档向量x和z所有元素值均为非负,所以k1(x,z)为非负;
4.如权利要求1所述的一种基于新核函数Luke核的专利文献相似度检测方法,其特征在于所述的步骤1具体为:
Step1,词包表示:将所有待比对的专利文献的整个集合称为文集,将出现在文集中的实词的集合称为词典;分别将待比对的两篇专利文献DX和DZ视为两个词包,
φ:DZ→zz=φ1(Z)=(tf(t1,z),tf(t2,z),...,tf(tN,z))∈RN,
φ:DX→xx=φ1(X)=(tf(t1,x),tf(t2,x),...,tf(tN,x))∈RN,
φ为词包法映射关系,N为所有待比对的专利文献中的实词构成的词典中实词的个数;ti为词典中的实词;f(ti,z)表示实词ti在专利文献DZ中出现的频率,f(ti,x)表示实词ti在专利文献DX中出现的频率;i=1,2,...,N;
Step2,语义表达:由于词包表示未考虑词的语义信息,为此在包表示法的基础上构建语义核;不同的词对主题的重要程度不同,采用一个词在文档中出现的频率来量化这个词所带的信息重要程度,即逆文档频率IDF规则,具体为
其中l为所述文集中存在的专利文献的个数,df(t)是包含实词t的专利文献的个数,w(t)为逆文档频率IDF规则定义的衡量实词t的权重的绝对尺度;
进一步地,所述待比对的专利文献DX和DZ的带语义的向量表示形式为:
z0=(ω(t1)tf(t1,z),ω(t2)tf(t2,z),...,ω(tN)tf(tN,z))∈RN
x0=(ω(t1)tf(t1,x),ω(t2)tf(t2,x),...,tfω(tN)(tN,x))∈RN
再对向量z0和x0分别进行归一化处理,得所述向量x和z。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310400244.4A CN103455609B (zh) | 2013-09-05 | 2013-09-05 | 一种基于核函数Luke核的专利文献相似度检测方法 |
PCT/CN2014/085732 WO2015032301A1 (zh) | 2013-09-05 | 2014-09-02 | 一种基于新核函数Luke核的专利文献相似度检测方法 |
US14/915,643 US20160224622A1 (en) | 2013-09-05 | 2014-09-02 | Method for detecting the similarity of the patent documents on the basis of new kernel function luke kernel |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310400244.4A CN103455609B (zh) | 2013-09-05 | 2013-09-05 | 一种基于核函数Luke核的专利文献相似度检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103455609A true CN103455609A (zh) | 2013-12-18 |
CN103455609B CN103455609B (zh) | 2017-06-16 |
Family
ID=49737972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310400244.4A Active CN103455609B (zh) | 2013-09-05 | 2013-09-05 | 一种基于核函数Luke核的专利文献相似度检测方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160224622A1 (zh) |
CN (1) | CN103455609B (zh) |
WO (1) | WO2015032301A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942295A (zh) * | 2014-04-14 | 2014-07-23 | 江苏大学 | 一种专利文献要素对相似度计算影响的表示方法 |
CN104199809A (zh) * | 2014-04-24 | 2014-12-10 | 江苏大学 | 一种专利文本向量的语义表示方法 |
WO2015032301A1 (zh) * | 2013-09-05 | 2015-03-12 | 江苏大学 | 一种基于新核函数Luke核的专利文献相似度检测方法 |
CN107895334A (zh) * | 2016-10-04 | 2018-04-10 | 韩国科学技术情报研究院 | 专利纠纷预测装置及其方法 |
CN109284360A (zh) * | 2018-09-18 | 2019-01-29 | 江苏润桐数据服务有限公司 | 一种专利检索自动去噪方法和装置 |
CN109522404A (zh) * | 2018-08-30 | 2019-03-26 | 电子科技大学 | 一种基于nlp的专利自动识别分类的方法 |
CN112307055A (zh) * | 2019-07-26 | 2021-02-02 | 傲为信息技术(江苏)有限公司 | 技术类开放式数字资产的检索方法 |
CN115686432A (zh) * | 2022-12-30 | 2023-02-03 | 药融云数字科技(成都)有限公司 | 一种用于检索排序的文献评价方法、存储介质及终端 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015030796A1 (en) * | 2013-08-30 | 2015-03-05 | Intel Corporation | Extensible context-aware natural language interactions for virtual personal assistants |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
CN107122482B (zh) * | 2017-05-04 | 2018-06-15 | 北京望远迅杰科技有限公司 | 一种为项目所有人推荐专利代理机构的方法 |
WO2020074787A1 (en) * | 2018-10-13 | 2020-04-16 | IPRally Technologies Oy | Method of searching patent documents |
CN110083674B (zh) * | 2019-03-04 | 2023-05-12 | 深圳云联智汇物联科技有限公司 | 一种知识产权信息处理方法和装置 |
CN112307201A (zh) * | 2019-07-26 | 2021-02-02 | 傲为信息技术(江苏)有限公司 | 判断任意两个技术系统相似程度的方法 |
CN112307009A (zh) * | 2019-07-26 | 2021-02-02 | 傲为信息技术(江苏)有限公司 | 技术类数字资产的查询方法 |
CN114580557A (zh) * | 2022-03-10 | 2022-06-03 | 北京中知智慧科技有限公司 | 基于语义分析的文献相似度确定方法及装置 |
JP7421740B1 (ja) | 2023-09-12 | 2024-01-25 | Patentfield株式会社 | 分析プログラム、情報処理装置、および分析方法 |
CN116912047B (zh) * | 2023-09-13 | 2023-11-28 | 湘潭大学 | 一种专利结构感知相似性检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031460A (ja) * | 2004-07-16 | 2006-02-02 | Advanced Telecommunication Research Institute International | データ検索方法及びコンピュータプログラム |
CN101625680A (zh) * | 2008-07-09 | 2010-01-13 | 东北大学 | 面向专利领域的文档检索方法 |
CN102651034A (zh) * | 2012-04-11 | 2012-08-29 | 江苏大学 | 一种基于核函数的文档相似检测方法 |
US20130138665A1 (en) * | 2011-06-15 | 2013-05-30 | The University Of Memphis Research Foundation | Methods of evaluating semantic differences, methods of identifying related sets of items in semantic spaces, and systems and computer program products for implementing the same |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6038561A (en) * | 1996-10-15 | 2000-03-14 | Manning & Napier Information Services | Management and analysis of document information text |
US8065307B2 (en) * | 2006-12-20 | 2011-11-22 | Microsoft Corporation | Parsing, analysis and scoring of document content |
CN103455609B (zh) * | 2013-09-05 | 2017-06-16 | 江苏大学 | 一种基于核函数Luke核的专利文献相似度检测方法 |
-
2013
- 2013-09-05 CN CN201310400244.4A patent/CN103455609B/zh active Active
-
2014
- 2014-09-02 US US14/915,643 patent/US20160224622A1/en not_active Abandoned
- 2014-09-02 WO PCT/CN2014/085732 patent/WO2015032301A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031460A (ja) * | 2004-07-16 | 2006-02-02 | Advanced Telecommunication Research Institute International | データ検索方法及びコンピュータプログラム |
CN101625680A (zh) * | 2008-07-09 | 2010-01-13 | 东北大学 | 面向专利领域的文档检索方法 |
US20130138665A1 (en) * | 2011-06-15 | 2013-05-30 | The University Of Memphis Research Foundation | Methods of evaluating semantic differences, methods of identifying related sets of items in semantic spaces, and systems and computer program products for implementing the same |
CN102651034A (zh) * | 2012-04-11 | 2012-08-29 | 江苏大学 | 一种基于核函数的文档相似检测方法 |
Non-Patent Citations (1)
Title |
---|
王秀红 等: "用于文本相似度计算的新核函数", 《通信学报》, vol. 33, no. 12, 25 December 2012 (2012-12-25), pages 43 - 48 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015032301A1 (zh) * | 2013-09-05 | 2015-03-12 | 江苏大学 | 一种基于新核函数Luke核的专利文献相似度检测方法 |
CN103942295A (zh) * | 2014-04-14 | 2014-07-23 | 江苏大学 | 一种专利文献要素对相似度计算影响的表示方法 |
CN104199809A (zh) * | 2014-04-24 | 2014-12-10 | 江苏大学 | 一种专利文本向量的语义表示方法 |
CN107895334A (zh) * | 2016-10-04 | 2018-04-10 | 韩国科学技术情报研究院 | 专利纠纷预测装置及其方法 |
CN109522404A (zh) * | 2018-08-30 | 2019-03-26 | 电子科技大学 | 一种基于nlp的专利自动识别分类的方法 |
CN109284360A (zh) * | 2018-09-18 | 2019-01-29 | 江苏润桐数据服务有限公司 | 一种专利检索自动去噪方法和装置 |
CN112307055A (zh) * | 2019-07-26 | 2021-02-02 | 傲为信息技术(江苏)有限公司 | 技术类开放式数字资产的检索方法 |
WO2021017633A1 (zh) * | 2019-07-26 | 2021-02-04 | 南京瑞祥信息技术有限公司 | 技术类开放式数字资产的检索方法 |
CN115686432A (zh) * | 2022-12-30 | 2023-02-03 | 药融云数字科技(成都)有限公司 | 一种用于检索排序的文献评价方法、存储介质及终端 |
CN115686432B (zh) * | 2022-12-30 | 2023-04-07 | 药融云数字科技(成都)有限公司 | 一种用于检索排序的文献评价方法、存储介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN103455609B (zh) | 2017-06-16 |
WO2015032301A1 (zh) | 2015-03-12 |
US20160224622A1 (en) | 2016-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103455609A (zh) | 一种基于新核函数Luke核的专利文献相似度检测方法 | |
CN104834747A (zh) | 基于卷积神经网络的短文本分类方法 | |
CN103020851B (zh) | 一种支持商品评论数据多维分析的度量计算方法 | |
CN103631858B (zh) | 一种科技项目相似度计算方法 | |
CN105260474A (zh) | 一种基于信息交互网络的微博用户影响力计算方法 | |
US20140195518A1 (en) | System and Method for Data Mining Using Domain-Level Context | |
CN103049569A (zh) | 基于向量空间模型的文本相似性匹配方法 | |
CN101807211B (zh) | 一种面向海量小规模xml文档融合路径约束的xml检索方法 | |
Su et al. | Dam safety prediction model considering chaotic characteristics in prototype monitoring data series | |
CN104090936B (zh) | 一种基于超图排序的新闻推荐方法 | |
CN103077157B (zh) | 一种文本集合相似性的可视化方法和装置 | |
CN105550170A (zh) | 一种中文分词方法及装置 | |
Heinze et al. | Confidence intervals after multiple imputation: combining profile likelihood information from logistic regressions | |
Li et al. | TagDC: A tag recommendation method for software information sites with a combination of deep learning and collaborative filtering | |
CN105955975A (zh) | 一种面向学术文献的知识推荐方法 | |
CN106598949A (zh) | 一种词语对文本贡献度的确定方法及装置 | |
CN103389973A (zh) | 一种利用中文人名判定性别的方法 | |
Qiu et al. | GKEEP: an enhanced graph‐based keyword extractor with error‐feedback propagation for geoscience reports | |
CN104090918B (zh) | 一种基于信息量的句子相似度计算方法 | |
Tingey et al. | Development of a parameterized reduced-order vertical-axis wind turbine wake model | |
Li et al. | Dsco: A language modeling approach for time series classification | |
Tratnik | A method for computing the edge-hyper-Wiener index of partial cubes and an algorithm for benzenoid systems | |
Wang et al. | Incorporating graphical structure of predictors in sparse quantile regression | |
De et al. | An unsupervised approach to automated selection of good essays | |
McInnes et al. | Improving Correlation with Human Judgments by Integrating Semantic Similarity with Second--Order Vectors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |