CN103336851A - 一种专利文献模型树构建方法 - Google Patents

一种专利文献模型树构建方法 Download PDF

Info

Publication number
CN103336851A
CN103336851A CN2013103137798A CN201310313779A CN103336851A CN 103336851 A CN103336851 A CN 103336851A CN 2013103137798 A CN2013103137798 A CN 2013103137798A CN 201310313779 A CN201310313779 A CN 201310313779A CN 103336851 A CN103336851 A CN 103336851A
Authority
CN
China
Prior art keywords
ipc
quoted passage
patent documentation
group
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013103137798A
Other languages
English (en)
Inventor
王秀红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN2013103137798A priority Critical patent/CN103336851A/zh
Publication of CN103336851A publication Critical patent/CN103336851A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种专利文献模型树构建方法,将专利文献的各组成部分的内容、多代引文和IPC相结合起来构建专利文献的模型树:将整个专利文献作为根节点;将摘要、说明书、权利要求书、IPC和引文作为中间节点;将独立权利要求,IPC的部、大组、小组、大类,以及引文中的1代引文至m-1代引文作为中间结点;将发明的名称、摘要中的技术方案和应用领域、权利要求中的从属权权利要求,以及说明书中的现有技术、解决的问题、技术方案、有益效果和实施例,IPC中小类,引文中的m0代引文作为叶结点。m为专利文献的第m代引文,1≤m≤m0。本发明使得专利文献的表示更加全面、深入和准确,可应用于专利文献的相似或相关计算。

Description

一种专利文献模型树构建方法
技术领域
本发明属于文本检索领域,具体涉及专利文献的表示方法。
背景技术
利用引文分析法来来分析文献间的相似性的研究已久。Stuart T B等1996年提出利用专利的共引关系测量日本10家半导体企业的技术相似度[1];McGill和Mowery等1998年提出采用互引率测量企业的专利相似度用以分析专利联盟内企业之间的关系[2];Lai K K等2005提出利用共引分析法来测量专利的相似度[3]。引文分析法很好地体现了有引用关系的专利间的相似,但无法解决没有引文的专利文献相似度计算问题,且不能充分起现专利内容上的相似度。
近5-6年来,利用专利内容分析计算专利相似度的方法得到很好的应用,基于专利文献的结构特征的专利相似研究方法主要有:意大利学者Cascini G等于2008年提出发明功能树方法,通过比较该树中组件以及组件的功能和层次关系来确定专利的相似度,反映的是专利概念上的相似度[4];彭继东和谭宗颖2010年提出以专利名称、摘要、权利要求和说明书的加权相似度作为专利相似度的计算方法[5]
将专利文献中不同要素之间构成的树状层次结构叫作专利模型树,专利模型树上没有父节点的专利要素称为该模型树的根节点,没有子节点的专利要素称为该模型树的叶节点,其他专利要素称为中间节点。国内学者陈芨熙等2009年提出依据专利文献特征构建专利模型树和节点,基于现有的向量空间模型进行相似计算,以专利的名称和摘要信息加权相似度作为分类的依据[6],该研究将专利名称、发明人、申请人、摘要、专利全文、中国分类号、以及该专利所在的IPC分类号中的部、大类和小类作为叶子结点。
现有的研究在一定程度上挖掘利用了专利文献的某些结构特征,但未能综合考虑国际专利分类号IPC表达的专利技术领域概念层次关系和专利文献的多代引用关系;未能深入挖掘专利文献摘要、说明书以及权利要求书中各部分内容具有的各自结构特征在专利相似计算中的作用,从而使专利文献的表示不够全面、深入和准确,最终导致专利文献相似或相关计算的精准率和召回率。
[1] Stuart T B,Podoly J M,Local search and the evolution of technological capabilities [J],Strategic Management Journal,Vol.17,No.2,PP.12-28,1996
[2] Mowery D C,Oxley J E,Silverman,B S,technological overlap and inter firm cooperation:implications for the resource-based view of the firm [J],Research Policy,Vol.27,No.5,pp.507-523,1998
[3] Lai K K,Wu S J,Using the patent co-citation approach to establish a new patent classificationsystem[J],Information Processing and Management,Vol.41,No.2,PP.313-330,2005
[4] Cascini Gaetano,Zini Manuel,Measuring Patent Similarity by Comparing InventionsFunctional Trees,Computer-aided Innovation,丛书:International Federation forInformation Processing,Vol.277,pp31-42,2008
[5]彭继东,谭宗颖,一种基于文本挖掘的专利相似度测量方法及其应用[J],情报理论与实践,第47卷,第10期,页码114-118,2010
[6]陈芨熙,顾新建,陈国海,魏江,基于向量空间模型的专利文献特征的相似专利确定方法[J],浙江大学学报(工学版),第43卷,第10期,页码1848-1852,1869,2009
发明内容
本发明的目的在于提供一种专利文献模型树构建方法,以提高专利文献表示的全面性、深入性和准确性,从而提交专利文献相似或相关计算的精准率和召回率。
为了解决以上技术问题,本发明将专利文献的各组成部分的内容、多代引文和IPC相结合起来构建专利文献的模型树,采用的具体技术方案如下:
一种专利文献模型树构建方法,包括以下步骤:
步骤一,将整个专利文献作为根节点;
步骤二,将摘要、说明书、权利要求书、IPC和引文作为中间节点,位于第二层;将被引用的独立权利要求、IPC的部、引文中的1代引文作为中间节点,位于第三层;将直接引用独立权利要求的从属权利要求、IPC的大组、引文中的2代引文作为中间节点,位于第四层;将从属权利要求作为其在先引用的权利要求的子结点;将IPC的小组作为IPC的大组的子结点,将IPC的大类作为IPC的小组的子结点,将IPC的小类作为IPC的大类的子结点;将m-1代引文及其所有前代引文作为中间结点;
步骤三,将发明的名称、摘要中的技术方案和应用领域、权利要求中不再被引用的权利要求,以及说明书中的现有技术、解决的问题、技术方案、有益效果和实施例,IPC中小类,引文中的m0代引文作为叶结点;
将m代引文作为m-1代引文的子结点;1≤m≤m0;当m=1时,m-1代引文即为所述专利文献本身;
以上步骤中,当专利文献只有独立权利要求而无从属权利要求时,此时的独立权利要求为叶结点,位于第三层;
以上步骤中,当所述专利文献的IPC号分到大类时,则IPC号的大类为叶结点,位于第六层。
所述的m=2,即优选至2代引文。根据经验,通常运用到第3代引文,在3代引用之外,其它相关性较小,考虑到计算开销,优选至2代引文。
当专利文献的IPC分类最详细类目不是小类时,而是大类、小组或大组中的一种时,以相应的大类、小组或大组作为叶结点。
本发明的应用过程。利用向量空间模型将待比对的两篇专利文献X和Z表示成向量x和z,再计算向量x和z之间的相似度即为专利文献X和Z相似度。
利用本发明的专利文献模型树,先针对X和Z在模型树中:1名称,2摘要,3权利要求,4说明书,5国际专利分类IPC和6引文上的对应文本分别表示成向量为xi,zi(i=1,...,6)。利用向量间夹角余弦计算两向量间的相似度,得各组成部分对应的相似度Si(i=1,...,6),再将专利文献模型树各部分的相似度进行加权求和,其权系数分别记为:σi(i=1,...,6)。所得待比对的专利文献X和Z的相似度S计算公式如下:
S ( x , z ) = Σ i = 1 6 σ i S i = Σ i = 1 6 σ i k ( x i , z i )
其中,权系数
0 ≤ σ i ≤ 1 ( i = 1 , . . . , 6 ) Σ i = 1 6 σ i = 1
σi(i=1,...,6)的取值根据实际应用需求、专家经验和机器学习优化方法来优化和确定。
本发明具有有益效果。
本发明综合考虑了IPC分类号和多代引文,并挖掘摘要、说明书和权利要求书中的固定结构内容作为专利文献模型树的叶结点,而不只是将摘要、说明书和权利要求整体作为叶结点,使得专利文献的表示更加全面、深入和准确,从而提升后续的专利文献的相似计算的精准率和召回率。
附图说明
图1为本发明的专利文献模型树示意图。
图中:独权表示独立权利要求,从权表示从属权利要求。
具体实施方式
下面结合附图对本发明的技术方案作进一步详细说明。
实施例1:模型树构建
以专利号为US7,168,207的美国专利文献为例。
专利名称:Potato drip irrigation system and method
摘要:本实施例专利文献的摘要技术方案内容为“The arrangementincludes…….A method is also provided.”。摘要中的应用领域内容为:“Anarrangement is provided for improving the yield of potato crops.”
权利要求:本实施例中的专利共有27个权利要求,共有两个独权,独权1有13个从权,从权数n1=13;独权2有12个从权,从权数n2=12;
说明书:技术领域TECHNICAL FIELD:“This invention pertains to planthusbandry.More particularly,the present invention relates to potatoplant arrangements and methods of planting potatoes which improves cropyield and quality.”
背景技术BACKGROUND OF THE INVENTION:“The production of potatoesforms an important portion of the agriculture economy of the UnitedStates……”
技术方案SUMMARY OF THE INVENTION:“An arrangement is provided forimproving the growing and the yield of potatoes from potato plants……”
IPC号为A01G 1/00。
引文。本实施例的专利在审查过程中,审查员引用了一篇参考文献“Shock CC,Eldredge E P,Saunders L D.Planting configuration and plant populationeffects on drip-irrigated Umatilla Russet yield and grade[J].OregonState University Agricultural Experiment Station,Special Report,2004,1055:182-186.”为一代引文;该报告又引用了其在先的文献,为代二引文;
本实施例的专利被专利号为US7,565,767的专利文献“Potato dripirrigation system”引用,也为一代引文。
如图1所示,构建专利号为US7,168,207的美国专利文献的模型树。
该实施例的专利模型树的构建如下:
步骤一,专利模型树的根节点为:专利号为US7,168,207专利文献。
步骤二,专利模型树的中间节点有:位于第二层的摘要ABSTRACT、说明书DESCRIPTION、权利要求书CLAIMS、IPC、引文REFERENCE;位于第三层的有独权1也就是权利要求1、独权2也就是权利要求15、IPC的部A、两个一代引文;
位于第四层的有大组A01、二代引文;A01G位于第五层。
步骤三,专利模型树的叶节点有:位于第二层的发明名称Potato dripirrigation system and method;位于第三层的摘要中的技术方案内容“Thearrangement includes…….A method is also provided.”、摘要中的应用领域内容“An arrangement is provided for improving the yield of potatocrops.”;位于第四层的权利要求2-14和权利要求16-27;位于第三层的说明书中的技术领域TECHNICAL FIELD、背景技术BACKGROUND OF THE INVENTION、技术方案SUMMARY OF THE INVENTION;位于第六层的IPC大类号A01G 1/00;位于第四层的二代引文,m0=2。

Claims (3)

1.一种专利文献模型树构建方法,包括将专利文献作为根节点的步骤一,其特征在于还包括以下步骤:
步骤二,将摘要、说明书、权利要求书、IPC和引文作为中间节点,位于第二层;将被引用的独立权利要求、IPC的部、引文中的1代引文作为中间节点,位于第三层;将直接引用独立权利要求的从属权利要求、IPC的大组、引文中的2代引文作为中间节点,位于第四层;将从属权利要求作为其在先引用的权利要求的子结点;将IPC的小组作为IPC的大组的子结点,将IPC的大类作为IPC的小组的子结点,将IPC的小类作为IPC的大类的子结点;将m-1代引文及其所有前代引文作为中间结点;
步骤三,将发明的名称、摘要中的技术方案和应用领域、权利要求中不再被引用的权利要求,以及说明书中的现有技术、解决的问题、技术方案、有益效果和实施例,IPC中小类,将引文中的取的最远一代的引文即m0代引文作为叶结点;
将m代引文作为m-1代引文的子结点;1≤m≤m0;当m=1时,m-1代引文即为所述专利文献本身;
以上步骤中,当专利文献只有独立权利要求而无从属权利要求时,此时的独立权利要求为叶结点,位于第三层;
以上步骤中,当所述专利文献的IPC号分到大类时,则IPC号的大类为叶结点,位于第六层。
2.一种专利文献模型树构建方法,其特征在于:所述的m0=2,即优选至2代引文。
3.一种专利文献模型树构建方法,其特征在于:当所述专利文献的IPC分类最详细类目不是小类或大类时,而是小组或大组中的一种时,以相应的小组或大组作为叶结点。
CN2013103137798A 2013-07-24 2013-07-24 一种专利文献模型树构建方法 Pending CN103336851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013103137798A CN103336851A (zh) 2013-07-24 2013-07-24 一种专利文献模型树构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013103137798A CN103336851A (zh) 2013-07-24 2013-07-24 一种专利文献模型树构建方法

Publications (1)

Publication Number Publication Date
CN103336851A true CN103336851A (zh) 2013-10-02

Family

ID=49245016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013103137798A Pending CN103336851A (zh) 2013-07-24 2013-07-24 一种专利文献模型树构建方法

Country Status (1)

Country Link
CN (1) CN103336851A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942295A (zh) * 2014-04-14 2014-07-23 江苏大学 一种专利文献要素对相似度计算影响的表示方法
CN106845798A (zh) * 2016-12-29 2017-06-13 兰州大学淮安高新技术研究院 一种基于多叉树的跨领域专利预警信息分析方法
CN109117434A (zh) * 2017-06-23 2019-01-01 北京国双科技有限公司 裁判文书检索方法、装置、存储介质及处理器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102331987A (zh) * 2010-07-12 2012-01-25 管中徽 专利数据挖掘系统及方法
CN103164469A (zh) * 2011-12-16 2013-06-19 苏州威世博知识产权服务有限公司 专利树构建、插入及删除节点的方法、装置及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102331987A (zh) * 2010-07-12 2012-01-25 管中徽 专利数据挖掘系统及方法
CN103164469A (zh) * 2011-12-16 2013-06-19 苏州威世博知识产权服务有限公司 专利树构建、插入及删除节点的方法、装置及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张少龙等: "《专利文献引用关联可视化系统的构建》", 《现代图书情报技术》 *
陈芨熙等: "《基于向量空间模型和专利文献特征的相似专利确定方法》", 《浙江大学学报(工学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942295A (zh) * 2014-04-14 2014-07-23 江苏大学 一种专利文献要素对相似度计算影响的表示方法
CN106845798A (zh) * 2016-12-29 2017-06-13 兰州大学淮安高新技术研究院 一种基于多叉树的跨领域专利预警信息分析方法
CN109117434A (zh) * 2017-06-23 2019-01-01 北京国双科技有限公司 裁判文书检索方法、装置、存储介质及处理器
CN109117434B (zh) * 2017-06-23 2022-05-27 北京国双科技有限公司 裁判文书检索方法、装置、存储介质及处理器

Similar Documents

Publication Publication Date Title
Jin et al. Assessment of the AquaCrop model for use in simulation of irrigated winter wheat canopy cover, biomass, and grain yield in the North China Plain
Temesgen et al. Analysis and comparison of nonlinear tree height prediction strategies for Douglas-fir forests
Wallach et al. Parameter estimation for crop models: a new approach and application to a corn model
Stevens et al. Future climate impacts on maize farming and food security in Malawi
DeJonge et al. Global sensitivity and uncertainty analysis of a dynamic agroecosystem model under different irrigation treatments
Sharma et al. Site index prediction from site and climate variables for Norway spruce and Scots pine in Norway
Arevalo et al. Development and validation of aboveground biomass estimations for four Salix clones in central New York
Yin et al. Adapting maize production to drought in the Northeast Farming Region of China
Voorend et al. LEAF-E: a tool to analyze grass leaf growth using function fitting
Hui et al. Influences of biotic and abiotic factors on the relationship between tree productivity and biomass in China
Boyer et al. Switchgrass yield response functions and profit‐maximizing nitrogen rates on four landscapes in Tennessee
Ciampitti et al. Potential physiological frameworks for mid‐season field phenotyping of final plant nitrogen uptake, nitrogen use efficiency, and grain yield in maize
Marin et al. A stochastic method for crop models: including uncertainty in a sugarcane model
Scanlan et al. Scaling results up from a plot and paddock scale to a property–a case study from a long-term grazing experiment in northern Australia
Dadrasi et al. Parameterization and evaluation of a Simple Simulation Model (SSM-iCrop2) for potato (Solanum tuberosum L.) growth and yield in Iran
He et al. Sensitivity analysis of crop yields, soil water contents and nitrogen leaching to precipitation, management practices and soil hydraulic properties in semi-arid and humid regions of Canada using the DSSAT model
Jawad et al. Analysis of optimum crop cultivation using fuzzy system
Pagès et al. Links between root length density profiles and models of the root system architecture
Park et al. Priorities for wheat intensification in the Eastern Indo-Gangetic Plains
Bai et al. Impact of climate change on agricultural productivity: a combination of spatial Durbin model and entropy approaches
CN103336851A (zh) 一种专利文献模型树构建方法
Byju et al. Site‐specific nutrient management for cassava in southern India
Melesse et al. Variation in growth potential between hybrid clones of Eucalyptus trees in eastern South Africa
Nothdurft Climate sensitive single tree growth modeling using a hierarchical Bayes approach and integrated nested Laplace approximations (INLA) for a distributed lag model
Ghanbarpour et al. Comparison of stream flow predicted in a forest watershed using different modelling procedures: ARMA, ANN, SWRRB, and IHACRES models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20131002

RJ01 Rejection of invention patent application after publication