CN109684630A - 专利相似性的对比分析方法 - Google Patents

专利相似性的对比分析方法 Download PDF

Info

Publication number
CN109684630A
CN109684630A CN201811480412.4A CN201811480412A CN109684630A CN 109684630 A CN109684630 A CN 109684630A CN 201811480412 A CN201811480412 A CN 201811480412A CN 109684630 A CN109684630 A CN 109684630A
Authority
CN
China
Prior art keywords
patent document
technical
semantic dependency
technical feature
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811480412.4A
Other languages
English (en)
Other versions
CN109684630B (zh
Inventor
汪云霄
覃婷婷
刘峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201811480412.4A priority Critical patent/CN109684630B/zh
Publication of CN109684630A publication Critical patent/CN109684630A/zh
Application granted granted Critical
Publication of CN109684630B publication Critical patent/CN109684630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种专利相似性的对比分析方法。所述专利相似性的对比方法通过利用自然语言处理技术建立语义依存树,提取了专利文档中的技术特征,并进一步通过建立技术特征的重要性评分模型、建立技术特征‑专利文档二部图等方法总结计算技术特征与专利文档的相似性,同时建立一对多的专利对比分析模型,从而可快速有效的判断目标专利文档是否具有新颖性。

Description

专利相似性的对比分析方法
技术领域
本发明涉及一种专利相似性的对比分析方法,属于自然语言处理以及专利分析领域。
背景技术
专利作为一种保护公司利益的重要资源,在一定意义上代表了企业的整体创新水平。现有专利文件受到专利文件格式的限制,具有文本冗余、技术信息复杂、挖掘分析难度较高等特点,使得人工分析专利的难度越来越大。
现有技术中,已有不少专利检索和分析系统,如Google Patent、SooPat、Patsnap等,但是这些专利系统主要是提供专利检索和简单的专利统计分析,无法满足更深层次的专利比较分析,进而无法有效的衡量目标专利的是否具有新颖性。
同时由于近年来专利申请数量急剧增加,人工分析专利难度越来越大,因此,如何提供一种可高效、快速地发现目标专利是否具有新颖性的方法成为专利对比分析的重要内容。
有鉴于此,确有必要提供一种专利相似性的对比分析方法,以解决上述问题。
发明内容
本发明的目的在于提供一种专利相似性的对比分析方法,以更深层次的挖掘出专利的内在价值、发现专利间的相似性和差异性以及判断目标专利是否具有一定的新颖性。
为实现上述发明目的,本发明提供了一种专利相似性的对比分析方法,所述专利相似性的对比分析方法包括以下步骤:
S1、定义专利文档包括目标专利文档和与所述目标专利文档相同主题的对比专利文档,且全部所述对比专利文档构成专利文档集D,建立每篇专利文档对应的语义依存树并使用剪枝策略修剪所述语义依存树,以提取所有专利文档的技术特征;
S2、基于技术特征的独特性和相似性,建立技术特征的重要性评分模型;
S3、基于图结构模型,建立技术特征-专利文档二部图;
S4、根据技术特征-文档二部图,计算技术特征-专利文档二部图中技术特征与专利文档的相关度并求解技术特征的共性分数;
S5、基于最优化方法,获取所述目标专利文档与所述对比专利文档之间的相似技术特征集;
S6、根据步骤S2中的重要性评分模型和步骤S5中的相似技术特征集,判断目标专利文档是否具有新颖性。
作为本发明的进一步改进,所述步骤S1具体包括:
S11、定义专利文档包括目标专利文档和与所述目标专利文档相同主题的对比专利文档,且全部所述对比专利文档构成专利文档集D,并提取所述目标专利文档和所述专利文档集D中的全部技术特征;
S12、建立每篇专利文档对应的语义依存树,并使用剪枝策略修剪所述语义依存树,减小语义依存树的规模,并以修剪后的语义依存树作为技术特征提取的基础,获取由全部技术特征构成的技术特征集合T,T={t1,t2,...,tm},其中,t为技术特征,m为所述技术特征的个数。
作为本发明的进一步改进,所述步骤S12具体为:
S121、语义依存解析:对专利文档中的每一个句子进行语义依存解析;
S122、语义依存树的建立、修剪:根据语义依存解析的结果,建立专利文档对应的语义依存树,并采用剪枝策略对所述语义依存树进行修剪;
S123、子树的提取:所述语义依存树上的每一个节点均对应一个语义依存子树,所述语义依存子树包括位于所述语义依存树的节点处且由名词和/或动词构成的根节点以及与所述根节点相连的子节点,每棵所述语义依存子树表示为一个技术特征。
作为本发明的进一步改进,所述步骤S122中剪枝策略具体包括:
词性限制:利用词性标注去除语义依存树上的非实词节点;
距离限制:去除两个词之间相隔10个及以上词的边;
去除部分关系边:去除表并列关系的边和表顺承关系的边。
作为本发明的进一步改进,所述步骤S123具体为:
S1231、定义语义依存树经剪枝策略修剪后获得的多棵语义依存树为语义依存子树,每棵所述语义依存子树的根节点、所述语义依存子树中具有子节点的名词节点和/或动词节点作为谓词节点,并以所述谓词节点作为新的根节点对所述语义依存子树进行分割;
S1232、将具有相同根节点的语义依存子树进行合并,以使得表示为技术特征的语义依存子树由两层或三层子树构成;
S1233、对于至多包含一个子节点的根节点和/或已经包含在其它语义依存子树中的名词节点/动词节点,不再作为分割语义依存子树的根节点,否则重复步骤S1231~S1232直至没有可以分割的语义依存子树为止。
作为本发明的进一步改进,所述步骤S2具体包括:
S21、计算单个技术特征的独特性rt,d
其中,t为技术特征,d为目标专利文档和专利文档集D中的任一专利文档,Td为任一专利文档中所有技术特征的集合,n(t,d)为单个技术特征t在任一所述专利文档中出现的频率,n(t,D)为单个技术特征在所述专利文档集D中出现的频率;
S22、定义ti、tj分别为任一所述专利文档中第i个和第j个技术特征,采用语义相似度来计算两个技术特征ti、tj之间的相似性SimT(ti,tj);
S23、结合所述技术特征的独特性rt,d和两个技术特征ti、tj之间的相似性SimT(ti,tj),计算所述技术特征t的重要性分数Score(t,d):
其中,为所述技术特征t的权重。
作为本发明的进一步改进,所述步骤S3具体为:基于所述技术特征与所述专利文档的共现关系的技术特征-专利文档二部图,所述技术特征-专利文档二部图中的节点由所述专利文档和所述技术特征组成,且对应专利文档的节点和对应技术特征的节点之间的连线构成技术特征-专利文档二部图的边,所述边的权重基于所述BM25算法计算获得。
作为本发明的进一步改进,所述步骤S4具体包括:
S41、采用simrank方法求解、建立技术特征-专利文档二部图中所述技术特征和所述专利文档之间的相似度f(a,b):
其中,a、b为技术特征-专利文档二部图中代表所述技术特征和所述专利文档的节点,c为simrank算法中的衰减因子,是一个0到1的常数;I(a)I(b)分别表示节点a和节点b的入节点集合;
S42、基于随机游走方法,计算技术特征-专利文档二部图中节点a和节点b之间的相关度f(a,b):
其中,τ(a,b)→(x,x)为以节点a和节点b为起点的两条随机游走路径首次在x点相遇,且两条路径的长度相同均为l(τ);P(τ)为节点a和节点b经不同的游走路径τ1和τ2在x点相遇的概率;路径τ1为(v1,v2,...,vm,x),路径τ2为(w1,w2,...,wm,x),路径长度l(τ1)=l(τ2)=m;
S43、计算同一技术特征在任意两篇专利文档d中的共性分数Φ(t,d,d′);
Φ(t,d,d′)=ln(1+f(t,d)×f(t,d′))
其中,d和d′为目标专利文档和专利文档集D中任意两篇专利文档,t为技术特征;f(t,d)和f(t,d′)的值越大,则表示该技术特征t为所述专利文档d和所述专利文档d′的共有的技术特征。
作为本发明的进一步改进,所述步骤S5具体包括:
S51、获取相同技术特征集S0其中,d0为目标专利文档,为所述目标专利文档d0中所有技术特征的集合,C为共性特征集,用于表征所述专利文档集D和所述目标专利文档的共性技术特征;S0为相同技术特征集,用于表征所述目标专利文档与所述对比专利文档相同的技术特征集;
S52、获取相似技术特征集Si,用于表征所述目标专利文档与第i篇所述对比专利文档di相似的技术特征的集合;
S53、设置优化目标的约束条件:选取每篇专利文档中重要分数大于平均值的技术特征,以筛除专利文档中不重要的技术特征,同时限制选择的技术特征的数量:
S54、设置优化目标函数,并根据所述目标函数获取所述目标专利文档d0与所述对比专利文档dn相似部分的技术特征集Tsim;所述目标函数为:
且Sij≠0,R(Sij,di)
其中,对于j∈[1,2,...,|S0|],S0j和Sij为所述目标专利文档d0和所述对比专利文档di中的一个相似技术特征对,且若所述对比专利文档di中没有与所述目标专利文档d0相似的技术特征,则Sij=0。
作为本发明的进一步改进,所述步骤S6具体为:根据步骤S2中的技术特征的重要性分数来衡量Tsim在目标专利文档d0所有技术特征集中的重要性程度,如果且具有较高的重要性分数,则目标专利文档d0不具有新颖性;如果且重要性分数较低,则目标专利文档d0与专利文档集D相比具有新颖性。
本发明的有益效果是:本发明专利相似性的对比分析方法,通过利用自然语言处理技术建立语义依存树,提取了专利文档中的技术特征,并进一步通过BM25算法、随机游走算法和simrank方法等总结计算了各个专利文档之间的相似性,同时建立了目标专利文档与对比专利文档之间一对多的专利对比分析模型,从而可快速有效的判断目标专利文档是否具有新颖性。
附图说明
图1是本发明专利相似性的对比分析方法的流程图。
图2是图1中步骤S2的流程图。
图3是本发明中语义依存树的建立流程示意图。
图4是本发明中技术特征-专利文档二部图的结构示意简图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参阅图1所示,本发明揭示了一种专利相似性的对比分析方法,其特征在于,包括以下步骤:
S1、定义专利文档包括目标专利文档和与所述目标专利文档相同主题的对比专利文档,且全部所述对比专利文档构成专利文档集D,建立每篇专利文档对应的语义依存树并使用剪枝策略修剪所述语义依存树,以提取所有专利文档的技术特征;
S2、基于技术特征的独特性和相似性,建立技术特征的重要性评分模型;
S3、基于图结构模型,建立技术特征-专利文档二部图;
S4、根据技术特征-文档二部图,计算技术特征-专利文档二部图中技术特征与专利文档的相关度并求解技术特征的共性分数;
S5、基于最优化方法,获取所述目标专利文档与所述对比专利文档之间的相似技术特征集;
S6、根据步骤S2中的重要性评分模型和步骤S5中的相似技术特征集,判断目标专利文档是否具有新颖性。
以下说明书部分将对所述专利相似性的对比分析方法进行详细的说明。
所述步骤S1具体包括:
S11、定义专利文档包括目标专利文档和与所述目标专利文档相同主题的对比专利文档,且全部所述对比专利文档构成专利文档集D,利用SAO结构提取所述目标专利文档和所述专利文档集D中的全部技术特征;
S12、基于自然语言处理技术,建立每篇专利文档对应的语义依存树,并使用剪枝策略修剪所述语义依存树,以对所述技术特征进行筛选,获取由全部技术特征构成的技术特征集合T,T={t1,t2,...,tm},其中,t为技术特征,m为所述技术特征的个数。
其中,所述步骤S11具体为:定义目标专利文档d0和与所述目标专利文档相同主题的对比专利文档dn,其中,n为对比专利文档dn的个数,全部所述对比专利文档dn构成专利文档集D,D={d1,d2,...,dn},进一步的,利用SAO结构对提取所述目标专利文档和所述专利文档集D中全部技术特征。
请参阅图2及图3所示,所述步骤S12具体包括:
S121、语义依存解析:基于自然语言处理技术,对专利文档中的每一个句子进行语义依存解析;
S122、语义依存树的建立、修剪:根据语义依存解析的结果,建立专利文档对应的语义依存树,并采用剪枝策略对所述语义依存树进行修剪;
S123、子树的提取:所述语义依存树上的每一个节点均对应一个语义依存子树,所述语义依存子树包括位于所述语义依存树的节点处且由名词和/或动词构成的根节点以及与所述根节点相连的子节点,每棵所述语义依存子树表示为一个技术特征。
在所述步骤S122中,一棵语义依存树包括多棵子树,每棵子树均由名词、动词以及修饰词组成,理论上,语义依存树上的所有节点都可以作为子树的根节点,但事实上,由于非实词节点作为根节点的子树多数无实际意义,因此在本发明中采用剪枝策略对语义依存树进行修剪。
在本发明中,所述剪枝策略具体包括,词性限制:利用词性标注去除语义依存树上的非实词节点;距离限制:去除两个词之间相隔10个及以上词的边;去除部分关系边:去除表并列关系(eCoo)的边和表顺承关系(eSucc)的边。
进一步的,在所述步骤S123中,对修剪后的语义依存树进行进一步处理,以提取语义依存子树,具体来讲所述步骤S123具体包括:
S1231、定义语义依存树经剪枝策略修剪后获得的多棵语义依存树为语义依存子树,每棵所述语义依存子树的根节点、所述语义依存子树中具有子节点的名词节点和/或动词节点作为谓词节点,并以所述谓词节点作为新的根节点对所述语义依存子树进行分割;
S1232、将具有相同根节点的语义依存子树进行合并,以使得表示为技术特征的语义依存子树由两层或三层子树构成;
S1233、对于至多包含一个子节点的根节点和/或已经包含在其它语义依存子树中的名词节点/动词节点,不再作为分割语义依存子树的根节点,否则重复步骤S1231~S1232直至没有可以分割的语义依存子树为止。
所述步骤S2具体包括:
S21、计算单个技术特征的独特性rt,d
其中,t为技术特征,d为目标专利文档和专利文档集D中的任一专利文档,Td为任一专利文档中所有技术特征的集合,n(t,d)为单个技术特征t在任一所述专利文档中出现的频率,n(t,D)为单个技术特征在所述专利文档集D中出现的频率;
S22、定义ti、tj分别为任一所述专利文档中第i个和第j个技术特征,采用语义相似度来计算两个技术特征ti、tj之间的相似性SimT(ti,tj);
S23、结合所述技术特征的独特性rt,d和两个技术特征ti、tj之间的相似性SimT(ti,tj),计算所述技术特征t的重要性分数Score(t,d):
其中,为所述技术特征t的权重。
事实上,在通过语义依存树对专利文档d的技术特征t进行提取后,每一个专利文档d可以看作是一系列技术特征t组成的技术特征集合。但是由于大多数技术特征t并不能代表专利文档d的实质,因此,在所述步骤S2中建立技术特征t的重要性评分模型对所有技术特征t进行评分,以表征技术特征t在专利文档d的重要程度。
所述步骤S3具体为:基于所述技术特征与所述专利文档的共现关系的技术特征-专利文档二部图(如图4),其中,定义专利文档d包括目标专利文档和专利文档集D,即d=D∪{d0}={d0,d1,d2,...,dn},定义技术特征t∈T={t1,t2,...,tm}。所述技术特征-专利文档二部图中的节点由所述专利文档和所述技术特征组成,具体来讲,设任一技术特征ti∈T,且所述技术特征ti出现在专利文档dj中,所述专利文档dj∈D,则节点ti和节点dj之间有一条边,所述边的权重可根据BM25算法计算得出,以构建出技术特征-专利文档二部图。
所述步骤S4具体包括:
S41、采用simrank方法求解、建立技术特征-专利文档二部图中所述技术特征和所述专利文档之间的相似度f(a,b):
其中,a、b为技术特征-专利文档二部图中代表所述技术特征和所述专利文档的节点,c为simrank算法中的衰减因子,是一个0到1的常数;I(a)I(b)分别表示节点a和节点b的入节点集合;且当a=b时,其相似度为1,在本发明中,为了避免0除的情况,当|I(a)|=0或|I(b)|=0时,f(a,b)=0。
S42、基于随机游走方法,计算技术特征-专利文档二部图中节点a和节点b之间的相关度f(a,b):
其中,τ(a,b)→(x,x)为以节点a和节点b为起点的两条随机游走路径首次在x点相遇,且两条路径的长度相同均为l(τ);P(τ)为节点a和节点b经不同的游走路径τ1和τ2在x点相遇的概率;路径τ1为(v1,v2,...,vm,x),路径τ2为(w1,w2,...,wm,x),路径长度l(τ1)=l(τ2)=m;
S43、计算同一技术特征在任意两篇所述专利文档d中的共性分数Φ(t,d,d′);
Φ(t,d,d′)=ln(1+f(t,d)×f(t,d′))
其中,d和d′为目标专利文档和专利文档集D中任意两篇专利文档,t为技术特征;f(t,d)和f(t,d′)的值越大,所述技术特征t与所述专利文档d和所述专利文档d′的相关性越高,则表示该技术特征t为所述专利文档d和所述专利文档d′的共有的技术特征。
所述步骤S4中,首先定义所述相关技术特征集,在本发明中,所述相关技术特征集包括共性特征集C、相同技术特征集S0以及相似技术特征集Si;所述共性特征集C用于表征所述专利文档集D和所述目标专利文档的共性技术特征;所述相同技术特征集S0用于表征所述目标专利文档与所述对比专利文档相同的技术特征集;所述相似技术特征集Si用于表征所述目标专利文档与第i篇所述对比专利文档di相似的技术特征的集合。
进一步的,所述步骤S5具体包括:
S51、获取相同技术特征集S0其中,d0为目标专利文档,为所述目标专利文档d0中所有所述技术特征的集合;
S52、获取相似技术特征集Si
S53、设置优化目标的约束条件:选取每篇专利文档中重要分数大于平均值的技术特征,以筛除专利文档中不重要的技术特征,并同时限制选择的技术特征的数量:
S54、设置优化目标函数,并根据所述目标函数获取所述目标专利文档d0与所述对比专利文档dn相似部分的技术特征集Tsim;所述目标函数为:
其中,对于j∈[1,2,...,|S0|],S0j和Sij为所述目标专利文档d0和所述对比专利文档di中的一个相似技术特征对,且若所述对比专利文档di中没有与所述目标专利文档d0中相似的技术特征t,则Sij=0。
进一步的,通过求解所述目标函数以得到目标专利文档d0与所述对比专利文档dn相似部分的技术特征集Tsim,其中技术特征集Tsim同时包含相似或相同的技术特征。
所述步骤S6中,结合步骤S5中的相似技术特征集Tsim和步骤S2中的技术特征的重要性分数来衡量Tsim在目标专利文档d0所有技术特征集中的重要性程度,如果且具有较高的重要性分数,则表示目标专利文档d0较重要的技术特征t与专利文档集D中的技术特征t有较高的相似性,说明目标专利文档d0不具有显著的新颖性。如果且重要性分数较低,则表示目标专利文档d0与专利文档集D相似的技术特征或技术特征集在目标专利文档d0中占有较低的重要性,而具有较高重要性得分的技术特征或技术特征集与专利文档集D具有较大的差异性,说明目标专利文档d0与专利文档集D相比有显著的新颖性。
综上所述,本发明专利相似性的对比分析方法,通过利用自然语言处理技术建立语义依存树,提取了专利文档中的技术特征,并进一步通过BM25算法、随机游走算法和simrank方法等总结计算了各个专利文档d之间的相似性,同时建立了目标专利文档与对比专利文档之间一对多的专利对比分析模型,从而可快速有效的判断目标专利文档是否具有新颖性。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种专利相似性的对比分析方法,其特征在于,包括以下步骤:
S1、定义专利文档包括目标专利文档和与所述目标专利文档相同主题的对比专利文档,且全部所述对比专利文档构成专利文档集D,建立每篇专利文档对应的语义依存树并使用剪枝策略修剪所述语义依存树,以提取所有专利文档的技术特征;
S2、基于技术特征的独特性和相似性,建立技术特征的重要性评分模型;
S3、基于图结构模型,建立技术特征-专利文档二部图;
S4、根据技术特征-文档二部图,计算技术特征-专利文档二部图中技术特征与专利文档的相关度并求解技术特征的共性分数;
S5、基于最优化方法,获取所述目标专利文档与所述对比专利文档之间的相似技术特征集;
S6、根据步骤S2中的重要性评分模型和步骤S5中的相似技术特征集,判断目标专利文档是否具有新颖性。
2.根据权利要求1所述的专利相似性的对比分析方法,其特征在于,所述步骤S1具体包括:
S11、定义专利文档包括目标专利文档和与所述目标专利文档相同主题的对比专利文档,且全部所述对比专利文档构成专利文档集D,并提取所述目标专利文档和所述专利文档集D中的全部技术特征;
S12、建立每篇专利文档对应的语义依存树,并使用剪枝策略修剪所述语义依存树,减小语义依存树的规模,并以修剪后的语义依存树作为技术特征提取的基础,获取由全部技术特征构成的技术特征集合T,T={t1,t2,...,tm},其中,t为技术特征,m为所述技术特征的个数。
3.根据权利要求2所述的专利相似性的对比分析方法,其特征在于:所述步骤S12具体为:
S121、语义依存解析:对专利文档中的每一个句子进行语义依存解析;
S122、语义依存树的建立、修剪:根据语义依存解析的结果,建立专利文档对应的语义依存树,并采用剪枝策略对所述语义依存树进行修剪;
S123、子树的提取:所述语义依存树上的每一个节点均对应一个语义依存子树,所述语义依存子树包括位于所述语义依存树的节点处且由名词和/或动词构成的根节点以及与所述根节点相连的子节点,每棵所述语义依存子树表示为一个技术特征。
4.根据权利要求3所述的专利相似性的对比分析方法,其特征在于:所述步骤S122中剪枝策略具体包括:
词性限制:利用词性标注去除语义依存树上的非实词节点;
距离限制:去除两个词之间相隔10个及以上词的边;
去除部分关系边:去除表并列关系的边和表顺承关系的边。
5.根据权利要求3所述的专利相似性的对比分析方法,其特征在于:所述步骤S123具体为:
S1231、定义语义依存树经剪枝策略修剪后获得的多棵语义依存树为语义依存子树,每棵所述语义依存子树的根节点、所述语义依存子树中具有子节点的名词节点和/或动词节点作为谓词节点,并以所述谓词节点作为新的根节点对所述语义依存子树进行分割;
S1232、将具有相同根节点的语义依存子树进行合并,以使得表示为技术特征的语义依存子树由两层或三层子树构成;
S1233、对于至多包含一个子节点的根节点和/或已经包含在其它语义依存子树中的名词节点/动词节点,不再作为分割语义依存子树的根节点,否则重复步骤S1231~S1232直至没有可以分割的语义依存子树为止。
6.根据权利要求1所述的专利相似性的对比分析方法,其特征在于:所述步骤S2具体包括:
S21、计算单个技术特征的独特性rt,d
其中,t为技术特征,d为目标专利文档和专利文档集D中的任一专利文档,Td为任一专利文档中所有技术特征的集合,n(t,d)为单个技术特征t在任一所述专利文档中出现的频率,n(t,D)为单个技术特征在所述专利文档集D中出现的频率;
S22、定义ti、tj分别为任一所述专利文档中第i个和第j个技术特征,采用语义相似度来计算两个技术特征ti、tj之间的相似性SimT(ti,tj);
S23、结合所述技术特征的独特性rt,d和两个技术特征ti、tj之间的相似性SimT(ti,tj),计算所述技术特征t的重要性分数Score(t,d):
其中,为所述技术特征t的权重。
7.根据权利要求1所述的专利相似性的对比分析方法,其特征在于:所述步骤S3具体为:基于所述技术特征与所述专利文档的共现关系的技术特征-专利文档二部图,所述技术特征-专利文档二部图中的节点由所述专利文档和所述技术特征组成,且对应专利文档的节点和对应技术特征的节点之间的连线构成技术特征-专利文档二部图的边,所述边的权重基于所述BM25算法计算获得。
8.根据权利要求1所述的专利相似性的对比分析方法,其特征在于:所述步骤S4具体包括:
S41、采用simrank方法求解、建立技术特征-专利文档二部图中所述技术特征和所述专利文档之间的相似度f(a,b):
其中,a、b为技术特征-专利文档二部图中代表所述技术特征和所述专利文档的节点,c为simrank算法中的衰减因子,是一个0到1的常数;I(a)I(b)分别表示节点a和节点b的入节点集合;
S42、基于随机游走方法,计算技术特征-专利文档二部图中节点a和节点b之间的相关度f(a,b):
其中,τ(a,b)→(x,x)为以节点a和节点b为起点的两条随机游走路径首次在x点相遇,且两条路径的长度相同均为l(τ);P(τ)为节点a和节点b经不同的游走路径τ1和τ2在x点相遇的概率;路径τ1为(v1,v2,...,vm,x),路径τ2为(w1,w2,...,wm,x),路径长度l(τ1)=l(τ2)=m;
S43、计算同一技术特征在任意两篇专利文档d中的共性分数Φ(t,d,d′);
Φ(t,d,d′)=ln(1+f(t,d)×f(t,d′))
其中,d和d′为目标专利文档和专利文档集D中任意两篇专利文档,t为技术特征;f(t,d)和f(t,d′)的值越大,则表示该技术特征t为所述专利文档d和所述专利文档d′的共有的技术特征。
9.根据权利要求1所述的专利相似性的对比分析方法,其特征在于:所述步骤S5具体包括:
S51、获取相同技术特征集S0其中,d0为目标专利文档,为所述目标专利文档d0中所有技术特征的集合,C为共性特征集,用于表征所述专利文档集D和所述目标专利文档的共性技术特征;S0为相同技术特征集,用于表征所述目标专利文档与所述对比专利文档相同的技术特征集;
S52、获取相似技术特征集Si,用于表征所述目标专利文档与第i篇所述对比专利文档di相似的技术特征的集合;
S53、设置优化目标的约束条件:选取每篇专利文档中重要分数大于平均值的技术特征,以筛除专利文档中不重要的技术特征,同时限制选择的技术特征的数量:
S54、设置优化目标函数,并根据所述目标函数获取所述目标专利文档d0与所述对比专利文档dn相似部分的技术特征集Tsim;所述目标函数为:
其中,对于j∈[1,2,...,|S0|],S0j和Sij为所述目标专利文档d0和所述对比专利文档di中的一个相似技术特征对,且若所述对比专利文档di中没有与所述目标专利文档d0相似的技术特征,则Sij=0。
10.根据权利要求1所述的专利相似性的对比分析方法,其特征在于:
所述步骤S6具体为:根据步骤S2中的技术特征的重要性分数来衡量Tsim在目标专利文档d0所有技术特征集中的重要性程度,如果且具有较高的重要性分数,则目标专利文档d0不具有新颖性;如果且重要性分数较低,则目标专利文档d0与专利文档集D相比具有新颖性。
CN201811480412.4A 2018-12-05 2018-12-05 专利相似性的对比分析方法 Active CN109684630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811480412.4A CN109684630B (zh) 2018-12-05 2018-12-05 专利相似性的对比分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811480412.4A CN109684630B (zh) 2018-12-05 2018-12-05 专利相似性的对比分析方法

Publications (2)

Publication Number Publication Date
CN109684630A true CN109684630A (zh) 2019-04-26
CN109684630B CN109684630B (zh) 2023-03-24

Family

ID=66187122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811480412.4A Active CN109684630B (zh) 2018-12-05 2018-12-05 专利相似性的对比分析方法

Country Status (1)

Country Link
CN (1) CN109684630B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930946A (zh) * 2020-08-18 2020-11-13 哈尔滨工程大学 一种基于相似性度量的专利分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110029476A1 (en) * 2009-07-29 2011-02-03 Kas Kasravi Indicating relationships among text documents including a patent based on characteristics of the text documents
US20110093449A1 (en) * 2008-06-24 2011-04-21 Sharon Belenzon Search engine and methodology, particularly applicable to patent literature
WO2016125949A1 (ko) * 2015-02-02 2016-08-11 숭실대학교 산학협력단 문서 자동 요약 방법 및 서버
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110093449A1 (en) * 2008-06-24 2011-04-21 Sharon Belenzon Search engine and methodology, particularly applicable to patent literature
US20110029476A1 (en) * 2009-07-29 2011-02-03 Kas Kasravi Indicating relationships among text documents including a patent based on characteristics of the text documents
WO2016125949A1 (ko) * 2015-02-02 2016-08-11 숭실대학교 산학협력단 문서 자동 요약 방법 및 서버
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930946A (zh) * 2020-08-18 2020-11-13 哈尔滨工程大学 一种基于相似性度量的专利分类方法

Also Published As

Publication number Publication date
CN109684630B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
US10210245B2 (en) Natural language question answering method and apparatus
CN105786991B (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
Nayak et al. Survey on pre-processing techniques for text mining
Mihalcea Language independent extractive summarization
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
US8359327B2 (en) Document processing method and system
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
US20150356091A1 (en) Method and system for identifying microblog user identity
CN110032641A (zh) 计算机执行的、利用神经网络进行事件抽取的方法及装置
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
CN114330714A (zh) 卷积神经网络剪枝优化方法、装置、电子设备及存储介质
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN108647322A (zh) 基于词网识别大量Web文本信息相似度的方法
CN114417865B (zh) 灾害事件的描述文本处理方法、装置、设备及存储介质
JP2018055142A (ja) シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
D’Silva et al. Unsupervised automatic text summarization of Konkani texts using K-means with Elbow method
KR101224312B1 (ko) 소셜 네트워킹 서비스 사용자를 위한 친구 추천 방법, 이를 위한 기록 매체 및 이를 이용하는 소셜 네트워킹 서비스 및 서버
CN106649266A (zh) 一种本体知识的逻辑推理方法
WO2022134779A1 (zh) 人物动作相关数据的提取方法、装置、设备及存储介质
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN107977368B (zh) 信息提取方法及系统
CN109903198B (zh) 专利对比分析方法
CN112527981A (zh) 开放式信息抽取方法、装置、电子设备及存储介质
WO2021000400A1 (zh) 导诊相似问题对生成方法、系统及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant