CN109684630A

CN109684630A - 专利相似性的对比分析方法

Info

Publication number: CN109684630A
Application number: CN201811480412.4A
Authority: CN
Inventors: 汪云霄; 覃婷婷; 刘峥
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2019-04-26
Anticipated expiration: 2038-12-05
Also published as: CN109684630B

Abstract

本发明提供了一种专利相似性的对比分析方法。所述专利相似性的对比方法通过利用自然语言处理技术建立语义依存树，提取了专利文档中的技术特征，并进一步通过建立技术特征的重要性评分模型、建立技术特征‑专利文档二部图等方法总结计算技术特征与专利文档的相似性，同时建立一对多的专利对比分析模型，从而可快速有效的判断目标专利文档是否具有新颖性。

Description

专利相似性的对比分析方法

技术领域

本发明涉及一种专利相似性的对比分析方法，属于自然语言处理以及专利分析领域。

背景技术

专利作为一种保护公司利益的重要资源，在一定意义上代表了企业的整体创新水平。现有专利文件受到专利文件格式的限制，具有文本冗余、技术信息复杂、挖掘分析难度较高等特点，使得人工分析专利的难度越来越大。

现有技术中，已有不少专利检索和分析系统，如Google Patent、SooPat、Patsnap等，但是这些专利系统主要是提供专利检索和简单的专利统计分析，无法满足更深层次的专利比较分析，进而无法有效的衡量目标专利的是否具有新颖性。

同时由于近年来专利申请数量急剧增加，人工分析专利难度越来越大，因此，如何提供一种可高效、快速地发现目标专利是否具有新颖性的方法成为专利对比分析的重要内容。

有鉴于此，确有必要提供一种专利相似性的对比分析方法，以解决上述问题。

发明内容

本发明的目的在于提供一种专利相似性的对比分析方法，以更深层次的挖掘出专利的内在价值、发现专利间的相似性和差异性以及判断目标专利是否具有一定的新颖性。

为实现上述发明目的，本发明提供了一种专利相似性的对比分析方法，所述专利相似性的对比分析方法包括以下步骤：

S1、定义专利文档包括目标专利文档和与所述目标专利文档相同主题的对比专利文档，且全部所述对比专利文档构成专利文档集D，建立每篇专利文档对应的语义依存树并使用剪枝策略修剪所述语义依存树，以提取所有专利文档的技术特征；

S2、基于技术特征的独特性和相似性，建立技术特征的重要性评分模型；

S3、基于图结构模型，建立技术特征-专利文档二部图；

S4、根据技术特征-文档二部图，计算技术特征-专利文档二部图中技术特征与专利文档的相关度并求解技术特征的共性分数；

S5、基于最优化方法，获取所述目标专利文档与所述对比专利文档之间的相似技术特征集；

S6、根据步骤S2中的重要性评分模型和步骤S5中的相似技术特征集，判断目标专利文档是否具有新颖性。

作为本发明的进一步改进，所述步骤S1具体包括：

S11、定义专利文档包括目标专利文档和与所述目标专利文档相同主题的对比专利文档，且全部所述对比专利文档构成专利文档集D，并提取所述目标专利文档和所述专利文档集D中的全部技术特征；

S12、建立每篇专利文档对应的语义依存树，并使用剪枝策略修剪所述语义依存树，减小语义依存树的规模，并以修剪后的语义依存树作为技术特征提取的基础，获取由全部技术特征构成的技术特征集合T，T＝{t₁,t₂,...,t_m}，其中，t为技术特征，m为所述技术特征的个数。

作为本发明的进一步改进，所述步骤S12具体为：

S121、语义依存解析：对专利文档中的每一个句子进行语义依存解析；

S122、语义依存树的建立、修剪：根据语义依存解析的结果，建立专利文档对应的语义依存树，并采用剪枝策略对所述语义依存树进行修剪；

S123、子树的提取：所述语义依存树上的每一个节点均对应一个语义依存子树，所述语义依存子树包括位于所述语义依存树的节点处且由名词和/或动词构成的根节点以及与所述根节点相连的子节点，每棵所述语义依存子树表示为一个技术特征。

作为本发明的进一步改进，所述步骤S122中剪枝策略具体包括：

词性限制：利用词性标注去除语义依存树上的非实词节点；

距离限制：去除两个词之间相隔10个及以上词的边；

去除部分关系边：去除表并列关系的边和表顺承关系的边。

作为本发明的进一步改进，所述步骤S123具体为：

S1231、定义语义依存树经剪枝策略修剪后获得的多棵语义依存树为语义依存子树，每棵所述语义依存子树的根节点、所述语义依存子树中具有子节点的名词节点和/或动词节点作为谓词节点，并以所述谓词节点作为新的根节点对所述语义依存子树进行分割；

S1232、将具有相同根节点的语义依存子树进行合并，以使得表示为技术特征的语义依存子树由两层或三层子树构成；

S1233、对于至多包含一个子节点的根节点和/或已经包含在其它语义依存子树中的名词节点/动词节点，不再作为分割语义依存子树的根节点，否则重复步骤S1231～S1232直至没有可以分割的语义依存子树为止。

作为本发明的进一步改进，所述步骤S2具体包括：

S21、计算单个技术特征的独特性r_t,d：

其中，t为技术特征，d为目标专利文档和专利文档集D中的任一专利文档，T_d为任一专利文档中所有技术特征的集合，n(t,d)为单个技术特征t在任一所述专利文档中出现的频率，n(t,D)为单个技术特征在所述专利文档集D中出现的频率；

S22、定义t_i、t_j分别为任一所述专利文档中第i个和第j个技术特征，采用语义相似度来计算两个技术特征t_i、t_j之间的相似性SimT(t_i,t_j)；

S23、结合所述技术特征的独特性r_t,d和两个技术特征t_i、t_j之间的相似性SimT(t_i,t_j)，计算所述技术特征t的重要性分数Score(t,d)：

其中，为所述技术特征t的权重。

作为本发明的进一步改进，所述步骤S3具体为：基于所述技术特征与所述专利文档的共现关系的技术特征-专利文档二部图，所述技术特征-专利文档二部图中的节点由所述专利文档和所述技术特征组成，且对应专利文档的节点和对应技术特征的节点之间的连线构成技术特征-专利文档二部图的边，所述边的权重基于所述BM25算法计算获得。

作为本发明的进一步改进，所述步骤S4具体包括：

S41、采用simrank方法求解、建立技术特征-专利文档二部图中所述技术特征和所述专利文档之间的相似度f(a,b)：

其中，a、b为技术特征-专利文档二部图中代表所述技术特征和所述专利文档的节点，c为simrank算法中的衰减因子，是一个0到1的常数；I(a)I(b)分别表示节点a和节点b的入节点集合；

S42、基于随机游走方法，计算技术特征-专利文档二部图中节点a和节点b之间的相关度f(a,b)：

其中，τ(a,b)→(x,x)为以节点a和节点b为起点的两条随机游走路径首次在x点相遇，且两条路径的长度相同均为l(τ)；P(τ)为节点a和节点b经不同的游走路径τ₁和τ₂在x点相遇的概率；路径τ₁为(v₁,v₂,...,v_m,x)，路径τ₂为(w₁,w₂,...,w_m,x)，路径长度l(τ₁)＝l(τ₂)＝m；

S43、计算同一技术特征在任意两篇专利文档d中的共性分数Φ(t,d,d′)；

Φ(t,d,d′)＝ln(1+f(t,d)×f(t,d′))

其中，d和d′为目标专利文档和专利文档集D中任意两篇专利文档，t为技术特征；f(t,d)和f(t,d′)的值越大，则表示该技术特征t为所述专利文档d和所述专利文档d′的共有的技术特征。

作为本发明的进一步改进，所述步骤S5具体包括：

S51、获取相同技术特征集S₀，其中，d₀为目标专利文档，为所述目标专利文档d₀中所有技术特征的集合，C为共性特征集,用于表征所述专利文档集D和所述目标专利文档的共性技术特征；S₀为相同技术特征集，用于表征所述目标专利文档与所述对比专利文档相同的技术特征集；

S52、获取相似技术特征集S_i,用于表征所述目标专利文档与第i篇所述对比专利文档d_i相似的技术特征的集合；

S53、设置优化目标的约束条件：选取每篇专利文档中重要分数大于平均值的技术特征，以筛除专利文档中不重要的技术特征，同时限制选择的技术特征的数量：

S54、设置优化目标函数，并根据所述目标函数获取所述目标专利文档d₀与所述对比专利文档d_n相似部分的技术特征集T_sim；所述目标函数为：

且S_ij≠0,R(S_ij,d_i)

其中，对于j∈[1,2,...,|S₀|]，S_0j和S_ij为所述目标专利文档d₀和所述对比专利文档d_i中的一个相似技术特征对，且若所述对比专利文档d_i中没有与所述目标专利文档d₀相似的技术特征，则S_ij＝0。

作为本发明的进一步改进，所述步骤S6具体为：根据步骤S2中的技术特征的重要性分数来衡量T_sim在目标专利文档d₀所有技术特征集中的重要性程度，如果且具有较高的重要性分数，则目标专利文档d₀不具有新颖性；如果且重要性分数较低，则目标专利文档d₀与专利文档集D相比具有新颖性。

本发明的有益效果是：本发明专利相似性的对比分析方法，通过利用自然语言处理技术建立语义依存树，提取了专利文档中的技术特征，并进一步通过BM25算法、随机游走算法和simrank方法等总结计算了各个专利文档之间的相似性，同时建立了目标专利文档与对比专利文档之间一对多的专利对比分析模型，从而可快速有效的判断目标专利文档是否具有新颖性。

附图说明

图1是本发明专利相似性的对比分析方法的流程图。

图2是图1中步骤S2的流程图。

图3是本发明中语义依存树的建立流程示意图。

图4是本发明中技术特征-专利文档二部图的结构示意简图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参阅图1所示，本发明揭示了一种专利相似性的对比分析方法，其特征在于，包括以下步骤：

S3、基于图结构模型，建立技术特征-专利文档二部图；

以下说明书部分将对所述专利相似性的对比分析方法进行详细的说明。

所述步骤S1具体包括：

S11、定义专利文档包括目标专利文档和与所述目标专利文档相同主题的对比专利文档，且全部所述对比专利文档构成专利文档集D，利用SAO结构提取所述目标专利文档和所述专利文档集D中的全部技术特征；

S12、基于自然语言处理技术，建立每篇专利文档对应的语义依存树，并使用剪枝策略修剪所述语义依存树，以对所述技术特征进行筛选，获取由全部技术特征构成的技术特征集合T，T＝{t₁,t₂,...,t_m}，其中，t为技术特征，m为所述技术特征的个数。

其中，所述步骤S11具体为：定义目标专利文档d₀和与所述目标专利文档相同主题的对比专利文档d_n，其中，n为对比专利文档d_n的个数，全部所述对比专利文档d_n构成专利文档集D，D＝{d₁,d₂,...,d_n}，进一步的，利用SAO结构对提取所述目标专利文档和所述专利文档集D中全部技术特征。

请参阅图2及图3所示，所述步骤S12具体包括：

S121、语义依存解析：基于自然语言处理技术，对专利文档中的每一个句子进行语义依存解析；

在所述步骤S122中，一棵语义依存树包括多棵子树，每棵子树均由名词、动词以及修饰词组成，理论上，语义依存树上的所有节点都可以作为子树的根节点，但事实上，由于非实词节点作为根节点的子树多数无实际意义，因此在本发明中采用剪枝策略对语义依存树进行修剪。

在本发明中，所述剪枝策略具体包括，词性限制：利用词性标注去除语义依存树上的非实词节点；距离限制：去除两个词之间相隔10个及以上词的边；去除部分关系边：去除表并列关系(eCoo)的边和表顺承关系(eSucc)的边。

进一步的，在所述步骤S123中，对修剪后的语义依存树进行进一步处理，以提取语义依存子树，具体来讲所述步骤S123具体包括：

所述步骤S2具体包括：

S21、计算单个技术特征的独特性r_t,d：

其中，为所述技术特征t的权重。

事实上，在通过语义依存树对专利文档d的技术特征t进行提取后，每一个专利文档d可以看作是一系列技术特征t组成的技术特征集合。但是由于大多数技术特征t并不能代表专利文档d的实质，因此，在所述步骤S2中建立技术特征t的重要性评分模型对所有技术特征t进行评分，以表征技术特征t在专利文档d的重要程度。

所述步骤S3具体为：基于所述技术特征与所述专利文档的共现关系的技术特征-专利文档二部图(如图4)，其中，定义专利文档d包括目标专利文档和专利文档集D，即d＝D∪{d₀}＝{d₀,d₁,d₂,...,d_n}，定义技术特征t∈T＝{t₁,t₂,...,t_m}。所述技术特征-专利文档二部图中的节点由所述专利文档和所述技术特征组成，具体来讲，设任一技术特征t_i∈T，且所述技术特征t_i出现在专利文档d_j中，所述专利文档d_j∈D，则节点t_i和节点d_j之间有一条边，所述边的权重可根据BM25算法计算得出，以构建出技术特征-专利文档二部图。

所述步骤S4具体包括：

其中，a、b为技术特征-专利文档二部图中代表所述技术特征和所述专利文档的节点，c为simrank算法中的衰减因子，是一个0到1的常数；I(a)I(b)分别表示节点a和节点b的入节点集合；且当a＝b时，其相似度为1，在本发明中，为了避免0除的情况，当|I(a)|＝0或|I(b)|＝0时，f(a,b)＝0。

S43、计算同一技术特征在任意两篇所述专利文档d中的共性分数Φ(t,d,d′)；

Φ(t,d,d′)＝ln(1+f(t,d)×f(t,d′))

其中，d和d′为目标专利文档和专利文档集D中任意两篇专利文档，t为技术特征；f(t,d)和f(t,d′)的值越大，所述技术特征t与所述专利文档d和所述专利文档d′的相关性越高，则表示该技术特征t为所述专利文档d和所述专利文档d′的共有的技术特征。

所述步骤S4中，首先定义所述相关技术特征集，在本发明中，所述相关技术特征集包括共性特征集C、相同技术特征集S₀以及相似技术特征集S_i；所述共性特征集C用于表征所述专利文档集D和所述目标专利文档的共性技术特征；所述相同技术特征集S₀用于表征所述目标专利文档与所述对比专利文档相同的技术特征集；所述相似技术特征集S_i用于表征所述目标专利文档与第i篇所述对比专利文档d_i相似的技术特征的集合。

进一步的，所述步骤S5具体包括：

S51、获取相同技术特征集S₀，其中，d₀为目标专利文档，为所述目标专利文档d₀中所有所述技术特征的集合；

S52、获取相似技术特征集S_i；

S53、设置优化目标的约束条件：选取每篇专利文档中重要分数大于平均值的技术特征，以筛除专利文档中不重要的技术特征，并同时限制选择的技术特征的数量：

且

其中，对于j∈[1,2,...,|S₀|]，S_0j和S_ij为所述目标专利文档d₀和所述对比专利文档d_i中的一个相似技术特征对，且若所述对比专利文档d_i中没有与所述目标专利文档d₀中相似的技术特征t，则S_ij＝0。

进一步的，通过求解所述目标函数以得到目标专利文档d₀与所述对比专利文档d_n相似部分的技术特征集T_sim，其中技术特征集T_sim同时包含相似或相同的技术特征。

所述步骤S6中，结合步骤S5中的相似技术特征集T_sim和步骤S2中的技术特征的重要性分数来衡量T_sim在目标专利文档d₀所有技术特征集中的重要性程度，如果且具有较高的重要性分数，则表示目标专利文档d₀较重要的技术特征t与专利文档集D中的技术特征t有较高的相似性，说明目标专利文档d₀不具有显著的新颖性。如果且重要性分数较低，则表示目标专利文档d₀与专利文档集D相似的技术特征或技术特征集在目标专利文档d₀中占有较低的重要性，而具有较高重要性得分的技术特征或技术特征集与专利文档集D具有较大的差异性，说明目标专利文档d₀与专利文档集D相比有显著的新颖性。

综上所述，本发明专利相似性的对比分析方法，通过利用自然语言处理技术建立语义依存树，提取了专利文档中的技术特征，并进一步通过BM25算法、随机游走算法和simrank方法等总结计算了各个专利文档d之间的相似性，同时建立了目标专利文档与对比专利文档之间一对多的专利对比分析模型，从而可快速有效的判断目标专利文档是否具有新颖性。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种专利相似性的对比分析方法，其特征在于，包括以下步骤：

S3、基于图结构模型，建立技术特征-专利文档二部图；

2.根据权利要求1所述的专利相似性的对比分析方法，其特征在于，所述步骤S1具体包括：

3.根据权利要求2所述的专利相似性的对比分析方法，其特征在于：所述步骤S12具体为：

4.根据权利要求3所述的专利相似性的对比分析方法，其特征在于：所述步骤S122中剪枝策略具体包括：

词性限制：利用词性标注去除语义依存树上的非实词节点；

距离限制：去除两个词之间相隔10个及以上词的边；

去除部分关系边：去除表并列关系的边和表顺承关系的边。

5.根据权利要求3所述的专利相似性的对比分析方法，其特征在于：所述步骤S123具体为：

6.根据权利要求1所述的专利相似性的对比分析方法，其特征在于：所述步骤S2具体包括：

S21、计算单个技术特征的独特性r_t,d：

其中，为所述技术特征t的权重。

7.根据权利要求1所述的专利相似性的对比分析方法，其特征在于：所述步骤S3具体为：基于所述技术特征与所述专利文档的共现关系的技术特征-专利文档二部图，所述技术特征-专利文档二部图中的节点由所述专利文档和所述技术特征组成，且对应专利文档的节点和对应技术特征的节点之间的连线构成技术特征-专利文档二部图的边，所述边的权重基于所述BM25算法计算获得。

8.根据权利要求1所述的专利相似性的对比分析方法，其特征在于：所述步骤S4具体包括：

Φ(t,d,d′)＝ln(1+f(t,d)×f(t,d′))

9.根据权利要求1所述的专利相似性的对比分析方法，其特征在于：所述步骤S5具体包括：

且

10.根据权利要求1所述的专利相似性的对比分析方法，其特征在于：

所述步骤S6具体为：根据步骤S2中的技术特征的重要性分数来衡量T_sim在目标专利文档d₀所有技术特征集中的重要性程度，如果且具有较高的重要性分数，则目标专利文档d₀不具有新颖性；如果且重要性分数较低，则目标专利文档d₀与专利文档集D相比具有新颖性。