CN113255324B

CN113255324B - 一种用于专利数据中发明人姓名消歧的方法

Info

Publication number: CN113255324B
Application number: CN202110256301.0A
Authority: CN
Inventors: 孙笑明; 熊旺; 王雅兰; 马浩智; 刘斌
Original assignee: Xi'an Digital Information Technology Co ltd
Current assignee: Xi'an Digital Information Technology Co ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2022-02-18
Anticipated expiration: 2041-03-09
Also published as: CN113255324A

Abstract

本发明提供了一种用于专利数据中发明人姓名消歧的方法，属于信息处理领域，包括：提取专利数据中的发明人姓名集合、合作者集合、所在申请单位集合及知识分类号集合；对发明人姓名集合进行初步过滤；计算发明人姓名集合中各发明人间知识分类号相似程度，若发明人间知识分类号相似度大于设定的阈值a，则将该姓名对加入潜在相似集合Pi；对潜在相似集合Pi中的数据采用遍历方法提取集合元素，计算两个元素间的姓名相似度；采用随机森林算法对结果数据数据进一步进行判别；将结果数据以可视化界面操作的方式展示给用户选择，用户选择是否需要变更、修改，用户提交后对结果集中的数据进行替代。该方法可以快速筛选出大部分无用数据，减小计算量。

Description

一种用于专利数据中发明人姓名消歧的方法

技术领域

本发明属于信息处理领域，具体涉及一种用于专利数据中发明人姓名消歧的方法。

背景技术

发明人姓名消歧主要用于处理专利数据中由于输入或者编码错误导致的发明人姓名歧义。如在专利数据中申请人为张明与张日月，实际上其为同一个发明人，但是由于在数据输入时的错误导致申请人被区分为两个人，这类错误会影响专利数据中以发明人为研究对象的网络分析。因此需要使用发明人姓名消歧算法对这类错误进行处理。

现有同一公司的专利数据中发明人消歧技术主要是由美国加州大学 Fleming教授团队开发的贝叶斯消歧模型完成，即利用先验概率和后验概率评估姓名发生错误的概率，根据概率阈值或置信区间判断发明人姓名是否产生歧义。

但该模型所包含的技术主要针对非汉字发明人姓名，即只能识别和纠正英文字母类姓名错误。由于汉字有其特殊性，以汉字为基础的发明人姓名消歧需要设计新的算法，原算法应用上存在局限性。

因此，本申请提出一种用于专利数据中发明人姓名消歧的方法。

发明内容

为了克服上述现有技术存在的不足，本发明提供了一种用于专利数据中发明人姓名消歧的方法。

为了实现上述目的，本发明提供如下技术方案：

一种用于专利数据中发明人姓名消歧的方法，包括以下步骤：

步骤1、提取专利数据中的发明人姓名集合、发明人的合作者集合、发明人所在申请单位集合及知识分类号集合；

步骤2、如果专利数据中不重复的发明人姓名集合的元素数量大于10000，则对发明人姓名集合进行初步过滤；计算发明人姓名集合中各发明人拥有的知识分类号相似程度，若发明人间知识分类号相似度大于设定的阈值a，则将该姓名对加入潜在相似集合Pi

步骤3、对潜在相似集合Pi中的数据采用遍历方法提取集合元素，计算相似集合Pi中两个姓名元素间的相似度；

步骤4、采用随机森林算法对步骤3计算的相似度数据进一步进行判别，获得结果集R′，防止过拟合；

步骤5、将结果集R′以可视化界面操作的方式展示给用户选择，用户选择是否需要变更、修改，用户提交后对结果集中的数据进行替代。

优选地，所述步骤3中，所述合作者相似度的计算如下：

S_Coo＝Mean{S_Coo₁，S_Coo₂，S_Coo₃} (4)

其中，A_ai表示的是研发者i在其申请的专利中，研发者对应的专利合作者集合；B_aj表示的是研发者j在其申请的专利中，研发者对应的专利合作者； S_Coo₁，S_Coo₂，S_Coo₃分别表示其合作者相似度的计算方法，最后S_Coo 取三者的均值作为研发者合作者相似度。

优选地，所述步骤3中，所述专利分类号相似度计算如下：

S_Pcn＝Mean{S_Pcn₁，S_Pcn₂，S_Pcn₃} (8)

其中，A_bi表示的是研发者i在其申请的专利中，研发者i的专利对应的专利分类号；B_bj表示的是研发者j在其申请的专利中，研发者j的专利对应的专利分类号；

S_Pcn₁，S_Pcn₂，S_Pcn₃分别表示其专利分类号相似度的计算方法，最后 S_Pcn取三者的均值作为研发者合作者相似度。

优选地，所述步骤3中，所述姓名相似度计算如下：

S_Nam＝S_Nam₁×S_Nam₂ (11)

其中，A_ci表示的是研发者i的拼音转换字符，B_cj表示的是研发者j的拼音转换字符，S_Nam₁表示的是研发者i和j间姓名拼音相似度的计算方法；A_di表示的是研发者i的姓名字形转换字符，B_cj表示的是研发者j的姓名字形转换字符，S_Nam₂表示的是研发者i和j间姓名字形相似度的计算方法；S_Nam表示的是研发者姓名相似度的计算公式，将拼音相似度与字形相似度相乘。

优选地，所述步骤4包括以下步骤：

步骤4.1、首先随机放回抽取训练样本集中的数据训练一个决策树；

步骤4.2、针对每个样本的特征维度是3，当决策树的每个节点需要分裂时，随机从属性中选择1个属性，使用信息增益的方法作为该节点的分裂属性；

步骤4.3、重复该步骤直到节点不能再分裂；注意整个决策树形成的过程中没有进行减枝；

步骤4.4、按照步骤4.1和4.3形成大量的决策树，构成决策树随机森林模型，该模型可以对输入的相似度数据进行判断是否是有歧义，获得结果集数据 R；

步骤4.5、将结果集数据R输入该决策树森林模型中，将模型输出无歧义的数据从R中去除，得到最终的结果集R′。

优选地，所述步骤4.4的判断规则如下所述：

A、如果姓名相似程度小于0.5，则该姓名不存在歧义，在集合中去除该姓名对；

如果姓名相似程度大于0.5，则计算合作者相似度；

B、如果姓名相似度大于0.5，合作者相似度小于0，则该姓名不存在歧义，在集合中去除该姓名对；

C、如果合作者相似度大于0，并且姓名相似度大于0.6，则该姓名对可能存在歧义，将其加入结果集数据R中，R指的是最终可能存在姓名歧义的结果集；

D、如果姓名相似度小于0.6，则继续比较专利分类号相似度；

E、如果分类号相似度大于0.5，则该姓名可能存在歧义，将姓名对加入结果集数据R中；否则该姓名不存在歧义，在集合Pi中去除该姓名对。

本发明提供的用于专利数据中发明人姓名消歧的方法具有以下有益效果：

该方法采用相似度计算、随机森林算法，在姓名集合数据量较大时，使用发明人的知识分类号相似度进行过滤，可以快速筛选出大部分无用数据，减小计算量、为了提高计算效率、降低整体计算成本；实现对中国专利大数据中任意一家公司内基于汉字的发明人姓名进行有效消歧，保证后续以发明人为基础的合作及知识网络构建、指标计算的准确度。

附图说明

为了更清楚地说明本发明实施例及其设计方案，下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1的用于专利数据中发明人姓名消歧的方法的流程图；

图2为决策树输出模型。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方案并能予以实施，下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本发明提供了一种用于专利数据中发明人姓名消歧的方法，具体如图1所示，包括以下步骤：

步骤1、提取专利数据中的发明人姓名集合、发明人的合作者集合(即专利申请人集合)、发明人所在申请单位集合及知识分类号集合，本实施例中，发明人也称为发明家；

步骤2、因为后续计算需要涉及集合中两两元素的比较，其复杂度与集合大小有关，如果集合过大会导致计算时间过长，因此需要根据实际情况削减集合：如果专利数据中不重复的发明人姓名集合的元素数量大于10000，则对发明人姓名集合进行初步过滤；计算发明人姓名集合中各发明人间知识分类号相似程度，若发明人间知识分类号相似度大于设定的阈值a(此阈值是通过专家头脑风暴法以及多次数据验证得到的，即根据专家经验与多次测试仿真得到的经验阈值，此处设定为0.1)，则将该姓名对加入潜在相似集合Pi；潜在相似集合是指由于直接计算比较发明家姓名集合如果数量较大会使计算时间很长，这里需要削减集合数量，因为发明家间知识分类号的比较会相对较快且正确率会高点(分类号一般不会出错)，因此用分类号。Pi集合中元素是指发明家间分类号相似程度大于阈值的姓名集合，得到集合Pi后进入步骤3；

步骤3、对潜在相似集合Pi中的数据采用遍历方法提取集合元素，计算两个元素间的姓名相似度；

具体的，本实施例中，步骤3中，合作者相似度的计算如下：

S_Coo＝Mean{S_Coo₁，S_Coo₂，S_Coo₃} (4)

其中A_ai表示的是研发者i在其申请的专利中，研发者对应的专利合作者集合；B_aj表示的是研发者j在其申请的专利中，研发者对应的专利合作者； S_Coo₁，S_Coo₂，S_Coo₃分别表示其合作者相似度的计算方法，最后S_Coo 取三者的均值作为研发者合作者相似度。

专利分类号相似度计算如下：

S_Pcn＝Mean{S_Pcn₁，S_Pcn₂，S_Pcn₃} (8)

S_Pcn₁，S_Pcn₂，S_Pcn₃分别表示其专利分类号相似度的计算方法，最后 S_Pcn取三者的均值作为研发者合作者相似度(计算内容就是A与B专利分类号的相似程度，用(5)(6)的公式计算，交集和并集，交集是指两者共有的部分，并集是指两者之和)。

姓名相似度计算如下：

S_Nam＝S_Nam₁×S_Nam₂ (11)

具体的，本实施例中，步骤4中，数据判别是指对结果集数据R中的数据进一步使用随机森林算法处理，防止过拟合，算法步骤如下：

步骤4.2、针对每个样本的特征维度是3(3个主要属性姓名相似度、合作者相似度、分类号相似度)，当决策树的每个节点需要分裂时，随机从属性中选择1个属性，使用信息增益的方法作为该节点的分裂属性；

步骤4.4、按照步骤4.1和4.3形成大量的决策树，构成决策树随机森林模型，如图2所示，该模型可以对输入的数据进行判断是否是有歧义具体判断规则如下所述：

如果姓名相似程度大于0.5，则计算合作者相似度；

D、如果姓名相似度小于0.6，则继续比较专利分类号相似度；

E、如果分类号相似度大于0.5，则该姓名可能存在歧义，将姓名对加入结果集数据R中；否则该姓名不存在歧义，在集合Pi中去除该姓名对；

本实施例提供的用于专利数据中发明人姓名消歧的方法采用相似度计算、随机森林算法，在姓名集合数据量较大时，使用发明人的知识分类号相似度进行过滤，可以快速筛选出大部分无用数据，减小计算量、为了提高计算效率、降低整体计算成本；实现对中国专利大数据中任意一家公司内基于汉字的发明人姓名进行有效消歧，保证后续以发明人为基础的合作及知识网络构建、指标计算的准确度。

下面通过一个具体的实施例进一步说明本实施例提供的消岐算法，实施步骤如下：

S1、收集训练集，并整理如表1所示：

表1收集信息表

S2、从训练集中随机有放回抽取数据，计算每组数据中的发明人姓名相似度、合作者相似度、知识分类号相似度，随机从这3个属性中选择1个属性，使用信息增益的方法作为该节点的分裂属性；然后训练一个决策树。

S3、重复该步骤生成大量决策树，构成决策树随机森林模型。

S4、针对用户需要处理的专利数据，提取专利数据中的发明人姓名集合、发明人的合作者集合、发明人所在申请单位集合及知识分类号集合。如果专利数据中不重复的发明人姓名集合的元素数量大于10000，则对发明人姓名集合进行初步过滤；计算发明人姓名集合中各发明人间知识分类号相似程度，若发明人间知识分类号相似度大于设定的阈值a(此阈值是通过专家头脑风暴法以及多次数据验证得到的，即根据专家经验与多次测试仿真得到的经验阈值，此处设定为0.1)，则将该姓名对加入潜在相似集合Pi；

S5、对潜在相似集合Pi中的数据采用遍历方法提取集合元素，按照上述计算方法计算两个元素间的姓名相似度，如图2所示，并对相似度数据进行判断是否是有歧义，具体判断规则如下所述：

如果姓名相似程度大于0.5，则计算合作者相似度；

D、如果姓名相似度小于0.6，则继续比较专利分类号相似度；

S6、将集合Pi中的元素输入随机森林决策树模型，若该模型判定结果为该元素存在歧义，则保存结果。

以上所述实施例仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换，均属于本发明的保护范围。

Claims

1.一种用于专利数据中发明人姓名消歧的方法，其特征在于，包括以下步骤：

步骤2、如果专利数据中不重复的发明人姓名集合的元素数量大于10000，则对发明人姓名集合进行初步过滤；计算发明人姓名集合中各发明人拥有的知识分类号相似程度，若发明人间知识分类号相似度大于设定的阈值a，则将该姓名对加入潜在相似集合Pi；

步骤5、将结果集R′以可视化界面操作的方式展示给用户选择，用户选择是否需要变更、修改，用户提交后对结果集中的数据进行替代；

所述步骤3中，所述合作者相似度的计算如下：

S_Coo＝Mean{S_Coo₁，S_Coo₂，S_Coo₃} (4)

其中A_ai表示的是研发者i在其申请的专利中，研发者对应的专利合作者集合；B_aj表示的是研发者j在其申请的专利中，研发者对应的专利合作者；S_Coo₁，S_Coo₂，S_Coo₃分别表示其合作者相似度的计算方法，最后S_Coo取三者的均值作为研发者合作者相似度；

所述步骤3中，所述专利分类号相似度计算如下：

S_Pcn＝Mean{S_Pcn₁，S_Pcn₂，S_Pcn₃} (8)

S_Pcn_1，S_Pcn_2，S_Pcn₃分别表示其专利分类号相似度的计算方法，最后S_Pcn取三者的均值作为研发者合作者相似度；

所述步骤3中，所述姓名相似度计算如下：

S_Nam＝S_Nam₁×S_Nam₂ (11)

其中，A_ci表示的是研发者i的拼音转换字符，B_cj表示的是研发者j的拼音转换字符，S_Nam₁表示的是研发者i和j间姓名拼音相似度的计算方法；A_di表示的是研发者i的姓名字形转换字符，B_cj表示的是研发者j的姓名字形转换字符，S_Nam₂表示的是研发者i和j间姓名字形相似度的计算方法；S_Nam表示的是研发者姓名相似度的计算公式，将拼音相似度与字形相似度相乘；

所述步骤4包括以下步骤：

步骤4.4、按照步骤4.1和4.3形成大量的决策树，构成决策树随机森林模型，该模型对输入的相似度数据进行判断是否是有歧义，获得结果集数据R；

步骤4.5、将结果集数据R输入该决策树森林模型中，将模型输出无歧义的数据从R中去除，得到最终的结果集R′；

所述步骤4.4的判断规则如下所述：

如果姓名相似程度大于0.5，则计算合作者相似度；

D、如果姓名相似度小于0.6，则继续比较专利分类号相似度；