CN113255324B - 一种用于专利数据中发明人姓名消歧的方法 - Google Patents

一种用于专利数据中发明人姓名消歧的方法 Download PDF

Info

Publication number
CN113255324B
CN113255324B CN202110256301.0A CN202110256301A CN113255324B CN 113255324 B CN113255324 B CN 113255324B CN 202110256301 A CN202110256301 A CN 202110256301A CN 113255324 B CN113255324 B CN 113255324B
Authority
CN
China
Prior art keywords
similarity
name
data
inventor
developer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110256301.0A
Other languages
English (en)
Other versions
CN113255324A (zh
Inventor
孙笑明
熊旺
王雅兰
马浩智
刘斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Digital Information Technology Co ltd
Original Assignee
Xi'an Digital Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Digital Information Technology Co ltd filed Critical Xi'an Digital Information Technology Co ltd
Priority to CN202110256301.0A priority Critical patent/CN113255324B/zh
Publication of CN113255324A publication Critical patent/CN113255324A/zh
Application granted granted Critical
Publication of CN113255324B publication Critical patent/CN113255324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于专利数据中发明人姓名消歧的方法,属于信息处理领域,包括:提取专利数据中的发明人姓名集合、合作者集合、所在申请单位集合及知识分类号集合;对发明人姓名集合进行初步过滤;计算发明人姓名集合中各发明人间知识分类号相似程度,若发明人间知识分类号相似度大于设定的阈值a,则将该姓名对加入潜在相似集合Pi;对潜在相似集合Pi中的数据采用遍历方法提取集合元素,计算两个元素间的姓名相似度;采用随机森林算法对结果数据数据进一步进行判别;将结果数据以可视化界面操作的方式展示给用户选择,用户选择是否需要变更、修改,用户提交后对结果集中的数据进行替代。该方法可以快速筛选出大部分无用数据,减小计算量。

Description

一种用于专利数据中发明人姓名消歧的方法
技术领域
本发明属于信息处理领域,具体涉及一种用于专利数据中发明人姓名消歧的方法。
背景技术
发明人姓名消歧主要用于处理专利数据中由于输入或者编码错误导致的发明人姓名歧义。如在专利数据中申请人为张明与张日月,实际上其为同一个发明人,但是由于在数据输入时的错误导致申请人被区分为两个人,这类错误会影响专利数据中以发明人为研究对象的网络分析。因此需要使用发明人姓名消歧算法对这类错误进行处理。
现有同一公司的专利数据中发明人消歧技术主要是由美国加州大学 Fleming教授团队开发的贝叶斯消歧模型完成,即利用先验概率和后验概率评估姓名发生错误的概率,根据概率阈值或置信区间判断发明人姓名是否产生歧义。
但该模型所包含的技术主要针对非汉字发明人姓名,即只能识别和纠正英文字母类姓名错误。由于汉字有其特殊性,以汉字为基础的发明人姓名消歧需要设计新的算法,原算法应用上存在局限性。
因此,本申请提出一种用于专利数据中发明人姓名消歧的方法。
发明内容
为了克服上述现有技术存在的不足,本发明提供了一种用于专利数据中发明人姓名消歧的方法。
为了实现上述目的,本发明提供如下技术方案:
一种用于专利数据中发明人姓名消歧的方法,包括以下步骤:
步骤1、提取专利数据中的发明人姓名集合、发明人的合作者集合、发明人所在申请单位集合及知识分类号集合;
步骤2、如果专利数据中不重复的发明人姓名集合的元素数量大于10000,则对发明人姓名集合进行初步过滤;计算发明人姓名集合中各发明人拥有的知识分类号相似程度,若发明人间知识分类号相似度大于设定的阈值a,则将该姓名对加入潜在相似集合Pi
步骤3、对潜在相似集合Pi中的数据采用遍历方法提取集合元素,计算相似集合Pi中两个姓名元素间的相似度;
步骤4、采用随机森林算法对步骤3计算的相似度数据进一步进行判别,获得结果集R′,防止过拟合;
步骤5、将结果集R′以可视化界面操作的方式展示给用户选择,用户选择是否需要变更、修改,用户提交后对结果集中的数据进行替代。
优选地,所述步骤3中,所述合作者相似度的计算如下:
Figure RE-GDA0003159209790000021
Figure RE-GDA0003159209790000022
Figure RE-GDA0003159209790000023
S_Coo=Mean{S_Coo1,S_Coo2,S_Coo3} (4)
其中,Aai表示的是研发者i在其申请的专利中,研发者对应的专利合作者集合;Baj表示的是研发者j在其申请的专利中,研发者对应的专利合作者; S_Coo1,S_Coo2,S_Coo3分别表示其合作者相似度的计算方法,最后S_Coo 取三者的均值作为研发者合作者相似度。
优选地,所述步骤3中,所述专利分类号相似度计算如下:
Figure RE-GDA0003159209790000031
Figure RE-GDA0003159209790000032
Figure RE-GDA0003159209790000033
S_Pcn=Mean{S_Pcn1,S_Pcn2,S_Pcn3} (8)
其中,Abi表示的是研发者i在其申请的专利中,研发者i的专利对应的专利分类号;Bbj表示的是研发者j在其申请的专利中,研发者j的专利对应的专利分类号;
S_Pcn1,S_Pcn2,S_Pcn3分别表示其专利分类号相似度的计算方法,最后 S_Pcn取三者的均值作为研发者合作者相似度。
优选地,所述步骤3中,所述姓名相似度计算如下:
Figure RE-GDA0003159209790000034
Figure RE-GDA0003159209790000035
S_Nam=S_Nam1×S_Nam2 (11)
其中,Aci表示的是研发者i的拼音转换字符,Bcj表示的是研发者j的拼音转换字符,S_Nam1表示的是研发者i和j间姓名拼音相似度的计算方法;Adi表示的是研发者i的姓名字形转换字符,Bcj表示的是研发者j的姓名字形转换字符,S_Nam2表示的是研发者i和j间姓名字形相似度的计算方法;S_Nam表示的是研发者姓名相似度的计算公式,将拼音相似度与字形相似度相乘。
优选地,所述步骤4包括以下步骤:
步骤4.1、首先随机放回抽取训练样本集中的数据训练一个决策树;
步骤4.2、针对每个样本的特征维度是3,当决策树的每个节点需要分裂时,随机从属性中选择1个属性,使用信息增益的方法作为该节点的分裂属性;
步骤4.3、重复该步骤直到节点不能再分裂;注意整个决策树形成的过程中没有进行减枝;
步骤4.4、按照步骤4.1和4.3形成大量的决策树,构成决策树随机森林模型,该模型可以对输入的相似度数据进行判断是否是有歧义,获得结果集数据 R;
步骤4.5、将结果集数据R输入该决策树森林模型中,将模型输出无歧义的数据从R中去除,得到最终的结果集R′。
优选地,所述步骤4.4的判断规则如下所述:
A、如果姓名相似程度小于0.5,则该姓名不存在歧义,在集合中去除该姓名对;
如果姓名相似程度大于0.5,则计算合作者相似度;
B、如果姓名相似度大于0.5,合作者相似度小于0,则该姓名不存在歧义,在集合中去除该姓名对;
C、如果合作者相似度大于0,并且姓名相似度大于0.6,则该姓名对可能存在歧义,将其加入结果集数据R中,R指的是最终可能存在姓名歧义的结果集;
D、如果姓名相似度小于0.6,则继续比较专利分类号相似度;
E、如果分类号相似度大于0.5,则该姓名可能存在歧义,将姓名对加入结果集数据R中;否则该姓名不存在歧义,在集合Pi中去除该姓名对。
本发明提供的用于专利数据中发明人姓名消歧的方法具有以下有益效果:
该方法采用相似度计算、随机森林算法,在姓名集合数据量较大时,使用发明人的知识分类号相似度进行过滤,可以快速筛选出大部分无用数据,减小计算量、为了提高计算效率、降低整体计算成本;实现对中国专利大数据中任意一家公司内基于汉字的发明人姓名进行有效消歧,保证后续以发明人为基础的合作及知识网络构建、指标计算的准确度。
附图说明
为了更清楚地说明本发明实施例及其设计方案,下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1的用于专利数据中发明人姓名消歧的方法的流程图;
图2为决策树输出模型。
具体实施方式
为了使本领域技术人员更好的理解本发明的技术方案并能予以实施,下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本发明提供了一种用于专利数据中发明人姓名消歧的方法,具体如图1所示,包括以下步骤:
步骤1、提取专利数据中的发明人姓名集合、发明人的合作者集合(即专利申请人集合)、发明人所在申请单位集合及知识分类号集合,本实施例中,发明人也称为发明家;
步骤2、因为后续计算需要涉及集合中两两元素的比较,其复杂度与集合大小有关,如果集合过大会导致计算时间过长,因此需要根据实际情况削减集合:如果专利数据中不重复的发明人姓名集合的元素数量大于10000,则对发明人姓名集合进行初步过滤;计算发明人姓名集合中各发明人间知识分类号相似程度,若发明人间知识分类号相似度大于设定的阈值a(此阈值是通过专家头脑风暴法以及多次数据验证得到的,即根据专家经验与多次测试仿真得到的经验阈值,此处设定为0.1),则将该姓名对加入潜在相似集合Pi;潜在相似集合是指由于直接计算比较发明家姓名集合如果数量较大会使计算时间很长,这里需要削减集合数量,因为发明家间知识分类号的比较会相对较快且正确率会高点(分类号一般不会出错),因此用分类号。Pi集合中元素是指发明家间分类号相似程度大于阈值的姓名集合,得到集合Pi后进入步骤3;
步骤3、对潜在相似集合Pi中的数据采用遍历方法提取集合元素,计算两个元素间的姓名相似度;
具体的,本实施例中,步骤3中,合作者相似度的计算如下:
Figure RE-GDA0003159209790000061
Figure RE-GDA0003159209790000062
Figure RE-GDA0003159209790000063
S_Coo=Mean{S_Coo1,S_Coo2,S_Coo3} (4)
其中Aai表示的是研发者i在其申请的专利中,研发者对应的专利合作者集合;Baj表示的是研发者j在其申请的专利中,研发者对应的专利合作者; S_Coo1,S_Coo2,S_Coo3分别表示其合作者相似度的计算方法,最后S_Coo 取三者的均值作为研发者合作者相似度。
专利分类号相似度计算如下:
Figure RE-GDA0003159209790000064
Figure RE-GDA0003159209790000065
Figure RE-GDA0003159209790000066
S_Pcn=Mean{S_Pcn1,S_Pcn2,S_Pcn3} (8)
其中,Abi表示的是研发者i在其申请的专利中,研发者i的专利对应的专利分类号;Bbj表示的是研发者j在其申请的专利中,研发者j的专利对应的专利分类号;
S_Pcn1,S_Pcn2,S_Pcn3分别表示其专利分类号相似度的计算方法,最后 S_Pcn取三者的均值作为研发者合作者相似度(计算内容就是A与B专利分类号的相似程度,用(5)(6)的公式计算,交集和并集,交集是指两者共有的部分,并集是指两者之和)。
姓名相似度计算如下:
Figure RE-GDA0003159209790000071
Figure RE-GDA0003159209790000072
S_Nam=S_Nam1×S_Nam2 (11)
其中,Aci表示的是研发者i的拼音转换字符,Bcj表示的是研发者j的拼音转换字符,S_Nam1表示的是研发者i和j间姓名拼音相似度的计算方法;Adi表示的是研发者i的姓名字形转换字符,Bcj表示的是研发者j的姓名字形转换字符,S_Nam2表示的是研发者i和j间姓名字形相似度的计算方法;S_Nam表示的是研发者姓名相似度的计算公式,将拼音相似度与字形相似度相乘。
步骤4、采用随机森林算法对步骤3计算的相似度数据进一步进行判别,获得结果集R′,防止过拟合;
具体的,本实施例中,步骤4中,数据判别是指对结果集数据R中的数据进一步使用随机森林算法处理,防止过拟合,算法步骤如下:
步骤4.1、首先随机放回抽取训练样本集中的数据训练一个决策树;
步骤4.2、针对每个样本的特征维度是3(3个主要属性姓名相似度、合作者相似度、分类号相似度),当决策树的每个节点需要分裂时,随机从属性中选择1个属性,使用信息增益的方法作为该节点的分裂属性;
步骤4.3、重复该步骤直到节点不能再分裂;注意整个决策树形成的过程中没有进行减枝;
步骤4.4、按照步骤4.1和4.3形成大量的决策树,构成决策树随机森林模型,如图2所示,该模型可以对输入的数据进行判断是否是有歧义具体判断规则如下所述:
A、如果姓名相似程度小于0.5,则该姓名不存在歧义,在集合中去除该姓名对;
如果姓名相似程度大于0.5,则计算合作者相似度;
B、如果姓名相似度大于0.5,合作者相似度小于0,则该姓名不存在歧义,在集合中去除该姓名对;
C、如果合作者相似度大于0,并且姓名相似度大于0.6,则该姓名对可能存在歧义,将其加入结果集数据R中,R指的是最终可能存在姓名歧义的结果集;
D、如果姓名相似度小于0.6,则继续比较专利分类号相似度;
E、如果分类号相似度大于0.5,则该姓名可能存在歧义,将姓名对加入结果集数据R中;否则该姓名不存在歧义,在集合Pi中去除该姓名对;
步骤4.5、将结果集数据R输入该决策树森林模型中,将模型输出无歧义的数据从R中去除,得到最终的结果集R′。
步骤5、将结果集R′以可视化界面操作的方式展示给用户选择,用户选择是否需要变更、修改,用户提交后对结果集中的数据进行替代。
本实施例提供的用于专利数据中发明人姓名消歧的方法采用相似度计算、随机森林算法,在姓名集合数据量较大时,使用发明人的知识分类号相似度进行过滤,可以快速筛选出大部分无用数据,减小计算量、为了提高计算效率、降低整体计算成本;实现对中国专利大数据中任意一家公司内基于汉字的发明人姓名进行有效消歧,保证后续以发明人为基础的合作及知识网络构建、指标计算的准确度。
下面通过一个具体的实施例进一步说明本实施例提供的消岐算法,实施步骤如下:
S1、收集训练集,并整理如表1所示:
表1收集信息表
Figure RE-GDA0003159209790000091
S2、从训练集中随机有放回抽取数据,计算每组数据中的发明人姓名相似度、合作者相似度、知识分类号相似度,随机从这3个属性中选择1个属性,使用信息增益的方法作为该节点的分裂属性;然后训练一个决策树。
S3、重复该步骤生成大量决策树,构成决策树随机森林模型。
S4、针对用户需要处理的专利数据,提取专利数据中的发明人姓名集合、发明人的合作者集合、发明人所在申请单位集合及知识分类号集合。如果专利数据中不重复的发明人姓名集合的元素数量大于10000,则对发明人姓名集合进行初步过滤;计算发明人姓名集合中各发明人间知识分类号相似程度,若发明人间知识分类号相似度大于设定的阈值a(此阈值是通过专家头脑风暴法以及多次数据验证得到的,即根据专家经验与多次测试仿真得到的经验阈值,此处设定为0.1),则将该姓名对加入潜在相似集合Pi;
S5、对潜在相似集合Pi中的数据采用遍历方法提取集合元素,按照上述计算方法计算两个元素间的姓名相似度,如图2所示,并对相似度数据进行判断是否是有歧义,具体判断规则如下所述:
A、如果姓名相似程度小于0.5,则该姓名不存在歧义,在集合中去除该姓名对;
如果姓名相似程度大于0.5,则计算合作者相似度;
B、如果姓名相似度大于0.5,合作者相似度小于0,则该姓名不存在歧义,在集合中去除该姓名对;
C、如果合作者相似度大于0,并且姓名相似度大于0.6,则该姓名对可能存在歧义,将其加入结果集数据R中,R指的是最终可能存在姓名歧义的结果集;
D、如果姓名相似度小于0.6,则继续比较专利分类号相似度;
E、如果分类号相似度大于0.5,则该姓名可能存在歧义,将姓名对加入结果集数据R中;否则该姓名不存在歧义,在集合Pi中去除该姓名对;
S6、将集合Pi中的元素输入随机森林决策树模型,若该模型判定结果为该元素存在歧义,则保存结果。
以上所述实施例仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换,均属于本发明的保护范围。

Claims (1)

1.一种用于专利数据中发明人姓名消歧的方法,其特征在于,包括以下步骤:
步骤1、提取专利数据中的发明人姓名集合、发明人的合作者集合、发明人所在申请单位集合及知识分类号集合;
步骤2、如果专利数据中不重复的发明人姓名集合的元素数量大于10000,则对发明人姓名集合进行初步过滤;计算发明人姓名集合中各发明人拥有的知识分类号相似程度,若发明人间知识分类号相似度大于设定的阈值a,则将该姓名对加入潜在相似集合Pi;
步骤3、对潜在相似集合Pi中的数据采用遍历方法提取集合元素,计算相似集合Pi中两个姓名元素间的相似度;
步骤4、采用随机森林算法对步骤3计算的相似度数据进一步进行判别,获得结果集R′,防止过拟合;
步骤5、将结果集R′以可视化界面操作的方式展示给用户选择,用户选择是否需要变更、修改,用户提交后对结果集中的数据进行替代;
所述步骤3中,所述合作者相似度的计算如下:
Figure FDA0003439341410000011
Figure FDA0003439341410000012
Figure FDA0003439341410000013
S_Coo=Mean{S_Coo1,S_Coo2,S_Coo3} (4)
其中Aai表示的是研发者i在其申请的专利中,研发者对应的专利合作者集合;Baj表示的是研发者j在其申请的专利中,研发者对应的专利合作者;S_Coo1,S_Coo2,S_Coo3分别表示其合作者相似度的计算方法,最后S_Coo取三者的均值作为研发者合作者相似度;
所述步骤3中,所述专利分类号相似度计算如下:
Figure FDA0003439341410000021
Figure FDA0003439341410000022
Figure FDA0003439341410000023
S_Pcn=Mean{S_Pcn1,S_Pcn2,S_Pcn3} (8)
其中,Abi表示的是研发者i在其申请的专利中,研发者i的专利对应的专利分类号;Bbj表示的是研发者j在其申请的专利中,研发者j的专利对应的专利分类号;
S_Pcn1,S_Pcn2,S_Pcn3分别表示其专利分类号相似度的计算方法,最后S_Pcn取三者的均值作为研发者合作者相似度;
所述步骤3中,所述姓名相似度计算如下:
Figure FDA0003439341410000024
Figure FDA0003439341410000025
S_Nam=S_Nam1×S_Nam2 (11)
其中,Aci表示的是研发者i的拼音转换字符,Bcj表示的是研发者j的拼音转换字符,S_Nam1表示的是研发者i和j间姓名拼音相似度的计算方法;Adi表示的是研发者i的姓名字形转换字符,Bcj表示的是研发者j的姓名字形转换字符,S_Nam2表示的是研发者i和j间姓名字形相似度的计算方法;S_Nam表示的是研发者姓名相似度的计算公式,将拼音相似度与字形相似度相乘;
所述步骤4包括以下步骤:
步骤4.1、首先随机放回抽取训练样本集中的数据训练一个决策树;
步骤4.2、针对每个样本的特征维度是3,当决策树的每个节点需要分裂时,随机从属性中选择1个属性,使用信息增益的方法作为该节点的分裂属性;
步骤4.3、重复该步骤直到节点不能再分裂;注意整个决策树形成的过程中没有进行减枝;
步骤4.4、按照步骤4.1和4.3形成大量的决策树,构成决策树随机森林模型,该模型对输入的相似度数据进行判断是否是有歧义,获得结果集数据R;
步骤4.5、将结果集数据R输入该决策树森林模型中,将模型输出无歧义的数据从R中去除,得到最终的结果集R′;
所述步骤4.4的判断规则如下所述:
A、如果姓名相似程度小于0.5,则该姓名不存在歧义,在集合中去除该姓名对;
如果姓名相似程度大于0.5,则计算合作者相似度;
B、如果姓名相似度大于0.5,合作者相似度小于0,则该姓名不存在歧义,在集合中去除该姓名对;
C、如果合作者相似度大于0,并且姓名相似度大于0.6,则该姓名对可能存在歧义,将其加入结果集数据R中,R指的是最终可能存在姓名歧义的结果集;
D、如果姓名相似度小于0.6,则继续比较专利分类号相似度;
E、如果分类号相似度大于0.5,则该姓名可能存在歧义,将姓名对加入结果集数据R中;否则该姓名不存在歧义,在集合Pi中去除该姓名对。
CN202110256301.0A 2021-03-09 2021-03-09 一种用于专利数据中发明人姓名消歧的方法 Active CN113255324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110256301.0A CN113255324B (zh) 2021-03-09 2021-03-09 一种用于专利数据中发明人姓名消歧的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110256301.0A CN113255324B (zh) 2021-03-09 2021-03-09 一种用于专利数据中发明人姓名消歧的方法

Publications (2)

Publication Number Publication Date
CN113255324A CN113255324A (zh) 2021-08-13
CN113255324B true CN113255324B (zh) 2022-02-18

Family

ID=77181032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110256301.0A Active CN113255324B (zh) 2021-03-09 2021-03-09 一种用于专利数据中发明人姓名消歧的方法

Country Status (1)

Country Link
CN (1) CN113255324B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189942A (zh) * 2018-09-12 2019-01-11 山东大学 一种专利数据知识图谱的构建方法及装置
CN109670014A (zh) * 2018-11-21 2019-04-23 北京大学 一种基于规则匹配和机器学习的论文作者名消歧方法
CN111274332A (zh) * 2020-01-19 2020-06-12 中国科学院计算技术研究所 一种基于知识图谱的专利智能检索方法及系统
CN111930946A (zh) * 2020-08-18 2020-11-13 哈尔滨工程大学 一种基于相似性度量的专利分类方法
CN112131872A (zh) * 2020-09-18 2020-12-25 三螺旋大数据科技(昆山)有限公司 一种文献作者重名消歧方法和构建系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653590B (zh) * 2015-12-21 2019-03-26 青岛智能产业技术研究院 一种中文文献作者重名消歧的方法
CN111669451B (zh) * 2019-03-07 2022-10-21 顺丰科技有限公司 私人邮箱判断方法及判断装置
CN110020433B (zh) * 2019-04-01 2023-04-18 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN111259670A (zh) * 2020-01-13 2020-06-09 青岛聚看云科技有限公司 一种演职人员命名实体消歧方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189942A (zh) * 2018-09-12 2019-01-11 山东大学 一种专利数据知识图谱的构建方法及装置
CN109670014A (zh) * 2018-11-21 2019-04-23 北京大学 一种基于规则匹配和机器学习的论文作者名消歧方法
CN111274332A (zh) * 2020-01-19 2020-06-12 中国科学院计算技术研究所 一种基于知识图谱的专利智能检索方法及系统
CN111930946A (zh) * 2020-08-18 2020-11-13 哈尔滨工程大学 一种基于相似性度量的专利分类方法
CN112131872A (zh) * 2020-09-18 2020-12-25 三螺旋大数据科技(昆山)有限公司 一种文献作者重名消歧方法和构建系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于音形码的汉字相似度比对算法;陈鸣等;《信息技术》;20181130(第11期);全文 *
我国专利数据中发明家姓名消歧算法研究;刘斌等;《情报学报》;20160430;第35卷(第4期);全文 *

Also Published As

Publication number Publication date
CN113255324A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN103076892B (zh) 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN111666350B (zh) 一种基于bert模型的医疗文本关系抽取的方法
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN111651559B (zh) 一种基于事件抽取的社交网络用户关系抽取方法
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN110929022A (zh) 一种文本摘要生成方法及系统
WO2024087754A1 (zh) 一种多维度文本综合辨识方法
CN113255324B (zh) 一种用于专利数据中发明人姓名消歧的方法
CN115033668B (zh) 故事脉络构建方法、装置、电子设备和存储介质
CN112507115B (zh) 一种弹幕文本中情感词的分类方法、装置及存储介质
CN111538893B (zh) 一种从非结构化数据中提取网络安全新词的方法
CN114611625A (zh) 语言模型训练、数据处理方法、装置、设备、介质及产品
CN114547294A (zh) 一种基于传播过程综合信息的谣言检测方法及系统
CN108733824B (zh) 考虑专家知识的交互式主题建模方法及装置
CN111341404A (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN117708545B (zh) 融合主题提取与余弦相似度的观点贡献度评价方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant