CN105653590B - 一种中文文献作者重名消歧的方法 - Google Patents
一种中文文献作者重名消歧的方法 Download PDFInfo
- Publication number
- CN105653590B CN105653590B CN201510969129.8A CN201510969129A CN105653590B CN 105653590 B CN105653590 B CN 105653590B CN 201510969129 A CN201510969129 A CN 201510969129A CN 105653590 B CN105653590 B CN 105653590B
- Authority
- CN
- China
- Prior art keywords
- author
- name
- duplication
- similarity
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种中文文献作者重名消歧的方法,该方法包括:对文献数据集进行规范化预处理;作者初次抽取及形式化表达;对有重名歧义的作者根据其基础属性计算两两间的基础属性相似度得分;构建重名作者关键词关系对应表并计算关键词相似度得分;对重名作者建立合作关系网络并计算两两间的合作关系相似度得分;根据相关基础属性、关键词及合作关系网络计算综合相似度指数进行重名作者判定;根据判定结果更新作者相关信息。通过本发明可以实现对中文文献中存在的作者重名现象进行消歧,为通过学术文献分析进而应用在科技评价、学术研究等方面提供了一种提高学术分析精准化程度的方法。
Description
技术领域
本发明属于文献处理领域,尤其涉及一种中文文献作者重名消歧的方法。
背景技术
目前随着在线文献数据库的不断丰富和发展,越来越多的学者以及相关机构企业单位开始注重通过文献分析的方法了解领域最新科研动态,掌握同行或竞争对手的科技活动动向。在此基础上进一步研究发现领域重点及热点问题,把握领域发展概貌,辅助科技决策与学术评价。然而通过设置特定关键词、作者、期刊方向等进而获取到相关领域文献后,在进行文献分析时都普遍存在文献作者重名的问题,而仅仅通过相关机构属性,因为在线文献数据库的标注、作者在文献中机构标注不统一存在作者无法准确定位的问题,同时对已对应机构的作者重名,以及由于作者自己工作单位更换等原因造成的重名但机构不统一等问题影响着文献分析结果的质量。
针对以上的相关问题,现有技术主要通过以下方法来解决:(1)、有监督的作者消歧方法:需要先标注好训练样例数据,然后在此基础上创建分类模型,进而判断新出现的作者与样例中的作者是否属于同一作者。通常此方法消歧效果较好,但在实际使用中人工给大规模的文献数据进行标注要耗费大量时间,不切实际,实际应用的意义不大。(2)、无监督的作者消歧方法:通常采用聚类的方法实现。首先利用文献相关的属性特征,计算出所有数据点的相似度,通过特定的聚类算法得到的聚类团簇就是最后的消歧结果。除了传统的聚类方法,如层次聚类、谱聚类等外,还有学者应用网络图的方法。无监督的消歧方法因为不需要训练数据,不需要人工标注,具有较好的实用性。(3)、半监督的作者消歧方法,即以少量的标注数据指导大量的未标注数据。但无监督方法中一般采用的聚类算法中预先设定的聚类团数通常是不可预知的,同时现有的方法体系中没有综合考虑多种特征来解决作者消歧问题。
发明内容
本发明克服现有中文文献作者消歧方法的不足,提供了一种中文文献作者重名消歧的方法。该方法和系统可综合利用文献的多种特征,采用特征加权的方法实现重名作者的消歧。本发明可直接应用中文文献的作者消歧,为通过学术文献分析进而应用在科技评价、学术研究等方面提供了一种提高学术分析精准化程度的方法。本发明的具体技术方案为:
一种中文文献作者重名消歧的方法,包括以下步骤:
步骤一:数据规范化处理:将采集到的中文文献数据集PS,其中的每篇文献记作P,采集P的相关属性并对其做规范化处理,采用向量形式化表达其基础属性集,记作Pinfo,Pinfo=(Ptitle,Pauthor,Pauthor_en,Pinstitution,Pkeyword,Pabstract,Ppubtime,Pjournal);
其中:Ptitle为该篇文献的标题;
Pauthor为该篇文献的作者;
Pauthor_en为该篇文献的作者英文说明信息;
Pinstitution为该篇文献的机构;
Pkeyword为该篇文献的关键词;
Pabstract为该篇文献的摘要;
Ppubtime为该篇文献的发表时间;
Pjournal为该篇文献的来源期刊。
步骤二:作者初次抽取及形式化表达:根据每篇P作者Pauthor和Pauthor_en的基础属性,抽取作者信息,初步建立作者与机构的匹配,采用向量形式化表示每位作者相关信息,记作Ainfo,Ainfo=(Ainstituion,Akeywords,Acollaborators,Apset);同时将有把有重名的作者对象放入一个列表中,记作Alist,将所有待处理的重名作者集合放入列表AprocessSet中;对每一个Alisti中的两两之间进行以下步骤三至七:
其中:Ainstituion为该文献标注的作者的机构;
Akeywords为该作者的文章关键词表;
Acollaborators为该作者的合作者列表:
Apset为该作者在PS中的文献对象集合。
Alist={A1,A2,A3,…Ak},k≥2。是本作者姓名重名的个数,k。
AprocessSet={Alist1,Alist2,Alist3,…,Alistn};n是PS中所有有重名的作者列表的个数。作者消歧的目标就是使得AprocessSet中每一个Alisti中的k值尽量等于或逼近真实的作者个数tk。
步骤三:计算重名作者的相关基础属性特征相似度:根据选取作者机构特征、期刊特征与标题(摘要)特征,用概率论计算重名作者的机构相似度得分Simscoreinsti,根据期刊种类预定义期刊之间的相似度计算期刊相关度得分Simscorejournal,根据向量空间模型VSN与余弦计算标题(摘要)相似度得分Simscoretitle&abstract,根据预定义的特征权重动态调正后计算重名作者间的基础属性相似度并对结果归一化到0-100的区间范围;
步骤四:计算重名作者的关键词特征相似度得分:对重名作者,根据其文献在PS中的文献对象集合A_pset中文献关键词,抽取作者文献关键词对应表并统计每个关键词的词频,计算重名作者间的文章关键词相似度并对计算结果归一化;
步骤五:计算重名作者的合作者关系特征相似度得分:对重名作者,根据其A_pset中文献的合作作者,构建其合作关系表,每个合作作者统计合作次数、合作时间,设定A_collaborators。计算合作者关系特征相似度得分并对计算结果归一化;
步骤六:计算综合相似指数并重名消歧:综合重名作者的基础属性特征相似度得分,文章关键词特征相似度得分,合作者关系特征相似度得分,对三项得分进行加权计算综合相似指数;然后根据计算结果与预定义的阈值进行比较,对于超过阈值的两个作者判定为同一作者;
步骤七:作者信息更新:对经过步骤106判断为同一作者的两个作者对象进行融合,删除其中一个作者对象,然后更新保留作者的各项属性,包括作者机构、文献集合、合作者集合、关键词集合等。对每一个重名作者列表中的作者重复步骤103到107:直到每一个重名列表中的作者两两之间的相似度得分均低于融合阈值,程序结束。
优化地,所述步骤一中相关属性规范处理前要先对其进行过滤,过滤方法主要采用过滤掉重要基础属性丢失的文献,包括没有机构信息、没有关键词信息等。
优化地,所述步骤一中机构信息的规范化处理是根据与定义的三级机构信息分级抽取并标注保存,预定义的三级机构划分如下:一级机构:大学、科研院所、集团等;二级机构:大学学院、科研院所下级直属单位、集团分公司等;三级机构:大学院系、实验室、具体分公司部门等。
优化地,所述步骤一中的文章发表时间,规范化处理时只保留其发表年份。
优化地,所述步骤二中对每个作者对象设定其相关基础属性,对于文章作者所属机构有标注的文章,设定并标注其机构信息;对于隶属于多家机构的作者,根据标注前后顺序进行保存,同时保存对应机构的级别;对所属机构无标注的文章,临时设定文章的机构作为其每个作者的机构。
优化地,所述步骤三中标题与摘要相似度的计算也可以采用文本相似度算法。
优化地,所述步骤三中使用空间向量与余弦计算相似度时要先根据词性去掉标题与摘要中的副词、虚词与数词;具体的算法为:设作者Ai,Aj的标题与摘要经过预处理(分词、去停用词等)后的词序列分别为Wi(Wi1,Wi2,Wi3,...Wim)与Wj(Wj1,Wj2,Wj3,...Wjn),则Wi与Wj的相似度计算公式为:
其中,Wik、Wjk分别表示Wi和Wj第k个特征项的权值。
一般情况下,根据概率论来计算机构相似度得分Simscoreinsti。机构信息越详细(三级机构)如果两个作者的信息相同,则为同一个人的概率更大。首先比较一级机构,如果一级机构一样;再分别匹配二级机构与三级机构。定义为如果一级机构相同,则机构相似度为90,如果到二级机构相同,则相似度得分为95,如果三级机构相同,则为100。都不同相同则为0。
一般情况下,期刊相似度Simscorejournal的得分也通过概率论来计算。,作者发文相对会集中在领域相关的几个特定的期刊上,因此可以将期刊作为作者消歧的一个基础属性特征。期刊之间的相似度计算需要预先定义期刊之间的相似度表,由于期刊种类繁多,人工定义相似度存在较大的工作量和随机误差,因此这里采用从CNKI期刊库里根据期刊所属学科领域采集相关期刊列表,期刊大类分为“自然科学与工程技术”与“人文社会科学”,共包含8260种期刊,基本覆盖国内中文绝大部分期刊。同时,每个大类下又分为若干二级类别,如“自然科学与工程技术”类目下包含:基础科学、工程科技I、工程科技II、农业科技、医药卫生科技、信息科技6个类目。二级类目下又分为三级类目,如“信息科技”分为:电子信息科学综合、无线电电子学、电信技术、计算机硬件技术等11个三级类别。定义期刊间的相似度如下:两本期刊如果只同属一样的一级大类则相关度为40;如果所属的二级类目也相同,则相关度增为60;如果所属的三级类目也相同,则相关度增为80。
优化地,所述步骤三中基础属性得分为
Simscorebasic(Ai,Aj)=Simscoreinsti*α+Simscorejournal*β+Simscoretitle&abstract*γ,其中,α,β,γ分别为机构特征、期刊特征、标题与摘要特征的影响权重因子,可以根据使用者需求自行设定,随后对计算结果归一化到0-100点区间范围。归一化的计算为Simscorebasic=Simscorebasic/100。
优化地,所述步骤四中文章关键词的算法采用完全匹配法。
定义两个重名作者的文章关键词相同数目为key_num(Ai,Aj):
key_num(Ai,Aj)=|Ai-keywords∩Aj-keywords|
然后定义归一化的关键词特征的相似度Simscorekeyword(Ai,Ai):
分别为Ai-keywords与Aj-keywords的关键词个数。
优化地,一般认为,如果两篇文献拥有共同的合作者,则很有可能属于同一个同名作者。合作者重复越多,相似性越大,为同一个作者的几率越大。基于此,所述步骤五中合作作者特征相似度的计算为:co_num(Ai,Aj)=|Ai-collaborators∩Aj-collaborators|。
然后定义归一化的合作者特征的相似度Simscorecoauthor(Ai,Aj):
分别为Ai-collaborators与Aj-collaborators的作者个数。
优化地,所述步骤六中两个重名作者的综合相似度得分为
Simscore(Ai,Aj)=Simscorebasic(Ai,Aj)*α1+Simscorekeyword(Ai,Aj)*α2+Simscorecoauthor(Ai,Aj)*α3,其中α1,α2,α3分别为基础属性特征、关键词特征、合作作者的权重,可以根据使用者需求自行设定。
记θ为相似度判断阈值,即若Simscore(Ai,Aj)≥θ,则判断Ai,Aj为同一作者,转到步骤107。Simscore(Ai,Aj)<θ则判断Ai,Aj为不同作者,不进行合并。如果仍有未处理的重名作者,取出重名作者集中下一个作者,转到步骤103,否则结束。θ的设定同样根据用户实际需求,通过多次测试进行设定,一般取0.9-1。
附图说明:
图1是本发明方法流程示意图;
图2是本发明方法具体操作的示意图
具体实施方式
本发明中,用户可以根据其关注的领域,使用设定关键词、指定相关期刊、设定领域分类方向、起止年份等方式在CNKI、万方等文献平台采集相关中文文献数据集,记作PS。一般情况下,平台中可以看到的文章属性都可以采集到,包括文献的标题、作者、机构、摘要、关键词、期刊、发表时间等,默认采集所有基础属性,不下载正文。PS中的每篇文献记作P,由于采集的个别属性表达方式上的多样性以及平台本身对个别录入文献的不规范性,需要对PS进行初步过滤以及对过滤后的每篇有效文献P的相关属性,包括作者、机构、关键词等进行规范化处理。过滤方法主要采用过滤掉重要基础属性丢失的文献,包括没有机构信息、没有关键词信息等。由于每篇文献由于作者的习惯等标注的机构信息也具有多样性,需要对机构信息进行处理,根据预定义的三级机构信息分级抽取并标注。机构分级定义如下:大学、科研院所、集团等属于一级机构,大学学院、科研院所下级直属单位、集团分公司等属于二级机构,大学院系、实验室、具体分公司部门等属于三级机构。
对每篇文献采集的机构通过命名实体识别以及文字处理匹配等处理后分级保存。对文章发表时间只保留年份。
然后按照本发明的具体方法进行作者重名消歧。其中,CNKI中使用作者英文信息进行机构标号,万方则直接在中文作者姓名后标注机构标号,对于隶属于多家机构的作者,根据标注前后顺序进行保存,同时保存对应机构的级别。对于无标注的作者,临时设定文章的所有机构信息作为其每个作者的机构。根据每篇文章的作者共现关系,设定其合作作者列表。根据每篇文章的关键词信息,设定对应作者的关键词,同时每个关键词对象包括关键词名称以及次序(第一关键词、第二关键词等)。
优化地,本发明所述的因子可取:α=0.8,β=0.1,γ=0.1,α1=0.4,α2=0.3,α3=0.4。
Claims (11)
1.一种中文文献作者重名消歧的方法,其特征在于:包括以下步骤:
步骤一:数据规范化处理:将采集到的中文文献数据集PS,其中的每篇文献记作P,采集P的相关属性并对其做规范化处理,采用向量形式化表达其基础属性集,记作Pinfo,Pinfo=(Ptitle,Pauthor,Pauthor_en,Pinstitution,Pkeyword,Pabstract,Ppubtime,Pjournal);其中:
Ptitle为该篇文献的标题;
Pauthor为该篇文献的作者;
Pauthor_en为该篇文献的作者英文说明信息;
Pinstitution为每篇文献的机构;
Pkeyword为该篇文献的关键词;
Pabstract为该篇文献的摘要;
Ppubtime为该篇文献的发表时间;
Pjournal为每篇文献的来源期刊;
步骤二:作者初次抽取及形式化表达:根据每篇P作者Pauthor和Pauthor_en的基础属性,抽取作者信息,初步建立作者与机构的匹配,采用向量形式化表示每位作者相关信息,记作Ainfo,Ainfo=(Ainstitution,Akeywords,Acollaborators,Apset);同时将有把有重名的作者对象放入一个列表中,记作Alist,将所有待处理的重名作者集合放入列表AprocessSet中;对每一个Alist中的两两之间进行以下步骤三至七;其中:
Ainstitution为该文献标注的作者的机构;
Akeywords为该作者的文章关键词表;
Acollaborator为该作者的合作者列表;
Apset为该作者在PS中的文献对象集合;
步骤三:计算重名作者的相关基础属性特征相似度:根据选取作者机构特征、期刊特征与标题与摘要特征,用概率论计算重名作者的机构相似度得分Simscoreinsti,根据期刊种类预定义期刊之间的相似度计算期刊相关度得分Simscorejournal,根据向量空间模型VSN与余弦计算标题与摘要相似度得分Simscoretitle&abstract,根据预定义的特征权重动态调正后计算重名作者间的基础属性相似度并对结果归一化到0-100的区间范围;
步骤四:计算重名作者的关键词特征相似度得分:对重名作者,根据其文献在PS中的文献对象集合A_pset中文献关键词,抽取作者文献关键词对应表并统计每个关键词的词频,计算重名作者间的文章关键词相似度并对计算结果归一化;
步骤五:计算重名作者的合作者关系特征相似度得分:对重名作者,根据其A_pset中文献的合作作者,构建其合作关系表,每个合作作者统计合作次数、合作时间,设定A_collaborators,计算合作者关系特征相似度得分并对计算结果归一化;
步骤六:计算综合相似指数并重名消歧:综合重名作者的基础属性特征相似度得分,文章关键词特征相似度得分,合作者关系特征相似度得分,对三项得分进行加权计算综合相似指数;然后根据计算结果与预定义的阈值进行比较,对于超过阈值的两个作者判定为同一作者;
步骤七:作者信息更新:对经过步骤106判断为同一作者的两个作者对象进行融合,删除其中一个作者对象,然后更新保留作者的各项属性,包括作者机构、文献集合、合作者集合、关键词集合,对每一个重名作者列表中的作者重复步骤103到107:直到每一个重名列表中的作者两两之间的相似度得分均低于融合阈值,程序结束。
2.根据权利要求1所述的中文文献作者重名消歧的方法,其特征在于:所述步骤一中相关属性规范处理前要先对其进行过滤,过滤方法主要采用过滤掉重要基础属性丢失的文献,包括没有机构信息、没有关键词信息。
3.根据权利要求1所述的中文文献作者重名消歧的方法,其特征在于:所述步骤一中机构信息的规范化处理是根据与定义的三级机构信息分级抽取并标注保存,预定义的三级机构划分如下:一级机构:大学、科研院所、集团;二级机构:大学学院、科研院所下级直属单位、集团分公司;三级机构:大学院系、实验室、具体分公司部门。
4.根据权利要求1所述的中文文献作者重名消歧的方法,其特征在于:所述步骤一中的文章发表时间,规范化处理时只保留其发表年份。
5.根据权利要求1所述的中文文献作者重名消歧的方法,其特征在于:所述步骤二中对每个作者对象设定其相关基础属性,对于文章作者所属机构有标注的文章,设定并标注其机构信息;对于隶属于多家机构的作者,根据标注前后顺序进行保存,同时保存对应机构的级别;对所属机构无标注的文章,临时设定文章的机构作为其每个作者的机构。
6.根据权利要求1所述的中文文献作者重名消歧的方法,其特征在于:所述步骤三中标题与摘要相似度的计算也可以采用文本相似度算法。
7.根据权利要求1所述的中文文献作者重名消歧的方法,其特征在于:所述步骤三中使用空间向量与余弦计算相似度时要先根据词性去掉标题与摘要中的副词、虚词与数词;具体的算法为:设作者Ai,Aj的标题与摘要经过预处理包括分词、去停用词后的词序列分别为Wi(Wi1,Wi2,Wi3,…Wim)与Wj(Wj1,Wj2,Wj3,…Wjn),则Wi与Wj的相似度计算公式为:
其中,Wik、Wjk分别表示Wi和Wj第k个特征项的权值。
8.根据权利要求1所述的中文文献作者重名消歧的方法,其特征在于:所述步骤三中基础属性得分为Simscorebasic(Ai,Aj)=Simscoreinsti*α+Simscorejournal*β+Simscoretitle&ab stract*γ,其中α,β,γ分别为机构特征、期刊特征、标题与摘要特征的影响权重因子,可以根据使用者需求自行设定,随后对计算结果归一化到0-100点区间范围。
9.根据权利要求1所述的中文文献作者重名消歧的方法,其特征在于:所述步骤四中文章关键词的算法采用完全匹配法。
10.根据权利要求1所述的中文文献作者重名消歧的方法,其特征在于:所述步骤五中合作作者特征相似度的计算为:co_num(Ai,Aj)=|Ai-collaborators∩Aj-collaborators|。
11.根据权利要求1所述的中文文献作者重名消歧的方法,其特征在于:所述步骤六中两个重名作者的综合相似度得分为
其中α1,α2,α3分别为基础属性特征、关键词特征、合作作者的权重,可以根据使用者需求自行设定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510969129.8A CN105653590B (zh) | 2015-12-21 | 2015-12-21 | 一种中文文献作者重名消歧的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510969129.8A CN105653590B (zh) | 2015-12-21 | 2015-12-21 | 一种中文文献作者重名消歧的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105653590A CN105653590A (zh) | 2016-06-08 |
CN105653590B true CN105653590B (zh) | 2019-03-26 |
Family
ID=56477644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510969129.8A Active CN105653590B (zh) | 2015-12-21 | 2015-12-21 | 一种中文文献作者重名消歧的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105653590B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407180B (zh) * | 2016-08-30 | 2021-01-01 | 北京奇艺世纪科技有限公司 | 一种实体消歧方法及装置 |
CN108255846A (zh) * | 2016-12-29 | 2018-07-06 | 北京赛时科技有限公司 | 一种辨别同名作者的方法和装置 |
CN107577791A (zh) * | 2017-09-18 | 2018-01-12 | 河北省科学院应用数学研究所 | 一种企业征信人名重名消歧的方法及运用该方法的征信系统 |
CN107590128B (zh) * | 2017-09-21 | 2021-08-17 | 湖北大学 | 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法 |
CN109241008B (zh) * | 2018-08-07 | 2020-10-27 | 北京大学第三医院 | 文献去重方法及装置 |
CN109753662B (zh) * | 2019-01-14 | 2023-01-06 | 中南大学 | 一种基于分层网络的重名作者辨识方法 |
CN110059180B (zh) * | 2019-03-13 | 2022-09-23 | 百度在线网络技术(北京)有限公司 | 文章作者身份识别及评估模型训练方法、装置及存储介质 |
CN110020433B (zh) * | 2019-04-01 | 2023-04-18 | 中科天玑数据科技股份有限公司 | 一种基于企业关联关系的工商高管人名消歧方法 |
CN110275957B (zh) * | 2019-06-24 | 2021-06-29 | 中国科学技术信息研究所 | 姓名消歧方法、装置、电子设备及计算机可读存储介质 |
CN110704643B (zh) * | 2019-08-23 | 2022-07-26 | 上海科技发展有限公司 | 不同类文献相同作者自动辨识方法及装置、存储介质终端 |
CN110889467A (zh) * | 2019-12-20 | 2020-03-17 | 中国建设银行股份有限公司 | 一种公司名称匹配方法、装置、终端设备及存储介质 |
CN111191466B (zh) | 2019-12-25 | 2022-04-01 | 中国科学院计算机网络信息中心 | 一种基于网络表征和语义表征的同名作者消歧方法 |
CN111221968B (zh) * | 2019-12-31 | 2023-07-21 | 北京航空航天大学 | 基于学科树聚类的作者消歧方法及装置 |
CN111325390B (zh) * | 2020-02-17 | 2023-04-18 | 电子科技大学 | 一种基于兴趣演化的学者合作关系预测方法 |
CN111680498B (zh) * | 2020-05-18 | 2023-04-07 | 国家基础地理信息中心 | 实体消歧方法、装置、存储介质及计算机设备 |
CN112036692B (zh) * | 2020-07-28 | 2024-06-07 | 中译语通科技股份有限公司 | 一种人员在机构间流动情况的分析方法及分析系统 |
CN111984776B (zh) * | 2020-08-20 | 2023-08-11 | 中国农业科学院农业信息研究所 | 一种基于词向量模型的机构名称规范方法 |
CN112417082B (zh) * | 2020-10-14 | 2022-06-07 | 西南科技大学 | 一种科研成果数据消歧归档存储方法 |
CN113255324B (zh) * | 2021-03-09 | 2022-02-18 | 西安循数信息科技有限公司 | 一种用于专利数据中发明人姓名消歧的方法 |
CN112835852B (zh) * | 2021-04-20 | 2021-08-17 | 中译语通科技股份有限公司 | 提升逐篇归档的效率的人物重名消歧方法、系统、设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609546A (zh) * | 2011-12-08 | 2012-07-25 | 清华大学 | 一种学术期刊论文作者信息挖掘方法及系统 |
CN102880631A (zh) * | 2012-07-05 | 2013-01-16 | 湖南大学 | 一种基于双层分类模型的中文作者识别方法及其装置 |
CN104156437A (zh) * | 2014-08-13 | 2014-11-19 | 中科嘉速(北京)并行软件有限公司 | 基于论文作者信息提取和关系权值模型的学术关系网构造方法 |
CN105164671A (zh) * | 2012-11-16 | 2015-12-16 | 谷歌股份有限公司 | 在信息检索系统中使用层级评分以进行消歧 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9305083B2 (en) * | 2012-01-26 | 2016-04-05 | Microsoft Technology Licensing, Llc | Author disambiguation |
US9524526B2 (en) * | 2012-04-17 | 2016-12-20 | International Business Machines Corporation | Disambiguating authors in social media communications |
-
2015
- 2015-12-21 CN CN201510969129.8A patent/CN105653590B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609546A (zh) * | 2011-12-08 | 2012-07-25 | 清华大学 | 一种学术期刊论文作者信息挖掘方法及系统 |
CN102880631A (zh) * | 2012-07-05 | 2013-01-16 | 湖南大学 | 一种基于双层分类模型的中文作者识别方法及其装置 |
CN105164671A (zh) * | 2012-11-16 | 2015-12-16 | 谷歌股份有限公司 | 在信息检索系统中使用层级评分以进行消歧 |
CN104156437A (zh) * | 2014-08-13 | 2014-11-19 | 中科嘉速(北京)并行软件有限公司 | 基于论文作者信息提取和关系权值模型的学术关系网构造方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105653590A (zh) | 2016-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105653590B (zh) | 一种中文文献作者重名消歧的方法 | |
Salloum et al. | Mining social media text: extracting knowledge from Facebook | |
CN104133848B (zh) | 藏语实体知识信息抽取方法 | |
Hertling et al. | Webisalod: providing hypernymy relations extracted from the web as linked open data | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
Islam et al. | Supervised approach of sentimentality extraction from bengali facebook status | |
CN113673943B (zh) | 一种基于履历大数据的人员任免辅助决策方法及系统 | |
CN107247739B (zh) | 一种基于因子图的金融公报文本知识提取方法 | |
CN109829166A (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
Zipp et al. | Particle verbs across first and second language varieties of English | |
CN109299455A (zh) | 一种汉语动名词超常搭配的计算机语言处理方法 | |
CN107480137A (zh) | 用语义迭代提取网络突发事件并识别外延事件关系的方法 | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
Elfida et al. | Enhancing to method for extracting Social network by the relation existence | |
Pan | Measuring the goals and incentives of local Chinese officials | |
CN107908749B (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
Mohnot et al. | Hybrid approach for Part of Speech Tagger for Hindi language | |
CN110110013A (zh) | 一种基于时空属性的实体竞争关系数据挖掘方法 | |
CN109614619A (zh) | 基于中医学领域专业词和文献的电子字典及其更新方法 | |
Li et al. | Analysis of Weibo comments based on SVM and LDA models | |
Wang et al. | An Empirical Study on the Clickbait of Data Science Articles in the WeChat Official Accounts | |
Abdelmegied et al. | A modified version of alquans: An arabic language question answering system | |
Sharmila et al. | Non-Class Element based Iterative Text Clustering Algorithm for Improved Clustering Accuracy using Semantic Ontology | |
Hinkelmann | A Computational Literature Analysis of Conversational AI Research with a Focus on the Coaching Domain | |
Hui et al. | Translators’ acceptance of data-driven crowd-sourcing translation in training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |