CN113962293A - 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 - Google Patents

一种基于LightGBM分类与表示学习的姓名消歧方法和系统 Download PDF

Info

Publication number
CN113962293A
CN113962293A CN202111153524.0A CN202111153524A CN113962293A CN 113962293 A CN113962293 A CN 113962293A CN 202111153524 A CN202111153524 A CN 202111153524A CN 113962293 A CN113962293 A CN 113962293A
Authority
CN
China
Prior art keywords
paper
papers
name
lightgbm
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111153524.0A
Other languages
English (en)
Other versions
CN113962293B (zh
Inventor
董昊
宁致远
杜一
周园春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN202111153524.0A priority Critical patent/CN113962293B/zh
Publication of CN113962293A publication Critical patent/CN113962293A/zh
Application granted granted Critical
Publication of CN113962293B publication Critical patent/CN113962293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明面向科学文献数据,针对文献中作者同名现象提出一种基于LightGBM分类与表示学习的姓名消歧方法和系统。监督学习部分利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,作为LightGBM二分类模型的输入,模型输出作为两篇论文属于同一作者的概率。表示学习部分引用word2vec文本语义表示方法和基于元路径的关系网络表征方法,来捕捉论文的语义信息和论文之间的关系特征。最后,基于监督模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现同名消歧。本发明能够在不损失精确率与召回率的前提下,达到高可扩展性与稳定性,并且可以完全实现并行化计算,以加快执行效率。

Description

一种基于LightGBM分类与表示学习的姓名消歧方法和系统
技术领域
本发明属于信息技术领域,具体涉及一种基于LightGBM分类与表示学习的姓名消歧方法和系统。
背景技术
姓名消歧被认为是科学文献数据领域的焦点任务。它主要应用于文献数据管理、分析、学者检索、构建学者社交网络等。随着近年来科学文献数量的急剧增长,学者数量也随之增长,学者的重名率愈来愈高,使得同名消歧任务面临巨大的挑战。此前,姓名消歧任务已在国内外提出诸多解决方案,由于数据具有多源性,且应用场景的复杂性,消歧方法仍存在优化空间。
CN111008285A提出了一种基于论文关键属性网络的消歧方法,利用论文之间的关系形成关键属性关系网,通过结合匹配作者名和作者相关信息解决同名歧义问题;CN111191466A提出了一种基于网络表征和语义表征的同名作者消歧方法,通过文本表征和论文间关系表征生成相似度,再聚类生成作者消歧结果;CN111930955A提出了一种反向分类的消歧方法,将无法通过预先训练分类模型区分的作者利用反向分类方法确定作者的所在类别;CN112131872A提出了一种基于文献与文献簇相似度的消歧方法,通过构建作者合作者关系网络与计算节点相似度并聚类,再计算聚类文献簇间的相似度并聚类实现同名消歧等。
目前多数已有消歧方案包括但不限于利用论文的语义信息、论文关系网的结构信息表征论文集或作者,再用聚类方法生成作者论文的消歧簇。这些方法在捕获论文间相似度时,涉及特征局限于语义、作者共同机构或共现作者等,鲜有方法全面考虑论文其他元信息并将其作为计算论文间相似度的特征信息,还存在一定的完善空间。
发明内容
本发明面向科学文献数据,针对文献中作者同名现象提出一种基于分类算法与表示学习算法相结合的姓名消歧方案。
本发明采用的技术方案如下:
一种基于LightGBM分类与表示学习的姓名消歧方法,包括以下步骤:
利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,输入LightGBM二分类模型进行训练,LightGBM二分类模型的输出为两篇论文属于同一作者的概率;
利用表示学习模型,通过基于元路径的关系网络表征方法捕捉论文间的关系特征,通过word2vec文本语义表示方法捕捉论文的语义特征;
基于LightGBM二分类模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现姓名消歧。
进一步地,所述利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,包括:
针对数据预处理后的所有论文项,提取每篇论文的7项独立特征即元信息特征,其包括:期刊名长度、关键词数、摘要长度、作者数量、关键词、摘要共现单词数和年份;
生成LightGBM模型的训练样本对,根据生成的训练样本对,提取并计算每个论文对的关联特征,其包括两论文的关键词共有词数、机构名共有词数、摘要共有词数、合作者数、期刊名共有词数、年份差值绝对值和和5项论文对对应元信息的语义嵌入向量的余弦相似度,共11项特征;其中的5项论文对对应元信息包括:论文题目、关键词、摘要、机构名和“题目|关键词|摘要|机构名”;利用word2vec词向量对5项元信息进行嵌入表示,作为论文元信息的语义嵌入向量;
对每一个训练样本对,组合其对应两篇论文的独立特征和关联特征,共18项特征作为训练样本对的LightGBM模型输入特征。
进一步地,所述通过基于元路径的关系网络表征方法捕捉论文间的关系特征,包括:
以数据预处理后的数据为数据源,构建论文异质网络,论文异质网络以每一待消歧姓名为单位进行构建,节点为论文,边是依据论文间关系建立的,边共有两种:存在合作者、存在共同机构名,边权重分别为合作者数量、共同机构数量;
定义元路径,然后在每个论文异质网络由元路径指导进行有指导的随机游走并生成系列游走路径,严格要求异质网络的每个节点都被游走,随机游走的概率正比于边权重,游走方向随机但不折返上一步,一条游走路径的长度取决于预先定义的最大游走长度或当前节点无有效的下一跳节点;
利用SKIP-GRAM模型对得到的所有游走路径进行表征,最终得到每篇论文的关系表征向量,且论文关系表征向量捕获了论文间的关系特征,最后利用余弦相似度计算所有论文关系表征向量的相似度。
进一步地,所述通过word2vec文本语义表示方法捕捉论文的语义特征,包括:
以数据预处理后的数据为数据源,提取每篇论文的关键文本,其包括论文题目、摘要、关键词、机构名、期刊名;
利用训练得到的单词词向量生成每篇论文的语义表征向量,以捕获、表征每篇论文的语义特征;生成语义表征向量时,首先将所有关键文本合并,然后逐词检索word2vec词向量,最终将所有词向量相加取平均得到该论文的语义表征向量;
最后利用余弦相似度计算所有论文语义表征向量的相似度。
进一步地,所述数据预处理包括数据清洗和内容格式化;
所述数据清洗包括:分析数据特点,处理脏数据与噪音数据,根据实际情况将无效数据进行剔除操作;
所述内容格式化用于避免论文作者数过多、论文作者命名方式不统一、多语种的问题对消歧造成负影响;针对论文作者数量过多的问题,只选取前若干名作者作为消歧任务中的有效作者;针对论文作者命名方式不统一的问题,对所有作者姓名字符进行符号剔除、小写转换操作,并对全量级数据作者进行归类计量,通过字符串分割再匹配的策略将所有作者姓名进行统一改写;针对论文中存在的多语种问题,利用在线翻译接口对除英语外的语言进行转换处理,统一为英语并将其作为消歧过程中的唯一语言。
进一步地,所述基于LightGBM二分类模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现姓名消歧,包括:
将LightGBM二分类模型预测的论文相似度、论文关系表征向量相似度、论文语义表征向量相似度进行加权相加,得到聚合相似度矩阵;
利用层次聚类算法对聚合相似度矩阵进行聚类;
将聚类结果进行格式化整理存储,形成最终聚类结果,即消歧结果。
一种采用上述方法的基于LightGBM分类与表示学习的姓名消歧系统,其包括:
数据预处理模块,用于对全部论文集进行数据预处理,包括数据清洗和内容格式化;
词向量训练模块,用于采用word2vec词向量训练方法训练词向量;
LightGBM训练模块,用于基于数据预处理模块和词向量训练模块的处理结果,利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,输入LightGBM二分类模型进行训练,LightGBM二分类模型的输出为两篇论文属于同一作者的概率;
LightGBM预测模块,用于采用训练完成的LightGBM二分类模型预测待消歧论文的相似度;
表示学习模块,用于利用表示学习模型,通过基于元路径的关系网络表征方法捕捉论文间的关系特征,通过word2vec文本语义表示方法捕捉论文的语义特征;
层次聚类模块,用于基于LightGBM二分类模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现姓名消歧。
本发明提出了一种基于分类算法与表示学习算法相结合的姓名消歧方案。其中分类算法部分,本发明使用LightGBM模型框架。LightGBM是一个使用基于树学习算法的梯度提升框架。它是一个高效的分布式框架,且具有以下优点:更快的训练速度和更高的效率;内存使用率较低;准确度更高;支持并行、分布式和GPU学习;能够处理大规模数据。而表示学习是一个学习特征的技术的集合:将原始数据转换成为能够被机器学习算法有效利用的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征。在实际的应用场景中,本发明的方法能够在不损失精确率与召回率的前提下,达到高可扩展性与稳定性,并且可以完全实现并行化计算,以加快执行效率。
附图说明
图1是基于LightGBM分类与表示学习的姓名消歧方法的步骤流程图。
图2是元路径的两种策略示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明面向科学文献数据,针对文献中作者同名现象提出一种基于监督学习算法和表示学习的消歧算法。其中,监督学习部分采用LightGBM(后简称为LGB)二分类模型。具体地,通过特征工程提取训练集论文的元信息和论文间关联信息,利用LGB算法训练二分类模型来判断任意两论文是否属同一作者。而表示学习部分引用word2vec文本语义表示方法和基于元路径的关系网络表征方法,分别用来捕捉论文的语义信息和论文间的关系特征,以泛化监督学习算法的判断结果,防止过拟合。最后,基于监督模型与表示学习模型的输出,利用聚类算法对待消歧论文集进行簇划分,将特征相似的论文划入相同簇,不相似的论文划入不同簇。本发明的具体实施步骤如图1所示。
步骤一:对全部论文集进行数据预处理。预处理主要分为两部分:
1)数据清洗,分析数据特点,处理脏数据与噪音数据。由于大部分论文源数据都存在错误的数据识别与统计,例如题目、作者信息缺失、关键词、摘要编码有误、年份信息错乱等,考虑到这些数据在做消歧任务中会产生不可控的影响,因此本发明根据实际情况将部分上述无效数据进行剔除操作。
2)内容格式化。在实际的数据分析中,发现论文数据存在部分论文作者数过多、论文作者命名方式不统一、多语种的问题。为避免这些问题对消歧造成负影响,针对论文作者数量过多的问题,只选取前若干名(优选为前50名)作者作为消歧任务中的有效作者;针对论文作者命名方式不统一的问题,对所有作者姓名字符进行符号剔除、小写转换操作,并对全量级数据作者进行归类计量,通过字符串分割再匹配的策略将所有作者姓名进行统一改写;针对论文中存在的多语种问题,利用在线翻译接口对除英语外的语言进行转换处理,统一为英语并将其作为消歧过程中的唯一语言。最后,对数据进行格式化存储,形成“预处理后数据”作为后续步骤的数据基础。
其中,字符串分割再匹配的策略是指对一个姓名多种写法的字符串按照策略先分割进行字(word)级别的统计,然后按照统一格式进行补全匹配改写。例如对于姓名“张三”,其写法有多种,如zhang san、san zhang、san-zhang、zhang-san、S.Zhang等,按照策略(例如按空格、短线等特殊字符分割)可分别将这些姓名字符串分割为【zhang、san】,【san、zhang】,【san、zhang】,【zhang、san】,【S、Zhang】(若姓名中有三个字也可以分割为三个),通过统计字符出现频率,参考常见姓氏与名字常用字符,利用补全匹配方法将这些不规则的写法统一改成zhang san这种写法,从而将所有作者姓名进行统一改写。
步骤二:词向量的训练。需要特别说明的是,本发明未使用已开放的公共预训练词向量,而使用论文数据作为词向量训练语料。另外,经过分析训练语料,本发明选择采用word2vec词向量训练方法中的skip-gram模型作为训练方法。词向量的训练语料是经步骤一预处理后的论文文本数据。考虑到word2vec词向量训练模型的特点,预先对训练语料进行停用词、非文字符号等字符的剔除工作,以增加实词的分布密度,提高模型有效性。具体地,训练语料选择了所有论文数据的题目、机构名、期刊名和摘要的文本数据。训练结束后,得到的单词词向量作为后续步骤的数据基础。
步骤三:生成LGB模型训练样本对。由于监督学习部分旨在构建基于LGB的二分类模型,训练数据须有标签数据指导,而论文数据互相独立,为此本发明设计了具有标签数据的训练样本对。样本对基于训练数据集生成,其分为正例样本对和负例样本对。正负样本对可由三元组形式进行表示:(p1,p2,tag)。其中p1与p2分别表示两篇不同的论文ID,tag为标签。当样本对为正例时tag=1,为负例时tag=0。
设trainset={name1,name2,…,namei,…,namen},其表示论文训练集中存在n个已消歧的作者姓名。其中
Figure BDA0003287935300000051
即索引为i的作者姓名实际上存在m个作者,且他们姓名都为namei。而对于其中索引为j的作者
Figure BDA0003287935300000061
Figure BDA0003287935300000062
其中paper为作者
Figure BDA0003287935300000063
发表的论文ID。
假设p1来自
Figure BDA0003287935300000064
而p2来自
Figure BDA0003287935300000065
生成样本对时仅考虑训练集中同名作者的论文采样,因此严格约束i′=i″。正例样本对生成方法为:对于训练集论文集合trainset中,组合所有满足j′=j″条件的论文对作为正例样本对。对于作者
Figure BDA0003287935300000066
Figure BDA0003287935300000067
其共可生成正例样本对
Figure BDA0003287935300000068
个。负例样本对生成方法为:对于训练集论文集合trainset中,组合所有满足j′≠j″条件的论文对作为负例样本对。需要特别说明的是,当正负训练样本对中(p1,p2,tag)存在时,(p2,p1,tag)将被剔除。
步骤四:特征工程与采样。该步骤是LGB模型训练的输入基础。特征工程可分为两部分,一是提取每篇论文的独立特征,二是提取论文对中两篇论文的关联特征。采样是保证本模型训练样本均衡的必要操作。
1)针对步骤一预处理后的所有论文项,提取每篇论文的7项独立特征,其包括:期刊名长度、关键词数、摘要长度、作者数量、关键词、摘要共现单词数和年份。
2)根据步骤三指导生成的训练样本对,提取并计算每个论文对的关联特征,其包括两论文的关键词共有词数、机构名共有词数、摘要共有词数、合作者数、期刊名共有词数、年份差值绝对值和和5项论文对对应元信息(包括:论文题目、关键词、摘要、机构名和“题目|关键词|摘要|机构名”)的语义嵌入向量的余弦相似度,共11项特征。其中,元信息语义嵌入向量由步骤二中训练得到的单词词向量生成,其利用word2vec词向量对5项元信息进行嵌入表示,作为论文元信息的语义嵌入向量。
3)根据1)、2),对每一个训练样本对,组合其对应两篇文章的独立特征和关联特征,共18项特征作为训练样本对的LGB模型输入特征。
4)为了保证正负训练样本对均衡,采用随机采样的方式对所有训练样本对进行采样。通过分析样本对数据,计算正负样本数量比,通过分别指定正负采样率,对正负训练样本对进行随机采样,尽可能降低正负样本对数量差值。采样结束后,分别保存正负采样训练样本对,作为后续LGB训练的数据基础。
步骤五:LGB模型训练。读取步骤四生成的正负训练样本对,按照7:3比例随机采样划分为正例训练集样本对、正例验证集样本对、负例训练集样本对、负例验证集样本对。将上述所有样本对对应的18项特征和标签输入LGB模型中训练,根据验证结果,调整参数至最优,保存模型。
步骤六:LGB预测待消歧论文相似度。模型预测共分为3部分。
1)生成待消歧论文的样本对。类似于步骤三中训练样本对生成,但待消歧论文样本对数据中不再包含标签tag项,其可由二元组(p1,p2)表示,其中p1和p2表示待预测相似度的两篇论文。设testset={name1,name2,…,namei,…,namen},其表示待消歧论文集中存在n个待消歧的作者姓名。其中
Figure BDA0003287935300000071
即作者姓名为namei的作者共作论文m个,其中paper为作者姓名为namei的作者发表的论文ID。同样的,当p1来自namei′,而p2来自namei″,生成样本对时仅考虑同名作者的论文采样,因此严格约束i′=i″,并且当(p1,p2)存在时,(p2,p1)将被剔除。此外,无效项
Figure BDA0003287935300000072
也被剔除。因此,
Figure BDA0003287935300000073
Figure BDA0003287935300000074
共可生成
Figure BDA0003287935300000075
个二元组样本对。
2)针对待消歧样本对的特征工程。类似于步骤四中1)、2)、3)操作,统计并计算待消歧论文样本对的特征,作为LGB模型预测的输入。同样的,每个二元组样本对都具有18项特征。
3)特征输入LGB模型可得到所有待消歧论文对相似度,以矩阵形式存储之,作为后续步骤的数据基础。
步骤七:以步骤一得到的预处理后数据为数据源,构建论文异质网络。需要特别说明的是,由于多数情况下待消歧的论文数据是稀疏分布的,因此为了最大化捕获论文间关系特征,异质网络的构建是以每一待消歧姓名为单位的,即当待消歧论文集为testset={name1,name2,…,namei,…,namen},将对name1,name2,…,namei,…,namen这n个不同name分别构建异质网络。假设
Figure BDA0003287935300000076
那么网络的节点为
Figure BDA0003287935300000077
其中paper为论文节点ID。边是依据论文间关系建立的,其共有两种:存在合作者、存在共同机构名,边权重分别为合作者数量、共同机构数量。根据上述策略,可以对任一name构建异质网络。
步骤八:利用异质网络表征方法,对步骤七构建的论文异质网络进行表示,用以捕获论文间的关系特征。通过定义元路径,然后在每个异质网络由该元路径指导进行有指导的随机游走(Random Walk)并生成系列游走路径(Walked Path)。具体地,严格要求异质网络的每个节点都被游走,随机游走的概率正比于边权重,游走方向随机但不折返上一步。一条游走路径的长度取决于预先定义的最大游走长度(Max Walk Length)或当前节点无有效的下一跳节点。具体地,元路径随机采用如图2所示的两种策略,其中P表示论文节点,CO-author表示“存在合作者”类型边,CO-org表示“存在共同机构名”类型边。
接着,利用SKIP-GRAM模型对上述得到的所有游走路径进行表征,最终得到每篇论文的关系表征向量,且该表征向量捕获了论文间的关系特征。最后,利用余弦相似度计算所有论文关系表征向量的相似度,以矩阵形式存储之,作为后续步骤的数据基础。
步骤九:关键文本提取,生成论文语义表征向量,并计算语义表征向量相似度。首先,该步亦以步骤一得到的预处理后数据为数据源,提取每篇论文的关键文本,其包括论文题目、摘要、关键词、机构名、期刊名。然后,利用步骤二中训练得到的单词词向量生成每篇论文的语义表征向量,以捕获、表征每篇论文的语义特征。最后,类似于步骤八,利用余弦相似度计算所有论文语义表征向量的相似度,以矩阵形式存储之,作为后续步骤的数据基础。需要补充说明的是,生成语义表征向量时,首先将所有关键文本合并,然后逐词检索word2vec词向量,最终将所有词向量相加取平均得到该论文的语义表征向量。
步骤十:层次聚类得到消歧结果。首先对步骤六、步骤八、步骤九得到的LGB预测论文相似度、论文关系表征向量相似度、论文语义表征向量相似度加权相加得到聚合相似度矩阵。实际上使用的加权参数分别为1/3、1/3、1/3。然后,利用sklearn层次聚类包对聚合相似度矩阵进行聚类,具体参数为:n_clusters=None,affinity='precomputed',linkage='average',distance_threshold=np.log(0.6)。最终,将聚类结果进行格式化整理存储,形成最终聚类结果,即消歧结果。
为了验证本发明提出方法的可行性和各步骤的有效性,线下使用公开论文集进行消融试验。实验结果如表1所示。
表1.实验结果
序号 方法组件 评价指标(F1-SCORE)
1 word2vec语义表征方法 0.671349
2 网络关系表征方法 0.757505
3 LightGBM监督学习预测相似度 0.788581
4 方法1+方法2 0.866662
5 方法2+方法3 0.859459
6 方法1+方法2+方法3(本发明) 0.885529
基于同一发明构思,本发明的另一个实施例提供一种采用上述方法的基于LightGBM分类与表示学习的姓名消歧系统,其包括:
数据预处理模块,用于对全部论文集进行数据预处理,包括数据清洗和内容格式化;
词向量训练模块,用于采用word2vec词向量训练方法训练词向量;
LightGBM训练模块,用于基于数据预处理模块和词向量训练模块的处理结果,利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,输入LightGBM二分类模型进行训练,LightGBM二分类模型的输出为两篇论文属于同一作者的概率;
LightGBM预测模块,用于采用训练完成的LightGBM二分类模型预测待消歧论文的相似度;
表示学习模块,用于利用表示学习模型,通过基于元路径的关系网络表征方法捕捉论文间的关系特征,通过word2vec文本语义表示方法捕捉论文的语义特征;
层次聚类模块,用于基于LightGBM二分类模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现姓名消歧。
其中各模块的具体实施过程参见前文对本发明方法的描述。
基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上公开的本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容,本发明的保护范围以权利要求书界定的范围为准。

Claims (10)

1.一种基于LightGBM分类与表示学习的姓名消歧方法,其特征在于,包括以下步骤:
利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,输入LightGBM二分类模型进行训练,LightGBM二分类模型的输出为两篇论文属于同一作者的概率;
利用表示学习模型,通过基于元路径的关系网络表征方法捕捉论文间的关系特征,通过word2vec文本语义表示方法捕捉论文的语义特征;
基于LightGBM二分类模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现姓名消歧。
2.根据权利要求1所述的基于LightGBM分类与表示学习的姓名消歧方法,其特征在于,所述利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,包括:
针对数据预处理后的所有论文项,提取每篇论文的7项独立特征即元信息特征,其包括:期刊名长度、关键词数、摘要长度、作者数量、关键词、摘要共现单词数和年份;
生成LightGBM模型的训练样本对,根据生成的训练样本对,提取并计算每个论文对的关联特征,其包括两论文的关键词共有词数、机构名共有词数、摘要共有词数、合作者数、期刊名共有词数、年份差值绝对值和和5项论文对对应元信息的语义嵌入向量的余弦相似度,共11项特征;其中的5项论文对对应元信息包括:论文题目、关键词、摘要、机构名和“题目|关键词|摘要|机构名”;利用word2vec词向量对5项元信息进行嵌入表示,作为论文元信息的语义嵌入向量;
对每一个训练样本对,组合其对应两篇论文的独立特征和关联特征,共18项特征作为训练样本对的LightGBM模型输入特征。
3.根据权利要求2所述的基于LightGBM分类与表示学习的姓名消歧方法,其特征在于,所述生成LightGBM模型的训练样本对,包括:
训练样本对分为正例样本对和负例样本对,正负样本对由三元组形式进行表示:(p1,p2,tag),其中p1与p2分别表示两篇不同的论文ID,tag为标签,当样本对为正例时tag=1,为负例时tag=0;
设trainset={name1,name2,...,namei,...,namen},其表示论文训练集中存在n个已消歧的作者姓名,其中
Figure FDA0003287935290000011
即索引为i的作者姓名实际上存在m个作者,且他们姓名都为namei,而对于其中索引为j的作者
Figure FDA0003287935290000012
其中paper为作者
Figure FDA0003287935290000013
发表的论文ID;
假设p1来自
Figure FDA0003287935290000014
而p2来自
Figure FDA0003287935290000015
生成样本对时仅考虑训练集中同名作者的论文采样,因此严格约束i′=i″;正例样本对生成方法为:对于训练集论文集合trainset中,组合所有满足j′=j″条件的论文对作为正例样本对,对于作者
Figure FDA0003287935290000021
Figure FDA0003287935290000022
其共可生成正例样本对
Figure FDA0003287935290000023
个;负例样本对生成方法为:对于训练集论文集合trainset中,组合所有满足j′≠j″条件的论文对作为负例样本对;当正负训练样本对中(p1,p2,tag)存在时,(p2,p1,tag)将被剔除。
4.根据权利要求1所述的基于LightGBM分类与表示学习的姓名消歧方法,其特征在于,所述通过基于元路径的关系网络表征方法捕捉论文间的关系特征,包括:
以数据预处理后的数据为数据源,构建论文异质网络,论文异质网络以每一待消歧姓名为单位进行构建,节点为论文,边是依据论文间关系建立的,边共有两种:存在合作者、存在共同机构名,边权重分别为合作者数量、共同机构数量;
定义元路径,然后在每个论文异质网络由元路径指导进行有指导的随机游走并生成系列游走路径,严格要求异质网络的每个节点都被游走,随机游走的概率正比于边权重,游走方向随机但不折返上一步,一条游走路径的长度取决于预先定义的最大游走长度或当前节点无有效的下一跳节点;
利用SKIP-GRAM模型对得到的所有游走路径进行表征,最终得到每篇论文的关系表征向量,且论文关系表征向量捕获了论文间的关系特征,最后利用余弦相似度计算所有论文关系表征向量的相似度。
5.根据权利要求1所述的基于LightGBM分类与表示学习的姓名消歧方法,其特征在于,所述通过word2vec文本语义表示方法捕捉论文的语义特征,包括:
以数据预处理后的数据为数据源,提取每篇论文的关键文本,其包括论文题目、摘要、关键词、机构名、期刊名;
利用训练得到的单词词向量生成每篇论文的语义表征向量,以捕获、表征每篇论文的语义特征;生成语义表征向量时,首先将所有关键文本合并,然后逐词检索word2vec词向量,最终将所有词向量相加取平均得到该论文的语义表征向量;
最后利用余弦相似度计算所有论文语义表征向量的相似度。
6.根据权利要求2、4或5所述的基于LightGBM分类与表示学习的姓名消歧方法,其特征在于,所述数据预处理包括数据清洗和内容格式化;
所述数据清洗包括:分析数据特点,处理脏数据与噪音数据,根据实际情况将无效数据进行剔除操作;
所述内容格式化用于避免论文作者数过多、论文作者命名方式不统一、多语种的问题对消歧造成负影响;针对论文作者数量过多的问题,只选取前若干名作者作为消歧任务中的有效作者;针对论文作者命名方式不统一的问题,对所有作者姓名字符进行符号剔除、小写转换操作,并对全量级数据作者进行归类计量,通过字符串分割再匹配的策略将所有作者姓名进行统一改写;针对论文中存在的多语种问题,利用在线翻译接口对除英语外的语言进行转换处理,统一为英语并将其作为消歧过程中的唯一语言。
7.根据权利要求1所述的基于LightGBM分类与表示学习的姓名消歧方法,其特征在于,所述基于LightGBM二分类模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现姓名消歧,包括:
将LightGBM二分类模型预测的论文相似度、论文关系表征向量相似度、论文语义表征向量相似度进行加权相加,得到聚合相似度矩阵;
利用层次聚类算法对聚合相似度矩阵进行聚类;
将聚类结果进行格式化整理存储,形成最终聚类结果,即消歧结果。
8.一种采用权利要求1~7中任一权利要求所述方法的基于LightGBM分类与表示学习的姓名消歧系统,其特征在于,包括:
数据预处理模块,用于对全部论文集进行数据预处理,包括数据清洗和内容格式化;
词向量训练模块,用于采用word2vec词向量训练方法训练词向量;
LightGBM训练模块,用于基于数据预处理模块和词向量训练模块的处理结果,利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,输入LightGBM二分类模型进行训练,LightGBM二分类模型的输出为两篇论文属于同一作者的概率;
LightGBM预测模块,用于采用训练完成的LightGBM二分类模型预测待消歧论文的相似度;
表示学习模块,用于利用表示学习模型,通过基于元路径的关系网络表征方法捕捉论文间的关系特征,通过word2vec文本语义表示方法捕捉论文的语义特征;
层次聚类模块,用于基于LightGBM二分类模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现姓名消歧。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一权利要求所述基于LightGBM分类与表示学习的姓名消歧方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一权利要求所述基于LightGBM分类与表示学习的姓名消歧方法。
CN202111153524.0A 2021-09-29 2021-09-29 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 Active CN113962293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111153524.0A CN113962293B (zh) 2021-09-29 2021-09-29 一种基于LightGBM分类与表示学习的姓名消歧方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111153524.0A CN113962293B (zh) 2021-09-29 2021-09-29 一种基于LightGBM分类与表示学习的姓名消歧方法和系统

Publications (2)

Publication Number Publication Date
CN113962293A true CN113962293A (zh) 2022-01-21
CN113962293B CN113962293B (zh) 2022-10-14

Family

ID=79463222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111153524.0A Active CN113962293B (zh) 2021-09-29 2021-09-29 一种基于LightGBM分类与表示学习的姓名消歧方法和系统

Country Status (1)

Country Link
CN (1) CN113962293B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114243702A (zh) * 2022-01-28 2022-03-25 国网湖南省电力有限公司 一种电网avc系统运行参数的预测方法、系统及存储介质
CN114444514A (zh) * 2022-02-08 2022-05-06 北京百度网讯科技有限公司 语义匹配模型训练、语义匹配方法及相关装置
CN114897504A (zh) * 2022-05-20 2022-08-12 北京北大软件工程股份有限公司 一种处理重复信件的方法、装置、存储介质和电子设备
CN116167455A (zh) * 2022-12-27 2023-05-26 北京百度网讯科技有限公司 模型训练及数据去重方法、装置、设备及存储介质
CN117312565A (zh) * 2023-11-28 2023-12-29 山东科技大学 一种基于关系融合与表示学习的文献作者姓名消歧方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1462950A1 (en) * 2003-03-27 2004-09-29 Sony International (Europe) GmbH Method of analysis of a text corpus
US20120303557A1 (en) * 2011-05-28 2012-11-29 Microsoft Corporation Interactive framework for name disambiguation
CN109670014A (zh) * 2018-11-21 2019-04-23 北京大学 一种基于规则匹配和机器学习的论文作者名消歧方法
CN111191466A (zh) * 2019-12-25 2020-05-22 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN113111178A (zh) * 2021-03-04 2021-07-13 中国科学院计算机网络信息中心 无监督的基于表示学习的同名作者消歧方法及装置
CN113326377A (zh) * 2021-06-02 2021-08-31 上海生腾数据科技有限公司 一种基于企业关联关系的人名消歧方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1462950A1 (en) * 2003-03-27 2004-09-29 Sony International (Europe) GmbH Method of analysis of a text corpus
US20120303557A1 (en) * 2011-05-28 2012-11-29 Microsoft Corporation Interactive framework for name disambiguation
CN109670014A (zh) * 2018-11-21 2019-04-23 北京大学 一种基于规则匹配和机器学习的论文作者名消歧方法
CN111191466A (zh) * 2019-12-25 2020-05-22 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN113111178A (zh) * 2021-03-04 2021-07-13 中国科学院计算机网络信息中心 无监督的基于表示学习的同名作者消歧方法及装置
CN113326377A (zh) * 2021-06-02 2021-08-31 上海生腾数据科技有限公司 一种基于企业关联关系的人名消歧方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHIYUAN NING, ET AL.: "LightCAKE: A Lightweight Framework for Context-Aware Knowledge Graph Embedding", 《ARXIV:2102.10826V2》 *
ZHIYUAN NING, ET AL.: "LightCAKE: A Lightweight Framework for Context-Aware Knowledge Graph Embedding", 《ARXIV:2102.10826V2》, 4 March 2021 (2021-03-04), pages 1 - 12 *
涂世文: "面向学术文献数据的同名作者消歧方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 October 2020 (2020-10-15), pages 34 - 51 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114243702A (zh) * 2022-01-28 2022-03-25 国网湖南省电力有限公司 一种电网avc系统运行参数的预测方法、系统及存储介质
CN114444514A (zh) * 2022-02-08 2022-05-06 北京百度网讯科技有限公司 语义匹配模型训练、语义匹配方法及相关装置
CN114444514B (zh) * 2022-02-08 2023-01-24 北京百度网讯科技有限公司 语义匹配模型训练、语义匹配方法及相关装置
CN114897504A (zh) * 2022-05-20 2022-08-12 北京北大软件工程股份有限公司 一种处理重复信件的方法、装置、存储介质和电子设备
CN116167455A (zh) * 2022-12-27 2023-05-26 北京百度网讯科技有限公司 模型训练及数据去重方法、装置、设备及存储介质
CN116167455B (zh) * 2022-12-27 2023-12-22 北京百度网讯科技有限公司 模型训练及数据去重方法、装置、设备及存储介质
CN117312565A (zh) * 2023-11-28 2023-12-29 山东科技大学 一种基于关系融合与表示学习的文献作者姓名消歧方法
CN117312565B (zh) * 2023-11-28 2024-02-06 山东科技大学 一种基于关系融合与表示学习的文献作者姓名消歧方法

Also Published As

Publication number Publication date
CN113962293B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN103226580B (zh) 一种面向交互文本的话题识别方法
CN108647322A (zh) 基于词网识别大量Web文本信息相似度的方法
Kodelja et al. Exploiting a more global context for event detection through bootstrapping
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
Ma et al. A time-series based aggregation scheme for topic detection in Weibo short texts
Li et al. Emotion-cause span extraction: a new task to emotion cause identification in texts
Huang et al. Sentiment analysis of Chinese online reviews using ensemble learning framework
Zhang et al. Event-based summarization method for scientific literature
Wang et al. Topic discovery method based on topic model combined with hierarchical clustering
Guo et al. Web table column type detection using deep learning and probability graph model
Chen et al. Research on micro-blog sentiment polarity classification based on SVM
CN116738068A (zh) 一种热门话题的挖掘方法、装置、存储介质及设备
Li et al. Semantic augmented topic model over short text
Tran et al. A named entity recognition approach for tweet streams using active learning
Katsurai Using word embeddings for library and information science research: A short survey
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Alharithi Performance analysis of machine learning approaches in automatic classification of Arabic language
Kaewpitakkun et al. Incorporating an implicit and explicit similarity network for user-level sentiment classification of microblogging
Jiang et al. Python‐Based Visual Classification Algorithm for Economic Text Big Data
Liu et al. Practical skills of business english correspondence writing based on data mining algorithm
Sharma Hindi text emotion recognition based on deep learning
Sanabila et al. Automatic Wayang Ontology Construction using Relation Extraction from Free Text
Yao et al. Personal attributes extraction in chinese text based on distant-supervision and LSTM
Ning Research on the extraction of accounting multi-relationship information based on cloud computing and multimedia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant