CN111221968A - 基于学科树聚类的作者消歧方法及装置 - Google Patents

基于学科树聚类的作者消歧方法及装置 Download PDF

Info

Publication number
CN111221968A
CN111221968A CN201911421922.9A CN201911421922A CN111221968A CN 111221968 A CN111221968 A CN 111221968A CN 201911421922 A CN201911421922 A CN 201911421922A CN 111221968 A CN111221968 A CN 111221968A
Authority
CN
China
Prior art keywords
subject
author
text data
node
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911421922.9A
Other languages
English (en)
Other versions
CN111221968B (zh
Inventor
张辉
王德庆
黄宏鸣
郝瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201911421922.9A priority Critical patent/CN111221968B/zh
Publication of CN111221968A publication Critical patent/CN111221968A/zh
Application granted granted Critical
Publication of CN111221968B publication Critical patent/CN111221968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于学科树聚类的作者消歧装置,包括以下步骤:取得带有本文作者的文本数据;处理文本数据提取关键信息;根据文本数据进行代表词提取;基于文本数据的代表词和关键信息,将文本数据依次与学科树的每个学科节点进行匹配,计算匹配度;选择匹配度最高的学科节点,与文本数据连接,并将学科节点下的同名作者作为本文作者。本发明通过构建学科树,并基于该学科树进行聚类计算以消除同名不同人的情况下文本数据分类错误的问题,提高了文本数据的作者识别的准确率,进而提高文本检索的质量,为计算机语义分析提供了有效的辅助分析手段。

Description

基于学科树聚类的作者消歧方法及装置
技术领域
本发明涉及一种基于学科树聚类的作者消歧方法,同时也涉及相应的作者消歧装置,属于计算机语义分析领域。
背景技术
在各个常见的在线搜索系统中,根据google和Yahoo的统计,人名搜索这一方式,占据了所有搜索请求的5~10%。但是现有的搜索引擎都是将人名作为普通的字符串来处理,并没有对人名检索中大量出现的重名机制做出处理。例如,在DBLP中尝试查询JingZhang,返回结果包括54篇论文,从属于25个重名的不同的作者。人名歧义问题,包含了两个不同的子问题:同人不同名和同名不同人。
传统基于统计的机器学习方法,总体来说分为两类:监督学习和无监督学习。监督学习的方法通过已经标注了特征属性和分类结果的数据,训练出一个多类别分类器。但是基于监督学习的方法都有一个共通的问题,那就是训练用的数据集需要每一个待分类结果(即每个作者实体)标注足够多的数据,需要上百万乃至上千万级别的标注数据。因此,这一类别的方法或许可以在某些小型、专业的文献库和领域中取得一定的成果,但是无法解决现实环境中要面临的主要问题。
无监督学习的方法则是试图通过将论文、作者实体映射到某种统一的,具有度量结构的空间之内,进而通过距离的计算来完成论文和作者的匹配。大体上,分为基于聚类和基于主题模型两种方向来实现。基于聚类的方法,其主要思路都是将论文或者将论文中所包含的关键词,映射到一个高维的线性空间,通过论文之间所产生的距离来进行聚类,将属于同一聚类的论文,视为属于同一领域。在聚类方法的基础上,国内外有许多相关的研究,如基于谱聚类的方法,基于层次聚类的方法,通过对论文增加筛选限制条件而进行聚类的方法、基于社交网络的方法;基于负例来处理不一致数据的方法;基于作者图网络的方法;基于作者/引用网络的方法;以及基于双层贝叶斯文本模型构建主题的方法等。但是现有无监督学习的算法,应用性不高,例如需要大量数据标注或者对于新增数据需要重新训练。对于不断更新的电子数据库,这意味着重新训练的操作频率高、数据量大。
于智郅在硕士论文《面向文献著者的跨文本指代消解研究》(吉林大学2019年答辩)中,首先提出了一种基于网络表示学习的重名消歧算法。该算法可以在作者邮箱、主页等信息不可获取,以及作者具体类别个数未知的情况下,解决文献著者重名消歧问题。首先,利用待消歧作者的多阶合作者及论文-作者关系,构建论文-论文网络。其次,通过图网络学习得到论文的特征向量表示。最后,利用论文之间的关系网络,实现文献著者的重名消歧。其次,提出了一种基于特征相似度的多名聚合算法。该方法可在仅给定作者名字的情况下,通过分析论文间的特征相似度,实现中文文献著者的多名聚合。首先,对于给定文献著者,构建作者名字变体集合。其次,构建论文关键词,并分析论文间不同特征的相似度,实现文献著者的多名聚合。最后,提出了一种基于监督学习的多名聚合算法。该方法将多名聚合问题划分为论文标题匹配和论文作者匹配两个子问题。首先,对于给定的文献著者,获取其在百度学术学者频道中的论文。其次,利用BLEU算法分析论文-论文及作者-作者的相似度,找到作者所对应的名字变体形式,实现文献著者的多名聚合。
发明内容
本发明所要解决的首要技术问题在于提供一种基于学科树聚类的作者消歧方法。
本发明所要解决的另一技术问题在于提供一种基于学科树聚类的作者消歧装置。
为实现上述目的,本发明采用下述的技术方案:
根据本发明实施例的第一方面,提供一种基于学科树聚类的作者消歧方法,包括以下步骤:
取得带有本文作者的文本数据;
处理所述文本数据提取关键信息;
根据所述文本数据进行代表词提取;
基于所述文本数据的所述代表词和所述关键信息,将所述文本数据依次与所述学科树的每个学科节点进行匹配,计算匹配度;
选择所述匹配度最高的所述学科节点,与所述文本数据连接,并将所述学科节点下的同名作者作为本文作者。
其中较优地,进一步包括构建所述学科树的步骤,具体如下:
根据现有分类体系,估计一级学科聚类数目;
采用第一算法,快速选出初始点;
采用第二算法进行一级学科聚类,得到一级学科词表;
对于每个一级学科,采用基于聚类的方法估算二级学科聚类数目;
采用所述第二算法对二级学科聚类,得到二级学科词表。
其中较优地,所述计算匹配度是基于所述代表词和所述关键信息以及领域词进行计算;
所述领域词的获取步骤是:首先,计算所述代表词集合中每个词到所述学科节点距离的平方和,并排序,当序列中的相邻某两个词出现平方和突变时,以此为分界点,将所述代表词集合划分为领域词和非领域词两部分。
其中较优地,所述计算匹配度时,对于所述代表词,根据其是否属于所述关键信息和是否属于所述领域词,将其分为四类,分别给出不同的赋权权重。
其中较优地,所述计算匹配度是利用重要性最高的特定数量的所述代表词与所述学科节点的匹配程度的加权和进行计算。
其中较优地,对所述代表词与所述学科节点的匹配度,进行归一化处理,采用softmax函数将所述代表词与一级学科聚类中心之间的距离映射到区间[0,1]上。
其中较优地,对于既不是所述关键信息,也不是所述领域词的所述代表词,直接指定最小权重值。
其中较优地,在计算所述匹配度时,将对每个学科节点的匹配分score[i]排序,若score[i]-score[i+1]>m,且score[i+1]<n,则前0~i项学科节点均为匹配结果,产生与其匹配的多个学科节点,其中m,n为预设值,i为学科节点编号。
其中较优地,如果存在属于同一学科节点的多个备选作者,则计算所述文本数据的所有关键词到所述备选作者的关键词集合重心的距离,取距离最短的备选作者为匹配结果;
如果找不到属于同一学科节点的作者,则认为匹配失败。
根据本发明实施例的第二方面,提供一种基于学科树聚类的作者消歧装置,包括处理器或存储器以及输入/输出装置;其中,
所述存储器中存储有计算机程序,用于执行以下步骤:
取得带有本文作者的文本数据;
处理所述文本数据提取关键信息;
根据所述文本数据进行代表词提取;
基于所述文本数据的所述代表词和所述关键信息,将所述文本数据依次与所述学科树的每个学科节点进行匹配,计算匹配度;
选择所述匹配度最高的所述学科节点,与所述文本数据连接,并将所述学科节点下的同名作者作为本文作者。
本发明通过构建学科树,并基于该学科树进行聚类计算以消除同名不同人的情况下文本数据分类错误的问题,提高了文本数据的作者识别的准确率,可以达到准确率为85~90%,进而提高文本检索的质量,为计算机语义分析提供了有效的辅助分析手段。
附图说明
图1为本发明的第一实施例中,基于学科树聚类的作者消歧方法的流程示意图;
图2为本发明中,所构建的学科树结构示意图;
图3为图1中匹配到学科树的步骤流程图;
图4为本发明所提供的作者消歧装置的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。
需要指出的是,本发明是以论文为例进行说明,但是本领域普通技术人员可以理解,本发明也可以用于其他文本数据的分析,例如新闻稿、网文、PPT等文字资料;本发明所说的人名(作者名)也可以是其他,例如单位名称、特定地址、网名等;本发明所说的学科,不仅可以是学术学科,也可以是行业分类、职业分类等。
实施例一
如图1至图3所示,本发明所提供的作者消歧方法,包括以下步骤:
1.取得带有本文作者的文本数据
处理器从输入端接收到需要进行人名消歧的带有本文作者的文本数据。在本发明实施例中,文本数据以论文为例进行说明,称为待分类论文。
存储器中存储有给定姓名K的同名人物集合Ak={A1,…,An},K,k,n均为自然数,k∈K。Ak中每个元素A1,…,An代表一个现实存在的,姓名相同但人不同的作者,即共有n个作者均为给定姓名(或者是姓名编号)Ak。
给定待分类论文集合P={P1,…,Pn},其中每一篇论文的作者中都包含同名人物集合A所对应的给定姓名Ak。即,此论文可能是人物集合A中的某一作者所写,或者是还没有收集到同名人物集合Ak中的同名作者。
因此,人名消歧的任务就是求一个匹配函数F:P→A。F(Pi)=Aj表示论文Pi中的待消歧人名Ak,指的是同名人物集合中的Aj,j∈n。
2.处理文本提取关键信息
如图1所示,关键信息包括论文(文本数据)本身的信息,例如标题、摘要和论文所列关键字;也包括作者本身的信息,例如作者的研究领域、发表经历、获奖经历等。文本数据相关的信息与该文本对应存储,作者相关的这些关键信息与作者对应存储。
如果是单位名称(不是作者),则需要提取的关键信息为营业范围、产品范围、地址、法定代表人等;
如果是对行业(不是学术学科)的文本信息提取关键信息,则为产品类型、生产企业、行业协会等关键信息。
3.根据文本数据进行代表词提取
代表词的提取,已有现有技术可以实现,通常有三类提取方法:
(1)基于文档主题的模型。主题模型是自然语言处理领域的经典模型之一,其主要的思路是先将论文进行分词,然后利用已经训练好的词向量,来度量文档中词与词之间的相似度。然后通过聚类方法或者建图方法(LDA模型),构建多个主题。再根据衡量不同主题在文档中的重要性权重,进行关键词选取。除了这种只基于文档内部信息的关键词选取方案之外,还有基于文档外部信息的主题模型方法。例如抽取作者的社交网络信息;单位官网信息等等。
(2)TF-IDF模型。全称为词频-逆文档频率模型,是一个简单易懂的经典模型。主要根据两个指标—TF即关键词在当前文档中出现的频率;IDF即关键词在全部文档中出现频率—来计算某个关键词对于当前文档的重要性。
(3)TextRank关键词提取。TextRank算法是基于PageRank(佩奇算法),一种用于Google的网页排序的算法,进一步发展而来。其核心思路是通过互联网中的超链接关系,即每个网页与其他网页的链接数量,来判断某个网页节点在互联网中的重要程度。TextRank则是计算词在文档片段中的共同出现情况来判断词的重要程度。
考虑到TF-IDF模型易于理解,且易于实现,下面采用TF-IDF模型来介绍文档的代表词提取,但是本发明并不限于此模型。
同时,考虑到对于论文进行代表词提取这一任务的特殊性,本发明还设计了一个领域词的模型,作为TF-IDF模型的补充完善,对TF-IDF模型所提取出的代表词进行重要性加权,共同完成代表词提取的任务。
TF-IDF模型对于某个关键词对某个文档的重要性程度定义为:
Figure BDA0002352599750000061
Figure BDA0002352599750000062
TFIDF(t,d,D)=TF(t,d)×IDF(t,d)
其中,TF(TermFrequency,词频):是对于某词语在当前文档的局部重要性的度量;IDF(Inverse Document Frequency,逆文档频率):是对于词频在整个语料库中的普遍性的一种度量;t代表所选关键词;d代表所选文档;D代表整个语料库;f(t,d)表示关键词t在文档d中出现的次数。
该算法的核心思路是,根据语法领域的知识,一个词的内涵和其外延成反比。若某关键词仅在少数文档中出现,则说明它是一个外延较小的词,相应的其内涵信息较大。若它又在某个文档中多次出现,则说明它与该文档关系密切。当这两种条件同时满足,则该词被选为当前文档的代表词。
经典的TF-IDF模型仅能给出每个词是否是当前文档的代表词,然而,对于每一个代表词对于当前文档的密切程度,或者说在代表当前文档这件事情上的重要程度,即权重,并没有给出相应的判定方法。因此,本发明在TF-IDF模型基础上设计了基于领域词的加权模型。
在该加权模型中,文本中的词被分为领域词和非领域词。领域词指的是其语义与某个具体的科研领域密切相关,包含有更多该领域内的信息的词语。而非领域词与之相对,指的是语义并不与任何一个特定领域特别相关的词语。举例来说,“函数”,“方程”就属于在科研领域内的非领域词,任何研究都很可能会提到这些词。而“关系式数据库”、“霍尔效应”、“芯片互联”、“液晶显示器”这类就属于与某个特定学科(行业)领域密切相关的领域词。
考虑到领域词的特点,有一个显然的推论,领域词的词向量在整个空间中,距离某个学科树节点类簇的距离应当明显更近,距离与之无关的其他类簇的距离明显更远。由此可以推出,领域词与学科树所有一级学科节点的距离的方差和,应当明显大于非领域词到学科树所有以及学科节点的距离的方差和。本发明通过实验验证了这一结论的可靠性。
领域词的获取方法如下:首先,计算代表词集合中每个词到学科树一级学科节点距离的平方和并排序,当序列中的相邻某两个词出现平方和突变时,以此为分界点,将代表词集合划分为领域词和非领域词两部分。
此外,本发明还采用了代表词权重计算算法。在对TF-IDF算法提取出的代表词赋权的过程中,除了领域词,还可以考虑到论文的关键词信息。关键词是论文作者经过对自己论文的总结之后给出的包含了论文最核心信息的词语集合,因此在模型中应当具有更高的权重。因此,对于某个代表词是否属于关键词,和是否属于领域词,可以将论文的代表词分为四类,分别给出不同的赋权权重。在本发明实施例中,对于同一个类之内的词,采用TF-IDF值的线性函数进行权重赋予。
Figure BDA0002352599750000071
权重W(t)赋予采用上式计算,其中t,t’代表所选关键词(或者领域词等);d代表所选文档;D代表整个语料库;TFIDF(t,d,D)表示关键词t对文档d的重要性程度;参数a,b表示每一个类中的词的权重赋值。需要特别指出的是,对于既不是论文本身关键词,也不是领域词的代表词,说明它的重要性并不高,则直接指定此类代表词的权值为某一定值c(c<a或b),最小权重值。
4.基于文本数据的代表词和关键信息,将文本数据依次与每个学科节点进行匹配,计算匹配度
如图2所示,学科节点是指表示学科之间的内在逻辑联系的树形结构(学科树)中的节点(参考图2中的“一级学”和“二级学科”),每一个节点包含一个学科领域的强相关的关键词,形成对于机器学习模型的先验知识库。学科数据库表示学科之间关系。以从知网、万方等论文数据库中下载的论文为语料库,构建出学科树。具体而言,(1)依据论文文本中的标题、关键词、摘要等关键信息,计算与论文最匹配的学科树节点;(2)依据从互联网上爬取的作者背景信息,包括机构,研究领域,发表著作,曾获奖项等,计算与作者最匹配的学科树节点。
为简便描述,本发明实施例中学科树为两层树状结构(不包括根节点),但并不构成对本发明的限制。由于词向量之间的距离即可表示词语之间的语义关系紧密度,所以属于同一特定学科领域的词拥有较多的共有语义,因而对应的词向量空间中的距离必然较为接近。因此,区分不同学科的问题,可以转化为聚类问题。在词向量空间中聚类之后得到的每一个类簇代表着某一个特定的学科领域。由于学科树具有两层结构,因此解决此问题需要做两轮聚类。对于一级学科,可以根据教育部的规格、《中华人民共和国学科分类与代码国家标准》或者国家统计局发布的《国民经济行业分类》等,人为规定学科(行业)数目;对于二级学科,则利用不同的策略来估算二级类簇数目。
本发明实施例中,构建学科树的方法如下:
(1)根据现有分类体系,估计一级学科聚类数目
(2)采用第一算法(例如AFKMCMC算法),快速选出初始点
(3)采用第二算法(例如seq k-means或DEC方法)进行一级学科聚类,得到一级学科词表
(4)对于每个一级学科,采用基于聚类法(MCMC和AP聚类方法)估算二级学科聚类数目
(5)采用第二算法(seq k-means或DEC方法)对二级学科聚类,得到二级学科词表
上述AFKMCMC算法、seq k-means、DEC方法或者MCMC和AP聚类方法本身均为现有技术,而且可以替换为其他算法,在此不赘述。但是,通过两次聚类分别得到一级学科的词表和二级学科的词表,这是本发明提出的新方法。
5.选择匹配度最高的学科节点,将文本数据与之连接,将该学科节点下的同名作者作为本文作者
在本发明实施例中,采用简单地将论文依次与每个学科进行匹配,计算其匹配度的方法来确认其所属学科。对于论文与某个学科的匹配度,采用论文代表词与该学科的匹配程度的加权和来计算,如下式所示。需要指出的是,考虑到每篇论文所提取出的代表词数量不尽相同,为了排除由代表词数量产生的影响,将所有论文的匹配结果进行一定程度的标准化,便于后续的数据分析,在此只提取论文中TF-IDF值最高的前n个代表词参与匹配得分计算(即,重要性最高的特定数量的所述代表词)。
Figure BDA0002352599750000091
其中:
T(p)表示:当前论文p的分类结果。
Wp(ti)表示:当前论文p中,第i个关键词ti的权重。
f(ti,Cj)表示:当前论文p中第i个关键词ti对一级学科Cj的匹配得分。
而对于关键词(或代表词)与学科的匹配得分,本发明实施例采用关键词向量与一级学科聚类中心的距离来表示。同时考虑到各个类的分布、类簇在空间中的大小均不一定相同,因此需要一定的归一化处理。在本发明实施例中,采用softmax函数将代表词与一级学科聚类中心之间的距离映射到区间[0,1]上。如下式所示:
Figure BDA0002352599750000092
其中:
D(ti,Cj)表示:词ti的词向量与学科Cj的聚类中心之间的距离。
maxD表示:论文p中所有代表词到所有一级学科聚类之间的距离中的最大值。
minD表示:论文p中所有代表词到所有一级学科聚类之间的距离中的最小值。
由上式可以看出,如果某词语与某学科距离较大,则分子项会相应变小,分母项为常数不变,最终匹配得分变小。若某词语与某学科距离较小,则分子项会相应变大,分母项为常数不变,最终匹配的分变大。
相应的,将这一算法再应用到对应的二级学科中,就可以将论文和作者对应到学科树的节点上。对于某个论文中出现重名歧义的情况,选择备选作者中与该论文处于同一学科的那一名作者,即可完成论文中作者重名歧义的消歧工作。
上述步骤1~5的编号,只是为了引用的方便,并不限定步骤顺序,即有些步骤可以并行处理甚至反序处理。
第二实施例
在第一实施例的基础上,增加以下步骤,可以解决某学科下没有同名作者的情况或者。
6.判断该学科节点下是否有同名作者,如果没有进入下一步;如果有,则判断该同名作者为文本数据的本文作者;
7.将同名的备选作者依次与每个学科节点进行匹配,计算匹配度;
将同名人物集合Ak中各个备选作者逐一与该学科进行匹配,计算匹配度。
8.选择与文本数据处于同一学科的备选作者,作为本文作者;如果没有同一学科的备选作者则判断为没有同名作者,并且将本文作者与该学科连接。
上述步骤6~8的编号,只是为了表明与前述步骤1~5不同,并不限定步骤顺序,即有些步骤可以并行处理甚至反序处理。
第三实施例
在第一实施例的基础上,增加以下步骤,可以解决某学科下有至少两名同名作者(即,同名作者为不同人,但是两人的研究方向相同,为同一学科)的情况。
9.判断该学科节点下是否有且仅有一位同名作者,如果不是则进入下一步;如果是,则判断该同名作者为文本数据的本文作者;
10.判断是否没有同一学科的同名作者,如果是则将本文作者与该学科连接,并且将本文作者新增到该学科的备选作者;如果否(表示该学科下有多名同名作者),则进入下一步。
11.选择第5步中匹配度最高的论文的同名作者,作为本文作者。
上述步骤9~11的编号,只是为了表明与前述步骤1~8不同,并不限定步骤顺序,即有些步骤可以并行处理甚至反序处理。
第四实施例
在前述三个实施例中,还可以考虑同一篇论文属于不同学科的情况。跨学科论文,大体上可以分为两种情况:
(1)论文本身涉及某一级学科下的多个二级学科,或因为二级学科聚类效果不理想而导致论文在算法框架下被认为属于两个和多个二级学科。
(2)论文本身属于交叉学科研究(如生物+信息学),涉及多个一级学科。
为了解决这两个问题,可以将跨学科论文视作为由两组或多组从属于不同学科的关键词所组成的集合。需要将其中每一组对应到相应的学科树节点上,因此对算法框架中一级学科和二级学科匹配各自做了不同的拓展。
在进行论文的一级学科匹配时,将对每个学科的匹配分score[i]排序。若score[i]-score[i+1]>m,且score[i+1]<n,则前0~i项学科均为匹配结果。其中m,n为预设值,i为学科节点编号。
匹配成功的学科,应当具有较高的score值;且相对匹配最不成功的学科,与匹配失败的学科之间,score值有着非常巨大的差异,
当仅仅有一个学科被成功匹配时,此步骤等价于原算法框架中的一级学科匹配步骤。
当有不止一个学科被匹配时,此步骤会对每个论文,产生它匹配的每一个一级学科。
关于跨学科论文与二级学科的匹配,采用与一级学科匹配基本相同的匹配方式,不同之处在于二级学科发生多学科匹配时的处理方式。考虑到,首先某一一级学科下的二级学科之间,可能本身就具有十分密切的联系;而且学科树构建的聚类算法中,对二级学科的分类结果准确程度比起一级学科来说也相对更加不足。直接将论文强行匹配到二级节点可能不是一个好的选择。
因此,当二级学科匹配过程中出现了多学科匹配的现象,则将学科定位到该一级学科的根节点。表示此论文为该一级学科下属的论文。
第五实施例
在前述四个实施例中,有可能遇上无法精确匹配时论文与作者。本发明实施例。前四个实施例的基础上,增加对此情况的匹配处理步骤。
在进行人名消歧时,首先判断备选作者中有没有与论文同时从属于某个学科树节点的作者,如果有,则精确匹配完成。
如果论文和作者属于上下级关系的一二级学科:如果没有属于同一一级学科的其他备选作者,则将论文与此作者进行匹配。
如果存在属于同一一级学科的多个备选作者,则计算论文所有关键词到某个作者关键词集合重心的距离,取距离最短的作者为匹配结果。
如果找不到属于同一一级学科的作者,则认为匹配失败,可能存在某一新的同名作者实体,应当进一步完善作者数据库。
本发明通过学科树聚类的方法,构建了多级学科树,再利用关键词和领域词匹配的方法,将文本数据与某级学科连接,相应将该文本数据的作者列到该学科下;最后查找该学科下的同名作者,确定为文本数据的作者。
为评估本发明的实际效果,发明人进行了对比实验。真实采样数据集一共包括10个名字的76个不同作者实体和2216篇论文。与手工标注数据集相比,应用本发明的方法进行判断,准确率为85~90%。基于这样的准确率,计算机语义分析的准确性可以提高,文本检索的检索结果可以跟准确(检索质量提高)。
如图4所示,本发明还提供一种基于学科树聚类的作者消歧装置。该装置包括处理器和与处理器连接的存储器。在存储器中存储有计算机程序。该计算机程序被处理器执行时,用于实施上述基于学科树聚类的作者消歧方法。
上面对本发明所提供的基于学科树聚类的作者消歧方法及装置进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质内容的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (10)

1.一种基于学科树聚类的作者消歧方法,其特征在于包括以下步骤:
取得带有本文作者的文本数据;
处理所述文本数据提取关键信息;
根据所述文本数据进行代表词提取;
基于所述文本数据的所述代表词和所述关键信息,将所述文本数据依次与所述学科树的每个学科节点进行匹配,计算匹配度;
选择所述匹配度最高的所述学科节点,与所述文本数据连接,并将所述学科节点下的同名作者作为本文作者。
2.如权利要求1所述的作者消歧方法,其特征在于还包括构建所述学科树的步骤,该步骤进一步包括:
根据现有分类体系,估计一级学科聚类数目;
采用第一算法,快速选出初始点;
采用第二算法进行一级学科聚类,得到一级学科词表;
对于每个一级学科,采用基于聚类的方法估算二级学科聚类数目;
采用所述第二算法对二级学科聚类,得到二级学科词表。
3.如权利要求1或2所述的作者消歧方法,其特征在于:
所述计算匹配度基于所述代表词和所述关键信息以及领域词来计算;
所述领域词的获取步骤是:首先,计算所述代表词集合中每个词到所述学科节点距离的平方和,并排序,当序列中的相邻某两个词出现平方和突变时,以此为分界点,将所述代表词集合划分为领域词和非领域词两部分。
4.如权利要求1或3所述的作者消歧方法,其特征在于:
所述计算匹配度时,对于所述代表词,根据其是否属于所述关键信息和是否属于所述领域词,将其分为四类,分别给出不同的赋权权重。
5.如权利要求4所述的作者消歧方法,其特征在于:
所述计算匹配度是利用重要性最高的特定数量的所述代表词与所述学科节点的匹配程度的加权和进行计算。
6.如权利要求5所述的作者消歧方法,其特征在于:
对所述代表词与所述学科节点的匹配度,进行归一化处理,采用softmax函数将所述代表词与一级学科聚类中心之间的距离映射到区间[0,1]上。
7.如权利要求6所述的作者消歧方法,其特征在于:
对于既不是所述关键信息,也不是所述领域词的所述代表词,直接指定最小权重值。
8.如权利要求1或7所述的作者消歧方法,其特征在于:
在计算所述匹配度时,将对每个学科节点的匹配分score[i]排序,若score[i]-score[i+1]>m,且score[i+1]<n,则前0~i项学科节点均为匹配结果,产生与其匹配的多个学科节点,其中m,n为预设值,i为学科节点编号。
9.如权利要求8所述的作者消歧方法,其特征在于:
如果存在属于同一学科节点的多个备选作者,则计算所述文本数据的所有关键词到所述备选作者的关键词集合重心的距离,取距离最短的备选作者为匹配结果;如果找不到属于同一学科节点的作者,则认为匹配失败。
10.一种基于学科树聚类的作者消歧装置,其特征在于包括:
处理器或存储器以及输入/输出装置,
所述存储器中存储有计算机程序,用于执行以下步骤:
取得带有本文作者的文本数据;
处理所述文本数据提取关键信息;
根据所述文本数据进行代表词提取;
基于所述文本数据的所述代表词和所述关键信息,将所述文本数据依次与所述学科树的每个学科节点进行匹配,计算匹配度;
选择所述匹配度最高的所述学科节点,与所述文本数据连接,并将所述学科节点下的同名作者作为本文作者。
CN201911421922.9A 2019-12-31 2019-12-31 基于学科树聚类的作者消歧方法及装置 Active CN111221968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911421922.9A CN111221968B (zh) 2019-12-31 2019-12-31 基于学科树聚类的作者消歧方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911421922.9A CN111221968B (zh) 2019-12-31 2019-12-31 基于学科树聚类的作者消歧方法及装置

Publications (2)

Publication Number Publication Date
CN111221968A true CN111221968A (zh) 2020-06-02
CN111221968B CN111221968B (zh) 2023-07-21

Family

ID=70829302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911421922.9A Active CN111221968B (zh) 2019-12-31 2019-12-31 基于学科树聚类的作者消歧方法及装置

Country Status (1)

Country Link
CN (1) CN111221968B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632285A (zh) * 2020-12-31 2021-04-09 北京有竹居网络技术有限公司 一种文本聚类方法、装置、电子设备及存储介质
CN112650852A (zh) * 2021-01-06 2021-04-13 广东泰迪智能科技股份有限公司 一种基于命名实体和ap聚类的事件归并方法
CN113239071A (zh) * 2021-07-08 2021-08-10 北京邮电大学 面向科技资源学科及研究主题信息的检索查询方法及系统
CN113326347A (zh) * 2021-05-21 2021-08-31 四川省人工智能研究院(宜宾) 一种句法信息感知的作者归属方法
CN113688257A (zh) * 2021-08-19 2021-11-23 安徽工大信息技术有限公司 一种基于大规模文献数据的作者姓名同一性判断方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653590A (zh) * 2015-12-21 2016-06-08 青岛智能产业技术研究院 一种中文文献作者重名消歧的方法
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN109871434A (zh) * 2019-02-25 2019-06-11 内蒙古工业大学 一种基于动态增量式的概率图模型的舆情演化跟踪方法
CN110134943A (zh) * 2019-04-03 2019-08-16 平安科技(深圳)有限公司 领域本体生成方法、装置、设备及介质
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653590A (zh) * 2015-12-21 2016-06-08 青岛智能产业技术研究院 一种中文文献作者重名消歧的方法
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN109871434A (zh) * 2019-02-25 2019-06-11 内蒙古工业大学 一种基于动态增量式的概率图模型的舆情演化跟踪方法
CN110134943A (zh) * 2019-04-03 2019-08-16 平安科技(深圳)有限公司 领域本体生成方法、装置、设备及介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632285A (zh) * 2020-12-31 2021-04-09 北京有竹居网络技术有限公司 一种文本聚类方法、装置、电子设备及存储介质
CN112650852A (zh) * 2021-01-06 2021-04-13 广东泰迪智能科技股份有限公司 一种基于命名实体和ap聚类的事件归并方法
CN113326347A (zh) * 2021-05-21 2021-08-31 四川省人工智能研究院(宜宾) 一种句法信息感知的作者归属方法
CN113326347B (zh) * 2021-05-21 2021-10-08 四川省人工智能研究院(宜宾) 一种句法信息感知的作者归属方法
CN113239071A (zh) * 2021-07-08 2021-08-10 北京邮电大学 面向科技资源学科及研究主题信息的检索查询方法及系统
CN113239071B (zh) * 2021-07-08 2022-02-11 北京邮电大学 面向科技资源学科及研究主题信息的检索查询方法及系统
CN113688257A (zh) * 2021-08-19 2021-11-23 安徽工大信息技术有限公司 一种基于大规模文献数据的作者姓名同一性判断方法
CN113688257B (zh) * 2021-08-19 2024-04-12 安徽工大信息技术有限公司 一种基于大规模文献数据的作者姓名同一性判断方法

Also Published As

Publication number Publication date
CN111221968B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
US10706113B2 (en) Domain review system for identifying entity relationships and corresponding insights
Eke et al. Sarcasm identification in textual data: systematic review, research challenges and open directions
US8676730B2 (en) Sentiment classifiers based on feature extraction
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
US20130036076A1 (en) Method for keyword extraction
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
KR20200007713A (ko) 감성 분석에 의한 토픽 결정 방법 및 장치
CN107506472B (zh) 一种学生浏览网页分类方法
CN114706972B (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
JP2022035314A (ja) 情報処理装置及びプログラム
Xie et al. A network embedding-based scholar assessment indicator considering four facets: Research topic, author credit allocation, field-normalized journal impact, and published time
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
Chen et al. Research on clustering analysis of Internet public opinion
Kawamura et al. Funding map using paragraph embedding based on semantic diversity
Ezzat et al. Topicanalyzer: A system for unsupervised multi-label arabic topic categorization
Zadgaonkar et al. An Approach for analyzing unstructured text data using topic modeling techniques for efficient information extraction
Cabrera et al. INFOTEC-LaBD at PoliticES 2022: Low-dimensional Stacking Model for Political Ideology Profiling.
BAZRFKAN et al. Using machine learning methods to summarize persian texts
Mason An n-gram based approach to the automatic classification of web pages by genre
Jain et al. Investigating the Similarity of Court Decisions.
Pisal et al. AskUs: An opinion search engine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant