CN110083817A

CN110083817A - 一种命名排歧方法、装置、计算机可读存储介质

Info

Publication number: CN110083817A
Application number: CN201810071769.0A
Authority: CN
Inventors: 傅晓; 唐杰; 邵洲; 刘德兵; 徐世鑫; 孙彬彬
Original assignee: Tsinghua University; Huawei Technologies Co Ltd
Current assignee: Tsinghua University; Huawei Technologies Co Ltd
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2019-08-02
Anticipated expiration: 2038-01-25
Also published as: CN110083817B

Abstract

本申请实施例公开了一种命名排歧方法、装置、计算机可读存储介质，能够提高命名排歧的准确度。该方法包括：从所述外部信息源中提取单条信息，再从单条信息中提取关键词，通过关键词在本地库中进行查询，以获取匹配度最高的M条结果，根据所述单条信息对所述本地库中的所述匹配度最高的M条结果进行命名排歧。该方法在引入外部信息源的情况下，将外部信息源作为本地库的重要支撑，将本地库和外部信息源相结合，以解决本地库中已经存在的命名实体指代错误的问题，提高了命名排歧的准确度。

Description

一种命名排歧方法、装置、计算机可读存储介质

技术领域

本申请涉及计算机领域，尤其涉及一种命名排歧方法、装置、计算机可读存储介质。

背景技术

命名排歧是自然语言处理(natural language processing，NLP)中，消除实体命名歧义的技术，也称为命名指代消解，即为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术。

在计算机NLP、自然语言理解(natural language understanding,NLU)、数据挖掘(data mining,DM)中的命名排歧技术领域，命名排歧方法经历了从利用大量手工构建的领域知识和语言知识形成逻辑规则进行消解，到基于完全解析树的遍历算法、基于句法知识的方法，到现在的基于规则的方法和基于统计的方法的过程。

目前业界普遍采用基于语料集、文本知识的相似性度量、文本语义相似度度量方法来进行命名排歧，但存在因语料集构建较复杂，文本相似度算法复杂，而导致的命名排歧的准确度低问题。

发明内容

本申请实施例提供了一种命名排歧方法、装置、计算机可读存储介质，能够提高命名排歧的准确度。

第一方面，本申请实施例提供了一种命名排歧方法，该方法包括：从外部信息源中提取单条信息，单条信息具有特定的语义结构，包括一串表达完整信息的字符串，该字符串由一些具有一定含义的中英文单词或者多个短语组成；再从单条信息中提取关键词，通过关键词在本地库中进行查询，以获取匹配度最高的M条结果，M为正整数；再以所述单条信息为准，对本地库中的匹配度最高的M条结果进行命名排歧。

本实施例在引入外部信息源的情况下，将外部信息源作为本地库的重要支撑，对外部信息源进行处理提取单条信息，并从单条信息中提取关键词，通过关键词在本地库中查询得到与关键词匹配度高的查询结果，再以从外部信息源中提取的单条信息为准，对本地库中的所述匹配度高的查询结果进行命名排歧。从而将本地库和外部信息源相结合，以解决本地库中已经存在的命名实体指代错误的问题，提高命名排歧的准确度。

可选的，外部信息源中一般会使用换行、序号、结束符号等标识一条信息，因此，从外部信息源中提取单条信息的方法可以是通过特殊字符区分的方式来提取。

可选的，从单条信息中提取关键词的方法可以是：对单条信息进行标准模板匹配得到单条信息对应的关键信息，关键信息中包含单条信息对应的关键词，可以从关键信息中获取重要的关键信息作为单条信息对应的关键词。其中，标准模板是指本地库存储的数据相对应的行业标准模板或常用模板。

可选的，可以结合本地特征词库从单条信息中提取关键词，提取方法可以是：对单条信息进行标准模板匹配，并对单条信息进行本地特征词词库匹配，以得到包含关键词的关键信息，从关键信息中确定重要的关键信息为单条信息对应的关键。其中，本地特征词词库包括从本地库中提取的关键信息类别及关键信息类别对应的属性。

如此，本实施例将本地库特征词词库引入进来辅助识别外部信息源中的关键信息，可以提升关键信息识别的精确度。

一种实施例中，可以先对单条信息进行标准模板匹配，若匹配不出结果，则再对单条信息进行本地特征词词库匹配，以得到关键词。

另一种实施例中，可以是先对单条信息通过标准模板匹配后，若能够匹配出关键词，再对单条信息进行本地特征词词库匹配得到关键词，从而对标准模板匹配得到关键词进行验证。

可选的，若关键词中只包括一个关键词，则通过关键词在本地库中进行查询，以获取匹配度最高的M条结果的方法可以是：先通过关键词在本地库中进行查询以得到查询结果，再将单条信息与查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过相似度预设阈值的前M条查询结果作为匹配度最高的M条结果。

若关键词中包括多级关键词，则逐级关键词进行查询，并将单条信息与查询结果进行匹配。例如：当包括第一关键词(主要关键词)和第二关键词(次要关键词)时，通过关键词在本地库中进行查询，以获取匹配度最高的M条结果的方法可以是：先通过第一关键词在本地库中进行查询得到第一关键词对应的查询结果，若第一关键词对应的查询结果不为空，则将单条信息与第一关键词对应的查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过预设阈值的前M条查询结果作为匹配度最高的M条结果；若第一关键词对应的查询结果为空，或单条信息与第一关键词对应的查询结果中的每一条查询结果的相似度均未超过相似度预设阈值，则通过第二关键词在本地库中进行查询得到第二关键词对应的查询结果，并将单条信息与第二关键词对应的查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过预设阈值的前M条查询结果作为匹配度最高的M条结果。

此种方式中，是通过模板匹配和特征词词库匹配获得二级关键词(主要关键词和次要关键词)，再通过二级关键词在本地库中进行查询，从而有效地将次要关键词作为查询备选项轮换查询，有效地去除了因关键信息不足、缺失而导致的文本相似度低的问题，有效地降低了命名排歧中排除正确实体的可能性。

一种具体的应用场景中，外部信息源可以包括科研工作者个人主页，本地库可以包括学术论文库；则从外部信息源中提取单条信息是从科研工作者个人主页中提取单条论文信息；从单条信息中提取关键词是从单条论文信息中提取关键词，关键词包括论文标题、和/或作者。

当单条论文信息包括标题或作者时，根据单条信息对本地库中的匹配度最高的M条结果进行命名排歧的方法可以是根据单条论文信息中的标题或作者，以单条论文信息中的标题或作者为基准，对学术论文库中的匹配度最高的M条结果的标题或作者进行纠错。

第二方面，本申请实施例还提供一种命名排歧装置，具体实现对应于上述第一方面提供的命名排歧方法所实现的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件程序实现。硬件和软件包括一个或多个与上述功能相对应的单元模块，所述单元模块可以是软件和/或硬件。

一种可能的设计中，该命名排歧装置包括：

第一提取模块，用于从外部信息源中提取单条信息，单条信息包括一串表达完整信息的字符串；第二提取模块，用于从所述单条信息中提取关键词；查询模块，用于通过所述关键词在本地库中进行查询，以获取匹配度最高的M条结果，所述M为正整数；命名排歧模块，用于根据所述单条信息对所述本地库中的所述匹配度最高的M条结果进行命名排歧。

一种可能的设计中，所述命名排歧装置包括：

包括存储器，一个或多个处理器，以及一个或多个程序；其中所述一个或多个程序被存储在所述存储器中；其特征在于，所述处理器执行所述一个或多个程序，以用于执行上述第一方面中的全部或部分步骤。

本申请的又一方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本申请的又一方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

从以上技术方案可以看出，本申请实施例在引入外部信息源的情况下，将本地库和外部信息源相结合，以解决本地库中已经存在的命名实体指代错误的问题，可以提高命名排歧的准确度。

附图说明

图1为本申请实施例的系统架构图；

图2为本申请实施例中服务器和终端设备间的连接示意图；

图3为本申请实施例的命名排歧方法的一种流程图；

图4为本申请实施例应用于学术论文排歧场景时的一种系统架构图；

图5为本申请实施例应用于学术论文排歧场景时的方法流程图；

图6为本申请实施例应用于学术论文排歧场景时的另一种方法流程图；

图7为本申请实施例的一种命名排歧装置的功能模块结构示意图；

图8为本申请实施例的一种终端设备的硬件结构示意图。

具体实施方式

以下结合附图对本申请实施例进行进一步详细说明。

本申请实施例可以应用于计算机自然语言处理、自然语言理解、数据挖掘等技术领域中的命名排歧，例如：可以应用于学术论文的命名排歧，可以应用于专利文献的命名排歧，也可以应用于个人信息库中的个人信息排歧。

本申请实施例通过利用外部第三方的可靠信息源，将识别的外部信息源作为本地库的重要支撑，通过外部信息源的可靠数据及逻辑实现本地库中命名实体的指代消解，解决本地库的命名排岐。

以下各实施例中的本地库指的是命名排歧的目标数据库，可以是存储在本地服务器中的数据或存储在云端服务器的数据，例如：学术论文库。外部信息源是相对于本地库而言的，是除本地库以外的外部第三方数据源，例如：各大学的学者的个人信息主页、维基百科、百度百科等第三方数据源。

图1为本申请实施例的一种系统架构图，包括软件部分和硬件部分。软件部分的应用程序可以在终端设备中运行，具体可以是在终端设备的浏览器上运行；硬件部分是指后端服务器。终端设备与服务器之间通过网络连接，常见模式示意图可以如图2所示，其中用户设备(user equipment，UE)(UE1、UE2等)指终端设备，也可以称之为客户端，可以指计算设备、手持设备、车载设备、可穿戴设备、以及以各种形式存在的用户设备，或物联网设备等等，例如：手持设备可以包括手机、平板电脑、个人数字助理等任意终端设备；Server指服务器，服务器可以是以云平台的形式提供服务，也可以是以独立部署的形式提供服务。

图1所示的软件部分包含以下几个软件模块：外部信息预处理模块、指代实体的识别模块、指代消解指令执行模块、服务器接口模块、数据查询应用程序编程接口(application programming interface，API)模块。

硬件模块包含：Web服务器和数据库服务器，其中，数据库服务器中存储命名排歧的数据对象，根据应用场景的不同，数据库服务器中存储的数据不同，例如：数据库服务器可以是智库服务器和论文数据库服务器。

各模块的功能如下：

外部信息预处理模块：完成外部信息源的数据预处理，从外部信息源中提取关键信息过程；

指代实体识别模块包含基于外部信息源的模板匹配子模块、特征词词库匹配子模块和二级关键词匹配子模块。其中基于外部信息源的模板匹配模块使用自动模板匹配算法匹配出关键信息；特征词库匹配模块根据基于关键词的文本匹配算法获取识别对象中的关键信息；二级关键词匹配模块用于基于二级关键词在本地库(即数据库服务器中的数据)中完成指代实体的匹配。

数据查询API模块：用于通过服务器接口获取需要进行命名排歧的信息。

指代消解指令的执行模块：通过服务器接口模块完成对服务器中信息命名排歧的逻辑处理。

软硬件之间的逻辑(工作或连接)关系如下：web服务器和数据库服务器为软件部分的业务逻辑提供硬件支持，并对软件部分的业务逻辑开放服务器接口供其进行数据操作；软件部分通过服务器接口进行命名排歧业务逻辑的处理，并将处理结果回写到服务器。

下面结合图3对本申请实施例的命名排歧方法进行详细介绍。

301、从外部信息源中提取单条信息；

获取外部信息源的方式可以通过爬虫等技术从可靠的第三方数据源抓取数据，第三方数据源是指与本地库中存储的数据相关的第三方数据中心，例如：如果本地库中存储的是专利，则第三方数据源可以是国家知识产权局网站。

在获取到外部信息源后，外部信息源中的数据一般都是无结构的数据，本实施例需要对外部信息源中的数据进行处理得到对本地库中的命名实体进行排歧的关键信息。

先对外部信息源进行信息预处理，从中提取需要进行处理的具有指向性的单条信息。具有指向性的单条信息可以理解为具有特定的语义结构，能够表达一条完整信息的字符串，该字符串是由一些具有一定含义的中英文单词或者多个短语组成，例如：如果获取外部信息源时是获取某作者的论文信息，那么单条信息则是由一些具有一定论文作者、行业术语、出版社等特定含义的中英文单词或者多个短语组成的信息。

在外部信息源中，信息的编辑者(如发表论文的作者)一般会使用换行、序号、结束符号等标识一条信息，因此，在一种实施例中，可以通过特殊字符来区分不同的单条信息，从外部信息源中提取具有指向性的单条信息的方式可以是通过特殊字符区分的方式来提取。

302、从单条信息中提取关键词；

在从外部信息源中提取了具有指向性的单条信息后，再从单条信息中提取关键词，关键词为用于对本地库中的命名实体进行排歧的关键信息。例如：当本地库是学术论文时，关键词可以是论文标题、论文作者、和/或论文期刊名等。

从外部信息源所获得的单条信息一般有着较强的规律性，一般该类信息都有比较严格的行业标准或者书写规范，本实施例可以通过构建基于外部信息源的模板库，使用模板匹配对从外部信息源中提取的单条信息，可以进行大量的信息识别，提取出关键信息。

在一种可选的实施例中，若本地库存储的数据有相对应的行业标准模板或常用模板(以下简称模板，或标准模板)，则可以对单条信息进行行业标准模板或常用模板匹配得到单条信息对应的关键信息，关键信息中包含对本地库中的命名实体进行命名排歧的关键词。

例如：在对学术论文进行命名排歧时，可以参考论文引用标准格式推荐性国家标准GB/T 7714、美国现代语言协会制定的论文指导格式(the modern languageassociation，MLA)、美国心理协会制定的论文指导格式(the American psychologicalassociation，APA)制定标准模板或常用模板。

若对单条信息通过行业标准模板或常用模板匹配后，能够匹配出结果，则匹配得到的结果为单条信息对应的关键信息，再从关键信息中获取重要的关键信息得到所述对本地库中的命名实体进行命名排歧的关键词。可选的，可以预先设置某类关键信息为重要的关键信息，或，预先设置每类关键信息的重要程度值，取重要程度值超过重要程度预设阈值的一类或多类关键信息作为重要的关键信息。例如：在对学术论文进行命名排歧时，可以预先设置“论文标题”、“论文作者”这两类关键信息为重要的关键信息，在对单条信息通过模板匹配后得到的结果中，若包含这两类关键信息其中一类，则将该类关键信息确定为该单条信息对应的关键词。

在一种可选的实施例中，可以通过对所述单条信息进行标准模板匹配，并结合本地特征词词库对单条信息进行本地特征词词库匹配，以得到关键信息，关键信息中包含对本地库的命名实体进行排歧的关键词。

其中，本地特征词词库是指基于本地库的特征词词库，本地库中的有效信息能够提取大量的关键信息，这些关键信息能够在命名排歧的过程中帮助和判断关键词。本地特征词词库可以包含从本地库中提取的关键信息类别及关键信息类别对应的属性。例如：“作者”类的属性可以包括从本地库中提取的作者名字、带有人名的书写特征的词语(包括首字母大写、字符简短等特征)；“标题”类的属性可以是带有行业特定术语的词语；“文献类型”类的属性可以包括本地库中的常见文献类型；“期刊名”类的属性可以包括本地库中的常见的期刊名；“出版信息”类的属性可以包括本地库中的常见出版社。

本实施例构建的本地库特征词词库可以包括领域关键词、特征关键词、歧义词等信息，将本地库特征词词库引入进来辅助识别外部信息源中的关键信息，可以提升关键信息识别的精确度。

具体的，对单条信息进行本地特征词库匹配识别出关键信息，关键信息按照重要程度进行排序，再从关键信息中获取重要的关键信息得到所述对本地库中的命名实体进行命名排歧的关键词。可选的，可以预先设置某类关键信息为重要的关键信息，或，预先设置每类关键信息的重要程度值，取重要程度值超过重要程度预设阈值的一类或多类关键信息作为重要的关键信息。

可选的，可以先对单条信息进行行业标准模板或常规模板匹配，若匹配不出结果，则再对单条信息进行本地特征词词库匹配，以得到关键词。也可以是：先对单条信息通过行业标准模板或常用模板匹配后，若能够匹配出关键词，再对单条信息进行本地特征词词库匹配得到关键词，从而对模板匹配得到关键词进行验证。

可选的，匹配出来的关键词可以只包含一个，也可以包含多个。若包含多个关键词，则按照重要程度进行排序，例如，当包含两个关键词时，一个为主要关键词，另一个则为次要关键词。

303、通过所述关键词在本地库中进行查询，以获取匹配度最高的M条结果，M为正整数；

在获得了关键词后，根据实际情况使用关键词在本地库中进行信息的查询，获得查询结果，一般取匹配度最高的M条结果，其中，M为预先设置的一个大于等于1的正整数取值，例如，M可以取值为2-10之间的正整数。

可选的，在使用关键词在本地库中进行查询获得了查询结果后，可以再继续验证查询结果与从外部信息源中提取出的单条信息的文本匹配度，以进行二次筛选。若文本匹配度很高，则说明通过关键词从本地库中查询得到的信息与从外部信息源中提取的单条信息有很大概率是同一条信息，若文本匹配度不高，则说明通过关键词与从本地库中查询得到的信息与从外部信息源中提取的单条信息并不是同一条信息。

若从步骤302中只提取了一个关键词，则先通过所述关键词在本地库中进行查询以得到查询结果，将所述单条信息与所述查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过相似度预设阈值的前M条查询结果，该M条查询结果即为匹配度最高的M条结果。

若从步骤302中提取了两个关键词，包括第一关键词和第二关键词(称为二级关键词，或两级关键词)，则通过二级关键词查询。具体方法为：先通过第一关键词在本地库中进行查询得到第一关键词对应的查询结果，若第一关键词对应的查询结果不为空，则将所述单条信息与第一关键词对应的查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过预设阈值的前M条查询结果，该M条查询结果即为匹配度最高的M条结果；若第一关键词对应的查询结果为空，或所述单条信息与第一关键词对应的查询结果中的每一条查询结果的相似度均未超过相似度预设阈值，则通过第二关键词在本地库中进行查询得到第二关键词对应的查询结果，并将所述单条信息与第二关键词对应的查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过预设阈值的前M条查询结果，该M条查询结果即为匹配度最高的M条结果。

若从步骤302中提取了多个关键词，则与二级关键词查询的方法相同，根据关键词的重要程度，逐一到本地库中进行查询得到查询结果，并将单条信息与查询结果进行文本相似度匹配，当上一级关键词在本地库中的查询结果为空，或单条信息与查询结果的文本相似度匹配均为超过相似度预设阈值时，再通过下一级关键词进行查询。

304、根据所述单条信息对所述本地库中的所述匹配度最高的M条结果进行命名排歧。

在通过步骤303获取了匹配度最高的M条结果后，以在步骤301中提取的单条信息为准，对本地库中的所述匹配最高的M条结果进行命名排歧。

例如：当单条信息中的文献标题“能源互联网通信业务及解决方案研究”的作者为“唐杰”，该作者的个人属性中毕业院校为“清华大学”，而在本地库匹配出的结果中，文献标题“能源互联网通信业务及解决方案研究”的作者为“唐杰”，而此“唐杰”并彼“唐杰”，只是同名而已，此“唐杰”的个人属性中毕业院校为“北京大学”。则认为本地库中该篇文献的作者有误，应将该篇文献归类到属性为“清华大学”的“唐杰”名下。

本申请实施例在引入外部信息源的情况下，将外部信息源作为本地库的重要支撑，对外部信息源进行处理提取单条信息，并从单条信息中提取关键词，通过关键词在本地库中查询得到与关键词匹配度高的查询结果，再通过从外部信息源中提取的单条信息对本地库中所述匹配度高的查询结果进行命名排歧。从而将本地库和外部信息源相结合，以解决本地库中已经存在的命名实体指代错误的问题，提高命名排歧的准确度。

此外，本申请实施例是通过模板匹配和特征词词库匹配获得二级关键词(主要关键词和次要关键词)，再通过二级关键词在本地库中进行查询，从而有效地将次要关键词作为查询备选项轮换查询，有效地去除了因关键信息不足、缺失而导致的文本相似度低的问题，有效地降低了命名排歧中排除正确实体的可能性。

下面以本申请实施例的方法应用于学术论文作者命名排歧的场景为例，对命名实体排歧方法进行详细介绍。

本实施例中，学术论文作者命名排歧的核心任务是通过爬取得到的科研工作者个人主页中纯文本学术论文信息(外部信息源)对学术论文库(本地库)中科研论文进行作者认定，及作者识别去重工作。可以运用到多种场景中，例如在已知科研工作者论文信息的情况下借助学术论文库结构化其论文信息、在学术论文库中完成论文识别，命名消解任务等。

图4所示为本实施中的命名排歧方法应用于学术论文命名排歧场景下的系统架构图，是将图1所示的系统架构适配到学术论文搜索系统的一种示意图。其中，外部信息源为科研工作者个人主页，对应的数据库服务器为学术论文服务器，基于外部信息源的模板匹配是对基于科研工作者个人主页的论文模板匹配，特征词词库匹配是基于学术论文库的特征词词库匹配，指代消解指令执行模块执行的是学术论文的指代消解。

本实施例通过抓取外部公开网络的科研工作者的论文信息，通过客户端的论文信息预处理模块分割出可能的单条论文信息，然后再基于外部信息源的论文模板库模块、基于特征词词库模块和二级关键词匹配算法模块中完成论文的匹配，最终反馈给服务器端执行指代的消解。下面结合流程图5，详细阐述具体实施步骤，如下：

501、从外部信息源的信息T中获取单条论文信息s_i；

从科研工作者个人主页中获取得到的论文本文信息中包含多条论文信息，但一般来说，该文本为方便访问者阅读一般都会以换行符区分不同条的论文信息。本步骤主要以换行符等特殊字符来区分不同的论文信息，采用字符分割方式来从科研工作者个人主页的论文文本信息中提取单条论文信息s_i。

502、将单条论文信息s_i匹配论文标准模板；

根据外部公开网络中的信息特点，结合行业标准，如论文在论文匹配中，可以参考论文引用标准格式GB/T 7714、MLA、APA制定标准的匹配模板。通过标准模板匹配和常用模板匹配将关键信息提取出来，对于未匹配上的则采用后续的本地特征词词库匹配的方式进行处理。

根据论文模板，对s_i进行模板的匹配。其主要的流程如图6所示。

601、判断单条论文信息s_i是否符合现有的某一论文引用标准格式模板；

602、如果符合某一论文引用标准格式模板，则确定符合的模板类型，并根据符合的模板提取字符串信息；

该过程中主要使用了正则表达式来匹配s_i，其主要用到的正则表达式模板有：

RegGB＝/(.*).|(((.*),)+).(.*)\[[ACMNJOPRSZ]\].\/\/(.*).(.*).[0-9]{4}:[0-9]{1,}-[0-9]{1,}./

RegMLA＝/(.*).|(((.*),and)+).(.*).(.*).(.*),(1[0-9]{3})|(2[0-9]{3}):[0-9]{1,}-[0-9]{1,}./

RegAPA＝/(.*).|(((.*),)+).\((1[0-9]{3})|(2[0-9]{3})\).(.*).(.*),[0-9]{1,}\([0-9]{1,}\),[0-9]{1,}-[0-9]{1,}/

以上三个正则表达式分别对应于根据论文引用标准格式GB/T 7714、MLA和APA模板提取字符串信息。

通过以上模板判断s_i的书写符合哪一模板类型，若能很好的匹配上模板，则从中提取作者信息、标题、文献类型、期刊名、出版信息、时间、卷期号、页码等信息。

603、如果单条论文信息s_i不符合现有的论文引用标准格式模板，则按照特殊字符等进行文本的分割得到字符串信息。

若s_i无法进行正常的模板匹配，即模板匹配的性能较差，则通过常用的标点符号信息进行文本的分割得到字符串信息，再通过步骤503使用基于特征词词库的文本匹配算法进行匹配。该处主要采用最常用的字符分割技术对英文标点进行分割，其主要用到的正则表达式模板有：

RegC＝/(.*).|(((.*),)+).(.*)/

503、结合特征词词库识别并归类二级关键词；

根据步骤502中获取的字符串信息，根据特征词词库进行确认或者判断，确认字符串所属哪一类关键信息，将认定为标题的信息设置为主要关键字k₀，k₀不为空，将可能为标题的信息设置为次要关键字k₁，k₁可以为空。

在步骤502中，若单条论文信息s_i能很好的匹配模板，可以直接将“标题”作为关键词k₀，并通过步骤503使用基于特征词库的文本匹配算法对k₀进行验证。

504、使用二级关键词在论文库中查询获得查询结果，并将s_i与查询结果进行文本相似度匹配；

首先使用主要关键字k₀在论文库中进行查询，得到查询结果R，对s_i和R中的每一条查询结果r_j的标题、作者等关键信息做文本相似度计算，当计算得到的相似度η超过预设的相似度预设阈值(例如：相似度预设阈值为80％)时，则认为该条论文信息正确有效，否则，舍弃该条查询结果r_j。

当使用主要关键字k₀在论文库中进行查询，得到查询结果为空，或者对s_i和R中的每一条查询结果r_j做文本相似度计算时，每一条查询结果r_j与s_i的相似度匹配度都较低(例如：低于相似度预设阈值)的时候，再使用次要关键字k₁在论文库中进行论文的查询，并对查询结果与s_i做文本相似度匹配，最终获取匹配程度最高的M条信息，M的取值为2～10之间的数字。

505、根据s_i对查询结果进行命名实体排歧。

完成步骤504之后获取匹配程度最高的M条信息后，并标识r_j中和s_i匹配得上的信息及论文作者信息，最后以s_i为标准对r_j进行论文排歧，即以s_i为标准对r_j进行纠错。

例如：当单条信息中的论文标题“能源互联网通信业务及解决方案研究”的作者为清华大学的“唐杰”，而在本地库匹配出的结果中，匹配出的论文标题“能源互联网通信业务及解决方案研究”的作者是北京大学的“唐杰”，且根据作者的其他个人属性可以判断，此“唐杰”并彼“唐杰”，只是同名而已，因此，认为本地库中该篇文献的作者有误，应将该篇论文归类到属性为“清华大学”的“唐杰”名下。

本实施例在对本地库中的信息进行命名排歧的时候用到了外部信息源，有效保障了本地库中已经存在的命名实体指代错误的问题。此外本实施例还充分利用了本地库中的文本特性以及结构特性，并构建了针对性极高的特征词词库，从而可以解决文本相似度计算方法复杂、时间上消耗比较大、无法实现工业级应用的问题，且可以解决论文文本信息利用不充分、文本匹配度较好但命名排歧效果较差的问题，在达到工业级应用的同时能够获得较高的准确度。

通过本实施例中的论文排歧方法能够使每100条论文信息处理时间控制在2S以内，且通过该方法推荐给用户的论文信息准确程度可以达98％以上，从而有效地提高了论文的准确度。

以上是对本申请实施例中的方法实施例的介绍，下面从功能模块角度以及硬件实现角度对本申请实施例中的命名排歧装置进行介绍。

该命名排歧装置所具备的功能可以通过终端设备上的处理器驱动相应的软件应用程序实现，也可以通过专用集成电路(application-specific integrated circuit，ASIC)实现，或可编程逻辑器件(programmable logic device，PLD)实现。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程门阵列(field－programmable gate array，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

如图7所示，本申请实施例中的一种命名排歧装置包括以下几个模块：

第一提取模块701，用于从外部信息源中提取单条信息，单条信息包括一串表达完整信息的字符串；第二提取模块702，用于从所述单条信息中提取关键词；查询模块703，用于通过关键词在本地库中进行查询，以获取匹配度最高的M条结果，所述M为正整数；命名排歧模块704，用于根据单条信息对所述本地库中的所述匹配度最高的M条结果进行命名排歧。

在一些具体的实施例中，第二提取模块702，具体用于对单条信息进行标准模板匹配得到所述单条信息对应的关键信息，该关键信息中包含所述关键词。

在一些具体的实施例中，第二提取模块702，具体用于对单条信息进行标准模板匹配，并对单条信息进行本地特征词词库匹配，以得到关键信息，所述关键信息中包含所述关键词；其中，本地特征词词库包括从所述本地库中提取的关键信息类别及所述关键信息类别对应的属性。

在一些具体的实施例中，查询模块703，具体用于当关键词中只包括一个关键词时，通过关键词在所述本地库中进行查询以得到查询结果，将所述单条信息与所述查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过相似度预设阈值的前M条查询结果作为所述匹配度最高的M条结果。

在一些具体的实施例中，查询模块703，具体用于当关键词中包括第一关键词和第二关键词时，通过所述第一关键词在所述本地库中进行查询得到第一关键词对应的查询结果，若所述第一关键词对应的查询结果不为空，则将所述单条信息与所述第一关键词对应的查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过预设阈值的前M条查询结果作为所述匹配度最高的M条结果；若所述第一关键词对应的查询结果为空，或所述单条信息与所述第一关键词对应的查询结果中的每一条查询结果的相似度均未超过相似度预设阈值，则通过所述第二关键词在所述本地库中进行查询得到第二关键词对应的查询结果，并将所述单条信息与所述第二关键词对应的查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过预设阈值的前M条查询结果作为所述匹配度最高的M条结果。

在一些具体的实施例中，所述外部信息源包括科研工作者个人主页，所述本地库包括学术论文库；所述第一提取模块701，具体用于从所述科研工作者个人主页中提取单条论文信息；所述第二提取模块702，具体用于从所述单条论文信息中提取关键词，所述关键词包括论文标题、和/或作者。

可选的，若所述单条论文信息包括标题或作者；则所述命名排歧模块704，具体用于根据所述单条论文信息中的标题或作者对所述学术论文库中的所述匹配度最高的M条结果的标题或作者进行纠错。

图7所示的命名排歧装置中的各模块之间的信息交互可以参阅上述方法实施例(图1至图6所示的实施例)，本申请不做赘述。

需要说明的是，在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state sisk，SSD))等。

当该命名排歧装置所具备的功能通过终端设备上的处理器驱动相应的软件应用程序实现时，终端设备可以是指如图2所示的计算设备、手持设备、车载设备、可穿戴设备、以及以各种形式存在的用户设备，或物联网设备等等。

图8是本申请实施例提供的一种终端设备的硬件结构，该终端设备包括：至少一个处理器801，至少一个网络接口804或者其他用户接口803，存储器805，至少一个通信总线802。通信总线802用于实现这些组件之间的连接通信。可选的，该终端设备的用户接口803，包括显示器(例如，触摸屏、LCD、CRT等)，键盘或者点击设备(例如，鼠标，触感板或者触摸屏等)。

存储器805可以包括只读存储器和随机存取存储器，并向处理器801提供指令和数据。存储器805的一部分还可以包括非易失性随机存取存储器(NVRAM)。

在一些实施方式中，存储器805存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:

操作系统8051，包含各种系统程序，用于实现各种基础业务以及处理基于硬件的任务；应用程序模块8052，包含各种应用程序，例如浏览器(browser)等，用于实现本申请实施例中命名排歧的用户查询、输入等操作。

在本发明实施例中，通过调用存储器805存储的程序或指令，处理器801用于：从外部信息源中提取单条信息，单条信息具有特定的语义结构，包括一串表达完整信息的字符串，该字符串由一些具有一定含义的中英文单词或者多个短语组成；再从单条信息中提取关键词，通过关键词在本地库中进行查询，以获取匹配度最高的M条结果，M为正整数；再以所述单条信息为准，对本地库中的匹配度最高的M条结果进行命名排歧。

进一步地，所述处理器801还用于执行上述图1至图6中所描述的命名排歧方法中的全部或部分步骤，此处不做赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种命名排歧方法，其特征在于，所述方法包括：

从外部信息源中提取单条信息，所述单条信息包括一串表达完整信息的字符串；

从所述单条信息中提取关键词；

通过所述关键词在本地库中进行查询，以获取匹配度最高的M条结果，所述M为正整数；

根据所述单条信息对所述本地库中的所述匹配度最高的M条结果进行命名排歧。

2.根据权利要求1所述的方法，其特征在于，所述从所述单条信息中提取关键词包括：

对所述单条信息进行标准模板匹配得到所述单条信息对应的关键信息，所述关键信息中包含所述单条信息对应的所述关键词。

3.根据权利要求1所述的方法，其特征在于，所述从所述单条信息中提取关键词包括：

对所述单条信息进行标准模板匹配，并对所述单条信息进行本地特征词词库匹配，以得到关键信息，所述关键信息中包含所述单条信息对应的所述关键词；其中，所述本地特征词词库包括从所述本地库中提取的关键信息类别及所述关键信息类别对应的属性。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述关键词中只包括一个关键词；

所述通过所述关键词在本地库中进行查询，以获取匹配度最高的M条结果包括：

通过所述关键词在所述本地库中进行查询以得到查询结果；

将所述单条信息与所述查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过相似度预设阈值的前M条查询结果作为所述匹配度最高的M条结果。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述关键词中包括第一关键词和第二关键词；

通过所述第一关键词在所述本地库中进行查询得到第一关键词对应的查询结果，若所述第一关键词对应的查询结果不为空，则将所述单条信息与所述第一关键词对应的查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过预设阈值的前M条查询结果作为所述匹配度最高的M条结果；

若所述第一关键词对应的查询结果为空，或所述单条信息与所述第一关键词对应的查询结果中的每一条查询结果的相似度均未超过相似度预设阈值，则通过所述第二关键词在所述本地库中进行查询得到第二关键词对应的查询结果，并将所述单条信息与所述第二关键词对应的查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过预设阈值的前M条查询结果作为所述匹配度最高的M条结果。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述外部信息源包括科研工作者个人主页，所述本地库包括学术论文库；

所述从外部信息源中提取单条信息包括：

从所述科研工作者个人主页中提取单条论文信息；

所述从所述单条信息中提取关键词包括：

从所述单条论文信息中提取关键词，所述关键词包括论文标题、和/或作者。

7.根据权利要求6所述的方法，其特征在于，所述单条论文信息包括标题或作者；

所述根据所述单条信息对所述本地库中的所述匹配度最高的M条结果进行命名排歧包括：

根据所述单条论文信息中的标题或作者对所述学术论文库中的所述匹配度最高的M条结果的标题或作者进行纠错。

8.一种命名排歧装置，其特征在于，所述装置包括：

第一提取模块，用于从外部信息源中提取单条信息，所述单条信息包括一串表达完整信息的字符串；

第二提取模块，用于从所述单条信息中提取关键词；

查询模块，用于通过所述关键词在本地库中进行查询，以获取匹配度最高的M条结果，所述M为正整数；

命名排歧模块，用于根据所述单条信息对所述本地库中的所述匹配度最高的M条结果进行命名排歧。

9.根据权利要求8所述的装置，其特征在于，

所述第二提取模块，具体用于对所述单条信息进行标准模板匹配得到所述单条信息对应的关键信息，所述关键信息中包含所述单条信息对应的所述关键词。

10.根据权利要求8所述的装置，其特征在于，

所述第二提取模块，具体用于对所述单条信息进行标准模板匹配，并对所述单条信息进行本地特征词词库匹配，以得到关键信息，所述关键信息中包含所述单条信息对应的所述关键词；其中，所述本地特征词词库包括从所述本地库中提取的关键信息类别及所述关键信息类别对应的属性。

11.根据权利要求8至10中任一项所述的装置，其特征在于，所述关键词中只包括一个关键词；

所述查询模块，具体用于通过所述关键词在所述本地库中进行查询以得到查询结果，将所述单条信息与所述查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过相似度预设阈值的前M条查询结果作为所述匹配度最高的M条结果。

12.根据权利要求8至10中任一项所述的装置，其特征在于，所述关键词中包括第一关键词和第二关键词；

所述查询模块，具体用于通过所述第一关键词在所述本地库中进行查询得到第一关键词对应的查询结果，若所述第一关键词对应的查询结果不为空，则将所述单条信息与所述第一关键词对应的查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过预设阈值的前M条查询结果作为所述匹配度最高的M条结果；若所述第一关键词对应的查询结果为空，或所述单条信息与所述第一关键词对应的查询结果中的每一条查询结果的相似度均未超过相似度预设阈值，则通过所述第二关键词在所述本地库中进行查询得到第二关键词对应的查询结果，并将所述单条信息与所述第二关键词对应的查询结果中的每一条查询结果进行相似度匹配，以获取相似度超过预设阈值的前M条查询结果作为所述匹配度最高的M条结果。

13.根据权利要求8至12中任一项所述的装置，其特征在于，所述外部信息源包括科研工作者个人主页，所述本地库包括学术论文库；

所述第一提取模块，具体用于从所述科研工作者个人主页中提取单条论文信息；

所述第二提取模块，具体用于从所述单条论文信息中提取关键词，所述关键词包括论文标题、和/或作者。

14.根据权利要求13所述的装置，其特征在于，所述单条论文信息包括标题或作者；

所述命名排歧模块，具体用于根据所述单条论文信息中的标题或作者对所述学术论文库中的所述匹配度最高的M条结果的标题或作者进行纠错。

15.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得所述计算机执行如权利要求1-7中任一项所述的方法。

16.一种命名排歧装置，其特征在于，所述装置包括处理器、存储器；

所述存储器存储有可编程序指令；

所述处理器调用所述存储器中的可编程序指令用于执行如权利要求1-7中任一项所述的方法。