CN109726280B

CN109726280B - 一种针对同名学者的排歧方法及装置

Info

Publication number: CN109726280B
Application number: CN201811638993.XA
Authority: CN
Inventors: 张思洋; 黄韬; 鄂新华; 刘江; 谢人超; 霍如
Original assignee: Beijing University of Technology; Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Technology; Beijing University of Posts and Telecommunications
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2021-05-14
Anticipated expiration: 2038-12-29
Also published as: CN109726280A

Abstract

本申请提供了一种针对同名学者的排歧方法及装置，属于计算机领域，所述方法包括：获取预先存储的数据集，数据集包括至少一个文献数据以及该文献数据对应的标识，文献数据包括作者名字；通过预设的相似度算法，从所述数据集包含的作者名字中，确定名字集合，所述名字集合包括满足预设相似度条件的作者名字，以及每个作者名字所属的文献数据的标识；针对所述名字集合包含的作者名字，根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则，确定该作者名字对应的第一知识图谱，其中，所述第一知识图谱包括至少一个节点，所述节点用于表示包含该作者名字、且属于同一作者的文献数据的集合。采用本申请，能够提高确定同名学者的效率。

Description

一种针对同名学者的排歧方法及装置

技术领域

本申请涉及计算机领域，特别是涉及一种针对同名学者的排歧方法及装置。

背景技术

用户可以通过各类学术检索平台搜索目标文献的作者名字，以在海量文献中快速定位目标文献。然而，由于作者名字可能存在多种书写形式，导致检索到的文献可能属于具有相同作者名字的其他作者，出现名字歧义或同一作者对应多个名字导致检索信息不全的现象，书写形式包括中文、英文、拼音、以及英文缩写。

现有技术中，服务器可以获取预先存储的各类学术搜索网站的数据库，数据库包括多条文献数据，每条文献数据包括文献的题目、作者名字、工作单位，数据库中属于同一作者的多条文献数据已预先由人工进行标记；然后，服务器可以通过预设的训练规则，对多条文献数据进行训练，得到训练好的搜索模型；之后，服务器可以将训练好的搜索模型作为学术搜索网站的搜索系统，接收用户的搜索请求。

发明内容

本申请实施例的目的在于提供一种针对同名学者的排歧方法及装置，以实现提高确定同名学者的效率。具体技术方案如下：

第一方面，提供了一种针对同名学者的排歧方法，所述方法包括：

获取预先存储的数据集，所述数据集包括至少一个文献数据以及所述文献数据对应的标识，所述文献数据包括作者名字；

通过预设的相似度算法，从所述数据集包含的作者名字中，确定名字集合，所述名字集合包括满足预设相似度条件的作者名字，以及每个作者名字所属的文献数据的标识；

针对所述名字集合包含的作者名字，根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则，确定该作者名字对应的第一知识图谱，其中，所述第一知识图谱包括至少一个节点，所述节点用于表示包含该作者名字、且属于同一作者的文献数据的集合；

基于所述名字集合包含的各作者名字对应的第一知识图谱，按照预设的节点合并规则，对各所述第一知识图谱中的节点进行合并，确定属于同一作者的节点，得到目标知识图谱。

可选的，所述根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则，确定该作者名字对应的第一知识图谱包括：

获取所述作者名字所属文献数据的标识对应的文献数据；

在所述文献数据中确定强特征信息，所述强特征信息包括作者的联系方式信息；

针对每个文献数据，通过预设的相似度算法，计算该文献数据的所述强特征信息与当前各节点对应的强特征信息之间的第一相似度；

确定第一相似度大于预设第一相似度阈值的第一节点，并将该文献数据添加到所述第一节点的文献数据的集合中。

可选的，所述将该文献数据添加到目标节点的文献数据的集合中之后，还包括：

在所述节点包含的文献数据中确定弱特征信息，所述弱特征信息包括文献数据的相关合作者信息，所述相关合作者信息包括与所述作者名字属于同一文献数据的其他作者的作者名字；

针对每个节点，通过预设的相似度算法，计算该节点的所述弱特征信息与当前各节点对应的弱特征信息之间的第二相似度；

确定第二相似度大于预设第二相似度阈值的第二节点，并将该节点包含的文献数据添加到所述第二节点的文献数据的集合中。

可选的，所述将该节点包含的文献数据添加到所述第二节点的文献数据的集合中之后，还包括：

确定包含的文献数据的标识个数大于预设数目阈值的节点；

在所述节点中，删除不满足预设筛选条件的文献数据的标识，得到该作者名字对应的第一知识图谱。

可选的，所述作者名字包括非中文作者名字和中文作者名字，所述基于所述名字集合包含的各作者名字对应的第一知识图谱，按照预设的节点合并规则，对各所述第一知识图谱中的节点进行合并，确定属于同一作者的节点，得到目标知识图谱包括：

根据预先存储的中英文映射表，确定所述名字集合包含的非中文作者名字对应的中文作者名字，所述中英文映射表包括满足预设相似度条件的非中文作者名字和中文作者名字；

针对每个中文作者名字，获取该中文作者名字的第一知识图谱；

将所述第一知识图谱中的节点与该中文作者名字对应的非中文作者名字的第一知识图谱中的节点，按照预设的节点合并规则进行合并，确定该中文作者名字对应的第二知识图谱；

对各中文作者名字对应的第二知识图谱中的节点，按照预设的节点合并规则进行合并，得到目标知识图谱。

可选的，所述方法还包括：

接收文献检索请求，所述文献检索请求携带有作者名字；

在预先存储的目标知识图谱中，确定包含所述作者名字的目标节点；

根据所述目标节点包含的文献数据的标识，确定并发送目标文献数据至预设的终端。

第二方面，提供了一种针对同名学者的排歧装置，其特征在于，所述装置包括：

获取模块，用于获取预先存储的数据集，所述数据集包括至少一个文献数据以及所述文献数据对应的标识，所述文献数据包括作者名字；

第一确定模块，用于通过预设的相似度算法，从所述数据集包含的作者名字中，确定名字集合，所述名字集合包括满足预设相似度条件的作者名字，以及每个作者名字所属的文献数据的标识；

第二确定模块，用于针对所述名字集合包含的作者名字，根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则，确定该作者名字对应的第一知识图谱，其中，所述第一知识图谱包括至少一个节点，所述节点用于表示包含该作者名字、且属于同一作者的文献数据的集合；

第三确定模块，用于基于所述名字集合包含的各作者名字对应的第一知识图谱，按照预设的节点合并规则，对各所述第一知识图谱中的节点进行合并，确定属于同一作者的节点，得到目标知识图谱。

可选的，所述第二确定模块包括：

第一获取子模块，用于获取所述作者名字所属文献数据的标识对应的文献数据；

第一确定子模块，用于在所述文献数据中确定强特征信息，所述强特征信息包括作者的联系方式信息；

第一计算子模块，用于针对每个文献数据，通过预设的相似度算法，计算该文献数据的所述强特征信息与当前各节点对应的强特征信息之间的第一相似度；

第一添加子模块，用于确定第一相似度大于预设第一相似度阈值的第一节点，并将该文献数据添加到所述第一节点的文献数据的集合中。

可选的，所述第二确定模块还包括：

第二确定子模块，用于在所述节点包含的文献数据中确定弱特征信息，所述弱特征信息包括文献数据的相关合作者信息，所述相关合作者信息包括与所述作者名字属于同一文献数据的其他作者的作者名字；

第二计算子模块，用于针对每个节点，通过预设的相似度算法，计算该节点的所述弱特征信息与当前各节点对应的弱特征信息之间的第二相似度；

第二添加子模块，用于确定第二相似度大于预设第二相似度阈值的第二节点，并将该节点包含的文献数据添加到所述第二节点的文献数据的集合中。

可选的，所述第二确定模块还包括：

第三确定子模块，用于确定包含的文献数据的标识个数大于预设数目阈值的节点；

删除子模块，用于在所述节点中，删除不满足预设筛选条件的文献数据的标识，得到该作者名字对应的第一知识图谱。

可选的，所述作者名字包括非中文作者名字和中文作者名字，所述第三确定模块包括：

第四确定子模块，用于根据预先存储的中英文映射表，确定所述名字集合包含的非中文作者名字对应的中文作者名字，所述中英文映射表包括满足预设相似度条件的非中文作者名字和中文作者名字；

第二获取子模块，用于针对每个中文作者名字，获取该中文作者名字的第一知识图谱；

第一合并子模块，用于将所述第一知识图谱中的节点与该中文作者名字对应的非中文作者名字的第一知识图谱中的节点，按照预设的节点合并规则进行合并，确定该中文作者名字对应的第二知识图谱；

第二合并子模块，用于对各中文作者名字对应的第二知识图谱中的节点，按照预设的节点合并规则进行合并，得到目标知识图谱。

可选的，所述装置还包括：

接收模块，用于接收文献检索请求，所述文献检索请求携带有作者名字；

第四确定模块，用于在预先存储的目标知识图谱中，确定包含所述作者名字的目标节点；

发送模块，用于根据所述目标节点包含的文献数据的标识，确定并发送目标文献数据至预设的终端。

第三方面，提供了一种服务器，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现权利要求任一第一方面所述的方法步骤。

第四方面，提供了一种机器可读存储介质，其特征在于，存储有机器可执行指令，在被处理器调用和执行时，所述机器可执行指令促使所述处理器：实现权利要求任一第一方面所述的方法步骤。

本申请实施例提供了一种针对同名学者的排歧方法及装置，可以基于包括文献数据、文献数据包含的作者名字、以及文献数据对应的标识的数据集，通过预设的相似度算法，从数据集包含的作者名字中，确定包括满足预设相似度条件的作者名字，以及每个作者名字所属的文献数据的标识的名字集合；然后，针对名字集合包含的作者名字，根据作者名字所属的文献数据的标识、以及预设的知识图谱生成规则，确定该作者名字对应的第一知识图谱，第一知识图谱中的节点用于表示包含该作者名字、且属于同一作者的文献数据的集合；基于名字集合包含的各作者名字对应的第一知识图谱，按照预设的节点合并规则，对各第一知识图谱中的节点进行合并，确定属于同一作者的节点，得到目标知识图谱。因此，能够实现提高确定同名学者的效率。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种针对同名学者的排歧方法的流程图；

图2为本申请实施例提供的一种针对同名学者的排歧方法的流程图；

图3为本申请实施例提供的一种针对同名学者的排歧方法的流程图；

图4为本申请实施例提供的一种针对同名学者的排歧方法的流程图；

图5为本申请实施例提供的一种针对同名学者的排歧方法的流程图；

图6为本申请实施例提供的一种针对同名学者的排歧装置的结构示意图；

图7为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种针对同名学者的排歧方法，该方法应用于服务器，服务器可以是具有搜索功能的服务器，例如，服务器可以是文献检索网站的后台服务器。服务器中可以存储有数据库，数据库可以是基于知识图谱形式存储的图数据库。

当用户想要查询某一文献时，用户可以通过终端发送文献检索请求，文献检索请求可以携带有检索关键字，检索关键字可以是该文献的作者名字，其中，终端可以是手机或电脑。服务器可以接收文献检索请求，并根据该文献检索请求携带的作者名字，在预先存储的数据库中，确定该作者名字对应的目标文献，并将目标文献发送至终端，以展示给用户。

如图1所示，本申请实施例提供的一种针对同名学者的排歧方法的具体处理流程如下：

步骤101，获取预先存储的数据集。

其中，数据集包括至少一个文献数据以及该文献数据对应的标识，数据集包含的文献数据可以是中文文献数据，也可以是外文文献数据；文献数据包括作者名字、该文献数据的题目等信息，在数据集中，针对每个文献数据，服务器可以基于多个字段对应存储该文献数据包含的信息。字段可以分为静态字段和动态字段，某一动态字段可以存储有该文献数据的引用次数或下载次数，当文献数据为专利时，动态字段还可以存储有法律状态，法律状态可以是已公开或已授权。某一静态字段可以存储有该文献数据的题目、作者名字、文献分类号、所属机构中的一种。作者名字的书写形式为预设的多种书写形式中的一种。多种书写形式包括中文形式、拼音形式、英文形式、以及字母缩写形式等。

在实施中，服务器可以按照预设的处理周期，通过爬虫程序，从至少一个文献检索网站中爬取文献数据，然后，服务器可以基于爬取的文献数据，提取文献数据包含的信息，并建立文献数据对应的标识，之后，服务器可以对应存储文献数据、文献数据的标识、以及文献数据包含的信息，得到数据集。服务器也可以将文献检索网站的数据库作为数据集。

服务器可以根据接收到的数据集获取指令，获取预先存储的数据集。

如表1所示，为本申请实施例提供的一种数据集的示例，数据集中对应存储有文献数据的题目、文献数据的标识、所属机构、作者名字、文献分类号、作者联系方式、以及邮箱等信息。

表1

题目

标识

所属机构

作者名字

文献分类号

作者联系方式

邮箱

Bbb

A1

Bupt

Huang Tao，Liu Jiang

01

123

236

bac

A2

Bupt

Huang Tao

01

123

236

Ccc

A3

Bjut

Tao Huang,Jiang Liu

01

-

sed

A4

Bjut

Huang Tao,Liu Jiang

01

568

452

ddd

A5

Ut

T.Huang,Jiang Liu

01

155

266

本申请实施例中，文献数据的信息还包括关键词、所属机构的机构代码等信息，本申请实施例不作具体限定。

步骤102，通过预设的相似度算法，从数据集包含的作者名字中，确定名字集合。

其中，服务器中可以预先设置有预设相似度条件，满足预设相似度条件的作者名字可能为同一作者的名字，名字集合包括满足预设相似度条件的作者名字，以及每个作者名字所属文献数据的标识。

在实施中，服务器可以根据数据集包含的文献数据、每条文献数据包含的作者名字，确定数据集包含的多个作者名字、以及每个作者名字所属的文献数据的标识。然后，服务器可以通过预设的相似度算法，从数据集包含的多个作者名字中，确定满足预设相似度条件的作者名字，作为可能属于同一作者的作者名字，并对应存储确定出的作者名字所属的文献数据的标识，得到名字集合。

例如，服务器可以通过预设的相似度算法，从数据集包含的作者名字中确定满足预设相似度条件的作者名字为：中文形式书写的黄涛和黄韬、拼音形式书写的Huang Tao，英文形式书写的Tao Huang，以及字母缩写形式书写的T.Huang。

Huang Tao对应的文献数据的标识可以是A1、A2，Tao Huang对应的文献数据的标识可以是A1、A2、A3，T.Huang对应的文献数据的标识可以是A1、A3、B1。黄涛对应的文献数据的标识可以是A1、A2，黄韬对应的文献数据的标识可以是B2、B3。

然后，服务器可以对应存储上述作者名字所属的文献数据的标识，得到名字集合。如表2所示，为本申请实施例提供的一种名字集合的示例：

表2

在一种可行的实现方式中，服务器可以按照预设的权重分配规则，为各种书写形式分配权重。权重分配规则包括：越符合常规书写习惯的书写形式权重越大，比如，字母缩写形式的权重比拼音形式的权重小。例如，服务器可以将英文形式的权重设置为0.5，拼音形式的权重设置为0.4，字母缩写形式的权重设置为0.1。

权重分配规则还可以包括：书写规则相近的书写形式的权重相同，例如，服务器可以将拼音形式书写的Huang Tao，和英文形式书写的Tao Huang的权重设置为同一权重。

在一种可行的实现方式中，服务器可以从满足预设相似度条件的作者名字中，确定非中文形式的非中文作者名字、以及中文形式的中文作者名字，然后，服务器可以对应存储非中文作者名字和非中文作者名字对应的文献数据的标识，得到非中文作者名字集合；并对应存储中文作者名字和中文作者名字对应的文献数据的标识，得到中文作者名字集合。

例如，服务器可以从上述作者名字中，确定拼音形式书写的Huang Tao，英文形式书写的Tao Huang，以及字母缩写形式书写的T.Huang为满足预设相似度条件的非中文作者名字。

之后，服务器可以建立中英文映射表，具体处理过程可以是：服务器基于满足预设相似度条件的中文作者名字和非中文作者名字，对应存储中文作者名字和非中文作者名字，得到中英文映射表。

如表3所示，为本申请实施例提供的一种中英文映射表的示例，其中，中英文映射表对应存储有中文形式的中文作者名字黄涛、黄韬，以及拼音形式的Huang Tao，英文形式的Tao Huang，字母缩写形式的H.T，H Tao，Tao Huang，T Huang。

表3

在一种可行的实现方式中，中英文映射表中可以对应存储中文作者名字与某一种书写形式的非中文作者名字的对应关系，如表4所示，为本申请实施例提供的另一种中英文映射表的示例，其中，中英文映射表对应存储有中文形式的中文作者名字黄涛、黄韬，以及拼音形式的Huang Tao。

表4

中文形式	拼音形式
		黄涛、黄韬	Huang Tao

步骤103，针对名字集合包含的作者名字，根据作者名字所属文献数据的标识、以及预设的知识图谱生成规则，确定该作者名字对应的第一知识图谱。

其中，服务器中可以预先设置有知识图谱生成规则。第一知识图谱包括至少一个节点，节点用于表示包含该作者名字、且属于同一作者的文献数据的集合。

在实施中，服务器可以基于数据集对应的各名字集合，分别针对每个名字集合包含的每个作者名字，根据该作者名字所属文献数据的标识和预设的知识图谱生成规则，确定该作者名字对应的第一知识图谱。

例如，服务器可以针对名字集合[黄涛/A1/A2，黄韬/B2/B3，Huang Tao/A1/A2，TaoHuang/A1/A2/A3，T.Huang/A1/A3/B1]包含的作者名字黄涛、黄韬、Huang Tao、Tao Huang、以及T.Huang分别确定第一知识图谱。

服务器生成第一知识图谱的具体过程后续会进行详细说明。

步骤104，基于名字集合包含的各作者名字对应的第一知识图谱，按照预设的节点合并规则，对各第一知识图谱中的节点进行合并，确定属于同一作者的节点，得到目标知识图谱。

在实施中，服务器可以针对数据集对应的多个名字集合，确定每个名字集合包含的作者名字，以及每个作者名字对应的第一知识图谱，然后，服务器可以基于该名字集合包含的各作者名字，将各作者名字对应的第一知识图谱中的节点，按照预设的节点合并规则进行合并，得到该名字集合的知识图谱。

服务器可以基于数据集对应的多个名字集合，将各名字集合的知识图谱中的节点，按照预设的节点合并规则进行合并，得到数据集对应的知识图谱，即为目标知识图谱。

例如，服务器可以针对名字集合[黄涛/A1/A2，黄韬/B2/B3，Huang Tao/A1/A2，TaoHuang/A1/A2/A3，T.Huang/A1/A3/B1]包含的作者名字黄涛、黄韬、Huang Tao、Tao Huang、以及T.Huang，将黄涛的第一知识图谱、黄韬的第一知识图谱、Huang Tao的第一知识图谱、Tao Huang的第一知识图谱、以及T.Huang的第一知识图谱中的节点，按照预设的节点合并规则进行合并，得到名字集合[黄涛/A1/A2，黄韬/B2/B3，Huang Tao/A1/A2，Tao Huang/A1/A2/A3，T.Huang/A1/A3/B1]的知识图谱。

然后，服务器可以将名字集合[黄涛/A1/A2，黄韬/B2/B3，Huang Tao/A1/A2，TaoHuang/A1/A2/A3，T.Huang/A1/A3/B1]的知识图谱，与其他名字集合的知识图谱中的节点，按照预设的节点合并规则进行合并，得到数据集对应的目标知识图谱。

本申请实施例中，服务器基于数据集，确定名字集合，并针对名字集合包含的作者名字，通过知识图谱生成规则建立第一知识图谱，再通过节点合并规则，对各作者名字对应的第一知识图谱中的节点进行合并，得到目标知识图谱。由此，服务器可以基于建立的目标知识图谱，进行文献数据的查找，避免了现有技术中服务器需要定期基于新增的文献数据对搜索模型进行训练，搜索模型的可移植性低的问题，因此，能够提高确定同名学者的效率。

可选的，服务器可以通过多种方式确定作者名字对应的第一知识图谱，如图2所示，为本申请实施例提供的一种实现方式，具体处理过程包括：

步骤201，获取作者名字所属文献数据的标识对应的文献数据。

在实施中，服务器可以在数据集中，确定作者名字所属文献数据的标识，并获取文献数据的标识对应的文献数据。服务器可以将确定出的每个文献数据作为一个节点。

例如，服务器可以在数据集中，确定作者名字Tao Huang所属文献数据的标识A1、A2、以及A3，并获取A1、A2、以及A3对应的文献数据，作为三个节点。

步骤202，在文献数据中确定强特征信息。

其中，强特征信息包括作者的联系方式信息。

在实施中，服务器可以针对确定出的文献数据，通过预设的全匹配算法，在每个文献数据包含的信息中确定强特征信息。

例如，服务器可以在A1对应的文献数据中，将作者的联系方式信息111-1111-1111作为强特征信息，类似的，服务器可以在A2和A3对应的文献数据中，确定强特征信息。

步骤203，针对每个文献数据，通过预设的相似度算法，计算该文献数据的强特征信息与当前各节点对应的强特征信息之间的第一相似度。

在实施中，服务器中可以预先设置有相似度算法和第一相似度阈值，相似度算法包括余弦相似度算法、编辑距离相似度算法。服务器可以针对每个文献数据，即每个包含一个文献数据的节点，通过相似度算法，计算该文献数据的强特征信息与当前各节点对应的强特征信息之间的第一相似度，然后将第一相似度与预设的第一相似度阈值进行比较。

例如，针对作者名字Tao Huang，Tao Huang所属文献数据的标识分别为A1、A2、以及A3，服务器可以针对A1，计算A1的强特征信息和节点A2对应的强特征信息之间的第一相似度为0.6，A1的强特征信息和节点A3对应的强特征信息之间的第一相似度为0.8。然后，服务器可以将第一相似度与预设的第一相似度阈值0.75进行比较。

本申请实施例中，某一节点的强特征信息可以是该节点包含的某一文献数据的强特征信息，也可以由该节点包含的各文献数据的强特征信息组成。例如，当某一节点包含一个文献数据时，该节点的强特征信息即为该文献数据的强特征信息123；当某一节点包含两个文献数据时，这两个文献数据的强特征信息为123和111时，该节点的强特征信息可以是111或123，该节点的强特征信息也可以是111-123。

步骤204，确定第一相似度大于预设第一相似度阈值的第一节点，并将该文献数据添加到第一节点的文献数据的集合中。

在实施中，如果该文献数据与某一节点之间的第一相似度大于预设第一相似度阈值，则服务器可以将该节点作为第一节点，并该文献数据添加到第一节点的文献数据的集合中。由此，服务器可以确定该作者名字对应的第一知识图谱。

例如，服务器可以确定0.8大于0.75，则服务器可以将A3作为第一节点，并将A1添加到第一节点A3的文献数据的集合中。

本申请实施例中，服务器将文献数据添加到第一节点的文献数据的集合中的方式是多种多样的，例如，服务器可以将该文献数据的标识添加到第一节点的文献数据的标识集合中。

可选的，如图3所示，服务器还可以在基于强特征信息对节点进行合并之后，基于节点的弱特征信息，对节点进行合并以确定第一知识图谱，具体处理流程包括：

步骤301，在节点包含的文献数据中确定弱特征信息。

其中，弱特征信息包括文献数据的相关合作者信息，相关合作者信息包括与该作者名字属于同一文献数据的其他作者的作者名字。

在实施中，服务器可以针对每个节点，确定该节点包含的文献数据，然后，在每个文献数据包含的信息中确定弱特征信息。

例如，服务器可以用J1+J3表示包含有文献数据的标识A1和A3的节点，用J2表示包含有文献数据的标识A2的节点。服务器可以确定A1、A2以及A3对应的文献数据，然后，服务器可以在A1对应的文献数据中，确定弱特征信息为San Zhang、Si Li，在A2对应的文献数据中，确定弱特征信息为Er Wang、Si Li，在A3对应的文献数据中，确定弱特征信息为Si Li。

与节点的强特征信息确定方式类似，节点J2的弱特征信息可以是Er Wang、Si Li，节点J1+J3的弱特征信息可以是San Zhang、Si Li。

步骤302，针对每个节点，通过预设的相似度算法，计算该节点的弱特征信息与当前各节点对应的弱特征信息之间的第二相似度。

在实施中，服务器可以针对每个节点，通过预设的相似度算法，分别计算该节点的弱特征信息与当前各节点对应的弱特征信息之间的第二相似度，并比较第二相似度与预设的第二相似度阈值。

例如，服务器可以针对作者名字Tao Huang对应的节点J1+J3和节点J2，通过预设的相似度算法，计算节点J1+J3包含的弱特征信息“San Zhang”和“Si Li”，以及节点J2包含的弱特征信息“Er Wang、Si Li”之间的第二相似度为0.6，然后，服务器可以将0.6与第二相似度阈值0.5进行比较。

步骤303，确定第二相似度大于预设第二相似度阈值的第二节点，并将该节点包含的文献数据添加到第二节点的文献数据的集合中。

在实施中，如果该节点与某一节点之间的第二相似度大于预设第二相似度阈值，则服务器将该某一节点作为第二节点，并将该节点包含的文献数据添加到第二节点的文献数据的集合中。由此，可以得到该作者名字对应的第一知识图谱。

例如，第二相似度0.6大于第二相似度阈值0.5，则服务器可以将节点J1+J3作为第二节点，并将J2包含的文献数据添加到第二节点J1+J3的文献数据的集合中，得到作者名字Tao Huang对应的第一知识图谱。

由此，服务器可以得到作者名字Huang Tao、Tao Huang、T.Huang对应的第一知识图谱。

可选的，服务器还可以在基于弱特征信息对节点进行合并之后，通过以下方式，确定第一知识图谱，处理流程包括：

步骤一、确定包含的文献数据的标识的个数大于预设数目阈值的节点。

在实施中，服务器还可以针对确定出的节点，确定每个节点包含的文献数据的标识的个数，并将该节点对应的标识的个数与预设数目阈值进行比较，得到包含的文献数据的标识的个数大于预设数目阈值的节点。

步骤二、在节点中，删除不满足预设筛选条件的文献数据的标识，得到该作者名字对应的第一知识图谱。

在实施中，服务器中可以预先设置有筛选条件，筛选条件可以是基于节点中各文献数据的标识对应的文献数据，选择与节点的研究方向信息不同的文献数据。例如，服务器可以基于某一节点包含的文献数据的标识对应的文献数据，获取每个文献数据的研究方向信息，得到多个研究方向信息；然后，服务器可以在多个研究方向信息中，确定出现次数最多的研究方向信息为该节点对应的研究方向信息；之后，服务器可以确定研究方向信息与该节点对应的研究方向信息不同的文献数据，并将该文献数据的标识从该节点中删除。

服务器可以在包含的文献数据的标识的个数大于预设数目阈值的节点中，确定不满足筛选条件的文献数据的标识，并删除该标识，得到该作者名字对应的第一知识图谱。

例如，服务器确定出某一节点的研究方向信息为计算机，则服务器可以在该节点中删除研究方向信息为生物医疗的文献数据的标识。

可选的，数据集包含的文献数据包括英文文献数据和中文文献数据，作者名字包括非中文作者名字和中文作者名字，服务器可以基于满足预设相似度条件的非中文作者名字和中文作者名字建立中英文映射表，并根据中英文映射表和各作者名字对应的第一知识图谱，确定目标知识图谱，如图4所示，具体执行流程包括：

步骤401，根据预先存储的中英文映射表，确定名字集合包含的非中文作者名字对应的中文作者名字。

其中，中英文映射表包括满足预设相似度条件的非中文作者名字和中文作者名字。

在实施中，服务器可以在获取名字集合包含的各作者名字对应的第一知识图谱后，获取预先存储的中英文映射表，然后，服务器可以根据中英文映射表，确定非中文作者名字对应的中文作者名字。

例如，服务器可以根据中英文映射表，确定名字集合包含的非中文作者名字HuangTao、Huang Tao、T.Huang对应的中文作者名字为黄涛、黄韬。

步骤402，针对每个中文作者名字，获取该中文作者名字的第一知识图谱。

在实施中，服务器中可以预先存储有各中文作者名字的第一知识图谱，服务器也可以根据中文作者名字所属文献数据的标识、以及预设的知识图谱生成规则，生成中文作者名字对应的第一知识图谱。

步骤403，将第一知识图谱中的节点与该中文作者名字对应的非中文作者名字的第一知识图谱中的节点，按照预设的节点合并规则进行合并，确定该中文作者名字对应的第二知识图谱。

在实施中，服务器可以针对每个中文作者名字，将该中文作者名字的第一知识图谱中的节点，与对应的非中文作者名字的第一知识图谱中的节点，按照预设的节点合并规则进行合并，确定该中文作者名字对应的第二知识图谱。

例如，服务器可以针对黄涛，将黄涛的第一知识图谱中的节点，与对应的非中文作者名字Huang Tao、Huang Tao、T.Huang的第一知识图谱中的节点，按照预设的节点合并规则进行合并，确定黄涛对应的第二知识图谱。

步骤404，对各中文作者名字对应的第二知识图谱中的节点，按照预设的节点合并规则进行合并，得到目标知识图谱。

在实施中，服务器可以对各中文作者名字对应的第二知识图谱中的节点，按照预设的节点合并规则进行合并，得到数据集的知识图谱，即目标知识图谱。

本申请实施例中，服务器按照节点合并规则，对节点进行合并的具体过程，与步骤201～204和/或步骤301～步骤303，此处不再赘述。

可选的，在获得目标知识图谱后，服务器可以通过终端接收用户发出的文献检索请求，并将文献检索请求对应的目标文献数据发送给用户，如图5所示，具体处理过程包括：

步骤501，接收文献检索请求。

其中，文献检索请求携带有作者名字。

在实施中，服务器可以通过终端接收用户发出的文献检索请求，并获取文献检索请求携带的作者名字。

步骤502，在预先存储的目标知识图谱中，确定包含作者名字的目标节点。

在实施中，服务器可以在目标知识图谱包含的多个节点中，根据作者名字，确定包含该作者名字的目标节点。

步骤503，根据目标节点包含的文献数据的标识，确定并发送目标文献数据至预设的终端。

在实施中，服务器可以根据目标节点包含的文献数据的标识，在数据集中确定标识对应的目标文献数据，然后，服务器可以将目标文献数据发送至终端，以使终端能够为用户显示目标文献数据。

本申请实施例还提供了一种针对同名学者的排歧装置，如图6所示，所述装置包括：

获取模块610，用于获取预先存储的数据集，所述数据集包括至少一个文献数据以及所述文献数据对应的标识，所述文献数据包括作者名字；

第一确定模块620，用于通过预设的相似度算法，从所述数据集包含的作者名字中，确定名字集合，所述名字集合包括满足预设相似度条件的作者名字，以及每个作者名字所属的文献数据的标识；

第二确定模块630，用于针对所述名字集合包含的作者名字，根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则，确定该作者名字对应的第一知识图谱，其中，所述第一知识图谱包括至少一个节点，所述节点用于表示包含该作者名字、且属于同一作者的文献数据的集合；

第三确定模块640，用于基于所述名字集合包含的各作者名字对应的第一知识图谱，按照预设的节点合并规则，对各所述第一知识图谱中的节点进行合并，确定属于同一作者的节点，得到目标知识图谱。

可选的，所述第二确定模块包括：

可选的，所述第二确定模块还包括：

可选的，所述装置还包括：

本申请实施例提供了一种针对同名学者的排歧装置，可以基于包括文献数据、文献数据包含的作者名字、以及文献数据对应的标识的数据集，通过预设的相似度算法，从数据集包含的作者名字中，确定包括满足预设相似度条件的作者名字，以及每个作者名字所属的文献数据的标识的名字集合；然后，针对名字集合包含的作者名字，根据作者名字所属的文献数据的标识、以及预设的知识图谱生成规则，确定该作者名字对应的第一知识图谱，第一知识图谱中的节点用于表示包含该作者名字、且属于同一作者的文献数据的集合；基于名字集合包含的各作者名字对应的第一知识图谱，按照预设的节点合并规则，对各第一知识图谱中的节点进行合并，确定属于同一作者的节点，得到目标知识图谱。因此，能够实现提高确定同名学者的效率。

本申请实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

获取所述作者名字所属文献数据的标识对应的文献数据；

确定包含的文献数据的标识个数大于预设数目阈值的节点；

可选的，所述方法还包括：

接收文献检索请求，所述文献检索请求携带有作者名字；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一一种针对同名学者排歧的方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一一种针对同名学者排歧的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种针对同名学者的排歧方法，其特征在于，所述方法包括：

基于所述名字集合包含的各作者名字对应的第一知识图谱，按照预设的节点合并规则，对各所述第一知识图谱中的节点进行合并，确定属于同一作者的节点，得到目标知识图谱；

其中，所述根据所述作者名字所属的文献数据的标识、以及预设的知识图谱生成规则，确定该作者名字对应的第一知识图谱包括：

获取所述作者名字所属文献数据的标识对应的文献数据；

确定第一相似度大于预设第一相似度阈值的第一节点，并将该文献数据添加到所述第一节点的文献数据的集合中；

2.根据权利要求1所述的方法，其特征在于，所述将该节点包含的文献数据添加到所述第二节点的文献数据的集合中之后，还包括：

确定包含的文献数据的标识个数大于预设数目阈值的节点；

3.根据权利要求1所述的方法，其特征在于，所述作者名字包括非中文作者名字和中文作者名字，所述基于所述名字集合包含的各作者名字对应的第一知识图谱，按照预设的节点合并规则，对各所述第一知识图谱中的节点进行合并，确定属于同一作者的节点，得到目标知识图谱包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收文献检索请求，所述文献检索请求携带有作者名字；

5.一种针对同名学者的排歧装置，其特征在于，所述装置包括：

第三确定模块，用于基于所述名字集合包含的各作者名字对应的第一知识图谱，按照预设的节点合并规则，对各所述第一知识图谱中的节点进行合并，确定属于同一作者的节点，得到目标知识图谱；

其中，所述第二确定模块包括：

第一添加子模块，用于确定第一相似度大于预设第一相似度阈值的第一节点，并将该文献数据添加到所述第一节点的文献数据的集合中；

所述第二确定模块还包括：

6.一种服务器，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现权利要求1-4任一所述的方法步骤。

7.一种机器可读存储介质，其特征在于，存储有机器可执行指令，在被处理器调用和执行时，所述机器可执行指令促使所述处理器：实现权利要求1-4任一所述的方法步骤。