CN110704643A

CN110704643A - 不同类文献相同作者自动辨识方法及装置、存储介质终端

Info

Publication number: CN110704643A
Application number: CN201910785790.1A
Authority: CN
Inventors: 徐永斌; 普丽娜; 赵燕; 王茜; 李敏
Original assignee: Shanghai Science And Technology Development Co Ltd
Current assignee: Shanghai Kehui Talent Service Co ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2020-01-17
Anticipated expiration: 2039-08-23
Also published as: CN110704643B

Abstract

本发明公开了一种不同类文献相同作者自动辨识方法及装置、存储介质和终端，其中方法包括：对不少于一种类型的预设数据库进行作者同类文献整合处理，得到不同类型的作者文献整合数据集；从第一类作者文献整合数据集中确定目标作者，并将目标作者对应的目标作者文献整合数据与第二类作者文献整合数据集中的所有作者文献整合数据依次进行相似性对比，得到对比结果；根据对比结果判断第二类作者文献数据集中是否存在与目标作者为同一人的作者。本发明通过对不同类型的文献数据库进行作者同类文献整合处理比较，实现不同类型数据库中的作者判定是否未同一人，同时还可整合作者的所有文献，为大量文献数据的数据融合和知识图谱的构建提供数据基础。

Description

不同类文献相同作者自动辨识方法及装置、存储介质终端

技术领域

本发明涉及电子文献技术领域，尤其涉及一种不同类文献相同作者自动辨识方法及装置、存储介质和终端。

背景技术

随着大数据的飞速发展，在整理文论等数据库时自然语言技术显得尤为重要，同时对语义消歧、未登录词识别技术的需求量也越来越大。例如我们在不同的论文和专利中发现了用同一个中文或英文表述的姓名是否为同一人时，往往我们无法准确地判断他们是否为同一个人；还有可能同一人用不同的文献中用不同的姓名时，同样无法判断两个姓名是否为同一人，进而影响我们对该作者所发表文献总结的判断。

在我们处理大量的论文和专利文件时，这种问题显得尤为突出。在我们进行大量论文和专利文件处理过程中，首先我们要对某个作者进行识别处理，这个过程中就会遇到是否要将姓名相同，或者该作者的英文名的表述为同一个人的合并，然后将他们的特征合并，找到该作者完整的各类文献发表信息，帮助我们的业务做出更完整、准确的判断。

发明内容

本发明所要解决的技术问题是现有大量文献处理过程中，无法对不同类文献的相同作者进行一个准确的判断，进而影响大量文献数据的归类话处理速度。

为了解决上述技术问题，本发明提供了一种不同类文献相同作者自动辨识方法，包括：

对不少于一种类型的预设数据库进行作者同类文献整合处理，得到不同类型的作者文献整合数据集；

从第一类作者文献整合数据集中确定目标作者，并将目标作者对应的目标作者文献整合数据与第二类作者文献整合数据集中的所有作者文献整合数据依次进行相似性对比，得到对比结果；所述第一类作者文献整合数据集和第二类作者文献整合数据集分别属于不同类型的作者文献整合数据集中的一个，且所述第一类作者文献整合数据集和第二类作者文献整合数据集不为同一类所述作者文献整合数据集；

根据所述对比结果判断所述第二类作者文献数据集中是否存在与所述目标作者为同一人的作者。

优选地，对单一所述预设数据库进行作者同类文献整合处理，得到单一作者文献整合数据集包括：

从预设数据库中抓取所有作者的文献信息和属性信息；

对所有所述作者的文献信息分别进行向量化处理，得到信息向量集；

将所述信息向量集中所述作者属性信息相同的信息向量进行整合，得到作者文献整合数据集。

优选地，对单一所述作者的文献信息进行向量化处理，得到单一信息向量包括：

对所述作者的文献信息进行切词并词向量转化处理得到词向量，将相同词在文献信息中出现的次数作为对应词的权重；

根据预设合并方法将所有词向量及词的权重合并成信息向量。

优选地，将所述信息向量集中所述作者属性信息相同的信息向量进行整合，得到作者文献整合数据集包括：

将所述信息向量集中所述作者属性相同的信息向量进行合并，得到多个向量集；

对所有向量集内的信息向量依据发表时间进行排序整合，使得所有排序整合后的向量集构成作者文献整合数据集。

优选地，对单个所述向量集内的信息向量依据发表时间进行排序整合，得到单个作者文献整合数据包括：

对所述向量集内的所有信息向量依据发表时间进行排序，得到信息向量时间线；

对所述信息向量时间线进行遍历，判断预设时间段内所述信息向量时间线上缺失的信息向量是否小于预设信息量阈值时，若是则对所述信息向量时间线上缺失的时间点通过上补齐或下补齐的方式进行填补得到作者文献整合数据；若不是则该信息向量时间线无效。

优选地，将目标作者对应的目标作者文献整合数据与第二类作者文献整合数据集中的作者文献整合数据依次进行相似性对比，得到对比结果包括：

对不同类型的作者文献整合数据集分别进行聚类计算，将每个所述作者文献整合数据集中的所述作者文献整合数据分为多个相同类别的族；

将所述目标作者对应的所述目标作者文献整合数据与第二类作者文献整合数据集中与所述目标作者相同类别的族内的作者文献整合数据依次进行相似性对比，得到的所有子对比结果构成对比结果。

优选地，将所述目标作者的作者文献整合数据与所述第二类作者文献整合数据集中与所述目标作者相同类别的族内单个待比较的所述作者文献整合数据进行相似性对比，得到子对比结果包括：

在预设时间段内依次将相同时间点的所述目标作者的作者文献整合数据中的信息向量和单个待比较的所述作者文献整合数据中的信息向量利用预设相似度算法进行相似度计算，得到相似度计算结果集；

判断所述相似度计算结果集中的所有相似度计算结果是否均大于预设相似度阈值，若是则将所述预设时间段内的所述目标作者的作者文献整合数据和单个待比较所述作者文献整合数据分别生成同类的折线图；若不是则得到子对比结果为所述目标作者与该待比较所述作者文献整合数据对应的作者不为同一人；

通过预设纵向判断法判断所述目标作者的作者文献整合数据对应的折线图与单个待比较所述作者文献整合数据对应的折线图中的折现行走趋势是否相同，若相同，则得到所述子对比结果为所述目标作者与该待比较所述作者文献整合数据对应的作者为同一人，否则得到所述子对比结果为所述目标作者与该待比较所述作者文献整合数据对应的作者不为同一人。

为了解决上述技术问题，本发明还提供了一种不同类文献相同作者自动辨识装置，包括：

作者文献整合数据集生成模块，用于对不少于一种类型的预设数据库进行作者同类文献整合处理，得到不同类型的作者文献整合数据集；

对比结果生成模块，用于从第一类作者文献整合数据集中确定目标作者，并将目标作者对应的目标作者文献整合数据与第二类作者文献整合数据集中的所有作者文献整合数据依次进行相似性对比，得到对比结果；

判断模块，用于根据所述对比结果判断所述第二类作者文献数据集中是否存在与所述目标作者为同一人的作者。

为了解决上述技术问题，本发明还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述不同类文献相同作者自动辨识方法。

为了解决上述技术问题，本发明还提供了一种终端，包括：处理器以及存储器，所述存储器与所述处理器之间通信连接；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述不同类文献相同作者自动辨识方法。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

应用本发明实施例提供的不同类文献相同作者自动辨识方法，通过对不同类型的文献数据库中作者文献信息和属性信息进行抓取，并对基于作者的文献信息和属性信息将不同类型的文献数据库对应整理成多个不同类型的作者文献整合数据集，以便于源于作者文献整合数据集中的目标作者可通过该作者文献整合数据集中该目标作者发表文献内容相似度及发表文献类型趋势，在不同类型作者文献整合数据集中查找是否存在与目标作者为同一人的作者；同时本发明方法还可在对比后准确的展示同一作者相关的所有文献信息，利用发表文献类型行走趋势进行判断也可充分考虑到跨行业或者跨专业的一些人士的影响因素，成功的找到相关作者的具体信息，为大量文献数据的数据融合和知识图谱的构建提供数据基础。

本发明的其它特征和优点将在随后的说明书中阐述，并且部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1示出了本发明实施例一不同类文献相同作者自动辨识方法的流程示意图；

图2示出了本发明实施例一中一种目标作者文献整合数据对应的折线图；

图3示出了本发明实施例一中一种待比较作者文献整合数据对应的折线图；

图4示出了本发明实施例二不同类文献相同作者自动辨识装置的结构示意图；

图5示出了本发明实施例四终端结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

在处理大量的论文和专利文件时，经常会出现在不同的论文和专利中发现了用同一个中文或英文表述的姓名无法判断是否为同一人的情况出现，以及同一人在不同类型的文献中用不同的姓名时，也无法判断两个姓名是否为同一人的情况出现。因此在进行大量文献处理过程中，首先要对某个作者进行识别处理，但现在技术中还未有对不同类型文献中的相同作者进行自动辨识的技术，而直接人工对比则需要花费大量的人力物力。

实施例一

为解决现有技术中存在的上述技术问题，本发明实施例提供了一种不同类文献相同作者自动辨识方法。

图1示出了本发明实施例一不同类文献相同作者自动辨识方法的流程示意图；参考图1所示，本发明实施例不同类文献相同作者自动辨识方法包括如下步骤。

步骤S1，对不少于一种类型的预设数据库进行作者同类文献整合处理，得到不同类型的作者文献整合数据集。

具体地，需在不同文献类型数据库中判定某两个作者是否为同一人，首先则需具备至少两个数据库。优选地，本实施例中不同类型的预设数据库包括专利数据库和论文数据库。进一步地优选地，为论文数据库为网络或商家获取的英文数据库，专利数据为从国家知识产权局数据库中获取的数据库。因此本步骤需对论文数据可和专利数据库分别进行作者同类文献整合处理，得到作者论文整合数据集和作者专利整合数据集。

对论文数据库进行作者同类文献整合处理具体过程包括如下步骤。

步骤S11，从预设数据库中抓取所有作者的文献信息和属性信息。

具体地，通过dom4j数据提取方法从论文数据库中提取所有作者的文献信息和属性信息。需要说明的是，作者的文献信息和属性信息提取方法是依据每篇论文进行的，即对每篇文章的作者的文献信息和属性信息分别进行提取，即使在两篇文章中提取出相同名字的作者此步骤也不会对其进行合并。优选地，作者的文献信息包括所属论文发表时间、所属论文题目、所属论文摘要、所属论文领域及作者居住地址；作者的属性信息包括作者名称和作者所属国家(即国籍)。

步骤S12，对所有作者的文献信息分别进行向量化处理，得到信息向量集。

具体地，对单一作者的文献信息进行向量化处理过程包括：对作者的文献信息进行切词，并将得到的切词进行词向量转化处理得到大量对应词向量，再对得到的众多词向量进行遍历，将相同词在文献信息中出现的次数作为对应词的权重，并剔除掉相同词的词向量。根据预设合并方法将所有词向量和词的权重进行合并形成信息向量。即一个作者的文献信息可形成一个信息向量。进一步地，假设众多词向量为vi，该词对应的权重则记为mi，其中i为整数，vi表示第i个词向量，mi表示第i个词向量的权重，则该作者的文献信息向量化处理得到的信息向量为：

其中Y表示信息向量。

以相同的上述向量化处理方式对获得的所有作者的文献信息进行处理，得到该类数据库的信息向量集。

S13，将信息向量集中作者属性信息相同的信息向量进行整合，得到作者论文整合数据集。

具体地，将信息向量集中作者属性相同的信息向量进行合并，得到多个向量集，即将信息向量集中作者姓名及国籍相同的信息向量合并在一起形成多个向量集；此时每个向量集中包括一个作者的多篇论文信息。

之后再分别对所有向量集内的信息向量依据发表时间进行排序整合，使得所有排序整合后的向量集构成作者文献整合数据集。更进一步地，对单个向量集内的信息向量依据发表时间进行排序整合，得到单个作者文献整合数据过程包括：对向量集内的所有信息向量依据发表时间进行排序，得到信息向量时间线；对信息向量时间线进行遍历，判断预设时间段内信息向量时间线上缺失的信息向量是否小于预设信息量阈值时，若是则对信息向量时间线上缺失的时间点通过上补齐或下补齐的方式进行填补得到作者文献整合数据；若不是则该信息向量时间线无效，舍弃到该向量集。例如假设预设时间段为10年，判断作者在该十年内的信息向量时间线上是否缺失有信息向量，假使信息向量时间线上缺失了2年数据，且假使预设信息量阈值为80％，则该条信息向量时间线上缺失的信息向量就为20％，因此可知在预设时间段内信息向量时间线上缺失的信息向量不小于预设信息量阈值；后将缺失的2年的信息向量直接延时间线向前一个信息向量或向后一个信息向量复制，填满该信息向量时间线。

同理以与上述相同的信息向量整合方式对其他向量集内的信息向量进行排序整合，得到作者论文整合数据集。

与对论文数据库进行作者同类文献整合处理，得到作者论文整合数据集的方法相同，再对专利数据库进行作者同类文献整合处理，得到作者专利整合数据集。

步骤S2，从第一类作者文献整合数据集中确定目标作者，并将目标作者对应的目标作者文献整合数据与第二类作者文献整合数据集中的所有作者文献整合数据依次进行相似性对比，得到对比结果，其中第一类作者文献整合数据集和第二类作者文献整合数据集分别属于不同类型的作者文献整合数据集中的一个，且第一类作者文献整合数据集和第二类作者文献整合数据集不为同一类作者文献整合数据集。

具体地，在判定两类文献中的两个作者是否为相同作者时，必然先存在一篇文献，再基于该篇文献的作者所在的数据库及所查询的数据库进行如步骤S1的数据处理，得到两种类型的作者文献整合数据集，再将该作者在另一类数据库中进行相似性查找。因此本实施例设定目标作者所处的作者文献整合数据集为第一类作者文献整合数据集，目标作者所要对比查找的作者文献整合数据集为第二类作者文献整合数据集。在此不对目标作者所在的作者文献整合数据集和第二类作者文献整合数据集进行具体限定，即当为目标作者所在的作者文献整合数据集为作者论文整合数据集时，第二类作者文献整合数据集自动为作者专利整合数据集，两者反过来也合理。

之后对两种类型的作者文献整合数据集分别进行聚类计算，将每个作者文献整合数据集中的作者文献整合数据分为多个相同类别的族；优选地，聚类计算方法为余弦计算方法。需要说明的是，族的个数可人为进行设定，也可直接设定为一个固定的值。即经过聚类计算，每个作者文献整合数据集的作者文献整合数据均分为多个族，且每个作者文献整合数据中族的类型都一样。之后再将目标作者对应的目标作者文献整合数据与第二类作者文献整合数据集中与目标作者相同类别的族内的作者文献整合数据依次进行相似性对比，得到的所有子对比结果构成对比结果。

其中将目标作者的作者文献整合数据与第二类作者文献整合数据集中与目标作者相同类别的族内内单个待比较的作者文献整合数据进行相似性对比，得到子对比结果具体包括：

在预设时间段内依次将相同时间点的目标作者的作者文献整合数据中的信息向量和单个待比较的作者文献整合数据中的信息向量利用预设相似度算法进行相似度计算，得到相似度计算结果集。判断相似度计算结果集中的所有相似度计算结果是否均大于预设相似度阈值，若是则将预设时间段内的目标作者的作者文献整合数据和单个待比较作者文献整合数据分别生成同类的折线图；若不是则得到子对比结果为目标作者与该待比较作者文献整合数据对应的作者不为同一人。优选地，预设相似度阈值为0.8。通过预设纵向判断法判断目标作者的作者文献整合数据对应的折线图与单个待比较作者文献整合数据对应的折线图中的折现行走趋势是否相同，若相同，则得到子对比结果为目标作者与该待比较作者文献整合数据对应的作者为同一人，否则得到子对比结果为目标作者与该待比较作者文献整合数据对应的作者不为同一人。优选地，预设纵向判断法为判断两条折现的逻辑距离是否相同，如果相同则表示两条折现趋势一样，否则则说明两个折现趋势不一样。同时通过对折现图比较观察也可了解到两个作者的研究领域的变化曲线。

为了更好的体现本实施例中形成的折线图样式，图2示出了本发明实施例一中一种目标作者文献整合数据对应的折线图；图3示出了本发明实施例一中一种待比较作者文献整合数据对应的折线图；可通过对比如图2和图3了解目标作者的作者文献整合数据对应的折线图与单个待比较作者文献整合数据对应的折线图中的折现行走趋势对比判断。

同理，基于上述相同的相似性对比方法完成目标作者的作者文献整合数据与第二类作者文献整合数据集中其他与目标作者相同类别的族内单个待比较的作者文献整合数据进行相似性对比。

步骤S3，根据对比结果判断第二类作者文献数据集中是否存在与目标作者为同一人的作者。

具体地，判断对比结果中所有子对比结果是否存在目标作者与该待比较作者文献整合数据对应的作者为同一人的结果，若存在，则表示第二类作者文献数据集中存在与目标作者为同一人的作者，否则在第二类作者文献数据集中不存在与目标作者为同一人的作者。

实施例二

为解决现有技术中存在的上述技术问题，本发明实施例提供了一种不同类文献相同作者自动辨识装置。

图4示出了本发明实施例二不同类文献相同作者自动辨识装置的结构示意图；参考图4所示，本发明实施例不同类文献相同作者自动辨识装置包括如下模块。

判断模块，用于根据对比结果判断第二类作者文献数据集中是否存在与目标作者为同一人的作者。

应用本发明实施例提供的不同类文献相同作者自动辨识装置，通过对不同类型的文献数据库中作者文献信息和属性信息进行抓取，并对基于作者的文献信息和属性信息将不同类型的文献数据库对应整理成多个不同类型的作者文献整合数据集，以便于源于作者文献整合数据集中的目标作者可通过该作者文献整合数据集中该目标作者发表文献内容相似度及发表文献类型趋势，在不同类型作者文献整合数据集中查找是否存在与目标作者为同一人的作者；同时本发明装置还可在对比后准确的展示同一作者相关的所有文献信息，利用发表文献类型行走趋势进行判断也可充分考虑到跨行业或者跨专业的一些人士的影响因素，成功的找到相关作者的具体信息，为大量文献数据的数据融合和知识图谱的构建提供数据基础。

实施例三

为解决现有技术中存在的上述技术问题，本发明实施例还提供了一种存储介质，其存储有计算机程序，该计算机程序被处理器执行时可实现实施例一中不同类文献相同作者自动辨识方法中的所有步骤。

不同类文献相同作者自动辨识方法的具体步骤以及应用本发明实施例提供的可读存储介质获取的有益效果均与实施例一相同，在此不在对其进行赘述。

需要说明的是：存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

实施例四

为解决现有技术中存在的上述技术问题，本发明实施例还提供了一种终端。

图5示出了本发明实施例四终端结构示意图，参照图5，本实施例终端包括相互连接的处理器及存储器；存储器用于存储计算机程序，处理器用于执行存储器存储的计算机程序，以使终端执行时可实现实施例一中不同类文献相同作者自动辨识方法中的所有步骤。

不同类文献相同作者自动辨识方法的具体步骤以及应用本发明实施例提供的终端获取的有益效果均与实施例一相同，在此不在对其进行赘述。

需要说明的是，存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。同理处理器也可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

虽然本发明所公开的实施方式如上，但的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种不同类文献相同作者自动辨识方法，包括：

从第一类作者文献整合数据集中确定目标作者，并将目标作者对应的目标作者文献整合数据与第二类作者文献整合数据集中的所有作者文献整合数据依次进行相似性对比，得到对比结果，其中所述第一类作者文献整合数据集和第二类作者文献整合数据集分别属于不同类型的作者文献整合数据集中的一个，且所述第一类作者文献整合数据集和第二类作者文献整合数据集不为同一类所述作者文献整合数据集；

2.根据权利要求1所述的方法，其特征在于，对单一所述预设数据库进行作者同类文献整合处理，得到单一作者文献整合数据集包括：

从预设数据库中抓取所有作者的文献信息和属性信息；

3.根据权利要求2所述的方法，其特征在于，对单一所述作者的文献信息进行向量化处理，得到单一信息向量包括：

4.根据权利要求2所述的方法，其特征在于，将所述信息向量集中所述作者属性信息相同的信息向量进行整合，得到作者文献整合数据集包括：

5.根据权利要求4所述的方法，其特征在于，对单个所述向量集内的信息向量依据发表时间进行排序整合，得到单个作者文献整合数据包括：

6.根据权利要求1所述的方法，其特征在于，将目标作者对应的目标作者文献整合数据与第二类作者文献整合数据集中的作者文献整合数据依次进行相似性对比，得到对比结果包括：

7.根据权利要求6所述的方法，其特征在于，将所述目标作者的作者文献整合数据与所述第二类作者文献整合数据集中与所述目标作者相同类别的族内内单个待比较的所述作者文献整合数据进行相似性对比，得到子对比结果包括：

8.一种不同类文献作者自动辨识装置，其特征在于，包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任一项所述不同类文献相同作者自动辨识方法。

10.一种终端，其特征在于，包括：处理器以及存储器，所述存储器与所述处理器之间通信连接；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至7中任一项所述不同类文献相同作者自动辨识方法。