CN112417082A

CN112417082A - 一种科研成果数据消歧归档存储方法

Info

Publication number: CN112417082A
Application number: CN202011093849.XA
Authority: CN
Inventors: 杨春明; 郭鑫; 张晖; 李波; 赵旭剑
Original assignee: Southwest University of Science and Technology
Current assignee: Sichuan Youkefu Technology Service Co.,Ltd.
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-02-26
Anticipated expiration: 2040-10-14
Also published as: CN112417082B

Abstract

本发明提供了一种科研成果数据消歧归档存储方法，包括：S1、对已建档和待归档科研成果数据进行处理及补全并保存至数据库；S2、计算合作者相似度，符合则归档，不符合则进入S3；S3、对已建档和待归档的数据进行聚类；S4、计算待归档数据每个簇中心点到每位同名科研人员每个簇的中心点距离，得到距离最近的簇所属的科研人员；S5、建立特征关系图；S6、计算待归档数据节点与已建档每个数据节点之间的相似概率，并计算平均和方差，与阈值进行比对完成归档。本发明提出的方案，不需要对数据进行标注训练，在大多数科研人员系统中比较有实用性，可以快速实现数据消歧的同时效提高消歧的准确率。

Description

一种科研成果数据消歧归档存储方法

技术领域

本发明涉及数据处理领域，特别涉及一种科研成果数据消歧归档存储方法。

背景技术

随着互联网的普及，目前不同的机构或部门拥有各自的在线科研人员系统或科研人员信息库，不定期的就会增加大量科研人员成果信息，要将这些数据准确的归档到系统中已有作者档案，同名科研人员问题是该类系统亟待解决的问题。

现有的同名消歧方法几乎都是将问题转化为机器学习的相关的聚类或分类问题。在数据增量消歧过程中，目前大多数学者采用的是有监督的同名消歧方法。有监督的消歧方法需要先标注好训练样例数据，样例集中包括正例和反例，之后在大量训练样例数据的基础上，创建学习模式，获得分类模型，之后利用该模型判断新出现的作者与样例中的作者是否属于同一作者。支持向量机(SVM)有监督消歧分类模型广泛用于同名消歧算法中。它的基本思想原理是通过一个非线性映射，将样本空间中原来不可线性划分的问题，转换成在多维特征空间里的线性可分问题。在实际应用中主要用来解决二分类问题。该方法有一个明显的缺点，二元分类方法没有考虑作者文献的全局分布特征，如果遇到科研人员的某项科研数据研究的方向和其他文献完全不同时，就会导致错分。

通常基于有监督学习的消歧方法效果会优于其它方法，但在实际应用中人工给大规模科研成果数据库数据加标注是不切合实际的且代价昂贵。目前大多数科研人员同名消歧，都是基于论文数据集做消歧，没有考虑其它科研成果数据特征，就会出现科研人员的某篇论文与其它文献完全不同，但可能与某项专利，或其它类别科研数据属于同期的科研成果。

发明内容

针对现有技术中存在的问题，提供了一种无监督的同名消歧方法，先利用各类科研成果数据强特征进行消歧，再基于各类科研成果数据属性特征，结合聚类和基于特征关系图的消歧方法，对科研成果增量数据精确归档存储。

本发明采用的技术方案如下：一种科研成果数据消歧归档存储方法，包括以下步骤：

S1、将已建档科研人员的科研成果数据、待归档的科研成果数据做结构化处理、数据补全，并存储至数据库；

S2、获取科研成果数据的合作者字段，计算合作者相似度，再进行相似度判断，若符合条件，直接进行归档，如不符合进入S3；

S3、对涉及的每位已建档科研人员的所有类别科研成果数据进行层次聚类方法进行聚类，并对待归档的数据采用k-means聚类方法聚类；

S4、计算待归档数据每个簇中心点到每位同名科研人员每个簇的中心点距离，得到距离最近的簇所属的科研人员；

S5、根据待归档簇的科研数据和距离最近的簇所属的科研人员的所有科研数据构建特征关系图；

S6、基于特征关系图，计算待归档数据节点与已建档每个数据节点之间的相似概率，计算得到的所有相似概率的平均和方差，通过平均值和方差与阈值进行比对，符合条件则将该待归档数据节点的科研成果数据归档到对应的科研人员，不符合则进行人工处理。

进一步的，所述数据补全的方法：对于缺失关键字的的科研成果数据，采用TF-IDF算法对摘要和题目提取TF-IDF值最高的三个词作为关键词。

进一步的，TF-IDF值计算过程：

第一步：计算词频，采用下述公式中任意一个：

第二步：计算逆文档率，具体方法如下：

其中，语料库为包括所有的论文、专利、软著、著作、项目文本数据的数据库；

第三步：计算TF-IDF值，具体方法如下：

TF-IDF＝词频(TF)×逆文档率(IDF)。

进一步的，计算合作者相似度的具体过程为：在计算之前，确认合作者字符串中没有包含消歧科研人员，,每个名字之间使用标点分隔符，采用IF-IDF计算合作者字符串相似度，用每位合作者名字的TF-IDF值组成的向量来表示该合作者字符串，即每个科研成果数据的合作者表示成向量D_i(w_i1,,,w_in),w代表每个科研人员的TF-IDF值。再根据余弦向量公式来计算合作者字符串之间的相关性sim(D_i,D_j)，具体如下：

进一步的，相似度判断的具体过程为：若只有一个科研人员的论文列表存在合作者相似度大于0.7，则直接归档；若每个同名科研人员的论文列表都不存在合作者相似度大于0.7的论文，则取科研人员其它任意两个成果列表，计算合作者相似度，满足仅有一个科研人员的其它两个成果列表都存在合作者相似度大于0.7才归档到该科研人员。

进一步的，层次聚类的具体过程为：

S2.1、每一条科研数据为一簇，计算任意两条科研成果数据的相似度，得到初始的N*N的数据间相似矩阵D；

S2.2、查找相似矩阵D中相似度最大的两条科研成果数据，合并为一个新簇；

S2.3、重新计算新簇与其他所有簇之间的相似度；

S2.4、重复S2.2、S2.3，直到最后数据集合合并为给定的簇数或不再变化为止。

进一步的，k-means聚类具体为：

S3.1、待归档科研数据涉及的同名科研人员数量设置为聚类个数k，选取文档集中距离最大的两点作为前两个聚点，设为x_i1，x_i2。

S3.2、其余聚点的选取采用递推公式表达，若已经选择了m个聚点(m<k)，则第m+1个

聚点选取的原则为：

S3.3、按照k个初始聚点对所有待归档科研数据分类，把每个数据点分到与其距离最近据点的类中，得到k个类，每个类的元素个数记为K_n

S3.4、若k个类中的某个类为n_k的簇类数据点数目K_n小于设置的阈值t，那么将n_k中的元素都加到噪集当中；其中，t＝N/(C*4){N是样本数目，C是分类数目}；S3.5、重复步骤S3.1-S3.4直到所有类的元素数目都大于等于t，得到k个初始点；

S3.6、计算除初始点外的所有点到k个初始点的距离，并将距离最小的点归到对应初始点所在类中。

进一步的，中心距离计算方法为：计算每个同名科研人员所有簇以及待归档数据所有簇的中心点，设某一簇中含有{X₁₁,X₁₂,…X_1m}个点，则中心点为：

再计算待归档每个簇中心点到各个同名科研人员所用簇中心点的距离，取距离最近的簇，待归档簇初步归档到最近的科研人员；

将待归档簇的数据、初步归档的科研人员所有的科研数据结合科研数据的属性特征，头奖特征关系图。

进一步的，所述特征图建立方法：一个科研成果数据的特征关系图表示为一个二元组G(V,E)，其中V为节点表示每条科研数据，E为边表示科研成果数据的关联关系，边的权重表示它们之间联系的紧密程度，对于属于V的科研数据v_i，用一个k维向量J＝{e₁,e₂,…e_k}，e₁,e₂,…e_k对应的是v_i的k个信息属性。采用矩形框表示v_i的一维信息属性特征e_j；如果节点v_i,v_j之间有至少一维特征e_k的相似度大于δ，δ为0-1之间的阈值，则两节点之间有边联系，w表示权重(数据间的特征相似度)；特征关系图中节点不同颜色分别代表某同名科研人员已建档科研数据、待归档的科研数据。

进一步的，步骤S6的详细过程为：在给定的特征关系图G(V,E)中,定义S(v_i)为与v_i相连接的节点集合，则得到从v_i到v_j的随机游走概率Pr_Score(v_i,v_j)计算如下：

每个待归档节点与各已建档节点间相似最终概率sim(v_i,v_j)取原文献间的相似度概率fsim(vi,vj)与附加概率pr_score(vi,vj)的几何平均：

其中，原文献相似度概率采用TF-IDF提取文献标题、合作者、摘要特征做相似度计算；

计算待归档节点与所有已建档节点间的sim(v_i,v_j)，再计算所有sim(v_i,v_j)的平均

方差δ，根据对比实验结果设置合理的阈值t₁，t₂，若

大于t₁,δ小于t₂则将该节点代表的科研成果数据归类到该对应的科研人员；如果仍有数据不能正确归档，则进行人工处理。

与现有技术相比，采用上述技术方案的有益效果为：

1、采用无监督的方法，不需要对数据进行标注训练，在大多数科研人员系统中比较有实用性。

2、采用强特征进行初步消歧，可以精确快速实现数据消歧。

3、结合使用聚类和基于特征关系图的方法，将不同类别的科研数据属性特征加入计算，可有效提高消歧的准确率。

附图说明

图1是本发明的归档存储流程图。

图2是本发明一实施例的关系特征示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

如图1，本发明提供了一种科研成果数据消歧归档存储方法，先利用各类科研成果数据强特征进行消歧，再基于各类科研成果数据属性特征，结合聚类和基于特征关系图的消歧方法，对科研成果增量数据精确归档，具体步骤如下：

具体的，对于步骤S1中的数据补全，主要是针对某些科研成果数据缺失关键字等重要属性数据，对于缺失关键字的数据，可以使用TF-IDF(term frequency–inversedocument frequency算法对摘要和题目提取TF-IDF值最高的三个词作为关键词。

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。关于TF-IDF值计算的具体步骤如下：

第一步：计算词频(TF)，词频是指某词在文章中的出现次数，考虑到文章有长短之分，为了便于不同文章的比较，进行“词频”标准化，如公式(1)或公式(2)或所示：

第二步：计算逆文档率，这时，需要一个语料库(corpus)，用来模拟语言的使用环境，语料库为包括所有的论文、专利、软著、著作、项目文本数据的数据库。如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数，如公式(3)所示：

第三步：计算TF-IDF如公式(4)所示，TF-IDF值与一个词在文档中的出现次数成正比，与该词在整个语言环境中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

TF-IDF＝词频(TF)×逆文档率(IDF) (4)

对于步骤S2中的计算合作者相似度，在进行计算之前，确认合作者字符串中没有包含待消歧科研人员的名字，合作者字符串中每个科研人员的姓名用中文分号隔开，使用TF-IDF模型计算合作者相似度。

IF-IDF模型计算文本相似度，用文本中每个词的TF-IDF值组成的向量来表示该文本，即每个科研成果数据的合作者表示成向量D_i(w_i1,,,w_in),w代表文本中某个词的TF-IDF值。再根据余弦向量公式来计算文本之间的相关性sim(D_i,D_j)，如公式(5)所示：

一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似，余弦值接近于0，夹角趋于90度，表明两个向量越不相似。如公式(5)中，sim(D_i,D_j)值越大，说明合作者相似度越高，反之相似度越小。

其中，相似度判断的具体过程为：若只有一个科研人员的论文列表存在合作者相似度大于0.7，则直接归档；若每个同名科研人员的论文列表都不存在合作者相似度大于0.7的论文，则取科研人员其它任意两个成果列表，计算合作者相似度，满足仅有一个科研人员的其它两个成果列表都存在合作者相似度大于0.7才归档到该科研人员。

对于步骤S3中，每个科研人员的研究成果可能存在多个方向，而待归档数据只可能与某一个方向的科研数据相关，所以为了减少其他科研方向对待归档数据初步判断的影响，先对每位同名科研人员的科研数据做一个层次聚类预处理，待消歧数据量较多的情况下做一个k-means聚类预处理。

层次聚类有自底向上的凝聚型(Agglomerative)和自顶向下的分裂(Divisive)型，本发明采用自底向上的凝聚型。自底向上的聚类策略，先将每个对象看作一个单独的原子簇，之后按照相似性度量，将相似度最大的合并在一起，直到聚类结果不再变化或者终止条件满足时聚类结束。本发明中，首先将每一条科研成果数据当作一个单独的聚类簇，在迭代过程中，计算每两个类簇的相似度，每次找到相似度最大数据簇进行合并。直到聚类结果不再变化或者满足终止条件为止。本发明中使用层次聚类过程的详细描述如下：

(1)将每一条科研数据当做一簇，计算任意两条科研成果数据的相似度，得到初始的N*N的数据间相似矩阵D，相似度计算方法同步骤S2一样，需融合各类科研数据合作者特征、标题、关键字、摘要等数据属性特征。

(2)查找相似矩阵D中相似度最大的两条科研成果数据，将它们合并到一个新簇中；

(3)重新计算新文献簇与其他所有文献簇之间的相似度；

(4)重复(2)和(3)，直到最后文献集合合并为给定的簇数或不再变化为止。

k-means聚类，它将一个给定的数据集划分为用户指定个数的簇类。标准的k-means算法对初始聚类中心敏感，不同的初始中心往往对应着不同的聚类结果，如果初始聚点选在局部收敛点，会出现聚类偏差。本发明采用改进的k-means聚类算法，并将待归档科研数据涉及的同名科研人员数量设置为聚类个数k。本发明中使用改进k-means聚类过程的详细描述如下：

(1)选取文档集中距离最大的两点作为前两个聚点，设为x_i1，x_i2。

(2)其余聚点的选取采用递推公式表达，若已经选择了m个聚点(m<k)，则第m+1个

聚点选取的原则如图公式(6)所示：

(3)按照这k个初始点对所有的待归档科研数据进行分类，即把每个数据点分到与其距离最近的类中，得到是k个类，每个类的元素个数记为K_n。

(4)假设这k个类中的某个类为n_k的簇类数据点数目K_n小于设置的阈值t，那么将n_k中的元素都加到噪集当中；t＝N/(C*4){N是样本数目，C是分类数目}。

(5)重复(1)～(4)直到所有类的元素数目K_n都大于或等于t，从而得到k个初始点。

(6)上述过程得到的k个初始点设为X_i1,X_i2,…X_ik，再次对所有元素分类，过程如下：依次遍历除初始点之外的所有点，分别计算其到k个初始点的距离并取最小值，将其标记至该初始点所在的类中。

对于步骤S4，计算每个同名科研人员所有簇以及待归档数据所有簇的中心点，计算方法是取簇中所有元素各自维度的算术平均数,设第一类中含有{X₁₁,X₁₂,…X_1m}个点，则其中心点如公式(7)所示：

再计算待归档每个簇中心点到各个同名科研人员所有簇中心点的距离，取距离最近的簇，初步确定这些待归档每个簇是属于哪位科研人员。将待归档簇的数据和初步科研人员所有的科研数据放在一起，充分利用各类科研数据的属性特征，构建特征关系图，如图2所示。

对于步骤S5，特征关系图构建原理如下：

一个科研成果数据的特征关系图可以表示为一个二元组G(V,E)，其中V为节点表示每条科研数据，E为边表示科研成果数据的关联关系，边的权重表示它们之间联系的紧密程度，对于属于V的科研数据v_i，用一个k维向量J＝{e₁,e₂,…e_k}，e₁,e₂,…e_k对应的是v_i的k个信息属性。在图1中，矩形框中的特征对应v_i的一维信息属性特征e_j。如果节点v_i,v_j之间有至少一维特征e_k的相似度大于δ，δ为0-1之间的阈值，则两节点之间有边联系，w表示权重(数据间的特征相似度)。关系图中节点不同颜色分别代表某同名科研人员已建档科研数据、待归档的科研数据。

对于步骤6，基于特征关系图的方法不仅可以充分利用文献实体属性特征，同时也可以利用图的连通特性，挖掘文献之间的潜在关联，比如图1中patent1节点和patent2节点，若直接计算两者相似性，由于两者无直接关联，所以相似度可能为0，但在图1中发现他们通过paper1有关联，可通过随机游走或最短路径策略算出patent1和patent2之间的潜在相似度，这在某种程度上可以提高算法的召回率。

在给定的特征关系图G(V,E)中,定义S(v_i)为与v_i相连接的节点集合，则得到从v_i到v_j的随机游走概率Pr_Score(v_i,v_j)计算如公式(8)所示：

每个待归档节点与各已建档节点间相似最终概率sim(v_i,v_j)取原文献间的相似度概率fsim(vi,vj)与附加概率pr_score(vi,vj)的几何平均，如公式(9)所示：

求待归档节点与所有已建档节点间的sim(v_i,v_j)，再计算所有sim(v_i,v_j)的平均

方差δ，设置合理的阈值t₁，t₂，若

大于t₁,δ小于t₂则将该节点代表的科研成果数据归类到该对应的科研人员。如果仍有数据不能正确归档，则进行人工处理。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员，在不脱离本发明的精神所做的非实质性改变或改进，都应该属于本发明权利要求保护的范围。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

Claims

1.一种科研成果数据消歧归档存储方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的科研成果数据消歧归档存储方法，其特征在于，所述数据补全的方法：对于缺失关键字的的科研成果数据，采用TF-IDF算法对摘要和题目提取TF-IDF值最高的三个词作为关键词。

3.根据权利要求1所述的科研成果数据消歧归档存储方法，其特征在于，所述TF-IDF值计算过程：

第一步：计算词频，采用下述公式中任意一个：

第二步：计算逆文档率，具体方法如下：

其中，语料库为包括所有的论文、专利、软著、著作、项目文本数据的数据库；第三步：计算TF-IDF值，具体方法如下：

TF-IDF＝词频(TF)×逆文档率(IDF)。

4.根据权利要求1所述的科研成果数据消歧归档存储方法，其特征在于，计算合作者相似度的具体过程为：在计算之前，确认合作者字符串中没有包含待消歧科研人员，每个名字之间使用标点分隔符，采用IF-IDF计算合作者字符串相似度，用每位合作者名字的TF-IDF值组成的向量来表示该合作者字符串，即每个科研成果数据的合作者表示成向量D_i(w_i1，，，w_in)，w代表某个科研人员的TF-IDF值，再根据余弦向量公式来计算合作者字符串之间的相关性sim(D_i，D_j)，具体如下：

5.根据权利要求1所述的科研成果数据消歧归档存储方法，其特征在于，相似度判断的具体过程为：若只有一个科研人员的论文列表存在合作者相似度大于0.7，则直接归档；若每个同名科研人员的论文列表都不存在合作者相似度大于0.7的论文，则取科研人员其它任意两个成果列表，计算合作者相似度，满足仅有一个科研人员的其它两个成果列表都存在合作者相似度大于0.7才归档到该科研人员。

6.根据权利要求1所述的科研成果数据消歧归档存储方法，其特征在于，所述层次聚类的具体过程为：

S2.3、重新计算新簇与其他所有簇之间的相似度；

7.根据权利要求1所述的科研成果数据消歧归档存储方法，其特征在于，所述k-means聚类具体为：

S3.2、其余聚点的选取采用递推公式表达，若已经选择了m个聚点(m＜k)，则第m+1个聚点选取的原则为：

S3.3、按照k个初始聚点对所有待归档科研数据分类，把每个数据点分到与其距离最近聚点的类中，得到k个类，每个类的元素个数记为K_n

S3.4、若k个类中的某个类为n_k的簇类数据点数目K_n小于设置的阈值t，那么将n_k中的元素都加到噪集当中；其中，t＝N/(C*4){N是样本数目，C是分类数目}；

S3.5、重复步骤S3.1-S3.4直到所有类的元素数目都大于等于t，得到k个初始点；

8.根据权利要求1所述的科研成果数据消歧归档存储方法，其特征在于，所述中心距离计算方法为：计算每个同名科研人员所有簇以及待归档数据所有簇的中心点，设某一簇中含有{X₁₁，X₁₂，…X_1m}个点，则中心点为：

9.根据权利要求1所述的科研成果数据消歧归档存储方法，其特征在于，所述特征图建立方法：一个科研成果数据的特征关系图表示为一个二元组G(V，E)，其中V为节点表示每条科研数据，E为边表示科研成果数据的关联关系，边的权重表示它们之间联系的紧密程度，对于属于V的科研数据v_i，用一个k维向量J＝{e₁，e₂，…e_k}，e₁，e₂，…e_k对应的是v_i的k个信息属性。采用矩形框表示v_i的一维信息属性特征e_j；如果节点v_i，v_j之间有至少一维特征e_k的相似度大于δ，δ为0-1之间的阈值，则两节点之间有边联系，w表示权重(数据间的特征相似度)；特征关系图中节点不同颜色分别代表某同名科研人员已建档科研数据、待归档的科研数据。

10.根据权利要求1所述的科研成果数据消歧归档存储方法，其特征在于，所述步骤S6的详细过程为：在给定的特征关系图G(V，E)中，定义5(v_i)为与v_i相连接的节点集合，则得到从v_i到v_j的随机游走概率Pr_Score(v_i，v_j)计算如下：

每个待归档节点与各已建档节点间相似最终概率sim(v_i，v_j)取原文献间的相似度概率fsim(vi，vj)与附加概率pr_score(vi，vj)的几何平均：

计算待归档节点与所有已建档节点间的sim(v_i，v_j)，再计算所有sim(v_i，v_j)的平均

方差δ，根据对比实验结果调整设置合理的阈值t₁，t₂，若

大于t₁，δ小于t₂则将该节点代表的科研成果数据归类到该对应的科研人员；如果仍有数据不能正确归档，则进行人工处理。