CN112417082A - 一种科研成果数据消歧归档存储方法 - Google Patents

一种科研成果数据消歧归档存储方法 Download PDF

Info

Publication number
CN112417082A
CN112417082A CN202011093849.XA CN202011093849A CN112417082A CN 112417082 A CN112417082 A CN 112417082A CN 202011093849 A CN202011093849 A CN 202011093849A CN 112417082 A CN112417082 A CN 112417082A
Authority
CN
China
Prior art keywords
scientific research
data
similarity
cluster
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011093849.XA
Other languages
English (en)
Other versions
CN112417082B (zh
Inventor
杨春明
郭鑫
张晖
李波
赵旭剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Youkefu Technology Service Co.,Ltd.
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202011093849.XA priority Critical patent/CN112417082B/zh
Publication of CN112417082A publication Critical patent/CN112417082A/zh
Application granted granted Critical
Publication of CN112417082B publication Critical patent/CN112417082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明提供了一种科研成果数据消歧归档存储方法,包括:S1、对已建档和待归档科研成果数据进行处理及补全并保存至数据库;S2、计算合作者相似度,符合则归档,不符合则进入S3;S3、对已建档和待归档的数据进行聚类;S4、计算待归档数据每个簇中心点到每位同名科研人员每个簇的中心点距离,得到距离最近的簇所属的科研人员;S5、建立特征关系图;S6、计算待归档数据节点与已建档每个数据节点之间的相似概率,并计算平均和方差,与阈值进行比对完成归档。本发明提出的方案,不需要对数据进行标注训练,在大多数科研人员系统中比较有实用性,可以快速实现数据消歧的同时效提高消歧的准确率。

Description

一种科研成果数据消歧归档存储方法
技术领域
本发明涉及数据处理领域,特别涉及一种科研成果数据消歧归档存储方法。
背景技术
随着互联网的普及,目前不同的机构或部门拥有各自的在线科研人员系统或科研人员信息库,不定期的就会增加大量科研人员成果信息,要将这些数据准确的归档到系统中已有作者档案,同名科研人员问题是该类系统亟待解决的问题。
现有的同名消歧方法几乎都是将问题转化为机器学习的相关的聚类或分类问题。在数据增量消歧过程中,目前大多数学者采用的是有监督的同名消歧方法。有监督的消歧方法需要先标注好训练样例数据,样例集中包括正例和反例,之后在大量训练样例数据的基础上,创建学习模式,获得分类模型,之后利用该模型判断新出现的作者与样例中的作者是否属于同一作者。支持向量机(SVM)有监督消歧分类模型广泛用于同名消歧算法中。它的基本思想原理是通过一个非线性映射,将样本空间中原来不可线性划分的问题,转换成在多维特征空间里的线性可分问题。在实际应用中主要用来解决二分类问题。该方法有一个明显的缺点,二元分类方法没有考虑作者文献的全局分布特征,如果遇到科研人员的某项科研数据研究的方向和其他文献完全不同时,就会导致错分。
通常基于有监督学习的消歧方法效果会优于其它方法,但在实际应用中人工给大规模科研成果数据库数据加标注是不切合实际的且代价昂贵。目前大多数科研人员同名消歧,都是基于论文数据集做消歧,没有考虑其它科研成果数据特征,就会出现科研人员的某篇论文与其它文献完全不同,但可能与某项专利,或其它类别科研数据属于同期的科研成果。
发明内容
针对现有技术中存在的问题,提供了一种无监督的同名消歧方法,先利用各类科研成果数据强特征进行消歧,再基于各类科研成果数据属性特征,结合聚类和基于特征关系图的消歧方法,对科研成果增量数据精确归档存储。
本发明采用的技术方案如下:一种科研成果数据消歧归档存储方法,包括以下步骤:
S1、将已建档科研人员的科研成果数据、待归档的科研成果数据做结构化处理、数据补全,并存储至数据库;
S2、获取科研成果数据的合作者字段,计算合作者相似度,再进行相似度判断,若符合条件,直接进行归档,如不符合进入S3;
S3、对涉及的每位已建档科研人员的所有类别科研成果数据进行层次聚类方法进行聚类,并对待归档的数据采用k-means聚类方法聚类;
S4、计算待归档数据每个簇中心点到每位同名科研人员每个簇的中心点距离,得到距离最近的簇所属的科研人员;
S5、根据待归档簇的科研数据和距离最近的簇所属的科研人员的所有科研数据构建特征关系图;
S6、基于特征关系图,计算待归档数据节点与已建档每个数据节点之间的相似概率,计算得到的所有相似概率的平均和方差,通过平均值和方差与阈值进行比对,符合条件则将该待归档数据节点的科研成果数据归档到对应的科研人员,不符合则进行人工处理。
进一步的,所述数据补全的方法:对于缺失关键字的的科研成果数据,采用TF-IDF算法对摘要和题目提取TF-IDF值最高的三个词作为关键词。
进一步的,TF-IDF值计算过程:
第一步:计算词频,采用下述公式中任意一个:
Figure BDA0002723006770000021
Figure BDA0002723006770000022
第二步:计算逆文档率,具体方法如下:
Figure BDA0002723006770000023
其中,语料库为包括所有的论文、专利、软著、著作、项目文本数据的数据库;
第三步:计算TF-IDF值,具体方法如下:
TF-IDF=词频(TF)×逆文档率(IDF)。
进一步的,计算合作者相似度的具体过程为:在计算之前,确认合作者字符串中没有包含消歧科研人员,,每个名字之间使用标点分隔符,采用IF-IDF计算合作者字符串相似度,用每位合作者名字的TF-IDF值组成的向量来表示该合作者字符串,即每个科研成果数据的合作者表示成向量Di(wi1,,,win),w代表每个科研人员的TF-IDF值。再根据余弦向量公式来计算合作者字符串之间的相关性sim(Di,Dj),具体如下:
Figure BDA0002723006770000031
进一步的,相似度判断的具体过程为:若只有一个科研人员的论文列表存在合作者相似度大于0.7,则直接归档;若每个同名科研人员的论文列表都不存在合作者相似度大于0.7的论文,则取科研人员其它任意两个成果列表,计算合作者相似度,满足仅有一个科研人员的其它两个成果列表都存在合作者相似度大于0.7才归档到该科研人员。
进一步的,层次聚类的具体过程为:
S2.1、每一条科研数据为一簇,计算任意两条科研成果数据的相似度,得到初始的N*N的数据间相似矩阵D;
S2.2、查找相似矩阵D中相似度最大的两条科研成果数据,合并为一个新簇;
S2.3、重新计算新簇与其他所有簇之间的相似度;
S2.4、重复S2.2、S2.3,直到最后数据集合合并为给定的簇数或不再变化为止。
进一步的,k-means聚类具体为:
S3.1、待归档科研数据涉及的同名科研人员数量设置为聚类个数k,选取文档集中距离最大的两点作为前两个聚点,设为xi1,xi2
S3.2、其余聚点的选取采用递推公式表达,若已经选择了m个聚点(m<k),则第m+1个
聚点选取的原则为:
Figure BDA0002723006770000032
S3.3、按照k个初始聚点对所有待归档科研数据分类,把每个数据点分到与其距离最近据点的类中,得到k个类,每个类的元素个数记为Kn
S3.4、若k个类中的某个类为nk的簇类数据点数目Kn小于设置的阈值t,那么将nk中的元素都加到噪集当中;其中,t=N/(C*4){N是样本数目,C是分类数目};S3.5、重复步骤S3.1-S3.4直到所有类的元素数目都大于等于t,得到k个初始点;
S3.6、计算除初始点外的所有点到k个初始点的距离,并将距离最小的点归到对应初始点所在类中。
进一步的,中心距离计算方法为:计算每个同名科研人员所有簇以及待归档数据所有簇的中心点,设某一簇中含有{X11,X12,…X1m}个点,则中心点为:
Figure BDA0002723006770000033
再计算待归档每个簇中心点到各个同名科研人员所用簇中心点的距离,取距离最近的簇,待归档簇初步归档到最近的科研人员;
将待归档簇的数据、初步归档的科研人员所有的科研数据结合科研数据的属性特征,头奖特征关系图。
进一步的,所述特征图建立方法:一个科研成果数据的特征关系图表示为一个二元组G(V,E),其中V为节点表示每条科研数据,E为边表示科研成果数据的关联关系,边的权重表示它们之间联系的紧密程度,对于属于V的科研数据vi,用一个k维向量J={e1,e2,…ek},e1,e2,…ek对应的是vi的k个信息属性。采用矩形框表示vi的一维信息属性特征ej;如果节点vi,vj之间有至少一维特征ek的相似度大于δ,δ为0-1之间的阈值,则两节点之间有边联系,w表示权重(数据间的特征相似度);特征关系图中节点不同颜色分别代表某同名科研人员已建档科研数据、待归档的科研数据。
进一步的,步骤S6的详细过程为:在给定的特征关系图G(V,E)中,定义S(vi)为与vi相连接的节点集合,则得到从vi到vj的随机游走概率Pr_Score(vi,vj)计算如下:
Figure BDA0002723006770000041
每个待归档节点与各已建档节点间相似最终概率sim(vi,vj)取原文献间的相似度概率fsim(vi,vj)与附加概率pr_score(vi,vj)的几何平均:
Figure BDA0002723006770000042
其中,原文献相似度概率采用TF-IDF提取文献标题、合作者、摘要特征做相似度计算;
计算待归档节点与所有已建档节点间的sim(vi,vj),再计算所有sim(vi,vj)的平均
Figure BDA0002723006770000043
方差δ,根据对比实验结果设置合理的阈值t1,t2,若
Figure BDA0002723006770000044
大于t1,δ小于t2则将该节点代表的科研成果数据归类到该对应的科研人员;如果仍有数据不能正确归档,则进行人工处理。
与现有技术相比,采用上述技术方案的有益效果为:
1、采用无监督的方法,不需要对数据进行标注训练,在大多数科研人员系统中比较有实用性。
2、采用强特征进行初步消歧,可以精确快速实现数据消歧。
3、结合使用聚类和基于特征关系图的方法,将不同类别的科研数据属性特征加入计算,可有效提高消歧的准确率。
附图说明
图1是本发明的归档存储流程图。
图2是本发明一实施例的关系特征示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
如图1,本发明提供了一种科研成果数据消歧归档存储方法,先利用各类科研成果数据强特征进行消歧,再基于各类科研成果数据属性特征,结合聚类和基于特征关系图的消歧方法,对科研成果增量数据精确归档,具体步骤如下:
S1、将已建档科研人员的科研成果数据、待归档的科研成果数据做结构化处理、数据补全,并存储至数据库;
S2、获取科研成果数据的合作者字段,计算合作者相似度,再进行相似度判断,若符合条件,直接进行归档,如不符合进入S3;
S3、对涉及的每位已建档科研人员的所有类别科研成果数据进行层次聚类方法进行聚类,并对待归档的数据采用k-means聚类方法聚类;
S4、计算待归档数据每个簇中心点到每位同名科研人员每个簇的中心点距离,得到距离最近的簇所属的科研人员;
S5、根据待归档簇的科研数据和距离最近的簇所属的科研人员的所有科研数据构建特征关系图;
S6、基于特征关系图,计算待归档数据节点与已建档每个数据节点之间的相似概率,计算得到的所有相似概率的平均和方差,通过平均值和方差与阈值进行比对,符合条件则将该待归档数据节点的科研成果数据归档到对应的科研人员,不符合则进行人工处理。
具体的,对于步骤S1中的数据补全,主要是针对某些科研成果数据缺失关键字等重要属性数据,对于缺失关键字的数据,可以使用TF-IDF(term frequency–inversedocument frequency算法对摘要和题目提取TF-IDF值最高的三个词作为关键词。
TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。关于TF-IDF值计算的具体步骤如下:
第一步:计算词频(TF),词频是指某词在文章中的出现次数,考虑到文章有长短之分,为了便于不同文章的比较,进行“词频”标准化,如公式(1)或公式(2)或所示:
Figure BDA0002723006770000061
Figure BDA0002723006770000062
第二步:计算逆文档率,这时,需要一个语料库(corpus),用来模拟语言的使用环境,语料库为包括所有的论文、专利、软著、著作、项目文本数据的数据库。如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数,如公式(3)所示:
Figure BDA0002723006770000063
第三步:计算TF-IDF如公式(4)所示,TF-IDF值与一个词在文档中的出现次数成正比,与该词在整个语言环境中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。
TF-IDF=词频(TF)×逆文档率(IDF) (4)
对于步骤S2中的计算合作者相似度,在进行计算之前,确认合作者字符串中没有包含待消歧科研人员的名字,合作者字符串中每个科研人员的姓名用中文分号隔开,使用TF-IDF模型计算合作者相似度。
IF-IDF模型计算文本相似度,用文本中每个词的TF-IDF值组成的向量来表示该文本,即每个科研成果数据的合作者表示成向量Di(wi1,,,win),w代表文本中某个词的TF-IDF值。再根据余弦向量公式来计算文本之间的相关性sim(Di,Dj),如公式(5)所示:
Figure BDA0002723006770000064
一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越不相似。如公式(5)中,sim(Di,Dj)值越大,说明合作者相似度越高,反之相似度越小。
其中,相似度判断的具体过程为:若只有一个科研人员的论文列表存在合作者相似度大于0.7,则直接归档;若每个同名科研人员的论文列表都不存在合作者相似度大于0.7的论文,则取科研人员其它任意两个成果列表,计算合作者相似度,满足仅有一个科研人员的其它两个成果列表都存在合作者相似度大于0.7才归档到该科研人员。
对于步骤S3中,每个科研人员的研究成果可能存在多个方向,而待归档数据只可能与某一个方向的科研数据相关,所以为了减少其他科研方向对待归档数据初步判断的影响,先对每位同名科研人员的科研数据做一个层次聚类预处理,待消歧数据量较多的情况下做一个k-means聚类预处理。
层次聚类有自底向上的凝聚型(Agglomerative)和自顶向下的分裂(Divisive)型,本发明采用自底向上的凝聚型。自底向上的聚类策略,先将每个对象看作一个单独的原子簇,之后按照相似性度量,将相似度最大的合并在一起,直到聚类结果不再变化或者终止条件满足时聚类结束。本发明中,首先将每一条科研成果数据当作一个单独的聚类簇,在迭代过程中,计算每两个类簇的相似度,每次找到相似度最大数据簇进行合并。直到聚类结果不再变化或者满足终止条件为止。本发明中使用层次聚类过程的详细描述如下:
(1)将每一条科研数据当做一簇,计算任意两条科研成果数据的相似度,得到初始的N*N的数据间相似矩阵D,相似度计算方法同步骤S2一样,需融合各类科研数据合作者特征、标题、关键字、摘要等数据属性特征。
(2)查找相似矩阵D中相似度最大的两条科研成果数据,将它们合并到一个新簇中;
(3)重新计算新文献簇与其他所有文献簇之间的相似度;
(4)重复(2)和(3),直到最后文献集合合并为给定的簇数或不再变化为止。
k-means聚类,它将一个给定的数据集划分为用户指定个数的簇类。标准的k-means算法对初始聚类中心敏感,不同的初始中心往往对应着不同的聚类结果,如果初始聚点选在局部收敛点,会出现聚类偏差。本发明采用改进的k-means聚类算法,并将待归档科研数据涉及的同名科研人员数量设置为聚类个数k。本发明中使用改进k-means聚类过程的详细描述如下:
(1)选取文档集中距离最大的两点作为前两个聚点,设为xi1,xi2
(2)其余聚点的选取采用递推公式表达,若已经选择了m个聚点(m<k),则第m+1个
聚点选取的原则如图公式(6)所示:
Figure BDA0002723006770000071
(3)按照这k个初始点对所有的待归档科研数据进行分类,即把每个数据点分到与其距离最近的类中,得到是k个类,每个类的元素个数记为Kn
(4)假设这k个类中的某个类为nk的簇类数据点数目Kn小于设置的阈值t,那么将nk中的元素都加到噪集当中;t=N/(C*4){N是样本数目,C是分类数目}。
(5)重复(1)~(4)直到所有类的元素数目Kn都大于或等于t,从而得到k个初始点。
(6)上述过程得到的k个初始点设为Xi1,Xi2,…Xik,再次对所有元素分类,过程如下:依次遍历除初始点之外的所有点,分别计算其到k个初始点的距离并取最小值,将其标记至该初始点所在的类中。
对于步骤S4,计算每个同名科研人员所有簇以及待归档数据所有簇的中心点,计算方法是取簇中所有元素各自维度的算术平均数,设第一类中含有{X11,X12,…X1m}个点,则其中心点如公式(7)所示:
Figure BDA0002723006770000081
再计算待归档每个簇中心点到各个同名科研人员所有簇中心点的距离,取距离最近的簇,初步确定这些待归档每个簇是属于哪位科研人员。将待归档簇的数据和初步科研人员所有的科研数据放在一起,充分利用各类科研数据的属性特征,构建特征关系图,如图2所示。
对于步骤S5,特征关系图构建原理如下:
一个科研成果数据的特征关系图可以表示为一个二元组G(V,E),其中V为节点表示每条科研数据,E为边表示科研成果数据的关联关系,边的权重表示它们之间联系的紧密程度,对于属于V的科研数据vi,用一个k维向量J={e1,e2,…ek},e1,e2,…ek对应的是vi的k个信息属性。在图1中,矩形框中的特征对应vi的一维信息属性特征ej。如果节点vi,vj之间有至少一维特征ek的相似度大于δ,δ为0-1之间的阈值,则两节点之间有边联系,w表示权重(数据间的特征相似度)。关系图中节点不同颜色分别代表某同名科研人员已建档科研数据、待归档的科研数据。
对于步骤6,基于特征关系图的方法不仅可以充分利用文献实体属性特征,同时也可以利用图的连通特性,挖掘文献之间的潜在关联,比如图1中patent1节点和patent2节点,若直接计算两者相似性,由于两者无直接关联,所以相似度可能为0,但在图1中发现他们通过paper1有关联,可通过随机游走或最短路径策略算出patent1和patent2之间的潜在相似度,这在某种程度上可以提高算法的召回率。
在给定的特征关系图G(V,E)中,定义S(vi)为与vi相连接的节点集合,则得到从vi到vj的随机游走概率Pr_Score(vi,vj)计算如公式(8)所示:
Figure BDA0002723006770000091
每个待归档节点与各已建档节点间相似最终概率sim(vi,vj)取原文献间的相似度概率fsim(vi,vj)与附加概率pr_score(vi,vj)的几何平均,如公式(9)所示:
Figure BDA0002723006770000092
其中,原文献相似度概率采用TF-IDF提取文献标题、合作者、摘要特征做相似度计算;
求待归档节点与所有已建档节点间的sim(vi,vj),再计算所有sim(vi,vj)的平均
Figure BDA0002723006770000094
方差δ,设置合理的阈值t1,t2,若
Figure BDA0002723006770000093
大于t1,δ小于t2则将该节点代表的科研成果数据归类到该对应的科研人员。如果仍有数据不能正确归档,则进行人工处理。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

Claims (10)

1.一种科研成果数据消歧归档存储方法,其特征在于,包括以下步骤:
S1、将已建档科研人员的科研成果数据、待归档的科研成果数据做结构化处理、数据补全,并存储至数据库;
S2、获取科研成果数据的合作者字段,计算合作者相似度,再进行相似度判断,若符合条件,直接进行归档,如不符合进入S3;
S3、对涉及的每位已建档科研人员的所有类别科研成果数据进行层次聚类方法进行聚类,并对待归档的数据采用k-means聚类方法聚类;
S4、计算待归档数据每个簇中心点到每位同名科研人员每个簇的中心点距离,得到距离最近的簇所属的科研人员;
S5、根据待归档簇的科研数据和距离最近的簇所属的科研人员的所有科研数据构建特征关系图;
S6、基于特征关系图,计算待归档数据节点与已建档每个数据节点之间的相似概率,计算得到的所有相似概率的平均和方差,通过平均值和方差与阈值进行比对,符合条件则将该待归档数据节点的科研成果数据归档到对应的科研人员,不符合则进行人工处理。
2.根据权利要求1所述的科研成果数据消歧归档存储方法,其特征在于,所述数据补全的方法:对于缺失关键字的的科研成果数据,采用TF-IDF算法对摘要和题目提取TF-IDF值最高的三个词作为关键词。
3.根据权利要求1所述的科研成果数据消歧归档存储方法,其特征在于,所述TF-IDF值计算过程:
第一步:计算词频,采用下述公式中任意一个:
Figure FDA0002723006760000011
Figure FDA0002723006760000012
第二步:计算逆文档率,具体方法如下:
Figure FDA0002723006760000013
其中,语料库为包括所有的论文、专利、软著、著作、项目文本数据的数据库;第三步:计算TF-IDF值,具体方法如下:
TF-IDF=词频(TF)×逆文档率(IDF)。
4.根据权利要求1所述的科研成果数据消歧归档存储方法,其特征在于,计算合作者相似度的具体过程为:在计算之前,确认合作者字符串中没有包含待消歧科研人员,每个名字之间使用标点分隔符,采用IF-IDF计算合作者字符串相似度,用每位合作者名字的TF-IDF值组成的向量来表示该合作者字符串,即每个科研成果数据的合作者表示成向量Di(wi1,,,win),w代表某个科研人员的TF-IDF值,再根据余弦向量公式来计算合作者字符串之间的相关性sim(Di,Dj),具体如下:
Figure FDA0002723006760000021
5.根据权利要求1所述的科研成果数据消歧归档存储方法,其特征在于,相似度判断的具体过程为:若只有一个科研人员的论文列表存在合作者相似度大于0.7,则直接归档;若每个同名科研人员的论文列表都不存在合作者相似度大于0.7的论文,则取科研人员其它任意两个成果列表,计算合作者相似度,满足仅有一个科研人员的其它两个成果列表都存在合作者相似度大于0.7才归档到该科研人员。
6.根据权利要求1所述的科研成果数据消歧归档存储方法,其特征在于,所述层次聚类的具体过程为:
S2.1、每一条科研数据为一簇,计算任意两条科研成果数据的相似度,得到初始的N*N的数据间相似矩阵D;
S2.2、查找相似矩阵D中相似度最大的两条科研成果数据,合并为一个新簇;
S2.3、重新计算新簇与其他所有簇之间的相似度;
S2.4、重复S2.2、S2.3,直到最后数据集合合并为给定的簇数或不再变化为止。
7.根据权利要求1所述的科研成果数据消歧归档存储方法,其特征在于,所述k-means聚类具体为:
S3.1、待归档科研数据涉及的同名科研人员数量设置为聚类个数k,选取文档集中距离最大的两点作为前两个聚点,设为xi1,xi2
S3.2、其余聚点的选取采用递推公式表达,若已经选择了m个聚点(m<k),则第m+1个聚点选取的原则为:
Figure FDA0002723006760000031
S3.3、按照k个初始聚点对所有待归档科研数据分类,把每个数据点分到与其距离最近聚点的类中,得到k个类,每个类的元素个数记为Kn
S3.4、若k个类中的某个类为nk的簇类数据点数目Kn小于设置的阈值t,那么将nk中的元素都加到噪集当中;其中,t=N/(C*4){N是样本数目,C是分类数目};
S3.5、重复步骤S3.1-S3.4直到所有类的元素数目都大于等于t,得到k个初始点;
S3.6、计算除初始点外的所有点到k个初始点的距离,并将距离最小的点归到对应初始点所在类中。
8.根据权利要求1所述的科研成果数据消歧归档存储方法,其特征在于,所述中心距离计算方法为:计算每个同名科研人员所有簇以及待归档数据所有簇的中心点,设某一簇中含有{X11,X12,…X1m}个点,则中心点为:
Figure FDA0002723006760000032
再计算待归档每个簇中心点到各个同名科研人员所用簇中心点的距离,取距离最近的簇,待归档簇初步归档到最近的科研人员;
将待归档簇的数据、初步归档的科研人员所有的科研数据结合科研数据的属性特征,头奖特征关系图。
9.根据权利要求1所述的科研成果数据消歧归档存储方法,其特征在于,所述特征图建立方法:一个科研成果数据的特征关系图表示为一个二元组G(V,E),其中V为节点表示每条科研数据,E为边表示科研成果数据的关联关系,边的权重表示它们之间联系的紧密程度,对于属于V的科研数据vi,用一个k维向量J={e1,e2,…ek},e1,e2,…ek对应的是vi的k个信息属性。采用矩形框表示vi的一维信息属性特征ej;如果节点vi,vj之间有至少一维特征ek的相似度大于δ,δ为0-1之间的阈值,则两节点之间有边联系,w表示权重(数据间的特征相似度);特征关系图中节点不同颜色分别代表某同名科研人员已建档科研数据、待归档的科研数据。
10.根据权利要求1所述的科研成果数据消歧归档存储方法,其特征在于,所述步骤S6的详细过程为:在给定的特征关系图G(V,E)中,定义5(vi)为与vi相连接的节点集合,则得到从vi到vj的随机游走概率Pr_Score(vi,vj)计算如下:
Figure FDA0002723006760000041
每个待归档节点与各已建档节点间相似最终概率sim(vi,vj)取原文献间的相似度概率fsim(vi,vj)与附加概率pr_score(vi,vj)的几何平均:
Figure FDA0002723006760000042
其中,原文献相似度概率采用TF-IDF提取文献标题、合作者、摘要特征做相似度计算;
计算待归档节点与所有已建档节点间的sim(vi,vj),再计算所有sim(vi,vj)的平均
Figure FDA0002723006760000043
方差δ,根据对比实验结果调整设置合理的阈值t1,t2,若
Figure FDA0002723006760000044
大于t1,δ小于t2则将该节点代表的科研成果数据归类到该对应的科研人员;如果仍有数据不能正确归档,则进行人工处理。
CN202011093849.XA 2020-10-14 2020-10-14 一种科研成果数据消歧归档存储方法 Active CN112417082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011093849.XA CN112417082B (zh) 2020-10-14 2020-10-14 一种科研成果数据消歧归档存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011093849.XA CN112417082B (zh) 2020-10-14 2020-10-14 一种科研成果数据消歧归档存储方法

Publications (2)

Publication Number Publication Date
CN112417082A true CN112417082A (zh) 2021-02-26
CN112417082B CN112417082B (zh) 2022-06-07

Family

ID=74854478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011093849.XA Active CN112417082B (zh) 2020-10-14 2020-10-14 一种科研成果数据消歧归档存储方法

Country Status (1)

Country Link
CN (1) CN112417082B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269477A (zh) * 2021-07-14 2021-08-17 北京邮电大学 一种科研项目查询评分模型训练方法、查询方法及装置
CN116821777A (zh) * 2023-02-28 2023-09-29 广东新禾道信息科技有限公司 一种新型基础测绘数据整合方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111973A (zh) * 2014-06-17 2014-10-22 中国科学院计算技术研究所 一种学者重名的消歧方法及其系统
CN105653590A (zh) * 2015-12-21 2016-06-08 青岛智能产业技术研究院 一种中文文献作者重名消歧的方法
US20160196332A1 (en) * 2007-05-02 2016-07-07 Thomson Reuters Global Resources Method and system for disambiguating informational objects
CN105868347A (zh) * 2016-03-28 2016-08-17 南京邮电大学 一种基于多步聚类的重名消歧方法
CN107316062A (zh) * 2017-06-26 2017-11-03 中国人民解放军国防科学技术大学 一种改进的面向领域的命名实体消歧方法
CN108959461A (zh) * 2018-06-15 2018-12-07 东南大学 一种基于图模型的实体链接方法
CN109543034A (zh) * 2018-11-07 2019-03-29 中山大学 基于知识图谱的文本聚类方法、装置及可读存储介质
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN110362692A (zh) * 2019-07-23 2019-10-22 中南大学 一种基于知识图谱的学术圈构建方法
CN110399493A (zh) * 2019-07-29 2019-11-01 中南大学 一种基于增量学习的作者消歧方法
CN110516146A (zh) * 2019-07-15 2019-11-29 中国科学院计算机网络信息中心 一种基于异质图卷积神经网络嵌入的作者名字消歧方法
US20200057946A1 (en) * 2018-08-16 2020-02-20 Oracle International Corporation Techniques for building a knowledge graph in limited knowledge domains
CN111191466A (zh) * 2019-12-25 2020-05-22 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN111737471A (zh) * 2020-06-28 2020-10-02 中国农业科学院农业信息研究所 一种基于知识图谱的档案管理模型构建方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160196332A1 (en) * 2007-05-02 2016-07-07 Thomson Reuters Global Resources Method and system for disambiguating informational objects
CN104111973A (zh) * 2014-06-17 2014-10-22 中国科学院计算技术研究所 一种学者重名的消歧方法及其系统
CN105653590A (zh) * 2015-12-21 2016-06-08 青岛智能产业技术研究院 一种中文文献作者重名消歧的方法
CN105868347A (zh) * 2016-03-28 2016-08-17 南京邮电大学 一种基于多步聚类的重名消歧方法
CN107316062A (zh) * 2017-06-26 2017-11-03 中国人民解放军国防科学技术大学 一种改进的面向领域的命名实体消歧方法
CN108959461A (zh) * 2018-06-15 2018-12-07 东南大学 一种基于图模型的实体链接方法
US20200057946A1 (en) * 2018-08-16 2020-02-20 Oracle International Corporation Techniques for building a knowledge graph in limited knowledge domains
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN109543034A (zh) * 2018-11-07 2019-03-29 中山大学 基于知识图谱的文本聚类方法、装置及可读存储介质
CN110516146A (zh) * 2019-07-15 2019-11-29 中国科学院计算机网络信息中心 一种基于异质图卷积神经网络嵌入的作者名字消歧方法
CN110362692A (zh) * 2019-07-23 2019-10-22 中南大学 一种基于知识图谱的学术圈构建方法
CN110399493A (zh) * 2019-07-29 2019-11-01 中南大学 一种基于增量学习的作者消歧方法
CN111191466A (zh) * 2019-12-25 2020-05-22 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN111737471A (zh) * 2020-06-28 2020-10-02 中国农业科学院农业信息研究所 一种基于知识图谱的档案管理模型构建方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAOMING FAN 等: "On Graph-Based Name Disambiguation", 《ACM JOURNAL OF DATA AND INFORMATION QUALITY》 *
宋文强: "科技文献作者重名消歧与实体链接", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
郑威杰: "科技文献作者消歧方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269477A (zh) * 2021-07-14 2021-08-17 北京邮电大学 一种科研项目查询评分模型训练方法、查询方法及装置
CN116821777A (zh) * 2023-02-28 2023-09-29 广东新禾道信息科技有限公司 一种新型基础测绘数据整合方法及系统
CN116821777B (zh) * 2023-02-28 2024-02-13 广东新禾道信息科技有限公司 一种新型基础测绘数据整合方法及系统

Also Published As

Publication number Publication date
CN112417082B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
US11714831B2 (en) Data processing and classification
Xu et al. Web mining and social networking: techniques and applications
Schwartz et al. A comparison of several approximate algorithms for finding multiple (N-best) sentence hypotheses
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
EP3134831A2 (en) Methods and computer-program products for organizing electronic documents
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Hidayat et al. Automatic text summarization using latent Drichlet allocation (LDA) for document clustering
CN112417082B (zh) 一种科研成果数据消歧归档存储方法
CN114254201A (zh) 一种科技项目评审专家的推荐方法
CN105205163A (zh) 一种科技新闻的增量学习多层次二分类方法
Ektefa et al. A comparative study in classification techniques for unsupervised record linkage model
Bu et al. Unsupervised face-name association via commute distance
TW201243627A (en) Multi-label text categorization based on fuzzy similarity and k nearest neighbors
Tian et al. Automatic image annotation with real-world community contributed data set
Sharma et al. A trend analysis of significant topics over time in machine learning research
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
CN114443961A (zh) 一种内容过滤科技成果推荐方法、模型及存储介质
CN112800243A (zh) 一种基于知识图谱的项目预算分析方法及系统
Manne et al. A Query based Text Categorization using K-nearest neighbor Approach
Bochkaryov et al. The use of clustering algorithms ensemble with variable distance metrics in solving problems of web mining
CN107341169B (zh) 一种基于信息检索的大规模软件信息站标签推荐方法
Zhou Automated identification of computer science research papers
CN111241846A (zh) 一种主题挖掘模型中主题维度自适应确定方法
Imambi et al. Classification of medline documents using global relevant weighing schema

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230818

Address after: A213, Entrepreneurship Service Center, No. 133 Mianxing East Road, High tech Zone, Mianyang City, Sichuan Province, 621000

Patentee after: Sichuan Youkefu Technology Service Co.,Ltd.

Address before: 621000, No. 59, Qinglong Avenue, Fucheng District, Sichuan, Mianyang

Patentee before: Southwest University of Science and Technology