CN117312565B - 一种基于关系融合与表示学习的文献作者姓名消歧方法 - Google Patents
一种基于关系融合与表示学习的文献作者姓名消歧方法 Download PDFInfo
- Publication number
- CN117312565B CN117312565B CN202311598281.0A CN202311598281A CN117312565B CN 117312565 B CN117312565 B CN 117312565B CN 202311598281 A CN202311598281 A CN 202311598281A CN 117312565 B CN117312565 B CN 117312565B
- Authority
- CN
- China
- Prior art keywords
- matrix
- author
- english
- document
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000004927 fusion Effects 0.000 title claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims abstract description 115
- 239000013598 vector Substances 0.000 claims abstract description 98
- 238000010586 diagram Methods 0.000 claims abstract description 16
- 230000002776 aggregation Effects 0.000 claims abstract description 13
- 238000004220 aggregation Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于关系融合与表示学习的文献作者姓名消歧方法,属于信息技术领域,包括如下步骤:从电子文献数据库检索,获取待消歧作者的所有英文文献;利用连续词袋模型获取文献的向量表示,构建特征向量矩阵;判断任意两篇文献之间的关系;构建聚合图及聚合图对应的邻接矩阵,并基于变分图自编码器获取优化后的第一文献嵌入向量矩阵;构建重要作者图及重要作者图对应的邻接矩阵,并利用变分图自编码器和优化后的第一文献嵌入向量矩阵获取优化后的第二文献嵌入向量矩阵;基于优化后的第二文献嵌入向量矩阵,进行聚类,获得消歧结果。本发明通过多种关系融合方式构建关系图,使用关系信息优化文献的表示向量,从而提高了消歧效果。
Description
技术领域
本发明属于信息技术领域,具体涉及一种基于关系融合与表示学习的文献作者姓名消歧方法。
背景技术
近年来,随着科学研究的普及,电子文献数据库得到广泛应用,电子文献急剧增多,作者数量随之增长,作者重名现象越来越普遍,给学术文献管理、检索、分析等带来困难。
作者姓名消歧是解决上述问题的主要方法。有监督的姓名消歧方法使用已标记文献来训练分类模型,而后使用训练好的模型对未标记文献进行消歧;无监督的姓名消歧方法不需要标记文献,而是使用文献本身的属性如摘要、标题、发表日期等来计算文献之间的相似度,根据文献的相似度对文献聚类得到消歧结果;半监督的姓名消歧方法结合了有监督和无监督方法的策略,使用少量标记文献与大量无标记文献训练模型来实现作者姓名消歧。
实际应用中,由于数据的多源性和应用场景的复杂性,这些姓名消歧方法存在文献属性信息利用不充分、特征表达能力不足等问题。
发明内容
为了解决上述问题,本发明提出了一种基于关系融合与表示学习的文献作者姓名消歧方法,通过多种关系融合方式构建关系图,使用关系信息优化文献的表示向量,从而提高了消歧效果。
本发明的技术方案如下:
一种基于关系融合与表示学习的文献作者姓名消歧方法,包括如下步骤:
步骤1、从电子文献数据库检索,获取待消歧作者的所有英文文献,构建所有英文文献的属性集合;
步骤2、利用连续词袋模型获取文献的向量表示,构建特征向量矩阵;
步骤3、判断任意两篇文献之间的关系,进行关系抽取;
步骤4、根据文献之间的关系,构建聚合图及聚合图对应的邻接矩阵,并基于变分图自编码器获取优化后的第一文献嵌入向量矩阵;
步骤5、根据文献之间的关系,构建重要作者图及重要作者图对应的邻接矩阵,并利用变分图自编码器和优化后的第一文献嵌入向量矩阵获取优化后的第二文献嵌入向量矩阵;
步骤6、基于优化后的第二文献嵌入向量矩阵,对待消歧作者的所有英文文献进行聚类,获得消歧结果。
进一步地,所述步骤1的具体过程如下:
步骤1.1、设待消歧作者的姓名为,将一篇英文文献中的其他作者称为合著者,检索获取的包含/>的英文文献集合为/>,其中/>是第/>篇英文文献,/>是英文文献数量;
步骤1.2、对于的摘要、标题和关键词,剔除停用词和非文字符号,将所有英文字母转换成小写字母,提取词干,得到若干处理后的单词;将每个单词及其对应属性名称拼接,得到若干格式为“__<属性名称>__<单词>”的属性,其中“<属性名称>”是摘要、标题、关键词之一,“<单词>”是经过处理后得到的单词;
步骤1.3、对于的合著者、作者单位、出版刊物,将包含的所有英文字母转换为小写字母,剔除字符串两端空格,使用下划线代替字符串中的非英文字母字符;每位合著者格式化为“__合著者__<姓名>”形式的属性,文献作者单位格式化为“__单位__<作者单位名称>”形式的属性,文献出版刊物格式化为“__刊物__<出版刊物名称>”形式的属性;
步骤1.4、合并步骤1.2和步骤1.3得到的属性,获得第篇英文文献的属性集合/>;
步骤1.5、对每一篇英文文献重复执行步骤1.1至步骤1.4,得到所有英文文献的属性集合;其中/>表示所有属性的数量,/>表示所有英文文献的属性集合/>中的第/>个属性。
进一步地,所述步骤2中,连续词袋模型由输入层、隐藏层和输出层组成;构建特征向量矩阵的具体过程如下:
步骤2.1、构造每个属性的初始特征向量形式,定义第个属性/>的初始特征向量为/>;
步骤2.2、将每个初始特征向量输入连续词袋模型获取每个属性对应的预测编码;计算第个属性的预测编码的过程如下:
将与相邻的/>个特征向量/>输入到连续词袋模型的输入层,/>表示第/>个属性的初始特征向量,根据公式(1)计算连续词袋模型隐藏层的输出向量/>,/>是属性特征的嵌入维度,/>是实数集合:
(1);
其中,表示第/>个属性的初始特征向量;/>是预先定义的从输入层到隐藏层的权重矩阵;
连续词袋模型输出层根据并利用公式(2)计算第/>个属性/>的预测编码:
(2);
其中,是预先定义的从隐藏层到输出层的权重矩阵;
步骤2.3、使用公式(3)计算第一损失函数值:
(3);
其中,表示以自然常数e为底的指数函数;/>表示第/>个属性的预测编码;
步骤2.4、使用梯度下降算法更新权重矩阵和/>;
步骤2.5、重复步骤2.2至步骤2.4,直至收敛为止,得到最终的权重矩阵/>和/>;
步骤2.6、计算每个属性的语义嵌入向量;第个属性的语义嵌入向量/>的计算公式如下:
(4);
步骤2.7、计算每个属性的逆向文件频率;计算第篇英文文献的属性集合/>中的每个属性的逆向文件频率的过程为:首先进行判断,如果第/>个属性/>,则统计/>在/>中的出现次数/>,然后使用公式(5)计算/>的逆向文件频率/>:
(5);
其中,是/>中的元素个数;
步骤2.8、计算每一篇英文文献的嵌入向量表示;对于第篇英文文献/>,使用公式(6)计算/>的嵌入向量表示/>:
(6);
步骤2.9、将所有英文文献的嵌入向量表示汇总成为一个特征向量矩阵,特征向量矩阵/>为特征学习阶段获得的文献向量表示;
(7);
其中,为第/>篇英文文献/>的嵌入向量表示。
进一步地,所述步骤3的具体过程如下:对于两篇不同的英文文献,如果它们有相同的合著者,则判定它们之间存在共同作者关系;如果有相同的作者单位,则判定它们之间存在共同单位关系;如果有相同专业词,则判定它们之间存在相同专业词关系。
进一步地,所述步骤4的具体过程如下:
步骤4.1、将第篇英文文献/>用顶点/>表示,得到顶点集;将存在共同作者关系或相同专业词关系的两篇英文文献对应的顶点/>和/>,用一条边连接起来,得到聚合图/>的边集,从而得到聚合图/>;
步骤4.2、根据公式(8)计算的邻接矩阵/>的第/>行、第/>列元素/>的值,从而得到/>的邻接矩阵/>;
(8);
计算时,的值与/>的值相等,/>的值与/>的值相等;
步骤4.3、根据步骤2得到的特征向量矩阵,使用公式(9)、公式(10)和公式(11),计算聚合图/>的均值矩阵/>和方差矩阵/>:
(9);
(10);
(11);
其中,为第一中间变量;变分图自编码器由编码器和解码器两部分组成,、/>分别为在计算/>时编码器和解码器的权重矩阵;/>和/>分别为在计算/>时编码器和解码器输出向量的维度;/>是邻接矩阵/>的对称归一化;激活函数/>;/>是矩阵/>的第/>行、第/>列元素;/>是矩阵/>的第/>行、第/>列元素;/>是/>的度矩阵;
使用公式(12)计算聚合图优化过程中的第一文献嵌入向量矩阵/>:
(12);
其中,是服从标准高斯分布/>的随机数组成的第一矩阵;/>是两个矩阵进行逐元素的乘法运算;
使用公式(13)计算英文文献和/>之间存在边的第一概率/>:
(13);
其中,为/>的第/>行、第/>列元素;/>为/>的转置,/>和/>分别是/>的第/>行和第/>行;
使用公式(14)计算第二损失函数值:
(14);
其中,是由服从标准高斯分布/>的随机数组成的与/>同样行数、列数的第一矩阵;/>表示/>的数学期望函数;
使用梯度下降算法更新和/>;
步骤4.4、重复步骤4.3,直到收敛为止,得到最终的权重矩阵/>和/>;
步骤4.5、使用步骤4.4得到的和/>,再次代入公式(9)-公式(12),得到使用聚合图/>优化完成的第一文献嵌入向量矩阵/>。
进一步地,所述步骤5的具体过程如下:
步骤5.1、定义重要作者集合为与待消歧作者合作过至少两篇文献的作者的集合,将待消歧作者/>的重要作者集合记为/>:
(15);
其中为第/>篇英文文献/>中作者/>的合作者集合;/>为第/>篇英文文献/>中作者的合作者集合;
步骤5.2、基于步骤4.1构建的顶点集,将同时存在相同重要作者关系、共同单位关系,或同时存在相同重要作者关系、相同专业词关系的两篇文献对应的顶点/>和/>,用一条边连接起来,得到重要作者图/>的边集/>,从而得到重要作者图/>;
步骤5.3、根据公式(16)计算的邻接矩阵/>的第/>行、第/>列元素/>的值,从而得到/>的邻接矩阵/>;
(16);
计算时,的值与/>的值相等,/>的值与为/>的值相等;
步骤5.4、根据步骤4得到的,采用公式(17)、公式(18)和公式(19),计算重要作者图/>的均值矩阵/>和方差矩阵/>:
(17);
(18);
(19);
其中,为第二中间变量;/>、/>分别为在计算/>时编码器和解码器的权重矩阵;/>和/>分别为在计算/>时编码器和解码器输出向量的维度;是邻接矩阵/>的对称归一化;/>是矩阵/>的第/>行、第/>列元素;/>是矩阵/>的第/>行、第/>列元素;/>是/>的度矩阵;
使用公式(20)计算使用重要作者图优化过程中的第二文献嵌入向量矩阵/>:
(20);
其中,是服从标准高斯分布/>的随机数组成的第二矩阵;
使用公式(21)计算英文文献和/>之间存在边的第二概率/>:
(21);
其中,为/>的第/>行、第/>列元素;/>为/>的转置,/>和/>分别是/>的第/>行和第/>行;
使用公式(22)计算第三损失函数值:
(22);
其中,是由服从标准高斯分布/>的随机数组成的与/>同样行数、列数的第二矩阵;/>表示/>的数学期望函数;
使用梯度下降算法更新和/>;
步骤5.5、重复步骤5.4,直到收敛为止,得到最终的权重矩阵/>和;
步骤5.6、使用步骤5.5得到的权重矩阵和/>,再次代入公式(17)-公式(20),得到使用重要作者图/>优化完成的第二文献嵌入向量矩阵;其中/>是/>的第/>行,表示第/>篇英文文献/>的嵌入向量。
进一步地,所述步骤6的具体过程如下:
步骤6.1、将每篇英文文献的嵌入向量视为一个单独的簇,使用公式(23)计算任意两个簇和/>之间的距离/>:
(23);
其中,和/>分别表示/>和/>中的文献数量,/>、/>为不同簇的序号表示,;/>和/>分别是/>和/>的第/>个元素,/>是第/>篇英文文献/>的嵌入向量;
步骤6.2、合并值最小的两个簇为一个簇;
步骤6.3、重复执行步骤6.1和步骤6.2,直到任意两个簇之间的距离大于预先定义的阈值;
步骤6.4、输出步骤6.3得到的各个簇,各个簇即为重名作者的文献集的消歧结果,其中同一个簇中的文献属于同一个作者,不同簇的文献属于不同作者。
本发明所带来的有益技术效果:本发明不需要预先标记大量数据,针对文献本身的属性特征进行消歧减少了工作量;通过特征提取和关系抽取获得文献的特征和关系,分析文献之间的关系信息并依次融合构建聚合图和重要作者图,既考虑了文献内容的相似性和差异性,又综合了文献之间的关联性,有效地利用了文献的各项信息;使用表示学习将原始数据转换成能够被机器学习算法有效利用形式,避免了手动提取特征的麻烦。
附图说明
图1是本发明基于关系融合与表示学习的文献作者姓名消歧方法的流程图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
本发明针对电子文献中作者姓名重名问题,即多篇文献的同一姓名实际是不同作者的情况,提出了一种基于关系融合与表示学习的无监督姓名消歧方法。该方法用于面向一个姓名的所有文献进行消歧。在多个姓名的姓名消歧问题中,针对每个姓名使用该方法进行消歧。
如图1所示,本发明具体包括如下步骤:
步骤1、从电子文献数据库检索,获取待消歧作者的所有英文文献,构建所有英文文献的属性集合。具体过程如下:
步骤1.1、设待消歧作者的姓名为,将一篇英文文献中的其他作者称为合著者,检索获取的包含/>的英文文献集合为/>,其中/>是第/>篇英文文献,/>是英文文献数量;
步骤1.2、对于的摘要、标题和关键词,剔除停用词和非文字符号,将所有英文字母转换成小写字母,提取词干,得到若干处理后的单词。将每个单词及其对应属性名称拼接,得到若干格式为“__<属性名称>__<单词>”的属性,其中“<属性名称>”是摘要、标题、关键词之一,“<单词>”是经过处理后得到的单词。该步骤得到的单词代表了文献的学术特征,称为专业词;
步骤1.3、对于的合著者、作者单位、出版刊物,将包含的所有英文字母转换为小写字母,剔除字符串两端空格,使用下划线代替字符串中的空白符、连字符等非英文字母字符。每位合著者格式化为“__合著者__<姓名>”形式的属性,文献作者单位格式化为“__单位__<作者单位名称>”形式的属性,文献出版刊物格式化为“__刊物__<出版刊物名称>”形式的属性;
步骤1.4、合并步骤1.2和步骤1.3得到的属性,获得第篇英文文献的属性集合/>;
步骤1.5、对每一篇英文文献重复执行步骤1.1至步骤1.4,得到所有英文文献的属性集合;其中/>表示所有属性的数量,/>表示所有英文文献的属性集合/>中的第/>个属性。
步骤2、利用连续词袋模型获取文献的向量表示,构建特征向量矩阵。连续词袋模型由输入层、隐藏层和输出层组成。具体过程如下:
步骤2.1、构造每个属性的初始特征向量形式,定义第个属性/>的初始特征向量为/>;
步骤2.2、将每个初始特征向量输入连续词袋模型获取每个属性对应的预测编码;具体过程如下:
将与相邻的/>个特征向量/>输入到连续词袋模型的输入层,/>表示第/>个属性的初始特征向量,根据公式(1)计算连续词袋模型隐藏层的输出向量/>,/>是属性特征的嵌入维度,/>是实数集合:
(1);
其中,表示第/>个属性的初始特征向量;/>是预先定义的从输入层到隐藏层的权重矩阵;
连续词袋模型输出层根据并利用公式(2)计算第/>个属性/>的预测编码:
(2);
其中,是预先从定义的隐藏层到输出层的权重矩阵。
重复该步骤,直至计算出所有属性的预测编码。
步骤2.3、使用公式(3)计算第一损失函数值:
(3);
其中,表示以自然常数e为底的指数函数;/>表示第/>个属性的预测编码;
步骤2.4、使用梯度下降算法更新权重矩阵和/>;
步骤2.5、重复步骤2.2至步骤2.4,直至收敛为止,得到最终的权重矩阵/>和/>;
步骤2.6、计算每个属性的语义嵌入向量;第个属性的语义嵌入向量/>的计算公式如下:
(4);
步骤2.7、计算每个属性的逆向文件频率;计算第篇英文文献的属性集合/>中的每个属性的逆向文件频率的过程为:首先进行判断,如果第/>个属性/>,则统计/>在/>中的出现次数/>,然后使用公式(5)计算/>的逆向文件频率/>:
(5);
其中,是/>的元素个数。
步骤2.8、计算每一篇英文文献的嵌入向量表示;对于第篇英文文献/>,使用公式(6)计算/>的嵌入向量表示/>:
(6);
步骤2.9、将所有英文文献的嵌入向量表示汇总成为一个特征向量矩阵,特征向量矩阵/>为特征学习阶段获得的文献向量表示;
(7);
其中,为第/>篇英文文献/>的嵌入向量表示。
步骤3、判断任意两篇文献之间的关系,进行关系抽取;
对于两篇不同的英文文献和/>,如果它们有相同的合著者,则判定它们之间存在共同作者关系;如果有共同的作者单位,则判定它们之间存在共同单位关系;如果有相同专业词,则判定它们之间存在相同专业词关系。重复该步骤,判定任意两篇文献之间是否存在上述三种关系。
步骤4、根据文献之间的关系,构建聚合图及其邻接矩阵/>,并利用变分图自编码器获取基于聚合图/>优化的第一文献嵌入向量矩阵。具体过程如下:
步骤4.1、将第篇英文文献/>用顶点/>表示,得到顶点集;将存在共同作者关系或相同专业词关系的两篇英文文献/>和/>对应的顶点/>和/>,用一条边连接起来,得到聚合图/>的边集,从而得到聚合图/>;
步骤4.2、根据公式(8)计算的第/>行、第/>列元素/>的值,从而得到/>的邻接矩阵/>;
(8);
计算时,的值与/>的值相等,/>的值与为/>的值相等。
步骤4.3、根据步骤2得到的特征向量矩阵,使用公式(9)、公式(10)和公式(11),计算聚合图/>的均值矩阵/>和方差矩阵/>:
(9);
(10);
(11);
其中,为第一中间变量;变分图自编码器由编码器和解码器两部分组成,、/>分别为在计算/>时编码器和解码器的权重矩阵;/>和/>分别为在计算/>时编码器和解码器输出向量的维度;/>是邻接矩阵/>的对称归一化;激活函数/>;/>是矩阵/>的第/>行、第/>列元素;/>是矩阵/>的第/>行、第/>列元素。/>是/>的度矩阵,即/>的第/>行、第/>列元素/>是与顶点/>相关联的边的数量,/>,/>。
使用公式(12)计算聚合图优化过程中的第一文献嵌入向量矩阵/>:
(12);
其中,是服从标准高斯分布/>的随机数组成的矩阵;/>是两个矩阵进行逐元素的乘法运算。
使用公式(13)计算英文文献和/>之间存在边的第一概率/>:
(13);
其中,为/>的第/>行、第/>列元素;/>为/>的转置,/>和/>分别是/>的第/>行和第/>行。
使用公式(14)计算第二损失函数值:
(14);
其中,是由服从标准高斯分布/>的随机数组成的与/>同样行数、列数的第一矩阵;/>表示/>的数学期望函数;
使用梯度下降算法更新和/>;
步骤4.4、重复步骤4.3,直到收敛为止,得到最终的权重矩阵/>和。
步骤4.5、使用步骤4.4得到的和/>,再次代入公式(9)-公式(12),得到使用聚合图/>优化完成的第一文献嵌入向量矩阵/>。
步骤5、根据文献之间的关系,构建重要作者图及其邻接矩阵/>,并利用变分图自编码器获取基于重要作者图/>优化的第二文献嵌入向量矩阵/>。具体过程如下:
步骤5.1、定义重要作者集合为与待消歧作者合作过至少两篇文献的作者的集合,将待消歧作者/>的重要作者集合记为/>,即:
(15);
其中为第/>篇英文文献/>中作者/>的合作者集合;/>为第/>篇英文文献/>中作者的合作者集合。
步骤5.2、基于步骤4.1构建的顶点集,将同时存在相同重要作者关系、共同单位关系,或同时存在相同重要作者关系、相同专业词关系的两篇文献对应的顶点/>和/>,用一条边连接起来,得到/>的边集/>,从而得到重要作者图。
步骤5.3、根据公式(16)计算的邻接矩阵/>的第/>行、第/>列元素/>的值,从而得到/>的邻接矩阵/>;
(16);
计算时,的值与/>的值相等,/>的值与为/>的值相等。
步骤5.4、根据步骤4得到的使用聚合图优化完成的第一文献嵌入向量矩阵,采用公式(17)、公式(18)和公式(19),计算重要作者图/>的均值矩阵/>和方差矩阵/>:
(17);/>
(18);
(19);
其中,为第二中间变量;/>、/>分别为在计算/>时编码器和解码器的权重矩阵;/>和/>分别为在计算/>时编码器和解码器输出向量的维度;是邻接矩阵/>的对称归一化;/>是矩阵/>的第/>行、第/>列元素;/>是矩阵/>的第/>行、第/>列元素。/>是/>的度矩阵,即/>的第/>行、第/>列元素/>是与顶点/>相关联的边的数量,第/>行、第/>列元素/>,/>;
使用公式(20)计算使用重要作者图优化过程中的第二文献嵌入向量矩阵/>:
(20);
其中,是服从标准高斯分布/>的随机数组成的矩阵。
使用公式(21)计算英文文献和/>之间存在边的第二概率/>:
(21);
其中,为/>的第/>行、第/>列元素;/>为/>的转置,/>和/>分别是/>的第/>行和第/>行。
使用公式(22)计算第三损失函数值:
(22);
其中,是由服从标准高斯分布/>的随机数组成的与/>同样行数、列数的矩阵;/>表示/>的数学期望函数;
使用梯度下降算法更新和/>;
步骤5.5、重复步骤5.4,直到收敛为止,得到最终的权重矩阵/>和。
步骤5.6、使用步骤5.5得到的权重矩阵和/>,再次代入公式(17)-公式(20),得到使用重要作者图/>优化完成的第二文献嵌入向量矩阵;其中/>是/>的第/>行,表示第/>篇英文文献/>的嵌入向量。
步骤6、对中的英文文献进行聚类,获得消歧结果。具体过程如下:
步骤6.1、将每个英文文献的嵌入向量视为一个单独的簇,使用公式(23)计算任意两个簇和/>之间的距离/>:/>
(23);
其中,和/>分别表示/>和/>中的文献数量,/>、/>为不同簇的序号表示,/>;/>和/>分别是/>和/>的第/>个元素,/>是第/>篇英文文献/>的嵌入向量。
步骤6.2、合并值最小的两个簇为一个簇。
步骤6.3、重复执行步骤6.1和步骤6.2,直到任意两个簇之间的距离大于预先定义的阈值。
步骤6.4、输出步骤6.3得到的各个簇,各个簇即为重名作者的文献集的消歧结果,其中同一个簇中的文献属于同一个作者,不同簇的文献属于不同作者。
为了验证本发明提出方法的可行性和各步骤的有效性,将本发明方法与已有算法进行了对比实验。使用F1分数作为评价指标,F1分数越高表示算法性能越好。F1分数的计算过程为公式(24)、公式(25)和公式(26):
(24);
(25);
(26);
其中,表示精准率取值;/>表示召回率取值;/>表示F1分数取值;/>表示是作者/>的文献且被正确划分到该作者簇中的文献数量,/>表示不是作者/>的文献但是被划分到该作者簇中的文献数量,/>表示是作者/>的文献但是没有被划分到该作者簇中的文献数量,/>表示姓名为/>的作者集中的一个真实作者。
使用真实数据集Aminer-na进行实验,Aminer-na数据集来源于Aminer平台整合的在线数据库学术数据。数据集中500个作者姓名用于训练,训练集包含33383名作者和173698篇文献,100个作者姓名用于测试,测试集包含6399名作者和35129篇文献。
在Aminer-na数据集上,本发明与ADES、AMiner、ADNE、Rule四个算法的对比结果如表1所示。其中,ADES算法融合作者相似图和元内容相似图的向量表示,使用层次凝聚聚类算法实现消歧;AMiner算法引入标记数据构建正负样本集并预测聚类参数,通过人工参与提高准确性;ADNE算法构建作者、标题、摘要、出版刊物和作者单位五种文献关系网络;Rule算法为两篇作者和作者单位严格匹配的文献构建局部链接图,将有连接关系的文献划分为一类。
表1 与其他算法的对比;
。
从表1数据可以看出,本发明方法F1分数最高,性能最好。
为了验证步骤2、步骤4和步骤5的有效性,在Aminer数据集上进行了消融实验,结果如表2所示。
表2 消融实验结果;
。
从表2可以看出,本发明任何一个步骤均不可缺少,否则会影响最终的姓名消歧效果。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (3)
1.一种基于关系融合与表示学习的文献作者姓名消歧方法,其特征在于,包括如下步骤:
步骤1、从电子文献数据库检索,获取待消歧作者的所有英文文献,构建所有英文文献的属性集合;具体过程如下:
步骤1.1、设待消歧作者的姓名为a,将一篇英文文献中的其他作者称为合著者,检索获取的包含a的英文文献集合为Dtotal={D1,D2,…,Di,…,Dm},其中Di是第i篇英文文献,m是英文文献数量;
步骤1.2、对于Di的摘要、标题和关键词,剔除停用词和非文字符号,将所有英文字母转换成小写字母,提取词干,得到若干处理后的单词;将每个单词及其对应属性名称拼接,得到若干格式为“__<属性名称>__<单词>”的属性,其中“<属性名称>”是摘要、标题、关键词之一,“<单词>”是经过处理后得到的单词;
步骤1.3、对于Di的合著者、作者单位、出版刊物,将包含的所有英文字母转换为小写字母,剔除字符串两端空格,使用下划线代替字符串中的非英文字母字符;每位合著者格式化为“__合著者__<姓名>”形式的属性,文献作者单位格式化为“__单位__<作者单位名称>”形式的属性,文献出版刊物格式化为“__刊物__<出版刊物名称>”形式的属性;
步骤1.4、合并步骤1.2和步骤1.3得到的属性,获得第i篇英文文献的属性集合Bi;
步骤1.5、对每一篇英文文献重复执行步骤1.1至步骤1.4,得到所有英文文献的属性集合其中n表示所有属性的数量,bj表示所有英文文献的属性集合Btotal中的第j个属性;
步骤2、利用连续词袋模型获取文献的向量表示,构建特征向量矩阵;
所述步骤2中,连续词袋模型由输入层、隐藏层和输出层组成;构建特征向量矩阵的具体过程如下:
步骤2.1、构造每个属性的初始特征向量形式,定义第j个属性bj的初始特征向量为
步骤2.2、将每个初始特征向量输入连续词袋模型获取每个属性对应的预测编码;计算第j个属性的预测编码的过程如下:
将与xj相邻的2l个特征向量{xj-l,xj-l+1,…,xj-1,xj+1,…,xj+l}输入到连续词袋模型的输入层,xj+l表示第j+l个属性的初始特征向量,根据公式(1)计算连续词袋模型隐藏层的输出向量d是属性特征的嵌入维度,/>是实数集合:
其中,xk表示第k个属性的初始特征向量;是预先定义的从输入层到隐藏层的权重矩阵;
连续词袋模型输出层根据hj并利用公式(2)计算第j个属性bj的预测编码
其中,是预先定义的从隐藏层到输出层的权重矩阵;
步骤2.3、使用公式(3)计算第一损失函数值E:
其中,exp(·)表示以自然常数e为底的指数函数;h′k表示第k个属性的预测编码;
步骤2.4、使用梯度下降算法更新权重矩阵W和W′;
步骤2.5、重复步骤2.2至步骤2.4,直至E收敛为止,得到最终的权重矩阵Wfinal和W′final;
步骤2.6、计算每个属性的语义嵌入向量;第j个属性的语义嵌入向量的计算公式如下:
步骤2.7、计算每个属性的逆向文件频率;计算第i篇英文文献的属性集合Bi中的每个属性的逆向文件频率的过程为:首先进行判断,如果第j个属性bj∈Bi,则统计bj在Bi中的出现次数cj,然后使用公式(5)计算bj的逆向文件频率IDFj:
其中,ni是Bi中的元素个数;
步骤2.8、计算每一篇英文文献的嵌入向量表示;对于第i篇英文文献Di∈Dtotal,使用公式(6)计算Di的嵌入向量表示
步骤2.9、将所有英文文献的嵌入向量表示汇总成为一个特征向量矩阵特征向量矩阵Xr为特征学习阶段获得的文献向量表示;
其中,Xm为第m篇英文文献Dm的嵌入向量表示;
步骤3、判断任意两篇文献之间的关系,进行关系抽取;
步骤4、根据文献之间的关系,构建聚合图及聚合图对应的邻接矩阵,并基于变分图自编码器获取优化后的第一文献嵌入向量矩阵;具体过程如下:
步骤4.1、将第i篇英文文献Di∈Dtotal用顶点vi表示,得到顶点集V={v1,v1,…,vi,…,vm};将存在共同作者关系或相同专业词关系的两篇英文文献对应的顶点和/>用一条边连接起来,得到聚合图Gr的边集/>从而得到聚合图Gr=(V,Er);
步骤4.2、根据公式(8)计算Gr的邻接矩阵Ar的第行、第/>列元素/>的值,从而得到Gr的邻接矩阵Ar;
计算时,的值与i的值相等,/>的值与j的值相等;
步骤4.3、根据步骤2得到的特征向量矩阵Xr,使用公式(9)、公式(10)和公式(11),计算聚合图Gr的均值矩阵和方差矩阵/>
其中,为第一中间变量;变分图自编码器由编码器和解码器两部分组成, 分别为在计算Zr时编码器和解码器的权重矩阵;f和g分别为在计算Zr时编码器和解码器输出向量的维度;/>是邻接矩阵Ar的对称归一化;激活函数ReLU(·)=max(0,·);/>是矩阵σr的第/>行、第/>列元素;/>是矩阵μr的第/>行、第/>列元素;/>是Gr的度矩阵;
使用公式(12)计算聚合图Gr优化过程中的第一文献嵌入向量矩阵
Zr=μr+εr*σr (12);
其中,是服从标准高斯分布N(0,1)的随机数组成的第一矩阵;*是两个矩阵进行逐元素的乘法运算;
使用公式(13)计算英文文献Di和Dj之间存在边的第一概率
其中,为/>的第/>行、第/>列元素;/>为/>的转置,/>和/>分别是Zr的第/>行和第/>行;
使用公式(14)计算第二损失函数值
其中,p(Zr)是由服从标准高斯分布N(0,1)的随机数组成的与Zr同样行数、列数的第一矩阵;表示Zr的数学期望函数;
使用梯度下降算法更新Wr和W′r;
步骤4.4、重复步骤4.3,直到收敛为止,得到最终的权重矩阵/>和/>
步骤4.5、使用步骤4.4得到的和/>再次代入公式(9)-公式(12),得到使用聚合图Gr优化完成的第一文献嵌入向量矩阵/>
步骤5、根据文献之间的关系,构建重要作者图及重要作者图对应的邻接矩阵,并利用变分图自编码器和优化后的第一文献嵌入向量矩阵获取优化后的第二文献嵌入向量矩阵;具体过程如下:
步骤5.1、定义重要作者集合为与待消歧作者a合作过至少两篇文献的作者的集合,将待消歧作者a的重要作者集合记为Nr:
其中Ni为第i篇英文文献Di中作者a的合作者集合;Nj为第j篇英文文献Dj中作者a的合作者集合;
步骤5.2、基于步骤4.1构建的顶点集V,将同时存在相同重要作者关系、共同单位关系,或同时存在相同重要作者关系、相同专业词关系的两篇文献对应的顶点和/>用一条边连接起来,得到重要作者图Gp的边集/>从而得到重要作者图Gp=(V,Ep);
步骤5.3、根据公式(16)计算Gp的邻接矩阵Ap的第行、第/>列元素/>的值,从而得到Gp的邻接矩阵Ap;
计算时,的值与i的值相等,/>的值与为j的值相等;
步骤5.4、根据步骤4得到的采用公式(17)、公式(18)和公式(19),计算重要作者图Gp的均值矩阵/>和方差矩阵/>
其中,为第二中间变量;/>分别为在计算Zp时编码器和解码器的权重矩阵;s和t分别为在计算Zp时编码器和解码器输出向量的维度;/> 是邻接矩阵Ap的对称归一化;/>是矩阵σp的第/>行、第/>列元素;/>是矩阵μp的第/>行、第/>列元素;/>是Gp的度矩阵;
使用公式(20)计算使用重要作者图Gp优化过程中的第二文献嵌入向量矩阵Zp:
Zp=μp+εp*σp (20);
其中,是服从标准高斯分布N(0,1)的随机数组成的第二矩阵;
使用公式(21)计算英文文献Di和Dj之间存在边的第二概率
其中,为/>的第/>行、第/>列元素;/>为/>的转置,/>和/>分别是Zp的第/>行和第/>行;
使用公式(22)计算第三损失函数值
其中,p(Zp)是由服从标准高斯分布N(0,1)的随机数组成的与Zp同样行数、列数的第二矩阵;表示Zp的数学期望函数;
使用梯度下降算法更新Wp和W′p;
步骤5.5、重复步骤5.4,直到收敛为止,得到最终的权重矩阵/>和/>
步骤5.6、使用步骤5.5得到的权重矩阵和/>再次代入公式(17)-公式(20),得到使用重要作者图Gp优化完成的第二文献嵌入向量矩阵其中/>是/>的第/>行,表示第i篇英文文献Di的嵌入向量;
步骤6、基于优化后的第二文献嵌入向量矩阵,对待消歧作者的所有英文文献进行聚类,获得消歧结果。
2.根据权利要求1所述基于关系融合与表示学习的文献作者姓名消歧方法,其特征在于,所述步骤3的具体过程如下:对于两篇不同的英文文献,如果它们有相同的合著者,则判定它们之间存在共同作者关系;如果有相同的作者单位,则判定它们之间存在共同单位关系;如果有相同专业词,则判定它们之间存在相同专业词关系。
3.根据权利要求1所述基于关系融合与表示学习的文献作者姓名消歧方法,其特征在于,所述步骤6的具体过程如下:
步骤6.1、将每篇英文文献的嵌入向量视为一个单独的簇,使用公式(23)计算任意两个簇和/>之间的距离/>
其中,和/>分别表示/>和/>中的文献数量,/>为不同簇的序号表示,/> 和/>分别是/>和/>的第k个元素,/>是第j篇英文文献Dj的嵌入向量;
步骤6.2、合并值最小的两个簇为一个簇;
步骤6.3、重复执行步骤6.1和步骤6.2,直到任意两个簇之间的距离大于预先定义的阈值;
步骤6.4、输出步骤6.3得到的各个簇,各个簇即为重名作者的文献集的消歧结果,其中
同一个簇中的文献属于同一个作者,不同簇的文献属于不同作者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311598281.0A CN117312565B (zh) | 2023-11-28 | 2023-11-28 | 一种基于关系融合与表示学习的文献作者姓名消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311598281.0A CN117312565B (zh) | 2023-11-28 | 2023-11-28 | 一种基于关系融合与表示学习的文献作者姓名消歧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117312565A CN117312565A (zh) | 2023-12-29 |
CN117312565B true CN117312565B (zh) | 2024-02-06 |
Family
ID=89273961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311598281.0A Active CN117312565B (zh) | 2023-11-28 | 2023-11-28 | 一种基于关系融合与表示学习的文献作者姓名消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117312565B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6269153B1 (en) * | 1998-07-29 | 2001-07-31 | Lucent Technologies Inc. | Methods and apparatus for automatic call routing including disambiguating routing decisions |
CN106055539A (zh) * | 2016-05-27 | 2016-10-26 | 中国科学技术信息研究所 | 姓名消歧的方法和装置 |
CN106294677A (zh) * | 2016-08-04 | 2017-01-04 | 浙江大学 | 一种面向英文文献中中国作者的姓名消歧方法 |
CN111581949A (zh) * | 2020-05-12 | 2020-08-25 | 上海市研发公共服务平台管理中心 | 学者人名的消歧方法、装置、存储介质及终端 |
JP2020187738A (ja) * | 2019-05-09 | 2020-11-19 | 富士通株式会社 | 著者名の曖昧性解消のための情報処理装置、方法及び記憶媒体 |
CN112131872A (zh) * | 2020-09-18 | 2020-12-25 | 三螺旋大数据科技(昆山)有限公司 | 一种文献作者重名消歧方法和构建系统 |
CN112597305A (zh) * | 2020-12-22 | 2021-04-02 | 上海师范大学 | 基于深度学习的科技文献作者名消歧方法及web端消歧装置 |
WO2021139256A1 (zh) * | 2020-07-28 | 2021-07-15 | 平安科技(深圳)有限公司 | 论文作者的消歧方法、装置和计算机设备 |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
CN113962293A (zh) * | 2021-09-29 | 2022-01-21 | 中国科学院计算机网络信息中心 | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 |
CN114661902A (zh) * | 2022-01-10 | 2022-06-24 | 北京智谱华章科技有限公司 | 基于多特征融合的文献库冷启动作者同名消歧方法及设备 |
CN114707003A (zh) * | 2022-04-26 | 2022-07-05 | 浙江理工大学 | 一种论文作者姓名消歧的方法、设备及储存介质 |
CN114969387A (zh) * | 2022-05-31 | 2022-08-30 | 北京智谱华章科技有限公司 | 文献作者信息消歧方法、装置及电子设备 |
KR20220134695A (ko) * | 2021-03-25 | 2022-10-05 | (주)지플러스 | 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법 |
CN116578708A (zh) * | 2023-05-23 | 2023-08-11 | 浙江理工大学 | 一种基于图神经网络的论文数据姓名消歧算法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8538898B2 (en) * | 2011-05-28 | 2013-09-17 | Microsoft Corporation | Interactive framework for name disambiguation |
CN111191466B (zh) * | 2019-12-25 | 2022-04-01 | 中国科学院计算机网络信息中心 | 一种基于网络表征和语义表征的同名作者消歧方法 |
-
2023
- 2023-11-28 CN CN202311598281.0A patent/CN117312565B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6269153B1 (en) * | 1998-07-29 | 2001-07-31 | Lucent Technologies Inc. | Methods and apparatus for automatic call routing including disambiguating routing decisions |
CN106055539A (zh) * | 2016-05-27 | 2016-10-26 | 中国科学技术信息研究所 | 姓名消歧的方法和装置 |
CN106294677A (zh) * | 2016-08-04 | 2017-01-04 | 浙江大学 | 一种面向英文文献中中国作者的姓名消歧方法 |
JP2020187738A (ja) * | 2019-05-09 | 2020-11-19 | 富士通株式会社 | 著者名の曖昧性解消のための情報処理装置、方法及び記憶媒体 |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
CN111581949A (zh) * | 2020-05-12 | 2020-08-25 | 上海市研发公共服务平台管理中心 | 学者人名的消歧方法、装置、存储介质及终端 |
WO2021139256A1 (zh) * | 2020-07-28 | 2021-07-15 | 平安科技(深圳)有限公司 | 论文作者的消歧方法、装置和计算机设备 |
CN112131872A (zh) * | 2020-09-18 | 2020-12-25 | 三螺旋大数据科技(昆山)有限公司 | 一种文献作者重名消歧方法和构建系统 |
CN112597305A (zh) * | 2020-12-22 | 2021-04-02 | 上海师范大学 | 基于深度学习的科技文献作者名消歧方法及web端消歧装置 |
KR20220134695A (ko) * | 2021-03-25 | 2022-10-05 | (주)지플러스 | 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법 |
CN113962293A (zh) * | 2021-09-29 | 2022-01-21 | 中国科学院计算机网络信息中心 | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 |
CN114661902A (zh) * | 2022-01-10 | 2022-06-24 | 北京智谱华章科技有限公司 | 基于多特征融合的文献库冷启动作者同名消歧方法及设备 |
CN114707003A (zh) * | 2022-04-26 | 2022-07-05 | 浙江理工大学 | 一种论文作者姓名消歧的方法、设备及储存介质 |
CN114969387A (zh) * | 2022-05-31 | 2022-08-30 | 北京智谱华章科技有限公司 | 文献作者信息消歧方法、装置及电子设备 |
CN116578708A (zh) * | 2023-05-23 | 2023-08-11 | 浙江理工大学 | 一种基于图神经网络的论文数据姓名消歧算法 |
Non-Patent Citations (4)
Title |
---|
中文文献题录数据作者重名消解问题研究;朱云霞;;图书情报工作(第23期);全文 * |
文献数据库中作者名自动化消歧方法应用研究;郭舒;;情报杂志(09);全文 * |
科学合作网络姓名消歧问题研究;张龙;付媛;王曼玲;宗晓丽;韩红旗;;甘肃科技(第16期);全文 * |
郭舒 ; .文献数据库中作者名自动化消歧方法应用研究.情报杂志.2013,(09),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117312565A (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189925B (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN110413986B (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN109886020B (zh) | 基于深度神经网络的软件漏洞自动分类方法 | |
CN112214610B (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN110765260A (zh) | 一种基于卷积神经网络与联合注意力机制的信息推荐方法 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN111241294A (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN113011194B (zh) | 融合关键词特征和多粒度语义特征的文本相似度计算方法 | |
CN111008530A (zh) | 一种基于文档分词的复杂语义识别方法 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN115238040A (zh) | 一种钢铁材料学知识图谱构建方法及系统 | |
CN110674293B (zh) | 一种基于语义迁移的文本分类方法 | |
CN113158659A (zh) | 一种基于司法文本的涉案财物计算方法 | |
CN117312565B (zh) | 一种基于关系融合与表示学习的文献作者姓名消歧方法 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN114996455A (zh) | 一种基于双知识图谱的新闻标题短文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |