CN116244497A - 一种基于异质数据嵌入的跨域论文推荐方法 - Google Patents

一种基于异质数据嵌入的跨域论文推荐方法 Download PDF

Info

Publication number
CN116244497A
CN116244497A CN202211566343.5A CN202211566343A CN116244497A CN 116244497 A CN116244497 A CN 116244497A CN 202211566343 A CN202211566343 A CN 202211566343A CN 116244497 A CN116244497 A CN 116244497A
Authority
CN
China
Prior art keywords
paper
domain
representing
cross
papers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211566343.5A
Other languages
English (en)
Inventor
牛振东
邱萍
赵梓钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202211566343.5A priority Critical patent/CN116244497A/zh
Publication of CN116244497A publication Critical patent/CN116244497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于异质数据嵌入的跨域论文推荐方法,属于大数据挖掘应用与信息处理技术领域。首先为数据集划分领域,为各学科构建有向无环图,使用潜在狄利克雷分布模型提取领域语义,通过最大信息系数学习跨域关联。然后通过异质数据嵌入,将论文和用户分别表示成向量的形式,通过论文之间的引用和未引用关系训练跨域论文之间的映射关系。如果用户提供关键词检索,则依据关键词划分用户领域,用户的兴趣列表便是引用文献。最后利用跨域论文推荐模型,为用户推荐论文。本发明能够自动评估论文的跨域相关性,有效地克服了传统方法仅根据论文内容相似性作为推荐依据的技术缺陷,大幅提升了推荐精度和效率。

Description

一种基于异质数据嵌入的跨域论文推荐方法
技术领域
本发明涉及一种跨域论文推荐方法,具体涉及一种基于异质数据嵌入的跨域论文推荐方法,属于大数据挖掘应用与信息处理技术领域。
背景技术
学术论文/文献作为一种常见的学习资源,在促进科研创新的同时,也引起了较为严重的信息过载问题。论文推荐技术,能够对海量论文进行自动化的内容分析和推荐,从而能够帮助研究者更好地使用文献资源,快速获取知识,有效提高学术文献的可用性。
近年来,知识传播带来交叉学科论文发表量和跨学科论文引用量的快速增长。2019年,Gates等人在《Nature》上的发表的论文中指出,近年来跨学科论文引用量和引用来源学科多样性都在持续增长。2021年,Xie等人在《SIGIR》上发表的论文中统计了五个交叉学科的权威期刊近十年的论文发表量,统计结果表明交叉研究的论文发表量整体呈逐年增长的趋势。跨学科的论文/文献已经成为论文/文献推荐中至关重要的组成部分。
然而,现有的论文推荐方法只是向研究者推荐与其研究内容相似的论文,却没有考虑跨域论文的重要性。因此,如何利用大数据挖掘和信息处理技术,精准的帮助研究者从海量的学术资源中找到相关领域的最新研究成果,具有重要意义和使用价值。
发明内容
本发明的目的是针对现有技术存在的不足和缺陷,为了解决在交叉学科不断发展中,如何为用户提供更好的跨域论文推荐服务,特别是如何提高推送精准度和效率的技术问题,创造性地提出了一种基于异质数据嵌入的跨域论文推荐方法。
本方法的创新点在于:将异质数据嵌入和跨域相关性相结合,并提出了度量跨域论文推荐方法,能够准确地为从事交叉学科研究的用户推荐跨域论文。
本发明采用以下技术方案实现。
一种基于异质数据嵌入的跨域论文推荐方法,包括以下步骤:
步骤1:为数据集划分领域。首先为各学科构建有向无环图(Directed AcyclicGraph,DAG),然后使用潜在狄利克雷分布模型提取领域语义,最后通过最大信息系数(Maximum Information Coefficient,MIC)学习跨域关联。
步骤2:通过异质数据嵌入,将论文和用户分别表示成向量的形式。首先对文献图谱中的实体和关系进行向量化表示,然后通过论文之间的引用和未引用关系训练跨域论文之间的映射关系。特别地,如果用户提供关键词检索,则依据关键词划分用户领域,用户的兴趣列表便是引用文献。
步骤3:利用跨域论文推荐模型,为用户推荐论文。首先将论文和用户的不同向量表示进行合并。然后训练三层前馈神经网络模型,为用户推荐跨域论文。
有益效果
本发明方法,对比现有技术,能够自动评估论文的跨域相关性,有效地克服了传统论文推荐方法仅根据论文内容相似性作为推荐依据的技术缺陷,大幅提升了推荐精度和效率。
附图说明
图1是本发明的总体架构图。
图2是本发明的整体流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。图1是本方法的整体结构图。
如图2所示,一种基于异质数据嵌入的跨域论文推荐方法,包括以下步骤:
步骤1:为论文数据集划分领域。
具体地,步骤1包括以下步骤:
步骤1.1:为各学科构建有向无环图DAG(Directed Acyclic Graph,DAG)。
学科由一组概念和理论构成,一个学科通常包含若干个类别,各类别对应该学科的研究方向,称为领域。
用G代表一个学科分类的DAG,其中的每个节点n以及它的孩子节点表示一个学术领域,n∈G。
用r表示跟节点,且r∈G。除根结点r外,每个节点都有一个父节点,表示为pa(n),pa(n)∈G。对于一个给定的论文语料库P,其中的词汇用Z表示。
论文的元数据包括标题、作者、摘要、关键词,以及一个或多个分类标签,对应于G中的节点。
对于任意一篇带有标签n∈G的论文p,p∈P,用变量yn,p=1来标记,否则yn,p=0。基于有向无环图的标记约束,如果p带有标记n,即yn,p=1,则p会被它的所有父节点标记,即ypa(n),p=1;如果p没有被n标记,则p也不会被n的孩子节点标记,即ych(n),p=0。
步骤1.2:使用潜在狄利克雷分布模型,提取领域语义。
单词的使用方式是开放的、在科研领域不断发展变化的,因此,本发明采用潜在狄利克雷分布模型来提取领域语义。
具体地,对于任意一篇论文p∈P,通过潜在狄利克雷分布模型(Latent DirichletAllocation,LDA)学习其主题概率分布p(l|p),从而得到p的词w和任意节点n∈G在l上的概率分布p(w|l)和p(n|l)。其中,l表示主题。
步骤1.3:通过最大信息系数MIC(Maximum Information Coefficient),学习跨域关联。
具体地,对于任意一篇论文p,通过p的分布概率p(w|l)与任意节点的分布概率p(n|l)之间的相关性来判断p所属的学科。本发明中,采用MIC测量p(w|l)和p(n|l)之间的相关性。
MIC及相关定义如下:
设二元变量数据集D={(f,c)},f和c表示一组二元变量。采用分箱法,在二维坐标系中将D以网格进行划分,使D中的数据点都分布在网格内。若网格在纵向x轴上划分数量为a,在横向y轴上划分数量为b,这种划分的网格称为a-by-b网格。给定一个网格G,设D|G表示D在网格G内的分布,对于给定的数据集D,不同的网格划分将得到不同的D|G
定义1:样本互信息。给定二元变量数据集D={(f,c)},以及在纵向x轴上划分数量为a,在横向y轴上划分数量为b,则D的样本互信息如式1所示:
I*(D,a,b)=max I(D|G) (1)
其中,I(D|G)表示D在G内分布计算的互信息,I*(D,a,b)表示在所有可能的a-by-b网格G内计算的最大互信息。
定义2:样本特征矩阵。给定二元变量数据集D={(f,c)},以及在纵向x轴上划分数量为a,在横向y轴上划分数量为b,则样本特征矩阵
Figure BDA0003986215400000041
定义如式2所示:
Figure BDA0003986215400000042
定义3:最大信息系数。给定二元变量数据集D={(f,c)},以及在纵向x轴上划分数量为a,在横向y轴上划分数量为b,满足上限条件ab<B(n),则D的最大信息系数MIC定义如式3所示:
Figure BDA0003986215400000043
其中,B(n)是关于样本量n的函数B(n)=ne。通常情况下,参数e的值为0.6。
步骤2:通过异质数据嵌入,将论文表示成向量的形式。
随着科学研究的不断发展,学术资源呈现多模态且异质的特点。基于分而治之的思想,这些数据可以根据其不同的数据形式通过不同的方法来构建特征。
本发明中,将异质数据分为两类:基于图谱的关系型数据、基于跨域关联的概率型数据。针对不同的数据形态,采用不同的嵌入化方法,并将各类型的特征表示进行级联,以代表最终实体的向量化表示。
包括以下步骤:
步骤2.1:关系数据处理。
学术图谱通常由5种实体和5种关系构成,其中,实体包括论文、出版物、出版年份、作者和科研机构,关系包括作者与科研论文之间的撰写关系、作者与科研机构的隶属关系、论文与出版物之间的刊载关系、论文与出版年份之间的时间关系和论文之间的引用关系。选取上述实体和关系,是因为这些实体与关系在各大文献数据库中均存在,因此有着较完整的数据一致性和较低的获取成本。
本发明中,具体采用TransD算法对文献图谱中的实体和关系进行向量化表示。TransD算法兼顾实体和关系的多样性表示,相较于其他图谱嵌入表示方法,TransD算法具有较少的训练参数,并且不存在矩阵向量乘法运算,这使得其能够在大型图谱数据上进行演算。
TransD算法中,为每个命名实体/关系赋予两个向量,其中,第一个捕获实体/关系的含义,另一个用于构造映射矩阵。设所构建的图谱g存在实体h、实体t以及实体间关系r,t∈N,r∈R,N表示实体集合(结点集合),R表示关系集合。h、t、r分别用于表示头结点、尾结点和实体间关系的向量化嵌入结果。给定一个三元组(h,t,r)其对应的表示向量为h、hp、t、tp∈Rn并且r、rp∈Rm,其中,后缀p表示映射向量,h、hp、t、tp表示向量,r、rp表示关系向量,Rn表示实体的向量集合,Rm表示关系的向量集合。因此,映射矩阵Mrh和Mrt∈Rmxn被定义为:
Mrh=rphp T+Imxn (4)
Mrt=rptp T+Imxn (5)
其中,Imxn代表单位矩阵,T表示矩阵转置。
基于此,实体的映射被进一步定义为:
h=Mrhh (6)
t=Mrt t (7)
其中,h表示h的映射向量,t表示t的映射向量。
使用得分函数fr(h,t)对三元组(h,t,r)嵌入训练后的向量结果进行评价:
fr(h,t)=||h+r-t||2 2 (8)
通过给定约束||h||2≤1、||t||2≤1、||r||2≤1、||h||2≤1和||t||2≤1,嵌入训练的损失函数
Figure BDA0003986215400000051
如式6所示:
Figure BDA0003986215400000052
其中,S表示正例三元组,h′和t′表示负实例,r′表示它们之间关系;[x]+表示x的绝对值,γ表示边缘距离的超参数,其值始终大于0;fr()表示r的积分函数,fr′()表示r′的积分函数;学术知识图谱中存在的三元组表示为(h,r,t)∈S,而训练中随机抽取产生的负例三元组表示为S′(h,r,t)
步骤2.2:文本数据处理。
概率型数据用于衡量论文之间的跨域关系,而学术领域之间的知识传播则表现为跨域的论文引用,跨域引用行为体现了论文作者对另一领域知识的偏好和对其潜在影响力的考量。因此,本发明通过论文之间的引用和未引用关系训练跨域论文之间的映射关系。
具体地,设W和M为两个不同的学术领域,其中Tw和TM分别表示W和M中论文所属的学科领域,PW和PM是两个领域带标记的论文语料库。令E={(p,q)|p∈PW,q∈PM,p引用q}表示正样本集合,集合中的元素是带有从W到M引用关系的论文对;E′={(p,q)|p∈PW,q∈PM,p没有引用q}表示负样本。
本发明的目标是基于E和E′来学习从W和M到同一平面Q的非对称的映射函数π。优化函数π,如式10所示:
L(θ)=∑(p,q)∈E,(p,q′)∈E′(MIC(π(xp),π(yq))-MIC(π(xp),π(yq′)) (10)
其中,θ表示所有需要学习的参数,xp表示p在领域W中的映射向量,yq表示q在领域M中的映射向量,yq′表示q′在领域M中的映射向量。
非对称的映射函数π通过一个三层的前馈神经网络获得向量表示,其中三层前馈神经网络具有两个指数线性单元层和一个sigmoid层,神经网络采用基于语义的论文表示形式
Figure BDA0003986215400000061
作为输入,映射到Q平面的向量/>
Figure BDA0003986215400000062
表示输出,如式11所示。
Figure BDA0003986215400000063
其中,
为提高鲁棒性,采用铰链损失函数的方法、添加正则化项,损失函数转化为:
Figure BDA0003986215400000064
/>
其中,∈表示铰链损失函数的参数,
Figure BDA0003986215400000065
表示正则化。
步骤3:利用跨域论文推荐模型,为用户推荐论文。
具体地,可以包括以下步骤:
步骤3.1:将论文和用户的不同向量表示进行合并。
用户有两种检索形式,一是提供几个关键词发起检索需求,二是提供感兴趣的文章发起检索需求,并依据上述的文本数据处理方法表示成向量的形式。
根据用户的已发表论文、出版物、出版年份、作者和科研机构以及五种实体之间的关系,构建知识图谱并表示成向量的形式。
为在每个用户或论文的嵌入过程中保留一阶和二阶相似度,本发明分别训练LINE(1st)和LINE(2nd)的模型,通过二者学习到的表征向量拼接得到一个长向量。
步骤3.2:训练三层前馈神经网络模型,为用户推荐跨域论文。
具体地,以用户U的检索信息为目标,类似与文本数据处理的过程,如果用户提供的关键词检索,则将用户感兴趣的论文列表作为正例,随机选择兴趣列表中不存在的论文作为负例;如果用户提供的论文检索,则划分正负例与文本数据完全相同。
因此,针对任意用户U构造一个三维的训练集<U,p+,p->来学习论文嵌入模型的参数,其中p+是tp对应的一个正例,p-是U对应的一个负例。使用式12的损失函数L(θ)训练论文嵌入模型,使该模型在U和p+之间得到MIC,同时在U和p-之间得到MIC。

Claims (3)

1.一种基于异质数据嵌入的跨域论文推荐方法,其特征在于,包括以下步骤:
步骤1:为论文数据集划分领域;首先为各学科构建有向无环图DAG,然后使用潜在狄利克雷分布模型提取领域语义,最后通过最大信息系数MIC学习跨域关联;
步骤2:通过异质数据嵌入,将论文和用户分别表示成向量的形式;
首先对文献图谱中的实体和关系进行向量化表示,然后通过论文之间的引用和未引用关系训练跨域论文之间的映射关系;
如果用户提供关键词检索,则依据关键词划分用户领域,用户的兴趣列表便是引用文献;
步骤3:利用跨域论文推荐模型,为用户推荐论文;
首先将论文和用户的不同向量表示进行合并,然后训练三层前馈神经网络模型,为用户推荐跨域论文。
2.如权利要求1所述的一种基于异质数据嵌入的跨域论文推荐方法,其特征在于,步骤1中,为各学科构建有向无环图DAG的方法如下:
用G代表一个学科分类的DAG,其中每个节点n以及它的孩子节点表示一个学术领域,n∈G;
用r表示跟节点,且r∈G;除根结点r外,每个节点都有一个父节点,表示为pa(n),pa(n)∈G;对于一个给定的论文语料库P,其中的词汇用Z表示;
论文的元数据包括标题、作者、摘要、关键词,以及一个或多个分类标签,对应于G中的节点;
对于任意一篇带有标签n∈G的论文p,p∈P,用变量yn,p=1来标记,否则yn,p=0;基于有向无环图的标记约束,如果p带有标记n,即yn,p=1,则p会被它的所有父节点标记,即ypa(n),p=1;如果p没有被n标记,则p也不会被n的孩子节点标记,即ych(n),p=0;
使用潜在狄利克雷分布模型提取领域语义的方法如下:
对于任意一篇论文p∈P,通过潜在狄利克雷分布模型LDA学习其主题概率分布p(l|p),得到p的词w和任意节点n∈G在l上的概率分布p(w|l)和p(n|l);其中,l表示主题;
通过最大信息系数MIC学习跨域关联的方法如下:
对于任意一篇论文p,通过p的分布概率p(w|l)与任意节点的分布概率p(n|l)之间的相关性来判断p所属的学科,采用MIC测量p(w|l)和p(n|l)之间的相关性。
3.如权利要求1所述的一种基于异质数据嵌入的跨域论文推荐方法,其特征在于,步骤2中,将异质数据分为两类:基于图谱的关系型数据、基于跨域关联的概率型数据;针对不同的数据形态,采用不同的嵌入化方法,并将各类型的特征表示进行级联,以代表最终实体的向量化表示;
首先,采用TransD算法对文献图谱中的实体和关系进行向量化表示,
设所构建的图谱g存在实体h、实体t以及实体间关系r,t∈N,r∈R,N表示实体集合,R表示关系集合;h、t、r分别用于表示头结点、尾结点和实体间关系的向量化嵌入结果;给定一个三元组(h,t,r)其对应的表示向量为h、hp、t、tp∈Rn并且r、rp∈Rm,其中,后缀p表示映射向量,h、hp、t、tp表示向量,r、rp表示关系向量,Rn表示实体的向量集合,Rm表示关系的向量集合;因此,映射矩阵Mrh和Mrt∈Rmxn被定义为:
Mrh=rphp T+Imxn (4)
Mrt=rptp T+Imxn (5)
其中,Imxn代表单位矩阵,T表示矩阵转置;
基于此,实体的映射被进一步定义为:
h=Mrhh (6)
t=Mrt t (7)
其中,h表示h的映射向量,t表示t的映射向量;
使用得分函数fr(h,t)对三元组(h,t,r)嵌入训练后的向量结果进行评价:
fr(h,t)=||h+r-t||2 2 (8)
通过给定约束||h||2≤1、||t||2≤1、||r||2≤1、||h||2≤1和||t||2≤1,嵌入训练的损失函数
Figure FDA0003986215390000021
如式6所示:
Figure FDA0003986215390000022
其中,S表示正例三元组,h′和t′表示负实例,r′表示它们之间关系;[x]+表示x的绝对值,γ表示边缘距离的超参数,其值始终大于0;fr()表示r的积分函数,fr′()表示r′的积分函数;学术知识图谱中存在的三元组表示为(h,r,t)∈S,而训练中随机抽取产生的负例三元组表示为S′(h,r,t)
通过论文之间的引用和未引用关系训练跨域论文之间的映射关系,方法如下:
设W和M为两个不同的学术领域,其中Tw和TM分别表示W和M中论文所属的学科领域,PW和PM是两个领域带标记的论文语料库;令E={(p,q)|p∈PW,q∈PM,p引用q}表示正样本集合,集合中的元素是带有从W到M引用关系的论文对;E′={(p,q)|p∈PW,q∈PM,p没有引用q}表示负样本;
基于E和E′来学习从W和M到同一平面Q的非对称的映射函数π,优化函数π如式10所示:
L(θ)=∑(p,q)∈E,(p,q′)∈E′(MIC(π(xp),π(yq))-MIC(π(xp),π(yq′)) (10)
其中,θ表示所有需要学习的参数,xp表示p在领域W中的映射向量,yq表示q在领域M中的映射向量,yq′表示q′在领域M中的映射向量;
非对称的映射函数π通过一个三层的前馈神经网络获得向量表示,其中三层前馈神经网络具有两个指数线性单元层和一个sigmoid层,神经网络采用基于语义的论文表示形式
Figure FDA0003986215390000031
作为输入,映射到Q平面的向量/>
Figure FDA0003986215390000032
表示输出,如式11所示;
Figure FDA0003986215390000033
其中,
为提高鲁棒性,采用铰链损失函数的方法、添加正则化项,损失函数转化为:
Figure FDA0003986215390000034
其中,∈表示铰链损失函数的参数,
Figure FDA0003986215390000035
表示正则化;
步骤3中,训练三层前馈神经网络模型为用户推荐跨域论文的方法如下:
以用户U的检索信息为目标,如果用户提供的关键词检索,则将用户感兴趣的论文列表作为正例,随机选择兴趣列表中不存在的论文作为负例;如果用户提供的论文检索,则划分正负例与文本数据完全相同;
针对任意用户U构造一个三维的训练集<U,p+,p->来学习论文嵌入模型的参数,其中p+是tp对应的一个正例,p-是U对应的一个负例,使用式12的损失函数L(θ)训练论文嵌入模型,使该模型在U和p+之间得到MIC,同时在U和p-之间得到MIC。
CN202211566343.5A 2022-12-07 2022-12-07 一种基于异质数据嵌入的跨域论文推荐方法 Pending CN116244497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211566343.5A CN116244497A (zh) 2022-12-07 2022-12-07 一种基于异质数据嵌入的跨域论文推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211566343.5A CN116244497A (zh) 2022-12-07 2022-12-07 一种基于异质数据嵌入的跨域论文推荐方法

Publications (1)

Publication Number Publication Date
CN116244497A true CN116244497A (zh) 2023-06-09

Family

ID=86626613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211566343.5A Pending CN116244497A (zh) 2022-12-07 2022-12-07 一种基于异质数据嵌入的跨域论文推荐方法

Country Status (1)

Country Link
CN (1) CN116244497A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076658A (zh) * 2023-08-22 2023-11-17 南京朗拓科技投资有限公司 基于信息熵的引文推荐方法、装置及终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076658A (zh) * 2023-08-22 2023-11-17 南京朗拓科技投资有限公司 基于信息熵的引文推荐方法、装置及终端
CN117076658B (zh) * 2023-08-22 2024-05-03 南京朗拓科技投资有限公司 基于信息熵的引文推荐方法、装置及终端

Similar Documents

Publication Publication Date Title
Noh et al. Keyword selection and processing strategy for applying text mining to patent analysis
Guo et al. SOR: An optimized semantic ontology retrieval algorithm for heterogeneous multimedia big data
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN106570191B (zh) 基于维基百科的中英文跨语言实体匹配方法
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN109145087B (zh) 一种基于表示学习和竞争理论的学者推荐及合作预测方法
Sun et al. Progress and challenges on entity alignment of geographic knowledge bases
WO2021128158A1 (zh) 一种基于网络表征和语义表征的同名作者消歧方法
Fengmei et al. FSFP: Transfer learning from long texts to the short
CN113343125B (zh) 一种面向学术精准推荐的异质科研信息集成方法及系统
CN107688870A (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Noel et al. Applicability of Latent Dirichlet Allocation to multi-disk search
CN114443855A (zh) 一种基于图表示学习的知识图谱跨语言对齐方法
Huang et al. Identification of topic evolution: Network analytics with piecewise linear representation and word embedding
Huang et al. Research on multi-label user classification of social media based on ML-KNN algorithm
CN115017315A (zh) 一种前沿主题识别方法、系统及计算机设备
CN116244497A (zh) 一种基于异质数据嵌入的跨域论文推荐方法
Wu et al. A novel topic clustering algorithm based on graph neural network for question topic diversity
Pan et al. Semantic-similarity-based schema matching for management of building energy data
Zhang et al. The study of subject-classification based on journal coupling and expert subject-classification system
Xia et al. Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation
Du et al. Recommendation of academic papers based on heterogeneous information networks
Katsurai Using word embeddings for library and information science research: A short survey
Eddamiri et al. Graph embeddings for linked data clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination