CN113268951B - 一种基于深度学习的引文推荐方法 - Google Patents

一种基于深度学习的引文推荐方法 Download PDF

Info

Publication number
CN113268951B
CN113268951B CN202110479095.XA CN202110479095A CN113268951B CN 113268951 B CN113268951 B CN 113268951B CN 202110479095 A CN202110479095 A CN 202110479095A CN 113268951 B CN113268951 B CN 113268951B
Authority
CN
China
Prior art keywords
quotation
candidate
word
context
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110479095.XA
Other languages
English (en)
Other versions
CN113268951A (zh
Inventor
顾亦然
周鹏
张远之
陈禹洲
姚朱鹏
顾超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110479095.XA priority Critical patent/CN113268951B/zh
Publication of CN113268951A publication Critical patent/CN113268951A/zh
Application granted granted Critical
Publication of CN113268951B publication Critical patent/CN113268951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的引文推荐方法,步骤如下:提取上下文、候选引文标题、摘要部分的关键词;使用BERT预训练模型对关键词进行处理,输出单词向量;建立GRU双向神经网络模型,对单词向量进行特征提取;引入注意力机制,将特征向量作为注意力机制的输入序列,输出候选引文集;引入时间衰减函数,根据引文发表时间及被引次数,对候选引文集进行处理,计算每个引文总得分值,按照总得分值进行排序,将排序结果推送给用户。本发明通过BERT预训练模型将单词向量化,再引入GRU双向神经网络模型和注意力机制,挖掘出与上下文相关联的引文进行推荐,根据文章发表时间和被引次数对推荐结果进一步筛选,提升了推荐引文的准确度。

Description

一种基于深度学习的引文推荐方法
技术领域
本发明涉及信息推荐领域,特别涉及一种基于深度学习的引文推荐方法。
背景技术
在科学文章写作过程中,通过引用现有文献来支撑自己观点是写作重要的一部分,随着大量文章涌现,写作人员往往需要花费很多时间在参差不齐的文章中寻找合适的参考文献,而引文推荐能够帮助写作人员快速找到合适的参考文献。
传统引文推荐方法包括基于内容的方法、基于图模型的方法以及基于主题模型的方法。基于内容的方法仅仅通过提取关键词来匹配相关联内容,但存在语义模糊的缺点;基于图模型的方法运用数据集中文章的各项信息来建立图模型,通过分析文章之间相关性进行推荐,但并未考虑文章中词与上下文之间的关联;基于主题模型的方法通过分析单词的概率分布提取全文主题,根据主题推荐引文,但缺少对文章上下文语义的分析。
发明内容
发明目的:针对以上问题,本发明目的是提供一种基于深度学习的引文推荐方法,利用BERT预训练模型和双向GRU双向神经网络挖掘深层次语义信息,提高引文推荐效果。
技术方案:本发明的一种基于深度学习的引文推荐方法,步骤如下:
(1)提取文章上下文、候选引文标题、候选引文摘要这三部分的关键词;
(2)使用BERT预训练模型对三部分关键词进行数据处理,将关键词转化成单词向量;
(3)建立GRU双向神经网络模型,将单词向量作为双向神经网络模型的输入,将文章上下文单词向量和每个候选引文单词向量分别输入到双向神经网路模型中,利用双向神经网络模型对文章上下文单词向量和每个候选引文的单词向量分别进行特征提取,得到文章上下文单词特征向量和每个候选引文单词特征向量;
(4)引入注意力机制,将步骤3提取的特征向量作为注意力机制的输入序列,其中包括文章上下文单词特征向量和每个候选引文单词特征向量,在输入序列上引入注意权重,对上下文和每个候选引文之间的单词进行交互,得到上下文和每个候选引文之间关联信息的位置集,将位置集转化成每个候选引文的得分值,根据得分值从高到低对每个候选引文进行排序,输出第一次候选引文集;
(5)引入时间衰减函数,根据每个候选引文发表时间及被引次数,对步骤4第一次候选引文集进行处理,得到每个引文总得分值,按照总得分值进行排序,将排序结果推送给用户。
进一步,步骤1包括:利用TF-IDF算法提取关键词,TF表示词频,IDF表示逆文档频率,提取关键词之前先去除用户写作文章上下文、候选引文中标题、摘要这三部分中的停用词,提取关键词之后对重复的词语进行去重操作。
进一步,步骤2中BERT预训练模型进行处理后,得到高维单词向量,再使用双向编码器将高维单词向量映射到低维向量作为步骤3的输入。
进一步,步骤3中特征提取包括:GRU双向神经网络模型包括更新门和重置门,利用更新门输出前一时刻状态信息被带入当前时刻的程度,利用重置门去除前一时刻的无效信息,输出提取后的特征向量。
进一步,步骤5先计算每个候选引文集的引文热度,再根据引文热度计算每个引文的总得分值。
有益效果:本发明与现有技术相比,其显著优点是:本发明通过BERT预训练模型将单词向量化,清楚表示出语义信息;再引入GRU双向神经网络模型和注意力机制,挖掘出与文章上下文相关联的引文进行推荐,根据文章发表时间和被引次数对推荐结果进一步筛选,提升了推荐引文的准确度。
附图说明
图1为本发明的流程图。
具体实施方式
本实施例所述的一种基于深度学习的引文推荐方法,流程图如图1所示,步骤如下:
(1)去除文章上下文、候选引文中标题、候选引文摘要这三部分中的停用词,然后利用TF-IDF算法提取这三部分所有语句中的关键词,对提取到的关键词中重复的词语进行去重操作。
(2)使用BERT预训练模型分别对步骤1去重后的三部分关键词进行数据处理,将关键词转化成单词向量,由于得到的是高维单词向量,再使用双向编码器Transformer将高维单词向量映射到低维单词向量。
(3)建立GRU双向神经网络模型,将步骤2三部分低维单词向量分别输入到双向神经网络模型,单词向量包括每个句子的序列信息,根据序列信息利用神经网络模型对单词向量分别进行特征提取,输出文章上下文单词特征向量和候选引文单词特征向量。
GRU双向神经网络模型包括更新门和重置门,利用更新门输出前一时刻状态信息被带入当前时刻的程度,利用重置门去除前一时刻的无效信息,输出提取后的特征向量。
更新门计算公式为:
rt=σ(Wrxt+Wrht-1+br)
其中σ表示激活函数,Wr是更新门中的权重矩阵,xt表示当前时刻的输入,ht-1分别表示前一时刻的隐层状态信息,br为更新门中的偏置量,rt是更新门计算结果,表示需要重置信息的程度。
重置门计算公式为:
zt=σ(Wzxt+Wzht-1+bz)
其中Wz是重置门中的权重矩阵,bz为重置门中的偏置量,zt是更新门计算结果,表示需要更新信息的程度。
当前时刻状态信息计算过程公式为:
Figure BDA0003048465670000031
Figure BDA0003048465670000032
式中Wh是当前时刻权重矩阵,ht-1表示上一时刻隐层状态信息,bh为当前时刻偏置量,
Figure BDA0003048465670000033
是候选激活状态信息。首先计算候选引文中激活状态信息,然后利用上一时刻的隐层状态信息和候选激活状态信息计算当前时刻隐层状态信息。
经过GRU双向神经网络模型后输出特征向量表达式为:
yt=σ(Woht)
其中Wo是GRU输出层中的权重矩阵,特征向量yt表示能够保留下来文本语义特征,包括文章上下文语义特征和推荐引文语义特征。
(4)引入注意力机制,将步骤3提取的特征向量yt包括文章上下文特征向量和推荐引文特征向量,作为注意力机制的输入序列
Figure BDA0003048465670000034
输入到注意力机制中,在输入序列上引入注意权重α。
注意力机制的计算表达式为:
Figure BDA0003048465670000035
其中αij为注意力机制中的分配系数,
Figure BDA0003048465670000036
是文章上下文和推荐引文的特征向量对应的语义编码,内容特征向量cj是编码器所有隐藏状态信息及其相应分配系数的加权和,i,j表示上一层输入序列的下标和注意力机制中解码位置下标,n为步骤三中经过GRU输出的向量数量。
对上下文及每个候选引文之间的单词进行交互,计算单词之间的匹配度,挖掘文本之间的关系,得到上下文及候选引文之间关联信息的位置集,经过softmax层后得到每个引文的得分值y,表达式为:
Figure BDA0003048465670000041
根据每个引文得分值从高到低对候选引文进行排序,选出Top-N个引文作为第一次候选引文集。
(5)引入时间衰减函数,根据引文发表时间及被引次数,对步骤4选出来的第一次候选引文集利用函数计算每个引文的引文热度,函数表达式为:
Figure BDA0003048465670000042
其中,λ为衰减因子,取-1/10,t为当前年份,t0为文章发表年份,k为引用次数。
再根据引文热度计算每个引文的总得分值,表达式为:
Figure BDA0003048465670000043
其中,smax为候选引文集中热度最高的分值。
按照总得分值进行排序,将排序结果推送给用户,用户根据排序结果选择与当前上下文相关的引文。

Claims (5)

1.一种基于深度学习的引文推荐方法,其特征在于,步骤如下:
(1)提取文章上下文、候选引文标题、候选引文摘要这三部分的关键词;
(2)使用BERT预训练模型对三部分关键词进行数据处理,将关键词转化成单词向量;
(3)建立GRU双向神经网络模型,将单词向量作为双向神经网络模型的输入,将文章上下文单词向量和每个候选引文单词向量分别输入到双向神经网路模型中,利用双向神经网络模型对文章上下文单词向量和每个候选引文的单词向量分别进行特征提取,得到文章上下文单词特征向量和每个候选引文单词特征向量;
(4)引入注意力机制,将步骤3提取的特征向量作为注意力机制的输入序列,其中包括文章上下文单词特征向量和每个候选引文单词特征向量,在输入序列上引入注意权重,对上下文和每个候选引文之间的单词进行交互,得到上下文和每个候选引文之间关联信息的位置集,将位置集转化成每个候选引文的得分值,根据得分值从高到低对每个候选引文进行排序,输出第一次候选引文集;
(5)引入时间衰减函数,根据每个候选引文发表时间及被引次数,对步骤4第一次候选引文集进行处理,得到每个引文总得分值,按照总得分值进行排序,将排序结果推送给用户。
2.根据权利要求1所述的引文推荐方法,其特征在于,步骤1包括:利用TF-IDF算法提取关键词,TF表示词频,IDF表示逆文档频率,提取关键词之前先去除用户写作文章上下文、候选引文中标题、摘要这三部分中的停用词,提取关键词之后对重复的词语进行去重操作。
3.根据权利要求1所述的引文推荐方法,其特征在于,步骤2中BERT预训练模型进行处理后,得到高维单词向量,再使用双向编码器将高维单词向量映射到低维向量作为步骤3的输入。
4.根据权利要求3所述的引文推荐方法,其特征在于,步骤3中特征提取包括:GRU双向神经网络模型包括更新门和重置门,利用更新门输出前一时刻状态信息被带入当前时刻的程度,利用重置门去除前一时刻的无效信息,输出提取后的特征向量。
5.根据权利要求4所述的引文推荐方法,其特征在于,步骤5先计算每个候选引文集的引文热度,再根据引文热度计算每个引文的总得分值。
CN202110479095.XA 2021-04-30 2021-04-30 一种基于深度学习的引文推荐方法 Active CN113268951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110479095.XA CN113268951B (zh) 2021-04-30 2021-04-30 一种基于深度学习的引文推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110479095.XA CN113268951B (zh) 2021-04-30 2021-04-30 一种基于深度学习的引文推荐方法

Publications (2)

Publication Number Publication Date
CN113268951A CN113268951A (zh) 2021-08-17
CN113268951B true CN113268951B (zh) 2023-05-30

Family

ID=77229746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110479095.XA Active CN113268951B (zh) 2021-04-30 2021-04-30 一种基于深度学习的引文推荐方法

Country Status (1)

Country Link
CN (1) CN113268951B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145190A (zh) * 2018-08-27 2019-01-04 安徽大学 一种基于神经机器翻译技术的局部引文推荐方法及系统
CN111581401A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于深度相关性匹配的局部引文推荐系统及方法
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218344B2 (en) * 2012-06-29 2015-12-22 Thomson Reuters Global Resources Systems, methods, and software for processing, presenting, and recommending citations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145190A (zh) * 2018-08-27 2019-01-04 安徽大学 一种基于神经机器翻译技术的局部引文推荐方法及系统
CN111581401A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于深度相关性匹配的局部引文推荐系统及方法
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法

Also Published As

Publication number Publication date
CN113268951A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
Almuzaini et al. Impact of stemming and word embedding on deep learning-based Arabic text categorization
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN110413768B (zh) 一种文章题目自动生成方法
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN111753550A (zh) 一种自然语言的语义解析方法
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN110569505A (zh) 一种文本输入方法及装置
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
Ye et al. Improving cross-domain Chinese word segmentation with word embeddings
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
CN111222329B (zh) 句向量训练方法及模型、句向量预测方法及系统
CN113723103A (zh) 融合多源知识的中文医学命名实体和词性联合学习方法
CN111428501A (zh) 命名实体的识别方法、识别系统及计算机可读存储介质
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN112784602A (zh) 基于远程监督的新闻情感实体抽取方法
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210817

Assignee: Nanjing Yunkai Data Technology Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2023980050259

Denomination of invention: A citation recommendation method based on deep learning

Granted publication date: 20230530

License type: Common License

Record date: 20231207

Application publication date: 20210817

Assignee: Jiangsu Hongzhi Construction Engineering Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2023980050258

Denomination of invention: A citation recommendation method based on deep learning

Granted publication date: 20230530

License type: Common License

Record date: 20231206

EE01 Entry into force of recordation of patent licensing contract