CN109299257B - 一种基于lstm和知识图谱的英文期刊推荐方法 - Google Patents

一种基于lstm和知识图谱的英文期刊推荐方法 Download PDF

Info

Publication number
CN109299257B
CN109299257B CN201811087475.3A CN201811087475A CN109299257B CN 109299257 B CN109299257 B CN 109299257B CN 201811087475 A CN201811087475 A CN 201811087475A CN 109299257 B CN109299257 B CN 109299257B
Authority
CN
China
Prior art keywords
paper
word
journal
vector
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811087475.3A
Other languages
English (en)
Other versions
CN109299257A (zh
Inventor
缪华武
岳慧颖
吴志根
魏佳俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Keyi Caicheng Technology Co ltd
Original Assignee
Hangzhou Keyi Caicheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Keyi Caicheng Technology Co ltd filed Critical Hangzhou Keyi Caicheng Technology Co ltd
Priority to CN201811087475.3A priority Critical patent/CN109299257B/zh
Publication of CN109299257A publication Critical patent/CN109299257A/zh
Application granted granted Critical
Publication of CN109299257B publication Critical patent/CN109299257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于LSTM和知识图谱的英文期刊推荐方法。该方法首先对采集的论文内容进行特征提取;基于这些特征,进行论文的聚类分析、知识图谱的构建,从而生成候选期刊列表和推荐期刊列表;用户输入论文的题目和摘要后可快速查询并得到推荐的期刊列表。本方法能让用户快速定位适合投稿的目标英文期刊,对精准发表科研成果具有重要意义。

Description

一种基于LSTM和知识图谱的英文期刊推荐方法
技术领域
本发明涉及智能搜索和推荐技术领域,尤其涉及一种基于LSTM和知识图谱的英文期刊推荐方法。
背景技术
2018年公布的上万本SCI期刊数据库中,96%的细分研究领域有超过10本SCI期刊,最多期刊的研究领域达到了353本(经济学领域)。面对如此众多的SCI期刊,如果没有丰富的论文发表经验,将可能在投稿前选择目标期刊时无从下手。如果不能精准地找到适合自己论文的英文期刊,不仅不会让论文顺利发表,而且长达3-6个月的审稿极大地延误了发表时间。基于以上困难,本专利提供了一种快速准确的英文期刊推荐方法,用户可输入论文题目和摘要进行内容匹配,并可选择审稿时间区间(比如3个月内),中国人录用比例(比如50%以上),影响因子(比如2以上)进行筛选和排序期刊。结果排序输出符合要求的SCI期刊。
发明内容
针对现有的技术空白和缺点,本发明提出了一种英文期刊推荐方法。该方法能为用户快速、精准地匹配适合发表篇英文论文的英文期刊,并可以根据不同要求设置不同权重进行推荐期刊的排序,从而优化选择期刊。
一种基于LSTM和知识图谱的英文期刊推荐方法,其包括以下步骤:
S1:首先从各个英文期刊所在搜索数据库中获取论文题目和摘要信息并形成论文集存储;同时建立每篇论文与所属期刊之间的论文-期刊映射关系;
S2:对提取到的论文题目和摘要,利用LSTM(Long Short Term Memory)模型对论文的内容和写作风格进行特征表示,形成每篇论文的特征表示向量,具体包含以下子步骤:
S201:对于论文集中所有论文,利用NLTK(Natural Language Toolkit)工具进行单词分割,剔除掉停用词、特殊字符、出现频率低于频率阈值的词,为论文集构造一个词典D,D中的单词总个数为|D|;
S202:对于词典D中的每个单词,利用one-hot编码构成稀疏特征表示矩阵,生成词编码矩阵X∈R|D|*|D|,词编码矩阵的元素Xij表示第i个单词第j列为1,其他为0;
S203:对于词典D中的每个单词,构造词向量矩阵M∈R|D|×K,K为每个单词的低维特征表示长度,每个单词的低维特征用公式xi=XiM计算,其中xi为第i个单词的低维特征,Xi为第i个单词的词编码向量矩阵,M为词向量矩阵;
S204:对于每一篇论文d={a1,a2,a3,…,an},n为所述论文的单词个数,ai表示所述论文的第i个单词,首先经过词编码矩阵X,提取论文中的每个单词的词编码向量矩阵,然后生成整篇论文的词向量矩阵I∈Rn×K,并将其作为LSTM模型的输入计算所述论文的特征表示向量;
S205:对论文集中的每篇论文进行步骤S204的操作后,形成论文集中所有论文的特征表示向量O∈RN×L,其中N为论文集中论文的总篇数,L为每篇论文的特征表示向量的长度;
S3:对于用户提交论文q,进行步骤S201-S204的操作,计算得到该论文的特征表示向量Vq;对论文集中的所有论文进行聚类,并判断用户提交论文q所属的类别;利用欧式距离计算用户提交论文q与其所属类别下所有论文的相似度,构成1×|Ck|的相似向量,|Ck|为用户提交论文q所属的第k个类别下的论文数量,取相似度最高的P篇论文,利用论文-期刊映射关系生成候选期刊列表L1;
S4:对论文集构建论文知识图谱,并结合用户提交论文的引用论文数据,提取所属领域的期刊,形成候选期刊列表L2,具体包括以下子步骤:
S401:从论文集中每篇论文的论文摘要和引言中,利用NLTK抽取关键词,对每个关键词提取其词特征向量,然后利用回归模型计算每个关键词属于要提取的实体的概率pw,计算过程为:
Figure BDA0001803517280000021
其中Wi为权重向量,x`i为第i个关键词的词特征向量,n1为每篇论文中抽取的关键词的总数;
基于计算得到的概率,通过设定概率阈值后确定抽取到的实体;
S402:提取实体的词特征向量,并利用深度神经网络建立实体间的关系模型,计算过程为:
Figure BDA0001803517280000031
其中
Figure BDA0001803517280000032
表示第l层的第j个神经元的取值,
Figure BDA0001803517280000033
表示第l-1层的第k个神经元的取值,
Figure BDA0001803517280000034
表示权重,
Figure BDA0001803517280000035
表示偏置项,σ=1/(1+e-x)表示激活函数,
Figure BDA0001803517280000036
m为第l-1层的神经元总数;
S403:基于上述S402的计算过程,首先建立实体-实体间的知识图谱,然后融合第一作者、期刊和合作者构建完整的知识图谱,所构造的知识图谱利用RDF文件形式进行存储;
S404:分析用户提交论文的引用论文数据,并利用S401的方法从用户提交论文中抽取实体,然后利用知识推理技术,从知识图谱中提取用户提交论文所属领域的期刊,形成候选期刊列表L2;
S5:获取用户的期刊查询关键内容,所述关键内容包括若干用户对期望投稿期刊的查询关键词,允许用户为不同查询关键词设置不同的重要性权重
Figure BDA0001803517280000037
其中n2为用户查询的关键词的个数,最终形成关键内容向量r以及权重向量w;
S6:将候选期刊列表L1和L2进行合并,利用网络爬虫采集合并列表中每个期刊对应的包括所述查询关键词在内的关键内容向量t;
S7:计算用户查询的关键内容向量r与候选期刊的关键内容向量t的相关度,并基于排序结果返回若干个匹配度最高的期刊进行推荐。
作为优选,S1中的论文题目和摘要信息通过针对不同的英文期刊所在搜索数据库制定网页爬虫规则,进行自动获取。
作为优选,S2中所述的停用词是指使用频率非常高的词。
作为优选,S3中所述的聚类是指对获取的论文集的特征向量进行聚类分析,将相似内容和风格的论文聚成不同的群体,具体计算过程如下:
S301:对于N×L的输入矩阵O,首先随机生成的L个聚类中心Ck,k∈[1,L];
S302:计算每篇论文特征向量Oi到所有聚类中心Ck的欧式距离,将每篇论文归属到聚类最近的类中;
S303:重新计算新的聚类中心点,计算过程为:
Figure BDA0001803517280000041
其中|Ck|为第k个类别下的论文数量,
Figure BDA0001803517280000042
表示类簇Ck中第i个样本的第j个特征取值;
S304:重复S301-S303,直到聚类中心点的误差小于预设阈值,即
Figure BDA0001803517280000043
作为优选,S304中所述的预设阈值τ的取值为0.00001。
作为优选,S4中深度神经网络的层数为5,可根据实际情况进行调整。
作为优选,S5中所述的查询关键词包括JCR分区、可接受审稿周期、影响因子、作者所属国籍的投稿人录用比例。
作为优选,S7中利用加权的余弦相似度计算方法计算用户查询的关键内容向量r与候选期刊的关键内容向量t的相关度,其中加权余弦相似度计算方法为:
Figure BDA0001803517280000044
其中ti和ri分别为t和r中的第i个元素。
与传统的推荐方法相比,本发明的一种基于LSTM和知识图谱的英文期刊推荐方法,能够让用户快速、精准地匹配适合发表的英文论文的英文期刊,并可以根据不同要求设置不同权重进行推荐期刊的排序。
附图说明
图1是本发明的流程示意图;
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述。
如图1所示,一种基于LSTM和知识图谱的英文期刊推荐方法,包括以下步骤:
S1:首先通过针对不同的英文期刊所在搜索数据库制定网页爬虫规则,自动从各个英文期刊所在搜索数据库中获取论文题目和摘要信息并形成论文集存储;同时建立每篇论文与所属期刊之间的论文-期刊映射关系;
S2:对提取到的论文题目和摘要,利用LSTM模型对论文的内容和写作风格进行特征表示,形成每篇论文的特征表示向量<期刊ID、论文ID、论文特征表示向量>,具体包含以下子步骤S201~S205:
S201:对于论文集中所有论文的论文题目和摘要,利用NLTK工具进行单词分割,剔除掉停用词、特殊字符、出现频率低于频率阈值的词后,为论文集构造一个词典D,D中的单词总个数为|D|;停用词是指那些使用频率非常高的词,如the、a、an等;特殊字符是指数学符号、图形文字等;频率阈值可以根据实际进行调整;
S202:对于词典D中的每个单词,利用one-hot编码构成稀疏特征表示矩阵,生成词编码矩阵X∈R|D|*|D|,词编码矩阵的元素Xij表示第i个单词第j列为1,其他元素为0;
S203:对于词典中的每个单词,构造词向量矩阵M∈R|D|×K,K为每个单词的低维特征表示长度,每个单词的低维特征用公式xi=XiM计算,其中xi为第i个单词的低维特征,Xi为第i个单词的词编码向量矩阵,M为词向量矩阵;
S204:对于每一篇论文d={a1,a2,a3,…,an},n为所述论文的单词个数,ai表示所述论文的第i个单词,首先经过词编码矩阵X,提取论文中的每个单词的词编码向量矩阵,然后生成整篇论文的词向量矩阵I∈Rn×K,并将其作为LSTM模型的输入计算所述论文的特征表示向量;
S205:对论文集中的每篇论文进行步骤S204的操作后,形成论文集中所有论文的特征表示向量O∈RN×L,其中N为论文集中论文的总篇数,L为每篇论文的特征表示向量的长度;
S3:对于用户提交论文q,进行步骤S201-S204的操作,计算得到该论文的特征表示向量Vq;对论文集中的所有论文进行聚类,并判断用户提交论文q所属的类别;利用欧式距离计算用户提交论文q与其所属类别下所有论文的相似度,构成1×|Ck|的相似向量,|Ck|为用户提交论文q所属的第k个类别下的论文数量,取相似度最高的P篇论文,利用论文-期刊映射关系生成候选期刊列表L1;P的具体取值可以根据实际进行调整;
本步骤中的聚类是指对获取的论文集的特征表示向量进行聚类分析,将相似内容和风格的论文聚成不同的群体,本发明采用k-Mean聚类算法进行聚类。具体计算过程如下S301~S304:
S301:对于N×L的输入矩阵O,首先随机生成的L个聚类中心Ck,k∈[1,L];
S302:计算每篇论文特征向量Oi到所有聚类中心Ck的欧式距离,将每篇论文归属到聚类最近的类中;
S303:重新计算新的聚类中心点,计算过程为:
Figure BDA0001803517280000061
其中|Ck|为第k个类别下的论文数量,
Figure BDA0001803517280000062
表示类簇Ck中第i个样本的第j个特征取值;
S304:重复S301-S303,直到聚类中心点的误差小于预设阈值,即
Figure BDA0001803517280000063
预设阈值τ可以根据需要进行调整,本发明中取值为0.00001。
S4:对论文集构建论文知识图谱,并结合用户提交论文的引用论文数据,提取所属领域的主要期刊,形成候选期刊列表L2,具体包括以下子步骤S401~S404:
S401:从论文集中每篇论文的论文摘要和引言中,利用NLTK抽取关键词,对每个关键词提取其词特征向量,然后利用回归模型计算每个关键词属于要提取的实体的概率pw,计算过程为:
Figure BDA0001803517280000064
其中Wi为权重向量,x`i为第i个关键词的词特征向量,n1为每篇论文中抽取的关键词的总数;
基于计算得到的概率,通过设定概率阈值后确定抽取到的实体;概率阈值也可以根据实际调整;
S402:提取实体的词特征向量,并利用深度神经网络建立实体间的关系模型,计算过程为:
Figure BDA0001803517280000065
其中
Figure BDA0001803517280000066
表示第l层的第j个神经元的取值,
Figure BDA0001803517280000067
表示第l-1层的第k个神经元的取值,
Figure BDA0001803517280000068
表示权重,
Figure BDA0001803517280000069
表示偏置项,σ=1/(1+e-x)表示激活函数,
Figure BDA00018035172800000610
m为第l-1层的神经元总数;本发明中深度神经网络的层数为5,可根据实际情况进行调整。
S403:基于上述S402的计算过程,首先建立实体-实体间的知识图谱,然后融合第一作者、期刊和合作者构建完整的知识图谱,所构造的知识图谱利用RDF文件形式进行存储;
S404:分析用户提交论文的引用论文数据,并利用S401的方法从用户提交论文中抽取实体,然后利用知识推理技术,从知识图谱中提取用户提交论文所属领域的期刊,形成候选期刊列表L2;
S5:获取用户的期刊查询关键内容,所述关键内容包括若干用户对期望投稿期刊的查询关键词,本发明中允许用户为不同查询关键词设置不同的重要性权重
Figure BDA0001803517280000071
其中n2为用户查询的关键词的个数,最终形成关键内容向量r以及权重向量w;查询关键词可以是JCR分区、可接受审稿周期、影响因子、作者所属国籍的投稿人录用比例等科研人员较为重视的因素,可根据用户需求进行选择。
S6:将候选期刊列表L1和L2进行合并形成初步的推荐期刊列表,利用网络爬虫采集合并列表中每个期刊对应的包括上述查询关键词在内的关键内容向量t;
S7:计算用户查询的关键内容向量r与候选期刊的关键内容向量t的相关度,并基于排序结果返回若干个匹配度最高的期刊进行推荐。相关度的计算可利用加权的余弦相似度计算方法,具体方法为:
Figure BDA0001803517280000072
其中ti和ri分别为t和r中的第i个元素。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
下面基于上述方法进行实验,本实施例的实现方法如前所述,不再详细阐述具体的步骤。下面仅以一个案例为例,展示其应用本发明方法得到的推荐结果。
本实施例按照S1的方式抓取了7千万篇论文题目和摘要组成大数据库,按照本发明的上述S1~S7方法进行步骤执行。
其中用户提交的论文题目为:
A dual-functional retrofitting method for corroded reinforcedconcrete beams
论文摘要为:
Corrosion of steel re-bars in reinforced concrete(RC)structures is asignificant factor in structure deterioration.Impressed current cathodicprotection(ICCP)is an efficient method to prevent further corrosion of there-bars,while bonding CFRP to the RC structures can help improve the loadingcapacity of the damaged structures.This study proposes a new dual-functionalmethod to retrofit the RC structures by using the carbon-fiber reinforcedcementitious matrix(C-FRCM).The C-FRCM composite,comprised of CFRP mesh andinorganic cementitious material,is both the anodic material in the ICCPprocess as well as the structural strengthening material.This paper presentsan experimental program consisting of 11simply supported beams,10of themsubjected to accelerated corrosion process for 130days.The corroded specimenswere afterwards bonded with C-FRCM composite,protected by ICCP for 130days,and finally tested.In this study,the flexure strength of the beams,thedeflection and curvature of the specimens,the strain of re-bars,the mass lossof the re-bars,and the open circuit potential of re-bars are obtained andused to assess the performance of the repaired specimens.The proposedtechnique has been shown to be effective in retarding the corrosion of steeland recovering the loading capacity of the corroded specimens.In addition,this paper also presents a comparison of the experimental results and thecapacity predictions by the international design guideline ACI 440.2R-08.Theexisting design method has been shown to be only slightly conservative forthe flexural design of retrofitted beams.The proposed repair method will bebeneficial for the durability of RC structures,especially those withcontaminated chlorides or those located in a marine environment,whereas moreinvestigations on the rational design approaches are needed in order topromote the use of this innovative retrofitting method.
选择的查询关键词为期刊影响因子、中国人发文比例、发表难度、审稿时间(月)、录用时间(月),得到最终的推荐结果如下:
表1最终推荐结果(按中国人发文比例排序)
Figure BDA0001803517280000081
综上所述,本发明方法能取得较理想的效果,让科研人员快速、精准地匹配适合发表篇英文论文的英文期刊,并可以根据不同要求设置不同权重进行推荐期刊的排序,对精准发表科研成果具有重要意义。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (6)

1.一种基于LSTM和知识图谱的英文期刊推荐方法,其特征在于包括以下步骤:
S1:首先从各个英文期刊所在搜索数据库中获取论文题目和摘要信息并形成论文集存储;同时建立每篇论文与所属期刊之间的论文-期刊映射关系;
S2:对提取到的论文题目和摘要,利用LSTM模型对论文的内容和写作风格进行特征表示,形成每篇论文的特征表示向量,具体包含以下子步骤:
S201:对于论文集中所有论文,利用NLTK工具进行单词分割,剔除掉停用词、特殊字符、出现频率低于频率阈值的词后,为论文集构造一个词典D,D中的单词总个数为|D|;
S202:对于词典D中的每个单词,利用one-hot编码构成稀疏特征表示矩阵,生成词编码矩阵X∈R|D|*|D|,词编码矩阵的元素Xij表示第i个单词第j列为1,其他为0;
S203:对于词典中的每个单词,构造词向量矩阵M∈R|D|×R,K为每个单词的低维特征表示长度,每个单词的低维特征用公式xi=XiM计算,其中xi为第i个单词的低维特征,Xi为第i个单词的词编码向量矩阵,M为词向量矩阵;
S204:对于每一篇论文d={a1,a2,a3,...,an},n为所述论文的单词个数,ai表示所述论文的第i个单词,首先经过词编码矩阵X,提取论文中的每个单词的词编码向量矩阵,然后生成整篇论文的词向量矩阵I∈Rn×K,并将其作为LSTM模型的输入计算所述论文的特征表示向量;
S205:对论文集中的每篇论文进行步骤S204的操作后,形成论文集中所有论文的特征表示向量O∈RN×L,其中N为论文集中论文的总篇数,L为每篇论文的特征表示向量的长度;
S3:对于用户提交论文q,进行步骤S201-S204的操作,计算得到该论文的特征表示向量Vq;对论文集中的所有论文进行聚类,并判断用户提交论文q所属的类别;利用欧式距离计算用户提交论文q与其所属类别下所有论文的相似度,构成1×|Ck|的相似向量,|Ck|为用户提交论文q所属的第k个类别下的论文数量,取相似度最高的P篇论文,利用论文-期刊映射关系生成候选期刊列表L1;
S4:对论文集构建论文知识图谱,并结合用户提交论文的引用论文数据,提取所属领域的期刊,形成候选期刊列表L2,具体包括以下子步骤:
S401:从论文集中每篇论文的论文摘要和引言中,利用NLTK抽取关键词,对每个关键词提取其词特征向量,然后利用回归模型计算每个关键词属于要提取的实体的概率pw,计算过程为:
Figure FDA0002579381700000021
其中Wi为权重向量,x`i为第i个关键词的词特征向量,n1为每篇论文中抽取的关键词的总数;
基于计算得到的概率,通过设定概率阈值后确定抽取到的实体;
S402:提取实体的词特征向量,并利用深度神经网络建立实体间的关系模型,计算过程为:
Figure FDA0002579381700000022
其中
Figure FDA0002579381700000023
表示第l层的第j个神经元的取值,
Figure FDA0002579381700000024
表示第l-1层的第k个神经元的取值,
Figure FDA0002579381700000025
表示权重,
Figure FDA0002579381700000026
表示偏置项,σ=1/(1+e-x)表示激活函数,
Figure FDA0002579381700000027
m为第l-1层的神经元总数;
S403:基于上述S402的计算过程,首先建立实体-实体间的知识图谱,然后融合第一作者、期刊和合作者构建完整的知识图谱,所构造的知识图谱利用RDF文件形式进行存储;
S404:分析用户提交论文的引用论文数据,并利用S401的方法从用户提交论文中抽取实体,然后利用知识推理技术,从知识图谱中提取用户提交论文所属领域的期刊,形成候选期刊列表L2;
S5:获取用户的期刊查询关键内容,所述关键内容包括若干用户对期望投稿期刊的查询关键词,允许用户为不同查询关键词设置不同的重要性权重
Figure FDA0002579381700000028
其中n2为用户查询的关键词的个数,最终形成关键内容向量r以及权重向量w;
S6:将候选期刊列表L1和L2进行合并,利用网络爬虫采集合并列表中每个期刊对应的包括所述查询关键词在内的关键内容向量t;
S7:计算用户查询的关键内容向量r与候选期刊的关键内容向量t的相关度,并基于排序结果返回若干个匹配度最高的期刊进行推荐。
2.根据权利要求1所述的基于LSTM和知识图谱的英文期刊推荐方法,其特征在于S1中的论文题目和摘要信息,通过针对不同的英文期刊所在搜索数据库制定网页爬虫规则,进行自动获取。
3.根据权利要求1所述的基于LSTM和知识图谱的英文期刊推荐方法,其特征在于S2中所述的停用词是指使用频率非常高的词。
4.根据权利要求1所述的基于LSTM和知识图谱的英文期刊推荐方法,其特征在于S4中深度神经网络的层数为5。
5.根据权利要求1所述的基于LSTM和知识图谱的英文期刊推荐方法,其特征在于S5中所述的查询关键词包括JCR分区、可接受审稿周期、影响因子、作者所属国籍的投稿人录用比例。
6.根据权利要求1所述的基于LSTM和知识图谱的英文期刊推荐方法,其特征在于,S7中利用加权的余弦相似度计算方法计算用户查询的关键内容向量r与候选期刊的关键内容向量t的相关度,其中加权余弦相似度计算方法为:
Figure FDA0002579381700000031
其中ti和ri分别为t和r中的第i个元素。
CN201811087475.3A 2018-09-18 2018-09-18 一种基于lstm和知识图谱的英文期刊推荐方法 Active CN109299257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811087475.3A CN109299257B (zh) 2018-09-18 2018-09-18 一种基于lstm和知识图谱的英文期刊推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811087475.3A CN109299257B (zh) 2018-09-18 2018-09-18 一种基于lstm和知识图谱的英文期刊推荐方法

Publications (2)

Publication Number Publication Date
CN109299257A CN109299257A (zh) 2019-02-01
CN109299257B true CN109299257B (zh) 2020-09-15

Family

ID=65163582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811087475.3A Active CN109299257B (zh) 2018-09-18 2018-09-18 一种基于lstm和知识图谱的英文期刊推荐方法

Country Status (1)

Country Link
CN (1) CN109299257B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134800A (zh) * 2019-04-17 2019-08-16 深圳壹账通智能科技有限公司 一种文档关系可视化处理方法及装置
CN110362826A (zh) * 2019-07-05 2019-10-22 武汉莱博信息技术有限公司 基于人工智能的期刊投稿方法、设备及可读存储介质
CN112685452B (zh) * 2020-12-31 2021-08-10 特赞(上海)信息科技有限公司 企业案例检索方法、装置、设备和存储介质
CN112836120B (zh) * 2021-01-27 2024-03-22 深圳大学 一种基于多模态知识图谱的电影推荐方法、系统及终端
CN112905891B (zh) * 2021-03-05 2021-12-10 中国科学院计算机网络信息中心 基于图神经网络的科研知识图谱人才推荐方法及装置
CN112989053A (zh) * 2021-04-26 2021-06-18 北京明略软件系统有限公司 一种期刊推荐方法及装置
CN114372132A (zh) * 2022-01-11 2022-04-19 同方知网数字出版技术股份有限公司 一种界定领域专业期刊的方法
CN114154478B (zh) * 2022-02-07 2022-07-05 杭州未名信科科技有限公司 一种论文审稿人确定方法和系统
CN114625843B (zh) * 2022-04-06 2022-11-29 山东亿方锦泽信息科技有限公司 基于知识图谱的查询方法及装置
CN115293114B (zh) * 2022-10-08 2023-01-10 成都西南财大交子金融科技创新研究院有限公司 一种基于目标期刊智能格式修订方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425799A (zh) * 2013-09-04 2013-12-04 北京邮电大学 基于主题的个性化研究方向推荐系统和推荐方法
CN105631018A (zh) * 2015-12-29 2016-06-01 上海交通大学 基于主题模型的文章特征抽取方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107292933A (zh) * 2017-04-27 2017-10-24 浙江工业大学 一种基于bp神经网络的车辆颜色识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7607083B2 (en) * 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
WO2006133252A2 (en) * 2005-06-08 2006-12-14 The Regents Of The University Of California Doubly ranked information retrieval and area search

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425799A (zh) * 2013-09-04 2013-12-04 北京邮电大学 基于主题的个性化研究方向推荐系统和推荐方法
CN105631018A (zh) * 2015-12-29 2016-06-01 上海交通大学 基于主题模型的文章特征抽取方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107292933A (zh) * 2017-04-27 2017-10-24 浙江工业大学 一种基于bp神经网络的车辆颜色识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于机器学习的中文期刊论文自动分类研究;叶鹏;《中国优秀硕士学位论文全文数据库》;20130815;全文 *

Also Published As

Publication number Publication date
CN109299257A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109299257B (zh) 一种基于lstm和知识图谱的英文期刊推荐方法
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
CN109635291B (zh) 一种基于协同训练的融合评分信息和物品内容的推荐方法
CN107562812B (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN111783419B (zh) 地址相似度计算方法、装置、设备和存储介质
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
CN111401040B (zh) 一种适用于word文本的关键词提取方法
CN110032679B (zh) 一种基于层次注意力网络的动态新闻推荐的方法
CN114925692A (zh) 一种获取目标事件的数据处理系统
CN111061962A (zh) 一种基于用户评分分析的推荐方法
CN110263343B (zh) 基于短语向量的关键词抽取方法及系统
CN112948541B (zh) 基于图卷积网络的金融新闻文本情感倾向分析方法
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN110381115B (zh) 信息推送方法、装置、计算机可读存储介质和计算机设备
Titov et al. Constituent parsing with incremental sigmoid belief networks
CN105677828A (zh) 基于大数据的用户信息处理方法
CN105808739A (zh) 基于Borda算法的搜索结果排序方法
CN113779996A (zh) 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质
Chen et al. Parallel interactive networks for multi-domain dialogue state generation
CN105677825A (zh) 客户端浏览操作的分析方法
CN111079011A (zh) 一种基于深度学习的信息推荐方法
CN113570348A (zh) 一种简历筛选方法
CN112464660B (zh) 文本分类模型构建方法以及文本数据处理方法
CN116756347B (zh) 一种基于大数据的语义信息检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant