CN110162601B - 一种基于深度学习的生物医学出版物投稿推荐系统 - Google Patents

一种基于深度学习的生物医学出版物投稿推荐系统 Download PDF

Info

Publication number
CN110162601B
CN110162601B CN201910430371.6A CN201910430371A CN110162601B CN 110162601 B CN110162601 B CN 110162601B CN 201910430371 A CN201910430371 A CN 201910430371A CN 110162601 B CN110162601 B CN 110162601B
Authority
CN
China
Prior art keywords
layer
vector
abstract
word
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910430371.6A
Other languages
English (en)
Other versions
CN110162601A (zh
Inventor
丰小月
许东
梁艳春
管仁初
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201910430371.6A priority Critical patent/CN110162601B/zh
Publication of CN110162601A publication Critical patent/CN110162601A/zh
Application granted granted Critical
Publication of CN110162601B publication Critical patent/CN110162601B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于深度学习的生物医学出版物投稿推荐系统,包括由计算机,数据预处理系统,信息抽取系统,信息提取系统,分类系统和排序系统组成;从计算机获取输入摘要A的数据;获取数据后由数据预处理系统进行数据预处理,然后信息抽取系统将摘要A表示为原始摘要向量V,信息提取系统应用九层结构以获得高级具体表示,分类系统基于所获得的新具体向量F3对论文进行分类,最后排序系统把从排名阶段获得的前N个期刊的推荐列表呈现给用户。

Description

一种基于深度学习的生物医学出版物投稿推荐系统
技术领域
本发明涉及生物医学文献和PubMed领域。更具体地说,本发明涉及一种深度学习的推荐系统。
背景技术
随着研究活动的快速发展,越来越多的生物医学论文正在全球数以千计的期刊上发表。例如,PubMed central(PMC)拥有520万篇论文和7,409种期刊,涵盖了生物医学和生命科学领域。虽然这些出版物在传播研究成果方面发挥了重要作用,但随着期刊出版物数目呈指数增长,如何选择适当的出版物发表自己的成果很难。至关重要的是,如果作者可以提交符合出版物范围的论文,那么就可以得到合适的审稿人的评论。这样他们就可以得到观众的认可,并获得大量引用。同时,图书馆研究人员不会熟悉与他们工作相关的所有期刊。此外,期刊的不同出版范围,以及审稿人和编辑的研究兴趣可能会影响提交稿件的录用决定。如果提交的论文不符合出版物及其编辑和审稿人的兴趣,可能会导致拒稿,延迟或比较少的读者人数。推荐系统可以帮助解决这个问题。
推荐系统已经在音乐推荐,电影推荐和信息媒体选择等许多领域取得了成功的应用。目前大多数场地推荐研究都集中在计算机科学和技术上,而不是生物医学领域。生物医学科学是高度跨学科的,通常与工程学,医学,生物学,物理学,心理学等相关联,从而服务于更多的期刊和更多样化的主题。因此,对于生物医学科学而言,推荐系统的开发比任何其他学科更为重要和具有挑战性。此外,先前的推荐系统基于浅机器学习方法和社交网络。它们通常是基于关键字的方法,并没有考虑语义。此外,少数现有系统仅关注某个组织下的期刊,如Elsevier,IEEE和Springer,而不是PubMed。
发明内容
有鉴于此,本发明提供一种解决或部分解决上述问题的基于深度学习的生物医学出版物投稿推荐系统;
为达到上述技术步骤的效果,本发明提供基于深度学习的生物医学出版物投稿推荐系统,包括由计算机,数据预处理系统,信息抽取系统,信息提取系统,分类系统和排序系统组成;
从计算机获取输入摘要A的数据;获取数据后由数据预处理系统进行数据预处理,然后信息抽取系统先将摘要A表示为原始摘要向量V,原始摘要向量V是单词向量的串联,然后,信息提取系统应用九层结构以获得高级具体表示,即新摘要向量F3,分类系统基于所获得的新摘要向量F3对论文进行分类,最后排序系统把从排名阶段获得的前N个期刊的推荐列表呈现给用户;
数据预处理系统的数据预处理方法为:数据从PubMed Central(PMC)的FTP服务器下载;根据PubMed Central(PMC)的期刊清单,选择在完全参与或NIH投资组合模式下存放的普通期刊,不包括“Predecessor”,“No New Content”和“Now Select”标记的记录,使用各种期刊的XML格式的论文;
每个论文即PMC文件,是一个半结构化的XML文档,包含各种标记,其中有<title>,<abstract>,<issn>;
数据预处理系统从原始的PMC文件中,在<abstract>,<issn>和<pub-date>字段中提取了内容;然后,<issn>字段里的pissn和eissn被LocatorPlus ID取代,LocatorPlus ID是美国国家医学图书馆(NLM)目录中的期刊的唯一ID;提取后,每个原始的PMC文件的摘要都存储在相应的文件中,使用自然语言工具包进行分词;
推荐任务被制定为多标签分类问题,其中包括文本表示和分类方法;在信息抽取系统,对于摘要A,信息抽取系统最初使用预先训练的单词向量;然后将原始摘要向量V通过信息提取系统,输入九层结构以获得更具体的表示;
Figure BDA0002068796830000021
为对应于摘要中的第i个词的k维单词向量;
摘要A的原始摘要向量V被表示为矩阵V={v1,…,vm}T;T为矩阵转置运算;
由于摘要A的大小不同,将m设置为摘要中能处理单词的最大数,m是标量;对于在摘要中少于m个单词的输入采用补零操作;单词向量采用根据PubMed Central(PMC)数据得到的预训练向量,摘要初始化表示使用word2vec工具进行字嵌入,word2vec工具采用窗口大小为h,通过子采样阈值方法频繁的单词创建k维向量;如果词典中没有这个单词则初始化为零向量;
此时摘要A由一个m*k维的矩阵V表示;矩阵V作为下一步的输入;如果单词向量不在预先训练的词汇表中,则由零初始化;最后,原始摘要向量构成矩阵V,其维数为m*k;被用作输入到下一步的输入;
为了得到更具体的语义特征,信息提取系统对单词向量采用九层结构来提取语义信息;
九层结构为:有三个卷积层和三个池化层,一个全连接层,一个隐藏层和一个用于分类的softmax层;
对于摘要A表示为A(w1,w2,...,wi,...,wj,...,wm),wi表示第i个单词,i为整数,wj表示第j个单词,j为整数,m是整数,
Figure BDA0002068796830000031
是对应于单词wi的k维单词向量;摘要A由矩阵V的形式v1:m,即整个摘要的向量表示v1:m由公式一表示为:
Figure BDA0002068796830000032
其中
Figure BDA0002068796830000033
是连接运算符,vi:i+j是指单词wi,wi+1,…,wi+j之间的连接向量;
第一层卷积层,h1是窗口大小,即窗口大小h赋值为h1,在h1个单词的滑动窗口上执行一维卷积运算以产生短语特征后,此时在第一层卷积层j=h1-1;特征向量cji由单词
Figure BDA0002068796830000034
通过公式二操作生成:
Figure BDA0002068796830000035
Figure BDA0002068796830000036
是第d个卷积核,
Figure BDA0002068796830000037
是偏置项,d是整数,g是非线性函数;其形状为k×h1,其中k是单词向量的维数;
当卷积核应用于摘要A中的
Figure BDA0002068796830000038
中每个可能的单词窗口,当可能的单词窗口设置为h1时,
Figure BDA0002068796830000041
分别是v1:m在h1窗口下的向量表示,公式三生成如下特征映射:
Figure BDA0002068796830000042
其中
Figure BDA0002068796830000043
公式三;
其中
Figure BDA0002068796830000044
Figure BDA0002068796830000045
在h1窗口下向量表示;
从整体来计算,如果有r1个卷积核,在Cj上进行C(1)卷积操作得到
Figure BDA0002068796830000046
Figure BDA0002068796830000047
通过池化操作得到
Figure BDA0002068796830000048
那么定义
Figure BDA0002068796830000049
是对矩阵V进行第一次卷积运算;
Figure BDA00020687968300000410
是v1:m经过第一层卷积层后的卷积定义,v1:m此时通过r1个卷积核被细化成r1个分向量;池化操作的作用是逐步减小特征表示的空间大小,以提取关键特征并减少网络中的维数;池化层在输入的每个深度切片上独立运行,并在空间上调整大小;
对于在
Figure BDA00020687968300000411
中,要通过对相邻两个向量单元
Figure BDA00020687968300000412
采用最大池化操作
Figure BDA00020687968300000413
用公式四完成每两个单元窗口
Figure BDA00020687968300000414
中的最大池化操作:
Figure BDA00020687968300000415
通过
Figure BDA00020687968300000416
构成
Figure BDA00020687968300000417
即等式(5)中描述的
Figure BDA00020687968300000418
是第一次池化层对
Figure BDA00020687968300000419
进行最大池化操作的结果;即:
Figure BDA00020687968300000420
第一卷积层和池化层的输出
Figure BDA00020687968300000421
其中r1是第一层卷积核的数目;
第二卷积层和池化层、第三卷积层和池化层与等式(2)到(6)的工作方式相同;在第三次池化操作之后,跟随的是全连接层,第三卷积层和池化层的输出为
Figure BDA00020687968300000422
其中r3是第三层卷积核的数目,
Figure BDA00020687968300000423
分别表示经过三次卷积和池化操作的结果;全连接层把卷积和池化操作得到的向量特征连接在一起,隐藏层没有具体功能,用于调节参数;其中,全连接层的输入使用更具体的特征F3;
三次卷积和池化操作后分别生成短语级特征,句子级特征和摘要级特征;
softmax层是最后一层分类层;输入是隐藏层的输出z,z是摘要A的类别得分,给定训练样本的摘要A,其中lable是可能标签的数量,zq是第q个类别得分,zh是第h个类别得分,softmax层的输出是每个标签的估计概率,即预测值Sq∈[0,1],其中q,h∈{1,2,…,lable},公式七定义Sq
Figure BDA0002068796830000051
k为整数;公式七;
通过最小化交叉熵误差来调节整个九层结构的参数,定义公式八:
Figure BDA0002068796830000052
其中L是真实值Yq和预测值Sq误差的和,Y用于表示真实的分类输出,是大小为label的独热编码;真实值Yq代表正确的第q个分类输出,其中Yq中的元素中除了一个元素是1之外的所有元素都是0;元素1标记被摘要A的正确类,最后使用优化器Adam来学习模型参数。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过硬件和硬件与软件结合对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明基于深度学习的生物医学出版物投稿推荐系统的结构示意图;
具体实施方式
为了使本发明所要解决的技术问题、技术步骤及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。
<实施例1>
医学院在高质量的期刊上发表研究成果非常重要,图书馆的服务器也需要大规模部署系统来供医学院使用。然而,鉴于期刊和会议的数量呈指数性增长,选择最合适的刊物发表往往具有挑战性。虽然推荐系统在推广电影,音乐和产品方面取得了成功,但是很少有研究探索出版物地点的推荐,尤其是生物医学研究。没有推荐系统可以专门推荐最大的生物医学文献集PubMed中的期刊。我们提出了一个名为Pubmender的出版推荐系统,去根据论文摘要建议合适的PubMed期刊。在Pubmender中,预训练的word2vec首先用于构建启动特征空间。然后,构造深度九层结构以实现摘要的高级表示,并采用完全连接的softmax模型来推荐最佳期刊。我们从PubMed Central(PMC)的1130种期刊收集了880,212篇论文,并从这些论文中提取了摘要作为经验数据集。结果显示,我们的系统准确率比Journal Finder高出329%,而且对于排名前10位的推荐,比Journal Suggester高出406%。我们基于深度学习的推荐系统可以建议适当的期刊列表,以帮助生物医学院和临床医生为他们的论文选择合适的出版物。
与我们之前使用推荐系统不同,我们提出了一种基于深度学习的生物医学出版物推荐系统,名为Pubmender。由于生物医学文献的丰富词汇,传统的向量空间模型可能导致高维和稀疏问题。为了解决这个问题,在学习模式之前需要降维。此外,通过预训练的字嵌入初始化文本矩阵比训练神经网络更有利于随机初始化嵌入。因此,我们为我们的医学院应用了word2vec工具。此外能够通过语法和语义信息学习数据的多级具体表示,因为可以使用多个处理层构建更具体的特征,能为生物医学图书馆研究人员提供期刊建议。医学院使用这套装置可以帮助图书馆研究人员提供各种选择,而不仅限于他们自己的知识。
众所周知的推荐系统技术有基于内容的推荐,协同过滤推荐和混合推荐三种方法。基于内容的推荐系统基于物品的描述向用户推荐物品。通过应用用户数据(如果可用),协作过滤方法和混合方法可以优于基于内容的推荐。但是,在2018年Facebook用户隐私问题和欧盟通用数据保护法规出台后,用户数据不再容易获得。此外,在许多领域,特别是在科技文献推荐系统中,开始时没有用于协同过滤方法的用户数据,这被认为是冷启动问题。基于内容的建议不需要任何用户信息,更适合解决科技文献推荐问题。
基于内容的推荐策略,已经有一些研究者尝试创建用于医学应用和科学文献的推荐系统。通过使用地理标记的移动搜索日志,Agarwal等人采用了随机森林模型预测医疗访问。他们使用主题,写作风格,作者信息,引文信息,摘要和标题作为信息项,选择隐含狄利克雷分配(LDA)和K-最近邻(KNN)来对推荐的文献进行分类推荐。Luong等人使用共同作者的网络作为推荐出版地点的先进信息。Beel等人通过探索其方法,评估测量和数据集对推荐系统进行了文献调查。对于大多数这些推荐系统,高维和稀疏矩阵计算是一个关键问题。
据我们所知,计算机处理系统尚未部署大规模的任何生物医学文献推荐系统。
本发明从计算机获取输入摘要A的数据;获取数据后由数据预处理系统进行数据预处理,然后信息抽取系统将摘要A表示为原始摘要向量V,原始摘要向量V是预训练单词向量的串联,然后,信息提取系统应用九层结构以获得高级具体表示,信息提取系统应用具有softmax操作的三层全连接网络,分类系统基于所获得的新具体向量F对论文进行分类,最后排序系统把从排名阶段获得的前N个期刊的推荐列表呈现给用户。
数据预处理系统的数据预处理方法为:数据从PubMed Central(PMC)的FTP服务器下载,包含1,534,649篇论文;根据PubMed Central(PMC)的期刊清单,选择在完全参与或NIH投资组合模式下存放的普通期刊,不包括“Predecessor”,“No New Content”和“NowSelect”标记的记录;下载2007年1月至2017年4月的论文;没有摘要或摘要少于200个字符的论文被删除;还删除了少于100篇论文的期刊;最后,使用880,165篇来自1130种期刊的XML格式的论文。
每个论文即PMC文件,是一个半结构化的XML文档,包含各种标记,其中有<title>,<abstract>,<issn>;
数据预处理系统.00从原始的PMC文件中,在<abstract>,<issn>和<pub-date>字段中提取了内容;然后,<issn>字段里的pissn和eissn被LocatorPlus ID取代,LocatorPlus ID是美国国家医学图书馆(NLM)目录中的期刊的唯一ID;提取后,每个原始的PMC文件的摘要都存储在相应的文件中,使用自然语言工具包进行分词。
推荐任务被制定为多标签分类问题,其中包括文本表示和分类方法;在信息抽取系统,对于摘要A,信息抽取系统最初使用预先训练的单词向量;然后将原始摘要向量V通过信息提取系统,输入九层结构以获得更具体的表示;
摘要A中的的原始摘要向量V被表示为矩阵;由于摘要的大小不同,将m设置为摘要中能处理单词的最大数;对于在摘要中少于m个单词的输入采用补零操作,对于多于m个单词进行尾部截断操作;单词向量采用根据PubMed Central(PMC)数据得到的预训练向量,摘要初始化表示使用word2vec工具进行字嵌入,word2vec工具采用窗口大小为h,和分层Softmax函数训练,通过子采样阈值方法创建k维向量;如果词典中没有这个单词则初始化为零向量;最后摘要由矩阵V表示;矩阵V作为下一步的输入;如果单词向量不在预先训练的词汇表中,则由零初始化;最后,原始摘要向量是矩阵V,;被用作输入到下一步的输入;
为了得到更详细的语义特征,信息提取系统对单词向量采用九层结构来提取语义信息;九层结构为:有三个卷积层和三个池化层,一个全连接层,一个隐藏层和一个用于分类的softmax层;
第二和第三卷积和池化层工作方式相同;在第三次卷积和池化操作之后,完全连接的层如下;三个卷积和池化操作分别指短语级特征,句子级特征和摘要级特征;
完全连接的softmax图层是Pubmender的最后一层;最后通过最小化交叉熵误差来训练整个模型,其中分类系统使用Y作为分类输出;这是大小为T的独热编码,其中除了一个元素是1之外的所有元素都是0;元素1标记被分类数据的正确类,最后使用优化器Adam来学习模型参数,这是随机梯度下降的变体
以上所述仅为本发明之较佳实施例,可以用硬件以及硬件和软件的结合的方式进行实现,但并非用以限定本发明的权利要求保护范围。同时以上说明,对于相关技术领域的技术人员应可以理解及实施,因此其他基于本发明所揭示内容所完成的等同改变,均应包含在本权利要求书的涵盖范围内。

Claims (1)

1.一种基于深度学习的生物医学出版物投稿推荐系统,其特征在于,包括由计算机,数据预处理系统,信息抽取系统,信息提取系统,分类系统、排序系统组成;
用户从计算机获取输入摘要A的数据;获取数据后由所述数据预处理系统进行数据预处理,然后所述信息抽取系统先将摘要A表示为原始摘要向量V,所述原始摘要向量V是单词向量的串联,然后,所述信息提取系统应用九层结构以获得高级具体表示,即新摘要向量F3,所述分类系统基于所获得的新摘要向量F3对论文进行分类,最后所述排序系统把从排名阶段获得的前N个期刊的推荐列表呈现给用户;
所述数据预处理系统的数据预处理方法为:数据从PubMed Central(PMC)的FTP服务器下载;用户根据PubMed Central(PMC)的期刊清单,选择在完全参与或NIH投资组合模式下存放的期刊,不包括“原先的东西”,“非新内容”和“当前选择”标记的记录,使用期刊的XML格式的论文;
每个论文即PMC文件,是一个半结构化的XML文档,包含各种标记,其中有<title>,<abstract>,<issn>;
所述数据预处理系统从原始的PMC文件中,在<abstract>,<issn>和<pub-date>字段中提取了内容;然后,<issn>字段里的pissn和eissn被LocatorPlus ID取代,LocatorPlus ID是美国国家医学图书馆(NLM)目录中的期刊的唯一ID;提取后,每个原始的PMC文件的摘要都存储在相应的文件中,使用自然语言工具包进行分词;
推荐任务被制定为多标签分类问题,其中包括文本表示和分类方法;在信息抽取系统,把摘要A转换为原始摘要向量V,在信息提取系统中,把原始摘要向量V输入九层结构以获得更具体的表示;
对于摘要A表示为A(w1,w2,...,wi,...,wj,...,wm),wi表示第i个单词,i为整数,wj表示第j个单词,j为整数,m是整数,
Figure FDA0002758388660000011
是对应于单词wi的k维单词向量,k为整数,是单词向量的维数;
Figure FDA0002758388660000012
为对应于摘要中的第i个词的k维单词向量;
摘要A的原始摘要向量V被表示为矩阵V={v1,…,vm}T;T为矩阵转置运算;即摘要A由矩阵V的形式v1:m表示,这样整个摘要A的向量表示v1:m由公式一得出:
Figure FDA0002758388660000013
其中
Figure FDA0002758388660000014
是连接运算符;
由于摘要A的大小不同,将m设置为摘要中能处理单词的最大数,m是标量;对于在摘要中少于m个单词的输入采用补零操作;单词向量采用根据PubMed Central(PMC)数据得到的预训练向量,摘要初始化表示使用word2vec工具进行字嵌入,word2vec工具采用窗口大小为h,通过子采样阈值方法为频繁的单词创建k维向量;如果词典中没有这个单词则初始化为零向量;
此时摘要A由一个m*k维的矩阵V表示;矩阵V作为下一步的输入;如果单词向量不在预先训练的词汇表中,则由零初始化;最后,原始摘要向量构成矩阵V,其维数为m*k;被用做输入到下一步的输入;
为了得到更详细的语义特征,所述信息提取系统对单词向量采用九层结构来提取语义信息;
所述九层结构为:有三个卷积层和三个池化层,一个全连接层,一个隐藏层和一个用于分类的softmax层;
第一层卷积层,h1是窗口大小,即窗口大小h赋值为h1,在h1个单词的滑动窗口上执行一维卷积运算以产生短语特征后;特征向量cji由单词
Figure FDA0002758388660000021
通过公式二操作生成:
Figure FDA0002758388660000022
vi:i+j是指单词wi,wi+1,…,wi+j这j+1个单词的向量表示,此时在第一层卷积层j=h1-1;
Figure FDA0002758388660000023
是第d个卷积核,
Figure FDA0002758388660000024
是偏置项,d是整数,g是非线性函数;其形状为k×h1
当卷积核应用于摘要A中的
Figure FDA0002758388660000025
中每个可能的单词窗口,当可能的单词窗口设置为h1时,
Figure FDA0002758388660000026
分别是v1:m在h1窗口下的向量表示,公式三生成如下特征映射:
Figure FDA0002758388660000027
其中
Figure FDA0002758388660000028
Figure FDA0002758388660000029
在h1窗口下向量表示;
从整体来计算,如果有r1个卷积核,在Cj上进行C(1)卷积操作得到
Figure FDA00027583886600000210
Figure FDA00027583886600000211
通过池化操作得到
Figure FDA00027583886600000212
那么定义
Figure FDA00027583886600000213
是对矩阵V进行第一次卷积运算;
Figure FDA00027583886600000214
是v1:m经过第一层卷积层后的卷积定义,v1:m此时通过r1个卷积核被细化成r1个分向量;池化操作的作用是逐步减小特征表示的空间大小,以提取关键特征并减少网络中的维数;池化层在输入的每个深度切片上独立运行,并在空间上调整大小;
对于在
Figure FDA00027583886600000215
中,要通过对相邻两个向量单元
Figure FDA00027583886600000216
采用最大池化操作
Figure FDA00027583886600000217
用公式四完成每两个单元窗口
Figure FDA00027583886600000218
中的最大池化操作:
Figure FDA00027583886600000219
通过
Figure FDA00027583886600000220
构成
Figure FDA00027583886600000221
即公式五中描述的
Figure FDA00027583886600000222
是第一次池化层对
Figure FDA00027583886600000223
进行最大池化操作的结果;即:
Figure FDA00027583886600000224
第一卷积层和池化层的输出
Figure FDA00027583886600000225
其中r1是第一层卷积核的数目;
第二卷积层和池化层、第三卷积层和池化层与公式二到六的工作方式相同;在第三次池化操作之后,跟随的是全连接层,第三卷积层和池化层的输出为
Figure FDA00027583886600000226
其中r3是第三层卷积核的数目,
Figure FDA00027583886600000227
分别表示经过三次卷积和池化操作的结果;全连接层把卷积和池化操作得到的向量特征连接在一起,隐藏层没有具体功能,用于调节参数;其中,全连接层的输入使用更详细的特征F3;
三次卷积和池化操作后分别生成短语级特征,句子级特征和摘要级特征;
softmax层是最后一层分类层;输入是隐藏层的输出z,z是摘要A的类别得分,给定训练样本的摘要A,其中lable是可能标签的数量,zq是第q个类别得分,zh是第h个类别得分,softmax层的输出是每个标签的估计概率,即预测值Sq∈[0,1],其中q,h∈{1,2,…,lable},公式七定义Sq
Figure FDA0002758388660000031
通过最小化交叉熵误差来调节整个所述九层结构的参数,定义公式八:
Figure FDA0002758388660000032
其中L是真实值Yq和预测值Sq误差的和,分类系统使用Y用于表示真实的分类输出,是大小为label的独热编码;真实值Yq代表正确的第q个分类输出,其中Yq中的元素中除了一个元素是1之外的所有元素都是0;元素1标记被摘要A的正确类,最后使用优化器Adam来学习模型参数。
CN201910430371.6A 2019-05-22 2019-05-22 一种基于深度学习的生物医学出版物投稿推荐系统 Expired - Fee Related CN110162601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910430371.6A CN110162601B (zh) 2019-05-22 2019-05-22 一种基于深度学习的生物医学出版物投稿推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910430371.6A CN110162601B (zh) 2019-05-22 2019-05-22 一种基于深度学习的生物医学出版物投稿推荐系统

Publications (2)

Publication Number Publication Date
CN110162601A CN110162601A (zh) 2019-08-23
CN110162601B true CN110162601B (zh) 2020-12-25

Family

ID=67632102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910430371.6A Expired - Fee Related CN110162601B (zh) 2019-05-22 2019-05-22 一种基于深度学习的生物医学出版物投稿推荐系统

Country Status (1)

Country Link
CN (1) CN110162601B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11869015B1 (en) 2022-12-09 2024-01-09 Northern Trust Corporation Computing technologies for benchmarking

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597980B (zh) * 2019-09-12 2021-04-30 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质
CN110633471A (zh) * 2019-09-18 2019-12-31 宁夏大学 一种基于PubMed数据库的英文分词处理系统及方法
CN112085158A (zh) * 2020-07-21 2020-12-15 西安工程大学 一种基于堆栈降噪自编码器的图书推荐方法
WO2022102827A1 (ko) * 2020-11-16 2022-05-19 주식회사 솔트룩스 과학 기술 논문을 위한 지식 추출 시스템
CN112800183B (zh) * 2021-02-25 2023-09-26 国网河北省电力有限公司电力科学研究院 内容名称数据处理方法及终端设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521337A (zh) * 2011-12-08 2012-06-27 华中科技大学 一种基于海量知识网络的学术社区系统
CN105205124A (zh) * 2015-09-11 2015-12-30 合肥工业大学 一种基于随机特征子空间的半监督文本情感分类方法
CN107609602A (zh) * 2017-09-28 2018-01-19 吉林大学 一种基于卷积神经网络的驾驶场景分类方法
CN109446338A (zh) * 2018-09-20 2019-03-08 大连交通大学 基于神经网络的药物疾病关系分类方法
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10255628B2 (en) * 2015-11-06 2019-04-09 Adobe Inc. Item recommendations via deep collaborative filtering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521337A (zh) * 2011-12-08 2012-06-27 华中科技大学 一种基于海量知识网络的学术社区系统
CN105205124A (zh) * 2015-09-11 2015-12-30 合肥工业大学 一种基于随机特征子空间的半监督文本情感分类方法
CN107609602A (zh) * 2017-09-28 2018-01-19 吉林大学 一种基于卷积神经网络的驾驶场景分类方法
CN109446338A (zh) * 2018-09-20 2019-03-08 大连交通大学 基于神经网络的药物疾病关系分类方法
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度学习技术在教育大数据挖掘领域的应用分析;陈德鑫 等;《电化教育研究》;20190228;全文 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11869015B1 (en) 2022-12-09 2024-01-09 Northern Trust Corporation Computing technologies for benchmarking

Also Published As

Publication number Publication date
CN110162601A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN110162601B (zh) 一种基于深度学习的生物医学出版物投稿推荐系统
Ishaq et al. Aspect-based sentiment analysis using a hybridized approach based on CNN and GA
Alaparthi et al. Bidirectional Encoder Representations from Transformers (BERT): A sentiment analysis odyssey
CN111209738B (zh) 一种联合文本分类的多任务命名实体识别方法
Zaroor et al. A hybrid approach to conceptual classification and ranking of resumes and their corresponding job posts
Ishaq et al. Extensive hotel reviews classification using long short term memory
Gridach et al. Empirical evaluation of word representations on Arabic sentiment analysis
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
Rithish et al. Automated assessment of question quality on online community forums
Dobson Interpretable Outputs: Criteria for Machine Learning in the Humanities.
Ontoum et al. Personality type based on Myers-Briggs type indicator with text posting style by using traditional and deep learning
Tripathy et al. Sentiment classification of movie reviews using GA and NeuroGA
Sherif et al. Lexicon annotation in sentiment analysis for dialectal Arabic: Systematic review of current trends and future directions
Murdock et al. Multi-level computational methods for interdisciplinary research in the HathiTrust Digital Library
Habek et al. Bi-Directional CNN-RNN architecture with group-wise enhancement and attention mechanisms for cryptocurrency sentiment analysis
VeeraSekharReddy et al. An attention based bi-LSTM DenseNet model for named entity recognition in english texts
Dhar et al. Bengali news headline categorization using optimized machine learning pipeline
Hicham et al. Enhancing arabic e-commerce review sentiment analysis using a hybrid deep learning model and fasttext word embedding
Hammami et al. Deep learning for french legal data categorization
Zhou et al. Active semi-supervised learning method with hybrid deep belief networks
CN115860283B (zh) 基于知识工作者画像的贡献度预测方法及装置
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
Faizi et al. A sentiment analysis based approach for exploring student feedback
Rizkallah et al. Learning spherical word vectors for opinion mining and applying on hotel reviews
Bodini Opinion mining from machine translated Bangla reviews with stacked contractive auto-encoders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201225

Termination date: 20210522

CF01 Termination of patent right due to non-payment of annual fee