CN110162601A

CN110162601A - 一种基于深度学习的生物医学出版物投稿推荐系统

Info

Publication number: CN110162601A
Application number: CN201910430371.6A
Authority: CN
Inventors: 丰小月; 许东; 梁艳春; 管仁初
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-23
Anticipated expiration: 2039-05-22
Also published as: CN110162601B

Abstract

本发明提供一种基于深度学习的生物医学出版物投稿推荐系统，包括由计算机，数据预处理系统，信息抽取系统，信息提取系统，分类系统和排序系统组成；从计算机获取输入摘要A的数据；获取数据后由数据预处理系统进行数据预处理，然后信息抽取系统将摘要A表示为原始摘要向量V，信息提取系统应用九层结构以获得高级具体表示，分类系统基于所获得的新具体向量F3对论文进行分类，最后排序系统把从排名阶段获得的前N个期刊的推荐列表呈现给用户。

Description

一种基于深度学习的生物医学出版物投稿推荐系统

技术领域

本发明涉及生物医学文献和PubMed领域。更具体地说，本发明涉及一种深度学习的推荐系统。

背景技术

随着研究活动的快速发展，越来越多的生物医学论文正在全球数以千计的期刊上发表。例如，PubMed central(PMC)拥有520万篇论文和7,409种期刊，涵盖了生物医学和生命科学领域。虽然这些出版物在传播研究成果方面发挥了重要作用，但随着期刊出版物数目呈指数增长，如何选择适当的出版物发表自己的成果很难。至关重要的是，如果作者可以提交符合出版物范围的论文，那么就可以得到合适的审稿人的评论。这样他们就可以得到观众的认可，并获得大量引用。同时，图书馆研究人员不会熟悉与他们工作相关的所有期刊。此外，期刊的不同出版范围，以及审稿人和编辑的研究兴趣可能会影响提交稿件的录用决定。如果提交的论文不符合出版物及其编辑和审稿人的兴趣，可能会导致拒稿，延迟或比较少的读者人数。推荐系统可以帮助解决这个问题。

推荐系统已经在音乐推荐，电影推荐和信息媒体选择等许多领域取得了成功的应用。目前大多数场地推荐研究都集中在计算机科学和技术上，而不是生物医学领域。生物医学科学是高度跨学科的，通常与工程学，医学，生物学，物理学，心理学等相关联，从而服务于更多的期刊和更多样化的主题。因此，对于生物医学科学而言，推荐系统的开发比任何其他学科更为重要和具有挑战性。此外，先前的推荐系统基于浅机器学习方法和社交网络。它们通常是基于关键字的方法，并没有考虑语义。此外，少数现有系统仅关注某个组织下的期刊，如Elsevier，IEEE和Springer，而不是PubMed。

发明内容

有鉴于此，本发明提供一种解决或部分解决上述问题的基于深度学习的生物医学出版物投稿推荐系统；

为达到上述技术步骤的效果，本发明提供基于深度学习的生物医学出版物投稿推荐系统，包括由计算机，数据预处理系统，信息抽取系统，信息提取系统，分类系统和排序系统组成；

从计算机获取输入摘要A的数据；获取数据后由数据预处理系统进行数据预处理，然后信息抽取系统先将摘要A表示为原始摘要向量V，原始摘要向量V是单词向量的串联，然后，信息提取系统应用九层结构以获得高级具体表示，即新摘要向量F3，分类系统基于所获得的新摘要向量F3对论文进行分类，最后排序系统把从排名阶段获得的前N个期刊的推荐列表呈现给用户；

数据预处理系统的数据预处理方法为：数据从PubMed Central(PMC)的FTP服务器下载；根据PubMed Central(PMC)的期刊清单，选择在完全参与或NIH投资组合模式下存放的普通期刊，不包括“Predecessor”，“No New Content”和“Now Select”标记的记录，使用各种期刊的XML格式的论文；

每个论文即PMC文件，是一个半结构化的XML文档，包含各种标记，其中有<title>，<abstract>，<issn>；

数据预处理系统从原始的PMC文件中，在<abstract>，<issn>和<pub-date>字段中提取了内容；然后，<issn>字段里的pissn和eissn被LocatorPlus ID取代，LocatorPlus ID是美国国家医学图书馆(NLM)目录中的期刊的唯一ID；提取后，每个原始的PMC文件的摘要都存储在相应的文件中，使用自然语言工具包进行分词；

推荐任务被制定为多标签分类问题，其中包括文本表示和分类方法；在信息抽取系统，对于摘要A，信息抽取系统最初使用预先训练的单词向量；然后将原始摘要向量V通过信息提取系统，输入九层结构以获得更具体的表示；

令为对应于摘要中的第i个词的k维单词向量；

摘要A的原始摘要向量V被表示为矩阵V＝{v₁,…,v_m}^T；T为矩阵转置运算；

由于摘要A的大小不同，将m设置为摘要中能处理单词的最大数，m是标量；对于在摘要中少于m个单词的输入采用补零操作；单词向量采用根据PubMed Central(PMC)数据得到的预训练向量，摘要初始化表示使用word2vec工具进行字嵌入，word2vec工具采用窗口大小为h，通过子采样阈值方法频繁的单词创建k维向量；如果词典中没有这个单词则初始化为零向量；

此时摘要A由一个m*k维的矩阵V表示；矩阵V作为下一步的输入；如果单词向量不在预先训练的词汇表中，则由零初始化；最后，原始摘要向量构成矩阵V，其维数为m*k；被用作输入到下一步的输入；

为了得到更具体的语义特征，信息提取系统对单词向量采用九层结构来提取语义信息；

九层结构为：有三个卷积层和三个池化层，一个全连接层，一个隐藏层和一个用于分类的softmax层；

对于摘要A表示为A(w1,w2,...,wi,...,wj,...,wm)，wi表示第i个单词，i为整数，wj表示第j个单词，j为整数，m是整数，是对应于单词wi的k维单词向量；摘要A由矩阵V的形式v_1:m，即整个摘要的向量表示v_1:m由公式一表示为：

其中是连接运算符，v_i:i+j是指单词wi,wi+1,…,wi+j之间的连接向量；

第一层卷积层，h1是窗口大小，即窗口大小h赋值为h1，在h1个单词的滑动窗口上执行一维卷积运算以产生短语特征后，此时在第一层卷积层j＝h1-1；特征向量c_ji由单词通过公式二操作生成：

是第d个卷积核，是偏置项，d是整数，g是非线性函数；其形状为k×h₁，其中k是单词向量的维数；

当卷积核应用于摘要A中的中每个可能的单词窗口，当可能的单词窗口设置为h1时，分别是v_1:m在h1窗口下的向量表示，公式三生成如下特征映射：

其中公式三；

其中是在h1窗口下向量表示；

从整体来计算，如果有r1个卷积核，在C_j上进行C⁽¹⁾卷积操作得到通过池化操作得到那么定义是对矩阵V进行第一次卷积运算；是v_1:m经过第一层卷积层后的卷积定义，v_1:m此时通过r1个卷积核被细化成r1个分向量；池化操作的作用是逐步减小特征表示的空间大小，以提取关键特征并减少网络中的维数；池化层在输入的每个深度切片上独立运行，并在空间上调整大小；

对于在中，要通过对相邻两个向量单元采用最大池化操作用公式四完成每两个单元窗口中的最大池化操作：

通过构成即等式(5)中描述的是第一次池化层对进行最大池化操作的结果；即：

第一卷积层和池化层的输出

其中r1是第一层卷积核的数目；

第二卷积层和池化层、第三卷积层和池化层与等式(2)到(6)的工作方式相同；在第三次池化操作之后，跟随的是全连接层，第三卷积层和池化层的输出为其中r3是第三层卷积核的数目，分别表示经过三次卷积和池化操作的结果；全连接层把卷积和池化操作得到的向量特征连接在一起，隐藏层没有具体功能，用于调节参数；其中，全连接层的输入使用更具体的特征F3；

三次卷积和池化操作后分别生成短语级特征，句子级特征和摘要级特征；

softmax层是最后一层分类层；输入是隐藏层的输出z，z是摘要A的类别得分，给定训练样本的摘要A，其中lable是可能标签的数量，z_q是第q个类别得分，zh是第h个类别得分，softmax层的输出是每个标签的估计概率，即预测值S_q∈[0,1]，其中q,h∈{1,2,…,lable}，公式七定义S_q：

k为整数；公式七；

通过最小化交叉熵误差来调节整个九层结构的参数，定义公式八：

其中L是真实值Y_q和预测值S_q误差的和，Y用于表示真实的分类输出，是大小为label的独热编码；真实值Y_q代表正确的第q个分类输出，其中Y_q中的元素中除了一个元素是1之外的所有元素都是0；元素1标记被摘要A的正确类，最后使用优化器Adam来学习模型参数。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过硬件和硬件与软件结合对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明基于深度学习的生物医学出版物投稿推荐系统的结构示意图；

具体实施方式

为了使本发明所要解决的技术问题、技术步骤及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，能实现同样功能的产品属于等同替换和改进，均包含在本发明的保护范围之内。

<实施例1>

医学院在高质量的期刊上发表研究成果非常重要，图书馆的服务器也需要大规模部署系统来供医学院使用。然而，鉴于期刊和会议的数量呈指数性增长，选择最合适的刊物发表往往具有挑战性。虽然推荐系统在推广电影，音乐和产品方面取得了成功，但是很少有研究探索出版物地点的推荐，尤其是生物医学研究。没有推荐系统可以专门推荐最大的生物医学文献集PubMed中的期刊。我们提出了一个名为Pubmender的出版推荐系统，去根据论文摘要建议合适的PubMed期刊。在Pubmender中，预训练的word2vec首先用于构建启动特征空间。然后，构造深度九层结构以实现摘要的高级表示，并采用完全连接的softmax模型来推荐最佳期刊。我们从PubMed Central(PMC)的1130种期刊收集了880,212篇论文，并从这些论文中提取了摘要作为经验数据集。结果显示，我们的系统准确率比Journal Finder高出329％，而且对于排名前10位的推荐，比Journal Suggester高出406％。我们基于深度学习的推荐系统可以建议适当的期刊列表，以帮助生物医学院和临床医生为他们的论文选择合适的出版物。

与我们之前使用推荐系统不同，我们提出了一种基于深度学习的生物医学出版物推荐系统，名为Pubmender。由于生物医学文献的丰富词汇，传统的向量空间模型可能导致高维和稀疏问题。为了解决这个问题，在学习模式之前需要降维。此外，通过预训练的字嵌入初始化文本矩阵比训练神经网络更有利于随机初始化嵌入。因此，我们为我们的医学院应用了word2vec工具。此外能够通过语法和语义信息学习数据的多级具体表示，因为可以使用多个处理层构建更具体的特征，能为生物医学图书馆研究人员提供期刊建议。医学院使用这套装置可以帮助图书馆研究人员提供各种选择，而不仅限于他们自己的知识。

众所周知的推荐系统技术有基于内容的推荐，协同过滤推荐和混合推荐三种方法。基于内容的推荐系统基于物品的描述向用户推荐物品。通过应用用户数据(如果可用)，协作过滤方法和混合方法可以优于基于内容的推荐。但是，在2018年Facebook用户隐私问题和欧盟通用数据保护法规出台后，用户数据不再容易获得。此外，在许多领域，特别是在科技文献推荐系统中，开始时没有用于协同过滤方法的用户数据，这被认为是冷启动问题。基于内容的建议不需要任何用户信息，更适合解决科技文献推荐问题。

基于内容的推荐策略，已经有一些研究者尝试创建用于医学应用和科学文献的推荐系统。通过使用地理标记的移动搜索日志，Agarwal等人采用了随机森林模型预测医疗访问。他们使用主题，写作风格，作者信息，引文信息，摘要和标题作为信息项，选择隐含狄利克雷分配(LDA)和K-最近邻(KNN)来对推荐的文献进行分类推荐。Luong等人使用共同作者的网络作为推荐出版地点的先进信息。Beel等人通过探索其方法，评估测量和数据集对推荐系统进行了文献调查。对于大多数这些推荐系统，高维和稀疏矩阵计算是一个关键问题。

据我们所知，计算机处理系统尚未部署大规模的任何生物医学文献推荐系统。

本发明从计算机获取输入摘要A的数据；获取数据后由数据预处理系统进行数据预处理，然后信息抽取系统将摘要A表示为原始摘要向量V，原始摘要向量V是预训练单词向量的串联，然后，信息提取系统应用九层结构以获得高级具体表示，信息提取系统应用具有softmax操作的三层全连接网络，分类系统基于所获得的新具体向量F对论文进行分类，最后排序系统把从排名阶段获得的前N个期刊的推荐列表呈现给用户。

数据预处理系统的数据预处理方法为：数据从PubMed Central(PMC)的FTP服务器下载，包含1,534,649篇论文；根据PubMed Central(PMC)的期刊清单，选择在完全参与或NIH投资组合模式下存放的普通期刊，不包括“Predecessor”，“No New Content”和“NowSelect”标记的记录；下载2007年1月至2017年4月的论文；没有摘要或摘要少于200个字符的论文被删除；还删除了少于100篇论文的期刊；最后，使用880,165篇来自1130种期刊的XML格式的论文。

数据预处理系统.00从原始的PMC文件中，在<abstract>，<issn>和<pub-date>字段中提取了内容；然后，<issn>字段里的pissn和eissn被LocatorPlus ID取代，LocatorPlus ID是美国国家医学图书馆(NLM)目录中的期刊的唯一ID；提取后，每个原始的PMC文件的摘要都存储在相应的文件中，使用自然语言工具包进行分词。

摘要A中的的原始摘要向量V被表示为矩阵；由于摘要的大小不同，将m设置为摘要中能处理单词的最大数；对于在摘要中少于m个单词的输入采用补零操作，对于多于m个单词进行尾部截断操作；单词向量采用根据PubMed Central(PMC)数据得到的预训练向量，摘要初始化表示使用word2vec工具进行字嵌入，word2vec工具采用窗口大小为h，和分层Softmax函数训练，通过子采样阈值方法创建k维向量；如果词典中没有这个单词则初始化为零向量；最后摘要由矩阵V表示；矩阵V作为下一步的输入；如果单词向量不在预先训练的词汇表中，则由零初始化；最后，原始摘要向量是矩阵V，；被用作输入到下一步的输入；

为了得到更详细的语义特征，信息提取系统对单词向量采用九层结构来提取语义信息；九层结构为：有三个卷积层和三个池化层，一个全连接层，一个隐藏层和一个用于分类的softmax层；

第二和第三卷积和池化层工作方式相同；在第三次卷积和池化操作之后，完全连接的层如下；三个卷积和池化操作分别指短语级特征，句子级特征和摘要级特征；

完全连接的softmax图层是Pubmender的最后一层；最后通过最小化交叉熵误差来训练整个模型，其中分类系统使用Y作为分类输出；这是大小为T的独热编码，其中除了一个元素是1之外的所有元素都是0；元素1标记被分类数据的正确类，最后使用优化器Adam来学习模型参数，这是随机梯度下降的变体

以上所述仅为本发明之较佳实施例，可以用硬件以及硬件和软件的结合的方式进行实现，但并非用以限定本发明的权利要求保护范围。同时以上说明，对于相关技术领域的技术人员应可以理解及实施，因此其他基于本发明所揭示内容所完成的等同改变，均应包含在本权利要求书的涵盖范围内。

Claims

1.一种基于深度学习的生物医学出版物投稿推荐系统，其特征在于，包括由计算机，数据预处理系统，信息抽取系统，信息提取系统，分类系统、排序系统组成；

用户从计算机获取输入摘要A的数据；获取数据后由所述数据预处理系统进行数据预处理，然后所述信息抽取系统先将摘要A表示为原始摘要向量V，所述原始摘要向量V是单词向量的串联，然后，所述信息提取系统应用九层结构以获得高级具体表示，即新摘要向量F3，所述分类系统基于所获得的新摘要向量F3对论文进行分类，最后所述排序系统把从排名阶段获得的前N个期刊的推荐列表呈现给用户；

所述数据预处理系统的数据预处理方法为：数据从PubMed Central(PMC)的FTP服务器下载；用户根据PubMed Central(PMC)的期刊清单，选择在完全参与或NIH投资组合模式下存放的期刊，不包括“Predecessor”，“No New Content”和“Now Select”标记的记录，使用期刊的XML格式的论文；

所述数据预处理系统从原始的PMC文件中，在<abstract>，<issn>和<pub-date>字段中提取了内容；然后，<issn>字段里的pissn和eissn被LocatorPlus ID取代，LocatorPlus ID是美国国家医学图书馆(NLM)目录中的期刊的唯一ID；提取后，每个原始的PMC文件的摘要都存储在相应的文件中，使用自然语言工具包进行分词；

推荐任务被制定为多标签分类问题，其中包括文本表示和分类方法；在信息抽取系统，把摘要A转换为原始摘要向量V，在信息提取系统中，把原始摘要向量V输入九层结构以获得更具体的表示；

对于摘要A表示为A(w1,w2,...,wi,...,wj,...,wm)，wi表示第i个单词，i为整数，wj表示第j个单词，j为整数，m是整数，是对应于单词wi的k维单词向量，k为整数，是单词向量的维数；

令为对应于摘要中的第i个词的k维单词向量；

摘要A的原始摘要向量V被表示为矩阵V＝{v₁,…,v_m}^T；T为矩阵转置运算；即摘要A由矩阵V的形式v_1:m表示，这样整个摘要A的向量表示v_1:m由公式一得出：

其中是连接运算符；

由于摘要A的大小不同，将m设置为摘要中能处理单词的最大数，m是标量；对于在摘要中少于m个单词的输入采用补零操作；单词向量采用根据PubMed Central(PMC)数据得到的预训练向量，摘要初始化表示使用word2vec工具进行字嵌入，word2vec工具采用窗口大小为h，通过子采样阈值方法为频繁的单词创建k维向量；如果词典中没有这个单词则初始化为零向量；

此时摘要A由一个m*k维的矩阵V表示；矩阵V作为下一步的输入；如果单词向量不在预先训练的词汇表中，则由零初始化；最后，原始摘要向量构成矩阵V，其维数为m*k；被用做输入到下一步的输入；

为了得到更详细的语义特征，所述信息提取系统对单词向量采用九层结构来提取语义信息；

所述九层结构为：有三个卷积层和三个池化层，一个全连接层，一个隐藏层和一个用于分类的softmax层；

第一层卷积层，h1是窗口大小，即窗口大小h赋值为h1，在h1个单词的滑动窗口上执行一维卷积运算以产生短语特征后；特征向量c_ji由单词通过公式二操作生成：

v_i:i+j是指单词wi,wi+1,…,wi+j这j+1个单词的向量表示，此时在第一层卷积层j＝h1-1；是第d个卷积核，是偏置项，d是整数，g是非线性函数；其形状为k×h₁；

其中是在h1窗口下向量表示；

通过构成即公式五中描述的是第一次池化层对进行最大池化操作的结果；即：

第一卷积层和池化层的输出

其中r1是第一层卷积核的数目；

第二卷积层和池化层、第三卷积层和池化层与公式二到六的工作方式相同；在第三次池化操作之后，跟随的是全连接层，第三卷积层和池化层的输出为其中r3是第三层卷积核的数目，分别表示经过三次卷积和池化操作的结果；全连接层把卷积和池化操作得到的向量特征连接在一起，隐藏层没有具体功能，用于调节参数；其中，全连接层的输入使用更详细的特征F3；

softmax层是最后一层分类层；输入是隐藏层的输出z，z是摘要A的类别得分，给定训练样本的摘要A，其中lable是可能标签的数量，z_q是第q个类别得分，z_h是第h个类别得分，softmax层的输出是每个标签的估计概率，即预测值S_q∈[0,1]，其中q,h∈{1,2,…,lable}，公式七定义S_q：

通过最小化交叉熵误差来调节整个所述九层结构的参数，定义公式八：

其中L是真实值Y_q和预测值S_q误差的和，分类系统使用Y用于表示真实的分类输出，是大小为label的独热编码；真实值Y_q代表正确的第q个分类输出，其中Y_q中的元素中除了一个元素是1之外的所有元素都是0；元素1标记被摘要A的正确类，最后使用优化器Adam来学习模型参数。