CN110555103A

CN110555103A - 生物医学实体展示平台的构建方法、装置和计算机设备

Info

Publication number: CN110555103A
Application number: CN201910661861.7A
Authority: CN
Inventors: 何昆仑; 石金龙; 赵晓静; 贾倩; 贾志龙; 吴世敬; 杨鹏明
Original assignee: Chinese PLA General Hospital
Current assignee: Chinese PLA General Hospital
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2019-12-10

Abstract

本发明涉及一种生物医学实体展示平台的构建方法、装置和计算机设备，所述方法包括：在文献数据库中获取与生物医学相关的文献摘要信息；对文献摘要信息中的生物医学实体数据进行识别；根据文献摘要信息训练实体关联分析模型，并根据训练后的实体关联分析模型输出识别后的各生物医学实体数据之间的关联关系，以构建生物医学实体库；将生物医学实体库中的数据进行图形化展示，以构建生物医学实体展示平台。通过上述方法，可以构建一个系统性、高质量的能够对众多生物医学实体数据进行分析和展示的生物医学实体展示平台。通过此平台，用户可以非常直观和便捷查看各个生物医学实体之间的关联关系以及生物医学实体的研究趋势。

Description

生物医学实体展示平台的构建方法、装置和计算机设备

技术领域

本发明涉及生物信息学领域，特别是涉及一种可以用来展示生物医学实体之间的关联关系以及生物医学实体研究趋势的生物医学实体展示平台的构建方法、装置、计算机设备和存储介质。

背景技术

近年来，随着生物医学信息技术的飞速发展，生物医学文献呈指数型增长，单纯依靠人工阅读来获取和理解所需的生物医学知识变得异常困难，如何从海量的生物医学文献中整合已有知识、挖掘新知识成为了生命科学研究领域的研究热点。其中，从众多的生物医学信息中分析出各生物医学实体之间的相互关联并预测生物医学实体的研究趋势成为了一项重要任务。

目前，我们只能通过人工检索的方式，在生物医学文献数据库中去整理和分析各生物医学实体之间的关联关系，并预测生物医学实体的研究发展方向，这使得生物医学实体的关联分析和研究趋势预测的效率十分低下且预测结果准确度不高。

发明内容

基于此，有必要针对上述问题，提供一种能够准确分析生物医学实体之间的关联关系且能够准确预测生物医学实体的研究发展方向的生物医学实体展示平台的构建方法、装置、计算机设备和存储介质。

一种生物医学实体展示平台的构建方法，所述方法包括：

在文献数据库中获取与生物医学相关的文献摘要信息；

对文献摘要信息中的生物医学实体数据进行识别；

根据文献摘要信息训练实体关联分析模型，并根据训练后的实体关联分析模型输出识别后的各生物医学实体数据之间的关联关系，以构建生物医学实体库；

将生物医学实体库中的数据进行图形化展示，以构建生物医学实体展示平台。

在其中一个实施例中，对文献摘要信息中的生物医学实体数据进行识别，包括：对文献摘要信息中的生物医学实体数据的名称和类别进行识别；其中，生物医学实体数据的类别包括疾病、基因、突变、药物和物种。

在其中一个实施例中，根据文献摘要信息训练实体关联分析模型，并根据训练后的实体关联分析模型输出识别后的各生物医学实体数据之间的关联关系，以构建生物医学实体库，包括：

根据文献摘要信息，训练实体关联分析模型；

通过训练后的实体关联分析模型，获取识别后的各生物医学实体数据之间的共现关系和关联信息；

根据生物医学实体数据及生物医学实体数据之间的共现关系和关联信息，生成生物医学实体库。

在其中一个实施例中，文献摘要信息包括训练集和测试集；则根据文献摘要信息，训练实体关联分析模型，包括：

将训练集中的文献摘要信息输入至SVM分类器中，并将SVM分类器的输出结果与实际结果做对比，以训练实体关联分析模型；

根据测试集中的文献摘要信息，对训练后的实体关联分析模型进行测试和校正，以完成实体关联分析模型的训练。

在其中一个实施例中，实体关联分析模型包括句子级别SVM分类器和文档级别SVM分类器；则通过训练后的实体关联分析模型，获取识别后的各生物医学实体数据之间的共现关系和关联信息，包括：

通过生物医学实体语料库，利用句子级别SVM分类器，获取同一个句子中共现的各生物医学实体数据之间的关联关系；

通过生物医学实体语料库，利用文档级别SVM分类器，获取同一个摘要的不同句子中共现的各生物医学实体数据之间的关联关系；

将同一个句子中共现的各生物医学实体数据之间的关联关系和同一个摘要的不同句子中共现的各生物医学实体数据之间的关联关系按照预定规则进行整合，得到各生物医学实体数据之间的共现关系和关联信息。

在其中一个实施例中，生物医学实体展示平台的构建方法还包括：通过协同训练算法，将协同训练算法中的特征核和图核做为两个独立视图来扩展生物医学实体语料库。

在其中一个实施例中，将生物医学实体库中的数据进行图形化展示，以构建生物医学实体展示平台，包括：

根据生物医学实体库中的生物医学实体数据，通过趋势预测方程，输出生物医学实体研究趋势的预测结果；

将生物医学实体研究趋势的预测结果进行图形化展示。

一种生物医学实体展示平台的构建装置，所述装置包括：

数据获取模块，用于在文献数据库中获取与生物医学相关的文献摘要信息；

数据处理模块，用于对文献摘要信息中的生物医学实体数据进行识别；

数据分析模块，用于根据文献摘要信息训练实体关联分析模型，并根据训练后的实体关联分析模型输出识别后的各生物医学实体数据之间的关联关系，以构建生物医学实体库；

数据展示模块，用于将生物医学实体库中的数据进行图形化展示，以构建生物医学实体展示平台。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

在文献数据库中获取与生物医学相关的文献摘要信息；

对文献摘要信息中的生物医学实体数据进行识别；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

在文献数据库中获取与生物医学相关的文献摘要信息；

对文献摘要信息中的生物医学实体数据进行识别；

上述生物医学实体展示平台的构建方法、装置、计算机设备和存储介质，首先通过在文献数据库中获取与生物医学相关的文献摘要信息，并在文献摘要信息中识别各类别生物医学实体数据，然后根据识别后的文献摘要信息训练和应用实体关联分析模型，最后在此基础上构建生物医学实体库并使之图形化展示，构建了一个系统性、高质量的可以对众多生物医学实体数据进行分析和展示的生物医学实体展示平台。通过此平台，用户可以非常直观和便捷查看各个生物医学实体之间的关联关系并查看生物医学实体的研究趋势。

附图说明

图1为一个实施例中生物医学实体展示平台的构建方法的应用环境图；

图2为一个实施例中生物医学实体展示平台的构建方法的流程示意图；

图3为一个实施例中构建生物医学实体库的方法的流程示意图；

图4为一个实施例中训练实体关联分析模型的方法的流程示意图；

图5为一个实施例中获取生物医学实体数据之间的共现关系和关联信息的方法的流程示意图；

图6为一个实施例中构建生物医学实体展示平台的方法的流程示意图；

图7为一个实施例中生物医学实体展示平台的构建装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的生物医学实体展示平台的构建方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在本申请中，生物医学实体展示平台的构建方法可以应用在服务器104上。通过此平台，用户可以非常直观和便捷查看各个生物医学实体之间的关联关系并查看生物医学实体的研究趋势。

在一个实施例中，如图2所示，提供了一种生物医学实体展示平台的构建方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，在文献数据库中获取与生物医学相关的文献摘要信息。

具体地，服务器可以通过文本挖掘工具在PubMed等生物医学类文献数据库中下载所有与生物医学相关的文献的摘要信息。在本实施例中，服务器可以通过辅助生物实体识别的文本挖掘工具PubTator在PubMed官网中获取到相关数据信息的API地址，然后通过URL(Uniform Resource Locator,统一资源定位符)规则下载PubMed官网收录的所有文献的摘要信息。其中，PubMed是生物医学文献的主要仓储，它包括了MEDLINE、生命科学期刊和在线图书等数据资源，现有数据量达上千万条，并且每年以超过百万的速度增长，在科学领域的开放期刊中，其生物医学资源数量最多，增长速度最快。

步骤204，对文献摘要信息中的生物医学实体数据进行识别。

其中，生物医学实体识别指的是对文献摘要中的特征词或特征短语进行识别并分类到预先定义的类别上的一种操作，在本实施例中，生物医学实体数据的类别主要包括疾病、基因、突变、药物和物种等。现有的生物医学实体识别方法可归纳为三类，分别为基于词典的实体识别、基于规则的实体识别和基于机器学习的实体识别。在本实施例中，鉴于基于词典和规则的实体识别方法存在较多不足，服务器会采用机器学习的方法进行实体识别。

具体的，服务器可以通过机器学习的方法对文献摘要信息中生物医学实体数据进行识别，然后对识别出的生物医学实体进行分类。在本实施例中，服务器可以通过文本挖掘工具PubTator对文献摘要信息中生物医学实体数据进行识别和分类，同时获取各生物医学实体在各文献摘要中的位置信息。其中，PubTator是由多种实体识别工具组成的文本挖掘工具，它可以对PubMed中文献摘要的生物医学实体进行识别、标注和分类。

步骤206，根据文献摘要信息训练实体关联分析模型，并根据训练后的实体关联分析模型输出识别后的各生物医学实体数据之间的关联关系，以构建生物医学实体库。

其中，实体关联分析模型是一种机器学习(Machine Learning,ML)模型，机器学习模型可以通过对给定的样本进行研究，寻找样本输入值和样本结果之间的映射关系，通过一系列的映射关系，可以得到相应的机器学习模型，通过机器学习模型，可以对未知的输出值给出尽可能精准的预测。在本实施例中，实体关联分析模型可以根据输入的生物医学实体数据输出各生物医学实体数据之间的共现关系和关联信息。

具体的，服务器可以利用一部分文献摘要信息作为机器学习模型的训练集，来训练实体关联分析模型，然后通过将所有的文献摘要信息输入至训练好的实体关联分析模型中，来获取各生物医学实体数据之间的共现关系和关联信息，最后根据各生物医学实体数据及其之间的共现关系和关联信息生成生物医学实体库。

步骤208，将生物医学实体库中的数据进行图形化展示，以构建生物医学实体展示平台。

具体地，服务器可以通过前端插件预定义各类别生物医学实体的展示颜色，然后通过读取生物医学实体库中的生物医学实体数据，进行前端的可视化呈现；另外，服务器还可以根据生物医学实体库中的生物医学实体数据，通过趋势预测方程，生成生物医学实体研究趋势的预测结果，并将生物医学实体研究趋势的预测结果通过词云、曲线图等形式进行展示。

上述生物医学实体展示平台的构建方法，首先通过在文献数据库中获取与生物医学相关的文献摘要信息，并在文献摘要信息中识别各类别生物医学实体数据，然后根据文献摘要信息和生物医学实体数据训练和应用实体关联分析模型，最后在此基础上构建生物医学实体库并使之图形化展示，构建了一个系统性、高质量的可以对众多生物医学实体数据进行分析和展示的生物医学实体展示平台。通过此平台，用户可以非常直观和便捷查看各个生物医学实体之间的关联关系并查看生物医学实体的研究趋势。

在一个实施例中，对文献摘要信息中的生物医学实体数据进行识别包括对文献摘要信息中的生物医学实体数据的名称和类别进行识别。其中，生物医学实体数据的类别包括疾病、基因、突变、药物和物种。在本实施例中，大量的生物医学实体数据一般都保存于生物医学实体语料库中，服务器通过将文献摘要信息中的生物医学实体数据与生物医学实体语料库中的生物医学实体数据进行比对即可识别出各生物医学实体的名称和所属类别，另外，本实施例还可以通过一些算法扩展上述生物医学实体语料库，从而使生物医学实体得识别和分类更为准确。

在一个实施例中，如图3所示，根据文献摘要信息训练实体关联分析模型，并根据训练后的实体关联分析模型输出识别后的各生物医学实体数据之间的关联关系，以构建生物医学实体库的方法，包括以下步骤：

步骤302，根据文献摘要信息，训练实体关联分析模型。

具体的，服务器会将文献摘要信息分为训练集和测试集，并将训练集中的文献摘要信息的生物医学实体数据输入至SVM分类器中，然后用测试集中的生物医学实体数据对训练好的SVM分类器进行测试和校正，来完成实体关联分析模型的训练。其中，SVM(SupportVector Machine支持向量机)分类器是的一种常见判别方法，并且，SVM分类器在机器学习领域中是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析，其中，有监督的学习模型指的是利用有标记的样本集进行学习，而无监督的学习模型指的是利用未标记的样本集进行学习，二者属于机器学习技术中的两个分类。

步骤304，通过训练后的实体关联分析模型，获取识别后的各生物医学实体数据之间的共现关系和关联信息。

其中，实体关联分析模型是一种关系抽取模型，通过该模型，可以建立各生物医学实体之间的共现关系和信息关联，因而，关系抽取相比实体识别更为复杂，关系抽取的方法主要包括基于共现的抽取、基于自然语言处理的抽取、基于词典的抽取、基于模式匹配的抽取以及基于机器学习的抽取等方法。在本实施例中，服务器主要采用机器学习的方法进行关系抽取。

具体地，服务器首先会将各文献摘要信息输入句子级别SVM分类器中，以抽取出同一个句子中共现的各生物医学实体数据之间的关联关系，然后再将各文献摘要信息输入文档级别SVM分类器中，以抽取出同一个摘要的不同句子中共现的生物医学实体信息之间的关联关系，最后两种关联关系按照预定的规则进行整合，从而获取生物医学实体数据之间的共现关系和关联信息。其中，共现指的是在一个预定范围内相同或不同类别的生物医学实体数据共同出现的现象；共现关系指的是将各生物医学实体数据在一个预定范围内共同出现的关系；预定的范围指的是同一个句子、同一篇摘要或同一个文档等。

步骤306，根据生物医学实体数据及生物医学实体数据之间的共现关系和关联信息，生成生物医学实体库。

具体地，服务器可以将各生物医学实体数据及其之间的共现关系和关联信息导入到数据库中，以构建生物医学实体数据库。

在一个实施例中，如图4所示，根据文献摘要信息，训练实体关联分析模型的方法，包括以下步骤：

步骤404，将训练集中的文献摘要信息输入至SVM分类器中，并将SVM分类器的输出结果与实际结果做对比，以训练实体关联分析模型。

具体的，服务器可以将文献摘要信息随机的分为两部分，分别为训练集和测试集。通常，在训练机器学习模型时，训练集中的数据要要多于测试集中的数据，原因在于，机器学习模型的建立需要大量数据做支撑。例如，训练集中的数据可以为总数据量的80％，而训练集中的数据则为总数据量的20％。

进一步的，服务器可以将训练集中的文献摘要信息输入至SVM分类器中，并将SVM分类器的输出结果与实际结果做对比，然后，通过输出结果与实际结果的差异，不断调整实体关联分析模型中的参数和算法，经过不断的训练后，实体关联分析模型基本成型。

步骤406，根据测试集中的文献摘要信息，对训练后的实体关联分析模型进行测试和校正，以完成实体关联分析模型的训练。

具体的，服务器可以将测试集中的文献摘要信息输入到上一步骤中的实体关联分析模型中，并通过模型的输出结果和实际结果测试上述实体关联分析模型的可靠性、稳定性和拟合性，如测试结果不理想，则需要再次调整实体关联分析模型的参数和算法，测试通过后，即完成了实体关联分析模型的训练。

在一个实施例中，如图5所示，通过训练后的实体关联分析模型，获取识别后的各生物医学实体数据之间的共现关系和关联信息的方法，包括以下步骤：

步骤502，通过生物医学实体语料库，利用句子级别SVM分类器，获取同一个句子中共现的各生物医学实体数据之间的关联关系。

具体的，服务器可以通过生物医学实体语料库识别文献摘要信息中的所有生物医学实体，进一步的，服务器可以将文献摘要信息中的每一个句子输入到句子级别SVM分类器(CS Classifier sentence)中，以获取所有文献摘要信息中每一个句子中共现的生物医学实体数据之间的关联关系。在本实施例中，生物医学实体数据之间的关联关系具体可以为正关系、负关系、无关系或共现关系。例如，在一个句子中同时出现了一种药物和一种疾病，通过将这个句子输入到句子级别SVM分类器中，就可以获取到该药物与该疾病之间的关联关系，这种关联关系可以为促进作用、抑制作用或无作用。

步骤504，通过生物医学实体语料库，利用文档级别SVM分类器，获取同一个摘要的不同句子中共现的各生物医学实体数据之间的关联关系。

具体的，服务器可以将每一个完整的文献摘要信息输入到文档级别SVM分类器(CDClassifier Document)中，以获取各文献摘要信息中不同句子中共现的生物医学实体数据之间的关联关系，同样的，生物医学实体数据之间的关联关系可以为正关系、负关系、无关系或共现关系。与句子级别SVM分类器不同的是，文档级别SVM分类器需要充分了解不同句子中两个生物医学实体的特征才能准确获取两者之间的关系，很多时候，文档级别SVM分类器只能输出两个生物医学实体为共现关系，即共同出现在同一篇文献中的关系，而无法确定具体为何种相互作用关系。

步骤506，将同一个句子中共现的各生物医学实体数据之间的关联关系和同一个摘要的不同句子中共现的各生物医学实体数据之间的关联关系按照预定规则进行整合，得到各生物医学实体数据之间的共现关系和关联信息。

具体的，服务器可以将上述两个步骤中获取到的同一个句子中共现的各生物医学实体数据之间的关联关系和同一个摘要的不同句子中共现的各生物医学实体数据之间的关联关系按照一种预定的规则进行整合，以获得各生物医学实体数据之间的共现关系和关联信息。在本实施例中，预定的规则指的是为句子级别SVM分类器输出结果和文档级别SVM分类器输出结果设定不同权重的规则，其中，为句子级别SVM分类器输出结果设定的权重大于为文档级别SVM分类器输出结果设定的权重。

通过本实施例提供的实体关联分析模型，服务器不但可以获取到任意一种生物医学实体相关的其他生物医学实体，而且还可以获取到两个生物医学实体之间的关联关系，这种关联关系具体可以为正关系、负关系、无关系或共现关系中的一种。

在一个实施例中，生物医学实体展示平台的构建方法方法还包括：通过协同训练算法，将协同训练算法中的特征核和图核做为两个独立视图来扩展生物医学实体语料库。其中，协同训练算法的学习过程具体包括以下步骤：首先，分别在每个视图上利用有标记样本训练一个分类器；然后,从每个分类器的未标记样本中挑选若干标记置信度高的样本进行标记,并把这些“伪标记”样本加入另一个分类器的训练集中,以便另一个分类器利用这些新增的有标记样本进行更新，这种“互相学习、共同进步”的过程不断迭代进行下去,直到两个分类器都不再发生变化,或达到预先设定的学习轮数为止。进一步的，协同训练算法要求数据具有两个充分冗余且满足条件独立性的视图，在本实施例中，服务器可以将特征核和图核作为协同训练算法的两个独立视图，并通过这两种独立视图进一步扩展生物医学实体语料库，从而使实体关联分析模型输出的各生物医学实体数据之间的共现关系和关联信息更为准确。

在一个实施例中，如图6所示，将生物医学实体库中的数据进行图形化展示，以构建生物医学实体展示平台的方法，包括以下步骤：

步骤602，根据生物医学实体库中的生物医学实体数据，通过趋势预测方程，输出生物医学实体研究趋势的预测结果。

具体的，服务器可以根据生物医学实体库中的生物医学实体数据及其共现关系和关联信息，并结合各个生物医学实体在近年来文献摘要中出现的次数，使用趋势方程来计算未来的某一个特定时间值下的预测值，并使用当前时间值之前的数据拟合趋势，最终推测出最新的研究热点及各个热点间相关关联趋势。在本实施例中，服务器使用平均绝对百分比误差(MAPE)来度量时间序列值拟合的准确度，其中MAPE以百分比表示准确度。其公式如下：

其中y_t为实际值，为预测值，t为特定时间值，n为数据的数量。

步骤604，将生物医学实体研究趋势的预测结果进行图形化展示。

具体的，服务器可以通过词云、曲线图等形式，展示生成的趋势分析结果。

应该理解的是，虽然图2至图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种生物医学实体展示平台的构建装置700，包括：数据获取模块701、数据处理模块702、数据分析模块703和数据展示模块704，其中：

数据获取模块701，用于在文献数据库中获取与生物医学相关的文献摘要信息；

数据处理模块702，用于对文献摘要信息中的生物医学实体数据进行识别；

数据分析模块703，用于根据文献摘要信息训练实体关联分析模型，并根据训练后的实体关联分析模型输出识别后的各生物医学实体数据之间的关联关系，以构建生物医学实体库；

数据展示模块704，用于将生物医学实体库中的数据进行图形化展示，以构建生物医学实体展示平台。

在一个实施例中，对文献摘要信息中的生物医学实体数据进行识别，包括：对文献摘要信息中的生物医学实体数据的名称和类别进行识别；其中，生物医学实体数据的类别包括疾病、基因、突变、药物和物种。

在一个实施例中，根据文献摘要信息训练实体关联分析模型，并根据训练后的实体关联分析模型输出识别后的各生物医学实体数据之间的关联关系，以构建生物医学实体库，包括：

根据文献摘要信息，训练实体关联分析模型；

在一个实施例中，文献摘要信息包括训练集和测试集；则根据文献摘要信息，训练实体关联分析模型，包括：

在一个实施例中，实体关联分析模型包括句子级别SVM分类器和文档级别SVM分类器；则通过训练后的实体关联分析模型，获取识别后的各生物医学实体数据之间的共现关系和关联信息，包括：

在一个实施例中，生物医学实体展示平台的构建方法还包括：通过协同训练算法，将协同训练算法中的特征核和图核做为两个独立视图来扩展生物医学实体语料库。

在一个实施例中，将生物医学实体库中的数据进行图形化展示，以构建生物医学实体展示平台，包括：

将生物医学实体研究趋势的预测结果进行图形化展示。

关于生物医学实体展示平台的构建装置的具体限定可以参见上文中对于生物医学实体展示平台的构建方法的限定，在此不再赘述。上述生物医学实体展示平台的构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待评估商标的注册通过率的评估结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种生物医学实体展示平台的构建方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在文献数据库中获取与生物医学相关的文献摘要信息；

对文献摘要信息中的生物医学实体数据进行识别；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

对文献摘要信息中的生物医学实体数据的名称和类别进行识别；其中，生物医学实体数据的类别包括疾病、基因、突变、药物和物种。

根据文献摘要信息，训练实体关联分析模型；

通过协同训练算法，将协同训练算法中的特征核和图核做为两个独立视图来扩展生物医学实体语料库。

将生物医学实体研究趋势的预测结果进行图形化展示。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在文献数据库中获取与生物医学相关的文献摘要信息；

对文献摘要信息中的生物医学实体数据进行识别；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据文献摘要信息，训练实体关联分析模型；

根据生物医学实体库中的生物医学实体数据，通过趋势预测方程，输出生物医学实体研究趋势的预测结果；将生物医学实体研究趋势的预测结果进行图形化展示。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种生物医学实体展示平台的构建方法，其特征在于，所述方法包括：

在文献数据库中获取与生物医学相关的文献摘要信息；

对所述文献摘要信息中的生物医学实体数据进行识别；

根据所述文献摘要信息训练实体关联分析模型，并根据训练后的实体关联分析模型输出识别后的各生物医学实体数据之间的关联关系，以构建生物医学实体库；

将所述生物医学实体库中的数据进行图形化展示，以构建所述生物医学实体展示平台。

2.根据权利要求1所述的生物医学实体展示平台的构建方法，其特征在于，所述对所述文献摘要信息中的生物医学实体数据进行识别，包括：

对所述文献摘要信息中的生物医学实体数据的名称和类别进行识别；

其中，所述生物医学实体数据的类别包括疾病、基因、突变、药物和物种。

3.根据权利要求1所述的生物医学实体展示平台的构建方法，其特征在于，所述根据所述文献摘要信息训练实体关联分析模型，并根据训练后的实体关联分析模型输出识别后的各生物医学实体数据之间的关联关系，以构建生物医学实体库，包括：

根据所述文献摘要信息，训练实体关联分析模型；

通过所述训练后的实体关联分析模型，获取识别后的各生物医学实体数据之间的共现关系和关联信息；

根据所述生物医学实体数据及所述生物医学实体数据之间的共现关系和关联信息，生成所述生物医学实体库。

4.根据权利要求3所述的生物医学实体展示平台的构建方法，其特征在于，所述文献摘要信息包括训练集和测试集；则所述根据所述文献摘要信息，训练实体关联分析模型，包括：

将所述训练集中的文献摘要信息输入至SVM分类器中，并将所述SVM分类器的输出结果与实际结果做对比，以训练所述实体关联分析模型；

根据所述测试集中的文献摘要信息，对训练后的实体关联分析模型进行测试和校正，以完成实体关联分析模型的训练。

5.根据权利要求4所述的生物医学实体展示平台的构建方法，其特征在于，所述实体关联分析模型包括句子级别SVM分类器和文档级别SVM分类器；则所述通过所述训练后的实体关联分析模型，获取识别后的各生物医学实体数据之间的共现关系和关联信息，包括：

通过生物医学实体语料库，利用所述句子级别SVM分类器，获取同一个句子中共现的各生物医学实体数据之间的关联关系；

通过生物医学实体语料库，利用所述文档级别SVM分类器，获取同一个摘要的不同句子中共现的各生物医学实体数据之间的关联关系；

将所述同一个句子中共现的各生物医学实体数据之间的关联关系和同一个摘要的不同句子中共现的各生物医学实体数据之间的关联关系按照预定规则进行整合，得到所述各生物医学实体数据之间的共现关系和关联信息。

6.根据权利要求5所述的生物医学实体展示平台的构建方法，其特征在于，所述方法还包括：

通过协同训练算法，将所述协同训练算法中的特征核和图核做为两个独立视图来扩展所述生物医学实体语料库。

7.根据权利要求1所述的生物医学实体展示平台的构建方法，其特征在于，所述将所述生物医学实体库中的数据进行图形化展示，以构建所述生物医学实体展示平台，包括：

根据所述生物医学实体库中的生物医学实体数据，通过趋势预测方程，输出生物医学实体研究趋势的预测结果；

将所述生物医学实体研究趋势的预测结果进行图形化展示。

8.一种生物医学实体展示平台的构建装置，其特征在于，所述装置包括：

数据处理模块，用于对所述文献摘要信息中的生物医学实体数据进行识别；

数据分析模块，用于根据所述文献摘要信息训练实体关联分析模型，并根据训练后的实体关联分析模型输出识别后的各生物医学实体数据之间的关联关系，以构建生物医学实体库；

数据展示模块，用于将所述生物医学实体库中的数据进行图形化展示，以构建所述生物医学实体展示平台。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。