CN112967820B

CN112967820B - 药性认知信息抽取方法、装置、设备及存储介质

Info

Publication number: CN112967820B
Application number: CN202110386290.8A
Authority: CN
Inventors: 付桂振; 顾大中; 徐任翔
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2023-09-19
Anticipated expiration: 2041-04-12
Also published as: CN112967820A

Abstract

本发明涉及人工智能领域，公开了一种药性认知信息抽取方法、装置、设备及存储介质。所述药性认知信息抽取方法包括：获取药物文献数据，并对所述药物文献数据进行命名实体词抽取，得到所述药物文献数据中各药物对应的药物实体信息；获取由药物信息作为节点构成的药物关系图，并根据各节点的关联关系，对所述药物关系图进行向量化处理，得到多个节点向量；识别所述药物文献数据中各药物实体信息的语义特征，并根据所述语义特征对各所述节点向量进行药性认知判断，得到所述药物信息对应的药性认知信息。本发明能抽取药物文献中对不同药物的药性认知信息，并补充到现有的药物信息体系中对应的药物认知属性中，使药物信息体系更完善。

Description

药性认知信息抽取方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种药性认知信息抽取方法、装置、设备及存储介质。

背景技术

随着大数据的发展，承载着药物信息的数据库已经囊括了大部分药物相关的信息，例如药物的成分、规格、用法用量、适应症、不良反应等。这些信息可随时查阅，为医生和学者提供了便利。

在实际的诊疗过程中，经验丰富的医生往往会积累自己对某些药物的实际药效相关的看法，他们通常还会把这些有参考价值的经验发表成文章，供他人学习。对于一些年轻医生或学者来说，这是需要付出一定的时间和临床实践才能得到的知识，非常宝贵。

现有的药物信息体系中并不包含权威医生或机构对药物的药性认知信息，而这些药性认知信息往往会为医生用药时提供一定的参考价值，若能使药物的药性认知信息能像药物的其它属性一样唾手可得，不但能使药物信息体系更完善，还能在医学界形成良好的知识体系，为患者带来更好的治疗效果。

发明内容

本发明的主要目的在于解决现有药物信息数据库缺乏药物药性的认知信息且药性认知信息抽取困难的技术问题。

本发明第一方面提供了一种药性认知信息抽取方法，包括：

获取药物文献数据，并对所述药物文献数据进行命名实体词抽取，得到所述药物文献数据中各药物对应的药物实体信息；

获取由药物信息作为节点构成的药物关系图，并根据各节点的关联关系，对所述药物关系图进行向量化处理，得到多个节点向量；

识别所述药物文献数据中各药物实体信息的语义特征，并根据所述语义特征对各所述节点向量进行药性认知判断，得到所述药物信息对应的药性认知信息。

可选的，在本发明第一方面的第一种实现方式中，所述获取药物文献数据，并对所述药物文献数据进行命名实体词抽取，得到所述药物文献数据中各药物对应的药物实体信息包括：

获取带药物主题词的药物文献数据，并将所述药物文献数据输入预置BERT药物向量模型进行向量化处理，得到多个药物句子向量；

将所述药物句子向量输入预置药物命名实体识别模型的CNNS层进行字符编码处理，得到药物句子中各词语的字符编码；

将各所述字符编码输入所述药物命名实体识别模型的第一双向LSTM层进行前向和后向的隐藏状态捕获，得到各字符编码对应的隐藏状态序列；

将所述隐藏状态序列输入所述药物命名实体识别模型的CRF层进行词性标签解码，得到所述药物文献数据中各药物句子的药物实体信息，所述药物实体信息包括药物实体词向量。

可选的，在本发明第一方面的第二种实现方式中，所述BERT药物向量模型的训练过程包括：

S1、初始化BERT模型，并将所述药物文献数据输入所述BERT模型；

S2、对所述药物文献数据中的句子进行向量化处理，得到多个目标药物句子向量；

S3、根据各所述目标药物句子向量，对所述BERT模型的参数进行微调，并计算所述BERT模型的交叉熵损失函数；

S4、判断所述交叉熵损失函数是否收敛，若是，则将当前训练得到的BERT模型作为BERT药物向量模型，否则，重复执行步骤S2-S3，直至所述交叉熵损失函数收敛。

可选的，在本发明第一方面的第三种实现方式中，所述获取由药物信息作为节点构成的药物关系图，并根据各节点的关联关系，对所述药物关系图进行向量化处理，得到多个节点向量包括：

获取由药物信息作为节点构成的药物关系图；

根据预置Node2vec算法，构建用于将所述药物关系图中各节点映射为embedding向量的向量映射函数；

对所述向量映射函数进行求解，得到所述药物关系图中各节点对应的相邻节点序列，并将各节点对应的相邻节点序列作为各节点对应的节点向量。

可选的，在本发明第一方面的第四种实现方式中，所述识别所述药物文献数据中各药物实体信息的语义特征，并根据所述语义特征对各所述节点向量进行药性认知判断，得到所述药物信息对应的药性认知信息包括：

将所述药物实体信息及所述药物句子向量输入预置TC-LSTM语义情感识别模型进行语义情感特征提取，得到所述药物文献数据中各药物实体信息对应的语义情感特征向量；

将各所述语义情感特征向量及各所述节点向量输入预置语义情感分类模型进行药性认知判断，得到所述药物信息对应的药性认知信息。

可选的，在本发明第一方面的第五种实现方式中，所述将所述药物实体信息及所述药物句子向量输入预置TC-LSTM语义情感识别模型进行语义情感特征提取，得到各所述药物实体信息对应的语义情感特征向量包括：

提取所述药物实体信息中的各药物实体词向量，并计算所述各药物实体词向量的平均值，得到目标词向量；

拼接所述目标词向量与所述药物句子向量，得到第一拼接向量；

将所述第一拼接向量输入预置第二双向LSTM层进行词性隐状态捕获，得到各药物实体词对应的语义情感特征向量。

可选的，在本发明第一方面的第六种实现方式中，所述将各所述语义情感特征向量及各所述节点向量输入预置语义情感分类模型进行药性认知判断，得到所述药物信息对应的药性认知信息包括：

拼接各所述语义情感特征向量及各所述节点向量，得到第二拼接向量；

将所述第二拼接向量输入预置语义情感分类模型的Softmax网络进行药性认知的语义情感判断，得到所述药物信息对应的药性认知信息。

本发明第二方面提供了一种药性认知信息抽取装置，包括：抽取模块，用于获取药物文献数据，并对所述药物文献数据进行命名实体词抽取，得到所述药物文献数据中各药物对应的药物实体信息；

向量化模块，用于获取由药物信息作为节点构成的药物关系图，并根据各节点的关联关系，对所述药物关系图进行向量化处理，得到多个节点向量；

识别模块，用于识别所述药物文献数据中各药物实体信息的语义特征，并根据所述语义特征对各所述节点向量进行药性认知判断，得到所述药物信息对应的药性认知信息。

可选的，在本发明第二方面的第一种实现方式中，所述抽取模块具体用于：

可选的，在本发明第二方面的第二种实现方式中，所述BERT药物向量模型的训练过程包括：

初始化单元，用于初始化BERT模型，并将所述药物文献数据输入所述BERT模型；

向量化单元，用于对所述药物文献数据中的句子进行向量化处理，得到多个目标药物句子向量；

微调单元，用于根据各所述目标药物句子向量，对所述BERT模型的参数进行微调，并计算所述BERT模型的交叉熵损失函数；

收敛单元，用于判断所述交叉熵损失函数是否收敛，若是，则将当前训练得到的BERT模型作为BERT药物向量模型，否则，重复执行向量化单元和微调单元，直至所述交叉熵损失函数收敛。

可选的，在本发明第二方面的第三种实现方式中，所述向量化模块具体用于：

获取由药物信息作为节点构成的药物关系图；

可选的，在本发明第二方面的第四种实现方式中，所述识别模块包括：

语义识别单元，用于将所述药物实体信息及所述药物句子向量输入预置TC-LSTM语义情感识别模型进行语义情感特征提取，得到所述药物文献数据中各药物实体信息对应的语义情感特征向量；

语义分类单元，用于将各所述语义情感特征向量及各所述节点向量输入预置语义情感分类模型进行药性认知判断，得到所述药物信息对应的药性认知信息。

可选的，在本发明第二方面的第五种实现方式中，所述语义识别单元具体用于：

可选的，在本发明第二方面的第六种实现方式中，所述语义分类单元具体用于：

本发明第三方面提供了一种药性认知信息抽取设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述药性认知信息抽取设备执行上述的药性认知信息抽取方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的药性认知信息抽取方法。

本发明提供的技术方案中，为了抽取药物文献中不同药物的药性认知信息，首先识别出药物文献中的命名实体词，也就是药物名称。然后，获取药物信息库中的药物信息构成的药物关系图，根据这个关系图，生成不同药物对应的节点向量，用于识别药物文献中的药物命名实体词。最后对药物命名实体词对应的句子进行语义特征识别，得到不同的药物命名实体词在文献中的情感特征，也就是文献作者对这些药物的药性认知，再根据这个情感识别结果，将药物命名实体词与药物信息中的药物对应起来，就能得到药物信息库中不同药物对应的药性认知信息。本发明能抽取药物文献中对不同药物的药性认知信息，并补充到现有的药物信息体系中对应的药物认知属性中，使药物信息体系更完善，并使药物药性认知信息的获取更直观、更快捷。

附图说明

图1为本发明实施例中药性认知信息抽取方法的第一个实施例示意图；

图2为本发明实施例中药性认知信息抽取方法的第二个实施例示意图；

图3为本发明实施例中药性认知信息抽取装置的第一个实施例示意图；

图4为本发明实施例中药性认知信息抽取装置的第二个实施例示意图；

图5为本发明实施例中药性认知信息抽取设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种药性认知信息抽取方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中药性认知信息抽取方法的第一个实施例包括：

101、获取药物文献数据，并对所述药物文献数据进行命名实体词抽取，得到所述药物文献数据中各药物对应的药物实体信息；

可以理解的是，本发明的执行主体可以为药性认知信息抽取装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

可以理解的是，本发明提供的是一种基于数字医疗的药性认知信息抽取方法，数字医疗是把现代计算机技术、信息技术应用于整个医疗过程的一种新型的现代化医疗方式，是公共医疗的发展方向和管理目标。

本实施例中，药物文献数据可以利用网络爬虫爬取一些权威医学文献库的相关医学文献，也可以根据需求录入特定的药性认知相关的文本数据，例如当医生已经找到某种药物的药性分析文章了，想快速获得文章内容所表达的药性分析结果，可以将该文章录入到本系统中，以达到智能识别的目的，从而提高了药性信息抽取的效率。

本实施例中，对文献数据中的命名实体词进行识别，命名实体识别(Named EntityRecognition，NER)是NLP(Neuro-Linguistic Programming，神经语言程序学)中一项非常基础的任务，命名实体识别的准确度，决定了下游任务的效果，这也是NLP中非常重要的一个基础问题。实体，可以认为是某一个概念的实例，例如，“人名”是一种概念，或者说实体类型，而实体识别，就是将你想要获取到的实体类型，从一句话里面挑出来的过程。

本实施例中，命名实体抽取的方法之一是HMM(Hidden Markov Model，隐马尔可夫模型)+CRF(conditional random field algorithm，条件随机场算法)模型，HMM和CRF很适合用来做序列标注问题，一些效果较好的成果，都是出自这两个模型。另外，命名实体抽取方法还可以是LSTM(Long Short-Term Memory，长短期记忆人工神经网络)+CRF，采用LSTM作为特征抽取器，再接一个CRF层来作为输出层，也能抽取到命名实体信息。在一可选实施例中，优选LSTM+CRF命名实体抽取方法，并在此基础上做出了改进，使其更适用于医疗领域的命名实体抽取。

可选的，在一实施例中，所述获取药物文献数据，并对所述药物文献数据进行命名实体词抽取，得到所述药物文献数据中各药物对应的药物实体信息包括：

本可选实施例中，采用BERT+CNNS+LSTM+CRF结合的方式来进行命名实体抽取，其中，BERT是一种NLP领域使用的预处理的方法，BERT药物向量模型采用了token和sentence一起建模的方式，让下一层的每个token都是表示上一层所有token使用attention(注意力机制)的结果，所以让获取句子的向量表示变得异常简单，只需要使用[CLS]这样的特殊token就可以使用模型的所有能力了。本实施例中，BERT的性能和其所用训练预料相关，一般而言，在预训练语料足够多的情况下(亿级以上的单词数)，预训练语料和具体业务的语境越相似越好，因此利用带药物主题词标签文献数据训练BERT模型，能达到模型与应用场景完美结合的效果。

本可选实施例中，通过BERT模型对文献中的句子进行向量化处理后，使用卷积神经网络(CNNs，Convolutional Neural Networks)将单词的字符级信息编码到其字符级表示中，然后输入LSTM+CRF层进行命名实体识别，LSTM+CRF模型提供了一种端对端的技术，也就是说不需要任何的数据预处理以及特征工程就可以对标记类的任务进行操作。它的思想是通过一种特殊的神经网络架构对句子的实体进行分类识别。将字符和单词级别的表示结合起来并将它们输入到双向LSTM(BLSTM)中，对每个单词的上下文信息进行建模。在BLSTM的基础上，使用一个连续的CRF来联合解码整个句子的标签。例如，对于句子：“we areplaying soccer”，首先进行文字嵌入，把句子中的单词分开，将这些作为输入，通过构建CNNs层进行训练输出字符的代表信息。再将这些字符代表的信息作为输入，通过双向的LSTM模型进行训练，输出特征信息。把BLSTM的顶端层的输出信息作为输入到CRF层中，就可以完成句子标签的解码。对于上述句子，通过大样本训练，可能得到最终的命名实体为soccer。

本可选实施例中，LSTM是基于RNNs(Recurrent Neural Networks，循环神经网络)提出的算法。BLSTM是LSTM的修改版本，基本思想是将每个序列向前和向后呈现为两个独立的隐藏状态，以分别捕获过去和将来的信息。然后将两个隐藏状态串联起来形成最终输出，能够解决RNNs中长距离的梯度消失或爆炸的问题。

可选的，在一实施例中，所述BERT药物向量模型的训练过程包括：

本可选实施例中，是BERT药物向量模型的训练过程，先初始化一个没有任何功能但包括了BERT模型结构的初始模型，然后再将带药物主题词标注的药物文献数据输入到初始模型中，模型将会对这些文献数据进行向量化处理，得到一个初始结果，这个结果还不是我们所预期的结果，需要将初始结果与目标结果进行对比，再根据比对结果对BERT模型的参数进行微调，微调的基准是交叉熵损失函数的计算结果，最终函数收敛时，得到的模型才是真正意义上的BERT药物向量模型。

102、获取由药物信息作为节点构成的药物关系图，并根据各节点的关联关系，对所述药物关系图进行向量化处理，得到多个节点向量；

本实施例中，是对药物信息库中的药物进行向量化处理，用于识别药物文献中的药物实体词，从而得到目标药物(也就是节点向量对应的药物)在药物文献中的药性认知信息，进而补充药物信息库中的药物认知信息，使药物认知信息的获取能像查字典一样方便快捷。

本实施例中，基于药物信息中所包含的药物之间的相互促进关系建立药物关系图，图中的每个节点就是一个药物，节点间的边表示两种药物之间的促进关系。然后将该图用node2vec(node to vector，节点到向量)技术进行训练，获取每个药物的向量表示。这个步骤可以近似的认为对药物在向量空间上进行了聚类，结果是将相似的药物在向量空间中距离接近。具有相同特性的药物(例如副作用大)，在向量空间中会聚堆。

可选的，在一实施例中，所述获取由药物信息作为节点构成的药物关系图，并根据各节点的关联关系，对所述药物关系图进行向量化处理，得到多个节点向量包括：

获取由药物信息作为节点构成的药物关系图；

本可选实施例中，Node2vec技术是一种半监督的机器学习算法，它可以用来学习网络图中的关系特征。Node2vec技术的思想就是将网络图中的结点信息映射成向量，使得这些代表结点的向量可以充分表示原网络图的信息。与传统网络图特征学习步骤相同，Node2vec的第一步也是建立一个需要优化的目标函数，这个目标函数表示根据节点的特征，观察到网络邻居的对数概率。之后，不同于传统的深度(DFS)以及广度(BFS)搜素，Node2vec提供了一种灵活的邻域抽样策略，使我们能够在BFS和DFS之间平滑地插值，通过开发一个灵活的有偏随机行走过程来实现这一点，它可以以BFS和DFS的方式探索邻域。这种随机行走可以在储存空间上有优化作用，同时可以有效地降低计算的时间复杂度。最后，Node2vec也可以用来学习边之间的关系，抽取两个结点，根据二者的邻居的信息对边的信息向量化。

103、识别所述药物文献数据中各药物实体信息的语义特征，并根据所述语义特征对各所述节点向量进行药性认知判断，得到所述药物信息对应的药性认知信息。

本实施例中，利用TCLSTM网络，获取药物文献中的句子和命名实体信息的语义特征向量，然后再将通过药物关系图得到的节点向量拼接语义特征向量，最后将拼接到的新的特征向量输入全连接网络进行情感极性分类，得到了药物信息在文献中的语义情感信息，也就是药性认知信息。

本发明实施例中，为了抽取药物文献中不同药物的药性认知信息，首先识别出药物文献中的命名实体词，也就是药物名称。然后，获取药物信息库中的药物信息构成的药物关系图，根据这个关系图，生成不同药物对应的节点向量，用于识别药物文献中的药物命名实体词。最后对药物命名实体词对应的句子进行语义特征识别，得到不同的药物命名实体词在文献中的情感特征，也就是文献作者对这些药物的药性认知，再根据这个情感识别结果，将药物命名实体词与药物信息中的药物对应起来，就能得到药物信息库中不同药物对应的药性认知信息。本发明能抽取药物文献中对不同药物的药性认知信息，并补充到现有的药物信息体系中对应的药物认知属性中，使药物信息体系更完善，并使药物药性认知信息的获取更直观、更快捷。

请参阅图2，本发明实施例中药性认知信息抽取方法的第二个实施例包括：

201、获取药物文献数据，并对所述药物文献数据进行命名实体词抽取，得到所述药物文献数据中各药物对应的药物实体信息；

202、获取由药物信息作为节点构成的药物关系图，并根据各节点的关联关系，对所述药物关系图进行向量化处理，得到多个节点向量；

203、将所述药物实体信息及所述药物句子向量输入预置TC-LSTM语义情感识别模型进行语义情感特征提取，得到所述药物文献数据中各药物实体信息对应的语义情感特征向量；

本实施例中，利用一个TC-LSTM(TARGET CONNECTION LSTM)网络构架来进行语义情感分析。TC-LSTM在句中的实体间从不同方向训练多个LSTM，同时在输入端加入了目标词信息，具体做法就是将句子中的词向量与目标词向量(也就是节点向量)拼接起来，其中目标词信息是所有目标词向量的平均值。TC-LSTM很明显地整合了两个词向量的相互关联信息。模型用全连接层作为最后一层的分类器来实现分类。

204、将各所述语义情感特征向量及各所述节点向量输入预置语义情感分类模型进行药性认知判断，得到所述药物信息对应的药性认知信息。

本实施例中，我们把从药物关系图中得到的药物节点向量同时输入到全连接层中，增加特征的维度，考虑到不同类药物的情感特征相近，这样做会提升一定数量的分类信息，使得模型的分类效果更好。

可选的，在一实施例中，所述将所述药物实体信息及所述药物句子向量输入预置TC-LSTM语义情感识别模型进行语义情感特征提取，得到各所述药物实体信息对应的语义情感特征向量包括：

本可选实施例中，传统的解决方案一般是基于word2vec把单词进行向量化处理。基于这种方法进行数据预处理，然后利用LSTM模型进行特征提取，最后通过softmax分类层进行分类。这种方法首先在预处理上就有一定的缺陷，在文本中往往有一词多意，利用固定的向量去表示一个单词而不结合具体的语境往往会出现问题。同时，单向的LSTM模型不能很好地解决一句话中两种不同的情感的分析问题。例如：“我喜欢苹果，但不喜欢梨。”对于同一句话中的不同实体，作者可能会有不同的情感倾向，传统的情感分析不能很好地解决情感分析问题。

可选的，在一实施例中，所述将各所述语义情感特征向量及各所述节点向量输入预置语义情感分类模型进行药性认知判断，得到所述药物信息对应的药性认知信息包括：

本发明实施例中，为了对文献数据中的药物实体进行情感分析，采用TC-LSTM模型算法进行语义识别，具体做法是将识别到的药物命名实体词和其所在的句子输入TC-LSTM语义情感识别模型中进行语义情感特征识别，从而得到具体的药物在文献中的语义情感特征向量，再将该向量输入到语义情感分类模型中进行情感分类，得到对应情感的药性认知判断，作为对应药物的药性认知信息，本发明实施例能够结合目标词向量作为模型的输入，增加了情感识别的特征维度，使情感识别结果更准确。

上面对本发明实施例中药性认知信息抽取方法进行了描述，下面对本发明实施例中药性认知信息抽取装置进行描述，请参阅图3，本发明实施例中药性认知信息抽取装置第一个实施例包括：

抽取模块301，用于获取药物文献数据，并对所述药物文献数据进行命名实体词抽取，得到所述药物文献数据中各药物对应的药物实体信息；

向量化模块302，用于获取由药物信息作为节点构成的药物关系图，并根据各节点的关联关系，对所述药物关系图进行向量化处理，得到多个节点向量；

识别模块303，用于识别所述药物文献数据中各药物实体信息的语义特征，并根据所述语义特征对各所述节点向量进行药性认知判断，得到所述药物信息对应的药性认知信息。

可选的，在一实施例中，所述抽取模块301具体用于：

初始化单元3010，用于初始化BERT模型，并将所述药物文献数据输入所述BERT模型；

向量化单元3011，用于对所述药物文献数据中的句子进行向量化处理，得到多个目标药物句子向量；

微调单元3012，用于根据各所述目标药物句子向量，对所述BERT模型的参数进行微调，并计算所述BERT模型的交叉熵损失函数；

收敛单元3013，用于判断所述交叉熵损失函数是否收敛，若是，则将当前训练得到的BERT模型作为BERT药物向量模型，否则，重复执行向量化单元和微调单元，直至所述交叉熵损失函数收敛。

可选的，在一实施例中，所述向量化模块302具体用于：

获取由药物信息作为节点构成的药物关系图；

请参阅图4，本发明实施例中药性认知信息抽取装置的第二个实施例包括：

可选的，在一实施例中，所述识别模块303包括：

语义识别单元3031，用于将所述药物实体信息及所述药物句子向量输入预置TC-LSTM语义情感识别模型进行语义情感特征提取，得到所述药物文献数据中各药物实体信息对应的语义情感特征向量；

语义分类单元3032，用于将各所述语义情感特征向量及各所述节点向量输入预置语义情感分类模型进行药性认知判断，得到所述药物信息对应的药性认知信息。

可选的，在一实施例中，所述语义识别单元3031具体用于：

可选的，在一实施例中，所述语义分类单元3032具体用于：

上面图3和图4从模块化功能实体的角度对本发明实施例中的药性认知信息抽取装置进行详细描述，下面从硬件处理的角度对本发明实施例中药性认知信息抽取设备进行详细描述。

图5是本发明实施例提供的一种药性认知信息抽取设备的结构示意图，该药性认知信息抽取设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对药性认知信息抽取设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在药性认知信息抽取设备500上执行存储介质530中的一系列指令操作。

药性认知信息抽取设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的药性认知信息抽取设备结构并不构成对药性认知信息抽取设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种药性认知信息抽取设备，所述药性认知信息抽取设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述药性认知信息抽取方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述药性认知信息抽取方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种药性认知信息抽取方法，其特征在于，所述药性认知信息抽取方法包括：

识别所述药物文献数据中各药物实体信息的语义特征，并根据所述语义特征对各所述节点向量进行药性认知判断，得到所述药物信息对应的药性认知信息；

所述获取药物文献数据，并对所述药物文献数据进行命名实体词抽取，得到所述药物文献数据中各药物对应的药物实体信息包括：

将所述多个药物句子向量输入预置药物命名实体识别模型的CNNS层进行字符编码处理，得到药物句子中各词语的字符编码；

将所述隐藏状态序列输入所述药物命名实体识别模型的CRF层进行词性标签解码，得到所述药物文献数据中各药物句子的药物实体信息，所述药物实体信息包括药物实体词向量；

所述识别所述药物文献数据中各药物实体信息的语义特征，并根据所述语义特征对各所述节点向量进行药性认知判断，得到所述药物信息对应的药性认知信息包括：

2.根据权利要求1所述的药性认知信息抽取方法，其特征在于，所述BERT药物向量模型的训练过程包括：

3.根据权利要求1所述的药性认知信息抽取方法，其特征在于，所述获取由药物信息作为节点构成的药物关系图，并根据各节点的关联关系，对所述药物关系图进行向量化处理，得到多个节点向量包括：

获取由药物信息作为节点构成的药物关系图；

4.根据权利要求1所述的药性认知信息抽取方法，其特征在于，所述将所述药物实体信息及所述药物句子向量输入预置TC-LSTM语义情感识别模型进行语义情感特征提取，得到各所述药物实体信息对应的语义情感特征向量包括：

5.根据权利要求1所述的药性认知信息抽取方法，其特征在于，所述将各所述语义情感特征向量及各所述节点向量输入预置语义情感分类模型进行药性认知判断，得到所述药物信息对应的药性认知信息包括：

6.一种药性认知信息抽取装置，其特征在于，所述药性认知信息抽取装置执行如权利要求1-5中任一项所述的药性认知信息抽取方法，所述药性认知信息抽取装置包括：

抽取模块，用于获取药物文献数据，并对所述药物文献数据进行命名实体词抽取，得到所述药物文献数据中各药物对应的药物实体信息；

7.一种药性认知信息抽取设备，其特征在于，所述药性认知信息抽取设备包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述药性认知信息抽取设备执行如权利要求1-5中任一项所述的药性认知信息抽取方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-5中任一项所述的药性认知信息抽取方法。