CN112256828A

CN112256828A - 医学实体关系抽取方法、装置、计算机设备及可读存储介质

Info

Publication number: CN112256828A
Application number: CN202011123634.8A
Authority: CN
Inventors: 张圣; 顾大中
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-01-22
Anticipated expiration: 2040-10-20
Also published as: CN112256828B; WO2021151353A1

Abstract

本发明公开了医学实体关系抽取方法、装置、计算机设备及可读存储介质，涉及自然语言处理技术领域，包括获取医学文本，基于所述医学文本获取多条待处理数据；采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果；基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对基于所述实体关系计算所述实体对的置信度，基于各个所述实体对、实体关系及对应的置信度生成目标数据，解决了现有技术中人工提取医学实体关系费时费力且效率较低的问题。

Description

医学实体关系抽取方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种医学实体关系抽取方法、装置、计算机设备及可读存储介质。

背景技术

生物医学文献中蕴含着丰富的以及前沿的生物医学知识，是生物医学领域相关研究者重要的知识宝库，基于生物医学文献的实体关系是构建医学知识图谱的重要研究内容，也是智能导诊、问诊、临床辅助决策等智慧医疗应用的基础。

然而，发明人研究发现，现有的生物医学实体间关系知识库基本是基于专家人力构建而成的，医学关系知识的覆盖范围很小，知识规模受限，随着医学文献数量指数级别的增长，仅仅依靠专家人工编辑整理知识构建医学知识库的方法是无法构建全量的医学关系知识库，人工操作工作量较大且效率较低，成本较大。

发明内容

本发明的目的是提供一种医学实体关系抽取方法、装置、计算机设备及可读存储介质，用于解决现有技术中人工提取医学实体关系费时费力且效率较低的技术问题。

为实现上述目的，本发明提供一种医学实体关系抽取方法，包括：获取医学文本，基于所述医学文本获取多条待处理数据；

采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果；

基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对；

基于所述实体关系计算所述实体对的置信度，基于各个所述实体对、实体关系及对应的置信度生成目标数据。

进一步的，所述采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果，包括以下：

获取任一待处理数据，采用Bert-Embeding层对所述待处理数据进行向量化处理，获得第一向量；

采用Bi-LSTM网络对所述第一向量进行语义识别，获得第二向量；

采用Bi-GRU网络对所述第二向量进行语义识别，获得第三向量；

将所述第三向量输入CRF层，输出实体识别的预测标记序列，根据所述预测标记序列获得所述待处理数据对应的实体识别结果；

获取另一待处理数据，重复上述直至获得各个待处理数据对应的实体识别结。

进一步的，在基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对前，包括以下：

提供一预设实体数据库，所述包含多个实体的缩写名称以及与各个所述实体的缩写名名称对应的实体名称；

基于所述实体识别结果获得实体名称列表；

获取所述实体名称列表中的缩写名称，从所述实体数据库中获取与所述缩写名称对应的实体名称作为候选实体名称；

基于各个所述候选实体名称在所述医学文本中查找，获取与所述医学文本匹配的候选实体名称作为与所述缩写名称对应的实体名称；

基于与所述缩写名称对应的实体名称更新所述实体识别结果。

进一步的，所述基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对，包括以下：

获取任一待处理数据对应的实体识别结果，基于所述实体识别结果获取实体对和实体类型；

识别所述待处理数据的依存关系类型，所述依存关系类型包括肯定语义、否定语义和无法确定语义；

根据所述依存关系类型、所述实体对和所述实体类型生成实体关系，获得带有实体关系的实体对；

基于各个待处理数据对应的实体识别结果，获得所有带有实体关系的实体对。

进一步的，基于所述实体关系计算所述实体对的置信度，基于各个所述实体对、实体关系及对应的置信度生成目标数据，包括以下：

获取所述医学文本中各个所述实体对及对应所述实体关系的出现频次；

采用预设权重对所述实体对的各个实体关系对应的出现频次进行加权，并获取加权后与加权前的比值作为所述实体对的置信度；

基于各个所述实体对、实体关系及对应的置信度生成目标数据。

进一步的，在采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果前，还包括对所述第一模型进行训练，包括以下；

获取训练样本，所述训练样本包括多条带有实体标签的训练数据；

其中，所述实体标签包括实体和实体类型；

将所述训练数据输入Bert-Embeding层进行向量化处理，获得与所述训练数据对应的第一处理向量；

采用Bi-LSTM网络对所述第一处理向量进行语义识别，获得第二处理向量；

采用Bi-GRU网络对所述第二处理向量进行语义识别，获得第三处理向量；

将所述第三处理向量输入CRF层，输出实体识别的预测标记序列，根据所述预测标记序列获得样本目标结果；

将所述样本目标结果与所述训练数据对应的实体标签进行比对，调整所述第一模型的参数，直至完成训练，获得训练好的第一模型。

进一步的，所述实体识别结果包括实体和实体类型，所述实体类型包括基因、疾病、物质、蛋白、症状、实验室检查、治疗方案、微生物、免疫因子、生物通路；所述实体关系包括基于依存关系类型生成的任意两个所述实体类别关联，所述依存关系类型包括肯定语义、否定语义和无法确定语义。

为实现上述目的，本发明还提供一种医学实体关系抽取装置，包括：

获取模块，用于获取医学文本，基于所述医学文本获取多条待处理数据；

实体识别模块，用于采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果；

关系识别模块，用于基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对；

生成模块，用于基于所述实体关系计算所述实体对的置信度，基于各个所述实体对、实体关系及对应的置信度生成目标数据。

为实现上述目的，本发明还提供一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述医学实体关系抽取方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述医学实体关系抽取方法的步骤。

本发明提供的医学实体关系抽取方法、装置、计算机设备及可读存储介质，通过基于医学文本获取待处理数据，采用第一模型对待处理数据进行处理获得实体识别结果，而后根据实体识别结果进行实体关系抽取，获得带有实体关系的实体对，最后计算各个实体对的置信度并生成目标数据，实现对医学实体关系的自动提取，解决现有技术中人工提取医学实体关系费时费力且效率较低的技术问题。

附图说明

图1为本发明所述医学实体关系抽取方法实施例一的流程图；

图2为本发明所述医学实体关系抽取方法实施例一中采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果的流程图；

图3为本发明所述医学实体关系抽取方法实施例一中在采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果前，对所述第一模型进行训练的流程图；

图4为本发明所述医学实体关系抽取方法实施例一中基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对前的流程图；

图5为本发明所述医学实体关系抽取方法实施例一中基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对的流程图；

图6为本发明所述医学实体关系抽取方法实施例一中所述基于所述实体关系计算所述实体对的置信度，基于各个所述实体对、实体关系及对应的置信度生成目标数据的流程图；

图7为本发明所述医学实体关系抽取装置实施例二的程序模块示意图；

图8为本发明计算机设备实施例三中计算机设备的硬件结构示意图。

附图标记：

4、医学实体关系抽取装置 41、模型训练模块 42、预处理模块

43、执行模块 431、分析单元 432、提取单元

433、调整单元 5、计算机设备 51、存储器

52、处理器 53、网络接口

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明提供的医学实体关系抽取方法、装置、计算机设备及可读存储介质，适用于领域，为提供一种基于获取模块、实体识别模块、关系识别模块、生成模块的医学实体关系抽取方法。本发明通过获取模块基于医学文本获取待处理数据，采用实体识别模块中的第一模型对待处理数据进行处理获得实体识别结果，所述实体识别结果包括10中实体类型，而后根据实体识别结果采用关系识别模块进行实体关系抽取，获得带有实体关系的实体对，实体关系包括150种，为基于依存关系类型生成的任意两个所述实体类别关联关系，最后采用生成模块计算各个实体对的置信度，用于评估各个实体对的关联性，并生成目标数据，通过前述方式实现对实体关系的自动提取，解决现有技术中人工提取医学实体关系费时费力且效率较低的技术问题。

实施例一

请参阅图1，本实施例的一种医学实体关系抽取方法，应用于服务器端，包括以下步骤：

S100：获取医学文本，基于所述医学文本获取多条待处理数据；

具体的，本方案中采用大量的医学文本来进行实体关系提取，获取医学文本后可通过预设规则进行预筛选和解析，将获得的各个单条语句作为待处理数据，每一医学文本包含多个待处理数据，作为举例的，根据预设标号(如句号，分号等)对医学文本进行拆分，并对拆分获得的各条语句进行筛选，提出未满足预设条件的语句获得待处理数据，预设条件可以是语句长度等，获得的待处理数据示例如：“The profile of the ACE makes it atherapeutic target for heart failure.”

S200：采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果；

在本方案中，第一模型包括依次设置的Bert-Embeding层、Bi-LSTM网络、 Bi-GRU网络以及CRF网络；所述实体识别结果包括实体和实体类型，所述实体类型包括基因(gene)、疾病(disease)、物质(chemical)、蛋白(protein)、症状(symptom)、实验室检查(test)、治疗方案(therapy，包括手术、化疗、放疗、免疫治疗等)、微生物(microorganism)、免疫因子(immune factor)、生物通路(pathway)。

在上述实施方式中，输入是待处理数据，输出是识别出的多类别医学实体的信息，采用BIO标注的方式进行实体识别，包括BIO三种标签，B表示一个实体在文本中开始位置，I表示一个实体在文本中的中间或结束位置，O表示不是实体部分，在本方案的多类别医学实体识别任务中BI分别有10种类别，即 B-gene、…、B-pathway；I-gene、…、I-pathway。

具体的，所述采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果，参阅图3，包括以下步骤：

S211：获取任一待处理数据，采用Bert-Embeding层对所述待处理数据进行向量化处理，获得第一向量；

在本方案中使用预训练模型bert来获取每一个词的embedding表示，Bert 等预训练模型是在通过Masked LM任务以及Next Sentence Prediction任务进行预训练，然后再将预训练好的模型在具体任务上在进行fine-tuning(一种机器学习或深度学习中常用的调参方法)，采用预训练模型学习到词embedding 表示效果好于现有技术中常用的word2vec的网络结构训练得到的词embedding，通过Bert-Embeding层获得各个待处理数据对应的向量以便于后续语义识别，本方案将bert模型使用大量医学文献语料进行了预训练，从而可以适应于医学领域的自然语言处理任务。

S212：采用Bi-LSTM网络对所述第一向量进行语义识别，获得第二向量；

具体的，本方案中将上述步骤S211中拼接后的每个词的向量输入到 Bi-LSTM层可以得到隐藏向量(即第二向量)，LSTM是常用的循环神经网络，这里采用了Bi-LSTM是双向LSTM，Bi-LSTM可以很好的学习每个词在句子中的前向以及后向的语义(即上下文语义)。

S213：采用Bi-GRU网络对所述第二向量进行语义识别，获得第三向量；

具体的，本方案中将上述经过Bi-LSTM网络处理后得到的第二向量输入到 Bi-GRU层可以得到隐藏向量(即第三向量)，第一模型使用了两层循环神经网络，第一层使用的是Bi-LSTM、第二层使用的是Bi-GRU。本模型多层循环神经网络可以学习到更深的语义表示

S214：将所述第三向量输入CRF层，输出实体识别的预测标记序列，根据所述预测标记序列获得所述待处理数据对应的实体识别结果；

具体的，本方案中上述S212和S213中输出为每一个实体标签的预测分值，这些分值将作为CRF层，CRF层可以为最后预测的标记序列添加一些约束来保证预测的标记序列是合法的，在训练数据训练过程中，这些约束可以通过CRF 层自动学习到，作为举例的，句子中第一个词总是以标签“B-“或“O”开始，而不是“I-”等，采用CRF层处理后获得的预测标记序列中非法序列出现的概率将会大大降低。

S215：获取另一待处理数据，重复上述步骤S211-S214直至获得各个待处理数据对应的实体识别结果。

本方案中，作为举例的：“The profile of the ACE makes it a therapeutictarget for heart failure.”，其中可以识别到两个医学实体，分别是ACE(gene)、 heartfailure(disease)。

本方案中所述的第一模型区别现有的word2vec的word embedding信息作为输入，单层循环神经网络(RNN)的结构，使用双层循环网络进一步增加模型的学习，提高获得的实体识别结果的准确性。

在采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果前，对所述第一模型进行训练，参阅图3，包括以下；

S221：获取训练样本，所述训练样本包括多条带有实体标签的训练数据；

其中，所述实体标签包括实体和实体类型；所述实体标签包括上述对应10 种医学实体类型，所述实体标签采用BIO模型来标注。

S222：将所述训练数据输入Bert-Embeding层进行向量化处理，获得与所述训练数据对应的第一处理向量；

S223：采用Bi-LSTM网络对所述第一处理向量进行语义识别，获得第二处理向量；

S224：采用Bi-GRU网络对所述第二处理向量进行语义识别，获得第三处理向量；

S225：将所述第三处理向量输入CRF层，输出实体识别的预测标记序列，根据所述预测标记序列获得样本目标结果；

具体的，上述训练过程中步骤S222-S225与上述处理过程中步骤S211-S214 处理过程一致，使用预训练模型bert来获取待处理数据中每个词的embedding 表示，而后将所述待处理数据对应的词向量依次输入到Bi-LSTM、Bi-GRU层可以第三处理向量进行两次语义识别，两层循环网络的设置(Bi-LSTM+Bi-GRU) 可以学习到更深的语义表示，最后输入到CRF层，获得所述待处理数据对应的实体识别结果。

S226：将所述样本目标结果与所述训练数据对应的实体标签进行比对，调整所述第一模型的参数，直至完成训练，获得训练好的第一模型。

本方案中采用大量的训练样本对第一模型训练，确保第一模型的处理结果具有较高的准确率。

上述步骤S200进行医学命名实体识别操作，但

是医学文本中常常存在缩写形式的实体名称，据统计每一个医学缩写名称对应多个医学实体，从而对于医学实体名称的缩写消歧问题的处理是很重要的，容易生成很多错误的知识，因此在步骤S300基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对前，需要对实体名称进行缩写消歧处理，参阅图4，包括以下：

S231：基于所述实体识别结果获得实体名称列表；

具体的，所述实体名称列表将所述实体识别结果中各个实体集合即可获得。

S232：获取所述实体名称列表中的缩写名称，从所述实体数据库中获取与所述缩写名称对应的实体名称作为候选实体名称；

作为举例而非限定的，比如缩写名称HF可以对应Heart failure、 Hydrofluoricacid、Helical Factor、finger protein、complement factor H 等多种实体名称。

S233：基于各个所述候选实体名称在所述医学文本中查找，获取与所述医学文本匹配的候选实体名称作为与所述缩写名称对应的实体名称；

在本方案中采用基于文献自洽的缩写实体名称缩写消歧，具体是指对于缩写名称在医学文本中一般会有对应非缩写名称出现，因此在医学文本中查找出现过的候选实体名称即可，作为举例的，在识别出的一个实体指称项是HF，在该待处理数据中对应的全文中出现了Heart failure这一非缩写的实体名称，则该句中HF对应的实体是Heart failure，而不是对应Hydrofluoric acid等 HF对应的其他实体，减少缩写名称造成的歧义。

S234：基于与所述缩写名称对应的实体名称更新所述实体识别结果。

具体的，在上述步骤S233获得与缩写名称对应的实体名称后，采用完整的实体名称替换缩写名称，进一步提高识别结果的准确性，也有利于后续S300 中实体关系抽取结果的准确性。

S300：基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对；

基于上述实体类型，所述实体关系包括基于依存关系类型生成的任意两个所述实体类别关联关系，所述依存关系类型包括肯定语义、否定语义(neg)和无法确定语义(unclear)，任意两个实体类型之间的关系共包括50中，每一两个实体类型之间的关系包括3种关系，共包括150种实体关系，包括但不限于 gene-gene、……、gene-pathway；disease-protein、……、 disease-pathway；……；immune factor-pathway等，而且每种关系类型都有 neg、unclear或肯定的类型，比如gene-gene-neg、gene-gene-unclear。

具体的，步骤S300所述基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对，参阅图5，包括以下：

S310：获取任一待处理数据对应的实体识别结果，基于所述实体识别结果获取实体对和实体类型；

S320：识别所述待处理数据的依存关系类型，所述依存关系类型包括肯定语义、否定语义和无法确定语义；

具体的，识别所述待处理数据的依存关系类型采用自然语言处理的依存关系处理，依存关系通过分析语言单位内成分之间的依存关系解释其句法结构，主张句子中核心动词是支配其他成分的中心成分，作为举例的，肯定语义：“The profile of the ACEmakes it a therapeutic target for heart failure.”，其中识别到两个医学实体，分别是ACE(gene)、heart failure(disease)。从中可以得到一条知识<ACE,heart failure,gene-disease>,存储记录格式如下：<ACE,heart failure,gene-disease>；否定语义：“BRCA1 is not associated with heart failure.”，其中识别到的医学实体分别是BRCA1(gene)、heart failure(disease)，associated的依存关系

中可以看出是有否定语义(neg)，则获得一条知识<BRCA1,heart failure, gene-disease-neg>；无法确定语义：“However,whether GHRP have a beneficial effect on CHF isunclear.”，其中识别到的医学实体分别是GHRP (gene)、CHF(disease)。这句话的依存关系的根节点是unclear，这个词的语义是无法确定的语义，则获得一条知识<GHRP,CHF,gene-disease-unclear>。

S330：根据所述依存关系类型、所述实体对和所述实体类型生成实体关系，获得带有实体关系的实体对；

具体的，如上述步骤S320中示例可知，将实体对、实体关系分别进行拼接即可获得带有实体关系的实体对，如：<GHRP,CHF,gene-disease-unclear>。

S340：基于各个待处理数据对应的实体识别结果，获得所有带有实体关系的实体对。

在上述实施方式中，通过对各个待处理数据中依存关系类型的识别，确定各个待处理数据中实体对的实体关系，克服了现有技术中只能确定肯定语义的实体关系，提高对实体关系确定的准确性。

S400：基于所述实体关系计算所述实体对的置信度，基于各个所述实体对、实体关系及对应的置信度生成目标数据。

通过对抽取到的医学实体对置信度得分算法，评估抽取获得的每一实体对关联的置信度，当置信度越高，则对应该实体对关联度越高。

具体的，步骤S400中所述基于所述实体关系计算所述实体对的置信度，基于各个所述实体对、实体关系及对应的置信度生成目标数据，参阅图6，包括以下步骤：

S410：获取所述医学文本中各个所述实体对及对应所述实体关系的出现频次；

具体的，将所有抽取得到实体对和实体对通过简单计算可以得到以下的数据格式：<head_entity,tail_entity,rel,nums,nums_neg,nums_unclear>。其中head_entity,tail_entity代表该条知识的头尾实体，rel表示关系类型。 nums_neg表示抽取该实体对为否定语义的数量(即在医学文本中出现的频次),nums_unclear表示抽取该实体对为无法确定语义的数量，nums表示抽取该实体对的肯定语义数量。作为举例的，抽取到的实体对<ACE,heart failure> 通过简单转换计算的格式如下：<ACE,heart failure,gene-disease,964,2, 6>,表示实体对<ACE,heart failure>的关系类型为gene-disease。抽取到该实体对包含neg语义的数量为2，抽取到该实体对包含unclear语义的数量为6，抽取到该实体对包含肯定语义数量为964。

S420：采用预设权重对所述实体对的各个实体关系对应的出现频次进行加权，并获取加权后与加权前的比值作为所述实体对的置信度；

具体的，所述置信度计算可表示为如下公式：

对于抽取到的每一实体对置信度Confidence，

其中α₀、α₁、α₂是对应加权系数，本方案中设置为α₀＝1、α₁＝-1、α₂＝0.5。这个分数计算的是每个医学实体对置信度得分，分数越大则该实体对有关联的可能性越大。

以上述实体对<ACE,heart failure>为例，其对应的置信度为：

S430：基于各个所述实体对、实体关系及对应的置信度生成目标数据。

在本方案中，生成的目标数据为<head_entity,tail_entity,rel, confidence>，以上述步骤S420中置信度为例，比如<ACE,heart failure, gene-disease,0.9928>，通过上述对置信度的计算进一步提高提取结果的参考性，后续可基于该目标数据中的置信度选择适用于多个不同场景下的实体对。

上述待实体对、实体关系以及对应的目标数据可上传至区块链以便于后续作为参考样本或训练样本，上传至区块链可保证其安全性和对用户的公正透明性，用户设备可以从区块链中下载得该摘要信息，以便查证优先级列表是否被篡改，后续也可以从区块链中下载获得对应金额数据的语音文件用于语音播报，无需生成过程，有效提高语音处理效率。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请中预设10种医学实体以及55种不同实体间的医学关系类型，抽取获得的实体对覆盖率高、种类多，同时采用预训练模型bert来获取word embedding，并且使用到多层双向循环神经网络(Bi-LSTM、Bi-GRU)增强了模型的学习能力，提高实体识别结果的准确性，本方案还通过检索医学文本中出现过的实体数据作为与实体名称缩写对应的实体数据，处理了实体名称缩写的歧义问题，通过依存关系的解析实现对实体对关系的确定，以及对包含否定语义和无法确定语义的待处理数据中实体对关系的处理，最后还基于置信度得分算法，计算获得抽取到每个医学实体对有关联的置信度，进一步提高目标数据的参考性和准确性。

实施例二：

请参阅图7，本实施例的一种医学实体关系抽取装置5，包括：获取模块 51、实体识别模块52、关系识别模块53以及生成模块54。

获取模块51，用于获取医学文本，基于所述医学文本获取多条待处理数据；

实体识别模块52，用于采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果；

其中，所述实体类型包括基因(gene)、疾病(disease)、物质(chemical)、蛋白(protein)、症状(symptom)、实验室检查(test)、治疗方案(therapy，包括手术、化疗、放疗、免疫治疗等)、微生物(microorganism)、免疫因子(immune factor)、生物通路(pathway)。上述第一模型包括依次设置的Bert-Embeding 层、Bi-LSTM网络、Bi-GRU网络以及CRF网络。

关系识别模块53，用于基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对；

所述关系识别模块53还包括以下：

采集模块531，用于获取任一待处理数据对应的实体识别结果，基于所述实体识别结果获取实体对和实体类型；

识别模块532，用于识别所述待处理数据的依存关系类型，所述依存关系类型包括肯定语义、否定语义和无法确定语义；

关系确定模块533，用于根据所述依存关系类型、所述实体对和所述实体类型生成实体关系，获得带有实体关系的实体对。

所述实体关系包括基于依存关系类型生成的任意两个所述实体类别关联关系。

生成模块54，用于基于所述实体关系计算所述实体对的置信度，基于各个所述实体对、实体关系及对应的置信度生成目标数据。

所述装置还包括消歧模块55，用于基于所述实体识别结果获得实体名称列表；获取所述实体名称列表中的缩写名称，从所述实体数据库中获取与所述缩写名称对应的实体名称作为候选实体名称；基于各个所述候选实体名称在所述医学文本中查找，获取与所述医学文本匹配的候选实体名称作为与所述缩写名称对应的实体名称；基于与所述缩写名称对应的实体名称更新所述实体识别结果。

本技术方案基于语音语义中语义解析的自然语言处理，通过获取模块基于医学文本获取待处理数据，采用实体识别模块中的第一模型对待处理数据进行处理获得实体识别结果，其中，第一模型包括依次设置的Bert-Embeding层、 Bi-LSTM网络、Bi-GRU网络以及CRF网络，所述实体识别结果包括10中实体类型，而后根据实体识别结果采用关系识别模块进行实体关系抽取，获得带有实体关系的实体对，实体关系包括基于依存关系类型生成的任意两个所述实体类别关联关系，最后采用生成模块计算各个实体对的置信度，用于评估各个实体对的关联性，并生成目标数据，通过前述方式使用到多层双向循环神经网络(LSTM、GRU)增强了模型的学习能力，实现对实体关系的自动提取，解决现有技术中人工提取医学实体关系费时费力且效率较低的技术问题，最后还基于对置信度得分算法，进一步提高目标数据的参考性和准确性。本申请中在实体识别结果的获取过程中还通过消歧模块对实体名称缩写进行消歧处理，采用基于文献自洽的缩写实体名称缩写消歧，检索医学文本中出现过的实体作为与实体名称缩写对应的实体，处理了实体名称缩写的歧义问题，进一步提高实体识别结果的准确性。

实施例三：

为实现上述目的，本发明还提供一种计算机设备6，该计算机设备可包括多个计算机设备，实施例二的医学实体关系抽取装置1的组成部分可分散于不同的计算机设备6中，计算机设备6可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器61、处理器62、网络接口63以及医学实体关系抽取装置5，如图8所示。需要指出的是，图8仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器61至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器61可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器61也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器61还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例一的医学实体关系抽取装置5 的程序代码等。此外，存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器62在一些实施例中可以是中央处理器(Central Processing Unit， CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制计算机设备的总体操作。本实施例中，处理器62用于运行存储器51 中存储的程序代码或者处理数据，例如运行医学实体关系抽取装置，以实现实施例一的医学实体关系抽取方法。

所述网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在所述计算机设备6与其他计算机设备6之间建立通信连接。例如，所述网络接口63用于通过网络将所述计算机设备6与外部终端相连，在所述计算机设备6与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图8仅示出了具有部件61-63的计算机设备6，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器61中的所述医学实体关系抽取装置5还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器 61中，并由一个或多个处理器(本实施例为处理器62)所执行，以完成本发明。

实施例四：

为实现上述目的，本发明还提供一种计算机可读存储系统，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储医学实体关系抽取装置，被处理器62执行时实现实施例一的医学实体关系抽取方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种医学实体关系抽取方法，其特征在于，包括：

获取医学文本，基于所述医学文本获取多条待处理数据；

2.根据权利要求1所述的医学实体关系抽取方法，其特征在于，所述采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果，包括以下：

获取另一待处理数据，重复上述直至获得各个待处理数据对应的实体识别结果。

3.根据权利要求1所述的医学实体关系抽取方法，其特征在于，在基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对前，包括以下：

基于所述实体识别结果获得实体名称列表；

4.根据权利要求1所述的医学实体关系抽取方法，其特征在于，所述基于所述实体识别结果进行实体关系抽取，获取带有实体关系的实体对，包括以下：

5.根据权利要求1所述的医学实体关系抽取方法，其特征在于，基于所述实体关系计算所述实体对的置信度，基于各个所述实体对、实体关系及对应的置信度生成目标数据，包括以下：

6.根据权利要求1所述的医学实体关系抽取方法，其特征在于，

在采用第一模型对各个待处理数据进行医学命名实体识别，获得各个待处理数据对应的实体识别结果前，还包括对所述第一模型进行训练，包括以下；

其中，所述实体标签包括实体和实体类型；

7.根据权利要求1所述的医学实体关系抽取方法，其特征在于：

所述实体识别结果包括实体和实体类型，所述实体类型包括基因、疾病、物质、蛋白、症状、实验室检查、治疗方案、微生物、免疫因子、生物通路；所述实体关系包括基于依存关系类型生成的任意两个所述实体类别关联，所述依存关系类型包括肯定语义、否定语义和无法确定语义。

8.一种医学实体关系抽取装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述医学实体关系抽取方法的步骤。

10.一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，其特征在于，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至7任一项所述医学实体关系抽取方法的步骤。