CN111222325A

CN111222325A - 一种双向栈式循环神经网络的医疗语义标注方法和系统

Info

Publication number: CN111222325A
Application number: CN201911396702.5A
Authority: CN
Inventors: 易鹏; 马勇; 李爽; 李万余
Original assignee: Beijing Futong Oriental Technology Co ltd
Current assignee: Beijing Futong Oriental Technology Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-06-02

Abstract

本发明公开了一种双向栈式循环神经网络的医疗语义标注方法和系统，其处理过程中分别至少包括一个双向循环神经网络，形成堆叠的双向栈式的循环神经网络结构。本发明提高了模型拟合复杂模式的能力，并能更好地建模跨不同时间步的模式，能解决中文医学文本的长句式中长程语义依赖的单词词性识别困难和语义角色标注困难问题。

Description

一种双向栈式循环神经网络的医疗语义标注方法和系统

技术领域

本发明涉及医疗领域，特别是涉及一种双向栈式循环神经网络的医疗语义标注方法和系统。

背景技术

医疗文本数据以自然语言形式存在，其中含有的数据如病史、诊断、病程记录、检查结果等，常为长文本的形式。传统小样本医学研究中，医疗文本数据的抽取、标准化由人工实现。近年来随着数据挖掘技术迅速发展及其在医疗行业的广泛应用，医学研究对于样本量的需求越来越大。使用自然语言处理(NLP)技术进行医疗文本数据的结构化，为快速获取大样本的结构化医疗数据提供了可能。

NLP属于人工智能的子领域，其核心目的是使得计算机能够理解和生成人类的自然语言，任务主要包括信息抽取、机器翻译、情感分析、摘要提取等，所用到的技术包括命名实体识别、语义消歧、指代消解、词性标注、结构分析等。

命名实体指文本中具有特定意义或指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。医学命名实体指医学文本中的医学专有名词，医学命名实体识别指从非结构化的医学文本中抽取出业务需要的医学专有名词。

因为医学领域命名体系复杂、缩略语规则多样化，医学命名实体具有下述三方面的问题：

一，医学命名实体意义不明确，存在多词一意、一词多意的问题；

二，部分医学命名实体是复合多词短语，需确定其在句子中的左右边界；

三，部分医学命名实体具有命名方式过长、命名实体存在嵌套等特征。

因为目前不存在完整的权威医学命名实体词典，无法简单地利用文本匹配算法实现医学命名实体识别。

基于循环神经网络RNN和条件随机场CRF的方法中，循环神经网络(RNN)将句子中各个字的char embedding序列作为每个时间步的输入,得到隐状态序列，从而得到自动提取的句子特征。而后接入条件随机场(CRF)层来进行标注，模型在解码时使用动态规划的Viterbi算法来求解最优路径,从而完成中文医学文本进行语义角色标注的任务。

由于医学文本中存在复合短语以及特有的医学名词，使用循环神经网络和条件随机场进行文本标注存在两点不足：

一是在使用循环神经网络进行医学中文实体识别时，由于链式法则的原因，会出现累乘项，而医学中文实体的识别由于其特殊性，累乘项的数量会很多，因此会出现RNN梯度消失的问题，使得参数更新缓慢，甚至是停止更新，从而使训练失败。

二是由于使用RNN进行实体识别时，只是从时间正序上进行实体识别，同时由于医学中文的特殊性(一词多义，多词一义)，因此需要大量已标注训练语料才能达到训练目的；同时，对医学中的识别训练模型的复杂度要求高，对RNN的层数和复杂度也要求高。

另一个方法是利用双向循环神经网络BRNN和条件随机场CRF实现中文文本的语义标注。双向循环神经网络BRNN的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络RNN，而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。对于数据的中文短语或词句，在每个输入的词或字，输入会同时提供给两个方向相反的RNN，输出由这两个单向RNN共同决定。因此，较传统RNN神经网络，BRNN能同时记录输入的t+1(未来时序)和t-1(过去时序)的关系，因此能更好的识别中文文本中的命名实体。

使用双向循环神经网络BRNN和条件随机场CRF的方法存在三个缺点：

一是双向循环神经网络BRNN的特征需有谓语动词作为输入，而原始医学文本大多是短语或词项，不一定能准确标注出谓语动词，因此对于医学文本段的标注存在限制，泛化能力弱。

二是在医学命名实体中，存在大量复合型长短语，由于BRNN只记录了t+1与t-1的时序关系，对长程关系的识别能力比较弱，无法满足医学命名实体识别要求。

三是部分医学命名实体具有命名方式过长、命名实体存在嵌套，使用BRNN无法很好的识别嵌套关系。

发明内容

有鉴于此，本发明提出一种双向栈式循环神经网络的医疗语义标注方法和系统，利用循环神经网络，采用合并递归模式，堆叠多个循环神经网络单元构建起一个栈式深层网络，其中双向循环神经网络构成一个单元，最终形成多组栈式堆叠单元，来解决中文医学文本中的长句式中长程语义依赖的单词词性识别困难和语义角色标注困难问题。

为解决上述技术问题，本发明采用的一个技术方案是：提出一种双向栈式循环神经网络的医疗语义标注方法，其特征在于包括以下步骤：

步骤一：获取医疗文本；

步骤二：将所述医疗文本进行初步拆分拼接，得到已初步处理的文本；

步骤三：将所述已初步处理的文本进行二次拆分拼接，将初步处理的实体词进行合并处理，形成初步的医学实体标识；

步骤四：将所述初步的医学实体标识进行整体合并标注，形成已初步标注的文本；

步骤五：将所述已初步标注的文本进行样本解码，并输出医疗文本的语义标注结果；

所述步骤二、步骤三以及步骤四的处理过程中分别至少包括一个双向循环神经网络，形成堆叠的双向栈式的循环神经网络结构。

进一步的，所述双向循环神经网络包括正向长短时序神经网络和一个反向长短时序神经网络。

所述已初步处理的文本中，包括所述医疗文本中所有的由单个词语组成的医学实体词；

所述初步的医学实体标识中，包括所述医疗文本中所有的由单个词语组成的医学实体词和两个词语组成的医学实体词；

所述已初步标注的文本中，包括所述医疗文本中所有的由单个词语组成的医学实体词、两个词语组成的医学实体词和多个词语组成的医学实体词；

所述医疗文本的语义标注结果，标注出所述医学文本中的时间、疾病、治疗、症状等医学实体词的语义关系。

进一步的，上述步骤五至少使用条件随机场CRF或隐马尔科夫链HMM等序列标注模型来进行标注。

对应上述方法，所述双向栈式循环神经网络的医疗语义标注系统包括：

输入单元，用于获取医疗文本；

单词处理单元，用于将所述医疗文本进行初步拆分拼接，得到已初步处理的文本；

双词处理单元，用于将所述已初步处理的文本进行二次拆分拼接，将初步处理的实体词进行合并处理，形成初步的医学实体标识；

多词处理单元，用于将所述初步的医学实体标识进行整体合并标注，形成已初步标注的文本；

词性解码单元，用于将所述已初步标注的文本进行样本解码，并输出医疗文本的语义标注结果；

所述单词处理单元、双词处理单元以及多词处理单元中分别至少包括一个双向循环神经网络，形成堆叠的双向栈式的循环神经网络结构。

本发明的有益效果在于：提出了一种双向栈式循环神经网络的医疗语义标注方法和系统，利用循环神经网络，采用合并递归模式，堆叠多个循环神经网络单元构建起一个栈式深层网络，其中双向循环神经网络构成一个单元，最终形成多组栈式堆叠单元，最后通过序列标注单元进行标注，提高了模型拟合复杂模式的能力，并能够更好地建模跨不同时间步的模式，解决中文医学文本中的长句式中长程语义依赖的单词词性识别困难和语义角色标注困难问题。

附图说明

图1是本发明一种双向栈式循环神经网络的医疗语义标注系统的结构示意图；

图2是本发明一种双向栈式循环神经网络的医疗语义标注系统所示的一较佳实施例的输入向量示意图；

图3是本发明一种双向栈式循环神经网络的医疗语义标注系统所示的一较佳实施例的训练结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请涉及一种双向栈式循环神经网络的医疗语义标注方法，包括以下步骤：

步骤一：获取医疗文本；

其中，所述双向循环神经网络包括正向长短时序神经网络和一个反向长短时序神经网络。

优选的，上述步骤五至少使用条件随机场CRF或隐马尔科夫链HMM等序列标注模型来进行标注。

针对上述方法本申请发明了一种对应的一种双向栈式循环神经网络的医疗语义标注系统，现举例说明：

实施例一

结合图1所示，本实施例提供的一种双向栈式循环神经网络的医疗语义标注系统包括：输入单元、单词处理单元、双词处理单元、多词处理单元、词性解码单元。

系统中的单词处理单元、双词处理单元、多词处理单元分别包括至少一个双向循环神经网络，从而形成双向栈式的循环神经网络结构。根据实际业务的不同需求，可以调整所包含的双向循环神经网络的数量。词性解码单元可使用包括但不限于条件随机场CRF、隐马尔科夫链HMM等序列标注模型来进行标注。

本实施例给出的单词处理单元、双词处理单元、多词处理单元都包含一个双向循环神经网络，循环神经网络具体使用的是长短时序记忆网络LSTM，词性解码单元使用CRF进行标注。下面详细说明本实施例：

输入单元，获取医疗文本“5年前外院(具体不详)诊断为“肾炎”，未予特殊处理，近一个月来纳差，半个月前至外院就诊，测血压：180/95mmHg，查肾功能:K：6.04mmol/L，Cr：1605μmol/L，BUN：62.75mmol/L。尿常规:尿蛋白：+++,尿白细胞：－，红细胞：±。血常规：2010-9-28，WBC：6.21×109/L，HGB：6.21g/L；PLT：184×109/L。诊断：慢性肾小球肾炎，慢性肾功能不全，肾性贫血，肾性高血压，肾性骨病。患者未行血液透析治疗，口服尿素清，降钾树脂，碳酸钙，益三醇，拜新同等治疗，今转诊我院，急诊查肾功能:K：4.7mmol/L，Cr：1694μmol/L，BUN：64.78mmol/L。”作为输入，并将所述医疗文本传递给单词处理单元；

单词处理单元，用于将上述医疗文本进行初步拆分拼接，得到已初步处理的文本；

所述已初步处理的文本中，包括医疗文本中所有的由单个词语组成的医学实体词，例如“慢性”、“肾小球”、“肾炎”、“血液”、“透析”等。

双词处理单元，用于将所述已初步处理的文本进行二次拆分拼接，将初步处理的实体词进行合并处理，形成初步的医学实体标识。

所述初步的医学实体标识中，包括医疗文本中所有的由单个词语组成的医学实体词和由两个词语组成的医学实体词。例如由两个词语组成的医学实体词有“肾小球肾炎”、“血液透析”。

所述已初步标注的文本中，包括医疗文本中所有的由单个词语组成的医学实体词、由两个词语组成的医学实体词和由多个词语组成的医学实体词；例如由多个词语组成的医学实体词有“慢性肾小球肾炎”、“慢性肾功能不全”等。

词性解码单元，用于将所述已初步标注的文本进行样本解码，并输出医疗文本的语义标注结果。

所述解码单元输出医疗文本的语义标注结果，能够标注出医学文本中的时间、疾病、治疗、症状等医学实体词的语义关系。

本实施例的语义标注结果中，标注出了：

时间信息：“5年前”；

疾病信息：“肾炎”、“慢性肾小球肾炎”、“慢性肾功能不全”、“肾性贫血”、“肾性高血压”、“肾性骨病”；

治疗信息：“血液透析”、“尿素清”“降钾树脂”、“碳酸钙”、“益三醇”、“拜新同”；

症状信息：“血压：180/95mmHg”、“肾功能:K：6.04mmol/L，Cr：1605μmol/L，BUN：62.75mmol/L”、“憋气”、“排气”、“排便”、“发热”、“Tmax39.5℃”等。

实施例二：

本实施例提供了一种双向栈式循环神经网络的医疗语义标注系统中的输入单元、单词处理单元、双词处理单元、多词处理单元、词性解码单元的参数训练过程。

本系统中的单词处理单元、双词处理单元、多词处理单元分别包括至少一个双向循环神经网络，从而形成双向栈式的循环神经网络结构。根据实际业务的不同需求，可以调整所包含的双向循环神经网络的数量。

本实施例给出了对单词处理单元、双词处理单元、多词处理单元、词性解码单元进行训练并确定合适参数的过程。其中单词处理单元、双词处理单元、多词处理单元分别包含一个双向LSTM，词性解码单元使用CRF进行标注。具体步骤如下：

S301，进行数据准备：

本实施例的训练和测试数据采用某医院的电子病历，并主要抽取电子病历中“现病史”段落进行清洗、分句和标注。处理过程如下：

S3011，抽取“现病史”段落，并进行清洗，将段落按句切割，一句对应一条样本；

S302，采用自定义词典，利用分词工具进行分词、标注词性。分词工具可选Jieba或LTP。本实施例使用Jieba进行分词，LTP进行标注词性；

S3013，利用字典检索分词后的实体词，并标注对应标签。疾病实体词标注为“B-AM-DIS”,症状实体词标注为“B-AM-SYM”,时间实体词标注为“B-AM-DATE”，治疗实体词标注为“B-AM-TRA”，症状属性实体词可根据属性类别对应标注，例如：“B-AM-BODY”(身体部位)，“B-AM-COLOR”(症状颜色)等；

S3014，对句子中词性为动词的非实体词标注为“B-V”，其他非实体词、非动词均标注为“O”。

S302，选择特征向量：

本实施例构建了4个文本特征，分别是：输入序列中的每个词、输入序列中的谓语动词、谓语动词上下文以及谓语动词的上下文区域标记。

其中，输入序列词与谓语动词的上下文共享一个词表，采用word2vec训练的词向量作为词表；谓语动词和上下文区域标记各有独立词表。

如图2所示，结合需要学习的标签，本实施例的输入模型共有五个向量：输入序列中的每个词、输入序列中的谓语动词、谓语动词上下文以及谓语动词的上下文区域标记、标注序列。

S303，训练结果：

如图3所示可知，由短语样本训练的模型可以达到更佳的性能，总体准确率是98.33％，其中症状和日期实体词的精确度、召回率均在97％以上，疾病实体词的精确度和召回率则稳定在90％。相较之下，由长文本样本训练的模型准确率为87.11％，日期实体词的召回率略低，仅为23.1％，精确度则达到99％。

S304，进行结果分析：

通过对实体标签的增减、损失度的调整以及标注规则的测试，本实施例得出以下结论：

(1)对于长文本(sample)的训练，cost稳定在10，模型预测效果较好；对于短语(phrase)的训练，cost稳定在1、0.5，模型预测效果较好；

(2)总体看，短语(phrase)的模型预测结果优于长文本(sample)；

(3)增减TEMP(体温)标签对短语模型训练的影响非常小，对长文本模型影响大；

(4)目前结果看，标签合并比分标签训练效果要好一些；

(5)cost越小，时间新词的发现可能性越低。

以上所述仅为本发明的实施例、并非因此限制本发明的专利范围、凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换、或直接或间接运用在其他相关的技术领域、均同理包括在本发明的专利保护范围内。

Claims

1.一种双向栈式循环神经网络的医疗语义标注方法，其特征在于包括以下步骤：

步骤一：获取医疗文本；

2.如权利要求1所述的一种双向栈式循环神经网络的医疗语义标注方法，其特征在于：所述双向循环神经网络包括正向长短时序神经网络和一个反向长短时序神经网络。

3.如权利要求1所述的一种双向栈式循环神经网络的医疗语义标注方法，其特征在于：

4.如权利要求1-3任意一个所述的一种双向栈式循环神经网络的医疗语义标注方法，其特征在于，所述步骤五至少使用条件随机场CRF或隐马尔科夫链HMM等序列标注模型来进行标注。

5.一种双向栈式循环神经网络的医疗语义标注系统，其特征在于，所述系统包括如下单元：

输入单元，用于获取医疗文本；

6.如权利要求5所述的一种双向栈式循环神经网络的医疗语义标注系统，其特征在于：所述双向循环神经网络包括正向长短时序神经网络和一个反向长短时序神经网络。

7.如权利要求5所述的一种双向栈式循环神经网络的医疗语义标注系统，其特征在于：

所述已初步处理的文本中，包括医疗文本中所有的由单个词语组成的医学实体词；

所述初步的医学实体标识中，包括医疗文本中所有的由单个词语组成的医学实体词和两个词语组成的医学实体词；

所述已初步标注的文本中，包括医疗文本中所有的由单个词语组成的医学实体词、两个词语组成的医学实体词和多个词语组成的医学实体词；

8.如权利要求5-7任意一个所述的一种双向栈式循环神经网络的医疗语义标注系统，其特征在于，所述词性解码单元，至少使用包括条件随机场CRF或隐马尔科夫链HMM等序列标注模型来进行标注。