CN110444286A

CN110444286A - 在对象异常状态的决策支持中利用自然语言处理的方法

Info

Publication number: CN110444286A
Application number: CN201810616392.2A
Authority: CN
Inventors: P·库欧斯曼恩
Original assignee: Avin Technology Co Ltd
Current assignee: Avin Technology Co Ltd
Priority date: 2018-05-04
Filing date: 2018-06-15
Publication date: 2019-11-12
Also published as: EP3564964A1

Abstract

本公开涉及在对象异常状态的决策支持中利用自然语言处理的方法。本发明的目的是一种利用自然语言处理技术对对象异常状态进行决策支持的方法。该方法以前一阶段的输出是下一阶段的输入的方式包括以下阶段：自然语言处理(NLP)；word2vec模型；数据预处理；词嵌入；建立LSTM神经网络模型。

Description

在对象异常状态的决策支持中利用自然语言处理的方法

技术领域

本发明的目标是用于在对象异常状态的决策支持中利用自然语言处理技术的方法。本发明展示了基于word2vec和长期-短期记忆的分类模型，后面也简称为“LSTM”，以对对象的异常状态执行有效和准确的分析。该目标的一个实施例是人体，其中例如该方法可以用于急性腹部疾病的有效分诊(triage)分析。发明还给出了用于创建对象异常状态的决策支持分析的基于计算机的布置。

背景技术

急性腹部疾病是由腹痛引起的一组常见急症，既有并发症少且预后良好的单纯性疾病(诸如阑尾炎)，也有可能危及生命的更复杂的疾病(诸如急性胰腺炎、消化道穿孔、肠道缺血性疾病、消化道出血)。

据美国报道，根据一些医院报告，急性腹部疾病是成人急诊治疗中的第三位，并且是急诊中心最常见的疾病之一，在急症中高达1/4至1/5。中国急性腹部疾病的系统性流行病学调查并不多。

在大型医院中，由于不受限制的医疗方法的使用范围广泛，急诊科通常非常忙碌，尤其是在普通门诊关门后的晚上。而且，由于医务人员长期缺乏，急救医生的工作量很大。在许多大型医院中，急救医生一次换班期间患者人数往往超过100人，因此每位患者的诊断时间非常有限。

根据一个急诊科统计，2017年每名患者的平均等候时间为39分钟，每名患者的诊断时间为12分钟。急性腹部疾病的常见症状是腹痛。但是，急性腹部疾病包含各种疾病并且症状非常不同。因此，在诊断时间和辅助检查结果有限的情况下，作出准确的诊断，尤其是选择身体状况差的患者并提供专业治疗，是待解决的非常重要的问题。这个问题在很大程度上可以被解决，以避免由于延迟诊断和误诊造成的患者风险，从而降低医疗失误率和医疗事故。

但是，初级医生需要很长时间才能达到高级医师所具有的相同水平的感知。而且，在嘈杂的环境和繁重的工作压力下，整合信息和诊断的能力将下降。急性腹部疾病的快速准确的智能分诊是基于患者对症状的描述(如主诉和当前疾病史以及少量辅助检查结果)进行分类以预测诊断的处理。

医疗转录(transcripts)和记录是分析和理解患者状态的常用信息来源。医疗转录通常以自然语言形式存储。由于医疗实践的差异，医疗转录中使用的术语因患者而异。医学术语的变化和使用需要经过培训或熟练的医学专家理解由给定的转录传达的医学概念。文本的非结构化性质以及用于指代相同医疗状况的各种方式使得自动分析具有挑战性。一种方法是短语定位(spotting)，诸如在医疗转录中搜索特定的关键术语。一个或多个词的存在用于显示患者的状态的存在，或者可以使用具有其它相关信息的词的存在来推断患者的状态。规则被用于确定任何识别出的词对总体推论的贡献。某些状况只可以通过提到相关症状或疾病来暗示，并且从未明确提及过。仅存在或不存在与状况立即相关的某些短语或词可能不足以推断患者的状况。

自然语言处理有四个主要挑战：1)不确定性广泛存在：覆盖从词汇、句法、语义、语用(pragmatic)到语音；2)未知语言现象的不可预测性：新的词汇、术语、语义和句法层出不穷；3)总是面临数据不足：有限的一套语言总是包含越来越多的语言现象；4)语言知识表达的复杂性：语义知识的模糊性和复杂性不能用简单的数学模型来描述，文化内涵难以用传统的方式来描述，语义计算需要大参数非线性计算。

可以看出，基于语义计算和分析的自然语言处理有望从计算机中获得人类语义处理模式的准确服务方法。实现这一目的的唯一途径是理解人脑对语言理解的机制，从而实现语言认知形式和处理。

鉴于缺乏对词汇语法瓶颈的有效解决方案，建立满足人工智能需求的知识库是不可能的。自然语言处理只能采取不同的方法，即，为真实语料构建大型的语义知识库。因此，统计方法成为自然语言处理的主流手段。借助现代统计学和强大的教学工具，可以构建复杂的统计模型，并将复杂的语言知识(如句法知识等)融入其中，并有效实现远程因素的解决方案。为了统计模型取得更大的成功，统计模型取决于语言理论的突破和为自然语言过程服务的广阔语言资源的支持。

自然语言处理研究的发展趋势。近年来，自然语言处理处于快速发展阶段。各种词列表、语义、语法词典、语料库和其它数据资源越来越丰富，新理论、新方法和新模型的出现促进了自然语言处理研究的繁荣。随着互联网技术的普及化以及世界经济和社会一体化的趋势，迫切需要自然语言处理技术，其为自然语言处理的研究和开发提供了强大的市场力量。

自然语言处理在医学文本、特别是中文医学文本处理中的应用并不多。该行业已在这些领域进行了一些初步工作。

发明内容

本发明的目的是消除上述缺点，并提供一种便宜的、功能可靠的和尽可能谨慎的方法，用于对对象的异常状态进行决策支持。本发明的方法基于发明人所作的研究，并且在本申请文本的后面提及本研究。

本发明主要涉及利用自然语言处理技术对对象异常状态进行决策支持的布置和方法。本发明的一个实施例是急性腹部疾病的医疗决策支持。该方法主要使用一些专业医学文献和医生撰写的第一手病例资料来形成向量化词汇的语料库，然后使用LSTM模型对输入数据进行分类。该研究表明，用少量专业领域文本构建的word2vec模型的表现优于由大量中文文本构成的关于医学记录分类的一般模型。

随着深度学习技术的发展，为各种情况下的复杂分类开发了大量模型。在这些分类当中，由于LSTM模型具有可以规格化为长度不等的向量并且还在一定程度上理解向量之间的上下文关系的特点，因此LSTM模型是文本理解的首选方法。我们的研究表明，对于小样本和少量的学习数据，简单的LSTM模型已经能够获得更好的分析结果。但是，当学习样本数量大时(诸如百度AIP)，使用嵌入技术获得的模型的识别效果相当差。这暗示我们应当使用更有针对性的数据集来训练具体的临床问题。

急性腹部疾病是一系列不同病因的复杂临床疾病，可分为多种解剖位置和多种发病机制的排列组合。如何使用有限的数据来描述这些疾病的解剖位置和病理生理过程一直是个难题。我们研究的创新之一是使用8乘6矩阵来表示诊断的具体临床分类。这种分类可以通过8+6＝14个二元分类器来实现。使用多分类器预测复杂结果的方法是我们研究中的一个创新点。我们发现LSTM模型形成的向量矩阵与分类器矩阵之间存在良好的映射关系。例如，在向量矩阵中，从肝脏到胃的距离接近肝脏到胆囊。分类结果指示胆囊和胃容易穿孔，而肝脏则不容易穿孔。这暗示我们的LSTM技术可能能够在某些器官的疾病分类概念内感知到一些特定的关系。

同时，诊断急性腹部疾病是一个非常复杂的信息处理过程。单单文本无法获得患者所有的临床信息。在急性腹部疾病的情况下，信息收集过程往往伴随着医生的临床决策过程。在这种情况下，从由医生经由自然语言处理收集的患者信息的分类获得的高临床诊断率并不意味着我们可以通过类似的技术工作来取代医生的工作。以上研究仅仅意味着我们可以从文本分析中挖掘重要的信息，从而实现临床线索。目的是建立基于自然语言处理和深度学习技术建立急性腹痛疾病的智能快速诊断系统，以便及时、准确地评估病人的病情，并缩短急救患者的治疗过程，由于节省时间，这对于最大程度地救治患者至关重要，同时避免了医疗纠纷，并且医疗资源被合理分配。

本发明还包括用于创建对象的异常状态的决策支持分析的基于计算机的布置，该布置包括例如包含要处理的语料库的数据库文件、用于存储分类和结果的计算机存储器、用于执行根据本发明编写的计算机程序的指令的处理器，以及用于将分类结果输出给操作员或存储文件(例如，数据库文件)的装置。

附图说明

下面将参考附图借助于其实施例的示例更详细地描述本发明，其中：

图1给出了一种中文分词(word segmentation)形式，并且

图2展示了另一种中文分词形式。

具体实施方式

这个示例的重点是根据中国医疗转录和医疗记录实现对急性腹部疾病的决策支持诊断。中文在每个词中都没有空格。为了为构建模型提取有意义的词，中文句子应首先通过自然语言处理在医疗记录中进行分割。

在这个示例中，2015-2017年中国四川省人民医院共存在922份住院急性腹痛患者的医疗记录数据，包括患者姓名、年龄、性别、主诉、目前和既往病史及诊断。

纳入标准：1)急性腹痛；2)成人患者(年龄>18)；

排除标准：1)年龄<18；2)慢性腹痛。

本发明基于以下五个阶段：

1)自然语言处理(NLP)：根据一些医学文献或教材，医学术语被提取并添加到中文分词工具中，以构建定制的医学中文分词工具。医学分类(即，中文分词)工具是通过使用自定义语料库构建的。

使用百度中文分词工具，可以将句子“阑尾周围脓肿，急性阑尾炎，化脓坏疽或穿孔，将阑尾包裹并形成粘连，形成炎性肿块或阑尾周围脓肿”划分为图1中给出的形式。图2采用定制的医学中文分词工具，可以将其划分为图2中给出的形式。可以看出，医学中文分词工具比由百度的非特定语料库建立的中文分词工具略胜一筹。

2)Word2vector模型：使用自定义分割工具移除包含医学文献和医学教科书的语料库中的一些停止词(stop word)和无关词。然后，在分词之后使用语料库建立word2vector模型，它可以用向量表示词，并最终投影为多维矩阵。

通过使用专门的分词工具提取电子医疗记录的文本实体，并且计算疾病与语料库矩阵中的症状之间的距离，这将这两个实体连接起来。通常疾病和症状之间只有一种关系，即，疾病造成症状。换句话说，该关系是由于症状的发生而对疾病作出诊断。

例如胆囊炎。提醒：右肾随着减少疾病而增加其内部密度，“胆囊炎”造成症状组{“右肾增加”，“密度减少”}；或“急性阑尾炎”造成中上腹痛、隐痛，伴有恶心、呕吐、腹泻等症状，即，“急性阑尾炎”造成症状组{“上腹痛”，“恶心”，“呕吐”，“腹泻”}。我们将诊断和症状放入语料库模型中，以计算它们之间的距离，从而获得不同症状的最可能的诊断。

3)数据预处理：在初期阶段，922份数据中的主诉、目前病史和过去病史通过使用针对中文分词定制的中文分词工具进行处理。

4)词嵌入：分割之后的医疗记录的数据由word2vector模型向量化并输出矩阵。之后，将922*n矩阵视为训练数据。

5)利用有监督的机器学习技术来获得基于可用数据集的分类模型。

本发明中描述的一般问题需要在医疗记录和对应的医疗诊断(即，人的疾病)之间建立正确的指派。一般而言，人工智能和机器学习术语，这是一个监督学习任务：基于一组数据点(例如，如先前步骤中描述的表示为向量的医疗记录)，需要导出可以用来识别数据点所属的正确类别(例如，与记录对应的疾病)的模型。这可以通过利用不同的公认的分类方法来执行，诸如逻辑回归、支持向量机或递归神经网络模型，诸如通过建立LSTM神经网络模型对输入数据进行分类的长期-短期记忆网络。基于对各种模型的性能的评估，可以使用传统的评估措施(诸如准确度、召回率或精度)来选择最佳模型。

对于本领域技术人员而言明显的是，本发明的不同实施例和应用不限于上述示例，而是可以在权利要求的范围内变化。因此，例如，该方法可以用于实现咨询台中计算机相关的问题的决策支持分析。

Claims

1.一种利用自然语言处理技术对对象异常状态进行决策支持的方法，其特征在于，该方法以前一阶段的输出是下一阶段的输入的方式包括以下阶段：

-自然语言处理(NLP)，

-word2vec模型，

-数据预处理，

-词嵌入，

-建立LSTM神经网络模型。

2.如权利要求1所述的方法，其特征在于，由word2vec模型生成对词向量化的语料库，该模型由少量专业领域文本构建。

3.如权利要求1或2所述的方法，其特征在于，使用8×6矩阵来表示分析的具体分类。

4.如上述权利要求中任一项所述的方法，其特征在于，使用多分类器来预测复杂的结果。

5.如上述权利要求中任一项所述的方法，其特征在于，使用8+6＝14个二元分类器来预测复杂的结果。

6.如上述权利要求中任一项所述的方法，其特征在于，医学转录和记录被用作语料库。

7.如权利要求1-6中任一项所述的方法用于实现急性腹部疾病的决策支持诊断的用途。

8.如权利要求1-5中任一项所述的方法用于实现咨询台中与计算机相关的问题的决策支持分析的用途。

9.如权利要求1-8中任一项所述的方法的用途，其特征在于，中文文本被用作语料库。

10.如以上用于实现对对象异常状态进行决策支持分析的任何方法和/或用途的基于计算机的布置，该布置包括包含要被处理的语料库的数据库文件、用于存储分类和结果的计算机存储器、用于执行根据本发明编写的计算机程序的指令的处理器，以及用于将分类结果输出给人类操作员或存储文件的装置。