CN109978022B

CN109978022B - 一种医疗文本信息处理方法及装置、存储介质

Info

Publication number: CN109978022B
Application number: CN201910177259.6A
Authority: CN
Inventors: 刘续乐; 杨巍; 孙钟前; 胡海峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2022-07-29
Anticipated expiration: 2039-03-08
Also published as: CN110490251B; CN109978022A; CN110490251A

Abstract

本发明提供了一种医疗文本信息处理方法及装置、计算机可读存储介质，该方法包括：获取预设疾病相关文本信息和当前病历数据；预设疾病相关文本信息表征多种疾病相关的症状描述性语言和对应的病症人群信息；利用预测分类模型，对预设疾病相关文本信息和当前病历数据分别进行特征编码，得到疾病文本特征和病历数据特征；预测分类模型是根据预设疾病相关文本信息和历史病历数据经过模型训练后得到的，通过预设疾病相关文本信息表征病历数据与疾病分类的对应关系；将疾病文本特征和病历数据特征经过注意力机制进行特征融合，以及分类处理后，得到分类结果。

Description

一种医疗文本信息处理方法及装置、存储介质

技术领域

本发明涉及电子应用领域中的数据处理技术，尤其涉及一种医疗文本信息处理方法及装置、存储介质。

背景技术

近年来，人工智能在各个领域中的应用越来越多，成为了各个领域进行决策和预测的一种重要手段。

目前，采用知识图谱结合机器学习中的神经网络模型等实现医疗领域中的事件决策或预测。具体的，对疾病类的知识图谱进行特征学习得到实体向量和关系向量等低维向量，然后将这些低维向量引入神经网络模型，实现某一事件决策模型，基于模型和当前数据，完成事件决策。或者，将疾病类的知识图谱特征学习和算法的目标函数结合，使用端到端的方法进行算法模型的联合学习，将最终算法模型中的监督信号及时反馈到知识图谱特征的学习中，不断的调整，最终实现某一事件决策模型，完成事件决策。

然而，丰富全面而且准确的知识图谱需要耗费大量的人力物力进行标注，同时需要整理的时间较长，数据获得比较复杂，加上对知识图谱进行的处理比较单一，从而会导致数据处理的准确率下降，进而影响事件决策的分类结果。

发明内容

本发明实施例提供一种医疗文本信息处理方法及装置、存储介质，能够提高数据处理的准确性，从而提高事件决策的分类结果的准确度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种医疗文本信息处理方法，包括：

获取预设疾病相关文本信息和当前病历数据；所述预设疾病相关文本信息表征多种疾病相关的症状描述性语言和对应的病症人群信息；

利用预测分类模型，对所述预设疾病相关文本信息和所述当前病历数据分别进行特征编码，得到疾病文本特征和病历数据特征；所述预测分类模型是根据所述预设疾病相关文本信息和历史病历数据经过模型训练后得到的，通过预设疾病相关文本信息表征病历数据与疾病分类的对应关系；

将所述疾病文本特征和所述病历数据特征经过注意力机制进行特征融合，以及分类处理后，得到分类结果。

本发明实施例提供一种医疗文本信息处理装置，包括：

获取单元，用于获取预设疾病相关文本信息和当前病历数据；所述预设疾病相关文本信息表征多种疾病相关的症状描述性语言和对应的病症人群信息；

编码单元，用于利用预测分类模型，对所述预设疾病相关文本信息和所述当前病历数据分别进行特征编码，得到疾病文本特征和病历数据特征；所述预测分类模型是根据所述预设疾病相关文本信息和历史病历数据经过模型训练后得到的，通过预设疾病相关文本信息表征病历数据与疾病分类的对应关系；

融合分类单元，用于将所述疾病文本特征和所述病历数据特征经过注意力机制进行特征融合，以及分类处理后，得到分类结果。

本发明实施例还提供一种医疗文本信息处理装置，包括：

存储器，用于存储可执行数据处理指令；

处理器，用于执行所述存储器中存储的可执行数据处理指令时，实现本发明实施例提供的医疗文本信息处理方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行数据处理指令，用于引起处理器执行时，实现本发明实施例提供的医疗文本信息处理方法。

本发明实施例具有以下有益效果：

医疗文本信息处理装置获取预设疾病相关文本信息和当前病历数据；预设疾病相关文本信息表征多种疾病相关的症状描述性语言和对应的病症人群信息；利用预测分类模型，对预设疾病相关文本信息和当前病历数据分别进行特征编码，得到疾病文本特征和病历数据特征；预测分类模型是根据预设疾病相关文本信息和历史病历数据经过模型训练后得到的，通过预设疾病相关文本信息表征病历数据与疾病分类的对应关系；将疾病文本特征和病历数据特征经过注意力机制进行特征融合，以及分类处理后，得到分类结果。采用上述技术实现方案，医疗文本信息处理装置采用预设疾病相关文本信息这种文字描述疾病症状等的表述作为外部知识，结合患者的当前病历数据，在预设疾病预设模型的处理下，就可以进行疾病的预测了。由于医疗文本信息处理装置采用了简单易获取的文本信息的知识，结合患者的当前病历数据，依据注意力机制组成综合的融合性特征，采用融合性特征实现疾病分类时，基于融合性特征的易用性和多维度实现准确的情况，提高了数据处理的准确性，从而提高事件决策的分类结果(例如疾病预测)的准确度。

附图说明

图1是本发明实施例提供的数据处理系统架构的一个可选的结构示意图；

图2是本发明实施例提供的医疗文本信息处理装置的一个可选的结构示意图一；

图3是本发明实施例提供的医疗文本信息处理装置的一个可选的结构示意图二；

图4是本发明实施例提供的医疗文本信息处理方法的一个可选的流程示意图一；

图5是本发明实施例提供的示例性的LSTM记忆单元的结构图；

图6是本发明实施例提供的示例性的疾病分类流程图；

图7是本发明实施例提供的医疗文本信息处理方法的一个可选的流程示意图二；

图8是本发明实施例提供的示例性的特征融合过程示意图；

图9是本发明实施例提供的医疗文本信息处理方法的一个可选的流程示意图三。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明实施例保护的范围。

除非另有定义，本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明实施例。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)、特征提取：将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG]等)或者统计意义或核的特征。在本发明实施例中的特征提取是指对音频数据中提取重要音频信息的特征向量。

2)、长短期记忆单元模型(LSTM，Long Short Term Memory)是一种时间递归神经网络，能选择性地记忆历史信息(历史积累特性)。在RNN模型基础上对其作进一步改进，采用LSTM单元替换RNN网络中的隐含层节点，就则形成LSTM。

3)、卷积神经网络(CNN，Convolutional Neural Networks)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。

4)、机器学习：依托概率论，统计学，神经传播等理论，使计算机能够模拟人类的学习行为，以获取新的知识或者技能，重新组织已有知识结构使之不断改善自身的性能。

5)、模型训练：将人工选择的样本输入给机器学习系统，通过不断调整模型参数，使最终模型对样本识别的准确率达到最优。

下面说明实现本发明实施例的医疗文本信息处理装置的示例性应用，本发明实施例提供的医疗文本信息处理装置可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，也可以实施为台服务器，这里的服务器为运行音频数据处理功能或语音识别功能应用的后台服务器。下面，将说明医疗文本信息处理装置实施为服务器时涵盖服务器的示例性应用。

参见图1，图1是本发明实施例提供的数据处理系统100的一个可选的架构示意图，为实现支撑一个示例性应用，终端400(示例性示出了终端400-1和终端400-2)通过网络200连接服务器300，网络200可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

服务器300，用于获取预设疾病相关文本信息和当前病历数据；预设疾病相关文本信息表征多种疾病相关的症状描述性语言和对应的病症人群信息；

利用预测分类模型，对预设疾病相关文本信息和当前病历数据分别进行特征编码，得到疾病文本特征和病历数据特征；预测分类模型是根据预设疾病相关文本信息和历史病历数据经过模型训练后得到的，通过预设疾病相关文本信息表征病历数据与疾病分类的对应关系；将疾病文本特征和病历数据特征经过注意力机制进行特征融合，以及分类处理后，得到分类结果。

终端400，用于在图形界面410(示例性示出了图形界面410-1和图形界面410-2)显示输入当前病历数据的界面，以及展示服务器推送的分类结果的。

本发明实施例提供的医疗文本信息处理装置可以实施为硬件或者软硬件结合的方式，下面说明本发明实施例提供的医疗文本信息处理装置的各种示例性实施，下面以医疗文本信息处理装置为服务器进行说明。

参见图2，图2是本发明实施例提供的服务器300一个可选的结构示意图，服务器300可以是移动电话、计算机、数字广播终端、信息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等终端对应的后台服务器，最佳的为安装有医疗客户端的终端对应的后台服务器，根据服务器300的结构，可以预见装置实施为终端时的示例性结构，因此这里所描述的结构不应视为限制，例如可以省略下文所描述的部分组件，或者，增设下文所未记载的组件以适应某些应用的特殊需求。

图2所示的服务器300包括：至少一个处理器310、存储器340、至少一个网络接口320和用户接口330。服务器300中的各个组件通过总线系统350耦合在一起。可理解，总线系统350用于实现这些组件之间的连接通信。总线系统350除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统350。

用户接口330可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

存储器340可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、闪存(Flash Memory)等。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static RandomAccess Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random AccessMemory)。本发明实施例描述的存储器340旨在包括这些和任意其它适合类型的存储器。

本发明实施例中的存储器340能够存储数据以支持服务器300的操作。这些数据的示例包括：用于在服务器300上操作的任何计算机程序，如操作系统341和应用程序342。其中，操作系统341包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序342可以包含各种应用程序，例如可执行数据处理指令。

作为本发明实施例提供的医疗文本信息处理方法采用软硬件结合实施的示例，本发明实施例所提供的医疗文本信息处理方法可以直接体现为由处理器310执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器340，处理器310读取存储器340中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器310以及连接到总线350的其他组件)完成本发明实施例提供的医疗文本信息处理方法。即：

本发明实施例提供了一种医疗文本信息处理装置，包括：

存储器342，用于存储可执行数据处理指令；

处理器310，用于执行所述存储器中存储的可执行数据处理指令时，实现本发明实施例提供的医疗文本信息处理方法。

作为示例，处理器310可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

下面说明软件模块的示例性结构，在一些实施例中，如图3所示，医疗文本信息处理装置1中的软件模块可以包括：

获取单元10，用于获取预设疾病相关文本信息和当前病历数据；所述预设疾病相关文本信息表征多种疾病相关的症状描述性语言和对应的病症人群信息；

编码单元11，用于利用预测分类模型，对所述预设疾病相关文本信息和所述当前病历数据分别进行特征编码，得到疾病文本特征和病历数据特征；所述预测分类模型是根据所述预设疾病相关文本信息和历史病历数据经过模型训练后得到的，通过预设疾病相关文本信息表征病历数据与疾病分类的对应关系；

融合分类单元12，用于将所述疾病文本特征和所述病历数据特征经过注意力机制进行特征融合，以及分类处理后，得到分类结果。

在本发明的一些实施例中，所述预设疾病相关文本信息包括：多种疾病症状描述文字信息和对应的易患人群信息；

所述当前病历数据包括：病史数据、体征检查数据、检验数据或患者信息中的至少一种。

在本发明的一些实施例中，所述编码单元11，具体用于在所述预测分类模型中的编码层中，分别采用长短期记忆网络LSTM算法对所述当前病历数据中的文字信息部分和所述预设疾病相关文本信息进行特征编码，得到所述疾病文本特征和病历文字数据特征；及采用卷积神经网络CNN对所述当前病历数据中的数值信息部分进行特征编码，得到病历数值数据特征；以及将所述病历文字数据特征和所述病历数值数据特征中的至少一种作为所述病历数据特征。

在本发明的一些实施例中，所述疾病文本特征包括至少两种疾病对应的至少两个疾病文本子特征；

所述融合分类单元12，具体用于对所述至少两个疾病文本子特征和所述病历数据特征进行相似度计算，得到至少两个疾病相似度特征；及对所述至少两个疾病相似度特征进行归一化处理，得到与所述至少两个疾病相似度特征一一对应的至少两个权重系数；及采用注意力机制算法，对所述至少两个疾病文本子特征、所述至少两个权重系数和所述病历数据特征进行特征融合，得到至少两种疾病对应的融合特征；以及基于所述融合特征进行分类处理，得到所述分类结果。

在本发明的一些实施例中，所述获取单元10，还用于获取所述预测分类模型；

在本发明的一些实施例中，所述获取单元10，具体用于按照预设的配置比例，从历史病历数据中获取训练样本，所述训练样本表征历史患者的病历数据与其确诊病症的对应关系；及获取与所述训练样本对应的病症的训练疾病相关文本信息；及调用设置的训练模型处理所述训练样本和训练疾病相关文本信息，得到训练结果；以及基于所述训练结果和所述训练样本，调整所述训练模型直至收敛，得到所述预测分类模型。

在本发明的一些实施例中，所述获取单元10，还具体用于根据所述训练结果、所述训练样本和预设损失函数确定误差值；当所述误差值在预设阈值范围内时，确定所述训练模型收敛；当所述误差值未在预设阈值范围内时，调整所述训练模型中的模型参数，直至所述误差值达到所述预设阈值范围为止，确定所述训练模型收敛；将收敛的训练模型作为所述预测分类模型。

在实际应用中，所述获取单元10、所述编码单元11、所述融合分类单元12可以由处理器310实现，本发明实施例不作限制。

作为本发明实施例提供的医疗文本信息处理方法采用硬件实施的示例，本发明实施例所提供的医疗文本信息处理方法可以直接采用硬件译码处理器形式的处理器310来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本发明实施例提供的医疗文本信息处理方法。

下面将结合前述的实现本发明实施例的医疗文本信息处理装置的示例性应用和实施，说明实现本发明实施例的医疗文本信息处理方法。

参见图4，图4是本发明实施例提供的医疗文本信息处理方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。本发明实施例提供的医疗文本信息处理方法，包括：

S101、获取预设疾病相关文本信息和当前病历数据；预设疾病相关文本信息表征多种疾病相关的症状描述性语言和对应的病症人群信息。

S102、利用预测分类模型，对预设疾病相关文本信息和当前病历数据分别进行特征编码，得到疾病文本特征和病历数据特征；预测分类模型是根据预设疾病相关文本信息和历史病历数据经过模型训练后得到的，通过预设疾病相关文本信息表征病历数据与疾病分类的对应关系。

S103、将疾病文本特征和病历数据特征经过注意力机制进行特征融合，以及分类处理后，得到分类结果。

本发明实施例中，医疗文本信息处理方法可以应用在疾病诊断领域，以患者的病历数据为依据，结合外部知识，通过机器学习预测出疾病的类型或者病种。

需要说明的是，这里的外部知识指预设疾病相关文本信息。

在本发明实施例中，医疗文本信息处理方法的实现可以在疾病分类客户端上，该疾病分类客户端可以安装在医疗文本信息处理装置中。

在S101中，医疗文本信息处理装置通过网络获取预设疾病相关文本信息，通过用户的输入获取当前病历数据；其中，预设疾病相关文本信息表征多种疾病相关的症状描述性语言和对应的病症人群信息。

在本发明实施例中，预设疾病相关文本信息包括：多种疾病症状描述文字信息和对应的易患人群信息。

需要说明的是，在本发明实施例中，预设疾病相关文本信息可以为互联网中的词条库或其他学术知识库等已经公认和公开的病症相关描述中可以找到的与某一种疾病的病症描述或患病人群描述相关的文字信息。或者还可以为更为风度的医疗先验知识，本发明实施例不作限制。

示例性的，词库学科中对于糖尿病的描述文字：“糖尿病是一组以高血糖为特征的代谢性疾病。高血糖则是由于胰岛素分泌缺陷或其生物作用受损，或两者兼有引起。糖尿病时长期存在的高血糖，导致各种组织，特别是眼、肾、心脏、血管、神经的慢性损害、功能障碍。糖尿病的诊断，空腹血糖大于或等于7.0毫摩尔/升，和/或餐后两小时血糖大于或等于11.1毫摩尔/升即可确诊”就可以作为预设疾病相关文本信息。

需要说明的是，在本发明实施例中，预设疾病相关文本信息可以是多种疾病对应的文字描述信息，也就是说，外部知识是多种疾病相关的文字描述库。这样的预设疾病相关文本信息具有确定性且容易获得。

在本发明实施例中，患者的当前病历数据可以由医生或医护人员或者患者等在疾病分类应用中输入而得到，而患者的当前病历数据为在医院的看诊过程中填写记录、检查等得到的数据。

在本发明实施中，当前病历数据包括：病史数据、体征检查数据、检验数据或患者信息中的至少一种。也即是说，当前病历数据是由病史数据、体征检查数据、检验数据或患者信息的任何组合形成的数据，本发明实施例不作限制。

其中，病史数据包括：现病史数据(记录的病人的症状信息)以及既往病史数据(病人之前的疾病对诊断有一定的帮助作用)等记录患者病症的信息。体征检查数据表征针对患者的生理特征或生理器官等的体征检查得到的数据，例如，体温、心率和体重等，本发明实施例不作限制。检验数据(若有，通常可通过一些检查检验数据的结果，对病人的疾病进行确定性的判断)是指通过患者器件、组织或者体液(血液或尿液等)等生物体部分进行检验，化验后得到的数值型检查数据，例如，血常规、尿常规、碳十二等，本发明实施例不作限制。患者指患病的对象，上述病史数据、体征检查数据、检验数据等都是该患者对应的数据，患者信息包括其年龄和性别等用户身份信息(部分疾病与人群特征具有一定的关联)，本发明实施例不作限制。

需要说明的是，病历数据都是包括病史数据、体征检查数据、检验数据或患者信息中的至少一种的，只不过本发明实施例中的当前病历数据的对象是当前待预测的患者对应的病历数据。

进一步地，在本发明实施例中，预设疾病相关文本信息由于是通过网络或者互联网网站(例如医疗百科网站等)等方式获取的，可能多个网站或知识库中都有相应的文字描述，因此，可以采用不同网站进行相互校验，从而保证预设疾病相关文本信息中描述的准确性和可信度。

在S102和S103中，医疗文本信息处理装置在获取了预设疾病相关文本信息和当前病历数据，且还可以获取事先设置好的预测分类模型，这样，医疗文本信息处理装置可以将预设疾病相关文本信息作为先验知识结合当前病历数据输入至预测分类模型中进行分类，得到分类结果。

需要说明的是，在本发明实施例中，预测分类模型可以用于进行疾病预测方向、疾病诊断、以及其他需要估计和预测的方向，本发明实施例不作限制其应用的领域。

示例性的，预测分类模型用于进行疾病预测时，医疗文本信息处理装置可以获取预设疾病相关文本信息，当前病历数据和事先设置好的预测分类模型，这样，医疗文本信息处理装置可以将预设疾病相关文本信息作为先验知识结合当前病历数据输入至预测分类模型中进行患者的疾病预测，从而得到疾病预测结果，实现患者的疾病预测。

在本发明实施例中，预测分类模型可以包括输入层、编码层、知识融合层和全连接层(输出层)。医疗文本信息处理装置将预设疾病相关文本信息和当前病历数据通过输入层输入预测分类模型，然后通过编码层对预设疾病相关文本信息和当前病历数据分别进行特征提取，即编码，然后将各自的特征通过知识融合层，形成融合特征(即融合入特征向量)，融合特征再通过全连接层进行分类处理，最终得到分类结果，该分类结果是对上述患者对应的分类结果。

也就是说，医疗文本信息处理装置可以利用预测分类模型，对预设疾病相关文本信息和当前病历数据分别进行特征编码，得到疾病文本特征和病历数据特征；再将疾病文本特征和病历数据特征经过注意力机制进行特征融合，以及分类处理后，得到分类结果。

在本发明实施例中，当前病历数据是可以由多种数据组成的，这样当前病历数据可以采用结构化的数据存储方式进行数据的存储，也便于后续的数据解析。因此，输入层可以对输入的数据进行结构化解析后，再传输到编码层进行特征提取或者编码。在编码层，医疗文本信息处理装置针对文字型信息和数值型信息可以通过不同的编码方式实现编码。其中，采用LSTM算法对文字型信息进行编码或者特征提取，采用CNN对数值型信息进行编码或特征提取。详细的S102的实现如下：

在预测分类模型中的编码层中，分别采用LSTM算法对当前病历数据中的文字信息部分和预设疾病相关文本信息进行特征编码，得到疾病文本特征和病历文字数据特征；采用CNN对当前病历数据中的数值信息部分进行特征编码，得到病历数值数据特征；将病历文字数据特征和病历数值数据特征中的至少一种作为病历数据特征。

需要说明的是，由于当前病历数据的组成的多样性，可能包含文字信息部分(例如病史数据、体征检查数据等)和数值信息部分(例如检验数据)，因此，病历数据特征可能由病历文字数据特征和病历数值数据特征中的至少一种组成，可根据实际应用中的数据确定，本发明实施例不作限制。

在本发明实施例中，医疗文本信息处理装置使用LSTM对当前病历数据中的文字信息部分和预设疾病相关文本信息进行特征编码的最后一个时刻的向量分别表示疾病文本特征(即疾病文本特征向量)和病历文字数据特征(即病历文字数据特征向量)。

可以理解的是，对于文本数据(即文字信息部分)，使用LSTM对病历数据、外部知识等文本进行编码，相对于RNN算法，LSTM通过增加输入门限，遗忘门限和输出门限，使得自循环的权重是变化的，从而避免了梯度消失或者梯度膨胀的问题。同时，允许在不同时刻改变连接间的权重系数，使得网络可以选择性的记忆较长文本片段中的有用信息。因此，本发明使用LSTM的最后一个时刻的向量作为表示该文本的特征向量。

而检查检验数据不同与病历数据中的文字信息部分，通常为数值型数据，因此，在预测分类模型中，使用CNN的方法对其数值型数据进行特征提取，CNN的布局更接近于实际的生物神经网络，权值共享降低了模型的复杂性。本发明实施例中的医疗文本信息处理装置将检查检验数据通过CNN进行特征向量的抽取，即编码，得到了病历数值数据特征，进而将病历文字数据特征和病历数值数据特征中的至少一种作为病历数据特征，然后医疗文本信息处理装置针对疾病文本特征和病历数据特征进行注意力机制进行特征融合，以及分类处理，得到分类结果。

下面来介绍下LSTM的相关内容。

在本发明实施例中，LSTM是一种时间递归神经网络，能选择性地记忆历史信息(历史积累特性)。在RNN模型基础上对其作进一步改进，采用LSTM单元替换RNN网络中的隐含层节点，就则形成LSTM。

LSTM单元的记忆单元(Memory Cell，Cell)(即核心门)状态受到3个门控制，即输入门(inputgate)、遗忘门(forgetgate)和输出门(outputgate)。

其中，输入门将当前数据选择性地输入到记忆单元；遗忘门调控历史信息对当前记忆单元状态值的影响；输出门用于选择性输出记忆单元状态值。3个门和独立记忆单元的设计，使LSTM单元具有保存、读取、重置及更新长距离历史信息作用。示例性的，如图5所示为一个LSTM记忆单元Cell的结构。

首先，t时刻输入特征x_t和t-1时刻隐藏层变量h_t-1，在权重转移矩阵W和U，以及偏置向量b的共同作用下，生成t时刻的状态量i_t、f_t和o_t，见公式(1)至公式(3)。进一步在t-1时刻核心门状态量c_t-1的辅助下，生成t时刻核心门状态量c_t，见公式(4)。最终，在t时刻核心门状态量c_t与输出门状态量o_t的作用下，生成t时刻隐藏层变量h_t，进而影响t+1时刻LSTM神经元的内部变化，见公式(5)。

i_t＝σ(W_ix_t+U_ih_t-1+b_i) (1)

f_t＝σ(W_fx_t+U_fh_t-1+b_f) (2)

o_t＝σ(W_ox_t+U_oh_t-1+b_o) (3)

c_t＝f_t*c_t-1+i_t*φ(W_cx_t+U_ch_t-1+b_c) (4)

h_t＝o_t*φ(c_t) (5)

其中，两种非线性激活函数分别为

和φ(x_t)＝tanh(x_t)。

i_t、f_t、o_t和c_t分别表示t时刻的输入门状态值、遗忘门状态值、输出门状态值和核心门状态值。在本发明实施例中，对于每一个逻辑门，W_i、W_f、W_o和W_c分别表示输入门、遗忘门、输出门和核心门所对应的权重转移矩阵；U_i、U_f、U_o和U_c分别代表输入门、遗忘门、输出门和核心门所对应的t-1时刻隐藏层变量h_t-1对应的权重转移矩阵，b_i、b_f、b_o和b_c则代表输入门、遗忘门、输出门和核心门所对应偏置向量。

示例性的，由于LSTM具有历史记忆(可以理解为历史积累特性)，在对待文字型数据进行编码的时候，会受到历史检测数据的影响而输出的特征，而历史记忆是有限的，因此，不能无限制的存在下去，并且，在历史记忆存在的时间长度中，最后时刻的特征是比较准确的，因此，本发明实施例采用的都是最后时刻的特征作为文字性数据的最终特征的。

在本发明的一些实施例中，由于患者信息比较简单和形式固定，因此，可以将性别以数字编码的形式编码，然后直接将患者信息作为特征或特征向量，用于进行后面的特征融合。

在本发明的一些实施例中，针对存在病历数值数据特征的情况，医疗文本信息处理装置在进行特征融合时，可以只将病历文字数据特征与疾病文本特征采用注意力机制进行融合后，再与病历数值数据特征进行拼接融合。其中，病历文字数据特征中的患者信息的特征也可以不参与注意力机制的融合，而是直接作为一个患者信息特征进行最后的拼接融合。当然，也可以将全部的特征都进行注意力机制的融合，因此，本发明实施例提供的特征融合的数据组合的方式很多，本发明实施例不作限制。

需要说明的是，具体的特征融合的过程将在后续实施例中进行详细的描述。

示例性的，如图6所示，医疗文本信息处理装置将现病史数据、既往病史数据和体征检查数据、检验数据、患者信息(年龄和性别)和外部知识(预设疾病相关文本信息)通过输入层传输至编码层，通过输入层将现病史数据、既往病史数据和体征检查数据传输到编码层的第一LSTM，采用LSTM进行编码后，分别与将外部知识通过输入层传输至编码层的第二LSTM，采用LSTM进行编码后的特征进行注意力机制的特征融合，得到融合子特征后，再与患者信息以及经过输入层到达编码层的CNN编码完的检验数据进行拼接融合，最终得到了融合特征，将融合特征传输至全连接层进行分类处理后，输出了分类结果。

需要说明的是，预测分类模型是根据预设疾病相关文本信息和历史病历数据经过模型训练后得到的，通过预设疾病相关文本信息表征病历数据与疾病分类的对应关系。详细的训练过程将在后续实施例中进行说明。

可以理解的是，医疗文本信息处理装置采用预设疾病相关文本信息这种文字描述疾病症状等的表述作为外部知识，结合患者的当前病历数据，在预设疾病预设模型的处理下，就可以进行疾病的预测了。由于医疗文本信息处理装置采用了简单易获取的文本信息的知识，结合患者的当前病历数据，依据注意力机制组成综合的融合性特征，采用融合性特征实现疾病分类时，基于融合性特征的易用性和多维度实现准确的情况，提高了数据处理的准确性，从而提高事件决策的分类结果(例如，疾病预测)的准确度。

在本发明的一些实施例中，疾病文本特征包括至少两种疾病对应的至少两个疾病文本子特征。参见图7，图7是本发明实施例提供的医疗文本信息处理方法的一个可选的流程示意图，图7示出的S103可以通过S1031至S1034实现。如下：

S1031、对至少两个疾病文本子特征和病历数据特征进行相似度计算，得到至少两个疾病相似度特征。

S1032、对至少两个疾病相似度特征进行归一化处理，得到与至少两个疾病相似度特征一一对应的至少两个权重系数。

S1033、采用注意力机制算法，对至少两个疾病文本子特征、至少两个权重系数和病历数据特征进行特征融合，得到至少两种疾病对应的融合特征。

S1034、基于融合特征进行分类处理，得到分类结果。

在本发明实施例中，由于疾病的种类是很多的，医疗文本信息处理装置获取的预设疾病相关文本信息中的包含的疾病种类也会很多，因此，疾病文本特征包含的疾病种类同样会很多，即疾病文本特征可以包括至少两种疾病对应的至少两个疾病文本子特征；每种疾病就可以对应一个疾病文本子特征。

在本发明的一些实施例中，可以将至少两个疾病文本子特征按照疾病进行排序，得到具有疾病顺序的至少两个疾病文本子特征，本发明实施例不作限制。

在本发明实施例中，医疗文本信息处理装置可以采用对至少两个疾病文本子特征分别与病历数据特征进行相似度计算，这样就可以得到至少两个疾病相似度特征；再对至少两个疾病相似度特征分别进行归一化处理，得到与至少两个疾病相似度特征一一对应的至少两个权重系数，每个疾病相似度特征对应一个权重系数；再采用注意力机制算法，对至少两个疾病文本子特征、至少两个权重系数和病历数据特征进行特征融合，得到至少两种疾病对应的融合特征；最后基于融合特征进行分类处理，得到分类结果。

在本发明实施例中，医疗文本信息处理装置可以采用对至少两个疾病文本子特征分别与病历数据特征进行相似度计算的过程可以采用相似度模型来实现，本发明实施例不限制相似度模型。

示例性的，相似度计算可以采用cosine相似性计算相似度，相似度模型为公式(6)，如下：

其中，p_i表示至少两个疾病文本子特征中的第i个疾病文本子特征，n表示疾病数目，D表示病历数据特征，similarty(D，p_i)表示至少两个疾病相似度特征中的第i个疾病相似度特征。

在本发明实施例中，医疗文本信息处理装置对至少两个疾病相似度特征进行归一化处理，得到与至少两个疾病相似度特征一一对应的至少两个权重系数的过程可以采用归一化模型实现，体现出相似度特征中的重要程度的模型均可。

示例性的，采用类似与softmax的计算方法进行相似度的归一化计算，突出重要元素的权重，归一化模型可以为公式(7)，如下：

其中，α_i表示至少两个权重系数中第i个疾病相似度特征对应的权重系数，similarty(D，p_j)表示至少两个疾病相似度特征中的第j个疾病相似度特征。

示例性的，在本发明实施例中的医疗文本信息处理装置采用注意力机制算法，对至少两个疾病文本子特征、至少两个权重系数和病历数据特征进行特征融合，得到至少两种疾病对应的融合特征的过程是拼接的过程，其中，注意力机制算法可以采用公式(8)实现，如下：

其中，Attention(D，P)表示融合子特征或融合子特征向量，concat表示向量拼接方法。

需要说明的是，病历数据特征D也可以有多种，因此，Attention(D，P)每种病历数据与外部知识融合后的子特征，将最终所有的特征全部拼接融合后的最终特征才是融合特征。

需要说明的是，本发明实施例不限制向量拼接的方式。

在本发明实施例中，医疗文本信息处理装置最后基于融合特征在全连接层采用分类算法进行分类处理，得到分类结果。

在本发明实施例中，全连接层可以通过常见的机器学习的分类方法实现，例如，支持向量机、逻辑回归、决策树、GBDT或神经网络等，本发明实施例不作限制。

示例性的，如图8所示，采用现病史数据和疾病文本特征说明一个融合子特征的获取过程。预设疾病相关文本信息(例如：dis 1、dis 2、dis 3，……，dis n)经过LSTM编码后，取LSTM最后时刻的向量作为疾病文本特征，这里假设疾病文本特征中包含n个疾病文本子特征：p 1、p 2、p 3，……，p n。现病史数据经过LSTM编码后，取LSTM最后时刻的向量作为一个病历文字数据特征，attention(注意力机制算法)拼接或融合后，得到融合子特征，将所有的融合子特征、患者信息特征以及病历数值数据特征进行拼接后，得到融合特征，输入至全连接层进行分类处理，得到分类结果。

可以理解的是，在本发明实施例中，在知识融合层，将编码后的外部知识(疾病文本特征)和病历本身知识(病历数据特征)通过基于知识的注意力机制相融合，灵活的捕捉全局和局部的联系，同时相对于LSTM、CNN等网络结构，注意力机制具有复杂度小，参数少的特点。本方案的发明是在疾病诊断模型引入了外部知识，模拟了医生完整学习的方法，外部知识作为先验知识也为模型诊断提供了更为可靠的医学依据。同时，本发明实施例使用的医疗外部知识并不是需要耗费较大人力物力的知识图谱，而是更为容易获得的医疗文本数据，增加了该方法的可扩展性，同时在病历方面也进行相应结构化的解析，形成多模态的数据输入，使得诊断模型学习的知识更为丰富，更有利于辅助诊断模型在各个医院的推广，也更能辅助医生在疾病诊断上做出更好的判断，以及选择不同的编码方式，可以尝试将编码方式进行融合，降低模型复杂度。

在本发明的一些实施例中，医疗文本信息处理装置中事先构建或者设置有预测分类模型，以便在对患者进行疾病分类的时候，可以直接使用。因此，医疗文本信息处理装置在进行疾病分类之前，会先获取预测分类模型。本发明实施例提供的一种医疗文本信息处理方法中，如图9所示，针对获取预测分类模型的过程可以通过S104至S107实现。如下：

S104、按照预设的配置比例，从历史病历数据中获取训练样本，训练样本表征历史患者的病历数据与其确诊病症的对应关系。

S105、获取与训练样本对应的病症的训练疾病相关文本信息。

S106、调用设置的训练模型处理训练样本和训练疾病相关文本信息，得到训练结果。

S107、基于训练结果和训练样本，调整训练模型直至收敛，得到预测分类模型。

在本发明实施例中，训练样本会存在正样本和负样本，训练样本中包含历史病历数据和真实疾病这样一对数据。

在实际操作的过程中，疾病训练结果为优和疾病训练结果为差会存在一定的比例，这个比例即为配置比例，在形成预测分类模型时，医疗文本信息处理装置对训练样本的配置(正负样本的数据比例)也需要按照该配置比例进行设置。其中，正样本为历史病历数据与确诊的真实正确疾病的对应关系，负样本为历史病历数据与确诊的真实错误疾病的对应关系。

医疗文本信息处理装置在进行预测分类模型时，还需要获取与训练样本对应的病症的训练疾病相关文本信息，这里的训练疾病相关文本信息可以与预设疾病相关文本信息一致，也可以不一致，但是一致时最佳。

本发明实施例中的医疗文本信息处理装置将训练样本中的病历数据和训练疾病相关文本信息作为预先设置的训练模型的输入，其中，训练模型中的模型参数初始时为默认值，得到表征疾病结果的训练结果，基于训练结果和训练样本中的真实疾病的对比，调整训练模型直至收敛，从而得到预测分类模型。

可以理解的是，本发明实施例中的正样本和负样本涉及的允许范围越完整，后续的分类结果是越准确的。

本发明实施例中，不管采用何种训练模型，在开始训练之时，该训练模型的录入包括上述训练样本中的历史病历数据和训练疾病相关文本信息，经过多次试验如果训练样本中的历史病历数据或训练疾病相关文本信息不对训练结果产生有利影响或者错误的时候，就降低模型参数中训练样本中的历史病历数据或训练疾病相关文本信息的权重，如果上述数据对训练结果产生有利影响时候，就提高该数据的权重，如果一个参数的权重降低为0，那么在训练模型中该数据将不起任何作用了。经过本发明实施例的最终试验，上述的训练样本中的历史病历数据和训练疾病相关文本信息最终对训练结果能够产生积极影响的是长期数据即最终模型收敛时候的数据。预测分类模型的形成过程大致包括：将正样本或负样本，与训练疾病相关文本信息输入训练模型(即调用训练模型)，从训练模型获得训练结果；通过调整模型参数，持续监测训练结果直至满足预设条件时，表征模型收敛，则将此时的训练模型作为预测分类模型。

在本发明的一些实施例中，本发明实施例中的预设条件可以为训练结果的准确率达到预设阈值，该预设阈值可以为99％，具体的预设阈值的确定可设置，本发明实施例不作限制，但是，预设阈值设置的越高，达到该预设阈值或预设条件的训练结果训练出来的预测分类模型就越精确。

在本发明的一些实施例中，预设条件还可以为预设损失函数。这时，医疗文本信息处理装置可以根据训练结果、训练样本和预设损失函数确定误差值；当误差值在预设阈值范围内时，确定训练模型收敛；当误差值未在预设阈值范围内时，调整训练模型中的模型参数，直至误差值达到预设阈值范围为止，确定训练模型收敛；将收敛的训练模型作为预测分类模型。

在本发明实施例中，训练模型中也包含输入层、编码层、知识融合层和全连接层。

医疗文本信息处理装置通过输入层将历史病历数据和训练疾病相关文本信息传输至编码层，进行对文字型数据的LSTM编码，以及对数值型数据的CNN编码之后，得到训练疾病文本特征和历史病历数据特征，将训练疾病文本特征和历史病历数据特征在知识融合层拼接后，得到训练融合特征，采用训练融合特征传输至全连接层，对全连接层的模型参数进行调整，直至训练模型收敛，得到预测分类模型。

可以理解的是，训练融合特征或融合特征向量既包含了历史病历数据中不同维度的输入信息，同时在其中也融入了外部知识的信息。训练融合特征向量进入到全连接层，得到最后的训练结果，同时本发明实施例使用分类算法常用的预设损失函数，得到了三个数据分类误差，回传梯度，更新权值，直至训练模型收敛，得到预测分类模型。

示例性的，预设损失函数可以为交叉熵损失函数，即公式(9)，如下：

其中，L标识误差值，y表示训练样本中的真实疾病，k表示疾病种类，i表示第i个训练样本，p_i,k表示第i个样本预测为第k种疾病的概率。

从以上流程可以看出，1)本发明实施例引入了训练样本中的病历数据和训练疾病相关文本信息的不同维度的与疾病相关的数据来对训练模型进行训练，根据训练结果确定最终核实的分类结果，如此提升了疾病该预测的准确性。2)本发明实施例采用的预测分类模型的一个显著特点是模型可以自我进化，根据训练样本中的病历数据和训练疾病相关文本信息的变换自动进行权值(即模型参数)的调整，避免基于规则的人工频繁介入调整模型参数。

可以理解的是，在本发明实施例中，相比现有的使用各种复杂的病历数据，本发明引入外部知识与病历数据结合作为主要数据源，疾病分类过程和模型构造过程都简单易行，不需要使用各种复杂的编码、聚类、筛选手段对特征进行复杂的构造和处理，大大降低了数据处理的工作量，使得预测分类模型简单可用。

本发明实施例提供一种存储有可执行数据处理指令的存储介质，其中存储有可执行数据处理指令，当可执行数据处理指令被处理器执行时，将引起处理器执行本发明实施例提供的医疗文本信息处理方法，例如，如图4、7和9示出的医疗文本信息处理方法。

在本发明的一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在本发明的一些实施例中，可执行数据处理指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行数据处理指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行数据处理指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种医疗文本信息处理方法，其特征在于，包括：

利用预测分类模型，对所述预设疾病相关文本信息和所述当前病历数据分别进行特征编码，得到疾病文本特征和病历数据特征；所述预测分类模型是根据所述预设疾病相关文本信息和历史病历数据经过模型训练后得到的，通过预设疾病相关文本信息表征病历数据与疾病分类的对应关系，所述疾病文本特征包括至少两种疾病对应的至少两个疾病文本子特征；

对所述至少两个疾病文本子特征和所述病历数据特征进行相似度计算，得到至少两个疾病相似度特征；

对所述至少两个疾病相似度特征进行归一化处理，得到与所述至少两个疾病相似度特征一一对应的至少两个权重系数；

采用注意力机制算法，对所述至少两个疾病文本子特征、所述至少两个权重系数和所述病历数据特征进行特征融合，得到至少两种疾病对应的融合特征；

基于所述融合特征进行分类处理，得到分类结果。

2.根据权利要求1所述的方法，其特征在于，

所述预设疾病相关文本信息包括：多种疾病症状描述文字信息和对应的易患人群信息；

3.根据权利要求1或2所述的方法，其特征在于，所述利用预测分类模型，对所述预设疾病相关文本信息和所述当前病历数据分别进行特征编码，得到疾病文本特征和病历数据特征，包括：

在所述预测分类模型中的编码层中，分别采用长短期记忆网络LSTM算法对所述当前病历数据中的文字信息部分和所述预设疾病相关文本信息进行特征编码，得到所述疾病文本特征和病历文字数据特征；

采用卷积神经网络CNN对所述当前病历数据中的数值信息部分进行特征编码，得到病历数值数据特征；

将所述病历文字数据特征和所述病历数值数据特征中的至少一种作为所述病历数据特征。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述预测分类模型。

5.根据权利要求4所述的方法，其特征在于，所述获取所述预测分类模型，包括：

按照预设的配置比例，从历史病历数据中获取训练样本，所述训练样本表征历史患者的病历数据与其确诊病症的对应关系；

获取与所述训练样本对应的病症的训练疾病相关文本信息；

调用设置的训练模型处理所述训练样本和训练疾病相关文本信息，得到训练结果；

基于所述训练结果和所述训练样本，调整所述训练模型直至收敛，得到所述预测分类模型。

6.根据权利要求5所述的方法，其特征在于，所述基于所述训练结果和所述训练样本，调整所述训练模型直至收敛，得到所述预测分类模型，包括：

根据所述训练结果、所述训练样本和预设损失函数确定误差值；

当所述误差值在预设阈值范围内时，确定所述训练模型收敛；

当所述误差值未在预设阈值范围内时，调整所述训练模型中的模型参数，直至所述误差值达到所述预设阈值范围为止，确定所述训练模型收敛；

将收敛的训练模型作为所述预测分类模型。

7.一种医疗文本信息处理装置，其特征在于，包括：

编码单元，用于利用预测分类模型，对所述预设疾病相关文本信息和所述当前病历数据分别进行特征编码，得到疾病文本特征和病历数据特征；所述预测分类模型是根据所述预设疾病相关文本信息和历史病历数据经过模型训练后得到的，通过预设疾病相关文本信息表征病历数据与疾病分类的对应关系，所述疾病文本特征包括至少两种疾病对应的至少两个疾病文本子特征；

融合分类单元，用于对所述至少两个疾病文本子特征和所述病历数据特征进行相似度计算，得到至少两个疾病相似度特征；及对所述至少两个疾病相似度特征进行归一化处理，得到与所述至少两个疾病相似度特征一一对应的至少两个权重系数；及采用注意力机制算法，对所述至少两个疾病文本子特征、所述至少两个权重系数和所述病历数据特征进行特征融合，得到至少两种疾病对应的融合特征；以及基于所述融合特征进行分类处理，得到分类结果。

8.根据权利要求7所述的装置，其特征在于，

9.根据权利要求7或8述的装置，其特征在于，

所述编码单元，具体用于在所述预测分类模型中的编码层中，分别采用长短期记忆网络LSTM算法对所述当前病历数据中的文字信息部分和所述预设疾病相关文本信息进行特征编码，得到所述疾病文本特征和病历文字数据特征；及采用卷积神经网络CNN对所述当前病历数据中的数值信息部分进行特征编码，得到病历数值数据特征；以及将所述病历文字数据特征和所述病历数值数据特征中的至少一种作为所述病历数据特征。

10.根据权利要求7所述的装置，其特征在于，

所述获取单元，还用于获取所述预测分类模型；

进一步地，所述获取单元，具体用于按照预设的配置比例，从历史病历数据中获取训练样本，所述训练样本表征历史患者的病历数据与其确诊病症的对应关系；及获取与所述训练样本对应的病症的训练疾病相关文本信息；及调用设置的训练模型处理所述训练样本和训练疾病相关文本信息，得到训练结果；以及基于所述训练结果和所述训练样本，调整所述训练模型直至收敛，得到所述预测分类模型。

11.根据权利要求10所述的装置，其特征在于，

所述获取单元，还具体用于根据所述训练结果、所述训练样本和预设损失函数确定误差值；当所述误差值在预设阈值范围内时，确定所述训练模型收敛；当所述误差值未在预设阈值范围内时，调整所述训练模型中的模型参数，直至所述误差值达到所述预设阈值范围为止，确定所述训练模型收敛；将收敛的训练模型作为所述预测分类模型。

12.一种医疗文本信息处理装置，其特征在于，包括：

存储器，用于存储可执行数据处理指令；

处理器，用于执行所述存储器中存储的可执行数据处理指令时，实现权利要求1至6任一项所述的医疗文本信息处理方法。

13.一种计算机可读存储介质，其特征在于，存储有可执行数据处理指令，用于引起处理器执行时，实现权利要求1至6任一项所述的医疗文本信息处理方法。