CN109543187A

CN109543187A - 电子病历特征的生成方法、装置及存储介质

Info

Publication number: CN109543187A
Application number: CN201811404675.7A
Authority: CN
Inventors: 任江涛; 赵泽川
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-03-29
Anticipated expiration: 2038-11-23
Also published as: CN109543187B

Abstract

本发明公开了一种电子病历特征的生成方法，包括：获取待处理的电子病历文本的分段文本的类别和关联的特征向量，将各个所述特征向量根据关联的分段文本的类别进行归类，获取各类所述特征向量的均值向量，将各类所述特征向量的均值向量进行拼接，得到所述待处理的电子病历文本对应的拼接特征向量。本发明还公开了一种电子病历特征的生成装置和计算机存储介质。本发明结合了电子病历现病史文本的领域知识并对其语义信息进行了深度表示，提供了能准确均衡的表征电子病历文本特征的生成方法。

Description

电子病历特征的生成方法、装置及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种电子病历特征的生成方法、电子病历特征的生成装置及计算机存储介质。

背景技术

医疗信息化建设飞速发展的过程中产生了大量的医疗健康数据，其中最重要的便是电子病历数据。电子病历指的是在患者就诊过程中，记录诊断过程、病人身体状况以及就诊过程相关信息的数据。电子病历数据中大量充斥着非结构化或半结构化的数据，如何合理高效地二次利用这些数据并从其中挖掘信息具有重要的现实意义。

电子病历中的现病史部分记述患者病后全过程，即发生、发展、演变和诊治的经过。通过对现病史进行聚类分析，能够很好地发现病人群落，而对这些病人群落的进一步研究能够极大地推动医疗事业的发展；另外，通过将新的病人归入已有的病人群落中，参考该群落中其他病人的治疗方案，也能够一定程度上辅助医生进行诊疗。

在现有技术中，通常采用先分词再进行层次聚类的方法对文本进行聚类，而这种方法未考虑所聚类的文本中蕴含的领域知识，将所有文本信息不加区分地进行聚类，聚类效果不佳。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种电子病历特征的生成方法、电子病历特征的生成装置和计算机存储介质，旨在解决现有技术中未考虑所聚类的文本中蕴含的领域知识，将所有文本信息不加区分地进行聚类，聚类效果不佳的技术问题。

为实现上述目的，本发明提供一种电子病历特征的生成方法，所述电子病历特征的生成方法包括如下步骤：

获取待处理的电子病历文本的分段文本；

获取各个所述分段文本的类别和关联的特征向量；

将各个所述特征向量根据关联的分段文本的类别进行归类；

获取各类所述特征向量的均值向量；

将各类所述特征向量的均值向量进行拼接，得到所述待处理的电子病历文本对应的拼接特征向量。

优选地，所述获取各个所述分段文本的类别的步骤包括：

获取待处理的电子病历文本的分段文本对应的字向量；

将各个所述分段文本的字向量输入电子病历特征提取模型进行处理，得到各个所述分段文本关联的特征向量；

基于各个所述特征向量预测关联的分段文本的类别。

优选地，所述电子病历特征提取模型包括双向长短期记忆网络层和全连接层。

优选地，所述获取待处理的电子病历文本的分段文本的步骤包括：

将所述待处理的电子病历文本按照逗号划分为分段文本。

优选地，所述将各类所述特征向量序列的均值进行拼接，得到所述待处理的电子病历文本对应的拼接特征向量的步骤之后还包括：

计算各个所述电子病历文本对应的拼接特征向量之间的欧式距离；

根据所述欧式距离获取各个所述电子病历关联的相似性度量矩阵。

优选地，有N个所述电子病历文本，所述计算各个所述电子病历文本对应的拼接特征向量之间的欧式距离，根据所述欧式距离获取各个所述电子病历关联的相似性度量矩阵的步骤包括：

获取所述N个电子病历文本中第i个电子病历文本对应的第i个拼接特征向量，其中，所述第i个拼接特征向量中包括m类特征向量的均值向量；

获取所述N个电子病历中第j个电子病历文本对应的第j个拼接特征向量，其中，所述第j个拼接特征向量中包括m类特征向量的均值向量；

计算所述第i个拼接特征向量和所述第j个拼接特征向量中每类特征向量的均值向量之间的欧式距离，得到m个欧式距离；

根据所述m个欧式距离获取第i个电子病历对应的第i个拼接特征向量和所述第j个电子病历对应的第j个拼接特征向量之间的欧式距离；

集合所述N个电子病历中两两之间的欧式距离得到所述电子病历的相似性度量矩阵。

优选地，所述根据所述m个欧式距离获取第i个电子病历对应的第i个拼接特征向量和所述第j个电子病历对应的第j个拼接特征向量之间的欧式距离的步骤包括：

获取m类特征向量的均值向量对应的m个权重；

根据所述m个权重和所述m个欧氏距离获取所述第i个电子病历对应的第i个拼接特征向量和所述第j个电子病历对应的第j个拼接特征向量之间的欧式距离。

优选地，所述通过计算各个所述电子病历对应的特征向量之间的欧式距离，得到各个所述电子病历关联的相似性度量矩阵的步骤之后还包括：

根据所述相似性度量矩阵以及近邻传播聚类算法将各个所述电子病历所属的病人进行聚类。

此外，为实现上述目的，本发明还提供电子病历特征的生成装置，该装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的电子病历特征的生成处理程序，所述电子病历特征的生成处理程序被所述处理器执行时实现如上所述的电子病历特征的生成方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机存储介质，其特征在于，所述计算机存储介质上存储有电子病历特征的生成处理程序，所述电子病历特征的生成处理程序被处理器执行时实现如上所述的电子病历特征的生成方法的步骤。

本发明实施例提出的电子病历特征的生成方法、电子病历特征的生成装置和计算机存储介质，获取待处理的电子病历文本的分段文本，获取各个所述分段文本的类别和关联的特征向量，将各个所述特征向量根据关联的分段文本的类别进行归类，获取各类所述特征向量的均值向量，将各类所述特征向量的均值向量进行拼接，得到所述待处理的电子病历文本对应的拼接特征向量。本发明结合了电子病历现病史文本的领域知识并对其语义信息进行了深度表示，提供了能准确均衡的表征电子病历文本特征的生成方法。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明电子病历特征的生成方法第一实施例的流程示意图；

图3为本发明电子病历特征的生成方法第二实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及电子病历特征的生成处理程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的电子病历特征的生成处理程序，并执行所述电子病历特征的生成方法的步骤。

参照图2，本发明第一实施例提供一种电子病历特征的生成方法，所述方法包括：

步骤S10，获取待处理的电子病历文本的分段文本；

待处理的电子病历文本具体指电子病历的现病史部分的文本，可以按照多种方式将其分隔为多个分段文本。例如可以将待处理的电子病历文本按照逗号划分为子句，其中，一个子句对应一个分段文本；也可以按照句号将待处理的电子病历文本分隔成多个分段文本，其中，一个句子对应一个分段文本。

步骤S20，获取各个所述分段文本的类别和关联的特征向量；

先获取待处理的电子病历文本的分段文本对应的字向量，再将各个分段文本的字向量输入电子病历特征提取模型进行处理，得到各个分段文本关联的特征向量，最后基于各个特征向量预测关联的分段文本的类别。

需要说明的是，电子病历特征提取模型包括双向长短期记忆网络层、池化层和全连接层。其中，利用双向长短期记忆网络能同时捕获序列的前后文信息，比单向的长短期记忆网络能取得更好的效果。

具体地，通常可以使用预先训练好的字向量获取分段文本对应的字向量，比如采用Google的word2vec向量表示方法，该方法可将字符投影到低维空间中，在该低维空间中语意相近的字或词的距离都比较近。

为了在采用word2vec向量表示方法得到准确的词向量，使用3000份电子病历来作为语料训练字向量，并采用word2vec中的Skip-Gram模型来训练。虽然在训练时Skip-Gram模型比CBOW模型要慢，但是Skip-Gram模型在包含稀有字符的语料上表现要比CBOW要好，所得到的字向量和电子病历的分段文本的匹配度更高。

在获得分段文字的字向量后，先将分段文字的字向量输入电子病历特征提取模型的双向长短期记忆网络层进行处理，一个正向的长短期记忆网络网络在每一个时间步对应于分段文字的每个字向量输出一个隐向量；同样地，一个反向的长短期记忆网络也在每一个时间步对应于分段文字的每个字向量输出一个隐向量，最后把对应于同一个字向量的两个隐向量进行拼接得到了该字向量的整体的隐向量。

通过双向长短期记忆网络得到分段文字的字向量对应的整体的隐向量后，将该隐向量经过全连接层的特征综合处理，最终得到得到分段文字的深度特征向量表示。当一个分段文本对应一个子句时，得到每个子句的特征向量。

举例说明，若一次处理100个子句，每个子句的长度为50个字，每个字向量为200维，那么100*50*200维的子句字向量输入到双向长短期记忆网络后，得到100*50维的特征向量，其中，每个子句对应着50维的特征向量。

在获得一次处理的多个分段文本对应的特征向量后，将特征向量输入全连接层进行处理，并将全连接层的输出结果通过归一化指数函数softmax映射到(0，1)区间，得到每个分段文本的多分类概率，将每个分段文本确定为最高的概率所对应的类别。

例如，若预设有总共六种分段文本，双向长短期记忆网络输出的100*50维的特征向量经过全连接层的特征综合处理得到100*6维的多分类概率，其中，每个分段文本对应着六维的分类概率。

分段文本的类别包括：起病情况、症状特点、病情演变、诊疗经过、一般情况和其它信息。起病情况包括起病时间与诱因，症状特点包括主要症状、体征的部位、时间、性质、程度描述，伴随病情、症状、与体征的描述，病情演变包括从发病到入院具体的病情变化过程，诊疗经过包括入院前曾做过的诊断、治疗过程、用药情况，一般情况包括饮食、精神、睡眠、二便等，其他信息为其他无关信息等。

步骤S30，将各个所述特征向量根据关联的分段文本的类别进行归类；

当每个分段文本的类别确定后，由于分段文本和特征向量一一对应，可以将各个特征向量根据其关联的分段文本的类别进行归类。例如，若预设总共有六种分段文本，则可以归类出六个特征向量的集合，每个集合中的特征向量所关联的分段文本都属于同一种类别。

步骤S40，获取各类所述特征向量的均值向量；

步骤S50，将各类所述特征向量的均值向量进行拼接，得到所述待处理的电子病历文本对应的拼接特征向量。

步骤S40和步骤S50可以依照下面的公式执行：

其中，v_j代表第j个分段文本对应的特征向量，N代表某类分段文本中分段文本的数目。

相比起传统的方法，即都是将整段文本进行处理而忽略了文本中蕴藏的领域知识，本实施例中的分类求均值能较好的衡量现病史中这类文本的内容，从而得到准确反映现病史文本特征的特征表示。

在本实施例中，本发明通过获取待处理的电子病历文本的分段文本的类别和关联的特征向量，将各个特征向量根据关联的分段文本的类别进行归类和求均值，并基于均值得到待处理的电子病历文本对应的拼接特征向量，提供了能准确均衡的表征电子病历文本特征的生成方法。

进一步的，参照图3，本发明第二实施例基于第一实施例提供一种电子病历特征的生成方法，本实施例包括步骤：

步骤S60，计算各个所述电子病历文本对应的拼接特征向量之间的欧式距离；

步骤S70，根据所述欧式距离获取各个所述电子病历关联的相似性度量矩阵。

具体地，设经电子病历特征提取模型的处理得到了N个电子病历文本对应的拼接特征向量，根据以下步骤获取N个电子病历的相似性度量矩阵：

1)获取N个电子病历文本中第i个电子病历文本对应的第i个拼接特征向量，其中，第i个拼接特征向量中包括m类特征向量的均值向量；

2)获取N个电子病历中第j个电子病历文本对应的第j个拼接特征向量，其中，第j个拼接特征向量中包括m类特征向量的均值向量；

3)计算第i个拼接特征向量和所述第j个拼接特征向量中每类特征向量的均值向量之间的欧式距离，得到m个欧式距离；

4)根据m个欧式距离获取第i个电子病历对应的第i个拼接特征向量和所述第j个电子病历对应的第j个拼接特征向量之间的欧式距离；

5)集合N个电子病历中两两之间的欧式距离得到N个电子病历的相似性度量矩阵。

进一步地，可以根据下面的公式计算欧式距离：

其中，均为拼接特征向量，每个拼接特征向量均有m类特征向量的均值向量。

进一步地，可以根据所述相似性度量矩阵以及近邻传播聚类算法将各个所述电子病历所属的病人进行聚类。

由于无法知道病人聚类产生多少个类别合适，所以K均值算法(K-means)等需要事先制定聚类数目的算法不太合适。而与K-means算法不同，AP聚类算法(Affinitypropagation Clustering Algorithm)不需要在运行之前确定聚类的个数。AP聚类算法是基于数据点间的“信息传递”的一种聚类算法，AP聚类比其他算法的聚类效果都要好。

AP聚类算法中传递两种类型的消息,吸引度(responsiility)和归属度(availability)。r(i，k)表示从点i发送到候选聚类中心k的数值消息，反映k点是否适合作为i点的聚类中心。a(i，k)则表示从候选聚类中心k发送到i的数值消息，反映i点是否选择k作为其聚类中心。r(i，k)与a(i，k)越大，则k点作为聚类中心的可能性就越大，并且i点隶属于以k点为聚类中心的聚类的可能性也越大。AP聚类算法在迭代过程不断更新每一个点的吸引度和归属度值，直到产生的聚类中心不再变化，然后将其余的数据点分配到相应的聚类中。

在本实施例中，在获得了病人现病史相似性度量矩阵S后，将其作为AP聚类算法的输入对病人进行聚类，从而得到最后的病人聚类结果，其中，AP聚类算法的迭代公式如下：

r_t+1(i,k)＝S(i,k)-max(a_t(i,j)+r_t(i,j)) i≠k；

r_t+1(i,k)＝S(i,k)-max(S(i,j)) i＝k；

a_t+1(i,k)＝min(0,r_t(k,k)+∑_j≠i,kmax(r_t+1(j,k),0)) i≠k；

a_t+1(i,k)＝∑_j≠kmax(r_t+1(j,k),0) i＝k。

在得到聚类中心后，将AP聚类中的偏好度设置为相似度矩阵的中位数，并将每个病人按其与聚类中心的距离远近归入相应的类别中。进一步地，还可以将当前相似度聚类结果映射为病人就诊号、现病史原始数据等的聚类结果等。

本实施例中，通过计算各个电子病历文本对应的拼接特征向量之间的欧式距离，并根据欧式距离获取各个电子病历关联的相似性度量矩阵，基于相似度矩阵采用聚类算法对病人进行聚类分析，由于获取电子病历的拼接特征向量过程中结合了电子病历现病史文本的领域知识并对其语义信息进行了深度表示，基于此进行的聚类效果获得了较大的提升。

本发明还提供一种电子病历特征的生成装置，该电子病历特征的生成装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的电子病历特征的生成处理程序，所述电子病历特征的生成处理程序被所述处理器执行时实现所述的电子病历特征的生成方法的步骤。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有电子病历特征的生成处理程序，所述电子病历特征的生成处理程序被处理器执行时实现所述的电子病历特征的生成方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种电子病历特征的生成方法，其特征在于，所述电子病历特征的生成方法包括以下步骤：

获取待处理的电子病历文本的分段文本；

获取各个所述分段文本的类别和关联的特征向量；

将各个所述特征向量根据关联的分段文本的类别进行归类；

获取各类所述特征向量的均值向量；

2.如权利要求1所述的电子病历特征的生成方法，其特征在于，所述获取各个所述分段文本的类别的步骤包括：

获取待处理的电子病历文本的分段文本对应的字向量；

基于各个所述特征向量预测关联的分段文本的类别。

3.如权利要求2所述的电子病历特征的生成方法，其特征在于，所述电子病历特征提取模型包括双向长短期记忆网络层和全连接层。

4.如权利要求1所述的电子病历特征的生成方法，其特征在于，所述获取待处理的电子病历文本的分段文本的步骤包括：

将所述待处理的电子病历文本按照逗号划分为分段文本。

5.如权利要求1所述的电子病历特征的生成方法，其特征在于，所述将各类所述特征向量序列的均值进行拼接，得到所述待处理的电子病历文本对应的拼接特征向量的步骤之后还包括：

6.如权利要求5所述的电子病历特征的生成方法，其特征在于，有N个所述电子病历文本，所述计算各个所述电子病历文本对应的拼接特征向量之间的欧式距离，根据所述欧式距离获取各个所述电子病历关联的相似性度量矩阵的步骤包括：

7.如权利要求6所述的电子病历特征的生成方法，其特征在于，所述根据所述m个欧式距离获取第i个电子病历对应的第i个拼接特征向量和所述第j个电子病历对应的第j个拼接特征向量之间的欧式距离的步骤包括：

获取m类特征向量的均值向量对应的m个权重；

8.如权利要求5所述的电子病历特征的生成方法，其特征在于，所述通过计算各个所述电子病历对应的特征向量之间的欧式距离，得到各个所述电子病历关联的相似性度量矩阵的步骤之后还包括：

9.一种电子病历特征的生成装置，其特征在于，所述电子病历特征的生成装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的电子病历特征的生成处理程序，所述电子病历特征的生成处理程序被所述处理器执行时实现如权利要求1至8中任一项所述电子病历特征的生成方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有电子病历特征的生成处理程序，所述电子病历特征的生成处理程序被处理器执行时实现如权利要求1至8中任一项所述电子病历特征的生成方法的步骤。