CN109887562A

CN109887562A - 电子病历的相似度确定方法、装置、设备和存储介质

Info

Publication number: CN109887562A
Application number: CN201910127882.0A
Authority: CN
Inventors: 李菁; 许孟可
Original assignee: Guangzhou Tian Peng Computer Science And Technology Co Ltd
Current assignee: Guangzhou Tian Peng Computer Science And Technology Co Ltd
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2019-06-14
Anticipated expiration: 2039-02-20
Also published as: CN109887562B

Abstract

本发明涉及一种电子病历的相似度确定方法、装置、设备和存储介质，将多个电子病历的非结构化数据转化成向量，并计算各个电子病历的向量之间的第一相似度，获取各个电子病历的结构化数据的第二相似度，然后根据第一相似度和第二相似度确定各个电子病历之间的相似度，该方案结合电子病历的结构化数据和非结构化数据的相似度来计算各个电子病历之间的相似度，提高了计算电子病历相似度的准确性，还有利于准确评估与各个电子病历相对应的患者之间的相似程度，为进一步发现病人群落和实现个性化诊疗提供数据基础。

Description

电子病历的相似度确定方法、装置、设备和存储介质

技术领域

本发明涉及数据处理技术领域，特别是涉及一种电子病历的相似度确定方法、电子病历的相似度确定装置、计算机设备和计算机可读存储介质。

背景技术

电子病历是用如个人电脑、健康卡等电子设备对患者的病历信息进行保存、管理、传输和重现的数字化医疗记录，可以用于取代手写纸张病历，电子病历记录的内容可以包括纸张病历的所有信息，比如现病史中关于病程进展及诊疗过程的描述、病程记录中关于患者病情变化的描述、出院小结中关于治疗经过的描述等等。基于电子病历记录的信息可以评估不同电子病历之间的相似程度，而对电子病历之间相似程度的准确评估有助于准确量度各个病人之间的相似性，这对于进一步发现病人群落、实现个性化诊疗作基础具有重要的现实意义。

传统技术提供的计算电子病历相似度的方式，无法充分利用电子病历中的病例信息对各个电子病历之间的相似度进行计算，相似度比较的维度单一比较，导致计算电子病历相似度的准确性较低。

发明内容

基于此，有必要针对传统技术计算电子病历相似度的准确性较低的技术问题，提供一种电子病历的相似度确定方法、电子病历的相似度确定装置、计算机设备和计算机可读存储介质。

一种电子病历的相似度确定方法，包括步骤：

将多个电子病历的非结构化数据转化为向量；

计算各个所述电子病历的所述向量的第一相似度；

获取第二相似度；所述第二相似度为各个所述电子病历的结构化数据的相似度；

根据所述第一相似度和第二相似度确定各个所述电子病历的相似度。

一种电子病历的相似度确定装置，包括：

第一获取模块，用于获取多个电子病历的非结构化数据；

转化模块，用于将所述非结构化数据转化为向量；

计算模块，用于计算各个所述电子病历的所述向量的第一相似度；

第二获取模块，用于获取第二相似度；所述第二相似度为各个所述电子病历的结构化数据的相似度；

确定模块，用于根据所述第一相似度和第二相似度确定各个所述电子病历的相似度。

一种计算机设备，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

将多个电子病历的非结构化数据转化为向量；计算各个所述电子病历的所述向量的第一相似度；获取第二相似度；所述第二相似度为各个所述电子病历的结构化数据的相似度；根据所述第一相似度和第二相似度确定各个所述电子病历的相似度。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

上述电子病历的相似度确定方法、装置、设备和存储介质，将多个电子病历的非结构化数据转化成向量，并计算各个电子病历的向量之间的第一相似度，获取各个电子病历的结构化数据的第二相似度，然后根据第一相似度和第二相似度确定各个电子病历之间的相似度，该方案结合电子病历的结构化数据和非结构化数据的相似度来计算各个电子病历之间的相似度，提高了计算电子病历相似度的准确性，还有利于准确评估与各个电子病历相对应的患者之间的相似程度，为进一步发现病人群落和实现个性化诊疗提供数据基础。

附图说明

图1为一个实施例中电子病历的相似度确定方法的应用场景图；

图2为一个实施例中电子病历的相似度确定方法的流程示意图；

图3为另一个实施例中电子病历的相似度确定方法的流程示意图；

图4为一个实施例中电子病历的相似度确定装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，本发明实施例所涉及的术语“第一\第二”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本发明提供的电子病历的相似度确定方法，可以应用于如图1所示的应用场景中，图1为一个实施例中电子病历的相似度确定方法的应用场景图，应用场景可以包括终端100和服务器200，终端100可以通过网络与服务器200进行通信连接。其中，终端100可以用于存储如病人、患者等用户的电子病历，终端100的数量可以是多个，各个终端可以分别与服务器200进行通信，将存储的电子病历发送到服务器200当中，服务器200可以用于确定各个电子病历之间的相似度。具体的，服务器200可以将接收的多个电子病历(如电子病历A、电子病历B和电子病历C等)中记录的非结构化数据转化为向量，计算各个电子病历的向量之间的第一相似度，还获取各个电子病历的结构化数据之间的第二相似度，最后根据第一相似度和第二相似度确定各个电子病历的相似度，这样能够结合电子病历的结构化数据和非结构化数据的相似度来计算各个电子病历之间的相似度，以提高计算电子病历相似度的准确性，而且由于各电子病历记录的是相应的病人、患者等用户的病例信息，提高电子病历相似度的计算准确性有利于准确度量相应的病人、患者等用户之间的相似性，为进一步发现病人群落、实现个性化诊疗提供数据基础，具有重要的现实意义。

其中，终端100可以但不限于是各种个人计算机、笔记本电脑和平板电脑，服务器200可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，提供了一种电子病历的相似度确定方法，参考图2，图2为一个实施例中电子病历的相似度确定方法的流程示意图，以该方法应用于图1中的服务器200为例进行说明，该电子病历的相似度确定方法可以包括以下步骤：

步骤S101，将多个电子病历的非结构化数据转化为向量。

电子病历中包含着大量的数据以承载患者、病人等用户的病历信息，可以将数据划分为非结构化数据和结构化数据。在计算各个电子病历之间的相似度时，如果单纯结构化数据来进行电子病历的相似度比较，可能会漏掉大量重要的信息。例如，现病史中关于病程进展及诊疗过程的描述、病程记录中关于患者病情变化的描述、出院小结中关于治疗经过的描述等信息，这些信息不能转换成结构化数据，但是对衡量患者相似度又有重要的意义。这些信息一般以非结构化数据的形式来表示，因此需要综合利用结构化数据和非结构化数据来衡量各个电子病历之间的相似度。而非结构化数据主要以文本形式表示，而基于文本形式表示的数据难以直接用于相似度计算。所以本步骤将非结构化数据转化为向量进行表示，然后在后续步骤当中利用向量之间的相似度来表示非结构化文本之间的相似度。

步骤S102，计算各个电子病历的向量的第一相似度。

本步骤主要是计算各个电子病历的向量之间的相似度，该各个电子病历的向量之间的相似度即为第一相似度，由于电子病历的非结构化数据采用向量形式进行表示，因此第一相似度可以对应于各个电子病历的非结构化数据之间的相似度，而由于非结构化数据实际上包含着患者的重要病历信息，所以该第一相似度是作为衡量各个电子病历之间的相似度的重要参考依据。其中，量度各向量之间的相似度可以采用如计算向量夹角余弦、欧氏距离等方法。

步骤S103，获取第二相似度。

本步骤中，第二相似度是指各个电子病历的结构化数据之间的相似度。以慢阻肺患者的电子病历为例对结构化数据进行说明，该电子病历的结构化数据可以包括如年龄、性别、BMI、一年内急性加重次数、吸烟历、吸烟包年、近期咳嗽、近期咳痰、近期胸闷、近期喘息、近期气促、既往气促、夜间阵发性呼吸困难、双下肢水肿、心悸、血嗜酸性粒细胞计数、痰嗜酸性粒细胞计数和共患病(多种)等等，在这些数据当中，对于如近期咳嗽、近期咳痰等是否型的数据，可以用1和0来表示；对于如年龄、检查结果计数等数值型则可以划分为数值范围，将数据归入相应的范围，并对每个范围用数字进行表示，以便进行相似度计算，而结构化数据之间的相似度可以采用如杰卡德加权法等算法来进行计算。

步骤S104，根据第一相似度和第二相似度确定各个电子病历的相似度。

本步骤主要是在得到各个电子病历的向量之间的第一相似度和结构化数据的第二相似度以后，根据该第一相似度和第二相似度计算各个电子病历之间的相似度，也就是说最终的相似度由结构化数据和非结构化数据这两部分数据的相似度聚合而成，这样能够结合结构化数据和非结构化数据来衡量各个电子病历的相似度，避免在电子病历的相似度比较时遗漏重要的病历信息导致相似度计算不准确，而根据第一相似度和第二相似度计算电子病历的相似度的算法可以根据实际需要进行制定，例如可以为第一相似度和第二相似度分配对应的求和比重然后进行求和得到最终的相似度。

上述电子病历的相似度确定方法，将多个电子病历的非结构化数据转化成向量，并计算各个电子病历的向量之间的第一相似度，获取各个电子病历的结构化数据的第二相似度，然后根据第一相似度和第二相似度确定各个电子病历之间的相似度，该方案结合电子病历的结构化数据和非结构化数据的相似度来计算各个电子病历之间的相似度，提高了计算电子病历相似度的准确性，还有利于准确评估与各个电子病历相对应的患者之间的相似程度，为进一步发现病人群落和实现个性化诊疗提供数据基础。

在一个实施例中，将多个电子病历的非结构化数据转化为向量的步骤可以包括：

步骤S201，确定非结构化数据的第一特征维度。

电子病历的非结构化数据的维度通常比较高，而考虑到部分维度不具备对电子病历较好的区分能力，而且非结构化数据的数据量也比较大，如果将所有维度的非结构化数据都用于相似度的计算，计算的效率也会比较低，因此本步骤可以根据实际需要确定非结构化数据的第一特征维度，例如可以选择“主诉、现病史、既往史、入院情况、诊疗经过和出院情况”作为电子病历的非结构化数据的第一特征维度，由于这些特征维度对于临床医生来说是重要的诊断、疾病发生发展、治疗方案、住院经过的度量依据，且这些特征维度的数据容易获取，用作相似性度量文本准确且便捷，所以筛选的第一特征维度可以用于对电子病历的非结构化数据进行筛选，有利于后续步骤提取出相应特征维度下的非结构化数据进行相似度计算。

步骤S202，按照第一特征维度进行要点分层，得到多个要点。

本步骤主要是按照第一特征维度进行要点分层，第一特征维度的数量可以是多个，每个第一特征维度都可以进行要点分层，从而得到各个第一特征维度下的多个要点。具体的，以慢阻肺患者的电子病历为例，设从电子病历中选取的第一特征维度包括主诉、现病史、既往史、入院情况、诊疗经过和出院情况，则对主诉进行要点分层得到的要点可以包括既往症状以及持续时间、近期出现症状及持续时间，对现病史进行要点分层得到的要点可以包括既往症状、症状性质、近期加重时间、诱因、症状、性质、入院诊断和入院情况，对入院情况及诊疗经过进行要点分层得到的要点可以包括：体格检查、生理指标、治疗内容、症状变化和手术操作，对出院情况进行要点分层得到的要点可以包括患者出院症状较主诉症状转归对比、患者新发症状、患者体格检查异常值、患者生化指标异常值、患者出院方式(如医嘱出院、自动出院和转院等)。

步骤S203，将与多个要点相对应的非结构化数据转化为向量。

本步骤中，第一特征维度可以被分为多个要点，可以从电子病历的非结构化数据中获取与每个要点相对应的非结构化数据，然后再将各要点对应的非结构化数据转化为向量进行表示，其中，对于第一特征维度的各个要点可以按照相似度重要性进行加权，相似度重要性可以按照临床医生评估诊断类型和病情严重程度的重要性来进行确定，这样能够使得对电子病历的相似性评估更加准确。

本实施例在将电子病历的非结构化数据转化为向量的过程中，先确定用于数据筛选的第一特征维度，然后对第一特征维度进行要点分层，最后将各要点对应的非结构化数据转化为向量，使得转化而成的向量能够更准确反映出电子病历的非结构化数据的特征，使得该向量对于电子病历具有更好的区分能力，而且还能够提高相似度的计算效率。

在一个实施例中，进一步的，将与多个要点相对应的非结构化数据转化为向量的步骤可以包括：

将与多个要点相对应的非结构化数据划分为多个子句；通过深度自编码器获取与各个子句相匹配的子向量；将子向量进行求和得到向量。

由于非结构化数据主要是通过文本进行表示，所以需要先将非结构化数据转化为向量，再通过向量之间的相似度来衡量非结构化数据之间的相似度，本实施例可以在得到多个要点相对应的而非结构化数据之后，采用深度自编码器来获取这些非结构化数据的向量表示。

本实施例中，对于每一个要点对应的非结构化数据，可以先按逗号进行分割，得到多个子句，然后多个子句可以作为深度自编码器的输入来获取与每个子句相对应的子向量，然后对每个子向量进行求和得到最终的向量表示。其中，对于主诉这一特征维度下的要点，因其对应的非结构化数据文本内容一般较短，所以可以将整部分转化为词向量后作为深度自编码器的输入来获取其向量表示，而对于现病史和出院情况、诊疗经过和入院情况等特征维度下的要点，因其对应的非结构化数据文本内容通常比较长，所以可以先进行分句，用深度自编码器依次获取与每一句相对应的子向量表示，然后对各句的子向量进行求和作为要点的向量表示。其中，自动编码器是一种无监督的神经网络模型，它可以学习到输入数据的隐含特征，这称为编码(encode)，同时用学习到的新特征可以重构出原始输入数据，称之为解码(decode)。

本实施例中，自编码器的encoder和decoder可以由3层全连接层组成，得到的每个子句的向量表示维度为200。其中，可以通过将子句的向量表示从二维压平(即将每个子句中的每个字的字向量依次顺序连接)到一维，然后将其同时作为自编码器的输入和输出来训练自编码器。对于新来的每个子句，将其向量表示输入自编码器后，取自编码器encoder的输出作为该子句的低维向量表示。

在将各个子句转化为子向量的过程当中，可以将每个子句一次用对应的字向量进行表示，这里的字向量需要预先训练好，其作用是将子句中的字符映射到一个向量空间，在这个向量空间中语义相近的字或词的距离接近。本实施例可以google的word2vec进行训练，具体来说，可以使用多份真实电子病历数据作为训练语料，使用Skip-Gram作为模型，虽然在模型训练时Skip-Gram模型比CBOW模型要慢，但是Skip-Gram模型在包含稀有字符的语料上表现比CBOW要好，因而更适合本任务。在获得预训练好的字向量后，直接使用输入的字符索引查表即可获得每个字符所对应的字向量，得到字向量序列x(x1,x2…xn)，x∈R^n×d，d为字向量空间维度，然后利用字向量序列可以得到每个子句对应的子向量。

本实施例通过将各个要点的非结构化数据划分为多个子句，通过深度自编码器获取每个子句对应的子向量，利用该子向量进行求和从而获得非结构化数据的向量表示，能够基于对非结构化数据进行准确的子句划分，通过深度自编码器对各个子句进行向量表示，实现将非结构化数据准确表达成向量的形式，有利于准确计算出各电子病历的非结构化数据之间的相似度。

在一个实施例中，计算各个电子病历的向量的第一相似度的步骤可以包括：

计算各个电子病历的向量的余弦相似度；根据余弦相似度确定第一相似度。

本实施例主要是通过向量的余弦相似度确定各电子病历的非结构化数据之间的相似度，例如可以通过对电子病历中如“主诉、现病史、出院情况、诊疗经过、入院情况”等多个数据维度的非结构化数据的向量的余弦相似度来度量该第一相似度。

具体的，对于一个病人的电子病历A，在得到了其非结构化数据的向量表示P1＝[a11 a12 … a1n]，以及另一个病人的电子病历B的非结构化数据的向量表示P2＝[a21a22 … a2n]后，可以采用如下公式计算出这两个向量之间的余弦相似度：

其中，cos(P₁,P₂)表示电子病历A和电子病历B的向量P1和P2之间的余弦相似度，可以将该余弦相似度作为第一相似度，即作为各个电子病历的非结构化数据之间的相似度。

在一个实施例中，获取第二相似度的步骤可以包括：

步骤S301，确定结构化数据的第二特征维度。

由于电子病历的结构化数据维度非常高，其中存在不少冗余数据，而且相当一部分维度不具备对电子病历较好的区分能力，比如民族、职业等信息。因此需要先对电子病历的结构化数据进行降维，本步骤可以在提取出电子病历的结构化数据以后，选出对电子病历区分度较高的维度作为第二特征维度，用于对结构化数据进行筛选，筛选出对电子病历具有较好区分度的结构化数据，然后进行相似度计算。在确定第二特征维度时，以慢阻肺患者的电子病历为例，可以选取临床上常用的重要人口学信息，现病史，个人史，既往史，检验检查指标，还可以参照2018慢阻肺全球策略指南里面提到的COPD发病因素和加重影响因素作为第二特征维度的选择依据。

步骤S302，从结构化数据中提取第二特征维度下的子结构化数据。

本步骤主要是在确定第二特征维度以后，可以从电子病历的全部结构化数据中筛选出该第二特征维度下的结构化数据作为子结构化数据。具体的，对于如慢阻肺患者的电子病历当中，可以参考慢阻肺全球策略指南，以及SCI相关文献，选取“年龄、性别、BMI、一年内急性加重次数、吸烟历、吸烟包年、近期咳嗽、近期咳痰、近期胸闷、近期喘息、近期气促、既往气促、夜间阵发性呼吸困难、双下肢水肿、心悸、血嗜酸性粒细胞计数、痰嗜酸性粒细胞计数和共患病(多种)”等维度作为第二特征维度，可以在电子病历的结构化数据当中提取出这些维度下的结构化数据作为子结构化数据。

步骤S303，获取与第二特征维度相对应的权重值。

其中，确定的第二特征维度可以作为电子病历的结构化数据的相似度比较节点，第二特征维度的数量一般是多个，本步骤可以按照各个第二特征维度对相似度的影响因素大小为每个节点赋予相应的权重值。

步骤S304，根据权重值和子结构化数据计算第二相似度。

本步骤中，可以按照各第二特征维度分配的权重值以及各第二特征维度下的子结构化数据计算第二相似度，例如对各个子结构化数据进行加权求和等方式计算第二相似度。

进一步的，为了提高第二相似度的计算结果的准确性，在一个实施例中，上述根据权重值和子结构化数据计算第二相似度的步骤可以包括：

获取各个电子病历的子结构化数据的交集值和并集值；根据交集值、并集值和权重值计算加权交集值和加权并集值；将加权交集值和加权并集值的比值设为第二相似度。

本实施例可以先求取各个电子病历的各子结构化数据的交集和并集，得到各个电子病历的子结构化数据的交集值和并集值，然后在得到各第二特征维度分配的权重值以后，利用各子结构化数据的交集值和对应的权重值进行加权计算得到加权交集值，利用各子结构化数据的并集值和权重值进行加权计算得到加权并集值，最后将加权交集值和加权并集值的比值作为第二相似度。

具体的，设电子病历A的各子结构化数据表示为集合A，电子病历B的各子结构化数据表示为集合B，则可以先对集合A和集合B求交集，将交集中的每一项进行加权求和得到加权交集值，再对集合A和集合B求并集，将并集中的每一项进行加权求和得到加权并集值，最后用加权交集值除以加权并集值即可得到两个电子病历A和电子病历B的结构化数据的相似度即第二相似度，可以用如下公式进行表示：

其中，S表示第二相似度，wi表示集合A和集合B的交集中的第i项数据与相应权重值的乘积，wj表示集合A和集合B的并集中的第j项数据与相应权重值的乘积。本实施例通过各个电子病历的各子结构化数据的加权交集值和加权并集值可以准确计算出各个电子病历的结构化数据的相似度，为准确计算电子病历之间的相似度提供数据基础。

在一个实施例中，根据第一相似度和第二相似度确定各个电子病历的相似度的步骤可以包括：

确定非结构化数据和结构化数据的权重比；根据权重比、第一相似度和第二相似度计算相似度。

本实施例中，可以为各电子病历的非结构化数据和结构化数据分配权重比，然后基于该权重比来综合第一相似度和第二相似度最终计算出电子病历之间的相似度。其中，对于不同的疾病类型，结构化数据和非结构化数据所承载的病历信息的重要性有所差异，根据实际情况为电子病历的非结构化数据和结构化数据分配合适的权重比，对于准确计算相似度尤为重要。以慢阻肺患者为例，可以通过咨询呼研所慢阻肺领域专家来确定非结构化数据和结构化数据的权重比，其中由于结构化数据所承载的病历信息内容明确，可比性高，所以权重大大高于非结构化数据，因此可以将结构化数据和非结构化数据对应的相似度的求和比重设为约为4:1。另外，在对第一相似度和第二相似度进行加权时，可以将结构化数据和非结构化数据对应的第一相似度和第二相似度利用z-scores方法分别归一化到0-1的范围之内，再按照不同加权比重进行求和得到各个电子病历的相似度。

在一个实施例中，还提供一种电子病历的相似度确定方法，参考图3，图3为另一个实施例中电子病历的相似度确定方法的流程示意图，该电子病历的相似度确定方法可以包括如下步骤：

步骤S401，确定非结构化数据的第一特征维度；

步骤S402，按照第一特征维度进行要点分层，得到多个要点；

步骤S403，将与多个要点相对应的非结构化数据划分为多个子句；

步骤S404，通过深度自编码器获取与各个子句相匹配的子向量；

步骤S405，将子向量进行求和得到向量；

步骤S406，计算各个电子病历的向量的余弦相似度；

步骤S407，根据余弦相似度确定第一相似度；

步骤S408，确定结构化数据的第二特征维度；

步骤S409，从结构化数据中提取第二特征维度下的子结构化数据；

步骤S410，获取与第二特征维度相对应的权重值；

步骤S411，获取各个电子病历的子结构化数据的交集值和并集值；

步骤S412，根据交集值、并集值和权重值计算加权交集值和加权并集值；

步骤S413，将加权交集值和加权并集值的比值设为第二相似度；

步骤S414，确定非结构化数据和结构化数据的权重比；

步骤S415，根据权重比、第一相似度和第二相似度计算相似度。

本实施例的方案能够提高对各电子病历之间的相似度计算的准确性，有利于提高患者相似度计算的精确性，以及能够从多个维度对电子病历以及相应患者的相似性进行计算，可以结合国际指南和SCI高分文献对相似度要点进行定义和赋值，有助于大大提高患者临床相似度的准确性。

在一个实施例中，提供了一种电子病历的相似度确定装置，参考图4，图4为一个实施例中电子病历的相似度确定装置的结构框图，该电子病历的相似度确定装置可以包括：

转化模块101，用于将多个电子病历的非结构化数据转化为向量；

计算模块102，用于计算各个所述电子病历的所述向量的第一相似度；

获取模块103，用于获取第二相似度；所述第二相似度为各个所述电子病历的结构化数据的相似度；

确定模块104，用于根据所述第一相似度和第二相似度确定各个所述电子病历的相似度。

在一个实施例中，转化模块101可以包括：

第一确定单元，用于确定非结构化数据的第一特征维度；

分层单元，用于按照第一特征维度进行要点分层，得到第一特征维度的多个要点；

转化单元，用于将与多个要点相对应的非结构化数据转化为向量。

在一个实施例中，转化单元进一步用于：将与多个要点相对应的非结构化数据划分为多个子句；通过深度自编码器获取与各个子句相匹配的子向量；将子向量进行求和得到向量。

在一个实施例中，计算模块102进一步用于：计算各个电子病历的向量的余弦相似度；根据余弦相似度确定第一相似度。

在一个实施例中，获取模块103可以包括：

第二确定单元，用于确定结构化数据的第二特征维度；

提取单元，用于从结构化数据中提取第二特征维度下的子结构化数据；

获取单元，用于获取与第二特征维度相对应的权重值；

计算单元，用于根据权重值和子结构化数据计算第二相似度。

在一个实施例中，计算单元进一步用于：获取各个电子病历的子结构化数据的交集值和并集值；根据交集值、并集值和权重值计算加权交集值和加权并集值；将加权交集值和加权并集值的比值设为第二相似度。

在一个实施例中，确定模块104进一步用于：确定非结构化数据和结构化数据的权重比；根据权重比、第一相似度和第二相似度计算相似度。

本发明的电子病历的相似度确定装置与本发明的电子病历的相似度确定方法一一对应，关于电子病历的相似度确定装置的具体限定可以参见上文中对于电子病历的相似度确定方法的限定，在上述电子病历的相似度确定方法的实施例阐述的技术特征及其有益效果均适用于电子病历的相似度确定装置的实施例中，在此不再赘述。上述电子病历的相似度确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示，图5为一个实施例中计算机设备的内部结构图。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库可以用于存储包括电子病历、电子病历的非结构化数据和结构化数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电子病历的相似度确定方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

将多个电子病历的非结构化数据转化为向量；计算各个电子病历的向量的第一相似度；获取第二相似度；第二相似度为各个电子病历的结构化数据的相似度；根据第一相似度和第二相似度确定各个电子病历的相似度。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

确定非结构化数据的第一特征维度；按照第一特征维度进行要点分层，得到第一特征维度的多个要点；将与多个要点相对应的非结构化数据转化为向量。

确定结构化数据的第二特征维度；从结构化数据中提取第二特征维度下的子结构化数据；获取与第二特征维度相对应的权重值；根据权重值和子结构化数据计算第二相似度。

上述计算机设备，通过所述处理器上运行的计算机程序，结合电子病历的结构化数据和非结构化数据的相似度来计算各个电子病历之间的相似度，提高了计算电子病历相似度的准确性，还有利于准确评估与各个电子病历相对应的患者之间的相似程度，为进一步发现病人群落和实现个性化诊疗提供数据基础。

本领域普通技术人员可以理解实现如上任一项实施例所述的电子病历的相似度确定方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

据此，在一个实施例中提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

上述计算机可读存储介质，通过其存储的计算机程序，结合电子病历的结构化数据和非结构化数据的相似度来计算各个电子病历之间的相似度，提高了计算电子病历相似度的准确性，还有利于准确评估与各个电子病历相对应的患者之间的相似程度，为进一步发现病人群落和实现个性化诊疗提供数据基础。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种电子病历的相似度确定方法，其特征在于，包括步骤：

将多个电子病历的非结构化数据转化为向量；

计算各个所述电子病历的所述向量的第一相似度；

2.根据权利要求1所述的电子病历的相似度确定方法，其特征在于，所述将多个电子病历的非结构化数据转化为向量的步骤包括：

确定非结构化数据的第一特征维度；

按照所述第一特征维度进行要点分层，得到所述第一特征维度的多个要点；

将与所述多个要点相对应的非结构化数据转化为向量。

3.根据权利要求2所述的电子病历的相似度确定方法，其特征在于，所述将与所述多个要点相对应的非结构化数据转化为向量的步骤包括：

将与所述多个要点相对应的非结构化数据划分为多个子句；

通过深度自编码器获取与各个所述子句相匹配的子向量；

将所述子向量进行求和得到所述向量。

4.根据权利要求1至3任一项所述的电子病历的相似度确定方法，其特征在于，所述计算各个所述电子病历的所述向量的第一相似度的步骤包括：

计算各个所述电子病历的所述向量的余弦相似度；

根据所述余弦相似度确定所述第一相似度。

5.根据权利要求1所述的电子病历的相似度确定方法，其特征在于，所述获取第二相似度的步骤包括：

确定结构化数据的第二特征维度；

从所述结构化数据中提取所述第二特征维度下的子结构化数据；

获取与所述第二特征维度相对应的权重值；

根据所述权重值和子结构化数据计算所述第二相似度。

6.根据权利要求5所述的电子病历的相似度确定方法，其特征在于，所述根据所述权重值和子结构化数据计算所述第二相似度的步骤包括：

获取各个所述电子病历的所述子结构化数据的交集值和并集值；

根据所述交集值、并集值和权重值计算加权交集值和加权并集值；

将所述加权交集值和加权并集值的比值设为所述第二相似度。

7.根据权利要求1所述的电子病历的相似度确定方法，其特征在于，所述根据所述第一相似度和第二相似度确定各个所述电子病历的相似度的步骤包括：

确定所述非结构化数据和结构化数据的权重比；

根据所述权重比、第一相似度和第二相似度计算所述相似度。

8.一种电子病历的相似度确定装置，其特征在于，包括：

转化模块，用于将多个电子病历的非结构化数据转化为向量；

获取模块，用于获取第二相似度；所述第二相似度为各个所述电子病历的结构化数据的相似度；

9.一种计算机设备，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的电子病历的相似度确定方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的电子病历的相似度确定方法的步骤。