CN112329461A

CN112329461A - 相似病历确定方法、计算机设备及计算机存储介质

Info

Publication number: CN112329461A
Application number: CN202011328910.4A
Authority: CN
Inventors: 汤学民
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-02-05

Abstract

本申请实施例公开了一种相似病历确定方法、计算机设备及计算机存储介质，用于确定出相似病历以便于为患者的治疗方案提供参考。本申请实施例包括：根据文本相似度算法确定出至少一对配对子诊断文本以及每一对配对子诊断文本分别对应的相似度，确定第一初步诊断文本的第一向量值以及第二初步诊断文本的第二向量值，将第一向量值及第二向量值分别代入余弦相似度计算公式，计算得到第一初步诊断文本与第二初步诊断文本的第一余弦相似度，在该第一余弦相似度满足预设条件时确定为相似病历。本申请实施例的方法可以方便快捷地确定出相似病历，减小确定相似病历的难度，极大地提高了确定相似病历的方案的实用性。

Description

相似病历确定方法、计算机设备及计算机存储介质

技术领域

本申请实施例涉及医疗领域，具体涉及一种相似病历确定方法、计算机设备及计算机存储介质。

背景技术

医生在对各种临床资料进行分析、评价和综合后，结合自身掌握的医学知识和临床经验，将可能性较大的疾病排列出来，作为诊断假设。尝试用诊断假设解释病人的临床表现，并排列出优先次序。选择可能性最大的、最能解释所有临床发现的疾病形成初步诊断。初步诊断是入院记录的一部分，入院记录是指患者入院后，由经治医师通过问诊、查体、辅助体检得到有关资料，并对这些资料归纳分析书写而成的记录。提出初步诊断后，需给予必要的治疗及进一步检查，以验证或修正初步诊断。

以上是疾病诊断的一般步骤。在此过程中，临床医生在完成入院记录后，希望能看一看以往相似的病历，为当前病人的下一步的诊疗提供参考。临床医生尤其是低年资医生，希望计算机能根据入院记录中的主诉、现病史、既往史、体格检查、检验检查的内容，辅助完成初步诊断及鉴别诊断。同时，检索出相似的病历，了解此类疾病的临床表现及特点、疾病的演变情况、治疗效果、转归及预后，以便医生可以学习和参考，对于鉴别诊断及疾病的治疗都有积极的意义。有利于提高临床诊断水平，减少诊断及治疗失误。

目前，由于临床疾病诊断的复杂性及计算机的水平限制，计算机根据医生的入院记录，系统自动做出的初步诊断，此项工作目前难度较大，投入实际应用还比较困难。但在目前的技术条件下，利用医生的高级思维活动做出的初步诊断，同时结合主要症状查找出相似病历，仍然具有很大的意义。

发明内容

本申请实施例提供了一种相似病历确定方法、计算机设备及计算机存储介质，用于确定出相似病历以便于为患者的治疗方案提供参考。

本申请实施例第一方面提供了一种相似病历确定方法，包括：

获取第一初步诊断文本和第二初步诊断文本，所述第一初步诊断文本包括多个第一子诊断文本，所述第二初步诊断文本包括多个第二子诊断文本；

根据文本相似度算法，在所述多个第二子诊断文本中依次确定每个所述第一子诊断文本所配对的第二子诊断文本，得到至少一对配对子诊断文本以及每一对所述配对子诊断文本分别对应的相似度；

将所述配对子诊断文本的相似度与所述配对子诊断文本中的第一子诊断文本的预设权重的乘积确定为所述第一初步诊断文本的第一向量值，将所述配对子诊断文本的相似度与所述配对子诊断文本中的第二子诊断文本的预设权重的乘积确定为所述第二初步诊断文本的第二向量值；

将所述第一向量值及所述第二向量值分别代入预设的余弦相似度计算公式，计算得到所述第一初步诊断文本与所述第二初步诊断文本的第一余弦相似度；

当所述第一余弦相似度满足预设条件时，确定所述第一初步诊断文本对应的病历与所述第二初步诊断文本对应的病历为相似病历。

优选的，所述在所述多个第二子诊断文本中依次确定每个所述第一子诊断文本所配对的第二子诊断文本，包括：

根据所述文本相似度算法，计算第一主诊断文本与第二主诊断文本的相似度，所述第一主诊断文本为按照所述多个第一子诊断文本的排列顺序而确定的第一个子诊断文本，所述第二主诊断文本为按照所述多个第二子诊断文本的排列顺序而确定的第一个子诊断文本；

若所述第一主诊断文本与所述第二主诊断文本的相似度不小于预设阈值，则确定所述第一主诊断文本与所述第二主诊断文本为一对配对子诊断文本；

根据所述文本相似度算法，按照所述多个第一子诊断文本的排列顺序依次计算除所述第一主诊断文本之外的每个第一子诊断文本与所述多个第二子诊断文本中未配对的每个第二子诊断文本之间的相似度；

在除所述第一主诊断文本之外的每个第一子诊断文本对应的多个相似度中确定最大相似度，确定所述最大相似度对应的第一子诊断文本和第二子诊断文本为配对子诊断文本。

本申请实施例第二方面提供了一种计算机设备，包括：

获取单元，用于获取第一初步诊断文本和第二初步诊断文本，所述第一初步诊断文本包括多个第一子诊断文本，所述第二初步诊断文本包括多个第二子诊断文本；

第一确定单元，用于根据文本相似度算法，在所述多个第二子诊断文本中依次确定每个所述第一子诊断文本所配对的第二子诊断文本，得到至少一对配对子诊断文本以及每一对所述配对子诊断文本分别对应的相似度；

第二确定单元，用于将所述配对子诊断文本的相似度与所述配对子诊断文本中的第一子诊断文本的预设权重的乘积确定为所述第一初步诊断文本的第一向量值，将所述配对子诊断文本的相似度与所述配对子诊断文本中的第二子诊断文本的预设权重的乘积确定为所述第二初步诊断文本的第二向量值；

计算单元，用于将所述第一向量值及所述第二向量值分别代入预设的余弦相似度计算公式，计算得到所述第一初步诊断文本与所述第二初步诊断文本的第一余弦相似度；

第三确定单元，用于当所述第一余弦相似度满足预设条件时，确定所述第一初步诊断文本对应的病历与所述第二初步诊断文本对应的病历为相似病历。

本申请实施例第三方面提供了一种计算机设备，包括：

处理器、存储器、总线、输入输出设备；

所述处理器与所述存储器、输入输出设备相连；

所述总线分别连接所述处理器、存储器以及输入输出设备；

所述处理器用于获取第一初步诊断文本和第二初步诊断文本，所述第一初步诊断文本包括多个第一子诊断文本，所述第二初步诊断文本包括多个第二子诊断文本；根据文本相似度算法，在所述多个第二子诊断文本中依次确定每个所述第一子诊断文本所配对的第二子诊断文本，得到至少一对配对子诊断文本以及每一对所述配对子诊断文本分别对应的相似度；将所述配对子诊断文本的相似度与所述配对子诊断文本中的第一子诊断文本的预设权重的乘积确定为所述第一初步诊断文本的第一向量值，将所述配对子诊断文本的相似度与所述配对子诊断文本中的第二子诊断文本的预设权重的乘积确定为所述第二初步诊断文本的第二向量值；将所述第一向量值及所述第二向量值分别代入预设的余弦相似度计算公式，计算得到所述第一初步诊断文本与所述第二初步诊断文本的第一余弦相似度；当所述第一余弦相似度满足预设条件时，确定所述第一初步诊断文本对应的病历与所述第二初步诊断文本对应的病历为相似病历。

本申请实施例第四方面提供了一种计算机存储介质，计算机存储介质中存储有指令，该指令在计算机上执行时，使得计算机执行前述第一方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，根据文本相似度算法确定出至少一对配对子诊断文本以及每一对配对子诊断文本分别对应的相似度，并将配对子诊断文本的相似度与配对子诊断文本中的第一子诊断文本的预设权重的乘积确定为第一初步诊断文本的第一向量值，将配对子诊断文本的相似度与配对子诊断文本中的第二子诊断文本的预设权重的乘积确定为第二初步诊断文本的第二向量值，将第一向量值及第二向量值分别代入余弦相似度计算公式，计算得到第一初步诊断文本与第二初步诊断文本的第一余弦相似度，在该第一余弦相似度满足预设条件时确定第一初步诊断文本对应的病历与第二初步诊断文本对应的病历为相似病历。本申请实施例的方法可以方便快捷地确定出相似病历，减小确定相似病历的难度，极大地提高了确定相似病历的方案的实用性。

附图说明

图1为本申请实施例中相似病历确定方法一个流程示意图；

图2为本申请实施例中相似病历确定方法另一流程示意图；

图3为本申请实施例中计算机设备一个结构示意图；

图4为本申请实施例中计算机设备另一结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在疾病诊断过程中，经治医师根据患者入院时的情况进行综合分析而作出初步诊断，之后，根据作出的初步诊断给予患者必要的治疗以及进一步的检查，并形成患者的病历。因此，患者的病历包括了初步诊断的文本内容。在这过程中，医生可能需要查找出与患者的病历相似的病历，以参考相似病历对应的诊疗手段。

但是，确定相似病历并非易事，一方面是由于初步诊断为非结构化的描述性诊断，其内容、格式是自由且不规范的，其不规范性表现在，同一诊断有不同的名称，如标准名、ICD10疾病名、国家临床诊断疾病名、深圳市临床疾病诊断名等等。此外，初步诊断名称还有习惯用名、简称、英文缩写等等。同时，一个住院病人的初步诊断往往包括多个诊断，少则2、3个，多则十几个。诊断的不同或者多个诊断的排列顺序不同，都会导致病历的相似度不同。

另一方面，病历中的主要症状的描述也是非结构化的。目前，临床常见症状有2、3百个，不常见的有5、6百个。每种症状有不同的表述方式，有书面名、口头语，有规范词，有习惯语，有全称，有简称等等。同一症状可能有字面完全不匹配的表达，或者是两种看似相似的表达可能分别对应不同的症状。

为解决上述难点，本申请实施例提出了一种相似病历确定方法，具体请参阅图1，本申请实施例中相似病历确定方法一个实施例包括：

101、获取第一初步诊断文本和第二初步诊断文本；

本实施例的方法可应用于计算机设备，该计算机设备能够根据预设的计算机程序执行相应的数据处理、数据分析等任务，其类型可以是终端、服务器等设备类型。

患者的病历或者病历的入院记录中记载有患者初步诊断的文本内容，因此，可以从病历或者入院记录中提取出初步诊断文本。当需要确定两个简历的相似度时，从一个病历或者病历的入院记录中提取出第一初步诊断文本，从另一病历或者病历的入院记录中提取出第二初步诊断文本。

医生在对患者作出初步诊断时，初步诊断往往包括多个诊断，则初步诊断文本也相应地包括每个诊断对应的文本。因此，分别对第一初步诊断文本以及第二初步诊断文本进行解析，得到第一初步诊断文本对应的多个第一子诊断文本以及第二初步诊断文本对应的多个第二子诊断文本。

本实施例根据初步诊断文本来确定出相似病历，是因为初步诊断是医生对各种临床资料进行分析、评价和综合之后，结合医生掌握的医学知识和临床经验而形成的，是一种高级的思维活动，同时也是病历中的入院记录的整体体现和高度浓缩。因此，初步诊断文本是病历中极具代表性的文本，根据初步诊断文本来确定相似病历，可以获得更准确的结果。

102、根据文本相似度算法，在多个第二子诊断文本中依次确定每个第一子诊断文本所配对的第二子诊断文本，得到至少一对配对子诊断文本以及每一对配对子诊断文本分别对应的相似度；

在获得第一子诊断文本以及第二子诊断文本之后，根据文本相似度算法，计算每一个第一子诊断文本与第二子诊断文本的相似度，并在多个第二子诊断文本中依次确定每个第一子诊断文本所配对的第二子诊断文本，得到至少一对配对子诊断文本以及每一对配对子诊断文本分别对应的相似度。

其中，文本相似度算法可以是任意的文本相似度算法，例如可以是余弦相似度算法、基于字符的编辑距离算法、基于词嵌入模型的word2vec算法等算法。

103、将配对子诊断文本的相似度与配对子诊断文本中的第一子诊断文本的预设权重的乘积确定为第一初步诊断文本的第一向量值，将配对子诊断文本的相似度与配对子诊断文本中的第二子诊断文本的预设权重的乘积确定为第二初步诊断文本的第二向量值；

在得到配对子诊断文本以及每一对配对子诊断文本分别对应的相似度之后，将配对子诊断文本的相似度与配对子诊断文本中的第一子诊断文本的预设权重的乘积确定为第一初步诊断文本的第一向量值，将配对子诊断文本的相似度与配对子诊断文本中的第二子诊断文本的预设权重的乘积确定为第二初步诊断文本的第二向量值。

例如，某一对配对子诊断文本中的第一子诊断文本A1的预设权重为100，则该配对子诊断文本的相似度与第一子诊断文本A1的预设权重的乘积作为第一初步诊断文本的一个第一向量值。而该配对子诊断文本中的第二子诊断文本A2的预设权重为50，则该配对子诊断文本的相似度与第二子诊断文本A2的预设权重的乘积作为第二初步诊断文本的一个第二向量值。因此，若根据文本相似度算法确定出第一初步诊断文本与第二初步诊断文本之间具有5对配对子诊断文本，则可得到第一初步诊断文本的5个第一向量值，以及第二初步诊断文本的5个第二向量值。

104、将第一向量值及第二向量值分别代入预设的余弦相似度计算公式，计算得到第一初步诊断文本与第二初步诊断文本的第一余弦相似度；

获得第一初步诊断文本的多个第一向量值以及第二初步诊断文本的多个第二向量值之后，将第一向量值及第二向量值分别代入预设的余弦相似度计算公式，即可计算得到第一初步诊断文本与第二初步诊断文本的第一余弦相似度。

余弦相似度用向量空间中两个向量的夹角的余弦值来衡量两个个体间差异的大小。余弦相似度的数值越接近1，就表明夹角越接近0度，也就是两个向量越相似。其中，预设的余弦相似度计算公式可以是任意的计算公式，只要能计算得到余弦相似度即可。在一种优选方式中，该余弦相似度计算公式可以是如下公式：

其中，x_i为第一初步诊断文本的第一向量值；y_i为第二初步诊断文本的第二向量值。

105、当第一余弦相似度满足预设条件时，确定第一初步诊断文本对应的病历与第二初步诊断文本对应的病历为相似病历；

当计算得到的第一余弦相似度满足预设条件时，确定第一初步诊断文本对应的病历与第二初步诊断文本对应的病历为相似病历。

本实施例中，根据文本相似度算法确定出至少一对配对子诊断文本以及每一对配对子诊断文本分别对应的相似度，并将配对子诊断文本的相似度与配对子诊断文本中的第一子诊断文本的预设权重的乘积确定为第一初步诊断文本的第一向量值，将配对子诊断文本的相似度与配对子诊断文本中的第二子诊断文本的预设权重的乘积确定为第二初步诊断文本的第二向量值，将第一向量值及第二向量值分别代入余弦相似度计算公式，计算得到第一初步诊断文本与第二初步诊断文本的第一余弦相似度，在该第一余弦相似度满足预设条件时确定第一初步诊断文本对应的病历与第二初步诊断文本对应的病历为相似病历。本实施例的方法可以方便快捷地确定出相似病历，减小确定相似病历的难度，极大地提高了确定相似病历的方案的实用性。

下面将在前述图1所示实施例的基础上，进一步详细地描述本申请实施例。请参阅图2，本申请实施例中相似病历确定方法另一实施例包括：

201、获取第一初步诊断文本和第二初步诊断文本；

本步骤所执行的操作与前述图1所示实施例中的步骤101所执行的操作类似，此处不再赘述。

202、根据文本相似度算法，在多个第二子诊断文本中依次确定每个第一子诊断文本所配对的第二子诊断文本，得到至少一对配对子诊断文本以及每一对配对子诊断文本分别对应的相似度；

在计算第一初步诊断文本与第二初步诊断文本的相似度时，由于初步诊断文本包括多个子诊断文本，因此，可以先计算子诊断文本之间的相似度。计算子诊断文本之间的相似度可以用来确定出配对子诊断文本。

具体的，确定出配对子诊断文本的方式可以是，根据文本相似度算法，计算第一主诊断文本与第二主诊断文本的相似度，其中第一主诊断文本为按照第一初步诊断文本中的多个第一子诊断文本的排列顺序而确定的第一个子诊断文本，第二主诊断文本为按照第二初步诊断文本中的多个第二子诊断文本的排列顺序而确定的第一个子诊断文本。优选的，文本相似度算法可以是余弦相似度算法。

其中，主诊断文本也就是初步诊断中的主要诊断的文本内容，主要诊断，也称为主诊断，是指经研究确定的导致患者本次住院就医的主要原因的疾病，患者一次住院只能有一个主要诊断。一般而言，初步诊断中的第一个诊断即为主要诊断。可以看出，主诊断是初步诊断中的核心诊断，当主诊断不一致时，两个初步诊断也将呈现出较大的差别。因此，若主诊断文本的相似度不高，也就无需再讨论其他子诊断文本的相似度；若主诊断文本的相似度较高，也可以预测出两个初步诊断文本具有一定的相似性，可进一步探讨其他子诊断文本的相似度。

因此，若第一主诊断文本与第二主诊断文本的相似度不小于预设阈值，则确定第一主诊断文本与第二主诊断文本为一对配对子诊断文本；若其相似度小于该预设阈值，表明第一初步诊断文本与第二初步诊断文本可能存在较大的差异，可无需计算其他子诊断文本的相似度，则舍弃该第二初步诊断文本对应的病历，不将其列入相似病历的考虑范围。

在确定第一主诊断文本与第二主诊断文本为一对配对子诊断文本之后，继续计算其他子诊断文本之间的相似度。具体的，根据文本相似度算法，按照第一初步诊断文本中的多个第一子诊断文本的排列顺序，依次计算除第一主诊断文本之外的每个第一子诊断文本与第二初步诊断文本中未配对的每个第二子诊断文本之间的相似度，可得到除第一主诊断文本之外的每个第一子诊断文本所对应的多个相似度。在除第一主诊断文本之外的每个第一子诊断文本对应的多个相似度中确定出最大相似度，并确定最大相似度对应的第一子诊断文本和第二子诊断文本为配对子诊断文本。

举例来说，假设第一初步诊断文本包括5个第一子诊断文本，第二初步诊断文本包括4个第二子诊断文本，为便于描述，初步诊断文本采用字母P(primary diagnosis，初步诊断)来指代，则P1指代第一初步诊断文本，P2指代第二初步诊断文本；同时，子诊断文本采用字母D(diagnosis，诊断)来指代，则P1包括的5个第一子诊断文本可表示为{D11、D12、D13、D14、D15}，P2包括的4个第二子诊断文本可表示为{D21、D22、D23、D24}。在确定P1中的第一主诊断文本(即子诊断文本D11)与P2中的第二主诊断文本(即子诊断文本D21)为配对子诊断文本之后，按照P1中的5个子诊断文本的排列顺序，计算D12与P2中未配对的每个子诊断文本(即D22、D23、D24)之间的相似度，可得到D12对应的3个相似度，并从该3个相似度中确定出最大的相似度(假设D12与D23的相似度最大)，则最大相似度对应的D12与D23为配对子诊断文本。以此类推，按照P1中的5个子诊断文本的排列顺序，下一步需要确定配对子诊断文本的第一子诊断文本为D13，且与D13计算相似度的第二子诊断文本为D22和D24。参照以上描述的过程，可分别确定出其余未配对的第一子诊断文本所配对的第二子诊断文本。

通过以上方式，可确定出第一初步诊断文本与第二初步诊断文本的至少一对配对子诊断文本。

本实施例中，计算子诊断文本之间的相似度的方式可以有多种。在一种优选的实施方式中，判断第一子诊断文本的诊断名称与第二子诊断文本的诊断名称是否相同，若相同，则可以直接确定第一子诊断文本与第二子诊断文本之间的相似度为1；若不相同，则判断第一子诊断文本的诊断名称对应的同义词库中是否存在与第二子诊断文本的诊断名称相同的诊断名称，其中同义词库包括与第一子诊断文本的含义相同的诊断名称，因此，若存在与第二子诊断文本的诊断名称相同的诊断名称，也就是说第二子诊断文本的诊断名称也存在于第一子诊断文本的诊断名称对应的同义词库中，即表明第一子诊断文本与第二子诊断文本是同义诊断，可以直接确定第一子诊断文本与第二子诊断文本之间的相似度为1。

其中，确定第一子诊断文本的诊断名称对应的同义词库，可以根据ICD10疾病名、国家临床诊断疾病名、深圳市临床疾病诊断名等命名规则确定第一子诊断文本的同义诊断，并汇集所有同义诊断得到同义词库。

若该同义词库中不存在与第二子诊断文本的诊断名称相同的诊断名称，则根据余弦相似度算法计算第一子诊断文本与第二子诊断文本之间的相似度。

具体的，在计算第一子诊断文本与第二子诊断文本之间的相似度时，对第一子诊断文本进行分词，得到第一子诊断文本的每个分词位置分别对应的原始分词，并确定原始分词对应的近义词。之后，依次将第一子诊断文本的每个分词位置的每个备选词分别与其他分词位置的备选词组成的特征向量与第二子诊断文本对应的特征向量代入余弦相似度计算公式，计算得到多个相似度计算结果；并将每个分词位置对应的多个相似度计算结果中相似度最大的计算结果对应的备选词确定为分词位置的选定词，并将最后一个确定的选定词所对应的相似度计算结果确定为第一子诊断文本与第二子诊断文本的相似度。

其中，分词位置是指对第一子诊断文本进行分词之后，每一个分词所在的位置。例如，假设一句语料为“这只皮靴号码大了。那只号码合适”，在对其进行分词之后，可得到分词结果为“这只/皮靴/号码/大了。那只/号码/合适”，其中斜杠符号将多个分词分隔开，并且每个分词都对应一个分词位置。

对第一子诊断文本进行分词所依据的分词语料库可以是《信息处理用现代汉语五千词表》以及自建的电子病历分词库，或者是医疗领域内所建立的分词语料库，具体的分词语料库不作限定。

原始分词是指来自于第一子诊断文本的原始文本的分词。例如，第一子诊断文本表示为“左肱骨骨折”(即原始文本)，对其进行分词之后，得到分词结果为“左肱骨/骨折”，则第一子诊断文本的原始分词分别为“左肱骨”以及“骨折”。

第一子诊断文本的分词位置上的备选词包括原始分词以及原始分词的近义词，并且，每个备选词均具有词频，备选词的词频的获取方式可以是，通过对医院在一定时长内(例如三年内)所有患者的全部初步诊断记录进行收集，并对每个初步诊断记录进行分词，统计所有初步诊断记录的所有分词并计算每个分词的词频。

备选词以及备选词的词频可组成一个向量值，因此，第一子诊断文本的特征向量就包括了每个分词位置的备选词以及每个备选词对应的词频，同样的，第二子诊断文本对应的特征向量包括第二子诊断文本的每个分词以及每个分词对应的词频。因此，依次将第一子诊断文本的每个分词位置的每个备选词与其他分词位置的备选词组成的特征向量与第二子诊断文本对应的特征向量代入余弦相似度计算公式，可计算得到多个相似度计算结果。

例如，假设第一子诊断文本的分词结果表示为{T1,W1；T2,W2；T3,W3}，其中字母T表示第一子诊断文本的原始分词，字母W表示原始分词的词频，并且假设原始分词T1对应的近义词包括T1-1、T1-2、T1-3，则原始分词T1及其近义词作为原始分词T1对应的分词位置上的备选词。依次将原始分词T1、近义词T1-1、T1-2、T1-3与其他分词位置的备选词所共同组成的特征向量分别与第二子诊断文本对应的特征向量代入余弦相似度计算公式，可计算得到多个相似度计算结果。再将该多个相似度计算结果中相似度最大的计算结果对应的备选词确定为原始分词T1对应的分词位置的选定词，假设T1-2对应的相似度计算结果最大，则确定T1-2为原始分词T1对应的分词位置的选定词。以此类推，可分别确定出原始分词T2对应的分词位置的选定词以及原始分词T3对应的分词位置的选定词。在确定其他分词位置的选定词的时候，由于原始分词T1对应的分词位置已确定了选定词(即T1-2)，因此，计算相似度时便以T1-2以及T1-2的词频作为第一子诊断文本的一个向量值来计算相似度。在所有分词位置的选定词均被确定时，最后一个确定的选定词所对应的相似度计算结果即为第一子诊断文本与第二子诊断文本的相似度。

通过以上步骤，可以在第一子诊断文本对应的同义词库不存在与第二子诊断文本的诊断名称相同的诊断名称时，计算得到第一子诊断文本与第二子诊断文本的相似度。

本实施例中，计算子诊断文本之间的相似度的方式不作限定，只要能够计算得到子诊断文本之间的相似度即可，例如基于词向量的曼哈顿距离算法、基于字符的编辑距离算法或者基于概率统计的杰卡德相似系数算法等算法计算得到子诊断文本之间的相似度。

203、将配对子诊断文本的相似度与配对子诊断文本中的第一子诊断文本的预设权重的乘积确定为第一初步诊断文本的第一向量值，将配对子诊断文本的相似度与配对子诊断文本中的第二子诊断文本的预设权重的乘积确定为第二初步诊断文本的第二向量值；

在确定出配对子诊断文本之后，可以根据本步骤进一步确定第一初步诊断文本的第一向量值以及第二初步诊断文本的第二向量值。

本实施例中，若第一初步诊断文本中存在无法配对的第一子诊断文本，则将无法配对的第一子诊断文本的预设权重作为第一初步诊断文本的第一向量值中的一个向量值；若第二初步诊断文本中存在无法配对的第二子诊断文本，则将无法配对的第二子诊断文本赋值为0，并将该赋值作为第二初步诊断文本的第二向量值中的一个向量值。

本实施例中，医生所作出的初步诊断包括至少一个诊断，并且每个诊断均按照重要性依次排列，例如，初步诊断中第一个诊断是主要诊断，主要诊断是所有诊断中最重要的，其他诊断也将按照重要性大小依次排列。因此，可以根据第一子诊断文本在第一初步诊断文本中的排序位置确定第一子诊断文本的预设权重，排序位置越靠前，则第一子诊断文本的重要性越高，预设权重越大；同样的，第二子诊断文本的预设权重也可以根据第二子诊断文本在第二初步诊断文本中的排序位置而确定，排序位置越靠前，则第二子诊断文本的重要性越高，预设权重越大。

因此，本实施例中根据配对子诊断文本的相似度以及子诊断文本的预设权重来设置第一初步诊断文本的向量值以及第二初步诊断文本的向量值，相当于根据子诊断文本的重要性大小来设置第一初步诊断文本的向量值和第二初步诊断文本的向量值，这样可以使相似病历的检索更着重于重要性更高的子诊断文本，提高相似病历检索的效率以及准确度。

204、将第一向量值及第二向量值分别代入预设的余弦相似度计算公式，计算得到第一初步诊断文本与第二初步诊断文本的第一余弦相似度；

本步骤所执行的操作与前述图1所示实施例中的步骤104所执行的操作类似，此处不再赘述。

205、获取第一初步诊断文本对应的病历中主诉文本中的第一主要症状数据元，以及获取第二初步诊断文本对应的病历中主诉文本中的第二主要症状数据元；

初步诊断文本体现了病历的大部分内容，此外，病历还包括主诉文本，主诉文本也是病历的一个重要组成部分。因此，本实施例除了根据初步诊断文本来确定相似病历，还可以根据主诉文本中的主要症状数据元来确定相似病历。

具体的，病历的入院记录定义了各种类型的数据元，从病历的入院记录中筛选出主诉文本所记载的主要症状数据元，主要症状数据元均为标志型数据元。例如，主要症状数据元的数据元名称为“耳鸣标志”，则该数据元的定义即为“标识个体是否有耳鸣症状”，其表示格式为“T/F”；数据元名称为“盗汗标志”的主要症状数据元，其定义为“标识个体是否有盗汗症状”，表示格式为“T/F”，等等。

206、根据余弦相似度算法计算第一主要症状数据元与第二主要症状数据元的第二余弦相似度；

如前所述，主要症状数据元具有一定的表示格式，因此，可以根据数据元的表示格式进行取值，例如根据表示格式T/F设置数据元的结果取值为T或者取值为F。进一步地，还可以根据主要症状数据元的结果取值定义数据元的赋值结果，例如结果取值为T时，赋值结果为1；结果取值为F时，赋值结果为0。

因此，本实施例中，计算第一主要症状数据元与第二主要症状数据元的第二余弦相似度的一种具体方式可以是，若第一主要症状数据元及第二主要症状数据元的赋值结果均已被定义，则根据第一主要症状数据元的结果取值对第一主要症状数据元进行赋值，根据第二主要症状数据元的结果取值对第二主要症状数据元进行赋值。之后，分别将第一主要症状数据元的赋值结果作为第一主要症状数据元的向量值、第二主要症状数据元的赋值结果作为第二主要症状数据元的向量值，并分别代入余弦相似度计算公式，可计算得到第二余弦相似度。

计算第二余弦相似度的另一具体的实施方式中，若第一主要症状数据元及第二主要症状数据元的赋值结果均未被定义，则分别对第一主要症状数据元及第二主要症状数据元进行分词，得到第一主要症状数据元对应的多个分词以及第二主要症状数据元对应的多个分词。之后，分别将第一主要症状数据元对应的每个分词的词频作为第一主要症状数据元的向量值、第二主要症状数据元对应的每个分词的词频作为第二主要症状数据元的向量值，并分别代入余弦相似度计算公式，计算得到第二余弦相似度。其中，词频的获得方式可以是，通过对医院在一定时长内(例如三年内)所有患者的全部初步诊断记录进行收集，并对每个初步诊断记录进行分词，统计所有初步诊断记录的所有分词并计算每个分词的词频。

207、当第一余弦相似度满足预设条件时，确定第一初步诊断文本对应的病历与第二初步诊断文本对应的病历为相似病历；

通过前述步骤201至206，可获得第一初步诊断文本与第二初步诊断文本的第一余弦相似度以及第一主要症状数据元与第二主要症状数据元的第二余弦相似度。在确定病历是否相似时，可以根据第一余弦相似度和第二余弦相似度来确定病历相似度。具体的，将第一余弦相似度与预设的初步诊断权重的乘积加上第二余弦相似度与预设的主要症状权重的乘积，得到的计算结果即为第一初步诊断文本对应的病历与第二初步诊断文本对应的病历的病历相似度。其中，初步诊断权重与主要症状权重之和为1，且均为正数。

当第二初步诊断文本有多个，且每个第二初步诊断文本分别对应一个病历，即存在多个第二初步诊断文本对应的病历时，分别计算第一初步诊断文本对应的病历与每个第二初步诊断文本对应的病历的病历相似度，得到多个病历相似度。之后，在该多个病历相似度中确定出相似度最大的n个病历相似度，并分别将该相似度最大的n个病历相似度中的每个病历相似度对应的病历确定为相似病历，其中n为大于或等于1的正整数。

除了上述的方法，在确定相似病历时，还可以设置病历相似度的阈值，当病历相似度大于该阈值时，即判定两份病历相似；若小于该阈值，则判定两份病历不相似。根据病历相似度确定相似病历的方式不作限定。

本实施例中，余弦相似度计算公式可以是任意的能够计算得到余弦相似度的计算公式，公式的具体表达形式不作限定，例如可以是前述图1所示实施例中的步骤105所示的公式。

本实施例中，结合两份病历的初步诊断及主要症状的相似度来确定病历的相似度，相比于仅根据初步诊断来确定相似病历，可以大大提高相似病历检索的准确度，提高相似病历的匹配程度，方案的可操作性更强。

上面对本申请实施例中的相似病历确定方法进行了描述，下面对本申请实施例中的计算机设备进行描述，请参阅图3，本申请实施例中计算机设备一个实施例包括：

获取单元301，用于获取第一初步诊断文本和第二初步诊断文本，第一初步诊断文本包括多个第一子诊断文本，第二初步诊断文本包括多个第二子诊断文本；

第一确定单元302，用于根据文本相似度算法，在多个第二子诊断文本中依次确定每个第一子诊断文本所配对的第二子诊断文本，得到至少一对配对子诊断文本以及每一对配对子诊断文本分别对应的相似度；

第二确定单元303，用于将配对子诊断文本的相似度与配对子诊断文本中的第一子诊断文本的预设权重的乘积确定为第一初步诊断文本的第一向量值，将配对子诊断文本的相似度与配对子诊断文本中的第二子诊断文本的预设权重的乘积确定为第二初步诊断文本的第二向量值；

计算单元304，用于将第一向量值及第二向量值分别代入预设的余弦相似度计算公式，计算得到第一初步诊断文本与第二初步诊断文本的第一余弦相似度；

第三确定单元305，用于当第一余弦相似度满足预设条件时，确定第一初步诊断文本对应的病历与第二初步诊断文本对应的病历为相似病历。

本实施例一种优选的实施方式中，第一确定单元302具体用于根据文本相似度算法，计算第一主诊断文本与第二主诊断文本的相似度，第一主诊断文本为按照多个第一子诊断文本的排列顺序而确定的第一个子诊断文本，第二主诊断文本为按照多个第二子诊断文本的排列顺序而确定的第一个子诊断文本；若第一主诊断文本与第二主诊断文本的相似度不小于预设阈值，则确定第一主诊断文本与第二主诊断文本为一对配对子诊断文本；根据文本相似度算法，按照多个第一子诊断文本的排列顺序依次计算除第一主诊断文本之外的每个第一子诊断文本与多个第二子诊断文本中未配对的每个第二子诊断文本之间的相似度；在除第一主诊断文本之外的每个第一子诊断文本对应的多个相似度中确定最大相似度，确定最大相似度对应的第一子诊断文本和第二子诊断文本为配对子诊断文本。

本实施例一种优选的实施方式中，第一确定单元302还用于当第一子诊断文本的诊断名称与第二子诊断文本的诊断名称相同时，确定第一子诊断文本与第二子诊断文本之间的相似度为1；当第一子诊断文本的诊断名称与第二子诊断文本的诊断名称不相同时，判断第一子诊断文本的诊断名称对应的同义词库中是否存在与第二子诊断文本的诊断名称相同的诊断名称；当存在与第二子诊断文本的诊断名称相同的诊断名称时，确定第一子诊断文本与第二子诊断文本之间的相似度为1；当不存在与第二子诊断文本的诊断名称相同的诊断名称时，根据余弦相似度算法计算第一子诊断文本与第二子诊断文本之间的相似度。

本实施例一种优选的实施方式中，第一确定单元302具体用于对第一子诊断文本进行分词，得到第一子诊断文本的每个分词位置分别对应的原始分词，并确定原始分词对应的近义词；依次将第一子诊断文本的每个分词位置的每个备选词与其他分词位置的备选词组成的特征向量分别与第二子诊断文本对应的特征向量代入余弦相似度计算公式，计算得到多个相似度计算结果；其中，分词位置的备选词包括原始分词以及原始分词的近义词，第一子诊断文本的特征向量包括每个分词位置的备选词以及每个备选词对应的词频，第二子诊断文本对应的特征向量包括第二子诊断文本的每个分词以及每个分词对应的词频；将每个分词位置对应的多个相似度计算结果中相似度最大的计算结果对应的备选词确定为分词位置的选定词，并将最后一个确定的选定词所对应的相似度计算结果确定为第一子诊断文本与第二子诊断文本的相似度。

本实施例一种优选的实施方式中，若第一初步诊断文本存在无法配对的第一子诊断文本，则将无法配对的第一子诊断文本的预设权重作为第一初步诊断文本的第一向量值中的一个向量值；若第二初步诊断文本存在无法配对的第二子诊断文本，则将无法配对的第二子诊断文本赋值为0并作为第二初步诊断文本的第二向量值中的一个向量值。

本实施例一种优选的实施方式中，第一子诊断文本的预设权重根据第一子诊断文本在第一初步诊断文本中的排序位置而确定；第二子诊断文本的预设权重根据第二子诊断文本在第二初步诊断文本中的排序位置而确定。

本实施例一种优选的实施方式中，获取单元301还用于获取第一初步诊断文本对应的病历中主诉文本中的第一主要症状数据元，以及获取第二初步诊断文本对应的病历中主诉文本中的第二主要症状数据元；

计算单元304还用于根据余弦相似度算法计算第一主要症状数据元与第二主要症状数据元的第二余弦相似度。

本实施例一种优选的实施方式中，计算单元304具体用于若第一主要症状数据元及第二主要症状数据元的赋值结果均已被定义，则根据第一主要症状数据元的结果取值对第一主要症状数据元进行赋值，根据第二主要症状数据元的结果取值对第二主要症状数据元进行赋值；分别将第一主要症状数据元的赋值结果及第二主要症状数据元的赋值结果作为向量值，并分别代入余弦相似度计算公式，计算得到第二余弦相似度。

本实施例一种优选的实施方式中，计算单元304具体用于若第一主要症状数据元及第二主要症状数据元的赋值结果均未被定义，则分别对第一主要症状数据元及第二主要症状数据元进行分词，得到第一主要症状数据元对应的多个分词以及第二主要症状数据元对应的多个分词；分别将第一主要症状数据元对应的每个分词的词频以及第二主要症状数据元对应的每个分词的词频作为向量值，并分别代入余弦相似度计算公式，计算得到第二余弦相似度。

本实施例一种优选的实施方式中，第二初步诊断文本有多个，每个第二初步诊断文本分别对应一个病历；

第三确定单元305具体用于将第一余弦相似度与预设的初步诊断权重的乘积加上第二余弦相似度与预设的主要症状权重的乘积，计算得到第一初步诊断文本对应的病历与第二初步诊断文本对应的病历的病历相似度；其中，初步诊断权重与主要症状权重之和为1；在多个病历相似度中确定相似度最大的n个病历相似度，并分别将相似度最大的n个病历相似度中的每个病历相似度对应的病历确定为相似病历，其中n为大于或等于1的正整数。

本实施例中，计算机设备中各单元所执行的操作与前述图1至图2所示实施例中描述的类似，此处不再赘述。

本实施例中，第一确定单元302根据文本相似度算法确定出至少一对配对子诊断文本以及每一对配对子诊断文本分别对应的相似度，第二确定单元303将配对子诊断文本的相似度与配对子诊断文本中的第一子诊断文本的预设权重的乘积确定为第一初步诊断文本的第一向量值，将配对子诊断文本的相似度与配对子诊断文本中的第二子诊断文本的预设权重的乘积确定为第二初步诊断文本的第二向量值，计算单元304将第一向量值及第二向量值分别代入余弦相似度计算公式，计算得到第一初步诊断文本与第二初步诊断文本的第一余弦相似度，第三确定单元305在该第一余弦相似度满足预设条件时确定第一初步诊断文本对应的病历与第二初步诊断文本对应的病历为相似病历。本实施例的方法可以方便快捷地确定出相似病历，减小确定相似病历的难度，极大地提高了确定相似病历的方案的实用性。

下面对本申请实施例中的计算机设备进行描述，请参阅图4，本申请实施例中计算机设备一个实施例包括：

该计算机设备400可以包括一个或一个以上中央处理器(central processingunits，CPU)401和存储器405，该存储器405中存储有一个或一个以上的应用程序或数据。

其中，存储器405可以是易失性存储或持久存储。存储在存储器405的程序可以包括一个或一个以上模块，每个模块可以包括对计算机设备中的一系列指令操作。更进一步地，中央处理器401可以设置为与存储器405通信，在计算机设备400上执行存储器405中的一系列指令操作。

计算机设备400还可以包括一个或一个以上电源402，一个或一个以上有线或无线网络接口403，一个或一个以上输入输出接口404，和/或，一个或一个以上操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等。

该中央处理器401可以执行前述图1至图2所示实施例中计算机设备所执行的操作，具体此处不再赘述。

本申请实施例还提供了一种计算机存储介质，其中一个实施例包括：该计算机存储介质中存储有指令，该指令在计算机上执行时，使得该计算机执行前述图1至图2所示实施例中计算机设备所执行的操作。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种相似病历确定方法，其特征在于，包括：

2.根据权利要求1所述的相似病历确定方法，其特征在于，所述在所述多个第二子诊断文本中依次确定每个所述第一子诊断文本所配对的第二子诊断文本，包括：

3.根据权利要求2所述的相似病历确定方法，其特征在于，计算第一子诊断文本与第二子诊断文本之间的相似度的步骤包括：

当第一子诊断文本的诊断名称与第二子诊断文本的诊断名称相同时，确定第一子诊断文本与第二子诊断文本之间的相似度为1；

当第一子诊断文本的诊断名称与第二子诊断文本的诊断名称不相同时，判断第一子诊断文本的诊断名称对应的同义词库中是否存在与第二子诊断文本的诊断名称相同的诊断名称；

若存在，则确定第一子诊断文本与第二子诊断文本之间的相似度为1；

若不存在，则根据余弦相似度算法计算第一子诊断文本与第二子诊断文本之间的相似度。

4.根据权利要求3所述的相似病历确定方法，其特征在于，所述根据余弦相似度算法计算第一子诊断文本与第二子诊断文本之间的相似度，包括：

对第一子诊断文本进行分词，得到第一子诊断文本的每个分词位置分别对应的原始分词，并确定所述原始分词对应的近义词；

依次将第一子诊断文本的每个分词位置的每个备选词与其他分词位置的备选词组成的特征向量分别与第二子诊断文本对应的特征向量代入余弦相似度计算公式，计算得到多个相似度计算结果；

其中，分词位置的备选词包括所述原始分词以及所述原始分词的近义词，第一子诊断文本的特征向量包括每个分词位置的备选词以及每个备选词对应的词频，第二子诊断文本对应的特征向量包括第二子诊断文本的每个分词以及每个分词对应的词频；

将每个分词位置对应的多个相似度计算结果中相似度最大的计算结果对应的备选词确定为分词位置的选定词，并将最后一个确定的选定词所对应的相似度计算结果确定为第一子诊断文本与第二子诊断文本的相似度。

5.根据权利要求1所述的相似病历确定方法，其特征在于，若第一初步诊断文本存在无法配对的第一子诊断文本，则将所述无法配对的第一子诊断文本的预设权重作为所述第一初步诊断文本的第一向量值中的一个向量值；若第二初步诊断文本存在无法配对的第二子诊断文本，则将所述无法配对的第二子诊断文本赋值为0并作为所述第二初步诊断文本的第二向量值中的一个向量值。

6.根据权利要求5所述的相似病历确定方法，其特征在于，所述第一子诊断文本的预设权重根据所述第一子诊断文本在所述第一初步诊断文本中的排序位置而确定；所述第二子诊断文本的预设权重根据所述第二子诊断文本在所述第二初步诊断文本中的排序位置而确定。

7.根据权利要求1至6任一项所述的相似病历确定方法，其特征在于，所述方法还包括：

获取所述第一初步诊断文本对应的病历中主诉文本中的第一主要症状数据元，以及获取所述第二初步诊断文本对应的病历中主诉文本中的第二主要症状数据元；

根据余弦相似度算法计算所述第一主要症状数据元与所述第二主要症状数据元的第二余弦相似度。

8.根据权利要求7所述的相似病历确定方法，其特征在于，所述根据余弦相似度算法计算所述第一主要症状数据元与所述第二主要症状数据元的第二余弦相似度，包括：

若所述第一主要症状数据元及所述第二主要症状数据元的赋值结果均已被定义，则根据所述第一主要症状数据元的结果取值对所述第一主要症状数据元进行赋值，根据所述第二主要症状数据元的结果取值对所述第二主要症状数据元进行赋值；

分别将所述第一主要症状数据元的赋值结果及所述第二主要症状数据元的赋值结果作为向量值，并分别代入余弦相似度计算公式，计算得到所述第二余弦相似度。

9.根据权利要求7所述的相似病历确定方法，其特征在于，所述根据余弦相似度算法计算所述第一主要症状数据元与所述第二主要症状数据元的第二余弦相似度，包括：

若所述第一主要症状数据元及所述第二主要症状数据元的赋值结果均未被定义，则分别对所述第一主要症状数据元及所述第二主要症状数据元进行分词，得到所述第一主要症状数据元对应的多个分词以及所述第二主要症状数据元对应的多个分词；

分别将所述第一主要症状数据元对应的每个分词的词频以及所述第二主要症状数据元对应的每个分词的词频作为向量值，并分别代入余弦相似度计算公式，计算得到所述第二余弦相似度。

10.根据权利要求7所述的相似病历确定方法，其特征在于，所述第二初步诊断文本有多个，每个所述第二初步诊断文本分别对应一个病历；

所述当所述第一余弦相似度满足预设条件时，确定所述第一初步诊断文本对应的病历与所述第二初步诊断文本对应的病历为相似病历，包括：

将所述第一余弦相似度与预设的初步诊断权重的乘积加上所述第二余弦相似度与预设的主要症状权重的乘积，计算得到所述第一初步诊断文本对应的病历与所述第二初步诊断文本对应的病历的病历相似度；其中，所述初步诊断权重与所述主要症状权重之和为1；

在多个所述病历相似度中确定相似度最大的n个病历相似度，并分别将所述相似度最大的n个病历相似度中的每个病历相似度对应的病历确定为相似病历，其中n为大于或等于1的正整数。