CN111710431A

CN111710431A - 一种识别同义诊断名称的方法、装置、设备及存储介质

Info

Publication number: CN111710431A
Application number: CN202010553565.8A
Authority: CN
Inventors: 汪雪松; 干萌; 鹿晓亮; 贺志阳; 赵景鹤
Original assignee: Anhui Iflytek Medical Information Technology Co ltd
Current assignee: Anhui Iflytek Medical Information Technology Co ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-09-25
Anticipated expiration: 2040-06-17
Also published as: CN111710431B

Abstract

本申请提出一种识别同义诊断名称的方法、装置、设备及存储介质，该方法包括：从病历集合中提取得到患者病历序列；其中，每个患者病历序列由同一患者的病历构成；每个患者病历序列中的诊断名称为非目标诊断名称的病历，与其中的任一诊断名称为目标诊断名称的病历的症状词相同，并且诊断名称为所述目标诊断名称的病历的占比不小于预设阈值；对于各个患者病历序列中的每个非目标诊断名称，至少根据该非目标诊断名称对应的数量参数，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称。上述方法能够实现从病历集合中，自动识别出与目标诊断名称同义的诊断名称。

Description

一种识别同义诊断名称的方法、装置、设备及存储介质

技术领域

本申请涉及大数据技术领域，尤其涉及一种识别同义诊断名称的方法、装置、设备及存储介质。

背景技术

临床上，医生在撰写病历时，对于疾病的诊断名称记录并不规范，对应同一疾病会有多种不同的诊断名称记录。例如，“急性上呼吸道感染”、“急性上感”、“上感”、“感冒”这些诊断名称事实上表达的是同一种疾病，而不同的医生可能会将上述不同的诊断名称用于病历撰写，这在实践中是十分普遍，并且无可厚非的做法，并不会引起任何医学上的歧义。

当利用病历数据做分析、挖掘时，必须能够识别同义诊断名称，以便针对相同疾病的病历数据进行分析、挖掘。因此，识别病历数据中的同义诊断名称，是病历数据处理中的现实需求。

发明内容

基于上述需求，本申请提出一种识别同义诊断名称的方法、装置、设备及存储介质，能够从病历集合中识别出目标诊断名称的同义诊断名称。

一种识别同义诊断名称的方法，包括：

从病历集合中提取得到患者病历序列；其中，每个患者病历序列由同一患者的病历构成；每个患者病历序列中的诊断名称为非目标诊断名称的病历，与其中的任一诊断名称为目标诊断名称的病历的症状词相同，并且诊断名称为所述目标诊断名称的病历的占比不小于预设阈值；

对于各个患者病历序列中的每个非目标诊断名称，至少根据该非目标诊断名称对应的数量参数，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称；

其中，所述数量参数，是反映不同病历的诊断名称之间的语义关系的参数信息，其至少包括与所述非目标诊断名称对应的病历和/或患者病历序列的数量、和/或与所述非目标诊断名称对应的患者病历序列中的诊断名称种类的数量。

一种识别同义诊断名称的装置，包括：

病历提取单元，用于从病历集合中提取得到患者病历序列；其中，每个患者病历序列由同一患者的病历构成；每个患者病历序列中的诊断名称为非目标诊断名称的病历，与其中的任一诊断名称为目标诊断名称的病历的症状词相同，并且诊断名称为所述目标诊断名称的病历的占比不小于预设阈值；

判断处理单元，用于对于各个患者病历序列中的每个非目标诊断名称，至少根据该非目标诊断名称对应的数量参数，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称；

一种识别同义诊断名称的设备，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储计算机程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述的识别同义诊断名称的方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的识别同义诊断名称的方法。

本申请提出的识别同义诊断名称的方法，从病历集合中提取患者病历序列，在每个患者病历序列中，诊断名称为非目标诊断名称的病历，与其中的任一诊断名称为目标诊断名称的病历的症状词相同，并且诊断名称为所述目标诊断名称的病历的占比不小于预设阈值。由于患者病历序列中的诊断名称为非目标诊断名称的病历中的症状词，与诊断名称为目标诊断名称的病历中的症状词相同，并且在患者病历序列中，大多数都是诊断名称为目标诊断名称的，因此在上述患者病历序列中，非目标诊断名称有很大概率是目标诊断名称的同义诊断名称。

进一步的，本申请实施例对于上述患者病历序列中的每个非目标诊断名称，分别根据与该非目标诊断名称对应的数量参数，来判断该非目标诊断名称是否为目标诊断名称的同义诊断名称。上述的数量参数为能够反映不同病历的诊断名称之间的语义关系的参数信息。

本申请实施例通过对病历集合中的病历进行归类整理，以及结合能够反映不同病历的诊断名称之间的语义关系的参数信息，来识别归类整理后的患者病历序列中的非目标诊断名称是否为目标诊断名称的同义诊断名称，能够实现自动化的同义诊断名称识别。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种识别同义诊断名称的方法的流程示意图；

图2是本申请实施例提供的另一种识别同义诊断名称的方法的流程示意图；

图3是本申请实施例提供的又一种识别同义诊断名称的方法的流程示意图；

图4是本申请实施例提供的一种识别同义诊断名称的装置的结构示意图；

图5是本申请实施例提供的一种识别同义诊断名称的设备的结构示意图。

具体实施方式

本申请实施例适用于识别不同病历中的同义诊断名称的应用场景，采用本申请实施例技术方案，通过对病历集合中的病历进行处理，能够识别病历的诊断名称是否为同义诊断名称，从而实现从病历集合中识别同义诊断名称的目的。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1所示，本申请实施例提出的识别同义诊断名称的方法，包括：

S101、从病历集合中提取得到患者病历序列。

其中，每个患者病历序列由同一患者的病历构成；每个患者病历序列中的诊断名称为非目标诊断名称的病历，与其中的任一诊断名称为目标诊断名称的病历的症状词相同，并且诊断名称为所述目标诊断名称的病历的占比不小于预设阈值。

具体的，上述的病历集合，是由患者病历组成的集合。该病历集合可以通过从授权的医院、疾控中心、疾病研究中心等机构获取一定时间段内的患者病历数据而组建，也可以直接从数据库中读取得到。可选的，由于患者在同一个治疗周期内的病情具有关联性和可比性，因此，本申请实施例分别获取患者一个治疗周期内的病历数据，组成病历集合。

在上述病历集合中，包含大量的不同患者的、在不同时间点或不同医疗机构创建的病历数据。为了便于对上述病历集合中的病历进行处理，本申请实施例以患者为依据，对上述病历集合中的病历进行整理。

示例性的，对于上述病历集合中的同一患者的所有病历，按照时间顺序进行排序，得到与该患者对应的病历序列。

进一步的，对于与每位患者对应的病历序列，本申请实施例进一步对其中的病历进行筛选，使得最终的患者病历序列中的诊断名称为目标诊断名称的病历的占比不小于预设阈值，并且，最终的患者病历序列中的诊断名称为非目标诊断名称的病历，与该患者病历序列中的任一诊断名称为目标诊断名称的病历中的症状词相同。

上述的预设阈值，理论上是不小于50％的数值，例如可以是60％、70％、80％等，使得在患者病历序列中，诊断名称为目标诊断名称的病历占大多数，并且该阈值设置得越大，对于非目标诊断名称是否为目标诊断名称的同义诊断名称的识别更有利。

上述的目标诊断名称，是指待识别与其同义的诊断名称的目标诊断名称。理论上，任意一个诊断名称，均可以作为上述的目标诊断名称。本申请实施例所提出的技术方案，能够从上述的病历集合中出现的所有诊断名称中，识别出与该目标诊断名称同义的诊断名称。

作为一种示例性的实现方式，本申请实施例可以将上述的病历集合中的任意病历的诊断名称作为目标诊断名称。进一步的，本申请实施例将上述的病历集合中的出现次数最多的诊断名称，作为目标诊断名称，以便于更快速、更准确地从上述的病历集合中识别出与该目标诊断名称同义的诊断名称。

通常情况下，在上述的病历集合中出现次数最多的诊断名称，是医生使用较多的诊断名称，也是相对来说较规范的诊断名称。

上述的每个患者病历序列中的诊断名称为非目标诊断名称的病历，与其中任一诊断名称为目标诊断名称的病历的症状词相同，是指在每个患者病历序列中，诊断名称为非目标诊断名称的病历中的全部症状词，与该患者病历序列中的任意一个诊断名称为目标诊断名称的病历中的全部症状词相同。

上述的诊断名称为所述目标诊断名称的病历的占比不小于预设阈值，是指在患者病历序列中，诊断名称为所述目标诊断名称的病历的数量，与该患者病历序列中的所有病历的数量的比值，不小于预设阈值。

按照上述规则从病历集合中提取得到的患者病历序列，其中的诊断名称的目标诊断名称的病历占大多数，而诊断名称为非目标诊断名称的病历占少数。

对于同一患者来说，在某一确定的时间段内的治疗过程中，多次被诊断为患有目标诊断名称的疾病，然而又有个别时候被确诊为患有非目标诊断名称的疾病的情况发生的概率较低，一般情况下在一个治疗过程中，患者只患一种疾病，只会针对同一种疾病进行治疗。同时，在患者病历序列中，诊断名称为非目标诊断名称的病历中的症状词与诊断名称为目标诊断名称的病历中的症状词完全相同，这时候，诊断名称为非目标诊断名称的疾病，有很大概率与诊断名称为目标诊断名称的疾病是同一疾病。基于上述临床经验，在同一患者治疗过程中出现的少数非目标诊断名称，很有可能是因为同一医生手误，或者是不同医生对该目标诊断名称的疾病的称呼习惯不同所导致的，此时可以重点分析在该患者病历序列中的非目标诊断名称，是否为目标诊断名称的同义诊断名称。

S102、对于各个患者病历序列中的每个非目标诊断名称，至少根据该非目标诊断名称对应的数量参数，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称。

其中，该非目标诊断名称对应的数量参数，至少包括与该非目标诊断名称对应的病历的数量、和/或患者病历序列的数量、和/或患者病历序列中的诊断名称种类的数量。该非目标诊断名称对应的数量参数，是至少基于临床患者病情演化规律而确定的、反映不同病历的诊断名称之间的语义关系的参数信息。

本申请实施例通过总结临床病历记录规律，以及临床上的患者病情演化规律，确定出能够反映同一患者的不同病历的诊断名称的语义是否相同，即反映同一患者的不同病历的诊断名称是否为同义诊断名称的参数信息。该参数信息以与诊断名称相关的病历数量、患者病历序列数量、病历序列中的诊断名称种类数量等与数量相关的参数为主，因此称为数量参数。

上述的与该非目标诊断名称对应的病历或患者病历序列，以及上述的与该非目标诊断名称对应的病历或者患者病历序列，具体是指包含该非目标诊断名称的病历或者患者病历序列。上述的与该非目标诊断名称对应的患者病历序列中的诊断名称种类的数量，是指包含该非目标诊断名称的患者病历序列中所包含的不同诊断名称的种类的数量。

作为示例性的实现方式，在本申请实施例中，上述的该非目标诊断名称对应的数量参数，至少包括包含该非目标诊断名称的患者病历序列的数量，和/或包含该非目标诊断名称的每个患者病历序列中的、诊断名称为该非目标诊断名称的病历的数量，和/或该非目标诊断名称所在的患者病历序列中包含的诊断名称的种类数量。

具体的，将各个患者病历序列中的非目标诊断名称进行汇总，即可得到非目标诊断名称集合，对于该非目标诊断名称集合中的任意一个非目标诊断名称，均通过上述步骤S102的处理，识别其是否为上述目标诊断名称的同义诊断名称。

可以理解，从各个患者病历序列中提取得到的非目标诊断名称，必定是上述的病历集合中的所有病历的诊断名称组成的诊断名称集合中的成员。因此，通过识别上述的非目标诊断名称集合中的非目标诊断名称是否为上述的目标诊断名称的同义诊断名称，实际上实现了识别上述病历集合中的部分诊断名称是否为目标诊断名称的同义诊断名称，也就是实现了从上述的病历集合中识别目标诊断名称的同义诊断名称。

为了分析上述的非目标诊断名称集合中的每个非目标诊断名称是否为目标诊断名称的同义诊断名称，本申请实施例将包含该非目标诊断名称的患者病历序列的数量，和/或每个包含该非目标诊断名称的患者病历序列中的诊断名称为该非目标诊断名称的病历的数量，和/或该非目标诊断名称所在的患者病历序列中包含的不同种类的诊断名称的数量，共同作为该非目标诊断名称对应的数量参数，通过该数量参数，判断该非目标诊断名称是否为上述目标诊断名称的同义诊断名称。

在本申请实施例中定义，当患者病历序列中包含诊断名称为上述非目标诊断名称的病历时，则认为在该患者病历序列中包含该非目标诊断名称；同理，当患者病历序列中包含诊断名称为其他诊断名称(例如目标诊断名称)的病历时，则认为在该患者病历序列中包含该其他诊断名称(例如目标诊断名称)。

则，上述的包含该非目标诊断名称的患者病历序列的数量，是指在所有的患者病历序列中，包含诊断名称为该非目标诊断名称的病历的患者病历序列的数量。

假设该非目标诊断名称是与目标诊断名称实质性不同的疾病名称，则诊断名称为该非目标诊断名称的病历，与诊断名称为目标诊断名称的病历的症状词相同的概率很小。

由于在步骤S101中已经限定，在患者病历序列中，诊断名称为非目标诊断名称的病历，与其中的任一诊断名称为目标诊断名称的病历的症状词相同。因此，如果该非目标诊断名称与目标诊断名称是实质性不同的疾病名称，则在临床上，这种情况反映的是患者病情过渡期，即患者疾病在治疗过程中演化成其他疾病，但是根据临床经验，这种过渡期很短暂，而且患者发生上述过渡的情况本身较少，因此，在各个患者病历序列中，包含该非目标诊断名称的患者病历序列的数量应该很少，甚至没有。

相反，通常情况下，只有当该非目标诊断名称与该目标诊断名称是同义诊断名称时，诊断名称为该非目标诊断名称的病历，与诊断名称为目标诊断名称的病历的症状词相同的概率较大。因此，在上述的各个患者病历序列中，包含该非目标诊断名称的患者病历序列的数量应该相对较多。

因此，通过判断在上述的各个患者病历序列中，包含该非目标诊断名称的患者病历序列的数量是否较多，例如是否超过一定的数量阈值，可以确定该非目标诊断名称是否为目标诊断名称的同义诊断名称。

同理，在步骤S101中已经限定，在患者病历序列中，诊断名称为非目标诊断名称的病历，与其中的任一诊断名称为目标诊断名称的病历的症状词相同的前提下，假设该非目标诊断名称与目标诊断名称是实质上不同的疾病名称，那么在某一个患者病历序列中，诊断名称为该非目标诊断名称的病历的数量应当很少，这些非目标诊断名称的疾病表示了患者疾病过渡期，而在临床上，患者疾病过渡期是比较短暂的，因此在某一患者病历序列中，包含的与目标诊断名称实质不同的非目标诊断名称的病历应当很少。

相比而言，如果该非目标诊断名称是目标诊断名称的同义诊断名称，则同一医生或不同医生将同一疾病记录为非目标诊断名称的疾病，或者是目标诊断名称的疾病的情况更加常见，因此在同一患者病历序列中，诊断名称为该非目标诊断名称的病历的数量相对较多。

因此，通过判断在包含该非目标诊断名称的每个患者病历序列中的诊断名称为该非目标诊断名称的病历的数量是否较多，例如是否超过一定的数量阈值，可以确定该非目标诊断名称是否为该目标诊断名称的同义诊断名称。

进一步的，在同一个患者病历序列中，如果其中包含的诊断名称的种类数量较多，也就是其中包含多种不同的诊断名称，则认为该患者病历序列的诊断名称纯度较低；相反，如果其中包含的诊断名称种类数量较少，则认为该患者病历序列的诊断名称纯度较高。

在步骤S101中已限定患者病历序列中诊断名称为目标诊断名称的病历的占比不小于预设阈值的情况下，假设该非目标诊断名称所在的患者病历序列中，只包含少数的不同种类的诊断名称，例如只有目标诊断名称和该非目标诊断名称，那么该非目标诊断名称是目标诊断名称的同义诊断名称的概率较大，此时该非目标诊断名称很可能是目标诊断名称的疾病的不同文字表述；相反，如果该非目标诊断名称所在的患者病历序列中，既包含目标诊断名称，和该非目标诊断名称，还包含多种其他的非目标诊断名称，则该非目标诊断名称与目标诊断名称同义的概率较小，此时该非目标诊断名称很可能是患者疾病演化成其他疾病。

因此，根据该非目标诊断名称所在的患者病历序列中包含的诊断名称的种类数量，可以判断该非目标诊断名称是否为目标诊断名称的同义诊断名称。

基于上述分析可以确定，与非目标诊断名称对应的数量参数中的每一项，均可以用于判断非目标诊断名称是否为目标诊断名称的同义诊断名称。本申请实施例利用非目标诊断名称对应的数量参数中的任意一项或多项组合，来识别非目标诊断名称是否为目标诊断名称的同义诊断名称。

可以理解，本申请实施例提出的识别同义诊断名称的方法，从病历集合中提取患者病历序列，在每个患者病历序列中，诊断名称为非目标诊断名称的病历，与其中的任一诊断名称为目标诊断名称的病历的症状词相同，并且诊断名称为所述目标诊断名称的病历的占比不小于预设阈值。由于患者病历序列中的诊断名称为非目标诊断名称的病历中的症状词，与诊断名称为目标诊断名称的病历中的症状词相同，并且在患者病历序列中，大多数都是诊断名称为目标诊断名称的，因此在上述患者病历序列中，非目标诊断名称有很大概率是目标诊断名称的同义诊断名称。

同时，由于上述的数量参数信息是至少基于临床患者病情演化规律而确定的、反映不同病历的诊断名称之间的语义关系的参数信息，因此，借助与非目标诊断名称对应的数量参数信息来识别其是否为目标诊断名称的同义诊断名称，将临床经验应用于同义诊断名称识别，保证了同义诊断名称识别结果的客观性和准确性。

作为一种示例性的实现方式，本申请实施例提出，上述的至少根据该非目标诊断名称对应的数量参数，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称，包括：

根据该非目标诊断名称对应的数量参数，和该非目标诊断名称与所述目标诊断名称的字符内容，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称。

具体的，该非目标诊断名称与所述目标诊断名称的字符内容，是指该非目标诊断名称，与该目标诊断名称分别包含的全部字符。

在临床上，对于类似或相同疾病的诊断名称的命名通常采用“修饰词+器官+症状”等形式表示，基于上述诊断名称命名规律，如果一个非目标诊断名称与一个目标诊断名称的字符内容较相似，则两者表示同义诊断名称的概率较大；相反，如果两者字符内容差异较大，则两者表示同义诊断名称的概率较小。

因此，将非目标诊断名称与目标诊断名称的字符内容进行对比，可以用于判断非目标诊断名称与目标诊断名称是否为同义诊断名称。

本申请实施例将该非目标诊断名称与目标诊断名称的字符内容，以及该非目标诊断名称对应的数量参数，共同用于判断该非目标诊断名称是否为上述目标诊断名称的同义诊断名称。

将上述的数量参数和字符内容两种信息共同用于判断非目标诊断名称是否为目标诊断名称的同义诊断名称，有利于提升判断准确度。

作为一种示例性的实现方式，本申请实施例提出，上述的根据该非目标诊断名称对应的数量参数，和该非目标诊断名称与所述目标诊断名称的字符内容，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称，具体包括如下S1和S2两步骤：

S1、根据该非目标诊断名称对应的数量参数，和该非目标诊断名称与所述目标诊断名称的字符内容，评估将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果。

其中，所述替换效果表示所述目标诊断名称在所述患者病历序列中所占的比例的提升效果。

示例性的，将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称，可以通过将各个患者病历序列中的该非目标诊断名称修改为所述目标诊断名称而实现。

上述的将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果，可以通过将各个患者病历序列中的该非目标诊断名称修改为目标诊断名称时的修改复杂度，以及将各个患者病历序列中的该非目标诊断名称修改为目标诊断名称后，所述目标诊断名称在所述患者病历序列中所占的比例的变化量，而确定。

可以理解，将各个患者病历序列中的该非目标诊断名称修改为目标诊断名称时的修改复杂度越低，同时，将各个患者病历序列中的该非目标诊断名称修改为目标诊断名称后，所述目标诊断名称在所述患者病历序列中所占的比例的变化量越大，则所述目标诊断名称在所述患者病历序列中所占的比例的提升效果更好，也就是将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果更好。

相反，将各个患者病历序列中的该非目标诊断名称修改为目标诊断名称时的修改复杂度越高，同时，将各个患者病历序列中的该非目标诊断名称修改为目标诊断名称后，所述目标诊断名称在所述患者病历序列中所占的比例的变化量越小，则所述目标诊断名称在所述患者病历序列中所占的比例的提升效果越差，也就是将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果越差。

示例性的，通过对比该非目标诊断名称与该目标诊断名称的字符内容的差异，可以确定将该非目标诊断名称修改为该目标诊断名称的复杂度。

同时，根据该非目标诊断名称对应的数量参数，例如包含该非目标诊断名称的患者病历序列的数量，和/或包含该非目标诊断名称的每个患者病历序列中的、诊断名称为该非目标诊断名称的病历的数量，和/或该非目标诊断名称所在的患者病历序列中包含的不同种类的诊断名称的数量，可以确定将各个患者病历序列中的该非目标诊断名称修改为目标诊断名称后，所述目标诊断名称在所述患者病历序列中所占的比例的变化量。

S2、根据将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称。

可以理解，在通常情况下，同一患者在同一病程内多次看病过程中，多数病历的诊断名称相同，而且病历症状也应当相同。在某次诊断过程中，在病历中记录了不同的诊断名称，则很可能是同一医生简写，或者是不同医生对疾病的命名习惯不同所导致的，事实上是同一种疾病。

在上述场景下，如果在患者病历序列中偶尔出现的非目标诊断名称，是目标诊断名称的同义诊断名称，那么将患者病历序列中的非目标诊断名称替换为目标诊断名称时，该目标诊断名称在患者病历序列中的占比会有显著提升，同时，将非目标诊断名称修改为目标诊断名称的改动较小，也就是修改复杂度较低。

在上述步骤S1中计算得到的将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果，直接反应了将患者病历序列中的非目标诊断名称替换为目标诊断名称后，该目标诊断名称在患者病历序列中的占比的提升效果，以及，将非目标诊断名称修改为目标诊断名称的修改复杂度。

因此，根据将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果，可以反向推断该非目标诊断名称是否为上述目标诊断名称的同义诊断名称。

示例性的，假设将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果较好，则可以认为该非目标诊断名称是上述目标诊断名称的同义诊断名称；相反，假设将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果较差，则可以认为该非目标诊断名称不是上述目标诊断名称的同义诊断名称。

作为一种可选的实现方式，上述的步骤S1，具体可以通过如下步骤SS1～SS3的处理来实现：

SS1、确定包含该非目标诊断名称的各个患者病历序列，作为参考患者病历序列。

具体的，在从病历集合中提取得到的各个患者病历序列中，并不是所有的患者病历序列都包含该非目标诊断名称，而不包含该非目标诊断名称的患者病历序列，对于判断该非目标诊断名称是否为目标诊断名称的同义诊断名称没有参考价值，因此，本申请实施例从提取得到的所有患者病历序列中，筛选出包含该非目标诊断名称的各个患者病历序列，分别作为参考患者病历序列。

各个参考患者病历序列，分别用于判断该非目标诊断名称是否为目标诊断名称的同义诊断名称。

SS2、根据各个参考患者病历序列中包含的诊断名称的种类数量，分别计算将各个参考患者病历序列中的该非目标诊断名称，替换为所述目标诊断名称后，各个参考患者病历序列的诊断名称纯度的变化量，以及，根据该非目标诊断名称与所述目标诊断名称的字符内容，计算将该非目标诊断名称修改为所述目标诊断名称的复杂度。

其中，所述参考患者病历序列的诊断名称纯度，以参考患者病历序列中的诊断名称种类数量的倒数表示。

示例性的，假设该非目标诊断名称用candi表示，上述的目标诊断名称用d表示，包含该非目标诊断名称candi的参考患者病历序列用i表示。

则，参考患者病历序列i的诊断名称纯度，用i中包含的诊断名称种类的倒数表示，即

可以理解，当将参考患者病历序列i中的candi替换为d时，i中包含的诊断名称种类数量会减少，此时，参考患者病历序列i中的诊断名称纯度会相应增加，参考患者病历序列i的诊断名称纯度增加量可以表示如下：

对于每一个参考患者病历序列i，均可以通过上述公式计算将其中的该非目标诊断名称candi替换为目标诊断名称d后的诊断名称纯度变化量。

根据上述公式可以理解，参考患者病历序列i中包含的诊断名称种类数量越多，经过上述的替换处理后，该参考患者病历序列i的诊断名称纯度增加量越小；参考患者病历序列i中包含的诊断名称种类数量越少，经过上述的替换处理后，该参考患者病历序列i的诊断名称纯度增加量越大。各个参考患者病历序列i的诊断名称纯度的变化量，直接体现了将各个参考患者病历序列i中的非目标诊断名称candi替换为d后，d在各个患者病历序列中所占的比例的提升量。

另一方面，本申请实施例还根据该非目标诊断名称candi与所述目标诊断名称d的字符内容，计算将该非目标诊断名称candi修改为所述目标诊断名称d的复杂度。

具体的，通过比较该非目标诊断名称candi与目标诊断名称d的字符差异，可以确定将candi修改为d的复杂度。两者的字符差异越大，则修改复杂度越高；两者的字符差异越小，则修改复杂度越低。

作为示例性的实现方式，本申请实施例根据该非目标诊断名称candi与目标诊断名称d的文本结构的差异，分情况地计算将该非目标诊断名称candi修改为目标诊断名称d的复杂度。

如果该非目标诊断名称candi和所述目标诊断名称d的文本结构相同，则根据该非目标诊断名称candi和所述目标诊断名称d的各个构成元素的差异，确定将该非目标诊断名称candi修改为所述目标诊断名称d的复杂度；

如果该非目标诊断名称candi与所述目标诊断名称d的文本结构不同，则确定将该非目标诊断名称candi修改为所述目标诊断名称d的复杂度为设定的复杂度。

具体的，本申请实施例按照如下公式来计算将非目标诊断名称candi修改为目标诊断名称d的修改复杂度AlterComplexity(candi→d)：

通常情况下，诊断名称的文本结构具体包括以下三种元素：病症元素、器官元素、修饰词。

其中，

修饰词是医学上用于对疾病做出某些角度的限定的词汇，如“急性”、“慢性”、“病毒性”、“婴幼儿”等。

器官元素是描述人体器官的词汇，如“脑”、“心”、“肺”等。

病症元素是描述疾病核心特点的词汇，例如“瘫痪”、“炎症”等。

在临床上，有些诊断名是“修饰词+器官元素+病症元素”的文本结构形式的，例如“急性呼吸道衰竭”；但有些诊断名并非如此，例如“发烧”。

如果candi与d至少一个不是“修饰词+器官元素+病症元素”的构成形式，则设定将candi修改为d的复杂度为默认值0.5。这是因为，另一种情况下复杂度取值在0到1之间。若二者都是，则依前述公式，分别计算两者各个构成元素的差异，从而确定修改复杂度。

举例来说：假设d是“脑性瘫痪”。则若candi是“癫痫”，则将candi修改为d的复杂度取默认值0.5；若candi是“脑性麻痹”，则病症元素“瘫痪”与“麻痹”不同、器官元素“脑”相同、修饰词均为“空”，因此将candi修改为d的复杂度为1/3；若candi是“先天性脑性瘫痪”，则病症元素“瘫痪”相同、器官元素“脑”相同、修饰词“空”与“先天性”不同，因此将candi修改为d的复杂度为1/3。

需要特别强调的是：如果candi与d在这三类元素上有不同，并不必然意味着二者是不同疾病。举例来说，“急性上呼吸道感染”与“上呼吸道感染”的修饰词不同，分别为“急性”与“空”，但实际上不存在“慢性上呼吸道感染”，上呼吸道感染一定是急性的，因此“急性上呼吸道感染”与“上呼吸道感染”本质上应当是同一种疾病；而“下肢擦伤”与“腿部擦伤”，器官元素只是文字表述不同、实际涵义相同，等等。总之，医学上疾病的表述五花八门，这三类元素不同并不一定就是不同疾病。但是，显然若这三类元素差异越小、即修改复杂度越小，同等其它条件下，更可能是同义词。

将该非目标诊断名称candi修改为目标诊断名称d的复杂度，能够反映将参考患者病历序列i中的非目标诊断名称candi替换为目标诊断名称d的工作量。

SS3、根据各个参考患者病历序列的诊断名称纯度的变化量、将该非目标诊断名称修改为所述目标诊断名称的复杂度、每个参考患者病历序列中的诊断名称为该非目标诊断名称的病历的数量，和所述参考患者病历序列的数量，计算确定将该非目标诊断名称替换为所述目标诊断名称的替换效果评估分。

具体的，本申请实施例根据每个参考患者病历序列中的诊断名称为该非目标诊断名称的病历的数量，计算确定每个参考患者病历序列中的诊断名称为该非目标诊断名称的病历的数量占比，以及，根据上述的参考患者病历序列的数量，计算确定在所有的患者病历序列中，参考患者病历序列的数量占比。

其中，上述的每个参考患者病历序列中的诊断名称为该非目标诊断名称candi的病历数量占比，是指每个参考患者病历序列中的、诊断名称为该非目标诊断名称candi的病历的数量，与参考患者病历序列中的所有病历的数量的比值。

在每个参考患者病历序列中，诊断名称为该非目标诊断名称candi的病历数量占比，与参考患者病历序列中的、诊断名称为该非目标诊断名称candi的病历的数量成正比。

前文已经论述，基于临床经验，如果该非目标诊断名称candi是目标诊断名称d的同义诊断名称，那么在某个参考患者病历序列中，诊断名称是该非目标诊断名称candi的病历的数量相对较多，也就是诊断名称是该非目标诊断名称candi的病历的占比越高。

因此，通过计算在参考患者病历序列中的诊断名称为该非目标诊断名称candi的病历数量占比，可以反映该非目标诊断名称candi与目标诊断名称d是否为同义诊断名称。

同理，上述的在所有的患者病历序列中，参考患者病历序列的数量占比，是指在从上述病历集合中提取得到的所有患者病历序列中，参考患者病历序列的数量与所有患者病历序列的数量的比值。

当上述的参考患者病历序列的数量确定时，计算参考患者病历序列的数量与全体患者病历序列的数量的比值，即可得到参考患者病历序列的数量占比。

同理，在全体患者病历序列中，参考患者病历序列的数量占比，与包含该非目标诊断名称candi的患者病历序列的数量成正比。

前文已经论述，基于临床经验，如果该非目标诊断名称candi是目标诊断名称d的同义诊断名称，那么包含诊断名称为该非目标诊断名称candi的患者病历序列的数量相对较多，也就是参考患者病历序列的数量占比较高。

因此，通过计算在全体患者病历序列中的参考患者病历序列的数量占比，可以反映该非目标诊断名称candi与目标诊断名称d是否为同义诊断名称。

综合以上各项，本申请实施例按照如下公式，计算得到将该非目标诊断名称candi替换为目标诊断名称d的替换效果评估分Score(candi→d)：

其中，α、β、γ、δ均为运算系数，其具体取值可根据经验或结合实际情况而设定。

N表示上述的参考患者病历序列的总量；AlterRatio(i，candi→d)表示在某个参考患者病历序列i中，将非目标诊断名称candi替换为目标诊断名称d所涉及的病历数量，其值也就是参考患者病历序列中的诊断名称为该非目标诊断名称的病历的数量；CoverRatio(candi→d)表示将非目标诊断名称candi替换为目标诊断名称d所涉及的参考患者病历序列的数量，其值也就是包含该非目标诊断名称candi的参考患者病历序列的数量。

上述的替换效果评估分，能够直接表示将从病历集合中提取得到的各个患者病历序列中的该非目标诊断名称candi替换为目标诊断名称d的替换效果，该替换效果评估分越高，说明将各个患者病历序列中的该非目标诊断名称candi替换为目标诊断名称d的替换效果越好，也就说明将各个患者病历序列中的该非目标诊断名称candi替换为目标诊断名称d，对于该目标诊断名称d在各个患者病历序列中的占比提升越大，也就反映了该非目标诊断名称candi与目标诊断名称d是同义诊断名称的概率越大。

因此，本申请实施例设置替换效果评估分阈值，用于确定非目标诊断名称candi与目标诊断名称d是否为同义诊断名称。

示例性的，当计算确定将各个患者病历序列中的非目标诊断名称candi替换为目标诊断名称d的替换效果评分不小于预设的替换效果评分阈值时，认为该非目标诊断名称candi与目标诊断名称d是同义诊断名称，相反，则认为该非目标诊断名称candi与目标诊断名称d不是同义诊断名称。

本申请实施例的上述处理，可以将临床经验和患者病情演化规律，用于病历数据分析，将临床经验和患者病情演化规律通过数据运算进行表示，并直接用于同义诊断名称的判断，实现了理论与数据相结合，能够至少确定病历集合中包含的部分非目标诊断名称，是否为目标诊断名称的同义诊断名称，也就是实现了从病历集合中识别目标诊断名称的同义诊断名称。

另一方面，本申请实施例还从另一角度分析上述的病历集合中出现的非目标诊断名称是否为目标诊断名称的同义诊断名称，具体处理内容如图2所示：

S201、获取所述病历集合中的各个病历的诊断名称，组成诊断名称集合。

具体的，将上述病历集合中的各个病历上记录的诊断名称进行汇总，即可得到诊断名称集合candidate。

在该诊断名称集合中candidate，包含了上述病历集合中出现的所有诊断名称。

S202、计算所述诊断名称集合中的每个诊断名称与所述目标诊断名称的字符相似度。

具体的，通过将上述诊断名称集合candidate中的每个诊断名称candi的字符，与目标诊断名称d中的字符进行对比，即可确定每个诊断名称candi与该目标诊断名称d的字符相似度。

S203、根据所述诊断名称集合中的每个诊断名称与所述目标诊断名称的字符相似度，从所述诊断名称集合中识别所述目标诊断名称的同义诊断名称。

示例性的，本申请实施例预先设置字符相似度阈值，当诊断名称集合candidate中的诊断名称candi与上述目标诊断名称d的字符相似度不小于该字符相似度阈值时，确定该诊断名称candi为目标诊断名称d的同义诊断名称；否则，确定该诊断名称candi不是目标诊断名称d的同义诊断名称。

进一步的，参见图3所示，本申请实施例还提出，在计算诊断名称集合中的每个诊断名称与目标诊断名称的字符相似度之前，先执行步骤S302：

S302、从所述诊断名称集合中筛选其医学相关因素与所述目标诊断名称的医学相关因素相关的诊断名称，组成筛选后的诊断名称集合；

其中，所述医学因素至少包括症状、对症药品和发病时间。

具体的，上述的医学相关因素，是指与诊断名称对应的病历中所记载的医学相关信息，在本申请实施例中，上述医学相关因素包括症状、对症药品和发病时间。

其中，上述的症状，是与诊断名称对应的病历中所记载的症状词；上述的对症药品，是指与诊断名称对应的病历中所记载的治疗用药品；上述的发病时间，是指与诊断名称对应的病历中所记载的发病时间。

上述的与诊断名称对应的病历，是指上述的病历集合中所包含的、其中记载的诊断名称为该诊断名称的各个病历。

在本申请实施例中，诊断名称的医学相关因素与目标诊断名称的医学相关因素相关，是指诊断名称的每一项医学相关因素，与目标诊断名称的对应项医学相关因素的差异，均小于相应的差异阈值，也就是诊断名称的每一项医学相关因素，与目标诊断名称的对应项医学相关因素的相似度，均不小于相应的相似度阈值。

经过上述筛选，在上述的诊断名称集合中，只保留与目标诊断名称的医学相关因素相关的诊断名称，后续步骤S303、S304的处理，都是基于经过上述筛选处理后的诊断名称集合进行处理，可以为后续的同义诊断名称识别提供便利。

图3所示的方法实施例中的步骤S301、S303、S304分别对应图2所示的方法实施例中的步骤S201、S202、S203，其具体内容请参见图2所示的方法实施例的内容，此处不再赘述。

基于上述的诊断名称筛选处理，作为一种可选的实现方式，在本申请实施例中，上述的计算诊断名称集合candidate中的每个诊断名称candi与目标诊断名称d的字符相似度，包括：

对于诊断名称集合candidate中的每个诊断名称，分别按照如下处理，计算其与目标诊断名称d的字符相似度：

如果该诊断名称candi的所有字符均包含于目标诊断名称d中，或者目标诊断名称d中的所有字符，均包含于该诊断名称candi中，则确定该诊断名称与该目标诊断名称d的字符相似度为1；

否则，将共同出现于该诊断名称candi和所述目标诊断名称d中的字符的数量，与该诊断名称candi和所述目标诊断名称d中出现的所有字符的数量的比值，作为该诊断名称candi与所述目标诊断名称d的字符相似度。

具体的，本申请实施例按照如下公式，计算诊断名称candi与目标诊断名称d的字符相似度CharSimilarity(d，candi)：

其中，CharSet(candi)表示诊断名称candi的所有字符的集合，CharSet(d)表示目标诊断名称d的所有字符的集合。

需要特别说明的是，本申请实施例设定，当诊断名称candi与目标诊断名称d的字符出现全包含关系时，认为两者的字符相似度为1，也就是认为两者是相同的诊断名称。这是因为，由于本申请实施例已经预先对诊断名称集合中的诊断名称进行筛选，使得保留的诊断名称的医学相关因素，与目标诊断名称的医学相关因素相关，在该前提下，一个诊断名称的所有字符包含于另一个诊断名称中，一般情况下是出现在诊断名称缩写情况中。例如“急性上感”与“急性上呼吸道感染”、“脑瘫”与“脑性瘫痪”等，两者字符出现全包含关系。此时，两种字面不同的诊断名称，实际上是相同语义的诊断名称，因此可以直接将两者的相似度设定为1。

上述设定不同于常规的字符相似度计算规则，而是以更加符合临床事实的规则，来度量两种不同诊断名称的字符相似度，其度量结果更加符合医学规律。

作为一种示例性的实现方式，上述的从诊断名称集合中筛选与目标诊断名称的医学相关因素相关的诊断名称，包括：

首先，至少计算所述目标诊断名称，与所述诊断名称集合中的每个诊断名称的症状相似度，和/或对症药品相似度，和/或发病时间相似度；

然后，至少根据所述目标诊断名称，与所述诊断名称集合中的每个诊断名称的症状相似度，和/或对症药品相似度，和/或发病时间相似度，从所述诊断名称集合中，筛选出其医学相关因素与所述目标诊断名称的医学相关因素相关的诊断名称。

示例性的，本申请实施例分别计算目标诊断名称d，与诊断名称集合candidate中的每个诊断名称candi的症状相似度、对症药品相似度和发病时间相似度。同时，分别设置症状相似度阈值、对症药品相似度阈值，以及发病时间相似度阈值。

当目标诊断名称d与诊断名称candi两者的症状相似度不小于症状相似度阈值，并且两者的对症药品相似度不小于对症药品相似度阈值，并且两者的发病时间相似度不小于发病时间相似度阈值，则认为该诊断名称candi与目标诊断名称d的医学相关因素相关。

其中，上述的发病时间以月份为单位。

作为可选的实现方式，上述的计算目标诊断名称d，与诊断名称集合candidate中的每个诊断名称candi的症状相似度，可以按照如下步骤SS20～SS22实现：

SS20、将所述病历集合中的所有病历中包含的所有症状词进行排列得到症状词序列。

具体的，统计上述病历集合中的所有病历中包含的所有症状词，并按一定顺序(例如按照拼音顺序)进行排列，得到症状词序列AllSymptoms。假设上述病历集合中的所有病历中包含的所有症状词共有N个，则该症状词序列AllSymptoms为N维序列。

SS21、分别统计所述症状词序列中的每个症状词在所述目标诊断名称对应的病历中出现的次数，以及在所述诊断名称集合中的每个诊断名称对应的病历中出现的次数，得到所述目标诊断名称的症状分布向量，以及所述诊断名称集合中的每个诊断名称的症状分布向量。

具体的，对于目标诊断名称d对应的所有病历，统计上述的症状词序列中的每个症状词在该所有病历中出现的次数，得到一个N维的向量，该N维向量即为目标诊断名称d的症状分布向量。

同理，对于诊断名称集合candidate中的每个诊断名称candi，根据与诊断名称candi对应的所有病历，统计上述的症状词序列中的每个症状词在该所有病历中出现的次数，得到一个N维向量，该N维向量即为该诊断名称candi的症状分布向量。

最后，对目标诊断名称d的症状分布向量，以及每个诊断名称candi的症状分布向量，分别进行归一化处理，得到目标诊断名称d的症状分布向量为

以及诊断名称集合candidite中的每个诊断名称candi的症状分布向量为

SS22、通过计算所述目标诊断名称的症状分布向量，与所述诊断名称集合中的每个诊断名称的症状分布向量的相似度，确定所述目标诊断名称与所述诊断名称集合中的每个诊断名称的症状相似度。

具体的，通过计算目标诊断名称的症状分布向量，与诊断名称集合中的每个诊断名称的症状分布向量的相似度，即可确定目标诊断名称与所述诊断名称集合中的每个诊断名称的症状相似度。

示例性的，本申请实施例分别计算目标诊断名称的症状分布向量

与诊断名称集合中的每个诊断名称的症状分布向量

的标准差，用于表示两者的相似度。

两者的症状分布向量的标准差越小，则两者的相似度越高。在本申请实施例中，预先设定标准差阈值Threshold_症状，该标准差阈值Threshold_症状与上述的症状相似度阈值相对应，当目标诊断名称的症状分布向量，与诊断名称集合中的每个诊断名称的症状分布向量的标准差不大于上述的标准差阈值Threshold_症状时，认为两者的症状相似度不小于相应的症状相似度阈值。

作为可选的实现方式，上述的计算目标诊断名称d，与诊断名称集合candidate中的每个诊断名称candi的对症药品相似度，可以按照如下步骤SS30～SS32实现：

SS30、将所述病历集合中的所有病历中包含的所有药品名称进行排列得到药品名称序列。

具体的，统计上述病历集合中的所有病历中包含的所有药品名称，并按一定顺序(例如按照拼音顺序)进行排列，得到药品名称序列。假设上述病历集合中的所有病历中包含的所有药品名称共有N个，则该药品名称序列为N维序列。

SS31、分别统计所述药品名称序列中的每个药品名称在所述目标诊断名称对应的病历中出现的次数，以及在所述诊断名称集合中的每个诊断名称对应的病历中出现的次数，得到所述目标诊断名称的对症药品分布向量，以及所述诊断名称集合中的每个诊断名称的对症药品分布向量。

具体的，对于目标诊断名称d对应的所有病历，统计上述的药品名称序列中的每个药品名称在该所有病历中出现的次数，得到一个N维的向量，该N维向量即为目标诊断名称d的对症药品分布向量。

同理，对于诊断名称集合candidate中的每个诊断名称candi，根据与诊断名称candi对应的所有病历，统计上述的药品名称序列中的每个药品名称在该所有病历中出现的次数，得到一个N维向量，该N维向量即为该诊断名称candi的对症药品分布向量。

最后，对目标诊断名称d的对症药品分布向量，以及每个诊断名称candi的对症药品分布向量，分别进行归一化处理，得到目标诊断名称d的对症药品分布向量为

以及诊断名称集合candidite中的每个诊断名称candi的对症药品分布向量为

SS32、通过计算所述目标诊断名称的对症药品分布向量，与所述诊断名称集合中的每个诊断名称的对症药品分布向量的相似度，确定所述目标诊断名称与所述诊断名称集合中的每个诊断名称的对症药品相似度。

具体的，通过计算目标诊断名称的对症药品分布向量，与诊断名称集合中的每个诊断名称的对症药品分布向量的相似度，即可确定目标诊断名称与所述诊断名称集合中的每个诊断名称的对症药品相似度。

示例性的，本申请实施例分别计算目标诊断名称的对症药品分布向量

与诊断名称集合中的每个诊断名称的对症药品分布向量

的标准差，用于表示两者的相似度。

两者的对症药品分布向量的标准差越小，则两者的相似度越高。在本申请实施例中，预先设定标准差阈值Threshold_对症药品，该标准差阈值Threshold_对症药品与上述的对症药品相似度阈值相对应，当目标诊断名称的对症药品分布向量，与诊断名称集合中的每个诊断名称的对症药品分布向量的标准差不大于上述的标准差阈值Threshold_对症药品时，认为两者的对症药品相似度不小于相应的对症药品相似度阈值。

作为可选的实现方式，上述的计算目标诊断名称d，与诊断名称集合candidate中的每个诊断名称candi的发病时间相似度，可以按照如下步骤SS40～SS41实现：

SS40、分别统计所述目标诊断名称在每个自然月的病历中出现的次数，以及所述诊断名称集合中的每个诊断名称在每个自然月的病历中出现的次数，得到所述目标诊断名称的发病时间分布向量，以及所述诊断名称集合中的每个诊断名称的发病时间分布向量。

示例性的，将一个自然年内的各个自然月按照时间先后顺序进行排列，得到月份序列，可以理解，由于一年有12个自然月，因此该月份序列为12维的序列。

对于目标诊断名称d对应的所有病历，统计上述的月份序列中的每个自然月在该所有病历中出现的次数，得到一个12维的向量，该12维向量即为目标诊断名称d的发病时间分布向量。

同理，对于诊断名称集合candidate中的每个诊断名称candi，根据与诊断名称candi对应的所有病历，统计上述的月份序列中的每个自然月在该所有病历中出现的次数，得到一个12维向量，该12维向量即为该诊断名称candi的发病时间分布向量。

最后，对目标诊断名称d的发病时间分布向量，以及每个诊断名称candi的发病时间分布向量，分别进行归一化处理，得到目标诊断名称d的发病时间分布向量为

以及诊断名称集合candidite中的每个诊断名称candi的发病时间分布向量为

SS41、通过计算所述目标诊断名称的发病时间分布向量，与所述诊断名称集合中的每个诊断名称的发病时间分布向量的相似度，确定所述目标诊断名称与所述诊断名称集合中的每个诊断名称的发病时间相似度。

具体的，通过计算目标诊断名称的发病时间分布向量，与诊断名称集合中的每个诊断名称的发病时间分布向量的相似度，即可确定目标诊断名称与所述诊断名称集合中的每个诊断名称的发病时间相似度。

示例性的，本申请实施例分别计算目标诊断名称的发病时间分布向量

与诊断名称集合中的每个诊断名称的发病时间分布向量

的标准差，用于表示两者的相似度。

两者的发病时间分布向量的标准差越小，则两者的相似度越高。在本申请实施例中预先设定标准差阈值Threshold_发病时间，该标准差阈值Threshold_发病时间与上述的发病时间相似度阈值相对应，当目标诊断名称的发病时间分布向量，与诊断名称集合中的每个诊断名称的发病时间分布向量的标准差不大于上述的标准差阈值Threshold_发病时间时，认为两者的发病时间相似度不小于相应的发病时间相似度阈值。

作为一种可选的实现方式，上述的从病历集合中提取得到患者病历序列，包括：

首先，通过将所述病历集合中的对应同一患者的所有病历进行排序，得到与各个患者对应的病历序列。

示例性的，分别将病历集合中的，对应同一患者的所有病历按照时间先后顺序进行排序，分别得到与每个患者对应的病历序列。

然后，从每个病历序列中，筛选出诊断名称为所述目标诊断名称的病历，以及，诊断名称为非目标诊断名称的匹配病历，得到与每个患者对应的候选病历序列。其中，所述匹配病历为，至少其中包含的症状词，与诊断名称为所述目标诊断名称的病历中包含的症状词相同的病历。

在获取每个患者对应的病历序列后，本申请实施例分别对每个患者对应的病历序列中的病历进行筛选。

具体的，从病历序列中，筛选出诊断名称为目标诊断名称d的病历，以及诊断名称为非目标诊断名称，但是其中包含的症状词，与该病历序列中的任意一份诊断名称为目标诊断名称d的病历中包含的症状词相同的病历。按照上述规则筛选出的病历保留，其余病历从该病历序列中删除，并将经过上述筛选处理后的病历序列命名为候选病历序列。

其中，上述的诊断名称为非目标诊断名称的病历，与诊断名称为目标诊断名称d的病历中包含的症状词相同，是指诊断名称为非目标诊断名称的病历中的全部症状词，与诊断名称为目标诊断名称d的病历中的全部症状词相同。

进一步的，为了保证同一患者的候选病历序列中的各个病历是高度相似的病历，本申请实施例在从病历序列中筛选诊断名称为非目标诊断名称的匹配病历时，具体可以筛选诊断名称为非目标诊断名称，并且其中包含的症状词、治疗药品名称、发病时间，分别与该病历序列中的任一诊断名称为目标诊断名称d的病历中包含的症状词、治疗药品名称、发病时间相同的病历。

按照上述规则筛选出的匹配病历，与诊断名称为目标诊断名称的病历高度相似，能够为后续判断患者病历序列中的非目标诊断名称是否为目标诊断名称的同义诊断名称提供便利。

最后，从各个候选病历序列中，筛选出其中包含的诊断名称为所述目标诊断名称的病历的占比不小于预设阈值的候选病历序列，作为患者病历序列。

对于经过上述筛选得到的各个候选病历序列，分别判断其中包含的诊断名称为目标诊断名称d的病历的占比是否不小于预设阈值。

其中，上述的预设阈值，通常为大于50％的阈值，并且当其取值越大时，可以使得后续对目标诊断名称的同义诊断名称的识别更准确、更便利。

如果某一候选病历序列中的、诊断名称为目标诊断名称d的病历的占比不小于预设阈值，则将该候选病历序列作为用于后续同义诊断名称识别的患者病历序列。

如果某一候选病历序列中的、诊断名称为目标诊断名称d的病历的占比小于预设阈值，则将该候选病历序列删除。

经过上述的病历序列筛选处理得到的患者病历序列，可以保证其中的诊断名称为目标诊断名称的病历占大多数，并且，其中诊断名称为非目标诊断名称的病历与诊断名称为目标诊断名称的病历高度相似。

可以理解，只有当患者病历序列中的目标诊断名称的病历的占比足够高，并且非目标诊断名称与目标诊断名称的病历的内容相关时，才能合理推测患者病历序列中的非目标诊断名称是否为目标诊断名称的同义诊断名称。

因此，按照本申请实施例上述处理得到的患者病历序列，可以用于分析其中包含的非目标诊断名称是否为目标诊断名称的同义诊断名称。

本申请实施例提出的识别同义诊断名称的方法，可以将上述图1所示的识别同义诊断名称的处理过程和图2所示的识别同义诊断名称的处理过程组合应用，即依次或同时分别执行图1和图2所示的识别同义诊断名称的方法，通过任一处理过程而确定的目标诊断名称的同义诊断名称，均为最终确定的与目标诊断名称同义的诊断名称。

将上述两种同义诊断名称识别过程组合应用，可以更全面地从病历集合中识别目标诊断名称的同义诊断名称。

本申请实施例还提出一种识别同义诊断名称的装置，参见图4所示，该装置包括：

病历提取单元100，用于从病历集合中提取得到患者病历序列；其中，每个患者病历序列由同一患者的病历构成；每个患者病历序列中的诊断名称为非目标诊断名称的病历，与其中的任一诊断名称为目标诊断名称的病历的症状词相同，并且诊断名称为所述目标诊断名称的病历的占比不小于预设阈值；

判断处理单元110，用于对于各个患者病历序列中的每个非目标诊断名称，至少根据该非目标诊断名称对应的数量参数，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称；

本申请实施例提出的识别同义诊断名称的装置，从病历集合中提取患者病历序列，在每个患者病历序列中，诊断名称为非目标诊断名称的病历，与其中的任一诊断名称为目标诊断名称的病历的症状词相同，并且诊断名称为所述目标诊断名称的病历的占比不小于预设阈值。由于患者病历序列中的诊断名称为非目标诊断名称的病历中的症状词，与诊断名称为目标诊断名称的病历中的症状词相同，并且在患者病历序列中，大多数都是诊断名称为目标诊断名称的，因此在上述患者病历序列中，非目标诊断名称有很大概率是目标诊断名称的同义诊断名称。

进一步的，该装置对于上述患者病历序列中的每个非目标诊断名称，分别根据与该非目标诊断名称对应的数量参数，来判断该非目标诊断名称是否为目标诊断名称的同义诊断名称。上述的数量参数为能够反映不同病历的诊断名称之间的语义关系的参数信息。

该装置通过对病历集合中的病历进行归类整理，以及结合能够反映不同病历的诊断名称之间的语义关系的参数信息，来识别归类整理后的患者病历序列中的非目标诊断名称是否为目标诊断名称的同义诊断名称，能够实现自动化的同义诊断名称识别。

作为可选的实现方式，该非目标诊断名称对应的数量参数，至少包括包含该非目标诊断名称的患者病历序列的数量，和/或包含该非目标诊断名称的每个患者病历序列中的、诊断名称为该非目标诊断名称的病历的数量，和/或该非目标诊断名称所在的患者病历序列中包含的诊断名称种类数量。

作为可选的实现方式，所述至少根据该非目标诊断名称对应的数量参数，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称，包括：

作为可选的实现方式，所述根据该非目标诊断名称对应的数量参数，和该非目标诊断名称与所述目标诊断名称的字符内容，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称，包括：

根据该非目标诊断名称对应的数量参数，和该非目标诊断名称与所述目标诊断名称的字符内容，评估将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果；所述替换效果表示所述目标诊断名称在所述患者病历序列中所占的比例的提升效果；

根据将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称。

作为可选的实现方式，根据该非目标诊断名称对应的数量参数，和该非目标诊断名称与所述目标诊断名称的字符内容，评估将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果，包括：

确定包含该非目标诊断名称的各个患者病历序列，作为参考患者病历序列；

根据各个参考患者病历序列中包含的诊断名称的种类数量，分别计算将各个参考患者病历序列中的该非目标诊断名称，替换为所述目标诊断名称后，各个参考患者病历序列的诊断名称纯度的变化量，以及，根据该非目标诊断名称与所述目标诊断名称的字符内容，计算将该非目标诊断名称修改为所述目标诊断名称的复杂度；其中，所述参考患者病历序列的诊断名称纯度，以参考患者病历序列中的诊断名称种类数量的倒数表示；

根据各个参考患者病历序列的诊断名称纯度的变化量、将该非目标诊断名称修改为所述目标诊断名称的复杂度、每个参考患者病历序列中的诊断名称为该非目标诊断名称的病历的数量，和所述参考患者病历序列的数量，计算确定将该非目标诊断名称替换为所述目标诊断名称的替换效果评估分。

作为可选的实现方式，所述根据该非目标诊断名称与所述目标诊断名称的字符内容，计算将该非目标诊断名称修改为所述目标诊断名称的复杂度，包括：

如果该非目标诊断名称和所述目标诊断名称的文本结构相同，则根据该非目标诊断名称和所述目标诊断名称的各个构成元素的差异，确定将该非目标诊断名称修改为所述目标诊断名称的复杂度；

如果该非目标诊断名称与所述目标诊断名称的文本结构不同，则确定将该非目标诊断名称修改为所述目标诊断名称的复杂度为设定的复杂度。

作为可选的实现方式，该装置还包括：

诊断名称对比单元，用于获取所述病历集合中的各个病历的诊断名称，组成诊断名称集合；计算所述诊断名称集合中的每个诊断名称与所述目标诊断名称的字符相似度；根据所述诊断名称集合中的每个诊断名称与所述目标诊断名称的字符相似度，从所述诊断名称集合中识别所述目标诊断名称的同义诊断名称。

作为可选的实现方式，所述诊断名称对比单元在计算所述诊断名称集合中的每个诊断名称与所述目标诊断名称的字符相似度之前，还用于：

从所述诊断名称集合中筛选其医学相关因素与所述目标诊断名称的医学相关因素相关的诊断名称，组成筛选后的诊断名称集合；

其中，所述医学因素至少包括症状、对症药品和发病时间。

作为可选的实现方式，所述计算所述诊断名称集合中的每个诊断名称与所述目标诊断名称的字符相似度，包括：

对于所述诊断名称集合中的每个诊断名称，分别按照如下处理，计算其与所述目标诊断名称的字符相似度：

如果该诊断名称的所有字符均包含于所述目标诊断名称中，或者所述目标诊断名称中的所有字符均包含于该诊断名称中，则确定该诊断名称与所述目标诊断名称的字符相似度为1；

否则，将共同出现于该诊断名称和所述目标诊断名称中的字符的数量，与该诊断名称和所述目标诊断名称中出现的所有字符的数量的比值，作为该诊断名称与所述目标诊断名称的字符相似度。

作为可选的实现方式，所述从所述诊断名称集合中筛选与所述目标诊断名称的医学相关因素相关的诊断名称，包括：

至少计算所述目标诊断名称，与所述诊断名称集合中的每个诊断名称的症状相似度，和/或对症药品相似度，和/或发病时间相似度；

至少根据所述目标诊断名称，与所述诊断名称集合中的每个诊断名称的症状相似度，和/或对症药品相似度，和/或发病时间相似度，从所述诊断名称集合中，筛选出其医学相关因素与所述目标诊断名称的医学相关因素相关的诊断名称。

作为可选的实现方式，计算所述目标诊断名称，与所述诊断名称集合中的每个诊断名称的症状相似度，包括：

将所述病历集合中的所有病历中包含的所有症状词进行排列得到症状词序列；

分别统计所述症状词序列中的每个症状词在所述目标诊断名称对应的病历中出现的次数，以及在所述诊断名称集合中的每个诊断名称对应的病历中出现的次数，得到所述目标诊断名称的症状分布向量，以及所述诊断名称集合中的每个诊断名称的症状分布向量；

通过计算所述目标诊断名称的症状分布向量，与所述诊断名称集合中的每个诊断名称的症状分布向量的相似度，确定所述目标诊断名称与所述诊断名称集合中的每个诊断名称的症状相似度。

作为可选的实现方式，计算所述目标诊断名称与所述诊断名称集合中的每个诊断名称的对症药品相似度，包括：

将所述病历集合中的所有病历中包含的所有药品名称进行排列得到药品名称序列；

分别统计所述药品名称序列中的每个药品名称在所述目标诊断名称对应的病历中出现的次数，以及在所述诊断名称集合中的每个诊断名称对应的病历中出现的次数，得到所述目标诊断名称的对症药品分布向量，以及所述诊断名称集合中的每个诊断名称的对症药品分布向量；

通过计算所述目标诊断名称的对症药品分布向量，与所述诊断名称集合中的每个诊断名称的对症药品分布向量的相似度，确定所述目标诊断名称与所述诊断名称集合中的每个诊断名称的对症药品相似度。

作为可选的实现方式，计算所述目标诊断名称，与所述诊断名称集合中的每个诊断名称的发病时间相似度，包括：

分别统计所述目标诊断名称在每个自然月的病历中出现的次数，以及所述诊断名称集合中的每个诊断名称在每个自然月的病历中出现的次数，得到所述目标诊断名称的发病时间分布向量，以及所述诊断名称集合中的每个诊断名称的发病时间分布向量；

通过计算所述目标诊断名称的发病时间分布向量，与所述诊断名称集合中的每个诊断名称的发病时间分布向量的相似度，确定所述目标诊断名称与所述诊断名称集合中的每个诊断名称的发病时间相似度。

作为可选的实现方式，所述从病历集合中提取得到患者病历序列，包括：

通过将所述病历集合中的对应同一患者的所有病历进行排序，得到与各个患者对应的病历序列；

从每个病历序列中，筛选出诊断名称为所述目标诊断名称的病历，以及，诊断名称为非目标诊断名称的匹配病历，得到与每个患者对应的候选病历序列；其中，所述匹配病历为，至少其中包含的症状词，与该病历序列中的任一诊断名称为所述目标诊断名称的病历中包含的症状词相同的病历；

从各个候选病历序列中，筛选出其中包含的诊断名称为所述目标诊断名称的病历的占比不小于预设阈值的候选病历序列，作为患者病历序列。

作为可选的实现方式，所述匹配病历中包含的症状词、治疗药品名称、发病时间，分别与该病历序列中的任一诊断名称为所述目标诊断名称的病历中包含的症状词、治疗药品名称、发病时间相同。

具体的，上述的识别同义诊断名称的装置的各个单元的具体工作内容，请参见上述方法实施例的内容，此处不再赘述。

本申请另一实施例还公开了一种识别同义诊断名称的设备，参见图5所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的识别同义诊断名称的方法。

具体的，上述目标检测结果的评测设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器2102执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的识别同义诊断名称的方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时，实现上述任一实施例提供的识别同义诊断名称的方法的各个步骤。

上述的识别同义诊断名称的设备的各个部分的具体工作内容，以及上述的存储介质中的程序被处理器运行时的具体处理内容，均可参见上述方法实施例的内容，此处不再重复。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种识别同义诊断名称的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，该非目标诊断名称对应的数量参数，至少包括包含该非目标诊断名称的患者病历序列的数量，和/或包含该非目标诊断名称的每个患者病历序列中的、诊断名称为该非目标诊断名称的病历的数量，和/或该非目标诊断名称所在的患者病历序列中包含的诊断名称种类数量。

3.根据权利要求2所述的方法，其特征在于，所述至少根据该非目标诊断名称对应的数量参数，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据该非目标诊断名称对应的数量参数，和该非目标诊断名称与所述目标诊断名称的字符内容，判断该非目标诊断名称是否为所述目标诊断名称的同义诊断名称，包括：

5.根据权利要求4所述的方法，其特征在于，根据该非目标诊断名称对应的数量参数，和该非目标诊断名称与所述目标诊断名称的字符内容，评估将各个患者病历序列中的该非目标诊断名称替换为所述目标诊断名称的替换效果，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据该非目标诊断名称与所述目标诊断名称的字符内容，计算将该非目标诊断名称修改为所述目标诊断名称的复杂度，包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

获取所述病历集合中的各个病历的诊断名称，组成诊断名称集合；

计算所述诊断名称集合中的每个诊断名称与所述目标诊断名称的字符相似度；

根据所述诊断名称集合中的每个诊断名称与所述目标诊断名称的字符相似度，从所述诊断名称集合中识别所述目标诊断名称的同义诊断名称。

8.根据权利要求7所述的方法，其特征在于，在计算所述诊断名称集合中的每个诊断名称与所述目标诊断名称的字符相似度之前，所述方法还包括：

其中，所述医学因素至少包括症状、对症药品和发病时间。

9.根据权利要求8所述的方法，其特征在于，所述计算所述诊断名称集合中的每个诊断名称与所述目标诊断名称的字符相似度，包括：

10.根据权利要求9所述的方法，其特征在于，所述从所述诊断名称集合中筛选与所述目标诊断名称的医学相关因素相关的诊断名称，包括：

11.根据权利要求10所述的方法，其特征在于，计算所述目标诊断名称，与所述诊断名称集合中的每个诊断名称的症状相似度，包括：

12.根据权利要求10所述的方法，其特征在于，计算所述目标诊断名称与所述诊断名称集合中的每个诊断名称的对症药品相似度，包括：

13.根据权利要求10所述的方法，其特征在于，计算所述目标诊断名称，与所述诊断名称集合中的每个诊断名称的发病时间相似度，包括：

14.根据权利要求1所述的方法，其特征在于，所述从病历集合中提取得到患者病历序列，包括：

15.根据权利要求14所述的方法，其特征在于，所述匹配病历中包含的症状词、治疗药品名称、发病时间，分别与该病历序列中的任一诊断名称为所述目标诊断名称的病历中包含的症状词、治疗药品名称、发病时间相同。

16.一种识别同义诊断名称的装置，其特征在于，包括：

17.一种识别同义诊断名称的设备，其特征在于，包括：

存储器和处理器；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至15中任意一项所述的识别同义诊断名称的方法。

18.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至15中任意一项所述的识别同义诊断名称的方法。