CN117497111B

CN117497111B - 一种基于深度学习实现疾病名称标准化分级的系统

Info

Publication number: CN117497111B
Application number: CN202311794506.XA
Authority: CN
Inventors: 吴行伟; 童荣生; 邓博; 沈浩
Original assignee: Sichuan Academy Of Medical Sciences Sichuan Provincial People's Hospital
Current assignee: Sichuan Academy Of Medical Sciences Sichuan Provincial People's Hospital
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-03-15
Anticipated expiration: 2043-12-25
Also published as: CN117497111A

Abstract

本申请公开了一种基于深度学习实现疾病名称标准化分级的系统，涉及医疗人工智能技术领域，包括：第一获取模块获取临床数据的原始疾病名称；第二获取模块获取标准分级规则的标准分级标签得到第一分级标签；第一处理模块分别以每一初始数据为中心字，根据第一预设距离和中心字对原始疾病名称进行划分得到第一数据；第一分析模块分别将每一第一数据输入第一分析模型，输出字向量；第二分析模块将所有字向量输入第二分析模型，第二分析模型对字向量进行特征提取，根据第一分级标签对原始疾病名称进行分类，输出第一分级结果，更加全面的获取原始疾病名称中单个字特征、字与字相对位置特征、字与原始疾病名称相对位置特征的提取，提高分级准确性。

Description

一种基于深度学习实现疾病名称标准化分级的系统

技术领域

本申请涉及医疗人工智能技术领域，具体涉及一种基于深度学习实现疾病名称标准化分级的系统。

背景技术

随着医疗卫生机构信息化和智慧化广泛普及，医疗健康大数据空前膨胀，如何高效利用现有医疗卫生数据资源已成为真实世界研究亟待解决的问题。诊断字段是医学真实世界研究的重要变量，包含的诊断名称繁多，在开展医学真实世界研究时通常面临由于原始临床诊断名称记录不规范或记录标准不统一等原因导致的相同诊断名称记录不一致，进而导致诊断变量离散或数据损失，对诊断名称的合并费时费力，对诊断数据的统计分析容易出现难度大、出错率高等问题，同时还对除研究病种之外的合并症、继发病等研究协变量合并、后续的研究分析及结果解释等存在影响。传统方法通过人工的方式进行识别和处理，在耗费大量时间和人力成本的同时延长研究周期。

发明内容

本发明的目的在于解决由于原始临床诊断名称记录不规范或记录标准不统一等原因导致相同诊断名称记录不一致的技术问题，提供了一种基于深度学习实现疾病名称标准化分级的系统，第一获取模块获取诊断数据的原始疾病名称；第二获取模块获取标准分级规则的标准分级标签得到第一分级标签；第一处理模块分别以每一初始数据为中心字，根据第一预设距离和中心字对原始疾病名称进行划分得到第一数据；第一分析模块分别将每一第一数据输入第一分析模型，输出字向量；第二分析模块将所有字向量输入第二分析模型，第二分析模型对字向量进行特征提取，根据第一分级标签对原始疾病名称进行分类，输出第一分级结果，更加全面的获取原始疾病名称中单个字特征、字与字相对位置特征、字与原始疾病名称相对位置特征的提取，提高分级准确性。

本发明请求保护一种基于深度学习实现疾病名称标准化分级的系统，包括：

第一获取模块，用于获取诊断数据的原始疾病名称，得到初始数据；

第二获取模块，用于获取标准分级规则的标准分级标签，得到第一分级标签，所述第一分级标签用于区分属于不同所述标准分级标签的所述初始数据；

第一处理模块，用于分别以每一所述初始数据为中心字，根据第一预设距离和所述中心字对所述初始数据进行划分，得到第一数据；

其中，所述第一预设距离的取值为正整数；

第一分析模块，用于分别将每一所述第一数据输入第一分析模型，输出对应的字向量，所述字向量为将每一所述第一数据映射到向量空间得到的实数向量；

第二分析模块，用于将所有所述字向量输入第二分析模型，所述第二分析模型对所述字向量进行特征提取，根据所述第一分级标签对所述初始数据进行分类，输出第一分级结果。

在本申请一实施例中，所述第二分析模型包括：

第二输入层，用于加载所述初始数据的所有所述字向量；

第二隐藏层，用于对所有所述字向量进行特征分析和提取，得到第一信息向量和第二信息向量，根据所述第一信息向量和所述第二信息向量计算得到注意力权重，将所述注意力权重和所述第二信息向量相乘得到第三信息向量；

其中，所述第一信息向量为所述初始数据的特征向量，所述第二信息向量为所述初始数据每个字的特征向量；

第二输出层，用于根据所述第三信息向量和所述第一分级标签对所述初始数据进行分类，得到所述第一分级结果。

在本申请一实施例中，所述第二分析模型还包括根据长短期记忆神经网络模型构建所述第二隐藏层，所述第二分析模型根据预设顺序对每一所述字向量进行特征提取，得到对应的所述第二信息向量。

在本申请一实施例中，所述第二分析模型还包括根据双向长短期记忆神经网络模型构建所述第二隐藏层，所述第二分析模型根据根据所述初始数据的正向顺序对所有所述字向量进行特征提取，得到第四信息向量，根据所述初始数据的逆向顺序对所有所述字向量进行特征提取，得到第五信息向量，根据所述第四信息向量和所述第五信息向量计算得到所述第二信息向量。

在本申请一实施例中，所述第二分析模型还包括根据最后一个输入所述第二隐藏层的所述字向量对应的所述第二信息向量计算得到所述第一信息向量。

在本申请一实施例中，所述第一分析模型的训练方法包括：

获取历史诊断数据中的原始疾病名称，得到第一训练数据集；

所述第一分析模块对所述第一训练数据集中每一样本的每个字预设不同的预设向量，不同字采用不同的所述预设向量，相同字采用相同的所述预设向量；

将所述预设向量作为真实数据，对所述第一分析模型进行训练。

在本申请一实施例中，所述第二分析模型的训练方法包括：

获取第二训练数据集，所述第二训练数据集包括历史诊断数据的原始疾病名称和预设分级标签；

将所述第二训练数据集中的每一所述原始疾病名称输入所述第一处理模块，得到所述第一数据，将对应的所述第一数据输入所述第一分析模块，得到所述字向量；

将所述预设分级标签作为真实数据，将对应的所有所述字向量输入所述第二分析模型，对所述第二分析模型进行训练。

在本申请一实施例中，所述第二训练数据集的获取方法还包括根据所述标准分级规则对所述第一训练数据集的样本进行分级得到对应的所述预设分级标签，根据所述预设分级标签和所述第一训练数据集得到所述第二训练数据集。

在本申请一实施例中，所述标准分级规则包括ICD-10，根据ICD-10中记录的疾病名称建立所述第一训练数据集和所述第二训练数据集。

在本申请一实施例中，所述系统还包括对所述标准分级规则和/或所述标准分级标签进行修改时，采用迁移学习的方式对所述第一分析模型和所述第二信息模型进行训练。

本申请具有以下有益效果：

1、对诊断过程中记录的诊断名称中的每一个汉字、字母、数字和特殊符号等都作为分析单元进行分析，例如，原始疾病名称为“（I10.x14）高血压亚急症”，则所述初始数据为“（”、“I”、“1”、“0”、“.”、“x”、“1”、“4”、“）”、“高”、“血”、“压”、“亚”、“急”和“症”。其目的在于使分析后的分级结果能够全面、无遗漏地反应原始疾病名称中所包含的信息，避免由于输入的信息不全面导致分级的不准确。

2、使用ICD-10中的疾病名称作为所述训练数据集得到的所述字向量能更好的表示疾病名称领域中每个字的特征和关系。使用ICD-10作为所述标准分级规则覆盖的疾病类型更加全面，训练得到的所述第二分析模型的分级经验更加科学和客观。

3、字向量通过对第一数据中的特征进行分析，从而实现对中心字的编码，由于第一数据中既包含了中心字的特征，例如对应的每一第一数据都有对应的中心字，又包含了中心字相邻位置的字的特征，例如中心字在第一预设距离范围内的字的特征，同时还包含了中心字和相邻位置的字的距离特征和位置特征。距离特征包括中心字与相邻位置的字之间的距离不大于所述第一预设距离。位置特征包括根据中心字对应的第一数据中的所述第二数据的数量，可以得到中心字在初始数据中的位置，但是不限于此。例如中心字“（”对应的第二数据的数量等于3（即第二数据的数量等于第一预设距离的取值），则中心字“（”为初始数据的第一个字或最后一个字，中心字“I”对应的第二数据的数量为4（即第二数据的数量等于第一预设距离加一的值），则中心字“I”为初始数据的第二个字或倒数第二个字。因此，字向量在表示初始数据的特征时，既包含了中心字本身的特征，又包含了中心字的上下文特征，从而实现更加全面的反映原始疾病名称的特征。

4、由于每个字在所述原始疾病名称中的重要程度不同，因此通过所述注意力权重的取值改变每一所述第二信息向量对所述第一信息向量的影响，从而实现有选择性地提取每一所述第二信息向量中的特征。

5、除最后一个输入所述第二隐藏层的所述字向量以外，每一所述字向量经过所述第二层的特征提取后，长短期记忆神经网络模型会保留对应的所述第二信息向量，并对下一个所述字向量进行特征提取后的特征产生影响，从而实现每一所述信息向量中包含的特征除了对应所述字向量本身的特征以外，还保留了所述第二输入层输入每一所述字向量的序列信息，所述序列信息反映了所述原始疾病名称中每个字的排列顺序，更加全面的提取了所述原始疾病名称的特征。

6、分别根据所述初始数据的正向顺序和逆向顺序对所有所述字向量进行特征分析和提取，得到的所述第二向量中同时包含了每个字在所述原始疾病名称中的正向顺序特征和逆向顺序特征，避免模型过分关注字与所述原始疾病名称之间的绝对位置关系，更加关注字与所述原始疾病的上下文和相对位置关系，例如所述原始疾病名称为“（I10.x14）高血压亚急症”，“高”字位于表所述原始疾病名称的第10位，从而片面地认为第10位为“高”字的所述原始疾病名称是“（I10.x14）高血压亚急症”。当模型同时学习正向顺序和逆向顺序，所述信息向量中，第10位（正向顺序）为“高”字的所述原始疾病名称和第6位（逆向顺序）为“高”字的所述原始疾病名称均代表“（I10.x14）高血压亚急症”，因此，模型在学习“（I10.x14）高血压亚急症”的特征时，会减少对具体数字“第10位”和“第6位”的关注，从而更加全面准确地反映所述原始疾病名称中字与字的顺序特征。

7、根据所述第二信息向量计算得到所述第一信息向量，避免再次对所有所述字向量进行特征提取和分析，减小分析工作量，提高分析效率。

8、由于所述第二分析模型的输入为所述第一分析模型的输出，因此所述第二分析模型的训练需要在完成所述第一分析模型的训练之后，所述第一分析模型的准确率会影响所述第二分析模型的准确率，根据所述第一分析模型的所述第一训练数据集得到所述所述第二分析模型的所述第二训练数据集，一方面实现对数据集的充分利用，避免由于数据集的样本数量过少，使得难以完成对两个模型训练，另一方面所述第一测试数据集先完成对所述第一分析模型的训练，所述第一分析模型学习了所述第一训练数据集中的特征，所述第一分析模型对所述第一训练数据集的预测准确率高，再将所述第一训练数据集输入所述第二分析模型进行训练，避免新的测试数据集中数据的特征不确定性影响由导致所述第一分析模型预测结果的不准确，进一步影响对所述第二分析模型的学习结果。

9、在医学的发展过程中，疾病名称的格式及分类方式在不断的更新变化，利用迁移学习方法对所述标准分级规则进行更新，避免由于所述标准分级规则的变化导致对整个系统需要重新从0开始构建模型结构、训练所述第一分析模型和所述第二分析模型，减少更新模型的训练量，提高更新效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本申请实施例涉及的一种基于深度学习实现疾病名称标准化分级的系统的整体模块结构图；

图2为本申请实施例涉及的一种基于深度学习实现疾病名称标准化分级的系统的第一分析模型结构示意图；

图3为本申请实施例涉及的一种基于深度学习实现疾病名称标准化分级的系统的第二分析模型的其中一种实施方式；

图4为本申请实施例涉及的一种基于深度学习实现疾病名称标准化分级的系统的第二分析模型的另一种实施方式；

图5为本申请实施例涉及的迁移学习的流程图；

图6为本申请实施例涉及的电子设备结构示意图；

图中标识：hm-第一序列信息对应的第一信息向量，hn-第二序列信息对应的第一信息向量。

具体实施方式

本发明提供了一种基于深度学习实现疾病名称标准化分级的系统，第一获取模块获取临床诊断的原始疾病名称；第二获取模块获取标准分级规则的标准分级标签得到第一分级标签；第一处理模块分别以每一初始数据为中心字，根据第一预设距离和中心字对原始疾病名称进行划分得到第一数据；第一分析模块分别将每一第一数据输入第一分析模型，输出字向量；第二分析模块将所有字向量输入第二分析模型，第二分析模型对字向量进行特征提取，根据第一分级标签对原始疾病名称进行分类，输出第一分级结果，更加全面的获取原始疾病名称中单个字特征、字与字相对位置特征、字与原始疾病名称相对位置特征的提取，提高分级准确性。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，参考术语“一个实施例”、“一些实施例”、“实施方式”、“实施例”、“示意性实施例”、“示例”、“具体示例”或“一些示例”等，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示结合该实施例或示例描述的具体特征、结构或者特点包含于本发明的至少一个实施例或示例中。而且描述的具体特征、结构或者特点可以在任何一个或多个实施例或示例中以合适的方式结合。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或顺序。

本发明请求保护一种基于深度学习实现疾病名称标准化分级的系统，参照附图1所示，包括：

第一获取模块，用于获取诊断数据的原始疾病名称，得到初始数据。

其中，所述诊断数据包括医嘱，但是其不限于此。

其中，所述初始数据为原始疾病名称中的所有字，包括汉字、字母、数字和特殊符号，但其不限于此。例如，原始疾病名称为“（I10.x14）高血压亚急症”，则所述初始数据为“（”、“I”、“1”、“0”、“.”、“x”、“1”、“4”、“）”、“高”、“血”、“压”、“亚”、“急”和“症”。

需要说明的是，对诊断过程中记录的诊断名称中的每一个汉字、字母、数字和特殊符号等都作为分析单元进行分析，其目的在于使分析后的分级结果能够全面、无遗漏地反应原始疾病名称中所包含的信息，避免由于输入的信息不全面导致分级的不准确。

需要说明的是，所述原始疾病名称包括纸质数据、电子数据和音频数据，但是其不限于此。所述初始数据的获取方法包括对纸质数据进行人工录入、对拍摄的纸质数据图像进行图像识别后得到文字数据、直接调用电子数据、对音频数据进行文字识别后人工修正的结果，但是其不限于此。上述所述原始疾病名称和所述初始数据的获取方法仅为示意，不构成对本发明要求保护技术方案的限制。

第二获取模块，用于获取标准分级规则的标准分级标签，得到第一分级标签，所述第一分级标签用于区分属于不同所述标准分级标签的所述初始数据。

需要说明的是，由于实际应用场景中分级规则与需要完成的任务需求相关，不同任务中的分级规则不同，例如医疗机构对病人的诊断过程中更倾向于根据疾病的病因、临床表现等特征进行分级，但是在进行疾病的研究任务过程中，会增加对病理等特征的关注。因此，所述标准分级规则可以根据实际应用场景进行预设，也可根据本领域内技术人员公知的分级规范进行预设，或者其他分级规则。

在一个可行的实施方式中，所述标准分级规则包括ICD-10，根据ICD-10中记录的疾病名称建立所述第一训练数据集和所述第二训练数据集。

需要说明的是，ICD-10为WHO指定的国际统一的疾病分类方法，其根据疾病的病因、病理、临床表现和解剖位置等特征，将疾病分门别类，使其成为一个有序的组合，并采用编码的方法来表示。所述方法收录的疾病记录近26000多条，内容全面准确，涵盖医院所有科别的各种疾病，是国内目前最完备的，主要包括ICD-10编码，手术码，疾病名称，拼音码。使用ICD-10中的疾病名称作为所述训练数据集得到的所述字向量能更好的表示疾病名称领域中每个字的特征和关系。使用ICD-10作为所述标准分级规则覆盖的疾病类型更加全面，训练得到的所述第二分析模型的分级经验更加科学和客观。

需要说明的是，所述标准分级标签包括第一分级标签，但不限于此。所述标准分级标签根据所述标准分级规则得到。在实际应用中，对疾病名称的分类包括多层级的分类，例如原始疾病名称为“（I10.x14）高血压亚急症”，根据所述标准分级规则进行分级后，所述原始疾病名称对应的三级疾病名称为高血压亚急症，对应的二级疾病名称为高血压急症，对应的一级疾病名称为循环系统疾病，则在上述标准分级规则中的所述标准分级标签包括所述一级疾病名称、所述二级疾病名称和所述三级疾病名称，所述第一分级标签为所述三级疾病名称。上述所述标准分级标签和所述第一分级标签仅为示意，不构成对本发明要求保护技术方案的限制。

在本实施方式中，所述标准分级标签示例如下表1：

表1：标准分级标签部分示例表

需要说明的是，所述标准分级标签和所述第一分级标签可以为标准分级规则的分级疾病名称，例如所述三级疾病名称，也可以为分级疾病名称对应的编码，例如所述三级疾病编码，或者是其他用于区分不同所述原始疾病名称的数据。本发明不对所述标准分级标签和所述第一分级标签的具体形式进行进一步的限定。

第一处理模块，用于分别以每一所述初始数据为中心字，根据第一预设距离和所述中心字对所述初始数据进行划分，得到第一数据。

其中，所述第一预设距离的取值为正整数，所述第一预设距离的取值为在训练所述第一分析模型和所述第二分析模型时的预设值，所述第一预设距离的取值的影响因素包括数据集中每一样本的长度和分析精度，但是其不限于此。

需要说明的是，数据集中样本的平均长度越小，所述第一预设距离的取值越小。分析精度越高，则进行训练的数据集中每一样本的样本数据越多，则所述第一预设距离的取值越大，例如对于字数大于6的所述原始疾病名称，若所述第一预设距离的取值为1，则所述中心字对应的所述第一数据的数量为1或2，若所述第一预设距离的取值为3，则所述中心字对应的所述第一数据的数量为3-6，则模型在获取所述原始疾病名称的特征时，单个字的所述第一数据更多，模型学到的分级经验更全面。

需要说明的是，所述第一处理模块用于对所述初始数据进行预处理，具体包括：

分别以每一所述初始数据为中心字，将剩余所述初始数据中与所述中心字的距离不大于所述第一预设距离的每一所述初始数据与所述中心字，得到第三数据；

所述中心字对应的所有所述第三数据组成对应的所述第一数据。

在本实施方式中，所述第一预设距离的取值为3，即所述第二数据由剩余所述初始数据中与所述中心字的距离不小于3个字的字与所述中心字构成。例如，若所述初始数据为“（”、“I”、“1”、“0”、“.”、“x”、“1”、“4”、“）”、“高”、“血”、“压”、“亚”、“急”和“症”，则中心字“（”对应的所述第一数据包括[“（”：“I”]、[“（”：“1”]和[“（”：“0”]，中心字“0”对应的所述第一数据为[“0”：“（”]、[“0”：“I”] 、[“0”：“1”]、[“0”：“.”]、[“0”：“x”]和[“0”：“1”]，中心字“症”对应的所述第一数据包括[“症”：“压”]、[“症”：“亚”]和[“症”：“急”]。

第一分析模块，用于分别将每一所述第一数据输入第一分析模型，输出对应的字向量。

其中，所述字向量为将每一所述第一数据映射到向量空间得到的实数向量。例如，根据one-hot编码方式获取所述字向量，利用一个维度的数据表示一个字，例如对数据集中只包含：“高”“糖”“病”“压”和“血”数据进行编码，则“高”字经过编码后的所述字向量可以表示为[1,0,0,0,0]，“压”字经过编码后的所述字向量可以表示为[0,0,0,1,0]。

需要说明的是，参照附图2所示，所述第一分析模型用于对每一所述第一数据进行特征提取后，根据特征生成对应的所述字向量，所述第一分析模型可以通过神经网络模型实现，例如卷积神经网络、感知机等。

在本实施方式中，所述第一分析模型为全连接神经网络模型，所述第一分析模型包括第一输入层、第一隐藏层和第一输出层。所述第一输入层用于将所述第一数据输入所述第一分析模型，所述第一输入层根据所述第一数据随机生成一个预设维度的向量，例如中心字“（”对应的所述第一数据为[“（”：“I”]、[“（”：“1”]和[“（”：“0”]，预设维度为300维，则所述第一输入层对“（”、“I”、“1”和“0”分别随机生成一个298维向量进行表示，根据所述298维向量分别对[“（”：“I”]、[“（”：“1”]和[“（”：“0”]进行编码得到对应的299维向量，根据3个所述299维向量对中心字“（”进行编码得到对应的300维向量。所述第一隐藏层用于对所述第一数据在所述输入层的编码结果进行特征提取，所述第一输出层用于输出所述中心字对应的所述字向量。

需要说明的是，所述预设维度为根据所有所述原始疾病名称中所有可能出现的字的数量进行预设得到，在对所述第一分析模型训练时根据训练数据集提前预设。

需要说明的是，所述字向量通过对所述第一数据中的特征进行分析，从而实现对所述中心字的编码，由于所述第一数据中既包含了所述中心字的特征，例如对应的每一所述第一数据都有对应的所述中心字，又包含了所述中心字相邻位置的字的特征，例如所述中心字在所述第一预设距离范围内的字的特征，同时还包含了所述中心字和相邻位置的字的距离特征和位置特征。所述距离特征包括所述中心字与相邻位置的字之间的距离不大于所述第一预设距离。所述位置特征包括根据所述中心字对应的所述第一数据中的所述第二数据的数量，可以得到所述中心字在所述初始数据中的位置，但是不限于此。例如中心字“（”对应的所述第二数据的数量等于3（即所述第二数据的数量等于所述第一预设距离的取值），则所述中心字“（”为所述初始数据的第一个字或最后一个字，中心字“I”对应的所述第二数据的数量为4（即所述第二数据的数量等于所述第一预设距离加一的值），则所述中心字“I”为所述初始数据的第二个字或倒数第二个字。因此，所述字向量在表示所述初始数据的特征时，既包含了所述中心字本身的特征，又包含了所述中心字的上下文特征，从而实现更加全面的反映所述原始疾病名称的特征。

需要说明的是，所述第二分析模型可以通过神经网络模型实现，例如卷积神经网络和多分类支持向量机等，所述第二分析模型对所述初始数据对应的所有所述字向量进行特征提取后分类，得到所述第一分级结果，从而实现对所述原始疾病名称的分级。

需要说明的是，若所述标准分级标签包含多级分级标签，则可以根据所述第一分级标签和标准分级规则，进一步得到所述原始疾病名称对应的第二分级结果。所述第二分级结果为所述标准分级标准中所述原始疾病名称的所有所述标准分级标签。

在一个可行的实施方式中，参照附图3所示，所述第二分析模型包括第二输入层、第二隐藏层和第二输出层：

第二输入层，用于加载所述初始数据的所有所述字向量。

第二编码层，用于对所有所述字向量进行特征分析和提取，得到第一信息向量和第二信息向量，根据所述第一信息向量和所述第二信息向量计算得到注意力权重，将所述注意力权重和所述第二信息向量相乘得到第三信息向量；

其中，所述第一信息向量为所述初始数据的特征向量，所述第二信息向量为所述初始数据每个字的特征向量。

在本实施例中，分别将每一所述字向量输入所述第二隐藏层，得到对应的所述第二信息向量，将所有所述第二信息向量进行整合得到所述第一信息向量，可以选择线性相加、取均值等方式对所有所述第二信息向量进行整合，本实施例不对具体整合方法进行进一步限制。

需要说明的是，由于每个字在所述原始疾病名称中的重要程度不同，因此通过所述注意力权重的取值改变每一所述第二信息向量对所述第一信息向量的影响，从而实现有选择性地提取每一所述第二信息向量中的特征。所述注意力权重的获取方法可以选择加性模型或缩放点积模型等注意力评分模型进行注意力分数的计算。

在本实施方式中，选择点积模型进行计算所述注意力权重，则所述第三信息向量的计算方法包括：

其中，f（Q）为所述第三信息向量，softmax为归一化函数，Q为所述第二信息向量，K为所述第一信息向量，K^T为所述第一信息向量的转置。

在本实施例中，所述第二输出层为全连接层，用于根据所述第三信息向量计算得到所述第一分析结果。

在一个可行的实施方式中，参照附图4所示，所述第二分析模型还包括根据长短期记忆神经网络模型构建所述第二隐藏层，所述第二分析模型根据预设顺序对每一所述字向量进行特征提取，得到对应的所述第二信息向量。

需要说明的是，所述预设顺序可以选择所述原始疾病名称的正向顺序，或者选择所述原始疾病名称的逆向顺序，或者其他预设顺序。例如所述原始疾病名称为“（I10.x14）高血压亚急症”，则所述原始疾病名称的正向顺序为“（I10.x14）高血压亚急症”，所述原始疾病名称的逆向顺序为“症急亚压血高）41x.01I（”。

需要说明的是，所述第二输入层按照所述预设顺序将所有所述字向量依次输入所述第二分析模型，所述第二隐藏层依次对每一所述字向量进行特征分析和提取，第t个输入所述第二隐藏层的所述字向量的所述第二信息向量h(t)表示为：

其中，h（t-1)为上一个所述字向量输入所述第二隐藏层提取到的所述第二信息向量，为所述第t个所述字向量在所述第二隐藏层中提取到的特征向量。

需要说明的是，除最后一个输入所述第二隐藏层的所述字向量以外，每一所述字向量经过所述第二层的特征提取后，长短期记忆神经网络模型会保留对应的所述第二信息向量，并对下一个所述字向量进行特征提取后的特征产生影响，从而实现每一所述信息向量中包含的特征除了对应所述字向量本身的特征以外，还保留了所述第二输入层输入每一所述字向量的序列信息，所述序列信息反映了所述原始疾病名称中每个字的排列顺序，更加全面的提取了所述原始疾病名称的特征。

在一个可行的实施方式中，参照附图3所示，所述第二分析模型还包括根据双向长短期记忆神经网络模型构建所述第二隐藏层，所述第二分析模型根据根据所述初始数据的正向顺序对所有所述字向量进行特征提取，得到第四信息向量，根据所述初始数据的逆向顺序对所有所述字向量进行特征提取，得到第五信息向量，根据所述第四信息向量和所述第五信息向量计算得到所述第二信息向量。

需要说明的是，相较于长短期记忆神经网络模型，双向长短期记忆神经网络模型在保留每一所述字向量的所述第二信息向量，使其对下一个所述字向量的所述第二信息产生影响的同时，还分别按照所述原始疾病名称的正向顺序和逆向顺序对每一所述字向量进行特征提取。

在本实施方式中，将所有所述字向量按照所述原始疾病名称的正向顺序排列，得到第一序列信息；将所述第一序列信息输入长短期记忆神经网络模型进行特征提取和分析，依次得到第t₁个所述字向量对应的所述第四信息向量；将所有所述字向量按照所述原始疾病名称的逆向顺序排列，得到第二序列信息；将所述第二序列信息输入长短期记忆神经网络模型进行特征提取和分析，依次得到第t₂个所述字向量对应的所述第五信息向量。

需要说明的是，根据双向长短期记忆神经网络模型获取第t个所述字向量对应的所述第二信息向量的计算方法如下：

其中，为将所述第四信息向量和所述第五信息向量进行整合的函数，t₁为所述第一序列信息中所述字向量的排列序号，t₂为所述第二序列信息中所述字向量的排列序号，/>为所述第t个所述字向量在所述第二隐藏层提取到的特征向量。

需要说明的是，h（t₁-1）为在所述第一序列信息中第t₁-1个所述字向量的所述第二信息向量，h（t₂-1）为所述第二序列信息中第t₂-1个所述字向量的所述第二信息向量，用于对所述第四信息向量和所述第五信息向量进行整合，可以选择线性求和、取平均等方式，本发明不对/>的具体选择方式进行进一步限制。

需要说明的是，分别根据所述初始数据的正向顺序和逆向顺序对所有所述字向量进行特征分析和提取，得到的所述第二向量中同时包含了每个字在所述原始疾病名称中的正向顺序特征和逆向顺序特征，避免模型过分关注字与所述原始疾病名称之间的绝对位置关系，更加关注字与所述原始疾病的上下文和相对位置关系，例如所述原始疾病名称为“（I10.x14）高血压亚急症”，“高”字位于表所述原始疾病名称的第10位，从而片面地认为第10位为“高”字的所述原始疾病名称是“（I10.x14）高血压亚急症”。当模型同时学习正向顺序和逆向顺序，所述信息向量中，第10位（正向顺序）为“高”字的所述原始疾病名称和第6位（逆向顺序）为“高”字的所述原始疾病名称均代表“（I10.x14）高血压亚急症”，因此，模型在学习“（I10.x14）高血压亚急症”的特征时，会减少对具体数字“第10位”和“第6位”的关注，从而更加全面准确地反映所述原始疾病名称中字与字的顺序特征。

在一个可行的实施方式中，所述第二分析模型还包括根据最后一个输入所述第二隐藏层的所述字向量对应的所述第二信息向量计算得到所述第一信息向量。

需要说明的是，若所述第二隐藏层根据长短期记忆神经网络模型构建，则所述第一信息向量为最后一个输入所述第二隐藏层的所述字向量对应的所述第二信息向量；若所述第二隐藏层根据双向长短期记忆神经网络模型构建，则所述第一信息向量为将所述第一序列信息中最后一个所述字向量的所述第二信息向量和所述第二序列信息中最后一个所述字向量的所述第二信息向量整合得到，可以选择线性相加、取平均等方式进行整合，本发明不对具体的整合方式进行进一步限定。

需要说明的是，由于每一所述字向量的所述第二信息向量保留，对下一个所述字向量的所述第二信息向量产生影响，因此最后一个所述字向量的所述第二信息向量中包含了所述第一序列信息或所述第二序列信息中所有所述字向量的特征，由此可知，最后一个所述字向量的所述第二信息向量可以作为所述第一信息向量进行计算。

在本实施方式中，根据所述第二信息向量计算得到所述第一信息向量，避免再次对所有所述字向量进行特征提取和分析，减小分析工作量，提高分析效率。

在一个可行的实施方式中，所述第一分析模型的训练方法包括：

获取历史诊断数据中的原始疾病名称，所述第一分析模型的训练方法包括：

其中，所述历史诊断数据包括医嘱，但是其不限于此。

需要说明的是，将所述第一训练数据集的样本分别输入所述第一分析模型，得到对应预测向量，利用所述第一分析模型的损失函数计算所述预测向量和所述预设向量的分布差异，具体计算方法如下：

其中，MSE为均方误差函数，m为所述第一训练数据集中样本的数量，y_i为所述第一训练集中第i个样本的所述预设向量，x_i为所述第一训练数据集中的第i个样本，f（x_i）为所述第一训练数据集中的第i个样本的所述预测向量。

需要说明的是，根据所述第一分析模型的损失函数的值对所述第一分析模型进行训练，直到所述第一分析模型的损失函数的取值最小时停止训练。

需要说明的是，完成训练所述第一分析模型后，可以通过第一测试数据集对所述第一分析模型的性能参数进行测试，若所述性能参数不符合预设条件，则对所述第一分析模型的模型参数进行调整。所述性能参数包括准确率和计算时长，但是其不限于此。所述模型参数包括所述第一隐藏层中包含的计算层数，但是其不限于此。

其中，所述第一测试集的获取方法包括：

获取历史诊断数据中的原始疾病名称，随机划分为所述第一训练数据集和所述第一测试数据集。

在一个可行的实施方式中，所述第二分析模型的训练方法包括：

其中，所述历史诊断数据包括医嘱，但是其不限于此。

其中，所述预设分级标签为对历史诊断数据的原始疾病名称按照所述标准分级规则进行分级得到的所述第一分级标签。

需要说明的是，由于所述第二分析模型的输入是所述第一分析模型的输出，所以需要优先完成对所述第一分析模型的训练。

在本实施方式中，将所述第二训练数据集中样本输入训练好的所述第一分析模型，得到对应的所述字向量后，将对应的所有所述字向量输入所述第二分析模型，所述第二分析模型根据所述字向量对所述第二训练数据集中的每一样本进行分类，得到预测分级标签，根据所述第而分析模型的损失函数计算所述预测分级标签和所述预设分级标签的分布差异，具体如下：

其中，H（q，p）为交叉熵函数，q（x_j）为所述第二训练数据集中的第j个样本的所述预设分级标签，q（x_j）为所述第二训练数据集中的第j个样本的所述预测分级标签，n为所述第二训练数据集中样本的数量。

在本实施方式中，根据所述第二分析模型的损失函数的值对所述第二分析模型进行训练，直到所述第二分析模型的损失函数的值达到最小，则停止训练。

需要说明的是，完成训练所述第二分析模型后，可以通过第二测试数据集对所述第二分析模型的性能参数进行测试，若所述性能参数不符合预设条件，则对所述第二分析模型的模型参数进行调整。所述性能参数包括准确率和计算时长，但是其不限于此。所述模型参数包括所述第二隐藏层中包含的计算层数，但是其不限于此。

在一个可行的实施方式中，所述第二训练数据集的获取方法还包括根据所述标准分级规则对所述第一训练数据集的样本进行分级得到对应的所述预设分级标签，根据所述预设分级标签和所述第一训练数据集得到所述第二训练数据集。

需要说明的是，由于所述第二分析模型的输入为所述第一分析模型的输出，因此所述第二分析模型的训练需要在完成所述第一分析模型的训练之后，所述第一分析模型的准确率会影响所述第二分析模型的准确率，根据所述第一分析模型的所述第一训练数据集得到所述所述第二分析模型的所述第二训练数据集，一方面实现对数据集的充分利用，避免由于数据集的样本数量过少，使得难以完成对两个模型训练，另一方面所述第一测试数据集先完成对所述第一分析模型的训练，所述第一分析模型学习了所述第一训练数据集中的特征，所述第一分析模型对所述第一训练数据集的预测准确率高，再将所述第一训练数据集输入所述第二分析模型进行训练，避免新的测试数据集中数据的特征不确定性影响由导致所述第一分析模型预测结果的不准确，进一步影响对所述第二分析模型的学习结果。

在一个可行的实施方式中，参照附图5所示，所述系统还包括对所述标准分级规则和/或所述标准分级标签进行修改时，采用迁移学习的方式对所述第一分析模型和所述第二信息模型进行更新。

在本实施方式中，当对所述标准分级规则进行更新时，根据新的所述标准分级规则获取新的训练数据集，根据新的训练数据集对所述第一分析模型进行更新，保留所述第二分类模型的所述第二输入层和所述第二隐藏层结构和权重参数，将新的训练数据集用于训练所述第二输出层，从而实现新的分类，得到新的分级结果。

需要说明的是，在所述第二分析模型中，更新所述标准分级规则前和更新所述标准分级规则后在数据输入、特征分析和提取阶段完全相同，仅仅在根据特征进行分类时，分类的权重参数存在差异，因此仅仅需要重新对所述第二输出层根据新的所述标准分级规则进行训练，得到新的分类权重参数，从而实现对所述第二分析模型的训练。

需要说明的是，在医学的发展过程中，疾病名称的格式及分类方式在不断的更新变化，利用迁移学习方法对所述标准分级规则进行更新，避免由于所述标准分级规则的变化导致对整个系统需要重新从0开始构建模型结构、训练所述第一分析模型和所述第二分析模型，减少更新模型的训练量，提高更新效率。

参照附图6所示，本申请实施例提供一种电子设备，包括：处理器和存储器，处理器和存储器通过通信总线和/或其他形式的连接机构（未标出）互连并相互通讯，存储器存储有处理器可执行的计算机程序，当计算设备运行时，处理器执行该计算机程序，以执行上述实施例的任一可选的实施方式中的系统。

本申请实施例提供一种存储介质，所述计算机程序被处理器执行时，执行上述实施例的任一可选的实施方式中的系统。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random AccessMemory，简称SRAM），电可擦除可编程只读存储器（Electrically Erasable ProgrammableRead-Only Memory，简称EEPROM），可擦出可编程只读存储器（Erasable ProgrammableRead-Only Memory，简称EPROM），可编程只读存储器（Programmable Read-Only Memory，简称PROM），只读存储器（Read-Only Memory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。

本申请所提供的实施例中，应该理解到，所揭露系统可以通过其他的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

本文中使用了流程图用来说明通过本公开的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时评价各种步骤。同时，也可以将其他操作添加到这些过程中。

除非另有定义，这里使用的所有术语具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上对所提供的一种基于深度学习实现疾病名称标准化分级的系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明仅为本申请的实施例而已，只是用于帮助理解本申请的一种基于深度学习实现疾病名称标准化分级的系统，并不用于限制本申请的保护范围；同时，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的和精神和原则之内，所作的任何修改、等同替换，均应包含在本申请的保护范围之内。

Claims

1.一种基于深度学习实现疾病名称标准化分级的系统，其特征在于，包括：

其中，所述第一预设距离的取值为正整数；

第二分析模块，用于将所述初始数据的所有所述字向量输入第二分析模型，所述第二分析模型对所述字向量进行特征提取，根据所述第一分级标签对所述初始数据进行分类，输出第一分级结果。

2.根据权利要求1所述的一种基于深度学习实现疾病名称标准化分级的系统，其特征在于，所述第二分析模型包括：

第二输入层，用于加载所述初始数据的所有所述字向量；

3.根据权利要求2所述的一种基于深度学习实现疾病名称标准化分级的系统，其特征在于，所述第二分析模型还包括根据长短期记忆神经网络模型构建所述第二隐藏层，所述第二分析模型根据预设顺序对每一所述字向量进行特征提取，得到对应的所述第二信息向量。

4.根据权利要求2所述的一种基于深度学习实现疾病名称标准化分级的系统，其特征在于，所述第二分析模型还包括根据双向长短期记忆神经网络模型构建所述第二隐藏层，所述第二分析模型根据根据所述初始数据的正向顺序对所有所述字向量进行特征提取，得到第四信息向量，根据所述初始数据的逆向顺序对所有所述字向量进行特征提取，得到第五信息向量，根据所述第四信息向量和所述第五信息向量计算得到所述第二信息向量。

5.根据权利要求3或4所述的一种基于深度学习实现疾病名称标准化分级的系统，其特征在于，所述第二分析模型还包括根据最后一个输入所述第二隐藏层的所述字向量对应的所述第二信息向量计算得到所述第一信息向量。

6.根据权利要求1-4任意一项所述的一种基于深度学习实现疾病名称标准化分级的系统，其特征在于，所述第一分析模型的训练方法包括：

7.根据权利要求6所述的一种基于深度学习实现疾病名称标准化分级的系统，其特征在于，所述第二分析模型的训练方法包括：

8.根据权利要求7所述的一种基于深度学习实现疾病名称标准化分级的系统，其特征在于，所述第二训练数据集的获取方法还包括：

根据所述标准分级规则对所述第一训练数据集每一样本进行分级得到对应的所述预设分级标签，根据所述预设分级标签和所述第一训练数据集得到所述第二训练数据集。

9.根据权利要求8所述的一种基于深度学习实现疾病名称标准化分级的系统，其特征在于，所述标准分级规则包括ICD-10，根据ICD-10中记录的疾病名称建立所述第一训练数据集和所述第二训练数据集。

10.根据权利要求1所述的一种基于深度学习实现疾病名称标准化分级的系统，其特征在于，所述系统还包括对所述标准分级规则和/或所述标准分级标签进行修改时，采用迁移学习的方式对所述第一分析模型和所述第二分析模型进行训练。