CN111063445A

CN111063445A - 基于医疗数据的特征提取方法及装置、设备和介质

Info

Publication number: CN111063445A
Application number: CN201911249537.0A
Authority: CN
Inventors: 胥世承; 彭滔; 朱彤; 艾杰
Original assignee: Tianjin Xinkaixin Life Technology Co ltd; Tianjin Happy Life Technology Co ltd
Current assignee: Tianjin Xinkaixin Life Technology Co ltd; Tianjin Happy Life Technology Co ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-24

Abstract

本公开是关于一种基于医疗数据的特征提取方法及装置、电子设备以及计算机可读存储介质，涉及数据挖掘技术领域，可以应用于从海量的医疗数据中提取特征数据的场景。该基于医疗数据的特征提取方法包括：获取待处理数据；其中，待处理数据包括医疗数据；基于医疗数据确定多个待处理字段，并确定各待处理字段的字段类型；根据字段类型确定与待处理字段对应的参考字段，并基于字段类型确定待处理字段与参考字段之间的相似度；将确定出的相似度作为医疗数据对应的特征数据。本公开可以对医疗数据中不同字段类型的待处理字段计算相似度，并将计算出的相似度作为特征数据，该方法可以从海量的医疗数据中提取出更精细的信息。

Description

基于医疗数据的特征提取方法及装置、设备和介质

技术领域

本公开涉及数据挖掘技术领域，具体而言，涉及一种基于医疗数据的特征提取方法、基于医疗数据的特征提取装置、电子设备以及计算机可读存储介质。

背景技术

在大数据分析与挖掘技术领域中，获取到的海量数据不可避免的存在一些数据问题，例如数据缺失、数据错误、数据不规范等。而对问题数据进行标准化是一切数据研究的前提。

在医疗场景下，数据标准化主要包括五大常见的分类：检验归一、检查归一、药品归一、手术诊断名称归一、诊断名称归一等。现有的标准化方法中，通常是将待标准化的检验项目与标准表的中项目进行对比，而对比过程中最重要的是如何确定相似度特征的提取。

目前，对于文本字段通常采用先分词再判断的方法，然而，这种方法强依赖于分词准确性，一旦切词出现错误，将对相似度计算产生非常大的影响。对于检验项目中的数值、单位等字段，仅判断其与标准表中的项目是否相同，该判断方法易导致提取出的信息不全，从而影响标准化结果。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种基于医疗数据的特征提取方法、基于医疗数据的特征提取装置、电子设备以及计算机可读存储介质，进而至少在一定程度上克服由于现有医疗数据标准化方法中无法提取出较为精细的特征信息的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本公开的第一方面，提供一种基于医疗数据的特征提取方法，包括：获取待处理数据；其中，待处理数据包括医疗数据；基于医疗数据确定多个待处理字段，并确定各待处理字段的字段类型；根据字段类型确定与待处理字段对应的参考字段，并基于字段类型确定待处理字段与参考字段之间的相似度；将确定出的相似度作为医疗数据对应的特征数据。

可选的，根据字段类型确定与待处理字段对应的参考字段，包括：获取与医疗数据对应的参考数据集；根据字段类型从参考数据集中确定与待处理字段对应的参考字段。

可选的，字段类型包括文本类型，基于字段类型确定待处理字段与参考字段之间的相似度，包括：将字段类型为文本类型的待处理字段作为文本类型字段；从参考数据集中确定与文本类型字段对应的参考文本字段；计算文本类型字段与参考文本字段之间的相似度作为第一相似度。

可选的，基于字段类型确定待处理字段与参考字段之间的相似度，还包括：对文本类型字段进行切词处理以生成目标切词集合；对参考文本字段进行切词处理以生成参考切词集合；计算参考切词集合与目标切词集合之间的文本相似度作为第二相似度。

可选的，基于字段类型确定待处理字段与参考字段之间的相似度，还包括：对文本类型字段进行音节转换处理以得到目标音节字段；对参考字段进行音节转换处理以得到参考音节字段；计算目标音节字段与参考音节字段之间的音节相似度作为第三相似度。

可选的，字段类型包括单位类型，基于字段类型确定待处理字段与参考字段之间的相似度，包括：将字段类型为单位类型的待处理字段作为目标单位字段；从参考数据集中确定与目标单位字段对应的参考单位字段；根据目标单位字段与参考单位字段之间能否进行单位换算确定单位相似度。

可选的，字段类型包括数值类型，基于字段类型确定待处理字段与参考字段之间的相似度，包括：将字段类型为数值类型的待处理字段作为目标数值字段；从参考数据集中确定与目标数值字段对应的参考数值字段；计算目标数值字段与参考数值字段之间的数值相似度。

可选的，计算目标数值字段与参考数值字段之间的数值相似度，包括：判断是否存在与目标数值字段对应的目标单位字段；若是，则基于参考数值字段对目标数值字段进行数值转换处理，以得到转换后的转换数值字段；基于转换数值字段与目标数值字段的比值确定第一数值相似度；若否，则基于参考数值字段与目标数值字段的比值确定第二数值相似度。

根据本公开的第二方面，提供一种基于医疗数据的特征提取装置，包括：数据获取模块，用于获取待处理数据；其中，待处理数据包括医疗数据；字段确定模块，用于基于医疗数据确定多个待处理字段，并确定各待处理字段的字段类型；相似度确定模块，用于根据字段类型确定与待处理字段对应的参考字段，并基于字段类型确定待处理字段与参考字段之间的相似度；特征数据确定模块，用于将确定出的相似度作为医疗数据对应的特征数据。

可选的，相似度确定模块包括参考字段确定单元，用于获取与医疗数据对应的参考数据集；根据字段类型从参考数据集中确定与待处理字段对应的参考字段。

可选的，相似度确定模块包括第一相似度确定单元，用于将字段类型为文本类型的待处理字段作为文本类型字段；从参考数据集中确定与文本类型字段对应的参考文本字段；计算文本类型字段与参考文本字段之间的相似度作为第一相似度。

可选的，相似度确定模块包括第二相似度确定单元，用于对文本类型字段进行切词处理以生成目标切词集合；对参考文本字段进行切词处理以生成参考切词集合；计算参考切词集合与目标切词集合之间的文本相似度作为第二相似度。

可选的，相似度确定模块包括第三相似度确定单元，用于对文本类型字段进行音节转换处理以得到目标音节字段；对参考字段进行音节转换处理以得到参考音节字段；计算目标音节字段与参考音节字段之间的音节相似度作为第三相似度。

可选的，相似度确定模块包括单位相似度确定单元，用于将字段类型为单位类型的待处理字段作为目标单位字段；从参考数据集中确定与目标单位字段对应的参考单位字段；根据目标单位字段与参考单位字段之间能否进行单位换算确定单位相似度。

可选的，相似度确定模块包括数值相似度确定单元，用于将字段类型为数值类型的待处理字段作为目标数值字段；从参考数据集中确定与目标数值字段对应的参考数值字段；计算目标数值字段与参考数值字段之间的数值相似度。

可选的，数值相似度确定单元包括相似度确定子单元，用于判断是否存在与目标数值字段对应的目标单位字段；若是，则基于参考数值字段对目标数值字段进行数值转换处理，以得到转换后的转换数值字段；基于转换数值字段与目标数值字段的比值确定第一数值相似度；若否，则基于参考数值字段与目标数值字段的比值确定第二数值相似度。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的基于医疗数据的特征提取方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据上述任意一项所述的基于医疗数据的特征提取方法。

本公开提供的技术方案可以包括以下有益效果：

本公开的示例性实施例中的基于医疗数据的特征提取方法，获取到待处理的医疗数据后，可以从医疗数据中确定多个待处理字段以及各待处理字段的字段类型，根据字段类型确定与待处理字段对应的参考字段，并基于字段类型计算两者的相似度，将计算出的相似度作为医疗数据的特征数据。一方面，由于医疗数据的数据格式的特殊性，可以先从待处理医疗数据中提取出多个不同字段类型的待处理字段，以便确定与各待处理字段对应的参考字段。另一方面，根据字段类型可以确定出处理字段与对应的参考字段之间的相似度，不同字段类型的处理字段的相似度计算方法不同，可以针对字段类型对待处理字段的相似度进行针对性处理，能够从医疗数据的不同待处理字段中提取出更精细的信息。再一方面，将计算出的相似度作为特征数据，可以作为后续机器学习模型的输入，为完整的数据归一过程提供数据支持。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本公开的示例性实施方式的基于医疗数据的特征提取方法的流程图；

图2示意性示出了根据本公开的示例性实施方式的针对医疗数据进行数据归一化处理的流程图；

图3示意性示出了根据本公开的示例性实施方式的对未经过分词处理的参考文本字段进行特征提取的流程图；

图4示意性示出了根据本公开的示例性实施方式的对经过分词处理后生成的目标切词集合进行特征提取的流程图；

图5示意性示出了根据本公开的示例性实施方式的对经过音节转换处理的目标音节字段进行特征提取的流程图；

图6示意性示出了根据本公开的示例性实施方式的对目标单位字段进行特征提取的流程图；

图7示意性示出了根据本公开的示例性实施方式的对目标数值字段进行特征提取的流程图；

图8示意性示出了根据本公开的示例性实施方式的针对不同字段类型的医疗数据进行特征提取的流程图；

图9示意性示出了根据本公开的示例性实施方式的基于医疗数据的特征提取装置的方框图；

图10示意性示出了根据本公开一示例性实施例的电子设备的框图；

图11示意性示出了根据本公开一示例性实施例的计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

目前，在医疗数据的数据标准化问题中常见的分类包括：检验归一、检查归一、药品归一、手术诊断名称归一、诊断名称归一等。以检验归一为例，检验归一存在的主要问题包括：检验项目繁杂、检验项目名称存在一些意义不明确的符号、数据前后矛盾、数据缺失等。在标准化过程中，将医疗数据中包含的文本、单位、数值等信息转化为一些可计算的特征，这一步骤至关重要。然而，目前采用的先切词再判断的方法，强依赖于分词准确性，对相似度的计算结果影响较大；另外，对于单位和数值等字段的判断方法较为简单，导致提取出的信息不全，从而影响最终标准化的结果。

基于此，在本示例实施例中，首先提供了一种基于医疗数据的特征提取方法，可以利用服务器来实现本公开的用基于医疗数据的特征提取方法，也可以利用终端设备来实现本公开所述的方法，其中，本公开中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、个人数字助理(Personal Digital Assistant，PDA)等移动终端，以及诸如台式计算机等固定终端。图1示意性示出了根据本公开的一些实施例的基于医疗数据的特征提取方法流程的示意图。参考图1，该基于医疗数据的特征提取方法可以包括以下步骤：

步骤S110，获取待处理数据；其中，待处理数据包括医疗数据；

步骤S120，基于医疗数据确定多个待处理字段，并确定各待处理字段的字段类型。

步骤S130，根据字段类型确定与待处理字段对应的参考字段，并基于字段类型确定待处理字段与参考字段之间的相似度。

步骤S140，将确定出的相似度作为医疗数据对应的特征数据。

根据本示例实施例中的基于医疗数据的特征提取方法，一方面，由于医疗数据的数据格式的特殊性，可以先从待处理医疗数据中提取出多个不同字段类型的待处理字段，以便确定与各待处理字段对应的参考字段。另一方面，根据字段类型可以确定出处理字段与对应的参考字段之间的相似度，不同字段类型的处理字段的相似度计算方法不同，可以针对字段类型对待处理字段的相似度进行针对性处理，能够从医疗数据的不同待处理字段中提取出更精细的信息。再一方面，将计算出的相似度作为特征数据，可以作为后续机器学习模型的输入，为完整的数据归一过程提供数据支持。

下面，将对本示例实施例中的基于医疗数据的特征提取方法进行进一步的说明。

在步骤S110中，获取待处理数据；其中，待处理数据包括医疗数据。

在本公开的一些示例性实施方式中，待处理数据可以是需要进行数据标准化处理的数据，可以从待处理数据中提取特征数据。医疗数据可以是医疗场景中相关的数据，医疗数据可以包括各类检验项目的检验结果数据，医生对患者进行健康检查得到的检查结果数据；也可以包括各类药品信息数据；还可以包括各类手术诊断名称数据等。本公开对医疗数据的具体数据类型不作任何特殊限定。

在步骤S120中，基于医疗数据确定多个待处理字段，并确定各待处理字段的字段类型。

在本公开的一些示例性实施方式中，待处理字段可以是从医疗数据中确定出的多个字段。由于医疗数据中可以包含多种不同类型的数据，因此，可以从医疗数据中根据不同的字段类型确定出多个待处理字段。在本示例实施方式中，以检验结果数据为例，一份化验单中可以包括文本信息，也可以包括与文本信息对应的化验项目对应的单位信息，还可以包括某一化验结果对应的数值信息等。举例而言，化验报告单中一般可以包括检验的项目名称、检验结果、单位、参考值等内容。例如，在“血常规”化验报告单中的“白细胞计数”项目，该项目的具体内容为：“‘项目名称：白细胞计数’、‘检验结果：3.98’、‘单位：10⁹/L’、‘参考值：3.69-9.16’”。由此可以看出，这些数据中可以包含文本数据、具有特定格式的单位数据、数值数据等。

字段类型可以是确定出的各个待处理字段对应的数据类型。例如，以检验项目中确定出的待处理字段为例，待处理字段的字段类型可以包括文本类型、单位类型、数值类型等。基于医疗数据确定出多个待处理字段后，可以根据待处理字段的具体含义、数据格式等划分各个待处理字段的字段类型。

在步骤S130中，根据字段类型确定与待处理字段对应的参考字段，并基于字段类型确定待处理字段与参考字段之间的相似度。

在本公开的一些示例性实施方式中，参考字段可以是与待处理字段进行对比的字段。相似度可以是反映待处理字段与参考字段之间的相似程度的数值类型的数据。计算出相似度后，可以将一个相似度作为一种特征数据，用于后续的数据归一化处理。根据字段类型确定出与待处理字段对应的参考字段后，可以根据待处理字段的字段类型确定计算与参考字段之间的相似度的计算方法。

参考图2，图2示意性示出了针对医疗数据进行数据归一化处理的完整流程图。在步骤S210～步骤S230中，可以确定出医疗数据中的待归一项目，并获取与待归一项目对应的标准数据集，参考标准数据集从待归一项目中提取归一特征，在步骤S240～步骤S250中，将提取出的归一特征输入至机器学习模型中进行训练，以得到数据归一化结果，完成对医疗数据的归一化处理。本公开重点对特征提取所进行的处理进行阐述。

根据本公开的一些示例性实施例，获取与医疗数据对应的参考数据集；根据字段类型从参考数据集中确定与待处理字段对应的参考字段。参考数据集，又称标准数据集，可以是预先配置的用于与待处理数据进行对比的数据集。获取到医疗数据后，可以基于获取到的医疗数据确定出与之对应的参考数据集。从医疗数据中确定出多个待处理字段后，可以根据待处理字段的字段类型从参考数据集中确定与其对应的参考字段，以便计算参考字段和待处理字段之间的相似度。

根据本公开的另一示例性实施例，将字段类型为文本类型的待处理字段作为文本类型字段；从参考数据集中确定与文本类型字段对应的参考文本字段；计算文本类型字段与参考文本字段之间的相似度作为第一相似度。文本类型可以是待处理字段对应的一种数据类型。文本类型字段可以是字段类型为文本类型的待处理字段，文本类型字段可以是从医疗数据中直接获取到的文本类型，且未经其他处理的待处理字段。参考文本字段可以是基于参考数据集确定的，用于与文本类型字段进行对比的参考文本。第一相似度可以是针对文本类型字段与对应的参考字段进行对比后，计算得到的相似度。

参考图3，图3示意性示出了对未经过分词处理的参考文本字段进行特征提取的流程图。在步骤S310～步骤S330中，确定出文本类型字段后，可以从参考数据集中确定出与之对应的参考文本字段，进而，计算文本类型字段和参考文本字段之间的相似度。

在本示例实施例中，可以采用编辑距离确定文本类型字段与对应的参考文本字段之间的相似度。编辑距离，又称莱文斯坦距离(Levenshtein距离)，指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。其中，许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。计算出文本类型字段和参考字段之间的编辑距离后，可以将编辑距离作为两者相似度的确定依据。举例而言，目标文本字段为“白*细胞”，参考文本字段为“白细胞”，则两者之间的编辑距离为1。

根据本公开的又一示例性实施例，对文本类型字段进行切词处理以生成目标切词集合；对参考文本字段进行切词处理以生成参考切词集合；计算参考切词集合与目标切词集合之间的文本相似度作为第二相似度。切词处理，又称分词处理，可以是将连续的字序列按照一定的规范重新组合成词序列的过程。由于中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，因此，对于中文的分词处理通常较为复杂。目标切词集合可以将文本类型字段进行切词处理后得到的由多个词组成的集合。参考切词集合可以对参考字段进行切词处理后形成的词集合。第二相似度可以是对参考切词集合和目标切词集合进行对比后，计算得出的相似度。

参考图4，图4示意性示出了对经过分词处理后生成的目标切词集合进行特征提取的流程图，在步骤S410～步骤S430中，可以对文本类型字段进行切词处理得到目标切词集合，并确定出与之对应的参考切词集合，进而计算目标切词集合与参考切词集合之间的相似度。

通常，在计算两个文本之间的相似度时，可以使用先分词再判断的方法来计算两者之间的相似度。在计算两个文本之间的相似度时，可以先使用分词器对于两段文本进行切词，之后再计算切分后的两个词集合之间的皮尔逊相关系数(Pearson CorrelationCoefficient)以确定第二相似度。具体的，本示例实施例中的皮尔逊相关系数可以表示相同词总数与不同词总数的比值。

举例而言，目标切词集合为{板蓝根，冲剂，氯雷他定，片，阿莫西林，胶囊，奥美拉唑}，参考切词集合为{板蓝根，颗粒，氯雷他定，颗粒，阿莫西林，胶囊，阿司匹林}，其中，目标切词集合与参考切词集合的相同词总数为4，不同词总数为3，则两者的皮尔逊相关系数为4/3，即第二相似度为4/3。

根据本公开的一些示例性实施例，对文本类型字段进行音节转换处理以得到目标音节字段；对参考字段进行音节转换处理以得到参考音节字段；计算目标音节字段与参考音节字段之间的音节相似度作为第三相似度。音节转换处理可以对文本类型字段的文本转换为对应的音节的处理过程。目标音节字段可以经音节转换处理后，与文本类型字段对应的音节字段。参考音节字段可以是与目标文本字段进行对比的参考字段所对应的音节字段。对参考字段进行音节转换处理后，可以得到参考音节字段。音节相似度可以对目标音节字段与参考音节字段之间的编辑距离。第三相似度可以对目标音节字段与参考音节字段进行进行对比后，计算得到的相似度。

参考图5，图5示意性示出了对经过音节转换处理的目标音节字段进行特征提取的流程图，在步骤S510～步骤S530中，可以对文本类型字段进行音节转换处理得到目标音节字段，并确定出与之对应的参考音节字段，进而计算目标音节字段与参考音节字段之间的相似度。

对文本类型字段进行音节转换处理后，可以得到目标音节字段；对参考字段进行音节转换处理后可以得到参考音节字段。确定出目标音节字段和参考音节字段后，可以计算两者之间的相似度。具体的，第三相似度可以通过计算目标音节字段和参考音节字段两者之间的编辑距离而得出。

例如，文本类型字段的文本值为“白系胞计数”，而对应的参考字段的文本值为“白细胞计数”，则文本类型字段对应的音节可以是“baixibaojishu”，参考字段对应的音节也为“baixibaojishu”，因此，两个音节字段之间的编辑距离为0。

针对文本类型字段，通过以上三个维度的相似度计算，可以最大程度地从医疗数据中提取出更精细的信息，以便后续对数据进行归一化处理。

根据本公开的一些示例性实施例，将字段类型为单位类型的待处理字段作为目标单位字段；从参考数据集中确定与目标单位字段对应的参考单位字段；根据目标单位字段与参考单位字段之间能否进行单位换算确定单位相似度。单位类型可以是待处理字段可能对应的一种数据类型。目标单位字段可以是字段类型为单位类型的待处理字段，例如，检验项目中包含的“蛋白质”对应的单位为“g/L”。参考单位字段可以是基于参考数据集确定的，用于与目标单位字段进行对比的单位字段。单位相似度可以是目标单位字段与参考单位字段进行对比后，确定出的相似度。

参考图6，图6示意性示出了对目标单位字段进行特征提取的流程图，在步骤S610～步骤S630中，可以将字段类型为单位类型的待处理字段作为目标单位字段，以及与目标单位字段对应的参考单位字段，并计算目标单位字段与参考单位字段之间的相似度。

当待处理字段为目标单位字段时，从参考数据集中确定出与目标单位字段对应的参考单位字段，并判断目标单位字段与参考单位字段之间能否进行单位换算，以根据两者之间是否可以进行单位换算来确定单位相似度。当目标单位字段与参考单位字段之间可以进行单位换算时，确定两者的单位相似度为1；当目标单位字段与参考单位字段之间不能进行单位换算时，确定两者的单位相似度为0。举例而言，如果目标单位字段为“mg/L”，参考单位字段为“g/L”，则认为两者之间可以进行单位划算，因此，确定两者的单位相似度为1；如果目标单位字段为“％”，参考单位字段为“g/L”，则认为两者之间不能进行单位划算，因此，确定两者的单位相似度为0。

根据本公开的另一示例性实施例，将字段类型为数值类型的待处理字段作为目标数值字段；从参考数据集中确定与目标数值字段对应的参考数值字段；计算目标数值字段与参考数值字段之间的数值相似度。数值类型可以是数据类型为数值时所对应的字段类型。目标数值字段可以是字段类型为数值类型的待处理字段。参考数值字段可以是从标准数据集中确定出的，用于与目标数值字段进行对比的数值字段。数值相似度可以是将目标数值字段与参考数值字段进行对比后确定出的相似度。

参考图7，图7示意性示出了对目标数值字段进行特征提取的流程图，在步骤S710～步骤S730中，可以将数值类型的待处理字段确定为目标单位字段，以及与目标单位字段对应的参考单位字段，并计算目标数值字段与参考数值字段之间的相似度。

当待处理字段为目标数值字段时，可以从参考数据集中确定出与目标数值字段对应的参考数值字段，将目标数值字段与参考数值字段进行对比后，可以计算出两者之间的数值相似度。

根据本公开的又一示例性实施例，判断是否存在与目标数值字段对应的目标单位字段；若是，则基于参考数值字段对目标数值字段进行数值转换处理，以得到转换后的转换数值字段；基于转换数值字段与目标数值字段的比值确定第一数值相似度；若否，则基于参考数值字段与目标数值字段的比值确定第二数值相似度。当获取到目标数值字段时，可以基于医疗数据判断该目标数值字段是否存在对应的目标单位字段，该目标单位字段可以是与目标数值字段对应的单位字段。转换数值字段可以是将目标数值字段对应的目标单位字段与参考单位字段进行单位换算，以形成统一的单位格式后，目标数值字段对应的转换后的数值字段。第一数值相似度可以是基于目标单位字段将目标数值字段与参考数值字段进行对比后，计算出的相似度。第二数值相似度可以是未以目标单位字段为基础，对目标数值字段与参考数值字段进行对比处理后，计算出的相似度。

如果医疗数据中存在与目标数值字段对应的目标单位字段，则标准数据集中存在与参考数值字段对应的参考单位字段。因此，可以先根据目标单位字段与参考单位字段之间的对应的关系，将目标数值字段进行单位换算，使目标单位字段与参考单位字段换算成统一的单位格式，同时对目标数值字段换算成转换数值字段，进行相似度的计算，得到第一数值相似度，可以将转换数值字段和参考数值字段的比值作为第一数值相似度。

如果医疗数据中不存在与目标数值字段对应的目标单位字段，则直接将目标数值字段与参考数值字段进行对比，计算得到第二数值相似度，可以将目标数值字段与参考数值字段的比值作为第二数值相似度。这种不基于单位字段进行数值对比的方法，可以应对单位字段为缺失或填写有误的情况。

在步骤S140中，将确定出的相似度作为医疗数据对应的特征数据。

在本公开的一些示例性实施方式中，特征数据可以是表示从医疗数据中提取出的用于表示医疗数据的数据特征的数据。特征数据可以是任何可计算的数据的数据类型，例如向量类型数据。将确定出的不同字段类型的字段相似度作为医疗数据对应的特征数据，以便后续将这些特征数据作为机器学习模型的输入，对特征数据进行训练，以完成数据归一过程。

参考图8，图8示意性示出了针对不同字段类型的医疗数据进行特征提取的流程图。图8中示出了确定参考字段810可能包含的字段类型，包含文本类型、数值类型和单位类型，分别提取三种数据中的特征数据，包括数值类型特征820、文本类型特征830、单位类型特征840；其中，文本类型特征830可以包括对目标文本字段进行切词后计算出的切词后文本相似度860、未进行切词处理的文本编辑距离870以及对目标文本字段进行音节转换后对音节的计算的编辑距离880。数值类型特征820包括对目标数值字段与参考数值字段进行比值计算的计算结果850。单位类型特征840可以包括通过判断单位能否转化确定出的特征890。

举例而言，例如，待处理的医疗数据为“红细胞计数，单位：10^9/ml，高值：100”，从参考数据集中确定的参考数据为“红细胞百分比，单位：％，高值：90”，则通过本示例实施例的体征提取方法，确定出的相似度分别为：名称相似度为90％、单位相似度为0、高值相似度我90％。

需要说明的是，本公开所使用的术语“第一”、“第二”、“第三”等，仅是为了区分不同的相似度或者是不同的数值相似度，并不应对本公开造成任何限制。

综上所述，获取到待处理的医疗数据后，可以从医疗数据中确定多个待处理字段以及各待处理字段的字段类型，根据字段类型确定与待处理字段对应的参考字段，并基于字段类型计算两者的相似度，将计算出的相似度作为医疗数据的特征数据。一方面，由于医疗数据的数据格式的特殊性，可以先从待处理医疗数据中提取出多个不同字段类型的待处理字段，以便根据待处理字段的字段类型分别对各种类型的待处理字段进行相似度计算。另一方面，针对文本类型字段，分别计算切词后的文本相似度、未切词的文本相似度以及将文本转换为音节后对应的文本相似度，通过多种维度计算文本相似度；对于数值类型字段和单位类型字段，都分别采用对应的相似度计算方法，可以大大提高数据标准化过程中提取到的特征信息的丰富程度。再一方面，将计算出的相似度作为特征数据，可以作为后续机器学习模型的输入，在训练过程中，能够提高标准化结果的准确率和召回率。

需要说明的是，尽管在附图中以特定顺序描述了本发明中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

此外，在本示例实施例中，还提供了一种基于医疗数据的特征提取装置。参考图9，该基于医疗数据的特征提取装置可以包括：数据获取模块910、字段确定模块920、相似度确定模块930以及特征数据确定模块940。

具体的，数据获取模块910可以用于获取待处理数据；其中，待处理数据包括医疗数据；字段确定模块920可以用于基于医疗数据确定多个待处理字段，并确定各待处理字段的字段类型；相似度确定模块930可以用于根据字段类型确定与待处理字段对应的参考字段，并基于字段类型确定待处理字段与参考字段之间的相似度；特征数据确定模块940可以用于将确定出的相似度作为医疗数据对应的特征数据。

基于医疗数据的特征提取装置900可以从待处理的医疗数据中获取多个待处理字段，并确定待处理字段的字段类型，根据字段类型确定出与待处理字段对应的参考字段，并针对待处理字段和参考字段进行相似度计算，将计算出的相似度作为医疗数据对应的特征数据，根据字段类型进行针对性的特征提取，能够从医疗数据中提取出更精细的信息，以便作为后续机器学习模型的输入，完成数据标准化处理过程，是一种行之有效的基于医疗数据的特征提取装置。

在本公开的一种示例性实施方案中，基于前述方案，相似度确定模块包括参考字段确定单元，参考字段确定单元被配置为：获取与医疗数据对应的参考数据集；根据字段类型从参考数据集中确定与待处理字段对应的参考字段。

在本公开的一种示例性实施方案中，基于前述方案，相似度确定模块包括第一相似度确定单元，第一相似度确定单元被配置为：将字段类型为文本类型的待处理字段作为文本类型字段；从参考数据集中确定与文本类型字段对应的参考文本字段；计算文本类型字段与参考文本字段之间的相似度作为第一相似度。

在本公开的一种示例性实施方案中，基于前述方案，相似度确定模块包括第二相似度确定单元，第二相似度确定单元被配置为：对文本类型字段进行切词处理以生成目标切词集合；对参考文本字段进行切词处理以生成参考切词集合；计算参考切词集合与目标切词集合之间的文本相似度作为第二相似度。

在本公开的一种示例性实施方案中，基于前述方案，相似度确定模块包括第三相似度确定单元，第三相似度确定单元被配置为：对文本类型字段进行音节转换处理以得到目标音节字段；对参考字段进行音节转换处理以得到参考音节字段；计算目标音节字段与参考音节字段之间的音节相似度作为第三相似度。

在本公开的一种示例性实施方案中，基于前述方案，相似度确定模块包括单位相似度确定单元，单位相似度确定单元被配置为：将字段类型为单位类型的待处理字段作为目标单位字段；从参考数据集中确定与目标单位字段对应的参考单位字段；根据目标单位字段与参考单位字段之间能否进行单位换算确定单位相似度。

在本公开的一种示例性实施方案中，基于前述方案，相似度确定模块包括数值相似度确定单元，数值相似度确定单元被配置为：将字段类型为数值类型的待处理字段作为目标数值字段；从参考数据集中确定与目标数值字段对应的参考数值字段；计算目标数值字段与参考数值字段之间的数值相似度。

在本公开的一种示例性实施方案中，基于前述方案，数值相似度确定单元包括相似度确定子单元，相似度确定子单元被配置为：判断是否存在与目标数值字段对应的目标单位字段；若是，则基于参考数值字段对目标数值字段进行数值转换处理，以得到转换后的转换数值字段；基于转换数值字段与目标数值字段的比值确定第一数值相似度；若否，则基于参考数值字段与目标数值字段的比值确定第二数值相似度。

上述中各虚拟基于医疗数据的特征提取装置模块的具体细节已经在对应的基于医疗数据的特征提取方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了基于医疗数据的特征提取装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

下面参照图10来描述根据本发明的这种实施例的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030、显示单元1040。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1010执行，使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022，还可以进一步包括只读存储单元(ROM)1023。

存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024，这样的程序模块1025包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1070(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图11所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1100，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种基于医疗数据的特征提取方法，其特征在于，包括：

获取待处理数据；其中，所述待处理数据包括医疗数据；

基于所述医疗数据确定多个待处理字段，并确定各所述待处理字段的字段类型；

根据所述字段类型确定与所述待处理字段对应的参考字段，并基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度；

将确定出的所述相似度作为所述医疗数据对应的特征数据。

2.根据权利要求1所述的基于医疗数据的特征提取方法，其特征在于，所述根据所述字段类型确定与所述待处理字段对应的参考字段，包括：

获取与所述医疗数据对应的参考数据集；

根据所述字段类型从所述参考数据集中确定与所述待处理字段对应的所述参考字段。

3.根据权利要求2所述的基于医疗数据的特征提取方法，其特征在于，所述字段类型包括文本类型，所述基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度，包括：

将所述字段类型为所述文本类型的待处理字段作为文本类型字段；

从所述参考数据集中确定与所述文本类型字段对应的参考文本字段；

计算所述文本类型字段与所述参考文本字段之间的相似度作为第一相似度。

4.根据权利要求3所述的基于医疗数据的特征提取方法，其特征在于，所述基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度，还包括：

对所述文本类型字段进行切词处理以生成目标切词集合；

对所述参考文本字段进行切词处理以生成参考切词集合；

计算所述参考切词集合与所述目标切词集合之间的文本相似度作为第二相似度。

5.根据权利要求3所述的基于医疗数据的特征提取方法，其特征在于，所述基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度，还包括：

对所述文本类型字段进行音节转换处理以得到目标音节字段；

对所述参考文本字段进行音节转换处理以得到参考音节字段；

计算所述目标音节字段与所述参考音节字段之间的音节相似度作为第三相似度。

6.根据权利要求2所述的基于医疗数据的特征提取方法，其特征在于，所述字段类型包括单位类型，所述基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度，包括：

将所述字段类型为所述单位类型的待处理字段作为目标单位字段；

从所述参考数据集中确定与所述目标单位字段对应的参考单位字段；

根据所述目标单位字段与所述参考单位字段之间能否进行单位换算确定单位相似度。

7.根据权利要求2所述的基于医疗数据的特征提取方法，其特征在于，所述字段类型包括数值类型，所述基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度，包括：

将所述字段类型为所述数值类型的待处理字段作为目标数值字段；

从所述参考数据集中确定与所述目标数值字段对应的参考数值字段；

计算所述目标数值字段与所述参考数值字段之间的数值相似度。

8.根据权利要求7所述的基于医疗数据的特征提取方法，其特征在于，所述计算所述目标数值字段与所述参考数值字段之间的数值相似度，包括：

判断是否存在与所述目标数值字段对应的目标单位字段；

若是，则基于所述参考数值字段对所述目标数值字段进行数值转换处理，以得到转换后的转换数值字段；

基于所述转换数值字段与所述目标数值字段的比值确定第一数值相似度；

若否，则基于所述参考数值字段与所述目标数值字段的比值确定第二数值相似度。

9.一种基于医疗数据的特征提取装置，其特征在于，包括：

数据获取模块，用于获取待处理数据；其中，所述待处理数据包括医疗数据；

字段确定模块，用于基于所述医疗数据确定多个待处理字段，并确定各所述待处理字段的字段类型；

相似度确定模块，用于根据所述字段类型确定与所述待处理字段对应的参考字段，并基于所述字段类型确定所述待处理字段与所述参考字段之间的相似度；

特征数据确定模块，用于将确定出的所述相似度作为所述医疗数据对应的特征数据。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至8中任一项所述的基于医疗数据的特征提取方法。

11.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至8中任一项所述的基于医疗数据的特征提取方法。