CN113688854A

CN113688854A - 数据处理方法、装置及计算设备

Info

Publication number: CN113688854A
Application number: CN202010426305.4A
Authority: CN
Inventors: 周益锋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2021-11-23

Abstract

本申请实施例提供一种数据处理方法、装置及计算设备。其中，所述方法包括：获取目标用户的医疗数据；基于所述医疗数据，利用分类预测模型预测所述目标用户所属目标诊断分组类别；其中，所述分类预测模型利用样本用户对应的医疗样本数据及所属诊断分组类别预先训练获得。本申请实施例提供的技术方案提高了疾病诊断分组的效率和准确性。

Description

数据处理方法、装置及计算设备

技术领域

本申请实施例涉及计算机应用技术领域，尤其涉及一种数据处理方法、装置及计算设备。

背景技术

DRGs(Diagnosis Related Groups，诊断相关分类)是医疗领域中应用比较广泛的一种疾病诊断分类机制，用于将病人进行分类和分组，基于划分的诊断分组类别可以实现医疗补偿等。

目前，DRGs是根据病人出院之后填写的病案首页数据，由专业人员按照DRGS标准对病人进行分组实现，但是由于人为因素等影响，无法实现高效、准确的疾病诊断分组。

发明内容

本申请实施例提供一种数据处理方法、装置及计算设备，用以解决现有技术中无法实现高效、准确的疾病诊断分组的技术问题。

第一方面，本申请实施例中提供了一种医疗数据处理方法，包括：

获取目标病人的医疗数据；

基于所述医疗数据，利用分类预测模型预测所述目标病人所属目标诊断分组类别；

其中，所述分类预测模型利用样本病人对应的医疗样本数据及所属诊断分组类别预先训练获得。

第二方面，本申请实施例中提供了一种医疗数据处理方法，包括：

确定样本病人的医疗样本数据及所属诊断分组类别；

利用所述医疗样本数据及所述诊断分组类别，训练分类预测模型。

第三方面，本申请实施例中提供了一种医疗数据处理方法，包括：

获取目标病人的医疗数据；

根据所述目标诊断分组类别，执行相应任务处理操作；

第四方面，本申请实施例中提供了一种数据处理方法，包括：

获取目标用户的医疗数据；

基于所述医疗数据，利用分类预测模型预测所述目标用户所属目标诊断分组类别；

其中，所述分类预测模型利用样本用户对应的医疗样本数据及所属诊断分组类别预先训练获得。

第五方面，本申请实施例中提供了一种数据处理方法，包括：

确定样本用户的医疗样本数据及所属诊断分组类别；

第六方面，本申请实施例中提供了一种数据处理方法，包括：

获取目标用户的医疗数据；

根据所述目标诊断分组类别，执行相应任务处理操作；

第七方面，本申请实施例中提供了一种数据处理装置，包括：

第一获取模块，用于获取目标用户的医疗数据；

类别预测模块，用于基于所述医疗数据，利用分类预测模型预测所述目标用户所属目标诊断分组类别；

第八方面，本申请实施例中提供了一种数据处理装置，包括：

第二获取模块，用于确定样本用户的医疗样本数据及所属诊断分组类别；

模型训练模块，用于利用所述医疗样本数据及所述诊断分组类别，训练分类预测模型。

第九方面，本申请实施例中提供了一种计算设备，包括处理组件以及存储组件；

所述存储组件存储一个或多个计算机指令；所述一个或多个计算机指令用以被所述处理组件调用执行，以实现上述第三方面所述的数据处理方法。

第十方面，本申请实施例中提供了一种计算设备，包括处理组件以及存储组件；

所述存储组件存储一个或多个计算机指令；所述一个或多个计算机指令用以被所述处理组件调用执行，以实现上述第四方面所述的数据处理方法。

第十一方面，本申请实施例中提供了一种计算机存储介质，存储有计算机程序，所述计算机程序被计算机执行时实现如上述第三方面所述的数据处理方法。

第十二方面，本申请实施例中提供了一种计算机存储介质，存储有计算机程序，所述计算机程序被计算机执行时实现如上述第四方面所述的数据处理方法。

本申请实施例中，基于样本用户对应的医疗样本数据及所属诊断分组类别预先训练分类预测模型，从而针对某个目标用户，获取到目标用户的医疗数据之后，输入分类预测模型即可以预测获得该目标用户所属的诊断分组类别，提高了疾病诊断分组效率和准确性。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请提供的一种数据处理方法一个实施例的流程图；

图2示出了本申请提供的一种数据处理方法又一个实施例的流程图；

图3示出了本申请提供的一种数据处理方法又一个实施例的流程图；

图4示出了本申请实施例在一个实际应用中的特征提取示意图；

图5示出了本申请实施例在一个实际应用中的模型训练及应用示意图；

图6示出了本申请提供的一种数据处理装置一个实施例的结构示意图；

图7示出了本申请提供的一种计算设备一个实施例的结构示意图；

图8示出了本申请提供的一种数据处理装置又一个实施例的结构示意图；

图9示出了本申请提供的一种计算设备又一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本申请的技术方案主要应用于医疗领域中对病人进行疾病诊断分组(下文多称之为诊断分组)的场景中，例如按照DRGs(Diagnosis Related Groups，诊断相关分类)标准对住院病人进行DRGs分组的场景中。

以DRGs分组为例，目前通常都是由专业人员按照不同DRGs标准基于住院病人出院填写的病案首页数据进行，效率低、准确性较差，且由于不同机构使用的DRGS标准可能不同，分组方式也不通用。

为了提高诊断分组效率和准确性，发明人经过一系列研究提出了本申请的技术方案，本申请实施例中，基于样本用户对应的医疗样本数据及所属诊断分组类别预先训练分类预测模型，从而针对某个目标用户，获取到目标用户的医疗数据之后，输入分类预测模型即可以预测获得该目标用户所属的诊断分组类别，提高诊断分组效率和准确性，且可以无需了解诊断分组标准，即可以实现诊断分组，分组方式快捷、高效、通用性高。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种数据处理方法一个实施例的流程图，该方法可以包括以下几个步骤：

101：获取目标用户的医疗数据。

作为一种可选实现方式，获取目标用户的医疗数据可以是：从目标用户对应的病案首页中获取病案首页数据。病案首页是医疗机构中的医务人员在病人出院之后，使用文字、符号、代码、数字等方式，将病人住院期间相关信息汇总在特定的表格中，形成的数据摘要，根据不同国家的规范要求，病案首页中主要记录了住院病人的个人属性信息、住院诊断情况(包括主要诊断、次要诊断等)、住院医疗经费情况等信息。

因此，从病案首页中可以获取目标用户的病案首页数据，包括上文所描述的个人属性信息、住院诊断情况、住院医疗经费情况等，病案首页数据通常为符合国家规范要求的格式化数据，例如规范了数据类型和数据范围等。

由于病案首页数据是在病人出院之后才会生成，目标用户可以是指出院病人，因此，基于病案首页数据进行诊断分组可以实现对出院病人的诊断分组类别，例如DRGs即是对出院病人进行分组，以可以基于出院病人所属的 DRGs分组类别进行相应处理，如医保费用补偿、医疗机构绩效评价等等。

但是基于病案首页数据无法对处于诊疗过程中的用户进行诊断分组，而实际应用中，存在对仍处于诊疗过程中的用户进行诊断分组的需求，因此，作为另一种可选实现方式，获取目标用户的医疗数据可以是：获取目标用户在诊疗过程产出的病历数据。

在实际应用中，该目标用户即是指待分类的目标病人，可以是指住院病人，当然也可以是指门诊病人等。

病历数据可以是指医务人员对病人的发生、发展、转归，进行检查、诊断、治疗等医疗活动过程的记录，例如可以包括：入院诊断、手术操作记录、病症记录、医嘱、护理记录、死亡记录、用户个人属性信息如年龄、性别等等，病历数据是由医务人员在医疗活动过程记录的，通常为非格式化数据，例如为文本或者图像等。

目标用户在诊疗过程产出的病历数据可以从医疗数据系统中获取，随着智能时代和数据时代的到来，医疗机构都会以电子形式存储和管理不同病人的诊疗情况等，以方便数据查找和管理等，医疗数据系统即可以为医疗机构部署可以进行数据处理的计算机系统。

可选地，获取目标用户在诊疗过程中产生的病历数据可以包括：检测医疗数据系统在目标用户诊疗过程中，更新目标用户的医疗记录时，从医疗数据系统中获取目标用户的病历数据。

也即随着诊疗过程的执行，医务人员更新目标用户的医疗记录时，即可以触发获取目标用户的病历数据，以可以实现对目标用户进行动态实时的诊断分组预测。

102：基于医疗数据，利用分类预测模型预测目标用户所属目标诊断分组类别。

其中，分类预测模型可以利用样本用户对应的医疗样本数据及所属诊断分组类别预先训练获得。

其中，分类预先模型的模型训练过程可以参见图2所示的数据处理方法，可以包括以下几个步骤：

201：确定样本用户的医疗样本数据及所属诊断分组类别。

其中，样本用户，可以是指样本病人，具体可以为目标用户所在医疗机构中的已划分诊断分组类别的历史病人，从而可以从历史医疗记录中获取到样本用户的医疗样本数据及所属诊断分组类别。

作为一种可选方式，该医疗样本数据可以是指样本用户对应的病案首页数据；从而使得分类预测模型可以基于目标用户的病案首页数，对目标用户进行诊断分组预测。

作为另一种可选方式，该医疗样本数据可以是指样本用户在诊疗过程中产出的病历数据，从而使得分类预测模块可以基于目标用户在诊疗过程中产出的病历数据，对目标用户进行诊断分组预测。

202：利用医疗样本数据及诊断分组类别，训练分类预测模型。

本申请实施例中，可以预先基于样本用户对应的医疗样本数据及所属诊断分组类别训练分类预测模型，从而针对某个目标用户，获取到目标用户的医疗数据之后，输入分类预测模型即可以预测获得该目标用户所属的诊断分组类别，从而提高了分组效率和准确性。

在实际应用中，基于目标用户所属的目标诊断分组类别，可以进行多种任务处理操作，因此，如图3所示的数据处理方法中，该方法可以包括以下几个步骤：

301：获取目标用户的医疗数据。

302：基于医疗数据，利用分类预测模型预测目标用户所属目标诊断分组类别。

304：根据该目标诊断分组类别，执行相应任务处理操作。

在一个可选实现方式中，根据目标诊断分组类别，执行相应任务处理操作可以包括：

根据目标诊断分组类别，对目标用户所在医疗机构进行服务评价或者费用补偿。

例如，可以预先设置不同诊断分组类别对应不同费用补偿标准，可以按照目标诊断分组类别对应的费用补偿标准，对医疗机构进行费用补偿。特别是目标用户为参见医疗保险的用户时，保险机构采用按照本申请技术方案确定目标用户的目标诊断分组类别，从而对目标用户所在医疗机构进行费用补偿。

又如，可以预先设置不同诊断分组类别对应不同疾病难度系数，从而结合目标诊断分组类别对应的疾病难度系数，可以对目标用户所在医疗机构进行服务评价，如绩效评价等，目标诊断分组类别对应疾病难度系数越高，表明医疗机构的疾病救治能力越强等。

在另一个可选实现方式中，根据目标诊断分组类别，执行相应任务处理操作可以包括：

根据目标诊断分组类别，生成针对目标用户的诊疗建议信息。

由前文描述可知，目标用户的医疗数据可以是目标用户在诊疗过程中产出的病历数据，从而分类预测模型可以实现目标用户在诊疗过程中对目标用户进行动态的诊断分组。因此，基于目标诊断分组类别及目标用户相关的医疗属性信息，可以诊疗建议信息，以便于医疗机构结合诊疗建议信息确定是否对目标用户的诊疗进行调整等。

可选地，可以结合目标诊断分组类别及目标用户相关的医疗属性信息，生成针对目标用户的诊疗建议信息。

该诊疗建议信息可以用于提示是否调整针对目标用户的医疗方案等。

其中，目标用户相关的医疗属性信息例如可以包括目标用户的实际诊断结果、所在目标科室和/或当前消费信息。

例如，根据目标诊断分组类别及目标用户相关的医疗属性信息，生成针对目标用户的诊疗建议信息可以包括：

若目标诊断分组类别对应的诊断结果与实际诊断结果不同，生成针对目标用户的诊疗建议信息。

实际诊断结果可以是指目标用户医疗数据中记录的主要诊断，而不同诊断分组类别可以预先设置对应的诊断结果，若目标诊断分组类别对应的诊断结果与实际诊断结果不同，表明对该目标用户的诊疗可能存在问题，则可以生成诊疗建议信息，以提示医疗机构是否调整对目标用户的医疗方案等。

又如，根据目标诊断分组类别及目标用户相关的医疗属性信息，生成针对目标用户的诊疗建议信息可以包括：

若目标诊断分组类别与目标用户所在目标科室对应诊断分组类别不同、生成针对目标用户的诊疗建议信息。

实际应用中，为了提高某些医疗科室的救治能力或者为了规范不同医疗科室的疾病救治范围，使得病人可以得到针对性治疗，通常可以按照诊断分组类别对应的疾病难度系数，预先设置目标科室对应的诊断分组类别，因此，若目标诊断分组类别与目标用户所在目标科室对应诊断分组类别不同，表明目标科室正在承担治疗不再救治范围内的病人，因此可以生成诊疗建议信息，以提示医疗机构是否调整对该目标用户的医疗方案，例如更换治疗科室等。

若目标诊断分组类别对应的消费费用与目标用户的当前消费费用不一致，生成针对目标用户的诊疗建议信息。

当前消费信息中包括当前消费费用，可以是指当前已花费的诊疗费用。

例如，若目标诊断分组类别对应的消费费用低于目标用户的当前消费费用，表明对目标用户的诊疗收费不合理，则可以生成诊疗建议信息，以提示用户是否调整医疗方案等。

可选地，也可以结合目标诊断分组类别对应的诊断结果与实际诊断结果不同、目标诊断分组类别与目标用户所在目标科室对应诊断分组类别不同、以及目标诊断分组类别对应的消费费用与目标用户的当前消费费用不一致中的一个或多个判断结果，来生成诊疗建议信息。

需要说明的是，上述仅是举例说明了结合目标诊断分组类别，生成针对目标用户诊疗建议信息，采用本申请例技术方案，可以实现在目标用户诊疗过程中对目标用户的诊断分组进行动态预测，从而可以结合诊断分组结果，来动态调整针对目标用户的医疗方案。在DRGs应用场景中，由于DRGs分组主要用于进行医保赔偿和对医疗机构的绩效考核，通过在诊疗过程中动态预测目标用户的DRGs分组类别，可以对医保赔偿和绩效考核进行预测，并可以结合预测结果来调整医疗方案等。

当然，基于目标诊断分组类别，还可以进行其它任务处理操作，本申请对此不进行具体限定，采用本申请实施例的技术方案预测目标用户的目标诊断分组类别，并基于目标诊断分组进行的任何任务处理，均应该在本申请的保护范围内。

由前文描述可知，医疗数据中可以包括多种医疗类型的数据，如个人属性数据、医嘱数据、手术操作记录数据、病症记录数据等等。为了提高数据处理准确度，在某些实施例中，基于医疗数据，利用分类预测模型识别目标用户所属目标诊断分组类别可以包括：

从医疗数据中提取至少一个特征类型的特征数据；

基于至少一个特征类型的特征数据，利用分类预测模型识别目标用户所属目标诊断分组类别。

可选地，可以是从至少一种病历类型的数据中，提取至少一个特征类型的特征数据。

其中，特征类型的划分可以与病历类型的划分相同或不同。

在一个实际应用中，特征类型的划分可以与病历类型的划分不同，例如特征类型可以包括性别和年龄，而性别和年龄同属于病历类型中的个人属性信息。因此，可以从同一病历类型的数据中提取不同特征类型的特征数据，也可以从不同病历类型的数据中可以提取属于同一个特征类型的特征数据。

同样，进行分类预测模型训练时，在某些实施例中，利用医疗样本数据及诊断分组类别，训练分类预测模型可以包括：

从医疗样本数据中提取至少一个特征类型的特征样本数据；

利用至少一个特征类型的特征样本数据，以及诊断分组类别，训练分类预测模型。

其中，特征类型的划分可以结合实际情况进行，本申请对此不进行具体限定。而在实际应用中，对于诊断分组的关键特征类型可以至少包括诊断类别特征及手术操作类别特征。诊断类别特征用以表征该目标用户的疾病诊断信息，手术操作类别特征用以表征该目标用户的手术操作信息，而疾诊断信息与手术操作信息对诊断分组比较重要。

因此，在某些实施例中，从医疗数据中提取至少一个特征类型的特征数据可以包括：

从诊断分类编码字典中提取与医疗数据相似度满足第一相似要求的第一数量个诊断分类编码，及从手术分类编码字典中提取与医疗数据相似度满足第二相似要求的第二数量个手术操作分类编码；

基于第一数量个诊断分类编码获得诊断类别特征；

基于第二数量个诊断分类编码获得手术操作类别特征。

其中，诊断分类编码字典中包括不同诊断名称对应的诊断分类编码；手术分类编码字典中包括不同手术操作名称对应的手术操作分类编码。

其中，诊断分类编码可以采用诊断ICD(International Classification ofDiseases，国际疾病分类)编码，手术操作分类编码可以采用手术操作ICD 编码。

为了便于理解，下面列举了几种诊断名称对应的诊断分类编码：

诊断名称：感染性胃肠炎或结肠炎--------诊断分类编码：L1-1A0；

诊断名称：细菌性肠道感染-----------------诊断分类编码：L2-1A0等。

下面列举了几种手术操作名称对应的手术操作分类编码：

手术操作名称：头颈部血管治疗性超声------手术操作分类编码：00.0101；

手术操作名称：心脏血管治疗性超声---------手术操作分类编码：00.0201 等。

其中，对于医疗数据为病案首页数据的情况下，病案首页数据中包括该目标用户的诊断分类编码以及手术操作分类编码，因此，可以直接基于该病案首页数据中的诊断分类编码获得诊断类别特征；基于病案首页数据中的手术操作分类编码获得手术操作类别特征。

而对于医疗数据为目标用户诊疗过程中产出的病历数据的情况下，医疗数据时由医务人员记录，其通常不会像病案首页数据均为规范化数据。因此，需要对医疗数据进行特征分析，可以采用字典匹配方式来确定相应特征数据。

其中，该从诊断分类编码字典中提取与医疗数据相似度满足第一相似要求的第一数量个诊断分类编码，及从手术分类编码字典中提取与医疗数据相似度满足第二相似要求的第二数量个手术操作分类编码可以包括：

获取医疗数据中与诊断分类相关的至少一个第一病历文本；

获取医疗数据中与手术操作分类相关的至少一个第二病历文本；

提取第一病历文本中与诊断分类相关的至少一个第一关键词；

提取第二病历文本中与手术操作分类相关的至少一个第二关键词；

将第一关键词与诊断分类编码字典进行相似度匹配，获得与第一关键词满足第一相似要求的诊断分类编码；

将第二关键词与手术操作分类编码字典进行相似度匹配，获得与第二关键词满足第一相似要求的手术操作分类编码。

由于医疗数据中可以包括多种病历类型的数据，如手术操作记录、医嘱、诊断记录等等，这些数据通常以文本形式存在，因此可以结合不同病历类型的病历文本，首先获取与针对诊断分类相关的至少一个第一病历文本，以及与手术操作分类相关的至少一个第二病历文本。

针对每一个第一病历文本，可以提取与诊断分类相关的至少一个第一关键词；而针对每一个第二病历文本，可以提取与手术操作分类相关的至少一个第二关键词。

其中，关键词提取有多种实现方式，比如第一关键词提取可以采用诊断分类关键词提取模型实现，第二关键词提取可以采用手术操作分类关键词提取模型实现，诊断分类关键词提取模型可以预先基于样本文本以及在样本文本中标注的诊断分类样本关键词进行训练获得，而手术操作分类关键词提取模型可以预先基于样本文本以及在样本文本中标注的手术操作分类样本关键词进行训练获得，当然模型训练也可以采用无监督训练方式实现，本申请对此不进行具体限定。

其中，针对每一个第一关键词，均可以与诊断分类编码字典进行相似度匹配，获得与每个第一关键词满足第一相似要求的诊断分类编码，从而基于至少一个第一关键词可以对应获得第一数量个诊断分类编码；

而针对每一个第二关键词，均可以与手术操作分类编码字典进行相似度匹配，获得与每个第二关键词满足第二相似要求的手术操作分类编码，从而至少一个第二关键词可以对应获得第二数量个手术操作分类编码。

其中，该第一相似要求例如可以是指相似度大于第一相似阈值，第二相似要求例如可以是指相似度大于第二相似阈值等。

其中，第一关键词与诊断分类编码字典进行相似度匹配可以具体是指与诊断分类编码字典中的诊断分类名称匹配，从而获得与第一关键词满足第一相似要求的诊断分类名称所对应的诊断分类编码；第二关键词与手术操作分类编码字典进行相似度匹配可以具体是指与手术操作分类编码字典中的手术操作分类名称进行匹配，从而获得与第二关键词满足第二相似要求的手术操作分类名称对应的手术操作分类编码。

其中，词与词之间的相似度匹配可以通过计算两个词之间的余弦相似度或者欧氏距离等实现，当然可以首先将两个词转换为词向量再计算相似度，本申请对相似度的计算方式不进行具体限定。

为了便于理解，如图4所示的特征提取示意图中，从医疗数据401中可以确定与诊断分类相关的至少一个第一病历文本402以及与手术操作分类相关的至少一个第二病历文本403；对第一病历文本可以进行NLP(Natural Language Processing，自然语言处理)，分词并提取第一关键词404，对第二病历文本可以以进行NLP处理，分词并提取第二关键词405；每个第一关键词与诊断分类编码字典406进行相似度匹配，最终可以获得第一数量个诊断分类编码407；每个第二关键词与手术操作分类编码字典408进行相似度匹配，最终可以获得第二数量个手术操作分类编码409；基于第一数量个诊断分类编码获得诊断类别特征410；基于第二数量个诊断分类编码获得手术操作类别特征411。

作为一种可选实现方式，基于第一数量个诊断分类编码获得诊断类别特征可以包括：将第一数量个诊断分类编码按照优先级顺序拼接获得第一文本；将第一文本转换为文本向量，获得诊断类别特征；

则基于第二数量个诊断分类编码获得手术操作类别特征可以包括：将第二数量个手术操作分类编码按照优先级顺序拼接获得第二文本；将第二文本转换为文本向量，获得手术操作类别特征。

其中，第一数量个诊断分类编码的优先级顺序可以按照与医疗数据的相似度大小确定，相似度越高，优先级顺序越高；当然，也可以预先设定不同诊断分类编码的优先级顺序。

第二数量个手术操作分类编码的优先级顺序可以按照与医疗数据的相似度大小确定，相似度越高，优先级顺序越高；当然，也可以预先设定不同手术操作分类编码的优先级顺序。

其中，将第一文本转换为文本向量可以是将第一文本中的各个诊断分类编码转换为对应词向量，将第二文本转换文本向量可以是将第二文本中各个手术操作分类编码转换为对应词向量，因此，将第一文本转换为文本向量、以及将第二文本转换为文本向量可以是采用word2vec(word to vector，一种词向量转换技术)，或者fasttext(一个词向量转换技术)等词向量模型实现。

作为另一种可选实现方式，基于第一数量个诊断分类编码获得诊断类别特征可以包括：将第一数量个诊断分类编码分别转换为第一特征向量，并将第一数量个第一特征向量进行融合，获得诊断类别特征；

则基于第二数量个手术操作分类编码获得手术操作类别特征可以包括：

将第二数量个手术操作分类编码分别转换为第二特征向量，并将第二数量个第二特征向量进行融合，获得手术操作类别特征。

其中，将诊断分类编码转换第一特征向量，以及将手术操作分类编码转换为第二特征向量可以采用word2vec，或者fasttext等词向量模型实现，本申请对此不进行具体限定。

其中，将第一数量个第一特征向量进行融合，获得诊断类别特征一种方式可以是将第一数量个第一特征向量拼接获得诊断类别特征，也即直接拼接在一起即可以得到诊断类别特征。

在另一种方式中，将第一数量个第一特征向量进行融合可以将第一数量个第一特征向量进行加权融合，例如权重系数小于1时，进行加权求和。将第二数量个第二特征向量进行融合可以是将第二数量个第二特征向量进行加权融合等，其中，每个第一特征向量对应的权重系数可以是指其对应的诊断分类编码的权重系数，而不同诊断分类编码的权重系数可以预先设定，当然也可以结合诊断分类编码的优先级顺序确定；每个第二特征向量对应的权重系数可以为其对应的手术操作分类编码的权重系数，而不同手术操作分类编码的权重系数可以预先针设定，也可以结合手术操作分类编码的优先级顺序确定。

因此，在某些实施例中，将第一数量个第一特征向量进行融合，获得诊断类别特征可以包括：

根据第一数量个诊断分类编码的优先级顺序，确定第一数量个第一特征向量分别对应的权重系数；按照第一数量个第一特征向量分别对应的权重系数，将第一数量个第一特征向量加权融合，获得诊断类别特征；

则将第二数量个第二特征向量进行融合，获得手术操作类别特征可以包括：根据第二数量个手术操作分类编码的优先级顺序，确定第二数量个第二特征向量分别对应的权重系数；按照第二数量个第二特征向量分别对应的权重系数，将第二数量个第二特征向量加权融合，获得手术操作类别特征。

例如假设包括P个诊断分类编码，对应的P个第一特征向量可以表示V_i，每个诊断分类编码对应的权重系数可以表示为W_i，i＝1、2、3……p，则诊断类别特征

可以表示为：

。假设包括q个手术操作分类编码，对应的q个第二特征向量可以表示为 X_i，每个诊断分类编码对应的权重系数为Y_i，i＝1、2、3……p，则诊断类别特征

可以表示为：

此外，在某些实施例中，从医疗数据中提取至少一个特征类型的特征数据可以包括：

将第一数量个诊断分类编码以及第二数量个手术操作分类编码拼接形成第三文本；

将第三文本转换为文本向量，获得特征数据。

也即也可以将第一数量个诊断分类编码以及第二数量个手术操作分类编码汇集在一起形成第三文本，再统一转换为文本向量，获得一个特征数据。

其中，将第三文本转换文本向量可以是将第三文本中各个编码转换为对应的词向量，可以是采用word2vec，或者fasttext等词向量模型实现。

其中，从诊断分类编码字典中提取与医疗数据相似度满足第一相似要求的第一数量个诊断分类编码，及从手术分类编码字典中提取与医疗数据相似度满足第二相似要求的第二数量个手术操作分类编码的具体实现方式可以详见前文描述，在此将不再重复赘述。

其中，第一数量个诊断分类编码以及第二数量个手术操作分类编码拼接可以按优先级顺序排列形成该第三文本。

第一数量个诊断分类编码以及第二数量个手术操作分类编码的优先级顺序，例如可以是诊断分类编码的优先级顺序高于术操作分类编码的优先级顺序，而不同诊断分类编码的优先级顺序以及不同手术操作分类编码的优先级顺序的确定可以详见前文所述。

另外，从医疗数据中提取的至少一个特征类型的特征数据，可以不仅包括前文说明的诊断类别特征以及手术操作类别特征对应的特征数据，还可以包括例如年龄、性别、住院天数、消费费用、所在科室等特征类型的特征数据，本申请对此不进行具体限制，若这些特征类型的特征数据为格式化数据，可以直接转换为词向量作为特征数据，若为非格式化数据则可以采用NLP方式先处理，如分词以及提取关键词等，再将关键词转换为词向量作为特征数据等。

在某些实施例中，基于至少一个特征类型的特征数据，利用分类预测模型预设目标用户所属目标诊断分组类别可以包括：

将至少一个特征类型的特征数据进行融合，获得融合特征；

将融合特征输入分类预测模型，获得目标用户所属目标诊断分组类别。

可选地，可以是将至少一个特征类型的特征数据进行加权融合，获得融合特征。每个特征类型对应的权重系数可以预先设定。

相应的，再对分类预测模型进行训练时，利用医疗样本数据及诊断分组类别，训练分类预测模型可以包括：

从医疗样本数据中提取至少一个特征类型的特征样本数据；

在某些实施例中，从医疗样本数据中提取至少一个特征类型的特征样本数据可以包括：

从诊断分类编码字典中提取与医疗样本数据相似度满足第一相似要求的第三数量个诊断分类编码，及从手术分类编码字典中提取与医疗样本数据相似度满足第二相似要求的第四数量个手术操作分类编码；

基于第三数量个诊断分类编码获得诊断类别样本特征；

基于第四数量个诊断分类编码获得手术操作类别样本特征。

需要说明的，第三数量与前文所描述的第一数量不一定相同，从不同医疗数据中提取的与医疗数据满足第一相似要求诊断分类编码的数量也不一定相同。第四数量与前文所描述的第二数量也不一定相同，从不同医疗数据中提取的与医疗数据满足第二相似要求手术操作分类编码的数量也不一定相同。

作为一种可选实现方式，基于第一数量个诊断分类编码获得诊断类别样本特征可以包括：

将第一数量个诊断分类编码按照优先级顺序拼接获得第一样本文本；

将第一样本文本转换为文本向量，获得诊断类别样本特征；

则基于第二数量个诊断分类编码获得手术操作类别样本特征可以包括：

将第二数量个手术操作分类编码按照优先级顺序拼接获得第二样本文本；

将第二样本文本转换为文本向量，获得手术操作类别特征。

作为另一种可选实现方式，基于第三数量个诊断分类编码获得诊断类别样本特征可以包括：

将第三数量个诊断分类编码分别转换为第一特征样本向量，并将第三数量个第一特征样本向量进行融合，获得诊断类别样本特征；

则基于第四数量个诊断分类编码获得手术操作类别样本特征可以包括：

将第四数量个手术操作分类编码分别转换为第二特征样本向量，并将第四数量个第二特征样本向量进行融合，获得手术操作类别样本特征。

在某些实施例中，将第三数量个第一特征样本向量进行融合，获得诊断类别样本特征可以包括：

根据第三数量个诊断分类编码的优先级顺序，确定第三数量个第一特征样本向量分别对应的权重系数；

按照第三数量个第一特征样本向量分别对应的权重系数，将第三数量个第一特征样本向量加权融合，获得诊断类别样本特征；

则将第四数量个手术操作分类编码分别转换为第二特征样本向量，并将第四数量个第二特征样本向量进行融合，获得手术操作类别样本特征可以包括：

根据第四数量个手术操作分类编码的优先级顺序，确定第四数量个第二特征样本向量分别对应的权重系数；

按照第四数量个第二特征样本向量分别对应的权重系数，将第四数量个第二特征样本向量加权融合，获得手术操作类别样本特征。

将第三数量个诊断分类编码以及第四数量个手术操作分类编码拼接形成第三样本文本；

将第三样本文本转换为文本向量，获得特征样本数据。

在某些实施例中，从诊断分类编码字典中提取与医疗样本数据相似度满足第一相似要求的第三数量个诊断分类编码，及从手术分类编码字典中提取与医疗样本数据相似度满足第二相似要求的第四数量个手术操作分类编码可以包括：

获取医疗样本数据中与诊断分类相关的至少一个第一样本病历文本；

获取医疗样本数据中与手术操作分类相关的至少一个第二样本病历文本；

提取第一样本病历文本中与诊断分类相关的至少一个第一样本关键词；

提取第二样本病历文本中与手术操作分类相关的至少一个第二样本关键词

将第一样本关键词与诊断分类编码字典进行相似度匹配，获得与第一样本关键词满足第一相似要求的诊断分类编码；

将第二样本关键词与手术操作分类编码字典进行相似度匹配，获得与第二样本关键词满足第一相似要求的手术操作分类编码。

在某些实施例中，利用至少一个特征类型的特征样本数据，以及诊断分组类别，训练分类预测模型可以包括：

将至少一个特征类型的特征样本数据进行融合，获得融合样本特征；

利用融合样本特征以及样本用户所属的诊断分组类别，训练分类预测模型。

为了进一步提高模型准确度，在某些实施例中，将至少一个特征类型的特征样本数据进行融合，获得融合样本特征可以包括：

将至少一个特征类型进行特征筛选，获得至少一个有效特征类型的特征样本数据；

将至少一个有效特征类型的特征样本数据进行融合，获得融合样本特征。

其中，特征筛选方式例如可以采用基于统计方式进行筛选，如相关系数法、互信息法、卡方检验等。

当然也可以采用基于模型的特征筛选方式，如可以利用至少一个样本特征类型以及至少一个样本特征类型中标注的有效样本特征类型，进行特征筛选模型的训练，使得特征筛选模型可以从至少一个特征类型中确定有效特征类型。

此外，本领域技术人员可以理解的是，再对分类预测模型进行模型训练，或者利用分类预先模型进行鱼诊断分组预测时，输入分类预测模型的融合特征或者融合样本特征，若向量维度较多，还可以进行降维处理等常规处理操作，此外，从医疗数据中提取至少一个特征类型的特征数据时，对于某些特征类型的数据可能还需要进行归一化、空缺值填充、独热编码等常规数据挖掘操作，本申请对此不进行具体限定。

其中，本申请实施例中的分类预测模型可以采用机器学习模型实现，该机器学习模型包括但不限于逻辑回归、SVM(Support Vector Machine，支持向量机)、随机森林、GBDT(Gradient Boosting Decision Tree，梯度提升树)、 LightGBM((Light GradientBoosting Machine，分布式梯度提升框架)、深度神经网络、或者融合多种机器学习模型的集成模型等，本申请对此不进行具体限定。

由前文描述可知，本申请实施例中涉及的目标用户可以是指待分类的目标病人，如住院病人，或者门诊病人等。以目标用户为目标病人为例，作为又一个实施例，本申请还提供了一种医疗数据处理方法，包括：

获取目标病人的医疗数据；

本实施例与图1所示实施例不同之处在于，目标用户具体为目标病人，样本用户具体是指样本病人，用以预测目标病人的所属目标诊断分组类别，其它相同或相似步骤可以详见前文各个实施例中所述，在此不再赘述。

作为又一个实施例，本申请还提供了一种医疗数据处理方法，包括：

确定样本病人的医疗样本数据及所属诊断分组类别；

本实施例从模型训练角度进行描述，与图2所示实施例不同之处在于，样本用户具体是指样本病人，其它相同或相似步骤可以详见前文各个实施例中所述，在此不再赘述。

作为又一个实施例，本申请实施例还提供了一种医疗数据处理方法，包括：

获取目标病人的医疗数据；

根据所述目标诊断分组类别，执行相应任务处理操作；

本实施例与图3所示实施例不同之处在于，目标用户具体为目标病人，样本用户具体为样本病人，其它相同或相似步骤可以详见前文各个实施例中所述，在此不再赘述。

在一个实际应用中，本申请实施例的技术方案可以具体用于对住院病人进行DRGs分组。可以基于住院病人出院填写的病案首页数据来预测住院病人所属DRGs分组类别，从而无需由专业人员进行人工分组，提高诊断分组效率和保证诊断分组准确度，进而基于DRGs分组类别对住院病人所在医疗机构进行费用补偿，如医保赔付，或者进行服务评价，如绩效考核等。

此外，也可以基于住院病人在住院诊疗过程，实时产生的病历数据来动态预测该住院病人所属DRGs分组类别，从而可以根据住院病人所属DRGs 分组类别，可以生成诊疗建议信息，以决定是否调整住院病人的医疗方案等。

以动态预测住院病人的DRGs分组类别为例，如图5中所示的分类预测模型的训练及应用示意图中所示，可以首先结合样本用户的医疗样本数据以及所属DRGs分组类别训练分类预测模型，样本用户可以是指医疗机构的历史住院病人，历史住院病人的医疗样本数据可以从医疗机构的医疗数据系统 501中的历史数据记录中获取，从而利用大量的历史住院病人的医疗样本数据及所属DRGs分组类别，即可以实现对分类预测模型的训练。

利用训练获得的分类预测模型可以对医疗机构中的当前住院病人进行动态预测，可以从医疗数据系统501中获取当前住院病人的病历数据，将病历数据输入分类预测模型，即可以获得当前住院病人所属的目标DRGs分组类别，进而基于DRGs分组类别可以进行相应任务处理操作，例如生成诊疗建议信息，并可以将诊疗建议信息提供给专业人员等。

其中，分类预测模型的训练可以由专门的计算设备502实现，如该计算设备可以是指远程web服务器、服务器、计算机联网设备、芯片组、台式计算机、笔记本式计算机、工作站，或任何其他处理设备或者装备。

生成的分类预测模型可以融合到目前的医疗数据系统501，医疗数据系统检测到当前住院病人的病历数据发生更新时，即可以利用分类预测模型对当前住院病所属DRGs分组类别进行预测。当然，也可以批量对多个住院病人进行DRGs分组类别的预测。

当然，在一个可选方式中，该计算设备502可以集成在医疗数据系统中 501中，从而可以由医疗数据系统利用自身历史数据完成模型训练，并可以对当前住院病人进行诊断分组预测等，本申请对实现分类预测模型训练的执行设备以及基于分类预测模型进行诊断分组的执行设备不进行具体限定。

采用本申请的技术方案进行DRGs分组，可以无需获知DRGs标准，即可以实现DRGs分组，且省去由专业人员进行分组操作，各个医疗机构部署分类预测模型之后即可以进行预测，提高了DRGs分组效率。且各个医疗机构可以在病人住院过程中即可以实现DRGs分组预测，从而还可以结合实际需求来调整病人的医疗方案等，方便开展DRGs的相关工作。且分类预测模型适用于不同DRGs标准，只需模型训练时输入相应DRGs标准对应训练数据(包括医疗样本数据以及在该DRGs标准下的DRGs分组类别)即可，通用性强。

图6为本申请实施例提供的一种数据处理装置一个实施例的结构示意图，该数据处理装置可以配置在计算设备中，该装置可以包括：

第一获取模块601，用于获取目标用户的医疗数据；

类别预测模块602，用于基于医疗数据，利用分类预测模型预测目标用户所属目标诊断分组类别；

其中，分类预测模型利用样本用户对应的医疗样本数据及所属诊断分组类别预先训练获得。

在某些实施例中，第一获取模块可以具体用于获取目标用户在诊疗过程中产出的病历数据。

可选地，第一获取模块可以具体是检测医疗数据系统在目标用户诊疗过程中，更新目标用户的医疗记录时，从医疗数据系统中获取目标用户的病历数据。

在某些实施例中，第一获取模块可以具体是从目标用户对应的病案首页中获取病案首页数据。

在某些实施例中，该装置还可以包括：

任务处理模块，用于根据目标诊断分组类别，执行相应任务处理操作。

作为一种可选方式，任务处理模块可以具体用于根据目标诊断分组类别，对目标用户所在医疗机构进行服务评价或者费用补偿。

作为另一种可选方式，任务处理模块可以具体用于根据目标诊断分组类别，生成针对目标用户的诊疗建议信息。

可选地，任务处理模块可以具体是结合目标诊断分组类别以及目标用户的相关医疗属性信息，生成针对目标用户的诊疗建议信息。

在某些实施例中，医疗属性信息包括目标用户的实际诊断结果、所在目标科室和/或当前消费信息；

该任务处理模块可以具体用于若目标诊断分组类别对应的诊断结果与实际诊断结果不同、目标诊断分组类别与目标用户所在目标科室对应诊断分组类别不同、和/或目标诊断分组类别对应的消费费用与目标用户的当前消费费用不一致，生成针对目标用户的诊疗建议信息。

在某些实施例中，类别预测模块可以具体用于从医疗数据中提取至少一个特征类型的特征数据；基于至少一个特征类型的特征数据，利用分类预测模型识别目标用户所属目标诊断分组类别。

在某些实施例中，类别预测模块从医疗数据中提取至少一个特征类型的特征数据可以包括：从诊断分类编码字典中提取与医疗数据相似度满足第一相似要求的第一数量个诊断分类编码，及从手术分类编码字典中提取与医疗数据相似度满足第二相似要求的第二数量个手术操作分类编码；基于第一数量个诊断分类编码获得诊断类别特征；基于第二数量个诊断分类编码获得手术操作类别特征。

在某些实施例中，类别预测模块基于第一数量个诊断分类编码获得诊断类别特征包括：将第一数量个诊断分类编码按照优先级顺序拼接获得第一文本；将第一文本转换为文本向量，获得诊断类别特征；

类别预测模块基于第二数量个诊断分类编码获得手术操作类别特征包括：将第二数量个手术操作分类编码按照优先级顺序拼接获得第二文本；将第二文本转换为文本向量，获得手术操作类别特征。

在某些实施例中，类别预测模块基于第一数量个诊断分类编码获得诊断类别特征包括：将第一数量个诊断分类编码分别转换为第一特征向量，并将第一数量个第一特征向量进行融合，获得诊断类别特征；

预测模块基于第二数量个手术操作分类编码获得手术操作类别特征包括：将第二数量个手术操作分类编码分别转换为第二特征向量，并将第二数量个第二特征向量进行融合，获得手术操作类别特征。

在某些实施例中，类别预测模块将第一数量个第一特征向量进行融合，获得诊断类别特征包括：根据第一数量个诊断分类编码的优先级顺序，确定第一数量个第一特征向量分别对应的权重系数；按照第一数量个第一特征向量分别对应的权重系数，将第一数量个第一特征向量加权融合，获得诊断类别特征；

类别预测模块将第二数量个第二特征向量进行融合，获得手术操作类别特征包括：根据第二数量个手术操作分类编码的优先级顺序，确定第二数量个第二特征向量分别对应的权重系数；按照第二数量个第二特征向量分别对应的权重系数，将第二数量个第二特征向量加权融合，获得手术操作类别特征。

在某些实施例中，类别预测模块从医疗数据中提取至少一个特征类型的特征数据包括：从诊断分类编码字典中提取与医疗数据相似度满足第一相似要求的第一数量个诊断分类编码，及从手术分类编码字典中提取与医疗数据相似度满足第二相似要求的第二数量个手术操作分类编码；将第一数量个诊断分类编码以及第二数量个手术操作分类编码拼接形成第三文本；将第三文本转换为文本向量，获得特征数据。

在某些实施例中，类别预测模块从诊断分类编码字典中提取与医疗数据相似度满足第一相似要求的第一数量个诊断分类编码，及从手术分类编码字典中提取与医疗数据相似度满足第二相似要求的第二数量个手术操作分类编码包括：获取医疗数据中与诊断分类相关的至少一个第一病历文本；获取医疗数据中与手术操作分类相关的至少一个第二病历文本；提取第一病历文本中与诊断分类相关的至少一个第一关键词；提取第二病历文本中与手术操作分类相关的至少一个第二关键词；将第一关键词与诊断分类编码字典进行相似度匹配，获得与第一关键词满足第一相似要求的诊断分类编码；将第二关键词与手术操作分类编码字典进行相似度匹配，获得与第二关键词满足第二相似要求的手术操作分类编码。

在某些实施例中，类别预测模块基于至少一个特征类型的特征数据，利用分类预测模型预设目标用户所属目标诊断分组类别包括：将至少一个特征类型的特征数据进行融合，获得融合特征；将融合特征输入分类预测模型，获得目标用户所属目标诊断分组类别。

在一个实际应用中，本申请实施例中的诊断分组类别可以是指诊断相关分类DRGs分组类别。

图6所述的数据处理装置可以执行图1所示实施例所述的数据处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个可能的设计中，图6所示实施例的数据处理装置可以实现为计算设备，如图7中所示，该计算设备可以包括存储组件701以及处理组件702；

该存储组件701存储一条或多条计算机指令，其中，该一条或多条计算机指令供处理组件702调用执行，实现如图1或图3所示的数据处理方法。

当然，计算设备必然还可以包括其他部件，例如输入/输出接口、通信组件等。

输入/输出接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是输出设备、输入设备等。

通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。

该计算设备可以为物理设备或者云计算平台提供的弹性计算主机等，此时计算设备即可以是指云服务器，上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务器资源。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被计算机执行时可以实现上述图1或图3所示实施例的数据处理方法。

图8为本申请实施例提供的一种数据处理装置又一个实施例的结构示意图，该数据处理装置可以配置在计算设备中，该装置可以包括：

第二获取模块801，用于确定样本用户的医疗样本数据及所属诊断分组类别；

模型训练模块802，用于利用医疗样本数据及诊断分组类别，训练分类预测模型。

在某些实施例中，模型训练模块具体用于从医疗样本数据中提取至少一个特征类型的特征样本数据；利用至少一个特征类型的特征样本数据，以及诊断分组类别，训练分类预测模型。

在某些实施例中，模型训练模块从医疗样本数据中提取至少一个特征类型的特征样本数据包括：从诊断分类编码字典中提取与医疗样本数据相似度满足第一相似要求的第三数量个诊断分类编码，及从手术分类编码字典中提取与医疗样本数据相似度满足第二相似要求的第四数量个手术操作分类编码；基于第三数量个诊断分类编码获得诊断类别样本特征；基于第四数量个诊断分类编码获得手术操作类别样本特征。

在某些实施例中，模型训练模块基于第一数量个诊断分类编码获得诊断类别样本特征包括：将第一数量个诊断分类编码按照优先级顺序拼接获得第一样本文本；将第一样本文本转换为文本向量，获得诊断类别样本特征；

模型训练模块基于第二数量个诊断分类编码获得手术操作类别样本特征包括：将第二数量个手术操作分类编码按照优先级顺序拼接获得第二样本文本；将第二样本文本转换为文本向量，获得手术操作类别特征。

在某些实施例中，模型训练模块基于第三数量个诊断分类编码获得诊断类别样本特征包括：将第三数量个诊断分类编码分别转换为第一特征样本向量，并将第三数量个第一特征样本向量进行融合，获得诊断类别样本特征；

模型训练模块基于第四数量个诊断分类编码获得手术操作类别样本特征包括：将第四数量个手术操作分类编码分别转换为第二特征样本向量，并将第四数量个第二特征样本向量进行融合，获得手术操作类别样本特征。

在某些实施例中，模型训练模块将第三数量个第一特征样本向量进行融合，获得诊断类别样本特征包括：根据第三数量个诊断分类编码的优先级顺序，确定第三数量个第一特征样本向量分别对应的权重系数；按照第三数量个第一特征样本向量分别对应的权重系数，将第三数量个第一特征样本向量加权融合，获得诊断类别样本特征；

模型训练模块将第四数量个手术操作分类编码分别转换为第二特征样本向量，并将第四数量个第二特征样本向量进行融合，获得手术操作类别样本特征包括：根据第四数量个手术操作分类编码的优先级顺序，确定第四数量个第二特征样本向量分别对应的权重系数；按照第四数量个第二特征样本向量分别对应的权重系数，将第四数量个第二特征样本向量加权融合，获得手术操作类别样本特征。

在某些实施例中，模型训练模块从医疗样本数据中提取至少一个特征类型的特征样本数据包括：从诊断分类编码字典中提取与医疗样本数据相似度满足第一相似要求的第三数量个诊断分类编码，及从手术分类编码字典中提取与医疗样本数据相似度满足第二相似要求的第四数量个手术操作分类编码；将第三数量个诊断分类编码以及第四数量个手术操作分类编码拼接形成第三样本文本；将第三样本文本转换为文本向量，获得特征样本数据。

在某些实施例中，模型训练模块从诊断分类编码字典中提取与医疗样本数据相似度满足第一相似要求的第三数量个诊断分类编码，及从手术分类编码字典中提取与医疗样本数据相似度满足第二相似要求的第四数量个手术操作分类编码包括：获取医疗样本数据中与诊断分类相关的至少一个第一样本病历文本；获取医疗样本数据中与手术操作分类相关的至少一个第二样本病历文本；提取第一样本病历文本中与诊断分类相关的至少一个第一样本关键词；提取第二样本病历文本中与手术操作分类相关的至少一个第二样本关键词；将第一样本关键词与诊断分类编码字典进行相似度匹配，获得与第一样本关键词满足第一相似要求的诊断分类编码；将第二样本关键词与手术操作分类编码字典进行相似度匹配，获得与第二样本关键词满足第一相似要求的手术操作分类编码。

在某些实施例中，模型训练模块利用至少一个特征类型的特征样本数据，以及诊断分组类别，训练分类预测模型包括：将至少一个特征类型的特征样本数据进行融合，获得融合样本特征；利用融合样本特征，以及诊断分组类别，训练分类预测模型。

在某些实施例中，模型训练模块将至少一个特征类型的特征样本数据进行融合，获得融合样本特征包括：将至少一个特征类型进行特征筛选，获得至少一个有效特征类型的特征样本数据；将至少一个有效特征类型的特征样本数据进行融合，获得融合样本特征。

图8所述的数据处理装置可以执行图2所示实施例所述的数据处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个可能的设计中，图8所示实施例的数据处理装置可以实现为计算设备，如图9中所示，该计算设备可以包括存储组件901以及处理组件902；

该存储组件901存储一条或多条计算机指令，其中，该一条或多条计算机指令供处理组件902调用执行，实现如图1或图3所示的数据处理方法。

图9所示的计算设备与图8所示的计算设备在实际应用中可以为同一计算设备，当然也可以为不同计算设备，以分别实现分类预测模型的训练和利用分类预测模型进行诊断分组的操作。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被计算机执行时可以实现上述图2所示实施例的数据处理方法。

前文所述实施例中的处理组件可以包括一个或多个处理器来执行计算机指令，以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列 (FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

存储组件被配置为存储各种类型的数据以支持在终端的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种医疗数据处理方法，其特征在于，包括：

获取目标病人的医疗数据；

2.一种医疗数据处理方法，其特征在于，包括：

确定样本病人的医疗样本数据及所属诊断分组类别；

3.一种医疗数据处理方法，其特征在于，包括：

获取目标病人的医疗数据；

根据所述目标诊断分组类别，执行相应任务处理操作；

4.一种数据处理方法，其特征在于，包括：

获取目标用户的医疗数据；

5.根据权利要求4所述的方法，其特征在于，所述获取目标用户的医疗数据包括：

获取目标用户在诊疗过程中产出的病历数据。

6.根据权利要求5所述的方法，其特征在于，所述获取目标用户在诊疗过程中产出的病历数据包括：

检测医疗数据系统在所述目标用户诊疗过程中更新所述目标用户的医疗记录时，从所述医疗数据系统中获取所述目标用户的病历数据。

7.根据权利要求4所述的方法，其特征在于，所述获取目标用户的医疗数据包括：

从所述目标用户对应的病案首页中获取病案首页数据。

8.根据权利要求4所述的方法，其特征在于，所述方法还包括：

根据所述目标诊断分组类别，执行相应任务处理操作。

9.根据权利要求8所述的方法，其特征在于，所述根据所述目标诊断分组类别，执行相应任务处理操作包括：

根据所述目标诊断分组类别，对所述目标用户所在医疗机构进行服务评价或者费用补偿。

10.根据权利要求8所述的方法，其特征在于，所述根据所述目标诊断分组类别，执行相应任务处理操作包括：

根据所述目标诊断分组类别，生成针对所述目标用户的诊疗建议信息。

11.根据权利要求10所述的方法，其特征在于，所述根据所述目标诊断分组类别，生成针对所述目标用户的诊疗建议信息包括：

结合所述目标诊断分组类别以及所述目标用户的相关医疗属性信息，生成针对所述目标用户的诊疗建议信息。

12.根据权利要求11所述的方法，其特征在于，所述医疗属性信息包括所述目标用户的实际诊断结果、所在目标科室和/或当前消费信息；

所述根据所述目标诊断分组类别及所述目标用户相关的医疗属性信息，生成针对所述目标用户的诊疗建议信息包括：

若所述目标诊断分组类别对应的诊断结果与所述实际诊断结果不同、所述目标诊断分组类别与所述目标用户所在目标科室对应诊断分组类别不同、和/或所述目标诊断分组类别对应的消费费用与所述目标用户的当前消费费用不一致，生成针对所述目标用户的诊疗建议信息。

13.根据权利要求4所述的方法，其特征在于，所述基于所述医疗数据，利用分类预测模型识别所述目标用户所属目标诊断分组类别包括：

从所述医疗数据中提取至少一个特征类型的特征数据；

基于所述至少一个特征类型的特征数据，利用分类预测模型识别所述目标用户所属目标诊断分组类别。

14.根据权利要求13所述的方法，其特征在于，所述从所述医疗数据中提取至少一个特征类型的特征数据包括：

从诊断分类编码字典中提取与所述医疗数据相似度满足第一相似要求的第一数量个诊断分类编码，及从手术分类编码字典中提取与所述医疗数据相似度满足第二相似要求的第二数量个手术操作分类编码；

基于所述第一数量个诊断分类编码获得诊断类别特征；

基于所述第二数量个诊断分类编码获得手术操作类别特征。

15.根据权利要求14所述的方法，其特征在于，所述基于所述第一数量个诊断分类编码获得诊断类别特征包括：

将所述第一数量个诊断分类编码按照优先级顺序拼接获得第一文本；

将所述第一文本转换为文本向量，获得诊断类别特征；

所述基于所述第二数量个诊断分类编码获得手术操作类别特征包括：

将所述第二数量个手术操作分类编码按照优先级顺序拼接获得第二文本；

将所述第二文本转换为文本向量，获得手术操作类别特征。

16.根据权利要求14所述的方法，其特征在于，所述基于所述第一数量个诊断分类编码获得诊断类别特征包括：

将所述第一数量个诊断分类编码分别转换为第一特征向量，并将第一数量个第一特征向量进行融合，获得诊断类别特征；

所述基于所述第二数量个手术操作分类编码获得手术操作类别特征包括：

将所述第二数量个手术操作分类编码分别转换为第二特征向量，并将第二数量个第二特征向量进行融合，获得手术操作类别特征。

17.根据权利要求16所述的方法，其特征在于，所述将第一数量个第一特征向量进行融合，获得诊断类别特征包括：

根据所述第一数量个诊断分类编码的优先级顺序，确定所述第一数量个第一特征向量分别对应的权重系数；

按照所述第一数量个第一特征向量分别对应的权重系数，将所述第一数量个第一特征向量加权融合，获得诊断类别特征；

所述将第二数量个第二特征向量进行融合，获得手术操作类别特征包括：

根据所述第二数量个手术操作分类编码的优先级顺序，确定所述第二数量个第二特征向量分别对应的权重系数；

按照所述第二数量个第二特征向量分别对应的权重系数，将所述第二数量个第二特征向量加权融合，获得手术操作类别特征。

18.根据权利要求13所述的方法，其特征在于，所述从医疗数据中提取至少一个特征类型的特征数据包括：

将所述第一数量个诊断分类编码以及所述第二数量个手术操作分类编码拼接形成第三文本；

将所述第三文本转换为文本向量，获得特征数据。

19.根据权利要求14或18所述的方法，其特征在于，所述从诊断分类编码字典中提取与所述医疗数据相似度满足第一相似要求的第一数量个诊断分类编码，及从手术分类编码字典中提取与所述医疗数据相似度满足第二相似要求的第二数量个手术操作分类编码包括：

获取所述医疗数据中与诊断分类相关的至少一个第一病历文本；

获取所述医疗数据中与手术操作分类相关的至少一个第二病历文本；

提取所述第一病历文本中与诊断分类相关的至少一个第一关键词；

提取所述第二病历文本中与手术操作分类相关的至少一个第二关键词；

将所述第一关键词与诊断分类编码字典进行相似度匹配，获得与所述第一关键词满足第一相似要求的诊断分类编码；

将所述第二关键词与手术操作分类编码字典进行相似度匹配，获得与所述第二关键词满足第二相似要求的手术操作分类编码。

20.根据权利要求13所述的方法，其特征在于，所述基于所述至少一个特征类型的特征数据，利用分类预测模型预设所述目标用户所属目标诊断分组类别包括：

将所述至少一个特征类型的特征数据进行融合，获得融合特征；

将所述融合特征输入分类预测模型，获得所述目标用户所属目标诊断分组类别。

21.根据权利要求4所述的方法，其特征在于，所述诊断分组类别具体为诊断相关分类DRGs分组类别。

22.一种数据处理方法，其特征在于，包括：

确定样本用户的医疗样本数据及所属诊断分组类别；

23.根据权利要求22所述的方法，其特征在于，所述利用所述医疗样本数据及所述诊断分组类别，训练分类预测模型包括：

从所述医疗样本数据中提取至少一个特征类型的特征样本数据；

利用所述至少一个特征类型的特征样本数据，以及所述诊断分组类别，训练分类预测模型。

24.根据权利要求23所述的方法，其特征在于，所述从所述医疗样本数据中提取至少一个特征类型的特征样本数据包括：

从诊断分类编码字典中提取与所述医疗样本数据相似度满足第一相似要求的第三数量个诊断分类编码，及从手术分类编码字典中提取与所述医疗样本数据相似度满足第二相似要求的第四数量个手术操作分类编码；

基于所述第三数量个诊断分类编码获得诊断类别样本特征；

基于所述第四数量个诊断分类编码获得手术操作类别样本特征。

25.根据权利要求24所述的方法，其特征在于，所述基于所述第一数量个诊断分类编码获得诊断类别样本特征包括：

将所述第一数量个诊断分类编码按照优先级顺序拼接获得第一样本文本；

将所述第一样本文本转换为文本向量，获得诊断类别样本特征；

所述基于所述第二数量个诊断分类编码获得手术操作类别样本特征包括：

将所述第二数量个手术操作分类编码按照优先级顺序拼接获得第二样本文本；

将所述第二样本文本转换为文本向量，获得手术操作类别特征。

26.根据权利要求24所述的方法，其特征在于，所述基于所述第三数量个诊断分类编码获得诊断类别样本特征包括：

将所述第三数量个诊断分类编码分别转换为第一特征样本向量，并将第三数量个第一特征样本向量进行融合，获得诊断类别样本特征；

所述基于所述第四数量个诊断分类编码获得手术操作类别样本特征包括：

将所述第四数量个手术操作分类编码分别转换为第二特征样本向量，并将第四数量个第二特征样本向量进行融合，获得手术操作类别样本特征。

27.根据权利要求26所述的方法，其特征在于，所述将第三数量个第一特征样本向量进行融合，获得诊断类别样本特征包括：

根据所述第三数量个诊断分类编码的优先级顺序，确定所述第三数量个第一特征样本向量分别对应的权重系数；

按照所述第三数量个第一特征样本向量分别对应的权重系数，将所述第三数量个第一特征样本向量加权融合，获得诊断类别样本特征；

所述将所述第四数量个手术操作分类编码分别转换为第二特征样本向量，并将第四数量个第二特征样本向量进行融合，获得手术操作类别样本特征包括：

根据所述第四数量个手术操作分类编码的优先级顺序，确定所述第四数量个第二特征样本向量分别对应的权重系数；

按照所述第四数量个第二特征样本向量分别对应的权重系数，将所述第四数量个第二特征样本向量加权融合，获得手术操作类别样本特征。

28.根据权利要求23所述的方法，其特征在于，所述从所述医疗样本数据中提取至少一个特征类型的特征样本数据包括：

将所述第三数量个诊断分类编码以及所述第四数量个手术操作分类编码拼接形成第三样本文本；

将所述第三样本文本转换为文本向量，获得特征样本数据。

29.根据权利要求24或28所述的方法，其特征在于，所述从诊断分类编码字典中提取与所述医疗样本数据相似度满足第一相似要求的第三数量个诊断分类编码，及从手术分类编码字典中提取与所述医疗样本数据相似度满足第二相似要求的第四数量个手术操作分类编码包括：

获取所述医疗样本数据中与诊断分类相关的至少一个第一样本病历文本；

获取所述医疗样本数据中与手术操作分类相关的至少一个第二样本病历文本；

提取所述第一样本病历文本中与诊断分类相关的至少一个第一样本关键词；

提取所述第二样本病历文本中与手术操作分类相关的至少一个第二样本关键词；

将所述第一样本关键词与诊断分类编码字典进行相似度匹配，获得与所述第一样本关键词满足第一相似要求的诊断分类编码；

将所述第二样本关键词与手术操作分类编码字典进行相似度匹配，获得与所述第二样本关键词满足第一相似要求的手术操作分类编码。

30.根据权利要求23所述的方法，其特征在于，所述利用所述至少一个特征类型的特征样本数据，以及所述诊断分组类别，训练分类预测模型包括：

将所述至少一个特征类型的特征样本数据进行融合，获得融合样本特征；

利用所述融合样本特征，以及所述诊断分组类别，训练分类预测模型。

31.根据权利要求30所述的方法，其特征在于，所述将所述至少一个特征类型的特征样本数据进行融合，获得融合样本特征包括：

将所述至少一个特征类型进行特征筛选，获得至少一个有效特征类型的特征样本数据；

将所述至少一个有效特征类型的特征样本数据进行融合，获得融合样本特征。

32.一种数据处理方法，其特征在于，包括：

获取目标用户的医疗数据；

根据所述目标诊断分组类别，执行相应任务处理操作；

33.一种数据处理装置，其特征在于，包括：

第一获取模块，用于获取目标用户的医疗数据；

34.一种数据处理装置，其特征在于，包括：

35.一种计算设备，其特征在于，包括处理组件以及存储组件；

所述存储组件存储一个或多个计算机指令；所述一个或多个计算机指令用以被所述处理组件调用执行，以实现如权利要求4～21任一项所述的数据处理方法。

36.一种计算设备，其特征在于，包括处理组件以及存储组件；

所述存储组件存储一个或多个计算机指令；所述一个或多个计算机指令用以被所述处理组件调用执行，以实现如权利要22～31任一项所述的数据处理方法。

37.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序被计算机执行时实现如权利要求4～21任一项所述的数据处理方法。

38.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序被计算机执行时实现如权利要22～31任一项所述的数据处理方法。