CN111782727B

CN111782727B - 基于机器学习的数据处理方法及装置

Info

Publication number: CN111782727B
Application number: CN202010598472.7A
Authority: CN
Inventors: 王�华
Original assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2022-08-12
Anticipated expiration: 2040-06-28
Also published as: CN111782727A

Abstract

本发明公开了一种基于机器学习的数据处理方法及装置，涉及数据处理技术领域，主要目的在于解决插入至DRGs标准分组器的数据杂乱导致数据分组准确性降低的问题。包括：从区块链网络的不同区块节点中获取待进行分组处理的目标数据；基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选；提取分类筛选后未与所述预设的数据字段分类标识匹配的异常目标数据，并依据所述异常目标数据中的数据格式特征进行格式转换处理；若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组进行保存。

Description

基于机器学习的数据处理方法及装置

技术领域

本发明涉及一种数据处理技术领域，特别是涉及一种基于机器学习的数据处理方法及装置。

背景技术

目前，针对住院临床诊疗的医保结算，我国正在大力推行DRGs结算方式。通过对病案进行一系列的分组论证，得出有限的打包结算方法。这种结算方式较为科学地涵盖了绝大部分的疾病治疗成本，从提升医疗机构服务质量、降低医保基金支出成本、改善住院病案质量方面均得到了良好的表现。

本申请发明人在研究中发现，现有结算过程中，通过DRGs标准分组器定期从医保系统的接口处下载数据进行数据处理。然而，由于医院方向医保系统上传的大量数据没有统一的数据标准，在将下载后的数据插入至DRGs标准分组器时，会出现部分数据插入失败，产生异常指示，导致DRGs标准分组器的流量数据分组准确性降低，插入失败数据丢失，影响DRGs标准分组器与医保系统进行流量数据核对的处理效率，从而降低对数据的处理效率。

发明内容

有鉴于此，本发明提供一种基于机器学习的数据处理方法及装置，主要目的在于解决现有待插入至DRGs标准分组器的数据杂乱，导致DRGs标准分组器的流量数据分组准确性降低，影响DRGs标准分组器与医保系统进行数据核对的处理效率，从而降低对目标数据的处理效率的问题。

依据本发明一个方面，提供了一种基于机器学习的数据处理方法，包括：

从区块链网络的不同区块节点中获取待进行分组处理的目标数据；

基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选；

提取分类筛选后未与所述预设的数据字段分类标识匹配的异常目标数据，并依据所述异常目标数据中的数据格式特征进行格式转换处理；

若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组进行保存。

进一步地，所述基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选包括：

解析所述数据字段标识对应的字段属性，所述字段属性包括日期、年龄、性别、流量数据；

按照所述字段属性确定所述目标数据的数据类型、数据长度；

按照预设的数据字段分类标识中已完成分类的数据类型、数据长度，对所述目标数据进行分类筛选，得到与所述预设的数据字段分类标识匹配的正常目标数据、以及与所述预设的数据字段分类标识不匹配的异常目标数据。

进一步地，所述依据所述异常目标数据中的数据格式特征进行格式转换处理之前，所述方法还包括：

配置用于格式转换的格式转换对象与数据格式特征匹配的格式转换映射关系，其中，所述格式转换对象包括格式转换函数、格式转换模型；

获取所述格式转换对象的数据训练集，其中，所述数据训练集包含有与所述预设的数据字段分类标识匹配的正常目标数据；

基于所述数据训练集中的正常目标数据对所述格式转换对象的转换参数进行迭代调整，完成所述格式转换对象的配置；

所述依据所述异常目标数据中的数据格式特征进行格式转换处理包括：

依据所述格式转换映射关系，提取与所述异常目标数据中的数据格式特征匹配的格式转换对象；

基于所述格式转换对象对所述异常目标数据进行格式转换处理。

进一步地，所述基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组，进行保存包括：

获取标准分组器中待进行分组处理的分组类型；

按照所述分组类型对所述异常目标数据的基础数据进行标记分类；

基于不同标记的基础数据生成异常目标数据数组，与所述正常目标数据进行匹配存储。

进一步地，所述基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组，进行保存之后，所述方法还包括：

按照预设时间间隔统计异常目标数据数组中依据基础数据进行标记分类的标记个数；

若所述标记个数大于预设更新标记个数，则加载格式转换配置文件，以基于所述格式转换配置文件中更新的格式转换对象对异常目标数据进行格式转换处理。

若接收到格式转换处理执行切换指令时，记录对所述异常目标数据进行格式转换处理操作的转换步骤信息；

依据所述转换步骤信息从格式转换对象预备集中选取格式转换对象；

基于所述转换步骤信息对选取的格式转换对象的转换参数进行迭代调整；

将调整后的格式转换对象结合数据格式特征更新至格式转换映射关系中。

将完成格式转换处理的目标数据输送至标准分组器中，以使所述标准分组器进行流量分组；

将分组后的目标数据以及所述异常目标数据数组绑定进行反馈，以指示对分组后的目标数据以及绑定的所述异常目标数据进行处理。

依据本发明另一个方面，提供了一种基于机器学习的数据处理装置，包括：

获取模块，用于从区块链网络的不同区块节点中获取待进行分组处理的目标数据；

筛选模块，用于基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选；

处理模块，用于提取分类筛选后未与所述预设的数据字段分类标识匹配的异常目标数据，并依据所述异常目标数据中的数据格式特征进行格式转换处理；

生成模块，用于若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组进行保存。

进一步地，所述筛选模块包括：

解析单元，用于解析所述数据字段标识对应的字段属性，所述字段属性包括日期、年龄、性别、流量数据；

确定单元，用于按照所述字段属性确定所述目标数据的数据类型、数据长度；

分类单元，用于按照预设的数据字段分类标识中已完成分类的数据类型、数据长度，对所述目标数据进行分类筛选，得到与所述预设的数据字段分类标识匹配的正常目标数据、以及与所述预设的数据字段分类标识不匹配的异常目标数据。

进一步地，所述装置还包括：配置模块，第一调整模块，

所述配置模块，用于配置用于格式转换的格式转换对象与数据格式特征匹配的格式转换映射关系，其中，所述格式转换对象包括格式转换函数、格式转换模型；

所述获取模块，还用于获取所述格式转换对象的数据训练集，其中，所述数据训练集包含有与所述预设的数据字段分类标识匹配的正常目标数据；

所述第一调整模块，用于基于所述数据训练集中的正常目标数据对所述格式转换对象的转换参数进行迭代调整，完成所述格式转换对象的配置；

所述处理模块包括：

提取单元，用于依据所述格式转换映射关系，提取与所述异常目标数据中的数据格式特征匹配的格式转换对象；

处理单元，用于基于所述格式转换对象对所述异常目标数据进行格式转换处理。

进一步地，所述生成模块包括：

获取单元，用于获取标准分组器中待进行分组处理的分组类型；

标记单元，用于按照所述分组类型对所述异常目标数据的基础数据进行标记分类；

存储单元，用于基于不同标记的基础数据生成异常目标数据数组，与所述正常目标数据进行匹配存储。

进一步地，所述装置还包括：

标记模块，用于按照预设时间间隔统计异常目标数据数组中依据基础数据进行标记分类的标记个数；

加载模块，用于若所述标记个数大于预设更新标记个数，则加载格式转换配置文件，以基于所述格式转换配置文件中更新的格式转换对象对异常目标数据进行格式转换处理。

进一步地，所述装置还包括：

记录模块，用于若接收到格式转换处理执行切换指令时，记录对所述异常目标数据进行格式转换处理操作的转换步骤信息；

选取模块，用于依据所述转换步骤信息从格式转换对象预备集中选取格式转换对象；

第二调整模块，用于基于所述转换步骤信息对选取的格式转换对象的转换参数进行迭代调整；

更新模块，用于将调整后的格式转换对象结合数据格式特征更新至格式转换映射关系中。

进一步地，所述装置还包括：

输送模块，用于将完成格式转换处理的目标数据输送至标准分组器中，以使所述标准分组器进行流量分组；

绑定模块，用于将分组后的目标数据以及所述异常目标数据数组绑定进行反馈，以指示对分组后的目标数据以及绑定的所述异常目标数据进行处理。

根据本发明的又一方面，提供了一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述目标数据处理方法对应的操作。

根据本发明的再一方面，提供了一种计算机设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述目标数据处理方法对应的操作。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明提供了一种基于机器学习的数据处理方法及装置，与现有技术相比，本发明实施例通过从区块链网络的不同区块节点中获取待进行分组处理的目标数据；基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选；提取分类筛选后未与所述预设的数据字段分类标识匹配的异常目标数据，并依据所述异常目标数据中的数据格式特征进行格式转换处理；若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组，进行保存，实现通过数据格式转换方式对异常数据的保留，并提高输入至标准分组器中待分组的目标数据的准确性，降低目标数据分组处理的数据丢失率，从而提高目标数据的处理效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种基于机器学习的数据处理方法流程图；

图2示出了本发明实施例提供的另一种基于机器学习的数据处理方法流程图；

图3示出了本发明实施例提供的一种基于机器学习的数据处理装置组成框图；

图4示出了本发明实施例提供的另一种基于机器学习的数据处理装置组成框图；

图5示出了本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种基于机器学习的数据处理方法，如图1所示，该方法包括：

101、从区块链网络的不同区块节点中获取待进行分组处理的目标数据。

其中，所述目标数据为从医保系统的接口处下载的、且待输入至标准分组器中进行分组处理的数据，具体的，从区块链网络的不同区块节点中获取待进行分组处理的目标数据即为从医保系统的接口处直接截取待输入至标准分组器中的目标数据，并停止标准分组器中对目标数据进行分组的操作，所述目标数据可以包括流量数据、资源数据，如，医保系统中不同疾病分类的流量数据，表征不同疾病分类应该匹配给医院的医保资源分流高低，或者医保系统中不同疾病分类的虚拟资金金额数据，本发明实施例不做具体限定。

需要说明的是，所述标准分组器具体可以为CN-DRGs分组器，其分类DRGs(Diagnosis Related Groups)为疾病诊断相关分类，可以根据病人的年龄、性别、住院天数、临床诊断、病症、手术、疾病严重程度，合并症与并发症及转归等因素把病人分入500-600个流量分组，可以用于针对各个DRG流量分组，数据流量表征不同疾病分类应该匹配给医院的医保资源分流高低。所述标准分组器的分组过程具体可以包括：例如，患者甲，主要诊断：胃溃疡伴出血，编码K25.401，手术及操作诊断：无。则分组步骤具体可以为：1)分组器根据所述诊断编码，将患者分到MDCG消化系统疾病及功能障碍类别；2)分组器识别没有手术及操作编码，进一步进入非手术治疗的内科组GS；3)分组器识别没有合并症、伴随症情况，最终将患者分配到DRG流量分组，GS15。

另外，由于医保系统中的数据为不同医院系统上传，为了确保不同医院系统在基于医保系统进行数据处理时的安全性，医保系统以区块链网络中的不同区块节点存储不同医院系统上传的数据，并通过下发密钥供各医院系统进行获取或上传数据。本发明实施例中，密钥包含公钥与私钥，每个区块节点对应一个区块节点标识，每个医院系统分配一个私钥，且对应一个区块节点标识，用以表征身份，医院系统可以根据分配的私钥进行对区块节点标识对应的区块节点中数据进行处理，公钥用于解密全部医院系统基于对应区块节点中可以进行数据分组处理的目标数据，从而确保目标数据的安全性及私密性，提高目标数据的数据处理效率。

102、基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选。

其中，所述目标数据中携带有具体的数据字段标识，用于表征目标数据的具体类型，如就诊日期数据对应的数据字段标识-t、患者年龄数据对应的数据字段标识-y、住院天数对应的数据字段标识-d等，所述预设的数据字段分类标识为预先配置的、用于划分类别的标识，例如，预先设定时间数据字段标识为t，本发明实施例不做具体限定。具体的，当在进行分类筛选时，即为利用预先设定的数据字段分类标识对目标数据中携带的数据字段标识一一进行对比筛选，并将与预设的数据字段分类标识相同的数据字段标识对应的目标数据作为同一个分类，例如，数据a-t，数据b-y、数据c-h，数据d-t，数据f-y，数据g-t，预设的数据字段分类标识分别为t、y，则对目标数据进行分类筛选，得到数据a、数据d数据g为一个分类，数据b、数据f为一个分类，本发明实施例不做具体限定。

103、提取分类筛选后未与所述预设的数据字段分类标识匹配的异常目标数据，并依据所述异常目标数据中的数据格式特征进行格式转换处理。

本发明实施例中，由于是通过利用预设的数据字段分类标识对目标数据进行筛选分类，因此，为了确保筛选出的未与预设的数据字段分类标识匹配的异常目标数据在标准分组器中进行分组时，无法分组的目标数据不会丢失，且提高目标数据的分组准确性，提取进行分类筛选后未匹配分类的异常目标数据，具体的，异常目标数据可以携带有一个相同的数据字段分类标识，也可以分别携带不同的数据字段分类标识，本发明实施例不做具体限定。

需要说明的是，异常目标数据为无法匹配分类的目标数据，因此，为了使其可以进行流量分组处理，则根据异常目标数据中的数据格式特征进行格式转换处理，从而转换得到可以进行分类的目标数据。其中，所述数据格式特征为表征目标数据的个数的特征，包括数据长度、数据类型、符号等，例如，异常目标数据为20192-3，按照符号以及数据长度特征，确定进行格式转换处理，转换为2019-2-3或20190203等，本发明实施例不做具体限定。

104、若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组进行保存。

本发明实施例中，为了确保经过数据格式转换后的异常目标数据可以进行标准分组器进行流量分组，经过数据格式转换后的异常目标数据再次与预设的数据字段标识进行筛选分类，若经过分类筛选后，格式转换处理的异常目标数据仍未与预设的数据字段分类标识匹配，则说明异常目标数据无法进行处理，进入标准分组器后进行流量分组时会被删除，导致数据丢失，因此，基于异常目标数据的基础数据生成异常目标数据数组，进行保存，以便分组处理后人工对异常目标数据进行处理，从而提高目标数据分组的准确性。其中，所述基础数据为进行数据格式转换之前的数据，以便生成的异常目标数据数组中的数据确保为从医保系统中获取到的原始数据，本发明实施例不做具体限定。

本发明提供了一种基于机器学习的数据处理方法，与现有技术相比，本发明实施例通过从区块链网络的不同区块节点中获取待进行分组处理的目标数据；基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选；提取分类筛选后未与所述预设的数据字段分类标识匹配的异常目标数据，并依据所述异常目标数据中的数据格式特征进行格式转换处理；若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组，进行保存，实现通过数据格式转换方式对异常数据的保留，并提高输入至标准分组器中待分组的目标数据的准确性，降低目标数据分组处理的数据丢失率，从而提高目标数据的处理效率。

本发明实施例提供了另一种基于机器学习的数据处理方法，如图2所示，该方法包括：

201、从区块链网络的不同区块节点中获取待进行分组处理的目标数据。

202、基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选。

进一步地，为了具体限定及说明，本发明实施例中步骤202具体可以包括：解析所述数据字段标识对应的字段属性，所述字段属性包括日期、年龄、性别、流量数据；按照所述字段属性确定所述目标数据的数据类型、数据长度；按照预设的数据字段分类标识中已完成分类的数据类型、数据长度，对所述目标数据进行分类筛选，得到与所述预设的数据字段分类标识匹配的正常目标数据、以及与所述预设的数据字段分类标识不匹配的异常目标数据。

本发明实施例中，为了准确地对目标数据进行分类，筛选出正常目标数据与异常目标数据，即可以在标准分组器中进行分组的目标数据与无法在标准分组器中进行分组的目标数据。其中，由于不同数据字段标识可以对应不同的数据格式，因此，基于数据字段标识解析字段属性，即目标数据中的日期、年龄、性别、流量数据，本发明实施例不做具体限定。通过解析出的字段属性确定目标数据的数据类型、数据长度。本发明实施例中，为了对目标数据进行准确分类，预设的数据字段分类标识包含有已完成分类数据类型、数据长度，例如，将属于数据类型为double、数据长度为8字节的目标数据按照数据字段分类标识分为一类，将属于数据类型为datetime、数据长度为8位的目标数据按照数据字段分类标识分为一类，直至将全部的目标数据进行分类，筛选出可以匹配到预设的数据字段分类标识的目标数据，作为正常目标数据，以及无法匹配到预设的数据字段分类标识的目标数据，作为异常目标数据，以便将正常目标数据直接输送至标准分组器中进行分组，并对异常目标数据进行进一步处理，本发明实施例不做具体限定。

203、配置用于格式转换的格式转换对象与数据格式特征匹配的格式转换映射关系。

对于本发明实施例，为了提高对异常目标数据的格式转换处理效率，并加快处理流程，预先配置格式转换对象与数据格式特征匹配的格式转换映射关系，以便利用异常目标数据的数据格式特征之间匹配到进行格式转换的格式转换对象。其中，所述格式转换对象包括格式转换函数、格式转换模型，所述格式转换函数可以包括CTOD函数、STR函数等，例如，通过CTOD函数把“××/××/××”格式的Excel表格中字符串转换成对应日期值，通过STR函数将Excel表格中的数值转换成字符串形式等，本发明实施例不做具体限定。所述格式转换模型可以为任意一个用于对转换格式进行参数优化的机器学习模型，具体的，可以利用已完成格式转换的数据集训练的机器学习模型进行对格式分隔符位置预测，得到对数据进行格式转换的格式分隔符的位置，将格式分隔符插入到数据对应的位置中完成格式转换，本发明实施例不做具体限定。

需要说明的是，为了提高数据格式的转换准确性，按照数据类型、数据长度进行数据格式转换时，在基于格式转换函数、格式转换模型进行结合转换时，首先按照格式转换函数将数值转换成字符串，或者将字符串转换为数值，然后利用格式转换模型对转换后的数值或者字符串插入对应完成转换的格式分隔符，从而完成完整的格式转换。

204、获取所述格式转换对象的数据训练集。

本发明实施例中，为了提高对配置完映射关系的格式转换对象的转换准确性，获取数据训练集，完成格式转换对象的配置。其中，所述数据训练集包含有与所述预设的数据字段分类标识匹配的正常目标数据，另外，为了实现格式转换的准确性，从而提高目标数据的处理效率，获取的数据训练集中的正常目标数据可以包含本次目标数据与预设的数据字段分类标识匹配的正常目标数据，以及历史目标数据与预设的数据字段分类标识匹配的正常目标数据，以便基于全部的正常目标数据对格式转换对象进行配置。

205、基于所述数据训练集中的正常目标数据对所述格式转换对象的转换参数进行迭代调整，完成所述格式转换对象的配置。

对于本发明实施例，由于格式转换对象包含有格式转换函数以及格式转换模型，因此，为了配置符合正常目标数据的格式转换方法，利用数据训练集中的正常目标数据对格式转换对象中的转换参数进行迭代调整。其中，转换参数包括格式转换函数的转换参数，以及格式转换模型的转换参数，具体的，对于格式转换函数的转换参数可以为数据长度转换范围、数据类型转换范围，即通过每一个正常目标数据进行格式转换后的数据长度、数据类型迭代确定出进行数据格式转换的数据长度转换范围、数据类型转换范围，例如，基于正常目标数据进行格式转换的数据类型转换范围为double-double，数据长度转换范围为0-10000，从而使异常目标数据在进行格式转换时，按照转换参数进行格式转换。对于格式转换模型的转换参数可以为机器学习模型中的训练参数，例如，支持向量机模型中的惩罚参数等，使得对插入数据格式分隔符的位置进行准确确定，从而完成格式转换对象的配置。

需要说明的是，本发明实施例中优选的格式转换模型为机器学习模型，具体为支持向量机模型，则基于正常目标数据进行训练得到插入数据格式分隔符位置的支持向量机模型的训练过程可以为：

(1)将正常目标数据在数据格式转换中插入数据格式分隔符位置进行数值化，即为数据长度转换范围的每个插入位置配置对应的数值，生成正常目标数据中插入数据格式分隔符位置生成支持向量机模型训练的特征值，并将未进行数据格式转换的正常目标数据作为支持向量机模型训练的输入向量，将进行数据格式转换后的正常目标数据作为支持向量机模型训练的目标向量；

(2)选取初始的损失函数、松弛变量、核函数等作为初始训练的支持向量机模型的参数，并结合特征值、输入向量、目标向量训练支持向量机模型。

206、依据所述格式转换映射关系，提取与所述异常目标数据中的数据格式特征匹配的格式转换对象。

对于本发明实施例，当确定出异常目标数据后，为了使异常目标数据能够输入至标准分组器中进行流量分组，通过对异常目标数据进行数据格式转换的方法，对异常目标数据进行处理。其中，当完成格式转换对象的配置后，且确定出异常目标数据后根据格式转换映射关系，提取出与异常目标数据中数据格式特征匹配的格式转换对象，即包含格式转换函数以及格式转换模型，本发明实施例不做具体限定。

207、基于所述格式转换对象对所述异常目标数据进行格式转换处理。

208、若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组进行保存。

本发明实施例中，为了提高对目标数据的处理效率，步骤208具体可以包括：获取标准分组器中待进行分组处理的分组类型；按照所述分组类型对所述异常目标数据的基础数据进行标记分类；基于不同标记的基础数据生成异常目标数据数组，与所述正常目标数据进行匹配存储。

本发明实施例中，标准分组器中分组类型的分类主体可以为不同病案主体，利用所述标准分组器对所有病案主体进行分类，输出多个流量分组，获取所述所有流量分组，以便于后续利用所述流量分组进行分组优化和结算策略的制定。因此，为了匹配标准分组器的分组类型，按照分组类型对异常目标数据的基础数据进行标记分类，标记分类的类别即为分类主体的类别，得到基于不同分类主体标记的异常目标数据，生成异常目标数据数组，与正常目标数据进行匹配存储，以使得在进行标准分组器进行流量分组时，确保异常目标数据不丢失。

进一步地，为了增加目标数据的处理有效性，提高异常目标数据的处理能力，本发明实施例还包括：按照预设时间间隔统计异常目标数据数组中依据基础数据进行标记分类的标记个数；若所述标记个数大于预设更新标记个数，则加载格式转换配置文件，以基于所述格式转换配置文件中更新的格式转换对象对异常目标数据进行格式转换处理。

本发明实施例中，预设时间间隔可以为1个月、1周等，依据预设时间间隔统计异常目标数据在进行标记分类过程中的标记个数，若标记个数大于预设更新标记个数，则说明异常目标数据数量过大，需要利用适合异常目标数据且新的格式转换对象进行格式转换处理，因此，加载格式转换配置文件，所述格式转换配置文件中的格式转换对象对异常目标数据进行格式转换处理。其中，所述格式转换配置文件中更新有新配置的格式转换对象，用户通过服务端将新配置的格式转换对象存储至格式转换配置文件中，并上传至云端服务器中，供不同的终端进行加载。

需要说明的是，格式转换配置文件中的格式转换对象可以为用户基于异常目标数据直接配置的，以便针对不同的异常目标数据进行格式转换，增加异常目标数据格式转换的有效性。

进一步地，为了增加用户对于异常目标数据进行格式转换的效率，并提高待进行目标数据分组的处理效率，本发明实施例还包括：若接收到格式转换处理执行切换指令时，记录对所述异常目标数据进行格式转换处理操作的转换步骤信息；依据所述转换步骤信息从格式转换对象预备集中选取格式转换对象；基于所述转换步骤信息对选取的格式转换对象的转换参数进行迭代调整；将调整后的格式转换对象结合数据格式特征更新至格式转换映射关系中。

本发明实施例中，当前端完成异常目标数据的格式转换后，若仍然无法匹配预设的数据字段分类标识，则说明异常目标数据在进行格式转换后仍然无法在标准分组器中进行正常分组，因此，用户可以出发格式转换处理执行切换指令，通过人工形式进行异常目标数据的格式转换。其中，所述转换步骤信息为用户对异常目标数据进行人工格式转换所执行操作的步骤内容，例如，将字符串abdsvf转换为2019201时，使用的是转换函数a，并添加格式分隔符为2019-2-1，记录分隔符的位置，则记录转换步骤信息为利用转换函数a进行转换后，标记分隔符位置(4，5，-)，从而利用转换步骤信息对选取的格式转换对象的转换参数进行迭代调整。具体的，选取的格式转换对象为加载的格式转换配置文件中的格式转换对象，也可以为当前端中已进行格式转换的格式转换对象，本发明实施例不做具体限定。另外，为了便于下一次的异常目标数据的数据格式转换，将调整后的格式转换对象结合数据格式特征更新至格式转换映射关系中，以便再次进行异常目标数据的数据格式转换时，直接依据格式转换映射关系进行查找到格式转换对象，本发明实施例不做具体限定。

进一步地，本发明实施例还包括：将完成格式转换处理的目标数据输送至标准分组器中，以使所述标准分组器进行流量分组；将分组后的目标数据以及所述异常目标数据数组绑定进行反馈，以指示对分组后的目标数据以及绑定的所述异常目标数据进行处理。

本发明实施例中，当完成格式转换处理的目标数据输送至标准分组器中进行流量分组，即包含正常目标数据以及经过数据格式转换后匹配预设的数据字段分类标识的异常目标数据均可以通过标准分组器进行分组，将无法匹配预设的数据字段分类标识的异常目标数据与分组后的目标数据信息绑定，反馈至前端用户处，以指示对分组后的目标数据以及异常目标数据进行处理，即为指示用户是否删除异常目标数据或者人工对异常目标数据进行分组处理等，从而提高目标数据的处理效率，本发明实施例不做具体限定。

本发明提供了另一种基于机器学习的数据处理方法，与现有技术相比，本发明实施例通过从区块链网络的不同区块节点中获取待进行分组处理的目标数据；基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选；提取分类筛选后未与所述预设的数据字段分类标识匹配的异常目标数据，并依据所述异常目标数据中的数据格式特征进行格式转换处理；若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组，进行保存，实现通过数据格式转换方式对异常数据的保留，并提高输入至标准分组器中待分组的目标数据的准确性，降低目标数据分组处理的数据丢失率，从而提高目标数据的处理效率。

进一步的，作为对上述图1所示方法的实现，本发明实施例提供了一种基于机器学习的数据处理装置，如图3所示，该装置包括：获取模块31、筛选模块32、处理模块33、生成模块34。

获取模块31，用于从区块链网络的不同区块节点中获取待进行分组处理的目标数据；

筛选模块32，用于基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选；

处理模块33，用于提取分类筛选后未与所述预设的数据字段分类标识匹配的异常目标数据，并依据所述异常目标数据中的数据格式特征进行格式转换处理；

生成模块34，用于若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组进行保存。

本发明提供了一种基于机器学习的数据处理装置，与现有技术相比，本发明实施例通过从区块链网络的不同区块节点中获取待进行分组处理的目标数据；基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选；提取分类筛选后未与所述预设的数据字段分类标识匹配的异常目标数据，并依据所述异常目标数据中的数据格式特征进行格式转换处理；若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组，进行保存，实现通过数据格式转换方式对异常数据的保留，并提高输入至标准分组器中待分组的目标数据的准确性，降低目标数据分组处理的数据丢失率，从而提高目标数据的处理效率。

进一步的，作为对上述图2所示方法的实现，本发明实施例提供了另一种基于机器学习的数据处理装置，如图4所示，该装置包括：获取模块41、筛选模块42、处理模块43、生成模块44、配置模块45、第一调整模块46、标记模块47、加载模块48、记录模块49、选取模块410、第二调整模块411、更新模块412、输送模块413、绑定模块414。

获取模块41，用于从区块链网络的不同区块节点中获取待进行分组处理的目标数据；

筛选模块42，用于基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选；

处理模块43，用于提取分类筛选后未与所述预设的数据字段分类标识匹配的异常目标数据，并依据所述异常目标数据中的数据格式特征进行格式转换处理；

生成模块44，用于若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组进行保存。

进一步地，所述筛选模块42包括：

解析单元4201，用于解析所述数据字段标识对应的字段属性，所述字段属性包括日期、年龄、性别、流量数据；

确定单元4202，用于按照所述字段属性确定所述目标数据的数据类型、数据长度；

分类单元4203，用于按照预设的数据字段分类标识中已完成分类的数据类型、数据长度，对所述目标数据进行分类筛选，得到与所述预设的数据字段分类标识匹配的正常目标数据、以及与所述预设的数据字段分类标识不匹配的异常目标数据。

进一步地，所述装置还包括：配置模块45，第一调整模块46，

所述配置模块45，用于配置用于格式转换的格式转换对象与数据格式特征匹配的格式转换映射关系，其中，所述格式转换对象包括格式转换函数、格式转换模型；

所述获取模块41，还用于获取所述格式转换对象的数据训练集，其中，所述数据训练集包含有与所述预设的数据字段分类标识匹配的正常目标数据；

所述第一调整模块46，用于基于所述数据训练集中的正常目标数据对所述格式转换对象的转换参数进行迭代调整，完成所述格式转换对象的配置；

所述处理模块43包括：

提取单元4301，用于依据所述格式转换映射关系，提取与所述异常目标数据中的数据格式特征匹配的格式转换对象；

处理单元4302，用于基于所述格式转换对象对所述异常目标数据进行格式转换处理。

进一步地，所述生成模块44包括：

获取单元4401，用于获取标准分组器中待进行分组处理的分组类型；

标记单元4402，用于按照所述分组类型对所述异常目标数据的基础数据进行标记分类；

存储单元4403，用于基于不同标记的基础数据生成异常目标数据数组，与所述正常目标数据进行匹配存储。

进一步地，所述装置还包括：

标记模块47，用于按照预设时间间隔统计异常目标数据数组中依据基础数据进行标记分类的标记个数；

加载模块48，用于若所述标记个数大于预设更新标记个数，则加载格式转换配置文件，以基于所述格式转换配置文件中更新的格式转换对象对异常目标数据进行格式转换处理。

进一步地，所述装置还包括：

记录模块49，用于若接收到格式转换处理执行切换指令时，记录对所述异常目标数据进行格式转换处理操作的转换步骤信息；

选取模块410，用于依据所述转换步骤信息从格式转换对象预备集中选取格式转换对象；

第二调整模块411，用于基于所述转换步骤信息对选取的格式转换对象的转换参数进行迭代调整；

更新模块412，用于将调整后的格式转换对象结合数据格式特征更新至格式转换映射关系中。

进一步地，所述装置还包括：

输送模块413，用于将完成格式转换处理的目标数据输送至标准分组器中，以使所述标准分组器进行流量分组；

绑定模块414，用于将分组后的目标数据以及所述异常目标数据数组绑定进行反馈，以指示对分组后的目标数据以及绑定的所述异常目标数据进行处理。

本发明提供了另一种基于机器学习的数据处理装置，与现有技术相比，本发明实施例通过从区块链网络的不同区块节点中获取待进行分组处理的目标数据；基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选；提取分类筛选后未与所述预设的数据字段分类标识匹配的异常目标数据，并依据所述异常目标数据中的数据格式特征进行格式转换处理；若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组，进行保存，实现通过数据格式转换方式对异常数据的保留，并提高输入至标准分组器中待分组的目标数据的准确性，降低目标数据分组处理的数据丢失率，从而提高目标数据的处理效率。

根据本发明一个实施例提供了一种存储介质，所述存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的目标数据处理方法。

图5示出了根据本发明一个实施例提供的一种计算机设备的结构示意图，本发明具体实施例并不对计算机设备的具体实现做限定。

如图5所示，该计算机设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述目标数据处理方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于机器学习的数据处理方法，其特征在于，包括：

若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组进行保存；

其中，所述依据所述异常目标数据中的数据格式特征进行格式转换处理之前，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标数据携带的数据字段标识，以及预设的数据字段分类标识对所述目标数据信息分类筛选包括：

3.根据权利要求1所述的方法，其特征在于，所述基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组进行保存包括：

获取标准分组器中待进行分组处理的分组类型；

4.根据权利要求3所述的方法，其特征在于，所述基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组，进行保存之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组，进行保存之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组，进行保存之后，所述方法还包括：

7.一种基于机器学习的数据处理装置，其特征在于，包括：

生成模块，用于若基于格式转换处理的所述异常目标数据的数据字段标识再次进行分类筛选后，未与所述预设的数据字段分类标识匹配，则基于未匹配的所述异常目标数据中的基础数据生成异常目标数据数组，进行保存；

其中，所述装置还包括：配置模块，第一调整模块，

所述处理模块包括：

8.一种存储介质，其上存储有计算机程序，所述存储介质中存储有至少一可执行指令，所述执行指令使处理器执行如权利要求1-6中任一项所述的基于机器学习的数据处理方法对应的操作。

9.一种计算机设备，包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的基于机器学习的数据处理方法对应的操作。