CN110738573A - 基于分类器的数据处理方法、设备、存储介质及装置 - Google Patents

基于分类器的数据处理方法、设备、存储介质及装置 Download PDF

Info

Publication number
CN110738573A
CN110738573A CN201910846947.7A CN201910846947A CN110738573A CN 110738573 A CN110738573 A CN 110738573A CN 201910846947 A CN201910846947 A CN 201910846947A CN 110738573 A CN110738573 A CN 110738573A
Authority
CN
China
Prior art keywords
data
classifier
type
preset
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910846947.7A
Other languages
English (en)
Inventor
陈桢妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Medical and Healthcare Management Co Ltd
Original Assignee
Ping An Medical and Healthcare Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Medical and Healthcare Management Co Ltd filed Critical Ping An Medical and Healthcare Management Co Ltd
Priority to CN201910846947.7A priority Critical patent/CN110738573A/zh
Publication of CN110738573A publication Critical patent/CN110738573A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Technology Law (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于分类器的数据处理方法、设备、存储介质及装置,该方法包括:获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据;按照所述数据类型对所述目标类型数据进行编码处理,获得特征数据;获取预设费用预测模型,所述预设费用预测模型为通过对基础分类器进行训练获得;通过所述预设费用预测模型对所述特征数据进行费用预测,获得目标预测费用。基于人工智能,采用对基础分类器进行训练获得的预设费用模型进行费用预测,多角度考虑付费合理性,提高费用制定准确性。

Description

基于分类器的数据处理方法、设备、存储介质及装置
技术领域
本发明涉及人工智能的技术领域,尤其涉及一种基于分类器的数据处理方法、设备、存储介质及装置。
背景技术
医疗行业业内现有的支付方式主要有:(1)按服务项目付费,缺点服务项目定价困难,将所有风险都转移给医疗服务购买方,医疗服务提供方并不承担任何风险,缺乏成本控制意识,刺激医疗服务提供方引入尖端诊疗设备和推销高价药物,逆向选择风险增大,从而导致医疗服务的过度提供,造成医疗资源的浪费,医疗保险方的监管成本较高;(2)按总额付费,缺点是确定付费总额有一定的难度,因为合理支出难以界定,过高的预付额会导致医疗服务供给的不合理增长,过低的预付额会导致医疗服务供方过度减少医疗服务供给;(3)按服务单元付费,包括按住院床日、住院天数和人次支付等,缺点是医疗机构通过诱导需求和分解服务人次以及延长住院时间等增加数量来增加收入,医疗机构还可能出现拒收危重病人,降低服务水平等现象;(4)按人头付费,缺点是医生可能会限制所提供的医疗服务的数量和放弃某些高质量或高成本的治疗方案,医生为了节约成本,限制病人转诊,医生更愿意接受相对健康的病人;(5)按病种支付付费,比如各类诊断相关分组(Diagnosis relatedgroups,DRGs),缺点是集中适用于住院患者,暂时对门诊患者和门诊特殊疾病适应性不高,部分医疗费用不易控制,收治患者容易出现推诿现象,付费模式较为粗狂,一旦DRG组确定后,落入该组用户费用确定,无法体现同一组别中患者在医疗治疗费用的差异性。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于分类器的数据处理方法、设备、存储介质及装置,旨在解决现有技术中医疗费用制定不合理的技术问题。
为实现上述目的,本发明提供一种基于分类器的数据处理方法,所述基于分类器的数据处理方法包括以下步骤:
获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据;
按照所述数据类型对所述目标类型数据进行编码处理,获得特征数据;
获取预设费用预测模型,所述预设费用预测模型为通过对基础分类器进行训练获得;
通过所述预设费用预测模型对所述特征数据进行费用预测,获得目标预测费用。
优选地,所述获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据之前,所述基于分类器的数据处理方法还包括:
获取多个样本数据,并对各所述样本数据设置相同的数据权重;
建立多个基础分类器,根据所述样本数据及对应的所述数据权重对各所述基础分类器进行训练,获得弱分类器及预测值;
根据所述预测值调整各所述样本数据的数据权重;
根据各所述样本数据及对应的新的数据权重对各所述弱分类器进行训练,将经过训练的弱分类器进行集成,获得预设费用预测模型。
优选地,所述根据所述预测值调整各所述样本数据的数据权重,包括:
获取各所述样本数据对应的样本费用真实值;
计算所述预测值与所述样本费用真实值之间的误差;
根据所述误差设置对应的数据权重调节幅度,根据所述数据权重调节幅度调整各所述样本数据的数据权重。
优选地,所述根据各所述样本数据及对应的新的数据权重对各所述弱分类器进行训练,将经过训练的弱分类器进行集成,获得预设费用预测模型,包括:
根据各所述样本数据及对应的新的数据权重对各所述弱分类器进行迭代训练,每次迭代选取所述误差最小对应的弱分类器作为目标分类器;
计算各所述目标分类器在最终分类器中所占的分类权重;
根据所述分类权重组合各所述目标分类器,获得预设费用预测模型。
优选地,所述数据类型包括二值变量及离散变量,所述目标类型数据包括二值变量的类型数据及离散变量的类型数据;
所述获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据,包括:
获取待处理病例数据及预设诊断相关分组编码;
根据预设数据接口规范对所述待处理病例数据进行代码转换,获得标签结果表;
根据所述预设诊断相关分组编码,对所述标签结果表进行筛选,获得诊断相关分组编码不为空的目标数据;
按照所述数据类型从所述目标数据中提取二值变量的类型数据及离散变量的类型数据。
优选地,所述按照所述数据类型对所述目标类型数据进行编码处理,获得特征数据,包括:
对所述二值变量的类型数据按照预设转换规则进行转换,获得第一预设格式变量值;
对所述离散变量的类型数据进行独热编码,获得第二预设格式字段;
所述第一预设格式变量值和所述第二预设格式字段构成特征数据。
优选地,所述获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据之前,所述基于分类器的数据处理方法还包括:
删除待处理病例数据中的无关字段,获得初始处理数据;
对所述初始处理数据按照预设清洗准则进行字段清洗,获得预处理数据;
所述获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据,包括:
获取预处理数据,按照数据类型从所述预处理数据中提取对应的目标类型数据。
此外,为实现上述目的,本发明还提出一种基于分类器的数据处理设备,所述基于分类器的数据处理设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于分类器的数据处理程序,所述基于分类器的数据处理程序配置为实现如上文所述的基于分类器的数据处理方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于分类器的数据处理程序,所述基于分类器的数据处理程序被处理器执行时实现如上文所述的基于分类器的数据处理方法的步骤。
此外,为实现上述目的,本发明还提出一种基于分类器的数据处理装置,所述基于分类器的数据处理装置包括:
提取模块,用于获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据;
编码处理模块,用于按照所述数据类型对所述目标类型数据进行编码处理,获得特征数据;
获取模块,用于获取预设费用预测模型,所述预设费用预测模型为通过对基础分类器进行训练获得;
预测模块,用于通过所述预设费用预测模型对所述特征数据进行费用预测,获得目标预测费用。
本发明中,通过获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据,按照所述数据类型对所述目标类型数据进行编码处理,获得特征数据,按照数据类型对数据进行编码处理,从而使得待处理病例数据中各种类型的数据均能充分被利用,多角度考虑付费合理性;获取预设费用预测模型,所述预设费用预测模型为通过对基础分类器进行训练获得,通过所述预设费用预测模型对所述特征数据进行费用预测,获得目标预测费用,基于人工智能,采用对基础分类器进行训练获得的预设费用模型进行费用预测,多维度制定费用,提高费用制定准确性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的基于分类器的数据处理设备的结构示意图;
图2为本发明基于分类器的数据处理方法第一实施例的流程示意图;
图3为本发明基于分类器的数据处理方法第二实施例的流程示意图;
图4为本发明基于分类器的数据处理方法第三实施例的流程示意图;
图5为本发明基于分类器的数据处理装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于分类器的数据处理设备结构示意图。
如图1所示,该基于分类器的数据处理设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的存储器(Non-volatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于分类器的数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于分类器的数据处理程序。
在图1所示的基于分类器的数据处理设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述基于分类器的数据处理设备通过处理器1001调用存储器1005中存储的基于分类器的数据处理程序,并执行本发明实施例提供的基于分类器的数据处理方法。
基于上述硬件结构,提出本发明基于分类器的数据处理方法的实施例。
参照图2,图2为本发明基于分类器的数据处理方法第一实施例的流程示意图,提出本发明基于分类器的数据处理方法第一实施例。
在第一实施例中,所述基于分类器的数据处理方法包括以下步骤:
步骤S10:获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据。
应理解的是,本实施例的执行主体是所述基于分类器的数据处理设备,其中,所述基于分类器的数据处理设备可为个人电脑或服务器等电子设备。所述待处理病例数据包括病人的基本信息、历史治疗信息及药物使用情况等数据。所述数据类型包括二值变量和离散变量,基于基础分类器训练获得的预设费用预测模型需要对特定形式的数据才能进行处理,故可按照所述二值变量从所述待处理病例数据中提取对应的二值变量的类型数据,按照所述离散变量从所述待处理病例数据中提取对应的离散变量的类型数据,从而按照所述数据类型对所述目标类型数据进行分类处理,以使处理获得的数据能够被预设费用预测模型处理。
步骤S20:按照所述数据类型对所述目标类型数据进行编码处理,获得特征数据。
可理解的是,所述数据类型包括二值变量和离散变量,所述二值变量的类型数据包括药物过敏和择期手术等数据,将所述二值变量的类型数据转换为0、1值,获得第一预设格式变量值,所述离散变量的类型数据包括医疗付款方式、住院次数、药物过敏、实际住院天数、医院类别、性别、职业、民族、血型、婚姻、入院时间、入院途径、实施临床路径、抢救次数、抢救成功次数和年龄等数据,将所述离散变量的类型数据进行独热编码,获得第二预设格式字段,所述第一预设格式变量值和所述第二预设格式字段构成特征数据。
步骤S30:获取预设费用预测模型,所述预设费用预测模型为通过对基础分类器进行训练获得。
需要说明的是,为了准确预测费用,可通过获取大量的样本数据及对应的样本费用真实值,并建立多个基础分类器,根据所述样本数据及对应的所述样本费用真实值对所述基础分类器进行多次训练,获得所述预设费用预测模型。
步骤S40:通过所述预设费用预测模型对所述特征数据进行费用预测,获得目标预测费用。
应理解的是,可采用预设开源框架,比如开源框架scikit-learn,加载所述预设费用预测模型,将所述特征数据输入所述预设费用预测模型,通过调用预测(predict)函数,进行费用预测,输出所述待处理医疗数据对应的目标预测费用。
本实施例中,通过获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据,按照所述数据类型对所述目标类型数据进行编码处理,获得特征数据,按照数据类型对数据进行编码处理,从而使得待处理病例数据中各种类型的数据均能充分被利用,多角度考虑付费合理性;获取预设费用预测模型,所述预设费用预测模型为通过对基础分类器进行训练获得,通过所述预设费用预测模型对所述特征数据进行费用预测,获得目标预测费用,基于人工智能,采用对基础分类器进行训练获得的预设费用模型进行费用预测,多维度制定费用,提高费用制定准确性。
参照图3,图3为本发明基于分类器的数据处理方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明基于分类器的数据处理方法的第二实施例。
在第二实施例中,所述步骤S10之前,还包括:
步骤S01:获取多个样本数据,并对各所述样本数据设置相同的数据权重。
应理解的是,记所述样本数据的数量为N个,N为大于等于1的整数,对N个所述样本数据赋予一样的所述数据权重,记为:
Figure BDA0002194169280000071
则数据权重分布为:
Figure BDA0002194169280000072
步骤S02:建立多个基础分类器,根据所述样本数据及对应的所述数据权重对各所述基础分类器进行训练,获得弱分类器及预测值。
可理解的是,对每一个所述样本数据带权重对一个基础分类器进行训练,获得对应的弱分类器及预测值,计算所述与预测值与样本费用真实值之间的误差率,选取一个所述误差率最小的弱分类器h作为第t个目标分类器Ht,记弱分类器ht:X→{-1,1},该弱分类器在分布Dt上的误差为:
Figure BDA0002194169280000081
即Hi(x)在用于训练的样本数据集上的误差率et是被Hi(x)误分类样本的权值之和。计算该弱分类器在最终分类器中所占的权重,可记作分类权重αt,公式为:
Figure BDA0002194169280000082
步骤S03:根据所述预测值调整各所述样本数据的数据权重。
需要说明的是,选取一个所述误差率最小的弱分类器,按照所述误差率最小的弱分类器,调整各所述样本数据的数据权重。将各所述弱分类器的预测值与样本费用真实值比较后得到误差,在进行下一轮学习前,调整用于训练的样本数据的数据权重,将误差较大的样本数据的数据权重调高。通过不断的学习训练以及样本数据的数据权重的调整,最终把多个弱分类器集成,就能得到更好的学习结果。
在本实施例中,所述步骤S03,包括:
获取各所述样本数据对应的样本费用真实值;
计算所述预测值与所述样本费用真实值之间的误差;
根据所述误差设置对应的数据权重调节幅度,根据所述数据权重调节幅度调整各所述样本数据的数据权重。
应理解的是,获取各所述样本数据对应的样本费用真实值,通过计算各所述弱分类器的预测值与各所述样本数据对应的样本费用真实值之间的误差,将误差较大的样本数据的数据权重调高,误差越大的设置越大的数据权重调节幅度,根据所述数据权重调节幅度调整各所述样本数据的数据权重,再根据调整之后的数据权重及对应的样本数据对多个弱分类器进行再次训练。更新用于训练的所述样本数据的数据权重分布:
Figure BDA0002194169280000083
其中,Zt为归一化常数,
步骤S04:根据各所述样本数据及对应的新的数据权重对各所述弱分类器进行训练,将经过训练的弱分类器进行集成,获得预设费用预测模型。
在具体实现中,按照各所述弱分类器的分类权重αt组合各个弱分类器:
Figure BDA0002194169280000091
通过符号函数sign的作用,得到一个强分类器,即所述预设费用预测模型,公式为:
Figure BDA0002194169280000092
每次迭代调整分类权重αt,并选择基本分类器Ht,使得Zt最终逼近于最小值,使误差不断减小,最终所述预设费用预测模型具有较好的预测效果。
在本实施例中,所述步骤S04,包括:
根据各所述样本数据及对应的新的数据权重对各所述弱分类器进行迭代训练,每次迭代选取所述误差最小对应的弱分类器作为目标分类器;
计算各所述目标分类器在最终分类器中所占的分类权重;
根据所述分类权重组合各所述目标分类器,获得预设费用预测模型。
可理解的是,计算所述与预测值与样本费用真实值之间的误差率,选取一个所述误差率最小的弱分类器作为一个目标分类器,经过T此迭代后,获得T个最佳弱分类器,即T个目标分类器h1(x),h2(x),...,hT(x),将T个所述目标分类器进行组合,按照各所述目标分类器的分类权重αt组合各个目标分类器,
Figure BDA0002194169280000093
通过符号函数sign的作用,得到一个强分类器,即所述预设费用预测模型,公式为:
Figure BDA0002194169280000094
每次迭代调整分类权重αt,并选择基本分类器Ht,使得Zt最终逼近于最小值,使误差不断减小,最终获得的所述预设费用预测模型具有较好的预测效果。
本实施例中,获取多个样本数据,并对各所述样本数据设置相同的数据权重,建立多个基础分类器,根据所述样本数据及对应的所述数据权重对各所述基础分类器进行训练,获得弱分类器及预测值,根据所述预测值调整各所述样本数据的数据权重,根据各所述样本数据及对应的新的数据权重对各所述弱分类器进行训练,将经过训练的弱分类器进行集成,获得预设费用预测模型,每次迭代调整权重,使误差不断减小,最终获得的所述预设费用预测模型具有较好的预测效果。
参照图4,图4为本发明基于分类器的数据处理方法第三实施例的流程示意图,基于上述图3所示的第二实施例,提出本发明基于分类器的数据处理方法的第三实施例。
在第三实施例中,所述步骤S10之前,还包括:
删除待处理病例数据中的无关字段,获得初始处理数据;
对所述初始处理数据按照预设清洗准则进行字段清洗,获得预处理数据;
所述步骤S10,包括:获取预处理数据,按照数据类型从所述预处理数据中提取对应的目标类型数据。
应理解的是,由于原始病案首页字段较多,数据质量参次不齐,故需要对所述待处理病例数据进行预处理,删除用户病历的无关字段、根据不同字段业务理解处理缺失值/异常值等。删除90%都为空值的字段列,删除同一字段下值全相同的字段列。
需要说明的是,所述预设清洗准则如下:
住院费用ZFY:先取大于5元且小于200万元的数据,根据费用箱图box,这里选取2σ原则作为处理准则,在正态分布中σ代表标准差,μ代表均值,x=μ即为图像的对称轴,数值分布在(μ—2σ,μ+2σ)中的概率为0.9544,筛选出ZFY>5且小于
Figure BDA0002194169280000101
的数据;实际住院天数SJZYTS:实际住院天数大于0小于等于60;年龄NL:大于95岁剔除;住院次数ZYCS:剔除>200的离群值;抢救次数QJCS:抢救次数数据异常或无法理解该字段,故放弃;抢救成功次数QJCGCS:剔除大于60的离群值;其余字段均为离散变量,检查后发现并没有类型比例严重失调的现象故在预处理模块阶段暂时保留。
在第三实施例中,所述数据类型包括二值变量及离散变量,所述目标类型数据包括二值变量的类型数据及离散变量的类型数据;所述步骤S10,包括:
步骤S101:获取待处理病例数据及预设诊断相关分组编码。
应理解的是,为了对所述待处理病例数据进行重复利用,前期通过疾病诊断相关分类(CN-drg)分组器利用大量结构化以及非结构化的字段对病例进行分组,最终输出为DRG编码如下:EZ15,其中,E表示该组属于神经系统的主要诊断分类(Major DiagnosticCategory,MDC),EZ1表示相近的诊断相关分组(adjacent Diagnosis related group,ADRG),分析之后,获得所述预设诊断相关分组DRG编码,将DRG编码纳入特征表中,并对其以及其他不同类型的特征进行分类处理转换,以保证处理后的特征能够有效地训练。
步骤S102:根据预设数据接口规范对所述待处理病例数据进行代码转换,获得标签结果表。
可理解的是,所述预设数据接口规范为《国家卫生直报系统2014数据接口规范》,根据预设数据接口规范对所述待处理病例数据进行代码转换,获得标签结果表,如下表1所示:
字段名 变量代码 类型
病案号 CID string
医院类别 UPID_ string
性别 XB Int
职业 ZY int
民族 MZ int
血型 XX int
RH RH int
医疗付款方式 LYFKFS int
婚姻 HY Int
住院次数 ZYCS Int
药物过敏 YWGM Int
实际住院天数 SJZYTS Int
入院时间 RYSJ String
入院途径 RYTJ String
实施临床路径 SSLCLJ String
抢救次数 QJCS Int
抢救成功次数 QJCGCS int
年龄 NL Int
择期手术 ZQSS Int
是否在住院计划 SFZZYJH Int
表1
根据所述预设数据接口规范编码,对每个字段值进行限幅处理,对于不在范围内的编码,将其设置为默认处理值,所述默认处理值经过业务数据分析而设定。所述待处理病例数据经过预处理,获得所述预处理数据,则所述步骤S102,包括:根据预设数据接口规范对所述预处理数据进行代码转换,获得标签结果表。
步骤S103:根据所述预设诊断相关分组编码,对所述标签结果表进行筛选,获得诊断相关分组编码不为空的目标数据。
需要说明的是,以唯一病案号CID为主键,连接特征表及DRG标签结果表,筛选出DRG标签非‘None’的数据,获得诊断相关分组编码不为空的目标数据。
步骤S104:按照所述数据类型从所述目标数据中提取二值变量的类型数据及离散变量的类型数据,所述数据类型包括二值变量及离散变量,所述目标类型数据包括二值变量的类型数据及离散变量的类型数据。
在具体实现中,切割DRG标签分成4个字段,切割入院时间RYSJ为YEAR、MONTH和DAY三个字段。所述数据类型包括二值变量及离散变量,按照所述数据类型从所述目标数据中提取二值变量的类型数据,所述二值变量的类型数据包括药物过敏YWGM和择期手术ZQSS,按照所述数据类型从所述目标数据中提取离散变量的类型数据,所述离散变量的类型数据包括医疗付款方式、住院次数、药物过敏、实际住院天数、医院类别、性别、职业、民族、血型、婚姻、入院时间、入院途径、实施临床路径、抢救次数、抢救成功次数和年龄等数据。
在本实施例中,所述步骤S20,包括:
对所述二值变量的类型数据按照预设转换规则进行转换,获得第一预设格式变量值;
对所述离散变量的类型数据进行独热编码,获得第二预设格式字段;
所述第一预设格式变量值和所述第二预设格式字段构成特征数据。
应理解的是,将所述二值变量的类型数据转换为0、1值,获得第一预设格式变量值,将所述离散变量的类型数据进行独热编码,获得第二预设格式字段,如血型系统RH字段,原离散代码为RH={"阴":1,"阳":2,"不详":3,"未查":4},经转换后变成四个二值字段RH_1,RH_2,RH_3,RH_4,所述第一预设格式变量值和所述第二预设格式字段构成特征数据。
本实施例中,通过获取待处理病例数据及预设诊断相关分组编码,根据预设数据接口规范对所述待处理病例数据进行代码转换,获得标签结果表,根据所述预设诊断相关分组编码,对所述标签结果表进行筛选,获得诊断相关分组编码不为空的目标数据,按照所述数据类型从所述目标数据中提取二值变量的类型数据及离散变量的类型数据,从而充分利用待处理病例数据中的不同类型数据,充分挖掘医疗数据,多角度考虑付费合理性,从而提升了费用预测的合理性和准确性。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于分类器的数据处理程序,所述基于分类器的数据处理程序被处理器执行时实现如上文所述的基于分类器的数据处理方法的步骤。
此外,参照图5,本发明实施例还提出一种基于分类器的数据处理装置,所述基于分类器的数据处理装置包括:
提取模块10,用于获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据。
应理解的是,所述待处理病例数据包括病人的基本信息、历史治疗信息及药物使用情况等数据。所述数据类型包括二值变量和离散变量,基于基础分类器训练获得的预设费用预测模型需要对特定形式的数据才能进行处理,故可按照所述二值变量从所述待处理病例数据中提取对应的二值变量的类型数据,按照所述离散变量从所述待处理病例数据中提取对应的离散变量的类型数据,从而按照所述数据类型对所述目标类型数据进行分类处理,以使处理获得的数据能够被预设费用预测模型处理。
编码处理模块20,用于按照所述数据类型对所述目标类型数据进行编码处理,获得特征数据。
可理解的是,所述数据类型包括二值变量和离散变量,所述二值变量的类型数据包括药物过敏和择期手术等数据,将所述二值变量的类型数据转换为0、1值,获得第一预设格式变量值,所述离散变量的类型数据包括医疗付款方式、住院次数、药物过敏、实际住院天数、医院类别、性别、职业、民族、血型、婚姻、入院时间、入院途径、实施临床路径、抢救次数、抢救成功次数和年龄等数据,将所述离散变量的类型数据进行独热编码,获得第二预设格式字段,所述第一预设格式变量值和所述第二预设格式字段构成特征数据。
获取模块30,用于获取预设费用预测模型,所述预设费用预测模型为通过对基础分类器进行训练获得。
需要说明的是,为了准确预测费用,可通过获取大量的样本数据及对应的样本费用真实值,并建立多个基础分类器,根据所述样本数据及对应的所述样本费用真实值对所述基础分类器进行多次训练,获得所述预设费用预测模型。
预测模块40,用于通过所述预设费用预测模型对所述特征数据进行费用预测,获得目标预测费用。
应理解的是,可采用预设开源框架,比如开源框架scikit-learn,加载所述预设费用预测模型,将所述特征数据输入所述预设费用预测模型,通过调用预测(predict)函数,进行费用预测,输出所述待处理医疗数据对应的目标预测费用。
本实施例中,通过获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据,按照所述数据类型对所述目标类型数据进行编码处理,获得特征数据,按照数据类型对数据进行编码处理,从而使得待处理病例数据中各种类型的数据均能充分被利用,多角度考虑付费合理性;获取预设费用预测模型,所述预设费用预测模型为通过对基础分类器进行训练获得,通过所述预设费用预测模型对所述特征数据进行费用预测,获得目标预测费用,基于人工智能,采用对基础分类器进行训练获得的预设费用模型进行费用预测,多维度制定费用,提高费用制定准确性。
在一实施例中,所述基于分类器的数据处理装置还包括:
设置模块,用于获取多个样本数据,并对各所述样本数据设置相同的数据权重;
训练模块,用于建立多个基础分类器,根据所述样本数据及对应的所述数据权重对各所述基础分类器进行训练,获得弱分类器及预测值;
调整模块,用于根据所述预测值调整各所述样本数据的数据权重;
所述训练模块,还用于根据各所述样本数据及对应的新的数据权重对各所述弱分类器进行训练,将经过训练的弱分类器进行集成,获得预设费用预测模型。
在一实施例中,所述调整模块,还用于获取各所述样本数据对应的样本费用真实值;计算所述预测值与所述样本费用真实值之间的误差;根据所述误差设置对应的数据权重调节幅度,根据所述数据权重调节幅度调整各所述样本数据的数据权重。
在一实施例中,所述训练模块,还用于根据各所述样本数据及对应的新的数据权重对各所述弱分类器进行迭代训练,每次迭代选取所述误差最小对应的弱分类器作为目标分类器;计算各所述目标分类器在最终分类器中所占的分类权重;根据所述分类权重组合各所述目标分类器,获得预设费用预测模型。
在一实施例中,所述数据类型包括二值变量及离散变量,所述目标类型数据包括二值变量的类型数据及离散变量的类型数据;
所述提取模块10,还用于获取待处理病例数据及预设诊断相关分组编码;根据预设数据接口规范对所述待处理病例数据进行代码转换,获得标签结果表;根据所述预设诊断相关分组编码,对所述标签结果表进行筛选,获得诊断相关分组编码不为空的目标数据;按照所述数据类型从所述目标数据中提取二值变量的类型数据及离散变量的类型数据。
在一实施例中,所述编码处理模块20,还用于对所述二值变量的类型数据按照预设转换规则进行转换,获得第一预设格式变量值;对所述离散变量的类型数据进行独热编码,获得第二预设格式字段;所述第一预设格式变量值和所述第二预设格式字段构成特征数据。
在一实施例中,所述基于分类器的数据处理装置还包括:
删除模块,用于删除待处理病例数据中的无关字段,获得初始处理数据;
清洗模块,用于对所述初始处理数据按照预设清洗准则进行字段清洗,获得预处理数据;
所述提取模块10,还用于获取预处理数据,按照数据类型从所述预处理数据中提取对应的目标类型数据。
本发明所述基于分类器的数据处理装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于分类器的数据处理方法,其特征在于,所述基于分类器的数据处理方法包括以下步骤:
获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据;
按照所述数据类型对所述目标类型数据进行编码处理,获得特征数据;
获取预设费用预测模型,所述预设费用预测模型为通过对基础分类器进行训练获得;
通过所述预设费用预测模型对所述特征数据进行费用预测,获得目标预测费用。
2.如权利要求1所述的基于分类器的数据处理方法,其特征在于,所述获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据之前,所述基于分类器的数据处理方法还包括:
获取多个样本数据,并对各所述样本数据设置相同的数据权重;
建立多个基础分类器,根据所述样本数据及对应的所述数据权重对各所述基础分类器进行训练,获得弱分类器及预测值;
根据所述预测值调整各所述样本数据的数据权重;
根据各所述样本数据及对应的新的数据权重对各所述弱分类器进行训练,将经过训练的弱分类器进行集成,获得预设费用预测模型。
3.如权利要求2所述的基于分类器的数据处理方法,其特征在于,所述根据所述预测值调整各所述样本数据的数据权重,包括:
获取各所述样本数据对应的样本费用真实值;
计算所述预测值与所述样本费用真实值之间的误差;
根据所述误差设置对应的数据权重调节幅度,根据所述数据权重调节幅度调整各所述样本数据的数据权重。
4.如权利要求3所述的基于分类器的数据处理方法,其特征在于,所述根据各所述样本数据及对应的新的数据权重对各所述弱分类器进行训练,将经过训练的弱分类器进行集成,获得预设费用预测模型,包括:
根据各所述样本数据及对应的新的数据权重对各所述弱分类器进行迭代训练,每次迭代选取所述误差最小对应的弱分类器作为目标分类器;
计算各所述目标分类器在最终分类器中所占的分类权重;
根据所述分类权重组合各所述目标分类器,获得预设费用预测模型。
5.如权利要求1所述的基于分类器的数据处理方法,其特征在于,所述数据类型包括二值变量及离散变量,所述目标类型数据包括二值变量的类型数据及离散变量的类型数据;
所述获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据,包括:
获取待处理病例数据及预设诊断相关分组编码;
根据预设数据接口规范对所述待处理病例数据进行代码转换,获得标签结果表;
根据所述预设诊断相关分组编码,对所述标签结果表进行筛选,获得诊断相关分组编码不为空的目标数据;
按照所述数据类型从所述目标数据中提取二值变量的类型数据及离散变量的类型数据。
6.如权利要求5所述的基于分类器的数据处理方法,其特征在于,所述按照所述数据类型对所述目标类型数据进行编码处理,获得特征数据,包括:
对所述二值变量的类型数据按照预设转换规则进行转换,获得第一预设格式变量值;
对所述离散变量的类型数据进行独热编码,获得第二预设格式字段;
所述第一预设格式变量值和所述第二预设格式字段构成特征数据。
7.如权利要求1-6中任一项所述的基于分类器的数据处理方法,其特征在于,所述获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据之前,所述基于分类器的数据处理方法还包括:
删除待处理病例数据中的无关字段,获得初始处理数据;
对所述初始处理数据按照预设清洗准则进行字段清洗,获得预处理数据;
所述获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据,包括:
获取预处理数据,按照数据类型从所述预处理数据中提取对应的目标类型数据。
8.一种基于分类器的数据处理设备,其特征在于,所述基于分类器的数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于分类器的数据处理程序,所述基于分类器的数据处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于分类器的数据处理方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有基于分类器的数据处理程序,所述基于分类器的数据处理程序被处理器执行时实现如权利要求1至7中任一项所述的基于分类器的数据处理方法的步骤。
10.一种基于分类器的数据处理装置,其特征在于,所述基于分类器的数据处理装置包括:
提取模块,用于获取待处理病例数据,按照数据类型从所述待处理病例数据中提取对应的目标类型数据;
编码处理模块,用于按照所述数据类型对所述目标类型数据进行编码处理,获得特征数据;
获取模块,用于获取预设费用预测模型,所述预设费用预测模型为通过对基础分类器进行训练获得;
预测模块,用于通过所述预设费用预测模型对所述特征数据进行费用预测,获得目标预测费用。
CN201910846947.7A 2019-09-06 2019-09-06 基于分类器的数据处理方法、设备、存储介质及装置 Pending CN110738573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910846947.7A CN110738573A (zh) 2019-09-06 2019-09-06 基于分类器的数据处理方法、设备、存储介质及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910846947.7A CN110738573A (zh) 2019-09-06 2019-09-06 基于分类器的数据处理方法、设备、存储介质及装置

Publications (1)

Publication Number Publication Date
CN110738573A true CN110738573A (zh) 2020-01-31

Family

ID=69267527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910846947.7A Pending CN110738573A (zh) 2019-09-06 2019-09-06 基于分类器的数据处理方法、设备、存储介质及装置

Country Status (1)

Country Link
CN (1) CN110738573A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815052A (zh) * 2020-07-08 2020-10-23 泰康保险集团股份有限公司 一种医疗费用数据处理方法及装置
CN112016770A (zh) * 2020-10-21 2020-12-01 平安科技(深圳)有限公司 一种医保费用预测方法、装置、设备及存储介质
CN113033817A (zh) * 2021-03-19 2021-06-25 南方科技大学 基于隐空间的ood检测方法、装置、服务器及存储介质
CN113065913A (zh) * 2021-03-12 2021-07-02 云汉芯城(上海)互联网科技股份有限公司 报价处理方法、装置及计算机存储介质
CN113744851A (zh) * 2020-05-27 2021-12-03 阿里巴巴集团控股有限公司 一种就医分组方法、设备及存储介质
CN113779180A (zh) * 2021-09-29 2021-12-10 北京雅丁信息技术有限公司 一种地区drg分组模拟方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180155A (zh) * 2017-04-17 2017-09-19 中国科学院计算技术研究所 一种基于异构集成模型的疾病预测方法及系统
CN108511059A (zh) * 2018-03-15 2018-09-07 平安医疗健康管理股份有限公司 慢病管理方法及系统
CN109065175A (zh) * 2018-08-14 2018-12-21 平安医疗健康管理股份有限公司 医疗特征筛选方法、装置、计算机设备和存储介质
WO2019006373A1 (en) * 2017-06-30 2019-01-03 Alibaba Group Holding Limited METHOD AND APPARATUS FOR PREDICTING VEHICLE INSURANCE RISK, AND SERVER
CN109471852A (zh) * 2018-05-29 2019-03-15 平安医疗健康管理股份有限公司 医疗数据库建立方法、装置、计算机设备和存储介质
CN109523067A (zh) * 2018-10-30 2019-03-26 平安医疗健康管理股份有限公司 基于预测模型的费用预测方法、装置、服务器及存储介质
CN109616216A (zh) * 2018-11-30 2019-04-12 平安医疗健康管理股份有限公司 医疗费用预测方法、装置、设备及计算机可读存储介质
CN109887590A (zh) * 2019-02-21 2019-06-14 广州天鹏计算机科技有限公司 医疗项目的费用预测方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180155A (zh) * 2017-04-17 2017-09-19 中国科学院计算技术研究所 一种基于异构集成模型的疾病预测方法及系统
WO2019006373A1 (en) * 2017-06-30 2019-01-03 Alibaba Group Holding Limited METHOD AND APPARATUS FOR PREDICTING VEHICLE INSURANCE RISK, AND SERVER
CN108511059A (zh) * 2018-03-15 2018-09-07 平安医疗健康管理股份有限公司 慢病管理方法及系统
CN109471852A (zh) * 2018-05-29 2019-03-15 平安医疗健康管理股份有限公司 医疗数据库建立方法、装置、计算机设备和存储介质
CN109065175A (zh) * 2018-08-14 2018-12-21 平安医疗健康管理股份有限公司 医疗特征筛选方法、装置、计算机设备和存储介质
CN109523067A (zh) * 2018-10-30 2019-03-26 平安医疗健康管理股份有限公司 基于预测模型的费用预测方法、装置、服务器及存储介质
CN109616216A (zh) * 2018-11-30 2019-04-12 平安医疗健康管理股份有限公司 医疗费用预测方法、装置、设备及计算机可读存储介质
CN109887590A (zh) * 2019-02-21 2019-06-14 广州天鹏计算机科技有限公司 医疗项目的费用预测方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈玉琨: "《人工智能入门 第3册》", 商务印书馆, pages: 44 - 47 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744851A (zh) * 2020-05-27 2021-12-03 阿里巴巴集团控股有限公司 一种就医分组方法、设备及存储介质
CN111815052A (zh) * 2020-07-08 2020-10-23 泰康保险集团股份有限公司 一种医疗费用数据处理方法及装置
CN111815052B (zh) * 2020-07-08 2023-12-22 泰康保险集团股份有限公司 一种医疗费用数据处理方法及装置
CN112016770A (zh) * 2020-10-21 2020-12-01 平安科技(深圳)有限公司 一种医保费用预测方法、装置、设备及存储介质
CN113065913A (zh) * 2021-03-12 2021-07-02 云汉芯城(上海)互联网科技股份有限公司 报价处理方法、装置及计算机存储介质
CN113033817A (zh) * 2021-03-19 2021-06-25 南方科技大学 基于隐空间的ood检测方法、装置、服务器及存储介质
CN113779180A (zh) * 2021-09-29 2021-12-10 北京雅丁信息技术有限公司 一种地区drg分组模拟方法

Similar Documents

Publication Publication Date Title
CN110738573A (zh) 基于分类器的数据处理方法、设备、存储介质及装置
US20210125732A1 (en) System and method with federated learning model for geotemporal data associated medical prediction applications
CN113159147B (zh) 基于神经网络的图像识别方法、装置、电子设备
CN112990386B (zh) 用户价值聚类方法、装置、计算机设备和存储介质
CN112801805A (zh) 基于深度自监督神经网络的医保小卡欺诈检测方法及系统
CN112132624A (zh) 医疗理赔数据预测系统
US20230401466A1 (en) Method for temporal knowledge graph reasoning based on distributed attention
CN111582932A (zh) 场景间信息推送方法、装置、计算机设备及存储介质
CN111538909A (zh) 一种信息推荐方法及装置
CN108197795A (zh) 恶意团体账户识别方法、装置、终端及存储介质
CN110675270A (zh) 基于发票信息的医保扣费金额的确定方法和装置
CN109978701A (zh) 个人住院概率预测方法及系统
Pereira et al. Predicting future frequent users of emergency departments in California state
Kulkarni et al. Predicting the inpatient hospital cost using a machine learning approach
CN115063143A (zh) 账户数据处理方法、装置、计算机设备和存储介质
Killada Data analytics using regression models for health insurance market place data
CN113988431A (zh) 一种客户潜在经纪人能力预测方法、系统及设备
CN115408599A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
Wang et al. Ensemble learning based on remote sensing data for monitoring agricultural drought in major winter wheat-producing areas of China
JP6895912B2 (ja) 保険設計支援システム及び保険設計支援方法
CN113688854A (zh) 数据处理方法、装置及计算设备
CN113392203B (zh) 智能问答方法、装置、电子设备和计算机可读存储介质
JP6828203B1 (ja) 勧奨通知最適タイミング算出方法、及び勧奨通知最適タイミング算出システム
WO2023119985A1 (ja) 情報分析支援方法及び情報分析支援システム
CN114429178A (zh) 显著标签生成方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200131