CN113657516A - 医疗交易数据处理的方法、装置、电子设备和存储介质 - Google Patents

医疗交易数据处理的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113657516A
CN113657516A CN202110959878.8A CN202110959878A CN113657516A CN 113657516 A CN113657516 A CN 113657516A CN 202110959878 A CN202110959878 A CN 202110959878A CN 113657516 A CN113657516 A CN 113657516A
Authority
CN
China
Prior art keywords
data
transaction data
medical transaction
abnormal
reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110959878.8A
Other languages
English (en)
Inventor
张舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Taikang Pension Insurance Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Taikang Pension Insurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd, Taikang Pension Insurance Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN202110959878.8A priority Critical patent/CN113657516A/zh
Publication of CN113657516A publication Critical patent/CN113657516A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Technology Law (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了医疗交易数据处理的方法、装置、电子设备和存储介质,涉及计算机技术领域。该方法的一具体实施方式包括:获取待处理的各医疗交易数据,基于预设特征参数生成各医疗交易数据的特征向量;将特征向量输入预训练的稀疏自编码器模型,得出各医疗交易数据的重建向量,基于特征向量和重建向量计算各医疗交易数据对应的重建误差;基于重建误差计算误差阈值,以将大于误差阈值的重建误差所对应医疗交易数据确定为异常数据。该实施方式能够解决现有技术为单指标识别,且异常阈值基于人为主观设定,导致异常数据识别准确性较低的问题。

Description

医疗交易数据处理的方法、装置、电子设备和存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理的方法、装置、电子设备和存储介质。
背景技术
为了防止医疗欺诈等行为给医疗保险带来损失,所以需要对医保基金数据执行监管,以及时识别出其中违规等异常的数据。现有技术中,对于医保基金数据,通常采用线上指标监管的方式,例如为各监管指标设置对应的异常阈值,然后基于异常阈值来确定异常数据,但是,这种方式为单指标识别,并且异常阈值基于人为主观设定,导致异常数据识别的准确性较低。
发明内容
有鉴于此,本发明实施例提供一种医疗交易数据处理的方法、装置、电子设备和存储介质,能够解决现有技术为单指标识别,且异常阈值基于人为主观设定,导致异常数据识别准确性较低的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种医疗交易数据处理的方法。
本发明实施例的一种医疗交易数据处理的方法包括:获取待处理的各医疗交易数据,基于预设特征参数生成各医疗交易数据的特征向量;将特征向量输入预训练的稀疏自编码器模型,得出各医疗交易数据的重建向量,基于特征向量和重建向量计算各医疗交易数据对应的重建误差;其中,所述稀疏自编码器模型为通过预设的异常识别策略从历史医疗交易数据中识别出的异常数据和正常数据进行训练得到的;基于所述重建误差计算误差阈值,以将大于误差阈值的重建误差所对应医疗交易数据确定为异常数据,进而向对应的医疗机构发送预警消息。
在一个实施例中,将所述特征向量输入预训练的稀疏自编码器模型之前,还包括:
获取历史医疗交易数据,提取历史医疗交易数据的就诊类型,以查询对应的异常识别策略,进而基于对应的异常识别策略,识别历史医疗交易数据中异常数据和正常数据;
基于所述异常数据和所述正常数据,训练预设的稀疏自编码器模型。
在又一个实施例中,基于所述异常数据和所述正常数据,训练预设的稀疏自编码器模型,包括:
将所述正常数据循环输入预设的稀疏自编码器模型并计算预设的代价函数值,以基于所述代价函数值调整所述稀疏自编码器模型的参数,直到所述代价函数值满足预设条件;其中,代价函数包括L1正则化范数惩罚项;
将所述异常数据和所述正常数据输入训练后的稀疏自编码器模型,得出输出结果,在基于所述输出结果确定训练后稀疏自编码器模型的准确性大于预设阈值后,结束训练。
在又一个实施例中,所述基于对应的异常识别策略,识别历史医疗交易数据中异常数据和正常数据,包括:
识别所述历史医疗交易数据中关键词,组合所述关键词,以基于组合的关键词确定所述历史医疗交易数据对应的收费项目;
基于所述收费项目查询所述异常识别策略,以识别所述历史医疗交易数据中的异常数据和正常数据。
在又一个实施例中,所述基于对应的异常识别策略,识别历史医疗交易数据中异常数据和正常数据,包括:
识别所述历史医疗交易数据中医疗项目标识,基于所述医疗项目标识查询所述异常识别策略,以识别所述历史医疗交易数据中的异常数据和正常数据。
在又一个实施例中,基于所述重建误差计算误差阈值,包括:
确定所述重建误差的第一中间值,以计算每个重建误差与第一中间值之差的绝对值,将各绝对值的第二中间值确定为误差阈值。
在又一个实施例中,所述将大于误差阈值的重建误差所对应医疗交易数据确定为异常数据之后,还包括:
为所述医疗交易数据添加标签,所述标签包括正常数据和异常数据;
调用数据可视化模型,基于所述标签,生成所述医疗交易数据对应的可视化图像。
为实现上述目的,根据本发明实施例的另一方面,提供了一种医疗交易数据处理的装置。
本发明实施例的一种医疗交易数据处理的装置包括:获取单元,用于获取待处理的医疗交易数据,基于预设特征生成每个医疗交易数据的特征向量;计算单元,用于将所述特征向量输入预训练的稀疏自编码器模型,得出各医疗交易数据的重建向量,基于特征向量和重建向量计算各医疗交易数据对应的重建误差;其中,所述稀疏自编码器模型为通过预设的异常识别策略从历史医疗交易数据中识别出的异常数据和正常数据进行训练得到的;确定单元,用于基于所述重建误差计算误差阈值,以将大于误差阈值的重建误差所对应医疗交易数据确定为异常数据,进而向对应的医疗机构发送预警消息。
在一个实施例中,所述获取单元还用于获取历史医疗交易数据,提取历史医疗交易数据的就诊类型,以查询对应的异常识别策略,进而基于对应的异常识别策略,识别历史医疗交易数据中异常数据和正常数据;
所述装置还包括:
训练单元,用于基于所述异常数据和所述正常数据,训练预设的稀疏自编码器模型。
在又一个实施例中,所述训练单元,具体用于:
将所述正常数据循环输入预设的稀疏自编码器模型并计算预设的代价函数值,以基于所述代价函数值调整所述稀疏自编码器模型的参数,直到所述代价函数值满足预设条件;其中,代价函数包括L1正则化范数惩罚项;
将所述异常数据和所述正常数据输入训练后的稀疏自编码器模型,得出输出结果,在基于所述输出结果确定训练后稀疏自编码器模型的准确性大于预设阈值后,结束训练。
在又一个实施例中,所述获取单元,具体用于:
识别所述历史医疗交易数据中关键词,组合所述关键词,以基于组合的关键词确定所述历史医疗交易数据对应的收费项目;
基于所述收费项目部查询所述异常识别策略,以识别所述历史医疗交易数据中的异常数据和正常数据。
在又一个实施例中,所述获取单元,具体用于:
识别所述历史医疗交易数据中医疗项目标识,基于所述医疗项目标识查询所述异常识别策略,以识别所述历史医疗交易数据中的异常数据和正常数据。
在又一个实施例中,所述计算单元,具体用于:
确定所述重建误差的第一中间值,以计算每个重建误差与第一中间值之差的绝对值,将各绝对值的第二中间值确定为误差阈值。
在又一个实施例中,所述装置还包括:
添加单元,用于为所述医疗交易数据添加标签,所述标签包括正常数据和异常数据;
生成单元,用于调用数据可视化模型,基于所述标签,生成所述医疗交易数据对应的可视化图像。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种电子设备。
本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的医疗交易数据处理的方法。
为实现上述目的,根据本发明实施例的又一个方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例提供的医疗交易数据处理的方法。
上述发明中的一个实施例具有如下优点或有益效果:本发明实施例中,对于待处理的各医疗交易数据,可以基于预设特征参数生成各医疗交易数据的特征向量,然后将特征向量输入预训练的稀疏自编码器模型中得出各医疗交易数据的重建向量,再基于特征向量和重建向量计算各医疗交易数据对应的重建误差,其中,稀疏自编码器模型为通过预设的异常识别策略从历史医疗交易数据中识别出的异常数据和正常数据进行训练得到的;进而基于重建误差计算误差阈值,以将大于误差阈值的重建误差所对应医疗交易数据确定为异常数据,进而向对应的医疗机构发送预警消息。本发明实施例中可以将医疗交易数据的特征向量输入训练的稀疏自编码器模型以得出重建向量,进而计算出重建误差,并基于重建误差计算出误差阈值,从而可以确定出异常数据,如此基于预训练的模型识别异常数据,可以将各指标相关联识别,并避免人工主观引起的偏差,提高异常数据识别的准确性。同时,通过预设的异常识别策略从历史医疗交易数据中识别出的异常数据和正常数据,可以快速的得出训练数据以对稀疏自编码器模型进行训练,提高模型训练的效率和准确性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的医疗交易数据处理的方法的一种主要流程的示意图;
图2是根据本发明实施例的稀疏自编码器模型的一种结构示意图;
图3是根据本发明实施例医疗交易数据可视化的一种示意图;
图4是根据本发明实施例的模型训练的方法的一种主要流程的示意图;
图5是根据本发明实施例的医疗交易数据处理的装置的主要单元的示意图;
图6是本发明实施例可以应用于其中的一种示例性系统架构图;
图7是适于用来实现本发明实施例的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以互相组合。
本发明实施例提供了一种医疗交易数据处理的方法,如图1所示,该方法包括:
S101:获取待处理的各医疗交易数据,基于预设特征参数生成各医疗交易数据的特征向量。
其中,医疗交易数据具体可以为医疗机构的交易流水。预设的特征参数可以基于需求设置,例如可以包括住院天数、费用总额、医保支付范围费用总额、非医保结算范围个人自费费用额、诊疗费、治疗费、手术材料费、住院费、护理费、检查费、化验费、西药费、中成药费和其他费用等等。对医疗交易数据可以统计各预设特征参数的参数值,进而生成对应的特征向量,即将各预设特征参数的参数值基于预设顺序排列,得出对应的特征向量。
需要说明的是,在生成特征向量之前还可以对医疗交易数据进行预处理,具体可以包括对空值进行填充,如使用空值对应参数连续数值的中位数对空值进行填充,还可以包括数据归一化,如对各特征参数的值,可以减去特征参数均值并除以方差得出归一化的值。
S102:将特征向量输入预训练的稀疏自编码器模型,得出各医疗交易数据的重建向量,基于特征向量和重建向量计算各医疗交易数据对应的重建误差。
其中,稀疏自编码器模型为通过预设的异常识别策略从历史医疗交易数据中识别出的异常数据和正常数据进行训练得到的。稀疏自编码器模型为预先训练,其训练数据可以为基于预设的异常识别策略从历史医疗交易数据中识别出的异常数据和正常数据。
稀疏自编码器可以包括输入层、隐藏层和输出层,如图2所示为稀疏自编码器的一种结构示意图,其中LayerL1表示输入层、LayerL2表示隐藏层、LayerL3表示输出层。稀疏自编码器可以学习出隐藏层的有效识别正常数据的结构,对隐藏层施加稀疏性约束从而可以避免了输入数据的直接映射,使得网络中的神经元大部分时候处于不活动的状态。
将特征向量输入预训练的稀疏自编码器模型,可以输出稀疏自编码器重建的向量,即重建向量,进而计算出输入的特征向量和重建向量之间的差值,即重建误差。重建误差可以表示稀疏自编码器模型的输入和输出之间的差异,通常正常数据对应的重建误差较小,异常数据对应的重建误差较大,所以基于重建误差可以进行异常数据的识别。
S103:基于重建误差计算误差阈值,以将大于误差阈值的重建误差所对应医疗交易数据确定为异常数据,进而向对应的医疗机构发送预警消息。
其中,可以基于误差阈值对重建误差进行处理,以确定出各医疗交易数据中的异常数据。由于异常数据对应的重建误差通常较大,所以可以将大于误差阈值的重建误差所对应医疗交易数据确定为异常数据。医疗交易数据中出现异常数据,说明医疗机构的交易中存在风险,所以本步骤在确定出异常数据后,可以向对应的医疗机构发送预警消息,以进行风险预警。
由于基于对应重建误差的大小来确定异常数据,需要确定较合理的误差阈值才能保证异常数据确定的准确性,所以本发明实施例中误差阈值基于步骤S102得出的重建误差计算,以得出较合理的误差阈值。
具体的,本步骤中计算误差阈值可以执行为:确定重建误差的第一中间值,以计算每个重建误差与第一中间值之差的绝对值,将各绝对值的第二中间值确定为误差阈值。
第一中间值可以通过对各重建误差排序后确定出,进而可以计算每个重建误差与第一中间值之差的绝对值,然后再对各绝对值排序可以确定出各绝对值的中间值,即第二中间值,进而将其确定为误差阈值,如此确定出误差阈值具有更好的鲁棒性和可扩展性。
需要说明的是,本步骤中还可以基于预设的百分比数来确定误差阈值,例如,为了将异常数据限制在可管理的程度,并捕获最异常的数据点,可以设置取重建误差中数值最大的百分比数(如5%)为异常数据,进而基于百分比数和计算的误差阈值即可确定出误差阈值。
为了进一步对医疗交易数据进行分析,本步骤在确定出异常数据后可以将医疗交易数据可视化。具体执行为:为医疗交易数据添加标签,标签包括正常数据和异常数据,即对确定的异常数据添加异常数据标签,对非异常数据添加正常数据标签,然后调用数据可视化模型,使其基于标签生成医疗交易数据对应的可视化图像。如图3所示为医疗交易数据的一种可视化图像示意图。
本发明实施例中,数据可视化模型可以为t-SNE,其为一种可视化高维数据的工具,可以将数据点之间的相似性转化为联合概率,并试图最小化低维嵌入和高维数据的联合概率之间的Kullback-Leibler散度。t-SNE有一个非凸的代价函数,即不同的初始化可以得到不同的结果。t-SNE是一种用于复杂数据集可视化的降维技术。它将高维数据中的簇映射到二维或三维平面上,如此可以了解区分类的容易程度,并且其试图保持低维数据点之间的距离与高维数据点是相邻数据点的概率成比例。
本发明实施例中可以将医疗交易数据的特征向量输入训练的稀疏自编码器模型以得出重建向量,进而计算出重建误差,并基于重建误差计算出误差阈值,从而可以确定出异常数据,如此模型识别异常数据,可以将各指标相关联识别,并避免人工主管引起的偏差,提高异常数据识别的准确性。
本发明实施例中,在执行图1所示实施例之前还需要对稀疏自编码器模型进行训练。下面结合图1所示的实施例,对本发明实施例中稀疏自编码器模型的训练方法进行具体说明,如图4所示,该方法包括:
S401:获取历史医疗交易数据,提取历史医疗交易数据的就诊类型,以查询对应的异常识别策略,进而基于对应的异常识别策略,识别历史医疗交易数据中异常数据和正常数据。
其中,本步骤可以通过历史交易数据确定训练数据,所以获取历史医疗交易数据。对历史医疗交易数据,需要先识别出其中的异常数据。本步骤中可以基于预设的异常识别策略对历史医疗交易数据中的异常数据进行识别。具体的,异常识别策略可以基于不同的就诊类型进行设置,例如就诊类型可以分为住院类型和门诊类型,或者就这类型可以基于科室划分,或者就这类型可以基于所使用医疗设备划分等等。如表1所示,为本发明实施例中的一种异常识别策略。
表1
Figure BDA0003221680400000091
Figure BDA0003221680400000101
Figure BDA0003221680400000111
本发明实施例中基于表1中异常识别策略描述,可以将类型分为重复收费、错误收费等等,进而设置对应的异常识别策略,并建立各异常识别策略与就诊类型的对应关系,从而在提取历史医疗交易数据的就诊类型后,可以查询出对应的异常识别策略,进而基于对应的异常识别策略,识别历史医疗交易数据中异常数据和正常数据。
具体的,识别历史医疗交易数据中的异常数据和正常数据可以执行为:识别历史医疗交易数据中关键词,组合关键词,以基于组合的关键词确定历史医疗交易数据对应的收费项目;基于收费项目部查询异常识别策略,以识别历史医疗交易数据中的异常数据和正常数据。
本步骤中可以通过预设关键词库或者关键词识别模型来识别历史医疗交易数据中关键词,具体关键词可以为表征收费项目的关键词。由于一个历史医疗交易数据通常会包括多项收费信息,所以有可能识别出多个关键词,如此在识别关键词后可以将关键词组合,进而以组合后的关键词与异常识别策略匹配,以判断是否满足异常识别策略。如果满足,则可以识别为异常数据;如果不满足,则可以识别为正常数据。
具体的,识别历史医疗交易数据中的异常数据和正常数据还可以执行为:识别历史医疗交易数据中医疗项目标识,基于医疗项目标识查询异常识别策略,以识别历史医疗交易数据中的异常数据和正常数据。
由于各医疗项目在收费时通常会记录医疗项目标识,所以本步骤可以识别历史医疗交易数据中医疗项目标识,从而可以确定出历史医疗交易数据中包括的医疗项目,进而将其与异常识别策略匹配,以判断是否满足异常识别策略。如果满足,则可以识别为异常数据;如果不满足,则可以识别为正常数据。
S402:基于异常数据和正常数据,训练预设的稀疏自编码器模型。
其中,稀疏自编码器模型的结构为预先设置,本步骤中,可以将正常数据作为训练数据以对预设的稀疏自编码器模型训练,即将正常数据循环输入预设的稀疏自编码器模型并计算预设的代价函数值,以基于代价函数值调整稀疏自编码器模型的参数,直到代价函数值满足预设条件,如代价函数收敛。然后将异常数据和正常数据可以同时作为测试数据,以输入训练后的稀疏自编码器模型,判断其输出结果的准确性,即判断稀疏自编码器模型的准确性是否大于预设阈值。如果大于,则说明训练的稀疏自编码器模型准确率满足需求,可以结束训练;如果不大于,则说明训练的稀疏自编码器模型准确率不满足需求,需要继续训练。
需要说明的是,本步骤中正常数据还可以拆分为训练数据和校验数据,以通过训练数据对预设的稀疏自编码器模型进行训练,通过检验数据对训练的稀疏自编码器模型进行校验。
本发明实施例中,对稀疏自编码器模型训练引入了L1正则化范数惩罚项,所以代价函数中包括L1正则化范数惩罚项。具体的,以稀疏自编码器的模型结构包括2个隐藏层为例,代价函数可以如公式1所示。
Figure BDA0003221680400000131
在公式1中,w1和b1分别表示第一个隐藏层的权重和偏差,w2和b2分别表示第二个隐藏层的权重和偏差,a表示稀疏自编码器的输出,x表示稀疏自编码器的输入,i为大于0且小于等于m的整数,m表示输入中医疗交易数据的总个数,λ为常数。在稀疏自编码器包括n个隐藏层时,代价函数还可以表示为公式2所示。
Figure BDA0003221680400000132
需要说明的是,稀疏自编码器对应的代价函数还需要包括惩罚因子,对隐藏层中第j个神经元
Figure BDA00032216804000001311
其基于KL三度的惩罚因子可以如公式3所示。
Figure BDA0003221680400000133
在公示3中,
Figure BDA0003221680400000134
表示
Figure BDA0003221680400000135
的惩罚因子,j为大于1且小于等于D的整数,D为隐藏层中神经元的个数,
Figure BDA0003221680400000136
表示
Figure BDA0003221680400000137
的平均活跃度,
Figure BDA0003221680400000138
其中,aj表示
Figure BDA0003221680400000139
的输出。
由上述公式可以得出稀疏自编码器的总惩罚因子Loss如公式4所示。
Figure BDA00032216804000001310
所以本发明实施例中代价函数为公式1和公式2之和。
本发明实施例中,通过预设的异常识别策略从历史医疗交易数据中识别出的异常数据和正常数据,可以快速的得出训练数据以对稀疏自编码器模型进行训练,提高模型训练的效率和准确性。
为了解决现有技术存在的问题,本发明实施例提供了一种医疗交易数据处理的装置500,如图5所示,该装置500包括:
获取单元501,用于获取待处理的医疗交易数据,基于预设特征生成每个医疗交易数据的特征向量;
计算单元502,用于将所述特征向量输入预训练的稀疏自编码器模型,得出各医疗交易数据的重建向量,基于特征向量和重建向量计算各医疗交易数据对应的重建误差;其中,所述稀疏自编码器模型为通过预设的异常识别策略从历史医疗交易数据中识别出的异常数据和正常数据进行训练得到的;
确定单元503,用于基于所述重建误差计算误差阈值,以将大于误差阈值的重建误差所对应医疗交易数据确定为异常数据,进而向对应的医疗机构发送预警消息。
应理解的是,实施本发明实施例的方式与实施图1所示实施例的方式相同,在此不再赘述。
本发明实施例的一种实现方式中,所述获取单元501还用于获取历史医疗交易数据,提取历史医疗交易数据的就诊类型,以查询对应的异常识别策略,进而基于对应的异常识别策略,识别历史医疗交易数据中异常数据和正常数据;
所述装置500还包括:
训练单元,用于基于所述异常数据和所述正常数据,训练预设的稀疏自编码器模型。
本发明实施例的又一种实现方式中,所述训练单元,具体用于:
将所述正常数据循环输入预设的稀疏自编码器模型并计算预设的代价函数值,以基于所述代价函数值调整所述稀疏自编码器模型的参数,直到所述代价函数值满足预设条件;其中,代价函数包括L1正则化范数惩罚项;
将所述异常数据和所述正常数据输入训练后的稀疏自编码器模型,得出输出结果,在基于所述输出结果确定训练后稀疏自编码器模型的准确性大于预设阈值后,结束训练。
本发明实施例的又一种实现方式中,所述获取单元501,具体用于:
识别所述历史医疗交易数据中关键词,组合所述关键词,以基于组合的关键词确定所述历史医疗交易数据对应的收费项目;
基于所述收费项目部查询所述异常识别策略,以识别所述历史医疗交易数据中的异常数据和正常数据。
本发明实施例的又一种实现方式中,所述获取单元501,具体用于:
识别所述历史医疗交易数据中医疗项目标识,基于所述医疗项目标识查询所述异常识别策略,以识别所述历史医疗交易数据中的异常数据和正常数据。
本发明实施例的又一种实现方式中,所述计算单元502,具体用于:
确定所述重建误差的第一中间值,以计算每个重建误差与第一中间值之差的绝对值,将各绝对值的第二中间值确定为误差阈值。
本发明实施例的又一种实现方式中,所述装置500还包括:
添加单元,用于为所述医疗交易数据添加标签,所述标签包括正常数据和异常数据;
生成单元,用于调用数据可视化模型,基于所述标签,生成所述医疗交易数据对应的可视化图像。
应理解的是,实施本发明实施例的方式与实施图1或图4所示实施例的方式相同,在此不再赘述。
本发明实施例中可以将医疗交易数据的特征向量输入训练的稀疏自编码器模型以得出重建向量,进而计算出重建误差,并基于重建误差计算出误差阈值,从而可以确定出异常数据,如此模型识别异常数据,可以将各指标相关联识别,并避免人工主观引起的偏差,提高异常数据识别的准确性。同时,通过预设的异常识别策略从历史医疗交易数据中识别出的异常数据和正常数据,可以快速的得出训练数据以对稀疏自编码器模型进行训练,提高模型训练的效率和准确性。
根据本发明的实施例,本发明实施例还提供了一种电子设备和一种可读存储介质。
本发明实施例的电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例所提供的医疗交易数据处理的方法。
图6示出了可以应用本发明实施例的医疗交易数据处理的方法或医疗交易数据处理的装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种客户端应用。
终端设备601、602、603可以是但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的数据处理的方法一般由服务器605执行,相应地,数据处理的装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的计算机系统700的结构示意图。图7示出的计算机系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,上述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、计算单元和确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取单元的功能的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行本发明所提供的医疗交易数据处理的方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种医疗交易数据处理的方法,其特征在于,包括:
获取待处理的各医疗交易数据,基于预设特征参数生成各医疗交易数据的特征向量;
将特征向量输入预训练的稀疏自编码器模型,得出各医疗交易数据的重建向量,基于特征向量和重建向量计算各医疗交易数据对应的重建误差;其中,所述稀疏自编码器模型为通过预设的异常识别策略从历史医疗交易数据中识别出的异常数据和正常数据进行训练得到的;
基于所述重建误差计算误差阈值,以将大于误差阈值的重建误差所对应医疗交易数据确定为异常数据,进而向对应的医疗机构发送预警消息。
2.根据权利要求1所述的方法,其特征在于,将所述特征向量输入预训练的稀疏自编码器模型之前,还包括:
获取历史医疗交易数据,提取历史医疗交易数据的就诊类型,以查询对应的异常识别策略,进而基于对应的异常识别策略,识别历史医疗交易数据中异常数据和正常数据;
基于所述异常数据和所述正常数据,训练预设的稀疏自编码器模型。
3.根据权利要求2所述的方法,其特征在于,基于所述异常数据和所述正常数据,训练预设的稀疏自编码器模型,包括:
将所述正常数据循环输入预设的稀疏自编码器模型并计算预设的代价函数值,以基于所述代价函数值调整所述稀疏自编码器模型的参数,直到所述代价函数值满足预设条件;其中,代价函数包括L1正则化范数惩罚项;
将所述异常数据和所述正常数据输入训练后的稀疏自编码器模型,得出输出结果,在基于所述输出结果确定训练后稀疏自编码器模型的准确性大于预设阈值后,结束训练。
4.根据权利要求2所述的方法,其特征在于,所述基于对应的异常识别策略,识别历史医疗交易数据中异常数据和正常数据,包括:
识别所述历史医疗交易数据中关键词,组合所述关键词,以基于组合的关键词确定所述历史医疗交易数据对应的收费项目;
基于所述收费项目查询所述异常识别策略,以识别所述历史医疗交易数据中的异常数据和正常数据。
5.根据权利要求2所述的方法,其特征在于,所述基于对应的异常识别策略,识别历史医疗交易数据中异常数据和正常数据,包括:
识别所述历史医疗交易数据中医疗项目标识,基于所述医疗项目标识查询所述异常识别策略,以识别所述历史医疗交易数据中的异常数据和正常数据。
6.根据权利要求1所述的方法,其特征在于,基于所述重建误差计算误差阈值,包括:
确定所述重建误差的第一中间值,以计算每个重建误差与第一中间值之差的绝对值,将各绝对值的第二中间值确定为误差阈值。
7.根据权利要求1所述的方法,其特征在于,所述将大于误差阈值的重建误差所对应医疗交易数据确定为异常数据之后,还包括:
为所述医疗交易数据添加标签,所述标签包括正常数据和异常数据;
调用数据可视化模型,基于所述标签,生成所述医疗交易数据对应的可视化图像。
8.一种医疗交易数据处理的装置,其特征在于,包括:
获取单元,用于获取待处理的医疗交易数据,基于预设特征生成每个医疗交易数据的特征向量;
计算单元,用于将所述特征向量输入预训练的稀疏自编码器模型,得出各医疗交易数据的重建向量,基于特征向量和重建向量计算各医疗交易数据对应的重建误差;其中,所述稀疏自编码器模型为通过预设的异常识别策略从历史医疗交易数据中识别出的异常数据和正常数据进行训练得到的;
确定单元,用于基于所述重建误差计算误差阈值,以将大于误差阈值的重建误差所对应医疗交易数据确定为异常数据,进而向对应的医疗机构发送预警消息。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202110959878.8A 2021-08-20 2021-08-20 医疗交易数据处理的方法、装置、电子设备和存储介质 Pending CN113657516A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110959878.8A CN113657516A (zh) 2021-08-20 2021-08-20 医疗交易数据处理的方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110959878.8A CN113657516A (zh) 2021-08-20 2021-08-20 医疗交易数据处理的方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113657516A true CN113657516A (zh) 2021-11-16

Family

ID=78481578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110959878.8A Pending CN113657516A (zh) 2021-08-20 2021-08-20 医疗交易数据处理的方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113657516A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722061A (zh) * 2022-04-08 2022-07-08 中国电信股份有限公司 数据处理方法及装置、设备、计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287782A (zh) * 2017-06-05 2018-07-17 中兴通讯股份有限公司 一种多维数据异常检测方法及装置
CN109615377A (zh) * 2018-12-13 2019-04-12 平安医疗健康管理股份有限公司 基于大数据的重复收费识别方法、设备、存储介质及装置
CN109659035A (zh) * 2018-12-13 2019-04-19 平安医疗健康管理股份有限公司 基于机器学习的就诊数据异常识别方法、设备及存储介质
CN111340638A (zh) * 2020-03-23 2020-06-26 平安医疗健康管理股份有限公司 异常医保单据识别方法、装置、计算机设备及存储介质
CN112149757A (zh) * 2020-10-23 2020-12-29 新华三大数据技术有限公司 一种异常检测方法、装置、电子设备及存储介质
WO2021139236A1 (zh) * 2020-06-30 2021-07-15 平安科技(深圳)有限公司 基于自编码器的异常检测方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287782A (zh) * 2017-06-05 2018-07-17 中兴通讯股份有限公司 一种多维数据异常检测方法及装置
CN109615377A (zh) * 2018-12-13 2019-04-12 平安医疗健康管理股份有限公司 基于大数据的重复收费识别方法、设备、存储介质及装置
CN109659035A (zh) * 2018-12-13 2019-04-19 平安医疗健康管理股份有限公司 基于机器学习的就诊数据异常识别方法、设备及存储介质
CN111340638A (zh) * 2020-03-23 2020-06-26 平安医疗健康管理股份有限公司 异常医保单据识别方法、装置、计算机设备及存储介质
WO2021139236A1 (zh) * 2020-06-30 2021-07-15 平安科技(深圳)有限公司 基于自编码器的异常检测方法、装置、设备及存储介质
CN112149757A (zh) * 2020-10-23 2020-12-29 新华三大数据技术有限公司 一种异常检测方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李小剑 等: "网络流量异常检测方法:SSAE-IWELM-AdaBoost", 《武汉大学学报(理学版)》 *
陈华华 等: "基于SSIM稀疏自编码网络的异常事件检测", 《杭州电子科技大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722061A (zh) * 2022-04-08 2022-07-08 中国电信股份有限公司 数据处理方法及装置、设备、计算机可读存储介质
CN114722061B (zh) * 2022-04-08 2023-11-14 中国电信股份有限公司 数据处理方法及装置、设备、计算机可读存储介质

Similar Documents

Publication Publication Date Title
EP3627759A1 (en) Method and apparatus for encrypting data, method and apparatus for training machine learning model, and electronic device
US8214232B2 (en) Healthcare insurance claim fraud detection using datasets derived from multiple insurers
CN111814910B (zh) 异常检测方法、装置、电子设备及存储介质
CN109993544A (zh) 数据处理方法、系统、计算机系统及计算机可读存储介质
CN113611405A (zh) 一种体检项目推荐方法、装置、设备及介质
CN111861487A (zh) 金融交易数据处理方法、欺诈行为的监测方法和装置
CN114092097B (zh) 风险识别模型的训练方法、交易风险确定方法及装置
CN113657516A (zh) 医疗交易数据处理的方法、装置、电子设备和存储介质
CN109859060B (zh) 风险确定方法、装置、介质及电子设备
CN108509179B (zh) 用于检测人脸的方法、用于生成模型的装置
CN111738632B (zh) 设备控制方法、装置、电子设备和计算机可读介质
CN115496205A (zh) 检测模型训练、数据检测方法、装置、设备及存储介质
US20210073652A1 (en) Systems and methods for generating hash trees and using neural networks to process the same
CN114742163A (zh) 一种售后任务的审核方法及装置
CN113094595A (zh) 对象识别方法、装置、计算机系统及可读存储介质
CN113222707B (zh) 一种智能服务交易推荐方法和系统
CN109523394A (zh) 一种基于数据处理的风险检测方法、装置及存储介质
CN117077641B (zh) 医疗数据合成方法及装置
CN108399249A (zh) 数据归一化方法、用户画像提供方法、设备及存储介质
US20210082058A1 (en) Biometrics and predictive modeling and monitoring system for health risk assessment
CN109657522A (zh) 检测可行驶区域的方法和装置
US20230376874A1 (en) An apparatus, method and computer program product for determining a level of risk
WO2017116311A1 (en) Method of detecting fraud in procurement and system thereof
CN114187119A (zh) 一种应用于保险的数据处理方法及装置
CN115456108A (zh) 一种银行客户身份识别方法、装置、系统和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination