CN111242793A - 医保数据异常的检测方法和装置 - Google Patents

医保数据异常的检测方法和装置 Download PDF

Info

Publication number
CN111242793A
CN111242793A CN202010045627.4A CN202010045627A CN111242793A CN 111242793 A CN111242793 A CN 111242793A CN 202010045627 A CN202010045627 A CN 202010045627A CN 111242793 A CN111242793 A CN 111242793A
Authority
CN
China
Prior art keywords
data
detected
medical
target
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010045627.4A
Other languages
English (en)
Other versions
CN111242793B (zh
Inventor
赵蒙海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jinshida Weining Software Technology Co ltd
Original Assignee
Shanghai Jinshida Weining Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jinshida Weining Software Technology Co ltd filed Critical Shanghai Jinshida Weining Software Technology Co ltd
Priority to CN202010045627.4A priority Critical patent/CN111242793B/zh
Publication of CN111242793A publication Critical patent/CN111242793A/zh
Application granted granted Critical
Publication of CN111242793B publication Critical patent/CN111242793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Pathology (AREA)
  • Development Economics (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种医保数据异常的检测方法和装置,该方法包括对待检测数据进行切分,得到多个待处理数据,待处理数据包括特征数据和标签数据;将多个待处理数据中的特征数据输入到多个类型的分析模型中进行分析,得到多个预测结果;将所述多个预测结果与对应的标签数据进行比较,得到多个比较结果;基于所述多个比较结果,确定所述待检测数据是否异常。本实施例的方法通过将多个待处理数据输入多个分析模型中进行比较,输出多个预测结果,基于多个预测结果和对应的标签数据进行比较,得到多个比较结果,根据多个比较结果,能够准确地确定待检测数据是否异常,提高待检测数据异常的准确性。

Description

医保数据异常的检测方法和装置
技术领域
本发明涉及医疗保险技术领域,尤其涉及一种医保数据异常的检测方法和装置。
背景技术
医保在目前社会中已经覆盖地越来越全面了,每年国家花费在医保上的资金在不断提高。但同时我们也发现,这其中有许多欺诈行为和不合理诊疗的行为。这些欺诈行为一是浪费了国家的资金,二是阻碍了将医保资金提供给真正有需求的人,因此医保反欺诈是一个不断受到重视的课题。然而,由于不同地市、省之间的数据千差万别,不同经济环境和地域环境所带来的天然的医疗行为差异,也会对欺诈行为的检测带来干扰和影响。因此,一套能够适应各地市特征并能不断学习新的欺诈模式的方法就显得尤为重要了。
目前针对医保行为中欺诈行为的调查,多是采用线下人员举报、工作人员现场调查的方式进行,费时费力。且面对单个人员几十天的住院行为,成百上千的诊疗项目和药品使用情况,需要具有非常高的医学领域知识才可以发现异常和不合理。由此带来的是反欺诈成本高、效率低、难以铺开的难题。
为解决上述难题,目前主流的方法基于统计来发现异常的趋势,由于只按照一个预设规则来发现异常的趋势,通常难以定位到个体,也就是说趋势性的异常不能准确地确定单次就诊数据是否异常。
发明内容
本发明实施例提供一种医保数据异常的检测方法和装置,以解决现在技术难以准确地确定单次就诊数据是否异常的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,提供了一种医保数据异常的检测方法,该方法包括:
对待检测数据进行切分,得到多个待处理数据,所述待处理数据包括特征数据和标签数据;
将所述多个待处理数据中的特征数据输入到多个类型的分析模型中进行分析,得到多个预测结果;
将所述多个预测结果与对应的标签数据进行比较,得到多个比较结果;
基于所述多个比较结果,确定所述待检测数据是否异常。
第二方面,提供了一种医保数据异常的检测装置,该装置包括:
切分模块,用于对待检测数据进行切分,得到多个待处理数据,所述待处理数据包括特征数据和标签数据;
分析模块,用于将所述多个待处理数据中的特征数据输入到多个类型的分析模型中进行分析,得到多个预测结果;
比较模块,用于将所述多个预测结果与对应的标签数据进行比较,得到多个比较结果;
第一确定模块,用于基于所述多个比较结果,确定所述待检测数据是否异常。
第三方面,提供一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。
在本发明实施例中,通过对待检测数据进行切分,得到多个待处理数据,将多个待处理数据输入多个分析模型中进行比较,输出多个预测结果,基于多个预测结果和对应的标签数据进行比较,得到多个比较结果,根据多个比较结果,能够准确地确定待检测数据是否异常,提高待检测数据异常的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的一个实施例的医保数据异常的检测方法的流程示意图;
图2是本发明的一个实施例的医保数据异常的检测装置的结构示意图;
图3是本发明的另一个实施例的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
单次就诊数据指的是以每一次就诊做为一个基本单位的数据,比如,看一次病,有一条完整的信息,这条完整的信息即是单次就诊数据。
图1是本发明的一个实施例的医保数据异常的检测方法的流程示意图,图1所示的方法可以由医保数据异常的检测装置执行,如图1所示,该方法包括:
步骤S102,对待检测数据进行切分,得到多个待处理数据,待处理数据包括特征数据和标签数据。
应理解,待检测数据包括个人、年龄、疾病名称、治疗时间、药品名称、诊疗项目名称、耗材名称、医院名称、费用等。
在步骤S102中,根据不同的应用场景对待检测数据进行多次切分,得到多个待处理数据,其中,待处理数据包括多个特征数据和一个标签数据,多个待处理数据包括多组特征数据和多个标签数据,每组特征数据包括多个特征数据。
举例说明,假如根据不同的应用场景下对待检测数据进行四次切分,得到四个待处理数据,若第一个待处理数据中的多个特征数据为疾病名称、治疗时间等,则第一个待处理数据的标签数据为费用,比如治疗阑尾炎的费用在2千到8千以内。若第二个待处理数据中的多个特征数据为药品、年龄等,则第二个待处理数据的标签数据为疾病名称,比如老年人得老年痴呆。若第三个待处理数据中的多个特征数据为费用、疾病名称等,则第三个待处理数据的标签数据为医院特色科室,比如肝胆病患者应到医院肝胆科室治疗;若第四个待处理数据中的多个特征数据为疾病名称、费用等,则第四个待处理数据的标签数据为药品,比如感冒会用感冒药。
可选地,在一些实施例中,在对待检测数据进行切分,得到多个待处理数据之前,包括:
确定医疗数据的完整率;
基于医疗数据的完整率,得到医疗数据对应的待检测数据。
应理解,医疗数据包括医保挂号数据、医保结算数据和医保处方明细数据,其中,医保挂号数据包括个人、年龄、机构、就诊id、医院名称、疾病名称、治疗时间等,医保结算数据包括各类账户费用、报销比例等;医保处方明细数据包括药品名称、诊疗项目、耗材名称、使用数量和金额等。
在一些实施例中,获取医疗数据,确定医疗数据的完整率,根据医疗数据的完整率,对医疗数据进行删除、补充、校验等处理,得到待检测数据。基于对待检测数据进行切分之前,选取完整率符合预设阈值条件的目标医疗数据作为待检测数据,可以提高待检测数据检测的效率和质量。
具体地,基于医疗数据的完整率,得到医疗数据对应的待检测数据,可包括:
在目标医疗数据的完整率满足第一阈值的情况下,确定第一目标医疗数据为待检测数据。
应理解,第一阈值、第二阈值、第三阈值和第四阈值可以为一个数值,第一阈值、第二阈值、第三阈值和第四阈值也可以为一个区间。具体地,第一阈值、第二阈值、第三阈值和第四阈值可以根据预设设定的投票比例确定,若阈预设设定的三个比例的门限,分别为95%、80%和50%,则第一阈值为95%,第二阈值为(80%,95%),第三阈值为(50%,80%),第四阈值为50%。
举例来说,若第一阈值为95%,则目标医疗数据的完整率满足第一阈值为≥95%,选取医疗数据中完整率≥95%的数据作为目标医疗数据,该类目标医疗数据为质量高的数据,直接将该类目标医疗数据确定为待检测数据。
可选地,在一些实施例中,基于医疗数据的完整率,得到医疗数据对应的待检测数据,还包括:
在目标医疗数据的完整率满足第二阈值的情况下,应用插值法对目标医疗数据进行补充,得到待检测数据。
在一些实施例中,若第二阈值为(80%,95%),则目标医疗数据的完整率满足第二阈值为目标医疗数据的完整率≥80%且<95%,将医疗数据中完整率≥80%且<95%的数据作为目标医疗数据,说明该目标医疗数据有缺失问题,采用插值法等方法对目标医疗数据进行补充,得到待检测数据,能够避免待检测数据有缺失问题,提高待检测数据的质量。比如,某次就诊医疗数据中医院等级缺失,采用插值法对该医院其他就诊数据中提取众数进行补充,得到待检测数据为“三级医院”。
可选地,在另一些实施例中,基于医疗数据的完整率,得到医疗数据对应的待检测数据,还包括:
在目标医疗数据的完整率满足第三阈值的情况下,通过人工对目标医疗数据进行校验,得到目标医疗数据对应的待检测数据。
在另一些实施例中,若第三阈值为(50%,80%),则目标医疗数据的完整率满足第三阈值为目标医疗数据的完整率≥50%且<80%,将医疗数据中完整率≥50%且<80%的数据作为目标医疗数据,说明该目标医疗数据含有错误信息,通过人工对目标医疗数据进行校验或者根据逻辑关系进行重新验算,得到待检测数据。通过将错误的数据进行校正,得到待检测数据,可以提高待检测数据的质量。比如,总费用=医保报销费用+自付费用。某项目金额=项目单价*数量。
可选地,在再一些实施例中,基于医疗数据的完整率,得到医疗数据对应的待检测数据,还包括:
在目标医疗数据的完整率满足第四阈值的情况下,删除目标医疗数据。
在再一些实施例中,若第四阈值为50%,则目标医疗数据的完整率满足第四阈值为目标医疗数据的完整率<50%,将医疗数据中完整率<50%的数据作为目标医疗数据,说明该目标医疗数据为影响预测结果的异常数据,对该目标医疗数据进行直接舍弃,可以提高待检测数据检测时的效率。
步骤S104,将多个待处理数据中的特征数据输入到多个类型的分析模型中进行分析,得到多个预测结果。
可以理解的是,多个类型的分析模型包括:费用分析模型、医院等级分析模型、药品分析模型以及疾病分析模型中的至少一个。
在步骤S104中,按照待处理数据的类型将多组特征数据输入到对应类型的分析模型中进行分析,得到多个预测结果。
比如,假如有四组特征数据,将第一组特征数据为疾病名称、治疗时间等信息输入到费用分析模型进行分析,得到预测结果为预测费用,该预测费用指的是预测治疗疾病花费的费用。将第二组特征数据为费用、疾病名称等输入医院等级分析模型进行分析,得到预测结果为预测医院,该预测医院是通过费用、疾病预测到的。将第三组特征数据为疾病名称、费用等输入药品分析模型进行分析,得到预测结果为预测药品。将第四组特征数据为药品、年龄等输入疾病分析模型进行分析,得到预测结果为预测疾病,该预测疾病指的是通过年龄、药品等预测到的疾病。
步骤S106,将多个预测结果与对应的标签数据进行比较,得到多个比较结果。
应理解,标签数据为是根据自变量因素得到的因变量,其中,自变量即特征数据,因变量即是根据特征数据得到的实际结果。
比如,将四个预测结果与对应的标签数据进行比较,得到四个比较结果。若预测结果是预测疾病,则标签数据为实际疾病,将预测疾病与实际疾病进行比较,得到第一个比较结果。若预测结果是预测费用,则标签数据为实际费用,将预测费用与实际费用进行比较,得到第二个比较结果。若预测结果是预测医院,则标签数据为实际医院,将预测医院与实际医院进行比较,得到第三个比较结果。若预测结果是预测药品,则标签数据为实际药品,将预测药品与实际药品进行比较,得到第四个比较结果。
具体地,步骤S106中将多个预测结果与对应的标签数据进行比较,得到多个比较结果,可包括:
确定目标预测结果与对应的标签数据之间的目标相似度;
基于目标相似度与预设相似阈值,确定比较结果。
在一些实施例中,为了能够提高目标预测结果与对应的标签数据的匹配精准度,采用相似度计算公式确定目标预测结果与对应的标签数据之间的目标相似度,若目标相似度与预设相似阈值之间的差值在允许误差范围内,则该比较结果表明待检测数据正常;若目标相似度与预设相似阈值之间的差值不在允许误差范围内,则该比较结果表明待检测数据异常。
步骤S108,基于多个比较结果,确定待检测数据是否异常。
在步骤S108中,若多个比较结果表明待检测数据正常,则确定待检测数据正常;若任意一个比较结果表明待检测数据异常,则确定待检测数据异常,提高待检测数据异常的准确性。
可选地,在另一些实施例中,基于多个比较结果,确定待检测数据是否异常,可包括:
基于多个比较结果和对应的权重值,得到数据分析结果;
基于数据分析结果和预设分析阈值,确定待检测数据是否异常。
可以理解的是,权重值为一个比较结果占多个比较结果的权重。若某一个比较结果的权重值比较大,说明该比较结果比较重要,反之,说明该比较结果不是很重要。对于多个比较结果的权重值的取值,可以根据不同的场景或指标的重要性来进行调整,从而提高待检测数据的准确性。
比如,若四个比较结果,第一个比较结果的权重值为0.4,第二个比较结果的权重值为0.3,第三个比较结果的权重值为0.2,第四个比较结果的权重值为0.1,通过四个比较结果与对应的权重值加权得到四个数据分析结果,若数据分析结果与预设分析阈值的差值在允许误差范围内,则表明待检测数据正常;若数据分析结果与预设分析阈值的差值不在允许误差范围内,则表明待检测数据异常。
可选地,在一些实施例中,图1所示的方法还包括:
在待检测数据异常的情况下,基于多个比较结果,确定异常点的位置。
在一些实施例中,在确定待检测数据异常的情况下,根据多个比较结果,能够确定待检测数据具体哪方面出现异常。比如,若比较结果表明待检测数据在费用方面出现异常,则确定待检测数据的的异常具体发生在费用上。若比较结果表明待检测数据在药品方面出现异常,则确定待检测数据的异常具体发生在药品上。一方面可以为反欺诈人员的定位提供直接的帮助,另一方面,传统线性预测模型在宏观费用预测上,R2指标平均在0.1以下,而GBDT等集成学习模型不具备明细层级的预测能力。本方案通过对某地市医保局210万条待检测数据进行预测,在各费用层面R2指标达到0.92以上,在疾病预测上达到0.7以上,在各明细项目的预测上则达到0.81以上。
应理解,R2指标即R Square(R方),用于评价分析模型好坏的指标。
在本发明实施例中,通过对待检测数据进行切分,得到多个待处理数据,将多个待处理数据输入多个分析模型中进行比较,输出多个预测结果,基于多个预测结果和对应的标签数据进行比较,得到多个比较结果,根据多个比较结果,能够准确地确定待检测数据是否异常,提高待检测数据异常的准确性。
还有,多个类型的分析模型的训练过程如下:
步骤S202,获取第一训练数据,第一训练数据包括医保挂号数据、医保结算数据和医保处方明细数据,初始状态时,医保挂号数据、医保结算数据和医保处方明细数据存储在各种数据表中,为了方便后续建模使用。将医保挂号数据、医保结算数据和医保处方明细数据合并为一张宽表以作后续处理。同时将单次就诊行为使用的项目、药品等合并放入同一字段中,如表1所示:
唯一标识id 机构id 项目代码 项目数量
000565 001 VI123,VI456 1,5
000469 064 VI113 11
000052 002 VI143 5
006621 001 VI129,VI545,… 3,6,…
表1
步骤S204,初始时,第一训练数据包括部分错误信息和缺失信息,为了提高第一训练数据的质量,对第一训练数据进行完整率判断,若第一训练数据的完整率满足第一阈值,则直接将该第一训练数据确定目标训练数据。若第一训练数据的完整率满足第二阈值,则应用插值法对第一训练数据进行补充,得到目标训练数据。若第一训练数据的完整率满足第三阈值,则通过人工对第一训练数据进行校验,得到目标训练数据。若第一训练数据的完整率满足第四阈值,则删除该第一训练数据。
步骤S206,确定目标训练数据的类型,若目标训练数据的类型为类别型,则通过映射模式,给每一个目标训练数据分配一个编码号,即编码号:如“0001”,“0010”等。若目标训练数的类型为数值型,对该类目标训练数据进行了归一化处理(即减去均值后除以标准差),以便模型更好的加速以及减少数据、特征的量纲区别对模型的影响。
步骤S208,在完成上述预处理流程后,对目标训练数据进行切分,得到多个待训练数据,其中,待训练数据包括多个训练特征数据和训练标签数据。
步骤S210,获取第二训练数据,第二训练数据包括医学资料,医学资料包括在医学领域的医学术语;基于医学资料,识别医学资料的医学术语的上下文内容,上下文内容用于确定医学资料的医学术语的医学领域;基于医学资料的医学术语和对应的上下文内容,确定词向量模型。
步骤S212,将待训练数据输入训练好的词向量模型,确定训练特征数据和训练标签数据之间的位置关系。
步骤S214,将多个待训练数据中的多组训练特征数据和训练标签数据输入到多个类型的初始分析模型,得到样本预测结果。
步骤S216,将多个样本预测结果与对应的训练标签数据进行比较,得到多个样本比较结果。
步骤S218,若样本比较结果在允许误差范围内,则输出该样本比较结果的分析模型训练成功,反之,调整该分析模型中的参数,继续对分析模型进行训练,直至分析模型训练成功。
详细地,步骤S214至步骤S218的具体处理过程如下:
1)将多个待训练数据中的多组训练特征数据和训练标签数据输入到多个类型初始分析模型中,找到最适合描述他们的向量表达。这些向量表达用于描述一个实体,不同实体之间将不再独立而有着相互依存的关系。其中,多个类型的分析模型包括:费用分析模型、医院等级分析模型、药品分析模型以及疾病分析模型中的至少一个。比如,费用分析模型可以为注意力模型、Transformer等复杂模型。
2)为了获得更好表达的明细类数据变量和其他的类别型变量向量相结合,通过多层级、异结构的矩阵计算,进一步获得他们联合分布产生的比较结果。
3)分析模型可以涵盖多种目标检测功能,一般意义上通过多任务学习的模式,在分析模型结构的前面部分共享各类任务的参数学习成果,而在后面部分通过不同目标函数对具体参数进行区分。
4)目标函数的建立根据具体目标类型而定:
若数值型的目标训练数据,使用如下公式(1)的均方误差作为损失函数
Figure BDA0002369290680000141
其中,yi代表目标值,yi’代表平均值,n是目标训练数据的数量。
若类别型的目标训练数据,使用如下公式(2)的交叉熵作为损失函数
Figure BDA0002369290680000151
其中,yi代表各类别概率,yi’代表结果类别及对应的概率,softmax函数即归一化最大概率函数。
5)诊断类多值类别型变量,使用设定的top k准确率作为目标函数。
分析模型通过计算标签数据与预测结果的目标函数,产生残差,并进行反向传播以更新对应起作用的结构中的分析模型的参数,以达到优化分析模型的目的。
训练过程采用随机梯度下降方法进行训练,多epoch迭代后直至分析模型损失收敛到一定阈值后停止。
图2是本发明的一个实施例的医保数据异常的检测装置的结构示意图,如图2所示,该装置20包括:
切分模块21,用于对待检测数据进行切分,得到多个待处理数据,待处理数据包括特征数据和标签数据;
分析模块22,用于将多个待处理数据中的特征数据输入到多个类型的分析模型中进行分析,得到多个预测结果;
比较模块23,用于将多个预测结果与对应的标签数据进行比较,得到多个比较结果;
第一确定模块24,用于基于多个比较结果,确定待检测数据是否异常。
在本发明实施例中,通过对待检测数据进行切分,得到多个待处理数据,将多个待处理数据输入多个分析模型中进行比较,输出多个预测结果,基于多个预测结果和对应的标签数据进行比较,得到多个比较结果,根据多个比较结果,能够准确地确定待检测数据是否异常,提高待检测数据异常的准确性。
可选地,作为一个实施例,装置20还包括:
第二确定模块,用于确定医疗数据的完整率;
得到模块,用于基于医疗数据的完整率,得到医疗数据对应的待检测数据。
可选地,作为一个实施例,得到模块用于:
在目标医疗数据的完整率满足第一阈值的情况下,确定目标医疗数据为待检测数据。
可选地,作为一个实施例,得到模块还用于:
在目标医疗数据的完整率满足第二阈值的情况下,应用插值法对目标医疗数据进行补充,得到待检测数据。
可选地,作为一个实施例,得到模块还用于:
在目标医疗数据的完整率满足第三阈值的情况下,通过人工对目标医疗数据进行校验,得到目标医疗数据对应的待检测数据。
可选地,作为一个实施例,得到模块还用于:
在目标医疗数据的完整率满足第四阈值的情况下,删除目标医疗数据。
可选地,作为一个实施例,装置20还包括:
第三确定模块,用于在待检测数据异常的情况下,基于多个比较结果,确定异常点的位置。
可选地,作为一个实施例,比较模块23包括:
相似度确定子模块,用于确定目标预测结果与对应的标签数据之间的目标相似度;
结果确定子模块,用于基于目标相似度与预设相似阈值,确定比较结果。
可选地,作为一个实施例,第一确定模块24,包括:
得到子模块,用于基于多个比较结果和对应的权重值,得到数据分析结果;
异常确定子模块,用于基于数据分析结果和预设分析阈值,确定待检测数据是否异常。
可选地,作为一个实施例,多个类型的分析模型包括:费用分析模型、医院等级分析模型、药品分析模型以及疾病分析模型中的至少一个。
下面将结合图3详细描述根据本申请一个实施例的电子设备。参考图3,在硬件层面,电子设备包括处理器,可选地,包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成医保数据异常的检测装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
对待检测数据进行切分,得到多个待处理数据,待处理数据包括特征数据和标签数据;
将多个待处理数据中的特征数据输入到多个类型的分析模型中进行分析,得到多个预测结果;将多个预测结果与对应的标签数据进行比较,得到多个比较结果;
基于多个比较结果,确定待检测数据是否异常。
在本发明实施例中,通过对待检测数据进行切分,得到多个待处理数据,将多个待处理数据输入多个分析模型中进行比较,输出多个预测结果,基于多个预测结果和对应的标签数据进行比较,得到多个比较结果,根据多个比较结果,能够准确地确定待检测数据是否异常,提高待检测数据异常的准确性。
上述如本申请图1所示实施例揭示的医保数据异常的检测装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本发明实施例提供一种计算机可读存储介质,对待检测数据进行切分,得到多个待处理数据,待处理数据包括特征数据和标签数据;将多个待处理数据中的特征数据输入到多个类型的分析模型中进行分析,得到多个预测结果;将多个预测结果与对应的标签数据进行比较,得到多个比较结果;基于多个比较结果,确定待检测数据是否异常。
在本发明实施例中,通过对待检测数据进行切分,得到多个待处理数据,将多个待处理数据输入多个分析模型中进行比较,输出多个预测结果,基于多个预测结果和对应的标签数据进行比较,得到多个比较结果,根据多个比较结果,能够准确地确定待检测数据是否异常,提高待检测数据异常的准确性。若待检测数据异常,还能够具体定位到待检测数据异常的位置,可以为工作人员的定位提供帮助。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的定界,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种医保数据异常的检测方法,其特征在于,所述方法包括:
对待检测数据进行切分,得到多个待处理数据,所述待处理数据包括特征数据和标签数据;
将所述多个待处理数据中的特征数据输入到多个类型的分析模型中进行分析,得到多个预测结果;
将所述多个预测结果与对应的标签数据进行比较,得到多个比较结果;
基于所述多个比较结果,确定所述待检测数据是否异常。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
确定医疗数据的完整率;
基于所述医疗数据的完整率,得到所述医疗数据对应的待检测数据。
3.如权利要求2所述的方法,其特征在于,所述基于所述医疗数据的完整率,得到所述医疗数据对应的待检测数据,包括:
在目标医疗数据的完整率满足第一阈值的情况下,确定所述目标医疗数据为待检测数据。
4.如权利要求3所述的方法,其特征在于,所述基于所述医疗数据的完整率,得到所述医疗数据对应的待检测数据,还包括:
在目标医疗数据的完整率满足第二阈值的情况下,应用插值法对所述目标医疗数据进行补充,得到待检测数据。
5.如权利要求3所述的方法,其特征在于,所述基于所述医疗数据的完整率,得到所述医疗数据对应的待检测数据,还包括:
在目标医疗数据的完整率满足第三阈值的情况下,通过人工对所述目标医疗数据进行校验,得到所述目标医疗数据对应的待检测数据。
6.如权利要求3所述的方法,其特征在于,所述基于所述医疗数据的完整率,得到所述医疗数据对应的待检测数据,还包括:
在目标医疗数据的完整率满足第四阈值的情况下,删除所述目标医疗数据。
7.如权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
在所述待检测数据异常的情况下,基于所述多个比较结果,确定异常点的位置。
8.如权利要求1-6任一项所述的方法,其特征在于,所述将多个预测结果与对应的标签数据进行比较,得到多个比较结果,包括:
确定目标预测结果与对应的标签数据之间的目标相似度;
基于所述目标相似度与预设相似阈值,确定所述比较结果。
9.如权利要求1-6任一项所述的方法,其特征在于,所述基于所述多个比较结果,确定所述待检测数据是否异常,包括:
基于多个比较结果和对应的权重值,得到数据分析结果;
基于所述数据分析结果和预设分析阈值,确定所述待检测数据是否异常。
10.一种医保数据异常的检测装置,其特征在于,所述装置包括:
切分模块,用于对待检测数据进行切分,得到多个待处理数据,所述待处理数据包括特征数据和标签数据;
分析模块,用于将所述多个待处理数据中的特征数据输入到多个类型的分析模型中进行分析,得到多个预测结果;
比较模块,用于将所述多个预测结果与对应的标签数据进行比较,得到多个比较结果;
第一确定模块,用于基于所述多个比较结果,确定所述待检测数据是否异常。
CN202010045627.4A 2020-01-16 2020-01-16 医保数据异常的检测方法和装置 Active CN111242793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010045627.4A CN111242793B (zh) 2020-01-16 2020-01-16 医保数据异常的检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010045627.4A CN111242793B (zh) 2020-01-16 2020-01-16 医保数据异常的检测方法和装置

Publications (2)

Publication Number Publication Date
CN111242793A true CN111242793A (zh) 2020-06-05
CN111242793B CN111242793B (zh) 2024-02-06

Family

ID=70879649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010045627.4A Active CN111242793B (zh) 2020-01-16 2020-01-16 医保数据异常的检测方法和装置

Country Status (1)

Country Link
CN (1) CN111242793B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015995A (zh) * 2020-09-29 2020-12-01 北京百度网讯科技有限公司 数据分析的方法、装置、设备以及存储介质
CN112732983A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于人工智能的数据检测方法、装置、服务器及存储介质
CN112801805A (zh) * 2021-01-21 2021-05-14 浙江大学山东工业技术研究院 基于深度自监督神经网络的医保小卡欺诈检测方法及系统
CN112966819A (zh) * 2021-03-04 2021-06-15 南方科技大学 分布外数据检测方法、装置、服务器及存储介质
CN113626488A (zh) * 2021-08-04 2021-11-09 挂号网(杭州)科技有限公司 数据处理方法、装置、电子设备及存储介质
CN114615051A (zh) * 2022-03-09 2022-06-10 黄河水利职业技术学院 一种网络安全检测方法和系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163465A (ja) * 2004-12-02 2006-06-22 Fujitsu Ltd 医療情報分析装置、方法及びプログラム
CN105574544A (zh) * 2015-12-16 2016-05-11 平安科技(深圳)有限公司 一种数据处理方法和装置
CN108520780A (zh) * 2018-03-07 2018-09-11 中国科学院计算技术研究所 一种基于迁移学习的医学数据处理和系统
CN109243592A (zh) * 2018-10-30 2019-01-18 平安医疗健康管理股份有限公司 基于人工智能的医疗项目使用异常检测方法及相关装置
CN109492803A (zh) * 2018-10-30 2019-03-19 平安科技(深圳)有限公司 基于人工智能的慢性病住院费用异常检测方法及相关装置
CN109544373A (zh) * 2018-10-30 2019-03-29 平安科技(深圳)有限公司 基于人工智能的医保违规行为检测方法及相关装置
CN109636641A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 基于大数据分析的医保异常检测方法、装置、设备和介质
CN109635044A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 住院数据异常检测方法、装置、设备及可读存储介质
CN109636613A (zh) * 2018-10-19 2019-04-16 平安医疗健康管理股份有限公司 医疗数据异常识别方法、装置、终端及存储介质
CN109685670A (zh) * 2018-12-13 2019-04-26 平安医疗健康管理股份有限公司 社保违规检测方法、装置、设备及计算机可读存储介质
CN109711606A (zh) * 2018-12-13 2019-05-03 平安医疗健康管理股份有限公司 一种基于模型的数据预测方法及装置
CN109785162A (zh) * 2018-12-13 2019-05-21 平安科技(深圳)有限公司 医保异常检测方法、装置、设备和计算机存储介质
WO2019218751A1 (zh) * 2018-05-16 2019-11-21 阿里巴巴集团控股有限公司 一种保险业务风险预测的处理方法、装置及处理设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163465A (ja) * 2004-12-02 2006-06-22 Fujitsu Ltd 医療情報分析装置、方法及びプログラム
CN105574544A (zh) * 2015-12-16 2016-05-11 平安科技(深圳)有限公司 一种数据处理方法和装置
CN108520780A (zh) * 2018-03-07 2018-09-11 中国科学院计算技术研究所 一种基于迁移学习的医学数据处理和系统
WO2019218751A1 (zh) * 2018-05-16 2019-11-21 阿里巴巴集团控股有限公司 一种保险业务风险预测的处理方法、装置及处理设备
CN109636613A (zh) * 2018-10-19 2019-04-16 平安医疗健康管理股份有限公司 医疗数据异常识别方法、装置、终端及存储介质
CN109243592A (zh) * 2018-10-30 2019-01-18 平安医疗健康管理股份有限公司 基于人工智能的医疗项目使用异常检测方法及相关装置
CN109492803A (zh) * 2018-10-30 2019-03-19 平安科技(深圳)有限公司 基于人工智能的慢性病住院费用异常检测方法及相关装置
CN109544373A (zh) * 2018-10-30 2019-03-29 平安科技(深圳)有限公司 基于人工智能的医保违规行为检测方法及相关装置
CN109636641A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 基于大数据分析的医保异常检测方法、装置、设备和介质
CN109685670A (zh) * 2018-12-13 2019-04-26 平安医疗健康管理股份有限公司 社保违规检测方法、装置、设备及计算机可读存储介质
CN109711606A (zh) * 2018-12-13 2019-05-03 平安医疗健康管理股份有限公司 一种基于模型的数据预测方法及装置
CN109785162A (zh) * 2018-12-13 2019-05-21 平安科技(深圳)有限公司 医保异常检测方法、装置、设备和计算机存储介质
CN109635044A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 住院数据异常检测方法、装置、设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨光伟;肖华;刘玉洲;胡珊;刘翼: "基底节区脑出血血肿周围水肿区的CT影像组学研究", 中华神经医学杂志, vol. 18, no. 012 *
董伟;杨晨;邵俊杰;: "基于非线性预处理及逻辑回归的异常检测算法", 信息技术与网络安全, no. 03 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015995A (zh) * 2020-09-29 2020-12-01 北京百度网讯科技有限公司 数据分析的方法、装置、设备以及存储介质
CN112732983A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于人工智能的数据检测方法、装置、服务器及存储介质
CN112732983B (zh) * 2020-12-31 2023-09-12 平安科技(深圳)有限公司 基于人工智能的数据检测方法、装置、服务器及存储介质
CN112801805A (zh) * 2021-01-21 2021-05-14 浙江大学山东工业技术研究院 基于深度自监督神经网络的医保小卡欺诈检测方法及系统
CN112966819A (zh) * 2021-03-04 2021-06-15 南方科技大学 分布外数据检测方法、装置、服务器及存储介质
CN112966819B (zh) * 2021-03-04 2024-04-09 南方科技大学 分布外数据检测方法、装置、服务器及存储介质
CN113626488A (zh) * 2021-08-04 2021-11-09 挂号网(杭州)科技有限公司 数据处理方法、装置、电子设备及存储介质
CN114615051A (zh) * 2022-03-09 2022-06-10 黄河水利职业技术学院 一种网络安全检测方法和系统

Also Published As

Publication number Publication date
CN111242793B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN111242793A (zh) 医保数据异常的检测方法和装置
CN107945024B (zh) 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
CN109598095B (zh) 评分卡模型的建立方法、装置、计算机设备和存储介质
JP5586373B2 (ja) 支払請求を処理するコンポーネントの機能をコンピュータシステムに実現させるプログラムが記録されているコンピュータ読み取り可能な記憶媒体、およびコンピュータシステムに支払請求を処理させるコンピュータシステムの動作方法
CN111967779A (zh) 一种风险评估方法、装置及设备
CN109934268B (zh) 异常交易检测方法及系统
CN109544364B (zh) 基于数据分析的违规行为检测方法、装置及终端
CN112734559A (zh) 企业信用风险评价方法、装置及电子设备
CN112989990B (zh) 医疗票据识别方法、装置、设备及存储介质
CN110288488A (zh) 医疗险欺诈预测方法、装置、设备和可读存储介质
CN112200402B (zh) 一种基于风险画像的风险量化方法、装置及设备
US20160259896A1 (en) Segmented temporal analysis model used in fraud, waste, and abuse detection
CN117495544A (zh) 一种基于沙箱的风控评估方法、系统、终端及存储介质
CN112416782A (zh) 测试结果的验证方法、装置和电子设备
CN112163962A (zh) 一种模型训练和业务风控的方法及装置
CN111277465A (zh) 一种异常数据报文检测方法、装置及电子设备
CN113849618A (zh) 基于知识图谱的策略确定方法、装置、电子设备及介质
CN114429283A (zh) 风险标签处理方法、装置、风控方法、设备及存储介质
CN114418776A (zh) 一种数据处理方法、装置、终端设备及介质
CN113360416A (zh) 测试数据批量生成方法及装置
Mishra et al. Maintainability of Service-Oriented Architecture using Hybrid K-means Clustering Approach
CN115034918B (zh) 团伙案件识别方法、装置、计算机设备、存储介质和产品
CN112988719B (zh) 一种数据质量检测方法、装置、可读介质及电子设备
CN112785476B (zh) 一种用户行为识别方法及装置
CN116385163A (zh) 数据单元异常识别方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant