CN116167872A - 异常医疗数据检测方法、装置及设备 - Google Patents

异常医疗数据检测方法、装置及设备 Download PDF

Info

Publication number
CN116167872A
CN116167872A CN202310427840.5A CN202310427840A CN116167872A CN 116167872 A CN116167872 A CN 116167872A CN 202310427840 A CN202310427840 A CN 202310427840A CN 116167872 A CN116167872 A CN 116167872A
Authority
CN
China
Prior art keywords
data
abnormal
sample
medical insurance
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310427840.5A
Other languages
English (en)
Inventor
曹文治
张琪慧
曾阳艳
谢俊伟
周易东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202310427840.5A priority Critical patent/CN116167872A/zh
Publication of CN116167872A publication Critical patent/CN116167872A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种异常医疗数据检测方法、装置、设备及介质,包括:获取医保历史数据,并对医保样本数据进行数据预处理,得到样本数据,对样本数据进行类别特征处理,并将得到的数据分为训练集和测试集,采用训练集和测试集对初始异常数据检测模型进行训练,得到训练好的异常数据检测模型,初始异常数据检测模型为对称决策树模型,在接收到待检测数据时,从待检测数据中获取用户标识,并从预设的医保数据库中获取用户标识匹配的数据信息,作为用户标识对应的目标医保信息,目标医保信息为多维度信息,将目标医保信息输入到异常数据检测模型中,采用异常数据检测模型进行检测识别,得到检测结果,采用本发明提高了异常数据检测的准确性。

Description

异常医疗数据检测方法、装置及设备
技术领域
本发明涉及数据处理领域,尤其涉及一种异常医疗数据检测方法、装置、计算机设备及介质。
背景技术
面对数量庞大的医保报销数据,传统人工查验方法效率低下,大数据时代,随着机器学习和人工智能技术的发展,数据驱动的机器学习算法开始应用于保险反异常领域,机器学习方法能快速处理海量数据,从中分析行为规律,识别异常行为。目前已有学者使用机器学习中的决策树方法研究医保异常预测问题,常用的有GDBT,XGBoost等,但现有医保人群庞大,数据较为复杂,模型往往容易过拟合,导致结果存在偏移。
发明内容
本发明实施例提供一种异常医疗数据检测方法、装置、计算机设备和存储介质,以提高异常数据检测的准确性。
为了解决上述技术问题,本申请实施例提供一种异常医疗数据检测方法,所述异常医疗数据检测方法包括:
获取医保历史数据,并对所述医保历史数据进行数据预处理,得到样本数据,所述样本数据为多维度信息;
对所述样本数据进行类别特征处理,并将得到的数据分为训练集和测试集;
采用所述训练集和所述测试集对初始异常数据检测模型进行训练,得到训练好的异常数据检测模型,所述初始异常数据检测模型为对称决策树模型;
在接收到待检测数据时,从所述待检测数据中获取用户标识,并从预设的医保数据库中获取所述用户标识匹配的数据信息,作为所述用户标识对应的目标医保信息,所述目标医保信息为多维度信息;
将所述目标医保信息输入到训练好的异常数据检测模型中,采用所述训练好的异常数据检测模型进行检测识别,得到检测结果。
可选地,所述对所述医保历史数据进行数据预处理,得到样本数据包括:
将所述样本数据中的用户标识与预设的医保数据库中的医保数据进行匹配,生成数据表;
对所述数据表中的数据进行清洗,并去除唯一属性特征,得到清洗后的数据表;
对所述清洗后的数据表中的缺失数据进行数据补全,得到目标数据表,将所述目标数据表中的数据,作为样本数据。
可选地,所述对所述样本数据进行类别特征处理包括:
针对维度小于N的特征数据,采用独热编码的方式进行数据编码,得到低基类的类别特征数据,其中,N为正整数;
针对维度大于或等于N的特征数据,采用有序增强的编码方式进行数据编码,得到高基类的类别特征数据。
可选地,所述针对维度大于或等于N的特征数据,采用有序增强的编码方式进行数据编码,得到高基类的类别特征数据包括:
采用如下表达式对维度大于或等于N的特征数据进行有序增强:
Figure SMS_2
,其中,/>
Figure SMS_3
是类别特征转化为数值特征后的值,样本空间/>
Figure SMS_5
,/>
Figure SMS_6
是样本i的m维的特征向量,其中
Figure SMS_7
是将数据集随机排序后的s个样本序列,/>
Figure SMS_8
代表样本按随机序列/>
Figure SMS_9
排序后的第i个样本的类别特征k, Y j 是第j个样本的标签值,/>
Figure SMS_1
是指示函数,当
Figure SMS_4
=/>
Figure SMS_10
成立时,函数值为1,否则为0, P是先验值,即数据集中标签值为1 的样本的概率,a是先验值的权重,a>0。
可选地,所述采用所述训练集和所述测试集对初始异常数据检测模型进行训练,得到训练好的异常数据检测模型包括:
对初始异常数据检测模型的每一层所有结点采用相同的分裂条件,遍历训练集中所有样本数据的候选特征和分裂阈值,得到P个分裂条件;
针对任一样本数据,计算按每种分裂条件下分裂得到的叶子节点的增益,并根据所述增益确定每个候选分裂点的分值;
根据每个所述候选分裂点的分值确定最佳分裂点,并将所述最佳分裂点加入树中,确定树的结构;
并返回到所述针对任一样本数据,计算按每种分裂条件下分裂得到的叶子节点的增益,并根据所述增益确定每个候选分裂点的分值的步骤继续执行,直到叶节点中的样本个数达到阈值,得到第一棵决策树;
采用第一棵决策树的结构,进行其他决策树的生成,得到所述训练好的异常数据检测模型。
可选地,将每一层的分裂条件和统计信息编码为二进制,并每个叶子结点的索引编码为长度等于树的深度的二进制向量。
为了解决上述技术问题,本申请实施例还提供一种异常医疗数据检测装置,包括:
历史数据获取模块,用于获取医保历史数据,并对医保样本数据进行数据预处理,得到样本数据,样本数据为多维度信息;
类别特征处理模块,用于对样本数据进行类别特征处理,并将得到的数据分为训练集和测试集;
检测模型训练模块,用于采用训练集和测试集对初始异常数据检测模型进行训练,得到训练好的异常数据检测模型,初始异常数据检测模型为对称决策树模型;
检测数据匹配模块,用于在接收到待检测数据时,从待检测数据中获取用户标识,并从预设的医保数据库中获取用户标识匹配的数据信息,作为用户标识对应的目标医保信息,目标医保信息为多维度信息;
异常检测识别模块,用于将目标医保信息输入到训练好的异常数据检测模型中,采用所述训练好的异常数据检测模型进行检测识别,得到检测结果。
可选地,所述历史数据获取模块包括:
数据表生成单元,用于将样本数据中的用户标识与预设的医保数据库中的医保数据进行匹配,生成数据表;
数据清洗单元,用于对数据表中的数据进行清洗,并去除唯一属性特征,得到清洗后的数据表;
数据补全单元,用于对清洗后的数据表中的缺失数据进行数据补全,得到目标数据表,将目标数据表中的数据,作为样本数据。
可选地,所述类别特征处理模块包括:
第一编码单元,用于针对维度小于N的特征数据,采用独热编码的方式进行数据编码,得到低基类的类别特征数据,其中,N为正整数;
第二编码单元,用于针对维度大于或等于N的特征数据,采用有序增强的编码方式进行数据编码,得到高基类的类别特征数据。
可选地,所述第二编码单元包括:
数据编码子单元,用于采用如下表达式对维度大于或等于N的特征数据进行有序增强:
Figure SMS_12
,其中,/>
Figure SMS_14
是类别特征转化为数值特征后的值,样本空间/>
Figure SMS_15
,/>
Figure SMS_16
是样本i的m维的特征向量,其中/>
Figure SMS_17
是将数据集随机排序后的s个样本序列,/>
Figure SMS_18
代表样本按随机序列
Figure SMS_19
排序后的第i个样本的类别特征k, Y j 是第j个样本的标签值,/>
Figure SMS_11
是指示函数,当/>
Figure SMS_13
=/>
Figure SMS_20
成立时,函数值为1,否则为0, P是先验值,即数据集中标签值为1 的样本的概率,a是先验值的权重,a>0。
可选地,所述检测模型训练模块包括:
分裂条件遍历子单元,用于对初始异常数据检测模型的每一层所有结点采用相同的分裂条件,遍历训练集中所有样本数据的候选特征和分裂阈值,得到P个分裂条件;
分裂点分值计算子单元,用于针对任一样本数据,计算按每种分裂条件下分裂得到的叶子节点的增益,并根据增益确定每个候选分裂点的分值;
分裂点选取子单元,用于根据每个候选分裂点的分值确定最佳分裂点,并将最佳分裂点加入树中,确定树的结构;
循环迭代子单元,用于并返回到针对任一样本数据,计算按每种分裂条件下分裂得到的叶子节点的增益,并根据增益确定每个候选分裂点的分值的步骤继续执行,直到叶节点中的样本个数达到阈值,得到第一棵决策树;
检测模型生成子单元,用于采用第一棵决策树的结构,进行其他决策树的生成,得到训练好的异常数据检测模型。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述异常医疗数据检测方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述异常医疗数据检测方法的步骤。
本发明实施例提供的异常医疗数据检测方法、装置、计算机设备及存储介质,获取医保历史数据,并对医保样本数据进行数据预处理,得到样本数据,样本数据为多维度信息,对样本数据进行类别特征处理,并将得到的数据分为训练集和测试集,采用训练集和测试集对初始异常数据检测模型进行训练,得到训练好的异常数据检测模型,初始异常数据检测模型为对称决策树模型,在接收到待检测数据时,从待检测数据中获取用户标识,并从预设的医保数据库中获取用户标识匹配的数据信息,作为用户标识对应的目标医保信息,目标医保信息为多维度信息,将目标医保信息输入到训练好的异常数据检测模型中,采用训练好的异常数据检测模型进行检测识别,得到检测结果通过类别特征的处理,避免使用相同的数据集导致过拟合,预测结果存在偏移的问题,提高了异常数据检测的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的异常医疗数据检测方法的一个实施例的流程图;
图3是根据本申请的异常医疗数据检测装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的异常医疗数据检测方法由服务器执行,相应地,异常医疗数据检测装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
请参阅图2,图2示出本发明实施例提供的一种异常医疗数据检测方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:获取医保历史数据,并对医保样本数据进行数据预处理,得到样本数据,样本数据为多维度信息。
在一具体可选实施方式中,对医保样本数据进行数据预处理,得到样本数据包括:
将样本数据中的用户标识与预设的医保数据库中的医保数据进行匹配,生成数据表;
对数据表中的数据进行清洗,并去除唯一属性特征,得到清洗后的数据表;
对清洗后的数据表中的缺失数据进行数据补全,得到目标数据表,将目标数据表中的数据,作为样本数据。
在本实施例一具体示例中,数据预处理阶段获取医保异常数据集,对数据进行预处理,具体过程如下:获取带标签的医保异常数据集后,以患者ID作为标识,将医保数据进行匹配,生成数据表。数据清洗,去除唯一属性特征,例如就诊日期,医保卡号等,对于缺失值,处理成这个特征中的最小值。确定医保异常预测模型的输入值和输出值,医保异常预测模型的输入为医保异常数据集,输入特征包括患者ID,医生ID,科室ID,性别,年龄,患者费别,医保类型,就诊次数,支付次数,医疗总费用,一般诊疗费用药品费用,自付费用,报销费用,单日支付次数,最高单价,最低单价,天数,本年度费用,年购药量等。数据集中的标签值即为模型的输出值。
S202:对样本数据进行类别特征处理,并将得到的数据分为训练集和测试集。
在一具体可选实施方式中,对样本数据进行类别特征处理包括:
针对维度小于N的特征数据,采用独热编码的方式进行数据编码,得到低基类的类别特征数据,其中,N为正整数;
针对维度大于或等于N的特征数据,采用有序增强的编码方式进行数据编码,得到高基类的类别特征数据。
其中,N根据实际需要进行确定,此处不做限定。
本实施例中,类别特征处理,根据类别特征的维度使用不同的方法自动进行编码处理:对于低维的类别特征,例如性别,使用one-hot进行编码,对于高维的类别特征,例如医生ID,科室ID等,使用Ordered TS进行编码统计该特征的目标变量的期望,然后将该期望值作为新的数值特征代替原来的类别特征。
在一具体可选实施方式中,针对维度大于或等于N的特征数据,采用有序增强的编码方式进行数据编码,得到高基类的类别特征数据包括:
采用如下表达式对维度大于或等于N的特征数据进行有序增强:
Figure SMS_22
,其中,/>
Figure SMS_24
是类别特征转化为数值特征后的值,样本空间/>
Figure SMS_26
,/>
Figure SMS_27
是样本i的m维的特征向量,其中
Figure SMS_28
是将数据集随机排序后的s个样本序列,/>
Figure SMS_29
代表样本按随机序列/>
Figure SMS_30
排序后的第i个样本的类别特征k,Y j 是第j个样本的标签值,/>
Figure SMS_21
是指示函数,当/>
Figure SMS_23
=/>
Figure SMS_25
成立时,函数值为1,否则为0, P是先验值,即数据集中标签值为1 的样本的概率,a是先验值的权重,a>0。
S203:采用训练集和测试集对初始异常数据检测模型进行训练,得到训练好的异常数据检测模型,初始异常数据检测模型为对称决策树模型。
在本实施例一具体可选实施方式中,采用训练集和测试集对初始异常数据检测模型进行训练,得到训练好的异常数据检测模型包括:
对初始异常数据检测模型的每一层所有结点采用相同的分裂条件,遍历训练集中所有样本数据的候选特征和分裂阈值,得到P个分裂条件;
针对任一样本数据,计算按每种分裂条件下分裂得到的叶子节点的增益,并根据增益确定每个候选分裂点的分值;
根据每个候选分裂点的分值确定最佳分裂点,并将最佳分裂点加入树中,确定树的结构;
并返回到针对任一样本数据,计算按每种分裂条件下分裂得到的叶子节点的增益,并根据增益确定每个候选分裂点的分值的步骤继续执行,直到叶节点中的样本个数达到阈值,得到第一棵决策树;
采用第一棵决策树的结构,进行其他决策树的生成,得到训练好的异常数据检测模型。
可选地,将每一层的分裂条件和统计信息编码为二进制,并每个叶子结点的索引编码为长度等于树的深度的二进制向量。
进一步地,异常数据检测模型训练过程为:
采用Ordered Boosting算法对样本的梯度值进行无偏估计,在每一轮的迭代中,将样本按照处理类别特征时的序列
Figure SMS_32
排列,为每个样本/>
Figure SMS_33
维护一个模型/>
Figure SMS_34
,其中
Figure SMS_35
,/>
Figure SMS_36
是由在序列/>
Figure SMS_37
中的前/>
Figure SMS_39
个样本训练而成,用/>
Figure SMS_31
估计样本的梯度:
Figure SMS_38
,该结果/>
Figure SMS_40
是样本的梯度的无偏估计。
采用目标函数为:
Figure SMS_41
,其中/>
Figure SMS_42
为样本i的损失函数,/>
Figure SMS_43
为正则项。/>
Figure SMS_44
,其中/>
Figure SMS_45
和/>
Figure SMS_46
是超参数,T表示叶节点的个数,/>
Figure SMS_47
表示第j个叶节点的值。
优化目标:
Figure SMS_48
用牛顿L2 优化法对将上式进行优化处理,最终结果为:
Figure SMS_50
,本实施例中,CatBoost基学习器为对称决策树,每一层所有结点采用相同的分裂条件c,遍历候选特征和分裂阈值,得到多种分裂结果,计算按每一种条件分裂后,决策树产生的叶子结点的增益函数计算方法:
Figure SMS_53
,计算每一个候选分裂点的Score,/>
Figure SMS_54
,将c加入树中。每一次迭代中样本根据随机序列/>
Figure SMS_55
排列,利用/>
Figure SMS_56
计算每个样本的一阶梯度/>
Figure SMS_57
,二阶梯度:/>
Figure SMS_58
计算每个叶子结点的/>
Figure SMS_49
,/>
Figure SMS_51
,代入上式求解最佳分裂点。依次重复上述步骤,将结点加入树中,确定树的结构,直到叶节点中的样本个数达到阈值。在第一轮确定了树的结构以后,后面的每一轮迭代都将采用与第一轮相同的树结构,将该轮迭代采用的序列/>
Figure SMS_52
中的对应位置的样本直接划分到对应的叶节点中,得到完整的模型。
对于CatBoost构建决策树第二阶段求叶节点的值,其具体步骤如下:共生成
Figure SMS_59
个随机序列/>
Figure SMS_60
,/>
Figure SMS_61
其中用于第一阶段构建树的结构,/>
Figure SMS_62
用于第二结点计算叶节点的值:根据/>
Figure SMS_63
处理类别特征后,将上一阶段构建的树结构应用于/>
Figure SMS_64
,找出样本所在的树的叶结点,该叶结点的值等于结点中所有样本梯度的负平均值,Catboost模型的输出值为: />
Figure SMS_65
CatBoost预测模型表示为:
Figure SMS_66
,其中/>
Figure SMS_67
表示样本i的预测值,即模型的输出值,/>
Figure SMS_68
表示决策树中子树的数量,/>
Figure SMS_69
代表每一轮迭代构建的子树。/>
Figure SMS_70
表示输入
Figure SMS_71
即可得知它分到的叶结点和q和该结点的值。即该子树对样本i的预测值。/>
Figure SMS_72
表示第M轮构建的子树,即第M棵树。
调参:CatBoost模型的超参数包括学习率,正则项参数,树的棵树M即迭代次数,树的深度和叶结点中样本个数等,调整超参数使得模型的评价指标达到最优。
预测:由于CatBoost基分类器采用对称决策树,每一层的分裂条件相同,故可以将每一层的判断条件即数值特征和统计信息编码为二进制,则每个叶结点的索引可以编码为长度等于树的深度的二进制向量。将对应预测值存在数组结构中,可提高模型的预测速度。当预测样本的对应特征编码为11时,它的预测值即为0,即“异常“。
本实施例中,通过采用Ordered TS处理类别特征,通过Ordered Boosting对预测偏移的处理使减少模型的过拟合,提升模型的预测效果。基学习器采用对称决策树,可以将所有的特征编码为二进制后存储在数组中,提升预测速度。
S204:在接收到待检测数据时,从待检测数据中获取用户标识,并从预设的医保数据库中获取用户标识匹配的数据信息,作为用户标识对应的目标医保信息,目标医保信息为多维度信息。
S205:将目标医保信息输入到训练好的异常数据检测模型中,采用训练好的异常数据检测模型进行检测识别,得到检测结果。
本实施例中,获取医保历史数据,并对医保样本数据进行数据预处理,得到样本数据,样本数据为多维度信息,对样本数据进行类别特征处理,并将得到的数据分为训练集和测试集,采用训练集和测试集对初始异常数据检测模型进行训练,得到训练好的异常数据检测模型,初始异常数据检测模型为对称决策树模型,在接收到待检测数据时,从待检测数据中获取用户标识,并从预设的医保数据库中获取用户标识匹配的数据信息,作为用户标识对应的目标医保信息,目标医保信息为多维度信息,将目标医保信息输入到训练好的异常数据检测模型中,采用训练好的异常数据检测模型进行检测识别,得到检测结果通过类别特征的处理,避免使用相同的数据集导致过拟合,预测结果存在偏移的问题,提高了异常数据检测的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图3示出与上述实施例异常医疗数据检测方法一一对应的异常医疗数据检测装置的原理框图。如图3所示,该异常医疗数据检测装置包括历史数据获取模块31、类别特征处理模块32、检测模型训练模块33、检测数据匹配模块34和异常检测识别模块35。各功能模块详细说明如下:
历史数据获取模块31,用于获取医保历史数据,并对医保样本数据进行数据预处理,得到样本数据,样本数据为多维度信息;
类别特征处理模块32,用于对样本数据进行类别特征处理,并将得到的数据分为训练集和测试集;
检测模型训练模块33,用于采用训练集和测试集对初始异常数据检测模型进行训练,得到训练好的异常数据检测模型,初始异常数据检测模型为对称决策树模型;
检测数据匹配模块34,用于在接收到待检测数据时,从待检测数据中获取用户标识,并从预设的医保数据库中获取用户标识匹配的数据信息,作为用户标识对应的目标医保信息,目标医保信息为多维度信息;
异常检测识别模块35,用于将目标医保信息输入到训练好的异常数据检测模型中,采用训练好的异常数据检测模型进行检测识别,得到检测结果。
可选地,历史数据获取模块31包括:
数据表生成单元,用于将样本数据中的用户标识与预设的医保数据库中的医保数据进行匹配,生成数据表;
数据清洗单元,用于对数据表中的数据进行清洗,并去除唯一属性特征,得到清洗后的数据表;
数据补全单元,用于对清洗后的数据表中的缺失数据进行数据补全,得到目标数据表,将目标数据表中的数据,作为样本数据。
可选地,类别特征处理模块32包括:
第一编码单元,用于针对维度小于N的特征数据,采用独热编码的方式进行数据编码,得到低基类的类别特征数据,其中,N为正整数;
第二编码单元,用于针对维度大于或等于N的特征数据,采用有序增强的编码方式进行数据编码,得到高基类的类别特征数据。
可选地,第二编码单元包括:
数据编码子单元,用于采用如下表达式对维度大于或等于N的特征数据进行有序增强:
Figure SMS_73
,其中,/>
Figure SMS_76
是类别特征转化为数值特征后的值,样本空间/>
Figure SMS_78
,/>
Figure SMS_79
是样本i的m维的特征向量,其中/>
Figure SMS_80
是将数据集随机排序后的s个样本序列,/>
Figure SMS_81
代表样本按随机序列/>
Figure SMS_82
排序后的第i个样本的类别特征k,Y j 是样本的标签值,/>
Figure SMS_74
是指示函数,当
Figure SMS_75
=/>
Figure SMS_77
成立时,函数值为1,否则为0, P是先验值,即数据集中标签值为1 的样本的概率,a是先验值的权重,a>0。
可选地,检测模型训练模块33包括:
分裂条件遍历子单元,用于对初始异常数据检测模型的每一层所有结点采用相同的分裂条件,遍历训练集中所有样本数据的候选特征和分裂阈值,得到P个分裂条件;
分裂点分值计算子单元,用于针对任一样本数据,计算按每种分裂条件下分裂得到的叶子节点的增益,并根据增益确定每个候选分裂点的分值;
分裂点选取子单元,用于根据每个候选分裂点的分值确定最佳分裂点,并将最佳分裂点加入树中,确定树的结构;
循环迭代子单元,用于并返回到针对任一样本数据,计算按每种分裂条件下分裂得到的叶子节点的增益,并根据增益确定每个候选分裂点的分值的步骤继续执行,直到叶节点中的样本个数达到阈值,得到第一棵决策树;
检测模型生成子单元,用于采用第一棵决策树的结构,进行其他决策树的生成,得到训练好的异常数据检测模型。
关于异常医疗数据检测装置的具体限定可以参见上文中对于异常医疗数据检测方法的限定,在此不再赘述。上述异常医疗数据检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如异常医疗数据检测的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行异常医疗数据检测的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的异常医疗数据检测方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种异常医疗数据检测方法,其特征在于,所述异常医疗数据检测方法包括:
获取医保历史数据,并对所述医保历史数据进行数据预处理,得到样本数据,所述样本数据为多维度信息;
对所述样本数据进行类别特征处理,并将得到的数据分为训练集和测试集;
采用所述训练集和所述测试集对初始异常数据检测模型进行训练,得到训练好的异常数据检测模型,所述初始异常数据检测模型为对称决策树模型;
在接收到待检测数据时,从所述待检测数据中获取用户标识,并从预设的医保数据库中获取所述用户标识匹配的数据信息,作为所述用户标识对应的目标医保信息,所述目标医保信息为多维度信息;
将所述目标医保信息输入到训练好的异常数据检测模型中,采用所述训练好的异常数据检测模型进行检测识别,得到检测结果。
2.如权利要求1所述的异常医疗数据检测方法,其特征在于,所述对所述医保历史数据进行数据预处理,得到样本数据包括:
将所述样本数据中的用户标识与预设的医保数据库中的医保数据进行匹配,生成数据表;
对所述数据表中的数据进行清洗,并去除唯一属性特征,得到清洗后的数据表;
对所述清洗后的数据表中的缺失数据进行数据补全,得到目标数据表,将所述目标数据表中的数据,作为样本数据。
3.如权利要求1所述的异常医疗数据检测方法,其特征在于,所述对所述样本数据进行类别特征处理包括:
针对维度小于N的特征数据,采用独热编码的方式进行数据编码,得到低基类的类别特征数据,其中,N为正整数;
针对维度大于或等于N的特征数据,采用有序增强的编码方式进行数据编码,得到高基类的类别特征数据。
4.如权利要求3所述的异常医疗数据检测方法,其特征在于,所述针对维度大于或等于N的特征数据,采用有序增强的编码方式进行数据编码,得到高基类的类别特征数据包括:
采用如下表达式对维度大于或等于N的特征数据进行有序增强:
Figure QLYQS_4
,其中,/>
Figure QLYQS_5
是类别特征转化为数值特征后的值,样本空间/>
Figure QLYQS_6
,/>
Figure QLYQS_7
是样本i的m维的特征向量,其中/>
Figure QLYQS_8
是将数据集随机排序后的s个样本序列,/>
Figure QLYQS_9
代表样本按随机序列/>
Figure QLYQS_10
排序后的第i个样本的类别特征k, Y j 是第j个样本的标签值,/>
Figure QLYQS_1
是指示函数,当/>
Figure QLYQS_2
=/>
Figure QLYQS_3
成立时,函数值为1,否则为0, P是先验值,即数据集中标签值为1 的样本的概率,a是先验值的权重,a>0。/>
5.如权利要求1所述的异常医疗数据检测方法,其特征在于,所述采用所述训练集和所述测试集对初始异常数据检测模型进行训练,得到训练好的异常数据检测模型包括:
对初始异常数据检测模型的每一层所有结点采用相同的分裂条件,遍历训练集中所有样本数据的候选特征和分裂阈值,得到P个分裂条件;
针对任一样本数据,计算按每种分裂条件下分裂得到的叶子节点的增益,并根据所述增益确定每个候选分裂点的分值;
根据每个所述候选分裂点的分值确定最佳分裂点,并将所述最佳分裂点加入树中,确定树的结构;
并返回到所述针对任一样本数据,计算按每种分裂条件下分裂得到的叶子节点的增益,并根据所述增益确定每个候选分裂点的分值的步骤继续执行,直到叶节点中的样本个数达到阈值,得到第一棵决策树;
采用第一棵决策树的结构,进行其他决策树的生成,得到所述训练好的异常数据检测模型。
6.如权利要求5所述的异常医疗数据检测方法,其特征在于,将每一层的分裂条件和统计信息编码为二进制,并每个叶子结点的索引编码为长度等于树的深度的二进制向量。
7.一种异常医疗数据检测装置,其特征在于,所述异常医疗数据检测装置包括:
历史数据获取模块,用于获取医保历史数据,并对医保样本数据进行数据预处理,得到样本数据,样本数据为多维度信息;
类别特征处理模块,用于对样本数据进行类别特征处理,并将得到的数据分为训练集和测试集;
检测模型训练模块,用于采用训练集和测试集对初始异常数据检测模型进行训练,得到训练好的异常数据检测模型,初始异常数据检测模型为对称决策树模型;
检测数据匹配模块,用于在接收到待检测数据时,从待检测数据中获取用户标识,并从预设的医保数据库中获取用户标识匹配的数据信息,作为用户标识对应的目标医保信息,目标医保信息为多维度信息;
异常检测识别模块,用于将目标医保信息输入到训练好的异常数据检测模型中,采用训练好的异常数据检测模型进行检测识别,得到检测结果。
8.如权利要求7所述的异常医疗数据检测装置,其特征在于,所述历史数据获取模块包括:
数据表生成单元,用于将样本数据中的用户标识与预设的医保数据库中的医保数据进行匹配,生成数据表;
数据清洗单元,用于对数据表中的数据进行清洗,并去除唯一属性特征,得到清洗后的数据表;
数据补全单元,用于对清洗后的数据表中的缺失数据进行数据补全,得到目标数据表,将目标数据表中的数据,作为样本数据。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的异常医疗数据检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的异常医疗数据检测方法。
CN202310427840.5A 2023-04-20 2023-04-20 异常医疗数据检测方法、装置及设备 Pending CN116167872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310427840.5A CN116167872A (zh) 2023-04-20 2023-04-20 异常医疗数据检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310427840.5A CN116167872A (zh) 2023-04-20 2023-04-20 异常医疗数据检测方法、装置及设备

Publications (1)

Publication Number Publication Date
CN116167872A true CN116167872A (zh) 2023-05-26

Family

ID=86416649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310427840.5A Pending CN116167872A (zh) 2023-04-20 2023-04-20 异常医疗数据检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN116167872A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359669A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 医保报销异常检测方法、装置、计算机设备和存储介质
CN111105241A (zh) * 2019-12-20 2020-05-05 浙江工商大学 一种应用于信用卡交易反欺诈的识别方法
CN113095365A (zh) * 2021-03-15 2021-07-09 北京大学 医疗保险违规数据识别方法及装置
CN114187033A (zh) * 2021-11-25 2022-03-15 大连理工大学 一种基于深度迁移学习的可解释性房屋价格评估分类方法
CN114330509A (zh) * 2021-12-06 2022-04-12 中科星图股份有限公司 一种空中目标活动规律预测方法
CN114399029A (zh) * 2022-01-14 2022-04-26 国网河北省电力有限公司电力科学研究院 一种基于gan样本增强的恶意流量检测方法
CN114971675A (zh) * 2022-04-06 2022-08-30 北京科技大学 一种基于DeepFM模型的二手车价格评估方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359669A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 医保报销异常检测方法、装置、计算机设备和存储介质
CN111105241A (zh) * 2019-12-20 2020-05-05 浙江工商大学 一种应用于信用卡交易反欺诈的识别方法
CN113095365A (zh) * 2021-03-15 2021-07-09 北京大学 医疗保险违规数据识别方法及装置
CN114187033A (zh) * 2021-11-25 2022-03-15 大连理工大学 一种基于深度迁移学习的可解释性房屋价格评估分类方法
CN114330509A (zh) * 2021-12-06 2022-04-12 中科星图股份有限公司 一种空中目标活动规律预测方法
CN114399029A (zh) * 2022-01-14 2022-04-26 国网河北省电力有限公司电力科学研究院 一种基于gan样本增强的恶意流量检测方法
CN114971675A (zh) * 2022-04-06 2022-08-30 北京科技大学 一种基于DeepFM模型的二手车价格评估方法

Similar Documents

Publication Publication Date Title
CN111241304B (zh) 基于深度学习的答案生成方法、电子装置及可读存储介质
CN112863683B (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN112085091B (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN116777646A (zh) 基于人工智能的风险识别方法、装置、设备及存储介质
CN116703466A (zh) 基于改进灰狼算法的系统访问量预测方法及其相关设备
CN114358023B (zh) 智能问答召回方法、装置、计算机设备及存储介质
CN113722437B (zh) 基于人工智能的用户标签识别方法、装置、设备及介质
CN114281991A (zh) 文本分类方法、装置、电子设备及存储介质
CN114461085A (zh) 医疗输入推荐方法、装置、设备及存储介质
CN113627514A (zh) 知识图谱的数据处理方法、装置、电子设备和存储介质
CN116167872A (zh) 异常医疗数据检测方法、装置及设备
CN116340864B (zh) 一种模型漂移检测方法、装置、设备及其存储介质
CN114462411B (zh) 命名实体识别方法、装置、设备及存储介质
CN113688268B (zh) 图片信息抽取方法、装置、计算机设备及存储介质
CN114238583B (zh) 自然语言处理方法、装置、计算机设备及存储介质
CN117709801A (zh) 客户数据处理方法、装置、计算机设备及存储介质
CN116662160A (zh) 基于代价敏感宽度学习的软件缺陷预测方法及处理装置
CN116757197A (zh) 文本主题分割方法、装置、设备及存储介质
CN116741369A (zh) 模型训练方法、装置、设备及存储介质
CN117034114A (zh) 基于人工智能的数据预测方法、装置、设备及存储介质
CN116796140A (zh) 基于人工智能的异常分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination