CN113869387B - 基于人工智能技术的异常医保报销识别方法及系统 - Google Patents
基于人工智能技术的异常医保报销识别方法及系统 Download PDFInfo
- Publication number
- CN113869387B CN113869387B CN202111098882.6A CN202111098882A CN113869387B CN 113869387 B CN113869387 B CN 113869387B CN 202111098882 A CN202111098882 A CN 202111098882A CN 113869387 B CN113869387 B CN 113869387B
- Authority
- CN
- China
- Prior art keywords
- vectors
- medical insurance
- reimbursement
- identification
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000005516 engineering process Methods 0.000 title claims abstract description 31
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 136
- 238000003745 diagnosis Methods 0.000 claims abstract description 45
- 230000005856 abnormality Effects 0.000 claims abstract description 13
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 238000004590 computer program Methods 0.000 claims description 18
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 3
- 108010074051 C-Reactive Protein Proteins 0.000 description 3
- 102100032752 C-reactive protein Human genes 0.000 description 3
- HEFNNWSXXWATRW-UHFFFAOYSA-N Ibuprofen Chemical compound CC(C)CC1=CC=C(C(C)C(O)=O)C=C1 HEFNNWSXXWATRW-UHFFFAOYSA-N 0.000 description 3
- 229960001138 acetylsalicylic acid Drugs 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 229960001680 ibuprofen Drugs 0.000 description 3
- 230000000474 nursing effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003631 expected effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 201000009032 substance abuse Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及数字医疗技术领域,具体为基于人工智能技术的异常医保报销识别方法及系统,设计合理,能够对同一个报销人连续多次就诊的收费项目报销自动分析,从而进行医保控费。所述方法包括,将每个报销人的多次医保报销数据按照时间顺序进行排序,得到就诊次序,并将所述就诊次序转化为就诊次序向量;提取所述每个报销人的多次医保报销数据中的收费项目的识别维度特征,并将所述识别维度特征转化为识别维度特征向量;将识别维度特征向量分别与就诊次序向量进行一一对应,得到多组对应向量,将每组对应向量相加得到输入样本;将所述输入样本输入至预训练的异常识别模型进行所述输入样本是否异常的预测,输出所述输入样本的异常或正常标签。
Description
技术领域
本发明涉及数字医疗技术领域,具体为基于人工智能技术的异常医保报销识别方法及系统。
背景技术
根据国家卫健委公布的最新统计数据,我国的医保已基本实现全面普及,绝大多数患者尤其是住院患者的医疗费用都能得到报销,医保补偿水平进一步提高。
然而,随着我国医保覆盖面不断扩大,社会医疗保障水平逐渐提高,医保费用报销也逐年提升,随之带来的医疗保险费用控制得到了越来越多的重视。医疗保险费用控制,即医保控费,是指控制不合理的医疗费用。在实际医保报销中,一些不合理用药、滥用药等行为导致医保费用浪费,使得国家的医保资金面临亏空,造成严重的后果。所以,医保控费就是要减少不合理支出,提高医保基金使用率。
现有技术中仅仅是对单次医保报销的审核,来实现医保控费,但是实际当中存在着巨大的漏洞,往往单次报销不存在问题,而是将不合理用药和滥用药分散到同一个人的多次报销中,来规避现有的医保报销审核;现有技术在单词报销审核的基础上,面对海量的医保报销数据,无法提取和关联医保多次连续报销的数据,从而无法进行多次报销的审核,从而需要人工进行处理,达不到预期的效果。
发明内容
针对现有技术中存在的问题,本发明提供一种基于人工智能技术的异常医保报销识别方法及系统,设计合理,使用方便,高效快速,能够对同一个报销人连续多次就诊的收费项目报销自动分析,从而进行医保控费。
本发明是通过以下技术方案来实现:
基于人工智能技术的异常医保报销识别方法,包括,
将每个报销人的多次医保报销数据按照时间顺序进行排序,得到就诊次序,并将所述就诊次序转化为就诊次序向量;
提取所述每个报销人的多次医保报销数据中的收费项目的识别维度特征,并将所述识别维度特征转化为识别维度特征向量,其中,所述收费项目的识别维度特征用于指示多次医保报销数据中的收费项目信息;
将识别维度特征向量分别与就诊次序向量进行一一对应,得到多组对应向量,将每组对应向量相加得到输入样本;
将所述输入样本输入至预训练的异常识别模型进行所述输入样本是否异常的预测,输出所述输入样本的异常或正常标签;其中,所述预训练的异常识别模型用于识别所述输入样本中多次就诊收费项的异常医保报销,且所述预训练的异常识别模型为端到端和有监督的模型。
可选的,所述提取所述每个报销人的多次医保报销数据中的收费项目的识别维度特征,包括,提取收费项目的名称、类别和花费中的至少一种。
可选的,所述将所述识别维度特征转化为识别维度特征向量,包括,
将花费进行区间段划分,每个划分的区间段对应转化为花费向量。
可选的,所述将识别维度特征向量分别与就诊次序向量进行一一对应,得到多组对应向量,将每组对应向量相加得到输入样本之前,还包括,
通过随机初始化为向量表示后的就诊次序和识别维度特征,分别分配对应的分类标签向量。
可选的,所述将识别维度特征向量分别与就诊次序向量进行一一对应,得到多组对应向量,包括,
将每次就诊中收费项目的类别和花费,分别与每次就诊收费项目的名称一一对应,结合对应的就诊次序形成每次就诊的多组对应向量。
可选的,所述预训练的异常识别模型,包括依次连接的,
多个嵌入层,用于就诊次序和识别维度特征的嵌入,所述嵌入层与就诊次序和识别维度特征一一对应设置;
一个输入嵌入层,用于输入样本的嵌入;
多层基于变换器的双向编码器网络,用于对输入样本中的向量进行识别;
一个输出嵌入层,用于输出向量的识别结果;
一个全连接层,用于将识别结果进行分类;
一个sigmoid层,用于将识别结果的分类进行激活,得到输入样本的异常或正常标签。
可选的,所述多层基于变换器的双向编码器网络,其中,
每层由多个变换器组成,每个相邻两层的所有变换器之间均会连接形成双向连接;
每个输入嵌入层的向量输入到一个对应的变换器中,最后一层中每个变换器的输出与输入嵌入层的每个向量对应。
基于人工智能技术的异常医保报销识别系统,包括,
排序模块,用于将每个报销人的多次医保报销数据按照时间顺序进行排序,得到就诊次序,并将所述就诊次序转化为就诊次序向量;
特征提取模块,用于提取所述每个报销人的多次医保报销数据中的收费项目的识别维度特征,并将所述识别维度特征转化为识别维度特征向量,其中,所述收费项目的识别维度特征用于指示多次医保报销数据中的收费项目信息;
输入样本模块,用于将识别维度特征向量分别与就诊次序向量进行一一对应,得到多组对应向量,将每组对应向量相加得到输入样本;
异常识别模块,用于将所述输入样本输入至预训练的异常识别模型进行所述输入样本是否异常的预测,输出所述输入样本的异常或正常标签;其中,所述预训练的异常识别模型用于识别所述输入样本中多次就诊收费项的异常医保报销,且所述预训练的异常识别模型为端到端和有监督的模型。
一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上所述的基于人工智能技术的异常医保报销识别方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于人工智能技术的异常医保报销识别方法。
与现有技术相比,本发明具有以下有益的技术效果:
本发明首先对每个报销人的多次医保报销数据进行就诊次序和收费项目识别维度特征的提取,并通过向量化转化为对应的向量,并且一一对应相加后得到输入样本,从而在输入样本内综合了多次医保报销整体收费项目信息的数据特征和就诊次序的关联;利用预训练的异常识别模型,对输入样本中多次连续就诊的收费项目的信息配合就诊次序进行预测分析,输出所述输入样本的异常或正常标签,从而完成了对多次医保报销数据的异常医保报销识别输出,相比较单次的异常识别,综合了多次医保报销之间的关联,能够识别到通过分散在多次医保报销中范围更广、更隐蔽的异常报销行为,提升医保控费的能力。
附图说明
图1为本发明实例中所述异常医保报销识别方法的流程图。
图2为本发明实例中所述异常识别模型网络结构图。
图3为本发明实例中所述异常医保报销识别系统的框图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明基于人工智能技术的异常医保报销识别方法,如图1所示,包括,
S11将每个报销人的多次医保报销数据按照时间顺序进行排序,得到就诊次序,并将所述就诊次序转化为就诊次序向量;
原有医保控费都是针对单次的医保报销进行的,不会有多次报销之间的自动审核,需要人工介入审阅大量的数据资料,本发明通过按照医保实际报销的时间顺序,先对医保报销数据进行排序,将多次报销做为一个整体增加了就诊次序特征,为后续整体的特征提取提供参照和基础。同时进行向量化表示,例如按照对应的次序,依次表示为S1、S2、S3……,其中不存在重复内容,不需要进行筛选或者剔除。
S12提取所述每个报销人的多次医保报销数据中的收费项目的识别维度特征,并将所述识别维度特征转化为识别维度特征向量,其中,所述收费项目的识别维度特征用于指示多次医保报销数据中的收费项目信息;
其中,以多次医保报销数据为对象,而不是单次报销数据,通过提取需要关注的识别维度特征,作为后续判断是否异常的关键指标,可以只关心一个维度的特征,也可以同时关心多个维度的特征,同时将提取的这些特征进行向量化表示,向量化时相同的特征采用相同的向量表示,对于不同的特征分别可以对应的表示为向量,提取的第一识别维度特征向量例如名称可以表示为N1、N2、N3……,第二识别维度特征向量例如类型可以表示为T1、T2、T3……,第三识别维度特征向量例如花费可以表示为C1、C2、C3……等等。
S13将识别维度特征向量分别与就诊次序向量进行一一对应,得到多组对应向量,将每组对应向量相加得到输入样本;
其中,如上所述,按照就诊次序向量将识别维度特征向量进行对应,具体的包括,
将每次就诊中收费项目的类别向量和花费向量,分别与每次就诊收费项目的名称向量一一对应,结合对应的就诊次序向量形成每次就诊的多组对应向量。
例如,N1和N3分别与T1对应,N2与T2对应,N1、N2、N3的花费分别对应C1、C2、C3,N1和N2分别与S1对应,N3与S2对应,则形成了如下3组的对应向量,按列分组表示如下;
N1N2N3
T1 T2 T1
C1C2C3
S1 S1S2
然后每组向量相加得到包含三个向量的输入样本,该样本中包含了多次医疗报销中相互之间的关系,以及多次医疗报销时整体的数据特征。
S14将所述输入样本输入至预训练的异常识别模型进行所述输入样本是否异常的预测,输出所述输入样本的异常或正常标签;其中,所述预训练的异常识别模型用于识别所述输入样本中多次就诊收费项的异常医保报销,且所述预训练的异常识别模型为端到端和有监督的模型;
其中,预训练的、有监督的、端到端的异常识别模型的预训练过程中,从输入端(输入数据)到输出端会得到一个预测结果,与真实结果相比较会得到一个误差,这个误差会在模型中的每一层传递(反向传播),每一层的表示都会根据这个误差来做调整,直到模型收敛或达到预期的效果才结束,这是端到端的要求;通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的,也就具有了对未知数据进行预测和分类的能力,这是有监督的要求,本优选实例中,在海量的、带有正常或异常标签的历史医保报销数据上训练完成后,得到异常识别模型。
其中,对任意一个输出通过全连接层进行分类,通过sigmoid层进行激活,得到异常和正常的对该识别对象多次医保报销的二分类结果。
本发明一优选实例中,所述提取收费项目的识别维度特征,包括,提取收费项目的名称、类别和花费中的至少一种作为识别维度特征。并将名称和类别分别转化为名称向量和类别向量;将花费进行区间段划分,每个划分的区间段对应转化为花费向量。
例如,所述收费项目名称为“布洛芬”、“阿司匹林”、“C-反应蛋白”等,所述收费项目类型为“床位护理费”、“检查费”、“检验费”等,所述收费项目花费为具体的名称对应的花销。
对就诊次序和上述的收费项目的识别维度特征进行向量表示时,对收费项目的名称进行向量表示,相同的名称对应的向量表示相同。例如有3个收费项目名称“布洛芬”、“阿司匹林”、“C-反应蛋白”,每个收费项目对应一个向量表示,“布洛芬”由N1表示,“阿司匹林”由N2表示,“C-反应蛋白”由N3表示。
对收费项目的类型进行向量表示,相同的类型对应的向量表示相同。例如有3个收费项目“床位护理费”、“检查费”、“检验费”,每个收费项目类型对应一个向量表示,“床位护理费”由T1表示,检查费”由T2表示,“检验费”由T3表示。
对收费项目的花费进行向量表示,具体的,对所有收费项目的花费进行分段。例如分为100个区间,每个区间段对应一个花费向量表示。
本发明提供的另一实施例中,所述将识别维度特征向量分别与就诊次序向量进行一一对应,得到多组对应向量,将每组对应向量相加得到输入样本之前,还包括,
通过随机初始化为就诊次序向量和识别维度特征向量,分别分配对应的分类标签向量
结合上述的例子说明,分别对应就诊次序向量、名称向量、类别向量、花费向量,分别通过随机初始化得到对应的T0、N0、C0和S0,做为一组对应向量,并且相加后得到对应的输入向量E0
本发明如上所述预训练的异常识别模型,如图2所示,包括依次连接的,
多个嵌入层,用于就诊次序和识别维度特征的嵌入,所述嵌入层与就诊次序和识别维度特征一一对应设置;
一个输入嵌入层,用于输入样本的嵌入;
多层基于变换器的双向编码器网络,用于对输入样本中的向量进行识别;
一个输出嵌入层,用于输出向量的识别结果;
一个全连接层,用于将识别结果进行分类;
一个sigmoid层,用于将识别结果的分类进行激活,得到输入样本的异常或正常标签。
具体的,本发明所述的异常识别模型网络结构如图2所示。对模型网络结果从上到下依次进行说明:
将每个报销人的多次报销数据对应到特定的输入嵌入层中。对多次就报销数据按照时间顺序进行整理,并对应到“就诊次序嵌入层”中,例如在图 2中,S1表示第一次就诊,S2表示第二次就诊,等等。对报销数据中的每个收费项目,将收费项目的名称对应到“收费项名称嵌入层”,将收费项目的类别对应到“收费项目类别嵌入层”,将收费项目的花费对应到“收费项目花费层”。
向量表示后的收费项目名称向量对应到收费项目名称嵌入层。
向量表示后的收费项目类型向量对应到收费项目类型嵌入层。
向量表示后的收费项目花费向量对应到收费项目花费嵌入层。
(2)将四个嵌入层中的每个对应的向量相加得到输入嵌入层。输入嵌入层融合了医保报销人的多次就诊的报销数据记录。
(3)将输入嵌入层输入到多层基于变换器的双向编码器网络中,学习网络参数,得到输出嵌入层。
其中,所述多层基于变换器的双向编码器网络,其中,
每层由多个变换器组成,每个相邻两层的所有变换器之间均会连接形成双向连接;
每个输入嵌入层的向量输入到一个对应的变换器中,最后一层中每个变换器的输出与输入嵌入层的每个向量对应。
本优选实例中以12层为例进行举例,对12层基于变换器的双向编码器网络的描述(这个网络结构英文为BERT);模型中每层(例如layer-1, layer-2,…,layer-12)是由多个变换器(Transformer)组成,每个输入嵌入层的向量(例如E1)将会输入到一个对应的变换器中。每个相邻的两层的所有变换器之间都会连接(即向前或者向后连接,从而称之为双向)。通过这种方式连接组成12层网络。网络的最后一层layer-12中每个变换器的输出对应到输入嵌入层的每个向量中(例如O1)。
(4)从输出嵌入层的第一个向量O0输入开始,依次将输出向量输入到全连接层、sigmoid层,最终输出异常0、正常1标签。
对于上述模型的训练,训练数据是海量的历史医保报销数据。将数据以报销人进行整理,每个报销人有多次就诊的报销数据,每次报销包含当次就诊的多个收费项纪录以及报销时间,每个收费项目对应收费项目名称、收费项目类别、收费项目金额。
作为模型训练数据的医保报销数据带有医保控审核标签,标签分为两种,一种是正常报销,另一种是异常报销。模型训练有监督式的,即训练数据是带有标签的数据。将训练数据的特征(在本发明中指每个报销人的多次报销数据)输入到模型中,将训练数据的标签(在本发明中指异常0、正常1) 作为模型的目标。通过端到端的模型训练方式,应用梯度下降方法学习模型参数,训练得到异常识别模型。
相较于已有方法仅仅对单次就诊的收费项目报销的审核进行医保控费,本发明提出的异常识别模型能够对同一个报销人连续多次次就诊的收费项目报销自动分析进行医保控费。从而,本发明提出的异常识别模型能够识别到范围更广、更隐蔽的异常报销内容。
本发明预训练的异常识别模型是二分类模型,采用交叉熵损失函数,在海量的、带有正常或异常标签的历史医保报销数据上训练完成后,通过 sigmoid激活函数,将预训练的异常识别模型的输出值限制在0到1之间 (对应分类标签为0或者1);应用梯度下降的方式训练模型,模型收敛则完成训练得到最终的预训练的异常识别模型。在应用时,将报销人的多次就诊数据输入到预训练的异常识别模型中,根据预训练的异常识别模型的输出,即异常0、正常1,对报销数据自动进行审核,发现异常的报销数据,从而实现医保控费的目的。
针对医保控费这一主题,本发明应用先进的大数据分析技术以及深度学习网络技术,本发明提出的一种独特的模型结构,通过网络结构对海量的历史医保报销数据的学习,训练异常识别模型,建立基于多次就诊收费项的异常识别模型。不同于已有方法仅仅对单次医保报销的审核进行医保控费,本发明通过对每个医保报销人的多次连续就诊收费项的分析,对异常的医保报销行为进行自动识别,从而进行医保控费的目的。通过对模型找到的异常报销的核查,实现医保控费的目的,大大解放了人力,提高了医保控费效率。
本发明还提供一种基于人工智能技术的异常医保报销识别系统,如图3 所示,包括,
排序模块301,用于将每个报销人的多次医保报销数据按照时间顺序进行排序,得到就诊次序,并将所述就诊次序转化为就诊次序向量;
特征提取模块302,用于提取所述每个报销人的多次医保报销数据中的收费项目的识别维度特征,并将所述识别维度特征转化为识别维度特征向量,其中,所述收费项目的识别维度特征用于指示多次医保报销数据中的收费项目信息;
输入样本模块303,用于将识别维度特征向量分别与就诊次序向量进行一一对应,得到多组对应向量,将每组对应向量相加得到输入样本;
异常识别模块304,将所述输入样本输入至预训练的异常识别模型进行所述输入样本是否异常的预测,输出所述输入样本的异常或正常标签;其中,所述预训练的异常识别模型用于识别所述输入样本中多次就诊收费项的异常医保报销,且所述预训练的异常识别模型为端到端和有监督的模型。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本发明还提供一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上任一项所述的基于人工智能技术的异常医保报销识别方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的基于人工智能技术的异常医保报销识别方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (9)
1.基于人工智能技术的异常医保报销识别方法,其特征在于,包括,
将每个报销人的多次医保报销数据按照时间顺序进行排序,得到就诊次序,并将所述就诊次序转化为就诊次序向量;
提取所述每个报销人的多次医保报销数据中的收费项目的识别维度特征,并将所述识别维度特征转化为识别维度特征向量,其中,所述收费项目的识别维度特征用于指示多次医保报销数据中的收费项目信息;
通过随机初始化为就诊次序向量和识别维度特征向量,分别分配对应的分类标签向量;
将分配对应的分类标签向量后的识别维度特征向量分别与就诊次序向量进行一一对应,得到多组对应向量,将每组对应向量相加得到输入样本;
将所述输入样本输入至预训练的异常识别模型进行所述输入样本是否异常的预测,输出所述输入样本的异常或正常标签,用于指示医保报销是否异常;其中,所述预训练的异常识别模型用于识别所述输入样本中多次就诊收费项的异常医保报销,且所述预训练的异常识别模型为端到端和有监督的模型;所述预训练的异常识别模型,包括多层基于变换器的双向编码器网络,用于对输入样本中的向量进行识别。
2.根据权利要求1所述的基于人工智能技术的异常医保报销识别方法,其特征在于,所述提取所述每个报销人的多次医保报销数据中的收费项目的识别维度特征,包括,提取收费项目的名称、类别和花费中的至少一种作为识别维度特征。
3.根据权利要求2所述的基于人工智能技术的异常医保报销识别方法,其特征在于,所述将所述识别维度特征转化为识别维度特征向量,包括,
将名称和类别分别转化为名称向量和类别向量;
将花费进行区间段划分,每个划分的区间段对应转化为花费向量。
4.根据权利要求3所述的基于人工智能技术的异常医保报销识别方法,其特征在于,所述将识别维度特征向量分别与就诊次序向量进行一一对应,得到多组对应向量,包括,
将每次就诊中收费项目的类别向量和花费向量,分别与每次就诊收费项目的名称向量一一对应,结合对应的就诊次序向量形成每次就诊的多组对应向量。
5.根据权利要求1所述的基于人工智能技术的异常医保报销识别方法,其特征在于,所述预训练的异常识别模型,包括依次连接的,
多个嵌入层,用于就诊次序和识别维度特征的嵌入,所述嵌入层与就诊次序和识别维度特征一一对应设置;
一个输入嵌入层,用于输入样本的嵌入;
多层基于变换器的双向编码器网络;
一个输出嵌入层,用于输出向量的识别结果;
一个全连接层,用于将识别结果进行分类;
一个sigmoid层,用于将识别结果的分类进行激活,得到输入样本的异常或正常标签。
6.根据权利要求5所述的基于人工智能技术的异常医保报销识别方法,其特征在于,所述多层基于变换器的双向编码器网络,其中,
每层由多个变换器组成,每个相邻两层的所有变换器之间均会连接形成双向连接;
每个输入嵌入层的向量输入到一个对应的变换器中,最后一层中每个变换器的输出与输入嵌入层的每个向量对应。
7.基于人工智能技术的异常医保报销识别系统,其特征在于,包括,
排序模块,用于将每个报销人的多次医保报销数据按照时间顺序进行排序,得到就诊次序,并将所述就诊次序转化为就诊次序向量;
特征提取模块,用于提取所述每个报销人的多次医保报销数据中的收费项目的识别维度特征,并将所述识别维度特征转化为识别维度特征向量,其中,所述收费项目的识别维度特征用于指示多次医保报销数据中的收费项目信息;
输入样本模块,通过随机初始化为就诊次序向量和识别维度特征向量,分别分配对应的分类标签向量;用于将分配对应的分类标签向量后的识别维度特征向量分别与就诊次序向量进行一一对应,得到多组对应向量,将每组对应向量相加得到输入样本;
异常识别模块,用于将所述输入样本输入至预训练的异常识别模型进行所述输入样本是否异常的预测,输出所述输入样本的异常或正常标签;其中,所述预训练的异常识别模型用于识别所述输入样本中多次就诊收费项的异常医保报销,且所述预训练的异常识别模型为端到端和有监督的模型;所述预训练的异常识别模型,包括多层基于变换器的双向编码器网络,用于对输入样本中的向量进行识别。
8.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6中任一项所述的基于人工智能技术的异常医保报销识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于人工智能技术的异常医保报销识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098882.6A CN113869387B (zh) | 2021-09-18 | 2021-09-18 | 基于人工智能技术的异常医保报销识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098882.6A CN113869387B (zh) | 2021-09-18 | 2021-09-18 | 基于人工智能技术的异常医保报销识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113869387A CN113869387A (zh) | 2021-12-31 |
CN113869387B true CN113869387B (zh) | 2024-09-06 |
Family
ID=78992767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111098882.6A Active CN113869387B (zh) | 2021-09-18 | 2021-09-18 | 基于人工智能技术的异常医保报销识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113869387B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636421A (zh) * | 2018-12-13 | 2019-04-16 | 平安医疗健康管理股份有限公司 | 基于机器学习的就诊数据异常识别方法、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012001920A1 (ja) * | 2010-06-28 | 2012-01-05 | 日本電気株式会社 | 医療情報からの異常イベント抽出装置、方法及びプログラム |
CN109934719A (zh) * | 2017-12-18 | 2019-06-25 | 北京亚信数据有限公司 | 医保违规行为的检测方法及检测装置、医保控费系统 |
CN109118376A (zh) * | 2018-08-14 | 2019-01-01 | 平安医疗健康管理股份有限公司 | 医疗保险保费定价方法、装置、计算机设备和存储介质 |
CN109544376A (zh) * | 2018-10-30 | 2019-03-29 | 平安医疗健康管理股份有限公司 | 一种基于数据分析的异常病例识别方法及计算设备 |
CN109670971A (zh) * | 2018-11-30 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 异常就诊费用的判断方法、装置、设备及计算机存储介质 |
CN109659035A (zh) * | 2018-12-13 | 2019-04-19 | 平安医疗健康管理股份有限公司 | 基于机器学习的就诊数据异常识别方法、设备及存储介质 |
CN109685671A (zh) * | 2018-12-13 | 2019-04-26 | 平安医疗健康管理股份有限公司 | 基于机器学习的就诊数据异常识别方法、设备及存储介质 |
CN111145910A (zh) * | 2019-12-12 | 2020-05-12 | 平安医疗健康管理股份有限公司 | 基于人工智能的异常案例识别方法、装置、计算机设备 |
-
2021
- 2021-09-18 CN CN202111098882.6A patent/CN113869387B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636421A (zh) * | 2018-12-13 | 2019-04-16 | 平安医疗健康管理股份有限公司 | 基于机器学习的就诊数据异常识别方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113869387A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022095682A1 (zh) | 文本分类模型的训练方法、文本分类方法、装置、设备、存储介质及计算机程序产品 | |
KR102113218B1 (ko) | 시계열 데이터의 분석 및 예측을 위한 통합적인 딥러닝 시스템 | |
US11645548B1 (en) | Automated cloud data and technology solution delivery using machine learning and artificial intelligence modeling | |
CN112084327A (zh) | 在保留语义的同时对稀疏标注的文本文档的分类 | |
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN112015896A (zh) | 基于人工智能的情感分类方法、以及装置 | |
CN114757183B (zh) | 一种基于对比对齐网络的跨领域情感分类方法 | |
CN114817564B (zh) | 一种属性抽取方法、装置及存储介质 | |
CN113705191A (zh) | 样本语句的生成方法、装置、设备及存储介质 | |
US11646015B1 (en) | Providing an automated summary | |
CN114428860A (zh) | 院前急救病例文本的识别方法、装置、终端及存储介质 | |
CN112329735B (zh) | 人脸识别模型的训练方法及在线教育系统 | |
CN112216379A (zh) | 一种基于智能联合学习的疾病诊断系统 | |
Zaghir et al. | Real-world patient trajectory prediction from clinical notes using artificial neural networks and UMLS-based extraction of concepts | |
US11501071B2 (en) | Word and image relationships in combined vector space | |
CN113869387B (zh) | 基于人工智能技术的异常医保报销识别方法及系统 | |
CN117312562A (zh) | 内容审核模型的训练方法、装置、设备及存储介质 | |
CN116776744A (zh) | 一种基于增强现实的装备制造控制方法及电子设备 | |
CN112434889A (zh) | 一种专家行业分析方法、装置、设备及存储介质 | |
US20230401479A1 (en) | Multimodal data inference | |
CN115544210A (zh) | 基于持续学习的事件抽取的模型训练、事件抽取的方法 | |
CN114492386A (zh) | 网络文本中药物名称及药物不良反应的联合检测方法 | |
CN113821498A (zh) | 数据的筛选方法、装置、设备及介质 | |
CN113705692A (zh) | 基于人工智能的情感分类方法、装置、电子设备及介质 | |
Aggarwal et al. | Chatbot to map medical prognosis and symptoms using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |