CN111783871A - 基于有监督学习模型的异常数据识别方法及相关设备 - Google Patents

基于有监督学习模型的异常数据识别方法及相关设备 Download PDF

Info

Publication number
CN111783871A
CN111783871A CN202010606953.8A CN202010606953A CN111783871A CN 111783871 A CN111783871 A CN 111783871A CN 202010606953 A CN202010606953 A CN 202010606953A CN 111783871 A CN111783871 A CN 111783871A
Authority
CN
China
Prior art keywords
data
abnormal
model
identification
supervised learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010606953.8A
Other languages
English (en)
Inventor
刘婧媛
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Medical Health Technology Service Co Ltd
Original Assignee
Ping An Medical and Healthcare Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Medical and Healthcare Management Co Ltd filed Critical Ping An Medical and Healthcare Management Co Ltd
Priority to CN202010606953.8A priority Critical patent/CN111783871A/zh
Publication of CN111783871A publication Critical patent/CN111783871A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种基于有监督学习模型的异常数据识别方法,包括:接收携带有数据标识的就诊单据数据;对就诊单据数据进行特征处理,获得特征数据;将特征数据输入至有监督学习的组合分类器模型中,获得就诊单据数据的二次异常识别结果;判断二次异常识别结果与数据标识所标识的异常状态是否保持一致;若一致,确定二次异常识别结果为就诊单据数据的精准识别结果。本发明还涉及区块链技术,可以将就诊单据数据的精准识别结果上传至区块链。本发明可应用于智慧医疗场景中,从而推动智慧城市的建设。

Description

基于有监督学习模型的异常数据识别方法及相关设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于有监督学习模型的异常数据识别方法及相关设备。
背景技术
随着社会医疗保障制度的不断完善,人们的看病就医问题得到了解决。实践中发现,有些非法用户会捏造医疗数据去报销医疗费用,如果这些非法用户报销的医疗费用数额很大,将会导致没有足够的资金来保障合法用户的医疗报销,这无疑会影响合法用户的合法权益。因此,需要去对医学数据进行异常风险识别。
然而,传统的无监督学习模型存在诸多问题,比如,输出结果过多假阳性率高、过度依赖医学规则经验复用性差,这使得对异常风险的识别能力较弱。
发明内容
鉴于以上内容,有必要提供一种基于有监督学习模型的异常数据识别方法及相关设备,能够提高对异常风险的识别能力。
本发明的第一方面提供一种基于有监督学习模型的异常数据识别方法,其特征在于,所述基于有监督学习模型的异常数据识别方法包括:
接收携带有数据标识的就诊单据数据,其中,所述数据标识用于标识所述就诊单据数据的异常状态,所述异常状态包括正常或异常;
对所述就诊单据数据进行特征处理,获得特征数据;
将所述特征数据输入至有监督学习的组合分类器模型中,获得所述就诊单据数据的二次异常识别结果,其中,所述组合分类器模型是基于多个基分类器的有监督学习训练得到的;
判断所述二次异常识别结果与所述数据标识所标识的异常状态是否保持一致;
若所述二次异常识别结果与所述数据标识所标识的异常状态保持一致,确定所述二次异常识别结果为所述就诊单据数据的精准识别结果。
在一种可能的实现方式中,所述就诊单据数据为源数据或模型结果数据;若所述就诊单据数据为源数据,则所述数据标识是预先标注的;若所述就诊单据数据为模型结果数据,则所述数据标识是经其他模型进行初次识别后获得的。
在一种可能的实现方式中,所述基于有监督学习模型的异常数据识别方法还包括:
若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为模型结果数据,向医学设备发送携带有所述就诊单据数据的校验请求,所述校验请求用于请求所述医学设备所属的医学用户对所述就诊单据数据进行异常校验;
接收所述医学设备针对所述校验请求返回的校验结果;
将所述校验结果确定为所述就诊单据数据的精准识别结果。
在一种可能的实现方式中,所述基于有监督学习模型的异常数据识别方法还包括:
若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为模型结果数据,获取所述模型结果数据所对应的初始模型;
对所述初始模型与所述组合分类器模型进行再次训练,获得最优模型;
使用所述最优模型对所述就诊单据数据进行识别,获得所述就诊单据数据的精准识别结果。
在一种可能的实现方式中,所述基于有监督学习模型的异常数据识别方法还包括:
若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为源数据,将所述数据标识所标识的异常状态确定为所述就诊单据数据的精准识别结果。
在一种可能的实现方式中,所述基于有监督学习模型的异常数据识别方法还包括:
获取训练集;
使用所述训练集,对基于K近邻的第一分类器进行有监督训练,获得第一最优参数;
使用所述训练集,对基于随机森林的第二分类器进行有监督训练,获得第二最优参数;
使用所述训练集,对基于XGBoost的第三分类器进行有监督训练,获得第三最优参数;
使用所述训练集,对基于LightGBM的第四分类器进行有监督训练,获得第四最优参数;
将含有所述第一最优参数的第一分类器、所述第二最优参数的第二分类器、所述第三最优参数的第三分类器以及所述第四最优参数的第四分类器进行组合,获得组合分类器模型。
在一种可能的实现方式中,所述将所述特征数据输入至有监督学习的组合分类器模型中,获得所述就诊单据数据的二次异常识别结果包括:
将所述特征数据输入至有监督学习的组合分类器模型中;
通过所述组合分类器模型中的每个基分类器对所述特征数据进行预测,获得多个预测结果;
对所述多个预测结果进行逻辑回归,生成新的预测结果;
将所述新的预测结果确定为所述就诊单据数据的二次异常识别结果。
本发明的第二方面提供一种异常数据装置,其特征在于,所述异常数据装置包括:
接收模块,用于接收携带有数据标识的就诊单据数据,其中,所述数据标识用于标识所述就诊单据数据的异常状态,所述异常状态包括正常或异常;
处理模块,用于对所述就诊单据数据进行特征处理,获得特征数据;
输入模块,用于将所述特征数据输入至有监督学习的组合分类器模型中,获得所述就诊单据数据的二次异常识别结果,其中,所述组合分类器模型是基于多个基分类器的有监督学习训练得到的;
判断模块,用于判断所述二次异常识别结果与所述数据标识所标识的异常状态是否保持一致;
确定模块,用于若所述二次异常识别结果与所述数据标识所标识的异常状态保持一致,确定所述二次异常识别结果为所述就诊单据数据的精准识别结果。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于有监督学习模型的异常数据识别方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于有监督学习模型的异常数据识别方法。
在上述技术方案中,采用基于多个基分类器的有监督学习训练得到的组合分类器模型,对接收到的携带有数据标识的就诊单据数据进行二次识别,获得二次异常识别结果,可以提高对医学数据的异常识别能力,提高识别的准确度。
附图说明
图1是本发明公开的一种基于有监督学习模型的异常数据识别方法的较佳实施例的流程图。
图2是本发明公开的一种异常数据识别装置的较佳实施例的功能模块图。
图3是本发明实现基于有监督学习模型的异常数据识别方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA等。
请参见图1,图1是本发明公开的一种基于有监督学习模型的异常数据识别方法的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、接收携带有数据标识的就诊单据数据,其中,所述数据标识用于标识所述就诊单据数据的异常状态,所述异常状态包括正常或异常。
其中,所述数据标识所标识的所述就诊单据数据的异常状态属于所述就诊单据数据的初次异常识别结果。
可选的,所述就诊单据数据为源数据或模型结果数据,若所述就诊单据数据为源数据,则所述数据标识是预先标注的;若所述就诊单据数据为模型结果数据,则所述数据标识是经其他模型进行初次识别后获得的。
其中,源数据可以为医保结算数据,包括但不限于参保人信息表(身份id,年龄,性别,险种类别,参保单位)、医疗机构信息表(机构编码,机构名称,机构级别),就诊信息表(就诊单据号,诊断,医疗类型,出入院时间),结算信息表(单据总费用、基本统筹支出、补助),项目明细表(项目编码、项目类别、项目单价、项目数量)。
其中,模型结果数据可以为初始模型输出的结果数据,包括但不限于就诊记录、异常标识、异常类型(如药品、检查、患者、医生、医疗机构)等。
S12、对所述就诊单据数据进行特征处理,获得特征数据。
具体的,所述对所述就诊单据数据进行特征处理,获得特征数据包括:
对所述就诊单据数据中的缺失值或异常值进行处理;
采用预设的特征选择方法,从处理后的就诊单据数据中筛选出特征数据。
其中,所述预设的特征选择方法可以包括但不限于过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)三种特征选择方法。
其中,过滤式特征选择的评价标准从数据集本身的内在性质获得,与特定的学习算法无关,因此具有较好的通用性。该算法复杂性低,适用于大规模医保结算数据集。包裹式方法训练一个分类器,我们选择了决策树,根据性能对该特征子集进行评价。相对于Filter方法,Wrapper方法找到的特征子集分类性能通常更好。嵌入式特征选择在学习器训练过程中自动地进行特征选择,效果好速度快,模式单调,快速并且效果明显。
S13、将所述特征数据输入至有监督学习的组合分类器模型中,获得所述就诊单据数据的二次异常识别结果,其中,所述组合分类器模型是基于多个基分类器的有监督学习训练得到的。
具体的,所述将所述特征数据输入至有监督学习的组合分类器模型中,获得所述就诊单据数据的二次异常识别结果包括:
将所述特征数据输入至有监督学习的组合分类器模型中;
通过所述组合分类器模型中的每个基分类器对所述特征数据进行预测,获得多个预测结果;
对所述多个预测结果进行逻辑回归,生成新的预测结果;
将所述新的预测结果确定为所述就诊单据数据的二次异常识别结果。
可选的,所述方法还包括:
获取训练集;
使用所述训练集,对基于K近邻的第一分类器进行有监督训练,获得第一最优参数;
使用所述训练集,对基于随机森林的第二分类器进行有监督训练,获得第二最优参数;
使用所述训练集,对基于XGBoost的第三分类器进行有监督训练,获得第三最优参数;
使用所述训练集,对基于LightGBM的第四分类器进行有监督训练,获得第四最优参数;
将含有所述第一最优参数的第一分类器、所述第二最优参数的第二分类器、所述第三最优参数的第三分类器以及所述第四最优参数的第四分类器进行组合,获得组合分类器模型。
其中,基分类器为K近邻、随机森林、XGBoost及LightGBM。K近邻:对异常数据不敏感,在模型集成中能增强鲁棒性。随机森林:准确度高,可以处理大量的输入变数。可有效处理缺失数据,对医保数据中较多字段有较多空值的实际情况。对不平衡的样本数据支持较好,适合拒付正样本和负样本数量较为不平衡的情况。XGBoost:由于医疗数据的敏感性和庞大的数据量,因此数据收集过程中,经常存在缺失值,而xgboost则为处理稀疏数据提供了一个新颖的树学习算法。LightGBM:随着医疗政策的越来越规范和政府对医疗的越来越重视,医疗数据量将与日俱增,传统的数据科学算法运行的速度有点跟不上节奏,而LightGBM的高速度并支持GPU学习等优点,使得此算法的推行和应用。
其中,利用多种算法分别训练多个分类器,在将训练得到的多个分类器进行组合,获得的组合分类器模型可以综合多个分类器的优势,并避免单独的任一个分类器的缺陷,这样,后续在使用组合分类器模型对就诊单据数据进行识别时,可以提高识别的精度和准确度。
S14、判断所述二次异常识别结果与所述数据标识所标识的异常状态是否保持一致。
S15、若所述二次异常识别结果与所述数据标识所标识的异常状态保持一致,确定所述二次异常识别结果为所述就诊单据数据的精准识别结果。
其中,所述二次异常识别结果与所述数据标识所标识的异常状态保持一致包括两种情况:一,所述二次异常识别结果和所述数据标识均表明所述就诊单据数据为异常数据;二,所述二次异常识别结果和所述数据标识均表明所述就诊单据数据为正常数据。
所述方法还包括:
若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为模型结果数据,向医学设备发送携带有所述就诊单据数据的校验请求,所述校验请求用于请求所述医学设备所属的医学用户对所述就诊单据数据进行异常校验;
接收所述医学设备针对所述校验请求返回的校验结果;
将所述校验结果确定为所述就诊单据数据的精准识别结果。
其中,所述二次异常识别结果与所述数据标识所标识的异常状态不一致包括两种情况:一,所述二次异常识别结果表明所述就诊单据数据为异常数据但所述数据标识却标识所述就诊单据数据为正常数据;二,所述二次异常识别结果表明所述就诊单据数据为正常数据但所述数据标识却标识所述就诊单据数据为异常数据。
其中,医学用户属于比较专业的人员,可以用专业知识来评判就诊单据数据是否为异常数据。因此,当两次模型的输出结果不一致时,可以求助与医学用户来获取精准识别结果。
所述方法还包括:
若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为模型结果数据,获取所述模型结果数据所对应的初始模型;
对所述初始模型与所述组合分类器模型进行再次训练,获得最优模型;
使用所述最优模型对所述就诊单据数据进行识别,获得所述就诊单据数据的精准识别结果。
其中,当两次模型的输出结果不一致时,表明初始模型以及所述组合分类器模型可能均存在缺陷,需要进一步优化,可以对所述初始模型与所述组合分类器模型进行再次训练,获得最优模型;该最优模型相对于所述初始模型与所述组合分类器模型来说,预测结果会更精准。因此,可以使用所述最优模型对所述就诊单据数据进行识别,获得所述就诊单据数据的精准识别结果。
所述方法还包括:
若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为源数据,将所述数据标识所标识的异常状态确定为所述就诊单据数据的精准识别结果。
其中,由于源数据的数据标识通常是人工标注的,而且人工标注的数据标识通常是由医学专业人员标识的,具有权威性,人工标注的数据标识较模型的输出结果而言,准确度更高,因此,当所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为源数据时,需要将所述数据标识所标识的异常状态确定为所述就诊单据数据的精准识别结果。
可选的,所述方法还包括:
将所述就诊单据数据的精准识别结果上传至区块链。
其中,为了确保数据的私密性和安全性,可以将所述就诊单据数据的精准识别结果上传至区块链进行保存。
在图1所描述的方法流程中,采用基于多个基分类器的有监督学习训练得到的组合分类器模型,对接收到的携带有数据标识的就诊单据数据进行二次识别,获得二次异常识别结果,可以提高对医学数据的异常识别能力,提高识别的准确度。
以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
请参见图2,图2是本发明公开的一种异常数据识别装置的较佳实施例的功能模块图。
在一些实施例中,所述异常数据识别装置运行于电子设备中。所述异常数据识别装置可以包括多个由程序代码段所组成的功能模块。所述异常数据识别装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的基于有监督学习模型的异常数据识别方法中的部分或全部步骤。
本实施例中,所述异常数据识别装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:接收模块201、处理模块202、输入模块203、判断模块204及确定模块205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在一些实施例中,关于各模块的功能将在本实施例中详述。
接收模块201,用于接收携带有数据标识的就诊单据数据,其中,所述数据标识用于标识所述就诊单据数据的异常状态,所述异常状态包括正常或异常。
其中,所述数据标识所标识的所述就诊单据数据的异常状态属于所述就诊单据数据的初次异常识别结果。
可选的,所述就诊单据数据为源数据或模型结果数据,若所述就诊单据数据为源数据,则所述数据标识是预先标注的;若所述就诊单据数据为模型结果数据,则所述数据标识是经其他模型进行初次识别后获得的。
其中,源数据可以为医保结算数据,包括但不限于参保人信息表(身份id,年龄,性别,险种类别,参保单位)、医疗机构信息表(机构编码,机构名称,机构级别),就诊信息表(就诊单据号,诊断,医疗类型,出入院时间),结算信息表(单据总费用、基本统筹支出、补助),项目明细表(项目编码、项目类别、项目单价、项目数量)。
其中,模型结果数据可以为初始模型输出的结果数据,包括但不限于就诊记录、异常标识、异常类型(如药品、检查、患者、医生、医疗机构)等。
处理模块202,用于对所述就诊单据数据进行特征处理,获得特征数据。
具体的,所述对所述就诊单据数据进行特征处理,获得特征数据包括:
对所述就诊单据数据中的缺失值或异常值进行处理;
采用预设的特征选择方法,从处理后的就诊单据数据中筛选出特征数据。
其中,所述预设的特征选择方法可以包括但不限于过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)三种特征选择方法。
其中,过滤式特征选择的评价标准从数据集本身的内在性质获得,与特定的学习算法无关,因此具有较好的通用性。该算法复杂性低,适用于大规模医保结算数据集。包裹式方法训练一个分类器,我们选择了决策树,根据性能对该特征子集进行评价。相对于Filter方法,Wrapper方法找到的特征子集分类性能通常更好。嵌入式特征选择在学习器训练过程中自动地进行特征选择,效果好速度快,模式单调,快速并且效果明显。
输入模块203,用于将所述特征数据输入至有监督学习的组合分类器模型中,获得所述就诊单据数据的二次异常识别结果,其中,所述组合分类器模型是基于多个基分类器的有监督学习训练得到的。
具体的,所述将所述特征数据输入至有监督学习的组合分类器模型中,获得所述就诊单据数据的二次异常识别结果包括:
将所述特征数据输入至有监督学习的组合分类器模型中;
通过所述组合分类器模型中的每个基分类器对所述特征数据进行预测,获得多个预测结果;
对所述多个预测结果进行逻辑回归,生成新的预测结果;
将所述新的预测结果确定为所述就诊单据数据的二次异常识别结果。
可选的,所述数据异常识别装置还包括:
获取模块,用于获取训练集;
训练模块,用于使用所述训练集,对基于K近邻的第一分类器进行有监督训练,获得第一最优参数;
所述训练模块,还用于使用所述训练集,对基于随机森林的第二分类器进行有监督训练,获得第二最优参数;
所述训练模块,还用于使用所述训练集,对基于XGBoost的第三分类器进行有监督训练,获得第三最优参数;
所述训练模块,还用于使用所述训练集,对基于LightGBM的第四分类器进行有监督训练,获得第四最优参数;
组合模块,用于将含有所述第一最优参数的第一分类器、所述第二最优参数的第二分类器、所述第三最优参数的第三分类器以及所述第四最优参数的第四分类器进行组合,获得组合分类器模型。
其中,基分类器为K近邻、随机森林、XGBoost及LightGBM。K近邻:对异常数据不敏感,在模型集成中能增强鲁棒性。随机森林:准确度高,可以处理大量的输入变数。可有效处理缺失数据,对医保数据中较多字段有较多空值的实际情况。对不平衡的样本数据支持较好,适合拒付正样本和负样本数量较为不平衡的情况。XGBoost:由于医疗数据的敏感性和庞大的数据量,因此数据收集过程中,经常存在缺失值,而xgboost则为处理稀疏数据提供了一个新颖的树学习算法。LightGBM:随着医疗政策的越来越规范和政府对医疗的越来越重视,医疗数据量将与日俱增,传统的数据科学算法运行的速度有点跟不上节奏,而LightGBM的高速度并支持GPU学习等优点,使得此算法的推行和应用。
判断模块204,用于判断所述二次异常识别结果与所述数据标识所标识的异常状态是否保持一致.
确定模块205,用于若所述二次异常识别结果与所述数据标识所标识的异常状态保持一致,确定所述二次异常识别结果为所述就诊单据数据的精准识别结果。
其中,所述二次异常识别结果与所述数据标识所标识的异常状态保持一致包括两种情况:一,所述二次异常识别结果和所述数据标识均表明所述就诊单据数据为异常数据;二,所述二次异常识别结果和所述数据标识均表明所述就诊单据数据为正常数据。
可选的,所述数据异常识别模块还包括:
发送模块,用于若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为模型结果数据,向医学设备发送携带有所述就诊单据数据的校验请求,所述校验请求用于请求所述医学设备所属的医学用户对所述就诊单据数据进行异常校验;
所述接收模块201,还用于接收所述医学设备针对所述校验请求返回的校验结果;
所述确定模块205,还用于将所述校验结果确定为所述就诊单据数据的精准识别结果。
其中,所述二次异常识别结果与所述数据标识所标识的异常状态不一致包括两种情况:一,所述二次异常识别结果表明所述就诊单据数据为异常数据但所述数据标识却标识所述就诊单据数据为正常数据;二,所述二次异常识别结果表明所述就诊单据数据为正常数据但所述数据标识却标识所述就诊单据数据为异常数据。
其中,医学用户属于比较专业的人员,可以用专业知识来评判就诊单据数据是否为异常数据。因此,当两次模型的输出结果不一致时,可以求助与医学用户来获取精准识别结果。
可选的,所述获取模块,还用于若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为模型结果数据,获取所述模型结果数据所对应的初始模型;
所述训练模块,还用于对所述初始模型与所述组合分类器模型进行再次训练,获得最优模型;
识别模块,用于使用所述最优模型对所述就诊单据数据进行识别,获得所述就诊单据数据的精准识别结果。
其中,当两次模型的输出结果不一致时,表明初始模型以及所述组合分类器模型可能均存在缺陷,需要进一步优化,可以对所述初始模型与所述组合分类器模型进行再次训练,获得最优模型;该最优模型相对于所述初始模型与所述组合分类器模型来说,预测结果会更精准。因此,可以使用所述最优模型对所述就诊单据数据进行识别,获得所述就诊单据数据的精准识别结果。
可选的,所述确定模块205,还用于若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为源数据,将所述数据标识所标识的异常状态确定为所述就诊单据数据的精准识别结果。
其中,由于源数据的数据标识通常是人工标注的,而且人工标注的数据标识通常是由医学专业人员标识的,具有权威性,人工标注的数据标识较模型的输出结果而言,准确度更高,因此,当所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为源数据时,需要将所述数据标识所标识的异常状态确定为所述就诊单据数据的精准识别结果。
可选的,所述发送模块,还用于将所述就诊单据数据的精准识别结果上传至区块链。
其中,为了确保数据的私密性和安全性,可以将所述就诊单据数据的精准识别结果上传至区块链进行保存。
在图2所描述的数据异常识别装置中,采用基于多个基分类器的有监督学习训练得到的组合分类器模型,对接收到的携带有数据标识的就诊单据数据进行二次识别,获得二次异常识别结果,可以提高对医学数据的异常识别能力,提高识别的准确度。
如图3所示,图3是本发明实现基于有监督学习模型的异常数据识别方法的较佳实施例的电子设备的结构示意图。所述电子设备3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。
本领域技术人员可以理解,图3所示的示意图仅仅是所述电子设备3的示例,并不构成对所述电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据)等。此外,存储器31可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
结合图1,所述电子设备3中的所述存储器31存储多个指令以实现一种基于有监督学习模型的异常数据识别方法,所述处理器32可执行所述多个指令从而实现:
接收携带有数据标识的就诊单据数据,其中,所述数据标识用于标识所述就诊单据数据的异常状态,所述异常状态包括正常或异常;
对所述就诊单据数据进行特征处理,获得特征数据;
将所述特征数据输入至有监督学习的组合分类器模型中,获得所述就诊单据数据的二次异常识别结果,其中,所述组合分类器模型是基于多个基分类器的有监督学习训练得到的;
判断所述二次异常识别结果与所述数据标识所标识的异常状态是否保持一致;
若所述二次异常识别结果与所述数据标识所标识的异常状态保持一致,确定所述二次异常识别结果为所述就诊单据数据的精准识别结果。
在一种可选的实施方式中,所述就诊单据数据为源数据或模型结果数据;若所述就诊单据数据为源数据,则所述数据标识是预先标注的;若所述就诊单据数据为模型结果数据,则所述数据标识是经其他模型进行初次识别后获得的。
在一种可选的实施方式中,所述处理器32可执行所述多个指令从而实现:
若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为模型结果数据,向医学设备发送携带有所述就诊单据数据的校验请求,所述校验请求用于请求所述医学设备所属的医学用户对所述就诊单据数据进行异常校验;
接收所述医学设备针对所述校验请求返回的校验结果;
将所述校验结果确定为所述就诊单据数据的精准识别结果。
在一种可选的实施方式中,所述处理器32可执行所述多个指令从而实现:
若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为模型结果数据,获取所述模型结果数据所对应的初始模型;
对所述初始模型与所述组合分类器模型进行再次训练,获得最优模型;
使用所述最优模型对所述就诊单据数据进行识别,获得所述就诊单据数据的精准识别结果。
在一种可选的实施方式中,所述处理器32可执行所述多个指令从而实现:
若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为源数据,将所述数据标识所标识的异常状态确定为所述就诊单据数据的精准识别结果。
在一种可选的实施方式中,所述处理器32可执行所述多个指令从而实现:
获取训练集;
使用所述训练集,对基于K近邻的第一分类器进行有监督训练,获得第一最优参数;
使用所述训练集,对基于随机森林的第二分类器进行有监督训练,获得第二最优参数;
使用所述训练集,对基于XGBoost的第三分类器进行有监督训练,获得第三最优参数;
使用所述训练集,对基于LightGBM的第四分类器进行有监督训练,获得第四最优参数;
将含有所述第一最优参数的第一分类器、所述第二最优参数的第二分类器、所述第三最优参数的第三分类器以及所述第四最优参数的第四分类器进行组合,获得组合分类器模型。
在一种可选的实施方式中,所述将所述特征数据输入至有监督学习的组合分类器模型中,获得所述就诊单据数据的二次异常识别结果包括:
将所述特征数据输入至有监督学习的组合分类器模型中;
通过所述组合分类器模型中的每个基分类器对所述特征数据进行预测,获得多个预测结果;
对所述多个预测结果进行逻辑回归,生成新的预测结果;
将所述新的预测结果确定为所述就诊单据数据的二次异常识别结果。
具体地,所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图3所描述的电子设备3中,采用基于多个基分类器的有监督学习训练得到的组合分类器模型,对接收到的携带有数据标识的就诊单据数据进行二次识别,获得二次异常识别结果,可以提高对医学数据的异常识别能力,提高识别的准确度。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器以及只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。系统权利要求中陈述的多个单元或装置也可以通过软件或者硬件来实现。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于有监督学习模型的异常数据识别方法,其特征在于,所述基于有监督学习模型的异常数据识别方法包括:
接收携带有数据标识的就诊单据数据,其中,所述数据标识用于标识所述就诊单据数据的异常状态,所述异常状态包括正常或异常;
对所述就诊单据数据进行特征处理,获得特征数据;
将所述特征数据输入至有监督学习的组合分类器模型中,获得所述就诊单据数据的二次异常识别结果,其中,所述组合分类器模型是基于多个基分类器的有监督学习训练得到的;
判断所述二次异常识别结果与所述数据标识所标识的异常状态是否保持一致;
若所述二次异常识别结果与所述数据标识所标识的异常状态保持一致,确定所述二次异常识别结果为所述就诊单据数据的精准识别结果。
2.根据权利要求1所述的基于有监督学习模型的异常数据识别方法,其特征在于,所述就诊单据数据为源数据或模型结果数据;若所述就诊单据数据为源数据,则所述数据标识是预先标注的;若所述就诊单据数据为模型结果数据,则所述数据标识是经其他模型进行初次识别后获得的。
3.根据权利要求2所述的基于有监督学习模型的异常数据识别方法,其特征在于,所述基于有监督学习模型的异常数据识别方法还包括:
若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为模型结果数据,向医学设备发送携带有所述就诊单据数据的校验请求,所述校验请求用于请求所述医学设备所属的医学用户对所述就诊单据数据进行异常校验;
接收所述医学设备针对所述校验请求返回的校验结果;
将所述校验结果确定为所述就诊单据数据的精准识别结果。
4.根据权利要求2所述的基于有监督学习模型的异常数据识别方法,其特征在于,所述基于有监督学习模型的异常数据识别方法还包括:
若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为模型结果数据,获取所述模型结果数据所对应的初始模型;
对所述初始模型与所述组合分类器模型进行再次训练,获得最优模型;
使用所述最优模型对所述就诊单据数据进行识别,获得所述就诊单据数据的精准识别结果。
5.根据权利要求2所述的基于有监督学习模型的异常数据识别方法,其特征在于,所述基于有监督学习模型的异常数据识别方法还包括:
若所述二次异常识别结果与所述数据标识所标识的异常状态不一致,且所述就诊单据数据为源数据,将所述数据标识所标识的异常状态确定为所述就诊单据数据的精准识别结果。
6.根据权利要求1至5中任一项所述的基于有监督学习模型的异常数据识别方法,其特征在于,所述基于有监督学习模型的异常数据识别方法还包括:
获取训练集;
使用所述训练集,对基于K近邻的第一分类器进行有监督训练,获得第一最优参数;
使用所述训练集,对基于随机森林的第二分类器进行有监督训练,获得第二最优参数;
使用所述训练集,对基于XGBoost的第三分类器进行有监督训练,获得第三最优参数;
使用所述训练集,对基于LightGBM的第四分类器进行有监督训练,获得第四最优参数;
将含有所述第一最优参数的第一分类器、所述第二最优参数的第二分类器、所述第三最优参数的第三分类器以及所述第四最优参数的第四分类器进行组合,获得组合分类器模型。
7.根据权利要求1所述的基于有监督学习模型的异常数据识别方法,其特征在于,所述将所述特征数据输入至有监督学习的组合分类器模型中,获得所述就诊单据数据的二次异常识别结果包括:
将所述特征数据输入至有监督学习的组合分类器模型中;
通过所述组合分类器模型中的每个基分类器对所述特征数据进行预测,获得多个预测结果;
对所述多个预测结果进行逻辑回归,生成新的预测结果;
将所述新的预测结果确定为所述就诊单据数据的二次异常识别结果。
8.一种异常数据识别装置,其特征在于,所述异常数据识别装置包括:
接收模块,用于接收携带有数据标识的就诊单据数据,其中,所述数据标识用于标识所述就诊单据数据的异常状态,所述异常状态包括正常或异常;
处理模块,用于对所述就诊单据数据进行特征处理,获得特征数据;
输入模块,用于将所述特征数据输入至有监督学习的组合分类器模型中,获得所述就诊单据数据的二次异常识别结果,其中,所述组合分类器模型是基于多个基分类器的有监督学习训练得到的;
判断模块,用于判断所述二次异常识别结果与所述数据标识所标识的异常状态是否保持一致;
确定模块,用于若所述二次异常识别结果与所述数据标识所标识的异常状态保持一致,确定所述二次异常识别结果为所述就诊单据数据的精准识别结果。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的基于有监督学习模型的异常数据识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7任意一项所述的基于有监督学习模型的异常数据识别方法。
CN202010606953.8A 2020-06-29 2020-06-29 基于有监督学习模型的异常数据识别方法及相关设备 Pending CN111783871A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010606953.8A CN111783871A (zh) 2020-06-29 2020-06-29 基于有监督学习模型的异常数据识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010606953.8A CN111783871A (zh) 2020-06-29 2020-06-29 基于有监督学习模型的异常数据识别方法及相关设备

Publications (1)

Publication Number Publication Date
CN111783871A true CN111783871A (zh) 2020-10-16

Family

ID=72759862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010606953.8A Pending CN111783871A (zh) 2020-06-29 2020-06-29 基于有监督学习模型的异常数据识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN111783871A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284614A (zh) * 2021-06-07 2021-08-20 平安国际智慧城市科技股份有限公司 异常就诊的识别方法、装置、电子设备及存储介质
CN114612887A (zh) * 2021-09-01 2022-06-10 腾讯科技(深圳)有限公司 单据异常检测方法、装置、设备及计算机可读存储介质
CN114880462A (zh) * 2022-02-25 2022-08-09 北京百度网讯科技有限公司 医用文档的分析方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9753968B1 (en) * 2016-03-06 2017-09-05 SparkBeyond Ltd. Systems and methods for detection of anomalous entities
CN109615012A (zh) * 2018-12-13 2019-04-12 平安医疗健康管理股份有限公司 基于机器学习的就诊数据异常识别方法、设备及存储介质
CN209460787U (zh) * 2019-04-17 2019-10-01 上海智臻智能网络科技股份有限公司 一种人工智能识别设备
CN111199343A (zh) * 2019-12-24 2020-05-26 上海大学 一种多模型融合的烟草市场监管异常数据挖掘方法
CN111340638A (zh) * 2020-03-23 2020-06-26 平安医疗健康管理股份有限公司 异常医保单据识别方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9753968B1 (en) * 2016-03-06 2017-09-05 SparkBeyond Ltd. Systems and methods for detection of anomalous entities
CN109615012A (zh) * 2018-12-13 2019-04-12 平安医疗健康管理股份有限公司 基于机器学习的就诊数据异常识别方法、设备及存储介质
CN209460787U (zh) * 2019-04-17 2019-10-01 上海智臻智能网络科技股份有限公司 一种人工智能识别设备
CN111199343A (zh) * 2019-12-24 2020-05-26 上海大学 一种多模型融合的烟草市场监管异常数据挖掘方法
CN111340638A (zh) * 2020-03-23 2020-06-26 平安医疗健康管理股份有限公司 异常医保单据识别方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
程军圣, 湖南大学出版社 *
赵玮: "《应用机器学习方法度量在线品牌忠诚度模型构建研究》", 31 January 2017 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284614A (zh) * 2021-06-07 2021-08-20 平安国际智慧城市科技股份有限公司 异常就诊的识别方法、装置、电子设备及存储介质
CN114612887A (zh) * 2021-09-01 2022-06-10 腾讯科技(深圳)有限公司 单据异常检测方法、装置、设备及计算机可读存储介质
CN114880462A (zh) * 2022-02-25 2022-08-09 北京百度网讯科技有限公司 医用文档的分析方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
US20200356615A1 (en) Method for determining news veracity
CN111783871A (zh) 基于有监督学习模型的异常数据识别方法及相关设备
KR102119790B1 (ko) 임상 결과 추적 및 분석
CN111785384A (zh) 基于人工智能的异常数据识别方法及相关设备
CN108734591A (zh) 欺诈案件的评估方法、装置、存储介质及终端
CN113159147A (zh) 基于神经网络的图像识别方法、装置、电子设备
CN109635044A (zh) 住院数据异常检测方法、装置、设备及可读存储介质
De Souza et al. Leprosy screening based on artificial intelligence: Development of a cross-platform app
US11736300B2 (en) Producing and verifying computational determinations using a distributed ledger
CN112507095A (zh) 基于弱监督学习的信息识别方法及相关设备
US20220229904A1 (en) Privacy-protection-based data processing model acquisition method and apparatus, terminal device and storage medium
CN112435745B (zh) 就诊策略推荐方法、装置、电子设备及存储介质
CN113032524A (zh) 商标侵权识别方法、终端设备及存储介质
CN108629381A (zh) 基于大数据的人群筛选方法及终端设备
CN116503092A (zh) 用户留资意向识别方法、装置、电子设备及存储介质
CN116313086A (zh) 一种亚健康预测模型构建方法、装置、设备及存储介质
CN116543911A (zh) 一种疾病风险预测模型训练方法及装置
CN113902576A (zh) 基于深度学习的信息推送方法、装置、电子设备及介质
CN114840767A (zh) 基于人工智能的业务推荐方法及相关设备
CN113837836A (zh) 模型推荐方法、装置、设备及存储介质
CN111651652B (zh) 基于人工智能的情感倾向识别方法、装置、设备及介质
CN115037790A (zh) 异常注册识别方法、装置、设备及存储介质
CN113221762A (zh) 代价平衡决策方法、保险理赔决策方法、装置和设备
CN114003787A (zh) 基于人工智能的数据可视化方法及相关设备
WO2020172767A1 (zh) 电子签购单识别方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220520

Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd.

Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001

Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201016