CN109637667A - 异常糖尿病数据检测方法、装置、设备及存储介质 - Google Patents

异常糖尿病数据检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109637667A
CN109637667A CN201811530812.1A CN201811530812A CN109637667A CN 109637667 A CN109637667 A CN 109637667A CN 201811530812 A CN201811530812 A CN 201811530812A CN 109637667 A CN109637667 A CN 109637667A
Authority
CN
China
Prior art keywords
data
abnormal
diabetes
diabetes data
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811530812.1A
Other languages
English (en)
Inventor
陈明东
黄越
胥畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Medical and Healthcare Management Co Ltd
Original Assignee
Ping An Medical and Healthcare Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Medical and Healthcare Management Co Ltd filed Critical Ping An Medical and Healthcare Management Co Ltd
Priority to CN201811530812.1A priority Critical patent/CN109637667A/zh
Publication of CN109637667A publication Critical patent/CN109637667A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种异常糖尿病数据检测方法、装置、设备及存储介质,该方法包括:从定点医疗机构中获取待检测的糖尿病数据;根据预设流程对所述糖尿病数据进行处理,获得标准化数据;通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据。本发明基于机器学习算法建立数据检测模型,对糖尿病数据进行检测,提高了异常糖尿病数据检测的效率和准确性。

Description

异常糖尿病数据检测方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种异常糖尿病数据检测方法、装置、设备及存储介质。
背景技术
目前,糖尿病已纳入医保报销范筹,参保人在定点医疗机构进行结算时只需要支付医保报销后的费用。因此,为保障医保基金的合理支出,负责管理医保的相关部门需要对参保人的糖尿病数据进行异常检测,以减少虚假报销的发生。由于需要检测的数据量大,如果依靠人工进行检测,则效率低,准确性不高。
发明内容
本发明提供一种异常糖尿病数据检测方法、装置、设备及存储介质,旨在提高异常糖尿病数据检测的效率和准确性。
为实现上述目的,本发明提供一种异常糖尿病数据检测方法,所述方法应用于异常糖尿病数据检测设备,所述方法包括:
从定点医疗机构中获取待检测的糖尿病数据;
根据预设流程对所述糖尿病数据进行处理,获得标准化数据;
通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据。
优选地,所述从定点医疗机构中获取待检测的糖尿病数据的步骤之前还包括:
将标准化样本数据作为异常糖尿病数据检测模型的训练样本,所述标准化样本数据是将历史糖尿病数据进行清洗后获得的数据;
基于所述训练样本,通过C4.5决策树算法对所述训练样本进行训练,获得异常糖尿病数据检测模型。
优选地,所述基于所述训练样本,通过C4.5决策树算法对所述训练样本进行训练,获得异常糖尿病数据检测模型的步骤之后还包括:
评估所述异常糖尿病数据检测模型的准确性。
优选地,所述评估所述异常糖尿病数据检测模型的准确性的步骤包括:
在所述异常糖尿病数据检测模型中输入验证数据,由所述异常糖尿病数据检测模型对所述验证数据进行判断并输出所述验证数据中的第一异常验证数据;
将所述第一异常验证数据与第二异常糖尿病数据进行比对,所述第二异常糖尿病数据是预先获得的所述验证数据中的异常糖尿病数据;
若所述第一异常验证数据与所述第二异常糖尿病数据一致,则判定所述异常糖尿病数据检测模型建立成功,保存所述异常糖尿病数据检测模型以供后续使用;
若所述第一异常验证数据与所述第二异常糖尿病数据不一致,则判定所述异常糖尿病数据检测模型建立失败,将所述异常糖尿病数据检测模型进行调试后,重新进行验证。
优选地,所述根据预设流程对所述糖尿病数据进行处理,获得标准化数据的步骤包括:
依次对所述糖尿病数据执行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程,获得标准化数据。
优选地,所述通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据的步骤包括:
将所述待检测的糖尿病数据输入所述异常糖尿病数据检测模型,由所述异常糖尿病数据检测模型对所述待检测的糖尿病数据进行分类,获得分类标签;
若所述分类标签是异常糖尿病数据,则输出所述异常糖尿病数据。
优选地,所述通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据的步骤之后还包括:
将所述异常糖尿病数据发送至相关平台,以供所述相关平台对所述糖尿病数据进行分析并输出相应的决策。
此外,本发明实施例还提供一种异常糖尿病数据检测装置,所述异常糖尿病数据检测装置包括:
获取模块,用于从定点医疗机构中获取待检测的糖尿病数据;
处理模块,用于根据预设流程对所述糖尿病数据进行处理,获得标准化数据;
检测模块,用于通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据。
此外,本发明实施例还提供一种异常糖尿病数据检测设备,所述异常糖尿病数据检测设备包括处理器,存储器以及存储在所述存储器中的异常糖尿病数据检测程序,所述异常糖尿病数据检测程序被所述处理器运行时,实现如上所述的异常糖尿病数据检测方法的步骤。
此外,本发明实施例还提供一种计算机存储介质,所述计算机存储介质上存储有异常糖尿病数据检测程序,所述异常糖尿病数据检测程序被处理器运行时实现如上所述异常糖尿病数据检测方法的步骤。
相比现有技术,本发明提供一种异常糖尿病数据检测方法、装置、设备及存储介质,从定点医疗机构中获取待检测的糖尿病数据;根据预设流程对所述糖尿病数据进行处理,获得标准化数据;通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据。本发明基于机器学习算法建立数据检测模型,对糖尿病数据进行检测,提高了异常糖尿病数据检测的效率和准确性。
附图说明
图1是本发明各实施例涉及的异常糖尿病数据检测设备的硬件结构示意图;
图2是本发明异常糖尿病数据检测方法第一实施例的流程示意图;
图3是本发明异常糖尿病数据检测方法第二实施例的流程示意图;
图4是本发明异常糖尿病数据检测方法第三实施例的流程示意图;
图5是本发明异常糖尿病数据检测装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例主要涉及的异常糖尿病数据检测设备是指能够实现网络连接的网络连接设备,所述异常糖尿病数据检测设备可以是服务器、云平台等。
参照图1,图1是本发明各实施例涉及的异常糖尿病数据检测设备的硬件结构示意图。本发明实施例中,异常糖尿病数据检测设备可以包括处理器1001(例如中央处理器Central Processing Unit、CPU),通信总线1002,输入端口1003,输出端口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;输入端口1003用于数据输入;输出端口1004用于数据输出,存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种可读存储介质的存储器1005可以包括操作系统、网络通信模块、应用程序模块以及异常糖尿病数据检测程序。在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的异常糖尿病数据检测程序,并执行本发明实施例提供的异常糖尿病数据检测方法。
本发明实施例提供了一种异常糖尿病数据检测方法。
参照图2,图2是本发明异常糖尿病数据检测方法第一实施例的流程示意图。
本实施例中,所述异常糖尿病数据检测方法应用于异常糖尿病数据检测设备,所述方法包括:
步骤S101,从定点医疗机构中获取待检测的糖尿病数据;
一般地,参保人使用社保卡在定点医疗机构就诊后,定点医疗机构会保存相关诊疗、用药、费用等数据。糖尿病是一组以高血糖为特征的代谢性疾病。高血糖则是由于胰岛素分泌缺陷或相关生物作用受损,或两者兼有引起。长期存在的高血糖,会导致各种组织,特别是眼、肾、心脏、血管、神经的慢性损害、功能障碍。
本实施例中,从定点医疗机构中获取待检测的糖尿病数据,可以理解地,将一个社保卡对应的糖尿病数据作为一个糖尿病数据,所述待检测的糖尿病数据包括多个社保卡对应的多个糖尿病数据。所述糖尿病数据包括参保人信息、住院信息、糖尿病类型、治疗方案等,其中所述糖尿病类型包括1型糖尿病和2型糖尿病。所述治疗方案包括药物信息、检查信息以及手术信息等。
步骤S102,根据预设流程对所述糖尿病数据进行处理,获得标准化数据;
本实施例中,通过预设清洗流程对所述糖尿病数据进行清洗,以获得标准化数据。依次对所述糖尿病数据执行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程,获得标准化数据。具体地,首先对所述糖尿病数据进行缺失值清洗,确定缺失值的范围并计算所述糖尿病数据中每个字段的缺失率,根据所述缺失率和字段重要性制定相应的策略,例如对重要性高缺失率高的糖尿病数据进补全、去除重要性低缺失率高的糖尿病数据、填充重要性高缺失率低的糖尿病数据。对于糖尿病数据,则糖尿病类型、治疗方案等为重要性高的信息,而时间、糖尿病费用等则为重要性低的信息。去除不需要的字段,填充相关缺失内容。当对所述糖尿病数据进行缺失值清洗后,则对清洗后的糖尿病数据进行格式内容清洗。将时间、日期、数值、全角半角、字符等都清洗成统一的格式。对于逻辑错误清洗,则需要去除所述糖尿病数据中的重复数据、不合理值。所述非需求数据清洗是指删除所述糖尿病数据中不需要的内容,例如可删除与糖尿病不是太相关的信息例如其它疾病治疗信息。还需要对所述处理后的糖尿病数据进行关联性验证。由于参保人可能在多个定点医疗机构中接受了糖尿病治疗,故需要对参保人在不同的定点医疗机构中的糖尿病数据相关联,并将同一参保人的糖尿病数据进行合并,以获得完整准确的糖尿病数据。由此,依次对所述糖尿病数据进行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程后,最终获得标准化数据。
本实施例中,还可以通过NLP流程对所述糖尿病数据依次进行预处理、分词、关键词模板匹配的处理流程,得到标准化数据。所述预设流程是自然语言处理(NaturalLanguage Processing,NLP)流程,NLP是人工智能的一个子领域,对文字或语音进行各种各样的处理和加工,是研究人与人交际,以及人与机器交互的一门学科,是人工智能的重要内容。NLP主要用于语音识别、自动分词、词性标注、句法分析、信息检索、文字核对、信息抽取等。
具体地,首先对所述糖尿病数据进行预处理,将所述糖尿病数据的类型转换为可供后续处理的纯文本格式,一般地,由于所述糖尿病数据中包括日期、数值等非文本格式的信息,故需要先将所述非文本信息转换成文本格式,以免在后续处理过程中出现格式错误。然后基于字符匹配的分词方法对所述糖尿病数据进行分词,得到词组序列,所述糖尿病数据往往是复杂凌乱且没有统一规则的文本或数字,因此在应用所述糖尿病数据之前需要将获得的所述纯文本格式的糖尿病数据进行分词,得到一系列的可进行机器处理的词组序列,再对所述词组序列进行浅层语义分析,标注语义角色,得到关键词逻辑序列。将处理后的糖尿病数据与预先设置的关键词模板进行匹配,以获得标准化数据。可以预先在所述关键词模板中设置所需要的关键词,例如住院信息、日期、药物信息等。所述标准化数据是指经过自然语言处理流程后获得的数据,所述标准化数据是将所述糖尿病数据中的参保人信息、住院信息、糖尿病类型、治疗方案等信息匹配到相应的标准化字段中。
此外,对于复杂的糖尿病数据,也可以通过循环神经网络(Recurrent NeuralNetwork,RNN)来处理,神经网络是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。RNN可以利用内部的记忆来处理任意时序的输入序列,这让它可以更容易处理如不分段的手写识别、语音识别、数据文本等。一般地,RNN包括输入层、隐藏层以及输出层,在输入层中设置好词向量,由输出层进行结果输出。
步骤S103,通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据。
本实施例中,将所述待检测的糖尿病数据输入所述异常糖尿病数据检测模型,由所述异常糖尿病数据检测模型对所述待检测的糖尿病数据进行分类,获得分类标签;若所述分类标签是异常糖尿病数据,则输出所述异常糖尿病数据;若所述分类标签是是正常糖尿病数据,则不输出所述正常糖尿病数据。
此外,还可以获取所述标准化数据中的糖尿病类型以及治疗方案;获取所述糖尿病类型对应的一个或多个预设治疗方案;将所述治疗方案与所述一个或多个预设治疗方案进行比对;若所述治疗方案与所述一个或多个预设治疗方案中的一个一致,则判定所述治疗方案对应的标准化数据是正常糖尿病数据;若所述治疗方案与所述一个或多个预设治疗方案中的一个或多个均不一致,则判定所述治疗方案对应的标准化数据是异常糖尿病数据,将所述异常糖尿病数据对应的标准化数据标记为异常糖尿病数据,并输出所述异常糖尿病数据。
此外,还可以回访正常糖尿病数据对应的参保人,以了解治疗进展,并为所述参保人提供相应的援助。还可以追溯所述异常糖尿病数据对应的定点医疗机构,若所述定点医疗机构中的异常糖尿病数据所占的比例超过预设阈值,则将所述定点医疗机构标记为重点检测目标,对所述定点医疗机构进行全面审查。
本发明实施例通过上述方案,从定点医疗机构中获取待检测的糖尿病数据;根据预设流程对所述糖尿病数据进行处理,获得标准化数据;通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,并输出异常糖尿病数据。本发明基于机器学习算法建立数据检测模型,对糖尿病数据进行检测,提高了异常糖尿病数据检测的效率和准确性。
如图3所示,本发明第二实施例提出一种异常糖尿病数据检测方法,基于上述图2所示的第一实施例,所述从定点医疗机构中获取待检测的糖尿病数据的步骤之前还包括:
步骤S100,将标准化样本数据作为异常糖尿病数据检测模型的训练样本,所述标准化样本数据是将历史糖尿病数据进行清洗后获得的数据;
具体地,从定点医疗机构中收集的历史糖尿病数据,将所述历史糖尿病数据作为样本数据。依次对所述历史糖尿病数据执行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程,获得标准化样本数据。
进一步地,获取所述训练样本的m个分类标签。本实施例中,可以将糖尿病的类型、治疗方式、药品、检查次数、就诊频率等信息作为分类标签,将所述分类标签的个数用m表示。
步骤S1001,基于所述训练样本,通过C4.5决策树算法对所述训练样本进行训练,获得异常糖尿病数据检测模型。
本实施例中,所述通过C4.5决策树算法对所述训练样本进行训练的步骤包括:
步骤S20,计算所述训练样本的信息熵information entropy,将所述信息熵用info(D)表示:
其中,所述pi表示第i个类别在所述训练样本D中出现的概率,i为1至m之间的整数,其中,m为所述训练样本的分类标签的个数。
步骤S30,根据所述训练样本D的分类属性Aj,计算所有子集的信息熵加权和,其中A为所有分类属性的属性集,所述分类属性Aj将所述训练样本D分成v个不相交的子集{D1,D2,D3…Dv},将所述信息熵加权和表示为:
其中,所有子集的信息熵加权和,v表示子集的个数,Dj表示将所述训练样本分为v类后的第j类所对应的训练样本。
步骤S40,计算所述属性集A中每一个分类属性的信息增益gain(Aj):
步骤S50,计算所述属性集A中每一个分类属性的信息增益率gain-ratio(Aj):
其中,split-infoAj(D)是所述属性集的分裂信息:
步骤S60,将所述属性集A的最大信息增益率作为决策树节点的待分裂的分类属性;
步骤S70,遍历所述决策树,获得所述训练样本中每一个样本中各个属性在各节点的信息增益,并依次将所述训练样本分入信息增益较大的子节点中,直到分入叶子节点。
步骤S80,根据所述标准化样本中糖尿病数据的异常与否,设置所述叶子节点的标签,将所述标准化样本数据中的正常糖尿病数据所在的叶子节点的标签设为正常糖尿病数据,将所述将所述标准化样本数据中的异常糖尿病数据所在的叶子节点的标签设为异常糖尿病数据。
由此,通过所述C4.5决策树算法对所述训练样本进行训练,将每一个训练样本进行分类,最终获得异常糖尿病数据检测模型。
由此,当利用所述异常糖尿病数据检测模型对待检测的糖尿病数据进行检测时,由所述异常糖尿病数据检测模型输出异常糖尿病数据。
进一步地,所述基于所述训练样本,通过C4.5决策树算法对所述训练样本进行训练,获得异常糖尿病数据检测模型的步骤之后还包括:
步骤S1003,评估所述异常糖尿病数据检测模型的准确性。
具体地,在所述异常糖尿病数据检测模型中输入验证数据,由所述异常糖尿病数据检测模型对所述验证数据进行判断并输出所述验证数据中的第一异常验证数据;将所述第一异常验证数据与第二异常糖尿病数据进行比对,所述第二异常糖尿病数据是预先获得的所述验证数据中的异常糖尿病数据;若所述第一异常验证数据与所述第二异常糖尿病数据一致,则判定所述异常糖尿病数据检测模型建立成功,保存所述异常糖尿病数据检测模型以供后续使用;若所述第一异常验证数据与所述第二异常糖尿病数据不一致,则判定所述异常糖尿病数据检测模型建立失败,将所述异常糖尿病数据检测模型进行调试后,重新进行验证。具体地,首先判断所述第一异常验证数据与所述第二异常糖尿病数据的数量是否一致,若所述第一异常验证数据与所述第二异常糖尿病数据的数量一致,则继续判断所述第一异常验证数据与所述第二异常糖尿病数据是否一一对应,若所述第一异常验证数据与所述第二异常糖尿病数据一一对应,则判定所述第一异常验证数据与所述第二异常糖尿病数据的一致,反之,若第一异常验证数据与所述第二异常糖尿病数据不是一一对应,则判定所述第一异常验证数据与所述第二异常糖尿病数据的不一致。若所述第一异常验证数据与所述第二异常糖尿病数据不一致,则判定所述异常糖尿病数据检测模型建立失败,将所述异常糖尿病数据检测模型进行调试后,重新进行验证。若所述第一异常验证数据与所述第二异常糖尿病数据的数量不一致,则判定所述异常糖尿病数据检测模型建立失败,将所述异常糖尿病数据检测模型进行调试后,重新进行验证。
进一步地,还可以根据所述第一异常验证数据与所述第二异常糖尿病数据,获得所述异常糖尿病数据检测模型的准确率,若所述准确率大于或等于阈值,则判定所述异常糖尿病数据检测模型建立成功,若所述准确率小于阈值,则判定所述异常糖尿病数据检测模型建立失败,将所述异常糖尿病数据检测模型进行调试后,重新进行验证。
本实施例通过以上方案,建立所述异常糖尿病数据检测模型,并对所述异常糖尿病数据检测模型进行评估,由此提高了异常糖尿病数据检测的准确性。
如图4所示,本发明第三实施例提出一种异常糖尿病数据检测方法,基于上述图2、图3所示的第一、二实施例,所述通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据的步骤之后还包括:
步骤S104,将所述异常糖尿病数据发送至相关平台,以供所述相关平台对所述糖尿病数据进行分析并输出相应的决策。
本实施例中,所述方法还包括将所述异常糖尿病数据发送至相关平台,以供所述相关平台对所述异常糖尿病数据进行分析并输出相应的决策。所述相关平台可以是社保局的数据处理平台,将所述异常糖尿病数据发送至相关平台,所述相关平台基于所述异常糖尿病数据获取与所述异常糖尿病数据相关的全部信息,所述全部信息包括对应的参保人、对应的定点医疗机构以及对所述参保人的报销费用,以供所述相关平台对所述异常糖尿病数据进行分析并输出相应的决策。参保人就诊后在定点医疗机构可用社保卡进行结算,但是由于参保人数量庞大,监管人员的数量有限,从而让不法分子有机可乘,会导致骗保等虚假报销事情的发生。从而必须对虚假报销的参保人进行相应的处罚。例如,对虚假报销的参保人进行警告、处分、罚款。若某定点医疗机构出现大量的异常糖尿病数据,导致虚假报销的数量明显超出其它定点医疗机构,则对该定点医疗机构进行全面的审查。
此外,由于糖尿病一般花费大、耗时长,故还可以对正常糖尿病数据对应的参保人的社保卡余额进行监控,当所述社保卡的余额低于阈值,则为所述余额低于阈值的社保卡对应的参保人提供相应的经济援助。
此外,本实施例还提供一种异常糖尿病数据检测装置。参照图5,图5为本发明异常糖尿病数据检测装置第一实施例的功能模块示意图。
本发明提供的异常糖尿病数据检测装置是虚拟装置,存储于图1所示的异常糖尿病数据检测设置的存储器1005中,用于从定点医疗机构中获取待检测的糖尿病数据;用于根据预设流程对所述糖尿病数据进行处理,获得标准化数据;用于通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据。
具体地,本实施例中,所述异常糖尿病数据检测装置包括:
获取模块10于从定点医疗机构中获取待检测的糖尿病数据;
处理模块20于根据预设流程对所述糖尿病数据进行处理,获得标准化数据;
检测模块30,用于通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据。
进一步地,所述检测模块还用于:
将标准化样本数据作为异常糖尿病数据检测模型的训练样本,所述标准化样本数据是将历史糖尿病数据进行清洗后获得的数据;
基于所述训练样本,通过C4.5决策树算法对所述训练样本进行训练,获得异常糖尿病数据检测模型。
进一步地,所述检测模块还用于:
评估所述异常糖尿病数据检测模型的准确性。
进一步地,所述检测模块还用于:
在所述异常糖尿病数据检测模型中输入验证数据,由所述异常糖尿病数据检测模型对所述验证数据进行判断并输出所述验证数据中的第一异常验证数据;
将所述第一异常验证数据与第二异常糖尿病数据进行比对,所述第二异常糖尿病数据是预先获得的所述验证数据中的异常糖尿病数据;
若所述第一异常验证数据与所述第二异常糖尿病数据一致,则判定所述异常糖尿病数据检测模型建立成功,保存所述异常糖尿病数据检测模型以供后续使用;
若所述第一异常验证数据与所述第二异常糖尿病数据不一致,则判定所述异常糖尿病数据检测模型建立失败,将所述异常糖尿病数据检测模型进行调试后,重新进行验证。
进一步地,所述处理模块还用于:
依次对所述糖尿病数据执行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程,获得标准化数据。
进一步地,所述检测模块还用于:
将所述待检测的糖尿病数据输入所述异常糖尿病数据检测模型,由所述异常糖尿病数据检测模型对所述待检测的糖尿病数据进行分类,获得分类标签;
若所述分类标签是异常糖尿病数据,则输出所述异常糖尿病数据。
进一步地,所述检测模块还用于:
将所述异常糖尿病数据发送至相关平台,以供所述相关平台对所述糖尿病数据进行分析并输出相应的决策。
此外,本发明还提出一种计算机存储介质,所述计算机存储介质上存储有异常糖尿病数据检测程序,所述异常糖尿病数据检测程序被处理器运行时实现如上所述异常糖尿病数据检测方法的步骤,在此不再赘述。
相比现有技术,本发明提出的一种异常糖尿病数据检测方法、装置、设备及存储介质,从定点医疗机构中获取待检测的糖尿病数据;根据预设流程对所述糖尿病数据进行处理,获得标准化数据;通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据。本发明基于机器学习算法建立数据检测模型,对糖尿病数据进行检测,提高了异常糖尿病数据检测的效率和准确性。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种异常糖尿病数据检测方法,其特征在于,所述方法应用于异常糖尿病数据检测设备,所述方法包括:
从定点医疗机构中获取待检测的糖尿病数据;
根据预设流程对所述糖尿病数据进行处理,获得标准化数据;
通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据。
2.根据权利要求1所述的方法,其特征在于,所述从定点医疗机构中获取待检测的糖尿病数据的步骤之前还包括:
将标准化样本数据作为异常糖尿病数据检测模型的训练样本,所述标准化样本数据是将历史糖尿病数据进行清洗后获得的数据;
基于所述训练样本,通过C4.5决策树算法对所述训练样本进行训练,获得异常糖尿病数据检测模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述训练样本,通过C4.5决策树算法对所述训练样本进行训练,获得异常糖尿病数据检测模型步骤之后还包括:
评估所述异常糖尿病数据检测模型的准确性。
4.根据权利要求3所述的方法,其特征在于,所述评估所述异常糖尿病数据检测模型的准确性的步骤包括:
在所述异常糖尿病数据检测模型中输入验证数据,由所述异常糖尿病数据检测模型对所述验证数据进行判断并输出所述验证数据中的第一异常验证数据;
将所述第一异常验证数据与第二异常糖尿病数据进行比对,所述第二异常糖尿病数据是预先获得的所述验证数据中的异常糖尿病数据;
若所述第一异常验证数据与所述第二异常糖尿病数据一致,则判定所述糖尿病数据检测模型建立成功,保存所述糖尿病数据检测模型以供后续使用;
若所述第一异常验证数据与所述第二异常糖尿病数据不一致,则判定所述异常糖尿病数据检测模型建立失败,将所述异常糖尿病数据检测模型进行调试后,重新进行验证。
5.根据权利要求1所述的方法,其特征在于,所述根据预设流程对所述糖尿病数据进行处理,获得标准化数据的步骤包括:
依次对所述糖尿病数据执行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程,获得标准化数据。
6.根据权利要求1所述的方法,其特征在于,所述通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据的步骤包括:
将所述待检测的糖尿病数据输入所述异常糖尿病数据检测模型,由所述异常糖尿病数据检测模型对所述待检测的糖尿病数据进行分类,获得分类标签;
若所述分类标签是异常糖尿病数据,则输出所述异常糖尿病数据。
7.根据权利要求1所述的方法,其特征在于,所述通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据的步骤之后还包括:
将所述异常糖尿病数据发送至相关平台,以供所述相关平台对所述糖尿病数据进行分析并输出相应的决策。
8.一种异常糖尿病数据检测装置,其特征在于,所述异常糖尿病数据检测装置包括:
获取模块,用于从定点医疗机构中获取待检测的糖尿病数据;
处理模块,用于根据预设流程对所述糖尿病数据进行处理,获得标准化数据;
检测模块,用于通过预先建立的异常糖尿病数据检测模型对所述标准化数据进行检测,由所述异常糖尿病数据检测模型输出异常糖尿病数据。
9.一种异常糖尿病数据检测设备,其特征在于,所述异常糖尿病数据检测设备包括处理器,存储器以及存储在所述存储器中的异常糖尿病数据检测程序,所述异常糖尿病数据检测程序被所述处理器运行时,实现如权利要求1-7中任一项所述的异常糖尿病数据检测方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有异常糖尿病数据检测程序,所述异常糖尿病数据检测程序被处理器运行时实现如权利要求1-7中任一项所述异常糖尿病数据检测方法的步骤。
CN201811530812.1A 2018-12-13 2018-12-13 异常糖尿病数据检测方法、装置、设备及存储介质 Pending CN109637667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811530812.1A CN109637667A (zh) 2018-12-13 2018-12-13 异常糖尿病数据检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811530812.1A CN109637667A (zh) 2018-12-13 2018-12-13 异常糖尿病数据检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN109637667A true CN109637667A (zh) 2019-04-16

Family

ID=66073802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811530812.1A Pending CN109637667A (zh) 2018-12-13 2018-12-13 异常糖尿病数据检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109637667A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050160340A1 (en) * 2004-01-02 2005-07-21 Naoki Abe Resource-light method and apparatus for outlier detection
CN105159948A (zh) * 2015-08-12 2015-12-16 成都数联易康科技有限公司 一种基于多特征的医疗保险欺诈检测方法
CN105407103A (zh) * 2015-12-19 2016-03-16 中国人民解放军信息工程大学 一种基于多粒度异常检测的网络威胁评估方法
CN107133438A (zh) * 2017-03-03 2017-09-05 平安医疗健康管理股份有限公司 医疗行为监控方法及装置
CN107291911A (zh) * 2017-06-26 2017-10-24 北京奇艺世纪科技有限公司 一种异常检测方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050160340A1 (en) * 2004-01-02 2005-07-21 Naoki Abe Resource-light method and apparatus for outlier detection
CN105159948A (zh) * 2015-08-12 2015-12-16 成都数联易康科技有限公司 一种基于多特征的医疗保险欺诈检测方法
CN105407103A (zh) * 2015-12-19 2016-03-16 中国人民解放军信息工程大学 一种基于多粒度异常检测的网络威胁评估方法
CN107133438A (zh) * 2017-03-03 2017-09-05 平安医疗健康管理股份有限公司 医疗行为监控方法及装置
CN107291911A (zh) * 2017-06-26 2017-10-24 北京奇艺世纪科技有限公司 一种异常检测方法和装置

Similar Documents

Publication Publication Date Title
CN110021439B (zh) 基于机器学习的医疗数据分类方法、装置和计算机设备
US10818397B2 (en) Clinical content analytics engine
WO2021068601A1 (zh) 病历检测方法、装置、设备及存储介质
US7818308B2 (en) System and method for document section segmentation
CN109492222B (zh) 基于概念树的意图识别方法、装置及计算机设备
EP3279804A1 (en) Data analysis system, data analysis method, data analysis program, and recording medium
CN109522557A (zh) 文本关系抽取模型的训练方法、装置及可读存储介质
CN107895168A (zh) 数据处理的方法、数据处理的装置及计算机可读存储介质
CN108427720A (zh) 系统日志分类方法
CN106934220A (zh) 面向多数据源的疾病类实体识别方法及装置
CN107832290B (zh) 中文语义关系的识别方法及装置
CN111710383A (zh) 病历质控方法、装置、计算机设备和存储介质
Sheshikala et al. Natural language processing and machine learning classifier used for detecting the author of the sentence
CN115858886B (zh) 数据处理方法、装置、设备及可读存储介质
CN115050442A (zh) 基于挖掘聚类算法的病种数据上报方法、装置及存储介质
US8676800B2 (en) Method and system for generating text
CN113724830B (zh) 基于人工智能的用药风险检测方法及相关设备
CN114662477A (zh) 基于中医对话的停用词表生成方法、装置及存储介质
CN109036506A (zh) 互联网医疗问诊的监管方法、电子装置及可读存储介质
CN107122582A (zh) 面向多数据源的诊疗类实体识别方法及装置
CN113241193A (zh) 药物推荐模型训练方法、推荐方法、装置、设备及介质
CN109378082A (zh) 互联网医疗问诊的监管方法、电子装置及可读存储介质
Fiszman et al. Automatic extraction of PIOPED interpretations from ventilation/perfusion lung scan reports.
US20230367821A1 (en) Machine-learning system for servicing queries for digital content
CN109637667A (zh) 异常糖尿病数据检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190416