CN109685671A - 基于机器学习的就诊数据异常识别方法、设备及存储介质 - Google Patents
基于机器学习的就诊数据异常识别方法、设备及存储介质 Download PDFInfo
- Publication number
- CN109685671A CN109685671A CN201811530979.8A CN201811530979A CN109685671A CN 109685671 A CN109685671 A CN 109685671A CN 201811530979 A CN201811530979 A CN 201811530979A CN 109685671 A CN109685671 A CN 109685671A
- Authority
- CN
- China
- Prior art keywords
- medical
- medical data
- data
- exception
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000010801 machine learning Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 102
- 230000002159 abnormal effect Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000002547 anomalous effect Effects 0.000 claims abstract description 17
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 17
- 101800000407 Brain natriuretic peptide 32 Proteins 0.000 claims description 13
- 101800002247 Brain natriuretic peptide 45 Proteins 0.000 claims description 13
- 102400000667 Brain natriuretic peptide 32 Human genes 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 230000033228 biological regulation Effects 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 238000005481 NMR spectroscopy Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 239000003814 drug Substances 0.000 description 11
- 229940079593 drug Drugs 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000012216 screening Methods 0.000 description 9
- 208000024891 symptom Diseases 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 8
- 230000036541 health Effects 0.000 description 7
- 208000003174 Brain Neoplasms Diseases 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 6
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 206010011224 Cough Diseases 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- HPNRHPKXQZSDFX-OAQDCNSJSA-N nesiritide Chemical compound C([C@H]1C(=O)NCC(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@H](C(N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)NCC(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CSSC[C@@H](C(=O)N1)NC(=O)CNC(=O)[C@H](CO)NC(=O)CNC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](NC(=O)[C@H](CCSC)NC(=O)[C@H](CCCCN)NC(=O)[C@H]1N(CCC1)C(=O)[C@@H](N)CO)C(C)C)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC=1N=CNC=1)C(O)=O)=O)[C@@H](C)CC)C1=CC=CC=C1 HPNRHPKXQZSDFX-OAQDCNSJSA-N 0.000 description 3
- 210000002700 urine Anatomy 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 206010019280 Heart failures Diseases 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 230000001754 anti-pyretic effect Effects 0.000 description 2
- 239000002221 antipyretic Substances 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 239000006188 syrup Substances 0.000 description 2
- 235000020357 syrup Nutrition 0.000 description 2
- 208000010392 Bone Fractures Diseases 0.000 description 1
- 206010061728 Bone lesion Diseases 0.000 description 1
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 206010017076 Fracture Diseases 0.000 description 1
- 208000007882 Gastritis Diseases 0.000 description 1
- 102000006395 Globulins Human genes 0.000 description 1
- 108010044091 Globulins Proteins 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- DGAQECJNVWCQMB-PUAWFVPOSA-M Ilexoside XXIX Chemical compound C[C@@H]1CC[C@@]2(CC[C@@]3(C(=CC[C@H]4[C@]3(CC[C@@H]5[C@@]4(CC[C@@H](C5(C)C)OS(=O)(=O)[O-])C)C)[C@@H]2[C@]1(C)O)C)C(=O)O[C@H]6[C@@H]([C@H]([C@@H]([C@H](O6)CO)O)O)O.[Na+] DGAQECJNVWCQMB-PUAWFVPOSA-M 0.000 description 1
- 102000004877 Insulin Human genes 0.000 description 1
- 108090001061 Insulin Proteins 0.000 description 1
- 208000033214 Myopericarditis Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010034464 Periarthritis Diseases 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 206010003119 arrhythmia Diseases 0.000 description 1
- 230000006793 arrhythmia Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000023555 blood coagulation Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000005013 brain tissue Anatomy 0.000 description 1
- 210000004413 cardiac myocyte Anatomy 0.000 description 1
- 208000015114 central nervous system disease Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 208000023652 chronic gastritis Diseases 0.000 description 1
- 206010009887 colitis Diseases 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 208000000718 duodenal ulcer Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 230000023597 hemostasis Effects 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 229940125396 insulin Drugs 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 229910052708 sodium Inorganic materials 0.000 description 1
- 239000011734 sodium Substances 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002861 ventricular Effects 0.000 description 1
- 208000029761 vertebral disease Diseases 0.000 description 1
- 210000001835 viscera Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Abstract
本发明公开了一种基于机器学习的就诊数据异常识别方法,包括:接收医疗机构采集并上传的参保人的历史就诊数据,并根据历史就诊数据的数据内容与预设昂贵检测项目,筛选出含有预设昂贵检测项目的就诊数据;以筛选出的就诊数据作为训练样本,采用机器学习方式,建立昂贵项目就诊异常模型;获取待检测就诊数据,并将待检测就诊数据导入至昂贵项目就诊异常模型进行异常识别,得到识别结果;若待检测就诊数据的识别结果为异常,则确定待检测就诊数据为昂贵项目过度医疗。本发明还公开了一种设备及存储介质。本发明通过人工智能技术中的机器学习实现数据的智能分析,从而精准有效地识别出可疑的就诊数据,并有效扼制违规的医疗操作。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于机器学习的就诊数据异常识别方法、设备及存储介质。
背景技术
社会医疗保险是国家和社会根据一定的法律法规,为向保障范围内的劳动者提供患病时基本医疗需求保障而建立的社会保险制度。目前,医疗服务机构分布广泛,为参保人员提供更为便民的医疗服务,然而在利益的驱动下,一些机构出现乱检查、乱开药、重复就诊重复开药、乱收费用等违规操作,浪费了本就有限的医疗资源,同时还损害了参保人员的合法利益,进而不利于医疗质量和医疗健康的可持续发展。
发明内容
本发明的主要目的在于提供一种基于机器学习的就诊数据异常识别方法、设备及存储介质,旨在解决如何精准有效地识别出可疑的就诊数据,从而有效扼制违规的医疗操作的技术问题。
为实现上述目的,本发明提供的一种基于机器学习的就诊数据异常识别方法,所述就诊数据异常识别方法包括以下步骤:
接收医疗机构采集并上传的参保人的历史就诊数据,并根据所述历史就诊数据的数据内容与预设昂贵检测项目,筛选出含有所述预设昂贵检测项目的就诊数据,其中,所述预设昂贵检测项目至少包括脑尿钠肽BNP、断层扫描CT、核磁共振MRI;
以筛选出的就诊数据作为训练样本,采用机器学习方式,建立昂贵项目就诊异常模型;
获取待检测就诊数据,并将所述待检测就诊数据导入至所述昂贵项目就诊异常模型进行异常识别,得到识别结果;
若所述待检测就诊数据的识别结果为异常,则确定所述待检测就诊数据为昂贵项目过度医疗。
可选地,所述根据所述历史就诊数据的数据内容与预设昂贵检测项目,筛选出含有所述预设昂贵检测项目的就诊数据,包括:
根据所述历史就诊数据的数据内容与预设昂贵检测项目,筛选出含有所述预设昂贵检测项目的历史就诊数据,其中,所述数据内容至少包括就诊时间、检测项目和检测费用;
根据筛选出的历史就诊数据中的就诊时间和昂贵检测项目,统计得到单日昂贵检测次数和月昂贵检测次数;
判断历史就诊数据的单日昂贵检测次数和/或月昂贵检测次数是否大于或等于预设阈值;
若历史就诊数据的单日昂贵检测次数和/或月昂贵检测次数大于或等于预设阈值,则将历史就诊数据标注为异常就诊数据;
若历史就诊数据的单日昂贵检测次数和/或月昂贵检测次数小于预设阈值,则将历史就诊数据标注为正常就诊数据;
将标注的异常就诊数据和正常就诊数据合并,得到就诊数据。
可选地,所述以筛选出的就诊数据作为训练样本,采用机器学习方式,建立昂贵项目就诊异常模型包括:
对筛选出的就诊数据进行提取处理,得到特征参数和时序信息;
以筛选出的就诊数据所对应的参保人的历史就诊数据作为输入量、以该就诊数据处理得到的特征参数和时序信息作为输出量,采用递归神经网络对所述输入量和所述输出量的取值样本进行训练,得到昂贵项目就诊异常模型。
可选地,所述对筛选出的就诊数据进行提取处理,得到特征参数和时序信息包括:
对筛选出的就诊数据依次进行数据清洗、分词切片和去除无关用词,得到词条,并对所述词条进行特征提取,得到特征参数;
根据所述特征参数在就诊数据中的时间位置,确定特征参数对应的时序信息。
可选地,在所述得到昂贵项目就诊异常模型的操作之后,所述就诊数据异常识别方法还包括:
采用K折交叉验证或随机交叉Holdout验证对所述昂贵项目就诊异常模型进行验证,得到验证结果,以供维护人员根据所述验证结果对所述昂贵项目就诊异常模型进行维护或改进。
可选地,所述将所述待检测就诊数据导入至所述昂贵项目就诊异常模型进行异常识别,得到识别结果包括:
将所述待检测就诊数据导入至所述昂贵项目就诊异常模型进行异常识别,以得出所述待检测就诊数据的指标值;
判断所述指标值是否大于或等于预设标准值;
若所述指标值大于或等于预设标准值,则确定所述待检测就诊数据的识别结果为异常;
若所述指标值小于预设标准值,则确定所述待检测就诊数据的识别结果为正常。
可选地,在所述获取待检测就诊数据,并将所述待检测就诊数据导入至所述昂贵项目就诊异常模型进行异常识别,得到识别结果的操作之后,所述就诊数据异常识别方法还包括:
将所述待检测就诊数据与筛选出的就诊数据进行合并,用以更新所述昂贵项目就诊异常模型的训练样本;
根据更新的所述训练样本,对所述昂贵项目就诊异常模型进行进一步的训练,以得到更新的昂贵项目就诊异常模型。
可选地,在所述若所述待检测就诊数据的识别结果为异常,则确定所述待检测就诊数据为昂贵项目过度医疗的操作之后,所述就诊数据异常识别方法还包括:
获取异常的所述待检测就诊数据对应的参保人信息和医疗机构信息;
根据所述参保人信息,向参保人下发维权通知;
根据所述医疗机构信息,向医疗机构下发违规通知和/或扣费通知。
此外,为实现上述目的,本发明还提供一种就诊数据异常识别设备,所述就诊数据异常识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据异常识别程序,所述数据异常识别程序被所述处理器执行时实现如上述中任一项所述的基于机器学习的就诊数据异常识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据异常识别程序,所述数据异常识别程序被处理器执行时实现如上述中任一项所述的基于机器学习的就诊数据异常识别方法的步骤。
本发明首先通过接收医疗机构采集并上传的参保人的历史就诊数据,并根据所述历史就诊数据的数据内容与预设昂贵检测项目,筛选出含有所述预设昂贵检测项目的就诊数据;以筛选出的就诊数据作为训练样本,采用机器学习方式,建立昂贵项目就诊异常模型。然后获取待检测就诊数据,并将待检测就诊数据导入至昂贵项目就诊异常模型进行异常识别,得到识别结果,进而识别出就诊数据是否存在异常情况。若识别结果为异常,则确定待检测就诊数据为昂贵项目过度医疗。本发明通过人工智能技术中的机器学习实现数据的智能分析,从而精准有效地识别出可疑的就诊数据,并有效扼制违规的医疗操作,进而提高监管医疗机构的力度,完善监督机制,进而促进医疗质量和医疗健康的可持续发展。
附图说明
图1为本发明实施例方案涉及的就诊数据异常识别设备运行环境的结构示意图;
图2为本发明基于机器学习的就诊数据异常识别方法一实施例的流程示意图;
图3为图2步骤S20一实施例的细化流程示意图;
图4为图2步骤S30中将待检测就诊数据导入至昂贵项目就诊异常模型进行异常识别,得到识别结果一实施例的细化流程示意图;
图5为本发明基于机器学习的就诊数据异常识别方法另一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的就诊数据异常识别设备运行环境的结构示意图。
本实施例就诊数据异常识别设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、服务器等计算机设置。
如图1所示,该就诊数据异常识别设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的就诊数据异常识别设备的硬件结构并不构成对就诊数据异常识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。其中,操作系统是管理和控制就诊数据异常识别设备和软件资源的程序,支持数据异常识别程序以及其它软件和/或程序的运行。
在图1所示的就诊数据异常识别设备的硬件结构中,网络接口1004主要用于接入网络;用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的数据异常识别程序,并执行以下基于机器学习的就诊数据异常识别方法的各个实施例中的操作。
基于上述就诊数据异常识别设备硬件结构,提出本发明基于机器学习的就诊数据异常识别方法的各个实施例。
参照图2,图2为本发明基于机器学习的就诊数据异常识别方法一实施例的流程示意图。
本发明实施例提供了就诊数据异常识别方法的实施例,需要说明的是,虽然在流传图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例中,基于机器学习的就诊数据异常识别方法包括:
步骤S10,接收医疗机构采集并上传的参保人的历史就诊数据,并根据历史就诊数据的数据内容与预设昂贵检测项目,筛选出含有预设昂贵检测项目的就诊数据,其中,预设昂贵检测项目至少包括脑尿钠肽BNP、断层扫描CT、核磁共振MRI;
本实施例中,社会医疗保险是国家和社会根据一定的法律法规,为向保障范围内的劳动者提供患病时基本医疗需求保障而建立的社会保险制度。而参保就是参加社会保险的简称,参保人也就是指参加社会保险的被保险人。医疗机构,是指依法定程序设立的从事疾病诊断、治疗活动的卫生机构的总称,包括医院、疗养院、保健院、门诊部、诊所、疾病防治站、卫生服务中心、卫生室以及急救站等,为参保人员提供更为便民的医疗服务。
本实施例中,病人同时也是参保人在医疗机构看病就诊,就会产生大量相关的就诊数据,包括参保人的个人信息(年龄、性别、出生日期、身份证号等)、就诊时间、就诊次数、就诊症状及其对应的检测项目和检测费用等内容。参保人在医疗机构就诊并通过刷社保卡能实时显示当天所有就诊信息。历史就诊数据是参保人从第一次到医疗机构就诊到往后每次在同一家机构就诊所产生的数据。各地医疗机构分别与本就诊数据异常识别设备建立通信连接,实现数据交互。医疗机构采集所有参保人的历史就诊数据并汇总到本地数据库,然后将采集的所有历史就诊数据上传至本就诊数据异常识别设备进行相关处理,进而各个参保人在各家医疗机构、不同时段就诊的信息都能够一目了然。可以理解的是,历史就诊数据是以参保人为独立个体一份完整的数据;以及各地医疗机构均能够独立操作,即能够独立采集自己机构下的数据,而不受其他机构或参保人等的蓄意干预。
本实施例中,大数据环境下数据量快速的积累,要想分析出海量数据所蕴含的价值,筛选出有价值的数据十分重要。而数据筛选在整个数据处理流程中处于至关重要的地位。数据量的增加及结构的复杂化,这使得面向大数据的数据筛选必然会耗费较多资源,因此要想快速准确筛选出有价值的数据选择合适的算法十分必要。而每个算法都有着自己使用所需要的环境,大数据环境下数据复杂度的增加提升了选择合适算法的困难;其次大数据的巨大数据量也使得通过单一算法分析出有价值的数据越来越困难。因而数据的筛选在数学建模中占有很重要的地位,也是数学建模的第一步,当且只有得到好的数据才能保证得出的结果的真实性与准确性。基于预设筛选规则从各历史就诊数据中筛选出符合建模的就诊数据,就是在海量原始数据(多家医疗机构上传的多个参保人的历史就诊数据)中筛选出具有代表性的历史就诊数据,进而为数据挖掘、数学建模做准备。具体数据筛选过程在下文实施例中详述。
本实施例中,本实施例中,就诊数据,包括参保人的个人信息(年龄、性别、出生日期、身份证号等)、就诊时间、就诊次数、就诊症状及其对应的检测项目和检测费用,或对应的就诊用药和用药费用等内容。就诊症状,比如头痛、骨折、糖尿病、急性心肌心包炎、肠胃炎、脑瘤等等。目前,医疗机构设置的临床检测用以采用科学手段协助医生查明患者病症,进而根据检测结果对患者对症下药。检测项目包括血常规检测、尿液检测、凝血检测、甲状腺检测、球蛋白检测、胰岛素检测等等,不同检测项目对应收取不同检测费用,具体根据实际情况而设置。进一步地,有的检测项目技术简单,收取的检测费用低,而有的检测项目技术负责,对应收取的检测费用就高。将检测费用高的一类检测项目归类为昂贵检测项目,将检测费用不高的一类检测项目归类为非昂贵检测项目。现有的昂贵检测项目至少包括脑尿钠肽BNP、断层扫描CT、核磁共振MRI等等,具体根据实际情况而设置。
步骤S20,以筛选出的就诊数据作为训练样本,采用机器学习方式,建立昂贵项目就诊异常模型;
本实施例中,模型是运用数理逻辑方法和数学语言构建的数学模型,而机器学习就是让计算机从已有的数据中学习出新的知识,也就是根据筛选出的就诊数据作为训练数据进行系统的学习,比如如何识别数据异常等。简单的说,开发员只需要把大量数据,即将筛选出的就诊数据输入给计算机,然后由计算机自己总结出其中的数据分析逻辑,归纳出相应的逻辑代码,从而得到一个昂贵项目就诊异常模型。训练的过程就是利用训练样本并结合数据所对应的样本标签、样本特征,即已有的数据确定模型参数的过程。昂贵项目就诊异常模型可以是本地部署也可以是云端在线部署,优选云端在线部署,能够实时更新数据,优化昂贵项目就诊异常模型的准确性与可靠性,同时还能够分布式扩展,进一步满足复杂多变的实际参保人就诊情况。
需要补充说明的是,昂贵项目就诊异常模型是针对这类被医生开具接受昂贵检测项目的参保人的就诊数据而建立的异常识别模型,进而能够更准确可靠地识别出待检测就诊数据是否存在诸如重复就诊、过度医疗检测这类异常的就诊情况。
步骤S30,获取待检测就诊数据,并将待检测就诊数据导入至昂贵项目就诊异常模型进行异常识别,得到识别结果;
本实施例中,待检测就诊数据同样也是参保人到医疗机构就诊所产生的数据,唯一不同的是,该数据不是用于建模而是用来检测是否存在异常情况的,且该数据可以是参保人近几次的就诊数据或近半年的就诊数据,也可以是历史就诊数据,在此不做任何限定。通过昂贵项目就诊异常模型,就可以快速识别出待检测就诊数据是否存在诸如重复就诊、过度医疗检测这类异常的就诊情况,从而遏制医疗机构违规操作,并保障了参保人员的合法利益。应当理解的是,待检测就诊数据是包含有昂贵检测项目的数据,进而通过昂贵项目就诊异常模型能够有针对性的识别出存在的异常。
步骤S40,若待检测就诊数据的识别结果为异常,则确定待检测就诊数据为昂贵项目过度医疗。
本实施例中,待检测就诊数据的识别结果为异常,说明参保人就诊受到不合理的医疗检测,与此同时,医疗机构必定违规操作。昂贵项目过度医疗也就是参保人单日或单月被医生开具接受昂贵项目检测的次数过多。进一步地,针对异常的就诊数据,对违规的医疗机构进行相应处罚,比如降低医疗机构的诚信度、取消医生的处方权、罚款,严重的甚至可以吊销医疗机构的执业资格等,具体根据实际情况进行设置。应当理解的是,若待检测就诊数据的识别结果为正常,则说明参保人就诊受到合理合规的治疗,不存在违规操作。
本实施例中,首先通过接收医疗机构采集并上传的参保人的历史就诊数据,并基于预设筛选规则从历史就诊数据中筛选出符合建模的就诊数据;以筛选出的就诊数据作为训练样本,采用机器学习方式,建立昂贵项目就诊异常模型。然后获取待检测就诊数据,并将待检测就诊数据导入至昂贵项目就诊异常模型进行异常识别,得到识别结果,进而识别出就诊数据是否存在异常情况。若识别结果为异常,则确定待检测就诊数据为昂贵项目过度医疗,说明医疗机构违规操作,从而提高监管医疗机构的力度,完善监督机制,进而促进医疗质量和医疗健康的可持续发展。
进一步地,基于上述实施例,本实施例中,步骤S10,根据历史就诊数据的数据内容与预设昂贵检测项目,筛选出含有预设昂贵检测项目的就诊数据,包括:
步骤a,根据每一历史就诊数据的数据内容与预设昂贵检测项目,筛选出含有预设昂贵检测项目的历史就诊数据,其中,数据内容至少包括就诊时间、检测项目和检测费用;
本实施例中,预设昂贵检测项目至少包括脑尿钠肽BNP、断层扫描CT、核磁共振MRI,还可以包括其他收费贵的项目,具体根据实际情况而设置。其中,脑尿钠肽(Brainnatriuretic peptide,BNP),是由心肌细胞合成的具有生物学活性的天然激素,主要在心室表达,同时也存在于脑组织中。由于正常人血清/血浆BNP水平极低,故BNP水平的升高具有极好的诊断价值。BNP主要用于诊断心力衰竭、监测病程进展、对疗效和预后进行评估,同时用于患者在治疗后对其心室功能的恢复状况进行评估。BNP检测是目前唯一最好的评价心衰的实验室检测指标,其检测快速、敏感、特异,检测该指标来帮助医生做出判断。CT检查是现代一种较先进的医学扫描检查技术,主要是用X线束对人体某部一定厚度的层面进行扫描,由探测器接收透过该层面的X线,转变为可见光后,由光电转换变为电信号,再经模拟/数字转换器(analog/digitalconverter)转为数字,输入计算机处理,构成CT图,供医生来做诊断。CT检测对于中枢神经系统疾病、头颈部疾病、胸部疾病、心脏疾病、腹盆疾病等疾病的诊断有很高的价值。MRI是利用人体内所含质子在磁场内发生的核磁共振现象,收集MR信号,再通过空间编码技术构成图像,供医生来做诊断。MRI检测对于心血管、神经系统、骨与关节、盆腔脏器等的病变定位、定性判断有很高的价值。
本实施例中,由于各医疗机构上传的参保人的历史就诊数据,有的包含有检测项目的相关数据,有的没有,而为提高模型识别的准确性和可靠性,对原始的所有参保人的历史就诊数据进行筛选,具体地,剔除不含有昂贵检测项目的历史就诊数据,而保留含有昂贵检测项目的历史就诊数据,进而减少运算、避免数据冗长,避免影响昂贵项目就诊异常模型的训练。
为进一步理解本发明方案,以参保人的历史就诊数据为例,参保人A的历史就诊数据如表1,参保人B的历史就诊数据如表2,参保人C的历史就诊数据如表3;
就诊时间 | 就诊症状 | 检测项目 | 检测费用 | 就诊用药 | 用药费用 |
2018-1-1 | 感冒 | 无 | 无 | 感冒灵 | 20 |
2018-1-6 | 感冒 | 无 | 无 | 感冒灵 | 20 |
2018-4-5 | 发烧 | 无 | 无 | 退烧药 | 45 |
2018-6-7 | 咳嗽 | 无 | 无 | 止咳糖浆 | 15 |
表1
就诊时间 | 就诊症状 | 检测项目 | 检测费用 | 就诊用药 | 用药费用 |
2017-11-2 | 咳嗽 | 无 | 无 | 止咳糖浆 | 15 |
2018-4-9 | 脑瘤 | 血常规 | 120 | 无 | 无 |
2018-4-12 | 脑瘤 | 尿液 | 100 | 无 | 无 |
2018-4-12 | 脑瘤 | CT | 5000 | 无 | 无 |
2018-4-12 | 脑瘤 | CT | 5000 | 无 | 无 |
2018-4-13 | 脑瘤 | MRI | 6000 | 无 | 无 |
表2
就诊时间 | 就诊症状 | 检测项目 | 检测费用 | 就诊用药 | 用药费用 |
2015-6-3 | 发烧 | 无 | 无 | 退烧药 | 50 |
2018-4-9 | 心律失常 | CT | 5000 | 无 | 无 |
2018-8-3 | 感冒 | 无 | 无 | 感冒灵 | 20 |
表3
由表1-3可知,参保人A的就诊记录没有昂贵检测项目,而参保人B和C的就诊记录均有昂贵检测项目,因而将参保人A剔除,保留参保人B和C的历史就诊数据。
步骤b,根据筛选出的历史就诊数据中的就诊时间和昂贵检测项目,统计得到单日昂贵检测次数和月昂贵检测次数;
本实施例中,为进一步帮助计算机学习,将筛选后的历史就诊数据进行分类,即分为异常和正常这两大类数据,具体地,根据剩余的各历史就诊数据中的就诊时间和昂贵检测项目,统计得到单日昂贵检测次数和月昂贵检测次数。由于剩余的历史就诊数据是有昂贵检测项目的,以参保人B和C为例,统计得到参保人B分别在2018-4-12接受2次CT检测,在2018-4-13接受1次MRI检测,进而统计得到4月份的月昂贵检测次数为3次;参保人C在2018-4-9接受1次CT检测,4月份的月昂贵检测次数为1次。
步骤c,判断历史就诊数据的单日昂贵检测次数和/或月昂贵检测次数是否大于或等于预设阈值;
步骤d,若历史就诊数据的单日昂贵检测次数和/或月昂贵检测次数大于或等于预设阈值,则将历史就诊数据标注为异常就诊数据;
步骤e,若历史就诊数据的单日昂贵检测次数和/或月昂贵检测次数小于预设阈值,则将历史就诊数据标注为正常就诊数据;
步骤f,将标注的异常就诊数据和正常就诊数据合并,得到就诊数据。
本实施例中,由于剩余的历史就诊数据的数量大,以每个参保人为个体,对每个历史就诊数据进行判断,具体地,判断统计得到的单日昂贵检测次数是否大于或等于预设阈值、判断统计得到的月昂贵检测次数是否大于或等于预设阈值,进而得到历史就诊数据是异常还是正常。同时为帮助计算机学习,将分析得到异常还是正常的历史就诊数据打上标签,也就是做标注进行区分,进而计算机可通过标注简单明了的知道数据归为哪一类型,进而为训练模型做好准备。进一步地,为每个昂贵检测项目设置阈值,比如CT单日超过1次、MRI单日超过1次、月CT超过3次、月MRI超过4次等,进而将单日CT超过1次的历史就诊数据标记为异常数据,将单日CT不超过1次的历史就诊数据标记为正常数据。以参保人B和C为例,参保人B在2018-4-12接受2次CT检测,超过预设阈值,标注为异常就诊数据。参保人C单日/月昂贵检测次数均未超过预设阈值,标注为正常就诊数据。
本实施例中,无论是异常还是正常的数据,只要是保留的含有昂贵检测项目的历史就诊数据均为符合建模的就诊数据,这些数据不是正常就是异常,因而将标注的异常就诊数据和正常就诊数据作为建模的就诊数据。
参照图3,图3为图2步骤S20一实施例的细化流程示意图。
基于上述实施例,本实施例中,步骤S20,以筛选出的就诊数据作为训练样本,采用机器学习方式,建立昂贵项目就诊异常模型,包括:
步骤S21,对筛选出的就诊数据进行提取处理,得到特征参数和时序信息;
具体地,步骤S21包括:
1、对筛选出的就诊数据依次进行数据清洗、分词切片和去除无关用词,得到词条,并对词条进行特征提取,得到特征参数;
2、根据特征参数在就诊数据中的时间位置,确定特征参数对应的时序信息。
本实施例中,虽然筛选出的就诊数据是两种不同类型(异常和正常)的就诊数据,但都需要对其进行提取处理,包括数据清洗、分词切片和去除无关用词:a.数据清洗,如清除数据的丢失值、越界值、不一致代码、重复数据等。b.分词切片,如python的结巴分词、中科院的ICTCLAS工具等,也可以基于统计的条件随机场(CRF)算法等,网络新词识别可通过人工添加新词库,或者通过计算N-Grams的内部凝固度来统计频率分词来设计新词发现算法等等。c.去除无关用词,如去除标点符号、乱码、空行、空白字符等。将就诊数据拆分成若干赋有意义的词条,词条包括十二指肠溃疡、慢性胃炎、慢性结肠炎、肩周炎、腰椎病等这类症状词;包括血常规、尿液、凝血、BNP、CT、MRI等这类检测项目词;包括费用、时间节点等词。
本实施例中,特征参数是用于表征物质或现象特性的参数信息,而特征提取是是对词条做进一步处理,如归纳总结、筛选等,得到的特征参数包括:就诊症状及其对应的检测项目、检测费用、就诊时间、就诊次数、检测频率;通过就诊数据,得到参保人员就诊症状为肿瘤、对应的昂贵检测项目为CT、CT的次数、持续检测的频率、CT的检测费用占总检测项目的支出比等等。
本实施例中,时间序列数据库主要用于指处理带时间标签(按照时间的顺序变化,即时间序列化)的数据,带时间标签的数据也称为时间序列数据。从时间维度看就诊数据,可知就诊数据是指对同一对象(参保人)在不同就诊时间(按照时间的顺序变化)所取得的数据。基于时间顺序的特点,每一次就诊所产生的昂贵检测项目、检测费用等必定对应一个时间点,即特征参数在就诊数据中的时间位置,进而确定特征参数对应的时序信息。
步骤S22,以筛选出的就诊数据所对应的参保人的历史就诊数据作为输入量、以该就诊数据处理得到的特征参数和时序信息作为输出量,采用递归神经网络对输入量和输出量的取值样本进行训练,得到昂贵项目就诊异常模型。
本实施例中,通过两种不同类型的就诊数据作为训练昂贵项目就诊异常模型的基本数据,可使计算机深度学习,用以应对不同的用户的就诊数据,进而区分待检测就诊数据是否属于异常类型。筛选出符合建模的就诊数据是标注为异常的历史就诊数据和标注为正常的历史就诊数据,每个历史就诊数据对应一个参保人。每一个就诊数据被提取得到特征参数和时序信息。
本实施例中,递归神经网络(Recurrent Neural Network,简称RNN)是通过添加跨越时间点的自连接隐藏层,并按时间顺序进行建模。建模就是以筛选出符合建模的就诊数据所对应的参保人的历史就诊数据作为输入量、以该就诊数据处理得到的特征参数和时序信息作为输出量,并在建模过程采用以下算法:1.将每个对象(参保人)看作一类,计算两两之间的最小距离;2.将距离最小的两个类合并成一个新类;3.重新计算新类与所有类之间的距离;4.重复2、3,直到所有类最后合并成一类,训练得到昂贵项目就诊异常模型。应当理解的是,每个参保人的就诊数据在模型中可看做一个点,通过模型,即可分析每个参保人的离散程度。
进一步地,在得到昂贵项目就诊异常模型之后,还需对模型的效果进行验证,具体地,采用K折交叉验证或Holdout验证对昂贵项目就诊异常模型进行验证,得到验证结果,进而验证训练完的昂贵项目就诊异常模型的识别效果。K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。Holdout验证并非一种交叉验证,因为数据并没有交叉使用,是随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。一般来说,少于原本样本三分之一的数据被选做验证数据。通过将验证结果反馈给相关维护人员,进而方便维护人员根据验证结果对昂贵项目就诊异常模型进行维护或改进。比如验证结果的总体准确率未达到预设阈值如94%时,维护人员可根据昂贵项目就诊异常模型的输入量和输出量分析数据,优化运算方法,进而改良昂贵项目就诊异常模型;比如验证结果的总体准确率达到预设阈值时,可投入生产使用。
参照图4,图4为图2步骤S30中将待检测就诊数据导入至昂贵项目就诊异常模型进行异常识别,得到识别结果一实施例的细化流程示意图。
基于上述实施例,本实施例中,步骤S30,将待检测就诊数据导入至昂贵项目就诊异常模型进行异常识别,得到识别结果,包括:
步骤S31,将待检测就诊数据导入至昂贵项目就诊异常模型进行异常识别,以得出待检测就诊数据的指标值;
步骤S32,判断指标值是否大于或等于预设标准值;
步骤S33,若指标值大于或等于预设标准值,则确定待检测就诊数据的识别结果为异常;
步骤S34,若指标值小于预设标准值,则确定待检测就诊数据的识别结果为正常。
本实施例中,识别得出指标值,此处指标值可与现有技术一致,如采用有极差指标、四分位间距指标、八分位间距指标、均差指标、标准差指标等,具体根据实际情况进行设置。指标值越大表示变异大、散布广,值小表示离差小,较密集。若待检测就诊数据识别得到的指标值大,说明离散程度大即为异常。若待检测就诊数据识别得到的指标值小,说明离散程度小即为正常。为便于机器判定待检测就诊数据是否异常,预先设置一标准值,预设标准值为模型训练完成后的一个正常就诊数据的临界值,超过这个临界值的均判定为异常。
进一步可选的,在本发明另一实施例中,在步骤S30之后,就诊数据异常识别方法还包括:
步骤A,将待检测就诊数据与筛选出的就诊数据进行合并,用以更新昂贵项目就诊异常模型的训练样本;
步骤B,根据更新的训练样本,对昂贵项目就诊异常模型进行进一步的训练,以得到更新的昂贵项目就诊异常模型。
本实施例中,将待检测就诊数据与筛选出的就诊数据进行合并,是利用不断新增的训练样本,对昂贵项目就诊异常模型进行不断调整和优化,增加了就诊数据的分析数据,有助于分析待检测的就诊数据时,提高更多典型以及精确度高的分析依据,进而提高异常识别的准确度。须知,待检测就诊数据是已经检测完毕的,通过加入检测过的就诊数据,实现实时更新数据,同时更新后的训练样本,其用于训练的数据更多,能够进一步优化和完善昂贵项目就诊异常模型。
参照图5,图5为本发明基于机器学习的就诊数据异常识别方法另一实施例的流程示意图。
基于上述实施例,在步骤S40之后,就诊数据异常识别方法还包括:
步骤S50,获取异常的待检测就诊数据对应的参保人信息和医疗机构信息;
步骤S60,根据参保人信息,向参保人下发维权通知;
步骤S70,根据医疗机构信息,向医疗机构下发违规通知和/或扣费通知。
本实施例中,待检测就诊数据是参保人到医疗机构就诊所产生的数据,包括参保人信息,同时由医疗机构上传至服务器,携带有医疗机构的身份标识等信息,当待检测就诊数据分析确定为异常时,即可通过参保人信息、医疗机构信息确定参保人和医疗机构,进而对应下发通知。向参保人下发维权通知,以供告知用户受到不合理医疗检测、告知用户如何依法维护自己的合法权利。向医疗机构下发违规和/或扣费通知,以供告知医疗机构存在违规操作,对其进行罚款或警告,进而遏制违规现象,并提高监管医疗机构的力度,完善监督机制,进而促进医疗质量和医疗健康的可持续发展。维权通知、违规通知、扣费通知的内容可根据实际情况编写,在此不做任何限定。
需要补充说明的是,步骤S60和步骤S70的先后顺序可以是先步骤S60后步骤S70,也可以是先步骤S70后步骤S60,也可以是步骤S60和步骤S70同时进行,在此不做任何限定。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据异常识别程序,所述数据异常识别程序被处理器执行时实现如上述中任一项所述的基于机器学习的就诊数据异常识别方法的步骤。
本发明计算机可读存储介质具体实施例与上述基于机器学习的就诊数据异常识别方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于机器学习的就诊数据异常识别方法,其特征在于,所述就诊数据异常识别方法包括以下步骤:
接收医疗机构采集并上传的参保人的历史就诊数据,并根据所述历史就诊数据的数据内容与预设昂贵检测项目,筛选出含有所述预设昂贵检测项目的就诊数据,其中,所述预设昂贵检测项目至少包括脑尿钠肽BNP、断层扫描CT、核磁共振MRI;
以筛选出的就诊数据作为训练样本,采用机器学习方式,建立昂贵项目就诊异常模型;
获取待检测就诊数据,并将所述待检测就诊数据导入至所述昂贵项目就诊异常模型进行异常识别,得到识别结果;
若所述待检测就诊数据的识别结果为异常,则确定所述待检测就诊数据为昂贵项目过度医疗。
2.如权利要求1所述的就诊数据异常识别方法,其特征在于,所述根据所述历史就诊数据的数据内容与预设昂贵检测项目,筛选出含有所述预设昂贵检测项目的就诊数据,包括:
根据所述历史就诊数据的数据内容与预设昂贵检测项目,筛选出含有所述预设昂贵检测项目的历史就诊数据,其中,所述数据内容至少包括就诊时间、检测项目和检测费用;
根据筛选出的历史就诊数据中的就诊时间和昂贵检测项目,统计得到单日昂贵检测次数和月昂贵检测次数;
判断历史就诊数据的单日昂贵检测次数和/或月昂贵检测次数是否大于或等于预设阈值;
若历史就诊数据的单日昂贵检测次数和/或月昂贵检测次数大于或等于预设阈值,则将历史就诊数据标注为异常就诊数据;
若历史就诊数据的单日昂贵检测次数和/或月昂贵检测次数小于预设阈值,则将历史就诊数据标注为正常就诊数据;
将标注的异常就诊数据和正常就诊数据合并,得到就诊数据。
3.如权利要求1所述的就诊数据异常识别方法,其特征在于,所述以筛选出的就诊数据作为训练样本,采用机器学习方式,建立昂贵项目就诊异常模型包括:
对筛选出的就诊数据进行提取处理,得到特征参数和时序信息;
以筛选出的就诊数据所对应的参保人的历史就诊数据作为输入量、以该就诊数据处理得到的特征参数和时序信息作为输出量,采用递归神经网络对所述输入量和所述输出量的取值样本进行训练,得到昂贵项目就诊异常模型。
4.如权利要求3所述的就诊数据异常识别方法,其特征在于,所述对筛选出的就诊数据进行提取处理,得到特征参数和时序信息包括:
对筛选出的就诊数据依次进行数据清洗、分词切片和去除无关用词,得到词条,并对所述词条进行特征提取,得到特征参数;
根据所述特征参数在就诊数据中的时间位置,确定特征参数对应的时序信息。
5.如权利要求3所述的就诊数据异常识别方法,其特征在于,在所述得到昂贵项目就诊异常模型的操作之后,所述就诊数据异常识别方法还包括:
采用K折交叉验证或随机交叉Holdout验证对所述昂贵项目就诊异常模型进行验证,得到验证结果,以供维护人员根据所述验证结果对所述昂贵项目就诊异常模型进行维护或改进。
6.如权利要求1所述的就诊数据异常识别方法,其特征在于,所述将所述待检测就诊数据导入至所述昂贵项目就诊异常模型进行异常识别,得到识别结果包括:
将所述待检测就诊数据导入至所述昂贵项目就诊异常模型进行异常识别,以得出所述待检测就诊数据的指标值;
判断所述指标值是否大于或等于预设标准值;
若所述指标值大于或等于预设标准值,则确定所述待检测就诊数据的识别结果为异常;
若所述指标值小于预设标准值,则确定所述待检测就诊数据的识别结果为正常。
7.如权利要求1所述的就诊数据异常识别方法,其特征在于,在所述获取待检测就诊数据,并将所述待检测就诊数据导入至所述昂贵项目就诊异常模型进行异常识别,得到识别结果的操作之后,所述就诊数据异常识别方法还包括:
将所述待检测就诊数据与筛选出的就诊数据进行合并,用以更新所述昂贵项目就诊异常模型的训练样本;
根据更新的所述训练样本,对所述昂贵项目就诊异常模型进行进一步的训练,以得到更新的昂贵项目就诊异常模型。
8.如权利要求1-7中任一项所述的就诊数据异常识别方法,其特征在于,在所述若所述待检测就诊数据的识别结果为异常,则确定所述待检测就诊数据为昂贵项目过度医疗的操作之后,所述就诊数据异常识别方法还包括:
获取异常的所述待检测就诊数据对应的参保人信息和医疗机构信息;
根据所述参保人信息,向参保人下发维权通知;
根据所述医疗机构信息,向医疗机构下发违规通知和/或扣费通知。
9.一种就诊数据异常识别设备,其特征在于,所述就诊数据异常识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据异常识别程序,所述数据异常识别程序被所述处理器执行时实现如权利要求1至8中任一项所述的基于机器学习的就诊数据异常识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据异常识别程序,所述数据异常识别程序被处理器执行时实现如权利要求1至8中任一项所述的基于机器学习的就诊数据异常识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811530979.8A CN109685671A (zh) | 2018-12-13 | 2018-12-13 | 基于机器学习的就诊数据异常识别方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811530979.8A CN109685671A (zh) | 2018-12-13 | 2018-12-13 | 基于机器学习的就诊数据异常识别方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109685671A true CN109685671A (zh) | 2019-04-26 |
Family
ID=66186850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811530979.8A Pending CN109685671A (zh) | 2018-12-13 | 2018-12-13 | 基于机器学习的就诊数据异常识别方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109685671A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110179465A (zh) * | 2019-05-27 | 2019-08-30 | 东南大学附属中大医院 | 机械通气脱机量化评估方法、装置、设备和存储介质 |
CN110838118A (zh) * | 2019-09-24 | 2020-02-25 | 上海联影智能医疗科技有限公司 | 用于医疗过程中异常检测的系统和方法 |
CN111180055A (zh) * | 2019-12-31 | 2020-05-19 | 重庆亚德科技股份有限公司 | 一种医院监管系统及方法 |
CN111445343A (zh) * | 2020-03-23 | 2020-07-24 | 平安医疗健康管理股份有限公司 | 风险医疗数据的识别方法、装置、计算机设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101359325A (zh) * | 2007-08-01 | 2009-02-04 | 北京启明星辰信息技术有限公司 | 一种快速内容分析的多关键词匹配方法 |
CN102013084A (zh) * | 2010-12-14 | 2011-04-13 | 江苏大学 | 用于检测医疗保险门诊欺诈性交易的系统和方法 |
CN102435953A (zh) * | 2011-10-15 | 2012-05-02 | 东北石油大学 | 地震数据处理工作站电源监测仪 |
CN104934028A (zh) * | 2015-06-17 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用于语音合成的深度神经网络模型的训练方法及装置 |
CN105279382A (zh) * | 2015-11-10 | 2016-01-27 | 成都数联易康科技有限公司 | 一种医疗保险异常数据在线智能检测方法 |
CN106295501A (zh) * | 2016-07-22 | 2017-01-04 | 中国科学院自动化研究所 | 基于唇部运动的深度学习身份识别方法 |
CN106531157A (zh) * | 2016-10-28 | 2017-03-22 | 中国科学院自动化研究所 | 语音识别中的正则化口音自适应方法 |
CN107831414A (zh) * | 2017-10-13 | 2018-03-23 | 国网河南省电力公司濮阳供电公司 | 一种用于检测输变电设备异常放电的紫外检测仪 |
CN107871284A (zh) * | 2017-11-22 | 2018-04-03 | 平安科技(深圳)有限公司 | 风险理赔的评估方法及装置 |
CN108197845A (zh) * | 2018-02-28 | 2018-06-22 | 四川新网银行股份有限公司 | 一种基于深度学习模型lstm的交易指标异常的监测方法 |
CN108597609A (zh) * | 2018-05-04 | 2018-09-28 | 华东师范大学 | 一种基于lstm网络的医养结合健康监测方法 |
-
2018
- 2018-12-13 CN CN201811530979.8A patent/CN109685671A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101359325A (zh) * | 2007-08-01 | 2009-02-04 | 北京启明星辰信息技术有限公司 | 一种快速内容分析的多关键词匹配方法 |
CN102013084A (zh) * | 2010-12-14 | 2011-04-13 | 江苏大学 | 用于检测医疗保险门诊欺诈性交易的系统和方法 |
CN102435953A (zh) * | 2011-10-15 | 2012-05-02 | 东北石油大学 | 地震数据处理工作站电源监测仪 |
CN104934028A (zh) * | 2015-06-17 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用于语音合成的深度神经网络模型的训练方法及装置 |
CN105279382A (zh) * | 2015-11-10 | 2016-01-27 | 成都数联易康科技有限公司 | 一种医疗保险异常数据在线智能检测方法 |
CN106295501A (zh) * | 2016-07-22 | 2017-01-04 | 中国科学院自动化研究所 | 基于唇部运动的深度学习身份识别方法 |
CN106531157A (zh) * | 2016-10-28 | 2017-03-22 | 中国科学院自动化研究所 | 语音识别中的正则化口音自适应方法 |
CN107831414A (zh) * | 2017-10-13 | 2018-03-23 | 国网河南省电力公司濮阳供电公司 | 一种用于检测输变电设备异常放电的紫外检测仪 |
CN107871284A (zh) * | 2017-11-22 | 2018-04-03 | 平安科技(深圳)有限公司 | 风险理赔的评估方法及装置 |
CN108197845A (zh) * | 2018-02-28 | 2018-06-22 | 四川新网银行股份有限公司 | 一种基于深度学习模型lstm的交易指标异常的监测方法 |
CN108597609A (zh) * | 2018-05-04 | 2018-09-28 | 华东师范大学 | 一种基于lstm网络的医养结合健康监测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110179465A (zh) * | 2019-05-27 | 2019-08-30 | 东南大学附属中大医院 | 机械通气脱机量化评估方法、装置、设备和存储介质 |
CN110838118A (zh) * | 2019-09-24 | 2020-02-25 | 上海联影智能医疗科技有限公司 | 用于医疗过程中异常检测的系统和方法 |
CN111180055A (zh) * | 2019-12-31 | 2020-05-19 | 重庆亚德科技股份有限公司 | 一种医院监管系统及方法 |
CN111445343A (zh) * | 2020-03-23 | 2020-07-24 | 平安医疗健康管理股份有限公司 | 风险医疗数据的识别方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878948B2 (en) | Mid-protocol evaluation system | |
CN109615012A (zh) | 基于机器学习的就诊数据异常识别方法、设备及存储介质 | |
Covington et al. | The necessity of the hippocampus for statistical learning | |
Cheng et al. | Home‐based multidimensional survivorship programmes for breast cancer survivors | |
CN109685671A (zh) | 基于机器学习的就诊数据异常识别方法、设备及存储介质 | |
CN109659035A (zh) | 基于机器学习的就诊数据异常识别方法、设备及存储介质 | |
Buist et al. | Influence of annual interpretive volume on screening mammography performance in the United States | |
US20190167179A1 (en) | Methods and system for assessing a cognitive function | |
US20070118399A1 (en) | System and method for integrated learning and understanding of healthcare informatics | |
US20040122704A1 (en) | Integrated medical knowledge base interface system and method | |
CN109256212A (zh) | 骨健康评估模型构建方法、装置、设备、介质及评估方法 | |
CN106415555A (zh) | 用于病理学报告与放射学报告的相关联的系统和方法 | |
Gajardo-Vidal et al. | How distributed processing produces false negatives in voxel-based lesion-deficit analyses | |
EP3847612A2 (en) | Visualization of social determinants of health | |
Liljeqvist et al. | Accuracy of automatic syndromic classification of coded emergency department diagnoses in identifying mental health-related presentations for public health surveillance | |
Gornale et al. | Survey on handwritten signature biometric data analysis for assessment of neurological disorder using machine learning techniques | |
Chiang et al. | Disruption of the atrophy-based functional network in multiple sclerosis is associated with clinical disability: validation of a meta-analytic model in resting-state functional MRI | |
CN109636421A (zh) | 基于机器学习的就诊数据异常识别方法、设备及存储介质 | |
Jacques et al. | Functional neuronal topography: a statistical approach to micro mapping neuronal location | |
Murray et al. | Mokken scales for testing both pre-and postintervention: An analysis of the Clinical Outcomes in Routine Evaluation—Outcome Measure (CORE–OM) before and after counseling. | |
Wang et al. | Visual experience modulates whole‐brain connectivity dynamics: A resting‐state fMRI study using the model of radiologists | |
Ninness et al. | Behavioral and physiological neural network analyses: A common pathway toward pattern recognition and prediction | |
Gao et al. | Interpretable LSTM model reveals transiently-realized patterns of dynamic brain connectivity that predict patient deterioration or recovery from very mild cognitive impairment | |
Tabaa et al. | Covid-19’s rapid diagnosis open platform based on X-ray imaging and deep learning | |
Lebedev et al. | Systematization of the principles and methods of applying for digital medicine in oncology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190426 |