CN110085318A - 预测未来血糖值的方法、装置及计算机设备 - Google Patents
预测未来血糖值的方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN110085318A CN110085318A CN201910185058.0A CN201910185058A CN110085318A CN 110085318 A CN110085318 A CN 110085318A CN 201910185058 A CN201910185058 A CN 201910185058A CN 110085318 A CN110085318 A CN 110085318A
- Authority
- CN
- China
- Prior art keywords
- data
- blood glucose
- sequence
- value
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000008280 blood Substances 0.000 title claims abstract description 253
- 210000004369 blood Anatomy 0.000 title claims abstract description 253
- 239000008103 glucose Substances 0.000 title claims abstract description 178
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 title claims abstract description 164
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000000291 postprandial effect Effects 0.000 claims abstract description 70
- 206010012601 diabetes mellitus Diseases 0.000 claims abstract description 52
- 230000036541 health Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 111
- 208000024891 symptom Diseases 0.000 claims description 48
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 229940079593 drug Drugs 0.000 claims description 27
- 239000003814 drug Substances 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 22
- 238000011156 evaluation Methods 0.000 claims description 21
- 238000010219 correlation analysis Methods 0.000 claims description 17
- 239000000203 mixture Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 125000002791 glucosyl group Chemical group C1([C@H](O)[C@@H](O)[C@H](O)[C@H](O1)CO)* 0.000 claims description 8
- 235000012054 meals Nutrition 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 206010018473 Glycosuria Diseases 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 239000013589 supplement Substances 0.000 claims description 3
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 claims 6
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 claims 6
- 210000001015 abdomen Anatomy 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 57
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000013011 mating Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006641 stabilisation Effects 0.000 description 4
- 238000011105 stabilization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000002784 stomach Anatomy 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 210000002683 foot Anatomy 0.000 description 1
- 210000002216 heart Anatomy 0.000 description 1
- 201000001421 hyperglycemia Diseases 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 210000000578 peripheral nerve Anatomy 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Biomedical Technology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Pathology (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本申请公开了一种预测未来血糖值的方法、装置及计算机设备,涉及计算机技术领域,能有效解决现有技术中只能判断用户当前的血糖值,却无法对用户未来血糖值进行预测的问题。其中方法包括:从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据;利用所述样本用户数据创建血糖值时间序列的预测模型;将目标用户的历史用户数据输入到所述预测模型中,预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列,和餐后两小时血糖值的第二预测序列,其中,所述历史用户数据对应的历史时长小于所述预设时长阈值,所述目标用户和所述样本用户均为糖尿病患者。本申请适用于对目标用户未来血糖值的预测。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及到一种预测未来血糖值的方法、装置及计算机设备。
背景技术
糖尿病是一组以高血糖为特征的代谢性疾病,发病时会导致大血管、微血管受损并危及心、脑、肾、周围神经、眼睛、足等多个部位,还会伴有多种并发症,故加强糖尿病的预测工作是完全必要的。然而随着科技的进步,病种的诊断已经不局限于医生的分析,利用人工智能来预测糖尿病,才是符合如今的发展潮流。
目前业内对于糖尿病预测的常见方法是通过收集糖尿病医案,将糖尿病患者数据与健康人群数据进行对比,构建0-1分类模型,通过患者的各类特征维度数据,判断用户是否患糖尿病。
然而现有的糖尿病预测的方法只能判断没有糖尿病相关医案的用户是否患糖尿病,但针对已有数据且长期随访的用户,却不能进行未来血糖值的预测,不能更好的实现对糖尿病的诊断和治疗。
发明内容
有鉴于此,本申请提供了一种预测未来血糖值的方法、装置及计算机设备,主要目的在于解决当下只能判断出用户是否患糖尿病,却无法预测出未来血糖值,进而不能更好的实现对糖尿病跟踪治疗的问题。
根据本申请的一个方面,提供了一种预测未来血糖值的方法,该方法包括:
从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据;
利用所述样本用户数据创建血糖值时间序列的预测模型;
将目标用户的历史用户数据输入到所述预测模型中,预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列,和餐后两小时血糖值的第二预测序列,其中,所述历史用户数据对应的历史时长小于所述预设时长阈值,所述目标用户和所述样本用户均为糖尿病患者。
根据本申请的另一个方面,提供了一种预测未来血糖值的装置,该装置包括:
提取模块,用于从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据;
创建模块,用于利用所述样本用户数据创建血糖值时间序列的预测模型;
确定模块,用于将目标用户的历史用户数据输入到所述预测模型中,预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列,和餐后两小时血糖值的第二预测序列,其中,所述历史用户数据对应的历史时长小于所述预设时长阈值,所述目标用户和所述样本用户均为糖尿病患者。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述预测未来血糖值的方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述预测未来血糖值的方法。
借由上述技术方案,本申请提供的一种预测未来血糖值的方法、装置及计算机设备,与目前利用构建的0-1分类模型预测糖尿病的方法相比,本申请是依据从原始健康档案和电子病历中提取的样本用户数据,来创建血糖值时间序列的预测模型,将目标用户的历史用户数据输入到预测模型中,进而利用预测模型获取目标用户在预设未来时间段内空腹血糖值的第一预测序列,和餐后预设时长血糖值的第二预测序列,由于样本用户和目标用户均为糖尿病患者,因此可利用预测模型确定与目标用户具有相同或类似用户数据的样本用户,其对应的空腹血糖值时间序列和餐后两小时血糖值时间序列。并且由于样本用户的糖尿病随访记录大于预设时长阈值,而目标用户的历史用户数据对应的历史时长小于该阈值,相当于利用大范围的时间序列判别其包含的小范围时间序列走向,进而可很好的预测出目标用户的未来血糖值变化规律,进而可实时监测糖尿病的发展情况,进行相应的配套治疗,在对糖尿病的治疗控制上具有很大的意义。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种预测未来血糖值的方法的流程示意图;
图2示出了本申请实施例提供的另一种预测未来血糖值的方法的流程示意图;
图3示出了本申请实施例提供的一种预测未来血糖值的装置的结构示意图;
图4示出了本申请实施例提供的另一种预测未来血糖值的装置的结构示意图。
具体实施方式
下文中将参考实施例并结合附图来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前只能判断出用户是否患糖尿病,却无法预测出未来血糖值,进而不能更好的实现对糖尿病跟踪治疗的问题,本实施例提供了一种预测未来血糖值的方法,如图1所示,该方法包括:
101、从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据。
其中,样本用户为糖尿病患者。样本用户数据可包括患者就诊数据、体检指标数据、用药数据和健康告知数据等,就诊数据又包括门诊、住院和用药数据,患者的用药、症状、体征和生活方式等糖尿病随访数据主要来源于各大医院和体检中心。预设时长阈值可根据实际业务需求设定,例如,可设定时间阈值为一年,即获取糖尿病随访记录大于一年的样本用户对应的样本用户数据。
在具体的应用场景中,从原始健康档案和电子病历中提取的样本用户数据中一般包含许多无用数据以及异常数据等,故在利用这些数据创建预测模型之前,需要对这些样本用户数据进行清洗整合从中提取出需要的相关特征,提取方式主要通过正则表达式,正则表达式即对字符串的一种逻辑公式,通过事先定义好的特定字符组合去匹配文本,获取需要的文本及数字。
102、利用样本用户数据创建血糖值时间序列的预测模型。
在本实施例中,从样本用户数据中获取样本用户每次糖尿病随访时的空腹血糖值、餐后两小时血糖值、用药、症状、体征和生活方式等数据,然后基于这些数据创建血糖值时间序列的预测模型,具体可通过时间序列的相关算法训练得到。
通过创建得到的血糖值时间序列的预测模型可以很好的反应出具有不同糖尿病随访特征的样本用户分别对应的空腹血糖值时间序列和餐后两小时血糖值时间序列。
103、将目标用户的历史用户数据输入到预测模型中,预测目标用户在预设未来时间段内空腹血糖值的第一预测序列,和餐后两小时血糖值的第二预测序列。
其中,需要进行未来糖尿病预测的目标用户为糖尿病患者,历史用户数据对应的历史时长小于预设时长阈值。在本实施例中,历史用户数据为目标用户最近一段时间的历史用户数据,例如,最近半年每次糖尿病随访时的空腹血糖值、餐后两小时血糖值、用药、症状、体征和生活方式等数据。
预设未来时间段为根据实际需要进行设定的,使血糖值时间序列的预测模型最终显示出未来该时间段内的血糖值,例如,预设未来时间段可为未来30日;第一预测序列为目标用户在预设未来时间段内空腹血糖值的时间序列;第二预测序列为目标用户在预设未来时间段内餐后两小时血糖值的时间序列。
通过上述预测未来血糖值的方法,依据从原始健康档案和电子病历中提取的样本用户数据,来创建血糖值时间序列的预测模型,将目标用户的历史用户数据输入到预测模型中,进而利用预测模型获取目标用户在预设未来时间段内空腹血糖值的第一预测序列,和餐后预设时长血糖值的第二预测序列,由于样本用户和目标用户均为糖尿病患者,因此可利用预测模型确定与目标用户具有相同或类似用户数据的样本用户,其对应的空腹血糖值时间序列和餐后两小时血糖值时间序列。并且由于样本用户的糖尿病随访记录大于预设时长阈值,而目标用户的历史用户数据对应的历史时长小于该阈值,相当于利用大范围的时间序列判别其包含的小范围时间序列走向,进而可很好的预测出目标用户的未来血糖值变化规律,进而可实时监测糖尿病的发展情况,进行相应的配套治疗,在对糖尿病的治疗控制上具有很大的意义。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本申请实施例中的具体实施过程,提供了另一种预测未来血糖值的方法,如图2所示,该方法包括:
201、从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据。
202、对样本用户数据进行预处理。
由于样本用户数据中通常会存在无用数据以及异常数据等,因此需要样本用户数据进行预处理,获取得到预测模型创建需要的数据,为了说明此过程,作为一种可选方式,步骤202具体可包括:利用正则表达式从样本用户数据中提取空腹血糖值的时序数据和餐后两小时血糖值的时序数据(即对应每次随访时的时序数据);若空腹血糖值的时序数据或餐后两小时血糖的时序数据,在预设历史时间段的部分日期存在一天内具有多条血糖测量数据的情况,则使用多条血糖测量值中的众数作为该天对应的血糖测量值;及若空腹血糖值或餐后两小时血糖值在预设历史时间段内出现血糖测量数据空缺的日期,则使用内插法补充日期对应的空值,得到日颗粒度的血糖序列;最后对日颗粒度的血糖序列,进行差分化移动平滑处理,得到稳定序列。利用这种相对平稳的稳定序列训练模型,可消除噪音,得到的预测模型可预测更加精确的结果。
例如,获取过去一年中样本用户a每次随访时的空腹血糖值的时序数据和餐后两小时血糖值的时序数据,如果存在某一天内具有5条空腹血糖测量值的情况,分别为5.7mmol/L、5.7mmol/L、6.7mmol/L、5.9mmol/L、6.1mmol/L,因在这些空腹血糖测量值中5.7mmol/L为众数,故可用众数5.7mmol/L代替那一天的多次取值;如果存在某一天的餐后两小时血糖值空缺,则利用内插法补充空值,即使用相邻几天对应的餐后两小时血糖值,通过内插法公式计算得到(如已知(X1,Y1)、(X2,Y2),X为X1和X2中间点,那么X对应的Y=Y1+(Y2-Y1)*(X-X1)/(X2-X1)。
通过上述预处理过程使得在过去一年中样本用户a每天都对应一个空腹血糖值和一个餐后两小时血糖值,即两个初始的血糖值时间序列;为了使这两个血糖值时间序列趋势性更加明显,可将这两个血糖值时间序列转化为平稳序列,具体可对这两个血糖值时间序列进行差分以及移动平滑处理。两个初始的血糖值时间序列的差分以及移动平滑处理过程相同,这里以空腹血糖值的时间序列变换为例进行说明,设空腹血糖值的时间序列为yt=f(t),t为每次糖尿病随访的时间,yt为随访时对应的空腹血糖值,一阶差分定义为Δyt=yt+1-yt=f(t+1)-f(t),k阶差分定义为(k=1,2,3…),求解带有k阶差分、且带有未知函数f(t)的差分方程,然后将求得的f(t)带入差分公式中,实现时间序列的差分处理过程。然后对差分处理后得到的时间序列进行移动平滑处理,即获取该时间序列中波动较大的(与各点平均值的差值大于一定阈值)序列点,然后利用各点平均值(这里平均值可利用算术平均数、几何平均数、调和平均数等)代替该点的值。最终通过这样的处理,可使得空腹血糖值的时间序列从非平稳序列转化为稳定序列。
在本实施例中,在对样本用户数据进行预处理后,分两种预测方式进行说明,一种是预测未来空腹血糖值的时间序列(即步骤203a至204a所示过程),另一种是预测餐后两小时血糖值的时间序列(即步骤203b至204b所示过程)。
203a、将预处理后的样本用户数据中空腹血糖值的时序数据作为标签信息Y1,将样本用户数据中除空腹血糖值和餐后两小时血糖值以外的目标特征数据作为特征信息X,创建第一模型训练集。
其中,目标特征数据包括用药数据、症状数据、体征数据、生活方式数据。
结合步骤202中稳定序列转化的可选方式,将预处理后的样本用户数据中空腹血糖值的时序数据作为标签信息Y1的过程,具体可包括:将预处理后的空腹血糖值的稳定序列作为标签信息Y1。
创建得到的第一模型训练集中包含各个特征信息X,以及各自对应的标签信息Y1。即不同糖尿病随访特征的样本用户分别对应的空腹血糖值时间序列。
204a、利用第一模型训练集并结合时间序列算法,训练得到第一识别模型。
其中,时间序列算法可由ARIMA和LSTM两种算法融合得到,第一识别模型的评估采用平均绝对百分比误差(MAPE)指标,当第一识别模型对应的MAPE指标值小于预置标准比较阈值时,确定第一识别模型符合评估标准。MAPE指标用于评估模型预测值和真实值之间的误差,还考虑了误差与真实值之间的比例,其计算公式为:
在上面公式中,N为样本总数,X为实测值,Y为模拟值。MAPE值越小,说明模型预测值和真实值之间的误差越小,在具体实施方式中,可根据实际情况设定标准比较阈值,当MAPE小于标准比较阈值时,说明第一识别模型符合评估标准。通过符合评估标准的识别模型进行预测,可保证预测结果的准确性。
通过符合评估标准的第一识别模型可确定特征信息X和标签信息Y1之间的第一映射关系。
为了说明上述第一识别模型的训练过程,作为一种可选方式,该过程具体包括:
(1)采用随机采样方式从第一模型训练集中分别获取第一训练样本集、第二训练样本集,例如从第一模型训练集中随机抽取n个训练样本,共进行两轮抽取,得到两个训练集。(两个训练集之间相互独立,元素可以有重复);
(2)基于第一训练样本集利用ARIMA算法,训练得到第一分类器;基于第二训练样本集利用LSTM算法,训练得到第二分类器;
其中,每个训练样本集中都包含有不同的特征信息X,以及各自对应的标签信息Y1,这两种分类器的训练过程可基于各自对应的模型训练算法训练得到,且得到的这两种分类器都可单独进行空腹血糖值时间序列的预测,即输入待测用户的特征数据(具体内容对应特征信息X),通过分类器找到相对应的标签信息Y1。
对于第一分类器的具体训练过程:
1)设与特征信息Xi对应的空腹血糖值的时间序列Yi可用Yi={yi1,yi2,…,yik}来表示,其中1至k表示时间点,yit表示Yi第t个时间点的值。ARIMA(p,d,q)模型中有三个参数p,d,q,其中,p表示预测模型中采用的时序数据本身的滞后数;d表示时序数据需要进行几阶差分化才是稳定的;q表示预测模型中采用的预测误差的滞后数。
2)通过步骤202中差分化处理的步骤确定d,而对空腹血糖值的时间序列分别求其自相关系数ACF和偏自相关系数PACF和偏自相关系数PACF;然后利用这两个系数分别生成自相关图和偏自相关图,然后从图中分析得到最佳的阶层p和阶数q。
3)基于上述p,d,q值,得到第一分类器的初始数学形式表示为:
Yi=μ+φ1*f(Xi)+...+φp*f(Xi-p)+θ1*f(Xi-1)+...+θq*f(Xi-q),其中,φ表示自回归AR的系数,θ表示移动平均MA的系数,μ为设定的偏移值(如取相邻两点差值的平均值)。
4)利用上述公式,带入第一训练样本集中的数据进行训练,求解f(Xi),作为第一分类器。
对于第二分类器的具体训练过程:
LSTM相当于门限循环神经网络RNN,LSTM的巧妙之处在于通过增加输入门限,遗忘门限和输出门限,使得自循环的权重是变化的,这样一来在模型参数固定的情况下,不同时刻的积分尺度可以动态改变,从而避免了梯度消失或者梯度膨胀的问题。基于这一原理执行下列步骤:
1)设与特征信息Xi对应的空腹血糖值的时间序列Yi可用Yi={yi1,yi2,…,yik}来表示,其中1至k表示时间点,yit表示Yi第t个时间点的值。
2)利用公式Yi=A[(wf+wi)*f(Xi)/wo+(Bf+Bi)/Bo)],带入第二训练样本集中的数据进行训练,求解f(Xi),作为第二分类器。其中,A为设定的调整参数,wf为遗忘门限对应的权重,wi为输入门限对应的权重,wo为输出门限对应的权重,Bf为遗忘门限对应的补偿值,Bi为输入门限对应的补偿值,Bo为输出门限对应的补偿值。
(3)将第一分类器和第二分类器利用求二者平均时间序列的方式进行融合处理,作为经过一轮训练得到的第一识别模型。
例如,两个分类器得到的结果分别为时间序列Ai{A1,A2….An},时间序列Bi{B1,B2….Bn},将Ai与Bi相加求平均,即最后得到的第一识别模型的预测结果为{(A1+B1)/2,(A2+B2)/2,…(An+Bn)/2}.
进一步的,若根据MAPE指标值确定经过一轮训练得到的第一识别模型不符合评估标准,则重新执行划分第一模型训练集和继续训练不符合标准的第一识别模型的步骤,直至第一识别模型符合标准。例如重新划分第一模型训练集,得到两个新的训练样本集,并利用这两个新的训练样本集对已经训练得到的两个分类器继续进行训练,然后评估由两个新训练的分类器得到的第一识别模型的MAPE指标值,如果仍然不符合评估标准,则再重新执行划分第一模型训练集,重复上述过程,直至第一识别模型符合评估标准。
与步骤203a并列的步骤203b、将预处理后的样本用户数据中餐后两小时血糖值的时序数据作为标签信息Y2,并结合特征信息X,创建第二模型训练集。
结合步骤202中稳定序列转化的可选方式,将预处理后的样本用户数据中餐后两小时血糖值的时序数据作为标签信息Y2,具体包括:将预处理后的餐后两小时血糖值的稳定序列作为标签信息Y2。
204b、利用第二模型训练集并结合时间序列算法,训练得到第二识别模型。
其中,第二识别模型的评估采用MAPE指标,当第二识别模型对应的MAPE指标值小于预定标准比较阈值时,确定第二识别模型符合评估标准,通过符合评估标准的第二识别模型可确定特征信息X和标签信息Y2之间的第二映射关系。
作为一种可选方式,步骤204b具体可包括:采用随机采样方式从第二模型训练集中分别获取第三训练样本集、第四训练样本集;基于第三训练样本集利用ARIMA算法,训练得到第三分类器;基于第四训练样本集利用LSTM算法,训练得到第四分类器;将第三分类器和第四分类器利用求二者平均时间序列的方式进行融合处理,作为经过一轮训练得到的第二识别模型;若根据MAPE指标值确定经过一轮训练得到的第二识别模型不符合评估标准,则重新执行划分第二模型训练集和继续训练不符合标准的第二识别模型的步骤,直至第二识别模型符合标准。
上述可选方式的具体实现过程可参照步骤204a中的实现过程,在此不再赘述。
205、将目标用户的历史用户数据输入到预测模型中,预测目标用户在预设未来时间段内空腹血糖值的第一预测序列,和餐后两小时血糖值的第二预测序列。
作为一种可选方式,步骤205具体可包括:将目标用户的历史用户数据经过预处理,得到目标用户的历史空腹血糖值的稳定序列、历史餐后两小时血糖值的稳定序列、历史用药数据、历史症状数据、历史体征数据、历史生活方式数据;将历史用药数据、历史症状数据、历史体征数据、历史生活方式数据输入到第一识别模型中与特征信息X进行相似度匹配,并利用第一映射关系,确定与相似度大于预设阈值、且相似度最高的所述特征信息X对应的目标标签信息Y1;
将目标标签信息Y1相应的第一目标时间序列与所述历史空腹血糖值的稳定序列进行近似匹配,判定历史空腹血糖值的稳定序列匹配到第一目标时间序列中的第一目标位置,以便利用所述第一目标时间序列中在所述第一目标位置后的空腹血糖值时间序列,确定目标用户在预设未来时间段内空腹血糖值的第一预测序列;将历史用药数据、历史症状数据、历史体征数据、历史生活方式数据输入到第二识别模型中与特征信息X进行相似度匹配,并利用第二映射关系,确定与相似度大于预设阈值、且相似度最高的特征信息X对应的目标标签信息Y2;
将目标标签信息Y2相应的第二目标时间序列与历史餐后两小时血糖值的稳定序列进行近似匹配,判定餐后两小时血糖值的稳定序列匹配到第二目标时间序列中的第二目标位置,以便利用第二目标时间序列中在第二目标位置后的餐后两小时血糖值时间序列,确定目标用户在预设未来时间段内餐后两小时血糖值的第二预测序列。
其中,预定阈值可根据实际需求预先设置。例如,预定阈值设置得越大,相应的特征匹配精度越高,如果相似度为100%,则说明特征完全匹配。
通过上述获取空腹血糖的第一预测序列和餐后预设时长血糖的第二预测序列的方法,对预设历史时间段内的目标用户数据中空腹血糖和餐后两小时血糖的时序数据进行清洗和内插的预处理,以得到目标用户对应的预设历史时间段内日颗粒度的目标血糖序列,将目标用户数据结构化处理,方便血糖值预测模型结合目标用户的历史数据进行血糖值的预测,为了使目标用户的历史血糖序列趋势性更加明显,将历史血糖序列转化为平稳序列输出,对数据进行差分以及移动平滑处理,便于准确分析出目标用户的第一预测序列和第二预测序列。
例如,在预测模型输入目标用户最近3个月的用药、症状、体征和生活方式等糖尿病随访数据后,相当于将这些数据分别输入到上述步骤204a的两个分类器中,并与分类器各自对应的特征信息进行相似度匹配,分别找到最相似且大于一定阈值的特征信息,进而通过这两个分类器分别求出各自对应的空腹血糖值时间序列,然后通过相加求平均的方式得到最终的空腹血糖值时间序列B,该序列B相当于与目标用户具有相似特征的样本用户在最近1年内的空腹血糖值波动情况,将目标用户这3个月的空腹血糖值时间序列A与样本用户这1年内的空腹血糖值时间序列B进行匹配,找到序列A在序列B中的位置,然后将该位置以后的序列数据作为目标用户的未来空腹血糖值的时间序列,即代表目标用户的未来空腹血糖值的变化情况。
利用相同方法,将目标用户的用药、症状、体征和生活方式等糖尿病随访数据输入到上述步骤204b的两个分类器中,最后可求出代表目标用户的未来餐后两小时血糖值变化情况的餐后两小时血糖值时间序列。
在本实施例中,除了计算出目标用户的未来血糖值变化情况以外,还可进一步分析得到影响未来血糖变化的影响因素,即执行步骤206至208所示过程。
206、从目标用户的历史用户数据中获取目标用户每次随访的用药数据、症状数据、体征数据、生活方式数据、空腹血糖值、餐后两小时血糖值。
207、将每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的空腹血糖值之间进行相关分析计算,依据得到的相关分析计算结果判定影响第一预测序列中血糖指标变化的影响因素。
作为一种可选方式,在步骤207之前还包括:获取每次随访用药组成的用药评分值序列、每次随访症状组成的症状评分值序列、每次随访体征组成的体征评分值序列、每次随访生活方式组成的生活作息评分值序列、每次随访测量的空腹血糖值序列和餐后两小时血糖值序列。
在本可选方式中,可依据每次糖尿病随访时的用药情况进行评分(如药剂量越大评分越高),依据每次糖尿病随访时出现的症状情况进行评分(如症状数越多评分越高、出现异常症状时评分也较高等),依据每次糖尿病随访时出现的体征情况进行评分(如体征越异常评分越高),依据每次糖尿病随访时记录的生活方式情况进行评分(如生活作息越异常评分越高)。
相应的,步骤207具体可包括:计算用药评分值序列、症状评分值序列、体征评分值序列、生活作息评分值序列分别与空腹血糖值序列之间的相关系数的第一绝对值;依据用药评分值序列、症状评分值序列、体征评分值序列、生活作息评分值序列中获取第一绝对值最高的一项或多项,确定影响第一预测序列中血糖指标变化的关键影响因素。
例如,可利用计算公式为:
计算相关系数。其中,ρX,Y为X序列与Y序列二者之间的相关系数,σX为X序列的标准差,μX为X序列的平均值,σY为Y序列的标准差,μY为Y序列的平均值,E()用于计算期望。如用药评分值序列与空腹血糖值序列之间的相关系数的绝对值最高,那么目标用户的用药情况是影响未来空腹血糖值变化的关键影响因素。
208、将每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的餐后两小时血糖值之间进行相关分析计算,依据得到的相关分析计算结果判定影响所述第二预测序列中血糖指标变化的影响因素。
基于步骤207中的可选方式过程,相应的,步骤208具体可包括:计算用药评分值序列、症状评分值序列、体征评分值序列、生活作息评分值序列分别与餐后两小时血糖值序列之间的相关系数的第二绝对值;依据用药评分值序列、症状评分值序列、体征评分值序列、生活作息评分值序列中获取第二绝对值最高的一项或多项,确定影响第二预测序列中血糖指标变化的关键影响因素。
例如,可利用上述计算公式,计算用药评分值序列、症状评分值序列、体征评分值序列、生活作息评分值序列分别与餐后两小时血糖值序列之间的相关系数。如用生活作息评分值序列与餐后两小时血糖值序列之间的相关系数的绝对值最高,那么目标用户的生活方式情况是影响未来餐后两小时血糖值变化的关键影响因素。
通过上述预测未来血糖值的方法,可很好的预测出目标用户的未来血糖值变化规律,进而可实时监测糖尿病的发展情况,进行相应的配套治疗,在对糖尿病的治疗控制上具有很大的意义;并且还可判断出影响未来血糖指标变化的重要因素,可使诊断结果更加完善,覆盖类型更全面,从而能为患者及医生提供更好的治疗依据。
进一步的,作为图1和图2所示方法的具体体现,本申请实施例提供了一种预测未来血糖值的装置,如图3所示,该装置包括:提取模块31、创建模块32、确定模块33。
提取模块31,可用于从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据;
创建模块32,可用于利用所述样本用户数据创建血糖值时间序列的预测模型;
确定模块33,可用于将目标用户的历史用户数据输入到所述预测模型中,预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列,和餐后两小时血糖值的第二预测序列,其中,所述历史用户数据对应的历史时长小于所述预设时长阈值,所述目标用户和所述样本用户均为糖尿病患者。
在具体的应用场景中,为了创建出血糖值时间序列的预测模型,如图4所示,创建模块32,具体可包括:处理单元321、创建单元322、训练单元323。
处理单元321,可用于对样本用户数据进行预处理;
创建单元322,可用于将预处理后的所述样本用户数据中空腹血糖值的时序数据作为标签信息Y1,将所述样本用户数据中除空腹血糖值和餐后两小时血糖值以外的目标特征数据作为特征信息X,创建第一模型训练集,其中,所述目标特征数据包括用药数据、症状数据、体征数据、生活方式数据;
训练单元323,可用于利用所述第一模型训练集并结合时间序列算法,训练得到第一识别模型,其中,所述时间序列算法由ARIMA和LSTM两种算法融合得到,所述第一识别模型的评估采用平均绝对百分比误差MAPE指标,当所述第一识别模型对应的MAPE指标值小于预置标准比较阈值时,确定所述第一识别模型符合评估标准,通过符合评估标准的所述第一识别模型可确定所述特征信息X和所述标签信息Y1之间的第一映射关系;
创建单元322,还可用于将预处理后的所述样本用户数据中餐后两小时血糖值的时序数据作为标签信息Y2,并结合所述特征信息X,创建第二模型训练集;
训练单元323,还可用于利用所述第二模型训练集并结合所述时间序列算法,训练得到第二识别模型,其中,所述第二识别模型的评估采用MAPE指标,当所述第二识别模型对应的MAPE指标值小于预定标准比较阈值时,确定所述第二识别模型符合评估标准,通过符合评估标准的所述第二识别模型可确定所述特征信息X和所述标签信息Y2之间的第二映射关系。
在具体的应用场景中,处理单元321,具体可用于利用正则表达式从所述样本用户数据中提取空腹血糖值的时序数据和餐后两小时血糖值的时序数据;若所述空腹血糖值的时序数据或所述餐后两小时血糖的时序数据,在预设历史时间段的部分日期存在一天内具有多条血糖测量数据的情况,则使用所述多条血糖测量值中的众数作为该天对应的血糖测量值;及若所述空腹血糖值或所述餐后两小时血糖值在所述预设历史时间段内出现血糖测量数据空缺的日期,则使用内插法补充所述日期对应的空值,得到日颗粒度的血糖序列;对所述日颗粒度的血糖序列,进行差分化移动平滑处理,得到稳定序列;
创建单元322,具体可用于将预处理后的所述空腹血糖值的稳定序列作为标签信息Y1;
创建单元322,具体还可用于将预处理后的所述餐后两小时血糖值的稳定序列作为标签信息Y2。
在具体的应用场景中,确定模块33,具体可用于将所述目标用户的历史用户数据经过预处理,得到所述目标用户的历史空腹血糖值的稳定序列、历史餐后两小时血糖值的稳定序列、历史用药数据、历史症状数据、历史体征数据、历史生活方式数据;将所述历史用药数据、所述历史症状数据、所述历史体征数据、所述历史生活方式数据输入到所述第一识别模型中与所述特征信息X进行相似度匹配,并利用所述第一映射关系,确定与相似度大于预设阈值、且相似度最高的所述特征信息X对应的目标标签信息Y1;将所述目标标签信息Y1相应的第一目标时间序列与所述历史空腹血糖值的稳定序列进行近似匹配,判定所述历史空腹血糖值的稳定序列匹配到所述第一目标时间序列中的第一目标位置,以便利用所述第一目标时间序列中在所述第一目标位置后的空腹血糖值时间序列,确定所述目标用户在预设未来时间段内空腹血糖值的第一预测序列;将所述历史用药数据、所述历史症状数据、所述历史体征数据、所述历史生活方式数据输入到所述第二识别模型中与所述特征信息X进行相似度匹配,并利用所述第二映射关系,确定与相似度大于预设阈值、且相似度最高的所述特征信息X对应的目标标签信息Y2;将所述目标标签信息Y2相应的第二目标时间序列与所述历史餐后两小时血糖值的稳定序列进行近似匹配,判定所述餐后两小时血糖值的稳定序列匹配到所述第二目标时间序列中的第二目标位置,以便利用所述第二目标时间序列中在所述第二目标位置后的餐后两小时血糖值时间序列,确定所述目标用户在预设未来时间段内餐后两小时血糖值的第二预测序列。
在具体的应用场景中,训练单元323,具体可用于采用随机采样方式从所述第一模型训练集中分别获取第一训练样本集、第二训练样本集;基于所述第一训练样本集利用ARIMA算法,训练得到第一分类器;基于所述第二训练样本集利用LSTM算法,训练得到第二分类器;将所述第一分类器和所述第二分类器利用求二者平均时间序列的方式进行融合处理,作为经过一轮训练得到的第一识别模型;若根据MAPE指标值确定所述经过一轮训练得到的第一识别模型不符合评估标准,则重新执行划分所述第一模型训练集和继续训练不符合标准的所述第一识别模型的步骤,直至所述第一识别模型符合标准;
训练单元323,具体还可用于采用随机采样方式从所述第二模型训练集中分别获取第三训练样本集、第四训练样本集;基于所述第三训练样本集利用ARIMA算法,训练得到第三分类器;基于所述第四训练样本集利用LSTM算法,训练得到第四分类器;将所述第三分类器和所述第四分类器利用求二者平均时间序列的方式进行融合处理,作为经过一轮训练得到的第二识别模型;若根据MAPE指标值确定所述经过一轮训练得到的第二识别模型不符合评估标准,则重新执行划分所述第二模型训练集和继续训练不符合标准的所述第二识别模型的步骤,直至所述第二识别模型符合标准。
在具体的应用场景中,如图4所示,本装置还包括:计算模块34;
提取模块31,还可用于从所述历史用户数据中获取所述目标用户每次随访的用药数据、症状数据、体征数据、生活方式数据、空腹血糖值、餐后两小时血糖值;
计算模块34,可用于将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的空腹血糖值之间进行相关分析计算,依据得到的相关分析计算结果判定影响所述第一预测序列中血糖指标变化的影响因素;及将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的餐后两小时血糖值之间进行相关分析计算,依据得到的相关分析计算结果判定影响所述第二预测序列中血糖指标变化的影响因素。
在具体的应用场景中,提取模块31,还可用于获取每次随访用药组成的用药评分值序列、每次随访症状组成的症状评分值序列、每次随访体征组成的体征评分值序列、每次随访生活方式组成的生活作息评分值序列、每次随访测量的空腹血糖值序列和餐后两小时血糖值序列;
计算模块34,具体可用于计算所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列分别与所述空腹血糖值序列之间的相关系数的第一绝对值;依据所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列中获取所述第一绝对值最高的一项或多项,确定影响所述第一预测序列中血糖指标变化的关键影响因素;
计算模块34,具体还可用于计算所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列分别与所述餐后两小时血糖值序列之间的相关系数的第二绝对值;依据所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列中获取所述第二绝对值最高的一项或多项,确定影响所述第二预测序列中血糖指标变化的关键影响因素。
需要说明的是,本实施例提供的一种预测预测未来血糖值的装置所涉及各功能模块的其它相应描述,可以参考图1至图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的预测未来血糖值的方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的预测未来血糖值的方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是管理预测未来血糖值的实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有技术相比,本申请可很好的预测出目标用户的未来血糖值变化规律,进而可实时监测糖尿病的发展情况,进行相应的配套治疗,在对糖尿病的治疗控制上具有很大的意义;并且还可判断出影响未来血糖指标变化的重要因素,可使诊断结果更加完善,覆盖类型更全面,从而能为患者及医生提供更好的治疗依据。。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种预测未来血糖值的方法,其特征在于,包括:
从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据;
利用所述样本用户数据创建血糖值时间序列的预测模型;
将目标用户的历史用户数据输入到所述预测模型中,预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列,和餐后两小时血糖值的第二预测序列,其中,所述历史用户数据对应的历史时长小于所述预设时长阈值,所述目标用户和所述样本用户均为糖尿病患者。
2.根据权利要求1所述的方法,其特征在于,所述利用所述样本用户数据创建血糖值时间序列的预测模型,具体包括:
对样本用户数据进行预处理;
将预处理后的所述样本用户数据中空腹血糖值的时序数据作为标签信息Y1,将所述样本用户数据中除空腹血糖值和餐后两小时血糖值以外的目标特征数据作为特征信息X,创建第一模型训练集,其中,所述目标特征数据包括用药数据、症状数据、体征数据、生活方式数据;
利用所述第一模型训练集并结合时间序列算法,训练得到第一识别模型,其中,所述时间序列算法由ARIMA和LSTM两种算法融合得到,所述第一识别模型的评估采用平均绝对百分比误差MAPE指标,当所述第一识别模型对应的MAPE指标值小于预置标准比较阈值时,确定所述第一识别模型符合评估标准,通过符合评估标准的所述第一识别模型可确定所述特征信息X和所述标签信息Y1之间的第一映射关系;
将预处理后的所述样本用户数据中餐后两小时血糖值的时序数据作为标签信息Y2,并结合所述特征信息X,创建第二模型训练集;
利用所述第二模型训练集并结合所述时间序列算法,训练得到第二识别模型,其中,所述第二识别模型的评估采用MAPE指标,当所述第二识别模型对应的MAPE指标值小于预定标准比较阈值时,确定所述第二识别模型符合评估标准,通过符合评估标准的所述第二识别模型可确定所述特征信息X和所述标签信息Y2之间的第二映射关系。
3.根据权利要求2所述的方法,其特征在于,所述对样本用户数据进行预处理,具体包括:
利用正则表达式从所述样本用户数据中提取空腹血糖值的时序数据和餐后两小时血糖值的时序数据;
若所述空腹血糖值的时序数据或所述餐后两小时血糖的时序数据,在预设历史时间段的部分日期存在一天内具有多条血糖测量数据的情况,则使用所述多条血糖测量值中的众数作为该天对应的血糖测量值;及
若所述空腹血糖值或所述餐后两小时血糖值在所述预设历史时间段内出现血糖测量数据空缺的日期,则使用内插法补充所述日期对应的空值,得到日颗粒度的血糖序列;
对所述日颗粒度的血糖序列,进行差分化移动平滑处理,得到稳定序列;
所述将预处理后的所述样本用户数据中空腹血糖值的时序数据作为标签信息Y1,具体包括:
将预处理后的所述空腹血糖值的稳定序列作为标签信息Y1;
所述将预处理后的所述样本用户数据中餐后两小时血糖值的时序数据作为标签信息Y2,具体包括:
将预处理后的所述餐后两小时血糖值的稳定序列作为标签信息Y2。
4.根据权利要求3所述的方法,其特征在于,所述将目标用户的历史用户数据输入到所述预测模型中,预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列,和餐后两小时血糖值的第二预测序列,具体包括:
将所述目标用户的历史用户数据经过预处理,得到所述目标用户的历史空腹血糖值的稳定序列、历史餐后两小时血糖值的稳定序列、历史用药数据、历史症状数据、历史体征数据、历史生活方式数据;
将所述历史用药数据、所述历史症状数据、所述历史体征数据、所述历史生活方式数据输入到所述第一识别模型中与所述特征信息X进行相似度匹配,并利用所述第一映射关系,确定与相似度大于预设阈值、且相似度最高的所述特征信息X对应的目标标签信息Y1;
将所述目标标签信息Y1相应的第一目标时间序列与所述历史空腹血糖值的稳定序列进行近似匹配,判定所述历史空腹血糖值的稳定序列匹配到所述第一目标时间序列中的第一目标位置,以便利用所述第一目标时间序列中在所述第一目标位置后的空腹血糖值时间序列,确定所述目标用户在预设未来时间段内空腹血糖值的第一预测序列;
将所述历史用药数据、所述历史症状数据、所述历史体征数据、所述历史生活方式数据输入到所述第二识别模型中与所述特征信息X进行相似度匹配,并利用所述第二映射关系,确定与相似度大于预设阈值、且相似度最高的所述特征信息X对应的目标标签信息Y2;
将所述目标标签信息Y2相应的第二目标时间序列与所述历史餐后两小时血糖值的稳定序列进行近似匹配,判定所述餐后两小时血糖值的稳定序列匹配到所述第二目标时间序列中的第二目标位置,以便利用所述第二目标时间序列中在所述第二目标位置后的餐后两小时血糖值时间序列,确定所述目标用户在预设未来时间段内餐后两小时血糖值的第二预测序列。
5.根据权利要求2所述的方法,其特征在于,所述利用所述第一模型训练集并结合时间序列算法,训练得到第一识别模型,具体包括:
采用随机采样方式从所述第一模型训练集中分别获取第一训练样本集、第二训练样本集;
基于所述第一训练样本集利用ARIMA算法,训练得到第一分类器;
基于所述第二训练样本集利用LSTM算法,训练得到第二分类器;
将所述第一分类器和所述第二分类器利用求二者平均时间序列的方式进行融合处理,作为经过一轮训练得到的第一识别模型;
若根据MAPE指标值确定所述经过一轮训练得到的第一识别模型不符合评估标准,则重新执行划分所述第一模型训练集和继续训练不符合标准的所述第一识别模型的步骤,直至所述第一识别模型符合标准;
所述利用所述第二模型训练集并结合所述时间序列算法,训练得到第二识别模型,具体包括:
采用随机采样方式从所述第二模型训练集中分别获取第三训练样本集、第四训练样本集;
基于所述第三训练样本集利用ARIMA算法,训练得到第三分类器;
基于所述第四训练样本集利用LSTM算法,训练得到第四分类器;
将所述第三分类器和所述第四分类器利用求二者平均时间序列的方式进行融合处理,作为经过一轮训练得到的第二识别模型;
若根据MAPE指标值确定所述经过一轮训练得到的第二识别模型不符合评估标准,则重新执行划分所述第二模型训练集和继续训练不符合标准的所述第二识别模型的步骤,直至所述第二识别模型符合标准。
6.根据权利要求1所述的方法,其特征在于,在所述将目标用户的历史用户数据输入到所述预测模型中,预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列,和餐后两小时血糖值的第二预测序列之后,所述方法还包括:
从所述历史用户数据中获取所述目标用户每次随访的用药数据、症状数据、体征数据、生活方式数据、空腹血糖值、餐后两小时血糖值;
将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的空腹血糖值之间进行相关分析计算,依据得到的相关分析计算结果判定影响所述第一预测序列中血糖指标变化的影响因素;及
将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的餐后两小时血糖值之间进行相关分析计算,依据得到的相关分析计算结果判定影响所述第二预测序列中血糖指标变化的影响因素。
7.根据权利要求6所述的方法,其特征在于,在所述将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的空腹血糖值之间进行相关分析计算,依据得到的相关分析计算结果判定影响所述第一预测序列中血糖指标变化的影响因素之前,所述方法还包括:
获取每次随访用药组成的用药评分值序列、每次随访症状组成的症状评分值序列、每次随访体征组成的体征评分值序列、每次随访生活方式组成的生活作息评分值序列、每次随访测量的空腹血糖值序列和餐后两小时血糖值序列;
所述将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的空腹血糖值之间进行相关分析计算,依据得到的相关分析计算结果判定影响所述第一预测序列中血糖指标变化的影响因素,具体包括:
计算所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列分别与所述空腹血糖值序列之间的相关系数的第一绝对值;
依据所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列中获取所述第一绝对值最高的一项或多项,确定影响所述第一预测序列中血糖指标变化的关键影响因素;
所述将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的餐后两小时血糖值之间进行相关分析计算,依据得到的相关分析计算结果判定影响所述第二预测序列中血糖指标变化的影响因素,具体包括:
计算所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列分别与所述餐后两小时血糖值序列之间的相关系数的第二绝对值;
依据所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列中获取所述第二绝对值最高的一项或多项,确定影响所述第二预测序列中血糖指标变化的关键影响因素。
8.一种预测未来血糖值的装置,其特征在于,包括:
提取模块,用于从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据;
创建模块,用于利用所述样本用户数据创建血糖值时间序列的预测模型;
确定模块,用于将目标用户的历史用户数据输入到所述预测模型中,预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列,和餐后两小时血糖值的第二预测序列,其中,所述历史用户数据对应的历史时长小于所述预设时长阈值,所述目标用户和所述样本用户均为糖尿病患者。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的预测未来血糖值的方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的预测未来血糖值的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910185058.0A CN110085318A (zh) | 2019-03-12 | 2019-03-12 | 预测未来血糖值的方法、装置及计算机设备 |
PCT/CN2019/117222 WO2020181806A1 (zh) | 2019-03-12 | 2019-11-11 | 预测未来血糖值的方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910185058.0A CN110085318A (zh) | 2019-03-12 | 2019-03-12 | 预测未来血糖值的方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110085318A true CN110085318A (zh) | 2019-08-02 |
Family
ID=67413150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910185058.0A Pending CN110085318A (zh) | 2019-03-12 | 2019-03-12 | 预测未来血糖值的方法、装置及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110085318A (zh) |
WO (1) | WO2020181806A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782989A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 数据分析方法、装置、设备及计算机可读存储介质 |
CN111383758A (zh) * | 2020-03-06 | 2020-07-07 | 三七二二(北京)健康咨询有限公司 | 基于多维数据预测餐后血糖的方法和装置 |
WO2020181806A1 (zh) * | 2019-03-12 | 2020-09-17 | 平安科技(深圳)有限公司 | 预测未来血糖值的方法、装置及计算机设备 |
CN112102953A (zh) * | 2020-10-22 | 2020-12-18 | 平安科技(深圳)有限公司 | 个性化糖尿病健康管理系统、设备及存储介质 |
CN112489798A (zh) * | 2019-09-12 | 2021-03-12 | 金安国科智能科技(北京)有限公司 | 一种人体状态评价、人体数据可视化方法、装置、设备及介质 |
CN113113142A (zh) * | 2021-04-09 | 2021-07-13 | 长沙理工大学 | 一种利用智能分析技术对糖尿病患病风险的预测方法 |
CN113628755A (zh) * | 2021-08-20 | 2021-11-09 | 东南大学附属中大医院 | 患者的血糖控制方法、装置、设备以及存储介质 |
CN113951879A (zh) * | 2021-12-21 | 2022-01-21 | 苏州百孝医疗科技有限公司 | 血糖预测方法和装置、监测血糖水平的系统 |
CN114021672A (zh) * | 2022-01-06 | 2022-02-08 | 苏州百孝医疗科技有限公司 | 标签生成方法和装置、监控血糖水平的系统 |
CN114287013A (zh) * | 2019-09-25 | 2022-04-05 | 株式会社东芝 | 检查值预测装置、检查值预测系统、检查值预测方法以及程序 |
CN114530250A (zh) * | 2022-04-24 | 2022-05-24 | 广东工业大学 | 基于数据增强的可穿戴血糖检测方法、系统及存储介质 |
CN117612737A (zh) * | 2024-01-24 | 2024-02-27 | 胜利油田中心医院 | 一种糖尿病护理数据智能优化方法 |
WO2024104169A1 (zh) * | 2022-11-14 | 2024-05-23 | 华为技术有限公司 | 一种健康管理的方法、装置、系统、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150347707A1 (en) * | 2014-05-30 | 2015-12-03 | Anthony Michael Albisser | Computer-Implemented System And Method For Improving Glucose Management Through Cloud-Based Modeling Of Circadian Profiles |
CN108766578A (zh) * | 2018-05-16 | 2018-11-06 | 清华大学深圳研究生院 | 一种血糖预测方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310113B (zh) * | 2013-06-24 | 2016-03-30 | 浙江大学 | 一种基于频带分离和数据建模的通用血糖预测方法 |
CN106384013A (zh) * | 2016-09-28 | 2017-02-08 | 湖南老码信息科技有限责任公司 | 一种基于增量式神经网络模型的ii型糖尿病预测方法和预测系统 |
US20180150609A1 (en) * | 2016-11-29 | 2018-05-31 | Electronics And Telecommunications Research Institute | Server and method for predicting future health trends through similar case cluster based prediction models |
CN110085318A (zh) * | 2019-03-12 | 2019-08-02 | 平安科技(深圳)有限公司 | 预测未来血糖值的方法、装置及计算机设备 |
-
2019
- 2019-03-12 CN CN201910185058.0A patent/CN110085318A/zh active Pending
- 2019-11-11 WO PCT/CN2019/117222 patent/WO2020181806A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150347707A1 (en) * | 2014-05-30 | 2015-12-03 | Anthony Michael Albisser | Computer-Implemented System And Method For Improving Glucose Management Through Cloud-Based Modeling Of Circadian Profiles |
CN108766578A (zh) * | 2018-05-16 | 2018-11-06 | 清华大学深圳研究生院 | 一种血糖预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
陈红缨: "《疾病监测分析实用指南》", 31 October 2018, 湖北科学技术出版社 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020181806A1 (zh) * | 2019-03-12 | 2020-09-17 | 平安科技(深圳)有限公司 | 预测未来血糖值的方法、装置及计算机设备 |
CN112489798A (zh) * | 2019-09-12 | 2021-03-12 | 金安国科智能科技(北京)有限公司 | 一种人体状态评价、人体数据可视化方法、装置、设备及介质 |
CN110782989A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 数据分析方法、装置、设备及计算机可读存储介质 |
CN114287013A (zh) * | 2019-09-25 | 2022-04-05 | 株式会社东芝 | 检查值预测装置、检查值预测系统、检查值预测方法以及程序 |
CN111383758A (zh) * | 2020-03-06 | 2020-07-07 | 三七二二(北京)健康咨询有限公司 | 基于多维数据预测餐后血糖的方法和装置 |
CN112102953B (zh) * | 2020-10-22 | 2023-06-16 | 平安科技(深圳)有限公司 | 个性化糖尿病健康管理系统、设备及存储介质 |
CN112102953A (zh) * | 2020-10-22 | 2020-12-18 | 平安科技(深圳)有限公司 | 个性化糖尿病健康管理系统、设备及存储介质 |
WO2022083124A1 (zh) * | 2020-10-22 | 2022-04-28 | 平安科技(深圳)有限公司 | 个性化糖尿病健康管理系统、设备及存储介质 |
CN113113142A (zh) * | 2021-04-09 | 2021-07-13 | 长沙理工大学 | 一种利用智能分析技术对糖尿病患病风险的预测方法 |
CN113628755A (zh) * | 2021-08-20 | 2021-11-09 | 东南大学附属中大医院 | 患者的血糖控制方法、装置、设备以及存储介质 |
CN113628755B (zh) * | 2021-08-20 | 2024-03-12 | 东南大学附属中大医院 | 患者的血糖控制方法、装置、设备以及存储介质 |
CN113951879A (zh) * | 2021-12-21 | 2022-01-21 | 苏州百孝医疗科技有限公司 | 血糖预测方法和装置、监测血糖水平的系统 |
CN114021672A (zh) * | 2022-01-06 | 2022-02-08 | 苏州百孝医疗科技有限公司 | 标签生成方法和装置、监控血糖水平的系统 |
WO2023130599A1 (zh) * | 2022-01-06 | 2023-07-13 | 苏州百孝医疗科技有限公司 | 标签生成方法和装置、监控血糖水平的系统 |
CN114530250B (zh) * | 2022-04-24 | 2022-08-02 | 广东工业大学 | 基于数据增强的可穿戴血糖检测方法、系统及存储介质 |
CN114530250A (zh) * | 2022-04-24 | 2022-05-24 | 广东工业大学 | 基于数据增强的可穿戴血糖检测方法、系统及存储介质 |
WO2024104169A1 (zh) * | 2022-11-14 | 2024-05-23 | 华为技术有限公司 | 一种健康管理的方法、装置、系统、电子设备及存储介质 |
CN117612737A (zh) * | 2024-01-24 | 2024-02-27 | 胜利油田中心医院 | 一种糖尿病护理数据智能优化方法 |
CN117612737B (zh) * | 2024-01-24 | 2024-05-03 | 胜利油田中心医院 | 一种糖尿病护理数据智能优化方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020181806A1 (zh) | 2020-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110085318A (zh) | 预测未来血糖值的方法、装置及计算机设备 | |
Zhavoronkov et al. | Artificial intelligence for aging and longevity research: Recent advances and perspectives | |
Rodriguez-León et al. | Mobile and wearable technology for the monitoring of diabetes-related parameters: Systematic review | |
Madan et al. | An optimization-based diabetes prediction model using CNN and Bi-directional LSTM in real-time environment | |
Georga et al. | Multivariate prediction of subcutaneous glucose concentration in type 1 diabetes patients based on support vector regression | |
Pappada et al. | Neural network-based real-time prediction of glucose in patients with insulin-dependent diabetes | |
Zecchin et al. | How much is short-term glucose prediction in type 1 diabetes improved by adding insulin delivery and meal content information to CGM data? A proof-of-concept study | |
Baldoumas et al. | A prototype photoplethysmography electronic device that distinguishes congestive heart failure from healthy individuals by applying natural time analysis | |
Finan et al. | Experimental evaluation of a recursive model identification technique for type 1 diabetes | |
US20210241916A1 (en) | Forecasting and explaining user health metrics | |
Kumar et al. | Medical big data mining and processing in e-healthcare | |
Elhadd et al. | Artificial Intelligence (AI) based machine learning models predict glucose variability and hypoglycaemia risk in patients with type 2 diabetes on a multiple drug regimen who fast during ramadan (The PROFAST–IT Ramadan study) | |
US20210183486A1 (en) | Biological information processing method, biological information processing apparatus, and biological information processing system | |
EP3423969B1 (en) | Patient diabetes monitoring system with clustering of unsupervised daily cgm profiles (or insulin profiles) and method thereof | |
Bhavnani et al. | Virtual care 2.0—a vision for the future of data-driven technology-enabled healthcare | |
Mahajan et al. | Combining structured and unstructured data for predicting risk of readmission for heart failure patients | |
CN112447270A (zh) | 一种用药推荐方法、装置、设备及存储介质 | |
Baig et al. | Clinical decision support for early detection of prediabetes and type 2 diabetes mellitus using wearable technology | |
Faccioli et al. | Black-box model identification of physical activity in type-l diabetes patients | |
Kumari et al. | A review on brain age prediction models | |
Cescon et al. | Linear modeling and prediction in diabetes physiology | |
Cheng et al. | Classification models for pulmonary function using motion analysis from phone sensors | |
Dow et al. | A Deep-Learning Algorithm to Predict Short-Term Progression to Geographic Atrophy on Spectral-Domain Optical Coherence Tomography | |
Cescon et al. | Adaptive Subspace-based prediction of T1DM glycemia | |
De Vries | The patient equation: the precision medicine revolution in the age of COVID-19 and beyond |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190802 |