发明内容
有鉴于此,本发明提供一种眼球状态预测模型构建方法,包括如下步骤:
获取样本数据,所述样本数据至少包括年龄信息、检测时间序列信息以及与所述检测时间序列信息相应的眼球状态信息;
利用所述样本数据对预测模型进行训练,以使经过训练的预测模型能够根据输入的年龄信息、当前检测时间信息和当前眼球状态信息确定在当前检测时间之后和/或之前的至少一时间段的眼球状态信息。
可选地,所述获取样本数据的步骤,包括:
从样本数据中筛选出时间序列信息不完整的样本数据;
对时间序列信息不完整的样本数据补充缺失的检测时间序列信息以及相应缺失的眼球状态信息。
可选地,所述对时间序列信息不完整的样本数据补充缺失的检测时间序列信息以及相应缺失的眼球状态信息的步骤,包括:
利用完整的数据样本对数据补充模型进行训练,以使所述数据补充模型能够根据输入的时间序列信息及相应的眼球状态信息、缺失的时间序列信息确定所述缺失的时间序列信息对应的缺失的眼球状态信息;
将所述缺失的时间序列信息和所述缺失的眼球状态信息补充到所述时间序列信息不完整的样本数据中。
可选地,所述获取样本数据的步骤,包括:
判断样本数据中的检测时间序列信息的数量是否少于阈值;
当样本数据中的检测时间序列信息少于阈值时剔除相应的样本数据。
可选地,所述获取样本数据的步骤,包括:
判断样本数据中的眼球状态信息是否在预设范围内;
当样本数据中的眼球状态信息未在预设范围内时剔除相应的样本数据。
可选地,所述获取样本数据的步骤,包括:
判断样本数据中的眼球状态信息随检测时间序列信息的变化趋势是否存在跳变现象;
当样本数据中的眼球状态信息随检测时间序列信息的变化趋势存在跳变现象时剔除相应的样本数据。
可选地,所述样本数据中还包括至少一种用户特征信息,在所述利用所述样本数据对预测模型进行训练的步骤中,经过训练的预测模型能够根据输入用户特征信息、年龄信息、当前检测时间信息和当前眼球状态信息确定在当前检测时间之后的至少一时间段的眼球状态信息。
可选地,所述用户特征信息包括性别信息、遗传信息、生活习惯信息、眼部异常信息、所处环境信息和是否佩戴矫正视力设备的标识信息。
可选地,所述获取样本数据的步骤,包括:
判断样本数据中的用户特征信息是否缺失;
当样本数据中的用户特征信息缺失时剔除相应的样本数据。
本发明还提供一种眼球状态预测方法,包括如下步骤:
获取用户的当前信息,所述当前信息至少包括当前眼球状态信息、当前年龄信息、当前检测时间信息;
将所述用户的当前信息作为至少一种预测模型的输入数据,以使各种预测模型分别输出所述用户在当前检测时间之后和/或之前一时间段的眼球状态信息,其中所述预测模型是利用多个样本数据进行训练得到的,所述样本数据至少包括年龄信息、检测时间序列信息以及与所述检测时间序列信息相应的眼球状态信息。
可选地,当所述预测模型为多种时,在所述各种预测模型分别输出所述用户在当前检测时间之后和/或之前一时间段的眼球状态信息的步骤之后,还包括如下步骤:
融合各种预测模型输出的眼球状态信息以获得唯一的眼球状态信息。
可选地,所述当前信息和所述样本数据还分别包括至少一种用户特征信息。
可选地,所述用户特征信息包括性别信息、遗传信息、生活习惯信息、眼部异常信息和所处环境信息和是否佩戴矫正视力设备的标识信息。
相应地,本发明还提供一种电子设备,包括:至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述眼球状态预测模型构建方法。
相应地,本发明还提供另一种电子设备,包括:至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述眼球状态预测方法。
本发明提供的眼球状态预测方法及预测模型构建方法和设备使用大量具有年龄、检测时间训练及眼球状态信息的样本数据对机器学习模型进行训练,由此训练出的模型可以根据用户之前的眼球状态检测结果预测该用户未来的眼球状态信息,对于后续治疗或预防具有较高的参考价值。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例提供一种眼球状态预测模型构建方法,如图1所示,该方法包括如下步骤:
S11,获取样本数据,样本数据至少包括年龄信息、检测时间序列信息以及与检测时间序列信息相应的眼球状态信息。其中的年龄信息属于类目型特征,检测时间序列信息及相应的眼球状态信息属于连续型特征。样本数据中的检测时间显然是年龄信息之前(包括当前年龄)的时间,检测时间也可以是年龄(一个时间点代表整个年份),对应的眼球状态信息则是在该年龄时进行检验而记录的信息。同时,年龄信息也可以根据检测时间和生日日期计算获得。本发明中的眼球状态信息可以是多种能够体现眼部健康状态的信息中的任一种,如等效球镜信息、屈光度信息、视力值信息都是可行的。
例如一个样本数据可以包括如下内容{年龄=18,(检测时间=6、屈光度=-10D)、(检测时间=7、屈光度=-5D)、……、(检测时间=18、屈光度=10D)},即年龄信息为18岁,检测时间序列信息为6岁……18岁,相应的眼球状态信息为-10D……10D。
本领域技术人员应当理解,训练机器学习模型时应当使用大量样本数据,对于本发明而言,不同的样本数据之间的年龄信息可以是不同的,检测时间序列的跨度也可以是不同的。在实际应用时,可能无法获取到如上述标准化的样本数据,为此本发明还提供了一系列对于原始数据进行预处理的方案,以提高样本数据的可靠性,具体将在下文进行详细介绍。
S12,利用样本数据对预测模型进行训练,以使经过训练的预测模型能够根据输入的年龄信息、当前检测时间信息和当前眼球状态信息确定在当前检测时间之后和/或之前的至少一时间段的眼球状态信息。本发明可以应用多种模型(算法)通过训练达到发明目的,例如可以使用线性模型、ARIMA模型、LSTM(Long Short-Term Memory)模型。LSTM模型是一种RNN的变型,RNN模型为递归神经网络,RNN的每一次隐含层的计算结果都与当前输入以及上一次的隐含层结果相关。通过这种方法,RNN的计算结果便具备了记忆之前几次结果的特点。
实际应用时可以根据样本数据中的特征种类选择更合适的模型进行训练,采用大量样本进行训练和验证,直至模型的预测准确率达到预定条件为止。
仍以上述样本数据为例,对于学习过程,可以将检测时间序列6……17及相应的眼球状态信息作为机器模型的输入,使其根据输入数据的规律来输出时间18(岁)对应的眼球状态信息,然后使用时间18(岁)对应的实际检测数据来验证机器模型输出的信息是否正确,进而使机器模型自适应调整内部参数以提高输出信息的准确性。利用大量样本使机器模型反复学习、验证调整最终可以是其输出信息的准确性达到预设条件。
训练的过程可以理解为使机器模型学习人眼状态随时间的变化规律的过程,通过对大量样本的学习,机器模型将可以具备预测人眼状态的能力,也即机器模型将可以根据某人在第N……M时间的眼球状态来预测该人在第M时间后的眼球状态,以及估计该人在N时间之前的眼球状态。本发明提供的眼球状态预测模型构建方法使用大量具有年龄、检测时间训练及眼球状态信息的样本数据对机器学习模型进行训练,由此训练出的模型可以根据用户之前的眼球状态检测结果预测该用户未来的眼球状态信息,对于后续治疗或预防具有较高的参考价值。
作为一个优选的实施方式,本实施例中的样本数据中还可以包括若干用户特征信息,即一些附加的类目型特征,例如可以是性别信息、遗传信息、生活习惯信息、眼部异常信息、所处环境信息和是否佩戴矫正视力设备的标识信息。这些信息可以是简单的是与否这两种选择,也可以是较为复杂的多种选择,这些信息均可以通过计算机编码来表示。
如果运用上述全部用户特征信息,结合之前所述的样本数据中的内容,则一个样本数据可以包括如下内容:检测时间序列t,相应的眼球状态信息D,年龄age,性别sex,是否城乡isurban,父母是否近视parent或是否有家族遗传特征isinher,生活习惯habit,是否有眼部疾病以及外伤hurt,是否佩戴矫正视力的设备isrectify。
进而可以将上述完整的样本数据作为机器模型的训练数据,机器模型根据如上所示的多维度的信息学习人眼状态随时间变化的规律,可以使其预测结果更加符合真实情况,提高其预测结果的准确性。
实际应用时,可以同时训练多种模型,例如上述三种模型。针对每种模型可以采用具有不同种类特征信息的样本数据。具体地,针对线性模型,样本数据中可以只包括目标年龄、目标年龄(18岁)前一个检测时间(17岁)及相应的眼球状态信息;对于ARIMA模型,样本数据中包括目标年龄(18岁)、检测时间序列(6-18岁)及相应的眼球状态信息这三种必要信息;针对LSTM模型,样本数据中除了上述3种必要信息外还可以包括上述多种特征信息。
下面针对样本数据的预处理方案进行详细介绍,第一种方案,即上述步骤S11可以包括如下步骤:
S111a,从样本数据中筛选出时间序列信息不完整的样本数据,例如某样本数据中检测时间序列是3……14、16、17、18,缺少15岁时及相应的眼球状态信息,本方案将根据预设规则筛选出诸如此类信息。对于不完整的定义可以根据实际需求进行调整,例如可以认为在整个序列中缺少2个时间以下则认为不完整,缺少超过2个则可以认为是另一种情况,具体将在另一方案中进行介绍。
S112a,对时间序列信息不完整的样本数据补充缺失的检测时间序列信息以及相应缺失的眼球状态信息,根据已有信息补充中间缺少信息的方法有多种,例如可以使用简单的插值算法进行补全,也可以采用更精准的机器学习方式进行补全。
具体地,步骤S112a可以包括如下步骤:
S112a1,利用完整的数据样本对数据补充模型进行训练,以使数据补充模型能够根据输入的时间序列信息及相应的眼球状态信息、缺失的时间序列信息确定缺失的时间序列信息对应的缺失的眼球状态信息;
S112a2,将缺失的时间序列信息和缺失的眼球状态信息补充到时间序列信息不完整的样本数据中。
此方案的构思与本发明的预测方案的构思类似,对于有些年份有相应的缺失值时,对缺失值的补全可以采用AutoEncoder自动编码器对完整的样本数据进行学习后,对缺失数据进行预测补全;或者对完整的样本数据进行线性分析构建线性模型作为basemodel,再根据base model对缺失数据进行补全处理。
根据上述方案,可以根据上述缺失样本数据中的检测时间序列3……14、16、17、18及相应的眼球状态信息补充15岁时的眼球状态信息,由此得到完整的样本数据,完整的数据样本可以提高最终机器学习模型的准确性。
第二种方案,即上述步骤S11可以包括如下步骤:
S111b,判断样本数据中的检测时间序列信息的数量是否少于阈值,阈值可以根据实际需要进行设置;
S112b,当样本数据中的检测时间序列信息少于阈值时剔除相应的样本数据。这种方案的目的是剔除缺失值较多的样本数据,虽然第一种方案中可以对缺失值进行补充,但对于缺失值过多的情况补充后的数据也可能不够准确,进而可能影响训练的机器模型的准确性,因此可以将其剔除。
第三种方案,即上述步骤S11可以包括如下步骤:
S111c,判断样本数据中的眼球状态信息是否在预设范围内,例如眼球状态信息是屈光度的情况,对于常人而言眼球屈光度范围在-20D~20D,可以基于该范围设定阈值范围;
S112c,当样本数据中的眼球状态信息未在预设范围内时剔除相应的样本数据,出现异常数据的情况有多种,例如是数据录入错误,或者是临床上非常有价值的数据,这部分的数据对机器模型的学习过程会造成较大影响,因此可通过对方差以及pearson相关系数来对异常数据进行判断,对异常数据进行剔除处理,不参与预测模型的训练。
第四种方案,即上述步骤S11可以包括如下步骤:
S111d,判断样本数据中的眼球状态信息随检测时间序列信息的变化趋势是否存在跳变现象,跳变现象是指相邻检测时间的眼球状态信息差异过大的情况;
S112d,当样本数据中的眼球状态信息随检测时间序列信息的变化趋势存在跳变现象时剔除相应的样本数据,出现跳变现象的数据可能为临床上比较有价值的数据,或者是数据录入错误,本发明将此类数据排除在外不参与预测模型的训练。
第五种方案,即上述步骤S11可以包括如下步骤:
S111e,判断样本数据中的用户特征信息是否缺失,是指上述类目型特征是否缺失;
S112e,当样本数据中的用户特征信息缺失时剔除相应的样本数据,类目型特征通常无法通过数学运算或者机器学习进修补充,因此当选用具有多种类目型特征的样本数据训练模型时,需要剔除缺失特征的样本数据。
上述五种样本数据预处理方案彼此不冲突,实际情况中可以选择执行其中的一种或多种,以提高样本数据的可靠性。
本实施例还提供一种电子设备,包括至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述眼球状态预测模型构建方法。
本发明的另一实施例提供了一种眼球状态预测方法,如图2所示包括如下步骤:
S21,获取用户的当前信息,当前信息至少包括当前眼球状态信息、当前年龄信息、当前检测时间信息,其中年龄信息可以根据输入的生日信息和当前检测时间进行计算得到。与模型构建方法中的眼球状态信息相同,本实施例中的眼球状态信息可以是多种能够体现眼部健康状态的信息中的任一种,如等效球镜信息、屈光度信息、视力值信息都是可行的。当前检测时间可以代表相应年度。例如可以提供某用户的信息:当前年龄10岁,当前屈光度信息-5D。
S22,利用眼球状态预测模型根据当前信息预测用户在当前检测时间之后和/或之前一时间段的眼球状态信息,其中的预测模型可以是利用上述模型构建方法所构建的预测模型。预测模型可以输出该用户在未来(11岁)时的屈光度信息-3D或者更长一段时间的屈光度信息(例如12-18岁),同时也可以输出该用户在此前(例如3-9岁)时的屈光度信息。
根据本发明实施例提供的眼部状态预测方法,可以根据用户当前的眼球状态检测结果预测该用户未来的眼球状态信息,对于后续治疗或预防具有较高的参考价值。
作为一个优选的实施方式,获取的当前信息还可以包括一些附加的用户特征信息,与之前的实施例相应地,附加的用户特征信息可以包括性别信息、遗传信息、生活习惯信息、眼部异常信息和所处环境信息和是否佩戴矫正视力设备的标识信息中的一种或多种,这些信息可以通过计算机代码来表示。这些维度的信息能够更全面地体现用户的自身特点,这可以使模型预测的结果更加准确。
如之前的实施例所述,实际使用时可以构建多个不同种类的模型,在预测时可以向不同种类的模型所输入不同的特征信息。例如针对线性模型,可以只输入当前年龄(10岁)和当前眼球状态信息;对于ARIMA模型,可以输入时间序列(例如3-10岁,其中10岁是当前年龄)及相应的眼球状态信息;针对LSTM模型,输入数据中除了上述必要信息外还可以包括上述多种附加的特征信息。
多种模型将分别输出预测结果,之后可以融合各种预测模型输出的眼球状态信息以获得唯一的眼球状态信息,例如取三种模型输出信息的平均值。
得到最终的结果后,还可以对整体大数据进行聚类以及混合高斯模型分析,得到数据分布情况数据预测系统,根据数据的分布情况判断用户视力类别,了解严重程度,以便后期进行针对性的治疗和预防。
通过对数据进行聚类或者采用高斯混合模型能够得到视力情况在人群中分布的种类,即发现有几种特别的视力发展方式。
通过聚类和高斯混合模型以及统计得到人群分布预测系统。人群分布预测系统输入本人的视力以及基本的身体信息,能够输出视力的严重程度在整个大人群中的比例,给出视力百分比的预测即,输出近视程序相比百分之多少的人都要严重。使用户对自己的视力水平有一个较明确的定位,提高视力的保护意识。
本实施例还提供一种电子设备,包括至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述眼球状态预测方法。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。