一种帕金森预测方法及装置
技术领域
本发明实施例涉及机器学习技术领域,尤其涉及一种帕金森预测方法及装置。
背景技术
帕金森病(PD,Parkinson’s disease)是一种老龄人群中最常见的神经退行性疾病,其重要的临床特征是震颤、运动迟缓、僵硬和姿势不稳。有研究表明,在帕金森早期阶段就进行治疗的病人相较于晚期治疗的病人可以平均多独立生活15年,所以尽量在帕金森病的早期阶段将其诊断出来对于进行有效治疗以及改善患者生活状态具有十分重要的意义。
由于帕金森具有隐袭起病、逐渐进展的特点,常规血、脑脊液检查多无异常,头CT、MRI检查也无特征性改变,因此传统医学中对帕金森的诊断主要依靠病史、临床症状及体征,而没有统一的标准诊断方法。这些诊断方式不但耗费大量时间,费用昂贵,需要由受过培训的专业医护人员进行专业操作,受到场地限制,而且这些诊断方式属于主观测量方法,缺少客观性、可重复性及刻度敏感性,误诊率高,对早期症状诊断不明。
人工智能,尤其是机器学习(ML,Machine Learning)技术,在挖掘数据中隐藏关系的能力、抵抗数据错误的能力、向患者和医生提供交互式反馈/监控总结的能力及对大量病人数据进行处理的能力等多方面,都相较于其他方法具有优越性,因此基于ML的支持工具在增强帕金森临床诊断准确性、可靠性、评估的效率等方面有着很大的潜力。
在一种现有技术中,对帕金森综合症运动相关的症状进行了研究,包括利用机器学习算法对从说话过程(连续元音及自然说话)中提取的特征信息进行分析建模。然而发明人发现,利用声音特征来诊断帕金森效果一般,不及应用身体运动特征的诊断效果,故单独采用此方法对帕金森进行诊断目前不太可靠,而且目前声音信息的记录与获取需要专业的设备,需要专业人士指导操作,所以推广应用受到限制。
在另一种现有技术中,可以利用机器学习算法基于大量搜索引擎使用者的活动数据建立帕金森综合症诊断方法,利用监督学习分类模型对用户在网络搜索引擎的提问情况进行分析,以区分自主汇报帕金森综合症的患者与健康控制组。然而发明人发现,这种监测是在用户未知的情况下进行的,此方法的数据来源面临较大的伦理道德风险或法律风险。
还有现有技术使用了智能可穿戴设备,智能可穿戴设备的发展为提取帕金森患者上肢、下肢运动特征提供了支持,然而发明人发现,照相机和运动捕捉系统价格昂贵且需要专用的记录空间,可穿戴式设备会让老年人感到焦虑与不舒服,还会将一些日常活动或特殊环境下的活动(如修理草坪、不平整环境下的步态)误认为是帕金森综合症的症状,此外还通常因GPS定位涉及侵犯隐私的问题,所以需要进行安全匿名预处理来保护病人的隐私。
由此可见,在现有技术中,或是需要专业设备或附件,或是需要专业指导,或是受到可穿戴设备的束缚,或是存在隐私等问题,始终缺少一种简单且有效的方案对帕金森进行预测。
发明内容
本发明实施例提供一种帕金森预测方法及装置,以解决当前对帕金森预测缺乏简单且有效的方案的问题。
根据本发明实施例的第一方面,提供一种帕金森预测方法,所述方法包括:
获取样本集合,所述样本集合中的样本为键盘敲击数据,所述键盘敲击数据包括用户信息及用户敲击键盘按键时的时间特征;
基于预设框架建立预测模型;
使用所述样本集合训练所述预测模型;
获取被测对象的键盘敲击数据,将所述被测对象的键盘敲击数据输入所述预测模型,根据所述预测模型的输出获取所述被测对象的帕金森预测结果。
可选的,所述用户信息包括用户标识和帕金森诊断标识;
所述用户敲击键盘按键时的时间特征,包括:
每次按下按键的起始时刻、每次从按下按键到松开的时长、每次松开后到下次按下按键的时间间隔。
可选的,所述用户敲击键盘按键时的时间特征还包括:
每次敲击的按键位置,以及,相邻两次敲击的按键位置组合,其中所述按键位置分为左手按键、右手按键、空格键。
可选的,使用所述样本集合训练所述预测模型之前,所述方法还包括:
对所述样本集合进行如下预处理:
对用户信息中的帕金森诊断标识按照one-hot方式进行编码以获得分类标签Y,其中Y=[0,1]或[1,0];
将用户敲击键盘按键时的时间特征中各项内容归一化后记为X;
将所述样本集合转化为:
{(X1,Y1),(X2,Y2),L,(Xn,Yn)}
其中,一个用户i对应一组(Xi,Yi),i=1,2,...,n,n为所述样本集合中的用户总数。
可选的,所述基于预设框架建立预测模型,包括:
基于Tensorflow和Keras框架,搭建三层神经网络模型作为所述预测模型,其中:第一层、第二层均为LSTM长短期记忆神经网络,第三层为Dense全连接层,在每个LSTM层后实施Dropout正则化以防止过拟合,在输出层使用S型激活函数预测类的值。
可选的,所述使用所述样本集合训练所述预测模型,包括:
模型编译使用Adam作为优化算法,损失函数采用交叉熵损失函数,以精度为指标,采用交叉验证法将所述样本集合按预设比例拆分成训练集和测试集,训练集中的数据遍历迭代指定次数,然后使用测试集验证所述模型的性能,以获得训练好的所述预测模型。
可选的,所述键盘为实体键盘或虚拟键盘,所述按键为实体按键或虚拟按键。
根据本发明实施例的第二方面,提供一种帕金森预测装置,所述装置包括:
样本获取单元,用于获取样本集合,所述样本集合中的样本为键盘敲击数据,所述键盘敲击数据包括用户信息及用户敲击键盘按键时的时间特征;
模型建立单元,用于基于预设框架建立预测模型;
训练单元,用于使用所述样本集合训练所述预测模型;
预测单元,用于获取被测对象的键盘敲击数据,将所述被测对象的键盘敲击数据输入所述预测模型,根据所述预测模型的输出获取所述被测对象的帕金森预测结果。
可选的,所述用户信息包括用户标识和帕金森诊断标识;
所述用户敲击键盘按键时的时间特征,包括:
每次按下按键的起始时刻、每次从按下按键到松开的时长、每次松开后到下次按下按键的时间间隔。
可选的,所述用户敲击键盘按键时的时间特征还包括:
每次敲击的按键位置,以及,相邻两次敲击的按键位置组合,其中所述按键位置分为左手按键、右手按键、空格键。
可选的,所述装置还包括:
预处理单元:用于在训练单元训练所述预测模型之前,对用户信息中的帕金森诊断标识按照one-hot方式进行编码以获得分类标签Y,其中Y=[0,1]或[1,0];将用户敲击键盘按键时的时间特征中各项内容归一化后记为X;将所述样本集合转化为:
{(X1,Y1),(X2,Y2),L,(Xn,Yn)}
其中,一个用户i对应一组(Xi,Yi),i=1,2,...,n,n为所述样本集合中的用户总数。
可选的,所述模型建立单元用于:
基于Tensorflow和Keras框架,搭建三层神经网络模型作为所述预测模型,其中:第一层、第二层均为LSTM长短期记忆神经网络,第三层为Dense全连接层,在每个LSTM层后实施Dropout正则化以防止过拟合,在输出层使用S型激活函数预测类的值。
可选的,所述训练单元用于:
模型编译使用Adam作为优化算法,损失函数采用交叉熵损失函数,以精度为指标,采用交叉验证法将所述样本集合按预设比例拆分成训练集和测试集,训练集中的数据遍历迭代指定次数,然后使用测试集验证所述模型的性能,以获得训练好的所述预测模型。
可选的,所述键盘为实体键盘或虚拟键盘,所述按键为实体按键或虚拟按键。
本发明实施例提供的技术方案可以包括以下有益效果:
发明人在实现本发明的过程中发现,帕金森患者的手部震颤会反映在键盘敲击上,换句话说,由于存在手部震颤,帕金森患者在敲击键盘时的细节上是与正常人存在差异的。基于用户敲击键盘按键时的时间特征可以反映出用户手部震颤的程度,本发明提供了一种利用键盘敲击数据来进行帕金森预测的技术方案,首先获取用于训练的样本集合,例如利用标准的计算机键盘采集多名帕金森患者用户及非患者用户手部敲击键盘时的时间特征信息,然后利用机器学习算法训练生成帕金森疾病预测和评估模型,这样当遇到帕金森疑似病人时,便可通过该预测模型给出评估结果,为医务人员进一步确诊帕金森病人提供有效的辅助决策。
在本发明中,被试者无需执行专门的测试流程,只需按照日常生活习惯使用电脑等终端设备即可,不需要采购任何专业的设备或者附件,不需要医疗等专业指导,不依赖于被试者的经验或者技术,且可以在被试者的家里或者办公环境下进行,即不受环境影响,也无可穿戴设备的束缚,可实现被试者无感式数据采集,同时,所采集的仅限键盘敲击时的时间特征,不涉及打字内容,所以也不会侵犯隐私,这些都使得本发明成为了一种简单且有效的预测方案,能够快速、准确的辅助预测和评估早期帕金森。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明一示例性实施例示出的一种帕金森预测方法的流程图;
图2是根据本发明一示例性实施例示出的时间特征示意图;
图3是根据本发明一示例性实施例示出的按键位置示意图;
图4是根据本发明一示例性实施例示出的单词敲击过程示意图;
图5是根据本发明一示例性实施例示出的预测模型示意图;
图6是根据本发明一示例性实施例示出的一种帕金森预测装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种帕金森预测方法的流程图。所述方法可以包括如下步骤:
S101,获取样本集合,所述样本集合中的样本为键盘敲击数据,所述键盘敲击数据包括用户信息及用户敲击键盘按键时的时间特征。
作为示例,在本实施例或本发明其他某些实施例中,所述用户信息可以包括用户标识和帕金森诊断标识。用户标识具体可以为用户ID等形式。帕金森诊断标识即该用户是否为帕金森症,可以用“Yes\No”、“True\False”或“1\0”等形式表示。对于用户信息的具体内容及形式,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
发明人在实现本发明的过程中发现,帕金森患者的手部震颤会反映在键盘敲击上,也即由于存在手部震颤,帕金森患者在敲击键盘时的细节上是与正常人存在差异的,这些细节可以通过用户敲击键盘时的时间特征反映出来。对于该时间特征的具体内容及形式,本实施例也并不进行限制,只要是能够反映出用户手部震颤的程度即可。
作为示例,在本实施例或本发明其他某些实施例中,所述用户敲击键盘按键时的时间特征,具体可以包括以下几类:
每次按下按键的起始时刻(Timestamp)、每次从按下按键到松开的时长(HoldTime)、每次松开后到下次按下按键的时间间隔(FlightTime)。
通过HoldTime和FlightTime还可计算出两次按键的时间间隔(Latency),即Latency=HoldTime+FlightTime。
作为示例可参见图2所示,图2中阴影矩形代表了HoldTime时间段,空白矩形代表了FlightTime时间段,Timestamp为按下一个按键的起始时刻,易知图2中先后发生了两次按键动作。
对于如何采集样本,本实施例也并不进行限制,例如可以在用户电脑上安装采集程序,然后让用户完全按照日常生活习惯使用电脑即可,在无形中记录下用户敲击键盘的时间特征。除了电脑以外,还可以是其他终端设备如智能手机等。
此外,所述键盘可以为实体键盘或虚拟键盘,所述按键可以为实体按键或虚拟按键。对此本发明实施例并不进行限制。
S102,基于预设框架建立预测模型。
例如,预测模型可以为神经网络等机器学习模型,对于模型的具体形式及训练过程,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
作为示例,在本实施例或本发明其他某些实施例中,所述基于预设框架建立预测模型,具体可以包括:
基于Tensorflow和Keras框架,搭建三层神经网络模型作为所述预测模型,其中:第一层、第二层均为LSTM长短期记忆神经网络,第三层为Dense全连接层,在每个LSTM层后实施Dropout正则化以防止过拟合,在输出层使用S型激活函数预测类的值。
S103,使用所述样本集合训练所述预测模型。
作为示例,在本实施例或本发明其他某些实施例中,所述使用所述样本集合训练所述预测模型,具体可以包括:
模型编译使用Adam作为优化算法,损失函数采用交叉熵损失函数,以精度为指标,采用交叉验证法将所述样本集合按预设比例(例如9:1)拆分成训练集和测试集,训练集中的数据遍历迭代指定次数(例如50次),然后使用测试集验证所述模型的性能,以获得训练好的所述预测模型。
S104,获取被测对象的键盘敲击数据,将所述被测对象的键盘敲击数据输入所述预测模型,根据所述预测模型的输出获取所述被测对象的帕金森预测结果。
预测模型训练完成之后,当有新的被测对象时,例如帕金森疑似病人,可以将该对象的键盘敲击数据输入至预测模型,在输出端得到该帕金森疑似病人的评估结果,为医务人员进一步确诊帕金森病人提供有效的辅助决策。
在本实施例或本发明其他某些实施例中,为了进一步提高预测效果,还可以在时间特征中加入按键位置的因素,作为示例,所述用户敲击键盘按键时的时间特征,还可以包括:
每次敲击的按键位置,以及,相邻两次敲击的按键位置组合,其中所述按键位置分为左手按键(Left hand keys,简记为L)、右手按键(Right hand keys,简记为R)、空格键(Spacebar,简记为S)。易知相邻两次敲击的按键位置组合可以分为LL、RL、LR、RS等多种不同组合情况。
作为示例可参见图3所示,在图3中,“Q~T”、“A~G”、“Z~B”这些按键可视为左手按键,“Y~P”、“H~;”、“N~/”这些按键可视为右手按键。
在本实施例或本发明其他某些实施例中,使用所述样本集合训练所述预测模型之前,所述方法还包括:
对所述样本集合进行如下预处理:
对用户信息中的帕金森诊断标识按照one-hot方式进行编码以获得分类标签Y,其中Y=[0,1]或[1,0],例如可以令[0,1]表示帕金森患者,[1,0]表示非帕金森患者;
将用户敲击键盘按键时的时间特征中各项内容归一化后记为X;
将所述样本集合转化为:
{(X1,Y1),(X2,Y2),L,(Xn,Yn)}
其中,一个用户i对应一组(Xi,Yi),i=1,2,...,n,n为所述样本集合中的用户总数。
考虑到用户敲击键盘按键时的时间特征可以反映出用户手部震颤的程度,本发明提供了一种利用键盘敲击数据来进行帕金森预测的技术方案,被试者无需执行专门的测试流程,只需按照日常生活习惯使用电脑等终端设备即可,不需要采购任何专业的设备或者附件,不需要医疗等专业指导,不依赖于被试者的经验或者技术,且可以在被试者的家里或者办公环境下进行,即不受环境影响,也无可穿戴设备的束缚,可实现被试者无感式数据采集,同时,所采集的仅限键盘敲击时的时间特征,不涉及打字内容,所以也不会侵犯隐私,这些都使得本发明成为了一种简单且有效的预测方案,能够快速、准确的辅助预测和评估早期帕金森。
下面再结合具体应用场景对本发明方案作进一步描述。当然以下应用场景仅为示例性的,在实际应用中,也可以适用于其它应用场景。
1.数据采集
被试者按照日常生活习惯使用电脑即可,不需要任何专业的设备或者附件,不需要医疗指导,不依赖于被试者的经验或者技术且可以在被试者的家里或者办公环境下进行测量,不受环境影响,无可穿戴设备的束缚,即可实现被试者无感式数据采集。
1.1数据录入
1.1.1用户信息录入
用户可以分为帕金森病人,和非帕金森病人(包括疑似病人)。具体可以如下表所示:
表1
可以以“User_UserID.txt”文件存储每个用户的用户信息,示例如下表所示:
表2
1.1.2键盘数据录入
用户敲击键盘按键时的时间特征可参见下表所示:
表3
可以以“UserID_AcquDate.txt”存储键盘敲击数据,示例如下表所示:
表4
1.2采集原理
可参见图4所示,以单词“GOAD”为例,图中Key down代表按下按键,Key up代表松开按键。按下字母“G”时,KeyType数据项记为“L”;HoldTime数据项记为“Hold Time L”的对应时间;TwoKeysType数据项记为“LR”;Latency数据项记为“Latency L-R”的对应时间;FlightTime数据项为“Latency L-R—Hold Time L”。
2.数据预处理
1)对用户数据库进行数据预处理,聚合数据库中“User_UserID.txt”文件数据,以“User_details.xlsx”文件保存,每位用户包含13维信息,对特征进行数字化,示例如下:
表5
取“Parkinsons”项,利用one-hot方法对其编码,获得分类标签,记为Y,例如[0,1]表示帕金森患者,[1,0]表示正常用户。
2)对按键数据库进行数据预处理,以用户名和日期为处理分类标准,将特征数字化处理后以“UserID_Date.xlsx”文件保存,生成新的数据库。每一个“UserID_Date.xlsx”文件包含18维信息,包括一个用户在一天中的按键时间信息,取其中15项作为时间特征,将数据归一化,记为X,用作训练数据集。15项时间特征如下表所示:
表6
由每一位用于训练的用户数据获得一组对应的(Xi,Yi),组成训练数据集:
{(X1,Y1),(X2,Y2),L,(Xn,Yn)}
其中,n为样本总数。
3、建立模型
参见图5所示,基于Tensorflow和Keras框架,建立预测模型,搭建3层神经网络,第一层(图中First Layer)为LSTM(长短期记忆)神经网络,第二层(图中Second Layer)为LSTM层,第三层(图中Third Layer)为Dense全连接层,在每个LSTM层后实施Dropout正则化防止过拟合。在输出层使用S型激活函数预测类的值(0或1)。
4、模型编译拟合
模型编译使用Adam做优化算法,损失函数采用交叉熵损失函数(binary_crossentropy),以精度为指标。采用交叉验证法(Cross Validation),例如,将数据集按9:1的比例拆分成训练集和测试集,训练数据遍历迭代50次,然后用测试数据集验证该模型性能,最终获得训练好的预测模型。
5、模型应用
采集疑似帕金森病人的键盘敲击数据,输入训练好的智能预测模型,输出帕金森预测评估结果,为医务人员进一步确诊帕金森病人提供有效的辅助决策。
考虑到用户敲击键盘按键时的时间特征可以反映出用户手部震颤的程度,本发明提供了一种利用键盘敲击数据来进行帕金森预测的技术方案,被试者无需执行专门的测试流程,只需按照日常生活习惯使用电脑等终端设备即可,不需要采购任何专业的设备或者附件,不需要医疗等专业指导,不依赖于被试者的经验或者技术,且可以在被试者的家里或者办公环境下进行,即不受环境影响,也无可穿戴设备的束缚,可实现被试者无感式数据采集,同时,所采集的仅限键盘敲击时的时间特征,不涉及打字内容,所以也不会侵犯隐私,这些都使得本发明成为了一种简单且有效的预测方案,能够快速、准确的辅助预测和评估早期帕金森。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图6是根据本发明一示例性实施例示出的一种帕金森预测装置的示意图。所述装置可以包括:
样本获取单元601,用于获取样本集合,所述样本集合中的样本为键盘敲击数据,所述键盘敲击数据包括用户信息及用户敲击键盘按键时的时间特征;
模型建立单元602,用于基于预设框架建立预测模型;
训练单元603,用于使用所述样本集合训练所述预测模型;
预测单元604,用于获取被测对象的键盘敲击数据,将所述被测对象的键盘敲击数据输入所述预测模型,根据所述预测模型的输出获取所述被测对象的帕金森预测结果。
在本实施例或本发明其他某些实施例中,所述用户信息包括用户标识和帕金森诊断标识;
所述用户敲击键盘按键时的时间特征,包括:
每次按下按键的起始时刻、每次从按下按键到松开的时长、每次松开后到下次按下按键的时间间隔。
在本实施例或本发明其他某些实施例中,所述用户敲击键盘按键时的时间特征还包括:
每次敲击的按键位置,以及,相邻两次敲击的按键位置组合,其中所述按键位置分为左手按键、右手按键、空格键。
在本实施例或本发明其他某些实施例中,所述装置还包括:
预处理单元:用于在训练单元训练所述预测模型之前,对用户信息中的帕金森诊断标识按照one-hot方式进行编码以获得分类标签Y,其中Y=[0,1]或[1,0];将用户敲击键盘按键时的时间特征中各项内容归一化后记为X;将所述样本集合转化为:
{(X1,Y1),(X2,Y2),L,(Xn,Yn)}
其中,一个用户i对应一组(Xi,Yi),i=1,2,...,n,n为所述样本集合中的用户总数。
在本实施例或本发明其他某些实施例中,所述模型建立单元用于:
基于Tensorflow和Keras框架,搭建三层神经网络模型作为所述预测模型,其中:第一层、第二层均为LSTM长短期记忆神经网络,第三层为Dense全连接层,在每个LSTM层后实施Dropout正则化以防止过拟合,在输出层使用S型激活函数预测类的值。
在本实施例或本发明其他某些实施例中,所述训练单元用于:
模型编译使用Adam作为优化算法,损失函数采用交叉熵损失函数,以精度为指标,采用交叉验证法将所述样本集合按预设比例拆分成训练集和测试集,训练集中的数据遍历迭代指定次数,然后使用测试集验证所述模型的性能,以获得训练好的所述预测模型。
在本实施例或本发明其他某些实施例中,所述键盘为实体键盘或虚拟键盘,所述按键为实体按键或虚拟按键。
考虑到用户敲击键盘按键时的时间特征可以反映出用户手部震颤的程度,本发明提供了一种利用键盘敲击数据来进行帕金森预测的技术方案,被试者无需执行专门的测试流程,只需按照日常生活习惯使用电脑等终端设备即可,不需要采购任何专业的设备或者附件,不需要医疗等专业指导,不依赖于被试者的经验或者技术,且可以在被试者的家里或者办公环境下进行,即不受环境影响,也无可穿戴设备的束缚,可实现被试者无感式数据采集,同时,所采集的仅限键盘敲击时的时间特征,不涉及打字内容,所以也不会侵犯隐私,这些都使得本发明成为了一种简单且有效的预测方案,能够快速、准确的辅助预测和评估早期帕金森。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在相关方法的实施例中进行了详细描述,此处不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。