CN112836105B - 一种基于运动生理表征融合的大规模学生有氧能力分群方法 - Google Patents
一种基于运动生理表征融合的大规模学生有氧能力分群方法 Download PDFInfo
- Publication number
- CN112836105B CN112836105B CN202110160544.4A CN202110160544A CN112836105B CN 112836105 B CN112836105 B CN 112836105B CN 202110160544 A CN202110160544 A CN 202110160544A CN 112836105 B CN112836105 B CN 112836105B
- Authority
- CN
- China
- Prior art keywords
- aerobic capacity
- capacity model
- model
- sequence
- aerobic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明旨在提供一种基于运动生理表征融合的大规模学生有氧能力分群方法,具体步骤如下:1)预处理时序数据,包含剔除异常值、多变量序列截取与插值、标准化处理、说明数据来源和运动记录切片;2)构建基于多模态和自监督学习的有氧能力模型,主要由人体泛化有氧能力模型、个性化长期有氧能力模型和个性化短期有氧能力模型组成。3)实施大规模学生有氧能力分群,通过有氧能力模型获得10个不同时段的运动生理表征向量,再将这些表征向量进行均值化来获得最终的有氧能力表征向量。最后构建基于single‑linkage的聚类器来对学生有氧能力表征向量进行分群聚类;4)评估分群效果,依据FMI指数对每一个学生有氧能力的分群结果进行评估。
Description
技术领域
本发明涉及时间序列挖掘领域和机器学习领域中的多模态学习、自监督学习和表征学习,尤其涉及了一种基于运动生理表征融合的大规模学生有氧能力分群方法。
背景技术
合理的运动有利于健康,而不合理运动会带来伤害。2006年至2016年,全国高校内可查证的学生运动性猝死案例总计不超过300例,但国内外专家从未停止过关于运动性猝死的探讨与研究。在诸多运动种类中,最常见的青少年运动性猝死发生在跑步运动过程中。该情况下,学生大多会忽然晕厥而猝然倒地,若不能获得及时性急救就会失去生命。随着信息获取渠道越来越多样化,该类事件的频繁发生广泛地引起了社会各界对大学生体质下降问题的关注。同时,也提出了一个重要的问题:如何避免运动风险。
为了有效地降低学生运动风险,防止晕厥等事件的发生,个性化运动的概念逐渐受到人们的关注。个性化运动是解决运动风险问题以及促进体质健康的有效手段。同时,个性化运动是运动教练和体育课教师在运动类型、运动强度、持续时间、运动频度等方面依据个人身体素质状况开具运动处方进行合理运动的方法,其中个人体能状况的判定是关键。个人体能状况可采用有氧能力(Aerobic Capacity,AC)来指代。有氧能力是指在氧供充足的条件下,人体通过能源物质氧化分解提供能量进行运动的能力。美国心脏协会在《循环》杂志上发表了其对“有氧能力”作出的科学声明,美国医学界把有氧能力列为第五大临床生命体征。通过对人体有氧能力的分群来预测和评估其健康水平,以期为体医结合、科学化的风险防控、干预、体质健康管理与促进提供科学依据。
为了得到人体有氧能力的表征,以往会采用运动心肺功能仪进行测定一系列生理数据,然后对这些数据进行清洗与特征提取。但该数据采集方案存在着一系列问题,其成本非常高昂,往往需要一台大型设备和系统,比如跑步机及大型配套的生理数据采集平台。不仅如此,每一次采集需要有多名人员持不同检测设备进行辅助检测生理特征,耗费时间长且采集的对象有限。近些年,由于智能穿戴设备的普及,尤其是智能运动手环的出现,大大改变了数据采集的方式。智能运动手环可以实时检测热量消耗、心率等生理指标,再通过与手机应用软件连接可获得人体活动位置、速度等信号,从而实现身体生理活动的有效监控。由于采集对象几乎没有限制,在新的采集方案下所得到的数据规模非常庞大,且规模增速较大。无论何种数据采集方案,其数据特征都是无监督、多模态的时间序列数据,如何利用运动生理数据来表征人体有氧能力是目前的研究热点之一。
多模态的运动时序数据具有序列长、多变量和非等长等特点,因此人类专家难以从中发现有价值的信息,以致于有监督的时序特征提取方法无法适用于有氧能力特征提取。在早期的研究中,许多基于概率统计模型的方法被用于建模运动时序挖掘问题,但因其过于理想的假设和高时间复杂度而无法有效应对真实世界的大规模数据。近些年来,基于卷积神经网络、循环神经网络、注意力机制等神经网络模型的表征学习方法应用于时序建模中,它们可以从运动时序数据中获取更加抽象的特征,但所学习到的特征往往难以解释且与下游任务没有关联。
发明内容
为了克服难以有效地从运动生理时序数据中学习到有氧能力表征的不足,本发明提供了一种基于运动生理表征融合的大规模学生有氧能力分群方法。
身体活动的特征在于运动和相关的心脏对运动的反应。例如,在完成一定运动强度后运动者的心率会相应增加,而这种动态增加主要取决于有氧能力。因此,相比较于使用其中一种信号,同时利用这两个信号会产生更好的运动生理表示。同时,自监督学习可以在无监督信号中挖掘有监督的目标也使得神经网络模型可以从运动数据中学习到有价值的生理反应关系。因此本发明主要分为以下四个步骤:1.预处理时序数据;2.构建基于多模态和自监督学习的有氧能力模型;3.实施大规模有氧能力分群;4.分群效果评估。
为了达到解决本发明涉及到问题的目的,一种基于运动生理表征融合的大规模学生有氧能力分群方法采用如下技术方案:
1)预处理时序数据;
1.1)剔除异常值;
本发明中的运动生理序列数据是多变量的,包括速度和心率。人体关于运动生理指标都存在上下限,因此依据上下限来设定阈值从而剔除超出范围的异常值。给定长度为N的时间序列x1:N=(x1,x2,...,xn,...,xN),其中D表示数据维度。设定d维特征的正常取值范围为[αd,βd],其中d∈[1,D],不归属于该范围的数据一律剔除。
1.2)多变量序列截取与插值;
经过异常值剔除后可能会造成一些数据点在某一维度上的缺失,而且不同生理指标会因为采集设备的不一致而造成不同维度的数据在序列上的不对齐。因此序列的插补显得十分重要,那么相应的方法有序列截取与插值。
若使得(x1(d),x2(d),...,xm(d))中的每一项均为缺失,其中xi(d)表示第d维特征在第i点上的值,那么就将x1:m从x1:N中截取出去。同理,若 使得(xp(d),xp+1(d),...,xN(d))中的每一项均为缺失,那么就将xp:N从x1:N中截取出去。
设定经过截取之后的时间序列为x1:T,对于其中的缺失值处理如下:若t∈[1,T]且xt(d)缺失,那么xt(d)=(xa(d)+xn(d))/2,其中a<t且xa(d)不缺失,b>t且xb(d)不缺失,同时需要满足t-a=1或者(xa+1(d),xa+2(d),...,xt-1(d))均缺失,b-t=1或者(xt+1(d),xt+2(d),...,xb-1(d))均缺失。
1.3)标准化处理;
在数据输入有氧能力模型之前进行数据标准化可以有效地消除量纲差异的影响,同时可以提高有氧能力模型的收敛速度和精度。本发明采用最大最小标准化,对于特征f,标准化公式如下:
其中fmin表示f的最小值,fmax表示f的最大值。
1.4)说明数据来源;
有氧能力模型的训练数据均来自于符合国际标准的有氧能力测试数据,数据产生者为青年大学生,测试者均在跑步机进行测试且跑步机的速度设置严格按照如下11个阶段:2公里/时、4公里/时、6公里/时、8公里/时、10公里/时、12公里/时、10公里/时、8公里/时、6公里/时、4公里/时、2公里/时,上述每一个阶段都持续2分钟。
1.5)运动记录切片;
一条运动记录由一个速度序列、时间信息序列与心率序列组成,经过数据预处理之后的数据都是在时间维度上对齐且等长的。运动记录切片是指一条运动记录被均匀分割为若干个运动记录切片,它们的时间切片长度为2分钟。若不能分割均匀则多余部分以0填充至长度为2分钟。切片长度选择2分钟的原因是有氧测试中2分钟代表了一种运动强度持续时间。
2)构建基于多模态和自监督学习的有氧能力模型;
2.1)构建有氧能力模型的总体架构;
有氧能力模型主要分为三个子模型:人体泛化有氧能力模型,个性化长期有氧能力模型,以及个性化短期有氧能力模型。
人体泛化有氧能力模型主要用于从所有用户的运动记录中学习到不同人体对不同运动强度作出心肺反应的共性特征,该类特征有利于有氧能力模型捕捉个性化有氧能力表征,尤其在某一用户的运动数据相对缺乏时。
个性化长期有氧能力模型主要用于从同一用户的运动记录中学习到自身对不同运动强度作出心肺反应的特征,这类特征有助于有氧能力模型更好地学习个人的有氧能力表征。
个性化短期有氧能力模型主要用于从同一用户的运动记录切片中学习到自身对不同运动强度作出心肺反应的特征,这类特征有助于有氧能力模型更好地捕捉到一场运动中不同时段的运动生理表征。与上述两个模型不同的是,个性化短期有氧能力模型不仅引入了当前时段的运动强度和时间信息,而且考虑了前一时段的生理状态信息。
总的来说,个性化长期有氧能力模型注重捕获长期依赖,尤其是能够捕获当前时段生理状态与之前较长时间段内生理状态的关联。个性化短期有氧能力模型注重于捕获短期依赖,尤其是学习某一小时间段内生理反应变化。
2.2)实现有氧能力模型;
为了实现所述的有氧能力模型架构,还需要考虑在大规模运动记录且序列普遍较长的数据环境下训练的要求。因此人体泛化有氧能力模型和个性化长期有氧能力模型均采用Google在2017年提出的Transformer模型,其不仅可以提供高效的并行处理能力而且能够学习到序列全局依赖。它的具体模型架构为Transformer的编码器部分再后接一个多层感知机。其中感知机的输入层、隐层和输出层的神经元数量分别为2、3和1。
考虑到个性化短期有氧能力模型是在序列长度较小的切片上训练,因此个性化短期有氧能力模型的架构依次为3个相同的卷积层、1次向量拼接操作、堆叠的2个单向GRU层和1个多层感知机。其中,3个卷积层是并行的且分别用于卷积输入的心率序列、速度序列和时间信息序列,卷积核为1D、长度为5且步长为1。每一个单向GRU中单元数为64,多层感知机的输入层、1个隐层和输出层的神经元分别为128、256和120。
2.3)训练有氧能力模型;
为了合理地训练有氧能力模型,本发明引入多模态学习与自监督学习思想,以速度代表运动强度,以心率代表心脏对运动强度的生理反应。通过设计一个辅助任务来从无标签序列数据中找到监督信号,该任务可设计为:将某一时间段的速度序列和相应的时间信息序列,来预测该时间段的心率序列。最后,将预测出的心率序列与真实心率序列来计算损失值,以此对有氧能力模型进行训练。在训练个性化短期有氧能力模型时,其训练样本集是进行切片处理的,因此输入数据为某一时间片的速度序列、该时间片的时间信息序列和前一时间片的心率序列,再结合人体泛化有氧能力模型和个性化长期有氧能力模型的预测结果,来最终预测该时间片的心率序列。
首先,人体泛化有氧能力模型的样本集包括所有用户的运动记录,并对其进行预训练。针对某一用户,其训练样本集为其自身的所有运动记录,在训练该用户的个性化长期有氧能力模型时,数据需要输入到预训练的人体泛化有氧能力模型中然后将其输出与个性化长期有氧能力模型的输出进行均值化再得到最终模型预测输出,以此进行预训练。相同地,针对某一用户,个性化短期有氧能力模型是在其所有运动记录切片上进行训练的,首先将完整样本中的速度与时间序列分别输入到预训练的人体泛化有氧能力模型和个性化长期有氧能力模型中,然后将两者输出进行均值化得到泛化心率序列。之后,将泛化心率序列进行切片并以此输入到个性化短期有氧能力模型中,其生成最终输出的步骤是多层感知机输出与泛化心率序列切片中的对应心率片段进行均值化,训练时的预期输出均为输入样本中对应的心率序列片段。总的来说,有氧能力模型需要首先进行两步预训练,最终再训练个性化短期有氧能力模型来完成整个有氧能力模型的训练。
3)实施大规模学生有氧能力分群;
3.1)表征有氧能力;
为了有效地获取学生的有氧能力表征,每一个有氧能力表征需要在同一个运动强度下获得。因此,有氧能力模型的输入为国际标准的有氧能力测试速度序列,具体速度要求为以下11个阶段:2公里/时、4公里/时、6公里/时、8公里/时、10公里/时、12公里/时、10公里/时、8公里/时、6公里/时、4公里/时、2公里/时,上述每一个阶段都持续2分钟。将上述速度序列和相应的时间信息序列输入有氧能力模型后,样本被切片为11段,因此个性化短期有氧能力模型将需要进行10次推断,而每一次推断都会在堆叠单向GRU层输出时产生一个固定长度的运动生理表征向量,将这10个运动生理表征向量进行均值化得到有氧能力表征向量,并以此作为分群对象。
3.2)学生有氧能力聚类分群;
所有运动数据输入到数据预处理器中进行预处理,再用于训练有氧能力模型。得到训练完备的有氧能力模型之后,以有氧能力标准测试的速度序列为模型输入,将所得到的每一个学生有氧能力表征输入到基于Single-Linkage的聚类器中。聚类器将这些学生有氧能力表征进行聚类分群,Single-Linkage的实现具体步骤如下:
A.将每一个有氧能力表征向量单独定为一类,设定目标簇数;
B.计算所有类间相似度,其计算方式为一个类中的元素与另一个类中元素的最高相似度;
C.若未达到目标簇数,则将相似度最高的两个类合并,然后重复步骤B;
D.若达到目标簇数,则终止聚类器。
4)评估分群效果;
本发明采用FMI指数对有氧能力表征向量的聚类结果进行评价。FMI指数是对已知数据标签的层次聚类结果评价的一种指标,即事先要知道对象的所属类别。FMI的取值区间是0和1之间,即两个完全不相关的聚类结果的FMI值趋近于0,而两个完全相关的聚类结果的FMI值趋近于1。假设对于聚类结果A1和真实分类A2,其定义如下:
其中TP是指对象对Obj1与Obj2在A1的某个簇和A2的某个簇中同时出现的对数;FP是指对象对Obj1与Obj2出现在A1的同一簇中,但不出现在A2的簇中的对象对的个数;FN是指对象对Obj1与Obj2出现在A2的同一簇中,但不出现在A1的簇中的对数。
本发明的技术构思为:首先,对非等长、多变量的运动生理数据进行时序数据预处理;然后,将预处理后的数据输入基于多模态和自监督学习的有氧能力模型,训练得到一个强大的生理反应预测器,该模型不仅能够学到人类共性有氧能力特征,而且可以学到个性化长期和短期的运动生理表征;之后,将国际标准有氧测试的速度序列输入到模型中来得到每一个学生有氧能力表征,以此来实施基于Single-Linkage的学生有氧能力聚类分群;最后,依据每一个学生的有氧能力分群结果来利用FMI指数进行有效评估。
本发明的优点是:首先,本发明对非等长、多变量的运动生理数据提供了一种数据清洗模式,对其他相似问题具有参考意义;其次,提出了有氧能力模型并引入多模态和自监督学习思想来表征人体有氧能力,所涉及的序列模型不仅可以有效地提取序列全局和局部依赖而且能够以高并行性来降低训练时间,这使得有氧能力模型可以在大规模数据上进行有效训练。最后,本发明通过融合运动生理表征得到学生个性化的有氧能力表征,并阐述了学生有氧能力聚类分群过程和有效评估方法。本发明无论从数据处理上还是有氧能力表征上都综合考量了大数据环境下的影响,因此本发明可以有效地应用于大规模学生有氧能力分群中。
附图说明
图1是本发明方法实施的流程图;
图2是本发明的有氧能力模型的框架图;
图3是本发明的个性化短期有氧能力模型的推断过程;
图4是本发明的有氧能力表征的生成过程;
图5是人本发明的体泛化有氧能力模型和个性化长期有氧能力模型的架构图。
具体实施方法:
按照附图1,该流程完整地描述了一套基于运动生理表征融合的大规模学生有氧能力分群方法,包括步骤如下:
1)预处理时序数据;
1.1)剔除异常值;
本发明中的运动生理序列数据是多变量的,包括速度和心率。人体关于运动生理指标都存在上下限,因此依据上下限来设定阈值从而剔除超出范围的异常值。给定长度为N的时间序列x1:N=(x1,x2,...,xn,...,xN),其中D表示数据维度。设定d维特征的正常取值范围为[αd,βd],其中d∈[1,D],不归属于该范围的数据一律剔除。
1.2)多变量序列截取与插值;
经过异常值剔除后可能会造成一些数据点在某一维度上的缺失,而且不同生理指标会因为采集设备的不一致而造成不同维度的数据在序列上的不对齐。因此序列的插补显得十分重要,那么相应的方法有序列截取与插值。
若使得(x1(d),x2(d),...,xm(d))中的每一项均为缺失,其中xi(d)表示第d维特征在第i点上的值,那么就将x1:m从x1:N中截取出去。同理,若[1,D],使得(xp(d),xp+1(d),...,xN(d))中的每一项均为缺失,那么就将xp:N从x1:N中截取出去。
设定经过截取之后的时间序列为x1:T,对于其中的缺失值处理如下:若t∈[1,T]且xt(d)缺失,那么xt(d)=(xa(d)+xb(d))/2,其中a<t且xa(d)不缺失,b>t且xb(d)不缺失,同时需要满足t-a=1或者(xa+1(d),xa+2(d),...,xt-1(d))均缺失,b-t=1或者(xt+1(d),xt+2(d),...,xb-1(d))均缺失。
1.3)标准化处理;
在数据输入有氧能力模型之前进行数据标准化可以有效地消除量纲差异的影响,同时可以提高有氧能力模型的收敛速度和精度。本发明采用最大最小标准化,对于特征f,标准化公式如下:
其中fmin表示f的最小值,fmax表示f的最大值。
1.4)说明数据来源;
有氧能力模型的训练数据均来自于符合国际标准的有氧能力测试数据,数据产生者为青年大学生,测试者均在跑步机进行测试且跑步机的速度设置严格按照如下11个阶段:2公里/时、4公里/时、6公里/时、8公里/时、10公里/时、12公里/时、10公里/时、8公里/时、6公里/时、4公里/时、2公里/时,上述每一个阶段都持续2分钟。
1.5)运动记录切片;
一条运动记录由一个速度序列、时间信息序列与心率序列组成,经过数据预处理之后的数据都是在时间维度上对齐且等长的。运动记录切片是指一条运动记录被均匀分割为若干个运动记录切片,它们的时间切片长度为2分钟。若不能分割均匀则多余部分以0填充至长度为2分钟。切片长度选择2分钟的原因是有氧测试中2分钟代表了一种运动强度持续时间。
2)构建基于多模态和自监督学习的有氧能力模型;
2.1)构建有氧能力模型的总体架构
如图2所示,有氧能力模型主要分为三个子模型:人体泛化有氧能力模型,个性化长期有氧能力模型,以及个性化短期有氧能力模型。
人体泛化有氧能力模型主要用于从所有用户的运动记录中学习到不同人体对不同运动强度作出心肺反应的共性特征,该类特征有利于有氧能力模型捕捉个性化有氧能力表征,尤其在某一用户的运动数据相对缺乏时。
个性化长期有氧能力模型主要用于从同一用户的运动记录中学习到自身对不同运动强度作出心肺反应的特征,这类特征有助于有氧能力模型更好地学习个人的有氧能力表征。
个性化短期有氧能力模型主要用于从同一用户的运动记录切片中学习到自身对不同运动强度作出心肺反应的特征,这类特征有助于有氧能力模型更好地捕捉到一场运动中不同时段的运动生理表征。与上述两个模型不同的是,个性化短期有氧能力模型不仅引入了当前时段的运动强度和时间信息,而且考虑了前一时段的生理状态信息。
总的来说,个性化长期有氧能力模型注重捕获长期依赖,尤其是能够捕获当前时段生理状态与之前较长时间段内生理状态的关联。个性化短期有氧能力模型注重于捕获短期依赖,尤其是学习某一小时间段内生理反应变化。
2.2)实现有氧能力模型;
为了实现所述的模型架构,还需要考虑在大规模运动记录且序列普遍较长的数据环境下训练的要求。因此人体泛化有氧能力模型和个性化长期有氧能力模型均采用Google在2017年提出的Transformer模型,其不仅可以提供高效的并行处理能力而且能够学习到序列全局依赖。如图5所示,它的具体架构为Transformer的编码器部分再后接一个多层感知机。其中感知机的输入层、隐层和输出层的神经元数量分别为2、3和1。值得注意的是,Transformer的每一时刻输出均需要输入该感知机得到该时刻的预测心率值,这些值再组合为一条心率序列。
如图4的底部所示,考虑到个性化短期有氧能力模型是在序列长度较小的切片上训练,因此个性化短期有氧能力模型的架构依次为3个相同的卷积层、1次向量拼接操作、堆叠的2个单向GRU层和1个多层感知机。其中,3个卷积层是并行的且分别用于卷积输入的心率序列、速度序列和时间信息序列,卷积核为1D、长度为5且步长为1。每一个单向GRU中单元数为64,多层感知机的输入层、1个隐层和输出层的神经元分别为128、256和120。
2.3)训练有氧能力模型;
为了合理地训练有氧能力模型,本发明引入多模态学习与自监督学习思想,以速度代表运动强度,以心率代表心脏对运动强度的生理反应。通过设计一个辅助任务来从无标签序列数据中找到监督信号,该任务可设计为:将某一时间段的速度序列和相应的时间信息序列,来预测该时间段的心率序列。最后,将预测出的心率序列与真实心率序列来计算损失值,以此对有氧能力模型进行训练。在训练个性化短期有氧能力模型时,其训练样本集是进行切片处理的,因此输入数据为某一时间片的速度序列、该时间片的时间信息序列和前一时间片的心率序列,再结合人体泛化有氧能力模型和个性化长期有氧能力模型的预测结果,来最终预测该时间片的心率序列。如图3所示,第3行心率切片是依据样本中的速度切片和时间切片以及人体泛化有氧能力模型和个性化长期有氧能力模型输出的心率切片(第4行)得出的。
首先,人体泛化有氧能力模型的样本集包括所有用户的运动记录,并对其进行预训练。针对某一用户,其训练样本集为其自身的所有运动记录,在训练该用户的个性化长期有氧能力模型时,数据需要输入到预训练的人体泛化有氧能力模型中然后将其输出与个性化长期有氧能力模型的输出进行均值化再得到最终模型预测输出,以此进行预训练。相同地,针对某一用户,个性化短期有氧能力模型是在其所有运动记录切片上进行训练的,首先将完整样本中的速度与时间序列分别输入到预训练的人体泛化有氧能力模型和个性化长期有氧能力模型中,然后将两者输出进行均值化得到泛化心率序列。之后,将泛化心率序列进行切片并以此输入到个性化短期有氧能力模型中,其生成最终输出的步骤是多层感知机输出与泛化心率序列切片中的对应心率片段进行均值化,训练时的预期输出均为输入样本中对应的心率序列片段。总的来说,有氧能力模型需要首先进行两步预训练,最终再训练个性化短期有氧能力模型来完成整个有氧能力模型的训练。
3)实施大规模学生有氧能力分群;
3.1)表征有氧能力;
为了有效地获取学生的有氧能力表征,每一个有氧能力表征需要在同一个运动强度下获得。因此,有氧能力模型的输入为国际标准的有氧能力测试速度序列,具体速度要求为以下11个阶段:2公里/时、4公里/时、6公里/时、8公里/时、10公里/时、12公里/时、10公里/时、8公里/时、6公里/时、4公里/时、2公里/时,上述每一个阶段都持续2分钟。速度序列对应的时间信息序列的起点选取该学生最后一条运动记录的时间起点,以此来生成对应的时间信息序列。如图4所示,将上述速度序列和相应的时间信息序列输入有氧能力模型后,样本被切片为11段,因此个性化短期有氧能力模型将需要进行10次推断,而每一次推断都会在堆叠单向GRU层输出时产生一个固定长度的运动生理表征向量,将这10个运动生理表征向量进行均值化得到有氧能力表征向量,并以此作为分群对象。
3.2)学生有氧能力聚类分群;
所有运动数据输入到数据预处理器中进行预处理,再用于训练有氧能力模型。得到训练完备的有氧能力模型之后,以有氧能力标准测试的速度序列为模型输入,将所得到的每一个学生有氧能力表征输入到基于Single-Linkage的聚类器中。聚类器将这些学生有氧能力表征进行聚类分群,Single-Linkage的实现具体步骤如下:
A.将每一个有氧能力表征向量单独定为一类,设定目标簇数;
B.计算所有类间相似度,其计算方式为一个类中的元素与另一个类中元素的最高相似度;
C.若未达到目标簇数,则将相似度最高的两个类合并,然后重复步骤B;
D.若达到目标簇数,则终止聚类器。
4)评估分群效果;
本发明采用FMI指数对有氧能力表征向量的聚类结果进行评价。FMI指数是对已知数据标签的层次聚类结果评价的一种指标,即事先要知道对象的所属类别。FMI的取值区间是0和1之间,即两个完全不相关的聚类结果的FMI值趋近于0,而两个完全相关的聚类结果的FMI值趋近于1。假设对于聚类结果A1和真实分类A2,其定义如下:
其中TP是指对象对Obj1与Obj2在A1的某个簇和A2的某个簇中同时出现的对数;FP是指对象对Obj1与Obj2出现在A1的同一簇中,但不出现在A2的簇中的对象对的个数;FN是指对象对Obj1与Obj2出现在A2的同一簇中,但不出现在A1的簇中的对数。
Claims (4)
1.一种基于运动生理表征融合的大规模学生有氧能力分群方法,包括以下步骤:
1)预处理时序数据,包含剔除异常值、多变量序列截取与插值、标准化处理、说明数据来源和运动记录切片;
2)构建基于多模态和自监督学习的有氧能力模型,该模型由人体泛化有氧能力模型、个性化长期有氧能力模型和个性化短期有氧能力模型组成;在模型实现上采纳了高并行性架构,且在训练方式上对有氧能力模型的组件进行逐一训练,在个性化长期有氧能力模型和个性化短期有氧能力模型训练完成后均固定模型参数被作为后续模型训练的组件;具体构建步骤包括:
2.1)构建有氧能力模型的总体架构;
有氧能力模型分为三个子模型:人体泛化有氧能力模型,个性化长期有氧能力模型,以及个性化短期有氧能力模型;
人体泛化有氧能力模型用于从所有用户的运动记录中学习到不同人体对不同运动强度作出心肺反应的共性特征,在某一用户的运动数据相对缺乏时,该类特征有利于有氧能力模型捕捉个性化有氧能力表征;
个性化长期有氧能力模型用于从同一用户的运动记录中学习到自身对不同运动强度作出心肺反应的特征,这类特征有助于有氧能力模型更好地学习个人的有氧能力表征;
个性化短期有氧能力模型用于从同一用户的运动记录切片中学习到自身对不同运动强度作出心肺反应的特征,这类特征有助于有氧能力模型更好地捕捉到一场运动中不同时段的运动生理表征;与上述两个模型不同的是,个性化短期有氧能力模型不仅引入了当前时段的运动强度和时间信息,而且考虑了前一时段的生理状态信息;
个性化长期有氧能力模型注重捕获长期依赖,能够捕获当前时段生理状态与之前较长时间段内生理状态的关联;个性化短期有氧能力模型注重于捕获短期依赖,捕获学习某一小时间段内生理反应变化;
2.2)实现有氧能力模型;
为了实现所述的有氧能力模型架构,还需要考虑在大规模运动记录且序列普遍较长的数据环境下训练的要求;因此人体泛化有氧能力模型和个性化长期有氧能力模型均采用Google在2017年提出的Transformer模型,其不仅可以提供高效的并行处理能力而且能够学习到序列全局依赖;它的具体架构为Transformer的编码器部分再后接一个多层感知机;其中感知机的输入层、隐层和输出层的神经元数量分别为2、3和1;
考虑到个性化短期有氧能力模型是在序列长度较小的切片上训练,因此个性化短期有氧能力模型的架构依次为3个相同的卷积层、1次向量拼接操作、堆叠的2个单向GRU层和1个多层感知机;其中,3个卷积层是并行的且分别用于卷积输入的心率序列、速度序列和时间信息序列,卷积核为1D、长度为5且步长为1;每一个单向GRU中单元数为64,多层感知机的输入层、1个隐层和输出层的神经元分别为128、256和120;
2.3)训练有氧能力模型;
为了合理地训练有氧能力模型,本发明引入多模态学习与自监督学习思想,以速度代表运动强度,以心率代表心脏对运动强度的生理反应;通过设计一个辅助任务来从无标签序列数据中找到监督信号,该任务可设计为:将某一时间段的速度序列和相应的时间信息序列,来预测该时间段的心率序列;最后,将预测出的心率序列与真实心率序列来计算损失值,以此对有氧能力模型进行训练;在训练个性化短期有氧能力模型时,其训练样本集是进行切片处理的,因此输入数据为某一时间片的速度序列、该时间片的时间信息序列和前一时间片的心率序列,再结合人体泛化有氧能力模型和个性化长期有氧能力模型的预测结果,来最终预测该时间片的心率序列;
首先,人体泛化有氧能力模型的样本集包括所有用户的运动记录,并对其进行预训练;针对某一用户,其模型训练的样本集为其自身的所有运动记录,在训练该用户的个性化长期有氧能力模型时,数据需要输入到预训练的人体泛化有氧能力模型中然后将其输出与个性化长期有氧能力模型的输出进行均值化再得到最终模型预测输出,以此进行预训练;相同地,针对某一用户,个性化短期有氧能力模型是在其所有运动记录切片上进行训练的,首先将完整样本中的速度与时间序列分别输入到预训练的人体泛化有氧能力模型和个性化长期有氧能力模型中,然后将两者输出进行均值化得到泛化心率序列;之后,将泛化心率序列进行切片并以此输入到个性化短期有氧能力模型中,其生成最终输出的步骤是多层感知机输出与泛化心率序列切片中的对应心率片段进行均值化,训练时的预期输出均为输入样本中对应的心率序列片段;有氧能力模型需要首先进行两步预训练,最终再训练个性化短期有氧能力模型来完成整个有氧能力模型的训练;
3)实施大规模学生有氧能力分群,通过将国际标准有氧测试的速度序列和时间信息序列输入到有氧能力模型中来获得10个不同时段的运动生理表征向量,再将这些表征向量进行均值化来获得最终的有氧能力表征向量;最后构建基于single-linkage的聚类器来对学生有氧能力表征向量进行分群聚类;
4)评估分群效果,依据FMI指数对每一个学生有氧能力的分群结果进行评估。
2.根据权利要求1中的基于运动生理表征融合的大规模学生有氧能力分群方法,其特征在于:步骤1)所述的时序数据预处理具体包括:
1.1)剔除异常值;
运动生理序列数据是多变量的,包括速度和心率;人体关于运动生理指标都存在上下限,因此依据上下限来设定阈值从而剔除超出范围的异常值;给定长度为N的时间序列x1:N=(x1,x2,...,xn,...,xN),其中D表示数据维度;设定d维特征的正常取值范围为[αd,βd],其中d∈[1,D],不归属于该范围的数据一律剔除;
1.2)多变量序列截取与插值;
经过异常值剔除后可能会造成一些数据点在某一维度上的缺失,而且不同生理指标会因为采集设备的不一致而造成不同维度的数据在序列上的不对齐;因此序列的插补显得十分重要,那么相应的方法有序列截取与插值;
若使得(x1(d),x2(d),...,xm(d))中的每一项均为缺失,其中xi(d)表示第d维特征在第i点上的值,那么就将x1:m从x1:N中截取出去;同理,若使得(xp(d),xp+1(d),...,xN(d))中的每一项均为缺失,那么就将xp:N从x1:N中截取出去;
设定经过截取之后的时间序列为x1:T,对于其中的缺失值处理如下:若t∈[1,T]且xt(d)缺失,那么xt(d)=(xa(d)+xb(d))/2,其中a<t且xa(d)不缺失,b>t且xb(d)不缺失,同时需要满足t-a=1或者(xa+1(d),xa+2(d),...,xt-1(d))均缺失,b-t=1或者(xt+1(d),xt+2(d),...,xb-1(d))均缺失;
1.3)标准化处理;
在数据输入有氧能力模型之前进行数据标准化可以有效地消除量纲差异的影响,同时可以提高有氧能力模型的收敛速度和精度;本发明采用最大最小标准化,对于特征f,标准化公式如下:
其中fmin表示f的最小值,fmax表示f的最大值;
1.4)说明数据来源;
有氧能力模型的训练数据均来自于符合国际标准的有氧能力测试数据,数据产生者为青年大学生,测试者均在跑步机进行测试且跑步机的速度设置严格按照如下11个阶段:2公里/时、4公里/时、6公里/时、8公里/时、10公里/时、12公里/时、10公里/时、8公里/时、6公里/时、4公里/时、2公里/时,上述每一个阶段都持续2分钟;
1.5)运动记录切片;
一条运动记录由一个速度序列、时间信息序列与心率序列组成,经过数据预处理之后的数据都是在时间维度上对齐且等长的;运动记录切片是指一条运动记录被均匀分割为若干个运动记录切片,它们的时间切片长度为2分钟;若不能分割均匀则多余部分以0填充至长度为2分钟;切片长度选择2分钟的原因是有氧测试中2分钟代表了一种运动强度持续时间。
3.根据权利要求1所述的基于运动生理表征融合的大规模学生有氧能力分群方法,其特征在于:步骤3)所述的实施大规模学生有氧能力分群,具体训练步骤如下:
3.1)表征有氧能力;
为了有效地获取学生的有氧能力表征,每一个有氧能力表征需要在同一个运动强度下获得;因此,有氧能力模型的输入为国际标准的有氧能力测试速度序列,具体速度要求为以下11个阶段:2公里/时、4公里/时、6公里/时、8公里/时、10公里/时、12公里/时、10公里/时、8公里/时、6公里/时、4公里/时、2公里/时,上述每一个阶段都持续2分钟;将上述速度序列和相应的时间信息序列输入有氧能力模型后,样本被切片为11段,因此个性化短期有氧能力模型将需要进行10次推断,而每一次推断都会在堆叠单向GRU层输出时产生一个固定长度的运动生理表征向量,将这10个运动生理表征向量进行均值化得到有氧能力表征向量,并以此作为分群对象;
3.2)学生有氧能力聚类分群;
所有运动数据输入到数据预处理器中进行预处理,再用于训练有氧能力模型;得到训练完备的有氧能力模型之后,以有氧能力标准测试的速度序列为模型输入,将所得到的每一个学生有氧能力表征输入到基于Single-Linkage的聚类器中;聚类器将这些学生有氧能力表征进行聚类分群,Single-Linkage的实现具体步骤如下:
A.将每一个有氧能力表征向量单独定为一类,设定目标簇数;
B.计算所有类间相似度,其计算方式为一个类中的元素与另一个类中元素的最高相似度;
C.若未达到目标簇数,则将相似度最高的两个类合并,然后重复步骤B;
D.若达到目标簇数,则终止聚类器。
4.根据权利要求1所述的基于运动生理表征融合的大规模学生有氧能力分群方法,其特征在于:步骤4)所述的分群效果评估具体包括:
采用FMI指数对有氧能力表征向量的聚类结果进行评价;FMI指数是对已知数据标签的层次聚类结果评价的一种指标,即事先要知道对象的所属类别;FMI的取值区间是0和1之间,即两个完全不相关的聚类结果的FMI值趋近于0,而两个完全相关的聚类结果的FMI值趋近于1;假设对于聚类结果A1和真实分类A2,其定义如下:
其中TP是指对象对Obj1与Obj2在A1的某个簇和A2的某个簇中同时出现的对数;FP是指对象对Obj1与Obj2出现在A1的同一簇中,但不出现在A2的簇中的对象对的个数;FN是指对象对Obj1与Obj2出现在A2的同一簇中,但不出现在A1的簇中的对数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110160544.4A CN112836105B (zh) | 2021-02-05 | 2021-02-05 | 一种基于运动生理表征融合的大规模学生有氧能力分群方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110160544.4A CN112836105B (zh) | 2021-02-05 | 2021-02-05 | 一种基于运动生理表征融合的大规模学生有氧能力分群方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836105A CN112836105A (zh) | 2021-05-25 |
CN112836105B true CN112836105B (zh) | 2022-05-24 |
Family
ID=75932263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110160544.4A Active CN112836105B (zh) | 2021-02-05 | 2021-02-05 | 一种基于运动生理表征融合的大规模学生有氧能力分群方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836105B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436703B (zh) * | 2021-07-02 | 2022-07-15 | 上海交通大学 | 基于神经网络的运动步数数据的运动模式推断方法及系统 |
CN113729667A (zh) * | 2021-08-11 | 2021-12-03 | 东南数字经济发展研究院 | 一种大规模并行化有氧能力分群方法 |
CN116110584B (zh) * | 2023-02-23 | 2023-09-22 | 江苏万顶惠康健康科技服务有限公司 | 一种人体健康风险评估预警系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3219254A1 (en) * | 2016-03-14 | 2017-09-20 | Tata Consultancy Services Limited | Method and system for removing corruption in photoplethysmogram signals for monitoring cardiac health of patients |
CN107680679A (zh) * | 2017-08-22 | 2018-02-09 | 浙江工业大学 | 大数据驱动的学生有氧能力分群方法 |
CN111666494A (zh) * | 2020-05-13 | 2020-09-15 | 平安科技(深圳)有限公司 | 分群决策模型生成、分群处理方法、装置、设备及介质 |
CN111986774A (zh) * | 2020-07-08 | 2020-11-24 | 西安理工大学 | 一种基于数据分析的运动处方生成及监控指导系统 |
-
2021
- 2021-02-05 CN CN202110160544.4A patent/CN112836105B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3219254A1 (en) * | 2016-03-14 | 2017-09-20 | Tata Consultancy Services Limited | Method and system for removing corruption in photoplethysmogram signals for monitoring cardiac health of patients |
CN107680679A (zh) * | 2017-08-22 | 2018-02-09 | 浙江工业大学 | 大数据驱动的学生有氧能力分群方法 |
CN111666494A (zh) * | 2020-05-13 | 2020-09-15 | 平安科技(深圳)有限公司 | 分群决策模型生成、分群处理方法、装置、设备及介质 |
CN111986774A (zh) * | 2020-07-08 | 2020-11-24 | 西安理工大学 | 一种基于数据分析的运动处方生成及监控指导系统 |
Non-Patent Citations (2)
Title |
---|
Cardiovascular risk in students with different level of aerobic capacity;Krzysztof Leszek Mazurek等;《Biology of Sport》;20140531;全文 * |
学生有氧能力分群研究及其在系统中的实现;王海龙;《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》;20190715;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112836105A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112836105B (zh) | 一种基于运动生理表征融合的大规模学生有氧能力分群方法 | |
Edel et al. | Binarized-blstm-rnn based human activity recognition | |
CN108536123B (zh) | 基于长短时记忆神经网络的列控车载设备故障诊断方法 | |
US20140161322A1 (en) | System and method for activity recognition | |
CN110478883B (zh) | 一种健身动作教学及矫正系统及方法 | |
CN110575663A (zh) | 一种基于人工智能的体育辅助训练方法 | |
CN113990494B (zh) | 一种基于视频数据的抽动症辅助筛查系统 | |
CN110298303B (zh) | 一种基于长短时记忆网络扫视路径学习的人群识别方法 | |
CN112989920B (zh) | 一种基于帧级特征蒸馏神经网络的脑电情绪分类系统 | |
Min et al. | Novel pattern detection in children with autism spectrum disorder using iterative subspace identification | |
CN113297994B (zh) | 一种飞行员行为分析方法及系统 | |
CN112529054B (zh) | 一种多源异构数据的多维度卷积神经网络学习者建模方法 | |
Long et al. | Drawings as a window into developmental changes in object representations | |
CN109889923A (zh) | 利用结合视频描述的分层自注意力网络总结视频的方法 | |
Yu et al. | Modality fusion network and personalized attention in momentary stress detection in the wild | |
CN115954019B (zh) | 一种融合自注意力和卷积操作的环境噪声识别方法及系统 | |
CN115546491B (zh) | 一种跌倒报警方法、系统、电子设备及存储介质 | |
CN116431004A (zh) | 康复机器人交互行为的控制方法及系统 | |
CN109919210A (zh) | 一种基于深度卷积网络的心音半监督分类方法 | |
Saidani et al. | An efficient human activity recognition using hybrid features and transformer model | |
CN114882580A (zh) | 一种基于深度学习的运动动作一致性的度量方法 | |
CN115147768A (zh) | 一种跌倒风险评估方法及系统 | |
Hao et al. | VALERIAN: Invariant Feature Learning for IMU Sensor-based Human Activity Recognition in the Wild | |
Lu et al. | Diversify: A general framework for time series out-of-distribution detection and generalization | |
Song et al. | A hybrid cnn-lstm model for video-based teaching style evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |