CN112990361B - 基于Q-Learning算法的调整运动速度的方法、跑步机及提示装置 - Google Patents

基于Q-Learning算法的调整运动速度的方法、跑步机及提示装置 Download PDF

Info

Publication number
CN112990361B
CN112990361B CN202110421305.XA CN202110421305A CN112990361B CN 112990361 B CN112990361 B CN 112990361B CN 202110421305 A CN202110421305 A CN 202110421305A CN 112990361 B CN112990361 B CN 112990361B
Authority
CN
China
Prior art keywords
speed
aft
velocity
exercise
adjusting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110421305.XA
Other languages
English (en)
Other versions
CN112990361A (zh
Inventor
张永亮
张世潮
叶骏
陈娟
曾强
李军
高向阳
何明清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dongliang Health Technology Co ltd
Original Assignee
Beijing Dongliang Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dongliang Health Technology Co ltd filed Critical Beijing Dongliang Health Technology Co ltd
Priority to CN202110421305.XA priority Critical patent/CN112990361B/zh
Publication of CN112990361A publication Critical patent/CN112990361A/zh
Application granted granted Critical
Publication of CN112990361B publication Critical patent/CN112990361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B22/00Exercising apparatus specially adapted for conditioning the cardio-vascular system, for training agility or co-ordination of movements
    • A63B22/02Exercising apparatus specially adapted for conditioning the cardio-vascular system, for training agility or co-ordination of movements with movable endless bands, e.g. treadmills
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B71/00Games or sports accessories not covered in groups A63B1/00 - A63B69/00
    • A63B71/06Indicating or scoring devices for games or players, or for other sports activities
    • A63B71/0619Displays, user interfaces and indicating devices, specially adapted for sport equipment, e.g. display mounted on treadmills
    • A63B71/0669Score-keepers or score display devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B2220/00Measuring of physical parameters relating to sporting activity
    • A63B2220/30Speed
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B2230/00Measuring physiological parameters of the user
    • A63B2230/04Measuring physiological parameters of the user heartbeat characteristics, e.g. ECG, blood pressure modulations
    • A63B2230/06Measuring physiological parameters of the user heartbeat characteristics, e.g. ECG, blood pressure modulations heartbeat rate only

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Physical Education & Sports Medicine (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Cardiology (AREA)
  • Vascular Medicine (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Rehabilitation Tools (AREA)

Abstract

本发明涉及人工智能领域,提供一种基于Q‑Learning算法的调整运动速度的方法、跑步机及提示装置,所述方法包括如下步骤:S1:基于用户在第一预定时间段的运动锻炼信息建立运动锻炼奖励矩阵,所述运动锻炼信息包括速度和心率,所述运动锻炼奖励矩阵以运动心率处在预定恒定心率范围内为训练目标,评估每次速度变化下用户身体变化效果的程度;S2:基于运动锻炼奖励矩阵和Q‑Learning算法形成Q‑Learning矩阵,所述Q‑Learning矩阵评估每次速度变化下用户身体变化的受益程度;S3:根据Q‑Learning矩阵调整用户的运动速度。相比较现有的运动强度监测需要依赖电子设备,本发明可以脱离可穿戴电子设备,有效节约运动锻炼的设备成本。

Description

基于Q-Learning算法的调整运动速度的方法、跑步机及提示 装置
技术领域
本发明涉及人工智能领域,尤其涉及一种基于Q-Learning算法的调整运动速度的方法、调整运动速度的跑步机和调整运动速度的提示装置。
背景技术
运动锻炼可以有效降低心血管疾病的发病率和死亡率。过低强敌的运动无法实现运动锻炼效果,过高强度的运动可能导致神经中枢疲劳、骨骼机能下降、肝脏损伤,因此运动过程中的强度需要严格控制。
现有的技术手段主要是通过心率指标实时监测运动强度。如中国专利申请号为2019800248879公开了一种运动强度估计方法、运动强度估计装置和程序,该专利通过借助心电图来计算心率,获取受试者的运动强度;中国专利申请号为2016101415735公开了一种监控运动强度的方法及智能手环,通过借助智能心率腕表判断是否处于合适心率范围内,以此来调整运动强度;中国专利申请号为2019112663465公开了一种运动数据处理方法及电子设备,其中电子设备提供多种运动强度选项,即通过设置不同的运动心率范围对应不同的运动强度范围。这些通过心率指标实时监测运动强度的方法及设备需要借助可穿戴设备或电子设备来对运动强度进行调控,即在运动过程中无法摆脱对设备的依赖。对于没有设备的运动者而言,以运动心率长时间处在恒定范围内为目标的运动锻炼无法实现。
因此,亟需研究一种调整运动速度的方法,使运动者在运动时摆脱可穿戴设备。
发明内容
本发明的技术目的就在于解决上述现有技术的缺陷,提供一种基于Q-Learning算法的调整运动速度的方法、调整运动速度的跑步机及调整运动速度的提示装置,基于Q-Learning方法进行训练,使用户根据训练好的Q-Learning矩阵调整运动速度,摆脱可穿戴设备,节约成本。
作为本发明的一个方面,提供一种调整运动速度的方法,包括如下步骤:
S1:基于用户在第一预定时间段的运动锻炼信息建立运动锻炼奖励矩阵,所述运动锻炼信息包括速度和心率,所述运动锻炼奖励矩阵以运动心率处在预定恒定心率范围内为训练目标,评估每次速度变化下用户身体变化效果的程度;
S2:基于运动锻炼奖励矩阵和Q-Learning算法形成Q-Learning矩阵,所述Q-Learning矩阵评估每次速度变化下用户身体变化的受益程度;
S3:根据Q-Learning矩阵调整用户的运动速度。
根据本发明一示例实施方式,还包括:
S4:获取用户在第二预定时间段的新的运动锻炼信息;
S5:根据步骤S4的新的运动锻炼信息更新运动锻炼奖励矩阵;
S6:重复步骤S2至步骤S5。
根据本发明一示例实施方式,所述第一预定时间段为15天至3个月。
根据本发明一示例实施方式,所述第二预定时间段的范围小于第一预定时间段的范围。
根据本发明一示例实施方式,所述第二预定时间段的范围为1-3天。
根据本发明一示例实施方式,所述预定恒定心率范围为靶心率范围。靶心率是指通过有氧运动提高心血管循环系统的机能时有效而安全的运动心率。靶心率范围在60%与80%最大心率之间。
根据本发明一示例实施方式,步骤S1中,所述基于用户在第一预定时间段的运动锻炼信息建立运动锻炼奖励矩阵的方法包括:
在第一预定时间段内进行多次运动,设置每次运动的时长,将该时长分为多个阶段,每个阶段对应一个运动锻炼奖励矩阵;
设置每个阶段内速度调整的最大次数和速度调整的时间点;
当到达速度调整时间点时,判断是否进行速度调整,判断方法如下:
用户的当前心率处在预定恒心心率范围内时,不调整速度;
用户的当前心率高于预定恒定心率范围上限时,降低速度;
用户的当前心率低于预定恒定心率范围下限时,增加速度;
根据速度调整时间点后的心率和速度调整时间点前后的速度建立运动锻炼奖励矩阵。
根据本发明一示例实施方式,所述根据速度调整时间点后的心率和速度调整时间点前后的速度建立运动锻炼奖励矩阵的方法包括:
R(Vpre,Vaft)表示运动锻炼奖励矩阵中以速度为Vpre变化到速度为Vaft的奖励值;
如果没有出现过由速度为Vpre变化到速度为Vaft的速度变化或这样的速度变化超过预定调速值时,设置R(Vpre,Vaft)为第一预定值;
如果出现过由速度为Vpre变化到速度为Vaft的速度变化且这样的速度变化不超过预定调速值且速度调整时间点后的心率超过预定恒定心率范围上限时,设置R(Vpre,Vaft)为第二预定值;
如果出现过由速度为Vpre变化到速度为Vaft的速度变化且这样的速度变化不超过预定调速值且速度调整时间点后的心率低于预定恒定心率范围下限时,设置R(Vpre,Vaft)为第三预定值;
如果出现过由速度为Vpre变化到速度为Vaft的速度变化且这样的速度变化不超过预定调速值且速度调整时间点后的心率在预定恒定心率范围内时,设置R(Vpre,Vaft)为第四预定值;
第一预定值<第二预定值<第三预定值<第四预定值。
根据本发明一示例实施方式,在第一预定时间段内进行多次运动的相同阶段中,如有多次相同速度变化,则多次由速度为Vpre变化到速度为Vaft的奖励值取多个R(Vpre,Vaft)求和后的平均值,采用的公式如下:
Figure 92214DEST_PATH_IMAGE001
其中,R0(Vpre,Vaft)为多次由速度为Vpre变化到速度为Vaft的奖励值;n为由速度为Vpre变化到速度为Vaft所出现的次数,R(Vpre,Vaft)为每次由速度为Vpre变化到速度为Vaft的奖励值。
根据本发明一示例实施方式,步骤S2中,基于运动锻炼奖励矩阵和Q-Learning算法形成Q-Learning矩阵的方法包括:
利用Q-Learning算法训练规则执行多次Episode训练;
所述Q-Learning算法训练规则如下:
Figure DEST_PATH_IMAGE002
其中,Qnew(Vpre,Vaft)为更新后的由速度为Vpre调整至速度为Vaft的收益值;
Q(Vpre,Vaft)为更新前的由速度为Vpre调整至速度为Vaft的收益值;
R0(Vpre,Vaft)表示由速度为Vpre变化至速度为Vaft的奖励值;
Q(Vaft,Vthen)表示由速度为Vaft调整至速度为Vthen的收益值,Vthen表示Q-Learning矩阵中所有可能速度调整行为调整后的速度。
Max(Q(Vaft,Vthen))由速度为Vaft调整至速度为Vthen的收益值中的最大值;
δ表示学习率,范围是0-1;
γ表示衰竭系数,范围是0-1。
根据本发明一示例实施方式,如果Q-Learning矩阵为初次设置,则需要进行初始化,设置为全零矩阵。
根据本发明一示例实施方式,每次Episode训练的方法包括如下步骤:
S201:随机选择一个初始速度,在该初始速度下的所有可能速度调整行为调整后的速度中随机选取一个第一调整速度;
S202:基于Q-Learning算法训练规则更新Q-Learning矩阵;
S203:进入下一个速度调整状态,在第一调整速度下的所有可能速度调整行为调整后的速度中随机选取一个第二调整速度;
S204:基于Q-Learning算法训练规则更新Q-Learning矩阵;
S205:以第二调整速度的速度值作为第一调整速度;
S206:重复步骤S203至步骤S205,直到奖励值为奖励矩阵的最大值后,更新Q-Learning矩阵,并完成一次Episode训练。
根据本发明一示例实施方式,步骤S3中,所述根据Q-Learning矩阵调整用户的运动速度的方法包括:
S301:检测用户的运动速度;
S302:指示用户选择Q-Learning矩阵中与该运动速度所对应的最大的收益值相匹配的调整后的速度进行速度调整;
S303:重复步骤S302,直到运动速度调整后收益值为Q-Learning矩阵中最大的收益值时,结束速度调整。
根据本发明的第二个方面,提供一种调整运动速度的跑步机,采用所述基于Q-Learning算法的调整运动速度的方法调整跑步机的速度。
根据本发明的第三个方面,提供一种调整运动速度的提示装置,采用所述基于Q-Learning算法的调整运动速度的方法提示用户调整运动速度。
本发明的有益效果是:
本发明先采集用户的运动锻炼数据,设置以安全、有效的运动锻炼为目的的奖惩规则,基于运动锻炼奖励矩阵和Q-Learning算法训练Q-Learning矩阵,通过Q-Learning矩阵自适应地指导用户调整运动速度,使得用户可以脱离可穿戴设备实现在恒定心率范围内长时间运动。相比较现有的运动强度监测需要依赖电子设备,本发明可以有效节约运动锻炼的设备成本。
同时,可以每隔一段时间采集用户的一次运动锻炼信息,定期更新Q-Learning矩阵,更新后的Q-Learning矩阵能够反映当前运动速度变化下的心率反映,更能快速、准确地完成恒定心率范围控制的目的。
附图说明
图1给出了基于Q-Learning算法的调整运动速度的方法的流程图。
具体实施方式
以下对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
根据本发明的第一个实施方式,提供一种基于Q-Learning算法的调整运动速度的方法,如图1所示,包括如下步骤:
步骤S1:基于用户在第一预定时间段的运动锻炼信息建立运动锻炼奖励矩阵。
用户在一个月内进行多次运动,期间用户佩戴心率腕表在跑步机上进行运动,设置每次运动的时长,每次运动的最长时间记为Tmax
将每次运动的时长分为多个阶段,每个阶段的调整时间为5分钟,但不限于5分钟,也可以为3分钟、8分钟或10分钟等。每个阶段对应一个运动锻炼奖励矩阵,即运动锻炼奖励矩阵的个数=Tmax/每个阶段的调整时间。
设置每个阶段内速度调整的最大次数和速度调整的时间点。本实施方式中,设置每个阶段内速度调整的最大次数为4次,最小为0次。当调整次数为0次时,表示用户在这个阶段的内保持同一个速度运动;当调整次数为4次时,表示用户在这个阶段内有4次可以调速的机会,即在第1、2、3、4分钟进行速度调整,每1分钟内匀速运动。
当用户运动到达速度调整时间点时,判断是否进行速度调整,判断方法如下:
用户的当前心率处在靶心率范围内时,不调整速度;
用户的当前心率高于靶心率范围上限时,降低速度;
用户的当前心率低于靶心率范围下限时,增加速度。
每次速度调整的最小量纲为0.5km/h,但不局限于此量纲。每次调速不超过±2km/h。
记录速度调整时间点后的心率,即为速度调整后40秒-60秒的平均心率。
根据速度调整时间点后的心率和速度调整时间点前后的速度建立运动锻炼奖励矩阵:
R(Vpre,Vaft)表示运动锻炼奖励矩阵中以速度为Vpre变化到速度为Vaft的奖励值。
如果没有出现过由速度为Vpre变化到速度为Vaft的速度变化或这样的速度变化超过±2km/h时,设置R(Vpre,Vaft)=-1,表示这种速度调整在现实调整中不存在或者速度变化较大,存在运动风险,因此需要对此速度调整进行惩罚。
如果出现过由速度为Vpre变化到速度为Vaft的速度变化且这样的速度变化不超过±2km/h且速度调整时间点后的心率超过靶心率范围上限时,设置R(Vpre,Vaft)=-0.5,表示这种速度调整使得心率过快,会影响用户的身体,存在一定预定风险,需要进行相应的惩罚。
如果出现过由速度为Vpre变化到速度为Vaft的速度变化且这样的速度变化不超过±2km/h且速度调整时间点后的心率低于靶心率范围下限时,设置R(Vpre,Vaft)=0,表示这种速度调整使得心率过慢,考虑到这种速度调整相较于使心率超过靶心率范围上限的速度调整,调整的安全性提高,这种速度的调整既不惩罚也不奖励。
如果出现过由速度为Vpre变化到速度为Vaft的速度变化且这样的速度变化不超过±2km/h且速度调整时间点后的心率在靶心率范围内时,设置R(Vpre,Vaft)=1,表示这种速度调整使得用户的心率在靶心率范围内,此时奖励权重最大。
在这一个月内多次运动的相同阶段中,如有多次相同速度变化,则多次由速度为Vpre变化到速度为Vaft的奖励值取多个R(Vpre,Vaft)求和后的平均值,采用的公式如下:
Figure 907330DEST_PATH_IMAGE001
其中,R0(Vpre,Vaft)为多次由速度为Vpre变化到速度为Vaft的奖励值;n为由速度为Vpre变化到速度为Vaft所出现的次数,R(Vpre,Vaft)为每次由速度为Vpre变化到速度为Vaft的奖励值。
最终形成的运动锻炼奖励矩阵的格式为:
Figure 518440DEST_PATH_IMAGE003
上述的运动锻炼奖励矩阵以运动心率处在靶心率范围内为训练目标,评估每次速度变化下用户身体变化效果的程度。
步骤S2:基于运动锻炼奖励矩阵和Q-Learning算法形成Q-Learning矩阵,Q-Learning矩阵评估每次速度变化下用户身体变化的受益程度。
如果Q-Learning矩阵不是初次设置,则不需要进行初始化;
如果Q-Learning矩阵为初次设置,则需要进行初始化,设置为全零矩阵,如下所示:
Figure DEST_PATH_IMAGE004
制定Q-Learning算法训练规则,利用Q-Learning算法训练规则执行多次Episode训练。
Q-Learning算法训练规则如下:
Figure 91635DEST_PATH_IMAGE002
其中,Qnew(Vpre,Vaft)为更新后的由速度为Vpre调整至速度为Vaft的收益值;
Q(Vpre,Vaft)为更新前的由速度为Vpre调整至速度为Vaft的收益值;
R0(Vpre,Vaft)表示由速度为Vpre变化至速度为Vaft的奖励值;
Q(Vaft,Vthen)表示由速度为Vaft调整至速度为Vthen的收益值,Vthen表示Q-Learning矩阵中所有可能速度调整行为调整后的速度。
Max(Q(Vaft,Vthen))由速度为Vaft调整至速度为Vthen的收益值中的最大值;
δ为学习率,范围是0-1;
γ为衰竭系数,范围是0-1。
δ表示上一个速度调整对当前速度调整的影响权重。当δ为1时,表示上一次的Q-Learning矩阵与更新后的Q-Learning矩阵完全无关。当δ为0时,表示上一次的Q-Learning矩阵中的参数会完全更新至更新后的Q-Learning矩阵。本实施例中δ取值为0.9,但不局限于此数值。
γ表示下一个速度调整对当前速度调整的影响权重。本实施例中γ取值为0.9,但不局限于此数值。
每次Episode训练的方法包括如下步骤:
S201:随机选择一个初始速度,在该初始速度下的所有可能速度调整行为调整后的速度中随机选取一个第一调整速度。
S202:基于Q-Learning算法训练规则更新Q-Learning矩阵;
S203:进入下一个速度调整状态,在第一调整速度下的所有可能速度调整行为调整后的速度中随机选取一个第二调整速度;
S204:基于Q-Learning算法训练规则更新Q-Learning矩阵;
S205:以第二调整速度的速度值作为第一调整速度;
S206:重复步骤S203至步骤S205,直到奖励值为奖励矩阵的最大值后,更新Q-Learning矩阵,并完成一次Episode训练。
例如:执行第一次Episode训练,选择初始速度1.5km/h,选择第一调整速度2.0km/h,计算出速度为1.5km/h调整至速度为2.0km/h的收益值。
Qnew(1.5,2.0)=
Q(1.5,2.0)+0.9×[R0(1.5,2.0)+0.9×Max(Q(2.0,1.0),Q(2.0,1.5)...Q(2.0,10.0))-Q(1.5,2.0)];
因为Q-Learning矩阵初始值为全零矩阵,所以Q(1.5,2.0)=0,Q(2.0,1.5)=0。
则公式转化为Qnew(1.5,2.0)=0+0.9×R0(1.5,2.0)=0.9×R0(1.5,2.0)。
此次Q-Learning矩阵更新为:
Figure 765193DEST_PATH_IMAGE005
随后进入下一个速度调整状态,选择一个第二调整速度Vaft,计算出速度为2.0km/h调整至速度为Vaft的收益值,计算方法参考速度为1.5km/h调整至速度为2.0km/h的收益值的方法。然后对Q(2.0,Vaft)进行更新。
以第二调整速度Vaft的速度值作为第一调整速度,循环计算Q-Learning矩阵的收益值。直到奖励值为奖励矩阵的最大值后,更新Q-Learning矩阵,并完成并结束一次Episode训练。
重复执行多次Episode训练,当执行完所有训练后,获得的Q-Learning矩阵即为最终的Q-Learning矩阵,该最终的Q-Learning矩阵能够指导用户进行安全有效的运动锻炼。
步骤S3:根据Q-Learning矩阵调整用户的运动速度。
S301:检测用户的运动速度;
S302:指示用户选择Q-Learning矩阵中与该运动速度所对应的最大的收益值相匹配的调整后的速度进行速度调整,即为选择Q-Learning矩阵中以该运动速度为Vpre,找到该行所有收益值中的极大值,以该极大值所匹配的Vaft进行速度调整;
S303:重复步骤S302,直到运动速度调整后收益值为Q-Learning矩阵中最大的收益值时,结束速度调整。
步骤S4:获取用户在第二预定时间段的新的运动锻炼信息。
例如:每隔一个月获取用户一天的新的运动锻炼信息,但并不局限于此。
步骤S5:根据步骤S4的新的运动锻炼信息更新运动锻炼奖励矩阵。
参照步骤S1构建运动锻炼奖励矩阵的方法。
步骤S6:重复步骤S2至步骤S5。
不断地进行Q-Learning矩阵的更新,使更新后的Q-Learning矩阵更适应当前用户的身体状态。
通过用户一个月的运动锻炼信息,建立运动锻炼奖励矩阵,基于运动锻炼奖励矩阵构建Q-Learning矩阵,使得Q-Learning矩阵能够指导用户脱离可穿戴设备,进行安全有效的运动锻炼,同时间隔一定时间更新Q-Learning矩阵,完善指导方案,实现快速完成恒定心率范围控制的目的。
根据本发明的第二个实施方式,提供一种调整运动速度的跑步机,采用第一个实施方式的基于Q-Learning算法的调整运动速度的方法调整跑步机的速度。
根据本发明的第三个实施方式,提供一种调整运动速度的提示装置,采用第一个实施方式的基于Q-Learning算法的调整运动速度的方法提示用户调整运动速度,例如手机APP、手环等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于Q-Learning算法的调整运动速度的方法,其特征在于,包括如下步骤:
S1:基于用户在第一预定时间段的运动锻炼信息建立运动锻炼奖励矩阵,所述运动锻炼信息包括速度和心率,所述运动锻炼奖励矩阵以运动心率处在预定恒定心率范围内为训练目标,评估每次速度变化下用户身体变化效果的程度;
S2:基于运动锻炼奖励矩阵和Q-Learning算法形成Q-Learning矩阵,所述Q-Learning矩阵评估每次速度变化下用户身体变化的受益程度;
S3:根据Q-Learning矩阵调整用户的运动速度;
步骤S1中,所述基于用户在第一预定时间段的运动锻炼信息建立运动锻炼奖励矩阵的方法包括:
在第一预定时间段内进行多次运动,设置每次运动的时长,将该时长分为多个阶段,每个阶段对应一个运动锻炼奖励矩阵;
设置每个阶段内速度调整的最大次数和速度调整的时间点;
当到达速度调整时间点时,判断是否进行速度调整,判断方法如下:
用户的当前心率处在预定恒定心率范围内时,不调整速度;
用户的当前心率高于预定恒定心率范围上限时,降低速度;
用户的当前心率低于预定恒定心率范围下限时,增加速度;
根据速度调整时间点后的心率和速度调整时间点前后的速度建立运动锻炼奖励矩阵;
所述根据速度调整时间点后的心率和速度调整时间点前后的速度建立运动锻炼奖励矩阵的方法包括:
R(Vpre,Vaft)表示运动锻炼奖励矩阵中以速度为Vpre变化到速度为Vaft的奖励值;
如果没有出现过由速度为Vpre变化到速度为Vaft的速度变化或这样的速度变化超过预定调速值时,设置R(Vpre,Vaft)为第一预定值;
如果出现过由速度为Vpre变化到速度为Vaft的速度变化且这样的速度变化不超过预定调速值且速度调整时间点后的心率超过预定恒定心率范围上限时,设置R(Vpre,Vaft)为第二预定值;
如果出现过由速度为Vpre变化到速度为Vaft的速度变化且这样的速度变化不超过预定调速值且速度调整时间点后的心率低于预定恒定心率范围下限时,设置R(Vpre,Vaft)为第三预定值;
如果出现过由速度为Vpre变化到速度为Vaft的速度变化且这样的速度变化不超过预定调速值且速度调整时间点后的心率在预定恒定心率范围的范围内时,设置R(Vpre,Vaft)为第四预定值;
第一预定值<第二预定值<第三预定值<第四预定值;
步骤S2中,基于运动锻炼奖励矩阵和Q-Learning算法形成Q-Learning矩阵的方法包括:
利用Q-Learning算法训练规则执行多次Episode训练;
所述Q-Learning算法训练规则如下:
Qnew(Vpre,Vaft)=Q(Vpre,Vaft)+δ×[R0(Vpre,Vaft)+γ×Max(Q(Vaft,Vthen))-Q(Vpre,Vaft)]
其中,Qnew(Vpre,Vaft)为更新后的由速度为Vpre调整至速度为Vaft的收益值;
Q(Vpre,Vaft)为更新前的由速度为Vpre调整至速度为Vaft的收益值;
R0(Vpre,Vaft)表示由速度为Vpre调整至速度为Vaft的奖励值;
Q(Vaft,Vthen)表示由速度为Vaft调整至速度为Vthen的收益值,Vthen表示Q-Learning矩阵中所有可能速度调整行为调整后的速度;
Max(Q(Vaft,Vthen))表示由速度为Vaft调整至速度为Vthen的收益值中的最大值;
δ表示学习率,范围是0-1;
γ表示衰竭系数,范围是0-1;
每次Episode训练的方法包括如下步骤:
S201:随机选择一个初始速度,在该初始速度下的所有可能速度调整行为调整后的速度中随机选取一个第一调整速度;
S202:基于Q-Learning算法训练规则更新Q-Learning矩阵;
S203:进入下一个速度调整状态,在第一调整速度下的所有可能速度调整行为调整后的速度中随机选取一个第二调整速度;
S204:基于Q-Learning算法训练规则更新Q-Learning矩阵;
S205:以第二调整速度的速度值作为第一调整速度;
S206:重复步骤S203至步骤S205,直到奖励值为奖励矩阵的最大值后,更新Q-Learning矩阵,并完成一次Episode训练。
2.根据权利要求1所述的基于Q-Learning算法的调整运动速度的方法,其特征在于,还包括:
S4:获取用户在第二预定时间段的新的运动锻炼信息;
S5:根据步骤S4的新的运动锻炼信息更新运动锻炼奖励矩阵;
S6:重复步骤S2至步骤S5。
3.根据权利要求1所述的基于Q-Learning算法的调整运动速度的方法,其特征在于,在第一预定时间段内进行多次运动的相同阶段中,如有多次相同速度变化,则多次由速度为Vpre变化至速度为Vaft的奖励值取多个R(Vpre,Vaft)求和后的平均值,采用的公式如下:
Figure 191754DEST_PATH_IMAGE001
其中,R0(Vpre,Vaft)为多次由速度为Vpre变化至速度为Vaft的奖励值;n为由速度为Vpre变化至速度为Vaft所出现的次数,R(Vpre,Vaft)为每次由速度为Vpre变化至速度为Vaft所对应的奖励值。
4.根据权利要求1所述的基于Q-Learning算法的调整运动速度的方法,其特征在于,步骤S3中,所述根据Q-Learning矩阵调整用户的运动速度的方法包括:
S301:检测用户的运动速度;
S302:指示用户选择Q-Learning矩阵中与该运动速度所对应的最大的收益值相匹配的调整后的速度进行速度调整;
S303:重复步骤S302,直到运动速度调整后收益值为Q-Learning矩阵中最大的收益值时,结束速度调整。
5.一种调整运动速度的跑步机,其特征在于,采用权利要求1-4中任一项所述的基于Q-Learning算法的调整运动速度的方法调整跑步机的速度。
6.一种调整运动速度的提示装置,其特征在于,采用权利要求1-4中任一项所述的基于Q-Learning算法的调整运动速度的方法提示用户调整运动速度。
CN202110421305.XA 2021-04-20 2021-04-20 基于Q-Learning算法的调整运动速度的方法、跑步机及提示装置 Active CN112990361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110421305.XA CN112990361B (zh) 2021-04-20 2021-04-20 基于Q-Learning算法的调整运动速度的方法、跑步机及提示装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110421305.XA CN112990361B (zh) 2021-04-20 2021-04-20 基于Q-Learning算法的调整运动速度的方法、跑步机及提示装置

Publications (2)

Publication Number Publication Date
CN112990361A CN112990361A (zh) 2021-06-18
CN112990361B true CN112990361B (zh) 2021-07-27

Family

ID=76341171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110421305.XA Active CN112990361B (zh) 2021-04-20 2021-04-20 基于Q-Learning算法的调整运动速度的方法、跑步机及提示装置

Country Status (1)

Country Link
CN (1) CN112990361B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101708360A (zh) * 2009-12-17 2010-05-19 青岛英派斯(集团)有限公司 电动跑步机按照健身者心率自动控制速度和坡度的方法
CN101954171A (zh) * 2009-07-16 2011-01-26 英业达股份有限公司 实时调整健身程序系统及其方法
CN102357284A (zh) * 2011-10-18 2012-02-22 中国科学院合肥物质科学研究院 智能化跑步机
CN112023342A (zh) * 2020-08-24 2020-12-04 北京动亮健康科技有限公司 调整跑步机速度和坡度的方法、运动训练方法和跑步机

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070135723A1 (en) * 2005-12-08 2007-06-14 Leao Wang Method for measuring a user's cardiorespiratory endurance by a fitness equipment
CN115338859A (zh) * 2016-09-15 2022-11-15 谷歌有限责任公司 机器人操纵的深度强化学习

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101954171A (zh) * 2009-07-16 2011-01-26 英业达股份有限公司 实时调整健身程序系统及其方法
CN101708360A (zh) * 2009-12-17 2010-05-19 青岛英派斯(集团)有限公司 电动跑步机按照健身者心率自动控制速度和坡度的方法
CN102357284A (zh) * 2011-10-18 2012-02-22 中国科学院合肥物质科学研究院 智能化跑步机
CN112023342A (zh) * 2020-08-24 2020-12-04 北京动亮健康科技有限公司 调整跑步机速度和坡度的方法、运动训练方法和跑步机

Also Published As

Publication number Publication date
CN112990361A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
US20230089962A1 (en) Training system and methods for designing, monitoring and providing feedback of training
US9283468B2 (en) Method and apparatus for performance optimization through physical perturbation of task elements
Dosseville et al. Contextual and personal motor experience effects in judo referees’ decisions
CN111589092B (zh) 一种运动指导方法和装置
US20050245303A1 (en) Reward-driven adaptive agents for video games
US20060247098A1 (en) Method and Apparatus for Improving Performance
Hossner et al. A functional approach to movement analysis and error identification in sports and physical education
KR101317001B1 (ko) 서로 다른 종류의 운동 또는 운동 기구를 이용하는 다참여자 운동 게임 방법 및 시스템
Schädlich et al. Practicing sports in lucid dreams–characteristics, effects, and practical implications
Lohse et al. Errors, rewards, and reinforcement in motor skill learning
CN114694448A (zh) 专注力训练方法、装置、智能终端及存储介质
CN112990361B (zh) 基于Q-Learning算法的调整运动速度的方法、跑步机及提示装置
Brown et al. Developing game-playing agents that adapt to user strategies: A case study
JP7572654B2 (ja) 学習装置、推定装置、学習モデルデータ生成方法、推定方法及びプログラム
CN113988317B (zh) 一种针对球场运动球员的动态策略优化方法及装置
Cristina-Elena FEEDBACK IN RHYTHMIC GYMNASTICS AS A PROCESS OF CORRECTING TECHNICAL MISTAKES.
RU2618887C1 (ru) Интерактивный способ корректировки двигательного стереотипа
Vohra et al. Markov Cricket: Using Forward and Inverse Reinforcement Learning to Model, Predict And Optimize Batting Performance in One-Day International Cricket
Pelin et al. Optimising technical shooting skills at the shooting range by adjusting the intensity of the effort to junior biathletes
EP4362041A1 (en) Method to determine optimal progression of a cognitive process rehabilitation task
Hristovski A constraints-based training intervention in boxing
McLeod Paul A. Jones and Thomas Dos Santos; Featuring Sports-Specific Case Studies by Molly Binetti, Cameron Josse, and
Pupiš¹ et al. Pace Variability Of A Female Race Walker In A 20 Km Racing Event
Winkelman American Football
Jones et al. Programming for Multidirectional Speed in Sport

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant