CN117787731A

CN117787731A - 基于Actor-Critic网络在体育无线教学中实时休息决策方法

Info

Publication number: CN117787731A
Application number: CN202311186579.0A
Authority: CN
Inventors: 邓豪; 任宇飞; 韦俊; 汪瀛; 杨改红; 应晨林; 苏洋
Original assignee: Xian Jiaotong University City College
Current assignee: Xian Jiaotong University City College
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2024-03-29

Abstract

本发明公开了基于Actor‑Critic网络在体育无线教学中实时休息决策方法，涉及体育教学安全技术领域，在体育教学开始前，收集每个学生的体育表现数据，在体育教学时，识别每个学生以及对应的运动类型，并收集每个学生的实时生理数据序列集合，在判断为存在需要进行休息决策的学生时，基于对应学生的实时生理数据序列集合以及体育表现数据，使用Actor‑Critic网络模型中的Actor网络输出该学生是否需要休息的决策结果，并对Actor‑Critic网络模型进行训练，在决策结果为需要休息，通过无线网络提醒该学生停止运动，最后更新体育表现数据；智能地为学生提供休息建议，自适应地保障了学生的运动安全。

Description

基于Actor-Critic网络在体育无线教学中实时休息决策方法

技术领域

本发明涉及体育教学安全技术领域，具体是基于Actor-Critic网络在体育无线教学中实时休息决策方法。

背景技术

体育教育在学校教育中占有重要地位，它不仅是学生身体素质的培养和提高，更是学生全面发展的一部分。在体育课程中，学生参与各种体育活动，如跑步、跳跃、球类运动等，这些活动对学生的身体、心理和社交发展都有积极的影响。然而，体育活动也伴随着一定的风险，如过度疲劳、中暑以及体力不支等，可能会对学生的健康和安全产生影响；

然而目前对学生在体育教育中的安全防护还较为匮乏，具体表现为：不适当的运动强度和训练计划或缺乏实时的学生状态的监控，从而经常在学生表达不适甚至出现安全事故时才能发现，不能及时地发现安全隐患，从而提前提醒学生进行休息；

申请公开号为CN103611234A的中国专利提出了一种运动生理数据监控方法，通过设置在跑步机正前侧的控制面板输入个人信息，包括性别、年龄、身高、体重，还包括奔跑速度；在用户手腕上套设监控手环，监控手环包括心率监测模块、血压监测模块和温度监测模块，监测用户的生理数据，并通过蓝牙模块将所述生理数据上传；通过蓝牙接收模块接收所述监控手环发送的生理数据，通过控制器预存的分析软件进行分析，输出生理状况和运动建议到显示器显示输出，在用户的生理数据达到预警值时，强行控制电机的转速到安全转速；但该方法并未考虑到不同用户的生理表现不同，且不同的时间，运动状态也不相同的问题；

为此，本发明提出基于Actor-Critic网络在体育无线教学中实时休息决策方法。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出基于Actor-Critic网络在体育无线教学中实时休息决策方法，智能地为学生提供休息建议，自适应地保障了学生的运动安全。

为实现上述目的，根据本发明的实施例1提出基于Actor-Critic网络在体育无线教学中实时休息决策方法，包括以下步骤：

步骤一：在体育教学开始前，预先收集每个学生的体育表现数据；

步骤二：在体育教学时，识别每个学生以及对应的运动类型，并通过无线网络方式收集每个学生的实时生理数据序列集合；

步骤三：基于每个学生的实时生理数据序列集合，判断是否存在学生需要进行休息决策；若判断为存在需要进行休息决策的学生，转至步骤四；

步骤四：基于对应学生的实时生理数据序列集合以及体育表现数据，使用Actor-Critic网络模型中的Actor网络输出该学生是否需要休息的决策结果，并对Actor-Critic网络模型进行训练；

步骤五：若决策结果为需要休息，通过无线网络提醒该学生停止运动；

步骤六：更新体育表现数据；

其中，所述每个学生的体育表现数据包括每个运动类型的运动数据集合；

将学生的编号标记为i，将运动类型的编号标记为s；

对于第i个学生，第s个运动类型对应的运动数据集合包括该学生在过去的体育教育中，每次进行该项运动类型的运动数据；

所述运动数据包括每次进行对应运动类型过程中的生理数据序列集合；

所述生理数据序列集合包括心率时间序列、呼吸频率时间序列以及体温时间序列；

所述心率时间序列为由学生穿戴的可穿戴设备实时监测的每单位时间的心率值组成的序列；

所述呼吸频率时间序列为由学生穿戴的可穿戴设备实时监测的每单位时间的呼吸频率值组成的序列；

所述体温时间序列为由学生穿戴的可穿戴设备实时监测的每单位时间的体温组成的序列；

识别每个学生以及对应的运动类型的方式为：

在每个学生穿戴的可穿戴设备中安装定位装置，所述定位装置实时将每个学生的编号以及实时位置发送至数据处理后台；

在体育教学场所安装N个图像捕获设备，每台图像捕获设备将实时捕获的图像发送至数据处理后台；其中，N为预设的图像捕获设备的数量；

数据处理后台从每台图像捕获设备捕获的实时图像中，使用目标识别算法识别图像中的学生，再使用动作识别算法识别每个学生的运动类型；

数据处理后台根据每台图像捕获设备的位置以及拍摄角度，获取对应的实时图像中，每个学生的地理位置坐标；

数据处理后台将可穿戴设备发送的实时位置和实时图像处理后获得的学生的地理位置坐标进行匹配；若存在可穿戴设备发送的实时位置与图像捕获设备发送的学生的地理位置坐标的距离小于预设的距离阈值，则将该可穿戴设备对应的学生所进行的运动类型设置为对应的运动类型，所述对应的运动类型为对该实时图像中，由动作识别算法识别的该学生的运动类型；

实时生理数据序列集合的收集方式为：

设置实时心率时间序列、实时呼吸频率时间序列以及实时体温时间序列，且实时心率时间序列、实时呼吸频率时间序列以及实时体温时间序列初始皆为空；

每个学生穿戴的可穿戴设备实时通过无线方式向数据处理后台发送每单位时间内，学生的实时心率、实时呼吸频率以及实时体温；

对于每个学生，在数据处理后台识别到该学生进行所有运动类型中的任意一项时，分别将实时心率、实时呼吸频率以及实时体温添加至实时心率时间序列、实时呼吸频率时间序列以及实时体温时间序列中；

实时生理数据序列集合包括实时心率时间序列、实时呼吸频率时间序列以及实时体温时间序列；

判断是否存在学生需要进行休息决策的方式为：

预设心率阈值、呼吸频率阈值以及体温阈值；

若存在任意一个学生的实时心率大于心率阈值、实时呼吸频率大于呼吸频率阈值或实时体温大于体温阈值，则判断为该学生需要进行休息决策；

使用Actor-Critic网络模型中的Actor网络输出该学生是否需要休息的决策结果，并对Actor-Critic网络模型进行训练的方式为：

为每个学生设置一个Actor-Critic网络模型，并初始化Actor网络和Critic网络的参数；

在判断为需要进行休息决策时，执行以下步骤：

步骤11：将需要进行休息决策的学生的编号标记为i0，将第i0个学生进行的运动类型标记为s0；以当前时刻第i0个学生的实时心率、实时呼吸频率和实时体温作为当前状态；

步骤12：Actor网络输出是否需要休息的决策结果；

以进行休息决策后的下一单位时间内，第i0个学生的实时心率、实时呼吸频率和实时体温作为下一个状态；

步骤13：计算实际的奖励值Q；所述实际的奖励值Q为每次为学生进行休息决策后，获得的奖励值；

当决策结果为不需要休息时：

计算历史生理相似度X，并将实际的奖励值Q的值设置为X；

所述历史生理相似度X的计算方式为：

将第i0个学生在当前状态中的实时心率标记为L，当前状态中的实时呼吸频率标记为H，当前状态中的实时体温标记为T；

对于第i0个学生的实时生理数据序列集合，将其中任意一条序列的长度作为实时生理数据序列集合的第一运动时长，并将第一运动时长标记为C；

从体育表现数据中，读取第i0个学生的第s0种运动类型的运动数据，将该运动数据中，所有的生理数据序列集合组成的集合标记为K，则该运动数据中的生理数据序列集合的编号标记为k，k=1,2,3,…,|K|；对于第k个生理数据序列集合，将其中任意一条序列的长度作为该生理数据序列集合的第二运动时长，并将第二运动时长标记为Ck；

从该运动数据的所有生理数据序列集合中，筛选出第二运动时长大于或等于第一运动时长的生理数据序列集合；将筛选出的生理数据序列集合所组成的集合标记为K0，其中每个生理数据序列集合的编号标记为k0；将第k0个生理数据序列集合中，心率时间序列的第C个心率值标记为Lk0，呼吸频率时间序列的第C个呼吸频率值标记为Hk0，体温时间序列中第C个体温标记为Tk0；

则历史生理相似度X的计算公式为：

；其中，b2、b3以及b4分别为预设的大于0的比例系数，b1为预设的大于0的偏置系数，用于保证X大于0；

当决策结果为需要休息时：

将第i0个学生在下一个状态中的实时心率标记为L1，下一个状态中的实时呼吸频率标记为H1，下一个状态中的实时体温标记为T1；

实际的奖励值Q的计算公式为：

；

其中，b5为预设的比例系数；

步骤14：使用Critic网络的更新公式更新奖励值函数的值，以调整对决策结果的实际奖励值Q的估计；

步骤15：使用Actor网络的更新公式更新Actor网络的参数，以提高在给定状态下选择高奖励决策结果的概率；

更新体育表现数据的方式为：

在数据处理后台判断第i个学生停止进行对应的运动类型时，停止实时生理数据序列集合的收集；

预设历史运动次数阈值；对于第i个学生对应的运动类型的运动数据中，生理数据序列集合的数量小于历史运动次数阈值，将实时生理数据序列集合添加至该运动数据中；

若生理数据序列集合的数量大于或等于历史运动次数阈值，将该运动数据中的第一个实时生理数据序列集合筛除，将实时生理数据序列集合添加至该运动数据中。

根据本发明的实施例2提出的基于Actor-Critic网络在体育无线教学中实时休息决策系统，包括表现数据收集模块、实时数据收集模块以及休息决策模块；其中，各个模块之间电性连接；

表现数据收集模块，在体育教学开始前，预先收集每个学生的体育表现数据，并将体育表现数据发送至休息决策模块；

实时数据收集模块，在体育教学时，识别每个学生以及对应的运动类型，通过无线网络方式收集每个学生的实时生理数据序列集合，并将每个学生的运动类型以及每个学生的实时生理数据序列集合发送至休息决策模块；

休息决策模块，基于每个学生的实时生理数据序列集合，判断是否存在学生需要进行休息决策，若判断为存在需要进行休息决策的学生，基于对应学生的实时生理数据序列集合以及体育表现数据，使用Actor-Critic网络模型中的Actor网络输出该学生是否需要休息的决策结果，并对Actor-Critic网络模型进行训练，若决策结果为需要休息，通过无线网络提醒该学生停止运动，最后更新体育表现数据。

根据本发明的实施例3提出的一种电子设备，包括：处理器和存储器，其中，所述存储器中存储有可供处理器调用的计算机程序；

所述处理器通过调用所述存储器中存储的计算机程序，执行上述的基于Actor-Critic网络在体育无线教学中实时休息决策方法。

根据本发明的实施例4提出的一种计算机可读存储介质，其上存储有可擦写的计算机程序；

当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行上述的基于Actor-Critic网络在体育无线教学中实时休息决策方法。

与现有技术相比，本发明的有益效果是：

本发明通过在体育教学开始前，预先收集每个学生的体育表现数据，在体育教学时，识别每个学生以及对应的运动类型，并通过无线网络方式收集每个学生的实时生理数据序列集合，基于每个学生的实时生理数据序列集合，判断是否存在学生需要进行休息决策，在判断为存在需要进行休息决策的学生时，基于对应学生的实时生理数据序列集合以及体育表现数据，使用Actor-Critic网络模型中的Actor网络输出该学生是否需要休息的决策结果，并对Actor-Critic网络模型进行训练，在决策结果为需要休息时，通过无线网络提醒该学生停止运动，最后更新体育表现数据；通过根据不同学生的体育教学时的生理特征的表现，智能地为学生提供休息建议，自适应地保障了学生的运动安全。

附图说明

图1为本发明实施例1中基于Actor-Critic网络在体育无线教学中实时休息决策方法的流程图；

图2为本发明实施例2中基于Actor-Critic网络在体育无线教学中实时休息决策系统的模块连接关系图；

图3为本发明实施例3中的电子设备结构示意图；

图4为本发明实施例4中的计算机可读存储介质结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

如图1所示，基于Actor-Critic网络在体育无线教学中实时休息决策方法，用于数据处理后台，包括以下步骤：

步骤三：基于每个学生的实时生理数据序列集合，判断是否存在学生需要进行休息决策，若判断为不存在进行休息决策的学生，继续执行步骤三；若判断为存在需要进行休息决策的学生，转至步骤四；

步骤五：若决策结果为需要休息，通过无线网络提醒该学生停止运动；若决策结果为不需要休息，则继续执行步骤三；

步骤六：更新体育表现数据；

其中，所述每个学生的体育表现数据包括每个运动类型的运动数据集合；需要说明的是，所述运动类型为体育教育中所包含的运动项目，具体的运动类型由教育相关机构确定，包括但不限于跑步、跳远、跳高、篮球等；

优选的，将学生的编号标记为i，将运动类型的编号标记为s；

进一步的，对于第i个学生，第s个运动类型对应的运动数据集合包括该学生在过去的体育教育中，每次进行该项运动类型的运动数据；

优选的，所述生理数据序列集合包括心率时间序列、呼吸频率时间序列以及体温时间序列；

可以理解的是，可穿戴设备监测人体的心率、呼吸频率和体温是本领域的常规技术手段，例如智能手环或智能手表均可实现上述监测功能，本发明在此不再赘述；

识别每个学生以及对应的运动类型的方式为：

在每个学生穿戴的可穿戴设备中安装定位装置，所述定位装置实时将每个学生的编号以及实时位置发送至数据处理后台；优选的，所述实时位置可以为地理位置坐标，所述地理位置坐标可以是经纬度坐标，也可以是在体育教学场所中使用测绘相关技术独立构建的一套坐标体系中的空间坐标；

在体育教学场所安装N个图像捕获设备，每台图像捕获设备将实时捕获的图像发送至数据处理后台；其中，N为预设的图像捕获设备的数量，具体的每个图像捕获设备的安装位置根据体育教学场所的实际建筑布局或结构图确定，以保证图像捕获设备可以覆盖体育教学场所中的所有学生可能运动的位置；

数据处理后台从每台图像捕获设备捕获的实时图像中，使用目标识别算法识别图像中的学生，再使用动作识别算法识别每个学生的运动类型；需要说明的是，目标识别算法识别人体属于本领域常规技术手段，而动作识别算法识别学生的运动类型也属于本领域的常规技术手段，本发明在此不再赘述；

数据处理后台根据每台图像捕获设备的位置以及拍摄角度，获取对应的实时图像中，每个学生的地理位置坐标；需要说明的是，根据监控视频计算视频中目标的地理坐标位置属于本领域的常规技术手段，例如论文《监控视频动态目标的空间定位方法》（《测绘通报》2022年第8期，第87-92页）针对监控视频动态目标的空间定位问题，在考虑相机畸变的前提下，对监控相机、目标像素坐标和地理场景之间的映射关系进行了研究，提出了基于数字表面模型(DSM)和基于平面约束的目标定位算法。首先，完成相机的标定，确定相机的成像模型；然后，提取畸变校正后的目标像素坐标，并通过目标定位算法计算目标的三维地理坐标；

数据处理后台将可穿戴设备发送的实时位置和实时图像处理后获得的学生的地理位置坐标进行匹配；具体的，若存在可穿戴设备发送的实时位置与图像捕获设备发送的学生的地理位置坐标的距离小于预设的距离阈值，则将该可穿戴设备对应的学生所进行的运动类型设置为对应的运动类型，所述对应的运动类型为对该实时图像中，由动作识别算法识别的该学生的运动类型；

实时生理数据序列集合的收集方式为：

实时生理数据序列集合包括实时心率时间序列、实时呼吸频率时间序列以及实时体温时间序列；从而获得学生从运动开始时的生理数据序列，减少对学生不运动时的数据监测，提高数据处理效率；

判断是否存在学生需要进行休息决策的方式为：

预设心率阈值、呼吸频率阈值以及体温阈值；

若所有学生的实时心率小于或等于心率阈值、实时呼吸频率小于或等于呼吸频率阈值以及实时体温小于或等于体温阈值，则判断为不存在学生需要进行休息决策；

为每个学生设置一个Actor-Critic网络模型，并初始化Actor网络和Critic网络的参数；参数包括但不限于Actor网络的状态输入层的维度、隐藏层数量和大小、动作输出层的维度、Critic网络的状态输入层的维度、隐藏层的数量和大小和奖励值函数输出层的维度、学习率、折扣因子以及网络优化算法（梯度下降法或Adam优化算法等）；

在判断为需要进行休息决策时，执行以下步骤：

步骤12：Actor网络输出是否需要休息的决策结果；

具体的，当决策结果为不需要休息时：

计算历史生理相似度X，并将实际的奖励值Q的值设置为X；

所述历史生理相似度X的计算方式为：

则历史生理相似度X的计算公式为：

可以理解的是，表达的是，第i0个学生在过去曾经运动时长达到第一运动时长C的比例，显然/>越大，说明第i0个学生越适应第一运动时长的运动时间，越倾向于不需要休息；/>表达的是第一运动时长时，第i0个学生的生理特征与过去运动的时间为第一运动时长时的相似度，显然/>越小，表示相似度越大，即第i0个学生越适应当前生理特征代表的运动强度；

当决策结果为需要休息时：

实际的奖励值Q的计算公式为：

；

其中，b5为预设的比例系数；

可以理解的是，当实时心率越大、实时呼吸频率越大或实时温度越高时，越需要考虑休息；而进一步的，当实时心率变化越大，实时呼吸频率变化越大或实时温度变化越大时，说明生理特征不稳定，同样倾向于建议休息；

步骤14：使用Critic网络的更新公式更新奖励值函数的值，以调整对决策结果的实际奖励值Q的估计；需要说明的是，所述更新公式可以为本领域技术人员的常用更新公式，例如：，其中，/>是当前状态a的奖励值函数估计；/>是学习率，控制更新的步长；/>是折扣因子，用于衡量未来奖励的重要性；/>是下一个状态；

通过无线网络提醒该学生停止运动的方式可以为数据处理后台通过无线网络方式向学生的可穿戴设备发送停止运动建议，可穿戴设备将停止运动建议以语音方式进行播报或采用振动方式进行提醒；

更新体育表现数据的方式为：

若生理数据序列集合的数量大于或等于历史运动次数阈值，将该运动数据中的第一个实时生理数据序列集合筛除，将实时生理数据序列集合添加至该运动数据中；从而通过控制生理数据序列集合的数量，来降低因学生体质增强，导致太久之前的生理特征数据与当前的生理特征数据存在区别而带来的误差。

实施例2

如图2所示，基于Actor-Critic网络在体育无线教学中实时休息决策系统，包括表现数据收集模块、实时数据收集模块以及休息决策模块；其中，各个模块之间电性连接；

其中，所述表现数据收集模块主要用于在体育教学开始前，预先收集每个学生的体育表现数据，并将体育表现数据发送至休息决策模块；

其中，所述实时数据收集模块主要用于在体育教学时，识别每个学生以及对应的运动类型，通过无线网络方式收集每个学生的实时生理数据序列集合，并将每个学生的运动类型以及每个学生的实时生理数据序列集合发送至休息决策模块；

其中，所述休息决策模块主要用于基于每个学生的实时生理数据序列集合，判断是否存在学生需要进行休息决策，若判断为存在需要进行休息决策的学生，基于对应学生的实时生理数据序列集合以及体育表现数据，使用Actor-Critic网络模型中的Actor网络输出该学生是否需要休息的决策结果，并对Actor-Critic网络模型进行训练，若决策结果为需要休息，通过无线网络提醒该学生停止运动，最后更新体育表现数据。

实施例3

图3是本申请一个实施例提供的电子设备结构示意图。如图3所示，根据本申请的又一方面还提供了一种电子设备100。该电子设备100可包括一个或多个处理器以及一个或多个存储器。其中，存储器中存储有计算机可读代码，当计算机可读代码由一个或多个处理器运行时，可以执行如上所述的基于Actor-Critic网络在体育无线教学中实时休息决策方法。

根据本申请实施方式的方法或系统也可以借助于图3所示的电子设备电子设备的架构来实现。如图3所示，电子设备100可包括总线101、一个或多个CPU102、只读存储器(ROM)103、随机存取存储器(RAM)104、连接到网络的通信端口105、输入/输出组件106、硬盘107等。电子设备100中的存储设备，例如ROM103或硬盘107可存储本申请提供的基于Actor-Critic网络在体育无线教学中实时休息决策方法。基于Actor-Critic网络在体育无线教学中实时休息决策方法可例如包括以下步骤：步骤一：在体育教学开始前，预先收集每个学生的体育表现数据；步骤二：在体育教学时，识别每个学生以及对应的运动类型，并通过无线网络方式收集每个学生的实时生理数据序列集合；步骤三：基于每个学生的实时生理数据序列集合，判断是否存在学生需要进行休息决策，若判断为不存在进行休息决策的学生，继续执行步骤三；若判断为存在需要进行休息决策的学生，转至步骤四；步骤四：基于对应学生的实时生理数据序列集合以及体育表现数据，使用Actor-Critic网络模型中的Actor网络输出该学生是否需要休息的决策结果，并对Actor-Critic网络模型进行训练；步骤五：若决策结果为需要休息，通过无线网络提醒该学生停止运动；若决策结果为不需要休息，则继续执行步骤三；步骤六：更新体育表现数据；

进一步地，电子设备100还可包括用户界面108。当然，图3所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图3示出的电子设备中的一个或多个组件。

实施例4

图4是本申请一个实施例提供的计算机可读存储介质结构示意图。如图4所示，是根据本申请一个实施方式的计算机可读存储介质200。计算机可读存储介质200上存储有计算机可读指令。当计算机可读指令由处理器运行时，可执行参照以上附图描述的根据本申请实施方式的基于Actor-Critic网络在体育无线教学中实时休息决策方法。计算机可读存储介质200包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可包括随机存取存储器(RAM)和高速缓冲存储器(cache)等。非易失性存储器例如可包括只读存储器(ROM)、硬盘、闪存等。

另外，根据本申请的实施方式，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质存储有机器可读指令，所述机器可读指令能够由处理器运行以执行与本申请提供的方法步骤对应的指令，在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

另外，本申请的实施方式中提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

如上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明。应理解的是，以上所述仅为本发明的具体实施方式，并不用于限制本发明。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等均应包含在本发明的保护范围之内。

以上的预设的参数或预设的阈值均由本领域的技术人员根据实际情况设定或者大量数据模拟获得。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.基于Actor-Critic网络在体育无线教学中实时休息决策方法，其特征在于，包括以下步骤：

步骤六：更新体育表现数据。

2.根据权利要求1所述的基于Actor-Critic网络在体育无线教学中实时休息决策方法，其特征在于，所述每个学生的体育表现数据包括每个运动类型的运动数据集合；

将学生的编号标记为i，将运动类型的编号标记为s；

所述运动数据包括每次进行对应运动类型过程中的生理数据序列集合。

3.根据权利要求2所述的基于Actor-Critic网络在体育无线教学中实时休息决策方法，其特征在于，所述生理数据序列集合包括心率时间序列、呼吸频率时间序列以及体温时间序列；

所述体温时间序列为由学生穿戴的可穿戴设备实时监测的每单位时间的体温组成的序列。

4.根据权利要求3所述的基于Actor-Critic网络在体育无线教学中实时休息决策方法，其特征在于，识别每个学生以及对应的运动类型的方式为：

数据处理后台将可穿戴设备发送的实时位置和实时图像处理后获得的学生的地理位置坐标进行匹配；若存在可穿戴设备发送的实时位置与图像捕获设备发送的学生的地理位置坐标的距离小于预设的距离阈值，则将该可穿戴设备对应的学生所进行的运动类型设置为对应的运动类型，所述对应的运动类型为对该实时图像中，由动作识别算法识别的该学生的运动类型。

5.根据权利要求4所述的基于Actor-Critic网络在体育无线教学中实时休息决策方法，其特征在于，实时生理数据序列集合的收集方式为：

实时生理数据序列集合包括实时心率时间序列、实时呼吸频率时间序列以及实时体温时间序列。

6.根据权利要求5所述的基于Actor-Critic网络在体育无线教学中实时休息决策方法，其特征在于，判断是否存在学生需要进行休息决策的方式为：

预设心率阈值、呼吸频率阈值以及体温阈值；

若存在任意一个学生的实时心率大于心率阈值、实时呼吸频率大于呼吸频率阈值或实时体温大于体温阈值，则判断为该学生需要进行休息决策。

7.根据权利要求6所述的基于Actor-Critic网络在体育无线教学中实时休息决策方法，其特征在于，使用Actor-Critic网络模型中的Actor网络输出该学生是否需要休息的决策结果，并对Actor-Critic网络模型进行训练的方式为：

在判断为需要进行休息决策时，执行以下步骤：

步骤12：Actor网络输出是否需要休息的决策结果；

步骤15：使用Actor网络的更新公式更新Actor网络的参数，以提高在给定状态下选择高奖励决策结果的概率。

8.根据权利要求7所述的基于Actor-Critic网络在体育无线教学中实时休息决策方法，其特征在于，奖励值Q的计算方式为：

当决策结果为不需要休息时：

计算历史生理相似度X，并将实际的奖励值Q的值设置为X；

当决策结果为需要休息时：

实际的奖励值Q的计算公式为：

；

其中，b2、b3、b4和b5分别为预设的大于0的比例系数。

9.根据权利要求8所述的基于Actor-Critic网络在体育无线教学中实时休息决策方法，其特征在于，所述历史生理相似度X的计算方式为：

则历史生理相似度X的计算公式为：

；b1为预设的大于0的偏置系数。

10.基于Actor-Critic网络在体育无线教学中实时休息决策系统，其基于权利要求1-9任意一项所述基于Actor-Critic网络在体育无线教学中实时休息决策方法实现，其特征在于，包括表现数据收集模块、实时数据收集模块以及休息决策模块；其中，各个模块之间电性连接；

11.一种电子设备，其特征在于，包括：处理器和存储器，其中：

所述存储器中存储有可供处理器调用的计算机程序；

所述处理器通过调用所述存储器中存储的计算机程序，执行权利要求1-9任意一项所述基于Actor-Critic网络在体育无线教学中实时休息决策方法。

12.一种计算机可读存储介质，其特征在于，其上存储有可擦写的计算机程序；

当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行权利要求1-9任意一项所述基于Actor-Critic网络在体育无线教学中实时休息决策方法。