CN117045930B

CN117045930B - 睡眠改善模型的训练方法、系统、改善方法、设备、介质

Info

Publication number: CN117045930B
Application number: CN202311319955.9A
Authority: CN
Inventors: 叶骏; 张世潮; 胡三红
Original assignee: Beijing Dongliang Health Technology Co ltd
Current assignee: Beijing Dongliang Health Technology Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-01-02
Anticipated expiration: 2043-10-12
Also published as: CN117045930A

Abstract

本发明涉及强化学习和睡眠改善技术领域，提供一种睡眠改善模型的训练方法、系统、改善方法、设备、介质，训练方法包括：S1：初始化长期回报值矩阵；S2：设置奖励矩阵；S3：选择当前睡眠阶段状态；选择一个音乐波动作作为当前音乐波动作；S4：在当前睡眠阶段状态下执行当前音乐波动作，达到下一个睡眠阶段状态；S5：根据奖励矩阵得到当前音乐波动作的当前奖励值；S6：选择下一个音乐波动作；S7：更新当前睡眠阶段状态选择当前音乐波动作的回报值；S8：将下一个睡眠阶段状态作为当前睡眠阶段状态，下一个音乐波动作作为当前音乐波动作；S9：重复步骤S4到步骤S8。本方案结合了增强学习中的SARSA算法和Softmax策略，更加有效地优化睡眠体验。

Description

睡眠改善模型的训练方法、系统、改善方法、设备、介质

技术领域

本发明涉及强化学习和睡眠改善技术领域，尤其涉及一种睡眠改善模型的训练方法、系统、改善方法、设备、介质。

背景技术

睡眠质量是影响个体健康和生活质量的重要因素。研究表明，良好的睡眠对于身体恢复、认知功能和情绪稳定至关重要。然而，在现代社会，由于各种压力和不良生活习惯，许多人面临着睡眠问题，如失眠和睡眠质量下降。

为了改善睡眠质量，已经有多种方法和技术被提出。其中，音乐疗法作为一种非药物的干预手段，被广泛研究和应用于睡眠改善。音乐被认为可以通过调节神经系统、放松心理和情绪，从而促进睡眠。

然而，传统的音乐选择方法通常是基于主观经验或固定的音乐曲目，没有针对个体的差异和睡眠状态进行智能化的选择。

因此，为了更加智能化和个性化的音乐选择方法，以优化音乐的应用效果，提高睡眠质量，需要提供一种睡眠改善模型的训练方法、系统、改善方法、设备、介质。

在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明主要目的是解决音乐疗法没有针对个体差异和睡眠状态进行智能化的选择的技术问题，本发明提出了一种睡眠改善模型的训练方法、系统、改善方法、设备、介质，结合了增强学习中的SARSA算法和Softmax策略，通过智能地选择音乐波，以更加有效地优化睡眠体验；通过结合强化学习和音乐疗法，为个体提供个性化的音乐选择体验，有望在睡眠医学和心理学领域产生重要的应用价值。

为实现上述的目的，本发明第一方面提供了一种基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法，包括以下步骤：

S1：初始化长期回报值矩阵，该长期回报值矩阵包括多个睡眠阶段状态下分别选择多个音乐波动作的回报值；

S2：设置奖励矩阵，该奖励矩阵包括在一个睡眠阶段状态下执行一个音乐波动作后，达到下一个睡眠阶段状态所获得的当前奖励值；

S3：选择一个睡眠阶段状态作为当前睡眠阶段状态；根据当前睡眠阶段状态选择一个音乐波动作；该音乐波动作作为当前音乐波动作；

S4：在当前睡眠阶段状态下执行当前音乐波动作，达到下一个睡眠阶段状态；

S5：根据奖励矩阵得到当前音乐波动作的当前奖励值；

S6：根据下一个睡眠阶段状态选择下一个音乐波动作；

S7：根据当前奖励值、当前睡眠阶段状态下选择当前音乐波动作的回报值、以及下一个睡眠阶段状态下选择下一个音乐波动作的回报值更新当前睡眠阶段状态选择当前音乐波动作的回报值；

S8：将下一个睡眠阶段状态作为当前睡眠阶段状态，下一个音乐波动作作为当前音乐波动作；

S9：重复步骤S4到步骤S8，直到完成指定重复次数或长期回报值矩阵不再改变。

根据本发明一示例实施方式，步骤S1中，多个睡眠阶段状态包括清醒期、浅睡期、深睡期和快速眼动期；多个音乐波动作包括alpha波、theta波和delta波。

根据本发明一示例实施方式，步骤S3中，所述根据当前睡眠阶段状态选择一个音乐波动作采用Softmax策略；步骤S6中，所述根据下一个睡眠阶段状态选择下一个音乐波动作采用Softmax策略。

根据本发明一示例实施方式，所述Softmax策略包括：

R1：初始化每个音乐波动作的预期累计奖励值；

R2：采用公式1计算每个音乐波动作的Softmax分布；

公式1；

其中，P（a）表示音乐波动作被选择的概率，S（a）表示该音乐波动作的预期累计奖励值，a表示该音乐波动作，A表示所有音乐波动作的集合，S（A）表示所有音乐波动作的预期累计奖励值之和，表示温度参数，/>为常数，Σ表示求和符号；

R3：在每一个时间步下，根据公式1，选择音乐波动作；

R4：执行选择的音乐波动作，得到观察奖励值和下一个睡眠阶段状态；

R5：根据观察奖励值更新音乐波动作的预期累计奖励值；

R6：将下一个睡眠阶段状态作为当前睡眠阶段状态，重复执行步骤R2至步骤R6，直至达到指定步数，选择概率最大的音乐波动作。

根据本发明一示例实施方式，步骤S5中，所述根据观察奖励值更新当前音乐波动作的预期累计奖励值的方法包括：将更新前的预期累计奖励值和观察奖励值相加得到更新后的预期累计奖励值。

根据本发明一示例实施方式，步骤S7中，所述根据当前奖励值、当前睡眠阶段状态下选择当前音乐波动作的回报值、以及下一个睡眠阶段状态下选择下一个音乐波动作的回报值更新当前睡眠阶段状态选择当前音乐波动作的回报值的方法采用公式2：

公式2；

其中，左边的Q（s，a）表示更新后的当前睡眠阶段状态选择当前音乐波动作的回报值；右边的Q（s，a）表示更新前的当前睡眠阶段状态选择当前音乐波动作的回报值；α表示学习率，为常数；R表示当前奖励值；γ表示折扣因子，为常数；s表示当前睡眠阶段状态；s’表示下一个睡眠阶段状态；a表示当前音乐波动作；a’表示下一个音乐波动作。

作为本发明的第二个方面，本发明提供一种基于睡眠阶段状态和音乐波动作的睡眠改善训练系统，该训练系统根据所述基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法训练得到。

作为本发明的第三个方面，本发明提供一种睡眠质量的改善方法，包括以下步骤：

根据所述基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法训练基于睡眠阶段状态和音乐波动作的睡眠改善训练系统；

获取需要改善睡眠的用户的睡眠阶段状态，根据所述基于睡眠阶段状态和音乐波动作的睡眠改善训练系统选择该睡眠阶段状态下最大的回报值，根据该回报值选择对应的音乐波动作。

作为本发明的第四个方面，本发明提供一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法。

作为本发明的第五个方面，本发明提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现所述的基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法。

传统的音乐治疗手法通常是一种固定的音乐选择，忽略了个体差异和睡眠状态的变化，本方案通过智能化选择音乐波，能够根据个体的不同睡眠状态和需求，提供个性化的音乐改善睡眠方案，从而提高治疗效果。同时本方案通过SARSA算法和Softmax策略对长期回报值矩阵更新，为音乐改善睡眠提供更科学的决策依据，音乐的选择不再是基于经验或主观判断，而是建立在实际观测和数据分析的基础上，增加了方案的客观性和可靠性。

附图说明

通过参照附图详细描述其示例实施例，本申请的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法的步骤图。

图2示意性示出了一种电子设备的框图。

图3示意性示出了一种计算机可读介质的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本申请将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本申请概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本申请所必须的，因此不能用于限制本申请的保护范围。

根据本发明的第一个具体实施方式，本发明提供一种基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法，如图1所示，包括以下步骤：

S1：初始化长期回报值矩阵，该长期回报值矩阵包括多个睡眠阶段状态下分别选择多个音乐波动作的回报值。

该长期回报值矩阵包括200个以上用户（睡眠受试者）在1个月以上的睡眠阶段的数据和音乐波动作的应用情况，优选200个用户在1个月的睡眠阶段数据，睡眠阶段数据使用多导睡眠监测图。睡眠阶段的数据通过使用接触式或非接触式睡眠监测设备获得的睡眠数据，包括清醒状态和持续时间（对应清醒期）、浅睡状态和持续时间（对应浅睡期）、深睡状态和持续时间（对应深睡期）、快速眼动期状态和持续时间（对应快速眼动期）；在睡眠每个阶段随机采用的音乐波动作设置为alpha波、theta波和delta波，但不局限于这三种音乐波；

长期回报值即为Q值，反应一个睡眠阶段状态选择一个音乐波动作得到的回报值。初始化长期回报值矩阵为全零矩阵。

多个睡眠阶段状态包括清醒期、浅睡期、深睡期和快速眼动期。

多个音乐波动作包括alpha波、theta波和delta波。

S2：设置奖励矩阵，该奖励矩阵包括在一个睡眠阶段状态下执行一个音乐波动作后，达到下一个睡眠阶段状态所获得的当前奖励值。

设置时间步为t，表示音乐波动作与用户（睡眠受试者）进行一次交互的单位时间。在一个睡眠阶段状态下执行一个音乐波动作后，经过一个时间步后，观察用户达到的下一个睡眠阶段状态。

具体地，奖励矩阵为：

从清醒期执行某一音乐波动作达到浅睡期的当前奖励值R设置为2，即当前奖励值R（清醒期，某一音乐波动作）=2；从清醒期执行某一音乐波动作保持清醒期维持的R奖励设置为0，即当前奖励值R（清醒期，某一音乐波动作）=0；

从浅睡期执行某一音乐波动作达到清醒期的当前奖励值R奖励设置为-1，即当前奖励值R（浅睡期，某一音乐波动作）=-1；从浅睡期执行某一音乐波动作保持清醒期维持的当前奖励值R奖励设置为0.5，即当前奖励值R（浅睡期，某一音乐动作）=0.5；从浅睡期执行某一音乐波动作进入到深睡期的当前奖励值R奖励设置为3，即当前奖励值R（浅睡期，某一音乐波动作）=3；

从深睡期执行某一音乐波动作达到浅睡期的当前奖励值R奖励设置为-1，即当前奖励值R（深睡期，某一音乐波动作）=-1；从深睡期执行某一音乐波动作保持深睡期维持的当前奖励值R奖励设置为2，即当前奖励值R（深睡期，某一音乐波动作）=2；从深睡期执行某一音乐波动作进入快速眼动期的当前奖励值R奖励设置为-1，即当前奖励值R（深睡期，某一音乐波动作）=-1；

从快速眼动期执行某一音乐波动作达到清醒期的当前奖励值R奖励设置为-3，即当前奖励值R（快速眼动期，某一音乐波动作）=-3；从快速眼动期执行某一音乐波动作达到浅睡期的当前奖励值R奖励设置为2，即当前奖励值R（快速眼动期，某一音乐波动作）=2；从快速眼动期执行某一音乐波动作保持快速眼动期的当前奖励值R奖励设置为1，即当前奖励值R（快速眼动期，某一音乐波动作）=1。

S3：选择一个睡眠阶段状态作为当前睡眠阶段状态；根据当前睡眠阶段状态选择一个音乐波动作；该音乐波动作作为当前音乐波动作。

根据当前睡眠阶段状态选择一个音乐波动作采用Softmax策略。

Softmax函数通常用于多类别分类问题，它将一组原始分数或概率转化为表示概率分布的输出。在神经网络或机器学习模型的输出层，通常会应用Softmax函数，将原始的类别分数或概率转换为表示概率分布的形式。这一步骤确保输出的每个元素都是非负的，并且它们的总和等于1，即得到了各个类别的预测概率。

Softmax策略包括：

R1：初始化每个音乐波动作的预期累计奖励值。

还初始化每个音乐动作的被选择次数。

对每个音乐波动作进行初始化，将音乐波动作被选择的次数N（a）设置为0，将每个音乐波动作的预期累计奖励值S（a）设置为0或其他合适的初始估计值。

R2：采用公式1计算每个音乐波动作的Softmax分布。

公式1。

其中，P（a）表示音乐波动作被选择的概率，S（a）表示该音乐波动作的预期累计奖励值，a表示该音乐波动作，A表示所有音乐波动作的集合，S（A）表示所有音乐波动作的预期累计奖励值之和，表示温度参数，/>为常数，Σ表示求和符号，用于对所有音乐波动作的预期累计奖励值进行求和。

作为优选的实施方式，设置为0.01。

在这一步骤中，使用Softmax函数（公式1）来计算每个音乐波动作的选择概率，这个概率是根据每个音乐波动作的预期累计奖励值（S（a））以及温度参数（）来计算的。Softmax函数的目的是将这些预期累计奖励值转化为概率分布，以便选择概率最高的音乐波动作。

R3：在每一个时间步下，根据公式1，选择音乐波动作。

公式1算出来的每个音乐波动作的概率可以指导选择下一步的音乐波动作。例如：选择音乐波动作1的概率为0.5，选择音乐波动作2的概率为0.2，选择音乐波动作3的概率为0.3。那么在执行的时候，随机选择1-100的整数，当随机选择的数值处在1-50范围时，选择音乐波动作1；当随机选择的数值处在51-70范围时，选择音乐波动作2；当随机选择的音乐波数值处在71-100范围时，选择音乐波动作3。这种执行时基于概率来选择动作的方法。在这一步骤中，根据使用Softmax函数计算出的概率分布，选择一个音乐波动作。通常，可以使用随机性来使得不是总是选择概率最高的音乐波动作，以便进行探索。

选择音乐波动作后，该音乐波动作被选择的次数N（a）加1，被选择的次数在每次步骤R2至R5的循环中是动态变化的。

被选择的次数与当前的概率分布有关，被选择的次数 N（a）在更新预期累计奖励值时应用。在循环中，每选择一次音乐波动作，被选择的次数变化（加1），就会形成一次观察奖励值，可以更新并计算当前所有动作的预期累计奖励值。

R4：执行选择的音乐波动作，得到观察奖励值和下一个睡眠阶段状态。

在这一步骤中，执行R3中选择的音乐波动作。这可能导致获得一个观察奖励值，并且可能改变系统的状态，例如进入下一个睡眠阶段状态。

R5：根据观察奖励值更新音乐波动作的预期累计奖励值；根据观察奖励值更新当前音乐波动作的预期累计奖励值的方法包括：将更新前的预期累计奖励值和观察奖励值相加得到更新后的预期累计奖励值。

这一步骤中，根据观察奖励值，更新已选择音乐波动作的预期累计奖励值，这是为了学习哪种音乐波动作对于优化目标是有利的。

作为优选的实施方式，指定步数为6000步以上，优选6000步。

通过将在多个时间步中重复执行，直到达到指定的步数或其他停止条件。通过不断学习和更新音乐波动作的预期累计奖励值，系统将逐渐趋向于选择概率最大的音乐波动作，以优化目标。

总之，Softmax策略通过将奖励值映射到概率分布，结合随机性和学习过程，帮助系统选择音乐波动作以最大化累计奖励，从而实现目标优化。

S4：在当前睡眠阶段状态下执行当前音乐波动作，达到下一个睡眠阶段状态。

S5：根据奖励矩阵得到当前音乐波动作的当前奖励值。

S6：根据下一个睡眠阶段状态选择下一个音乐波动作。

根据下一个睡眠阶段状态选择下一个音乐波动作采用Softmax策略。

Softmax策略包括：

R1：初始化每个音乐波动作的预期累计奖励值。

还初始化每个音乐动作的被选择次数。

R2：采用公式1计算每个音乐波动作的Softmax分布。

公式1；

作为优选的实施方式，设置为0.01。

R3：在每一个时间步下，根据公式1，选择音乐波动作。

作为优选的实施方式，指定步数为6000步以上，优选6000步。

S7：根据当前奖励值、当前睡眠阶段状态下选择当前音乐波动作的回报值、以及下一个睡眠阶段状态下选择下一个音乐波动作的回报值更新当前睡眠阶段状态选择当前音乐波动作的回报值。

回报值的更新方法采用SARSA方法。SARSA方法是是强化学习（ReinforcementLearning）中的一种基于值函数（Value Function）的学习算法，用于解决马尔可夫决策过程（Markov DecisionProcess，MDP）中的控制问题。基本思想是通过在环境中不断尝试和学习，来找到最佳策略，以最大化长期奖励。通过使用一个值函数来估计在给定状态下采取某个行动的期望累积奖励。

根据当前奖励值、当前睡眠阶段状态下选择当前音乐波动作的回报值、以及下一个睡眠阶段状态下选择下一个音乐波动作的回报值更新当前睡眠阶段状态选择当前音乐波动作的回报值的方法采用公式2：

公式2；

作为优选的实施方式，α为0.01，γ为0.9。

S8：将下一个睡眠阶段状态作为当前睡眠阶段状态，下一个音乐波动作作为当前音乐波动作。

指定重复次数为1000次以上，优选1000次。

长期回报值矩阵不再改变指的是长期回报值矩阵收敛，随着重复次数（训练次数）的增加，长期回报值没有任何变化。

循环更新长期回报值矩阵为一大循环，Softmax策略为一小循环，两个循环的结合，能够更客观、可靠地获得音乐波动作和睡眠阶段状态的关系。

本方案结合了增强学习中的SARSA算法和Softmax策略，通过智能地选择音乐波，能够根据个体的不同睡眠状态和需求，提供个性化的音乐改善睡眠方案，更加有效地优化睡眠体验，从而提高治疗效果；通过结合强化学习和音乐疗法，为音乐改善睡眠提供更科学的决策依据，为个体提供个性化的音乐选择体验，音乐的选择不再是基于经验或主观判断，而是建立在实际观测和数据分析的基础上，增加了方案的客观性和可靠性，有望在睡眠医学和心理学领域产生重要的应用价值。

根据本发明的第二个具体实施方式，本发明提供一种基于睡眠阶段状态和音乐波动作的睡眠改善训练系统，该训练系统根据第一个具体实施方式的基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法训练得到。

根据本发明的第二个具体实施方式，本发明提供一种睡眠质量的改善方法，包括以下步骤：

收集与睡眠周期相关的数据包括200个以上用户（睡眠受试者）在1个月以上的睡眠阶段的数据和音乐波动作的应用情况，优选200个用户在1个月的睡眠阶段数据，睡眠阶段数据使用多导睡眠监测图。睡眠阶段的数据通过使用接触式或非接触式睡眠监测设备获得的睡眠数据，包括清醒状态和持续时间（对应清醒期）、浅睡状态和持续时间（对应浅睡期）、深睡状态和持续时间（对应深睡期）、快速眼动期状态和持续时间（对应快速眼动期）；在睡眠每个阶段随机采用的音乐波动作设置为alpha波、theta波和delta波，但不局限于这三种音乐波；

根据第一个具体实施方式的基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法训练基于睡眠阶段状态和音乐波动作的睡眠改善训练系统；

获取需要改善睡眠的用户的睡眠阶段状态，根据基于睡眠阶段状态和音乐波动作的睡眠改善训练系统选择该睡眠阶段状态下最大的回报值，根据该回报值选择对应的音乐波动作。

根据本发明的第四个具体实施方式，本发明提供一种电子设备，如图2所示，图2是根据一示例性实施例示出的一种电子设备的框图。

下面参照图2来描述根据本申请的这种实施方式的电子设备400。图2显示的电子设备400仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图2所示，电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于：至少一个处理单元410、至少一个存储单元420、连接不同系统组件（包括存储单元420和处理单元410）的总线430、显示单元440等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元410执行，使得所述处理单元410执行本说明书中描述的根据本申请各种示例性实施方式的步骤。例如，所述处理单元410可以执行第二个具体实施方式所示的步骤。

所述存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）4201和/或高速缓存存储单元4202，还可以进一步包括只读存储单元（ROM）4203。

所述存储单元420还可以包括具有一组（至少一个）程序模块4205的程序/实用工具4204，这样的程序模块4205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备400’（例如键盘、指向设备、蓝牙设备等）通信，使得用户能与该电子设备400交互的设备通信，和/或该电子设备400能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口450进行。并且，电子设备400还可以通过网络适配器460与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。网络适配器460可以通过总线430与电子设备400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。

因此，根据本发明的第四个具体实施方式，本发明提供一种计算机可读介质。如图3所示，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、或者网络设备等）执行根据本发明实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现第一个实施方式的功能。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、移动终端、或者网络设备等）执行根据本发明实施例的方法。

以上具体地示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法，其特征在于，包括以下步骤：

S3：选择一个睡眠阶段状态作为当前睡眠阶段状态；根据当前睡眠阶段状态选择一个音乐波动作；该音乐波动作作为当前音乐波动作；所述根据当前睡眠阶段状态选择一个音乐波动作采用Softmax策略；

S4在当前睡眠阶段状态下执行当前音乐波动作，达到下一个睡眠阶段状态；

S5：根据奖励矩阵得到当前音乐波动作的当前奖励值；

S6：根据下一个睡眠阶段状态选择下一个音乐波动作；所述根据下一个睡眠阶段状态选择下一个音乐波动作采用Softmax策略；

S9：重复步骤S4到步骤S8，直到完成指定重复次数或长期回报值矩阵不再改变；

所述Softmax策略包括：

R1：初始化每个音乐波动作的预期累计奖励值；

R2：采用公式1计算每个音乐波动作的Softmax分布：

公式1；

R3：在每一个时间步下，根据公式1，选择音乐波动作；

R5：根据观察奖励值更新音乐波动作的预期累计奖励值；

R6：将下一个睡眠阶段状态作为当前睡眠阶段状态，重复执行步骤R2至步骤R6，直至达到指定步数，选择概率最大的音乐波动作；

步骤S7中，所述根据当前奖励值、当前睡眠阶段状态下选择当前音乐波动作的回报值、以及下一个睡眠阶段状态下选择下一个音乐波动作的回报值更新当前睡眠阶段状态选择当前音乐波动作的回报值的方法采用公式2：

公式2；

2.根据权利要求1所述的基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法，其特征在于，步骤S1中，多个睡眠阶段状态包括清醒期、浅睡期、深睡期和快速眼动期；多个音乐波动作包括alpha波、theta波和delta波。

3.根据权利要求1所述的基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法，其特征在于，所述根据观察奖励值更新音乐波动作预期累计奖励值的方法包括：将更新前的预期累计奖励值和观察奖励值相加得到更新后的预期累计奖励值。

4.一种基于睡眠阶段状态和音乐波动作的睡眠改善训练系统，其特征在于，该训练系统根据权利要求1-3中任一项所述的方法训练得到。

5.一种睡眠质量的改善方法，其特征在于，包括以下步骤：

根据权利要求1-3中任一项所述的方法训练基于睡眠阶段状态和音乐波动作的睡眠改善训练系统；

获取需要改善睡眠的用户的睡眠阶段状态，根据所述基于睡眠阶段状态和音乐波动作的睡眠改善系统选择该睡眠阶段状态下最大的回报值，根据该回报值选择对应的音乐波动作。

6.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-3中任一所述的基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法。

7.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-3中任一所述的基于睡眠阶段状态和音乐波动作的睡眠改善模型的训练方法。