CN114724550B

CN114724550B - 一种基于睡眠的音频识别方法、装置、床垫及存储介质

Info

Publication number: CN114724550B
Application number: CN202210649795.3A
Authority: CN
Inventors: 王炳坤
Original assignee: De Rucci Healthy Sleep Co Ltd
Current assignee: De Rucci Healthy Sleep Co Ltd
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-09-06
Anticipated expiration: 2042-06-10
Also published as: CN114724550A

Abstract

本发明公开了一种基于睡眠的音频识别方法、装置、床垫及存储介质。该方法应用于床垫，床垫内设置有声音采集器件，该方法包括：通过声音采集器件获取预设睡眠时段内的音频数据；基于预设处理方式对音频数据进行处理，得到音频特征数据；将音频特征数据输入至预设梦语识别模型中，并根据预设梦语识别模型的输出结果确定梦语识别结果，其中，预设梦语识别模型为深度学习模型，梦语识别结果中包括音频数据中是否包含梦语；向与床垫预先绑定的终端设备发送梦语识别结果，以供终端设备对梦语识别结果进行显示处理，其应用于床垫中可以检测出床垫使用者在睡眠过程中是否频繁出现说梦语的情况，让床垫使用者可以更加全面且准确的了解自己的睡眠情况。

Description

一种基于睡眠的音频识别方法、装置、床垫及存储介质

技术领域

本发明涉及音频数据处理技术领域，尤其涉及一种基于睡眠的音频识别方法、装置、床垫及存储介质。

背景技术

随着生活质量的逐步提高，人们越来越关注自身的健康情况，健康的睡眠让我们在清醒的时刻保持最佳的状况。常见的影响自己及他人睡眠质量的行为包括：梦话、打呼噜以及磨牙等，其中梦话又称为梦语症，是指在睡眠中无意识的讲话或者发出声音,清醒后不能回忆，可因情感应激、发热或其他类型的睡眠障碍促发，健康人群可出现偶然的说梦话，但如果长期频繁的说梦话，则需及时就医。

目前，对梦话、打呼噜以及磨牙等行为的监测主要分为两方面：一方面是住院治疗，采用专业的医用设备来对上述行为进行监测以采集人的睡眠数据，另一方面是可穿戴小型设备，如手环等小型可穿戴的设备来对上述行为进行监测以采集人的睡眠数据。

但是，医用设备造价昂贵且设备体积较大，无法在普通人群中推广使用，而一般可穿戴的小型设备通常只能监测常见的睡眠数据，如心跳、脉搏以及翻身情况等，却不具备精确的识别以及判断睡眠过程中是否出现上述行为的情况，以及出现的频率等，从而导致设备使用者无法准确以及全面的了解自己的睡眠情况。

发明内容

本发明提供了一种基于睡眠的音频识别方法、装置、床垫及存储介质，可以实现准确地识别睡眠过程中的梦语。

第一方面，本发明实施例提供了一种基于睡眠的音频识别方法，该方法应用于床垫，床垫内设置有声音采集器件，方法包括：

通过声音采集器件获取预设睡眠时段内的音频数据；

基于预设处理方式对音频数据进行处理，得到音频特征数据；

将音频特征数据输入至预设梦语识别模型中，并根据预设梦语识别模型的输出结果确定梦语识别结果，其中，预设梦语识别模型为深度学习模型，梦语识别结果中包括音频数据中是否包含梦语；

向与床垫预先绑定的终端设备发送梦语识别结果，以供终端设备对梦语识别结果进行显示处理。

第二方面，本发明实施例提供了一种基于睡眠的音频识别装置，包括：

音频数据获取模块，用于通过声音采集器件获取预设睡眠时段内的音频数据；

音频特征数据确定模块，用于基于预设处理方式对音频数据进行处理，得到音频特征数据；

梦语识别结果确定模块，用于将音频特征数据输入至预设梦语识别模型中，并根据预设梦语识别模型的输出结果确定梦语识别结果，其中，预设梦语识别模型为深度学习模型，梦语识别结果中包括音频数据中是否包含梦语；

梦语识别结果发送模块，用于向与床垫预先绑定的终端设备发送梦语识别结果，以供终端设备对梦语识别结果进行显示处理。

第三方面，本发明实施例提供了一种床垫，该床垫包括：

床垫本体、至少一个声音采集器件和至少一个处理器，其中，声音采集器件和处理器通讯连接；

以及与至少一个处理器通信连接的存储器；

其中，存储器存储有可被至少一个处理器执行的计算机程序，该计算机程序被至少一个处理器执行，以使至少一个处理器能够执行上述第一方面的基于睡眠的音频识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现上述第一方面的基于睡眠的音频识别方法。

本发明实施例提供的基于睡眠的音频识别方案，通过声音采集器件获取预设睡眠时段内的音频数据，基于预设处理方式对音频数据进行处理，得到音频特征数据，将音频特征数据输入至预设梦语识别模型中，并根据预设梦语识别模型的输出结果确定梦语识别结果，其中，预设梦语识别模型为深度学习模型，梦语识别结果中包括音频数据中是否包含梦语，向与床垫预先绑定的终端设备发送梦语识别结果，以供终端设备对梦语识别结果进行显示处理。通过采用上述技术方案，利用床垫内的声音采集器件采集睡眠时间段内的音频数据并进行处理，处理后得到音频特征数据，然后利用深度学习模型确定梦语识别结果，并向预先绑定的终端设备发送梦语识别结果，其应用于床垫中能检测出床垫使用者在睡眠过程中是否频繁出现说梦语的情况，让床垫使用者可以更加全面且准确的了解自己的睡眠情况。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种基于睡眠的音频识别方法的流程图；

图2是根据本发明实施例二提供的一种基于睡眠的音频识别方法的流程图；

图3是根据本发明实施例三提供的一种基于睡眠的音频识别装置的结构示意图；

图4是根据本发明实施例四提供的一种床垫的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A 和/或 B，可以表示：单独存在 A，同时存在 A 和 B，单独存在 B 这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供了一种基于睡眠的音频识别方法的流程图，本实施例可适用于对睡眠过程中的音频进行梦语识别的情况，该方法可以由基于睡眠的音频识别装置来执行，该基于睡眠的音频识别装置可以采用硬件和/或软件的形式实现，该基于睡眠的音频识别装置可配置于床垫中，该床垫内设置有声音采集器件。

如图1所示，该本发明实施例一提供的一种基于睡眠的音频识别方法，具体包括如下步骤：

S101、通过声音采集器件获取预设睡眠时段内的音频数据。

在本实施例中，声音采集器件可以理解为具备声音采集功能的传感器，具体数量以及在床垫中的安装位置不做限定，例如可以在床垫头部和/或尾部安装至少一个声音采集器件。预设睡眠时间段可以由床垫使用者预设或由床垫生产厂家预设。

值得注意的是，在获取预设睡眠时段内的音频数据之前，需获得音频数据被采集者等相关人员的授权同意，若未获得，则不可采集所述预设睡眠时段内的音频数据。

S102、基于预设处理方式对音频数据进行处理，得到音频特征数据。

在本实施例中，预设处理方式包括分析音频数据频谱、提取音频特征以及确定音频数据的声音内容等。音频特征数据可以为：语音信号或频谱图等。

S103、将音频特征数据输入至预设梦语识别模型中，并根据预设梦语识别模型的输出结果确定梦语识别结果。

其中，预设梦语识别模型为深度学习模型，梦语识别结果中包括音频数据中是否包含梦语。

在本实施例中，将上一步骤获得音频特征数据出入到深度学习模型中，识别出此音频特征数据中是否包含梦语，从而确定出梦语识别结果。其中，所述梦语包括磨牙、梦话、哭笑和打呼噜等，所述深度学习模型可以理解为基于深度学习方法用来识别梦语的数学模型，如迁移学习（Transform_learnning）模型，其可以是基于卷积运算的神经网络，可以利用大量样本数据对多层自编码神经网络的方式进行预训练，以达到优化神经网络的效果，梦语识别结果还可以包括梦语内容和梦语时间等。

S104、向与床垫预先绑定的终端设备发送梦语识别结果，以供终端设备对梦语识别结果进行显示处理。

在本实施例中，床垫中内置有无线通讯装置，可以将梦语识别结果通过无线通讯网络发送给与床垫绑定的终端设备，终端设备内可以设置有相应的应用程序，以供床垫使用者在终端设备上可以查阅该梦语识别结果。其中，终端设备可以为电脑或平板电脑等终端设备，以及手机或智能手表等移动终端设备。值得注意的是，在终端设备上除了可以查阅到梦语识别结果，还可设置预设睡眠时段以及查阅到根据梦语识别结果所统计的相应数据，如梦语频率、梦语次数以及梦语演变趋势等。

本发明实施例提供的基于睡眠的音频识别方法，通过声音采集器件获取预设睡眠时段内的音频数据，基于预设处理方式对音频数据进行处理，得到音频特征数据，将音频特征数据输入至预设梦语识别模型中，并根据预设梦语识别模型的输出结果确定梦语识别结果，其中，预设梦语识别模型为深度学习模型，梦语识别结果中包括音频数据中是否包含梦语，向与床垫预先绑定的终端设备发送梦语识别结果，以供终端设备对梦语识别结果进行显示处理。本发明实施例技术方案，利用床垫内的声音采集器件采集睡眠时间段内的音频数据并进行处理，处理后得到音频特征数据，然后利用深度学习模型确定梦语识别结果，并向预先绑定的终端设备发送梦语识别结果，其应用于床垫中能检测出床垫使用者在睡眠过程中是否频繁出现说梦语的情况，让床垫使用者可以更加全面且准确的了解自己的睡眠情况。

实施例二

图2为本发明实施例二提供的一种基于睡眠的音频识别方法的流程图，本发明实施例的技术方案在上述各可选技术方案的基础上进一步优化，给出了识别睡眠时段内的音频数据以及确定梦语识别结果的具体方式。

可选的，基于预设处理方式对音频数据进行处理，得到音频特征数据，包括：对音频数据进行分帧和加窗操作，得到预处理音频数据；对预处理音频数据进行分离操作，得到多通道的声音信号；利用短时傅里叶算法，将多通道的声音信号转化为多个声音频谱图，其中，音频特征数据中包括多个声音频谱图，声音频谱图的数量与通道的数量一致。这样设置的好处在于，将单通道的声音信号扩展为多通道的声音信号，从而提高了提取音频特征数据的精度。

可选的，根据预设梦语识别模型的输出结果确定梦语识别结果，包括：在根据输出结果确定音频数据中包含梦语的情况下，识别音频数据中的人声信息，并将人声信息转化为对应的梦语文本；获取梦语文本对应的时间戳信息；根据梦语文本和时间戳信息确定梦语识别结果。这样设置的好处在于，为用户了解睡眠情况提供数据支撑，以供床垫使用者查询睡眠过程中的有没有出现过梦语、梦语内容以及频繁程度等信息。

如图2所示，本发明实施例二提供的一种基于睡眠的音频识别方法，具体包括如下步骤：

S201、通过声音采集器件获取预设睡眠时段内的音频数据。

需要明确的是，步骤S201已在本发明实施例一中进行解释，在此处不再多做叙述。

S202、对音频数据进行分帧和加窗操作，得到预处理音频数据；对预处理音频数据进行分离操作，得到多通道的声音信号；利用短时傅里叶算法，将多通道的声音信号转化为多个声音频谱图。

其中，音频特征数据中包括多个声音频谱图，声音频谱图的数量与通道的数量一致。

具体的，首先可以将音频数据分离切片为预设帧长，并对每帧音频数据进行加窗操作，如海宁窗或汉明窗等，使每帧音频数据的两端衰减至接近零，从而得到预处理音频数据，其中预设帧长可以是20至40毫秒，帧移可以是10毫秒；然后对预处理音频数据进行分离操作，可以将其分为不同种类的声音信号，从而得到多通道的声音信号；最后利用短时傅里叶算法将此多通道的声音信号转化为多通道的声音频谱图，此多通道的声音频谱图可以作为上述音频数据的音频特征数据。

进一步的，对预处理音频数据进行分离操作，得到多通道的声音信号，包括：基于谐波-打击波声源分离算法，从预处理音频数据中分离出谐波信号和敲击波信号；根据谐波信号、敲击波信号和预处理音频数据中的源信号，确定三通道的声音信号。

具体的，对预处理音频数据进行分离操作可以理解为：可以利用HPSS(harmonic-percussive source separation，谐波-打击波声源分离)算法，从预处理音频数据中将谐波信号和敲击波信号分离出来，从而可以得到由谐波信号、敲击波信号和预处理音频数据中的源信号构成的三通道的声音信号，增强了音频数据的音频特征，可以使后续识别梦语的精度得到提升。

S203、将音频特征数据输入至预设梦语识别模型中，在根据输出结果确定音频数据中包含梦语的情况下，识别音频数据中的人声信息，并将人声信息转化为对应的梦语文本；获取梦语文本对应的时间戳信息；根据梦语文本和时间戳信息确定梦语识别结果。

具体的，可以利用预设梦语识别模型识别该音频数据的音频特征数据，当确定该音频数据中存在梦语时，可以利用语音识别算法将音频数据中的人声转化为对应的梦语文本，然后获取该音频数据录取的时间戳信息，再将该梦语文本和与之对应的时间戳信息作为梦语识别结果。

可选的，预设梦语识别模型通过以下方式训练得到：基于预设处理方式对音频样本数据进行处理，得到音频样本特征数据；将音频样本特征数据输入至预设初始梦语识别模型中，得到初始识别结果；基于初始识别结果确定音频样本特征数据中包含梦语的预测概率值；将所对应的预测概率值处于第一预设范围内的音频样本数据确定为第一待校验音频样本特征数据，对第一待校验音频样本特征数据进行校验，并根据校验结果为第一待校验音频样本特征数据添加样本标签，得到第一目标音频样本特征数据，其中，样本标签包括梦语标签和非梦语标签；将第一目标音频样本特征数据加入训练样本集合，并利用训练样本集合对预设初始梦语识别模型进行训练，得到预设梦语识别模型。

可选的，在将所述音频样本特征数据输入至预设初始梦语识别模型中，得到初始识别结果之前，包括：首先利用声音采集器件，如手机或录音笔等，采集睡眠时段内的初始音频样本数据，或从互联网中，获取初始音频样本数据，即可以先从互联网中采集少量睡眠时段内的初始音频样本数据，然后经过人工审核确定该音频样本数据中包含梦语的初始音频样本数据和不包含梦语的初始音频样本数据，对包含梦语的初始音频样本数据进行分帧切片处理，按设定帧长（如20ms）为一片，扩大样本量，将扩展后的样本进行按算法开发流程产生初步识别算法，也即预设初始梦语识别模型。

具体的，预设梦语识别模型可以通过以下方式训练得到：首先基于上文所述的预设处理方式对音频样本数据进行处理，其中，音频样本数据可以利用手机或录音笔等声音采集设备，采集睡眠时段内的音频样本数据，从而得到音频样本特征数据；然后利用预设初始梦语识别模型对该音频样本特征数据进行识别，从而得到初始识别结果，该结果包括是包含梦语的概率值与不包含梦语的概率值，如音频样本特征数据包含梦语的预测概率值是70%，不包含梦语的预测概率值是30%；根据初始识别结果确定音频样本特征数据中包含梦语的预测概率值；若该音频样本特征数据中包含梦语的概率在第一预设范围内，则将该音频样本特征数据对应的音频数据确定为第一待校验音频样本特征数据，并对其对应的音频样本数据进行校验，如通过人工人耳校验第一待校验音频样本特征数据对应的预设时间段内的音频样本数据中是否包含梦语，预设时间段可以设置为5分钟等，根据校验结果为第一待校验音频样本特征数据添加梦语标签或非梦语标签，得到第一目标音频样本特征数据；最后将携带有梦语和非梦语标签的第一目标音频样本特征数据，分别加入训练样本集合，并利用训练样本集合对预设初始梦语识别模型进行训练，得到预设梦语识别模型。其中，在将第一目标音频样本特征数据加入训练样本集合之前，训练样本集合可以是空集，也可以是包含一定数量的训练样本的集合。

示例性的，将第一预设范围设置为大于等于0.5且小于等于0.75,假设将某个音频样本特征数据输入至预设初始梦语识别模型中，得到该音频样本特征数据包含梦语的预测概率值是0.6，不包含梦语的预测概率值是0.4，由于0.6在大于等于0.5且小于等于0.75的范围内，所以将该音频样本数据确定为第一待校验音频样本特征数据，并对其人工校验，若校验结果是梦语，则为其添加梦语的标签，将其加入训练样本集合。

进一步的，在利用训练样本集合对预设初始梦语识别模型进行训练之前，还包括：将所对应的预测概率值处于第二预设范围内的音频样本特征数据确定为待筛选音频样本特征数据，其中，第二预设范围中的下边界值大于或等于第一预设范围的上边界值；采用预设筛选方式从多个待筛选音频样本特征数据中筛选出第二待校验音频样本特征数据，对第二待校验音频样本特征数据对应的样本标签进行校验，并根据校验结果为第二待校验音频样本特征数据添加样本标签，得到第二目标音频样本特征数据；为待筛选音频样本特征数据中未被筛选出的音频样本特征数据添加梦语标签，得到第三目标音频样本特征数据；将第二目标音频样本特征数据和第三目标音频样本特征数据，加入训练样本集合。

具体的，若音频样本特征数据中包含梦语的预测概率值处于第二预设范围内，则将其确定为待筛选音频样本特征数据；然后采用预设筛选方式从多个待筛选音频样本特征数据中筛选出第二待校验音频样本特征数据，预设筛选方式可以为随机筛选或条件筛选等，校验该第二待校验音频样本特征数据并根据校验结果给其加梦语或非梦语的标签，将其确定为第二目标音频样本特征数据，为待筛选音频样本特征数据中未被筛选中的音频样本特征数据添加梦语标签，并其确定为第三目标音频样本特征数据；最后将第二目标音频样本特征数据和第三目标音频样本特征数据加入训练样本集合。

示例性的，若第一预设范围为大于等于0.5且小于等于0.75，第二预设范围为大于0.75，预设筛选方式为从多个待筛选音频样本特征数据中随机筛选待筛选音频样本特征数据数量的20%个样本特征数据，当音频样本特征数据中包含梦语的预测概率值为0. 8时，则将其确定为待筛选音频样本特征数据，若待筛选音频样本特征数据共有20个，则从中随机筛选出4个待筛选音频样本特征数据，将其确定为第二待校验音频样本特征数据，经过人工校验，若确认其全部为梦语，则添加梦语标签，并将这4个第二待校验音频样本特征数据确定为第二目标音频样本特征数据，若某个第二待校验音频样本特征数据经人工校验后确定不包含梦语，则添加非梦语标签，得到对应的第二目标音频样本特征数据，为未被筛选中的16个待筛选音频样本特征数据添加梦语标签，并将其确定为第三目标音频样本特征数据，将第二目标音频样本特征数据和第三目标音频样本特征数据加入训练样本集合。

可选的，在利用训练样本集合对预设初始梦语识别模型进行训练之前，还包括：若音频样本特征数据中包含梦语的预测概率值小于第一预设范围中的下边界值，则为该音频样本特征数据对应的音频样本数据添加非梦语标签，并将其加入训练样本集合。

示例性的，若第一预设范围为大于等于0.5且小于等于0.75，当音频样本特征数据中包含梦语的预测概率值为0. 4时，则为其添加非梦语标签，并将其加入训练样本集合。

S204、向与床垫预先绑定的终端设备发送梦语识别结果，以供终端设备对梦语识别结果进行显示处理。

需要明确的是，步骤S204已在本发明实施例一中进行解释，在此处不再多做叙述。

本发明实施例提供的基于睡眠的音频识别方法，利用目标音频样本特征数据构成的训练样本集合来训练预设梦语识别模型，将采集到的音频数据转化为包含有三个声音频谱图的音频特征数据，然后利用预先训练好的预设梦语识别模型确定出梦语识别结果，并向预先绑定的终端设备发送梦语识别结果，其应用于床垫中不会让床垫使用者在睡眠时感到明显的异物感，保证了对睡眠时段内的音频数据的识别精度，识别出了床垫使用者在睡眠过程中是否频繁出现说梦语的情况，让床垫使用者可以更加全面且准确的了解自己的睡眠情况。

在上述实施例基础上，该方法还可包括：将音频数据上传至服务端，以供服务端利用音频数据对预设梦语识别模型进行训练，得到更新后的预设梦语识别模型；接收服务端下发的更新后的预设梦语识别模型中的模型更新参数信息，并利用模型更新参数信息对床垫中的预设梦语识别模型进行更新。

具体的，可以采集床垫使用者的音频数据来持续训练预设梦语识别模型，以保证预设梦语识别模型识别梦语的准确率，即可以将通过所述声音采集器件获取的音频数据上传至服务端，以给训练预设梦语识别模型提供训练样本；同时，也可以接收服务端下发的更新后的预设梦语识别模型中的模型更新参数信息，将床垫本地的预设梦语识别模型中的参数值，替换为模型更新参数信息中对应的新的参数值，以实现模型更新。其中，服务端可以为云端服务器。

值得注意的是，在采集床垫使用者的音频数据来持续训练预设梦语识别模型之前，需获得音频数据被采集者等相关人员的授权同意，若未获得，则不可将所述音频数据上传至服务端。

实施例三

图3为本发明实施例三提供的一种基于睡眠的音频识别装置的结构示意图。如图3所示，该装置包括：音频数据获取模块301、音频特征数据确定模块302、梦语识别结果确定模块303以及梦语识别结果发送模块304，其中：

本发明实施例提供的基于睡眠的音频识别的装置，利用床垫内的声音采集器件采集睡眠时间段内的音频数据并进行处理，处理后得到音频特征数据，然后利用深度学习模型确定梦语识别结果，并向预先绑定的终端设备发送梦语识别结果，其应用于床垫中能检测出床垫使用者在睡眠过程中是否频繁出现说梦语的情况，让床垫使用者可以更加全面且准确的了解自己的睡眠情况。

进一步的，在利用训练样本集合对预设初始梦语识别模型进行训练之前，还包括：将所对应的预测概率值处于第二预设范围内的音频样本数据确定为待筛选音频样本特征数据，其中，第二预设范围中的下边界值大于或等于第一预设范围的上边界值；采用预设筛选方式从多个待筛选音频样本特征数据中筛选出第二待校验音频样本特征数据，对第二待校验音频样本特征数据对应的样本标签进行校验，并根据校验结果为第二待校验音频样本特征数据添加样本标签，得到第二目标音频样本特征数据；为待筛选音频样本特征数据中未被筛选出的音频样本特征数据添加梦语标签，得到第三目标音频样本特征数据；将第二目标音频样本特征数据和第三目标音频样本特征数据，加入训练样本集合。

可选的，音频特征数据确定模块302包括：

预处理音频数据获取单元，用于对音频数据进行分帧和加窗操作，得到预处理音频数据；

多通道声音信号获取单元，用于对预处理音频数据进行分离操作，得到多通道的声音信号；

声音频谱图获取单元，用于利用短时傅里叶算法，将多通道的声音信号转化为多个声音频谱图，其中，音频特征数据中包括多个声音频谱图，声音频谱图的数量与通道的数量一致。

进一步的，多通道声音信号获取单元具体用于，基于谐波-打击波声源分离算法，从预处理音频数据中分离出谐波信号和敲击波信号；根据谐波信号、敲击波信号和预处理音频数据中的源信号，确定三通道的声音信号。

可选的，根据预设梦语识别模型的输出结果确定梦语识别结果，包括：在根据输出结果确定音频数据中包含梦语的情况下，识别音频数据中的人声信息，并将人声信息转化为对应的梦语文本；获取梦语文本对应的时间戳信息；根据梦语文本和时间戳信息确定梦语识别结果。

可选的，上述装置还包括：

音频数据上传模块，用于将音频数据上传至服务端，以供服务端利用音频数据对预设梦语识别模型进行训练，得到更新后的预设梦语识别模型；

更新参数信息接收模块，用于接收服务端下发的更新后的预设梦语识别模型中的模型更新参数信息，并利用模型更新参数信息对床垫中的预设梦语识别模型进行更新。

本发明实施例所提供的基于睡眠的音频识别装置可执行本发明任意实施例所提供的基于睡眠的音频识别方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4示出了可以用来实施本发明实施例的床垫40的结构示意图。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，床垫40包括床垫本体41、至少一个声音采集器件42和至少一个处理器43，所述声音采集器件和所述处理器通讯连接，以及与至少一个处理器43通信连接的存储器44，如只读存储器（ROM）好人随机访问存储器（RAM）等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器43可以根据存储在只读存储器（ROM）中的计算机程序或者从存储单元加载到随机访问存储器（RAM）中的计算机程序，来执行各种适当的动作和处理。在RAM中，还可存储床垫40所需的各种程序和数据。

处理器43可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器43的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理器43执行上文所描述的各个方法和处理，例如基于睡眠的音频识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

上述提供的计算机设备可用于执行上述任意实施例提供的基于睡眠的音频识别方法，具备相应的功能和有益效果。

实施例五

在本发明的上下文中，计算机可读存储介质可以是有形的介质，所述计算机可执行指令在由计算机处理器执行时用于执行基于睡眠的音频识别方法，该方法包括：

通过声音采集器件获取预设睡眠时段内的音频数据；

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

值得注意的是，上述基于睡眠的音频识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于睡眠的音频识别方法，其特征在于，应用于床垫，所述床垫内设置有声音采集器件，所述方法包括：

通过所述声音采集器件获取预设睡眠时段内的音频数据；

基于预设处理方式对所述音频数据进行处理，得到音频特征数据；

将所述音频特征数据输入至预设梦语识别模型中，并根据所述预设梦语识别模型的输出结果确定梦语识别结果，其中，所述预设梦语识别模型为深度学习模型，所述梦语识别结果中包括所述音频数据中是否包含梦语；

向与所述床垫预先绑定的终端设备发送所述梦语识别结果，以供所述终端设备对所述梦语识别结果进行显示处理；

其中，所述预设梦语识别模型通过以下方式训练得到：

基于所述预设处理方式对音频样本数据进行处理，得到音频样本特征数据；

将所述音频样本特征数据输入至预设初始梦语识别模型中，得到初始识别结果；

基于所述初始识别结果确定所述音频样本特征数据中包含梦语的预测概率值；

将所对应的预测概率值处于第一预设范围内的音频样本特征数据确定为第一待校验音频样本特征数据，对所述第一待校验音频样本特征数据进行校验，并根据校验结果为所述第一待校验音频样本特征数据添加样本标签，得到第一目标音频样本特征数据，其中，所述样本标签包括梦语标签和非梦语标签；

将所述第一目标音频样本特征数据加入训练样本集合，并利用所述训练样本集合对所述预设初始梦语识别模型进行训练，得到所述预设梦语识别模型。

2.根据权利要求1所述的方法，其特征在于，在所述利用所述训练样本集合对所述预设初始梦语识别模型进行训练之前，还包括：

将所对应的所述预测概率值处于第二预设范围内的音频样本特征数据确定为待筛选音频样本特征数据，其中，所述第二预设范围中的下边界值大于或等于所述第一预设范围的上边界值；

采用预设筛选方式从多个所述待筛选音频样本特征数据中筛选出第二待校验音频样本特征数据，对所述第二待校验音频样本特征数据对应的样本标签进行校验，并根据校验结果为所述第二待校验音频样本特征数据添加样本标签，得到第二目标音频样本特征数据；

为所述待筛选音频样本特征数据中未被筛选出的音频样本特征数据添加梦语标签，得到第三目标音频样本特征数据；

将所述第二目标音频样本特征数据和所述第三目标音频样本特征数据，加入训练样本集合。

3.根据权利要求1所述的方法，其特征在于，所述基于预设处理方式对所述音频数据进行处理，得到音频特征数据，包括：

对所述音频数据进行分帧和加窗操作，得到预处理音频数据；

对所述预处理音频数据进行分离操作，得到多通道的声音信号；

利用短时傅里叶算法，将所述多通道的声音信号转化为多个声音频谱图，其中，所述音频特征数据中包括所述多个声音频谱图，所述声音频谱图的数量与所述通道的数量一致。

4.根据权利要求3所述的方法，其特征在于，所述对所述预处理音频数据进行分离操作，得到多通道的声音信号，包括：

基于谐波-打击波声源分离算法，从所述预处理音频数据中分离出谐波信号和敲击波信号；

根据所述谐波信号、所述敲击波信号和所述预处理音频数据中的源信号，确定三通道的声音信号。

5.根据权利要求1所述的方法，其特征在于，所述根据所述预设梦语识别模型的输出结果确定梦语识别结果，包括：

在根据所述输出结果确定所述音频数据中包含梦语的情况下，识别所述音频数据中的人声信息，并将所述人声信息转化为对应的梦语文本；

获取所述梦语文本对应的时间戳信息；

根据所述梦语文本和所述时间戳信息确定梦语识别结果。

6.根据权利要求1-5任一所述的方法，其特征在于，还包括：

将所述音频数据上传至服务端，以供所述服务端利用所述音频数据对所述预设梦语识别模型进行训练，得到更新后的预设梦语识别模型；

接收所述服务端下发的所述更新后的预设梦语识别模型中的模型更新参数信息，并利用所述模型更新参数信息对所述床垫中的预设梦语识别模型进行更新。

7.一种基于睡眠的音频识别装置，其特征在于，所述装置配置于床垫，所述床垫内设置有声音采集器件，所述装置包括：

音频数据获取模块，用于通过所述声音采集器件获取预设睡眠时段内的音频数据；

音频特征数据确定模块，用于基于预设处理方式对所述音频数据进行处理，得到音频特征数据；

梦语识别结果确定模块，用于将所述音频特征数据输入至预设梦语识别模型中，并根据所述预设梦语识别模型的输出结果确定梦语识别结果，其中，所述预设梦语识别模型为深度学习模型，所述梦语识别结果中包括所述音频数据中是否包含梦语；

梦语识别结果发送模块，用于向与所述床垫预先绑定的终端设备发送所述梦语识别结果，以供所述终端设备对所述梦语识别结果进行显示处理；

其中，所述预设梦语识别模型通过以下方式训练得到：

基于所述预设处理方式对音频样本数据进行处理，得到音频样本特征数据；将所述音频样本特征数据输入至预设初始梦语识别模型中，得到初始识别结果；基于所述初始识别结果确定所述音频样本特征数据中包含梦语的预测概率值；将所对应的预测概率值处于第一预设范围内的音频样本特征数据确定为第一待校验音频样本特征数据，对所述第一待校验音频样本特征数据进行校验，并根据校验结果为所述第一待校验音频样本特征数据添加样本标签，得到第一目标音频样本特征数据，其中，所述样本标签包括梦语标签和非梦语标签；将所述第一目标音频样本特征数据加入训练样本集合，并利用所述训练样本集合对所述预设初始梦语识别模型进行训练，得到所述预设梦语识别模型。

8.一种床垫，其特征在于，所述床垫包括：

床垫本体、至少一个声音采集器件和至少一个处理器，其中，所述声音采集器件和所述处理器通讯连接；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的基于睡眠的音频识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的基于睡眠的音频识别方法。