CN116782093B

CN116782093B - 便携式音箱的音频调节方法、装置、电子设备及介质

Info

Publication number: CN116782093B
Application number: CN202311084167.6A
Authority: CN
Inventors: 赵卫刚; 赵刚柱
Original assignee: Shenzhen Qichuangxiang Technology Co ltd
Current assignee: Shenzhen Qichuangxiang Technology Co ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-07
Anticipated expiration: 2043-08-28
Also published as: CN116782093A

Abstract

本发明涉及一种便携式音箱的音频调节方法、装置、电子设备及介质，获取感应设备输入的时态数据，并基于所述时态数据生成音频调节因子；将所述音频调节因子设置于插序神经网络模型中，由所述插序神经网络模型生成的线性频率区间和节滑间隔对应调节所述便携式音箱的音频高低，其中，所述线性频率区间为线性增高音频或线性降低音频的区间，所述节滑间隔为启动与结束音频调节时的节点延迟控制；结合用户需求感知、实时动态调节、插序神经网络模型和遗忘门机制，实现了音频优化和个性化调节，显著提升了用户体验。

Description

便携式音箱的音频调节方法、装置、电子设备及介质

技术领域

本发明涉及音箱数字化处理的技术领域，特别涉及一种便携式音箱的音频调节方法、装置、电子设备及介质。

背景技术

便携式音箱因其便携性和音质效果的优点，备受用户好评，广泛应用于户外活动、家庭休闲娱乐以及公共公园等场所。便携式音箱能够依靠内置电源的供电，并通过蓝牙、Wi-Fi或有线连接播放音频源。同时，便携式音箱还嵌入了多种音频信号处理技术，以实现音频调节功能，包括音量调节、音质调节、音轨选择以及均衡器设置等，以满足用户在不同环境和条件下对音频表现的需求。然而，传统便携式音箱的音频调节功能，通常需要用户通过物理按钮或与音箱连接的设备进行操作，且调节过程过于繁琐和复杂。此外，用户无法根据当前的环境条件，如环境噪声、空间大小等因素进行音频调节，使得音箱的实用性和用户体验大大降低。

发明内容

本发明的主要目的为提供一种便携式音箱的音频调节方法、装置、电子设备及介质，结合用户需求感知、实时动态调节、插序神经网络模型和遗忘门机制，实现了音频优化和个性化调节，显著提升了用户体验。

为实现上述目的，本发明提供了一种便携式音箱的音频调节方法，包括以下步骤：

获取感应设备输入的时态数据，并基于所述时态数据生成音频调节因子；

将所述音频调节因子插入插序神经网络模型中，由插入音频调节因子后的所述插序神经网络模型生成的线性频率区间和节滑间隔对应调节所述便携式音箱的音频高低，其中，所述线性频率区间为线性增高音频或线性降低音频的区间，所述节滑间隔为启动与结束音频调节时的节点延迟控制。

进一步地，所述获取感应设备输入时态数据的步骤，包括：

获取感应到的用户语音数据；

识别所述用户语音数据的话语音高和话语速度，或话语文本；

在同时刻下，基于话语音高和话语速度生成音频升高或降低的第一时态数据；

在同时刻下，基于话语文本生成音频升高或降低的第二时态数据；

其中，所述感应设备包括与便携式音箱连接的用户终端。

进一步地，获取感应设备输入的时态数据，并基于所述时态数据生成音频调节因子的步骤，包括：

获取感应设备输入的所述第一时态数据或第二时态数据；

基于所述第一时态数据，当话语音高和话语速度对应的第一阈值为高时，生成与所述第一阈值匹配的向下调节的第一音频调节因子，反之，生成向上调节的第一音频调节因子；

基于所述第二时态数据，采用语音识别模块识别话语文本的对应内容，当判定内容为音频调节信息，则根据所述音频调节信息对应生成第二音频调节因子，反之，则将第二时态数据视为第一时态数据。

进一步地，将所述音频调节因子插入插序神经网络模型中的步骤，包括：

基于所述插序神经网络模型预设的特征接口，对音频调节因子进行分解，得到调节子因子；

将所述调节子因子对应的插序至特征接口，其中，所述特征接口包括：时频特征接口、频带能量接口、听觉滤波接口和发声特征接口。

进一步地，所述插序神经网络模型生成的线性频率区间和节滑间隔对应调节所述便携式音箱的音频高低的步骤，包括：

基于所述时频特征接口、频带能量接口、听觉滤波接口和发声特征接口对插序进入的调节子因子进行对应的特征识别，分别得到音频时频特征、音频频带特征、滤波阈值特征和音频发声特征；

通过所述音频时频特征、音频频带特征、滤波阈值特征和音频发声特征进行调节向量的拼接生成，以得到音频调节向量；

将所述音频调节向量设置于遗忘门上，且从音频调节向量上提取所述线性频率区间和节滑间隔；

监听基于所述线性频率区间和节滑间隔，是否完成调节便携式音箱的音频高低；

若是，则由所述遗忘门输出音频调节向量。

进一步地，基于所述时频特征接口、频带能量接口、听觉滤波接口和发声特征接口对插序进入的调节子因子进行对应的特征识别的步骤，包括：

同时刻下，通过所述时频特征接口识别调节子因子的输入时间和预测输出时间，通过所述输入时间和预测输出时间，构成用于生成音频调节向量的向量长度；

同时刻下，通过频带能量接口识别调节子因子中的频率幅度，并将频率幅度信息设置为音频调节向量的向量宽度；

同时刻下，通过听觉滤波接口基于调节子因子中的音频升高或降低，对应调整音频调节向量的线性斜率，并由所述线性斜率和向量长度确定出线性频率区间；

同时刻下，通过发声特征接口将调节子因子中的音频调节起点和终点进行识别，并由发声特征接口识别便携式音箱当前播放的音频振幅，若所述音频振幅高于预设插序阈值，则延后音频调节起点，其延后的间隔为节滑间隔。

进一步地，将所述音频调节向量设置于遗忘门上，且从音频调节向量上提取所述线性频率区间和节滑间隔的步骤，包括：

将所述音频调节向量放置于遗忘门上，便携式音箱实时调取对应的线性频率区间和节滑间隔进行音频调节。

本发明还提出一种便携式音箱的音频调节方法装置，包括：

获取单元，用于获取感应设备输入的时态数据，并基于所述时态数据生成音频调节因子；

调节单元，用于将所述音频调节因子插入插序神经网络模型中，由插入音频调节因子后的所述插序神经网络模型生成的线性频率区间和节滑间隔对应调节所述便携式音箱的音频高低，其中，所述线性频率区间为线性增高音频或线性降低音频的区间，所述节滑间隔为启动与结束音频调节时的节点延迟控制。

本发明还提供一种电子设备，包括存储器和处理器，所述存储器中存储有电子设备程序，所述处理器执行所述电子设备程序时实现上述任一项所述便携式音箱的音频调节方法的步骤。

本发明还提供一种电子设备可读存储介质，其上存储有电子设备程序，所述电子设备程序被处理器执行时实现上述任一项所述的便携式音箱的音频调节方法的步骤。

本发明提供的便携式音箱的音频调节方法、装置、电子设备及介质，具有以下有益效果：

（1）以用户为中心：该方法可以获取和利用用户的自然语音输入，主动识别对音频调整的需求，进而调整音频参数。这样，用户无需频繁设置或操作，能够提供更加个性化和方便的使用体验。

（2）实时动态调节：通过感应设备获取的实时数据以及神经网络模型的分析，在不同的环境和条件下，可进行实时和动态的音频调整。不仅可以适应环境变化，还可以根据用户声音的高低和速度进行相应调节，提高音箱的适应性和智能性。

（3）减少对环境的影响：通过提取频带能量、音频时频特征、滤波阈值特征和音频发声特征的方式，使得音频的调节更加得心应手，减少了噪音对音频调节的干扰，增强了音箱的使用便利性和实用性。

（4）利用插序神经网络：借助插序神经网络模型，能更有效地识别和处理音频调节因子，从而实现精准而微妙的音频调节，提高音质并优化便携式音箱的整体音响效果。

（5）遗忘门机制：该方法引入了遗忘门机制，不仅实现了实时动态的音频调节，还有效避免了频繁调节引起的音质剧变，保证了音频的平滑性和稳定性。

附图说明

图1是本发明一实施例中便携式音箱的音频调节方法的流程示意图；

图2是本发明又一实施例中便携式音箱的音频调节方法的流程示意图；

图3是本发明一实施例中便携式音箱的音频调节方法的结构框图；

图4是本发明一实施例的电子设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1为本发明提出一种便携式音箱的音频调节方法的流程示意图，包括以下步骤：

S1，获取感应设备输入的时态数据，并基于所述时态数据生成音频调节因子；

S2，将所述音频调节因子插入插序神经网络模型中，由插入音频调节因子后的所述插序神经网络模型生成的线性频率区间和节滑间隔对应调节所述便携式音箱的音频高低，其中，所述线性频率区间为线性增高音频或线性降低音频的区间，所述节滑间隔为启动与结束音频调节时的节点延迟控制。

具体的，时态数据为感应设备获取当前时态下的音频调节数据，并由该时态数据生成音频调节因子，根据生成的音频调节因子，进一步在插序神经网络模型中进行操作。插序神经网络是一种通过调整和配置网络结构，以适应不同任务的网络模型。因子设置到这种模型中后，模型会根据设置的因子生成相应的线性频率区间和节滑间隔。线性频率区间可以理解为调节音频的范围，它可以定义音频的增高或降低范围，进而调节音箱输出的音频高低；而节滑间隔则用于控制音频调节开始与结束的时间，也就是不同调节步骤之间的延迟，使音频的调节变得更为自然和流畅。

而插序神经网络模型，该模型的主要工作是精确处理和解析输入的音频调节因子，并基于这些因子生成音频调节向量，从而进行详细的音频调节。首先，音频调节因子被设置到插序神经网络模型中，这个模型的特色在于可以对特定的输入因子进行精确、高效的处理并生成相应的输出。插序神经网络模型具有预设的特征接口，这些特征接口包括：时频特征接口、频带能量接口、听觉滤波接口和发声特征接口。这些接口用于识别和分解输入的音频调节因子，将其变为更基础的调节子因子。这些调节子因子被对应地插序到特征接口中，这一步是通过特征接口进行数据处理和特征转换的过程，比如通过时频特征接口可以识别调节子因子的输入时间和预测输出时间，频带能量接口可以识别处理调节子因子中的频率幅度，听觉滤波接口会基于调节子因子中的音频升高或降低来调整音频调节向量的线性斜率，发声特征接口则是将调节子因子中的音频调节起点和终点进行识别。这些特征接口处理调节子因子经过一系列复杂的运算与转换后，将各自处理得到的特征汇集起来，拼接成音频调节向量。这个向量代表的是一系列连续的音频调节步骤和参数。为了控制音频调节的开始和结束，您的方案引入了遗忘门机制。音频调节向量被设置于遗忘门上，通过遗忘门可以实时提取线性频率区间和节滑间隔，这样就可以实现音频调节的精确控制。音频调节向量在遗忘门上被逐步利用，用于实时调取对应的线性频率区间和节滑间隔进行音频调节，确保音频高低调节的平滑性与稳定性。当音箱的音频高低调节完成，遗忘门根据音频调节向量输出调节结果。通过这样的设计，实现了精确、有效且自适应的音频调节流程。

在一个实施例中，所述获取感应设备输入时态数据的步骤，包括：

获取感应到的用户语音数据；

其中，所述感应设备包括与便携式音箱连接的用户终端。

具体的，用户终端包括手机、平板电脑、手提电脑、计算机设备和智能手表。可以理解的是，当感应到用户存在一定的话语音高和话语速度时，认定他正在说话，此时应适当降低便携式音箱的音量大小，但是若识别用户所说出的话为音频大小的调节指令，则应当根据调节指令对应调节音箱的音量大小，并锁定。

在一个实施例中，获取感应设备输入的时态数据，并基于所述时态数据生成音频调节因子的步骤，包括：

获取感应设备输入的所述第一时态数据或第二时态数据；

在一个实施例中，将所述音频调节因子插入插序神经网络模型中的步骤，包括：

具体的，五个接口可理解为神经网络模型的输入门，通过五个接口分别对应的识别音频调音因子的子因子特征，其中，特征接口包括：时频特征接口、频带能量接口、听觉滤波接口和发声特征接口：将分解得到的调节子因子，根据其各自的特性，插序至适配的特征接口。不同的特征接口专注于处理不同类型的调节子因子。例如，时频特征接口处理与时间和频率相关的因子，频带能量接口处理音频中的频带能量信息，听觉滤波接口处理音频的听觉滤波因素，而发声特征接口则处理音频的发声特征。这种分类和匹配的方式，可以使得各特征接口充分发挥其特性，更高效地处理调节子因子。

在一个实施例中，参考附图2，所述插序神经网络模型生成的线性频率区间和节滑间隔对应调节所述便携式音箱的音频高低的步骤，包括：

S100，基于所述时频特征接口、频带能量接口、听觉滤波接口和发声特征接口对插序进入的调节子因子进行对应的特征识别，分别得到音频时频特征、音频频带特征、滤波阈值特征和音频发声特征；

在S100中，同时刻下，通过所述时频特征接口识别调节子因子的输入时间和预测输出时间，通过所述输入时间和预测输出时间，构成用于生成音频调节向量的向量长度；同时刻下，通过频带能量接口识别调节子因子中的频率幅度，并将频率幅度信息设置为音频调节向量的向量宽度；同时刻下，通过听觉滤波接口基于调节子因子中的音频升高或降低，对应调整音频调节向量的线性斜率，并由所述线性斜率和向量长度确定出线性频率区间；同时刻下，通过发声特征接口将调节子因子中的音频调节起点和终点进行识别，并由发声特征接口识别便携式音箱当前播放的音频振幅，若所述音频振幅高于预设插序阈值，则延后音频调节起点，其延后的间隔为节滑间隔。

具体的，时频特征接口识别出调节子因子的输入时间和预测输出时间，这两个时间点定义了音频调节向量的向量长度。这是因为向量长度对应音频的持续时长，即音频从开始到结束应该变化的时间。同时，频带能量接口识别出调节子因子中的频率幅度，并将这个信息定义为音频调节向量的宽度。这意味着调节音频所需的能量将取决于调节子因子中的频率幅度。此外，通过听觉滤波接口，根据调节子因子中的音频升高或降低的信息，对应调整音频调节向量的线性斜率，该斜率和向量长度一起确定出线性频率区间。这个频率区间描述了音频调节向量应如何影响音频的频率范围。最后，发声特征接口将识别调节子因子中的音频调节起点和终点，以及便携式音箱当前播放的音频振幅。如果音频振幅高于预设的插序阈值，音频调节的起始点将被延后，延后的间隔称为滑移间隔。

S200，通过所述音频时频特征、音频频带特征、滤波阈值特征和音频发声特征进行调节向量的拼接生成，以得到音频调节向量；

在S200中，将各个特征进行组合，得到音频调节向量。

S300，将所述音频调节向量设置于遗忘门上，且从音频调节向量上提取所述线性频率区间和节滑间隔；

在S300中，将所述音频调节向量放置于遗忘门上，便携式音箱实时调取对应的线性频率区间和节滑间隔进行音频调节。

S400，监听基于所述线性频率区间和节滑间隔，是否完成调节便携式音箱的音频高低；

在S400中，由上述可知，通过线性频率区间在控制音箱进行音频调节时，保障音频为线性调节。而节滑间隔为识别音箱当前时间戳是否播放刺激部分，而刺激部分的音频振幅相对于平常振幅偏高，而在这偏高的区间内进行延后，而延后的这个间隔就叫做滑移间隔。

S500，若是，则由所述遗忘门输出音频调节向量。

参考附图3，为本发明提出的便携式音箱的音频调节方法装置的结构框图，包括：

获取单元10，用于获取感应设备输入的时态数据，并基于所述时态数据生成音频调节因子；

调节单元20，用于将所述音频调节因子插入插序神经网络模型中，由插入音频调节因子后的所述插序神经网络模型生成的线性频率区间和节滑间隔对应调节所述便携式音箱的音频高低，其中，所述线性频率区间为线性增高音频或线性降低音频的区间，所述节滑间隔为启动与结束音频调节时的节点延迟控制。

在本实施例中，上述装置实施例中的各个单元的具体实现，请参照上述方法实施例中所述，在此不再进行赘述。

参照图4，本发明实施例中还提供一种电子设备，该电子设备可以是服务器，其内部结构可以如图4所示。该电子设备包括通过系统总线连接的处理器、存储器、显示屏、输入装置、网络接口和数据库。其中，该电子设备设计的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、电子设备程序和数据库。该内存储器为非易失性存储介质中的操作系统和电子设备程序的运行提供环境。该电子设备的数据库用于存储本实施例中对应的数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该电子设备程序被处理器执行时以实现上述方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的电子设备的限定。

本发明一实施例还提供一种电子设备可读存储介质，其上存储有电子设备程序，电子设备程序被处理器执行时实现上述方法。可以理解的是，本实施例中的电子设备可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，获取感应设备输入的时态数据，并基于所述时态数据生成音频调节因子；将所述音频调节因子设置于插序神经网络模型中，由所述插序神经网络模型生成的线性频率区间和节滑间隔对应调节所述便携式音箱的音频高低，其中，所述线性频率区间为线性增高音频或线性降低音频的区间，所述节滑间隔为启动与结束音频调节时的节点延迟控制；结合用户需求感知、实时动态调节、插序神经网络模型和遗忘门机制，实现了音频优化和个性化调节，显著提升了用户体验。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过电子设备程序来指令相关的硬件来完成，所述的电子设备程序可存储于一非易失性电子设备可读取存储介质中，该电子设备程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种便携式音箱的音频调节方法，其特征在于，包括以下步骤：

获取感应设备输入的时态数据，并基于所述时态数据生成音频调节因子；时态数据为感应设备获取当前时态下的音频调节数据；

将所述音频调节因子插入插序神经网络模型中，由插入音频调节因子后的所述插序神经网络模型生成的线性频率区间和节滑间隔对应调节所述便携式音箱的音频高低，其中，所述线性频率区间为线性增高音频或线性降低音频的区间，所述节滑间隔为启动与结束音频调节时的节点延迟控制；

所述获取感应设备输入时态数据的步骤，包括：

获取感应到的用户语音数据；

识别所述用户语音数据的话语音高和话语速度，或用户语音数据的话语文本；

其中，所述感应设备包括与便携式音箱连接的用户终端；

将所述音频调节因子插入插序神经网络模型中的步骤，包括：

2.根据权利要求1所述的便携式音箱的音频调节方法，其特征在于，获取感应设备输入的时态数据，并基于所述时态数据生成音频调节因子的步骤，包括：

获取感应设备输入的所述第一时态数据或第二时态数据；

3.根据权利要求1所述的便携式音箱的音频调节方法，其特征在于，所述由插入音频调节因子后的所述插序神经网络模型生成的线性频率区间和节滑间隔对应调节所述便携式音箱的音频高低的步骤，包括：

若是，则由所述遗忘门输出音频调节向量。

4.根据权利要求3所述的便携式音箱的音频调节方法，其特征在于，基于所述时频特征接口、频带能量接口、听觉滤波接口和发声特征接口对插序进入的调节子因子进行对应的特征识别的步骤，包括：

5.根据权利要求3所述的便携式音箱的音频调节方法，其特征在于，将所述音频调节向量设置于遗忘门上，且从音频调节向量上提取所述线性频率区间和节滑间隔的步骤，包括：

6.一种便携式音箱的音频调节方法装置，其特征在于，包括：

获取单元，用于获取感应设备输入的时态数据，并基于所述时态数据生成音频调节因子；时态数据为感应设备获取当前时态下的音频调节数据；

调节单元，用于将所述音频调节因子插入插序神经网络模型中，由插入音频调节因子后的所述插序神经网络模型生成的线性频率区间和节滑间隔对应调节所述便携式音箱的音频高低，其中，所述线性频率区间为线性增高音频或线性降低音频的区间，所述节滑间隔为启动与结束音频调节时的节点延迟控制；

所述获取感应设备输入时态数据，包括：

获取感应到的用户语音数据；

其中，所述感应设备包括与便携式音箱连接的用户终端；

将所述音频调节因子插入插序神经网络模型中，包括：

7.一种电子设备，包括存储器和处理器，所述存储器中存储有电子设备程序，其特征在于，所述处理器执行所述电子设备程序时实现权利要求1至5中任一项所述便携式音箱的音频调节方法的步骤。

8.一种电子设备可读存储介质，其上存储有电子设备程序，其特征在于，所述电子设备程序被处理器执行时实现权利要求1至5中任一项所述的便携式音箱的音频调节方法的步骤。