CN116208899A

CN116208899A - 音频播放控制方法及控制装置

Info

Publication number: CN116208899A
Application number: CN202211613137.5A
Authority: CN
Inventors: 葛瑞
Original assignee: Shenzhen Honghe Innovation Information Technology Co Ltd
Current assignee: Shenzhen Honghe Innovation Information Technology Co Ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-06-02

Abstract

本发明公开了一种音频播放控制方法，包括：获取第一音频数据；获取环境噪声分贝值；对所述第一音频数据进行声源分离，获得具有不同频率结构的多个第二音频数据；根据所述环境噪声分贝值对多个所述第二音频数据进行音量调节；将音量调节后的第二音频数据进行音频混合；根据所述环境噪声分贝值调节音频混合后的第二音频数据的播放音量。本发明所提供的音频播放控制方法，能够实现播放音频数据的声源分离，并根据环境噪声情况调节例如目标声源数据与环境声源数据的音量，提高了系统的自动调节能力。对不同声源的声音进行音量调节，使得在嘈杂环境下突出人声声源等包含实质性内容的声音，在安静环境下使各类声源均衡，给人以安定感，提升听觉体验。

Description

音频播放控制方法及控制装置

技术领域

本发明涉及音频数据处理技术领域，尤其涉及一种音频播放控制方法及音频播放控制装置。

背景技术

目前市面上具有音频输出功能的电子设备或智能设备，输出音频的音量大小通常是通过用户手动调节，或结合音频播放状态及周围场景或环境的检测，系统推荐音量值的方式进行调节，例如：蓝牙(或其他无线型)耳机根据按键调节或自动推荐最佳音量值等方式调节音量；车载音响根据车速，自动增强或降低音量来遮盖车内噪音；音频视频播放设备获取当前播放的音频视频内容，根据内容自动调整音量等。

如何在各种噪声水平的环境条件下，通过自适应性方案，进行系统自动的音量调节，以实时达到用户理想的播放水平，是一个亟待解决的技术问题。

发明内容

有鉴于现有技术的至少一个缺陷，第一方面，本发明提供一种音频播放控制方法，包括：

获取第一音频数据；

获取环境噪声分贝值；

对所述第一音频数据进行声源分离，获得具有不同频率结构的多个第二音频数据；

根据所述环境噪声分贝值对多个所述第二音频数据进行音量调节；

将音量调节后的第二音频数据进行音频混合；

根据所述环境噪声分贝值调节音频混合后的第二音频数据的播放音量。

根据本发明的第一方面，其中，所述第二音频数据包括：

人声声源数据、鼓声声源数据、低音声源数据以及其他音频数据中的一种或多种。

根据本发明的第一方面，其中，所述对所述第一音频数据进行声源分离，获得具有不同频率结构的多个第二音频数据进一步包括：

对所述第一音频数据进行采样；

分析采样结果的频率结构；

根据不同的频率结构分离出多个第三音频数据；

对于所述多个第三音频数据进行波形整形得到所述多个第二音频数据。

根据本发明的第一方面，其中，所述根据所述环境噪声分贝值对多个所述第二音频数据进行音量调节包括：

当所述环境噪声分贝值大于第一阈值时，如果所述人声声源数据的音量大于等于所述鼓声声源数据的音量，则增大所述人声声源数据的音量；

当所述环境噪声分贝值大于所述第一阈值时，如果所述人声声源数据的音量小于所述鼓声声源数据的音量，则将所述人声声源数据的音量调至与所述鼓声声源数据的音量相等。

当所述环境噪声分贝值小于等于第一阈值时，如果所述环境噪声分贝值小于第二阈值，则将所述人声声源数据、所述鼓声声源数据、所述低音声源数据和所述其他音频数据的音量调至相等；

当所述环境噪声分贝值小于等于所述第一阈值时，如果所述环境噪声分贝值大于等于所述第二阈值，保持所述人声声源数据、所述鼓声声源数据、所述低音声源数据和所述其他音频数据的原音量。

根据本发明的第一方面，其中，所述根据所述环境噪声分贝值调节音频混合后的第二音频数据的播放音量包括：

当所述环境噪声分贝值大于第三阈值时，计算第一分贝值，所述第一分贝值等于所述环境噪声分贝值加第一增强分贝值；

当所述环境噪声分贝值小于等于第三阈值时，计算第二分贝值，所述第二分贝值等于所述环境噪声分贝值加第二增强分贝值；其中，所述第一增强分贝值大于所述第二增强分贝值；

基于音量分贝对应表，查找所述第一分贝值或所述第二分贝值对应的音量值，并基于查找结果调节所述当前播放的音频数据的播放音量。

根据本发明的第一方面，所述的方法进一步包括：

实时读取当前系统的音量值；

当收到系统切换指令时，调节切换后系统的音量值，以使当前播放的音频数据的分贝值保持不变。

根据本发明的第一方面，其中所述当收到系统切换指令时，调节切换后系统的音量值包括：

根据音量分贝对应表，调节切换后系统的音量值；或

根据切换前后系统的音量值与系统最大音量值的对应关系，调节切换后系统的音量值。

第二方面，本发明还提供一种音频播放控制装置，包括：

音频数据获取模块，配置成获取第一音频数据；

环境噪声获取模块，配置成获取环境噪声分贝值；

声源分离模块，配置成

第一音量调节模块，配置成根据所述环境噪声分贝值对多个所述第二音频数据进行音量调节；

音频混合模块，配置成将音量调节后的第二音频数据进行音频混合；

第二音量调节模块，配置成根据所述环境噪声分贝值调节音频混合后的第二音频数据的播放音量。

第三方面，本发明还提供一种电子设备，包括：

处理器；以及

存储器，存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行如上文第一方面所介绍的方法。

本发明所提供的音频播放控制方法，能够实现播放音频数据的声源分离，并根据环境噪声情况调节例如目标声源与环境声源发出的声音，提高了系统的自动调节能力。在实现播放音频数据声源分离的基础上，对不同声源的声音进行音量调节，使得在嘈杂环境下突出人声声源等包含实质性内容的声音，在安静环境下使各类声源均衡，给人以安定感，提升听觉体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图，而并不超出本申请要求保护的范围。

图1示出了本发明的一个实施例所提供的音频播放控制方法；

图2示出了本发明的一个实施例所提供的音频播放控制装置；

图3示出了本发明的一个实施例所提供的音频播放控制装置；

图4示出了本发明的一个实施例所提供的音频播放控制装置；

图5示出了本发明的一个实施例所提供的音频播放控制装置；

图6示出了本发明的一个实施例所提供的音频播放控制装置；

图7示出了本发明的一个实施例所提供的电子装置；

图8示出了本发明的一个实施例所提供的音频播放控制装置。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

同样的视频或音频文件，在不同的环境噪声背景下播放，用户的播放诉求以及同样的播放水平带给用户的体验并不不同。例如，在人流密集的嘈杂环境下，或地铁等公共交通工具上播放广告时，广告中的鼓点、背景音等使其中的人声内容难以分辨，而用户通常更加关心广告中的人声内容，进而得到实质性信息，而忽略背景音、配乐等内容；在直播场景中，主播一般都会在背景音乐的衬托下和用户进行讲解，渲染气氛，促进购买欲，如果能使主播的声音增强，而对背景音乐等进行减弱操作，则可以减少背景音乐对于观众的干扰；在安静的视听环境下，例如电影院或家庭中，音视频播放设备播放电影时，适当地提升背景低音，降低响亮的声音(如电影中的爆炸声)，可以使各类声音较为均衡，在安静的环境下，提升各类音色的韵味、色彩、感情味，而响度较大的声音不会过于强烈，响度较低的声音得到提升，给人以听觉上的舒适感。

基于上述问题，本发明提供一种音频播放控制方法，能够对不同声源发出的声音进行分离(例如可分为目标声源声音和环境声源声音)，进而针对不同声源发出的声音进行增强或减弱操作。例如在环境较安静时，降低人声，增强环境音，来提升听觉舒适感；在环境较为嘈杂时，增强目标声源声音，突出实质性内容。

根据本发明的一个实施例，如图1所示，本发明提供一种音频播放控制方法10，包括步骤S101至S106。其中：

在步骤S101中，获取第一音频数据。在一些实施例中，通过具有通信和存储功能的部件，获取电子装置正在播放或即将播放的第一音频数据。

在步骤S102中，获取环境噪声分贝值。在一些实施例中，通过将环境噪声传感器(例如包括麦克风)设置在电子装置处或所述电子装置的预设距离范围之内。环境噪声传感器采集所述电子装置周围的声音，并转换为电信号，该电信号过滤掉所述电子装置正在播放的音频数据对应的电信号之后，即为环境噪声信号，根据该环境噪声信号，计算可得环境噪声分贝值。

在步骤S103中，对所述第一音频数据进行声源分离，获得具有不同频率结构的多个第二音频数据。例如：将第一音频数据分离成人声声源数据和环境声源数据。

在步骤S104中，根据所述环境噪声分贝值对多个所述第二音频数据进行音量调节。在一些实施例中，根据电子装置处或电子装置附近的环境噪声分贝值调节具有不同频率结构的第二音频数据的音量比，例如在嘈杂的噪声环境下，将人声声源数据的音量调高，将环境声源数据的音量降低；而在较为安静的环境下，将人声声源数据与环境声源数据的音量调至均衡。

在步骤S105中，将音量调节后的第二音频数据进行音频混合。在一些实施例中，将音量调节后的第二音频数据进行音频混合，生成供所述电子装置播放的音频数据。

在步骤S106中，根据所述环境噪声分贝值调节音频混合后的第二音频数据的播放音量。在一些实施例中，根据电子装置处电子装置处或电子装置附近的环境噪声分贝值，对混合后的第二音频数据的播放音量做出整体上的适应性调节。

本发明的上述实施例所提供的音频播放控制方法10，能够实现播放音频数据的声源分离，并根据环境噪声情况调节例如目标声源与环境声源发出的声音，提高了系统的自动调节能力。并且，音频播放控制方法10可以根据周围环境的噪声情况(嘈杂或安静)自动调节电子装置输出音量的大小，减少了用户干预，提升了电子装置的智能化水平。

根据本发明的一个实施例，音频播放控制方法10中，步骤S103中所述对所述第一音频数据进行声源分离，获得具有不同频率结构的多个第二音频数据包括：

通过经训练的机器学习组件从所述第一音频数据中分离出人声声源数据、鼓声声源数据、低音声源数据以及其他音频数据中的一种或多种。

经训练的机器学习组件配置成读取所述第一音频数据并将所述第一音频数据进行分离。机器学习组件预先通过大量的音频数据进行训练，获得模型参数，进而对于不同频率结构(不同声源发出的或不同音色)的声源数据具有一定的“认知”，能够从众多声源数据的混合中识别出某一种或多种声源数据。

根据本发明的一个实施例，音频播放控制方法10中，步骤S103中所述对所述第一音频数据进行声源分离，获得具有不同频率结构的多个第二音频数据进一步包括：

首先，对正在播放或即将播放的第一音频数据进行采样，例如对于第一音频数据播放初期几秒钟的波形进行采样，让机器学习模型适应第一音频数据中的突出频率，该突出频率包括：人声频率、鼓声频率、低音(base)频率等。机器学习组件为每一个声音元素(突出的频率)生成单独的波形。

第二步，分析采样结果的频率结构，根据上述声音元素(突出的频率)推断更高比例的声源频率结构。不同声源即使播放同一频率的声音，其泛音的频率、数量也不相同，这是不同声源能够得以分辨(不同声源具有不同音色)的原因，因此，根据分析出的频率结构，能够分离不同的声源。

第三步，根据不同的频率结构分离出多个所述第三音频数据，模型根据分析出的不同声源的频率结构，将声源进行分离，形成多个具有不同频率结构的第三音频数据。

第四步，对于多个所述第三音频数据进行波形整形，获得所述多个第二音频数据。对于不同声源对应的波形进行精细加工，去除毛刺，得到整形后的声源波形。可选地，机器学习组件生成多个音频文件，对应存储多个所述第二音频数据。

根据本发明的一个实施例，音频播放控制方法10中，通过经训练的机器学习组件对输入音频数据进行分离，分离出至少包括人声声源数据、鼓声声源数据、低音声源数据的多个音频数据。可选地，在输入音频数据中，过滤掉已经分离出的人声声源数据、鼓声声源数据、低音声源数据后，剩余的音频数据作为其他音频数据，存储为一个音频文件。

根据本发明的一个实施例，其中所述经训练的机器学习组件例如包括基于Demucs算法的机器学习模型。

本领域技术人员能够理解，其他适用于实现声源分离的机器学习模型或组件也可以用来实现本发明，本发明对此不作出限制。

根据本发明的一个实施例，音频播放控制方法10中，步骤S104中所述根据所述环境噪声分贝值对多个所述第二音频数据进行音量调节包括：

当所述环境噪声分贝值大于第一阈值时，如果所述人声数据的音量大于等于所述鼓声数据的音量，则增加所述人声数据的音量。

当所述环境噪声分贝值大于第一阈值时，如果所述人声数据的音量小于所述鼓声数据的音量，则将所述人声数据的音量调至与所述鼓声数据的音量相等。

其中第一阈值采用噪声标准值V_n，当环境噪声分贝值大于噪声标准值V_n时，说明电子装置当前处于噪声环境下，应对于目标声源，例如对于人声声源做突出调节。判断人声声源数据与鼓声声源数据的音量，如果所述人声声源数据的音量大于等于所述鼓声声源数据的音量，则增加所述人声声源数据的音量，突出人声声源发出的声音。如果所述人声声源数据的音量小于所述鼓声声源数据的音量，则将所述人声声源数据的音量调至与所述鼓声声源数据的音量相等，即在对分离后的人声声源数据和鼓声声源数据的原音量比改动不大的前提下，突出了人声声源发出的声音，以使用户在噪声环境中仍然能够辨认目标人声。

当所述环境噪声分贝值小于等于第一阈值时，如果所述环境噪声分贝值小于第二阈值，则将所述人声声源数据、所述鼓声声源数据、所述低音声源数据和所述其他音频数据的音量调至相等。

当所述环境噪声分贝值小于等于第一阈值时，如果所述环境噪声分贝值大于等于第二阈值，保持所述人声声源数据、所述鼓声声源数据、所述低音声源数据和所述其他音频数据的原音量。

其中第一阈值采用噪声标准值V_n，当环境噪声分贝值小于等于噪声标准值V_n时，说明电子装置当前处于较为安静的外部环境之下，此时对于外部环境分为两级：

如果所述环境噪声分贝值小于第二阈值(第二阈值例如采用噪声标准值的一半V_n/2)，则说明电子装置当前处于极其安静的外部环境之下，则调整所述人声声源数据、所述鼓声声源数据、所述低音声源数据和所述其他音频数据的音量至彼此相等。当电子装置处于极其安静的外部环境中，各声源分贝值相差较大时，声音内容极为不均衡，会影响音色的韵味、色彩、感情味，也可能会给用户带来一种不安定感。因此，当电子装置处于极其安静的外部环境中时，将各个声源的音量调至相等，提升听觉上的舒适感。可选地，通过调节分离后各个声源数据(第二音频数据)的均衡器参数值，使各个声源数据的音量达到相等。

可选地，也可以通过传感器120获取当前播放音频数据的实际分贝值，进而根据实际分贝值设置合适的音量，调节各个声源的音量，对分贝值较低的声源实现效果增强，均衡声音。

如果所述环境噪声分贝值大于等于第二阈值(第二阈值例如采用噪声标准值的一半V_n/2)，说明电子装置当前既不在嘈杂的噪音环境之中，也未处于极其安静的外部环境之下，则不对所述人声声源数据、所述鼓声声源数据、所述低音声源数据和所述其他音频数据的音量比作出调整。将所述人声声源数据、所述鼓声声源数据、所述低音声源数据和所述其他音频数据以原音量比进行混合。

本发明的上述一个或多个实施例所提供的音频播放控制方法10，在实现播放音频数据声源分离的基础上，对不同声源的声音进行音量调节，使得在嘈杂环境下突出人声声源等包含实质性内容的声音，在安静环境下使各类声源均衡，给人以安定感，提升听觉体验。

根据本发明的一个实施例，音频播放控制方法10中，步骤S106中所述根据所述环境噪声分贝值调节音频混合后的第二音频数据的播放音量包括：

当所述环境噪声分贝值大于第三阈值时，计算第一分贝值，所述第二分贝值等于所述环境噪声分贝值加第一增强分贝值。

当所述环境噪声分贝值小于等于第三阈值时，计算第二分贝值，所述第二分贝值等于所述环境噪声分贝值加第二增强分贝值。

其中，所述第一增强分贝值大于所述第二增强分贝值。

根据本发明的一个实施例，上述方法进一步包括：基于音量分贝对应表，查找所述第一分贝值或所述第二分贝值对应的音量值，并调节所述当前播放的音频数据的音量。

在电子装置的运行初期，获取所述电子装置对应的不同操作系统的音量值和分贝值的对应表，即音量分贝对应表。对于不开放音量分贝对应表的设备，对音量和分贝值对应关系进行试验，获取音量分贝对应表，将设备型号和音量分贝对应表录入云端服务器。电子装置开机时，获取设备型号，云端查询对应型号的音量分贝对应表并把查询结果缓存到本地数据表。

在电子装置播放声音时，获取周围环境分贝值S₂，将S₂与噪声标准值V_n进行比较，当S₂大于等于V_n时，对电子装置播放音量的分贝值进行增强，调整电子装置的播放音量分贝值为S＝S₂+T₁；当S₂小于V_n时，对电子装置播放音量的分贝值进行轻量增强或减弱，调整电子装置的播放音量分贝值为S＝S₂+T₂，当S₂+T₂小于设备原始的播放声音分贝值时，声音分贝值会减弱。可选地，根据S的值查找音量分贝对应表，获得对应的音量值V₃，并校准电子装置当前系统的输出音量为V₃。并且，在切换系统后，仍然基于音量分贝对应表，查询S在切换后的系统下S对应的音量值V₄，并且设置对应系统的输出音量值为V₄。调节后，使电子装置的播放音量分贝值始终大于周围环境噪声分贝值。

根据本发明的一个实施例，噪声标准值V_n为：居民区白天等效噪声值55分贝，夜间等效噪声值45分贝；工商混杂区白天等效噪声值60分贝，夜间等效噪声值55分贝。

T₁为周围环境噪声大于噪声标准值时的增强值，该增强值较大。

T₂为周围环境噪声小于噪声标准值时的增强值，该增强值较小。即

T₁>T₂

本发明的上述一个或多个实施例所提供的音频播放控制方法10，根据环境背景自适应调节系统音量，避免嘈杂环境下播放声音过小，如地铁和商场环境较为嘈杂，设备输出声音太小，用户无法获得有效内容。或安静环境下播放声音过大，如家庭里周围相对安静的环境下，设备声音输出较大时，可能会扰民或对用户听觉造成负担或冲击。

根据本发明的一个实施例，音频播放控制方法10进一步包括：

根据音量分贝对应表，调节切换后系统的音量值。

或者，根据切换前后系统的音量值与系统最大音量值的对应关系，调节切换后系统的音量值。

电子装置开机后，以当前系统的音量分贝值做音量输出，在电子装置进行系统切换时，获取当前的第一系统的第一音量值V₁，基于音量分贝对应表，查找对应的分贝值S₁，根据该分贝值，在音量分贝对应表中确定切换后的第二系统的第二音量值V₂，第二系统设置输出音量值为V₂。若设备暂不支持音量分贝对应表查找，则在系统切换时，获取当前的第一系统的第一音量值V₁，并计算：

P₁＝V₁/V_max1

在切换至第二系统后，设置第二系统的输出音量值为：

V₂＝P₁*V_max2

统一调节入口，当用户调节音量时，调节当前系统(例如第一系统)的音量值TV₁，根据对应表查找对应分贝S₂。其他系统下(例如第二系统、第三系统下)，根据分贝值S₂，在音量分贝对应表中查询对应系统的音量值TV₂，并在该系统里设置音量输出值为TV₂，使其所有系统的输出分贝值始终保证一致。如若系统不支持音量分贝对应表查找，则根据上述等比例计算的方式获取TV₂。

本发明的上述实施例所提供的音频播放控制方法10，实现了多系统音量的同步调节，避免了切换系统后，播放声音过大或过小，使系统音量变化平滑，播放声音总体保持一致，提升了用户体验。

根据本发明的一个实施例，如图2所示，本发明提供一种音频播放控制装置100，包括：存储模块110、传感器120和处理模块130。其中：

存储模块110配置成获取第一音频数据。存储模块110例如包括具有通信和存储功能的部件，在一些实施例中，存储模块110接收电子装置正在播放或即将播放的第一音频数据并存储。

传感器120配置成获取环境噪声分贝值。在一些实施例中，传感器120例如包括麦克风，设置在电子装置处，或所述电子装置的预设距离范围之内。传感器120采集所述电子装置周围的声音，并转换为电信号，该电信号过滤掉所述电子装置正在播放的音频数据对应的电信号之后，即为环境噪声信号，根据该环境噪声信号，计算可得环境噪声分贝值。

处理模块130与存储模块110、传感器120分别耦接，并配置成：

将所述第一音频数据进行声源分离，获得具有不同频率结构的多个第二音频数据，并根据所述环境噪声分贝值对多个所述第二音频数据进行音量调节，将音量调节后的第二音频数据进行音频混合。处理模块130将第一音频数据分离成具有不同频率结构的第二音频数据，例如：人声声源数据和环境声源数据。处理模块130根据电子装置处或电子装置附近的环境噪声分贝值调节具有不同频率结构的第二音频数据的音量比，例如在嘈杂的噪声环境下，将人声声源数据的音量调高，将环境声源数据的音量降低；而在较为安静的环境下，将人声声源数据与环境声源数据的音量调至均衡。

现有的具有音频/视频播放功能的电子装置，通常不能根据周围环境及输出音频/视频的情况自动调节音量，增强或降低输出音量来实现听觉上的声音均衡。

基于上述技术问题，本发明所提供的音频播放控制装置100中的处理模块130还配置成：根据所述环境噪声分贝值调节音频混合后的第二音频数据的播放音量。

本发明的上述实施例所提供的音频播放控制装置100，能够实现播放音频数据的声源分离，并根据环境噪声情况调节例如目标声源与环境声源发出的声音，提高了系统的自动调节能力。还可以根据周围环境的噪声情况(嘈杂或安静)自动调节电子装置输出音量的大小，减少了用户干预，提升了电子装置的智能化水平。

根据本发明的一个实施例，如图3所示，音频播放控制装置100中，处理模块130包括：

经训练的机器学习组件131，配置成从所述第一音频数据中分离出人声声源数据、鼓声声源数据、低音声源数据中的一种或多种。

经训练的机器学习组件131与存储模块110耦接，配置成读取所述第一音频数据并将所述第一音频数据进行分离。机器学习组件131预先通过大量的音频数据进行训练，获得模型参数，进而对于不同频率结构(不同声源发出的或不同音色)的声源数据具有一定的“认知”，能够从众多声源数据的混合中识别出某一种或多种声源数据。

根据本发明的一个实施例，机器学习组件131配置成：

首先，对正在播放或即将播放的第一音频数据进行采样，例如对于第一音频数据播放初期几秒钟的波形进行采样，让机器学习模型适应第一音频数据中的突出频率，该突出频率包括：人声频率、鼓声频率、低音(base)频率等。机器学习组件131为每一个声音元素(突出的频率)生成单独的波形。

第四步，对于多个所述第三音频数据进行波形整形，获得所述多个第二音频数据。对于不同声源对应的波形进行精细加工，去除毛刺，得到整形后的声源波形。可选地，机器学习组件131生成多个音频文件，对应存储多个所述第二音频数据。

根据本发明的一个实施例，音频播放控制装置100中，机器学习组件131配置成能够对输入音频数据进行分离，分离出至少包括人声声源数据、鼓声声源数据、低音声源数据的多个音频数据。可选地，在输入音频数据中，过滤掉已经分离出的人声声源数据、鼓声声源数据、低音声源数据后，剩余的音频数据作为其他音频数据，存储为一个音频文件。

根据本发明的一个实施例，机器学习组件131例如包括基于Demucs算法的机器学习模型。

根据本发明的一个实施例，音频播放控制装置100中，处理模块130进一步配置成：

接收传感器120输出的噪声检测信号，并根据所述噪声检测信号确定环境噪声分贝值。

根据所述环境噪声分贝值，将多个所述第二音频数据以预设音量比进行混合。

传感器120采集预设位置处的声音，在一些实施例中，传感器120采集电子装置处或电子装置附近的声音，并转换为电信号，该电信号即为噪声检测信号。处理模块130对于该噪声检测信号进行滤波处理，过滤掉所述电子装置当前正在播放的音频数据对应的电信号之后，再根据剩余的环境噪声信号计算环境分贝值(代表所述电子设备处的噪声情况)。处理模块130根据所述电子装置处的噪声情况，将多个所述第二音频数据以预设音量比进行混合。

当所述环境噪声分贝值小于等于第一阈值时，如果所述环境噪声分贝值大于等于第二阈值，将所述人声声源数据、所述鼓声声源数据、所述低音声源数据和所述其他音频数据以原音量比进行混合。

本发明的上述一个或多个实施例所提供的音频播放控制装置100，在实现播放音频数据声源分离的基础上，对不同声源的声音进行音量调节，使得在嘈杂环境下突出人声声源等包含实质性内容的声音，在安静环境下使各类声源均衡，给人以安定感，提升听觉体验。

根据本发明的一个实施例，如图4所示，音频播放控制装置100中，处理模块130进一步配置成：

其中，所述第一增强分贝值大于所述第二增强分贝值。

根据本发明上述实施例，处理模块130进一步配置成：

基于音量分贝对应表，查找所述第一分贝值或所述第二分贝值对应的音量值，并调节所述当前播放的音频数据的音量。

在电子装置运行初期，获取当前电子装置对应的不同操作系统的音量值和分贝值的对应表，即音量分贝对应表。对于不开放音量分贝对应表的设备，对音量和分贝值对应关系进行试验，获取音量分贝对应表，将设备型号和音量分贝对应表录入云端服务器。电子装置开机时，获取设备型号，云端查询对应型号的音量分贝对应表并把查询结果缓存到本地数据表。

T₁>T₂

本发明的上述一个或多个实施例所提供的音频播放控制装置100，根据环境背景自适应调节系统音量，避免嘈杂环境下播放声音过小，如地铁和商场环境较为嘈杂，设备输出声音太小，用户无法获得有效内容。或安静环境下播放声音过大，如家庭里周围相对安静的环境下，设备声音输出较大时，可能会扰民或对用户听觉造成负担或冲击。

在多系统融合的电子设备上，通常难以实现以统一的播放声音大小(设备处的播放声音分贝值)进行播放，往往是当前在哪个系统下，就使用哪个系统当前的音量值作为输出值，调节音量也是调整当前系统的音量值；切换系统后，则使用切换后的系统当前的音量值进行音量输出。造成了切换系统时播放声音忽大忽小，影响用户的听觉体验，在使用耳机等播放组件的情况下，还可能造成听力损失。

基于上述技术问题，本发明提供一种音频播放控制装置，该电子装置能够实现多系统的音量调节联动，统一调节入口，简化音量调节组件。

根据本发明的一个实施例，如图5所示，如上文的实施例所介绍的音频播放控制装置100中，处理模块130配置成：

实时读取当前系统的音量值。

当收到系统切换指令时，调节切换后系统的音量值，以使当前播放的音频数据的第一分贝值保持不变。

根据音量分贝对应表，调节切换后系统的音量值。

P₁＝V₁/V_max1

在切换至第二系统后，设置第二系统的输出音量值为：

V₂＝P₁*V_max2

本发明的上述一个或多个实施例所提供的音频播放控制装置，实现了多系统音量的同步调节，避免了切换系统后，播放声音过大或过小，使系统音量变化平滑，播放声音总体保持一致，提升了用户体验。

本领域技术人员容易理解，本发明的上述一个或多个实施例中，对于音频播放控制装置100中的处理模块130的控制顺序不做限制，可以同时进行分离声源-声源音量调节、根据环境噪声的音量调节及切换系统的音量调节，也可以顺序执行控制程序。这些变化的实施例都在本发明的保护范围之内。

根据本发明的一个实施例，如图6所示，本发明还提供一种音频播放控制装置200，包括存储模块210、传感器220和处理模块230。其中：

存储模块210与云端的机器学习组件耦接，配置成接收并存储基于不同频率结构分离出的多个第二音频数据。在一些实施例中，存储模块210接收电子装置正在播放或即将播放的第一音频数据，上传至云端的机器学习组件，该机器学习组件配置成基于不同的频率结构对第一音频数据进行分离，存储模块210下载并存储基于不同的频率结构分离出的多个第二音频数据。

传感器220配置成检测预设位置的环境噪声分贝值。一些实施例中，传感器120例如包括麦克风，设置在电子装置处(预设位置)，或所述电子装置的预设距离范围之内。传感器120采集所述电子装置周围的声音，并转换为电信号，该电信号过滤掉所述电子装置正在播放的音频数据对应的电信号之后，即为环境噪声信号，根据该环境噪声信号，计算可得所述预设位置的环境噪声分贝值。

处理模块230与存储模块210、220分别耦接，并配置成根据所述环境噪声分贝值将所述多个第二音频数据以预设的音量比进行混合。处理模块130根据预设位置(在一些实施例中，为电子装置处或电子装置附近)的环境噪声分贝值调节具有不同频率结构的第二音频数据的音量比，例如在嘈杂的噪声环境下，将人声声源数据的音量调高，将环境声源数据的音量降低；而在较为安静的环境下，将人声声源数据与环境声源数据的音量调至均衡。

根据本发明的一个实施例，如图7所示，本发明还提供一种电子装置300，包括如上文的一个或多个实施例所介绍的音频播放控制装置100，即存储模块110、处理模块130集成于电子装置300内，处理模块130在电子装置300上运行，并且，所述预设位置包括电子装置300所在的位置，即传感器120检测电子装置300所在位置的环境噪声分贝值。电子装置300还包括：播放模块310。其中：

播放模块310与存储模块110耦接，配置成播放混合后的所述多个第二音频数据。

本发明的上述实施例所提供的电子装置300，通过音频播放控制装置100对于播放音频数据进行实时处理，根据环境噪声情况自动调节音量，在嘈杂环境下突出目标声源，而在安静环境下均衡各种声源，提升了电子装置作为音视频播放设备的自动调节能力，带给用户更佳的听觉体验。

根据本发明的一个实施例，如图8所示，本发明还提供一种音频播放控制装置400，包括音频数据获取模块410、环境噪声获取模块420、声源分离模块430、第一音量调节模块440、音频混合模块450和第二音量调节模块460。其中：

音频数据获取模块410配置成获取第一音频数据。

环境噪声获取模块420配置成获取环境噪声分贝值。

声源分离模块430配置成对所述第一音频数据进行声源分离，获得具有不同频率结构的多个第二音频数据。

第一音量调节模块440配置成根据所述环境噪声分贝值对多个所述第二音频数据进行音量调节。

音频混合模块450配置成将音量调节后的第二音频数据进行音频混合。

第二音量调节模块460配置成根据所述环境噪声分贝值调节音频混合后的第二音频数据的播放音量。

本发明的上述实施例所提供的音频播放控制装置400中的具体限定，与上文一个或多个实施例所介绍的音频播放控制方法10中的具体限定相似，可以参照上文中关于音频播放控制方法10中的描述，在此不再赘述。

本发明的上述一个或多个实施例所提供的音频播放控制方法及音频播放控制装置，在电子装置播放声音时，首先对声音文件进行声源分类，把声音分类为例如目标声源和环境声源，再获取电子装置周围声音的嘈杂情况，通过嘈杂值，计算分类声源的增强或减弱值，并根据计算值来对目标声源及环境声源进行增强或减弱处理。通过分类声源增强或减弱声源效果，可对声音资源的低音进行提升，对高音进行均衡，同时根据环境对声源进行放大或减弱，提升用户听觉上的准确性、舒适性。

本发明还提供一种电子设备，包括：

处理器；以及

存储器，存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行如上述任一实施例所述的方法。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明仅用于帮助理解本申请的方法及其核心思想。同时，本领域技术人员依据本申请的思想，基于本申请的具体实施方式及应用范围上做出的改变或变形之处，都属于本申请保护的范围。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频播放控制方法，其特征在于，包括：

获取第一音频数据；

获取环境噪声分贝值；

将音量调节后的第二音频数据进行音频混合；

2.如权利要求1所述的方法，其中，所述第二音频数据包括：

3.如权利要求2所述的方法，其中，所述对所述第一音频数据进行声源分离，获得具有不同频率结构的多个第二音频数据进一步包括：

对所述第一音频数据进行采样；

分析采样结果的频率结构；

根据不同的频率结构分离出多个第三音频数据；

4.如权利要求2或3所述的方法，其中，所述根据所述环境噪声分贝值对多个所述第二音频数据进行音量调节包括：

5.如权利要求2或3所述的方法，其中，所述根据所述环境噪声分贝值对多个所述第二音频数据进行音量调节包括：

6.如权利要求1-3中任一项所述的方法，其中，所述根据所述环境噪声分贝值调节音频混合后的第二音频数据的播放音量包括：

7.如权利要求1-3中任一项所述的方法，进一步包括：

实时读取当前系统的音量值；

8.如权利要求7所述的方法，其中所述当收到系统切换指令时，调节切换后系统的音量值包括：

根据音量分贝对应表，调节切换后系统的音量值；或

9.一种音频播放控制装置，其特征在于，包括：

音频数据获取模块，配置成获取第一音频数据；

环境噪声获取模块，配置成获取环境噪声分贝值；

声源分离模块，配置成对所述第一音频数据进行声源分离，获得具有不同频率结构的多个第二音频数据；

10.一种电子设备，包括：

处理器；以及

存储器，存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-8中任一项所述的方法。