CN106790963B

CN106790963B - 音频信号的控制方法及装置

Info

Publication number: CN106790963B
Application number: CN201510823550.8A
Authority: CN
Inventors: 陈悦; 尚会波
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-11-24
Filing date: 2015-11-24
Publication date: 2021-04-16
Anticipated expiration: 2035-11-24
Also published as: CN106790963A

Abstract

本发明实施例提供了一种音频信号的控制方法及装置。一方面，本发明实施例通过在终端输出音频信号的过程中，获得终端所在环境中的音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个；从而，根据所述音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个，对所述终端输出的音频信号进行控制。因此，本发明实施例提供的技术方案根据获取的相关信息，对终端输出的音频信号进行自动的自适应控制，从而降低了对终端输出音频信号进行控制的操作成本，提高了控制效率。

Description

音频信号的控制方法及装置

【技术领域】

本发明涉及互联网应用技术领域，尤其涉及一种音频信号的控制方法及装置。

【背景技术】

随着互联网和通信技术在最近几年的迅速发展，用户的生活与终端密切相关，用户的空闲时间中的大部分时间都在使用终端中安装的各种各样的应用，如浏览视频、进行社交或者购物。

目前，存在一些可以输出音频信号的应用，如小说阅读、视频应用或者歌曲应用等，在使用这些应用获取所需要的音频信号时，如果需要调节音量、设置音色或者开启/关闭播放功能等，都需要用户手动进行操作。然而，现有技术中这种手动控制终端输出的音频信号的方式，操作过程比较繁琐，导致操作成本比较高，控制效率比较低。

【发明内容】

有鉴于此，本发明实施例提供了一种音频信号的控制方法及装置，可以实现降低了对终端输出音频信号进行控制的操作成本，提高了控制效率。

本发明实施例的一方面，提供一种音频信号的控制方法，包括：

在终端输出音频信号的过程中，获得终端所在环境中的音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个；

根据所述音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个，对所述终端输出的音频信号进行控制。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，获得终端所在环境中的音频信息，包括：

采集所述终端所在环境中的音频信号；

检测所述音频信号的信号强度，以作为所述终端所在环境中的音频信息。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，对所述终端输出的音频信号进行控制，包括：

若判断出所述音频信号的信号强度大于或者等于预设的第一阈值，调高所述终端输出的音频信号的音量；

若判断出所述音频信号的信号强度小于或者等于预设的第二阈值，减小所述终端输出的音频信号的音量；

其中，所述第一阈值大于或者等于所述第二阈值。

采集所述终端所在环境中的音频信号；

识别所述音频信号中是否包含所述用户的语音信号，以获得识别结果，将所述识别结果作为所述终端所在环境中的音频信息。

若所述识别结果为所述音频信号中包含所述用户的语音信号，且所述用户的语音信号的出现时长超过预设的时长阈值，在所述终端中关闭使所述终端输出音频信号的功能。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，根据使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个，对所述终端输出的音频信号进行控制，包括：

将所述用户的属性信息和所述用户的兴趣信息中至少一个、以及所述音频信号对应的信息类型，输入预设的音色分类模型，以获得所述音色分类模型输出的音色包；

根据所述音色包对所述终端输出的音频信号的音色进行调整。

本发明实施例的一方面，提供一种音频信号的控制装置，包括：

信息获取单元，用于在终端输出音频信号的过程中，获得终端所在环境中的音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个；

音频控制单元，用于根据所述音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个，对所述终端输出的音频信号进行控制。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述装置还包括：第一采集单元，用于采集所述终端所在环境中的音频信号；

所述信息获取单元，具体用于：检测所述音频信号的信号强度，以作为所述终端所在环境中的音频信息。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述音频控制单元，具体用于：

其中，所述第一阈值大于或者等于所述第二阈值。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述装置还包括：第二采集单元，用于采集所述终端所在环境中的音频信号；

所述信息获取单元，具体用于：识别所述音频信号中是否包含所述用户的语音信号，以获得识别结果，将所述识别结果作为所述终端所在环境中的音频信息。

由以上技术方案可以看出，本发明实施例具有以下有益效果：

本发明实施例提供的技术方案中，根据获取的终端所在环境中的音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个，对终端输出的音频信号进行自动的自适应控制，避免了现有技术中用户手动进行操作，从而降低了对终端输出音频信号进行控制的操作成本，提高了控制效率。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例所提供的音频信号的控制方法的流程示意图；

图2是本发明实施例所提供的对终端输出的音频信号进行控制的第一示例图；

图3是本发明实施例所提供的对终端输出的音频信号进行控制的第二示例图；

图4是本发明实施例所提供的音频信号的控制装置的功能方块图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例一

本发明实施例给出一种音频信号的控制方法，请参考图1，其为本发明实施例所提供的音频信号的控制方法的流程示意图，如图所示，该方法包括以下步骤：

S101，在终端输出音频信号的过程中，获得终端所在环境中的音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个。

S102，根据所述音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个，对所述终端输出的音频信号进行控制。

在一个具体的实现过程中，终端所在环境中的音频信息可以包括：

终端所在环境中的音频信号的信号强度；或者，

终端所在环境中的音频信号中是否包含用户的语音信息。

在一个具体的实现过程中，对终端输出的音频信号进行控制可以包括但不限于：

对终端输出的音频信号的音量进行控制；或者，

对终端中使所述终端输出音频信号的功能进行控制；或者，

对终端输出的音频信号的音色进行控制。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。

需要说明的是，S101～S102的执行主体可以为音频信号的控制装置，该装置可以位于本地终端的应用，或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，本发明实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的应用程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本发明实施例对此不进行限定。

实施例二

举例说明，本实施例中，获得终端所在环境中的音频信息的方法可以包括但不限于：

首先，采集所述终端所在环境中的音频信号。然后，检测所述音频信号的信号强度，以作为所述终端所在环境中的音频信息。

在一个具体的实现过程中，请参考图2，其为本发明实施例所提供的对终端输出的音频信号进行控制的第一示例图，如图2所示，在终端输出音频信号的过程中，终端可以采集自身所在环境中的音频信号。然后对采集的音频信号进行处理。这里，终端可以实时地采集终端所在环境中的音频信号，或者，也可以根据预设的时间间隔，周期地采集终端所在环境中的音频信号，本发明实施例对此不进行特别限定。

例如，所述终端可以利用位于终端上的麦克风采集所在环境中的音频信号，或者，也可以利用与终端连接的耳机上的麦克风采集所在环境中的音频信号。优选的，与终端连接的耳机可以包括但不限于有线耳机或者蓝牙耳机。

在一个具体的实现过程中，如图2所示，终端对采集到的音频信号进行处理，以获得音频信号的信号强度。

例如，可以利用如下公式获得音频信号的信号强度：

其中，E(n)表示第n帧的音频信号的信号强度，AE表示音频信号的信号强度，S_k(n)表示采集的音频信号中第k帧的快速傅里叶变换(Fast Fourier Transformation，FFT)，N_P表示采集的音频信号的长度，N表示采集的音频信号的帧长度。

相应的，举例说明，本实施例中，根据终端所在环境中的音频信息，对所述终端输出的音频信号进行控制的方法可以包括但不限于：

如图2所示，终端判断获得的音频信号的信号强度与预设的第一阈值的大小，和/或，判断所述音频信号的信号强度与预设的第二阈值的大小。其中，所述第一阈值大于或者等于所述第二阈值。

若判断出所述音频信号的信号强度大于或者等于预设的第一阈值，表示用户所在环境比较嘈杂，为了避免环境中的噪音给用户带来干扰，能够让用户听见终端输出的音频信号，则调高所述终端输出的音频信号的音量。或者，若判断出所述音频信号的信号强度小于或者等于预设的第二阈值，表示用户所在环境比较安静，则减小所述终端输出的音频信号的音量。

可以理解的是，用户可以在空闲时间利用手机中的客户端来听小说，如上下班坐车时，此时手机向用户输出小说的音频信号，由于用户在上下班路途中周围环境会不断变化。如果用户走在小区里，周围环境比较安静，对用户获取手机输出的小说的音频信号的干扰比较小。如果用户走在马路上，周围环境比较嘈杂，噪音比较大，对用户获取手机输出的小说的音频信号的干扰比较大，用户容易听不清楚小说内容。因此，如果音量不变将很难满足上述场景的变化，本实施例中为了解决这一问题，根据对手机周围环境中的音频信号的信号强度，动态调整手机输出音频信号的音量大小，可以避免用户的手动控制，降低了操作成本，提高了控制效率，给用户带来良好体验。

实施例三

举例说明，本实施例中，获得终端所在环境中的音频信息的方法可以包括但不限于：如图2所示，首先，采集所述终端所在环境中的音频信号。然后，识别所述音频信号中是否包含所述用户的语音信号，以获得识别结果，将所述识别结果作为所述终端所在环境中的音频信息。

需要说明的是，采集终端所在环境中的音频信号的实现方式可以参见上面实施例二中的描述，这里不再赘述。

举例说明，如图2所示，终端中的处理模块可以对视频信号进行声纹识别，以识别所述音频信号中是否包含所述用户的语音信号。对视频信号进行声纹识别的方法可以包括但不限于：

预先录制所述用户的语音信号，以作为样本信号，然后从样本信号中提取声纹特征信息，并根据声纹特征信息构建声纹识别模型。

在采集到音频信号之后，提取该音频信号的声纹特征信息，然后利用声纹识别模型对所述音频信号的声纹特征信息进行识别，若根据所述音频信号的声纹特征信息和所述用户的语音信号的声纹特征信息，判断出所述音频信号与所述用户的语音信号的匹配度高于预设的识别阈值，则确定所述音频信号包含所述用户的语音信号；反之，若判断出所述音频信号与所述用户的语音信号的匹配度小于或者等于预设的识别阈值，则确定所述音频信号不包含所述用户的语音信号。

相应的，举例说明，对所述终端输出的音频信号进行控制的方法可以包括但不限于：

如图2所示，若对音频信号进行声纹识别后，获得的识别结果为所述音频信号中包含所述用户的语音信号，进一步判断所述用户的语音信号的出现时长与预设时长的大小。若所述用户的语音信号的出现时长超过预设的时长阈值，认为用户当前正在与人交谈，因此所在环境中的音频信号中包含了用户的语音信息，因此为了避免终端输出的语音信号对用户的干扰，则在所述终端中关闭使所述终端输出音频信号的功能。

其中，在终端中关闭使终端输出音频信号的功能指的是在终端安装的应用中关闭使终端输出音频信号的功能，如播放器类应用、视频类应用等。

或者，若识别结果为所述音频信号中没有包含用户的语音信号，认为用户没有说话，则不对所述终端输出的音频信号进行任何控制，所述终端可以保持目前输出的音频信号不变。

或者，若识别结果为所述音频信号中包含所述用户的语音信号，但是用户的语音信号的出现时长没有超过预设的时长阈值，认为用户不是一直在说话，则不对所述终端输出的音频信号进行任何控制，所述终端可以保持目前输出的音频信号不变。

可以理解的是，在用户利用手机收听小说的过程中，可能会遇到突发事件，比如用户碰到朋友后进行交谈或者遇到事情需要及时处理等，为了避免用户忙乱的手动关闭小说中的朗读功能，或者避免用户在收听小说的干扰下处理事情，本实施例中，在持续检测到环境中有用户的语音信号时，自动关闭小说中的朗读功能，避免用户的手动操作，减少操作成本，提高控制效率，也可以避免给用户带来的干扰。

实施例四

举例说明，本实施例中，根据使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个，对所述终端输出的音频信号进行控制的方法可以包括：

请参考图3，其为本发明实施例所提供的对终端输出的音频信号进行控制的第二示例图，如图3所示，首先，将所述用户的属性信息和所述用户的兴趣信息中至少一个以及所述音频信号对应的信息类型，输入预设的音色分类模型，以获得所述音色分类模型输出的音色包；然后，根据所述音色包对所述终端输出的音频信号的音色进行调整，以使所述终端输出调整后的音频信号。

在一个具体的实现过程中，可以获得所述音频信号的对应的类型信息，如用户正在收听的小说的类型，或者，又如手机正在播放的音乐的类型等。和/或，还可以获得用户的属性信息，如用户的性别、所在地理位置信息和用户所使用的方言等。和/或，还可以获得用户的兴趣信息，如用户使用客户端的时间或者用户经常设置的音色等。

在一个具体的实现过程中，预先将各种音频信号对应的信息类型、各种用户的属性信息和各种用户的兴趣信息分别进行量化处理，然后对量化处理后的各信息进行拟合处理，根据拟合处理后的信息和预设的音色包，构建所述音色分类模型。

如图3所示，在获得所述用户的属性信息和所述用户的兴趣信息中至少一个以及音频信号对应的信息类型之后，将获得的信息输入预设的音色分类模型，以使得音色分类模型根据输入的信息，进行音色分类处理，输出与输入信息相匹配的音色包。

可以理解的是，音色是表征音频信号个性化的最重要的特征。音色可以包括但不限于：共振峰的位置、共振峰的带宽、频谱倾斜率和基音频率中至少一个。相应的，本实施例中，音色包可以包括共振峰的位置、共振峰的带宽、频谱倾斜率和基音频率中至少一个的数值。

在一个具体的实现过程中，可以根据音色包中的信息，通过相应的修改终端输出地音频信号的共振峰的位置、共振峰的带宽、频谱倾斜率、基音频率中至少一个，来实现对终端输出的音频信号的音色的调整。

可以理解的是，手机中的小说的朗读功能中往往会提供多种个性化的音色包，如男声音色、女声音色、郭德纲音色、林志玲音色等，如果用户在众多的音色包中筛选所需要的音色包将十分麻烦和繁琐，为了解决这一问题，本实施例中，根据音频信号对应的信息类型、用户的属性信息和用户的兴趣信息中至少一个，进行音色分类识别，从而获得匹配的音色包，进而利用音色包对音频信号的音色进行调整，从而控制终端输出满足用户需求的音频信号，满足了用户的个性化需求，也减少操作成本，提高控制效率。

本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

请参考图4，其为本发明实施例所提供的音频信号的控制装置的功能方块图。如图所示，该装置包括：

信息获取单元41，用于在终端输出音频信号的过程中，获得终端所在环境中的音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个；

音频控制单元42，用于根据所述音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个，对所述终端输出的音频信号进行控制。

在一个具体的实现过程中，所述装置还可以包括：第一采集单元43，用于采集所述终端所在环境中的音频信号；

所述信息获取单元41，具体用于：检测所述音频信号的信号强度，以作为所述终端所在环境中的音频信息。

在一个具体的实现过程中，所述音频控制单元42，具体用于：

其中，所述第一阈值大于或者等于所述第二阈值。

在一个具体的实现过程中，所述装置还包括：第二采集单元44，用于采集所述终端所在环境中的音频信号；

所述信息获取单元41，具体用于：识别所述音频信号中是否包含所述用户的语音信号，以获得识别结果，将所述识别结果作为所述终端所在环境中的音频信息。

由于本实施例中的各单元能够执行图1所示的方法，本实施例未详细描述的部分，可参考对图1的相关说明。

本发明实施例的技术方案具有以下有益效果：

本发明实施例中，通过在终端输出音频信号的过程中，获得终端所在环境中的音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个；从而，根据所述音频信息、使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个，对所述终端输出的音频信号进行控制。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种音频信号的控制方法，其特征在于，所述方法包括：

在终端输出音频信号的过程中，获得使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个；

根据使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个，对所述终端输出的音频信号进行控制，包括：将所述用户的属性信息和所述用户的兴趣信息中至少一个、以及所述音频信号对应的信息类型，输入预设的音色分类模型，以获得所述音色分类模型输出的音色包；根据所述音色包对所述终端输出的音频信号的音色进行调整；

其中所述音色分类模型是预先将各种用户的属性信息、各种用户的兴趣信息和各种音频信号对应的信息类型进行量化处理，对量化处理后的各信息进行拟合处理后，根据拟合处理后的信息以及预设的音色包预先构建而成。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在终端输出音频信号的过程中，获得终端所在环境中的音频信息；

根据所述音频信息，对所述终端输出的音频信号进行控制。

3.根据权利要求2所述的方法，其特征在于，获得终端所在环境中的音频信息，包括：

采集所述终端所在环境中的音频信号；

4.根据权利要求3所述的方法，其特征在于，对所述终端输出的音频信号进行控制，包括：

其中，所述第一阈值大于或者等于所述第二阈值。

5.根据权利要求2所述的方法，其特征在于，获得终端所在环境中的音频信息，包括：

采集所述终端所在环境中的音频信号；

6.根据权利要求5所述的方法，其特征在于，对所述终端输出的音频信号进行控制，包括：

7.一种音频信号的控制装置，其特征在于，所述装置包括：

信息获取单元，用于在终端输出音频信号的过程中，获得使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个；

音频控制单元，用于根据使用所述终端的用户的属性信息和所述用户的兴趣信息中至少一个，对所述终端输出的音频信号进行控制，所述音频控制单元具体用于：将所述用户的属性信息和所述用户的兴趣信息中至少一个、以及所述音频信号对应的信息类型，输入预设的音色分类模型，以获得所述音色分类模型输出的音色包；根据所述音色包对所述终端输出的音频信号的音色进行调整；

8.根据权利要求7所述的装置，其特征在于，

所述信息获取单元，还用于在终端输出音频信号的过程中，获得终端所在环境中的音频信息；

所述音频控制单元，还用于根据所述音频信息，对所述终端输出的音频信号进行控制。

9.根据权利要求8所述的装置，其特征在于，

所述装置还包括：第一采集单元，用于采集所述终端所在环境中的音频信号；

10.根据权利要求9所述的装置，其特征在于，所述音频控制单元，具体用于：

其中，所述第一阈值大于或者等于所述第二阈值。

11.根据权利要求8所述的装置，其特征在于，

所述装置还包括：第二采集单元，用于采集所述终端所在环境中的音频信号；

12.根据权利要求11所述的装置，其特征在于，所述音频控制单元，具体用于：