CN108519871B

CN108519871B - 音频信号处理方法及相关产品

Info

Publication number: CN108519871B
Application number: CN201810289086.2A
Authority: CN
Inventors: 杨宗业
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2020-07-21
Anticipated expiration: 2038-03-30
Also published as: US20190303091A1; US10466961B2; CN108519871A; EP3547659B1; EP3547659A1; WO2019184623A1

Abstract

本申请涉及一种音频信号处理方法和装置、计算机可读存储介质、电子设备、耳机。该方法包括：当接收用户在耳机上的输入操作时，根据所述耳机当前播放的音频信号及所述输入操作产生的振动信号确定所述耳机在用户耳道内当前位置的声学回声脉冲响应；根据声学回声脉冲响应识别输入操作对应的指示指令；根据指示指令对预设应用程序执行相应的操作，从而实现了对预设应用程序的控制，方便快捷、可以大大简化用户操作，提高了使用效率，提高了用户体验度。

Description

音频信号处理方法及相关产品

技术领域

本申请涉及音频技术领域，特别是涉及一种音频信号处理方法和装置、计算机可读存储介质、电子设备、耳机。

背景技术

目前，用户使用耳机听音乐、接听电话时会涉及一些控制操作，比如播放、暂停、调节音量、歌曲切换、通话切换等，可以通过在终端中预先下载的音乐应用程序的相关页面中进行操作来完成，也可以通过对耳机上的预置控制按键进行操作来完成。

但是，通过音乐应用程序的相关页面中进行操作时，需要用户在相关页面进行手动操作，操作繁琐；而通过对耳机上的预置控制按键进行操作时，需要去摸索找到设置于耳机上某个位置的线控按键或触摸按键，然后进行相应的操作，容易误触发控制操作，操作效率低，给用户带来了不便。

发明内容

本申请实施例提供一种音频信号处理方法和装置、计算机可读存储介质、电子设备、耳机，可以简化用户操作，提高使用效率，提高用户体验度。

一种音频信号处理方法，包括：

当接收用户在耳机上的输入操作时，根据所述耳机当前播放的音频信号及所述输入操作产生的振动信号，确定所述耳机在用户耳道内当前位置的声学回声脉冲响应；

根据所述声学回声脉冲响应识别所述输入操作对应的指示指令；

根据所述指示指令对预设应用程序执行相应的操作，所述预设应用程序为当前所述耳机正在播放的音频信号对应的应用程序。

一种音频信号处理装置，所述装置包括：

确定模块，用于当接收用户在耳机上的输入操作时，根据所述耳机当前播放的音频信号及所述输入操作产生的振动信号，确定所述耳机在用户耳道内当前位置的声学回声脉冲响应；

识别模块，用于根据所述声学回声脉冲响应识别所述输入操作对应的指示指令；

处理模块，用于根据所述指示指令对预设应用程序执行相应的操作，所述预设应用程序为当前所述耳机正在播放的音频信号对应的应用程序。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请各个实施例中的音频信号处理方法的步骤。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请各个实施例中的音频信号处理方法的步骤。

一种耳机，包括电声换能器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器与所述电声换能器及所述存储器电连接，所述处理器执行所述计算机程序时实现本申请各个实施例中的音频信号处理方法的步骤。

本申请实施例提供的音频信号处理方法和装置、计算机可读存储介质、电子设备、耳机，当接收用户在耳机上的输入操作时，根据当前播放的音频信号确定与所述耳机当前位置相关联的声学回声脉冲响应；根据所述声学回声脉冲响应识别所述输入操作对应的指示指令，能够提高对输入操作的辨识度；同时根据所述指示指令对预设应用程序执行相应的操作，从而实现了对预设应用程序的控制，方便快捷、可以大大简化用户操作，提高了使用效率，提高了用户体验度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中音频信号处理方法的应用环境示意图；

图2为一个实施例中电子设备的内部结构示意图；

图3为一个实施例中音频信号处理方法的流程图；

图4为一个实施例中接收用户在所述耳机上的输入操作的流程图；

图5为一个实施例中根据当前播放的音频信号确定与所述耳机当前位置相关联的声学回声脉冲响应的流程图；

图6为一个实施例中根据所述声学回声脉冲响应识别所述输入操作对应的指示指令的流程图；

图7为一个实施例中根据所述指示指令对预设应用程序执行相应的操作的流程图；

图8为一个实施例中音频信号处理装置的结构框图；

图9为与本申请实施例提供的电子设备相关的手机的部分结构的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本发明的范围的情况下，可以将第一获取单元称为第二获取单元，且类似地，可将第二获取单元称为第一获取单元。第一获取单元和第二获取单元两者都是获取单元，但其不是同一获取单元。

图1为一个实施例中音频信号处理方法的应用环境示意图。如图1所示，该应用环境包括电子设备110和与该电子设备110进行通信的耳机120。

其中，耳机120的类型可以为入耳式有线/无线耳机、耳塞式有线/无线耳机等。电子设备与耳机可以通过有线或无线的方式进行通信，实现数据的传输。其中，耳机120的听筒/扬声器位于用户的耳朵内部结构(耳道)中。

图2为一个实施例中电子设备的内部结构示意图。该电子设备110包括通过系统总线连接的处理器、存储器和显示屏。其中，该处理器用于提供计算和控制能力，支撑整个电子设备110的运行。存储器用于存储数据、程序、和/或指令代码等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于电子设备110的音频信号处理方法。存储器可包括磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)等非易失性存储介质，或随机存储记忆体(Random-Access-Memory，RAM)等。例如，在一个实施例中，存储器包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统、数据库和计算机程序。该数据库中存储有用于实现以上各个实施例所提供的一种音频信号处理方法相关的数据。该计算机程序可被处理器所执行，以用于实现本申请各个实施例所提供的一种音频信号处理方法。内存储器为非易失性存储介质中的操作系统、数据库和计算机程序提供高速缓存的运行环境。显示屏可以是触摸屏，比如为电容屏或电子屏，用于显示电子设备110的界面信息，显示屏包括亮屏状态和灭屏状态。该电子设备110可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备110的限定，具体的电子设备110可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图3为一个实施例中音频信号处理方法的流程图。本实施例中的音频信号处理方法，以运行于图1中的电子设备或耳机上为例进行描述。如图3所示，音频信号处理方法包括步骤302至步骤306。

步骤302：当接收用户在耳机上的输入操作时，根据所述耳机当前播放的音频信号及所述输入操作产生的振动信号，确定所述耳机在用户耳道内当前位置的声学回声脉冲响应。

用户使用耳机进行接听电话或听音乐时，用户可以对耳机外壳的任意位置执行敲击、按压等方式的输入操作。其中，耳机的听筒位于用户的耳道中。当耳机接收到该输入操作时，该输入操作会产生相应的振动信号，该振动信号可以理解为因该输入操作引起而由耳机听筒所采集的声音信号。可以根据耳机中当前播放的音频信号及输入操作产生的振动信号来获取与耳机当前位置相关联的声学回声脉冲响应。其中，声学回声脉冲响应可以理解为耳机当前所在用户耳道的空间特征，也即，可以用不同的声学回声脉冲响应来表征耳机位于用户耳道的不同位置。

当用户在耳机上执行输入操作的动作时，会使耳机在用户耳道内的位置发生变化，可以根据当前播放的音频信号及输入操作产生的振动信号经耳道的反射和振动，获取用于表征耳机当前所在耳道的空间特征的声学回声脉冲响应。

可以理解的是，音频信号可以为当前正在播放的多媒体文件，也可以为通话过程中的用户本人或联系人的语音信号，还可以为人类听力的正常范围之外的音频信号(高于20KHz的音频信号)，即使耳机位于用户的耳朵内，用户也听不到。

步骤304：根据所述声学回声脉冲响应识别所述输入操作对应的指示指令。

根据预先存储的声学回声脉冲响应与耳机所在用户耳道位置的映射关系，可以获取当前耳机所在用户耳道的位置信息。根据该位置信息以及该声学回声脉冲响应的发生频率等信息，就可以识别出该输入操作对应的指示指令。其中，该指示指令用于指示与耳机进行交互的电子设备对当前正在播放的音频信息进行相应的控制操作。

步骤306：根据所述指示指令对预设应用程序执行相应的操作，所述预设应用程序为当前所述耳机正在播放的音频信号对应的应用程序。

根据该获取的指示指令对预设应用程序执行相应的操作，其中，该预设应用程序为当前处理耳机正在播放的音频信号对应的应用程序。其中，该应用程序可以为音乐播放器类，例如酷狗音乐、QQ音乐、酷我音乐、网易云音乐、百度音乐、虾米音乐等；该应用程序可以为视频播放器类，例如爱奇艺、腾讯视频、暴风音影等，该应用程序还可以为收音机播放器类，例如龙卷风FM、蜻蜓FM和荔枝FM、喜马拉雅听书等等；应用程序还可以为通话类，例如，Skype等。

根据当前耳机正在播放的音频信号，对处于该音频信号的预设应用程序执行相应的操作，该操作可以为播放、暂停、调节音量、切换、搜索、收藏、下载或共享正在播放的音频信号；还可以为关闭所述预设应用程序；还可以为发起电话呼叫，结束电话呼叫、录制等。

上述音频信号处理方法，当接收用户在耳机上的输入操作时，根据当前播放的音频信号确定与所述耳机当前位置相关联的声学回声脉冲响应；根据所述声学回声脉冲响应识别所述输入操作对应的指示指令，能够提高对输入操作的辨识度；同时根据所述指示指令对预设应用程序执行相应的操作，从而实现了对预设应用程序的控制，方便快捷、可以大大简化用户操作，提高了使用效率，提高了用户体验度。

如图4所示，在一个实施例中，所述接收用户在所述耳机上的输入操作，包括：

步骤402：获取所述振动信号的特征信息。

输入操作可以为用户在耳机壳体上任意位置进行的敲击、按压等操作。用于播放音频信号的电声换能器可以获取该敲击或按压等而产生的声音，并将电声换能器获取该敲击或按压等而产生的声音信号作为振动信号。

由于敲击或按压的时间比较短暂，且通过耳机的固体传播，因此，耳机收到用户的敲击或按压产生的振动信号与收到其它作用力产生的振动信号，或耳机传递的外部振源产生的振动信号不同。

由于耳机内置有电声换能器，可以通过电声换能器将该振动信号转换为模拟电信号，再将模拟电信号转换为数字信号，进而获取该数字信号特征信息。其中，数字信号的特征信息包括振动频率、振动幅值，当然，还可以包括其他特征信息。

步骤404：根据所述特征信息判断所述振动信号是否为用户执行的所述输入操作。

根据数字信号的特征信息可以判断该振动信号是否为用户执行的输入操作。具体，判断获取的数字信号的特征信息是否均满足预设条件，该预设条件可以预设振动频率、预设振幅幅值。当获取的特征信息均符合该预设条件时，则可以认为该振动信号为用户执行所述输入操作而产生的。

当振动信号为用户执行输入操作而产生时，则执行步骤406：根据所述音频信号和振动信号确定所述耳机在用户耳道内当前位置的声学回声脉冲响应。

本实施例中的音频信号处理方法，可以避免因任一输入操作而导致的误触发操作，可以准确的触发获取当前声学回声脉冲响应的动作。

可选的，耳机上的振动信号还可以通过耳机内置的三轴惯性传感器来获取。其中，该振动信号可以理解为耳机因敲击或按压而发生移动的姿态信息。当振动信号为耳机的姿态信息时，该振动信号的特征信息可以理解为耳机的三轴加速度信息。当获取的三轴加速度信息满足预设的三轴加速度条件时，则可以认为为用户执行所述输入操作而产生的。

如图5所示，在一个实施例中，进一步的，根据当前播放的音频信号确定与所述耳机当前位置相关联的声学回声脉冲响应，包括：

步骤502：获取所述耳机当前播放的音频信号和所述振动信号。

获取耳机当前播放的音频信号，该音频信号可以为预设应用程序播放的多媒体文件而发出的音乐、语音信号，或用户听力范围以外的声音信号，该音频信号还可以为通过过程中用户本人或联系人的语音信号等。

步骤504：录制所述音频信号及所述振动信号经耳道反射和振动而形成的声学回声信号。

在一个实施例中，耳机包括电声换能器，电声转换器可以作为扬声器，将音频信号对应的电信号转换成用户可以听到的声波信号。同时，电声换能器对用户耳道(耳朵内部结构)中的声波非常敏感，能够引起扬声器纸盆的振动，带动与纸盆相连的线圈在永久磁体的磁场中作切割磁力线的运动，从而产生随着声波的变化而变化的电流(产生电流的现象在物理学上称为电磁感应现象)，同时，在线圈两端将输出音频的电动势。因此，电声转换器还可以录制音频信号及输入操作生成的振动信号经耳道的反射和振动后而产生的声学回声信号。也即，电声换能器也可以作为麦克风来使用。

电声换能器，尽管其类型、功能或工作状态不同，它们都包括两个基本组成部分，即电系统和机械振动系统，在电声换能器内部，电系统和机械振动系统之间通过某种物理效应相互联系，以完成能量的转换。

基于播放所述音频信号的电声换能器录制所述音频信号及所述振动信号经耳道的反射和振动而形成的声学回声信号，不需要通过在耳机内额外设置麦克风来采集声学回声信号，节约了成本，简化了耳机的内部结构。

可选的，还可以通过设置在耳机中的麦克风来采集所述音频信号及所述振动信号经耳道的反射和振动而形成的声学回声信号。其中，当耳机戴入用户的耳朵中时，其麦克风设置在耳机与用户耳道相接触的一侧，也即，麦克风设置在设置扬声器通孔的耳机壳体上。

步骤506：根据所述声学回声信号确定所述耳机在用户耳道内当前位置的声学回声脉冲响应。

其中，耳机扬声器播放的音频信号为s(t)，振动信号为z(t)，麦克风采集到的耳道中的声学回声信号为r(t)，与耳机当前位置相关联的回声脉冲响应用w(t)来表示，因此可以得到如下表达式：

r(t)＝[s(t)+z(t)]*w(t) (1)

式中，w(t)是一个能够反映耳机和用户耳朵耦合的参量，可以用来表征耳机被放置在用户耳朵内的空间的声学特征。公式(1)中，音频信号为s(t)振动信号为z(t)以及声学回声信号为r(t)可以通过耳机或电子设备设置的音频电路监测获得，进而可以获取与耳机当前位置相关联的回声脉冲响应w(t)。其中，声学回声脉冲响应w(t)可以理解为耳机当前所在用户耳道的空间特征，也即，可以用不同的声学回声脉冲响应w(t)来表征耳机位于用户耳朵内部的不同位置。相应的，还可以用声学回声脉冲响应w(t)来表征每个用户的的耳纹特征。

进一步的，上述公式(1)中还可以增加一项噪声因子e(t)，其中噪声因子e(t)包括环境噪声和电路噪声；环境噪声为在没有播放音频信号s(t)时，录音声学回声信号的过程中产生的环境噪声，该环境噪声可以有额外的麦克风来采集；电路噪声为耳机内置电路中而引起的噪声，是耳机的固有属性。增加噪声因子e(t)为已知参数，考虑噪声因子e(t)后，其公式(1)可以修订为：

r(t)＝[s(t)+z(t)]*w(t)+e(t)(2)

公式(2)中，音频信号为s(t)以及声学回声信号为r(t)、振动信号为z(t)以及新增加的噪声因子e(t)均为已知参数，进而可以获取与耳机当前位置相关联的回声脉冲响应w(t)。

如图6所示，在一个实施例中，根据所述声学回声脉冲响应识别所述输入操作对应的指示指令，包括：

步骤602：在预设时间内，获取所述声学回声脉冲响应的响应参数，所述响应参数包括响应位置和响应次数。

在预设时间内，获取所述声学回声脉冲响应的响应参数，其中所述相应参数包括响应位置和响应次数。其中响应位置可以理解为在预设时间内，每个声学回声脉冲响应对应的当前耳机所在用户耳道中的位置信息；响应次数可以理解为，在预设时间内声学回声相应脉冲的发生的总次数，也可以理解为，在预设时间内耳机位于用户耳道中同一位置的次数。记录响应位置、响应次数的同时，还可以考虑时序，也即，在预设时间内，按照时间先后顺序记录声学回声脉冲响应的响应参数。

可选的，该响应参数还可以包括响应时长，也即，若用户敲击或按压耳机后，没有立刻远离耳机，而是持续与耳机解除，其可以获取响应时长。该响应时长可以理解为用户一次敲击或按压耳机所持续的时长。

需要说明的是响应参数为响应位置、响应次数的组合参数，其中还需要考虑响应时序。若该响应参数中还包括响应时长，则该响应参数为响应位置、响应次数、响应时长以及响应时序的组合参数。

步骤604：根据所述响应参数识别所述输入操作对应的指示指令。

根据响应参数识别所述输入操作对应的指示指令。预设时间内，一种响应参数对应一种指示指令。例如，若响应参数为耳机位于第一位置，且在第一位置的响应次数为1次，则对应的指示指令为暂停当前播放；若响应参数为耳机位于第二位置，且在第二位置的响应次数为1次，则对应的指示指令为恢复当前暂停的播放；若响应参数为耳机位于第一位置，且在第一位置的响应次数为2次，则对应的指示指令为调大音量；若响应参数为耳机位于第二位置，且在第二位置的响应次数为2次，则对应的指示指令为调小音量；若响应参数为耳机位于第一位置，且在第一位置的响应次数为3次，则对应的指示指令为切换下一首歌曲；若响应参数为耳机位于第二位置，且在第二位置的响应次数为3次，则对应的指示指令为关闭当前播放多媒体文件的预设应用程序；若响应参数包括2次响应次数，其第一次对应的响应位置为第一位置、第二次对应的响应位置为第二位置，则对应的指示指令为收藏当前播放的多媒体文件；若响应参数包括2次响应次数，其第一次对应的响应位置为第二位置、第二次对应的响应位置为第一位置，则对应的指示指令为下载当前播放的多媒体文件；若响应参数包括3次响应次数，其第一次对应的响应位置为第一位置、第二次对应的响应位置为第二位置，第三次对应的响应位置为第三位置，则对应的相应指令为搜索用户喜爱的歌曲，其中，用户喜欢的歌曲为用户历史播放频率最高的前十位歌曲；若响应参数包括3次响应次数，其第一次对应的响应位置为第三位置、第二次对应的响应位置为第二位置，第三次对应的响应位置为第一位置，则对应的相应指令为共享正在播放的多媒体文件，其中，共享可以理解为将当前播放的多媒体文件共享给预设的联系人或第三方软件等。当然，还可以根据用户的使用习惯，设置响应参数与指示指令之间的对应关系，并不限于上述举例说明，在此，不再一一列举说明。

在一个实施例中，步骤604：根据所述响应参数识别所述输入操作对应的指示指令前，还包括：

步骤6031：构建用于存储多个预设声学回声脉冲响应的预设数据库。

由于声学回声响应可以表征耳机当前所在的空间的特征，基于该声学回声响应可以生成声学签名。在执行该音频信号处理方法之前，还可以接收用户输入以注册登记。具体的，电子设备可以呈现提示用户注册的用户界面，并且提供用户所需的执行步骤的逐步指导，例如将耳机放置用户耳道中、调整耳机在耳道电子设备位置、确认听到一个清晰的音频信号等等。在注册登记的过程中，可以该用户的一组(左耳或右耳)或两组(左耳和右耳)多个(5-10个)声学签名存储在预设数据库中。不同的声学签名对应于耳机当前所在的空间的特征，也即，耳机在耳道中的不同位置。当然，该预设数据库中还可以存储多个用户的一组多个或两组多个声学签名。

步骤6032：判断所述声学回声脉冲响应是否存储在所述预设数据库中。

根据获取的声学回声脉冲响应形成相应的声学签名。将获取的声学签名与预设数据库中存储的多个声学签名相匹配，若能够与预设数据库中的任意声学签名相匹配，则认为该获取的声学回声脉冲响应存储在预设数据库中。

步骤604：当所述声学回声脉冲响应存储在所述预设数据库中时，根据所述响应参数识别所述输入操作对应的指示指令。

当该声学回声脉冲响应存储在预设数据库中时，根据声学回声脉冲响应获取的响应参数识别该输入操作对应的指示指令。

如图7所示，在一个实施例中，所述根据所述指示指令对预设应用程序执行相应的操作，包括：

步骤702：获取所述预设应用程序的应用类型。

预设应用程序为当前处理耳机正在播放的音频信号对应的应用程序。其中，该应用程序可以为音乐播放器类，例如酷狗音乐、QQ音乐、酷我音乐、网易云音乐、百度音乐、虾米音乐等；该应用程序可以为视频播放器类，例如爱奇艺、腾讯视频、暴风音影等，该应用程序还可以为收音机播放器类，例如龙卷风FM、蜻蜓FM和荔枝FM、喜马拉雅听书等等；应用程序还可以为通话类，例如，Skype等。根据当前耳机播放的音频信号，可以获取用户播放该音频信号的预设应用程序的应用类型。

步骤704：根据应用类型与所述操作输入的映射关系，确定所述预设应用程序能够识别的指示指令。

不同的预设应用程序可以识别的操作输入不同，例如音乐播放器类的预设应用程序所能识别的输入操作的数量最多，而通话类的预设应用程序所能识别的输入操作的数量最少。同时，不同的应用类型的预设应用程序的同一个操作输入对应于不同的指示指令。也即，预设应用程序可以根据当前的输入操作，识别出该输入操作能够识别的指示指令。

例如，若该预设应用程序的应用类型为音乐播放器类，输入操作对应的响应参数为耳机位于第一位置，且在第一位置的响应次数为2次，则对应的指示指令为调大音量；若该预设应用程序的应用类型为视频播放器类，输入操作对应的响应参数为耳机位于第一位置，且在第一位置的响应次数为2次，则对应的指示指令为调大亮度；若该预设应用程序的应用类型为收音机播放器类，输入操作对应的响应参数为耳机位于第一位置，且在第一位置的响应次数为2次，则对应的指示指令为切换至用户收藏的频率频道；若该预设应用程序的应用类型为通话类，输入操作对应的响应参数为耳机位于第一位置，且在第一位置的响应次数为2次，则对应的指示指令为结束通话。

根据当前耳机播放的音频信号，确定当前用于播放该音频信号的预设应用程序，该预设应用程序可以识别该输入操作对应的指示指令。例如，若预设应用程序为通话类的应用程序，该输入操作对应的响应参数为耳机位置第二位置，在第二位置的响应次数为2次，则该通话类应用程序可以识别该输入操作对应的指示指令为录制当前通过内容。

需要说明的是，预设应用程序的应用类型与所述操作输入的映射关系，以及操作输入与指示指令的对应关系可以根据用户的个人使用习惯进行设置，并不限于上述举例说明。

步骤706：根据所述能够识别的指示指令对所述预设应用程序执行相应的操作。

根据当前预设应用程序能够识别的指示指令对该预设应用程序执行相应的操作。例如，若指示指令为录制当前通过内容，则该电子设备可以对当前正在通话的语音信息进行录制。

上述实施例的音频信号处理方法，可以根据预设应用程序的应用类型，可以对多个不同类型的预设应用程序进行相应的控制，形成多元化的控制，提高了用户体验度。

应该理解的是，虽然图1-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图8为一个实施例的音频信号处理装置的结构框图。音频信号处理装置，所述装置包括：

确定模块810，用于当接收用户在耳机上的输入操作时，根据所述耳机当前播放的音频信号及所述输入操作产生的振动信号，确定所述耳机在用户耳道内当前位置的声学回声脉冲响应；

识别模块820，用于根据所述声学回声脉冲响应识别所述输入操作对应的指示指令；

处理模块830，用于根据所述指示指令对预设应用程序执行相应的操作，所述预设应用程序为当前所述耳机正在播放的音频信号对应的应用程序。

需要说明的是，该音频信号处理装置既可以设置在耳机中，也可以设置在电子设备内。

上述音频信号处理装置，当接收用户在耳机上的输入操作时，根据当前播放的音频信号确定与所述耳机当前位置相关联的声学回声脉冲响应；根据所述声学回声脉冲响应识别所述输入操作对应的指示指令，能够提高对输入操作的辨识度；同时根据所述指示指令对预设应用程序执行相应的操作，从而实现了对预设应用程序的控制，方便快捷、可以大大简化用户操作，提高了使用效率，提高了用户体验度。

在一个实施例中，确定模块，包括：

第一获取单元，用于获取所述耳机当前播放的音频信号及所述输入操作生成的振动信号；

录制单元，录制所述音频信号和振动信号经耳道反射和振动而形成的声学回声信号；

第一确定单元，用于根据所述声学回声信号确定所述耳机在用户耳道内当前位置的声学回声脉冲响应。

在一个实施例中，识别模块，包括：

第二获取单元，用于在预设时间内，获取所述声学回声脉冲响应的响应参数，所述响应参数包括响应位置、响应次数和响应时长；

识别单元，用于根据所述响应参数识别所述输入操作对应的指示指令。

在一个实施例中，识别模块还包括：

构建单元，用于构建用于存储多个预设声学回声脉冲响应的预设数据库；

判断单元，用于判断所述声学回声脉冲响应是否存储在所述预设数据库中；

识别单元，还用于当所述声学回声脉冲响应存储在所述预设数据库中时，根据所述响应参数识别所述输入操作对应的指示指令。

在一个实施例中，音频信号处理装置，还包括：

获取模块，用于获取所述所述振动信号的特征信息；

判断模块，用于根据所述特征信息判断所述振动信号是否为用户执行的所述输入操作；

当所述振动信号为用户执行的所述输入操作时，所述确定模块根据所述耳机当前播放的音频信号及所述振动信号，确定所述耳机在用户耳道内当前位置的声学回声脉冲响应。

本实施例中的音频信号处理装置，可以避免因任一输入操作而导致的误触发操作，可以准确的触发获取当前声学回声脉冲响应的动作。

在一个实施例中个，处理模块，包括：

第三获取单元，用于获取所述预设应用程序的应用类型；

第二确定单元，用于根据应用类型与所述操作输入的映射关系，确定所述预设应用程序能够识别的指示指令；

控制单元，用于根据所述能够识别的指示指令对所述预设应用程序执行相应的操作。

上述实施例的音频信号处理装置，可以根据预设应用程序的应用类型，可以对多个不同类型的预设应用程序进行相应的控制，形成多元化的控制，提高了用户体验度。

在一个实施例中，所述根据所述指示指令对预设应用程序执行下列操作中的任一种：

打开所述预设应用程序、关闭所述预设应用程序、暂停当前正在播放的多媒体文件、调节当前正在播放的多媒体文件的音量、切换当前正在播放的多媒体文件、收藏当前正在播放的多媒体文件、下载当前正在播放的多媒体文件、结束通话或录音。

上述音频信号处理装置中各个模块的划分仅用于举例说明，在其他实施例中，可将音频信号处理装置按照需要划分为不同的模块，以完成上述音频信号处理装置的全部或部分功能。

关于音频信号处理装置的具体限定可以参见上文中对于音频信号处理方法的限定，在此不再赘述。上述音频信号处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请实施例中提供的音频信号处理装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在电子设备或服务器上运行。该计算机程序构成的程序模块可存储在电子设备或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的步骤。

本申请实施例还提供了一种耳机，该耳机包括上述技术方案提供的音频信号处理装置，关于音频信号处理装置的具体限定可以参见上文中对于音频信号处理方法的限定，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行音频信号处理方法的步骤。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行音频信号处理方法。

本申请实施例还提供了一种电子设备。如图9所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该电子设备可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售电子设备)、车载电脑、穿戴式设备等任意电子设备设备，以电子设备为手机为例：

图9为与本申请实施例提供的电子设备相关的手机的部分结构的框图。参考图9，手机包括：射频(Radio Frequency，RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity，WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9所示的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，RF电路910可用于收发信息或通话过程中，信号的接收和发送，可将基站的下行信息接收后，给处理器980处理；也可以将上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System ofMobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器920可主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能的应用程序、图像播放功能的应用程序等)等；数据存储区可存储根据手机的使用所创建的数据(比如音频数据、通讯录等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与手机900的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括操作面板931以及其他输入设备932。操作面板931，也可称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在操作面板931上或在操作面板931附近的操作)，并根据预先设定的程式驱动相应的连接装置。在一个实施例中，操作面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现操作面板931。除了操作面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941。在一个实施例中，可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板941。在一个实施例中，操作面板931可覆盖显示面板941，当操作面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中，操作面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将操作面板931与显示面板941集成而实现手机的输入和输出功能。

手机900还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及距离传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，距离传感器可在手机移动到耳边时，关闭显示面板941和/或背光。运动传感器可包括加速度传感器，通过加速度传感器可检测各个方向上加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换)、振动识别相关功能(比如计步器、敲击)等；此外，手机还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器等。

音频电路960、扬声器961和传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路910可以发送给另一手机，或者将音频数据输出至存储器920以便后续处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970，但是可以理解的是，其并不属于手机900的必须构成，可以根据需要而省略。

处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监听。在一个实施例中，处理器980可包括一个或多个处理单元。在一个实施例中，处理器980可集成应用处理器和调制解调器，其中，应用处理器主要处理操作系统、用户界面和应用程序等；调制解调器主要处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器980中。比如，该处理器980可集成应用处理器和基带处理器，基带处理器与和其它外围芯片等可组成调制解调器。手机900还包括给各个部件供电的电源990(比如电池)，优选的，电源可以通过电源管理系统与处理器980逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

在一个实施例中，手机900还可以包括摄像头、蓝牙模块等。

在本申请实施例中，该手机所包括的处理器执行存储在存储器上的计算机程序时实现上述所描述的音频信号处理方法。

本申请还提供一种耳机，包括电声换能器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器与所述电声换能器及所述存储器电连接，所述处理器执行所述计算机程序时实现上述所描述的音频信号处理方法。

在一个实施例中，所述电声换能器用于播放所述音频信号，并用于录制所述音频信号及所述噪声信号经耳道反射和振动而形成的声学回声信号。

在一个实施例中，所述电声换能器包括扬声器和麦克风，所述扬声器用于播放所述音频信号，所述麦克风用于录制所述音频信号及所述噪声信号经耳道反射和振动而形成的声学回声信号。

在一个实施例中，所述扬声器和所述麦克风为一体式结构。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频信号处理方法，其特征在于，包括：

当接收用户在耳机上的输入操作时，根据所述耳机当前播放的音频信号及所述输入操作产生的振动信号及所述音频信号、振动信号经耳道反射和振动形成的声学回声信号，确定所述耳机在用户耳道内当前位置相关联的声学回声脉冲响应；

根据所述指示指令对预设应用程序执行相应的操作，所述预设应用程序为当前所述耳机正在播放的音频信号对应的应用程序；其中，

所述根据所述声学回声脉冲响应识别所述输入操作对应的指示指令，包括：

在预设时间内，获取所述声学回声脉冲响应的响应参数，所述响应参数包括响应位置和响应次数；

根据所述响应参数识别所述输入操作对应的指示指令。

2.根据权利要求1所述的方法，其特征在于，所述根据所述耳机当前播放的音频信号及所述输入操作产生的振动信号，确定所述耳机在用户耳道内当前位置的声学回声脉冲响应，包括：

获取所述耳机当前播放的音频信号及所述振动信号；

录制所述音频信号及所述振动信号经耳道反射和振动而形成的声学回声信号；

根据所述声学回声信号确定所述耳机在用户耳道内当前位置的声学回声脉冲响应。

3.根据权利要求1所述的方法，其特征在于，还包括：

构建用于存储多个预设声学回声脉冲响应的预设数据库；

判断所述声学回声脉冲响应是否存储在所述预设数据库中；

当所述声学回声脉冲响应存储在所述预设数据库中时，根据所述响应参数识别所述输入操作对应的指示指令。

4.根据权利要求1所述的方法，其特征在于，所述接收用户在所述耳机上的输入操作，包括：

获取所述振动信号的特征信息；根据所述特征信息判断所述振动信号是否为用户执行的所述输入操作；

若是，则根据所述音频信号和所述振动信号确定所述耳机在用户耳道内当前位置的声学回声脉冲响应。

5.根据权利要求1所述的方法，其特征在于，所述根据所述指示指令对预设应用程序执行相应的操作，包括：

获取所述预设应用程序的应用类型；

根据应用类型与所述操作输入的映射关系，确定所述预设应用程序能够识别的指示指令；

根据所述能够识别的指示指令对所述预设应用程序执行相应的操作。

6.根据权利要求1所述的方法，其特征在于，所述根据所述指示指令对预设应用程序执行下列操作中的任一种：

7.一种音频信号处理装置，其特征在于，所述装置包括：

确定模块，用于当接收用户在耳机上的输入操作时，根据所述耳机当前播放的音频信号及所述输入操作产生的振动信号及所述音频信号、振动信号经耳道反射和振动形成的声学回声信号，确定所述耳机在用户耳道内当前位置相关联的声学回声脉冲响应；

处理模块，用于根据所述指示指令对预设应用程序执行相应的操作，所述预设应用程序为当前所述耳机正在播放的音频信号对应的应用程序；其中，

所述识别模块，包括：

第二获取单元，用于在预设时间内，获取所述声学回声脉冲响应的响应参数，所述响应参数包括响应位置和响应次数；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种耳机，其特征在于，包括电声换能器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器分别与所述电声换能器、所述存储器电连接，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

11.根据权利要求10所述的耳机，其特征在于，所述电声换能器用于播放所述音频信号，并用于录制所述音频信号及噪声信号经耳道反射和振动而形成的声学回声信号。

12.根据权利要求11所述的耳机，其特征在于，所述电声换能器包括扬声器和麦克风，所述扬声器用于播放所述音频信号，所述麦克风用于录制所述音频信号及所述噪声信号经耳道反射和振动而形成的声学回声信号。

13.根据权利要求12所述的耳机，其特征在于，所述扬声器和所述麦克风为一体式结构。