CN109753862B

CN109753862B - 声音辨识装置及用于控制电子装置的方法

Info

Publication number: CN109753862B
Application number: CN201810174156.XA
Authority: CN
Inventors: 刘青光; 陆晓燕; 张卫平
Original assignee: Fortemedia Inc
Current assignee: Fortemedia Inc
Priority date: 2017-11-07
Filing date: 2018-03-02
Publication date: 2023-07-07
Anticipated expiration: 2038-03-02
Also published as: US10157628B1; CN109753862A

Abstract

本发明提供一种声音辨识装置及用于控制电子装置的方法，该声音辨识装置包括：一麦克风阵列，包括多个麦克风，设置在安装于该声音辨识装置的一外壳上的一麦克风模块之中，其中各麦克风接收在该麦克风模块的表面上操作的一手势动作所造成的一音频信号，并将所接收的该音频信号转换为一数字音频信号；以及一处理单元，用以接收来自各麦克风的该数字音频信号，并对来自各麦克风的该数字音频信号进行一声音辨识处理以产生带有该手势动作的信息的一声音辨识结果，其中该处理单元依据该声音辨识结果以控制由该处理单元执行的至少一应用程序。

Description

声音辨识装置及用于控制电子装置的方法

技术领域

本发明涉及音频处理，特别涉及一种声音辨识装置及用于控制电子装置的方法。

背景技术

在例如是一移动装置、平板计算机、或笔记型计算机的电子装置中，会具有周边装置可经由用户接口以控制一些应用程序。传统的周边装置包括触控屏幕及一或多个实体按钮(例如音量增加/减少按钮)。然而，这些周边装置在某些情况下并未被启动，例如当电子装置处于睡眠模式或屏幕保护模式时。此外，这些电子装置会配备有一或多个麦克风设置于或安装于电子装置之外壳上，且这些麦克风可以轻易地被用户所触及。

因此，需要一种声音辨识装置及用于控制电子装置的方法以增进用户体验。

发明内容

本发明提供一种声音辨识装置，包括：一麦克风阵列，包括多个麦克风，设置在安装于该声音辨识装置的一外壳上的一麦克风模块之中，其中各麦克风接收在该麦克风模块的表面上操作的一手势动作所造成的一音频信号，并将所接收的该音频信号转换为一数字音频信号；以及一处理单元，用以接收来自各麦克风的该数字音频信号，并对来自各麦克风的该数字音频信号进行一声音辨识处理以产生带有该手势动作的信息的一声音辨识结果，其中该处理单元依据该声音辨识结果以控制由该处理单元执行的至少一应用程序。

在本发明的一实施例中，在该麦克风阵列中的两个相邻的麦克风之间的距离介于2毫米至15毫米。

在本发明的一实施例中，该处理单元套用一高通滤波器至来自各麦克风的该数字音频信号，并由各麦克风的过滤后的该数字音频信号检测出一脉冲信号，且该处理单元还计算来自各麦克风的该过滤后的数字音频信号的时间差以决定在该手势动作中的各移动的速度。该处理单元还计算在该手势动作中的各移动的该速度的一加权总和以产生该声音辨识结果，其中该声音辨识结果的正负号表示该手势动作的方向，且该声音辨识结果的绝对值表示该手势动作的速度。

在本发明的一实施例中，其中该至少一应用程序包括画面卷动、音量控制、快转或快速回放、画面放大或缩小及解锁屏幕。

本发明还提供一种用于控制电子装置的方法，其中该电子装置包括一麦克风阵列，具有多个麦克风，设置在安装于该电子装置的一外壳上的一麦克风模块之中，该方法包括：利用各麦克风接收在该麦克风模块的表面上操作的一手势动作所造成的一音频信号，并将所接收的该音频信号转换为一数字音频信号；对来自各麦克风的该数字音频信号进行一声音辨识处理以产生带有该手势动作的信息的一声音辨识结果；以及依据该声音辨识结果以控制由该电子装置所执行的至少一应用程序。

附图说明

图1是显示依据本发明一实施例的声音辨识装置的功能方块图。

图2A及2B是显示依据本发明一实施例中在麦克风阵列上进行的手势动作的示意图。

图3是显示依据本发明一实施例中的声音辨识处理的示意图。

图4是显示依据本发明一实施例中的用于控制电子装置的方法的流程图。

【符号说明】

100～声音辨识装置；

110～麦克风阵列；

111～麦克风；

115～麦克风模块；

120～处理单元；

140～外壳；

210～指尖；

211－212～声音孔；

111A、111B～麦克风；

310～前处理阶段；

320～方向辨识阶段；

330～速度估计阶段；

301～第一数字音频信号；

302～第二数字音频信号；

311、312～高通滤波器；

313～过滤后的第一数字音频信号；

314～过滤后的第二数字音频信号；

315、316～脉冲检测器；

317、318～时间信息；

321～延迟估计器；

331～速度估计器；

S_f～最终速度；

S410－S430～步骤。

具体实施方式

为使本发明的上述目的、特征和优点能更明显易懂，下文特举一优选实施例，并配合附图，作详细说明如下。

图1是显示依据本发明一实施例的声音辨识装置的功能方块图。在一实施例中，声音辨识装置100可为一电子装置或是可设置于一电子装置中，例如是一智能手机、平板计算机、一笔记型计算机、或是无线耳机，但本发明并不限于此。如图1所示，声音辨识装置100包括一麦克风阵列110及一处理单元120。

在一实施例中，麦克风阵列110包括至少两个麦克风111，用以接收声音辨识装置100的一环境声音信号(ambient sound signal)。举例来说，所接收的环境声音信号为一模拟音频信号，且各麦克风111包括一模拟数字转换器(analog-to-digital converter，ADC)(未绘示)，用以利用脉冲编码调制(pulse-code modulation，PCM)将所接收的环境声音信号进行数字化(digitize)，并输出具有PCM格式的数字音频信号。举例来说，麦克风111的采样频率(sampling rate)可为8000Hz或更高的频率，但本发明并不限于此。

麦克风111可利用工业标准而组装于一隔音罩(acoustic enclosure)中。麦克风111可在空间上分布于一线、一二维阵列、或一三维阵列上，且在麦克风111之间可具有均匀或非均匀的间隔。

详细而言，在此实施例中，麦克风阵列110可设置于安装在声音辨识装置100的外壳140上的一麦克风模块115、或是设置于声音辨识装置100的一部分的基板上。在麦克风阵列110中的麦克风111彼此之间会相隔一预定距离，且会利用外壳140中的个别腔室(chamber)以彼此音频隔离并防止声音传递。此外，各麦克风111的腔室在麦克风模块115的表面会具有一声音孔(sound hole)，且各麦克风111经由各自的声音孔以接收音频信号。

举例来说，在麦克风阵列110中的两个相邻麦克风111之间的距离可由2毫米(mm)至15毫米，或是在指尖可轻易覆盖的范围内，但本发明并不限于此。

处理单元120可为数字信号处理器(digital signal processor，DSP)、或一般用途处理器(general-purpose processor)，但本发明并不限于此。处理单元120用以接收来自麦克风阵列110中的各麦克风111的数字音频信号，并执行一声音辨识处理以辨识在麦克风阵列110上所进行的手势动作(gesture)以产生带有手势动作的信息的声音辨识结果。

图2A及2B是显示依据本发明一实施例中在麦克风阵列上进行的手势动作的示意图。为了便于说明，假设麦克风阵列110具有两个麦克风111。

在一实施例中，用户可利用其指尖210以接触具有声音孔211及212的麦克风模块115的表面，并由其中一个声音孔滑动至另一个声音孔。举例来说，当指尖210由声音孔212移动至声音孔211时，这表示为一往上的动作，如图2A所示。当指尖210由声音孔211移动至声音孔212时，这表示为一往下的动作，如图2B所示。需注意的是，当使用更多具有声音孔的麦克风时，可进行更复杂的手势动作。

有了这样在声音孔211及212上的手指动作，麦克风111会由指尖所操作的手势动作(例如：触摸并滑动)的麦克风模块115的表面接收音频信号。详细而言，当指尖210在麦克风模块115的表面上进行手势动作时，其会造成一音频信号，可被设置于麦克风模块115中的麦克风111所接收。换句话说，声音辨识处理的声音来源可来自被指尖210正在接触的表面。接着，由在麦克风模块115的表面上操作的手势动作所造成的音频信号会被转换为数字音频信号，其可传送至处理单元120以进行后续的声音辨识处理。

图3是显示依据本发明一实施例中的声音辨识处理的示意图。

在一实施例中，由处理单元120所执行的声音辨识处理可包括下列阶段：前处理阶段310、方向辨识阶段320及速度估计阶段330。在前处理阶段310中，处理单元120可套用线性或非线性的滤波器至来自麦克风111的数字音频信号以降低干扰信号，这可能包括环境噪声(ambient noise)或人声(human voices)。

在方向辨识阶段320中，处理单元120辨识手势动作的方向，例如是指尖210在麦克风阵列110上的滑动方向。在速度估计阶段330，处理单元估计手势动作(例如指尖的滑动动作)的速度。

在一实施例中，麦克风阵列110包括麦克风111A及111B。如图3所示，麦克风111A及111B均会接收到来自麦克风模块115的表面的一音频信号，且由麦克风111A及111B所接收的音频信号会分别被转换为一第一数字音频信号301及一第二数字音频信号302。来自麦克风111A的第一数字音频信号301会被传送至一高通滤波器311，且来自麦克风111B的第二数字音频信号302会被传送至一高通滤波器312。

举例来说，高通滤波器311及312彼此类似，且可分别套用至第一数字音频信号301及第二数字音频信号302以降低环境噪声例如风声噪声、车辆噪声、或主要在低频范围中的其他类型的噪声。高通滤波器311与高通滤波器312的截止频率(cut-off frequency)可介于1000Hz及2000Hz之间，但本发明并不限于此。

过滤后的第一数字音频信号313及过滤后的第二数字音频信号314分别传送至脉冲检测器315及脉冲检测器316。脉冲检测器315及脉冲检测器316彼此类似。举例来说，由在麦克风模块115的表面上操作的手势动作所造成的音频信号的波形在时域(time domain)中可能为一脉冲(pulse)或是短促(shortburst)信号。脉冲检测器315及脉冲检测器316可决定麦克风触控信号的候选信号。

详细而言，脉冲检测器315可设定一阈值用以辨识具有振幅(amplitude)大于该阈值的过滤后的第一数字音频信号313。若过滤后的第一数字音频信号313的振幅大于该阈值，脉冲检测器315会计算过滤后的第一数字音频信号313的振幅在该阈值以上的时间。

当脉冲检测器315所计算的时间短于一预定时间，脉冲检测器315会由过滤后的第一数字音频信号313中检测出一第一脉冲信号，并接着标示与第一脉冲信号相关的时间信息317。时间信息317被传送至延迟估计器321。

类似地，当脉冲检测器316所计算的时间短于一预定时间，脉冲检测器316会由过滤后的第二数字音频信号314中检测出一第二脉冲信号，并接着标示与第二脉冲信号相关的时间信息318。时间信息318被传送至延迟估计器321。需注意的是，高通滤波器311及312、以及脉冲检测器315及316包含于前处理阶段310中。

方向辨识阶段320包括延迟估计器321，用以估计来自脉冲检测器315及316的第一脉冲信号及第二脉冲信号的时间差。举例来说，若用户的指尖在麦克风模块115的表面上滑动，各麦克风111的脉冲检测器所检测到的脉冲信号会发生在不同时间。因此，由脉冲检测器315及316所检测的第一脉冲信号及第二脉冲信号之间的时间差(即时间延迟)可用以估计滑动操作的方向及速度。

详细而言，若时间差在一预定范围内，延迟估计器321可决定在麦克风模块115的表面上的滑动操作为一有效滑动事件(valid sliding event)。上述时间差可为正数或负数，分别表示滑动操作的方向。举例来说，正的时间差表示往上的方向，且负的时间差表示向下的方向。选择性地，正的时间差可表示由左至右的方向，且负的时间差可表示由右往左的方向。需注意的是，上述实施例中的方向仅用于说明，实际的方向视麦克风阵列110中的麦克风111的排列方式而定。

举例来说，滑动操作的速度可用下列公式所表示：

S₁＝D/T(1)

其中D表示相邻的麦克风之间的距离；T表示所估计的时间差(即时间延迟)；且S₁表示滑动操作的速度。如上所述，估计的时间差可为正数或负数，分别表示滑动操作的不同方向。

速度估计阶段330包括速度估计器331，用以估计整体滑动事件的最终速度。举例来说，由延迟估计器321所估计的速度表示单一移动(例如滑动操作)的速度。然而，整体的手势动作可包括一或多个移动。速度估计器331可藉由考虑后续移动而调整最终速度。最终速度S_f可用下列公式表示：

S_f＝S₁+W₂*S₂+…+W_N*S_N(2)

其中N为一正整数；W₂、W₃、…、W_N为介于0至1之间的权重值；且S₁、S₂、…、S_N分别为第一、第二、…、第N个滑动操作的估计速度。详细而言，在一预定的时间窗(time window)中，若仅有一个滑动操作，最终速度S_f等于与第一滑动操作有关的估计速度S₁。除此之外，最终速度S_f为在手势动作中的多个移动的估计速度的加权总和。

在计算出最终速度S_f后，处理单元120会产生表示该手势操作的方向及速度的声音辨识结果。

在图2A及图2B的实施例中，声音辨识结果的输出信号可用一有号数X表示，且X为一整数或实数，其定义显示于表1。

表1

X的数值可用于控制在一电子装置中在不同应用的一应用程序或装置驱动程序(device driver)。上述应用可包括但不限于在一网页浏览器(web browser)或一文件编辑器中卷动画面(scroll screen)、在一媒体播放器中进行音量控制(volume control)、在一媒体播放器中进行快转(fast forward)或快速回放(fast rewind)、在相机拍摄时进行放大(zoom in)或缩小(zoom out)、在屏幕保护模式(screensaver mode)下解锁画面及在无线耳机中的扬声器的音量控制。上述应用中的操作如表2所示。

表2

在步骤S410，利用在麦克风阵列110中的各麦克风111以接收由在麦克风模块115的表面上操作的手势动作(例如：接触并滑动)所造成的音频信号，并将所接收的音频信号转换为一数字音频信号。举例来说，在麦克风模块115的表面上操作的手势动作可为声音来源以产生该音频信号，并可由各麦克风111所接收。

在步骤S420，对来自各麦克风111的数字音频信号进行一声音辨识处理以产生带有该手势动作的信息的声音辨识结果。举例来说，声音辨识处理可包括前处理阶段310、方向辨识阶段320及速度估计阶段330，如图3的实施例所述。

在步骤S430，依据声音辨识结果以控制由电子装置(例如可为声音辨识装置100)所执行的至少一应用程序。举例来说，声音辨识结果带有关于该手势动作的方向(例如声音辨识结果的正负号)及速度(例如声音辨识结果的绝对值)的信息。

综上所述，本发明提供一种声音辨识装置及用于控制电子装置的方法。本发明的声音辨识装置及用于控制电子装置的方法可利用麦克风阵列以控制一电子装置。在对来自麦克风阵列中的各麦克风的数字音频信号进行声音辨识处理，可估计出在麦克风模块的表面上操作的手势动作的方向及速度。因此，可利用声音辨识处理的声音辨识结果以控制由电子装置所执行的一或多个应用程序，而不必使用传统的周边装置，例如是触控屏幕或实体按钮。因为包含有麦克风阵列的麦克风模块可轻易地被用户所触及，故可增进控制电子装置的用户体验。

本发明的方法，或特定形态或其部分，可以以程序代码的形态包含于物理介质，如软盘、光盘、硬盘、或是任何其他机器可读取(如计算机可读取)存储介质，其中，当程序代码被机器，如计算机载入且执行时，此机器变成用以参与本发明的装置或系统。本发明的方法、系统与装置也可以以程序代码形态通过一些传送介质，如电线或电缆、光纤、或是任何传输形态进行传送，其中，当程序代码被机器，如计算机接收、载入且执行时，此机器变成用以参与本发明的装置或系统。当在一般用途处理器实作时，程序代码结合处理器提供一操作类似于应用特定逻辑电路的独特装置。

本发明虽以优选实施例公开如上，然其并非用以限定本发明的范围，本领域技术人员在不脱离本发明的精神和范围内，当可做些许的更动与润饰，因此本发明的保护范围当视所附权利要求书界定范围为准。

Claims

1.一种声音辨识装置，包括：

麦克风阵列，包括多个麦克风，设置在安装于该声音辨识装置的外壳上的麦克风模块之中，其中，各麦克风分别位于彼此音频隔离并且防止声音传递的腔室中，各麦克风的腔室在该麦克风模块的表面上各自具有一声音孔，各麦克风经由各自的声音孔接收在该麦克风模块的表面上操作的滑动动作所造成的音频信号，并将所接收的该音频信号转换为数字音频信号；以及

处理单元，用以接收来自各麦克风的该数字音频信号，并对来自各麦克风的该数字音频信号进行声音辨识处理以产生带有该滑动动作的信息的声音辨识结果，

其中该处理单元套用高通滤波器至来自各麦克风的该数字音频信号，并辨识各麦克风的过滤后的该数字音频信号，以将具有振幅大于预定阈值并且振幅大于预定阈值的时间小于预定时间的数字音频信号检测为由手势动作造成的脉冲信号，以及计算来自各麦克风的检测出的脉冲信号的时间差以决定在该手势动作中的各移动的速度，

其中该处理单元依据该声音辨识结果以控制由该处理单元执行的至少一应用程序。

2.如权利要求1所述的声音辨识装置，其中在该麦克风阵列中的两个相邻的麦克风之间的距离介于2毫米至15毫米。

3.如权利要求1所述的声音辨识装置，其中该处理单元还计算在该手势动作中的各移动的该速度的加权总和以产生该声音辨识结果，其中该声音辨识结果的正负号表示该手势动作的方向，且该声音辨识结果的绝对值表示该手势动作的速度。

4.如权利要求1所述的声音辨识装置，其中该至少一应用程序包括画面卷动、音量控制、快转或快速回放、画面放大或缩小及解锁屏幕。

5.一种用于控制电子装置的方法，其中该电子装置包括麦克风阵列，具有多个麦克风，设置在安装于该电子装置的外壳上的麦克风模块之中，其中各麦克风分别位于彼此音频隔离并且防止声音传递的腔室中，各麦克风的腔室在该麦克风模块的表面上各自具有一声音孔，该方法包括：

利用各麦克风经由各自的声音孔接收在该麦克风模块的表面上操作的滑动动作所造成的音频信号，并将所接收的该音频信号转换为数字音频信号；

套用高通滤波器至来自各麦克风的该数字音频信号；

辨识各麦克风的过滤后的该数字音频信号，以将具有振幅大于预定阈值并且振幅大于预定阈值的时间小于预定时间的数字音频信号检测为由手势动作造成的脉冲信号；

计算来自各麦克风的检测出的脉冲信号的时间差以决定在该手势动作中的各移动的速度；

对来自各麦克风的该数字音频信号进行声音辨识处理以产生带有该手势动作的信息的声音辨识结果；以及

依据该声音辨识结果以控制由该电子装置所执行的至少一应用程序。

6.如权利要求5所述的方法，其中在该麦克风阵列中的两个相邻的麦克风之间的距离介于2毫米至15毫米。

7.如权利要求5所述的方法，还包括：

计算在该手势动作中的各移动的该速度的加权总和以产生该声音辨识结果，

其中该声音辨识结果的正负号表示该手势动作的方向，且该声音辨识结果的绝对值表示该手势动作的速度。

8.如权利要求5所述的方法，其中该至少一应用程序包括画面卷动、音量控制、快转或快速回放、画面放大或缩小及解锁屏幕。