CN106157952B

CN106157952B - 声音识别方法及装置

Info

Publication number: CN106157952B
Application number: CN201610772806.1A
Authority: CN
Inventors: 龙飞; 陈志军; 杨松
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2019-09-17
Anticipated expiration: 2036-08-30
Also published as: CN106157952A

Abstract

本公开是关于声音识别方法及装置。涉及音频识别技术领域。该方法包括：获取待识别的声音以及预存的声音模板，根据所述预存的声音模板从所述待识别的声音中识别出目标声音。上述技术方案可以从待识别的声音中准确的识别出目标声音。

Description

声音识别方法及装置

技术领域

本公开涉及音频识别领域，尤其涉及声音识别方法及装置。

背景技术

在一些网络电话以及像雅思、托福等英语口语考试中，需要识别某一个声音。比如，在拨打网络电话时，拨打时背景声音为嘟嘟声或彩铃音乐声，网络电话接通后系统会发出某个有别于背景声音的声音，系统发出该声音后手机进行识别，识别成功后即表示电话接通。

发明内容

本公开实施例提供声音识别方法及装置。所述技术方案如下：

根据本公开实施例的第一方面，提供一种声音识别方法，包括：

获取待识别的声音以及预存的声音模板；

根据预存的声音模板从所述待识别的声音中识别出目标声音。

在一个实施例中，所述根据预存的声音模板从所述待识别的声音中确定出目标声音，可包括：

将所述待识别的声音转化为模拟信号，对所述模拟信号进行采样处理，转化为数字信号；

对所述数字信号进行加窗处理，将每一个窗口的窗口信号转化为对应的频谱；

当任意一个窗口的频谱中包含与所述声音模板匹配的脉冲时，则确定从所述待识别的声音中识别出目标声音。

在一个实施例中，所述当任意一个窗口的频谱中包含与所述声音模板匹配的脉冲时，则确定从所述待识别的声音中识别出目标声音，可包括：

获取声音模板中声音的频率；

根据所述频率确定所述声音在所述窗口中对应的坐标；

确定所述坐标对应的坐标幅值是否大于第一预设阈值，并且所述坐标周围预设范围内的坐标对应的坐标幅值是否小于第二预设阈值；

当所述坐标对应的坐标幅值大于第一预设阈值，并且所述坐标周围预设范围内的坐标对应的坐标幅值小于第二预设阈值时，确定从所述待识别的声音中识别出目标声音。

在一个实施例中，当所述声音模板中包含至少两个声音时，所述确定所述坐标对应的坐标幅值是否大于第一预设阈值，并且所述坐标周围预设范围内的坐标对应的坐标幅值是否小于第二预设阈值，可包括：

确定所述声音模板中每一个声音对应的坐标的坐标幅值是否大于第一预设阈值，并且所述坐标周围预设范围内的坐标对应的坐标幅值是否小于第二预设阈值；

所述当所述坐标对应的坐标幅值大于第一预设阈值，并且所述坐标周围预设范围内的坐标对应的坐标幅值小于第二预设阈值时，确定从所述待识别的声音中识别出目标声音，包括：

当所述每一个声音对应的坐标的坐标幅值大于第一预设阈值，并且所述坐标周围预设范围内的坐标对应的坐标幅值小于第二预设阈值时，确定从所述待识别的声音中识别出目标声音。

根据本公开实施例的第二方面，提供一种声音识别装置，包括：

获取模块，用于获取待识别的声音以及预存的声音模板；

识别模块，用于根据预存的声音模板从所述待识别的声音中识别出目标声音。

在一个实施例中，所述识别模块，可包括：

转化子模块，用于将所述待识别的声音转化为模拟信号，对所述模拟信号进行采样处理，转化为数字信号；

加窗子模块，用于对所述数字信号进行加窗处理，将每一个窗口的窗口信号转化为对应的频谱；

确定子模块，用于当任意一个窗口的频谱中包含与所述声音模板匹配的脉冲时，则确定从所述待识别的声音中识别出目标声音。

在一个实施例中，所述确定子模块还可用于：

获取声音模板中声音的频率；

根据所述频率确定所述声音在所述窗口中对应的坐标；

在一个实施例中，当所述声音模板中包含至少两个声音时，所述确定子模块还可用于：

根据本公开实施例的第三方面，提供一种声音识别装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待识别的声音以及预存的声音模板；

本公开的实施例提供的技术方案可以包括以下有益效果：

上述技术方案，通过获取待识别的声音以及预存的声音模板，根据预存的声音模板从待识别的声音中识别出目标声音。从而可以从待识别的声音中准确的识别出目标声音。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的声音识别方法的流程图。

图2是根据一示例性实施例示出的声音识别方法中步骤S102的流程图。

图3是根据一示例性实施例示出的声音识别方法中步骤S1023的流程图。

图4是根据一示例性实施例示出的又一种声音识别方法的流程图。

图5是根据一示例性实施例示出的声音识别装置的框图。

图6是根据一示例性实施例示出的声音识别装置中识别模块52的框图。

图7是根据一示例性实施例示出的适用于声音识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种声音识别方法的流程图，如图1所示，该声音识别方法包括以下步骤S101-S102：

在步骤S101中，获取待识别的声音以及预存的声音模板。

在步骤S102中，根据预存的声音模板从待识别的声音中识别出目标声音。

本公开实施例需要预先设置声音模板，目标声音可以是一声“嘟”(某个频率上，对应某个音高)或几个“嘟”声的组合(不同频率的几个声音)，那么这些目标声音对应的声音模板也分别是一声“嘟”或几个“嘟”声的组合。以声音模板为两个不同频率的“嘟”声的组合为例，即声音模板是由两个不同频率的“嘟”声的组合所形成的声音。以正玄波为例(没有共振波)，则组合而成的声音模板的表达式如下：

x(t)＝A1cos(2pi*f1*t+phi1)+A2cos(2pi*f2*t+phi2)

其中，x(t)是由两个声音组合而成的声音模板，A1cos(2pi*f1*t+phi1)为第一个声音的表达式，A2cos(2pi*f2*t+phi2)为第二个声音的表达式。第一个声音的频率f1假设为697hz，第二个声音的频率f2假设为1209hz，采样率fs＝10000hz，振幅A1＝A2＝1，相位phi1＝phi2＝0。

则：x(n)＝cos(2*pi*697*n/10000)+cos(2*pi*1209*n/10000)

这里n取自然数，由于采样率为10000，所以每两个采样点间距为1/10000。

本公开实施例的上述方法，通过获取待识别的声音以及预存的声音模板，根据预存的声音模板从待识别的声音中识别出目标声音。从而可以从待识别的声音中准确的识别出目标声音。

在一个实施例中，如图2所示，步骤S102可以实施为如下步骤S1021-S1023：

在步骤S1021中，将待识别的声音转化为模拟信号，对模拟信号进行采样处理，转化为数字信号。

在步骤S1022中，对数字信号进行加窗处理，将每一个窗口的窗口信号转化为对应的频谱。

在步骤S1023中，当任意一个窗口的频谱中包含与声音模板匹配的脉冲时，则确定从待识别的声音中识别出目标声音。

将声音转化为数字信号后，对长度为N的声音信号x(n)进行加窗处理，假设每一个窗口为1024个采样点，其直接处理整个声音信号，以512为步长为例，把声音信号x(n)平均分为重叠的M个窗口。比如第一个窗口是原声音信号范围[1，1024]，第二个窗口是[512，1536],第三个是[1024，2048]，依次类推，直到所有窗口覆盖整个声音长度N。

加窗处理后，在一个实施例中，利用FFT(Fast Fourier Transformation，快速傅里叶变换)将每一个窗口(每个窗口包含1024个采样点)的窗口信号分别转变为离散的频域信号即频谱，该频域信号的长度也是1024。实际做的时候傅里叶变换后波形是4条脉冲，只取对称轴左侧的即可。如果这两个脉冲能够与声音模板中包含的两个声音的脉冲匹配，则说明待识别的声音中包含与声音模板中匹配的目标声音。

在一个实施例中，如图3所示，步骤S1023可以实施为如下步骤S301-S304：

在步骤S301中，获取声音模板中声音的频率。

在步骤S302中，根据频率确定声音在窗口中对应的坐标。

在步骤S303中，确定坐标对应的坐标幅值是否大于第一预设阈值，并且坐标周围预设范围内的坐标对应的坐标幅值是否小于第二预设阈值。

在步骤S304中，当坐标对应的坐标幅值大于第一预设阈值，并且坐标周围预设范围内的坐标对应的坐标幅值小于第二预设阈值时，确定从待识别的声音中识别出目标声音。

假如每个窗口包含1024个采样点，采样率为10000hz，那么窗口的长度为1024*(1/10000)＝1024/10000，单位为时间单位“秒”。离散频谱的频率间隔为10000/1024hz。对f1＝697hz而言，其对应的坐标为697/(10000/1024)，该值也是上面傅里叶频谱中对应f1的坐标。这样在频谱中只需要看该坐标对应的坐标幅值是否足够大，并且周围幅值较低，图形类似一个小方差大幅值的高斯分布，即一个脉冲，便可识别频率为f1的音。对f2对应声音的识别可用同样方法。

在一个实施例中，如图4所示，当声音模板中包含至少两个声音时，步骤S303可以实施为步骤S3031：

在步骤S3031中，确定声音模板中每一个声音对应的坐标的坐标幅值是否大于第一预设阈值，并且坐标周围预设范围内的坐标对应的坐标幅值是否小于第二预设阈值。

此时，步骤S304可以实施为步骤S3041：

在步骤S3041中，当每一个声音对应的坐标的坐标幅值大于第一预设阈值，并且坐标周围预设范围内的坐标对应的坐标幅值小于第二预设阈值时，确定从待识别的声音中识别出目标声音。

当声音模板是由两个以上的声音组合而成时，需要分别识别出每一个声音对应的目标声音，才能确定出待识别声音中包含目标声音。比如，声音模板中第一个声音f1＝697hz，其对应的坐标为697/(10000/1024)；第2个声音f2＝1209hz，其对应的坐标为1209/(10000/1024)，需要分别确定这两个坐标处是否均对应一个脉冲，如果这两个坐标处均对应一个脉冲，即当前窗口识别出既有f1对应的“嘟”声又有f2对应的“嘟声”(频率正确并且响应够大)，则待识别的声音包含目标声音，如果只有一个坐标处对应脉冲，则待识别的声音中没有与声音模板匹配的目标声音。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图5是根据一示例性实施例示出的一种声音识别装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示，该声音识别装置包括：

获取模块51，被配置为获取待识别的声音以及预存的声音模板；

识别模块52，被配置为根据预存的声音模板从待识别的声音中识别出目标声音。

在一个实施例中，如图6所示，识别模块52，可包括：

转化子模块521，被配置为将待识别的声音转化为模拟信号，对模拟信号进行采样处理，转化为数字信号；

加窗子模块522，被配置为对数字信号进行加窗处理，将每一个窗口的窗口信号转化为对应的频谱；

确定子模块523，被配置为当任意一个窗口的频谱中包含与声音模板匹配的脉冲时，则确定从待识别的声音中识别出目标声音。

在一个实施例中，确定子模块523还可被配置为：

获取声音模板中声音的频率；

根据频率确定声音在窗口中对应的坐标；

确定坐标对应的坐标幅值是否大于第一预设阈值，并且坐标周围预设范围内的坐标对应的坐标幅值是否小于第二预设阈值；

当坐标对应的坐标幅值大于第一预设阈值，并且坐标周围预设范围内的坐标对应的坐标幅值小于第二预设阈值时，确定从待识别的声音中识别出目标声音。

在一个实施例中，当声音模板中包含至少两个声音时，确定子模块523还可被配置为：

确定声音模板中每一个声音对应的坐标的坐标幅值是否大于第一预设阈值，并且坐标周围预设范围内的坐标对应的坐标幅值是否小于第二预设阈值；

当每一个声音对应的坐标的坐标幅值大于第一预设阈值，并且坐标周围预设范围内的坐标对应的坐标幅值小于第二预设阈值时，确定从待识别的声音中识别出目标声音。

本公开实施例的上述装置，通过获取待识别的声音以及预存的声音模板，根据预存的声音模板从待识别的声音中识别出目标声音。从而可以从待识别的声音中准确的识别出目标声音。

本公开实施例还提供一种声音识别装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待识别的声音以及预存的声音模板；

上述处理器还被配置为：

获取声音模板中声音的频率；

根据所述频率确定所述声音在所述窗口中对应的坐标；

上述处理器还被配置为：

当所述声音模板中包含至少两个声音时，确定所述声音模板中每一个声音对应的坐标的坐标幅值是否大于第一预设阈值，并且所述坐标周围预设范围内的坐标对应的坐标幅值是否小于第二预设阈值；

图7是根据一示例性实施例示出的一种用于声音识别装置的框图，该装置适用于终端设备。例如，装置1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

装置1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电源组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)的接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制装置1200的整体操作，诸如与声音识别，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在装置1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1206为装置1200的各种组件提供电力。电源组件1206可以包括电源管理系统，一个或多个电源，及其他与为装置1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶声音识别器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当装置1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当装置1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

I/O接口1212为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为装置1200提供各个方面的状态评估。例如，传感器组件1214可以检测到装置1200的打开/关闭状态，组件的相对定位，例如所述组件为装置1200的声音识别器和小键盘，传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变，用户与装置1200接触的存在或不存在，装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述声音识别方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1204，上述指令可由装置1200的处理器1220执行以完成上述声音识别方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置1200的处理器执行时，使得装置1200能够执行上述声音识别方法。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种声音识别方法，其特征在于，包括：

获取待识别的声音以及预存的声音模板；

根据预存的声音模板从所述待识别的声音中识别出目标声音；

所述根据预存的声音模板从所述待识别的声音中确定出目标声音，包括：

当任意一个窗口的频谱中包含与所述声音模板匹配的脉冲时，确定从所述待识别的声音中识别出目标声音；

所述当任意一个窗口的频谱中包含与所述声音模板匹配的脉冲时，确定从所述待识别的声音中识别出目标声音，包括：

获取声音模板中声音的频率；

根据所述频率确定所述声音在所述窗口中对应的坐标；

2.根据权利要求1所述的方法，其特征在于，当所述声音模板中包含至少两个声音时，所述确定所述坐标对应的坐标幅值是否大于第一预设阈值，并且所述坐标周围预设范围内的坐标对应的坐标幅值是否小于第二预设阈值，包括：

3.一种声音识别装置，其特征在于，包括：

获取模块，用于获取待识别的声音以及预存的声音模板；

识别模块，用于根据预存的声音模板从所述待识别的声音中识别出目标声音；

所述识别模块，包括：

确定子模块，用于当任意一个窗口的频谱中包含与所述声音模板匹配的脉冲时，确定从所述待识别的声音中识别出目标声音；

所述确定子模块还用于：

获取声音模板中声音的频率；

根据所述频率确定所述声音在所述窗口中对应的坐标；

4.根据权利要求3所述的装置，其特征在于，当所述声音模板中包含至少两个声音时，所述确定子模块还用于：

5.一种声音识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待识别的声音以及预存的声音模板；

获取声音模板中声音的频率；

根据所述频率确定所述声音在所述窗口中对应的坐标；

6.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现上述权利要求1-2中任一项所述方法的步骤。