CN110189747A

CN110189747A - 语音信号识别方法、装置及设备

Info

Publication number: CN110189747A
Application number: CN201910459212.9A
Authority: CN
Inventors: 刘溪; 杨晓霞
Original assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Current assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-08-30

Abstract

本发明实施例公开了一种语音信号识别方法、装置及设备。其中，该方法包括：获取音频信号，并计算每一帧音频信号的至少两个特征值，其中，所述音频信号中包括语音信号；对所述至少两个特征值进行分析，得到每个特征值的主成分特征值，其中，不同特征值的主成分特征值之间彼此不相关；从每一帧音频信号的每个主成分特征值中选择目标特征值；根据所述每一帧音频信号的目标特征值，识别音频信号中的语音信号。本发明实施例无需繁琐地进行大量数据的训练即可进行语音信号识别，而且同时保证鲁棒性强。

Description

语音信号识别方法、装置及设备

技术领域

本发明实施例涉及语音处理技术，尤其涉及一种语音信号识别方法、装置及设备。

背景技术

语音端点检测技术是实现一个稳定的语音产品及应用的第一步。包括语音识别、语音编码、语音增强等在内的语音交互和音频处理技术都广泛地用到语音端点检测。该技术旨在区分音频中的语音段和非语音段(背景噪声段)。

现有的语音端点检测技术可以分为两类：一类可以称为有监督的语音端点检测，主要利用机器学习的方法，通过训练大量先验数据得到一个优化的神经网络，从而对语音和非语音部分进行分类。这种方法的优势体现在能应对一些比较复杂的噪声场景，但劣势也是很明显的，神经网络分类的准确性依赖于大规模的数据训练，并且一个复杂的神经网络往往拥有许多参数会消耗很多运算资源。相对的，另一类称为无监督语音端点检测。无监督语音端点检测是利用信号的时频特征比如能量，去进行语音检测，优点是不需要大量的训练数据，缺点是在一些强噪声环境下鲁棒性较差。

发明内容

本发明提供了一种语音信号识别方法、装置及设备，以实现在无需大量训练数据的情况下进行语音信号识别，同时又能够保证较强的鲁棒性。

第一方面，本发明实施例提供了一种语音信号识别方法，包括：

获取音频信号，并计算每一帧音频信号的至少两个特征值，其中，所述音频信号中包括语音信号；

对所述至少两个特征值进行分析，得到每个特征值的主成分特征值，其中，不同特征值的主成分特征值之间彼此不相关；

从每一帧音频信号的每个主成分特征值中选择目标特征值；

根据所述每一帧音频信号的目标特征值，识别音频信号中的语音信号。

第二方面，本发明实施例提供了一种语音信号识别装置，包括：

音频信号获取模块，用于获取音频信号，并计算每一帧音频信号的至少两个特征值，其中，所述音频信号中包括语音信号；

特征值分析模块，用于对所述至少两个特征值进行分析，得到每个特征值的主成分特征值，其中，不同特征值的主成分特征值之间彼此不相关；

目标特征值选择模块，用于从每一帧音频信号的每个主成分特征值中选择目标特征值；

语音信号识别模块，用于根据所述每一帧音频信号的目标特征值，识别音频信号中的语音信号。

第三方面，本发明实施例提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例提供的语音信号识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例提供的语音信号识别方法。

本发明实施例提供的技术方案，在获取到音频信号之后，计算每一帧音频信号的至少两个特征值，对至少两个特征值进行分析，得到每个特征值的主成分特征值，并从每一帧音频信号中彼此不相关的主成分特征值之间选择目标特征值，根据所述每一帧音频信号的目标特征值，识别音频信号中的语音信号。通过上述方式实现无需繁琐地进行大量数据的训练的情况下进行语音信号识别，同时又能够保证较强的鲁棒性。

附图说明

图1是本发明实施例一中提供的一种语音信号识别方法的流程图；

图2是本发明实施例二中提供的一种语音信号识别方法的流程图；

图3是本发明实施例三中提供的一种语音信号识别装置的结构示意图；

图4是本发明实施例四中提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种语音信号识别方法的流程图，本实施例可适用于如何从包括噪声的音频信号中，准确检测出语音信号的情况，该方法可以由语音信号识别装置来执行，该装置可采用软件和/或硬件的方式实现，该装置可集成于计算设备中，也可独立作为一个设备，具体包括如下步骤：

S110、获取音频信号，并计算每一帧音频信号的至少两个特征值，其中，所述音频信号中包括语音信号。

本实施例中，音频信号可以是通过录音设备、音频采集设备如麦克风、通话设备或者音频存储设备中获取到的。音频信号的特征值能够代表音频信号的特征，通过分析音频信号的特征值能够获取音频信号的信息，上述音频信号的特征值至少可以包括Teager-Kaiser能量特征值、相对最小平均幅度差特征值、谐波噪声比特征值和频谱变迁特征值。

语音信号是指音频信号中的有效信号，示例性的，语音信号为说话人一段时间内连续说话的信号。可选的，由于环境、采集设备本身等干扰，使得所获取的音频信号中除包含语音信号之外，还存在背景干扰信号即噪声信号。上述背景干扰信号包括但不限于：说话人开始讲话之前、停止讲话之后采集设备及环境背景中嘈杂的声音信号。

S120、对所述至少两个特征值进行分析，得到每个特征值的主成分特征值，其中，不同特征值的主成分特征值之间彼此不相关。

对每一帧音频信号的Teager-Kaiser能量特征值、相对最小平均幅度差特征值、谐波噪声比特征值和频谱变迁特征值中的至少两个特征值进行分析。示例性的，Teager-Kaiser能量特征值的计算方法如下：

其中，k为经验值，可选的取10，j为当前帧数，M为一帧的长度(有多少个采样点)，P为帧与帧叠加的部分长度，n为当前所在的采样点，x为音频信号。

示例性的，相对最小平均幅度差特征值的计算方法如下：

其中，c为相对最小平均幅度差特征值，r为归一化自相关函数，β为一常数，通常取0.6到1之间，可选的为0.8。ω为窗函数，x为音频信号，j为当前帧数，k可选的取10ms，其中，D为相对最小平均幅度差特征值的近似值，t的含义为帧数，x为音频信号。

示例性的，计算谐波噪声比特征值的方法如下：

r为归一化自相关函数，h为谐波噪声比，x为音频信号。

示例性的，计算频谱变迁特征值的计算方法如下：

SF_p(t)＝||X_m(t，ω)-X_m(t-1，ω)||₁，其中，X(t,ω)为t帧，第ω个频点的值，||·||₁为1范。ω可选的取100-7000Hz，x为音频信号。

在得到上述Teager-Kaiser能量特征值、相对最小平均幅度差特征值、谐波噪声比特征值和频谱变迁特征值中的至少两个特征值后，计算得到每一个特征值的主成分特征值。其中，每一个主成分特征值的计算是通过将Teager-Kaiser能量特征值、相对最小平均幅度差特征值、谐波噪声比特征值和频谱变迁特征值中的至少两个特征值进行组合，通过降维的方式，以使每一个特征值的主成分特征值之间彼此不相关，并且每个特征值的主成分特征值能够代表该特征值对应的帧音频信号的特征。

S130、从每一帧音频信号的每个主成分特征值中选择目标特征值。

上述目标特征值能够代表对应帧音频信号中的信息，示例性的，能够通过每一帧音频信号的目标特征值识别该帧音频信号是否为语音信号。

在得到每一帧音频信号的Teager-Kaiser能量特征值的主成分特征值、相对最小平均幅度差特征值的主成分特征值、谐波噪声比特征值的主成分特征值和频谱变迁特征值的主成分特征值中的至少两个主成分特征值后，从每一帧音频信号的每个主成分特征值中选择满足预设条件的特征值作为目标特征值。其中，预设条件是使得目标特征值能够代表对应帧音频信号的特征，可选的，可以选择预设条件将每一帧音频信号中主成分特征值最大的主成分特征值作为目标特征值。

S140、根据所述每一帧音频信号的目标特征值，识别音频信号中的语音信号。

具体地，将任一帧音频信号作为当前帧音频信号，并对每一个当前帧音频信号进行至少如下操作：

将当前帧音频信号的目标特征值与所述语音信号的当前阈值进行比较，其中，所述阈值的初始值为第一帧音频信号的目标特征值；

如果所述当前帧音频信号的目标特征值大于所述语音信号的当前阈值，则识别出所述当前帧音频信号为语音信号；

根据所述当前帧音频信号的目标特征值与所述语音信号的当前阈值计算更新阈值，并利用所述更新阈值更新所述语音信号的当前阈值。

在获取第一帧音频信号后，计算第一帧音频信号的Teager-Kaiser能量特征值、相对最小平均幅度差特征值、谐波噪声比特征值和频谱变迁特征值中的至少两个特征值后，并计算第一帧音频信号每一个特征值的主成分特征值，从第一帧音频信号的每个主成分特征值中选择目标特征值，对应的目标特征值就是语音信号阈值的初始值。针对每一帧音频信号，重复上述操作，将当前帧音频信号的目标特征值与语音信号的阈值进行比较，当当前帧音频信号的目标特征值大于语音信号的当前阈值，则识别出当前帧音频信号为语音信号，并根据当前帧音频信号的目标特征值与语音信号的当前阈值计算更新阈值，示例性的，将当前帧音频信号的目标特征值的权重设定为0.2，将语音信号的当前阈值的权重设定为0.8，再对两者进行求和以得到更新阈值。在判断下一帧音频信号是否为语音信号时，语音信号的当前阈值为更新阈值。

本发明实施例提供的技术方案，在获取到音频信号之后，计算每一帧音频信号的至少两个特征值，对至少两个特征值进行分析，得到每个特征值的主成分特征值，并从每一帧音频信号中彼此不相关的主成分特征值之间选择目标特征值，根据所述每一帧音频信号的目标特征值，识别音频信号中的语音信号。上述技术方案无需繁琐地进行大量数据的训练，并且特征值的计算复杂度低，便于实时实现，也能够较好地排除噪声干扰。

实施例二

图2为本发明实施例二提供的一种语音信号识别方法的流程图，本实施例在上述实施例一的基础上，进一步对计算每一帧音频信号的至少两个特征值，以及对至少两个特征值进行分析，得到每个特征值的主成分特征值进行详细解释说明。参见图2，该方法具体可以包括：

S210、获取音频信号，将所述音频信号进行分帧和加窗，根据加窗后的所述音频信号，得到所述音频信号的频谱信息。

本实施例中，在获取到音频信号后，可将上述音频信号按照时序进行划分，形成每帧音频信号，其中，每帧音频信号是音频信号的最小观测单位。由于语音信号为短时平稳信号，所以需要进行分帧处理，以便把每一帧音频信号作为平稳信号处理。具体地，由于对音频信号进行分帧处理后获取的至少两帧音频信号的起始段和末尾段会出现不连续的情况，为了使分帧后的音频信号变得连续，需要对每一帧音频信号进行加窗。加窗是每一帧音频信号乘以汉明窗，可增加每一帧音频信号的左端与每一帧音频信号的右端的连续性。以使音频信号转换为短时平稳信号。通过对每一帧音频信号进行分帧和加窗，能够得到音频信号的频谱信息。

S220、根据所述频谱信息，计算每一帧音频信号的至少两个特征值。

对每一帧音频信号的Teager-Kaiser能量特征值、相对最小平均幅度差特征值、谐波噪声比特征值和频谱变迁特征值中的至少两个特征值进行计算。

S230、将所述至少两个特征值进行归一化得到对应的特征值矩阵。

再计算得到Teager-Kaiser能量特征值、相对最小平均幅度差特征值、谐波噪声比特征值和频谱变迁特征值中的至少两个特征值后，将上述至少两个特征值组成的矩阵进行归一化，并将归一化之后的矩阵设定为X。其中，归一化是一种无量纲处理手段，使物理系统数值的绝对值变成某种相对值关系，以得到对应的特征值矩阵。示例性的，将Teager-Kaiser能量特征值、相对最小平均幅度差特征值、谐波噪声比特征值和频谱变迁特征值均进行归一化，得到一个4维的特征值矩阵。

S240、计算所述特征值矩阵的协方差矩阵。

示例性的，计算4维的特征值矩阵的协方差矩阵。

S250、根据所述协方差矩阵，得到每个特征值的主成分特征值。

示例性的，计算协方差矩阵的特征值和特征向量，取特征向量按特征值从大到小排列，取第一列特征向量组成P，按照Y＝PX计算出Y。Y中的每一个特征值为主成分特征值。

S260、从每一帧音频信号的每个主成分特征值中选择目标特征值。

从每一帧音频信号的每个主成分特征值中选择满足预设条件的特征值作为目标特征值，其中，预设条件是使得目标特征值能够代表对应帧音频信号的特征，可选的，可以选择预设条件将每一帧音频信号中主成分特征值最大的主成分特征值作为目标特征值。

S270、根据所述每一帧音频信号的目标特征值，识别音频信号中的语音信号。

本发明实施例提供的技术方案，在获取到音频信号之后，通过对每一帧音频信号进行分帧加窗，并计算每一帧音频信号的至少两个特征值，对至少两个特征值进行分析，得到每个特征值的主成分特征值，以便选择目标特征值。由于目标特征值只有一种与Teager-Kaiser能量特征值有关，Teager-Kaiser能量特征值的影响所占的权重在决策中很小，所以此技术方案受噪声强度的干扰小，噪声鲁棒性强。

实施例三

图3为本发明实施例三提供的一种语音信号识别装置的结构示意图，该装置可执行本发明任意实施例所提供的语音信号识别方法，具备执行方法相应的功能模块和有益效果。如图3所示，该装置可以包括：

音频信号获取模块310，用于获取音频信号，并计算每一帧音频信号的至少两个特征值，其中，所述音频信号中包括语音信号；

特征值分析模块320，用于对所述至少两个特征值进行分析，得到每个特征值的主成分特征值，其中，不同特征值的主成分特征值之间彼此不相关；

目标特征值选择模块330，用于从每一帧音频信号的每个主成分特征值中选择目标特征值；

语音信号识别模块340，用于根据所述每一帧音频信号的目标特征值，识别音频信号中的语音信号。

其中，特征值分析模块320，具体用于：

将所述至少两个特征值进行归一化得到对应的特征值矩阵；

计算所述特征值矩阵的协方差矩阵；

根据所述协方差矩阵，得到每个特征值的主成分特征值。

所述装置还包括：

分帧加窗模块，用于将所述音频信号进行分帧和加窗；

频谱信息计算模块，用于根据加窗后的所述音频信号，得到所述音频信号的频谱信息；

相应的，所述音频信号获取模块310，具体用于：

根据所述频谱信息，计算每一帧音频信号的至少两个特征值。

目标特征值选择模块330，具体用于：

从每一帧音频信号的每个主成分特征值中选择满足预设条件的特征值作为目标特征值。

语音信号识别模块340，具体用于：

将任一帧音频信号作为当前帧音频信号，并对每一个当前帧音频信号进行至少如下操作：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

实施例四

图4为本发明实施例四提供的一种设备的结构示意图，图4示出了适于用来实现本发明实施例实施方式的示例性设备的结构示意图。图4显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的语音信号识别方法，包括：获取音频信号，并计算每一帧音频信号的至少两个特征值，其中，所述音频信号中包括语音信号；

从每一帧音频信号的每个主成分特征值中选择目标特征值；

实施例五

本发明实施例五还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时可实现上述任意实施例所述的语音信号识别方法，包括：

从每一帧音频信号的每个主成分特征值中选择目标特征值；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音信号识别方法，其特征在于，包括：

从每一帧音频信号的每个主成分特征值中选择目标特征值；

2.根据权利要求1所述的语音信号识别方法，其特征在于，所述对所述至少两个特征值进行分析，得到每个特征值的主成分特征值，包括：

将所述至少两个特征值进行归一化得到对应的特征值矩阵；

计算所述特征值矩阵的协方差矩阵；

根据所述协方差矩阵，得到每个特征值的主成分特征值。

3.根据权利要求1所述的语音信号识别方法，其特征在于，在计算每一帧音频信号的至少两个特征值之前，所述方法还包括：

将所述音频信号进行分帧和加窗；

根据加窗后的所述音频信号，得到所述音频信号的频谱信息；

相应的，所述计算每一帧音频信号的至少两个特征值，包括：

4.根据权利要求1所述的语音信号识别方法，其特征在于，从每一帧音频信号的每个主成分特征值中选择目标特征值，包括：

5.根据权利要求1所述的语音信号识别方法，其特征在于，所述根据所述每一帧音频信号的目标特征值，识别音频信号中的语音信号，包括：

6.一种语音信号识别装置，其特征在于，包括：

7.根据权利要求6所述的语音信号识别装置，其特征在于，所述特征值分析模块，具体用于：

将所述至少两个特征值进行归一化得到对应的特征值矩阵；

计算所述特征值矩阵的协方差矩阵；

根据所述协方差矩阵，得到每个特征值的主成分特征值。

8.根据权利要求6所述的语音信号识别装置，其特征在于，所述装置还包括：

分帧加窗模块，用于将所述音频信号进行分帧和加窗；

相应的，所述音频信号获取模块，具体用于：

9.根据权利要求6所述的语音信号识别装置，其特征在于，所述语音信号识别模块具体用于：

10.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的语音信号识别方法。