CN104575498A

CN104575498A - 有效语音识别方法及系统

Info

Publication number: CN104575498A
Application number: CN201510055655.3A
Authority: CN
Inventors: 付姝华
Original assignee: SHENZHEN YUNZHIXUN NETWORK TECHNOLOGY Co Ltd
Current assignee: SHENZHEN YUNZHIXUN NETWORK TECHNOLOGY Co Ltd
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2015-04-29
Anticipated expiration: 2035-01-30
Also published as: CN104575498B

Abstract

有效语音识别方法及系统，方法包括以下步骤：步骤A：实时获取当前语音帧的语音频谱分布；步骤B：实时获取当前语音帧的短时能量和长时能量；步骤C：根据语音频谱分布、长时能量和短时能量获取语音类似度；以及步骤D：判断语音类似度是否大于预设的语音类似度阈值，若是，执行步骤E；若否，执行步骤F；步骤E：判定当前语音帧为效语音；以及步骤F：判定当前语音帧为非语音。上述发明实时获取每一语音帧的语音频谱分布和能量变化，并根据语音频谱分布和能量变化快速识别出效语音，无需像传统方法那样结合多帧才能综合判断，故，即使所应用的场景频繁切换也能可靠快速地识别。

Description

有效语音识别方法及系统

技术领域

本发明涉及一种有效语音识别方法及系统。

背景技术

传统识别有效语音的方法一般基于能量大小、过零率、自相关等原理，其需连续对若干语音数据帧综合作出判决，这些方法在固定的场景下有较好识别效果，但对于非固定场景及场景频繁切换时，如安静环境到办公室吵杂环境、公交内、工地等等，实时识别效果差，且有效语音的识别率会大幅降低。

发明内容

针对现有技术的不足，本发明旨在于提供一种可解决上述技术问题的有效语音识别方法及系统。

为实现上述目的，本发明采用如下技术方案：

一种有效语音识别方法，其包括以下步骤：

步骤A：实时获取当前语音帧的语音频谱分布；

步骤B：实时获取当前语音帧的短时能量和长时能量；

步骤C：根据语音频谱分布、长时能量和短时能量获取语音类似度；以及

步骤D：判断语音类似度是否大于预设的语音类似度阈值，若是，执行步骤E；若否，执行步骤F；

步骤E：判定当前语音帧为有效语音；以及

步骤F：判定当前语音帧为非语音。

优选地，步骤A包括以下子步骤：

步骤A1：实时根据傅里叶变换将当前的语音帧变换为语音频域；

步骤A2：获取该语音频域的各频谱处的能量；以及

步骤A3：根据各频谱处的能量统计语音频谱分布。

优选地，步骤A1根据公式I将当前的语音换到语音频域X(k)，公式I为X(k)＝FFT(x(j))，j∈(0,N)为时域样点序号，k∈(0,N)为频域样点序号；

步骤A2根据公式II计算该语音频域的各频谱处的能量E(k)，公式II为E(k)＝|X(k)|^2,k∈(0,N)；

步骤A3根据公式III和各频谱处的能量统计语音频谱分布p，公

式III为

p = Σ_{i = 0}^{N} ω_{i} * \log (\frac{E (k)}{\frac{1}{N} Σ_{i = 0}^{N} E (k)}),

i∈(0,N),

Σ_{i = 0}^{N} ω_{i} = 1,

其中，ω_i为固定值，对应各子频带权重系数。

优选地，步骤B包括以下子步骤：

步骤B1：根据公式IV计算该语音频域的短时能量E_s，公式IV为i∈(0,N)，b为滤波器更新系数，取值范围为[0，1]，Ei指第i个频谱能量；以及

步骤B2：根据公式V计算该语音频域的长时能量E_l，公式V为i∈(0,N)，a为滤波器更新系数，取值范围[0，1]，Ei指第i个频谱能量。

优选地，步骤C根据公式VI、语音频谱分布p、长时能量E_l和短时能量E_s计算语音类似度γ，公式VI为c为常数，取值范围为[0，1]；e为自然指数。

一种有效语音识别系统，其包括以下模块：

模块A：实时获取当前语音帧的语音频谱分布；

模块B：实时获取当前语音帧的短时能量和长时能量；

模块C：根据语音频谱分布、长时能量和短时能量获取语音类似度；以及

模块D：判断语音类似度是否大于预设的语音类似度阈值，若是，执行模块E；若否，执行模块F；

模块E：判定当前语音帧为有效语音；以及

模块F：判定当前语音帧为非语音。

优选地，模块A包括以下子模块：

模块A1：实时根据傅里叶变换将当前的语音帧变换为语音频域；

模块A2：获取该语音频域的各频谱处的能量；以及

模块A3：根据各频谱处的能量统计语音频谱分布。

优选地，模块A1根据公式I将当前的语音换到语音频域X(k)，公式I为X(k)＝FFT(x(j))，j∈(0,N)为时域样点序号，k∈(0,N)为频域样点序号。

模块A2根据公式II计算该语音频域的各频谱处的能量E(k)，公式II为E(k)＝|X(k)|^2,k∈(0,N)；

模块A3根据公式III和各频谱处的能量统计语音频谱分布p，公

式III为

p = Σ_{i = 0}^{N} ω_{i} * \log (\frac{E (k)}{\frac{1}{N} Σ_{i = 0}^{N} E (k)}),

i∈(0,N),

Σ_{i = 0}^{N} ω_{i} = 1,

其中，ω_i为固定值，对应各子频带权重系数。

优选地，模块B包括以下子模块：

模块B1：根据公式IV计算该语音频域的短时能量E_s，公式IV为i∈(0,N)，b为滤波器更新系数，取值范围[0，1]，Ei指第i个频谱能量；以及

模块B2：根据公式V计算该语音频域的长时能量E_l，公式V为i∈(0,N)，a为滤波器更新系数，取值范围[0，1]，Ei指第i个频谱能量。

优选地，模块C根据公式VI、语音频谱分布p、长时能量E_l和短时能量E_s计算语音类似度γ，公式VI为c为常数，取值范围为[0，1]；e为自然指数。

本发明的有益效果至少如下：

上述发明实时获取每一语音帧的语音频谱分布和能量变化，并根据语音频谱分布和能量变化快速识别出有效语音，无需像传统方法那样结合多帧才能综合判断，故，即使所应用的场景频繁切换也能可靠快速地识别。

附图说明

图1为本发明有效语音识别方法的较佳实施方式的流程图。

具体实施方式

下面将结合附图以及具体实施方式，对本发明做进一步描述：

请参见图1，本发明涉及一种有效语音识别方法，其较佳实施方式包括以下步骤：

步骤A：实时获取当前语音帧的语音频谱分布；

本实施例中，步骤A包括以下子步骤：

步骤A1：实时根据傅里叶变换将当前的语音帧变换为语音频域；优选地，根据公式I将当前的语音换到语音频域X(k)，公式I为X(k)＝FFT(x(j))，j∈(0,N)为时域样点序号，k∈(0,N)为频域样点序号。

步骤A2：获取该语音频域的各频谱处的能量；

优选地，根据公式II计算该语音频域的各频谱处的能量E(k)，公式II为E(k)＝|X(k)|^2,k∈(0,N)；

步骤A3：根据各频谱处的能量统计语音频谱分布；

优选地，根据公式III和各频谱处的能量统计语音频谱分布p，

公式III为

p = Σ_{i = 0}^{N} ω_{i} * \log (\frac{E (k)}{\frac{1}{N} Σ_{i = 0}^{N} E (k)}),

i∈(0,N),

Σ_{i = 0}^{N} ω_{i} = 1,

其中，ω_i为固定值，对应各子频带权重系数，此权重系数根据语音频域从低到高呈线性或指数下降分布。

步骤B：实时获取当前语音帧的长时能量和短时能量；

本实施例中，步骤B包括以下子步骤：

步骤B1：根据公式IV计算该语音频域的短时能量E_s，公式IV为i∈(0,N)，b为滤波器更新系数，取值范围[0，1]，Ei指第i个频谱能量。

步骤C：根据语音频谱分布、长时能量和短时能量获取语音类似度；

步骤D：判断语音类似度γ是否大于预设的语音类似度阈值，若是，执行步骤E，若否，执行步骤F。其中，语音类似度阈值可为基于经验或仿真的固定门限值。

步骤E：判定当前语音帧为有效语音。

步骤F：判定当前语音帧为非语音，即为噪音和杂声之类。

上述公式涉及的N均指样点个数。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

1.一种有效语音识别方法，其特征在于：其包括以下步骤：

步骤A：实时获取当前语音帧的语音频谱分布；

步骤B：实时获取当前语音帧的短时能量和长时能量；

步骤E：判定当前语音帧为有效语音；以及

步骤F：判定当前语音帧为非语音。

2.如权利要求1所述的有效语音识别方法，其特征在于：步骤A包括以下子步骤：

步骤A2：获取该语音频域的各频谱处的能量；以及

步骤A3：根据各频谱处的能量统计语音频谱分布。

3.如权利要求2所述的有效语音识别方法，其特征在于：步骤A1根据公式I将当前的语音换到语音频域X(k)，公式I为X(k)＝FFT(x(j))，j∈(0,N)为时域样点序号，k∈(0,N)为频域样点序号；

步骤A3根据公式III和各频谱处的能量统计语音频谱分布p，公式III为

p = Σ_{i = 0}^{N} ω_{i} * \log (\frac{E (k)}{\frac{1}{N} Σ_{i = 0}^{N} E (k)}), i &Element; (0, N), Σ_{i = 0}^{N} ω_{i} = 1,

其中，ω_i为固定值，对应各子频带权重系数。

4.如权利要求1至3中任一项所述的有效语音识别方法，其特征在于：步骤B包括以下子步骤：

步骤B1：根据公式IV计算该语音频域的短时能量E_s，公式IV为i∈(0,N)，b为滤波器更新系数，取值范围为[0，1]；以及

步骤B2：根据公式V计算该语音频域的长时能量E_l，公式V为i∈(0,N)，a为滤波器更新系数，取值范围[0，1]。

5.如权利要求1至3中任一项所述的有效语音识别方法，其特征在于：步骤C根据公式VI、语音频谱分布p、长时能量E_l和短时能量E_s计算语音类似度γ，公式VI为c为常数，取值范围为[0，1]；e为自然指数。

6.一种有效语音识别系统，其特征在于：其包括以下模块：

模块A：实时获取当前语音帧的语音频谱分布；

模块B：实时获取当前语音帧的短时能量和长时能量；

模块E：判定当前语音帧为有效语音；以及

模块F：判定当前语音帧为非语音。

7.如权利要求6所述的有效语音识别系统，其特征在于：模块A包括以下子模块：

模块A2：获取该语音频域的各频谱处的能量；以及

模块A3：根据各频谱处的能量统计语音频谱分布。

8.如权利要求7所述的有效语音识别系统，其特征在于：模块A1根据公式I将当前的语音换到语音频域X(k)，公式I为X(k)＝FFT(x(j))，j∈(0,N)为时域样点序号，k∈(0,N)为频域样点序号；

模块A3根据公式III和各频谱处的能量统计语音频谱分布p，公式III为

p = Σ_{i = 0}^{N} ω_{i} * \log (\frac{E (k)}{\frac{1}{N} Σ_{i = 0}^{N} E (k)}), i &Element; (0, N), Σ_{i = 0}^{N} ω_{i} = 1,

其中，ω_i为固定值，对应各子频带权重系数。

9.如权利要求6至8中任一项所述的有效语音识别系统，其特征在于：模块B包括以下子模块：

模块B1：根据公式IV计算该语音频域的短时能量E_s，公式IV为i∈(0,N)，b为滤波器更新系数，取值范围为[0，1]，E_i指第i个频谱能量；以及

10.如权利要求6至8中任一项所述的有效语音识别系统，其特征在于：模块C根据公式VI、语音频谱分布p、长时能量E_l和短时能量E_s计算语音类似度γ，公式VI为c为常数，取值范围为[0，1]，e为自然指数。