CN105719642A

CN105719642A - 连续长语音识别方法及系统、硬件设备

Info

Publication number: CN105719642A
Application number: CN201610111643.2A
Authority: CN
Inventors: 黄博; 张国兴
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-02-29
Filing date: 2016-02-29
Publication date: 2016-06-29

Abstract

本发明涉及语言信号识别技术领域，提供一种连续长语音识别方法及系统、硬件设备，以解决在连续长语音识别过程中，大段语音造成服务器缓冲区溢出的问题，该方法包括：按照预设的分帧时间长度对缓冲区内的数据进行分帧，识别各帧信号的类型；对于各个正常语音帧后的首个静音帧，计算连续的静音帧的总静音时间，如果总静音时间大于预设停顿时间阈值，则将所述连续的静音帧设置为停顿状态，分别将两个连续停顿状态之间的信号顺序保存在各个切片中。本发明提出的技术方案快速准确的将长语音切断成短语句切片，并在执行过程中丢弃长段不影响语音识别准确率的静音包，最后分段对各个切片进行识别，有效避免了大段语音造成服务器缓冲区溢出问题。

Description

连续长语音识别方法及系统、硬件设备

技术领域

本发明属于语言信号识别技术领域，特别涉及一种连续长语音识别方法及系统、硬件设备。

背景技术

目前的语音识别领域，HMM(HiddenMarkovModel，隐马尔可夫模型)是语音识别的基础，语音识别中的主流RNN声学模型框架，主要还包含两部分：双向LSTMRNN和CTC输出层。双向RNN对当前语音帧进行判断时，要使用历史的语音信息和未来的语音信息，即需要语音有正确的开始帧和结束帧，才能正确识别，正确的开始帧必须是一句话的开始，它是数据的第一帧，正确的结束帧必须是一句话的结束，它是数据的最后一帧，只有满足上述条件才能把一句话识别完整。

但是，在进行语言识别时，语音识别电脑(或云端服务器)的缓冲有限，当语音数据到来时，需要在数据缓冲区等待识别，随着时间累计，必然造成电脑(或云端服务器)缓冲溢出，使电脑卡死(或服务器阻塞)，目前语音识别方法为了防止以上情况，一般通过限制语音长度和限制数据量来解决，这会导致当连续语音超过限定值时被强行切断，从而造成不正确结束帧，强行切断帧的相关语音识别不准确，其后的音频数据则无法识别。

发明内容

【要解决的技术问题】

本发明的目的是提供一种连续长语音识别方法及系统、硬件设备，通过将连续语音切片成短语音数据序列进行识别，以解决在连续长语音识别过程中，大段语音造成服务器缓冲区溢出的问题。

【技术方案】

本发明是通过以下技术方案实现的。

本发明首先涉及一种连续长语音识别方法，该方法包括步骤：

A、初始化缓冲区，设置分帧时间长度、停顿时间阈值；

B、将待识别的连续长语音读入缓冲区并对缓冲区内的数据进行降噪处理；

C、按照预设的分帧时间长度对缓冲区内的数据进行分帧，识别各帧信号的类型，所述信号类型包括正常语音帧和静音帧；

D、对于各个正常语音帧后的首个静音帧，计算连续的静音帧的总静音时间，如果总静音时间大于预设停顿时间阈值，则将所述连续的静音帧设置为停顿状态，分别将两个连续停顿状态之间的语音信号保存在各个切片中，并在各个切片中追加一段静音帧；

E、分别对各个切片进行识别。

上述步骤中，通过步骤D，将长语音切断成短语句切片，并在执行过程中丢弃长段不影响语音识别准确率的静音包，有效避免了大段语音造成服务器缓冲区溢出问题。具体地，对于连续的长语音信号，通过步骤C的分帧得到了信号类型为正常语音帧或静音帧的分段信号，通过对连续的静音帧的总静音时间进行判断，从而判断该连续的静音帧是否为静音包(即语音信号是否为停顿状态)，对于连续的两个静音包之间的信号，将其保存在切片中，通过步骤E进行短语音信号识别。

作为一种优选的实施方式，所述步骤B具体包括：首先对缓冲区内的数据进行快速傅立叶变换，并将非人声频率部分的声音系数设置为0，然后进行小波变换，并根据场景调整相应尺度小波系数，然后将处理后得到的数据替换原缓冲区的数据。

作为另一种优选的实施方式，所述步骤C根据各帧信号的平均能量值、过零率对该信号的类型进行识别。

作为另一种优选的实施方式，所述步骤A中预设的的停顿时间阈值为100～150ms。

作为另一种优选的实施方式，所述步骤D中追加的静音帧的长度为30～50ms。

本发明还涉及一种连续长语音识别系统，包括初始化模块、降噪模块、分帧模块、切片模块、分片识别模块，

所述初始化模块被配置成：初始化缓冲区，设置分帧时间长度、停顿时间阈值；

所述降噪模块被配置成：将待识别的连续长语音读入缓冲区并对缓冲区内的数据进行降噪处理；

所述分帧模块被配置成：按照预设的分帧时间长度对缓冲区内的数据进行分帧，识别各帧信号的类型，所述信号类型包括正常语音帧和静音帧；

所述切片模块被配置成：对于各个正常语音帧后的首个静音帧，计算连续的静音帧的总静音时间，如果总静音时间大于预设停顿时间阈值，则将所述连续的静音帧设置为停顿状态，分别将两个连续停顿状态之间的语音信号保存在各个切片中，并在各个切片中追加一段静音帧；

所述分片识别模块被配置成：分别对各个切片进行识别。

作为一种优选的实施方式，所述降噪模块具体被配置成：首先对缓冲区内的数据进行快速傅立叶变换，并将非人声频率部分的声音系数设置为0，然后进行小波变换，并根据场景调整相应尺度小波系数，然后将处理后得到的数据替换原缓冲区的数据。

作为另一种优选的实施方式，所述分帧模块根据各帧信号的平均能量值、过零率对该信号的类型进行识别。

作为另一种优选的实施方式，所述初始化模块预设的停顿时间阈值为100～150ms。

作为另一种优选的实施方式，所述切片模块中追加的静音帧的长度为30～50ms。

本发明还涉及一种硬件设备，所述硬件设备被配置成安装有上述的任一连续长语音识别系统以对连续长语音进行识别。

【有益效果】

本发明提出的技术方案具有以下有益效果：

本发明综合运用快速傅立叶变换和小波变换，并结合人类语言特点，准确判断人类语句间隙，快速准确的将长语音切断成短语句切片，并在执行过程中丢弃长段不影响语音识别准确率的静音包，最后分段对各个切片进行识别，有效避免了大段语音造成服务器缓冲区溢出问题。同时，切片满足语音引擎识别所要求的开始帧和结束帧的约束，识别率等同于短语音。

附图说明

图1为本发明的实施例一提供的连续长语音识别系统的原理框图。

图2为本发明的实施例二提供的连续长语音识别方法中的切片编号流程示意图。

图3为本发明的实施例二提供的连续长语音识别方法中的分组切片识别流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的具体实施方式进行清楚、完整的描述。

实施例一

图1为本发明实施例一提供的连续长语音识别系统的原理框图。如图1所示，该连续长语音识别系统包括初始化模块、降噪模块、分帧模块、切片模块、分片识别模块。

本实施例中，初始化模块被配置成：初始化缓冲区，设置分帧时间长度、停顿时间阈值。具体地，初始化模块预设的停顿时间阈值为120ms。

本实施例中，降噪模块用于将待识别的连续长语音读入缓冲区并对缓冲区内的数据进行降噪处理。降噪模块具体被配置成：首先对缓冲区内的数据进行快速傅立叶变换，并将非人声频率部分的声音系数设置为0(人的发声频率在100Hz到10000Hz范围内)，以最大限度滤除人声外噪声，然后进行小波变换，并根据场景预设阀值调整相应尺度小波系数到预设小波系数，进一步降低噪声，将小波变换得到的数据替换原缓冲区的数据。

本实施例中，分帧模块被配置成：按照预设的分帧时间长度对缓冲区内的数据进行分帧，识别各帧信号的类型，其中信号类型包括正常语音帧和静音帧。分帧模块根据各帧信号的平均能量值、过零率、超预设阈值次数对该信号的类型进行识别。

本实施例中，切片模块被配置成：对于各个正常语音帧后的首个静音帧，计算连续的静音帧的总静音时间，如果总静音时间大于预设停顿时间阈值，则将该连续的静音帧设置为停顿状态，分别将两个连续停顿状态之间的信号顺序保存在各个切片中。具体地，切片模块的处理流程可以参考下述具体方法实施例。

本实施例中，分片识别模块被配置成：分别对各个切片进行识别。

采用实施例一中的系统实现的连续长语音识别方法可以参考下述具体方法实施例。

实施例二

实施例二提供一种连续长语音识别方法，该方法包括切片编号流程和分组切片识别流程。

图2为本发明实施例二提供的连续长语音识别方法中的切片编号流程示意图。如图2所示，切片编号流程包括以下步骤：

1.1：初始化缓冲区，设置分帧时间长度、停顿时间阈值。具体地，预设的停顿时间阈值为120ms。具体地，在内存中开辟一段缓冲区，并分成百字节级的小段读入待识别的音频数据，在读入音频数据段(实际读入字节数会小于等于设定值)后计算缓冲区是否已满，如果缓冲区未满且未到音频数据尾端则继续读入音频数据，如果缓冲区满或已经到数据尾则进入步骤1.2，已经到数据尾时需要设置到尾标志。

1.2：该步骤对缓冲区内的数据进行降噪处理，具体地，对缓冲区内的数据进行快速傅立叶变换，并将非人声频率部分的声音系数设置为0(人的发声频率在100Hz到10000Hz范围内)，以最大限度滤除人声外噪声，结果数据保存回原缓冲区。接着对缓冲区内的数据进行小波变换，并根据场景予设阀值调整相应尺度小波系数到予设值，进一步降低噪声，结果数据保存回原缓冲区。

1.3：检测缓冲区是否有未处理数据，如果有未处理数据则转入步骤1.4，否则转入步骤1.7。

1.4：按照预设的分帧时间长度对缓冲区内的数据进行分帧，识别各帧信号的类型，其中信号类型包括正常语音帧和静音帧。分帧模块根据各帧信号的平均能量值、过零率、超预设阈值次数对该信号的类型进行识别。由于采取了分步骤1.2的降噪操作，因此该步骤很容易区分正常语音帧和静音帧。该步骤中，如果统计结果为静音帧，则进入步骤1.5；如果统计结果为正常语音帧，则通过步骤1.6将该正常语音帧写入切片。

1.5：对连续的静音帧数量进行统计，计算连续的静音帧的总体静音时间，如果静音时间大于等于停顿时间阈值(人类语音，东方语系如中文的字与字之间会有停顿，大约2～20ms之间，而西方语系如英文单词与单词之间没有停顿。人类任何语系句与句之间都有停顿，自然语音停顿大于100ms)，即认为该连续的静音帧处于停顿状态，检查是否已经存在新开辟的切片，如果已经存在新开辟的切片，则给该切片编号，把一定数量(长度30～50ms)连续的静音帧数据追加到该切片中，并关闭该切片，然后返回至步骤1.3；如果静音时间小于停顿时间阈值，则通过步骤1.6将静音帧写入切片。从步骤1.5可知，本实施例将处于停顿状态的静音帧作为各个切片编号的界限。

1.6：检查是否已经存在新开辟的切片，如果已经存在新开辟的切片，则向切片追加数据，然后回到分步骤3；如果不存在新开辟的切片，则新开辟一个切片，并给该切片写数据，然后回到步骤1.3。

1.7：当缓冲区无未处理数据时，检查是否到尾标志，如果到达尾标志，则回到步骤1.1，重新填充缓冲区数据。如果已经到数据尾，检查是否已经存在新开辟的切片，如果已经存在新开辟的切片，则给切片编号，关闭切片，然后结束切片编号流程进入分组切片识别流程。如果已经到数据尾且无新开辟的切片，则直接结束切片编号流程进入分组切片识别流程。

图3为本发明实施例二提供的连续长语音识别方法中的分组切片识别流程示意图。如图3所示分组切片识别流程包括以下步骤：

2.1：将切片编号计数器设置为“0”。

2.2：按切片编号发送切片数据到识别引擎(本地或云端服务器)进行识别，等待周期数计数器设置为“0”。其中识别引擎采用方法进行识别，由于该识别方法是针对短语音的识别，为本领域的现有技术，因此本实施例不对其进行详细描述。

2.3：设置一个等待周期值，到达预设识别时间则将等待周期数计数器加1。

2.4：判断识别引擎是否有结果返回，如果有结果返回则转入步骤2.5，如果无结果返回则转入步骤2.7。

2.5：如果返回标志为识别成功，则转入步骤2.6，如果返回标志为识别错误，则转入步骤2.8。

2.6：返回识别结果，判断切片编号是否为最后编号，如果是最后编号，结束分组切片识别流程；如果不是最后编号，编号计数器加1，转入步骤2.2。

2.7：将等待计数器的值与预设的等待周期值进行比较，如果等待计数器的值大于预设的等待周期值即判定超时，则转入步骤2.2重发该切片至识别引擎进行识别；否则转入步骤2.3继续等待识别引擎识别。

2.8：如果返回标志为识别错误，则判断错误类型，如果类型为可以重发，则转入步骤2.2重发该切片至识别引擎进行识别；否则返回识别错误的切片编号。

从以上实施例可以看出，本发明实施例综合运用快速傅立叶变换和小波变换，并结合人类语言特点，准确判断人类语句间隙，快速准确的将长语音切断成短语句切片，并在执行过程中丢弃长段不影响语音识别准确率的静音包，最后分段对各个切片进行识别，有效避免了大段语音造成服务器缓冲区溢出问题。同时，切片满足语音引擎识别所要求的开始帧和结束帧的约束，识别率等同于短语音的识别率。另外，本发明实施例在切片语音识别时采用重发机制，有效减低了网络对云端服务器识别过程中的不利影响。

需要说明，上述描述的实施例是本发明的一部分实施例，而不是全部实施例，也不是对本发明的限制。基于本发明的实施例，本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

Claims

1.一种连续长语音识别方法，其特征在于包括步骤：

A、初始化缓冲区，设置分帧时间长度、停顿时间阈值；

E、分别对各个切片进行识别。

2.根据权利要求1所述的连续长语音识别方法，其特征在于所述步骤B具体包括：首先对缓冲区内的数据进行快速傅立叶变换，并将非人声频率部分的声音系数设置为0，然后进行小波变换，并根据场景调整相应尺度小波系数，然后将处理后得到的数据替换原缓冲区的数据。

3.根据权利要求1所述的连续长语音识别方法，其特征在于所述步骤C根据各帧信号的平均能量值、过零率对该信号的类型进行识别。

4.根据权利要求1所述的连续长语音识别方法，其特征在于所述步骤A中的停顿时间阈值为100～150ms。

5.根据权利要求1或4所述的连续长语音识别方法，其特征在于所述步骤D中追加的静音帧的长度为30～50ms。

6.一种连续长语音识别系统，其特征在于包括初始化模块、降噪模块、分帧模块、切片模块、分片识别模块，

所述切片模块被配置成：对于各个正常语音帧后的首个静音帧，计算连续的静音帧的总静音时间，如果总静音时间大于预设停顿时间阈值，则将所述连续的静音帧设置为停顿状态，分别将两个连续停顿状态之间的信号顺序保存在各个切片中，并在各个切片中追加一段静音帧；

所述分片识别模块被配置成：分别对各个切片进行识别。

7.根据权利要求6所述的连续长语音识别系统，其特征在于所述降噪模块具体被配置成：首先对缓冲区内的数据进行快速傅立叶变换，并将非人声频率部分的声音系数设置为0，然后进行小波变换，并根据场景调整相应尺度小波系数，然后将处理后得到的数据替换原缓冲区的数据。

8.根据权利要求6所述的连续长语音识别系统，其特征在于所述分帧模块根据各帧信号的平均能量值、过零率对该信号的类型进行识别。

9.根据权利要求6所述的连续长语音识别系统，其特征在于所述初始化模块预设的停顿时间阈值为100～150ms，所述切片模块追加的静音帧的长度为30～50ms。

10.一种硬件设备，其特征在于：所述硬件设备被配置成安装有权利要求6～9中任一所述的系统以对连续长语音进行识别。