CN105118502A

CN105118502A - 语音识别系统的端点检测方法及系统

Info

Publication number: CN105118502A
Application number: CN201510413643.3A
Authority: CN
Inventors: 王凯夫; 彭守业; 牛建伟; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-07-14
Filing date: 2015-07-14
Publication date: 2015-12-02
Anticipated expiration: 2035-07-14
Also published as: CN105118502B

Abstract

本发明提出一种语音识别系统的端点检测方法及系统，其中，该方法包括：基于长短时记忆神经网络训练声学识别模型；通过预设语音端点检测算法初步识别出待识别语音信号的语音端点；分帧提取待识别语音信号的语音特征信息，并将语音特征信息输入声学识别模型，以使声学识别模型根据语音特征信息生成待识别语音信号的声学识别结果；以及根据声学识别结果对初步识别出的语音端点进行调整。本发明实施例的语音识别系统的端点检测方法，提供了一种通过声学识别结果对初步识别出的语音端点进行调整的端点检测方式，准确定位了待识别语音信号的语音端点，提高了语音端点检测的准确率，进而可提高语音识别的准确性，提高语音识别系统的性能。

Description

语音识别系统的端点检测方法及系统

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音识别系统的端点检测方法及系统。

背景技术

随着人机信息交互技术的发展，语音识别技术显示出其重要性。在语音识别系统中，语音端点检测是语音识别中的关键技术之一。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。端点检测准确与否，会直接影响到语音识别系统的性能。具体地，语音端点检测的检测结果对后端的声学模型、解码器、语言模型的识别效果，都有很大的影响，如果端点切分存储错误，则会导致漏识别或者误识别等情况的发生，进而可导致语音识别结果不准确。

目前，传统的语音端点检测方法主要是获取时域或频域能量，并与给定的阈值进行比较，从而判断出语音的起始点和终止点。端点检测的一般过程为：1、分帧提取语音特征，计算时域或频域能量；2、将能量值与阈值比较，判断语音起始点；3、若找到语音起始点，则继续向后取能量值与阈值比较，判断语音是否结束；4、若找到语音结束点，则终止查找，返回结果。

然而，在实现本发明的过程中发明人发现上述语音端点检测方法少存在以下问题：(1)上述语音端点检测方法适用于平稳噪声，且高信噪比的环境，但在非平稳噪声、较低信噪比环境下，上述语音端点检测方法的检测效果不好，所检测的语音端点的准确率较低；(2)对于不同信噪比下的语音信号，很难选取合适的阈值，无法保证安静环境下的检测精度和噪声环境下的检测精度。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的第一个目的在于提出一种语音识别系统的端点检测方法，该方法提供了一种通过声学识别结果对初步识别出的语音端点进行调整的端点检测方式，准确定位了待识别语音信号的语音端点，提高了语音端点检测的准确率，进而可提高语音识别的准确性，提高语音识别系统的性能。

本发明的第二个目的在于提出一种语音识别系统的端点检测系统。

为实现上述目的，本发明第一方面实施例的语音识别系统的端点检测方法，包括：基于长短时记忆神经网络训练声学识别模型；通过预设语音端点检测算法初步识别出待识别语音信号的语音端点；分帧提取所述待识别语音信号的语音特征信息，并将所述语音特征信息输入所述声学识别模型，以使所述声学识别模型根据所述语音特征信息生成所述待识别语音信号的声学识别结果；以及根据所述声学识别结果对初步识别出的语音端点进行调整。

本发明实施例的语音识别系统的端点检测方法，首先基于长短时记忆神经网络训练声学识别模型，并通过预设语音端点检测算法初步识别出待识别语音信号的语音端点，然后分帧提取待识别语音信号的语音特征信息，并将语音特征信息输入声学识别模型，以使声学识别模型根据语音特征信息生成待识别语音信号的声学识别结果，以及根据声学识别结果对初步识别出的语音端点进行调整。由此，提供了一种通过声学识别结果对初步识别出的语音端点进行调整的端点检测方式，准确定位了待识别语音信号的语音端点，提高了语音端点检测的准确率，进而可提高语音识别的准确性，提高语音识别系统的性能。

为实现上述目的，本发明第二方面实施例的语音识别系统的端点检测系统，包括：训练模块，用于基于长短时记忆神经网络训练声学识别模型；预处理模块，用于通过预设语音端点检测算法初步识别出待识别语音信号的语音端点；声学识别模块，用于分帧提取所述待识别语音信号的语音特征信息，并将所述语音特征信息输入所述声学识别模型，以使所述声学识别模型根据所述语音特征信息生成所述待识别语音信号的声学识别结果；以及调整模块，用于根据所述声学识别结果对初步识别出的语音端点进行调整。

本发明实施例的语音识别系统的端点检测系统，训练模块基于长短时记忆神经网络训练声学识别模型，预处理模块通过预设语音端点检测算法初步识别出待识别语音信号的语音端点，然后声学识别模块分帧提取待识别语音信号的语音特征信息，并将语音特征信息输入声学识别模型，以使声学识别模型根据语音特征信息生成待识别语音信号的声学识别结果，以及调整模块根据声学识别结果对初步识别出的语音端点进行调整。由此，提供了一种通过声学识别结果对初步识别出的语音端点进行调整的端点检测方式，准确定位了待识别语音信号的语音端点，提高了语音端点检测的准确率，进而可提高语音识别的准确性，提高语音识别系统的性能。

附图说明

图1是根据本发明一个实施例的语音识别系统的端点检测方法的流程图。

图2是基于长短时记忆神经网络训练声学识别模型的示意图。

图3是根据本发明一个实施例的初步识别出待识别语音信号的语音端点的流程图。

图4是根据本发明一个实施例的声学识别模型输出的声学识别结果的示例图。

图5是根据本发明一个实施例的语音识别系统的端点检测系统的结构示意图。

图6是根据本发明另一个实施例的语音识别系统的端点检测系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

通常连续的语音信号往往并不都包含语音信息，通过一般语音信号的波形可以看出，其中相当长的部分都是无声段或噪声段。因此，在语音识别系统中，如果不能准确识别出语音信号中的语音信息的端点(语音端点)，将无法从语音信号中准确提取其中的语音片段，无法准确提取出其中的语音片段会增加后续识别的运算量，进而影响语音识别系统的整体性能。目前，常用的语音端点检测方法主要是获取时域或频域能量，并与给定的阈值进行比较，从而判断出语音起始点和语音终止点。然而，上述通过时域或频域能量对语音端点检测方法在非平稳噪声、较低信噪比环境下，端点检测的效果不好，容易出现误判的情况。为了可以更好地识别语音信号中的语音起始点和语音终止点，该实施例提出了一种通过语音的声学特征信息(声韵母音子)对初识别出的语音起始点和语音终止点进行调整的语音端点检测方法及系统。

下面参考附图描述本发明实施例的语音识别系统的端点检测方法及系统。

如图1所示，该语音识别系统的端点检测方法包括：

S101，基于长短时记忆神经网络训练声学识别模型。

具体地，在建立声学识别模型的过程中，可先对训练库中的语音数据进行分帧处理，然后对每帧语音数据的声学特征信息进行人工标注，并提取每帧语音数据的语音特征信息。

在获得用于训练声学识别模型的语音数据的语音特征信息和声学特征信息后，可将语音特征信息作为长短时记忆神经网络的输入特征，并将声学特征信息作为长短时记忆神经网络的输出特征，通过长短时记忆神经网络对声学识别模型进行训练。也就是说，在训练声学识别模型的过程中，利用长短时记忆神经网络可以学习到语音特征信息和声学特征信息之间的映射关系，从而可以训练得到具有较高精度的声学识别模型。其中，基于长短时记忆神经网络训练声学识别模型的示意图如图2所示。

其中，上述声学特征信息可以包括静音、声母和韵母。上述语音特征信息包括梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,简称MFCC)、一阶差分的MFCC和二阶差分的MFCC。

需要说明的是，其中，每帧语音数据的语音特征信息可通过Mel滤波器组获得。另外，对语音数据进行处理，以获得每帧语音数据的语音特征信息可通过现有技术获得，此处不再详细描述。

S102，通过预设语音端点检测算法初步识别出待识别语音信号的语音端点。

其中，预设语音端点检测算法可以包括但不限于基于顺序统计滤波的实时语音端点检测算法。

在本发明的一个实施例，通过基于顺序统计滤波的实时语音端点检测算法初步识别出待识别语音信号的语音端点的过程如图3所示，可以包括：

S1021，对待识别语音信号进行分帧处理，并对每帧待识别语音信号进行FFT运算，以获得每帧待识别语音信号的语音频谱。

S1022，将每帧待识别语音信号的语音频谱划分为预设数量个子带。

其中，预设数量是系统中预先设置的划分子带的个数，例如，预设数量为7，即将每帧待识别语音信号的语音频谱划分为7个子带。

S1023，计算每帧待识别语音信号的最高频子带与最低频子带的能量比，并根据能量比和第一预设阈值估计背景噪声，以及计算背景噪声的能量。

具体地，在将每帧待识别语音信号的语音频谱划分为预设数量例如7个子带后，可先分别在各个子带上按照语音频谱能量高低进行排序，然后通过滤波器对每个子带上的能量进行平滑，以获得每帧待识别语音信号每个子带中的中值能量。

在获得每帧待识别语音信号每个子带的中值能量后，可分别计算每帧待识别语音信号的最高频子带的中值能量和最低频子带的中值能量，然后将每帧待识别语音信号的最高频子带与最低频子带的中值能量相除，并将其结果作为每帧待识别语音信号的最高频子带与最低频子带的能量比。

在计算每帧待识别语音信号的最高频子带与最低频子带的能量比后，针对前N帧待识别语音信号，其中N的范围为5-20帧，可判断当前帧待识别语音信号的最高频子带与最低频子带的能量比是否大于第一预设阈值，如果当前帧待识别语音信号的能量比小于或者等于第一预设阈值，则确定当前帧待识别语音信号为非语音帧，即将当前帧待识别语音信号作为背景噪音，然后将当前帧待识别语音信号的各个子带的中值能量进行相加，并将其结果作为背景噪声的能量(简称噪声能量)的一部分，并在后续的识别过程中不断利用识别出的非语音帧平滑背景噪声，并估计其能量。

其中，第一预设阈值是系统中预先设置的能量比的阈值。例如，第一预设阈值为75％。

例如，第一预设阈值为75％，针对第10帧待识别语音信号，假定前9帧待识别语音信号均为背景噪声，且根据前9帧估计出背景噪声的能量为A，如果计算出第10帧待识别语音信号的能量比为65％，此时，可以判断出第10帧待识别语音信号的能量比小于第一预设阈值，可计算第10帧待识别语音信号中各个子带的中值能量，并将各个子带的中值能量相加，并将其计算结果与A相加，所得到的结果即为更新后的背景噪声的能量。

S1024，计算每帧待识别语音信号的信噪比，并根据第二预设阈值和信噪比对待识别语音信号的语音端点进行初步识别。

其中，每帧待识别语音信号的信噪比等于每帧待识别语音信号的各个子带能量分别除以背景噪声的能量后，进行相加所获得的总和。

具体地，针对每帧待识别语音信号，可判断当前帧待识别语音信号的信噪比是否大于第二预设阈值，如果当前帧待识别语音信号的信噪比大于第二预设阈值，则将当前帧待识别语音信号判断为语音帧，并进一步判断在当前帧待识别语音信号之前是否有其他帧的待识别语音信号被判断为语音帧，如果否，则将当前帧待识别语音信号初步判定为待识别语音信号的语音起始点。

在本发明的一个实施例中，如果当前帧待识别语音信号的信噪比小于或者等于第二预设阈值，则将当前帧待识别语音信号判断为非语音帧，并进一步判断在当前帧待识别语音信号之前是否有其他帧的待识别语音信号被初步判定为语音起始点，如果是，则将当前帧待识别语音信号初步判定为待识别语音信号的语音结束点。

其中，上述第二预设阈值是系统中预设设置的信噪比的阈值，例如，第二预设阈值为80％。上述非语音帧包括静音和噪声，该噪声可以为平稳噪声，也可以为非平稳噪声。

例如，假定一个25帧的当前待识别语音信号，且获得第15帧的信噪比为85％，假定第二预设阈值为80％，通过比较，第15帧的信噪比大于第二预设阈值，此时，可判断出第15帧为语音帧，并可进一步判断前14帧中是否包含被判断为语音帧的帧，假定前14帧均为非语音帧，此时，可将当前帧待识别语音信号作为待识别语音信号的语音起始点，即将第15帧作为待识别语音信号的语音起始点。

需要说明的是，该实施例利用能量检测方法先获得待识别语音信号可能的语音端点，从而优化了背景噪声估计，过滤掉了待识别语音信号中一些明显的非语音片段，减少了这些非语音片段对后续识别过程的影响。

S103，分帧提取待识别语音信号的语音特征信息，并将语音特征信息输入声学识别模型，以使声学识别模型根据语音特征信息生成待识别语音信号的声学识别结果。

其中，声学识别结果包括声学特征信息，声学特征信息包括静音、声母和韵母。

具体地，在将每帧待识别语音信号的梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,简称MFCC)、一阶差分的MFCC和二阶差分的MFCC等语音特征信息输入声学识别模型后，声学识别模型可根据每帧待识别语音信号的语音特征信息识别出每帧待识别语音信号的声学识别结果，即声学识别模型可以识别出每帧待识别语音信号是静音，还是声母，或者韵母。

例如，一个5帧的待识别语音信号，在获得每帧待识别语音信号的语音特征信息后，可将所获得的语音特征信息输入声学识别模型中，声学识别模型可根据输入的语音特征信息分析出每帧待识别语音信号是静音，还是声母，或者韵母，并输出待识别语音信号的声学识别结果，即输出待识别语音信号的帧序列。其中，帧序列是指将每一帧识别出声母、韵母、静音后，按原始时间顺序排列起来的序列。其中，该待识别语音信号识别后得到的声母、韵母、静音的帧序列如图4所示，需要说明的是，图4仅是声学识别结果输出的声学识别结果的示例图。

S104，根据声学识别结果对初步识别出的语音端点进行调整。

在本发明的一个实施例中，在获得当前待识别语音信号的声学识别结果，可判断该声学识别结果中是否包含韵母，如果该声学识别结果中包含韵母，则确定该声学识别结果中的第一个韵母所在的帧，并获取在第一个韵母所在的帧之前，且距离第一个韵母所在的帧最近的非语音帧，并根据最近的非语音帧的下一帧对初始识别出的语音起始点进行调整。

另外，在判断出待识别语音信号的声学识别结果中包含韵母或声母后，还可确定声学识别结果中的最后一个静音所在的帧，然后获取距离最后一个静音所在的帧最近的语音帧，并根据最近的语音帧对初始识别出的语音结束点进行调整。

例如，一个30帧长的待识别语音信号，假定初始识别出待识别语音信号的语音起始点为第10帧，即语音片段从第10帧开始，语音结束点为第25帧，而经过声学识别模型识别后发现前5帧为静音、第6帧为声母、第7帧为韵母、第8帧为声母、第9帧为韵母，……，第22帧为韵母，后8帧均为静音，此时，可确定当前声学识别结果中包含韵母。在确定当前声学识别结果中包含韵母后，可获得当前声学识别结果中第一韵母所在帧为第7帧，且距离第一韵母最近的语音帧为第6帧，可将待识别语音信号的语音起始点修正为第6帧。另外，在确定当前声学识别结果中包含韵母或声母后，还可以获得当前识别结果中最后一个静音所在的帧，并获得距离最后一个静音所在的帧最近的语音帧，该语音帧为第22帧，然后，可比较所获得的语音帧与初始识别出的语音终止点所在的帧是否为同一个帧，通过比较可以看出，两者不是同一帧，此时，可将待识别语音信号的语音终止点修正为第22帧。由此，通过声学特征对初始识别出的语音端点进行修正，从而提高了语音端点检测的准确率，进而可改善语音识别的效果。

再例如，一个20帧长的待识别语音信号，假定通过基于顺序统计滤波的实时语音端点检测算法初始识别出待识别语音信号的语音起始点为第8帧，语音结束点为第12帧，且经过声学识别模型识别后发现前7帧为静音、第8帧为声母、第9帧为声母、第10帧为声母、第11帧为声母、第12帧为声母、而后各帧均为静音。通过判断可确定该识别结果中不包含韵母，此时，可确定该待识别语音信号没有语音开始，即上述20帧的待识别语音信号均为非语音帧，也是就是说，上述初始识别出的语音起始点和语音终止点均不正确。

综上可以看出，该实施例提出了一种通过声学特征信息对语音端点进行修正的端点检测方式，该实施例的端点检测方法首先利用基于顺序统计滤波的实时语音端点检测算法，以尽可能的找到待识别语音信号的语音起始点和语音终止点，然后，再通过声学识别模型识别出待识别语音信号中的声学识别结果(静音、声母和韵母)，并以此修正待识别语音信号的语音起始点和语音终止点。通过基于顺序统计滤波的实时语音端点检测算法处理语音可以过滤掉一些明显的非语音片段，而后再利用声学识别模型的声韵母判断，可细化起始点和终止点的定位。由此，可提高语音端点检测的准确率，进而可提高语音识别的准确性，提高语音识别系统的性能。

为了实现上述实施例，本发明还提出一种语音识别系统的端点检测系统。

如图5所示，该语音识别系统的端点检测系统包括训练模块100、预处理模块200、声学识别模块300和调整模块400，其中：

训练模块100用于基于长短时记忆神经网络训练声学识别模型；预处理模块200用于通过预设语音端点检测算法初步识别出待识别语音信号的语音端点；声学识别模块300用于分帧提取待识别语音信号的语音特征信息，并将语音特征信息输入声学识别模型，以使声学识别模型根据语音特征信息生成待识别语音信号的声学识别结果；以及调整模块400用于根据声学识别结果对初步识别出的语音端点进行调整。

训练模块100具体用于：对训练库中的语音数据进行分帧处理，并对每帧语音数据的声学特征信息进行人工标注；提取每帧语音数据的语音特征信息；将语音特征信息作为长短时记忆神经网络的输入特征，并将声学特征信息作为长短时记忆神经网络的输出特征，通过长短时记忆神经网络对声学识别模型进行训练。

其中，上述声学特征信息包括静音、声母和韵母。上述语音特征信息包括梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,简称MFCC)、一阶差分的MFCC和二阶差分的MFCC。

具体地，在训练声学识别模型的过程中，训练模块100利用长短时记忆神经网络可以学习到语音特征信息和声学特征信息之间的映射关系，从而可以训练得到具有较高精度的声学识别模型。

其中，上述预设语音端点检测算法可以包括但不限于基于顺序统计滤波的实时语音端点检测算法。

如图6所示，上述预处理模块200可以包括预处理单元210、划分单元220、计算单元230和识别单元240，其中：预处理单元210用于对待识别语音信号进行分帧处理，并对每帧待识别语音信号进行FFT运算，以获得每帧待识别语音信号的语音频谱；划分单元220用于将每帧待识别语音信号的语音频谱划分为预设数量个子带；计算单元230用于计算每帧待识别语音信号的最高频子带与最低频子带的能量比，并根据能量比和第一预设阈值估计背景噪声，以及计算背景噪声的能量；以及识别单元240用于计算每帧待识别语音信号的信噪比，并根据第二预设阈值和信噪比对待识别语音信号的语音端点进行初步识别。

在计算单元230计算每帧待识别语音信号的最高频子带与最低频子带的能量比后，针对前N帧待识别语音信号，其中N的范围为5-20帧，可判断当前帧待识别语音信号的最高频子带与最低频子带的能量比是否大于第一预设阈值，如果当前帧待识别语音信号的能量比小于或者等于第一预设阈值，则确定当前帧待识别语音信号为非语音帧，即将当前帧待识别语音信号作为噪音，然后将当前帧待识别语音信号的各个子带的中值能量进行相加，并将其结果作为噪声能量的一部分，并在后续的识别过程中不断利用识别出的非语音帧平滑背景噪声，并估计其能量。

具体地，在识别单元240计算出每帧待识别语音信号的最高频子带与最低频子带的信噪比后，识别单元240可判断当前帧待识别语音信号的信噪比是否大于第二预设阈值，如果当前帧待识别语音信号的信噪比大于第二预设阈值，则将当前帧待识别语音信号判断为语音帧，并进一步判断在当前帧待识别语音信号之前是否有其他帧的待识别语音信号被判断为语音帧，如果否，则将当前帧待识别语音信号初步判定为待识别语音信号的语音起始点。

如果当前帧待识别语音信号的信噪比小于或者等于第二预设阈值，则识别单元240可将当前帧待识别语音信号判断为非语音帧，并进一步判断在当前帧待识别语音信号之前是否有其他帧的待识别语音信号被初步判定为语音起始点，如果是，则将当前帧待识别语音信号初步判定为待识别语音信号的语音结束点。

例如，假定一个25帧的当前待识别语音信号，且获得第15帧的信噪比为85％，假定第二预设阈值为80％，识别单元240可识别出第15帧的信噪比大于第二预设阈值，此时，可判断出第15帧为语音帧，并可进一步判断前14帧中是否包含被判断为语音帧的帧，假定前14帧均为非语音帧，此时，识别单元240可将当前帧待识别语音信号作为待识别语音信号的语音起始点，即将第15帧作为待识别语音信号的语音起始点。

调整模块400具体用于：判断声学识别结果中是否包含韵母；以及如果声学识别结果中包含韵母，则确定声学识别结果中的第一个韵母所在的帧，并获取在第一个韵母所在的帧之前，且距离第一个韵母所在的帧最近的非语音帧，并根据最近的非语音帧的下一帧对初始识别出的语音起始点进行调整。

其中，上述声学识别结果包括声学特征信息，声学特征信息包括静音、声母和韵母

另外，如果声学识别结果中包含韵母或者声母，则调整模块400还可以确定声学识别结果中的最后一个静音所在的帧，然后获取距离最后一个静音所在的帧最近的语音帧，并根据最近的语音帧对初始识别出的语音结束点进行调整。

例如，一个30帧长的待识别语音信号，假定初始识别出待识别语音信号的语音起始点为第10帧，即语音片段从第10帧开始，语音结束点为第25帧，而声学识别模块300识别出待识别语音信号的声学识别结果为：前5帧为静音、第6帧为声母、第7帧为韵母、第8帧为声母、第9帧为韵母，……，第22帧为韵母，后8帧均为静音，此时，调整模块400可确定当前声学识别结果中包含韵母。在确定当前声学识别结果中包含韵母后，可获得当前声学识别结果中第一韵母所在帧为第7帧，且距离第一韵母最近的语音帧为第6帧，可将待识别语音信号的语音起始点修正为第6帧。另外，在确定当前声学识别结果中包含韵母后，还可以获得当前识别结果中最后一个静音所在的帧，并获得距离最后一个静音所在的帧最近的语音帧，该语音帧为第22帧，然后，可比较所获得的语音帧与初始识别出的语音终止点所在的帧是否为同一个帧，通过比较可以看出，两者不是同一帧，此时，可将待识别语音信号的语音终止点修正为第22帧。由此，通过声学特征对初始识别出的语音端点进行修正，从而提高了语音端点检测的准确率，进而可改善语音识别的效果。

需要说明的是，前述对语音识别系统的端点检测方法实施例的解释说明也适用于该实施例的语音识别系统的端点检测系统，此处不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别系统的端点检测方法，其特征在于，包括以下步骤：

基于长短时记忆神经网络训练声学识别模型；

通过预设语音端点检测算法初步识别出待识别语音信号的语音端点；

分帧提取所述待识别语音信号的语音特征信息，并将所述语音特征信息输入所述声学识别模型，以使所述声学识别模型根据所述语音特征信息生成所述待识别语音信号的声学识别结果；以及

根据所述声学识别结果对初步识别出的语音端点进行调整。

2.如权利要求1所述的语音识别系统的端点检测方法，其特征在于，所述基于长短时记忆神经网络训练声学识别模型，包括：

对训练库中的语音数据进行分帧处理，并对每帧语音数据的声学特征信息进行人工标注，其中，所述声学特征信息包括静音、声母和韵母；

提取每帧语音数据的语音特征信息；

将所述语音特征信息作为所述长短时记忆神经网络的输入特征，并将所述声学特征信息作为所述长短时记忆神经网络的输出特征，通过所述长短时记忆神经网络对所述声学识别模型进行训练。

3.如权利要求2所述的语音识别系统的端点检测方法，其特征在于，所述声学识别结果包括每帧待识别语音信号的声学特征信息，其中，所述根据所述声学识别结果对初步识别出的语音端点进行调整，包括：

判断所述声学识别结果中是否包含韵母；以及

如果所述声学识别结果中包含韵母，则确定所述声学识别结果中的第一个韵母所在的帧，并获取在所述第一个韵母所在的帧之前，且距离所述第一个韵母所在的帧最近的非语音帧，并根据所述最近的非语音帧的下一帧对初始识别出的语音起始点进行调整。

4.如权利要求3所述的语音识别系统的端点检测方法，其特征在于，还包括：

如果所述声学识别结果中包含韵母或者声母，则确定所述声学识别结果中的最后一个静音所在的帧；以及

获取距离所述最后一个静音所在的帧最近的语音帧，并根据所述最近的语音帧对初始识别出的语音结束点进行调整。

5.如权利要求1-4任一项所述的语音识别系统的端点检测方法，其特征在于，所述预设语音端点检测算法包括基于顺序统计滤波的实时语音端点检测算法，其中，所述通过预设语音端点检测算法初步识别出待识别语音信号的语音端点，包括：

对所述待识别语音信号进行分帧处理，并对每帧待识别语音信号进行FFT运算，以获得每帧待识别语音信号的语音频谱；

将所述每帧待识别语音信号的语音频谱划分为预设数量个子带；

计算每帧待识别语音信号的最高频子带与最低频子带的能量比，并根据所述能量比和第一预设阈值估计背景噪声，以及计算所述背景噪声的能量；以及

计算每帧待识别语音信号的信噪比，并根据第二预设阈值和所述信噪比对待识别语音信号的语音端点进行初步识别。

6.如权利要求5所述的语音识别系统的端点检测方法，其特征在于，所述根据第二预设阈值和每帧待识别语音信号的信噪比对所述待识别语音信号的语音端点进行初步识别，包括：

判断当前帧待识别语音信号的信噪比是否大于所述第二预设阈值；

如果所述当前帧待识别语音信号的信噪比大于所述第二预设阈值，则将所述当前帧待识别语音信号判断为语音帧，并进一步判断在所述当前帧待识别语音信号之前是否有其他帧的待识别语音信号被判断为语音帧，如果否，则将所述当前帧待识别语音信号初步判定为所述待识别语音信号的语音起始点。

7.如权利要求6所述的语音识别系统的端点检测方法，其特征在于，还包括：

如果所述当前帧待识别语音信号的信噪比小于或者等于所述第二预设阈值，则将所述当前帧待识别语音信号判断为非语音帧，并进一步判断在所述当前帧待识别语音信号之前是否有其他帧的待识别语音信号被初步判定为所述语音起始点，如果是，则将所述当前帧待识别语音信号初步判定为所述待识别语音信号的语音结束点。

8.一种语音识别系统的端点检测系统，其特征在于，包括：

训练模块，用于基于长短时记忆神经网络训练声学识别模型；

预处理模块，用于通过预设语音端点检测算法初步识别出待识别语音信号的语音端点；

声学识别模块，用于分帧提取所述待识别语音信号的语音特征信息，并将所述语音特征信息输入所述声学识别模型，以使所述声学识别模型根据所述语音特征信息生成所述待识别语音信号的声学识别结果；以及

调整模块，用于根据所述声学识别结果对初步识别出的语音端点进行调整。

9.如权利要求8所述的语音识别系统的端点检测系统，其特征在于，所述训练模块，具体用于：

提取每帧语音数据的语音特征信息；

10.如权利要求9所述的语音识别系统的端点检测系统，其特征在于，所述声学识别结果包括每帧待识别语音信号的声学特征信息，其中，所述调整模块，具体用于：

判断所述声学识别结果中是否包含韵母；以及

11.如权利要求10所述的语音识别系统的端点检测系统，其特征在于，所述调整模块，还用于：

12.如权利要求8-11任一项所述的语音识别系统的端点检测系统，其特征在于，所述预设语音端点检测算法包括基于顺序统计滤波的实时语音端点检测算法，其中，所述预处理模块，包括：

预处理单元，用于对所述待识别语音信号进行分帧处理，并对每帧待识别语音信号进行FFT运算，以获得每帧待识别语音信号的语音频谱；

划分单元，用于将所述每帧待识别语音信号的语音频谱划分为预设数量个子带；

计算单元，用于计算每帧待识别语音信号的最高频子带与最低频子带的能量比，并根据所述能量比和第一预设阈值估计背景噪声，以及计算所述背景噪声的能量；以及

识别单元，用于计算每帧待识别语音信号的信噪比，并根据第二预设阈值和所述信噪比对待识别语音信号的语音端点进行初步识别。

13.如权利要求12所述的语音识别系统的端点检测系统，其特征在于，所述识别单元，具体用于：

14.如权利要求13所述的语音识别系统的端点检测系统，其特征在于，所述识别单元，还用于：