CN108364635B

CN108364635B - 一种语音识别的方法和装置

Info

Publication number: CN108364635B
Application number: CN201710056800.9A
Authority: CN
Inventors: 李洋; 欧阳宏宇; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-01-25
Filing date: 2017-01-25
Publication date: 2021-02-12
Anticipated expiration: 2037-01-25
Also published as: CN108364635A

Abstract

本发明实施例提供了一种语音识别的方法和装置，其中，语音识别的方法包括：获取多个语音数据包，所述多个语音数据包的包长小于第一预设长度；分别确定每个语音数据包中每帧语音信号的特征信息；依据所述特征信息，对所述每帧语音信号进行识别。本发明实施例通过获取多个长度较短的语音数据包，使得解码器在对每个语音数据包进行识别时，提高了识别的响应速度，有助于快速地获得识别结果，提高了语音识别的效率。

Description

一种语音识别的方法和装置

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音识别的方法和一种语音识别的装置。

背景技术

语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。近年来，语音识别技术取得了显著的进步，开始从实验室走向市场，已经大规模应用在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

通常，语音识别的响应速度是指机器从接到到语音到输出识别文本所需的时间，响应速度是评价语音识别效果的一个重要指标。在实际应用中，不同的领域对于语音识别的响应速度的要求也不同，例如，在进行语音搜索时，用户往往不太在意略微的识别延迟，而在某些需要快速响应的场景下，如一些益智类的节目中的抢答环节，机器通过识别用户的语音作出判断，往往需要较快的识别速度。但是，现有技术中语音识别的响应速度却无法实现快速响应。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音识别的方法和相应的一种语音识别的装置。

为了解决上述问题，本发明实施例公开了一种语音识别的方法，包括：

获取多个语音数据包，所述多个语音数据包的包长小于第一预设长度；

分别确定每个语音数据包中每帧语音信号的特征信息；

依据所述特征信息，对所述每帧语音信号进行识别。

可选地，所述获取多个语音数据包的步骤包括：

接收客户端发送的多个语音数据包，所述多个语音数据包由所述客户端按照所述包长将用户输入的语音信号数据进行切分并压缩后获得。

可选地，在所述获取多个语音数据包的步骤后，还包括：

对所述语音数据包进行解压缩。

可选地，所述分别确定每个语音数据包中每帧语音信号的特征信息的步骤包括：

分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征；

采用所述PLP特征和基频特征，生成所述每帧语音信号的特征信息。

可选地，所述分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征的步骤包括：

获取缓存的语音数据包；

采用所述缓存的语音数据包和当前的语音数据包，分别确定每帧语音信号的PLP原始特征、PLP一阶差分特征、PLP二阶差分特征、基频原始特征、基频一阶差分特征和基频二阶差分特征。

可选地，所述采用所述PLP特征和基频特征，生成所述每帧语音信号的特征信息的步骤包括：

采用所述PLP原始特征、PLP一阶差分特征和PLP二阶差分特征，生成PLP特征；

采用所述基频原始特征、基频一阶差分特征和基频二阶差分特征，生成基频特征；

对所述PLP特征和基频特征进行拼接，生成所述每帧语音信号的特征信息。

可选地，所述基频特征具有对应的平滑区间，在所述分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征的步骤前，还包括：

确定所述基频特征的平滑区间，所述平滑区间小于第二预设长度。

可选地，所述依据所述特征信息，对所述每帧语音信号进行识别的步骤包括：

依据所述特征信息，识别所述每帧语音信号对应的文本信息；

将所述多个语音数据包中每帧语音信号对应的文本信息组合为目标文本信息。

另一方面，本发明公开了一种语音识别的装置，包括：

获取模块，用于获取多个语音数据包，所述多个语音数据包的包长小于第一预设长度；

特征提取模块，用于分别确定每个语音数据包中每帧语音信号的特征信息；

识别模块，用于依据所述特征信息，对所述每帧语音信号进行识别。

可选地，所述获取模块包括：

接收子模块，用于接收客户端发送的多个语音数据包，所述多个语音数据包由所述客户端按照所述包长将用户输入的语音信号数据进行切分并压缩后获得。

可选地，所述获取模块还包括：

解压缩子模块，用于对所述语音数据包进行解压缩。

可选地，所述特征提取模块包括：

特征提取子模块，用于分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征；

生成子模块，用于采用所述PLP特征和基频特征，生成所述每帧语音信号的特征信息。

可选地，所述特征提取子模块包括：

获取单元，用于获取缓存的语音数据包；

特征提取单元，用于采用所述缓存的语音数据包和当前的语音数据包，分别确定每帧语音信号的PLP原始特征、PLP一阶差分特征、PLP二阶差分特征、基频原始特征、基频一阶差分特征和基频二阶差分特征。

可选地，所述生成子模块包括：

第一生成单元，用于采用所述PLP原始特征、PLP一阶差分特征和PLP二阶差分特征，生成PLP特征；

第二生成单元，用于采用所述基频原始特征、基频一阶差分特征和基频二阶差分特征，生成基频特征；

拼接单元，用于对所述PLP特征和基频特征进行拼接，生成所述每帧语音信号的特征信息。

可选地，所述基频特征还具有对应的平滑区间，所述特征提取模块包括：

平滑区间确定子模块，用于确定所述基频特征的平滑区间，所述平滑区间小于第二预设长度。

可选地，所述识别模块包括：

识别子模块，用于依据所述特征信息，识别所述每帧语音信号对应的文本信息；

组合子模块，用于将所述多个语音数据包中每帧语音信号对应的文本信息组合为目标文本信息。

又一方面，本发明公开了一种语音识别的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

分别确定每个语音数据包中每帧语音信号的特征信息；

依据所述特征信息，对所述每帧语音信号进行识别。

与背景技术相比，本发明实施例包括以下优点：

本发明实施例通过获取多个语音数据包，其中每个语音数据包的包长均小于第一预设长度，然后在分别确定每个语音数据包中每帧语音信号的特征信息后，依据所述特征信息，对所述每帧语音信号进行识别。本发明实施例通过获取多个长度较短的语音数据包，使得解码器在对每个语音数据包进行识别时，提高了识别的响应速度，有助于快速地获得识别结果，提高了语音识别的效率。

附图说明

图1是本发明的一种语音识别的方法实施例一的步骤流程图；

图2是本发明的一种语音识别的方法实施例二的步骤流程图；

图3是本发明的一种语音识别的装置实施例的结构框图；

图4是根据一示例性实施例示出的离线识别时的一种语音识别的装置的框图；

图5是根据一示例性实施例示出的在线识别时的一种语音识别的装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种语音识别的方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，获取多个语音数据包，所述多个语音数据包的包长小于第一预设长度；

通常，用户在说出一句或一段语音后，客户端可以接收到相应的信号，生成多个语音数据包。

在本发明实施例中，所述客户端可以是具有语音信号接收功能的电子设备，例如，手机、平板电脑或者其他智能语音设备。具体地，所述具有语音信号接收功能的电子设备在接收到用户输入的语音信号数据后，可以将所述语音信号数据切分成多个语音数据包，并发送给解码器，由解码器对语音数据包进行处理。

在本发明实施例中，所述解码器可以在接收到相应的语音数据包之后对其进行解码识别。

通常，语音数据包都具有一定的包长，例如，可以是1秒或2秒时长。由于在对包长过长的语音数据包进行解码和识别时，相应地也需要较长的等待时间，因此，在本发明实施例中，客户端在接收到相应的信号形成多个语音数据包时，可以将每个语音数据包的包长限定在小于第一预设长度，从而客户端可以将包长较短的多个语音数据包发送给解码器进行解码和识别操作。

当然，本领域技术人员可以根据实际需要具体确定每个语音数据包的包长，例如，可以是0.5秒或者0.3秒，甚至还可以是0.1秒，本发明实施例对此不作限定。

步骤102，分别确定每个语音数据包中每帧语音信号的特征信息；

通常，一个语音数据包中可以包括有多帧语音信号，例如，每10毫秒为一帧语音信号，则1秒时长的语音数据包大约可以包括有100帧语音信号。

在本发明实施例中，在接收到多个语音数据包后，可以分别确定每个语音数据包中每帧语音信号的特征信息。

在具体实现中，所述特征信息可以包括感知线性预测PLP特征和基频特征。

PLP(Perceptual Linear Predict ive，感知线性预测)是一种基于听觉模型的特征参数。该特征参数是全极点模型预测多项式的一组系数，等效于一种LPC(Linear Predict ion Coef f icient,线性预测系数))特征。PLP特征与LPC特征的不同之处在于，PLP技术可以将人耳听觉试验获得的一些结论，通过近似计算的方法进行工程化处理，从而应用到频谱分析中，然后可以将输入的语音信号经听觉模型处理后所得到的信号替代传统的LPC分析所采用的时域信号，经过这样处理后的语音频谱考虑到了人耳的听觉特点，有利于抗噪语音特征的提取。

基频是指基音的频率，反映了声门相邻两次开闭之间的时间间隔或开闭的频率。通常人在发音时，声带振动产生浊音。浊音的发音过程是：来自肺部的气流冲击声门，造成声门的一张一合，形成一系列准周期的气流脉冲，经过声道(含口腔、鼻腔)的谐振及唇齿辐射最终形成语音信号，因此，浊音波形呈现一定的准周期性。

在具体实现中，可以分别确定每帧语音信号的PLP特征和基频特征，以及它们的一阶和二阶差分特征，从而形成每帧语音信号的特征信息。

步骤103，依据所述特征信息，对所述每帧语音信号进行识别。

在本发明实施例中，解码器在接收到每帧语音信号的特征信息后，可以依据所述特征信息，分别对每帧语音信号进行解码，从而识别出对应的文本信息，并最终将解码获得的全部文本信息组合成目标文本信息，所述目标文本信息即是获取的多个语音数据包对应的识别结果。

在本发明实施例中，通过获取多个语音数据包，其中每个语音数据包的包长均小于第一预设长度，然后在分别确定每个语音数据包中每帧语音信号的特征信息后，依据所述特征信息，对所述每帧语音信号进行识别。本发明实施例通过获取多个长度较短的语音数据包，使得解码器在对每个语音数据包进行识别时，提高了识别的响应速度，有助于快速地获得识别结果，提高了语音识别的效率。

参照图2，示出了本发明的一种语音识别的方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201，接收客户端发送的多个语音数据包，所述多个语音数据包由所述客户端按照所述包长将用户输入的语音信号数据进行切分并压缩后获得；

通常，用户在说出一句或一段语音后，客户端可以接收到相应的语音信号数据。所述客户端可以是具有语音信号接收功能的电子设备，例如，手机、平板电脑或者其他智能语音设备。具体地，所述具有语音信号接收功能的电子设备在接收到用户输入的语音信号数据后，可以按照一定包长将用户输入的语音信号数据进行切分并压缩后获得多个语音数据包，并将所述多个语音数据包发送给解码器。

通常，解码器在对语音信号数据进行解码和识别时，如果该语音信号数据的时长较长，则相应地也需要较长的等待时间。

例如，当语音数据包的包长为T秒，解码器解码每个语音数据包的实时率为R时，解码器的响应时间为RT＝T*R，假设长包的语音数据为T1秒，解码器实时率为R1，短包的语音数据为T2秒，解码器的实时率为R2，其中T1>T2，R2略大于R1，则长包解码的响应时间RT1＝R1*T1大于短包解码的响应时间RT2＝R2*T2。具体地，假设10秒的语音，包长为1秒，实时率为0.5时，那么解码每1秒语音需要等待0.5秒才能获取到解码器的中间结果，但是如果包长为0.25秒，实时率为0.6时，则解码每0.25秒语音需要等待0.15秒就能获取到解码器的中间结果，从而获取中间结果更频繁也更快速。

因此，在本发明实施例中，可以确定一特定包长，所述包长可以小于第一预设长度，然后客户端按照所述包长，将所述语音信号数据切分为多个语音数据包。

在本发明实施例中，为了提高语音信号数据的传输速度，客户端在将语音信号数据进行切分后，还可以对所述语音数据包进行压缩，形成压缩包。当然，本领域技术人员可以根据实际需要确定是否需要对语音信号数据进行压缩以及采用何种方式进行压缩，本发明实施例对此不作限定。

例如，若确定包长为0.5秒，则可以在接收到语音信号数据后，将该语音信号数据切分为多个语音数据包，使每个语音数据包的包长均为0.5秒，并再对每0.5秒的语音进行压缩。在实际中，通常可以采用200毫秒，即0.2秒作为一个语音数据包的包长，当然，本领域技术人员还可以根据实际需要，选择其他长度的包长，例如0.3秒或0.1秒，本发明实施例对此不作限定。

步骤202，对所述语音数据包进行解压缩；

在本发明实施例中，在接收到客户端发送的多个经压缩处理的语音数据包后，首先需要对所述语音数据包进行解压缩。

步骤203，分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征；

通常，一个语音数据包中可以包括有多帧语音信号，例如，每10毫秒为一帧语音信号，则0.5秒时长的语音数据包大约可以包括有50帧语音信号。

在本发明实施例中，在接收到多个语音数据包后，可以进一步确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征。

在具体实现中，为了确定每帧语音信号的PLP特征和基频特征时，可以首先计算出PLP特征和基频特征的原始特征以及对应的一阶差分特征和二阶差分特征。

通常，在计算每帧语音信号的PLP特征和基频特征对应的一阶差分特征和二阶差分特征时，需要获取该帧语音信号的前后各两帧语音信号。因此，当语音数据包的包长较长时，语音数据基本能够覆盖当前帧的前后各两帧信号；而对于包长较短的语音数据包，相应的语音数据则可能不足以覆盖当前帧的前后各两帧信号。

因此，在本发明实施例中，解码器在接收到语音数据包后，可以将所述语音数据包进行缓存，从而在计算每帧语音信号数据时，可以首先获取缓存的语音数据包，然后采用所述缓存的语音数据包和当前的语音数据包，分别确定每帧语音信号的PLP原始特征、PLP一阶差分特征、PLP二阶差分特征、基频原始特征、基频一阶差分特征和基频二阶差分特征。由于PLP原始特征、PLP一阶差分特征、PLP二阶差分特征、基频原始特征、基频一阶差分特征和基频二阶差分特征的计算过程均为较成熟的技术，本发明实施例对此不再赘述。

通常，为了保证基频特征计算的准确性，需要对当前帧前后相当一段时间区间的语音数据进行平滑。但是，上述操作也会造成客户端在接收到某一帧的语音信号时，只能计算早于当前帧的前面某一帧语音信号的完整特征，使得传递给解码器的特征信息的帧数不够实时，从而计算出的基频特征也会滞后于PLP特征。

因此，在本发明实施例中，为了保证解码器接收到的特征信息的实时性，在计算每帧语音信号的基频特征前，还可以确定所述基频特征的平滑区间，其中，所述平滑区间可以小于第二预设长度，从而减少计算基频特征的平滑区间，增加解码器的响应速度。当然，本领域技术人员可以根据实际需要，确定减少后的平滑区间的具体大小，本发明实施例对此不作限定。

步骤204，采用所述PLP特征和基频特征，生成所述每帧语音信号的特征信息；

在具体实现中，在分别确定出每帧语音信号的PLP原始特征、PLP一阶差分特征、PLP二阶差分特征、基频原始特征、基频一阶差分特征和基频二阶差分特征后，可以首先采用所述PLP原始特征、PLP一阶差分特征和PLP二阶差分特征，生成PLP特征，然后采用所述基频原始特征、基频一阶差分特征和基频二阶差分特征，生成基频特征，进而对所述PLP特征和基频特征进行拼接，生成所述每帧语音信号的特征信息，以将所述特征信息传输给解码器进行解码和识别操作。

步骤205，依据所述特征信息，识别所述每帧语音信号对应的文本信息；

在具体实现中，解码器在接收到每一帧语音信号的特征信息后，可以依据所述特征信息，分别对每帧语音信号进行解码，从而识别出所述每帧语音信号对应的文本信息。

步骤206，将所述多个语音数据包中每帧语音信号对应的文本信息组合为目标文本信息。

在具体实现中，可以首先将每帧语音信号对应的文本信息进行组合，获得每个语音数据包对应的文本信息，然后将每个语音数据包对应的文本信息组合成目标文本信息，所述目标文本信息即是用户输入的一句或一段语音所对应的文本。

本发明实施例在缩短语音数据包的包长，以增加解码器的响应时间的同时，通过解码器缓存语音数据包，保证了计算出的PLP特征和基频特征的正确性。

其次，本发明实施例通过缩短计算基频特征的平滑区间，缩短了基频特征和PLP特征的滞后时间差，保证了解码器有足够实时的特征进行解码，确保了解码结果的准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明的一种语音识别的装置实施例的结构框图，具体可以包括如下模块：

获取模块301，用于获取多个语音数据包，所述多个语音数据包的包长小于第一预设长度；

特征提取模块302，用于分别确定每个语音数据包中每帧语音信号的特征信息；

识别模块303，用于依据所述特征信息，对所述每帧语音信号进行识别。

在本发明实施例中，所述获取模块301具体可以包括如下子模块：

在本发明实施例中，所述获取模块301还可以包括如下子模块：

解压缩子模块，用于对所述语音数据包进行解压缩。

在本发明实施例中，所述特征提取模块302具体可以包括如下子模块：

在本发明实施例中，所述特征提取子模块具体可以包括如下单元：

获取单元，用于获取缓存的语音数据包；

在本发明实施例中，所述生成子模块具体可以包括如下单元：

在本发明实施例中，所述基频特征还具有对应的平滑区间，所述特征提取模块302还可以包括如下子模块：

在本发明实施例中，所述识别模块303具体可以包括如下子模块：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图4是根据一示例性实施例示出的离线识别时的一种语音识别的装置400的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件402可以包括一个或多个处理器420来执行指令，以完成上述的语音识别的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述语音识别的方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述语音识别的方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行如下操作：

分别确定每个语音数据包中每帧语音信号的特征信息；

依据所述特征信息，对所述每帧语音信号进行识别。

图5是根据一示例性实施例示出的在线识别时的一种语音识别的装置1900的结构示意图。该装置1900可以是服务器，可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1932，上述指令可由装置1900的处理器1922执行以完成上述语音识别的方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得终端能够执行如下操作：

分别确定每个语音数据包中每帧语音信号的特征信息；

依据所述特征信息，对所述每帧语音信号进行识别。

可选地，所述获取多个语音数据包，包括：

可选地，在所述获取多个语音数据包的步骤后，所述服务器还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对所述语音数据包进行解压缩。

可选地，所述分别确定每个语音数据包中每帧语音信号的特征信息，包括：

可选地，所述分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征，包括：

获取缓存的语音数据包；

可选地，所述采用所述PLP特征和基频特征，生成所述每帧语音信号的特征信息，包括：

可选地，所述服务器还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

在所述基频特征具有对应的平滑区间，在所述分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征的步骤前，确定所述基频特征的平滑区间，所述平滑区间小于第二预设长度。

可选地，所述依据所述特征信息，对所述每帧语音信号进行识别，包括：

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音识别的方法和一种语音识别的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音识别的方法，其特征在于，包括：

分别确定每个语音数据包中每帧语音信号的特征信息；

依据所述特征信息，对所述每帧语音信号进行识别；

其中，所述依据所述特征信息，对所述每帧语音信号进行识别的步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述获取多个语音数据包的步骤包括：

3.根据权利要求2所述的方法，其特征在于，在所述获取多个语音数据包的步骤后，还包括：

对所述语音数据包进行解压缩。

4.根据权利要求1-3任一所述的方法，其特征在于，所述分别确定每个语音数据包中每帧语音信号的特征信息的步骤包括：

5.根据权利要求4所述的方法，其特征在于，所述分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征的步骤包括：

获取缓存的语音数据包；

6.根据权利要求5所述的方法，其特征在于，所述采用所述PLP特征和基频特征，生成所述每帧语音信号的特征信息的步骤包括：

7.根据权利要求4所述的方法，其特征在于，所述基频特征具有对应的平滑区间，在所述分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征的步骤前，还包括：

8.一种语音识别的装置，其特征在于，包括：

识别模块，用于依据所述特征信息，对所述每帧语音信号进行识别；

其中，所述识别模块包括：

9.根据权利要求8所述的装置，其特征在于，所述获取模块包括：

10.根据权利要求9所述的装置，其特征在于，所述获取模块还包括：

解压缩子模块，用于对所述语音数据包进行解压缩。

11.根据权利要求8-10任一所述的装置，其特征在于，所述特征提取模块包括：

12.根据权利要求11所述的装置，其特征在于，所述特征提取子模块包括：

获取单元，用于获取缓存的语音数据包；

13.根据权利要求12所述的装置，其特征在于，所述生成子模块包括：

14.根据权利要求11所述的装置，其特征在于，所述基频特征还具有对应的平滑区间，所述特征提取模块包括：

15.一种语音识别的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

分别确定每个语音数据包中每帧语音信号的特征信息；

依据所述特征信息，对所述每帧语音信号进行识别；

16.根据权利要求15所述的装置，其特征在于，所述获取多个语音数据包的步骤包括：

17.根据权利要求16所述的装置，其特征在于，在所述获取多个语音数据包的步骤后，还包括：

对所述语音数据包进行解压缩。

18.根据权利要求15-17任一所述的装置，其特征在于，所述分别确定每个语音数据包中每帧语音信号的特征信息的步骤包括：

19.根据权利要求18所述的装置，其特征在于，所述分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征的步骤包括：

获取缓存的语音数据包；

20.根据权利要求19所述的装置，其特征在于，所述采用所述PLP特征和基频特征，生成所述每帧语音信号的特征信息的步骤包括：

21.根据权利要求18所述的装置，其特征在于，所述基频特征具有对应的平滑区间，在所述分别确定每个语音数据包中每帧语音信号的感知线性预测PLP特征和基频特征的步骤前，还包括：

22.一种存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得终端能够执行如方法权利要求1-7中一个或多个所述的语音识别的方法。