CN105513590A

CN105513590A - 语音识别的方法和装置

Info

Publication number: CN105513590A
Application number: CN201510819075.7A
Authority: CN
Inventors: 时雪煜; 李先刚; 邹赛赛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2016-04-20

Abstract

本发明公开了一种语音识别的方法和装置，其中，语音识别的方法包括以下步骤：接收用户通过终端输入的语音信息和终端所处的网络信息；根据网络信息确定语音信息对应的采样率，其中，采样率包括第一采样率和第二采样率，第一采样率大于第二采样率；当语音信息对应的采样率为第一采样率时，根据第一采样率对应的声学模型对语音信息进行识别；以及当语音信息对应的采样率为第二采样率时，对语音信息进行预处理，并根据声学模型对预处理后的语音信息进行识别。本发明实施例的语音识别的方法，解决了分别训练生成不同采样率对应的声学模型，训练语料需求量大，训练所需的时间成本高的问题，且提升了语音识别的准确率。

Description

语音识别的方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别的方法和装置。

背景技术

语音识别技术，是一种能够将用户输入的语音转换成文本的技术。随着科技的不断进步，语音识别技术的应用也越来越广泛。语音识别系统主要通过接收用户输入的语音，基于训练的声学模型对语音进行识别，从而获得语音识别结果。

目前，对声学模型的训练主要根据不同的采样率分别对训练语料进行训练，例如采样率为16khz的训练语料，生成的模型为16k的声学模型；采样率为8khz的，生成的模型为8k的声学模型。

但是，分别训练生成声学模型，训练语料需求量大，训练所需的时间成本高，且采样率低的声学模型的语音识别准确率低。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种语音识别的方法，该方法能够解决分别训练生成不同采样率对应的声学模型，训练语料需求量大，训练所需的时间成本高的问题，且提升语音识别的准确率。

本发明的第二个目的在于提出一种语音识别的装置。

为了实现上述目的，本发明第一方面实施例提出了一种语音识别的方法，包括以下步骤：接收用户通过终端输入的语音信息和所述终端所处的网络信息；根据所述网络信息确定所述语音信息对应的采样率，其中，所述采样率包括第一采样率和第二采样率，所述第一采样率大于所述第二采样率；当所述语音信息对应的采样率为第一采样率时，根据所述第一采样率对应的声学模型对所述语音信息进行识别；以及当所述语音信息对应的采样率为第二采样率时，对所述语音信息进行预处理，并根据所述声学模型对预处理后的所述语音信息进行识别。

本发明实施例的语音识别的方法，通过接收用户通过终端输入的语音信息和终端所处的网络信息，然后根据网络信息确定语音信息对应的采样率，当语音信息对应的采样率为第一采样率时，直接根据声学模型对语音信息进行识别，当语音信息对应的采样率为第二采样率时，对语音信息进行预处理后，再根据声学模型对语音信息进行识别，解决了分别训练生成不同采样率对应的声学模型，训练语料需求量大，训练所需的时间成本高的问题，且提升了语音识别的准确率。

本发明第二方面实施例提出了一种语音识别的装置，包括：接收模块，用于接收用户通过终端输入的语音信息和所述终端所处的网络信息；确定模块，用于根据所述网络信息确定所述语音信息对应的采样率，其中，所述采样率包括第一采样率和第二采样率，所述第一采样率大于所述第二采样率；第一识别模块，用于当所述语音信息对应的采样率为第一采样率时，根据所述第一采样率对应的声学模型对所述语音信息进行识别；以及第二识别模块，用于当所述语音信息对应的采样率为第二采样率时，对所述语音信息进行预处理，并根据所述声学模型对预处理后的所述语音信息进行识别。

本发明实施例的语音识别的装置，通过接收用户通过终端输入的语音信息和终端所处的网络信息，然后根据网络信息确定语音信息对应的采样率，当语音信息对应的采样率为第一采样率时，直接根据声学模型对语音信息进行识别，当语音信息对应的采样率为第二采样率时，对语音信息进行预处理后，再根据声学模型对语音信息进行识别，解决了分别训练生成不同采样率对应的声学模型，训练语料需求量大，训练所需的时间成本高的问题，且提升了语音识别的准确率。

附图说明

图1是根据本发明一个实施例的语音识别的方法的流程图。

图2是根据本发明一个实施例的语音识别的装置的结构示意图一。

图3是根据本发明一个实施例的语音识别的装置的结构示意图二。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音识别的方法和装置。

图1是根据本发明一个实施例的语音识别的方法的流程图。

如图1所示，语音识别的方法可包括：

S1、接收用户通过终端输入的语音信息和终端所处的网络信息。

其中，网络信息可包括2G网络、3G网络、4G网络等。具体地，用户可通过终端输入一段语音信息，然后终端可将该语音信息与该终端所处的网络信息一起上传至服务器。举例来说，用户开启手机的麦克风功能，并输入语音信息“搜一下附近的好吃的”，则手机可将该语音信息发送给服务器。同时，如果该手机使用的是移动4G网络，则可将该网络信息也发送给服务器。

S2、根据网络信息确定语音信息对应的采样率。

其中，采样率包括第一采样率和第二采样率，第一采样率大于第二采样率。具体地，服务器在收到上述语音信息和网络信息后，可根据网络信息确定语音信息对应的采样率。举例来说，如果终端使用的网络信息为4G或3G网络，则可确定语音信息对应的采样率为16khz；如果终端使用的网络信息为2G网络，则可确定语音信息对应的采样率为8khz。

S3、当语音信息对应的采样率为第一采样率时，根据第一采样率对应的声学模型对语音信息进行识别。

其中，第一采样率对应的声学模型主要通过LSTM(Long-ShortTermMemory,时间递归神经网络)训练获得。例如，假设第一采样率为16khz，则可以16khz对语音信息进行采样，然后提取16khz对应的声学特征，再根据已训练好的16khz的声学模型对语音信息进行识别，从而生成对应的识别结果。

S4、当语音信息对应的采样率为第二采样率时，对语音信息进行预处理，并根据声学模型对预处理后的语音信息进行识别。

具体地，当语音信息对应的采样率为第二采样率时，可提取语音信息在第二采样率时的声学特征信息，然后基于频谱扩展模型将第二采样率时的声学特征信息转换为第一采样率时的声学特征信息。在此之后，可将转换后的第一采样率时的声学特征信息作为输入，并基于声学模型输出对应的识别结果。例如，假设第二采样率为8khz，第一采样率为16khz，则可以8khz对语音信息进行采样，然后提取8khz对应的声学特征，再根据频谱扩展模型将提取的8khz对应的声学特征转换为16khz对应的声学特征，最后根据已训练好的16khz的声学模型对语音信息进行识别，从而生成对应的识别结果。

其中，频谱扩展模型为通过采集大量的第一采样率的训练语料，对训练语料进行训练获得的。具体地，可对训练语料进行下采样以获取训练语料在第二采样率时的声学特征信息，再根据回归神经网络建立训练语料在第一采样率时的声学特征信息与在第二采样率时的声学特征信息之间的映射关系，从而生成频谱扩展模型。举例来说，首先可采集大量的采样率为16khz的训练语料，然后对该训练语料进行下采样，提取训练语料在采样率为8khz时的声学特征，将该声学特征作为输入代入至回归神经网络，例如DNN(DeepNeuralNetworks，深度神经网络)，从而获得扩展为采样率为16khz的声学特征，以此建立采样率为8khz时的声学特征与采样率为16khz时的声学特征两者之间的映射关系，然后将映射关系保存，从而生成频谱扩展模型。

另外，在将第二采样率时的声学特征扩展为第一采样率时的声学特征之后，可将扩展后的声学特征加入至原有的第一采样率对应的声学模型中进行训练，从而使得训练后的声学模型准确率更高。

为实现上述目的，本发明还提出一种语音识别的装置。

如图2所示，语音识别的装置可包括：接收模块110、确定模块120、第一识别模块130和第二识别模块140。

接收模块110用于接收用户通过终端输入的语音信息和终端所处的网络信息。其中，网络信息可包括2G网络、3G网络、4G网络等。具体地，用户可通过终端输入一段语音信息，然后终端可将该语音信息与该终端所处的网络信息一起上传至接收模块110。举例来说，用户开启手机的麦克风功能，并输入语音信息“搜一下附近的好吃的”，则手机可将该语音信息发送给服务器。同时，如果该手机使用的是移动4G网络，则可将该网络信息也发送给服务器。

确定模块120用于根据网络信息确定语音信息对应的采样率。其中，采样率包括第一采样率和第二采样率，第一采样率大于第二采样率。具体地，确定模块120在收到上述语音信息和网络信息后，可根据网络信息确定语音信息对应的采样率。举例来说，如果终端使用的网络信息为4G或3G网络，则可确定语音信息对应的采样率为16khz；如果终端使用的网络信息为3G网络，则可确定语音信息对应的采样率为8khz。

第一识别模块130用于当语音信息对应的采样率为第一采样率时，根据第一采样率对应的声学模型对语音信息进行识别。其中，第一采样率对应的声学模型主要通过LSTM(Long-ShortTermMemory,时间递归神经网络)训练获得。例如，假设第一采样率为16khz，则可以16khz对语音信息进行采样，然后提取16khz对应的声学特征，再根据已训练好的16khz的声学模型对语音信息进行识别，从而生成对应的识别结果。

第二识别模块140用于当语音信息对应的采样率为第二采样率时，对语音信息进行预处理，并根据声学模型对预处理后的语音信息进行识别。具体地，当语音信息对应的采样率为第二采样率时，第二识别模块140可提取语音信息在第二采样率时的声学特征信息，然后基于频谱扩展模型将第二采样率时的声学特征信息转换为第一采样率时的声学特征信息。在此之后，可将转换后的第一采样率时的声学特征信息作为输入，并基于声学模型输出对应的识别结果。例如，假设第二采样率为8khz，第一采样率为16khz，则可以8khz对语音信息进行采样，然后提取8khz对应的声学特征，再根据频谱扩展模型将提取的8khz对应的声学特征转换为16khz对应的声学特征，最后根据已训练好的16khz的声学模型对语音信息进行识别，从而生成对应的识别结果。

此外，如图3所示，本发明实施例的语音识别的装置还可包括训练模块150。

训练模块150用于在基于频谱扩展模型将第二采样率时的声学特征信息转换为第一采样率时的声学特征信息之前，基于训练语料训练频谱扩展模型。具体地，训练模块150可对训练语料进行下采样以获取训练语料在第二采样率时的声学特征信息，再根据回归神经网络建立训练语料在第一采样率时的声学特征信息与在第二采样率时的声学特征信息之间的映射关系，从而生成频谱扩展模型。举例来说，首先可采集大量的采样率为16khz的训练语料，然后对该训练语料进行下采样，提取训练语料在采样率为8khz时的声学特征，将该声学特征作为输入代入至回归神经网络，例如DNN(DeepNeuralNetworks，深度神经网络)，从而获得扩展为采样率为16khz的声学特征，以此建立采样率为8khz时的声学特征与采样率为16khz时的声学特征两者之间的映射关系，然后将映射关系保存，从而生成频谱扩展模型。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别的方法，其特征在于，包括以下步骤：

接收用户通过终端输入的语音信息和所述终端所处的网络信息；

根据所述网络信息确定所述语音信息对应的采样率，其中，所述采样率包括第一采样率和第二采样率，所述第一采样率大于所述第二采样率；

当所述语音信息对应的采样率为第一采样率时，根据所述第一采样率对应的声学模型对所述语音信息进行识别；以及

当所述语音信息对应的采样率为第二采样率时，对所述语音信息进行预处理，并根据所述声学模型对预处理后的所述语音信息进行识别。

2.如权利要求1所述的方法，其特征在于，对所述语音信息进行预处理，包括：

提取所述语音信息在所述第二采样率时的声学特征信息；

基于频谱扩展模型将所述第二采样率时的声学特征信息转换为所述第一采样率时的声学特征信息。

3.如权利要求2所述的方法，其特征在于，根据所述声学模型对预处理后的所述语音信息进行识别，包括：

将转换后的所述第一采样率时的声学特征信息作为输入，并基于所述声学模型输出对应的识别结果。

4.如权利要求2所述的方法，其特征在于，在基于频谱扩展模型将所述第二采样率时的声学特征信息转换为所述第一采样率时的声学特征信息之前，还包括：

基于训练语料训练所述频谱扩展模型，其中，所述训练语料的采样率为第一采样率。

5.如权利要求4所述的方法，其特征在于，基于训练语料训练所述频谱扩展模型，包括：

对所述训练语料进行下采样以获取所述训练语料在所述第二采样率时的声学特征信息；

根据回归神经网络建立所述训练语料在所述第一采样率时的声学特征信息与在所述第二采样率时的声学特征信息之间的映射关系以生成所述频谱扩展模型。

6.一种语音识别的装置，其特征在于，包括：

接收模块，用于接收用户通过终端输入的语音信息和所述终端所处的网络信息；

确定模块，用于根据所述网络信息确定所述语音信息对应的采样率，其中，所述采样率包括第一采样率和第二采样率，所述第一采样率大于所述第二采样率；

第一识别模块，用于当所述语音信息对应的采样率为第一采样率时，根据所述第一采样率对应的声学模型对所述语音信息进行识别；以及

第二识别模块，用于当所述语音信息对应的采样率为第二采样率时，对所述语音信息进行预处理，并根据所述声学模型对预处理后的所述语音信息进行识别。

7.如权利要求6所述的装置，其特征在于，所述第二识别模块，用于：

提取所述语音信息在所述第二采样率时的声学特征信息；

8.如权利要求7所述的装置，其特征在于，所述第二识别模块，用于：

9.如权利要求7所述的装置，其特征在于，还包括：

训练模块，用于在基于频谱扩展模型将所述第二采样率时的声学特征信息转换为所述第一采样率时的声学特征信息之前，基于训练语料训练所述频谱扩展模型，其中，所述训练语料的采样率为第一采样率。

10.如权利要求9所述的装置，其特征在于，所述训练模块，用于：