CN106251859A

CN106251859A - 语音识别处理方法和装置

Info

Publication number: CN106251859A
Application number: CN201610585160.6A
Authority: CN
Inventors: 李先刚; 蒋兵
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-07-22
Filing date: 2016-07-22
Publication date: 2016-12-21
Anticipated expiration: 2036-07-22
Also published as: CN106251859B; US20190189112A1; JP2019527852A; WO2018014469A1; US11138967B2; JP6774551B2

Abstract

本发明公开了一种语音识别处理方法和装置，其中，方法包括：根据全国所有地区的语音样本数据在预设的处理模型上进行训练，生成通用普通话声学模型；根据各省份的语音样本数据，分别在通用普通话声学模型上进行自适应训练，生成与各省份对应的带有方言口音的普通话声学模型。由此，基于不同地区的用户的口音差异，建立带有方言口音的普通话声学模型，提高了语音识别的性能。

Description

语音识别处理方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别处理方法和装置。

背景技术

语音识别的性能是影响语音识别产品实用化的关键因素之一，声学模型作为语音识别的主要组成部分，对语音识别性能的好坏起到了关键的作用。在声学模型的训练中，如何综合利用各种信息提升声学模型的表现和推广能力，对于语音识别产业具有重要的理论研究和实际应用的价值。

通常情况下，用户的普通话发音可能会带有一定程度的方言口音，比如带有湖南口音的用户的普通话发音中，则常会出现“h”“f”不分的情况，而普通话语音识别产品中的普通话声学模型都是面向全国用户的，没有考虑到用户普通话中的口音差异。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种语音识别处理方法，该方法基于不同地区的用户的口音差异，建立带有方言口音的普通话声学模型，提高了语音识别的性能。

本发明的第二个目的在于提出一种语音识别处理装置。

为了实现上述目的，本发明第一方面实施例提出了一种语音识别处理方法，包括以下步骤：

根据全国所有地区的语音样本数据在预设的处理模型上进行训练，生成通用普通话声学模型；

根据各省份的语音样本数据，分别在所述通用普通话声学模型上进行自适应训练，生成与各省份对应的带有方言口音的普通话声学模型。

本发明实施例的语音识别处理方法，根据各省份的语音测试数据，分别对通用普通话声学模型，以及带有方言口音的普通话声学模型进行测试评估，如果带有方言口音的普通话声学模型的识别性能高于通用普通话声学模型，则将带有方言口音的普通话声学模型部署上线。由此，将识别性能高于通用普通话声学模型的带有方言口音的普通话声学模型部署上线，保证了语音识别处理方法的实用性。

另外，本发明实施例的语音识别处理方法还具有如下附加的技术特征：

在本发明的一个实施例中，所述根据全国所有地区的语音样本数据在预设的处理模型上进行训练，生成通用普通话声学模型，包括：

根据全国所有地区的语音样本数据在预设的深度神经网络模型上进行训练，生成基于深层长短时记忆单元的模型结构，以及连接时序分类框架的声学模型。

在本发明的一个实施例中，所述分别在所述通用普通话声学模型上进行自适应训练，包括：

较小学习率调优基本模型的自适应训练方式；或者，

只调优部分模型参数的自适应训练方式；或者，

引入新特征的自适应训练方式。

在本发明的一个实施例中，在所述生成与各省份对应的带有方言口音的普通话声学模型之后，还包括：

根据各省份的语音测试数据，分别对所述通用普通话声学模型，以及所述带有方言口音的普通话声学模型进行测试评估；

如果所述带有方言口音的普通话声学模型的识别性能高于所述通用普通话声学模型，则将所述带有方言口音的普通话声学模型部署上线。

在本发明的一个实施例中，在所述将所述带有方言口音的普通话声学模型部署上线之后，还包括：

接收用户发送的携带网络地址信息的语音信息；

根据所述网络地址信息确定所述用户所在的省份信息；

判断是否部署有与所述省份信息对应的带有方言口音的普通话声学模型；

如果部署，则将所述语音信息输入到与所述省份信息对应的带有方言口音的普通话声学模型进行语音识别；

如果没有部署，则将所述语音信息输入到所述通用普通话声学模型进行语音识别。

为了实现上述目的，本发明第二方面实施例提出了一种语音识别处理装置，包括：第一生成模块，用于根据全国所有地区的语音样本数据在预设的处理模型上进行训练，生成通用普通话声学模型；

第二生成模块，用于根据各省份的语音样本数据，分别在所述通用普通话声学模型上进行自适应训练，生成与各省份对应的带有方言口音的普通话声学模型。

本发明实施例的语音识别处理装置，根据各省份的语音测试数据，分别对通用普通话声学模型，以及带有方言口音的普通话声学模型进行测试评估，如果带有方言口音的普通话声学模型的识别性能高于通用普通话声学模型，则将带有方言口音的普通话声学模型部署上线。由此，将识别性能高于通用普通话声学模型的带有方言口音的普通话声学模型部署上线，保证了语音识别处理方法的实用性。

另外，本发明实施例的语音识别处理装置，还具有如下附加的技术特征：

在本发明的一个实施例中，所述第一生成模块用于：

在本发明的一个实施例中，所述第二生成模块分别在所述通用普通话声学模型上进行自适应训练，包括：

较小学习率调优基本模型的自适应训练方式；或者，

只调优部分模型参数的自适应训练方式；或者，

引入新特征的自适应训练方式。

在本发明的一个实施例中，所述装置还包括：

评估模块，用于根据各省份的语音测试数据，分别对所述通用普通话声学模型，以及所述带有方言口音的普通话声学模型进行测试评估；

部署模块，用于在所述带有方言口音的普通话声学模型的识别性能高于所述通用普通话声学模型时，将所述带有方言口音的普通话声学模型部署上线。

在本发明的一个实施例中，所述装置还包括：

接收模块，用于接收用户发送的携带网络地址信息的语音信息；

确定模块，用于根据所述网络地址信息确定所述用户所在的省份信息；

判断模块，用于判断是否部署有与所述省份信息对应的带有方言口音的普通话声学模型；

处理模块，用于在部署有与所述省份信息对应的带有方言口音的普通话声学模型时，将所述语音信息输入到与所述省份信息对应的带有方言口音的普通话声学模型进行语音识别；

所述处理模块还用于在没有部署与所述省份信息对应的带有方言口音的普通话声学模型时，将所述语音信息输入到所述通用普通话声学模型进行语音识别。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的语音识别处理方法的流程图；

图2是根据本发明一个实施例的生成带有口音的普通话声学模型的生成流程图；

图3是根据本发明另一个实施例的语音识别处理方法的流程图；

图4是根据本发明又一个实施例的语音识别处理方法的流程图；

图5是根据本发明一个实施例的语音识别处理装置的结构示意图；

图6是根据本发明另一个实施例的语音识别处理装置的结构示意图；以及

图7是根据本发明又一个实施例的语音识别处理装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音识别处理方法和装置。

图1是根据本发明一个实施例的语音识别处理方法的流程图，如图1所示，该方法包括：

S110，根据全国所有地区的语音样本数据在预设的处理模型上进行训练，生成通用普通话声学模型。

具体地，预设一训练生成普通话声学模型的处理模型，比如预设一深度神经网络模型等，进而采集全国所有地区的语音样本数据，将该语音样本数据输入预设的处理模型。

进而，处理模型提取语音样本数据中的语音特征，将语音特征映射到语言基本单元，生成通用普通话声学模型，基于该通用普通话声学模型可实现对全国用户的语音的识别。

S120，根据各省份的语音样本数据，分别在通用普通话声学模型上进行自适应训练，生成与各省份对应的带有方言口音的普通话声学模型。

应当理解的是，在实际应用时，用户的普通话发音可能会带有一定程度的方言口音，例如，在带有四川口音的普通话发音中，其“c”和“ch”的发音是相同的，而普通话声学模型中“c”和“ch”具有明显的区分界线，导致不能对用户的语音数据进行准确地识别。

为了解决上述问题，本发明实施例的语音识别处理方法，在原有的通用普通话声学模型的基础上进行训练，基于不同省份的方言口音的发音特征，优化通用普通话声学模型，对每个不同的方言口音建立对应的带有方言口音的普通话声学模型，从而可以通过带有不同的方言口音的普通话声学模型，对用户输入的语音数据进行准确的识别。

具体地，在实际应用中，采集全国各省份的语音样本数据作为自适应数据，其中，每个省份所采集的语音样本数据，可能数量相对较少，比如可能为几百个小时的语音数量级，进而基于每个省份所采集的语音样本数据，分别在通用普通话声学模型上进行自适应训练，为各个省份进行自适应训练得到对应的普通话声学模型。

其中，上述自适应训练是指：在对采集的全国各省份的语音样本数据进行处理和分析过程中,根据语音样本数据的数据特征，自动调整普通话声学模型的处理参数、边界条件或约束条件等,使得通用普通话模型优化为与各省份的语音样本数据的统计分布特征、结构特征相适应的普通话声学模型。

举例而言，如图2所示，在生成带有广东、河北、河南、广西、四川五个省份的口音的普通话声学模型时，可将采集到的以上五个省份的语音样本数据，分别输入到通用普通话声学模型中，进而根据各省份的语音样本数据，分别在通用普通话声学模型上进行自适应训练，生成与以上五个省份对应的带有河南口音的普通话声学模型、带有河北口音的普通话声学模型等。

综上所述，本发明实施例的语音识别处理方法，根据全国所有地区的语音样本数据在预设的处理模型上进行训练，生成通用普通话声学模型，并根据各省份的语音样本数据，分别在通用普通话声学模型上进行自适应训练，生成与各省份对应的带有方言口音的普通话声学模型。由此，基于不同地区的用户的口音差异，建立带有方言口音的普通话声学模型，提高了语音识别的性能。

基于以上实施例，为了进一步保证语音识别处理方法的实用性，在生成与各省份对应的带有方言口音的普通话声学模型之后，还可对生成的带有方言口音的声学模型进行性能的验证，从而只对相较于普通声学模型性能得到提升的，带有方言口音的普通话声学模型部署上线。

图3是根据本发明另一个实施例的语音识别处理方法的流程图，如图3所示，该方法包括：

S310，根据全国所有地区的语音样本数据在预设的深度神经网络模型上进行训练，生成基于深层长短时记忆单元的模型结构，以及连接时序分类框架的声学模型。

在本发明的一个实施例中，可预先设置深度神经网络模型，该深度神经网络模型的输入为单帧或多帧拼接的语音声学特征，输出为上下文相关的声韵母单元，即基于输入声学特征对上下文相关的声韵母单元的分类，以生成相关声学模型。

具体而言，将全国所有地区的语音样本数据输入该深度神经网络模型进行训练，基于输入语音样本数据的声学特征，对上下文相关的声韵母单元的分类等训练处理，生成基于深层长短时记忆单元的模型结构，以及连接时序分类框架的声学模型。

S320，根据各省份的语音样本数据，分别在通用普通话声学模型上进行自适应训练，生成与各省份对应的带有方言口音的普通话声学模型。

需要说明的是，根据具体应用场景的不同，可采用多种自适应训练方式在通用普通话声学模型上进行自适应训练：

第一种示例，可采用较小学习率调优基本模型的自适应训练方式，在通用普通话声学模型上进行自适应训练。

在本示例中，在对通用普通话声学模型调优时，利用带有口音的语音样本数据在通用普通话声学模型上采用较低的学习率进行微调。

而由于目前通用普通话声学模型的线上模型参数过大，一般小数据量学习容易造成模型过拟合，推广性不强，因此在进行自适应训练时，可采用L2范数正则化以及KL散度正则化的自适应更新方法，进行自适应训练。

其中，以上两种自适应更新方法都可以采用标准的交叉熵准则和误差反向传播方法进行更新，正则化的目标函数可以表示为：表示目标函数，其中，w表示模型参数，KL散度正则下的目标函数表示为：

其中，α表示正则项系数，ο_t表示第t帧样本的特征，q_t表示第t帧样本对应的标记，W表示模型参数，W₀表示当前模型参数。在KL散步正则下，目标的概率表达式是需要更新模型的分布和自适应数据的真实标记下的分布的线性插值。

第二种示例，可采用只调优部分模型参数的自适应训练方式，在通用普通话声学模型上进行自适应训练。

在本示例中，保持住大部分的模型参数与原有的通用模型一致，只对输出层或者隐层的偏置进行调整。并且由于更新的参数规模不大，一般不容易过拟合。

在具体实施过程中，可采用只更新输出层的参数，以及采用奇异值分解的方法加入深瓶颈层以进行较少参数的自适应更新，从而减少自适应模型需要更新的模型参数量。

第三种示例，可采用引入新特征的自适应训练方式，在通用普通话声学模型上进行自适应训练。

本示例中的自适应训练方式考虑到方言口音的特殊性，引入在声纹和自适应训练中较为经典的ivector和说话人编码的方式，通过对每一个方言语音进行包含各类复杂信息的特征矢量提取，将其加入到输入特征进行中自适应训练。

其中，在ivector的提取中，通过采用实时的ivector提取方法，在实际解码中，对每一个包的语音数据提取出相应的ivector矢量进行解码。具体而言，可使用公式M＝m+Tw提取ivector。

其中M是所有训练语料的均值超矢量，m是目标语音的积累到当前包数据的均值超矢量，T是载荷矩阵，w则是需要得到的ivector。

在得到当前语料数据中的ivector之后，每一帧特征将拼接上该ivector特征，形成新的特征进而重新训练声学模型。在训练过程中，只更新ivector特征部分的模型参数权重，而保持原有的模型参数不变，以保证模型不会过拟合，同时保证更新后的模型与原有模型不会变化太多，保证生成的带有方言口音的普通话声学模型的推广效果。

S330，根据各省份的语音测试数据，分别对通用普通话声学模型，以及带有方言口音的普通话声学模型进行测试评估。

具体地，生成的与各省份对应的带有方言口音的普通话声学模型，并不过于偏向通用普通话声学模型，且在实际应用时，有可能带有方言口音的普通话声学模型的性能并不高于通用普通话声学模型。

因此，为了保证部署上线的声学模型的性能得到提升，需要根据各省份的语音测试数据，分别对通用普通话声学模型，以及带有方言口音的普通话声学模型进行测试评估。

比如，分别向通用普通话声学模型和带有河南方言口音的普通话声学模型，输入河南口音的语音测试数据，根据通用普通话声学模型和带有河南方言口音的普通话声学模型语音识别的准确率，对其性能进行测试评估。

S340，如果带有方言口音的普通话声学模型的识别性能高于通用普通话声学模型，则将带有方言口音的普通话声学模型部署上线。

具体地，如果带有方言口音的普通话声学模型的识别性能高于通用普通话声学模型，则表明该带有方言口音的普通话声学模型，相较于通用普通话声学模型能够更加准确地识别带有口音的普通话，因而将带有方言口音的普通话声学模型部署上线。

综上所述，本发明实施例的语音识别处理方法，根据各省份的语音测试数据，分别对通用普通话声学模型，以及带有方言口音的普通话声学模型进行测试评估，如果带有方言口音的普通话声学模型的识别性能高于通用普通话声学模型，则将带有方言口音的普通话声学模型部署上线。由此，将识别性能高于通用普通话声学模型的带有方言口音的普通话声学模型部署上线，保证了语音识别处理方法的实用性。

基于以上描述，在实际应用中，将带有方言口音的普通话声学模型部署上线之后，可采用多种方式确定用户所属的方言口音，以根据与该方言口音对应的普通话声学模型，对用户输入的语音信息进行识别。

第一种示例，可以获取用户的个人信息，根据个人信息中的籍贯所属省份，确定用户所属方言口音，以便根据与该方言口音对应的普通话声学模型，对用户输入的语音信息进行识别。

第二种示例，可以获取用户发出语音识别请求所属的网络地址信息，确定该网络地址信息所属的省份，以获取用户所属方言口音，从而可根据与该方言口音对应的普通话声学模型，对用户输入的语音信息进行识别。

为了更加清楚的说明，如何确定用户所属的方言口音，以根据与该方言口音对应的普通话声学模型，对用户输入的语音信息进行识别，下面结合附图4，基于以上第二种示例的具体实施过程，进行举例说明：

图4是根据本发明又一个实施例的语音识别处理方法的流程图，如图4所示，在如图3所示的步骤S340后，该方法包括：

S410，接收用户发送的携带网络地址信息的语音信息。

S420，根据网络地址信息确定用户所在的省份信息。

具体地，可接收用户发送的携带网络地址信息的语音信息，进而可根据该网络地址信息查询确定其所在的省份，比如，可根据网络地址信息中的IP地址确定其所属的省份信息等。

S430，判断是否部署有与省份信息对应的带有方言口音的普通话声学模型。

S440，如果部署，则将语音信息输入到与省份信息对应的带有方言口音的普通话声学模型进行语音识别。

S450，如果没有部署，则将语音信息输入到通用普通话声学模型进行语音识别。

具体地，在确定用户所在的省份信息后，可判断是否部署有与省份信息对应的带有方言口音的普通话声学模型，如果部署，则表明存在语音识别性能高于普通话声学模型的，与省份信息对应的带有方言口音的普通话声学模型，因而将语音信息输入到与省份信息对应的带有方言口音的普通话声学模型进行语音识别。

如果没有部署，则表明没有语音识别性能高于普通话声学模型的，与省份信息对应的带有方言口音的普通话声学模型，因而将语音信息输入到通用普通话声学模型进行语音识别。

综上所述，本发明实施例的语音识别处理方法，根据用户发送的携带网络地址信息的语音信息，确定用户所在的省份信息，并在部署有与该省份信息对应的带有方言口音的普通话声学模型时，使用该带有方言口音的普通话声学模型识别用户的语音信息。由此，提高了语音识别的性能。

为了实现上述实施例，本发明还提出了一种语音识别处理装置，图5是根据本发明一个实施例的语音识别处理装置的结构示意图，如图5所示，该装置包括：第一生成模块10和第二生成模块20。

其中，第一生成模块10，用于根据全国所有地区的语音样本数据在预设的处理模型上进行训练，生成通用普通话声学模型。

进而，第一生成模块10通过处理模型提取语音样本数据中的语音特征，将语音特征映射到语言基本单元，生成通用普通话声学模型，基于该通用普通话声学模型可实现对全国用户的语音的识别。

第二生成模块20，用于根据各省份的语音样本数据，分别在通用普通话声学模型上进行自适应训练，生成与各省份对应的带有方言口音的普通话声学模型。

具体地，在实际应用中，采集全国各省份的语音样本数据作为自适应数据，其中，每个省份所采集的语音样本数据，可能数量相对较少，比如可能为几百个小时的语音数量级，进而第二生成模块20基于每个省份所采集的语音样本数据，分别在通用普通话声学模型上进行自适应训练，为各个省份进行自适应训练得到对应的普通话声学模型。

需要说明的是，前述对语音识别处理方法实施例的解释说明也适用于该实施例的语音识别处理装置，其实现原理类似，此处不再赘述。

综上所述，本发明实施例的语音识别处理装置，根据全国所有地区的语音样本数据在预设的处理模型上进行训练，生成通用普通话声学模型，并根据各省份的语音样本数据，分别在通用普通话声学模型上进行自适应训练，生成与各省份对应的带有方言口音的普通话声学模型。由此，基于不同地区的用户的口音差异，建立带有方言口音的普通话声学模型，提高了语音识别的性能。

图6是根据本发明另一个实施例的语音识别处理装置的结构示意图，如图6所示，在如图5所示的基础上，该装置还包括：评估模块30和部署模块40。

其中，评估模块30，用于根据各省份的语音测试数据，分别对通用普通话声学模型，以及带有方言口音的普通话声学模型进行测试评估。

部署模块40，用于在带有方言口音的普通话声学模型的识别性能高于通用普通话声学模型时，将带有方言口音的普通话声学模型部署上线。

在本发明的一个实施例中，第一生成模块10还将全国所有地区的语音样本数据输入该深度神经网络模型进行训练，基于输入语音样本数据的声学特征，对上下文相关的声韵母单元的分类等训练处理，生成基于深层长短时记忆单元的模型结构，以及连接时序分类框架的声学模型。

进而，第二生成模块20可采用较小学习率调优基本模型的自适应训练方式、只调优部分模型参数的自适应训练方式、引入新特征的自适应训练方式等在通用普通话声学模型上进行自适应训练，以生成带有方言口音的普通话声学模型。

为了保证部署上线的声学模型的性能得到提升，评估模块30需要根据各省份的语音测试数据，分别对通用普通话声学模型，以及带有方言口音的普通话声学模型进行测试评估。

进一步地，如果带有方言口音的普通话声学模型的识别性能高于通用普通话声学模型，则表明该带有方言口音的普通话声学模型，相较于通用普通话声学模型能够更加准确地识别带有口音的普通话，因而部署模块40将带有方言口音的普通话声学模型部署上线。

综上所述，本发明实施例的语音识别处理装置，根据各省份的语音测试数据，分别对通用普通话声学模型，以及带有方言口音的普通话声学模型进行测试评估，如果带有方言口音的普通话声学模型的识别性能高于通用普通话声学模型，则将带有方言口音的普通话声学模型部署上线。由此，将识别性能高于通用普通话声学模型的带有方言口音的普通话声学模型部署上线，保证了语音识别处理方法的实用性。

图7是根据本发明又一个实施例的语音识别处理装置的结构示意图，如图7所示，在如图6所示的基础上，该装置还包括：接收模块50、确定模块60、判断模块70和处理模块80。

其中，接收模块50，用于接收用户发送的携带网络地址信息的语音信息。

确定模块60，用于根据网络地址信息确定用户所在的省份信息。

具体地，接收模块50可接收用户发送的携带网络地址信息的语音信息，进而确定模块60可根据该网络地址信息查询确定其所在的省份，比如，可根据网络地址信息中的IP地址确定其所属的省份信息等。

判断模块70，用于判断是否部署有与省份信息对应的带有方言口音的普通话声学模型。

处理模块80，用于在部署有与省份信息对应的带有方言口音的普通话声学模型时，将语音信息输入到与省份信息对应的带有方言口音的普通话声学模型进行语音识别。

处理模块80还用于在没有部署与省份信息对应的带有方言口音的普通话声学模型时，将语音信息输入到通用普通话声学模型进行语音识别。

具体地，在确定用户所在的省份信息后，判断模块70可判断是否部署有与省份信息对应的带有方言口音的普通话声学模型，如果部署，则表明存在语音识别性能高于普通话声学模型的，与省份信息对应的带有方言口音的普通话声学模型，因而处理模块80将语音信息输入到与省份信息对应的带有方言口音的普通话声学模型进行语音识别。

如果没有部署，则表明没有语音识别性能高于普通话声学模型的，与省份信息对应的带有方言口音的普通话声学模型，因而处理模块80将语音信息输入到通用普通话声学模型进行语音识别。

综上所述，本发明实施例的语音识别处理装置，根据用户发送的携带网络地址信息的语音信息，确定用户所在的省份信息，并在部署有与该省份信息对应的带有方言口音的普通话声学模型时，使用该带有方言口音的普通话声学模型识别用户的语音信息。由此，提高了语音识别的性能。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别处理方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述根据全国所有地区的语音样本数据在预设的处理模型上进行训练，生成通用普通话声学模型，包括：

3.如权利要求1所述的方法，其特征在于，所述分别在所述通用普通话声学模型上进行自适应训练，包括：

较小学习率调优基本模型的自适应训练方式；或者，

只调优部分模型参数的自适应训练方式；或者，

引入新特征的自适应训练方式。

4.如权利要求1-3任一所述的方法，其特征在于，在所述生成与各省份对应的带有方言口音的普通话声学模型之后，还包括：

5.如权利要求4所述的方法，其特征在于，在所述将所述带有方言口音的普通话声学模型部署上线之后，还包括：

接收用户发送的携带网络地址信息的语音信息；

根据所述网络地址信息确定所述用户所在的省份信息；

6.一种语音识别处理装置，其特征在于，包括：

第一生成模块，用于根据全国所有地区的语音样本数据在预设的处理模型上进行训练，生成通用普通话声学模型；

7.如权利要求6所述的装置，其特征在于，所述第一生成模块用于：

8.如权利要求6所述的装置，其特征在于，所述第二生成模块分别在所述通用普通话声学模型上进行自适应训练，包括：

较小学习率调优基本模型的自适应训练方式；或者，

只调优部分模型参数的自适应训练方式；或者，

引入新特征的自适应训练方式。

9.如权利要求6-8任一所述的方法，其特征在于，还包括：

10.如权利要求9所述的装置，其特征在于，还包括：