CN110033760B

CN110033760B - 语音识别的建模方法、装置及设备

Info

Publication number: CN110033760B
Application number: CN201910297805.XA
Authority: CN
Inventors: 袁胜龙
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2021-01-29
Anticipated expiration: 2039-04-15
Also published as: US11688391B2; US20200327883A1; CN110033760A

Abstract

本发明提出一种语音识别的建模方法、装置及设备，其中，方法包括：确定N类标签；根据普通话的第二语音数据训练神经网络，生成输出为N类标签的识别模型；将P种方言的第二语音数据分别输入到识别模型中进行处理，获取每帧方言的第二语音数据的输出标签；根据所述输出标签和标注的真实标签，对于P种方言中每一种方言确定N类标签的错误率，根据错误率大于预设阈值的标签新生成M类目标标签；根据普通话的第三语音数据和P种方言的第三语音数据训练声学模型，声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。由此，实现了普通话和方言混合建模，在保证识别准确性的同时，使同一个模型既支持普通话，又能支持多种方言。

Description

语音识别的建模方法、装置及设备

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别的建模方法、装置及设备。

背景技术

随着语音识别技术的发展，语音识别的性能已满足实用，例如手机上的各种输入法都带有语音交互功能。而在实际应用中，除了普通话场景的语音识别外，还存在方言场景的语音识别。目前已有许多支持方言语音识别的语音交互产品，比如手机输入法上语音识别可选项，用户可以根据需要选择对应的方言，再比如一些针对特定方言定制的智能电视、智能冰箱等。

相关技术中，通常采用普通话识别模型对普通话进行语音识别，采用相应的方言识别模型对方言进行语音识别，而在用户在切换语言时，需要来回选择相应的语音识别模型，操作繁琐。并且，随着要支持的方言越来越多，工作量与维护成本较高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种语音识别的建模方法，实现了普通话和方言混合建模，在保证识别准确性的同时，使得同一个模型既支持普通话，又能支持多种方言，无需在多个模型之间切换，简化了用户操作，并且降低了维护成本。

本发明的第二个目的在于提出一种语音识别的建模装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

本发明第一方面实施例提出了一种语音识别的建模方法，包括：

根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理，获取每帧第一语音数据对应的标签，统计输出的标签并对相同类别的标签进行去重，确定N类标签，其中，N为正整数，P为正整数；

根据普通话的第二语音数据训练神经网络，当所述神经网络收敛时生成识别模型，其中，所述识别模型的输出为所述N类标签；

将所述P种方言的第二语音数据分别输入到所述识别模型中进行处理，获取每帧方言的第二语音数据的输出标签；

根据所述输出标签和标注的真实标签，对于所述P种方言中每一种方言确定所述N类标签中每类标签的错误率，根据所述错误率大于预设阈值的M类标签新生成M类目标标签，其中，M为大于等于零的整数；

根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型，其中，所述声学模型的输出为所述N类标签和所述P种方言中每一种方言对应的所述M类目标标签。

本发明第二方面实施例提出了一种语音识别的建模装置，包括：

对齐模块，用于根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理，获取每帧第一语音数据对应的标签，统计输出的标签并对相同类别的标签进行去重，确定N类标签，其中，N为正整数，P为正整数；

第一训练模块，用于根据普通话的第二语音数据训练神经网络，当所述神经网络收敛时生成识别模型，其中，所述识别模型的输出为所述N类标签；

处理模块，用于将所述P种方言的第二语音数据分别输入到所述识别模型中进行处理，获取每帧方言的第二语音数据的输出标签；

生成模块，用于根据所述输出标签和标注的真实标签，对于所述P种方言中每一种方言确定所述N类标签中每类标签的错误率，根据所述错误率大于预设阈值的M类标签新生成M类目标标签，其中，M为大于等于零的整数；

第二训练模块，用于根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型，其中，所述声学模型的输出为所述N类标签和所述P种方言中每一种方言对应的所述M类目标标签。

本发明第三方面实施例提出了一种计算机设备，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的语音识别的建模方法。

本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的语音识别的建模方法。

本发明实施例提供的技术方案可以包括以下有益效果：

根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理，获取每帧第一语音数据对应的标签，统计输出的标签并对相同类别的标签进行去重，确定N类标签。进而，根据普通话的第二语音数据训练神经网络，当神经网络收敛时生成输出为N类标签的识别模型。进一步将P种方言的第二语音数据分别输入到识别模型中进行处理，获取每帧方言的第二语音数据的输出标签。进一步根据输出标签和标注的真实标签，对于P种方言中每一种方言确定N类标签中每类标签的错误率，根据错误率大于预设阈值的M类标签新生成M类目标标签。进一步根据普通话的第三语音数据和P种方言的第三语音数据训练声学模型，其中，声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。由此，对于每种方言，基于普通话训练的识别模型中各标签的错误率，生成相应的目标标签，并根据已有标签与新生成的目标标签生成声学模型，使得该声学模型可以识别普通话语音与方言语音，实现了普通话和方言混合建模，在保证识别准确性的同时，使得同一个模型既支持普通话，又能支持多种方言，无需在多个模型之间切换，简化了用户操作，并且降低了维护成本。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明实施例所提供的一种语音识别的建模方法的流程示意图；

图2为本发明实施例所提供的一种确定输出标签的流程示意图；

图3为本发明实施例所提供的一种声学模型的示意图；

图4为本发明实施例所提供的一种语音识别的建模装置的结构示意图；

图5为本发明实施例所提供的另一种语音识别的建模装置的结构示意图；

图6示出了适于用来实现本发明实施例的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音识别的建模方法、装置及设备。

图1为本发明实施例所提供的一种语音识别的建模方法的流程示意图，如图1所示，该方法包括：

步骤101，根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理，获取每帧第一语音数据对应的标签，统计输出的标签并对相同类别的标签进行去重，确定N类标签，其中，N为正整数，P为正整数。

相关技术中，在针对普通话和方言进行语音识别时，需要切换至相应的语音识别模型进行识别，切换操作繁琐，并且当方言数量增加时需要增加相应的语音识别模型，成本较高。因此，本发明实施例提出一种语音识别的建模方法，能够对普通话和方言混合建模，从而实现一个模型既可以识别普通话，又可以识别方言。

本发明实施例中，在针对普通话和方言混合建模时，可以先根据预先训练的对齐模型对普通话和方言的语音数据做帧级别的对齐，确定N类标签，以保证普通话与方言的建模单元一致。

其中，标签为每帧语音数据对应的内容，比如根据相关语音识别模型中的声学模型确定每帧语音数据对应的标签，根据语音识别模型中的语言模型和标签获取识别文本。

作为一种示例，可以根据普通话数据预先训练对齐模型，该对齐模型输入为每帧语音数据的特征，输出为每帧语音数据对应的标签。进而，将收集的普通话语音数据和方言A、方言B的语音数据输入到该对齐模型中，输出每帧语音数据对应的标签，进一步对输出的标签进行统计和去重，确定N类标签作为后续步骤中神经网络的输出层节点，比如N为2000，对齐后可以确定2000个不同的标签。由此，实现了将方言与普通话进行帧级别的对齐，保证方言和普通话的建模单元一致。

在本发明的一个实施例中，对齐模型可以基于混合高斯模型实现。可以预先收集普通话的语音数据以及对应标注的文本信息，其中该文本信息中已知每个字对应的一个或多个标签。进而，提取每帧语音数据的梅尔频率倒谱系数(简称MFCC)特征，根据MFCC特征和文本信息，基于最大似然估计训练混合高斯模型的参数，生成对齐模型，使得该对齐模型的输入为每帧语音数据的MFCC特征，输出为每帧语音数据对应的标签。

步骤102，根据普通话的第二语音数据训练神经网络，当神经网络收敛时生成识别模型，其中，识别模型的输出为N类标签。

本发明实施例中，在确定了N类标签后，可以收集普通话的语音数据训练神经网络，使该神经网络的输出层节点数量为N，分别对应N类标签。其中，神经网络可以为DNN-HMM(深度神经网络-隐马尔科夫模型)。

作为一种可能的实现方式，可以收集普通话的语音数据和对应标注的标签，并对普通话语音数据提取滤波器组系数(Filter Bank)特征，基于CTC(ConnectionistTemporal Classification)的训练准则训练神经网络，其中，CTC的训练准则可以如下公式所示，

其中，^k为某一时刻参考的标签k的得分，∑_{s∈label(z,k)}α(s)β(s)表示某一时刻CTC路径中属于标签k的得分(通过CTC的前向得分和后向得分的乘积得到)，P(z|x)为某一时刻CTC所经过路径的总得分。进而，当神经网络收敛时生成识别模型，该识别模型的输出层为N类标签，可以对普通话的语音数据进行识别。将普通话语音数据输入该识别模型，可以获取每帧语音数据对应的标签。

步骤103，将P种方言的第二语音数据分别输入到识别模型中进行处理，获取每帧方言的第二语音数据的输出标签。

本实施例中，可以收集方言的语音数据，并将方言的语音数据输入到从语音数据到标签的识别模型中，获取每帧方言的语音数据对应的标签，作为相应的输出标签。

下面结合识别模型的处理过程进行说明。

图2为本发明实施例所提供的一种确定输出标签的流程示意图，如图2所示，包括：

步骤201，提取方言的第二语音数据的滤波器组系数特征，根据滤波器组系数特征确定每帧方言的第二语音数据的N个后验概率。

本实施例中，由于根据对齐模型确定了N类标签，则识别模型的输出为该N类标签。可以提取方言的语音数据的滤波器组系数特征，并将滤波器组系数特征输入到识别模型中进行处理，对于每帧方言的语音数据，输出N个后验概率，比如输出一个长度为N的一维数组，数组中每个值代表每个标签的后验概率。

步骤202，将N个后验概率中最大值对应的标签，作为每帧方言的第二语音数据的输出标签。

本实施例中，对于每帧方言的语音数据，确定N个后验概率中的最大后验概率，并将该最大后验概率对于的标签，作为该帧方言的语音数据的输出标签。

作为一种示例，N为2000，将方言A和方言B的语音数据分别输入到识别模型，分别得到对应的前向打分，即识别模型输出层的后验概率。由于输出层节点为2000个，对于方言A每一帧数据，以及方言B的每一帧数据，均会得到一个长度为2000的一维数组，其中，数组中每个值代表每个标签的后验概率。进而，将每个数组中最大值对应的标签，作为该帧语音数据的输出标签。

步骤104，根据输出标签和标注的真实标签，对于P种方言中每一种方言确定N类标签中每类标签的错误率，根据错误率大于预设阈值的M类标签新生成M类目标标签，其中，M为大于等于零的整数。

本发明实施例中，可以在收集上述步骤中方言的第二语音数据时，获取该语音数据对应标注的真实标签。其中，输出标签与真实标签均属于N类标签。

可以理解，由于识别模型是根据普通话语音数据训练得到的，因此将方言的语音数据输入到识别模型中进行处理，得到的输出标签可能并不准确，因此可以进一步将能够准确识别的标签作为普通话与方言共用的标签，根据不能够准确识别的标签新生成目标标签作为方言单独使用的标签。

作为一种示例，以方言A为例，对于方言A的每一帧语音数据，将该帧语音数据的输出标签与标注的真实标签进行匹配，若一致则代表分类正确，若不一致则代表分类错误。进而统计各个标签分类错误的个数，并对每个标签的总数归一化，得到每个标签分类的错误率。比如，对于标签1，标注的真实标签为10个，对应的输出标签中有5个为标签1，有5个为其他标签，则确定标签1的错误率为50％。

本实施例中，对于每一种方言，在确定N类标签中各标签的错误率后，可以将错误率与预设阈值进行比较，将错误率小于等于预设阈值的标签作为普通话与该种方言共用的标签，并根据错误率大于预设阈值的标签新生成目标标签，也就是说，对于每一种方言可以从N类标签中确定出M类错误率较高的标签，并根据该M类标签新生成对应的M类目标标签，作为该种方言独有的标签。其中，预设阈值可以根据大量实验数据确定，也可以根据需要自行设置，比如可以为90％，此处不作限制。

需要说明的是，本实施例中当方言种类为多种的情况，针对每一种方言，分别确定各标签的错误率，比如对于方言A确定了M1个目标标签，对于方言B确定了M2个目标标签，其具体实现方式可以参照上述示例，此处不再赘述。

在本发明的一个实施例中，对于每一种方言，在根据错误率大于预设阈值的M类标签新生成M类目标标签之后，还可以根据M类目标标签更新解码字典，在解码字典中为目标标签增加相应的发音。其中，解码字典中包括从单词到音素的映射，用于连接声学模型和语言模型。

步骤105，根据普通话的第三语音数据和P种方言的第三语音数据训练声学模型，其中，声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。

本发明实施例中，在对于P种方言中每一种方言确定M类目标标签之后，可以根据普通话的语音数据与方言的语音数据共同训练一个声学模型，其中，声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。由此，通过该声学模型既可以识别普通话，也可以识别P种方言，并且保证了识别的准确性，从而根据该声学模型及相关语言模型、解码字典构建语音识别模型，可以通过一个语音识别模型对普通话和多种方言进行语音识别。其中，声学模型可以为DNN-HMM模型。

作为一种示例，以普通话和方言A为例，N为2000，预设阈值为90％。对于方言A，2000个标签中错误率大于90％的标签数目为400，将该400个建模单元单独列出并作为额外的建模单元。进而，根据普通话语音数据和方言A语音数据训练声学模型，使得声学模型输出层节点个数为2400，其中，2000个节点中有1600个为普通话和方言A共用，400个为普通话单独使用，额外的400个节点为方言A单独使用。

作为另一种示例，参照图3，以普通话和方言A、方言B为例，N为2000，预设阈值为90％。对于方言A，2000个标签中错误率大于90％的标签数目为400，将该400个建模单元单独列出并作为额外的建模单元；对于方言B，2000个标签中错误率大于90％的标签数目为600，将该600个建模单元单独列出并作为额外的建模单元。进而，根据普通话语音数据和方言A、方言B的语音数据训练声学模型，使得声学模型输出层节点个数为3000，其中，对于方言A，2000个节点中有1600个为普通话和方言A共用，400个为普通话单独使用，额外的400个节点为方言A单独使用。对于方言B，节点中有1400个为普通话和方言B共用，600个为普通话单独使用，额外的600个节点为方言B单独使用。

在本发明的一个实施例中，可以收集普通话的语音数据和P种方言的语音数据，并对普通话的语音数据标注相应的标签作为第一标注标签，以及对P种方言的语音数据标注相应的标签作为第二标注标签。进而，根据上述收集的语音数据与对应标注的标签生成训练样本集。其中，对于P种方言中每一种方言的语音数据，将原先标注的错误率大于预设阈值的M类标签替换为对应的M类目标标签，比如，对于方言A，标签1的错误率大于90％，则将原先应当标注的标签1替换为标注目标标签1。进而，根据预设的目标函数和训练样本训练预设模型的处理参数，生成声学模型，使得声学模型的输入为语音数据，输出为每帧语音数据对应的标签或目标标签。其中，预设模型可以为DNN-HMM等，可以基于CTC训练准则训练声学模型，其实现方式可以参照识别模型，此处不再赘述。

需要说明的是，本实施例不同步骤中普通话的语音数据可以相同，也可以不同，以及方言的语音数据可以相同，也可以不同，具体可以根据需要进行选择，此处不作限制。

本发明实施例的语音识别的建模方法，根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理，获取每帧第一语音数据对应的标签，统计输出的标签并对相同类别的标签进行去重，确定N类标签。进而，根据普通话的第二语音数据训练神经网络，当神经网络收敛时生成输出为N类标签的识别模型。进一步将P种方言的第二语音数据分别输入到识别模型中进行处理，获取每帧方言的第二语音数据的输出标签。进一步根据输出标签和标注的真实标签，对于P种方言中每一种方言确定N类标签中每类标签的错误率，根据错误率大于预设阈值的M类标签新生成M类目标标签。进一步根据普通话的第三语音数据和P种方言的第三语音数据训练声学模型，其中，声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。由此，对于每种方言，基于普通话训练的识别模型中各标签的错误率，生成相应的目标标签，并根据已有标签与新生成的目标标签生成声学模型，使得该声学模型可以识别普通话语音与方言语音，实现了基于每帧语音数据分类的错误确定建模单元，从而实现了普通话和方言混合建模，在保证识别准确性的同时，使得同一个模型既支持普通话，又能支持多种方言，无需在多个模型之间切换，简化了用户操作，并且降低了维护成本。

为了实现上述实施例，本发明还提出一种语音识别的建模装置。

图4为本发明实施例所提供的一种语音识别的建模装置的结构示意图，如图4所示，该装置包括：对齐模块100，第一训练模块200，处理模块300，生成模块400，第二训练模块500。

其中，对齐模块100，用于根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理，获取每帧第一语音数据对应的标签，统计输出的标签并对相同类别的标签进行去重，确定N类标签，其中，N为正整数，P为正整数。

第一训练模块200，用于根据普通话的第二语音数据训练神经网络，当神经网络收敛时生成识别模型，其中，识别模型的输出为N类标签。

处理模块300，用于将P种方言的第二语音数据分别输入到识别模型中进行处理，获取每帧方言的第二语音数据的输出标签。

生成模块400，用于根据输出标签和标注的真实标签，对于P种方言中每一种方言确定N类标签中每类标签的错误率，根据错误率大于预设阈值的M类标签新生成M类目标标签，其中，M为大于等于零的整数。

第二训练模块500，用于根据普通话的第三语音数据和P种方言的第三语音数据训练声学模型，其中，声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。

在图4的基础上，图5所示的装置还包括：第三训练模块600，更新模块700。

其中，第三训练模块600，用于获取普通话的第四语音数据和对应的文本信息；提取每帧第四语音数据的MFCC特征，根据MFCC特征和文本信息，基于最大似然估计训练混合高斯模型的参数，生成对齐模型。

更新模块700，用于根据M类目标标签更新解码字典。

可选地，处理模块300具体用于：提取方言的第二语音数据的滤波器组系数特征，根据滤波器组系数特征确定每帧方言的第二语音数据的N个后验概率；将N个后验概率中最大值对应的标签，作为每帧方言的第二语音数据的输出标签。

可选地，第二训练模块500具体用于：根据普通话的第三语音数据和与普通话的第三语音数据对应的第一标注标签，以及P种方言的第三语音数据和与P种方言的第三语音数据对应的第二标注标签，生成训练样本，其中，对于P种方言中每一种方言的第三语音数据，将原先标注的错误率大于预设阈值的M类标签替换为对应的M类目标标签；根据预设的目标函数和训练样本训练预设模型的处理参数，生成声学模型。

需要说明的是，前述实施例对语音识别的建模方法的解释说明同样适用于本实施例的装置，此处不再赘述。

本发明实施例的语音识别的建模装置，能够对于每种方言，基于普通话训练的识别模型中各标签的错误率，生成相应的目标标签，并根据已有标签与新生成的目标标签生成声学模型，使得该声学模型可以识别普通话语音与方言语音，实现了普通话和方言混合建模，在保证识别准确性的同时，使得同一个模型既支持普通话，又能支持多种方言，无需在多个模型之间切换，简化了用户操作，并且降低了维护成本。

为了实现上述实施例，本发明还提出一种计算机设备，包括处理器和存储器；其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如前述任一实施例所述的语音识别的建模方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的语音识别的建模方法。

为了实现上述实施例，本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述任一实施例所述的语音识别的建模方法。

图6示出了适于用来实现本发明实施例的示例性计算机设备的框图。图6显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别的建模方法，其特征在于，包括：

根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型，其中，所述声学模型的输出为所述P种方言中每一种方言对应的所述M类目标标签、以及所述N类标签。

2.如权利要求1所述的方法，其特征在于，所述将所述P种方言的第二语音数据分别输入到所述识别模型中进行处理，获取每帧方言的第二语音数据的输出标签包括：

提取所述方言的第二语音数据的滤波器组系数特征，根据所述滤波器组系数特征确定每帧方言的第二语音数据的N个后验概率；

将所述N个后验概率中最大值对应的标签，作为所述每帧方言的第二语音数据的输出标签。

3.如权利要求1所述的方法，其特征在于，所述根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型包括：

根据所述普通话的第三语音数据和与所述普通话的第三语音数据对应的第一标注标签，以及所述P种方言的第三语音数据和与所述P种方言的第三语音数据对应的第二标注标签，生成训练样本，其中，对于所述P种方言中每一种方言的第三语音数据，将原先标注的错误率大于预设阈值的M类标签替换为对应的M类目标标签；

根据预设的目标函数和所述训练样本训练预设模型，生成所述声学模型。

4.如权利要求1所述的方法，其特征在于，在根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理之前，还包括：

获取普通话的第四语音数据和对应的文本信息；

提取每帧第四语音数据的MFCC特征，根据所述MFCC特征和所述文本信息，基于最大似然估计训练混合高斯模型，生成所述对齐模型。

5.如权利要求1所述的方法，其特征在于，在根据所述错误率大于预设阈值的M类标签新生成M类目标标签之后，还包括：

根据所述M类目标标签更新解码字典。

6.一种语音识别的建模装置，其特征在于，包括：

第二训练模块，用于根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型，其中，所述声学模型的输出为所述P种方言中每一种方言对应的所述M类目标标签、以及所述N类标签。

7.如权利要求6所述的装置，其特征在于，所述处理模块具体用于：

8.如权利要求6所述的装置，其特征在于，所述第二训练模块具体用于：

9.如权利要求6所述的装置，其特征在于，还包括：

第三训练模块，用于获取普通话的第四语音数据和对应的文本信息；

10.如权利要求6所述的装置，其特征在于，还包括：

更新模块，用于根据所述M类目标标签更新解码字典。

11.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-5中任一项所述的语音识别的建模方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的语音识别的建模方法。