CN112017643B

CN112017643B - 语音识别模型训练方法、语音识别方法及相关装置

Info

Publication number: CN112017643B
Application number: CN202010858518.4A
Authority: CN
Inventors: 唐浩雨
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2023-10-31
Anticipated expiration: 2040-08-24
Also published as: CN112017643A

Abstract

本发明实施例公开了一种语音识别模型训练方法、语音识别方法及相关装置，训练方法包括：获取训练语音和语音文本；合并字典和词典生成混合词典；采用字典对语音文本字编码得到字训练数据；根据混合词典对语音文本语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据；依次采用字训练数据、词义分词训练数据和随机分词训练数据训练语音识别模型。实现了语音文本可对应多种词训练数据，满足词训练所需的大量词训练数据，先后通过字训练数据和词训练数据来训练语音识别模型，使得语音识别模型既具备字建模良好的时序效果，又具备词建模良好的语义识别效果，再者，词训练数据包含随机分词训练数据，可以提高语音中不规范口语的识别率。

Description

语音识别模型训练方法、语音识别方法及相关装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音识别模型训练方法、语音识别方法、语音识别模型训练装置、语音识别装置、电子设备及存储介质。

背景技术

在直播平台中，常常需要对大量直播间主播的内容进行监管，监管对象包括图像和语音，直播中的语音主要来源于主播说话所形成的语音。对于语音内容的监管，通常是将语音识别为文本，然后对文本进行甄别。

在文本甄别过程中，关键词一般词的形式而不是单独的字，语音识别的准确度对后续文本甄别至关重要。然而，现阶段端到端语音识别中，深度神经网络大多以字为识别单位建模(字建模单元)，即一个发音识别为一个字来生成识别文本。如对于“我去北京长城”的语音，在语音识别过程中，已经识别出“我去北京长”，对最后的“城”字识别的时候可能错误定位到了相似发音的“成”、“程”、“乘”上，从而后续文本甄别时无法准确定位到“长城”这个关键词上，即字建模对于整句识别在时序上有效果，但对于关键词的识别效果较差，而如果使用词建模，神经网络以“我”“去”“北京”“长城”为单位进行词识别，当识别出“我去北京”之后，深度神经网络对“长城”进行识别，不会出现语义上不符合的词语，但是对于更大的词建模，例如，从字建模“长”“城”到词建模“长城”，意味着深度神经网络需要更多的数据进行训练，如需要在样本中标注各个关键词的时序、上下文信息等。

综上所述，现有语音识别采用字建模无法准确定位关键词，而采用词建模需要大量数据来训练模型。

发明内容

本发明实施例提供一种语音识别模型训练方法、语音识别方法、语音识别模型训练装置、语音识别装置、电子设备及存储介质，以解决现有语音识别采用字建模无法准确定位关键词，而采用词建模需要大量数据来训练模型的问题。

第一方面，本发明实施例提供了一种语音识别模型训练方法，包括：

获取训练语音以及所述训练语音的语音文本；

合并预设字典和预设词典生成混合词典；

采用所述预设字典对所述语音文本进行字编码得到字训练数据；

根据所述混合词典对所述语音文本进行语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据；

依次采用所述字训练数据、所述词义分词训练数据和所述随机分词训练数据训练语音识别模型。

第二方面，本发明实施例提供了一种语音识别方法，包括：

获取待识别语音；

将所述待识别语音输入预先训练好的语音识别模型中得到编码序列；

根据预设混合词典对所述编码序列进行解码获得语音文本；

其中，所述语音识别模型由本发明第一方面所述的语音识别模型训练方法所述训练，所述混合词典为字典和词典合并所生成的词典。

第三方面，本发明实施例提供了一种语音识别模型训练装置，包括：

训练语音和语音文本获取模块，用于获取训练语音以及所述训练语音的语音文本；

混合词典生成模块，用于合并预设字典和预设词典生成混合词典；

字训练数据获取模块，用于采用所述预设字典对所述语音文本进行字编码得到字训练数据；

词训练数据获取模块，用于根据所述混合词典对所述语音文本进行语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据；

训练模块，用于依次采用所述字训练数据、所述词义分词训练数据和所述随机分词训练数据训练语音识别模型。

第四方面，本发明实施例提供了一种语音识别装置，包括：

待识别语音获取模块，用于获取待识别语音；

语音识别模块，用于将所述待识别语音输入预先训练好的语音识别模型中得到编码序列；

语音文本确定模块，用于根据预设混合词典对所述编码序列进行解码获得语音文本；

第五方面，本发明实施例提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任一实施例所述的语音识别模型训练方法，和/或，语音识别方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任一实施例所述的语音识别模型训练方法，和/或，语音识别方法。

本发明实施例获取训练语音和训练语音的语音文本后，通过字典和词典合并生成混合词典，通过字典对语音文本进行字编码得到字训练数据，通过混合词典对语音文本进行语义分词编码得到词义分词训练数据后，还对语音文本进行随机分词编码得到随机分词训练数据，实现了一个语音文本可以得到多种词训练数据，满足了词训练所需的大量词训练数据需求，并且先通过字训练数据来训练语音识别模型以使得语音识别模型学习到时序信息，词训练时训练数据无需标注上下文时序信息，通过词训练数据来训练语音识别模型后，最终训练得到的语音识别模型既具备字建模良好的时序效果，又具备词建模良好的语义识别效果，再者，词训练数据包含随机分词训练数据，可以提高语音中不规范口语的识别率。

附图说明

图1是本发明实施例一提供的一种语音识别模型训练方法的步骤流程图；

图2是本发明实施例二提供的一种语音识别模型训练方法的步骤流程图；

图3是本发明实施例三提供的一种语音识别方法的步骤流程图；

图4是本发明实施例四提供的一种语音识别模型训练装置的结构框图；

图5是本发明实施例五提供的一种语音识别装置的结构框图；

图6是本发明实施例六提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

实施例一

图1为本发明实施例一提供的一种语音识别模型训练方法的步骤流程图，本发明实施例可适用于训练语音识别模型来识别语音的情况，该方法可以由本发明实施例的语音识别模型训练装置来执行，该语音识别模型训练装置可以由硬件或软件来实现，并集成在本发明实施例所提供的电子设备中，具体地，如图1所示，本发明实施例的语音识别模型训练方法可以包括如下步骤：

S101、获取训练语音以及所述训练语音的语音文本。

在本发明实施例中，训练语音可以是指在训练语音识别模型时输入到模型中的语音，该训练语音的语种可以是汉语，当然还可以是其他语种，本发明实施例以汉语作为示例，训练语音可以是直播平台中采集到的主播的说话的语音、短视频平台中的语音等，训练语音的语音文本可以是训练语音对应的文本内容，例如，采集到一段以汉语拼音规则说话得到的训练语音，按照汉语拼音规则拼写后得到的中文即为训练语音的语音文本。在实际应用中，可以通过查找汉语字典、汉语词典获得训练语音的语音文本，当然，也可以是接收人工输入的文本作为训练语音的语音文本，本发明实施例对获取训练语音和语音文本的方式不加以限制。

S102、合并预设字典和预设词典生成混合词典。

在本发明实施例中，字典可以是指包含字和字的编码值的字典，词典可以是指包含词和词的编码值的词典，其中，编码值可以是随机、或者按照一定规则为字或词赋予的值。需要说明的是，词典中可以包含字，相同的字在字典和词典中的编码值可以相同，也可以不相同。

合并字典和词典可以是将字典和词典合并，然后进行去重处理得到混合词典，使得混合词典中每个字和词具有唯一的编码值。

S103、采用所述预设字典对所述语音文本进行字编码得到字训练数据。

具体地，可以在字典中查找语音文本中每个字的编码值，并按照每个字在语音文本中的顺序对每个字的编码值进行排序的到一个编码序列，以训练语音作为训练样本，该编码序列作为样本标签，训练样本和样本标签即为字训练数据。

S104、根据所述混合词典对所述语音文本进行语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据。

在本发明实施例中，语义分词编码可以是先按照语音文本的语义信息对语音文本进行词义分词，然后在混合词典中查找每个分词对应的编码值，按照分词在语音文本中的顺序对分词的编码值进行排序得到编码序列，该编码序列作为词义分词训练数据的样本标签，训练语音作为训练样本。

随机分词编码可以是随机对语音文本进行随机分词，然后在混合词典中查找随机分词后每个分词对应的编码值，按照分词在语音文本中的顺序对每个分词的编码值进行排序得到编码序列，该编码序列作为随机分词训练数据的样本标签，训练语音作为训练样本。

S105、依次采用所述字训练数据、所述词义分词训练数据和所述随机分词训练数据训练语音识别模型。

在本发明实施例中，可以先初始化语音识别模型，例如构建语音识别模型各个网络层，初始化各个网络层的参数等，在实际应用中，语音识别模型可以是各种人工神经网络，如CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)等。

在初始化语音识别模型后，可以先采用字训练数据对初始化后的语音识别模型进行字训练，在字训练完成后得到第一语音识别模型，然后采用词义分词训练数据对第一语音识别模型进行词义分词训练得到第二语音识别模型，最后采用随机分词训练数据对第二语音识别模型进行随机分词训练得到最终训练好的语音识别模型，当然，在实际应用中，在字训练完成得到第一语音识别模型后，也可以先采用随机分词训练数据对第一语音识别模型进行随机分词训练得到第二语音识别模型，最后采用词义分词训练数据对第二语音识别模型进行词义分词训练得到最终训练好的语音识别模型。

训练好语音识别模型后，可以将待识别语音输入语音识别模型中得到编码序列，通过混合词典对该编码序列进行解码即可以得到待识别语音的语音文本，可以对该语音文本进行甄别以确定待识别语音中是否包含敏感内容，从而实现对语音进行监管。

本发明实施例通过字典和词典合并来生成混合词典，采用字典对语音文本进行字编码得到字训练数据，通过混合词典对语音文本除了进行语义分词编码得到词义分词训练数据外，还对语音文本进行随机分词编码得到随机分词训练数据，实现了一个语音文本可以得到多种词训练数据，满足了词训练所需的大量词训练数据需求，并且先通过字训练数据来训练语音识别模型以使得语音识别模型学习到时序信息，词训练时训练数据无需标注上下文时序信息，通过词训练数据来训练语音识别模型后，最终训练得到的语音识别模型既具备字建模良好的时序效果，又具备词建模良好的语义识别效果，再者，词训练数据包含随机分词训练数据，可以提高语音中不规范口语的识别率。

实施例二

图2为本发明实施例二提供的一种语音识别模型训练方法的步骤流程图，本发明实施例在前述实施例一的基础上进行优化，具体地，如图2所示，本发明实施例的语音识别模型训练方法可以包括如下步骤：

S201、获取训练语音以及所述训练语音的语音文本。

在实际应用中可以获取多条语音作为训练语音，并获取多条语音的对应的文本作为语音文本，在一个示例中，可以获取同一语种的、不同口音的语音作为训练语音，以汉语普通话为示例，可以获取中国境内不同地区的用户以普通话说话形成的语音作为训练语音，还可以获取中国境外的用户以普通话说话形成的语音作为训练语音，还可以获取不同年龄段、不同性别的用户以普通话说话形成的语音作为训练语音，从而可以获取多样化的训练语音来训练语音识别模型，提高模型对语音识别的鲁棒性。

S202、合并预设字典和预设词典生成混合词典。

在本发明的可选实施例中，可以先合并字典和词典得到初始混合词典，对初始混合词典进行去重处理得到最终的混合词典。具体地，字典包括字和字的编码值，词典包括字和词，以及字和词的编码值，在合并字典和词典得到初始混合词典后，可以在初始混合词典中查找重复的字，从初始混合词典中删除来源于字典中该重复的字和编码值，或者删除来源于词典中该重复的字和编码值，得到最终的混合词典。

示例性地，在字典中“我”字的编码值为“1”，词典中“我”字的编码值也为“1”，合并后初始混合词典中有两个“我”字，可以删除其中一个“我”字及其编码值“1”，使得最终混合词典中只有一个“我”字及其编码值。

在另一个示例中，在字典中“我爱北京颐和园”中每个字的的编码值如下：

我---1、爱---83、北---102、京---150、颐---186、和---233、园---270；

在词典中，“我”、“爱”、“北京”、“颐和园”的编码值如下：

我---1、爱---5、北京---45、颐和园---75；

在字典和词典合并后得到如下字、词编码：

我---1、爱---5、北京---45、颐和园---75、北---102、京---150、颐---186、和---233、园---270。

在上述示例中，字典和词典有重复的字“我”和“爱”，合并后仅保留一项，当然，上述字、词的编码值仅作为示例，在实际应用中对字、词的编码值不加以限制。

S203、从所述预设字典中查找所述语音文本中每个字的编码值。

在本发明实施例中，字典中以字为单位对每个字进行编码，对于训练语音的语音文本，可以以字为单位在字典中查找语音文本中每个字的编码值，示例性地，语音文本为“我爱北京颐和园”，从字典中查找出每个字的编码如下：我---1、爱---83、北---102、京---150、颐---186、和---233、园---270。

S204、按照每个字在所述语音文本中的顺序和每个字的所述编码值生成所述语音文本的第一编码序列。

语音文本中每个字的顺序是确定的，可以按照该顺序对每个字的编码值排序后即为第一编码序列，示例性地，语音文本为“我爱北京颐和园”中每个字的编码如下：我---1、爱---83、北---102、京---150、颐---186、和---233、园---270，则语音文本“我爱北京颐和园”的字编码序列为：1-83-102-150-186-233-270。

S205、将所述训练语音和所述第一编码序列作为字训练数据，其中，所述训练语音作为训练样本，所述第一编码序列作为样本标签。

具体地，对语音文本进行字编码得到语音文本的第一编码序列后，可以将训练语音作为训练样本，第一编码序列作为样本标签，从而得到包括训练样本和样本标签的字训练数据。在实际应用中，可以获取多条训练语音，每条训练语音作为一个训练样本，每个训练样本均设置有样本标签。

S206、按照所述语音文本的语义信息对所述语音文本进行分词得到第一分词序列，以及对所述语音文本进行随机分词处理得到第二分词序列。

在本发明可选实施例中，语义分词可以是按照语义对语音文本进行分词，对于语音文本，可以基于用户的语义分词操作将语音文本进行分词得到第一分词序列，当然，还可以训练语义分词模型，将语音文本输入语义分词模型后得到语音文本的第一分词序列，该第一分词序列中每个字、分词具有具体的语义，示例性地，对于语音文本“我爱北京颐和园”进行语义分词后得到的分词序列为：我---爱---北京---颐和园。

另外，随机分词可以是不按照语音文本的语义对语音文本进行分词，在一个示例中，可以在语音文本中随机插入分词符得到第二分词序列，如对于语音文本“我爱北京颐和园”进行随机分词后得到的分词序列为：我--爱北---京---颐和---园，或者为：我--爱北---京颐---和园，当然，本领域技术人员可以任意设置随机分词的方式，本发明实施例对此不加以限制。

S207、从所述混合词典中查找所述第一分词序列中每个分词的编码值，以及从所述混合词典中查找所述第二分词序列中每个分词的编码值。

具体而言，对于按照语义进行分词得到第一分词序列，该第一分词序列中的每个词具有具体的语义，该分词通常包含在混合词典中，可以在混合词典中查找第一分词序列中每个分词的编码值，示例性地，对于第一分词序列“我--爱---北京---颐和园”，从混合词典中查找到每个分词的编码值为：我---1、爱---5、北京---45、颐和园---75。

另外，对于随机分词得到的第二分词序列，混合词典中可能不包含有该第二分词序列中无语义的分词，可以对混合词典进行拓展，将第二分词序列中无语义的分词添加到混合词典中并赋予编码值，如对于随机分词得到的第二分词序列“我--爱北---京---颐和---园”，分词“爱北”和“颐和”可能不包含在混合词典中，可以在混合词典中增加“爱北-101”、“颐和-303”，即对于第二分词序列“我--爱北---京---颐和---园”，从混合词典中查找到每个分词的编码值为：我---1、爱北---101、京---45、颐和---303、园---270。

S208、按照所述第一分词序列中每个分词的编码值生成所述语音文本的第二编码序列，以及按照所述第二分词序列中每个分词的编码值生成所述语音文本的第三编码序列。

示例性地，对于第一分词序列“我--爱---北京---颐和园”，从混合词典中查找到每个分词的编码值为：我---1、爱---5、北京---45、颐和园---75，则语音文本“我爱北京颐和园”的第二编码序列为：1-5-45-75，第三编码序列为：1-101-45-303-270。

S209、将所述训练语音和所述第二编码序列作为词义分词训练数据，以及将所述训练语音和所述第三编码序列作为随机分词训练数据，其中，所述训练语音作为所述词义分词训练数据和所述随机分词训练数据的训练样本，所述第二编码序列作为所述词义分词训练数据的样本标签，所述第三编码序列作为所述随机分词训练数据的样本标签。

本发明实施例是对语音进行识别，因此对于语义分词训练数据，训练语音为训练样本，语音文本词义分词后得到的第二编码序列为样本标签，对于随机分词训练数据，同样以训练语音为训练样本，语音文本随机分词后得到的第三编码序列为样本标签。

S210、初始化语音识别模型。

具体地地，初始化语音识别模型可以是构建语音识别模型的输入层、中间层和输出层，初始化各个层的参数，其中，语音识别模型可以是各种人工神经网络，如CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)等，并且输出层的长度等于混合词典的长度。

S211、采用所述字训练数据来对所述初始化后的语音识别模型进行字训练得到第一语音识别模型。

在本发明的可选实施例中，可以随机提取一条训练语音输入初始化后的语音识别模型中得到第一预测编码序列，并采用第一预测编码序列和第一编码序列计算第一损失率，判断损失率是否小于预设阈值，在第一损失率小于预设阈值时，停止训练语音识别模型得到第一语音识别模型，在第一损失率大于预设阈值时，根据第一损失率对语音识别模型的参数进行调整，返回随机提取训练语音输入初始化后的语音识别模型中得到第一预测编码序列的步骤。

具体地，对语音识别模型训练是对模型进行迭代的过程，每次迭代后将预测值和真实值进行比较计算出损失率，直到损失率小于预设阈值时停止迭代，否则通过损失率计算梯度来调整模型参数进行新一轮迭代，其中，可以计算第一预测编码序列相对于第一编码序列的字错率来作为损失率，当然还可以通过其他损失函数计算损失率，本发明实施例对计算损失率和梯度的方式不加以限制。

对语音识别模型字训练可以是以字为单位对模型进行训练，即端到端地一个语音识别为一个字，在字训练过程中，根据语音-文字时序单调性，可以使得语音识别模型学习到每个发音到字的对齐，字训练后的语音模型可以为后续的词训练提供时间轴上的对齐信息，即字训练后的语音识别模型能够学习到根据上下文信息对词进行对齐的能力，无需在词训练数据中在标注上下文信息，减少了词训练所需的训练数据。

示例性地，以“我爱北京颐和园”为示例，在对字训练后的语音识别模型进行词训练时，对于“北京”这个词，识别出“北京”后，经过字训练的语音识别模型能够提供“北京”是在“爱”和“天”之间这一信息，可以良好的定位“北京”对应的语音时间段在“爱”和“天”对应的时间段之间，即通过字训练后，语音识别模型具有语音到字的对齐能力，可以为后续词训练提供上下文信息。

另外，字训练是每个字的发音到字的识别，可以仅关注字发音，从而使得语音识别模型可以学习到抹除说话人说话的语气和环境噪音的能力，提高语音识别模型对语音识别的鲁棒性。

S212、采用所述词义分词训练数据和所述随机分词训练数据来对所述第一语音识别模型进行词训练得到训练好的语音识别模型。

在本发明的可选实施例中，可以先采用词义分词训练数据对第一语音识别模型进行词义分词训练得到第二语音识别模型，具体地，可以随机提取一条训练语音输入第一语音识别模型中得到第二预测编码序列，采用第二预测编码序列和第二编码序列计算第二损失率，在第二损失率小于预设阈值时，停止训练第一语音识别模型得到第二语音识别模型，在第二损失率大于预设阈值时，根据第二损失率对第一语音识别模型的参数进行调整，返回将训练语音输入第一语音识别模型中得到第二预测编码序列的步骤。

即在字训练得到第一语音识别模型后，继续使用词训练来训练第一语音识别模型，由于词训练能够使得模型学习到字和字组合为具有具体语义的分词的能力，通过词训练后得到的第二语音识别模型，既能保持第一语音识别模型中准确识别字或词在整句中的位置的能力，又能够识别出准确的具有具体语义的分词，既能保证整句中各个字、词的准确位置，又能保证各个字、词的语义准确性。

进一步地，在词训练时，在采用词义分词训练数据训练第一语音识别模型得到第二语音识别模型后，进一步采用随机分词训练数据对第二语音识别模型进行随机分词训练得到训练好的语音识别模型。具体可以随机提取训练语音输入第二语音识别模型中得到预测编码序列，根据预测编码序列和随机分词训练数据中的第三编码序列计算损失率来确定是否需要对模型参数进行调整。

在本发明实施例中，通过对语音文本进行随机分词来生成随机分词训练数据来训练语音识别模型，随机分词符合直播、短视频场景中用户边说话边思考所形成的高度碎片化的语音，该高度碎片化的语音往往并不是按照语义进行断句，通过随机分词来训练语音识别模型，语音识别模型可以学习到识别高碎片化语音的能力，提高语音识别模型对不规范语音的识别率。

本发明实施例对训练语音的语音文本进行字编码得到字训练数据，对语音文本进行词义分词和随机分词，在合并字典和词典生成的混合词典后，采用混合词典对词义分词得到的分词序列和随机分词得到的分词序列进行编码得到词义分词训练数据和随机分词训练数据，训练模型时，先采用字训练数据来对初始化后的语音识别模型进行字训练得到第一语音识别模型，继续采用词义分词训练数据和随机分词训练数据来对第一语音识别模型进行词训练得到训练好的语音识别模型。实现了一个语音文本可以得到多种词训练数据，满足了词训练所需的大量词训练数据，并且先通过字训练数据来训练语音识别模型以使得语音识别模型学习到时序信息，词训练时训练数据无需标注上下文时序信息，通过词训练数据来训练语音识别模型后，最终训练得到的语音识别模型既具备字建模良好的整句时序效果，又具备词建模良好的语义识别效果，再者，词训练数据包含随机分词训练数据，可以提高语音中不规范口语的识别率。

实施例三

图3为本发明实施例三提供的一种语音识别方法的步骤流程图，本发明实施例可适用于识别语音的情况，该方法可以由本发明实施例的语音识别装置来执行，该语音识别装置可以由硬件或软件来实现，并集成在本发明实施例所提供的电子设备中，具体地，如图3所示，本发明实施例的语音识别方法可以包括如下步骤：

S301、获取待识别语音。

具体地，待识别语音可以是需要识别为文本的语音，如可以是需要监管的语音，在一个示例中，待识别语音可以是直播间中主播或者观众的说话的声音，还可以是短视频中人物说话的声音，当然，待识别语音还可以是其他场景中的语音，本发明实施例对从何处获取待识别语音不加以限制。

S302、将所述待识别语音输入预先训练好的语音识别模型中得到编码序列。

具体地，可以通过实施例一或实施例二的语音识别模型训练方法训练语音识别模型，该语音识别模型可以将输入的语音识别为编码序列，编码序列中的每个编码值对应一个字或者词，语音识别模型的训练参考实施例一或实施例二，在此不再详述。

S303、根据预设混合词典对所述编码序列进行解码获得语音文本。

混合词典可以是包含字与字的编码值、词与词的编码值的词典，该混合词典的生成可以参考实施例一或实施例二，在此不再详述。

语音识别模型输出编码序列后，可以在混合词典中查找编码序列中每个编码值对应的字或词，并按照编码值在序列中的顺序对每个编码值的字、词进行排序即可以得到语音文本。

本发明实施例所使用的语音识别模型在训练时，通过字典和词典合并来生成混合词典，采用字典对语音文本进行字编码得到字训练数据，通过混合词典对语音文本除了进行语义分词编码得到词义分词训练数据外，还对语音文本进行随机分词编码得到随机分词训练数据，实现了一个语音文本可以得到多种词训练数据，满足了词训练所需的大量词训练数据，并且先通过字训练数据来训练语音识别模型以使得语音识别模型学习到时序信息，词训练时训练数据无需标注上下文时序信息，通过词训练数据来训练语音识别模型，最终训练得到的语音识别模型既具备字建模良好的时序效果，又具备词建模良好的语义识别效果，再者，词训练数据包含随机分词训练数据，可以提高语音中不规范口语的识别率。

实施例四

图4是本发明实施例四提供的一种语音识别模型训练装置的结构框图，如图4所示，本发明实施例的语音识别模型训练装置具体可以包括如下模块：

训练语音和语音文本获取模块401，用于获取训练语音以及所述训练语音的语音文本；

混合词典生成模块402，用于合并预设字典和预设词典生成混合词典；

字训练数据获取模块403，用于采用所述预设字典对所述语音文本进行字编码得到字训练数据；

词训练数据获取模块404，用于根据所述混合词典对所述语音文本进行语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据；

训练模块405，用于依次采用所述字训练数据、所述词义分词训练数据和所述随机分词训练数据训练语音识别模型。

本发明实施例所提供的语音识别模型训练装置可执行本发明实施例一或实施例二所提供的语音识别模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5是本发明实施例五提供的一种语音识别装置的结构框图，如图5所示，本发明实施例的语音识别装置具体可以包括如下模块：

待识别语音获取模块501，用于获取待识别语音；

语音识别模块502，用于将所述待识别语音输入预先训练好的语音识别模型中得到编码序列；

语音文本确定模块503，用于根据预设混合词典对所述编码序列进行解码获得语音文本；

其中，所述语音识别模型由本发明实施例一或实施例二所述的语音识别模型训练方法所述训练，所述混合词典为字典和词典合并所生成的词典。

本发明实施例所提供的视频编码装置可执行本发明实施例三所提供的语音识别方法，具备执行方法相应的功能模块和有益效果。

实施例六

参照图6，示出了本发明一个示例中的一种设备的结构示意图。如图6所示，该设备具体可以包括：处理器601、存储装置602、具有触摸功能的显示屏603、输入装置604、输出装置605以及通信装置606。该设备中处理器601的数量可以是一个或者多个，图6中以一个处理器601为例。该设备的处理器601、存储装置602、显示屏603、输入装置604、输出装置605以及通信装置606可以通过总线或者其他方式连接，图6中以通过总线连接为例。所述设备用于执行如本发明任一实施例提供的语音识别模型训练方法，和/或，语音识别方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例提供的语音识别模型训练方法，和/或，语音识别方法。

需要说明的是，对于装置、电子设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变换、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音识别模型训练方法，其特征在于，包括：

获取训练语音以及所述训练语音的语音文本；

合并预设字典和预设词典生成混合词典；

2.根据权利要求1所述的方法，其特征在于，所述合并预设字典和预设词典生成混合词典，包括：

合并所述预设字典和所述预设词典得到初始混合词典；

对所述初始混合词典进行去重处理得到最终的混合词典。

3.根据权利要求2所述的方法，其特征在于，所述预设字典和所述预设词典包括字和字的编码值，所述对所述初始混合词典进行去重处理得到最终的混合词典，包括：

在所述初始混合词典中查找重复的字；

从所述初始混合词典中删除来源于所述预设字典中所述重复的字和编码值，或者删除来源于所述预设词典中所述重复的字和编码值，得到最终的混合词典。

4.根据权利要求1所述的方法，其特征在于，所述预设字典包括字和字的编码值，所述采用所述预设字典对所述语音文本进行字编码得到字训练数据，包括：

从所述预设字典中查找所述语音文本中每个字的编码值；

按照每个字在所述语音文本中的顺序和每个字的所述编码值生成所述语音文本的第一编码序列；

将所述训练语音和所述第一编码序列作为字训练数据，其中，所述训练语音作为训练样本，所述第一编码序列作为样本标签。

5.根据权利要求1所述的方法，其特征在于，所述根据所述混合词典对所述语音文本进行语义分词编码和随机分词编码得到词义分词训练数据和随机分词训练数据，包括：

按照所述语音文本的语义信息对所述语音文本进行分词得到第一分词序列，以及对所述语音文本进行随机分词处理得到第二分词序列；

从所述混合词典中查找所述第一分词序列中每个分词的编码值，以及从所述混合词典中查找所述第二分词序列中每个分词的编码值；

按照所述第一分词序列中每个分词的编码值生成所述语音文本的第二编码序列，以及按照所述第二分词序列中每个分词的编码值生成所述语音文本的第三编码序列；

将所述训练语音和所述第二编码序列作为词义分词训练数据，以及将所述训练语音和所述第三编码序列作为随机分词训练数据，其中，所述训练语音作为所述词义分词训练数据和所述随机分词训练数据的训练样本，所述第二编码序列作为所述词义分词训练数据的样本标签，所述第三编码序列作为所述随机分词训练数据的样本标签。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述依次采用所述字训练数据、所述词义分词训练数据和所述随机分词训练数据训练语音识别模型，包括：

初始化语音识别模型；

采用所述字训练数据来对所述初始化后的语音识别模型进行字训练得到第一语音识别模型；

采用所述词义分词训练数据和所述随机分词训练数据来对所述第一语音识别模型进行词训练得到训练好的语音识别模型。

7.根据权利要求6所述的方法，其特征在于，所述初始化语音识别模型，包括：

构建输出层长度等于所述混合词典的长度的语音识别模型。

8.根据权利要求6所述的方法，其特征在于，所述字训练数据包括所述训练语音和第一编码序列，所述采用所述字训练数据来对所述语音识别模型进行字训练得到第一语音识别模型，包括：

将所述训练语音输入所述初始化后的语音识别模型中得到第一预测编码序列；

采用所述第一预测编码序列和所述第一编码序列计算第一损失率；

在所述第一损失率小于预设阈值时，停止训练所述语音识别模型，得到第一语音识别模型；

在所述第一损失率大于预设阈值时，根据所述第一损失率对所述语音识别模型的参数进行调整，返回将所述训练语音输入所述初始化后的语音识别模型中，得到第一预测编码序列的步骤。

9.根据权利要求6所述的方法，其特征在于，所述采用所述词义分词训练数据和所述随机分词训练数据来对所述第一语音识别模型进行词训练得到训练好的语音识别模型，包括：

采用所述词义分词训练数据对所述第一语音识别模型进行词义分词训练得到第二语音识别模型；

采用所述随机分词训练数据对所述第二语音识别模型进行随机分词训练得到训练好的语音识别模型。

10.根据权利要求9所述的方法，其特征在于，所述词义分词训练数据包括训练语音和第二编码序列，所述采用所述词义分词训练数据对所述第一语音识别模型进行词义分词训练得到第二语音识别模型，包括：

将所述训练语音输入所述第一语音识别模型中得到第二预测编码序列；

采用所述第二预测编码序列和所述第二编码序列计算第二损失率；

在所述第二损失率小于预设阈值时，停止训练所述第一语音识别模型，得到第二语音识别模型；

在所述第二损失率大于预设阈值时，根据所述第二损失率对所述第一语音识别模型的参数进行调整，返回将所述训练语音输入所述第一语音识别模型中，得到第二预测编码序列的步骤。

11.一种语音识别方法，其特征在于，包括：

获取待识别语音；

根据预设混合词典对所述编码序列进行解码获得语音文本；

其中，所述语音识别模型由权利要求1-10任一项所述的语音识别模型训练方法所述训练，所述混合词典为字典和词典合并所生成的词典。

12.一种语音识别模型训练装置，其特征在于，包括：

13.一种语音识别装置，其特征在于，包括：

待识别语音获取模块，用于获取待识别语音；

14.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一项所述的语音识别模型训练方法，和/或，权利要求11所述的语音识别方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一项所述的语音识别模型训练方法，和/或，权利要求11所述的语音识别方法。