CN113450764B - 文本语音识别方法、装置、设备及存储介质 - Google Patents
文本语音识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113450764B CN113450764B CN202110775029.7A CN202110775029A CN113450764B CN 113450764 B CN113450764 B CN 113450764B CN 202110775029 A CN202110775029 A CN 202110775029A CN 113450764 B CN113450764 B CN 113450764B
- Authority
- CN
- China
- Prior art keywords
- sample data
- preset
- voice
- model
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 65
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 46
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 46
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000011176 pooling Methods 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 47
- 238000004458 analytical method Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 30
- 230000003993 interaction Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 15
- 238000003062 neural network model Methods 0.000 claims description 14
- 238000011240 pooled analysis Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000280 densification Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请涉及语音识别技术领域,并公开了一种文本语音识别方法、装置、设备及存储介质,通过第一预设数量的携带有语音标签的第一样本数据对预设的教师模型进行训练;并根据训练之后的教师模型对第二预设数量的无语音标签的第二样本数据进行分析,得到携带有伪语音标签的第三样本数据;进一步,根据第一样本数据和第三样本数据对预设的学生模型进行训练,并不断以训练之后的学生模型模拟所述教师模型,对第三预设数量的无语音标签的测试样本数据进行分析,直至学生模型对文本语音合成性能高于教师模型之后,停止训练,得到语音合成模型;进而基于所述语音合成模型对待识别文本进行语音合成,以提高在训练样本不足的情况下,对文本的语音合成精度。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种文本语音识别方法、装置、设备及存储介质。
背景技术
目前,常见的语音合成技术是Neural TTS语音合成技术,该技术虽然能够从文本中合成出高质量且可以理解的语音信息。但是大多数的NeuralTTS语音合成技术的TSS系统采用的是RNN网络架构,而RNN网络架构的训练和推理过程需要大量的语料库,在训练样本数据量较少的情况下很难得到具有准确预测语音信息的TSS系统。因此,现有的语音合成技术无法在训练样本不足的情况下,保证对文本语音识别的精度。
发明内容
本申请提供了一种文本语音识别方法、装置、设备及存储介质,能够解决在训练样本不足的情况下,对文本的语音识别精度不高的问题。
第一方面,本申请提供了一种文本语音识别方法,所述方法包括:
获取第一预设数量的携带有语音标签的第一样本数据,基于所述第一样本数据对预设的教师模型进行训练;
根据训练之后的所述教师模型对第二预设数量的无语音标签的第二样本数据进行分析,得到携带有伪标签的第三样本数据;
根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,基于训练之后的学生模型对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据;
若所述第三语音数据携带的伪标签与预设语音标签相同的概率大于预设的概率阈值,且训练之后的所述学生模型的损失函数值小于预设的损失函数阈值,则停止对所述学生模型的训练,得到训练完成的语音合成模型;
基于所述语音合成模型对待识别文本进行语音合成,得到所述待识别文本对应的语音信息。
第二方面,本申请还提供了一种文本语音识别装置,包括:
训练模块,用于获取第一预设数量的携带有语音标签的第一样本数据,基于所述第一样本数据对预设的教师模型进行训练;
第一得到模块,用于根据训练之后的所述教师模型对第二预设数量的无语音标签的第二样本数据进行分析,得到携带有伪标签的第三样本数据;
第二得到模块,用于根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,基于训练之后的学生模型对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据;
第三得到模块,用于在若所述第三语音数据携带的伪标签与预设语音标签相同的概率大于预设的概率阈值,且训练之后的所述学生模型的损失函数值小于预设的损失函数阈值,则停止对所述学生模型的训练,得到训练完成的语音合成模型;
识别模块,用于基于所述语音合成模型对待识别文本进行语音合成,得到所述待识别文本对应的语音信息。
第三方面,本申请还提供了一种文本语音识别设备,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上第一方面所述的文本语音识别方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上第一方面所述的文本语音识别方法的步骤。
本申请公开了一种文本语音识别方法、装置、设备及存储介质,通过第一预设数量的携带有语音标签的第一样本数据对预设的教师模型进行训练;并根据训练之后的教师模型对第二预设数量的无语音标签的第二样本数据进行分析,得到携带有伪语音标签的第三样本数据;进一步,根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,并不断以训练之后的学生模型模拟所述教师模型,对第三预设数量的无语音标签的测试样本数据进行分析,直至学生模型对文本语音合成性能高于教师模型之后,停止训练,得到语音合成模型;进而基于所述语音合成模型对待识别文本进行语音合成,以提高在训练样本不足的情况下,对文本的语音合成精度。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的多任务融合的人脸定位方法的实现流程图;
图2是图1中S101的具体实现流程图;
图3是图1中S102的具体实现流程图;
图4是本申请实施例提供的多任务融合的人脸定位装置的结构示意图;
图5是本申请实施例提供的多任务融合的人脸定位设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种文本语音识别方法、装置、设备及存储介质。本申请实施例提供的文本语音识别方法,通过第一预设数量的携带有语音标签的第一样本数据对预设的教师模型进行训练;并根据训练之后的教师模型对第二预设数量的无语音标签的第二样本数据进行分析,得到携带有伪语音标签的第三样本数据;进一步,根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,并不断以训练之后的学生模型模拟所述教师模型,对第三预设数量的无语音标签的测试样本数据进行分析,直至学生模型对文本语音合成性能高于教师模型之后,停止训练,得到语音合成模型;进而基于所述语音合成模型对待识别文本进行语音合成,以提高在训练样本不足的情况下,对文本的语音合成精度。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请一实施例提供的文本语音识别方法的示意流程图。该文本语音识别方法可以由服务器或者终端实现,所述服务器可以是单个服务器或者服务器集群。所述终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等。
如图1所示,图1是本申请一实施例提供的文本语音识别方法的实现流程图。具体包括:步骤S101至步骤S105。详述如下:
S101,获取第一预设数量的携带有语音标签的第一样本数据,基于所述第一样本数据对预设的教师模型进行训练。
其中,所述第一样本数据可以是包含有文字内容的文本数据,该文本数据携带有按照语义信息、词汇信息或者语音信息生成的语音标签。其中,第一预设数量小于预设的训练样本数。也就是说,在本实施例中,是基于少量的携带有语音标签的第一样本数据,对预设的教师模型进行训练。
在一实施例中,所述预设的教师模型为深度神经网络模型,所述深度神经网络模型包括字段池化层、嵌入层、特征交互层和隐藏层。
示例性地,如图2所示,图2是图1中S101的具体实现流程图。由图2可知,S101包括S1011至S1014,详述如下:
S1011,将所述第一样本数据输入所述深度神经网络模型,在所述字段池化层中对所述第一样本数据进行池化分析。
其中,字段池化层用于对样本数据中不同位置的特征进行聚合统计,得到低维度的统计特征。例如,计算图像中预设区域上的某个特定特征的平均值(或最大值),这些计算得到的特征不仅具有较低的维度(相比使用所有提取得到的特征),同时还会改善对模型的训练结果(使得模型训练过程不容易过拟合)。
将所述第一样本数据输入所述深度神经网络模型,在所述字段池化层中对所述第一样本数据进行池化分析,可以包括:将所述第一样本数据输入所述深度神经网络模型,在所述字段池化层中对所述第一样本数据中的各个样本,分别针对预设池化区域的特征进行聚合统计,得到第一样本数据中各个样本的池化特征。
S1012,基于池化分析之后的所述第一样本数据中各个样本的池化特征对所述特征交互层和所述隐藏层的参数分别进行迭代更新。
其中,特征交互层用于特征间的深度交互,来提高模型的准确性。在特征深度交互的过程中,特征交互层的参数进行不断的迭代更新。隐藏层用于将输入数据的特征,抽象到另一个维度空间,进而来展现更抽象化的特征,经隐藏层转化的特征能够更好的进行线性划分,从而得到不同类型的数据。
在本实施例中,基于池化分析之后的所述第一样本数据中各个样本的池化特征对所述特征交互层和所述隐藏层的参数分别进行迭代更新,可以包括:将池化分析之后的所述第一样本数据中各个样本的池化特征在所述特征交互层进行深度交互,并通过隐藏层将深度交互后得到的特征进行抽象化之后进行线性划分,得到所述池化特征对应的不同类型的语音数据。
S1013,在所述嵌入层中将所述特征交互层和所述隐藏层的参数的迭代更新过程进行共享。
其中,嵌入层是将得到的多维度数据进行降维的过程,在本实施例中,在所述嵌入层中将所述特征交互层和所述隐藏层的参数的迭代更新过程进行共享,包括:将所述特征交互层深度交互后得到的特征进行降维处理,并以词向量进行表示;将所述隐藏层对所述深度交互后得到的特征进行抽象及线性划分的过程以矩阵稠密化的过程进行表示,提取出权重矩阵。
S1014,若与所述嵌入层相连的第一预设类型损失函数的值小于或等于预设的损失函数阈值,则确定得到训练完成的所述教师模型。
其中,所述第一预设类型损失函数与所述嵌入层直接相连,随着所述嵌入层提取的权重矩阵值的不同,所述第一预设类型损失函数的值会发生变化。通常,当整个模型收敛趋于稳定时,所述第一预设类型损失函数的值会趋于稳定,且小于或等于预设的损失函数阈值。通常预设的损失函数阈值为接近0的数,例如,预设的损失函数阈值为0.3。
示例性地,所述第一预设类型损失函数可以是交叉熵损失函数,所述交叉熵损失函数可以表示为:
其中,H(p,q)表示交叉熵损失值,i表示样本数,p(xi)表示样本的真实概率分布,q(xi)表示样本的测试概率分布。
S102,根据训练之后的所述教师模型对第二预设数量的无语音标签的第二样本数据进行分析,得到携带有伪标签的第三样本数据。
其中,第二预设数量是相较于第一预设数量而言的,在本实施例中,第二预设数量小于第一预设数量。也就是说,在本实施例中,在采用交叉熵损失函数训练得到教师模型之后,向训练得到的教师模型输入少量的未标注语音标签的目标文本(第二样本数据),使得教师模型对未标注语音标签的目标文本进行语音标签标注,得到携带有伪标签的第三样本数据。其中,伪标签为教师模型对第二样本数据进行标注的语音标签。
S103,根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,基于训练之后的学生模型对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据。
其中,所述根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,基于训练之后的学生模型对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据,可以包括:根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,并不断以训练之后的所述学生模型模拟所述教师模型,对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据。
具体地,所述预设的学生模型包括所述字段池化层、所述嵌入层和所述隐藏层;示例性地,如图3所示,图3是图1中S103的具体实现流程图。由图3可知,S103包括S1031至S1033,详述如下:
S1031,将所述第一样本数据和所述第三样本数据输入所述预设的学生模型,在所述字段池化层对所述第一样本数据和所述第三样本数据进行池化分析。
S1032,在所述嵌入层中根据共享的所述特征交互层的参数迭代更新过程,对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新。
需要说明的是,所述学生模型与所述教师模型相比,对应的字段池化层、嵌入层和隐藏层均相同。且所述教师模型与所述学生模型通过嵌入层共享数据,也就是说,所述教师模型的嵌入层将特征交互层的参数迭代更新过程,可以映射至所述学生模型的嵌入层。
可选地,所述对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新,可以包括:在对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新的过程中,向所述隐藏层中引入噪声数据,基于正则化算法对所述隐藏层的参数进行进一步迭代更新。
可选地,所述在对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新的过程中,向所述隐藏层中引入噪声数据,基于正则化算法对所述隐藏层的参数进行进一步迭代更新,可以包括:在对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新的过程中,向所述隐藏层中引入增强后的样本数据,并基于梯度的扰动来调整隐藏层的网络结构,对调整后的网络结构基于正则化算法对所述隐藏层的参数进行进一步迭代更新。
其中,所述增强后的样本数据为输入的数据噪声,所述基于梯度的扰动来调整隐藏层的网络结构的过程为输入的模型噪声。在本实施例中,通过输入数据噪声和模型噪声,可以进一步提高对模型训练的准确性。
S1033,若第二预设类型损失函数的值小于或等于所述预设的损失函数阈值,则确定得到训练完成的所述学生模型。
需要说明的是,S1031与S1011以及S1033与S1014的具体实现过程相同,在此不再赘述。
S104,若所述第三语音数据携带的伪标签与预设语音标签相同的概率大于预设的概率阈值,且训练之后的所述学生模型的损失函数值小于预设的损失函数阈值,则停止对所述学生模型的训练,得到训练完成的语音合成模型。
其中,所述预设的概率阈值为接近1的数值,例如,0.97。在本实施例中,当所述学生模型输出的第三语音数据携带的伪标签与真实的语音标签(预设语音标签)基本相同时,可以确定所述学生模型对语音标签合成的准确性;且当所述学生模型的损失函数值小于预设的损失函数阈值时,可以确定所述学生模型完成了收敛。因此,可以停止对所述学生模型的训练,并以训练之后的学生模型作为所述语音合成模型,能够保证对文本语音识别的准确性。
S105,基于所述语音合成模型对待识别文本进行语音合成,得到所述待识别文本对应的语音信息。
通过上述分析可知,本实施例提供的文本语音识别方法,通过第一预设数量的携带有语音标签的第一样本数据对预设的教师模型进行训练;并根据训练之后的教师模型对第二预设数量的无语音标签的第二样本数据进行分析,得到携带有伪语音标签的第三样本数据;进一步,根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,并不断以训练之后的学生模型模拟所述教师模型,对第三预设数量的无语音标签的测试样本数据进行分析,直至学生模型对文本语音合成性能高于教师模型之后,停止训练,得到语音合成模型;进而基于所述语音合成模型对待识别文本进行语音合成,以提高在训练样本不足的情况下,对文本的语音合成精度。
请参阅图4,图4是本申请实施例提供的文本语音识别装置的结构示意图。该文本语音识别装置用于执行图1实施例所示的文本语音识别方法的步骤。该文本语音识别装置可以是单个服务器或服务器集群,或者该文本语音识别装置可以是终端,该终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等。
如图4所示,文本语音识别装置400包括:
训练模块401,用于获取第一预设数量的携带有语音标签的第一样本数据,基于所述第一样本数据对预设的教师模型进行训练;
第一得到模块402,用于根据训练之后的所述教师模型对第二预设数量的无语音标签的第二样本数据进行分析,得到携带有伪标签的第三样本数据;
第二得到模块403,用于根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,基于训练之后的学生模型对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据;
第三得到模块404,用于在若所述第三语音数据携带的伪标签与预设语音标签相同的概率大于预设的概率阈值,且训练之后的所述学生模型的损失函数值小于预设的损失函数阈值,则停止对所述学生模型的训练,得到训练完成的语音合成模型;
识别模块405,用于基于所述语音合成模型对待识别文本进行语音合成,得到所述待识别文本对应的语音信息。
在一实施例中,所述预设的教师模型为深度神经网络模型,所述深度神经网络模型包括字段池化层、嵌入层、特征交互层和隐藏层;所述训练模块501,包括:
第一分析单元,用于将所述第一样本数据输入所述深度神经网络模型,在所述字段池化层中对所述第一样本数据进行池化分析;
第一更新单元,用于基于池化分析之后的所述第一样本数据中各个样本的池化特征对所述特征交互层和所述隐藏层的参数分别进行迭代更新;
共享单元,用于在所述嵌入层中将所述特征交互层和所述隐藏层的参数的迭代更新过程进行共享;
第一确定单元,用于在若与所述嵌入层相连的第一预设类型损失函数的值小于或等于预设的损失函数阈值,则确定得到训练完成的所述教师模型。
在一实施例中,所述预设的学生模型包括所述字段池化层、所述嵌入层和所述隐藏层;所述第二得到模块403,包括:
第二分析单元,用于将所述第一样本数据和所述第三样本数据输入所述预设的学生模型,在所述字段池化层对所述第一样本数据和所述第三样本数据进行池化分析;
第二更新单元,用于在所述嵌入层中根据共享的所述特征交互层的参数迭代更新过程,对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新;
第二确定单元,用于在若第二预设类型损失函数的值小于或等于所述预设的损失函数阈值,则确定得到训练完成的所述学生模型。
在一实施例中,所述第二更新单元,具体用于:
在对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新的过程中,向所述隐藏层中引入噪声数据,基于正则化算法对所述隐藏层的参数进行进一步迭代更新。
在一实施例中,所述在对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新的过程中,向所述隐藏层中引入噪声数据,基于正则化算法对所述隐藏层的参数进行进一步迭代更新,包括:
在对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新的过程中,向所述隐藏层中引入增强后的样本数据,并基于梯度的扰动来调整隐藏层的网络结构,对调整后的网络结构基于正则化算法对所述隐藏层的参数进行进一步迭代更新。
在一实施例中,所述第二得到模块403,具体用于:
根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,并不断以训练之后的所述学生模型模拟所述教师模型,对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据。
在一实施例中,所述第一预设数量大于所述第二预设数量,所述第一预设类型损失函数和所述第二预设类型损失函数相同。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的文本语音识别装置和各模块的具体工作过程,可以参考图1实施例所述的文本语音识别方法实施例中的对应过程,在此不再赘述。
上述的文本语音识别方法可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的装置上运行。
请参阅图5,图5是本申请实施例提供的文本语音识别设备的结构示意性框图。该文本语音识别设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种文本语音识别方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种文本语音识别方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的文本语音识别设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取第一预设数量的携带有语音标签的第一样本数据,基于所述第一样本数据对预设的教师模型进行训练;
根据训练之后的所述教师模型对第二预设数量的无语音标签的第二样本数据进行分析,得到携带有伪标签的第三样本数据;
根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,基于训练之后的学生模型对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据;
若所述第三语音数据携带的伪标签与预设语音标签相同的概率大于预设的概率阈值,且训练之后的所述学生模型的损失函数值小于预设的损失函数阈值,则停止对所述学生模型的训练,得到训练完成的语音合成模型;
基于所述语音合成模型对待识别文本进行语音合成,得到所述待识别文本对应的语音信息。
在一实施例中,所述预设的教师模型为深度神经网络模型,所述深度神经网络模型包括字段池化层、嵌入层、特征交互层和隐藏层;所述基于所述第一样本数据对预设的教师模型进行训练,包括:
将所述第一样本数据输入所述深度神经网络模型,在所述字段池化层中对所述第一样本数据进行池化分析;
基于池化分析之后的所述第一样本数据中各个样本的池化特征对所述特征交互层和所述隐藏层的参数分别进行迭代更新;
在所述嵌入层中将所述特征交互层和所述隐藏层的参数的迭代更新过程进行共享;
若与所述嵌入层相连的第一预设类型损失函数的值小于或等于预设的损失函数阈值,则确定得到训练完成的所述教师模型。
在一实施例中,所述预设的学生模型包括所述字段池化层、所述嵌入层和所述隐藏层;所述根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,包括:
将所述第一样本数据和所述第三样本数据输入所述预设的学生模型,在所述字段池化层对所述第一样本数据和所述第三样本数据进行池化分析;
在所述嵌入层中根据共享的所述特征交互层的参数迭代更新过程,对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新;
若第二预设类型损失函数的值小于或等于所述预设的损失函数阈值,则确定得到训练完成的所述学生模型。
在一实施例中,所述对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新,包括:
在对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新的过程中,向所述隐藏层中引入噪声数据,基于正则化算法对所述隐藏层的参数进行进一步迭代更新。
在一实施例中,所述在对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新的过程中,向所述隐藏层中引入噪声数据,基于正则化算法对所述隐藏层的参数进行进一步迭代更新,包括:
在对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新的过程中,向所述隐藏层中引入增强后的样本数据,并基于梯度的扰动来调整隐藏层的网络结构,对调整后的网络结构基于正则化算法对所述隐藏层的参数进行进一步迭代更新。
在一实施例中,所述根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,基于训练之后的学生模型对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据,包括:
根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,并不断以训练之后的所述学生模型模拟所述教师模型,对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据。
在一实施例中,所述第一预设数量大于所述第二预设数量,所述第一预设类型损失函数和所述第二预设类型损失函数相同。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请图1实施例提供的文本语音识别方法的步骤。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种文本语音识别方法,其特征在于,所述方法包括:
获取第一预设数量的携带有语音标签的第一样本数据,基于所述第一样本数据对预设的教师模型进行训练;
根据训练之后的所述教师模型对第二预设数量的无语音标签的第二样本数据进行分析,得到携带有伪标签的第三样本数据;
根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,基于训练之后的学生模型对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据;
若所述第三语音数据携带的伪标签与预设语音标签相同的概率大于预设的概率阈值,且训练之后的所述学生模型的损失函数值小于预设的损失函数阈值,则停止对所述学生模型的训练,得到训练完成的语音合成模型;
基于所述语音合成模型对待识别文本进行语音合成,得到所述待识别文本对应的语音信息;
其中,所述预设的教师模型为深度神经网络模型,所述深度神经网络模型包括字段池化层、嵌入层、特征交互层和隐藏层;所述基于所述第一样本数据对预设的教师模型进行训练,包括:
将所述第一样本数据输入所述深度神经网络模型,在所述字段池化层中对所述第一样本数据进行池化分析;
基于池化分析之后的所述第一样本数据中各个样本的池化特征对所述特征交互层和所述隐藏层的参数分别进行迭代更新;
在所述嵌入层中将所述特征交互层和所述隐藏层的参数的迭代更新过程进行共享;
若与所述嵌入层相连的第一预设类型损失函数的值小于或等于预设的损失函数阈值,则确定得到训练完成的所述教师模型。
2.根据权利要求1所述的文本语音识别方法,其特征在于,所述预设的学生模型包括所述字段池化层、所述嵌入层和所述隐藏层;所述根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,包括:
将所述第一样本数据和所述第三样本数据输入所述预设的学生模型,在所述字段池化层对所述第一样本数据和所述第三样本数据进行池化分析;
在所述嵌入层中根据共享的所述特征交互层的参数迭代更新过程,对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新;
若第二预设类型损失函数的值小于或等于所述预设的损失函数阈值,则确定得到训练完成的所述学生模型。
3.根据权利要求2所述的文本语音识别方法,其特征在于,所述对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新,包括:
在对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新的过程中,向所述隐藏层中引入噪声数据,基于正则化算法对所述隐藏层的参数进行进一步迭代更新。
4.根据权利要求3所述的文本语音识别方法,其特征在于,所述在对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新的过程中,向所述隐藏层中引入噪声数据,基于正则化算法对所述隐藏层的参数进行进一步迭代更新,包括:
在对所述隐藏层的参数基于池化分析后的所述第一样本数据和所述第三样本数据进行迭代更新的过程中,向所述隐藏层中引入增强后的样本数据,并基于梯度的扰动来调整隐藏层的网络结构,对调整后的网络结构基于正则化算法对所述隐藏层的参数进行进一步迭代更新。
5.根据权利要求4所述的文本语音识别方法,其特征在于,所述根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,基于训练之后的学生模型对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据,包括:
根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,并不断以训练之后的所述学生模型模拟所述教师模型,对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据。
6.根据权利要求2至5任一项所述的文本语音识别方法,其特征在于,所述第一预设数量大于所述第二预设数量,所述第一预设类型损失函数和所述第二预设类型损失函数相同。
7.一种文本语音识别装置,用于实现如权利要求1所述的文本语音识别方法,其特征在于,包括:
训练模块,用于获取第一预设数量的携带有语音标签的第一样本数据,基于所述第一样本数据对预设的教师模型进行训练;
第一得到模块,用于根据训练之后的所述教师模型对第二预设数量的无语音标签的第二样本数据进行分析,得到携带有伪标签的第三样本数据;
第二得到模块,用于根据所述第一样本数据和所述第三样本数据对预设的学生模型进行训练,基于训练之后的学生模型对第三预设数量的无语音标签的测试数据进行分析,得到第三语音数据;
第三得到模块,用于在若所述第三语音数据携带的伪标签与预设语音标签相同的概率大于预设的概率阈值,且训练之后的所述学生模型的损失函数值小于预设的损失函数阈值,则停止对所述学生模型的训练,得到训练完成的语音合成模型;
识别模块,用于基于所述语音合成模型对待识别文本进行语音合成,得到所述待识别文本对应的语音信息。
8.一种文本语音识别设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至6中任一项所述的文本语音识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至6中任一项所述的文本语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110775029.7A CN113450764B (zh) | 2021-07-08 | 2021-07-08 | 文本语音识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110775029.7A CN113450764B (zh) | 2021-07-08 | 2021-07-08 | 文本语音识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113450764A CN113450764A (zh) | 2021-09-28 |
CN113450764B true CN113450764B (zh) | 2024-02-06 |
Family
ID=77815508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110775029.7A Active CN113450764B (zh) | 2021-07-08 | 2021-07-08 | 文本语音识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113450764B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431788B (zh) * | 2023-04-14 | 2024-03-29 | 中电科大数据研究院有限公司 | 面向跨模态数据的语义检索方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033755A (zh) * | 2019-04-23 | 2019-07-19 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
KR20200084414A (ko) * | 2018-12-21 | 2020-07-13 | 서울대학교산학협력단 | 음성 몽타주 생성 방법 및 시스템 |
CN111613224A (zh) * | 2020-04-10 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种个性化语音合成方法及装置 |
CN112509563A (zh) * | 2020-12-17 | 2021-03-16 | 中国科学技术大学 | 模型训练方法、装置及电子设备 |
CN112766423A (zh) * | 2021-03-15 | 2021-05-07 | 平安科技(深圳)有限公司 | 人脸识别模型的训练方法、装置、计算机设备及存储介质 |
CN112966701A (zh) * | 2019-12-12 | 2021-06-15 | 北京沃东天骏信息技术有限公司 | 目标分类的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200052444A (ko) * | 2018-10-30 | 2020-05-15 | 삼성전자주식회사 | 신경망을 이용하여 예측 결과를 출력하는 방법, 신경망을 생성하는 방법 및 그 장치들 |
-
2021
- 2021-07-08 CN CN202110775029.7A patent/CN113450764B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200084414A (ko) * | 2018-12-21 | 2020-07-13 | 서울대학교산학협력단 | 음성 몽타주 생성 방법 및 시스템 |
CN110033755A (zh) * | 2019-04-23 | 2019-07-19 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN112966701A (zh) * | 2019-12-12 | 2021-06-15 | 北京沃东天骏信息技术有限公司 | 目标分类的方法和装置 |
CN111613224A (zh) * | 2020-04-10 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种个性化语音合成方法及装置 |
CN112509563A (zh) * | 2020-12-17 | 2021-03-16 | 中国科学技术大学 | 模型训练方法、装置及电子设备 |
CN112766423A (zh) * | 2021-03-15 | 2021-05-07 | 平安科技(深圳)有限公司 | 人脸识别模型的训练方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113450764A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112699991B (zh) | 用于加速神经网络训练的信息处理的方法、电子设备和计算机可读介质 | |
CN106960219B (zh) | 图片识别方法及装置、计算机设备及计算机可读介质 | |
KR102170199B1 (ko) | 비교 세트를 사용한 입력 예시들 분류 | |
CN108416310B (zh) | 用于生成信息的方法和装置 | |
CN112328761B (zh) | 一种意图标签设置方法、装置、计算机设备及存储介质 | |
CN111061881A (zh) | 文本分类方法、设备及存储介质 | |
CN110598210B (zh) | 实体识别模型训练、实体识别方法、装置、设备及介质 | |
CN113360660B (zh) | 文本类别识别方法、装置、电子设备和存储介质 | |
CN108121699A (zh) | 用于输出信息的方法和装置 | |
CN112084752A (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
CN114241411B (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 | |
CN117688385A (zh) | 文本分析模型的训练方法、装置、设备及存储介质 | |
CN115757731A (zh) | 对话问句改写方法、装置、计算机设备及存储介质 | |
CN113468344B (zh) | 实体关系抽取方法、装置、电子设备和计算机可读介质 | |
CN113450764B (zh) | 文本语音识别方法、装置、设备及存储介质 | |
CN114817478A (zh) | 基于文本的问答方法、装置、计算机设备及存储介质 | |
CN110019952B (zh) | 视频描述方法、系统及装置 | |
CN113806485B (zh) | 一种基于小样本冷启动的意图识别方法、装置及可读介质 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN116450943A (zh) | 基于人工智能的话术推荐方法、装置、设备及存储介质 | |
CN116362301A (zh) | 一种模型的量化方法以及相关设备 | |
CN115795025A (zh) | 一种摘要生成方法及其相关设备 | |
CN113240565B (zh) | 基于量化模型的目标识别方法、装置、设备及存储介质 | |
CN113160795B (zh) | 语种特征提取模型训练方法、装置、设备及存储介质 | |
CN111091198A (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |