CN113421591A - 语音标注方法、装置、设备以及存储介质 - Google Patents
语音标注方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN113421591A CN113421591A CN202110745513.5A CN202110745513A CN113421591A CN 113421591 A CN113421591 A CN 113421591A CN 202110745513 A CN202110745513 A CN 202110745513A CN 113421591 A CN113421591 A CN 113421591A
- Authority
- CN
- China
- Prior art keywords
- labeling
- voice
- target voice
- acoustic model
- data corresponding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 201
- 238000000034 method Methods 0.000 claims abstract description 63
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 13
- 210000002569 neuron Anatomy 0.000 claims description 12
- 238000000513 principal component analysis Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 1
- 230000000295 complement effect Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种语音标注方法,包括:获取目标语音;基于第一声学模型对所述目标语音进行分析,得到所述目标语音对应的第一标注数据;基于第二声学模型对所述目标语音进行分析,得到所述目标语音对应的第二标注数据;根据所述目标语音对应的第一标注数据和第二标注数据确定出所述目标语音对应的最终标注数据,以完成对所述目标语音的标注。可见,本发明能够利用不同声学模型之间的互补特性,提高语音标注的标注准确率,还能够避免传统的单个声学模型的标注过程中复杂的实验操作,提高语音标注的标注效率。本发明还涉及区块链技术领域。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种语音标注方法、装置、计算机设备以及存储介质。
背景技术
语音识别技术离不开语音语料库的标注,建设丰富、完整的语音语料库为语音识别技术的研究和实现提供了基础数据资源,所以语料库建设一直受到国内外研究机构和人员的重视。其中,对原始语料进行标注是构建语音语料库的关键一步,标注的完整性和准确性直接关系到语音识别的效果,但是受限于高昂的标注成本和主观标注的非客观性,高效获取准确的标注语料是非常困难的。目前,主流的标注方法分为人工标注和自动标注两种。然而,随着语音库规模的扩大,人工标注的工作量急剧增加,标注成本十分高昂;此外韵律标注具有一定主观性,保证不同标注人员之间标注结果的一致性较为困难。因此,如何通过计算机自动准确的进行语音语料库的标注已成为当前的一个重要研究方向。
无监督声学模型训练系统是目前自动语音标注的技术路线之一,它通过使用少量带标注的数据训练一个声学模型,然后使用该模型去识别更大规模的未标注训练数据,接着选择部分具有较高置信度的识别结果进入语料库,并利用该语料库去训练新的声学模型,从而达到提升模型精度的目的。由此可以看出,并非所有的原始音频数据都能进入语料库,它取决于语音识别系统的声学模型的质量以及对识别结果的评价方法,因此,对识别结果的评价也是保证语料库质量的关键环节。现有的几种评价方法主要是基于后验概率的置信度阈值法,它们的阈值设定取决于声学模型和语言模型,往往需要根据实验情况进行手动调整,且阈值的设定方法复杂,具有相当的局限性。另外,传统的基于少量训练样本的单一声学模型,即便通过设定阈值也无法过滤掉所有错误识别结果,标注结果不具备高可靠性。可见,目前的语音标注方法的标注效率和标注准确率仍有进一步提升的空间。
发明内容
本发明所要解决的技术问题在于,目前的语音标注方法的标注效率和标注准确率较低。
为了解决上述技术问题,本发明第一方面公开了一种语音标注方法,所述方法包括:
获取目标语音;
基于第一声学模型对所述目标语音进行分析,得到所述目标语音对应的第一标注数据,其中,所述第一标注数据记录有所述第一声学模型对所述目标语音的第一标注结果;
基于第二声学模型对所述目标语音进行分析,得到所述目标语音对应的第二标注数据,其中,所述第二标注数据记录有所述第二声学模型对所述目标语音的第二标注结果;
根据所述目标语音对应的第一标注数据和第二标注数据确定出所述目标语音对应的最终标注数据,以完成对所述目标语音的标注,其中,所述最终标注数据记录有所述目标语音的最终标注结果。
本发明第二方面公开了一种语音标注装置,所述装置包括:
获取模块,用于获取目标语音;
第一标注模块,用于基于第一声学模型对所述目标语音进行分析,得到所述目标语音对应的第一标注数据,其中,所述第一标注数据记录有所述第一声学模型对所述目标语音的第一标注结果;
第二标注模块,用于基于第二声学模型对所述目标语音进行分析,得到所述目标语音对应的第二标注数据,其中,所述第二标注数据记录有所述第二声学模型对所述目标语音的第二标注结果;
最终标注模块,用于根据所述目标语音对应的第一标注数据和第二标注数据确定出所述目标语音对应的最终标注数据,以完成对所述目标语音的标注,其中,所述最终标注数据记录有所述目标语音的最终标注结果。
本发明第三方面公开了一种计算机设备,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的语音标注方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的语音标注方法中的部分或全部步骤。
本发明实施例中,首先获取目标语音,然后使用第一声学模型对目标语音进行分析以得到目标语音对应的第一标注数据,使用第二声学模型对目标语音进行分析以得到目标语音对应的第二标注数据,最后根据目标语音对应的第一标注数据和第二标注数据确定出目标语音对应的最终标注数据,以完成对目标语音的标注。通过使用两个声学模型替代单个声学模型来对目标语音进行标注,并综合两个声学模型的标注数据得到最终的标注数据,从而能够利用不同声学模型之间的互补特性,提高语音标注的标注准确率,还能够避免传统的单个声学模型的标注过程中复杂的实验操作,提高语音标注的标注效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种语音标注方法的流程示意图;
图2是本发明实施例公开的一种语音标注装置的结构示意图;
图3是本发明实施例公开的一种计算机设备的结构示意图;
图4是本发明实施例公开的一种计算机存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种语音标注方法、装置、计算机设备以及存储介质,首先获取目标语音,然后使用第一声学模型对目标语音进行分析以得到目标语音对应的第一标注数据,使用第二声学模型对目标语音进行分析以得到目标语音对应的第二标注数据,最后根据目标语音对应的第一标注数据和第二标注数据确定出目标语音对应的最终标注数据,以完成对目标语音的标注。通过使用两个声学模型替代单个声学模型来对目标语音进行标注,并综合两个声学模型的标注数据得到最终的标注数据,从而能够利用不同声学模型之间的互补特性,提高语音标注的标注准确率,还能够避免传统的单个声学模型的标注过程中复杂的实验操作,提高语音标注的标注效率。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种语音标注方法的流程示意图。如图1所示,该语音标注方法可以包括以下操作:
101、获取目标语音;
102、基于第一声学模型对所述目标语音进行分析,得到所述目标语音对应的第一标注数据,其中,所述第一标注数据记录有所述第一声学模型对所述目标语音的第一标注结果;
103、基于第二声学模型对所述目标语音进行分析,得到所述目标语音对应的第二标注数据,其中,所述第二标注数据记录有所述第二声学模型对所述目标语音的第二标注结果;
104、根据所述目标语音对应的第一标注数据和第二标注数据确定出所述目标语音对应的最终标注数据,以完成对所述目标语音的标注,其中,所述最终标注数据记录有所述目标语音的最终标注结果。
语音识别技术离不开语音语料库的标注,建设丰富、完整的语音语料库为语音识别技术的研究和实现提供了基础数据资源。目前,主流的标注方法分为人工标注和自动标注两种。其中,无监督声学模型训练系统是自动语音标注的技术路线之一,其通过使用少量带标注的数据训练一个声学模型,然后使用该模型去识别更大规模的未标注训练数据,接着选择部分具有较高置信度的识别结果进入语料库,并利用该语料库去训练新的声学模型,从而达到提升模型精度的目的。由此可见,现有的语音标注方法通常需要基于一个置信度阈值对语料的标注结果进行筛选,其中,置信度是一个声学模型在输出标注结果时,同时输出的用于表示该标注结果的准确程度的值,例如,声学模型在输出语音a的标注结果时,同时输出语音a的标注结果的置信度为0.99,则表示声学模型预测语音a的标注结果的准确率为99%,具有极高的可信度。然而,在实际应用中,为保证语料库的质量,在基于置信度阈值对语料的标注结果进行筛选时,选择合适的置信度阈值是一项繁琐的工作,其往往需要根据实验情况进行手动调整,且置信度阈值的设定方法也相当复杂,这导致了目前的语音标注的标注效率的低下。且用于标注的声学模型通常是使用少量的训练样本完成训练的,虽然已通过置信度阈值对标注结果进行过滤,但是在实践中发现,基于置信度阈值的过滤的过滤效果仍不够理想,过滤之后的语料的标注结果仍不具备高可靠性,这导致了目前的语音标注的标注准确率不高。
语音识别技术经过了多年的发展,诞生了许多优秀的声学模型,它们有着各自的理论基础,因此也有着不同的优缺点以及不同的应用场景。研究发现,基于不同理论范式或不同的训练集训练出的声学模型通常具有一定的互补性,即它们大概率不会在相同的样本上犯同样的错误。基于这个发现,将两个(或多个)模型的识别结果进行交叉对齐来就有可能过滤掉那些可能被错误识别的语音。本发明实施例中,通过使用第一声学模型对目标语音进行分析以得到目标语音对应的第一标注数据,使用第二声学模型对目标语音进行分析以得到目标语音对应的第二标注数据,然后根据目标语音对应的第一标注数据和第二标注数据确定出目标语音对应的最终标注数据以完成对目标语音的标注,从而能够利用第一声学模型和第二声学模型之间的互补特性,提高语音标注的标注准确率。相较于传统的单一声学模型加置信度阈值的方法,本发明实施例的语音标注方法无须进行置信度阈值的选择,从而能够避免传统的单个声学模型的标注过程中复杂的实验操作,提高语音标注的标注效率。另外,本发明实施例的语音标注方法融合了不同的声学模型,能够有效避免因单一声学模型泛化能力不够、过拟合等原因导致未能对语料进行正确标注的情况,提升算法的鲁棒性和泛化能力。
可见,实施图1所描述的语音标注方法,首先获取目标语音,然后使用第一声学模型对目标语音进行分析以得到目标语音对应的第一标注数据,使用第二声学模型对目标语音进行分析以得到目标语音对应的第二标注数据,最后根据目标语音对应的第一标注数据和第二标注数据确定出目标语音对应的最终标注数据,以完成对目标语音的标注。通过使用两个声学模型替代单个声学模型来对目标语音进行标注,并综合两个声学模型的标注数据得到最终的标注数据,从而能够利用不同声学模型之间的互补特性,提高语音标注的标注准确率,还能够避免传统的单个声学模型的标注过程中复杂的实验操作,提高语音标注的标注效率。
在一个可选的实施例中,所述第一声学模型为GMM-HMM声学模型,所述第二声学模型为DNN声学模型。
在该可选的实施例中,根据实际的使用效果,可以在众多的声学模型中选择GMM-HMM(Gaussian Mixed Model-Hidden Markov Model,高斯混合模型-隐马尔可夫模型)声学模型作为第一声学模型,选择DNN(Deep Neural Networks,深度神经网络模型)声学模型作为第二声学模型。
在GMM-HMM声学模型中,HMM(Hidden Markov Model,隐马尔可夫模型)具有无后效特征,参数包含初始概率和概率转移矩阵,HMM的观察变量和状态通过一组概率分布相联系,这个隐变量和观察值的对应的统计规律用GMM(Gaussian Mixed Model,高斯混合模型)表示。而对于语音而言,同一个音素可能在不同情态下发音区别很大,语音特征区别也就很大,因此需要用多中心的分布来对应一个HMM中的状态,两者结合起来,就形成了GMM-HMM方法。GMM-HMM声学模型通常由一组参数描述:初始概率状态π,状态转移概率A,观察值概率分布B。
GMM-HMM声学模型的训练通常分两步,首先求GMM的参数,语音字典建立后,语音和音素状态建立了多对一的对应关系。将同一个音素状态的所有语音的特征进行分别提取,用这些数据建立一个GMM来对这个音素状态进行拟合。重复这一过程,将所有音素状态分别建模。第二步是对HMM中的参数进行估计,即给定一个观察序列O=o1,o2,…,oT,确定一个λ=(π,A,B),使P(O│λ)取得最大值,最后得到模型参数组λ=(π,A,B)。至此,整个GMM-HMM声学模型的训练完成。其中,观察序列O=o1,o2,…,oT是对一段语音信号进行分帧、预加重、加窗、fft、mel滤波器组、DCT等操作之后得到的Fbank/MFCC特征,以一段2秒的语音信号,帧长为25ms,帧移为25ms为例,即可以得到80帧的输入信号,这80帧特征序列就是观察序列O=o1,o2,…,oT,T=80。对于DNN声学模型,稍后再进行具体地描述。
可见,实施该可选实施例,在众多的声学模型中选择GMM-HMM声学模型作为第一声学模型,选择DNN声学模型作为第二声学模型,有利于提高语音标注的标注准确率。
在一个可选的实施例中,所述DNN声学模型建立在从所述GMM-HMM模型获得的对齐基础之上,采用时滞神经网络对语音信号进行建模。
在一个可选的实施例中,所述DNN声学模型包括一个输入层、六个个隐藏层和一个输出层;
所述输入层具有3500个神经元,并且一次处理九帧语音信号;
每个所述隐藏层具有1200个神经元;
所述输出层具有1200个神经元。
在一个可选的实施例中,所述DNN声学模型模型训练总共经5代,初始学习率为0.015,终止学习率为0.00015。
DNN声学模型通常包括三层,输入层、隐藏层和输出层,其以输入层-隐藏层-输出层的顺序依次连接,其中,输入层用于获取输入DNN声学模型的信息,隐藏层用于进行特征提取,输出层用于对接隐藏层并输出DNN声学模型的输出结果。本发明实施例中的DNN声学模型可以建立在从GMM-HMM模型获得的对齐基础之上,采用时滞神经网络对语音信号进行建模。使用一个输入层、六个个隐藏层和一个输出层构成DNN声学模型,使用3500个神经元构成输入层,每个隐藏层均使用1200个神经元,使用1200个神经元构成输出层,再经过5代的模型训练,使DNN声学模型的初始学习率为0.015,终止学习率为0.00015,从而能够获得标注准确的DNN声学模型。其中,深度神经网络模型的训练过程即是一个不断调整深度神经网络模型中的模型参数的过程。首先,将训练数据输入至深度神经网络模型进行分析,得到训练数据对应的预测结果,再将训练数据对应的预测结果和标注结果进行比对,根据比对结果使用损失函数和优化器来实现对深度神经网络模型中的模型参数的更新,从而使深度神经网络模型的预测结果能够更靠近标注结果。这一处理流程即可以是一代模型训练的过程。在对深度神经网络模型的训练过程中,通常需要经过多代的训练,才能使深度神经网络模型收敛至合适的效果。
在一个可选的实施例中,所述获取目标语音,包括:
获取原始的长语音;
将所述长语音输入至基于PCA分析方法的语音活动监测器进行分析,以将所述长语音自动切分成多个语音片段作为目标语音。
在实际应用中,目标语音通常是一小段的语音片段,而比较容易获得的大量的语音素材都是一段长语音(即总时长较长的语音),所以可以将原始的长语音进行切分以得到多个时长较短的语音片段作为目标语音。具体地,可以使用基于PCA(Principal ComponentAnalysis)分析方法的语音活动监测器将长语音切分成多个语音片段。其中,基于PCA分析方法的语音活动监测器能够检测出长语音中各个语音片段的起止点,从而将长语音切分成多个语音片段,如,一段语音内容为“我们是中国人”的长语音,经过基于PCA分析方法的语音活动监测器进行切分后,可以得到“我”、“们”、“是”、“中”、“国”、“人”这些语音片段以作为目标语音。PCA分析方法是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。将PCA分析方法应用在语音活动监测器中,能够提高对长语音的切分的准确度。
可见,实施该可选的实施例,在获取目标语音时,通过使用基于PCA分析方法的语音活动监测器将原始的长语音自动切分成多个语音片段,以作为目标语音,从而能够准确地从长语音中提取出目标语音,有利于提高语音标注的准确度。
在一个可选的实施例中,所述根据所述目标语音对应的第一标注数据和第二标注数据确定出所述目标语音对应的最终标注数据,包括:
判断所述目标语音对应的第一标注数据和第二标注数据中是否存在相同的标注数据;
当判断出所述目标语音对应的第一标注数据和第二标注数据中存在相同的标注数据时,将相同的标注数据作为所述目标语音对应的最终标注数据。
在该可选的实施例中,在对目标语音对应的第一标注数据和第二标注数据进行筛选时,可以将第一标注数据和第二标注数据中相同的部分作为最终的标注数据。在对语音识别技术的多年研究中发现,基于不同理论范式或不同的训练集训练出的声学模型通常具有一定的互补性,即它们大概率不会在相同的样本上犯同样的错误,所以第一标注数据和第二标注数据的交集部分(即标注结果相同的部分)的标注数据具有相当高的可靠性,所以可以将交集部分的标注数据作为最终标注数据,从而获得准确度较高的标注数据。可选地,可以将最终标注数据和最终标注数据对应的目标语音组成新的带标注的语音语料加入至语料库中,从而能够为语料库添加新的高质量的训练语料。
可见,实施该可选的实施例,在对目标语音对应的第一标注数据和第二标注数据进行筛选时,将第一标注数据和第二标注数据中相同的部分作为最终的标注数据,从而能够利用第一声学模型和第二声学模型之间的互补特性,得到高质量的最终标注数据,提高语音标注的标注准确率。
可选地,还可以:将所述语音标注方法的语音标注信息上传至区块链中。
具体来说,语音标注信息是通过运行所述语音标注方法后得到的,用于记录语音标注情况,例如,获取到的目标语音、第一声学模型分析得到的第一标注数据、第二声学模型分析得到的第二标注数据、最终标注数据等等。将语音标注信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得到该语音标注信息,以便查证所述语音标注方法的语音标注信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
可见,实施本发明实施例,首先获取目标语音,然后使用第一声学模型对目标语音进行分析以得到目标语音对应的第一标注数据,使用第二声学模型对目标语音进行分析以得到目标语音对应的第二标注数据,最后根据目标语音对应的第一标注数据和第二标注数据确定出目标语音对应的最终标注数据,以完成对目标语音的标注。通过使用两个声学模型替代单个声学模型来对目标语音进行标注,并综合两个声学模型的标注数据得到最终的标注数据,从而能够利用不同声学模型之间的互补特性,提高语音标注的标注准确率,还能够避免传统的单个声学模型的标注过程中复杂的实验操作,提高语音标注的标注效率。还在众多的声学模型中选择GMM-HMM声学模型作为第一声学模型,选择DNN声学模型作为第二声学模型,有利于提高语音标注的标注准确率。还在获取目标语音时,通过使用基于PCA分析方法的语音活动监测器将原始的长语音自动切分成多个语音片段,以作为目标语音,从而能够准确地从长语音中提取出目标语音,有利于提高语音标注的准确度。还在对目标语音对应的第一标注数据和第二标注数据进行筛选时,将第一标注数据和第二标注数据中相同的部分作为最终的标注数据,从而能够利用第一声学模型和第二声学模型之间的互补特性,得到高质量的最终标注数据,提高语音标注的标注准确率。
实施例二
请参阅图2,图2是本发明实施例公开的一种语音标注装置的结构示意图。如图2所示,该语音标注装置可以包括:
获取模块201,用于获取目标语音;
第一标注模块202,用于基于第一声学模型对所述目标语音进行分析,得到所述目标语音对应的第一标注数据,其中,所述第一标注数据记录有所述第一声学模型对所述目标语音的第一标注结果;
第二标注模块203,用于基于第二声学模型对所述目标语音进行分析,得到所述目标语音对应的第二标注数据,其中,所述第二标注数据记录有所述第二声学模型对所述目标语音的第二标注结果;
最终标注模块204,用于根据所述目标语音对应的第一标注数据和第二标注数据确定出所述目标语音对应的最终标注数据,以完成对所述目标语音的标注,其中,所述最终标注数据记录有所述目标语音的最终标注结果。
在一个可选的实施例中,所述第一声学模型为GMM-HMM声学模型,所述第二声学模型为DNN声学模型。
在一个可选的实施例中,所述DNN声学模型建立在从所述GMM-HMM模型获得的对齐基础之上,采用时滞神经网络对语音信号进行建模。
在一个可选的实施例中,所述DNN声学模型包括一个输入层、六个个隐藏层和一个输出层;
所述输入层具有3500个神经元,并且一次处理九帧语音信号;
每个所述隐藏层具有1200个神经元;
所述输出层具有1200个神经元。
在一个可选的实施例中,所述DNN声学模型模型训练总共经5代,初始学习率为0.015,终止学习率为0.00015。
在一个可选的实施例中,所述获取模块201获取目标语音的具体方式为:
获取原始的长语音;
将所述长语音输入至基于PCA分析方法的语音活动监测器进行分析,以将所述长语音自动切分成多个语音片段作为目标语音。
在一个可选的实施例中,所述最终标注模块204根据所述目标语音对应的第一标注数据和第二标注数据确定出所述目标语音对应的最终标注数据的具体方式为:
判断所述目标语音对应的第一标注数据和第二标注数据中是否存在相同的标注数据;
当判断出所述目标语音对应的第一标注数据和第二标注数据中存在相同的标注数据时,将相同的标注数据作为所述目标语音对应的最终标注数据。
对于上述语音标注装置的具体描述可以参照上述语音标注方法的具体描述,为避免重复,在此不再一一赘述。
实施例三
请参阅图3,图3是本发明实施例公开的一种计算机设备的结构示意图。如图3所示,该计算机设备可以包括:
存储有可执行程序代码的存储器301;
与存储器301连接的处理器302;
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的语音标注方法中的步骤。
实施例四
请参阅图4,本发明实施例公开了一种计算机存储介质401,计算机存储介质401存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的语音标注方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种语音标注方法、装置、计算机设备以及存储介质所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种语音标注方法,其特征在于,所述方法包括:
获取目标语音;
基于第一声学模型对所述目标语音进行分析,得到所述目标语音对应的第一标注数据,其中,所述第一标注数据记录有所述第一声学模型对所述目标语音的第一标注结果;
基于第二声学模型对所述目标语音进行分析,得到所述目标语音对应的第二标注数据,其中,所述第二标注数据记录有所述第二声学模型对所述目标语音的第二标注结果;
根据所述目标语音对应的第一标注数据和第二标注数据确定出所述目标语音对应的最终标注数据,以完成对所述目标语音的标注,其中,所述最终标注数据记录有所述目标语音的最终标注结果。
2.根据权利要求1所述的语音标注方法,其特征在于,所述第一声学模型为GMM-HMM声学模型,所述第二声学模型为DNN声学模型。
3.根据权利要求2所述的语音标注方法,其特征在于,所述DNN声学模型建立在从所述GMM-HMM模型获得的对齐基础之上,采用时滞神经网络对语音信号进行建模。
4.根据权利要求2所述的语音标注方法,其特征在于,所述DNN声学模型包括一个输入层、六个个隐藏层和一个输出层;
所述输入层具有3500个神经元,并且一次处理九帧语音信号;
每个所述隐藏层具有1200个神经元;
所述输出层具有1200个神经元。
5.根据权利要求2所述的语音标注方法,其特征在于,所述DNN声学模型模型训练总共经5代,初始学习率为0.015,终止学习率为0.00015。
6.根据权利要求1-5任一项所述的语音标注方法,其特征在于,所述获取目标语音,包括:
获取原始的长语音;
将所述长语音输入至基于PCA分析方法的语音活动监测器进行分析,以将所述长语音自动切分成多个语音片段作为目标语音。
7.根据权利要求1-5任一项所述的语音标注方法,其特征在于,所述根据所述目标语音对应的第一标注数据和第二标注数据确定出所述目标语音对应的最终标注数据,包括:
判断所述目标语音对应的第一标注数据和第二标注数据中是否存在相同的标注数据;
当判断出所述目标语音对应的第一标注数据和第二标注数据中存在相同的标注数据时,将相同的标注数据作为所述目标语音对应的最终标注数据。
8.一种语音标注装置,其特征在于,所述装置包括:
获取模块,用于获取目标语音;
第一标注模块,用于基于第一声学模型对所述目标语音进行分析,得到所述目标语音对应的第一标注数据,其中,所述第一标注数据记录有所述第一声学模型对所述目标语音的第一标注结果;
第二标注模块,用于基于第二声学模型对所述目标语音进行分析,得到所述目标语音对应的第二标注数据,其中,所述第二标注数据记录有所述第二声学模型对所述目标语音的第二标注结果;
最终标注模块,用于根据所述目标语音对应的第一标注数据和第二标注数据确定出所述目标语音对应的最终标注数据,以完成对所述目标语音的标注,其中,所述最终标注数据记录有所述目标语音的最终标注结果。
9.一种计算机设备,其特征在于,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的语音标注方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的语音标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745513.5A CN113421591B (zh) | 2021-06-30 | 2021-06-30 | 语音标注方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745513.5A CN113421591B (zh) | 2021-06-30 | 2021-06-30 | 语音标注方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113421591A true CN113421591A (zh) | 2021-09-21 |
CN113421591B CN113421591B (zh) | 2024-06-25 |
Family
ID=77719987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110745513.5A Active CN113421591B (zh) | 2021-06-30 | 2021-06-30 | 语音标注方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113421591B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970724A (zh) * | 2022-05-30 | 2022-08-30 | 北京百度网讯科技有限公司 | 数据标注的方法、装置、设备以及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130262109A1 (en) * | 2012-03-14 | 2013-10-03 | Kabushiki Kaisha Toshiba | Text to speech method and system |
CN105374350A (zh) * | 2015-09-29 | 2016-03-02 | 百度在线网络技术(北京)有限公司 | 语音标注方法及装置 |
CN107103903A (zh) * | 2017-05-05 | 2017-08-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
CN108984490A (zh) * | 2018-07-17 | 2018-12-11 | 北京猎户星空科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN110310662A (zh) * | 2019-05-21 | 2019-10-08 | 平安科技(深圳)有限公司 | 音节自动标注方法、装置、计算机设备及存储介质 |
CN110610698A (zh) * | 2019-09-12 | 2019-12-24 | 上海依图信息技术有限公司 | 一种语音标注方法及装置 |
CN111341305A (zh) * | 2020-03-05 | 2020-06-26 | 苏宁云计算有限公司 | 一种音频数据标注方法、装置及系统 |
CN111354340A (zh) * | 2018-12-20 | 2020-06-30 | 北京嘀嘀无限科技发展有限公司 | 数据标注准确度验证方法、装置、电子设备及存储介质 |
CN112233653A (zh) * | 2020-12-10 | 2021-01-15 | 北京远鉴信息技术有限公司 | 多方言口音普通话语音识别模型训练方法、装置及设备 |
-
2021
- 2021-06-30 CN CN202110745513.5A patent/CN113421591B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130262109A1 (en) * | 2012-03-14 | 2013-10-03 | Kabushiki Kaisha Toshiba | Text to speech method and system |
CN105374350A (zh) * | 2015-09-29 | 2016-03-02 | 百度在线网络技术(北京)有限公司 | 语音标注方法及装置 |
CN107103903A (zh) * | 2017-05-05 | 2017-08-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
US20180322865A1 (en) * | 2017-05-05 | 2018-11-08 | Baidu Online Network Technology (Beijing) Co., Ltd . | Artificial intelligence-based acoustic model training method and apparatus, device and storage medium |
CN108984490A (zh) * | 2018-07-17 | 2018-12-11 | 北京猎户星空科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN111354340A (zh) * | 2018-12-20 | 2020-06-30 | 北京嘀嘀无限科技发展有限公司 | 数据标注准确度验证方法、装置、电子设备及存储介质 |
CN110310662A (zh) * | 2019-05-21 | 2019-10-08 | 平安科技(深圳)有限公司 | 音节自动标注方法、装置、计算机设备及存储介质 |
CN110610698A (zh) * | 2019-09-12 | 2019-12-24 | 上海依图信息技术有限公司 | 一种语音标注方法及装置 |
CN111341305A (zh) * | 2020-03-05 | 2020-06-26 | 苏宁云计算有限公司 | 一种音频数据标注方法、装置及系统 |
CN112233653A (zh) * | 2020-12-10 | 2021-01-15 | 北京远鉴信息技术有限公司 | 多方言口音普通话语音识别模型训练方法、装置及设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970724A (zh) * | 2022-05-30 | 2022-08-30 | 北京百度网讯科技有限公司 | 数据标注的方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113421591B (zh) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675288B (zh) | 智能辅助审判方法、装置、计算机设备及存储介质 | |
CN112259105B (zh) | 一种声纹识别模型的训练方法、存储介质和计算机设备 | |
US20190066693A1 (en) | Diarization using acoustic labeling | |
EP3955246A1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
CN112259104B (zh) | 一种声纹识别模型的训练装置 | |
CN111739508A (zh) | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 | |
CN101149922A (zh) | 语音识别装置和语音识别方法 | |
CN108831506B (zh) | 基于gmm-bic的数字音频篡改点检测方法及系统 | |
CN110992959A (zh) | 一种语音识别方法及系统 | |
CN112259083A (zh) | 音频处理方法及装置 | |
CN115147641A (zh) | 一种基于知识蒸馏和多模态融合的视频分类方法 | |
Nandi et al. | Implicit processing of LP residual for language identification | |
CN113421591A (zh) | 语音标注方法、装置、设备以及存储介质 | |
CN111785236A (zh) | 一种基于动机提取模型与神经网络的自动作曲方法 | |
Lee et al. | Gender, age, and dialect identification for speaker profiling | |
CN117690455B (zh) | 基于滑动窗口的部分合成伪造语音检测方法和系统 | |
БЄЛОЗЬОРОВА et al. | Features of the implementation of the speaker identification software system | |
KR102507810B1 (ko) | 인공지능을 이용한 음성 기반 세일즈 정보 추출 및 리드 추천방법과 이를 수행하는 데이터 분석장치 | |
CN117995166B (zh) | 一种基于语音识别的自然语言数据分析方法及系统 | |
Pathak et al. | Emotion-Aware Text to Speech: Bridging Sentiment Analysis and Voice Synthesis | |
KR100269429B1 (ko) | 음성 인식시 천이 구간의 음성 식별 방법 | |
Barris | Automatic Dog Barking Recognition | |
CN116935890A (zh) | 说话人转换的语音检测方法、装置、电子设备及存储介质 | |
Pan et al. | Assessment and analysis of accents in air traffic control speech: a fusion of deep learning and information theory | |
CN114648994A (zh) | 一种声纹鉴定比对推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |