CN107103903A - 基于人工智能的声学模型训练方法、装置及存储介质 - Google Patents
基于人工智能的声学模型训练方法、装置及存储介质 Download PDFInfo
- Publication number
- CN107103903A CN107103903A CN201710312689.5A CN201710312689A CN107103903A CN 107103903 A CN107103903 A CN 107103903A CN 201710312689 A CN201710312689 A CN 201710312689A CN 107103903 A CN107103903 A CN 107103903A
- Authority
- CN
- China
- Prior art keywords
- acoustic
- training
- speech data
- acoustic model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 167
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 19
- 239000000284 extract Substances 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 210000004218 nerve net Anatomy 0.000 claims 2
- 238000001914 filtration Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 239000000686 essence Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Computer Vision & Pattern Recognition (AREA)
Abstract
本发明公开了基于人工智能的声学模型训练方法、装置及存储介质,其中方法包括:获取人工标注的语音数据;根据人工标注的语音数据训练得到第一声学模型;获取未标注的语音数据;根据未标注的语音数据以及第一声学模型训练得到所需的第二声学模型。应用本发明所述方案,能够节省人力成本,并提高训练效率等。
Description
【技术领域】
本发明涉及计算机应用技术,特别涉及基于人工智能的声学模型训练方法、装置及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
声学模型是语音识别系统中最为重要的部分之一,训练声学模型需要大量的语音数据,数据越多,训练出来的声学模型的准确率越高,相应地,语音识别结果的准确性也会越高。
现有技术中,通常采用人工标注的语音数据来训练声学模型。
但是,人工标注大量的语音数据,需要耗费非常大的人力成本,并降低了声学模型的训练效率。
【发明内容】
有鉴于此,本发明提供了基于人工智能的声学模型训练方法、装置及存储介质,能够节省人力成本,并提升训练效率。
具体技术方案如下:
一种基于人工智能的声学模型训练方法,包括:
获取人工标注的语音数据;
根据所述人工标注的语音数据训练得到第一声学模型;
获取未标注的语音数据;
根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型。
根据本发明一优选实施例,所述第一声学模型和所述第二声学模型的类型包括:采用卷积神经网络和循环神经网络混合结构的声学模型。
根据本发明一优选实施例,所述根据所述人工标注的语音数据训练得到第一声学模型包括:
根据所述人工标注的语音数据,确定出每个语音帧与人工标注的音节状态的对齐关系;
将所述对齐关系作为训练目标,基于第一准则对所述第一声学模型进行训练,得到初始状态的第一声学模型;
将所述对齐关系作为训练目标,基于第二准则对所述初始状态的第一声学模型进行进一步训练,得到所述第一声学模型。
根据本发明一优选实施例,所述根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型包括:
将所述未标注的语音数据输入给所述第一声学模型,得到所述第一声学模型输出的每个语音帧与对应的音节状态的对齐关系;
将所述对齐关系作为训练目标,基于第一准则对所述第二声学模型进行训练,得到初始状态的第二声学模型;
将所述对齐关系作为训练目标,基于第二准则对所述初始状态的第二声学模型进行进一步训练,得到所述第二声学模型。
根据本发明一优选实施例,所述第一准则包括:交叉熵CE准则;
所述第二准则包括:联结时间分类CTC准则。
根据本发明一优选实施例,
所述根据所述人工标注的语音数据训练得到第一声学模型之前,进一步包括:从所述人工标注的语音数据中提取出声学特征;
所述根据所述人工标注的语音数据训练得到第一声学模型包括:根据从所述人工标注的语音数据中提取出的声学特征训练得到所述第一声学模型;
所述根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型之前,进一步包括:从所述未标注的语音数据中提取出声学特征;
所述根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型包括:根据从所述未标注的语音数据中提取出的声学特征以及所述第一声学模型训练得到所述第二声学模型。
根据本发明一优选实施例,从语音数据中提取出声学特征包括:
以预先设定的第一时长为帧长,以预先设定的第二时长为帧移,对所述语音数据进行快速傅里叶变换FFT;
根据FFT变换结果,提取梅尔标度滤波器组fbank声学特征。
一种基于人工智能的声学模型训练装置,包括:第一获取单元、第一训练单元、第二获取单元以及第二训练单元;
所述第一获取单元,用于获取人工标注的语音数据,并发送给所述第一训练单元;
所述第一训练单元,用于根据所述人工标注的语音数据训练得到第一声学模型,并将所述第一声学模型发送给所述第二训练单元;
所述第二获取单元,用于获取未标注的语音数据,并发送给所述第二训练单元;
所述第二训练单元,用于根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型。
根据本发明一优选实施例,所述第一声学模型和所述第二声学模型的类型包括:采用卷积神经网络和循环神经网络混合结构的声学模型。
根据本发明一优选实施例,
所述第一训练单元根据所述人工标注的语音数据,确定出每个语音帧与人工标注的音节状态的对齐关系;
将所述对齐关系作为训练目标,基于第一准则对所述第一声学模型进行训练,得到初始状态的第一声学模型;
将所述对齐关系作为训练目标,基于第二准则对所述初始状态的第一声学模型进行进一步训练,得到所述第一声学模型。
根据本发明一优选实施例,
所述第二训练单元将所述未标注的语音数据输入给所述第一声学模型,得到所述第一声学模型输出的每个语音帧与对应的音节状态的对齐关系;
将所述对齐关系作为训练目标,基于第一准则对所述第二声学模型进行训练,得到初始状态的第二声学模型;
将所述对齐关系作为训练目标,基于第二准则对所述初始状态的第二声学模型进行进一步训练,得到所述第二声学模型。
根据本发明一优选实施例,所述第一准则包括:交叉熵CE准则;
所述第二准则包括:联结时间分类CTC准则。
根据本发明一优选实施例,
所述第一训练单元进一步用于,
从所述人工标注的语音数据中提取出声学特征;
根据从所述人工标注的语音数据中提取出的声学特征训练得到所述第一声学模型;
所述第二训练单元进一步用于,
从所述未标注的语音数据中提取出声学特征;
根据从所述未标注的语音数据中提取出的声学特征以及所述第一声学模型训练得到所述第二声学模型。
根据本发明一优选实施例,
所述第一训练单元以预先设定的第一时长为帧长,以预先设定的第二时长为帧移,对所述人工标注的语音数据进行快速傅里叶变换FFT,根据FFT变换结果,提取梅尔标度滤波器组fbank声学特征;
所述第二训练单元以所述第一时长为帧长,以所述第二时长为帧移,对所述未标注的语音数据进行FFT变换,根据FFT变换结果,提取fbank声学特征。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可首先获取人工标注的语音数据,并根据人工标注的语音数据训练得到第一声学模型,之后,可获取未标注的语音数据,并根据未标注的语音数据以及训练得到的第一声学模型进一步训练得到所需的第二声学模型,相比于现有技术,本发明所述方案中只需要使用相对很少的人工标注的语音数据即可,从而节省了人力成本,并提升了训练效率。
【附图说明】
图1为本发明所述基于人工智能的声学模型训练方法实施例的流程图。
图2为本发明所述基于人工智能的声学模型训练方法的实现过程示意图。
图3为本发明所述基于人工智能的声学模型训练装置实施例的组成结构示意图。
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
针对现有技术中存在的问题,本发明中提出一种基于人工智能的声学模型训练方案,利用深度学习的方法,通过已标注的语音数据,训练出一个高识别率的第一声学模型作为参考模型,然后通过训练出来的参考模型,结合大量的无标注的语音数据,训练出可用于线上产品的第二声学模型。
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述基于人工智能的声学模型训练方法实施例的流程图,如图1所示,包括以下具体实现方式。
在101中,获取人工标注的语音数据。
相比于现有技术,本实施例中仅需获取相对很少的人工标注的语音数据即可。
具体获取方式不限,比如,可以针对未标注的语音数据,人工进行标注,或者,从第三方数据标注公司购买其用人工标注的语音数据等。
在获取到人工标注的语音数据之后,还可进一步对其进行预处理。
所述预处理可包括:从人工标注的语音数据中提取出声学特征。
提取声学特征的方式可为:以预先设定的第一时长为帧长,以预先设定的第二时长为帧移,对人工标注的语音数据进行快速傅里叶变换(FFT,Fast FourierTransformation),根据FFT变换结果,提取梅尔标度滤波器组(fbank)声学特征,即以Mel频率窗提取fbank声学特征。
第一时长和第二时长的具体取值均可根据实际需要而定,比如,第一时长可为20ms,第二时长可为10ms。
另外,除了从人工标注的语音数据中提取出声学特征之外,所述预处理还可包括:根据实际需求,截取用于语音识别的有效音频的长度,如300帧,即可对获取到的人工标注的语音数据进行筛选,筛选掉长度不符合要求的语音数据,针对剩下的语音数据,分别对其进行声学特征提取。
在102中,根据人工标注的语音数据训练得到第一声学模型。
第一声学模型的类型可为卷积神经网络和循环神经网络混合结构的声学模型。
在训练第一声学模型之前,可首先根据人工标注的语音数据,确定出每个语音帧与人工标注的音节状态的对齐关系。
比如,可通过现有的标注词典扩展和维特比强制对齐等技术,确定出每个语音帧与其人工标注的音节状态的对齐关系,具体地,可以是指每个语音帧的声学特征与人工标注的音节状态的对齐关系。
之后,即可根据上述对齐关系进一步训练得到第一声学模型。
在进行训练时,可首先将上述对齐关系作为训练目标,基于第一准则对第一声学模型进行训练,从而得到初始状态的第一声学模型,之后,可将上述对齐关系作为训练目标,基于第二准则对初始状态的第一声学模型进行进一步训练,从而得到最终所需的第一声学模型。
第一准则可为交叉熵(CE,Cross Entropy)准则,即可将上述对齐关系作为训练目标,进行基于CE准则的预训练,从而得到初始状态的第一声学模型。
第二准则可为联结时间分类(CTC,Connectionist Temporal Classification)准则,即可将上述对齐关系作为训练目标,基于CTC准则对初始状态的第一声学模型进行进一步训练,从而得到第一声学模型。
可以看出,在基于不同的准则进行第一声学模型的训练时,所用的对齐关系是一样的,基于CTC准则的训练是在基于CE准则的训练的基础上继续进行的,即在基于CE准则训练得到的第一声学模型的基础上,基于CTC准则对第一声学模型进行进一步训练,从而得到最终所需的第一声学模型。
要使得第一声学模型能够预测语音帧与phone的对应关系,则需要先让第一声学模型从已有的对齐关系中进行学习,CE准则和CTC准则即对应两种不同的学习方式。
如何基于CE准则和CTC准则进行第一声学模型的训练为现有技术。
上述训练第一声学模型的过程可称为有监督训练阶段,得到的第一声学模型可称为参考模型,训练完成后,参考模型的参数即固定下来,后续将不再使用人工标注的语音数据。
在103中,获取未标注的语音数据。
比如,可获取线上语音产品的无标注的语音数据。
同样地,在获取到无标注的语音数据之后,可进一步对其进行预处理。
所述预处理可包括:从未标注的语音数据中提取出声学特征。
提取声学特征的方式可为:以预先设定的第一时长为帧长,以预先设定的第二时长为帧移,对未标注的语音数据进行FFT变换,根据FFT变换结果,提取fbank声学特征。
第一时长和第二时长的具体取值均可根据实际需要而定,比如,第一时长可为20ms,第二时长可为10ms。
另外,除了从未标注的语音数据中提取出声学特征之外,所述预处理还可包括:根据实际需求,截取用于语音识别的有效音频的长度,如300帧。
在104中,根据未标注的语音数据以及第一声学模型训练得到所需的第二声学模型。
第二声学模型的类型可为卷积神经网络和循环神经网络混合结构的声学模型。
在训练时,由于所使用的是未标注的语音数据,因此无法按照102中所述方式得到对齐关系,但之前已经训练得到了第一声学模型,那么可将未标注的语音数据输入给第一声学模型,从而得到第一声学模型输出的每个语音帧与对应的音节状态的对齐关系。
比如,可将从未标注的语音数据中提取出的声学特征输入给第一声学模型,从而得到第一声学模型输出的每个语音帧与对应的音节状态的对齐关系。
之后,可将得到的对齐关系作为训练目标,基于第一准则对第二声学模型进行训练,从而得到初始状态的第二声学模型,之后,可将得到的对齐关系作为训练目标,基于第二准则对初始状态的第二声学模型进行进一步训练,从而得到最终所需的第二声学模型。
具体地,第一准则可为CE准则,即可将上述对齐关系作为训练目标,进行基于CE准则的预训练,从而得到初始状态的第二声学模型。
第二准则可为CTC准则,即可将上述对齐关系作为训练目标,基于CTC准则对初始状态的第二声学模型进行进一步训练,从而得到第二声学模型。
上述训练第二声学模型的过程可称为无监督训练阶段。
基于上述介绍,图2为本发明所述基于人工智能的声学模型训练方法的实现过程示意图,如图2所示,首先,可根据获取到的人工标注的语音数据,确定出作为训练目标的对齐关系等,之后,可依次进行基于CE准则的预训练以及基于CTC准则的训练,从而得到第一声学模型,这一过程可称为有监督训练阶段,之后,可针对获取到的大量的未标注的语音数据,根据第一声学模型确定出作为训练目标的对齐关系等,并依次进行基于CE准则的预训练以及基于CTC准则的训练,从而得到第二声学模型,这一过程可称为无监督训练阶段。
在得到第二声学模型之后,即可利用第二声学模型来进行实际的语音识别。
本实施例所述方案中,利用深度学习的方法,通过已标注的语音数据,训练出一个第一声学模型作为参考模型,然后通过训练出来的参考模型,结合大量的无标注的语音数据,训练出可用于线上产品的第二声学模型,相比于现有技术,本实施例所述方案中极大地减少了需要人工标注的语音数据的数量,从而节省了人力成本,并提升了模型的训练效率,另外,可采用大量的无标注的语音数据来训练得到第二声学模型,从而提高了第二声学模型的准确率,进而提高了后续的语音识别结果的准确性。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图3为本发明所述基于人工智能的声学模型训练装置实施例的组成结构示意图,如图3所示,包括:第一获取单元301、第一训练单元302、第二获取单元303以及第二训练单元304。
第一获取单元301,用于获取人工标注的语音数据,并发送给第一训练单元302。
第一训练单元302,用于根据人工标注的语音数据训练得到第一声学模型,并将第一声学模型发送给第二训练单元304。
第二获取单元303,用于获取未标注的语音数据,并发送给第二训练单元304。
第二训练单元304,用于根据未标注的语音数据以及第一声学模型训练得到所需的第二声学模型。
其中,第一声学模型和第二声学模型的类型均可为:采用卷积神经网络和循环神经网络混合结构的声学模型。
第一获取单元301将获取到的人工标注的语音数据发送给第一训练单元302之后,第一训练单元302可首先对获取到的人工标注的语音数据进行预处理,如从人工标注的语音数据中提取出声学特征等。
相应地,第一训练单元302可根据从人工标注的语音数据中提取出的声学特征训练得到第一声学模型。
其中,从人工标注的语音数据中提取出声学特征的方式可为:第一训练单元302以预先设定的第一时长为帧长,以预先设定的第二时长为帧移,对人工标注的语音数据进行FFT变换,根据FFT变换结果,提取fbank声学特征。
第一时长和第二时长的具体取值均可根据实际需要而定,比如,第一时长可为20ms,第二时长可为10ms。
另外,第一训练单元302还可根据人工标注的语音数据,确定出每个语音帧与人工标注的音节状态的对齐关系,具体地,可以是指每个语音帧的声学特征与人工标注的音节状态的对齐关系。
之后,第一训练单元302即可根据上述对齐关系,训练得到第一声学模型。
在进行训练时,第一训练单元302可首先将上述对齐关系作为训练目标,基于第一准则对第一声学模型进行训练,从而得到初始状态的第一声学模型,之后,可将上述对齐关系作为训练目标,基于第二准则对初始状态的第一声学模型进行进一步训练,从而得到最终所需的第一声学模型。
第一准则可为CE准则,即第一训练单元302可将上述对齐关系作为训练目标,进行基于CE准则的预训练,从而得到初始状态的第一声学模型。
第二准则可为CTC准则,即第一训练单元302可将上述对齐关系作为训练目标,基于CTC准则对初始状态的第一声学模型进行进一步训练,从而得到第一声学模型。
第二获取单元303获取未标注的语音数据,并发送给第二训练单元304。
第二训练单元304可首先对获取到的未标注的语音数据进行预处理,如从未标注的语音数据中提取出声学特征。
相应地,后续第二训练单元304可根据从未标注的语音数据中提取出的声学特征以及第一声学模型训练得到第二声学模型。
其中,从未标注的语音数据中提取出声学特征的方式可为:第二训练单元304以第一时长为帧长,以第二时长为帧移,对未标注的语音数据进行FFT变换,根据FFT变换结果,提取fbank声学特征。
第一时长和第二时长的具体取值均可根据实际需要而定,比如,第一时长可为20ms,第二时长可为10ms。
之后,第二训练单元304可将未标注的语音数据输入给第一声学模型,从而得到第一声学模型输出的每个语音帧与对应的音节状态的对齐关系。
比如,第二训练单元304可将从未标注的语音数据中提取出的声学特征输入给第一声学模型,从而得到第一声学模型输出的每个语音帧与对应的音节状态的对齐关系。
之后,第二训练单元304可将上述对齐关系作为训练目标,基于第一准则对第二声学模型进行训练,从而得到初始状态的第二声学模型,进一步地,将上述对齐关系作为训练目标,基于第二准则对初始状态的第二声学模型进行进一步训练,从而得到最终所需的第二声学模型。
第一准则可为CE准则,第二准则可为CTC准则。
在得到第二声学模型之后,即可利用第二声学模型来进行实际的语音识别。
图3所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
本实施例所述方案中,利用深度学习的方法,通过已标注的语音数据,训练出一个第一声学模型作为参考模型,然后通过训练出来的参考模型,结合大量的无标注的语音数据,训练出可用于线上产品的第二声学模型,相比于现有技术,本实施例所述方案中极大地减少了需要人工标注的语音数据的数量,从而节省了人力成本,并提升了模型的训练效率,另外,可采用大量的无标注的语音数据来训练得到第二声学模型,从而提高了第二声学模型的准确率,进而提高了后续的语音识别结果的准确性。
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图4显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法,即获取人工标注的语音数据,根据人工标注的语音数据训练得到第一声学模型,获取未标注的语音数据,根据未标注的语音数据以及第一声学模型训练得到所需的第二声学模型。
具体实现请参照前述各实施例中的相应说明,不再赘述。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、
Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (16)
1.一种基于人工智能的声学模型训练方法,其特征在于,包括:
获取人工标注的语音数据;
根据所述人工标注的语音数据训练得到第一声学模型;
获取未标注的语音数据;
根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型。
2.根据权利要求1所述的方法,其特征在于,
所述第一声学模型和所述第二声学模型的类型包括:采用卷积神经网络和循环神经网络混合结构的声学模型。
3.根据权利要求1所述的方法,其特征在于,
所述根据所述人工标注的语音数据训练得到第一声学模型包括:
根据所述人工标注的语音数据,确定出每个语音帧与人工标注的音节状态的对齐关系;
将所述对齐关系作为训练目标,基于第一准则对所述第一声学模型进行训练,得到初始状态的第一声学模型;
将所述对齐关系作为训练目标,基于第二准则对所述初始状态的第一声学模型进行进一步训练,得到所述第一声学模型。
4.根据权利要求3所述的方法,其特征在于,
所述根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型包括:
将所述未标注的语音数据输入给所述第一声学模型,得到所述第一声学模型输出的每个语音帧与对应的音节状态的对齐关系;
将所述对齐关系作为训练目标,基于第一准则对所述第二声学模型进行训练,得到初始状态的第二声学模型;
将所述对齐关系作为训练目标,基于第二准则对所述初始状态的第二声学模型进行进一步训练,得到所述第二声学模型。
5.根据权利要求4所述的方法,其特征在于,
所述第一准则包括:交叉熵CE准则;
所述第二准则包括:联结时间分类CTC准则。
6.根据权利要求1所述的方法,其特征在于,
所述根据所述人工标注的语音数据训练得到第一声学模型之前,进一步包括:从所述人工标注的语音数据中提取出声学特征;
所述根据所述人工标注的语音数据训练得到第一声学模型包括:根据从所述人工标注的语音数据中提取出的声学特征训练得到所述第一声学模型;
所述根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型之前,进一步包括:从所述未标注的语音数据中提取出声学特征;
所述根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型包括:根据从所述未标注的语音数据中提取出的声学特征以及所述第一声学模型训练得到所述第二声学模型。
7.根据权利要求6所述的方法,其特征在于,
从语音数据中提取出声学特征包括:
以预先设定的第一时长为帧长,以预先设定的第二时长为帧移,对所述语音数据进行快速傅里叶变换FFT;
根据FFT变换结果,提取梅尔标度滤波器组fbank声学特征。
8.一种基于人工智能的声学模型训练装置,其特征在于,包括:第一获取单元、第一训练单元、第二获取单元以及第二训练单元;
所述第一获取单元,用于获取人工标注的语音数据,并发送给所述第一训练单元;
所述第一训练单元,用于根据所述人工标注的语音数据训练得到第一声学模型,并将所述第一声学模型发送给所述第二训练单元;
所述第二获取单元,用于获取未标注的语音数据,并发送给所述第二训练单元;
所述第二训练单元,用于根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型。
9.根据权利要求8所述的装置,其特征在于,
所述第一声学模型和所述第二声学模型的类型包括:采用卷积神经网络和循环神经网络混合结构的声学模型。
10.根据权利要求8所述的装置,其特征在于,
所述第一训练单元根据所述人工标注的语音数据,确定出每个语音帧与人工标注的音节状态的对齐关系;
将所述对齐关系作为训练目标,基于第一准则对所述第一声学模型进行训练,得到初始状态的第一声学模型;
将所述对齐关系作为训练目标,基于第二准则对所述初始状态的第一声学模型进行进一步训练,得到所述第一声学模型。
11.根据权利要求10所述的装置,其特征在于,
所述第二训练单元将所述未标注的语音数据输入给所述第一声学模型,得到所述第一声学模型输出的每个语音帧与对应的音节状态的对齐关系;
将所述对齐关系作为训练目标,基于第一准则对所述第二声学模型进行训练,得到初始状态的第二声学模型;
将所述对齐关系作为训练目标,基于第二准则对所述初始状态的第二声学模型进行进一步训练,得到所述第二声学模型。
12.根据权利要求11所述的装置,其特征在于,
所述第一准则包括:交叉熵CE准则;
所述第二准则包括:联结时间分类CTC准则。
13.根据权利要求8所述的装置,其特征在于,
所述第一训练单元进一步用于,
从所述人工标注的语音数据中提取出声学特征;
根据从所述人工标注的语音数据中提取出的声学特征训练得到所述第一声学模型;
所述第二训练单元进一步用于,
从所述未标注的语音数据中提取出声学特征;
根据从所述未标注的语音数据中提取出的声学特征以及所述第一声学模型训练得到所述第二声学模型。
14.根据权利要求13所述的装置,其特征在于,
所述第一训练单元以预先设定的第一时长为帧长,以预先设定的第二时长为帧移,对所述人工标注的语音数据进行快速傅里叶变换FFT,根据FFT变换结果,提取梅尔标度滤波器组fbank声学特征;
所述第二训练单元以所述第一时长为帧长,以所述第二时长为帧移,对所述未标注的语音数据进行FFT变换,根据FFT变换结果,提取fbank声学特征。
15.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710312689.5A CN107103903B (zh) | 2017-05-05 | 2017-05-05 | 基于人工智能的声学模型训练方法、装置及存储介质 |
US15/961,724 US10565983B2 (en) | 2017-05-05 | 2018-04-24 | Artificial intelligence-based acoustic model training method and apparatus, device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710312689.5A CN107103903B (zh) | 2017-05-05 | 2017-05-05 | 基于人工智能的声学模型训练方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107103903A true CN107103903A (zh) | 2017-08-29 |
CN107103903B CN107103903B (zh) | 2020-05-29 |
Family
ID=59658053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710312689.5A Active CN107103903B (zh) | 2017-05-05 | 2017-05-05 | 基于人工智能的声学模型训练方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10565983B2 (zh) |
CN (1) | CN107103903B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107464554A (zh) * | 2017-09-28 | 2017-12-12 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN107785011A (zh) * | 2017-09-15 | 2018-03-09 | 北京理工大学 | 语速估计模型的训练、语速估计方法、装置、设备及介质 |
CN108573694A (zh) * | 2018-02-01 | 2018-09-25 | 北京百度网讯科技有限公司 | 基于人工智能的语料扩充及语音合成系统构建方法及装置 |
CN108710857A (zh) * | 2018-05-22 | 2018-10-26 | 深圳前海华夏智信数据科技有限公司 | 基于红外补光的人车识别方法及装置 |
CN109036384A (zh) * | 2018-09-06 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN109147763A (zh) * | 2018-07-10 | 2019-01-04 | 深圳市感动智能科技有限公司 | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 |
CN109754784A (zh) * | 2017-11-02 | 2019-05-14 | 华为技术有限公司 | 训练滤波模型的方法和语音识别的方法 |
CN109800788A (zh) * | 2018-12-18 | 2019-05-24 | 中国海洋大学 | 一种减少图像分割数据集标注的方法 |
CN109887491A (zh) * | 2019-03-18 | 2019-06-14 | 百度在线网络技术(北京)有限公司 | 声学模型训练方法和装置、电子设备、计算机可读介质 |
CN110189748A (zh) * | 2019-05-31 | 2019-08-30 | 百度在线网络技术(北京)有限公司 | 模型构建方法和装置 |
CN110310662A (zh) * | 2019-05-21 | 2019-10-08 | 平安科技(深圳)有限公司 | 音节自动标注方法、装置、计算机设备及存储介质 |
CN110706695A (zh) * | 2019-10-17 | 2020-01-17 | 北京声智科技有限公司 | 一种数据标注方法及装置 |
CN111353597A (zh) * | 2018-12-24 | 2020-06-30 | 杭州海康威视数字技术股份有限公司 | 一种目标检测神经网络训练方法和装置 |
CN111402893A (zh) * | 2020-03-23 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 语音识别模型确定方法、语音识别方法及装置、电子设备 |
CN111883101A (zh) * | 2020-07-13 | 2020-11-03 | 北京百度网讯科技有限公司 | 一种模型训练及语音合成方法、装置、设备和介质 |
CN112016633A (zh) * | 2020-09-25 | 2020-12-01 | 北京百度网讯科技有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
CN113421591A (zh) * | 2021-06-30 | 2021-09-21 | 平安科技(深圳)有限公司 | 语音标注方法、装置、设备以及存储介质 |
CN114450746A (zh) * | 2019-08-27 | 2022-05-06 | 国际商业机器公司 | 用于基于连接机制时间分类的自动语音识别的软遗忘 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022198474A1 (en) | 2021-03-24 | 2022-09-29 | Sas Institute Inc. | Speech-to-analytics framework with support for large n-gram corpora |
US11049502B1 (en) * | 2020-03-18 | 2021-06-29 | Sas Institute Inc. | Speech audio pre-processing segmentation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100228548A1 (en) * | 2009-03-09 | 2010-09-09 | Microsoft Corporation | Techniques for enhanced automatic speech recognition |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN105206258A (zh) * | 2015-10-19 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 声学模型的生成方法和装置及语音合成方法和装置 |
Family Cites Families (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8209184B1 (en) * | 1997-04-14 | 2012-06-26 | At&T Intellectual Property Ii, L.P. | System and method of providing generated speech via a network |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7813928B2 (en) * | 2004-06-10 | 2010-10-12 | Panasonic Corporation | Speech recognition device, speech recognition method, and program |
ES2359430T3 (es) * | 2006-04-27 | 2011-05-23 | Mobiter Dicta Oy | Procedimiento, sistema y dispositivo para la conversión de la voz. |
CA2717992C (en) * | 2008-03-12 | 2018-01-16 | E-Lane Systems Inc. | Speech understanding method and system |
WO2011163538A1 (en) * | 2010-06-24 | 2011-12-29 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
US9842585B2 (en) * | 2013-03-11 | 2017-12-12 | Microsoft Technology Licensing, Llc | Multilingual deep neural network |
US9589565B2 (en) * | 2013-06-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
US9620145B2 (en) * | 2013-11-01 | 2017-04-11 | Google Inc. | Context-dependent state tying using a neural network |
US9324321B2 (en) * | 2014-03-07 | 2016-04-26 | Microsoft Technology Licensing, Llc | Low-footprint adaptation and personalization for a deep neural network |
US9653093B1 (en) * | 2014-08-19 | 2017-05-16 | Amazon Technologies, Inc. | Generative modeling of speech using neural networks |
US9378731B2 (en) * | 2014-09-25 | 2016-06-28 | Google Inc. | Acoustic model training corpus selection |
US10074360B2 (en) * | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9812126B2 (en) * | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
KR102380833B1 (ko) * | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR102167719B1 (ko) * | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
US20160180214A1 (en) * | 2014-12-19 | 2016-06-23 | Google Inc. | Sharp discrepancy learning |
US10127904B2 (en) * | 2015-05-26 | 2018-11-13 | Google Llc | Learning pronunciations from acoustic sequences |
US9881613B2 (en) * | 2015-06-29 | 2018-01-30 | Google Llc | Privacy-preserving training corpus selection |
US9786270B2 (en) * | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
KR102505347B1 (ko) * | 2015-07-16 | 2023-03-03 | 삼성전자주식회사 | 사용자 관심 음성 알림 장치 및 방법 |
US10529318B2 (en) * | 2015-07-31 | 2020-01-07 | International Business Machines Corporation | Implementing a classification model for recognition processing |
KR102386854B1 (ko) * | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
AU2016327448B2 (en) * | 2015-09-22 | 2019-07-11 | Vendome Consulting Pty Ltd | Methods for the automated generation of speech sample asset production scores for users of a distributed language learning system, automated accent recognition and quantification and improved speech recognition |
CN106683677B (zh) * | 2015-11-06 | 2021-11-12 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
KR102195627B1 (ko) * | 2015-11-17 | 2020-12-28 | 삼성전자주식회사 | 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법 |
US10366687B2 (en) * | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
US9792896B2 (en) * | 2015-12-15 | 2017-10-17 | Facebook, Inc. | Providing intelligent transcriptions of sound messages in a messaging application |
WO2017112813A1 (en) * | 2015-12-22 | 2017-06-29 | Sri International | Multi-lingual virtual personal assistant |
JP2017146437A (ja) * | 2016-02-17 | 2017-08-24 | 本田技研工業株式会社 | 音声入力処理装置 |
US10019438B2 (en) * | 2016-03-18 | 2018-07-10 | International Business Machines Corporation | External word embedding neural network language models |
US9886949B2 (en) * | 2016-03-23 | 2018-02-06 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
US9984683B2 (en) * | 2016-07-22 | 2018-05-29 | Google Llc | Automatic speech recognition using multi-dimensional models |
US10204620B2 (en) * | 2016-09-07 | 2019-02-12 | International Business Machines Corporation | Adjusting a deep neural network acoustic model |
US10224058B2 (en) * | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
US10249294B2 (en) * | 2016-09-09 | 2019-04-02 | Electronics And Telecommunications Research Institute | Speech recognition system and method |
US20180122372A1 (en) * | 2016-10-31 | 2018-05-03 | Soundhound, Inc. | Distinguishable open sounds |
US10170110B2 (en) * | 2016-11-17 | 2019-01-01 | Robert Bosch Gmbh | System and method for ranking of hybrid speech recognition results with neural networks |
KR20180071029A (ko) * | 2016-12-19 | 2018-06-27 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
WO2018118442A1 (en) * | 2016-12-21 | 2018-06-28 | Google Llc | Acoustic-to-word neural network speech recognizer |
US10546578B2 (en) * | 2016-12-26 | 2020-01-28 | Samsung Electronics Co., Ltd. | Method and device for transmitting and receiving audio data |
KR102692670B1 (ko) * | 2017-01-04 | 2024-08-06 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10672387B2 (en) * | 2017-01-11 | 2020-06-02 | Google Llc | Systems and methods for recognizing user speech |
US10657955B2 (en) * | 2017-02-24 | 2020-05-19 | Baidu Usa Llc | Systems and methods for principled bias reduction in production speech models |
US10347244B2 (en) * | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
US20180330714A1 (en) * | 2017-05-12 | 2018-11-15 | Apple Inc. | Machine learned systems |
US10866588B2 (en) * | 2017-10-16 | 2020-12-15 | Toyota Research Institute, Inc. | System and method for leveraging end-to-end driving models for improving driving task modules |
-
2017
- 2017-05-05 CN CN201710312689.5A patent/CN107103903B/zh active Active
-
2018
- 2018-04-24 US US15/961,724 patent/US10565983B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100228548A1 (en) * | 2009-03-09 | 2010-09-09 | Microsoft Corporation | Techniques for enhanced automatic speech recognition |
CN105206258A (zh) * | 2015-10-19 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 声学模型的生成方法和装置及语音合成方法和装置 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107785011B (zh) * | 2017-09-15 | 2020-07-03 | 北京理工大学 | 语速估计模型的训练、语速估计方法、装置、设备及介质 |
CN107785011A (zh) * | 2017-09-15 | 2018-03-09 | 北京理工大学 | 语速估计模型的训练、语速估计方法、装置、设备及介质 |
CN107464554A (zh) * | 2017-09-28 | 2017-12-12 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN107464554B (zh) * | 2017-09-28 | 2020-08-25 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN109754784A (zh) * | 2017-11-02 | 2019-05-14 | 华为技术有限公司 | 训练滤波模型的方法和语音识别的方法 |
US11211052B2 (en) | 2017-11-02 | 2021-12-28 | Huawei Technologies Co., Ltd. | Filtering model training method and speech recognition method |
CN109754784B (zh) * | 2017-11-02 | 2021-01-29 | 华为技术有限公司 | 训练滤波模型的方法和语音识别的方法 |
CN108573694A (zh) * | 2018-02-01 | 2018-09-25 | 北京百度网讯科技有限公司 | 基于人工智能的语料扩充及语音合成系统构建方法及装置 |
CN108710857A (zh) * | 2018-05-22 | 2018-10-26 | 深圳前海华夏智信数据科技有限公司 | 基于红外补光的人车识别方法及装置 |
CN108710857B (zh) * | 2018-05-22 | 2022-05-17 | 深圳前海华夏智信数据科技有限公司 | 基于红外补光的人车识别方法及装置 |
CN109147763A (zh) * | 2018-07-10 | 2019-01-04 | 深圳市感动智能科技有限公司 | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 |
CN109036384A (zh) * | 2018-09-06 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN109800788A (zh) * | 2018-12-18 | 2019-05-24 | 中国海洋大学 | 一种减少图像分割数据集标注的方法 |
CN111353597B (zh) * | 2018-12-24 | 2023-12-05 | 杭州海康威视数字技术股份有限公司 | 一种目标检测神经网络训练方法和装置 |
CN111353597A (zh) * | 2018-12-24 | 2020-06-30 | 杭州海康威视数字技术股份有限公司 | 一种目标检测神经网络训练方法和装置 |
CN109887491A (zh) * | 2019-03-18 | 2019-06-14 | 百度在线网络技术(北京)有限公司 | 声学模型训练方法和装置、电子设备、计算机可读介质 |
CN110310662A (zh) * | 2019-05-21 | 2019-10-08 | 平安科技(深圳)有限公司 | 音节自动标注方法、装置、计算机设备及存储介质 |
CN110189748A (zh) * | 2019-05-31 | 2019-08-30 | 百度在线网络技术(北京)有限公司 | 模型构建方法和装置 |
CN110189748B (zh) * | 2019-05-31 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 模型构建方法和装置 |
CN114450746A (zh) * | 2019-08-27 | 2022-05-06 | 国际商业机器公司 | 用于基于连接机制时间分类的自动语音识别的软遗忘 |
CN110706695B (zh) * | 2019-10-17 | 2022-02-18 | 北京声智科技有限公司 | 一种数据标注方法及装置 |
CN110706695A (zh) * | 2019-10-17 | 2020-01-17 | 北京声智科技有限公司 | 一种数据标注方法及装置 |
CN111402893A (zh) * | 2020-03-23 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 语音识别模型确定方法、语音识别方法及装置、电子设备 |
CN111883101A (zh) * | 2020-07-13 | 2020-11-03 | 北京百度网讯科技有限公司 | 一种模型训练及语音合成方法、装置、设备和介质 |
CN111883101B (zh) * | 2020-07-13 | 2024-02-23 | 北京百度网讯科技有限公司 | 一种模型训练及语音合成方法、装置、设备和介质 |
CN112016633A (zh) * | 2020-09-25 | 2020-12-01 | 北京百度网讯科技有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
CN112016633B (zh) * | 2020-09-25 | 2024-09-06 | 北京百度网讯科技有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
CN113421591A (zh) * | 2021-06-30 | 2021-09-21 | 平安科技(深圳)有限公司 | 语音标注方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US10565983B2 (en) | 2020-02-18 |
US20180322865A1 (en) | 2018-11-08 |
CN107103903B (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107103903A (zh) | 基于人工智能的声学模型训练方法、装置及存储介质 | |
CN110491382B (zh) | 基于人工智能的语音识别方法、装置及语音交互设备 | |
US10515627B2 (en) | Method and apparatus of building acoustic feature extracting model, and acoustic feature extracting method and apparatus | |
CN107610709B (zh) | 一种训练声纹识别模型的方法及系统 | |
US10522136B2 (en) | Method and device for training acoustic model, computer device and storage medium | |
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN106683680A (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN107220235A (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN107170453A (zh) | 基于人工智能的跨语种语音转录方法、设备及可读介质 | |
US20220036903A1 (en) | Reverberation compensation for far-field speaker recognition | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN107481717A (zh) | 一种声学模型训练方法及系统 | |
CN112233646B (zh) | 基于神经网络的语音克隆方法、系统、设备及存储介质 | |
CN107797985A (zh) | 建立同义鉴别模型以及鉴别同义文本的方法、装置 | |
CN109523989A (zh) | 语音合成方法、语音合成装置、存储介质及电子设备 | |
CN104036774A (zh) | 藏语方言识别方法及系统 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN110648691B (zh) | 基于语音的能量值的情绪识别方法、装置和系统 | |
CN108682414A (zh) | 语音控制方法、语音系统、设备和存储介质 | |
CN109192192A (zh) | 一种语种识别方法、装置、翻译机、介质和设备 | |
CN110277088A (zh) | 智能语音识别方法、装置及计算机可读存储介质 | |
CN113129908B (zh) | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
CN112489623A (zh) | 语种识别模型的训练方法、语种识别方法及相关设备 | |
CN116153337B (zh) | 合成语音溯源取证方法及装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |