CN109243429A - 一种语音建模方法及装置 - Google Patents
一种语音建模方法及装置 Download PDFInfo
- Publication number
- CN109243429A CN109243429A CN201811390640.2A CN201811390640A CN109243429A CN 109243429 A CN109243429 A CN 109243429A CN 201811390640 A CN201811390640 A CN 201811390640A CN 109243429 A CN109243429 A CN 109243429A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- voice signal
- target
- model
- triphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000006870 function Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 30
- 238000003066 decision tree Methods 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 19
- 238000012546 transfer Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 8
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000004378 air conditioning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/148—Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种语音建模方法及装置,所述方法包括:获取在简单场景下录制的第一语音信号;获取所述第一语音信号的第一音素对齐序列;向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号;对所述仿真语音信号中的非语音段进行分类,并对每一类分别建立对应的一个用于建模的目标音素;根据所述仿真语音信号中的噪声类别,将所述仿真语音信号中的第二音素对齐序列中的非语音段噪声音素分别替换成对应的所述目标音素;其中,所述第二音素对齐序列与所述第一音素对齐序列相同;基于替换后的所述仿真语音信号生成目标声学模型。本发明可以提高在目标复杂场景下的语音识别性能。
Description
技术领域
本发明涉及语音识别领域,特别是涉及一种语音建模方法及装置。
背景技术
语音识别技术作为人工智能的关键技术之一,能够将输入的语音信号转变成文字信号,进而方便存储,检索和传播。近年来随着移动互联网的兴起和深度神经网络技术在语音识别技术中的快速发展,语音识别技术在简单场景下的识别性能大幅提升。例如,语音识别技术在搜索引擎,输入法,故事机等简单场景下的产品领域中被广泛使用,而在复杂场景下的产品领域如车载,智能家居等,语音识别性能随着场景复杂度上升而快速下降。
传统语音识别采用音素混合高斯-隐马尔科夫模型(以下简称HMM-GMM模型)对语音信号进行建模。近年来随着深度学习技术的快速发展,基于深度学习的语音识别系统受到越来越多的关注。隐马尔科夫-深度神经网络混合模型(以下简称HMM-DNN模型)的提出大幅度提升语音识别的准确度。隐马尔科夫-深度神经网络采用监督学习的方式,利用其强大的非线性拟合能力,从原始数据中挖掘出更加适合分类的特征表达形式,建立起语音特征序列到音素对齐序列的映射,进而提高语音识别准确度。
语音识别在实际应用中往往会面临非常复杂的目标场景。例如在狭小空间下语音信号会引入强混响,在车载环境下会引入强噪声(包括人声噪声,车喇叭,空调声等),在低品质麦克风下会引入信道畸变。这些情况都会改变语音信号中语音段和非语音段的统计特性,其中非语音段的统计特性在复杂目标场景下会随着该场景下噪声类型的变化而急剧变化(如人声噪声,车喇叭声,空调声等)。当前的语音建模通常是以音素为单元进行建模,其中对非语音段采用一个音素”sil”进行建模,难以很好的对复杂目标场景下的非语音段的统计特性进行建模。
语音建模的中大量的训练语音信号通常是在简单场景(如安静环境)下录制的,复杂目标场景下的语音信号通常难以获得。而复杂目标场景中语音段的统计特性往往会受到混响,噪声等的影响。另外受成本因素影响,复杂目标场景中语音采集的麦克风与已有训练语音信号所采用的麦克风在信道上存在较大差异,这也将在语音信号中引入额外的信道畸变。上述混响,噪声,信道畸变均会影响语音信号的统计特性,使复杂目标场景下测试语音信号与训练使用语音信号存在统计特性失配。由于以上原因训练得到的模型在复杂目标场景下的识别性能往往会显著下降。
发明内容
基于此,有必要提供一种语音建模方法及装置,提升在目标复杂场景下对非语音段的建模能力,降低训练语音与复杂目标场景下测试语音之间的统计特性失配,进而提升在目标复杂场景下识别性能。
一种语音建模方法,所述方法包括:
获取在简单场景下录制的第一语音信号;
获取所述第一语音信号的第一音素对齐序列;
向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号;
对所述仿真语音信号中的非语音段进行分类,并对每一类分别建立对应的一个用于建模的目标音素;
根据所述仿真语音信号中的噪声类别,将所述仿真语音信号中的第二音素对齐序列中的非语音段噪声音素分别替换成对应的所述目标音素;其中,所述第二音素对齐序列与所述第一音素对齐序列相同;
基于替换后的所述仿真语音信号生成目标声学模型。
优选的,所述基于替换后的所述仿真语音信号生成目标声学模型,包括:
计算替换后的所述仿真语音信号的梅尔滤波器特征;
对第三音素对齐序列和所述梅尔滤波器特征进行聚类,对相似三音素状态进行绑定,生成单状态三音素模型决策树;其中,所述第三音素对齐序列由将所述第二音素对齐序列中的非语音段噪声音素分别替换成对应的所述目标音素后形成;
基于所述单状态三音素模型决策树将所述第三音素对齐序列转化为隐马尔科夫绑定状态ID序列;
采用三状态三音素HMM-DNN模型建立所述梅尔滤波器特征到所述隐马尔科夫绑定状态ID序列之间的映射;
对所述HMM-DNN模型中的权值进行迭代训练更新后生成目标声学模型。
优选的,所述获取所述第一语音信号的第一音素对齐序列,包括:
计算所述第一语音信号的梅尔倒谱系数;
对所述梅尔倒谱系数进行均值归一化并计算所述梅尔倒谱系数的一阶和二阶差分特征;
采用三状态三音素HMM-GMM模型对所述梅尔倒谱系数及所述梅尔倒谱系数的一阶和二阶差分特征进行建模,生成三音素隐马尔科夫模型的决策树
对所述三音素隐马尔科夫模型进行迭代训练,生成需要的目标三音素隐马尔科夫模型;
基于所述目标三音素隐马尔科夫模型生成所述第一语音信号的第一音素对齐序列。
优选的,所述对所述三音素隐马尔科夫模型进行迭代训练,生成需要的目标三音素隐马尔科夫模型,包括:
对所述三状态三音素HMM-GMM模型中的高斯模型数目进行增长,直到最终所述目标三音素隐马尔科夫模型中的每个隐马尔科夫模型状态上高斯数的数目达到24;
对所述目标三音素隐马尔科夫模型进行迭代训练,直到所述目标三音素隐马尔科夫模型的模型似然度数值增长幅度小于设定阈值。
优选的,所述向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号,包括:
采用人工嘴发射指数扫频信号,并由目标麦克风对所述指数扫频信号进行采集形成目标采集信号;
基于所述目标采集信号确定所述目标麦克风的信道传递函数;
生成在目标复杂场景下的仿真混响传递函数;
采用所述目标麦克风录制在所述目标复杂场景下不同类型的噪声;
基于所述信道传递函数、仿真混响传递函数和不同类型的噪声,向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号。
一种语音建模装置,所述装置包括:
第一获取模块,用于获取在简单场景下录制的第一语音信号;
第二获取模块,用于获取所述第一语音信号的第一音素对齐序列;
信号生成模块,用于向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号;
建立模块,用于对所述仿真语音信号中的非语音段进行分类,并对每一类分别建立对应的一个用于建模的目标音素;
替换模块,用于根据所述仿真语音信号中的噪声类别,将所述仿真语音信号中的第二音素对齐序列中的非语音段噪声音素分别替换成对应的所述目标音素;其中,所述第二音素对齐序列与所述第一音素对齐序列相同;
模型生成模块,用于基于替换后的所述仿真语音信号生成目标声学模型。
优选的,所述模型生成模块具体用于:
计算替换后的所述仿真语音信号的梅尔滤波器特征;
对第三音素对齐序列和所述梅尔滤波器特征进行聚类,对相似三音素状态进行绑定,生成单状态三音素模型决策树;其中,所述第三音素对齐序列由将所述第二音素对齐序列中的非语音段噪声音素分别替换成对应的所述目标音素后形成;
基于所述单状态三音素模型决策树将所述第三音素对齐序列转化为隐马尔科夫绑定状态ID序列;
采用三状态三音素HMM-DNN模型建立所述梅尔滤波器特征到所述隐马尔科夫绑定状态ID序列之间的映射;
对所述HMM-DNN模型中的权值进行迭代训练更新后生成目标声学模型。
优选的,所述第二获取模块具体用于:
计算所述第一语音信号的梅尔倒谱系数;
对所述梅尔倒谱系数进行均值归一化并计算所述梅尔倒谱系数的一阶和二阶差分特征;
采用三状态三音素HMM-GMM模型对所述梅尔倒谱系数及所述梅尔倒谱系数的一阶和二阶差分特征进行建模,生成三音素隐马尔科夫模型的决策树
对所述三音素隐马尔科夫模型进行迭代训练,生成需要的目标三音素隐马尔科夫模型;
基于所述目标三音素隐马尔科夫模型生成所述第一语音信号的第一音素对齐序列。
优选的,所述第二获取模块还用于:
对所述三状态三音素HMM-GMM模型中的高斯模型数目进行增长,直到最终所述目标三音素隐马尔科夫模型中的每个隐马尔科夫模型状态上高斯数的数目达到24;
对所述目标三音素隐马尔科夫模型进行迭代训练,直到所述目标三音素隐马尔科夫模型的模型似然度数值增长幅度小于设定阈值。
优选的,所述信号生成模块具体用于:
采用人工嘴发射指数扫频信号,并由目标麦克风对所述指数扫频信号进行采集形成目标采集信号;
基于所述目标采集信号确定所述目标麦克风的信道传递函数;
生成在目标复杂场景下的仿真混响传递函数;
采用所述目标麦克风录制在所述目标复杂场景下不同类型的噪声;
基于所述信道传递函数、仿真混响传递函数和不同类型的噪声,向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号。
本发明首先获取在简单场景下录制的第一语音信号,其中,简单场景可以是安静环境,其具有最佳的声音采集效果,在简单场景下录制的第一语音信号也可以称谓简单语音信号,因为其没有噪音,比较纯净;在简单语音信号中引入信道畸变、混响、各类型噪声可以使训练语音信号在统计特性上尽可能接近目标复杂场景下的测试语音信号,降低了训练语音统计特性与测试语音统计特性之间的失配。同时通过对不同类型噪声采用不同非语音音素建模的方式,提高了最终生成的目标声学模型对目标复杂场景下非语音段的建模能力,进而提高在目标复杂场景下的语音识别性能。
附图说明
图1为本发明一实施例的语音建模方法的流程图;
图2为本发明一实施例的语音建模装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例提供了一种语音建模方法,该方法包括:
步骤110,获取在简单场景下录制的第一语音信号;
步骤120,获取第一语音信号的第一音素对齐序列;
步骤130,向第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号;
步骤140,对仿真语音信号中的非语音段进行分类,并对每一类分别建立对应的一个用于建模的目标音素;
步骤150,根据仿真语音信号中的噪声类别,将仿真语音信号中的第二音素对齐序列中的非语音段噪声音素分别替换成对应的目标音素;其中,第二音素对齐序列与第一音素对齐序列相同;
步骤160,基于替换后的仿真语音信号生成目标声学模型。
本发明首先获取在简单场景下录制的第一语音信号,其中,简单场景可以是安静环境,其具有最佳的声音采集效果,在简单场景下录制的第一语音信号也可以称谓简单语音信号,因为其没有噪音,比较纯净;在简单语音信号中引入信道畸变、混响、各类型噪声可以使训练语音信号在统计特性上尽可能接近目标复杂场景下的测试语音信号,降低了训练语音统计特性与测试语音统计特性之间的失配。同时通过对不同类型噪声采用不同非语音音素建模的方式,提高了最终生成的目标声学模型对目标复杂场景下非语音段的建模能力,进而提高在目标复杂场景下的语音识别性能。
本实施例中,简单场景可以是安静环境,其可以作为一种优选的用于采集语音信号的方式,而且采集的语音信号不会携带噪音。本实施例并不限于以其它方式对简单场景进行用于上述目的的定义或解释,这并不影响本实施例的实现。
在简单场景下,可以录制需要的第一语音信号,这是一种在安静环境下采集的第一语音信号,其通常不包含噪音。通常第一语音信号也可以称为简单语音信号。
本实施例中,步骤120包括步骤121至步骤125。
步骤121,计算第一语音信号的梅尔倒谱系数。
其中,对第一语音信号可以进行预加重,加窗分帧,帧长选择25ms,帧移10ms。随后对每一帧数据进行快速傅里叶变换得到能量谱,并对能量谱进行梅尔滤波器组滤波后计算梅尔倒谱系数(MFCC)。
步骤122,对梅尔倒谱系数进行均值归一化并计算梅尔倒谱系数的一阶和二阶差分特征。
其中,梅尔滤波器阶数为23,MFCC维度为13,对梅尔倒谱系数(MFCC)进行均值归一化并计算其一阶和二阶差分特征。其中一阶差分和二阶差分的计算方式是采用的滤波器对连续梅尔倒谱系数在时域上进行卷积。一阶差分的卷积核为[-0.2,-0.1,0,0.1,0.2],二阶差分的卷积核为[0.04,0.04,0.01,-0.04,-0.1,-0.04,0.01,0.04,0.04]。
步骤123,采用三状态三音素HMM-GMM模型对梅尔倒谱系数及梅尔倒谱系数的一阶和二阶差分特征进行建模,生成三音素隐马尔科夫模型的决策树。
其中,采用三状态三音素HMM-GMM模型对MFCC及其一阶和二阶差分特征建模,生成三音素隐马尔科夫模型的决策树。由于三音素的音素较多,若对每一个三音素建立一个模型,一方面模型将会变得巨大,另一方面部分三音素将会面临训练数据不足的问题。决策树的目的就是将三音素进行聚类,将特征相似的三音素聚成一个类别,每一个类别分配一个隐马尔科夫绑定状态ID。模型建模不再是分别对每一个三音素建模,而是对这些隐马尔科夫绑定状态进行建模。本实施例中,隐马尔科夫绑定状态的数目可以设置为7000。
步骤124,对三音素隐马尔科夫模型进行迭代训练,生成需要的目标三音素隐马尔科夫模型。
本实施例中,可以采用Baum-Welh算法进行迭代训练。每次迭代按照一定数量可以对三状态三音素HMM-GMM模型中的高斯模型数目进行增长,直到最终目标三音素隐马尔科夫模型中的每个隐马尔科夫模型状态上高斯数的数目达到24;之后,可以对目标三音素隐马尔科夫模型进行迭代训练,直到目标三音素隐马尔科夫模型的模型似然度数值增长幅度小于设定阈值。
步骤125,基于目标三音素隐马尔科夫模型生成第一语音信号的第一音素对齐序列。
可以理解,最后使用该三状态三音素HMM-GMM模型可以生成第一语音信号的音素对齐序列。
本实施例的一实现方式中,步骤130包括步骤131至步骤135。
步骤131,采用人工嘴发射指数扫频信号,并由目标麦克风对指数扫频信号进行采集形成目标采集信号。
本实施例中,指数扫频信号的数学表达式为:
其中w1的设置为20Hz,w2的设置为目标麦克风采样频率的一半,信号时长T设置为8秒。该信号具有非常强的自相关特性,其自相关函数为冲击响应
其中,可以在消音室中使用人工嘴发射指数扫频信号,并使用目标麦克风录制该指数扫频信号。在录制过程中需要控制好人工嘴音量,保证目标麦克风采集下来的信号不会出现截幅。
步骤132,基于目标采集信号确定目标麦克风的信道传递函数。
假设目标麦克风的信道传递函数为h1(t),则目标麦克风采集到的目标采集信号x(t)满足以下公式:x(t)=m(t)*h1(t)+n(t);其中n(t)表示噪声。使用麦克风采集到的目标采集信号x(t)与原始信号m(t)进行相关运算得到的结果为因此可以通过以上步骤的结果近似表示麦克风信道的传递函数,该传递函数表征了目标麦克风接收语音信号中的信道畸变。因此使用该传递函数与简单语音信号卷积,可以模拟目标场景下的信道畸变。
步骤133,生成在目标复杂场景下的仿真混响传递函数。
根据语音识别系统应用下的目标复杂场景,可以采用镜像模型(image model)方法生成仿真混响传递函数h2(t)。镜像模型将声音在空间中的传播类比成光线,声音在遇到障碍物之后,能量以一定的比例进行反射。同时将空间近似具有固定反射系数的立方体。混响传递函数的生成公式如下:
其中能量反射系数βx1,βx2,…βz2的取值介于0.5-0.9之间。混响传递函数能够近似模拟声音在空间传播中引入的混响。
步骤134,采用目标麦克风录制在目标复杂场景下不同类型的噪声。
其中,可以使用目标麦克风录制目标复杂场景可能出现的人声噪声,麦克风背景噪声,音乐噪声,商场噪声等。
步骤135,基于信道传递函数、仿真混响传递函数和不同类型的噪声,向第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号。
将第一语音信号s(t),信道传递函数h1(t),混响传递函数h2(t),各类噪声n(t)按照以下公式进行计算:
y(t)=s(t)*h1(t)*h2(t)+αn(t);
即可得到复杂目标场景的仿真语音信号y(t)。使用参数α控制仿真语音信号的信噪比,信噪比的取值介于3dB-18dB之间。经过上述过程生成的仿真语音信号同时加入了信道畸变,混响,各类型噪声,在统计特性上与目标复杂场景下测试语音的统计特性已非常接近。
本实施例的一实现方式中,在步骤140中,对仿真语音信号中的非语音段进行分类,并对每一类分别建立对应的一个用于建模的目标音素,具体包括:
对仿真语音信号中的非语音段进行分类,对每一类分别建立一个音素对其进行建模。例如对麦克风背景噪声采用音素sil建模,对人声噪声段采用音素spn建模,对空调声、喇叭声采用音素bg建模。将这些目标音素加入到语音音素集合当中,用于对仿真语音信号进行建模。
本实施例的另一实现方式中,在步骤15中,根据仿真语音信号中的噪声类别,将仿真语音信号中的第二音素对齐序列中的非语音段噪声音素分别替换成对应的目标音素;其中,第二音素对齐序列与第一音素对齐序列相同。其具体可以实现为:
由于仿真语音信号是由第一语音信号得到的,仿真语音信号与第一语音信号在相同时刻下的音频内容相同。因此仿真语音信号的音素对齐序列理论上与第一语音信号相同。因此,仿真语音信号中的第二音素对齐序列即为第一语音信号的第一音素对齐序列。
根据当前仿真语音信号中的噪声类别可以其音素对齐序列中的非语音段音素替换成以上目标音素。例如第一语音信号a的音素对齐序列为{sil,sil,s1,s2,…,sN,sil},其中s1~sN为语音音素,那么使用第一语音信号a作为原始信号,添加了人声噪声的仿真语音信号对应的音素对齐序列则为{spn,spn,s1,s2,…,sN,spn}。本实施例仅对仿真语音信号中的第二音素对齐序列中的非语音音素进行替换,语音音素则保持不变。
本实施例的一实现方式中,步骤160包括步骤161至步骤165。
步骤161,计算替换后的仿真语音信号的梅尔滤波器特征。
可以对仿真语音信号进行预加重,加窗分帧,帧长选择25ms,帧移10ms。随后对每一帧数据进行快速傅里叶变换得到能量谱,并对能量谱进行梅尔滤波器组滤波后计算梅尔滤波器(mel-fbank)特征,梅尔滤波器组阶数设置为40。采用单状态hmm模型可以对仿真语音信号的音素集合进行建模。
步骤162,对第三音素对齐序列和梅尔滤波器特征进行聚类,对相似三音素状态进行绑定,生成单状态三音素模型决策树;其中,第三音素对齐序列由将第二音素对齐序列中的非语音段噪声音素分别替换成对应的目标音素后形成。
其中,可以使用梅尔滤波器(mel-fbank)特征和第三音素对齐序列进行聚类,对相似三音素状态进行绑定,生成单状态三音素模型决策树,为每一个绑定状态分配一个隐马尔科夫模型绑定状态ID。绑定状态数可以设置为6000。
步骤163,基于单状态三音素模型决策树将第三音素对齐序列转化为隐马尔科夫绑定状态ID序列。
步骤164,采用三状态三音素HMM-DNN模型建立梅尔滤波器特征到隐马尔科夫绑定状态ID序列之间的映射;
步骤165,对HMM-DNN模型中的权值进行迭代训练更新后生成目标声学模型。
其中,可以用HMM-DNN模型建立仿真语音信号的梅尔滤波器(mel-fbank)特征到隐马尔科夫绑定状态ID序列之间的映射。HMM-DNN模型中包含一个输入层,用于接收输入特征;其还包括一个输出层和7个隐层,每个隐层包含2048各节点,隐层的激活函数选用pnorm激活函数,其中pnorm激活函数的公式如下
其中x表示激活函数输入,y表示激活函数输出。参量p的数值设置为2,参量I的设置为12。采用交叉熵准则对DNN模型进行训练,交叉熵准则数学公式为其中下标j表示隐马尔科夫绑定状态ID,yt表示神经网络的输出的预测概率,表示目标概率。使用反向传播算法对HMM-DNN模型中的权值进行更新,经过多次迭代训练之后得到目标声学模型。
本实施例中,数据仿真在简单语音信号中引入信道畸变、混响和各类型噪声使训练语音信号在统计特性上尽可能接近目标复杂场景测试语音信号,降低了训练语音统计特性与测试语音统计特性之间的失配;同时通过对不同类型噪声采用不同非语音音素建模的方式,提高了模型对与目标复杂场景下非语音段的建模能力,进而提高在目标复杂场景下的语音识别性能。
如图2所示,本实施例还提供了一种语音建模装置,装置包括:
第一获取模块210,用于获取在简单场景下录制的第一语音信号;
第二获取模块220,用于获取第一语音信号的第一音素对齐序列;
信号生成模块230,用于向第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号;
建立模块240,用于对仿真语音信号中的非语音段进行分类,并对每一类分别建立对应的一个用于建模的目标音素;
替换模块250,用于根据仿真语音信号中的噪声类别,将仿真语音信号中的第二音素对齐序列中的非语音段噪声音素分别替换成对应的目标音素;其中,第二音素对齐序列与第一音素对齐序列相同;
模型生成模块260,用于基于替换后的仿真语音信号生成目标声学模型。
本发明首先获取在简单场景下录制的第一语音信号,其中,简单场景可以是安静环境,其具有最佳的声音采集效果,在简单场景下录制的第一语音信号也可以称谓简单语音信号,因为其没有噪音,比较纯净;在简单语音信号中引入信道畸变、混响、各类型噪声可以使训练语音信号在统计特性上尽可能接近目标复杂场景下的测试语音信号,降低了训练语音统计特性与测试语音统计特性之间的失配。同时通过对不同类型噪声采用不同非语音音素建模的方式,提高了最终生成的目标声学模型对目标复杂场景下非语音段的建模能力,进而提高在目标复杂场景下的语音识别性能。
可选的,在一实施例中,模型生成模块260具体用于:
计算替换后的仿真语音信号的梅尔滤波器特征;
对第三音素对齐序列和梅尔滤波器特征进行聚类,对相似三音素状态进行绑定,生成单状态三音素模型决策树;其中,第三音素对齐序列由将第二音素对齐序列中的非语音段噪声音素分别替换成对应的目标音素后形成;
基于单状态三音素模型决策树将第三音素对齐序列转化为隐马尔科夫绑定状态ID序列;
采用三状态三音素HMM-DNN模型建立梅尔滤波器特征到隐马尔科夫绑定状态ID序列之间的映射;
对HMM-DNN模型中的权值进行迭代训练更新后生成目标声学模型。
可选的,在一实施例中,第二获取模块220具体用于:
计算第一语音信号的梅尔倒谱系数;
对梅尔倒谱系数进行均值归一化并计算梅尔倒谱系数的一阶和二阶差分特征;
采用三状态三音素HMM-GMM模型对梅尔倒谱系数及梅尔倒谱系数的一阶和二阶差分特征进行建模,生成三音素隐马尔科夫模型的决策树
对三音素隐马尔科夫模型进行迭代训练,生成需要的目标三音素隐马尔科夫模型;
基于目标三音素隐马尔科夫模型生成第一语音信号的第一音素对齐序列。
可选的,在一实施例中,第二获取模块220还用于:
对三状态三音素HMM-GMM模型中的高斯模型数目进行增长,直到最终目标三音素隐马尔科夫模型中的每个隐马尔科夫模型状态上高斯数的数目达到24;
对目标三音素隐马尔科夫模型进行迭代训练,直到目标三音素隐马尔科夫模型的模型似然度数值增长幅度小于设定阈值。
可选的,在一实施例中,信号生成模块230具体用于:
采用人工嘴发射指数扫频信号,并由目标麦克风对指数扫频信号进行采集形成目标采集信号;
基于目标采集信号确定目标麦克风的信道传递函数;
生成在目标复杂场景下的仿真混响传递函数;
采用目标麦克风录制在目标复杂场景下不同类型的噪声;
基于信道传递函数、仿真混响传递函数和不同类型的噪声,向第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号。
以上装置实施例的具体实现过程或者内容可以具体参照以上方法实施例中的内容,本实施例在此不再具体赘述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音建模方法,其特征在于,所述方法包括:
获取在简单场景下录制的第一语音信号;
获取所述第一语音信号的第一音素对齐序列;
向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号;
对所述仿真语音信号中的非语音段进行分类,并对每一类分别建立对应的一个用于建模的目标音素;
根据所述仿真语音信号中的噪声类别,将所述仿真语音信号中的第二音素对齐序列中的非语音段噪声音素分别替换成对应的所述目标音素;其中,所述第二音素对齐序列与所述第一音素对齐序列相同;
基于替换后的所述仿真语音信号生成目标声学模型。
2.根据权利要求1所述的方法,其特征在于,所述基于替换后的所述仿真语音信号生成目标声学模型,包括:
计算替换后的所述仿真语音信号的梅尔滤波器特征;
对第三音素对齐序列和所述梅尔滤波器特征进行聚类,对相似三音素状态进行绑定,生成单状态三音素模型决策树;其中,所述第三音素对齐序列由将所述第二音素对齐序列中的非语音段噪声音素分别替换成对应的所述目标音素后形成;
基于所述单状态三音素模型决策树将所述第三音素对齐序列转化为隐马尔科夫绑定状态ID序列;
采用三状态三音素HMM-DNN模型建立所述梅尔滤波器特征到所述隐马尔科夫绑定状态ID序列之间的映射;
对所述HMM-DNN模型中的权值进行迭代训练更新后生成目标声学模型。
3.根据权利要求1所述的方法,其特征在于,所述获取所述第一语音信号的第一音素对齐序列,包括:
计算所述第一语音信号的梅尔倒谱系数;
对所述梅尔倒谱系数进行均值归一化并计算所述梅尔倒谱系数的一阶和二阶差分特征;
采用三状态三音素HMM-GMM模型对所述梅尔倒谱系数及所述梅尔倒谱系数的一阶和二阶差分特征进行建模,生成三音素隐马尔科夫模型的决策树;
对所述三音素隐马尔科夫模型进行迭代训练,生成需要的目标三音素隐马尔科夫模型;
基于所述目标三音素隐马尔科夫模型生成所述第一语音信号的第一音素对齐序列。
4.根据权利要求3所述的方法,其特征在于,所述对所述三音素隐马尔科夫模型进行迭代训练,生成需要的目标三音素隐马尔科夫模型,包括:
对所述三状态三音素HMM-GMM模型中的高斯模型数目进行增长,直到最终所述目标三音素隐马尔科夫模型中的每个隐马尔科夫模型状态上高斯数的数目达到24;
对所述目标三音素隐马尔科夫模型进行迭代训练,直到所述目标三音素隐马尔科夫模型的模型似然度数值增长幅度小于设定阈值。
5.根据权利要求1所述的方法,其特征在于,所述向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号,包括:
采用人工嘴发射指数扫频信号,并由目标麦克风对所述指数扫频信号进行采集形成目标采集信号;
基于所述目标采集信号确定所述目标麦克风的信道传递函数;
生成在目标复杂场景下的仿真混响传递函数;
采用所述目标麦克风录制在所述目标复杂场景下不同类型的噪声;
基于所述信道传递函数、仿真混响传递函数和不同类型的噪声,向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号。
6.一种语音建模装置,其特征在于,所述装置包括:
第一获取模块,用于获取在简单场景下录制的第一语音信号;
第二获取模块,用于获取所述第一语音信号的第一音素对齐序列;
信号生成模块,用于向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号;
建立模块,用于对所述仿真语音信号中的非语音段进行分类,并对每一类分别建立对应的一个用于建模的目标音素;
替换模块,用于根据所述仿真语音信号中的噪声类别,将所述仿真语音信号中的第二音素对齐序列中的非语音段噪声音素分别替换成对应的所述目标音素;其中,所述第二音素对齐序列与所述第一音素对齐序列相同;
模型生成模块,用于基于替换后的所述仿真语音信号生成目标声学模型。
7.根据权利要求6所述的装置,其特征在于,所述模型生成模块具体用于:
计算替换后的所述仿真语音信号的梅尔滤波器特征;
对第三音素对齐序列和所述梅尔滤波器特征进行聚类,对相似三音素状态进行绑定,生成单状态三音素模型决策树;其中,所述第三音素对齐序列由将所述第二音素对齐序列中的非语音段噪声音素分别替换成对应的所述目标音素后形成;
基于所述单状态三音素模型决策树将所述第三音素对齐序列转化为隐马尔科夫绑定状态ID序列;
采用三状态三音素HMM-DNN模型建立所述梅尔滤波器特征到所述隐马尔科夫绑定状态ID序列之间的映射;
对所述HMM-DNN模型中的权值进行迭代训练更新后生成目标声学模型。
8.根据权利要求6所述的装置,其特征在于,所述第二获取模块具体用于:
计算所述第一语音信号的梅尔倒谱系数;
对所述梅尔倒谱系数进行均值归一化并计算所述梅尔倒谱系数的一阶和二阶差分特征;
采用三状态三音素HMM-GMM模型对所述梅尔倒谱系数及所述梅尔倒谱系数的一阶和二阶差分特征进行建模,生成三音素隐马尔科夫模型的决策树;
对所述三音素隐马尔科夫模型进行迭代训练,生成需要的目标三音素隐马尔科夫模型;
基于所述目标三音素隐马尔科夫模型生成所述第一语音信号的第一音素对齐序列。
9.根据权利要求8所述的装置,其特征在于,所述第二获取模块还用于:
对所述三状态三音素HMM-GMM模型中的高斯模型数目进行增长,直到最终所述目标三音素隐马尔科夫模型中的每个隐马尔科夫模型状态上高斯数的数目达到24;
对所述目标三音素隐马尔科夫模型进行迭代训练,直到所述目标三音素隐马尔科夫模型的模型似然度数值增长幅度小于设定阈值。
10.根据权利要求6所述的装置,其特征在于,所述信号生成模块具体用于:
采用人工嘴发射指数扫频信号,并由目标麦克风对所述指数扫频信号进行采集形成目标采集信号;
基于所述目标采集信号确定所述目标麦克风的信道传递函数;
生成在目标复杂场景下的仿真混响传递函数;
采用所述目标麦克风录制在所述目标复杂场景下不同类型的噪声;
基于所述信道传递函数、仿真混响传递函数和不同类型的噪声,向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811390640.2A CN109243429B (zh) | 2018-11-21 | 2018-11-21 | 一种语音建模方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811390640.2A CN109243429B (zh) | 2018-11-21 | 2018-11-21 | 一种语音建模方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109243429A true CN109243429A (zh) | 2019-01-18 |
CN109243429B CN109243429B (zh) | 2021-12-10 |
Family
ID=65076190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811390640.2A Active CN109243429B (zh) | 2018-11-21 | 2018-11-21 | 一种语音建模方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109243429B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109949821A (zh) * | 2019-03-15 | 2019-06-28 | 慧言科技(天津)有限公司 | 一种利用cnn的u-net结构进行远场语音去混响的方法 |
CN111179917A (zh) * | 2020-01-17 | 2020-05-19 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111785256A (zh) * | 2020-06-28 | 2020-10-16 | 北京三快在线科技有限公司 | 声学模型训练方法、装置、电子设备及存储介质 |
CN112331219A (zh) * | 2020-11-05 | 2021-02-05 | 北京爱数智慧科技有限公司 | 语音处理方法和装置 |
CN112466056A (zh) * | 2020-12-01 | 2021-03-09 | 上海旷日网络科技有限公司 | 一种基于语音识别的自助柜取件系统及方法 |
CN113782053A (zh) * | 2021-09-04 | 2021-12-10 | 天津大学 | 值得保护的城市声景观品质自动监测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7319959B1 (en) * | 2002-05-14 | 2008-01-15 | Audience, Inc. | Multi-source phoneme classification for noise-robust automatic speech recognition |
CN101645271A (zh) * | 2008-12-23 | 2010-02-10 | 中国科学院声学研究所 | 发音质量评估系统中的置信度快速求取方法 |
CN104198810A (zh) * | 2014-08-14 | 2014-12-10 | 深圳市爱普泰科电子有限公司 | 系统频率响应的测量方法 |
CN106297773A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种神经网络声学模型训练方法 |
US20170076719A1 (en) * | 2015-09-10 | 2017-03-16 | Samsung Electronics Co., Ltd. | Apparatus and method for generating acoustic model, and apparatus and method for speech recognition |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
CN107644638A (zh) * | 2017-10-17 | 2018-01-30 | 北京智能管家科技有限公司 | 语音识别方法、装置、终端和计算机可读存储介质 |
CN107680582A (zh) * | 2017-07-28 | 2018-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
-
2018
- 2018-11-21 CN CN201811390640.2A patent/CN109243429B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7319959B1 (en) * | 2002-05-14 | 2008-01-15 | Audience, Inc. | Multi-source phoneme classification for noise-robust automatic speech recognition |
CN101645271A (zh) * | 2008-12-23 | 2010-02-10 | 中国科学院声学研究所 | 发音质量评估系统中的置信度快速求取方法 |
CN104198810A (zh) * | 2014-08-14 | 2014-12-10 | 深圳市爱普泰科电子有限公司 | 系统频率响应的测量方法 |
CN106297773A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种神经网络声学模型训练方法 |
US20170076719A1 (en) * | 2015-09-10 | 2017-03-16 | Samsung Electronics Co., Ltd. | Apparatus and method for generating acoustic model, and apparatus and method for speech recognition |
CN106531155A (zh) * | 2015-09-10 | 2017-03-22 | 三星电子株式会社 | 生成声学模型的设备和方法和用于语音识别的设备和方法 |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
CN107680582A (zh) * | 2017-07-28 | 2018-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN107644638A (zh) * | 2017-10-17 | 2018-01-30 | 北京智能管家科技有限公司 | 语音识别方法、装置、终端和计算机可读存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109949821A (zh) * | 2019-03-15 | 2019-06-28 | 慧言科技(天津)有限公司 | 一种利用cnn的u-net结构进行远场语音去混响的方法 |
CN109949821B (zh) * | 2019-03-15 | 2020-12-08 | 慧言科技(天津)有限公司 | 一种利用cnn的u-net结构进行远场语音去混响的方法 |
CN111179917A (zh) * | 2020-01-17 | 2020-05-19 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111179917B (zh) * | 2020-01-17 | 2023-01-03 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111785256A (zh) * | 2020-06-28 | 2020-10-16 | 北京三快在线科技有限公司 | 声学模型训练方法、装置、电子设备及存储介质 |
CN112331219A (zh) * | 2020-11-05 | 2021-02-05 | 北京爱数智慧科技有限公司 | 语音处理方法和装置 |
CN112331219B (zh) * | 2020-11-05 | 2024-05-03 | 北京晴数智慧科技有限公司 | 语音处理方法和装置 |
CN112466056A (zh) * | 2020-12-01 | 2021-03-09 | 上海旷日网络科技有限公司 | 一种基于语音识别的自助柜取件系统及方法 |
CN113782053A (zh) * | 2021-09-04 | 2021-12-10 | 天津大学 | 值得保护的城市声景观品质自动监测方法 |
CN113782053B (zh) * | 2021-09-04 | 2023-09-22 | 天津大学 | 值得保护的城市声景观品质自动监测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109243429B (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109243429A (zh) | 一种语音建模方法及装置 | |
US10373609B2 (en) | Voice recognition method and apparatus | |
Li et al. | Adversarial music: Real world audio adversary against wake-word detection system | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN111161752A (zh) | 回声消除方法和装置 | |
CN113053407B (zh) | 一种针对多说话人的单通道语音分离方法及系统 | |
CN105788592A (zh) | 一种音频分类方法及装置 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN103377651B (zh) | 语音自动合成装置及方法 | |
CN104900235A (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN105448302A (zh) | 一种环境自适应的语音混响消除方法和系统 | |
CN113488058A (zh) | 一种基于短语音的声纹识别方法 | |
JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
CN113192504B (zh) | 一种基于域适应的无声语音攻击检测方法 | |
CN112382301B (zh) | 基于轻量级神经网络的含噪语音性别识别方法及系统 | |
Vivek et al. | Acoustic scene classification in hearing aid using deep learning | |
CN111986679A (zh) | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 | |
CN110931045A (zh) | 基于卷积神经网络的音频特征生成方法 | |
CN115841821A (zh) | 一种基于人类语音结构的语音干扰噪声设计方法 | |
CN118098247A (zh) | 一种基于并行特征提取模型的声纹识别方法和系统 | |
Gandhiraj et al. | Auditory-based wavelet packet filterbank for speech recognition using neural network | |
MohammadAmini et al. | A comprehensive exploration of noise robustness and noise compensation in resnet and TDNN-based speaker recognition systems | |
CN116705071A (zh) | 一种基于数据增强和预训练模型特征提取的回放语音检测方法 | |
Kamble et al. | Teager energy subband filtered features for near and far-field automatic speech recognition | |
CN116312640A (zh) | 一种自适应环境声音情感识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |