CN105788608A - 基于神经网络的汉语声韵母可视化方法 - Google Patents
基于神经网络的汉语声韵母可视化方法 Download PDFInfo
- Publication number
- CN105788608A CN105788608A CN201610121430.8A CN201610121430A CN105788608A CN 105788608 A CN105788608 A CN 105788608A CN 201610121430 A CN201610121430 A CN 201610121430A CN 105788608 A CN105788608 A CN 105788608A
- Authority
- CN
- China
- Prior art keywords
- sound
- neural network
- voice signal
- mother
- wavelet neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 30
- 150000001875 compounds Chemical class 0.000 title abstract description 15
- 238000007794 visualization technique Methods 0.000 title abstract description 4
- 238000000034 method Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000012800 visualization Methods 0.000 claims abstract description 5
- 230000009467 reduction Effects 0.000 claims abstract description 4
- 230000007935 neutral effect Effects 0.000 claims description 15
- 238000004040 coloring Methods 0.000 claims description 13
- 210000002569 neuron Anatomy 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 8
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 206010011878 Deafness Diseases 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 206010048865 Hypoacusis Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000028161 membrane depolarization Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000005181 root of the tongue Anatomy 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
基于神经网络的汉语声韵母可视化方法,步骤为:获取语音信号;对语音信号进行预处理;提取语音信号特征参数,进行PCA降维;设计并训练小波神经网络;小波神经网络输出的64个二进制编码依次对应显示屏上8×8个方格,其中前47个二进制编码及前47个二进制编码对应的方格依次对应按照发音特点排序的47个声韵母,当某个声韵母的语音信号综合特征向量输入小波神经网络时,小波神经网络的输出即为该声韵母的位置信息;将47个声韵母划分为12组,并分别将12组声韵母对应的方格的RGB赋不同的值,来获取颜色信息;合成上述位置信息和颜色信息,实现声韵母的可视化。该方法便于聋哑人记忆,具有良好的鲁棒性和易懂性,聋哑人可以准确辨识出可视化图像所对应的发音。
Description
技术领域
本发明涉及一种汉语音声母和韵母的可视化方法,特别涉及一种基于神经网络的汉语声韵母可视化方法。
背景技术
语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,在人们的日常生活中是不可或缺的。但对于聋哑人来说,语言交流是一件无法实现的事情。研究表明,人类在感知外界的过程中,接收信息速率最快、获取信息最多的是视觉,如果可以从视觉上感知语音,这对聋哑人进行语言训练,建立、完善听觉认知都有巨大的帮助。
1947年R.K.Potter和G.A.Kopp等人提出了一种语音可视化方法—语谱图,随后有不同的语音研究专家开始研究改进这种语音可视化方法,比如在1976年L.C.Stewart等人提出了有色谱图和1984年G.M.Kuhn等人提出了对听力障碍者进行训练的实时的语谱图系统,以及1986年P.E.Stern、1998年F.Plante和2008年R.Steinberg等人也提出了许多语谱图的改进方法,但是显示的语谱图的专业性很强,而且很难辨别记忆。尤其是对于同一个语音不同的人来说,甚至是同一个语音同一个人来说都有可能造成语谱图的变化,对于不同环境下录制的语音信号其鲁棒性能更为不好。
此外,还有一些学者基于发音器官的运动变化以及面部表情的变化来实现语音可视化,有效剖析人的发音过程,但就其语音可懂度而言,难以达到理想效果,除极少数专家以外,人们很难直接通过观察发音器官的运动和面部表情的变化而准确地感知语音。
发明内容
针对现有技术的不足,本发明提出基于神经网络的汉语声韵母可视化方法。该方法的具体步骤如下:
步骤1、语音信号获取:利用麦克风输入语音数据,并由处理单元采样量化后获得相应的语音信号。
步骤2、语音信号预处理:对获取的语音信号进行预加重、分帧加窗和端点检测。
步骤3、语音信号特征参数提取。
步骤3.1、采用基于Hibert-Huang变换的方法来估算预处理后的语音信号共振峰频率特征,得到每帧信号的共振峰特征值F1,F2,F3,F4;
步骤3.2、计算基于小波包变换的语音信号鲁棒特征参数WPTC:WPTC1~WPTC20。
步骤3.3、计算基于MUSIC和感知特性的鲁棒特征参数PMUSIC-MFCC:PMUSIC-MFCC1~PMUSIC-MFCC12。
步骤3.4、计算Mel频率倒谱系数MFCC:MFCC1~MFCC12。
步骤4、PCA降维:利用主成分分析法PCA对上述语音信号特征参数进行降维处理,获得语音信号综合特征向量。
步骤5、神经网络设计:采用三层小波神经网络,其中输入层有12个神经元,隐含层有8个神经元,输出层有6个神经元,利用M个语音信号综合特征向量训练该小波神经网络,期望误差为P,最大迭代次数为Q,若该小波神经网络输出误差小于期望误差或者训练次数达到最大迭代次数,则停止训练小波神经网络,完成神经网络设计。
步骤6、位置信息映射:小波神经网络的输出层有6个神经元,均采用二进制编码,共有64个不同的二进制编码,显示屏上设置64个方格,64个方格排成8行8列,64个二进制编码按照由左到右、由上到下的顺序依次对应8×8个方格,其中前47个二进制编码及前47个二进制编码对应的方格依次对应按照发音特点排序的声韵母aoeiuüywaneninunünjqxbpmfdtnlangengingongzhchshrgkhzcsaieiuiaoouiuieüeer,当某一个声韵母的语音信号综合特征向量输入小波神经网络时,小波神经网络的输出为该声韵母对应的方格的二进制编码,该二进制编码即为该声韵母的位置信息,该声韵母对应的方格被选中。
步骤7、颜色信息获取:根据发音特点或发音部位将47个声韵母划分为12组,并分别将12组声韵母对应的方格的RGB赋不同的值,使12组声韵母对应的方格显示不同的颜色。
步骤8、信息合成:合成位置信息和颜色信息,当输入某一个声韵母的语音信号综合特征向量时,该声韵母对应的方格显示某种颜色,其余方格显示黑色,实现声韵母的可视化。
所述步骤1中语音信号获取时,其中采样量化的采样频率为11.025KHz、量化精度为16bit。
所述步骤2中语音信号预处理时,其中预加重是利用一阶数字预加重滤波器实现,预加重滤波器的系数取值范围在0.93-0.97之间,分帧是以帧长256点的标准进行,并对分帧后的语音信号加汉明窗处理,端点检测是利用短时能零积法进行。
所述步骤8中信息合成时,合成位置信息和颜色信息为首先获取输入的声韵母的位置信息,再将相应的方格添加颜色信息,使该声韵母对应的方格显示某种颜色。
有益效果:
1)本发明结合声韵母的发音特点来设计每个声韵母的位置信息,便于聋哑人记忆;
2)本发明根据发音特点或发音部位将47个方格图像划分为12组不同颜色的区域,充分发挥了聋哑人对色彩刺激的视觉记忆能力较强的优势;
3)本发明将位置信息和颜色信息合成在一幅图像中,实现了语音信号可视化,与现有技术相比,具有良好的鲁棒性和易懂性,弥补了语谱图难以辨别和记忆的缺点,经过一段时间的专门训练,聋哑人可以准确辨识出可视化图像所对应的发音,与健全人进行交流;
4)本发明利用小波神经网络来实现位置信息映射,小波神经网络具有结构可设计性、收敛精度可控性和收敛速度快的优点,有效地提高了汉语声韵母的正确编码率。
附图说明
图1为本发明一种实施例的流程图;
图2为本发明一种实施例的小波神经网络的结构示意图;
图3为本发明一种实施例的位置信息映射示意图;
图4为本发明一种实施例的声母p的语音可视化效果示例图;
图5为本发明一种实施例的韵母o的语音可视化效果示例图;
图6为本发明一种实施例的声母y,w与韵母i,u的语音可视化效果示例图。
具体实施方式
下面结合附图对本发明具体实施方式做详细说明。基于神经网络的汉语声韵母可视化方法,具体步骤如下,如图1所示:
步骤1、语音信号获取:利用麦克风输入语音数据,并由计算机、单片机或DSP芯片等处理单元以11.025KHz的采样频率、16bit的量化精度进行采样量化,获得相应的语音信号。本实施例采用计算机作为处理单元。
步骤2、语音信号预处理:对获取的语音信号进行预加重、分帧加窗和端点检测。利用一阶数字预加重滤波器对获取的语音信号进行预加重处理,其中预加重滤波器的系数取值范围在0.93-0.97之间,本实施例中取0.9375。然后以帧长256点的标准进行分帧处理,并对分帧后的语音信号加汉明窗处理,再利用短时能零积法进行端点检测。
步骤3、语音信号特征参数提取。
步骤3.1、采用基于Hibert-Huang变换的方法来估算预处理后的语音信号共振峰频率特征,得到每帧信号的共振峰特征值F1,F2,F3,F4。
由快速傅里叶变换(FFT)初步估计出的语音信号的各阶共振峰频率确定相应带通滤波器的参数,并用该参数对语音信号作滤波处理,对滤波后的语音信号进行经验模态分解(EMD)得到一族固有模态函数(IMF),按能量最大原则确定出含有共振峰频率IMF,计算出该IMF的瞬时频率和Hilbert谱即得到语音信号的共振峰频率参数。
步骤3.2、计算基于小波包变换的语音信号鲁棒特征参数WPTC:WPTC1~WPTC20。
根据小波包变换在各分析频段的恒Q(品质因数)特性与人耳听觉对语音信号的加工特点相一致的特点,结合小波包对频带的多层次划分,并根据人耳感知频带的特点,自适应地选择相应频带,计算出基于小波包变换的语音信号鲁棒特征参数WPTC:WPTC1~WPTC20。
步骤3.3、计算基于MUSIC和感知特性的鲁棒特征参数PMUSIC-MFCC:PMUSIC-MFCC1~PMUSIC-MFCC12。
为改善语音可视化的鲁棒性,采用多信号分类法(MultipleSignalClassification,MUSIC)的谱估计技术并在其中引入感知特性,计算出基于MUSIC和感知特性的鲁棒特征参数PMUSIC-MFCC:PMUSIC-MFCC1~PMUSIC-MFCC12。
步骤3.4、计算Mel频率倒谱系数MFCC:MFCC1~MFCC12。
将经过预处理后的每帧语音信号进行离散傅里叶变换得到线性频谱,并通过Mel频率滤波器组得到Mel频率,然后取对数并进行离散余弦变换得到Mel频率倒谱系数。
步骤4、PCA降维:利用主成分分析法PCA对上述语音信号特征参数进行降维处理,由48维语音信号特征向量降为12维语音信号综合特征向量。
步骤5、神经网络设计:采用三层小波神经网络,如图2所示,其中输入层有12个神经元,隐含层有8个神经元,输出层有6个神经元,利用1000个语音信号综合特征向量训练该小波神经网络,期望误差为0.001,最大迭代次数为200,若该小波神经网络输出误差小于期望误差或者训练次数达到最大迭代次数,则停止训练小波神经网络,完成神经网络设计。
步骤6、位置信息映射:小波神经网络的输出层有6个神经元,均采用二进制编码,共有64个不同的二进制编码,显示屏上设置64个方格,64个方格排成8行8列,64个二进制编码按照由左到右、由上到下的顺序依次对应8×8个方格,其中前47个二进制编码及前47个二进制编码对应的方格依次对应按照发音特点排序的声韵母aoeiuüywaneninunünjqxbpmfdtnlangengingongzhchshrgkhzcsaieiuiaoouiuieüeer,如图3所示,当某一个声韵母的语音信号综合特征向量输入小波神经网络时,小波神经网络的输出为该声韵母对应的方格的二进制编码,该二进制编码即为该声韵母的位置信息,该声韵母对应的方格被选中,如000000代表第一行第一列的方格,对应着韵母a,000001代表第一行第二列的方格,对应着韵母o,以此类推。
步骤7、颜色信息获取:根据发音特点或发音部位将47个声韵母划分为12组,并分别将12组声韵母对应的方格的RGB赋不同的值,使12组声韵母对应的方格显示不同的颜色,如二进制编码000000,000001,000010,000011,000100,000101为1区,即单韵母区,设定R=0.95,G=0.75,B=0.68,颜色为桃红色;二进制编码000110,000111为2区,即yw区,设定R=0,G=0.95,B=0,颜色为绿色;二进制编码001000,001001,001010,001011,001100为3区,即前鼻韵母区,设定R=0.52,G=0.38,B=0.76,颜色为蓝紫色;二进制编码001101,001110,001111为4区,即舌面前音区,设定R=0.25,G=0.52,B=0.18,颜色为深绿色;二进制编码010000,010001,010010为5区,即双唇音区,设定R=0.12,G=0.98,B=0.76,颜色为蓝绿色;二进制编码010011为6区,即唇齿音区,设定R=0,G=0,B=0.55,颜色为蓝色;二进制编码010100,010101,010110,010111为7区,即舌尖中音区,设定R=0.75,G=0,B=0.55,颜色为紫色;二进制编码011000,011001,011010,011011为8区,即后鼻韵母区,设定R=0.75,G=0,B=0,颜色为红色;二进制编码011100,011101,011110,011111为9区,即舌尖后音区,设定R=0.98,G=0.96,B=0,颜色为黄色;二进制编码100000,100001,100010为10区,即舌根音区,设定R=0.87,G=0.87,B=0.79,颜色为灰白色;二进制编码100011,100100,100101为11区,即舌尖前音区,设定R=0.74,G=0.42,B=0,颜色为褐色;二进制编码100110,100111,101000,101001,101010,101011,101100,101101,101110为12区,即复韵母区,设定R=1,G=1,B=1,颜色为白色。
步骤8、信息合成:合成位置信息和颜色信息,当输入某一个声韵母的语音信号综合特征向量时,该声韵母对应的方格显示某种颜色,其余方格显示黑色,实现声韵母的可视化,所述合成位置信息和颜色信息为首先获取输入的声韵母的位置信息,再将相应的方格添加颜色信息,使该声韵母对应的方格显示某种颜色。如图4所示,声母p对应的方格位置在第三行第二列,二进制编码为010001,颜色为蓝绿色。如图5所示,韵母o对应的方格位置在第一行第二列,二进制编码为000001,颜色为桃红色。如图6所示,y与i,w与u两者发音很相似,语谱图也十分类似,很难辨识,而本发明却很容易区分开。
Claims (5)
1.一种基于神经网络的汉语声韵母可视化方法,其特征在于:包括如下步骤:
步骤1、语音信号获取:利用麦克风输入语音数据,并由处理单元采样量化后获得相应的语音信号;
步骤2、语音信号预处理:对获取的语音信号进行预加重、分帧加窗和端点检测;
步骤3、语音信号特征参数提取;
步骤4、PCA降维:利用主成分分析法PCA对上述语音信号特征参数进行降维处理,获得语音信号综合特征向量;
步骤5、神经网络设计:采用三层小波神经网络,其中输入层有12个神经元,隐含层有8个神经元,输出层有6个神经元,利用M个语音信号综合特征向量训练该小波神经网络,期望误差为P,最大迭代次数为Q,若该小波神经网络输出误差小于期望误差或者训练次数达到最大迭代次数,则停止训练小波神经网络,完成神经网络设计;
步骤6、位置信息映射:小波神经网络的输出层有6个神经元,均采用二进制编码,共有64个不同的二进制编码,显示屏上设置64个方格,64个方格排成8行8列,64个二进制编码按照由左到右、由上到下的顺序依次对应8×8个方格,其中前47个二进制编码及前47个二进制编码对应的方格依次对应按照发音特点排序的声韵母aoeiuüywaneninunünjqxbpmfdtnlangengingongzhchshrgkhzcsaieiuiaoouiuieüeer,当某一个声韵母的语音信号综合特征向量输入小波神经网络时,小波神经网络的输出为该声韵母对应的方格的二进制编码,该二进制编码即为该声韵母的位置信息,该声韵母对应的方格被选中;
步骤7、颜色信息获取:根据发音特点或发音部位将47个声韵母划分为12组,并分别将12组声韵母对应的方格的RGB赋不同的值,使12组声韵母对应的方格显示不同的颜色;
步骤8、信息合成:合成位置信息和颜色信息,当输入某一个声韵母的语音信号综合特征向量时,该声韵母对应的方格显示某种颜色,其余方格显示黑色,实现声韵母的可视化。
2.根据权利要求1所述的基于神经网络的汉语声韵母可视化方法,其特征在于:所述步骤3具体步骤如下:
步骤3.1、采用基于Hibert-Huang变换的方法来估算预处理后的语音信号共振峰频率特征,得到每帧信号的共振峰特征值F1,F2,F3,F4;
步骤3.2、计算基于小波包变换的语音信号鲁棒特征参数WPTC:WPTC1~WPTC20;
步骤3.3、计算基于MUSIC和感知特性的鲁棒特征参数PMUSIC-MFCC:PMUSIC-MFCC1~PMUSIC-MFCC12;
步骤3.4、计算Mel频率倒谱系数MFCC:MFCC1~MFCC12。
3.根据权利要求1所述的基于神经网络的汉语声韵母可视化方法,其特征在于:所述步骤1中,处理单元以11.025KHz的采样频率、16bit的量化精度进行采样量化。
4.根据权利要求1所述的基于神经网络的汉语声韵母可视化方法,其特征在于:所述步骤2具体方法如下:预加重是利用一阶数字预加重滤波器实现,预加重滤波器的系数取值范围在0.93-0.97之间,分帧是以帧长256点的标准进行,并对分帧后的语音信号加汉明窗处理,端点检测是利用短时能零积法进行。
5.根据权利要求1所述的基于神经网络的汉语声韵母可视化方法,其特征在于:所述步骤8中信息合成时,合成位置信息和颜色信息为首先获取输入的声韵母的位置信息,再将相应的方格添加颜色信息,使该声韵母对应的方格显示某种颜色。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610121430.8A CN105788608B (zh) | 2016-03-03 | 2016-03-03 | 基于神经网络的汉语声韵母可视化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610121430.8A CN105788608B (zh) | 2016-03-03 | 2016-03-03 | 基于神经网络的汉语声韵母可视化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105788608A true CN105788608A (zh) | 2016-07-20 |
CN105788608B CN105788608B (zh) | 2019-03-26 |
Family
ID=56387776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610121430.8A Expired - Fee Related CN105788608B (zh) | 2016-03-03 | 2016-03-03 | 基于神经网络的汉语声韵母可视化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105788608B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312208A (zh) * | 2020-03-09 | 2020-06-19 | 广州深声科技有限公司 | 一种说话人不相干的神经网络声码器系统 |
CN111599347A (zh) * | 2020-05-27 | 2020-08-28 | 广州科慧健远医疗科技有限公司 | 一种提取病理语音mfcc特征用于人工智能分析的标准化采样方法 |
CN111899724A (zh) * | 2020-08-06 | 2020-11-06 | 中国人民解放军空军预警学院 | 基于希尔伯特黄变换的语音特征系数提取方法及相关设备 |
CN112101462A (zh) * | 2020-09-16 | 2020-12-18 | 北京邮电大学 | 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 |
CN112270406A (zh) * | 2020-11-11 | 2021-01-26 | 浙江大学 | 一种类脑计算机操作系统的神经信息可视化方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
CN102231281A (zh) * | 2011-07-18 | 2011-11-02 | 渤海大学 | 基于集成特征和神经网络的语音可视化方法 |
CN103177733A (zh) * | 2013-03-11 | 2013-06-26 | 哈尔滨师范大学 | 汉语普通话儿化音发音质量评测方法与系统 |
KR20140079937A (ko) * | 2012-12-20 | 2014-06-30 | 엘지전자 주식회사 | 터치 센서를 탑재한 모바일 디바이스 및 그 제어 방법 |
CN104205062A (zh) * | 2012-03-26 | 2014-12-10 | 微软公司 | 剖析数据可视化 |
CN104392728A (zh) * | 2014-11-26 | 2015-03-04 | 东北师范大学 | 一种可实现语音重构的彩色复语谱图构建方法 |
US20150235637A1 (en) * | 2014-02-14 | 2015-08-20 | Google Inc. | Recognizing speech in the presence of additional audio |
-
2016
- 2016-03-03 CN CN201610121430.8A patent/CN105788608B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
CN102231281A (zh) * | 2011-07-18 | 2011-11-02 | 渤海大学 | 基于集成特征和神经网络的语音可视化方法 |
CN104205062A (zh) * | 2012-03-26 | 2014-12-10 | 微软公司 | 剖析数据可视化 |
KR20140079937A (ko) * | 2012-12-20 | 2014-06-30 | 엘지전자 주식회사 | 터치 센서를 탑재한 모바일 디바이스 및 그 제어 방법 |
CN103177733A (zh) * | 2013-03-11 | 2013-06-26 | 哈尔滨师范大学 | 汉语普通话儿化音发音质量评测方法与系统 |
US20150235637A1 (en) * | 2014-02-14 | 2015-08-20 | Google Inc. | Recognizing speech in the presence of additional audio |
CN104392728A (zh) * | 2014-11-26 | 2015-03-04 | 东北师范大学 | 一种可实现语音重构的彩色复语谱图构建方法 |
Non-Patent Citations (2)
Title |
---|
苏敏 等: ""基于模糊粗神经网络的汉语声韵母切分"", 《电声技术》 * |
韩志艳 等: ""基于遗传小波神经网络的语音识别分类器设计"", 《计算机科学》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312208A (zh) * | 2020-03-09 | 2020-06-19 | 广州深声科技有限公司 | 一种说话人不相干的神经网络声码器系统 |
CN111599347A (zh) * | 2020-05-27 | 2020-08-28 | 广州科慧健远医疗科技有限公司 | 一种提取病理语音mfcc特征用于人工智能分析的标准化采样方法 |
CN111599347B (zh) * | 2020-05-27 | 2024-04-16 | 广州科慧健远医疗科技有限公司 | 一种提取病理语音mfcc特征用于人工智能分析的标准化采样方法 |
CN111899724A (zh) * | 2020-08-06 | 2020-11-06 | 中国人民解放军空军预警学院 | 基于希尔伯特黄变换的语音特征系数提取方法及相关设备 |
CN112101462A (zh) * | 2020-09-16 | 2020-12-18 | 北京邮电大学 | 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 |
CN112101462B (zh) * | 2020-09-16 | 2022-04-19 | 北京邮电大学 | 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 |
CN112270406A (zh) * | 2020-11-11 | 2021-01-26 | 浙江大学 | 一种类脑计算机操作系统的神经信息可视化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105788608B (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105788608B (zh) | 基于神经网络的汉语声韵母可视化方法 | |
CN104272382B (zh) | 基于模板的个性化歌唱合成的方法和系统 | |
CN110675891B (zh) | 一种基于多层注意力机制的语音分离方法、模块 | |
CN106653056A (zh) | 基于lstm循环神经网络的基频提取模型及训练方法 | |
CN101916566A (zh) | 一种电子喉语音重建方法及其系统 | |
CN107293286A (zh) | 一种基于网络配音游戏的语音样本收集方法 | |
CN112992121B (zh) | 基于注意力残差学习的语音增强方法 | |
CN111326170B (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
CN112382308A (zh) | 基于深度学习与简单声学特征的零次语音转换系统和方法 | |
CN116364096B (zh) | 一种基于生成对抗网络的脑电信号语音解码方法 | |
CN109452932A (zh) | 一种基于声音的体质辨识方法及设备 | |
CN107274887A (zh) | 基于融合特征mgfcc的说话人二次特征提取方法 | |
Diener et al. | Improving fundamental frequency generation in emg-to-speech conversion using a quantization approach | |
CN102176313A (zh) | 基于共振峰频率的汉语普通话单韵母语音可视化方法 | |
CN117854473B (zh) | 基于局部关联信息的零样本语音合成方法 | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
CN114283822A (zh) | 一种基于伽马通频率倒谱系数的多对一语音转换方法 | |
Healy et al. | Deep learning based speaker separation and dereverberation can generalize across different languages to improve intelligibility | |
CN114842878A (zh) | 一种基于神经网络的语音情感识别方法 | |
CN103077706A (zh) | 对规律性鼓点节奏的音乐进行乐纹特征提取及表示方法 | |
CN102231279B (zh) | 基于听觉关注度的音频质量客观评价系统及方法 | |
CN102231275B (zh) | 一种基于加权混合激励的嵌入式语音合成方法 | |
CN114550701A (zh) | 一种基于深度神经网络的汉语电子喉语音转换装置及方法 | |
CN115985310A (zh) | 一种基于多级视听融合的构音障碍语音识别方法 | |
Yamamoto et al. | Statistical approach to voice quality control in esophageal speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190326 Termination date: 20200303 |