CN102044254A - 一种用于语音可视化的语谱图彩色增强方法 - Google Patents
一种用于语音可视化的语谱图彩色增强方法 Download PDFInfo
- Publication number
- CN102044254A CN102044254A CN2009102356433A CN200910235643A CN102044254A CN 102044254 A CN102044254 A CN 102044254A CN 2009102356433 A CN2009102356433 A CN 2009102356433A CN 200910235643 A CN200910235643 A CN 200910235643A CN 102044254 A CN102044254 A CN 102044254A
- Authority
- CN
- China
- Prior art keywords
- energy
- color
- band
- frequency band
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Spectrometry And Color Measurement (AREA)
Abstract
本发明为一种用于语音可视化的语谱图彩色增强方法,包括对原始语音信号分帧、加窗,提取每帧信号在各个特征频带内的短时能量值;将语音信号的有效频带平均分为N个特征频带,分别计算每帧语音信号在N个特征频带内的能量值;以各个特征频带内的能量值为参数对相应特征频带预先设定的色彩饱和度进行修正;对N个频带内的能量值进行归一化处理;利用归一化后的能量值对N特征频带既定色彩的饱和度进行修正;将语音信号N个特征频带的修正后的色相、饱和度、亮度利用色彩学转换公式转化为RGB三原色值;绘制直方图。本发明语音信号色彩生成模块,通过不同色彩反映语音信号频谱的能量集中区域,易于辨识;动态反映出发音的帧间变化,符合发音规律。
Description
技术领域
本发明涉及一种用于语音可视化的语谱图彩色增强方法,属于语音可视化领域。
背景技术
语音是人说话时发出的声音,在人们的日常生活中是不可或缺的。但对于听力障碍者而言,无法通过听觉感知语音,造成正常人难以体会的痛苦。研究表明,在人们对外界的感知过程中,获取信息最多的是视觉,其次才是听觉,而且视觉和听觉的结合比任何单一感官所感知的信息都要多。另外,经验告诉我们,图表是人们表达思想、理解事物最方便、最直观的方法,所以人们也试图从视觉上来感知语音,或者利用视觉和听觉的结合来传递更多的有用信息。本发明的目的就是探索和寻找一种语音的可视化方法,即利用视觉元素来表现语音,达到“通过视觉感知语音”的目的,为听力障碍者理解语音、练习正确发音提供实际帮助。
本发明之前,很多语音可视化方法很多都是基于人脸模型。这种方法对发音口型进行定性或定量的描述。定性描述如圆唇、扁唇、开口的大小,舌位的高低等等。现在许多应用领域需要对视觉语音进行客观上的定量度量,如虚拟人脸合成、机器自动唇读等等。MPEG-4更是定义了人脸动画参数FAP(facialanimation parameter)。FAP参数的优点使它已经成为人脸动画的国际标准。
基于发音器官的运动变化、人脸的表情来实现语音可视化的方法较为人性化,有效剖析了人体的发音过程,有助于听力受损人群练习发音。然而,就其语音可懂度而言,还难以达到理想效果,除极少数专家以外,人们很难直接通过观察发音器官的运动而准确、有效的感知语音。此外,视觉效果比较单一,表现力不强。
发明内容
本发明为了克服上述缺点,提供一种用于语音可视化的语谱图彩色增强方法,能够利用不同色彩表示语音信号的频谱结构,以图像的方式在视觉上表示语音,无论听力受损人群还是普通人,在一个相对较短的训练之后,都可以分辨出不同发音。
本发明的技术方案是:
一种用于语音可视化的语谱图彩色增强方法,包括以下步骤:
第一步:对原始语音信号分帧、加窗,提取每帧信号在各个特征频带内的短时能量值;
第二步:将语音信号的有效频带平均分为N个特征频带,分别计算每帧语音信号在N个特征频带内的能量值;
其中,m是窗的起点,N是窗长(点数);
第三步:以各个特征频带内的能量值为参数对相应特征频带预先设定的色彩饱和度进行修正;对N个频带内的能量值进行归一化处理;
第四步:利用归一化后的能量值对N特征频带既定色彩的饱和度进行修正;
第五步:将语音信号N个特征频带的修正后的色相、饱和度、亮度利用色彩学转换公式转化为RGB三原色值;
第六步:绘制直方图,横轴为时间轴,以帧为单位,纵轴为1-N,表示相应的N个特征频带,对每帧的N个特征频带进行着色,其色彩为修正饱和度之后所对应的RGB配色。
上述第三步中归一化处理时利用的最大值为第2-第12个频带的能量最大值Em。如果第1个能带的能量大于Em,则直接将其归一化后的数值直接置1,即:
Em=max(E2:E12) (2)
上述第四步中修正的方法为将色彩饱和度的最大乘以相应频带归一化后的能量值Ei′,其中i=1-N;修正后,能量越小的频带色彩饱和度越低。
本发明的有益效果为:
1.提取参数简单,易于实现;
2.语音信号色彩生成模块,通过不同色彩反映语音信号频谱的能量集中区域,易于辨识;
3.动态反映出发音的帧间变化,符合发音规律;
4.引入软判决,对于每个发音不做硬性判决,而是采用不同色彩表示,不同发音人同一个音的可视化效果求大同而存小异,这使得对于发音的判决更符合人的主观感知。
附图说明
图1为用于语音可视化的语谱图彩色增强系统框图。
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。
如图1所示,是一种用于语音可视化的语谱图彩色增强方法系统框图,主要分为三大块:特征参数提取模块,色彩生成模块和可视化效果图形生成模块。
一、特征参数提取模块:
首先对原始语音信号分帧、加窗之后,提取每帧信号在各个特征频带内的短时能量值。
(1).将语音信号的有效频带平均分为12个特征频带。例如,采样率为16KHz,有效频带为0-8KHz,则12个特征频带依次为:0-666.67Hz、666.67-1333.33Hz、1333.33-2000Hz、2000Hz-2666.67Hz、2666.67-3333.33Hz、3333.33-4000Hz、4000Hz-4666.67Hz、4666.67-5333.33Hz、5333.33-6000Hz、6000Hz-6666.67Hz、6666.67Hz-7333.33Hz、7333.33-8000Hz。分别计算每帧语音信号在这12个特征频带内的能量值。
(2).语音信号的短时能量:
其中,m是窗的起点,N是窗长(点数)。
二、色彩生成模块:
(1).对12个频带内的能量值进行归一化处理。由于第1个频带(低频)内的能量通常远大于其它能带,为了达到较好视觉效果,在此,归一化时利用的最大值为第2-第12个频带的能量最大值Em。如果第1个能带的能量大于Em,则直接将其归一化后的数值直接置1。即:
Em=max(E2:E12) (2)
(2).设定12个特征频带的初始色彩。
颜色空间是由颜色的三个参数组成的颜色三维空间。三个参数在对应的三维空间用色量的均匀变化互相交织起来,构成一个理想的颜色空间。同一种颜色在不同坐标系下具有不同的表达方法。如:RGB,HSB。
RGB颜色立方体是利用色光三原色来描述物体颜色特征的。在计算机图像处理软件和图像处理软件的色彩管理系统中,RGB颜色模式是扫描仪、显示器所使用的颜色系统,是一个与设备相关的颜色空间。
HSB是基于人对颜色的感觉,而不是RGB的计算机值。HSB系统里将颜色看做由色相(hue)、饱和度(saturation)、亮度(brightness)组成的。横轴表示不同的色相,纵轴表示饱和度,由上至下色彩饱和度由240逐渐降至0。不论色相、饱和度为何值,亮度为最大值240时均表现为白色,亮度为0时表现为黑色。
首先用RGB数值绘制12个特征频带的初始色彩,并计算出对应的HSB数值,分别如表1、表2所示。
表1
频带 | R | G | B |
1 | 255 | 0 | 127.5 |
2 | 255 | 0 | 255 |
3 | 127.5 | 0 | 255 |
4 | 0 | 0 | 255 |
5 | 0 | 127.5 | 255 |
6 | 0 | 255 | 255 |
7 | 0 | 255 | 127.5 |
8 | 0 | 255 | 0 |
9 | 127.5 | 255 | 0 |
10 | 255 | 255 | 0 |
11 | 255 | 127.5 | 0 |
12 | 255 | 0 | 0 |
表2
频带 | H | S | B |
1 | 220 | 240 | 120 |
2 | 200 | 240 | 120 |
3 | 180 | 240 | 120 |
4 | 160 | 240 | 120 |
5 | 140 | 240 | 120 |
6 | 120 | 240 | 120 |
7 | 100 | 240 | 120 |
8 | 80 | 240 | 120 |
9 | 60 | 240 | 120 |
10 | 40 | 240 | 120 |
11 | 20 | 240 | 120 |
12 | 0 | 240 | 120 |
之后,利用归一化后的能量值对12个特征频带既定色彩的饱和度进行修正。具体方法为:既定色彩饱和度均为最大值240,将其乘以相应频带归一化后的能量值Ei′,i=1-12。修正后的各个频带色彩饱和度取值范围为0-240。能量最大的频带饱和度仍为最大值240不变,能量越小的频带色彩饱和度越低。
三、可视化效果实现模块:
利用12种色彩反映语音信号的频谱结构,使其具有良好的视觉分辨效果。
(1).将语音信号12个特征频带的修正后的色相、饱和度、亮度(HSB)利用色彩学转换公式转化为RGB三原色值。
(2)语音信号可视化效果的实现:绘制直方图,横轴为时间轴,以帧为单位。纵轴为1-12,表示相应的12个特征频带。对每帧的12个特征频带进行着色,其色彩为修正饱和度之后所对应的RGB配色。
汉语普通声母的不同发音部位决定了其各自不同的能量集中区域,因此,通过系统所得可视化效果图有效辨别不同发音。
以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解,依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
Claims (3)
1.一种用于语音可视化的语谱图彩色增强方法,其特征在于:包括以下步骤:
第一步:对原始语音信号分帧、加窗,提取每帧信号在各个特征频带内的短时能量值;
第二步:将语音信号的有效频带平均分为N个特征频带,分别计算每帧语音信号在N个特征频带内的能量值;
其中,m是窗的起点,N是窗长(点数);
第三步:以各个特征频带内的能量值为参数对相应特征频带预先设定的色彩饱和度进行修正;对N个频带内的能量值进行归一化处理;
第四步:利用归一化后的能量值对N特征频带既定色彩的饱和度进行修正;
第五步:将语音信号N个特征频带的修正后的色相、饱和度、亮度利用色彩学转换公式转化为RGB三原色值;
第六步:绘制直方图,横轴为时间轴,以帧为单位,纵轴为1-N,表示相应的N个特征频带,对每帧的N个特征频带进行着色,其色彩为修正饱和度之后所对应的RGB配色。
2.根据权利要求1所述的一种用于语音可视化的语谱图彩色增强方法,其特征在于:上述第三步中归一化处理时利用的最大值为第2-第N个频带的能量最大值Em,如果第1个能带的能量大于Em,则直接将其归一化后的数值直接置1,即:
Em=max(E2:E12) (2)
3.根据权利要求1或2所述的一种用于语音可视化的语谱图彩色增强方法,其特征在于:上述第四步中修正的方法为将色彩饱和度的最大乘以相应频带归一化后的能量值Ei′,其中i=1-N;修正后,能量越小的频带色彩饱和度越低。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102356433A CN102044254B (zh) | 2009-10-10 | 2009-10-10 | 一种用于语音可视化的语谱图彩色增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102356433A CN102044254B (zh) | 2009-10-10 | 2009-10-10 | 一种用于语音可视化的语谱图彩色增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102044254A true CN102044254A (zh) | 2011-05-04 |
CN102044254B CN102044254B (zh) | 2012-11-07 |
Family
ID=43910334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102356433A Expired - Fee Related CN102044254B (zh) | 2009-10-10 | 2009-10-10 | 一种用于语音可视化的语谱图彩色增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102044254B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231281A (zh) * | 2011-07-18 | 2011-11-02 | 渤海大学 | 基于集成特征和神经网络的语音可视化方法 |
CN104392728A (zh) * | 2014-11-26 | 2015-03-04 | 东北师范大学 | 一种可实现语音重构的彩色复语谱图构建方法 |
CN104637497A (zh) * | 2015-01-16 | 2015-05-20 | 南京工程学院 | 一种面向语音情感识别的语谱特征提取方法 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN109346105A (zh) * | 2018-07-27 | 2019-02-15 | 南京理工大学 | 直接显示基音周期轨迹的基音周期谱图方法 |
WO2019095801A1 (zh) * | 2017-11-14 | 2019-05-23 | 上海电机学院 | 一种基于声音mfcc特征的交互式绘画方法和装置 |
CN113257232A (zh) * | 2021-07-07 | 2021-08-13 | 深圳市声扬科技有限公司 | 语谱图的生成方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070168187A1 (en) * | 2006-01-13 | 2007-07-19 | Samuel Fletcher | Real time voice analysis and method for providing speech therapy |
US20080271590A1 (en) * | 2007-04-20 | 2008-11-06 | Lemons Kenneth R | System and method for speech therapy |
CN101356796A (zh) * | 2006-01-06 | 2009-01-28 | 奥拉蒂夫公司 | 移动系统中企业语音邮件的集成 |
US20090033622A1 (en) * | 2007-05-30 | 2009-02-05 | 24/8 Llc | Smartscope/smartshelf |
-
2009
- 2009-10-10 CN CN2009102356433A patent/CN102044254B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101356796A (zh) * | 2006-01-06 | 2009-01-28 | 奥拉蒂夫公司 | 移动系统中企业语音邮件的集成 |
US20070168187A1 (en) * | 2006-01-13 | 2007-07-19 | Samuel Fletcher | Real time voice analysis and method for providing speech therapy |
US20080271590A1 (en) * | 2007-04-20 | 2008-11-06 | Lemons Kenneth R | System and method for speech therapy |
US20090033622A1 (en) * | 2007-05-30 | 2009-02-05 | 24/8 Llc | Smartscope/smartshelf |
Non-Patent Citations (2)
Title |
---|
李刚等: "面向残疾人的汉语可视语音数据库", 《中国生物医学工程学报》 * |
王志明等: "基于数据驱动方法的汉语文本-可视语音合成(英文)", 《软件学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231281A (zh) * | 2011-07-18 | 2011-11-02 | 渤海大学 | 基于集成特征和神经网络的语音可视化方法 |
CN102231281B (zh) * | 2011-07-18 | 2012-07-18 | 渤海大学 | 基于集成特征和神经网络的语音可视化方法 |
CN104392728A (zh) * | 2014-11-26 | 2015-03-04 | 东北师范大学 | 一种可实现语音重构的彩色复语谱图构建方法 |
CN104392728B (zh) * | 2014-11-26 | 2017-04-19 | 东北师范大学 | 一种可实现语音重构的彩色复语谱图构建方法 |
CN104637497A (zh) * | 2015-01-16 | 2015-05-20 | 南京工程学院 | 一种面向语音情感识别的语谱特征提取方法 |
WO2019095801A1 (zh) * | 2017-11-14 | 2019-05-23 | 上海电机学院 | 一种基于声音mfcc特征的交互式绘画方法和装置 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN108010514B (zh) * | 2017-11-20 | 2021-09-10 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN109346105A (zh) * | 2018-07-27 | 2019-02-15 | 南京理工大学 | 直接显示基音周期轨迹的基音周期谱图方法 |
CN109346105B (zh) * | 2018-07-27 | 2022-04-15 | 南京理工大学 | 直接显示基音周期轨迹的基音周期谱图方法 |
CN113257232A (zh) * | 2021-07-07 | 2021-08-13 | 深圳市声扬科技有限公司 | 语谱图的生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102044254B (zh) | 2012-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102044254B (zh) | 一种用于语音可视化的语谱图彩色增强方法 | |
US20200178883A1 (en) | Method and system for articulation evaluation by fusing acoustic features and articulatory movement features | |
CN102231281B (zh) | 基于集成特征和神经网络的语音可视化方法 | |
CN107301863A (zh) | 一种聋哑儿童言语障碍康复方法及康复训练系统 | |
CN104205221B (zh) | 音频信号输出方法及其装置、音频信号的音量调整方法 | |
JP2017502732A (ja) | 少なくとも1つの顔の臨床徴候を評価するためのプロセス | |
CN102509084A (zh) | 一种基于多示例学习的恐怖视频场景识别方法 | |
CN105788608B (zh) | 基于神经网络的汉语声韵母可视化方法 | |
TWI294107B (en) | A pronunciation-scored method for the application of voice and image in the e-learning | |
CN101894566A (zh) | 一种基于共振峰频率的汉语普通话复韵母可视化方法 | |
CN107170468A (zh) | 一种基于两层模型的多声道音频质量评价方法 | |
Tulics et al. | Phonetic-class based correlation analysis for severity of dysphonia | |
CN101727896B (zh) | 以感知参数为基础的客观语音质量估测方法 | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
CN102820037B (zh) | 基于组合特征的汉语声韵母可视化方法 | |
Cielo et al. | Quality of life in voice, perceptual-auditory assessment and voice acoustic analysis of teachers with vocal complaints | |
CN108428458A (zh) | 一种声乐学习电子辅助发音系统 | |
Watanabe et al. | Sentiment analysis of color attributes derived from vowel sound impression for multimodal expression | |
Lay et al. | The application of extension neuro-network on computer-assisted lip-reading recognition for hearing impaired | |
Cielo et al. | Spectrographic voice measures, vocal complaints and occupational data of elementary school teachers | |
Gurlekian et al. | A perceptual method to rate dysphonic voices | |
US10964308B2 (en) | Speech processing apparatus, and program | |
Erickson et al. | The MARRYS cap: A new method for analyzing and teaching the importance of jaw movements in speech production | |
Huet et al. | Shape retrieval by inexact graph matching | |
Havenhill | Maintenance of the COT-CAUGHT contrast among metro Detroit speakers: A multimodal articulatory analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121107 Termination date: 20141010 |
|
EXPY | Termination of patent right or utility model |