CN102044254A

CN102044254A - 一种用于语音可视化的语谱图彩色增强方法

Info

Publication number: CN102044254A
Application number: CN2009102356433A
Authority: CN
Inventors: 赵胜辉; 董欣玮; 王晶; 匡镜明
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2009-10-10
Filing date: 2009-10-10
Publication date: 2011-05-04
Anticipated expiration: 2029-10-10
Also published as: CN102044254B

Abstract

本发明为一种用于语音可视化的语谱图彩色增强方法，包括对原始语音信号分帧、加窗，提取每帧信号在各个特征频带内的短时能量值；将语音信号的有效频带平均分为N个特征频带，分别计算每帧语音信号在N个特征频带内的能量值；以各个特征频带内的能量值为参数对相应特征频带预先设定的色彩饱和度进行修正；对N个频带内的能量值进行归一化处理；利用归一化后的能量值对N特征频带既定色彩的饱和度进行修正；将语音信号N个特征频带的修正后的色相、饱和度、亮度利用色彩学转换公式转化为RGB三原色值；绘制直方图。本发明语音信号色彩生成模块，通过不同色彩反映语音信号频谱的能量集中区域，易于辨识；动态反映出发音的帧间变化，符合发音规律。

Description

一种用于语音可视化的语谱图彩色增强方法

技术领域

本发明涉及一种用于语音可视化的语谱图彩色增强方法，属于语音可视化领域。

背景技术

语音是人说话时发出的声音，在人们的日常生活中是不可或缺的。但对于听力障碍者而言，无法通过听觉感知语音，造成正常人难以体会的痛苦。研究表明，在人们对外界的感知过程中，获取信息最多的是视觉，其次才是听觉，而且视觉和听觉的结合比任何单一感官所感知的信息都要多。另外，经验告诉我们，图表是人们表达思想、理解事物最方便、最直观的方法，所以人们也试图从视觉上来感知语音，或者利用视觉和听觉的结合来传递更多的有用信息。本发明的目的就是探索和寻找一种语音的可视化方法，即利用视觉元素来表现语音，达到“通过视觉感知语音”的目的，为听力障碍者理解语音、练习正确发音提供实际帮助。

本发明之前，很多语音可视化方法很多都是基于人脸模型。这种方法对发音口型进行定性或定量的描述。定性描述如圆唇、扁唇、开口的大小，舌位的高低等等。现在许多应用领域需要对视觉语音进行客观上的定量度量，如虚拟人脸合成、机器自动唇读等等。MPEG-4更是定义了人脸动画参数FAP(facialanimation parameter)。FAP参数的优点使它已经成为人脸动画的国际标准。

基于发音器官的运动变化、人脸的表情来实现语音可视化的方法较为人性化，有效剖析了人体的发音过程，有助于听力受损人群练习发音。然而，就其语音可懂度而言，还难以达到理想效果，除极少数专家以外，人们很难直接通过观察发音器官的运动而准确、有效的感知语音。此外，视觉效果比较单一，表现力不强。

发明内容

本发明为了克服上述缺点，提供一种用于语音可视化的语谱图彩色增强方法，能够利用不同色彩表示语音信号的频谱结构，以图像的方式在视觉上表示语音，无论听力受损人群还是普通人，在一个相对较短的训练之后，都可以分辨出不同发音。

本发明的技术方案是：

一种用于语音可视化的语谱图彩色增强方法，包括以下步骤：

第一步：对原始语音信号分帧、加窗，提取每帧信号在各个特征频带内的短时能量值；

第二步：将语音信号的有效频带平均分为N个特征频带，分别计算每帧语音信号在N个特征频带内的能量值；

E_{m} = Σ_{n = m}^{m + N - 1} {s_{w}}^{2} (n) - - - (1)

其中，m是窗的起点，N是窗长(点数)；

第三步：以各个特征频带内的能量值为参数对相应特征频带预先设定的色彩饱和度进行修正；对N个频带内的能量值进行归一化处理；

第四步：利用归一化后的能量值对N特征频带既定色彩的饱和度进行修正；

第五步：将语音信号N个特征频带的修正后的色相、饱和度、亮度利用色彩学转换公式转化为RGB三原色值；

第六步：绘制直方图，横轴为时间轴，以帧为单位，纵轴为1-N，表示相应的N个特征频带，对每帧的N个特征频带进行着色，其色彩为修正饱和度之后所对应的RGB配色。

上述第三步中归一化处理时利用的最大值为第2-第12个频带的能量最大值E_m。如果第1个能带的能量大于E_m，则直接将其归一化后的数值直接置1，即：

E_m＝max(E₂:E₁₂) (2)

{E_{1}}^{'} = \{\begin{matrix} E_{1}, & E_{1} < E_{m} \\ 1, & E_{1} &GreaterEqual; E_{m} \end{matrix} - - - (3)

{E_{i}}^{'} = \frac{E_{i}}{E_{m}}, i = 2 - 12 - - - (4)

上述第四步中修正的方法为将色彩饱和度的最大乘以相应频带归一化后的能量值E_i′，其中i＝1-N；修正后，能量越小的频带色彩饱和度越低。

本发明的有益效果为：

1.提取参数简单，易于实现；

2.语音信号色彩生成模块，通过不同色彩反映语音信号频谱的能量集中区域，易于辨识；

3.动态反映出发音的帧间变化，符合发音规律；

4.引入软判决，对于每个发音不做硬性判决，而是采用不同色彩表示，不同发音人同一个音的可视化效果求大同而存小异，这使得对于发音的判决更符合人的主观感知。

附图说明

图1为用于语音可视化的语谱图彩色增强系统框图。

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。

如图1所示，是一种用于语音可视化的语谱图彩色增强方法系统框图，主要分为三大块：特征参数提取模块，色彩生成模块和可视化效果图形生成模块。

一、特征参数提取模块：

首先对原始语音信号分帧、加窗之后，提取每帧信号在各个特征频带内的短时能量值。

(1).将语音信号的有效频带平均分为12个特征频带。例如，采样率为16KHz，有效频带为0-8KHz，则12个特征频带依次为：0-666.67Hz、666.67-1333.33Hz、1333.33-2000Hz、2000Hz-2666.67Hz、2666.67-3333.33Hz、3333.33-4000Hz、4000Hz-4666.67Hz、4666.67-5333.33Hz、5333.33-6000Hz、6000Hz-6666.67Hz、6666.67Hz-7333.33Hz、7333.33-8000Hz。分别计算每帧语音信号在这12个特征频带内的能量值。

(2).语音信号的短时能量：

E_{m} = Σ_{n = m}^{m + N - 1} {s_{w}}^{2} (n) - - - (1)

其中，m是窗的起点，N是窗长(点数)。

二、色彩生成模块：

(1).对12个频带内的能量值进行归一化处理。由于第1个频带(低频)内的能量通常远大于其它能带，为了达到较好视觉效果，在此，归一化时利用的最大值为第2-第12个频带的能量最大值E_m。如果第1个能带的能量大于E_m，则直接将其归一化后的数值直接置1。即：

E_m＝max(E₂:E₁₂) (2)

{E_{1}}^{'} = \{\begin{matrix} E_{1}, & E_{1} < E_{m} \\ 1, & E_{1} &GreaterEqual; E_{m} \end{matrix} - - - (3)

{E_{i}}^{'} = \frac{E_{i}}{E_{m}}, i = 2 - 12 - - - (4)

(2).设定12个特征频带的初始色彩。

颜色空间是由颜色的三个参数组成的颜色三维空间。三个参数在对应的三维空间用色量的均匀变化互相交织起来，构成一个理想的颜色空间。同一种颜色在不同坐标系下具有不同的表达方法。如：RGB，HSB。

RGB颜色立方体是利用色光三原色来描述物体颜色特征的。在计算机图像处理软件和图像处理软件的色彩管理系统中，RGB颜色模式是扫描仪、显示器所使用的颜色系统，是一个与设备相关的颜色空间。

HSB是基于人对颜色的感觉，而不是RGB的计算机值。HSB系统里将颜色看做由色相(hue)、饱和度(saturation)、亮度(brightness)组成的。横轴表示不同的色相，纵轴表示饱和度，由上至下色彩饱和度由240逐渐降至0。不论色相、饱和度为何值，亮度为最大值240时均表现为白色，亮度为0时表现为黑色。

首先用RGB数值绘制12个特征频带的初始色彩，并计算出对应的HSB数值，分别如表1、表2所示。

表1

频带	R	G	B
				1	255	0	127.5
2	255	0	255
				3	127.5	0	255

4	0	0	255
				5	0	127.5	255
6	0	255	255
				7	0	255	127.5
8	0	255	0
				9	127.5	255	0
10	255	255	0
				11	255	127.5	0
12	255	0	0

表2

频带	H	S	B
				1	220	240	120
2	200	240	120
				3	180	240	120
4	160	240	120
				5	140	240	120
6	120	240	120
				7	100	240	120
8	80	240	120
				9	60	240	120
10	40	240	120

11	20	240	120
				12	0	240	120

之后，利用归一化后的能量值对12个特征频带既定色彩的饱和度进行修正。具体方法为：既定色彩饱和度均为最大值240，将其乘以相应频带归一化后的能量值E_i′，i＝1-12。修正后的各个频带色彩饱和度取值范围为0-240。能量最大的频带饱和度仍为最大值240不变，能量越小的频带色彩饱和度越低。

三、可视化效果实现模块：

利用12种色彩反映语音信号的频谱结构，使其具有良好的视觉分辨效果。

(1).将语音信号12个特征频带的修正后的色相、饱和度、亮度(HSB)利用色彩学转换公式转化为RGB三原色值。

(2)语音信号可视化效果的实现：绘制直方图，横轴为时间轴，以帧为单位。纵轴为1-12，表示相应的12个特征频带。对每帧的12个特征频带进行着色，其色彩为修正饱和度之后所对应的RGB配色。

汉语普通声母的不同发音部位决定了其各自不同的能量集中区域，因此，通过系统所得可视化效果图有效辨别不同发音。

以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解，依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种用于语音可视化的语谱图彩色增强方法，其特征在于：包括以下步骤：

E_{m} = Σ_{n = m}^{m + N - 1} {s_{w}}^{2} (n) - - - (1)

其中，m是窗的起点，N是窗长(点数)；

2.根据权利要求1所述的一种用于语音可视化的语谱图彩色增强方法，其特征在于：上述第三步中归一化处理时利用的最大值为第2-第N个频带的能量最大值E_m，如果第1个能带的能量大于E_m，则直接将其归一化后的数值直接置1，即：

E_m＝max(E₂:E₁₂) (2)

{E_{1}}^{'} = \{\begin{matrix} E_{1}, & E_{1} < E_{m} \\ 1, & E_{1} &GreaterEqual; E_{m} \end{matrix} - - - (3)

{E_{i}}^{'} = \frac{E_{i}}{E_{m}}, i = 2 - 12 - - - (4)

3.根据权利要求1或2所述的一种用于语音可视化的语谱图彩色增强方法，其特征在于：上述第四步中修正的方法为将色彩饱和度的最大乘以相应频带归一化后的能量值E_i′，其中i＝1-N；修正后，能量越小的频带色彩饱和度越低。