CN1550001A

CN1550001A - 用于语音质量评估的听觉发音分析

Info

Publication number: CN1550001A
Application number: CNA038009382A
Authority: CN
Inventors: 金度锡
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 2002-07-01
Filing date: 2003-06-27
Publication date: 2004-11-24
Also published as: EP1518223A1; KR20050012711A; AU2003253743A1; US20040002852A1; WO2004003889A1; JP2005531811A; JP4551215B2; KR101048278B1; US7165025B2

Abstract

本发明提供了一种用于语音质量评估的听觉发音分析。这种发音分析以对与语音信号中的发音频率范围和非发音频率范围关联的功率进行比较为基础。在这种发音分析中既不用源语音也不用对源语音的估计。这种发音分析包括对一个语音信号的发音功率和非发音功率进行比较和根据比较结果评估语音质量的步骤，其中发音功率和非发音功率分别是与语音信号中的发音频率范围和非发音频率范围关联的功率。

Description

用于语音质量评估的听觉发音分析

技术领域

本本发明与通信系统有关，具体地说与语音质量评估(speechquality assessment)有关。

背景技术

可以测量无线通信系统的性能，其中之一是测量语音质量。在当前的技术中，对于评估语言质量来说，主观语音质量评估(subjectivespeech quality assessment)是最为可靠和普遍接受的方式。在主观语音质量评估中，由一些人类收听者来评估经处理的语音的语音质量，经处理的语音是经例如接收机解码处理的发送语音信号。这种技术是主观的，因为它是以各人的感觉为基础的。然而，主观语音质量评估是一种昂贵和费时的技术，因为为了得到统计上可靠的结果必需有足够多的语音样本和收听者。

客观语音质量评估(Objective speech quality assessment)是另一种评估语音质量的技术。与主观语音质量评估不同，客观语音质量评估不是以各人的感觉为基础。客观语音质量评估可以有两种类型。第一种客观语音质量评估以已知的源语音(source speech)为基础。在第一种客观语音质量评估中，移动台发送从已知的源语音得出(例如通过编码)的语音信号。接收、处理并随后记录该发送语音信号。利用众所周知的语音评估技术，诸如语音质量的感觉评估(Perceptual Evaluation ofSpeech Quality，PESQ)，将所记录的经处理的语音信号与已知的源语音进行比较，确定语音质量。如果不知道源语音信号或者发送语音信号不是从已知的源语音得出，就不能使用第一种客观语音质量评估。

第二种客观语音质量评估不是根据已知的源语音。第二种客观语音质量评估的大多数实施方式涉及根据经处理的语音估计出源语音，然后利用众所周知的语音评估技术将估计的源语音与经处理的语音进行比较。然而，随着经处理的语音的失真增大，估计的源语音的质量下降，从而使第二种客观语音质量评估的这些实施方式不大可靠。

因此，有必要开发一种不用已知的源语音或估计的源语音的客观语音质量评估技术。

发明内容

本发明提供了一种用于语音质量评估的听觉发音分析技术(auditory-articulatory analysis technique)。本发明的发音分析技术以对与语音信号中的发音频率范围和非发音频率范围关联的功率进行比较为基础。在发音分析中既不用源语音也不用对源语音的估计。发音分析包括对一个语音信号的发音功率和非发音功率进行比较和根据比较评估语音质量的步骤，其中发音功率和非发音功率分别是与语音信号中的发音频率范围和非发音频率范围关联的功率。在一个实施例中，发音功率与非发音功率之间的比较是它们之比，发音功率是与2～12.5Hz之间的频率关联的功率，而非发音功率是与大于12.5Hz的频率关联的功率。

附图说明

从以下说明、所附权利要求书和附图可以更好地理解本发明的特征、情况和优点。在这些附图中：

图1示出了按照本发明设计的采用发音分析的语音质量评估设备；

图2示出了按照本发明的一个实施例在一个发音分析模块内处理多个包络a_i(t)的流程图；以及

图3示出了一个例示功率与频率关系的调制频谱A_i(m，f)的例子。

具体实施方式

本发明提供了一种用于语音质量评估的听觉发音分析技术。本发明的发音分析技术以对与语音信号中的发音频率范围和非发音频率范围关联的功率进行比较为基础。在这种发音分析中既不用源语音也不用对源语音的估计。这种发音分析包括对一个语音信号的发音功率和非发音功率进行比较和根据比较评估语音质量的步骤，其中发音功率和非发音功率是分别与语音信号中的发音频率范围和非发音频率范围关联的功率。

图1示出了按照本发明设计的采用发音分析的语音质量评估设备10。语音质量评估设备10包括耳蜗滤波器组(cochlear filterbank)12、包络分析模块14和发音分析模块16。在语音质量评估设备10中，语音信号s(t)提供给耳蜗滤波器组12作为输入。耳蜗滤波器组12包括多个耳蜗滤波器h_i(t)，用来按照第一级外周听觉系统处理语音信号s(t)，其中i＝1，2，...，N_c表示具体的耳蜗滤波器信道，而N_c表示耳蜗滤波器信道的总数。具体地说，耳蜗滤波器组12对语音信号s(t)进行滤波，产生多个临界频带信号(critical band signal)s_i(t)，其中临界频带信号s_i(t)等于s(t)*h_i(t)。

这些临界频带信号s_i(t)提供给包络分析模块14作为输入。在包络分析模块14内，对这些临界频带信号s_i(t)进行处理，得到多个包络a_i(t)，其中

a_{i} (t) = \sqrt{s_{i}^{2} (t) + {\hat{s}}_{i}^{2} (t)},

而

是s_i(t)的Hilbert变换。

然后，这些包络a_i(t)提供给发音分析模块16作为输入。在发音分析模块16内，对这些包络a_i(t)进行处理，得到对语音信号s(t)的语音质量评估。具体地说，发音分析模块16对与人的发音系统产生的信号关联的功率(以下称为“发音功率P_A(m，i)”)和与不是人的发音系统产生的信号关联的功率(以下称为“非发音功率P_NA(m，i)”)进行比较。然后，用这种比较作出语音质量评估。

图2示出了按照本发明的一个实施例在发音分析模块16内处理多个包络a_i(t)的流程图200。在步骤210，对这些包络a_i(t)中的每个包络的帧m执行Fourier变换，产生调制频谱A_i(m，f)，其中f为频率。

图3示出了一个例示功率与频率关系的调制频谱A_i(m，f)的例子30。在例子30中，发音功率P_A(m，i)是与频率为2～12.5Hz关联的功率，而非发音功率P_NA(m，i)是与频率高于12.5Hz关联的功率。与频率低于2Hz关联的功率P_No(m，i)是临界频带信号a_i(t)的帧m的DC分量。在这个例子中，根据人发音的速度为2～12.5Hz而与发音功率P_A(m，i)和非发音功率P_NA(m，i)关联的频率范围(以下分别称为“发音频率范围”和“非发音频率范围”)是相邻而不相叠的频率范围这样的事实，选择发音功率P_A(m，i)用作与频率2～12.5Hz关联的功率。可以理解，对这个申请来说，所谓“发音功率P_A(m，i)”不应该局限于人发音的频率范围或者说上述的频率范围2～12.5Hz。同样，所谓“非发音功率P_NA(m，i)”也不应该将频率范围局限于高于与发音功率P_A(m，i)关联的频率范围。非发音频率范围可以与也可以不与发音频率范围交叠或邻接。非发音频率范围也可以包括低于发音频率范围内最低频率的频率，诸如与临界频带信号a_i(t)的帧m的DC分量关联的那些频率。

在步骤220，对于每个调制频谱A_i(m，f)，发音分析模块16将发音功率P_A(m，i)与非发音功率P_NA(m，i)进行比较。在发音分析模块16的这个实施例中，发音功率P_A(m，i)与非发音功率P_NA(m，i)之间的比较为发音与非发音功率之比ANR(m，i)。ANR由下式定义

ANR (m, i) = \frac{P_{A} (m, i) + ϵ}{P_{NA} (m, i) + ϵ} - - - - (1)

其中ε为某个小常数。发音功率P_A(m，i)与非发音功率P_NA(m，i)之间的其他比较方式也是可行的。例如，比较可以是式(1)的倒数，也可以是发音功率P_A(m，i)与非发音功率P_NA(m，i)之差。为了便于讨论，流程图200所示的发音分析模块16的实施例将就用式(1)的ANR(m，i)进行比较予以讨论。然而，不应将此以任何方式解释为对本发明的限制。

在步骤230，用ANR(m，i)确定帧m的局部语音质量LSQ(m)。局部语音质量LSQ(m)用所有信道i的发音与非发音比ANR(m，i)与一个基于DC分量功率P_No(m，i)的加权系数R(m，i)的总和来确定。具体地说，局部语音质量LSQ(m)用下式确定：

LSQ (m) = \log [Σ_{i = 1}^{N_{c}} ANR (m, i) R (m, i)] - - - - (2)

其中

R (m, i) = \frac{\log (1 + P_{No} (m, i))}{Σ_{k = 1}^{N_{c}} \log (1 + P_{No} (m, k))} - - - - (3)

而k为频率附标。

在步骤240，语音信号s(t)的总体语音质量SQ用帧m的局部语音质量LSQ(m)和对数功率P_s(m)确定。具体地说，语音质量SQ用下式确定：

SQ = L {P_{s} (m) LSQ (m)}_{m = 1}^{T} = [Σ_{m = 1, P_{s} > P_{th}}^{T} P_{s}^{λ} (m) {LSQ}^{λ} (m)]^{\frac{1}{λ}} - - - - (4)

其中：

P_{s} (m) = \log [\underset{t \hat{Im}}{Σ} s^{2} (t)],

L为L_p范数，T为语音信号s(t)内的帧的总数，λ为任何值，而P_th为可听信号与无声的区别门限。在一个实施例中，λ可取地为一个奇整数值。

发音分析模块16的输出是对所有的帧m的语音质量SQ的评估。也就是说，语音质量SQ是对语音信号s(t)的语音质量评估。

虽然以上结合一定的实施例对本发明作了相当详细的说明，但其他实施型式也是可行的。因此，本发明的精神实质和专利保护范围不应局限于在本说明中所说明的这些实施例。

Claims

1.一种执行听觉发音分析的方法，所述方法包括下列步骤：

对一个语音信号的发音功率和非发音功率进行比较，其中发音功率和非发音功率分别是与语音信号的发音频率和非发音频率关联的功率；以及

根据比较结果评估语音质量。

2.权利要求1的方法，其中发音频率大致为2～12.5Hz。

3.权利要求1的方法，其中发音频率大致与人类发音的速度相应。

4.权利要求1的方法，其中非发音频率大致高于发音频率。

5.权利要求1的方法，其中发音功率与非发音功率之间的比较为发音功率与非发音功率之比。

6.权利要求5的方法，其中发音功率与非发音功率之比包括一个分母和一个分子，分子包括发音功率和一个小的常数，分母包括非发音功率加上这个小的常数。

7.权利要求1的方法，其中发音功率与非发音功率之间的比较为发音功率与非发音功率之差。

8.权利要求1的方法，其中评估语音质量的步骤包括下列步骤：

用比较确定局部语音质量。

9.权利要求1的方法，其中还用基于DC分量功率的加权系数确定局部语音质量。

10.权利要求9的方法，其中用局部语音质量确定总体语音质量。

11.权利要求10的方法，其中还用对数功率Ps确定总体语音质量。

12.权利要求1的方法，其中用对数功率Ps确定总体语音质量。

13.权利要求1的方法，其中比较步骤包括下列步骤：

对从多个临界频带信号得到的多个包络中的每个包络执行Fourier变换。

14.权利要求1的方法，其中比较步骤包括下列步骤：

对语音信号进行滤波，以得到多个临界频带信号。

15.权利要求14的方法，其中比较步骤包括下列步骤：

对多个临界频带信号进行包络分析，以得到多个调制频谱。

16.权利要求15的方法，其中比较步骤包括下列步骤：

对多个调制频谱的每个调制频谱进行Fourier变换。