CN1514931A

CN1514931A - 语音信号内插的装置、方法和程序

Info

Publication number: CN1514931A
Application number: CNA038003449A
Authority: CN
Inventors: 佐藤宁
Original assignee: Kenwood KK
Current assignee: JVCKenwood Corp
Priority date: 2002-06-07
Filing date: 2003-05-28
Publication date: 2004-07-21
Anticipated expiration: 2023-05-28
Also published as: EP1512952B1; DE60328686D1; US20040153314A1; US20070271091A1; DE03730668T1; EP1512952A4; CN1333383C; WO2003104760A1; EP1512952A1; US7676361B2; US7318034B2; JP3881932B2; JP2004012908A

Abstract

本发明提供了一种语音信号内插装置，其能从语音压缩状态恢复自然人声并保持高的音质。当表征将被内插的语音的语音信号由语音数据输入单元1获得时，基音获得单元2对这个语音信号进行滤波以从滤波结果确定音长。音长固定单元3使语音信号具有对应单位基音的段的恒定时长，并产生基音波形数据。子带分割单元4转换基音波形数据为表征频谱的子带数据。多个子带数据被平均单元5进行平均，然后，子带合成单元6转换子带数据为表征子带合成单元6的语音波形的信号。每段的时长由基音恢复单元7恢复，并且声音输出单元8重放信号表示的声音。

Description

语音信号内插的装置、方法和程序

技术领域

本发明涉及一种语音信号内插的装置、方法和程序。

背景技术

如今音乐节目等通过有线或射频广播或通信广泛地分布。如果频带太宽，为了广播音乐等类似的节目，防止音乐数据量过大并拓宽所占频带是很重要的。为避免这个问题，音乐数据在利用结合在频率掩蔽方法的语音压缩格式进行压缩后被分布，比如MP3(MPEG1音频层3)格式和AAC(高级音频编码)格式。

频率掩蔽方法是利用一种现象来压缩语音的，该现象即人类很难听到低级声音信号的频谱成分，所述低级声音信号的频率接近高级声音信号的频谱成分。

图4(b)表示利用频率掩蔽方法压缩如图4(a)所示的频谱的原始声音的结果图，(图4(a)表示获得由以MP3格式压缩人类产生的语音的频谱的一个示例)。

如图所示，如同由频率掩蔽方法压缩的语音，一般具有2KHz或者更高的频率的成分大量丢失，甚至接近提供频谱峰值的、低于2KHz的成分(语音的基频成分和谐波成分的频谱)也大量丢失。

在日本未决的公开号为2001-356788专利公开的方法中，内插压缩的语音频谱来获得原始语音频谱。根据这个方法，内插频带是从压缩后的频谱剩余中获得，表示与在内插频带中相同的分布的频谱成分被插入到由于压缩而丢失频谱成分的频带，以使匹配整个频谱的包络线。

如果用日本未决的公开号为2001-356788专利所公开的方法内插图4(b)所示的频谱，可获得如图4(c)所示的频谱，其与原始语音的频谱很不相同。即使具有这样频谱的语音被重放，只会获得非常不自然的语音。这个问题一般与由人类产生的并用这个方法压缩的语音有关。

本发明是在上述环境下产生的，且本发明的目的在于提供一种频率内插装置和方法来从压缩的语音中恢复人声并保持高的音质。

发明内容

为实现上述目的，根据本发明第一方面，提供了一种语音信号内插装置，其包括：

基音波形信号产生装置，用来获取代表语音波形的输入语音信号并且使与所述的输入语音信号的单位基音对应的一段时长充分相同，以将所述的输入语音信号转换为基音波形信号；

频谱获得装置，用来根据基音波形信号产生代表所述输入语音信号频谱的数据；

平均装置，用来根据由所述频谱获得装置产生的多个数据，产生代表所述输入语音信号的各个频谱成分平均值分布的平均数据；和

语音信号恢复装置，用来产生输出语音信号，其代表具有由所述平均装置产生的平均数据表征的频谱的语音。

所述的基音波形信号产生装置包括：

可变滤波器，它的频率特征被控制为可变的，可变滤波器对所述输入语音信号进行滤波以获得输入语音的基频成分；

滤波器特征确定装置，用于根据所述可变滤波器获得的基频成分来识别输入语音的基频、并控制所述可变滤波器使得频率特征截止除了在识别的基频附近的频率分量之外的频率成分；

基音获得装置，用来根据由所述可变滤波器获得的基频成分值，分割所述输入语音信号成在与单位基音相应的段内的一语音信号；和

音长固定装置，用来通过以充分相同的采样数目来采样所述输入语音信号的每段来产生基音波形信号，该基音波形信号具有在每段中充分相同的时长。

所述滤波器特征确定装置可包括交叉检测装置，用来识别所述可变滤波器获得的基频成分达到预定值的定时周期，并根据所述识别的周期来识别基频。

所述滤波器特征确定装置可包括：

平均基音检测装置，用来根据所述输入语音信号、在被滤波前检测所述输入语音信号代表的语音的基音的时长；和

判断装置，判断所述交叉检测装置识别的周期和所述平均基音检测装置识别的基音的时长是否彼此相差一个预定量或更多，如果判断所述周期和所述时长相同，控制所述可变滤波器使得频率特征截止除了由所述交叉检测装置识别的基频附近的频率分量之外的频率成分，而如果判断周期和时长是不同，控制所述可变滤波器使得频率特征截止除了从由所述平均基音检测装置识别的基音时长中识别的基频附近的频率分量之外的频率成分。

所述平均基音检测装置包括：

倒频谱分析装置，用来计算由所述可变滤波器滤波前的输入语音信号的倒频谱具有最大值处的频率；

自相关分析装置，用来计算由所述可变滤波器滤波前的输入语音信号的周期图具有最大值处的频率；

平均计算装置，用来根据所述倒频谱分析装置和所述自相关分析装置计算的频率，计算所述输入语音信号表示的语音的基音平均值，并识别所述已计算的平均值作为语音的基音的时长。

根据本发明的第二方面，提供了一种语音信号内插方法，其包括步骤：

获取代表语音波形的输入语音信号，并且使与所述的输入语音信号的单位基音对应的一段的时长充分相同，以将所述的输入语音信号转换为基音波形信号；

根据所述基音波形信号来产生代表所述输入语音信号频谱的数据；

根据多个数据，产生代表所述输入语音信号各个的频谱成分的平均值分布的频谱的平均数据；和

产生输出语音信号，其具有由所述平均数据表征的频谱的语音。

根据本发明的第三方面，提供一种用于使计算机进行如下操作的程序：

基音波形信号产生装置，用来获取代表语音波形的输入语音信号，并且使与所述的输入语音信号的单位基音对应的一段的时长充分相同，以将所述的输入语音信号转换为基音波形信号；

频谱获得装置，用来根据所述基音波形信号产生代表所述输入语音信号的频谱的数据；

平均装置，用来根据由所述频谱获得装置产生的多个数据，产生代表所述输入语音信号的各个频谱成分平均值分布的频谱的平均数据；和

语音信号恢复装置，用来产生输出语音信号，其具有由所述平均装置产生的平均数据表征的频谱的语音。

附图说明

图1表示根据本发明一实施例的语音信号内插装置的结构图；

图2表示基音获得单元的结构框图；

图3表示平均单元的结构框图；

图4(a)表示原始语音频谱一示例图，图4(b)表示利用频率掩蔽方法压缩图4(a)所示频谱获得的频谱图，和图4(c)表示利用传统方法、通过内插具有图4(a)所示频谱信号而获得的频谱图；

图5表示利用图1所示语音内插装置，内插具有图4(a)所示频谱信号获得的信号频谱图；

图6(a)表示具有图4(a)所示频谱的语音的基频成分和谐波成分的强度的时间变化图，图6(b)表示具有图4(b)所示频谱的语音的基频成分和谐波成分的强度的时间变化图；

图7表示具有图5所示频谱的语音的基频成分和谐波成分的强度的时间变化图。

具体实施方式

参照附图，将描述本发明的实施例。

图1是根据本发明一实施例的语音信号内插装置的结构图。如图所示，这个语音信号内插装置由语音数据输入单元1，基音获得单元2，音长固定单元3，子带分割单元4，平均单元5，子带合成单元6，基音恢复单元7和语音输出单元8构成。

语音数据输入单元1由记录介质驱动器组成，诸如软盘驱动器，MO(磁光盘)驱动器和CD-R(可记录密度盘)驱动器来读取记录在记录介质如软盘，MO和CD-R上的数据。

语音数据输入单元1获得代表语音波形的语音数据并将其提供给基音固定单元3。

语音数据具有是以PCM(脉冲编码调制)进行调制的数字信号格式，并假定语音数据代表以恒定周期抽样的语音，所述恒定周期充分低于语音基音。

基音获得单元2，音长固定单元3，子带分割单元4，子带合成单元6和基音恢复单元7每个由数据处理设备构成，如DSP(数字信号处理器)和CPU(中央处理单元)。

基音获得单元2，音长固定单元3，子带分割单元4，子带合成单元6和基音恢复单元7的部分或整个功能可由单一数据处理设备实现。

如图2所示，基音获得单元2从功能上包括倒频谱分析单元21，自相关分析单元22，权重计算单元23，BPF(带通滤波器)系数计算单元24，BPF 25，过零点分析单元26，波形相关分析单元27和相位调整单元28。

倒频谱分析单元21，自相关分析单元22，权重计算单元23，BPF(带通滤波器)系数计算单元24，BPF 25，过零点分析单元26，波形相关分析单元27和相位调整单元28中的部分或整体可由单一数据处理设备实现。

倒频谱分析单元21对从语音数据输入单元1提供的语音数据进行倒频谱分析，识别代表语音数据的语音的基频，并产生代表识别基频的数据来提供给权重计算单元23。

更具体地，当语音数据由语音数据输入单元1提供时，倒频谱分析单元21首先将语音数据的强度转变成完全等于原始值对数的数值(对数的底是任意的，比如可用常用对数)。

接下来，倒频谱分析单元21通过快速傅立叶变换(或其他任意产生代表傅立叶变换离散变量数据的方法)计算转换的语音数据的频谱(即倒频谱)。

在提供倒频谱的最大值的频率中的最低频率被识别为基频，并产生代表识别的基频的数据且提供给权重计算单元23。

当语音数据从语音数据输入单元1提供时，自相关分析单元22根据语音数据的波形的自相关函数来识别代表语音数据的语音基频，产生代表识别的基频的数据来提供给权重计算单元23。

更具体地，当语音数据从语音数据输入单元1提供时，自相关分析单元22首先识别自相关函数r，其由方程(1)：r(1)＝1/N{ê(t+1)·ê(t)的右项表示，其中N是抽样语音数据的总和，ê(á)是从语音数据的第一抽样起计数的第á个抽样的数值。

其次，自相关分析单元22识别基频，它是低于预定较低限频率的最低频率，在这些提供通过自相关函数r(1)傅立叶变换获得的函数(周期图)的最大值的频率中，产生代表识别的基频的数据来提供给重计算单元23。

当代表基频的两条数据被从倒频谱分析单元21和自相关分析单元22提供时，权重计算单元23计算由两条数据代表的基频的倒数的平均绝对值。产生代表计算值(即平均基音长度)的数据，并将其提供给BPF系数计算单元24。

如将在下面描述的，从权重计算单元23将代表平均基音长度的数据和从过零点分析单元26将过零点信号供给BPF系数计算单元24，并且根据提供的数据和过零点信号，判断平均基音长度，基音信号和过零点周期是否彼此相差一个预定量。如果判断它们是相同的，BPF 25的频率特征被控制，使得中心频率(BPF25的通带中心频率)变为过零点周期的倒数。如果判断它们是不同的，BPF25的频率特征被控制使得中心频率变为平均音长的倒数。

BPF25具有FIR(有限脉冲响应)型滤波函数，其能变换它的中心频率。

更具体地，BPF 25将自己的中心频率设定为与BPF系数计算单元24控制的值相同。BPF 25对从语音数据输入单元1提供的语音数据进行滤波，并将已滤波语音信号(基音信号)到过零点分析单元26和波形相关分析单元27。假定基音信号是具有与语音数据充分地相同的抽样周期的数字数据。

BPF25的带宽优选地被设定为使得BPF25的通带的上限落在语音数据代表的语音的两倍基频的范围或者更低。

当从BPF 25提供的基音信号的瞬时值变为“0”，过零点分析单元26检测定时(过零点定时)，并且提供代表检测定时的信号(过零点信号)到BPF系数计算单元24。

当基音信号的瞬时值取为一预定值时，过零点分析单元26检测定时，且将其代替过零点信号提供给BPF系数计算单元24。

从语音数据输入单元1将语音数据并且从波形相关分析单元27将基音信号提供波形相关分析单元27，波形相关分析单元在基音信号的单位周期(例如，一个周期)的时刻将语音数据分解。波形相关分析单元27计算在给出各种相位的语音数据和每一个划分的段中的基音信号之间的相关性，并且确定具有最高相关的语音数据的相位作为那个段中的语音数据的相位。

更具体地，对每一段和每一个不同相位(是一个为0或者更大的整数)，波形相关分析单元27计算诸如方程(2)右端的项表示的cor值。波形相关分析单元27识别与最大Cor值相对应的的数值Φ，产生代表值Φ的数据，并且把它提供给相位调节单元28，作为表示在每一段中的语音数据的相位的相位数据。

Cor＝{f(i-)·g(i)}

式中，n是一段中的抽样总和，f(β)是这一段中从语音数据第一个样本开始计数的第β个样本的值。g( )是这一段中基音信号的第

个样本值。

每一段的时长优选为大约一个基音。每一段越长，段内的样本数增加越多，使得基音波形信号的数据量增加，或者样本周期变长，基音波形信号所代表的语音变得不正确。

从语音数据输入单元1将语音数据和从波形相关分析单元27将代表在每段的语音数据的相位Ф的数据提供相位调节单元28，相位调节单元28将这一段的语音数据的相位设置为等于代表相位数据这一段中的相位Ф。移相的语音数据被提供给音长固定单元3。

从相位调节单元28将移相语音数据提供音长固定单元3，音长固定单元重新采样这一段的语音数据，且将重新采样的语音数据提供给子带分割单元4。音长固定单元3以这样的方式重新采样：每段的语音数据的样本数基本上相等，并且以相等的基音来将样本安排到这一段基音上。

音长固定单元3产生代表每一段中的原始样本的数目的样本数目的数据，并把它提供给语音输出单元8。如果通过数据输入单元1得到的语音数据的采样周期为已知，样本数目数据就是代表与单位基音相应的段内语音数据的原始时间长度的信息。

子带分割单元4对音长固定单元3提供的语音数据执行正交变换，例如DCT(离散余弦变换)或者离散傅立叶变换(例如，快速傅立叶变换)以产生定常周期的子带数据(例如，与单位基音对应的周期或与整数倍的单位基音对应的周期)。当每次子带数据产生的时候，这个数据被提供给平均单元5。子带数据5表示了由子带分割单元4提供的语音数据所表示的语音频谱分布。

根据子带分割单元4多次提供的子带数据，平均单元5产生子带数据(此后称为平均子带数据)，其是谱分量的平均值，并将其提供给子带合成单元6。

从功能上说，平均单元5由图3所示的子带数据存储部分5 1和平均部分52组成。

子带数据存储部分51是存储器，如RAM(随机存取存储器)，存储由子带分割单元4提供最近的三条子带数据，通过平均部分52存取。当通过平均部分52进行存取时，子带数据存储部分51将存储的子带数据的最先的两条(最早的第三和第二条)到平均部分52。

平均部分52由DSP、CPU等构成，基音获得单元2，音长固定单元3，子带分割单元4，子带合成单元6和基音恢复单元7的部分或整个功能可由在平均部分52中的单一数据处理设备实现。

每次子带分割单元4提供一条子带数据时，平均部分52对子带数据存储部分51进行存取。从子带分割单元4提供的最新的子带数据被存储在子带数据存储部分51中。平均部分52从子带数据存储部分51中读取最早的两条子带数据。

平均部分52计算在同一频率下三条子带数据频谱分量强度的平均值(例如，算术平均)。这三条子带数据包括由子带分割单元4提供的一条子带数据和从子带数据存储部分51中读取的两条子带数据。平均部分52产生代表谱分量的强度的计算的平均值的频率分布的数据(平均子带数据)，并将其提供给子带合成单元6。

在代表用来产生平均子带数据的三条子带数据的谱分量中，在f频率(f＞0)处的强度由i1，i2和i3(i1≥0，i2≥0，i3≥0)来表示。在平均子带数据代表的谱分量的f频率处的平均子带数据的强度等于i1，i2和i3的平均值(例如，i1，i2和i3的算术平均)。

子带合成单元6将从平均单元5提供的平均子带数据变换为语音数据，它的每个频率分量的强度由平均子带数据表征。子带合成单元6提供产生的语音数据到基音恢复单元7。由子带合成单元6产生的语音数据可是PCM调制的数字信号。

子带合成单元6对平均子带数据进行的转换本质上是与子带分割单元4为产生子带数据所进行的转换相对应的逆转换。更具体地，例如，如果子带数据是通过语音信号进行DCT产生的，子带合成单元6通过平均子带数据进行IDCT(逆DCT)来产生语音信号。

基音恢复单元7以音长固定单元3提供的采样数目数据代表的采样数目对从子带合成单元6提供的语音数据中的每段进行重新采样，以在被音长固定单元3改变之前来恢复每段的时长。带有每段中的恢复时长的语音数据被提供给语音输出单元8。

语音输出单元8由PCM解码器，D/A(数字到模拟)转换器，AF(音频)放大器，扬声器等组成。

语音输出单元8从基音恢复单元7接收带有每段中的恢复时长的语音数据，解调该语音数据，对其进行数模转换并且放大。获得的模拟信号驱动扬声器并重放语音。

参考附图4，5至7，描述上述获得语音的操作。

图5是利用图1所示语音内插装置内插图4(a)所示频谱的信号而获得的信号频谱图。

图6(a)表示在具有图4(a)所示频谱的语音基频分量和谐波分量强度的时间变化图。

图6(b)表示在具有图4(b)所示频谱的语音基频分量和谐波分量强度的时间变化图。

图7表示在具有图5所示频谱的语音基频分量和谐波分量强度的时间变化图。

从图4(a)，4(c)和图5的频谱范围的比较可看出，对原始语音频谱，用图1所示的语音内插装置将频谱分量内插到被进行掩蔽的语音中而获得的频谱比用日本未决的专利公开号2001-35678中所公开的方法将频谱分量内插到被进行掩蔽的语音而获得的频谱更加累似于原始语音的频谱。

如图6(b)所示，示出了其频谱分量被通过掩蔽而移去部分的语音的基频分量和谐波分量强度的时间变化图不比图6(a)所示的原始语音的基频分量和谐波分量的强度的时间变化图更加平滑。(图6(a)，图6(b)，和图7中，图形“BND0”示出了语音的基频分量的强度，“BNDK”(其中K是从1到8的整数)表示语音的第k+1谐波分量的强度)。

如图7所示，图形示出了用图1所示的语音内插装置将频谱分量到被进行掩蔽的语音信号而获得的信号的基频分量和谐波分量强度的时间变化图比图6(b)所示的更加平滑，并且更加累似于图6(a)所示的原始语音的基频分量和谐波分量的强度的时间变化图。

由图1所示的语音内插装置再生的语音是自然语音，而且与通过由日本未决专利公开号2001-356788的方法进行内插而再生的语音或者没有进行对掩蔽的信号进行频谱内插而再生的语音相比，更近似于原始语音。

音长固定单元3对在输入到语音信号内插装置的语音数据的单位基音部分的时长进行归一化，消除基音的抖动。因此，由子带分割单元4产生的子带数据提供准确的在由语音数据表示的语音的每个频率分量(基频和谐波分量)的强度的时间变化。因此，由平均单元5产生的子带数据提供准确的由语音数据表示的语音的每个频率分量的强度的时间变化。

基音波形获得系统的结构不仅限于上面的描述。

比如，语音输入单元1可以通过电话线、专用线路、或者诸如卫星频道的通信线路从外部得到语音数据。在这种情形下，语音数据输入单元1装备有通信控制单元，诸如调制解调器，DSU(数据服务单元)和路由器。

语音数据输入单元1可以具有包括麦克风，AF放大器，抽样器，A/D(模拟到数字)转换器，PCM编码器等的语音收集装置。语音收集装置放大代表由麦克风收集的语音的语音信号，对其抽样和A/D转换，并对抽样的语音信号进行PCM来获得语音数据。由语音数据输入单元1获得的语音数据不限于PCM信号。

语音输出单元8可以将从基音再生单元7提供的语音数据或者从解调语音数据获得的数据通过通信线路提供给外部。在这种情形，语音输出单元8装配有由(比如)调制解调器，DSU等组成的通信控制单元。

语音输出单元8可以将从基音再生单元7提供的语音数据或者经解调语音数据获得的数据写到在外部记录介质或者诸如硬盘的外部存储设备。在这种情形，语音输出单元8装配有由诸如记录介质驱动器的控制电路和硬盘控制器。

被平均单元5用来产生平均的子带数据的子带数据的数目不限于仅为三条数据，可以是每平均子带数据有多个数据。不要求从子带分割单元4连续提供用来产生平均子带数据的多个子带数据。比如，平均单元5可以从子带分割单元4提供的两个数据的间隔(或者在多个数据的间隔)获得多个子带数据，并且仅使用获得的子带数据来产生平均子带数据。

当从子带驱动单元4提供子带数据的一个数据由时，平均单元52可以将其立刻存储在子带数据存储部分51中，并读取最新的三条子带数据来产生平均子带数据。

上面描述了本发明的实施例。本发明的语音信号内插装置不仅能由专用系统实现，而且能由一般计算机系统实现。

比如，可以将用于执行语音数据输入单元1，基音获得单元2，音长固定单元3，子带分割单元4，平均单元5，子带合成单元6，基音再生单元7和语音输出单元8的操作的程序存储在介质(CD-ROM，MO，软盘等)上。该程序安装在具有D/A转换器，AF放大器，扬声器等的个人计算机上，以执行上述处理并利用个人计算机实现语音信号内插装置。

例如，可以通过通信线路将该程序上载到在通信线路上的电子公告系统上来分布该程序。用代表该程序的信号调制一载波，并且将调制波传送到对该调制波进行解调以恢复该程序的接收器。

上述处理可通过启动该程序，并且以与一般应用程序相似的方式在OS的控制下执行该程序。

如果OS负责部分处理或者如果它构成本发明组元的一部分，可以将删除对应于这部分的程序部分存储在记录介质上。甚至在这种情形，在本发明中，假定记录介质存储用于执行将由计算机执行的每个功能和步骤的程序。

发明效果

到目前所述，根据本发明实现的语音信号内插装置和方法能从压缩的语音中恢复原始语音，并保持高的音质。

Claims

1.一种语音信号内插装置，其包括：

2.如权利要求1所述的语音信号内插装置，其中，所述的基音波形信号产生装置包括：

3.如权利要求2所述的语音信号内插装置，其中，所述滤波器特征确定装置包括交叉检测装置，用来识别所述可变滤波器获得的基频成分达到预定值的定时周期，并根据所述识别的周期来识别基频。

4.如权利要求3所述的语音信号内插装置，其中，所述滤波器特征确定装置可包括：

5.如权利要求4所述的语音信号内插装置，其中，所述平均基音检测装置包括：

6.一种语音信号内插方法，其包括步骤：

获取代表语音波形的输入语音信号，并且使与所述的输入语音信号的单位基音对应的一段的时长充分相同以将所述的输入语音信号转换为基音波形信号；

7.一种用于使计算机进行如下操作的程序：