CN101796575B

CN101796575B - 声音信号生成方法以及声音信号生成装置

Info

Publication number: CN101796575B
Application number: CN2007801005142A
Authority: CN
Inventors: 渡边一宏
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-09-06
Filing date: 2007-09-06
Publication date: 2012-07-18
Anticipated expiration: 2027-09-06
Also published as: JP5141688B2; CN101796575A; WO2009031219A1; US20100145690A1; US8280737B2; JPWO2009031219A1

Abstract

本发明提供通过对原音信号进行加工生成加工声音信号来合成对噪声感、粗糙感等音质劣化进行了抑制的高质量语音的声音信号生成方法以及声音信号生成装置。本发明按照波形的间距单位分离原音信号，生成多个单位波形信号，针对各单位波形信号，生成重复波形信号，该重复波形信号是使所生成的单位波形信号的波形重复预定次数而得到的，通过按照形成原音信号的顺序以间距为单位使各个重复波形信号移动后进行叠加，来生成加工声音信号。

Description

声音信号生成方法以及声音信号生成装置

技术领域

本发明涉及对原音信号进行加工来生成加工声音信号的声音信号生成方法以及应用了该声音信号生成方法的声音信号生成装置。

背景技术

近年来，通过语音来朗读邮件以及网站内容的文本数据的功能已被安装在例如便携电话等嵌入设备中。在实现这样的语音朗读功能的语音合成处理中，预先在内置存储器等记录单元中记录通过ADPCM(AdaptiveDifferential Pulse Code Modulation，自适应差分脉冲编码调制)等压缩方法对合成语音所需的语音单元数据进行压缩而记录的数据库即波形库。并且，在生成合成语音波形时，从波形库中读取所压缩的语音单元数据(speech segment data)，进行解压解码，对解压解码得到的语音单元数据进行结合，并进行音高以及语速的调整等加工处理，由此生成语音信号，根据所生成的语音信号输出合成语音。

语音单元的生成方法以及语音合成方法例如在专利文献1中有所公开。

但是，通过对使用ADPCM等压缩方法压缩的语音信号进行解压解码而生成的语音有时产生噪声感、粗糙感等音质劣化。另外，在结合多个语音单元数据、调整语音的音高以及语速时，也有时产生噪声感、粗糙感等音质劣化。

图1是示出所生成的语音信号的波形的图。图1(a)示出了通过对所压缩的语音信号进行解压解码来生成的语音信号的波形，由于不可逆压缩带来的压缩以及解压时的噪声，所生成的语音信号的周期波形的各个间距中的振幅不尽相同。由于这样的各个间距的偏差、不平滑的变化等原因，在基于所生成的语音信号的合成语音中产生了噪声感、粗糙感等音质劣化。

图1(b)示出了在减慢语音的速度即所谓语速时生成的语音信号的波形，通过以间距为单位使同一语音单元的语音信号分别连续预定次数，生成了减慢语速的声音信号。对于这样的语音信号，间距波形的振幅变化变成阶梯状，成为音质劣化的原因。

作为防止这样的语音劣化的方法，存在通过降低压缩时的压缩率来防止由于不可逆压缩而产生的噪声的方法。另外，还存在下述方法：针对短时间内通过FFT处理将合成后的语音信号转换成频率轴上的成分而生成的频谱进行噪声消除处理后，通过FFT逆处理恢复成原来时间轴上的声音信号，由此防止语音劣化。

专利文献1：日本特开平8-160991号公报

但是，在降低压缩率的方法中，存在波形库所需的存储器容量增大的问题，在通过频率转换来消除噪声的方法中存在处理负荷增大的问题。当安装在受存储器容量以及处理能力的制约较大的便携电话等嵌入设备中时，这些问题成为不可忽视的问题。另外，从减少伴随运算处理的功耗的角度来看，也期望解决上述问题。

发明内容

本发明是鉴于该情况而完成的，其目的在于提供能够用较少的处理量不破坏原来的音质、减少在压缩解压、语音合成等处理中产生的音质劣化的声音信号生成方法以及应用了该声音信号生成方法的声音信号生成装置。

第1发明的声音信号生成方法对原音信号进行加工，生成加工声音信号，该原音信号具有重复大致相同波形的周期性间距，该声音信号生成方法的特征在于，按照波形的间距单位分离原音信号，生成多个单位波形信号；针对各单位波形信号，生成重复波形信号，该重复波形信号是使所生成的单位波形信号的波形重复预定次数而得到的；以及通过按照形成原音信号的顺序以间距为单位使各个重复波形信号移动后进行叠加，来生成加工声音信号。

第2发明的声音信号生成装置对原音信号进行加工，生成加工声音信号，该原音信号具有重复大致相同波形的周期性间距，该声音信号生成装置的特征在于，该声音信号生成装置具有：记录单元，其记录原音信号；读取单元，其读取记录在该记录单元中的原音信号；第1生成单元，其按照波形的间距单位分离所读取的原音信号，生成多个单位波形信号；第2生成单元，其针对各单位波形信号，生成重复波形信号，该重复波形信号是使单位波形信号的波形重复预定次数而得到的；以及第3生成单元，其生成加工声音信号，该加工声音信号是按照形成原音信号的顺序以间距为单位使各个重复波形信号移动后进行叠加而得到的。

第3发明的声音信号生成装置特征在于，在第2发明中该声音信号生成装置还具有：第4生成单元，其通过对所述第1生成单元所生成的连续的多个单位波形信号进行加权合成，生成起始端和结束端的振幅一致的单位波形信号，所述第2生成单元构成为，使第4生成单元所生成的单位波形信号重复，来生成重复波形信号。

第4发明的声音信号生成装置特征在于，在第2发明或第3发明中，所述原音信号是语音信号，该声音信号生成装置还具有判定所述原音信号是有声还是无声的单元。

第5发明的声音信号生成装置特征在于，在第2发明或第3发明中所述原音信号是语音信号，该声音信号生成装置还具有输出基于所生成的加工声音信号的语音的单元。

在第1发明、第2发明以及第5发明中，可生成在抑制作为声音劣化原因的连续的间距单位波形的急剧变化的同时、几乎不破坏原来的声音信号的频谱包络形状的声音信号，因此尽管是较少的处理量但也能够减少音质劣化，而不会破坏原来的音质。

在第3发明中，通过使单位波形信号的起始端与结束端的振幅一致，可防止在所生成的重复波形信号中单位波形信号的相邻区间不连续，防止基于波形的不连续性的音质劣化。

在第4发明中，通过仅对受平滑化处理的影响较大的有声进行高频加重处理，可防止对无声的高频进行过分加重，而破坏原来的音质成为刺耳的声音的问题。

本发明的声音信号生成方法以及声音信号生成装置按照波形的间距单位分离语音单元数据等原音信号的数据，生成多个单位波形信号；针对各单位波形信号，生成重复波形信号，该重复波形信号是使所生成的单位波形信号的波形重复预定次数而得到的；以及通过按照形成原音信号的顺序以间距为单位使各个重复波形信号移动后进行叠加，来生成加工声音信号。

根据该结构，在本发明中，由于进行使间距单位波形的时间变化均匀的处理，因此可生成在抑制作为语音劣化原因的连续的间距单位波形的急剧变化的同时，几乎不破坏原来的声音信号的频谱包络形状的声音信号。其结果，尽管是较少的处理量但也能够减少音质劣化，而不会破坏原来的音质。因此，本发明起到了如下等良好的效果，即：当使用记录原音信号的波形库等数据库进行语音合成时，无需较大的处理负荷就能消除噪声，防止音质的劣化。因此，与通过频率变换来消除噪声的方法相比，能够减少用于消除噪声的运算处理所需的功耗。另外，本发明起到了如下等良好的效果，即：当应用于对原音信号进行压缩后记录的波形库中时，能够减少波形库所需的存储容量，因此当应用于受存储器容量以及处理能力的制约较大的便携电话等嵌入设备中时，也能防止音质的劣化。而且，本发明起到了也能够消除波形库原来的原音信号中包含的噪声、提高音质等良好效果。

另外，本发明的声音信号生成装置等通过对连续的多个单位波形信号进行加权合成，生成起始端和结束端的振幅一致的单位波形信号，使所生成的单位波形信号连续，来生成连续波形信号。

通过该结构，本发明起到了如下良好的效果，即：通过使单位波形信号的起始端与结束端的振幅一致，可防止在所生成的连续波形信号中单位波形信号的邻接位置不连续，防止基于波形的不连续性的音质劣化。

并且，本发明的声音信号生成装置等起到了如下良好的效果，即：通过执行对加工声音信号的预定波长以上的振幅进行加重的高频加重处理，能够对由于使波形信号叠加的平滑化处理而降低的高频区域的振幅进行加重，因此可保持原来的音质。

尤其在应用于语音合成时，起到了如下等良好效果，即：通过判定原音信号是有声还是无声、并仅对基于被判定为有声的原音信号的加工声音信号进行高频加重处理，仅对受平滑化处理的影响较大的有声进行高频加重处理，由此可防止对无声的高频进行过分加重、破坏原来的音质、成为刺耳的声音。

附图说明

图1是示出所生成的声音信号的波形的图。

图2是示出本发明的声音信号生成装置的结构例的框图。

图3是示出本发明的声音信号生成装置的语音输出处理的一例的流程图。

图4是示出本发明的声音信号生成装置的加工处理的一例的流程图。

图5是示出本发明的声音信号生成装置的加工处理的波形加工的一例的说明图。

图6是示出本发明的声音信号生成装置的边缘处理的一例的流程图。

图7是示出本发明的不进行边缘处理时的连续波形信号的波形加工的一例的说明图。

图8是示出本发明的声音信号生成装置的边缘处理的波形加工的一例的说明图。

图9是示出本发明的声音信号生成装置的声音输出处理的一例的流程图。

图10是示出本发明的声音信号生成装置的语音单元数据生成处理的流程图。

标号说明

1声音信号生成装置；10控制部；11记录部；11a波形数据库；11b读法数据库；145声音输出部；100计算机程序

具体实施方式

以下，根据示出本发明的实施方式的附图来详细叙述本发明。图2是示出本发明的声音信号生成装置的结构例的框图。在图2中，1是本发明的声音信号生成装置，其应用了便携电话等计算机，声音信号生成装置1具有对装置整体进行控制的CPU等控制部10、对通过控制部10的控制来执行的本发明的计算机程序100以及各种数据等信息进行记录的ROM、RAM等记录部11。并且，通过控制部10的控制执行记录在记录部11中的本发明的计算机程序100，由此便携电话等计算机作为本发明的声音信号生成装置1工作。另外，记录部11的记录区域的一部分用作通过ADPCM等压缩方法对表示生成合成语音所需的语音单元数据等声音信号的数据进行压缩后记录的被称为波形库的波形数据库(波形DB)11a、对汉字、假名、英语单词等的读法进行记录的读法数据库(读法DB)11b等各种数据库。并且，也可以使用数据库专用的存储器芯片进行大容量化和高速化，而不是将记录部11的记录区域的一部分用于各种数据库。由于本发明的声音信号生成装置1执行加工声音信号的波形的处理，因此在后面的说明中将记录在波形数据库11a中的声音信号称为原音信号，将加工后的声音信号称为加工声音信号。

并且，声音信号生成装置1具有作为通信接口的天线及其附属设备等的通信部12、麦克风等声音输入部13、扬声器等声音输出部14、以及进行声音信号的转换处理的声音转换部15。声音转换部15进行的转换处理是指将声音输入部13接收到的模拟信号即声音信号转换成数字信号的处理以及将数字信号转换成模拟信号以从声音输出部14输出的处理。并且，声音信号生成装置1具有接收英文数字以及各种指令等的按键输入操作的操作部16、以及显示各种信息的液晶显示器等显示部17。

并且，这里对使用便携电话来实现声音信号生成装置1的方式进行说明，但本发明不限于此，可通过具有对所合成的语音等声音进行输出的功能的个人计算机等各种计算机来实现。例如，在通过个人计算机来实现的情况下，通过CD-ROM驱动器等辅助存储部从记录有本发明的计算机程序100的CD-ROM等记录介质中读取计算机程序100，并将其记录在硬盘等记录部11中。然后，通过控制部10执行记录在记录部11中的计算机程序100，由此能够实现本发明的声音信号生成装置1。

接着，对本发明的声音信号生成装置1的处理进行说明。图3是示出本发明的声音信号生成装置1的语音输出处理的一例的流程图。当通过语音朗读例如邮件以及网站内容的文本数据时，声音信号生成装置1执行合成语音输出处理。声音信号生成装置1通过执行记录在记录部11中的计算机程序100的控制部10的控制，读取文本数据，从读法数据库11b中选择所读取的文本数据的读法(S101)，从波形数据库11a中选择并读取与所选择的读法对应的压缩后的原音信号的数据(S102)，对所读取的原音信号的数据进行解压解码(S103)。

然后，声音信号生成装置1根据控制部10的控制来执行对解压解码后的原音信号的数据进行加工并生成加工声音信号的加工处理(S104)。步骤S104的加工处理是使原音信号的间距单位的波形时间变化均匀的平滑化处理，是消除噪声等提高音质的处理。将在后面叙述加工处理的详细内容。

然后，声音信号生成装置1根据控制部10的控制，来执行基于加工声音信号合成语音信号的语音合成处理(S105)，从声音输出部14输出基于合成后的语音信号的语音(S106)。这样地执行语音输出处理。

图4是示出本发明的声音信号生成装置1的加工处理的一例的流程图。声音信号生成装置1通过执行记录在记录部11中的计算机程序100的控制部10的控制，按照波形的间距单位分离所读取的原音信号，生成多个单位波形信号(S201)。声音信号生成装置1根据表示预先记录在波形数据库11a中的该原音信号的间距信息来识别原音信号的波形间距，但也可以根据波形的波峰间的间隔、波形的相关性等波形本身来检测。

声音信号生成装置1根据控制部10的控制，针对各单位波形信号生成使单位波形信号的波形连续5次等预定次数而得到的连续波形信号(S202)，使用汉宁窗函数、汉明窗函数等窗函数对所生成的连续波形信号进行加窗处理(S203)。

并且，声音信号生成装置1根据控制部10的控制，生成加工声音信号的数据(S204)，该加工声音信号是按照形成原音信号的顺序以间距为单位使各连续波形信号移动后进行叠加而得到的。例如，当生成了使单位波形信号的波形连续5次而得到的连续波形信号时，以间距为单位使各连续波形信号偏移后进行叠加，由此生成对连续的5个间距量的波形进行叠加而得到的1个间距量的波形。由于其以间距为单位求出波形的移动平均，因此是使原音信号的间距单位波形的时间变化均匀的平滑化处理，并且，当从单位波形信号生成连续波形信号时，通过适当选择的窗函数进行加窗处理。

然后，声音信号生成装置1根据控制部10的控制，判定与加工声音信号对应的原音信号的区间是有声还是无声(S205)。例如根据表示预先记录在波形数据库11a中的该原音信号的信息，判定有声还是无声。

当在步骤S205中判定为有声时(S205：是)，声音信号生成装置1根据控制部10的控制，通过高频增强滤波器，执行对加工声音信号的预定波长以上的振幅进行加重的高频加重处理(S206)。并且，当在步骤S205中判定为无声时(S205：否)，声音信号生成装置1不执行步骤S206的高频加重处理。由于在步骤S204中生成的加工声音信号降低了高波长区域的振幅，因此可通过进行高频加重处理来保持本来的音质。并且，对于无声而言，在高波长区域没有较大的下降，因此不进行高频加重处理。

对加工处理中的波形的具体加工进行说明。图5是示出本发明的声音信号生成装置1的加工处理的波形加工的一例的说明图。图5(a)示出了原音信号的波形的时间变化，用实线表示的长方形是在步骤S201中生成的按照间距单位分离的单位波形信号。并且，为了方便起见，用实线只示出了2个单位波形信号，但实际上分离后的间距单位的各个波形作为单位波形信号进行处理。

图5(b)示出了在步骤S202中生成的、使单位波形信号的波形连续预定次数而得到的连续波形信号。在图5(b)中示出了使在图5(a)中用实线的长方形表示的单位波形信号连续了5次而得到的连续波形信号。并且，图5(b)的虚线所示的曲线表示在步骤S203的加窗处理中针对连续波形信号使用的窗口函数的权重。

图5(c)示意地示出在步骤S204中按照形成原音信号的顺序以间距为单位使各连续波形信号移动即偏移的状态，图5(d)示出了对在步骤S204中以间距为单位移动的状态下的连续波形信号进行叠加而生成的加工声音信号的波形。如此这样执行加工处理。

图6是示出本发明的声音信号生成装置1的边缘处理的一例的流程图。在使用图4来示出的加工处理中，当在步骤S202中根据在步骤S201中生成的单位波形信号生成连续波形信号时，为了防止使单位波形信号邻接的位置不连续而进行边缘处理，由此能够进一步抑制发生噪声。声音信号生成装置1根据控制部10的控制，在步骤S201中生成单位波形信号，通过对所生成的连续的多个单位波形信号进行加权合成处理，生成起始端和结束端的振幅一致的单位波形信号(S301)。然后，声音信号生成装置1使用所生成的单位波形信号，执行步骤S202所示的生成连续波形信号之后的处理。

对边缘处理中的具体的加工进行说明。首先，对不进行边缘处理的情况进行说明。图7是示出本发明的不进行边缘处理时的连续波形信号的波形加工的一例的说明图。图7(a)示出了原音信号的波形的时间变化，图7(b)示出了按照间距单位分离的单位波形信号。图7(b)所示的单位波形信号的起始端与结束端的振幅存在表示为Δa的差分。图7(c)示出了使起始端与结束端的振幅存在Δa的差分的单位波形信号连续而生成的连续波形信号。如图7(c)所示，当使起始端与结束端的振幅存在Δa的差分的单位波形信号连续时，由于在使单位波形信号邻接的位置处存在Δa的差分，因此像作为对白进行放大表示的位置那样，成为不连续状态，因此发生噪声，从而成为音质劣化的原因。并且，图7中的实线所示的划分表示单位波形信号的划分。

图8是示出本发明的声音信号生成装置1的边缘处理的波形加工的一例的说明图。图8(a)示出了原音信号的波形的时间变化，如实线的长方形所示那样，使用连续的前一单位波形的信号对作为边缘处理对象的单位波形信号进行边缘处理。在图8(a)中，实线的长方形表示作为边缘处理对象的单位波形信号以及用于处理的前一单位波形信号。在图8(a)中虚线表示的曲线是分别对各个单位波形信号施加的权重，例如使用2个单位波形信号邻接的位置为1、边缘为0的汉宁窗等函数。

图8(b)示出了对各个单位波形信号加权的状态，虚线表示原来的单位波形信号的波形，实线表示加权后的单位波形信号的波形。

图8(c)示出了对加权后的单位波形信号进行合成的状态，虚线和点划线表示合成前的2个单位波形信号，实线表示合成后的单位波形信号。所合成的单位波形信号是在步骤S301中生成的单位波形信号，具有与原来的单位波形信号大致相同的形状，并且起始端和结束端的振幅一致。

图8(d)是使用在边缘处理中生成的单位波形信号来生成的连续波形信号。由于使用了通过端部处理使得起始端和结束端的振幅一致的单位波形信号，因此是不存在不连续部分的连续波形信号。并且，图8(d)中的实线所示的划分表示单位波形信号的划分。

这里示出了基于2个单位波形信号进行边缘处理的方式，但本发明不限于此，可以展开成各种方式，例如将4个连续的单位波形信号划分成2个，在基于2个单位波形信号进行边缘处理之后，进一步基于作为结果的2个单位波形信号进行边缘处理等。另外，不限于汉宁窗，只要2个单位波形信号邻接的位置为1、边缘为0、对应的各位置处的合计权重为1，就可使用各种加权用的函数。如此这样地执行加工处理和边缘处理。

本发明的声音信号生成装置1不仅能够消除在上述这样地对压缩的原音信号的数据进行解压解码时的噪声，还能用于提高未被压缩的原音信号的数据的音质。接着，说明对未被压缩的原音信号执行加工处理的语音输出处理。并且，假设在该语音输出处理中，在波形数据库11a中记录有未被压缩的原音信号的数据。

图9是示出本发明的声音信号生成装置1的语音输出处理的一例的流程图。声音信号生成装置1根据执行记录在记录部11中的计算机程序100的控制部10的控制，读取文本数据，从读法数据库11b中选择所读取的文本数据的读法(S401)，从波形数据库11a中选择并读取与所选择的读法对应的原音信号的数据(S402)。

并且，声音信号生成装置1根据控制部10的控制，基于所读取的原音信号进行合成语音信号的语音合成处理(S403)，执行对通过语音合成处理而根据原音信号合成的语音信号进行加工的加工处理(S404)。在步骤S404中执行的加工处理与使用图4来说明的加工处理相同，是使根据原音信号合成的语音信号的间距单位的波形时间变化均匀的平滑化处理。另外，根据需要执行边缘处理。

然后，声音信号生成装置1根据控制部10的控制，从声音输出部14输出基于实施加工处理后的合成语音的语音信号的语音(S405)。这样地执行基于未被压缩的原音信号的语音输出处理。

并且，声音信号生成装置1也能够对记录在波形数据库11a中的原音信号执行加工处理。在这样的处理的情况下，使用通用计算机等计算机来实现本发明的声音信号生成装置1。图10是示出本发明的声音信号生成装置1的语音单元数据生成处理的流程图。声音信号生成装置1根据执行记录在记录部11中的计算机程序100的控制部10的控制，对记录为语音单元数据的原音信号执行加工处理(S501)，将加工处理后的原音信号作为语音单元数据记录在波形数据库11a中(S502)。在步骤S501中执行的加工处理与使用图4来说明的加工处理相同，是使根据原音信号合成的语音信号的间距单位的波形时间变化均匀的平滑化处理。另外，根据需要执行边缘处理。

这样生成的波形数据库11a用于图9所示的语音输出处理。但是，由于记录有已经实施加工处理的语音单元数据，因此不需要图9的步骤S404所示的加工处理。

在上述实施方式中，示出了在用语音朗读文本数据时应用于合成语音输出处理的方式，但本发明不限于此，可应用于电话应答服务的自动应答等各种服务中的语音合成。即本发明的实现方法不限于上述的实施方式，可展开成处理语音信号的各种方式。

Claims

1.一种声音信号生成方法，其对原音信号进行加工，生成加工声音信号，该原音信号具有重复大致相同波形的周期性间距，该声音信号生成方法的特征在于，

按照波形的间距单位分离原音信号，生成多个单位波形信号；

针对各单位波形信号，生成重复波形信号，该重复波形信号是使所生成的单位波形信号的波形重复预定次数而得到的；以及

通过按照形成原音信号的顺序以间距为单位使各个重复波形信号移动后进行叠加，来生成加工声音信号。

2.一种声音信号生成装置，其对原音信号进行加工，生成加工声音信号，该原音信号具有重复大致相同波形的周期性间距，该声音信号生成装置的特征在于，

该声音信号生成装置具有：

记录单元，其记录原音信号；

读取单元，其读取记录在该记录单元中的原音信号；

第1生成单元，其按照波形的间距单位分离所读取的原音信号，生成多个单位波形信号；

第2生成单元，其针对各单位波形信号，生成重复波形信号，该重复波形信号是使单位波形信号的波形重复预定次数而得到的；以及

第3生成单元，其生成加工声音信号，该加工声音信号是按照形成原音信号的顺序以间距为单位使各个重复波形信号移动后进行叠加而得到的。

3.根据权利要求2所述的声音信号生成装置，其特征在于，

该声音信号生成装置还具有第4生成单元，该第4生成单元通过对所述第1生成单元所生成的连续的多个单位波形信号进行加权合成，生成起始端和结束端的振幅一致的单位波形信号，

所述第2生成单元构成为，使第4生成单元所生成的单位波形信号重复，来生成重复波形信号。

4.根据权利要求2或3所述的声音信号生成装置，其特征在于，

所述原音信号是语音信号，

该声音信号生成装置还具有判定所述原音信号是有声还是无声的单元。

5.根据权利要求2或3所述的声音信号生成装置，其特征在于，

所述原音信号是语音信号，

该声音信号生成装置还具有输出基于所生成的加工声音信号的语音的单元。