CN101796575A - 声音信号生成方法、声音信号生成装置以及计算机程序 - Google Patents
声音信号生成方法、声音信号生成装置以及计算机程序 Download PDFInfo
- Publication number
- CN101796575A CN101796575A CN200780100514A CN200780100514A CN101796575A CN 101796575 A CN101796575 A CN 101796575A CN 200780100514 A CN200780100514 A CN 200780100514A CN 200780100514 A CN200780100514 A CN 200780100514A CN 101796575 A CN101796575 A CN 101796575A
- Authority
- CN
- China
- Prior art keywords
- signal
- waveform
- unit
- sound
- generating device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004590 computer program Methods 0.000 title claims abstract description 22
- 230000008569 process Effects 0.000 claims description 21
- 230000000977 initiatory effect Effects 0.000 claims description 11
- 230000003252 repetitive effect Effects 0.000 claims description 9
- 239000000470 constituent Substances 0.000 claims description 8
- 230000000737 periodic effect Effects 0.000 claims description 7
- 230000006866 deterioration Effects 0.000 abstract description 15
- 230000035945 sensitivity Effects 0.000 abstract 2
- 230000003746 surface roughness Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 18
- 230000006835 compression Effects 0.000 description 10
- 238000007906 compression Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000009499 grossing Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000005039 memory span Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000002427 irreversible effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)
Abstract
本发明提供通过对原音信号进行加工生成加工声音信号来合成对噪声感、粗糙感等音质劣化进行了抑制的高质量语音的声音信号生成方法、声音信号生成装置以及计算机程序。本发明按照波形的间距单位分离原音信号,生成多个单位波形信号,针对各单位波形信号,生成重复波形信号,该重复波形信号是使所生成的单位波形信号的波形重复预定次数而得到的,通过按照形成原音信号的顺序以间距为单位使各个重复波形信号移动后进行叠加,来生成加工声音信号。
Description
技术领域
本发明涉及对原音信号进行加工来生成加工声音信号的声音信号生成方法、应用了该声音信号生成方法的声音信号生成装置以及用于实现该声音信号生成装置的计算机程序。
背景技术
近年来,通过语音来朗读邮件以及网站内容的文本数据的功能已被安装在例如便携电话等嵌入设备中。在实现这样的语音朗读功能的语音合成处理中,预先在内置存储器等记录单元中记录通过ADPCM(AdaptiveDifferential Pulse Code Modulation,自适应差分脉冲编码调制)等压缩方法对合成语音所需的语音单元数据进行压缩而记录的数据库即波形库。并且,在生成合成语音波形时,从波形库中读取所压缩的语音单元数据(speech segment data),进行解压解码,对解压解码得到的语音单元数据进行结合,并进行音高以及语速的调整等加工处理,由此生成语音信号,根据所生成的语音信号输出合成语音。
语音单元的生成方法以及语音合成方法例如在专利文献1中有所公开。
但是,通过对使用ADPCM等压缩方法压缩的语音信号进行解压解码而生成的语音有时产生噪声感、粗糙感等音质劣化。另外,在结合多个语音单元数据、调整语音的音高以及语速时,也有时产生噪声感、粗糙感等音质劣化。
图1是示出所生成的语音信号的波形的图。图1(a)示出了通过对所压缩的语音信号进行解压解码来生成的语音信号的波形,由于不可逆压缩带来的压缩以及解压时的噪声,所生成的语音信号的周期波形的各个间距中的振幅不尽相同。由于这样的各个间距的偏差、不平滑的变化等原因,在基于所生成的语音信号的合成语音中产生了噪声感、粗糙感等音质劣化。
图1(b)示出了在减慢语音的速度即所谓语速时生成的语音信号的波形,通过以间距为单位使同一语音单元的语音信号分别连续预定次数,生成了减慢语速的声音信号。对于这样的语音信号,间距波形的振幅变化变成阶梯状,成为音质劣化的原因。
作为防止这样的语音劣化的方法,存在通过降低压缩时的压缩率来防止由于不可逆压缩而产生的噪声的方法。另外,还存在下述方法:针对短时间内通过FFT处理将合成后的语音信号转换成频率轴上的成分而生成的频谱进行噪声消除处理后,通过FFT逆处理恢复成原来时间轴上的声音信号,由此防止语音劣化。
专利文献1:日本特开平8-160991号公报
但是,在降低压缩率的方法中,存在波形库所需的存储器容量增大的问题,在通过频率转换来消除噪声的方法中存在处理负荷增大的问题。当安装在受存储器容量以及处理能力的制约较大的便携电话等嵌入设备中时,这些问题成为不可忽视的问题。另外,从减少伴随运算处理的功耗的角度来看,也期望解决上述问题。
发明内容
本发明是鉴于该情况而完成的,其目的在于提供能够用较少的处理量不破坏原来的音质、减少在压缩解压、语音合成等处理中产生的音质劣化的声音信号生成方法、应用了该声音信号生成方法的声音信号生成装置以及用于实现该声音信号生成装置的计算机程序。
第1发明的声音信号生成方法对原音信号进行加工,生成加工声音信号,该原音信号具有重复大致相同波形的周期性间距,该声音信号生成方法的特征在于,按照波形的间距单位分离原音信号,生成多个单位波形信号;针对各单位波形信号,生成重复波形信号,该重复波形信号是使所生成的单位波形信号的波形重复预定次数而得到的;以及通过按照形成原音信号的顺序以间距为单位使各个重复波形信号移动后进行叠加,来生成加工声音信号。
第2发明的声音信号生成装置对原音信号进行加工,生成加工声音信号,该原音信号具有重复大致相同波形的周期性间距,该声音信号生成装置的特征在于,该声音信号生成装置具有:记录单元,其记录原音信号;读取单元,其读取记录在该记录单元中的原音信号;第1生成单元,其按照波形的间距单位分离所读取的原音信号,生成多个单位波形信号;第2生成单元,其针对各单位波形信号,生成连续波形信号,该连续波形信号是使单位波形信号的波形连续预定次数而得到的;以及第3生成单元,其生成加工声音信号,该加工声音信号是按照形成原音信号的顺序以间距为单位使各个连续波形信号移动后进行叠加而得到的。
第3发明的声音信号生成装置特征在于,在第2发明中该声音信号生成装置还具有:第4生成单元,其通过对所述第1生成单元所生成的连续的多个单位波形信号进行加权合成,生成起始端和结束端的振幅一致的单位波形信号,所述第2生成单元构成为,使第4生成单元所生成的单位波形信号连续,来生成连续波形信号。
第4发明的声音信号生成装置特征在于,在第2发明或第3发明中该声音信号生成装置还具有:滤波单元,其进行对加工声音信号的预定波长以上的振幅进行加重的高频加重处理。
第5发明的声音信号生成装置特征在于,在第4发明中,所述原音信号是语音信号,该声音信号生成装置还具有判定所述原音信号是有声还是无声的单元,所述滤波单元构成为,仅对基于被判定为有声的原音信号的加工声音信号进行高频加重处理。
第6发明的声音信号生成装置特征在于,在第2发明至第5发明中所述原音信号是语音信号,该声音信号生成装置还具有输出基于所生成的加工声音信号的语音的单元。
第7发明的计算机程序使计算机对原音信号进行加工,生成加工声音信号,该原音信号具有重复大致相同波形的周期性间距,该计算机程序的特征在于,该计算机程序使计算机执行下述步骤:按照波形的间距单位分离原音信号,生成多个单位波形信号的步骤;针对各单位波形信号,生成连续波形信号的步骤,该连续波形信号是使单位波形信号的波形连续预定次数而得到的;以及生成加工声音信号的步骤,该加工声音信号是按照形成原音信号的顺序以间距为单位使各个连续波形信号移动后进行叠加而得到的。
在第1发明、第2发明、第6发明以及第7发明中,可生成在抑制作为声音劣化原因的连续的间距单位波形的急剧变化的同时、几乎不破坏原来的声音信号的频谱包络形状的声音信号,因此尽管是较少的处理量但也能够减少音质劣化,而不会破坏原来的音质。
在第3发明中,通过使单位波形信号的起始端与结束端的振幅一致,可防止在所生成的连续波形信号中单位波形信号的相邻区间不连续,防止基于波形的不连续性的音质劣化。
在第4发明中,能够对由于使波形信号叠加的平滑化处理而降低的高波长区域的振幅进行加重,因此可保持原来的音质。
在第5发明中,通过仅对受平滑化处理的影响较大的有声进行高频加重处理,可防止对无声的高频进行过分加重,而破坏原来的音质成为刺耳的声音的问题。
本发明的声音信号生成方法、声音信号生成装置以及计算机程序按照波形的间距单位分离语音单元数据等原音信号的数据,生成多个单位波形信号;针对各单位波形信号,生成重复波形信号,该重复波形信号是使所生成的单位波形信号的波形重复预定次数而得到的;以及通过按照形成原音信号的顺序以间距为单位使各个重复波形信号移动后进行叠加,来生成加工声音信号。
根据该结构,在本发明中,由于进行使间距单位波形的时间变化均匀的处理,因此可生成在抑制作为语音劣化原因的连续的间距单位波形的急剧变化的同时,几乎不破坏原来的声音信号的频谱包络形状的声音信号。其结果,尽管是较少的处理量但也能够减少音质劣化,而不会破坏原来的音质。因此,本发明起到了如下等良好的效果,即:当使用记录原音信号的波形库等数据库进行语音合成时,无需较大的处理负荷就能消除噪声,防止音质的劣化。因此,与通过频率变换来消除噪声的方法相比,能够减少用于消除噪声的运算处理所需的功耗。另外,本发明起到了如下等良好的效果,即:当应用于对原音信号进行压缩后记录的波形库中时,能够减少波形库所需的存储容量,因此当应用于受存储器容量以及处理能力的制约较大的便携电话等嵌入设备中时,也能防止音质的劣化。而且,本发明起到了也能够消除波形库原来的原音信号中包含的噪声、提高音质等良好效果。
另外,本发明的声音信号生成装置等通过对连续的多个单位波形信号进行加权合成,生成起始端和结束端的振幅一致的单位波形信号,使所生成的单位波形信号连续,来生成连续波形信号。
通过该结构,本发明起到了如下良好的效果,即:通过使单位波形信号的起始端与结束端的振幅一致,可防止在所生成的连续波形信号中单位波形信号的邻接位置不连续,防止基于波形的不连续性的音质劣化。
并且,本发明的声音信号生成装置等起到了如下良好的效果,即:通过执行对加工声音信号的预定波长以上的振幅进行加重的高频加重处理,能够对由于使波形信号叠加的平滑化处理而降低的高波长区域的振幅进行加重,因此可保持原来的音质。
尤其在应用于语音合成时,起到了如下等良好效果,即:通过判定原音信号是有声还是无声、并仅对基于被判定为有声的原音信号的加工声音信号进行高频加重处理,仅对受平滑化处理的影响较大的有声进行高频加重处理,由此可防止对无声的高频进行过分加重、破坏原来的音质、成为刺耳的声音。
附图说明
图1是示出所生成的声音信号的波形的图。
图2是示出本发明的声音信号生成装置的结构例的框图。
图3是示出本发明的声音信号生成装置的语音输出处理的一例的流程图。
图4是示出本发明的声音信号生成装置的加工处理的一例的流程图。
图5是示出本发明的声音信号生成装置的加工处理的波形加工的一例的说明图。
图6是示出本发明的声音信号生成装置的边缘处理的一例的流程图。
图7是示出本发明的不进行边缘处理时的连续波形信号的波形加工的一例的说明图。
图8是示出本发明的声音信号生成装置的边缘处理的波形加工的一例的说明图。
图9是示出本发明的声音信号生成装置的声音输出处理的一例的流程图。
图10是示出本发明的声音信号生成装置的语音单元数据生成处理的流程图。
标号说明
1声音信号生成装置;10控制部;11记录部;11a波形数据库;11b读法数据库;145声音输出部;100计算机程序
具体实施方式
以下,根据示出本发明的实施方式的附图来详细叙述本发明。图2是示出本发明的声音信号生成装置的结构例的框图。在图2中,1是本发明的声音信号生成装置,其应用了便携电话等计算机,声音信号生成装置1具有对装置整体进行控制的CPU等控制部10、对通过控制部10的控制来执行的本发明的计算机程序100以及各种数据等信息进行记录的ROM、RAM等记录部11。并且,通过控制部10的控制执行记录在记录部11中的本发明的计算机程序100,由此便携电话等计算机作为本发明的声音信号生成装置1工作。另外,记录部11的记录区域的一部分用作通过ADPCM等压缩方法对表示生成合成语音所需的语音单元数据等声音信号的数据进行压缩后记录的被称为波形库的波形数据库(波形DB)11a、对汉字、假名、英语单词等的读法进行记录的读法数据库(读法DB)11b等各种数据库。并且,也可以使用数据库专用的存储器芯片进行大容量化和高速化,而不是将记录部11的记录区域的一部分用于各种数据库。由于本发明的声音信号生成装置1执行加工声音信号的波形的处理,因此在后面的说明中将记录在波形数据库11a中的声音信号称为原音信号,将加工后的声音信号称为加工声音信号。
并且,声音信号生成装置1具有作为通信接口的天线及其附属设备等的通信部12、麦克风等声音输入部13、扬声器等声音输出部14、以及进行声音信号的转换处理的声音转换部15。声音转换部15进行的转换处理是指将声音输入部13接收到的模拟信号即声音信号转换成数字信号的处理以及将数字信号转换成模拟信号以从声音输出部14输出的处理。并且,声音信号生成装置1具有接收英文数字以及各种指令等的按键输入操作的操作部16、以及显示各种信息的液晶显示器等显示部17。
并且,这里对使用便携电话来实现声音信号生成装置1的方式进行说明,但本发明不限于此,可通过具有对所合成的语音等声音进行输出的功能的个人计算机等各种计算机来实现。例如,在通过个人计算机来实现的情况下,通过CD-ROM驱动器等辅助存储部从记录有本发明的计算机程序100的CD-ROM等记录介质中读取计算机程序100,并将其记录在硬盘等记录部11中。然后,通过控制部10执行记录在记录部11中的计算机程序100,由此能够实现本发明的声音信号生成装置1。
接着,对本发明的声音信号生成装置1的处理进行说明。图3是示出本发明的声音信号生成装置1的语音输出处理的一例的流程图。当通过语音朗读例如邮件以及网站内容的文本数据时,声音信号生成装置1执行合成语音输出处理。声音信号生成装置1通过执行记录在记录部11中的计算机程序100的控制部10的控制,读取文本数据,从读法数据库11b中选择所读取的文本数据的读法(S101),从波形数据库11a中选择并读取与所选择的读法对应的压缩后的原音信号的数据(S102),对所读取的原音信号的数据进行解压解码(S103)。
然后,声音信号生成装置1根据控制部10的控制来执行对解压解码后的原音信号的数据进行加工并生成加工声音信号的加工处理(S104)。步骤S104的加工处理是使原音信号的间距单位的波形时间变化均匀的平滑化处理,是消除噪声等提高音质的处理。将在后面叙述加工处理的详细内容。
然后,声音信号生成装置1根据控制部10的控制,来执行基于加工声音信号合成语音信号的语音合成处理(S105),从声音输出部14输出基于合成后的语音信号的语音(S106)。这样地执行语音输出处理。
图4是示出本发明的声音信号生成装置1的加工处理的一例的流程图。声音信号生成装置1通过执行记录在记录部11中的计算机程序100的控制部10的控制,按照波形的间距单位分离所读取的原音信号,生成多个单位波形信号(S201)。声音信号生成装置1根据表示预先记录在波形数据库11a中的该原音信号的间距信息来识别原音信号的波形间距,但也可以根据波形的波峰间的间隔、波形的相关性等波形本身来检测。
声音信号生成装置1根据控制部10的控制,针对各单位波形信号生成使单位波形信号的波形连续5次等预定次数而得到的连续波形信号(S202),使用汉宁窗函数、汉明窗函数等窗函数对所生成的连续波形信号进行加窗处理(S203)。
并且,声音信号生成装置1根据控制部10的控制,生成加工声音信号的数据(S204),该加工声音信号是按照形成原音信号的顺序以间距为单位使各连续波形信号移动后进行叠加而得到的。例如,当生成了使单位波形信号的波形连续5次而得到的连续波形信号时,以间距为单位使各连续波形信号偏移后进行叠加,由此生成对连续的5个间距量的波形进行叠加而得到的1个间距量的波形。由于其以间距为单位求出波形的移动平均,因此是使原音信号的间距单位波形的时间变化均匀的平滑化处理,并且,当从单位波形信号生成连续波形信号时,通过适当选择的窗函数进行加窗处理。
然后,声音信号生成装置1根据控制部10的控制,判定与加工声音信号对应的原音信号的区间是有声还是无声(S205)。例如根据表示预先记录在波形数据库11a中的该原音信号的信息,判定有声还是无声。
当在步骤S205中判定为有声时(S205:是),声音信号生成装置1根据控制部10的控制,通过高频增强滤波器,执行对加工声音信号的预定波长以上的振幅进行加重的高频加重处理(S206)。并且,当在步骤S205中判定为无声时(S205:否),声音信号生成装置1不执行步骤S206的高频加重处理。由于在步骤S204中生成的加工声音信号降低了高波长区域的振幅,因此可通过进行高频加重处理来保持本来的音质。并且,对于无声而言,在高波长区域没有较大的下降,因此不进行高频加重处理。
对加工处理中的波形的具体加工进行说明。图5是示出本发明的声音信号生成装置1的加工处理的波形加工的一例的说明图。图5(a)示出了原音信号的波形的时间变化,用实线表示的长方形是在步骤S201中生成的按照间距单位分离的单位波形信号。并且,为了方便起见,用实线只示出了2个单位波形信号,但实际上分离后的间距单位的各个波形作为单位波形信号进行处理。
图5(b)示出了在步骤S202中生成的、使单位波形信号的波形连续预定次数而得到的连续波形信号。在图5(b)中示出了使在图5(a)中用实线的长方形表示的单位波形信号连续了5次而得到的连续波形信号。并且,图5(b)的虚线所示的曲线表示在步骤S203的加窗处理中针对连续波形信号使用的窗口函数的权重。
图5(c)示意地示出在步骤S204中按照形成原音信号的顺序以间距为单位使各连续波形信号移动即偏移的状态,图5(d)示出了对在步骤S204中以间距为单位移动的状态下的连续波形信号进行叠加而生成的加工声音信号的波形。如此这样执行加工处理。
图6是示出本发明的声音信号生成装置1的边缘处理的一例的流程图。在使用图4来示出的加工处理中,当在步骤S202中根据在步骤S201中生成的单位波形信号生成连续波形信号时,为了防止使单位波形信号邻接的位置不连续而进行边缘处理,由此能够进一步抑制发生噪声。声音信号生成装置1根据控制部10的控制,在步骤S201中生成单位波形信号,通过对所生成的连续的多个单位波形信号进行加权合成处理,生成起始端和结束端的振幅一致的单位波形信号(S301)。然后,声音信号生成装置1使用所生成的单位波形信号,执行步骤S202所示的生成连续波形信号之后的处理。
对边缘处理中的具体的加工进行说明。首先,对不进行边缘处理的情况进行说明。图7是示出本发明的不进行边缘处理时的连续波形信号的波形加工的一例的说明图。图7(a)示出了原音信号的波形的时间变化,图7(b)示出了按照间距单位分离的单位波形信号。图7(b)所示的单位波形信号的起始端与结束端的振幅存在表示为Δa的差分。图7(c)示出了使起始端与结束端的振幅存在Δa的差分的单位波形信号连续而生成的连续波形信号。如图7(c)所示,当使起始端与结束端的振幅存在Δa的差分的单位波形信号连续时,由于在使单位波形信号邻接的位置处存在Δa的差分,因此像作为对白进行放大表示的位置那样,成为不连续状态,因此发生噪声,从而成为音质劣化的原因。并且,图7中的实线所示的划分表示单位波形信号的划分。
图8是示出本发明的声音信号生成装置1的边缘处理的波形加工的一例的说明图。图8(a)示出了原音信号的波形的时间变化,如实线的长方形所示那样,使用连续的前一单位波形的信号对作为边缘处理对象的单位波形信号进行边缘处理。在图8(a)中,实线的长方形表示作为边缘处理对象的单位波形信号以及用于处理的前一单位波形信号。在图8(a)中虚线表示的曲线是分别对各个单位波形信号施加的权重,例如使用2个单位波形信号邻接的位置为1、边缘为0的汉宁窗等函数。
图8(b)示出了对各个单位波形信号加权的状态,虚线表示原来的单位波形信号的波形,实线表示加权后的单位波形信号的波形。
图8(c)示出了对加权后的单位波形信号进行合成的状态,虚线和点划线表示合成前的2个单位波形信号,实线表示合成后的单位波形信号。所合成的单位波形信号是在步骤S301中生成的单位波形信号,具有与原来的单位波形信号大致相同的形状,并且起始端和结束端的振幅一致。
图8(d)是使用在边缘处理中生成的单位波形信号来生成的连续波形信号。由于使用了通过端部处理使得起始端和结束端的振幅一致的单位波形信号,因此是不存在不连续部分的连续波形信号。并且,图8(d)中的实线所示的划分表示单位波形信号的划分。
这里示出了基于2个单位波形信号进行边缘处理的方式,但本发明不限于此,可以展开成各种方式,例如将4个连续的单位波形信号划分成2个,在基于2个单位波形信号进行边缘处理之后,进一步基于作为结果的2个单位波形信号进行边缘处理等。另外,不限于汉宁窗,只要2个单位波形信号邻接的位置为1、边缘为0、对应的各位置处的合计权重为1,就可使用各种加权用的函数。如此这样地执行加工处理和边缘处理。
本发明的声音信号生成装置1不仅能够消除在上述这样地对压缩的原音信号的数据进行解压解码时的噪声,还能用于提高未被压缩的原音信号的数据的音质。接着,说明对未被压缩的原音信号执行加工处理的语音输出处理。并且,假设在该语音输出处理中,在波形数据库11a中记录有未被压缩的原音信号的数据。
图9是示出本发明的声音信号生成装置1的语音输出处理的一例的流程图。声音信号生成装置1根据执行记录在记录部11中的计算机程序100的控制部10的控制,读取文本数据,从读法数据库11b中选择所读取的文本数据的读法(S401),从波形数据库11a中选择并读取与所选择的读法对应的原音信号的数据(S402)。
并且,声音信号生成装置1根据控制部10的控制,基于所读取的原音信号进行合成语音信号的语音合成处理(S403),执行对通过语音合成处理而根据原音信号合成的语音信号进行加工的加工处理(S404)。在步骤S404中执行的加工处理与使用图4来说明的加工处理相同,是使根据原音信号合成的语音信号的间距单位的波形时间变化均匀的平滑化处理。另外,根据需要执行边缘处理。
然后,声音信号生成装置1根据控制部10的控制,从声音输出部14输出基于实施加工处理后的合成语音的语音信号的语音(S405)。这样地执行基于未被压缩的原音信号的语音输出处理。
并且,声音信号生成装置1也能够对记录在波形数据库11a中的原音信号执行加工处理。在这样的处理的情况下,使用通用计算机等计算机来实现本发明的声音信号生成装置1。图10是示出本发明的声音信号生成装置1的语音单元数据生成处理的流程图。声音信号生成装置1根据执行记录在记录部11中的计算机程序100的控制部10的控制,对记录为语音单元数据的原音信号执行加工处理(S501),将加工处理后的原音信号作为语音单元数据记录在波形数据库11a中(S502)。在步骤S501中执行的加工处理与使用图4来说明的加工处理相同,是使根据原音信号合成的语音信号的间距单位的波形时间变化均匀的平滑化处理。另外,根据需要执行边缘处理。
这样生成的波形数据库11a用于图9所示的语音输出处理。但是,由于记录有已经实施加工处理的语音单元数据,因此不需要图9的步骤S404所示的加工处理。
在上述实施方式中,示出了在用语音朗读文本数据时应用于合成语音输出处理的方式,但本发明不限于此,可应用于电话应答服务的自动应答等各种服务中的语音合成。即本发明的实现方法不限于上述的实施方式,可展开成处理语音信号的各种方式。
Claims (7)
1.一种声音信号生成方法,其对原音信号进行加工,生成加工声音信号,该原音信号具有重复大致相同波形的周期性间距,该声音信号生成方法的特征在于,
按照波形的间距单位分离原音信号,生成多个单位波形信号;
针对各单位波形信号,生成重复波形信号,该重复波形信号是使所生成的单位波形信号的波形重复预定次数而得到的;以及
通过按照形成原音信号的顺序以间距为单位使各个重复波形信号移动后进行叠加,来生成加工声音信号。
2.一种声音信号生成装置,其对原音信号进行加工,生成加工声音信号,该原音信号具有重复大致相同波形的周期性间距,该声音信号生成装置的特征在于,
该声音信号生成装置具有:
记录单元,其记录原音信号;
读取单元,其读取记录在该记录单元中的原音信号;
第1生成单元,其按照波形的间距单位分离所读取的原音信号,生成多个单位波形信号;
第2生成单元,其针对各单位波形信号,生成连续波形信号,该连续波形信号是使单位波形信号的波形连续预定次数而得到的;以及
第3生成单元,其生成加工声音信号,该加工声音信号是按照形成原音信号的顺序以间距为单位使各个连续波形信号移动后进行叠加而得到的。
3.根据权利要求2所述的声音信号生成装置,其特征在于,
该声音信号生成装置还具有第4生成单元,该第4生成单元通过对所述第1生成单元所生成的连续的多个单位波形信号进行加权合成,生成起始端和结束端的振幅一致的单位波形信号,
所述第2生成单元构成为,使第4生成单元所生成的单位波形信号连续,来生成连续波形信号。
4.根据权利要求2或3所述的声音信号生成装置,其特征在于,
该声音信号生成装置还具有滤波单元,该滤波单元进行对加工声音信号的预定波长以上的振幅进行加重的高频加重处理。
5.根据权利要求4所述的声音信号生成装置,其特征在于,
所述原音信号是语音信号,
该声音信号生成装置还具有判定所述原音信号是有声还是无声的单元,
所述滤波单元构成为,仅对以被判定为有声的原音信号为基础的加工声音信号进行高频加重处理。
6.根据权利要求2至5中任意一项所述的声音信号生成装置,其特征在于,
所述原音信号是语音信号,
该声音信号生成装置还具有输出基于所生成的加工声音信号的语音的单元。
7.一种计算机程序,其使计算机对原音信号进行加工,生成加工声音信号,该原音信号具有重复大致相同波形的周期性间距,该计算机程序的特征在于,
该计算机程序使计算机执行下述步骤:
按照波形的间距单位分离原音信号,生成多个单位波形信号的步骤;
针对各单位波形信号,生成连续波形信号的步骤,该连续波形信号是使单位波形信号的波形连续预定次数而得到的;以及
生成加工声音信号的步骤,该加工声音信号是按照形成原音信号的顺序以间距为单位使各个连续波形信号移动后进行叠加而得到的。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2007/067377 WO2009031219A1 (ja) | 2007-09-06 | 2007-09-06 | 音信号生成方法、音信号生成装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101796575A true CN101796575A (zh) | 2010-08-04 |
CN101796575B CN101796575B (zh) | 2012-07-18 |
Family
ID=40428542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007801005142A Active CN101796575B (zh) | 2007-09-06 | 2007-09-06 | 声音信号生成方法以及声音信号生成装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8280737B2 (zh) |
JP (1) | JP5141688B2 (zh) |
CN (1) | CN101796575B (zh) |
WO (1) | WO2009031219A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062321A (zh) * | 2018-08-01 | 2018-12-21 | 歌尔股份有限公司 | 一种信号生成方法、设备及存储介质 |
CN109313249A (zh) * | 2016-06-28 | 2019-02-05 | 微软技术许可有限责任公司 | 音频增强现实系统 |
CN111837183A (zh) * | 2018-03-09 | 2020-10-27 | 雅马哈株式会社 | 声音处理方法、声音处理装置及记录介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013049256A1 (en) * | 2011-09-26 | 2013-04-04 | Sirius Xm Radio Inc. | System and method for increasing transmission bandwidth efficiency ( " ebt2" ) |
EP2814166B1 (en) | 2013-06-10 | 2017-11-15 | General Electric Technology GmbH | An alternate arm converter |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1601811A (en) * | 1977-02-22 | 1981-11-04 | Morling R C S | Signal processing |
US4672667A (en) * | 1983-06-02 | 1987-06-09 | Scott Instruments Company | Method for signal processing |
JP3030869B2 (ja) * | 1990-12-28 | 2000-04-10 | 株式会社明電舎 | 音声合成装置の音源データ生成方法 |
US5810600A (en) * | 1992-04-22 | 1998-09-22 | Sony Corporation | Voice recording/reproducing apparatus |
CA2137459A1 (en) * | 1993-05-04 | 1994-11-10 | Stephen V. Cahill | Apparatus and method for substantially eliminating noise in an audible output signal |
US5864812A (en) * | 1994-12-06 | 1999-01-26 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments |
JPH08160991A (ja) | 1994-12-06 | 1996-06-21 | Matsushita Electric Ind Co Ltd | 音声素片作成方法および音声合成方法、装置 |
JPH08335095A (ja) * | 1995-06-02 | 1996-12-17 | Matsushita Electric Ind Co Ltd | 音声波形接続方法 |
JPH09325798A (ja) * | 1996-06-06 | 1997-12-16 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH10214100A (ja) * | 1997-01-31 | 1998-08-11 | Sony Corp | 音声合成方法 |
SG65729A1 (en) * | 1997-01-31 | 1999-06-22 | Yamaha Corp | Tone generating device and method using a time stretch/compression control technique |
JP3397082B2 (ja) * | 1997-05-02 | 2003-04-14 | ヤマハ株式会社 | 楽音発生装置および方法 |
WO1999059139A2 (en) * | 1998-05-11 | 1999-11-18 | Koninklijke Philips Electronics N.V. | Speech coding based on determining a noise contribution from a phase change |
JP2002244693A (ja) * | 2001-02-16 | 2002-08-30 | Matsushita Electric Ind Co Ltd | 音声合成装置および音声合成方法 |
JP4056319B2 (ja) * | 2002-07-31 | 2008-03-05 | 三洋電機株式会社 | 音声合成方法 |
CN100343893C (zh) * | 2002-09-17 | 2007-10-17 | 皇家飞利浦电子股份有限公司 | 用于稳定音信号合成的方法和文本到语音转换的合成系统 |
JP4038211B2 (ja) * | 2003-01-20 | 2008-01-23 | 富士通株式会社 | 音声合成装置,音声合成方法および音声合成システム |
JP2006220806A (ja) * | 2005-02-09 | 2006-08-24 | Kobe Steel Ltd | 音声信号処理装置,音声信号処理プログラム,音声信号処理方法 |
-
2007
- 2007-09-06 WO PCT/JP2007/067377 patent/WO2009031219A1/ja active Application Filing
- 2007-09-06 JP JP2009531057A patent/JP5141688B2/ja active Active
- 2007-09-06 CN CN2007801005142A patent/CN101796575B/zh active Active
-
2010
- 2010-02-10 US US12/703,394 patent/US8280737B2/en active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313249A (zh) * | 2016-06-28 | 2019-02-05 | 微软技术许可有限责任公司 | 音频增强现实系统 |
CN109313249B (zh) * | 2016-06-28 | 2023-06-27 | 微软技术许可有限责任公司 | 音频增强现实系统 |
CN111837183A (zh) * | 2018-03-09 | 2020-10-27 | 雅马哈株式会社 | 声音处理方法、声音处理装置及记录介质 |
CN109062321A (zh) * | 2018-08-01 | 2018-12-21 | 歌尔股份有限公司 | 一种信号生成方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5141688B2 (ja) | 2013-02-13 |
JPWO2009031219A1 (ja) | 2010-12-09 |
WO2009031219A1 (ja) | 2009-03-12 |
US20100145690A1 (en) | 2010-06-10 |
US8280737B2 (en) | 2012-10-02 |
CN101796575B (zh) | 2012-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7630883B2 (en) | Apparatus and method for creating pitch wave signals and apparatus and method compressing, expanding and synthesizing speech signals using these pitch wave signals | |
CN101116136B (zh) | 声音合成的装置和方法 | |
US6711538B1 (en) | Information processing apparatus and method, and recording medium | |
CN101796575B (zh) | 声音信号生成方法以及声音信号生成装置 | |
CN102414742B (zh) | 低复杂度听觉事件边界检测 | |
CN1356687A (zh) | 语音合成装置和方法 | |
US8180002B2 (en) | Digital signal processing device, digital signal processing method, and digital signal processing program | |
WO2022089097A1 (zh) | 音频处理方法、装置及电子设备和计算机可读存储介质 | |
JP4170458B2 (ja) | 波形信号の時間軸圧縮伸長装置 | |
KR20010111630A (ko) | 시간/피치 변환 장치 및 시간/피치 변환 방법 | |
US20060271374A1 (en) | Method for compression and expansion of digital audio data | |
JP3379348B2 (ja) | ピッチ変換器 | |
US7668848B2 (en) | Method and system for selectively decoding audio files in an electronic device | |
US8368569B2 (en) | Data converting device, program and method | |
JP2000099093A (ja) | 音響信号の符号化方法 | |
CN112752192B (zh) | 电路装置、声音再现装置及电子设备 | |
JP2014021162A (ja) | 復号装置、復号方法、及びプログラム | |
US6660923B2 (en) | Method for extracting the formant of a musical tone, recording medium and apparatus for extracting the formant of a musical tone | |
Tang et al. | An Efficient Real-Time Pitch Correction System via Field-Programmable Gate Array | |
JP3787986B2 (ja) | 音波形データ圧縮・復元方式とその動作を実行するためのプログラムを記録した記録媒体 | |
CN116524951A (zh) | 音频处理方法和装置 | |
JP2011033672A (ja) | 音声信号変換装置、音声信号変換方法および音声信号変換プログラム | |
JPS5968793A (ja) | 音声合成装置 | |
JP3588266B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
JPH06161460A (ja) | 楽音信号の音源装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |