CN1171396C - 语音声音通信系统 - Google Patents
语音声音通信系统 Download PDFInfo
- Publication number
- CN1171396C CN1171396C CNB001068253A CN00106825A CN1171396C CN 1171396 C CN1171396 C CN 1171396C CN B001068253 A CNB001068253 A CN B001068253A CN 00106825 A CN00106825 A CN 00106825A CN 1171396 C CN1171396 C CN 1171396C
- Authority
- CN
- China
- Prior art keywords
- information
- sound
- voice
- speech
- phonetic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004891 communication Methods 0.000 title claims abstract description 150
- 238000013518 transcription Methods 0.000 claims description 88
- 230000035897 transcription Effects 0.000 claims description 88
- 230000002194 synthesizing effect Effects 0.000 claims description 71
- 230000005540 biological transmission Effects 0.000 claims description 41
- 230000005236 sound signal Effects 0.000 claims description 40
- 230000033764 rhythmic process Effects 0.000 claims description 32
- 238000006243 chemical reaction Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 25
- 238000013500 data storage Methods 0.000 claims description 25
- 230000001755 vocal effect Effects 0.000 claims description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 20
- 238000003786 synthesis reaction Methods 0.000 claims description 20
- 238000004519 manufacturing process Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000000926 separation method Methods 0.000 description 6
- 230000000737 periodic effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 229940035289 tobi Drugs 0.000 description 2
- NLVFBUXFDBBNBW-PBSUHMDJSA-N tobramycin Chemical compound N[C@@H]1C[C@H](O)[C@@H](CN)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](N)[C@H](O)[C@@H](CO)O2)O)[C@H](N)C[C@@H]1N NLVFBUXFDBBNBW-PBSUHMDJSA-N 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Document Processing Apparatus (AREA)
Abstract
在本发明的语音声音通信系统中,接收装置接收通信路径上的代码序列,并发送到分离装置。分离装置将代码序列分离成语音代码序列和文本信息,输出到合成装置和语言分析装置。合成装置将语音代码序列解码成音高周期、LSP系数、代码数字等,以便再现语音声音。语言分析装置将文本信息转换成发音和重音信息,韵律产生装置将其加到韵律信息上。音段读出装置从音段数据库读出适合该音素的LSP系数、代码数字,并从韵律信息中取得音高频率,输入合成装置,合成为语音声音。
Description
技术领域
本发明涉及在便携式电话、互连网等上通过使用语音声音进行信息传输的方法。
背景技术
由诸如同轴电缆等有线通信路径连接接收机和发射机,或由诸如电磁波等无线电通信路径连接接收机和发射机,以构成语音声音通信系统。虽然,过去以模拟通信为主流,在这些通信路径上直接传播声信号或将其调制成载波在通信路径上传播,但现在数字通信正成为主流,它将声信号经过编码后再传播,其目的在于,根据抗噪声特性或畸变,提高通信质量和增加通信信道数。
便携式电话之类的近代通信系统,使用CELP[Schroeder M.R.和Atal B.S.:码激励线性预测“在极低比特率下的高质量语音”Pros.IEEE ICASSP’85,25.1.1,(1985年4月)]系统,以校正由这种通信系统的快速扩散造成的传输无线电波频带的缺陷。
图7例示了CELP语音编码和解码系统的结构。
在编码端(即,发送终端)上的处理如下。通过分帧(例如,一帧为10ms),处理语音声音信号。在LPC(线性预测编码)分析装置200,对所输入的语音声音进行LPC分析,以便将其转换成代表声道传输函数的LPC系数αi。
在线谱对(LSP)参数量化装置201,将LPC系数αi转换和量化为LSP系数αqi。将αqi送到合成滤波器202,借助于从自适应代码薄203读出的、对应于代码数字ca的发声源波形,来合成语音声音波形。通过与上述处理同时使用自动校正方法或诸如此类,计算出音高周期T0,根据所述音高周期T0,将发声源波形作为周期性波形输入。
通过听觉加权滤波器206,从待输入畸变计算器207的输入语音声音中减去经合成的语音声音波形。在改变自适应代码薄203之代码数字ca的同时,畸变计算器207反复计算合成波形和输入波形之间的能量差,并确定使能量值最小的代码数字ca。
然后,在相似处理之后,将在确定的ca下读出的发声源波形和根据噪声代码薄204的代码数字cr读出的噪声源波形相加,以确定使畸变最小的代码数字cr。还确定增益值,其中增益值将通过上述完成的处理与发声源波形和噪声源波形相加,以便从增益代码薄205中选出与其对应的最合适的增益矢量,以确定代码数字cg。
将如上述确定的LSP系数αqi、音高周期T0、自适应代码数字ca、噪声代码数字cr、和增益代码数字cg收集到将在通信路径上发送的一个数据序列中。
另一方面,在解码端(即,接收终端)上的处理如下。
将从通信路径接收到的数据序列分解成LSP系数αqi、音高周期T0、自适应代码数字ca、噪声代码数字cr、和增益代码数字cg。根据音高周期T0和自适应代码数字ca从自适应代码薄208读出周期性的发声源,并根据噪声代码数字cr,从噪声代码薄209读出噪声源波形。
每个发声源接收一个由增益调节的幅度,其中所述增益由增益矢量表示,而增益矢量则根据待输入到合成滤波器211的增益代码数字cg,从增益代码薄210中读出。合成滤波器211根据LSP系数αqi合成语音声音。
上述语音声音通信系统的主要目的是,通过压缩编码的输入语音声音,用有限的通信路径容量来有效地传播语音声音。也就是说,通信对象只是人类发出的语音声音。
然而,现今的通信服务不只限于在远距离位置上的人类之间的语音声音通信,而正在广泛地采用诸如电子邮件或短消息之类的服务,这时数据是通过利用发送终端的输入文本。把数据发送到远处的接收终端的。从设备向人类提供语音声音变得很重要,诸如由CTI(计算机电话一体化)代表的语音声音提供多种信息或以语音声音提供该设备的操作方法。此外,通过使用将文本信息转换成语音声音的语音声音规定合成技术,有可能在电话上听电子邮件、新闻等的内容,最近,这已经吸引了人们的注意。
这样,需要一种通信服务方式,使文本信息转换成语音声音。考虑下述的两种形式作为实现这些服务的方法。
一种方法是通过使用正常的语音声音传输,将在服务提供端合成的语音声音发送给用户。在这种方法的情况下,和现有技术一样,在接收端的终端设备仅接收和再现语音声音信号,而且可以使用普通的硬件。
然而,大量文本的有声化意味着要使语音声音流在通信路径中保持较长的时间周期,在使用诸如便携式电话的通信系统的情况下,有必要在较长的时间周期中保持连接。相应地,存在通信费用太贵的问题。
另一个方法是在通信路径上以文本的形式发送信息之后,让用户听到由在接收终端的语音声音合成装置转换的语音声音。在这种方法的情况下,信息传输量是一个极小的量,诸如语音声音的几百分之一,使之可以以极短的时间周期发送。相应地,通信费用较低,而且如果将文本存储在接收终端中,则任何时候用户希望听该信息就可以将它转换成语音声音。还有一个优点是在转换成语音声音时可以选择不同类型的话音,诸如男声或女声、语音速率、高音高或低音高等等。
然而,在接收端作为终端装置安装的语音声音合成装置有与普通接收终端(诸如便携式电话)不同的电路,因此,应该安装合成语音声音的新电路,这就导致增加电路规模和增加终端装置成本的问题。
发明内容
考虑到通信方法的这种传统的问题,本发明的目的是提供一种语音声音通信系统,它具有较小的通信负担并且在接收终端上具有更简单的合成装置。
为了解决上述问题,本发明提供了一种语音声音通信系统。该语音声音通信系统包括:
发送单元,它具有文本输入装置和发送装置;
接收单元,它具有接收装置、语言分析装置、韵律产生装置、音段数据存储装置、音段读出装置和合成装置,
其中,所述文本输入装置输入文本信息;
所述发送装置将所述文本信息发送到通信路径;
所述接收装置从所述通信路径接收所述文本信息;
所述语言分析装置分析所述文本信息,以致将所述文本信息转换成音位标音信息;
所述韵律产生装置将所述音位标音信息转换成带韵律的音标;
所述音段读出装置根据所述带有韵律信息的音位标音信息,从所述音段数据存储装置中读出音段数据;
所述合成装置使用所述带有韵律信息的音位标音信息和所述音段数据,合成语音声音;
所述音段数据存储装置存储发声源特征和声道传送特征信息;以及
所述合成装置通过产生发声源波形,并根据所述声道传送特征信息对所述发声源波形进行滤波处理,来合成语音声音,其中所述发声源波形具有根据所述韵律信息的周期和根据所述发声源特征的特征。
在上述语音声音通信系统中,所述发送单元具有语音声音输入装置、语音编码装置和多路复用装置;
所述接收单元具有分离装置;
所述语音声音输入装置输入语音声音信号;
所述语音编码装置通过对要编码的信号的音高、发声源特征和声道传送特征进行分析,将所述输入语音声音信号转换成语音代码序列;
所述多路复用装置对待转换成一个代码序列的所述文本信息和所述语音代码序列进行多路复用;
所述分离装置将所述代码序列分离成所述文本信息和所述语音代码序列;以及
所述合成装置将所述语音代码序列转换成语音声音信号。
依照本发明的另一方面,提供了一种语音声音通信系统,它包括具有文本输入装置、语言分析装置和发送装置的发送单元;以及具有接收装置、韵律产生装置、音段数据存储装置、音段读出装置和合成装置的接收单元,其中,
所述文本输入装置输入文本信息;
所述语言分析装置将所述文本信息转换成音位标音信息;
所述发送装置将所述音位标音信息发送到通信路径;
所述接收装置接收来自所述通信路径的所述音位标音信息;
所述韵律产生装置将所述音位标音信息转换成带有韵律信息的音位标音信息;
所述音段读出装置根据所述带有韵律信息的音位标音信息,从所述音段数据存储装置中读出音段数据;
所述合成装置使用所述带有韵律信息的音位标音信息的所述音段数据,合成语音声音;
所述音段数据存储装置存储发声源特征和声道传送特征信息;以及
所述合成装置通过产生发声源波形,并根据所述声道传送特征信息对所述发声源波形进行滤波处理,来合成语音声音,其中所述发声源波形具有根据所述韵律信息的周期和根据所述发声源特征的特征。
在上述语音声音通信系统中,所述发送单元具有语音声音输入装置、语音编码装置和多路复用装置;
所述接收单元具有分离装置;
所述语音声音输入装置输入语音声音信号;
所述语音编码装置通过对要编码的信号的音高、发声源特征和声道传送特征进行分析,将所述输入语音声音信号转换成语音代码序列;
所述多路复用装置对所述文本信息和所述声音语音代码序列进行多路复用,以便产生一个代码序列‘
所述分离装置将所述代码序列分离成所述文本信息和所述语音代码序列;以及
所述合成装置将所述语音代码序列转换成语音声音信号。
依照本发明的再一方面,提供了一种语音声音通信系统,它包括具有文本输入装置、语言分析装置、韵律产生装置和发送装置的发送单元;以及具有接收装置、音段数据存储装置、音段读出装置和合成装置的接收单元,其中,
所述文本输入装置输入文本信息;
所述语言分析装置将所述文本信息转换成音位标音信息;
所述韵律产生装置将所述音位标音信息转换成带有韵律信息的音位标音信息;
所述发送装置将所述带有韵律信息的音位标音信息发送到通信路径;
所述接收装置接收来自所述通信路径的所述音位标音信息;
所述音段读出装置根据所述带有韵律信息的音位标音信息,从所述音段数据存储装置中读出音段数据;
所述合成装置通过利用带有韵律信息的音位标音信息和所述音段数据,合成语音声音;
所述音段数据存储装置存储发声源特征和声道传送特征信息;以及
所述合成装置通过产生发声源波形,并根据所述声道传送特征信息对所述发声源波形进行滤波处理,来合成语音声音,其中所述发声源波形具有根据所述韵律信息的周期和根据所述发声源特征的特征。
在上述语音声音通信系统中,所述发送单元具有语音输入装置、语音编码装置和多路复用装置;
所述接收单元具有分离装置;
所述语音输入装置输入语音声音信号;
所述语音编码装置通过对要编码的信号的音高、发声源特征和声道传送特征进行分析,将所述语音声音信号转换成语音代码序列;
所述多路复用装置对所述带有韵律信息的音位标音信息和所述语音代码序列进行多路复用,以便产生一个代码序列;
所述分离装置将所述代码序列分离成所述带有韵律信息的音位标音信息和所述语音代码序列;以及
所述合成装置将所述语音代码序列转换成语音声音信号。
依照本发明的另一方面,提供了一种语音声音通信系统,它包括:
发送单元,具有文本输入装置和第一发送装置;
转发单元,具有第一接收装置、语言分析装置和第二发送装置;以及
接收单元,具有第二接收装置、韵律产生装置、音段数据存储装置、音段读出装置和合成装置;其中,
所述文本输入装置输入文本信息;
所述第一发送装置将所述文本信息发送到第一通信路径;
所述第一接收装置接收来自所述第一通信路径的所述文本信息;
所述语言分析装置将所述文本信息转换成音位标音信息;
所述第二发送装置将所述音位标音信息发送到第二通信路径;
所述第二接收装置接收来自所述第二通信路径的所述音位标音信息;
所述韵律产生装置将所述音位标音信息转换成带有韵律信息的音位标音信息;
所述音段读出装置根据所述带有韵律信息的音位标音信息,从所述音段数据存储装置中读出音段数据;
所述合成装置通过使用所述带有韵律信息的音位标音信息和所述音段数据,合成语音声音;
所述音段数据存储装置存储发声源特征和声道传送特征信息;以及
所述合成装置通过产生发声源波形,并根据所述声道传送特征信息对所述发声源波形进行滤波处理,来合成语音声音,其中所述发声源波形具有根据所述韵律信息的周期和具有根据所述发声源特征的特征。
在上述语音声音通信系统中,所述发送单元具有语音声音输入装置、语音编码装置和第一多路复用装置;
所述转发单元具有第一分离装置和第二多路复用装置;
所述接收单元具有第二分离装置;
所述语音声音输入装置输入语音声音信号;
所述语音编码装置通过对要编码的信号的音高、发声源特征和声道传送特征进行分析,将所述语音声音信号转换成语音代码序列;
所述第一多路复用装置对所述文本信息和所述语音代码序列进行多路复用,以便产生一个代码序列;
所述第一分离装置将所述代码序列分离成所述文本信息和所述语音代码序列;
所述第二多路复用装置对所述音位标音信息和所述语音代码序列进行多路复用,以便产生一个代码序列;
所述第二分离装置将所述第二多路复用装置多路复用后的代码序列分离成所述音位标音信息和所述语音代码序列;以及
所述合成装置将所述语音代码序列转换成语音声音信号。
依照本发明的另一方面,提供了一种语音声音通信系统,它包括:
发送单元,具有文本输入装置和第一发送装置;
转发单元,具有第一接收装置、语言分析装置、韵律产生装置和第二发送装置;以及
接收单元,具有第二接收装置、音段数据存储装置、音段读出装置和合成装置;其中,
所述文本输入装置输入文本信息;
所述第一发送装置将所述文本信息发送到第一通信路径;
所述第一接收装置接收来自所述第一通信路径的所述文本信息;
所述语言分析装置将所述文本信息转换成音位标音信息;
所述韵律产生装置将所述音位标音信息转换成带有韵律信息的音位标音信息;
所述第二发送单元将所述带有韵律信息的音位标音信息发送到第二通信路径;
所述第二接收单元接收来自所述第二通信路径的、带有韵律信息的所述音位标音信息;
所述音段读出装置根据所述带有韵律信息的音位标音信息,从所述音段数据存储装置中读出音段数据;
所述合成装置通过使用所述带有韵律信息的音位标音信息和所述音段数据,合成语音声音;
所述音段数据存储装置存储发声源特征和声道传送特征信息;以及
所述合成装置通过产生发声源波形,并根据所述声道传送特征信息对所述发声源波形进行滤波处理,来合成语音声音,其中所述发声源波形具有根据所述韵律信息的周期和具有根据所述发声源特征的特征。
在上述语音声音通信系统中,所述发送单元具有语音声音输入装置、语音编码装置和第一多路复用装置;所述转发单元具有第一分离装置和第二多路复用装置,而所述接收单元具有第二分离装置;
所述语音声音输入装置输入语音声音信号;
所述语音编码装置通过对要编码的信号的音高、发声源特征和声道传送特征进行分析,将所述语音声音信号转换成语音代码序列;
所述第一多路复用装置对所述文本信息和所述语音代码序列进行多路复用,以便产生一个代码序列;
所述第一分离装置将所述代码序列分离成所述文本信息和所述代码序列;
所述第二多路复用装置对所述带有韵律信息的音位标音信息和所述语音代码序列进行多路复用,以便产生一个代码序列。
所述第二分离装置将所述第二多路复用装置所多路复用的代码序列分离成所述带有韵律信息的音位标音信息和所述语音代码序列;以及
所述合成装置将所述语音代码序列转换成语音声音信号。
依照本发明的另一方面,提供了一种语音声音通信系统,它包括:发送单元,具有文本输入装置、语言分析装置和第一发送装置;转发单元,具有第一接收装置、韵律产生装置和第二发送装置;以及接收单元,具有第二接收装置、音段数据存储装置、音段读出装置和合成装置;其中,
所述文本输入装置文本信息;
所述语言分析装置将所述文本信息转换成音位标音信息;
所述第一发送装置将所述音位标音信息发送到第一通信路径;
所述第一接收装置接收来自所述第一通信路径的所述音位标音信息;
所述韵律产生装置将所述音位标音信息转换成带有韵律信息的音位标音信息;
所述第二发送装置将所述带有韵律信息的音位标音信息发送到第二通信路径;
所述第二接收装置接收来自所述第二通信路径的所述带有韵律信息的音位标音信息;
所述音段读出装置根据所述带有韵律信息的音位标音信息,从所述音段数据存储装置中读出音段数据;
所述合成装置通过使用所述带有韵律信息的音位标音信息和所述音段数据,合成语音声音;
所述音段数据存储装置存储发声源特征和声道传送特征信息;以及
所述合成装置通过产生发声源波形合成语音声音,并根据所述声道传送特征信息对所述发声源波进行滤波处理形,来合成语音声音,其中所述发声源波形具有根据所述韵律信息的周期和根据所述发声源特征的特征。
对于上述语音声音通信系统,所述发送单元具有语音声音输入装置、语音编码装置和第一多路复用装置;所述转发单元具有第一分离装置和第二多路复用装置,而所述接收单元具有第二分离装置;
所述语音声音输入装置输入语音声音信号;
所述语音编码装置通过对要编码的信号的音高、发声源特征和声道传送特征进行分析,将所述语音声音信号转换成语音代码序列;
所述第一多路复用装置对所述音位标音信息和所述语音代码序列进行多路复用,以便产生一个代码序列的
所述第一分离装置将所述代码序列分离成所述音位标音信息和所述语音代码序列;
所述第二多路复用装置对所述带有韵律信息的音位标音信息和所述语音代码序列进行多路复用,以便产生一个代码序列;
所述第二分离装置将所述第二多路复用装置多路复用后的所述代码序列分离成所述带有韵律信息的音位标音信息和所述语音代码序列;以及
所述合成装置将所述语音代码序列转换成语音声音信号。
在前述任何一种语音声音通信系统中,用户可以将任意的文本输入到文本输入装置中。所述文本输入装置可以通过从存储媒体、互连网、LAN或者数据库读出文本,来完成输入。所述系统还可以包括参数输入装置,并且用户可以按要求通过参数输入装置输入语音声音的参数值,而所述韵律产生装置和所述音段读出装置输出根据所述参数值修改的值。
附图说明
图1示出根据本发明的语音声音通信系统的第一种模式的组成图;
图2示出根据本发明的语音声音通信系统的第二种模式的组成图;
图3示出根据本发明的语音声音通信系统的第三种模式的组成图;
图4示出根据本发明的语音声音通信系统的第四种模式的组成图;
图5示出根据本发明的语音声音通信系统的第五种模式的组成图;
图6示出根据本发明的语音声音通信系统的第五种模式的组成图;
图7示出一示意图,用于说明现有的语音编码和解码系统;
图8示出一示意图,用于说明进行语言分析装置的处理;
图9示出韵律产生装置、韵律变换装置、以及合成装置和周围区域的详细的组成图;
图10示出韵律产生装置的音高表;
图11示出韵律产生装置的时间长度表;
图12示出一示意图,用于说明韵律产生装置的处理;
图13示出一示意图,用于说明韵律转换装置的处理;以及
图14示出一示意图,用于说明韵律产生装置通过插入法产生连续的音高模式的一种方法。
具体实施方式
下面参考附图描述本发明的各种实施例。
[模式1]
图1示出根据本发明的语音声音通信系统的第一种实施例。语音声音通信系统包括发送终端和接收终端,通过通信路径将它们连接。在有些情况下,传输路径包括一包含交换或其类似的转发器。
发送终端装备有文本输入装置100,将它的输出端连接到多路复用装置104。还装备有语音声音输入装置101,将它的输出端通过AD转换装置102和语音编码装置103连接到多路复用装置104。将多路复用装置104的输出端连接到发送装置105。
接收终端装备有接收装置106,将它的输出端连接到分离装置107。将分离装置107的输出端连接到语言分析装置108和合成装置115。将词典109连接到语言分析装置108。将语言分析装置108的输出端连接到韵律产生装置110。将韵律数据库111连接到韵律产生装置110。将韵律产生装置110的输出端连接到韵律变换装置112,将韵律变换装置112的输出端连接到音段读出装置113。将音段数据库114连接到音段读出装置113。
将韵律变换装置112和音段读出装置113两者的输出端连接到合成装置115。将合成装置115的输出端通过DA转换装置116连接到语音声音输出装置117。还提供参数输入装置118,将它连接到韵律变换装置112和音段读出装置113。
下面说明如此地构成的语音声音通信系统的工作情况。首先说明发送终端上的工作。
语音编码装置103以与现有技术相同的方法分析语音声音,以致使待输出到多路复用装置104的LSP系数αqi、音高周期T0、自适应代码数字ca 、噪声代码数字cr和增益代码数字cg的信息编码成为语音代码序列。
文本输入装置110接收用户通过键盘等输入的文本信息作为所需的文本,如果要从多路复用装置104输出的话,将它转换成所要求的形式。多路复用装置104根据时间分隔将语音代码序列和文本信息多路复用,因而再安排数据序列的顺序,以便通过发送装置105在通信路径上发送。
通过数据通信方法手段使这种多路复用的方法成为可能,所述数据通信方法手段是使用在目前一般应用的便携式电话的短消息服务等中的。
其次,说明接收终端的工作。接收装置106接收来自通信路径的上述的数据序列,以待输出到分离装置107。分离装置107将数据序列分离成语音代码序列和文本信息,因此分别将语音代码序列输出到合成装置115和文本信息输出到语言分析装置108。
通过与现有技术相同的处理,将语音代码序列在合成装置115转换成语音声音信号,以作为语音声音通过DA转换装置116和语音声音输出装置117输出。
另一方面,通过使用语言分析装置108中的词典109等,将文本信息转换成表示发音、重音等信息的音位标音信息,并将其输入到韵律产生装置110。如果必须转换成带有韵律信息的音位标音信息,则通过主要使用重音信息和发音信息,参考韵律数据库111,韵律产生装置将与每个音素定时、每个音素音高以及每个音素的幅度有关的韵律信息的相加。
如果必须,由韵律变换装置112从带有韵律信息的音位标音信息变换韵律信息。例如,根据相应的要求由用户设置的参数(诸如语音速度、高音高或低音高等)变换韵律信息。由变换对每个音素的定时信息来改变语音速度以及由变换对每个音素的音高信息来改变高音高或低音高。由用户按要求在参数输入装置118建立这种设置。
将带有韵律信息的音位标音信息分成音高周期信息T0和保留信息,并将T0输入合成装置115,所述韵律信息具有它的从韵律变换装置112变换的韵律。将保留信息输入到音段读出装置113。音段读出装置113通过使用从韵律变换装置112接收的信息从音段数据库114读出适当的音段,并将所存储的LSP参数αqi、自适应代码数字ca、噪声代码数字cr和增益代码数字cg作为音段数据输出到合成装置115。
合成装置115合成来自这些信息T0、αqi、ca、cr和cg片的语音声音,并通过DA转换装置和语音声音输出装置117作为语音声音输出。
[语言分析装置的工作]
其次,说明在上述第一实施例中的语言分析装置的工作。
图8描述语言分析装置108的处理方法。图8(a)示出日语的例子,图8(b)示出英语的例子和图8(c)示出中文的例子。下面说明在图8(a)中的日文例子。
图8(a)的上面的方框示出输入的文本。输入文本是“今天天气好”。利用词典109,通过模式语子分析、句法分析等,在下面的框中将文本最后地转换成音标(音素符号、重音信息等)。“Kyo”或“o”描述日文的一个节拍(节拍,一个音节装置)的发音,“,”表示停顿以及“/”表示重音词组的分离。加到音素符号上的“’”表示重音的中心装置。
在图8(b)中的英文情况下,处理结果说明音素符号为“ih”或“t”,音节边界为“-”,以及主加重和次加重为“1”和“2”。在图8(c)中的中文情况下,“今”
(jin)或“天”(tian)表示拼音代码,它们是音节装置的音素符号,加到每个音节符号上的数字表示音调信息。
在每种语言中,这些成为用于合成带自然语调的语音声音的信息。
[从韵律产生到合成的工作]
其次,说明从韵律产生到合成的工作。
图9示出韵律产生装置110、韵律变换装置112、音段读出装置113、合成装置115和它们周围的组成。如虚线所示,将语音代码从分离装置107输入到合成装置115,合成装置115对语音解码进行正常的操作。
另一方面,如实线所示,从韵律变换装置112和音段读出装置113输入数据,这是在使用文本进行语音声音合成的情况下的操作。
在下面说明使用文本的语音声音合成的操作。
音段数据库114存储已经经过CELP编码的音段数据。通常将音素、节拍、音节等用作音段的装置。将经编码的数据存储作为LSP系数αqi、自适应代码数字ca、噪声代码数字cr、增益代码数字cg,对每个帧周期安排它们每一个的值。
音段读出装置113装备有音段选择装置113-1,它利用与从韵律变换装置112发送的韵律信息一起的、在音位标音信息中间的音位标音信息,指定存储在音段数据库中的音段之一。
其次,数据读出装置113-2读出待发送到合成装置的,从音段数据库114指定的音段数据。此时,利用包括在与从韵律变换装置112发送的韵律信息一起的音位标音信息的定时信息延长或缩短音段数据的时间。
由如等式1所示的数据序列表示一段音段数据。
Vm={vm0,vm1,…,vmk} (1)
其中,m是音段号,k是对于每个音段的帧号。对于每个音帧的vm是如等式2所示的CELP数据。
vm={αqo,…,αqn,ca,cr,cg} (2)
数据读出装置113-2从定时信息计算必须的时间长度并将它转换成帧号k’。在k=k’的情况下,就是说音段的时间长度和必需的时间长度相等,可以以vm0,vm1,vm2的次序,在每一时刻读出一片信息。在k>k’的情况下,就是说希望以缩短的形式使用音段的时间长度,则适当地扫描vm0,vm2,vm4。在k<k’的情况下,就是说希望以延长的形式使用音段的时间长度,如果必需的话以vm0,vm0,vm1,vm2,vm2的形式重复帧数据。
将用该方法产生的数据输入到合成装置115。分别将ca输入到自适应代码薄115-1,将cg输入到噪声代码薄115-2,将cg输入到增益代码薄115-3以及将αqi输入到合成滤波器115-4。此处,从韵律变换装置112输入T0。
因为通过ca和周期T0,自适应代码薄115-1重复地产生所示的发声源波形,频谱特性跟随着音段,所以根据从韵律变换装置112的输出,产生带有音高的发声源波形。其它的操作与正常的语音解码具有相同的操作。
[韵律产生装置和韵律变换装置的工作情况]
其次,详细说明韵律产生装置110和韵律变换装置112的工作。
将音位标音信息输入到韵律产生装置110。
在图8所示的例子中,输入“kyo’owa,i’i/te’Nkidesu.”。用称为重音短语的音元来说明日文的韵律。用“,”或“/”来分开重音短语。在本例子的情况下,存在三个重音短语。在重音短语中存在一个或零个重音中心装置,并且根据重音中心装置的位置确定重音类型。在重音中心装置是在引导节拍中的情况下,称之为类型1,当任何时候它移回一位时,称之为类型2、类型3等等。在不存在重音中心装置的情况下,特别地称之为类型0。根据包括在重音类型和重音短语中的节拍数目对重音短语分类。在本例子的情况下,从前面开始,它们是3个类型1的节拍,2个类型1的节拍和5个类型1的节拍。
根据在重音短语和重音类型中的节拍数目,用韵律数据库111登记每个节拍的音高值。图10表示以频率(以Hz为单位)的形式登记音高值的一种方法。相应于在重音短语中的节拍数,用韵律数据库111登记每个节拍的时间长度。图11表示那个方法。在图11中,时间长度的单位是毫秒。
根据这种信息,韵律产生装置110进行如图12所示的处理。图12表示韵律产生装置110的输入/输出数据。输入是音标,它是在图8中的语言处理结果。输出是音标、时间长度和音高。该音标在消除重音符号之后对输入的每个音节的标音。
以及“,”和“.”用表示安静(silence)的字符“SIL”代替。对于时间长度信息,在图11中待使用的时间长度表中取出3节拍、2节拍和5节拍的时间长度信息片。对于SIL音节,在该位置上设置一个200的常数。对于音高信息,在图10中待使用的音高表中取出类型1的3节拍、类型1的2节拍和类型1的5节拍的信息片。
韵律变换装置112根据用户通过参数输入装置118设置的信息变换这些信息片。例如,为了改变音高,可以将音高的频率值乘以常数pf。为了改变有语音速率,可以将时间长度的值乘以常数pd。在pf=1.2和pd=0.9的情况下,韵律变换装置112的输入数据和处理结果之间的关系的例子示于图13。根据该信息韵律变换装置112将对于每个帧的To值输出到自适应代码薄115-1。因此,使用线性插入或样条插入,将对于每个节拍确定的音高频率值转换成对于每个帧的频率F0,它由等式3使用取样频率Fs转换。
T0=Fs/F0 (3)
图14示出了线性插入音高频率F的方法。在该例子中,在2个节拍之间插入一行,在句子的开始处或紧接SIL的前后,通过使用最接近的值,尽可能输出平坦的频率。
虽然目前已经主要针对日文的例子进行解释,可以用相同的方法处理英文的和中文的例子。
通过用这种方法的组成,实现了语音声音通信和文本语音声音转换,使之有可能通过利用在接收终端装置内装置的合成装置115、DA转换装置116和语音声音输出装置117,将硬件规模的增加量限制到最小。
具有该组成,也可能进行诸如在接收终端的显示器屏幕上显示文本和将文本变换成适合于语音声音合成的形式等的处理,因为事实上,将文本信息发送到了接收终端。
而且由于在接收终端上提供韵律产生装置110和韵律数据库111,有可能使用户能按要求从多个韵律模式中进行选择,并能对每个接收终端装置设置不同的韵律。
由于将韵律变换装置112安装在接收终端上,用户可以按要求改变诸如有语音速率和/或音高等语音声音参数。
此外,由于将音段读出装置113和音段数据库114安装在接收终端上,有可能使用户能按要求对每个装置在男声和女声之间转换和在发言者之间转换或选择不同发言者的语音声音。
虽然在本模式的说明中,用户从键盘或其类似将任意的文本输入文本输入装置100,但是也可以从诸如硬盘等存储媒体、诸如互连网或LAN等网络或从数据库读出文本。而且也有可能用语音声音识别系统来代替键盘输入文本。在此后说明的模式中应用这些原理。
虽然,在本模式中,在韵律产生装置110中使用音高和时间长度,对每个重音短语参考使用节拍数目和重音形式的表,但是也可以用其它方法来进行。例如通过使用在产生模型(诸如Fujisaki模型)中的函数可以产生音高,作为连续的音高频率值。可以满意地找到作为对每个音素的特征量的时间长度。
虽然,在本模式中使用基本CELP系统作为语音编码和解码系统的例子,但是根据这个可以应用多个经改进的系统,诸如CS-ACELP系统(ITU-T建议G.729)。
可以将本发明应用于任何这样系统,在所述系统中,通过将语音声音信号分成发声源以及诸如LPC系数和LSP系数等声道特征,而对其进行编码。
[模式2]
其次,说明根据本发明的语音声音通信系统的第二模式。
图2示出根据本发明的语音声音通信系统的第二模式。用与第一模式相同的方法,语音声音通信系统包括发送终端和接收终端,具有连接它们的通信路径。
在发送终端上装备有文本输入装置100,将它的输出连接到语言分析装置108。将语言分析装置108的输出通过多路复用装置104和发送装置105发送到通信路径。
在接收终端上装备有接收装置106,将它的输出连接到分离装置107。将分离装置107的输出连接到韵律产生装置110和合成装置115。其余装置和第一模式相同。
用这种方法组成的语音声音通信系统的工作与第一模式的工作相同。
本模式的工作与第一模式的工作的不同之处在于,替代多路复用装置104,文本输入装置100将文本信息直接输出到语言分析装置108;将从语言分析装置108的输出的音位标音信息输出到多路复用装置104;分离装置107将接收到的数据序列分离成语音代码序列并将音位标音信息和经分离的音位标音信息输入到韵律产生装置110。
通过以这种方法进行组成,不需要在接收终端上安装语言分析装置108和词典109,因此,可以将接收终端的电路规模制造得更小。在接收终端是便携式的终端和发送方是诸如计算机服务器之类的大规模的装置的情况下,这是一个优点。
用户还可以从多个韵律模式选择所要求的设置或对每个接收终端装置设置不同的韵律,因为在接收终端上装备有韵律产生装置110和韵律数据库111。
用户还可以按要求改变诸如语音速率或音高之类的语音声音参数,因为在接收终端上装备有韵律变换装置112。
此外,因为将音段读出装置113和音段数据库114安装在接收终端上,有可能使用户能按要求对每个装置在男声和女声之间转换和在不同的发言者之间转换并设置不同发言者的语音声音。
[模式3]
接下来,说明根据本发明的语音声音通信系统的第三模式。
图3示出根据本发明的语音声音通信系统的第三模式。用与第一模式和第二模式相同的方法,语音声音通信系统包括发送终端和接收终端,具有连接它们的通信路径。
与在第二模式中不同,在本模式中,将韵律产生装置110和韵律数据库111安装在发送终端而不是在接收终端。相应地,将从语言分析装置108输出的音位标音信息直接输入到韵律产生装置110,并且将音位标音信息和从韵律产生装置110输出的韵律信息一起通过发送终端的多路复用装置104和发送装置105发送到通信路径。
在接收终端处,分离装置107将通过接收装置106接收到的数据序列分离成语音代码序列和与韵律信息一起的音位标音信息,因此,将语音代码序列输入到合成装置115并将与韵律信息一起的音位标音信息输入到韵律变换装置112。
通过用这种方法进行组成,就不必在接收终端上安装韵律产生装置110和韵律数据库111,因而接收终端的电路规模可以进一步制造得更小。更有利的是,在接收终端是便携式的终端和发送端是诸如计算机服务器之类的大规模的装置的情况下。
因为在接收终端上装有韵律变换装置112,用户还可以按要求改变诸如语音速率或音高之类的语音声音参数。
此外,因为将音段读出装置113和音段数据库114安装在接收终端上,还有可能使用户能按要求对每个装置在男声和女声之间转换和在不同的发言者之间转换并设置不同发言者的语音声音。
[模式4]
接下来,说明根据本发明的语音声音通信系统的第四模式。
图4示出根据本发明的语音声音通信系统的第四模式。与第一模式、第二模式和第三模式不同,语音声音通信系统除了包括具有连接它们的通信路径的发送终端和接收终端之外还包括一转发器。
发送终端装备有文本输入装置100,将文本输入装置100的输出连接到多路复用装置104-a。还装备有语音声音输入装置101,它的输出通过AD转换装置102和语音编码装置103连接到多路复用装置104-a。将多路复用装置104-a的输出通过发送装置105-a发送到通信路径。
转发器装备有接收装置106-a,将接收装置106-a的输出连接到分离装置107-a。分离装置107-a的一个输出连接到语言分析装置108,将它的输出连接到多路复用装置104-b。语言分析装置108与词典109相连接。分离装置107-a的另一个输出连接到多路复用装置104-b,将它的输出通过发送装置105-b发送到通信装置。
接收终端装备有接收装置106-b,将它的输出连接到分离装置107-b。将分离装置107-b的一个输出连接到韵律产生装置110。韵律产生装置110与韵律数据库111连接。将韵律产生装置110的输出连接到韵律变换装置112,将它的输出连接到音段读出装置113。音段数据库114与音段读出装置113相连接。
将韵律变换装置112和音段读出装置113的两个输出连接到合成装置115。合成装置115的输出通过DA转换装置116连接到语音声音输出装置117。还装备有参数输入装置118,将它连接到韵律变换装置112和音段读出装置113。
相对于发送终端,用这种方法组成的语音声音通信系统的工作和根据本发明的的第一模式的工作相同。而相对于接收终端,它和根据本发明的第三模式的工作相同。在转发器中的的工作如下。
接收装置106-a接收来自通信路径的上述数据序列以待输出到分离装置107-a。分离装置107-a将数据序列分离成语音代码序列和文本信息,因此,分别将语音代码序列输出到多路复用装置104-b并将文本信息输出到语言分析装置108。以与在其它模式中的相同的方法处理文本信息,并转换成音位标音信息以待输出到多路复用装置104-b。多路复用装置104-b多路复用语音代码序列和音位标音信息以形成待通过发送装置105-b发送到通信路径的数据序列。
通过用该方法的组成,在发送终端或接收终端上都不需要安装语言分析装置108和词典109,这有可能使两者的电路规模都制造得较小。这在发送和接收端两者都有便携式终端装置的情况下是一个优点。
由于在接收终端上装备有韵律产生装置110和韵律数据库111,用户有可能从多个韵律模式选择所要求的设置或对每个接收终端装置设置不同的韵律。
由于将韵律变换装置112安装在接收终端上,用户可以按要求改变诸如语音速率和音高之类的语音声音参数。
此外,由于将音段读出装置113和音段数据库114安装在接收终端上,用户有可能在男声和女声之间转换和在不同的发言者之间转换,以及对每个装置设置不同发言者的语音话音。
[模式5]
接下来,说明根据本发明的语音声音通信系统的第五模式。
图5示出根据本发明的语音声音通信系统的第五模式。与第四模式相同,语音声音通信系统包括具有连接它们的通信路径的发送终端、转发器和接收终端。
与第四模式不同,在本模式中将韵律产生装置110和韵律数据库111安装在转发器上而不是安装在接收终端上。因此,将作为语言分析装置108的输出的音位标音信息直接输入到韵律产生装置110,以及将作为韵律产生装置110的输出的带有韵律信息的音位标音信息通过多路复用装置104-b和发送装置105-b发送到通信路径。发送终端与根据本发明的第四模式以相同的方法工作,而接收终端与根据本发明的第三模式以相同的方法工作。
通过用该方法的组成,在发送终端或接收终端上都不需要安装语言分析装置108和词典109,这有可能使两者的电路规模都制造得较小。这在发送和接收端两者都有便携式终端装置的情况下是一个优点。
由于将韵律变换装置112安装在接收终端上,用户可以按要求改变诸如语音速率和音高之类的语音声音参数。
此外,由于将音段读出装置113和音段数据库114安装在接收终端上,用户有可能在男声和女声之间转换和在不同的发言者之间转换,以及对每个装置设置不同发言者的语音声音。
此外,通过使用本组成,使复制多种语言变得简便。例如,设置了发送端,因此可以输入某种语言,在转发器中准备了语言分析装置和韵律产生装置来复制多种语言。当确认发送终端时,可以参考数据库指定语言的种类。或可以每次从发送终端发送有关语言种类的信息。
通过在语言分析装置108的输出端处使用用于音标的系统(诸如IPA(国际音标)),可以将多种语言标音成相同的格式。此外,有可能通过使用韵律信息标音方法,不根据语言,使韵律产生装置110对韵律信息标音,所述韵律信息标音方法诸如ToBI(Tones and Break Indices,M.E.Beckman and G.M.Ayers,The ToBI Handbook,Tech.Rept.(Ohio State University,Columbus,U.S.A.1993))物理量(诸如音素时间长度、音高频率、幅度值)。
这样,有可能将音位标音信息发送到接收终端,所述音位标音信息带有将来自转发器的不同语言以统一的格式对韵律信息标音。在接收终端上,根据音标和韵律信息可以产生有确定周期和确定幅度和确定代码数字的发声源波形,因此可用一共同的电路来合成任何语言的语音声音。
[模式6]
接下来,说明根据本发明的语音声音通信系统的第六模式。
图6示出根据本发明的语音声音通信系统的第六模式。与第四和第五模式相同,语音声音通信系统包括具有连接它们的通信装置的发送终端、转发器和接收终端。
与第五模式不同,在本模式中将语言分析装置108和词典109安装在发送终端上而不是安装在转发器上。发送终端与根据本发明的第二模式以相同的方法工作。而接收终端与根据本发明的第三模式以相同的方法工作。
在转发器中,将通过接收装置106-a接收到的来自通信路径的数据序列在分离装置107-a中分离成音位标音信息和语音代码序列。
利用韵律产生装置10中的韵律数据库111,将音位标音信息转换成带有韵律信息的音位标音信息。
还将语音代码序列输入到多路复用装置104-b,将它和带有韵律信息的音位标音信息多路复用,成为通过发送装置105-b发送到通信路径的一个数据序列。
通过这种组成,不需与根据本发明的第五模式一样,把韵律产生装置110和韵律数据库111安装在接收终端上,这使减小电路的规模成为可能。
由于将韵律变换装置112安装在接收终端上,用户可以按要求改变诸如语音速率和音高之类的语音声音参数。
此外,由于将音段读出装置113和音段数据库114安装在接收终端上,用户有可能按要求在男声和女声之间转换和在不同的发言者之间转换,以及对每个装置设置不同发言者的语音声音。
如对根据本发明的第五模式所述,能简便地依赖多种语言。即,由于接收终端既没有语言分析装置也没有韵律产生装置,有可能实现不依赖任何语言的硬件。另一方面,发送终端有一个与某种语言符合的语言分析装置。在系统中通过诸如便携式电话系统之类的交换,使到任何人的连接成为可能的情况下,只要接收端不依赖于语言,总可以建立通信。在这种情况下,可以允许发送端具有语言依赖性。
通过上述的组成,在带有装在机内(诸如装在便携式电话中)的语音声音解码装置的通信装置中,可以简单地通过增加少量的软件和一个表格,增加语音声音规则合成功能。在各种表格中,音段表具有较大的尺寸,但是在使用用于一般规则合成系统中的波形段的情况下,需要100kB或更多。相反,在用代码数字形成表格的情况下,对于组成约需要10kB。当然,在诸如规则合成系统之类的波形产生装置中,软件也是不必需的。相应地,可以在单个芯片中实现所有这些功能。
这样,在保持传统的语音声音通信功能的同时,通过语音符号文本增加规则合成功能,使应用范围扩大。例如,在通过在便携式电话上访问服务器并立即下载的通信之后,通过将其转换成语音声音,就有可能听到最新的新闻信息的内容。也有可能在内装有寻呼机功能的装置上输出带有字符显示的语音声音。
语音声音规则合成功能可以通过改变参数而变化音高或速率,因此,它有这样的优点,即可以选择合适的音高高度或速率,以根据环境噪声而舒服地收听。
此外,当具有内装的简单文本处理功能时,通过输入来自通信终端的文本和通过将它转换成语音符号文本,有可能对接收者发送带有合成语音声音的消息。
而且当输入文本时,有可能将它在终端上转换成合成的语音声音,因此,可以把它作为话音备忘录而使用。
内装的高级文本处理功能需要复杂的软件和大规模的词典,因此,可以将它们装入中继站,可以以低成本实现相同的功能。
此外,在语言分析装置和韵律产生装置装入发送终端或中继站的情况下,有可能实现一种不依赖任何语言的接收终端。
Claims (18)
1.一种语音声音通信系统,其特征在于,包括:发送单元,它包括:
文本输入装置,用于输入文本信息;和
发送装置, 用于将所述文本信息发送到通信路径;以及接收单元,它包括:
接收装置,用于从所述通信路径接收所述文本信息;
语言分析装置,用于分析所述文本信息,以便将所述文本信息转换成音位标音信息;
韵律产生装置,用于将所述音位标音信息转换成带韵律的音标;
音段数据存储装置,用于存储发声源特征和声道传送特征的信息;
音段读出装置,根据所述带有韵律信息的音位标音信息,从所述音段数据存储装置中读出音段数据;
合成装置,该装置用所述带有韵律信息的音位标音信息和所述音段数据,合成语音声音,所述合成装置通过产生发声源波形,并根据所述声道传送特征信息对所述发声源波形进行滤波处理,来合成语音声音,其中所述发声源波形具有根据所述韵律信息的周期和根据所述发声源特征的特征;
DA转换装置,用于对合成的语音声音进行模拟-数字转换;和
语音声音输出装置,用于输出经模拟-数字转换的语音声音。
2.如权利要求1所述的语音声音通信系统,其特征在于,所述发送单元还包括:
语音声音输入装置,用于输入语音声音信号;
语音编码装置,用于通过对要编码的信号的音高、发声源特征和声道传送特征进行分析,将所述输入语音声音信号转换成语音代码序列;和
多路复用装置,用于对待转换成一个代码序列的所述文本信息和所述语音代码序列进行多路复用,提供给所述发送装置;所述接收单元还包括分离装置,用于将所述代码序列分离成所述文本信息和所述语音代码序列;并且
所述合成装置被构造成用于将所述语音代码序列转换成语音声音信号。
3.一种语音声音通信系统,其特征在于,包括:
发送单元,它包括:
文本输入装置,用于输入文本信息;
语言分析装置,用于将所述文本信息转换成音位标音信息;和
发送装置,用于将所述音位标音信息发送到通信路径;以及
接收单元,它包括:
接收装置,用于接收来自所述通信路径的所述音位标音信息;
韵律产生装置,用于将所述音位标音信息转换成带有韵律信息的音位
标音信息;
音段数据存储装置,用于存储发声源特征和声道传送特征信息;
音段读出装置,用于根据所述带有韵律信息的音位标音信息,从所述
音段数据存储装置中读出音段数据;
合成装置,该装置用所述带有韵律信息的音位标音信息和所述音段数
据,合成语音声音,所述合成装置通过产生发声源波形,并根据所述声道
传送特征信息对所述发声源波形进行滤波处理,来合成语音声音,其中所
述发声源波形具有根据所述韵律信息的周期和根据所述发声源特征的特
征;
DA转换装置,用于对合成的语音声音进行模拟-数字转换;以及
语音声音输出装置,用于输出经模拟-数字转换的语音声音。
4.如权利要求3所述的语音声音通信系统,其特征在于,
所述发送单元还包括:
语音声音输入装置,用于输入语音声音信号;
语音编码装置,用于通过对要编码的信号的音高、发声源特征和声道
传送特征进行分析,将所述输入语音声音信号转换成语音代码序列;和
多路复用装置,用于对所述文本信息和所述声音语音代码序列进行多
路复用,以便产生一个代码序列;
所述接收单元还包括分离装置,用于将所述代码序列分离成所述文本信息和所述语音代码序列;并且
所述合成装置被构造居将所述语音代码序列转换成语音声音信号。
5.一种语音声音通信系统,其特征在于,它包括:
发送单元,它包括:
文本输入装置,用于输入文本信息;
语言分析装置,用于将所述文本信息转换成音位标音信息;
韵律产生装置,用于将所述音位标音信息转换成带有韵律信息的音位
标音信息;和
发送装置,用于将所述带有韵律信息的音位标音信息发送到通信路径;
以及
接收单元,它包括:
接收装置,用于接收来自所述通信路径的所述音位标音信息;
音段数据存储装置,用于存储发声源特征和声道传送特征信息;
音段读出装置,用于根据所述带有韵律信息的音位标音信息,从所述
音段数据存储装置中读出音段数据;
合成装置,该装置通过利用带有韵律信息的音位标音信息和所述音段
数据,合成语音声音,所述合成单元装置产生发声源波形,并根据所述声
道传送特征信息对所述发声源波形进行滤波处理,来合成语音声音,其中
所述发声源波形具有根据所述韵律信息的周期和根据所述发声源特征的特
征;
DA转换装置,用于对合成的语音声音进行模拟-数字转换;和
语音声音输出装置,用于输出经模拟-数字转换的语音声音。
6.如权利要求5所述的语音声音通信系统,其特征在于,
所述发送单元还包括:
语音输入装置,用于输入语音声音信号;
语音编码装置,用于通过对要编码的信号的音高、发声源特征和声道
传送特征进行分析,将所述语音声音信号转换成语音代码序列;和
多路复用装置,用于对所述带有韵律信息的音位标音信息和所述语音
代码序列进行多路复用,以便产生一个代码序列;
所述接收单元还包括分离装置,用于将所述代码序列分离成所述带有韵律信息的音位标音信息和所述语音代码序列;并且
所述合成装置被构造成将所述语音代码序列转换成语音声音信号。
7.一种语音声音通信系统,其特征在于,包括:
发送单元,它包括:
文本输入装置,用于输入文本信息;和
第一发送装置,用于将所述文本信息发送到第一通信路径;
转发单元,它包括:
第一接收装置,用于接收来自所述第一通信路径的所述文本信息;
语言分析装置,用于将所述文本信息转换成音位标音信息;和
第二发送装置,用于将所述音位标音信息发送到第二通信路径;以及
接收单元,它包括:
第二接收装置,用于接收来自所述第二通信路径的所述音位标音信息;
韵律产生装置,用于将所述音位标音信息转换成带有韵律信息的音位
标音信息;
音段数据存储装置,用于存储发声源特征和声道传送特征信息;
音段读出装置,用于根据所述带有韵律信息的音位标音信息,从所述
音段数据存储装置中读出音段数据;
合成装置,用于通过使用所述带有韵律信息的音位标音信息和所述音
段数据,合成语音声音,所述合成装置通过产生发声源波形,并根据所述
声道传送特征信息对所述发声源波形进行滤波处理,来合成语音声音,其
中所述发声源波形具有根据所述韵律信息的周期和具有根据所述发声源特
征的特征;
DA转换装置,用于对合成的语音声音进行模拟-数字转换;和
语音声音输出装置,用于输出经模拟-数字转换的语音声音。
8.如权利要求7所述的语音声音通信系统,其特征在于,
所述发送单元还包括:
语音声音输入装置,用于输入语音声音信号;
语音编码装置,用于通过对要编码的信号的音高、发声源特征和声道
传送特征进行分析,将所述语音声音信号转换成语音代码序列;和
第一多路复用装置,用于对所述文本信息和所述语音代码序列进行多
路复用,以便产生一个代码序列;
所述转发单元还包括:
第一分离装置,用于将所述代码序列分离成所述文本信息和所述语音
代码序列;
第二多路复用装置,用于对所述音位标音信息和所述语音代码序列进
行多路复用,以便产生一个代码序列;
所述接收单元还包括第二分离装置,用于将所述第二多路复用装置多路复用后的代码序列分离成所述音位标音信息和所述语音代码序列;并且
所述合成装置被构造成将所述语音代码序列转换成语音声音信号。
9.一种语音声音通信系统,其特征在于,包括:
发送单元,它包括:
文本输入装置,用于输入文本信息;和
第一发送装置,用于将所述文本信息发送到第一通信路径;
转发单元,它包括:
第一接收装置,用于接收来自所述第一通信路径的所述文本信息;
语言分析装置,用于将所述文本信息转换成音位标音信息;
韵律产生装置,用于将所述音位标音信息转换成带有韵律信息的音位
标音信息;和
第二发送装置,用于将所述带有韵律信息的音位标音信息发送到第二
通信路径;以及
接收单元,它包括:
第二接收装置,用于接收来自所述第二通信路径的、带有韵律信息的
所述音位标音信息;
音段数据存储装置,用于存储发声源特征和声道传送特征信息;
音段读出装置,用于根据所述带有韵律信息的音位标音信息,从所述
音段数据存储装置中读出音段数据;
合成装置,用于通过使用所述带有韵律信息的音位标音信息和所述音
段数据,合成语音声音,所述合成装置通过产生发声源波形,并根据所述
声道传送特征信息对所述发声源波形进行滤波处理,来合成语音声音,其
中所述发声源波形具有根据所述韵律信息的周期和具有根据所述发声源特
征的特征;
DA转换装置,用于对合成的语音声音进行模拟-数字转换;和
语音声音输出装置,用于输出经模拟-数字转换的语音声音。
10.如权利要求9所述的语音声音通信系统,其特征在于,
所述发送单元还包括:
语音声音输入装置,用于输入语音声音信号;
语音编码装置,用于通过对要编码的信号的音高、发声源特征和声道
传送特征进行分析,将所述语音声音信号转换成语音代码序列;和
第一多路复用装置,用于对所述文本信息和所述语音代码序列进行多
路复用,以便产生一个代码序列;
所述转发单元还包括:
第一分离装置,用于将所述代码序列分离成所述文本信息和所述代码
序列;和
第二多路复用装置,用于对所述带有韵律信息的音位标音信息和所述
语音代码序列进行多路复用,以便产生一个代码序列。
所述接收单元还包括第二分离装置,用于将所述第二多路复用装置所多路复用的代码序列分离成所述带有韵律信息的音位标音信息和所述语音代码序列;并且
所述合成装置被构造成将所述语音代码序列转换成语音声音信号。
11.一种语音声音通信系统,其特征在于,包括:
发送单元,它包括:
文本输入装置,用于输入文本信息;
语言分析装置,用于将所述文本信息转换成音位标音信息;和
第一发送装置,用于将所述音位标音信息发送到第一通信路径;
转发单元,它包括:
第一接收装置,用于接收来自所述第一通信路径的所述音位标音信息;
韵律产生装置,用于将所述音位标音信息转换成带有韵律信息的音位标音信息;和
第二发送装置,用于将所述带有韵律信息的音位标音信息发送到第二通信路径;以及
接收单元,它包括:
第二接收装置,用于接收来自所述第二通信路径的所述带有韵律信息的音位标音信息;
音段数据存储装置,用于存储发声源特征和声道传送特征信息;
音段读出装置,用于根据所述带有韵律信息的音位标音信息,从所述音段数据存储装置中读出音段数据;
合成装置,用于通过使用所述带有韵律信息的音位标音信息和所述音段数据,合成语音声音,所述合成装置通过产生发声源波形合成语音声音,并根据所述声道传送特征信息对所述发声源波进行滤波处理形,来合成语音声音,其中所述发声源波形具有根据所述韵律信息的周期和根据所述发声源特征的特征;
DA转换装置,用于对合成的语音声音进行模拟-数字转换;和
语音声音输出装置,用于输出经模拟-数字转换的语音声音。
12.如权利要求11所述的语音声音通信系统,其特征在于,所述发送单元还包括:
语音声音输入装置,用于输入语音声音信号;
语音编码装置,用于通过对要编码的信号的音高、发声源特征和声道传送特征进行分析,将所述语音声音信号转换成语音代码序列;和
第一多路复用装置,用于对所述音位标音信息和所述语音代码序列进行多路复用,以便产生一个代码序列;所述转发单元还包括:
第一分离装置,用于将所述代码序列分离成所述音位标音信息和所述语音代码序列;和
第二多路复用装置,用于对所述带有韵律信息的音位标音信息和所述语音代码序列进行多路复用,以便产生一个代码序列;
所述接收单元具有第二分离装置,用于将所述第二多路复用装置多路复用后的所述代码序列分离成所述带有韵律信息的音位标音信息和所述语音代码序列;并且
所述合成装置被构造成将所述语音代码序列转换成语音声音信号。
13.如权利要求1、3、5、7、9或11所述的任何一种语音声音通信系统,其特征在于,用户可以将任意的文本输入到文本输入装置中。
14.如权利要求1、3、5、7、9或11所述的任何一种语音声音通信系统,其特征在于,所述文本输入装置通过从存储媒体、互连网、LAN或者数据库读出文本,来完成输入。
15.如权利要求1、3、5、7、9或11所述的任何一种语音声音通信系统,其特征在于,还包括参数输入装置,并且用户可以按要求通过参数输入装置输入语音声音的参数值,而所述韵律产生装置和所述音段读出装置输出根据所述参数值修改的值。
16.如权利要求2、4、6、8、10或12所述的任何一种语音声音通信系统,其特征在于,用户可以将任意的文本输入到文本输入装置。
17.如权利要求2、4、6、8、10或12所述的任何一种语音声音通信系统,其特征在于,所述文本输入装置通过从存储媒体、互连网、LAN或者数据库读出文本,来完成输入。
18.如权利要求2、4、6、8、10或12所述的任何一种语音声音通信系统,其特征在于,还包括参数输入装置,用户可以通过参数输入装置按要求输入语音声音的参数值,而所述韵律产生装置和所述音段读出装置输出根据所述参数值修改的值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10932999 | 1999-04-16 | ||
JP109,329/1999 | 1999-04-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1271216A CN1271216A (zh) | 2000-10-25 |
CN1171396C true CN1171396C (zh) | 2004-10-13 |
Family
ID=14507474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB001068253A Expired - Fee Related CN1171396C (zh) | 1999-04-16 | 2000-04-17 | 语音声音通信系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6516298B1 (zh) |
EP (1) | EP1045372A3 (zh) |
CN (1) | CN1171396C (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3361291B2 (ja) * | 1999-07-23 | 2003-01-07 | コナミ株式会社 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
US7031924B2 (en) * | 2000-06-30 | 2006-04-18 | Canon Kabushiki Kaisha | Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium |
US6681208B2 (en) * | 2001-09-25 | 2004-01-20 | Motorola, Inc. | Text-to-speech native coding in a communication system |
US7013282B2 (en) * | 2003-04-18 | 2006-03-14 | At&T Corp. | System and method for text-to-speech processing in a portable device |
CN1914666B (zh) * | 2004-01-27 | 2012-04-04 | 松下电器产业株式会社 | 声音合成装置 |
CN100524457C (zh) * | 2004-05-31 | 2009-08-05 | 国际商业机器公司 | 文本至语音转换以及调整语料库的装置和方法 |
US7788098B2 (en) * | 2004-08-02 | 2010-08-31 | Nokia Corporation | Predicting tone pattern information for textual information used in telecommunication systems |
US7558389B2 (en) * | 2004-10-01 | 2009-07-07 | At&T Intellectual Property Ii, L.P. | Method and system of generating a speech signal with overlayed random frequency signal |
JP4025355B2 (ja) * | 2004-10-13 | 2007-12-19 | 松下電器産業株式会社 | 音声合成装置及び音声合成方法 |
US20070027691A1 (en) * | 2005-08-01 | 2007-02-01 | Brenner David S | Spatialized audio enhanced text communication and methods |
US8224647B2 (en) * | 2005-10-03 | 2012-07-17 | Nuance Communications, Inc. | Text-to-speech user's voice cooperative server for instant messaging clients |
CN100487788C (zh) * | 2005-10-21 | 2009-05-13 | 华为技术有限公司 | 一种实现文语转换功能的方法 |
JP4882899B2 (ja) * | 2007-07-25 | 2012-02-22 | ソニー株式会社 | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
US8856003B2 (en) * | 2008-04-30 | 2014-10-07 | Motorola Solutions, Inc. | Method for dual channel monitoring on a radio device |
CN101894547A (zh) * | 2010-06-30 | 2010-11-24 | 北京捷通华声语音技术有限公司 | 一种语音合成方法和系统 |
CN103165126A (zh) * | 2011-12-15 | 2013-06-19 | 无锡中星微电子有限公司 | 一种手机文本短信的语音播放的方法 |
EP3239981B1 (en) * | 2016-04-26 | 2018-12-12 | Nokia Technologies Oy | Methods, apparatuses and computer programs relating to modification of a characteristic associated with a separated audio signal |
CN109215670B (zh) * | 2018-09-21 | 2021-01-29 | 西安蜂语信息科技有限公司 | 音频数据的传输方法、装置、计算机设备和存储介质 |
CN110211562B (zh) * | 2019-06-05 | 2022-03-29 | 达闼机器人有限公司 | 一种语音合成的方法、电子设备及可读存储介质 |
US11276392B2 (en) * | 2019-12-12 | 2022-03-15 | Sorenson Ip Holdings, Llc | Communication of transcriptions |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
US5696879A (en) * | 1995-05-31 | 1997-12-09 | International Business Machines Corporation | Method and apparatus for improved voice transmission |
EP0774152B1 (en) * | 1995-06-02 | 2000-08-23 | Koninklijke Philips Electronics N.V. | Device for generating coded speech items in a vehicle |
EP0762384A2 (en) * | 1995-09-01 | 1997-03-12 | AT&T IPM Corp. | Method and apparatus for modifying voice characteristics of synthesized speech |
IL116103A0 (en) * | 1995-11-23 | 1996-01-31 | Wireless Links International L | Mobile data terminals with text to speech capability |
US5905972A (en) * | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
-
2000
- 2000-04-14 EP EP00108287A patent/EP1045372A3/en not_active Withdrawn
- 2000-04-17 US US09/550,891 patent/US6516298B1/en not_active Expired - Fee Related
- 2000-04-17 CN CNB001068253A patent/CN1171396C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1045372A3 (en) | 2001-08-29 |
US6516298B1 (en) | 2003-02-04 |
EP1045372A2 (en) | 2000-10-18 |
CN1271216A (zh) | 2000-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1171396C (zh) | 语音声音通信系统 | |
CN1229775C (zh) | 宽带语音和音频信号解码器中的增益平滑 | |
CN1165891C (zh) | 对过采样合成宽带信号进行高频分量恢复的方法与设备 | |
CN1324556C (zh) | 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法 | |
CN100338648C (zh) | 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件 | |
CN1131507C (zh) | 音频信号编码装置、解码装置及音频信号编码·解码装置 | |
CN1248195C (zh) | 语音编码转换方法和装置 | |
CN1324558C (zh) | 编码设备,解码设备以及音频数据分配系统 | |
CN1906660A (zh) | 语音合成装置 | |
CN1303581C (zh) | 具有语音合成功能的信息处理装置及方法 | |
CN1240049C (zh) | 语音编码系统 | |
CN1205603C (zh) | 在用于宽带信号编码的代数码本中索引脉冲位置和符号的方法和设备 | |
CN1879147A (zh) | 文本到语音转换方法和系统、及其计算机程序产品 | |
CN1223983C (zh) | 乐音语音再现装置及其控制方法、及服务器装置 | |
CN1703737A (zh) | 在自适应多速率宽带(amr-wb)和多模式可变比特率宽带(vmr-wb)编解码器之间互操作的方法 | |
CN1842702A (zh) | 声音合成装置和声音合成方法 | |
CN101048649A (zh) | 可扩展解码装置及可扩展编码装置 | |
CN1331826A (zh) | 可变速率语音编码 | |
CN1898723A (zh) | 信号解码装置以及信号解码方法 | |
CN1813285A (zh) | 语音合成设备、语音合成方法和程序 | |
CN1193158A (zh) | 语音编码方法和装置以及声音信号编码方法和装置 | |
CN1702736A (zh) | 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法 | |
CN1220173C (zh) | 基频特性曲线产生方法 | |
CN1874386A (zh) | 具有改进性能的电话机及在其中处理音频信号的方法 | |
CN1890713A (zh) | 用于数字信号压缩编码的多脉冲字典的索引间的编码转换 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20041013 Termination date: 20100417 |