JP2000356995A

JP2000356995A - 音声通信システム

Info

Publication number: JP2000356995A
Application number: JP2000113350A
Authority: JP
Inventors: Takahiro Kamai; 孝浩釜井; Kenji Matsui; 謙二松井; Ichu Shu; 偉中朱
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-04-16
Filing date: 2000-04-14
Publication date: 2000-12-26

Abstract

(57)【要約】【課題】音声CODECを用いた通信機器に対して低コスト
で音声規則合成機能を付加する。【解決手段】受信部１０６は通信路を伝播してきた符号
系列を受信し、分離部１０７に伝える。分離部１０７は
符号系列を音声符号系列とテキスト情報とに分離し、そ
れぞれ合成部１１５と言語解析部１０８に出力する。音
声符号系列は合成部１１５によってピッチ周期、ＬＳＰ
係数、符号番号などに復号化され、ＣＥＬＰ方式で音声
を復元する。一方、テキスト情報は言語解析部１０８に
よって発音とアクセントの情報に変換され、韻律生成部
１１０によって音韻時間長、ピッチパターンなどの韻律
情報が付加される。音韻にふさわしいＬＳＰ係数、符号
番号などは素片読み出し部１１３によって素片ＤＢ１１
４から読み出され、ピッチ周波数は韻律情報から取り出
されて合成部１１５に入力され、音声に合成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば携帯電話、
インターネットなどで音声を用いて情報伝達を行う音声
通信システム、媒体及び情報集合体に関するものであ
る。

【０００２】

【従来の技術】音声通信システムは同軸ケーブルなどの
有線通信路、電磁波などの無線通信路を介して送信機と
受信機を結ぶことによって構成される。かつてはこれら
の通信路に音響信号を直接あるいは搬送波に変調するこ
とによって伝播させるアナログ通信が主流であったが、
耐雑音性、歪などの通信品質の向上、および通信チャン
ネル数の増加などを目的として、音響信号を一旦符号化
した上で伝播させるディジタル通信が主流になってきて
いる。

【０００３】最近の携帯電話などの通信システムは、急
速な普及に伴う伝送電波帯域の不足を解消するため、CE
LP（Schroeder M.R. and Atal B.S.: "Code-Excited Li
nearPrediction (CELP) : High-Quality Speech at Ver
y Low Bit Rates", Pros. IEEE ICASSP '85, 25.1.1,
(April 1985)）方式が用いられている。

【０００４】図７はCELP音声符号化復号化システムの代
表的な構成例である。

【０００５】符号化側、即ち送信端末側での処理は以下
のようなものである。音声信号は例えば１０ミリ秒程度
のフレームに区切られて処理される。入力された音声は
ＬＰＣ分析部２００でＬＰＣ（Linear Prediction Codi
ng）分析が行われ、声道伝達関数を表すＬＰＣ係数α_i
に変換される。

【０００６】ＬＰＣ係数α_iはＬＳＰパラメータ量子化
部２０１でＬＳＰ（Line Spectrum Pair）係数α_qiに変
換され、量子化される。α_qiは合成フィルタ２０２に与
えられ、符号番号ｃ_aに対応して適応符号帳２０３から
読み出された音源波形により音声波形が合成される。音
源波形はこれまでの処理と並行して自己相関法などを用
いて算出されたピッチ周期T₀に従った周期波形として入
力される。

【０００７】合成された音声波形は入力音声から差し引
かれ、聴覚重み付けフィルタ２０６を介して歪計算部２
０７に入力される。歪計算部２０７は適応符号帳２０３
に対して符号番号ｃ_aを変化させながら繰り返し合成波
形と入力波形の差のエネルギーを計算し、それが最小に
なる符号番号ｃ_aを決定する。

【０００８】続いて、決定されたｃ_aのもとに読み出さ
れる音源波形と雑音符号帳２０４から符号番号ｃ_rに従
って読み出された雑音源波形が加算され、同様の処理に
より歪を最小とする符号番号ｃ_rを決定する。これまで
の処理で両音源波形に乗算されるべきゲインの値も決定
され、それらに対応する最適なゲインベクトルをゲイン
符号帳から選び出し、符号番号ｃ_gを決定する。

【０００９】以上のように決定されたＬＳＰ係数α_qi、
ピッチ周期Ｔ₀、適応符号番号ｃ_a、雑音符号番号ｃ_r、
ゲイン符号番号ｃ_gは一つのデータ系列にまとめられ通
信路に送信される。

【００１０】一方、復号化側、即ち受信端末側での処理
は以下のようなものである。

【００１１】通信路から受信されたデータ系列はＬＳＰ
係数α_qi、ピッチ周期Ｔ₀、適応符号番号ｃ_a、雑音符号
番号ｃ_r、ゲイン符号番号ｃ_gに再び分離される。ピッチ
周期Ｔ₀および適応符号番号ｃ_aに従って適応符号帳２０
８から周期的な音源が読み出され、雑音符号番号ｃ_rに
従って雑音符号帳２０９から雑音源波形が読み出され
る。

【００１２】それぞれの音源はゲイン符号番号ｃ_gに従
ってゲイン符号帳２１０から読み出されたゲインベクト
ルが表すゲインによって振幅調整を受け、合成フィルタ
２１１に入力される。合成フィルタ２１１はＬＳＰ係数
α_qiに従って音声を合成する。

【００１３】上記のような音声通信システムは、入力さ
れた音声を圧縮符号化することによって、限られた通信
路容量で能率よく音声を伝播することを主眼においてい
る。すなわち、通信の対象は飽くまで人間が発した音声
そのものである。

【００１４】しかし、今日の通信サービスにおいては遠
隔地間の人間同士の音声通信だけにとどまらず、送信端
末側でテキストを入力し、遠隔地の受信端末にデータと
して送信するいわゆる電子メールやショートメッセージ
などのサービスが普及している。また、CTI（Computer
Telephony Integration）などのように音声により様々
な情報をサービスすることや、機器の操作法を音声で提
示するなど、機器から人間に対して音声を提供すること
が重要になってきている。さらには、テキスト情報を音
声に変換する音声規則合成技術を用いることにより、電
話を介して電子メールやニュースなどの内容を聞くこと
が可能となり、最近注目を浴びている。

【００１５】

【発明が解決しようとする課題】このように、テキスト
情報を音声に変換してサービスする通信形態が求められ
て来ている。このようなサービスを実現する方法として
以下の二つの形態が考えられる。

【００１６】ひとつはサービスを提供する側で音声を合
成し、通常の音声通話を利用してユーザーに伝送する方
法である。この方法の場合、受信側の端末装置は従来と
同様音声信号を受信して再生するだけでよいため、共通
のハードウェアを用いることができる。

【００１７】しかし、大量のテキストを音声化すること
は長時間の音声を通信路に流し続けることとなり、携帯
電話などの通信システムを用いる場合、長時間接続を維
持する必要が生じる。したがって、通信料金が高額にな
るという問題があった。

【００１８】もうひとつは情報をテキストのままで通信
路を経て伝送し、受信端末側で音声合成装置を用いて音
声に変換し、ユーザーに聞かせる方法である。この方法
の場合、情報伝送量が音声の数百分の一といった極めて
少ない量ですむため、非常に短時間で伝送することが可
能となる。従って通信料金も低く抑えられ、さらにテキ
ストを受信端末側に蓄積しておけばユーザーが好きな時
に音声に変換して聞きなおすことが可能となる。また、
音声に変換する時に男女などの声の種類、発声速度、ピ
ッチの高低などを選ぶことができるという利点がある。

【００１９】しかしながら、受信側の端末装置に設ける
べき音声合成装置は、一般の携帯電話などの受信端末に
用いられているものと回路が異なるため、新たに音声合
成用の回路を搭載しなければならず、そのために回路規
模が増大し、端末装置のコストが増大するという問題が
あった。

【００２０】本発明は、このような従来の通信方法の課
題を考慮し、通信の負担が少なく、しかも、受信端末に
おける音声合成装置が簡単ですむ音声通信システム、媒
体及び情報集合体を提供することを目的とする。

【００２１】

【課題を解決するための手段】上記の課題を解決するた
め、第１の本発明（請求項１に対応）は、テキスト入力
手段及び送信手段を有する送信部と、受信手段、言語解
析手段、韻律生成手段、素片データ記憶手段、素片読み
出し手段及び、合成手段を有する受信部と、を備えた音
声通信システムであって、前記テキスト入力手段はテキ
スト情報を入力し、前記送信手段は前記テキスト情報を
通信路に送信し、前記受信手段は前記通信路から前記テ
キスト情報を受信し、前記言語解析手段は前記テキスト
情報を解析して、前記テキスト情報を、音声表記情報に
変換し、前記韻律生成手段は、前記音声表記情報を、韻
律情報が付加された韻律情報付き音声表記情報に変換
し、前記素片読み出し手段は、前記韻律情報付き音声表
記情報に従って、前記素片データ記憶手段から素片デー
タを読み出し、前記合成手段は、前記韻律情報付き音声
表記情報と、前記素片データを用いて音声を合成し、前
記素片データ記憶手段は、音源特性と声道伝達特性情報
を記憶し、前記合成手段は、前記韻律情報に従った周期
を有し、前記音源特性に従った特性を有する音源波形
を生成するとともに、前記声道伝達特性情報に従って前
記音源波形をフィルタ処理することによって音声を合成
することを特徴とする音声通信システムである。

【００２２】また、第２の本発明（請求項２に対応）
は、前記送信部は音声入力手段と音声符号化手段と多重
化手段を有し、前記受信部は分離手段を有し、前記音声
入力手段は音声信号を入力し、前記音声符号化手段は前
記入力された音声信号のピッチと音源特性と声道伝達特
性を分析して符号化することにより音声符号系列に変換
し、前記多重化手段は前記テキスト情報と前記音声符号
系列を多重化してひとつの符号系列に変換し、前記分離
手段は前記符号系列を前記テキスト情報と前記音声符号
系列に分離し、前記合成手段は前記音声符号系列を音声
信号に変換することを特徴とする第１の本発明に記載の
音声通信システムである。

【００２３】また、第３の本発明（請求項３に対応）
は、テキスト入力手段、言語解析手段及び送信手段を有
する送信部と、受信手段、韻律生成手段、素片データ記
憶手段、素片読み出し手段及び、合成手段を有する受信
部とを備えた音声通信システムであって、前記テキスト
入力手段はテキスト情報を入力し、前記言語解析手段
は、前記テキスト情報を音声表記情報に変換し、前記送
信手段は前記音声表記情報を通信路に送信し、前記受信
手段は前記通信路から前記音声表記情報を受信し、前記
韻律生成手段は、前記音声表記情報を、韻律情報が付加
された韻律情報付き音声表記情報に変換し、前記素片読
み出し手段は、前記韻律情報付き音声表記情報に従って
前記素片データ記憶手段から素片データを読み出し、前
記合成手段は、前記韻律情報付き音声表記情報と前記素
片データを用いて音声を合成し、前記素片データ記憶手
段は音源特性と声道伝達特性情報を記憶し、前記合成手
段は、前記韻律情報に従った周期を有し、前記音源特性
に従った特性を有する音源波形を生成するとともに、前
記声道伝達特性情報に従って前記音源波形をフィルタ処
理することによって音声を合成することを特徴とする音
声通信システムである。

【００２４】また、第４の本発明（請求項４に対応）
は、前記送信部は音声入力手段と音声符号化手段と多重
化手段を有し、前記受信部は分離手段を有し、前記音声
入力手段は音声信号を入力し、前記音声符号化手段は前
記入力された音声信号のピッチと音源特性と声道伝達特
性を分析して符号化することにより音声符号系列に変換
し、前記多重化手段は前記音声表記情報と前記音声符号
系列を多重化してひとつの符号系列に変換し、前記分離
手段は、前記符号系列を前記音声表記情報と前記音声符
号系列に分離し、前記合成手段は前記音声符号系列を音
声信号に変換することを特徴とする第３の本発明に記載
の音声通信システムである。

【００２５】また、第５の本発明（請求項５に対応）
は、テキスト入力手段、言語解析手段、韻律生成手段及
び、送信手段を有する送信部と、受信手段、素片データ
記憶手段、素片読み出し手段及び合成手段を有する受信
部とを備えた音声通信システムであって、前記テキスト
入力手段はテキスト情報を入力し、前記言語解析手段
は、前記テキスト情報を音声表記情報に変換し、前記韻
律生成手段は、前記音声表記情報を、韻律情報が付加さ
れた韻律情報付き音声表記情報に変換し、前記送信手段
は、前記韻律情報付き音声表記情報を通信路に送信し、
前記受信手段は、前記通信路から前記韻律情報付き音声
表記情報を受信し、前記素片読み出し手段は、前記韻律
情報付き音声表記情報に従って前記素片データ記憶手段
から素片データを読み出し、前記合成手段は、前記韻律
情報付き音声表記情報と前記素片データとを用いて音声
を合成し、前記素片データ記憶手段は音源特性と声道伝
達特性情報を記憶し、前記合成手段は、前記韻律情報に
従った周期を有し、前記音源特性に従った特性を有する
音源波形を生成するとともに、前記声道伝達特性情報に
従って前記音源波形をフィルタ処理することによって音
声を合成することを特徴とする音声通信システムであ
る。

【００２６】また、第６の本発明（請求項６に対応）
は、前記送信部は音声入力手段、音声符号化手段及び多
重化手段を有し、前記受信部は分離手段を有し、前記音
声入力手段は音声信号を入力し、前記音声符号化手段
は、前記音声信号のピッチと音源特性と声道伝達特性を
分析して符号化することにより音声符号系列に変換し、
前記多重化手段は前記韻律情報付き音声表記情報と前記
音声符号系列を多重化してひとつの符号系列に変換し、
前記分離手段は前記符号系列を前記韻律情報付き音声表
記情報と前記音声符号系列に分離し、前記合成手段は、
前記音声符号系列を音声信号に変換することを特徴とす
る第５の本発明に記載の音声通信システムである。

【００２７】また、第７の本発明（請求項７に対応）
は、テキスト入力手段及び第一の送信手段を有する送信
部と、第一の受信手段、言語解析手段及び第二の送信手
段を有する中継部と、第二の受信手段、韻律生成手段、
素片データ記憶手段、素片読み出し手段及び、合成手段
を有する受信部とを備えた音声通信システムであって、
前記テキスト入力手段はテキスト情報を入力し、前記第
一の送信手段は前記テキスト情報を第一の通信路に送信
し、前記第一の受信手段は前記第一の通信路から前記テ
キスト情報を受信し、前記言語解析手段は前記テキスト
情報を音声表記情報に変換し、前記第二の送信手段は前
記音声表記情報を第二の通信路に送信し、前記第二の受
信手段は前記第二の通信路から前記音声表記情報を受信
し、前記韻律生成手段は、前記音声表記情報を、韻律情
報が付加された韻律情報付き音声表記情報に変換し、前
記素片読み出し手段は前記韻律情報付き音声表記情報に
従って前記素片データ記憶手段から素片データを読み出
し、前記合成手段は、前記韻律情報付き音声表記情報と
前記素片データを用いて音声を合成し、前記素片データ
記憶手段は音源特性と声道伝達特性情報を記憶し、前記
合成手段は、前記韻律情報に従った周期を有し、前記音
源特性に従った特性を有する音源波形を生成するとと
もに、前記声道伝達特性情報に従って前記音源波形をフ
ィルタ処理することによって音声を合成することを特徴
とする音声通信システムである。

【００２８】また、第８の本発明（請求項８に対応）
は、前記送信部は音声入力手段と音声符号化手段と第一
の多重化手段を有し、前記中継部は第一の分離手段と第
二の多重化手段を有し、前記受信部は第二の分離手段を
有し、前記音声入力手段は音声信号を入力し、前記音声
符号化手段は前記音声信号のピッチと音源特性と声道伝
達特性を分析して符号化することにより音声符号系列に
変換し、前記第一の多重化手段は前記テキスト情報と前
記音声符号系列を多重化してひとつの符号系列に変換
し、前記第一の分離手段は前記符号系列を前記テキスト
情報と前記音声符号系列に分離し、前記第二の多重化手
段は前記音声表記情報と前記音声符号系列を多重化して
ひとつの符号系列に変換し、前記第二の分離手段は前記
第二の多重化手段によって多重化された符号系列を前記
音声表記情報と前記音声符号系列に分離し、前記合成手
段は前記音声符号系列を音声信号に変換することを特徴
とする第７の本発明に記載の音声通信システムである。

【００２９】また、第９の本発明（請求項９に対応）
は、テキスト入力手段と第一の送信手段を有する送信部
と、第一の受信手段、言語解析手段、韻律生成手段及び
第二の送信手段を有する中継部と、第二の受信手段、素
片データ記憶手段、素片読み出し手段及び合成手段を有
する受信部とを備えた音声通信システムであって、前記
テキスト入力手段はテキスト情報を入力し、前記第一の
送信手段は前記テキスト情報を第一の通信路に送信し、
前記第一の受信手段は前記第一の通信路から前記テキス
ト情報を受信し、前記言語解析手段は前記テキスト情報
を音声表記情報に変換し、前記韻律生成手段は前記音声
表記情報を、韻律情報が付加された韻律情報付き音声表
記情報に変換し、前記第二の送信手段は前記韻律情報付
き音声表記情報を第二の通信路に送信し、前記第二の受
信手段は前記第二の通信路から前記韻律情報付き音声表
記情報を受信し、前記素片読み出し手段は前記韻律情報
付き音声表記情報に従って前記素片データ記憶手段から
素片データを読み出し、前記合成手段は前記韻律情報付
き音声表記情報と前記素片データとを用いて音声を合成
し、前記素片データ記憶手段は音源特性と声道伝達特性
情報を記憶し、前記合成手段は、前記韻律情報に従った
周期を有し、前記音源特性に従った特性を有する音源波
形を生成するとともに、前記声道伝達特性情報に従って
前記音源波形をフィルタ処理することによって音声を合
成することを特徴とする音声通信システムである。

【００３０】また、第１０の本発明（請求項１０に対
応）は、前記送信部は音声入力手段、音声符号化手段及
び、第一の多重化手段を有し、前記中継部は第一の分離
手段と第二の多重化手段を有し、前記受信部は第二の分
離手段を有し、前記音声入力手段は音声信号を入力し、
前記音声符号化手段は前記音声信号のピッチと音源特性
と声道伝達特性を分析して符号化することにより音声符
号系列に変換し、前記第一の多重化手段は前記テキスト
情報と前記音声符号系列を多重化してひとつの符号系列
に変換し、前記第一の分離手段は前記符号系列を前記テ
キスト情報と前記音声符号系列に分離し、前記第二の多
重化手段は、前記韻律情報付き音声表記情報と前記音声
符号系列を多重化してひとつの符号系列に変換し、前記
第二の分離手段は、前記第二の多重化手段によって多重
化された前記符号系列を、前記音韻情報付き音声表記情
報と前記音声符号系列に分離し、前記合成手段は前記音
声符号系列を音声信号に変換することを特徴とする第９
の本発明に記載の音声通信システムである。

【００３１】また、第１１の本発明（請求項１１に対
応）は、テキスト入力手段、言語解析手段及び、第一の
送信手段を有する送信部と、第一の受信手段、韻律生成
手段及び第二の送信手段を有する中継部と、第二の受信
手段、素片データ記憶手段、素片読み出し手段及び合成
手段を有する受信部とを備えた音声通信システムであっ
て、前記テキスト入力手段はテキスト情報を入力し、前
記言語解析手段は前記テキスト情報を音声表記情報に変
換し、前記第一の送信手段は前記音声表記情報を第一の
通信路に送信し、前記第一の受信手段は前記第一の通信
路から音声表記情報情報を受信し、前記韻律生成手段
は、前記音声表記情報を、韻律情報が付加された韻律情
報付き音声表記情報に変換し、前記第二の送信手段は前
記韻律情報付き音声表記情報を第二の通信路に送信し、
前記第二の受信手段は前記第二の通信路から前記韻律情
報付き音声表記情報を受信し、前記素片読み出し手段は
前記韻律情報付き音声表記情報に従って前記素片データ
記憶手段から素片データを読み出し、前記合成手段は、
前記韻律情報付き音声表記情報と前記素片データを用い
て音声を合成し、前記素片データ記憶手段は音源特性と
声道伝達特性情報を記憶し、前記合成手段は、前記韻律
情報に従った周期を有し、前記音源特性に従った特性を
有する音源波形を生成するとともに、前記声道伝達特性
情報に従って前記音源波形をフィルタ処理することによ
って音声を合成することを特徴とする音声通信システム
である。

【００３２】また、第１２の本発明（請求項１２に対
応）は、前記送信部は音声入力手段、音声符号化手段及
び第一の多重化手段を有し、前記中継部は第一の分離手
段と第二の多重化手段を有し、前記受信部は第二の分離
手段を有し、前記音声入力手段は音声信号を入力し、前
記音声符号化手段は前記音声信号のピッチと音源特性と
声道伝達特性を分析して符号化することにより音声符号
系列に変換し、前記第一の多重化手段は前記音声表記情
報と前記音声符号系列を多重化してひとつの符号系列に
変換し、前記第一の分離手段は、前記符号系列を前記音
声表記情報と前記音声符号系列に分離し、前記第二の多
重化手段は前記韻律情報付き音声表記情報と前記音声符
号系列を多重化してひとつの符号系列に変換し、前記第
二の分離手段は、前記第二の多重化手段によって多重化
された符号系列を前記音韻情報付き音声表記情報と前記
音声符号系列に分離し、前記合成手段は前記音声符号系
列を音声信号に変換することを特徴とする第１１の本発
明に記載の音声通信システムである。

【００３３】また、第１３の本発明（請求項１３に対
応）は、前記テキスト入力手段は、ユーザが任意のテキ
ストを入力できるものであることを特徴とする第１、
３，５，７，９又は１１の本発明に記載の音声通信シス
テムである。

【００３４】また、第１４の本発明（請求項１４に対
応）は、前記テキスト入力手段は、記憶媒体、ネットワ
ーク、あるいはデータベースからテキストを読み出すこ
とにより入力することを特徴とする第１、３，５，７，
９又は１１の本発明に記載の音声通信システムである。

【００３５】また、第１５の本発明（請求項１５に対
応）は、さらに、パラメータ入力手段を備え、前記パラ
メータ入力手段によってユーザは好みに応じて音声のパ
ラメータ値を入力でき、前記韻律生成手段および前記素
片読み出し手段は前記パラメータ値に応じて変更を加え
た値を出力することを特徴とする第１、３，５，７，９
又は１１の本発明に記載の音声通信システムである。

【００３６】また、第１６の本発明（請求項１６に対
応）は、前記テキスト入力手段はユーザが任意のテキス
トを入力できるものでることを特徴とする第２，４，
６，８，１０又は１２の本発明に記載の音声通信システ
ムである。

【００３７】また、第１７の本発明（請求項１７に対
応）は、前記テキスト入力手段は、記憶媒体、ネットワ
ーク、あるいはデータベースからテキストを読み出すこ
とにより入力することを特徴とする第２，４，６，８，
１０又は１２の本発明に記載の音声通信システムであ
る。

【００３８】また、第１８の本発明（請求項１８に対
応）は、パラメータ入力手段を更に有し、前記パラメー
タ入力手段はユーザが好みに応じて設定する音声のパラ
メータ値を入力し、韻律生成手段および素片読み出し手
段は前記パラメータ値に応じて変更を加えた値を出力す
ることを特徴とする第２，４，６，８，１０又は１２の
本発明に記載の音声通信システムである。

【００３９】また、第１９の本発明（請求項１９に対
応）は、第１〜１８の本発明のいずれかに記載の音声通
信システムの全部または一部の手段の全部または一部の
機能をコンピュータにより実行させるためのプログラム
及び／またはデータを担持した媒体であって、コンピュ
ータにより処理可能なことを特徴とする媒体である。

【００４０】また、第２０の本発明（請求項２０に対
応）は、第１〜１８の本発明のいずれかに記載の本発明
の全部または一部の手段の全部または一部の機能をコン
ピュータにより実行させるためのプログラム及び／また
はデータであることを特徴とする情報集合体である。

【００４１】

【発明の実施の形態】以下に本発明の実施の形態を図面
を参照して説明する。

【００４２】［実施の形態１］図１は本発明の音声通信
システムの第一の実施の形態を示すものである。その音
声通信システムは送信端末と受信端末からなり、その間
は通信路で結ばれている。通信路には交換機などを含む
中継器が含まれる場合もある。

【００４３】送信端末にはテキスト入力部１００が備え
られ、その出力は多重化部１０４に接続されている。ま
た、音声入力部１０１が備えられ、その出力はＡＤ変換
部１０２、音声符号化部１０３を介して多重化部１０４
に接続されている。多重化部１０４の出力は送信部１０
５に接続されている。

【００４４】受信端末には受信部１０６が備えられ、そ
の出力は分離部１０７に接続されている。分離部１０７
の出力は言語解析部１０８および合成部１１５に接続さ
れている。言語解析部１０８には辞書１０９が接続され
ている。また言語解析部１０８の出力は韻律生成部１１
０に接続されている。

【００４５】韻律生成部１１０には韻律データベース１
１１が接続されている。韻律生成部１１０の出力は韻律
変形部１１２に接続され、その出力は素片読み出し部１
１３に接続されている。素片読み出し部１１３には素片
データベース１１４が接続されている。

【００４６】韻律変形部１１２と素片読み出し部１１３
の出力はともに合成部１１５に接続されている。また、
合成部１１５の出力はＤＡ変換部１１６を介して音声出
力部１１７に接続されている。また、パラメータ入力部
１１８が設けられ、韻律変形部１１２、素片読み出し部
１１３と接続されている。

【００４７】以下にこのように構成された音声通信シス
テムの動作について説明する。まず、送信端末側の動作
を説明する。

【００４８】音声符号化部１０３は従来例のように音声
を分析し、ＬＳＰ係数α_qi、ピッチ周期Ｔ₀、適応符号
番号ｃ_a、雑音符号番号ｃ_r、ゲイン符号番号ｃ_gの情報
に符号化し、音声符号系列として多重化部１０４に出力
する。

【００４９】テキスト入力部１００はユーザが好みのテ
キストをキーボードなどから入力するなどしたテキスト
情報を入力し、必要に応じて所望の形式に変換して多重
化部１０４に出力する。多重化部１０４は音声符号系列
とテキスト情報を時分割で多重化することにより、一連
のデータ系列に配列しなおし、送信部１０５を介して通
信路に送信する。

【００５０】このような多重化の手法は昨今一般的に用
いられている携帯電話のショートメッセージサービスな
どで用いられているデータ通信の方法により可能であ
る。

【００５１】次に受信端末側の動作を説明する。受信部
１０６は通信路より前述のデータ系列を受信し、分離部
１０７に出力する。分離部１０７はデータ系列を音声符
号系列とテキスト情報に分離し、音声符号系列を合成部
１１５に、テキスト情報を言語解析部１０８に各々出力
する。

【００５２】音声符号系列は従来例と同様のプロセスを
経て合成部１１５で音声信号に変換され、ＤＡ変換部１
１６、音声出力部１１７を介して音声として出力され
る。

【００５３】一方、テキスト情報は言語解析部１０８に
おいて辞書１０９等を用いて読みやアクセントなどの情
報である音声表記情報に変換され、韻律生成部１１０に
入力される。韻律生成部１１１は主にアクセント情報、
場合によっては読み情報をも用いて韻律データベース１
１１を参照することにより音韻毎のタイミング、音韻毎
のピッチの高低、音韻毎の振幅の大きさなどの情報であ
る韻律情報を付加し、韻律情報付き音声表記情報に変換
する。

【００５４】韻律情報付き音声表記情報は韻律変形部１
１２によって必要に応じて韻律情報に変形を加えられ
る。例えば、ユーザーが好みによって設定した発話スピ
ード、ピッチの高低などのパラメータに応じて韻律情報
を変形する。発話スピードは音韻毎のタイミングの情報
を変形することによって、またピッチの高低は音韻毎の
ピッチの情報を変形することによって変化させる。この
ような設定はパラメータ入力部１１８によってユーザー
の好みに応じてなされる。

【００５５】韻律変形部１１２によって韻律に変形を受
けた韻律情報付き音声表記情報はピッチ周期情報Ｔ₀と
その他の情報に分けられ、Ｔ₀は合成部１１５に入力さ
れる。それ以外の情報は素片読み出し部１１３に入力さ
れる。素片読み出し部１１３は韻律変形部１１２から受
け取った情報を用いて素片データベース１１４から適切
な素片を読み出し、その素片のデータとして記憶されて
いるＬＳＰパラメータα _qi、適応符号番号ｃ_a、雑音符
号番号ｃ_r、ゲイン符号番号ｃ_gを合成部１１５に出力す
る。

【００５６】合成部１１５はこれらＴ₀、α_qi、ｃ_a、ｃ
_r、ｃ_gの情報から音声を合成し、ＤＡ変換部１１６、音
声出力部１１７を介して音声として出力する。［言語解析部の動作］次に、上記の第一の実施の形態に
おける言語解析部の動作について説明する。図８は言語
解析部１０８の処理の様子をあらわしたものである。図
８（ａ）には日本語の例、（ｂ）には英語の例、（ｃ）
には中国語の例を示している。以下、（ａ）の日本語の
例に従って説明する。

【００５７】図８（ａ）の上段は入力のテキストを表し
ている。入力テキストは「今日はいい天気です。」であ
る。このテキストは辞書１０９を利用しながら形態素解
析、構文解析などを経て、最終的に下段にある音声表記
（発音記号、アクセント情報など）に変換される。”ｋ
ｙｏ”や”ｏ”は日本語の１モーラ（１拍）の発音を表
しており、”，”は休止（ポーズ）、”／”はアクセン
ト句の区切りを表す。発音記号に付加されている”’”
はアクセント核を表す。

【００５８】図８（ｂ）の英語の場合は、処理結果は”
ｉｈ”や”ｔ”などは音素記号、”−”は音節境界、”
１”と”２”はプライマリ・ストレスとセカンダリ・ス
トレスを表す。図８（ｃ）の中国語の場合は”ｊｉｎ”
や”ｔｉａｎ”は音節単位の発音表記であるｐｉｎｙｉ
ｎコード、各音節記号に付加されている数字は四声（ｔ
ｏｎｅ）を表す。

【００５９】これらが各言語における自然な抑揚を持っ
た音声を合成するための情報となる。［韻律生成から合成にかけての動作］次に、韻律生成か
ら合成にかけての動作について説明する。

【００６０】図９は韻律生成部１１０、韻律変形部１１
２、素片読み出し部１１３、合成部１１５とその周辺の
構成を表したものである。破線で示されているように、
分離部１０７から音声符号が合成部１１５に入力されて
いるが、これは通常の音声復号化の動作である。

【００６１】一方、実線で示されているように、韻律変
形部１１２と素片読み出し部１１３からもデータが入力
されているが、これはテキストからの音声合成を行う場
合の動作である。以下にこのテキストからの音声合成
の動作について説明する。

【００６２】素片データベース１１４にはＣＥＬＰ符号
化された素片データが納められている。素片の単位は音
素、モーラ、音節等が通常用いられる。符号化されたデ
ータはＬＳＰ係数α_qi、適応符号番号ｃ_a、雑音符号番
号ｃ_r、ゲイン符号番号ｃ_gとして格納され、それぞれの
値はフレーム周期毎に並べられている。

【００６３】素片読み出し部１１３には素片選択部１１
３−１が備えられ、韻律変形部１１２から送信される韻
律情報付き音声表記情報のうち音声表記情報を利用して
素片データベース１１４に格納されている素片のうちの
ひとつを指定する。

【００６４】次にデータ読み出し部１１３−２が素片デ
ータベース１１４から指定された素片のデータを読み出
し、合成部に送信する。この時、韻律変形部１１２から
送られてくる韻律情報付き音声表記情報に含まれるタイ
ミング情報を利用して素片データの時間伸縮を行う。

【００６５】１素片のデータは（数１）のような時系列
で表される。

【００６６】

【数１】Ｖ_m ＝｛ｖ_m0，ｖ_m1，．．．ｖ_mk｝ここで、ｍは素片番号、ｋは素片毎のフレーム数であ
る。各フレームのｖ_mは（数２）のようにＣＥＬＰデー
タである。

【００６７】

【数２】ｖ_m ＝｛α_q0，．．．，α_qn，ｃ_a，ｃ_r，ｃ_g｝データ読み出し部１１３−２はタイミング情報から必要
な時間長を算出し、それをフレーム数ｋ’に換算する。
ｋ＝ｋ’すなわち素片本来の時間長と必要な時間長が等
しい場合、ｖ_m0、ｖ_m1、ｖ_m2と順番に一つずつ情報を読
み出して行けば良い。ｋ＞ｋ’、すなわち素片の時間長
を縮めて使いたい場合はｖ_m0、ｖ_m2、ｖ _m4などのように
適当に読み飛ばす。また、ｋ＜ｋ’、すなわち素片の時
間長を伸ばして使いたい場合はｖ_m0、ｖ_m0、ｖ_m1、
ｖ_m2、ｖ_m2などのように必要に応じてフレームデータを
繰り返す。

【００６８】このようにして生成されたデータは合成部
１１５に入力される。適応符号帳１１５−１にはｃ_a、
雑音符号帳にはｃ_g、ゲイン符号帳にはｃ_g、合成フィル
タにはα_qiがそれぞれ入力される。ただし、Ｔ₀は韻律
変形部１１２から入力される。

【００６９】適応符号帳１１５−１はｃ_aによって示さ
れた音源波形をＴ₀の周期で繰り返し発生するようにな
っているため、スペクトルの特徴は素片に従い、ピッチ
は韻律変形部１１２からの出力に従った音源波形が生成
される。その他は通常の音声復号化と同じ動作となる。

【００７０】［韻律生成部と韻律変形部の動作］次に、
韻律生成部１１０と韻律変形部１１２の動作について詳
しく説明する。

【００７１】韻律生成部１１０には音声表記情報が入力
される。

【００７２】図８（ａ）の例を用いると”ｋｙｏ’ ｏ
ｗａ，ｉ’ ｉ／ｔｅ’ Ｎｋｉｄｅｓｕ．”が
入力である。日本語の韻律はアクセント句と呼ばれる単
位で記述される。アクセント句は”，”または”／”で
区切られる。この例の場合、アクセント句は３つ存在す
る。アクセント句の中にはアクセント核が１個または０
個存在し、アクセント核の位置によってアクセント型が
定義されている。アクセント核が先頭モーラにある場合
は１型と呼び、一つ後ろにずれる毎に２型、３型などと
呼ぶ。アクセント核が存在しない場合は特別に０型と呼
ぶ。アクセント型とアクセント句が含むモーラの数によ
ってアクセント句は分類される。この例の場合、先頭か
ら３モーラ１型、２モーラ１型、５モーラ１型となる。

【００７３】韻律データベース１１１にはアクセント句
のモーラ数とアクセント型に応じてモーラ毎のピッチの
値が登録されている。図１０はピッチの値を周波数（単
位はＨｚ）で登録してある様子をあらわしている。ま
た、韻律データベース１１１にはアクセント句のモーラ
数に対応した各モーラの時間長が登録されている。図１
１はその様子を表している。図１１の時間長の単位はミ
リ秒である。

【００７４】このような情報をもとに韻律生成部１１０
は図１２のような処理を行う。図１２は韻律生成部１１
０の入出力データを表したものである。入力は図８の言
語処理結果の出力である音声表記である。出力は音声表
記、時間長、ピッチとなる。音声表記は入力の各音節の
表記からアクセント記号を除去したものとなっている。

【００７５】また、”，”や”．”は無音を表す”ＳＩ
Ｌ”という記号に置きかえられている。時間長は図１１
の時間長テーブルから３モーラ、２モーラ、５モーラの
情報が取り出され用いられている。ＳＩＬの音節にはこ
こでは定数の２００を割り当てている。ピッチ情報には
図１０のピッチテーブルから３モーラ１型、２モーラ１
型、５モーラ１型の情報が取り出されて用いられてい
る。

【００７６】韻律変形部１１２はこれらの情報をパラメ
ータ入力部１１８を介してユーザが設定した情報に従っ
て変形する。例えばピッチを変えるにはピッチの周波数
の値に定数ｐ_fを乗算すればよい。発話速度を変えるに
は時間長の値に定数ｐ_dを乗算すればよい。ｐ_f＝１．
２、ｐ_d＝０．９の時の韻律変形部１１２の入力データ
および処理結果の例を図１３に示す。韻律変形部１１２
はこの情報をもとに、適応符号帳１１５−１に対して各
フレーム毎にＴ₀の値を出力する。そのために、１モー
ラ毎に決定されているピッチ周波数の値を直線補間やス
プライン補間などを用いてフレーム毎の周波数Ｆ₀に変
換し、それをサンプリング周波数Ｆ_sを用いて（数３）
によって変換する。

【００７７】

【数３】Ｔ₀ ＝Ｆ_s ／Ｆ₀ 図１４にピッチ周波数Ｆ₀を直線補間する様子を示す。
この例では二つのモーラの間は直線で補間しているが、
文頭やＳＩＬの前後などは最寄の値を使用して平坦な周
波数を出力するようにしている。

【００７８】ここまで日本語の例を中心に説明したが、
英語、中国語とも同様に処理すればよい。このように構
成することにより、受信端末装置内の合成部１１５、Ｄ
Ａ変換部１１６、音声出力部１１７を用いて、音声通信
とテキスト音声変換がともに実現し、ハードウェア規模
の増大を少なく抑えることが可能である。

【００７９】また、この構成によればテキスト情報が受
信端末にそのまま送られてくるため、受信端末のディス
プレイにテキストを表示させることや、テキストを音声
合成に適したものに変形させるなどの処理が可能であ
る。

【００８０】また、韻律生成部１１０と韻律データベー
ス１１１を受信端末側に持つので、例えば複数の韻律パ
ターンからユーザが好みに応じて選択できるようにする
ことや、受信端末装置の機種毎に異なる韻律を搭載する
ことが可能である。

【００８１】また、韻律変形部１１２を受信端末側に搭
載しているので、ユーザが好みに応じて発話速度やピッ
チなど音声のパラメータを変化させることができる。

【００８２】さらに、素片読み出し部１１３や素片デー
タベース１１４を受信端末側に搭載しているため、ユー
ザが好みに応じて男女の切り替えや話者の切り替えをで
きるようにすることや、機種毎に異なる話者の音声を搭
載することも可能である。

【００８３】なお、本実施の形態の説明において、テキ
スト入力部１００にはユーザがキーボードなどから任意
のテキストを入力するとしたが、例えばハードディスク
などの記憶媒体やインターネットやＬＡＮなどのネット
ワーク、あるいはデータベースからテキストを読み出し
ても良い。あるいはキーボードの代わりに音声認識など
を用いてテキストを入力してももちろん構わない。これ
以降に述べる他の実施の形態においても同様である。

【００８４】また、本実施の形態では韻律生成部１１０
においてピッチと時間長をアクセント句毎のモーラ数と
アクセント形を用いたテーブル参照で行うようにした
が、これを別の方法で行ってももちろん構わない。例え
ばピッチは藤崎モデルなどの生成モデルを用いれば、関
数を用いて連続的なピッチ周波数の値を生成することが
できる。また、時間長は音韻毎の特徴量として統計的に
求めておいてもよい。

【００８５】また、本実施の形態において、音声符号化
復号化方式として基本的なＣＥＬＰ方式を例に用いた
が、これをもとに様々な改良方式、例えばＣＳ−ＡＣＥ
ＬＰ方式（ＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎ
Ｇ．７２９）などにも適用可能である。

【００８６】本発明は、音声信号を音源とＬＰＣ係数や
ＬＳＰ係数などの声道特性に分離して符号化するシステ
ムであれば適用可能である。

【００８７】［実施の形態２］続いて本発明の音声通信
システムの第二の実施の形態について説明する。

【００８８】図２は本発明の音声通信システムの第二の
実施の形態を示すものである。第一の実施の形態と同様
に、その音声通信システムは送信端末と受信端末からな
り、その間は通信路で結ばれている。

【００８９】送信端末にはテキスト入力部１００が備え
られ、その出力は言語解析部１０８に接続されている。
言語解析部１０８の出力は多重化部１０４、送信部１０
５を経て通信路に送信されている。

【００９０】受信端末には受信部１０６が備えられ、そ
の出力は分離部１０７に接続されている。分離部１０７
の出力は韻律生成部１１０および合成部１１５に接続さ
れている。その他は第一の実施の形態と同様である。

【００９１】このように構成された音声通信システムは
第一の実施の形態と同様に動作する。

【００９２】本実施の形態の第一の実施の形態に対する
動作の違いは、テキスト入力部１００はテキスト情報を
多重化部１０４ではなく直接言語解析部１０８に出力す
ること、言語解析部１０８の出力である音声表記情報が
多重化部１０４に出力されること、分離部１０７が受信
されたデータ系列から音声符号系列と音声表記情報に分
離すること、分離された音声表記情報が韻律生成部１１
０に入力されることである。

【００９３】このように構成することで、受信端末側に
言語解析部１０８および辞書１０９を搭載する必要がな
くなるため、受信端末の回路規模をさらに小さくするこ
とができる。このことは受信側が携帯型の端末であり、
送信側がコンピュータサーバなどの大型機器であるとき
に有利である。

【００９４】また、韻律生成部１１０と韻律データベー
ス１１１は受信端末側に持つので、ユーザが複数の韻律
パターンから好みの物を選択することや、受信端末装置
の機種毎に異なる韻律を搭載することが可能である。

【００９５】また、韻律変形部１１２を受信端末側に搭
載しているので、ユーザが好みに応じて発話速度やピッ
チなど音声のパラメータを変化させることができる。

【００９６】さらに、素片読み出し部１１３や素片デー
タベース１１４を受信端末側に搭載しているため、ユー
ザが好みに応じて男女の切り替えや話者の切り替えをで
きるようにすることや、機種毎に異なる話者の音声を搭
載することも可能である。

【００９７】［実施の形態３］続いて本発明の音声通信
システムの第三の実施の形態について説明する。

【００９８】図３は本発明の音声通信システムの第三の
実施の形態を示すものである。第一および第二の実施の
形態と同様に、その音声通信システムは送信端末と受信
端末からなり、その間は通信路で結ばれている。

【００９９】本実施の形態では第二の実施の形態と異な
り、韻律生成部１１０と韻律データベース１１１が受信
端末ではなく送信端末に搭載されている。したがって、
言語解析部１０８の出力である音声表記情報は韻律生成
部１１０に直接入力され、韻律生成部１１０の出力であ
る韻律情報付き音声表記情報は、送信端末の多重化部１
０４と送信部１０５を介して通信路に送信されている。

【０１００】受信端末側では受信部１０６を介して受信
されたデータ系列は分離部１０７により音声符号系列と
韻律情報付き音声表記情報に分離され、音声符号系列は
合成部１１５に、韻律情報付き音声表記情報は韻律変形
部１１２に入力されている。

【０１０１】このように構成することにより、受信端末
側に韻律生成部１１０および韻律データベース１１１を
搭載する必要がなくなるため、受信端末の回路規模をさ
らに小さくすることができる。このことは受信側が携帯
型の端末であり、送信側がコンピュータサーバなどの大
型機器であるときに一層有利である。

【０１０２】また、韻律変形部１１２を受信端末側に搭
載しているので、ユーザが好みに応じて発話速度やピッ
チなど音声のパラメータを変化させることができる。

【０１０３】さらに、素片読み出し部１１３や素片デー
タベース１１４を受信端末側に搭載しているため、ユー
ザが好みに応じて男女の切り替えや話者の切り替えをで
きるようにすることや、機種毎に異なる話者の音声を搭
載することも可能である。

【０１０４】［実施の形態４］続いて本発明の音声通信
システムの第四の実施の形態について説明する。

【０１０５】図４は本発明の音声通信システムの第四の
実施の形態を示すものである。第一、第二、第三の実施
の形態とは異なり、その音声通信システムは送信端末と
受信端末に加えて中継器からなり、それらの間は互いに
通信路で結ばれている。

【０１０６】送信端末には、テキスト入力部１００が備
えられその出力は多重化部１０４−ａに接続されてい
る。また、音声入力部１０１が備えられ、その出力はＡ
Ｄ変換部１０２、音声符号化部１０３を経て多重化部１
０４−ａに接続されている。多重化部１０４−ａの出力
は送信部１０５−ａを介して通信路に送信されている。

【０１０７】中継器には受信部１０６−ａが備えられ、
その出力は分離部１０７−ａに接続されている。分離部
１０７−ａの一方の出力は言語解析部１０８に接続さ
れ、その出力は多重化部１０４−ｂに接続されている。
また、言語解析部１０８には辞書１０９が接続されてい
る。分離部１０７−ａのもう一方の出力は多重化部１０
４−ｂに接続され、その出力は送信部１０５−ｂを介し
て通信路に送信されている。

【０１０８】受信端末には受信部１０６−ｂが備えら
れ、その出力は分離部１０７−ｂに接続されている。分
離部１０７−ｂの一方の出力は韻律生成部１１０に接続
されている。また、韻律生成部１１０には韻律データベ
ース１１１が接続されている。韻律生成部１１０の出力
は韻律変形部１１２に接続され、その出力は素片読み出
し部１１３に接続されている。素片読み出し部１１３に
は素片データベース１１４が接続されている。

【０１０９】韻律変形部１１２と素片読み出し部１１３
の出力はともに合成部１１５に接続されている。また、
合成部１１５の出力はＤＡ変換部１１６を介して音声出
力部１１７に接続されている。また、パラメータ入力部
１１８が設けられ、韻律変形部１１２、素片読み出し部
１１３と接続されている。

【０１１０】このように構成された音声通信システムの
動作は送信端末に関しては本発明の第一の実施の形態と
同様である。また、受信端末に関しては本発明の第三の
実施の形態と同様である。中継器での動作は以下の通り
である。

【０１１１】受信部１０６は通信路より前述のデータ系
列を受信し、分離部１０７に出力する。分離部１０７は
データ系列を音声符号系列とテキスト情報に分離し、音
声符号系列を多重化部１０４−ｂに、テキスト情報を言
語解析部１０８に各々出力する。テキスト情報は他の実
施の形態と同様に処理され音声表記情報に変換され、多
重化部１０４−ｂに出力される。多重化部１０４−ｂは
音声符号系列と音声表記情報を多重化して一つのデータ
系列とし、送信部１０５−ｂを介して通信路に送信す
る。

【０１１２】このように構成することで、言語解析部１
０８および辞書１０９を送信端末および受信端末のいず
れにも搭載する必要がなく、両者の回路規模を小さくす
ることが可能である。このことは送信側と受信側がとも
に携帯型の端末装置である場合に有利である。

【０１１３】また、韻律生成部１１０と韻律データベー
ス１１１は受信端末側に持つので、ユーザが複数の韻律
パターンから好みの物を選択することや、受信端末装置
の機種毎に異なる韻律を搭載することが可能である。

【０１１４】また、韻律変形部１１２を受信端末側に搭
載しているので、ユーザが好みに応じて発話速度やピッ
チなど音声のパラメータを変化させることができる。

【０１１５】さらに、素片読み出し部１１３や素片デー
タベース１１４を受信端末側に搭載しているため、ユー
ザが好みに応じて男女の切り替えや話者の切り替えをで
きるようにすることや、機種毎に異なる話者の音声を搭
載することも可能である。

【０１１６】［実施の形態５］続いて本発明の音声通信
システムの第五の実施の形態について説明する。

【０１１７】図５は本発明の音声通信システムの第五の
実施の形態を示すものである。第四の実施の形態と同様
に、その音声通信システムは送信端末と中継器と受信端
末からなり、それらの間は互いに通信路で結ばれてい
る。

【０１１８】本実施の形態では第四の実施の形態と異な
り、韻律生成部１１０と韻律データベース１１１が受信
端末ではなく中継器に搭載されている。したがって、言
語解析部１０８の出力である音声表記情報は韻律生成部
１１０に直接入力され、韻律生成部１１０の出力である
韻律情報付き音声表記情報は中継器の多重化部１０４−
ｂと送信部１０５−ｂを介して通信路に送信されてい
る。送信端末は本発明の第四の実施の形態と同様に動作
し、受信端末は本発明の第三の実施の形態と同様に動作
する。

【０１１９】このように構成することで言語解析部１０
８および辞書１０９を送信端末および受信端末のいずれ
にも搭載する必要がなく、両者の回路規模をさらに小さ
くすることが可能である。このことは送信側と受信側が
ともに携帯型の端末装置である場合に一層有利である。

【０１２０】また、韻律変形部１１２を受信端末側に搭
載しているので、ユーザが好みに応じて発話速度やピッ
チなど音声のパラメータを変化させることができる。

【０１２１】さらに、素片読み出し部１１３や素片デー
タベース１１４を受信端末側に搭載しているため、ユー
ザが好みに応じて男女の切り替えや話者の切り替えをで
きるようにすることや、機種毎に異なる話者の音声を搭
載することも可能である。

【０１２２】また、この構成を用いることで複数の言語
に対応することが容易となる。例えば送信側では特定の
言語を入力可能としておき、中継器においては複数の言
語に対応した言語解析部と韻律生成部を用意しておく。
言語の種類は送信端末を識別することでデータベースと
照合することで特定することができる。あるいは送信端
末から毎回言語種類の情報を送信するようにしても良
い。

【０１２３】言語解析部１０８の出力である音声表記と
してたとえばＩＰＡ（International Phonetic Alphabe
t）などの体系を用いることで、複数の言語を同一の表
記で表現できる。さらに、韻律生成部１１０は韻律情報
としてToBI(Tones and BreakIndices, M.E. Beckman an
d G.M. Ayers, The ToBI Handbook, Tech. Rept. (Ohio
-State University, Columbus, U.S.A., 1993))などの
韻律情報記述手法あるいは音素時間長、ピッチ周波数、
振幅値などの物理量を用いることで言語に依存しない表
現が可能である。

【０１２４】このように言語間で共通の形式で表現され
た韻律情報付き音声表記情報を中継器から受信端末に送
信することが可能である。受信端末側では音声表記およ
び韻律情報に従って適切な周期と適切な振幅で音源波形
を生成し適切なコード番号を生成することにより、あら
ゆる言語の音声を共通の回路で合成することが可能であ
る。［実施の形態６］続いて本発明の音声通信システムの第
六の実施の形態について説明する。

【０１２５】図６は本発明の音声通信システムの第六の
実施の形態を示すものである。第四、第五の実施の形態
と同様に、その音声通信システムは送信端末と中継器と
受信端末からなり、それらの間は互いに通信路で結ばれ
ている。

【０１２６】本実施の形態では第五の実施の形態と異な
り、言語解析部１０８と辞書１０９が中継器ではなく送
信端末に搭載されている。送信端末は本発明の第二の実
施の形態と同様に動作する。また、受信端末は本発明の
第三の実施の形態と同様に動作する。

【０１２７】また、中継器では受信部１０６−ａを介し
て通信路から受信されたデータ系列は分離部１０７−ａ
で音声表記情報と音声符号系列に分離される。

【０１２８】音声表記情報は韻律生成部１１０で韻律デ
ータベース１１１を用いながら韻律情報付き音声表記情
報に変換され、多重化部１０４−ｂに入力される。ま
た、音声符号系列も多重化部１０４−ｂに入力され、韻
律情報付き音声表記情報と多重化されて一つのデータ系
列となり、送信部１０５−ｂを介して通信路に送信され
る。

【０１２９】このように構成することで受信端末は本発
明の第五の実施の形態と同様韻律生成部１１０と韻律デ
ータベース１１１を搭載する必要がなく、回路規模を小
さくできる。

【０１３０】また、韻律変形部１１２を受信端末側に搭
載しているので、ユーザが好みに応じて発話速度やピッ
チなど音声のパラメータを変化させることができる。

【０１３１】さらに、素片読み出し部１１３や素片デー
タベース１１４を受信端末側に搭載しているため、ユー
ザが好みに応じて男女の切り替えや話者の切り替えをで
きるようにすることや、機種毎に異なる話者の音声を搭
載することも可能である。

【０１３２】また、本発明の第５の実施の形態で述べた
ように、複数の言語に依存することが容易となる。即
ち、受信端末には言語解析部と韻律生成部を持たないた
め、言語に依存しないハードウェアが実現可能である。
一方、送信端末側は言語解析部を持つため特定の言語に
対応したものとなる。携帯電話システムなどのように交
換機により任意の相手先との接続が可能なシステムの場
合、受信側が言語非依存であれば必ず通信は成立する。
このような状況では送信側が言語依存性を有することが
許容できる。

【０１３３】なお、本発明の音声通信システムの全部ま
たは一部の手段の全部または一部の機能をコンピュータ
により実行させるためのプログラム及び／またはデータ
を担持した媒体であって、コンピュータにより処理可能
なことを特徴とする媒体も本発明に属する。

【０１３４】さらに、本発明の音声通信システムの全部
または一部の手段の全部または一部の機能をコンピュー
タにより実行させるためのプログラム及び／またはデー
タであることを特徴とする情報集合体も本発明に属す
る。

【０１３５】さらに、本発明のデータとは、データ構
造、データフォーマット、データの種類などを含む。ま
た、本発明の媒体とは、ＲＯＭ等の記録媒体、インター
ネット等の伝送媒体、光・電波・音波等の伝送媒体を含
む。また、本発明の担持した媒体とは、例えば、プログ
ラム及び／またはデータを記録した記録媒体、やプログ
ラム及び／またはデータを伝送する伝送媒体等を含む。
また、本発明のコンピュータにより処理可能とは、例え
ば、ＲＯＭなどの記録媒体の場合であれば、コンピュー
タにより読みとり可能であることであり、伝送媒体の場
合であれば、伝送対象となるプログラム及び／またはデ
ータが伝送の結果として、コンピュータにより取り扱え
ることであることを含む。また、本発明の情報集合体と
は、例えば、プログラム及び／またはデータ等のソフト
ウエアを含むものである。

【０１３６】さらに、上記実施の形態の音声通信システ
ムの全部または一部の手段の全部または一部の機能をコ
ンピュータにより実行させるためのプログラム及び／ま
たはデータを記録したプログラム記録媒体は、コンピュ
ータにより読み取り可能であり、読み取られた前記プロ
グラム及び／またはデータが前記コンピュータと協動し
て前記機能を実行するプログラム記録媒体であっても良
い。

【０１３７】

【発明の効果】上記のように構成することにより、携帯
電話のように音声復号化部を内蔵しているような通信機
器においてわずかなソフトウェアとテーブルを追加する
だけで音声規則合成機能を追加することができる。テー
ブルの中でサイズが大きいのは素片テーブルであるが、
一般的な規則合成方式で用いられる波形素片を用いた場
合、百ｋＢ以上が必要になる。それに対し、コード番号
でテーブル化する場合は10ｋＢ前後で構成可能である。
また、当然ながら規則合成方式のような波形生成部のソ
フトウェアも不要である。従って、これら全ての機能が
1チップで実現可能である。

【０１３８】このことにより、従来の音声通信機能を維
持しながら発音記号テキストの受信による規則合成の機
能を付加することにより応用範囲が拡大する。例えば、
携帯電話でサーバーにアクセスすることにより最新のニ
ュース情報などを瞬時にダウンロードし、通信を終了し
てから音声に変換して内容を聞くことが可能である。ま
た、ページャー機能を内蔵した機器では文字の表示と共
に音声でも出力可能となる。

【０１３９】また、音声規則合成機能はパラメータの変
更によってピッチや速度を可変にでき、周囲の騒音に応
じて聞きやすい高さや速さを選べるという利点がある。

【０１４０】さらに、簡単なテキスト処理を内蔵するこ
とによって通信端末からテキストを入力し、これを発音
記号テキストに変換して転送することにより、相手側に
合成音声でメッセージを送信することも可能となる。

【０１４１】また、テキストを入力した端末側自身でも
合成音声に変換することが可能であり、ボイスメモ代わ
りに使用可能である。

【０１４２】また、高度なテキスト処理を内蔵すること
はソフトウェアが複雑になると共に大規模な辞書が必要
になるので、これを中継局に内蔵すれば同様の機能が低
いコストで実現可能になる。

【０１４３】さらに、言語解析部と韻律生成部を送信端
末あるいは中継局に内蔵するようにすれば、言語に依存
しない受信端末の実現が可能となる。

【図面の簡単な説明】

【図１】本発明の音声通信システムの第一の実施の形態
の構成図

【図２】本発明の音声通信システムの第二の実施の形態
の構成図

【図３】本発明の音声通信システムの第三の実施の形態
の構成図

【図４】本発明の音声通信システムの第四の実施の形態
の構成図

【図５】本発明の音声通信システムの第五の実施の形態
の構成図

【図６】本発明の音声通信システムの第五の実施の形態
の構成図

【図７】従来の音声符号化復号化システムの説明図

【図８】言語処理部の処理の説明図

【図９】韻律生成部、韻律変形部と合成部周辺の詳細の
構成図

【図１０】韻律生成部のピッチテーブル

【図１１】韻律生成部の時間長テーブル

【図１２】韻律生成部の処理の説明図

【図１３】韻律変形部の処理の説明図

【図１４】韻律生成部が補間により連続的なピッチパタ
ーンを生成する様子の説明図

【符号の説明】

１００テキスト入力部１０１音声入力部１０２ＡＤ変換部１０３音声符号化部１０４多重化部１０４−ａ多重化部１０４−ｂ多重化部１０５送信部１０５−ａ送信部１０５−ｂ送信部１０６受信部１０６−ａ受信部１０６−ｂ受信部１０７分離部１０７−ａ分離部１０７−ｂ分離部１０８言語解析部１０９辞書１１０韻律生成部１１１韻律データベース１１２韻律変形部１１３素片読み出し部１１３−１素片選択部１１３−２データ読み出し部１１４素片データベース１１５合成部１１５−１適応符号帳１１５−２雑音符号帳１１５−３ゲイン符号帳１１５−４合成フィルタ１１６ＤＡ変換部１１７音声出力部２００ＬＰＣ分析部２０１ＬＰＣパラメータ量子化部２０２合成フィルタ２０３適応符号帳２０４雑音符号帳２０５ゲイン符号帳２０６聴覚重み付けフィルタ２０７歪計算部２０８適応符号帳２０９雑音符号帳２１０ゲイン符号帳２１１合成フィルタ

Claims

【特許請求の範囲】

【請求項１】テキスト入力手段及び送信手段を有する送
信部と、受信手段、言語解析手段、韻律生成手段、素片データ記
憶手段、素片読み出し手段及び、合成手段を有する受信
部と、を備えた音声通信システムであって、前記テキスト入力手段はテキスト情報を入力し、前記送信手段は前記テキスト情報を通信路に送信し、前記受信手段は前記通信路から前記テキスト情報を受信
し、前記言語解析手段は前記テキスト情報を解析して、前記
テキスト情報を、音声表記情報に変換し、前記韻律生成手段は、前記音声表記情報を、韻律情報が
付加された韻律情報付き音声表記情報に変換し、前記素片読み出し手段は、前記韻律情報付き音声表記情
報に従って、前記素片データ記憶手段から素片データを
読み出し、前記合成手段は、前記韻律情報付き音声表記情報と、前
記素片データを用いて音声を合成し、前記素片データ記憶手段は、音源特性と声道伝達特性情
報を記憶し、前記合成手段は、前記韻律情報に従った周期を有し、
前記音源特性に従った特性を有する音源波形を生成する
とともに、前記声道伝達特性情報に従って前記音源波形
をフィルタ処理することによって音声を合成することを
特徴とする音声通信システム。
【請求項２】前記送信部は音声入力手段と音声符号化手
段と多重化手段を有し、前記受信部は分離手段を有し、前記音声入力手段は音声信号を入力し、前記音声符号化手段は前記入力された音声信号のピッチ
と音源特性と声道伝達特性を分析して符号化することに
より音声符号系列に変換し、前記多重化手段は前記テキスト情報と前記音声符号系列
を多重化してひとつの符号系列に変換し、前記分離手段は前記符号系列を前記テキスト情報と前記
音声符号系列に分離し、前記合成手段は前記音声符号系列を音声信号に変換する
ことを特徴とする請求項１記載の音声通信システム。
【請求項３】テキスト入力手段、言語解析手段及び送信
手段を有する送信部と、受信手段、韻律生成手段、素片データ記憶手段、素片読
み出し手段及び、合成手段を有する受信部とを備えた音
声通信システムであって、前記テキスト入力手段はテキスト情報を入力し、前記言語解析手段は、前記テキスト情報を音声表記情報
に変換し、前記送信手段は前記音声表記情報を通信路に送信し、前記受信手段は前記通信路から前記音声表記情報を受信
し、前記韻律生成手段は、前記音声表記情報を、韻律情報が
付加された韻律情報付き音声表記情報に変換し、前記素片読み出し手段は、前記韻律情報付き音声表記情
報に従って前記素片データ記憶手段から素片データを読
み出し、前記合成手段は、前記韻律情報付き音声表記情報と前記
素片データを用いて音声を合成し、前記素片データ記憶手段は音源特性と声道伝達特性情報
を記憶し、前記合成手段は、前記韻律情報に従った周期を有し、前
記音源特性に従った特性を有する音源波形を生成すると
ともに、前記声道伝達特性情報に従って前記音源波形を
フィルタ処理することによって音声を合成することを特
徴とする音声通信システム。
【請求項４】前記送信部は音声入力手段と音声符号化手
段と多重化手段を有し、前記受信部は分離手段を有し、前記音声入力手段は音声信号を入力し、前記音声符号化手段は前記入力された音声信号のピッチ
と音源特性と声道伝達特性を分析して符号化することに
より音声符号系列に変換し、前記多重化手段は前記音声表記情報と前記音声符号系列
を多重化してひとつの符号系列に変換し、前記分離手段は、前記符号系列を前記音声表記情報と前
記音声符号系列に分離し、前記合成手段は前記音声符号系列を音声信号に変換する
ことを特徴とする請求項３記載の音声通信システム。
【請求項５】テキスト入力手段、言語解析手段、韻律生
成手段及び、送信手段を有する送信部と、受信手段、素片データ記憶手段、素片読み出し手段及び
合成手段を有する受信部とを備えた音声通信システムで
あって、前記テキスト入力手段はテキスト情報を入力し、前記言語解析手段は、前記テキスト情報を音声表記情報
に変換し、前記韻律生成手段は、前記音声表記情報を、韻律情報が
付加された韻律情報付き音声表記情報に変換し、前記送信手段は、前記韻律情報付き音声表記情報を通信
路に送信し、前記受信手段は、前記通信路から前記韻律情報付き音声
表記情報を受信し、前記素片読み出し手段は、前記韻律情報付き音声表記情
報に従って前記素片データ記憶手段から素片データを読
み出し、前記合成手段は、前記韻律情報付き音声表記情報と前記
素片データとを用いて音声を合成し、前記素片データ記憶手段は音源特性と声道伝達特性情報
を記憶し、前記合成手段は、前記韻律情報に従った周期を有し、
前記音源特性に従った特性を有する音源波形を生成す
るとともに、前記声道伝達特性情報に従って前記音源
波形をフィルタ処理することによって音声を合成するこ
とを特徴とする音声通信システム。
【請求項６】前記送信部は音声入力手段、音声符号化手
段及び多重化手段を有し、前記受信部は分離手段を有
し、前記音声入力手段は音声信号を入力し、前記音声符号化手段は、前記音声信号のピッチと音源特
性と声道伝達特性を分析して符号化することにより音声
符号系列に変換し、前記多重化手段は前記韻律情報付き音声表記情報と前記
音声符号系列を多重化してひとつの符号系列に変換し、前記分離手段は前記符号系列を前記韻律情報付き音声表
記情報と前記音声符号系列に分離し、前記合成手段は、前記音声符号系列を音声信号に変換す
ることを特徴とする請求項５記載の音声通信システム。
【請求項７】テキスト入力手段及び第一の送信手段を有
する送信部と、第一の受信手段、言語解析手段及び第二の送信手段を有
する中継部と、第二の受信手段、韻律生成手段、素片データ記憶手段、
素片読み出し手段及び、合成手段を有する受信部とを備
えた音声通信システムであって、前記テキスト入力手段はテキスト情報を入力し、前記第一の送信手段は前記テキスト情報を第一の通信路
に送信し、前記第一の受信手段は前記第一の通信路から
前記テキスト情報を受信し、前記言語解析手段は前記テキスト情報を音声表記情報に
変換し、前記第二の送信手段は前記音声表記情報を第二の通信路
に送信し、前記第二の受信手段は前記第二の通信路から前記音声表
記情報を受信し、前記韻律生成手段は、前記音声表記情報を、韻律情報が
付加された韻律情報付き音声表記情報に変換し、前記素片読み出し手段は前記韻律情報付き音声表記情報
に従って前記素片データ記憶手段から素片データを読み
出し、前記合成手段は、前記韻律情報付き音声表記情報と前記
素片データを用いて音声を合成し、前記素片データ記憶手段は音源特性と声道伝達特性情報
を記憶し、前記合成手段は、前記韻律情報に従った周期を有し、前
記音源特性に従った特性を有する音源波形を生成する
とともに、前記声道伝達特性情報に従って前記音源波形
をフィルタ処理することによって音声を合成することを
特徴とする音声通信システム。
【請求項８】前記送信部は音声入力手段と音声符号化手
段と第一の多重化手段を有し、前記中継部は第一の分離
手段と第二の多重化手段を有し、前記受信部は第二の分
離手段を有し、前記音声入力手段は音声信号を入力し、前記音声符号化手段は前記音声信号のピッチと音源特性
と声道伝達特性を分析して符号化することにより音声符
号系列に変換し、前記第一の多重化手段は前記テキスト情報と前記音声符
号系列を多重化してひとつの符号系列に変換し、前記第一の分離手段は前記符号系列を前記テキスト情報
と前記音声符号系列に分離し、前記第二の多重化手段は前記音声表記情報と前記音声符
号系列を多重化してひとつの符号系列に変換し、前記第二の分離手段は前記第二の多重化手段によって多
重化された符号系列を前記音声表記情報と前記音声符号
系列に分離し、前記合成手段は前記音声符号系列を音声信号に変換する
ことを特徴とする請求項７記載の音声通信システム。
【請求項９】テキスト入力手段と第一の送信手段を有す
る送信部と、第一の受信手段、言語解析手段、韻律生成手段及び第二
の送信手段を有する中継部と、第二の受信手段、素片データ記憶手段、素片読み出し手
段及び合成手段を有する受信部とを備えた音声通信シス
テムであって、前記テキスト入力手段はテキスト情報を入力し、前記第一の送信手段は前記テキスト情報を第一の通信路
に送信し、前記第一の受信手段は前記第一の通信路から前記テキス
ト情報を受信し、前記言語解析手段は前記テキスト情報を音声表記情報に
変換し、前記韻律生成手段は前記音声表記情報を、韻律情報が付
加された韻律情報付き音声表記情報に変換し、前記第二の送信手段は前記韻律情報付き音声表記情報を
第二の通信路に送信し、前記第二の受信手段は前記第二の通信路から前記韻律情
報付き音声表記情報を受信し、前記素片読み出し手段は前記韻律情報付き音声表記情報
に従って前記素片データ記憶手段から素片データを読み
出し、前記合成手段は前記韻律情報付き音声表記情報と前記素
片データとを用いて音声を合成し、前記素片データ記憶手段は音源特性と声道伝達特性情報
を記憶し、前記合成手段は、前記韻律情報に従った周期を有し、前
記音源特性に従った特性を有する音源波形を生成する
とともに、前記声道伝達特性情報に従って前記音源波形
をフィルタ処理することによって音声を合成することを
特徴とする音声通信システム。
【請求項１０】前記送信部は音声入力手段、音声符号化
手段及び、第一の多重化手段を有し、前記中継部は第一
の分離手段と第二の多重化手段を有し、前記受信部は第
二の分離手段を有し、前記音声入力手段は音声信号を入力し、前記音声符号化手段は前記音声信号のピッチと音源特性
と声道伝達特性を分析して符号化することにより音声符
号系列に変換し、前記第一の多重化手段は前記テキスト情報と前記音声符
号系列を多重化してひとつの符号系列に変換し、前記第一の分離手段は前記符号系列を前記テキスト情報
と前記音声符号系列に分離し、前記第二の多重化手段は、前記韻律情報付き音声表記情
報と前記音声符号系列を多重化してひとつの符号系列に
変換し、前記第二の分離手段は、前記第二の多重化手段によって
多重化された前記符号系列を、前記音韻情報付き音声表
記情報と前記音声符号系列に分離し、前記合成手段は前記音声符号系列を音声信号に変換する
ことを特徴とする請求項９記載の音声通信システム。
【請求項１１】テキスト入力手段、言語解析手段及び、
第一の送信手段を有する送信部と、第一の受信手段、韻
律生成手段及び第二の送信手段を有する中継部と、第二
の受信手段、素片データ記憶手段、素片読み出し手段及
び合成手段を有する受信部とを備えた音声通信システム
であって、前記テキスト入力手段はテキスト情報を入力し、前記言語解析手段は前記テキスト情報を音声表記情報に
変換し、前記第一の送信手段は前記音声表記情報を第一の通信路
に送信し、前記第一の受信手段は前記第一の通信路から
音声表記情報情報を受信し、前記韻律生成手段は、前記
音声表記情報を、韻律情報が付加された韻律情報付き音
声表記情報に変換し、前記第二の送信手段は前記韻律情報付き音声表記情報を
第二の通信路に送信し、前記第二の受信手段は前記第二の通信路から前記韻律情
報付き音声表記情報を受信し、前記素片読み出し手段は前記韻律情報付き音声表記情報
に従って前記素片データ記憶手段から素片データを読み
出し、前記合成手段は、前記韻律情報付き音声表記情報と前記
素片データを用いて音声を合成し、前記素片データ記憶手段は音源特性と声道伝達特性情報
を記憶し、前記合成手段は、前記韻律情報に従った周期を有し、前
記音源特性に従った特性を有する音源波形を生成する
とともに、前記声道伝達特性情報に従って前記音源波形
をフィルタ処理する、ことによって音声を合成すること
を特徴とする音声通信システム。
【請求項１２】前記送信部は音声入力手段、音声符号化
手段及び第一の多重化手段を有し、前記中継部は第一の
分離手段と第二の多重化手段を有し、前記受信部は第二
の分離手段を有し、前記音声入力手段は音声信号を入力し、前記音声符号化手段は前記音声信号のピッチと音源特性
と声道伝達特性を分析して符号化することにより音声符
号系列に変換し、前記第一の多重化手段は前記音声表記情報と前記音声符
号系列を多重化してひとつの符号系列に変換し、前記第一の分離手段は、前記符号系列を前記音声表記情
報と前記音声符号系列に分離し、前記第二の多重化手段は前記韻律情報付き音声表記情報
と前記音声符号系列を多重化してひとつの符号系列に変
換し、前記第二の分離手段は、前記第二の多重化手段によって
多重化された符号系列を前記音韻情報付き音声表記情報
と前記音声符号系列に分離し、前記合成手段は前記音声符号系列を音声信号に変換する
ことを特徴とする請求項１１記載の音声通信システム。
【請求項１３】前記テキスト入力手段は、ユーザが任意
のテキストを入力できるものであることを特徴とする請
求項１、３，５，７，９又は１１記載の音声通信システ
ム。
【請求項１４】前記テキスト入力手段は、記憶媒体、ネ
ットワーク、あるいはデータベースからテキストを読み
出すことにより入力することを特徴とする請求項１、
３，５，７，９又は１１記載の音声通信システム。
【請求項１５】さらに、パラメータ入力手段を備え、前
記パラメータ入力手段によってユーザは好みに応じて音
声のパラメータ値を入力でき、前記韻律生成手段および
前記素片読み出し手段は前記パラメータ値に応じて変更
を加えた値を出力することを特徴とする請求項１、３，
５，７，９又は１１記載の音声通信システム。
【請求項１６】前記テキスト入力手段はユーザが任意の
テキストを入力できるものでることを特徴とする請求項
２，４，６，８，１０又は１２記載の音声通信システ
ム。
【請求項１７】前記テキスト入力手段は、記憶媒体、ネ
ットワーク、あるいはデータベースからテキストを読み
出すことにより入力することを特徴とする請求項２，
４，６，８，１０又は１２記載の音声通信システム。
【請求項１８】パラメータ入力手段を更に有し、前記パ
ラメータ入力手段はユーザが好みに応じて設定する音声
のパラメータ値を入力し、韻律生成手段および素片読み
出し手段は前記パラメータ値に応じて変更を加えた値を
出力することを特徴とする請求項２，４，６，８，１０
又は１２記載の音声通信システム。
【請求項１９】請求項１〜１８のいずれかに記載の音
声通信システムの全部または一部の手段の全部または一
部の機能をコンピュータにより実行させるためのプログ
ラム及び／またはデータを担持した媒体であって、コン
ピュータにより処理可能なことを特徴とする媒体。
【請求項２０】請求項１〜１８のいずれかに記載の本
発明の全部または一部の手段の全部または一部の機能を
コンピュータにより実行させるためのプログラム及び／
またはデータであることを特徴とする情報集合体。