JPH10260692A

JPH10260692A - 音声の認識合成符号化／復号化方法及び音声符号化／復号化システム

Info

Publication number: JPH10260692A
Application number: JP9064933A
Authority: JP
Inventors: Masami Akamine; 政巳赤嶺; Akinori Koshiba; 亮典小柴
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-03-18
Filing date: 1997-03-18
Publication date: 1998-09-29
Also published as: US6161091A

Abstract

(57)【要約】【課題】１ｋｂｐｓ以下の極低レートで音声信号を符号
化するために、不完全な音声認識技術でも適用でき、か
つ話者の感情など非言語的な情報も伝送することができ
る認識合成に基づいた音声符号化／復号化システムを提
供する。【解決手段】送信側において入力音声データをピッチ検
出部１０１、音素認識部１０２および継続時間長検出部
１０３に入力して、ピッチ周期の検出、音節の認識およ
び音素の継続時間長の検出を行い、これらピッチ周期、
音節および継続時間長の情報を符号化回路１０４，１０
５，１０６により符号化した後、符号列をマルチプレク
サ１０７を経て通信路に伝送し、受信側においてはデマ
ルチプレクサ１１０で符号列からピッチ周期、音節およ
び継続時間長の情報を復号化し、これらの復号化された
情報に基づいて合成器１１４で元の音声信号を合成す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声信号を高能率
に圧縮符号化／復号化する方法及びシステムに係り、特
に音声信号を１ｋｂｐｓ以下の極低ビットレートで符号
化する認識合成符号化方法及びこれを用いた音声符号化
／復号化方法及びシステムに関する。

【０００２】

【従来の技術】音声信号を高能率に符号化する技術は、
利用できる電波帯域が限られている移動体通信や、メモ
リの有効利用が求められるボイスメールなどの蓄積媒体
において、今や不可欠の技術になっており、より低いビ
ットレートへ向かっている。電話帯域の音声を４ｋｂｐ
ｓ〜８ｋｂｐｓ程度の伝送レートで符号化する方式とし
て、ＣＥＬＰ(Code Excited Linear Prediction)は有効
な方式の一つである。

【０００３】このＣＥＬＰ方式に関しては、M.R.Schroe
der and B.S.Atal, “Code ExcitedLinear Prediction
(CELP):High Quality Speech at Very Low Bit Rate
s”,Proc.ICASSP,pp.937-940,1985および W.S.Kleijin,
D.J.Krasinski et al. “Improved Speech Quality and
Efficient Vector Quantization in SELP ”,Proc.ICA
SSP,pp.155-158,1988（文献１）で詳しく述べられてい
る。

【０００４】同文献１によると、この方式はフレーム単
位に分割された入力音声から、声道をモデル化した音声
合成フィルタを求める処理と、このフィルタの入力信号
に当たる駆動ベクトルを求める処理に大別される。これ
らのうち、後者は符号帳に格納された複数の駆動ベクト
ルを一つずつ音声合成フィルタに通し、合成音声と入力
音声との歪を計算し、この歪が最小となる駆動ベクトル
を探索する処理からなる。これは閉ループ探索と呼ばれ
ており、４ｋｂｐｓ〜８ｋｂｐｓ程度のビットレートで
良好な音質を再生するために非常に有効な方法である。

【０００５】また、音声信号を更に低いビットレートで
符号化する方法として、ＬＰＣボコーダが知られてい
る。これは声帯信号をパルス列と白色雑音信号で、また
声道の特性をＬＰＣ合成フィルタでモデル化し、それら
のパラメータを符号化する方式であり、音質的に問題は
あるものの音声信号を２．４ｋｂｐｓ程度で符号化する
ことができる。これらの符号化方式は、発声者が何を言
っているかという言語情報はもちろん、個人性、声の
質、感情など元の音声波形が持っている情報を人間の聴
覚特性上できるだけ忠実に伝送しようとするもので、主
に電話を中心とする通信の用途に用いられている。

【０００６】一方、最近のインターネットブームを背景
にネットチャットと呼ばれるサービスの利用者が増加し
ている。これは、ネットワーク上でリアルタイムに一対
一、または一対多、多対多の会話を楽しむものであり、
音声信号の伝送のため上記のＣＥＬＰ方式を基本にした
ものが用いられている。ＣＥＬＰ方式は、ＰＣＭ方式と
比べビットレートが１／８〜１／１６と低く、音声信号
の能率的な伝送を可能にしている。しかし、インターネ
ットを利用するユーザ数は急激に増加しつつあり、これ
に伴いネットワークがしばしば混雑する状況が発生し、
そのため音声情報の伝送に遅延が生じて会話に支障が起
こっている。

【０００７】このような状況を解決するためには、音声
信号をＣＥＬＰ方式よりさらに低いビットレートで符号
化する技術が必要である。低ビットレート符号化の究極
の姿としては、音声の言語情報を認識してその言語情報
を表現する文字列を伝送し、受信側で規則合成する認識
合成符号化が知られている。この認識合成符号化は、中
田和男著、「音声の高能率符号化」、森北出版発行（文
献２）で簡単に紹介されているように、数十乃至１００
ｂｐｓ程度の極低レートで音声信号を伝送することがで
きると言われている。

【０００８】しかし、認識合成符号化方式は音声認識技
術を適用することで得られた文字列から音声を規則的に
合成する必要があるため、音声認識が不完全であるとイ
ントネーションが著しく不自然になったり、会話の内容
が誤ったりという問題が生じる。このため、認識合成符
号化は完全な音声認識技術を仮定しており、今まで具体
的に実現された例はなく、近い将来もその実現は困難で
あると予想される。

【０００９】このように音声信号という物理的な情報を
言語情報という高度に抽象化された情報に変換した後、
通信を行う方法では、実現性に問題があるため、音声信
号をより物理的な情報に認識して変換する符号化方法が
提案されている。この方法の一例として、特公平５−７
６０４０号（文献３）に記述されている「ボコーダ方法
及び装置」が知られている。

【００１０】同文献３においては、アナログ音声入力は
音声認識装置へ送られ、音素列に変換される。音素列
は、音素−異音合成器によってそれを近似した異音列に
変換され、この異音列によって音声が再生される。音声
認識装置では、アナログ音声入力はＡＧＣにより信号の
ゲインがある一定の値に保持されつつ、ホルマントトラ
ッカーに入力されて入力信号のホルマントが検出され、
ＲＡＭに記憶される。記憶されたホルマントは音素境界
検出装置へ送られ、音素の成分へ区切られる。区切られ
た音素は、認識アルゴリズムによって音素テンプレート
登録表との間でマッチングがとられ、認識された音素が
得られる。

【００１１】音素−異音合成器では、入力された音素符
号と対応する異音列をＲＯＭから読み出し、音声合成器
へ送る。音声合成器は送られてきた異音列から線形予測
フィルタのパラメータなど音声合成に必要なパラメータ
を求め、それらを用いて音声を合成する。ここで、異音
（Ａｌｌｏｐｈｏｎｅ）と呼ぶものは、当該音素とその
前後の音素を用いて予め定めた規則に従って決定された
属性（当該音素が語頭、語中、語尾のどれか、また、鼻
音化や無声化するかといった類）が付加されたものであ
る。

【００１２】この文献３に記載された技術のポイント
は、音声信号を言語情報である文字列に変換するのでは
なく、音声信号を単に音素記号列に変換し、その記号列
と音声合成のための物理パラメータを対応付けたことで
ある。このようにすることによって、音素の認識が誤っ
たとしても、誤った音素が別の音素に変わるものの文章
全体としては大きく変わらないという利点が生じる。そ
して、文献３には「人間の耳の自然のフィルタ作用と聞
き手の思考過程での誤り修正のために、完全な認識でな
くても、最も良い一致を取ることで、認識アルゴリズム
によって発生する誤りは最小のものとなる。」と記載さ
れている。

【００１３】しかし、文献３に記載の符号化方法では、
符号化側から単に音素を表す記号列を伝送しているのみ
であるため、復号化側で再生される合成音は抑揚やリズ
ムのない不自然なものとなってしまい、単に会話の意味
が伝わるのみで話者に関するの情報や感情といった情報
は伝わらないという問題がある。

【００１４】

【発明が解決しようとする課題】上述したように、音声
の言語情報を認識し、その情報を表現する文字列を伝
送、復号化側で規則合成する従来の認識合成方式は完全
な音声認識技術を仮定しているため、現実に実現するこ
とが困難であるという問題があった。

【００１５】また、不完全な音声認識技術でも適用でき
る公知の符号化方式では、単に音素を表す記号列を伝送
しているのみであるため、復号化側で再生される合成音
は抑揚やリズムのない不自然なものとなってしまい、単
に会話の意味が伝わるのみで話者に関するの情報や感情
といった情報は伝わらないという問題があった。

【００１６】本発明は、１ｋｂｐｓ以下の極低レートで
音声信号を符号化するために、不完全な音声認識技術で
も適用でき、かつ話者の感情など非言語的な情報も伝送
することができる認識合成に基づいた音声の認識合成符
号化／復号化方法及びシステムを提供するものである。

【００１７】

【課題を解決するための手段】上記の課題を解決するた
め、本発明に係る音声の認識合成符号化／復号化方法
は、入力音声信号から音素、音節または単語などを文字
情報として認識するとともに、該入力音声信号からピッ
チ周期と音素または音節の継続時間長などを韻律情報を
検出して、これら文字情報および韻律情報を符号化デー
タとして伝送または蓄積し、伝送または蓄積された符号
化データから文字情報および韻律情報を復号し、復号さ
れた文字情報および韻律情報に基づいて音声信号を合成
することを特徴とする。

【００１８】また、本発明に係る音声符号化／復号化シ
ステムは、入力音声信号から文字情報を認識する認識手
段と、入力音声信号から韻律情報を検出する検出手段
と、これら文字情報および韻律情報を符号化する符号化
手段と、この符号化手段により得られた符号化データを
伝送または蓄積する伝送／蓄積手段と、この伝送／蓄積
手段により伝送または蓄積された符号化データから文字
情報および韻律情報を復号する復号化手段と、この復号
化手段により復号された文字情報および韻律情報に基づ
いて音声信号を合成する合成手段とを備えたことを特徴
とする。

【００１９】より具体的には、認識手段は入力音声信号
から音素、音節または単語を文字情報として認識し、韻
律情報検出手段は認識された文字情報の継続時間長と入
力音声信号のピッチ周期を韻律情報として検出する。

【００２０】このように本発明では、符号化側（送信
側）において入力音声信号から音素や音節などの文字情
報を認識してその情報を伝送または蓄積することに加え
て、入力音声信号からピッチ周期や継続時間長などの韻
律情報を検出してその情報も伝送または蓄積し、復号化
が（受信側）において伝送または蓄積されてきた音素や
音節などの文字情報とピッチ周期や継続時間長などの韻
律情報に基づいて音声信号を合成することにより、１ｋ
ｂｐｓ以下といった極低レートでの符号化が可能である
上に、話者の抑揚やリズム、話調なども再生されること
によって、従来では困難であった話者の感情などの非言
語的情報の伝送も可能となる。

【００２１】また、本発明においては音声信号の合成に
用いる合成単位の情報を格納した合成単位辞書として異
なる話者の音声データから生成された複数個の合成単位
辞書を備え、韻律情報に応じて１個の合成単位辞書を選
択して音声信号を合成するようにしてもよい。このよう
に構成にすると、符号化側（送信側）で音声信号を入力
した話者とより類似した合成音が復号化側（受信側）で
再生される。

【００２２】さらに、上述した複数個の合成単位辞書の
中から、指示された合成音の種類に応じて１個の合成単
位辞書を選択して音声信号を合成するようにしてもよ
い。このようにすると、合成される音声信号の種類を送
信側または受信側のユーザを指定でき、声質変換なども
可能となる。

【００２３】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。（第１の実施形態）図１は、本発明の第１の実施形態に
係る音声の認識合成符号化／復号化方法を適用した音声
符号化／復号化システムの構成を示すブロック図であ
る。この符号化／復号化システムは、ピッチ検出部１０
１、音素認識部１０２、継続時間長検出部１０３、符号
化回路１０４，１０５，１０６、マルチプレクサ１０
７、デマルチプレクサ１１０、復号化回路１１１，１１
２，１１３および合成器１１４から構成される。

【００２４】まず、符号化側（送信側）においては、音
声入力端子１００からディジタル化された音声信号（以
下、入力音声データという）が入力される。この入力音
声データはピッチ検出部１０１、音素認識部１０２、継
続時間長検出部１０３に入力される。ピッチ検出部１０
１による検出結果、音素認識部１０２による認識結果お
よび継続時間長検出部１０３による検出結果は、符号化
回路１０４，１０５，１０６によってそれぞれ符号化さ
れた後、符号化多重化部であるマルチプレクサ１０７に
より多重化されて符号化列となり、出力端子１０８から
通信路に伝送される。

【００２５】一方、復号化側（受信側）においては、符
号化側（送信側）から通信路を経て伝送されてきた符号
列が符号化分解部であるデマルチプレクサ１１０によっ
て、ピッチ周期の符号、音素の符号、継続時間長の符号
に分解された後、復号化回路１１１，１１２，１１３に
入力されて元のデータが復号され、さらに合成器１１４
により合成されて出力端子１１５から合成音声信号（復
号音声信号）が出力される。

【００２６】次に、図１の各部について詳細に説明す
る。音素認識部１０２は、公知の認識アルゴリズムを用
いて音声入力端子１００からの入力音声データに含まれ
る文字情報を音素単位で識別し、その識別結果を符号化
回路１０４に出力する。認識のアルゴリズムとしては、
北脇信彦編著、「音のコミュニケーション工学」コロナ
社などのテキストで紹介されているように、種々の方法
を用いることができる。ここでは、音素を認識単位とす
るアルゴリズムとして以下の方法を用いるものとする。

【００２７】図２に、このアルゴリズムに基づく音素認
識部１０２の構成を示す。この音素認識部１０２におい
て、音声入力端子１００からの入力音声データはまず分
析フレーム生成部２０１に入力される。分析フレーム生
成部２０１は、入力音声データを分析フレーム長に分割
し、さらに窓関数をかけて信号の打ち切りによる影響を
減じてから、結果を特徴量抽出部２０２に送る。特徴量
抽出部２０２は、分析フレーム毎にＬＰＣケプストラム
係数を計算し、これを特徴ベクトルとして音素判定部２
０３に送る。音素判定部２０３は、入力された分析フレ
ーム毎の特徴ベクトルと、代表特徴量メモリ２０４に予
め用意してある音素毎の代表的な特徴ベクトルとの間の
類似度としてユークリッド距離を計算し、この距離が最
も小さい音素をそのフレームの音素と判定し、この判定
結果を出力する。

【００２８】ここでは特徴量としてＬＰＣケプストラム
係数を用いたが、これにさらにΔケプストラムを併せて
用いることにより、認識率を向上させることも可能であ
る。また、入力された分析フレームのＬＰＣケプストラ
ム係数だけを特徴ベクトルとするのではなく、そのフレ
ームの前後一定時間に入力された分析フレームから得ら
れるＬＰＣケプストラム係数も含めて特徴ベクトルとす
ることにより、ＬＰＣケプストラム係数の時間方向の変
動を考慮する方法もある。さらに、ここでは特徴ベクト
ルの間の類似度としてユークリッド距離を用いたが、特
徴ベクトルにＬＰＣケプストラム係数を用いていること
を考慮して、ＬＰＣケプストラム距離を用いることもで
きる。

【００２９】ピッチ検出部１０１は、音素認識部１０２
の動作と同期をとりながら、または予め定めた単位時間
毎に、音声入力端子１００からの入力音声データが有声
音か無声音かの判定を行い、有声音と判定した場合には
更にピッチ周期を検出する。ここで得られた有声音／無
声音判定結果とピッチ周期の情報は符号化回路１０５に
送られ、有声音／無声音判定結果とピッチ周期を表す符
号が割り当てられる。有声音／無声音判定とピッチ周期
検出のアルゴリズムとしては、自己相関法など既知の手
法を用いることができる。この場合、音素認識部１０２
の認識結果とピッチ検出部１０１の検出結果を互いに利
用し合うことで、音素認識、ピッチ検出の精度を改善さ
せることができる。

【００３０】継続時間長検出部１０３は、音素認識部１
０２の動作と同期をとりながら、音素認識部１０２で認
識された音素の継続時間長を検出する。図３に示すフロ
ーチャートを参照して、継続時間長の検出手順の一例を
説明する。

【００３１】まず、ステップＳ１１で音素認識を実行す
るための分析フレーム長を設定し、ステップＳ１２で音
素認識を実行するフレーム番号を初期化する。次に、ス
テップＳ１３で音素の認識を音素認識部１０２により実
行し、ステップＳ１４でその認識結果が前フレームの認
識結果と同じかどうか判定する。現フレームと前フレー
ムの音素の認識結果が同じである場合は、ステップＳ１
５でフレーム番号をインクリメントしてステップＳ１３
に戻り、そうでない場合はステップＳ１６でフレーム番
号ｎを出力する。以上の処理を入力音声データがなくな
るまで行う。

【００３２】こうして検出される音素の継続時間時間長
は、ｎとフレーム長の積になる。また継続時間長の検出
に関しては、ある音素が認識されたとき、次に別の音素
が認識されるまでに最低要する時間を予め定めておき、
音素の認識誤りによって、実際にはありえない継続時間
長が出力されることを抑制する方法も考えられる。継続
時間長検出部１０３の検出結果は符号化回路１０６に送
られ、継続時間長を表す符号が割り当てられる。

【００３３】符号化回路１０４，１０５，１０６の出力
は符号多重化部１０７に送られ、ピッチ周期の符号、音
素の符号および継続時間長の符号が多重化されて符号列
となり、出力端子１０８から通信路に伝送される。以上
が符号化側（送信側）の動作である。

【００３４】復号化側（受信側）では、入力端子１０９
から入力された符号列がまず符号分解部１１０でピッチ
周期の符号と音素の符号、継続時間長の符号に分解さ
れ、それぞれ復号化回路１１１，１１２，１１３に出力
される。復号化回路１１１，１１２，１１３では、それ
ぞれピッチ周期、音素、継続時間長が元のデータに復号
され、それらのデータが合成器１１４に送られる。合成
器１１４はピッチ周期、音素、継続時間長のデータを用
いて音声信号を合成する。

【００３５】合成器１１４での合成方式としては、北脇
信彦編著、「音のコミュニケーション工学」コロナ社で
紹介されているように、合成単位の選択と合成に用いる
パラメータの選択の組合せによって種々の方式を用いる
ことができる。ここでは、音素を合成単位とする方式の
例として、特公昭５９−１４７５２に開示されている分
析合成方式による合成器を用いるものとする。

【００３６】図４に、この方式による合成器１１４の構
成を示す。まず、入力端子３００，３０１，３０２から
ピッチ周期、音素、継続時間長のデータが入力され、こ
れらが入力バッファ３０３に書き込まれる。パラメータ
結合処理部３０５は、入力バッファ３０３から音素のデ
ータ系列を読み出し、各音素に対応したスペクトルパラ
メータをスペクトルパラメータメモリ３０４から読み出
して単語あるいは文として結合し、バッファ３０７に出
力する。スペクトルパラメータメモリ３０４には、合成
単位である音素がＰＡＲＣＯＲ、ＬＳＰ、ホルマントな
どのスペクトルパラメータの形で表現され、予め蓄積さ
れている。

【００３７】音源生成処理部３０６は、入力バッファ３
０３から音素、ピッチ周期、継続時間長のデータ系列を
読み出し、これらのデータに基づいて音源波形メモリ３
１１から音源波形を読み出し、ピッチ周期と継続時間長
に基づいて、この音源波形を加工することにより、合成
フィルタ３０９の駆動音源信号を生成する。音源波形メ
モリ３１１には、実音声データ中の各音素信号を線形予
測分析して得られる残差信号から抽出された音源波形が
蓄積されている。

【００３８】音源生成処理部３０６での駆動音源信号の
生成は、合成する音素が有声音のときと無声音のときで
処理が異なる。合成する音素が有声音のときは、音源波
形を入力バッファ３０３から読み込んだ継続時間と等し
い長さになるまで、入力バッファ３０３から読み込んだ
ピッチ周期単位で重ね合せ補間または間引き処理を行う
ことによって、駆動音源信号が生成される。合成する音
素が無声音のときは、音源波形メモリから読み出された
音源波形をそのまま、または、一部を切り出したり繰り
返したりして、入力バッファ３０３から読み込んだ継続
時間と等しい長さに加工することにより生成される。

【００３９】最後に、合成フィルタ３０９によりバッフ
ァ２０７に書き込まれたスペクトルパラメータとバッフ
ァ３０８に書き込まれた駆動音源信号が読み出され、音
声合成のモデルに基づいて音声信号が合成されて合成音
声信号が出力端子３１０から図１の出力端子１１５へと
出力される。

【００４０】（第２の実施形態）図５に、本発明の第２
の実施形態に係る音声の認識合成符号化／復号化方法を
適用した音声符号化／復号化システムの構成を示す。第
１の実施形態では、入力音声データの音素を認識し、合
成単位を音素とする構成を示したが、第２の実施形態は
合成単位を音節単位とするものである。

【００４１】図５の構成は、音節認識部１２２と合成器
１２４を除いて図１の構成と基本的に同じである。合成
する音節の単位や音節認識法には種々あるが、ここでは
一例として合成単位をＣＶ，ＶＣ音節とし、音節認識法
として以下の方法を用いる。ただし、Ｃは子音、Ｖは母
音を表す。

【００４２】図６に、ＣＶ，ＶＣ音節を単位とする音節
認識部１２２の構成を示す。音素認識部４０１は、前記
の音素単位の認識部１０２と同じ働きをするものであ
り、音声信号を入力すると、フレーム毎に認識した音素
を出力する。ＣＶ音節を単位とする音節認識部４０２は
音素認識部４０１から出力された音素列からＣＶ音節を
認識して出力する。ＶＣ音節構成部４０３はＣＶ音節認
識部４０２から出力されたＣＶ音節列からＶＣ音節を構
成し、これを入力と合わせて結果を出力する。

【００４３】図７のフローチャートを参照して、ＣＶ音
節認識部４０２による音節認識処理手順の一例を説明す
る。まず、ステップＳ２１で入力音声データの先頭の音
素にフラグを立てる。ステップＳ２２では、音節認識部
４０１に入力する音素数ｎを予め定めておいた数Ｉに初
期化する。ステップＳ２３で、実際にｎ個の連続する音
素を予めＣＶ音節毎に用意した音素を出力シンボルとす
る離散型ＨＭＭに入力する。ステップＳ２４では、各Ｈ
ＭＭ毎に、入力した音素列がそのＨＭＭから出力される
確率ｐを求める。ステップＳ２５では、ｎが予め定めて
おいた入力音素数の上限Ｎに達したかどうか判定する。
ｎがＮに達していなければ、ステップＳ２６で入力する
音素数ｎをｎ＝ｎ＋１として、ステップＳ２３から繰り
返す。ｎがＮに達していれば、ステップＳ２７に進む。
ステップＳ２７では、まず確率ｐを最大とするＨＭＭに
対応するＣＶ音節、および音素数ｎを求める。次に、フ
ラグを立てた音素に対応するフレームから数えて、求め
た音素数分の区間が該ＣＶ音節に対応する区間であると
判定し、これを求めたＣＶ音節とともに出力する。ステ
ップＳ２８では、音素の入力が終了したがどうか判定
し、終了していない場合にはステップＳ２９で出力した
区間の次の音素にフラグを立ててステップＳ２２に戻
り、再びこの操作を繰り返す。

【００４４】次に、ＶＣ音節構成部４０３について説明
する。ＶＣ音節構成部４０３には、前記の方法で出力さ
れたＣＶ音節およびその音節の対応する区間が入力され
る。ＶＣ音節構成部４０３は、予め２つのＣＶ音節から
ＶＣ音節を構成するための方法を記述したメモリを有
し、入力される音節列をそのメモリに従ってＶＣ音節列
に再構成する。２つのＣＶ音節からＶＣ音節を構成する
方法としては、１つ目のＣＶ音節の中心フレームから次
のフレームの中心フレームまでの区間を１つ目のＣＶ音
節の母音と次のＣＶ音節の子音からなるＶＣ音声と定め
るという方法などが考えられる。

【００４５】音節を合成単位とする合成器の他の例とし
て、特公昭５８−１３４６９７に開示された波形編集型
音声合成装置を用いることができる。図８に、このよう
な合成器１２４の構成を示す。

【００４６】図８において、制御回路５１０は入力端子
５００，５０１，５０２を介してピッチ周期、音節、継
続時間長のデータ系列を入力し、単位音声波形メモリ５
０３に対して音節データと該メモリ５０３に蓄積されて
いる単位音声波形の転送先を指示すると共に、ピッチ周
期をピッチ変換回路５０４に送り、継続時間長を波形編
集回路５０５に送る。そして、制御回路５１０は合成し
ようとする当該音節が有声部でピッチを変換する必要が
ある場合はピッチ変換回路５０４に転送し、当該音節が
無声部である場合は波形編集回路５０５に転送するよう
指示する。

【００４７】単位音声波形メモリ５０３は、実音声デー
タから切り出された合成単位の音節ＣＶ，ＶＣの音声波
形を蓄積しており、制御回路５１０から入力した音節デ
ータと指示に従って該当する単位音声波形をピッチ変換
回路５０４または波形編集回路５０５に出力する。制御
回路５１０は、ピッチを変換する必要がある場合はピッ
チ変換回路５０４にピッチ周期を送り、そこでピッチ周
期が変換される。ピッチ周期の変換は波形重畳法など公
知の方法で行われる。

【００４８】波形編集回路５０５は、制御回路５１０の
指示に従ってピッチを変換する必要がある場合には、ピ
ッチ変換回路５０４から送られた音声波形を補間または
間引き処理し、また変換する必要がない場合には、単位
音声波形メモリ５０３から送られた音声波形を補間また
は間引きすることにより入力した継続時間長と等しくな
るよう処理し、音節単位の音声波形を生成する。さら
に、波形編集回路５０５は各音節の音声波形を結合する
ことにより音声信号を作成する。

【００４９】このように図８の合成器１２４では、音節
単位で音声信号を認識して合成するため、音素単位で認
識して合成を行う図４に示した合成器１１４と比べて、
より高音質の合成音が得られる利点がある。すなわち、
音素を合成単位とする場合には、合成単位間での接続個
所が多く、しかも子音から母音へ接続するように音声パ
ラメータの変化が激しい場所でも合成単位を接続するた
め、高い品質の合成音を得ることが難しいのに対し、音
節単位では合成単位間の接続個所が少ないばかりでな
く、子音と母音の変化部を合成単位が含むため高品質の
合成音が得られる。また、認識の単位が長くなることに
よって認識率も改善し、合成音の音質が向上する効果も
ある。

【００５０】（第３の実施形態）図８の合成器１２４の
上述した利点に着目して、音質向上のため合成単位を音
節より更に長い単語単位とすることも考えられる。しか
し、合成単位が単語レベルまでになると単語を識別する
ための符号量が増加し、ビットレートが高くなる問題が
生じる。符号量を抑えつつ、認識率を改善し音質向上を
図る方法として、入力音声データを単語単位で認識し音
節単位で合成する折哀案が考えられる。

【００５１】図９は、この方法に基づく本発明の第３の
実施形態に係る音声符号化／復号化システムのブロック
図であり、図１における音素認識部１０２または図５に
おける音節認識部１２２が単語認識部１３２と認識され
た単語を音節に変換する単語−音節変換部１３３に置き
換えられている点が第１および第２の実施形態と異なっ
ている。このような構成により、符号量を増大させるこ
となく、認識率を改善して音質の向上を図ることができ
る。

【００５２】（第４の実施形態）以上説明した第１、第
２、第３の実施形態は、ピッチ周期や継続時間長の韻律
情報を入力音声データから抽出して伝送しているもの
の、合成器で用いるスペクトルパラメータや音源波形、
または単位音声波形は、予め作成されたある一種類のも
のを用いる構成となっている。このため、イントネーシ
ョンやリズム、話調などの話者の韻律は復号化側で再生
されるものの、再生される声の質は予め作成されたスペ
クトルパラメータや音源波形、または単位音声波形で定
まるものとなり、話者によらず常に同一の声質が再生さ
れてしまう。より豊かなコミュニケーションのために
は、多様な声質を再生できるものが望まれる。

【００５３】本実施形態は、この要求に応えるために合
成器で用いる合成単位辞書を複数備えたものである。こ
こで、スペクトルパラメータや音源波形、または単位音
声波形などを合成単位辞書と呼んでいる。

【００５４】図１０は、本実施形態に係る成単位辞書を
複数備えた符号化／復号化システムの構成を示すブロッ
ク図である。本実施形態の基本的な構成は図１、図５、
図９で説明した第１、第２、第３の実施形態と同様であ
り、これらの実施形態と異なる点は、復号化側に複数個
（Ｎ個）の合成単位辞書１４３，１４４，１４５を備
え、伝送されてきたピッチ周期の情報に応じて、合成に
用いる合成単位辞書を１個選択する構成としたことであ
る。

【００５５】図１０において、符号化側の文字情報認識
部１４０は、図１中に示した音素認識部１０２、図５中
に示した音節認識部１２２、または図９中に示した単語
認識部１３２および単語−音節変換部１３３のいずれか
に相当するものである。

【００５６】一方、復号化側の復号化回路１１１は伝送
されてきたピッチ周期を復号し、これを韻律情報抽出部
１４１に送る。韻律情報抽出部１４１は入力されたピッ
チ周期を蓄積し、蓄積されたピッチ周期の系列から平均
ピッチ周期やピッチ周期の最大値、最小値など韻律情報
を抽出する。

【００５７】合成単位辞書１４３，１４４，１４５は、
各々異なる話者の音声データから作成されたスペクトル
パラメータや音源波形、または単位音声波形と各々の音
声データから抽出された平均ピッチ周期やピッチ周期の
最大値、最小値などの韻律情報を蓄積している。

【００５８】制御回路１４２は、韻律情報抽出部１４１
から平均ピッチ周期やピッチ周期の最大値、最小値など
韻律情報を受け取り、これと合成単位辞書１４３，１４
４，１４５に蓄積されている韻律情報との誤差を計算
し、誤差が最小となる合成単位辞書を選択して合成器１
１４に転送する。ここで、韻律情報の誤差は、一例とし
て平均ピッチ周期、最大値、最小値の各々の誤差の二乗
の重み付き平均を計算することで得られる。

【００５９】合成器１１４は、復号化回路１１１，１１
２，１１３からピッチ周期、音素または音節、継続時間
長のデータをそれぞれ受け取り、これらのデータと制御
回路１４２から転送された合成単位辞書を用いて音声を
合成する。

【００６０】このような構成によると、符号化側で入力
された話者と類似した声の高さの合成音が復号化側で再
生されることになるため、話者の識別が容易になり、よ
り豊かなコミュニケーションが実現される効果がある。

【００６１】（第５の実施形態）図１１に、複数の合成
単位辞書を備えた別の実施形態として、第５の実施形態
に係る音声符号化／復号化システムの構成を示す。この
実施形態は、復号化側に複数の合成単位辞書を備えると
ともに、符号化側に合成音の種類を指示するための合成
音指示回路を備えることを特徴とする。

【００６２】図１１において、符号化側に設けられた合
成音指示回路１５０は、復号化側で用意されている合成
単位辞書１４３，１４４，１４５に関する情報を話者に
提示し、どの合成音を用いるか選択させ、キーボードな
どの入力装置を通して合成音の種類を指示する合成音選
択情報を受け取り、マルチプレクサ１０７に送る。話者
に提示する情報は、合成単位辞書作成に用いた音声デー
タの性別、年齢、太い声、細い声といった声質の特徴を
表す情報からなる。

【００６３】マルチプレクサ１０７から通信路を経て復
号化側に伝送された合成音選択情報は、デマルチプレク
サ１１０を介して制御回路１５２に送られる。制御回路
１５２は、合成音選択情報に基づいて合成単位辞書１４
３，１４４，１４５の中から合成に用いる合成単位辞書
を１個選択して合成器１１４に転送すると同時に、選択
された合成単位辞書に蓄積されている平均ピッチ周期や
ピッチ周期の最大値、最小値などの韻律情報を韻律情報
変換部１５１に出力する。

【００６４】韻律情報変換部１５１は、復号化回路１１
１からピッチ周期を、また制御回路１５２から合成単位
辞書の韻律情報をそれぞれ受け取り、入力したピッチ周
期の平均ピッチ周期、最大値、最小値などの韻律が合成
単位辞書の韻律情報に近づくようにピッチ周期を変換し
て、その結果を合成器１１４に与える。合成器１１４
は、復号化回路１１２，１１３と韻律情報変換部１５１
から音素または音節、継続時間長、ピッチ周期のデータ
を受け取り、これらのデータと制御回路１５２から転送
された合成単位辞書を用いて音声を合成する。

【００６５】このような構成にすると、符号化側のユー
ザである送信者の好みによって、復号化側で再生される
合成音を選択することができるばかりでなく、男性の声
を女性の声で再生するというように男女間の声質の変換
を含む各種声質の変換を容易に実現できる従来の符号化
装置にはなかった効果が生じる。このような声質の変換
など多様な合成音を実現する機能は、インターネットな
どで不特定の人間同士でおしゃべりをしてコミュニケー
ションを図る場合、会話を楽しくしたり、豊かにするの
に有効である。

【００６６】（第６の実施形態）図１２に、本発明の第
６の実施形態に係る符号化／復号化システムの構成を示
す。図１１に示した第５の実施形態では、符号化側に合
成音指示回路１５０を備える構成としたが、図１２に示
すように復号化側に合成音指示回路１６０を備える構成
としてもよい。このようにすると、符号化側のユーザで
ある受信者が再生される合成音の声質などを選択するこ
とができるという利点がある。

【００６７】（第７の実施形態）図１３に、本発明の第
７の実施形態に係る符号化／復号化システムの構成を示
す。本実施形態は図１１に示した第５の実施形態と同様
に符号化側に合成音指示回路１５０を備え、復号化側で
合成音指示回路１５０からの指示に基づいて韻律情報お
よび合成器１１４のパラメータを変換して合成音の抑揚
や声質を送信者の好みに応じて変えられるようにしたこ
とを特徴とする。

【００６８】図１３において、符号化側に設けられた合
成音指示回路１５０は、送信者の指示により例えばロボ
ットの声、アニメーションの声、宇宙人の声など予め作
成された声の特徴を表す分類の中から好みの声を選択
し、それを表すコードを合成音選択情報としてマルチプ
レクサ１０７に送る。

【００６９】マルチプレクサ１０７から通信路を経て復
号化側に伝送された合成音選択情報は、デマルチプレク
サ１１０を介して変換テーブル１７０に送られる。変換
テーブル１７０は、符号化側で合成音指示回路１５０を
介して指示されたロボットの声、アニメーションの声、
宇宙人の声などの合成音の特徴に対応して合成音の抑揚
を変換するための抑揚変換パラメータと声質を変換する
ための声質変換パラメータを予め蓄積している。そし
て、変換テーブル１７０はデマルチプレクサ１１０を介
して入力された合成音指示回路１５０からの合成音指示
情報に従って、抑揚変換パラメータおよび声質変換パラ
メータの情報を制御回路１５２と韻律情報変換部１７１
および声質変換部１７２に送る。

【００７０】制御回路１５２は、変換テーブル１７０か
らの情報に基づいて合成単位辞書１４３，１４４，１４
５の中から合成に用いる合成単位辞書を１個選択して合
成器１１４に転送すると同時に、選択された合成単位辞
書に蓄積されている平均ピッチ周期やピッチ周期の最大
値、最小値などの韻律情報を韻律情報変換部１７１に出
力する。

【００７１】韻律情報変換部１７１は、制御回路１５２
から合成単位辞書の韻律情報を、変換テーブル１７０か
ら抑揚変換パラメータの情報をそれぞれ受け取り、入力
したピッチ周期の平均ピッチ周期、最大値、最小値など
の韻律情報を変換して、その結果を合成器１１４に供給
する。一方、声質変換部１７２は制御回路１５２により
選択された合成単位辞書に蓄積されている音源波形、ス
ペクトルパラメータなどを変換して合成器１１４に送
る。

【００７２】図１１に示した第５の実施形態では、合成
音の抑揚や声質の種類は合成単位辞書１４３，１４４，
１４５の作成時に用いられた音声の種類によって事実上
制限される構成となっていたが、本実施形態によると韻
律情報や音源波形、スペクトルパラメータの変換規則を
多様にすることにより、合成音の種類を容易により多様
なものとすることができる。

【００７３】なお、図１３では合成音指示回路１５０を
符号化側に設けたが、図１２と同様に復号化側に設けて
もよい。以上、本発明の実施形態をいくつか説明した
が、本発明の主旨は符号化側において入力音声信号から
音素、音節または単語などの文字情報を認識し、それら
を伝送または蓄積するとともにピッチ周期や継続時間長
などの韻律情報を検出して伝送または蓄積し、復号化側
において伝送または蓄積されてきた音素、音節または単
語などの文字情報と、ピッチ周期や継続時間長などの韻
律情報に基づいて音声信号を合成するものであり、この
主旨の範囲内で様々な変形が可能である。また、認識の
手法、ピッチ検出法、継続時間長の検出法、伝送情報の
符号化法、復号化法、音声合成器の方式などは、本発明
の実施形態で示したもののに限定されるものではなく、
公知の種々の方法、方式を適用することができる。

【００７４】

【発明の効果】以上説明したように、本発明によれば入
力音声信号から音素や音節などの文字情報を認識し、そ
れらを伝送または蓄積するのみでなく、入力音声信号か
らピッチ周期や継続時間長などの韻律情報を検出してそ
れらも伝送または蓄積し、伝送または蓄積された音素ま
たは音節などの文字情報とピッチ周期や継続時間長など
の韻律情報に基づいて音声信号を合成するため、認識合
成による１ｋｂｐｓ以下の極低レートでの音声信号の符
号化が可能であることに加えて、話者の抑揚やリズム、
話調を再生でき話者の情緒や感情を伝えることができる
という従来にない優れた効果を奏する。

【００７５】また、合成に用いるスペクトルパラメータ
や音源波形、または単位音声波形など合成単位辞書を複
数個備え、話者のピッチ情報などの韻律情報や、ユーザ
の指示によって合成単位辞書を選択できるようにすれ
ば、話者の識別が容易になる効果や、ユーザが望む多様
な合成音の実現、声質変換などの機能の実現によって、
コミュニケーションを楽しくしたり、豊かにするという
効果が得られる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る音声符号化／復
号化システムの構成を示すブロック図

【図２】図１における音素認識部の構成例を示すブロッ
ク図

【図３】図１における継続時間長検出の処理手順を示す
フローチャート

【図４】図１における合成器の構成例を示すブロック図

【図５】本発明の第２の実施形態に係る音声符号化／復
号化システムの構成を示すブロック図

【図６】図５における音節認識部の構成例を示すブロッ
ク図

【図７】図６におけるＣＶ音節認識部の処理手順を示す
フローチャート

【図８】本発明で用いる合成器の他の構成例を示すブロ
ック図

【図９】本発明の第３の実施形態に係る音声符号化／復
号化システムの構成を示すブロック図

【図１０】本発明の第４の実施形態に係る音声符号化／
復号化システムの構成を示すブロック図

【図１１】本発明の第５の実施形態に係る音声符号化／
復号化システムの構成を示すブロック図

【図１２】本発明の第６の実施形態に係る音声符号化／
復号化システムの構成を示すブロック図

【図１３】本発明の第７の実施形態に係る音声符号化／
復号化システムの構成を示すブロック図

【符号の説明】

１００…音声入力端子１０１…ピッチ検出部１０２…音素認識部１０３…継続時間長検出部１０４，１０５，１０６…符号化回路１０７…マルチプレクサ（符号多重化部）１１０…デマルチプレクサ（符号分解部）１１１，１１２，１１３…復号化回路１１４…合成器１２２…音節認識部１３２…単語認識部１３３…単語−音節変換部１４０…文字情報認識部１４１…韻律情報抽出部１４２…制御回路１４３，１４４，１４５…合成単位辞書１５０…合成音指示回路１５１…韻律情報変換部１５２…制御回路１６０…合成音指示回路１７０…変換テーブル１７１…韻律情報変換部１７２…音質変換部２０１…分析フレーム生成部２０２…特徴量抽出部２０３…音素判定部２０４…代表特徴量メモリ３０３…入力バッファ３０４…スペクトルパラメータメモリ３０５…パラメータ結合処理部３０６…音源生成処理部３０７，３０８…バッファ３０９…合成フィルタ３１１…音源波形メモリ４０１…音素認識部４０２…ＣＶ音節認識部４０３…ＶＣ音節構成部５１０…制御回路５０３…単位音声波形メモリ５０４…ピッチ変換回路５０５…波形編集回路

Claims

【特許請求の範囲】

【請求項１】入力音声信号から文字情報を認識するとと
もに、該入力音声信号から韻律情報を検出して、これら
文字情報および韻律情報を符号化データとして伝送また
は蓄積し、伝送または蓄積された符号化データから前記
文字情報および韻律情報を復号し、復号された文字情報
および韻律情報に基づいて音声信号を合成することを特
徴とする音声の認識合成符号化／復号化方法。
【請求項２】入力音声信号から音素、音節または単語を
文字情報として認識するとともに、該入力音声信号から
ピッチ周期と前記音素または音節の継続時間長を韻律情
報として検出して、これら文字情報および韻律情報を符
号化データとして伝送または蓄積し、伝送または蓄積さ
れた符号化データから前記文字情報および韻律情報を復
号し、復号された文字情報および韻律情報に基づいて音
声信号を合成することを特徴とする音声の認識合成符号
化／復号化方法。
【請求項３】入力音声信号から文字情報を認識する認識
手段と、前記入力音声信号から韻律情報を検出する検出手段と、前記文字情報および韻律情報を符号化する符号化手段
と、前記符号化手段により得られた符号化データを伝送また
は蓄積する伝送／蓄積手段と、前記伝送／蓄積手段により伝送または蓄積された符号化
データから前記文字情報および韻律情報を復号する復号
化手段と、前記復号化手段により復号された文字情報および韻律情
報に基づいて音声信号を合成する合成手段とを備えたこ
とを特徴とする音声符号化／復号化システム。
【請求項４】入力音声信号から音素、音節または単語を
文字情報として認識する認識手段と、前記認識手段により認識された文字情報の継続時間長を
検出する継続時間長検出手段と、前記入力音声信号のピッチ周期を検出するピッチ検出手
段と、前記文字情報と、前記継続時間長およびピッチ周期から
なる韻律情報を符号化する符号化手段と、前記符号化手段により得られた符号化データを伝送また
は蓄積する伝送／蓄積手段と、前記伝送／蓄積手段により伝送または蓄積された符号化
データから前記文字情報および韻律情報を復号する復号
化手段と、前記復号化手段により復号された文字情報および韻律情
報に基づいて音声信号を合成する合成手段とを備えたこ
とを特徴とする音声符号化／復号化システム。
【請求項５】前記合成手段は、前記音声信号の合成に用
いる合成単位の情報を格納した合成単位辞書として、異
なる話者の音声データから生成された複数個の合成単位
辞書を備え、前記韻律情報に応じて該複数個の合成単位
辞書の中から１個の合成単位辞書を選択して前記音声信
号を合成することを特徴とする請求項３または４記載の
音声符号化／復号化システム。
【請求項６】前記合成手段は、前記音声信号の合成に用
いる合成単位の情報を格納した合成単位辞書として、異
なる話者の音声データから生成された複数個の合成単位
辞書を備え、指示された合成音の種類に応じて該複数個
の合成単位辞書の中から１個の合成単位辞書を選択して
前記音声信号を合成することを特徴とする請求項３また
は４記載の音声符号化／復号化システム。