JP3201268B2

JP3201268B2 - 音声通信装置

Info

Publication number: JP3201268B2
Application number: JP16939096A
Authority: JP
Inventors: 孝行石川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1996-06-28
Filing date: 1996-06-28
Publication date: 2001-08-20
Anticipated expiration: 2016-06-28
Also published as: JPH1020892A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声通信装置に係
り、特に線形予測符号化（ＬＰＣ）分析・合成方式を用
いた音声通信装置に関する。

【０００２】

【従来の技術】ＬＰＣ係数と残差信号を用いたＬＰＣ分
析・合成方式の音声通信装置として、従来よりピッチ励
振型ＬＰＣボコーダが知られている。図２はこの従来の
音声通信装置としてのピッチ励振型ＬＰＣボコーダの一
例のブロック図を示す。同図中、入力音声信号は音声帯
域制限用ローパスフィルタ（ＬＰＦ）２１により例えば
３００Ｈｚ〜３．４ｋＨｚの電話音声帯域に制限された
後、Ａ／Ｄ変換器２２に供給されて所定の標本化周波数
で標本化された、所定量子化ビット数の音声データに変
換される。

【０００３】この音声データは、線形予測分析器（ＬＰ
Ｃ分析器）２３に供給され、ここで公知の線形予測分析
によりｋパラメータ、αパラメータ等の８ケ〜１２ケ程
度のＬＰＣ係数に変換される。音源分析器２４はこのＬ
ＰＣ係数を用いて公知の方法で残差信号を抽出し、更に
これを２乗和して音源信号（電力）を算出する。また、
上記の音声データは、ピッチ抽出器２５に供給されて、
音源データのピッチ周波数（声帯振動数）が抽出され
る。以上のＬＰＣ分析器２３から出力されたＬＰＣ係数
と、音源分析器２４から出力された音源信号（電力）
と、ピッチ抽出器２５から出力されたピッチ周波数と
は、それぞれ多重化器２６に供給され、ここで多重化さ
れた後、伝送路を介して合成側へ送出される。

【０００４】合成側（受信側）では入力された信号を分
離器２７で上記のＬＰＣ係数、音源信号（電力）及びピ
ッチ周波数をそれぞれ分離する。パルス列発生器２８は
分離器２７よりのピッチ周波数に応じたインパルス列を
発生する。有声／無声判定器２９は分離器２７よりのピ
ッチ周波数及び電力から有声音声か無声音声かを判定
し、その判定結果をスイッチ回路３１へスイッチング信
号として供給する。

【０００５】スイッチ回路３１は、有声音声判定時は上
記のスイッチング信号に基づき、パルス列発生器２８か
らピッチ周期に対応した固定周期（固定間隔）で取り出
されたインパルス列を選択して音源復調器３２へ供給
し、無声音声判定時は声帯振動が無くピッチ周波数が存
在しないため、前記ピッチ周波数に基づき固定周期的に
励振されるインパルス列の代わりに、上記のスイッチン
グ信号に基づき、雑音発生器３０から取り出された白色
雑音信号に応じたランダムパルス列を選択して音源復調
器３２へ供給する。

【０００６】音源復調器３２は、スイッチ回路からのパ
ルス列と分離器２７により分離された電力とに基づいて
音源信号を復調する。ＬＰＣ合成フィルタ３３はこの復
調音源信号に励振され、分離器２７により分離されたＬ
ＰＣ係数により係数が制御されてディジタル合成音声信
号を出力する。このディジタル合成音声信号は、Ｄ／Ａ
変換器３４に供給されてアナログ信号に変換された後、
ＬＰＦ３５により不要周波数成分が除去されて電話音声
帯域の音声信号とされて出力される。

【０００７】このように、従来の音声通信装置では、有
声音声の合成に際し、音源情報を電話音声帯域（３００
Ｈｚ〜３．４ｋＨｚ）で一括分析し、その結果得られた
ピッチ周波数に応じた固定周期でパルス列発生器２８か
らインパルス列を発生している。

【０００８】

【発明が解決しようとする課題】しかし、本来の自然音
声（有声音声）声帯振動は、一定（固定周期）ではな
く、肉声の変化に応じた時間的、周波数的揺らぎ、瞬時
変動を伴う準周期的な動作をしている。しかるに、上記
の従来の音声通信装置では、音源情報（ピッチ周波数）
を分析するにあたって、上述した肉声の周波数的揺ら
ぎ、時間的揺らぎを無視して、電話音声帯域（３００Ｈ
ｚ〜３．４ｋＨｚ）を定常信号とみなし、全帯域を一括
して分析しているため、その肉声の変動に伴う時間的、
周波数的な揺らぎを表現し得ず、このため、自然性に乏
しい機械的合成音声しか生成できないという問題があ
る。

【０００９】また、従来、音声信号（残差信号）の帯域
内信号を一括して有声・無声と判定しているが、帯域内
すべてが同じ状態（有声・無声）でいることは無く、周
波数帯域毎に有声・無声が混在することがある。また、
有声音声時においても、各周波数帯域毎にピッチ周期が
異なることがある。

【００１０】更に、上記の従来の音声通信装置では、Ｌ
ＰＣ分析は帯域内スペクトルを一括して表現させるた
め、通常使用する８ケ〜１２ケ程度のＬＰＣ係数では、
エネルギーが集中している低域周波数帯に割り当てら
れ、高域周波数帯の表現精度が不十分になるため、フォ
ルマント帯域幅の過小推定、高次（第３次）フォルマン
トの近似性に劣り、忠実なスペクトルの再現ができない
場合がある。

【００１１】なお、スペクトル精度の向上を図るため、
ＬＰＣ係数を増加させることも考えられるが、ＬＰＣ係
数の増加は、通信情報量の増加にもつながるため、１２
ケを越えるＬＰＣ係数の使用は望ましくなく、実際に狭
帯域通信を行う音声通信装置においては、１２ケを越え
るＬＰＣ係数の使用は現状では困難である。

【００１２】本発明は以上の点に鑑みなされたもので、
より自然性の高い音声合成が再現できる音声通信装置を
提供することを目的とする。

【００１３】また、本発明の他の目的は、ＬＰＣ係数を
増加させることなく、より忠実なスペクトルの再現がで
きる音声通信装置を提供することにある。

【００１４】

【課題を解決するための手段】上記の目的を達成するた
め、本発明は、入力音声信号の予め定めた音声帯域を第
１の分割数に分割する第１のフィルタ群と、第１のフィ
ルタ群より取り出された帯域分割音声信号のそれぞれに
ついて別々に線形予測分析して線形予測係数を出力す
る、全部で第１の分割数と同じ数設けられた線形予測分
析器と、線形予測分析器から出力された分割帯域毎の線
形予測係数と、第１のフィルタ群の入力音声信号とを受
け、分割帯域毎の線形予測係数を用いて線形予測分析の
スペクトル包絡特性とは逆のフィルタ特性を付与して残
差信号を抽出する逆フィルタと、予め定めた音声帯域を
第２の分割数に分割する特性を有し、逆フィルタから取
り出された残差信号を受けて第２の分割数の帯域に分割
する第２のフィルタ群と、第２のフィルタ群より取り出
された帯域分割残差信号のそれぞれについて別々に音源
信号を抽出する、全部で第２の分割数と同じ数設けられ
た音源分析器と、線形予測分析器から出力された分割帯
域毎の線形予測係数と音源分析器から出力された分割帯
域毎の音源信号とをそれぞれ多重化して伝送路へ出力す
る多重化器と、伝送路を経て入力された信号から分割帯
域毎の線形予測係数と分割帯域毎の音源信号とをそれぞ
れ分離する分離器と、分離器からの線形予測係数と音源
信号とから合成音声信号を再生する合成手段とを有する
ことを特徴とする。

【００１５】この発明では、分割帯域のそれぞれについ
て入力音声信号を線形予測分析して線形予測係数（ＬＰ
Ｃ係数）を得るようにしたため、従来のＬＰＣ分析の欠
点といわれていたフォルマント帯域幅の過小推定、
第３フォルマントの近似性の悪さをそれぞれ改善でき、
このＬＰＣ係数を用いて逆フィルタにより高精度の残差
信号を抽出することができる。

【００１６】また、本発明は、この高精度の残差信号を
更に帯域分割し、それぞれについて音源分析手段にて音
源信号を得るようにしたため、各帯域毎に混在している
有声音声／無声音声を分離し、有声音声においては各帯
域毎に最適な音源情報の抽出ができる。従って、この発
明では、個々の特性に合わせた精度の良い音源情報を抽
出することができるため、本来の人間の発声機構に忠実
な音声分析・合成ができる。

【００１７】

【発明の実施の形態】次に、本発明の実施の形態につい
て図面と共に説明する。

【００１８】図１は本発明になる音声通信装置の一実施
の形態のブロック図を示す。同図において、入力音声信
号は音声帯域制限用ローパスフィルタ（ＬＰＦ）１によ
り例えば３００Ｈｚ〜３．４ｋＨｚの電話音声帯域に制
限された後、Ａ／Ｄ変換器２に供給されて所定の標本化
周波数（例えば８ｋＨｚ）で標本化された、所定量子化
ビット数（例えば１６ビット）の音声データに変換され
る。

【００１９】この音声データは、バンドパスフィルタ群
３に供給されて１．２ｋＨｚを中心に帯域を２分割され
る。すなわち、音声データはバンドパスフィルタ群３を
構成するバンドパスフィルタ（ＢＰＦ）３₁及び３₂にそ
れぞれ供給され、ＢＰＦ３₁から帯域が３００Ｈｚ〜
１．２ｋＨｚとされて取り出される一方、ＢＰＦ３₂か
ら帯域が１．２ｋＨｚ〜３．４ｋＨｚとされて取り出さ
れる。

【００２０】ＢＰＦ３₁及び３₂から出力された帯域分割
音声データは、分割帯域毎に対応して設けられた線形予
測分析器（ＬＰＣ分析器）４₁及び４₂に供給され、公知
の線形予測分析によりｋパラメータ、αパラメータ等の
ＬＰＣ係数に変換された後、ＬＰＣ逆フィルタ５にＡ／
Ｄ変換器２の出力音声データと共に入力される。ここ
で、ＬＰＣ分析器４₁及び４₂によりそれぞれ得られるＬ
ＰＣ係数の数は４ケ〜８ケ程度で、それらＬＰＣ係数の
合計数が従来と同じ８ケ〜１２ケ程度とされているた
め、ＬＰＣ係数の増加はない。

【００２１】ＬＰＣ逆フィルタ５はＡ／Ｄ変換器２の出
力音声データに対し、ＬＰＣ分析器４₁及び４₂からの２
つの分割帯域のＬＰＣ係数を用いて線形予測分析のスペ
クトル包絡特性とは逆のフィルタ特性を付与し、残差信
号を出力する。この残差信号は、バンドパスフィルタ群
６に供給されて１．５ｋＨｚと２．５ｋＨｚを境にして
帯域が３分割される。すなわち、残差信号は、バンドパ
スフィルタ群６を構成するＢＰＦ６₁、６₂及び６₃にそ
れぞれ供給され、ＢＰＦ６₁から３００Ｈｚ〜１．５ｋ
Ｈｚの周波数成分が取り出され、ＢＰＦ６₂から１．５
ｋＨｚ〜２．５ｋＨｚの周波数成分が取り出され、ＢＰ
Ｆ６₃から２．５ｋＨｚ〜３．４ｋＨｚの周波数成分が
取り出される。

【００２２】ＢＰＦ６₁、６₂及び６₃からそれぞれ取り
出された帯域分割残差信号は、分割帯域毎に対応して設
けられた音源分析器７₁、７₂及び７₃にそれぞれ供給さ
れ、ここで２乗和されて分割帯域毎の音源信号（電力）
として取り出される。多重化器８は、音源分析器７₁、
７₂及び７₃からそれぞれ取り出された分割帯域毎の音源
信号（電力）と、ＬＰＣ分析器４₁及び４₂からそれぞれ
取り出された２つの分割帯域のＬＰＣ係数とをそれぞれ
多重化して伝送路へ出力する。

【００２３】合成側（受信側）では入力された多重化信
号を、分離器１０で上記の３つの分割帯域の音源信号
（電力）と２つの分割帯域のＬＰＣ係数にそれぞれ分離
する。このうち、ＬＰＣ係数はＬＰＣ補間器１１に供給
され、ここで一定周期（例えば２０ｍｓｅｃ）毎に入力
されるＬＰＣ係数の前回の入力値と今回の入力値とを利
用した線形補間値から、例えば５ｍｓｅｃ単位のＬＰＣ
係数に修正される（換言すると、２０ｍｓｅｃ単位で変
化するＬＰＣ係数が、５ｍｓｅｃ単位で変化するＬＰＣ
係数に変換される。）。

【００２４】また、分離器１０により分離された分割帯
域毎の音源信号（電力）は音源復調器１２に供給され、
ここで帯域毎の音源信号（電力）を補間処理して全帯域
（３００Ｈｚ〜３．４ｋＨｚ）のピッチ情報に復元され
る。ＬＰＣ合成フィルタ１３は、ＬＰＣ補間器１１から
出力された修正後のＬＰＣ係数をフィルタ係数とし、音
源復調器１２から出力された復調後のピッチ情報を入力
エネルギーとしたディジタル合成音声データを再生す
る。

【００２５】このディジタル合成音声データは、Ｄ／Ａ
変換器１４に供給されてディジタル・アナログ変換され
てアナログ信号の合成音声信号として取り出され、次段
のＬＰＦ１５により不要周波数成分を除去された後、再
生合成音声信号として出力される。

【００２６】このように、この実施の形態では、音声信
号帯域を２分割して得られたＬＰＣ係数を用いてＬＰＣ
逆フィルタ５により抽出した高精度の残差信号を更に３
つの帯域に分割し、それぞれについて音源分析器７₁、
７₂及び７₃にて音源信号を得ることにより、各帯域毎に
混在している有声音声／無声音声を分離し、個々の特性
に合わせた精度の良い音源情報を抽出することができ
る。従って、本来の人間の発声機構に忠実な音声分析・
合成ができる。

【００２７】なお、本発明は上記の実施の形態に限定さ
れるものではなく、例えばバンドパスフィルタ群３及び
６の各ＢＰＦの特性は固定として説明したが、入力情報
を基に中心周波数を可変することもでき、また、分割数
も２分割から４分割程度まで可能であることが実験的に
確認されている。

【００２８】

【発明の効果】以上説明したように、本発明によれば、
分割帯域のそれぞれについて入力音声信号を線形予測分
析して線形予測係数（ＬＰＣ係数）を用いて逆フィルタ
により高精度の残差信号を抽出した後、この高精度の残
差信号を更に帯域分割し、それぞれについて音源分析手
段にて音源信号を得ることにより、各帯域毎に混在して
いる有声音声／無声音声を分離するようにしたため、個
々の特性に合わせた（各周波数帯域毎に最適な）精度の
良い音源情報を抽出することができ、本来の人間の発声
機構に忠実な音声分析・合成ができ、より自然性の高い
合成音声を得ることができる。また、本発明によれば、
ＬＰＣ係数を増加させることなく、より忠実なスペクト
ルの再現ができる。

【図面の簡単な説明】

【図１】本発明の一実施の形態のブロック図である。

【図２】従来の一例のブロック図である。

【符号の説明】

１音声帯域制限用ローパスフィルタ（ＬＰＦ）２Ａ／Ｄ変換器３、６パンドパスフィルタ群３₁、３₂、６₁、６₂、６₃ パンドパスフィルタ（ＢＰ
Ｆ）４₁、４₂ ＬＰＣ分析器５ＬＰＣ逆フィルタ７₁、７₂、７₃ 音源分析器８多重化器１０分離器１１ＬＰＣ補間器１２音源復調器１３ＬＰＣ合成フィルタ１４Ｄ／Ａ変換器１５ローパスフィルタ（ＬＰＦ）

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＨ０４Ｂ 14/04 Ｇ１０Ｌ 7/04 Ｇ

Claims

(57)【特許請求の範囲】

【請求項１】入力音声信号の予め定めた音声帯域を第
１の分割数に分割する第１のフィルタ群と、該第１のフィルタ群より取り出された帯域分割音声信号
のそれぞれについて別々に線形予測分析して線形予測係
数を出力する、全部で前記第１の分割数と同じ数設けら
れた線形予測分析器と、前記線形予測分析器から出力された分割帯域毎の前記線
形予測係数と、前記第１のフィルタ群の入力音声信号と
を受け、該分割帯域毎の線形予測係数を用いて線形予測
分析のスペクトル包絡特性とは逆のフィルタ特性を付与
して残差信号を抽出する逆フィルタと、前記予め定めた音声帯域を第２の分割数に分割する特性
を有し、前記逆フィルタから取り出された前記残差信号
を受けて該第２の分割数の帯域に分割する第２のフィル
タ群と、前記第２のフィルタ群より取り出された帯域分割残差信
号のそれぞれについて別々に音源信号を抽出する、全部
で前記第２の分割数と同じ数設けられた音源分析器と、前記線形予測分析器から出力された分割帯域毎の前記線
形予測係数と前記音源分析器から出力された分割帯域毎
の前記音源信号とをそれぞれ多重化して伝送路へ出力す
る多重化器と、前記伝送路を経て入力された信号から前記分割帯域毎の
線形予測係数と分割帯域毎の音源信号とをそれぞれ分離
する分離器と、前記分離器からの前記線形予測係数と音源信号とから合
成音声信号を再生する合成手段とを有することを特徴と
する音声通信装置。
【請求項２】前記合成手段は、前記分離器からの前記
分割帯域毎の音源信号を補間処理して前記予め定めた音
声帯域のピッチ情報を復元する音源復調器と、前記分離
器により分離された前記線形予測係数をフィルタ係数と
し、前記音源復調器からのピッチ情報を入力エネルギー
として前記合成音声信号を再生する合成フィルタとを有
することを特徴とする請求項１記載の音声通信装置。
【請求項３】前記分離器により分離された前記分割帯
域毎の線形予測係数を入力信号として受け、該入力信号
の前回の値と今回の値との線形補間値から入力信号間隔
よりも短い時間間隔で値が変化する線形予測係数に修正
して前記合成フィルタへ前記フイルタ係数として出力す
るＬＰＣ補間器を有することを特徴とする請求項２記載
の音声通信装置。