JPH08171400A

JPH08171400A - 音声符号化装置

Info

Publication number: JPH08171400A
Application number: JP6314483A
Authority: JP
Inventors: Toshiyuki Morii; 利幸森井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-12-19
Filing date: 1994-12-19
Publication date: 1996-07-02
Anticipated expiration: 2016-07-03
Also published as: JP3183072B2

Abstract

(57)【要約】【目的】本発明は、ディジタル信号としての音響情報
を少ない情報量で符号化し、伝送し、復号化することに
より、効率の良いデータ伝送を可能にすることを目的と
する。【構成】上記目的を達成するために本発明は、音声分
析手段と、符号化モジュールが複数格納されていること
を特徴とする符号化部と、音声分析手段によって得られ
たパラメータに基づき符号化モジュールを選択するモジ
ュール選択部と、モジュール選択部で使用するルールが
格納されているルール格納部とを備えており、このルー
ルが予め統計処理により作成されていることを特徴とし
ている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ディジタル信号として
の音響情報を少ない情報量で符号化し、伝送し、復号化
することにより、効率の良いデータ伝送を行なうための
音声符号化装置に関するものである。

【０００２】

【従来の技術】携帯電話等のディジタル移動通信の分野
では加入者の増加に対処するために低ビットレートの音
声の圧縮符号化法が求められており、各研究機関におい
て研究開発が進んでいる。日本国内においてはモトロー
ラ社の開発したビットレート１１．２ｋｂｐｓのＶＳＥ
ＬＰという符号化法がディジタル携帯電話用の標準符号
化方式として採用された。（同方式を搭載したディジタ
ル携帯電話は１９９４年秋に国内において発売され
た。）また更に、ＮＴＴ移動通信網株式会社の開発した
ビットレート５．６ｋｂｐｓのＰＳＩ−ＣＥＬＰという
符号化方式が次期携帯電話の標準化方式として採用さ
れ、現在製品開発の段階にある。これらの方式はいずれ
もＣＥＬＰ（ＣｏｄｅＥｘｉｔｅｄＬｉｎｅａｒ
Ｐｒｅｄｉｃｔｉｏｎ： M.R.Schroeder ”High Qualit
y Speech at Low Bit Rates” Proc.ICASSP'85 pp.937-
940に記載されている）という方式を改良したものであ
る。これは音声を音源情報と声道情報とに分離し、音源
情報については符号帳に格納された複数の音源サンプル
のインデクスによって符号化し声道情報についてはＬＰ
Ｃ（線形予測係数）を符号化するということと、音源情
報符号化の際には声道情報を加味して入力音声と比較を
行なうという方法（Ａ−ｂ−Ｓ：Ａｎａｌｙｓｉｓｂｙ
Ｓｙｎｔｈｅｓｉｓ）を採用していることに特徴があ
る。

【０００３】ここで、ＣＥＬＰ方式の基本的な部分につ
いて説明する。図７はＣＥＬＰ方式の符号化装置の機能
ブロック図である。まず、ＬＰＣ分析部22において、入
力された音声データ21に対して自己相関分析とＬＰＣ分
析を行なうことによってＬＰＣ係数を得、また得られた
ＬＰＣ係数の符号化を行ないＬＰＣ符号を得、また得ら
れたＬＰＣ符号を復号化して復号化ＬＰＣ係数を得る。
次に、加算部25において、適応符号帳23と確率的符号帳
24に格納された音源サンプルを取り出し、それぞれに対
する最適ゲインを求め、その最適ゲインによってパワー
調節したそれぞれの音源を加算して合成音源を得る。更
に、ＬＰＣ合成部26において、加算部25で得られた合成
音源に対して、ＬＰＣ分析部22で得られた復号化ＬＰＣ
係数によってフィルタリングを行ない合成音を得る。更
に、比較部27は、適応符号帳23と確率的符号帳24の全て
の音源サンプルに対して加算部25、ＬＰＣ合成部26を機
能させることによって得られる多くの合成音と入力音声
との距離計算を行ない、その結果得られる距離の中で最
も小さいときの音源サンプルのインデクスを求める。パ
ラメータ符号化部28では、最適ゲインの符号化を行なう
ことによってゲイン符号を得、ＬＰＣ符号、音源サンプ
ルのインデクスをまとめて伝送路29へ送る。また、ゲイ
ン符号とインデクスから合成音源を作成し、それを適応
符号帳23に格納すると同時に古い音源サンプルを破棄す
る。また、ＬＰＣ合成部26においては、線形予測係数や
周波数強調フィルタや長期予測係数（入力音声の長期予
測分析を行なうことによって得られる）を用いた聴感重
み付けを行なう。また、適応符号帳と確率的符号帳によ
る音源探索は、分析区間を更に細かく分けた区間（サブ
フレームと呼ばれる）で行われる。

【０００４】前述のＶＳＥＬＰやＰＳＩ−ＣＥＬＰは上
記ＣＥＬＰを改良したものである。しかし、従来のこれ
らの方式はどのような入力音声に対しても同一の処理を
行なうために符号化効率は良くなかった。

【０００５】実環境において収録された音声情報には局
所的特徴に大きな違いがある。まず、音声の部分と、音
声の無い部分（無音）に分けられる。音声は子音と母音
に分けられる。また子音は無声子音と有声子音に分けら
れる。また、母音はピッチや口の動きが安定した母音定
常部と、それぞれが変化している母音過渡部に分けられ
る。これらはそれぞれ全く異なる特徴を持っている。し
たがって、それぞれに最適の符号化方法が存在する。

【０００６】基本方式がＣＥＬＰの場合の局所的な特徴
による符号化方法の違いを以下に述べる。まず、無音区
間は音声が無い部分で、あるのは実環境ノイズのみであ
り、伝えるべき情報はその時間長だけであり、音源情報
を省略することによって極低ビットレートで符号化でき
る。また、無声子音には破裂性のもの（／ｐ／、／ｔ／
等）と摩擦性のもの（／ｓ／、／ｈ／等）とがある。前
者は、その細かなパワー変化が重要であり短いフレーム
長での符号化が望ましく、適応符号帳の音源インデクス
は不必要な部分である。また、後者は、その放射特性と
時間長が重要であり、前者と同様に適応符号帳の音源イ
ンデクスは不必要な部分である。有声子音は、細かなパ
ワー変化、声道情報、音源情報全てが重要であり、符号
化に最も多い情報量を必要とする部分である。母音定常
部は、類似した形状の波形が連続するために、適応符号
帳を用いれば少ない情報量で符号化できる。母音過渡部
は声道情報や音源情報の変化が母音定常部よりも大き
く、またパワーも大きいので音質の劣化が聞えやすいこ
とから、有声子音同様に、多くの情報を必要とする部分
である。以上のように、局所的に符号化方法を変え、適
応的に情報を配分することによって、効率のよい符号化
が可能になる。

【０００７】

【発明が解決しようとする課題】上記で示したように、
音声情報の局所的特徴には大きな違いがある。したがっ
て、これらの特徴を生かして適応的に符号化を行なうこ
とによって符号化効率を上げれば、より少ない平均ビッ
トレートでより良好な合成音を得る事ができる。この考
え方に基づいて、複数の符号化モジュールを用いる符号
化法も検討されている。例としては、日本音響学会春期
研究発表会講演論文集２−Ｑ−２３に記載されているも
のや、Ｑａｕｃｏｍ社の開発したＱＣＥＬＰ方式が挙げ
られる。同方式は北米でディジタルセルラーホン用の標
準化方式（ＴＩＡ−ＩＳ９６）として採用された。

【０００８】上記方式のいずれも、符号化モジュールの
選択を簡単なルールに基づいて行っている。そのため
に、適応する符号化モジュールを間違えるという現象が
起こり、耳につく異音が起こるという問題があった。こ
の問題は、複数の符号化モジュール全てで符号化を行な
い符号化歪を比較して最も歪の少ない符号化モジュール
を採用するようにすれば（Ａ−ｂ−Ｓによれば）解決さ
れる。しかし、それでは計算量が膨大になってしまい、
携帯電話の様な小型の装置に組込むことは難しい。また
一方、異音が起こらないような複雑なルールを人間が考
えるのは大変難しい。

【０００９】

【課題を解決するための手段】この問題を解決するため
に本発明は、入力された音声信号（入力音声）を分析し
音声の特徴をパラメータ化する音声分析手段と、音声分
析手段によって得られたパラメータに基づき音声の符号
化を行なう符号化モジュールが複数格納されている符号
化部と、予め多くの入力音声に対して音声分析手段によ
って得られる特徴パラメータとそれぞれの入力音声に対
して符号化部に格納されている全ての符号化モジュール
で符号化を行なって得られる最適な符号化モジュールと
の対応関係を統計処理することよって得られるルールが
格納されている選択ルール格納部と、音声分析手段によ
って得られた音声の特徴パラメータと選択ルール格納部
に格納されているルールとに基づき符号化部に格納され
ている符号化モジュールのうち符号化に用いるモジュー
ルを決定するモジュール選択部とを備える。

【００１０】

【作用】本発明は前記の構成によって、予め多くの入力
音声に対して音声分析手段で特徴パラメータを得、符号
化部に格納されている符号化モジュールの全てで符号化
を行なうことによって各符号化モジュールでの符号化歪
が得られ、この符号化歪を比較することによって最も歪
の少ない最適な符号化モジュールのインデクスが得ら
れ、このような特徴パラメータとインデクスとの対応関
係を統計処理することよってルールが簡単に作成でき、
このルールを使用することによってモジュール選択を少
ない計算量で行なうことが出来る。また、統計処理をす
る前の各データを人間がチェックし、より効率がよくな
るように改良すれば、その意志を反映したルールが作成
できる。したがって、各音声の特徴に適応した効率の良
い符号化が可能になる。

【００１１】

【実施例】

（実施例１）以下、本発明の一実施例について、従来の
ＣＥＬＰを基本とした音声符号化装置を例に挙げて説明
する。

【００１２】本実施例の符号器の機能ブロック図を図１
に示す。各部について以下に説明する。まず、Ａ／Ｄ変
換器によってディジタル信号に変換された一定時間長の
入力音声11に対して、自己相関分析部12において分析を
行ない、自己相関係数を得る。また、同時にパワー情報
を得る。ＬＰＣ分析部13においては、自己相関分析部12
によって得られた自己相関係数を分析し、線形予測係数
を得る。ピッチ予備選択部14においては、入力音声11に
対してＬＰＣ分析部13にて得られた線形予測係数を用い
て逆フィルタを掛けて線形予測残差波形を求め、その線
形予測残差波形の長期一次相関を分析し、基本周波数
（ピッチ）の候補を選出する。この情報は適応符号帳の
予備選択や、聴感重み付けフィルタに用いられる。モジ
ュール選択部15においては、自己相関部12において得ら
れる、自己相関係数、現分析区間の入力音声のパワー、
入力音声の前分析区間からのパワー変化量、入力音声の
現分析区間内のパワー変化量、ＬＰＣ分析部13において
得られる、線形予測係数、スペクトル包絡、前分析区間
からのスペクトル変化量、ピッチ予備選択部14において
得られる、現分析区間の線形予測残差波形や長期予測残
差波形のパワー、線形予測残差波形や長期予測残差波形
の前分析区間からのパワー変化量、線形予測残差波形や
長期予測残差波形の現分析区間内のパワー変化量、線形
予測残差波形の長期予測係数等の特徴から、選択ルール
格納部16に格納されたルールに照合して、符号化部17に
格納された符号化モジュールから符号化に最も適したモ
ジュールのインデクスを選択する。符号化部17において
は、モジュール選択部15で得られたインデクスの符号化
モジュールによって符号化を行なう。符号統合部18にお
いては、符号化部17にて得られた符号を集めて伝送路19
へ送る。

【００１３】ここで、選択ルール格納部16に格納された
ルールの作成方法について、選択ルール作成における手
順を示した図２を用いて説明する。

【００１４】まず、いろいろな人の発声した音声を収録
しディジタル信号に変換31して、ハードディスク上の音
声格納部32へ格納する。次に図１の構成による本発明の
符号化装置を機能させ33、自己相関分析部12、ＬＰＣ分
析部13、ピッチ予備選択部14から得られる音声の特徴パ
ラメータと、符号化部17内の全ての符号化モジュールを
機能させたときの符号化歪とをハードディスク上のデー
タ格納部34へ格納する。このデータは各音声の分析区間
の番号と、その特徴パラメータと、各符号化モジュール
の符号化歪により構成されているものである。

【００１５】ここで、格納されるデータの一例の一部を
図３に示す。条件は、符号化モジュールが５つで、分析
区間長は２０ｍｓｅｃ、音声は男性の発声した「ば」の
部分である。内容は、左から、分析区間番号、分析区間
のパワー、自己相関係数の１次、自己相関係数の２次、
分析区間を半分ずつ２つの部分区間に分けた時の前後の
部分区間のパワー比（小さい方を大きい方で割ったも
の）、線形予測誤差波形の最も長期相関の高いピッチ候
補の長期予測係数、線形予測誤差波形の長期予測誤差波
形のパルス性を示す値、線形予測誤差波形の長期予測誤
差波形の正規化パワー、線形予測誤差波形の最も長期相
関の高いピッチ候補、５つの符号化モジュールで符号化
した時の符号化歪をＳ／Ｎ比で表した数値、最も誤差の
小さい（Ｓ／Ｎ比の大きい）符号化モジュールのインデ
クス（最適モジュールのインデクス）である。

【００１６】またこの時、エディタ等によりデータ格納
部34に格納されたデータを人間がチェックし、望ましい
数値に改めれば、人間の意志を反映させることができる
（データ改良37）。たとえば、情報ビット数の大きな符
号化モジュールＡと、情報ビット数の少ない符号化モジ
ュールＢとがあり、局所的Ｓ／ＮがモジュールＡの方が
僅かの差で小さい場合、その音質の差よりも情報量が少
ない方が望ましいとして最適インデクスをモジュールＢ
に書き換えることができ、これを多くの分析区間につい
て行えば、モジュールＢの全体に占める割合を増やすこ
とができ、平均ビットレートを下げることができる。

【００１７】ルールの作成方法についての説明を続け
る。次に、データ格納部34に格納されたデータを統計処
理部35において統計処理を行いルールを作成して、ルー
ル格納部36に格納する。

【００１８】ここで、統計処理部35における処理につい
て説明する。作成するルールの構造は判定の方法によ
る。統計処理に基づくルールの構造には、ニューラルネ
ット、ＶＱ、ＬＶＱ、ベイズ判定等が挙げられるが、本
実施例では、例としてニューラルネットで最も単純な３
層のパーセプトロンを用いた場合の説明を行う。入出力
構造を図４に示す。ここで、各ニューロンは、

【００１９】

【数１】

【００２０】に示すように、複数の入力を重みを付けて
加算し、シグモイドと呼ばれる関数を通して得られる値
を出力する。ニューラルネットに複数の入力を入力する
ことによって判定に必要な情報を出力する。本実施例で
は、特徴パラメータを入力してどの符号化モジュールを
選択すればよいのかを示す値を出力するニューラルネッ
トワークを構築する。

【００２１】ニューラルネットを使用する場合の統計処
理とは、多くのデータからこの重みＷjiを求めることで
ある（学習と呼ぶ）。本実施例では、誤差逆伝播法によ
る学習を行う。次に手順を述べる。まず、Ｗjiに乱数で
初期値を与える。次に、入力層のニューロンの入力デー
タとしてデータ格納部に格納された音声の特徴パラメー
タを与え、教師信号としてその時の最適なモジュール番
号の出力層のニューロンのみが発火する状態を教師信号
として与え（例えば、符号化モジュールが５つある場
合、出力層を５つ用意し、最適インデクスの番号のニュ
ーロンのみには「１」、あとの４つのニューロンには
「０」を教師信号として与える）、各Ｗjiを以下の次式
にしたがって変化させる。

【００２２】

【数２】

【００２３】以上に示した処理をデータ格納部に格納さ
れているデータ全てについて何度も繰り返し行い、Ｗji
の値を収束させる。よって、特徴パラメータから符号化
モジュールを選択するルールが作成できる。

【００２４】以上の処理によって作成されたルールを図
１の選択ルール格納部16に格納することによって、適切
なモジュール選択が可能になる。

【００２５】ここで、ニューラルネットによるモジュー
ル選択性能を評価した実験について以下に示す。

【００２６】本実験ではＣＥＬＰ方式に基づく符号化モ
ジュールを５つ使用した。本実験におけるビット割り当
て表を図５に示す。基本条件は、入力音声のサンプリン
グレートが８ｋＨｚ、分析区間長が２０ｍｓｅｃであ
る。各モジュールの性質は、モジュール１が母音過渡部
・有声子音用モジュール（８ｋｂｐｓ）、モジュール２
が破裂性子音・語頭部分・語尾濁音用モジュール（８ｋ
ｂｐｓ）、モジュール３が母音定常部用モジュール（４
ｋｂｐｓ）、モジュール４は無声摩擦音用モジュール
（４ｋｂｐｓ）、モジュール５は無音用モジュール（２
ｋｂｐｓ）である。また、データ格納部33に格納される
データの内、インデクスについては、人間がエディタに
より、各モジュールの使用割合を考慮しながら改良を加
えた。また、モジュール選択部に入力するパラメータは
以下の２０個とした。Ｐ１＝分析区間のパワー（現分析区間）Ｐ２＝分析区間のパワーの比（現分析区間／前分析区
間）Ｐ３＝分析区間内の前半と後半のパワーの比（現分析区
間）Ｐ４＝自己相関係数１次（現分析区間）Ｐ５＝自己相関係数２次（現分析区間）Ｐ６＝長期予測係数の最大値（現分析区間）Ｐ７＝長期予測ラグの変化量（現分析区間／前分析区
間）Ｐ８＝分析区間のパワー（前分析区間）Ｐ９＝分析区間内の前半と後半のパワーの比（前分析区
間）Ｐ10＝自己相関係数１次（前分析区間）Ｐ11＝自己相関係数２次（前分析区間）Ｐ12＝長期予測係数の最大値（前分析区間）Ｐ13＝長期予測ラグの変化量（前分析区間／前々分析区
間）Ｐ14＝Ｓ／Ｎ比（前分析区間）Ｐ15＝分析区間のパワー（前々分析区間）Ｐ16＝分析区間内の前半と後半のパワーの比（前々分析
区間）Ｐ17＝自己相関係数１次（前々分析区間）Ｐ18＝自己相関係数２次（前々分析区間）Ｐ19＝長期予測係数の最大値（前々分析区間）Ｐ20＝Ｓ／Ｎ比（前々分析区間）モジュール選択部に用いるニューラルネットは入力層２
０、中間層１５、出力層５つのニューロンで構成した。
なお、選択に必要な計算は、積和３９５回、シグモイド
関数１５回、場合分け４回等で、重みＷjiの格納に必要
なＲＯＭ領域は３９５Ｗである。また、ルール学習用音
声データとして、男女２４人分の短文発声データを用い
た。加速係数を0.01〜0.002、平滑化係数を0.5〜0.2に
変化させて収束を早める工夫を行った。識別データが学
習データと同等の場合の識別結果を図６に示す（ただ
し、この実験における正解は、データ格納部に格納され
たデータの最適インデクスである）。

【００２７】また、上記学習データ以外の音声データ
（男女８人の短文音声）を用いて、実際に音声符号化・
復号化実験を行なった。合成音を男女１９人に合成音を
試聴させ、５段階の主観評価させることによりＭＯＳ
（ＭｅａｎＯｐｉｎｉｏｎＳｃｏｒｅ）を求めた。
この値を、原音声（符号化する前の音声）と、前記従来
の技術で説明した標準化方式であるＱＣＥＬＰとについ
て求め比較した。その結果、原音声で３．６１、ＱＣＥ
ＬＰで３．０８に対して、本実施例は３．３８という高
いＭＯＳ値が得られ、従来法よりも良好な音質の合成音
が得られることが検証できた。

【００２８】

【発明の効果】以上のように本発明は、予め多くの入力
音声に対して音声分析手段で特徴パラメータを得、符号
化部に格納されている符号化モジュールの全てで符号化
を行なうことによって各符号化モジュールでの符号化歪
が得られ、符号化歪を比較することによって最適な符号
化モジュールのインデクスが得られ、このような特徴パ
ラメータとインデクスとの対応を統計処理することによ
って複雑なルールが簡単に得られ、このルールを使用す
ることによってモジュール選択を少ない計算量で行なう
ことが出来る。このように、全ての符号器に共通の前処
理において得られる様々な情報に基づき、各符号化モジ
ュールで符号化した結果を予測して符号化モジュールを
選択するルールをヒューリスティックで作成することが
出来る。また、統計処理をする前の各データを人間がチ
ェックし、より効率がよくなるように改良すれば、その
意志を反映したルールが作成できる。

【００２９】したがって、各音声の特徴に適応した効率
の良い符号化が可能になる。

【図面の簡単な説明】

【図１】本発明の一実施例の符号器の機能ブロック図

【図２】同実施例におけるルールを作成する方法に関す
るブロック図

【図３】同実施例におけるデータ格納部34に格納される
データの一部の例を示した図

【図４】同実施例で用いるニューラルネットの入出力構
造を示した図

【図５】同実施例における各符号化モジュールのビット
割り当てを示した図

【図６】同実施例におけるニューラルネットによるモジ
ュール選択実験の識別状況を示した図

【図７】従来の方式による符号化装置の基本機能のブロ
ック図

【符号の説明】

１１入力音声１２自己相関分析部１３ＬＰＣ分析部１４ピッチ予備選択部１５モジュール選択部１６選択ルール格納部１７符号化部１８符号統合部１９伝送路２１入力音声２２ＬＰＣ分析部２３適応符号帳２４確率的符号帳２５加算部２６ＬＰＣ合成部２７比較部２８パラメータ符号化部２９伝送路３１音声収録３２音声格納部３３符号化部３４データ格納部３５統計処理部３６ルール格納部３７データ改良

Claims

【特許請求の範囲】

【請求項１】入力された音声信号（入力音声）を分析
し特徴パラメータを得る音声分析手段と、前記特徴パラ
メータに基づき音声の符号化を行なう符号化モジュール
が複数格納され、そのいずれかの符号化モジュールで符
号化を行なう符号化部と、予め多くの入力音声に対して
前記音声分析手段で得られる特徴パラメータとそれぞれ
の入力音声に対して前記符号化部に格納されている全て
の符号化モジュールで符号化を行なって得られる最適な
符号化モジュールとの対応を統計処理することよって得
られるルールが格納されている選択ルール格納部と、前
記音声分析手段で得られた音声の特徴パラメータと選択
ルール格納部に格納されているルールとに基づき前記符
号化部で採用する符号化モジュールを決定するモジュー
ル選択部とを備えることを特徴とする音声符号化装置。