JP3404024B2 - 音声符号化方法および音声符号化装置 - Google Patents

音声符号化方法および音声符号化装置

Info

Publication number
JP3404024B2
JP3404024B2 JP2001052944A JP2001052944A JP3404024B2 JP 3404024 B2 JP3404024 B2 JP 3404024B2 JP 2001052944 A JP2001052944 A JP 2001052944A JP 2001052944 A JP2001052944 A JP 2001052944A JP 3404024 B2 JP3404024 B2 JP 3404024B2
Authority
JP
Japan
Prior art keywords
excitation
distortion
coding
encoding
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001052944A
Other languages
English (en)
Other versions
JP2002258896A (ja
Inventor
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001052944A priority Critical patent/JP3404024B2/ja
Priority to TW091102256A priority patent/TW554334B/zh
Priority to IL14810102A priority patent/IL148101A0/xx
Priority to US10/072,892 priority patent/US7130796B2/en
Priority to DE60229458T priority patent/DE60229458D1/de
Priority to EP02003974A priority patent/EP1235204B1/en
Priority to CNB021053529A priority patent/CN1185625C/zh
Publication of JP2002258896A publication Critical patent/JP2002258896A/ja
Application granted granted Critical
Publication of JP3404024B2 publication Critical patent/JP3404024B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ディジタル音声
信号を少ない情報量に圧縮する音声符号化方法および音
声符号化装置に関するものであり、特に、音声符号化方
法および音声符号化装置における音源の符号化に関する
ものである。
【0002】
【従来の技術】従来の音声符号化方法および音声符号化
装置の多くは、入力音声をスペクトル包絡情報と音源に
分けて、フレーム単位で各々を符号化して音声符号を生
成している。音源の符号化に関しては、背景雑音区間を
含む様々な様態を持つ入力音声に対する符号化品質を確
保するために、表現できる音源に違いを与えた複数の音
源モードを用意し、その内の1つをフレーム毎に選択し
て使用する、いわゆるマルチモード符号化が検討されて
いる。このような従来のマルチモード符号化を行う音声
符号化方法および音声符号化装置としては、例えば、特
開平3−156498号公報、あるいは国際公開WO9
8/40877号公報などに開示されているものがあ
る。
【0003】図8は特開平3−156498号公報に開
示されている従来の音声符号化装置の構成を示すブロッ
ク図である。図において、1は入力音声、2は線形予測
分析手段、3は線形予測係数符号化手段、7は多重化手
段、8は音声符号、47は音源符号化部である。また、
音源符号化部47内において、48は分類手段、49,
50は切換手段、51はマルチパルス音源符号化手段、
52は母音部音源符号化手段である。
【0004】次に、この特開平3−156498号公報
に開示された従来の音声符号化装置の動作について説明
する。ここで、図示のように構成された従来の音声符号
化装置では、あらかじめ定められた区間長、例えば10
msを1フレームとしてフレーム単位で処理を行う。
【0005】まず、入力音声1が線形予測分析手段2と
分類手段48と切換手段49に入力される。線形予測分
析手段2はその入力音声1を分析し、音声のスペクトル
包絡情報である線形予測係数を抽出する。線形予測係数
符号化手段3はこの抽出された線形予測係数を符号化
し、その符号を多重化手段7に出力するとともに、音源
の符号化のために量子化された線形予測係数を出力す
る。
【0006】分類手段48は入力音声1の音響的特徴を
分析して、母音性信号とそれ以外とに分類し、分類結果
を切換手段49と切換手段50に出力する。切換手段4
9は分類手段48による分類結果が母音性信号である場
合に、入力音声1を母音部音源符号化手段52に接続
し、分類手段48による分類結果が母音性信号でない場
合に、入力音声1をマルチパルス音源符号化手段51に
接続する。
【0007】マルチパルス音源符号化手段51は複数の
パルス列の組合せによって音源を符号化し、符号化結果
を切換手段50に出力する。母音部音源符号化手段52
は可変時間長のセグメント長を算出するとともに、この
セグメントの音源信号を、例えば改良ピッチ補間マルチ
パルス音源モデルを用いて符号化し、その符号化結果を
切換手段50に出力する。
【0008】切換手段50は、分類手段48による分類
結果が母音性信号である場合に、母音部音源符号化手段
52が出力した符号化結果を多重化手段7に接続し、分
類手段48による分類結果が母音性信号でない場合に、
マルチパルス音源符号化手段51が出力した符号化結果
を多重化手段7に接続する。多重化手段7は、線形予測
係数符号化手段3から入力された符号と、切換手段50
から入力された符号化結果を多重化して、得られた音声
符号8を出力する。
【0009】このように、特開平3−156498号公
報に開示された従来の音声符号化装置では、入力音声1
の音響的特徴に基づいてあらかじめ複数種類用意した音
源モデルの中から1つを選択し、選択した音源モデルを
用いた符号化を行うことで、音声信号を少ない情報量で
良好に表すことができる、と報告されている。
【0010】また、図9は、国際公開WO98/408
77号公報に開示されている従来の音声符号化装置の構
成を示すブロック図である。図において、1は入力音
声、2は線形予測分析手段、3は線形予測係数符号化手
段、4は適応音源符号化手段、7は多重化手段、8は音
声符号、53,54は駆動音源符号化手段、55,56
はゲイン符号化手段、57は最小歪選択手段である。
【0011】次に、この国際公開WO98/40877
号公報に開示された従来の音声符号化装置の動作につい
て説明する。ここで、図示のように構成された従来の音
声符号化装置では、5〜50ms程度の長さの音声を1
フレームとして、フレーム単位で処理を行う。音源の符
号化については、1フレームを2分割したサブフレーム
毎に処理を行う。なお、説明を分かりやすくするために
以降の説明では、フレームとサブフレームを特に区別せ
ず、単にフレームと記す。
【0012】まず、入力音声1が線形予測分析手段2、
適応音源符号化手段4、および駆動音源符号化手段53
に入力される。線形予測分析手段2は入力音声1を分析
し、音声のスペクトル包絡情報である線形予測係数を抽
出する。線形予測係数符号化手段3は、この線形予測係
数を符号化し、その符号を多重化手段7に出力するとと
もに、音源の符号化のために量子化された線形予測係数
を出力する。
【0013】適応音源符号化手段4には、過去の所定長
の音源(信号)が適応音源符号帳として記憶されてい
る。この適応音源符号帳に、数ビットの2進数値で示し
た適応音源符号を入力すると、その適応音源符号から繰
返し周期を算出し、この繰返し周期を用いて過去の音源
を周期的に繰り返した時系列ベクトルを生成して出力す
る。適応音源符号化手段4はこの適応音源符号帳に各適
応音源符号を入力することによって得られる各時系列ベ
クトルを、線形予測係数符号化手段3からの量子化され
た線形予測係数を用いた合成フィルタに通すことによっ
て、仮の合成音を求める。そして、この仮の合成音に適
切なゲインを乗算した信号と、入力音声1との間の歪を
調べる。この処理を全ての適応音源符号に対して行い、
最小の歪を与えた適応音源符号を選択するとともに、選
択した適応音源符号に対応する時系列ベクトルを適応音
源として出力する。また、入力音声1から適応音源によ
る合成音に適切なゲインを乗算した信号を差し引いた信
号を、符号化対象信号として出力する。
【0014】駆動音源符号化手段54には、複数の時系
列ベクトルが駆動音源符号帳として記憶されている。こ
の駆動音源符号帳は数ビットの2進数値で示した駆動音
源符号が入力されると、その駆動音源符号に対応する位
置に格納されている時系列ベクトルを読み出して出力す
る。駆動音源符号化手段54はこの駆動音源符号帳に各
適応音源符号を入力することによって各時系列ベクトル
を求め、それを線形予測係数符号化手段3からの量子化
された線形予測係数を用いた合成フィルタに通すことに
よって、仮の合成音を求める。そして、この仮の合成音
に適切なゲインを乗算した信号と、適応音源符号化手段
4から入力された符号化対象信号との歪を調べる。この
処理を全ての駆動音源符号に対して行い、最小の歪を与
えた駆動音源符号を選択するとともに、選択された駆動
音源符号に対応する時系列ベクトルを駆動音源として出
力する。
【0015】ゲイン符号化手段56には、適応音源と駆
動音源に対する2つのゲイン値を表す複数のゲインベク
トルがゲイン符号帳として記憶されている。このゲイン
符号帳は数ビットの2進数値で示したゲイン符号が入力
されると、そのゲイン符号に対応する位置に格納されて
いるゲインベクトルを読み出して出力する。ゲイン符号
化手段56はこのゲイン符号帳に各ゲイン符号を入力す
ることによってゲインベクトルを求め、その第一要素を
適応音源符号化手段4から出力された適応音源に乗算
し、またゲインベクトルの第二要素を駆動音源符号化手
段54から出力された駆動音源に乗算し、得られた2つ
の信号を加算して仮の音源を生成する。そして、この仮
の音源を線形予測係数符号化手段3からの量子化された
線形予測係数を用いた合成フィルタに通すことによっ
て、仮の合成音を求め、その仮の合成音と駆動音源符号
化手段54を介して入力された入力音声1との歪を調べ
る。この処理を全てのゲイン符号に対して行い、最小の
歪を与えたゲイン符号を選択する。そして、選択された
ゲイン符号、適応音源符号化手段4から駆動音源符号化
手段54を介して入力された適応音源符号、および駆動
音源符号化手段54から入力された駆動音源符号からな
る音源符号と、最小の歪と、選択されたゲイン符号に対
応する仮の音源とを最小歪選択手段57に出力する。
【0016】一方、駆動音源符号化手段53には、複数
の時系列ベクトルが駆動音源符号帳として記憶されてい
る。この駆動音源符号帳は数ビットの2進数値で示した
駆動音源符号が入力されると、その駆動音源符号に対応
する位置に格納されている時系列ベクトルを読み出して
出力する。駆動音源符号化手段53はこの駆動音源符号
帳に各適応音源符号を入力することによって各時系列ベ
クトルを求め、それを線形予測係数符号化手段3からの
量子化された線形予測係数を用いた合成フィルタに通す
ことによって、仮の合成音を求める。そして、この仮の
合成音に適切なゲインを乗算した信号と、入力音声1と
の歪を調べる。この処理を全ての駆動音源符号に対して
行い、最小の歪を与えた駆動音源符号を選択するととも
に、選択された駆動音源符号に対応する時系列ベクトル
を駆動音源として出力する。
【0017】ゲイン符号化手段55には、駆動音源に対
する複数個のゲイン値が第一のゲイン符号帳として記憶
されている。このゲイン符号帳は数ビットの2進数値で
示したゲイン符号が入力されると、そのゲイン符号に対
応する位置に格納されているゲイン値を読み出して出力
する。ゲイン符号化手段55はこのゲイン符号帳に各ゲ
イン符号を入力することによってゲイン値を得、そのゲ
イン値を駆動音源符号化手段53から出力された駆動音
源に乗算し、得られた信号を仮の音源とする。そして、
この仮の音源を線形予測係数符号化手段3からの量子化
された線形予測係数を用いた合成フィルタに通すことに
よって、仮の合成音を求め、この仮の合成音と駆動音源
符号化手段53を介して入力された入力音声1との歪を
調べる。この処理を全てのゲイン符号に対して行い、最
小の歪を与えたゲイン符号を選択する。そして選択した
ゲイン符号と、駆動音源符号化手段53から入力された
駆動音源符号とからなる音源符号と、最小の歪と、選択
したゲイン符号に対応する仮の音源とを最小歪選択手段
57に出力する。
【0018】最小歪選択手段57は、ゲイン符号化手段
55から入力された最小の歪と、ゲイン符号化手段56
から入力された最小の歪を比較し、より小さい歪を出力
したゲイン符号化手段55または56を選択し、選択し
たゲイン符号化手段55,56が出力した音源符号を多
重化手段7に出力する。また、選択したゲイン符号化手
段55,56が出力した仮の音源を最終的な音源として
適応音源符号化手段4に対して出力する。適応音源符号
化手段4は、最小歪選択手段57から入力した音源を用
いて、内部の適応音源符号帳の更新を行う。
【0019】その後、多重化手段7は線形予測係数符号
化手段3から出力された線形予測係数の符号と、最小歪
選択手段57から出力された音源符号とを多重化し、得
られた音声符号8を出力する。
【0020】このように、国際公開WO98/4087
7号公報に開示された従来の音声符号化装置では、2つ
の音源モードでの符号化をその双方にて行い、小さい歪
を与えた音源モードを選択することで、最もよい符号化
特性を与えるモード選択ができ、符号化品質が改善す
る、と報告されている。
【0021】なお、このような音声符号化装置に関連す
る記載がなされた文献としては、例えば、入力音声から
遅延パラメータに対応した長さの目標音声ベクトルを生
成し、適応音源探索、および駆動音源探索を行う特開平
9−319396号公報、適応音源信号のパワー情報に
より、駆動音源に対するゲイン量子化テーブルを、複数
のゲイン量子化テーブル中より選択する特開2000−
175598号公報などもある。
【0022】
【発明が解決しようとする課題】従来の音声符号化装置
は以上のように構成されているので、それぞれ以下に述
べるような課題があった。
【0023】特開平3−156498号公報に開示され
た従来の音声符号化装置では、入力音声1の音響的特徴
だけに基づいてあらかじめ複数種類用意した音源モデル
の中から1つを選択してしまうため、得られた音声符号
を音声復号化装置で復号化して得られる復号音の主観的
な品質、つまり音質が必ずしも最良にならないという課
題がある。すなわち、入力音声1の音響的特徴に基づく
分類では、必ず分類誤りがあるため、入力音声に適切で
ない音源モデルを選択してしまうことがある。また、入
力音声1の分類が正しかったとしても、選択した音源モ
デルでは良好な符号化ができず、むしろ選択されなかっ
た音源モデルで符号化した方が、音声復号化装置で復号
化して得られる復号音の音質がよくなる場合もある。例
えば、母音区間であっても、過渡部などの波形的な乱れ
が多い場合には、母音部音源符号化手段52での符号化
結果が悪く、むしろマルチパルスを用いた方が変化に良
好に対応できる場合がある。
【0024】また、国際公開WO98/40877号公
報に開示された従来の音声符号化装置では、2つの音源
モードでの符号化をその両方でそれぞれ行い、小さい歪
を与えた音源モードを選択しているため、符号化歪は最
小となるものの、得られた音声符号を音声復号化装置で
復号化して得られる復号音の主観的な品質(音質)が必
ずしも最良にならないという課題がある。以下、図7を
参照しながらそれについて詳細に説明する。
【0025】図7(a)は入力音声を示し、同図(b)
は雑音的な音声を表現するために用意した音源モードを
選択したときの復号音(音声符号を音声復号化装置で復
号した結果)、同図(c)は母音的な音声を表現するた
めに用意した音源モードを選択したときの復号音を示し
ている。なお、図7(a)に示した入力音声は雑音的な
特徴を有する区間のものであり、図示のように、雑音的
な入力音声は振幅の大きい部分と小さい部分がフレーム
中に混在していることが多い。
【0026】図7の場合、同図(a)と(b)の信号の
差信号のパワーとして求められる歪の値は、同図(a)
と(c)の歪よりも大きくなっている。これは図7
(a)に示す入力音声の振幅が大きい部分において、同
図(c)との差が小さいためである。しかしながら、図
7(b)と(c)を人間が聴取したときには、同図
(c)の場合にはパルス的な劣化音が聞こえてしまい、
図7(b)の方が好ましい、とされてしまう。このよう
に歪が最小の音源モードを選択する従来の音声符号化装
置では、得られた音声符号を音声復号化装置で復号化し
て得られる復号音の主観的な品質(音質)では必ずしも
最適の選択となっていない場合がある。
【0027】この発明は、上記のような課題を解決する
ためになされたもので、よりよい音質を与える音源を適
切に選択でき、得られた音声符号を音声復号化装置で復
号化して得られる復号音の主観的な品質、つまり音質を
改善することのできる音声符号化方法および音声符号化
装置を得ることを目的とする。
【0028】
【課題を解決するための手段】この発明に係る音声符号
化方法は、各音源モード毎に入力音声から求められる符
号化対象信号の符号化を行って、その時に出力された符
号化歪と閾値とを比較して、変換工程により、前記比較
工程にて符号化歪が閾値を上回る比較結果が得られてい
る音源モードの選択を抑制するように、前記符号化工程
にて出力された符号化歪を変換し、その変換された符号
化歪に基づいて複数の音源モードの中から1つの音源モ
ードを選択し、この選択された音源モードを使用して、
所定長区間よりなるフレーム毎に入力音声の符号化を行
うようにしたものである。
【0029】この発明に係る音声符号化方法は、各音源
モード毎に入力音声から求められる符号化対象信号の符
号化を行って音源モードの1つを選択し、選択された音
源モードに対応する符号化歪と閾値との比較を行って、
その比較結果に基づいて選択された音源モードの別の音
源モードへの置換を行い、置換された音源モードを使用
して、所定長区間よりなるフレーム毎に入力音声の符号
化を行うようにしたものである。
【0030】この発明に係る音声符号化方法における閾
値は、固定の閾値または前記符号化対象信号の信号パワ
ーに基づいて決定した閾値である
【0031】この発明に係る音声符号化方法は、音源モ
ード毎に閾値を用意するようにしたものである。
【0032】この発明に係る音声符号化方法は、符号化
歪の出力変換を行う際に、あらかじめ定めた音源モード
の符号化歪と閾値との比較の結果、前者が後者を上回る
場合に、その符号化歪を閾値の値で置換し、この出力変
換された符号化歪を含む全ての音源モードの符号化歪の
中から、最小の符号化歪に対応した音源モードを選択す
るようにしたものである。
【0033】この発明に係る音声符号化方法は、選択さ
れた音源モードに対応する符号化歪が閾値を上回る場合
に、あらかじめ定めた音源モードを選択するようにした
ものである。
【0034】この発明に係る音声符号化方法は、入力音
声または符号化対象信号に対して所定の歪率となるよう
に、閾値の設定を行うようにしたものである。
【0035】この発明に係る音声符号化方法は、入力音
声または符号化対象信号の分析による音声様態の判定結
果が、所定のものであった場合に限って、変換工程が前
記符号化工程にて出力された符号化歪を変換するように
したものである。
【0036】この発明に係る音声符号化方法は、入力音
声または符号化対象信号の分析を行って音声様態を判定
し、その判定結果に基づいて決定された閾値を用いて、
符号化歪と閾値との比較を行うようにしたものである。
【0037】この発明に係る音声符号化方法は、入力音
声または符号化対象信号の分析を行って音声様態を判定
する際、少なくとも音声の立ち上がりであるか否かの判
定を行うようにしたものである。
【0038】この発明に係る音声符号化方法は、複数の
音源モードを、非雑音的な音源を生成する音源モード
と、雑音的な音源を生成する音源モードとで構成するよ
うにしたものである。
【0039】この発明に係る音声符号化方法は、複数の
音源モードを、非雑音的な音源符号語を使用する音源モ
ードと、雑音的な音源符号語を使用する音源モードとで
構成するようにしたものである。
【0040】この発明に係る音声符号化装置は、各音源
モード毎に、入力音声から求まる符号化対象信号の符号
化を行う符号化手段、符号化された符号化歪と閾値との
比較を行う比較手段、前記比較手段にて符号化歪が閾値
を上回る比較結果が得られている音源モードの選択を抑
制するように、前記符号化手段にて出力された符号化歪
を変換する変換手段と、前記変換手段にて変換された符
号化歪に基づいて、音源モードの選択を行う選択手段を
備え、複数の音源モードの中から選択した1つの音源モ
ードを使用して、入力音声を所定長区間よりなるフレー
ム毎に符号化するようにしたものである。
【0041】この発明に係る音声符号化装置は、各音源
モード毎に、入力音声から求まる符号化対象信号の符号
化を行う符号化手段、符号化された符号化歪の相互比較
結果に基づいて音声モードの1つを選択する選択手段、
選択された音声モードに対応する符号化歪と閾値との比
較を行う比較手段、および比較手段の比較結果に基づい
て、選択された音声モードの別の音源モードへの置換を
行う置換手段を備え、複数の音源モードの中から選択し
た1つの音源モードを使用して、入力音声を所定長区間
よりなるフレーム毎に符号化するようにしたものであ
る。
【0042】この発明に係る音声符号化装置は、比較手
段にて、符号化手段より出力された符号化歪と比較する
ための閾値を、符号化対象信号に対して所定の歪率とな
るように設定するようにしたものである。
【0043】この発明に係る音声符号化装置は、判定手
段を備えて、入力音声または符号化対象信号の分析によ
り音声様態を判定を行い、この判定手段が所定の判定結
果を出したときに限って、前記符号化手段にて出力され
た符号化歪を変換するようにしたものである。
【0044】この発明に係る音声符号化装置は、複数の
音源モードを、非雑音的な音源を生成する音源モード
と、雑音的な音源を生成する音源モードとで構成するよ
うにしたものである。
【0045】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声符号化方法を適用した音声符号化装置の構成を示すブ
ロック図である。図において、1は当該音声符号化装置
に入力される入力音声であり、2はその入力音声1より
線形予測係数を抽出する線形予測分析手段、3は抽出さ
れた線形予測係数を符号化するために量子化する線形予
測係数符号化手段である。4は入力音声1と線形予測係
数符号化手段3からの信号をもとに、適応音源と符号化
対象信号を出力する適応音源符号化手段である。5は入
力音声1と、線形予測係数符号化手段3からの信号およ
び適応音源符号化手段4からの信号をもとに、駆動音源
と駆動音源符号、およびモード選択情報を出力する駆動
音源符号化部である。6は入力音声1と、線形予測係数
符号化手段3からの信号、および駆動音源符号化部5か
らの信号を入力としてゲイン符号を選択するとともに、
当該ゲイン符号に対応する音源を適応音源符号化手段4
に入力するゲイン符号化手段である。7は線形予測係数
符号化手段3、適応音源符号化手段4、駆動音源符号化
部5、およびゲイン符号化手段6からの信号を多重化す
る多重化手段であり、8はこの多重化手段7より出力さ
れる、当該音声符号化装置で符号化された音声符号であ
る。
【0046】また、駆動音源符号化部5内において、9
は乱数で生成した時系列ベクトルによる駆動音源符号帳
を備えて、線形予測係数符号化手段3と適応音源符号化
手段4からの信号をもとに、仮の合成音と符号化対象信
号との歪を調べて、駆動音源符号、歪、および駆動音源
を出力する、符号化手段としての駆動音源符号化手段で
ある。10,11はそれぞれ異なるパルス位置テーブル
を含む駆動音源符号帳を備えて、線形予測係数符号化手
段3と適応音源符号化手段4からの信号をもとに、仮の
合成音と符号化対象信号との歪を調べて、駆動音源符
号、歪、および駆動音源を出力する符号化手段としての
駆動音源符号化手段である。12は入力音声1の信号パ
ワーを計算するパワー計算手段であり、13はパワー計
算手段12からの信号より、歪に関する閾値を計算する
閾値計算手段である。14は入力音声1を分析し、音声
の立ち上がり部分であるか否かの判定を行う判定手段で
ある。15は駆動音源符号化手段9からの信号と閾値計
算手段13からの閾値を比較する比較手段であり、16
は判定手段14の判定結果と比較手段15の比較結果に
基づいて、駆動音源符号化手段9の出力変換を行う変換
手段である。17は変換手段16からの信号と、駆動音
源符号化手段10および11からの信号に基づいて、駆
動音源と駆動音源符号、およびモード選択情報を多重化
手段7に出力する、選択手段としての最小歪選択手段で
ある。なお、上記の閾値は、固定の閾値または前記符号
化対象信号の信号パワーに基づいて決定した閾値である
【0047】次に動作について説明する。この実施の形
態1による音声符号化装置では、例えば20msを1フ
レームとして、フレーム単位で処理を行う。音源の符号
化処理、つまり適応音源符号化手段4、駆動音源符号化
部5およびゲイン符号化手段6の処理については、1フ
レームを2分割したサブフレーム毎に処理を行う。な
お、説明を分かりやすくするため、従来の場合と同様
に、以降の説明ではフレームとサブフレームを特に区別
せず単にフレームと記す。
【0048】まず、入力音声1が、線形予測分析手段
2、適応音源符号化手段4、駆動音源符号化部5、およ
びゲイン符号化手段6に入力される。なお、駆動音源符
号化部5に入力された入力音声1は、そのパワー計算手
段12と判定手段14に送られる。線形予測分析手段2
は入力音声1が入力されるとその分析を行い、音声のス
ペクトル包絡情報である線形予測係数を抽出して、線形
予測係数符号化手段3に送出する。線形予測係数符号化
手段3はこの線形予測分析手段2から受け取った線形予
測係数を符号化して多重化手段7に出力するとともに、
音源の符号化のために量子化された線形予測係数を、適
応音源符号化手段4、駆動音源符号化部5、およびゲイ
ン符号化手段6に出力する。駆動音源符号化部5では、
この線形予測係数符号化手段3からの量子化された線形
予測係数が、駆動音源符号化手段9〜11に入力され
る。
【0049】なお、この実施の形態1では、スペクトル
包絡情報として線形予測係数を使用しているが、これに
限定されるものではなく、LSP(Line Spec
trum Pairs)など他のパラメータを使用して
もかまわない。
【0050】適応音源符号化手段4には、過去の所定長
の音源(信号)が記憶された適応音源符号帳が備えられ
ている。この適応音源符号帳は、数ビットの2進数値で
示した適応音源符号が入力されると、その適応音源符号
に対応した過去の音源の繰返し周期を求め、その繰返し
周期を用いて過去の音源を周期的に繰り返した時系列ベ
クトルを生成して出力する。適応音源符号化手段4はこ
の適応音源符号帳に各適応音源符号を入力することによ
って得られる各時系列ベクトルを、線形予測係数符号化
手段3の出力する、量子化された線形予測係数を用いた
合成フィルタを通してフィルタリングすることにより、
仮の合成音を求める。そして、得られた仮の合成音に適
切なゲインを乗算した信号と入力音声1との差分から、
それら両者間の歪を調べる。
【0051】適応音源符号化手段4はこの処理を全ての
適応音源符号に対して行い、最小の歪を与えた適応音源
符号を選択し、選択された適応音源符号に対応する時系
列ベクトルを、適応音源として駆動音源符号化手段9、
および駆動音源符号化手段10,11に出力する。また
入力音声1から適応音源による合成音に適切なゲインを
乗算した信号を差し引いた信号(両者間の歪)を、符号
化対象信号として駆動音源符号化手段9、および駆動音
源符号化手段10,11に出力する。
【0052】駆動音源符号化手段9には、乱数によって
生成された時系列ベクトルが、雑音的な音源符号語とし
て複数、駆動音源符号帳に記憶されている。この駆動音
源符号化手段9内の駆動音源符号帳は、数ビットの2進
数値で示した駆動音源符号が入力されると、その駆動音
源符号に対応する位置より、そこに格納されている時系
列ベクトルを読み出して出力する。このようにした場
合、出力される時系列ベクトルは雑音的な音源を生成し
ている。駆動音源符号化手段9はこの駆動音源符号帳に
各駆動音源符号を入力することによって得られる時系列
ベクトルを、線形予測係数符号化手段3の出力する、量
子化された線形予測係数を用いた合成フィルタを通して
フィルタリングすることにより、仮の合成音を求める。
そして、得られた仮の合成音に適切なゲインを乗算した
信号と、適応音源符号化手段4から入力された符号化対
象信号との間の差分に基づく歪を調べる。ここで、符号
化対象信号をx、仮の合成音をyとすると、両者間の歪
Dは次に示す(1)式で計算される。
【0053】
【数1】
【0054】駆動音源符号化手段9はこの処理を全ての
駆動音源符号に対して行い、最小の歪を与えた駆動音源
符号を選択するとともに、選択された駆動音源符号に対
応する時系列ベクトルを駆動音源として、比較手段15
および変換手段16に出力する。その時、この駆動音源
とともに、上記最小の歪および駆動音源符号も比較手段
15と変換手段16に出力される。
【0055】駆動音源符号化手段10には、パルス位置
テーブルを含んだ駆動音源符号帳が記憶されている。こ
の駆動音源符号化手段10内の駆動音源符号帳は、数ビ
ットの2進数値で示した駆動音源符号が入力されると、
その駆動音源符号を複数のパルス位置符号と極性に分離
して、パルス位置テーブル中の各パルス位置符号に対応
する位置に格納されているパルス位置を読み出し、その
パルス位置と極性に従って、複数本のパルスを持った時
系列ベクトルを生成して出力する。つまり、出力される
時系列ベクトルは、複数本のパルスから成る非雑音的な
音源を生成している。なお、この駆動音源符号化手段1
0の駆動音源符号帳には、上記パルス位置テーブル等に
よって非雑音的な音源符号語が格納されていると見なす
ことができる。
【0056】駆動音源符号化手段10はこの駆動音源符
号帳に各適応音源符号を入力することによって得られる
時系列ベクトルを、適応音源符号化手段4で選択された
適応音源符号に対応する繰返し周期を用いてピッチ周期
化し、さらに線形予測係数符号化手段3の出力する、量
子化された線形予測係数を用いた合成フィルタを通して
フィルタリングすることにより、仮の合成音を求める。
そして、得られた仮の合成音に適切なゲインを乗算した
信号と適応音源符号化手段4から入力された符号化対象
信号との差分に基づく両者間の歪を調べる。
【0057】駆動音源符号化手段10はこの処理を全て
の駆動音源符号に対して行い、最小の歪を与えた駆動音
源符号を選択するとともに、選択された駆動音源符号に
対応する時系列ベクトルを駆動音源とする。そしてこの
駆動音源を、最小の歪および駆動音源符号とともに最小
歪選択手段17に出力する。
【0058】駆動音源符号化手段11には、駆動音源符
号化手段10のそれとは異なったパルス位置テーブルを
含む駆動音源符号帳が記憶されている。この駆動音源符
号化手段11内の駆動音源符号帳は、数ビットの2進数
値で示した駆動音源符号が入力されると、その駆動音源
符号を複数のパルス位置符号と極性に分離して、パルス
位置テーブル中の各パルス位置符号に対応する位置に格
納されているパルス位置を読み出し、そのパルス位置と
極性に従って、複数本のパルスを持った時系列ベクトル
を生成して出力する。この場合も駆動音源符号化手段1
0と同様に、時系列ベクトルが複数本のパルスから成る
非雑音的な音源を生成し、その駆動音源符号帳には、パ
ルス位置テーブル等によって非雑音的な音源符号語が格
納されていると見なせる。
【0059】駆動音源符号化手段11はこの駆動音源符
号帳に各適応音源符号を入力することによって得られる
時系列ベクトルを、適応音源符号化手段4で選択された
適応音源符号に対応する繰返し周期を用いてピッチ周期
化し、さらに線形予測係数符号化手段3の出力する、量
子化された線形予測係数を用いた合成フィルタを通して
フィルタリングすることにより、仮の合成音を求める。
そして、得られた仮の合成音に適切なゲインを乗算した
信号と適応音源符号化手段4から入力された符号化対象
信号との差分をとり、それに基づく両者間の歪を調べ
る。
【0060】駆動音源符号化手段11はこの処理を全て
の駆動音源符号に対して行い、最小の歪を与えた駆動音
源符号を選択するとともに、選択された駆動音源符号に
対応する時系列ベクトルを駆動音源とする。そしてこの
駆動音源を、最小の歪および駆動音源符号とともに最小
歪選択手段17に出力する。
【0061】パワー計算手段12は受け取った入力音声
1のフレーム内の信号パワーを計算し、得られた信号パ
ワーを閾値計算手段13に出力する。閾値計算手段13
はこのパワー計算手段12から入力された信号パワー
に、あらかじめ用意されている歪率に関する定数を乗算
し、その計算結果を歪に関する閾値として比較手段15
と変換手段16に出力する。
【0062】ここで、あらかじめ用意した定数をR、信
号パワーをPとすると、歪に関する閾値Dthは、次の
(2)式で求めることができる。 Dth = R・P ・・・(2)
【0063】なお、定数Rはパワー領域での歪率に関す
る値であり、この実施の形態1では0.7とする。ま
た、入力音声1の信号パワーPにこの歪率に関する定数
Rを乗算して得られる、歪に関する閾値Dthは、(1)
式に示した歪の領域で定義される値となる。
【0064】一方、判定手段14は受け取った入力音声
1の分析を行って音声態様を判定する。その結果、音声
の立ち上がり部分である場合には“0”を、それ以外の
場合には“1”を、それぞれ判定結果として出力する。
音声の立ち上がりであるか否かは、入力音声1の信号パ
ワーを前フレームの信号パワーで除した結果が、所定の
閾値を超えているか否かで大まかに判定することができ
る。
【0065】比較手段15は駆動音源符号化手段9から
入力された歪Dと、閾値計算手段13から入力された歪
に関する閾値Dthとの比較を行い、その比較結果とし
て、歪Dの方が大きいときには“1”を、それ以外の場
合には“0”をそれぞれ出力する。変換手段16は判定
手段14から出力された判定結果と比較手段15から出
力された比較結果とを受け、その両方が“1”であった
場合には、駆動音源符号化手段9から出力された歪D
を、閾値計算手段13から入力された閾値Dthの値に置
換する。なお、この変換手段16は判定手段14の判定
結果、あるいは比較手段15の比較結果のいずれか一方
でも“0”であった場合には、上記置換の処理は行わな
い。この変換手段16による置換処理結果は最小歪選択
手段17に出力される。
【0066】最小歪選択手段17はこの変換手段16か
ら入力された歪と、駆動音源符号化手段10から入力さ
れた歪と、駆動音源符号化手段11から入力された歪と
の比較を行って、これらの中で最小の歪を選択する。そ
して、この選択された歪を出力した変換手段16または
駆動音源符号化手段10,11より出力された駆動音源
をゲイン符号化手段6に、駆動音源符号を多重化手段7
にそれぞれ出力する。さらに、これら3つの歪の内のど
れを選択したかを示す情報をモード選択情報として多重
化手段7に出力する。
【0067】なお、(1)式の第一項は仮の合成音yに
依存しないので、歪Dを最小化するyを探索すること
は、次の(3)式に示した、上記(1)式の第二項を最
大化するyを探索することと等価である。
【0068】
【数2】
【0069】従って、複数の仮の合成音yに対して、こ
の(3)式で示した評価値dを計算し、これを最大化す
る仮の合成音yを与えた駆動音源符号を選択しても同じ
結果となる。ただし、各駆動音源符号化手段が(3)式
で示した評価値dを最大化する駆動音源符号を探索し、
歪Dの代わりに評価値dを出力する場合には、これに応
じて閾値計算手段13、比較手段15、変換手段16、
最小歪選択手段17での処理を以下の通り変更する必要
がある。
【0070】すなわち、閾値計算手段13では、符号化
対象信号xの信号パワーをP'として、評価値dに対応
する閾値dthを次の(4)式により算出する。 dth = P’− R・P ・・・(4)
【0071】ここで、この(4)式は、(1)式と
(3)式とを合わせて次の(5)式を求め、得られた
(5)式の第二項に(2)式を代入することで導出でき
る。なお、(5)式の第一項は符号化対象信号の信号パ
ワーP’である。この時、閾値計算手段13に対する入
力として、適応音源符号化手段4から出力された符号化
対象信号を追加する必要がある。
【0072】
【数3】
【0073】また、比較手段15では、駆動音源符号化
手段9が出力した評価値dと、閾値計算手段13から入
力された閾値dthとの比較を行い、その比較結果とし
て、評価値dの方が小さい場合には“1”を、それ以外
の場合には“0”をそれぞれ出力する。変換手段16に
はこの比較手段15が出力した比較結果と、判定手段1
4が出力した判定結果が入力され、その両方がともに
“1”であれば、駆動音源符号化手段9から出力された
結果中の評価値dを、閾値計算手段13から入力された
閾値dthの値に置換する。なお、それ以外の場合には評
価値dの置換処理は行わない。
【0074】最小歪選択手段17には変換手段16と、
駆動音源符号化手段10および11より評価値dが入力
されている。最小歪選択手段17はそれら3つの評価値
dの比較を行って、その中で最大の評価値を選択する。
そして選択された評価値を出力した変換手段16または
駆動音源符号化手段10または駆動音源符号化手段11
が出力した駆動音源をゲイン符号化手段6に、駆動音源
符号を多重化手段7にそれぞれ出力する。最小歪選択手
段17はさらに、上記3つの評価値の内のどれを選択し
たかを示す情報をモード選択情報として多重化手段7に
出力する。
【0075】ゲイン符号化手段6には、適応音源と駆動
音源に対する2つのゲイン値を表す複数のゲインベクト
ルがゲイン符号帳として記憶されている。このゲイン符
号帳は、数ビットの2進数値で示したゲイン符号が入力
されると、そのゲイン符号に対応する位置に格納されて
いるゲインベクトルを読み出して出力する。ゲイン符号
化手段6はこのゲイン符号帳に各ゲイン符号を入力する
ことによってゲインベクトルを求め、その第一要素を適
応音源符号化手段4の出力する適応音源に乗算するとと
もに、第二要素を最小歪選択手段17の出力する駆動音
源に乗算して、得られた2つの信号を加算することによ
り仮の音源を生成する。そしてこの仮の音源を線形予測
係数符号化手段3の出力する、量子化された線形予測係
数を用いた合成フィルタを通してフィルタリングするこ
とにより、仮の合成音を求める。そして、得られた仮の
合成音と入力音声1との差分をとり、それに基づく両者
間の歪を調べる。
【0076】ゲイン符号化手段6はこの処理を全ての駆
動音源符号に対して行い、最小の歪を与えたゲイン符号
を選択するとともに、その選択されたゲイン符号を多重
化手段7に、選択されたゲイン符号に対応する仮の音源
を最終的な音源として適応音源符号化手段4にそれぞれ
出力する。
【0077】適応音源符号化手段4は、このゲイン符号
化手段6より出力された最終的な音源を受け取ると、内
部に記憶している適応音源符号帳をその最終的な音源に
基づいて更新する。
【0078】その後、多重化手段7は、線形予測係数符
号化手段3から出力された線形予測係数の符号、適応音
源符号化手段4から出力された適応音源符号、駆動音源
符号化部5中の最小歪選択手段17から出力された駆動
音源符号とモード選択情報、およびゲイン符号化手段6
から出力されたゲイン符号を多重化し、得られた音声符
号8を出力する。
【0079】次に、この実施の形態1により得られた音
声符号8を音声復号化装置で復号化して得られる復号音
の主観的な品質、つまり音質の改善がはかれることを、
図7を参照しながら説明する。図7は符号化歪を最小に
する音源モードの選択について説明するための各波形を
示すイメージ図であり、図7(a)は入力音声、同図
(b)は雑音的な音声を表現するために用意した音源モ
ードを選択したときの復号音(音声符号を音声復号化装
置で復号した結果)、同図(c)は母音的な音声を表現
するために用意した音源モードを選択したときの復号音
をそれぞれ示している。なお、図7(a)に示した入力
音声は雑音的な特徴を有する区間のものであり、図示の
ように、雑音的な入力音声は振幅の大きい部分と小さい
部分がフレーム中に混在していることが多い。
【0080】入力音声1が図7(a)に示すように雑音
的である場合には、一般にモデル化がうまく働かないの
で、同図(b)に示した雑音的な音声を表現するために
用意した音源モード(雑音的な音源符号語を使用する音
源モード)の場合でも、同図(c)に示した母音的な音
声を表現するために用意した音源モード(非雑音的な音
源符号語を使用する音源モード)の場合でも、符号化時
の歪率は比較的大きな値となる。
【0081】ここで、駆動音源符号化手段9は乱数によ
って生成された時系列ベクトルを使用しており、図7
(b)に示す雑音的な音声を表現するために用意した音
源モードに対応する。また駆動音源符号化手段10およ
び11はパルス音源とピッチ周期化を使用しており、図
7(c)に示す母音的な音声を表現するために用意した
音源モードに対応する。
【0082】前述のように、各駆動音源符号化手段9〜
11から出力される歪Dは何れも大きい値となっている
が、駆動音源符号化手段9から出力された歪Dだけは、
変換手段16によって、歪Dよりも小さい閾値Dthに置
換される。その結果、最小歪選択手段17において、駆
動音源符号化手段9が出力した駆動音源符号が選択さ
れ、復号音は図7(b)に示すものとなる。このよう
に、図7(b)に示す復号音の歪の方が同図(c)に示
す復号音の歪よりも大きな場合でも、雑音的な区間など
の符号化時の歪率が大きくなる区間では、安定的に図7
(b)に示す復号音が選択される。
【0083】なお、この実施の形態1では、判定手段1
4が音声の立ち上がり以外であると判定したときに限っ
て、変換手段16による置換の処理を行うようにしてい
る。すなわち、音声の立ち上がりと判定された場合でも
変換手段16による置換の処理を行うようにして、復号
音が図7(b)となるようにしてしまうと、破裂音のパ
ルス的な特徴がつぶれてしまったり、母音の立ち上がり
をザラザラした音質に劣化させてしまうことになる。
【0084】また、この実施の形態1では、パワー計算
手段12で入力音声1の信号パワーを計算し、閾値計算
手段13はその信号パワーを用いて閾値の計算を行って
いる。すなわち、入力音声1の信号パワーに歪率に関す
る定数を乗算することで、一定の歪率(SN比など)と
なる歪の値が閾値として算出されている。この閾値を使
用することで、駆動音源符号化手段9の歪が一定の歪率
(SN比など)を超えたときにその歪の値を置換して、
駆動音源符号化手段9の出力する歪が選択されやすくな
るようにしている。
【0085】なお、閾値計算手段13については、入力
音声1の信号パワーを使用せず、固定閾値Rをそのまま
出力する構成に変形することも可能である。その場合、
各駆動音源符号化手段9〜11が出力する歪を、入力音
声1の信号パワーPで除算した値、つまり歪率として出
力するように変形することにより、異なる構成によって
も上述した実施の形態の場合と同じ結果を与えることが
できる。
【0086】また、この実施の形態1では、パワー計算
手段12が入力音声1の信号パワーを計算しているが、
適応音源符号化手段4が出力した符号化対象信号の信号
パワーを計算するように変更するようにしてもよい。そ
の場合、閾値計算手段13が出力する閾値が、上記した
入力音声1に対する歪に関する閾値ではなく、符号化対
象信号に対する歪に関する閾値となる。
【0087】なお、定常母音区間では適応音源による符
号化が良好で、符号化対象信号が入力音声に比べて低振
幅で雑音的になる場合がある。上記のように、パワー計
算手段12が符号化対象信号の信号パワーを計算する構
成とした場合には、閾値も小さくなり、変換手段16で
の歪の置換が起こりやすくなる。しかしながら、定常母
音区間では置換を行わずに歪を最小にする駆動音源符号
化手段9から11を選択する方が望ましいので、置換を
停止するために判定手段14における判定処理を修正す
る必要がある。具体的には、判定手段14が、音声の立
ち上がり、または母音区間を検知した時に判定結果とし
て“0”を出力し、それ以外の時に判定結果として
“1”を出力するようにすればよい。母音区間の検知
は、入力音声1のピッチ周期性の大きさ、適応音源符号
化手段4での符号化処理中の中間パラメータなどを用い
て行うことができる。
【0088】また、この実施の形態1では、パワー計算
手段12が入力音声1の信号パワーを計算し、その信号
パワーを用いて閾値計算手段13が閾値の計算を行って
いるが、信号パワーの代わりに、振幅や、対数パワーな
どを用いても、閾値計算手段13の計算式を変形するこ
とで同じ結果を得ることができる。
【0089】また、この実施の形態1では、雑音的な音
源を生成する駆動音源符号化手段として駆動音源符号化
手段9を1つ、また非雑音的な音源を生成する駆動音源
符号化手段として駆動音源符号化手段10,11の2つ
を備える構成としたが、前者を2つ以上としてもかまわ
ないし、後者を1つまたは3つ以上としてもかまわない
ことはいうまでもない。
【0090】また、この実施の形態1では、閾値Dth
歪Dの比較結果に基づいて歪Dを閾値Dthに置換するよ
うにしているが、閾値Dthと歪Dを入力変数とする関数
を用意し、その出力値を新たな歪Dと置換するようにし
てもかまわない。
【0091】また、この実施の形態1では、単純に信号
間の2乗距離を歪としているが、音声符号化装置で多く
使用されている聴覚重み付け歪とするようにしても当然
かまわない。
【0092】以上のように、この実施の形態1によれ
ば、複数の音源モードの中から1つを選択し、この音源
モードを使用して入力音声1をフレームと呼ばれる所定
長の区間毎に符号化する際に、各音源モード毎に入力音
声から求まる符号化対象信号の符号化を行い、その時の
符号化歪と固定の閾値、あるいは符号化対象信号の信号
パワーに基づいて決定した閾値との比較を行って、その
比較結果に基づいて音源モードの選択を行うようにした
ので、符号化歪が大きい場合でも復号音の品質劣化が少
ない音源モードを選択することが可能となるため、より
よい音質を与える音源モードの選択が適切に行え、得ら
れた音声符号を音声復号化装置で復号化した復号音の主
観的な品質、つまり音質を改善することができるという
効果が得られる。
【0093】さらに、この実施の形態1によれば、あら
かじめ定めた音源モードについて符号化歪と閾値の比較
を行い、符号化歪が閾値を上回る場合にその符号化歪を
閾値の値に置換し、全ての音源モードの符号化歪の中で
最小の符号化歪に対応した音源モードを選択するように
したので、符号化歪が大きい場合に符号化歪が置換され
た音源モードが選択されやすくなるため、よりよい音質
を与える音源モードの選択が適切に行え、得られた音声
符号を音声復号化装置で復号化した復号音の主観的な品
質(音質)を改善することができるという効果が得られ
る。
【0094】さらに、この実施の形態1によれば、入力
音声または符号化対象信号に対して所定の歪率となるよ
うに、閾値の設定を行うようにしたので、符号化時の歪
率が所定以上である場合に、復号音の品質劣化が少ない
音源モードを選択することが可能となるため、よりよい
音質を与える音源モードの選択が適切に行え、得られた
音声符号を音声復号化装置で復号化した復号音の主観的
な品質(音質)を改善することができるという効果が得
られる。
【0095】さらに、この実施の形態1によれば、入力
音声または符号化対象信号を分析して音声様態を判定
し、所定の判定結果となったときに限って、符号化歪と
閾値との比較結果を使用せずに音源モードの選択を行う
ようにしたので、符号化歪が大きくても復号音の品質劣
化を起こしにくい入力音声に対しては、従来の場合と同
様の音源モード選択が行われ、一層丁寧な音源モード選
択となり、得られた音声符号を音声復号化装置で復号化
した復号音の主観的な品質(音質)を改善することがで
きるという効果が得られる。
【0096】さらに、この実施の形態1によれば、音声
様態の判定において、少なくとも音声の立ち上がりであ
るか否かを判定するようにしたので、音声の立ち上がり
という符号化歪が大きくなりがちな区間とそれ以外の区
間とで、符号化歪に基づく音源モード選択の制御を変え
ることが可能となるため、音声の立ち上がりでの劣化が
なく、それ以外での音源モード選択を改善することがで
きて、得られた音声符号を音声復号化装置で復号化した
復号音の主観的な品質(音質)を改善でき、また、上記
音声の立ち上がりの区間は、破裂音などのように雑音的
な音源よりパルス的な音源の方が適するケースもあるた
め、符号化歪が大きくても、特定の音源モードを優先的
に選択するような制御は劣化を引き起こすことが出てく
るが、音声の立ち上がりの判定によってそれを回避でき
るなどの効果が得られる。
【0097】さらに、この実施の形態1によれば、複数
の音源モードを、非雑音的な音源を生成する音源モード
と、雑音的な音源を生成する音源モードで構成したの
で、符号化歪が大きい場合に雑音的な音源を生成する音
源モードを選択しやすくすることが可能となるため、非
雑音的な音源を生成する音源モードを選択することによ
る劣化を回避し、得られた音声符号を音声復号化装置で
復号化した復号音の主観的な品質(音質)を改善するこ
とができるという効果が得られる。
【0098】さらに、この実施の形態1によれば、複数
の音源モードを、非雑音的な音源符号語を使用する音源
モードと、雑音的な音源符号語を使用する音源モードで
構成したので、符号化歪が大きい場合に雑音的な音源符
号語を使用する音源モードを選択しやすくすることが可
能となるため、非雑音的な音源符号語を使用する音源モ
ードを選択して劣化することを回避し、得られた音声符
号を音声復号化装置で復号化した復号音の主観的な品質
(音質)を改善することができるという効果が得られ
る。
【0099】実施の形態2.図2はこの発明の実施の形
態2による音声符号化方法を適用した音声符号化装置の
構成を示すブロック図である。図において、1は入力音
声、2は線形予測分析手段、3は線形予測係数符号化手
段、6はゲイン符号化手段、7は多重化手段、8は音声
符号であり、これらは図1に同一符号を付して示した実
施の形態1の各部と同等の部分である。
【0100】また、18は入力音声1と線形予測係数符
号化手段3からの信号をもとに、適応音源、駆動音源、
音源符号、およびモード選択情報を出力する音源符号化
部である。
【0101】この音源符号化部18内において、19は
乱数で生成した時系列ベクトルによる駆動音源符号帳を
備え、入力音声1と線形予測係数符号化手段3からの信
号をもとに、仮の合成音と入力音声1との歪を調べて、
音源符号、歪、および駆動音源を出力する、符号化手段
としての音源符号化手段である。20はパルス位置テー
ブルを含む駆動音源符号帳を備え、入力音声1と線形予
測係数符号化手段3からの信号をもとに、仮の合成音と
入力音声1との歪を調べて、音源符号、歪、および駆動
音源を出力する、符号化手段としての音源符号化手段で
ある。21は適応音源符号帳を備えた適応音源符号化手
段と、駆動音源符号帳を備えた駆動音源符号化手段とに
よって構成され、入力音声1と線形予測係数符号化手段
3からの信号をもとに、音源符号、歪、適応音源、およ
び駆動音源を出力する、符号化手段としての音源符号化
手段である。
【0102】22は入力音声の信号パワーを計算するパ
ワー計算手段、23はパワー計算手段22からの信号よ
り、歪に関する閾値を計算する閾値計算手段であり、2
4は入力音声1を分析し、音声の立ち上がり部分である
か否かを判定する判定手段である。25は音源符号化手
段19からの信号と閾値計算手段23からの閾値を比較
する比較手段である。26は判定手段24の判定結果と
比較手段25の比較結果に基づいて音源符号化手段19
の出力変換を行う変換手段である。27は変換手段26
からの信号と、音源符号化手段20および21からの信
号に基づいて、適応音源および駆動音源をゲイン符号化
手段6に、音源符号およびモード選択情報を多重化手段
7に出力する、選択手段としての最小歪選択手段であ
る。
【0103】このように、上記実施の形態2では、複数
の音源符号化手段19〜21の中から1つを選択する構
成としている点で、複数の駆動音源符号化手段9〜11
の中の1つを選択する構成の実施の形態1とは異なって
いる。つまり、駆動音源符号化手段の他に適応音源符号
化手段も含めた上位の音源符号化手段19〜21の選択
にこの発明を適用したものとなっている。
【0104】次に動作について説明する。なお、ここで
は、上記実施の形態1とは異なる部分を中心に、図2に
基づいて説明する。まず、入力音声1が線形予測分析手
段2、ゲイン符号化手段6、および音源符号化部18に
入力される。線形予測分析手段2は入力音声1が入力さ
れるとその分析を行い、音声のスペクトル包絡情報であ
る線形予測係数を抽出して、線形予測係数符号化手段3
に送出する。線形予測係数符号化手段3はこの線形予測
分析手段2から受け取った線形予測係数を符号化して多
重化手段7に出力するとともに、音源の符号化のために
量子化された線形予測係数を、音源符号化部18および
ゲイン符号化手段6に出力する。なお、音源符号化部1
8では、入力音声1は音源符号化手段19〜21、およ
びパワー計算手段22、判定手段24に入力され、線形
予測係数符号化手段3からの量子化された線形予測係数
は、音源符号化手段19〜21に入力される。
【0105】音源符号化手段19には、乱数によって生
成された時系列ベクトルが、雑音的な音源符号語として
複数、駆動音源符号帳に記憶されている。この音源符号
化手段19内の駆動音源符号帳は、数ビットの2進数値
で示した音源符号が入力されると、その音源符号に対応
する位置より、そこに格納されている時系列ベクトルを
読み出して出力する。なお、この出力された時系列ベク
トルは雑音的な音源を生成している。音源符号化手段1
9はこの駆動音源符号帳に各音源符号を入力することに
よって得られる時系列ベクトルを、線形予測係数符号化
手段3の出力する、量子化された線形予測係数を用いた
合成フィルタにてフィルタリングすることにより、仮の
合成音を求める。そして、得られた仮の合成音に適切な
ゲインを乗算した信号と入力音声1との差分をとり、そ
れに基づく両者間の歪を調べる。
【0106】音源符号化手段19はこの処理を全ての音
源符号に対して行い、最小の歪を与えた音源符号を選択
するとともに、選択された音源符号に対応する時系列ベ
クトルを駆動音源とする。そしてこの駆動音源を、上記
最小の歪および音源符号とともに、比較手段25と変換
手段26とに出力する。
【0107】音源符号化手段20には、パルス位置テー
ブルを含んだ駆動音源符号帳が記憶されている。この音
源符号化手段20内の駆動音源符号帳は、数ビットの2
進数値で示した音源符号が入力されると、その音源符号
を複数のパルス位置符号と極性に分離して、パルス位置
テーブル中の各パルス位置符号に対応する位置に格納さ
れているパルス位置を読み出し、そのパルス位置と極性
に従って、複数本のパルスを持つ時系列ベクトルを生成
して出力する。この時系列ベクトルは複数本のパルスに
よる非雑音的な音源を生成し、その駆動音源符号帳はパ
ルス位置テーブル等により非雑音的な音源符号語が格納
されていると見なせる。
【0108】音源符号化手段20はこの駆動音源符号帳
に各音源符号を入力することによって得られる各時系列
ベクトルを、線形予測係数符号化手段3の出力する、量
子化された線形予測係数を用いた合成フィルタにてフィ
ルタリングすることにより、仮の合成音を求める。そし
て、得られた仮の合成音に適切なゲインを乗算した信号
と入力音声1との差分をとり、それに基づく両者間の歪
を調べる。
【0109】音源符号化手段20はこの処理を全ての音
源符号に対して行い、最小の歪を与えた音源符号を選択
するとともに、選択された音源符号に対応する時系列ベ
クトルを駆動音源とする。そしてこの駆動音源を、上記
最小の歪および音源符号とともに、最小歪選択手段27
に出力する。
【0110】音源符号化手段21は、過去の所定長の音
源(信号)が適応音源符号帳として記憶されている適応
音源符号化手段と、パルス位置テーブルを含んだ駆動音
源符号帳が記憶されている駆動音源符号化手段とによっ
て構成されている。この音源符号化手段21中の適応音
源符号化手段が持つ適応音源符号帳は、数ビットの2進
数値で示した適応音源符号が入力されると、その適応音
源符号から繰返し周期を算出し、この繰返し周期を用い
て過去の音源を周期的に繰り返した時系列ベクトルを生
成して出力する。また、この音源符号化手段21中の駆
動音源符号化手段が持つ駆動音源符号帳は、数ビットの
2進数値で示した駆動音源符号が入力されると、その駆
動音源符号に対応する位置に格納されている時系列ベク
トルを読み出して出力する。なお、この時系列ベクトル
は複数本のパルスによる非雑音的な音源を生成し、その
駆動音源符号帳はパルス位置テーブル等により非雑音的
な音源符号語が格納されていると見なせる。
【0111】音源符号化手段21の適応音源符号化手段
はその適応音源符号帳に適応音源符号を入力することに
よって得られる各時系列ベクトルを、線形予測係数符号
化手段3の出力する、量子化された線形予測係数を用い
た合成フィルタにてフィルタリングすることにより、仮
の合成音を求める。そして、得られた仮の合成音に適切
なゲインを乗算した信号と入力音声1との差分をとり、
それに基づく両者間の歪を調べる。音源符号化手段21
の適応音源符号化手段はこの処理を全ての音源符号に対
して行い、最小の歪を与えた適応音源符号を選択すると
ともに、選択された適応音源符号に対応する時系列ベク
トルを適応音源として出力する。また、入力音声1と適
応音源による合成音に適切なゲインを乗算した信号との
差分を計算し、それを符号化対象信号として出力する。
【0112】また、音源符号化手段21の駆動音源符号
化手段はその駆動音源符号帳に駆動音源符号を入力する
ことによって得られる各時系列ベクトルを、上記音源符
号化手段21の適応音源符号化手段で選択された適応音
源符号に対応する繰返し周期を用いてピッチ周期化し、
さらに線形予測係数符号化手段3の出力する、量子化さ
れた線形予測係数を用いた合成フィルタにてフィルタリ
ングすることにより、仮の合成音を求める。そして、得
られた仮の合成音に適切なゲインを乗算した信号と、適
応音源符号化手段から入力された符号化対象信号との差
分をとり、それに基づく両者間の歪を調べる。音源符号
化手段21の駆動音源符号化手段はこの処理を全ての駆
動音源符号に対して行い、最小の歪を与えた駆動音源符
号を選択して、選択された駆動音源符号に対応する時系
列ベクトルを駆動音源とし、その駆動音源を上記最小の
歪および駆動音源符号とともに出力する。
【0113】音源符号化手段21は最後に、その適応音
源符号と駆動音源符号との多重化を行い、得られた結果
を音源符号として、上記適応音源、駆動音源とともに最
小歪選択手段27に出力する。
【0114】パワー計算手段22は受け取った入力音声
1のフレーム内の信号パワーを計算し、得られた信号パ
ワーを閾値計算手段23に出力する。閾値計算手段23
はこのパワー計算手段22から入力された信号パワー
に、あらかじめ用意されている歪率に関する定数を乗算
し、その計算結果を歪に関する閾値として比較手段25
と変換手段26に出力する。判定手段24は受け取った
入力音声1の分析を行って音声態様を判定する。その結
果、音声の立ち上がり部分である場合には“0”を、そ
れ以外の場合には“1”を、それぞれ判定結果として出
力する。
【0115】比較手段25は音源符号化手段19から入
力された歪と、閾値計算手段23から入力された歪に関
する閾値との比較を行い、その比較結果として、歪の方
が大きいときには“1”を、それ以外の場合には“0”
をそれぞれ出力する。変換手段26は判定手段24から
出力された判定結果と比較手段25から出力された比較
結果とを受け、その両方が“1”であった場合には、音
源符号化手段19から出力された歪を、閾値計算手段2
3から入力された閾値の値に置換する。なお、この変換
手段26は判定手段24の判定結果、あるいは比較手段
25の比較結果のいずれか一方でも“0”であった場合
には、上記置換の処理は行わない。この変換手段26に
よる置換処理結果は最小歪選択手段27に出力される。
【0116】最小歪選択手段27はこの変換手段26か
ら入力された歪と、音源符号化手段20から入力された
歪と、音源符号化手段21から入力された歪との比較を
行って、それらの中より最小の歪を選択する。ここで、
変換手段26から入力された歪を選択した場合には、ゲ
イン符号化手段6に、適応音源としての全要素がゼロの
値を持つ信号と、変換手段26から入力された駆動音源
とを出力し、多重化手段7に変換手段26から入力され
た音源符号を出力する。また、音源符号化手段20から
入力された歪を選択した場合には、ゲイン符号化手段6
に適応音源としての全要素がゼロの値を持つ信号と、音
源符号化手段20から入力された駆動音源とを出力し、
多重化手段7に音源符号化手段20から入力された音源
符号を出力する。また、音源符号化手段21から入力さ
れた歪を選択した場合には、ゲイン符号化手段6に音源
符号化手段21から入力された適応音源と駆動音源を、
多重化手段7に音源符号化手段21から入力された音源
符号を出力する。さらに、これら3つの歪の内のどれを
選択したかを示す情報をモード選択情報として多重化手
段7に出力する。
【0117】ゲイン符号化手段6には、適応音源と駆動
音源に対する2つのゲイン値を表す複数のゲインベクト
ルがゲイン符号帳として記憶されている。このゲイン符
号帳は、数ビットの2進数値で示したゲイン符号が入力
されると、そのゲイン符号に対応する位置に格納されて
いるゲインベクトルを読み出して出力する。ゲイン符号
化手段6はこのゲイン符号帳に各ゲイン符号を入力する
ことによってゲインベクトルを求め、その第一要素を音
源符号化部18の出力する適応音源に乗算するととも
に、第二要素を音源符号化部18の出力する駆動音源に
乗算して、得られた2つの信号を加算することにより仮
の音源を生成する。そしてこの仮の音源を線形予測係数
符号化手段3の出力する、量子化された線形予測係数を
用いた合成フィルタにてフィルタリングすることによ
り、仮の合成音を求める。そして、得られた仮の合成音
と入力音声1との差分をとり、それに基づく両者間の歪
を調べる。
【0118】ゲイン符号化手段6はこの処理を全てのゲ
イン符号に対して行い、最小の歪を与えたゲイン符号を
選択する。そして、この選択されたゲイン符号を多重化
手段7に出力し、またこの選択されたゲイン符号に対応
する仮の音源を、最終的な音源として音源符号化手段2
1内の適応音源符号化手段に出力する。
【0119】音源符号化手段21内の適応音源符号化手
段は、このゲイン符号化手段6より出力された最終的な
音源を受け取ると、内部に記憶している適応音源符号帳
をその最終的な音源に基づいて更新する。
【0120】その後、多重化手段7は、線形予測係数符
号化手段3から出力された線形予測係数の符号、音源符
号化部18から出力された音源符号とモード選択情報、
およびゲイン符号化手段6から出力されたゲイン符号を
多重化し、得られた音声符号8を出力する。
【0121】なお、この発明の実施の形態2として、適
応音源符号化手段も含めた上位の音源符号化手段を複数
備えて、その中の1つを選択する、図2に示したものに
ついて説明したが、音声符号化装置が複数の駆動音源符
号化手段を備えてその中の1つを選択するように構成し
た、上記実施の形態1の音声符号化装置と同様の様々な
変形が可能である。
【0122】以上のように、この実施の形態2によれ
ば、適応音源符号化手段を含む上位の音源符号化手段を
複数備え、その中の1つを選択するようにしているの
で、その音源符号化手段の選択においても、上記実施の
形態1の場合と同様の効果が得られる。
【0123】実施の形態3.図3はこの発明の実施の形
態3による音声符号化方法を適用した音声符号化装置の
構成を示すブロック図であり、図中、図1の各部分と同
等の部分については同一番号を付してその説明を省略す
る。図において、28は入力音声1と、線形予測係数符
号化手段3からの信号および適応音源符号化手段4から
の信号をもとに、駆動音源と駆動音源符号、およびモー
ド選択情報を出力する駆動音源符号化部である。
【0124】また、29はパワー計算手段12からの信
号より、歪に関する第一の閾値、および第二の閾値を計
算する閾値計算手段である。30は駆動音源符号化手段
10からの信号と第一の閾値とを比較する比較手段であ
り、31はこの比較手段30と判定手段14の判定結果
に基づいて、駆動音源符号化手段10の出力を補正する
変換手段としての補正手段である。32は駆動音源符号
化手段11からの信号と第二の閾値とを比較する比較手
段であり、33はこの比較手段32と判定手段14の判
定結果に基づいて、駆動音源符号化手段11の出力を補
正する変換手段としての補正手段である。なお、上記駆
動音源符号化部28は、閾値計算手段29、比較手段3
0,32、補正手段31,33と、駆動音源符号化手段
9,10,11、パワー計算手段12、判定手段14、
および最小歪選択手段17とによって構成されている。
【0125】次に動作について説明する。なお、ここで
は、上記実施の形態1とは異なる部分を中心に、図3に
基づいて説明する。この場合も、線形予測係数符号化手
段3で量子化された線形予測係数と、適応音源符号化手
段4からの符号化対象信号とが、駆動音源符号化部28
内の駆動音源符号化手段9〜11に入力されている。こ
の駆動音源符号化手段9には、乱数によって生成された
複数の時系列ベクトルが駆動音源符号帳として記憶され
ている。駆動音源符号化手段9は実施の形態1の場合と
同様に、その駆動音源符号帳を用いて適応音源符号化手
段4から入力された符号化対象信号を符号化した時の歪
を最小にする駆動音源符号を選択し、その選択された音
源符号に対応する時系列ベクトルを駆動音源として、最
小の歪および駆動音源符号とともに、最小歪選択手段1
7に出力する。
【0126】また駆動音源符号化手段10には、パルス
位置テーブルを含む駆動音源符号帳が記憶されている。
駆動音源符号化手段10はその駆動音源符号帳を用い
て、実施の形態1の場合と同様に、適応音源符号化手段
4から入力された符号化対象信号を符号化した時の歪を
最小にする駆動音源符号を選択し、その選択された音源
符号に対応する時系列ベクトルを駆動音源として、最小
の歪および駆動音源符号とともに、比較手段30と補正
手段31とに出力する。同様に、駆動音源符号化手段1
1には、上記駆動音源符号化手段10のものとは異なる
パルス位置テーブルを含む駆動音源符号帳が記憶されて
いる。駆動音源符号化手段11はその駆動音源符号帳を
用いて、適応音源符号化手段4から入力された符号化対
象信号を符号化した時の歪を最小にする駆動音源符号を
選択し、その選択された音源符号に対応する時系列ベク
トルを駆動音源として、最小の歪および駆動音源符号と
ともに、比較手段32と補正手段33とに出力する。
【0127】なお、この場合も、駆動音源符号化手段9
の駆動音源符号帳には、乱数によって生成された雑音的
な音源符号語が、駆動音源符号化手段10,11の駆動
音源符号帳には、パルス位置テーブル等による非雑音的
な音源符号語がそれぞれ格納されており、また、駆動音
源符号化手段9より出力される時系列ベクトルは、雑音
的な音源を生成し、駆動音源符号化手段10,11より
出力される時系列ベクトルは、非雑音的な音源を生成し
ている。
【0128】一方、閾値計算手段29はパワー計算手段
12によって算出された信号パワーに、あらかじめ用意
された歪率に関する第一の定数を乗算して、歪に関する
第一の閾値を求め、あらかじめ用意された歪率に関する
第二の定数を乗算して、歪に関する第二の閾値を求め
る。得られた歪に関する第一の閾値は比較手段30と補
正手段31に、歪に関する第二の閾値は比較手段32と
補正手段33にそれぞれ出力される。なお、ここであら
かじめ用意される第一および第二の歪率に関する定数に
ついては、符号化歪が大きいときに、駆動音源符号化手
段10と11の中の、復号音の劣化がより大きい方の定
数を小さく設定しておく。この歪率に関する定数が小さ
い程、小さい符号化歪において先に、後述する比較手段
30,32での比較結果が“1”となる。
【0129】判定手段14は実施の形態1の場合と同様
に、入力音声1を分析して音声態様を判定する。判定の
結果、音声の立ち上がり部分である場合には“0”を、
それ以外の場合に“1”を出力する。
【0130】比較手段30は、駆動音源符号化手段10
から入力された歪と、閾値計算手段29から入力された
第一の閾値との比較を行い、歪の方が大きい場合には比
較結果として“1”を、それ以外の場合には比較結果と
して“0”を出力する。補正手段31は、判定手段14
から出力された判定結果と、比較手段30から出力され
た比較結果の両方が“1”である場合に、駆動音源符号
化手段10から出力された結果中の歪を閾値計算手段2
9から入力された第一の閾値を用いて補正し、補正後の
値を新たに歪として最小歪選択手段17に出力する。な
お、それ以外の場合には上記補正は行わず、駆動音源符
号化手段10から出力された歪をそのまま最小歪選択手
段17に出力する。この補正手段31による補正につい
ては、歪をD、閾値をDthとすれば、例えば次の(6)
式を用いて行うことができる。 D' = D+α( D−Dth ) ・・・(6) ここで、D'は補正後の歪、αは正の定数である。
【0131】なお、補正手段31による補正は、指数関
数を適用するなど、(6)式よりも複雑な補正を適用す
ることも当然可能であるし、非常に大きい固定値に補正
してしまうことも可能である。非常に大きい固定値に補
正した場合には、最小歪選択手段17において基本的に
駆動音源符号化手段10が選択されなくなる。
【0132】また、比較手段32は、駆動音源符号化手
段11から入力された歪と、閾値計算手段29から入力
された第二の閾値を比較し、歪の方が大きい場合には比
較結果として“1”を、それ以外の場合には比較結果と
して“0”を出力する。補正手段33は、判定手段14
から出力された判定結果と、比較手段32から出力され
た比較結果の両方が“1”である場合に、駆動音源符号
化手段11から出力された結果中の歪を、閾値計算手段
29から入力された閾値を用いて補正し、補正後の値を
新たに歪として最小歪選択手段17に出力する。それ以
外の場合には補正を行わず、駆動音源符号化手段10か
らの歪をそのまま最小歪選択手段17に出力する。な
お、この補正については、補正手段31の場合と同様に
行うことができる。
【0133】最小歪選択手段17は、駆動音源符号化手
段9、補正手段31、および補正手段33から入力され
た各歪の比較を行い、それらの中の最小の歪を選択す
る。その結果、駆動音源符号化手段9から入力された歪
を選択した場合には、駆動音源符号化手段9から入力さ
れた駆動音源をゲイン符号化手段6に、駆動音源符号を
多重化手段7にそれぞれ出力する。また補正手段31か
ら入力された歪を選択した場合には、補正手段31を介
して駆動音源符号化手段10から入力された駆動音源を
ゲイン符号化手段6に、駆動音源符号を多重化手段7に
それぞれ出力する。同様に、補正手段33から入力され
た歪を選択した場合には、補正手段33を介して駆動音
源符号化手段11から入力された駆動音源をゲイン符号
化手段6に、駆動音源符号を多重化手段7にそれぞれ出
力する。さらに、これら3つの歪の内のどれを選択した
かを示す情報を、モード選択情報として多重化手段7に
出力する。
【0134】次に、この実施の形態3により得られた音
声符号8を音声復号化装置で復号化して得られる復号音
の主観的な品質(音質)が改善されることを、図7を参
照しながら説明する。図7は符号化歪を最小にする音源
モードの選択について説明するための各波形を示すイメ
ージ図で、図7(a)は入力音声、同図(b)は雑音的
な音声を表現するために用意した音源モードを選択した
ときの復号音、同図(c)は母音的な音声を表現するた
めに用意した音源モードを選択したときの復号音をそれ
ぞれ示している。入力音声1が図7(a)に示すように
雑音的である場合には、一般にモデル化がうまく働かな
いので、同図(b)に示した雑音的な音声を表現するた
めに用意した音源モードの場合でも、同図(c)に示し
た母音的な音声を表現するために用意した音源モードの
場合でも、符号化時の歪率は比較的大きな値となる。
【0135】ここで、駆動音源符号化手段9は乱数によ
って生成された時系列ベクトルを使用しており、図7
(b)に示す雑音的な音声を表現するために用意した音
源モードに対応する。また駆動音源符号化手段10およ
び11はパルス音源とピッチ周期化を使用しており、図
7(c)に示す母音的な音声を表現するために用意した
音源モードに対応する。
【0136】各駆動音源符号化手段9〜11より出力さ
れた歪Dは何れも大きな値となっているが、駆動音源符
号化手段10および11から出力された歪Dは、補正手
段31あるいは33によって、歪Dよりも大きい値に補
正される。その結果、駆動音源符号化手段9が出力した
駆動音源符号が、最小歪選択手段17によって選択さ
れ、復号音は図7(b)に示すものとなる。このよう
に、図7(b)の歪の方が同図(c)の歪より大きくて
も、雑音的な区間などの符号化時の歪率が大きくなる区
間では、安定的に図7(b)に示す復号音が選択され
る。
【0137】なお、この実施の形態3では、各駆動音源
符号化手段9〜11が、(1)式に示した歪Dを最小化
する駆動音源符号を探索し、最小の歪Dを出力するよう
にするものについて説明したが、実施の形態1の場合と
同様に、(3)式に示した評価値dを最大化する駆動音
源符号を探索し、歪Dの代わりに評価値dを出力する構
成とすることも可能である。
【0138】また、この実施の形態3では、閾値計算手
段29が2つの固定閾値をそのまま出力し、各駆動音源
符号化手段9〜11が出力する歪を入力音声1の信号パ
ワーで除算した値、つまり歪率として出力するように変
形することも可能であるし、パワー計算手段12が適応
音源符号化手段4の出力する符号化対象信号の信号パワ
ーを計算するように変更することも、信号パワーの代わ
りに、振幅や、対数パワーなどを計算するように変更す
ることも可能である。
【0139】また、この実施の形態3では、雑音的な音
源を生成する駆動音源符号化手段として駆動音源符号化
手段9を1つ、また非雑音的な音源を生成する駆動音源
符号化手段として駆動音源符号化手段10,11の2つ
を備える構成としたが、前者を2つ以上としてもかまわ
ないし、後者を1つまたは3つ以上としてもかまわない
ことはいうまでもない。
【0140】また、この実施の形態3では、単純に信号
間の2乗距離を歪としているが、音声符号化装置で多く
使用されている聴覚重み付け歪とするようにしても当然
かまわない。
【0141】以上のように、この実施の形態3によれ
ば、実施の形態1の場合と同様に、符号化歪が大きい場
合、あるいは符号化時の歪率が所定以上である場合で
も、復号音の品質劣化が少ない音源モードを選択するこ
とが可能となり、また符号化歪が大きくても復号音の品
質劣化を起こしにくい入力音声に対しては、従来の場合
と同様の音源モード選択が行われて一層丁寧な音源モー
ド選択が可能となり、また符号化歪が大きくなりがちな
区間とそれ以外の区間で符号化歪に基づく音源モード選
択の制御を変えることができて、音声の立ち上がりでの
劣化がなく、それ以外での音源モード選択を改善するこ
とが可能となり、さらに符号化歪が大きい場合に、雑音
的な音源を生成する音源モード、もしくは雑音的な音源
符号語を使用する音源モードが選択しやすくなって、非
雑音的な音源を生成する音源モード、あるいは非雑音的
な音源符号語を使用する音源モードを選択して劣化する
ことを回避することが可能となるなどのため、よりよい
音質を与える音源モードを適切に選択でき、得られた音
声符号を復号化した復号音の主観的な品質(音質)を改
善することができるという効果が得られる。
【0142】さらに、この実施の形態3によれば、符号
化歪が閾値を上回る比較結果が得られている音源モード
の選択を抑制するようにしたので、符号化歪が大きい場
合に復号音の品質劣化が少ない音源モードを選択しやす
くすることが可能となり、よりよい音質を与える音源モ
ードを適切に選択できるため、得られた音声符号を復号
化した復号音の主観的な品質(音質)を改善することが
できるという効果が得られる。
【0143】さらに、この実施の形態3によれば、音源
モード毎に閾値を用意したので、各音源モード毎に復号
音品質の劣化を引き起こすことを検知する閾値を適切に
調整することで、よりよい音質を与える音源モードを適
切に選択でき、得られた音声符号を復号化して得られる
復号音の主観的な品質(音質)を改善することができる
という効果が得られる。
【0144】実施の形態4.図4はこの発明の実施の形
態4による音声符号化方法を適用した音声符号化装置の
構成を示すブロック図であり、図中、図1の各部分と同
等の部分については同一番号を付してその説明を省略す
る。図において、34は入力音声1と、線形予測係数符
号化手段3からの信号および適応音源符号化手段4から
の信号をもとに、駆動音源と駆動音源符号、およびモー
ド選択情報を出力する駆動音源符号化部である。
【0145】また、35は駆動音源符号化手段9〜11
からの信号に基づいて最小の歪と、この最小の歪に対応
する駆動音源と、駆動音源符号と、モード選択情報を出
力する、選択手段としての最小歪選択手段である。36
はこの最小歪選択手段35からの信号と閾値計算手段1
3からの閾値とを比較する比較手段であり、37はこの
比較手段36と判定手段14の判定結果に基づいて最小
歪選択手段35からの信号を駆動音源符号化手段9の出
力で置換する置換手段である。なお、上記駆動音源符号
化部34は、最小歪選択手段35、比較手段36、置換
手段37と、駆動音源符号化手段9,10,11、パワ
ー計算手段12、閾値計算手段13、および判定手段1
4とによって構成されている。
【0146】次に動作について説明する。なお、ここで
は、上記実施の形態1とは異なる部分を中心に、図4に
基づいて説明する。この場合も、線形予測係数符号化手
段3で量子化された線形予測係数と、適応音源符号化手
段4からの符号化対象信号とが、駆動音源符号化部34
内の駆動音源符号化手段9〜11に入力されている。こ
の駆動音源符号化手段9には、乱数によって生成された
複数の時系列ベクトルが駆動音源符号帳として記憶され
ている。駆動音源符号化手段9は実施の形態1の場合と
同様に、その駆動音源符号帳を用いて適応音源符号化手
段4から入力された符号化対象信号を符号化した時の歪
を最小にする駆動音源符号を選択し、その選択された音
源符号に対応する時系列ベクトルを駆動音源として、最
小の歪および駆動音源符号とともに、最小歪選択手段3
5と置換手段37とに出力する。
【0147】また駆動音源符号化手段10には、パルス
位置テーブルを含む駆動音源符号帳が記憶されている。
駆動音源符号化手段10はその駆動音源符号帳を用い
て、適応音源符号化手段4から入力された符号化対象信
号を符号化した時の歪を最小にする駆動音源符号を選択
し、その選択された音源符号に対応する時系列ベクトル
を駆動音源として、最小の歪および駆動音源符号ととも
に、最小歪選択手段35に出力する。同様に、駆動音源
符号化手段11には、上記駆動音源符号化手段10のも
のとは異なるパルス位置テーブルを含む駆動音源符号帳
が記憶されている。駆動音源符号化手段10,11はそ
れらの駆動音源符号帳を用いて、適応音源符号化手段4
から入力された符号化対象信号を符号化した時の歪を最
小にする駆動音源符号を選択し、その選択された音源符
号に対応する時系列ベクトルを駆動音源として、最小の
歪および駆動音源符号とともに、最小歪選択手段35に
出力する。
【0148】なお、この場合も、駆動音源符号化手段9
の駆動音源符号帳には、乱数によって生成された雑音的
な音源符号語が、駆動音源符号化手段10,11の駆動
音源符号帳には、パルス位置テーブル等による非雑音的
な音源符号語がそれぞれ格納されており、また、駆動音
源符号化手段9より出力される時系列ベクトルは、雑音
的な音源を生成し、駆動音源符号化手段10,11より
出力される時系列ベクトルは、非雑音的な音源を生成し
ている。
【0149】最小歪選択手段35はこれら各駆動音源符
号化手段9〜11より入力された各歪の比較を行い、そ
れらの中の最小の歪を選択して、その最小の歪を比較手
段36に出力する。また、駆動音源符号化手段9〜11
中の、この最小の歪に対応するものから入力された駆動
音源と駆動音源符号を置換手段37に出力し、さらにこ
れら3つの歪の内のどれを選択したかを示す情報を、モ
ード選択情報として置換手段37に出力する。また、判
定手段14は入力音声1を分析して音声態様の判定を行
い、音声の立ち上がりの場合には“0”を、それ以外の
場合には“1”を、判定結果として置換手段37に出力
する。
【0150】一方、比較手段36には上記最小歪選択手
段35で選択された歪とともに、閾値計算手段13にて
パワー計算手段12からの信号パワーに基づいて計され
た歪に関する閾値が入力されている。また、比較手段3
6は最小歪選択手段35から入力された歪と、閾値計算
手段13から入力された閾値とを比較して、歪の方が大
きい場合には“1”を、それ以外の場合には“0”を、
比較結果として置換手段37に出力する。
【0151】置換手段37は、この判定手段14から出
力された判定結果と比較手段36から出力された比較結
果とを受け、その両方が“1”であった場合には、最小
歪選択手段35から出力された駆動音源と駆動音源符号
を、駆動音源符号化手段9から出力された駆動音源と駆
動音源符号に置換する。なお、それ以外の場合には上記
置換を行わない。この置換手段37による置換処理結果
である最終的な駆動音源がゲイン符号化手段6に、駆動
音源符号が多重化手段7に出力される。
【0152】次に、この実施の形態4により得られた音
声符号8を音声復号化装置で復号化して得られる復号音
の主観的な品質(音質)が改善されることを、図7を参
照しながら説明する。図7は符号化歪を最小にする音源
モードの選択について説明するための各波形を示すイメ
ージ図で、図7(a)は入力音声、同図(b)は雑音的
な音声を表現するために用意した音源モードを選択した
ときの復号音、同図(c)は母音的な音声を表現するた
めに用意した音源モードを選択したときの復号音をそれ
ぞれ示している。入力音声1が図7(a)に示すように
雑音的である場合には、一般にモデル化がうまく働かな
いので、同図(b)に示した雑音的な音声を表現するた
めに用意した音源モードの場合でも、同図(c)に示し
た母音的な音声を表現するために用意した音源モードの
場合でも、符号化時の歪率は比較的大きな値となる。
【0153】ここで、駆動音源符号化手段9は乱数によ
って生成された時系列ベクトルを使用しており、図7
(b)に示す雑音的な音声を表現するために用意した音
源モードに対応する。また駆動音源符号化手段10およ
び11はパルス音源とピッチ周期化を使用しており、図
7(c)に示す母音的な音声を表現するために用意した
音源モードに対応する。
【0154】各駆動音源符号化手段9〜11より出力さ
れた歪Dは何れも大きな値となっているが、最小歪選択
手段35では、振幅の大きい部分での符号化歪が少ない
ために歪Dが小さくなることの多い、駆動音源符号化手
段10または11から出力された歪が選択される。それ
でも選択された最小の歪Dの値は閾値計算手段13から
の閾値Dthよりは大きいため、最小歪選択手段35より
出力された駆動音源符号化手段10または11の駆動音
源符号は、置換手段37にて駆動音源符号化手段9より
出力された駆動音源符号に置換されて、復号音は図7
(b)に示すものとなる。このように、図7(b)の歪
の方が同図(c)の歪より大きくても、雑音的な区間な
どの符号化時の歪率が大きくなる区間では、図7(b)
に示す復号音が安定的に選択される。
【0155】なお、この実施の形態4においても、実施
の形態1と同様に、各駆動音源符号化手段9〜11が、
(3)式に示した評価値dを最大化する駆動音源符号を
探索し、歪Dの代わりに評価値dを出力する構成とする
ことも可能である。この場合、最小歪選択手段35では
最大の評価値を選択し、比較手段36では大小関係と出
力結果の関係が逆になる。また閾値計算手段13でも評
価値dに対応した閾値dthを計算する必要がある。
【0156】また、この実施の形態4では、閾値計算手
段13が固定の閾値をそのまま出力し、各駆動音源符号
化手段9〜11が出力する歪を入力音声1の信号パワー
で除算した値、つまり歪率として出力するように変形す
ることも可能であるし、パワー計算手段12が適応音源
符号化手段4の出力する符号化対象信号の信号パワーを
計算するように変更することも、信号パワーの代わり
に、振幅や、対数パワーなどを計算するように変更する
ことも可能である。
【0157】また、この実施の形態4では、雑音的な音
源を生成する駆動音源符号化手段として駆動音源符号化
手段9を1つ、また非雑音的な音源を生成する駆動音源
符号化手段として駆動音源符号化手段10,11の2つ
を備える構成としたが、前者を2つ以上としてもかまわ
ないし、後者を1つまたは3つ以上としてもかまわない
ことはいうまでもない。
【0158】また、この実施の形態4では、単純に信号
間の2乗距離を歪としているが、音声符号化装置で多く
使用されている聴覚重み付け歪とするようにしても当然
かまわない。
【0159】以上のように、この実施の形態4によれ
ば、複数の音源モードの中から1つを選択し、この音源
モードを使用して入力音声1をフレームと呼ばれる所定
長の区間毎に符号化する際に、各音源モード毎に入力音
声から求まる符号化対象信号の符号化を行ってそれらの
中の1つを選択し、それと、その時の符号化歪と固定の
閾値、あるいは符号化対象信号の信号パワーに基づいて
決定した閾値との比較を行い、その比較結果に基づいて
符号化歪の出力変換を行うようにしたので、符号化歪が
大きい場合でも復号音の品質劣化が少ない音源モードを
選択することが可能となるため、よりよい音質を与える
音源モードの選択が適切に行え、得られた音声符号を音
声復号化装置で復号化した復号音の主観的な品質を改善
することができるという効果が得られる。
【0160】さらに、この実施の形態4によれば、実施
の形態1の場合と同様に、符号化時の歪率が所定以上で
ある場合でも、復号音の品質劣化が少ない音源モードを
選択することが可能となり、また符号化歪が大きくても
復号音の品質劣化を起こしにくい入力音声に対しては、
従来の場合と同様の音源モード選択が行われて一層丁寧
な音源モード選択が可能となり、また符号化歪が大きく
なりがちな区間とそれ以外の区間で符号化歪に基づく音
源モード選択の制御を変えることができて、音声の立ち
上がりでの劣化がなく、それ以外での音源モード選択を
改善することが可能となり、さらに符号化歪が大きい場
合に、雑音的な音源を生成する音源モード、もしくは雑
音的な音源符号語を使用する音源モードが選択しやすく
なって、非雑音的な音源を生成する音源モード、あるい
は非雑音的な音源符号語を使用する音源モードを選択し
て劣化することを回避することが可能となるなどのた
め、よりよい音質を与える音源モードを適切に選択で
き、得られた音声符号を復号化した復号音の主観的な品
質を改善することができるという効果が得られる。
【0161】さらに、この実施の形態4によれば、符号
化歪の中で最小のものを選択し、選択した符号化歪と閾
値の比較を行い、その比較結果に基づいて、音源モード
の選択を行うようにしたので、符号化歪が大きい場合に
復号音の品質劣化が少ない音源モードを強制的に選択す
ることが可能となって、よりよい音質を与える音源モー
ドを適切に選択でき、得られた音声符号を復号化して得
られる復号音の主観的な品質を改善することができると
いう効果が得られる。
【0162】さらに、この実施の形態4によれば、符号
化歪の中で最小のものを選択し、選択した符号化歪が閾
値を上回る場合には、あらかじめ定めた音源モードを選
択するようにしたので、符号化歪が大きい場合に復号音
の品質劣化が少ない音源モードを強制的に選択すること
が可能となって、よりよい音質を与える音源モードを適
切に選択でき、得られた音声符号を復号化して得られる
復号音の主観的な品質を改善することができる効果が得
られる。
【0163】実施の形態5.図5はこの発明の実施の形
態5による音声符号化方法を適用した音声符号化装置の
構成を示すブロック図であり、図中、図1の各部分と同
等の部分については同一番号を付してその説明を省略す
る。図において、38は入力音声1と、線形予測係数符
号化手段3からの信号および適応音源符号化手段4から
の信号をもとに、駆動音源と駆動音源符号、およびモー
ド選択情報を出力する駆動音源符号化部である。
【0164】また、39は入力音声1を分析し、音声の
立ち上がり部分であるか否かの判定を行う判定手段であ
るが、判定結果を変換手段ではなく閾値計算手段に出力
している点で、図1に符号14を付したものとは異なっ
ている。40はこの判定手段39の判定結果とパワー計
算手段12からの信号パワーをもとに閾値を算出する閾
値計算手段である。41は判定手段39の判定結果と比
較手段15の比較結果に基づいて駆動音源符号化手段9
の出力変換を行う変換手段である。なお、上記駆動音源
符号化部38は、判定手段39、閾値計算手段40、変
換手段41と、駆動音源符号化手段9〜11、パワー計
算手段12、比較手段15、および最小歪選択手段17
とによって構成されている。
【0165】次に動作について説明する。なお、ここで
は、上記実施の形態1とは異なる部分を中心に、図5に
基づいて説明する。この場合も、線形予測係数符号化手
段3で量子化された線形予測係数と、適応音源符号化手
段4からの符号化対象信号とが、駆動音源符号化部38
内の駆動音源符号化手段9〜11に入力されており、駆
動音源符号化手段9は、乱数によって生成された複数の
時系列ベクトルが格納された駆動音源符号帳を用いて、
符号化対象信号を符号化した時の歪を最小にする駆動音
源符号を選択し、その選択された音源符号に対応する時
系列ベクトルを駆動音源として、最小の歪および駆動音
源符号とともに、変換手段41と比較手段15とに出力
する。また、駆動音源符号化手段10および11は、互
いに異なったパルス位置テーブルを含む駆動音源符号帳
を用いて、符号化対象信号を符号化した時の歪を最小に
する駆動音源符号を選択し、その選択された音源符号に
対応する時系列ベクトルを駆動音源として、最小の歪お
よび駆動音源符号とともに、最小歪選択手段17に出力
する。
【0166】なお、この場合も、駆動音源符号化手段9
の駆動音源符号帳には、乱数によって生成された雑音的
な音源符号語が、駆動音源符号化手段10,11の駆動
音源符号帳には、パルス位置テーブル等による非雑音的
な音源符号語がそれぞれ格納されており、また、駆動音
源符号化手段9より出力される時系列ベクトルは、雑音
的な音源を生成し、駆動音源符号化手段10,11より
出力される時系列ベクトルは、非雑音的な音源を生成し
ている。
【0167】一方、パワー計算手段12は入力音声1の
フレーム内の信号パワーを計算して閾値計算手段40に
出力する。また、判定手段39は入力音声1を分析して
音声態様の判定を行い、判定の結果、音声の立ち上がり
部分であった場合には“0”を、それ以外の場合には
“1”を、それぞれ閾値計算手段40に出力する。
【0168】閾値計算手段40は、判定手段39の判定
結果が“0”であった場合には、あらかじめ用意されて
いた歪率に関する第一の定数をパワー計算手段12から
の信号パワーに乗算し、判定手段39の判定結果が
“1”であった場合には、あらかじめ用意した歪率に関
する第二の定数をパワー計算手段12から入力された信
号パワーに乗算する。この乗算によって得られた結果を
歪に関する閾値として、それぞれ比較手段15と変換手
段41に出力する。なお、上記第一の定数は第二の定数
に比べて大きく設定しておく。例えば、第一の定数を
0.9、第二の定数を0.7に設定する。
【0169】比較手段15は、駆動音源符号化手段9か
ら入力された歪と、閾値計算手段40から入力された閾
値との比較を行い、歪の方が大きい場合時には“1”
を、それ以外の場合には“0”を比較結果として変換手
段41に出力する。変換手段41は、この比較手段15
から出力された比較結果が“1”である場合には、駆動
音源符号化手段9から出力された結果中の歪を、閾値計
算手段40から入力された閾値の値に置換して最小歪選
択手段17に出力する。また、それ以外の場合には、上
記置換を行わず、駆動音源符号化手段9から出力された
結果中の歪をそのまま、最小歪選択手段17に出力す
る。
【0170】最小歪選択手段17は、変換手段41から
入力された歪と、駆動音源符号化手段10および11か
ら入力された歪との比較を行って、それらの中で最小の
歪を選択する。そしてこの選択された最小の歪を出力し
た、変換手段41または駆動音源符号化手段10または
駆動音源符号化手段11からの駆動音源をゲイン符号化
手段6に、駆動音源符号を多重化手段7にそれぞれ出力
する。さらに、これら3つの歪の内のどれを選択したか
を示す情報を、モード選択情報として多重化手段7に出
力する。
【0171】次に、この実施の形態3により得られた音
声符号8を音声復号化装置で復号化して得られる復号音
の主観的な品質(音質)が最適の選択となることを、図
7を参照しながら説明する。図7は符号化歪を最小にす
る音源モードの選択について説明するための各波形を示
すイメージ図であり、入力音声1が図7(a)に示すよ
うに雑音的である場合には、一般にモデル化がうまく働
かないので、同図(b)に示した雑音的な音声を表現す
るために用意した音源モードの場合でも、同図(c)に
示した母音的な音声を表現するために用意した音源モー
ドの場合でも、符号化時の歪率は比較的大きな値とな
る。
【0172】ここで、駆動音源符号化手段9は乱数によ
って生成された時系列ベクトルを使用しており、図7
(b)に示す雑音的な音声を表現するために用意した音
源モードに対応する。また駆動音源符号化手段10およ
び11はパルス音源とピッチ周期化を使用しており、図
7(c)に示す母音的な音声を表現するために用意した
音源モードに対応する。
【0173】判定手段39が音声の立ち上がりであると
判定して、判定結果“0”を出力した場合には、閾値計
算手段40では比較的大きな閾値を算出する。このた
め、駆動音源符号化手段9から出力された歪Dは大きい
値ではあるが、それでも閾値を上回るには至らず、変換
手段41での置換処理は行われない。その結果、最小歪
選択手段17において、振幅の大きい部分での符号化歪
が少ないために歪Dが小さくなることが多い駆動音源符
号化手段10または11が選択されて、復号音は図7
(c)に示すものとなる。
【0174】判定手段39が音声の立ち上がり以外であ
ると判定して、判定結果“1”を出力した場合には、閾
値計算手段40では比較的小さな閾値を算出する。この
ため、駆動音源符号化手段9から出力された歪Dが閾値
を上回り、変換手段41での歪Dよりも小さい閾値Dth
に置換される。その結果、最小歪選択手段17におい
て、駆動音源符号化手段9が出力した駆動音源符号が選
択されて、復号音は図7(b)に示すものとなる。この
ように、図7(b)の歪の方が同図(c)の歪より大き
くても、音声の立ち上がり以外で、雑音的な区間など符
号化時の歪率が大きくなる区間では、図7(b)に示す
復号音が安定的に選択される。
【0175】なお、音声の立ち上がりでも比較的小さな
閾値を用いて復号音が図7(b)に示すものとなるよう
にしてしまうと、破裂音のパルス的な特徴がつぶれてし
まったり、母音の立ち上がりをザラザラした音質に劣化
させてしまうことになる。この実施の形態5では判定手
段39での判定結果に基づいて閾値を決定することによ
り、立ち上がりでの劣化を回避している。
【0176】なお、この実施の形態5についても、実施
の形態1と同様に、各駆動音源符号化手段9〜11が、
(3)式に示した評価値dを最大化する駆動音源符号を
探索し、歪Dの代わりに評価値dを出力する構成とする
ことも可能である。この場合、最小歪選択手段17では
最大の評価値を選択し、比較手段15では大小関係と出
力結果の関係が逆になる。また閾値計算手段40でも評
価値dに対応した閾値dthを計算する必要がある。
【0177】また、この実施の形態5では、閾値計算手
段40が第一の定数または第二の定数をそのまま閾値と
して出力し、各駆動音源符号化手段9〜11が出力する
歪を入力音声1の信号パワーで除算した値、つまり歪率
として出力するように変形することも可能であるし、パ
ワー計算手段12が適応音源符号化手段4の出力する符
号化対象信号の信号パワーを計算するように変更するこ
とも、信号パワーの代わりに、振幅や、対数パワーなど
を計算するように変更することも可能である。
【0178】また、この実施の形態5では、雑音的な音
源を生成する駆動音源符号化手段として駆動音源符号化
手段9を1つ、また非雑音的な音源を生成する駆動音源
符号化手段として駆動音源符号化手段10,11の2つ
を備える構成としたが、前者を2つ以上としてもかまわ
ないし、後者を1つまたは3つ以上としてもかまわない
ことはいうまでもない。
【0179】また、この実施の形態5では、単純に信号
間の2乗距離を歪としているが、音声符号化装置で多く
使用されている聴覚重み付け歪とするようにしても当然
かまわない。
【0180】また、この実施の形態5では、閾値計算手
段40が判定手段39の判定結果に基づいて、あらかじ
め用意した歪率に関する2つの定数の一方を選択して使
用するようにしているが、判定結果を3つ以上とするこ
とで、対応する定数も3つ以上とし、より細かい制御を
行うようにすることも可能である。さらに、判定手段3
9が入力音声1を分析して連続値の判定パラメータを算
出し、閾値計算手段40がこの判定パラメータに基づい
て、連続値による閾値を計算するようにすることも可能
である。
【0181】以上のように、この実施の形態5によれ
ば、実施の形態1の場合と同様に、符号化歪が大きい場
合、あるいは符号化時の歪率が所定以上である場合で
も、復号音の品質劣化が少ない音源モードを選択するこ
とが可能となり、また符号化歪が大きい場合でも、符号
化歪が置換された音源モードが選択されやすくなり、ま
た符号化歪が大きくなりがちな区間とそれ以外の区間で
符号化歪に基づく音源モード選択の制御を変えることが
できて、音声の立ち上がりでの劣化がなく、それ以外で
の音源モード選択を改善することが可能となり、さらに
符号化歪が大きい場合に、雑音的な音源を生成する音源
モード、もしくは雑音的な音源符号語を使用する音源モ
ードが選択しやすくなって、非雑音的な音源を生成する
音源モード、あるいは非雑音的な音源符号語を使用する
音源モードを選択して劣化することを回避することが可
能となるなどのため、よりよい音質を与える音源モード
を適切に選択でき、得られた音声符号を復号化した復号
音の主観的な品質を改善することができるという効果が
得られる。
【0182】さらに、この実施の形態5によれば、入力
音声1または符号化対象信号の分析を行って音声様態を
判定し、その判定結果に基づいて決定した閾値を用いて
比較を行うようにしたので、音声様態に応じて適切に設
定された閾値を用いて音源モードの選択を行うことが可
能となるため、得られた音声符号を音声復号化装置で復
号化して得られる復号音の主観的な品質を改善すること
ができるという効果が得られる。
【0183】実施の形態6.図6はこの発明の実施の形
態6による音声符号化方法を適用した音声符号化装置の
構成を示すブロック図であり、図中、図1の各部分と同
等の部分については同一番号を付してその説明を省略す
る。図において、42は入力音声1と、線形予測係数符
号化手段3からの信号および適応音源符号化手段4から
の信号をもとに、駆動音源と駆動音源符号、およびモー
ド選択情報を出力する駆動音源符号化部である。
【0184】また、43は乱数によって生成された時系
列ベクトルによる駆動音源符号帳であり、44はこの駆
動音源符号帳43を用いて、線形予測係数符号化手段3
と適応音源符号化手段4からの信号より仮の合成音と符
号化対象信号との歪を調べ、駆動音源を出力する符号化
手段としての駆動音源符号化手段である。45はパルス
位置テーブルを含む駆動音源符号帳であり、46はこの
駆動音源符号帳45を用いて、線形予測係数符号化手段
3と適応音源符号化手段4からの信号より仮の合成音と
符号化対象信号との歪を調べ、駆動音源を出力する符号
化手段としての駆動音源符号化手段である。なお、上記
駆動音源符号化部42は、パワー計算手段12、閾値計
算手段13、判定手段14、比較手段15、変換手段1
6、最小歪選択手段17と、駆動音源符号帳43,4
5、駆動音源符号化手段44,46とによって構成され
ている。
【0185】次に動作について説明する。なお、ここで
は、上記実施の形態1とは異なる部分を中心に、図6に
基づいて説明する。駆動音源符号帳43には乱数によっ
て生成された複数の時系列ベクトルが記憶されている。
この駆動音源符号帳43は数ビットの2進数値で示した
駆動音源符号が入力されると、その駆動音源符号に対応
する位置に格納してある時系列ベクトルを読み出して出
力する。駆動音源符号化手段44はこの駆動音源符号帳
43に各駆動音源符号を入力することによって得られる
時系列ベクトルを、線形予測係数符号化手段3の出力す
る、量子化された線形予測係数を用いた合成フィルタに
てフィルタリングすることにより、仮の合成音を求め
る。そして、得られた仮の合成音に適切なゲインを乗算
した信号と、適応音源符号化手段4から入力された符号
化対象信号との差分をとり、それに基づく両者間の歪を
調べる。
【0186】駆動音源符号化手段44はこの処理を全て
の音源符号に対して行い、最小の歪を与えた音源符号を
選択し、その選択された音源符号に対応する時系列ベク
トルを駆動音源として、上記最小の歪および音源符号と
ともに、比較手段15と変換手段16とに出力する。
【0187】また、駆動音源符号帳45にはパルス位置
テーブルを含む符号帳が記憶されている。この駆動音源
符号帳45は数ビットの2進数値で示した駆動音源符号
が入力されると、その駆動音源符号を複数のパルス位置
符号と極性に分離し、パルス位置テーブル中の各パルス
位置符号に対応する位置に格納してあるパルス位置を読
み出して、このパルス位置と極性に従って複数本のパル
スを持った時系列ベクトルを生成する。駆動音源符号帳
45はさらに、その生成された時系列ベクトルを、適応
音源符号化手段4で選択された適応音源符号に対応する
繰返し周期を用いてピッチ周期化し、駆動音源符号化手
段46に出力する。
【0188】駆動音源符号化手段46は駆動音源符号帳
45に各駆動音源符号を入力することによって得られる
各時系列ベクトルを、線形予測係数符号化手段3の出力
する、量子化された線形予測係数を用いた合成フィルタ
にてフィルタリングすることにより、仮の合成音を求め
る。そして、得られた仮の合成音に適切なゲインを乗算
した信号と、適応音源符号化手段4から入力された符号
化対象信号との差分をとり、それに基づく両者間の歪を
調べる。駆動音源符号化手段46はこの処理を全ての音
源符号に対して行い、最小の歪を与えた音源符号を選択
し、その選択された音源符号に対応する時系列ベクトル
を駆動音源として、上記最小の歪および音源符号ととも
に、最小歪選択手段17に出力する。
【0189】なお、この場合も、駆動音源符号化手段4
4の駆動音源符号帳43には、乱数によって生成された
雑音的な音源符号語が、駆動音源符号化手段46の駆動
音源符号帳45には、パルス位置テーブル等による非雑
音的な音源符号語がそれぞれ格納されており、また、駆
動音源符号化手段44より出力される時系列ベクトル
は、雑音的な音源を生成し、駆動音源符号化手段46よ
り出力される時系列ベクトルは、非雑音的な音源を生成
している。
【0190】一方、パワー計算手段12は入力音声1の
フレーム内の信号パワーを計算して閾値計算手段13に
出力する。閾値計算手段13は、あらかじめ用意されて
いる歪率に関する定数を、このパワー計算手段12から
入力された信号パワーに乗算し、得られた結果を歪に関
する閾値として比較手段15および変換手段16に出力
する。また、判定手段14は入力音声1を分析して音声
態様の判定を行い、判定の結果、音声の立ち上がり部分
であった場合には“0”を、それ以外の場合には“1”
を、それぞれ閾値計算手段13に出力する。
【0191】比較手段15は、駆動音源符号化手段44
から入力された歪と、閾値計算手段13から入力された
閾値を比較する。比較の結果、歪の方が大きかった場合
には“1”を、それ以外の場合には“0”を、比較結果
として変換手段16に出力する。変換手段16はこの判
定手段14から出力された判定結果と、比較手段15か
ら出力された比較結果の両方が“1”であれば、駆動音
源符号化手段44から入力された結果中の歪を、閾値計
算手段13から入力された閾値の値に置換して最小歪選
択手段17に出力する。なお、それ以外の場合には上記
置換は行わず、駆動音源符号化手段44から入力された
歪をそのまま最小歪選択手段17に出力する。
【0192】最小歪選択手段17はこの変換手段16か
ら入力された歪と、駆動音源符号化手段46から入力さ
れた歪とを比較して、その小さい方の歪を選択する。そ
してこの選択された最小の歪を出力した変換手段16ま
たは駆動音源符号化手段46からの駆動音源をゲイン符
号化手段6に、駆動音源符号を多重化手段7にそれぞれ
出力する。さらに、これら2つの歪のどちらを選択した
かを示す情報を、モード選択情報として多重化手段7に
出力する。
【0193】ここで、この駆動音源符号化手段44と駆
動音源符号化手段46における符号化処理の差異は、ア
クセスする駆動音源符号帳43,45の違いのみであ
る。このような場合、駆動音源符号帳43と駆動音源符
号帳45を一体化して、1つの駆動音源符号化手段によ
って探索するように変形することができる。そのような
場合には、駆動音源符号帳43に対応する駆動音源によ
る歪と、駆動音源符号帳45に対応する歪を独立に計算
し、前者の歪を変換手段16に入力することで同じ結果
を得ることができる。つまり、1つの駆動音源符号帳に
対する駆動音源符号を、雑音的な符号語に対応するもの
と、非雑音的な符号語に対応するものとにグループ分け
し、前者を駆動音源符号帳43、後者を駆動音源符号帳
45と見なせば、この実施の形態6を適用することが可
能となる。
【0194】なお、この実施の形態6についても実施の
形態1と同様に、駆動音源符号化手段44,46が
(3)式に示す評価値dを最大化する駆動音源符号を探
索し、歪Dの代わりに評価値dを出力する構成とするこ
とも可能である。その場合、最小歪選択手段17では最
大の評価値を選択し、比較手段15では大小関係と出力
結果の関係が逆になる。また閾値計算手段13でも評価
値dに対応した閾値dthを計算する必要がある。
【0195】また、この実施の形態6では、閾値計算手
段13が歪率に関する定数をそのまま閾値として出力
し、各駆動音源符号化手段44,46が出力する歪を入
力音声1の信号パワーで除算した値、つまり歪率として
出力するように変形することも可能であり、パワー計算
手段12が適応音源符号化手段4の出力する符号化対象
信号の信号パワーを計算するように変更することも、信
号パワーの代わりに、振幅や、対数パワーなどを計算す
るように変更することも可能である。
【0196】また、この実施の形態6では、雑音的な音
源を生成する駆動音源符号化手段としての駆動音源符号
化手段44と、非雑音的な音源を生成する駆動音源符号
化手段としての駆動音源符号化手段46をそれぞれ1つ
ずつ備える構成としたが、それぞれを2つ以上としても
かまわないことはいうまでもない。
【0197】また、この実施の形態6では、単純に信号
間の2乗距離を歪としているが、音声符号化装置で多く
使用されている聴覚重み付け歪とするようにしても当然
かまわない。
【0198】以上のように、この実施の形態6によれ
ば、実施の形態1の場合と同様に、符号化歪が大きい場
合、あるいは符号化時の歪率が所定以上である場合で
も、復号音の品質劣化が少ない音源モードを選択するこ
とが可能となり、また符号化歪が大きい場合でも、符号
化歪が置換された音源モードが選択されやすくなり、ま
た符号化歪が大きくても復号音の品質劣化を起こしにく
い入力音声に対しては、従来の場合と同様の音源モード
選択が行われて一層丁寧な音源モード選択が可能とな
り、また符号化歪が大きくなりがちな区間とそれ以外の
区間で符号化歪に基づく音源モード選択の制御を変える
ことができて、音声の立ち上がりでの劣化がなく、それ
以外での音源モード選択を改善することが可能となり、
さらに符号化歪が大きい場合に、雑音的な音源を生成す
る音源モード、もしくは雑音的な音源符号語を使用する
音源モードが選択しやすくなって、非雑音的な音源を生
成する音源モード、あるいは非雑音的な音源符号語を使
用する音源モードを選択して劣化することを回避するこ
とが可能となるなどのため、よりよい音質を与える音源
モードを適切に選択でき、得られた音声符号を復号化し
た復号音の主観的な品質を改善することができるという
効果が得られる。
【0199】実施の形態7.なお、上記実施の形態2で
は、適応音源符号化手段と駆動音源符号化手段によって
構成される複数の音源符号化手段19〜21を備えて、
その中の1つを選択するものについて説明したが、ゲイ
ン符号化手段6も含むさらに上位の音源符号化手段を複
数備えて、その中の1つを選択するようにしてもよい。
【0200】また、実施の形態3〜実施の形態6につい
ても、適応音源符号化手段4と駆動音源符号化手段9〜
11あるいは44,46によって構成される複数の音源
符号化手段を備えて、その中の1つを選択するように構
成しても、ゲイン符号化手段6も含むさらに上位の音源
符号化手段を複数備えて、その中の1つを選択するよう
に構成するようにしてもよい。
【0201】このように上位の音源モードを複数備え
て、この音源モードを使用して入力音声をフレームと呼
ばれる所定長区間毎に符号化する音声符号化方法におい
て、各音源モード毎に入力音声から求まる符号化対象信
号の符号化を行い、その時の符号化歪と固定の閾値また
は符号化対象信号の信号パワーに基づいて決定した閾値
との比較を行い、その比較結果に基づいて、音源モード
の選択を行うようにすることにより、符号化歪が大きい
場合に復号音の品質劣化が少ない音源モードを選択する
ことが可能となり、よりよい音質を与える音源モードを
適切に選択でき、得られた音声符号を音声復号化装置で
復号化して得られる復号音の主観的な品質を改善するこ
とができるという効果が得られる。
【0202】
【発明の効果】以上のように、この発明によれば、複数
の音源モードのそれぞれについて、入力音声から求めら
れる符号化対象信号を符号化して、その時の符号化歪
値との比較を行い、その符号化歪が閾値を上回る比較
結果が得られている音源モードの選択を抑制するよう
に、符号化歪を変換し、その変換された符号化歪に基づ
いて音源モードを選択し、それを用いて入力音声をフレ
ーム毎に符号化するように構成したので、符号化歪が大
きい場合でも復号音の品質劣化が少ない音源モードの選
択が可能となって、よりよい音質を与える音源モードの
選択を適切に行うことができ、得られた音声符号を音声
復号化装置で復号化した復号音の主観的な品質、つまり
音質が改善できるという効果がある。
【0203】この発明によれば、複数の音源モードのそ
れぞれについて、入力音声から求まる符号化対象信号の
符号化を行って、その時の符号化歪の相互比較結果より
音源モードの1つを選択し、その音源モードに対応する
符号化歪と閾値とを比較して、その比較結果に基づいた
音源モードの別の音源モードへの置換を行い、それを用
いて入力音声をフレーム毎に符号化するように構成した
ので、符号化歪が大きい場合でも復号音の品質劣化が少
ない音源モードの選択が可能となって、よりよい音質を
与える音源モードの選択を適切に行うことができ、得ら
れた音声符号を音声復号化装置で復号化した復号音の主
観的な品質(音質)が改善できるという効果がある。
【0204】この発明によれば、閾値として、固定の閾
値または前記符号化対象信号の信号パワーに基づいて決
定した閾値を用いるように構成したので、符号化歪が大
きい場合に、復号音の品質劣化が少ない音源モードが選
択しやすくなるため、よりよい音質を与える音源モード
を適切に選択できるため、得られた音声符号を復号化し
た復号音の主観的な品質が改善できるという効果があ
る。
【0205】この発明によれば、閾値を音源モード毎に
用意するように構成したので、各音源モード毎に復号音
品質の劣化を引き起こすことを検知する閾値を適切に調
整することが可能となって、よりよい音質を与える音源
モードを適切に選択できるため、得られた音声符号を復
号化して得られる復号音の主観的な品質が改善できると
いう効果がある。
【0206】この発明によれば、符号化歪と閾値との比
較を、あらかじめ定めた音源モードについて行い、符号
化歪が閾値を上回る場合にはその符号化歪を閾値の値に
置換して、全音源モードの符号化歪中の最小の符号化歪
に対応した音源モードを選択するように構成したので、
符号化歪が大きい場合に、符号化歪が置換された音源モ
ードが選択されやすくなって、よりよい音質を与える音
源モードの選択が適切に行え、得られた音声符号を音声
復号化装置で復号化した復号音の主観的な品質が改善で
きるという効果がある。
【0207】この発明によれば、選択した音源モードに
対応する符号化歪を選択して閾値と比較し、それが閾値
を上回る場合には、あらかじめ定めた音源モードを選択
するように構成したので、符号化歪が大きい場合に、復
号音の品質劣化が少ない音源モードを強制的に選択する
ことが可能となり、よりよい音質を与える音源モードを
適切に選択でき、得られた音声符号を復号化して得られ
る復号音の主観的な品質が改善できるという効果があ
る。
【0208】この発明によれば、閾値を、入力音声また
は符号化対象信号に対して所定の歪率となるように設定
するように構成したので、符号化時の歪率が所定以上で
ある場合に、復号音の品質劣化が少ない音源モードを選
択することが可能となり、よりよい音質を与える音源モ
ードの選択が適切に行え、得られた音声符号を音声復号
化装置で復号化した復号音の主観的な品質が改善できる
という効果がある。
【0209】本発明のよれば、入力音声または符号化対
象信号の分析して音声様態の判定を行ない、所定の判定
結果となったときに限り、変換工程が前記符号化工程に
て出力された符号化歪を変換するように構成したので、
符号化歪が大きくても復号音の品質劣化を起こしにくい
入力音声に対しては、従来の場合と同様の音源モード選
択が行われ、一層丁寧な音源モード選択が可能となっ
て、得られた音声符号を音声復号化装置で復号化した復
号音の主観的な品質が改善できるという効果がある。
【0210】この発明によれば、入力音声または符号化
対象信号の分析による音声様態の判定結果に基づいて決
定した閾値を用いて比較を行うように構成したので、音
声様態に応じて適切に設定された閾値を用いて音源モー
ドの選択を行うことが可能となり、得られた音声符号を
音声復号化装置で復号化して得られる復号音の主観的な
品質が改善できるという効果が得られる。
【0211】この発明によれば、音声様態の判定におい
て、少なくとも音声の立ち上がりであるか否かを判定す
るように構成したので、符号化歪が大きくなりがちな音
声の立ち上がり区間と、それ以外の区間とで、符号化歪
に基づく音源モード選択の制御を変えることが可能とな
るため、音声の立ち上がりでの劣化がなく、それ以外で
の音源モード選択を改善することができて、得られた音
声符号を音声復号化装置で復号化した復号音の主観的な
品質が改善でき、また、音声の立ち上がり区間では、破
裂音などのように雑音的な音源よりパルス的な音源の方
が適するケースもあり、符号化歪が大きくても、特定の
音源モードを優先的に選択するような制御では劣化を引
き起こすことがあるが、音声の立ち上がりの判定によっ
てそれを回避できるなどの効果がある。
【0212】この発明によれば、非雑音的な音源を生成
する音源モードと、雑音的な音源を生成する音源モード
とによって、複数の音源モードを形成するように構成し
たので、符号化歪が大きい場合に、雑音的な音源を生成
する音源モードの選択がしやすくなるため、非雑音的な
音源を生成する音源モードを選択することによる劣化を
回避し、得られた音声符号を音声復号化装置で復号化し
た復号音の主観的な品質が改善できるという効果があ
る。
【0213】この発明によれば、非雑音的な音源符号語
を使用する音源モードと、雑音的な音源符号語を使用す
る音源モードとによって、複数の音源モードを形成する
ように構成したので、符号化歪が大きい場合に、雑音的
な音源符号語を使用する音源モードを選択しやすくなる
ため、非雑音的な音源符号語を使用する音源モードを選
択して劣化することを回避し、得られた音声符号を音声
復号化装置で復号化した復号音の主観的な品質が改善で
きるという効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声符号化方
法を適用した音声符号化装置の構成を示すブロック図で
ある。
【図2】 この発明の実施の形態2による音声符号化方
法を適用した音声符号化装置の構成を示すブロック図で
ある。
【図3】 この発明の実施の形態3による音声符号化方
法を適用した音声符号化装置の構成を示すブロック図で
ある。
【図4】 この発明の実施の形態4による音声符号化方
法を適用した音声符号化装置の構成を示すブロック図で
ある。
【図5】 この発明の実施の形態5による音声符号化方
法を適用した音声符号化装置の構成を示すブロック図で
ある。
【図6】 この発明の実施の形態6による音声符号化方
法を適用した音声符号化装置の構成を示すブロック図で
ある。
【図7】 音声符号を音声復号化装置で復号化した復号
音の主観的な品質が改善されることを説明するための波
形図である。
【図8】 従来の音声符号化装置の構成の一例を示すブ
ロック図である。
【図9】 従来の音声符号化装置の構成の他の例を示す
ブロック図である。
【符号の説明】
1 入力音声、2 線形予測分析手段、3 線形予測係
数符号化手段、4 適応音源符号化手段、5 駆動音源
符号化部、6 ゲイン符号化手段、7 多重化手段、8
音声符号、9,10,11 駆動音源符号化手段(符
号化手段)、12 パワー計算手段、13 閾値計算手
段、14 判定手段、15 比較手段、16 変換手
段、17 最小歪選択手段(選択手段)、18 音源符
号化部、19,20,21 音源符号化手段(符号化手
段)、22 パワー計算手段、23閾値計算手段、24
判定手段、25 比較手段、26 変換手段、27
最小歪選択手段(選択手段)、28 駆動音源符号化
部、29 閾値計算手段、30,32 比較手段、3
1,33 補正手段(変換手段)、34 駆動音源符号
化部、35 最小歪選択手段(選択手段)、36 比較
手段、37 置換手段、38 駆動音源符号化部、39
判定手段、40 閾値計算手段、41 変換手段、4
2 駆動音源符号化部、43,45 駆動音源符号帳、
44,46 駆動音源符号化手段(符号化手段)。

Claims (17)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数の音源モードの中から1つの音源モ
    ードを選択し、その音源モードを使用して、入力音声を
    所定長区間よりなるフレーム毎に符号化する音声符号化
    方法において、 符号化工程により、前記各音源モード毎に前記入力音声
    から求まる符号化対象信号の符号化を行って、その時の
    符号化歪を出力し、 比較工程により、前記符号化工程にて出力された符号化
    と閾値との比較を行い、変換工程により、前記比較工程にて符号化歪が閾値を上
    回る比較結果が得られている音源モードの選択を抑制す
    るように、前記符号化工程にて出力された符号化歪を変
    換し、 選択工程により、前記変換工程にて変換された符号化歪
    基づいて、前記音源モードの選択を行うことを特徴と
    する音声符号化方法。
  2. 【請求項2】 複数の音源モードの中から1つの音源モ
    ードを選択し、その音源モードを使用して、入力音声を
    所定長区間よりなるフレーム毎に符号化する音声符号化
    方法において、 符号化工程により、前記各音源モード毎に前記入力音声
    から求まる符号化対象信号の符号化を行って、その時の
    符号化歪を出力し、 選択工程により、前記符号化工程にて出力された符号化
    歪の相互比較を行って、その比較結果に基づいて音源モ
    ードの1つを選択し、 比較工程により、前記選択工程にて選択された音源モー
    ドに対応する符号化歪と閾値との比較を行い、 置換工程により、前記比較工程による比較結果に基づい
    て、前記選択工程にて選択された音源モードを別の音源
    モードに置換することを特徴とする音声符号化方法。
  3. 【請求項3】 閾値は、固定の閾値または前記符号化対
    象信号の信号パワーに基づいて決定した閾値であること
    を特徴とする請求項1または請求項2記載の音声符号化
    方法。
  4. 【請求項4】 閾値を、音源モード毎に用意したことを
    特徴とする請求項1記載の音声符号化方法。
  5. 【請求項5】 符号化歪の出力変換を行う変換工程によ
    り、比較工程によるあらかじめ定めた音源モードの符号
    化歪と閾値の比較の結果、前記符号化歪が前記閾値を上
    回る場合に、その符号化歪を前記閾値の値で置換し、 選択工程により、前記変換工程より置換された符号化歪
    を含む全ての音源モードの符号化歪の中から、最小の符
    号化歪に対応した音源モードを選択することを特徴とす
    る請求項1記載の音声符号化方法。
  6. 【請求項6】 置換工程により、選択工程が選択した音
    源モードに対応する符号化歪が閾値を上回る場合に、あ
    らかじめ定めた音源モードを選択することを特徴とする
    請求項2記載の音声符号化方法。
  7. 【請求項7】 閾値を、入力音声または符号化対象信号
    に対して所定の歪率となるように設定したことを特徴と
    する請求項1または請求項2記載の音声符号化方法。
  8. 【請求項8】 判定工程を設けて、入力音声または符号
    化対象信号の分析を行って音声様態を判定し、 前記判定工程が所定の判定結果を出力したときに限っ
    て、変換工程が前記符号化工程にて出力された符号化歪
    を変換することを特徴とする請求項1記載の音声符号化
    方法。
  9. 【請求項9】 判定工程を設けて、入力音声または符号
    化対象信号の分析を行って音声様態を判定し、 閾値算出工程を設けて、前記判定工程による判定結果に
    基づいて閾値の決定を行い、 比較工程では、前記閾値算出工程にて決定された閾値を
    用いて比較を行うことを特徴とする請求項1または請求
    項2記載の音声符号化方法。
  10. 【請求項10】 判定工程が、少なくとも音声の立ち上
    がりであるか否かの判定を行うことを特徴とする請求項
    8または請求項9記載の音声符号化方法。
  11. 【請求項11】 複数の音源モードを、非雑音的な音源
    を生成する音源モードと、雑音的な音源を生成する音源
    モードで形成したことを特徴とする請求項1から請求項
    10のうちのいずれか1項記載の音声符号化方法。
  12. 【請求項12】 複数の音源モードを、非雑音的な音源
    符号語を使用する音源モードと、雑音的な音源符号語を
    使用する音源モードで形成したことを特徴とする請求項
    1から請求項10のうちのいずれか1項記載の音声符号
    化方法。
  13. 【請求項13】 複数の音源モードの中から1つの音源
    モードを選択し、その音源モードを使用して、入力音声
    を所定長区間よりなるフレーム毎に符号化する音声符号
    化装置において、 前記各音源モード毎に、前記入力音声から求まる符号化
    対象信号の符号化を行い、その時の符号化歪を出力する
    符号化手段と、 前記符号化手段にて出力された符号化歪と閾値との比較
    を行う比較手段と、前記比較手段にて符号化歪が閾値を上回る比較結果が得
    られている音源モードの選択を抑制するように、前記符
    号化手段にて出力された符号化歪を変換する変換手段
    と、 前記変換手段にて変換された符号化歪に基づいて、前記
    音源モードの選択を行う選択手段とを備えたことを特徴
    とする音声符号化装置。
  14. 【請求項14】 複数の音源モードの中から1つの音源
    モードを選択し、その音源モードを使用して、入力音声
    を所定長区間よりなるフレーム毎に符号化する音声符号
    化装置において、 前記各音源モード毎に、前記入力音声から求まる符号化
    対象信号の符号化を行い、その時の符号化歪を出力する
    符号化手段と、 前記符号化手段にて出力された符号化歪を相互に比較
    し、その比較結果に基づいて音声モードの1つを選択す
    る選択手段と、 前記選択手段にて選択された音声モードに対応する符号
    化歪と閾値との比較を行う比較手段と、 前記選択手段にて選択された音声モードの別の音源モー
    ドへの置換を、前記比較手段による比較結果に基づいて
    行う置換手段とを備えたことを特徴とする音声符号化装
    置。
  15. 【請求項15】 比較手段が、符号化手段より出力され
    た符号化歪と比較するための閾値を、符号化対象信号に
    対して所定の歪率となるように設定することを特徴とす
    る請求項13または請求項14記載の音声符号化装置。
  16. 【請求項16】 入力音声または符号化対象信号を分析
    して音声様態を判定する判定手段を備え、 変換手段は、前記判定手段が所定の判定結果を出したと
    きに限って、前記符号化手段にて出力された符号化歪を
    変換するものであることを特徴とする請求項13記載の
    音声符号化装置。
  17. 【請求項17】 複数の音源モードを、非雑音的な音源
    を生成する音源モードと、雑音的な音源を生成する音源
    モードで構成したことを特徴とする請求項13から請求
    項16のうちのいずれか1項記載の音声符号化装置。
JP2001052944A 2001-02-27 2001-02-27 音声符号化方法および音声符号化装置 Expired - Lifetime JP3404024B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2001052944A JP3404024B2 (ja) 2001-02-27 2001-02-27 音声符号化方法および音声符号化装置
TW091102256A TW554334B (en) 2001-02-27 2002-02-07 Speech coding method and speech coding apparatus
IL14810102A IL148101A0 (en) 2001-02-27 2002-02-11 Speech coding method and speech coding apparatus
US10/072,892 US7130796B2 (en) 2001-02-27 2002-02-12 Voice encoding method and apparatus of selecting an excitation mode from a plurality of excitation modes and encoding an input speech using the excitation mode selected
DE60229458T DE60229458D1 (de) 2001-02-27 2002-02-22 Verfahren und Vorrichtung zur Auswahl des Kodierungsmodus der Anregung zur Sprachkodierung
EP02003974A EP1235204B1 (en) 2001-02-27 2002-02-22 Method and apparatus for selecting an excitation coding mode for speech coding
CNB021053529A CN1185625C (zh) 2001-02-27 2002-02-26 语音编码方法及语音编码装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001052944A JP3404024B2 (ja) 2001-02-27 2001-02-27 音声符号化方法および音声符号化装置

Publications (2)

Publication Number Publication Date
JP2002258896A JP2002258896A (ja) 2002-09-11
JP3404024B2 true JP3404024B2 (ja) 2003-05-06

Family

ID=18913489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001052944A Expired - Lifetime JP3404024B2 (ja) 2001-02-27 2001-02-27 音声符号化方法および音声符号化装置

Country Status (7)

Country Link
US (1) US7130796B2 (ja)
EP (1) EP1235204B1 (ja)
JP (1) JP3404024B2 (ja)
CN (1) CN1185625C (ja)
DE (1) DE60229458D1 (ja)
IL (1) IL148101A0 (ja)
TW (1) TW554334B (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE527654T1 (de) * 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
DE102005002195A1 (de) * 2005-01-17 2006-07-27 Siemens Ag Verfahren und Anordnung zur Regeneration eines optischen Datensignals
US7852999B2 (en) * 2005-04-27 2010-12-14 Cisco Technology, Inc. Classifying signals at a conference bridge
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
JP2008170488A (ja) * 2007-01-06 2008-07-24 Yamaha Corp 波形圧縮装置、波形伸長装置、プログラムおよび圧縮データの生産方法
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
PL2677519T3 (pl) * 2011-02-18 2019-12-31 Ntt Docomo, Inc. Dekoder mowy, koder mowy, sposób dekodowania mowy, sposób kodowania mowy, program do dekodowania mowy i program do kodowania mowy
US9025779B2 (en) 2011-08-08 2015-05-05 Cisco Technology, Inc. System and method for using endpoints to provide sound monitoring
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
EP3125241B1 (en) 2014-03-28 2021-05-05 Samsung Electronics Co., Ltd. Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
CN107452391B (zh) 2014-04-29 2020-08-25 华为技术有限公司 音频编码方法及相关装置
KR102593442B1 (ko) 2014-05-07 2023-10-25 삼성전자주식회사 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
CN110097874A (zh) * 2019-05-16 2019-08-06 上海流利说信息技术有限公司 一种发音纠正方法、装置、设备以及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03132700A (ja) * 1989-10-18 1991-06-06 Victor Co Of Japan Ltd 音声の適応直交変換符号化方法
JPH03156498A (ja) 1989-11-15 1991-07-04 Nec Corp 音声符号化方式
JPH0467200A (ja) * 1990-07-09 1992-03-03 Matsushita Electric Ind Co Ltd 有音区間判定方法
JP3065638B2 (ja) 1990-08-09 2000-07-17 株式会社東芝 音声符号化方式
JPH05150800A (ja) 1991-11-30 1993-06-18 Fujitsu Ltd 音声符号器
JP3364825B2 (ja) 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
DE69721595T2 (de) * 1996-11-07 2003-11-27 Matsushita Electric Ind Co Ltd Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP3523649B2 (ja) 1997-03-12 2004-04-26 三菱電機株式会社 音声符号化装置、音声復号装置及び音声符号化復号装置、及び、音声符号化方法、音声復号方法及び音声符号化復号方法
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
EP2154679B1 (en) 1997-12-24 2016-09-14 BlackBerry Limited Method and apparatus for speech coding
EP1129451A1 (en) 1998-11-13 2001-09-05 QUALCOMM Incorporated Closed-loop variable-rate multimode predictive speech coder
JP4028651B2 (ja) 1998-12-14 2007-12-26 株式会社シマノ 竿
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
JP2000200097A (ja) 1999-01-07 2000-07-18 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置及び音声符号化復号化装置
US6697430B1 (en) * 1999-05-19 2004-02-24 Matsushita Electric Industrial Co., Ltd. MPEG encoder
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech

Also Published As

Publication number Publication date
TW554334B (en) 2003-09-21
EP1235204A3 (en) 2003-10-22
JP2002258896A (ja) 2002-09-11
IL148101A0 (en) 2002-09-12
US20020147582A1 (en) 2002-10-10
CN1185625C (zh) 2005-01-19
US7130796B2 (en) 2006-10-31
DE60229458D1 (de) 2008-12-04
EP1235204B1 (en) 2008-10-22
CN1372247A (zh) 2002-10-02
EP1235204A2 (en) 2002-08-28

Similar Documents

Publication Publication Date Title
JP3404024B2 (ja) 音声符号化方法および音声符号化装置
US5864798A (en) Method and apparatus for adjusting a spectrum shape of a speech signal
JP3346765B2 (ja) 音声復号化方法及び音声復号化装置
JP3566220B2 (ja) 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法
JPH0353300A (ja) 音声符号化装置
JPH0990995A (ja) 音声符号化装置
US20040111256A1 (en) Voice encoding method and apparatus
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP3531780B2 (ja) 音声符号化方法および復号化方法
JP4438280B2 (ja) トランスコーダ及び符号変換方法
JP4510977B2 (ja) 音声符号化方法および音声復号化方法とその装置
JP2956068B2 (ja) 音声符号化復号化方式
JP3144284B2 (ja) 音声符号化装置
JP3153075B2 (ja) 音声符号化装置
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP2000235400A (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JP3296411B2 (ja) 音声符号化方法および復号化方法
JP3047761B2 (ja) 音声符号化装置
JP2000298500A (ja) 音声符号化方法
JPH09244695A (ja) 音声符号化装置及び復号化装置
JP3192051B2 (ja) 音声符号化装置
JP3199128B2 (ja) 音声の符号化方法
JP3471542B2 (ja) 音声符号化装置
JP2008090311A (ja) 音声符号化方法
JP3954050B2 (ja) 音声符号化装置及び音声符号化方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R150 Certificate of patent or registration of utility model

Ref document number: 3404024

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080229

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090228

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100228

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100228

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140228

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term