JP2008242029A

JP2008242029A - 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム

Info

Publication number: JP2008242029A
Application number: JP2007081720A
Authority: JP
Inventors: Hiroyasu Ide; 博康井手
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2007-03-27
Filing date: 2007-03-27
Publication date: 2008-10-09
Anticipated expiration: 2027-03-27
Also published as: JP4872748B2

Abstract

【課題】分析合成型の音声符号化及び復号において、装置の簡潔さと伝達情報量の少なさとを維持しつつ、再生音声の品質を高める。
【解決手段】音声符号化装置３は、入力音声信号に予測分析を施し、予測係数と残差信号とに分解する。予測係数に対してはスカラー量子化及びベクトル量子化を施し、残差信号に対しては特徴量を抽出することにより、情報圧縮を図る。また、音声復号装置により行われる信号処理の一部を残差信号復元試行部３１によりあらかじめシミュレートし、フィードバックすべき情報を修正因子決定部３３により決定して音声復号装置に伝達することにより、再生音声の品質を向上させる。
【選択図】図３

Description

本発明は、分析合成型の音声圧縮復元を実行する際に必要となる、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムに関する。

移動体通信の分野においては、利用者の増加に対処するためや、端末機器を簡素化するためといった理由から、低ビットレートにて音声を効率的に圧縮符号化する方法が求められている。例えば、8kbpsの音声符号化方法として、ITU-T勧告G.729に示される音声符号化方法がある。該勧告に係る音声符号化方法は、基本的には、音声信号を予測分析により予測係数と残差信号とに分解してから送信する方法である。予測分析としては、例えば、線型予測分析や、ＭＬＳＡ（Mel Log Spectrum Approximation）分析（例えば、非特許文献１参照。）が知られている。

今井聖著、「音声信号処理」、ＰＯＤ版、森北出版株式会社、２００５年４月、ｐ．１６９−２００

分析合成型の符号化及び復号において上述の低ビットレート通信を可能にするためには、音声符号化装置側から音声復号装置側へ、予測係数と残差信号とに関する情報を、いかに効率的に伝達するか、に、工夫が必要となる。

上述のITU-T勧告G.729に示される音声符号化方法は、かかる工夫のひとつである。確かにこれは、音声符号化装置のユーザの発話内容を、音声復号装置が、そのユーザが理解できる程度の音質で再生することを可能にする。しかし、今日、移動体通信に求められる音質は、単に発話内容が伝達され得る音質にとどまらず、例えば外国語学習のための正確な発音を伝達する用途にも耐え得る等、いっそう高い音質であることが求められている。

なお、送信機である音声符号化装置により生成された残差信号は、受信機である音声復号装置においては音声再生のための励起信号として使われる。つまり、残差信号という用語と励起信号という用語とは、局面によって使い分けがなされるに過ぎず、実体としては同じものを指す。よって、以下では、両用語の区別に拘泥しない場合がある。

本発明は、上記実情に鑑みてなされたもので、音声圧縮復元技術において、音声符号化装置及び音声復号装置の簡素さと、ビットレートの低さと、を、従来なみに維持しつつも、さらなる高音質を図ることを目指す。

そのために、音声符号化装置から音声復号装置への予測係数の伝達の効率をベクトル量子化により向上させるとともに、残差信号を帯域別に扱いつつ残差信号の強度として適切な値を音声符号化装置が求めて音声復号装置に伝達することにより、装置の簡素さ、低ビットレート通信、及び、高音質再生、を同時に達成することのできる、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムを提供することを目的とする。

上記目的を達成するために、この発明の第１の観点に係る音声符号化装置は、
入力音声信号を所定の時間枠であるサブフレーム毎に残差信号と所定の次数までの予測係数とに分解する予測分析部と、
前記残差信号から該残差信号を特徴付ける量である特徴量を抽出する特徴量抽出部と、
複数の連続する前記サブフレームから構成されるメインフレーム毎に次数が共通する前記予測係数を成分とする係数ベクトルを生成する係数ベクトル生成部と、
前記係数ベクトル毎に、絶対値が最大となる成分を特定し、該成分の絶対値である係数ベクトル最大絶対値を求め、該係数ベクトル最大絶対値により該係数ベクトルの全成分を除して正規化係数ベクトルを求めるベクトル正規化部と、
前記係数ベクトル最大絶対値をスカラー量子化してスカラー量子化係数ベクトル最大絶対値を生成するスカラー量子化部と、
前記正規化係数ベクトルをベクトル量子化してベクトル量子化正規化係数ベクトルを生成するベクトル量子化部と、
前記特徴量と前記スカラー量子化係数ベクトル最大絶対値と前記ベクトル量子化正規化係数ベクトルとを符号化する符号化部と、
を備える。

メインフレームの時間長を、人間の発話における典型的な定常的音声信号持続時間長に基づいて決定することにより、係数ベクトルは、全成分が等しいベクトルの付近に集中的に分布する。つまり、係数ベクトルの向きの分布には偏りが生じている。さらに、係数ベクトルからその大きさを分離して正規化した正規化ベクトルは、大きさが単位ベクトルの大きさと同程度になる。つまり、正規化ベクトルの場合にはその向きのみならず大きさにも偏りが生じている。分布にかかる偏りが生じているベクトルの集団に対してベクトル量子化を施すことにより、高い効率で情報を圧縮することができる。

前記特徴量抽出部は、前記残差信号からピッチを抽出することができるか否かを判別する総合ピッチ判別部と、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合に該残差信号のピッチ長を求めるピッチ抽出部と、前記残差信号から所定の帯域毎に帯域別残差信号を生成する帯域別残差信号生成部と、前記帯域別残差信号が雑音か否かを判別することにより前記所定の帯域毎に該帯域が雑音帯域か否かを判別する帯域別雑音判別部と、前記所定の帯域毎に、前記帯域別雑音判別部により該帯域が雑音帯域であると判別されたか否かを示すフラグを生成するフラグ生成部と、前記帯域別残差信号の強度を、前記残差信号の前記所定の帯域毎の強度である帯域別強度として求める帯域別強度決定部と、を備え、前記符号化部は、前記フラグ、前記帯域別強度、前記スカラー量子化係数ベクトル最大絶対値、前記ベクトル量子化正規化係数ベクトル、及び、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合には前記ピッチ抽出部により求められたピッチ長、を符号化する、ことが望ましい。

残差信号を帯域別に扱うことにより、各帯域における帯域別残差信号の特徴の違いに応じた符号化がなされるため、復号して再生した音声の品質が向上する。また、かかる特徴は、おおまかには、雑音的であるか否かという単純な判別結果を示すフラグにより表されるので、音声符号化及び音声復号方式の簡素さは維持される。

前記帯域別強度決定部は、例えば、前記所定の帯域毎に、所定の時間にわたり該所定の帯域の帯域別残差信号の２乗を時間積分して得られる値の平方根である帯域別絶対強度を求め、前記サブフレーム毎に前記帯域別絶対強度の最大値を求め、該最大値により該サブフレームにおける帯域別絶対強度を除した値である帯域別強度を求める。

前記帯域別強度決定部は、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合には、前記所定の帯域毎に、前記ピッチ抽出部により求められたピッチ長の整数倍の時間にわたり該所定の帯域の帯域別残差信号の２乗を時間積分して得られる値の平方根である帯域別絶対強度を求め、前記サブフレーム毎に前記帯域別絶対強度の最大値を求め、該最大値により該サブフレームにおける帯域別絶対強度を除した値である帯域別強度を求め、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができないと判別された場合には、前記所定の帯域毎に、所定の時間にわたり該所定の帯域の帯域別残差信号の２乗を時間積分して得られる値の平方根である帯域別絶対強度を求め、前記サブフレーム毎に前記帯域別絶対強度の最大値を求め、該最大値により該サブフレームにおける帯域別絶対強度を除した値である帯域別強度を求める、ことが望ましい。

全体としての残差信号がピッチとしての性質を有する場合には、個々の帯域別残差信号の強度を算出するために必要となる時間積分を行う時間長を、該ピッチに基づかない単なる所定の時間長にするよりも、該ピッチの時間長の整数倍の時間長に統一しておくほうが、位相のずれに起因する誤差が生じないために、より正確に帯域別強度を求めることができる。

前記特徴量抽出部により抽出された特徴量と所定の試行方針とに基づいて擬似的な残差信号を生成し該擬似的な残差信号を試行用励起信号として出力する残差信号復元試行部と、前記スカラー量子化部により生成されたスカラー量子化係数ベクトル最大絶対値と前記ベクトル量子化部により生成されたベクトル量子化正規化係数ベクトルとにより定義される疑似合成フィルタ部と、前記残差信号復元試行部から出力された試行用励起信号が前記疑似合成フィルタ部に入力されることにより該疑似合成フィルタ部から出力される信号である試行用再生音声信号と前記入力音声信号との比較に基づき、前記所定の試行方針を修正する因子である修正因子を求める修正因子決定部と、をさらに備え、前記符号化部は、前記修正因子をさらに符号化する、ことが望ましい。

前記特徴量抽出部により抽出された特徴量と所定の試行方針とに基づいて前記残差信号の復元を試行し、該試行により得られる信号を試行用励起信号として出力する残差信号復元試行部と、前記スカラー量子化部により生成されたスカラー量子化係数ベクトル最大絶対値を前記ベクトル量子化部により生成されたベクトル量子化正規化係数ベクトルに乗じることにより求めた疑似係数ベクトルの成分である疑似予測係数により定義される疑似合成フィルタ部と、前記残差信号復元試行部から出力された試行用励起信号が前記疑似合成フィルタ部に入力されることにより該疑似合成フィルタ部から出力される音声信号である試行用再生音声信号を前記入力音声信号と比較することにより、前記所定の試行方針を修正する因子であって該因子により修正された試行方針に基づいた前記残差信号復元試行部による前記試行を経て該残差信号復元試行部から出力された信号が前記疑似合成フィルタ部に入力されることにより該疑似合成フィルタ部から出力される信号が前記入力音声信号の近似信号として前記試行用再生音声信号に比べてより適切となるような因子である修正因子を求める修正因子決定部と、をさらに備え、前記符号化部は、前記修正因子をさらに符号化する、ことが望ましい。

つまり、符号を受け取った音声復号装置が行うことになる、残差信号及び音声信号を復元する動作を、音声符号化装置が、あらかじめなぞって、音声信号がどの程度忠実に再現されるかを調査しておく。そして、音声符号化装置は、かかる調査の結果に基づいて決定した、残差信号及び音声信号の適切な復元の方針を、音声復号装置に伝達する。すると、音声復号装置が該方針に従って生成した音声は、元の音声に近いという点で、高品質なものとなる。

前記残差信号復元試行部は、大きさが乱数であるパルスから構成される雑音パルス列を生成し、該雑音パルス列から前記所定の帯域毎に帯域別雑音パルス列を生成する帯域別雑音パルス列生成部と、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合に、前記ピッチ抽出部により求められたピッチ長を取得し、大きさが該ピッチ長の平方根であるパルスから構成され時間間隔が該ピッチ長であるピッチパルス列を生成し、該ピッチパルス列から前記所定の帯域毎に帯域別ピッチパルス列を生成する帯域別ピッチパルス列生成部と、をさらに備え、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合には、前記帯域別強度決定部により求められた帯域別強度と前記フラグ生成部により生成されたフラグとを取得し、前記所定の帯域毎に、前記帯域別雑音判別部により雑音帯域であると判別されたことが該フラグにより示されている帯域については、前記帯域別雑音パルス列生成部により生成された帯域別雑音パルス列に該帯域の帯域別強度と所定の試行強度とを乗じて帯域別試行用励起信号を生成し、前記帯域別雑音判別部により雑音帯域ではないと判別されたことが該フラグにより示されている帯域については、前記帯域別ピッチパルス列生成部により生成された帯域別ピッチパルス列に該帯域の帯域別強度と所定の試行強度とを乗じて帯域別試行用励起信号を生成し、全ての前記所定の帯域についての帯域別試行用励起信号を合成することにより試行用励起信号を生成して出力し、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができないと判別された場合には、全ての前記所定の帯域毎に、前記帯域別雑音パルス列生成部により生成された帯域別雑音パルス列に該帯域の帯域別強度と所定の試行強度とを乗じて帯域別試行用励起信号を生成し、全ての前記所定の帯域についての帯域別試行用励起信号を合成することにより試行用励起信号を生成して出力する、ことを特徴とし、前記修正因子決定部は、前記残差信号復元試行部から出力された試行用励起信号が前記疑似合成フィルタ部に入力されることにより該疑似合成フィルタ部から出力される音声信号である試行用再生音声信号を前記入力音声信号と比較することにより、前記所定の試行強度を修正した強度であって該強度を該所定の試行強度の代わりに用いた前記残差信号復元試行部から出力された信号が前記疑似合成フィルタ部に入力されることにより該疑似合成フィルタ部から出力される信号が前記入力音声信号の近似信号として前記試行用再生音声信号に比べてより適切となるような強度である修正強度を求める、ことを特徴とし、前記符号化部は、前記修正因子として前記修正強度を符号化する、ことが望ましい。

残差信号の帯域別の特徴をおおまかに雑音的であるか否かという点から捉えれば、音声符号化装置は簡素なもので済む。一方、音声復号に際しては、雑音パルス列及びピッチパルス列の生成手段と帯域分割手段があれば、全ての帯域の帯域別残差信号の復元が可能になり、簡素でありながらも、残差信号を帯域別に扱ったことによる音声品質の向上が期待される。

なお、上述のとおり、音声符号化装置内には、音声復号動作をトレースするために、音声復号装置の主な部分が組み込まれることが望ましい。そして、音声符号化装置が、かかるトレースの結果決定できる方針に基づく情報のうち、音声復号装置が高品質の音声を再生するために有効な情報として音声復号装置に伝達すべき典型的な情報は、音声復号装置が用いるべき励起信号の強度である。

前記修正因子決定部は、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合には、前記ピッチ抽出部により求められたピッチ長の所定の整数倍の時間にわたり前記入力音声信号の２乗を時間積分して得られる値の平方根を同じ時間にわたり前記試行用再生音声信号の２乗を時間積分して得られる値の平方根により除した値に前記試行強度を乗じた値を前記修正強度とし、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができないと判別された場合には、所定の時間にわたり前記入力音声信号の２乗を時間積分して得られる値の平方根を同じ時間にわたり前記試行用再生音声信号の２乗を時間積分して得られる値の平方根により除した値に前記試行強度を乗じた値を前記修正強度とする、ことが望ましい。

位相のずれに起因する誤差が生じないために、より正確に修正強度を求めることができる。

前記残差信号復元試行部は、例えば、前記帯域別雑音パルス列又は前記帯域別ピッチパルス列に前記帯域別強度とｅ（ｅは自然対数の底である。）のｂ（ｂは０次の前記予測係数である。）乗とを乗じて前記帯域別試行用励起信号を生成する。

予測分析により０次の予測係数は求まっているので、それに基づいて帯域別試行用励起信号を生成することが簡易である。

前記残差信号復元部は、あるいは例えば、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合には、前記ピッチ抽出部により求められたピッチ長の整数倍の時間にわたり前記残差信号の２乗を時間積分して得られる値の時間平均値の平方根と前記帯域別強度とを前記帯域別雑音パルス列又は前記帯域別ピッチパルス列に乗じて帯域別試行用励起信号を生成し、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができないと判別された場合には、所定の時間にわたり前記残差信号の２乗を時間積分して得られる値の時間平均値の平方根と前記帯域別強度とを前記帯域別雑音パルス列又は前記帯域別ピッチパルス列に乗じて帯域別試行用励起信号を生成する。

音声復号装置が励起信号の強度として用いるべき値は、原理的には、予測分析により生成された残差信号の強度の値に等しいと考えられる。よって、帯域別試行用励起信号を生成するに際しては、予測分析により生成された残差信号の強度に基づくのが妥当である。なお、ピッチが抽出可能なら、時間積分はピッチ長の整数倍の時間にわたって行うほうが、位相のずれに起因する誤差が生じないために、より適切な帯域別試行用励起信号を求めることができる。

前記予測分析部は、例えば、前記予測信号を前記所定の時間枠であるサブフレーム毎に残差信号と所定の次数までのＭＬＳＡフィルタ係数とに分解する。

上記目的を達成するために、この発明の第２の観点に係る音声復号装置は、
所定の時間枠であるサブフレーム毎に元の音声信号から予測分析における次数毎の予測係数として抽出された値が、複数の連続する前記サブフレームから構成されるメインフレーム毎かつ前記次数毎にまとめられることにより該メインフレーム毎かつ該次数毎の正規化用スカラー値と正規化ベクトルとの組として表現された後、前記正規化用スカラー値に対するスカラー量子化及び前記正規化ベクトルに対するベクトル量子化が施された結果生成されたスカラー量子化正規化用スカラー値及びベクトル量子化正規化ベクトルと、前記サブフレーム毎に前記元の音声信号から前記予測分析における残差信号を特徴付ける量として抽出された特徴量と、が符号化されたものを受け取り、前記スカラー量子化正規化用スカラー値及び前記ベクトル量子化正規化ベクトルと、前記特徴量と、を復号する復号部と、
前記スカラー量子化正規化用スカラー値に逆スカラー量子化を施して疑似正規化用スカラー値を求め、前記ベクトル量子化正規化ベクトルに逆ベクトル量子化を施して疑似正規化ベクトルを求め、前記疑似正規化用スカラー値を前記疑似正規化ベクトルに乗じることにより得られるベクトルの成分を擬似的な予測係数として出力する逆量子化部と、
前記特徴量に基づいて前記元の音声信号の残差信号を復元し励起信号として出力する残差信号復元部と、
前記逆量子化部から出力された擬似的な予測係数により定義され前記残差信号復元部から出力された励起信号が入力されることにより再生音声信号を出力する疑似合成フィルタ部と、
を備える。

前記復号部は、前記サブフレーム毎に前記元の音声信号から抽出されたサブフレーム別残差信号強度が符号化されたものをさらに受け取り、該サブフレーム別残差信号強度をさらに復号する、ことを特徴とし、前記残差信号復元部は、前記残差信号を、前記サブフレーム別残差信号強度に基づいて、該残差信号の強度が隣接するサブフレームの間でなだらかに変化するように復元する、ことが望ましい。

サブフレームの境界でサブフレーム別残差信号強度が急激に変化することを防止すること、つまりスムージング処理により、再生音声信号が自然なものとなる。

前記復号部は、前記元の音声信号について所定の帯域毎かつ前記サブフレーム毎に該帯域について該サブフレームが雑音に対応しているものであるかそれとも非雑音に対応しているものであるかを示すフラグが符号化されたものをさらに受け取り、該フラグをさらに復号する、ことを特徴とし、前記残差信号復元部は、前記フラグに基づいて、前記所定の帯域毎に、隣接する２個の前記サブフレームが該帯域についてそれぞれ雑音に対応しているものであるかそれとも非雑音に対応しているものであるかを判別し、隣接する２個の前記サブフレームが雑音に対応しているものどうしである場合と非雑音に対応しているものどうしである場合には、前記残差信号のうちの該帯域の成分を、前記サブフレーム別残差信号強度に基づいて、該残差信号の強度が隣接するサブフレームの間でなだらかに変化するような所定の円滑化を施して復元し、隣接する２個の前記サブフレームが雑音に対応しているものと非雑音に対応しているものとである場合には、該所定の円滑化を施さない、ことが望ましい。

雑音と非雑音とは、性質の違いのため、信号強度を直接比較しても有益な情報は得られない。そこで、同一の帯域において、雑音的性質を有するサブフレームと雑音的性質を有さないサブフレームとが隣接している場合には、むしろ上述のスムージング処理は行わないほうが再生音声信号が自然なものとなる。

上記目的を達成するために、この発明の第３の観点に係る音声符号化方法は、
入力音声信号を所定の時間枠であるサブフレーム毎に残差信号と所定の次数までの予測係数とに分解する予測分析ステップと、
前記残差信号から該残差信号を特徴付ける量である特徴量を抽出する特徴量抽出ステップと、
複数の連続する前記サブフレームから構成されるメインフレーム毎に次数が共通する前記予測係数を成分とする係数ベクトルを生成する係数ベクトル生成ステップと、
前記係数ベクトル毎に、絶対値が最大となる成分を特定し、該成分の絶対値である係数ベクトル最大絶対値を求め、該係数ベクトル最大絶対値により該係数ベクトルの全成分を除して正規化係数ベクトルを求めるベクトル正規化ステップと、
前記係数ベクトル最大絶対値をスカラー量子化してスカラー量子化係数ベクトル最大絶対値を生成するスカラー量子化ステップと、
前記正規化係数ベクトルをベクトル量子化してベクトル量子化正規化係数ベクトルを生成するベクトル量子化ステップと、
前記特徴量と前記スカラー量子化係数ベクトル最大絶対値と前記ベクトル量子化正規化係数ベクトルとを符号化する符号化ステップと、
から構成される。

上記目的を達成するために、この発明の第４の観点に係る音声復号方法は、
所定の時間枠であるサブフレーム毎に元の音声信号から予測分析における次数毎の予測係数として抽出された値が、複数の連続する前記サブフレームから構成されるメインフレーム毎かつ前記次数毎にまとめられることにより該メインフレーム毎かつ該次数毎の正規化用スカラー値と正規化ベクトルとの組として表現された後、前記正規化用スカラー値に対するスカラー量子化及び前記正規化ベクトルに対するベクトル量子化が施された結果生成されたスカラー量子化正規化用スカラー値及びベクトル量子化正規化ベクトルと、前記サブフレーム毎に前記元の音声信号から前記予測分析における残差信号を特徴付ける量として抽出された特徴量と、が符号化されたものを受け取り、前記スカラー量子化正規化用スカラー値及び前記ベクトル量子化正規化ベクトルと、前記特徴量と、を復号する復号ステップと、
前記スカラー量子化正規化用スカラー値に逆スカラー量子化を施して疑似正規化用スカラー値を求め、前記ベクトル量子化正規化ベクトルに逆ベクトル量子化を施して疑似正規化ベクトルを求め、前記疑似正規化用スカラー値を前記疑似正規化ベクトルに乗じることにより得られるベクトルの成分を擬似的な予測係数として出力する逆量子化ステップと、
前記特徴量に基づいて前記元の音声信号の残差信号を復元し励起信号として出力する残差信号復元ステップと、
前記逆量子化ステップにより出力された擬似的な予測係数により定義される合成フィルタに前記残差信号復元ステップにより出力された励起信号が入力されることにより再生音声信号を出力する疑似合成ステップと、
から構成される。

上記目的を達成するために、この発明の第５の観点に係るプログラムは、
コンピュータに、
入力音声信号を所定の時間枠であるサブフレーム毎に残差信号と所定の次数までの予測係数とに分解する予測分析ステップと、
前記残差信号から該残差信号を特徴付ける量である特徴量を抽出する特徴量抽出ステップと、
複数の連続する前記サブフレームから構成されるメインフレーム毎に次数が共通する前記予測係数を成分とする係数ベクトルを生成する係数ベクトル生成ステップと、
前記係数ベクトル毎に、絶対値が最大となる成分を特定し、該成分の絶対値である係数ベクトル最大絶対値を求め、該係数ベクトル最大絶対値により該係数ベクトルの全成分を除して正規化係数ベクトルを求めるベクトル正規化ステップと、
前記係数ベクトル最大絶対値をスカラー量子化してスカラー量子化係数ベクトル最大絶対値を生成するスカラー量子化ステップと、
前記正規化係数ベクトルをベクトル量子化してベクトル量子化正規化係数ベクトルを生成するベクトル量子化ステップと、
前記特徴量と前記スカラー量子化係数ベクトル最大絶対値と前記ベクトル量子化正規化係数ベクトルとを符号化する符号化ステップと、
を実行させる。

上記目的を達成するために、この発明の第６の観点に係るプログラムは、
コンピュータに、
所定の時間枠であるサブフレーム毎に元の音声信号から予測分析における次数毎の予測係数として抽出された値が、複数の連続する前記サブフレームから構成されるメインフレーム毎かつ前記次数毎にまとめられることにより該メインフレーム毎かつ該次数毎の正規化用スカラー値と正規化ベクトルとの組として表現された後、前記正規化用スカラー値に対するスカラー量子化及び前記正規化ベクトルに対するベクトル量子化が施された結果生成されたスカラー量子化正規化用スカラー値及びベクトル量子化正規化ベクトルと、前記サブフレーム毎に前記元の音声信号から前記予測分析における残差信号を特徴付ける量として抽出された特徴量と、が符号化されたものを受け取り、前記スカラー量子化正規化用スカラー値及び前記ベクトル量子化正規化ベクトルと、前記特徴量と、を復号する復号ステップと、
前記スカラー量子化正規化用スカラー値に逆スカラー量子化を施して疑似正規化用スカラー値を求め、前記ベクトル量子化正規化ベクトルに逆ベクトル量子化を施して疑似正規化ベクトルを求め、前記疑似正規化用スカラー値を前記疑似正規化ベクトルに乗じることにより得られるベクトルの成分を擬似的な予測係数として出力する逆量子化ステップと、
前記特徴量に基づいて前記元の音声信号の残差信号を復元し励起信号として出力する残差信号復元ステップと、
前記逆量子化ステップにより出力された擬似的な予測係数により定義される合成フィルタに前記残差信号復元ステップにより出力された励起信号が入力されることにより再生音声信号を出力する疑似合成ステップと、
を実行させる。

本発明によれば、分析合成型の音声信号通信において、装置の簡素さ、低ビットレート通信、及び、高音質再生、を同時に達成することができる。

以下では、本発明の実施の形態について説明する。ただし、はじめに、理解を容易にするために、本発明の特徴のひとつである、音声復号装置の機能の多くを音声符号化装置に取り込むことによる、残差信号復元方針決定のためのフィードバックループの概要を説明する。その後で、本発明の実施の形態に係る音声符号化装置及び音声復号装置について詳細に説明する。なお、実施形態を順次記述するにあたっては、原則として、同一の部材については同一の符号を付すこととし、また、その説明は省略することがある。

（残差信号復元方針決定のためのフィードバックループについて）
予測分析の概要を、図１を参照しつつ、説明する。入力音声信号は、予測分析部１５により、予測係数と残差信号とに分解される。

実際には、まず、予測分析部１５は、入力音声信号を予測分析することにより予測係数を求める。次に、予測分析部１５は、求めた予測係数から、内蔵の予測分析用逆フィルタ算出器１７により、任意の既知の手法を用いて、予測分析用逆フィルタ（図示せず。）の仕様を決定する。続いて、このように仕様が決定された予測分析用逆フィルタに入力音声信号が通されることにより、残差信号が生成される。

予測係数は、合成フィルタ部１の仕様を定める。このことを、予測係数が合成フィルタ部１を定義するともいう。この合成フィルタ部１に、予測分析部１５から出力された残差信号が、励起用残差信号として通されることにより、再生音声信号が生成される。

こうして生成された再生音声信号は、解析的には、元の音声信号である入力音声信号と等価である。よって、原理的には、再生音声信号を入力音声信号として予測分析部１５に入力すると、先と同じ予測係数と残差信号とが得られ、合成フィルタ部１の仕様は先のものと同じになり、さらには、残差信号が励起用残差信号として合成フィルタ部１に通されると、再び、先と同じ再生音声信号が得られる。

したがって、合成フィルタ部１と予測分析部１５とを、前者の出力が後者の入力となるように仮想的に接続すると、入力音声信号、予測係数と残差信号との組、再生音声信号、入力音声信号、予測係数と残差信号との組、再生音声信号、入力音声信号、・・・のように無限に続く仮想的な信号変換ループが構築される。上述のとおり再生音声信号は入力音声信号と等価であるから、かかるループは、定常的な信号変換ループであるといえる。

なお、移動体通信における分析合成型の典型的な音声圧縮合成方式は、最も単純に説明すれば、予測分析部１５を備える送信機たる音声符号化装置と、合成フィルタ部１を備える受信機たる音声復号装置と、から構成されるといえる。予測係数と残差信号とは、送信機たる音声符号化装置により、典型的には電波信号に重畳されて、受信機たる音声復号装置に届けられる。

送信機たる音声符号化装置が、予測係数と残差信号とを、それらに何らの加工も施さずに受信器たる音声復号装置に送れば、上述のとおり、原理的には、受信機たる音声復号装置は、音声符号化装置に入力された音声と等価な音声を再生することができる。これは、再生音声の品質が上限値に達した、理想的な状態であるといえる。

しかし、予測係数と残差信号とをそのまま送るとすると、伝達されるべき情報量が大きすぎるため、低ビットレート通信においてはオーバーフローが生じてしまう。

そこで、例えば、残差信号をそのまま送る代わりに、いくつかの典型的な残差信号と符号とを対応させたテーブルを、送信機たる音声符号化装置と受信機たる音声復号装置とで共有して、前者から後者には該符号だけを送ることにしたり、送信機たる音声符号化装置が残差信号に何らかの情報圧縮加工を施してから受信機たる音声復号装置に引き渡したり、といった工夫が必要となる。

かかる工夫は、結局のところ、何らかの近似手法を用いることに他ならない。かかる工夫により、低ビットレート通信が可能にはなる。しかし、当然のことながら、上述の理想的な状態に比較すると、少なくとも、再生音声信号が入力音声信号とは異なるものになるという意味では、受信機たる音声復号装置が発する再生音声は必ず音質が低下する。

これは、上述の仮想的な信号変換ループが、理想的な状態の場合と異なり、定常的なものとならないことを意味する。

本発明の後述の実施形態１に係る音声符号化装置は、予測係数と残差信号の両方に加工を施す。上述のとおり、かかる加工は近似手法に他ならない。よって、本発明の実施形態１に係る音声符号化装置においても、少なくとも、再生音声信号が入力音声信号とは異なるものになるという意味では、受信機たる音声復号装置が発する再生音声には必ず音質低下が生じる。

かかる音質低下を最小限に抑えるためには、上述の仮想的な信号変換ループを、少しでも定常的なものに近づけることが必要である。そのためには、かかるループにおいて、例えば、図１の合成フィルタ部１から出力された出力音声信号に対して、何らかの修正を施してから、入力音声信号として予測分析部１５に戻すようにすればよい。

本発明の実施形態１に係る音声符号化装置は、後に詳細に説明するように、音声復号装置の機能の多くを取り込んだ装置となっている。これは、基本的には、上述の仮想的な信号変換ループを、少しでも定常的なものに近づけようとの思想に基づいて、残差信号復元方針決定のためのフィードバックループを、少なくとも一回り、実行するためである。

かかるフィードバックループを、図２を参照しつつ、説明する。図２は、本発明の実施形態１に係る音声符号化装置の機能の骨格を、模式的に示したものである。図示された各種機能ブロックの詳細な説明は後に譲ることとし、ここでは、説明の焦点を、上述のフィードバックループに絞ることとする。

図２を図１と比較することにより、本発明の実施形態１に係る音声符号化装置が、低ビットレート通信のための近似を信号変換過程のどの箇所で用いているかが明らかとなる。まず、図２において、予測分析部１５が入力音声信号を予測分析して予測係数と残差信号とに分解するところまでは、図１の場合と全く同じである。

ところが、この後、図１においては、予測係数を直接用いて合成フィルタ部１を定義しているのに対し、図２においては、予測係数を量子化及び逆量子化部２に入力することにより生成される疑似予測係数により合成フィルタ部を定義している。定義に用いられる係数が異なるために、図２の合成フィルタ部は、図１の合成フィルタ部１と区別して、疑似合成フィルタ２７と呼ぶことにする。

さらに、図１においては、残差信号を直接に合成フィルタ１に励起用残差信号として入力しているのに対し、図２においては、残差信号を特徴量抽出及び復元部５１に入力することにより生成される試行用励起信号を疑似合成フィルタ部２７に入力している。

図２の量子化及び逆量子化部２の内部と、特徴量抽出及び復元部５１の内部と、には、それぞれいくつかの機能ブロックが含まれているが、これらの詳細については後述する。簡単にいえば、量子化及び逆量子化部２は、予測係数をいったん量子化してそれを逆量子化する機能を有するものであり、特徴量抽出及び復元部５１は、残差信号からそれを特徴付ける量である特徴量を抽出してから残差信号復元を試行する機能、すなわち該特徴量を手がかりにして残差信号になるべく近い信号を生成する機能を有するものである。

図２の量子化及び逆量子化部２の内部で行われる量子化と、特徴量抽出及び復元部５１の内部で行われる特徴量抽出と、が、まさに、本発明の実施形態１に係る音声符号化装置が低ビットレート通信を可能とするために行う近似である。

上述の量子化と特徴量抽出とは、いずれも、情報量を減少させるために情報の一部を切り捨てる処理である。このようにいったん情報の一部を切り捨てた以上、上述の逆量子化と残差信号復元試行とによって得られた疑似予測係数と試行用励起信号とは、それぞれ、元の予測係数と元の残差信号とは異なるものとなっている。この様子を、図１を参照しつつ説明した仮想的な信号変換ループと比較して考察すると、再生音声信号を入力音声信号と等価にすることこそが究極の音質低下防止策であるとの観点からすれば、図２の量子化及び逆量子化部２と特徴量抽出及び復元部５１とは、信号品質を劣化させるだけのものということになる。

かかる信号品質劣化は、低ビットレート通信を可能にするために必要な近似の結果であるから、やむを得ない。もっとも、本発明の実施形態１に係る音声符号化装置の内部の疑似合成フィルタ２７が生成した再生音声信号を、そのまま音声復号装置が生成する必要はない。音声符号化装置は、元の入力音声信号を得ているのであるから、疑似合成フィルタ部２７が生成した再生音声信号を、試行用再生音声信号として、元の入力音声信号と比較することができる。この比較を行うために、音声符号化装置は、修正因子決定部３３を備える。修正因子決定部３３は、かかる比較の結果を踏まえて、試行用再生音声信号よりも元の入力音声信号に近い信号を疑似合成フィルタ部２７に生成させるためには、特徴量抽出及び復元部５１の内部で残差信号復元試行を行う際の試行方針をどのように修正するのが適切か、を決定する。これは、図２の点線矢印で示されるように、フィードバックループが形成されることを意味する。

もっとも、音声符号化装置は、音声再生を目的とする装置ではないから、音声符号化装置においては、修正因子決定部３３が決定した修正された試行方針に従って、実際にもう一度残差信号を特徴量抽出及び復元部５１に通して励起用の信号を得て疑似合成フィルタ部２７を通して新たな再生音声信号を作り直す動作は、必須ではない。音声符号化装置は、修正因子決定部３３が決定した修正の仕方を音声復号装置に伝達すれば、十分である。そして、音声復号装置が残差信号復元を行うときに、かかる修正の仕方に従うようにすればよい。これにより、音声復号装置が再生する音声は、それを表す信号が、音声符号化装置内で生成される試行用再生音声信号よりは、元の入力音声信号に近いという意味で、高品質化が達成された音声であるといえる。

修正因子決定部が決定する修正指示内容としては、様々なものであってよいが、本発明の実施形態１に係る音声符号化装置の場合は、修正因子決定部３３は、信号の強度をどのように修正すべきかを決定する。そので、ここでは、その概略を、先に図１を参照しつつ説明した仮想的な信号変換ループと対応させつつ説明する。

上述の仮想的な信号変換ループは、信号強度の点でも、定常的なループである。すなわち、仮に信号強度を電圧（V）で表すとして、入力音声信号の信号強度が最初に例えばI_S(0)=300Vであり、残差信号の信号強度が最初に例えばI_R(0)=200Vであるとする。すると、再生音声信号の信号強度は最初、I_W(0)=I_S(0)=300Vであり、再生音声信号が入力音声信号として戻ってきたときの入力音声信号の信号強度はI_S(1)= I_W(0)=300Vである。300Vの入力音声信号の残差信号の信号強度は上述のとおり200Vであったから、2回目の残差信号の信号強度もI_R(1)=200Vとなる。何回ループしても、以下同様である。よって、I_S(0)=I_S(1)=I_S(2)=・・・=300V、I_R(0)=I_R(1)=I_R(2)=・・・=200V、I_W(0)=I_W(1)=I_W(2)=・・・=300V、となる。

一方、図２において、疑似合成フィルタ２７の出力である試行用再生音声信号を、予測分析部１５に入力音声信号として入力することにより想定される仮想的な信号変換ループは、上述のように、量子化及び逆量子化部２と、特徴量抽出及び復元部５１と、による近似過程が挿入されているために、定常的なループとはならない。例えば、ループを回るたびに、信号強度が変化してしまうことが考えられる。

上述の図１の説明に準じれば、I_S(0)=300Vに対して、I_R(0)=200Vとなるところまでは、図１の場合と同じである。しかし、図２の試行用励起信号の信号強度I_E(0)は、I_R(0)とは異なる値、例えば、I_E(0)=180V、つまりI_R(0)の90％となってしまう場合が考えられる。

すると、図２の疑似合成フィルタには、理想的には信号強度I_R(0)=200Vの信号が入力されるべきところが、その90％の信号強度I_E(0)=180Vしかない信号が入力されるので、疑似合成フィルタ部２７が理想的な信号強度である300Vを有する再生音声信号を出力することは期待できない。さらに、そもそも、合成フィルタ部自体が、図１に示す理想的な合成フィルタ部１ではなく、疑似予測係数により定義された疑似合成フィルタ部２７であるので、たとえ理想的な信号強度である200Vの残差信号が入力されたとしても、理想的な信号強度である300Vを有する再生音声信号を出力することは期待できない。

かかる複合的な要因のために、図２の合成フィルタ部２７が出力する試行用再生音声信号の信号強度I_W(0)は、理想的な値であるI_S(0)の80％にすぎない240Vになってしまうとする。

音声復号装置が音声を再生するときには、その信号強度ができるだけ理想的な値である300Vに近いことが、音質劣化防止の上では重要である。一方、音声復号装置が疑似合成フィルタ部２７により生成した音声信号の信号強度は上述のとおり240Vにとどまり、理想的な値の80％にすぎない。

そこで、図２の修正因子決定部３３は、疑似合成フィルタ部２７から出力された試行用再生音声信号の信号強度I_W(0)=240Vと、元の入力音声信号の信号強度I_S(0)=300Vとを比較する。この比較により、修正因子決定部３３は、信号強度がI_W(0)/ I_S(0)=0.8のように低下していることを認識する。信号強度が低下しているのであるから、特徴量抽出及び復元部５１における残差信号復元試行の際に、信号強度を前記0.8の逆数である1.25倍に割り増しして扱うようにすれば、再生音声は、より元の入力音声信号に近づくという意味で、高音質を有するものになると期待される。そこで、修正因子決定部は、かかる1.25倍の割り増し修正指示を、修正内容として決定する。

かかる修正内容は音声復号装置に伝達される。そして、音声復号装置は、残差信号復元試行動作の際に、修正内容である、信号強度の1.25倍の割り増しを行う。これは、図２に対応させれば、I_R(0)=200Vであった残差信号を、特徴量抽出及び復元部５１の内部では1.25倍して扱い、その結果、特徴量抽出及び復元部５１の出力である試行用励起信号も、元のI_E(0)＝180Vの1.25倍である180×1.25=225Vの信号強度を有する信号として出力される。この信号は、音声復号装置の内部の疑似合成フィルタ部２７に入力される。

上述のとおり、疑似合成フィルタ部２７は、180Vの信号強度を有する励起信号に対して、240Vの信号強度を有する試行用再生音声信号を生成したので、線型性を仮定すれば、修正因子決定部３３の指示内容を反映した再生音声信号の信号強度は、225V×240/180=300Vとなる。つまり、音声復号装置が再生する音声の信号強度が300Vである。この値は、元の入力音声信号を忠実に再現するという意味で理想的な値であるI_S(0)=300Vと一致する。もちろん、ここでは簡略化した具体例を挙げているにすぎず、かかる一致そのものには特に意義はない。しかし重要なのは、修正因子決定部３３の指示内容が反映されていない時点での再生音声信号の信号強度、すなわち、音声符号化装置の内部の疑似合成フィルタ部２７が生成した試行用再生音声信号強度であるI_W(0)=240Vよりは、該指示内容が反映されつつ生成された再生音声信号の信号強度は、元の入力音声信号の強度I_S(0)=300Vに近くなることである。このように、音声符号化装置の中で試行用再生音声信号を生成して、それを修正因子決定部３３が元の入力音声信号と比較し、できるだけ定常的な信号変換ループを形成するためのフィードバックを図２の点線矢印のように行うとすればいかなるフィードバックをかけるべきか、を修正因子決定部３３が決定し、決定されたフィードバックのかけかたを音声符号化装置が音声復号装置に伝達し、音声復号装置がそれに沿って音声を再生するようにすれば、音声復号装置が生成する再生音声の品質は向上する。

フィードバックの内容が、上に例示した信号強度修正である場合には、修正因子決定部３３は、入力音声信号の信号強度の、試行用再生音声信号の信号強度に対する比率、例えば上述の例ではI_S(0)/I_W(0)=300V÷240V=1.25という割増率、を求めることが重要である。このI_S(0)/I_W(0)という計算の具体例は、後に、より詳細に説明する。

なお、音声符号化装置と音声復号装置とにおいて行われる全ての信号処理が線型的であれば、信号強度の修正は、例えば、音声復号装置にボリューム調整器を取り付けて、それによりゲイン制御を行えばよいともいえる。しかし、本発明の特徴のひとつは、残差信号を帯域分割する等、各種信号が複数の段階にわたり処理されることにあるため、原理的には線型的な処理過程においても実際には非線形効果が入り込んでしまう場合も多いため、上述のような信号強度の修正は、音質向上に資する。

（実施形態１）
図３は、本発明の実施形態１に係る音声符号化装置３の機能構成図である。

音声符号化装置３は、図示するように、マイクロフォン１１と、Ａ／Ｄ変換部１３と、予測分析部１５と、ベクトル正規化部１９と、スカラー量子化部２１と、ベクトル量子化部２３と、合成フィルタ算出部２５と、疑似合成フィルタ部２７と、残差信号特徴量抽出部２９と、残差信号復元試行部３１と、修正因子決定部３３と、符号化部３５と、送信部３７と、を備える。

予測分析部１５は、予測分析用逆フィルタ算出器１７を内蔵している。

マイクロフォン１１に入力されたアナログ入力音声信号は、Ａ／Ｄ変換部１３により、例えば16kHzサンプリングにより、デジタル入力音声信号に変換されてから、予測分析部１５に引き渡される。該デジタル入力信号は、以後、後述の同一メインフレームの中において添字jで識別されるサブフレームという時間長12〜20ms程度の時間区間と、連続したZ個のサブフレームから構成され添字iで識別されるメインフレームという時間区間と、に分けて扱われる。後にその根拠を述べるとおり、例えばZ=4とするのが好適である。そして、ひとかたまりのデジタル入力信号は、M個のメインフレームから構成されているものとする。

ここで、ひとかたまりのデジタル入力信号とは、以下の説明において、一括的に処理されることが想定される時間長に対応した信号を指す。該時間長は固定長であっても可変長であってもかまわない。換言するとMは固定値でも可変値でもかまわない。該時間長は、後述の音声復号装置４が備える後述の記憶部３１５の記憶容量が許すならば、例えば、音声符号化装置のユーザが一息で話す時間に合わせてもよい。

しかし、該時間長に基づき一括的な信号処理がなされることから、該時間長は、音声符号化装置３から後述の音声復号装置４への通信に際しての最小時間単位に相当する。すなわち、該時間長は、理想的なリアルタイム通話からの遅延時間の下限を決定する。音声符号化装置３のユーザと後述の音声復号装置４のユーザとにとっては、できるだけリアルタイム通話に近い通話が可能となるような通信が可能となる方が、使い勝手の観点からは望ましいと考えられるので、その点では、後述のＣＰＵ３１１や無線通信部３１７等が動作するに際して過剰な負荷がかかることによりかえって処理速度を低下させてしまわない限度で、該時間長を短くしてもよい。

このように、メインフレームは、理解の便宜上の一括処理の単位という意義を有する。ただし、メインフレームは、他に、より本質的な意義として、後述するように、ベクトル量子化を行うための単位であるという意義を有する。

以下で扱われるデジタル入力信号は、サブフレーム単位では、時間順に、S_0、0、・・・、S_0、j、・・・、S_0、Z-1、S_1、0、・・・、S_i-1、Z-1、S_i、0、・・・、S_i、j、・・・S_i、Z-1、S_i+1、0、・・・、S_M-2、Z-1、S_M-1、0、・・・、S_M-1、Z-1のように、0≦i≦M-1、0≦j≦Z-1、の添字i、jによって表すことにする。

各サブフレームには、サンプルがL個ずつ含まれているとし、iとjとで識別されるサブフレームにおけるサンプルを、時間順に、S_i、j={s_i、j、0、・・・、s_i、j、t、・・・、s_i、j、L-1}(0≦t≦L-1)のように表すことにする。

本実施形態においては、発明の理解を容易にするために、通信処理を含めた各種処理の方式として上述のようなひとかたまりの信号に対する一括処理という態様を想定するが、当然のことながら、任意の既知の信号処理方式や通信方式、例えばある処理は一括処理とし別の処理はより細切れの情報単位での処理とする等の方式を採用してもよい。

予測分析部１５は、引き渡されたデジタル音声信号に、N次の予測分析、好ましくはやＭＬＳＡ（Mel Log Spectrum Approximation）分析、を施す。そしてその結果、予測分析部１５は、該デジタル音声信号を、サブフレーム毎に、予測係数と残差信号とに分解する。該分解は、実際には、まず予測分析部１５が各サブフレームについてＭＬＳＡ係数等の予測係数を算出し、次に、該予測係数から、予測分析用逆フィルタ算出器１７が、予測分析用逆フィルタ（図示せず。）を求め、デジタル音声信号が該予測分析用逆フィルタに入力された結果として、残差信号が求まる。

iとjとで識別されるサブフレームにおける予測係数は、次数の昇順に、C_i、j={c_i、j、0、・・・、c_i、j、k、・・・、c_i、j、N-1}(0≦k≦N-1)のように表すことにする。

Nは予測分析の次数であり、上述のようにサンプリングレートとして16kHzサンプリングを採用した場合には、15乃至20とすることが好適である。

iとjとで識別されるサブフレームにおける残差信号は、時間順に、D_i、j={d_i、j、0、・・・、d_i、j、t、・・・、d_i、j、L-1}(0≦t≦L-1)のように表すことにする。

なお、このように、予測係数も残差信号も、特定のサブフレームに属するものとして表記するが、実際に予測分析部１５が行う予測分析の計算のための時間区間は、サブフレームよりも長くてもさしつかえない。あるサブフレームに属するものとして表記される予測係数及び残差信号は、あくまでも、該サブフレームを代表する予測係数及び残差信号であればよい。

例えば、あるサブフレームにおける予測分析のために、該サブフレームに対応する時間帯に実際に含まれる信号サンプルデータに加えて、計算上、時系列においてひとつ前のサブフレームの後半に対応する時間帯に実際に含まれる信号サンプルデータと、ひとつ後のサブフレームの前半に対応する時間帯に実際に含まれる信号サンプルデータと、をも用いてもよい。

予測分析部１５により算出された予測係数は、そのままベクトル正規化部１９に引き渡される。

ベクトル正規化部１９は、後にフローチャートを参照して詳しく説明するように、予測係数をメインフレーム毎かつ次数毎にまとめることにより、係数ベクトルを生成する。続いて、該係数ベクトルを、正規化する。ベクトル正規化部１９は、続いて、正規化のために用いたスカラーである係数ベクトル最大絶対値をスカラー量子化部２１に、正規化の結果得られたベクトルである正規化ベクトルをベクトル量子化部２３に、それぞれ引き渡す。

スカラー量子化部２１は、引き渡された係数ベクトル最大絶対値をスカラー量子化することによりスカラー量子化係数ベクトル最大絶対値を求め、合成フィルタ算出部２５と、符号化部３５と、に引き渡す。

ベクトル量子化部２３は、引き渡された正規化係数ベクトルをベクトル量子化することによりベクトル量子化正規化係数ベクトルを求め、合成フィルタ算出部２５と、符号化部３５と、に引き渡す。

合成フィルタ算出部２５は、スカラー量子化部２１から引き渡されたスカラー量子化係数ベクトル最大絶対値を逆スカラー量子化した値を、ベクトル量子化部２３から引き渡されたベクトル量子化正規化係数ベクトルを逆ベクトル量子化したベクトルに乗じることにより、逆量子化係数ベクトルを生成する。合成フィルタ算出部２５は、続いて、逆量子化係数ベクトルの成分を取り出して疑似予測係数を生成し、該疑似予測係数により、疑似合成フィルタ部２７の合成フィルタとしての仕様を定義する。

予測分析部１５により求められた残差信号は、残差信号特徴量抽出部２９に引き渡される。

残差信号特徴量抽出部２９は、引き渡された残差信号から、該残差信号を特徴付ける量である特徴量を抽出し、符号化部３５と残差信号復元試行部３１とに引き渡す。なお、残差信号特徴量抽出部２９の詳細については、後に図面を改めて説明する。

残差信号復元試行部３１は、特徴量を残差信号特徴量抽出部２９から取得するとともに、予測分析部１５が算出した予測係数の一部をも取得した上で、特徴量を手がかりに、予測分析部１５が求めた残差信号にできる限り近い信号を、試行用励起信号として生成する。生成された試行用励起信号は、疑似合成フィルタ部２７への入力信号となる。なお、残差信号復元試行部３１の詳細については、後に図面を改めて説明する。

疑似合成フィルタ部２７は、合成フィルタ算出部２５が生成した疑似予測係数により定義された後、残差信号復元試行部３１が生成した試行用励起信号が入力されることにより、試行用再生音声信号を生成する。該試行用再生音声信号を生成する目的は、先にフィードバックループについて説明したとおり、音声の再生そのものではなく、後述の音声復号装置４が高品質の音声を再生することができるよう修正因子決定部３３が修正方針を決定するための基礎データを提供することである。

つまり、符号を受け取った後述の音声復号装置４が行うことになる、残差信号及び音声信号を復元する動作を、音声符号化装置３が、あらかじめなぞって、音声信号がどの程度忠実に再現されるかを調査しておく。そして、音声符号化装置３は、かかる調査の結果に基づいて決定した、残差信号及び音声信号の適切な復元の方針を、音声復号装置４に伝達する。すると、音声復号装置４が該方針に従って生成した音声は、元の音声に近いという点で、高品質なものとなる。

修正因子決定部３３には、修正方針を決定するための基礎データとして、疑似合成フィルタ部２７が生成した試行用再生音声信号と、Ａ／Ｄ変換部１３が求めたデジタル入力音声信号と、が提供される。修正因子決定部３３は、該試行用再生音声信号と該デジタル入力音声信号とを比較して、修正方針を決定する。該修正方針は、本実施形態の場合は、信号強度に関する修正方針であるので、以下では、かかる修正方針全般又は具体的な信号強度値を指して、単に修正強度と呼ぶことにする。修正因子決定部３３は、決定した修正強度を、符号化部３５に引き渡す。

符号化部３５は、スカラー量子化部２１からスカラー量子化係数ベクトル最大絶対値を、ベクトル量子化部２３からベクトル量子化正規化係数ベクトルを、残差信号特徴量抽出部２９から特徴量を、修正因子決定部３３から修正強度を、それぞれ受け取り、これらをまとめて、任意の既知の手法により符号化し、かかる符号化により得られた符号を、送信部３７に引き渡す。

送信部３７は、符号化部３５から引き渡された符号を、後述の音声復号装置４に向けて、送信する。送信方法は、本実施形態においては、無線通信によるものとするが、他の、有線や、有線と無線の併用など、様々な通信方法によるものであってもよい。

図４は、本実施形態に係る音声復号装置４の機能構成図である。

音声復号装置４は、図示するように、受信部６１と、復号部６３と、残差信号復元部６５と、Ｄ／Ａ変換部６７と、スピーカ６９と、を備える。

音声復号装置４は、図中で太枠で示されているとおり、合成フィルタ算出部２５と、疑似合成フィルタ部２７と、をさらに備える。これら、合成フィルタ算出部２５及び疑似合成フィルタ部２７は、それぞれ、音声符号化装置３における、図３の中で太線で示されている合成フィルタ算出部２５及び疑似合成フィルタ部２７と同じものである。

音声復号装置４における合成フィルタ算出部２５及び疑似合成フィルタ２７は、音声復号装置には必須のものである。それに対し、音声符号化装置３における両者は、音声復号装置４における音声復号動作の一部をあらかじめなぞってみて修正因子３３により修正強度を求めるための基礎データを得るために備えられているものであって、音声復号装置４が高品質の音声を再生することができるようにするために必要なものであるが、音声を単に符号化するという観点からは必須のものではない。

図４に示す音声復号装置４の受信部６１は、図３に示す音声符号化装置３の送信部３７から送信される、スカラー量子化係数ベクトル最大絶対値とベクトル量子化正規化係数ベクトルと特徴量と修正強度とが符号化されたものである符号を受け取り、図４に示す復号部６３に引き渡す。

復号部６３は、受信部から引き渡された符号を、音声符号化装置３の符号化部３５で用いられた符号化方法に対応する復号方法により復号することにより、スカラー量子化係数ベクトル最大絶対値とベクトル量子化正規化係数ベクトルと特徴量と修正強度とを生成する。復号部６３は、これらのうち、スカラー量子化係数ベクトル最大絶対値とベクトル量子化正規化係数ベクトルとを合成フィルタ算出部２５に引き渡し、特徴量と修正強度とを残差信号復元部６５に引き渡す。

合成フィルタ算出部２５は、復号部６３から引き渡されたスカラー量子化係数ベクトル最大絶対値を逆スカラー量子化した値を、同じく復号部６３から引き渡されたベクトル量子化正規化係数ベクトルを逆ベクトル量子化したベクトルに乗じることにより、逆量子化係数ベクトルを生成する。合成フィルタ算出部２５は、続いて、逆量子化係数ベクトルの成分を取り出して疑似予測係数を生成し、該疑似予測係数により、疑似合成フィルタ部２７の合成フィルタとしての仕様を定義する。

残差信号復元部６５は、特徴量と修正強度とを復号部６３から取得するとともに、特徴量を手がかりに、該修正強度を加味しつつ、音声符号化装置３の予測分析部１５が求めた残差信号に近い信号であることが期待される信号を、復号用励起信号として生成する。生成された復号用励起信号は、疑似合成フィルタ部２７への入力信号となる。なお、残差信号復元部６５は、音声符号化装置３の残差信号復元試行部３１に似た動作を行う。この点については、後に、残差信号復元試行部３１の詳細とともに説明する。

疑似合成フィルタ部２７は、合成フィルタ算出部２５が生成した疑似予測係数により定義された後、残差信号復元部６５が生成した復号用励起信号が入力されることにより、デジタル再生音声信号を生成する。

デジタル再生音声信号はＤ／Ａ変換部６７によりアナログ再生音声信号に変換された後、スピーカ６９に送られる。こうして、スピーカ６９からは、復元された音声信号が、人間の耳に聞こえる態様にて発せられる。

図５は、図３の音声符号化装置３の残差信号特徴量抽出部２９の詳細な機能構成を示す図である。

残差信号特徴量抽出部２９は、引き渡された各サブフレームの残差信号D_i、j={d_i、j、0、・・・、d_i、j、L-1}を、内蔵の総合ピッチ判別部５と、帯域フィルタ部１１５と、原則的にはピッチ抽出部１１３と、に引き渡す。ただし、ピッチ抽出部１１３にはピッチ抽出用スイッチ部１１１が前置されているため、ピッチ抽出部１１３に対しては、残差信号D_i、jが引き渡されるとは限らない。

総合ピッチ判別部５は、残差信号D_i、jからピッチを抽出することができるか否かを判別する。該判別には任意の既知の手法を用いてよい。例えば、残差信号D_i、jについて、規格化された自己相関関数
C_REG(τ)=C(τ)/REG(τ)
（ただし、
C(τ)=d_i、j、0×d_i、j、τ+・・・
+d_{i、j、L-1-τ}×d_i、j、L-1
であり、
REG(τ)={(d_i、j、0 ²＋・・・＋d_{i、j、L-1-τ} ²)
×(d_i、j、τ ²＋・・・＋d_i、j、L-1 ²)}^0.5
である。）
を計算し、C_REG(τ)が例えば0.5よりも大きい極大値を有する場合はピッチを抽出することができると判別し、C_REG(τ)が0.5よりも大きい極大値を有しない場合はピッチを抽出することができないと判別する。

総合ピッチ判別部５は、残差信号D_i、jからピッチを抽出することができると判別した場合は、ピッチ抽出用スイッチ部１１１に対して、スイッチを閉じるよう、指令を送る。該指令を受けたピッチ抽出用スイッチ部１１１はスイッチを閉じて、残差信号D_i、jがピッチ抽出部１１３に送られるようにする。

一方、総合ピッチ判別部５は、残差信号D_i、jからピッチを抽出することができないと判別した場合は、ピッチ抽出用スイッチ部１１１に対して、スイッチを開くよう、指令を送る。該指令を受けたピッチ抽出用スイッチ部１１１はスイッチを開いて、残差信号D_i、jがピッチ抽出部１１３に送られないようにする。

ピッチ抽出部１１３は、残差信号D_i、jが送られてきた場合には、該残差信号D_i、jのピッチ長P_i、jを求める。ピッチ抽出部１１３に残差信号が送られてきたということは、ピッチ抽出用スイッチ部１１１のスイッチの開閉を指示する総合ピッチ判別部５が、該残差信号からピッチを抽出することができると判別したということである。したがって、ピッチ抽出部１１３は、送られてきた残差信号のピッチ長を求めることができるはずである。一方、ピッチ抽出部１１３は、残差信号D_i、jが送られてこなかった場合には、何もしない。

ピッチ抽出部１１３が残差信号D_i、jのピッチ長P_i、jを求めるためには、任意の既知の手法を用いてよい。もっとも、総合ピッチ判別部５が上述の規格化された自己相関関数C_REG(τ)を用いてピッチを抽出することができるか否かを判別した場合には、該判別の過程でC_REG(τ)の所定の極大値を与えるτの値が副産物として容易に求まる。かつ、かかるτの値は、C_REG(τ)の定義に鑑みれば、ピッチ長の値に相当すると考えられる。よって、ピッチ抽出部１１３は、総合ピッチ判別部５からかかるτの値を取得し、それをそのままピッチ長P_i、jとするのが簡易である。

ピッチ抽出部１１３は、ピッチ長を求めた場合には、該ピッチ長を帯域別強度決定部１３１に引き渡す。

帯域フィルタ部１１５は、内蔵の第１帯域フィルタ１１７、第２帯域フィルタ１１９、第３帯域フィルタ１２１、・・・を用いて、各サブフレームの残差信号D_i、jを、帯域毎の残差信号に分割する。帯域フィルタ部１１５は、例えば、残差信号を帯域１乃至８に分割し、帯域１を0〜1kHz、帯域２を1〜2kHz、帯域３を2〜3kHz、帯域４を3〜4kHz、帯域５を4〜5kHz、帯域６を5kHz〜6kHz、帯域７を6kHz〜7kHz、帯域８を7kHz〜8kHz、とするのが好適である。

残差信号D_i、jが第１帯域フィルタ１１７に通されることにより帯域１の帯域別残差信号D_i、j、1={d_{i、j、1、0}、・・・、d_{i、j、1、L-1}}が生成され、残差信号D_i、jが第２帯域フィルタ１１９に通されることにより帯域２の帯域別残差信号D_i、j、2={d_{i、j、2、0}、・・・、d_{i、j、2、L-1}}が生成され、残差信号D_i、jが第３帯域フィルタ１２１に通されることにより帯域３の帯域別残差信号D_i、j、3={d_{i、j、3、0}、・・・、d_{i、j、3、L-1}}が生成され、以下、同様である。

このように、帯域フィルタ部１１５は、ここでは、帯域別残差信号生成部として機能する。

帯域識別のための変数をωと表記することにする。例えば、第１帯域フィルタ１１７により生成される信号はω=1の帯域の信号であるとし、第２帯域フィルタ１１９により生成される信号はω=2の帯域の信号であるとする。また、ωの最大値をω_Maxとする。1≦ω≦ω_Maxとなる。

生成された帯域１の帯域別残差信号D_i、j、1は、帯域別雑音判別部１２３の中の第１帯域雑音判別器１２５と、帯域別強度決定部１３１の中の第１帯域強度算出器１３３と、に引き渡され、生成された帯域２の帯域別残差信号D_i、j、2は、帯域別雑音判別部１２３の中の第２帯域雑音判別器１２７と、帯域別強度決定部１３１の中の第２帯域強度算出器１３５と、に引き渡され、以下、同様である。

第１帯域雑音判別器１２５は、帯域１の帯域別残差信号D_i、j、1が雑音であるか否かを判別し、該判別結果をフラグ生成部１２９に伝える。第２帯域雑音判別器１２７は、帯域２の帯域別残差信号D_i、j、2が雑音であるか否かを判別し、該判別結果をフラグ生成部１２９に伝える。以下、同様である。

第ω帯域雑音判別器は、任意の既知の手法により、帯域ωの帯域別残差信号D_i、j、ω={d_{i、j、ω、0}、・・・、d_{i、j、ω、L-1}}が雑音であるか否かを判別する。例えば、上で、総合ピッチ判別部５が残差信号D_i、jからピッチを抽出することができるか否かを判別するために用いる手法の例として挙げた、規格化された自己相関関数を計算することによる手法を用いるのが好適である。

すなわち、残差信号D_i、j、ωについて、規格化された自己相関関数
C_REG、ω(τ)=C_ω(τ)/REG_ω(τ)
（ただし、
C_ω(τ)=d_{i、j、ω、0}×d_{i、j、ω、τ}+・・・
+d_{i、j、ω、L-1-τ}×d_{i、j、ω、L-1}
であり、
REG_ω(τ)={(d_{i、j、ω、0} ²＋・・・＋d_{i、j、ω、L-1-τ} ²)
×(d_{i、j、ω、τ} ²＋・・・＋d_{i、j、ω、L-1} ²)}^0.5
である。）
を計算し、C_REG、ω(τ)が例えば0.5よりも大きい極大値を有する場合はピッチを抽出することができるとして雑音ではないと判別し、C_REG、ω(τ)が0.5よりも大きい極大値を有しない場合はピッチを抽出することができないとして雑音であると判別する。

フラグ生成部１２９は、帯域別雑音判別部１２３から、帯域１についての雑音か否かの判別結果と、帯域２についての雑音か否かの判別結果と、・・・、帯域ωについての雑音か否かの判別結果と、・・・、帯域ω_Maxについての雑音か否かの判別結果と、を伝えられる。フラグ生成部１２９は、これら各帯域についての判別結果を反映した各帯域についてのフラグを生成する。換言すれば、フラグをみれば該フラグが対応する帯域の帯域別残差信号が雑音であると判別されたか否かが分かるようなフラグを生成する。

帯域別強度決定部１３１には、各帯域の帯域別残差信号D_i、j、ωが帯域フィルタ部１１５から引き渡され、さらに、総合ピッチ判別部５が残差信号からピッチを抽出することができると判別した場合にはピッチ抽出部１１３からピッチ長P_i、jが引き渡される。

帯域別強度決定部１３１の中の第１帯域強度算出器１３３は、帯域１の帯域別残差信号D_i、j、1の強度を算出する。第２帯域強度算出器１３５は、帯域２の帯域別残差信号D_i、j、2の強度を算出する。以下、同様である。第ω帯域強度算出器が帯域ωの帯域別残差信号D_i、j、ωの強度を算出するには、任意の既知の手法を用いてよいが、例えば、次のような手法が好適である。

まず、所定の時間にわたり帯域別残差信号の2乗を時間積分した後、その平方根を、帯域別絶対強度H_i、j、ωとする。帯域別残差信号D_i、j、ωはD_i、j、ω={d_{i、j、ω、0}、・・・、d_{i、j、ω、L-1}}なるデジタル信号であるので、具体的には、積分は和で代用されて、
H_i、j、ω=sqrt(d_{i、j、ω、0} ²+・・・+d_{i、j、ω、Y-1} ²)
のように計算される。ただし、記号sqrtは平方根を意味する。

また、Yは、帯域別強度決定部１３１にピッチ抽出部１１３からピッチ長P_i、jが送られていない場合には、できるだけ長い範囲で積分したほうが正確な強度が得られると期待されるため、Y=Lとするのが好適である。

それに対して、ピッチ長P_i、jが送られている場合には、総合ピッチ判別部５が、残差信号D_i、jが全体としてピッチ的な性質を有すると判別したということであるから、位相のずれに起因する誤差を生じさせずに正確な強度を得るには、時間積分を行う時間長をピッチ長P_i、jの整数倍にするのが適切である。そしてさらに、この場合にも、できるだけ長い範囲で積分したほうが正確な強度が得られると期待されるため、
m×P_i、j≦L-1＜(m+1)×P_i、j
なる整数mを求め、Y= m×P_i、j+1とするのが好適である。

帯域別絶対強度H_i、j、ωは、後にフローチャートを用いて説明するように、サブフレーム毎に相対強度に変換される。以下では、この相対強度を、単に帯域別強度h_i、j、ωと呼ぶ。

結局、残差信号特徴量抽出部２９は、内蔵のフラグ生成部１２９が生成した各帯域についてのフラグと、同じく内蔵の帯域別強度決定部１３１が求めた各帯域の帯域別強度h_i、j、ωと、を、残差信号特徴量として出力する。残差信号特徴量抽出部２９は、ピッチ抽出部１１３がピッチ長P_i、jを求めた場合には、該ピッチ長も含めて、特徴量として出力する。

このように、残差信号を帯域別に扱うことにより、各帯域における帯域別残差信号の特徴の違いに応じた符号化がなされるため、復号して再生した音声の品質が向上する。また、かかる特徴は、おおまかには、雑音的であるか否かという単純な判別結果を示すフラグにより表されるので、音声符号化及び音声復号方式の簡素さは維持される。

換言すれば、残差信号の帯域別の特徴をおおまかに雑音的であるか否かという点から捉えるために、音声符号化装置３は簡素なもので済む。一方、音声復号に際しては、雑音パルス列及びピッチパルス列の生成手段と帯域分割手段があれば、全ての帯域の帯域別残差信号の復元が可能になり、簡素でありながらも、残差信号を帯域別に扱ったことによる音声品質の向上が期待される。

図６は、図３の音声符号化装置３の残差信号復元試行部３１の詳細な機能構成を示す図である。

残差信号復元試行部３１は、各帯域についてのフラグと、各帯域の帯域別強度h_i、j、ωと、を、特徴量として、残差信号特徴量抽出部２９（図３、図５）から受け取る。残差信号復元試行部３１は、残差信号特徴量にピッチ長P_i、jが含まれていた場合には、該ピッチ長も受け取る。

残差信号復元試行部３１の中のピッチパルス列生成部６は、特徴量にピッチ長P_i、jが含まれていた場合には、該ピッチ長に基づいてピッチパルス列を生成し、帯域フィルタ部１１５に引き渡す。一方、特徴量にピッチ長P_i、jが含まれていなかった場合には、何もしない。

図６においてピッチパルス列生成部６の下に描かれた帯域フィルタ部１１５は、上述の、図５に示された帯域フィルタ部１１５と同じ機能を有する。ただし、ピッチパルス列生成部６の下に描かれた帯域フィルタ部１１５は、ピッチパルス列生成部６から引き渡されたピッチパルス列を帯域分割して帯域別ピッチパルス列を生成することを目的とする。つまり、ピッチパルス列生成部６の下に描かれた帯域フィルタ部１１５は、帯域別ピッチパルス列生成部として機能する。

生成された各帯域の帯域別ピッチパルス列は、帯域別試行用励起信号生成部２２１に引き渡される。帯域別試行用励起信号生成部２２１は第１帯域別試行用励起信号生成器２２３と、第２帯域別試行用励起信号生成器２２５と、・・・、第ω帯域別試行用励起信号生成器（図示せず。）と、・・・、第ω_Max帯域別試行用励起信号生成器（図示せず。）と、を内蔵している。第１帯域別試行用励起信号生成器２２３は、帯域１の帯域別ピッチパルス列を受け取る。第２帯域別試行用励起信号生成器２２５は、帯域２の帯域別ピッチパルス列を受け取る。以下、同様である。

残差信号復元試行部３１の中の雑音パルス列生成部２１１は、雑音パルス列を生成し、帯域フィルタ部１１５に引き渡す。

図６において雑音パルス列生成部２１１の下に描かれた帯域フィルタ部１１５は、上述の、図５に示された帯域フィルタ部１１５及び図６においてピッチパルス列生成部６の下に描かれた帯域フィルタ部１１５と同じ機能を有する。ただし、雑音パルス列生成部２１１の下に描かれた帯域フィルタ部１１５は、雑音パルス列生成部２１１から引き渡された雑音パルス列を帯域分割して帯域別雑音パルス列を生成することを目的とする。つまり、雑音パルス列生成部２１１の下に描かれた帯域フィルタ部１１５は、帯域別雑音パルス列生成部として機能する。

生成された各帯域の帯域別雑音パルス列は、帯域別試行用励起信号生成部２２１に引き渡される。帯域別試行用励起信号生成部２２１の中の第１帯域別試行用励起信号生成器２２３は、帯域１の帯域別雑音パルス列を受け取る。帯域別試行用励起信号生成部２２１の中の第２帯域別試行用励起信号生成器２２５は、帯域２の帯域別雑音パルス列を受け取る。以下、同様である。

特徴量として残差信号復元試行部３１に引き渡された各帯域の帯域別残差信号の強度と、各帯域についてのフラグと、は、帯域別試行用励起信号生成部２２１に送られる。その際、帯域１における帯域別残差信号の強度及び帯域１についてのフラグは、帯域別試行用励起信号生成部２２１の中の第１帯域別試行用励起信号生成器２２３に送られる。帯域２における帯域別残差信号の強度及び帯域２についてのフラグは、帯域別試行用励起信号生成部２２１の中の第２帯域別試行用励起信号生成器２２５に送られる。以下、同様である。

結局、帯域別試行用励起信号生成部２２３の中の第ω帯域別試行用励起信号生成器には、帯域ωについてのフラグと、帯域ωにおける帯域別残差信号の強度と、帯域ωの帯域別雑音パルス列と、が引き渡され、さらに、特徴量にピッチ長が含まれていた場合には、帯域ωの帯域別ピッチパルス列も引き渡される。第ω帯域別試行用励起信号生成器は、これら3乃至4種類の情報から、試行用励起信号の帯域ωの成分としてふさわしいことが期待される信号である、帯域ωの帯域別試行用励起信号を生成する。

かかる生成過程の詳細については、後にフローチャートを参照しつつ述べる。概略としては、第ω帯域別試行用励起信号生成器は、帯域ωについてのフラグが、帯域ωの帯域別残差信号が雑音的性質を有することを示している場合には、生成される信号も雑音的性質を有することが適切であるから、帯域ωの帯域別雑音パルス列に帯域ωにおける残差信号の強度を乗じることにより、目的の信号を生成する。一方、帯域ωについてのフラグが、帯域ωの帯域別残差信号が雑音的性質を有していないことを示している場合には、生成される信号も雑音的性質を有さないことが適切であるから、第ω帯域別試行用励起信号生成器は、帯域ωの帯域別ピッチパルス列に帯域ωにおける残差信号を乗じることにより、目的の信号を生成する。

ただし、たとえフラグがその対応する帯域に雑音的性質のないことを示唆している場合でも、残差信号特徴量にピッチ長が含まれていなかったときには、残差信号復元試行部３１においてはピッチパルス列はもちろんのこと帯域別ピッチパルス列も生成されないので、雑音的性質を有さない目的信号を作りようがない点には、注意が必要である。もっとも、これは、全体としての残差信号には周期性がないにもかかわらず、帯域別残差信号のうちには周期性があるものが存在するという、原理的には生じにくい事態であって、単に計算上の例外処理を適切に整えておく必要があるということにすぎないともいえる。

なお、後に詳しく述べる信号生成過程から明らかなように、帯域別雑音パルス列、帯域別ピッチパルス列、及び、帯域毎の残差信号の強度は、いずれもある種の規格化を施されており、これらに対して相互に乗算等の操作を行っても、ある種の相対値を求めることしかできない。

ところが、先にフィードバックループについて説明したように、本実施形態においては、信号の絶対的な値を扱うことが重要である。そのため、帯域別試行用励起信号生成部２２１は、基準となる特定の値を上述の相対値に乗じて、各帯域の帯域別試行用励起信号を生成する必要がある。

もっとも、後に修正因子決定部３３によるフィードバックがかかるので、この基準となる特定の値は、厳密に決定する必要はない。よって、経験則に基づいてあらかじめ所定の固定値を決めておいてもよいが、帯域別試行用励起信号生成部２２１は、かかる基準となる特定の値を、図３の点線矢印及び図６の点線矢印で表されるように、予測分析部１５が求めた予測係数の一部を手がかりにして、決定することが、より好適である。この具体的な方法については、後に説明する。

帯域別試行用励起信号生成部２２１が生成した各帯域の帯域別試行用励起信号は、試行用励起信号生成部２２７に引き渡される。試行用励起信号生成部２２７は、引き渡された帯域別試行用励起信号を重ね合わせることにより、試行用励起信号を生成し、該信号を出力する。

音声復号装置４が備える残差信号復元部６５（図４）は、以上のように図６を参照して説明した残差信号復元試行部３１に酷似している。いずれも特徴量から励起用信号を生成するという共通した目的を有するからである。ただし、残差信号復元試行部６５は、修正因子決定部３３（図３）が決定した修正強度を受け取り、それを反映しつつ励起用の信号を生成する。よって、予測分析部１５（図３）が求めた残差信号に対して、残差信号復元部６５が出力する信号は、残差信号復元試行部３１が出力する信号に比べてよりよく近似した信号となる。また、残差信号復元部６５においては、サブフレーム間で信号強度にスムージング処理が施される。残差信号復元試行部６５の動作の詳細については後述する。

ここまで機能構成図である図３乃至図６を参照して説明してきた本実施形態に係る音声符号化装置３及び音声復号装置４は、物理的には、ユーザにとっての使い勝手の良さを考慮して、両装置の機能を統合した、本実施形態に係る音声符号化兼復号装置７により実現される。

図７は、本実施形態に係る音声符号化兼復号装置７を示したものである。音声符号化兼復号装置７としては、例えば、携帯電話機が想定される。

音声符号化兼復号装置７は、図３で既に示してあるマイクロフォン１１と、図４で既に示してあるスピーカ６９と、を備える。該装置は、アンテナ３２５と、操作キー３２７と、をさらに備える。該装置は、システムバス３２３により相互に接続された、ＣＰＵ（Central Processing Unit）３１１と、ＲＯＭ（Read Only Memory）３１３と、記憶部３１５と、音声処理部３１９と、無線通信部３１７と、操作キー入力処理部３２１と、をさらに備える。記憶部３１５は、例えば、ＲＡＭ（Random Access Memory）３２９と、ハードディスク３３１と、を備える。

ＲＯＭ３１３には、音声符号化及び復号のための動作プログラムが格納されている。また、ベクトル量子化に必要な代表ベクトルの初期セット等、前記動作プログラムの中で参照されることになっている各種データも格納されている。

ＣＰＵ３１１は、該動作プログラムに従って動作する。そして、ＣＰＵ３１１は、内蔵のレジスタ（図示せず。）と記憶部３１５との間で適宜データのやりとりを行いながら、数値演算により、音声符号化兼復号装置７に、図３に示す音声符号化装置３及び図４に示す音声復号装置４としての機能を発揮させる。ＣＰＵ３１１は、その際、必要に応じて音声処理部３１９、無線通信部３１７、操作キー入力処理部３２１とデータのやりとりを行う。

図７の音声処理部３１９は、図３のＡ／Ｄ変換部１３及び図４のＤ／Ａ変換部６７として動作することができる。無線通信部３１７は、図３の送信部３７及び図４の受信部６１として動作することができる。符号の送受信は、基本的には、図７のアンテナ３２５を用いた無線通信により行われるが、別の方法、例えば有線通信により行われてもよい。操作キー入力処理部３２１は、操作キー３２７からの操作信号を受け付けて、操作信号に対応するキーコード信号をＣＰＵ３１１に伝達する。操作キー３２７は、通信の相手方となる音声符号化兼復号装置７を特定する、つまり例えば携帯電話の場合であればいわゆる電話番号を入力するのに使われる他、基本的には設定済みの各種事項をユーザの好みに応じて変化させるために用いられてもよい。

（量子化について）
本実施形態に係る音声符号化装置３（図３）は、予測係数を量子化することにより、音声復号装置４（図４）に伝達すべき情報量を減少させ低ビットレート通信を実現する一助とすることに特徴がある。本実施形態においては、量子化には図３のスカラー量子化部２１によるスカラー量子化とベクトル量子化部２３によるベクトル量子化とが併用される。以下では、かかる量子化が、本実施形態ではどのように行われるかを説明する。

本実施形態においては、本来スカラーである予測係数をいくつか集めて、各予測係数を成分とするベクトルを構成した後に、ベクトル量子化を行う。ただし、そのように構成されたベクトルを直接にベクトル量子化するのではなく、ベクトル正規化過程を挿入して、スカラー量子化に供される値を抜き取る。このように両種の量子化を組み合わせることにより、量子化の効率が向上する。

図８（ａ）は、予測係数の時系列を表にまとめたものである。既に述べたように、メインフレームは添字iで識別され、同一メインフレーム内のサブフレームは添字jで識別される。各メインフレームには0、・・・j、・・・、Z-1という番号が付けられたZ個のサブフレームが含まれる。i番のメインフレームの中のj番のサブフレームの残差信号についての予測係数C_i、jは、既に述べたように、また、図８（ａ）では各列として示されているとおり、C_i、j={c_i、j、0、・・・、c_i、j、k、・・・、c_i、j、N-1}(0≦k≦N-1)という0乃至N-1次の予測係数の集まりである。

ここで、同一のメインフレームに含まれ、かつ、次数が共通する、合計Z個の予測係数を成分として、係数ベクトルを構成する。すなわち、図８（ａ）に点線の枠で囲んで示すように、係数ベクトルはメインフレームを表す添字iと次数を表す添字kとで特定されるのでV_i、kと表記することにすれば、その成分は、
V_i、k ={ c_i、0、k、・・・、c_i、j、k、・・・、c_i、Z-1、k}となる。

つまり、サブフレームが予測分析に対応した時間区間を意味するのに対して、メインフレームは係数ベクトルを構成する時間区間を意味する。

このように構成された係数ベクトルV_i、kは、Z次元空間において、模式的には図８（ｂ）のように表される。具体的なベクトル量子化の手法は様々であり、本実施形態においては任意の既知の手法を用いてよい。どの手法においても、原理的には、それぞれに番号が割り当てられた、有限個の代表ベクトルのセットを用意しておき、与えられたベクトルを、それに最も近い代表ベクトル又はそれらの線形結合で近似することとし、該与えられたベクトルを、該代表ベクトルに割り当てられた番号に変換する等する。取り扱いの便宜上、番号はテーブルとしてまとめられることが多い。

例えば図８（ｂ）では、図示された係数ベクトルV_i、kは、代表ベクトルのうち、点線で表されたベクトルに近いとする。このとき、この点線で表されたベクトルが、量子化係数ベクトルq[V]_i、kである。また、V_i、kとq[V]_i、kとの差分は、ベクトル量子化によって省略された情報であるといえる。

なお、上述のとおり、係数ベクトルは、ベクトル量子化を施されるとテーブルにまとめられる。よって、量子化係数ベクトルは、少なくとも見かけ上は、ベクトルではないともいえる。もっとも、該テーブルに記載された数値に対して、ベクトルとしての意味を与える、すなわち逆量子化を施すと、量子化係数ベクトルq[V]_i、kが得られる。よって、無用の混乱を避けるために、以下では、係数ベクトルに量子化を施すことによりテーブルとして得られた結果と、該テーブルに逆量子化を施すことによって得られたベクトルと、を、ともに、量子化係数ベクトルq[V]_i、kと呼ぶこととする。

このように同一次元のフィルタ係数をメインフレームすなわち連続するZ個のサブフレームにわたりまとめて係数ベクトルを構成することが、本実施形態においては、情報圧縮の点で効率が高い。以下では、この理由について説明する。

なお、本実施形態におけるベクトル量子化の導入は、信号のうちでも特に音声信号に特徴的な性質についての以下のような考察に基づいてなされたものであり、一般的な信号を処理するために単にたまたまベクトル量子化を導入することとは全く異なる技術的思想を背景としたものである。

本実施形態において同一次元のフィルタ係数をZ個まとめてベクトル量子化を行うことがなぜ効率的であるかという問題は、次の２つの問題に分解することができる。ひとつは、同一次元のフィルタ係数をまとめることがなぜ効率的であるかという問題である。もうひとつは、まとめる個数をZ個とすることがなぜ効率的であるかという問題、換言すれば、Zの値をいくつにすることが効率的であるかという問題である。

まず、ひとつめの問題について説明する。人間の音声が持続している時間は、定性的には、音声が定常状態にある時間と、非定常状態にある時間と、に分けられる。定常状態とは、具体的には例えば、「あー」、「うー」、といった、発声が伸びている場合の音声信号の状態を示す。定常状態は、話者が言葉に詰まっている場合だけでなく、言い淀むことなく滑らかに発声している場合にも、多く出現する。非定常状態とは、定常状態以外の状態を指す。

ひとつめの問題に対する答えは、本発明者が見いだした経験的事実と、ベクトル量子化の特性と、を前提にすることにより、導くことができる。

音声が非定常状態にある時間帯では、音声の信号としての変動が激しいゆえに、予測係数は、同一サブフレームで次元毎にばらばらな値をとるのはもちろんのこと、同一次元同士でも隣接サブフレーム間での違いが大きい。一方、音声が定常状態にある時間帯では、同一サブフレーム内での異次元予測係数間での違いは相変わらず大きいのに対して、同一次元の予測係数の時間変動は小さいので、次数を固定すれば、連続するいくつかのサブフレームにわたり、予測係数は比較的安定して相互に近い値をとる。これが、前提となる経験的事実である。

一般に、情報圧縮技術においては、情報に偏りがあるほど、圧縮効率が高い。これをベクトル量子化にあてはめると、多数のベクトルの集団において、ベクトルの分布に偏りがあるほど、ベクトル量子化の効率が高いということである。具体的には、上述のテーブルが、小さいサイズで済むということである。これが、前提となるベクトル量子化の特性である。

これらふたつの前提から、音声が非定常状態にある時間帯についての情報圧縮を直接に目標とすることは断念するにしても、音声が定常状態にある時間帯については、同一次元の予測係数を集めてそれらを成分とするベクトルを係数ベクトルとして構成することにすると、全成分の値が相互に近いような係数ベクトルが出現しやすい。全成分の値が相互に近いベクトルは、向きがベクトル{1、1、・・・、1}又はベクトル{-1、-1、・・・、-1}のいずれかに近い。よって、係数ベクトルの向きは、ベクトル{1、1、・・・、1}とベクトル{-1、-1、・・・、-1}というわずか2つのベクトルの付近に集中して分布する。これは、ベクトルの分布に偏りが生じたことに他ならない。

したがって、音声が非定常状態にある時間帯を合わせても、上述の方法により構成された係数ベクトルの集団は、ベクトルの向きの分布に偏りがあるといえる。そして、かかる偏りの存在ゆえに、ベクトル量子化の効率が高い。

換言すると、定常状態において予測係数が同一次元同士では連続したサブフレーム間で近い値をとるということは、この点に情報としての冗長さが存在するといえるのであり、ここに情報圧縮の余地があるので、ベクトル量子化を導入して情報処理の効率化を図ることができる。

次に、ふたつめの問題である、Zの値をいくつにすることが効率的であるかという問題について、説明する。以下のように、ふたつの観点から、妥当と考えられるZの値が定まる。

なお、以下では、本実施形態に係る音声復号装置３のＡ／Ｄ変換部１３（図３）が、16kHzサンプリングを行っているものとする。かかるサンプリングレートは、従来から広く採用されているレートであり、特に、低ビットレート通信の技術分野においては、一般的なレートである。

ひとつめの観点は、音声において、上述の定常状態がどの程度の時間にわたり継続するか、という観点である。該時間の長さは、経験則によれば、あくまでも目安ではあるが、60ms程度であるといえる。つまり、定常状態継続時間の最短値が、典型的にはおよそ60msということである。

上述の、係数ベクトルにおいて全成分の値をできるだけ相互に近い値としたいという要請と、前記経験則と、を考え合わせると、この60msという時間にいくつのサブフレームが入るか計算して、そのサブフレームの個数を、ベクトル量子化のためのベクトルの次元の数とすることが妥当である。ここで、ベクトルの次元の数とは、係数ベクトルの成分の数のことであり、それはすなわち、1個のメインフレームの中に含まれるサブフレームの数であるZのことである。予測係数の次元とは全く異なることに注意する。

予測分析部１５（図３）の説明中に触れたように、サブフレームの時間長は12〜20ms程度である。よって、Zは、60msを12〜20msで除した値である、4程度とするのが妥当である。

なお、ここでは上述のとおり16kHzサンプリングを前提としたので、Z=4とするのが妥当であるとの結論が導かれた。もしも、例えば2倍のサンプリングレートである32kHzサンプリングを採用した場合、予測係数算出精度、残差信号算出精度、及び、予測分析部１５の説明中で触れた予測分析の分析次数である12〜15次、を維持するとすれば、例えば、サブフレーム長を半減させて6〜10ms程度とすることが考えられる。よって、係数ベクトルの次元Zは、16kHzサンプリングの場合の2倍である8程度にすることが妥当である。つまり、Z=（定常状態持続時間60ms程度）÷（サブフレーム長6〜10ms）=約8、のように計算される。

次に、Zの値をいくつにすることが効率的であるかという問題についてのふたつのめの観点について述べる。

ふたつめの観点は、ベクトル量子化処理に特徴的な、より一般的な性質を考慮する観点である。

ベクトル量子化は、その性質上、成分の数が少なすぎると、すなわち次元が低すぎると、ベクトル量子化を採用したことによる情報の圧縮効率の向上の程度が小さい。例えば極端な場合として、1成分だけ有するベクトルのベクトル量子化を想定することができるが、これはスカラー量子化そのものであるから、ベクトル量子化にはスカラー量子化に対する何らの優位性もないことになる。

このように、ベクトル量子化を効率的に行うためには、少なくともある程度は次元が高いことが必要である。

一方で、次元を高くするにつれ、ベクトル量子化の結果を表すテーブルが大規模になる。テーブルが大きすぎると、図７の記憶部３１５の記憶容量を圧迫するという問題が生じる。さらに、そのように大きくなったテーブルから所望の値を検索するために、ＣＰＵ３１１に過剰な負荷がかかって、それが例えば処理時間の遅延という形で現れれば、音声符号化兼復号装置７を携帯電話等のリアルタイム通信を必要とする用途に使えなくなってしまうという問題も生じる。

このように、ベクトル量子化の次元をむやみに高くすることは、結果的には、かえって処理効率を低下させることにつながるため、避けなければならない。

以上のように、ふたつめの観点からは、ベクトル量子化処理に特徴的な性質と、音声符号化兼復号装置７におけるハードウェアの性能と、の兼ね合いから、Zの妥当な値が決定される。現時点での通常のハードウェアの性能を考慮した場合、ひとつめの観点から導かれたZ=4という結論は、ほぼ妥当である。

以上のように、ベクトル量子化に際してまとめるべきサブフレームの最適な数であるZを決定するにあたっては、定常状態継続時間に関する経験則や、サンプリングレートや、予測分析の次数や、ベクトル量子化の一般的な性質や、ＣＰＵ３１１の処理能力や、記憶部３１５の記憶容量などを、総合的に考察する。

かかる考察の結論として、本実施形態においては、上述のとおり、好ましい値としてZ=4を挙げた。この値はあくまでも例示であり、特に例えば、今後のハードウェアの性能の向上しだいでは、上述の考察に基づいて、異なる結論が導き出されることもあり得る。本発明の本質は、音声信号の特性を利用しつつ、上述のような総合的考察に基づいて、最も効率的な情報圧縮をもたらすようなZの値を決定することにある。

（予測分析の手順）
以下では、図３の予測分析部１５が行う予測分析について、図９に示すフローチャートを参照しつつ説明する。予測分析としては、例えば、線型予測分析やＭＬＳＡ（Mel Log Spectrum Approximation）分析が知られている。

記憶部３１５（図７）には、既に、デジタル入力音声信号S_i、j={s_i、j、0、・・・、s_i、j、L-1}(0≦i≦M-1)が格納されているとする。ＣＰＵ３１１（図７）は、内蔵のカウンタレジスタ（図示せず）をメインフレームカウンタiの格納に用いることとし、初期値として、i=0とする（図９のステップＳ９）。

ＣＰＵ３１１は、内蔵の別のカウンタレジスタ（図示せず）をサブフレームカウンタjの格納に用いることとし、初期値として、j=0とする（ステップＳ１１１）。

ＣＰＵ３１１は、内蔵の汎用レジスタ（図示せず）に、記憶部３１５から、入力音声信号S_i、j={s_i、j、0、・・・、s_i、j、L-1}をロードする（ステップＳ１１３）。

ＣＰＵ３１１は、入力音声信号S_i、jに予測分析を施ることにより、予測係数C_i、j={ c_i、j、0、・・・、c_i、j、N-1}を計算する（ステップＳ１１５）。Nは予測分析の次数である。予測分析としては、例えば、ＭＬＳＡ分析を採用するのが好適である。

ＣＰＵ３１１は、計算した予測係数C_i、jを記憶部３１５に格納する（ステップＳ１１７）。

ＣＰＵ３１１は、任意の既知の手法により、予測係数C_i、jから、予測分析用逆フィルタ係数Inv[C_i、j]を計算する。この逆フィルタ係数Inv[C_i、j]により、予測分析用逆フィルタ１７（図３）が定義される。換言すれば、予測分析用逆フィルタ１７の仕様が定まる、あるいは、該フィルタが生成される（ステップＳ１１９）。

ＣＰＵ３１１は、入力音声信号S_i、jを、定義された前記予測分析用逆フィルタ１７に通すことに相当する計算を行うことにより、残差信号D_i、j={d_i、j、0、・・・、d_i、j、L-1}を求める（ステップＳ１２１）。

ＣＰＵ３１１は、求めた残差信号D_i、jを記憶部３１５に格納する（ステップＳ１２３）。

ＣＰＵ３１１は、サブフレームカウンタjがZ-1に達しているか否かを判別する（ステップＳ１２５）。達していると判別された場合は（ステップＳ１２５；Ｙｅｓ）、ステップＳ１２９に進む。一方、達していないと判別された場合は（ステップＳ１２５；Ｎｏ）、同じメインフレームの中の次のサブフレームの入力音声信号についての処理を行うために、jを1増加してから（ステップＳ１２７）、ステップＳ１１３以降の処理を繰り返す。

ステップＳ１２９では、ＣＰＵ３１１は、メインフレームカウンタiがM-1に達しているか否かを判別する。達していると判別された場合は（ステップＳ１２９；Ｙｅｓ）、処理を終了する。達していないと判別された場合は（ステップＳ１２９；Ｎｏ）、次のメインフレームの入力音声信号についての処理を行うために、iを1増加してから（ステップＳ１３１）、ステップＳ１１１以降の処理を繰り返す。

（ベクトル量子化の手順）
以下では、図３のベクトル正規化部１９、スカラー量子化部２１、及び、ベクトル量子化部２３が行う、ベクトル正規化とスカラー量子化とベクトル量子化の手順を、図１０に示すフローチャートを参照しつつ説明する。

予測係数C_i、j(0≦i≦M-1、0≦j≦Z-1)は、既に、図８に示されるように係数ベクトルV_i、k(0≦i≦M-1、0≦k≦N-1)としてまとめられ、記憶部３１５に格納されているものとする。

ＣＰＵ３１１は、メインフレームカウンタiを、i=0に設定する（ステップＳ１０）。

ＣＰＵ３１１は、次数カウンタkを、k=0に設定する（ステップＳ１６１）。

ＣＰＵ３１１は、係数ベクトルV_i、k={c_i、0、k、・・・、c_i、Z-1、k}を記憶部３１５からレジスタにロードし（ステップＳ１６３）、c_i、0、k、・・・、c_i、Z-1、kのうちから、絶対値が最大のものを特定し、該絶対値を係数ベクトル最大絶対値Max[c]_i、kとする（ステップＳ１６５）。

ＣＰＵ３１１は、係数ベクトル最大絶対値Max[c]_i、kを任意の既知の手法によりスカラー量子化し（ステップＳ１６７）、その結果得られたスカラー量子化係数ベクトル最大絶対値q[Max[c]]_i、kを記憶部３１５に格納する（ステップＳ１６９）。

ＣＰＵ３１１は、係数ベクトルV_i、kと係数ベクトル最大絶対値Max[c]_i、kとから、正規化係数ベクトルn[c]_i、k={n[c]_i、0、k、・・・、n[c]_i、Z-1、k}を、n[c]_i、k={ c_i、0、k/Max[c]_i、k、・・・、c_i、Z-1、k/Max[c]_i、k}のように計算して求める（ステップＳ１７１）。

ＣＰＵ３１１は、任意の既知の手法により、正規化係数ベクトルn[c]_i、kをベクトル量子化し（ステップＳ１７３）、その結果得られたベクトル量子化係数ベクトルq[n[c]]_i、k={q[n[c]]_i、0、k、・・・、q[n[c]]_i、Z-1、k}を記憶部３１５に格納する（ステップＳ１７５）。

ＣＰＵ３１１は、kがN-1に達したか否かを判別する（ステップＳ１７７）。達したと判別された場合は（ステップＳ１７７；Ｙｅｓ）、ステップＳ１８１に進む。達していないと判別された場合は（ステップＳ１７７；Ｎｏ）、kを1増加してから（ステップＳ１７９）、ステップＳ１６３に戻る。

ステップＳ１８１では、ＣＰＵ３１１は、iがM-1に達したか否かを判別する。達したと判別された場合は（ステップＳ１８１；Ｙｅｓ）、処理を終了する。達していないと判別された場合は（ステップＳ１８１；Ｎｏ）、iを1増加してから（ステップＳ１８３）、ステップＳ１６１に戻る。

先にベクトル量子化について述べたとおり、係数ベクトルV_i、kの向きは、ベクトル{1、1、・・・、1}又はベクトル{-1、-1、・・・、-1}のいずれかの向きに近くなることが多い。そして、正規化係数ベクトルn[c]_i、kは、係数ベクトルV_i、kをその成分の最大値で除したものであるから、多くが、向きのみならず大きさも含めて、ベクトル{1、1、・・・、1}又はベクトル{-1、-1、・・・、-1}に近いベクトルとなる。

図１１は、この様子を模式的に示したものである。原点を頂点とし、軸がベクトル{1、1、・・・、1}又はベクトル{-1、-1、・・・、-1}に並行となるような、頂角が小さい円錐が点線で描かれている。そして、該円錐のうち、ベクトル{1、1、・・・、1}又はベクトル{-1、-1、・・・、-1}の終点付近に相当する円柱状の領域が、実線で描かれている。

正規化係数ベクトルn[c]_i、kの多くは、始点を原点とすれば、その終点が、かかる円柱状の領域に入る。先にベクトル量子化について述べたとおり、ベクトル量子化の効率が高いのは、ベクトル量子化の対象となるベクトルの分布に大きな偏りがある場合である。正規化係数ベクトルn[c]_i、kの多くが、かかる円柱状の領域に含まれるということは、まさに、ベクトルの分布に大きな偏りがあるということである。このように、図１０に示すフローチャートに従って生成された正規化係数ベクトルn[c]_i、kは、ベクトル量子化による高効率の情報圧縮に適したベクトルである。

本実施形態に係る音声符号化兼復号装置７は、メインフレームの時間長として、人間の発話における典型的な定常的音声信号持続時間長に基づいて決定された時間長を採用している。これにより、まず係数ベクトルを、全成分が等しいベクトルの付近に集中的に分布させることが可能となる。つまり、係数ベクトルの向きの分布には偏りが生じている。さらに、係数ベクトルから、その大きさである係数ベクトル最大絶対値を分離して正規化することにより正規化ベクトルを得る。すると、かかる正規化ベクトルは、大きさがベクトル{1、1、・・・、1}の大きさと同程度になる。つまり、正規化ベクトルには、その向きのみならず大きさにも偏りが生じている。

本実施形態に係る音声符号化兼復号装置７は、分布にかかる偏りが生じているベクトルの集団に対してベクトル量子化を施すので、高い効率で情報を圧縮することができる。

（残差信号から特徴量を生成する手順）
以下では、本実施形態に係る音声符号化装置３において、図３及び図５に示す残差信号特徴量抽出部２９が行う、残差信号からピッチ長とフラグと帯域別強度とを生成する手順を、図１２に示すフローチャートを参照しつつ説明する。

なお、前提として、既に残差信号D_i、j={d_i、j、0、・・・、d_i、j、L-1}(0≦i≦M-1、0≦j≦Z-1)が求められていて、記憶部３１５に格納されているものとする。

ＣＰＵ３１１は、メインフレームカウンタiを、i=0に設定する（ステップＳ１２）。

ＣＰＵ３１１は、サブフレームカウンタjを、j=0に設定する（ステップＳ２１１）。

ＣＰＵ３１１は、記憶部３１５からレジスタに、残差信号D_i、j={d_i、j、0、・・・、d_i、j、L-1}をロードする（ステップＳ２１３）。

ＣＰＵ３１１は、残差信号D_i、jからピッチ長を抽出することができるか否かを判別する（ステップＳ２１５）。該判別には、既に図５を用いて、残差信号特徴量抽出部２９の中の総合ピッチ判別部５について説明したように、例えば、規格化された自己相関関数を用いる。

ピッチ長を抽出することができると判別された場合は（ステップＳ２１５；Ｙｅｓ）、ＣＰＵ３１１は、ピッチ長P_i、jを求める（ステップＳ２１７）。ピッチ長P_i、jは、既に図５を用いて、残差信号特徴量抽出部２９の中のピッチ抽出部１１３について説明したように、例えば、総合ピッチ判別部５が規格化された自己相関関数を用いてピッチを抽出することができるか否かを判別した際の副産物として求まる。ＣＰＵ３１１はその後、求めたピッチ長P_i、jを記憶部３１５に格納してから（ステップＳ２１９）、ステップＳ２２１に進む。

一方、ピッチ長を抽出することができないと判別された場合は（ステップＳ２１５；Ｎｏ）、すぐにステップＳ２２１に進む。

ステップＳ２２１では、ＣＰＵ３２１は、帯域識別変数ωを、ω=1に設定する。

ＣＰＵ３１１は、帯域別残差信号生成部としての帯域フィルタ部１１５（図５）として機能することにより、帯域ωの帯域別残差信号D_i、j、ω={d_{i、j、ω、0}、・・・、d_{i、j、ω、L-1}}を生成する（図１２のステップＳ２２３）。

ＣＰＵ３１１は、帯域別雑音判別部１２３（図５）及びフラグ生成部１２９として機能することにより、帯域別残差信号D_i、j、ωが雑音であるか否かを判別し、その結果を反映した帯域ωについてのフラグFlag_i、j、ωを生成し（図１２のステップＳ２２５）、記憶部３１５に格納する（ステップＳ２２７）。フラグが変数としてとり得る値は、後に図を改めて説明する。

ＣＰＵ３１１は、帯域別強度決定部１３１（図５）として機能することにより、帯域別残差信号D_i、j、ωの帯域別絶対強度H_i、j、ωを求める（図１２のステップＳ２２９）。この求め方については、後に図を改めて説明する。

ＣＰＵ３１１は、ωがω_Maxに達したか否かを判別する（ステップＳ２３１）。

ωがω_Maxに達したと判別された場合には（ステップＳ２３１；Ｙｅｓ）、ステップＳ２３５に進む。ωがω_Maxに達していないと判別された場合には（ステップＳ２３１；Ｎｏ）、ωを1増加してから（ステップＳ２３３）、ステップＳ２２３に戻る。

ステップＳ２３５に達した時点では、サブフレーム内でのωについてのループ処理（ステップＳ２３１、ステップＳ２３３等）が終了しているので、ＣＰＵ３１１は、相対値である帯域別強度h_i、j、ωを求めることができる。ＣＰＵ３１１は帯域別強度h_i、j、ωを求め（ステップＳ２３５）、記憶部３１５に格納する（ステップＳ２３７）。帯域別強度h_i、j、ωの具体的な求め方については、後に図を改めて説明する。

ＣＰＵ３１１は、jがZ-1に達したか否かを判別する（ステップＳ２３９）。達したと判別された場合には（ステップＳ２３９；Ｙｅｓ）、ステップＳ２４３に進む。達していないと判別された場合には（ステップＳ２３９；Ｎｏ）、jを1増加してから（ステップＳ２４１）、ステップＳ２１３に戻る。

ステップＳ２４３では、ＣＰＵ３１１は、iがM-1に達したか否かを判別する。達したと判別された場合は（ステップＳ２４３；Ｙｅｓ）、処理を終了する。達していないと判別された場合は（ステップＳ２４３；Ｎｏ）iを1増加してから（ステップＳ２４５）、ステップＳ２１１に戻る。

図１３は、図１２のステップＳ２２５で行われる、帯域ωについてのフラグFlag_i、j，ωを生成する処理を示すフローチャートである。

ＣＰＵ３１１は、図５の帯域別雑音判別部１２３として機能することにより、帯域ωの帯域別残差信号D_i、j、ω={d_{i、j、ω、0}、・・・、d_{i、j、ω、L-1}}が雑音であるか否かを判別する（ステップＳ１３）。判別のための手法としては、例えば、既に図５の第ω帯域雑音判別器の動作として説明したように、規格化された自己相関関数を計算することによる手法を用いるのが好適である。

雑音であると判別された場合は（ステップＳ１３；Ｙｅｓ）、ＣＰＵ３１１は、変数Flag_i、j、ωを"UV"に設定してから（ステップＳ２６１）、処理を終了する。雑音ではないと判別された場合は（ステップＳ１３；Ｎｏ）、ＣＰＵ３１１は、、変数Flag_i、j、ωを"V"に設定してから（ステップＳ２６３）、処理を終了する。

図１４は、図１２のステップＳ２２９で行われる、帯域別残差信号D_i、j、ωの帯域別絶対強度H_i、j、ωを求める処理を示すフローチャートである。

ＣＰＵ３１１は、記憶部３１５の中を検索し、記憶部３１５にピッチ長P_i、jが格納されているか否かを判別する（ステップＳ１４）。記憶部３１５にピッチ長P_i、jが格納されているとすれば、それは図１２のステップＳ２１９によるものであり、ステップＳ２１９を経ているということは、ステップＳ２１５で残差信号D_i、jには全体としてピッチ的な性質が存在すると判別されたことを意味する。記憶部３１５にピッチ長P_i、jが格納されていないとすれば、ステップＳ２１５で残差信号D_i、jには全体としてピッチ的な性質が存在しないと判別されたことを意味する。

記憶部３１５にピッチ長P_i、jが格納されていると判別された場合は（ステップＳ１４；Ｙｅｓ）、既に図５の帯域別強度決定部１３１について説明したように、例えば、所定の時間にわたり帯域別残差信号の2乗を時間積分した後、その平方根を、帯域別絶対強度H_i、j、ωとする（ステップＳ２７１）。さらに、上述のように、本ステップに進んだということは、残差信号D_i、jが全体としてピッチ的な性質を帯びていることであるから、これも既に図５の帯域別強度決定部１３１についての説明で触れたように、前記所定の時間は、P_i、jの整数倍でありかつできるだけ長い時間であることが好ましい。この後、処理は終了する。

記憶部３１５にピッチ長P_i、jが格納されていないと判別された場合は（ステップＳ１４；Ｎｏ）、これも既に図５の帯域別強度決定部１３１の説明で触れたように、例えば、帯域別残差信号D_i、j、ωの全継続時間にわたる積分に基づいて、帯域別絶対強度H_i、j、ωを求める（ステップＳ２７３）。この後、処理は終了する。

図１４が、強度の絶対的な大きさを示す帯域別絶対強度H_i、j、ωを求める処理を示すフローチャートであったのに対して、図１５は、図１２のステップＳ２３５で行われる、相対的な強度である帯域別強度h_i、j、ωを生成する処理を示すフローチャートである。

帯域別強度h_i、j、ωは、iとjとで特定されるサブフレームにおいて、最大の帯域別絶対強度H_i、j、ωを1としたときの、強度の相対値である。

ＣＰＵ３１１は、帯域別残差信号D_i、j、ωの帯域別絶対強度H_i、j、1、・・・、H_{i、j、ωMax}のうちから値が最大のものを特定し、該値を帯域別絶対強度最大値H_i、j、Maxとする（ステップＳ１５）。

ＣＰＵ３１１は、帯域識別変数ωを、ω=1に設定する（ステップＳ２８１）。

ＣＰＵ３１１は、帯域別強度h_i、j、ωを、h_i、j、ω=H_i、j、ω/H_i、j、Maxにより求める（ステップＳ２８３）。

ＣＰＵ３１１は、ωがω_Maxに達したか否かを判別する（ステップＳ２８５）。達したと判別された場合は（ステップＳ２８５；Ｙｅｓ）、処理を終了する。達していないと判別された場合は（ステップＳ２８５；Ｎｏ）、ωを1増加してから（ステップＳ２８７）、ステップＳ２８３を繰り返す。

（特徴量から試行用励起信号を生成する手順）
以下では、本実施形態に係る音声符号化装置３において、図３及び図６に示す残差信号復元試行部３１が行う、ピッチ長とフラグと帯域別強度とから試行用励起信号を生成する手順を、図１６に示すフローチャートを参照しつつ説明する。

なお、前提として、既にフラグFlag_i、j、ωと帯域別強度h_i、j、ωとが求められていて、記憶部３１５に格納されているものとする(0≦i≦M-1、0≦j≦Z-1、1≦ω≦ω_Max)。また、D_i、jからピッチ長P_i、jを抽出することができきた場合には（図１２のステップＳ２１５；Ｙｅｓ）、ピッチ長P_i、jも求められていて記憶部３１５に格納されているものとする。

ＣＰＵ３１１は、メインフレームカウンタiを、i=0に設定する（ステップＳ１６）。

ＣＰＵ３１１は、サブフレームカウンタjを、j=0に設定する（ステップＳ３１１）。

ＣＰＵ３１１は、記憶部３１５の中を検索して、ピッチ長P_i、jが記憶部３１５に格納されているか否かを判別する（ステップＳ３１３）。

ピッチ長P_i、jが記憶部３１５に格納されていると判別された場合は（ステップＳ３１３；Ｙｅｓ）、ＣＰＵ３１１は、ピッチ長P_i、jを記憶部３１５からレジスタにロードする（ステップＳ３１５）。続いて、ＣＰＵ３１１は、図６のピッチパルス列生成部６及び帯域フィルタ部１１５として機能することにより、該ピッチ長P_i、jに基づいて、帯域別ピッチパルス列Ppt_i、j、ω={ppt_{i、j、ω、0}、・・・、ppt_{i、j、ω、L-1}}を生成してから（図１６のステップＳ３１７）、ステップＳ３１９に進む。帯域別ピッチパルス列Ppt_i、j、ωの具体的な求め方の一例については、後に図を改めて説明する。

ピッチ長P_i、jが記憶部３１５に格納されていないと判別された場合は（ステップＳ３１３；Ｎｏ）、すぐにステップＳ３１９に進む。

ステップＳ３１９では、ＣＰＵ３１１は、図６の雑音パルス列生成部２１１及び帯域フィルタ部１１５として機能することにより、帯域別雑音パルス列Rpt_i、j、ω={rpt_{i、j、ω、0}、・・・、rpt_{i、j、ω、L-1}}を生成する。帯域別雑音パルス列Rpt_i、j、ωの具体的な求め方の一例については、後に図を改めて説明する。

ＣＰＵ３１１は、試行用励起信号Ex_i、j={ex_i、j、0、・・・、ex_i、j、L-1}を、Ex_i、j={0、・・・、0}に初期化する（ステップＳ３２１）。

ＣＰＵ３１１は、帯域識別変数ωを、ω=1に設定する（ステップＳ３２３）。

ＣＰＵ３１１は、フラグFlag_i、j、ωと帯域別強度h_i、j、ωとを記憶部３１５からレジスタにロードする（ステップＳ３２５）。

ＣＰＵ３１１は、図６の帯域別試行用励起信号生成部２２１として機能することにより、帯域別試行用励起信号Ex_i、j、ω={ex_{i、j、ω、0}、・・・、ex_{i、j、ω、L-1}}を生成する（図１６のステップＳ３２７）。帯域別試行用励起信号Ex_i、j、ωの具体的な求め方の一例については、後に図を改めて説明する。

ＣＰＵ３１１は、試行用励起信号Ex_i、jを、Ex_i、j+Ex_i、j、ωに更新する（ステップＳ３２９）。

ＣＰＵ３１１は、ωがω_Maxに達したか否かを判別する（ステップＳ３３１）。達していると判別された場合は（ステップＳ３３１；Ｙｅｓ）、ステップＳ３３５に進む。達していないと判別された場合は（ステップＳ３３１；Ｎｏ）、ωを1増加してから（ステップＳ３３３）、ステップＳ３２５に戻る。

ステップＳ３３５では、ＣＰＵ３１１は、この時点で全帯域の帯域別試行用励起信号の和となっている、試行用励起信号Ex_i、jを、記憶部３１５に格納する。

ＣＰＵ３１１は、jがZ-1に達したか否かを判別する（ステップＳ３３７）。達していると判別された場合は（ステップＳ３３７；Ｙｅｓ）、ステップＳ３４１に進む。達していないと判別された場合は（ステップＳ３３７；Ｎｏ）、jを1増加してから（ステップＳ３３９）、ステップＳ３１３に戻る。

ステップＳ３４１では、ＣＰＵ３１１は、iがM-1に達したか否かを判別する。達していると判別された場合は（ステップＳ３４１；Ｙｅｓ）、処理を終了する。達していないと判別された場合は（ステップＳ３４１；Ｎｏ）、iを1増加してから（ステップＳ３４３）、ステップＳ３１１に戻る。

図１７（ａ）は、図１６のステップＳ３１７で行われる、帯域別ピッチパルス列Ppt_i、j、ωを生成する処理を示すフローチャートである。

ＣＰＵ３１１は、図６のピッチパルス列生成部６として機能することにより、図１７（ｂ）に模式的に示すような、大きさsqrt(P_i、j)のパルスがP_i、jに相当する時間間隔で並んだピッチパルス列Ppt_i、j={ppt_i、j、0、・・・、ppt_i、j、L-1}を生成する（ステップＳ１７）。

ＣＰＵ３１１は、帯域識別変数ωを、ω=1に設定する（ステップＳ３５１）。

ＣＰＵ３１１は、図６の帯域別ピッチパルス列生成部としての帯域フィルタ部１１５として機能することにより、ピッチパルス列Ppt_i、jの帯域ωの成分である帯域別ピッチパルス列Ppt_i、j、ω={ppt_{i、j、ω、0}、・・・、ppt_{i、j、ω、L-1}}を生成する（図１７のステップＳ３５３）。

ＣＰＵ３１１は、ωがω_Maxに達したか否かを判別する（ステップＳ３５５）。達していると判別された場合は（ステップＳ３５５；Ｙｅｓ）、処理を終了する。達していないと判別された場合は、（ステップＳ３５５；Ｎｏ）、ωを1増加してから（ステップＳ３５７）、ステップＳ３５３を繰り返す。

図１８（ａ）は、図１６のステップＳ３１９で行われる、帯域別雑音パルス列Rpt_i、j、ωを生成する処理を示すフローチャートである。

ＣＰＵ３１１は、図６の雑音パルス列生成部２２１として機能することにより、図１８（ｂ）に模式的に示すような、大きさが-1以上+1以下の乱数であるパルスが並んだ雑音パルス列Rpt_i、j={rpt_i、j、0、・・・、rpt_i、j、L-1}を生成する（ステップＳ１８）。

ＣＰＵ３１１は、帯域識別変数ωを、ω=1に設定する（ステップＳ３７１）。

ＣＰＵ３１１は、図６の帯域別雑音パルス列生成部としての帯域フィルタ部１１５として機能することにより、雑音パルス列Ppt_i、jの帯域ωの成分である帯域別雑音パルス列Rpt_i、j、ω={rpt_{i、j、ω、0}、・・・、rpt_{i、j、ω、L-1}}を生成する（図１８のステップＳ３７３）。

ＣＰＵ３１１は、ωがω_Maxに達したか否かを判別する（ステップＳ３７５）。達していると判別された場合は（ステップＳ３７５；Ｙｅｓ）、処理を終了する。達していないと判別された場合は、（ステップＳ３７５；Ｎｏ）、ωを1増加してから（ステップＳ３７７）、ステップＳ３７３を繰り返す。

図１９は、図１６のステップＳ３２７で行われる、帯域別試行用励起信号Ex_i、j、ω={ex_{i、j、ω、0}、・・・、ex_{i、j、ω、L-1}}を生成する処理を示すフローチャートである。

ＣＰＵ３１１は、試行強度I(0)_i、jを求める（ステップＳ１９）。この値は、後に修正を施されるものであるので、本ステップで厳密な値を求める必要はない。もっとも、フィードバック系の一般的な性質どおり、試行値といえどもできるだけ正確な値、すなわち後の修正ができるだけ少なくて済むような値、を採用するのが望ましい。かかる観点に鑑み、本実施形態の場合は、図３及び図６で点線矢印にて示したように、試行強度I(0)を、予測係数の0次の係数c_i、j、0に基づいて、
I(0)_i、j=exp(c_i、j、0)
により求め、記憶部３１５に格納する（図１９のステップＳ３９１）。

予測係数は図３に示した予測分析部１５によって既に求まっているので、これに基づいて帯域別試行用励起信号を生成することは、音声符号化装置３の構造を簡易なものとするのに資する。

ＣＰＵ３１１は、記憶部３１５の中を調べて、ピッチ長P_i、jが記憶部３１５に格納されているか否かを判別する（図１９のステップＳ３９３）。

なお、基本的には、以下に述べるように、雑音的な性質を帯びていることがフラグにより示されている帯域については雑音パルス列に基づき該帯域の帯域別試行用励起信号を生成し、一方、ピッチ的な性質を帯びていることがフラグにより示されている帯域についてはピッチパルス列に基づき該帯域の帯域別試行用励起信号を生成する。しかし、そもそも残差信号全体がピッチ的性質を帯びていない場合は、図１６のステップＳ３１３でＮｏと判別されてステップＳ３１７を経ないためピッチパルス列が生成されない。したがって、図１９のステップＳ３９３のように、まず、ピッチ長の存否が判別され、もし存在しないのであればフラグに関係なく全帯域について雑音パルス列に基づき帯域別試行用励起信号が生成される手順にする必要がある。

よって、ピッチ長P_i、jが記憶部３１５に格納されていないと判別された場合は（ステップＳ３９３；Ｎｏ）、ＣＰＵ３１１は、フラグの値を参照することなく、すぐにステップＳ３９７に進む。

ピッチ長P_i、jが記憶部３１５に格納されていると判別された場合は（ステップＳ３９３；Ｙｅｓ）、ＣＰＵ３１１は、続いて、フラグFlag_i、j、ω="UV"か否かを判別する（ステップＳ３９５）。フラグFlag_i、j、ω="UV"であると判別された場合は（ステップＳ３９５；Ｙｅｓ）、ステップＳ３９７に進む。フラグFlag_i、j、ω="UV"ではないと判別された場合は（ステップＳ３９５；Ｎｏ）、ステップＳ３９９に進む。

ステップＳ３９７では、帯域別試行用励起信号Ex_i、j、ωを、
Ex_i、j、ω=I(0)_i、j×h_i、j、ω×Rpt_i、j、ω
により求める。

ステップＳ３９９では、帯域別試行用励起信号Ex_i、j、ωを、
Ex_i、j、ω=I(0)_i、j×h_i、j、ω×Ppt_i、j、ω
により求める。

（係数ベクトルと逆量子化係数ベクトルの関係）
以下では、上述のフィードバックループ形成のために音声符号化装置３の中でシミュレートされる、音声復号装置４の動作の一部を説明するが、理解を容易にするために、まず、係数ベクトルと逆量子化係数ベクトルの関係を整理して図２０に示す。

量子化された係数ベクトルはテーブルとして表記されるものである一方、逆量子化ベクトルは該表記を具体的なベクトルとして捉えたものであるが、既にベクトル量子化について説明したように、ここでは両者を特に区別することなく用いる。例えば、符号qは、ある量が量子化されたことを表す符号として用いているが、同時に、逆量子化されその量と直接比較し得る量のことも示すものとする。つまり、量子化された結果と、それが逆量子化された量とを、表記の上では区別しないこととする。本実施形態においては、量子化の結果の表現態様が重要なのではなく、量子化によって近似による情報量削減が達成されることが重要なためである。

図２０に示す表は、既に図８（ａ）に示した、係数ベクトルの時系列毎かつ次元毎の一覧表に、各係数ベクトルに対応する近似結果を付記した表である。ＣＰＵ３１１が図３のベクトル正規化部１９、スカラー量子化部２１、及び、ベクトル量子化部２３として機能した結果、図１０のフローチャートのステップＳ１６９及びステップＳ１７５において、記憶部３１５には、スカラー量子化係数ベクトル最大絶対値q[Max[c]]_i,kとベクトル量子化正規化係数ベクトルq[n[c]]_i、kとが格納されている。図２０に示すように、係数ベクトル
V_i、k={c_i、0、k、・・・、c_i、Z-1、k}
は、量子化の結果、疑似係数ベクトル
q[V]_i、k
={ q[Max[c]]_i、k×q[n[c]]_i、0、k、・・・、q[Max[c]]_i、k×q[n[c]]_i、Z-1、k}
に近似される。

（試行用再生音声信号を生成する手順）
以下では、本実施形態に係る音声符号化装置３において、図３に示す合成フィルタ算出部２５及び疑似合成フィルタ部２７が行う、試行用励起信号から試行用再生音声信号を生成する手順を、図２１に示すフローチャートを参照しつつ説明する。

なお、前提として、試行用励起信号Ex_i、jと、図２０の表に示したスカラー量子化係数ベクトル最大絶対値q[Max[c]]_i、k及びベクトル量子化正規化係数ベクトルq[n[c]]_i、kと、は、既に求められていて、記憶部３１５に格納されているものとする(0≦i≦M-1、0≦j≦Z-1、0≦k≦N-1)。

ＣＰＵ３１１は、メインフレームカウンタiを、i=0に設定する（ステップＳ２１）。

ＣＰＵ３１１は、スカラー量子化係数ベクトル最大絶対値q[Max[c]]_i、0、・・・、q[Max[c]]_i、N-1と、ベクトル量子化正規化係数ベクトルq[n[c]]_i、0、・・・、q[n[c]]_i、N-1と、を、記憶部３１５からレジスタにロードする（ステップＳ４１１）。続いてＣＰＵ３１１は、疑似係数ベクトルq[V]_i、kを、
q[V]_i、k=q[Max[c]]_i、k×q[n[c]]_i、k(0≦k≦N-1)
という乗算により求める（ステップＳ４１３）。

ＣＰＵ３１１は、サブフレームカウンタjを、j=0に設定する（ステップＳ４１５）。

ＣＰＵ３１１は、試行用励起信号Ex_i、jを記憶部３１５からレジスタにロードする（ステップＳ４１７）。

ＣＰＵ３１１は、疑似係数ベクトルq[V]_i、0、・・・、q[V]_i、N-1のそれぞれの第j成分であるq[Max[c]]_i、0×q[n[c]]_i、j、0、・・・、q[Max[c]]_i、N-1×q[n[c]]_i、j、N-1により、iで識別されるメインフレームの中のjで識別されるサブフレームにおける疑似合成フィルタを定義する（ステップＳ４１９）。これにより、図３の疑似合成フィルタ部２７の仕様が決定される。

ＣＰＵ３１１は、ステップＳ４１９により定義された疑似合成フィルタに試行用励起信号Ex_i、jを通すことに相当する演算を行うことにより、試行用再生音声信号W(0)_i、j={w(0)_i、j、0、・・・、w(0)_i、j _、L-1}を生成し（ステップＳ４２１）、記憶部３１５に格納する（ステップＳ４２３）。

ＣＰＵ３１１は、jがZ-1に達したか否かを判別する（ステップＳ４２５）。達していると判別された場合は（ステップＳ４２５；Ｙｅｓ）、ステップＳ４２９に進む。達していないと判別された場合は（ステップＳ４２５；Ｎｏ）、jを1増加してから（ステップＳ４２７）、ステップＳ４１７に戻る。

ステップＳ４２９では、ＣＰＵ３１１は、iがM-1に達したか否かを判別する。達していると判別された場合は（ステップＳ４２９；Ｙｅｓ）、処理を終了する。達していないと判別された場合は（ステップＳ４２９；Ｎｏ）、iを1増加してから（ステップＳ４３１）、ステップＳ４１１に戻る。

（修正強度を生成する手順）
以下では、本実施形態に係る音声符号化装置３において、図３に示す修正因子決定部３３が行う、修正強度を生成する手順を、図２２に示すフローチャートを参照しつつ説明する。

なお、前提として、入力音声信号S_i、jは記憶部３１５に格納されたまま残されているものとし、試行強度I(0)_i、jと試行用再生音声信号W(0)_i、jとは、既に求められて記憶部３１５に格納されているもものとする。また、図５のピッチ抽出部１１３により図１２のステップＳ２１７においてピッチ長P_i、jが求められている場合には、ステップＳ２１９に示すとおり、ピッチ長P_i、jは記憶部３１５に格納されているものとする(0≦i≦M-1、0≦j≦Z-1)。

ＣＰＵ３１１は、メインフレームカウンタiを、i=0に設定する（ステップＳ２２）。

ＣＰＵ３１１は、サブフレームカウンタjを、j=0に設定する（ステップＳ４６１）。

ＣＰＵ３１１は記憶部３１５の中を検索し、ピッチ長P_i、jが記憶部３１５に格納されているか否かを判別する（ステップＳ４６３）。

格納されていると判別された場合には（ステップＳ４６３：Ｙｅｓ）、ＣＰＵ３１１はピッチ長P_i、jを記憶部３１５からレジスタにロードし（ステップＳ４６５）、
m×P_i、j≦L-1＜(m+1)×P_i、j
なる整数mを求め、Y= m×P_i、j+1に設定し（ステップＳ４６７）、ステップＳ４７１に進む。

一方、格納されていないと判別された場合には（ステップＳ４６３；Ｎｏ）、ＣＰＵ３１１は、Y=Lに設定し（ステップＳ４６９）、ステップＳ４７１に進む。

ステップＳ４７１では、ＣＰＵ３１１は、入力音声信号S_i、j={s_i、j、0、・・・、s_i、j、L-1}、試行用再生音声信号W(0)_i、j={w(0)_i、j、0、・・・、w(0)_i、j、L-1}、及び、試行強度I(0)_i、jを記憶部３１５からレジスタにロードする。続いて、ステップＳ４７３では、ＣＰＵ３１１は、入力音声信号強度sqrt(ΣS_i、j ²)と試行用再生音声信号強度sqrt(ΣW(0)_i、j ²)とを、
sqrt(ΣS_i、j ²)=sqrt(s_i、j、0 ²+・・・+s_i、j、Y-1 ²)
sqrt(ΣW(0)_i、j ²)=sqrt(w(0)_i、j、0 ²+・・・+w(0)_i、j、Y-1 ²)
のように計算する。かかる計算は、図１４のステップＳ２７１及びステップＳ２７３で行われた、帯域別絶対強度H_i、j、ωの計算方法と同様のものである。また、図１４のステップＳ２７１及びステップＳ２７３の使い分けと同様に、図２２においても、ピッチ長P_i、jの存否により、積分時間長に相当するYの値の決定方法を変化させている。ピッチ長P_i、jが存在しない場合は、単にできるだけ長時間にわたる積分を行うことにより精度を高める一方、ピッチ長P_i、jが存在する場合には、積分する時間長をなるべく長くするだけではなく、該ピッチ長の整数倍とすることにより、位相のずれに起因する誤差が生じないようにする。

続いて、ＣＰＵ３１１は、修正強度I(1)_i、jを、
I(1)_i、j = I(0)_i、j×{sqrt(ΣS_i、j ²)/sqrt(ΣW(0)_i、j ²)}
のように求め（ステップＳ４７５）、記憶部３１５に格納する（ステップＳ４７７）。

ここで、この式の{}内の除算は、先に残差信号復元方針決定のためのフィードバックループについて説明した際に例示した、I_S(0)/I_W(0)=1.25という、割増率の算出のための除算に相当する。

ＣＰＵ３１１は、jがZ-1に達したか否かを判別する（ステップＳ４７９）。達していると判別された場合は（ステップＳ４７９；Ｙｅｓ）、ステップＳ４８３に進む。達していないと判別された場合は（ステップＳ４７９；Ｎｏ）、jを1増加してから（ステップＳ４８１）、ステップＳ４６３に戻る。

ステップＳ４８３では、ＣＰＵ３１１は、iがM-1に達したか否かを判別する。達していると判別された場合は（ステップＳ４８３；Ｙｅｓ）、処理を終了する。達していないと判別された場合は（ステップＳ４８３；Ｎｏ）、iを1増加してから（ステップＳ４８５）、ステップＳ４６１に戻る。

（特徴量から復号用励起信号を生成する手順）
以下では、図４に示す音声復号装置４の動作について説明する。まず、残差信号復元部６５が、復号用励起信号を生成する手順について説明する。

前提として、復号部６３により、特徴量であるフラグFlag_i、j、ωと帯域別強度h_i、j、ωと存在する場合にはピッチ長P_i、jとが復号されて、記憶部３１５に格納されているものとする。また、修正強度I(1)_i、jも同じく復号され記憶部３１５に格納されているものとする。

既に述べたとおり、図４に示す残差信号復元部６５は、図３に示す残差信号特徴量抽出部２９に極めて似た動作を行う。いずれも、特徴量から、合成フィルタに入力するための励起用の信号を生成する点で、共通しているからである。ただし、前者は実際に音声を復元するための信号を生成するものであるのに対して、後者は修正因子である修正強度を求めるためのものである。後者の動作により求められた修正強度は、前者の動作に際しては、与えられる量となる。

以上の点に留意すると、特徴量から復号用励起信号を生成する手順は、図１６に示した、特徴量から試行用励起信号を生成する処理とほぼ同じとなる。つまり概ね、図１６にある試行用励起信号という用語を、復号用励起信号と読み替えればよい。そこで、煩雑になるのを避けるため、ここでは図１６とは別のフローチャートを示すことはしない。

ただし、図１６のステップＳ３２７の詳細が示された図１９におけるステップＳ１９及びステップＳ３９１の代わりに、ＣＰＵ３１１が記憶部３１５からレジスタに修正強度I(1)_i、jをロードするステップが挿入され、ステップＳ３９７及びステップＳ３９９ではI(0)_i、jの代わりにI(1)_i、jが用いられることになる。

さらに、好ましくは、サブフレームの境界でサブフレーム別残差信号強度が急激に変化することにより再生音声信号が不自然になることのないよう、帯域別にスムージング処理を行う。そのためには、復号用励起信号の生成における図１６のステップＳ３２７に相当するステップである、帯域別復号用励起信号Ex_i、j、ωを生成する手順を、図２３に示すようなものとする。

図２３のフローチャートに示すように、ＣＰＵ３１１は、修正強度I(1)_i、jを記憶部３１５からレジスタにロードする。また、ＣＰＵ３１１は、iとjとで特定されるサブフレームの直前のサブフレームにおける修正強度、フラグ、及び、帯域別強度である修正強度I(1)_pre、フラグFlag_pre、ω、及び、帯域別強度h_pre、ωを、記憶部３１５からレジスタにロードする（ステップＳ２３）。

ＣＰＵ３１１は、記憶部３１５の中を検索して、ピッチ長P_i、jが記憶部３１５に格納されているか否かを判別する（ステップＳ５１１）。格納されていると判別された場合には（ステップＳ５１１；Ｙｅｓ）、判別ステップＳ５１３に進む。格納されていないと判別された場合には（ステップＳ５１１；Ｎｏ）、別の判別ステップＳ５１５に進む。

ステップＳ５１３では、ＣＰＵ３１１は、フラグFlag_i、j、ωがFlag_i、j、ω="UV"であるか否かを判別する。"UV"であると判別された場合には（ステップＳ５１３；Ｙｅｓ）、判別ステップＳ５１５に進む。"UV"ではないと判別された場合には（ステップＳ５１３；Ｎｏ）、別の判別ステップＳ５１７に進む。

ステップＳ５１５では、ＣＰＵ３１１は、Flag_i、j、ω=Flag_pre、ωであるか否かを判別する。Flag_i、j、ω=Flag_pre、ωであると判別された場合には（ステップＳ５１５；Ｙｅｓ）、ステップＳ５５１に進む。Flag_i、j、ω=Flag_pre、ωではないと判別された場合には（ステップＳ５１５；Ｎｏ）、ステップＳ５５３に進む。

ステップＳ５１７でも同様に、ＣＰＵ３１１は、Flag_i、j、ω=Flag_pre、ωであるか否かを判別し、そうであると判別された場合には（ステップＳ５１７；Ｙｅｓ）ステップＳ５５５に、そうでないと判別された場合には（ステップＳ５１７；Ｎｏ）ステップＳ５５９に、それぞれ進む。

以上のステップを経てステップＳ５５１、ステップＳ５５３、ステップＳ５５５、及び、ステップＳ５５９に達したということは、それぞれ、iとjとで特定されるサブフレームにおける帯域別復号用励起信号が、直前のサブフレームにおけるそれとの間で、雑音から雑音、非雑音から雑音、非雑音から非雑音、及び、雑音から非雑音へと、つながるべきこと又は切り替わるべきことを意味する。これらの各ステップ終了後に、処理は終了する。

このうち、非雑音から雑音に切り替わる場合（ステップＳ５５３）と、雑音から非雑音に切り替わる場合（ステップＳ５５９）とには、上述のスムージング処理を行わず、単に図１９のステップＳ３９７とステップＳ３９９とに相当するEx_i、j、ω=I(1)_i、j×h_i、j、ω×Rpt_i、j、ω（ステップＳ５５３）とEx_i、j、ω=I(1)_i、j×h_i、j、ω×Ppt_i、j、ω（ステップＳ５５９）という計算により、帯域別復号用励起信号Ex_i、j、ωを生成する。

雑音と非雑音とは、性質の違いのため、信号強度を直接比較しても有益な情報は得られない。そこで、ステップＳ５５３及びステップＳ５５９の場合のような、同一の帯域において、雑音的性質を有するサブフレームと雑音的性質を有さないサブフレームとが隣接している場合には、むしろ上述のスムージング処理は行わないほうが再生音声信号が自然なものとなる。

ステップＳ５５１及びステップＳ５５５では、サブフレームの境界で帯域別復号用励起信号の強度がなだらかに変化するように帯域別復号用励起信号Ex_i、j、ωを生成する。

その具体的な手順、すなわちスムージング処理の一例を、図２４のフローチャートに示す。ＣＰＵ３１１は、時系列カウンタtをt=0に設定する（ステップＳ２４）。

ステップＳ５５１の場合、すなわち、雑音サブフレーム同士が隣接する場合には、帯域別復号用励起信号Ex_i、j、ωの第(t+1)番目の要素であるex_{i、j、ω、t}を、
ex_{i、j、ω、t}
={(L-t)×I(1)_pre×h_pre、ω+t×I(1)_i、j×h_i、j、ω}×rpt_{i、j、ω、t}/L
により求める。

ステップＳ５５５の場合、すなわち、非雑音サブフレーム同士が隣接する場合には、帯域別復号用励起信号Ex_i、j、ωの第(t+1)番目の要素であるex_{i、j、ω、t}を、
ex_{i、j、ω、t}
={(L-t)×I(1)_pre×h_pre、ω+t×I(1)_i、j×h_i、j、ω}×ppt_{i、j、ω、t}/L
により求める（ステップＳ５６１）。

ＣＰＵ３１１は、tがL-1に達したか否かを判別する（ステップＳ５６３）。達していると判別された場合は（ステップＳ５６３；Ｙｅｓ）、処理を終了する。達していないと判別された場合は（ステップＳ５６３；Ｎｏ）、tを1増加してから（ステップＳ５６５）、ステップＳ５６１を繰り返す。

以上のように求められた帯域別復号用励起信号は全ての帯域にわたり合計され、復号用励起信号として図４の残差信号復元部６５から出力される。

（音声再生信号を生成する手順）
図４の残差信号復元部６５により上述のように生成され復号用励起信号として出力された信号は、疑似合成フィルタ部２７を通されることにより、再生音声信号に変換される。具体的な手順は、図２１に準ずる。試行用再生音声信号を単なる再生音声信号に、試行用励起信号を復号用励起信号に、それぞれ読み替える等する。

例えば、図４の疑似合成フィルタ部２７は、合成フィルタ算出部２５により、図２０の表に示された疑似係数ベクトルq[V]_i、kの成分の値により定義される（図２１のステップＳ４１９に相当。）。

（実施形態２）
実施形態１に係る音声符号化装置３では、図３及び図６の機能構成図における残差信号復元試行部３１の説明や、図１９のフローチャートのステップＳ１９の説明にて触れたように、試行強度I(0)_i、jとして、予測係数の0次の係数に基づいたexp(c_i、j、0)を用いていた。

これに対して本実施形態に係る音声符号化装置は、その機能構成のほとんどは実施形態１に係る音声符号化装置３と同じであるものの、その内部に新たに残差信号強度時間平均値sqrt(ΣD_i、j ²/Y)=sqrt{(d_i、j、0 ²+・・・+d_i、j、Y-1 ²)/Y}を求める残差信号強度時間平均値算出部が設けられる（図示せず。）。そして、この残差信号強度時間平均値算出部が、図３の予測分析部１５により求められた残差信号に基づいて残差信号強度時間平均値sqrt(ΣD_i、j ²/Y)を算出して、図６の残差信号復元試行部３１の中の帯域別試行用励起信号生成部２２１に引き渡す。帯域別試行用励起信号生成部２２１は、試行強度I(0)_i、jを、予測係数の0次の係数に基づくかわりに、I(0)_i、j=sqrt(ΣD_i、j ²/Y)のように決定する。

なお、ここでYは、先に図２２に示すフローチャートのステップＳ４６７とステップＳ４６９に示した求め方と同様に求められる。つまり、積分を行う際には、単純に、できるだけ長い時間にわたって計算するようにしたほうが精度が向上するという観点と、iとjとで特定されるサブフレームにおける残差信号が、全体としてピッチ的な性質を有するのであれば、位相のずれに起因する誤差が生じないようにするために、ピッチ長の整数に相当する時間にわたって計算するようにしたほうが精度が向上するという観点とに基づく。

音声復号装置が励起信号の強度として用いるべき値は、原理的には、予測分析により生成された残差信号の強度の値に等しいと考えられる。よって、帯域別試行用励起信号を生成するに際しては、上述のように、予測分析により生成された残差信号の強度に基づく方が、予測係数の一部に基づくよりも、正確であることが期待される。

このように、本実施形態に係る音声符号化装置は、実施形態１に係る音声符号化装置３に比べて、残差信号強度時間平均値を算出する機能を別途必要とするが、より適切な試行強度を生成する。つまり、はじめからより正確な試行強度を採用することにより、試行後の修正がより軽微で済むという点で、音声復号装置により再生される音声がより高品質なものとなることが期待される。

（実施形態３）
本実施形態に係る音声符号化装置は、実施形態１に係る音声符号化装置３から、残差信号復元試行部３１と、合成フィルタ算出部２５と、疑似合成フィルタ部２７と、修正因子決定部３３と、を省略した装置であり、本実施形態に係る音声復号装置は、かかる省略に対応した装置である。

本実施形態に係る音声符号化装置及び音声復号装置は、実施形態１の場合に比べて、上述のとおり、残差信号復元試行部３１等が省略されたために簡易な装置となる。また、かかる省略により上述のフィードバックループによる再生音声の品質の向上は見込めなくなるが、量子化及び逆量子化部２を備えることによる予測信号の伝達の効率化は、実施形態１の場合と同様に、達成することができる。

（実施形態４）
本実施形態に係る音声符号化装置は、実施形態１に係る音声符号化装置３から、ベクトル正規化部１９と、スカラー量子化部２１と、ベクトル量子化部２３と、を省略した装置であり、本実施形態に係る音声復号装置は、かかる省略に対応した装置である。

本実施形態に係る音声符号化装置及び音声復号装置は、実施形態１の場合に比べて、上述のとおり、ベクトル正規化部１９等が省略されたために簡易な装置となる。また、かかる省略により予測係数の量子化による予測信号の伝達の効率化は見込めなくなるが、残差信号復元試行部３１と、修正因子決定部３３と、を備えることによる再生音声の品質向上は、実施形態１の場合と同様に、達成することができる。

（実施形態５）
実施形態１及び実施形態２に係る音声符号化装置は、図２２のフローチャートに示したように、初めに仮定した試行強度I(0)_i、jに対して、1回だけ上述のフィードバックを行って、修正強度I(1)_i、jを求めた。それに対し本実施形態にかかる音声符号化装置は、修正強度I(1)_i、jを求めた後、図１９のフローチャートにおいてI(0)_i、jをI(1)_i、jに置き換えた手順に相当する手順等により、該修正強度I(1)_i、jに基づき再び新たな修正強度I(2)_i、jを求め、音声復号装置に伝達する。あるいはさらに、修正強度I(2)_i、jに基づき新たな修正強度I(3)_i、jを求める、といった手続を繰り返して修正強度についての数列I(0)_i、j、I(1)_i、j、I(2)_i、j、I(3)_i、j、I(4)_i、j 、I(5)_i、j、・・・を求めて、所定の収束条件を満たしたところで前記繰り返しをやめ、そのときに得られた最終的な修正強度を音声復号装置に伝達してもよい。

かかる繰り返しを要するために、本実施形態にかかる音声符号化装置は、実施形態１や実施形態２に係る音声符号化装置に比べて複雑な装置になるが、修正強度としてより適切な値を音声復号装置に伝達することができるため、音声復号装置にて再生される音声の品質が向上することが期待できる。

なお、この発明は、上記実施形態に限定されず、種々の変形及び応用が可能である。上述のハードウェア構成やブロック構成、フローチャートはあくまでも説明のための例示であって、本発明の範囲を限定するための例示ではない。

例えば、図７に示される音声符号化兼復号装置７の例として携帯電話機を挙げたが、ＰＨＳ（Personal Handyphone System）、ＰＤＡ（Personal Digital Assistants）、ノート型及びデスクトップ型パーソナルコンピュータ等による音声処理においても、同様に本発明を適用することができる。例えば本発明をパーソナルコンピュータに適用する場合には、パーソナルコンピュータに音声入出力装置や通信装置等を付加すれば、ハードウェアとしては携帯電話機の機能を有するようにすることができる。そして、上述の処理をコンピュータに実行させるためのコンピュータプログラムが記録媒体や通信により配布されれば、これをコンピュータにインストールして実行させることにより、該コンピュータをこの発明に係る音声符号化装置又は音声復号装置として機能させることも可能である。

すなわち、上記実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。

音声信号の予測分析の概要を示す図である。音声信号の分析合成の過程に挿入される、近似過程及びフィードバックの概要を示す図である。本発明の実施形態１に係る音声符号化装置の機能構成を示す図である。本発明の実施形態１に係る音声復号装置の機能構成を示す図である。残差信号特徴量抽出部の詳細な機能構成を示す図である。残差信号復元試行部の詳細な機能構成を示す図である。本発明の実施形態１に係る音声符号化兼復号装置の物理的な構成を示す図である。予測係数から構成される係数ベクトルを表として示すとともに、係数ベクトルが量子化される様子を模式的に示す図である。予測分析の流れを示す図である。ベクトル正規化とスカラー量子化とベクトル量子化とを行う流れを示す図である。正規化係数ベクトルの分布の偏りを模式的に示す図である。残差信号からピッチ長とフラグと帯域別強度とを生成する流れを示す図である。帯域ωについてのフラグを生成する流れを示す図である。帯域別残差信号の帯域別絶対強度を求める流れを示す図である。帯域別強度を生成する流れを示す図である。ピッチ長とフラグと帯域別強度とから試行用励起信号を生成する流れを示す図である。帯域別ピッチパルス列を生成する流れを示すとともに、ピッチパルス列を模式的に示す図である。帯域別雑音パルス列を生成する流れを示すとともに、雑音パルス列を模式的に示す図である。帯域別試行用励起信号を生成する流れを示す図である。係数ベクトルと疑似係数ベクトルとを並べて表として示した図である。試行用再生音声信号を生成する流れを示す図である。修正強度を生成する流れを示す図である。帯域別復号用励起信号を生成する流れを示す図である。サブフレームの境界で強度がなめらかに変化するように帯域別復号用励起信号を生成する流れを示す図である。

符号の説明

１・・・合成フィルタ部、２・・・量子化及び逆量子化部、３・・・実施形態１に係る音声符号化装置、４・・・実施形態１に係る音声復号装置、５・・・総合ピッチ判別部、６・・・ピッチパルス列生成部、７・・・実施形態１に係る音声符号化兼復号装置、１１・・・マイクロフォン、１３・・・Ａ／Ｄ変換部、１５・・・予測分析部、１７・・・予測分析用逆フィルタ算出器、１９・・・ベクトル正規化部、２１・・・スカラー量子化部、２３・・・ベクトル量子化部、２５・・・合成フィルタ算出部、２７・・・疑似合成フィルタ部、２９・・・残差信号特徴量抽出部、３１・・・残差信号復元試行部、３３・・・修正因子決定部、３５・・・符号化部、３７・・・送信部、５１・・・特徴量抽出及び復元部、６１・・・受信部、６３・・・復号部、６５・・・残差信号復元部、６７・・・Ｄ／Ａ変換部、６９・・・スピーカ、１１１・・・ピッチ抽出用スイッチ、１１３・・・ピッチ抽出部、１１５・・・帯域フィルタ部、１１７・・・第１帯域フィルタ、１１９・・・第２帯域フィルタ、１２１・・・第３帯域フィルタ、１２３・・・帯域別雑音判別部、１２５・・・第１帯域雑音判別器、１２７・・・第２帯域雑音判別器、１２９・・・フラグ生成部、１３１・・・帯域別強度決定部、１３３・・・第１帯域強度算出器、１３５・・・第２帯域強度算出器、２１１・・・雑音パルス列生成部、２２１・・・帯域別試行用励起信号生成部、２２３・・・第１帯域別試行用励起信号生成器、２２５・・・第２帯域別試行用励起信号生成器、２２７・・・試行用励起信号生成部、３１１・・・ＣＰＵ、３１３・・・ＲＯＭ、３１５・・・記憶部、３１７・・・無線通信部、３１９・・・音声処理部、３２１・・・操作キー入力処理部、３２３・・・システムバス、３２５・・・アンテナ、３２７・・・操作キー、３２９・・・ＲＡＭ、３３１・・・ハードディスク

Claims

入力音声信号を所定の時間枠であるサブフレーム毎に残差信号と所定の次数までの予測係数とに分解する予測分析部と、
前記残差信号から該残差信号を特徴付ける量である特徴量を抽出する特徴量抽出部と、
複数の連続する前記サブフレームから構成されるメインフレーム毎に次数が共通する前記予測係数を成分とする係数ベクトルを生成する係数ベクトル生成部と、
前記係数ベクトル毎に、絶対値が最大となる成分を特定し、該成分の絶対値である係数ベクトル最大絶対値を求め、該係数ベクトル最大絶対値により該係数ベクトルの全成分を除して正規化係数ベクトルを求めるベクトル正規化部と、
前記係数ベクトル最大絶対値をスカラー量子化してスカラー量子化係数ベクトル最大絶対値を生成するスカラー量子化部と、
前記正規化係数ベクトルをベクトル量子化してベクトル量子化正規化係数ベクトルを生成するベクトル量子化部と、
前記特徴量と前記スカラー量子化係数ベクトル最大絶対値と前記ベクトル量子化正規化係数ベクトルとを符号化する符号化部と、
を備える音声符号化装置。
前記特徴量抽出部は、
前記残差信号からピッチを抽出することができるか否かを判別する総合ピッチ判別部と、
前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合に該残差信号のピッチ長を求めるピッチ抽出部と、
前記残差信号から所定の帯域毎に帯域別残差信号を生成する帯域別残差信号生成部と、
前記帯域別残差信号が雑音か否かを判別することにより前記所定の帯域毎に該帯域が雑音帯域か否かを判別する帯域別雑音判別部と、
前記所定の帯域毎に、前記帯域別雑音判別部により該帯域が雑音帯域であると判別されたか否かを示すフラグを生成するフラグ生成部と、
前記帯域別残差信号の強度を、前記残差信号の前記所定の帯域毎の強度である帯域別強度として求める帯域別強度決定部と、
を備え、
前記符号化部は、
前記フラグ、前記帯域別強度、前記スカラー量子化係数ベクトル最大絶対値、前記ベクトル量子化正規化係数ベクトル、及び、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合には前記ピッチ抽出部により求められたピッチ長、を符号化する、
ことを特徴とする請求項１に記載の音声符号化装置。
前記帯域別強度決定部は、
前記所定の帯域毎に、所定の時間にわたり該所定の帯域の帯域別残差信号の２乗を時間積分して得られる値の平方根である帯域別絶対強度を求め、前記サブフレーム毎に前記帯域別絶対強度の最大値を求め、該最大値により該サブフレームにおける帯域別絶対強度を除した値である帯域別強度を求める、
ことを特徴とする請求項２に記載の音声符号化装置。
前記帯域別強度決定部は、
前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合には、前記所定の帯域毎に、前記ピッチ抽出部により求められたピッチ長の整数倍の時間にわたり該所定の帯域の帯域別残差信号の２乗を時間積分して得られる値の平方根である帯域別絶対強度を求め、前記サブフレーム毎に前記帯域別絶対強度の最大値を求め、該最大値により該サブフレームにおける帯域別絶対強度を除した値である帯域別強度を求め、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができないと判別された場合には、前記所定の帯域毎に、所定の時間にわたり該所定の帯域の帯域別残差信号の２乗を時間積分して得られる値の平方根である帯域別絶対強度を求め、前記サブフレーム毎に前記帯域別絶対強度の最大値を求め、該最大値により該サブフレームにおける帯域別絶対強度を除した値である帯域別強度を求める、
ことを特徴とする請求項２又は３に記載の音声符号化装置。
前記特徴量抽出部により抽出された特徴量と所定の試行方針とに基づいて擬似的な残差信号を生成し該擬似的な残差信号を試行用励起信号として出力する残差信号復元試行部と、
前記スカラー量子化部により生成されたスカラー量子化係数ベクトル最大絶対値と前記ベクトル量子化部により生成されたベクトル量子化正規化係数ベクトルとにより定義される疑似合成フィルタ部と、
前記残差信号復元試行部から出力された試行用励起信号が前記疑似合成フィルタ部に入力されることにより該疑似合成フィルタ部から出力される信号である試行用再生音声信号と前記入力音声信号との比較に基づき、前記所定の試行方針を修正する因子である修正因子を求める修正因子決定部と、
をさらに備え、
前記符号化部は、
前記修正因子をさらに符号化する、
ことを特徴とする請求項１乃至４の何れか１項に記載の音声符号化装置。
前記特徴量抽出部により抽出された特徴量と所定の試行方針とに基づいて前記残差信号の復元を試行し、該試行により得られる信号を試行用励起信号として出力する残差信号復元試行部と、
前記スカラー量子化部により生成されたスカラー量子化係数ベクトル最大絶対値を前記ベクトル量子化部により生成されたベクトル量子化正規化係数ベクトルに乗じることにより求めた疑似係数ベクトルの成分である疑似予測係数により定義される疑似合成フィルタ部と、
前記残差信号復元試行部から出力された試行用励起信号が前記疑似合成フィルタ部に入力されることにより該疑似合成フィルタ部から出力される音声信号である試行用再生音声信号を前記入力音声信号と比較することにより、前記所定の試行方針を修正する因子であって該因子により修正された試行方針に基づいた前記残差信号復元試行部による前記試行を経て該残差信号復元試行部から出力された信号が前記疑似合成フィルタ部に入力されることにより該疑似合成フィルタ部から出力される信号が前記入力音声信号の近似信号として前記試行用再生音声信号に比べてより適切となるような因子である修正因子を求める修正因子決定部と、
をさらに備え、
前記符号化部は、
前記修正因子をさらに符号化する、
ことを特徴とする請求項３又は４に記載の音声符号化装置。
前記残差信号復元試行部は、
大きさが乱数であるパルスから構成される雑音パルス列を生成し、該雑音パルス列から前記所定の帯域毎に帯域別雑音パルス列を生成する帯域別雑音パルス列生成部と、
前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合に、前記ピッチ抽出部により求められたピッチ長を取得し、大きさが一定であるパルスから構成され時間間隔が該ピッチ長であるピッチパルス列を生成し、該ピッチパルス列から前記所定の帯域毎に帯域別ピッチパルス列を生成する帯域別ピッチパルス列生成部と、
をさらに備え、
前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合には、前記帯域別強度決定部により求められた帯域別強度と前記フラグ生成部により生成されたフラグとを取得し、前記所定の帯域毎に、前記帯域別雑音判別部により雑音帯域であると判別されたことが該フラグにより示されている帯域については、前記帯域別雑音パルス列生成部により生成された帯域別雑音パルス列に該帯域の帯域別強度と所定の試行強度とを乗じて帯域別試行用励起信号を生成し、前記帯域別雑音判別部により雑音帯域ではないと判別されたことが該フラグにより示されている帯域については、前記帯域別ピッチパルス列生成部により生成された帯域別ピッチパルス列に該帯域の帯域別強度と所定の試行強度とを乗じて帯域別試行用励起信号を生成し、全ての前記所定の帯域についての帯域別試行用励起信号を合成することにより試行用励起信号を生成して出力し、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができないと判別された場合には、全ての前記所定の帯域毎に、前記帯域別雑音パルス列生成部により生成された帯域別雑音パルス列に該帯域の帯域別強度と所定の試行強度とを乗じて帯域別試行用励起信号を生成し、全ての前記所定の帯域についての帯域別試行用励起信号を合成することにより試行用励起信号を生成して出力する、
ことを特徴とし、
前記修正因子決定部は、
前記残差信号復元試行部から出力された試行用励起信号が前記疑似合成フィルタ部に入力されることにより該疑似合成フィルタ部から出力される音声信号である試行用再生音声信号を前記入力音声信号と比較することにより、前記所定の試行強度を修正した強度であって該強度を該所定の試行強度の代わりに用いた前記残差信号復元試行部から出力された信号が前記疑似合成フィルタ部に入力されることにより該疑似合成フィルタ部から出力される信号が前記入力音声信号の近似信号として前記試行用再生音声信号に比べてより適切となるような強度である修正強度を求める、
ことを特徴とし、
前記符号化部は、
前記修正因子として前記修正強度を符号化する、
ことを特徴とする請求項６に記載の音声符号化装置。
前記修正因子決定部は、
前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合には、前記ピッチ抽出部により求められたピッチ長の整数倍の時間にわたり前記入力音声信号の２乗を時間積分して得られる値の平方根を同じ時間にわたり前記試行用再生音声信号の２乗を時間積分して得られる値の平方根により除した値に前記試行強度を乗じた値を前記修正強度とし、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができないと判別された場合には、所定の時間にわたり前記入力音声信号の２乗を時間積分して得られる値の平方根を同じ時間にわたり前記試行用再生音声信号の２乗を時間積分して得られる値の平方根により除した値に前記試行強度を乗じた値を前記修正強度とする、
ことを特徴とする請求項７に記載の音声符号化装置。
前記残差信号復元試行部は、
前記帯域別雑音パルス列又は前記帯域別ピッチパルス列に前記帯域別強度とｅ（ｅは自然対数の底である。）のｂ（ｂは０次の前記予測係数である。）乗とを乗じて前記帯域別試行用励起信号を生成する、
ことを特徴とする請求項７又は８に記載の音声符号化装置。
前記残差信号復元部は、
前記総合ピッチ判別部により前記残差信号からピッチを抽出することができると判別された場合には、前記ピッチ抽出部により求められたピッチ長の整数倍の時間にわたり前記残差信号の２乗を時間積分して得られる値の時間平均値の平方根と前記帯域別強度とを前記帯域別雑音パルス列又は前記帯域別ピッチパルス列に乗じて帯域別試行用励起信号を生成し、前記総合ピッチ判別部により前記残差信号からピッチを抽出することができないと判別された場合には、所定の時間にわたり前記残差信号の２乗を時間積分して得られる値の時間平均値の平方根と前記帯域別強度とを前記帯域別雑音パルス列又は前記帯域別ピッチパルス列に乗じて帯域別試行用励起信号を生成する、
ことを特徴とする請求項７又は８に記載の音声符号化装置。
前記予測分析部は、
前記予測信号を前記所定の時間枠であるサブフレーム毎に残差信号と所定の次数までのＭＬＳＡフィルタ係数とに分解する、
ことを特徴とする請求項１乃至１０の何れか１項に記載の音声符号化装置。
所定の時間枠であるサブフレーム毎に元の音声信号から予測分析における次数毎の予測係数として抽出された値が、複数の連続する前記サブフレームから構成されるメインフレーム毎かつ前記次数毎にまとめられることにより該メインフレーム毎かつ該次数毎の正規化用スカラー値と正規化ベクトルとの組として表現された後、前記正規化用スカラー値に対するスカラー量子化及び前記正規化ベクトルに対するベクトル量子化が施された結果生成されたスカラー量子化正規化用スカラー値及びベクトル量子化正規化ベクトルと、前記サブフレーム毎に前記元の音声信号から前記予測分析における残差信号を特徴付ける量として抽出された特徴量と、が符号化されたものを受け取り、前記スカラー量子化正規化用スカラー値及び前記ベクトル量子化正規化ベクトルと、前記特徴量と、を復号する復号部と、
前記スカラー量子化正規化用スカラー値に逆スカラー量子化を施して疑似正規化用スカラー値を求め、前記ベクトル量子化正規化ベクトルに逆ベクトル量子化を施して疑似正規化ベクトルを求め、前記疑似正規化用スカラー値を前記疑似正規化ベクトルに乗じることにより得られるベクトルの成分を擬似的な予測係数として出力する逆量子化部と、
前記特徴量に基づいて前記元の音声信号の残差信号を復元し励起信号として出力する残差信号復元部と、
前記逆量子化部から出力された擬似的な予測係数により定義され前記残差信号復元部から出力された励起信号が入力されることにより再生音声信号を出力する疑似合成フィルタ部と、
を備える音声復号装置。
前記復号部は、
前記サブフレーム毎に前記元の音声信号から抽出されたサブフレーム別残差信号強度が符号化されたものをさらに受け取り、該サブフレーム別残差信号強度をさらに復号する、
ことを特徴とし、
前記残差信号復元部は、
前記残差信号を、前記サブフレーム別残差信号強度に基づいて、該残差信号の強度が隣接するサブフレームの間でなだらかに変化するように復元する、
ことを特徴とする請求項１２に記載の音声復号装置。
前記復号部は、
前記元の音声信号について所定の帯域毎かつ前記サブフレーム毎に該帯域について該サブフレームが雑音に対応しているものであるかそれとも非雑音に対応しているものであるかを示すフラグが符号化されたものをさらに受け取り、該フラグをさらに復号する、
ことを特徴とし、
前記残差信号復元部は、
前記フラグに基づいて、前記所定の帯域毎に、隣接する２個の前記サブフレームが該帯域についてそれぞれ雑音に対応しているものであるかそれとも非雑音に対応しているものであるかを判別し、隣接する２個の前記サブフレームが雑音に対応しているものどうしである場合と非雑音に対応しているものどうしである場合には、前記残差信号のうちの該帯域の成分を、前記サブフレーム別残差信号強度に基づいて、該残差信号の強度が隣接するサブフレームの間でなだらかに変化するような所定の円滑化を施して復元し、隣接する２個の前記サブフレームが雑音に対応しているものと非雑音に対応しているものとである場合には、該所定の円滑化を施さない、
ことを特徴とする請求項１３に記載の音声復号装置。
入力音声信号を所定の時間枠であるサブフレーム毎に残差信号と所定の次数までの予測係数とに分解する予測分析ステップと、
前記残差信号から該残差信号を特徴付ける量である特徴量を抽出する特徴量抽出ステップと、
複数の連続する前記サブフレームから構成されるメインフレーム毎に次数が共通する前記予測係数を成分とする係数ベクトルを生成する係数ベクトル生成ステップと、
前記係数ベクトル毎に、絶対値が最大となる成分を特定し、該成分の絶対値である係数ベクトル最大絶対値を求め、該係数ベクトル最大絶対値により該係数ベクトルの全成分を除して正規化係数ベクトルを求めるベクトル正規化ステップと、
前記係数ベクトル最大絶対値をスカラー量子化してスカラー量子化係数ベクトル最大絶対値を生成するスカラー量子化ステップと、
前記正規化係数ベクトルをベクトル量子化してベクトル量子化正規化係数ベクトルを生成するベクトル量子化ステップと、
前記特徴量と前記スカラー量子化係数ベクトル最大絶対値と前記ベクトル量子化正規化係数ベクトルとを符号化する符号化ステップと、
から構成される音声符号化方法。
所定の時間枠であるサブフレーム毎に元の音声信号から予測分析における次数毎の予測係数として抽出された値が、複数の連続する前記サブフレームから構成されるメインフレーム毎かつ前記次数毎にまとめられることにより該メインフレーム毎かつ該次数毎の正規化用スカラー値と正規化ベクトルとの組として表現された後、前記正規化用スカラー値に対するスカラー量子化及び前記正規化ベクトルに対するベクトル量子化が施された結果生成されたスカラー量子化正規化用スカラー値及びベクトル量子化正規化ベクトルと、前記サブフレーム毎に前記元の音声信号から前記予測分析における残差信号を特徴付ける量として抽出された特徴量と、が符号化されたものを受け取り、前記スカラー量子化正規化用スカラー値及び前記ベクトル量子化正規化ベクトルと、前記特徴量と、を復号する復号ステップと、
前記スカラー量子化正規化用スカラー値に逆スカラー量子化を施して疑似正規化用スカラー値を求め、前記ベクトル量子化正規化ベクトルに逆ベクトル量子化を施して疑似正規化ベクトルを求め、前記疑似正規化用スカラー値を前記疑似正規化ベクトルに乗じることにより得られるベクトルの成分を擬似的な予測係数として出力する逆量子化ステップと、
前記特徴量に基づいて前記元の音声信号の残差信号を復元し励起信号として出力する残差信号復元ステップと、
前記逆量子化ステップにより出力された擬似的な予測係数により定義される合成フィルタに前記残差信号復元ステップにより出力された励起信号が入力されることにより再生音声信号を出力する疑似合成ステップと、
から構成される音声復号方法。
コンピュータに、
入力音声信号を所定の時間枠であるサブフレーム毎に残差信号と所定の次数までの予測係数とに分解する予測分析ステップと、
前記残差信号から該残差信号を特徴付ける量である特徴量を抽出する特徴量抽出ステップと、
複数の連続する前記サブフレームから構成されるメインフレーム毎に次数が共通する前記予測係数を成分とする係数ベクトルを生成する係数ベクトル生成ステップと、
前記係数ベクトル毎に、絶対値が最大となる成分を特定し、該成分の絶対値である係数ベクトル最大絶対値を求め、該係数ベクトル最大絶対値により該係数ベクトルの全成分を除して正規化係数ベクトルを求めるベクトル正規化ステップと、
前記係数ベクトル最大絶対値をスカラー量子化してスカラー量子化係数ベクトル最大絶対値を生成するスカラー量子化ステップと、
前記正規化係数ベクトルをベクトル量子化してベクトル量子化正規化係数ベクトルを生成するベクトル量子化ステップと、
前記特徴量と前記スカラー量子化係数ベクトル最大絶対値と前記ベクトル量子化正規化係数ベクトルとを符号化する符号化ステップと、
を実行させるプログラム。
コンピュータに、
所定の時間枠であるサブフレーム毎に元の音声信号から予測分析における次数毎の予測係数として抽出された値が、複数の連続する前記サブフレームから構成されるメインフレーム毎かつ前記次数毎にまとめられることにより該メインフレーム毎かつ該次数毎の正規化用スカラー値と正規化ベクトルとの組として表現された後、前記正規化用スカラー値に対するスカラー量子化及び前記正規化ベクトルに対するベクトル量子化が施された結果生成されたスカラー量子化正規化用スカラー値及びベクトル量子化正規化ベクトルと、前記サブフレーム毎に前記元の音声信号から前記予測分析における残差信号を特徴付ける量として抽出された特徴量と、が符号化されたものを受け取り、前記スカラー量子化正規化用スカラー値及び前記ベクトル量子化正規化ベクトルと、前記特徴量と、を復号する復号ステップと、
前記スカラー量子化正規化用スカラー値に逆スカラー量子化を施して疑似正規化用スカラー値を求め、前記ベクトル量子化正規化ベクトルに逆ベクトル量子化を施して疑似正規化ベクトルを求め、前記疑似正規化用スカラー値を前記疑似正規化ベクトルに乗じることにより得られるベクトルの成分を擬似的な予測係数として出力する逆量子化ステップと、
前記特徴量に基づいて前記元の音声信号の残差信号を復元し励起信号として出力する残差信号復元ステップと、
前記逆量子化ステップにより出力された擬似的な予測係数により定義される合成フィルタに前記残差信号復元ステップにより出力された励起信号が入力されることにより再生音声信号を出力する疑似合成ステップと、
を実行させるプログラム。