JP5891502B1

JP5891502B1 - 音声信号の線形予測装置、音声信号の線形予測方法

Info

Publication number: JP5891502B1
Application number: JP2014251227A
Authority: JP
Inventors: 悠貴小島
Original assignee: Axell Corp
Current assignee: Axell Corp
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2016-03-23
Anticipated expiration: 2034-12-11
Also published as: JP2016114665A

Abstract

【課題】線形予測時の重み付け係数を時系列の順に求める処理を、全ての音声信号に対して適切に行うことができる線形予測装置、方法を提供する。【解決手段】音声信号の線形予測装置１は、音声信号の信号値の予測誤差を算出するための重み付け係数を算出し、音声信号のそれぞれに重み付けを行う重み付け設定部３と、重み付けを行った、過去の時系列信号を用いて音声信号の予測値を算出する予測部４とを備え、重み付け設定部３は、同一の時系列を形成する複数の音声信号について、時系列の順に一の演算手順を用いて重み付け係数を設定し、時系列上の最前部の音声信号又は最後部の音声信号に他の演算手順を用いて重み付け係数を設定し予測部４は、重み付けがされた一の系列の過去の複数の音声信号と他の系列の過去の複数の音声信号とを用いて予測値を算出する。【選択図】図１

Description

本発明は、音声信号の符号化の技術に関する。

従来、音声、音響等の特徴を表す信号としての音声信号の分析や符号化にあたり、信号の量を削減するための手法として、線形予測法を用いる構成が知られている。これは、ディジタル信号等の複数の離散値で構成された音声信号において、過去の一又は複数の音声信号の値を標本とし、標本とされた音声信号の線形写像として将来の音声信号の値を予測するものである。このとき、将来の音声信号の予測値と実際の音声信号の値との予測誤差が小さい方が、信号の量が削減されることになる。そこで、予測対象である特定の系列の音声信号を予測するために、その特定の系列の過去の一又は複数の音声信号を標本とし、標本とされた音声信号の値から、予測誤差を小さくするための係数としての予測係数（重み付け係数）を算出し、標本とされた音声信号の値と算出された予測係数とを用いて将来の音声信号の値を予測する発明が提案されている（例えば、特許文献１参照）。

特開２００８−１５７９９８号公報

しかしながら、音声は、特定系列の時間的な前後方向に高い相関性を有するのみならず、空間上の位置の相違等、空間方法の相違に対しても高い相関を有する（例えば、一の音声発生源に対して異なる位置や距離に複数の聴取ポイントを設けた場合、音声の到達時間や音量に微妙な相違を持ちつつ、相関性の高い音声がそれぞれの聴取ポイントで聴取される）。しかし、上記特許文献１に記載の発明においては、予測対象である特定の系列の過去の音声信号のみに基づいて予測係数（重み付け係数）を求めるため、予測誤差を小さくする予測係数を算出するのが難しいという問題がある。

一方、それぞれの音声信号に重み付け係数を付与するためには、同一の時系列上の複数の音声信号に、時系列の順に、既に導出した一の音声信号に付与する重み付け係数の演算結果を、次の音声信号に付与する重み付け係数の導出に用いることが、演算の効率化を図る上で適切な場合がある。しかし、この演算方法を用いた場合、時系列の最前部の音声信号や最後部の音声信号に付与する重み付け係数を導出する演算ができなくなる場合が生じうるため、正しい予測係数の算出が困難になるという問題がある。

本発明は上記課題に鑑みてなされたものであり、線形予測時の予測誤差を小さくできる重み付け係数を時系列の順に求める処理を、全ての音声信号に対して適切に行うことができ、複数の信号系列における符号化時の信号量を少なくできる音声信号の線形予測装置、音声信号の線形予測方法を提供することを課題としている。

かかる課題を達成するために、請求項１に記載の発明は、複数の時系列信号によって形成される音声信号の予測符号化に用いられる音声信号の線形予測装置であって、前記音声信号を構成するそれぞれの前記時系列信号の信号値の予測誤差を算出するための重み付け係数を算出し、該算出された重み付け係数を時系列信号のそれぞれに付与して重み付けを行う重み付け設定手段と、前記重み付け係数によって重み付けを行った、過去の前記時系列信号を用いて前記時系列信号の予測値を算出する予測手段とを備え、前記重み付け設定手段は、特定の前記時系列を形成する複数の前記音声信号について、時系列上の特定の前記音声信号を算出するための前記重み付け係数を、前記特定の音声信号よりも時間軸上の前方向又は後方向に存在する他の前記音声信号を参照して算出することを繰り返して、それぞれの前記音声信号を算出するためのそれぞれの前記重み付け係数を設定する第一の重み付け係数設定手段と、前記時間軸上の、前記第一の重み付け係数設定手段において参照する前記他の音声信号が存在しない位置に存在する前記音声信号を前記特定の音声信号として設定した際に、前記時系列上の、前記第一の重み付け係数設定手段が参照する方向とは逆の方向に存在する前記他の音声信号を参照して、前記特定の音声信号を算出するための前記重み付け係数を設定する第二の重み付け係数設定手段とを備え、前記予測手段は、前記第一の重み付け係数設定手段と前記第二の重み付け係数設定手段とによって設定された前記重み付け係数によって前記重み付けがされた過去の複数の前記時系列信号を用いて前記予測値を算出することで、前記音声信号の信号値の予測値を算出することを特徴とする。

請求項２に記載の発明は、請求項１に記載の構成に加え、前記重み付け設定手段は、複数の前記時系列の前記時系列信号の前記重み付け係数を設定する際において行列を用いた計算を行うための行列計算式を用い、かつ、該行列計算式を構成する行列の少なくとも一部を所定の演算によって得られる漸化式に置換して演算することで前記重み付け係数を設定することを特徴とする。

請求項３に記載の発明は、請求項２の何れか一つに記載の構成に加え、前記行列は、個々の要素が複数の前記信号値に基づいて形成されたものであって、所定の条件により、近似した値の前記要素同士を同一の前記要素に変換したものであることを特徴とする。

請求項４に記載の発明は、請求項１乃至３の何れか一つに記載の構成に加え、順方向予測に基づく式と逆方向予測に基づく式としてそれぞれ形成し、前記順方向予測に基づく式と前記逆方向予測に基づく式とを用いて前記重み付け係数を設定することを特徴とする。

請求項５に記載の発明は、複数の時系列信号によって形成される音声信号の予測符号化に用いられる音声信号の線形予測方法であって、前記音声信号を構成するそれぞれの前記時系列信号の信号値の予測誤差を算出するための重み付け係数を算出し、該算出された重み付け係数を時系列信号のそれぞれに付与して重み付けを行う重み付け設定手順と、前記重み付け係数によって重み付けを行った、過去の前記時系列信号を用いて前記時系列信号の予測値を算出する予測手順とを備え、前記重み付け設定手順においては、特定の前記時系列を形成する複数の前記音声信号について、時系列上の特定の前記音声信号を算出するための前記重み付け係数を、前記特定の音声信号よりも時間軸上の前方向又は後方向に存在する他の前記音声信号を参照して算出することを繰り返して、それぞれの前記音声信号を算出するためのそれぞれの前記重み付け係数が設定される第一の重み付け係数設定手順と、前記時間軸上の、前記第一の重み付け係数設定手順において参照する前記他の音声信号が存在しない位置に存在する前記音声信号を前記特定の音声信号として設定した際に、前記時系列上の、前記第一の重み付け係数設定手順において参照される方向とは逆の方向に存在する前記他の音声信号が参照されて、前記特定の音声信号を算出するための前記重み付け係数が設定される第二の重み付け係数設定手順とを備え、前記予測手順においては、前記第一の重み付け係数設定手順と前記第二の重み付け係数設定手順とにおいて設定された前記重み付け係数によって前記重み付けがされた過去の複数の前記時系列信号を用いて前記予測値が算出されることで、前記音声信号の信号値の予測値が算出されることを特徴とする。

請求項１、及び請求項５に記載の発明によれば、予測値を算出する時系列信号と同じ一の系列における過去の複数の時系列信号に加え、一の系列以外の系列であって一の系列と相関のある系列としての他の系列における過去の複数の時系列信号を用いて音声信号の予測値を算出することにより、時間方向の相関性と空間方向の相関性のように、多面的な相関性を有する複数の標本に基づいて、予測精度の高い予測値を算出できる。また、同一の時系列を形成する複数の音声信号について、時系列の順に一の演算手順を用いて重み付け係数を設定し、時系列上の最前部の音声信号又は最後部の音声信号に他の演算手順を用いて重み付け係数を設定することにより、同一時系列上の大半の音声信号に、前の重み付け係数の演算結果を用いて次の重み付け係数を算出することを一の演算手順で繰り返すとともに、この繰り返しでは算出できない重み付け係数を他の演算手順で算出することで、全ての音声信号の重み付け係数を効率的に算出できる。また、一の系列における過去の時系列信号と、他の系列の時系列信号に重み付け係数が設定され、重み付けがされた一の系列の過去の複数の時系列信号と重み付けがされた他の系列の過去の複数の時系列信号とを用いて予測値が算出されることにより、複数の系列における予測誤差の値を統計的に用いることで、予測精度をより高めることができる。これにより、線形予測時の予測誤差を小さくできる重み付け係数を時系列の順に求める処理を、全ての音声信号に対して適切に行うことができ、複数の信号系列における符号化時の信号量を少なくできる。

請求項２に記載の発明によれば、複数の時系列の時系列信号の重み付け係数を設定する際において行列を用いた計算を行うための行列計算式を用い、かつ、行列計算式を構成する行列の少なくとも一部を所定の演算によって得られる漸化式に置換して演算することで重み付け係数を設定することにより、本来の行列計算式の演算を行う際よりも少ない計算量で重み付け係数を設定できる。

請求項３に記載の発明によれば、所定の条件により、近似した値の要素同士を同一の前記要素に変換することにより、逆行列計算が必要になる場合、本来の逆行列計算を行う際よりも少ない計算量で演算を行うことができる。これにより、逆行列計算の増大による演算量や処理負荷の増大や演算時間の長大化を確実に抑止できる。

請求項４に記載の発明によれば、順行列と逆行列とを用いて重み付け係数を設定することにより、次数の高い行列においても漸化式を用いて精度の高い演算を迅速かつ確実に行うことができる。

この発明の実施の形態に係る圧縮・解凍装置及び線形予測装置の全体構成を示す機能ブロック図である。この発明の実施の形態に係る線形予測装置における符号化処理を模式的に示す図である。従来の線形予測装置における符号化処理を模式的に示す参考図である。この発明の実施の形態に係る線形予測装置において処理の対象となる、一の系列の音声信号の信号値と予測誤差とを簡略的に示す図である。この発明の実施の形態に係る線形予測装置による符号化と、比較例としての、従来の線形予測装置による符号化の結果を示す第１の図である。同上線形予測装置による符号化と、比較例としての、従来の線形予測装置による符号化の結果を示す第２の図である。

［基本構成］
図１にこの発明の実施の形態を示す。

図１は、この実施の形態に係る圧縮・解凍装置及び線形予測装置の全体構成を示す機能ブロック図である。

この実施の形態の圧縮・解凍装置１Ａには、時系列信号の処理に用いられる。この実施の形態においては、圧縮・解凍装置１Ａによって処理される時系列信号として、ディジタル信号として生成された音声信号が適用される。なお、圧縮・解凍装置１Ａがアナログ・ディジタル変換部（図示せず）を備え、アナログ信号として供給された複数系列の音声信号をディジタル信号に変換したのちに圧縮処理を行い、また、解凍されたディジタルの音声信号をアナログ変換して出力する構成であってもよい。

また、図１に示すように、この実施の形態の圧縮・解凍装置１Ａには、系列１〜系列ｍ（ｍ＞１）の複数の系列の音声信号が供給される。図１においては、系列の数と同数の音声信号、すなわち音声信号１〜音声信号ｍが圧縮・解凍装置１Ａに供給される状態を示している。この複数の系列の音声信号は、それぞれが相関性のあるものや相関性の高いもの、即ち、それぞれの音声信号の変化や状態がそれぞれ近似した状態や関連性の高い状態のものである。具体的には、例えば、この複数の系列の音声信号のそれぞれは、ステレオ音声の右チャンネルの音声信号と左チャンネルの音声信号であったり、あるいは、同一音源の音を、音源に対してそれぞれ異なる位置、異なる距離に設置された複数のマイクロフォンでそれぞれ集音した複数の音声信号であったりするような、空間的な位置関係により相関性の高い状態が形成されていることが考えられる。

同図に示す圧縮・解凍装置１Ａは、それぞれの系列の音声信号の圧縮や解凍に用いられる。ここでいう圧縮とは、例えば符号化処理のように、音声信号の信号量を削減する処理をいい、解凍とは、例えば符号化された信号から元の音声信号を復元する処理のように、信号量が削減された音声信号を元の状態に戻す処理をいう。

この圧縮・解凍装置１Ａは、この実施の形態の「音声信号の線形予測装置」としての線形予測装置１と、圧縮・解凍部２とを備えている。圧縮・解凍部２は、音声信号を圧縮（例えば符号化）したり、解凍（例えば符号化された音声信号から元の音声信号を復元）したりする処理を行う。

線形予測装置１は、音声信号の圧縮に用いられる線形予測を行う。線形予測装置１は、「重み付け設定手段」としての重み付け設定部３と、「予測手段」としての予測部４とを備えている。

重み付け設定部３は、音声信号を構成するそれぞれの信号値の予測誤差を算出するための重み付け係数を算出し、算出された重み付け係数を、音声信号を構成するそれぞれのディジタル信号に付与して重み付けを行う。

前述の通り、この実施の形態の圧縮・解凍装置１Ａには、複数の系列の音声信号が入力されるが、重み付け設定部３は、この、複数の系列の音声信号のそれぞれに重み付けを行う。具体的には、重み付け設定部３は、予測値を算出する時系列信号と同じ系列としての一の系列における過去の複数の時系列信号と、一の系列以外の系列であって一の系列と相関のある系列としての他の系列における過去の複数の前記時系列信号とのそれぞれに重み付け係数を設定する。

予測部４は、重み付け係数によって重み付けを行った、過去の時系列信号を用いて時系列信号の予測値を算出する。なお、この実施の形態においては、予測値の算出は、重み付け係数によって重み付けを行った、複数の系列の時系列信号を用いて行われる。なお、この予測値は、圧縮・解凍部２における音声信号の圧縮処理に用いられる。

［予測部における予測の原理］
予測部４は、重み付けがされた一の系列の過去の複数の時系列信号と重み付けがされた前記他の系列の過去の複数の時系列信号とを用いて予測値を算出する。

ここで、個々の系列の音声信号は、時間方向に相関性の高い状態が形成される。具体的には、特定の時間の音声信号（つまり特定のディジタル信号）の特性（波形や音量など）は、その直前や直後の音声信号の特性に近似している。

これに加え、この実施の形態において複数の系列の音声信号を形成する、空間的な位置関係により相関性が高い状態が形成された、複数系列の音声信号（例えば、ステレオの音声信号の右チャンネルの音声信号と左チャンネルの音声信号、あるいは、同一音源の音を音源に対して異なる位置、異なる距離に設置した複数のマイクロフォンで集音した音声信号）は、同じ時間や、近似した時間におけるそれぞれの系列の音声信号が相関性の高い状態となっている。具体的には、例えば、音源の近くに設けられた複数のマイクロフォンで集音した音声で複数の系列の音声信号が形成される場合、音源から発生された音声は、音源に近いマイクロフォンの系列から、音源に遠いマイクロフォンの系列へと、微少な時差や音量差がある（が、相関性の高い）音声信号が生成される。

この実施の形態においては、相関性の高い過去の音声信号が多い方が精度の高い予測値が算出できる。そのため、図３に示す、一の系列である時系列ｆ_０１００のｎ−１個（ｎ＞１）の過去の音声信号ｆ_０（ｎ−ｐ）,・・・ｆ_０（ｎ−３）, ｆ_０（ｎ−２）, ｆ_０（ｎ−１）によって、音声信号ｆ＾_０（ｎ）（なお、この‘ｆ＾’は、‘ｆ’上にハット記号が記された状態を示す。本明細書において同じ。）の予測値を算出する従来の手法に比べ、図２に示す、一の系列である時系列ｆ_０１００の音声信号ｆ＾_０（ｎ）の予測値の算出に、一の系列である時系列ｆ_０１００の過去の音声信号ｆ_０（ｎ−ｐ）,・・・ｆ_０（ｎ−３）, ｆ_０（ｎ−２）, ｆ_０（ｎ−１）、に加え、他の系列である時系列ｆ_１１０_１,・・・時系列ｆ_ｓ１０_ｓ（ｓ＞０）の過去の音声信号ｆ_１（ｎ−ｐ）,・・・ｆ_１（ｎ−３）, ｆ_１（ｎ−２）, ｆ_１（ｎ−１）・・・ｆ_s（ｎ−ｐ）,・・・ｆ_s（ｎ−３）, ｆ_s（ｎ−２）,
ｆ_s（ｎ−１）も用いることで、精度の高い予測値を算出する。（なお、図２、図３において、“α”は後述する重み付け係数を示す。）
［重み付け設定部における重み付けの原理］
この実施の形態において、重み付け設定部３は、複数の過去の音声信号に重み付け係数を乗じたものを用いて、図２に示す、音声信号ｆ＾_０（ｎ）の予測値を求める。ここで、重み付け設定部３は、過去の音声信号の信号値に、重み付け係数によって重み付けを行って音声信号ｆ＾_０（ｎ）の予測値を求めることで、音声信号ｆ＾_０（ｎ）の予測値と、実際の音声信号ｆ＾_０（ｎ）の信号値との誤差としての予測誤差を小さくする。このとき、音声信号ｆ＾_０（ｎ）の予測値と、実際の音声信号ｆ＾_０（ｎ）の信号値との予測誤差の値が小さい方が、圧縮時の信号量が小さくなり、圧縮率を高くすることができる。そのため、重み付け設定部３においては、この、予測誤差の値を小さくできるような重み付け係数を算出することが必要となる。

このような必要性に鑑み、この実施の形態の重み付け設定部３は、音声信号の予測値の算出に用いられる重み付け係数を算出する際に、過去の複数の音声信号の予測において生成された複数の予測誤差を用いる。

この実施の形態の重み付け設定部３は、複数の予測誤差を用いて、実際の音声信号ｆ＾_０（ｎ）の信号値との予測誤差の値をより小さくするために、求める音声信号の予測値と過去の音声信号との二乗誤差を最小にする値を重み付け係数として算出する。

この、重み付け係数の算出について説明する。図４は、線形予測装置において処理の対象となる、一の系列の音声信号の信号値と予測誤差とを簡略的に示す図である。同図において、仮に、予測の対象である音声信号ｆ＾_０（ｎ）が、直前の音声信号ｆ_０（ｎ−１）と同じ信号値と予測された場合は、図４に示すように、音声信号ｆ＾_０（ｎ）の現実の信号値と予測値との予測誤差はｅ（ｎ）となる。同様に、図４には、過去の５つの音声信号ｆ_０（ｎ−５）,・・・ｆ_０（ｎ−３）, ｆ_０（ｎ−２）, ｆ_０（ｎ−１）が全て直前の音声信号と同じ信号値であると予測された場合の予測誤差ｅ（ｎ−５）, ｅ（ｎ−４）, ｅ（ｎ−３）, ｅ（ｎ−２）, ｅ（ｎ−１）が示されている。これらの予測誤差ｅ（ｎ），ｅ（ｎ−１），・・・ｅ（ｎ−５）は、それぞれの予測における重み付け係数αを変化させることで変化する。そして、予測誤差ｅ（ｎ），ｅ（ｎ−１），・・・ｅ（ｎ−５）を小さくし、圧縮・解凍部２における圧縮後の符号量を小さくするためには、重み付け設定部３は、

の値を最小化する重み付け係数を算出することが必要となる。

そして、この実施の形態の重み付け設定部３は、
下記式（２）
Ａ^ＴＡｘ＋Ａｂ＝０・・・（２）
ただし、
Ａ：任意の行及び列からなる行列
Ａ^Ｔ：Ａの転置行列
ｂ：定数ベクトル
から二乗誤差を最小にする値である重み付け係数ｘを求めることで、上記式（１）の値を最小化する重み付け係数を算出する。これにより、図４に示す、求める音声信号ｆ＾_０（ｎ）の予測値における、予測値と現実の信号の信号値との予測誤差ｅ（ｎ）を最小にすることが可能になる。

この、重み付け係数の算出をより具体的に説明する。

例えば、ステレオの音声信号を形成する２系列の音声信号（右チャンネル系列の音声信号ｆ_０（ｎ−ｐ）,・・・ｆ_０（ｎ−１）と左チャンネルの系列の音声信号ｆ_１（ｎ−ｐ）,・・・ｆ_１（ｎ−１）（ただしｐ＞０））から、一方の系列たとえば右チャンネル系列の将来の音声信号ｆ＾_０（ｎ）の信号値を求めるための重み付け係数αを求める場合を考える。このとき、右チャンネル系列の音声信号ｆ_０（ｎ−ｐ）,・・・ｆ_０（ｎ−１）と左チャンネルの系列の音声信号ｆ_１（ｎ−ｐ）,・・・ｆ_１（ｎ−１）から音声信号ｆ＾_０（ｎ）の信号値を予測するモデルを、下記式（３）

と作るとき、その予測誤差ｅ（ｎ）＝ｆ_０（ｎ）−ｆ＾_０（ｎ）の二乗和を最小化する重み付け係数αを求めるには、行列を用いた計算式における行列の個々の要素に、個々の信号値を用いたものの演算を行う。この行列は、行方向及び／又は列方向に沿って、音声信号を時系列に沿って順に配置したものを用いる。具体的には、例えば、下記式（４）

ただし、
α_１００,α_１１０,α_２００,α_２１０,・・・,α_Ｐ００：過去の音声信号ｆ_０（０），ｆ_１（０），ｆ_０（１），ｆ_１（１），・・・ｆ_０（Ｐ），ｆ_１（Ｐ）に付与される重み付け係数
Ｐ：それぞれの系列の過去の音声信号の数（Ｐ＞０）
を最小化するような重み付け係数α（重み付け係数α_１００,α_１１０,α_２００,α_２１０,・・・,α_Ｐ００）を求めればよい。

そして、これは、下記式（５）

ただし、
α_１００,α_１１０,α_２００,α_２１０,・・・,α_Ｐ００：過去の音声信号ｆ_０（０），ｆ_１（０），ｆ_０（１），ｆ_１（１），・・・ｆ_０（Ｐ），ｆ_１（Ｐ）に付与される重み付け係数
Ｐ：それぞれの系列の過去の音声信号の数（Ｐ＞０）
を、重み付け係数α（重み付け係数α_１００,α_１１０,α_２００,α_２１０,・・・,α_Ｐ００）について解くことによって求められる。

重み付け設定部３は、この式（５）の演算により、音声信号ｆ＾_０（ｎ）の信号値の予測値の算出に用いる重み付け係数α（重み付け係数α_１００,α_１１０,α_２００,α_２１０,・・・,α_Ｐ００）を算出する。

なお、上記式（５）の演算は、系列の数の如何に関わらず適用できる。従って、重み付け設定部３は、２系列の音声信号のみならず、３つ以上の系列の音声信号に上記式（５）を適用して重み付け係数αを算出し、求める音声信号ｆ＾_０（ｎ）の予測値における、直前の音声信号ｆ_０（ｎ−１）との予測誤差ｅ（ｎ）を最小にすることを実現できる。

［複数の系列への適用］
上記式（５）の演算は、任意の複数の系列に適用できる。そしてその際に、式の主要部分を共用することができる。

式の主要部分の共用にあたり、上記式（５）を一般化することを考える。例えば、式（５）は音声信号ｆ＾_０（ｎ）の信号値の予測値の算出に用いたが、これを、音声信号ｆ_０の系列、及び、音声信号ｆ_１の系列において、音声信号ｆ＾_０（ｎ）の予測値、及び音声信号ｆ＾_１（ｎ）の予測値の算出に用いる場合、式（５）を、下記式（６）のように変形する。

ただし、
α_１０１,α_１１１,α_２０１,α_２１１,・・・,α_Ｐ０１：過去の音声信号ｆ_０（０），ｆ_１（０），ｆ_０（１），ｆ_１（１），・・・ｆ_０（Ｐ），ｆ_１（Ｐ）に付与される重み付け係数
Ｐ：それぞれの系列の過去の音声信号の数（Ｐ＞０）
そして、この式（６）を、重み付け係数α（重み付け係数α_１０１,α_１１１,α_２０１,α_２１１,・・・,α_Ｐ０１）について解く。

この式（６）は、第２項（“０＝”のすぐ右側のカッコでくくられた部分）のそれぞれの行において、２つめのｆの式がｆ_０でなくｆ_１となることで、式（７）のようになっている

点が、式（５）との主たる相違である。そして、第３項（第２項の直後の“＋”のすぐ右側の、２つのカッコでくくられた部分）は、音声信号ｆ＾_０（ｎ）の予測値を求める場合も、音声信号ｆ＾_１（ｎ）の予測値の算出を求める場合も共用されることになる。これにより、式（６）の式の主要な数値は、音声信号ｆ_０の系列、及び、音声信号ｆ_１の系列において、それぞれ予測値を求める場合に共用できるため、それぞれの系列で式（６）の主要な部分の数値を別個に求める場合に比べ、演算量を少なくできる。

上記式（６）は音声信号ｆ_０、及び音声信号ｆ_１という２つの系列に適用したが、系列数が２つよりも多い場合も含む複数の系列に一般的に適用できる。

具体的には、例えば、任意のｓ−１個の音声信号の系列ｆ_０，ｆ_１，・・・，ｆ_ｓから予測するモデルを式（８）

と作る。この場合、予測による二乗誤差和を最小にするには、式（９）

ただし、下記式（１０）及び式（１１）

を解くことで、係数αを求めればよい。

なお、上記式（９）と式（６）とを対応付けると、式（６）の第３項である下記式（１２）

に示す信号値群は、項群（ａ）が式（９）のＦ_{−１，−１}に、項群（ｂ）が式（９）のＦ_{−２，−１}に、項群（ｃ）が式（９）のＦ_{−ｐ，−１}に・・・項群（ｄ）が式（９）のＦ_{−１，−ｐ}の一部に、項群（ｅ）が式（９）のＦ_{−２，−ｐ}の一部に、項群（ｆ）が式（９）のＦ_{−ｐ，−ｐ}の一部に、それぞれ対応する。

また、上記式（９）や式（１０）に示す結果から、複数の音声信号の系列を同時に予測する場合には逆行列を求める演算結果を共用できることが判る。即ち、式（９）を、重み付け係数α（重み付け係数α_１００,α_１１０,α_２００,α_２１０,・・・,α_Ｐ００,α_Ｐ１０）について解くために式（９）の第２項の左側、即ち下記式（１３）

の逆行列を式（９）の各項に乗することになるが、この式（１３）の逆行列を共用することが可能になる。

［漸化式の適用］
なお、上記式（９）のような、行列を用いた計算を行うための計算式等としての行列計算式（以下単に「行列計算式」と称する。本明細書において同じ。）を求めるには、「Ｆ」が要素となっている上記式（１３）の逆行列を求める必要がある。そして、このような逆行列を求めるためには、大量の演算を行わねばならず、線形予測装置１のＣＰＵ等の機器に高い負荷を与える。

そこで、計算量が少なく処理負荷が小さくなるような、漸化式による解法を考える。

ここで、音声信号は、その性質上、同一の系列においては前後の信号（例えば、図２における時系列ｆ_０の信号ｆ_０（ｎ−２）に対する、直前のｆ_０（ｎ−３）や、直後のｆ_０（ｎ−１））の周波数特性等が近似しており、相関性が高い。

また、音声信号は、同一の音源を距離や位置を違えて録音した音声信号からなる複数の系列における、同一の時間（例えば、図２における時系列ｆ_０、時系列ｆ_１、時系列ｆ_２が、同一の音源を距離や位置を違えて録音した音声信号からなる場合における、信号ｆ_０（ｎ−１）、信号ｆ_１（ｎ−１）、信号ｆ_２（ｎ−１））も、周波数特性等が近似しており、相関性が高い。

また、式（６）を構成する式（１２）

を考えると、例えば、式（９）のＦ_{−２，−１}に対応する項群（ｂ）は、式（９）のＦ_{−３，−２}に対応する項群（式（１２）に示さず）は、ほぼ同様の演算内容である。同様に、式（９）に示されない、Ｆ_{−４，−３}に対応する項群や、Ｆ_{−５，−４}に対応する項群等も、項群（ｂ）とほぼ同様の演算内容となる。

また、式（１２）における、式（９）のＦ_{−１，−１}に対応する項群（ａ）は、式（１２）に図示しないＦ_{−２，−２}の計算内容や、Ｆ_{−３，−３}の計算内容、さらには、式（９）の項群（ｆ）に対応するＦ_{−ｐ，−ｐ}の計算内容と、ほぼ同様である。

つまり、予測対象となる音声信号に対し、系列番号のずれと系列方向の順序のずれとの差が事実上同一値とみなしうるようなもの（ずれの値が“０”になるものも含む）は、ほぼ同様の計算内容であることがわかる。

したがって、上述の“Ｆ”の行列を、
Ｒ_Ａ＝Ｆ_Ａ，０・・・式（１４）
のようなＲの行列として定義し直し、さらに、上述したような“Ｆ”の行列の性質を用いて

として、ほぼ同様の計算内容の式を全て同一の行列ないし同一の行列要素として扱う。このようにして上述の“Ｆ”を要素とする行列計算式を“Ｒ”を要素とする行列計算式に置き換えると、式（１６）となる。

これは式（１７）に置き換えられる。

ただし、Θ_０＝Ｉ（この“Ｉ”は単位行列を示す。本明細書において同じ。）である。
そして、式（１６）の逆行列は式（１８）となる。

これは、式（１９）に置き換えられる。

ただしΘ_０＝Ｉである。
式（９）に含まれる式（１１）の重み付け係数α（重み付け係数α_１００,α_１１０,α_２００,α_２１０,・・・,α_Ｐ００,α_Ｐ１０）を求めるには、式（１７）と式（１９）を解けばよい。

ここで、Ｐ次（ただしＰ＞１）又はｍ次（ただしｍ＞１）の係数を使って（Ｐ＋１）次、又は（ｍ＋１）次の重み付け係数αを求める方法を検討する。

まず、系列の数がｍ＋１個（ただしｍ＞１）、系列ごとの信号の数がｍ＋１個である正方行列を、上記“Ｒ”を個々の要素に用いた正方行列φ_ｍ＋１（ただし、φ：行列“Ｒ”を個々の要素とする正方行列）して定義すると、式（２０）のようになり、

これをｍ次の正方行列φ_ｍ（ただし、φ：行列“Ｒ”を個々の要素とする正方行列）に置き換えると、式（２１）として表される。

すると、正方行列φの次数が（ｍ＋１）次のときの、順方向予測に基づく式としての行列計算式は式（２２）として表され、

また、正方行列φの次数が（ｍ＋１）次のときの、逆方向予測に基づく式としての行列計算式は式（２３）として表される。

なお、式（２２）と式（２３）における、σ^{−（ｍ＋１）}とσ^{（ｍ＋１）}とは二乗誤差和であり、Φ_ｍ＋１の該当列と係数との内積の和で求まるものである。

また、この実施の形態において、逆方向予測に基づく式は、未来の値から現在の値を予測する処理に基づくものであり、後述する、順方向予測に基づく式の漸化式でその結果を参照するために用いられるものである。

そして、式（２２）式（２３）から、上下一列ずつを切り取った関係式を整理すると、順方向予測に基づく式としての行列計算式は式（２４）として表され

また、逆方向予測に基づく式としての行列計算式は式（２５）として表される。

一方、（ｍ）次のときの順方向予測に基づく式としての行列計算式は式（２６）として表され、

また、逆方向予測に基づく式としての行列計算式は式（２７）として表される。

これを用いて、ｍ＋１次の式から“φ”で示された行列すなわち“Ｒ”の行列部分を消去し、全ての項にある“−φ_ｍ＋１”を除することで、順方向予測に基づく式の漸化式である式（２８）が得られ、

また、逆方向予測に基づく式の漸化式である式（２９）が導かれる。

そして、ｍ次の時の予測係数と、式（３０）

および式（３１）

とによって、（ｍ＋１）次の行列のそれぞれの要素を形成している重み付け係数αが得られることは、明らかである。

そして、式（３０）と式（３１）とから、重み付け係数αを求めることで、上記式（１３）等によって重み付け係数を求める場合よりも、格段に演算量を減らすことができる。

ここで、式（１３）によって重み付け係数αを求める場合を考える。なお、ここでは、
ｎ：求める重み付け係数αの最大次数、
ｍ：系列の数
として説明する。

一般的に、Ｎ行×Ｎ列の正方行列において逆行列計算を行う場合、計算量はＮの３乗に比例する。そして、この場合（従来の方法）においては、このＮは、Ｎ＝ｎ×ｍで表されることになる。従って、通常の逆行列計算の演算量は、ｎ×ｎ×ｎ×ｍ×ｍ×ｍ（ｎの３乗×ｍの３乗）に比例する。一方、この実施の形態においては、逆行列計算の演算量はｎ×ｎ×ｍ×ｍ×ｍ（ｎの２乗×ｍの３乗）に比例する。従って、この実施の形態においては、従来の方法に比べて確実に演算量を減らすことができる。

特に、ステレオ音声等においては、系列の数すなわちｍの数はｍ＝２で小さくなり、その場合、演算量の観点で問題になるのは殆ど最大次数ｎの数である。そして、その場合、この実施の形態では、ｎの演算をｎの２乗で済ませることができるため、演算量を減らす上で特に有効である。

なお、この実施の形態においては、低次の次数から順に重み付け係数αを求めていく演算なので、計算過程を記録しておくことで低次の予測係数を同時に取得できるという効果も合わせて奏させることができる。

また、この実施の形態においては、系列番号のずれと系列方向の順序のずれとの差が事実上同一値とみなしうるようなものに適用されるが、例えば、このずれは、毎秒４４１００サンプルずつの音声信号において４０９５サンプル程度の範囲で適用することが望ましい。

［時系列上の最後部の音声信号の重み付け係数の算出］
上述の漸化式においては、それぞれの系列の最後部の音声信号（例えば、図２における、音声信号ｆ_０のうち、予測対象の音声信号ｆ＾_０（ｎ）から時系列上最も遠い音声信号ｆ_０（ｎ−Ｐ））に設定する重み付け係数αを算出することができない。そこで、この、音声信号ｆ_０（ｎ−Ｐ）に設定する重み付け係数を、以下のように別途算出する。

まず、順方向の行列計算式は、上記式（２２）の左辺を用いて、式（３２）のように式を立てる。

ただし、○：零行列（本明細書において同じ。）
次に、逆方向の行列計算式は、上記式（２４）の左辺を用いて、式（３３）のように式を立てる。

ここからただちに、順方向の行列計算式として、式（３４）及び式（３５）が得られる。

さらに、逆方向の行列計算式として、式（３６）及び式（３７）が得られる。

が得られる。

そして、上記式（３４）〜式（３７）から、下記式（３８）〜式（４１）に示す漸化式が導出される。

さらに、逆方向の行列計算式として、下記式（４０）及び式（４１）が得られる。

これは、上記式（３４）及び式（３６）を用いてΣを消去した式である。

これは、上記式（３５）及び式（３７）を用いてΣを消去した式である。
これらの漸化式、すなわち式（３８）〜式（４１）を用いて、図２に示す音声信号ｆ_０（ｎ−Ｐ）に設定する重み付け係数を算出することができる。なお、同様の漸化式を用いて、予測対象の音声信号ｆ＾_０（ｎ）に時系列上最も近い、図２に示す音声信号ｆ_０（ｎ−１））に設定する重み付け係数を算出することもできる。

［処理手順］
次に、この実施の形態の圧縮・解凍装置１Ａ及び線形予測装置１における処理手順について説明する。

まず、圧縮・解凍装置１Ａに、相関性の高い複数の系列（例えばステレオ音声の右チャンネル、左チャンネルの２系列）の音声信号が入力される（音声信号入力手順）。

音声信号が入力されると、線形予測装置１の重み付け設定部３と予測部４は、音声信号ｆ＾_０（ｎ）の予測値を求める。

具体的には、まず、重み付け設定部３は、音声信号ｆ＾_０（ｎ）の予測値の算出に用いる複数の系列の音声信号の重み付け係数αを求める。具体的には、圧縮対象（つまり予測対象）の音声信号ｆ＾_０（ｎ）と同じ系列である一の系列の過去の音声信号ｆ_０（ｎ−ｐ）,・・・ｆ_０（ｎ−３）, ｆ_０（ｎ−２）, ｆ_０（ｎ−１）と、他の系列の過去の音声信号ｆ_１（ｎ−ｐ）,・・・ｆ_１（ｎ−３）, ｆ_１（ｎ−２）, ｆ_１（ｎ−１）において、上記式（５）を用いて、二乗和を最小化する重み付け係数α_Ｐ００，・・・α_１００，α_Ｐ１０，・・・α_Ｐ１０，を求め、過去の音声信号ｆ_０（ｎ−ｐ）,・・・，ｆ_０（ｎ−１），ｆ_１（ｎ−ｐ）,・・・, ｆ_１（ｎ−１）に重み付け係数α_Ｐ００，・・・α_１００，α_Ｐ１０，・・・α_Ｐ１０，を設定する（重み付け設定手順）。

次に、予測部４は、重み付け設定手順にて重み付けがされた過去の音声信号ｆ_０（ｎ−ｐ）,・・・，ｆ_０（ｎ−１），ｆ_１（ｎ−ｐ）,・・・, ｆ_１（ｎ−１）を用いて音声信号ｆ＾_０（ｎ）の予測値を算出する（予測手順）。

次に、圧縮・解凍部２において、予測手順で予測された予測値と、音声信号ｆ＾_０（ｎ）の現実の値の予測誤差ｅ（ｎ）を求め、予測誤差ｅ（ｎ）によって音声信号の圧縮（符号化）を行う。

そして、上記の手順を、圧縮対象となる系列の音声信号に繰り返し適用することで、予測誤差ｅ（ｎ）の値を小さくし、圧縮効率の高い符号化を行うことができる。これにより、圧縮後の信号量を小さくし、通信等による損失や欠落を少なくして、圧縮・解凍を経ても高い音質の音声信号を維持することができる。

以上示した通り、この実施の形態においては、予測値を算出する音声信号ｆ＾_０（ｎ）と同じ一の系列における過去の複数の音声信号ｆ_０（ｎ−５）,・・・,ｆ_０（ｎ−１）に加え、一の系列以外の系列であって一の系列と相関のある系列としての他の系列における過去の複数の音声信号ｆ_１（ｎ−ｐ）,・・,ｆ_１（ｎ−１）・・・ｆ_s（ｎ−ｐ）,・・・ｆ_s（ｎ−１）を用いて音声信号ｆ＾_０（ｎ）の予測値を算出することにより、時間方向の相関性と空間方向の相関性のように、多面的な相関性を有する複数の標本に基づいて、予測精度の高い予測値を算出できる。また、同一の時系列を形成する複数の音声信号について、時系列の順（例えばｆ_０（ｎ−Ｐ）・・・ｆ_０（ｎ−２））に一の演算手順（例えば（式２８）や（式２９））を用いて重み付け係数α_Ｐ００,・・・,α_２００を設定し、時系列上の最前部の音声信号ｆ_０（ｎ−１）に他の演算手順（例えば（式３６）〜（式３９））を用いて重み付け係数α_１００を設定することにより、同一時系列上の大半の音声信号ｆ_０（ｎ−Ｐ）・・・ｆ_０（ｎ−２）に、前の重み付け係数の演算結果を用いて次の重み付け係数を算出することを一の演算手順（例えば（式２８）や（式２９））で繰り返すとともに、この繰り返しでは算出できない重み付け係数α_１００を他の演算手順（例えば（式３６）〜（式３９））で算出することで、全ての音声信号の重み付け係数α_Ｐ００,・・・,α_１００を効率的に算出できる。また、一の系列における過去の音声信号ｆ_０（ｎ−５）,・・・,ｆ_０（ｎ−１）と、他の系列の音声信号ｆ_１（ｎ−ｐ）,・・・,ｆ_１（ｎ−１）・・・ｆ_s（ｎ−ｐ）,・・・,ｆ_s（ｎ−１）に重み付け係数α_Ｐ００,・・・α_１００, α_Ｐ１０,・・・, α_１１０, α_ＰＳ０, ・・・, α_１Ｓ０が設定され、重み付けがされた一の系列の過去の複数の音声信号ｆ_０（ｎ−５）,・・・,ｆ_０（ｎ−１）と重み付けがされた他の系列の過去の複数の音声信号ｆ_１（ｎ−ｐ）,・・・,ｆ_１（ｎ−１）・・・ｆ_s（ｎ−ｐ）,・・・,ｆ_s（ｎ−１）とを用いて、一の系列の音声信号ｆ＾_０の予測値が算出されることにより、複数の系列における予測誤差の値を統計的に用いることで、予測精度をより高めることができる。これにより、線形予測時の予測誤差を小さくできる重み付け係数を時系列の順に求める処理を、全ての音声信号に対して適切に行うことができ、複数の信号系列における符号化時の信号量を少なくできる。

この実施の形態においては、複数の音声信号の系列ｆ_０，ｆ_１，・・・，ｆ_ｓの重み付け係数α_１００,α_１１０,α_２００,α_２１０,・・・,α_Ｐ００,α_Ｐ１０を設定する際において（式１４）〜（式１７）の行列を用いた）（式１８）〜（式２１）のような行列計算式を用い、かつ、行列計算式を構成する行列の少なくとも一部を所定の演算によって得られる（式２８）や（式２９）のような漸化式に置換して演算することで重み付け係数α_１００,α_１１０,α_２００,α_２１０,・・・,α_Ｐ００,α_Ｐ１０を設定することにより、本来の行列計算式の演算を行う際よりも少ない計算量で重み付け係数α_１００,α_１１０,α_２００,α_２１０,・・・,α_Ｐ００,α_Ｐ１０を設定できる。

この実施の形態においては、上述の（式８）における“Ｆ”の行列を、
Ｒ_Ａ＝Ｆ_Ａ，０・・・（式１４）
と定義し、さらに、上述したような“Ｆ”の行列の性質を用いて

としてほぼ同様の計算内容の式を全て同一の行列ないし同一の行列要素として扱うような所定の条件により、近似した値の要素同士を同一の要素に変換することにより、逆行列計算が必要になる場合、本来の逆行列計算を行う際よりも少ない計算量で演算を行うことができる。これにより、逆行列計算の増大による演算量や処理負荷の増大や演算時間の長大化を確実に抑止できる。

この実施の形態においては、（式２８）のような順行列と（式２９）のような逆行列とを用いて重み付け係数を設定することにより、次数の高い行列においても（式２８）や（式２９）のような漸化式を用いて精度の高い演算を迅速かつ確実に行うことができる。

上記実施の形態においては、時系列信号は音声信号としたが、これに限定されず、動画の画像信号等、時系列的に動的変化を示し、相関性の高いものであればどのようなものであってもよい。また、この実施の形態の時系列信号を形成する音声信号は、データベース等に予め記録された音声サンプル等であって、それらの中から相関性の高いものを抽出して複数の系列を形成することで実現するものであってもよい。

上記実施の形態は本発明の例示であり、本発明が上記実施の形態のみに限定されることを意味するものではないことは、いうまでもない。

図５，図６に、この実施の形態に係る圧縮・解凍装置１Ａ及び線形予測装置１において予測符号化を行ったデータと、従来の方法で符号化を行ったデータの比較例を示す。同図に示す通り、この実施の形態に係る圧縮・解凍装置１Ａ及び線形予測装置１において予測符号化を行ったデータ２０１の方が、従来の方法で符号化を行ったデータ２０２の符号量が小さくなった結果、圧縮後の信号量が少なくなり、圧縮に際しての信号の損失が少なくなったことを示している。これにより、この実施の形態に係る圧縮・解凍装置１Ａ及び線形予測装置１において予測符号化を行ったデータ２０１の方が、従来の方法で符号化を行ったデータ２０２に比べ、圧縮を経ても良好な音質が維持されていることがわかる。

１・・・線形予測装置（音声信号の線形予測装置）
３・・・重み付け設定部（重み付け設定手段）
４・・・予測部（予測手段）
ｆ＾_０（ｎ），ｆ_０（ｎ−Ｐ），・・・，ｆ_０（ｎ−１），ｆ_１（ｎ−Ｐ），・・・，ｆ_１（ｎ−１），ｆ_２（ｎ−ｐ）,・・・, ｆ_２（ｎ−１），ｆ_Ｓ（ｎ−Ｐ），・・・，ｆ_Ｓ（ｎ−１），ｆ_０（０），ｆ_１（０），ｆ_０（１），ｆ_１（１），・・・ｆ_０（Ｐ），ｆ_１（Ｐ）・・・音声信号
α，α１，α２，α_１００，α_１０１，α_１１０，α_１１１，α_２００，α_２０１，α_２１０，α_２１１，・・・，α_Ｐ００，α_Ｐ０１，ｘ・・・重み付け係数

Claims

複数の時系列信号によって形成される音声信号の予測符号化に用いられる音声信号の線形予測装置であって、
前記音声信号を構成するそれぞれの前記時系列信号の信号値の予測誤差を算出するための重み付け係数を算出し、該算出された重み付け係数を時系列信号のそれぞれに付与して重み付けを行う重み付け設定手段と、
前記重み付け係数によって重み付けを行った、過去の前記時系列信号を用いて前記時系列信号の予測値を算出する予測手段とを備え、
前記重み付け設定手段は、
特定の前記時系列を形成する複数の前記音声信号について、
時系列上の特定の前記音声信号を算出するための前記重み付け係数を、前記特定の音声信号よりも時間軸上の前方向又は後方向に存在する他の前記音声信号を参照して算出することを繰り返して、それぞれの前記音声信号を算出するためのそれぞれの前記重み付け係数を設定する第一の重み付け係数設定手段と、
前記時間軸上の、前記第一の重み付け係数設定手段において参照する前記他の音声信号が存在しない位置に存在する前記音声信号を前記特定の音声信号として設定した際に、前記時系列上の、前記第一の重み付け係数設定手段が参照する方向とは逆の方向に存在する前記他の音声信号を参照して、前記特定の音声信号を算出するための前記重み付け係数を設定する第二の重み付け係数設定手段とを備え、
前記予測手段は、前記第一の重み付け係数設定手段と前記第二の重み付け係数設定手段とによって設定された前記重み付け係数によって前記重み付けがされた過去の複数の前記時系列信号を用いて前記予測値を算出することで、前記音声信号の信号値の予測値を算出することを特徴とする音声信号の線形予測装置。
前記重み付け設定手段は、複数の前記時系列の前記時系列信号の前記重み付け係数を設定する際において行列を用いた計算を行うための行列計算式を用い、かつ、該行列計算式を構成する行列の少なくとも一部を所定の演算によって得られる漸化式に置換して演算することで前記重み付け係数を設定することを特徴とする請求項１に記載の音声信号の線形予測装置。
前記行列は、個々の要素が複数の前記信号値に基づいて形成されたものであって、所定の条件により、近似した値の前記要素同士を同一の前記要素に変換したものであることを特徴とする請求項２に記載の音声信号の線形予測装置。
前記重み付け設定手段は、順方向予測に基づく式と逆方向予測に基づく式としてそれぞれ形成し、前記順方向予測に基づく式と前記逆方向予測に基づく式とを用いて前記重み付け係数を設定することを特徴とする請求項１乃至３の何れか一つに記載の音声信号の線形予測装置。
複数の時系列信号によって形成される音声信号の予測符号化に用いられる音声信号の線形予測方法であって、
前記音声信号を構成するそれぞれの前記時系列信号の信号値の予測誤差を算出するための重み付け係数を算出し、該算出された重み付け係数を時系列信号のそれぞれに付与して重み付けを行う重み付け設定手順と、
前記重み付け係数によって重み付けを行った、過去の前記時系列信号を用いて前記時系列信号の予測値を算出する予測手順とを備え、
前記重み付け設定手順においては、
特定の前記時系列を形成する複数の前記音声信号について、
時系列上の特定の前記音声信号を算出するための前記重み付け係数を、前記特定の音声信号よりも時間軸上の前方向又は後方向に存在する他の前記音声信号を参照して算出することを繰り返して、それぞれの前記音声信号を算出するためのそれぞれの前記重み付け係数が設定される第一の重み付け係数設定手順と、
前記時間軸上の、前記第一の重み付け係数設定手順において参照する前記他の音声信号が存在しない位置に存在する前記音声信号を前記特定の音声信号として設定した際に、前記時系列上の、前記第一の重み付け係数設定手順において参照される方向とは逆の方向に存在する前記他の音声信号が参照されて、前記特定の音声信号を算出するための前記重み付け係数が設定される第二の重み付け係数設定手順とを備え、
前記予測手順においては、前記第一の重み付け係数設定手順と前記第二の重み付け係数設定手順とにおいて設定された前記重み付け係数によって前記重み付けがされた過去の複数の前記時系列信号を用いて前記予測値が算出されることで、前記音声信号の信号値の予測値が算出されることを特徴とする音声信号の線形予測方法。