JP3946074B2

JP3946074B2 - 音声処理装置

Info

Publication number: JP3946074B2
Application number: JP2002104363A
Authority: JP
Inventors: 健弘守谷; 雅史田中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-04-05
Filing date: 2002-04-05
Publication date: 2007-07-18
Anticipated expiration: 2022-04-05
Also published as: JP2003295898A

Description

【０００１】
【発明の属する技術分野】
この発明は例えばエコーキャンセラなどの前処理と符号化及び復号化を後処理とするような音声処理装置、又は符号化、復号化を前処理とし、ノイズキャンセラを後処理とする音声処理装置に関する。
【０００２】
【従来の技術】
図１４にこの発明で対象とする音声処理装置の一例を示す。この発明で対象とする音声処理装置は拡声系の通信システムを想定している。端末１Ａと端末１ＢはそれぞれマイクＭとスピーカＳＰを有し、端末１Ａ側のマイクＭから入力された音声信号はエコーキャンセラ２Ａで反響抑圧処理などの前処理が施され、符号器３Ａで圧縮符号化処理されて相手の端末１Ｂでは復号器４Ｂで復号されてスピーカＳＰから放音される。
【０００３】
図１４に示したような拡声系の通信システムでは図示したように、エコーキャンセラ２Ａと例えば圧縮符号化及び符号化を組み合わせることで実現される。エコーキャンセラ２Ａには逐次適応型と時間的にオーバーラップする音声信号をフレーム単位で周波数領域に変換し、周波数領域で反響抑圧処理を行う処理型とに分けることができるが、時間的にオーバーラップするフレーム単位で反響抑圧処理を行う形式の方が効率が高い。
また、音声や音楽の符号化でも時間的にオーバーラップする窓を使って変換符号化を行う場合がある。このように時間的にオーバーラップする窓を使った符号化とエコーキャンセラのような前処理を組み合わせると処理の遅延が大きくなってしまうという欠点があった。
【０００４】
その理由を明らかにするために、予め時間的にオーバーラップする窓を使って周波数領域で反響抑圧処理を施すエコーキャンセラと、時間的にオーバーラップする窓を使って符号化及び符号化処理を行う符号器及び符号器について説明する。
図１５はそのエコーキャンセラの構成を示す。同図において、まず、送信者が発した音声は、受話信号ｘ（ｋ）として受信者側の受信端２から入力され、受信端２から受信端１へと送出される経路において、遅延器３０３、エコー経路伝搬遅延推定部３０２、エコー経路６０１へそれぞれ入力される。なお、ここでエコー経路６０１は、実際の音響エコー経路もしくは、回線エコー経路（ハイブリッド回路）を意図している。
【０００５】
受話信号ｘ（ｋ）は、エコー経路６０１を伝搬することによりエコー信号ｂ（ｋ）として出力される。一方、送信端１からは受信者側の音声が送話信号ｓ（ｋ）として入力される。
エコー経路６０１を伝搬した後のエコー信号ｂ（ｋ）及び受信者側からの送話信号ｓ（ｋ）は加算器６０２に入力され、加算器６０２によりこれら信号は重畳されてエコー重畳信号ｙ（ｋ）となり、続くエコーキャンセラ３０１内のエコー経路伝搬遅延推定部３０２に入力される。
【０００６】
エコー経路伝搬遅延推定部３０２は、先ほど入力された受話信号ｘ（ｋ）と今回入力されたエコー重畳信号ｙ（ｋ）との特徴量の相関から、エコー経路６０１の伝搬遅延量を算出して出力する。
遅延器３０３は、エコー経路伝搬遅延推定部３０２から入力された伝搬遅延量に基づいてＦＩＲフィルタを作成し、作成したＦＩＲフィルタに受信信号ｘ（ｋ）を通過させる。ＦＩＲフィルタ通過後の受話信号Ｘ（ｋ）は、参照信号Ｘ_r（ｋ）となり、続く適応フィルタ部３０４及びエコー抑圧ゲイン算出部３０５へ出力される。
【０００７】
適応フィルタ部３０４では、入力される参照信号Ｘ_r（ｋ）及び、残留エコー信号ｙ（ｋ）を用いて、残留エコー信号ｙ（ｋ）の振幅と位相を推定した推定エコー信号ｙｅ（ｋ）を生成する。加算器３０７ではエコー重畳信号ｙ（ｋ）から推定エコー信号ｙｅ（ｋ）を差し引くことでエコーを低減した残留エコー重畳信号ｙｒｅ（ｋ）を生成する。
エコー抑圧ゲイン算出部３０５では、参照信号Ｘ_r（ｋ）、エコー重畳信号ｙ（ｋ）を用いて、エコー重畳信号ｙ（ｋ）の振幅を推定し、エコー重畳信号ｙ（ｋ）の振幅を抑圧するようにエコー抑圧ゲインＧを算出する。
【０００８】
乗算器３０６は、エコー重畳信号ｙ（ｋ）にエコー抑圧ゲイン算出部３０５から出力されるエコー抑圧ゲインＧを乗ずることにより、入力される残留エコー重畳信号ｙｒｅ（ｋ）のエコー信号ｂ（ｋ）を抑圧し、送信端２から入力された送信信号ｓ（ｋ）にできるだけ近い信号を相手の端末へと出力する。
以上は主にエコーキャンセラ３０１の動作状況であるが、この発明で対象とするエコーキャンセラは特にエコーキャンセラ３０１へ入力される参照信号Ｘ_r（ｋ）とエコー重畳信号ｙ（ｋ）を周波数分析部４０１で周波数領域の係数に変換し、加算器３０７と乗算器３０６では分析された周波数領域係数毎に反響抑圧処理を施している点を特徴とするものである。なお、エコーキャンセラの範囲にハウリングを防いだり、送受話音声の音量を適切に調整するための利得調節器３１０を含めることもあるが、以降の説明では、利得調節器を省略する。
【０００９】
周波数分析部４０１は例えば、図１６に示すようにフレーム分割部１４と、窓掛け部１５と、時間領域信号を周波数領域係数に変換する変換部１６とによって構成することができる。フレーム分割部１４は入力端子１１から入力される音声データ列をＮサンプル毎にフレーム分割する。窓掛け部１５は例えばＮフレーム分のデータ列一般には２フレームのデータ列に対して窓関数を乗算する。変換部１６は窓掛けされたデータ列を周波数領域係数に変換し、出力端子１２に周波数領域係数を出力する。
【００１０】
変換部１６は例えばＦＦＴ（高速フ−リエ変換）或はＤＣＴ（Discrete cosine Transform：離散コサイン変換）、或はＭＤＣＴ（Modified Discrete Cosine Transform：変形離散コサイン変換）などを用いることができる。尚、ＤＣＴについてはＫ．Ｒ．Ｒａｏ．Ｐ．Ｙｉｐ著、安田、藤原訳“画像符号化技術−ＤＣＴとその国際標準”第２章（オーム社）、ＭＤＣＴについてはＩＳＯ／ＩＥＣ標準ＩＳ−１１１７２−３に述べられている。
窓掛け部１５で施される窓掛け演算は２フレーム分の演算処理を１フレーム分づつシフトさせながら実行され、その演算結果を変換部１６で周波数領域係数に変換する。このことから時間的にオーバーラップする窓を使って反響抑圧処理を行うエコーキャンセラと称せられている。
【００１１】
図１７は周波数合成部４０３の構成を示す。周波数合成部４０３は逆変換部５８と、窓掛け部５９と、オーバーラップ加算部６１とによって構成される。入力端子１３に入力された周波数領域係数は逆変換部５８により時間領域の信号に変換され、その時間領域の信号に窓掛け部５９は窓掛け演算を施す。オーバーラップ加算部６１は２フレーム分のデータ列を前の２フレームの後半のデータと、後の２フレームの前半のデータを重ね合わせて加算し、その重ね合わされたフレームの波形を確定し、出力端子１４から音声信号を出力する。
【００１２】
次に時間的にオーバーラップする窓を使って符号化及び復号化を行う符号器及び復号器の例を説明する。図１８は特許３０８７８１４号明細書に開示された符号器と復号器の構成を示す。この発明では符号器と復号器の詳細な構成を要件とするものでないから、各部の構成は各ブロック内に名称を記入して示すに留め、ここでは、符号器１０側の入力部分にフレーム分割部１４と、窓掛け部１５と、変換部１６とによって構成される周波数分析部４０１が格納されている点と、復号器５０側の出力部分に逆変換部５８と、窓掛け部５９、オーバーラップ加算部６１とによって構成される周波数合成部４０３が格納されている点を理解されたい。
【００１３】
図１８に示した構成を簡素化してこの発明の説明に適した必要最小限の構成を図１９に示す。符号器１０は周波数分析部４０１と量子化部４１１とを縦続接続して表示することができる。また、復号器５０は逆量子化部４１２と周波数合成部４０３を縦続接続して表示することができる。
符号器１０では入力端子１１から音声信号が入力され、この音声信号が周波数分析部４０１で周波数領域係数に変換される。周波数領域係数は量子化部４１１で量子化処理されて伝送路に送出される。
【００１４】
復号器５０では逆量子化部４１２で逆量子化処理し、その逆量子化された周波数領域係数が周波数合成部４０３で時間領域の信号に変換され、出力端子９１から音声信号が再生される。
符号器１０でも２フレーム分ずつ窓掛け演算処理が施され、変換部１６で２フレーム分ずつ周波数領域係数に変換され、その２フレーム分の周波数領域係数が１フレーム分づつシフトされながら量子化部４１１で量子化される。
量子化部４１１で量子化された周波数領域係数は伝送路を通じて相手側の復号器５０に伝送され、逆量子化部４１２で逆量子化され、更に逆変換部５８で時間領域信号に逆変換され、窓掛け部５９で窓掛け演算が施され、オーバーラップ加算部６１で２フレーム分ずつ出力される時間領域信号の前の２フレームの後半の１フレームと後の２フレームの前半の１フレームとを重ね合わせて加算し、その重ね合わせたフレームの音声波形を再生する。
【００１５】
【発明が解決しようとする課題】
以上の説明から分かるように、上述したエコーキャンセラ３０１及び符号器１０、復号器５０は音声信号を一旦周波数領域係数に変換し、周波数領域で反響抑圧処理及び符号化復号化処理を施すから、窓掛け部１５及びオーバーラップ加算部６１で遅延が発生する欠点がある。
図２０に周波数領域で反響抑圧処理を行うエコーキャンセラ３０１と、周波数領域で符号化処理する符号器１０と、符号処理を行う復号器５０を縦続接続した音声処理装置の一例を示す。尚、図２０に示す周波数分析部４０１は同一符号を付して示しているが、一般にエコーキャンセラ３０１の前段に用いられるものと、符号器１０の前段に用いられるものはそれぞれ異なる仕様で動作する周波数分析部が用いられており、共通の仕様の周波数分析部が用いられる例はない。この音声処理装置動作状況を図２１に示す。図２１の右側程新しく左が過去になる。一番右のフレームＦ０を現在のフレームとすると、この現在のフレームＦ０に実時間で音声データが蓄えられる。このフレームＦ０の時間の中ですでにサンプルが蓄えられている過去のフレームＦ１、Ｆ２、Ｆ３…の信号に対する処理を逐次すべて行うことを前提とする。尚、伝送遅延はこの図では０としている。
【００１６】
まず、１つ前のフレームＦ１と２つ前のフレームＦ２にまたがった信号Ｂに対して、エコーキャンセラの処理を行う。この処理が終った時点で前回エコーキャンセル処理が終了している１フレームの信号Ａの後半の１フレームＦ２と現在エコーキャンセル処理が終った２フレームの信号Ｂの後半の１フレーム（これもフレームＦ２になる）との重ね合わせ加算が終了してフレームＦ２の反響抑圧処理された波形が確定する。この波形を使って窓掛けから始まる符号化を行う。すなわち符号化は２つ前のフレームＦ２と３つ前のフレームＦ３にまたがる信号Ａに対応する圧縮ビット列を作成する。
【００１７】
このビット列が瞬時に相手の復号器に渡り、十分高速に復号できたとすると、復号器ではフレームＦ２とＦ３をまたぐ２フレームの信号とフレームＦ３とＦ４をまたぐ２フレームの信号から３つ前のフレームＦ３の信号を確定することができるのでその信号を再生することができる。すなわち、伝送速度を除くとフレーム長の４倍の時間の遅れが生じているということになる。
図２２に図２１を用いて説明した動作の処理の流れを示す。ステップＳＰ１〜ＳＰ５はエコーキャンセラで実行される前処理ステップを示す。ステップＳＰ１では２フレーム分の音声信号に対してオーバーラップ窓掛けを実行する。
【００１８】
ステップＳＰ２では周波数領域係数への変換処理を実行する。
ステップＳＰ３では反響抑圧のための処理と、データの変形処理を実行する。
ステップＳＰ４では周波数領域係数を時間軸データに逆変換し、ステップＳＰ５で窓掛け演算とオーバーラップ加算を実行し、音声信号を再生する。
ステップＳＰ６〜ＳＰ１０は符号器及び符号器で実行される後処理ステップを示す。ステップＳＰ６でオーバーラップ窓掛け処理を実行し、ステップＳＰ７で周波数領域係数に変換し、ステップＳＰ８で符号化のための量子化処理と、伝送、復号化のための逆量子化処理が実行される。ステップＳＰ９で時間軸データに逆変換され、ステップＳＰ１０で窓掛けオーバーラップ加算処理により音声信号を再生する。
【００１９】
図２０に示した音声処理装置では符号化及び復号化を行う前に反響抑圧処理を実行する形式の場合を説明したが、符号化及び復号化処理後に例えばノイズ抑圧のような後処理を行う場合もある。
図２３はその形式の音声処理装置を示す。この形式の音声処理装置の場合も符号器１０と後処理となるノイズキャンセラのような後処理手段４０４のそれぞれで、図２４に示すステップＳＰ１１とＳＰ１６に示すように別々にオーバーラップ窓掛けを施し、更に符号器５０とエコーキャンセラ３０１でステップＳＰ１５とＳＰ２０に示すように別々に窓掛けオーバーラップ加算を実行しているから、図２０で説明したと同様の遅延が発生する。
【００２０】
更に、他の例として周波数領域係数を演算処理してノイズ抑圧処理を実行する後処理手段４０４は図２３にも示しているように周波数分析部４０１を利用している。このために周波数分析部４０１の数が多く必要となるため、装置の規模が大きくなる欠点もある。
この発明の目的は周波数領域で反響抑圧処理のような前処理と、周波数領域で符号化、復号化処理を継続して実行する音声処理装置或はその逆に符号化、復号化処理の後に後処理として反響抑圧処理を施す音声処理装置において、処理に要する遅延量を小さくし、更に、装置規模も小さくできる音声処理装置を提供しようとするものである。
【００２１】
【課題を解決するための手段】
この発明では音声信号をＮサンプルからなるフレーム時刻ごと（Ｎは２以上の整数）に２Ｎサンプルの切り出し窓を乗算してサンプルの取り込みが完了している１フレーム前と２フレーム前の２Ｎサンプルの窓掛け音声信号を得る第１オーバーラップ窓掛け演算処理部と、
この第１オーバーラップ窓掛け演算処理部が演算処理した２Ｎサンプルの窓掛け音声信号を周波数領域係数に変換する第１変換部と、
この第１変換部で変換した周波数領域係数を演算処理して反響抑圧処理を施す前処理手段と、
この前処理手段の演算処理結果を時間領域信号に変換する第１逆変換部と、
この第１逆変換部で逆変換した時間領域信号を直接、周波数領域係数に変換する第２変換部と、
この第２変換部で変換した周波数領域係数を量子化し、符号化・復号化する手段と、
この手段の処理結果を時間領域信号に変換する第２逆変換部と、
この第２逆変換部が逆変換した時間領域信号を１フレーム分ずつオーバーラップさせて加算し、オーバーラップしたフレームの音声信号を確定するオーバーラップ加算部と、
によって構成した音声処理装置を提案する。
【００２２】
この発明では更に音声信号をＮサンプルからなるフレーム時刻ごと（Ｎは２以上の整数）に２Ｎサンプルの切り出し窓を乗算してサンプルの取り込みが完了している１フレーム前と２フレーム前の２Ｎサンプルとの窓掛け音声信号を得るオーバーラップ窓掛け演算処理部と、
このオーバーラップ窓掛け演算処理部が演算処理した２Ｎサンプルの窓掛け音声信号を周波数領域係数に変換する変換部と、
この変換部で変換した周波数領域係数を演算処理して反響抑圧処理を施す前処理手段と、
この前処理手段の処理結果に直接、符号化・復号化処理を施す手段と、
この手段で処理した処理結果を時間領域信号に変換する逆変換部と、
この逆変換部が変換した時間領域信号を１フレーム分ずつオーバーラップさせて加算し、オーバーラップされたフレームの音声信号を確定するオーバーラップ加算部と、
によって構成した音声処理装置を提案する。
【００２３】
この発明では更に音声信号をＮサンプルからなるフレーム時刻ごと（Ｎは２以上の整数）に２Ｎサンプルの切り出し窓を乗算してサンプルの取り込みが完了している１フレーム前と２フレーム前の２Ｎサンプルの窓掛け音声信号を得る第１オーバーラップ窓掛け演算処理部と、
この第１オーバーラップ窓掛け演算処理部が演算処理した２Ｎサンプルの窓掛け音声信号を周波数領域係数に変換する第１変換部と、
この第１変換部が変換した周波数領域係数を圧縮符号化及び復号化処理する符号器及び復号器と、
復号器が復号した復号信号を時間領域信号に逆変換する逆変換部と、
この逆変換部で逆変換した時間領域信号を直接、周波数領域係数に変換する第２変換部と、
この第２変換部で変換した周波数領域係数を参照信号として利用するエコーキャンセラと、
によって構成した音声処理装置を提案する。
【００２４】
この発明では更に音声信号をＮサンプルからなるフレーム時刻ごと（Ｎは２以上の整数）に２Ｎサンプルの切り出し窓を乗算してサンプルの取り込みが完了している１フレーム前と２フレーム前の２Ｎサンプルの窓掛け音声信号を得る第１オーバーラップ窓掛け演算部と、
この第１オーバーラップ窓掛け演算部が演算処理した２Ｎサンプルの窓掛け音声信号を周波数領域係数に変換する第１変換部と、
この第１変換部が変換した周波数領域係数を圧縮符号化及び復号化処理する符号器及び復号器と、
この復号器の復号結果を直接、参照信号として利用するエコーキャンセラと、
によって構成した音声処理装置を提案する。
【００２５】
この発明では更に音声信号をＮサンプルからなるフレーム時刻ごと（Ｎは２以上の整数）に２Ｎサンプルの切り出し窓を乗算してサンプルの取り込みが完了している１フレーム前と２フレーム前の２Ｎサンプルの窓掛け音声信号を得る第１オーバーラップ窓掛け演算処理部と、
この第１オーバーラップ窓掛け演算処理部が演算処理した２Ｎサンプルの窓掛け音声信号を周波数領域係数に変換する第１変換部と、
この第１変換部で変換した周波数領域係数を演算処理して符号化・復号化処理を施す手段と、
この手段の演算処理結果を時間領域信号に変換する第１逆変換部と、
この第１逆変換部で逆変換した時間領域信号を直接、周波数領域係数に変換する第２変換部と、
この第２変換部で変換した周波数領域係数に雑音抑圧処理を施す後処理手段と、
この後処理手段の処理結果を時間領域信号に変換する第２逆変換部と、
この第２逆変換部が逆変換した時間領域信号を１フレーム分ずつオーバーラップさせて加算し、オーバーラップしたフレームの音声信号を確定するオーバーラップ加算部と、
によって構成した音声処理装置を提案する。
【００２６】
この発明では更に音声信号をＮサンプルからなるフレーム時刻ごと（Ｎは２以上の整数）に２Ｎサンプルの切り出し窓を乗算してサンプルの取り込みが完了している１フレーム前と２フレーム前の２Ｎサンプルとの窓掛け音声信号を得るオーバーラップ窓掛け演算処理部と、
このオーバーラップ窓掛け演算処理部が演算処理した２Ｎサンプルの窓掛け音声信号を周波数領域係数に変換する変換部と、
この変換部で変換した周波数領域係数を演算処理して符号化・復号化処理を施す手段と、
この手段の処理結果に直接、雑音抑圧処理を施す後処理手段と、
この後処理手段で処理した処理結果を時間領域信号に変換する逆変換部と、
この逆変換部が変換した時間領域信号を１フレーム分ずつオーバーラップさせて加算し、オーバーラップされたフレームの音声信号を確定するオーバーラップ加算部と、
によって構成した音声処理装置を提案する。
【００２７】
作用
この発明によれば前処理及び後処理の何れでも少なくとも窓を共通に用いることにより、前処理と後処理を同一のフレームで処理を実現することができる。この結果、遅延量を縮小することができる。
更に、前処理と後処理の双方において、窓と変換及び逆変換を共通とすることにより、前処理から後処理に至る処理ステップを減縮することができる。この結果、装置の演算量を少なくできるため、装置の規模も縮小することができる。この結果装置のコストダウンも期待することができる。
【００２８】
【発明の実施の形態】
図１にこの発明の請求項１で提案する音声処理装置の一実施例を示す。この実施例では前処理手段としてエコーキャンセラ３０１を用いた場合を示す。エコーキャンセラ３０１は図１５に示した構成のものとし、その入力端子側には周波数分析部４０１が挿入され、また出力端子側には周波数合成部４０３が接続され、エコーキャンセラ３０１の内部ではフレーム単位で時間領域でオーバーラップのある窓を使って周波数領域で反響抑圧処理が行われる。
この発明では、この例のように時間領域でオーバーラップのある窓を使って周波数領域で前処理を行い、その前処理された音声信号を圧縮符号化して伝送し、復号化して再生する音声処理装置において、周波数分析部４０１で施した窓掛け処理を符号器１０で共用することにより処理ステップを省略して遅延フレーム数を低減しようとするものである。
【００２９】
図１に示す実施例ではエコーキャンセラ３０１の出力側に設けた周波数合成部４０３の逆変換部５８の後段から、時間軸に逆変換された音声信号を取り出し、この音声信号を符号器１０に入力する構成とした場合を示す。符号器１０には図１９で説明したように変換部１６と量子化部４１１を有し、変換部１６で周波数領域係数に変換し、量子化部４１１で量子化して符号化が達せられる。
図１ではこの発明の効果を主張するために、エコーキャンセラ３０１の出力側に設けた周波数合成部４０３に窓掛け部５９とフレームオーバーラップ加算部６１を設けている状況を示しているが、この発明を適用する場合はこれらの窓掛け部５９とオーバーラップ加算部６１は削除することができる。
逆変換部５８の出力を直接符号器１０に接続した構成とした場合には符号器１０は周波数分析部４０１で窓掛け部１５が施した窓をそのまま利用することができる。この結果として、符号器１０の符号化処理は前処理である反響抑圧処理と同一のフレーム内で処理することができる。
【００３０】
図２にその様子を示す。フレームＦ０は現在音声信号を蓄積中のフレームである。フレームＦ１とＦ２にまたがって前処理が施され、更に、その同一の窓を使って符号化処理を実行することができる。つまり、周波数合成部４０３のフレームオーバーラップ加算処理を省略した結果、１フレームの遅延を削除することができる。
復号器５０ではフレームＦ２とＦ３にまたがる信号に関して復号化処理を実行する。つまり、復号器５０の周波数合成部４０３に備えられているオーバーラップ加算部６１は前回フレームＦ２とＦ３にまたがって逆量子化した復号信号と今回フレームＦ１とＦ２にまたがって複合処理した復号信号をフレームＦ２に関してオーバーラップして加算することによりフレームＦ２の音声波形を確定する。従って、図２１で説明した従来の復号処理に至るまでの遅延と比較して１フレーム短縮することができる。
【００３１】
図３にこの発明による音声処理装置の処理の流れを示す。図２２に示した処理ステップと対応するステップには同一のステップ番号ＳＰ１〜ＳＰ１０を付して示す。図３から分かるように前処理と符号化、復号化処理を共通の窓を使うことによりステップＳＰ５の窓掛け及びオーバーラップ加算処理と、ステップＳＰ６のオーバーラップ窓掛け処理を削除することができる。
尚、図１に示した実施例では前処理側では一旦逆変換部５８により周波数領域係数を時間領域の信号の逆変換し、符号器５０ではその逆変換した信号を再び周波数領域係数に変換しているから、前処理側の変換方式と、符号器１０及び符号器５０側の変換方式を揃える必要はない。
【００３２】
つまり、前処理側の変換方式がＭＤＣＴであっても、符号器１０の変換方式はＤＣＴであってもＦＦＴであってもよく、その選択は自由である。
図４はこの発明の請求項２で提案する音声処理装置の実施例を示す。この発明の請求項２では前処理と符号化、復号化処理を共通の窓と、共通の変換及び逆変換を行うことを特徴とするものである。
つまり、前処理の処理直後から直接符号器１０の特に量子化部４１１に信号を取り出す構成とする点を特徴とするものである。この結果、この実施例ではエコーキャンセラ３０１の出力側に設けられる周波数合成部４０３と符号器１０に格納されている周波数分析部４０１は全く存在しなくてよく、エコーキャンセラ３０１の出力側に直接符号器１０を構成する量子化部４１１を接続した構成とすることができる。
【００３３】
この構成とすることにより、エコーキャンセラ３０１から取り出される信号は周波数領域係数の形態であるため、符号器１０には周波数分析部４０１を設ける必要がない。つまり、エコーキャンセラ３０１の出力（周波数領域係数の形態にある信号）をそのまま量子化部４１１に入力し、量子化することにより、直ちに符号化処理を達することができる。符号化された信号は符号器５０に送られ、図１の場合と同様に復号処理され、オーバーラップ加算部６１から音声信号が出力される。尚、この場合には前処理の前段に設けられる変換部１６と復号器５０に設ける逆変換部は同一の変換形式に揃える必要がある。
【００３４】
図５に図４に示した実施例の処理の流れを示す。この実施例ではステップＳＰ４の逆変換処理からステップＳＰ７の変換処理までを削除することができる。
図４に示した実施例によれば遅延量の短縮に関しては図１に示した実施例の場合と同じで従来より１フレーム分の遅延を短縮することができる。然し乍ら、この図４の実施例ではエコーキャンセラ３０１の出力側に存在するはずの周波数合成部４０３を全く必要としないことと、符号器１０でも周波数分析部４０１を省略できることから、装置の規模を図１の実施例の場合より縮小することができコストの低減を期待することができる。
【００３５】
上述では前処理と符号化・復号化処理を縦続的に実行する場合に関してこの発明を適用した実施例を説明したが、符号化・復号化処理の後に後処理を実行する場合にも、この発明を適用することができる。つまり、図６に示すように例えばノイズキャンセラのような後処理手段４０４を復号器５０の出力側に設けた場合にも、図２３及び図２４を用いて説明したように遅延量が４フレームになる問題点が発生する。
この発明の請求項３はこの欠点を解消するためにオーバーラップのある窓を使う周波数領域の符号化と復号化を行う手段と、時間領域でオーバーラップのある窓を使う周波数領域の後処理を行う手段とを縦続して音声信号の処理を行う音声処理装置において、共通の窓を使い、符号化及び復号化と後処理とを同一のフレーム内で実行する音声処理装置を提案するものである。
【００３６】
図６に請求項３の実施例を示す。図６に示す実施例では送信端側で符号器１０で２フレームに渡って窓関数を乗算し、時間軸領域の音声信号を周波数領域係数に変換し、その変換された周波数領域係数を量子化部で量子化し、符号化処理を施す。
符号化処理された音声信号は復号器５０に渡され、復号器５０で逆量子化され、周波数合成部４０３で時間軸領域の音声信号に変換される。
この発明の請求項３では符号器、復号器及び後処理としてのノイズキャンセラのような後処理手段４０４の処理において、窓を共通に用いることを特徴とするものである。つまり、符号器１０の窓掛け部で施された窓掛け関数をそのまま後処理側の後処理手段４０４でも共通に使用するものである。
【００３７】
このために、復号器５０に設けられる周波数合成部４０３は逆変換部５８のみが存在すればよく、この逆変換部５８で時間領域の信号に逆変換した信号を後処理手段４０４の入力側に設けた周波数分析部４０１の変換部１６に入力し、この変換部１６で再度周波数領域係数に変換した信号で雑音抑圧処理を施し、その雑音抑圧処理後の信号を周波数合成部４０３で時間領域の信号に変換し、更にオーバーラップ加算部６１でオーバーラップ加算して、１フレーム毎に音声信号を再生する。
【００３８】
図７に図６に示した実施例の処理の流れを示す。図６に示した実施例からも明らかなように、復号器５０における窓掛け及びオーバーラップ加算処理を行うステップＳＰ１５と、後処理側で実行するはずのオーバーラップ窓掛け処理を行うステップＳＰ１６を削除することができる。
従って、図６に示す実施例によれば復号器５０において、オーバーラップ加算を削除し、符号化処理と復号化処理及び後処理を同一フレーム内で実行させることができるから遅延時間を１フレーム分短縮することができ、図２に示したと同様に全体で３フレームの遅延に改善することができる。
【００３９】
図８はこの発明の請求項４で提案する音声処理装置の実施例を示す。この発明の請求項４ではフレーム単位で時間領域でオーバーラップのある窓を使う周波数領域の符号化と復号化を行う手段と、時間領域でオーバーラップのある窓を使う周波数領域の後処理を行う手段とを縦続接続して音声信号の処理を行う音声処理装置において、
共通の窓と共通の変換及び逆変換を用いて符号化と復号処理とを同一のフレーム内で行う音声処理装置を提案する。
【００４０】
このために、図８に示す実施例では復号器５０において、逆量子化部４１２の出力を直接後処理手段４０４に入力し、後処理手段４０４で後処理した後に周波数合成部４０３で時間領域の音声信号に再生するように構成し、符号器１０で行われたオーバーラップ窓掛けと、変換処理を後処理でも共用した例を示す。
図８に示した実施例の処理の流れを図９に示す。つまり、図８に示す実施例では復号器５０で行われていた逆変換処理ステップＳＰ１４と、窓掛けオーバーラップ加算処理ステップＳＰ１５を削除し、更に、後処理で行われていたオーバーラップ窓掛け処理ステップＳＰ１６と、変換処理ステップＳＰ１７とを削除することができる。
【００４１】
この処理ステップの削除により図２を用いて説明したのと同様に全体で３フレームの遅延に改善することができる。然も、この実施例によれば削除するステップ量が多いことから、装置の規模を大きく縮小することができる。この結果、コストの低減を期待することができる効果が得られる。
図１０はこの発明の請求項５で提案する音声処理装置の実施例を示す。この発明の請求項５は参照信号Ｘ_r（ｋ）を作成する周波数分析部４０１の構成を簡素化し、装置の規模を縮小することを目的とした発明である。
【００４２】
つまり、時間軸でオーバーラップを持たせる窓の形状が、符号化・復号化と、エコーキャンセラ３０１で共通であれば参照信号Ｘ_r（ｋ）を復号化処理の途中から抜き出すことができる。図１０に示す例では復号器５０に使われている逆変換部５８の出力信号を抜き出して周波数分析部４０１を構成する変換部１６に入力し、変換部１６で周波数領域係数に変換して参照信号Ｘ_r（ｋ）を得るように構成した場合を示す。
図１１にその様子を説明する処理の流れを示す。図１０に示した実施例によれば復号化処理ステップＳＰ１４の逆変換処理が終了した信号を変換部１６に入力し、この変換部１６で周波数領域係数への変換ステップＳＰ２２を実行すれば周波数領域で動作するエコーキャンセラ３０１に入力する参照信号を作成することができる。
【００４３】
図１０からも明らかなようにエコーキャンセラ３０１に参照信号Ｘ_r（ｋ）を入力するために設けられている周波数分析部４０１は変換部１６のみによって構成され、窓掛け部を省略できることから装置の規模を縮小することができる。但し、この実施例でも、参照信号Ｘ_r（ｋ）を得るまでの遅延量を短縮することができるが、エコーキャンセラ３０１の参照信号の性格から遅延時間の短縮効果は大きな効果とは言えない。
図１２はこの発明の請求項６で提案する音声処理装置の実施例を示す。請求項６では参照信号作成のための周波数分析部４０１を全く必要としない音声処理装置を提案するものである。
つまり、時間軸でオーバーラップを持たせる窓の形状及び周波数領域係数への変換方式がエコーキャンセラ３０１と符号器１０及び復号器５０で共通であれば復号器５０に設けられている逆量子化部４１２の出力をそのまま参照信号Ｘ_r（ｋ）として利用することができる。従って、参照信号Ｘ_r（ｋ）を作成するために必要としていた周波数分析部４０１は全く不要のものとなる。
【００４４】
図１３は図１２に示した実施例の処理の流れを示す。この実施例によれば逆量子化を実行するステップＳＰ１３を終了した信号を参照信号Ｘ_r（ｋ）として利用し、その後、逆変換ステップＳＰ１４と窓掛けオーバーラップ加算ステップＳＰ１５を実行して出力音を得る。従って、ここでは従来行われていたオーバーラップ窓掛けステップＳＰ２１と変換ステップＳＰ２２は削除される。
図１２に示す実施例によれば参照信号作成のために周波数分析部４０１は全く不要となり、装置の規模を更に一層縮小することができる。
【００４５】
【発明の効果】
以上説明したように、この発明によれば時間軸でオーバーラップを持たせる窓と周波数領域係数を用いて符号化処理及び復号化処理と反響抑圧処理とを実行する音声処理装置の遅延を削減することができる。また処理ステップの軽減により演算量及び装置の規模を減縮することができる利点が得られる。
【図面の簡単な説明】
【図１】この発明の請求項１で提案する音声処理装置の一実施例を説明するためのブロック図。
【図２】図１の動作を説明するためのタイミングチャート。
【図３】図１の動作を説明するための処理の流れを示すフローチャート。
【図４】この発明の請求項２で提案する音声処理装置の一実施例を説明するためのブロック図。
【図５】図４の動作を説明するための処理の流れを示すフローチャート。
【図６】この発明の請求項３で提案する音声処理装置の一実施例を説明するためのブロック図。
【図７】図６に示した装置の操作を説明するための処理の流れを示すフローチャート。
【図８】この発明の請求項４で提案する音声処理装置の一実施例を説明するためのブロック図。
【図９】図８に示した装置の動作を説明するための処理の流れを示すロフローチャート。
【図１０】この発明の請求項５で提案する音声処理装置の一実施例を説明するためのブロック図。
【図１１】図１０の動作を説明するための処理の流れを示すフローチャート。
【図１２】この発明の請求項６で提案する音声処理装置の一実施例を説明するためのブロック図。
【図１３】図１２に示した装置の動作を説明するための処理の流れを示すフローチャート。
【図１４】従来の技術を説明するためのブロック図。
【図１５】従来より使われているフレーム単位の窓を使用して反響抑圧処理を実行する形式のエコーキャンセラの一例を説明するためのブロック図。
【図１６】図１５に示した周波数分析部の内部の構成を説明するためのブロック図。
【図１７】図１５に示した周波数合成部の内部の構成を説明するためのブロック図。
【図１８】従来から使用されているフレーム単位の窓を使用して符号化・復号化を実行する形式の符号器及び復号器の一例を説明するためのブロック図。
【図１９】図１８に示した符号器及び復号器を簡素化して説明するためのブロック図。
【図２０】図１５に示したエコーキャンセラと、図１９に示した符号器及び復号器を組み合わせて音声処理を構成した一例を説明するためのブロック図。
【図２１】図２０に示した音声処理装置の動作を説明するためのタイミングチャート。
【図２２】図２０に示した音声処理装置の不都合を説明するための処理の流れを説明するためのフローチャート。
【図２３】従来の音声処理装置の変形を説明するためのブロック図。
【図２４】図２３に示した音声処理装置の動作を説明するためのフローチャート。
【符号の説明】
１０符号器５８逆変換部
１４フレーム分割部５０復号器
１５窓掛け部５９窓掛け部
１６変換部６１オーバーラップ加算部
３０１エコーキャンセラ４０１周波数分析部
４０３周波数合成部４０４後処理手段

Claims

音声信号をＮサンプルからなるフレーム時刻ごと（Ｎは２以上の整数）に２Ｎサンプルの切り出し窓を乗算してサンプルの取り込みが完了している１フレーム前と２フレーム前の２Ｎサンプルの窓掛け音声信号を得る第１オーバーラップ窓掛け演算処理部と、
この第１オーバーラップ窓掛け演算処理部が演算処理した２Ｎサンプルの窓掛け音声信号を周波数領域係数に変換する第１変換部と、
この第１変換部で変換した周波数領域係数を演算処理して反響抑圧処理を施す前処理手段と、
この前処理手段の演算処理結果を時間領域信号に変換する第１逆変換部と、
この第１逆変換部で逆変換した時間領域信号を直接、周波数領域係数に変換する第２変換部と、
この第２変換部で変換した周波数領域係数を量子化し、符号化・復号化する手段と、
この手段の処理結果を時間領域信号に変換する第２逆変換部と、
この第２逆変換部が逆変換した時間領域信号を１フレーム分ずつオーバーラップさせて加算し、オーバーラップしたフレームの音声信号を確定するオーバーラップ加算部と、
によって構成したことを特徴とする音声処理装置。
音声信号をＮサンプルからなるフレーム時刻ごと（Ｎは２以上の整数）に２Ｎサンプルの切り出し窓を乗算してサンプルの取り込みが完了している１フレーム前と２フレーム前の２Ｎサンプルとの窓掛け音声信号を得るオーバーラップ窓掛け演算処理部と、
このオーバーラップ窓掛け演算処理部が演算処理した２Ｎサンプルの窓掛け音声信号を周波数領域係数に変換する変換部と、
この変換部で変換した周波数領域係数を演算処理して反響抑圧処理を施す前処理手段と、
この前処理手段の処理結果に直接、符号化・復号化処理を施す手段と、
この手段で処理した処理結果を時間領域信号に変換する逆変換部と、
この逆変換部が変換した時間領域信号を１フレーム分ずつオーバーラップさせて加算し、オーバーラップされたフレームの音声信号を確定するオーバーラップ加算部と、
によって構成したことを特徴とする音声処理装置。
音声信号をＮサンプルからなるフレーム時刻ごと（Ｎは２以上の整数）に２Ｎサンプルの切り出し窓を乗算してサンプルの取り込みが完了している１フレーム前と２フレーム前の２Ｎサンプルの窓掛け音声信号を得る第１オーバーラップ窓掛け演算処理部と、
この第１オーバーラップ窓掛け演算処理部が演算処理した２Ｎサンプルの窓掛け音声信号を周波数領域係数に変換する第１変換部と、
この第１変換部が変換した周波数領域係数を圧縮符号化及び復号化処理する符号器及び復号器と、
復号器が復号した復号信号を時間領域信号に逆変換する第１逆変換部と、
この第１逆変換部で逆変換した時間領域信号を直接、周波数領域係数に変換する第２変換部と、
この第２変換部で変換した周波数領域係数を後処理する後処理手段と、
この後処理手段で処理した処理結果を時間領域信号に変換する第２逆変換部と、
この第２逆変換部が変換した時間領域信号を１フレーム分ずつオーバーラップさせて加算し、オーバーラップされたフレームの音声信号を確定するオーバーラップ加算部と、
によって構成したことを特徴とする音声処理装置。
音声信号をＮサンプルからなるフレーム時刻ごと（Ｎは２以上の整数）に２Ｎサンプルの切り出し窓を乗算してサンプルの取り込みが完了している１フレーム前と２フレーム前の２Ｎサンプルとの窓掛け音声信号を得るオーバーラップ窓掛け演算処理部と、
このオーバーラップ窓掛け演算処理部が演算処理した２Ｎサンプルの窓掛け音声信号を周波数領域係数に変換する変換部と、
この変換部で変換した周波数領域係数を演算処理して符号化・復号化処理を施す手段と、
この手段の処理結果に直接、雑音抑圧処理を施す後処理手段と、
この後処理手段で処理した処理結果を時間領域信号に変換する逆変換部と、
この逆変換部が変換した時間領域信号を１フレーム分ずつオーバーラップさせて加算し、オーバーラップされたフレームの音声信号を確定するオーバーラップ加算部と、
によって構成したことを特徴とする音声処理装置。
音声信号をＮサンプルからなるフレーム時刻ごと（Ｎは２以上の整数）に２Ｎサンプルの切り出し窓を乗算してサンプルの取り込みが完了している１フレーム前と２フレーム前の２Ｎサンプルの窓掛け音声信号を得る第１オーバーラップ窓掛け演算処理部と、
この第１オーバーラップ窓掛け演算処理部が演算処理した２Ｎサンプルの窓掛け音声信号を周波数領域係数に変換する第１変換部と、
この第１変換部が変換した周波数領域係数を圧縮符号化及び復号化処理する符号器及び復号器と、
復号器が復号した復号信号を時間領域信号に逆変換する逆変換部と、
この逆変換部で逆変換した時間領域信号を直接、周波数領域係数に変換する第２変換部と、
この第２変換部で変換した周波数領域係数を参照信号として利用するエコーキャンセラと、
によって構成したことを特徴とする音声処理装置。
音声信号をＮサンプルからなるフレーム時刻ごと（Ｎは２以上の整数）に２Ｎサンプルの切り出し窓を乗算してサンプルの取り込みが完了している１フレーム前と２フレーム前の２Ｎサンプルの窓掛け音声信号を得る第１オーバーラップ窓掛け演算部と、
この第１オーバーラップ窓掛け演算部が演算処理した２Ｎサンプルの窓掛け音声信号を周波数領域係数に変換する第１変換部と、
この第１変換部が変換した周波数領域係数を圧縮符号化及び復号化処理する符号器及び復号器と、
この復号器の復号結果を直接、参照信号として利用するエコーキャンセラと、
によって構成したことを特徴とする音声処理装置。