JP4207494B2

JP4207494B2 - 音声信号の処理装置および処理方法、並びに方法を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な媒体

Info

Publication number: JP4207494B2
Application number: JP2002238274A
Authority: JP
Inventors: 哲二郎近藤; 勉渡辺
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-08-19
Filing date: 2002-08-19
Publication date: 2009-01-14
Anticipated expiration: 2022-08-19
Also published as: JP2004077818A

Description

【０００１】
【発明の属する技術分野】
この発明は、例えば携帯電話などに適用して好適な音声信号の処理装置および処理方法、並びに方法を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な媒体に関する。
【０００２】
詳しくは、この発明は、集音された背景音に対応した背景音信号に基づいて所定時間後の背景音に対応した予測背景音信号を生成し、この予測背景音信号を、符号化音声信号を復号化して得られた復号音声信号に加算または減算して出力音声信号を得る構成とすることによって、復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して品質の向上を図るようにした音声信号処理装置等に係るものである。
【０００３】
また、この発明は、符号化音声信号を復号化して得られた復号音声信号および集音された背景音に対応した背景音信号に基づいて、所定時間だけ後の背景音を相殺するための予測背景音信号を含む出力音声信号を生成することによって、復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して音声品質の向上を図り、また復号音声信号の符号化雑音（符号化歪み）を低減して音声品質の向上を図るようにした音声信号処理装置等に係るものである。
【０００４】
また、この発明は、第１の符号化音声信号および集音された背景音に対応した背景音信号を符号化して得られた第２の符号化音声信号に基づいて、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数の出力音声信号を生成することによって、第１の符号化音声信号に対応する復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して音声品質の向上を図り、またその復号音声信号の符号化雑音（符号化歪み）を低減して音声品質の向上を図るようにした音声信号処理装置等に係るものである。
【０００５】
【従来の技術】
デジタル携帯電話の符号化方式として例えばＣＥＬＰ(Code Excited Linear Prediction)方式が用いられている。このＣＥＬＰ方式の符号化では、従来周知のように、音声信号を線形予測分析してスペクトル包絡と予測残差（音源信号）に分離し、それぞれを符号化する。
【０００６】
デジタル携帯電話では、例えば上述のＣＥＬＰ方式で符号化された符号化音声信号を復号化し、得られた復号音声信号による音声をスピーカより出力する。
【０００７】
【発明が解決しようとする課題】
上述したように、デジタル携帯電話のスピーカから出力される復号音声信号による音声が人の聴覚システムに到達する際に、背景音も同時に到達する。そのため、復号音声信号による音声の品質が実質的に低下し、受信音声が聞き取り難くなることがある。
【０００８】
また、復号音声信号は、ＣＥＬＰ方式の符号化およびその復号化を経て得られたものであり、符号化雑音（符号化歪み）を伴ったものとなっている。これにより、デジタル携帯電話のスピーカから出力される復号音声信号による音声の品質は低下したものとなる。このような符号化雑音（符号化歪み）は、ＣＥＬＰ方式の符号化だけでなく、その他の符号化方式によっても発生する。
【０００９】
この発明の目的は、復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して音声品質の向上を図ることにある。また、この発明の目的は、復号音声信号の符号化雑音（符号化歪み）を低減して音声品質の向上を図ることにある。
【００１０】
【課題を解決するための手段】
この発明に係る音声信号処理装置は、符号化音声信号が入力される信号入力手段と、上記信号入力手段に入力される符号化音声信号を復号化する音声復号化手段と、背景音を集音し、該集音された背景音に対応した複数のデータからなる第１の音声信号を出力する集音部と、上記集音部からの第１の音声信号から、所定時間だけ後の背景音に対応した複数のデータからなる第２の音声信号を生成する背景音信号予測手段と、上記音声復号化手段で復号化されて得られる復号音声信号に、上記背景音信号予測手段で生成された第２の音声信号を加算または減算して出力音声信号を得る演算手段とを備え、上記背景音信号予測手段は、上記集音部からの第１の音声信号から、上記第２の音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第１のデータ選択手段と、上記第１のデータ選択手段で選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出するクラス検出手段と、上記所定時間を段階的に定めるパラメータの値が入力されるパラメータ入力手段と、上記クラス検出手段で検出されたクラスおよび上記パラメータ入力手段に入力されたパラメータの値に対応した推定式の係数データを発生する係数データ発生手段と、上記集音部からの第１の音声信号から、上記第２の音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第２のデータ選択手段と、上記係数データ発生手段で発生された係数データおよび上記第２のデータ選択手段で選択された複数の第２のデータを用いて演算する上記推定式により、上記第２の音声信号における注目位置のデータを求める演算手段とを有するものである。
【００１１】
また、この発明に係る音声信号処理方法は、入力される符号化音声信号を復号化して復号音声信号を得る第１のステップと、背景音を集音し、該集音された背景音に対応した複数のデータからなる第１の音声信号を得る第２のステップと、上記第２のステップで得られる第１の音声信号から、所定時間だけ後の背景音に対応した複数のデータからなる第２の音声信号を生成する第３のステップと、上記第１のステップで得られる復号音声信号に、上記第３のステップで生成された第２の音声信号を加算または減算して出力音声信号を得る第４のステップとを備え、上記第３のステップでは、上記集音部からの第１の音声信号から、上記第２の音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第５のステップと、上記第５のステップで選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出する第６のステップと、上記所定時間を段階的に定めるパラメータの値が入力される第７のステップと、上記第６のステップで検出されたクラスおよび上記第７のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第８のステップと、上記集音部からの第１の音声信号から、上記第２の音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第９のステップと、上記第８のステップで発生された係数データおよび上記第９のステップで選択された複数の第２のデータを用いて演算する上記推定式により、上記第２の音声信号における注目位置のデータを求める第１０のステップとを有するものである。
【００１２】
また、この発明に係るプログラムは、上述の音声信号処理方法をコンピュータに実行させるためのものである。また、この発明に係るコンピュータ読み取り可能な媒体は、上述のプログラムを記録したものである。
【００１３】
この発明において、入力される符号化音声信号が復号化されて復号音声信号が得られる。また、背景音がマイクロホン等によって集音され、この集音された背景音に対応した複数のデータからなる第１の音声信号が得られる。そして、この第１の音声信号に基づいて、所定時間だけ後の背景音に対応した複数のデータからなる第２の音声信号が生成される。
【００１４】
例えば、第１の音声信号からクラス分類適応処理によって第２の音声信号が生成される。この場合、第２の音声信号によって出力される音声（相殺音）を、その復号音声信号による音声が人の聴覚システムに到達する際に同時に到達する背景音に対応したものとすることができる。ここで、パラメータの値を調整して任意の進み量に対応した相殺音の出力を可能とすることで、集音部で背景音を集音した時点と当該集音された背景音に基づいた相殺音が人の聴覚システムに到達する時点との間の時間差にバラツキがあっても対処できる。
【００１５】
上述した復号音声信号から第２の音声信号を加算または減算して出力音声信号が得られる。ここで、第２の音声信号が第１の音声信号に対して反転されていれば加算が行われ、一方第２の音声信号が第１の音声信号に対して反転されていなければ減算が行われる。
【００１６】
このように出力音声信号には復号音声信号の他に相殺音を出力するための第２の音声信号が含まれている。したがって、復号音声信号による音声が人の聴覚システムに到達する際に、この第２の音声信号による相殺音によって背景音を効果的に除去でき、音声品質の向上を図ることができる。
【００２５】
この発明に係る音声信号処理装置は、符号化音声信号が入力される信号入力手段と、上記信号入力手段に入力された符号化音声信号を復号化して複数のデータからなる復号音声信号を得る音声復号化手段と、背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を出力する集音部と、上記音声復号化手段からの復号音声信号および上記集音部からの背景音信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む、複数のデータからなる出力音声信号を生成する音声信号出力手段とを備え、上記音声信号出力手段は、上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第１のデータ選択手段と、上記第１のデータ選択手段で選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出するクラス検出手段と、上記所定時間を段階的に定めるパラメータの値が入力されるパラメータ入力手段と、上記クラス検出手段で検出されたクラスおよび上記パラメータ入力手段に入力されたパラメータの値に対応した推定式の係数データを発生する係数データ発生手段と、上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第２のデータ選択手段と、上記係数データ発生手段で発生された係数データおよび上記第２のデータ選択手段で選択された複数の第２のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める演算手段とを有するものである。
【００２６】
また、この発明に係る音声信号処理方法は、入力される符号化音声信号を復号化して復号音声信号を得る第１のステップと、背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第２のステップと、上記第１のステップで得られる復号音声信号および上記第２のステップで得られる背景音信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む、複数のデータからなる出力音声信号を生成する第３のステップとを備え、上記第３のステップでは、上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第４のステップと、上記第４のステップで選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出する第５のステップと、上記所定時間を段階的に定めるパラメータの値が入力される第６のステップと、上記第５のステップで検出されたクラスおよび上記第６のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第７のステップと、上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第８のステップと、上記第７のステップで発生された係数データおよび上記第８のステップで選択された複数の第２のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第９のステップとを有するものである。
【００２７】
また、この発明に係るプログラムは、上述の音声信号処理方法をコンピュータに実行させるためのものである。また、この発明に係るコンピュータ読み取り可能な媒体は、上述のプログラムを記録したものである。
【００２８】
この発明において、入力される符号化音声信号が復号化されて復号音声信号が得られる。また、背景音がマイクロホン等によって集音され、この集音された背景音に対応した複数のデータからなる背景音信号が得られる。そして、これら復号音声信号および背景音信号に基づいて、所定時間だけの後の背景音を相殺するための予測背景音信号を含む出力音声信号が生成される。
【００２９】
例えば、復号音声信号および背景音信号からクラス分類適応処理によって出力音声信号が生成される。この場合、出力音声信号に含まれる所定時間だけ後の背景音を相殺するための予測背景音信号によって出力される音声（相殺音）を、出力音声信号に含まれる復号音声信号による音声が人の聴覚システムに到達する際に同時に到達する背景音に対応したものとすることができる。
【００３０】
ここで、パラメータの値を調整して任意の進み量に対応した相殺音の出力を可能とすることで、集音部で背景音を集音した時点と当該集音された背景音に基づいた相殺音が人の聴覚システムに到達する時点との間の時間差にバラツキがあっても対処できる。
【００３１】
このように出力音声信号には復号音声信号の他に相殺音を出力するための予測背景音信号が含まれている。したがって、復号音声信号による音声が人の聴覚システムに到達する際に、その予測背景音信号による相殺音によって背景音を効果的に除去でき、音声品質の向上を図ることができる。また、復号音声信号および背景音信号に基づいて、例えばクラス分類適応処理によって出力音声信号を生成することで、復号音声信号の符号化雑音（符号化歪み）を良好に軽減でき、音声品質の向上を図ることができる。
【００３２】
なお、符号化がＣＥＬＰ方式のものであるとき、復号音声信号および背景音信号の他に、音声復号化手段からの符号語および中間復号データにも基づいて出力音声信号を生成することで、出力音声信号をより精度よく生成できる。
【００４１】
この発明に係る音声信号処理装置は、第１の符号化音声信号が入力される信号入力手段と、背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を出力する集音部と、上記集音部からの背景音信号を符号化して第２の符号化音声信号を得る音声符号化手段と、上記信号入力手段に入力される第１の符号化音声信号および上記音声符号化手段からの第２の符号化音声信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数のデータからなる出力音声信号を生成する音声信号出力手段とを備え、上記音声信号出力手段は、上記第１の符号化音声信号および上記第２の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第１のデータ選択手段と、上記第１のデータ選択手段で選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出するクラス検出手段と、上記所定時間を段階的に定めるパラメータの値が入力されるパラメータ入力手段と、上記クラス検出手段で検出されたクラスおよび上記パラメータ入力手段に入力されたパラメータの値に対応した、推定式の係数データを発生する係数データ発生手段と、上記第１の符号化音声信号および上記第２の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第２のデータ選択手段と、上記係数データ発生手段で発生された係数データおよび上記第２のデータ選択手段で選択された複数の第２のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める演算手段とを有するものである。
【００４２】
また、この発明に係る音声信号処理方法は、第１の符号化音声信号を取得する第１のステップと、背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第２のステップと、上記第２のステップで得られる背景音信号を符号化して第２の符号化音声信号を得る第３のステップと、上記第１のステップで取得される第１の符号化音声信号および上記第３のステップで得られる第２の符号化音声信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数のデータからなる出力音声信号を生成する第４のステップとを備え、上記第４のステップでは、上記第１の符号化音声信号および上記第２の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第５のステップと、上記第５のステップで選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出する第６のステップと、上記所定時間を段階的に定めるパラメータの値が入力される第７のステップと、上記第６のステップで検出されたクラスおよび上記第７のステップで入力されたパラメータの値に対応した、推定式の係数データを発生する第８のステップと、上記第１の符号化音声信号および上記第２の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第９のステップと、上記第８のステップで発生された係数データおよび上記第９のステップで選択された複数の第２のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第１０のステップとを有するものである。
【００４３】
また、この発明に係るプログラムは、上述の音声信号処理方法をコンピュータに実行させるためのものである。また、この発明に係るコンピュータ読み取り可能な媒体は、上述のプログラムを記録したものである。
【００４４】
この発明において、第１の符号化音声信号が入力される。また、背景音がマイクロホン等によって集音され、この集音された背景音に対応した複数のデータからなる背景音信号が得られ、この背景音信号が符号化されて第２の符号化音声信号が得られる。そして、これら第１および第２の符号化音声信号に基づいて、所定時間だけの後の背景音を相殺するための予測背景音信号を含む出力音声信号が生成される。
【００４５】
例えば、第１および第２の符号化音声信号からクラス分類適応処理によって出力音声信号が生成される。この場合、出力音声信号に含まれる所定時間だけ後の背景音を相殺するための予測背景音信号によって出力される音声（相殺音）を、出力音声信号に含まれる復号音声信号による音声が人の聴覚システムに到達する際に同時に到達する背景音に対応したものとすることができる。
【００４６】
ここで、パラメータの値を調整して任意の進み量に対応した相殺音の出力を可能とすることで、集音部で背景音を集音した時点と当該集音された背景音に基づいた相殺音が人の聴覚システムに到達する時点との間の時間差にバラツキがあっても対処できる。
【００４７】
このように出力音声信号には復号音声信号の他に相殺音を出力するための予測背景音信号が含まれている。したがって、復号音声信号による音声が人の聴覚システムに到達する際に、その予測背景音信号による相殺音によって背景音を効果的に除去でき、音声品質の向上を図ることができる。また、第１および第２の符号化音声信号に基づいて、例えばクラス分類適応処理によって出力音声信号を生成することで、復号音声信号の符号化雑音（符号化歪み）を良好に軽減でき、音声品質の向上を図ることができる。
【００４８】
なお、符号化がＣＥＬＰ方式のものであるとき、第１および第２の符号化音声信号の他に、これらの符号化音声信号に関する中間復号データにも基づいて出力音声信号を生成することで、出力音声信号をより精度よく生成できる。
【００５７】
【発明の実施の形態】
以下、図面を参照しながら、この発明の実施の形態について説明する。まず、この発明の第１の実施の形態について説明する。図１は、第１の実施の形態としての音声信号処理装置１００Ａの構成を示している。
【００５８】
この音声信号処理装置１００Ａは、例えばＣＥＬＰ方式等で符号化された符号化音声信号ＳＡｃが入力される入力端子１０１と、この入力端子１０１に入力された符号化音声信号ＳＡｃの復号化を行って複数のデータからなる復号音声信号ＳＡｄを得る音声復号化器１０２を有している。
【００５９】
また、音声信号処理装置１００Ａは、集音部としてのマイクロホン１０３を有している。このマイクロホン１０３は、背景音を集音し、この集音された背景音に対応した複数のデータからなる第１の音声信号（背景音信号）Ｓ_BG(T-α)を出力する。
【００６０】
このマイクロホン１０３は、本実施の形態が携帯電話機に適用される場合には、例えば送話器としてのマイクロホンとは別に、受話器であるスピーカの近傍に設置される。なお、送話器としてのマイクロホンを、このマイクロホン１０３として使用する構成とすることもできる。その場合、このマイクロホンは、通常は話者音声を集音するが、受信時には背景音を集音する。このようなマイクロホン１０３の設置に関することは、後述するその他の実施の形態においても同様である。
【００６１】
また、音声信号処理装置１００Ａは、背景音信号予測回路１０４を有している。この背景音信号予測回路１０４は、マイクロホン１０３より出力される第１の音声信号Ｓ_BG(T-α)に基づいて、所定時間αだけ後の背景音に対応した複数のデータからなる第２の音声信号（予測背景音信号）Ｓ_-BG(T)を生成する。
【００６２】
また、音声信号処理装置１００Ａは、音声復号化器１０２より出力される復号音声信号ＳＡｄに背景音信号予測回路１０４より出力される第２の音声信号Ｓ_-BG(T)を加算して出力音声信号ＳＡｏを得る加算器１０５と、この加算器１０５から出力される出力音声信号ＳＡｏを出力する出力端子１０６とを有している。
【００６３】
図１に示す音声信号処理装置１００Ａの動作を説明する。
【００６４】
入力端子１０１に入力された符号化音声信号ＳＡｃは音声復号化器１０２に供給される。この音声復号化器１０２では、符号化音声信号ＳＡｃが復号化されてて復号音声信号ＳＡｄが得られる。
【００６５】
また、マイクロホン１０３では背景音が集音される。そして、このマイクロホン１０３からは、この集音された背景音に対応した複数のデータからなる第１の音声信号（背景音信号）Ｓ_BG(T-α)が出力され、この第１の音声信号Ｓ_BG(T-α)は背景音信号予測回路１０４に供給される。背景音信号予測回路１０４では、この第１の音声信号Ｓ_BG(T-α)に基づいて、所定時間αだけ後の背景音に対応した複数のデータからなる第２の音声信号Ｓ_-BG(T)が生成される。
【００６６】
上述の音声復号化器１０２から出力される復号音声信号ＳＡｄは加算器１０５に供給される。また、上述の背景音信号予測回路１０４から出力される第２の音声信号（予測背景音信号）Ｓ_-BG(T)は加算器１０５に供給される。そして、加算器１０５では、復号音声信号ＳＡｄに第２の音声信号（予測背景音信号）Ｓ_-BG(T)が加算され、出力音声信号ＳＡｏが得られる。この出力音声信号ＳＡｏは出力端子１０６に出力される。
【００６７】
このように出力端子１０６に出力される出力音声信号ＳＡｏを図示しないスピーカに供給したとする。この出力音声信号ＳＡｏに含まれる復号音声信号ＳＡｄに対応してスピーカから出力される音声が人の聴覚システムに到達するとき、同時にこの出力音声信号ＳＡｏに含まれる第２の音声信号Ｓ_-BG(T)に対応してスピーカから出力される音声（相殺音）も人の聴覚システムに到達する。
【００６８】
上述したように第２の音声信号Ｓ_-BG(T)はマイクロホン１０３で背景音を集音した時点から所定時間αだけ後の背景音に対応したものである。したがって、マイクロホン１０３で背景音を集音した時点と当該集音された背景音に基づいた相殺音が人の聴覚システムに到達する時点との間の時間差がαであるとすれば、人の聴覚システム部分で、この相殺音によって背景音を相殺して効果的に除去できる。これにより、人の聴覚システム部分で、復号音声信号による音声の品質の向上を図ることができる。つまり、復号音声信号による音声を背景音に影響されずに鮮明に聴き取ることが可能となる。
【００６９】
図２は、背景音の相殺動作を示している。
【００７０】
時点Ｔ−αにおける環境音がマイクロホン１０３に入力され、このマイクロホン１０３の出力信号である第１の音声信号（背景音信号）Ｓ_BG(T-α)は背景音信号予測回路１０４に供給される。背景音信号予測回路１０４では、入力された時点Ｔ−αにおける第１の音声信号Ｓ_BG(T-α)から、それより未来の時点Ｔにおける音声信号Ｓ_BG(T)の位相が反転された第２の音声信号（予測背景音信号）Ｓ_-BG(T)が生成される。そして、この第２の音声信号Ｓ_-BG(T)がスピーカＳＰに供給される。
【００７１】
これにより、時点Ｔにおける背景音が人の聴覚システムであるユーザの耳４０Ｅに達するとき、時点Ｔにおける背景音に対応した相殺音がスピーカＳＰからユーザの耳４０Ｅに達する。そのため、ユーザの耳４０Ｅの位置では、背景音が相殺されて除去される。
【００７２】
次に、背景音信号予測回路１０４の詳細を説明する。
図３は、背景音信号予測回路１０４の構成を示している。この背景音信号予測回路１０４は、マイクロホン１０３より出力される第１の音声信号（背景音信号）Ｓ_BG(T-α)を入力する入力端子４０と、この入力端子４０に入力された第１の音声信号Ｓ_BG(T-α)をアナログ信号からデジタル信号に変換するＡ／Ｄコンバータ４１を有している。
【００７３】
また、背景音信号予測回路１０４は、このＡ／Ｄコンバータ４１でデジタル信号に変換された第１の音声信号Ｓ_BG(T-α)に基づいて、作成すべき第２の音声信号（予測背景音信号）Ｓ_-BG(T)における注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路４２およびクラスタップ選択回路４３を有している。予測タップ選択回路４２は、予測に使用するデータ（予測タップのデータ）を選択的に取り出すものである。クラスタップ選択回路４３は、クラス分類に使用するデータ（クラスタップのデータ）を選択的に取り出すものである。
【００７４】
ここで、注目位置の周辺に位置するデータとは、注目位置に対して時間方向の前後所定範囲内に存在するデータを意味している。例えば、第１の音声信号Ｓ_BG(T-α)を構成する各データと第２の音声信号Ｓ_-BG(T)を構成する各データとを、図４に示すように並べて表すものとする。ここで、「○」は第１の音声信号Ｓ_BG(T-α)を構成する各データを示しており、「×」は第２の音声信号Ｓ_-BG(T)を構成する各データを示している。この場合、第１の音声信号Ｓ_BG(T-α)のある時点のデータと並ぶ第２の音声信号Ｓ_-BG(T)のデータは、αだけ未来の時点のデータということになる。
【００７５】
例えば、第２の音声信号Ｓ_-BG(T)における注目位置がＡＰであるとき、予測タップ選択回路４２およびクラスタップ選択回路４３では、第１の音声信号Ｓ_BG(T-α)を構成する各データのうち、破線で囲むように、注目位置ＡＰに対して時間方向の前後所定範囲内に存在するデータが選択的に取り出される。
【００７６】
なお、予測タップ選択回路４２で取り出される予測タップのデータの個数と、クラスタップ選択回路４３で取り出されるクラスタップのデータの個数とは、同じでなくてもよい。
【００７７】
また、背景音信号予測回路１０４は、クラスタップ選択回路４３で選択的に取り出されるデータから例えばレベル分布パターンを特徴量として検出し、このレベル分布パターンに基づいてクラスコードＣＬを発生するクラス検出回路４４を有している。
【００７８】
このクラス検出回路４４では、例えば、まず８ビットの各データを２ビットに圧縮するような演算が行われる。ここでは、ＡＤＲＣ(Adaptive Dynamic Range Coding)によってデータ圧縮が行われる、この場合、各データの最大値をＭＡＸ、最小値をＭＩＮ、ダイナミックレンジをＤＲ（＝ＭＡＸ−ＭＩＮ＋１）、再量子化ビット数をＰとすると、各データｋｉに対して、（１）式の演算により、圧縮データとしての再量子化コードｑｉが得られる。ただし、（１）式において、[ ]は切り捨て処理を意味している。クラスタップ選択回路４３で選択されたデータの個数がＮａであるとき、ｉ＝１〜Ｎａである。
ｑｉ＝［（ｋｉ−ＭＩＮ＋０．５）＊２^P／ＤＲ］・・・（１）
【００７９】
クラス検出回路４４では、次に、上述したように得られる再量子化コードｑｉに基づき、（２）式によって、作成すべき第２の音声信号Ｓ_-BG(T)における注目位置のデータが属するクラスを示すクラスコードＣＬを求める。
【００８０】
【数１】

【００８１】
また、背景音信号予測回路１０４は、係数メモリ４５を有している。この係数メモリ４５は、後述する推定予測演算回路４８で使用される推定式の係数データを、クラス毎に、格納するものである。この係数データは、第１の音声信号Ｓ_BG(T-α)を第２の音声信号Ｓ_-BG(T)に変換するための情報である。係数メモリ４５には、上述したクラス検出回路４４より出力されるクラスコードＣＬが読み出しアドレス情報として供給される。この係数メモリ４５からはクラスコードＣＬに対応した係数データＷｉが読み出され、推定予測演算回路４８に供給される。
【００８２】
また、背景音信号予測回路１０４は、情報メモリバンク４６を有している。後述する推定予測演算回路４８では、予測タップのデータｘｉと、係数メモリ４５より読み出される係数データＷｉとから、（３）式の推定式によって、作成すべき第２の音声信号Ｓ_-BG(T)の注目位置のデータｙが演算される。（３）式のｎは、予測タップ選択回路４２で選択される予測タップの数を表している。
【００８３】
【数２】

【００８４】
推定式の係数データＷｉ（ｉ＝１〜ｎ）は、例えば（４）式に示すように、パラメータｈを含む生成式によって生成される。情報メモリバンク４６には、この生成式における係数データである係数種データｗ_i0〜ｗ_i3が、クラス毎に、格納されている。この係数種データｗ_i0〜ｗ_i3は、予測背景音信号Ｓ_-BG(T)に対応した教師信号ＳＴと背景音信号Ｓ_BG(T-α)に対応した複数の生徒信号ＳＳとの間の学習によって予め生成されたものである。この係数種データの生成方法については後述する。
【００８５】
【数３】

【００８６】
また、背景音信号予測回路１０４は、各クラスの係数種データおよび時間αを定めるパラメータｈの値とを用い、（４）式によって、クラス毎に、パラメータｈの値に対応した推定式の係数データＷｉ（ｉ＝１〜ｎ）を生成する係数生成回路４７を有している。この係数生成回路４７には、情報メモリバンク４６より、上述した各クラスの係数種データがロードされる。また、この係数生成回路４７には、図示しないシステムコントローラからパラメータｈの値が入力される。
【００８７】
この係数生成回路４７で生成される各クラスの係数データＷｉ（ｉ＝１〜ｎ）は、上述した係数メモリ４５に格納される。この係数生成回路４７における各クラスの係数データＷｉの生成は、パラメータｈの値が変更される都度行われる。
【００８８】
また、背景音信号予測回路１０４は、予測タップ選択回路４２で選択的に取り出される予測タップのデータｘｉと、係数メモリ４５よりクラスコードＣＬに基づいて読み出される係数データＷｉとから、（３）式の推定式によって、作成すべき第２の音声信号Ｓ_-BG(T)における注目位置のデータｙを演算する推定予測演算回路４８を有している。
【００８９】
また、背景音信号予測回路１０４は、推定予測演算回路４８より順次出力されるデータｙからなる第２の音声信号（予測背景音信号）Ｓ_-BG(T)を出力する出力端子４９とを有している。
【００９０】
次に、背景音信号予測回路１０４の動作を説明する。
入力端子４１に入力され、Ａ／Ｄコンバータ４１でデジタル信号に変換された第１の音声信号（背景音信号）Ｓ_BG(T-α)より、クラスタップ選択回路４３で、作成すべき第２の音声信号（予測背景音信号）Ｓ_-BG(T)における注目位置の周辺に位置するクラスタップのデータが選択的に取り出される。このクラスタップ選択回路４３で選択的に取り出されるクラスタップのデータはクラス検出回路４４に供給される。クラス検出回路４４では、クラスタップのデータからレベル分布パターンが特徴量として検出され、このレベル分布パターンに基づいて、上述の注目位置のデータが属するクラスを示すクラスコードＣＬが得られる（（２）式参照）。
【００９１】
このクラスコードＣＬは、係数メモリ４５に読み出しアドレス情報として供給される。係数メモリ４５には、係数生成回路４７で、パラメータｈの値に対応して、クラス毎に、係数種データｗ_i0〜ｗ_i3を用いて推定式の係数データＷｉ（ｉ＝１〜ｎ）が求められて格納されている（（４）式参照）。係数メモリ４５に上述したようにクラスコードＣＬが読み出しアドレス情報として供給されることで、この係数メモリ４５からクラスコードＣＬに対応した推定式の係数データＷｉが読み出されて推定予測演算回路４８に供給される。
【００９２】
また、Ａ／Ｄコンバータ４１からの第１の音声信号（背景音信号）Ｓ_BG(T-α)より、予測タップ選択回路４２で、作成すべき第２の音声信号（予測背景音信号）Ｓ_-BG(T)における注目位置の周辺に位置する予測タップのデータが選択的に取り出される。推定予測演算回路４８では、予測タップのデータｘｉと、係数メモリ４５より読み出される係数データＷｉとを用いて、（３）式の推定式に基づいて、第２の音声信号Ｓ_-BG(T)における注目位置のデータｙが演算される。そして、推定予測演算回路４８で順次演算されるデータｙからなる第２の音声信号（予測背景音信号）Ｓ_-BG(T)は出力端子４９に出力される。
【００９３】
このように、背景音信号予測回路１０４では、パラメータｈの値に対応した推定式の係数データＷｉ（ｉ＝１〜ｎ）が使用されて、第２の音声信号Ｓ_-BG(T)における注目位置のデータｙが演算される。したがって、パラメータｈの値を調整することで、マイクロホン１０３で集音される背景音に対する相殺音で相殺すべき背景音の進み時間をαとして、この進み時間αに対応した相殺音の放音を行い得る第２の音声信号（予測背景音信号）Ｓ_-BG(T)を得ることができる。また、パラメータｈの値に対応した各クラスの係数データＷｉを係数生成回路４７で生成して使用するものであり、大量の係数データを格納しておくメモリは必要なくなり、メモリの節約を図ることができる。
【００９４】
次に、係数種データの生成方法の一例について説明する。ここでは、上述した（４）式の生成式における係数データである係数種データｗ_i0〜ｗ_i3（ｉ＝１〜ｎ）を求める例を示すものとする。ここで、以下の説明のため、（５）式のように、ｔｊ（ｊ＝０〜３）を定義する。
ｔ₀＝１，ｔ₁＝ｈ，ｔ₂＝ｈ²，ｔ₃＝ｈ³ ・・・（５）
この（５）式を用いると、（４）式は、（６）式のように書き換えられる。
【００９５】
【数４】

【００９６】
最終的に、学習によって未定係数ｗ_ijを求める。すなわち、クラス毎に、複数の第１の音声信号（背景音信号）Ｓ_BG(T-α)に対応した生徒信号のデータおよび第２の音声信号（予測背景音信号）Ｓ_-BG(T)に対応した教師信号のデータを用いて、二乗誤差を最小にする係数値を決定する。いわゆる最小二乗法による解法である。学習数をｍ、ｋ（１≦ｋ≦ｍ）番目の学習データにおける残差をｅ_k、二乗誤差の総和をＥとすると、（３）式および（４）式を用いて、Ｅは（７）式で表される。ここで、ｘ_ikは生徒信号のｉ番目の予測タップ位置におけるｋ番目のデータ、ｙ_kはそれに対応するｋ番目の教師信号のデータを表している。
【００９７】
【数５】

【００９８】
最小二乗法による解法では、（７）式のｗ_ijによる偏微分が０になるようなｗ_ijを求める。これは、（８）式で示される。
【００９９】
【数６】

【０１００】
以下、（９）式、（１０）式のように、Ｘ_ipjq、Ｙ_ipを定義すると、（８）式は、（１１）式のように行列を用いて書き換えられる。
【０１０１】
【数７】

【０１０２】
【数８】

【０１０３】
この方程式は一般に正規方程式と呼ばれている。この正規方程式は、掃き出し法（Gauss-Jordanの消去法）等を用いて、ｗ_ijについて解かれ、係数種データが算出される。
【０１０４】
図５は、上述した係数種データの生成方法の一例の概念を示している。第２の音声信号（予測背景音信号）Ｓ_-BG(T)に対応した教師信号から、第１の音声信号（背景音信号）Ｓ_BG(T-α)に対応した複数の生徒信号を生成する。例えば、遅延時間αを変化させるパラメータｈを９段階に可変し、９種類の生徒信号を生成する。教師信号とこのようにして生成された複数の生徒信号との間で学習を行って係数種データを生成する。
【０１０５】
図６は、上述した背景音信号予測回路１０４の情報メモリバンク４６に格納される係数種データｗ_i0〜ｗ_i3を生成する係数種データ生成装置１５０Ａの構成を示している。
【０１０６】
この係数種データ生成装置１５０Ａは、第２の音声信号（予測背景音信号）Ｓ_-BG(T)に対応した教師信号ＳＴ（デジタル信号）が入力される入力端子１５１と、この教師信号ＳＴに対して遅延および反転処理を行って第１の音声信号（背景音信号）Ｓ_BG(T-α)に対応した生徒信号ＳＳを得る遅延反転回路１５２とを有している。この遅延反転回路１５２には、上述した背景音信号予測回路１０４（図３参照）におけるパラメータｈの値と対応した、パラメータｈの値が入力される。遅延反転回路１５２では、このパラメータｈの値に基づいて、遅延時間αが可変される。
【０１０７】
また、係数種データ生成装置１５０Ａは、遅延反転回路１５２より出力される生徒信号ＳＳより、教師信号ＳＴにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路１５３およびクラスタップ選択回路１５４を有している。これらタップ選択回路１５３，１５４は、それぞれ上述した背景音信号予測回路１０４のタップ選択回路４２，４３と同様に構成される。
【０１０８】
また、係数種データ生成装置１５０Ａは、クラスタップ選択回路１５４で選択的に取り出されるクラスタップのデータからレベル分布パターンを特徴量として検出し、このレベル分布パターンに基づいて、教師信号ＳＴにおける注目位置のデータが属するクラスを示すクラスコードＣＬを発生するクラス検出回路１５５を有している。このクラス検出回路１５５は、上述した背景音信号予測回路１０４のクラス検出回路４４と同様に構成される。
【０１０９】
また、係数種データ生成装置１５０Ａは、入力端子１５１に供給される教師信号ＳＴから得られる注目位置の各データｙと、この各データｙにそれぞれ対応して予測タップ選択回路１５３で選択的に取り出される予測タップのデータｘｉと、パラメータｈの値と、各データｙにそれぞれ対応してクラス検出回路１５５で発生されるクラスコードＣＬとを用いて、クラス毎に、係数種データｗ_i0〜ｗ_i3を得るための正規方程式（（１１）式参照）を生成する正規方程式生成部１５６を有している。
【０１１０】
この場合、１個のデータｙとそれに対応するｎ個の予測タップのデータｘｉ（ｉ＝１〜ｎ）との組み合わせで１個の学習データが生成されるが、パラメータｈの値の変化に対応して遅延反転回路１５２における遅延時間αが可変され、複数の生徒信号ＳＳが順次生成されていき、教師信号ＳＴと各生徒信号ＳＳとの間でそれぞれ学習データの生成が行われる。これにより、正規方程式生成部１５６では、パラメータｈの値が異なる多くの学習データが登録された正規方程式が生成され、係数種データｗ_i0〜ｗ_i3を求めることが可能となる。
【０１１１】
また、係数種データ生成装置１５０Ａは、正規方程式生成部１５６で、クラス毎に生成された正規方程式のデータが供給され、当該正規方程式を解いて、クラス毎に、係数種データｗ_i0〜ｗ_i3を求める係数種データ決定部１５７と、この求められた係数種データｗ_i0〜ｗ_i3を格納する係数種メモリ１５８とを有している。係数種データ決定部１５７では、正規方程式が例えば掃き出し法などによって解かれて、係数種データが求められる。
【０１１２】
図６に示す係数種データ生成装置１５０Ａの動作を説明する。
入力端子１５１には第２の音声信号（予測背景音信号）Ｓ_-BG(T)に対応した教師信号ＳＴ（デジタル信号）が供給され、そしてこの教師信号ＳＴに対して遅延反転回路１５２で遅延反転の処理が行われて、第１の音声信号（背景音信号）Ｓ_BG(T-α)に対応した生徒信号ＳＳが生成される。この場合、遅延反転回路１５２には、背景音信号予測回路１０４（図３参照）におけるパラメータｈの値と対応したパラメータｈの値が入力される。遅延反転回路１５２では、このパラメータｈに基づいて、遅延時間αが可変される。
【０１１３】
また、遅延反転回路１５２で生成された生徒信号ＳＳより、クラスタップ選択回路１５４で、教師信号ＳＴにおける注目位置の周辺に位置するクラスタップのデータが選択的に取り出される。このクラスタップのデータはクラス検出回路１５５に供給される。このクラス検出回路１５５では、クラスタップのデータからレベル分布パターンが特徴量として検出され、このレベル分布パターンに基づいて、教師信号ＳＴにおける注目位置のデータが属するクラスを示すクラスコードＣＬが発生される。
【０１１４】
また、遅延反転回路１５２で生成される生徒信号ＳＳより、予測タップ選択回路１５３で、教師信号ＳＴにおける注目位置の周辺に位置する予測タップのデータが選択的に取り出される。
【０１１５】
そして、入力端子１５１に供給される教師信号ＳＴから得られる注目位置の各データｙと、この各データｙにそれぞれ対応して予測タップ選択回路１５３で選択的に取り出される予測タップのデータｘｉと、パラメータｈの値と、各データｙにそれぞれ対応してクラス検出回路１５５で発生されるクラスコードＣＬとを用いて、正規方程式生成部１５６では、クラス毎に、係数種データｗ_i0〜ｗ_i3を得るための正規方程式（（１１）式参照）が生成される。
【０１１６】
そして、係数種データ決定部１５７で各正規方程式が解かれ、クラス毎の係数種データｗ_i0〜ｗ_i3が求められ、それらの係数種データｗ_i0〜ｗ_i3は係数種メモリ１５８に格納される。
【０１１７】
このように、図６に示す係数種データ生成装置１５０Ａにおいては、図３の背景音信号予測回路１０４の情報メモリバンク４６に格納される、クラス毎の、推定式（（３）式参照）で用いられる係数データＷｉを求めるための生成式（（４）式参照）における係数データである係数種データｗ_i0〜ｗ_i3を生成することができる。
【０１１８】
なお、この図６に示す係数種データ生成装置１５０Ａにおいては、正規方程式生成部１５６で、係数種データｗ_i0〜ｗ_i3を直接求めるための正規方程式を生成し、この正規方程式を解いて係数種データｗ_i0〜ｗ_i3を求めるものである。しかし、最初にパラメータｈの各値に対応した推定式の係数データＷｉを正規方程式を生成して求め、次にそのパラメータｈの各値に対応した係数データＷｉを用いて係数種データｗ_i0〜ｗ_i3を求める正規方程式を生成し、その正規方程式を解いて係数種データｗ_i0〜ｗ_i3を求めることもできる。
【０１１９】
また、図３に示す背景音信号予測回路１０４では、係数データＷｉ（ｉ＝１〜ｎ）を生成するために（４）式の生成式を使用したが、次数の異なった多項式や、他の関数で表現される式でも実現可能である。
【０１２０】
上述した図１に示す音声信号処理装置１００Ａにおける処理を、例えば図７に示すような音声信号処理装置３００によって、ソフトウェアで実現することも可能である。
【０１２１】
まず、図７に示す音声信号処理装置３００について説明する。この音声信号処理装置３００は、装置全体の動作を制御するＣＰＵ(Central Processing Unit)３０１と、このＣＰＵ３０１の動作プログラムや係数種データ等が格納されたＲＯＭ（read only memory）３０２と、ＣＰＵ３０１のワークエリアを構成するＲＡＭ（random access memory）３０３とを有している。これらＣＰＵ３０１、ＲＯＭ３０２およびＲＡＭ３０３は、それぞれバス３０４に接続されている。
【０１２２】
また、音声信号処理装置３００は、ユーザインタフェース手段としてのキー操作部３０５を有している。ユーザは、このキー操作部３０５によりパラメータｈの値を設定できる。このキー操作部３０５はインタフェース３０６を介してバス３０４に接続されている。
【０１２３】
また、音声信号処理装置３００は、符号化音声信号ＳＡｃおよび背景音信号Ｓ_BG(T-α）を入力するための入力端子３０７と、出力音声信号ＳＡｏを出力するための出力端子３０９とを有している。入力端子３０７はインタフェース３０８を介してバス３０４に接続され、同様に出力端子３０９はインタフェース３１０を介してバス３０４に接続される。
【０１２４】
ここで、上述したようにＲＯＭ３０２に処理プログラムや係数種データ等を予め格納しておく代わりに、例えばインターネットなどの通信網からダウンロードし、図示しない不揮発性メモリ等に蓄積して使用する構成とすることもできる。
【０１２５】
図８のフローチャートを参照して、図７に示す音声信号処理装置３００において、符号化音声信号ＳＡｃおよび背景音信号Ｓ_BG(T-α）から、予測背景音信号Ｓ_-BG(T)を含む出力音声信号ＳＡｏを得るための、ＣＰＵ３０１の処理手順を説明する。この例は、デジタル携帯電話に適用した例である。
【０１２６】
まず、ステップＳＴ１で、通話開始に伴って処理を開始する。そして、ステップＳＴ２で、上述したようにユーザのキー操作部３０５の操作によって設定されたパラメータｈの値に対応した各クラスの係数データを生成し、ＲＡＭ３０３に格納しておく。この場合、例えばＲＯＭ３０２に格納されている各クラスの係数種データｗ_i0〜ｗ_i3を用いて、上述した（４）式の生成式によって求める。
【０１２７】
次に、ステップＳＴ３で、入力端子３０７に入力される符号化音声信号ＳＡｃおよび背景音信号Ｓ_BG(T-α）を取り込んでＲＡＭ３０３に蓄積する。そして、ステップＳＴ４で、符号化音声信号ＳＡｃを復号化して復号音声信号ＳＡｄを生成し、ＲＡＭ３０３に格納しておく。
【０１２８】
次に、ステップＳＴ５で、ステップＳＴ３で取り込まれた背景音信号Ｓ_BG(T-α)およびステップＳＴ２で生成された係数データを用いて、予測背景音信号Ｓ_-BG(T)における注目位置のデータを生成する。図９のフローチャートは、この注目位置のデータを生成するためのＣＰＵ３０１の処理手順（サブルーチン）を示している。
【０１２９】
まず、ステップＳＴ５１で、処理を開始する。そして、ステップＳＴ５２で、ＲＡＭ３０３に蓄積された背景音声信号Ｓ_BG(T-α）から、予測背景音信号Ｓ_-BG(T)における注目位置の周辺に位置する予測タップのデータおよびクラスタップのデータを取得する。
【０１３０】
次に、ステップＳＴ５３で、ステップＳＴ５２で取得されたクラスタップのデータから、予測背景音信号Ｓ_-BG(T)における注目位置のデータが属するクラスを示すクラスコードＣＬを生成する。そして、ステップＳＴ５４で、ステップＳＴ２で生成されてＲＡＭ３０３に格納されている各クラスの係数データのうち、そのクラスコードＣＬに対応した係数データＷｉと、ステップＳＴ５２で取得された予測タップのデータｘｉを使用して、（３）式の推定式により、予測背景音信号Ｓ_-BG(T)における注目位置のデータｙを生成し、その後にステップＳＴ５５でメインルーチンにリターンする。
【０１３１】
図８に戻って、ステップＳＴ５の処理の後、ステップＳＴ６で、ステップＳＴ４で生成された復号音声信号ＳＡｄのデータに、ステップＳＴ５で生成された予測背景音信号Ｓ_-BG(T)における注目位置のデータを加算して、出力音声信号ＳＡｏのデータを生成して出力端子３０９に出力する。
【０１３２】
次に、ステップＳＴ７で、通話が終了したか否かを判定する。通話が終了したときは、ステップＳＴ８で、音声信号の処理を終了する。一方、通話が終了していないときは、ステップＳＴ９に進む。
【０１３３】
ステップＳＴ９では、パラメータｈの変更があったか否かを判定する。パラメータｈの値の変更があったときは、ステップＳＴ２に戻って、変更されたパラメータｈの値に対応した各クラスの係数データを生成し、その後は上述したと同様の音声信号の処理を行う。一方、パラメータｈの値の変更がなかったときは、ステップＳＴ３に戻って、上述したと同様の音声信号の処理を行う。
また、処理装置の図示は省略するが、図６の係数種データ生成装置１５０Ａにおける処理を、ソフトウェアで実現することも可能である。
【０１３４】
図１０のフローチャートを参照して、係数種データを生成するためのＣＰＵにおける処理手順を説明する。
まず、ステップＳＴ２１で、処理を開始し、ステップＳＴ２２で、パラメータｈの値を選択する。そして、ステップＳＴ２３で、パラメータｈの全ての値についての学習処理が終了したか否かを判定する。全ての値についての学習処理が終了していないときは、ステップＳＴ２４に進む。
【０１３５】
ステップＳＴ２４では、所定時間分の教師信号ＳＴ（第２の音声信号（予測背景音信号Ｓ_-BG(T)）に対応）を入力する。そして、ステップＳＴ２５で、ステップＳＴ２４で入力された教師信号ＳＴに対して遅延反転処理を施して、第１の音声信号（背景音信号Ｓ_BG(T-α))に対応した生徒信号ＳＳを生成する。この場合、パラメータｈの値に基づいて遅延時間αを定める。
【０１３６】
次に、ステップＳＴ２６で、生徒信号ＳＳから、教師信号ＳＴにおける注目位置の周辺に位置する予測タップのデータおよびクラスタップのデータを取得する。そして、ステップＳＴ２７で、ステップＳＴ２６で取得されたクラスタップのデータから、教師信号ＳＴにおける注目位置のデータが属するクラスを示すクラスコードＣＬを生成する。
【０１３７】
次に、ステップＳＴ２８で、ステップＳＴ２７で生成されたクラスコードＣＬと、ステップＳＴ２２で選択されたパラメータｈの値と、ステップＳＴ２６で取得された予測タップのデータｘｉと、教師信号ＳＴにおける注目位置のデータｙとを用いて、（１１）式に示す正規方程式を得るための加算をする（（９）式、（１０）式参照）。
【０１３８】
次に、ステップＳＴ２９で、ステップＳＴ２４で入力された教師信号ＳＴに関する学習処理が終了したか否かを判定する。学習処理が終了していないときは、ステップＳＴ２６に戻って、教師信号ＳＴの次の注目位置についての学習処理を行う。一方、学習処理が終了したときは、ステップＳＴ３０に進む。
【０１３９】
ステップＳＴ３０では、全ての教師信号ＳＴに関する学習処理が終了したか否かを判定する。学習処理が終了していないときは、ステップＳＴ２４に戻って、次の所定時間分の教師信号ＳＴの入力を行って、上述したようにそれに関する学習処理を行う。一方、学習処理が終了したときは、ステップＳＴ２２に戻って、次のパラメータｈの値を選択し、上述したと同様の処理をする。
【０１４０】
また、ステップＳＴ２３で、パラメータｈの全ての値に対して学習処理が終了したときは、ステップＳＴ３１に進む。このステップＳＴ３１では、ステップ２８の加算処理によって生成された、クラス毎の正規方程式を掃き出し法等で解くことによって、各クラスの係数種データｗ_i0〜ｗ_i3を求め、ステップＳＴ３２で、その各クラスの係数種データｗ_i0〜ｗ_i3をメモリにストアする。その後に、ステップＳＴ３３で、係数種データの生成処理を終了する。
【０１４１】
このように、図１０に示すフローチャートに沿って処理をすることで、図６に示す係数種データ生成装置１５０Ａと同様の手法によって、係数種データを得ることができる。
【０１４２】
なお、図３の背景音信号予測回路１０４では、係数生成回路４７で各クラスの係数種データｗ_i0〜ｗ_i3を用いてパラメータｈの値に対応した各クラスの係数データＷｉを生成し、それを係数メモリ４５に格納して使用するものを示した。しかし、例えば情報メモリバンク４６にパラメータｈの各値に対応した各クラスの係数データＷｉを予め蓄積しておき、この情報メモリバンク４６からパラメータｈの値に対応した各クラスの係数データＷｉを読み出して係数メモリ４５に格納して使用する構成とすることもできる。
【０１４３】
また、図３の背景音信号予測回路１０４では、予測背景音信号Ｓ_-BG(T)における注目位置のデータｙを生成する際の推定式として、（３）式の線形一次方程式を使用したものを挙げたが、これに限定されるものではなく、例えば推定式として高次方程式を使用することも考えられる。
【０１４４】
また、図３の背景音信号予測回路１０４では、情報メモリバンク４６に各クラスの係数種データｗ_i0〜ｗ_i3を１種類だけ蓄積しておくものを示した。しかし、情報メモリバンク４６に背景音の種類、レベルなどに応じた複数種類の係数種データｗ_i0〜ｗ_i3を蓄積しておき、使用する係数種データｗ_i0〜ｗ_i3を切り換え可能としてもよい。これにより、背景音の種類、レベルなどに応じて、より適切な予測背景音信号Ｓ_-BG(T)を生成することができ、背景音の除去効果を高めることが可能となる。
【０１４５】
また、図１に示す音声信号処理装置１００Ａにおいては、加算器１０５で、音声復号化器１０２からの復号音声信号ＳＡｄに、背景音信号予測回路１０４で生成された予測背景音信号Ｓ_-BG(T)を加算して、出力音声信号ＳＡｏを得るものを示した。これは、背景音信号予測回路１０４で生成される予測背景音信号Ｓ_-BG(T)として、背景音信号Ｓ_BG(T-α)に対して反転されたものを得るようにしているからである。
【０１４６】
したがって、背景音信号予測回路１０４で背景音信号Ｓ_BG(T-α)に対して反転されていない予測背景音信号Ｓ_BG(T)を生成するとすれば、この予測背景音信号Ｓ_BG(T)を音声復号化器１０２からの復号音声信号ＳＡｄから差し引くことで、出力音声信号ＳＡｏを得ることができる。なお、この予測背景音信号Ｓ_BG(T)を生成する際に使用される係数種データｗ_i0〜ｗ_i3は、図６に示す係数種データ生成装置１５０において、遅延反転回路１５２を単なる遅延回路とすることで、生成することができる。
【０１４７】
次に、この発明の第２の実施の形態について説明する。図１１は、第２の実施の形態としての音声信号処理装置１００Ｂの構成を示している。この図１１において、図１と対応する部分には同一符号を付して示している。
【０１４８】
この音声信号処理装置１００Ｂは、例えばＣＥＬＰ方式等で符号化された符号化音声信号ＳＡｃが入力される入力端子１０１と、この入力端子１０１に入力された符号化音声信号ＳＡｃの復号化を行って複数のデータからなる復号音声信号ＳＡｄを得る音声復号化器１０２を有している。
【０１４９】
また、音声信号処理装置１００Ｂは、集音部としてのマイクロホン１０３を有している。このマイクロホン１０３は、背景音を集音し、この集音された背景音に対応した複数のデータからなる背景音信号Ｓ_BG(T-α)を出力する。
【０１５０】
また、音声信号処理装置１００Ｂは、音声復号化器１０２より得られる復号音声信号ＳＡｄに基づいて、作成すべき出力音声信号ＳＡｏにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路１０７およびクラスタップ選択回路１０８を有している。予測タップ選択回路１０７は、予測に使用するデータ（予測タップのデータ）を選択的に取り出すものである。クラスタップ選択回路１０８は、クラス分類に使用するデータ（クラスタップのデータ）を選択的に取り出すものである。
【０１５１】
また、音声信号処理装置１００Ｂは、マイクロホン１０３から出力される背景音信号Ｓ_BG(T-α)をアナログ信号からデジタル信号に変換するＡ／Ｄコンバータ１０９と、このＡ／Ｄコンバータ１０９でデジタル信号に変換された背景音信号Ｓ_BG(T-α)に基づいて、作成すべき出力音声信号ＳＡｏにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路１１１およびクラスタップ選択回路１１２を有している。
【０１５２】
ここで、注目位置の周辺に位置するデータとは、注目位置に対して時間方向の前後所定範囲内に存在するデータを意味している。例えば、復号音声信号ＳＡｄ、背景音信号Ｓ_BG(T-α)および出力音声信号ＳＡｏをそれぞれ構成する各データを、図１２に示すように並べて表すものとする。
【０１５３】
ここで、「○」は復号音声信号ＳＡｄを構成する各データを示しており、［△」は背景音信号Ｓ_BG(T-α)を構成する各データを示しており、さらに「×」は出力音声信号ＳＡｏを構成する各データを示している。この場合、背景音信号Ｓ_BG(T-α)のある時点のデータと並ぶ出力音声信号ＳＡｏのデータは、αだけ未来の時点の予測背景音信号Ｓ_-BG(T)のデータを含んだデータということになる。
【０１５４】
例えば、出力音声信号ＳＡｏにおける注目位置がＡＰであるとき、予測タップ選択回路１０７およびクラスタップ選択回路１０８では、復号音声信号ＳＡｄを構成する各データのうち、破線で囲むように、注目位置ＡＰに対して時間方向の前後所定範囲内に存在するデータが選択的に取り出される。また同様に、出力音声信号ＳＡｏにおける注目位置がＡＰであるとき、予測タップ選択回路１１１およびクラスタップ選択回路１１２では、背景音信号Ｓ_BG(T-α)を構成する各データのうち、破線で囲むように、注目位置ＡＰに対して時間方向の前後所定範囲内に存在するデータが選択的に取り出される。
【０１５５】
また、音声信号処理装置１００Ｂは、クラスタップ選択回路１０８，１１２で選択的に取り出されるデータから例えばレベル分布パターンを特徴量として検出し、このレベル分布パターンに基づいてクラスコードＣＬを発生するクラス検出回路１１３を有している。このクラス検出回路１１３は、例えば、図３の背景音信号予測回路１０４のクラス検出回路４４と同様に、ＡＤＲＣによってデータ圧縮を行ってクラスコードＣＬを生成する。
【０１５６】
また、音声信号処理装置１００Ｂは、係数メモリ１１４を有している。この係数メモリ１１４は、後述する推定予測演算回路１１７で使用される推定式の係数データを、クラス毎に、格納するものである。この係数データは、復号音声信号ＳＡｄおよび背景音信号Ｓ_BG(T-α)を出力音声信号ＳＡｏに変換するための情報である。ここで、出力音声信号ＳＡｏは、復号音声信号ＳＡｄに対応した復号音声信号ＳＡｄ′と背景音信号Ｓ_BG(T-α)に対応した予測背景音信号Ｓ_-BG(T)とを含んでいる。係数メモリ１１４には、上述したクラス検出回路１１３より出力されるクラスコードＣＬが読み出しアドレス情報として供給される。この係数メモリ１１４からはクラスコードＣＬに対応した係数データＷｉが読み出され、推定予測演算回路１１７に供給される。
【０１５７】
また、音声信号処理装置１００Ｂは、情報メモリバンク１１５を有している。後述する推定予測演算回路１１７では、予測タップのデータｘｉと、係数メモリ１１４より読み出される係数データＷｉとから、上述した（３）式の推定式によって、作成すべき出力音声信号ＳＡｏにおける注目位置のデータｙが演算される。
【０１５８】
ここで、推定式の係数データＷｉ（ｉ＝１〜ｎ）は、上述した（４）式に示すように、パラメータｈを含む生成式によって生成される。情報メモリバンク１１５には、この生成式における係数データである係数種データｗ_i0〜ｗ_i3が、クラス毎に、格納されている。この係数種データｗ_i0〜ｗ_i3は、復号音声信号ＳＡｄ′および予測背景音信号Ｓ_-BG(T)を含む出力音声信号ＳＡｏに対応した教師信号ＳＴと、復号音声信号ＳＡｄに対応した複数の第１の生徒信号ＳＳ１および背景音信号Ｓ_BG(T-α)に対応した複数の第２の生徒信号ＳＳ２との間の学習によって予め生成されたものである。この係数種データの生成方法については後述する。
【０１５９】
また、音声信号処理装置１００Ｂは、各クラスの係数種データおよび時間αを定めるパラメータｈの値とを用い、（４）式によって、クラス毎に、パラメータｈの値に対応した推定式の係数データＷｉ（ｉ＝１〜ｎ）を生成する係数生成回路１１６を有している。この係数生成回路１１６には、情報メモリバンク１１５より、上述した各クラスの係数種データがロードされる。また、この係数生成回路１１６には、図示しないシステムコントローラからパラメータｈの値が入力される。
【０１６０】
この係数生成回路１１６で生成される各クラスの係数データＷｉ（ｉ＝１〜ｎ）は、上述した係数メモリ１１４に格納される。この係数生成回路１１６における各クラスの係数データＷｉの生成は、パラメータｈの値が変更される都度行われる。
【０１６１】
また、音声信号処理装置１００Ｂは、予測タップ選択回路１０７，１１１で選択的に取り出される予測タップのデータｘｉと、係数メモリ１１４よりクラスコードＣＬに基づいて読み出される係数データＷｉとから、（３）式の推定式によって、作成すべき出力音声信号ＳＡｏにおける注目位置のデータｙを演算する推定予測演算回路１１７を有している。
【０１６２】
また、音声信号処理装置１００Ｂは、推定予測演算回路１１７より順次出力されるデータｙからなる出力音声信号ＳＡｏを出力する出力端子１０６とを有している。
【０１６３】
次に、音声信号処理装置１００Ｂの動作を説明する。
入力端子１０１に入力された符号化音声信号ＳＡｃは音声復号化器１０２に供給される。この音声復号化器１０２では、符号化音声信号ＳＡｃが復号化されてて復号音声信号ＳＡｄが得られる。また、マイクロホン１０３では背景音が集音される。そして、このマイクロホン１０３からは、この集音された背景音に対応した複数のデータからなる背景音信号Ｓ_BG(T-α)が出力され、この背景音信号Ｓ_BG(T-α)はＡ／Ｄコンバータ１０９に供給されてデジタル信号に変換される。
【０１６４】
音声復号化器１０２で得られる復号音声信号ＳＡｄに基づいて、クラスタップ選択回路１０８で、作成すべき出力音声信号ＳＡｏにおける注目位置の周辺に位置するクラスタップのデータが選択的に取り出され、またＡ／Ｄコンバータ１０９より出力される背景音信号Ｓ_BG(T-α)に基づいて、クラスタップ選択回路１１２で、作成すべき出力音声信号ＳＡｏにおける注目位置の周辺に位置するクラスタップのデータが選択的に取り出される。
【０１６５】
このクラスタップ選択回路１０８，１１２で選択的に取り出されるクラスタップのデータはクラス検出回路１１３に供給される。クラス検出回路１１３では、クラスタップのデータからレベル分布パターンが特徴量として検出され、このレベル分布パターンに基づいて、上述の注目位置のデータが属するクラスを示すクラスコードＣＬが得られる（（２）式参照）。
【０１６６】
このクラスコードＣＬは、係数メモリ１１４に読み出しアドレス情報として供給される。係数メモリ１１４には、係数生成回路１１６で、パラメータｈの値に対応して、クラス毎に、係数種データｗ_i0〜ｗ_i3を用いて推定式の係数データＷｉ（ｉ＝１〜ｎ）が求められて格納されている（（４）式参照）。係数メモリ１１４に上述したようにクラスコードＣＬが読み出しアドレス情報として供給されることで、この係数メモリ１１４からクラスコードＣＬに対応した推定式の係数データＷｉが読み出されて推定予測演算回路１１７に供給される。
【０１６７】
また、音声復号化器１０２で得られる復号音声信号ＳＡｄに基づいて、予測タップ選択回路１０７で、作成すべき出力音声信号ＳＡｏにおける注目位置の周辺に位置する予測タップのデータが選択的に取り出され、またＡ／Ｄコンバータ１０９より出力される背景音信号Ｓ_BG(T-α)に基づいて、予測タップ選択回路１１１で、作成すべき出力音声信号ＳＡｏにおける注目位置の周辺に位置する予測タップのデータが選択的に取り出される。
【０１６８】
推定予測演算回路１１７では、タップ選択回路１０７，１１１で取り出される予測タップのデータｘｉと、係数メモリ１１４より読み出される係数データＷｉとを用いて、（３）式の推定式に基づいて、出力音声信号ＳＡｏにおける注目位置のデータｙが演算される。そして、推定予測演算回路１１７で順次演算されるデータｙからなる出力音声信号ＳＡｏは出力端子１０６に出力される。
【０１６９】
上述したように、情報メモリバンク１１５に格納されている係数種データｗ_i0〜ｗ_i3は、復号音声信号ＳＡｄ′および予測背景音信号Ｓ_-BG(T)を含む出力音声信号ＳＡｏに対応した教師信号ＳＴと、復号音声信号ＳＡｄに対応した複数の第１の生徒信号ＳＳ１および背景音信号Ｓ_BG(T-α)に対応した複数の第２の生徒信号ＳＳ２との間の学習によって予め生成されたものである。
【０１７０】
したがって、出力端子１０６に出力される出力音声信号ＳＡｏは、復号音声信号ＳＡｄに対応した復号音声信号ＳＡｄ′と背景音信号Ｓ_BG(T-α)に対応した予測背景音信号Ｓ_-BG(T)とを含むものとなる。この出力音声信号ＳＡｏを図示しないスピーカに供給したとする。この出力音声信号ＳＡｏに含まれる復号音声信号ＳＡｄ′に対応してスピーカから出力される音声が人の聴覚システムに到達するとき、同時にこの出力音声信号ＳＡｏに含まれる予測背景音信号Ｓ_-BG(T)に対応してスピーカから出力される音声（相殺音）も人の聴覚システムに到達する。
【０１７１】
上述したように予測背景音信号Ｓ_-BG(T)はマイクロホン１０３で背景音を集音した時点から所定時間αだけ後の背景音に対応したものである。したがって、マイクロホン１０３で背景音を集音した時点と当該集音された背景音に基づいた相殺音が人の聴覚システムに到達する時点との間の時間差がαであるとすれば、人の聴覚システム部分で、この相殺音によって背景音を相殺して効果的に除去できる。これにより、人の聴覚システム部分で、復号音声信号ＳＡｄ′による音声の品質の向上を図ることができる。つまり、復号音声信号ＳＡｄ′による音声を背景音に影響されずに鮮明に聴き取ることが可能となる。
【０１７２】
また、パラメータｈの値に対応した推定式の係数データＷｉ（ｉ＝１〜ｎ）が使用されて、予測背景音信号Ｓ_-BG(T)を含む出力音声信号ＳＡｏにおける注目位置のデータｙが演算される。したがって、パラメータｈの値を調整することで、マイクロホン１０３で集音される背景音に対する相殺音で相殺すべき背景音の進み時間をαとして、この進み時間αに対応した相殺音の放音を行い得る予測背景音信号Ｓ_-BG(T)を得ることができる。
【０１７３】
また、パラメータｈの値に対応した各クラスの係数データＷｉを係数生成回路１１６で生成して使用するものであり、大量の係数データを格納しておくメモリは必要なくなり、メモリの節約を図ることができる。
【０１７４】
また、上述したように、情報メモリバンク１１５に格納されている係数種データｗ_i0〜ｗ_i3は、復号音声信号ＳＡｄ′および予測背景音信号Ｓ_-BG(T)を含む出力音声信号ＳＡｏに対応した教師信号ＳＴと、復号音声信号ＳＡｄに対応した複数の第１の生徒信号ＳＳ１および背景音信号Ｓ_BG(T-α)に対応した複数の第２の生徒信号ＳＳ２との間の学習によって予め生成されたものである。
【０１７５】
この場合、教師信号ＳＴのうち復号音声信号ＳＡｄ′に対応する第１の教師信号ＳＴ１として符号化雑音を含まない音声信号を用い、復号音声信号ＳＡｄに対応した複数の第１の生徒信号ＳＳ１としてこの復号音声信号ＳＡｄと同様の符号化雑音を含む音声信号を用いて学習を行って得られる係数種データｗ_i0〜ｗ_i3を用いることで、出力音声信号ＳＡｏに含まれる復号音声信号ＳＡｄ′として符号化雑音が大幅に軽減されたものを得ることができる。これにより、復号音声信号ＳＡｄ′による音声の品質の向上を図ることができる。
【０１７６】
次に、図１３を使用して、上述した音声信号処理装置１００Ｂの情報メモリバンク１１５に格納される係数種データｗ_i0〜ｗ_i3を生成する係数種データ生成装置１５０Ｂについて説明する。この図１３において、図６と対応する部分には同一符号を付して示している。
【０１７７】
この係数種データ生成装置１５０Ｂは、予測背景音信号Ｓ_-BG(T)に対応した第２の教師信号ＳＴ２が入力される入力端子１５１と、この教師信号ＳＴ２に対して遅延および反転処理を行って、背景音信号Ｓ_BG(T-α)に対応した第２の生徒信号ＳＳ２を得る遅延反転回路１５２とを有している。この遅延反転回路１５２には、上述した音声信号処理装置１００Ｂ（図１１参照）におけるパラメータｈの値と対応した、パラメータｈの値が入力される。遅延反転回路１５２では、このパラメータｈの値に基づいて、遅延時間αが可変される。
【０１７８】
また、係数種データ生成装置１５０Ｂは、復号音声信号ＳＡｄ′に対応した第１の教師信号ＳＴ１が入力される入力端子１６１と、この入力端子１６１に入力される教師信号ＳＴ１に対して符号化を行って符号化音声信号を得る音声符号化器１６２と、この音声符号化器１６２より得られる符号化音声信号に対して復号化を行って、復号音声信号ＳＡｄに対応した第１の生徒信号ＳＳ１を得る音声復号化器１６３とを有している。
【０１７９】
また、係数種データ生成装置１５０Ｂは、入力端子１６１に入力される教師信号ＳＴ１を、上述した音声符号化器１６２および音声復号化器１６３の処理時間に対応した時間だけ遅延させる時間調整用の遅延回路１６４と、この遅延回路１６４で遅延された第１の教師信号ＳＴ１と入力端子１５１に入力される第２の教師信号ＳＴ２とを加算して教師信号ＳＴを得る加算器１６５とを有している。
【０１８０】
また、係数種データ生成装置１５０Ｂは、音声復号化器１６３より得られる第１の生徒信号ＳＳ１に基づいて、教師信号ＳＴにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路１６６およびクラスタップ選択回路１６７を有している。これらタップ選択回路１６６，１６７は、それぞれ上述した音声信号処理装置１００Ｂのタップ選択回路１０７，１０８と同様に構成される。
【０１８１】
また、係数種データ生成装置１５０Ｂは、遅延反転回路１５２より得られる第２の生徒信号ＳＳ２に基づいて、教師信号ＳＴにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路１６８およびクラスタップ選択回路１６９を有している。これらタップ選択回路１６８，１６９は、それぞれ上述した音声信号処理装置１００Ｂのタップ選択回路１１１，１１２と同様に構成される。
【０１８２】
また、係数種データ生成装置１５０Ｂは、クラスタップ選択回路１６７，１６９で選択的に取り出されるクラスタップのデータからレベル分布パターンを特徴量として検出し、このレベル分布パターンに基づいて、教師信号ＳＴにおける注目位置のデータが属するクラスを示すクラスコードＣＬを発生するクラス検出回路１７０を有している。このクラス検出回路１７０は、上述した音声信号処理装置１００Ｂのクラス検出回路１１３と同様に構成される。
【０１８３】
また、係数種データ生成装置１５０Ｂは、加算器１６５より出力される教師信号ＳＴから得られる注目位置の各データｙと、この各データｙにそれぞれ対応して予測タップ選択回路１６６，１６８で選択的に取り出される予測タップのデータｘｉと、パラメータｈの値と、各データｙにそれぞれ対応してクラス検出回路１７０で発生されるクラスコードＣＬとを用いて、クラス毎に、係数種データｗ_i0〜ｗ_i3を得るための正規方程式（（１１）式参照）を生成する正規方程式生成部１７１を有している。
【０１８４】
この場合、１個のデータｙとそれに対応するｎ個の予測タップのデータｘｉ（ｉ＝１〜ｎ）との組み合わせで１個の学習データが生成されるが、パラメータｈの値の変化に対応して遅延反転回路１５２における遅延時間αが可変され、複数の第２の生徒信号ＳＳ２が順次生成されていき、教師信号ＳＴと各生徒信号ＳＳ１，ＳＳ２との間でそれぞれ学習データの生成が行われる。これにより、正規方程式生成部１７１では、パラメータｈの値が異なる多くの学習データが登録された正規方程式が生成され、係数種データｗ_i0〜ｗ_i3を求めることが可能となる。
【０１８５】
また、係数種データ生成装置１５０Ｂは、正規方程式生成部１７１で、クラス毎に生成された正規方程式のデータが供給され、当該正規方程式を解いて、クラス毎に、係数種データｗ_i0〜ｗ_i3を求める係数種データ決定部１５７と、この求められた係数種データｗ_i0〜ｗ_i3を格納する係数種メモリ１５８とを有している。
【０１８６】
図１３に示す係数種データ生成装置１５０Ｂの動作を説明する。
入力端子１５１には予測背景音信号Ｓ_-BG(T)に対応した第２の教師信号ＳＴ２が供給され、そしてこの第２の教師信号ＳＴ２に対して遅延反転回路１５２で遅延反転の処理が行われて、背景音信号Ｓ_BG(T-α)に対応した第２の生徒信号ＳＳ２が生成される。この場合、遅延反転回路１５２には、音声信号処理装置１００Ｂ（図１１参照）におけるパラメータｈの値と対応したパラメータｈの値が入力される。遅延反転回路１５２では、このパラメータｈに基づいて、遅延時間αが可変される。
【０１８７】
入力端子１６１には復号音声信号ＳＡｄ′に対応した第１の教師信号ＳＴ１が供給され、そして音声符号化器１６２で、この第１の教師信号ＳＴ１に対して符号化が施されて、符号化音声信号が得られる。この符号化音声信号は、音声復号化器１６３に供給される。音声復号化器１６３では、符号化音声信号に対して復号化が施されて、復号音声信号ＳＡｄに対応した第１の生徒信号ＳＳ１が生成される。ここで、第１の生徒信号ＳＳ１は符号化および復号化を経た音声信号であるので、符号化歪みを伴ったものとなる。
【０１８８】
入力端子１６１に入力される第１の教師信号ＳＴ１は遅延回路１６４で遅延された後に加算器１６５に供給される。この加算器１６５には入力端子１５１に入力される第２の教師信号ＳＴ２も供給される。そして、加算器１６５では、第１の教師信号ＳＴ１と第２の教師信号ＳＴ２とが加算されて、教師信号ＳＴが得られる。
【０１８９】
また、音声復号化器１６３、遅延反転回路１５２で得られる第１、第２の生徒信号ＳＳ１，ＳＳ２に基づいて、クラスタップ選択回路１６７，１６９で、教師信号ＳＴにおける注目位置の周辺に位置するクラスタップのデータが選択的に取り出される。このクラスタップのデータはクラス検出回路１７０に供給される。このクラス検出回路１７０では、クラスタップのデータからレベル分布パターンが特徴量として検出され、このレベル分布パターンに基づいて、教師信号ＳＴにおける注目位置のデータが属するクラスを示すクラスコードＣＬが発生される。
【０１９０】
また、音声復号化器１６３、遅延反転回路１５２で得られる第１、第２の生徒信号ＳＳ１，ＳＳ２に基づいて、予測タップ選択回路１６６，１６８で、教師信号ＳＴにおける注目位置の周辺に位置する予測タップのデータが選択的に取り出される。
【０１９１】
そして、加算器１６５で得られる教師信号ＳＴにおける注目位置の各データｙと、この各データｙにそれぞれ対応して予測タップ選択回路１６６，１６８で選択的に取り出される予測タップのデータｘｉと、パラメータｈの値と、各データｙにそれぞれ対応してクラス検出回路１７０で発生されるクラスコードＣＬとを用いて、正規方程式生成部１７１では、クラス毎に、係数種データｗ_i0〜ｗ_i3を得るための正規方程式（（１１）式参照）が生成される。
【０１９２】
そして、係数種データ決定部１５７で各正規方程式が解かれ、クラス毎の係数種データｗ_i0〜ｗ_i3が求められ、それらの係数種データｗ_i0〜ｗ_i3は係数種メモリ１５８に格納される。
【０１９３】
このように、図１３に示す係数種データ生成装置１５０Ｂにおいては、図１１の音声信号処理装置１００Ｂの情報メモリバンク１１５に格納される、クラス毎の、推定式（（３）式参照）で用いられる係数データＷｉを求めるための生成式（（４）式参照）における係数データである係数種データｗ_i0〜ｗ_i3を生成することができる。
【０１９４】
なお、この図１３に示す係数種データ生成装置１５０Ｂにおいては、正規方程式生成部１７１で、係数種データｗ_i0〜ｗ_i3を直接求めるための正規方程式を生成し、この正規方程式を解いて係数種データｗ_i0〜ｗ_i3を求めるものである。しかし、最初にパラメータｈの各値に対応した推定式の係数データＷｉを正規方程式を生成して求め、次にそのパラメータｈの各値に対応した係数データＷｉを用いて係数種データｗ_i0〜ｗ_i3を求める正規方程式を生成し、その正規方程式を解いて係数種データｗ_i0〜ｗ_i3を求めることもできる。
【０１９５】
また、図１１に示す音声信号処理装置１００Ｂでは、係数データＷｉ（ｉ＝１〜ｎ）を生成するために（４）式の生成式を使用したが、次数の異なった多項式や、他の関数で表現される式でも実現可能である。
【０１９６】
また、図１１に示す音声信号処理装置１００Ｂにおける処理を、例えば図７に示すような音声信号処理装置３００によって、ソフトウェアで実現することも可能である。
【０１９７】
図１４のフローチャートを参照して、図７に示す音声信号処理装置３００において、符号化音声信号ＳＡｃおよび背景音信号Ｓ_BG(T-α）から、予測背景音信号Ｓ_-BG(T)を含む出力音声信号ＳＡｏを得るための、ＣＰＵ３０１の処理手順を説明する。この例は、デジタル携帯電話に適用した例である。
【０１９８】
まず、ステップＳＴ１０１で、通話開始に伴って処理を開始する。そして、ステップＳＴ１０２で、ユーザのキー操作部３０５の操作によって設定されたパラメータｈの値に対応した各クラスの係数データを生成し、ＲＡＭ３０３に格納しておく。この場合、例えばＲＯＭ３０２に格納されている各クラスの係数種データｗ_i0〜ｗ_i3を用いて、上述した（４）式の生成式によって求める。
【０１９９】
次に、ステップＳＴ１０３で、入力端子３０７に入力される符号化音声信号ＳＡｃおよび背景音信号Ｓ_BG(T-α）を取り込んでＲＡＭ３０３に蓄積する。そして、ステップＳＴ１０４で、符号化音声信号ＳＡｃを復号化して復号音声信号ＳＡｄを生成し、ＲＡＭ３０３に格納しておく。
【０２００】
次に、ステップＳＴ１０５で、ステップＳＴ１０４で生成された復号音声信号ＳＡｄ、ステップＳＴ１０３で取り込まれた背景音信号Ｓ_BG(T-α)、およびステップＳＴ２で生成された係数データを用いて、出力音声信号ＳＡｏにおける注目位置のデータを生成して出力端子３０９に出力する。図１５のフローチャートは、この注目位置のデータを生成して出力するための処理手順（サブルーチン）を示している。
【０２０１】
まず、ステップＳＴ１５１で、処理を開始する。そして、ステップＳＴ１５２で、ＲＡＭ３０３に蓄積された復号音声信号ＳＡｄ、背景音声信号Ｓ_BG(T-α）から、出力音声信号ＳＡｏにおける注目位置の周辺に位置する予測タップのデータおよびクラスタップのデータを取得する。
【０２０２】
次に、ステップＳＴ１５３で、ステップＳＴ１５２で取得されたクラスタップのデータから、出力音声信号ＳＡｏにおける注目位置のデータが属するクラスを示すクラスコードＣＬを生成する。そして、ステップＳＴ１５４で、ステップＳＴ１０２で生成されてＲＡＭ３０３に格納されている各クラスの係数データのうち、そのクラスコードＣＬに対応した係数データＷｉと、ステップＳＴ１５２で取得された予測タップのデータｘｉを使用して、（３）式の推定式により、出力音声信号ＳＡｏにおける注目位置のデータｙを生成して出力端子３０９に出力し、その後にステップＳＴ１５５でメインルーチンにリターンする。
【０２０３】
図１４に戻って、ステップＳＴ１０５の処理の後、ステップＳＴ１０６で、通話が終了したか否かを判定する。通話が終了したときは、ステップＳＴ１０７で、音声信号の処理を終了する。一方、通話が終了していないときは、ステップＳＴ１０８に進む。
【０２０４】
ステップＳＴ１０８では、パラメータｈの変更があったか否かを判定する。パラメータｈの値の変更があったときは、ステップＳＴ１０２に戻って、変更されたパラメータｈの値に対応した各クラスの係数データを生成し、その後は上述したと同様の音声信号の処理を行う。一方、パラメータｈの値の変更がなかったときは、ステップＳＴ１０３に戻って、上述したと同様の音声信号の処理を行う。また、処理装置の図示は省略するが、図１３の係数種データ生成装置１５０Ｂにおける処理を、ソフトウェアで実現することも可能である。
【０２０５】
図１６のフローチャートを参照して、係数種データを生成するためのＣＰＵにおける処理手順を説明する。
まず、ステップＳＴ１２１で、処理を開始し、ステップＳＴ１２２で、パラメータｈの値を選択する。そして、ステップＳＴ１２３で、パラメータｈの全ての値についての学習処理が終了したか否かを判定する。全ての値についての学習処理が終了していないときは、ステップＳＴ１２４に進む。
【０２０６】
ステップＳＴ１２４では、所定時間分の第１の教師信号ＳＴ１（復号音声信号ＳＡｄ′に対応）および第２の教師信号ＳＴ２（予測背景音信号Ｓ_-BG(T)に対応）を入力する。そして、ステップＳＴ１２５で、ステップＳＴ１２４で入力された教師信号ＳＴ１，ＳＴ２を加算し、教師信号ＳＴを生成する。
【０２０７】
また、ステップＳＴ１２６で、ステップＳＴ１２４で入力された第１の教師信号ＳＴ１に対して符号化を施し、さらに得られた符号化音声信号に対して復号化を施して、復号音声信号ＳＡｄに対応した第１の生徒信号ＳＳ１を生成する。さらに、このステップＳＴ１２６で、第２の教師信号ＳＴ２に対して遅延反転処理を施して、背景音信号Ｓ_BG(T-α)に対応した生徒信号ＳＳを生成する。この場合、パラメータｈの値に基づいて遅延時間αを定める。
【０２０８】
次に、ステップＳＴ１２７で、生徒信号ＳＳ１，ＳＳ２から、教師信号ＳＴにおける注目位置の周辺に位置する予測タップのデータおよびクラスタップのデータを取得する。そして、ステップＳＴ１２８で、ステップＳＴ１２７で取得されたクラスタップのデータから、教師信号ＳＴにおける注目位置のデータが属するクラスを示すクラスコードＣＬを生成する。
【０２０９】
次に、ステップＳＴ１２９で、ステップＳＴ１２８で生成されたクラスコードＣＬと、ステップＳＴ１２２で選択されたパラメータｈの値と、ステップＳＴ１２６で取得された予測タップのデータｘｉと、教師信号ＳＴにおける注目位置のデータｙとを用いて、（１１）式に示す正規方程式を得るための加算をする（（９）式、（１０）式参照）。
【０２１０】
次に、ステップＳＴ１３０で、ステップＳＴ１２４で入力された教師信号ＳＴ１，ＳＴ２に関する学習処理が終了したか否かを判定する。学習処理が終了していないときは、ステップＳＴ１２７に戻って、教師信号ＳＴの次の注目位置についての学習処理を行う。一方、学習処理が終了したときは、ステップＳＴ１３１に進む。
【０２１１】
ステップＳＴ１３１では、全ての教師信号ＳＴに関する学習処理が終了したか否かを判定する。学習処理が終了していないときは、ステップＳＴ１２４に戻って、次の所定時間分の教師信号ＳＴ１，ＳＴ２の入力を行って、上述したようにそれに関する学習処理を行う。一方、学習処理が終了したときは、ステップＳＴ１２２に戻って、次のパラメータｈの値を選択し、上述したと同様の処理をする。
【０２１２】
また、ステップＳＴ１２３で、パラメータｈの全ての値に対して学習処理が終了したときは、ステップＳＴ１３２に進む。このステップＳＴ１３２では、ステップ１２９の加算処理によって生成された、クラス毎の正規方程式を掃き出し法等で解くことによって、各クラスの係数種データｗ_i0〜ｗ_i3を求め、ステップＳＴ１３３で、その各クラスの係数種データｗ_i0〜ｗ_i3をメモリにストアする。その後に、ステップＳＴ１３４で、係数種データの生成処理を終了する。
【０２１３】
このように、図１６に示すフローチャートに沿って処理をすることで、図１３に示す係数種データ生成装置１５０Ｂと同様の手法によって、係数種データを得ることができる。
【０２１４】
なお、図１１の音声信号処理装置１００Ｂでは、係数生成回路１１６で各クラスの係数種データｗ_i0〜ｗ_i3を用いてパラメータｈの値に対応した各クラスの係数データＷｉを生成し、それを係数メモリ１１４に格納して使用するものを示した。しかし、例えば情報メモリバンク１１５にパラメータｈの各値に対応した各クラスの係数データＷｉを予め蓄積しておき、この情報メモリバンク１１５からパラメータｈの値に対応した各クラスの係数データＷｉを読み出して係数メモリ１１４に格納して使用する構成とすることもできる。
【０２１５】
また、図１１の音声信号処理装置１００Ｂでは、出力音声信号ＳＡｏにおける注目位置のデータｙを生成する際の推定式として、（３）式の線形一次方程式を使用したものを挙げたが、これに限定されるものではなく、例えば推定式として高次方程式を使用することも考えられる。
【０２１６】
また、図１１の音声信号処理装置１００Ｂでは、情報メモリバンク１１５に各クラスの係数種データｗ_i0〜ｗ_i3を１種類だけ蓄積しておくものを示した。しかし、情報メモリバンク１１５に背景音の種類、レベルなどに応じた複数種類の係数種データｗ_i0〜ｗ_i3を蓄積しておき、使用する係数種データｗ_i0〜ｗ_i3を切り換え可能としてもよい。これにより、背景音の種類、レベルなどに応じて、より適切な予測背景音信号Ｓ_-BG(T)を含む出力音声信号ＳＡｏを生成することができ、背景音の除去効果を高めることが可能となる。
【０２１７】
次に、この発明の第３の実施の形態について説明する。図１７は、第３の実施の形態としての音声信号処理装置１００Ｃの構成を示している。この図１７において、図１１と対応する部分には同一符号を付し、その詳細説明は省略する。
【０２１８】
この音声信号処理装置１００Ｃは、入力端子１０１に、ＣＥＬＰ方式で符号化された符号化音声信号ＳＡｃが入力され、この符号化音声信号ＳＡｃの符号化を行って復号音声信号ＳＡｄを得る音声復号化器１２１を有している。
【０２１９】
この音声復号化器１２１を説明する前に、ＣＥＬＰ方式で符号化を行うための音声符号化器について説明する。図１８は、ＣＥＬＰ方式の音声符号化器４００の構成を示している。
【０２２０】
入力端子４０１に、例えば８ｋＨｚ等のサンプリング周波数でサンプリングしてデジタル信号に変換されて得られた音声信号ｓ[k]が入力される。この音声信号ｓ[k]は、演算器４０２とＬＰＣ(Liner Prediction Coefficient)分析部４０３に供給される。
【０２２１】
ＬＰＣ分析部４０３は、音声信号ｓ[k]を、例えば、１６０サンプル分の長さのフレームごとにＬＰＣ分析し、Ｐ次の線形予測係数α₁，α₂，・・・，α_Pを求める。そして、ＬＰＣ分析部４０３は、このＰ次の線形予測係数α_p（ｐ＝１，２，・・・，Ｐ）を要素とするベクトルを、音声の特徴ベクトルαとして、ベクトル量子化部４０４に供給する。
【０２２２】
ベクトル量子化部４０４は、線形予測係数を要素とするコードベクトルとコードとを対応付けたコードブックを記憶しており、そのコードブックに基づいて、ＬＰＣ分析部４０３からの特徴ベクトルαをベクトル量子化し、そのベクトル量子化により得られるコード（以下、適宜、Ａコード(A_code)という）を、コード決定部４１４に供給する。
【０２２３】
また、ベクトル量子化部４０４は、Ａコードに対応するコードベクトルα’を構成する要素となっている線形予測係数α₁’，α₂’，・・・，α_P’を、音声合成フィルタ４０５に供給する。
【０２２４】
音声合成フィルタ４０５は、例えば、ＩＩＲ(Infinite Impulse Response)型のディジタルフィルタで、ベクトル量子化部４０４からの線形予測係数α_p’（ｐ＝１，２，・・・，Ｐ）をＩＩＲフィルタのタップ係数とするとともに、演算器４１３から供給される残差信号ｅ[k]を入力信号として、音声合成を行う。
【０２２５】
すなわち、ＬＰＣ分析部４０３で行われるＬＰＣ分析は、現在時刻ｎの音声信号（のサンプル値）ｓ_n、およびこれに隣接する過去のＰ個のサンプル値ｓ_n-1，ｓ_n-2，・・・，ｓ_n-Pに、式

で示す線形１次結合が成立すると仮定する。そして、現在時刻ｎのサンプル値ｓ_nの予測値（線形予測値）ｓ_n’を、過去のＰ個の標本値ｓ_n-1，ｓ_n-2，・・・，ｓ_n-Pを用いて、式

によって線形予測したときに、実際のサンプル値ｓ_nと線形予測値ｓ_n’との間の自乗誤差を最小にする線形予測係数α_pを求めるものである。
【０２２６】
ここで、（１２）式において、｛e_n｝（・・・，e_n-1，e_n，e_n+1，・・・）は、平均値が０で、分散が所定値σ²の互いに無相関な確率変数である。
【０２２７】
（１２）式から、サンプル値ｓ_nは、式

で表すことができ、これを、Ｚ変換すると、次式が成立する。

ただし、（１５）式において、ＳとＥは、（１４）式におけるｓ_nとｅ_nのＺ変換を、それぞれ表す。
【０２２８】
ここで、（１２）式および（１３）式から、ｅ_nは、式

で表すことができ、実際のサンプル値ｓ_nと線形予測値ｓ_n’との間の残差信号と呼ばれる。
【０２２９】
したがって、（１５）式から、線形予測係数α_pをＩＩＲフィルタのタップ係数とするとともに、残差信号ｅ_nをＩＩＲフィルタの入力信号とすることにより、音声信号ｓ_nを求めることができる。
【０２３０】
そこで、音声合成フィルタ４０５は、上述したように、ベクトル量子化部４０４からの線形予測係数α_p’をタップ係数とするとともに、演算器４１３から供給される残差信号ｅ[k]を入力信号として、（１５）式を演算し、音声信号（合成音信号）ｓｓ[k]を求める。
【０２３１】
なお、音声合成フィルタ４０５では、ＬＰＣ分析部４０３によるＬＰＣ分析により得られる線形予測係数α_pではなく、そのベクトル量子化の結果得られるコードに対応するコードベクトルとしての線形予測係数α_p’が用いられる。そのため、音声合成フィルタ４０５が出力する合成音信号ｓｓ[k]は、入力端子４０１に入力される音声信号ｓ[k]とは、基本的に同一にはならない。
【０２３２】
音声合成フィルタ４０５が出力する合成音信号ｓｓ[k]は、演算器４０２に供給される。演算器４０２は、音声合成フィルタ４０５からの合成音信号ｓｓ[k]から、入力端子４０１に入力される音声信号ｓ[k]を減算し、その減算値を、自乗誤差演算部４０６に供給する。自乗誤差演算部４０６は、演算器４０２からの減算値の自乗和（第ｋフレームのサンプル値についての自乗和）を演算し、その結果得られる自乗誤差を、自乗誤差最小判定部４０７に供給する。
【０２３３】
自乗誤差最小判定部４０７は、自乗誤差演算部４０６が出力する自乗誤差に対応付けて、ラグを表すコードとしてのＬコード(L_code)、ゲインを表すコードとしてのＧコード(G_code)、および符号語を表すコードとしてのＩコード(I_code)を記憶しており、自乗誤差演算部４０６が出力する自乗誤差に対応するＬコード、Ｇコード、およびＩコードを出力する。Ｌコードは、適応コードブック記憶部４０８に、Ｇコードは、ゲイン復号器４０９に、Ｉコードは、励起コードブック記憶部４１０に、それぞれ供給される。さらに、Ｌコード、Ｇコード、およびＩコードは、コード決定部４１４にも供給される。
【０２３４】
適応コードブック記憶部４０８は、例えば７ビットのＬコードと、所定の遅延時間（ラグ）とを対応付けた適応コードブックを記憶しており、演算器４１３から供給される残差信号ｅ[k]を、自乗誤差最小判定部４０７から供給されるＬコードに対応付けられた遅延時間だけ遅延して、演算器４１１に出力する。
【０２３５】
ここで、適応コードブック記憶部４０８は、残差信号ｅ[k]を、Ｌコードに対応する時間だけ遅延して出力することから、その出力信号は、その遅延時間を周期とする周期信号に近い信号となる。この信号は、線形予測係数を用いた音声合成において、主として、有声音の合成音を生成するための駆動信号となる。
【０２３６】
ゲイン復号器４０９は、Ｇコードと、所定のゲインβおよびγとを対応付けたテーブルを記憶しており、自乗誤差最小判定部４０７から供給されるＧコードに対応付けられたゲインβおよびγを出力する。ゲインβとγは、演算器４１１と４１２に、それぞれ供給される。
【０２３７】
励起コードブック記憶部４１０は、例えば９ビットのＩコードと、所定の励起信号とを対応付けた励起コードブックを記憶しており、自乗誤差最小判定部４０７から供給されるＩコードに対応付けられた励起信号を、演算器４１２に出力する。
【０２３８】
ここで、励起コードブックに記憶されている励起信号は、例えば、ホワイトノイズ等に近い信号であり、線形予測係数を用いた音声合成において、主として、無声音の合成音を生成するための駆動信号となる。
【０２３９】
演算器４１１は、適応コードブック記憶部４０８の出力信号と、ゲイン復号器４０９が出力するゲインβとを乗算し、その乗算値ｌ[k]を、演算器４１３に供給する。演算器４１３は、励起コードブック記憶部４１０の出力信号と、ゲイン復号器４０９が出力するゲインγとを乗算し、その乗算値ｎ[k]を、演算器４１３に供給する。演算器４１３は、演算器４１１からの乗算値ｌ[k]と、演算器４１２からの乗算値ｎ[k]とを加算し、その加算値を、残差信号ｅ[k]として、音声合成フィルタ４０５に供給する。
【０２４０】
音声合成フィルタ４０５では、以上のようにして、演算器４１３から供給される残差信号ｅ[k]が、ベクトル量子化部４０４から供給される線形予測係数α_p’をタップ係数とするＩＩＲフィルタでフィルタリングされ、その結果得られる合成音信号ｓｓ[k]が、演算器４０２に供給される。そして、演算器４０２および自乗誤差演算部４０６において、上述の場合と同様の処理が行われ、その結果得られる自乗誤差が、自乗誤差最小判定部４０７に供給される。
【０２４１】
自乗誤差最小判定部４０７は、自乗誤差演算部４０６からの自乗誤差が最小（極小）になったかどうかを判定する。そして、自乗誤差最小判定部４０７は、自乗誤差が最小になっていないと判定した場合、上述のように、その自乗誤差に対応するＬコード、Ｇコード、およびＩコードを出力し、以下、同様の処理が繰り返される。
【０２４２】
一方、自乗誤差最小判定部４０７は、自乗誤差が最小になったと判定した場合、確定信号を、コード決定部４１４に出力する。コード決定部４１４は、ベクトル量子化部４０４から供給されるＡコードをラッチするとともに、自乗誤差最小判定部４０７から供給されるＬコード、Ｇコード、およびＩコードを順次ラッチするようになっている。そして、このコード決定部４１４は、自乗誤差最小判定部４０７から確定信号を受信すると、そのときラッチしているＡコード、Ｌコード、Ｇコード、およびＩコードを、チャネルエンコーダ４１５に供給する。チャネルエンコーダ４１５は、コード決定部４１４からのＡコード、Ｌコード、Ｇコード、およびＩコードを多重化し、コードデータとして出力する。このコードデータは符号化音声信号ＳＡｃとして出力端子４１６に出力される。
【０２４３】
なお、以下では、説明を簡単にするため、Ａコード、Ｌコード、Ｇコード、およびＩコードは、フレームごとに求められるものとする。ただし、例えば、１フレームを、４つのサブフレームに分割し、Ｌコード、Ｇコード、およびＩコードは、サブフレームごとに求めるようにすること等が可能である。
【０２４４】
ここで、図１８では、各変数に、[k]が付され、配列変数とされている。このkは、フレーム数を表している。図１７においても同様である。
【０２４５】
次に、図１７に示す音声信号処理装置１００Ｃにおける音声復号化器１２１について説明する。
符号化音声信号ＳＡｃとしてのコードデータは、チャネルデコーダ４２１に供給される。チャネルデコーダ４２１は、コードデータから、Ｌコード、Ｇコード、Ｉコード、Ａコードを分離し、それぞれを、適応コードブック記憶部４２２、ゲイン復号器４２３、励起コードブック記憶部４２４、フィルタ係数復号器４２５に供給する。
【０２４６】
適応コードブック記憶部４２２、ゲイン復号器４２３、励起コードブック記憶部４２４、演算器４２６〜４２８は、図１８の適応コードブック記憶部４０８、ゲイン復号器４０９、励起コードブック記憶部４１０、演算器４１１〜４１３とそれぞれ同様に構成されるもので、図１８で説明した場合と同様の処理が行われることにより、Ｌコード、Ｇコード、およびＩコードが、残差信号ｅ[k]に復号される。この残差信号ｅ[k]は、音声合成フィルタ４２９に対して、入力信号として与えられる。
【０２４７】
フィルタ係数復号器４２５は、図１８のベクトル量子化部４０４が記憶しているのと同一のコードブックを記憶しており、Ａコードを、線形予測係数α_p’に復号し、音声合成フィルタ４２９に供給する。
【０２４８】
音声合成フィルタ４２９は、図１８の音声合成フィルタ４０５と同様に構成されており、フィルタ係数復号器４２５からの線形予測係数α_p’をタップ係数とするとともに、演算器４２８から供給される残差信号ｅ[k]を入力信号として、式（１５）を演算し、これにより、図１８の自乗誤差最小判定部４０７において自乗誤差が最小と判定されたときの合成音信号を生成する。この合成音信号は、復号音声信号ＳＡｄとして出力される。
【０２４９】
また、音声信号処理装置１００Ｃは、音声復号化器１２１より得られる符号語（Ｌコード、Ｇコード、Ｉコード、Ａコード、α_P’、β、γ）および中間復号データ（ｅ[k]，l[k]，ｎ[k]，l[k]／β，ｎ[k]／γ）に基づいて、作成すべき出力音声信号ＳＡｏにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路１２３およびクラスタップ選択回路１２４を有している。
【０２５０】
クラス検出回路１１３は、クラスタップ選択回路１０８，１１２で選択的に取り出されるデータの他に、クラスタップ選択回路１２４で選択的に取り出されるデータに基づいてクラスコードＣＬを発生する。また、推定予測演算回路１１７は、予測タップ選択回路１０７，１１１で選択的に取り出される予測タップのデータの他に、予測タップ選択回路１２３で選択的に取り出される予測タップのデータを用いて、作成すべき出力音声信号ＳＡｏにおける注目位置のデータｙを演算する。
【０２５１】
図１７に示す音声信号処理装置１００Ｃのその他については、図１１に示す音声信号処理装置１００Ｂと同様に構成される。詳細説明は省略するも、この音声信号処理装置１００Ｃは音声信号処理装置１００Ｂと同様に動作し、同様の作用効果を得ることができる。ただし、この音声信号処理装置１００Ｃでは、クラスタップおよび予測タップのデータを得るために復号音声信号ＳＡｄの他に、符号語および中間復号データをも使用しているので、復号音声信号ＳＡｄのみを用いるものと比べて、出力音声信号ＳＡｏに含まれる復号音声信号ＳＡｄ′を精度よく生成することが可能となる。
【０２５２】
なお、図１７に示す音声信号処理装置１００Ｃにおいては、符号語（Ｌコード、Ｇコード、Ｉコード、Ａコード、α_P’、β、γ）および中間復号データ（ｅ[k]，l[k]，ｎ[k]，l[k]／β，ｎ[k]／γ）の全てを用いるものを示したが、その一部のみを用いることもできる。
【０２５３】
また、図１７に示す音声信号処理装置１００Ｃの情報メモリバンク１１５に格納される各クラスの係数種データｗ_i0〜ｗ_i3は、図１３に示す係数種データ生成装置１５０Ｂと同様の構成の装置で生成することができる。ただしその場合、予測タップおよびクラスタップのデータとして、音声復号化器１６３で得られる符号語および中間復号データから選択的に取り出されたデータをも用いることになる。
【０２５４】
なお、図１７に示す音声信号処理装置１００Ｃにおける処理を、例えば図７に示すような音声信号処理装置３００によって、ソフトウェアで実現することも可能である。
【０２５５】
その場合の音声信号処理では、上述の図１４のフローチャートのステップＳＴ１０５において、出力音声信号ＳＡｏにおける注目位置のデータを生成する際に、復号音声音声信号ＳＡｄの他に、符号語（Ｌコード、Ｇコード、Ｉコード、Ａコード、α_P’、β、γ）および中間復号データ（ｅ[k]，l[k]，ｎ[k]，l[k]／β，ｎ[k]／γ）を用いて予測タップおよびクラスタップのデータを取得するようにすればよい。
【０２５６】
また、処理装置の図示は省略するが、図１７の情報メモリバンク１１５に格納される係数種データｗ_i0〜ｗ_i3を生成する処理を、ソフトウェアで実現することも可能である。
【０２５７】
その場合の係数データ生成処理では、図１６のフローチャートのステップＳＴ１２６で生成する生徒信号ＳＳ１を、復号音声信号の他に、符号語および中間復号データとすればよい。
【０２５８】
次に、この発明の第４の実施の形態について説明する。図１９は、第４の実施の形態としての音声信号処理装置１００Ｄの構成を示している。この図１９において、図１７と対応する部分には同一符号を付し、その詳細説明は省略する。
【０２５９】
この音声信号処理装置１００Ｄは、入力端子１０１に、ＣＥＬＰ方式で符号化された符号化音声信号ＳＡｃが入力され、この符号化音声信号ＳＡｃの符号化を行う音声復号化器１２５を有している。この音声復号化器１２５は、最終的な符号化音声信号ＳＡｄを得る必要がなく、従って図１７に示す音声信号処理装置１００Ｃの音声復号化器１２１における音声合成フィルタ４２９が存在しないものとなっている。
【０２６０】
また、音声信号処理装置１００Ｄは、Ａ／Ｄコンバータ１０９でデジタル信号に変換された背景音信号Ｓ_BG(T-α)に対して、ＣＥＬＰ方式の符号化を施す音声符号化器１２６を有している。この音声符号化器１２６の構成は、上述の図１８に示した音声符号化器４００と同様である。
【０２６１】
また、音声信号処理装置１００Ｄは、音声復号化器１２６より得られる符号語（Ｌコード、Ｇコード、Ｉコード、Ａコード、α_P’、β、γ）および中間復号データ（ｅ[k]，l[k]，ｎ[k]，l[k]／β，ｎ[k]／γ）に基づいて、作成すべき出力音声信号ＳＡｏにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路１２７およびクラスタップ選択回路１２８を有している。
【０２６２】
この場合、クラス検出回路１１３は、クラスタップ選択回路１２４，１２８で選択的に取り出されるデータに基づいてクラスコードＣＬを発生する。また、推定予測演算回路１１７は、予測タップ選択回路１２３，１２７で選択的に取り出される予測タップのデータｘｉを用いて、作成すべき出力音声信号ＳＡｏにおける注目位置のデータｙを演算する。
【０２６３】
図１９に示す音声信号処理装置１００Ｄのその他については、図１７に示す音声信号処理装置１００Ｃと同様に構成される。詳細説明は省略するも、この音声信号処理装置１００Ｄは音声信号処理装置１００Ｃと同様に動作し、同様の作用効果を得ることができる。
【０２６４】
なお、図１７に示す音声信号処理装置１００Ｃにおいては、符号語（Ｌコード、Ｇコード、Ｉコード、Ａコード、α_P’、β、γ）および中間復号データ（ｅ[k]，l[k]，ｎ[k]，l[k]／β，ｎ[k]／γ）の全てを用いるものを示したが、その一部のみを用いることもできる。例えば、符号語のみ、あるいは符号語の中でもＬコード、Ｇコード、Ｉコード、Ａコードのみを用いることもできる。
【０２６５】
また、図１９に示す音声信号処理装置１００Ｄの情報メモリバンク１１５に格納される各クラスの係数種データｗ_i0〜ｗ_i3は、図２０に示す係数種データ生成装置１５０Ｄで生成することができる。この図２０において、図１３と対応する部分には同一符号を付し、その詳細説明は省略する。
【０２６６】
この係数種データ生成装置１５０Ｄは、遅延反転回路１５２で得られる背景音信号Ｓ_BG(T-α)に対応した音声信号に対してＣＥＬＰ方式の符号化を施し、第２の生徒信号ＳＳ２としての符号語（Ｌコード、Ｇコード、Ｉコード、Ａコード、α_P’、β、γ）および中間復号データ（ｅ[k]，l[k]，ｎ[k]，l[k]／β，ｎ[k]／γ）を得るための音声符号化器１７２を有している。
【０２６７】
また、係数種データ生成装置１５０Ｄでは、音声符号化器１６２で得られる符号語（Ｌコード、Ｇコード、Ｉコード、Ａコード、α_P’、β、γ）および中間復号データ（ｅ[k]，l[k]，ｎ[k]，l[k]／β，ｎ[k]／γ）が第１の生徒信号ＳＳ１とされる。
【０２６８】
また、係数種データ生成装置１５０Ｄでは、時間調整用の遅延回路１６４の遅延時間は、音声符号化器１６２の処理時間に対応した時間とされる。また、この係数種データ生成装置１５０Ｄでは、入力端子１５１に入力される第２の教師信号ＳＴ２は時間調整用の遅延回路１７３を介して加算器１６５に供給される。この時間調整用の遅延回路１７３の遅延時間は、音声符号化器１７２の処理時間に対応した時間とされる。
【０２６９】
図２０に示す係数種データ生成装置１５０Ｄのその他については、図１３に示す係数種データ生成装置１５０Ｂと同様に構成される。詳細説明は省略するも、この係数種データ生成装置１５０Ｄは係数種データ生成装置１５０Ｂと同様に動作し、同様の作用効果を得ることができる。
【０２７０】
なお、図１９に示す音声信号処理装置１００Ｄにおける処理を、例えば図７に示すような音声信号処理装置３００によって、ソフトウェアで実現することも可能である。
【０２７１】
その場合の音声信号処理では、上述の図１４のフローチャートのステップＳＴ１０４において、符号化音声信号ＳＡｃを復号化して復号音声信号ＳＡｄを生成する代わりに、符号語（Ｌコード、Ｇコード、Ｉコード、Ａコード、α_P’、β、γ）および中間復号データ（ｅ[k]，l[k]，ｎ[k]，l[k]／β，ｎ[k]／γ）を生成する。そして、ステップＳＴ１０５で、出力音声信号ＳＡｏにおける注目位置のデータを生成する際に、上述の符号語および中間復号データを用いて予測タップおよびクラスタップのデータを取得するようにされる。
【０２７２】
また、処理装置の図示は省略するが、図２０の係数種データ生成装置１５０Ｄにおける処理を、ソフトウェアで実現することも可能である。
その場合の係数データ生成処理では、図１６のフローチャートのステップＳＴ１２６で生成する生徒信号ＳＳ１，ＳＳ２を符号語および中間復号データとすればよい。
【０２７３】
【発明の効果】
この発明によれば、集音された背景音に対応した背景音信号に基づいて所定時間後の背景音に対応した予測背景音信号を生成し、この予測背景音信号を、符号化音声信号を復号化して得られた復号音声信号に加算または減算して出力音声信号を得る構成とするものであり、復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して品質の向上を図ることができる。
【０２７４】
また、この発明によれば、符号化音声信号を復号化して得られた復号音声信号および集音された背景音に対応した背景音信号に基づいて、所定時間だけ後の背景音を相殺するための予測背景音信号を含む出力音声信号を生成するものであり、復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して音声品質の向上を図ることができ、また復号音声信号の符号化雑音（符号化歪み）を低減して音声品質の向上を図ることができる。
【０２７５】
また、この発明によれば、第１の符号化音声信号および集音された背景音に対応した背景音信号を符号化して得られた第２の符号化音声信号に基づいて、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数の出力音声信号を生成するものであり、第１の符号化音声信号に対応する復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して音声品質の向上を図ることができ、またその復号音声信号の符号化雑音（符号化歪み）を低減して音声品質の向上を図ることができる。
【図面の簡単な説明】
【図１】この発明の第１の実施の形態としての音声信号処理装置の構成を示すブロック図である。
【図２】背景音除去動作を示す概念図である。
【図３】背景音信号予測回路の構成を示すブロック図である。
【図４】タップ選択を説明するための図である。
【図５】係数種データの生成方法を説明するための図である。
【図６】係数種データ生成装置の構成を示すブロック図である。
【図７】ソフトウェアで実現するための音声信号処理装置の構成例を示すブロック図である。
【図８】音声信号処理を示すフローチャートである。
【図９】予測背景音信号における注目位置のデータの生成処理を示すフローチャートである。
【図１０】係数種データ生成処理を示すフローチャートである。
【図１１】この発明の第２の実施の形態としての音声信号処理装置の構成を示すブロック図である。
【図１２】タップ選択を説明するための図である。
【図１３】係数種データ生成装置の構成を示すブロック図である。
【図１４】音声信号処理を示すフローチャートである。
【図１５】出力音声信号における注目位置のデータの生成処理を示すフローチャートである。
【図１６】係数種データ生成処理を示すフローチャートである。
【図１７】この発明の第３の実施の形態としての音声信号処理装置の構成を示すブロック図である。
【図１８】ＣＥＬＰ方式の符号化を行う音声符号化器の構成例を示すブロック図である。
【図１９】この発明の第４の実施の携帯としての音声信号処理装置の構成を示すブロック図である。
【図２０】係数種データ生成装置の構成を示すブロック図である。
【符号の説明】
４０・・・入力端子、４２・・・予測タップ選択回路、４３・・・クラスタップ選択回路、４４・・・クラス検出回路、４５・・・係数メモリ、４６・・・情報メモリバンク、４７・・・係数生成回路、４８・・・推定予測演算回路、４９・・・出力端子、１００Ａ〜１００Ｄ・・・音声信号処理装置、１０１・・・入力端子、１０２，１２１，１２５・・・音声復号化器、１０３・・・マイクロホン、１０４・・・背景音信号予測回路、１０５・・・加算器、１０６・・・出力端子、１０７，１１１，１２７・・・予測タップ選択回路、１０８，１１２，１２８・・・クラスタップ選択回路、１１３・・・クラス検出回路、１１４・・・係数メモリ、１１５・・・情報メモリバンク、１１６・・・係数生成回路、１１７・・・推定予測演算回路、１２６・・・音声符号化器、１５０Ａ，１５０Ｂ，１５０Ｄ・・・係数種データ生成装置、１５１，１６１・・・入力端子、１５２・・・遅延反転回路、１５３，１６６，１６８・・・予測タップ選択回路、１５４，１６７，１６９・・・クラスタップ選択回路、１５５，１７０・・・クラス検出回路、１５６，１７１・・・正規方程式生成部、１５７・・・係数種データ決定部、１５８・・・係数種メモリ、１６２，１７２・・・音声符号化器、１６３・・・音声復号化器、１６４，１７３・・・遅延回路、１６５・・・加算器、３００・・・音信号処理装置

Claims

符号化音声信号が入力される信号入力手段と、
上記信号入力手段に入力される符号化音声信号を復号化する音声復号化手段と、
背景音を集音し、該集音された背景音に対応した複数のデータからなる第１の音声信号を出力する集音部と、
上記集音部からの第１の音声信号から、所定時間だけ後の背景音に対応した複数のデータからなる第２の音声信号を生成する背景音信号予測手段と、
上記音声復号化手段で復号化されて得られる復号音声信号に、上記背景音信号予測手段で生成された第２の音声信号を加算または減算して出力音声信号を得る演算手段とを備え、
上記背景音信号予測手段は、
上記集音部からの第１の音声信号から、上記第２の音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第１のデータ選択手段と、
上記第１のデータ選択手段で選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出するクラス検出手段と、
上記所定時間を段階的に定めるパラメータの値が入力されるパラメータ入力手段と、
上記クラス検出手段で検出されたクラスおよび上記パラメータ入力手段に入力されたパラメータの値に対応した推定式の係数データを発生する係数データ発生手段と、
上記集音部からの第１の音声信号から、上記第２の音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第２のデータ選択手段と、
上記係数データ発生手段で発生された係数データおよび上記第２のデータ選択手段で選択された複数の第２のデータを用いて演算する上記推定式により、上記第２の音声信号における注目位置のデータを求める演算手段とを有する音声信号処理装置。
入力される符号化音声信号を復号化して復号音声信号を得る第１のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる第１の音声信号を得る第２のステップと、
上記第２のステップで得られる第１の音声信号から、所定時間だけ後の背景音に対応した複数のデータからなる第２の音声信号を生成する第３のステップと、
上記第１のステップで得られる復号音声信号に、上記第３のステップで生成された第２の音声信号を加算または減算して出力音声信号を得る第４のステップとを備え、
上記第３のステップでは、
上記集音部からの第１の音声信号から、上記第２の音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第５のステップと、
上記第５のステップで選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出する第６のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第７のステップと、
上記第６のステップで検出されたクラスおよび上記第７のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第８のステップと、
上記集音部からの第１の音声信号から、上記第２の音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第９のステップと、
上記第８のステップで発生された係数データおよび上記第９のステップで選択された複数の第２のデータを用いて演算する上記推定式により、上記第２の音声信号における注目位置のデータを求める第１０のステップとを有する音声信号処理方法。
入力される符号化音声信号を復号化して復号音声信号を得る第１のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる第１の音声信号を得る第２のステップと、
上記第２のステップで得られる第１の音声信号から、所定時間だけ後の背景音に対応した複数のデータからなる第２の音声信号を生成する第３のステップと、
上記第１のステップで得られる復号音声信号に、上記第３のステップで生成された第２の音声信号を加算または減算して出力音声信号を得る第４のステップとを備え、
上記第３のステップでは、
上記集音部からの第１の音声信号から、上記第２の音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第５のステップと、
上記第５のステップで選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出する第６のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第７のステップと、
上記第６のステップで検出されたクラスおよび上記第７のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第８のステップと、
上記集音部からの第１の音声信号から、上記第２の音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第９のステップと、
上記第８のステップで発生された係数データおよび上記第９のステップで選択された複数の第２のデータを用いて演算する上記推定式により、上記第２の音声信号における注目位置のデータを求める第１０のステップとを有する音声信号処理方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体。
入力される符号化音声信号を復号化して復号音声信号を得る第１のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる第１の音声信号を得る第２のステップと、
上記第２のステップで得られる第１の音声信号から、所定時間だけ後の背景音に対応した複数のデータからなる第２の音声信号を生成する第３のステップと、
上記第１のステップで得られる復号音声信号に、上記第３のステップで生成された第２の音声信号を加算または減算して出力音声信号を得る第４のステップとを備え、
上記第３のステップでは、
上記集音部からの第１の音声信号から、上記第２の音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第５のステップと、
上記第５のステップで選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出する第６のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第７のステップと、
上記第６のステップで検出されたクラスおよび上記第７のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第８のステップと、
上記集音部からの第１の音声信号から、上記第２の音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第９のステップと、
上記第８のステップで発生された係数データおよび上記第９のステップで選択された複数の第２のデータを用いて演算する上記推定式により、上記第２の音声信号における注目位置のデータを求める第１０のステップとを有する音声信号処理方法をコンピュータに実行させるためのプログラム。
符号化音声信号が入力される信号入力手段と、
上記信号入力手段に入力された符号化音声信号を復号化して複数のデータからなる復号音声信号を得る音声復号化手段と、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を出力する集音部と、
上記音声復号化手段からの復号音声信号および上記集音部からの背景音信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む、複数のデータからなる出力音声信号を生成する音声信号出力手段とを備え、
上記音声信号出力手段は、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第１のデータ選択手段と、
上記第１のデータ選択手段で選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出するクラス検出手段と、
上記所定時間を段階的に定めるパラメータの値が入力されるパラメータ入力手段と、
上記クラス検出手段で検出されたクラスおよび上記パラメータ入力手段に入力されたパラメータの値に対応した推定式の係数データを発生する係数データ発生手段と、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第２のデータ選択手段と、
上記係数データ発生手段で発生された係数データおよび上記第２のデータ選択手段で選択された複数の第２のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める演算手段とを有する音声信号処理装置。
上記符号化音声信号は、音声信号をＣＥＬＰ(Code Excited Linear Prediction)方式によって符号化することにより得られたものであり、
上記音声信号出力手段は、上記音声復号化手段からの復号音声信号および上記集音部からの背景音信号の他に、さらに上記音声復号化手段からの符号語および中間復号データから、上記出力音声信号を生成する請求項５に記載の音声信号処理装置。
入力される符号化音声信号を復号化して復号音声信号を得る第１のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第２のステップと、
上記第１のステップで得られる復号音声信号および上記第２のステップで得られる背景音信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む、複数のデータからなる出力音声信号を生成する第３のステップとを備え、
上記第３のステップでは、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第４のステップと、
上記第４のステップで選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出する第５のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第６のステップと、
上記第５のステップで検出されたクラスおよび上記第６のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第７のステップと、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第８のステップと、
上記第７のステップで発生された係数データおよび上記第８のステップで選択された複数の第２のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第９のステップとを有する音声信号処理方法。
入力される符号化音声信号を復号化して復号音声信号を得る第１のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第２のステップと、
上記第１のステップで得られる復号音声信号および上記第２のステップで得られる背景音信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む、複数のデータからなる出力音声信号を生成する第３のステップとを備え、
上記第３のステップでは、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第４のステップと、
上記第４のステップで選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出する第５のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第６のステップと、
上記第５のステップで検出されたクラスおよび上記第６のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第７のステップと、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第８のステップと、
上記第７のステップで発生された係数データおよび上記第８のステップで選択された複数の第２のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第９のステップとを有する音声信号処理方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体。
入力される符号化音声信号を復号化して復号音声信号を得る第１のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第２のステップと、
上記第１のステップで得られる復号音声信号および上記第２のステップで得られる背景音信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む、複数のデータからなる出力音声信号を生成する第３のステップとを備え、
上記第３のステップでは、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第４のステップと、
上記第４のステップで選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出する第５のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第６のステップと、
上記第５のステップで検出されたクラスおよび上記第６のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第７のステップと、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第８のステップと、
上記第７のステップで発生された係数データおよび上記第８のステップで選択された複数の第２のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第９のステップとを有する音声信号処理方法をコンピュータに実行させるためのプログラム。
第１の符号化音声信号が入力される信号入力手段と、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を出力する集音部と、
上記集音部からの背景音信号を符号化して第２の符号化音声信号を得る音声符号化手段と、
上記信号入力手段に入力される第１の符号化音声信号および上記音声符号化手段からの第２の符号化音声信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数のデータからなる出力音声信号を生成する音声信号出力手段とを備え、
上記音声信号出力手段は、
上記第１の符号化音声信号および上記第２の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第１のデータ選択手段と、
上記第１のデータ選択手段で選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出するクラス検出手段と、
上記所定時間を段階的に定めるパラメータの値が入力されるパラメータ入力手段と、
上記クラス検出手段で検出されたクラスおよび上記パラメータ入力手段に入力されたパラメータの値に対応した、推定式の係数データを発生する係数データ発生手段と、
上記第１の符号化音声信号および上記第２の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第２のデータ選択手段と、
上記係数データ発生手段で発生された係数データおよび上記第２のデータ選択手段で選択された複数の第２のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める演算手段とを有する音声信号処理装置。
上記符号化音声信号は、音声信号をＣＥＬＰ(Code Excited Linear Prediction)方式によって符号化することにより得られたものであり、
上記音声信号出力手段は、上記第１の符号化音声信号および上記第２の符号化音声信号の他に、さらにこれらの符号化音声信号に関する中間復号データから、上記出力音声信号を生成する請求項１０に記載の音声信号処理装置。
第１の符号化音声信号を取得する第１のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第２のステップと、
上記第２のステップで得られる背景音信号を符号化して第２の符号化音声信号を得る第３のステップと、
上記第１のステップで取得される第１の符号化音声信号および上記第３のステップで得られる第２の符号化音声信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数のデータからなる出力音声信号を生成する第４のステップとを備え、
上記第４のステップでは、
上記第１の符号化音声信号および上記第２の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第５のステップと、
上記第５のステップで選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出する第６のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第７のステップと、
上記第６のステップで検出されたクラスおよび上記第７のステップで入力されたパラメータの値に対応した、推定式の係数データを発生する第８のステップと、
上記第１の符号化音声信号および上記第２の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第９のステップと、
上記第８のステップで発生された係数データおよび上記第９のステップで選択された複数の第２のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第１０のステップとを有する音声信号処理方法。
第１の符号化音声信号を取得する第１のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第２のステップと、
上記第２のステップで得られる背景音信号を符号化して第２の符号化音声信号を得る第３のステップと、
上記第１のステップで取得される第１の符号化音声信号および上記第３のステップで得られる第２の符号化音声信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数のデータからなる出力音声信号を生成する第４のステップとを備え、
上記第４のステップでは、
上記第１の符号化音声信号および上記第２の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第５のステップと、
上記第５のステップで選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出する第６のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第７のステップと、
上記第６のステップで検出されたクラスおよび上記第７のステップで入力されたパラメータの値に対応した、推定式の係数データを発生する第８のステップと、
上記第１の符号化音声信号および上記第２の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第９のステップと、
上記第８のステップで発生された係数データおよび上記第９のステップで選択された複数の第２のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第１０のステップとを有する音声信号処理方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体。
第１の符号化音声信号を取得する第１のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第２のステップと、
上記第２のステップで得られる背景音信号を符号化して第２の符号化音声信号を得る第３のステップと、
上記第１のステップで取得される第１の符号化音声信号および上記第３のステップで得られる第２の符号化音声信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数のデータからなる出力音声信号を生成する第４のステップとを備え、
上記第４のステップでは、
上記第１の符号化音声信号および上記第２の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第１のデータを選択する第５のステップと、
上記第５のステップで選択された複数の第１のデータに基づいて、上記注目位置のデータが属するクラスを検出する第６のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第７のステップと、
上記第６のステップで検出されたクラスおよび上記第７のステップで入力されたパラメータの値に対応した、推定式の係数データを発生する第８のステップと、
上記第１の符号化音声信号および上記第２の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第２のデータを選択する第９のステップと、
上記第８のステップで発生された係数データおよび上記第９のステップで選択された複数の第２のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第１０のステップとを有する音声信号処理方法をコンピュータに実行させるためのプログラム。