JP4207494B2 - 音声信号の処理装置および処理方法、並びに方法を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な媒体 - Google Patents
音声信号の処理装置および処理方法、並びに方法を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な媒体 Download PDFInfo
- Publication number
- JP4207494B2 JP4207494B2 JP2002238274A JP2002238274A JP4207494B2 JP 4207494 B2 JP4207494 B2 JP 4207494B2 JP 2002238274 A JP2002238274 A JP 2002238274A JP 2002238274 A JP2002238274 A JP 2002238274A JP 4207494 B2 JP4207494 B2 JP 4207494B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- data
- signal
- background sound
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、例えば携帯電話などに適用して好適な音声信号の処理装置および処理方法、並びに方法を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な媒体に関する。
【0002】
詳しくは、この発明は、集音された背景音に対応した背景音信号に基づいて所定時間後の背景音に対応した予測背景音信号を生成し、この予測背景音信号を、符号化音声信号を復号化して得られた復号音声信号に加算または減算して出力音声信号を得る構成とすることによって、復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して品質の向上を図るようにした音声信号処理装置等に係るものである。
【0003】
また、この発明は、符号化音声信号を復号化して得られた復号音声信号および集音された背景音に対応した背景音信号に基づいて、所定時間だけ後の背景音を相殺するための予測背景音信号を含む出力音声信号を生成することによって、復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して音声品質の向上を図り、また復号音声信号の符号化雑音(符号化歪み)を低減して音声品質の向上を図るようにした音声信号処理装置等に係るものである。
【0004】
また、この発明は、第1の符号化音声信号および集音された背景音に対応した背景音信号を符号化して得られた第2の符号化音声信号に基づいて、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数の出力音声信号を生成することによって、第1の符号化音声信号に対応する復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して音声品質の向上を図り、またその復号音声信号の符号化雑音(符号化歪み)を低減して音声品質の向上を図るようにした音声信号処理装置等に係るものである。
【0005】
【従来の技術】
デジタル携帯電話の符号化方式として例えばCELP(Code Excited Linear Prediction)方式が用いられている。このCELP方式の符号化では、従来周知のように、音声信号を線形予測分析してスペクトル包絡と予測残差(音源信号)に分離し、それぞれを符号化する。
【0006】
デジタル携帯電話では、例えば上述のCELP方式で符号化された符号化音声信号を復号化し、得られた復号音声信号による音声をスピーカより出力する。
【0007】
【発明が解決しようとする課題】
上述したように、デジタル携帯電話のスピーカから出力される復号音声信号による音声が人の聴覚システムに到達する際に、背景音も同時に到達する。そのため、復号音声信号による音声の品質が実質的に低下し、受信音声が聞き取り難くなることがある。
【0008】
また、復号音声信号は、CELP方式の符号化およびその復号化を経て得られたものであり、符号化雑音(符号化歪み)を伴ったものとなっている。これにより、デジタル携帯電話のスピーカから出力される復号音声信号による音声の品質は低下したものとなる。このような符号化雑音(符号化歪み)は、CELP方式の符号化だけでなく、その他の符号化方式によっても発生する。
【0009】
この発明の目的は、復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して音声品質の向上を図ることにある。また、この発明の目的は、復号音声信号の符号化雑音(符号化歪み)を低減して音声品質の向上を図ることにある。
【0010】
【課題を解決するための手段】
この発明に係る音声信号処理装置は、符号化音声信号が入力される信号入力手段と、上記信号入力手段に入力される符号化音声信号を復号化する音声復号化手段と、背景音を集音し、該集音された背景音に対応した複数のデータからなる第1の音声信号を出力する集音部と、上記集音部からの第1の音声信号から、所定時間だけ後の背景音に対応した複数のデータからなる第2の音声信号を生成する背景音信号予測手段と、上記音声復号化手段で復号化されて得られる復号音声信号に、上記背景音信号予測手段で生成された第2の音声信号を加算または減算して出力音声信号を得る演算手段とを備え、上記背景音信号予測手段は、上記集音部からの第1の音声信号から、上記第2の音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第1のデータ選択手段と、上記第1のデータ選択手段で選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出するクラス検出手段と、上記所定時間を段階的に定めるパラメータの値が入力されるパラメータ入力手段と、上記クラス検出手段で検出されたクラスおよび上記パラメータ入力手段に入力されたパラメータの値に対応した推定式の係数データを発生する係数データ発生手段と、上記集音部からの第1の音声信号から、上記第2の音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第2のデータ選択手段と、上記係数データ発生手段で発生された係数データおよび上記第2のデータ選択手段で選択された複数の第2のデータを用いて演算する上記推定式により、上記第2の音声信号における注目位置のデータを求める演算手段とを有するものである。
【0011】
また、この発明に係る音声信号処理方法は、入力される符号化音声信号を復号化して復号音声信号を得る第1のステップと、背景音を集音し、該集音された背景音に対応した複数のデータからなる第1の音声信号を得る第2のステップと、上記第2のステップで得られる第1の音声信号から、所定時間だけ後の背景音に対応した複数のデータからなる第2の音声信号を生成する第3のステップと、上記第1のステップで得られる復号音声信号に、上記第3のステップで生成された第2の音声信号を加算または減算して出力音声信号を得る第4のステップとを備え、上記第3のステップでは、上記集音部からの第1の音声信号から、上記第2の音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第5のステップと、上記第5のステップで選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出する第6のステップと、上記所定時間を段階的に定めるパラメータの値が入力される第7のステップと、上記第6のステップで検出されたクラスおよび上記第7のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第8のステップと、上記集音部からの第1の音声信号から、上記第2の音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第9のステップと、上記第8のステップで発生された係数データおよび上記第9のステップで選択された複数の第2のデータを用いて演算する上記推定式により、上記第2の音声信号における注目位置のデータを求める第10のステップとを有するものである。
【0012】
また、この発明に係るプログラムは、上述の音声信号処理方法をコンピュータに実行させるためのものである。また、この発明に係るコンピュータ読み取り可能な媒体は、上述のプログラムを記録したものである。
【0013】
この発明において、入力される符号化音声信号が復号化されて復号音声信号が得られる。また、背景音がマイクロホン等によって集音され、この集音された背景音に対応した複数のデータからなる第1の音声信号が得られる。そして、この第1の音声信号に基づいて、所定時間だけ後の背景音に対応した複数のデータからなる第2の音声信号が生成される。
【0014】
例えば、第1の音声信号からクラス分類適応処理によって第2の音声信号が生成される。この場合、第2の音声信号によって出力される音声(相殺音)を、その復号音声信号による音声が人の聴覚システムに到達する際に同時に到達する背景音に対応したものとすることができる。ここで、パラメータの値を調整して任意の進み量に対応した相殺音の出力を可能とすることで、集音部で背景音を集音した時点と当該集音された背景音に基づいた相殺音が人の聴覚システムに到達する時点との間の時間差にバラツキがあっても対処できる。
【0015】
上述した復号音声信号から第2の音声信号を加算または減算して出力音声信号が得られる。ここで、第2の音声信号が第1の音声信号に対して反転されていれば加算が行われ、一方第2の音声信号が第1の音声信号に対して反転されていなければ減算が行われる。
【0016】
このように出力音声信号には復号音声信号の他に相殺音を出力するための第2の音声信号が含まれている。したがって、復号音声信号による音声が人の聴覚システムに到達する際に、この第2の音声信号による相殺音によって背景音を効果的に除去でき、音声品質の向上を図ることができる。
【0025】
この発明に係る音声信号処理装置は、符号化音声信号が入力される信号入力手段と、上記信号入力手段に入力された符号化音声信号を復号化して複数のデータからなる復号音声信号を得る音声復号化手段と、背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を出力する集音部と、上記音声復号化手段からの復号音声信号および上記集音部からの背景音信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む、複数のデータからなる出力音声信号を生成する音声信号出力手段とを備え、上記音声信号出力手段は、上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第1のデータ選択手段と、上記第1のデータ選択手段で選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出するクラス検出手段と、上記所定時間を段階的に定めるパラメータの値が入力されるパラメータ入力手段と、上記クラス検出手段で検出されたクラスおよび上記パラメータ入力手段に入力されたパラメータの値に対応した推定式の係数データを発生する係数データ発生手段と、上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第2のデータ選択手段と、上記係数データ発生手段で発生された係数データおよび上記第2のデータ選択手段で選択された複数の第2のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める演算手段とを有するものである。
【0026】
また、この発明に係る音声信号処理方法は、入力される符号化音声信号を復号化して復号音声信号を得る第1のステップと、背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第2のステップと、上記第1のステップで得られる復号音声信号および上記第2のステップで得られる背景音信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む、複数のデータからなる出力音声信号を生成する第3のステップとを備え、上記第3のステップでは、上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第4のステップと、上記第4のステップで選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出する第5のステップと、上記所定時間を段階的に定めるパラメータの値が入力される第6のステップと、上記第5のステップで検出されたクラスおよび上記第6のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第7のステップと、上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第8のステップと、上記第7のステップで発生された係数データおよび上記第8のステップで選択された複数の第2のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第9のステップとを有するものである。
【0027】
また、この発明に係るプログラムは、上述の音声信号処理方法をコンピュータに実行させるためのものである。また、この発明に係るコンピュータ読み取り可能な媒体は、上述のプログラムを記録したものである。
【0028】
この発明において、入力される符号化音声信号が復号化されて復号音声信号が得られる。また、背景音がマイクロホン等によって集音され、この集音された背景音に対応した複数のデータからなる背景音信号が得られる。そして、これら復号音声信号および背景音信号に基づいて、所定時間だけの後の背景音を相殺するための予測背景音信号を含む出力音声信号が生成される。
【0029】
例えば、復号音声信号および背景音信号からクラス分類適応処理によって出力音声信号が生成される。この場合、出力音声信号に含まれる所定時間だけ後の背景音を相殺するための予測背景音信号によって出力される音声(相殺音)を、出力音声信号に含まれる復号音声信号による音声が人の聴覚システムに到達する際に同時に到達する背景音に対応したものとすることができる。
【0030】
ここで、パラメータの値を調整して任意の進み量に対応した相殺音の出力を可能とすることで、集音部で背景音を集音した時点と当該集音された背景音に基づいた相殺音が人の聴覚システムに到達する時点との間の時間差にバラツキがあっても対処できる。
【0031】
このように出力音声信号には復号音声信号の他に相殺音を出力するための予測背景音信号が含まれている。したがって、復号音声信号による音声が人の聴覚システムに到達する際に、その予測背景音信号による相殺音によって背景音を効果的に除去でき、音声品質の向上を図ることができる。また、復号音声信号および背景音信号に基づいて、例えばクラス分類適応処理によって出力音声信号を生成することで、復号音声信号の符号化雑音(符号化歪み)を良好に軽減でき、音声品質の向上を図ることができる。
【0032】
なお、符号化がCELP方式のものであるとき、復号音声信号および背景音信号の他に、音声復号化手段からの符号語および中間復号データにも基づいて出力音声信号を生成することで、出力音声信号をより精度よく生成できる。
【0041】
この発明に係る音声信号処理装置は、第1の符号化音声信号が入力される信号入力手段と、背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を出力する集音部と、上記集音部からの背景音信号を符号化して第2の符号化音声信号を得る音声符号化手段と、上記信号入力手段に入力される第1の符号化音声信号および上記音声符号化手段からの第2の符号化音声信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数のデータからなる出力音声信号を生成する音声信号出力手段とを備え、上記音声信号出力手段は、上記第1の符号化音声信号および上記第2の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第1のデータ選択手段と、上記第1のデータ選択手段で選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出するクラス検出手段と、上記所定時間を段階的に定めるパラメータの値が入力されるパラメータ入力手段と、上記クラス検出手段で検出されたクラスおよび上記パラメータ入力手段に入力されたパラメータの値に対応した、推定式の係数データを発生する係数データ発生手段と、上記第1の符号化音声信号および上記第2の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第2のデータ選択手段と、上記係数データ発生手段で発生された係数データおよび上記第2のデータ選択手段で選択された複数の第2のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める演算手段とを有するものである。
【0042】
また、この発明に係る音声信号処理方法は、第1の符号化音声信号を取得する第1のステップと、背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第2のステップと、上記第2のステップで得られる背景音信号を符号化して第2の符号化音声信号を得る第3のステップと、上記第1のステップで取得される第1の符号化音声信号および上記第3のステップで得られる第2の符号化音声信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数のデータからなる出力音声信号を生成する第4のステップとを備え、上記第4のステップでは、上記第1の符号化音声信号および上記第2の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第5のステップと、上記第5のステップで選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出する第6のステップと、上記所定時間を段階的に定めるパラメータの値が入力される第7のステップと、上記第6のステップで検出されたクラスおよび上記第7のステップで入力されたパラメータの値に対応した、推定式の係数データを発生する第8のステップと、上記第1の符号化音声信号および上記第2の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第9のステップと、上記第8のステップで発生された係数データおよび上記第9のステップで選択された複数の第2のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第10のステップとを有するものである。
【0043】
また、この発明に係るプログラムは、上述の音声信号処理方法をコンピュータに実行させるためのものである。また、この発明に係るコンピュータ読み取り可能な媒体は、上述のプログラムを記録したものである。
【0044】
この発明において、第1の符号化音声信号が入力される。また、背景音がマイクロホン等によって集音され、この集音された背景音に対応した複数のデータからなる背景音信号が得られ、この背景音信号が符号化されて第2の符号化音声信号が得られる。そして、これら第1および第2の符号化音声信号に基づいて、所定時間だけの後の背景音を相殺するための予測背景音信号を含む出力音声信号が生成される。
【0045】
例えば、第1および第2の符号化音声信号からクラス分類適応処理によって出力音声信号が生成される。この場合、出力音声信号に含まれる所定時間だけ後の背景音を相殺するための予測背景音信号によって出力される音声(相殺音)を、出力音声信号に含まれる復号音声信号による音声が人の聴覚システムに到達する際に同時に到達する背景音に対応したものとすることができる。
【0046】
ここで、パラメータの値を調整して任意の進み量に対応した相殺音の出力を可能とすることで、集音部で背景音を集音した時点と当該集音された背景音に基づいた相殺音が人の聴覚システムに到達する時点との間の時間差にバラツキがあっても対処できる。
【0047】
このように出力音声信号には復号音声信号の他に相殺音を出力するための予測背景音信号が含まれている。したがって、復号音声信号による音声が人の聴覚システムに到達する際に、その予測背景音信号による相殺音によって背景音を効果的に除去でき、音声品質の向上を図ることができる。また、第1および第2の符号化音声信号に基づいて、例えばクラス分類適応処理によって出力音声信号を生成することで、復号音声信号の符号化雑音(符号化歪み)を良好に軽減でき、音声品質の向上を図ることができる。
【0048】
なお、符号化がCELP方式のものであるとき、第1および第2の符号化音声信号の他に、これらの符号化音声信号に関する中間復号データにも基づいて出力音声信号を生成することで、出力音声信号をより精度よく生成できる。
【0057】
【発明の実施の形態】
以下、図面を参照しながら、この発明の実施の形態について説明する。まず、この発明の第1の実施の形態について説明する。図1は、第1の実施の形態としての音声信号処理装置100Aの構成を示している。
【0058】
この音声信号処理装置100Aは、例えばCELP方式等で符号化された符号化音声信号SAcが入力される入力端子101と、この入力端子101に入力された符号化音声信号SAcの復号化を行って複数のデータからなる復号音声信号SAdを得る音声復号化器102を有している。
【0059】
また、音声信号処理装置100Aは、集音部としてのマイクロホン103を有している。このマイクロホン103は、背景音を集音し、この集音された背景音に対応した複数のデータからなる第1の音声信号(背景音信号)SBG(T-α)を出力する。
【0060】
このマイクロホン103は、本実施の形態が携帯電話機に適用される場合には、例えば送話器としてのマイクロホンとは別に、受話器であるスピーカの近傍に設置される。なお、送話器としてのマイクロホンを、このマイクロホン103として使用する構成とすることもできる。その場合、このマイクロホンは、通常は話者音声を集音するが、受信時には背景音を集音する。このようなマイクロホン103の設置に関することは、後述するその他の実施の形態においても同様である。
【0061】
また、音声信号処理装置100Aは、背景音信号予測回路104を有している。この背景音信号予測回路104は、マイクロホン103より出力される第1の音声信号SBG(T-α)に基づいて、所定時間αだけ後の背景音に対応した複数のデータからなる第2の音声信号(予測背景音信号)S-BG(T)を生成する。
【0062】
また、音声信号処理装置100Aは、音声復号化器102より出力される復号音声信号SAdに背景音信号予測回路104より出力される第2の音声信号S-BG(T)を加算して出力音声信号SAoを得る加算器105と、この加算器105から出力される出力音声信号SAoを出力する出力端子106とを有している。
【0063】
図1に示す音声信号処理装置100Aの動作を説明する。
【0064】
入力端子101に入力された符号化音声信号SAcは音声復号化器102に供給される。この音声復号化器102では、符号化音声信号SAcが復号化されてて復号音声信号SAdが得られる。
【0065】
また、マイクロホン103では背景音が集音される。そして、このマイクロホン103からは、この集音された背景音に対応した複数のデータからなる第1の音声信号(背景音信号)SBG(T-α)が出力され、この第1の音声信号SBG(T-α)は背景音信号予測回路104に供給される。背景音信号予測回路104では、この第1の音声信号SBG(T-α)に基づいて、所定時間αだけ後の背景音に対応した複数のデータからなる第2の音声信号S-BG(T)が生成される。
【0066】
上述の音声復号化器102から出力される復号音声信号SAdは加算器105に供給される。また、上述の背景音信号予測回路104から出力される第2の音声信号(予測背景音信号)S-BG(T)は加算器105に供給される。そして、加算器105では、復号音声信号SAdに第2の音声信号(予測背景音信号)S-BG(T)が加算され、出力音声信号SAoが得られる。この出力音声信号SAoは出力端子106に出力される。
【0067】
このように出力端子106に出力される出力音声信号SAoを図示しないスピーカに供給したとする。この出力音声信号SAoに含まれる復号音声信号SAdに対応してスピーカから出力される音声が人の聴覚システムに到達するとき、同時にこの出力音声信号SAoに含まれる第2の音声信号S-BG(T)に対応してスピーカから出力される音声(相殺音)も人の聴覚システムに到達する。
【0068】
上述したように第2の音声信号S-BG(T)はマイクロホン103で背景音を集音した時点から所定時間αだけ後の背景音に対応したものである。したがって、マイクロホン103で背景音を集音した時点と当該集音された背景音に基づいた相殺音が人の聴覚システムに到達する時点との間の時間差がαであるとすれば、人の聴覚システム部分で、この相殺音によって背景音を相殺して効果的に除去できる。これにより、人の聴覚システム部分で、復号音声信号による音声の品質の向上を図ることができる。つまり、復号音声信号による音声を背景音に影響されずに鮮明に聴き取ることが可能となる。
【0069】
図2は、背景音の相殺動作を示している。
【0070】
時点T−αにおける環境音がマイクロホン103に入力され、このマイクロホン103の出力信号である第1の音声信号(背景音信号)SBG(T-α)は背景音信号予測回路104に供給される。背景音信号予測回路104では、入力された時点T−αにおける第1の音声信号SBG(T-α)から、それより未来の時点Tにおける音声信号SBG(T)の位相が反転された第2の音声信号(予測背景音信号)S-BG(T)が生成される。そして、この第2の音声信号S-BG(T)がスピーカSPに供給される。
【0071】
これにより、時点Tにおける背景音が人の聴覚システムであるユーザの耳40Eに達するとき、時点Tにおける背景音に対応した相殺音がスピーカSPからユーザの耳40Eに達する。そのため、ユーザの耳40Eの位置では、背景音が相殺されて除去される。
【0072】
次に、背景音信号予測回路104の詳細を説明する。
図3は、背景音信号予測回路104の構成を示している。この背景音信号予測回路104は、マイクロホン103より出力される第1の音声信号(背景音信号)SBG(T-α)を入力する入力端子40と、この入力端子40に入力された第1の音声信号SBG(T-α)をアナログ信号からデジタル信号に変換するA/Dコンバータ41を有している。
【0073】
また、背景音信号予測回路104は、このA/Dコンバータ41でデジタル信号に変換された第1の音声信号SBG(T-α)に基づいて、作成すべき第2の音声信号(予測背景音信号)S-BG(T)における注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路42およびクラスタップ選択回路43を有している。予測タップ選択回路42は、予測に使用するデータ(予測タップのデータ)を選択的に取り出すものである。クラスタップ選択回路43は、クラス分類に使用するデータ(クラスタップのデータ)を選択的に取り出すものである。
【0074】
ここで、注目位置の周辺に位置するデータとは、注目位置に対して時間方向の前後所定範囲内に存在するデータを意味している。例えば、第1の音声信号SBG(T-α)を構成する各データと第2の音声信号S-BG(T)を構成する各データとを、図4に示すように並べて表すものとする。ここで、「○」は第1の音声信号SBG(T-α)を構成する各データを示しており、「×」は第2の音声信号S-BG(T)を構成する各データを示している。この場合、第1の音声信号SBG(T-α)のある時点のデータと並ぶ第2の音声信号S-BG(T)のデータは、αだけ未来の時点のデータということになる。
【0075】
例えば、第2の音声信号S-BG(T)における注目位置がAPであるとき、予測タップ選択回路42およびクラスタップ選択回路43では、第1の音声信号SBG(T-α)を構成する各データのうち、破線で囲むように、注目位置APに対して時間方向の前後所定範囲内に存在するデータが選択的に取り出される。
【0076】
なお、予測タップ選択回路42で取り出される予測タップのデータの個数と、クラスタップ選択回路43で取り出されるクラスタップのデータの個数とは、同じでなくてもよい。
【0077】
また、背景音信号予測回路104は、クラスタップ選択回路43で選択的に取り出されるデータから例えばレベル分布パターンを特徴量として検出し、このレベル分布パターンに基づいてクラスコードCLを発生するクラス検出回路44を有している。
【0078】
このクラス検出回路44では、例えば、まず8ビットの各データを2ビットに圧縮するような演算が行われる。ここでは、ADRC(Adaptive Dynamic Range Coding)によってデータ圧縮が行われる、この場合、各データの最大値をMAX、最小値をMIN、ダイナミックレンジをDR(=MAX−MIN+1)、再量子化ビット数をPとすると、各データkiに対して、(1)式の演算により、圧縮データとしての再量子化コードqiが得られる。ただし、(1)式において、[ ]は切り捨て処理を意味している。クラスタップ選択回路43で選択されたデータの個数がNaであるとき、i=1〜Naである。
qi=[(ki−MIN+0.5)*2P/DR] ・・・(1)
【0079】
クラス検出回路44では、次に、上述したように得られる再量子化コードqiに基づき、(2)式によって、作成すべき第2の音声信号S-BG(T)における注目位置のデータが属するクラスを示すクラスコードCLを求める。
【0080】
【数1】
【0081】
また、背景音信号予測回路104は、係数メモリ45を有している。この係数メモリ45は、後述する推定予測演算回路48で使用される推定式の係数データを、クラス毎に、格納するものである。この係数データは、第1の音声信号SBG(T-α)を第2の音声信号S-BG(T)に変換するための情報である。係数メモリ45には、上述したクラス検出回路44より出力されるクラスコードCLが読み出しアドレス情報として供給される。この係数メモリ45からはクラスコードCLに対応した係数データWiが読み出され、推定予測演算回路48に供給される。
【0082】
また、背景音信号予測回路104は、情報メモリバンク46を有している。後述する推定予測演算回路48では、予測タップのデータxiと、係数メモリ45より読み出される係数データWiとから、(3)式の推定式によって、作成すべき第2の音声信号S-BG(T)の注目位置のデータyが演算される。(3)式のnは、予測タップ選択回路42で選択される予測タップの数を表している。
【0083】
【数2】
【0084】
推定式の係数データWi(i=1〜n)は、例えば(4)式に示すように、パラメータhを含む生成式によって生成される。情報メモリバンク46には、この生成式における係数データである係数種データwi0〜wi3が、クラス毎に、格納されている。この係数種データwi0〜wi3は、予測背景音信号S-BG(T)に対応した教師信号STと背景音信号SBG(T-α)に対応した複数の生徒信号SSとの間の学習によって予め生成されたものである。この係数種データの生成方法については後述する。
【0085】
【数3】
【0086】
また、背景音信号予測回路104は、各クラスの係数種データおよび時間αを定めるパラメータhの値とを用い、(4)式によって、クラス毎に、パラメータhの値に対応した推定式の係数データWi(i=1〜n)を生成する係数生成回路47を有している。この係数生成回路47には、情報メモリバンク46より、上述した各クラスの係数種データがロードされる。また、この係数生成回路47には、図示しないシステムコントローラからパラメータhの値が入力される。
【0087】
この係数生成回路47で生成される各クラスの係数データWi(i=1〜n)は、上述した係数メモリ45に格納される。この係数生成回路47における各クラスの係数データWiの生成は、パラメータhの値が変更される都度行われる。
【0088】
また、背景音信号予測回路104は、予測タップ選択回路42で選択的に取り出される予測タップのデータxiと、係数メモリ45よりクラスコードCLに基づいて読み出される係数データWiとから、(3)式の推定式によって、作成すべき第2の音声信号S-BG(T)における注目位置のデータyを演算する推定予測演算回路48を有している。
【0089】
また、背景音信号予測回路104は、推定予測演算回路48より順次出力されるデータyからなる第2の音声信号(予測背景音信号)S-BG(T)を出力する出力端子49とを有している。
【0090】
次に、背景音信号予測回路104の動作を説明する。
入力端子41に入力され、A/Dコンバータ41でデジタル信号に変換された第1の音声信号(背景音信号)SBG(T-α)より、クラスタップ選択回路43で、作成すべき第2の音声信号(予測背景音信号)S-BG(T)における注目位置の周辺に位置するクラスタップのデータが選択的に取り出される。このクラスタップ選択回路43で選択的に取り出されるクラスタップのデータはクラス検出回路44に供給される。クラス検出回路44では、クラスタップのデータからレベル分布パターンが特徴量として検出され、このレベル分布パターンに基づいて、上述の注目位置のデータが属するクラスを示すクラスコードCLが得られる((2)式参照)。
【0091】
このクラスコードCLは、係数メモリ45に読み出しアドレス情報として供給される。係数メモリ45には、係数生成回路47で、パラメータhの値に対応して、クラス毎に、係数種データwi0〜wi3を用いて推定式の係数データWi(i=1〜n)が求められて格納されている((4)式参照)。係数メモリ45に上述したようにクラスコードCLが読み出しアドレス情報として供給されることで、この係数メモリ45からクラスコードCLに対応した推定式の係数データWiが読み出されて推定予測演算回路48に供給される。
【0092】
また、A/Dコンバータ41からの第1の音声信号(背景音信号)SBG(T-α)より、予測タップ選択回路42で、作成すべき第2の音声信号(予測背景音信号)S-BG(T)における注目位置の周辺に位置する予測タップのデータが選択的に取り出される。推定予測演算回路48では、予測タップのデータxiと、係数メモリ45より読み出される係数データWiとを用いて、(3)式の推定式に基づいて、第2の音声信号S-BG(T)における注目位置のデータyが演算される。そして、推定予測演算回路48で順次演算されるデータyからなる第2の音声信号(予測背景音信号)S-BG(T)は出力端子49に出力される。
【0093】
このように、背景音信号予測回路104では、パラメータhの値に対応した推定式の係数データWi(i=1〜n)が使用されて、第2の音声信号S-BG(T)における注目位置のデータyが演算される。したがって、パラメータhの値を調整することで、マイクロホン103で集音される背景音に対する相殺音で相殺すべき背景音の進み時間をαとして、この進み時間αに対応した相殺音の放音を行い得る第2の音声信号(予測背景音信号)S-BG(T)を得ることができる。また、パラメータhの値に対応した各クラスの係数データWiを係数生成回路47で生成して使用するものであり、大量の係数データを格納しておくメモリは必要なくなり、メモリの節約を図ることができる。
【0094】
次に、係数種データの生成方法の一例について説明する。ここでは、上述した(4)式の生成式における係数データである係数種データwi0〜wi3(i=1〜n)を求める例を示すものとする。ここで、以下の説明のため、(5)式のように、tj(j=0〜3)を定義する。
t0=1,t1=h,t2=h2,t3=h3 ・・・(5)
この(5)式を用いると、(4)式は、(6)式のように書き換えられる。
【0095】
【数4】
【0096】
最終的に、学習によって未定係数wijを求める。すなわち、クラス毎に、複数の第1の音声信号(背景音信号)SBG(T-α)に対応した生徒信号のデータおよび第2の音声信号(予測背景音信号)S-BG(T)に対応した教師信号のデータを用いて、二乗誤差を最小にする係数値を決定する。いわゆる最小二乗法による解法である。学習数をm、k(1≦k≦m)番目の学習データにおける残差をek、二乗誤差の総和をEとすると、(3)式および(4)式を用いて、Eは(7)式で表される。ここで、xikは生徒信号のi番目の予測タップ位置におけるk番目のデータ、ykはそれに対応するk番目の教師信号のデータを表している。
【0097】
【数5】
【0098】
最小二乗法による解法では、(7)式のwijによる偏微分が0になるようなwijを求める。これは、(8)式で示される。
【0099】
【数6】
【0100】
以下、(9)式、(10)式のように、Xipjq、Yipを定義すると、(8)式は、(11)式のように行列を用いて書き換えられる。
【0101】
【数7】
【0102】
【数8】
【0103】
この方程式は一般に正規方程式と呼ばれている。この正規方程式は、掃き出し法(Gauss-Jordanの消去法)等を用いて、wijについて解かれ、係数種データが算出される。
【0104】
図5は、上述した係数種データの生成方法の一例の概念を示している。第2の音声信号(予測背景音信号)S-BG(T)に対応した教師信号から、第1の音声信号(背景音信号)SBG(T-α)に対応した複数の生徒信号を生成する。例えば、遅延時間αを変化させるパラメータhを9段階に可変し、9種類の生徒信号を生成する。教師信号とこのようにして生成された複数の生徒信号との間で学習を行って係数種データを生成する。
【0105】
図6は、上述した背景音信号予測回路104の情報メモリバンク46に格納される係数種データwi0〜wi3を生成する係数種データ生成装置150Aの構成を示している。
【0106】
この係数種データ生成装置150Aは、第2の音声信号(予測背景音信号)S-BG(T)に対応した教師信号ST(デジタル信号)が入力される入力端子151と、この教師信号STに対して遅延および反転処理を行って第1の音声信号(背景音信号)SBG(T-α)に対応した生徒信号SSを得る遅延反転回路152とを有している。この遅延反転回路152には、上述した背景音信号予測回路104(図3参照)におけるパラメータhの値と対応した、パラメータhの値が入力される。遅延反転回路152では、このパラメータhの値に基づいて、遅延時間αが可変される。
【0107】
また、係数種データ生成装置150Aは、遅延反転回路152より出力される生徒信号SSより、教師信号STにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路153およびクラスタップ選択回路154を有している。これらタップ選択回路153,154は、それぞれ上述した背景音信号予測回路104のタップ選択回路42,43と同様に構成される。
【0108】
また、係数種データ生成装置150Aは、クラスタップ選択回路154で選択的に取り出されるクラスタップのデータからレベル分布パターンを特徴量として検出し、このレベル分布パターンに基づいて、教師信号STにおける注目位置のデータが属するクラスを示すクラスコードCLを発生するクラス検出回路155を有している。このクラス検出回路155は、上述した背景音信号予測回路104のクラス検出回路44と同様に構成される。
【0109】
また、係数種データ生成装置150Aは、入力端子151に供給される教師信号STから得られる注目位置の各データyと、この各データyにそれぞれ対応して予測タップ選択回路153で選択的に取り出される予測タップのデータxiと、パラメータhの値と、各データyにそれぞれ対応してクラス検出回路155で発生されるクラスコードCLとを用いて、クラス毎に、係数種データwi0〜wi3を得るための正規方程式((11)式参照)を生成する正規方程式生成部156を有している。
【0110】
この場合、1個のデータyとそれに対応するn個の予測タップのデータxi(i=1〜n)との組み合わせで1個の学習データが生成されるが、パラメータhの値の変化に対応して遅延反転回路152における遅延時間αが可変され、複数の生徒信号SSが順次生成されていき、教師信号STと各生徒信号SSとの間でそれぞれ学習データの生成が行われる。これにより、正規方程式生成部156では、パラメータhの値が異なる多くの学習データが登録された正規方程式が生成され、係数種データwi0〜wi3を求めることが可能となる。
【0111】
また、係数種データ生成装置150Aは、正規方程式生成部156で、クラス毎に生成された正規方程式のデータが供給され、当該正規方程式を解いて、クラス毎に、係数種データwi0〜wi3を求める係数種データ決定部157と、この求められた係数種データwi0〜wi3を格納する係数種メモリ158とを有している。係数種データ決定部157では、正規方程式が例えば掃き出し法などによって解かれて、係数種データが求められる。
【0112】
図6に示す係数種データ生成装置150Aの動作を説明する。
入力端子151には第2の音声信号(予測背景音信号)S-BG(T)に対応した教師信号ST(デジタル信号)が供給され、そしてこの教師信号STに対して遅延反転回路152で遅延反転の処理が行われて、第1の音声信号(背景音信号)SBG(T-α)に対応した生徒信号SSが生成される。この場合、遅延反転回路152には、背景音信号予測回路104(図3参照)におけるパラメータhの値と対応したパラメータhの値が入力される。遅延反転回路152では、このパラメータhに基づいて、遅延時間αが可変される。
【0113】
また、遅延反転回路152で生成された生徒信号SSより、クラスタップ選択回路154で、教師信号STにおける注目位置の周辺に位置するクラスタップのデータが選択的に取り出される。このクラスタップのデータはクラス検出回路155に供給される。このクラス検出回路155では、クラスタップのデータからレベル分布パターンが特徴量として検出され、このレベル分布パターンに基づいて、教師信号STにおける注目位置のデータが属するクラスを示すクラスコードCLが発生される。
【0114】
また、遅延反転回路152で生成される生徒信号SSより、予測タップ選択回路153で、教師信号STにおける注目位置の周辺に位置する予測タップのデータが選択的に取り出される。
【0115】
そして、入力端子151に供給される教師信号STから得られる注目位置の各データyと、この各データyにそれぞれ対応して予測タップ選択回路153で選択的に取り出される予測タップのデータxiと、パラメータhの値と、各データyにそれぞれ対応してクラス検出回路155で発生されるクラスコードCLとを用いて、正規方程式生成部156では、クラス毎に、係数種データwi0〜wi3を得るための正規方程式((11)式参照)が生成される。
【0116】
そして、係数種データ決定部157で各正規方程式が解かれ、クラス毎の係数種データwi0〜wi3が求められ、それらの係数種データwi0〜wi3は係数種メモリ158に格納される。
【0117】
このように、図6に示す係数種データ生成装置150Aにおいては、図3の背景音信号予測回路104の情報メモリバンク46に格納される、クラス毎の、推定式((3)式参照)で用いられる係数データWiを求めるための生成式((4)式参照)における係数データである係数種データwi0〜wi3を生成することができる。
【0118】
なお、この図6に示す係数種データ生成装置150Aにおいては、正規方程式生成部156で、係数種データwi0〜wi3を直接求めるための正規方程式を生成し、この正規方程式を解いて係数種データwi0〜wi3を求めるものである。しかし、最初にパラメータhの各値に対応した推定式の係数データWiを正規方程式を生成して求め、次にそのパラメータhの各値に対応した係数データWiを用いて係数種データwi0〜wi3を求める正規方程式を生成し、その正規方程式を解いて係数種データwi0〜wi3を求めることもできる。
【0119】
また、図3に示す背景音信号予測回路104では、係数データWi(i=1〜n)を生成するために(4)式の生成式を使用したが、次数の異なった多項式や、他の関数で表現される式でも実現可能である。
【0120】
上述した図1に示す音声信号処理装置100Aにおける処理を、例えば図7に示すような音声信号処理装置300によって、ソフトウェアで実現することも可能である。
【0121】
まず、図7に示す音声信号処理装置300について説明する。この音声信号処理装置300は、装置全体の動作を制御するCPU(Central Processing Unit)301と、このCPU301の動作プログラムや係数種データ等が格納されたROM(read only memory)302と、CPU301のワークエリアを構成するRAM(random access memory)303とを有している。これらCPU301、ROM302およびRAM303は、それぞれバス304に接続されている。
【0122】
また、音声信号処理装置300は、ユーザインタフェース手段としてのキー操作部305を有している。ユーザは、このキー操作部305によりパラメータhの値を設定できる。このキー操作部305はインタフェース306を介してバス304に接続されている。
【0123】
また、音声信号処理装置300は、符号化音声信号SAcおよび背景音信号SBG(T-α)を入力するための入力端子307と、出力音声信号SAoを出力するための出力端子309とを有している。入力端子307はインタフェース308を介してバス304に接続され、同様に出力端子309はインタフェース310を介してバス304に接続される。
【0124】
ここで、上述したようにROM302に処理プログラムや係数種データ等を予め格納しておく代わりに、例えばインターネットなどの通信網からダウンロードし、図示しない不揮発性メモリ等に蓄積して使用する構成とすることもできる。
【0125】
図8のフローチャートを参照して、図7に示す音声信号処理装置300において、符号化音声信号SAcおよび背景音信号SBG(T-α)から、予測背景音信号S-BG(T)を含む出力音声信号SAoを得るための、CPU301の処理手順を説明する。この例は、デジタル携帯電話に適用した例である。
【0126】
まず、ステップST1で、通話開始に伴って処理を開始する。そして、ステップST2で、上述したようにユーザのキー操作部305の操作によって設定されたパラメータhの値に対応した各クラスの係数データを生成し、RAM303に格納しておく。この場合、例えばROM302に格納されている各クラスの係数種データwi0〜wi3を用いて、上述した(4)式の生成式によって求める。
【0127】
次に、ステップST3で、入力端子307に入力される符号化音声信号SAcおよび背景音信号SBG(T-α)を取り込んでRAM303に蓄積する。そして、ステップST4で、符号化音声信号SAcを復号化して復号音声信号SAdを生成し、RAM303に格納しておく。
【0128】
次に、ステップST5で、ステップST3で取り込まれた背景音信号SBG(T-α)およびステップST2で生成された係数データを用いて、予測背景音信号S-BG(T)における注目位置のデータを生成する。図9のフローチャートは、この注目位置のデータを生成するためのCPU301の処理手順(サブルーチン)を示している。
【0129】
まず、ステップST51で、処理を開始する。そして、ステップST52で、RAM303に蓄積された背景音声信号SBG(T-α)から、予測背景音信号S-BG(T)における注目位置の周辺に位置する予測タップのデータおよびクラスタップのデータを取得する。
【0130】
次に、ステップST53で、ステップST52で取得されたクラスタップのデータから、予測背景音信号S-BG(T)における注目位置のデータが属するクラスを示すクラスコードCLを生成する。そして、ステップST54で、ステップST2で生成されてRAM303に格納されている各クラスの係数データのうち、そのクラスコードCLに対応した係数データWiと、ステップST52で取得された予測タップのデータxiを使用して、(3)式の推定式により、予測背景音信号S-BG(T)における注目位置のデータyを生成し、その後にステップST55でメインルーチンにリターンする。
【0131】
図8に戻って、ステップST5の処理の後、ステップST6で、ステップST4で生成された復号音声信号SAdのデータに、ステップST5で生成された予測背景音信号S-BG(T)における注目位置のデータを加算して、出力音声信号SAoのデータを生成して出力端子309に出力する。
【0132】
次に、ステップST7で、通話が終了したか否かを判定する。通話が終了したときは、ステップST8で、音声信号の処理を終了する。一方、通話が終了していないときは、ステップST9に進む。
【0133】
ステップST9では、パラメータhの変更があったか否かを判定する。パラメータhの値の変更があったときは、ステップST2に戻って、変更されたパラメータhの値に対応した各クラスの係数データを生成し、その後は上述したと同様の音声信号の処理を行う。一方、パラメータhの値の変更がなかったときは、ステップST3に戻って、上述したと同様の音声信号の処理を行う。
また、処理装置の図示は省略するが、図6の係数種データ生成装置150Aにおける処理を、ソフトウェアで実現することも可能である。
【0134】
図10のフローチャートを参照して、係数種データを生成するためのCPUにおける処理手順を説明する。
まず、ステップST21で、処理を開始し、ステップST22で、パラメータhの値を選択する。そして、ステップST23で、パラメータhの全ての値についての学習処理が終了したか否かを判定する。全ての値についての学習処理が終了していないときは、ステップST24に進む。
【0135】
ステップST24では、所定時間分の教師信号ST(第2の音声信号(予測背景音信号S-BG(T))に対応)を入力する。そして、ステップST25で、ステップST24で入力された教師信号STに対して遅延反転処理を施して、第1の音声信号(背景音信号SBG(T-α))に対応した生徒信号SSを生成する。この場合、パラメータhの値に基づいて遅延時間αを定める。
【0136】
次に、ステップST26で、生徒信号SSから、教師信号STにおける注目位置の周辺に位置する予測タップのデータおよびクラスタップのデータを取得する。そして、ステップST27で、ステップST26で取得されたクラスタップのデータから、教師信号STにおける注目位置のデータが属するクラスを示すクラスコードCLを生成する。
【0137】
次に、ステップST28で、ステップST27で生成されたクラスコードCLと、ステップST22で選択されたパラメータhの値と、ステップST26で取得された予測タップのデータxiと、教師信号STにおける注目位置のデータyとを用いて、(11)式に示す正規方程式を得るための加算をする((9)式、(10)式参照)。
【0138】
次に、ステップST29で、ステップST24で入力された教師信号STに関する学習処理が終了したか否かを判定する。学習処理が終了していないときは、ステップST26に戻って、教師信号STの次の注目位置についての学習処理を行う。一方、学習処理が終了したときは、ステップST30に進む。
【0139】
ステップST30では、全ての教師信号STに関する学習処理が終了したか否かを判定する。学習処理が終了していないときは、ステップST24に戻って、次の所定時間分の教師信号STの入力を行って、上述したようにそれに関する学習処理を行う。一方、学習処理が終了したときは、ステップST22に戻って、次のパラメータhの値を選択し、上述したと同様の処理をする。
【0140】
また、ステップST23で、パラメータhの全ての値に対して学習処理が終了したときは、ステップST31に進む。このステップST31では、ステップ28の加算処理によって生成された、クラス毎の正規方程式を掃き出し法等で解くことによって、各クラスの係数種データwi0〜wi3を求め、ステップST32で、その各クラスの係数種データwi0〜wi3をメモリにストアする。その後に、ステップST33で、係数種データの生成処理を終了する。
【0141】
このように、図10に示すフローチャートに沿って処理をすることで、図6に示す係数種データ生成装置150Aと同様の手法によって、係数種データを得ることができる。
【0142】
なお、図3の背景音信号予測回路104では、係数生成回路47で各クラスの係数種データwi0〜wi3を用いてパラメータhの値に対応した各クラスの係数データWiを生成し、それを係数メモリ45に格納して使用するものを示した。しかし、例えば情報メモリバンク46にパラメータhの各値に対応した各クラスの係数データWiを予め蓄積しておき、この情報メモリバンク46からパラメータhの値に対応した各クラスの係数データWiを読み出して係数メモリ45に格納して使用する構成とすることもできる。
【0143】
また、図3の背景音信号予測回路104では、予測背景音信号S-BG(T)における注目位置のデータyを生成する際の推定式として、(3)式の線形一次方程式を使用したものを挙げたが、これに限定されるものではなく、例えば推定式として高次方程式を使用することも考えられる。
【0144】
また、図3の背景音信号予測回路104では、情報メモリバンク46に各クラスの係数種データwi0〜wi3を1種類だけ蓄積しておくものを示した。しかし、情報メモリバンク46に背景音の種類、レベルなどに応じた複数種類の係数種データwi0〜wi3を蓄積しておき、使用する係数種データwi0〜wi3を切り換え可能としてもよい。これにより、背景音の種類、レベルなどに応じて、より適切な予測背景音信号S-BG(T)を生成することができ、背景音の除去効果を高めることが可能となる。
【0145】
また、図1に示す音声信号処理装置100Aにおいては、加算器105で、音声復号化器102からの復号音声信号SAdに、背景音信号予測回路104で生成された予測背景音信号S-BG(T)を加算して、出力音声信号SAoを得るものを示した。これは、背景音信号予測回路104で生成される予測背景音信号S-BG(T)として、背景音信号SBG(T-α)に対して反転されたものを得るようにしているからである。
【0146】
したがって、背景音信号予測回路104で背景音信号SBG(T-α)に対して反転されていない予測背景音信号SBG(T)を生成するとすれば、この予測背景音信号SBG(T)を音声復号化器102からの復号音声信号SAdから差し引くことで、出力音声信号SAoを得ることができる。なお、この予測背景音信号SBG(T)を生成する際に使用される係数種データwi0〜wi3は、図6に示す係数種データ生成装置150において、遅延反転回路152を単なる遅延回路とすることで、生成することができる。
【0147】
次に、この発明の第2の実施の形態について説明する。図11は、第2の実施の形態としての音声信号処理装置100Bの構成を示している。この図11において、図1と対応する部分には同一符号を付して示している。
【0148】
この音声信号処理装置100Bは、例えばCELP方式等で符号化された符号化音声信号SAcが入力される入力端子101と、この入力端子101に入力された符号化音声信号SAcの復号化を行って複数のデータからなる復号音声信号SAdを得る音声復号化器102を有している。
【0149】
また、音声信号処理装置100Bは、集音部としてのマイクロホン103を有している。このマイクロホン103は、背景音を集音し、この集音された背景音に対応した複数のデータからなる背景音信号SBG(T-α)を出力する。
【0150】
また、音声信号処理装置100Bは、音声復号化器102より得られる復号音声信号SAdに基づいて、作成すべき出力音声信号SAoにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路107およびクラスタップ選択回路108を有している。予測タップ選択回路107は、予測に使用するデータ(予測タップのデータ)を選択的に取り出すものである。クラスタップ選択回路108は、クラス分類に使用するデータ(クラスタップのデータ)を選択的に取り出すものである。
【0151】
また、音声信号処理装置100Bは、マイクロホン103から出力される背景音信号SBG(T-α)をアナログ信号からデジタル信号に変換するA/Dコンバータ109と、このA/Dコンバータ109でデジタル信号に変換された背景音信号SBG(T-α)に基づいて、作成すべき出力音声信号SAoにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路111およびクラスタップ選択回路112を有している。
【0152】
ここで、注目位置の周辺に位置するデータとは、注目位置に対して時間方向の前後所定範囲内に存在するデータを意味している。例えば、復号音声信号SAd、背景音信号SBG(T-α)および出力音声信号SAoをそれぞれ構成する各データを、図12に示すように並べて表すものとする。
【0153】
ここで、「○」は復号音声信号SAdを構成する各データを示しており、[△」は背景音信号SBG(T-α)を構成する各データを示しており、さらに「×」は出力音声信号SAoを構成する各データを示している。この場合、背景音信号SBG(T-α)のある時点のデータと並ぶ出力音声信号SAoのデータは、αだけ未来の時点の予測背景音信号S-BG(T)のデータを含んだデータということになる。
【0154】
例えば、出力音声信号SAoにおける注目位置がAPであるとき、予測タップ選択回路107およびクラスタップ選択回路108では、復号音声信号SAdを構成する各データのうち、破線で囲むように、注目位置APに対して時間方向の前後所定範囲内に存在するデータが選択的に取り出される。また同様に、出力音声信号SAoにおける注目位置がAPであるとき、予測タップ選択回路111およびクラスタップ選択回路112では、背景音信号SBG(T-α)を構成する各データのうち、破線で囲むように、注目位置APに対して時間方向の前後所定範囲内に存在するデータが選択的に取り出される。
【0155】
また、音声信号処理装置100Bは、クラスタップ選択回路108,112で選択的に取り出されるデータから例えばレベル分布パターンを特徴量として検出し、このレベル分布パターンに基づいてクラスコードCLを発生するクラス検出回路113を有している。このクラス検出回路113は、例えば、図3の背景音信号予測回路104のクラス検出回路44と同様に、ADRCによってデータ圧縮を行ってクラスコードCLを生成する。
【0156】
また、音声信号処理装置100Bは、係数メモリ114を有している。この係数メモリ114は、後述する推定予測演算回路117で使用される推定式の係数データを、クラス毎に、格納するものである。この係数データは、復号音声信号SAdおよび背景音信号SBG(T-α)を出力音声信号SAoに変換するための情報である。ここで、出力音声信号SAoは、復号音声信号SAdに対応した復号音声信号SAd′と背景音信号SBG(T-α)に対応した予測背景音信号S-BG(T)とを含んでいる。係数メモリ114には、上述したクラス検出回路113より出力されるクラスコードCLが読み出しアドレス情報として供給される。この係数メモリ114からはクラスコードCLに対応した係数データWiが読み出され、推定予測演算回路117に供給される。
【0157】
また、音声信号処理装置100Bは、情報メモリバンク115を有している。後述する推定予測演算回路117では、予測タップのデータxiと、係数メモリ114より読み出される係数データWiとから、上述した(3)式の推定式によって、作成すべき出力音声信号SAoにおける注目位置のデータyが演算される。
【0158】
ここで、推定式の係数データWi(i=1〜n)は、上述した(4)式に示すように、パラメータhを含む生成式によって生成される。情報メモリバンク115には、この生成式における係数データである係数種データwi0〜wi3が、クラス毎に、格納されている。この係数種データwi0〜wi3は、復号音声信号SAd′および予測背景音信号S-BG(T)を含む出力音声信号SAoに対応した教師信号STと、復号音声信号SAdに対応した複数の第1の生徒信号SS1および背景音信号SBG(T-α)に対応した複数の第2の生徒信号SS2との間の学習によって予め生成されたものである。この係数種データの生成方法については後述する。
【0159】
また、音声信号処理装置100Bは、各クラスの係数種データおよび時間αを定めるパラメータhの値とを用い、(4)式によって、クラス毎に、パラメータhの値に対応した推定式の係数データWi(i=1〜n)を生成する係数生成回路116を有している。この係数生成回路116には、情報メモリバンク115より、上述した各クラスの係数種データがロードされる。また、この係数生成回路116には、図示しないシステムコントローラからパラメータhの値が入力される。
【0160】
この係数生成回路116で生成される各クラスの係数データWi(i=1〜n)は、上述した係数メモリ114に格納される。この係数生成回路116における各クラスの係数データWiの生成は、パラメータhの値が変更される都度行われる。
【0161】
また、音声信号処理装置100Bは、予測タップ選択回路107,111で選択的に取り出される予測タップのデータxiと、係数メモリ114よりクラスコードCLに基づいて読み出される係数データWiとから、(3)式の推定式によって、作成すべき出力音声信号SAoにおける注目位置のデータyを演算する推定予測演算回路117を有している。
【0162】
また、音声信号処理装置100Bは、推定予測演算回路117より順次出力されるデータyからなる出力音声信号SAoを出力する出力端子106とを有している。
【0163】
次に、音声信号処理装置100Bの動作を説明する。
入力端子101に入力された符号化音声信号SAcは音声復号化器102に供給される。この音声復号化器102では、符号化音声信号SAcが復号化されてて復号音声信号SAdが得られる。また、マイクロホン103では背景音が集音される。そして、このマイクロホン103からは、この集音された背景音に対応した複数のデータからなる背景音信号SBG(T-α)が出力され、この背景音信号SBG(T-α)はA/Dコンバータ109に供給されてデジタル信号に変換される。
【0164】
音声復号化器102で得られる復号音声信号SAdに基づいて、クラスタップ選択回路108で、作成すべき出力音声信号SAoにおける注目位置の周辺に位置するクラスタップのデータが選択的に取り出され、またA/Dコンバータ109より出力される背景音信号SBG(T-α)に基づいて、クラスタップ選択回路112で、作成すべき出力音声信号SAoにおける注目位置の周辺に位置するクラスタップのデータが選択的に取り出される。
【0165】
このクラスタップ選択回路108,112で選択的に取り出されるクラスタップのデータはクラス検出回路113に供給される。クラス検出回路113では、クラスタップのデータからレベル分布パターンが特徴量として検出され、このレベル分布パターンに基づいて、上述の注目位置のデータが属するクラスを示すクラスコードCLが得られる((2)式参照)。
【0166】
このクラスコードCLは、係数メモリ114に読み出しアドレス情報として供給される。係数メモリ114には、係数生成回路116で、パラメータhの値に対応して、クラス毎に、係数種データwi0〜wi3を用いて推定式の係数データWi(i=1〜n)が求められて格納されている((4)式参照)。係数メモリ114に上述したようにクラスコードCLが読み出しアドレス情報として供給されることで、この係数メモリ114からクラスコードCLに対応した推定式の係数データWiが読み出されて推定予測演算回路117に供給される。
【0167】
また、音声復号化器102で得られる復号音声信号SAdに基づいて、予測タップ選択回路107で、作成すべき出力音声信号SAoにおける注目位置の周辺に位置する予測タップのデータが選択的に取り出され、またA/Dコンバータ109より出力される背景音信号SBG(T-α)に基づいて、予測タップ選択回路111で、作成すべき出力音声信号SAoにおける注目位置の周辺に位置する予測タップのデータが選択的に取り出される。
【0168】
推定予測演算回路117では、タップ選択回路107,111で取り出される予測タップのデータxiと、係数メモリ114より読み出される係数データWiとを用いて、(3)式の推定式に基づいて、出力音声信号SAoにおける注目位置のデータyが演算される。そして、推定予測演算回路117で順次演算されるデータyからなる出力音声信号SAoは出力端子106に出力される。
【0169】
上述したように、情報メモリバンク115に格納されている係数種データwi0〜wi3は、復号音声信号SAd′および予測背景音信号S-BG(T)を含む出力音声信号SAoに対応した教師信号STと、復号音声信号SAdに対応した複数の第1の生徒信号SS1および背景音信号SBG(T-α)に対応した複数の第2の生徒信号SS2との間の学習によって予め生成されたものである。
【0170】
したがって、出力端子106に出力される出力音声信号SAoは、復号音声信号SAdに対応した復号音声信号SAd′と背景音信号SBG(T-α)に対応した予測背景音信号S-BG(T)とを含むものとなる。この出力音声信号SAoを図示しないスピーカに供給したとする。この出力音声信号SAoに含まれる復号音声信号SAd′に対応してスピーカから出力される音声が人の聴覚システムに到達するとき、同時にこの出力音声信号SAoに含まれる予測背景音信号S-BG(T)に対応してスピーカから出力される音声(相殺音)も人の聴覚システムに到達する。
【0171】
上述したように予測背景音信号S-BG(T)はマイクロホン103で背景音を集音した時点から所定時間αだけ後の背景音に対応したものである。したがって、マイクロホン103で背景音を集音した時点と当該集音された背景音に基づいた相殺音が人の聴覚システムに到達する時点との間の時間差がαであるとすれば、人の聴覚システム部分で、この相殺音によって背景音を相殺して効果的に除去できる。これにより、人の聴覚システム部分で、復号音声信号SAd′による音声の品質の向上を図ることができる。つまり、復号音声信号SAd′による音声を背景音に影響されずに鮮明に聴き取ることが可能となる。
【0172】
また、パラメータhの値に対応した推定式の係数データWi(i=1〜n)が使用されて、予測背景音信号S-BG(T)を含む出力音声信号SAoにおける注目位置のデータyが演算される。したがって、パラメータhの値を調整することで、マイクロホン103で集音される背景音に対する相殺音で相殺すべき背景音の進み時間をαとして、この進み時間αに対応した相殺音の放音を行い得る予測背景音信号S-BG(T)を得ることができる。
【0173】
また、パラメータhの値に対応した各クラスの係数データWiを係数生成回路116で生成して使用するものであり、大量の係数データを格納しておくメモリは必要なくなり、メモリの節約を図ることができる。
【0174】
また、上述したように、情報メモリバンク115に格納されている係数種データwi0〜wi3は、復号音声信号SAd′および予測背景音信号S-BG(T)を含む出力音声信号SAoに対応した教師信号STと、復号音声信号SAdに対応した複数の第1の生徒信号SS1および背景音信号SBG(T-α)に対応した複数の第2の生徒信号SS2との間の学習によって予め生成されたものである。
【0175】
この場合、教師信号STのうち復号音声信号SAd′に対応する第1の教師信号ST1として符号化雑音を含まない音声信号を用い、復号音声信号SAdに対応した複数の第1の生徒信号SS1としてこの復号音声信号SAdと同様の符号化雑音を含む音声信号を用いて学習を行って得られる係数種データwi0〜wi3を用いることで、出力音声信号SAoに含まれる復号音声信号SAd′として符号化雑音が大幅に軽減されたものを得ることができる。これにより、復号音声信号SAd′による音声の品質の向上を図ることができる。
【0176】
次に、図13を使用して、上述した音声信号処理装置100Bの情報メモリバンク115に格納される係数種データwi0〜wi3を生成する係数種データ生成装置150Bについて説明する。この図13において、図6と対応する部分には同一符号を付して示している。
【0177】
この係数種データ生成装置150Bは、予測背景音信号S-BG(T)に対応した第2の教師信号ST2が入力される入力端子151と、この教師信号ST2に対して遅延および反転処理を行って、背景音信号SBG(T-α)に対応した第2の生徒信号SS2を得る遅延反転回路152とを有している。この遅延反転回路152には、上述した音声信号処理装置100B(図11参照)におけるパラメータhの値と対応した、パラメータhの値が入力される。遅延反転回路152では、このパラメータhの値に基づいて、遅延時間αが可変される。
【0178】
また、係数種データ生成装置150Bは、復号音声信号SAd′に対応した第1の教師信号ST1が入力される入力端子161と、この入力端子161に入力される教師信号ST1に対して符号化を行って符号化音声信号を得る音声符号化器162と、この音声符号化器162より得られる符号化音声信号に対して復号化を行って、復号音声信号SAdに対応した第1の生徒信号SS1を得る音声復号化器163とを有している。
【0179】
また、係数種データ生成装置150Bは、入力端子161に入力される教師信号ST1を、上述した音声符号化器162および音声復号化器163の処理時間に対応した時間だけ遅延させる時間調整用の遅延回路164と、この遅延回路164で遅延された第1の教師信号ST1と入力端子151に入力される第2の教師信号ST2とを加算して教師信号STを得る加算器165とを有している。
【0180】
また、係数種データ生成装置150Bは、音声復号化器163より得られる第1の生徒信号SS1に基づいて、教師信号STにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路166およびクラスタップ選択回路167を有している。これらタップ選択回路166,167は、それぞれ上述した音声信号処理装置100Bのタップ選択回路107,108と同様に構成される。
【0181】
また、係数種データ生成装置150Bは、遅延反転回路152より得られる第2の生徒信号SS2に基づいて、教師信号STにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路168およびクラスタップ選択回路169を有している。これらタップ選択回路168,169は、それぞれ上述した音声信号処理装置100Bのタップ選択回路111,112と同様に構成される。
【0182】
また、係数種データ生成装置150Bは、クラスタップ選択回路167,169で選択的に取り出されるクラスタップのデータからレベル分布パターンを特徴量として検出し、このレベル分布パターンに基づいて、教師信号STにおける注目位置のデータが属するクラスを示すクラスコードCLを発生するクラス検出回路170を有している。このクラス検出回路170は、上述した音声信号処理装置100Bのクラス検出回路113と同様に構成される。
【0183】
また、係数種データ生成装置150Bは、加算器165より出力される教師信号STから得られる注目位置の各データyと、この各データyにそれぞれ対応して予測タップ選択回路166,168で選択的に取り出される予測タップのデータxiと、パラメータhの値と、各データyにそれぞれ対応してクラス検出回路170で発生されるクラスコードCLとを用いて、クラス毎に、係数種データwi0〜wi3を得るための正規方程式((11)式参照)を生成する正規方程式生成部171を有している。
【0184】
この場合、1個のデータyとそれに対応するn個の予測タップのデータxi(i=1〜n)との組み合わせで1個の学習データが生成されるが、パラメータhの値の変化に対応して遅延反転回路152における遅延時間αが可変され、複数の第2の生徒信号SS2が順次生成されていき、教師信号STと各生徒信号SS1,SS2との間でそれぞれ学習データの生成が行われる。これにより、正規方程式生成部171では、パラメータhの値が異なる多くの学習データが登録された正規方程式が生成され、係数種データwi0〜wi3を求めることが可能となる。
【0185】
また、係数種データ生成装置150Bは、正規方程式生成部171で、クラス毎に生成された正規方程式のデータが供給され、当該正規方程式を解いて、クラス毎に、係数種データwi0〜wi3を求める係数種データ決定部157と、この求められた係数種データwi0〜wi3を格納する係数種メモリ158とを有している。
【0186】
図13に示す係数種データ生成装置150Bの動作を説明する。
入力端子151には予測背景音信号S-BG(T)に対応した第2の教師信号ST2が供給され、そしてこの第2の教師信号ST2に対して遅延反転回路152で遅延反転の処理が行われて、背景音信号SBG(T-α)に対応した第2の生徒信号SS2が生成される。この場合、遅延反転回路152には、音声信号処理装置100B(図11参照)におけるパラメータhの値と対応したパラメータhの値が入力される。遅延反転回路152では、このパラメータhに基づいて、遅延時間αが可変される。
【0187】
入力端子161には復号音声信号SAd′に対応した第1の教師信号ST1が供給され、そして音声符号化器162で、この第1の教師信号ST1に対して符号化が施されて、符号化音声信号が得られる。この符号化音声信号は、音声復号化器163に供給される。音声復号化器163では、符号化音声信号に対して復号化が施されて、復号音声信号SAdに対応した第1の生徒信号SS1が生成される。ここで、第1の生徒信号SS1は符号化および復号化を経た音声信号であるので、符号化歪みを伴ったものとなる。
【0188】
入力端子161に入力される第1の教師信号ST1は遅延回路164で遅延された後に加算器165に供給される。この加算器165には入力端子151に入力される第2の教師信号ST2も供給される。そして、加算器165では、第1の教師信号ST1と第2の教師信号ST2とが加算されて、教師信号STが得られる。
【0189】
また、音声復号化器163、遅延反転回路152で得られる第1、第2の生徒信号SS1,SS2に基づいて、クラスタップ選択回路167,169で、教師信号STにおける注目位置の周辺に位置するクラスタップのデータが選択的に取り出される。このクラスタップのデータはクラス検出回路170に供給される。このクラス検出回路170では、クラスタップのデータからレベル分布パターンが特徴量として検出され、このレベル分布パターンに基づいて、教師信号STにおける注目位置のデータが属するクラスを示すクラスコードCLが発生される。
【0190】
また、音声復号化器163、遅延反転回路152で得られる第1、第2の生徒信号SS1,SS2に基づいて、予測タップ選択回路166,168で、教師信号STにおける注目位置の周辺に位置する予測タップのデータが選択的に取り出される。
【0191】
そして、加算器165で得られる教師信号STにおける注目位置の各データyと、この各データyにそれぞれ対応して予測タップ選択回路166,168で選択的に取り出される予測タップのデータxiと、パラメータhの値と、各データyにそれぞれ対応してクラス検出回路170で発生されるクラスコードCLとを用いて、正規方程式生成部171では、クラス毎に、係数種データwi0〜wi3を得るための正規方程式((11)式参照)が生成される。
【0192】
そして、係数種データ決定部157で各正規方程式が解かれ、クラス毎の係数種データwi0〜wi3が求められ、それらの係数種データwi0〜wi3は係数種メモリ158に格納される。
【0193】
このように、図13に示す係数種データ生成装置150Bにおいては、図11の音声信号処理装置100Bの情報メモリバンク115に格納される、クラス毎の、推定式((3)式参照)で用いられる係数データWiを求めるための生成式((4)式参照)における係数データである係数種データwi0〜wi3を生成することができる。
【0194】
なお、この図13に示す係数種データ生成装置150Bにおいては、正規方程式生成部171で、係数種データwi0〜wi3を直接求めるための正規方程式を生成し、この正規方程式を解いて係数種データwi0〜wi3を求めるものである。しかし、最初にパラメータhの各値に対応した推定式の係数データWiを正規方程式を生成して求め、次にそのパラメータhの各値に対応した係数データWiを用いて係数種データwi0〜wi3を求める正規方程式を生成し、その正規方程式を解いて係数種データwi0〜wi3を求めることもできる。
【0195】
また、図11に示す音声信号処理装置100Bでは、係数データWi(i=1〜n)を生成するために(4)式の生成式を使用したが、次数の異なった多項式や、他の関数で表現される式でも実現可能である。
【0196】
また、図11に示す音声信号処理装置100Bにおける処理を、例えば図7に示すような音声信号処理装置300によって、ソフトウェアで実現することも可能である。
【0197】
図14のフローチャートを参照して、図7に示す音声信号処理装置300において、符号化音声信号SAcおよび背景音信号SBG(T-α)から、予測背景音信号S-BG(T)を含む出力音声信号SAoを得るための、CPU301の処理手順を説明する。この例は、デジタル携帯電話に適用した例である。
【0198】
まず、ステップST101で、通話開始に伴って処理を開始する。そして、ステップST102で、ユーザのキー操作部305の操作によって設定されたパラメータhの値に対応した各クラスの係数データを生成し、RAM303に格納しておく。この場合、例えばROM302に格納されている各クラスの係数種データwi0〜wi3を用いて、上述した(4)式の生成式によって求める。
【0199】
次に、ステップST103で、入力端子307に入力される符号化音声信号SAcおよび背景音信号SBG(T-α)を取り込んでRAM303に蓄積する。そして、ステップST104で、符号化音声信号SAcを復号化して復号音声信号SAdを生成し、RAM303に格納しておく。
【0200】
次に、ステップST105で、ステップST104で生成された復号音声信号SAd、ステップST103で取り込まれた背景音信号SBG(T-α)、およびステップST2で生成された係数データを用いて、出力音声信号SAoにおける注目位置のデータを生成して出力端子309に出力する。図15のフローチャートは、この注目位置のデータを生成して出力するための処理手順(サブルーチン)を示している。
【0201】
まず、ステップST151で、処理を開始する。そして、ステップST152で、RAM303に蓄積された復号音声信号SAd、背景音声信号SBG(T-α)から、出力音声信号SAoにおける注目位置の周辺に位置する予測タップのデータおよびクラスタップのデータを取得する。
【0202】
次に、ステップST153で、ステップST152で取得されたクラスタップのデータから、出力音声信号SAoにおける注目位置のデータが属するクラスを示すクラスコードCLを生成する。そして、ステップST154で、ステップST102で生成されてRAM303に格納されている各クラスの係数データのうち、そのクラスコードCLに対応した係数データWiと、ステップST152で取得された予測タップのデータxiを使用して、(3)式の推定式により、出力音声信号SAoにおける注目位置のデータyを生成して出力端子309に出力し、その後にステップST155でメインルーチンにリターンする。
【0203】
図14に戻って、ステップST105の処理の後、ステップST106で、通話が終了したか否かを判定する。通話が終了したときは、ステップST107で、音声信号の処理を終了する。一方、通話が終了していないときは、ステップST108に進む。
【0204】
ステップST108では、パラメータhの変更があったか否かを判定する。パラメータhの値の変更があったときは、ステップST102に戻って、変更されたパラメータhの値に対応した各クラスの係数データを生成し、その後は上述したと同様の音声信号の処理を行う。一方、パラメータhの値の変更がなかったときは、ステップST103に戻って、上述したと同様の音声信号の処理を行う。また、処理装置の図示は省略するが、図13の係数種データ生成装置150Bにおける処理を、ソフトウェアで実現することも可能である。
【0205】
図16のフローチャートを参照して、係数種データを生成するためのCPUにおける処理手順を説明する。
まず、ステップST121で、処理を開始し、ステップST122で、パラメータhの値を選択する。そして、ステップST123で、パラメータhの全ての値についての学習処理が終了したか否かを判定する。全ての値についての学習処理が終了していないときは、ステップST124に進む。
【0206】
ステップST124では、所定時間分の第1の教師信号ST1(復号音声信号SAd′に対応)および第2の教師信号ST2(予測背景音信号S-BG(T)に対応)を入力する。そして、ステップST125で、ステップST124で入力された教師信号ST1,ST2を加算し、教師信号STを生成する。
【0207】
また、ステップST126で、ステップST124で入力された第1の教師信号ST1に対して符号化を施し、さらに得られた符号化音声信号に対して復号化を施して、復号音声信号SAdに対応した第1の生徒信号SS1を生成する。さらに、このステップST126で、第2の教師信号ST2に対して遅延反転処理を施して、背景音信号SBG(T-α)に対応した生徒信号SSを生成する。この場合、パラメータhの値に基づいて遅延時間αを定める。
【0208】
次に、ステップST127で、生徒信号SS1,SS2から、教師信号STにおける注目位置の周辺に位置する予測タップのデータおよびクラスタップのデータを取得する。そして、ステップST128で、ステップST127で取得されたクラスタップのデータから、教師信号STにおける注目位置のデータが属するクラスを示すクラスコードCLを生成する。
【0209】
次に、ステップST129で、ステップST128で生成されたクラスコードCLと、ステップST122で選択されたパラメータhの値と、ステップST126で取得された予測タップのデータxiと、教師信号STにおける注目位置のデータyとを用いて、(11)式に示す正規方程式を得るための加算をする((9)式、(10)式参照)。
【0210】
次に、ステップST130で、ステップST124で入力された教師信号ST1,ST2に関する学習処理が終了したか否かを判定する。学習処理が終了していないときは、ステップST127に戻って、教師信号STの次の注目位置についての学習処理を行う。一方、学習処理が終了したときは、ステップST131に進む。
【0211】
ステップST131では、全ての教師信号STに関する学習処理が終了したか否かを判定する。学習処理が終了していないときは、ステップST124に戻って、次の所定時間分の教師信号ST1,ST2の入力を行って、上述したようにそれに関する学習処理を行う。一方、学習処理が終了したときは、ステップST122に戻って、次のパラメータhの値を選択し、上述したと同様の処理をする。
【0212】
また、ステップST123で、パラメータhの全ての値に対して学習処理が終了したときは、ステップST132に進む。このステップST132では、ステップ129の加算処理によって生成された、クラス毎の正規方程式を掃き出し法等で解くことによって、各クラスの係数種データwi0〜wi3を求め、ステップST133で、その各クラスの係数種データwi0〜wi3をメモリにストアする。その後に、ステップST134で、係数種データの生成処理を終了する。
【0213】
このように、図16に示すフローチャートに沿って処理をすることで、図13に示す係数種データ生成装置150Bと同様の手法によって、係数種データを得ることができる。
【0214】
なお、図11の音声信号処理装置100Bでは、係数生成回路116で各クラスの係数種データwi0〜wi3を用いてパラメータhの値に対応した各クラスの係数データWiを生成し、それを係数メモリ114に格納して使用するものを示した。しかし、例えば情報メモリバンク115にパラメータhの各値に対応した各クラスの係数データWiを予め蓄積しておき、この情報メモリバンク115からパラメータhの値に対応した各クラスの係数データWiを読み出して係数メモリ114に格納して使用する構成とすることもできる。
【0215】
また、図11の音声信号処理装置100Bでは、出力音声信号SAoにおける注目位置のデータyを生成する際の推定式として、(3)式の線形一次方程式を使用したものを挙げたが、これに限定されるものではなく、例えば推定式として高次方程式を使用することも考えられる。
【0216】
また、図11の音声信号処理装置100Bでは、情報メモリバンク115に各クラスの係数種データwi0〜wi3を1種類だけ蓄積しておくものを示した。しかし、情報メモリバンク115に背景音の種類、レベルなどに応じた複数種類の係数種データwi0〜wi3を蓄積しておき、使用する係数種データwi0〜wi3を切り換え可能としてもよい。これにより、背景音の種類、レベルなどに応じて、より適切な予測背景音信号S-BG(T)を含む出力音声信号SAoを生成することができ、背景音の除去効果を高めることが可能となる。
【0217】
次に、この発明の第3の実施の形態について説明する。図17は、第3の実施の形態としての音声信号処理装置100Cの構成を示している。この図17において、図11と対応する部分には同一符号を付し、その詳細説明は省略する。
【0218】
この音声信号処理装置100Cは、入力端子101に、CELP方式で符号化された符号化音声信号SAcが入力され、この符号化音声信号SAcの符号化を行って復号音声信号SAdを得る音声復号化器121を有している。
【0219】
この音声復号化器121を説明する前に、CELP方式で符号化を行うための音声符号化器について説明する。図18は、CELP方式の音声符号化器400の構成を示している。
【0220】
入力端子401に、例えば8kHz等のサンプリング周波数でサンプリングしてデジタル信号に変換されて得られた音声信号s[k]が入力される。この音声信号s[k]は、演算器402とLPC(Liner Prediction Coefficient)分析部403に供給される。
【0221】
LPC分析部403は、音声信号s[k]を、例えば、160サンプル分の長さのフレームごとにLPC分析し、P次の線形予測係数α1,α2,・・・,αPを求める。そして、LPC分析部403は、このP次の線形予測係数αp(p=1,2,・・・,P)を要素とするベクトルを、音声の特徴ベクトルαとして、ベクトル量子化部404に供給する。
【0222】
ベクトル量子化部404は、線形予測係数を要素とするコードベクトルとコードとを対応付けたコードブックを記憶しており、そのコードブックに基づいて、LPC分析部403からの特徴ベクトルαをベクトル量子化し、そのベクトル量子化により得られるコード(以下、適宜、Aコード(A_code)という)を、コード決定部414に供給する。
【0223】
また、ベクトル量子化部404は、Aコードに対応するコードベクトルα’を構成する要素となっている線形予測係数α1’,α2’,・・・,αP’を、音声合成フィルタ405に供給する。
【0224】
音声合成フィルタ405は、例えば、IIR(Infinite Impulse Response)型のディジタルフィルタで、ベクトル量子化部404からの線形予測係数αp’(p=1,2,・・・,P)をIIRフィルタのタップ係数とするとともに、演算器413から供給される残差信号e[k]を入力信号として、音声合成を行う。
【0225】
すなわち、LPC分析部403で行われるLPC分析は、現在時刻nの音声信号(のサンプル値)sn、およびこれに隣接する過去のP個のサンプル値sn-1,sn-2,・・・,sn-Pに、式
で示す線形1次結合が成立すると仮定する。そして、現在時刻nのサンプル値snの予測値(線形予測値)sn’を、過去のP個の標本値sn-1,sn-2,・・・,sn-Pを用いて、式
によって線形予測したときに、実際のサンプル値snと線形予測値sn’との間の自乗誤差を最小にする線形予測係数αpを求めるものである。
【0226】
ここで、(12)式において、{en}(・・・,en-1,en,en+1,・・・)は、平均値が0で、分散が所定値σ2の互いに無相関な確率変数である。
【0227】
(12)式から、サンプル値snは、式
で表すことができ、これを、Z変換すると、次式が成立する。
ただし、(15)式において、SとEは、(14)式におけるsnとenのZ変換を、それぞれ表す。
【0228】
ここで、(12)式および(13)式から、enは、式
で表すことができ、実際のサンプル値snと線形予測値sn’との間の残差信号と呼ばれる。
【0229】
したがって、(15)式から、線形予測係数αpをIIRフィルタのタップ係数とするとともに、残差信号enをIIRフィルタの入力信号とすることにより、音声信号snを求めることができる。
【0230】
そこで、音声合成フィルタ405は、上述したように、ベクトル量子化部404からの線形予測係数αp’をタップ係数とするとともに、演算器413から供給される残差信号e[k]を入力信号として、(15)式を演算し、音声信号(合成音信号)ss[k]を求める。
【0231】
なお、音声合成フィルタ405では、LPC分析部403によるLPC分析により得られる線形予測係数αpではなく、そのベクトル量子化の結果得られるコードに対応するコードベクトルとしての線形予測係数αp’が用いられる。そのため、音声合成フィルタ405が出力する合成音信号ss[k]は、入力端子401に入力される音声信号s[k]とは、基本的に同一にはならない。
【0232】
音声合成フィルタ405が出力する合成音信号ss[k]は、演算器402に供給される。演算器402は、音声合成フィルタ405からの合成音信号ss[k]から、入力端子401に入力される音声信号s[k]を減算し、その減算値を、自乗誤差演算部406に供給する。自乗誤差演算部406は、演算器402からの減算値の自乗和(第kフレームのサンプル値についての自乗和)を演算し、その結果得られる自乗誤差を、自乗誤差最小判定部407に供給する。
【0233】
自乗誤差最小判定部407は、自乗誤差演算部406が出力する自乗誤差に対応付けて、ラグを表すコードとしてのLコード(L_code)、ゲインを表すコードとしてのGコード(G_code)、および符号語を表すコードとしてのIコード(I_code)を記憶しており、自乗誤差演算部406が出力する自乗誤差に対応するLコード、Gコード、およびIコードを出力する。Lコードは、適応コードブック記憶部408に、Gコードは、ゲイン復号器409に、Iコードは、励起コードブック記憶部410に、それぞれ供給される。さらに、Lコード、Gコード、およびIコードは、コード決定部414にも供給される。
【0234】
適応コードブック記憶部408は、例えば7ビットのLコードと、所定の遅延時間(ラグ)とを対応付けた適応コードブックを記憶しており、演算器413から供給される残差信号e[k]を、自乗誤差最小判定部407から供給されるLコードに対応付けられた遅延時間だけ遅延して、演算器411に出力する。
【0235】
ここで、適応コードブック記憶部408は、残差信号e[k]を、Lコードに対応する時間だけ遅延して出力することから、その出力信号は、その遅延時間を周期とする周期信号に近い信号となる。この信号は、線形予測係数を用いた音声合成において、主として、有声音の合成音を生成するための駆動信号となる。
【0236】
ゲイン復号器409は、Gコードと、所定のゲインβおよびγとを対応付けたテーブルを記憶しており、自乗誤差最小判定部407から供給されるGコードに対応付けられたゲインβおよびγを出力する。ゲインβとγは、演算器411と412に、それぞれ供給される。
【0237】
励起コードブック記憶部410は、例えば9ビットのIコードと、所定の励起信号とを対応付けた励起コードブックを記憶しており、自乗誤差最小判定部407から供給されるIコードに対応付けられた励起信号を、演算器412に出力する。
【0238】
ここで、励起コードブックに記憶されている励起信号は、例えば、ホワイトノイズ等に近い信号であり、線形予測係数を用いた音声合成において、主として、無声音の合成音を生成するための駆動信号となる。
【0239】
演算器411は、適応コードブック記憶部408の出力信号と、ゲイン復号器409が出力するゲインβとを乗算し、その乗算値l[k]を、演算器413に供給する。演算器413は、励起コードブック記憶部410の出力信号と、ゲイン復号器409が出力するゲインγとを乗算し、その乗算値n[k]を、演算器413に供給する。演算器413は、演算器411からの乗算値l[k]と、演算器412からの乗算値n[k]とを加算し、その加算値を、残差信号e[k]として、音声合成フィルタ405に供給する。
【0240】
音声合成フィルタ405では、以上のようにして、演算器413から供給される残差信号e[k]が、ベクトル量子化部404から供給される線形予測係数αp’をタップ係数とするIIRフィルタでフィルタリングされ、その結果得られる合成音信号ss[k]が、演算器402に供給される。そして、演算器402および自乗誤差演算部406において、上述の場合と同様の処理が行われ、その結果得られる自乗誤差が、自乗誤差最小判定部407に供給される。
【0241】
自乗誤差最小判定部407は、自乗誤差演算部406からの自乗誤差が最小(極小)になったかどうかを判定する。そして、自乗誤差最小判定部407は、自乗誤差が最小になっていないと判定した場合、上述のように、その自乗誤差に対応するLコード、Gコード、およびIコードを出力し、以下、同様の処理が繰り返される。
【0242】
一方、自乗誤差最小判定部407は、自乗誤差が最小になったと判定した場合、確定信号を、コード決定部414に出力する。コード決定部414は、ベクトル量子化部404から供給されるAコードをラッチするとともに、自乗誤差最小判定部407から供給されるLコード、Gコード、およびIコードを順次ラッチするようになっている。そして、このコード決定部414は、自乗誤差最小判定部407から確定信号を受信すると、そのときラッチしているAコード、Lコード、Gコード、およびIコードを、チャネルエンコーダ415に供給する。チャネルエンコーダ415は、コード決定部414からのAコード、Lコード、Gコード、およびIコードを多重化し、コードデータとして出力する。このコードデータは符号化音声信号SAcとして出力端子416に出力される。
【0243】
なお、以下では、説明を簡単にするため、Aコード、Lコード、Gコード、およびIコードは、フレームごとに求められるものとする。ただし、例えば、1フレームを、4つのサブフレームに分割し、Lコード、Gコード、およびIコードは、サブフレームごとに求めるようにすること等が可能である。
【0244】
ここで、図18では、各変数に、[k]が付され、配列変数とされている。このkは、フレーム数を表している。図17においても同様である。
【0245】
次に、図17に示す音声信号処理装置100Cにおける音声復号化器121について説明する。
符号化音声信号SAcとしてのコードデータは、チャネルデコーダ421に供給される。チャネルデコーダ421は、コードデータから、Lコード、Gコード、Iコード、Aコードを分離し、それぞれを、適応コードブック記憶部422、ゲイン復号器423、励起コードブック記憶部424、フィルタ係数復号器425に供給する。
【0246】
適応コードブック記憶部422、ゲイン復号器423、励起コードブック記憶部424、演算器426〜428は、図18の適応コードブック記憶部408、ゲイン復号器409、励起コードブック記憶部410、演算器411〜413とそれぞれ同様に構成されるもので、図18で説明した場合と同様の処理が行われることにより、Lコード、Gコード、およびIコードが、残差信号e[k]に復号される。この残差信号e[k]は、音声合成フィルタ429に対して、入力信号として与えられる。
【0247】
フィルタ係数復号器425は、図18のベクトル量子化部404が記憶しているのと同一のコードブックを記憶しており、Aコードを、線形予測係数αp’に復号し、音声合成フィルタ429に供給する。
【0248】
音声合成フィルタ429は、図18の音声合成フィルタ405と同様に構成されており、フィルタ係数復号器425からの線形予測係数αp’をタップ係数とするとともに、演算器428から供給される残差信号e[k]を入力信号として、式(15)を演算し、これにより、図18の自乗誤差最小判定部407において自乗誤差が最小と判定されたときの合成音信号を生成する。この合成音信号は、復号音声信号SAdとして出力される。
【0249】
また、音声信号処理装置100Cは、音声復号化器121より得られる符号語(Lコード、Gコード、Iコード、Aコード、αP’、β、γ)および中間復号データ(e[k],l[k],n[k],l[k]/β,n[k]/γ)に基づいて、作成すべき出力音声信号SAoにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路123およびクラスタップ選択回路124を有している。
【0250】
クラス検出回路113は、クラスタップ選択回路108,112で選択的に取り出されるデータの他に、クラスタップ選択回路124で選択的に取り出されるデータに基づいてクラスコードCLを発生する。また、推定予測演算回路117は、予測タップ選択回路107,111で選択的に取り出される予測タップのデータの他に、予測タップ選択回路123で選択的に取り出される予測タップのデータを用いて、作成すべき出力音声信号SAoにおける注目位置のデータyを演算する。
【0251】
図17に示す音声信号処理装置100Cのその他については、図11に示す音声信号処理装置100Bと同様に構成される。詳細説明は省略するも、この音声信号処理装置100Cは音声信号処理装置100Bと同様に動作し、同様の作用効果を得ることができる。ただし、この音声信号処理装置100Cでは、クラスタップおよび予測タップのデータを得るために復号音声信号SAdの他に、符号語および中間復号データをも使用しているので、復号音声信号SAdのみを用いるものと比べて、出力音声信号SAoに含まれる復号音声信号SAd′を精度よく生成することが可能となる。
【0252】
なお、図17に示す音声信号処理装置100Cにおいては、符号語(Lコード、Gコード、Iコード、Aコード、αP’、β、γ)および中間復号データ(e[k],l[k],n[k],l[k]/β,n[k]/γ)の全てを用いるものを示したが、その一部のみを用いることもできる。
【0253】
また、図17に示す音声信号処理装置100Cの情報メモリバンク115に格納される各クラスの係数種データwi0〜wi3は、図13に示す係数種データ生成装置150Bと同様の構成の装置で生成することができる。ただしその場合、予測タップおよびクラスタップのデータとして、音声復号化器163で得られる符号語および中間復号データから選択的に取り出されたデータをも用いることになる。
【0254】
なお、図17に示す音声信号処理装置100Cにおける処理を、例えば図7に示すような音声信号処理装置300によって、ソフトウェアで実現することも可能である。
【0255】
その場合の音声信号処理では、上述の図14のフローチャートのステップST105において、出力音声信号SAoにおける注目位置のデータを生成する際に、復号音声音声信号SAdの他に、符号語(Lコード、Gコード、Iコード、Aコード、αP’、β、γ)および中間復号データ(e[k],l[k],n[k],l[k]/β,n[k]/γ)を用いて予測タップおよびクラスタップのデータを取得するようにすればよい。
【0256】
また、処理装置の図示は省略するが、図17の情報メモリバンク115に格納される係数種データwi0〜wi3を生成する処理を、ソフトウェアで実現することも可能である。
【0257】
その場合の係数データ生成処理では、図16のフローチャートのステップST126で生成する生徒信号SS1を、復号音声信号の他に、符号語および中間復号データとすればよい。
【0258】
次に、この発明の第4の実施の形態について説明する。図19は、第4の実施の形態としての音声信号処理装置100Dの構成を示している。この図19において、図17と対応する部分には同一符号を付し、その詳細説明は省略する。
【0259】
この音声信号処理装置100Dは、入力端子101に、CELP方式で符号化された符号化音声信号SAcが入力され、この符号化音声信号SAcの符号化を行う音声復号化器125を有している。この音声復号化器125は、最終的な符号化音声信号SAdを得る必要がなく、従って図17に示す音声信号処理装置100Cの音声復号化器121における音声合成フィルタ429が存在しないものとなっている。
【0260】
また、音声信号処理装置100Dは、A/Dコンバータ109でデジタル信号に変換された背景音信号SBG(T-α)に対して、CELP方式の符号化を施す音声符号化器126を有している。この音声符号化器126の構成は、上述の図18に示した音声符号化器400と同様である。
【0261】
また、音声信号処理装置100Dは、音声復号化器126より得られる符号語(Lコード、Gコード、Iコード、Aコード、αP’、β、γ)および中間復号データ(e[k],l[k],n[k],l[k]/β,n[k]/γ)に基づいて、作成すべき出力音声信号SAoにおける注目位置の周辺に位置する複数のデータを選択的に取り出して出力する予測タップ選択回路127およびクラスタップ選択回路128を有している。
【0262】
この場合、クラス検出回路113は、クラスタップ選択回路124,128で選択的に取り出されるデータに基づいてクラスコードCLを発生する。また、推定予測演算回路117は、予測タップ選択回路123,127で選択的に取り出される予測タップのデータxiを用いて、作成すべき出力音声信号SAoにおける注目位置のデータyを演算する。
【0263】
図19に示す音声信号処理装置100Dのその他については、図17に示す音声信号処理装置100Cと同様に構成される。詳細説明は省略するも、この音声信号処理装置100Dは音声信号処理装置100Cと同様に動作し、同様の作用効果を得ることができる。
【0264】
なお、図17に示す音声信号処理装置100Cにおいては、符号語(Lコード、Gコード、Iコード、Aコード、αP’、β、γ)および中間復号データ(e[k],l[k],n[k],l[k]/β,n[k]/γ)の全てを用いるものを示したが、その一部のみを用いることもできる。例えば、符号語のみ、あるいは符号語の中でもLコード、Gコード、Iコード、Aコードのみを用いることもできる。
【0265】
また、図19に示す音声信号処理装置100Dの情報メモリバンク115に格納される各クラスの係数種データwi0〜wi3は、図20に示す係数種データ生成装置150Dで生成することができる。この図20において、図13と対応する部分には同一符号を付し、その詳細説明は省略する。
【0266】
この係数種データ生成装置150Dは、遅延反転回路152で得られる背景音信号SBG(T-α)に対応した音声信号に対してCELP方式の符号化を施し、第2の生徒信号SS2としての符号語(Lコード、Gコード、Iコード、Aコード、αP’、β、γ)および中間復号データ(e[k],l[k],n[k],l[k]/β,n[k]/γ)を得るための音声符号化器172を有している。
【0267】
また、係数種データ生成装置150Dでは、音声符号化器162で得られる符号語(Lコード、Gコード、Iコード、Aコード、αP’、β、γ)および中間復号データ(e[k],l[k],n[k],l[k]/β,n[k]/γ)が第1の生徒信号SS1とされる。
【0268】
また、係数種データ生成装置150Dでは、時間調整用の遅延回路164の遅延時間は、音声符号化器162の処理時間に対応した時間とされる。また、この係数種データ生成装置150Dでは、入力端子151に入力される第2の教師信号ST2は時間調整用の遅延回路173を介して加算器165に供給される。この時間調整用の遅延回路173の遅延時間は、音声符号化器172の処理時間に対応した時間とされる。
【0269】
図20に示す係数種データ生成装置150Dのその他については、図13に示す係数種データ生成装置150Bと同様に構成される。詳細説明は省略するも、この係数種データ生成装置150Dは係数種データ生成装置150Bと同様に動作し、同様の作用効果を得ることができる。
【0270】
なお、図19に示す音声信号処理装置100Dにおける処理を、例えば図7に示すような音声信号処理装置300によって、ソフトウェアで実現することも可能である。
【0271】
その場合の音声信号処理では、上述の図14のフローチャートのステップST104において、符号化音声信号SAcを復号化して復号音声信号SAdを生成する代わりに、符号語(Lコード、Gコード、Iコード、Aコード、αP’、β、γ)および中間復号データ(e[k],l[k],n[k],l[k]/β,n[k]/γ)を生成する。そして、ステップST105で、出力音声信号SAoにおける注目位置のデータを生成する際に、上述の符号語および中間復号データを用いて予測タップおよびクラスタップのデータを取得するようにされる。
【0272】
また、処理装置の図示は省略するが、図20の係数種データ生成装置150Dにおける処理を、ソフトウェアで実現することも可能である。
その場合の係数データ生成処理では、図16のフローチャートのステップST126で生成する生徒信号SS1,SS2を符号語および中間復号データとすればよい。
【0273】
【発明の効果】
この発明によれば、集音された背景音に対応した背景音信号に基づいて所定時間後の背景音に対応した予測背景音信号を生成し、この予測背景音信号を、符号化音声信号を復号化して得られた復号音声信号に加算または減算して出力音声信号を得る構成とするものであり、復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して品質の向上を図ることができる。
【0274】
また、この発明によれば、符号化音声信号を復号化して得られた復号音声信号および集音された背景音に対応した背景音信号に基づいて、所定時間だけ後の背景音を相殺するための予測背景音信号を含む出力音声信号を生成するものであり、復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して音声品質の向上を図ることができ、また復号音声信号の符号化雑音(符号化歪み)を低減して音声品質の向上を図ることができる。
【0275】
また、この発明によれば、第1の符号化音声信号および集音された背景音に対応した背景音信号を符号化して得られた第2の符号化音声信号に基づいて、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数の出力音声信号を生成するものであり、第1の符号化音声信号に対応する復号音声信号による音声が人の聴覚システムに到達する際に背景音を効果的に除去して音声品質の向上を図ることができ、またその復号音声信号の符号化雑音(符号化歪み)を低減して音声品質の向上を図ることができる。
【図面の簡単な説明】
【図1】この発明の第1の実施の形態としての音声信号処理装置の構成を示すブロック図である。
【図2】背景音除去動作を示す概念図である。
【図3】背景音信号予測回路の構成を示すブロック図である。
【図4】タップ選択を説明するための図である。
【図5】係数種データの生成方法を説明するための図である。
【図6】係数種データ生成装置の構成を示すブロック図である。
【図7】ソフトウェアで実現するための音声信号処理装置の構成例を示すブロック図である。
【図8】音声信号処理を示すフローチャートである。
【図9】予測背景音信号における注目位置のデータの生成処理を示すフローチャートである。
【図10】係数種データ生成処理を示すフローチャートである。
【図11】この発明の第2の実施の形態としての音声信号処理装置の構成を示すブロック図である。
【図12】タップ選択を説明するための図である。
【図13】係数種データ生成装置の構成を示すブロック図である。
【図14】音声信号処理を示すフローチャートである。
【図15】出力音声信号における注目位置のデータの生成処理を示すフローチャートである。
【図16】係数種データ生成処理を示すフローチャートである。
【図17】この発明の第3の実施の形態としての音声信号処理装置の構成を示すブロック図である。
【図18】CELP方式の符号化を行う音声符号化器の構成例を示すブロック図である。
【図19】この発明の第4の実施の携帯としての音声信号処理装置の構成を示すブロック図である。
【図20】係数種データ生成装置の構成を示すブロック図である。
【符号の説明】
40・・・入力端子、42・・・予測タップ選択回路、43・・・クラスタップ選択回路、44・・・クラス検出回路、45・・・係数メモリ、46・・・情報メモリバンク、47・・・係数生成回路、48・・・推定予測演算回路、49・・・出力端子、100A〜100D・・・音声信号処理装置、101・・・入力端子、102,121,125・・・音声復号化器、103・・・マイクロホン、104・・・背景音信号予測回路、105・・・加算器、106・・・出力端子、107,111,127・・・予測タップ選択回路、108,112,128・・・クラスタップ選択回路、113・・・クラス検出回路、114・・・係数メモリ、115・・・情報メモリバンク、116・・・係数生成回路、117・・・推定予測演算回路、126・・・音声符号化器、150A,150B,150D・・・係数種データ生成装置、151,161・・・入力端子、152・・・遅延反転回路、153,166,168・・・予測タップ選択回路、154,167,169・・・クラスタップ選択回路、155,170・・・クラス検出回路、156,171・・・正規方程式生成部、157・・・係数種データ決定部、158・・・係数種メモリ、162,172・・・音声符号化器、163・・・音声復号化器、164,173・・・遅延回路、165・・・加算器、300・・・音信号処理装置
Claims (14)
- 符号化音声信号が入力される信号入力手段と、
上記信号入力手段に入力される符号化音声信号を復号化する音声復号化手段と、
背景音を集音し、該集音された背景音に対応した複数のデータからなる第1の音声信号を出力する集音部と、
上記集音部からの第1の音声信号から、所定時間だけ後の背景音に対応した複数のデータからなる第2の音声信号を生成する背景音信号予測手段と、
上記音声復号化手段で復号化されて得られる復号音声信号に、上記背景音信号予測手段で生成された第2の音声信号を加算または減算して出力音声信号を得る演算手段とを備え、
上記背景音信号予測手段は、
上記集音部からの第1の音声信号から、上記第2の音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第1のデータ選択手段と、
上記第1のデータ選択手段で選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出するクラス検出手段と、
上記所定時間を段階的に定めるパラメータの値が入力されるパラメータ入力手段と、
上記クラス検出手段で検出されたクラスおよび上記パラメータ入力手段に入力されたパラメータの値に対応した推定式の係数データを発生する係数データ発生手段と、
上記集音部からの第1の音声信号から、上記第2の音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第2のデータ選択手段と、
上記係数データ発生手段で発生された係数データおよび上記第2のデータ選択手段で選択された複数の第2のデータを用いて演算する上記推定式により、上記第2の音声信号における注目位置のデータを求める演算手段とを有する音声信号処理装置。 - 入力される符号化音声信号を復号化して復号音声信号を得る第1のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる第1の音声信号を得る第2のステップと、
上記第2のステップで得られる第1の音声信号から、所定時間だけ後の背景音に対応した複数のデータからなる第2の音声信号を生成する第3のステップと、
上記第1のステップで得られる復号音声信号に、上記第3のステップで生成された第2の音声信号を加算または減算して出力音声信号を得る第4のステップとを備え、
上記第3のステップでは、
上記集音部からの第1の音声信号から、上記第2の音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第5のステップと、
上記第5のステップで選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出する第6のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第7のステップと、
上記第6のステップで検出されたクラスおよび上記第7のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第8のステップと、
上記集音部からの第1の音声信号から、上記第2の音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第9のステップと、
上記第8のステップで発生された係数データおよび上記第9のステップで選択された複数の第2のデータを用いて演算する上記推定式により、上記第2の音声信号における注目位置のデータを求める第10のステップとを有する音声信号処理方法。 - 入力される符号化音声信号を復号化して復号音声信号を得る第1のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる第1の音声信号を得る第2のステップと、
上記第2のステップで得られる第1の音声信号から、所定時間だけ後の背景音に対応した複数のデータからなる第2の音声信号を生成する第3のステップと、
上記第1のステップで得られる復号音声信号に、上記第3のステップで生成された第2の音声信号を加算または減算して出力音声信号を得る第4のステップとを備え、
上記第3のステップでは、
上記集音部からの第1の音声信号から、上記第2の音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第5のステップと、
上記第5のステップで選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出する第6のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第7のステップと、
上記第6のステップで検出されたクラスおよび上記第7のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第8のステップと、
上記集音部からの第1の音声信号から、上記第2の音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第9のステップと、
上記第8のステップで発生された係数データおよび上記第9のステップで選択された複数の第2のデータを用いて演算する上記推定式により、上記第2の音声信号における注目位置のデータを求める第10のステップとを有する音声信号処理方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体。 - 入力される符号化音声信号を復号化して復号音声信号を得る第1のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる第1の音声信号を得る第2のステップと、
上記第2のステップで得られる第1の音声信号から、所定時間だけ後の背景音に対応した複数のデータからなる第2の音声信号を生成する第3のステップと、
上記第1のステップで得られる復号音声信号に、上記第3のステップで生成された第2の音声信号を加算または減算して出力音声信号を得る第4のステップとを備え、
上記第3のステップでは、
上記集音部からの第1の音声信号から、上記第2の音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第5のステップと、
上記第5のステップで選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出する第6のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第7のステップと、
上記第6のステップで検出されたクラスおよび上記第7のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第8のステップと、
上記集音部からの第1の音声信号から、上記第2の音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第9のステップと、
上記第8のステップで発生された係数データおよび上記第9のステップで選択された複数の第2のデータを用いて演算する上記推定式により、上記第2の音声信号における注目位置のデータを求める第10のステップとを有する音声信号処理方法をコンピュータに実行させるためのプログラム。 - 符号化音声信号が入力される信号入力手段と、
上記信号入力手段に入力された符号化音声信号を復号化して複数のデータからなる復号音声信号を得る音声復号化手段と、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を出力する集音部と、
上記音声復号化手段からの復号音声信号および上記集音部からの背景音信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む、複数のデータからなる出力音声信号を生成する音声信号出力手段とを備え、
上記音声信号出力手段は、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第1のデータ選択手段と、
上記第1のデータ選択手段で選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出するクラス検出手段と、
上記所定時間を段階的に定めるパラメータの値が入力されるパラメータ入力手段と、
上記クラス検出手段で検出されたクラスおよび上記パラメータ入力手段に入力されたパラメータの値に対応した推定式の係数データを発生する係数データ発生手段と、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第2のデータ選択手段と、
上記係数データ発生手段で発生された係数データおよび上記第2のデータ選択手段で選択された複数の第2のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める演算手段とを有する音声信号処理装置。 - 上記符号化音声信号は、音声信号をCELP(Code Excited Linear Prediction)方式によって符号化することにより得られたものであり、
上記音声信号出力手段は、上記音声復号化手段からの復号音声信号および上記集音部からの背景音信号の他に、さらに上記音声復号化手段からの符号語および中間復号データから、上記出力音声信号を生成する請求項5に記載の音声信号処理装置。 - 入力される符号化音声信号を復号化して復号音声信号を得る第1のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第2のステップと、
上記第1のステップで得られる復号音声信号および上記第2のステップで得られる背景音信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む、複数のデータからなる出力音声信号を生成する第3のステップとを備え、
上記第3のステップでは、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第4のステップと、
上記第4のステップで選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出する第5のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第6のステップと、
上記第5のステップで検出されたクラスおよび上記第6のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第7のステップと、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第8のステップと、
上記第7のステップで発生された係数データおよび上記第8のステップで選択された複数の第2のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第9のステップとを有する音声信号処理方法。 - 入力される符号化音声信号を復号化して復号音声信号を得る第1のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第2のステップと、
上記第1のステップで得られる復号音声信号および上記第2のステップで得られる背景音信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む、複数のデータからなる出力音声信号を生成する第3のステップとを備え、
上記第3のステップでは、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第4のステップと、
上記第4のステップで選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出する第5のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第6のステップと、
上記第5のステップで検出されたクラスおよび上記第6のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第7のステップと、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第8のステップと、
上記第7のステップで発生された係数データおよび上記第8のステップで選択された複数の第2のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第9のステップとを有する音声信号処理方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体。 - 入力される符号化音声信号を復号化して復号音声信号を得る第1のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第2のステップと、
上記第1のステップで得られる復号音声信号および上記第2のステップで得られる背景音信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む、複数のデータからなる出力音声信号を生成する第3のステップとを備え、
上記第3のステップでは、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第4のステップと、
上記第4のステップで選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出する第5のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第6のステップと、
上記第5のステップで検出されたクラスおよび上記第6のステップで入力されたパラメータの値に対応した推定式の係数データを発生する第7のステップと、
上記復号音声信号および上記背景音信号から、上記出力音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第8のステップと、
上記第7のステップで発生された係数データおよび上記第8のステップで選択された複数の第2のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第9のステップとを有する音声信号処理方法をコンピュータに実行させるためのプログラム。 - 第1の符号化音声信号が入力される信号入力手段と、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を出力する集音部と、
上記集音部からの背景音信号を符号化して第2の符号化音声信号を得る音声符号化手段と、
上記信号入力手段に入力される第1の符号化音声信号および上記音声符号化手段からの第2の符号化音声信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数のデータからなる出力音声信号を生成する音声信号出力手段とを備え、
上記音声信号出力手段は、
上記第1の符号化音声信号および上記第2の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第1のデータ選択手段と、
上記第1のデータ選択手段で選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出するクラス検出手段と、
上記所定時間を段階的に定めるパラメータの値が入力されるパラメータ入力手段と、
上記クラス検出手段で検出されたクラスおよび上記パラメータ入力手段に入力されたパラメータの値に対応した、推定式の係数データを発生する係数データ発生手段と、
上記第1の符号化音声信号および上記第2の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第2のデータ選択手段と、
上記係数データ発生手段で発生された係数データおよび上記第2のデータ選択手段で選択された複数の第2のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める演算手段とを有する音声信号処理装置。 - 上記符号化音声信号は、音声信号をCELP(Code Excited Linear Prediction)方式によって符号化することにより得られたものであり、
上記音声信号出力手段は、上記第1の符号化音声信号および上記第2の符号化音声信号の他に、さらにこれらの符号化音声信号に関する中間復号データから、上記出力音声信号を生成する請求項10に記載の音声信号処理装置。 - 第1の符号化音声信号を取得する第1のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第2のステップと、
上記第2のステップで得られる背景音信号を符号化して第2の符号化音声信号を得る第3のステップと、
上記第1のステップで取得される第1の符号化音声信号および上記第3のステップで得られる第2の符号化音声信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数のデータからなる出力音声信号を生成する第4のステップとを備え、
上記第4のステップでは、
上記第1の符号化音声信号および上記第2の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第5のステップと、
上記第5のステップで選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出する第6のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第7のステップと、
上記第6のステップで検出されたクラスおよび上記第7のステップで入力されたパラメータの値に対応した、推定式の係数データを発生する第8のステップと、
上記第1の符号化音声信号および上記第2の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第9のステップと、
上記第8のステップで発生された係数データおよび上記第9のステップで選択された複数の第2のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第10のステップとを有する音声信号処理方法。 - 第1の符号化音声信号を取得する第1のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第2のステップと、
上記第2のステップで得られる背景音信号を符号化して第2の符号化音声信号を得る第3のステップと、
上記第1のステップで取得される第1の符号化音声信号および上記第3のステップで得られる第2の符号化音声信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数のデータからなる出力音声信号を生成する第4のステップとを備え、
上記第4のステップでは、
上記第1の符号化音声信号および上記第2の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第5のステップと、
上記第5のステップで選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出する第6のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第7のステップと、
上記第6のステップで検出されたクラスおよび上記第7のステップで入力されたパラメータの値に対応した、推定式の係数データを発生する第8のステップと、
上記第1の符号化音声信号および上記第2の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第9のステップと、
上記第8のステップで発生された係数データおよび上記第9のステップで選択された複数の第2のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第10のステップとを有する音声信号処理方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体。 - 第1の符号化音声信号を取得する第1のステップと、
背景音を集音し、該集音された背景音に対応した複数のデータからなる背景音信号を得る第2のステップと、
上記第2のステップで得られる背景音信号を符号化して第2の符号化音声信号を得る第3のステップと、
上記第1のステップで取得される第1の符号化音声信号および上記第3のステップで得られる第2の符号化音声信号から、所定時間だけ後の背景音を相殺するための予測背景音信号を含む複数のデータからなる出力音声信号を生成する第4のステップとを備え、
上記第4のステップでは、
上記第1の符号化音声信号および上記第2の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第1のデータを選択する第5のステップと、
上記第5のステップで選択された複数の第1のデータに基づいて、上記注目位置のデータが属するクラスを検出する第6のステップと、
上記所定時間を段階的に定めるパラメータの値が入力される第7のステップと、
上記第6のステップで検出されたクラスおよび上記第7のステップで入力されたパラメータの値に対応した、推定式の係数データを発生する第8のステップと、
上記第1の符号化音声信号および上記第2の符号化音声信号から、上記出力音声信号における注目位置の周辺に位置する複数の第2のデータを選択する第9のステップと、
上記第8のステップで発生された係数データおよび上記第9のステップで選択された複数の第2のデータを用いて演算する上記推定式により、上記出力音声信号における注目位置のデータを求める第10のステップとを有する音声信号処理方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002238274A JP4207494B2 (ja) | 2002-08-19 | 2002-08-19 | 音声信号の処理装置および処理方法、並びに方法を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002238274A JP4207494B2 (ja) | 2002-08-19 | 2002-08-19 | 音声信号の処理装置および処理方法、並びに方法を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004077818A JP2004077818A (ja) | 2004-03-11 |
JP4207494B2 true JP4207494B2 (ja) | 2009-01-14 |
Family
ID=32021738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002238274A Expired - Fee Related JP4207494B2 (ja) | 2002-08-19 | 2002-08-19 | 音声信号の処理装置および処理方法、並びに方法を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4207494B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5898515B2 (ja) * | 2012-02-15 | 2016-04-06 | ルネサスエレクトロニクス株式会社 | 半導体装置及び音声通信装置 |
-
2002
- 2002-08-19 JP JP2002238274A patent/JP4207494B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004077818A (ja) | 2004-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2257556C2 (ru) | Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением | |
CN101715549B (zh) | 嵌入在音频信号中的隐藏数据的恢复 | |
JP2006011464A (ja) | 紛失フレームを取扱うための音声符号化装置および方法 | |
US5488704A (en) | Speech codec | |
JPH11126098A (ja) | 音声合成方法及び装置、並びに帯域幅拡張方法及び装置 | |
CZ20031465A3 (cs) | Způsob, kodér a dekodér, a programy pro kódování a dekódování parametrů řeči, a způsob, kodér a dekodér, a programy pro kódování a dekódování řeči | |
KR20000077057A (ko) | 음성합성장치 및 방법, 전화장치 및 프로그램 제공매체 | |
JP3357795B2 (ja) | 音声符号化方法および装置 | |
JP3628268B2 (ja) | 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体 | |
JP2000512777A (ja) | “前方”および“後方”lpc分析による音声周波数信号を符号化するための方法および装置 | |
EP1401130A1 (en) | TRANSMISSION APPARATUS, TRANSMISSION METHOD, RECEPTION APPARATUS, RECEPTION METHOD, AND TRANSMISSION/RECEPTION APPARATUS | |
JP4207494B2 (ja) | 音声信号の処理装置および処理方法、並びに方法を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な媒体 | |
JPH11504733A (ja) | 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器 | |
JP3462464B2 (ja) | 音声符号化方法、音声復号化方法及び電子装置 | |
JP3050978B2 (ja) | 音声符号化方法 | |
JPH11119800A (ja) | 音声符号化復号化方法及び音声符号化復号化装置 | |
JP3878254B2 (ja) | 音声圧縮符号化方法および音声圧縮符号化装置 | |
JPH0786952A (ja) | 音声の予測符号化方法 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JP3714786B2 (ja) | 音声符号化装置 | |
JPH05232994A (ja) | 統計コードブック | |
JP3350340B2 (ja) | 音声符号化方法および音声復号化方法 | |
JPH0511799A (ja) | 音声符号化方式 | |
JP2002062899A (ja) | データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体 | |
JP4517262B2 (ja) | 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050812 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060427 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080715 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080930 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081013 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121031 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131031 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |