JP4025018B2

JP4025018B2 - 音声信号の改善された音声／雑音選別のための複合信号活動検出

Info

Publication number: JP4025018B2
Application number: JP2000584462A
Authority: JP
Inventors: ジョナススヴェドベリ，; エリックエクデン，; アンデルスウヴリデン，; インゲマールヨハンソン，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 1998-11-23
Filing date: 1999-11-12
Publication date: 2007-12-19
Anticipated expiration: 2019-11-12
Also published as: KR100667008B1; CN1828722A; CA2348913C; US6424938B1; EP1224659A2; MY124630A; ZA200103150B; DE69925168D1; KR20010078401A; JP2002540441A; BR9915576A; CN1419687A; BR9915576B1; CN1257486C; CN1828722B; RU2251750C2; HK1097080A1; EP1224659B1; AR030386A1; AU1593800A

Description

【０００１】
【発明の属する技術分野】
本願は、米国特許法第１１９条（ｅ）（１）にもとづく、１９９８年１１月２３日出願の米国特許仮出願第６０／１０９，５５６号に基づく優先権を主張する。
本発明は、音声信号圧縮、詳細には、音声圧縮における音声／雑音選別に関する。
【０００２】
【従来の技術】
音声コーダおよび復号化器は、従来、それぞれ無線送信機および無線受信機に備えられており、無線リンクによって任意の送信機と受信機との間の音声通信を可能にするために協働する。音声コーダと音声復号化器の組合せはしばしば音声コーデックと呼ばれる。移動無線電話（例えば携帯電話）は、一般に音声コーダを有する無線送信機および音声復号化器を有する無線受信機を備える従来の通信装置の実例である。
【０００３】
従来のブロックベース音声コーダにおいて、入力音声信号は、フレームと呼ばれるブロックに分割される。普通の４ｋＨｚテレフォニー帯域用の場合、典型的なフレーム長は２０ｍｓまたは１６０サンプルである。フレームは、一般に長さ５ｍｓまたは４０サンプルのサブフレームにさらに分割される。
【０００４】
入力音声信号を圧縮する際、音声符号化器は従来、先進のロッシー圧縮技法を使用する。圧縮された（または符号化された）信号情報は、無線リンクといった通信チャネルによって復号化器に伝送される。復号化器はその後、圧縮信号情報から入力音声信号を再現しようと試みる。入力音声信号の一定の特性が既知であれば、通信チャネルのビットレートは可能な限り低く維持することができる。音声信号が聴取者にとって関連性のある情報を含んでいる場合、その情報は保持されなければならない。しかし、音声信号が関係ない情報（例えば暗騒音）だけを含んでいる場合は、信号に関する限定された量の情報だけを伝送することによって帯域幅を節減できる。関係ない情報だけを含んでいる多くの信号の場合、極めて低いビットレートで高品質の圧縮を行えることが多い。極端な場合、入力音声信号が再び関連性のある情報を含むと判定されるまで、通信チャネルによるいかなる情報の更新も伴わずに入力信号を復号化器において合成できることもある。
【０００５】
従来、非常に低いビットレートで極めて正確に再現できる典型的な信号には、定常雑音、自動車騒音、およびある程度までのざわめきの騒音が含まれる。音楽、または音声と音楽の組合せのようなより複合的な非音声信号は、復号化器によって正確に再現されるためにより高いビットレートを必要とする。
【０００６】
多くの普通の形式の暗騒音の場合、音声に必要であるよりもはるかに低いビットレートにより、信号の十分に良好なモデルが得られる。現行の移動通信システムは、このことを利用して，暗騒音の間の伝送ビットレートを下方に調整している。例えば、連続伝送技法を使用する従来のシステムでは、可変レート（ＶＲ）音声コーダはその最低ビットレートを使用することができる。
【０００７】
従来の不連続伝送（ＤＴＸ）方式では、話者が不活動の時に、送信機は符号化音声フレームの送信を停止する。規則的または不規則な間隔（例えば１００〜５００ｍｓごと）で、送信機は、復号化器におけるコンフォートノイズの従来の作成のために適切な音声パラメータを送る。コンフォートノイズ作成（ＣＮＧ）のためのそれらのパラメータは、時に無音デスクリプタ（ＳＩＤ）フレームと呼ばれるものに従来通りに符号化される。受信機では、復号化器は、従来のコンフォートノイズ挿入（ＣＮＩ）アルゴリズムによって人工的雑音を合成するためにＳＩＤフレームで受信されたコンフォートノイズパラメータを使用する。
【０００８】
従来のＤＴＸシステムの復号化器においてコンフォートノイズが作成される場合、雑音は、非常に静的で、アクティブ（非ＤＴＸ）モードで作成された暗騒音と相当異なるものとして知覚されることが多い。この知覚の理由は、ＤＴＸのＳＩＤフレームが通常の音声フレームほどの頻度で受信機に送られないからである。ＤＴＸモードを有する従来の線形予測分析合成（ＬＰＡＳ）コーデックでは、暗騒音のスペクトルおよびエネルギーは一般に、数フレームについて推定され（例えば平均され）、その後、推定されたパラメータが量子化されチャンネルによってＳＩＤフレームで復号化器に送信される。
【０００９】
規則的な音声フレームを送らずに相対的に低いアップデート率でＳＩＤフレームを送信する利点は２つある。例えば移動無線トランシーバの電池の寿命が消費電力の低下により延長し、また、送信機により生じる妨害は減少し、それによってより高いシステム容量が得られる。
【００１０】
音楽のような複合信号を過度に単純な圧縮モデルで、そして対応する過度に低いビットレートを用いて圧縮した場合、復号化器において再現される信号は、より良好な（より高品質な）圧縮技法を用いて得られるはずの結果と極めて異なるであろう。過度に単純な圧縮方式の使用は、複合信号を雑音として誤って分類することによって生じ得る。そのような誤分類が生じた場合、復号化器が劣悪に再現された信号を出力するだけでなく、誤分類自体が、高品質圧縮方式から低品質圧縮方式への望ましくないスイッチをもたらす。誤分類を訂正するために、高品質圧縮方式への別のスイッチバックが必要になる。圧縮方式間のそのようなスイッチが頻繁に起こった場合、それは通常極めて可聴となり、聴取者を苛立たせるものになり得る。
【００１１】
【発明が解決しようとする課題】
上述より、妥当な場合、例えば話者が沈黙している間の暗騒音を圧縮するような場合に、低ビットレート（高圧縮）を維持しつつ、主観的に関連性のある信号の誤分類を減らすことが望ましいことがわかる。それらが苛立たせるように知覚されなければ、非常に強力な圧縮技法を使用することもできる。ＤＴＸシステムに関して上述したコンフォートノイズパラメータの使用は、ランダム励振方法を使用する従来の低レート線形予測符号化（ＬＰＣ）と同様、強力な圧縮技法の実例である。強い圧縮を利用するこうした符号化技法は一般に、定常的な自動車騒音、市街の騒音、レストランの騒音（ざわめき）および他の同様の信号といった知覚的に単純な雑音形式を正確に再現できるにすぎない。
【００１２】
入力音声信号が関連性のある情報を含んでいるか否かを判定するための従来の選別技法は、基本的に、入力音声信号の相対的に単純な定常性分析にもとづく。入力信号が定常であると判定された場合、それは雑音状信号であるとみなされる。しかし、この従来の定常性分析だけでは、かなり定常ではあるが、実際には知覚的関連性のある情報を含む複合信号を雑音として誤分類させる可能性がある。そうした誤分類は、上述のような問題を不都合に生じる。
【００１３】
従って、上述の形式の複合信号における知覚的関連性のある情報の存在を確実に検出する選別技法を提供することが望ましい。
【００１４】
【課題を解決するための手段】
本発明によれば、聴取者にとって知覚的に重要な関連性のある情報を含む複合的な非音声信号を確実に検出するための複合信号の活動検出が提供される。確実に検出できる複合的な非音声信号の例には、音楽、保留中音楽、音声と音楽の組合せ、背景音楽、および他の調音または調和音が含まれる。
【００１５】
【発明の実施の形態】
図１は、本発明に従った音声符号化装置の例示的実施形態の関係する部分を略示している。この音声符号化装置は、例えば、無線通信チャンネルによって音声情報を通信する無線トランシーバに設けることができる。そうした無線トランシーバの１例は、携帯電話といった移動無線電話である。
【００１６】
図１において、入力音声信号は、複合信号活動検出器（ＣＡＤ）に、そして音声活動検出器（ＶＡＤ）へも入力される。複合信号活動検出器ＣＡＤは、音声入力信号に応答し、その入力信号が、聴取者にとって知覚的関連性のある情報を含むかどうかを決定する関連性分析を実行し、信号関連性パラメータの集合をＶＡＤに供給する。ＶＡＤは、入力音声信号が音声または雑音のいずれであるかを判定するために、受信音声入力信号とともにそれらの信号関連性パラメータを使用する。ＶＡＤは、音声／雑音選別器として動作し、出力音声／雑音指標を供給する。ＣＡＤは音声／雑音指標を入力として受信する。ＣＡＤは、音声／雑音指標および入力音声信号に応答し、ＶＡＤにより供給される音声／雑音指標を同じく入力として受信するハングオーバ論理回路部に出力される複合信号フラグの集合を生じる。
【００１７】
ハングオーバ論理回路は、複合信号フラグおよび音声／雑音指標に応答し、通信チャネルの他方の端の受信機の復号化装置によって出力される再現音声信号を聴く聴取者にとって知覚的関連性のある情報を入力音声信号が含むか否かを指示する出力を供給する。ハングオーバ論理回路の出力は、例えば（ＤＴＸシステムにおける）ＤＴＸ動作または（可変レート（ＶＲ）符号化器における）ビットレートを制御するために適切に使用され得る。入力音声信号が関連性のある情報を含まないとハングオーバ論理回路出力が指示した場合、（ＤＴＸシステムでは）コンフォートノイズを作成することができ、または、（ＶＲ符号化器では）ビットレートを低減することができる。
【００１８】
入力信号（前処理できる）は、ＣＡＤにおいて、特定の周波数帯の信号の相関に関する情報を各フレームごとに抽出することによって分析される。これは、最初に適切なフィルタ、例えば帯域通過フィルタまたは高域フィルタにより信号をろ波することによって行える。このフィルタは、分析において関係するエネルギーの大半を含む周波数帯を加重する。一般に、低周波領域は、例えば自動車騒音といった強い低周波成分を減じるためにフィルタ除去されなければならない。ろ波された信号はその後、開ループ長時間予測（ＬＴＰ）相関分析に渡すことができる。ＬＴＰ分析は、結果として、相関シフトあたり１個の値により、相関値または正規化ゲイン値のベクトルを供給する。例えば、シフト範囲は従来のＬＴＰ分析におけるように［２０，１４７］としてよい。所要の関連性検出を得るための代替的でより単純な方法は、相関計算においてろ波していない信号を使用し、以下に詳述するように、アルゴリズム的に類似の「フィルタリング」プロセスによって相関値を修正することである。
【００１９】
個々の分析フレームについて、最も大きい振幅を有する正規化相関値（ゲイン値）が選択され、バッファされる。シフト（選択された相関値のＬＴＰラグに対応する）は使用されない。値はさらに、暗騒音推定プロセスによる使用のためにＶＡＤに送信される信号関連性パラメータのベクトルを供給するために分析される。バッファされた相関値も処理され、信号が関連性のあるものかどうか（すなわち、知覚的重要性を有するか）、およびＶＡＤの決定が信頼できるかどうかに関する最終決定を行うために使用される。ＶＡＤが深刻な誤分類を犯しがちな時を、すなわち実際には知覚的関連性のある情報が存在する場合に雑音の分類を行いがちな時を指示するために、フラグＶＡＤ＿ｆａｉｌ＿ｌｏｎｇおよびＶＡＤ＿ｆａｉｌ＿ｓｈｏｒｔの組が作成される。
【００２０】
ＣＡＤの関連性分析において計算される信号関連性パラメータは、ＶＡＤ方式の性能を増強するために使用される。ＶＡＤ方式は、信号が音声信号（恐らく環境雑音により劣化された）または雑音信号のいずれであるかを決定しようと試みる。音声＋雑音の信号を雑音と区別できるように、ＶＡＤは従来通り雑音の推定値を保持する。ＶＡＤは、音声＋雑音の信号の選別においてより良好な決定を行うために、暗騒音の自己自身の推定値を更新しなければならない。ＣＡＤからの関連性パラメータは、ＶＡＤの暗騒音および活動信号の推定値をどの程度まで更新するかを決定するために使用される。
【００２１】
ＶＡＤが信頼できると考えられる場合、ハングオーバ論理回路は、信号の関連性に関する以前の情報および以前のＶＡＤの決定を用いて信号の最終決定を調整する。ハングオーバ論理回路の出力は、信号が関連性のあるものか否かについての最終決定である。関連性のないものである場合、符号化には低ビットレートを使用できる。ＤＴＸシステムにおいて、この関連性の有無の情報は、現フレームが通常通りに符号化されるべき（関連性がある）かまたは、そのフレームが代わりにコンフォートノイズパラメータで符号化されるべきである（関連性がない）かを決定するために使用される。
【００２２】
例示的な１実施形態において、ＣＡＤの効率的な複雑さの低い具体化は、線形予測合成分析（ＬＰＡＳ）構造を使用する音声コーダにおいて得られる。音声コーダへの入力信号は従来の手段（ハイパスフィルタ処理、基準化など）によって調整される。調整された信号ｓ（ｎ）はその後、ＬＰＡＳコーダにより使用される従来の適応雑音加重フィルタによってろ波される。そして加重された音声信号ｓｗ（ｎ）は開ループＬＴＰ分析に渡される。ＬＴＰ分析は、範囲［Ｌｍｉｎ，Ｌｍａｘ］（ここで、例えばＬｍｉｎ＝１８、Ｌｍａｘ＝１４７）における各シフトについて相関値を計算し、記憶する。範囲における各ラグ値（シフト）Ｌについて、ラグ値ｌの相関Ｒｘｘ（ｋ，ｌ）は以下のように計算される。
【数１】

式中、Ｋは分析フレームの長さである。ｋがゼロに設定されている場合、これは以下の通り、ラグｌにのみ依存する関数として記述できる。
【数２】

また、以下を定義することもできる。
【数３】

これらの手順は従来、ＬＰＡＳコーダにおいて適応コードブック探索の予備探索として実行されているので、いかなる余分な計算上の損失も伴わずに入手可能である。
【００２３】
単一タップ予測器の最適ゲイン係数ｇ＿ｏｐｔは、次式においてひずみＤを最小にすることによって得られる。
【数４】

最適ゲイン係数ｇ＿ｏｐｔ（実際には正規化相関）は、Ｄを最小にする式４のｇの値であり、以下によって与えられる。
【数５】

式中、ＬはひずみＤ（式４）が最小にされるラグ、Ｅｘｘ（Ｌ）はエネルギーである。複合信号検出器は、加重信号ｓｗのハイパスフィルタ処理されたものの最適ゲイン（ｇ＿ｏｐｔ）を計算する。高域フィルタは例えば、フィルタ係数［ｈ０，ｈ１］を備える単純な一次フィルタとすることができる。１実施形態では、相関計算の前に加重信号をハイパスフィルタ処理する代わりに、簡略化した公式により、ろ波信号ｓｗ＿ｆ（ｎ）を用いてＤ（式４参照）を最小にする。ハイパスフィルタ処理信号ｓｗ＿ｆ（ｎ）は、以下によって与えられる。
【数６】

この場合、ｇ＿ｍａｘ（ろ波信号のｇ＿ｏｐｔ）は以下として得られる。
【数７】

このようにして、パラメータｇ＿ｍａｘは、ろ波信号ｓｗ＿ｆについて新しいＲｘｘを計算する代わりに、ろ波していない信号ｓｗから得られる上述の既に使用可能なＲｘｘおよびＥｘｘ値を用いて、式８に従って計算できる。
【００２４】
フィルタ係数［ｈ０，ｈ１］を［１，−１］と選択し、ラグを正規化する分母ＬｄｅｎがＬｄｅｎ＝０に設定された場合、ｇ＿ｍａｘの計算は以下に還元される。
【数８】

【００２５】
さらなる単純化は、式（８）の分母において（最適なＬ＿ｏｐｔ、すなわち式４の最適ラグに代わり）Ｌｄｅｎ＝（Ｌｍｍ＋１）の値を使用し、最大値ＬをＬｍａｘ−１に、また最大値探索における最小のＬｍｉｎ値を（Ｌｍｉｎ＋１）に制限することによって得られる。この場合、開ループＬＴＰ分析からすでに使用可能なＲｘｘ（ｌ）値以外、いかなる余分な相関計算も必要とされない。
【００２６】
各フレームについて、最も大きい振幅を有するゲイン値ｇ＿ｍａｘが記憶される。平滑化された値ｇ＿ｆ（ｉ）は、ｇ＿ｆ（ｉ）＝ｂ０・ｇ＿ｍａｘ（ｉ）−ａ１・ｇ＿ｆ（ｉ−１）に従って各フレームで得られるｇ＿ｍａｘ値をろ波することによって得られる。一部の実施形態では、フィルタ係数ｂ０およびａ１が、時間変化となり得、また、状態飽和問題を避けるために状態および入力依存性となり得る。例えば、ｂ０およびａ１は、個々の時間の関数ｇ＿ｍａｘ（ｉ）およびｇ＿ｆ（ｉ−１）として表現できる。すなわち、ｂ０＝ｆ_ｂ（ｔ，ｇ＿ｍａｘ（ｉ），ｇ＿ｆ（ｉ−１））およびａ１＝ｆ_ａ（ｔ，ｇ＿ｍａｘ（ｉ），ｇ＿ｆ（ｉ−１））。
【００２７】
信号ｇ＿ｆ（ｉ）はＣＡＤ関連性分析の一次作成物である。ｇ＿ｆ（ｉ）の状態および履歴を分析することによって、ＶＡＤ適応は援助が得られ、ハングオーバ論理回路ブロックは動作指示が提供される。
【００２８】
図２は、図１の上述した複合信号活動検出器ＣＡＤの例示的実施形態を例示している。前述の加重信号ｓｗ（ｎ）を作成するために、前処理部２１が入力信号を前処理する。信号ｓｗ（ｎ）は、例えば開ループ長時間予測（ＬＴＰ）相関分析器といった従来の相関分析器２３に適用される。相関分析器２３の出力２２は、２４の適応コードブック探索への入力として従来通り供給される。上述のように、従来の相関分析器２３において使用されるＲｘｘおよびＥｘｘ値は、本発明に従って、ｇ＿ｆ（ｉ）の計算に使用されるために使用可能である。
【００２９】
ＲｘｘおよびＥｘｘ値は、２５で、上述の通りｇ＿ｍａｘ値を計算する最大正規化ゲイン計算器２０に供給される。個々のフレームについて最も大きい振幅（最大振幅）ｇ＿ｍａｘ値が計算器２０により選択され、バッファ２６に記憶される。バッファされた値はその後、上述のようよ平滑化フィルタ２７に適用される。平滑化フィルタ２７の出力はｇ＿ｆ（ｉ）である。
【００３０】
信号ｇ＿ｆ（ｉ）はパラメータジェネレータ２８に入力される。パラメータジェネレータ２８は、入力信号ｇ＿ｆ（ｉ）に応答して、信号関連性パラメータとしてＶＡＤに供給される（図１参照）１組の出力ｃｏｍｐｌｅｘ＿ｈｉｇｈおよびｃｏｍｐｌｅｘ＿ｌｏｗを作成する。パラメータジェネレータ２８はまた、カウンタ２０１を制御するカウンタコントローラ２９に入力されるｃｏｍｐｌｅｘ＿ｔｉｍｅｒ出力も作成する。カウンタ２０１の出力ｃｏｍｐｌｅｘ＿ｈａｎｇ＿ｃｏｕｎｔは、信号関連性パラメータとしてＶＡＤに供給され、また、ハングオーバ論理回路に供給される複合信号フラグである出力ＶＡＤ＿ｆａｉｌ＿ｌｏｎｇを有する比較器２０３にも入力される（図１参照）。信号ｇ＿ｆ（ｉ）はまた、ＡＮＤゲート２０７の入力に結合されている出力２０８を有する別の比較器２０５にも供給される。
【００３１】
図２の複合信号活動検出器は、ＶＡＤからの音声／雑音指標（図１参照）、すなわち信号ｓｐ＿ｖａｄ＿ｐｒｉｍ（例えば、雑音の場合＝０、音声の場合＝１）も受信する。この信号は、出力が比較器２０４に結合されているバッファ２０２に入力される。比較器２０４の出力２０６はＡＮＤゲート２０７の他方の入力と結合されている。ＡＮＤゲート２０７の出力は、図１のハングオーバ論理回路に入力される複合信号フラグＶＡＤ＿ｆａｉｌ＿ｓｈｏｒｔである。
【００３２】
図１３は、図２の構成の例示的な代替例を図示しており、この場合、上述の式５のｇ＿ｏｐｔ値は、ｓｗ（ｎ）のハイパスフィルタ処理されたもの、すなわち高域フィルタ１３１からの出力ｓｗ＿ｆ（ｎ）から相関分析器２３によって計算される。各フレームの最も大きい振幅ｇ＿ｏｐｔ値はその後、ｇ＿ｍａｘに代わり図２の２６においてバッファされる。相関分析器２３はまた、図２と同様に信号ｓｗ＿（ｎ）から従来の出力２２も作成する。
【００３３】
図３は、図１のＶＡＤの例示的実施形態の関係する部分を図示している。図２に関して上述の通り、ＶＡＤは、ＣＡＤから信号関連性パラメータｃｏｍｐｌｅｘ＿ｈｉｇｈ、ｃｏｍｐｌｅｘ＿ｌｏｗおよびｃｏｍｐｌｅｘ＿ｈａｎｇ＿ｃｏｕｎｔを受信する。ｃｏｍｐｌｅｘ＿ｈｉｇｈおよびｃｏｍｐｌｅｘ＿ｌｏｗは、各自のバッファ３０および３１に入力され、それらの出力はそれぞれ比較器３２および３３に結合されている。比較器３２および３３の出力は、カウンタコントローラ３５にｃｏｍｐｌｅｘ＿ｗａｒｎｉｎｇ信号を出力するＯＲゲート３４のそれぞれの入力に結合される。カウンタコントローラ３５はｃｏｍｐｌｅｘ＿ｗａｒｎｉｎｇ信号に応答してカウンタ３６を制御する。
【００３４】
音声入力信号は雑音推定器３８の入力に結合され、また、音声／雑音決定器３９の入力にも結合される。音声／雑音決定器３９は、雑音推定器３８から暗騒音の推定値３０３も従来通りに受信する。音声／雑音決定器は、入力音声信号および３０３の雑音推定値情報に従来通り応答し、音声／雑音指標ｓｐ＿ｖａｄ＿ｐｒｉｍを作成し、これは図１のＣＡＤおよびハングオーバ論理回路に供給される。
【００３５】
信号ｃｏｍｐｌｅｘ＿ｈａｎｇ＿ｃｏｕｎｔは、出力が雑音推定器３８のＤＯＷＮ入力に結合されている比較器３７に入力される。ＤＯＷＮ入力がアクティブになると、雑音推定器はその雑音推定値を下方に更新するか、またはそれを不変のままにしておくことだけが可能になり、すなわち、雑音のあらゆる新しい推定値は、以前の推定値よりも少ない雑音、または同一の雑音を指示しなければならない。他の実施形態では、ＤＯＷＮ入力がアクティブになることにより、雑音推定器はその推定値を上方へ更新し、より多くの雑音を指示するようにできるが、更新の速度（強さ）を著しく低減させなければならない。
【００３６】
雑音推定器３８はまた、カウンタ３６によって作成された出力信号すなわちｓｔａｔ＿ｃｏｕｎｔと結合されたＤＥＬＡＹ入力も有する。従来のＶＡＤの雑音推定器は一般に、例えば、入力信号が非定常、ピッチドまたはトーン信号であるという指標を受信した後に、遅延期間を実施する。この遅延期間中には、雑音推定値はより高い値に更新できない。これは、雑音または音声の定常信号に隠れた非雑音信号に対する誤った応答を防止するために役立つ。遅延期間が満了すると、たとえしばらく音声が指示されていても、雑音推定器はその雑音推定値を上方へ更新することができる。これは、雑音レベルが突然増大した場合にＶＡＤアルゴリズム全体が活動指標にロックされることを防ぐ。
【００３７】
ＤＥＬＡＹ入力は、本発明によればｓｔａｔ＿ｃｏｕｎｔによって駆動され、信号が過度に関連性があるとみなされ雑音推定値の「迅速な」増加を可能にできないような場合、雑音推定器の前述の遅延期間に下限を設定する（すなわち、従来別様に必要とされるよりも長い遅延を要求する）。ｓｔａｔ＿ｃｏｕｎｔ信号は、極めて高い関連性がＣＡＤによってやや長時間（例えば２秒）検出された場合、かなり長時間（例えば５秒）雑音推定値の増加を遅延し得る。１実施形態において、ｓｔａｔ＿ｃｏｕｎｔは、より高い関連性がＣＡＤによって指示された場合、雑音推定値の更新の速度（強さ）を低減させるために使用される。
【００３８】
音声／雑音決定器３９は出力３０１を有し、これはカウンタコントローラ３５の入力と結合され、また、雑音推定器３８とも結合されており、後者の結合は従来通りである。音声／雑音決定器が、音声入力信号のいずれかのフレームが例えば、ピッチド信号、トーン信号または非定常信号であると決定すると、出力３０１はそれをカウンタコントローラ３５に指示し、後者は代わってカウンタ３６の出力ｓｔａｔ＿ｃｏｕｎｔを所定値に設定する。出力３０１が定常信号を指示した場合、コントローラ３５はカウンタ３６を減分できる。
【００３９】
図４は、図１のハングオーバ論理回路の例示的実施形態を例示している。図４において、複合信号フラグＶＡＤ＿ｆａｉｌ＿ｓｈｏｒｔおよびＶＡＤ＿ｆａｉｌ＿ｌｏｎｇは、別のＯＲゲート４３の入力を駆動する出力を有するＯＲゲート４１に入力される。ＶＡＤからの音声／雑音指標ｓｐ＿ｖａｄ＿ｐｒｉｍは、従来のＶＡＤハングオーバ論理回路４５に入力される。ＶＡＤハングオーバ論理回路の出力ｓｐ＿ｖａｄはＯＲゲート４３の第２の入力に結合される。複合信号フラグＶＡＤ＿ｆａｉｌ＿ｓｈｏｒｔまたはＶＡＤ＿ｆａｉｌ＿ｌｏｎｇのどちらか一方がアクティブの場合、ＯＲゲート４１の出力はＯＲゲート４３に入力信号が関連性があることを指示させる。
【００４０】
複合信号フラグのどちらもアクティブでなければ、ＶＡＤハングオーバ論理回路４５の音声／雑音決定すなわち信号ｓｐ＿ｖａｄは、関連性の有無の指標を構成するであろう。ｓｐ＿ｖａｄがアクティブであり、従って音声を指示する場合、ＯＲゲート４３の出力は信号が関連性があることを指示する。他方、ｓｐ＿ｖａｄがイナクティブであり、雑音を指示した場合、ＯＲゲート４３の出力は信号が関連性がないことを指示する。ＯＲゲート４３からの関連性の有無の指標は、例えばＤＴＸシステムのＤＴＸ制御部に、またはＶＲシステムのビットレート制御部に供給することができる。
【００４１】
図５は、信号ｃｏｍｐｌｅｘ＿ｈｉｇｈ、ｃｏｍｐｌｅｘ＿ｌｏｗおよびｃｏｍｐｌｅｘ＿ｔｉｍｅｒを作成するために図２のパラメータジェネレータ２８により実行され得る例示的動作を例示している。図５（および図６〜１１における）の指数ｉは、音声入力信号の現フレームを示す。図５に示すように、上記の信号の各々は、信号ｇ＿ｆ（ｉ）が各自の閾値、すなわち５１〜５２でのｃｏｍｐｌｅｘ＿ｈｉｇｈのＴＨ_ｈ、５４〜５５でのｃｏｍｐｌｅｘ＿ｌｏｗのＴＨ_ｌまたは５７〜５８でのｃｏｍｐｌｅｘ＿ｔｉｍｅｒのＴＨ_ｔを超えていなければ、値０を有する。ｇ＿ｆ（ｉ）が５１で閾値ＴＨ_ｈを超えた場合、ｃｏｍｐｌｅｘ＿ｈｉｇｈは５３で１に設定され、そして、ｇ＿ｆ（ｉ）が５４で閾値ＴＨ_ｌを超えた場合、ｃｏｍｐｌｅｘ＿ｌｏｗは５６で１に設定される。ｇ＿ｆ（ｉ）が５７で閾値ＴＨ_ｔを超えた場合、ｃｏｍｐｌｅｘ＿ｔｉｍｅｒが５９で１だけ増分される。図５における例示的閾値は、ＴＨ_ｈ＝０．６、ＴＨ_ｌ＝０．５およびＴＨ_ｔ＝０．７を含む。図５から、ｃｏｍｐｌｅｘ＿ｔｉｍｅｒはｇ＿ｆ（ｉ）がＴＨ_ｔより大きい連続するフレームの数を表していることがわかる。
【００４２】
図６は、図２のカウンタコントローラ２９およびカウンタ２０１により実行され得る例示的動作を例示している。６１でｃｏｍｐｌｅｘ＿ｔｉｍｅｒが閾値ＴＨ_ｃｔを超えている場合、カウンタコントローラ２９は６２でカウンタ２０１の出力ｃｏｍｐｌｅｘ＿ｈａｎｇ＿ｃｏｕｎｔを値Ｈに設定する。６１でｃｏｍｐｌｅｘ＿ｔｉｍｅｒが閾値ＴＨ_ｃｔを超えていないが、６３で０より大きい場合、カウンタコントローラ２９は６４でカウンタ２０１の出力ｃｏｍｐｌｅｘ＿ｈａｎｇ＿ｃｏｕｎｔを減分する。図６の例示的値は、ＴＨ_ｃｔ＝１００（１実施形態において２秒に対応する）、およびＨ＝２５０（１実施形態において５秒に対応する）を含む。
【００４３】
図７は、図２の比較器２０３により実行され得る例示的動作を例示している。ｃｏｍｐｌｅｘ＿ｈａｎｇ＿ｃｏｕｎｔが７１でＴＨ_ｈｃより大きい場合、ＶＡＤ＿ｆａｉｌ＿ｌｏｎｇは７２で１に設定される。そうでなければ、ＶＡＤ＿ｆａｉｌ＿ｌｏｎｇは７３で０に設定される。１実施形態において、ＴＨ_ｈｃ＝０である。
【００４４】
図８は、図２のバッファ２０２、比較器２０４および２０５、およびＡＮＤゲート２０７により実行され得る例示的動作を例示している。図８に示す通り、ｓｐ＿ｖａｄ＿ｐｒｉｍの現在の第（ｉ）値の直前の最後のｓｐ＿ｖａｄ＿ｐｒｉｍのｐ値が８１ですべて０に等しく、また、ｇ＿ｆ（ｉ）が８２で閾値ＴＨ_ｆｓを超えている場合、ＶＡＤ＿ｆａｉｌ＿ｓｈｏｒｔは８３で１に設定される。そうでなければ、ＶＡＤ＿ｆａｉｌ＿ｓｈｏｒｔは８４で０に設定される。図８における例示的値は、ＴＨ_ｆｓ＝０．５５、およびｐ＝１０を含む。
【００４５】
図９は、図３のバッファ３０および３１、比較器３２および３３、およびＯＲゲート３４により実行され得る例示的動作を例示している。ｃｏｍｐｌｅｘ＿ｈｉｇｈの現在の第（ｉ）値の直前の最後のｃｏｍｐｌｅｘ＿ｈｉｇｈのｍ値がすべて９１で１に等しい場合、または、ｃｏｍｐｌｅｘ＿ｌｏｗの現在の第（ｉ）値の直前の最後のｃｏｍｐｌｅｘ＿ｌｏｗのｎ値がすべて９２で１に等しい場合、ｃｏｍｐｌｅｘ＿ｗａｒｎｉｎｇは９３で１に設定される。そうでなければ、ｃｏｍｐｌｅｘ＿ｗａｒｎｉｎｇは９４で０に設定される。図９における例示値はｍ＝８およびｎ＝１５を含む。
【００４６】
図１０は、図３のカウンタコントローラ３５およびカウンタ３６により実行され得る例示的動作を例示している。音声信号が１００で定常であると指示された場合（図３の３０１参照）、ｓｔａｔ＿ｃｏｕｎｔは１０４で減分される。さらに、１０１でｃｏｍｐｌｅｘ＿ｗａｒｎｉｎｇ＝１であり、１０２でｓｔａｔ＿ｃｏｕｎｔが値ＭＩＮ未満である場合、ｓｔａｔ＿ｃｏｕｎｔは１０３でＭＩＮに設定される。１００で音声信号が定常ではない場合、ｓｔａｔ＿ｃｏｕｎｔは１０５でＡに設定される。ＭＩＮおよびＡの例示値はそれぞれ５および２０であり、これらは１実施形態において、雑音推定器３８（図３）の遅延値をそれぞれ１００ｍｓおよび４００ｍｓの下限にさせる。
【００４７】
図１１は、図３の比較器３７および雑音推定器３８により実行され得る例示的動作を例示している。ｃｏｍｐｌｅｘ＿ｈａｎｇ＿ｃｏｕｎｔが１１１で閾値ＴＨ_ｈｃを超えた場合、１１２で比較器３７は雑音推定器３８のＤＯＷＮ入力をアクティブに駆動し、その結果、雑音推定器３８はその雑音推定値を下方に更新する（または、それらを不変のままにしておく）ことだけが可能になる。１１１でｃｏｍｐｌｅｘ＿ｈａｎｇ＿ｃｏｕｎｔが閾値ＴＨ_ｈｃ１を超えていない場合、雑音推定器３８のＤＯＷＮ入力はイナクティブであり、従って、雑音推定器３８は１１３でその雑音推定値の上方または下方の更新を行うことができる。１例では、ＴＨ_ｈｃ１＝０である。
【００４８】
上述のように、ＣＡＤによって作成される複合信号フラグは、入力音声信号が聴取者にとって知覚的関連性のある情報を含む複合信号であるとＣＡＤが判定した場合に、ＶＡＤによる「雑音」の分類を選択的に無効にできるようにする。ＶＡＤ＿ｆａｉｌ＿ｓｈｏｒｔフラグは、所定数の連続するフレームがＶＡＤにより雑音として分類された後に、ｇ＿ｆ（ｉ）が所定値を超えていると判定された時に、ハングオーバ論理回路の出力に「関連性のある」の指標をトリガする。
【００４９】
また、ＶＡＤ＿ｆａｉｌ＿ｌｏｎｇフラグは、ハングオーバ論理回路の出力に「関連性のある」の指標をトリガすることができ、所定数の連続するフレームについてｇ＿ｆ（ｉ）が所定値を超えた後に、相対的に長い維持期間この指標を維持することができる。この維持期間は、ｇ＿ｆ（ｉ）が前述の所定値を超えているが、連続するフレームの個別のシーケンスの各々は前述の所定数より少ないフレームより構成される、連続するフレームの複数の個別のシーケンスを包含し得る。
【００５０】
１実施形態において、信号関連性パラメータｃｏｍｐｌｅｘ＿ｈａｎｇ＿ｃｏｕｎｔは、雑音推定器３８のＤＯＷＮ入力を、複合信号フラグＶＡＤ＿ｆａｉｌ＿ｌｏｎｇと同じ条件下でアクティブにさせることができる。信号関連性パラメータｃｏｍｐｌｅｘ＿ｈｉｇｈおよびｃｏｍｐｌｅｘ＿ｌｏｗは、ｇ＿ｆ（ｉ）が、第１の数の連続するフレームに関する所定の閾値を超えているか、または第２の数の連続するフレームに関する所定の閾値を超えている場合、たとえ複数の連続するフレームが定常であると（音声／雑音決定器３９によって）判定されても、雑音推定器３８のＤＥＬＡＹ入力が（必要に応じて）下限値まで持ち上げられ得るように動作可能である。
【００５１】
図１２は、図１〜１１の音声符号化器の実施形態により実行され得る例示的動作を例示している。１２１において、現フレームについて最も大きい（最大）振幅を有する正規化ゲインが計算される。１２２で、ゲインは、関連性パラメータおよび複合信号フラグを作成するために分析される。１２３で、関連性パラメータはＶＡＤでの暗騒音推定のために使用される。１２４で、複合信号フラグはハングオーバ論理回路の関連性決定において使用される。１２５で音声信号が知覚的関連性のある情報を含んでいないと決定された場合、１２６で、例えばＶＲシステムではビットレートが低減され、または例えばＤＴＸシステムではコンフォートノイズパラメータを符号化することができる。
【００５２】
以上の説明から、図１〜１３の実施形態が、従来の音声符号化装置において、ソフトウェア、ハードウェアまたは両者の適切な変更態様によって容易に実施可能であることは、当業者にとって明白であろう。
【００５３】
本発明の例示的実施形態を詳細に説明したが、それは、多様な実施形態において実施し得る本発明の範囲を限定するものではない。
【図面の簡単な説明】
【図１】本発明に従った例示的な音声符号化装置の関係する部分を略示する。
【図２】図１の複合信号活動検出器の例示的実施形態を例示する。
【図３】図１の音声活動検出器の例示的実施形態を例示する。
【図４】図１のハングオーバ論理回路の例示的実施形態を例示する。
【図５】図２のパラメータジェネレータの例示的動作を例示する。
【図６】図２のカウンタコントローラの例示的動作を例示する。
【図７】図２の一部の例示的動作を例示する。
【図８】図２の別の部分の例示的動作を例示する。
【図９】図３の一部の例示的動作を例示する。
【図１０】図３のカウンタコントローラの例示的動作を例示する。
【図１１】図３のさらに別の部分の例示的動作を例示する。
【図１２】図１から１１の実施形態によって実行され得る例示的動作を例示する。
【図１３】図２の複合信号活動検出器の代替実施形態を例示する。

Claims

音声信号の符号化に際して音声信号中において雑音情報よりも高い伝送ビットレートを必要とする非音声情報を保存する方法であって、
音声信号が、音声情報または雑音情報のいずれを含むかを示す第１の決定を行う過程と、
音声信号が、雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含むか否かの第２の決定を行う過程と、
前記第２の決定に応答して、雑音情報を示す前記第１の決定を選択的に無効にする過程とを有し、
前記第２の決定を行う過程において、所与の期間中に、最大振幅の正規化相関値が所定の閾値を超えるフレームの数が所定数を超える場合に、雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含むと決定する方法。
前記第２の決定を行う過程において、最大振幅の正規化相関値が所定の閾値を超えるフレームの連続する数が所定数を超える場合に、雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含むと決定することを特徴とする請求項１記載の方法。
それぞれのフレームについて、音声信号の開ループ長時間予測相関分析において得られた正規化相関値を用いて計算される候補値の集合から、前記最大振幅の正規化相関値が選択されることを特徴とする請求項１記載の方法。
それぞれのフレームについて、音声信号をハイパスフィルタ処理した後にハイパスフィルタ処理された音声信号に対して相関分析を適用することにより算出された複数の正規化相関値から、前記最大振幅の正規化相関値が選択されることを特徴とする請求項１記載の方法。
音声信号に含まれる雑音情報よりも高い伝送ビットレートを必要とする非音声情報を保存するために音声信号符号化器において使用する装置（１０）であって、
音声信号（１２）を受信し、音声信号（１２）が音声情報または雑音情報のいずれを含むかを示す第１の決定を行う選別器（１６）と、
音声信号（１２）を受信し、音声信号（１２）が雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含むか否かの第２の決定を行う検出器（１４）と、
前記選別器（１６）および前記検出器（１４）と結合され、前記第１の決定を示す情報を出力に選択的に供給するように動作可能である論理回路（１８）とを有して構成され、
前記第２の決定を行う検出器（１４）において、所与の期間中に、最大振幅の正規化相関値が所定の閾値を超えるフレームの数が所定数を超えて、雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含むと決定された場合に、前記論理回路（１８）において、雑音情報を示す前記第１の決定が無効にされる装置。
前記第２の決定を行う検出器（１４）において、最大振幅の正規化相関値が所定の閾値を超えるフレームの連続する数が所定数を超える場合に、雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含むと決定されることを特徴とする請求項５記載の装置。
それぞれのフレームについて、音声信号の開ループ長時間予測相関分析において得られた正規化相関値を用いて計算される候補値の集合から、前記最大振幅の正規化相関値が選択されることを特徴とする請求項５記載の装置。
それぞれのフレームについて、音声信号をハイパスフィルタ処理した後にハイパスフィルタ処理された音声信号に対して相関分析を適用することにより算出された複数の正規化相関値から、前記最大振幅の正規化相関値が選択されることを特徴とする請求項１記載の方法。
複数のフレームに分割される音声信号の符号化に際して音声信号中において雑音情報よりも高い伝送ビットレートを必要とする非音声情報を保存する方法であって、
音声信号が音声情報または雑音情報のいずれを含むかを示す第１の決定を行う過程と、
それぞれのフレームについて、ハイパスフィルタ処理された音声信号についての最大正規化相関値を表す数値を検出することで数値の第１のシーケンスを作成する過程と、
該第１のシーケンスの数値に対して平滑化フィルタリング処理を適用することでそれぞれ得られる数値の第２のシーケンスを作成する過程と、
第２のシーケンスの数値を少なくとも１つの閾値と比較することで、雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含む音声信号であるか否かを示す第２の決定を行う過程と、
前記第２の決定に応答して、雑音情報を示す前記第１の決定を選択的に無効にする過程とを有する方法。
最大正規化相関値を表す数値を検出する前記過程が、音声信号の相関分析から得られる数値を対象として実行されることを特徴とする請求項９に記載の方法。
それぞれのフレームについて、ハイパスフィルタ処理された音声信号についての最大正規化相関値を表す数値が、音声信号の開ループ長時間予測相関分析において得られた正規化相関値を用いて計算される候補値の集合から選択されることを特徴とする請求項９に記載の方法。
最大正規化相関値を表す数値を検出する前記過程が、音声信号をハイパスフィルタ処理した後にハイパスフィルタ処理された音声信号に対して相関分析を適用することを含むことを特徴とする請求項９に記載の方法。
最大正規化相関値を表す数値を検出する前記過程において、それぞれのフレームについて、ハイパスフィルタ処理された音声信号についての最大正規化相関値を表す数値が、最大振幅の正規化相関値であることを特徴とする請求項９記載の方法。