JP2016527570A

JP2016527570A - 音声処理のための無声／有声判定

Info

Publication number: JP2016527570A
Application number: JP2016533810A
Authority: JP
Inventors: ヤン・ガオ
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2013-09-09
Filing date: 2014-09-05
Publication date: 2016-09-08
Anticipated expiration: 2034-09-05
Also published as: EP3352169A1; US20180322895A1; CN110097896B; MX352154B; JP2018077546A; AU2014317525A1; US20170110145A1; ZA201600234B; SG11201600074VA; BR112016004544B1; CN105359211B; SG10201701527SA; EP3005364A4; WO2015032351A1; HK1216450A1; RU2636685C2; KR102007972B1; ES2908183T3; MX2016002561A; US10347275B2

Abstract

本発明の実施例によれば、音声処理のための方法は、複数のフレームを含む音声信号の現在のフレームにおいて無声／有声発音音声の特性を反映する無声発音／有声発音パラメータを決定することを含む。平滑化された無声発音／有声発音パラメータは、音声信号の現在のフレームより前のフレームにおける無声発音／有声発音パラメータの情報を含むように決定される。無声発音／有声発音パラメータと平滑化された無声発音／有声発音パラメータの間の差が計算される。この方法は、判定パラメータとして、計算された差を使用して、現在のフレームが無声音声を含むか、または有声音声を含むかを決定するための無声／有声判定点を作成することをさらに含む。

Description

本出願は、2013年9月9日に出願された、発明の名称を「Improved Unvoiced/Voiced Decision for Speech Coding / Bandwidth Extension / Speech Enhancement」とする、米国仮出願第61/875,198号の継続である、2014年9月3日に出願された、発明の名称を「Unvoiced/Voiced Decision for Speech Processing」とする、米国特許出願第14/476,547号の優先権を主張し、これらの両方はその全体が複製されたかのように参照によりここに組み込まれる。

本発明は、概して音声処理の分野にあり、詳細には音声処理のための有声／無声判定についてである。

音声符号化は、音声ファイルのビットレートを低減させる処理を指す。音声符号化は、音声を含むデジタルオーディオ信号のデータ圧縮の応用である。音声符号化は、結果として生じるモデル化されたパラメータをコンパクトなビットストリームに表現するために、一般のデータ圧縮アルゴリズムと組み合わされた、音声信号をモデル化するためにオーディオ信号処理技術を使用する音声特有のパラメータ推定を使用する。音声符号化の目的は、デコードされた（展開された）音声が元の音声から知覚的に区別できないように、サンプルあたりのビット数を低減させることによって、要求されるメモリ記憶空間、送信帯域幅および送信電力における節約を達成することである。

しかし、音声符号化器は損失を生じる符号化器であり、すなわち、デコードされた信号は元のものとは異なる。従って、音声符号化における目標の１つは、与えられたビットレートにおけるひずみ（知覚できる損失）を最小化する、または与えられたひずみに達するためにビットレートを最小化することである。

音声が他のほとんどのオーディオ信号よりずっと簡単な信号であり、音声の特性についてずっと多くの統計情報が利用可能であるという点で、音声符号化は他の形式のオーディオ符号化とは異なる。その結果、オーディオ符号化において関連するいくつかの聴覚情報は、音声符号化の状況において不必要であり得る。音声符号化において、最も重要な基準は、制限された量の送信データを用いた音声の明瞭さおよび「快適さ」の維持である。

音声の明瞭さは、実際の文字通りの内容に加えて、完全な明瞭さのために全て重要である、話者の同一性、感情、抑揚、音質等も含む。劣化した音声は十分に明瞭であるが聴取者を主観的にいらいらさせる可能性があるので、劣化した音声の快適さのより抽象的な概念は明瞭さとは異なる特性である。

音声波形の冗長性は、有声および無声音声信号のような、いくつかの異なる種類の音声信号に関して考慮され得る。有声音、例えば「a」、「b」は、本質的に声帯の振動に起因し、振動性である。従って、短期間にわたって、正弦曲線のような周期的な信号の和によって十分にモデル化される。言い換えると、有声音声について、音声信号は本質的に周期的である。しかし、この周期性は、音声セグメントの継続期間にわたって可変である可能性があり、周期的な波の形状は、通例、セグメントからセグメントへと徐々に変化する。低ビットレート音声符号化は、そのような周期性を探索することから大きく利益を得ることが可能である。有声音声の期間はピッチとも呼ばれ、ピッチ予測はしばしば長期予測（Long-Term Prediction、LTP）と名付けられる。対照的に、「s」、「sh」のような無声音はよりノイズのようである。これは、無声音声信号がよりランダムなノイズのようであり、より少ない量の予測可能性を有するためである。

伝統的に、全てのパラメトリックな音声符号化方法は、送信されなければならない情報の量を低減させ、短い間隔で信号の音声サンプルのパラメータを推定するために、音声信号に本来備わっている冗長性を利用する。この冗長性は、準周期的なレートでの音声波の形状の繰り返し、および音声信号のゆっくり変化するスペクトル包絡線から主に生じる。

音声波形の冗長性は、有声および無声のような、いくつかの異なる種類の音声信号に関して考慮され得る。音声信号は有声音声について本質的に周期的であるが、この周期性は音声セグメントの継続期間にわたって可変である可能性があり、周期的な波の形状は、通例、セグメントからセグメントへと徐々に変化する。低ビットレート音声符号化は、そのような周期性を探索することから大きく利益を得ることが可能である。有声音声の期間はピッチとも呼ばれ、ピッチ予測はしばしば長期予測（Long-Term Prediction、LTP）と名付けられる。無声音声に関して、信号はよりランダムなノイズのようであり、より少ない量の予測可能性を有する。

いずれの場合も、スペクトル包絡線成分から音声信号の励振成分を分離することによって音声セグメントの冗長性を低減させるために、パラメトリックな符号化が使用され得る。ゆっくり変化するスペクトル包絡線は、短期予測（Short-Term Prediction、STP）とも呼ばれる線形予測符号化（Linear Prediction Coding、LPC）によって表現することができる。低ビットレート音声符号化は、そのような短期予測を探索することから大いに利益を得ることもあり得る。符号化の利点は、パラメータが変化する遅いレートから生じる。さらに、パラメータが、数ミリ秒の範囲内で保持される値から著しく異なることは稀である。従って、8kHz、12.8kHzまたは16kHzのサンプリングレートにおいて、音声符号化アルゴリズムは、通常のフレーム継続期間が10から30ミリ秒の範囲内にあるようなものである。20ミリ秒のフレーム継続期間は最も一般的な選択である。

G.723.1、G.729、G.718のようなより最近の良く知られた標準において、エンハンスト・フル・レート（Enhanced Full Rate、ＥＦＲ）、選択可能モード・ボコーダ（Selectable Mode Vocoder、SMV）、適応マルチレート（Adaptive Multi-Rate、AMR）、可変レート・マルチモード広帯域（Variable-Rate Multimode Wideband、VMR-WB）、または適応マルチレート広帯域（Adaptive Multi-Rate Wideband、AMR-WB）、符号励振線形予測技術（Code Excited Linear Prediction Technique、「CELP」）が採用されてきた。CELPは、符号励振、長期予測および短期予測の技術的な結合として一般的に理解される。CELPは、特定の人の声の特性または人の発声する声の生成モデルから利益を得ることによって、音声信号をエンコードするために主に使用される。異なるコーデックのためのCELPの詳細は著しく異なる可能性があるが、CELP音声符号化は音声圧縮の領域でたいへん普及しているアルゴリズム原理である。その普及のためにCELPアルゴリズムは各種のITU-T、MPEG、3GPP、および3GPP2標準において使用されてきた。CELPの変形は、代数CELP、緩和型CELP、低遅延CELPおよびベクトル和励振線形予測、および他を含む。CELPは、特定のコーデックのためでなく、アルゴリズムのクラスのための一般用語である。

CELPアルゴリズムは４つの主要なアイデアに基づく。第１に、線形予測（LP）を通した音声生成のソース・フィルタ・モデルが使用される。音声生成のソース・フィルタ・モデルは、声帯のような音源、および線形音響フィルタ、発声の広がり（および放射特性）の組み合わせとして音声をモデル化する。音声生成のソース・フィルタ・モデルの実装において、音源、または励振信号は、有声音声について周期的なインパルスの列、または無声音声について白色ノイズとして、しばしばモデル化される。第２に、LPモデルの入力（励振）として適応型および固定型コードブックが使用される。第３に、「知覚的に重み付けされたドメイン」内で閉ループにおいて探索が行われる。第４に、ベクトル量子化（VQ）が適用される。

本発明の実施例によれば、音声処理のための方法は、複数のフレームを含む音声信号の現在のフレームにおいて無声／有声発音音声の特性を反映する無声発音／有声発音パラメータを決定することを含む。音声信号の現在のフレームより前のフレームにおける無声発音／有声発音パラメータの情報を含むように、平滑化された無声発音／有声発音パラメータが決定される。無声発音／有声発音パラメータと平滑化された無声発音／有声発音パラメータの間の差が計算される。この方法は、判定パラメータとして、計算された差を使用して、現在のフレームが無声音声を含むか、または有声音声を含むかを決定するための無声／有声判定点を作成することをさらに含む。

代わりの実施例において、音声処理装置は、プロセッサ、およびプロセッサによる実行のためのプログラミングを記憶するコンピュータ読み取り可能な記憶媒体を含む。プログラミングは、複数のフレームを含む音声信号の現在のフレームにおいて無声／有声発音音声の特性を反映する無声発音／有声発音パラメータを決定し、音声信号の現在のフレームより前のフレームにおける無声発音／有声発音パラメータの情報を含むように、平滑化された無声発音／有声発音パラメータを決定するための命令を含む。プログラミングは、無声発音／有声発音パラメータと平滑化された無声発音／有声発音パラメータの間の差を計算し、判定パラメータとして、計算された差を使用して、現在のフレームが無声音声を含むか、または有声音声を含むかを決定するための無声／有声判定点を作成するための命令をさらに含む。

代わりの実施例において、音声処理のための方法は、音声信号の複数のフレームを提供し、現在のフレームについて、時間ドメインにおける音声信号の第１のエネルギー包絡線からの第１の周波数帯域についての第１のパラメータおよび時間ドメインにおける音声信号の第２のエネルギー包絡線からの第２の周波数帯域についての第２のパラメータを決定することを含む。音声信号の以前のフレームから、平滑化された第１のパラメータおよび平滑化された第２のパラメータが決定される。第１のパラメータは平滑化された第１のパラメータと比較され、第２のパラメータは平滑化された第２のパラメータと比較される。判定パラメータとして、比較を使用して、現在のフレームが無声音声を含むか、または有声音声を含むかを決定するために無声／有声判定点が作成される。

本発明およびその利点のより十分な理解のために、添付図面に関連してなされる下記の記載への参照がここで行われる。

本発明の実施例に従って低周波数帯域音声信号の時間ドメインエネルギー評価を説明する。本発明の実施例に従って高周波数帯域音声信号の時間ドメインエネルギー評価を説明する。本発明の実施例を実装する従来型のCELPエンコーダを使用した元の音声のエンコードの間に行われる動作を説明する。本発明の実施例を実装する従来型のCELPデコーダを使用した元の音声のデコードの間に行われる動作を説明する。本発明の実施例の実装において使用される従来型のCELPエンコーダを説明する。本発明の実施例に従って図５のエンコーダに対応する基本的なCELPデコーダを説明する。 CELP音声符号化の符号励振コードブックまたは固定型コードブックを構築するためのノイズのような候補ベクトルを説明する。 CELP音声符号化の符号励振コードブックまたは固定型コードブックを構築するためのパルスのような候補ベクトルを説明する。有声音声についての励振スペクトルの例を説明する。無声音声についての励振スペクトルの例を説明する。背景ノイズ信号についての励振スペクトルの例を説明する。帯域幅拡張を有する周波数ドメインエンコードの例を説明し、BWE側の情報を有するエンコーダを説明する。帯域幅拡張を有する周波数ドメインデコードの例を説明し、BWEを有するデコーダを説明する。上記に記載した各種の実施例に従って音声処理動作を記載する。上記に記載した各種の実施例に従って音声処理動作を記載する。上記に記載した各種の実施例に従って音声処理動作を記載する。本発明の実施例に従って通信システム１０を説明する。ここで開示されたデバイスおよび方法を実装するために使用され得る処理システムのブロック図を説明する。

現代のオーディオ／音声デジタル信号通信システムにおいて、デジタル信号はエンコーダにおいて圧縮され、圧縮された情報またはビットストリームはパケット化され、通信チャネルを通してフレーム毎にデコーダに送信されることが可能である。デコーダは、オーディオ／音声デジタル信号を取得するために、圧縮された情報を受信およびデコードする。

音声信号をより効率的にエンコードするために、音声信号は異なるクラスに分類されることが可能であり、各々のクラスは異なるやり方でエンコードされる。例えば、G.718、VMR-WB、またはAMR-WBのようないくつかの標準において、音声信号は、無声（UNVOICED）、過渡（TRANSITION）、一般（GENERIC）、有声（VOICED）、およびノイズ（NOISE）に分類される。

有声音声信号は準周期的な種類の信号であり、これは、通例、高周波数領域内より低周波数領域内でより多くのエネルギーを有する。対照的に、無声音声信号はノイズのような信号であり、これは、通例、低周波数領域内より高周波数領域内でより多くのエネルギーを有する。無声／有声分類または無声判定は、音声信号符号化、音声信号帯域幅拡張（BWE）、音声信号の向上および音声信号背景ノイズ低減（NR）の分野において広く使用される。

音声符号化において、無声音声信号および有声音声信号は異なるやり方でエンコード／デコードされ得る。音声信号帯域幅拡張において、無声音声信号の拡張された高帯域信号エネルギーは有声音声信号のそれとは異なって制御され得る。音声信号背景ノイズ低減において、NRアルゴリズムは無声音声信号および有声音声信号について異なり得る。従って、上記の種類の応用のために強固な無声判定が重要である。

本発明の実施例は、音声符号化、帯域幅拡張、および／または音声の向上の動作より前に、有声信号または無声信号としてオーディオ信号を分類する正確さを改善する。従って、本発明の実施例は、音声信号符号化、音声信号帯域幅拡張、音声信号の向上および音声信号背景ノイズ低減に適用され得る。特に、本発明の実施例は、帯域幅拡張においてITU-T AMR-WB音声符号化器の標準を改善するために使用され得る。

本発明の実施例に従う、オーディオ信号の有声信号または無声信号への分類の正確さを改善するために使用される音声信号の特性の説明が、図１および２を使用して説明される。音声信号は、下記の説明において、２つの状況、低周波数帯域および高周波数帯域において評価される。

図１は、本発明の実施例に従って低周波数帯域音声信号の時間ドメインエネルギー評価を説明する。

低周波数帯域音声の時間ドメインエネルギー包絡線1101は時間にわたる平滑化されたエネルギー包絡線であり、無声音声領域1103および有声音声領域1104によって分離された第１の背景ノイズ領域1102および第２の背景ノイズ領域1105を含む。有声音声領域1104の低周波数有声音声信号は、無声音声領域1103における低周波数無声音声信号より高いエネルギーを有する。さらに、低周波数無声音声信号は低周波数背景ノイズ信号と比較してより高い、またはより近いエネルギーを有する。

図２は、本発明の実施例に従って高周波数帯域音声信号の時間ドメインエネルギー評価を説明する。

図１とは対照的に、高周波数音声信号は異なる特性を有する。時間にわたる平滑化されたエネルギー包絡線である、高帯域音声信号の時間ドメインエネルギー包絡線1201は、無声音声領域1203および有声音声領域1204によって分離された第１の背景ノイズ領域1202および第２の背景ノイズ領域1205を含む。高周波数有声音声信号は、高周波数無声音声信号より低いエネルギーを有する。高周波数無声音声信号は、高周波数背景ノイズ信号と比較してずっと高いエネルギーを有する。しかし、高周波数無声音声信号1203は、有声音声1204より比較的短い継続期間を有する。

本発明の実施例は、時間ドメインにおける異なる周波数帯域内の有声および無声音声の間の特性におけるこの差を活用する。例えば、現在のフレーム内の信号は、信号のエネルギーが高帯域内でなく低帯域において対応する無声信号より高いと決定することによって有声信号であると識別され得る。同様に、現在のフレーム内の信号は、信号のエネルギーが低帯域において対応する有声信号より低いが、高帯域内の対応する有声信号より高いと識別することによって無声信号であると識別され得る。

伝統的に、無声／有声音声信号を検出するために２つの主要なパラメータが使用される。１つのパラメータは信号の周期性を表現し、もう１つのパラメータはスペクトル傾斜を示し、これは周波数が増加するに連れて強度が低下する度合いである。

普及している信号周期性パラメータは式(1)において下記で提供される。

式(1)において、s_w(n)は重み付けされた音声信号であり、分子は相関であり、分母はエネルギー正規化係数である。周期性パラメータは「ピッチ相関」または「有声発音」とも呼ばれる。もう１つの例の有声発音パラメータは式(2)において下記で提供される。

(2)において、e_p(n)およびe_c(n)は励振成分信号であり、下記でさらに記載される。各種の応用において、式(1)および(2)のいくつかの変形が使用され得るが、それらはなおも信号の周期性を表現することができる。

最も普及しているスペクトル傾斜パラメータは式(3)において下記で提供される。

式(3)において、s(n)は音声信号である。周波数ドメインエネルギーが利用可能であるならば、スペクトル傾斜パラメータは式(4)において記載されるとおりであることが可能である。

式(4)において、E_LBは低周波数帯域エネルギーおよびE_HBは高周波数帯域エネルギーである。

スペクトル傾斜を反映することができるもう１つのパラメータは、ゼロ交差レート（Zero-Cross Rate、ZCR）と呼ばれる。ZCRは、フレームまたはサブフレームにおける正／負の信号変化レートをカウントする。通例、高周波数帯域エネルギーが低周波数帯域エネルギーと比較して高いとき、ZCRも高い。そうでなければ、高周波数帯域エネルギーが低周波数帯域エネルギーと比較して低いとき、ZCRも低い。実際の応用において、式(3)および(4)のいくつかの変形が使用され得るが、それらはなおもスペクトル傾斜を表現することができる。

前述のように、無声／有声の分類または無声／有声判定は、音声信号符号化、音声信号帯域幅拡張（BWE）、音声信号の向上および音声信号背景ノイズ低減（NR）の分野において広く使用される。

音声符号化において、無声音声信号はノイズのような励振を使用することによって符号化されることが可能であり、有声音声信号は後に説明されるようにパルスのような励振を用いて符号化されることが可能である。音声信号帯域幅拡張において、無声音声信号の拡張された高帯域信号エネルギーは増加され得るのに対して、有声音声信号の拡張された高帯域信号エネルギーは低減され得る。音声信号背景ノイズ低減（NR）において、NRアルゴリズムは、無声音声信号についてあまり積極的でなく、有声音声信号についてより積極的であり得る。従って、上記の種類の応用のために強固な無声または有声判定が重要である。無声音声および有声音声の特性に基づいて、無声／有声クラスを検出するために、周期性パラメータP_voicingおよびスペクトル傾斜パラメータP_tiltの両方またはそれらの変形のパラメータがたいてい使用される。しかし、本出願の発明者は、周期性パラメータP_voicingおよびスペクトル傾斜パラメータP_tiltまたはそれらの変形のパラメータの「絶対」値が音声信号記録設備、背景ノイズレベル、および／または話者によって影響を受けることを特定した。それらの影響は予め決定されることが難しく、おそらく結果として強固でない無声／有声音声検出になる。

本発明の実施例は、「絶対」値の代わりに、周期性パラメータP_voicingおよびスペクトル傾斜パラメータP_tiltまたはそれらの変形のパラメータの「相対」値を使用する改善された無声／有声音声検出を記載する。「相対」値は、音声信号記録設備、背景ノイズレベル、および／または話者による「絶対」値よりずっと小さく影響を受け、結果としてより強固な無声／有声音声検出になる。

例えば、結合された無声発音パラメータは下記の式(5)のように定義することが可能である。
P_{c_unvoicing} = (1-P_voicing)・(1-P_tilt)・・・ (5)
式(11)の終わりの点は他のパラメータが追加され得ることを示す。P_{c_unvoicing}の「絶対」値が大きくなるとき、それは無声音声信号になるようである。結合された有声発音パラメータは下記の式(6)のように記載することが可能である。
P_{c_voicing} = P_voicing・P_tilt・・・ (6)
式(6)の終わりの点は他のパラメータが追加され得ることを同様に示す。P_{c_voicing}の「絶対」値が大きくなるとき、それは有声音声信号になるようである。P_{c_unvoicing}またはP_{c_voicing}の「相対」値が定義される前に、P_{c_unvoicing}またはP_{c_voicing}の強く平滑化されたパラメータがまず定義される。例えば、現在のフレームのパラメータは、式(7)において下記の不等式によって記載されるように前のフレームから平滑化され得る。

式(7)において、P_{c_unvoicing_sm}はP_{c_unvoicing}の強く平滑化された値である。

同様に、平滑化された結合された有声発音パラメータP_{c_voicing_sm}は、式(8)を使用して下記の不等式を使用して決定され得る。

ここで、式(8)において、P_{c_voicing_sm}はP_{c_voicing}の強く平滑化された値である。

有声音声の統計的な振る舞いは無声音声のそれとは異なり、従って、各種の実施例において、上記の不等式を決定するためのパラメータ（例えば、0.9、0.99、7/8、255/256）が決定されることが可能であり、必要ならば実験に基づいてさらに改良される。

P_{c_unvoicing}またはP_{c_voicing}の「相対」値は、下記に記載される式(9)および(10)のように定義され得る。
P_{c_unvoicing_diff} = P_{c_unvoicing} - P_{c_unvoicing_sm} (9)
P_{c_unvoicing_diff}はP_{c_unvoicing}の「相対」値であり、同様に、
P_{c_voicing_diff} = P_{c_voicing} - P_{c_voicing_sm} (10)
P_{c_voicing_diff}はP_{c_voicing}の「相対」値である。

下記の不等式は、無声検出を適用する例示の実施例である。この例示の実施例において、フラグUnvoiced_flagをTRUEに設定することは音声信号が無声音声であることを示すのに対して、フラグUnvoiced_flagをFALSEに設定することは音声信号が無声音声でないことを示す。
if (P_{c_unvoicing_diff} > 0.1) {
Unvoiced_flag = TRUE;
}
else if (P_{c_unvoicing_diff} < 0.05) {
Unvoiced_flag = FALSE;
}
else {
Unvoiced_flagは変化しない（以前のUnvoiced_flagが維持される）
}

下記の不等式は、有声検出を適用する、代わりの例示の実施例である。この例示の実施例において、Voiced_flagをTRUEとして設定することは音声信号が有声音声であることを示すのに対して、Voiced_flagをFALSEに設定することは音声信号が有声音声でないことを示す。
if (P_{c_voicing_diff} > 0.1) {
Voiced_flag = TRUE;
}
else if (P_{c_voicing_diff} < 0.05) {
Voiced_flag = FALSE;
}
else {
Voiced_flagは変化しない（以前のVoiced_flagが維持される）
}

音声信号がVOICEDクラスからのものであると識別した後、音声信号はそしてCELPのような時間ドメイン符号化アプローチで符号化され得る。本発明の実施例は、エンコードより前にUNVOICED信号をVOICED信号に再分類するために適用することも可能である。

各種の実施例において、上記の改善された無声／有声検出アルゴリズムはAMR-WB-BWEおよびNRを改善するために使用され得る。

図３は、本発明の実施例を実装する従来型のCELPエンコーダを使用した元の音声のエンコードの間に行われる動作を説明する。

図３は、しばしば、合成による分析アプローチを使用することによって、合成された音声102と元の音声101の間の重み付けされた誤差109が最小化される、従来型の初期のCELPエンコーダを説明し、合成による分析アプローチは、閉ループ内でデコードされた（合成）信号を知覚的に最適化することによってエンコード（分析）が行われることを意味する。

全ての音声符号化器が利用する基本的な原理は、音声信号は高度に相関された波形であるという事実である。説明として、音声は、下記の式(11)のような自己回帰（AR）モデルを使用して表現することができる。

式(11)において、各々のサンプルは、以前のＬ個のサンプルと白色ノイズの線形結合として表現される。重み付け係数a₁、a₂、... a_Lは線形予測係数（Linear Prediction Coefficients、LPC）と呼ばれる。各々のフレームについて、重み付け係数a₁、a₂、... a_Lは、上記のモデルを使用して作成された{X₁, X₂, ... , X_N}のスペクトルが入力音声フレームのスペクトルと密接に合致するように選択される。

代わりに、音声信号は、高調波モデルとノイズモデルの組み合わせによって表現されることも可能である。モデルの高調波部分は、実際上、信号の周期的な成分のフーリエ級数表現である。一般に、有声信号について、音声の高調波とノイズのモデルは高調波とノイズの両方の混合から構成される。有声音声における高調波とノイズの比率は、話者の特性（例えば、どの程度まで話者の声が正常であるか、または息が漏れているか）、音声セグメントの特質（例えば、どの程度まで音声セグメントが周期的であるか）を含む多数の要因、および、周波数に依存する。有声音声のより高い周波数は、ノイズのような成分のより高い比率を有する。

線形予測モデルおよび高調波ノイズモデルは、音声信号のモデル化および符号化のための２つの主要な方法である。線形予測モデルは音声のスペクトル包絡線をモデル化することに特に優れるのに対して、高調波ノイズモデルは音声の細かな構造をモデル化することに優れる。２つの方法はそれらの相対的な強さを生かして組み合わされ得る。

前に示されたように、CELP符号化より前に、ハンドセットのマイクロホンへの入力信号はフィルタリングされ、例えば、毎秒8000サンプルのレートでサンプリングされる。そして各々のサンプルは、例えば、サンプル当たり13ビットで量子化される。サンプリングされた音声は、20ミリ秒のセグメントまたはフレーム（例えば、この場合において160サンプル）にセグメント化される。

音声信号は分析され、そのLPモデル、励振信号およびピッチが抽出される。LPモデルは音声のスペクトル包絡線を表現する。それは一組の線スペクトル周波数（LSF）係数に変換され、これは線形予測パラメータの代わりの表現であり、なぜならLSF係数は優れた量子化特性を有するからである。LSF係数はスカラー量子化されることが可能であり、または、より効率的に、それらは予めトレーニングされたLSFベクトルコードブックを使用してベクトル量子化されることが可能である。

符号励振はコードベクトルを含むコードブックを含み、コードベクトルは、各々のコードベクトルがほぼ「白色」スペクトルを有し得るように全て独立に選択された成分を有する。入力音声の各々のサブフレームについて、コードベクトルの各々は、短期線形予測フィルタ103および長期予測フィルタ105を通してフィルタリングされ、出力は音声サンプルと比較される。各々のサブフレームにおいて、そのサブフレームを表現するために、出力が入力音声と最も良く合致する（最小化された誤差）コードベクトルが選択される。

符号励振108は、通常、パルスのような信号またはノイズのような信号を含み、これらはコードブックにおいて数学的に構築または保存される。コードブックはエンコーダおよび受信デコーダの両方に利用可能である。確率的または固定型コードブックであり得る符号励振108は、コーデックに（黙示的にまたは明示的に）ハードコードされたベクトル量子化辞書であり得る。そのような固定型コードブックは、代数符号励振線形予測とすることが可能であり、または、明示的に記憶されることが可能である。

コードブックからのコードベクトルは、エネルギーを入力音声のエネルギーに等しくするために、適切な利得によってスケーリングされる。従って、符号励振108の出力は、線形フィルタを通過する前に利得G_C 107によってスケーリングされる。

短期線形予測フィルタ103は、入力音声のスペクトルと類似するようにコードベクトルの「白色」スペクトルを整形する。等価的に、時間ドメインにおいて、短期線形予測フィルタ103は、白色系列内に短期相関（以前のサンプルとの相関）を組み込む。励振を整形するフィルタは、1/A(z)の形式の全極モデル（短期線形予測フィルタ103）を有し、A(z)は予測フィルタと呼ばれ、線形予測（例えば、Levinson-Durbinのアルゴリズム）を使用して取得され得る。１つまたはより多くの実施例において、全極フィルタを使用することが可能であり、なぜならそれは人の発声の広がりの優れた表現であるからであり、なぜならそれは計算することが容易であるからである。

短期線形予測フィルタ103は、元の信号101を分析することによって取得され、一組の係数によって表現される。

前に記載されたように、有声音声の領域は、長期の周期性を示す。ピッチとして知られるこの期間は、ピッチフィルタ1/(B(z))によって、合成されたスペクトルに導入される。長期予測フィルタ105の出力は、ピッチおよびピッチ利得に依存する。１つまたはより多くの実施例において、ピッチは、元の信号、残差信号、または重み付けされた元の信号から推定され得る。１つの実施例において、長期予測関数(B(z))は、次のように式(13)を使用して表現され得る。
B(z) = 1 - G_p・z^-Pitch (13)

重み付けフィルタ110は上記の短期予測フィルタに関連する。典型的な重み付けフィルタの１つは式(14)において記載されるように表現され得る。

ここでβ＜α、0＜β＜1、0＜α≦1である。

もう１つの実施例において、重み付けフィルタW(z)は、下記の式(15)において１つの実施例において説明されるように帯域幅拡張の使用によってLPCフィルタから導き出され得る。

式(15)において、γ1＞γ2であり、これらは極が原点に向かって移動される係数である。

従って、音声のフレーム毎に、LPCおよびピッチが計算され、フィルタが更新される。音声のサブフレーム毎に、サブフレームを表現するために「最も良く」フィルタリングされた出力を生成するコードベクトルが選択される。利得の対応する量子化された値は、正しいデコードのためにデコーダに送信されなければならない。LPCおよびピッチの値も、デコーダにおいてフィルタを再構築するためにフレーム毎に量子化され送信されなければならない。従って、符号励振インデックス、量子化された利得インデックス、量子化された長期予測パラメータインデックス、および量子化された短期予測パラメータインデックスがデコーダに送信される。

図４は、本発明の実施例に従ってCELPデコーダを使用した元の音声のデコードの間に行われる動作を説明する。

音声信号は、受信されたコードベクトルを、対応するフィルタを通過させることによって、デコーダにおいて再構築される。従って、後処理を除く全てのブロックは、図３のエンコーダにおいて記載されているのと同じ定義を有する。

符号化されたCELPビットストリームは受信デバイスにおいて受信されアンパックされる80。受信された各々のサブフレームについて、受信された、符号励振インデックス、量子化された利得インデックス、量子化された長期予測パラメータインデックス、および量子化された短期予測パラメータインデックスは、対応するデコーダ、例えば、利得デコーダ81、長期予測デコーダ82、および短期予測デコーダ83を使用して対応するパラメータを見つけるために使用される。例えば、励振パルスの位置および振幅符号、および符号励振402の代数コードベクトルは、受信された符号励振インデックスから決定され得る。

図４を参照すると、デコーダは、符号励振201、長期予測203、短期予測205を含むいくつかのブロックの組み合わせである。初期のデコーダは、合成された音声206の後に後処理ブロック207をさらに含む。後処理は、短期後処理および長期後処理をさらに含み得る。

図５は、本発明の実施例の実装において使用される従来型のCELPエンコーダを説明する。

図５は、長期線形予測を改善するための追加の適応型コードブックを使用した基本的なCELPエンコーダを説明する。励振は、適応型コードブック307および前に記載されたように確率的または固定型コードブックであり得る符号励振308からの寄与を合計することによって生成される。適応型コードブック内のエントリは、励振の遅延したバージョンを含む。これは有声音のような周期的な信号を効率的に符号化することを可能にする。

図５を参照すると、適応型コードブック307は、過去の合成された励振304またはピッチ周期で過去の励振ピッチサイクルを繰り返すことを含む。ピッチ・ラグは、それが大きいまたは長いとき、整数値でエンコードされ得る。ピッチ・ラグは、それが小さいまたは短いとき、より正確な小数値でしばしばエンコードされる。ピッチの周期的な情報は、励振の適応的な成分を作成するために利用される。そしてこの励振成分は利得G_p 305（ピッチ利得とも呼ばれる）によってスケーリングされる。

長期予測は、有声音声が強い周期性を有するので、有声音声符号化のためにたいへん重要な役割を果たす。有声音声の隣接するピッチサイクルは互いに類似し、これは数学的に下記の励振表現におけるピッチ利得G_pが高いまたは１に近いことを意味する。結果としての励振は個々の励振の結合として式(16)のように表現され得る。
e(n) = G_p・e_p(n) + G_c・e_c(n) (16)
ここで、e_p(n)は、フィードバック・ループ（図５）を通して過去の励振304を含む適応型コードブック307から来る、nによってインデックス付けされるサンプルの連続の１つのサブフレームである。低周波数領域はしばしば高周波数領域より周期的またはより高調波的であるので、e_p(n)は適応的に低域通過フィルタリングされ得る。e_c(n)は、現在の励振の寄与である符号励振コードブック308（固定型コードブックとも呼ばれる）からのものである。さらに、e_c(n)は、例えば、高域通過フィルタリングの向上、ピッチの向上、分散の向上、フォルマントの向上、および他を使用することによって、向上させることも可能である。

有声音声について、適応型コードブック307からのe_p(n)の寄与は支配的である可能性があり、ピッチ利得G_p 305は１の値の辺りである。励振は、通例、各々のサブフレームについて更新される。典型的なフレームサイズは20ミリ秒であり、典型的なサブフレームサイズは5ミリ秒である。

図３に記載されているように、固定型符号励振308は、線形フィルタを通過する前に、利得G_c 306によってスケーリングされる。固定型符号励振108および適応型コードブック307からの２つのスケーリングされた励振成分は、短期線形予測フィルタ303を通したフィルタリングの前に一緒に加算される。２つの利得（G_pおよびG_c）は量子化されデコーダに送信される。従って、符号励振インデックス、適応型コードブックインデックス、量子化された利得インデックス、および量子化された短期予測パラメータインデックスは、受信オーディオデバイスに送信される。

図５において説明されているデバイスを使用して符号化されるCELPビットストリームは、受信デバイスにおいて受信される。図６は、受信デバイスの対応するデコーダを説明する。

図６は、本発明の実施例に従って図５のエンコーダに対応する基本的なCELPデコーダを説明する。図６は、主要なデコーダから合成された音声407を受信する後処理ブロック408を含む。このデコーダは、適応型コードブック307を除いて図２と類似する。

受信された各々のサブフレームについて、対応するデコーダ、例えば、利得デコーダ81、ピッチデコーダ84、適応型コードブック利得デコーダ85、および短期予測デコーダ83を使用して対応するパラメータを見つけるために、受信された、符号励振インデックス、量子化された符号励振利得インデックス、量子化されたピッチインデックス、量子化された適応型コードブック利得インデックス、および量子化された短期予測パラメータインデックスが使用される。

各種の実施例において、CELPデコーダは、いくつかのブロックの組み合わせであり、符号励振402、適応型コードブック401、短期予測406、および後処理408を含む。後処理を除く全てのブロックは、図５のデコーダにおいて記載されているのと同じ定義を有する。後処理は、短期後処理および長期後処理をさらに含み得る。

既に言及したように、CELPは、特定の人の声の特性または人の発声する声の生成モデルから利益を得ることによって、音声信号をエンコードするために主に使用される。音声信号をより効率的にエンコードするために、音声信号は異なるクラスに分類されることが可能であり、各々のクラスは異なるやり方でエンコードされる。有声／無声分類または無声判定は、異なるクラスの全ての分類の中で重要で基本的な分類であり得る。各々のクラスについて、スペクトル包絡線を表現するために、LPCまたはSTPフィルタが常に使用される。しかし、LPCフィルタへの励振は異なり得る。無声信号はノイズのような励振を用いて符号化され得る。一方、有声信号はパルスのような励振を用いて符号化され得る。

（図５におけるラベル308および図６における402を用いて参照される）符号励振ブロックは、一般のCELP符号化のための固定型コードブック（Fixed Codebook、FCB）の位置を説明する。FCBからの選択されたコードベクトルはG_C 306としてしばしば注記される利得によってスケーリングされる。

図７は、CELP音声符号化の符号励振コードブックまたは固定型コードブックを構築するためのノイズのような候補ベクトルを説明する。

ノイズのようなベクトルを含むFCBは、知覚的な品質の観点から無声信号のために最も良い構造であり得る。これは、適応型コードブックの寄与またはLTPの寄与が小さいまたは存在しないであろうし、主要な励振の寄与が無声クラス信号についてのFCB成分に依存するからである。この場合において、パルスのようなFCBが使用されるならば、低ビットレート符号化のために設計されたパルスのようなFCBから選択されたコードベクトル内にたくさんのゼロが存在するので、出力された合成された音声信号はとがったような音がすることがあり得る。

図７を参照すると、符号励振を構築するためのノイズのような候補ベクトルを含むFCB構造。ノイズのようなFCB 501は、利得503によってスケーリングされる、特定のノイズのようなコードベクトル502を選択する。

図８は、CELP音声符号化の符号励振コードブックまたは固定型コードブックを構築するためのパルスのような候補ベクトルを説明する。

パルスのようなFCBは、知覚的な観点から有声クラス信号のためにノイズのようなFCBより良い品質を提供する。これは、適応型コードブックの寄与またはLTPの寄与がより高度に周期的な有声クラス信号について支配的であろうし、主要な励振の寄与が有声クラス信号についてFCB成分に依存しないからである。ノイズのようなFCBが使用されるならば、低ビットレート符号化のために設計されたノイズのようなFCBから選択されたコードベクトルを使用することによって良好な波形の合致を有することがより難しいので、出力された合成された音声信号がノイズのようなまたはあまり周期的でない音がする可能性がある。

図８を参照すると、FCB構造は、符号励振を構築するための複数のパルスのような候補ベクトルを含み得る。パルスのようなコードベクトル602は、パルスのようなFCB 601から選択され、利得603によってスケーリングされる。

図９は、有声音声についての励振スペクトルの例を説明する。LPCスペクトル包絡線704を除去した後、励振スペクトル702はほとんど平坦である。低帯域励振スペクトル701は、通例、高帯域スペクトル703より高調波的である。理論的に、理想的なまたは量子化されていない高帯域励振スペクトルは、低帯域励振スペクトルとほとんど同じエネルギーレベルを有することがあり得る。実際、低帯域および高帯域の両方がCELP技術を用いてエンコードされるならば、合成されたまたは量子化された高帯域スペクトルは、少なくとも２つの理由のために合成されたまたは量子化された低帯域スペクトルより低いエネルギーレベルを有することがあり得る。第１に、閉ループCELP符号化は高帯域より低帯域においてより大きく強調する。第２に、高帯域信号のより迅速な変化に起因するだけでなく、高帯域信号のよりノイズのような特性にも起因して、低帯域信号についての波形の合致は高帯域信号より容易である。

AMR-WBのような低ビットレートCELP符号化において、高帯域は、通例、エンコードされないが、帯域幅拡張（BWE）技術を用いてデコーダにおいて作成される。この場合において、高帯域励振スペクトルは、いくらかのランダムノイズを追加すると同時に、低帯域励振スペクトルから単純に複製され得る。高帯域スペクトルエネルギー包絡線は低帯域スペクトルエネルギー包絡線から予測または推定され得る。BWEが使用されるとき、高帯域信号エネルギーの正しい制御は重要になる。無声音声信号と違って、最も良い知覚的な品質を達成するために、作成された高帯域有声音声信号のエネルギーは正しく低減されなければならない。

図１０は、無声音声についての励振スペクトルの例を説明する。

無声音声の場合において、LPCスペクトル包絡線804を除去した後、励振スペクトル802はほとんど平坦である。低帯域励振スペクトル801および高帯域スペクトル803の両方はノイズのようである。理論的に、理想的なまたは量子化されていない高帯域励振スペクトルは、低帯域励振スペクトルとほとんど同じエネルギーレベルを有することがあり得る。実際、低帯域および高帯域の両方がCELP技術を用いてエンコードされるならば、合成されたまたは量子化された高帯域スペクトルは、２つの理由のために、合成されたまたは量子化された低帯域スペクトルと同じ、または、合成されたまたは量子化された低帯域スペクトルよりわずかに高いエネルギーレベルを有することがあり得る。第１に、閉ループCELP符号化はより高いエネルギー領域においてより大きく強調する。第２に、低帯域信号のための波形の合致は高帯域信号より容易であるが、ノイズのような信号のための良好な波形の合致を有することは常に難しい。

有声音声符号化と同様に、AMR-WBのような無声低ビットレートCELP符号化について、高帯域は、通例、エンコードされないが、BWE技術を用いてデコーダにおいて作成される。この場合において、無声高帯域励振スペクトルは、いくらかのランダムノイズを追加すると同時に、無声低帯域励振スペクトルから単純に複製され得る。無声音声信号の高帯域スペクトルエネルギー包絡線は低帯域スペクトルエネルギー包絡線から予測または推定され得る。BWEが使用されるとき、無声高帯域信号のエネルギーを正しく制御することは特に重要である。有声音声信号と違って、最も良い知覚的な品質を達成するために、作成された高帯域無声音声信号のエネルギーは正しく増加される方が良い。

図１１は、背景ノイズ信号についての励振スペクトルの例を説明する。

LPCスペクトル包絡線904を除去した後、励振スペクトル902はほとんど平坦である。高帯域スペクトル903のように、通例、ノイズのようである低帯域励振スペクトル901。理論的に、背景ノイズ信号の理想的なまたは量子化されていない高帯域励振スペクトルは、低帯域励振スペクトルとほとんど同じエネルギーレベルを有することがあり得る。実際、低帯域および高帯域の両方がCELP技術を用いてエンコードされるならば、背景ノイズ信号の合成されたまたは量子化された高帯域スペクトルは、２つの理由のために、合成されたまたは量子化された低帯域スペクトルより低いエネルギーレベルを有することがあり得る。第１に、閉ループCELP符号化は高帯域より高いエネルギーを有する低帯域においてより大きく強調する。第２に、低帯域信号のための波形の合致は高帯域信号より容易である。音声符号化と同様に、背景ノイズ信号の低ビットレートCELP符号化について、高帯域は、通例、エンコードされないが、BWE技術を用いてデコーダにおいて作成される。この場合において、背景ノイズ信号の高帯域励振スペクトルは、いくらかのランダムノイズを追加すると同時に、低帯域励振スペクトルから単純に複製されることが可能であり、背景ノイズ信号の高帯域スペクトルエネルギー包絡線は低帯域スペクトルエネルギー包絡線から予測または推定され得る。BWEが使用されるとき、高帯域背景ノイズ信号を制御することは音声信号とは異なり得る。音声信号と違って、最も良い知覚的な品質を達成するために、作成された高帯域背景ノイズ音声信号のエネルギーは時間にわたって安定している方が良い。

図１２Ａおよび１２Ｂは、帯域幅拡張を有する周波数ドメインエンコード／デコードの例を説明する。図１２ＡはBWE側の情報を有するエンコーダを説明し、一方、図１２ＢはBWEを有するデコーダを説明する。

図１２Ａをまず参照すると、低帯域信号1001は、低帯域パラメータ1002を使用することによって周波数ドメインにおいてエンコードされる。低帯域パラメータ1002は量子化され、量子化インデックスはビットストリームチャネル1003を通して受信オーディオアクセスデバイスに送信される。オーディオ信号1004から抽出された高帯域信号は、高帯域側パラメータ1005を使用することによって少量のビットを用いてエンコードされる。量子化された高帯域側パラメータ（HB側情報インデックス）はビットストリームチャネル1006を通して受信オーディオアクセスデバイスに送信される。

図１２Ｂを参照すると、デコーダにおいて、デコードされた低帯域信号1008を生成するために低帯域ビットストリーム1007が使用される。高帯域側パラメータ1011をデコードおよび作成するために高帯域側ビットストリーム1010が使用される。高帯域信号1012は高帯域側パラメータ1011からの助けを用いて低帯域信号1008から作成される。最終的なオーディオ信号1009は低帯域信号と高帯域信号を結合することによって生成される。周波数ドメインBWEは、作成された高帯域信号の正しいエネルギー制御も必要である。エネルギーレベルは、無声、有性およびノイズ信号について異なって設定され得る。従って、音声信号の高品質分類は周波数ドメインBWEについて必要でもある。

背景ノイズ低減アルゴリズムの関連する詳細が以下に記載される。一般に、無声音声信号はノイズのようであるので、無声領域における背景ノイズ低減（NR）は有声領域ほど積極的でないべきであり、ノイズ隠蔽効果から利益を得る。言い換えると、同じレベルの背景ノイズは無声領域より有声領域においてより聞き取れるので、NRは無声領域より有声領域においてより積極的であるべきである。そのような場合において、高品質の無声／有声判定が必要とされる。

一般に、無声音声信号は、周期性を有さないノイズのような信号である。さらに、無声音声信号は低周波数領域より高周波数領域においてより多くのエネルギーを有する。対照的に、有声音声信号は逆の特性を有する。例えば、有声音声信号は準周期的な種類の信号であり、これは、通例、高周波数領域より低周波数領域においてより多くのエネルギーを有する（図９および１０も参照）。

図１３Ａ〜１３Ｃは、上記に記載された音声処理の各種の実施例を使用した音声処理の概要の説明である。

図１３Ａを参照すると、音声処理のための方法は、処理されるべき音声信号の複数のフレームを受信すること（ボックス1310）を含む。各種の実施例において、音声信号の複数のフレームは、例えばマイクロホンを含む同じオーディオデバイス内で作成され得る。代わりの実施例において、音声信号は例としてオーディオデバイスにおいて受信され得る。例えば、音声信号は後にエンコードまたはデコードされ得る。各々のフレームについて、現在のフレーム内の無声／有声発音音声の特性を反映する無声発音／有声発音パラメータが決定される（ボックス1312）。各種の実施例において、無声発音／有声発音パラメータは、周期性パラメータ、スペクトル傾斜パラメータ、または他の変形を含み得る。この方法は、音声信号の以前のフレーム内の無声発音／有声発音パラメータの情報を含むように、平滑化された無声発音パラメータを決定すること（ボックス1314）をさらに含む。無声発音／有声発音パラメータと平滑化された無声発音／有声発音パラメータの間の差が取得される（ボックス1316）。その代わりに、無声発音／有声発音パラメータと平滑化された無声発音／有声発音パラメータの間の相対値（例えば、比率）が取得され得る。現在のフレームが無声／有声音声として扱われるためにより良く適しているかを判定するとき、判定パラメータとして、決定された差を使用して、無声／有声判定が行われる（ボックス1318）。

図１３Ｂを参照すると、音声処理のための方法は、音声信号の複数のフレームを受信すること（ボックス1320）を含む。実施例は有声発音パラメータを使用して記載されるが、無声発音パラメータを使用することに等しく適用される。結合された有声発音パラメータが各々のフレームについて決定される（ボックス1322）。１つまたはより多くの実施例において、結合された有声発音パラメータは、周期性パラメータおよび傾斜パラメータおよび平滑化された結合された有声発音パラメータであり得る。平滑化された結合された有声発音パラメータは、音声信号の１つまたはより多くの以前のフレームにわたって、結合された有声発音パラメータを平滑化することによって取得され得る。結合された有声発音パラメータは平滑化された結合された有声発音パラメータと比較される（ボックス1324）。現在のフレームは、判定することにおいて比較を使用してVOICED音声信号またはUNVOICED音声信号として分類される（ボックス1326）。音声信号は、音声信号の決定された分類に従って処理され得る、例えば、エンコードまたはデコードされ得る（ボックス1328）。

図１３Ｃを次に参照すると、もう１つの例示の実施例において、音声処理のための方法は、音声信号の複数のフレームを受信すること（ボックス1330）を含む。時間ドメインにおける音声信号の第１のエネルギー包絡線が決定される（ボックス1332）。第１のエネルギー包絡線は、第１の周波数帯域、例えば、4000Hzまでのような低周波数帯域内で決定され得る。平滑化された低周波数帯域エネルギーは、以前のフレームを使用して第１のエネルギー包絡線から決定され得る。平滑化された低周波数帯域エネルギーに対する、音声信号の低周波数帯域エネルギーの差または第１の比率が計算される（ボックス1334）。音声信号の第２のエネルギー包絡線が時間ドメインにおいて決定される（ボックス1336）。第２のエネルギー包絡線は第２の周波数帯域内で決定される。第２の周波数帯域は第１の周波数帯域とは異なる周波数帯域である。例えば、第２の周波数は高周波数帯域であり得る。１つの例において、第２の周波数帯域は4000Hzと8000Hzの間であり得る。音声信号の以前のフレームのうちの１つまたはより多くにわたる平滑化された高周波数帯域エネルギーが計算される。差または第２の比率が各々のフレームについて第２のエネルギー包絡線を使用して決定される（ボックス1338）。第２の比率は、現在のフレーム内の音声信号の高周波数帯域エネルギーと平滑化された高周波数帯域エネルギーの間の比率として計算され得る。現在のフレームは、判定することにおいて第１の比率および第２の比率を使用してVOICED音声信号またはUNVOICED音声信号として分類される（ボックス1340）。分類された音声信号は、音声信号の決定された分類に従って処理される、例えば、エンコードされる、デコードされる、および他である（ボックス1342）。

１つまたはより多くの実施例において、音声信号がUNVOICED信号であると決定されたとき、ノイズのような励振を使用して音声信号がエンコード／デコードされることが可能であり、音声信号がVOICED信号であると決定されたとき、パルスのような励振を用いて音声信号がエンコード／デコードされる。

さらなる実施例において、音声信号がUNVOICED音声信号であると決定されたとき、音声信号は周波数ドメイン内でエンコード／デコードされることが可能であり、音声信号がVOICED信号であると決定されたとき、音声信号は時間ドメイン内でエンコード／デコードされる。

従って、本発明の実施例は、音声符号化、帯域幅拡張、および／または音声の向上のために無声／有声判定を改善するために使用され得る。

図１４は、本発明の実施例に従って通信システム10を説明する。

通信システム10は、通信リンク38および40を介してネットワーク36に結合されたオーディオアクセスデバイス7および8を有する。１つの実施例において、オーディオアクセスデバイス7および8は、ボイス・オーバー・インターネット・プロトコル（VOIP）デバイスであり、ネットワーク36は広域ネットワーク（WAN）、公衆交換電話網（PTSN）および／またはインターネットである。もう１つの実施例において、通信リンク38および40はワイヤ線および／または無線の広帯域接続である。代わりの実施例において、オーディオアクセスデバイス7および8はセルラーまたは携帯電話であり、リンク38および40は無線携帯電話チャネルであり、ネットワーク36は携帯電話網を表現する。

オーディオアクセスデバイス7は、音楽または人の声のような音をアナログオーディオ入力信号28に変換するためにマイクロホン12を使用する。マイクロホンインタフェース16は、CODEC 20のエンコーダ22への入力のために、アナログオーディオ入力信号28をデジタルオーディオ信号33に変換する。エンコーダ22は、本発明の実施例に従って、ネットワークインタフェース26を介してネットワーク26への送信のために、エンコードされたオーディオ信号TXを生成する。CODEC 20内のデコーダ24は、ネットワークインタフェース26を介してネットワーク36からエンコードされたオーディオ信号RXを受信し、エンコードされたオーディオ信号RXをデジタルオーディオ信号34に変換する。スピーカインタフェース18は、デジタルオーディオ信号34を、ラウドスピーカ14を駆動するために適したオーディオ信号30に変換する。

本発明の実施例において、オーディオアクセスデバイス7がVOIPデバイスである場合、オーディオアクセスデバイス7内の構成要素のいくつかまたは全てはハンドセット内に実装される。しかし、いくつかの実施例において、マイクロホン12およびラウドスピーカ14は別個のユニットであり、マイクロホンインタフェース16、スピーカインタフェース18、CODEC 20およびネットワークインタフェース26はパーソナルコンピュータ内に実装される。CODEC 20は、コンピュータまたは専用のプロセッサ上で動作するどちらかのソフトウェアにおいて、または、専用のハードウェアによって、例えば特定用途向け集積回路（ASIC）上に実装することができる。マイクロホンインタフェース16は、ハンドセット内に、および／または、コンピュータ内に配置された他のインタフェース回路とともに、アナログ・デジタル（A/D）コンバータによって実装される。同様に、スピーカインタフェース18は、ハンドセット内に、および／または、コンピュータ内に配置されたデジタル・アナログ・コンバータおよび他のインタフェース回路によって実装される。さらなる実施例において、オーディオアクセスデバイス7はこの分野で知られた他のやり方で実装され、区分されることが可能である。

オーディオアクセスデバイス7がセルラーまたは携帯電話である本発明の実施例において、オーディオアクセスデバイス7内の要素はセルラーハンドセット内に実装される。CODEC 20は、ハンドセット内のプロセッサ上で動作するソフトウェアによって、または専用ハードウェアによって実装される。本発明のさらなる実施例において、オーディオアクセスデバイスは、インターホンおよび無線ハンドセットのような、ピア・ツー・ピアのワイヤ線および無線のデジタル通信システムのような他のデバイス内に実装され得る。消費者オーディオデバイスのような応用において、オーディオアクセスデバイスは、例えば、デジタルマイクロホンシステムまたは音楽再生デバイス内に、エンコーダ22またはデコーダ24のみを有するCODECを含み得る。本発明の他の実施例において、CODEC 20は、例えば、PTSNにアクセスするセルラー基地局内で、マイクロホン12およびスピーカ14なしで使用されることが可能である。

本発明の各種の実施例において記載された無声／有声分類を改善するための音声処理は、例えば、エンコーダ22またはデコーダ24内に実装され得る。無声／有声分類を改善するための音声処理は、各種の実施例においてハードウェアまたはソフトウェアにおいて実装され得る。例えば、エンコーダ22またはデコーダ24はデジタル信号プロセッサ（DSP）チップの部分であり得る。

図１５は、ここで開示されたデバイスおよび方法を実装するために使用され得る処理システムのブロック図を説明する。特定のデバイスは、図示されている構成要素の全て、または構成要素のサブセットのみを利用することが可能であり、統合のレベルはデバイスからデバイスへと変動し得る。さらに、デバイスは、複数の処理ユニット、プロセッサ、メモリ、送信器、受信器、等のような構成要素の複数の実例を含み得る。処理システムは、スピーカ、マイクロホン、マウス、タッチスクリーン、キーパッド、キーボード、プリンタ、ディスプレイ、等のような１つまたはより多くの入力／出力デバイスを備えた処理ユニットを含み得る。処理ユニットは、バスに接続された中央処理ユニット（CPU）、メモリ、大容量記憶デバイス、ビデオアダプタ、およびI/Oインタフェースを含み得る。

バスは、メモリバスまたはメモリコントローラ、周辺装置バス、ビデオバス、等を含む１つまたはより多くの任意の種類のいくつかのバスアーキテクチャであり得る。CPUは、任意の種類の電子データプロセッサを含み得る。メモリは、スタティック・ランダム・アクセス・メモリ（SRAM）、ダイナミック・ランダム・アクセス・メモリ（DRAM）、同期DRAM（SDRAM）、リード・オンリ・メモリ（ROM）、それらの組み合わせ、等のような任意の種類のシステムメモリを含み得る。実施例において、メモリは、ブートアップにおいて使用するためのROM、および、プログラムおよびプログラムを実行する間に使用するためのデータ記憶のためのDRAMを含み得る。

大容量記憶デバイスは、データ、プログラム、および他の情報を記憶し、データ、プログラム、および他の情報を、バスを介してアクセス可能にするように構成された任意の種類の記憶デバイスを含み得る。大容量記憶デバイスは、例えば、ソリッド・ステート・ドライブ、ハードディスクドライブ、磁気ディスクドライブ、光ディスクドライブ、等のうちの１つまたはより多くを含み得る。

ビデオアダプタおよびI/Oインタフェースは、外部の入力および出力デバイスを処理ユニットに結合するためにインタフェースを提供する。説明されるように、入力および出力デバイスの例は、ビデオアダプタに結合されたディスプレイおよびI/Oインタフェースに結合されたマウス／キーボード／プリンタを含む。他のデバイスが処理ユニットに結合されることが可能であり、追加のまたはより少ないインタフェースカードが利用されることが可能である。例えば、ユニバーサル・シリアル・バス（USB）（図示しない）のようなシリアルインタフェースは、プリンタのためのインタフェースを提供するために使用され得る。

処理ユニットは、また、１つまたはより多くのネットワークインタフェースを含み、これは、イーサネット（登録商標）ケーブル等のような有線リンク、および／またはアクセスノードまたは異なるネットワークへの無線リンクを含み得る。ネットワークインタフェースは、処理ユニットがネットワークを介して遠隔ユニットと通信することを可能とする。例えば、ネットワークインタフェースは、１つまたはより多くの送信器／送信アンテナおよび１つまたはより多くの受信器／受信アンテナを介して無線通信を提供し得る。実施例において、処理ユニットは、データ処理、および、他の処理ユニット、インターネット、遠隔記憶設備、等のような遠隔デバイスとの通信のために、ローカル・エリア・ネットワークまたは広域ネットワークに結合される。

本発明が説明的な実施例を参照して記載されたが、この記載は限定する意味で解釈されるように意図されない。本発明の他の実施例とともに、説明的な実施例の各種の修正および組み合わせは、この記載への参照に際し、この技術分野の当業者に明らかであろう。例えば、上記に記載された各種の実施例は互いに組み合わせられ得る。

本発明およびその利点が詳細に記載されたが、添付の請求項によって定義されるような本発明の思想および範囲から逸脱することなく、各種の変更、置換および代替がここで行われることが可能であることを理解すべきである。例えば、上記で述べた特徴および機能の多くは、ソフトウェア、ハードウェア、またはファームウェア、またはそれらの組み合わせにおいて実装されることが可能である。さらに、本出願の範囲は、明細書に記載された処理、機械、製品、物の組成、手段、方法およびステップの特定の実施例に限定されるように意図されない。この技術分野の当業者が本発明の開示から容易に理解するであろうように、ここに記載された対応する実施例と実質的に同じ機能を実行し、または実質的に同じ結果を達成する、現在存在する、または後に開発される、処理、機械、製品、物の組成、手段、方法、またはステップが本発明に従って利用され得る。従って、添付の請求項は、それらの範囲内に、そのような処理、機械、製品、物の組成、手段、方法、またはステップを含むように意図される。

7、8 オーディオアクセスデバイス
10 通信システム
12 マイクロホン
14 ラウドスピーカ
16 マイクロホンインタフェース
18 スピーカインタフェース
20 CODEC
22 エンコーダ
24 デコーダ
26 ネットワークインタフェース
28 アナログオーディオ入力信号
30 オーディオ信号
33、34 デジタルオーディオ信号
36 ネットワーク
38、40 通信リンク
81 利得デコーダ
82 長期予測デコーダ
83 短期予測デコーダ
84 ピッチデコーダ
85 適応型コードブック利得デコーダ
101 元の信号
102 合成された音声
103 短期線形予測フィルタ
105 長期予測フィルタ
108 符号励振
109 重み付けされた誤差
110 重み付けフィルタ
201 符号励振
203 長期予測
205 短期予測
206 合成された音声
207 後処理ブロック
303 短期線形予測フィルタ
304 過去の合成された励振
305 利得G_p
306 利得G_c
307 適応型コードブック
308 固定型符号励振
401 適応型コードブック
402 符号励振
406 短期予測
407 合成された音声
408 後処理ブロック
701、801、901 低帯域励振スペクトル
702、802、902 励振スペクトル
703、803、903 高帯域スペクトル
704、804、904 LPCスペクトル包絡線
1001 低帯域信号
1002 低帯域パラメータ
1003 ビットストリームチャネル
1004 オーディオ信号
1005 高帯域側パラメータ
1006 ビットストリームチャネル
1007 低帯域ビットストリーム
1008 低帯域信号
1009 最終的なオーディオ信号
1010 高帯域ビットストリーム
1011 高帯域側パラメータ
1012 高帯域信号
1101、1201 時間ドメインエネルギー包絡線
1102、1202 第１の背景ノイズ領域
1103、1203 無声音声領域
1104、1204 有声音声領域
1105、1205 第２の背景ノイズ領域

本発明の実施例によれば、音声処理のための方法は、複数のフレームを含む音声信号の現在のフレームにおいて無声／有声音声の特性を反映する無声発音／有声発音パラメータを決定することを含む。音声信号の現在のフレームより前のフレームにおける無声発音／有声発音パラメータの情報を含むように、平滑化された無声発音／有声発音パラメータが決定される。無声発音／有声発音パラメータと平滑化された無声発音／有声発音パラメータの間の差が計算される。この方法は、判定パラメータとして、計算された差を使用して、現在のフレームが無声音声を含むか、または有声音声を含むかを決定するための無声／有声判定点を作成することをさらに含む。

代わりの実施例において、音声処理装置は、プロセッサ、およびプロセッサによる実行のためのプログラミングを記憶するコンピュータ読み取り可能な記憶媒体を含む。プログラミングは、複数のフレームを含む音声信号の現在のフレームにおいて無声／有声音声の特性を反映する無声発音／有声発音パラメータを決定し、音声信号の現在のフレームより前のフレームにおける無声発音／有声発音パラメータの情報を含むように、平滑化された無声発音／有声発音パラメータを決定するための命令を含む。プログラミングは、無声発音／有声発音パラメータと平滑化された無声発音／有声発音パラメータの間の差を計算し、判定パラメータとして、計算された差を使用して、現在のフレームが無声音声を含むか、または有声音声を含むかを決定するための無声／有声判定点を作成するための命令をさらに含む。

例えば、結合された無声発音パラメータは下記の式(5)のように定義することが可能である。
P_{c_unvoicing} = (1-P_voicing)・(1-P_tilt)・・・ (5)
式(5)の終わりの点は他のパラメータが追加され得ることを示す。P_{c_unvoicing}の「絶対」値が大きくなるとき、それは無声音声信号になるようである。結合された有声発音パラメータは下記の式(6)のように記載することが可能である。
P_{c_voicing} = P_voicing・P_tilt・・・ (6)
式(6)の終わりの点は他のパラメータが追加され得ることを同様に示す。P_{c_voicing}の「絶対」値が大きくなるとき、それは有声音声信号になるようである。P_{c_unvoicing}またはP_{c_voicing}の「相対」値が定義される前に、P_{c_unvoicing}またはP_{c_voicing}の強く平滑化されたパラメータがまず定義される。例えば、現在のフレームのパラメータは、式(7)において下記の不等式によって記載されるように前のフレームから平滑化され得る。

コードブックからのコードベクトルは、エネルギーを入力音声のエネルギーに等しくするために、適切な利得によってスケーリングされる。従って、符号励振108の出力は、線形フィルタを通過する前に利得G_C 106によってスケーリングされる。

図５に記載されているように、固定型符号励振308は、線形フィルタを通過する前に、利得G_c 306によってスケーリングされる。固定型符号励振308および適応型コードブック307からの２つのスケーリングされた励振成分は、短期線形予測フィルタ303を通したフィルタリングの前に一緒に加算される。２つの利得（G_pおよびG_c）は量子化されデコーダに送信される。従って、符号励振インデックス、適応型コードブックインデックス、量子化された利得インデックス、および量子化された短期予測パラメータインデックスは、受信オーディオデバイスに送信される。

図６は、本発明の実施例に従って図５のエンコーダに対応する基本的なCELPデコーダを説明する。図６は、主要なデコーダから合成された音声407を受信する後処理ブロック408を含む。このデコーダは、適応型コードブック307を除いて図４と類似する。

図１３Ａを参照すると、音声処理のための方法は、処理されるべき音声信号の複数のフレームを受信すること（ボックス1310）を含む。各種の実施例において、音声信号の複数のフレームは、例えばマイクロホンを含む同じオーディオデバイス内で作成され得る。代わりの実施例において、音声信号は例としてオーディオデバイスにおいて受信され得る。例えば、音声信号は後にエンコードまたはデコードされ得る。各々のフレームについて、現在のフレーム内の無声／有声音声の特性を反映する無声発音／有声発音パラメータが決定される（ボックス1312）。各種の実施例において、無声発音／有声発音パラメータは、周期性パラメータ、スペクトル傾斜パラメータ、または他の変形を含み得る。この方法は、音声信号の以前のフレーム内の無声発音／有声発音パラメータの情報を含むように、平滑化された無声発音パラメータを決定すること（ボックス1314）をさらに含む。無声発音／有声発音パラメータと平滑化された無声発音／有声発音パラメータの間の差が取得される（ボックス1316）。その代わりに、無声発音／有声発音パラメータと平滑化された無声発音／有声発音パラメータの間の相対値（例えば、比率）が取得され得る。現在のフレームが無声／有声音声として扱われるためにより良く適しているかを判定するとき、判定パラメータとして、決定された差を使用して、無声／有声判定が行われる（ボックス1318）。

通信システム10は、通信リンク38および40を介してネットワーク36に結合されたオーディオアクセスデバイス7および8を有する。１つの実施例において、オーディオアクセスデバイス7および8は、ボイス・オーバー・インターネット・プロトコル（VOIP）デバイスであり、ネットワーク36は広域ネットワーク（WAN）、公衆交換電話網（PSTN）および／またはインターネットである。もう１つの実施例において、通信リンク38および40はワイヤ線および／または無線の広帯域接続である。代わりの実施例において、オーディオアクセスデバイス7および8はセルラーまたは携帯電話であり、リンク38および40は無線携帯電話チャネルであり、ネットワーク36は携帯電話網を表現する。

オーディオアクセスデバイス7は、音楽または人の声のような音をアナログオーディオ入力信号28に変換するためにマイクロホン12を使用する。マイクロホンインタフェース16は、CODEC 20のエンコーダ22への入力のために、アナログオーディオ入力信号28をデジタルオーディオ信号33に変換する。エンコーダ22は、本発明の実施例に従って、ネットワークインタフェース26を介してネットワーク36への送信のために、エンコードされたオーディオ信号TXを生成する。CODEC 20内のデコーダ24は、ネットワークインタフェース26を介してネットワーク36からエンコードされたオーディオ信号RXを受信し、エンコードされたオーディオ信号RXをデジタルオーディオ信号34に変換する。スピーカインタフェース18は、デジタルオーディオ信号34を、ラウドスピーカ14を駆動するために適したオーディオ信号30に変換する。

オーディオアクセスデバイス7がセルラーまたは携帯電話である本発明の実施例において、オーディオアクセスデバイス7内の要素はセルラーハンドセット内に実装される。CODEC 20は、ハンドセット内のプロセッサ上で動作するソフトウェアによって、または専用ハードウェアによって実装される。本発明のさらなる実施例において、オーディオアクセスデバイスは、インターホンおよび無線ハンドセットのような、ピア・ツー・ピアのワイヤ線および無線のデジタル通信システムのような他のデバイス内に実装され得る。消費者オーディオデバイスのような応用において、オーディオアクセスデバイスは、例えば、デジタルマイクロホンシステムまたは音楽再生デバイス内に、エンコーダ22またはデコーダ24のみを有するCODECを含み得る。本発明の他の実施例において、CODEC 20は、例えば、PSTNにアクセスするセルラー基地局内で、マイクロホン12およびスピーカ14なしで使用されることが可能である。

Claims

音声処理のための方法であって、
複数のフレームを含む音声信号の現在のフレームにおいて無声／有声発音音声の特性を反映する無声発音／有声発音パラメータを決定するステップと、
前記音声信号の現在のフレームより前のフレームにおける無声発音／有声発音パラメータの情報を含むように、平滑化された無声発音／有声発音パラメータを決定するステップと、
前記無声発音／有声発音パラメータと前記平滑化された無声発音／有声発音パラメータの間の差を計算するステップと、
判定パラメータとして、前記計算された差を使用して、前記現在のフレームが無声音声を含むか、または有声音声を含むかを決定するための無声／有声判定点を作成するステップと、
を含む方法。
前記無声発音／有声発音パラメータは無声／有声音声の少なくとも２つの特性を反映する結合されたパラメータである、請求項１に記載の方法。
前記結合されたパラメータは周期性パラメータとスペクトル傾斜パラメータの積である、請求項２に記載の方法。
前記無声発音／有声発音パラメータは無声音声の特性を反映する無声発音パラメータ（P_unvoicing）であり、前記平滑化された無声発音／有声発音パラメータは平滑化された無声発音パラメータ（P_{unvoicing_sm}）である、請求項１に記載の方法。
前記無声発音パラメータと前記平滑化された無声発音パラメータの間の差が0.1より大きいとき、前記無声／有声判定を決定することは、前記音声信号の現在のフレームが無声信号であると決定することを含み、前記無声発音パラメータと前記平滑化された無声発音パラメータの間の差が0.05より小さいとき、前記音声信号の現在のフレームが無声音声でないと決定する、請求項４に記載の方法。
前記無声発音パラメータと前記平滑化された無声発音パラメータの間の差が0.05と0.1の間であるとき、前記無声／有声判定を決定することは、前記音声信号の現在のフレームが前のフレームと同じ音声の種類を有すると決定することを含む、請求項５に記載の方法。
前記平滑化された無声発音パラメータは、次のように前記無声発音パラメータから計算される、請求項４に記載の方法。
前記無声発音／有声発音パラメータは有声音声の特性を反映する有声発音パラメータ（P_voicing）であり、前記平滑化された無声発音／有声発音パラメータは平滑化された有声発音パラメータ（P_{voicing_sm}）である、請求項１に記載の方法。
前記有声発音パラメータと前記平滑化された有声発音パラメータの間の差が0.1より大きいとき、前記無声／有声判定を決定することは、前記音声信号の現在のフレームが有声信号であると決定することを含み、前記有声発音パラメータと前記平滑化された有声発音パラメータの間の差が0.05より小さいとき、前記音声信号の現在のフレームが有声音声でないと決定する、請求項８に記載の方法。
前記平滑化された有声発音パラメータは、次のように前記有声発音パラメータから計算される、請求項８に記載の方法。
現在のフレームにおいて無声／有声発音音声の特性を反映する無声発音／有声発音パラメータを決定するステップは、第１の周波数帯域内での時間ドメインにおける前記音声信号の第１のエネルギー包絡線および異なる第２の周波数帯域内での時間ドメインにおける前記音声信号の第２のエネルギー包絡線を決定するステップを含む、請求項１から１０のいずれかに記載の方法。
前記第２の周波数帯域は前記第１の周波数帯域より高い周波数帯域である、請求項１１に記載の方法。
音声処理装置であって、
プロセッサと、
前記プロセッサによる実行のためのプログラミングを記憶するコンピュータ読み取り可能な記憶媒体と、を含み、前記プログラミングは、
複数のフレームを含む音声信号の現在のフレームにおいて無声／有声発音音声の特性を反映する無声発音／有声発音パラメータを決定し、
前記音声信号の現在のフレームより前のフレームにおける無声発音／有声発音パラメータの情報を含むように、平滑化された無声発音／有声発音パラメータを決定し、
前記無声発音／有声発音パラメータと前記平滑化された無声発音／有声発音パラメータの間の差を計算し、
判定パラメータとして、前記計算された差を使用して、前記現在のフレームが無声音声を含むか、または有声音声を含むかを決定するための無声／有声判定点を作成する
ための命令を含む、装置。
前記無声発音／有声発音パラメータは周期性パラメータとスペクトル傾斜パラメータの積を反映する結合されたパラメータである、請求項１３に記載の装置。
前記無声発音／有声発音パラメータと前記平滑化された無声発音／有声発音パラメータの間の差が0.1より大きいとき、前記無声／有声判定を決定することは、前記音声信号の現在のフレームが無声／有声信号であると決定することを含み、前記無声発音／有声発音パラメータと前記平滑化された無声発音／有声発音パラメータの間の差が0.05より小さいとき、前記音声信号の現在のフレームが無声／有声音声でないと決定する、請求項１３に記載の装置。
前記無声発音／有声発音パラメータは無声音声の特性を反映する無声発音パラメータであり、前記平滑化された無声発音／有声発音パラメータは平滑化された無声発音パラメータである、請求項１３に記載の装置。
前記無声発音／有声発音パラメータは有声音声の特性を反映する有声発音パラメータであり、前記平滑化された無声発音／有声発音パラメータは平滑化された有声発音パラメータである、請求項１３に記載の装置。
現在のフレームにおいて無声／有声発音音声の特性を反映する無声発音／有声発音パラメータを決定することは、第１の周波数帯域内での時間ドメインにおける前記音声信号の第１のエネルギー包絡線および異なる第２の周波数帯域内での時間ドメインにおける前記音声信号の第２のエネルギー包絡線を決定することを含む、請求項１３から１７のいずれか一項に記載の装置。
前記第２の周波数帯域は前記第１の周波数帯域より高い周波数帯域である、請求項１８に記載の装置。
音声処理のための方法であって、
音声信号の現在のフレームについて、時間ドメインにおける前記音声信号の第１のエネルギー包絡線からの第１の周波数帯域についての第１のパラメータ、および前記時間ドメインにおける前記音声信号の第２のエネルギー包絡線からの第２の周波数帯域についての第２のパラメータを決定するステップと、
前記音声信号の現在のフレームより前のフレームから、平滑化された第１のパラメータおよび平滑化された第２のパラメータを決定するステップと、
前記第１のパラメータを前記平滑化された第１のパラメータと、前記第２のパラメータを前記平滑化された第２のパラメータと比較するステップと、
判定パラメータとして、前記比較を使用して、前記現在のフレームが無声音声を含むか、または有声音声を含むかを決定するために無声／有声判定点を作成するステップと、
を含む方法。
前記第２の周波数帯域は前記第１の周波数帯域より高い周波数帯域である、請求項２０に記載の方法。