JP4580622B2 - Wideband speech coding method and wideband speech coding apparatus - Google Patents

Wideband speech coding method and wideband speech coding apparatus Download PDF

Info

Publication number
JP4580622B2
JP4580622B2 JP2003101422A JP2003101422A JP4580622B2 JP 4580622 B2 JP4580622 B2 JP 4580622B2 JP 2003101422 A JP2003101422 A JP 2003101422A JP 2003101422 A JP2003101422 A JP 2003101422A JP 4580622 B2 JP4580622 B2 JP 4580622B2
Authority
JP
Japan
Prior art keywords
signal
wideband
input
encoding
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003101422A
Other languages
Japanese (ja)
Other versions
JP2004309686A (en
Inventor
公生 三関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003101422A priority Critical patent/JP4580622B2/en
Priority to PCT/JP2004/004913 priority patent/WO2004090870A1/en
Publication of JP2004309686A publication Critical patent/JP2004309686A/en
Priority to US11/240,495 priority patent/US7788105B2/en
Priority to US12/751,421 priority patent/US8260621B2/en
Priority to US12/751,191 priority patent/US8249866B2/en
Priority to US12/751,292 priority patent/US8160871B2/en
Application granted granted Critical
Publication of JP4580622B2 publication Critical patent/JP4580622B2/en
Priority to US13/417,906 priority patent/US8315861B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a wide-band speech encoding device capable of obtaining good sound quality even when a narrow-band sound signal is encoded. <P>SOLUTION: A band detection part 11 detects that the narrow-band sound signal is inputted and when the narrow-band sound signal is inputted, a speech encoding part 14 performs encoding matching with the narrow-band sound signal to encode even the narrow-band sound signal with high sound quality, in spite of being a device for encoding wide-band speech. <P>COPYRIGHT: (C)2005,JPO&amp;NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、広帯域音声符号化方法及び広帯域音声符号化装置に係り、狭帯域音声信号を高品質で符号化する広帯域音声符号化処理に関する。
【0002】
【従来の技術】
移動通信システムを用いた音声の伝送においても、広帯域音声信号を音質良く伝送することが求められ、例えば、ITU−T勧告G.722.2に広帯域音声符号化方式が記載されている。このITU−T勧告G.722.2に記載された広帯域音声符号化方式はAMR−WB(Adaptive Multi Rate Wide Band)方式と呼ばれ、16kHzサンプリングの広帯域音声信号を高品質に符号化することを目的としており、9つのビットレートが使用可能である。一般に、音声符号化では、高いビットレートで符号化するほど音質が良く、低いビットレートで符号化するほど音質は低下する傾向にある。
【0003】
このITU−T勧告G.722.2に記載された広帯域音声符号化方式では、50Hz〜7kHz程度の帯域幅を持つ広帯域音声信号の符号化を想定しているため、入力信号のサンプリングレートは16kHzに定められている。ところが、通常の電話音声のような4kHz以上の周波数を持たない8kHzのサンプリングレートの音声信号が入力されるときは、この狭帯域音声信号を符号化するために、まず16kHzにアップサンプリングする必要がある。
【0004】
このように8kHzから16kHzにアップサンプリングされた音声信号は、4kHz以上の周波数を持たない狭帯域音声信号であるにも関わらず、通常の広帯域音声信号と同じに扱われ、広帯域音声信号に特化した符号化方法により符号化される。従って、4kHz以上の周波数を持たない8kHzから16kHzにアップサンプリングされた音声信号に対しても、通常の広帯域音声信号に特化した符号化が行われるため、音声符号化方式と入力信号の帯域幅とのミスマッチにより、符号化効率が落ちるため、音質の良い符号化が行えない問題点がある。
【0005】
このため、狭帯域の通信路や狭帯域のコーデックを介すなどして帯域制限されたような狭帯域の音声信号に対して広帯域音声コーデックを用いると、6〜10kbit/s程度の中〜低ビットレートでは、狭帯域の音声コーデックを用いた場合より、音質が極めて悪くなる。4kHz以上の周波数が非常に少ない音声信号が入力される場合についても、同様の問題がある。
【0006】
また、音声符号化で音質を改善するための方法として、パルスの位置の集合を複数セット保有し、音源量子化部でパルス位置の集合の各々のセットについて音声信号との間の歪を計算し、この歪を小さくするパルスの位置の集合を選択する処理が知られている(例えば、特許文献1参照。)。
【0007】
【特許文献1】
特開2001−318698号公報(第2−4頁、図1)
【0008】
【発明が解決しようとする課題】
しかしながら、上述した従来の方法では、保有するパルスの位置の集合の各々について歪を計算する必要があるため、結果として、パルスの位置の集合を選択するのに要する計算量が膨大になるという問題点がある。また、従来の方法は、音声符号化方式と入力信号の帯域幅とのミスマッチの問題について、何ら考慮されてはおらず、上述した、狭帯域音声信号を広帯域音声符号化した場合に音質が極めて悪くなるという問題点は解決されていない。
【0009】
本発明は、上記問題点を解決するためになされたもので、狭帯域音声信号を符号化しても良い音質を得ることができる広帯域音声符号化方法及び広帯域音声符号化装置を提供することを目的とする。
【0010】
【課題を解決するための手段】
上記目的を達成するために、本発明の広帯域音声符号化方法は、入力音声信号が広帯域音声信号であるか狭帯域音声信号であるかを識別する第1の過程と、前記入力音声信号が広帯域音声信号と識別された場合には、第1の広帯域音声符号化を行って符号化データを生成する第2の過程と、前記入力音声信号が狭帯域音声信号と識別された場合には、前記第1の広帯域音声符号化に適合するように前記入力音声信号のサンプリングレートを変換する第3の過程と、前記第3の過程によってサンプリングレートが変換された入力音声信号に対して、前記第1の広帯域音声符号化において使用されるパラメータを狭帯域用に修正することにより得られる第2の広帯域音声符号化を行って符号化データを生成する第4の過程とを有することを特徴とする。
【0011】
また、本発明の広帯域音声符号化装置は、入力音声信号が広帯域音声信号であるか狭帯域音声信号であるかを識別する第1の手段と、前記入力音声信号が広帯域音声信号と識別された場合には、第1の広帯域音声符号化を行って符号化データを生成する第2の手段と、前記入力音声信号が狭帯域音声信号と識別された場合には、前記第1の広帯域音声符号化に適合するように前記入力音声信号のサンプリングレートを変換する第3の手段と、前記第3の手段によってサンプリングレート変換された入力音声信号に対して、前記第1の広帯域音声符号化において使用されるパラメータを狭帯域用に修正することにより得られる第2の広帯域音声符号化を行って符号化データを生成する第4の手段とを具備することを特徴とする。
【0013】
本発明によれば、狭帯域音声信号が入力されたことを検出して、狭帯域音声信号に適合した符号化を行うことにより、狭帯域音声信号も高い音質で符号化することができる。
【0014】
【発明の実施の形態】
以下に、本発明による広帯域音声符号化方法及び広帯域音声符号化装置の実施の形態を、図面を参照して説明する。
【0015】
(第1の実施の形態)
図1は、本発明の実施形態に係る広帯域音声符号化装置を示すブロック図である。この装置は、帯域検出部11と、サンプリングレート変換部12と、音声符号化部14と、装置全体の制御を行う制御部15とにより構成され、入力音声信号10を受信し、その入力音声信号10を符号化した出力符号19を出力する装置である。
【0016】
帯域検出部11は、入力音声信号10のサンプリングレートを検出し、検出されたサンプリングレートを制御部15に通知する。
【0017】
この時、帯域検出部11は、(1)入力音声信号10のサンプリングレート情報を外部から入力して検出する、(2)入力音声信号10の属性情報(ファイルのヘッダー情報など)を取得して検出する、(3)入力音声信号10を発生したコーデックの識別情報を取得し、それが狭帯域コーデックか広帯域コーデックであるかによって入力音声信号のサンプリングレートを検出する、のいずれかの方法によってサンプリングレートの検出を行うが、これらに限るものではない。例えば、図10は、入力音声信号10からサンプリングレート情報や広帯域信号/狭帯域信号を識別する情報を取得する構成の帯域検出部11aを示している。これは、入力音声信号系列の所定部分のビットの中に、サンプリングレート情報や広帯域/狭帯域を識別する情報、もしくは、入力音声信号の属性情報、または、入力音声信号10を発生したコーデックの識別情報などが埋め込まれているような場合にはこのような構成となる。埋め込み方としては、入力音声信号系列のPCMの最下位側のビットに埋め込む方法が考えられる。こうすることで、PCMの上位ビットに影響を与えることなく、(すなわち、入力音声信号の音質に影響を与えることなく)サンプリングレート情報や広帯域/狭帯域を識別する情報、もしくは、入力音声信号の属性情報、または、入力音声信号10を発生したコーデックの識別情報などを埋め込むことが可能となる。
【0018】
このように、帯域検出部としては、様々な実施形態が考えられるが、サンプリングレート情報や広帯域/狭帯域、または、コーデックの識別ができるものであれば、どのような構成であってもよいことは言うまでもない。また、サンプリングレート情報、広帯域/狭帯域の識別情報、コーデックの識別情報についても、それを代表する情報であればよい。
【0019】
サンプリングレート変換部12は、入力音声信号10を所定のサンプリングレートに変換し、得られた所定のサンプリングレートの信号を音声符号化部14へ送信する。
【0020】
このサンプリングレート変換部12は、8kHzサンプリング信号を入力とし、補間フィルタを用いて、アップサンプリングされた16kHzサンプリング信号を得て出力する。また、サンプリングレート変換部12は、16kHzサンプリング信号を入力とし、サンプリングレートを変換することなく出力するが、これに限るものではない。
【0021】
また、サンプリングレートを変換する方法としては、補間フィルタに限られるものではなく、例えば、FFT、DFT、MDCTなどの周波数変換とその変換を利用することによっても実現可能である。例えば、アップサンプリングの場合、FFT、DFT、MDCTなどで周波数変換領域に変換し、変換によって得られた周波数領域のデータに対して高域側にゼロデータを付加してデータの拡張を行い(仮想的に付加したと想定することも可能)、拡張されたデータを逆変換することでアップサンプリングされた入力信号を得る方法も有効である。こうすることで、FFT、MDCTなどの高速演算が利用できるので、補間フィルタよりも、少ない計算量で、サンプリングレートを変換することが可能となる。
【0022】
音声符号化部14は、サンプリングレート変換部12から16kHzサンプリングの信号を受信し、その信号を符号化して得られた出力符号19を出力する。
【0023】
音声符号化部14が用いる音声符号化方式は、CELP(Code Excited Linear Prediction)方式を例にとって説明するが、音声符号化方式は、これに限るものではない。CELP方式については、例えば、M. R. Schroeder and B. S. Atal: "Code-Excited Linear Prediction (CELP): High-quality Speech at Very Low Bit Rates", Proc. ICASSP-85, pp.937-940, 1985" に示されている。
【0024】
図2は、音声符号化部14の構成を示すブロック図である。音声符号化部14は、スペクトルパラメータ符号化部21と、目標信号生成部22と、インパルス応答計算部23と、適応符号帳探索部24と、雑音符号帳探索部25と、ゲイン符号帳探索部26と、パルス位置候補設定部27と、広帯域用パルス位置候補27aと、狭帯域用パルス位置候補27bと、音源信号生成部28とにより構成される。
【0025】
上記のように構成された、本発明の実施形態に係る音声符号化の動作を説明する。音声符号化部14は、音声信号20を入力し、それを符号化した出力符号19を出力する装置であって、以下に説明する動作を行う。
【0026】
スペクトルパラメータ符号化部21は、受信した音声信号20を分析することにより、スペクトルパラメータを抽出する。次に、抽出されたスペクトルパラメータを用いて、予めスペクトルパラメータ符号化部21内に記憶されているスペクトルパラメータ符号帳を探索し、入力された音声信号のスペクトル包絡をより良く表現することのできる符号帳のインデックスを選択し、選択したインデックスをスペクトルパラメータ符号(A)として出力する。スペクトルパラメータ符号(A)は、出力符号19の一部となる。
【0027】
また、スペクトルパラメータ符号化部21は、抽出されたスペクトルパラメータに対応した、量子化されないLPC係数と量子化されたLPC係数を出力する。以降では、説明を簡単にするために、量子化されないLPC係数や量子化されたLPC係数のことも、単にスペクトルパラメータと呼ぶことにする。
【0028】
ここで述べるCELP方式では、スペクトル包絡を符号化する際に用いるスペクトルパラメータとしてLSP(Line Spectrum Pair)パラメータを用いるが、これに限られるものではなく、スペクトル包絡を表現できるパラメータであればLPC(Linear Predictive Coding)係数やKパラメータやG.722.2で使用されているISFパラメータなどの他のパラメータでも良い。
【0029】
目標信号生成部22は、音声信号20と、スペクトルパラメータ符号化部21から出力されたスペクトルパラメータと、音源信号生成部28からの音源信号とが入力され、これら入力された信号を用いて、目標信号X(n)を計算する。目標信号としては、過去の符号化の影響を除いた理想的な音源信号を聴覚重み付きの合成フィルタで合成した信号を用いるが、これに限るものではない。聴覚重み付きの合成フィルタはスペクトルパラメータを用いることで実現できることが知られている。
【0030】
インパルス応答計算部23は、スペクトルパラメータ符号化部21から出力されたスペクトルパラメータからインパルス応答h(n)を求め、出力する。このインパルス応答は典型的にはLPC係数を用いた合成フィルタと聴覚重みフィルタを組み合わせた以下に示す特性の聴覚重み付き合成フィルタH(z)を用いて計算できるが、これに限るものではない。
【0031】
【数1】

Figure 0004580622
ここで、1/Aq(z)は量子化されたLPC係数
【数2】
Figure 0004580622
から構成される合成フィルタを表し、
【数3】
Figure 0004580622
である。一方、W(z)は聴覚重みフィルタで、量子化されないLPC係数
【数4】
Figure 0004580622
から構成され、
【数5】
Figure 0004580622
である。pはLPCの次数であり、0〜約7kHz程度の帯域幅の音声信号を想定した広帯域音声符号化では、p=16〜20程度を用いることが知られている。
【0032】
適応符号帳探索部24は、スペクトルパラメータ符号化部21から出力されたスペクトルパラメータと、目標信号生成部22から出力された目標信号X(n)が入力され、その入力された信号と、適応符号帳探索部24内に記憶する適応符号帳とから、音声信号に含まれるピッチ周期を抽出し、これを符号化してピッチ周期に対応したインデックスを得て、適応符号(L)を出力する。適応符号(L)は、出力符号19の一部をなす。
【0033】
なお、適応符号帳探索部24は、適応符号帳の探索の前に、音源信号生成部28で生成された音源信号が入力され、入力された音源信号で適応符号帳を更新する構造となっており、適応符号帳には、過去の音源信号が格納されている。
【0034】
また、適応符号帳探索部24は、上記ピッチ周期に対応する適応符号帳からの適応符号ベクトルを音源信号生成部28へ出力する。さらに、この適応符号ベクトルと聴覚重み付きの合成フィルタを用いて、適応符号帳からの寄与分に相当する信号(聴覚重み付き合成された適応符号ベクトル)を生成し、これをゲイン符号帳探索部26へ出力する。さらに、適応符号帳の寄与分の信号成分を目標信号X(n)から差し引くことにより、第2の目標信号X2(n)(以下では、目標ベクトルX2とも称する。)を生成し、これを雑音符号帳探索部25へ出力する。
【0035】
パルス位置候補設定部27は、制御部15からの通知に基づき、雑音符号帳探索部25が探索するパルスの位置を指定する。パルス位置候補設定部27は、制御部15から入力信号のサンプリングレートが16kHzであるか8kHzであるか(もしくは、入力信号が広帯域信号であるか狭帯域信号であるか)の通知に応じて、広帯域用パルス位置候補27aと狭帯域用パルス位置候補27bのいずれかを選択し、選択したパルス位置候補を出力する。
【0036】
即ち、パルス位置候補設定部27は、入力信号のサンプリングレートが16kHzであるとの通知を受けると広帯域用パルス位置候補27aを選択し、入力信号のサンプリングレートが8kHzであるとの通知を受けると狭帯域用パルス位置候補27bを選択する。
【0037】
このように、入力信号のサンプリングレートが8kHzであるときには、通常の広帯域音声符号化の処理とは異なる、例外的な狭帯域用パルス位置候補27bについて雑音符号帳探索部25で探索するように制御することによって、音声符号化部14の動作を制御する。
【0038】
従来の広帯域音声符号化では、入力信号として16kHzのサンプリングレートしか想定していないため、符号化する前の入力信号が、8kHzのサンプリングレートの狭帯域の情報しか持たない信号の場合、その信号を符号化しようとすると、8kHzのサンプリングレートの入力信号を、まず16kHzにアップサンプリングし、これを通常の広帯域音声信号として符号化を行うしか方法が無い。
【0039】
また、従来の広帯域音源符号化では、音源信号を表すためのパルスの位置候補は、広帯域に対応した高いサンプリングレートの位置に用意されている。
【0040】
このような場合において、符号化ビットレートが例えば10kbit/s程度以下になると、音源信号を表すためのパルスに多くのビットを割り当てることができなくなり、特にパルス位置に非効率にビットを使われることが原因となり、音源信号を十分に表すためのパルスを立てることが難しくなる。この結果、符号化して再生される音声信号の音質が劣化したものになりやすい。
【0041】
一方、本実施形態における広帯域音声符号化装置は、8kHzサンプリングレートの入力信号が16kHzのサンプリングレートにサンプリングレート変換されて音声符号化部14に入力される場合でも、入力信号が広帯域か狭帯域かの情報を符号化前に検出する機能があるので、この検出結果を用いて音声符号化部14を広帯域/狭帯域のいずれかに適応させることができる。
【0042】
こうすることで、入力信号が狭帯域信号の場合は、音源信号を表すためのパルス位置の候補は、サンプリングレートを例えば8kHzに落としたものにすることで、不要に細かい解像度のパルス位置の候補にまでビットを使うことを防ぐことができる。
【0043】
また、パルス位置の候補の解像度を適切に落とすことができる分、余ったビットを他の情報に使用することができるようになり、例えば、パルスの数を増やすことも可能であり、こうすることで、音源信号をより効率よく表現することに繋がる。従って、10〜6kbit/s程度の低ビットレートであっても、8kHzサンプリングレートの入力信号に対し、より高品質に音声信号を符号化できるという効果がある。
【0044】
図3は、広帯域用パルス位置候補27aとして、整数サンプル位置から構成される整数サンプル位置のパルス位置候補27cを用い、狭帯域用パルス位置候補27bとして、偶数サンプル位置から構成される偶数サンプル位置のパルス位置候補27dを用いた場合のブロック図を示す。
【0045】
図4は、代数符号帳を用いた場合の整数サンプル位置のパルス位置候補27cの一例を示す。ここで、音源信号は、4つのパルスで表され、それぞれのパルスは+1か−1の振幅を持つ。音源信号を符号化するための区間はサブフレームと呼ばれ、ここではサブフレーム長は64サンプルで、各パルスはサブフレーム内の0〜63のサンプル位置のなかから選択される。
【0046】
図4に示す代数符号帳では、サブフレーム内の0〜63の整数サンプル位置を4つのトラックに分割し、各トラックには1つのパルスしか立たない構成となっている。例えば、パルスi0はトラック1に含まれるパルス位置の候補{0, 4, 8, 12, 16, 20, 24, 28, 32 36, 40, 44, 48, 52, 56, 60}の中のどれか1つの位置から選択されることを示す。この例では、各トラック当たり、パルスの符号化には16通りのパルス位置候補に4ビット、パルス振幅に1ビット必要であるので、4つのパルスでは、(4+1)×4=20ビット必要となる。
【0047】
図4に示す代数符号帳の構成は一例であり、これに限るものではないが、いずれにしても、4つのパルスは、サブフレーム内の整数サンプル位置の候補の中から選択される。
【0048】
図5は、偶数サンプル位置のパルス位置候補27dを示す。ここで、各パルスはサブフレーム内の0〜63のサンプル位置のうちの偶数サンプル位置にだけ配置されたパルス位置候補から選択される構成となっている。ただし、パルス位置候補として、偶数サンプル位置の他に、奇数サンプル位置の候補が幾つか混じっていても、その本質は損なわれることはないので、この場合も本発明に含まれることは言うまでもない。
【0049】
偶数サンプル位置のパルス位置候補27dでは、音源信号は、5つのパルスで表され、それぞれのパルスは+1か−1の振幅を持つ。図5の代数符号帳では、各パルスを立てることができるパルス位置候補はサブフレーム内の0〜63のサンプル位置のうち、偶数サンプル位置にだけ配置されている。
【0050】
また、サブフレーム内は偶数サンプル位置を5つのトラックに分割し、各トラックには1つのパルスしか立たない構成となっている。例えば、パルスi0はトラック1に含まれるパルス位置の候補{0, 8, 16, 24, 32, 40, 48, 56}の中のどれか1つの位置から選択される。
【0051】
偶数サンプル位置のパルス位置候補27dでは、各トラック当たり、パルスの符号化には8通りのパルス位置候補に3ビット、パルス振幅に1ビット与えると、20ビットが与えられれば、5つのパルスを立てることが可能となる。即ち、(3+1)×5=20ビットである。
【0052】
ここで示す偶数サンプル位置のパルス位置候補27dの構成は一例であり、トラックの構成も種々のものが考えられるが、いずれにしても、狭帯域用のパルスは、サブフレーム内の偶数サンプル位置から構成される位置候補の中から選択される。
【0053】
図6は、広帯域用パルス位置候補27aとして、整数サンプル位置から構成される整数サンプル位置のパルス位置候補27cを用い、狭帯域用パルス位置候補27bとして、奇数サンプル位置から構成される奇数サンプル位置のパルス位置候補27eを用いた場合のブロック図を示す。
【0054】
図7は、奇数サンプル位置のパルス位置候補27eを示す。この奇数サンプル位置のパルス位置候補27eは、奇数サンプル位置にだけ配置されたパルス位置候補からパルスが選択される構成であって、これでも、同様の効果が得られる。
【0055】
奇数サンプル位置のパルス位置候補27eでは、音源信号は、5つのパルスで表され、それぞれのパルスは+1か−1の振幅を持つ。図7に示す代数符号帳では、各パルスを立てることができるパルス位置候補は、サブフレーム内の0〜63のサンプル位置のうち、奇数サンプル位置にだけ配置されている。また、サブフレーム内は奇数サンプル位置を5つのトラックに分割し、各トラックには1つのパルスしか立たない構成となっている。
【0056】
例えば、パルスi0はトラック1に含まれるパルス位置の候補{1, 9, 17, 25, 33, 41, 49, 57}の中のどれか1つの位置から選択される。この例では、各トラック当たり、パルスの符号化には8通りのパルス位置候補に3ビット、パルス振幅に1ビット与えると、20ビットが与えられれば、5つのパルスを立てることが可能となる。即ち、(3+1)×5=20ビットである。
【0057】
ここで示す代数符号帳の構成は一例であり、トラックの構成についても種々のものが考えられるが、いずれにしても、狭帯域用のパルスは、奇数サンプル位置の位置候補の中から選択される。
【0058】
狭帯域パルス位置候補27bは、更に別の構成も可能であり、偶数サンプル位置と奇数サンプル位置をサブフレーム毎に、または、偶数サンプル位置と奇数サンプル位置を複数サブフレーム毎に切り替える構成にしても良い。
【0059】
要は、狭帯域用のパルス位置候補が、広帯域用のパルス位置候補よりも間引かれたサンプル位置にあるような構成で、かつ、狭帯域の帯域幅と広帯域の帯域幅の比率に応じた程度の間引き率でパルス位置の候補が与えられる構造になっていれば、狭帯域用の音源に用いるパルス位置候補としては十分機能するものとなる。その場合には、どのような構成であっても本発明に含まれることは言うまでもない。
【0060】
本実施形態では、狭帯域信号の帯域幅が約4kHz(元々は8kHzサンプリングの入力信号を16kHzにアップサンプリングした信号の場合)、広帯域信号の帯域幅が約8kHz(通常の16kHzサンプリングの信号の場合)と想定しているので、狭帯域用のサンプル位置の間引き方は、サンプリングレートを1/2(勿論2/3など、1/2以上の間引き率であってもよい)に低下させたような位置にパルス位置候補が位置するような構成であれば良い。従って、狭帯域パルス位置候補は27b、広帯域パルス位置候補27aに比べ、位置が1/2に間引かれた構成となっている。
【0061】
もし、狭帯域の音声信号である信号を広帯域音声符号化部で符号化する場合について何ら考慮されていなければ、狭帯域の音声信号についても、例えば図4に示す、広帯域パルス位置候補27aのような通常の広帯域信号と同じ高い時間解像度のパルス位置候補を用いることになる。
【0062】
このような時間解像度の高い位置候補を用いると、限られたビット数で数本しか立てられないパルスが、不必要に細かい解像度のために、隣り合う整数サンプルに数本のパルスが過度に集中してしまうことがあり、他の必要な位置にはパルスが配分されず、音源信号としては不十分なものとなり、結果、再生される音声が劣化する。
【0063】
本実施形態では、元の入力信号が狭帯域信号であることを検出し、狭帯域信号に適合した低い解像度のパルス位置候補を用いるので、パルス位置を表すためのビットが高域信号に無駄に使われることを防止できる。さらに、低い時間解像度の位置にしかパルスが立たないように制限することになるので、音源信号を表すためのパルスの複数本が不必要に集中してしまうことも無くなり、さらに、多くのパルスを立てることが可能となる。従って、より高品質な再生音声を提供することができる。
【0064】
図2に戻り、雑音符号帳探索部25は、パルス位置候補設定部27から出力されたパルスの位置候補で構成される代数符号帳を用いて、歪みが最小となる符号ベクトルの符号、即ち、雑音符号(K)の探索を行う。代数符号帳は予め定められたNp個のパルスの振幅がとり得る値を+1と−1に限定し、パルスの位置情報と振幅情報(即ち極性情報)に従ってパルスを立てたものを符号ベクトルとして出力する構造の符号帳である。
【0065】
代数符号帳の特徴としては、符号ベクトルそのものを直接には格納するのではなく、パルスの位置候補とパルスの極性についての取り決め情報だけを格納するだけで良い構造であるため、符号帳を表わすメモリ量が少なくて済み、符号ベクトルを選択するための計算量が少ないにもかかわらず、比較的高品質に音源情報に含まれる雑音成分を表すことができることが挙げられる。
【0066】
このように音源信号の符号化に代数符号帳を用いるものはACELP(Algebraic Code Excited Linear Prediction)方式と呼ばれ、比較的歪の少ない合成音声が得られることが知られている。
【0067】
このような構造の下、雑音符号帳探索部25は、パルス位置候補設定部27から出力されたパルスの位置候補と、適応符号帳探索部24から出力された第2の目標信号X2と、インパルス応答計算部23から出力されたインパルス応答h(n)が入力され、上記パルスの位置候補に従った代数符号帳からの出力信号(符号ベクトル)を用いて生成される聴覚重み付き合成された符号ベクトルと、第2の目標ベクトルX2との歪みを評価し、その歪みが小さくなるようなインデックス即ち、雑音符号(K)を探索する。
【0068】
この際用いる評価値は
【数6】
Figure 0004580622
であり、この値を最大にする符号ベクトルの符号を探索することが最も歪みが小さくなる符号を選択することと等価である。ここで、上付き添え字tは行列の転置を表し、Hはインパルス応答h(n)から構成されるインパルス応答行列、ckは符号kに対応する符号帳からの符号ベクトルを表す。
【0069】
雑音符号帳探索部25は、探索された雑音符号(K)と、この符号に対応する符号ベクトルと聴覚重み付き合成された符号ベクトルを出力する。雑音符号(K)は、出力符号19の一部をなす。
【0070】
雑音符号帳が代数符号帳で実現される場合、数個(ここではNp個)の非零のパルスから構成されるため、上記評価値の分子はさらに
【数7】
Figure 0004580622
と表すことができる。ここで、miは第i番目のパルスの位置、θjは第i番目のパルスの振幅、f(n)は相関ベクトルX2tHの要素である。また、上記評価値の分母は
【数8】
Figure 0004580622
と表すことができる。これらを基に歪み評価値(X2tHck)2/(cktHtHck)が最大となるようなパルス位置mj(i=0〜Np)を探索することでパルス位置情報の選択が完了する。ここで、探索するパルス位置mjは、パルス位置候補設定部27で設定されたパルス位置候補に限定される。こうすることにより、パルス位置候補設定部27から出力されたパルスの位置候補で構成される代数符号帳の探索が可能となる。
【0071】
また、この際、符号探索に用いるf(n)とψ(i、j)の必要な値を事前に計算しておくことにより、符号探索に要する計算量は非常に少ないものとなる。こうして選択されたパルス位置情報はパルス振幅情報と共に雑音符号(K)として出力される。また、雑音符号帳探索部25は、雑音符号に対応する符号ベクトルと、聴覚重み付き合成された符号ベクトルを出力する。
【0072】
ゲイン符号帳探索部26は、適応符号帳探索部24から出力された聴覚重み付き合成された適応符号ベクトルと、雑音符号帳探索部25から出力された聴覚重み付き合成された符号ベクトルが入力され、音源のゲイン成分を表現するために、適応符号ベクトルに用いるゲインと、符号ベクトルに用いるゲインの2種類のゲイン(簡単のため、以降では2種類のゲインも単にゲインと呼ぶ場合がある)を符号化する。
【0073】
ゲイン符号帳探索部26は、内部に格納するゲイン符号帳から引き出されるゲイン候補を用いて再生される聴覚重み付き合成音声信号と目標信号(この実施例ではX(n))との歪みが小さくなるようなインデックスであるゲイン符号(G)を探索する。そして、探索されたゲイン符号(G)とそれに対応するゲインを出力する。ゲイン符号(G)は、出力符号19の一部をなす。
【0074】
音源信号生成部28は、適応符号帳探索部24から出力された適応符号ベクトルと、雑音符号帳探索部25から出力された符号ベクトルと、ゲイン符号帳探索部26から出力されたゲインを用いて音源信号を生成する。
【0075】
音源信号は、適応符号ベクトルに適応符号ベクトル用のゲインを乗じ、符号ベクトルに符号ベクトル用のゲインを乗じ、これらゲインが乗じられた後の適応符号ベクトルとゲインが乗じられた後の符号ベクトルを加算することによって得るが、これに限るものではない。
【0076】
得られた音源信号は次の符号化区間において適応符号帳探索部24で利用できるように適応符号帳探索部24内の適応符号帳に格納される。さらに、生成された音源信号は、目標信号生成部22において、次区間での符号化の目標信号を計算するために使用される。
【0077】
次に、本発明の広帯域音声符号化方法の処理を、図8のフローチャートを用いて説明する。
【0078】
帯域検出部11で入力音声信号が広帯域信号かどうかを識別する(ステップ810)。識別の結果、広帯域信号である場合には、所定の広帯域符号化を行うことで符号化データを生成し(ステップ850)、処理を終了する。一方、狭帯域信号であると識別された場合は、例外的処理として、広帯域音声符号化部で想定しているサンプリングレート(通常は16kHz)に適合するように、入力信号のサンプリングレート変換を行う(ステップ820)。次に、例外的な広帯域音声符号化を行うための狭帯域用パラメータを用いて、狭帯域用に処理が修正された広帯域音声符号化処理を行うことで符号化データを生成し(ステップ840)、処理を終了する。なお、ステップ840において、狭帯域用に処理を修正する箇所は、広帯域音声符号化処理の中の、少なくとも一部の符号化処理であり、その一例は、雑音符号探索部で使用されるパルス位置の候補を修正することである。
【0079】
以上で図8のフローチャートを用いた本発明の広帯域音声符号化方法の説明を終わる。
【0080】
(第2の実施の形態)
以下に、本発明による広帯域音声符号化装置の第2の実施の形態を、第1の実施の形態との差を中心に、図面を参照して説明する。図7は、第2の実施形態に係る音声符号化部14のブロック図を示す。ここで、図2に示す第1の実施形態に係る音声符号化部14と比較して、同じ構成要素には同じ符号を付し、説明を省略する。
【0081】
図9に示す第2の実施形態の音声符号化部14は、図2に示す第1の実施形態に係る音声符号化部14と比較して、パラメータ次数設定部31があり、パラメータ次数設定部31は、パラメータ次数を出力する。また、スペクトルパラメータ符号化部21aは、第1の実施形態に係るスペクトルパラメータ符号化部21と同様の動作をするが、パラメータ次数が可変であり、パラメータ次数設定部31によって出力されたパラメータ次数を入力して用いる。
【0082】
また、パルス位置候補設定部27及び狭帯域パルス位置候補27bはなく、常に広帯域用パルス位置候補27aが雑音符号帳探索部25に設定されている。なお、広帯域用パルス位置候補27aは、図9では省略した。
【0083】
パラメータ次数設定部31は、制御部15からの通知に基き、スペクトルパラメータ符号化部21aが用いるLSPパラメータの次数を設定する。即ち、パラメータ次数設定部31は、入力信号のサンプリングレートが16kHzであるとの通知を受けると、広帯域用LSP次数を選択して、出力する。また、8kHzであるとの通知を受けると、狭広帯域用LSP次数を選択して、出力する。
【0084】
LSP次数pとしては、入力信号が7〜8kHz帯域の広帯域信号の場合にはp=16〜20程度を用いるが、入力信号が狭帯域信号である場合には、例外的に、p=10程度の値を用いる。このように、狭帯域信号に適正な程度にLSP次数を制限することがきるので、その分だけ、スペクトルパラメータの符号化に要するビット数を低減することができる効果がある。
【0085】
なお、スペクトルパラメータ符号化部21aが用いるスペクトルパラメータがLSPパラメータではなく、LPCパラメータやKパラメータ、ISFパラメータなどである場合でも、LSPパラメータと同様に、狭帯域信号に適正な程度に次数を制限した処理を行うことが可能である。
【0086】
第2の実施形態における制御部15の制御動作は、図8にフローチャートを示す第1の実施形態における制御部15の制御動作と同じである。ただし、ステップ850の広帯域符号化処理は、パラメータ次数設定部31に広帯域用LSP次数を設定させ、広帯域音声の符号化処理を音声符号化部14にさせることになる。
【0087】
また、ステップ840の狭帯域用に修正された広帯域符号化処理は、パラメータ次数設定部31に狭帯域用LSP次数を設定させ、狭帯域音声の符号化処理を音声符号化部14にさせることになる。
【0088】
本発明は、この他にも種々の応用が可能であり、入力音声信号のサンプリングレート変換手段を有する広帯域音声符号化装置において、入力音声信号のサンプリングレート変換に応じて、もしくは、入力音声信号が広帯域信号か狭帯域信号かの識別情報を用いることにより、
・前処理部、
・適応符号帳探索部、または、ピッチ分析部
・ゲイン符号帳探索部
において使用するパラメータ数や符号化候補数などを適応的に制御することができる。
【0089】
また、本発明は可変レートの広帯域音声符号化のビットレート制御に応用することも可能である。即ち、入力音声信号が広帯域信号か狭帯域信号かを識別することにより、前記広帯域音声符号化手段のビットレートを効率的に制御することが可能となる。例えば、入力音声信号が広帯域信号であれば、広帯域音声符号化部に適合した入力信号であるので、ある程度は符号化のビットレートを低くすることが可能である。
【0090】
一方、入力音声信号が狭帯域信号の場合は、上述したように、広帯域音声符号化部で通常は想定していない信号であるため、符号化効率が悪い傾向にあり、このような場合は、符号化のビットレートが高くなるようなビットレートの制御を行う。ただし、入力音声信号が無音の区間については、ビットレートを高くなるように制御する必要はない。このように、入力音声信号が狭帯域信号と検出された場合で、かつ、有音無音の判定など音声のアクティビティが高い場合にだけ、符号化のビットレートが高くなるような制御をビットレート判定部に働きかけると、音声のアクティビティが低い区間でビットレートを低く抑えることができるので、平均ビットレートを、低下させることが可能となる効果がある。
【0091】
このようにすることで、入力信号が広帯域信号であっても、狭帯域信号であっても、一定以上の品質を安定して提供することができる効果がある。
【0092】
【発明の効果】
以上述べたように、本発明によれば、狭帯域音声信号が入力されたことを検出して、広帯域音声符号化を狭帯域音声信号に適合化させることにより、狭帯域音声信号も高い音質で符号化することができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る広帯域音声符号化装置を示すブロック図。
【図2】本発明の第1の実施形態に係る音声符号化部を示すブロック図。
【図3】本発明の第1の実施形態に係るパルス位置候補設定部及びパルス位置候補を示すブロック図(第1の例)。
【図4】本発明の実施形態に係る整数サンプル位置のパルス位置候補。
【図5】本発明の第1の実施形態に係る偶数サンプル位置のパルス位置候補。
【図6】本発明の第1の実施形態に係るパルス位置候補設定部及びパルス位置候補を示すブロック図(第2の例)。
【図7】本発明の第1の実施形態に係る奇数サンプル位置のパルス位置候補。
【図8】本発明の実施形態に係る制御部の制御動作を示すフローチャート。
【図9】本発明の第2の実施形態に係る音声符号化部を示すブロック図。
【図10】本発明の実施形態に係る音声符号化部を示すブロック図。
【符号の説明】
10 入力音声信号
11、11a 帯域検出部
12 サンプリングレート変換部
14 音声符号化部
15 制御部
19 出力符号
20 音声信号
21、21a スペクトルパラメータ符号化部
22 目標信号生成部
23 インパルス応答計算部
24 適応符号帳探索部
25 雑音符号帳探索部
26 ゲイン符号帳探索部
27 パルス位置候補設定部
31 パラメータ次数設定部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a wideband speech coding method and a wideband speech coding apparatus, and relates to a wideband speech coding process that encodes a narrowband speech signal with high quality.
[0002]
[Prior art]
Also in the transmission of sound using a mobile communication system, it is required to transmit a wideband sound signal with good sound quality. 722.2 describes a wideband speech coding scheme. This ITU-T Recommendation G. The wideband speech coding method described in 722.2 is called an AMR-WB (Adaptive Multi Rate Wide Band) method, which is intended to encode a wideband speech signal of 16 kHz sampling with high quality. The rate is available. In general, in audio coding, the higher the bit rate, the better the sound quality, and the lower the bit rate, the lower the sound quality.
[0003]
This ITU-T Recommendation G. Since the wideband speech coding method described in 722.2 assumes the coding of a wideband speech signal having a bandwidth of about 50 Hz to 7 kHz, the sampling rate of the input signal is set to 16 kHz. However, when a voice signal having a sampling rate of 8 kHz that does not have a frequency of 4 kHz or higher, such as normal telephone voice, is input, it is necessary to first upsample to 16 kHz in order to encode the narrowband voice signal. is there.
[0004]
The audio signal up-sampled from 8 kHz to 16 kHz is treated as the same as a normal wideband audio signal, although it is a narrowband audio signal not having a frequency of 4 kHz or more, and is specialized for a wideband audio signal. It is encoded by the encoding method. Therefore, since an audio signal that is upsampled from 8 kHz to 16 kHz that does not have a frequency of 4 kHz or more is encoded specifically for a normal wideband audio signal, the audio encoding method and the bandwidth of the input signal Due to the mismatch, there is a problem that the encoding efficiency is lowered and the encoding with good sound quality cannot be performed.
[0005]
For this reason, when a wideband audio codec is used for a narrowband audio signal that is band-limited through a narrowband communication path or a narrowband codec, the medium to low level is about 6 to 10 kbit / s. At bit rates, the sound quality is much worse than when using a narrowband audio codec. The same problem occurs when an audio signal having a very low frequency of 4 kHz or more is input.
[0006]
In addition, as a method for improving sound quality by speech coding, a plurality of sets of pulse positions are held, and a distortion between the speech signal is calculated for each set of pulse positions by the sound source quantization unit. A process for selecting a set of pulse positions for reducing the distortion is known (see, for example, Patent Document 1).
[0007]
[Patent Document 1]
JP 2001-318698 A (page 2-4, FIG. 1)
[0008]
[Problems to be solved by the invention]
However, in the conventional method described above, since it is necessary to calculate the distortion for each set of pulse positions held, the problem is that the amount of calculation required to select the set of pulse positions is enormous. There is a point. In addition, the conventional method does not take into consideration the problem of mismatch between the speech coding method and the bandwidth of the input signal, and the sound quality is extremely poor when the narrowband speech signal described above is subjected to wideband speech coding. The problem of becoming is not solved.
[0009]
The present invention has been made to solve the above-described problems, and it is an object of the present invention to provide a wideband speech coding method and a wideband speech coding apparatus capable of obtaining sound quality that may encode a narrowband speech signal. And
[0010]
[Means for Solving the Problems]
In order to achieve the above object, the wideband speech encoding method of the present invention includes: A first step of identifying whether the input audio signal is a wideband audio signal or a narrowband audio signal; and if the input audio signal is identified as a wideband audio signal, a first wideband audio encoding is performed. Performing a second process of generating encoded data and sampling of the input speech signal to match the first wideband speech encoding when the input speech signal is identified as a narrowband speech signal. A third process for converting the rate, and a parameter used in the first wideband speech coding for the input speech signal whose sampling rate has been converted by the third process is modified for a narrow band. And a fourth step of generating encoded data by performing a second wideband speech encoding obtained by It is characterized by that.
[0011]
Also, the wideband speech coding of the present invention The apparatus includes a first means for identifying whether the input audio signal is a wideband audio signal or a narrowband audio signal, and a first wideband audio if the input audio signal is identified as a wideband audio signal. A second means for performing encoding to generate encoded data; and, if the input speech signal is identified as a narrowband speech signal, the input speech to be compatible with the first wideband speech coding. A third means for converting the sampling rate of the signal, and a parameter used in the first wideband speech coding for the input speech signal whose sampling rate is converted by the third means is modified for a narrow band. And a fourth means for generating encoded data by performing the second wideband speech encoding obtained by It is characterized by that.
[0013]
According to the present invention, it is possible to encode a narrowband audio signal with high sound quality by detecting the input of the narrowband audio signal and performing encoding suitable for the narrowband audio signal.
[0014]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of a wideband speech coding method and a wideband speech coding apparatus according to the present invention will be described with reference to the drawings.
[0015]
(First embodiment)
FIG. 1 is a block diagram showing a wideband speech encoding apparatus according to an embodiment of the present invention. This device includes a band detection unit 11, a sampling rate conversion unit 12, a speech encoding unit 14, and a control unit 15 that controls the entire device, receives an input speech signal 10, and receives the input speech signal. This is an apparatus that outputs an output code 19 obtained by encoding 10.
[0016]
The band detector 11 detects the sampling rate of the input audio signal 10 and notifies the controller 15 of the detected sampling rate.
[0017]
At this time, the band detector 11 (1) detects and inputs the sampling rate information of the input audio signal 10 from the outside, (2) acquires attribute information (such as file header information) of the input audio signal 10 (3) Obtaining the identification information of the codec that generated the input audio signal 10 and detecting the sampling rate of the input audio signal depending on whether it is a narrowband codec or a wideband codec. Although rate detection is performed, the present invention is not limited to these. For example, FIG. 10 shows a band detection unit 11 a configured to acquire sampling rate information and information for identifying a wideband signal / narrowband signal from the input audio signal 10. This is because the sampling rate information and the information for identifying the wide band / narrow band, the attribute information of the input audio signal, or the identification of the codec that generated the input audio signal 10 is included in the bits of the predetermined part of the input audio signal sequence. This is the configuration when information or the like is embedded. As an embedding method, a method of embedding in the least significant bit of the PCM of the input audio signal sequence can be considered. By doing this, the sampling rate information, the information for identifying the wideband / narrowband, or the information of the input audio signal without affecting the upper bits of the PCM (that is, without affecting the sound quality of the input audio signal) It is possible to embed attribute information or identification information of the codec that generated the input audio signal 10.
[0018]
As described above, various embodiments are conceivable as the band detection unit, but any configuration may be used as long as it can identify the sampling rate information, wideband / narrowband, or codec. Needless to say. Also, the sampling rate information, wideband / narrowband identification information, and codec identification information may be information representative of them.
[0019]
The sampling rate conversion unit 12 converts the input speech signal 10 into a predetermined sampling rate, and transmits the obtained signal of the predetermined sampling rate to the speech encoding unit 14.
[0020]
The sampling rate converter 12 receives the 8 kHz sampling signal as an input, and obtains and outputs an upsampled 16 kHz sampling signal using an interpolation filter. The sampling rate conversion unit 12 receives a 16 kHz sampling signal and outputs it without converting the sampling rate, but is not limited to this.
[0021]
Further, the method of converting the sampling rate is not limited to the interpolation filter, and can be realized by using frequency conversion such as FFT, DFT, MDCT, and the conversion. For example, in the case of upsampling, the data is converted to the frequency conversion domain by FFT, DFT, MDCT, etc., and the data is expanded by adding zero data to the high frequency side of the frequency domain data obtained by the conversion (virtual) A method of obtaining an upsampled input signal by inversely transforming the expanded data is also effective. By doing so, since high-speed calculations such as FFT and MDCT can be used, the sampling rate can be converted with a smaller amount of calculation than the interpolation filter.
[0022]
The voice encoding unit 14 receives a 16 kHz sampling signal from the sampling rate conversion unit 12 and outputs an output code 19 obtained by encoding the signal.
[0023]
The speech coding method used by the speech coding unit 14 will be described by taking the CELP (Code Excited Linear Prediction) method as an example, but the speech coding method is not limited to this. The CELP method is described in, for example, MR Schroeder and BS Atal: "Code-Excited Linear Prediction (CELP): High-quality Speech at Very Low Bit Rates", Proc. ICASSP-85, pp.937-940, 1985. Has been.
[0024]
FIG. 2 is a block diagram showing a configuration of the speech encoding unit 14. The speech encoding unit 14 includes a spectral parameter encoding unit 21, a target signal generation unit 22, an impulse response calculation unit 23, an adaptive codebook search unit 24, a noise codebook search unit 25, and a gain codebook search unit. 26, a pulse position candidate setting unit 27, a wideband pulse position candidate 27a, a narrowband pulse position candidate 27b, and a sound source signal generation unit 28.
[0025]
The operation of speech encoding according to the embodiment of the present invention configured as described above will be described. The speech encoding unit 14 is a device that receives the speech signal 20 and outputs an output code 19 obtained by encoding the speech signal 20, and performs an operation described below.
[0026]
The spectrum parameter encoding unit 21 extracts a spectrum parameter by analyzing the received audio signal 20. Next, using the extracted spectrum parameters, a spectrum parameter codebook stored in advance in the spectrum parameter encoding unit 21 is searched, and a code that can better represent the spectrum envelope of the input speech signal A book index is selected, and the selected index is output as a spectrum parameter code (A). The spectrum parameter code (A) is a part of the output code 19.
[0027]
The spectral parameter encoding unit 21 outputs an unquantized LPC coefficient and a quantized LPC coefficient corresponding to the extracted spectral parameter. Hereinafter, in order to simplify the description, LPC coefficients that are not quantized and LPC coefficients that are quantized are also simply referred to as spectrum parameters.
[0028]
In the CELP system described here, an LSP (Line Spectrum Pair) parameter is used as a spectrum parameter used when encoding a spectrum envelope. However, the present invention is not limited to this. Predictive Coding) coefficient, K parameter, G. Other parameters such as the ISF parameter used in 722.2 may be used.
[0029]
The target signal generation unit 22 receives the audio signal 20, the spectrum parameter output from the spectrum parameter encoding unit 21, and the sound source signal from the sound source signal generation unit 28, and uses these input signals to generate a target signal. Calculate the signal X (n). As the target signal, a signal obtained by synthesizing an ideal sound source signal excluding the influence of past coding by a synthesis filter with auditory weight is used, but the target signal is not limited thereto. It is known that an auditory weighted synthesis filter can be realized by using spectral parameters.
[0030]
The impulse response calculation unit 23 obtains an impulse response h (n) from the spectrum parameter output from the spectrum parameter encoding unit 21 and outputs it. This impulse response can be typically calculated using an auditory weighted synthesis filter H (z) having the following characteristics, which is a combination of a synthesis filter using an LPC coefficient and an auditory weight filter, but is not limited thereto.
[0031]
[Expression 1]
Figure 0004580622
Where 1 / Aq (z) is the quantized LPC coefficient
[Expression 2]
Figure 0004580622
Represents a synthesis filter consisting of
[Equation 3]
Figure 0004580622
It is. On the other hand, W (z) is an auditory weighting filter and is an LPC coefficient that is not quantized.
[Expression 4]
Figure 0004580622
Consisting of
[Equation 5]
Figure 0004580622
It is. p is the order of LPC, and it is known that about p = 16 to 20 is used in wideband speech coding assuming a speech signal having a bandwidth of about 0 to about 7 kHz.
[0032]
The adaptive codebook search unit 24 receives the spectrum parameter output from the spectrum parameter encoding unit 21 and the target signal X (n) output from the target signal generation unit 22, and inputs the input signal, the adaptive code A pitch period included in the speech signal is extracted from the adaptive codebook stored in the book search unit 24, and is encoded to obtain an index corresponding to the pitch period, and an adaptive code (L) is output. The adaptive code (L) forms part of the output code 19.
[0033]
Note that the adaptive codebook search unit 24 has a structure in which the excitation signal generated by the excitation signal generation unit 28 is input before the search of the adaptive codebook, and the adaptive codebook is updated with the input excitation signal. In the adaptive codebook, past sound source signals are stored.
[0034]
The adaptive codebook search unit 24 outputs an adaptive code vector from the adaptive codebook corresponding to the pitch period to the excitation signal generation unit 28. Furthermore, using this adaptive code vector and the auditory weighted synthesis filter, a signal corresponding to the contribution from the adaptive codebook (an adaptive code vector synthesized with auditory weight) is generated, and this is generated as a gain codebook search unit 26. Further, a signal component corresponding to the contribution of the adaptive codebook is subtracted from the target signal X (n) to generate a second target signal X2 (n) (hereinafter also referred to as target vector X2), which is noise. Output to the codebook search unit 25.
[0035]
The pulse position candidate setting unit 27 designates the position of the pulse searched by the noise codebook search unit 25 based on the notification from the control unit 15. In response to the notification from the control unit 15 of whether the sampling rate of the input signal is 16 kHz or 8 kHz (or whether the input signal is a wideband signal or a narrowband signal), the pulse position candidate setting unit 27 One of the wideband pulse position candidate 27a and the narrowband pulse position candidate 27b is selected, and the selected pulse position candidate is output.
[0036]
That is, when the pulse position candidate setting unit 27 receives a notification that the sampling rate of the input signal is 16 kHz, the pulse position candidate setting unit 27 selects the wideband pulse position candidate 27a and receives a notification that the sampling rate of the input signal is 8 kHz. The narrow band pulse position candidate 27b is selected.
[0037]
As described above, when the sampling rate of the input signal is 8 kHz, control is performed so that the noise codebook search unit 25 searches for an exceptional narrowband pulse position candidate 27b, which is different from normal wideband speech coding processing. By doing so, the operation of the speech encoding unit 14 is controlled.
[0038]
In the conventional wideband speech coding, since only a sampling rate of 16 kHz is assumed as an input signal, when the input signal before coding is a signal having only narrowband information of a sampling rate of 8 kHz, the signal is In order to encode, the only method is to first up-sample an input signal having a sampling rate of 8 kHz to 16 kHz and encode it as a normal wideband audio signal.
[0039]
In the conventional wideband excitation coding, pulse position candidates for representing the excitation signal are prepared at high sampling rate positions corresponding to the wideband.
[0040]
In such a case, when the encoding bit rate is, for example, about 10 kbit / s or less, it is impossible to allocate a large number of bits to a pulse for representing a sound source signal, and in particular, bits are used inefficiently at the pulse position. For this reason, it becomes difficult to generate a pulse for sufficiently expressing the sound source signal. As a result, the sound quality of the audio signal encoded and reproduced tends to deteriorate.
[0041]
On the other hand, the wideband speech encoding apparatus according to the present embodiment determines whether the input signal is wideband or narrowband even when the input signal of 8 kHz sampling rate is converted to the sampling rate of 16 kHz and input to the speech encoding unit 14. Therefore, the speech encoding unit 14 can be adapted to either wideband or narrowband using this detection result.
[0042]
In this way, when the input signal is a narrow-band signal, the pulse position candidate for representing the sound source signal is a candidate for a pulse position with an unnecessarily fine resolution by reducing the sampling rate to 8 kHz, for example. It is possible to prevent the use of a bit.
[0043]
In addition, since the resolution of pulse position candidates can be appropriately reduced, the surplus bits can be used for other information. For example, the number of pulses can be increased. Thus, the sound source signal can be expressed more efficiently. Therefore, even if the bit rate is as low as about 10 to 6 kbit / s, there is an effect that an audio signal can be encoded with higher quality with respect to an input signal of 8 kHz sampling rate.
[0044]
FIG. 3 shows a pulse position candidate 27c of an integer sample position composed of integer sample positions as the wideband pulse position candidate 27a, and an even sample position composed of even sample positions as the narrowband pulse position candidate 27b. A block diagram when the pulse position candidate 27d is used is shown.
[0045]
FIG. 4 shows an example of a pulse position candidate 27c at an integer sample position when an algebraic codebook is used. Here, the sound source signal is represented by four pulses, and each pulse has an amplitude of +1 or -1. The section for encoding the sound source signal is called a subframe. Here, the subframe length is 64 samples, and each pulse is selected from 0 to 63 sample positions in the subframe.
[0046]
In the algebraic codebook shown in FIG. 4, the integer sample positions 0 to 63 in the subframe are divided into four tracks, and each track has only one pulse. For example, pulse i0 is any of pulse position candidates {0, 4, 8, 12, 16, 20, 24, 28, 32 36, 40, 44, 48, 52, 56, 60} included in track 1 Indicates that one position is selected. In this example, for each track, 16 bits are required for encoding 16 pulses, and 1 bit is required for the pulse amplitude for each track, so 4 pulses require (4 + 1) × 4 = 20 bits. .
[0047]
The configuration of the algebraic codebook shown in FIG. 4 is an example, and the configuration is not limited to this. In any case, four pulses are selected from integer sample position candidates in the subframe.
[0048]
FIG. 5 shows a pulse position candidate 27d for even sample positions. Here, each pulse is configured to be selected from pulse position candidates arranged only at even sample positions among 0 to 63 sample positions in the subframe. However, even if there are several odd-numbered sample position candidates in addition to even-numbered sample positions as pulse position candidates, the essence is not impaired, and it goes without saying that this case is also included in the present invention.
[0049]
In the pulse position candidate 27d of the even sample position, the sound source signal is represented by five pulses, and each pulse has an amplitude of +1 or -1. In the algebraic codebook of FIG. 5, pulse position candidates capable of generating each pulse are arranged only at even sample positions among 0 to 63 sample positions in the subframe.
[0050]
In addition, even sample positions are divided into five tracks in the subframe, and each track has only one pulse. For example, the pulse i0 is selected from any one of the pulse position candidates {0, 8, 16, 24, 32, 40, 48, 56} included in the track 1.
[0051]
In the pulse position candidate 27d of even sample positions, for each track, 5 bits are set up if 3 bits are given to 8 kinds of pulse position candidates and 1 bit is given to pulse amplitude when 20 bits are given. It becomes possible. That is, (3 + 1) × 5 = 20 bits.
[0052]
The configuration of the pulse position candidate 27d at the even-numbered sample position shown here is an example, and various configurations of the track are conceivable. In any case, the pulse for the narrow band is generated from the even-numbered sample position in the subframe. It is selected from among the candidate positions.
[0053]
FIG. 6 shows a pulse position candidate 27c of an integer sample position composed of integer sample positions as the wideband pulse position candidate 27a, and an odd sample position composed of odd sample positions as the narrowband pulse position candidate 27b. The block diagram at the time of using the pulse position candidate 27e is shown.
[0054]
FIG. 7 shows a pulse position candidate 27e at an odd sample position. The pulse position candidate 27e at the odd sample position has a configuration in which a pulse is selected from pulse position candidates arranged only at the odd sample position. Even in this case, the same effect can be obtained.
[0055]
In the pulse position candidate 27e at the odd sample position, the sound source signal is represented by five pulses, and each pulse has an amplitude of +1 or -1. In the algebraic codebook shown in FIG. 7, pulse position candidates capable of generating each pulse are arranged only at odd sample positions among 0 to 63 sample positions in the subframe. Further, the odd-numbered sample position is divided into five tracks in the subframe, and each track has only one pulse.
[0056]
For example, the pulse i0 is selected from any one of the pulse position candidates {1, 9, 17, 25, 33, 41, 49, 57} included in the track 1. In this example, if 3 bits are given to 8 kinds of pulse position candidates and 1 bit is given to the pulse amplitude for each pulse, 5 pulses can be set up if 20 bits are given. That is, (3 + 1) × 5 = 20 bits.
[0057]
The configuration of the algebraic codebook shown here is merely an example, and various configurations of the track are conceivable. In any case, the narrowband pulse is selected from the position candidates of the odd sample positions. .
[0058]
The narrow-band pulse position candidate 27b can be configured in another way, and the even-numbered sample position and the odd-numbered sample position are switched every subframe, or the even-numbered sample position and the odd-numbered sample position are switched every subframe. good.
[0059]
The point is that the narrow-band pulse position candidate is located at the sample position thinned out from the wide-band pulse position candidate, and it corresponds to the ratio of the narrow-band bandwidth to the wide-band bandwidth. If the structure is such that pulse position candidates are given at a thinning rate, the pulse position candidates used for the narrowband sound source function sufficiently. In that case, it goes without saying that any configuration is included in the present invention.
[0060]
In the present embodiment, the bandwidth of the narrowband signal is about 4 kHz (in the case of a signal obtained by upsampling an input signal of 8 kHz sampling to 16 kHz originally), and the bandwidth of the wideband signal is about 8 kHz (in the case of a normal 16 kHz sampling signal). ), The thinning-out sample position thinning method seems to have lowered the sampling rate to 1/2 (of course, it may be a thinning rate of 1/2 or more, such as 2/3). Any configuration may be used as long as the pulse position candidate is located at the correct position. Therefore, the narrow-band pulse position candidate is 27b, and the position is thinned out by half compared to the wide-band pulse position candidate 27a.
[0061]
If no consideration is given to the case where a signal that is a narrowband speech signal is encoded by the wideband speech encoder, the narrowband speech signal is also represented by, for example, a wideband pulse position candidate 27a shown in FIG. The same high-resolution time position pulse position candidate as that of a normal wideband signal is used.
[0062]
Using such position candidates with high temporal resolution, only a few pulses can be generated with a limited number of bits, but due to unnecessarily fine resolution, several pulses are overly concentrated in adjacent integer samples. In other words, the pulse is not distributed to other necessary positions, which is insufficient as a sound source signal. As a result, the reproduced sound is deteriorated.
[0063]
In this embodiment, it is detected that the original input signal is a narrowband signal, and low-resolution pulse position candidates suitable for the narrowband signal are used. Therefore, bits for representing the pulse position are wasted in the highband signal. It can be prevented from being used. Furthermore, since the pulse is limited so that the pulse only appears at a position having a low time resolution, the plurality of pulses for representing the sound source signal is not unnecessarily concentrated, and more pulses are generated. It is possible to stand. Therefore, it is possible to provide higher quality reproduced audio.
[0064]
Returning to FIG. 2, the noise codebook search unit 25 uses the algebraic codebook composed of pulse position candidates output from the pulse position candidate setting unit 27, that is, the code of the code vector that minimizes distortion, that is, Search for noise code (K). The algebraic codebook limits the possible values of the amplitudes of predetermined Np pulses to +1 and -1, and outputs a pulse vector according to pulse position information and amplitude information (ie, polarity information) as a code vector It is a codebook of the structure to do.
[0065]
As a feature of the algebraic codebook, the code vector itself is not stored directly, but only the arrangement information about the pulse position candidates and the pulse polarity is stored. Although the amount is small and the amount of calculation for selecting the code vector is small, the noise component included in the sound source information can be expressed with relatively high quality.
[0066]
Such a method using an algebraic codebook for encoding a sound source signal is called an ACELP (Algebraic Code Excited Linear Prediction) method, and it is known that synthesized speech with relatively little distortion can be obtained.
[0067]
Under such a structure, the noise codebook search unit 25 includes the pulse position candidate output from the pulse position candidate setting unit 27, the second target signal X2 output from the adaptive codebook search unit 24, and the impulse. The impulse response h (n) output from the response calculation unit 23 is input, and the auditory weighted synthesized code generated using the output signal (code vector) from the algebraic codebook according to the pulse position candidate. The distortion between the vector and the second target vector X2 is evaluated, and an index that reduces the distortion, that is, a noise code (K) is searched.
[0068]
The evaluation value used at this time is
[Formula 6]
Figure 0004580622
Searching for the code of the code vector that maximizes this value is equivalent to selecting a code that minimizes distortion. Here, the superscript t represents the transposition of the matrix, H represents an impulse response matrix composed of the impulse response h (n), and ck represents the code vector from the codebook corresponding to the code k.
[0069]
The noise codebook search unit 25 outputs the searched noise code (K) and a code vector synthesized with auditory weights and a code vector corresponding to this code. The noise code (K) forms part of the output code 19.
[0070]
When the noise codebook is realized by an algebraic codebook, it is composed of several (here, Np) non-zero pulses.
[Expression 7]
Figure 0004580622
It can be expressed as. Here, mi is the position of the i-th pulse, θj is the amplitude of the i-th pulse, and f (n) is an element of the correlation vector X2tH. The denominator of the evaluation value is
[Equation 8]
Figure 0004580622
It can be expressed as. The selection of pulse position information is completed by searching for a pulse position mj (i = 0 to Np) that maximizes the distortion evaluation value (X2tHkk) 2 / (cktHtHkk) based on these. Here, the pulse position mj to be searched is limited to the pulse position candidates set by the pulse position candidate setting unit 27. By doing so, it is possible to search for an algebraic codebook composed of pulse position candidates output from the pulse position candidate setting unit 27.
[0071]
At this time, by calculating in advance the necessary values of f (n) and ψ (i, j) used for the code search, the amount of calculation required for the code search becomes very small. The pulse position information thus selected is output as a noise code (K) together with the pulse amplitude information. The noise codebook search unit 25 outputs a code vector corresponding to the noise code and a code vector synthesized with auditory weights.
[0072]
The gain codebook search unit 26 receives the adaptive code vector combined with auditory weights output from the adaptive codebook search unit 24 and the code vector combined with auditory weights output from the noise codebook search unit 25. In order to express the gain component of the sound source, two types of gains, that is, a gain used for the adaptive code vector and a gain used for the code vector (for the sake of simplicity, the two types of gain may be simply referred to as gains hereinafter). Encode.
[0073]
The gain codebook search unit 26 has a small distortion between the auditory weighted synthesized speech signal reproduced using the gain candidates extracted from the gain codebook stored therein and the target signal (X (n) in this embodiment). A gain code (G) that is an index is searched. Then, the searched gain code (G) and the corresponding gain are output. The gain code (G) forms part of the output code 19.
[0074]
The excitation signal generator 28 uses the adaptive code vector output from the adaptive codebook search unit 24, the code vector output from the noise codebook search unit 25, and the gain output from the gain codebook search unit 26. Generate a sound source signal.
[0075]
The excitation signal is obtained by multiplying the adaptive code vector by the gain for the adaptive code vector, multiplying the code vector by the gain for the code vector, multiplying the gain by the adaptive code vector and the code vector after multiplying the gain. Although it is obtained by adding, it is not limited to this.
[0076]
The obtained excitation signal is stored in the adaptive codebook in the adaptive codebook search unit 24 so that it can be used by the adaptive codebook search unit 24 in the next coding section. Further, the generated excitation signal is used in the target signal generation unit 22 to calculate a target signal for encoding in the next section.
[0077]
Next, processing of the wideband speech encoding method of the present invention will be described with reference to the flowchart of FIG.
[0078]
Band detector 11 In step 810, it is determined whether the input voice signal is a wideband signal. As a result of the identification, if the signal is a wideband signal, encoded data is generated by performing predetermined wideband encoding (step 850), and the process ends. On the other hand, if the signal is identified as a narrowband signal, the sampling rate conversion of the input signal is performed so as to match the sampling rate assumed by the wideband speech coding unit (usually 16 kHz) as an exceptional process. (Step 820). Next, using narrowband parameters for performing exceptional wideband speech coding, encoded data is generated by performing wideband speech coding processing modified for narrowband processing (step 840). The process is terminated. In step 840, the portion where the processing is corrected for narrowband is at least a part of the wideband speech encoding processing, and an example is the pulse position used in the noise code search unit. Is to correct the candidate.
[0079]
This is the end of the description of the wideband speech coding method of the present invention using the flowchart of FIG.
[0080]
(Second Embodiment)
Hereinafter, a second embodiment of the wideband speech encoding apparatus according to the present invention will be described with reference to the drawings with a focus on differences from the first embodiment. FIG. 7 shows a block diagram of the speech encoding unit 14 according to the second embodiment. Here, compared with the speech encoding unit 14 according to the first embodiment shown in FIG. 2, the same components are denoted by the same reference numerals, and description thereof is omitted.
[0081]
The speech encoding unit 14 according to the second embodiment shown in FIG. 9 has a parameter order setting unit 31 as compared with the speech encoding unit 14 according to the first embodiment shown in FIG. 31 outputs the parameter order. The spectrum parameter encoding unit 21a operates in the same manner as the spectrum parameter encoding unit 21 according to the first embodiment except that the parameter order is variable and the parameter order output by the parameter order setting unit 31 is changed. Enter and use.
[0082]
Further, there is no pulse position candidate setting unit 27 and narrow band pulse position candidate 27b, and a wide band pulse position candidate 27a is always set in the noise codebook search unit 25. The broadband pulse position candidate 27a is omitted in FIG.
[0083]
The parameter order setting unit 31 sets the order of the LSP parameters used by the spectrum parameter encoding unit 21 a based on the notification from the control unit 15. That is, upon receiving notification that the sampling rate of the input signal is 16 kHz, the parameter order setting unit 31 selects and outputs the broadband LSP order. In addition, upon receiving a notification that the frequency is 8 kHz, the narrowband LSP order is selected and output.
[0084]
As the LSP order p, when the input signal is a wideband signal in the 7 to 8 kHz band, about p = 16 to 20 is used. However, when the input signal is a narrowband signal, the exception is about p = 10. The value of is used. Thus, since the LSP order can be limited to an appropriate level for a narrowband signal, there is an effect that the number of bits required for encoding spectral parameters can be reduced accordingly.
[0085]
Even when the spectrum parameter used by the spectrum parameter encoding unit 21a is not an LSP parameter but an LPC parameter, a K parameter, an ISF parameter, or the like, the order is limited to an appropriate level for a narrowband signal, like the LSP parameter. Processing can be performed.
[0086]
The control operation of the control unit 15 in the second embodiment is as follows: FIG. This is the same as the control operation of the control unit 15 in the first embodiment shown in the flowchart. However, Step 850 In the wideband encoding process, the parameter order setting unit 31 sets the wideband LSP order, and the speech encoding unit 14 performs the wideband speech encoding process.
[0087]
Also, Broadband modified for narrowband in step 840 The encoding process causes the parameter order setting unit 31 to set the narrowband LSP order and causes the audio encoding unit 14 to perform the encoding process of the narrowband speech.
[0088]
The present invention can be applied to various other applications. In a wideband speech encoding apparatus having sampling rate conversion means for an input speech signal, the input speech signal is converted according to the sampling rate conversion of the input speech signal. By using the identification information of wideband signal or narrowband signal,
・ Pre-processing part,
・ Adaptive codebook search unit or pitch analysis unit
・ Gain codebook search unit
It is possible to adaptively control the number of parameters, the number of encoding candidates, etc. used in FIG.
[0089]
The present invention can also be applied to bit rate control of variable rate wideband speech coding. That is, by identifying whether the input speech signal is a wideband signal or a narrowband signal, the bit rate of the wideband speech encoding means can be controlled efficiently. For example, if the input speech signal is a wideband signal, the input signal is suitable for the wideband speech coding unit, and therefore the coding bit rate can be lowered to some extent.
[0090]
On the other hand, when the input speech signal is a narrowband signal, as described above, since it is a signal that is not normally assumed by the wideband speech coding unit, the coding efficiency tends to be poor. In such a case, The bit rate is controlled so as to increase the encoding bit rate. However, it is not necessary to control the bit rate to be increased in a section where the input audio signal is silent. In this way, when the input audio signal is detected as a narrow-band signal and when the voice activity is high, such as whether there is sound or no sound, control that increases the coding bit rate is performed. Working on the section has the effect of reducing the average bit rate because the bit rate can be kept low in a section where the voice activity is low.
[0091]
By doing in this way, even if an input signal is a wideband signal or a narrowband signal, there exists an effect which can provide the quality beyond a fixed level stably.
[0092]
【The invention's effect】
As described above, according to the present invention, by detecting that a narrowband speech signal is input and adapting wideband speech coding to the narrowband speech signal, the narrowband speech signal is also improved in sound quality. Can be encoded.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a wideband speech encoding apparatus according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a speech encoding unit according to the first embodiment of the present invention.
FIG. 3 is a block diagram (first example) showing a pulse position candidate setting unit and pulse position candidates according to the first embodiment of the present invention.
FIG. 4 shows pulse position candidates of integer sample positions according to an embodiment of the present invention.
FIG. 5 shows pulse position candidates at even sample positions according to the first embodiment of the present invention.
FIG. 6 is a block diagram (second example) showing a pulse position candidate setting unit and pulse position candidates according to the first embodiment of the present invention.
FIG. 7 shows pulse position candidates at odd sample positions according to the first embodiment of the present invention.
FIG. 8 is a flowchart showing a control operation of a control unit according to the embodiment of the present invention.
FIG. 9 is a block diagram showing a speech encoding unit according to the second embodiment of the present invention.
FIG. 10 is a block diagram showing a speech encoding unit according to the embodiment of the present invention.
[Explanation of symbols]
10 Input audio signal
11, 11a Band detector
12 Sampling rate converter
14 Speech coding unit
15 Control unit
19 Output code
20 Audio signal
21, 21a Spectral parameter encoding unit
22 Target signal generator
23 Impulse response calculator
24 Adaptive codebook search unit
25 Noise codebook search section
26 Gain codebook search unit
27 Pulse position candidate setting section
31 Parameter order setting section

Claims (10)

入力音声信号が広帯域音声信号であるか狭帯域音声信号であるかを識別する第1の過程と、
前記入力音声信号が広帯域音声信号と識別された場合には、第1の広帯域音声符号化を行って符号化データを生成する第2の過程と、
前記入力音声信号が狭帯域音声信号と識別された場合には、前記第1の広帯域音声符号化に適合するように前記入力音声信号のサンプリングレートを変換する第3の過程と、
前記第3の過程によってサンプリングレートが変換された入力音声信号に対して、前記第1の広帯域音声符号化において使用されるパラメータを狭帯域用に修正することにより得られる第2の広帯域音声符号化を行って符号化データを生成する第4の過程と
を有する広帯域音声符号化方法。
A first step of identifying whether the input audio signal is a wideband audio signal or a narrowband audio signal;
If the input speech signal is identified as a wideband speech signal, a second step of performing first wideband speech coding to generate encoded data;
If the input audio signal is identified as a narrowband audio signal, a third step of converting a sampling rate of the input audio signal to be compatible with the first wideband audio encoding;
Second wideband speech coding obtained by modifying parameters used in the first wideband speech coding for the narrowband with respect to the input speech signal whose sampling rate has been converted by the third process A fourth step of generating encoded data by performing
A wideband speech coding method comprising:
前記パラメータは、符号探索処理において使用されるパラメータである
ことを特徴とする請求項1に記載の広帯域音声符号化方法。
The parameter is a parameter used in the code search process
The wideband speech coding method according to claim 1, wherein:
前記パラメータは、符号化のビットレートであり、前記第2の広帯域音声符号化において使用されるビットレートは、前記第1の広帯域音声符号化において使用されるビットレートより高いThe parameter is a bit rate of encoding, and a bit rate used in the second wideband speech encoding is higher than a bit rate used in the first wideband speech encoding
ことを特徴とする請求項1に記載の広帯域音声符号化方法。The wideband speech encoding method according to claim 1, wherein:
入力音声信号が広帯域音声信号であるか狭帯域音声信号であるかを識別する第1の過程と、A first step of identifying whether the input audio signal is a wideband audio signal or a narrowband audio signal;
前記入力音声信号が広帯域音声信号と識別された場合には、第1の広帯域音声符号化を行って符号化データを生成する第2の過程と、If the input speech signal is identified as a wideband speech signal, a second step of performing first wideband speech coding to generate encoded data;
前記入力音声信号が狭帯域音声信号と識別された場合には、前記第1の広帯域音声符号化に適合するように前記入力音声信号のサンプリングレートを変換する第3の過程と、If the input audio signal is identified as a narrowband audio signal, a third step of converting a sampling rate of the input audio signal to be compatible with the first wideband audio encoding;
前記第3の過程によってサンプリングレートが変換された入力音声信号に対して、前記第1の広帯域音声符号化のパルス位置候補の設定または雑音符号帳の探索に係るパルス数を狭帯域用に修正することにより得られる第2の広帯域音声符号化を行って符号化データを生成する第4の過程とFor the input speech signal whose sampling rate has been converted by the third process, the number of pulses related to the setting of pulse position candidates for the first wideband speech coding or the search of the noise codebook is corrected for narrowband. A fourth step of generating encoded data by performing a second wideband speech encoding obtained by
を有する広帯域音声符号化方法。A wideband speech coding method comprising:
入力音声信号をスペクトルパラメータと音源信号とにより表し、スペクトルパラメータ及び音源信号をそれぞれ符号化する広帯域音声符号化方法において、In a wideband speech coding method for representing an input speech signal by a spectrum parameter and a sound source signal and coding the spectrum parameter and the sound source signal,
前記入力音声信号からスペクトルパラメータを抽出して符号化するスペクトルパラメータの符号化過程と、A spectral parameter encoding process for extracting and encoding spectral parameters from the input speech signal;
過去の音源信号を格納する適応符号帳を用いて、前記入力音声信号のピッチ周期に対応した第1の符号ベクトルを生成する、適応符号帳の探索過程と、An adaptive codebook search process for generating a first code vector corresponding to the pitch period of the input speech signal using an adaptive codebook for storing past excitation signals;
パルスの位置候補、パルスの極性及びパルス数についての取り決め情報により構成される雑音符号帳を用いて第2の符号ベクトルを生成する、雑音符号帳の探索過程と、A noise codebook search process that generates a second code vector using a noise codebook composed of arrangement information about pulse position candidates, pulse polarity and number of pulses;
前記第1の符号ベクトルと前記第2の符号ベクトルとを用いて音源信号を生成する過程と、Generating a sound source signal using the first code vector and the second code vector;
前記スペクトルパラメータの符号化過程において符号化されたスペクトルパラメータの符号と、前記適応符号帳の探索過程から得られる前記第1の符号ベクトルに対応する符号と、前記雑音符号帳の探索過程から得られる前記第2の符号ベクトルに対応する符号とを出力する過程と、The spectral parameter code encoded in the spectral parameter encoding process, the code corresponding to the first code vector obtained from the adaptive codebook search process, and the noise codebook search process Outputting a code corresponding to the second code vector;
前記入力音声信号が広帯域音声信号であるか狭帯域音声信号であるかを識別する過程とIdentifying whether the input audio signal is a wideband audio signal or a narrowband audio signal;
を具備し、Comprising
前記雑音符号帳の探索過程は、前記識別する過程による識別結果に基づき、前記入力音声信号が広帯域音声信号の場合には、第1のパルス数を持つ前記第2の符号ベクトルを生成し、前記入力音声信号が狭帯域音声信号の場合には、前記第1のパルス数より多い第2のパルス数を持つ前記第2の符号ベクトルを生成するように、前記雑音符号帳を構成する取り決め情報を修正するThe noise codebook search process generates the second code vector having the first number of pulses when the input speech signal is a wideband speech signal based on the identification result of the identification process, If the input speech signal is a narrowband speech signal, the agreement information constituting the noise codebook is generated so as to generate the second code vector having a second number of pulses greater than the first number of pulses. Correct
ことを特徴とする広帯域音声符号化方法。And a wideband speech encoding method.
入力音声信号が広帯域音声信号であるか狭帯域音声信号であるかを識別する第1の手段と、
前記入力音声信号が広帯域音声信号と識別された場合には、第1の広帯域音声符号化を行って符号化データを生成する第2の手段と、
前記入力音声信号が狭帯域音声信号と識別された場合には、前記第1の広帯域音声符号化に適合するように前記入力音声信号のサンプリングレートを変換する第3の手段と、
前記第3の手段によってサンプリングレート変換された入力音声信号に対して、前記第1の広帯域音声符号化において使用されるパラメータを狭帯域用に修正することにより得られる第2の広帯域音声符号化を行って符号化データを生成する第4の手段と
を具備する広帯域音声符号化装置。
First means for identifying whether the input audio signal is a wideband audio signal or a narrowband audio signal;
If the input audio signal is identified as a wideband audio signal, a second means for generating encoded data by performing a first wideband audio encoding;
A third means for converting a sampling rate of the input speech signal so as to be adapted to the first wideband speech coding when the input speech signal is identified as a narrowband speech signal;
A second wideband speech coding obtained by modifying a parameter used in the first wideband speech coding for the narrowband with respect to the input speech signal whose sampling rate is converted by the third means. And a fourth means for generating encoded data by performing
A wideband speech encoding apparatus comprising:
前記パラメータは、符号探索処理において使用されるパラメータである
ことを特徴とする請求項6に記載の広帯域音声符号化装置。
The parameter is a parameter used in the code search process
The wideband speech coding apparatus according to claim 6 .
前記パラメータは、符号化のビットレートであり、前記第2の広帯域音声符号化において使用されるビットレートは、前記第1の広帯域音声符号化において使用されるビットレートより高い
ことを特徴とする請求項6に記載の広帯域音声符号化装置。
The parameter is a bit rate of encoding, and a bit rate used in the second wideband speech encoding is higher than a bit rate used in the first wideband speech encoding
The wideband speech coding apparatus according to claim 6 .
入力音声信号が広帯域音声信号であるか狭帯域音声信号であるかを識別する第1の手段と、
前記入力音声信号が広帯域音声信号と識別された場合には、第1の広帯域音声符号化を行って符号化データを生成する第2の手段と、
前記入力音声信号が狭帯域音声信号と識別された場合には、前記第1の広帯域音声符号化に適合するように前記入力音声信号のサンプリングレートを変換する第3の手段と、
前記第3の手段によってサンプリングレート変換された入力音声信号に対して、前記第1の広帯域音声符号化のパルス位置候補設定部または雑音符号帳探索部に係るパルス数を狭帯域用に修正することにより得られる第2の広帯域音声符号化を行って符号化データを生成する第4の手段と
を具備する広帯域音声符号化装置。
First means for identifying whether the input audio signal is a wideband audio signal or a narrowband audio signal;
If the input audio signal is identified as a wideband audio signal, a second means for generating encoded data by performing a first wideband audio encoding;
A third means for converting a sampling rate of the input speech signal so as to be adapted to the first wideband speech coding when the input speech signal is identified as a narrowband speech signal;
For the input speech signal whose sampling rate is converted by the third means, the number of pulses related to the pulse position candidate setting unit or the noise codebook search unit of the first wideband speech coding is corrected for a narrow band. A fourth means for generating encoded data by performing a second wideband speech encoding obtained by
A wideband speech encoding apparatus comprising:
入力音声信号をスペクトルパラメータと音源信号とにより表し、スペクトルパラメータ及び音源信号をそれぞれ符号化する広帯域音声符号化装置において、
前記入力音声信号からスペクトルパラメータを抽出して符号化するスペクトルパラメータ符号化手段と、
過去の音源信号を格納する適応符号帳を用いて、前記入力音声信号のピッチ周期に対応した第1の符号ベクトルを生成する適応符号帳探索手段と、
パルスの位置候補、パルスの極性及びパルス数についての取り決め情報により構成される雑音符号帳を用いて、第2の符号ベクトルを生成する雑音符号帳探索手段と、
前記第1の符号ベクトルと前記第2の符号ベクトルとを用いて音源信号を生成する音源信号生成手段と、
前記スペクトルパラメータ符号化手段において符号化されたスペクトルパラメータの符号と、前記適応符号帳探索手段から得られる前記第1の符号ベクトルに対応する符号と、前記雑音符号帳探索手段から得られる前記第2の符号ベクトルに対応する符号とを出力する出力手段と、
前記入力音声信号が広帯域音声信号であるか狭帯域音声信号であるかを識別する識別手段と
を具備し、
前記雑音符号帳探索手段は、前記識別手段の識別結果に基づき、前記入力音声信号が広帯域音声信号の場合には、第1のパルス数を持つ前記第2の符号ベクトルを生成し、前記入力音声信号が狭帯域音声信号の場合には、前記第1のパルス数より多い第2のパルス数を持つ前記第2の符号ベクトルを生成するように、前記雑音符号帳を構成する取り決め情報を修正することを特徴とする広帯域音声符号化装置。
In a wideband speech coding apparatus that represents an input speech signal by a spectrum parameter and a sound source signal and encodes the spectrum parameter and the sound source signal,
Spectral parameter encoding means for extracting and encoding spectral parameters from the input speech signal;
Adaptive codebook search means for generating a first code vector corresponding to the pitch period of the input speech signal using an adaptive codebook for storing past excitation signals;
A noise codebook search means for generating a second code vector using a noise codebook constituted by arrangement information about pulse position candidates, pulse polarity and number of pulses;
Sound source signal generating means for generating a sound source signal using the first code vector and the second code vector;
The spectrum parameter code encoded by the spectrum parameter encoding means, the code corresponding to the first code vector obtained from the adaptive codebook search means, and the second code obtained from the noise codebook search means Output means for outputting a code corresponding to the code vector of
Identifying means for identifying whether the input audio signal is a wideband audio signal or a narrowband audio signal;
Comprising
The noise codebook search means generates the second code vector having the first number of pulses when the input speech signal is a wideband speech signal based on the discrimination result of the discrimination means, and If the signal is a narrowband speech signal, the agreement information constituting the noise codebook is corrected so as to generate the second code vector having a second number of pulses larger than the first number of pulses. A wideband speech coding apparatus characterized by the above.
JP2003101422A 2003-04-04 2003-04-04 Wideband speech coding method and wideband speech coding apparatus Expired - Lifetime JP4580622B2 (en)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2003101422A JP4580622B2 (en) 2003-04-04 2003-04-04 Wideband speech coding method and wideband speech coding apparatus
PCT/JP2004/004913 WO2004090870A1 (en) 2003-04-04 2004-04-05 Method and apparatus for encoding or decoding wide-band audio
US11/240,495 US7788105B2 (en) 2003-04-04 2005-10-03 Method and apparatus for coding or decoding wideband speech
US12/751,421 US8260621B2 (en) 2003-04-04 2010-03-31 Speech coding method and apparatus for coding an input speech signal based on whether the input speech signal is wideband or narrowband
US12/751,191 US8249866B2 (en) 2003-04-04 2010-03-31 Speech decoding method and apparatus which generates an excitation signal and a synthesis filter
US12/751,292 US8160871B2 (en) 2003-04-04 2010-03-31 Speech coding method and apparatus which codes spectrum parameters and an excitation signal
US13/417,906 US8315861B2 (en) 2003-04-04 2012-03-12 Wideband speech decoding apparatus for producing excitation signal, synthesis filter, lower-band speech signal, and higher-band speech signal, and for decoding coded narrowband speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003101422A JP4580622B2 (en) 2003-04-04 2003-04-04 Wideband speech coding method and wideband speech coding apparatus

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009256477A Division JP5002642B2 (en) 2009-11-09 2009-11-09 Wideband speech coding method and wideband speech coding apparatus

Publications (2)

Publication Number Publication Date
JP2004309686A JP2004309686A (en) 2004-11-04
JP4580622B2 true JP4580622B2 (en) 2010-11-17

Family

ID=33465218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003101422A Expired - Lifetime JP4580622B2 (en) 2003-04-04 2003-04-04 Wideband speech coding method and wideband speech coding apparatus

Country Status (1)

Country Link
JP (1) JP4580622B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5159318B2 (en) * 2005-12-09 2013-03-06 パナソニック株式会社 Fixed codebook search apparatus and fixed codebook search method
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
KR102244612B1 (en) 2014-04-21 2021-04-26 삼성전자주식회사 Appratus and method for transmitting and receiving voice data in wireless communication system
EP3217612A4 (en) * 2014-04-21 2017-11-22 Samsung Electronics Co., Ltd. Device and method for transmitting and receiving voice data in wireless communication system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11202900A (en) * 1998-01-13 1999-07-30 Nec Corp Voice data compressing method and voice data compression system applied with same
JP2000305599A (en) * 1999-04-22 2000-11-02 Sony Corp Speech synthesizing device and method, telephone device, and program providing media
JP2002140098A (en) * 2000-10-31 2002-05-17 Nec Corp Voice decoding device and recording medium with sound decoding program recorded thereon
WO2002043053A1 (en) * 2000-11-22 2002-05-30 Voiceage Corporation Indexing pulse positions and signs in algebraic codebooks for coding of wideband signals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11202900A (en) * 1998-01-13 1999-07-30 Nec Corp Voice data compressing method and voice data compression system applied with same
JP2000305599A (en) * 1999-04-22 2000-11-02 Sony Corp Speech synthesizing device and method, telephone device, and program providing media
JP2002140098A (en) * 2000-10-31 2002-05-17 Nec Corp Voice decoding device and recording medium with sound decoding program recorded thereon
WO2002043053A1 (en) * 2000-11-22 2002-05-30 Voiceage Corporation Indexing pulse positions and signs in algebraic codebooks for coding of wideband signals
JP2004514182A (en) * 2000-11-22 2004-05-13 ヴォイスエイジ コーポレイション A method for indexing pulse positions and codes in algebraic codebooks for wideband signal coding

Also Published As

Publication number Publication date
JP2004309686A (en) 2004-11-04

Similar Documents

Publication Publication Date Title
US10811022B2 (en) Apparatus and method for encoding/decoding for high frequency bandwidth extension
US7788105B2 (en) Method and apparatus for coding or decoding wideband speech
JP4390803B2 (en) Method and apparatus for gain quantization in variable bit rate wideband speech coding
EP2176860B1 (en) Processing of frames of an audio signal
JP2005513539A (en) Signal modification method for efficient coding of speech signals
JP4008607B2 (en) Speech encoding / decoding method
EP1367565A1 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
JP3558031B2 (en) Speech decoding device
JP4580622B2 (en) Wideband speech coding method and wideband speech coding apparatus
JP5002642B2 (en) Wideband speech coding method and wideband speech coding apparatus
JP3552201B2 (en) Voice encoding method and apparatus
JP2001142499A (en) Speech encoding device and speech decoding device
KR20120060033A (en) Speech decoder for decoding the segmented speech frame and Method thereof
KR20100006491A (en) Method and apparatus for encoding and decoding silence signal
JP3676801B2 (en) Wideband voice restoration method and wideband voice restoration apparatus
KR100757366B1 (en) Device for coding/decoding voice using zinc function and method for extracting prototype of the same
JPH02160300A (en) Voice encoding system
JP3748083B2 (en) Broadband speech restoration method and broadband speech restoration apparatus
JP4087823B2 (en) Wideband voice restoration method and wideband voice restoration apparatus
JP3748082B2 (en) Broadband speech restoration method and broadband speech restoration apparatus
JP3636327B2 (en) Wideband voice restoration method and wideband voice restoration apparatus
JP2005062410A (en) Method for encoding speech signal
JP2003195899A (en) Encoding method for speech/sound signal and electronic device
JP2001100799A (en) Method and device for sound encoding and computer readable recording medium stored with sound encoding algorithm
JP2005284316A (en) Method and device for wide-band speech restoration

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100830

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4580622

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

EXPY Cancellation because of completion of term