JP4887282B2 - 音声符号化におけるパルス割当方法 - Google Patents

音声符号化におけるパルス割当方法 Download PDF

Info

Publication number
JP4887282B2
JP4887282B2 JP2007502640A JP2007502640A JP4887282B2 JP 4887282 B2 JP4887282 B2 JP 4887282B2 JP 2007502640 A JP2007502640 A JP 2007502640A JP 2007502640 A JP2007502640 A JP 2007502640A JP 4887282 B2 JP4887282 B2 JP 4887282B2
Authority
JP
Japan
Prior art keywords
channel
pulses
pulse
assigned
allocation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007502640A
Other languages
English (en)
Other versions
JPWO2006085586A1 (ja
Inventor
チュン オエイ テオ
スア ホン ネオ
幸司 吉田
道代 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2007502640A priority Critical patent/JP4887282B2/ja
Publication of JPWO2006085586A1 publication Critical patent/JPWO2006085586A1/ja
Application granted granted Critical
Publication of JP4887282B2 publication Critical patent/JP4887282B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声符号化におけるパルス割当方法に関する。
一般的に、音声符号化では、声道モデルを利用して可能な限り原音に近似するような音声信号を合成する。そのような音声符号化の1つに、3GPPシステムで用いられる適応マルチレートワイドバンド(AMR−WB;Adaptive MultiRate - WideBand)音声符号化がある(非特許文献1参照)。このAMR−WB音声符号化は、ITU−T勧告G.722.2(非特許文献2)として、ITU−Tにより選定および承認されたものでもある。以下、23.85kビット/秒のビットレートによるAMR−WB音声符号化を例に挙げて説明する。
AMR−WB音声符号化の重要な構成要素の1つに、固定符号帳(図1)の探索がある。AMR−WB音声符号化では、ダウンサンプリングされた256サンプルの音声サンプルを有するフレームが、各々64サンプルを有する4つのサブフレームに分割される。固定符号帳が探索される過程で、このサブフレームは4つのトラックに分割される。AMR−WB音声符号化のモード8では、各トラック毎に、各々のトラックにおいてとり得る16個のパルス位置のうちから6つのパルス位置が選択される。つまり、各サブフレームに対するパルスの数はp〜p23の24本に設定されている。そして、これらp〜p23の24本のパルスの位置が符号化されて、各サブフレームに対する音声を合成するのに用いられる符号帳インデックスが形成される(非特許文献1参照)。
なお、ITU−T勧告G.722.2では、現在、モノラル音声信号に対するAMR−WB音声符号化についてはサポートされているものの、ステレオ音声信号に対するAMR−WB音声符号化についてはサポートされていない。
ところで、近年、移動体通信やIP通信での伝送帯域の広帯域化、サービスの多様化に伴い、音声通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したまま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。その場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるような、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声による音声通信を実現するためには、ステレオ音声信号の符号化が必須となる。ステレオ音声信号の符号化方法の1つに、各チャネルの音声信号を独立に符号化するものがある(デュアル・モノラル符号化)。
"AMR Wideband Speech Codec; General Description", 3GPP TS 26.171, V5.0.0 (2001-03) "Wideband Coding of Speech at Around 16 kbit/s Using Adaptive Multi-Rate Wideband (AMR-WB)", Geneva, ITU-T Recommendation G.722.2 (2003-07)
しかしながら、ステレオ音声信号に対し、単に、AMR−WB音声符号化を用いたデュアル・モノラル符号化を行ったのでは、上述の固定符号帳の探索を、各チャネルの音声信号に対してそれぞれ行わなくてはならず、符号化効率および処理効率の点から好ましくな
い。
本発明の目的は、ステレオ音声信号を効率良く符号化することができるパルス割当方法を提供することである。
本発明のパルス割当方法は、ステレオ信号に対する音声符号化における固定符号帳探索の際のパルス割当方法であって、ステレオ信号の各チャネルの特性および各チャネル間の類似度に応じて、各チャネルに割り当てるパルス数を決定するようにした。
本発明によれば、ステレオ音声信号を効率良く符号化することができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、以下の説明では、AMR−WB音声符号化を一例に挙げて説明する。また、以下の説明では、AMR−WB音声符号化の符号化モードのうちモード8での実施形態について説明するが、各実施の形態は他の符号化モードに対しても同様に適用できる。
AMR−WB音声符号化のモード8においては、固定符号帳ベクトル(イノベーションベクトル)には24本のパルスがある。上記図1に示されるように、各サブフレームでは0〜63の64のとり得るパルス位置があり、これらのパルス位置は、各々のトラックが6本のパルスを含むように、1〜4の4つのトラックに分割される。
(実施の形態1)
本実施の形態では、入力ステレオ信号の各チャネル間の類似度、各チャネルの周期性および定常度に基づいて、各チャネルへのパルス数の割り当てを決定する。類似度、周期性および定常度に基づいて、各チャネルに対して必要な数のパルスを割り当てる。各チャネルへの割当パルス数の決定後、通常のAMR−WB音声符号化と同様のパルス探索を行って、各チャネルに対するパルス位置が決定される。これらのパルスは、符号語のセットとして符号化され、音声ビットストリームにおけるパラメータの1つである符号帳インデックスとして送信される。
本実施の形態に係る音声符号化の主な処理フローを図2に示す。
まず、ST(ステップ)11において、ステレオ信号に対して、ダウンサンプリング、ハイパス・フィルタおよびプレエンファシス・フイルタによるフィルタ処理からなる前処理が施される。
ST12では、前処理後のステレオ信号に対してLPC分析が行われ、ステレオ信号のLチャネル(左チャネル)およびRチャネル(右チャネル)の各チャネルのLPCパラメータが得られる。LPCパラメータは、イミタンス・スペクトラム・ペア(ISP;Immittance Spectrum Pair)および各チャネルに対する量子化ベクトルに変換される。
ST13では、各チャネルに対してピッチ探索が行われ、オープンループ・ピッチラグが各フレームあたり2回推定される。
ST14では、推定されたピッチラグ(推定ピッチラグ)を用いて、各々のサブフレームについて、推定ピッチラグの周辺に対して閉ループピッチを用いた適応符号帳探索が行われ、適応符号帳ベクトルが得られる。
ST15では、適応符号帳ベクトルを用いて、パルス割当を伴う固定符号帳探索が行われ、各チャネルに対する固定符号帳ベクトルが得られる。
そして、ST16では、フィルタメモリおよびサンプルデータが、次のサブフレームの演算のために更新される。
なお、本実施の形態において、図2に示す処理以外は、上記非特許文献1記載のものと同様である。
次いで、固定符号帳探索(ST15)の主な処理フローを図3に示す。固定符号帳探索(ST15)は、主にST21〜ST25の処理により行われる。
ST21では、各々のサブフレームに対して、ステレオ信号の比較が行われ、LチャネルとRチャネルとの類似性、すなわち、チャネル間の類似度が判断される。
ST22では、ステレオ信号の分類が行われ、信号の特性が判断される。
ST23では、チャネル間の類似度およびステレオ信号の特性に基づいて、LチャネルおよびRチャネルの各々に対して、必要数のパルスが割り当てられる。
ST24では、AMR−WB音声符号化のパルス探索が実行され、各チャネルに対するパルス位置が定められる。
ST25では、ST24において定められたパルスが符号語のセットとして符号化され、音声ビットストリームにおけるパラメータの1つである符号帳インデックスとして音声復号装置へ送信される。
次いで、図3に示した処理フローについて、図4を用いてより詳細に説明する。特に、パルス割当(ST23)について詳しく説明する。
ST301では、各サブフレームのLチャネルとRチャネルとの比較がなされる。この比較により、パルス割当に先立って、両チャネル間の信号特性の類似度(両チャネル間にどの程度の類似性があるか)が判断される。類似度の判断にあたっては、相互相関、時間領域での信号エンベロープの比較、周波数領域でのスペクトル信号またはスペクトルエネルギーの比較、および、ミッドサイド演算等を利用することができる。
ST302において、LチャネルとRチャネルが非常に類似している場合(例えば、相
互相関値がしきい値より大きい場合)、または、LチャネルとRチャネルが同一である場合(すなわち、モノラル信号である場合)は、両方のチャネルが共通のパルスセットを用いる。つまり、ST303において、Lチャネルに対するパルス数Num_Pulse(L)がPと設定され、Rチャネルに対するパルス数Num_Pulse(R)が0と設定される。または、逆に、Lチャネルに対するパルス数Num_Pulse(L)が0と設定され、Rチャネルに対するパルス数Num_Pulse(R)がPと設定される。例えば、AMR−WB音声符号化のモード8の場合には、P=24に設定される。ST303においてNum_Pulseが設定される様子を図5Aに示す。この例では、P=24である。LチャネルまたはRチャネルのいずれか一方に24本すべてのパルスが割り当てられるため、図6Aに示すように、両方のチャネルに対してp〜p23の1つの共通のパルスセットが用いられる。図6Aに示すパルス割当のタイプを、以下「タイプ0」という。
ST302において、LチャネルとRチャネルが類似していない場合(例えば、相互相関値がしきい値以下の場合)、ST304において、信号の分類判断が行われ、「定常有声」信号が、LチャネルまたはRチャネルに存在するか否か確認される。Lチャネル信号またはRチャネル信号は、それらが周期性を有し、定常である場合に「定常有声」と判断される一方、それらが周期性を有せず、非定常である場合には、他のタイプの信号と判断される。LチャネルまたはRチャネルのいずれかが「定常有声」である場合はST305へ進み、LチャネルおよびRチャネルのいずれも「定常有声」でない場合はST310へ進む。なお、信号が「定常有声」であるか否かを判断するにあたっては、自己相関方法による自己相関値演算、ピッチ予測ゲイン、適応符号帳ゲイン等を利用することができる。また、各チャネルのエネルギーレベルまたは信号レベル等を用いて「定常有声」であるか否かを判断することもできる。
ST305において、LチャネルおよびRチャネルのいずれもが「定常有声」(定常性があり、かつ、周期的)であると判断された場合は、それら双方のチャネルが各々、パルスセットを有することになる。つまり、この場合、ST306において、P本(P=24)のパルスがLチャネルとRチャネルとに分配され、Lチャネルに対するパルス数Num_Pulse(L)がパルス数K1Pに設定される一方、Rチャネルに対するパルス数Num_Pulse(R)がパルス数(1-K1)Pに設定される。ここでは、K1=1/2とする。すなわち、双方のチャネルに対して等しい数のパルスを分配して割り当てる。ST306においてNum_Pulseが設定される様子を図5Bに示す。図5Bに示すようにNum_Pulseが設定されるため、P=24本のパルスは、12本ずつ両チャネル間で均等に分配される。よって、図6Bに示すように、各チャネルに対して異なるパルスセットが用いられる。但し、各パルスセットに含まれるパルス数は同数(ここでは12本)である。図6Bに示すパルス割当のタイプを、以下「タイプ1」という。
なお、図6Bにおいて、パルスpch,iのchはそのパルスの属するチャネル(LチャネルまたはRチャネル)を表し、iはそのパルスの位置を表している。図6Cおよび図6Dにおいても同様である。
ST305において、一方のチャネルが「定常有声」であるが、他方のチャネルが「定常有声」でないと判断された場合は、パルス数Pは、双方のチャネル間で等しく分配されない。この場合、パルス数の分配は、何れのチャネルがより多くのパルスを必要とするかに基づいてなされる。一般的に、「定常有声」であるチャネルにはより少ない数のパルスしか必要とされず、よって、「定常有声」であるチャネルに対しては、より少ない数のパルスが割り当てられる。これは、「定常有声」であるチャネルについては、適応符号帳が効果的に機能して音源信号を生成することができるので、固定符号帳探索には、より少ない数のパルスしか必要とされないためである。
すなわち、ST307において、Lチャネルが「定常有声」であり、Rチャネルが「定常有声」でないと判断された場合には、Lチャネルではより少ない数のパルスしか必要とされないため、Lチャネルに対してはRチャネルより少ない数のパルスが割り当てられる。つまり、ST308において、Lチャネルに対するパルス数Num_Pulse(L)がパルス数K2Pに設定される一方、Rチャネルに対するパルス数Num_Pulse(R)がパルス数(1-K2)Pに設定されて、P本(P=24)のパルスがLチャネルとRチャネルとに分配される。ここでは、K2=1/3とする。これにより、Lチャネルに対しては8本、Rチャネルに対しては16本のパルスが割り当てられ、Lチャネルに対しては、Rチャネルよりも少ない数のパルスが割り当てられる。
一方、ST307において、Lチャネルが「定常有声」でなく、Rチャネルが「定常有声」であると判断された場合には、Lチャネルより少ない数のパルスがRチャネルに対して割り当てられる。つまり、ST309において、Lチャネルに対するパルス数Num_Pulse(L)がパルス数(1-K2)Pに設定される一方、Rチャネルに対するパルス数Num_Pulse(R)がパルス数K2Pに設定されて、P本(P=24)のパルスがLチャネルとRチャネルとに分配される。ここでは、上記同様、K2=1/3とする。これにより、Rチャネルに対しては8本、Lチャネルに対しては16本のパルスが割り当てられ、Rチャネルに対しては、Lチャネルよりも少ない数のパルスが割り当てられる。
ST308およびST309においてNum_Pulseが設定される様子を図5Cおよび図5Dに示す。P=24でK2=1/3であるため、Num_Pulseは、8パルス(図5C)と16パルス(図5D)になる。よって、図6Cおよび図6Dに示すように、各チャネルに対して、パルス数が異なる2つの異なるパルスセットが用いられる。図6Cに示すパルス割当のタイプを、以下「タイプ2」といい、図6Dに示すパルス割当のタイプを、以下「タイプ3」という。タイプ2では、Lチャネルに対しては、Rチャネルよりも少ない数のパルスが割り当てられ、タイプ3では、Rチャネルに対しては、Lチャネルよりも少ない数のパルスが割り当てられる。このように、タイプ2および3では、24本のパルスが、LチャネルとRチャネルとに不均等に分配される。
ST304においてLチャネルおよびRチャネルのいずれも「定常有声」でない場合は、パルスの分配については、各チャネルの最大自己相関係数(MAF;Maximum Autocorrelation Factor)に基づいて定める。MAFは、式(1)により定義される。式(1)において、x(n)(n=0,…,N-1)は、LチャネルまたはRチャネルの符号化対象サブフレームに対するMAFの算出対象区間の入力信号であり、Nは、その算出対象区間の区間長(サンプル数)であり、τは遅延である。なお、x(n)として、入力信号の代わりにLPC逆フィルタを用いて求めたLPC残差信号を用いてもよい。
Figure 0004887282
ST310において、LチャネルのMAFがRチャネルのMAFよりも大きい場合、ST312において、ST308同様、Lチャネルに対するパルス数Num_Pulse(L)がパルス数K2Pに設定される一方、Rチャネルに対するパルス数Num_Pulse(R)がパルス数(1-K2)Pに設定されて、P本(P=24)のパルスがLチャネルとRチャネルとに分配される。ここでは、K2=1/3とする。すなわち、Lチャネルに対しては8本、Rチャネルに対しては16
本のパルスが割り当てられ、Lチャネルに対しては、Rチャネルよりも少ない数のパルスが割り当てられる。よって、パルス割当のタイプはタイプ2(図6C)となる。
一方、ST310において、RチャネルのMAFがLチャネルのMAF以上の場合、ST311において、ST309同様、Rチャネルに対するパルス数Num_Pulse(R)がパルス数K2Pに設定される一方、Lチャネルに対するパルス数Num_Pulse(L)がパルス数(1-K2)Pに設定されて、P本(P=24)のパルスがLチャネルとRチャネルとに分配される。ここでは、上記同様、K2=1/3とする。すなわち、Rチャネルに対しては8本、Lチャネルに対しては16本のパルスが割り当てられ、Rチャネルに対しては、Lチャネルよりも少ない数のパルスが割り当てられる。よって、パルス割当のタイプはタイプ3(図6D)となる。
ST303、ST306、ST308、ST309、ST311、ST312において上記のようにして各チャネルに対して割り当てるパルス数が決定された後、ST313において、各チャネルに対して、パルス位置が探索される。
そして、LチャネルおよびRチャネルの両チャネルのパルス位置が探索された後、ST314において、ST313で探索されたパルスを用いて符号語のセットが生成され、ST315において各チャネルに対する符号帳インデックスが生成される。
なお、ST304においてLチャネルおよびRチャネルのいずれも「定常有声」でない場合のパルスの分配については、上記のように各チャネルのMAFに基づいて定めるのではなく、各チャネルに対して常に等しい数のパルスを割り当てるようにしてもよい。
ここで、上記のようにK1およびK2を固定値とした場合には、各チャネルに割り当てるパルス数は、パルス割当の4つのタイプ(タイプ0〜3)に応じて一義的に定まるため、各チャネルに割り当てたパルス数を音声復号側へ通知するには、図7に示すように2ビットあれば足りる。すなわち、タイプ0(LチャネルおよびRチャネル共通に24パルス割り当てる場合)を符号語‘00’、タイプ1(LチャネルおよびRチャネルに12パルスずつ割り当てる場合)を符号語‘01’、タイプ2(Lチャネルに8パルス、Rチャネルに16パルス割り当てる場合)を符号語‘10’、タイプ3(Lチャネルに16パルス、Rチャネルに8パルス割り当てる場合)を符号語‘11’として音声復号側へ通知する。
図8に、音声復号側での処理フローを示す。
ST701では、パルスデータが量子化された状態である符号帳インデックスがビットストリームから抽出される。また、パルス割当のタイプを示す上記2ビットの情報がビットストリームから抽出される。
ST702では、上記2ビットの情報に基づき、上記図7に示すテーブルを参照して、パルス割当のタイプが判断される。
ST703において、パルス割当のタイプがタイプ0の場合はST704へ進み、タイプ1〜3の場合はST707へ進む。
パルス割当のタイプがタイプ0の場合は、両チャネルにより同一の符号帳を共有する。つまり、ST704において、P=24本のパルスすべてが予め定められた一方のチャネル(規定チャネル)に設定され、ST705において、その規定チャネルに対してP=24本のパルスが復号される。そして、ST706において、ST705で復号されたパルスが他方のチャネルにコピーされる。
一方、パルス割当のタイプがタイプ1〜3の場合は、各タイプに応じて、各チャネルに対するパルス数が設定される。つまり、タイプ1の場合は、LチャネルおよびRチャネルに12パルスずつ設定され、タイプ2の場合は、Lチャネルに8パルス、Rチャネルに16パルス設定され、タイプ3の場合は、Lチャネルに16パルス、Rチャネルに8パルス設定される。
規定チャネルがLチャネルであるとすると、ST707ではLチャネルに対するパルス数PLが設定され、ST708ではRチャネルに対するパルス数PRが設定される。そして、ST709においてPL本のパルスがLチャネルに対する符号帳データとして復号され、ST710においてPR本のパルスがRチャネルに対する符号帳データとして復号される。
なお、規定チャネルがRチャネルである場合は、処理フローは、ST708、ST707、ST710、ST709の順になる。
このように、本実施の形態によれば、チャネル間の類似度および各チャネルの特性(周期性および定常度)に基づいてパルス数の割り当てを決定するため、各チャネルに対し最適な数のパルスを割り当てることができる。
(実施の形態2)
本実施の形態では、音声信号の特性に基づいてK1、K2を決定して、各チャネル間のパルス割当を適応的に変化させる。各チャネルへのパルス数の分配比率は、例えば、各チャネルの音声信号の周期性およびMAFに基づいて求めることができる。
例えば、LチャネルおよびRチャネルの双方が「定常有声」である場合は、式(2)によりK1を求める。
Figure 0004887282
式(2)において、τL、τRはそれぞれ、Lチャネルのピッチ周期、Rチャネルのピッチ周期であり、α1は、K1を微調整するための係数である。式(2)によれば、より短いピッチ周期、すなわち、より高いピッチを有するチャネルに対して、より多くのパルスを割り当てることができる。
また、一方のチャネルが「定常有声」であって、他方のチャネルが「定常有声」でない場合は、式(3)によりKを求める。
Figure 0004887282
式(3)において、Cuvは「定常有声」でない方のチャネルのMAF、CL、CRはそれぞれ、LチャネルのMAF、RチャネルのMAFであり、α2は、K2を微調整するための係数である。式(3)によれば、「定常有声」のチャネルに対して、より少ない数のパルスを割り当てることができる。
なお、式(3)において、βは、「定常有声」のチャネルが少なくとも最小数のパルスを確実に有するようにするパラメータであり、式(4)により定義される。
Figure 0004887282
式(4)において、Lは1つのフレーム内のサンプル数、τchは「定常有声」のチャネルのピッチ周期、Pはサブフレーム内の総パルス数である。よって、比率L/τchは、基本的に1フレーム内の周期数となる。例えば、Lを256、τchを77とすると、比率L/τch(1フレーム内の周期数)は4となる。これにより、各ピッチ周期に確実に少なくとも1つのパルスが存在することとなる。
式(2)〜(4)に従って求められたK1およびK2は、LチャネルおよびRチャネルに対するパルス数の分配割当に用いられる。LチャネルおよびRチャネルに割り当てられたパルス数は、式(5)および式(6)の条件を満たす最小値MIN_PULSE、最大値MAX_PULSEをとり得る。
Figure 0004887282
Figure 0004887282
式(5)および(6)において、MIN_PULSE、MAX_PULSEは、特定のチャネルに対してサブフレームあたりに割り当て可能なパルス数の最小値、最大値であり、TOTAL_PULSEは、両方のチャネルに対してサブフレームあたりに割り当て可能な合計のパルス数である。例えば、MIN_PULSE=4、MAX_PULSE=20、TOTAL_PULSE=24が典型的な値である。なお、算出されたパルス数を、1、2または4の倍数のうちの最も近い倍数値に丸めるようにしてもよい。
ここで、各チャネルに割り当てるパルス数を適応的に変化させる場合、各チャネルに割り当てたパルス数を音声復号側へ通知する必要がある。但し、一方のチャネルへの割当数は、両チャネルの全パルス数から他方のチャネルの割当数を差し引くことにより導くことができるため、いずれか一方のチャネルを規定チャネルと定め、その規定チャネルの割当数のみ通知すればよい。例えばLチャネルを規定チャネルと定め、Lチャネルに対するパルス数Num_Pulse(L)を通知し、Rチャネルに対するパルス数Num_Pulse(R)を式(7)により求める。
Figure 0004887282
規定チャネルに対するパルス数の通知方法を以下に示す。
各チャネルに対するパルス数が4の倍数である場合は、規定チャネルに対するパルス数は、4パルス、8パルス、12パルス、16パルス、20パルスの5つの可能性がある。よって、これら5つのパルス数を区別するには3ビットあれば足りる。また、各チャネルに対するパルス数が2の倍数である場合は、規定チャネルに対するパルス数は、4パルス、6パルス、8パルス、10パルス、12パルス、14パルス、16パルス、18パルス、20パルスの9つの可能性がある。よって、これら9つのパルス数を区別するには4ビット必要である。また、各チャネルに対するパルス数が4から20までの1パルス刻みの数である場合は、17の可能性があり、17のパルス数を区別するには5ビット必要である。よって、これらのパルス数は、図9に示すテーブルにまとめることができる。音声符号化側では、このテーブルを参照してパルス数を3〜5ビットの符号語に変換して通知し、音声復号側では、同様にこのテーブルを参照して、通知された符号語から各チャネルに割り当てられるパルス数を導出する。
図10に、音声復号側での処理フローを示す。
ST901では、パルスデータが量子化された状態である符号帳インデックスがビットストリームから抽出される。また、パルス数を示す符号語(3〜5ビット)がビットストリームから抽出される。
ST902では、パルス数を示す符号語に基づき、上記図9に示すテーブルを参照して、規定チャネルのパルス数が判断される。ここでは、規定チャネルをLチャネルとする。
ST903では、式(7)に従って、他方のチャネル、すなわち、Rチャネルのパルス数を算出する。
ST904において、いずれかのチャネルのパルス数が0の場合はST905へ進み、それ以外の場合はST907へ進む。
いずれかのチャネルのパルス数が0の場合は、両チャネルにより同一の符号帳を共有する。つまり、ST905において、P=24本のパルスすべてが規定チャネルに設定され、その規定チャネルに対してP=24本のパルスが復号される。そして、ST906において、ST905で復号されたパルスが他方のチャネルにコピーされる。
一方、ST907では、上記図9に示すテーブルを参照してLチャネル(規定チャネル)に対するパルス数PLが設定され、PL本のパルスがLチャネルに対する符号帳データとして復号される。そして、ST908において、式(7)に従ってRチャネルに対するパルス数PRが設定され、PR本のパルスがRチャネルに対する符号帳データとして復号される。
なお、規定チャネルがRチャネルである場合は、処理フローは、ST908、ST907の順になる。
このように、本実施の形態によれば、音声信号の特性に基づいてK1、K2を決定して、各チャネル間のパルス割当を適応的に変化させるため、チャネル間においてより柔軟かつ正確なパルス数の分配を行うことができる。
なお、上記各実施の形態においては、各チャネルに割り当てるパルス数の合計は固定(上記各実施の形態ではP=24本で固定)として説明したが、各チャネルに割り当てるパルス数の合計を、チャネル間の類似度および各チャネルの特性(周期性および定常度)に
応じて変化させてもよい。例えば、実施の形態1において、パルス割当タイプが「タイプ0」、すなわち、LチャネルとRチャネルが非常に類似している場合(例えば、相互相関値がしきい値より大きい場合)、または、LチャネルとRチャネルが同一である場合(すなわち、モノラル信号である場合)には、他のタイプでの割当パルス数の合計(上記各実施の形態ではP=24本)よりも少ない数のパルスをRチャネルまたはLチャネルのいずれか一方のみに割り当てるようにしてもよい。このようにすることで、伝送効率をより向上させることができる。
また、上記各実施の形態に係る処理フローを音声符号化装置や音声復号装置において実施することができる。また、その音声符号化装置や音声復号装置を、移動体通信システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の無線通信装置に搭載することも可能である。
また、上記実施の形態に係る処理フローは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
本明細書は、2005年2月10日出願の特願2005−034984に基づくものである。この内容はすべてここに含めておく。
本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信システム等における通信装置の用途に適用できる。
AMR−WB音声符号化の固定符号帳 本発明の実施の形態1に係る音声符号化の処理フロー 本発明の実施の形態1に係る固定符号帳探索の主な処理フロー 本発明の実施の形態1に係る固定符号帳探索の詳細処理フロー 本発明の実施の形態1に係るパルス割当の一例 本発明の実施の形態1に係るパルス割当の一例 本発明の実施の形態1に係る通知例 本発明の実施の形態1に係る音声復号の処理フロー 本発明の実施の形態2に係る通知例 本発明の実施の形態2に係る音声復号の処理フロー

Claims (6)

  1. ステレオ信号に対する音声符号化における固定符号帳探索の際のパルス割当方法であって、
    ステレオ信号の各チャネルの特性および各チャネル間の類似度に応じて、各チャネルに割り当てるパルス数を決定する、
    パルス割当方法。
  2. 前記類似度がしきい値以上の場合、いずれか1つのチャネルにすべてのパルスを割り当てる、
    請求項1記載のパルス割当方法。
  3. 前記特性を各チャネルの定常度、周期性および最大自己相関係数の少なくとも1つに基づいて判断する、
    請求項1記載のパルス割当方法。
  4. 前記定常度、前記周期性および前記最大自己相関係数がより大きいチャネルに対して、より少ないパルス数を割り当てる、
    請求項3記載のパルス割当方法。
  5. 各チャネルの特性が等しい場合、各チャネルに対して均等にパルス数を割り当てる、
    請求項1記載のパルス割当方法。
  6. 各チャネルに割り当てたパルス数を示す符号語を音声復号側へ通知する、
    請求項1記載のパルス割当方法。
JP2007502640A 2005-02-10 2006-02-09 音声符号化におけるパルス割当方法 Expired - Fee Related JP4887282B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007502640A JP4887282B2 (ja) 2005-02-10 2006-02-09 音声符号化におけるパルス割当方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005034984 2005-02-10
JP2005034984 2005-02-10
PCT/JP2006/302258 WO2006085586A1 (ja) 2005-02-10 2006-02-09 音声符号化におけるパルス割当方法
JP2007502640A JP4887282B2 (ja) 2005-02-10 2006-02-09 音声符号化におけるパルス割当方法

Publications (2)

Publication Number Publication Date
JPWO2006085586A1 JPWO2006085586A1 (ja) 2008-06-26
JP4887282B2 true JP4887282B2 (ja) 2012-02-29

Family

ID=36793157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007502640A Expired - Fee Related JP4887282B2 (ja) 2005-02-10 2006-02-09 音声符号化におけるパルス割当方法

Country Status (5)

Country Link
US (1) US8024187B2 (ja)
EP (1) EP1847988B1 (ja)
JP (1) JP4887282B2 (ja)
CN (1) CN101116137B (ja)
WO (1) WO2006085586A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK2827327T3 (da) 2007-04-29 2020-10-12 Huawei Tech Co Ltd Fremgangsmåde til excitationsimpulskodning
CN101931414B (zh) 2009-06-19 2013-04-24 华为技术有限公司 脉冲编码方法及装置、脉冲解码方法及装置
RU2510974C2 (ru) * 2010-01-08 2014-04-10 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, способ декодирования, устройство кодера, устройство декодера, программа и носитель записи
CN102299760B (zh) 2010-06-24 2014-03-12 华为技术有限公司 脉冲编解码方法及脉冲编解码器
RU2559709C2 (ru) 2011-02-16 2015-08-10 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, способ декодирования, кодер, декодер, программа и носитель записи
WO2018221138A1 (ja) * 2017-06-01 2018-12-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置及び符号化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207496A (ja) * 1997-01-27 1998-08-07 Nec Corp 音声符号化装置及び音声復号装置
JP2004509365A (ja) * 2000-09-15 2004-03-25 テレフオンアクチーボラゲツト エル エム エリクソン 複数チャネル信号の符号化及び復号化

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP2778567B2 (ja) * 1995-12-23 1998-07-23 日本電気株式会社 信号符号化装置及び方法
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
SE519985C2 (sv) 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
DE10057881A1 (de) * 2000-11-21 2002-05-23 Philips Corp Intellectual Pty Gasentladungslampe mit Leuchtstoffschicht
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207496A (ja) * 1997-01-27 1998-08-07 Nec Corp 音声符号化装置及び音声復号装置
JP2004509365A (ja) * 2000-09-15 2004-03-25 テレフオンアクチーボラゲツト エル エム エリクソン 複数チャネル信号の符号化及び復号化

Also Published As

Publication number Publication date
US20090043572A1 (en) 2009-02-12
CN101116137B (zh) 2011-02-09
WO2006085586A1 (ja) 2006-08-17
EP1847988B1 (en) 2011-08-17
CN101116137A (zh) 2008-01-30
JPWO2006085586A1 (ja) 2008-06-26
US8024187B2 (en) 2011-09-20
EP1847988A1 (en) 2007-10-24
EP1847988A4 (en) 2010-12-29

Similar Documents

Publication Publication Date Title
US10535358B2 (en) Method and apparatus for encoding/decoding speech signal using coding mode
US7987089B2 (en) Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
FI120327B (fi) Menetelmä ja laite alennetun nopeuden muuttuvanopeuksisen vokoodauksen suorittamiseksi
CN100508030C (zh) 一种编码/解码音频信号的方法及相应设备
KR101238583B1 (ko) 비트 스트림 처리 방법
US8374883B2 (en) Encoder and decoder using inter channel prediction based on optimally determined signals
JP4887282B2 (ja) 音声符号化におけるパルス割当方法
JP5706445B2 (ja) 符号化装置、復号装置およびそれらの方法
WO2001022402A1 (en) Multimode speech encoder
DK1879179T3 (da) Fremgangsmåde og anordning til kodning af audiodata baseret på vektorkvantisering
KR100614496B1 (ko) 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법
JPWO2007116809A1 (ja) ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
FI118704B (fi) Menetelmä ja laite lähdekoodauksen tekemiseksi
US8688442B2 (en) Audio decoding apparatus, audio coding apparatus, and system comprising the apparatuses
JP5355387B2 (ja) 符号化装置および符号化方法
CN114097028A (zh) 用于编解码音频流中的元数据及用于灵活对象内和对象间比特率适配的方法和系统
KR100546758B1 (ko) 음성의 상호부호화시 전송률 결정 장치 및 방법
WO2003001172A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
EP1859441A1 (en) Low-complexity code excited linear prediction encoding
KR101798084B1 (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
KR101770301B1 (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
Jbira et al. Multi-layer scalable LPC audio format
Bossen et al. Minoru Etoh, Khosrow Lashkari

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080514

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111212

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees