JP2016085334A - オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム - Google Patents

オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム Download PDF

Info

Publication number
JP2016085334A
JP2016085334A JP2014217669A JP2014217669A JP2016085334A JP 2016085334 A JP2016085334 A JP 2016085334A JP 2014217669 A JP2014217669 A JP 2014217669A JP 2014217669 A JP2014217669 A JP 2014217669A JP 2016085334 A JP2016085334 A JP 2016085334A
Authority
JP
Japan
Prior art keywords
unit
main lobe
threshold
audio encoding
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014217669A
Other languages
English (en)
Other versions
JP6398607B2 (ja
Inventor
洋平 岸
Yohei Kishi
洋平 岸
晃 釜野
Akira Kamano
晃 釜野
猛 大谷
Takeshi Otani
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014217669A priority Critical patent/JP6398607B2/ja
Priority to US14/836,355 priority patent/US9620135B2/en
Publication of JP2016085334A publication Critical patent/JP2016085334A/ja
Application granted granted Critical
Publication of JP6398607B2 publication Critical patent/JP6398607B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Abstract

【課題】低ビットレートの符号化条件下においても高音質で符号化することが可能となるオーディオ符号化装置を提供する。【解決手段】オーディオ符号化装置は、オーディオ信号を構成する周波数信号に基づく複数のローブを検出する検出部と、周波数信号のマスキング閾値を算出する算出部を備える。更に、当該オーディオ符号化装置は、マスキング閾値に基づいて周波数信号の符号化に割り当てる単位周波数領域あたりのビット量を配分する配分部と、ローブの帯域幅とパワーに基づいて、メインローブを選定する選定部を備える。更に、当該オーディオ符号化装置は、メインローブにおいて、パワーの最大値を含む第1領域のビット量を削減することにより符号化を制御する制御部を備える。【選択図】図1

Description

本発明は、例えば、オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラムに関する。
従来より、オーディオ信号(音声・音楽などの音源)を圧縮するオーディオ符号化技術が開発されている。例えば、オーディオ符号化技術として、AAC(Advanced Audio Coding)方式や、HE−AAC(High Efficiency−Advanced Audio Coding)方式等が存在する。AAC方式やHE−AAC方式は、ISO/IECのMPEG−2/4 Audio規格の一つであり、例えば、デジタル放送等の放送用途に広く用いられている。
放送用途においては、限られた伝送帯域幅の制約下でオーディオ信号を送信する必要がある。この為、オーディオ信号を低ビットレートで符号化を行う場合、全ての周波数帯域のオーディオ信号を符号化することが出来ない為、符号化を行う帯域を選択する必要がある。なお、一般的にはAAC方式では、64kbps程度以下であれば低ビットレート、128kbps程度以上であれば高ビットレートとみなすことが出来る。例えば、所定のビットレート内に収まる様に、所定のパワー未満のオーディオ信号を欠落させて符号化する技術が開示されている。
特開2007−193043
近年においては、マルチチャネルオーディオ信号が放送用途で適用され始めており、低ビットレートでの符号化の適用場面は増加するものと推定される。この為、低ビットレートの符号化条件下においても、高音質で(音質劣化が少なく)符号化可能なオーディオ符号化装置の提供が望まれている。
本発明は、低ビットレートの符号化条件下においても高音質で符号化することが可能となるオーディオ符号化装置を提供することを目的とする。
本発明が開示するオーディオ符号化装置は、オーディオ信号を構成する周波数信号に基づく複数のローブを検出する検出部と、周波数信号のマスキング閾値を算出する算出部を備える。更に、当該オーディオ符号化装置は、マスキング閾値に基づいて周波数信号の符号化に割り当てる単位周波数領域あたりのビット量を配分する配分部と、ローブの帯域幅とパワーに基づいて、メインローブを選定する選定部を備える。更に、当該オーディオ符号化装置は、メインローブにおいて、パワーの最大値を含む第1領域のビット量を削減することにより符号化を制御する制御部を備える。
なお、本発明の目的及び利点は、例えば、請求項におけるエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項の様に本発明を制限するものではないことを理解されたい。
本明細書に開示されるオーディオ符号化装置は、低ビットレートの符号化条件下においても高音質で符号化することが可能となる。
一つの実施形態によるオーディオ符号化装置の機能ブロック図である。 オーディオ符号化装置の符号化処理のフローチャートである。 摩擦音の子音のスペクトル図である。 摩擦音以外の子音のスペクトル図である。 母音のスペクトル図である。 メインローブの帯域の選定の第1の概念図である。 メインローブの帯域の選定の第2の概念図である。 摩擦音の子音のスペクトルにおける第1領域の概念図である。 摩擦音以外の子音のスペクトルの第1領域の概念図である。 第1領域のビット配分量と客観音質評価値の関係図である。 多重化されたオーディオ信号が格納されたデータ形式の一例を示す図である。 実施例1と比較例の客観評価値である。 一つの実施形態によるオーディオ符号化復号装置の機能ブロックを示す図である。 一つの実施形態によるオーディオ符号化装置またはオーディオ符号化復号装置として機能するコンピュータのハードウェア構成図である。
以下に、一つの実施形態によるオーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化コンピュータプログラム、ならびにオーディオ符号化復号装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
(実施例1)
図1は、一つの実施形態によるオーディオ符号化装置1の機能ブロック図である。図2は、オーディオ符号化装置1の符号化処理のフローチャートである。実施例1においては、図2に示すオーディオ符号化装置1による符号化処理のフローを、図1に示すオーディオ符号化装置1の機能ブロック図の各機能の説明に対応付けて説明する。図1に示す様に、オーディオ符号化装置1は、時間周波数変換部2、算出部3、配分部4、検出部5、選定部6、制御部7、量子化部8、符号化部9、多重化部10を有する。
オーディオ符号化装置1が有する上述の各部は、例えば、ワイヤードロジックによるハードウェア回路としてそれぞれ別個の回路として形成される。あるいはオーディオ符号化装置1が有する上述の各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ符号化装置1に実装されてもよい。なお、集積回路は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路であれば良い。更に、オーディオ符号化装置1が有する上述の各部は、オーディオ符号化装置1が有するコンピュータプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
時間周波数変換部2は、例えば、ワイヤードロジックによるハードウェア回路である。また、時間周波数変換部2は、オーディオ符号化装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。時間周波数変換部2は、オーディオ符号化装置1に入力されたオーディオ信号の時間領域の各チャネルの信号(例えば、Nch(N=2、3、3.1、5.1、または、7.1)のマルチチャネルオーディオ信号)をそれぞれフレーム単位で時間周波数変換することにより、各チャネルの周波数信号に変換する。なお、当該処理は、図2に示すフローチャートのステップS201に対応する。実施例1では、時間周波数変換部2は、例えば、高速フーリエ変換を用いて、各チャネルの信号を周波数信号に変換する。この場合、フレームtにおけるチャネルchの時間領域の信号Xch(t)を周波数信号に変換する変換式は、例えば、次式の通りに表現される。
(数1)
Figure 2016085334
上述の(数1)において、kは時間を表す変数であり、1フレームのオーディオ信号を時間方向にS個に等分したときのk番目の時間を表す。なお、フレーム長は、例えば、10〜80msecの何れかに規定することが出来る。iは、周波数を表す変数であり、周波数帯域全体をS個に等分したときのi番目の周波数を表す。なおSは、例えば、1024に設定される。specch(t)は、フレームtにおけるチャネルchのi番目の周波数信号である。なお、時間周波数変換部2は、離散コサイン変換(DCT変換)、修正離散コサイン変換(MDCT変換)または、Quadrature Mirror Filter(QMF)フィルタバンクなど、他の任意の時間周波数変換処理を用いて、各チャネルの時間領域の信号を、それぞれ周波数信号に変換してもよい。時間周波数変換部2は、フレーム単位で各チャネルの周波数信号を算出する度に、各チャネルの周波数信号を算出部3、検出部5、量子化部8に出力する。
算出部3は、例えば、ワイヤードロジックによるハードウェア回路である。また、算出部3は、オーディオ符号化装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。算出部3は、フレームごとに、各チャネルの周波数信号を予め定められた帯域幅を有する複数の帯域に分割し、当該帯域毎のスペクトル電力及びマスキング閾値を算出する。なお、当該処理は、図2に示すフローチャートのステップS202に対応する。算出部3は、例えば、ISO/IEC 13818−7のAnnex CのC.1 Psychoacoustic Modelに記載された方法を用いて、スペクトル電力及びマスキング閾値を算出することが出来る。なお、ISO/IEC 13818−7は、国際標準化機構(International Organization for Standardization、ISO)と国際電気標準会議(International Electrotechnical Commission、IEC)とが共同で策定した国際規格の一つである。
算出部3は、例えば、次式に従って、各帯域のスペクトル電力を算出する。
(数2)
Figure 2016085334
なお、上述の(数2)において、specPowch[b](t)は、フレームtにおける、チャネルchの周波数帯域bのスペクトル電力を示すパワーであり、bw[b]は周波数帯域bの帯域幅を表す。
算出部3は、周波数帯域毎に、リスナー(ユーザと称しても良い)が知覚することが出来る音の周波数信号の下限となる電力を表すマスキング閾値を算出する。また、算出部3は、例えば、周波数帯域ごとに予め設定された値をマスキング閾値として出力しても良い。あるいは、算出部3は、リスナーの聴覚特性に応じてマスキング閾値を算出してもよい。この場合、符号化対象のフレームの着目する周波数帯域についてのマスキング閾値は、符号化対象のフレームより前のフレームにおける同じ周波数帯域のスペクトル電力のパワー、及び、符号化対象のフレームの隣接する周波数帯域のスペクトル電力のパワーが大きいほど高くなる。算出部3は、例えば、ISO/IEC 13818−7のAnnex CのC.1 Psychoacoustic ModelのC.1.4 Steps in Threshold Calculationの項目に記載された閾値(マスキング閾値に相当)の算出処理に従って、マスキング閾値を算出することが出来る。この場合、算出部3は、符号化対象のフレームの一つ前及び二つ前のフレームの周波数信号を利用して、マスキング閾値を算出する。この為、算出部3は、符号化対象のフレームの一つ前、及び、二つ前のフレームの周波数信号を記憶する為、図示しないメモリまたはキャッシュを有してもよい。算出部3は、各チャネルのマスキング閾値を配分部4に出力する。また、算出部3は、時間周波数変換部2から受け取った各チャネルの周波数信号を配分部4に出力する。
配分部4は、例えば、ワイヤードロジックによるハードウェア回路である。また、配分部4は、オーディオ符号化装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。配分部4は、各チャネルのマスキング閾値と周波数信号を配分部4から受け取る。配分部4は、例えば、各チャネルの周波数信号のパワーとマスキング閾値の比率(以下、SMR;Signal to Masking threshold Ratioと称する)に基づいて、周波数信号の符号化に割り当てる単位周波数領域あたりのビット量を配分する。なお、当該処理は、図2に示すフローチャートのステップS203に対応する。配分部4は、配分したビット量を制御部7に出力する。
配分部4は、例えば、“TS 26.403 V11.0.0 General audio codec audio processing functions;Enhanced aacPlus general audio codec; Encoder specification; Advanced Audio Coding (AAC) part; Relation between bit demand and perceptual entropy”に記載された方法を用いてビット量を配分することが出来る。例えば、配分部4は、pe値(Perceptual Entropy)と称されるビット推定値に基づいて、単位周波数領域あたりのビット配分量を規定することができる。なお、pe値は、例えば、次式に基づいて算出することができる。
(数3)
Figure 2016085334
Figure 2016085334
また、配分部4は、上述の(数3)で算出されたpe値を、例えば、次式に基づいてビット配分量(bits)に変換することが出来る。
(数4)
bits=pe/1.18
上述の(数3)と(数4)から理解できる通り、SMRが大きいほど、ビット量が多く配分されることになる。この為、SMRが大きい周波数領域はビット配分量が多くなるが、その反面でSMRが小さい周波数領域はビット配分量が少なくなる。ビット配分量が少ない場合は、符号化に要するビット量が不足することにより音質の劣化が発生する場合がある。実施例1の1つの観点によれば、符号化に要するビット量の不足を抑制させることにより、低ビットレートの符号化条件下においても高音質で符号化させることが可能となる。
検出部5は、例えば、ワイヤードロジックによるハードウェア回路である。また、検出部5は、オーディオ符号化装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。検出部5は、各チャネルの周波数信号を時間周波数変換部2から受け取る。検出部5は、オーディオ信号を構成する各チャネルの周波数信号からなる複数のローブを検出する。なお、当該処理は、図2に示すフローチャートのステップS204に対応する。例えば、検出部5は、周波数信号のパワーの複数の変曲点(変曲点群と称しても良い)を任意の方法(例えば二階微分)で算出し、下に凸の変曲点Aから、当該変曲点Aに隣接する下の凸の変曲点Bまでの区間を1つのローブとして検出することが出来る(また、当該区間の長さをローブの幅と称しても良い。更に、当該幅を帯域幅、または周波数帯域幅と称しても良い)。なお、ローブの幅として、ローブの半値半幅を用いても良い。
図3は、摩擦音の子音のスペクトル図である。図4は、摩擦音以外の子音のスペクトル図である。図5は、母音のスペクトル図である。図3と図5に示される通り、検出部5により、複数の変曲点(変曲点群と称しても良い)が検出されており、互いに隣接する下に凸の変曲点の区間がローブとして検出される。なお、図4の摩擦音以外の子音のスペクトルにおいては、低周波数領域において最大となるパワーの値を、擬似的に下に凸の変曲点と規定することで少なくとも1つのローブを検出することができる。具体的には、検出部5は、擬似的に規定したパワーが最大となる低周波数領域の変曲点Cに隣接する下の凸の変曲点Dまでの区間を1つのローブとして検出することが出来る(また、当該区間の長さをローブの幅と称しても良い。更に、当該幅を帯域幅、または周波数帯域幅と称しても良い)。検出部5は、検出した各チャネルの複数のローブを選定部6に出力する。
図1の選定部6は、例えば、ワイヤードロジックによるハードウェア回路である。また、選定部6は、オーディオ符号化装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。選定部6は、各チャネルにおける複数のローブを検出部5から受け取る。選定部6は、複数のローブの幅と、ローブのパワーに基づいてメインローブを選定する。なお、当該処理は、図2に示すフローチャートのステップS205に対応する。具体的には、選定部6は、例えば、複数のローブにおいて幅が最も広いローブをメインローブ候補として選定し、メインローブ候補の幅(周波数帯域幅)が所定の第1閾値(Th1)(例えば、第1閾値=10kHz)以上であり、かつ、メインローブ候補のパワーが所定の第2閾値(Th2)(例えば、第2閾値=20dB)以上となる場合、メインローブ候補をメインローブとして選定する。なお、選定部6は、例えば、各ローブの最大値と最小値の差分の絶対値をパワーとして用いることが出来る。また、選定部6は、ローブの最大値と最小値の比率をパワーとして用いても良い。なお、メインローブを第1ローブと称しても良い。
例えば、図3に示す摩擦音の子音のスペクトルにおいては、第4ローブが最も幅が広いローブの為、選定部6は、第4ローブをメインローブ候補として選定する。選定部6は、メインローブ候補となる第4ローブの幅が第1閾値以上であるか否かを判定する。なお、説明の便宜上、実施例1においては、メインローブ候補となる第4ローブの幅が第1閾値以上であるものとする。メインローブ候補となる第4ローブの幅が第1閾値以上の条件を満たしている場合、次に、選定部6は、メインローブ候補の第4ローブのパワーが第2閾値以上であるか否かを判定する。なお、説明の便宜上、実施例1においては、メインローブ候補となる第4ローブのパワーが第2閾値以上であるものとする。この様に、選定部6は、メインローブ候補となる第4ローブをメインローブとして選定することが出来る。換言すると、メインローブは、検出部5が検出する複数のローブの中で最も幅が広くかつ第1閾値以上の条件を満たし、更に、パワーが第2閾値以上となるローブである。なお、メインローブ以外(第1ローブないし第3ローブ、第5ローブ)のローブをサイドローブと称しても良い。また、サイドローブを第2ローブと称しても良い。
また、図4に示す摩擦音以外の子音のスペクトルにおいては、低周波領域において、パワーが最大となる周波数の値を擬似的に変曲点と規定することで少なくとも1つのローブを検出することができる。選択部6は、ローブが第1ローブの1つのみが検出されている場合、検出された第1ローブをメインローブ候補として選定し、メインローブ候補の幅(周波数帯域幅)が所定の第1閾値(Th1)(例えば、第1閾値=10kHz)以上であり、かつ、メインローブ候補のパワーが所定の第2閾値(Th2)(例えば、第2閾値=20dB)以上となる場合、メインローブ候補となる第1ローブをメインローブとして選定することができる。なお、説明の便宜上、実施例1においては、メインローブ候補となる第1ローブの幅が第1閾値以上であるものであり、パワーが第2閾値以上であるものとする。また、検出部5が複数のローブを検出している場合でも、選定部6は、例えば、複数のローブにおいて幅が最も広いローブをメインローブ候補として選定し、メインローブ候補の幅(周波数帯域幅)が第1閾値(Th1)以上であり、かつ、メインローブ候補のパワーが所定の第2閾値(Th2)以上となる場合、メインローブ候補をメインローブとして選定することが出来る。
更に、図5に示す母音のスペクトルは、第1ローブが最も広いローブの為、第1ローブがメインローブ候補として選定される。選定部6は、メインローブ候補となる第1ローブの幅が第1閾値以上であるか否かを判定する。なお、説明の便宜上、実施例1においては、メインローブ候補となる第1ローブの幅が第1閾値未満であるものとする。メインローブ候補となる第1ローブの幅が第1閾値未満の為、メインローブ候補となる第1ローブは、メインローブとして選定されない。なお、換言すると、第1閾値と第2閾値は、図3と図4に示す、摩擦音と摩擦音以外の子音のメインローブのみを選定することが出来る条件を満たす閾値を実験的に規定すれば良い。選定部6は、チャネル毎に選定したメインローブを制御部7に出力する。なお、選定部6は、メインローブを選定出来なかった場合は、次のフレームや他のチャネルの選定処理を実行することが出来る。
なお、選定部6は、変曲点群において、ローブのパワーが最小となる第1変曲点の値を第3閾値(Th3)として規定し、当該第3閾値から所定のパワー(例えば、3dB)を増加させた値を第4閾値(Th4)として規定しても良い。更に、選定部6は、当該変曲点群において、メインローブのパワーが最大となる第2変曲点に対して、高域側と低域側にそれぞれ隣接し、かつ、第3閾値以上かつ第4閾値未満となる第3変曲点と第4変曲点をメインローブの始点と終点として選定しても良い。図6は、メインローブの帯域の選定の第1の概念図である。なお、図6は、図3と同様に、摩擦音の子音スペクトルを示している。図6に示す通り、第3閾値と第4閾値、ならびに、第1変曲点ないし第4変曲点が規定され、メインローブの始点と終点が規定される。なお、当該始点と終点の区間をローブの帯域(幅)として取扱うことが出来る。選定部6は、図6に開示する方法を用いることにより、メインローブにスパイク状のノイズまたは周波数信号が重畳している場合でも、当該スパイク状のノイズまたは周波数信号の影響を排除してメインローブを選定することが可能となる。
更に、図6において、選定部6は、メインローブのパワーが最大となる第2変曲点に対して、低域側に隣接する第3変曲点が存在せず、当該第3変曲点を選定することができない場合、図4に示される様な摩擦音以外の子音スペクトルからメインローブを選定していることが考えられる。図7は、メインローブの帯域の選定の第2の概念図である。なお、図7は、図4と同様に、摩擦音以外の子音スペクトルを示している。図7に示す通り、第3閾値と第4閾値、ならびに、第1変曲点ないし第2変曲点が規定され、メインローブの始点と終点が規定される。なお、当該始点と終点の区間をローブの帯域(幅)として取扱うことが出来る。具体的には、選定部6は、摩擦音以外の子音の場合、図7に示す様にローブのパワーが最小となる第1変曲点の値を第3閾値(Th3)として規定し、当該第3閾値から所定のパワー(例えば、3dB)を増加させた値を第4閾値(Th4)として規定しても良い。更に、選定部6は、当該変曲点において、低周波数領域においてメインローブのパワーが最大となる第2変曲点に対して、高域側のみに隣接し、かつ、第3閾値以上かつ第4閾値未満となる第4変曲点を終点として選定しても良い。なお、図7に示す様に、下に凸の変曲点が1つの場合は、第1変曲点と第4変曲点が等価となる。なお、この場合、メインローブの始点は、第2変曲点とすれば良い。選定部6は、図7に開示する方法を用いることにより、メインローブにスパイク状のノイズまたは周波数信号が重畳している場合でも、当該スパイク状のノイズまたは周波数信号の影響を排除してメインローブを選定することが可能となる。
制御部7は、例えば、ワイヤードロジックによるハードウェア回路である。また、制御部7は、オーディオ符号化装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。制御部7は、配分部4が配分したビット量を配分部4から受け取り、選定部6が選定したメインローブを選定部6から受け取る。制御部7は、メインローブを選定部6から受け取っている場合(図2のステップS206−Yesに相当)、制御部7は、メインローブにおいて、周波数信号のパワーの最大値を含む第1領域に対して配分されたビット量を削減する。なお、当該処理は、図2に示すフローチャートのステップS208に対応する。制御部7は、第1領域から削減したビット量を第1領域以外に割り当てる制御を実施し、当該制御後の単位周波数領域あたりのビット量を量子化部8に出力する。なお、当該処理は、図2に示すフローチャートのステップS209に対応する。また、制御部7は、メインローブを選定部6から受け取っていない場合(図2のステップS206−Noに相当)は、配分部4が配分したビット量を、そのまま、制御後の単位周波数領域あたりのビット量として量子化部8に出力すれば良い。なお、当該処理は、図2に示すフローチャートのステップS207に対応する。
ここで、制御部7における第1領域の規定方法について説明する。図8は、摩擦音の子音のスペクトルにおける第1領域の概念図である。図9は、摩擦音以外の子音のスペクトルの第1領域の概念図である。図8、図9の双方において、制御部7は、メインローブのパワーが最大値となる第2変曲点の値から所定のパワー(例えば、3dB)を減少させた値を第5閾値(Th5)として規定する。制御部7は、メインローブのパワーが当該第5閾値以上を満たす領域を第1領域と規定することが出来る。
なお、制御部7は、第1領域から削減したビット量を、第1領域以外の周波数領域に割り当てることで符号化時におけるビット量の不足を抑制することが出来る。詳細は後述するが、当該処理を実施しても第1領域の音質劣化を招くことはない。また、制御部7は、現フレームにおいて削減したビット量を保持し、配分部4が、制御部7が保持する現フレームにおいて削減したビット量を、次フレームの周波数信号の符号化に割り当てることで、次フレームの符号化時におけるビット量の不足を抑制することが出来る。なお、詳細は後述するが、現フレームで第1領域のビット量を所定量だけ削減したとしても音質の劣化は生じない為、音質の劣化を生じさせることなく、符号化処理全体のビット量の不足を抑制することが出来る。
更に、制御部7は、第1領域において、最大値となる第2変曲点を基点とする高域側のビット量を削減し、削減したビット量を、第1領域以外に割り当てることが出来る。この場合、制御部7の処理コストを低減することが出来る。なお、一般的に、低域側の周波数信号の方が知覚され易い為、実施例1においては、高域側のビット量を削減している。しかしながら、制御部7は、必要に応じて最大値となる第2変曲点を基点とする低域側のビット量を削減し、削減したビット量を、第1領域以外に割り当てても良い。
ここで、実施例1における技術的な意義の1つの観点について説明する。本発明者らは、低ビットレートでの符号化において、オーディオ信号の特性について仔細に検証を行い、鋭意検証の結果、以下の事項を明らかにした。例えば、図3のスペクトルに示す様な、摩擦音の子音は周波数帯域の高域側に大きいパワー、かつ、広いローブ(メインローブの第1領域に該当)を有する。また、図4のスペクトルに示す様な、摩擦音以外の子音においては、低域側に大きいパワー、かつ、広いローブ(メインローブの第1領域に該当)を有する。ここで、本発明者らは鋭意検証の結果、子音の様にメインローブにおいて、パワーが大きい帯域が連続する領域(第1領域に該当)においては、配分部4が配分するマスキング閾値に基づく一般的なビット配分量に対して、更にビット配分量を削減しても音質が劣化しないことが明らかになった。
図10は、第1領域のビット配分量と客観音質評価値の関係図である。当該検証実験においては、ビットレートは64kbpsとし、音源は女性の発話音声を用いた。図10においては、第1領域のビット配分量を段階的に削減した場合における客観音質評価値を示している。なお、復号方法は、一般的な復号方法を用いた。評価方法は、ODG(Objective Difference Grade;客観品質劣化度合)と称される客観音質評価値を用いた。なお、ODGは、「0」〜「−5」の間で表現され、値が大きい程(0に近い程)音質が良いことを示す。なお、一般的には、ODGにおいて、0.1以上の差が存在する場合、主観的にも音質の差を知覚することが出来る。図10に示す通り、実施例1においては、第1領域のビット量をある程度削減しても音質が劣化しないことを新たに見出した。なお、必要以上にビット量を削減した場合、欠落による誤差の重畳により、子音箇所に「シュルシュル」という劣化音が重畳されていることが確認された。これは、帯域欠落の場合に多く発生する劣化であり、当該劣化の発生した帯域でビット不足により符号化ができず帯域欠落が発生している為に生じる音質劣化であると考えることが出来る。
図10における、第1領域においては、配分部4が配分するマスキング閾値に基づく一般的なビット配分量に対して、更にビット配分量を削減しても音質が劣化しない実験事実を記載したが、当該実験事実に関する技術的な考察を付記的に記載する。なお、当該考察は、実施例の内容に関し、限定的に解釈するものに用いられるものでは当然ない。スペクトル電力のパワーが大きい帯域が連続している場合、その帯域における複数の周波数の信号を均等、あるいはそれに近い比率で有している為、ノイズ状の音となる特性を有する。ノイズ状の音では、一般的に他の周波数の音をマスキングし易いと考えられており、誤差が増えても主観的に知覚され難い。この為、該当帯域においてはビット配分量を減らして誤差を増やしても音質低下が発生しないものと考えることが出来る。なお、図8と図9に示す通り、第1領域においては、SMRは、略一定の値を保持する。これは、マスキング閾値は、入力音となるスペクトル電力のパワーが大きいことで近傍の帯域の音が聞こえなくなる限界値を表した値であることに起因する。この為、マスキング閾値は、入力音の周波数を頂点とした山型で模擬され、入力音の複数帯域のマスキング閾値の中で最も大きいマスキング閾値が用いられることになる。パワーが大きい帯域が続くと、隣接帯域のマスキングよりも該当帯域のマスキングの方が大きくなる為、SMRは略一定の値を保持することになる。
制御部7は、上述の通り、第1領域から削減したビット量を第1領域以外に割り当てることで符号化時におけるビット量の不足を抑制することが出来る。また、制御部7は、上述の通り、現フレームにおいて削減したビット量を保持し、配分部4が、制御部7が保持する現フレームにおいて削減したビット量を、次フレームの周波数信号の符号化に割り当てることで、次フレームの符号化時におけるビット量の不足を抑制することが出来る。ここで、第1領域において、削減することができるビット量は、例えば、固定値であり、実験的に規定することができる。例えば、図10の実験結果を用いて規定すると、5kHz〜11kHzの周波数区間の6Hzを第1領域とし、当該第1領域に対して配分部4が15.8kbpsのビット配分量を割り当てる場合、8kbpsまでビット量を削減しても音質劣化は確認されない為、第1領域における単位周波数領域あたりのビット削減量は1.3kbps/kHzと規定することが出来る。換言すると、制御部7は、第1領域におけるビット量の削減量を、客観音質評価値に基づいて規定することが出来る。さらに、客観音質評価値は主観音質評価値を模擬した評価値であるため、削減することができるビット量は主観音質評価値に基づいて規定することも出来る。主観音質評価値には、たとえば、MOS(Mean Opinion Score)評価やMUSHRA(MUltiple Stimuli with Hidden Reference and Anchor)法などを用いることが出来る。
ここで、実施例1における他の側面による技術的な意義について説明する。本発明者らは、低ビットレートでの符号化において、オーディオ信号の音質の低下を招く原因について更に仔細に検証を行い、鋭意検証の結果、以下の事項を明らかにした。例えば、図3のスペクトルに示す様な、摩擦音の子音は、上述の通り、口腔内で狭められた点(例えば、日本語のサ行では歯で狭められた点)を、呼気が通過した際に発生する乱気流であり、周波数帯域の高域側に大きいパワー、かつ、広いローブ(実施例1のメインローブに該当)を有する。摩擦音の子音を知覚する為に利用される帯域は、メインローブの端も含めたメインローブの帯域全体であり、その帯域の信号が符号化時の欠落により失われた場合、復号時に主観的ならび客観的な音質の劣化を知覚することが明らかになった。なお、主観評価においては、欠落による誤差の重畳により、「ギュルギュル」という劣化音が重畳されていることが確認された。この為、制御部7は、図3のスペクトルに示す様な、摩擦音の子音のスペクトルを制御する場合、第1領域以外のメインローブに削減したビット量を優先的に割り当てることで音質の劣化を抑制することが可能となる。
量子化部8は、例えば、ワイヤードロジックによるハードウェア回路である。また、量子化部8は、オーディオ符号化装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。量子化部8は各チャネルの周波数信号を時間周波数変換部2から受け取り、各チャネルの周波数信号に対応する制御後のビット配分量を制御部7から受け取る。量子化部8は、各チャネルの周波数信号specch(t)を、各チャネルの(制御後の)ビット配分量に基づくスケール値でスケーリングして量子化を行う。なお、当該処理は、図2に示すフローチャートのステップS210に対応する。量子化部8は、例えば、ISO/IEC 13818-7のAnnex CのC.7のQuantization項目に記載された方法を用いて量子化することが出来る。量子化部8は、例えば、次式に基づいて量子化を行うことが出来る。
(数5)
Figure 2016085334
上述の(数5)において、quantch(t)は、フレームtにおける、チャネルchのi番目の周波数信号の量子化値であり、scalech[b](t)は、i番目の周波数信号が含まれる周波数帯域について算出された量子化スケールである。量子化部8は、各チャネルの周波数信号を量子化した量子化値を符号化部9へ出力する。
図1の符号化部9は、例えば、ワイヤードロジックによるハードウェア回路である。また、符号化部9は、オーディオ符号化装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。符号化部9は、各チャネルのオーディオ信号の量子化値を量子化部8から受け取る。符号化部9は、量子化部8から受け取った各チャネルの周波数信号の量子化値をハフマン符号または算術符号等のエントロピー符号を用いて符号化する。次に、符号化部9は、チャネル毎に、エントロピー符号の合計ビット量totalBitch(t)を算出する。次に、符号化部9は、エントロピー符号の合計ビット量totalBitch(t)が、予め規定されたビットレート(例えば、64kbps)に基づいた割当ビット量pBitch(t)未満か否かを判定する。なお、当該処理は、図2に示すフローチャートのステップS211に対応する。符号化部9は、エントロピー符号の合計ビット数totalBitch(t)が、予め規定されたビットレートに基づいた割当ビット量pBitch(t)未満(図2のステップS211−Yesに相当)であれば、符号化部9は、エントロピー符号を符号化オーディオ信号として多重化部10へ出力する。なお、当該処理は、図2に示すフローチャートのステップS212に対応する。
符号化部9は、任意のチャネルの任意フレームにおいて、エントロピー符号の合計ビット数totalBitch(t)が、割当ビット量pBitch(t)以上の場合(図2のステップS211−Noに相当)、符号化部9は、任意の可変閾値となる第6閾値(Th6)未満のパワーとなる全周波数領域の量子化値を欠落させて符号化すれば良い。なお、当該処理は、図2に示すフローチャートのステップS213に対応する。
更に、ステップS213において、符号化部9は、任意の第6閾値未満のパワーの周波数帯域の全ての量子化値を欠落させても所定のビットレートを満たさない場合、必要に応じて、SMRに基づいて、オーディオ信号を符号化しても良い。符号化部9は、符号化処理においてSMRが低い順に欠落させることで、より聴覚的に重要な帯域を符号化することが出来る。具体的には、符号化部9は、SMRにおいて可変閾値となる第6閾値を下回った帯域を欠落させ、所定のビットレート内に収まるまで第6閾値を大きくして符号化を行う。符号化部9は、符号化した各チャネルのオーディオ信号(符号化オーディオ信号と称しても良い)を多重化部10に出力する。
図1の多重化部10は、例えば、ワイヤードロジックによるハードウェア回路である。また、多重化部10は、オーディオ符号化装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。多重化部10は、符号化オーディオ信号を符号化部9から受け取る。多重化部10は、符号化オーディオ信号を所定の順序に従って配列することにより多重化する。なお、当該処理は、図2に示すフローチャートのステップS214に対応する。図11は、多重化されたオーディオ信号が格納されたデータ形式の一例を示す図である。図11に示す一例では、符号化されたオーディオ信号は、Mpeg−4 ADTS(Audio Data Transport Stream)形式に従って多重化される。図11示される様に、チャネル毎のエントロピー符号のデータ(ch−1データ、ch−2データ、ch−Nデータ)が格納される。またエントロピー符号のデータのブロックの前に、ADTS形式のヘッダ情報(ADTSヘッダ)が格納される。多重化部10は、多重化した符号化オーディオ信号を任意の外部装置(例えば、オーディオ復号装置)に出力する。なお、多重化された符号化オーディオ信号はネットワークを介して外部装置に出力されても良い。
本発明者らは、実施例1の効果を定量的に示す検証実験を実施した。図12は、実施例1と比較例の客観評価値である。当該検証実験においては、ビットレートは64kbpsとし、音源は女性の発話音声を用いた。比較例としては、一般的な符号化処理を実施させた。なお、実施例1と比較例ともに、ビットレートが64kbpsに収まる様に一定の閾値以下のパワーの周波数の量子化値を一律に欠落させた。換言すると、図12は、制御部7の効果を示す検証実験の結果を示している。なお、復号方法は、実施例1と比較例の双方において、同一の条件で一般的な復号方法を用いた。評価方法は、ODG(Objective Difference Grade;客観品質劣化度合)と称される客観音質評価値を用いた。なお、上述の通り、ODGは、「0」〜「−5」の間で表現され、値が大きい程(0に近い程)音質が良いことを示す。なお、一般的には、ODGにおいて、0.1以上の差が存在する場合、主観的にも音質の差を知覚することが出来る。図12に示す通り、実施例1においては、比較例に比較して0.25程度の客観音質評価値の改善が確認された。
実施例1に示すオーディオ符号化装置においては、低ビットレートの符号化条件下においても高音質で符号化することが可能となる。
(実施例2)
図13は、一つの実施形態によるオーディオ符号化復号装置14の機能ブロックを示す図である。図13に示す様に、オーディオ符号化復号装置14は、時間周波数変換部2、算出部3、配分部4、検出部5、選定部6、制御部7、量子化部8、符号化部9、多重化部10、記憶部11、分離復号部12、周波数時間変換部13を含んでいる。
オーディオ符号化復号装置14が有する上述の各部は、例えば、ワイヤードロジックによるハードウェア回路としてそれぞれ別個の回路として形成される。あるいはオーディオ符号化復号装置14が有する上述の各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ符号化復号装置14に実装されてもよい。なお、集積回路は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路であれば良い。更に、オーディオ符号化復号装置14が有するこれらの各部は、オーディオ符号化復号装置14が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。図13において、時間周波数変換部2、算出部3、配分部4、検出部5、選定部6、制御部7、量子化部8、符号化部9、多重化部10は、実施例1に開示した機能と同様である為、詳細な説明は省略する。
記憶部11は、例えば、フラッシュメモリ(flash memory)などの半導体メモリ素子、または、HDD(Hard Disk Drive)、光ディスクなどの記憶装置である。なお、記憶部11は、上記の種類の記憶装置に限定されるものではなく、RAM(Random Access Memory)、ROM(Read Only Memory)であってもよい。記憶部11は、多重化部10から多重化された符号化オーディオ信号を受け取る。記憶部11は、例えば、ユーザがオーディオ符号化復号装置14に対して、符号化オーディオ信号の再生の指示を実施したことを契機に、多重化された符号化オーディオ信号を分離復号部12に出力する。
分離復号部12は、例えば、ワイヤードロジックによるハードウェア回路である。また、分離復号部12は、オーディオ符号化復号装置14で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。分離復号部12は、多重化された符号化オーディオ信号を記憶部11からから受け取る。分離復号部12は、多重化された符号化オーディオ信号を分離した後に復号する。なお、分離復号部12は、分離方法として、例えば、ISO/IEC14496−3に記載の方法を用いることが出来る。また、分離復号部12は、復号方法として、例えば、ISO/IEC 13818−7に記載の方法を用いることが出来る。分離復号部12は、復号されたオーディオ信号を周波数時間変換部13に出力する。
周波数時間変換部13は、例えば、ワイヤードロジックによるハードウェア回路である。また、周波数時間変換部13は、オーディオ符号化復号装置14で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。周波数時間変換部13は、分離復号部12から復号されたオーディオ信号を受け取る。周波数時間変換部13は、オーディオ信号を、上述の(数1)に対応する逆高速フーリエ変換を用いて周波数信号から時間信号に変換した上で、任意の外部装置(例えば、スピーカ)に出力する。
この様に、実施例2に開示するオーディオ符号化復号装置においては、低ビットレートの符号化条件下においても高音質で符号化されたオーディオ信号を記憶した上で、正確に復号することが出来る。なお、この様なオーディオ符号化復号装置は、例えば、ビデオ信号と共にオーディオ信号を記憶する監視カメラ等に適用することも出来る。また、実施例2においては、例えば、分離復号部12と周波数時間変換部13を組み合わせたオーディオ復号装置を構成しても良い。
(実施例3)
図14は、一つの実施形態によるオーディオ符号化装置1またはオーディオ符号化復号装置14として機能するコンピュータのハードウェア構成図である。図14に示す通り、音声オーディオ符号化装置1またはオーディオ符号化復号装置14は、コンピュータ100、およびコンピュータ100に接続する入出力装置(周辺機器)を含んで構成される。
コンピュータ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してRAM(Random Access Memory)102と複数の周辺機器が接続されている。なお、プロセッサ101は、マルチプロセッサであってもよい。また、プロセッサ101は、例えば、CPU、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはPLD(Programmable Logic Device)である。更に、プロセッサ101は、CPU、MPU、DSP、ASIC、PLDのうちの2以上の要素の組み合わせであってもよい。なお、例えば、プロセッサ101は、図1または図13に記載の、時間周波数変換部2、算出部3、配分部4、検出部5、選定部6、制御部7、量子化部8、符号化部9、多重化部10、記憶部11、分離復号部12、周波数時間変換部13等の機能ブロックの処理をまたは、実行することが出来る。
RAM102は、コンピュータ100の主記憶装置として使用される。RAM102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、プロセッサ101による処理に必要な各種データが格納される。バス109に接続されている周辺機器としては、HDD(Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
HDD103は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、例えば、コンピュータ100の補助記憶装置として使用される。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することも出来る。
グラフィック処理装置104には、モニタ110が接続されている。グラフィック処理装置104は、プロセッサ101からの命令にしたがって、各種画像をモニタ110の画面に表示させる。モニタ110としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード111とマウス112とが接続されている。入力インタフェース105は、キーボード111やマウス112から送られてくる信号をプロセッサ101に送信する。なお、マウス112は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク113に記録されたデータの読み取りを行う。光ディスク113は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク113には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。可搬型の記録媒体となる光ディスク113に格納されたプログラムは光学ドライブ装置106を介してオーディオ符号化装置1にインストールされる。インストールされた所定のプログラムは、オーディオ符号化装置1またはオーディオ符号化復号装置14より実行可能となる。
機器接続インタフェース107は、コンピュータ100に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース107には、メモリ装置114やメモリリーダライタ115を接続することが出来る。メモリ装置114は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ115は、メモリカード116へのデータの書き込み、またはメモリカード116からのデータの読み出しを行う装置である。メモリカード116は、カード型の記録媒体である。
ネットワークインタフェース108は、ネットワーク117に接続されている。ネットワークインタフェース108は、ネットワーク117を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
コンピュータ100は、たとえば、コンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、上述したオーディオ符号化処理機能等を実現する。コンピュータ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことが出来る。上記プログラムは、1つのまたは複数の機能モジュールから構成することが出来る。例えば、図1または図13に記載の、時間周波数変換部2、算出部3、配分部4、検出部5、選定部6、制御部7、量子化部8、符号化部9、多重化部10、記憶部11、分離復号部12、周波数時間変換部13等の処理を実現させた機能モジュールからプログラムを構成することが出来る。なお、コンピュータ100に実行させるプログラムをHDD103に格納しておくことができる。プロセッサ101は、HDD103内のプログラムの少なくとも一部をRAM102にロードし、プログラムを実行する。また、コンピュータ100に実行させるプログラムを、光ディスク113、メモリ装置114、メモリカード116などの可搬型記録媒体に記録しておくことも出来る。可搬型記録媒体に格納されたプログラムは、例えば、プロセッサ101からの制御により、HDD103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することも出来る。
以上に図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。
また、上述の実施例において、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記の各実施形態におけるオーディオ符号化装置は、コンピュータ、ビデオ信号の録画機または映像伝送装置など、オーディオ信号を伝送または記録するために利用される各種の機器に実装させることが可能である。
ここに挙げられた全ての例及び特定の用語は、当業者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
オーディオ信号を構成する周波数信号に基づく複数のローブを検出する検出部と、
前記周波数信号のマスキング閾値を算出する算出部と、
前記マスキング閾値に基づいて前記周波数信号の符号化に割り当てる単位周波数領域あたりのビット量を配分する配分部と、
前記ローブの帯域幅とパワーに基づいて、メインローブを選定する選定部と、
前記メインローブにおいて、前記パワーの最大値を含む第1領域の前記ビット量を削減することにより前記符号化を制御する制御部
を備えることを特徴とするオーディオ符号化装置。
(付記2)
前記選定部は、前記複数の前記ローブにおいて、前記帯域幅が最も広いローブをメインローブ候補として選定し、
前記メインローブ候補の前記帯域幅が第1閾値以上であり、かつ、前記メインローブ候補の前記パワーが第2閾値以上となる場合、前記メインローブとして選定することを特徴とする付記1記載のオーディオ符号化装置。
(付記3)
前記選定部は、前記複数の前記ローブの変曲点群において、前記パワーが最小となる第1変曲点の値を第3閾値として規定し、
前記第3閾値から所定の前記パワーを増加させた値を第4閾値として規定し、
前記変曲点群において、前記パワーが最大となる第2変曲点に対して、高域側と低域側にそれぞれ隣接し、かつ、前記第3閾値以上かつ前記第4閾値未満となる第3変曲点と第4変曲点を前記メインローブの始点と終点として選定することを特徴とする付記1または付記2記載のオーディオ符号化装置。
(付記4)
前記選定部は、前記複数の前記ローブの変曲点群において、前記パワーが最小となる第1変曲点の値を第3閾値として規定し、
前記第3閾値から所定の前記パワーを増加させた値を第4閾値として規定し、
前記パワーが最大となる値を第2変曲点として規定し、
前記第2変曲点を前記メインローブの始点として選定し、
前記第2変曲点に対して高域側に隣接し、かつ、前記第3閾値以上かつ前記第4閾値未満となる第4変曲点を前記メインローブの終点として選定することを特徴とする付記1または付記2記載のオーディオ符号化装置。
(付記5)
前記制御部は、前記メインローブにおいて、前記パワーが、前記第2変曲点に基づいて規定される第5閾値以上を満たす領域を前記第1領域として規定することを特徴とする付記3または付記4に記載のオーディオ符号化装置。
(付記6)
前記制御部は、前記第1領域における前記ビット量の削減量を、主観音質評価値または客観音質評価値に基づいて規定する付記1ないし付記5の何れか一つに記載のオーディオ符号化装置。
(付記7)
前記制御部は、前記削減した前記ビット量を、前記第1領域以外に割り当てることを特徴とする付記1ないし付記6の何れか一つに記載のオーディオ符号化装置。
(付記8)
前記制御部は、前記削減した前記ビット量を、前記第1領域以外の前記メインローブに割り当てることを特徴とする付記1ないし付記7の何れか一つに記載のオーディオ符号化装置。
(付記9)
前記制御部は、現フレームにおいて前記削減した前記ビット量を保持し、
前記配分部は、前記制御部が保持する前記現フレームにおいて前記削減した前記ビット量を、次フレームの前記周波数信号の符号化に割り当てることを特徴とする付記1ないし付記8の何れか一つに記載のオーディオ符号化装置。
(付記10)
前記制御部は、前記第1領域において、前記最大値を基点とする高域側の前記ビット量を削減し、前記削減した前記ビット量を、前記第1領域以外に割り当てることを特徴とする付記1ないし付記9の何れか一つに記載のオーディオ符号化装置。
(付記11)
オーディオ信号を構成する周波数信号に基づく複数のローブを検出し、
前記周波数信号のマスキング閾値を算出し、
前記マスキング閾値に基づいて前記周波数信号の符号化に割り当てる単位周波数領域あたりのビット量を配分し、
前記ローブの帯域幅とパワーに基づいて、メインローブを選定し、
前記メインローブにおいて、前記パワーの最大値を含む第1領域の前記ビット量を削減することにより前記符号化を制御すること
を含むことを特徴とするオーディオ符号化方法。
(付記12)
前記選定することは、前記複数の前記ローブにおいて、前記帯域幅が最も広いローブをメインローブ候補として選定し、
前記メインローブ候補の前記帯域幅が第1閾値以上であり、かつ、前記メインローブ候補の前記パワーが第2閾値以上となる場合、前記メインローブとして選定することを特徴とする付記11記載のオーディオ符号化方法。
(付記13)
前記選定することは、前記複数の前記ローブの変曲点群において、前記パワーが最小となる第1変曲点の値を第3閾値として規定し、
前記第3閾値から所定の前記パワーを増加させた値を第4閾値として規定し、
前記変曲点群において、前記パワーが最大となる第2変曲点に対して、高域側と低域側にそれぞれ隣接し、かつ、前記第3閾値以上かつ前記第4閾値未満となる第3変曲点と第4変曲点を前記メインローブの始点と終点として選定することを特徴とする付記11または付記12記載のオーディオ符号化方法。
(付記14)
前記選定することは、前記複数の前記ローブの変曲点群において、前記パワーが最小となる第1変曲点の値を第3閾値として規定し、
前記第3閾値から所定の前記パワーを増加させた値を第4閾値として規定し、
前記パワーが最大となる値を第2変曲点として規定し、
前記第2変曲点を前記メインローブの始点として選定し、
前記第2変曲点に対して高域側に隣接し、かつ、前記第3閾値以上かつ前記第4閾値未満となる第4変曲点を前記メインローブの終点として選定することを特徴とする付記11または付記12記載のオーディオ符号化方法。
(付記15)
前記制御することは、前記メインローブにおいて、前記パワーが、前記第2変曲点に基づいて規定される第5閾値以上を満たす領域を前記第1領域として規定することを特徴とする付記13または付記14に記載のオーディオ符号化方法。
(付記16)
前記制御することは、前記第1領域における前記ビット量の削減量を、主観音質評価値または客観音質評価値に基づいて規定する付記11ないし付記15の何れか一つに記載のオーディオ符号化方法。
(付記17)
前記制御することは、前記削減した前記ビット量を、前記第1領域以外に割り当てることを特徴とする付記11ないし付記16の何れか一つに記載のオーディオ符号化方法。
(付記18)
前記制御することは、前記削減した前記ビット量を、前記第1領域以外の前記メインローブに割り当てることを特徴とする付記11ないし付記17の何れか一つに記載のオーディオ符号化方法。
(付記19)
前記制御することは、現フレームにおいて前記削減した前記ビット量を保持し、
前記配分することは、前記制御部が保持する前記現フレームにおいて前記削減した前記ビット量を、次フレームの前記周波数信号の符号化に割り当てることを特徴とする付記11ないし付記18の何れか一つに記載のオーディオ符号化方法。
(付記20)
前記制御することは、前記第1領域において、前記最大値を基点とする高域側の前記ビット量を削減し、前記削減した前記ビット量を、前記第1領域以外に割り当てることを特徴とする付記11ないし付記19の何れか一つに記載のオーディオ符号化方法。
(付記21)
コンピュータに
オーディオ信号を構成する周波数信号に基づく複数のローブを検出し、
前記周波数信号のマスキング閾値を算出し、
前記マスキング閾値に基づいて前記周波数信号の符号化に割り当てる単位周波数領域あたりのビット量を配分し、
前記ローブの帯域幅とパワーに基づいて、メインローブを選定し、
前記メインローブにおいて、前記パワーの最大値を含む第1領域の前記ビット量を削減することにより前記符号化を制御すること
を実行させることを特徴とするオーディオ符号化プログラム。
(付記22)
オーディオ信号を構成する周波数信号に基づく複数のローブを検出する検出部と、
前記周波数信号のマスキング閾値を算出する算出部と、
前記マスキング閾値に基づいて前記周波数信号の符号化に割り当てる単位周波数領域あたりのビット量を配分する配分部と、
前記ローブの帯域幅とパワーに基づいて、メインローブを選定する選定部と、
前記メインローブにおいて、前記パワーの最大値を含む第1領域の前記ビット量を削減することにより前記符号化を制御する制御部と
前記符号化された前記オーディオ信号を復号する分離復号部と、
を備えることを特徴とするオーディオ符号化復号装置。
1 オーディオ符号化装置
2 時間周波数変換部
3 算出部
4 配分部
5 検出部
6 選定部
7 制御部
8 量子化部
9 符号化部
10 多重化部

Claims (12)

  1. オーディオ信号を構成する周波数信号に基づく複数のローブを検出する検出部と、
    前記周波数信号のマスキング閾値を算出する算出部と、
    前記マスキング閾値に基づいて前記周波数信号の符号化に割り当てる単位周波数領域あたりのビット量を配分する配分部と、
    前記ローブの帯域幅とパワーに基づいて、メインローブを選定する選定部と、
    前記メインローブにおいて、前記パワーの最大値を含む第1領域の前記ビット量を削減することにより前記符号化を制御する制御部
    を備えることを特徴とするオーディオ符号化装置。
  2. 前記選定部は、前記複数の前記ローブにおいて、前記帯域幅が最も広いローブをメインローブ候補として選定し、
    前記メインローブ候補の前記帯域幅が第1閾値以上であり、かつ、前記メインローブ候補の前記パワーが第2閾値以上となる場合、前記メインローブとして選定することを特徴とする請求項1記載のオーディオ符号化装置。
  3. 前記選定部は、前記複数の前記ローブの変曲点群において、前記パワーが最小となる第1変曲点の値を第3閾値として規定し、
    前記第3閾値から所定の前記パワーを増加させた値を第4閾値として規定し、
    前記変曲点群において、前記パワーが最大となる第2変曲点に対して、高域側と低域側にそれぞれ隣接し、かつ、前記第3閾値以上かつ前記第4閾値未満となる第3変曲点と第4変曲点を前記メインローブの始点と終点として選定することを特徴とする請求項1または請求項2記載のオーディオ符号化装置。
  4. 前記選定部は、前記複数の前記ローブの変曲点群において、前記パワーが最小となる第1変曲点の値を第3閾値として規定し、
    前記第3閾値から所定の前記パワーを増加させた値を第4閾値として規定し、
    前記パワーが最大となる値を第2変曲点として規定し、
    前記第2変曲点を前記メインローブの始点として選定し、
    前記第2変曲点に対して高域側に隣接し、かつ、前記第3閾値以上かつ前記第4閾値未満となる第4変曲点を前記メインローブの終点として選定することを特徴とする請求項1または請求項2記載のオーディオ符号化装置。
  5. 前記制御部は、前記メインローブにおいて、前記パワーが、前記第2変曲点に基づいて規定される第5閾値以上を満たす領域を前記第1領域として規定することを特徴とする請求項3または請求項4に記載のオーディオ符号化装置。
  6. 前記制御部は、前記第1領域における前記ビット量の削減量を、主観音質評価値または客観音質評価値に基づいて規定する請求項1ないし請求項5の何れか一項に記載のオーディオ符号化装置。
  7. 前記制御部は、前記削減した前記ビット量を、前記第1領域以外に割り当てることを特徴とする請求項1ないし請求項6の何れか一項に記載のオーディオ符号化装置。
  8. 前記制御部は、前記削減した前記ビット量を、前記第1領域以外の前記メインローブに割り当てることを特徴とする請求項1ないし請求項7の何れか一項に記載のオーディオ符号化装置。
  9. 前記制御部は、現フレームにおいて前記削減した前記ビット量を保持し、
    前記配分部は、前記制御部が保持する前記現フレームにおいて前記削減した前記ビット量を、次フレームの前記周波数信号の符号化に割り当てることを特徴とする請求項1ないし請求項8の何れか一項に記載のオーディオ符号化装置。
  10. 前記制御部は、前記第1領域において、前記最大値を基点とする高域側の前記ビット量を削減し、前記削減した前記ビット量を、前記第1領域以外に割り当てることを特徴とする請求項1ないし請求項9の何れか一項に記載のオーディオ符号化装置。
  11. オーディオ信号を構成する周波数信号に基づく複数のローブを検出し、
    前記周波数信号のマスキング閾値を算出し、
    前記マスキング閾値に基づいて前記周波数信号の符号化に割り当てる単位周波数領域あたりのビット量を配分し、
    前記ローブの帯域幅とパワーに基づいて、メインローブを選定し、
    前記メインローブにおいて、前記パワーの最大値を含む第1領域の前記ビット量を削減することにより前記符号化を制御すること
    を含むことを特徴とするオーディオ符号化方法。
  12. コンピュータに
    オーディオ信号を構成する周波数信号に基づく複数のローブを検出し、
    前記周波数信号のマスキング閾値を算出し、
    前記マスキング閾値に基づいて前記周波数信号の符号化に割り当てる単位周波数領域あたりのビット量を配分し、
    前記ローブの帯域幅とパワーに基づいて、メインローブを選定し、
    前記メインローブにおいて、前記パワーの最大値を含む第1領域の前記ビット量を削減することにより前記符号化を制御すること
    を実行させることを特徴とするオーディオ符号化プログラム。
JP2014217669A 2014-10-24 2014-10-24 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム Active JP6398607B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014217669A JP6398607B2 (ja) 2014-10-24 2014-10-24 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
US14/836,355 US9620135B2 (en) 2014-10-24 2015-08-26 Audio encoding device and audio encoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014217669A JP6398607B2 (ja) 2014-10-24 2014-10-24 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム

Publications (2)

Publication Number Publication Date
JP2016085334A true JP2016085334A (ja) 2016-05-19
JP6398607B2 JP6398607B2 (ja) 2018-10-03

Family

ID=55792473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014217669A Active JP6398607B2 (ja) 2014-10-24 2014-10-24 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム

Country Status (2)

Country Link
US (1) US9620135B2 (ja)
JP (1) JP6398607B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019142513A1 (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 符号化装置、復号装置、摩擦音判定装置、これらの方法及びプログラム
WO2019142514A1 (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 復号装置、符号化装置、これらの方法及びプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0219960A (ja) * 1988-07-08 1990-01-23 Hitachi Ltd ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法
JPH0535295A (ja) * 1991-08-05 1993-02-12 Matsushita Electric Ind Co Ltd 音声符号化方法
JPH07202823A (ja) * 1993-11-25 1995-08-04 Sharp Corp 符号化復号化装置
JPH08211899A (ja) * 1995-02-06 1996-08-20 Nippon Columbia Co Ltd 音声符号化方法及びその装置
JP2004297803A (ja) * 2003-03-26 2004-10-21 Agilent Technol Inc ネットワーク内の音質を評価する方法
JP2009063623A (ja) * 2007-09-04 2009-03-26 Nec Corp 符号化装置および符号化方法、ならびに復号化装置および復号化方法
JP2009198612A (ja) * 2008-02-19 2009-09-03 Fujitsu Ltd 符号化装置、符号化方法および符号化プログラム
JP2011513788A (ja) * 2008-03-03 2011-04-28 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0709006B1 (en) 1993-07-16 1997-03-05 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
KR100648308B1 (ko) * 2004-08-12 2006-11-23 삼성전자주식회사 해상도 변환방법 및 장치
JP4548348B2 (ja) 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0219960A (ja) * 1988-07-08 1990-01-23 Hitachi Ltd ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法
JPH0535295A (ja) * 1991-08-05 1993-02-12 Matsushita Electric Ind Co Ltd 音声符号化方法
JPH07202823A (ja) * 1993-11-25 1995-08-04 Sharp Corp 符号化復号化装置
JPH08211899A (ja) * 1995-02-06 1996-08-20 Nippon Columbia Co Ltd 音声符号化方法及びその装置
JP2004297803A (ja) * 2003-03-26 2004-10-21 Agilent Technol Inc ネットワーク内の音質を評価する方法
JP2009063623A (ja) * 2007-09-04 2009-03-26 Nec Corp 符号化装置および符号化方法、ならびに復号化装置および復号化方法
JP2009198612A (ja) * 2008-02-19 2009-09-03 Fujitsu Ltd 符号化装置、符号化方法および符号化プログラム
JP2011513788A (ja) * 2008-03-03 2011-04-28 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019142513A1 (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 符号化装置、復号装置、摩擦音判定装置、これらの方法及びプログラム
WO2019142514A1 (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 復号装置、符号化装置、これらの方法及びプログラム
CN111602196A (zh) * 2018-01-17 2020-08-28 日本电信电话株式会社 编码装置、解码装置、摩擦音判定装置、它们的方法以及程序
CN111602197A (zh) * 2018-01-17 2020-08-28 日本电信电话株式会社 解码装置、编码装置、它们的方法以及程序
US11417345B2 (en) 2018-01-17 2022-08-16 Nippon Telegraph And Telephone Corporation Encoding apparatus, decoding apparatus, fricative sound judgment apparatus, and methods and programs therefor
CN111602196B (zh) * 2018-01-17 2023-08-04 日本电信电话株式会社 编码装置、解码装置、它们的方法及计算机可读记录介质
CN111602197B (zh) * 2018-01-17 2023-09-05 日本电信电话株式会社 解码装置、编码装置、它们的方法以及计算机可读记录介质

Also Published As

Publication number Publication date
US20160118051A1 (en) 2016-04-28
JP6398607B2 (ja) 2018-10-03
US9620135B2 (en) 2017-04-11

Similar Documents

Publication Publication Date Title
JP6726785B2 (ja) ビット割り当て装置
JP5485909B2 (ja) オーディオ信号処理方法及び装置
KR20200144086A (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
KR101428487B1 (ko) 멀티 채널 부호화 및 복호화 방법 및 장치
US10102865B2 (en) Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method
JP5400059B2 (ja) オーディオ信号処理方法及び装置
EP3340244B1 (en) Signal processing apparatus and method, and program
JP6126006B2 (ja) 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
AU2021200603B2 (en) Audio decoding device, audio encoding device, audio decoding method, audio encoding method, audio decoding program, and audio encoding program
KR101958360B1 (ko) 독립적 잡음-충전을 사용하여 향상된 신호를 발생시키기 위한 장치 및 방법
KR20090122142A (ko) 오디오 신호 처리 방법 및 장치
JP2005338850A (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
US20170270940A1 (en) Encoding device and method, decoding device and method, and program
JP6398607B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
JP2018041091A (ja) 信号処理方法及び装置
JP6400590B2 (ja) 音響信号符号化装置、音響信号復号装置、端末装置、基地局装置、音響信号符号化方法及び復号方法
KR20220151953A (ko) 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기
US20080161952A1 (en) Audio data processing apparatus
JP6318904B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
JP4134262B2 (ja) 信号処理方法、信号処理装置及びプログラム
ES2963219T3 (es) Método y aparato de codificación de señales estéreo, método y aparato de decodificación de señales estéreo
JP6303435B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用プログラム、オーディオ復号装置
EP2720223A2 (en) Audio signal processing method, audio encoding apparatus, audio decoding apparatus, and terminal adopting the same
US20160351177A1 (en) Estimating a tempo metric from an audio bit-stream
JP2009288561A (ja) 音声符号化装置、音声復号装置、及びプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160401

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170704

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20180528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180820

R150 Certificate of patent or registration of utility model

Ref document number: 6398607

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150