JP6621709B2 - 音声処理装置、音声処理方法及びコンピュータプログラム - Google Patents

音声処理装置、音声処理方法及びコンピュータプログラム Download PDF

Info

Publication number
JP6621709B2
JP6621709B2 JP2016105691A JP2016105691A JP6621709B2 JP 6621709 B2 JP6621709 B2 JP 6621709B2 JP 2016105691 A JP2016105691 A JP 2016105691A JP 2016105691 A JP2016105691 A JP 2016105691A JP 6621709 B2 JP6621709 B2 JP 6621709B2
Authority
JP
Japan
Prior art keywords
audio data
upper limit
sampling rate
frequency band
interpolation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016105691A
Other languages
English (en)
Other versions
JP2017211558A (ja
Inventor
良輔 田地
良輔 田地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2016105691A priority Critical patent/JP6621709B2/ja
Priority to US15/468,572 priority patent/US10109295B2/en
Priority to EP17172658.1A priority patent/EP3249649B1/en
Publication of JP2017211558A publication Critical patent/JP2017211558A/ja
Application granted granted Critical
Publication of JP6621709B2 publication Critical patent/JP6621709B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0248Filters characterised by a particular frequency response or filtering method
    • H03H17/028Polynomial filters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/06Non-recursive filters
    • H03H17/0621Non-recursive filters with input-sampling frequency and output-delivery frequency which differ, e.g. extrapolation; Anti-aliasing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

本発明は、音声の高域成分を補間する技術に関するものである。
音声の高域成分を補間する技術としては、FIF(Fractal Interpolation Functions/フラクタル補間機能)の技術が知られている(たとえば、特許文献1、2、3)。
ここで、FIFは、図6に示すように、所定間隔のサンプルの時間位置Xiを分割点としてオーディオデータの時間区間Tを複数に分割した時間区間である補間区間ti の信号として、時間区間Tの信号Sの縮小写像ωi(S)を補間することにより、オーディオデータをアップサンプリングして音声の高域成分を補間する技術である。
また、このようなFIFによってオーディオデータをアップサンプリングして音声の高域成分を補間する技術としては、入力したオーディオデータが表す音声の周波数帯域の上限が、オーディオデータのサンプリングレートの1/2に満たない場合に、オーディオデータのサンプリングレートを1/2にダウンサンプリングした上で、FIFによってダウンサンプリングしたオーディオデータをアップサンプリングして音声の高域成分を補間する技術も知られている(特許文献4)。
なお、サンプリングレートFsのオーディオデータが表す音声の周波数帯域の上限は、ナイキストの定理に従いFs/2となるが、圧縮符号化されて提供されるオーディオデータなどは、サンプリングレートFsのオーディオデータが表す音声の周波数帯域の上限がFs/2未満であることも多い。
特開2005-084370号公報 特開2006-330144号公報 特開2009-229492号公報 特開2006-119524号公報
上述した、入力したオーディオデータのサンプリングレートを1/2にダウンサンプリングした上でFIFによるアップサンプリングを行って音声の高域成分を補間する技術を適用した場合でも、入力したオーディオデータが表す音声の周波数帯域の上限Fmaxが、ダウンサンプリング後のオーディオデータのサンプリングレートFsの1/2未満である場合には、ダウンサンプリング後のオーディオデータに、FmaxとFs/2の間の周波数成分が含まれていないために、図7aに示すように、オーディオデータが表す音声の周波数帯域の上限Fmax周辺の高域成分が補間されずに欠落してしまうという現象が生じる。
なお、図7aは、オーディオデータのサンプリングレートが96kHz、オーディオデータが表す音声の周波数帯域の上限が20kHz、ダウンサンプリング後のオーディオデータのサンプリングレートが48kHz、FIFによってアップサンプリングしたオーディオデータのサンプリングレートが96kHzである場合について表しており、図中、SIがオーディオデータの周波数特性を、SOがFIFによって高域を補間したオーディオデータの周波数特性を表している。
そこで、本発明は、オーディオデータが表す音声の周波数帯域の上限によらずに、良好に高域を補間することができる音声処理装置を提供することを課題とする。
前記課題達成のために、本発明は、オーディオデータの高域補間を行う音声処理装置に、前記高域補間の対象とするオーディオデータである入力オーディオデータが表す音声の周波数帯域の上限を検出する周波数帯域上限検出部と、前記周波数帯域上限検出部が検出した上限の2倍以下のサンプリングレートとなるように、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成するダウンサンプリング部と、前記ダウンサンプリング部が生成した中間オーディオデータを、FIF(Fractal Interpolation Functions)によってアップサンプリングして、高域補間後のオーディオデータを生成するアップサンプリング部とを備えたものである。
ここで、このような音声処理装置は、前記ダウンサンプリング部において、前記入力オーディオデータのサンプリングレートの2のべき乗分の1のサンプリングレートのうちの、前記周波数帯域上限検出部が検出した上限の2倍以下のサンプリングレートとなる最大のサンプリングレートに、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成し、前記アップサンプリング部において、前記中間オーディオデータを、FIF(Fractal Interpolation Functions)によって、当該中間オーディオデータのサンプリングレートの2のべき乗倍のサンプリングレートにアップサンプリングして、前記高域補間後のオーディオデータを生成するように構成してもよい。
また、以上の音声処理装置は、前記入力オーディオデータが、圧縮符号化されたオーディオデータを復号したオーディオデータである場合には、前記周波数帯域上限検出部において、前記圧縮符号化されたオーディオデータの再生時に単位時間あたりに処理すべき当該圧縮符号化されたオーディオデータのビット数を表すビットレートに基づいて、前記入力オーディオデータが表す音声の周波数帯域の上限を検出するように構成してもよい。
このような音声処理装置によれば、オーディオデータが表す音声の周波数帯域の上限が低い場合であっても、FIF(Fractal Interpolation Functions)によるアップサンプリングによって補間されずに欠落してしまう周波数帯域が発生してしまうことを抑止して良好に高域を補間できるようになる。
以上のように、本発明によれば、オーディオデータが表す音声の周波数帯域の上限によらずに、良好に高域を補間することができる音声処理装置を提供することができる。
本発明の実施形態に係る音声処理装置の構成を示すブロック図である。 本発明の実施形態に係る音声処理装置において高域補間を行う機能ブロックを示す図である。 本発明の実施形態に係る高域補間動作制御処理を示すフローチャートである。 本発明の実施形態に係る高域補間動作の例を示す図である。 本発明の実施形態に係る高域補間動作の例を示す図である。 FIFによる高域補間の原理を示す図である。 本発明の実施形態に係る高域補間の結果と従来の高域補間の結果の比較例を示す図である。
以下、本発明の実施形態について説明する。
図1に、本実施形態に係る音声処理装置の構成を示す。
図示するように、音声処理装置は、オーディオソース1、入力処理部2、デジタルサウンドプロセッサ3、アンプ4、スピーカ5、以上各部を制御する制御部6を備えている。
このような構成において、オーディオソース1は、オーディオファイルを記録した記録メディアや、オーディオデータを受信する放送受信装置などのオーディオデータを出力する装置である。
また、入力処理部2は制御部6の制御に従ってオーディオソース1からのオーディオデータの取り込みを行い、必要に応じて取り込んだオーディオデータの復号などの前処理を行って、前処理を行ったオーディオデータを入力オーディオデータとしてデジタルサウンドプロセッサ3に出力する。
また、入力処理部2は、入力オーディオデータのデジタルサウンドプロセッサ3への出力に先だって、入力オーディオデータのサンプリングレートと、当入力オーディオデータが表す音声の周波数帯域の上限を検出し、制御部6に通知する。ここで、オーディオデータが表す音声の周波数帯域の上限は、入力オーディオデータの周波数スペクトルを解析して検出するようにしてもよい。または、オーディオソース1から取り込むオーディオデータが圧縮符号化されたオーディオデータであれば、当該圧縮符号化されたオーディオデータのビットレート(再生時に1秒間あたりに処理すべき圧縮符号化されたオーディオデータのビット数)に応じて、入力オーディオデータが表す音声の周波数帯域の上限を検出するようにしてもよい。なお、圧縮符号化されたオーディオデータのビットレートに応じて、入力オーディオデータが表す音声の周波数帯域の上限を検出する場合には、予め、ビットレートとオーディオデータが表す音声の周波数帯域の上限との関係を登録しておき、当該登録した関係に応じて、入力オーディオデータが表す音声の周波数帯域の上限を検出するようにする。
次に、デジタルサウンドプロセッサ3は、予め設定されたプログラムに従った音声処理を行うプロセッサであり、制御部6の制御に従って、入力処理部2から入力する入力オーディオデータに対して高域補間などの音声処理を施し出力オーディオデータとしてアンプ4に出力する。
そして、アンプ4はデジタルサウンドプロセッサ3から入力する出力オーディオデータを、制御部6から設定されたゲインで増幅し、スピーカ5に出力する。
次に、図2に、デジタルサウンドプロセッサ3の高域補間を行う機能構成を示す。
図示するように、デジタルサウンドプロセッサ3は、代表点抽出部31、写像関数算出部32、補間処理部33とを備えている。ここで、これらの、代表点抽出部31、写像関数算出部32、補間処理部33の動作については後述する。
なお、デジタルサウンドプロセッサ3の代表点抽出部31、写像関数算出部32、補間処理部33は、上述のようにデジタルサウンドプロセッサ3が、予め設定されたプログラムを実行することにより実現されるものである。
次に、制御部6は予め設定されたプログラムに従った処理を行うプロセッサであり、予め設定されたプログラムに従った処理の一つとして高域補間動作制御処理を行う。
図3に、この高域補間動作制御処理の手順を示す。
図示するように、高域補間動作制御処理において制御部6は、入力処理部2からの入力オーディオデータのサンプリングレートと入力オーディオデータが表す音声の周波数帯域の上限の通知の発生を監視する(ステップ302)。
そして、通知が発生したならば、入力オーディオデータが表す音声の周波数帯域の上限の2倍以下となるように、代表点オーディオデータのサンプリングレートを決定し、決定した代表点オーディオデータのサンプリングレートを代表点抽出部31に設定する(ステップ304)。
ここで、代表点オーディオデータのサンプリングレートは、具体的には、たとえば、入力処理部2からの入力オーディオデータのサンプリングレートの2のべき乗分の1のサンプリングレートのうちの、入力オーディオデータが表す音声の周波数帯域の上限の2倍以下となる最大のサンプリングレートとする。
さて、このようにして、代表点オーディオデータのサンプリングレートを設定された代表点抽出部31は、予め定めた時間長の時間区間である単位処理区間T毎に、入力オーディオデータを、代表点オーディオデータのサンプリングレートとして設定されたサンプリングレートのオーディオデータにダウンサンプリングし、ダウンサンプリングしたオーディオデータを、当該単位処理区間Tの代表点オーディオデータとして写像関数算出部32と補間処理部33に出力する。
ここで、この入力オーディオデータの代表点オーディオデータへのダウンサンプリングは、代表点のサンプリングレートが設定された代表点オーディオデータのサンプリングレートとなるように、入力オーディオデータの単位処理区間T内のサンプルのうちから代表点とするサンプルを選定し、入力オーディオデータから、代表点として選定したサンプル以外のサンプルを間引いたオーディオデータを、当該単位処理区間T内の代表点オーディオデータとすることにより行う。
すなわち、たとえば、代表点オーディオデータのサンプリングレートとして、入力オーディオデータのサンプリングレートの1/2のサンプリングレートが設定された場合には、図4aに白丸で示す入力オーディオデータの単位処理区間T内のサンプルから、一つおきにサンプルを代表点として抽出して、図4bに黒丸で示すように、代表点として抽出した入力オーディオデータのサンプルを代表点オーディオデータの単位処理区間T内のサンプルとする。
また、たとえば、表点のサンプリングレートとして、入力オーディオデータの1/4のサンプリングレートが設定された場合には、図4aに白丸で示す入力オーディオデータの単位処理区間T内のサンプルから、三つおきにサンプルを代表点として抽出して、図4cに黒丸で示すように、代表点として抽出した入力オーディオデータのサンプルを代表点オーディオデータの単位処理区間T内のサンプルとする。
さて、以下では、このようにして生成した代表点オーディオデータの単位処理区間T内の隣接するサンプル間の区間tiを「補間区間」と呼んで説明を行う。
さて、以上のようにして、代表点オーディオデータを受け取った写像関数算出部32は、単位処理区間Tの各補間区間ti毎に、入力オーディオデータの単位処理区間Tの信号を、補間区間tiに縮小写像する写像関数ωiを、当該補間区間tiの写像関数ωiとして算出し補間処理部33に設定する。
ここで、補間区間tiの写像関数ωiの算出は次のように行う。
すなわち、 xiを代表点オーディオデータの単位時間区間T内のi番目のサンプルの時間位置、yiを単位時間区間T内のi番目のサンプルのサンプル値(大きさ)として、ai、ei、ci、fiを下式(1)-(4)によって定義する。なお、x0は代表点オーディオデータの単位時間区間Tの始点となるサンプルの時間位置、y0は単位時間区間Tの始点となるサンプルのサンプル値(大きさ)、xMは代表点オーディオデータの単位時間区間Tの終点となるサンプルの時間位置、yMは単位時間区間Tの終点となるサンプルのサンプル値(大きさ)を表している。
但し、diとしては、μnを単位時間区間T内の入力オーディオデータのn番目のサンプルの時間位置、νnを単位時間区間T内の入力オーディオデータのn番目のサンプルのサンプル値(大きさ)として、
下式(5)を最小とする値を用いる。
ここで、式(5)におけるmは、Dを入力オーディオデータの隣接するサンプル間の時間間隔として下式(6)によって定める。
但し、式(6)において、 []はガウスの記号であり、 [X]はXを超えない最大の整数を表す。
なお、式(5)は、αn、βnを式(7)、(8)のように定義すると、式(9)のように変形することができる。
そして、式(5)、式(9)を最小とするdiは、式(10)によって求めることができる。
そして、以上のようにして定まる、ai、ei、ci、fiを用いて、補間区間tiの写像関数ωiを下式(11)によって設定する。
なお、式11において、pnは、単位時間区間T内の入力オーディオデータのn番目のサンプルの写像関数ωiによる写像後の時間位置を、qnは単位時間区間T内の入力オーディオデータのn番目のサンプルの写像関数ωiによる写像後のサンプル値(大きさ)を表す。
ところで、以上の写像関数ωiの算出は、計算を簡単にするために、単位時間区間Tの時間長が1となるように、各時間を正規化した上で行うようにしてもよい。
さて、図3に戻り、代表点オーディオデータのサンプリングレートを代表点抽出部31に設定したならば(ステップ304)、制御部6は、高域補間後オーディオデータのサンプリングレートと代表点オーディオデータのサンプリングレートとの比に応じて写像元サンプル位置を算定して補間処理部33に設定し(ステップ306)、ステップ302からの処理に戻る。なお、高域補間後オーディオデータのサンプリングレートとは、デジタルサウンドプロセッサ3において高域補間したオーディオデータである高域補間後オーディオデータのサンプリングレートとして予め設定されているサンプリングレートである。
ただし、本実施形態では、高域補間後オーディオデータのサンプリングレートと入力オーディオデータのサンプリングレートとは、高域補間後オーディオデータのサンプリングレートが、入力オーディオデータのサンプリングレートと等しいか、入力オーディオデータのサンプリングレート2のべき乗倍となる関係にあり、高域補間後オーディオデータのサンプリングレートは、代表点オーディオデータのサンプリングレートの2のべき乗倍となるものとする。
ここで、ステップ306の写像元サンプル位置の算定は次のように行う。
すなわち、高域補間後オーディオデータのサンプリングレートが、代表点オーディオデータのサンプリングレートの2のn乗倍であれば、単位処理区間Tを2n個の等時間長の時間区間に分割したときの、分割位置となる時間位置を写像元サンプル位置として算定する。なお、単位処理区間Tの始点と終点は、写像元サンプル位置として算定されない。ただし、単位処理区間Tの終点も写像元サンプル位置として算定するようにしてもよい。
結果、たとえば、高域補間後オーディオデータのサンプリングレートが、代表点オーディオデータのサンプリングレートの2倍であれば、図5a1に入力オーディオデータの写像元サンプル位置のサンプルを二重丸で示すように、単位処理区間Tの中央の時間位置が写像元サンプル位置として算定され、高域補間後オーディオデータのサンプリングレートが、代表点オーディオデータのサンプリングレートの4倍であれば、図5b1に入力オーディオデータの写像元サンプル位置のサンプルを二重丸で示すように、単位処理区間Tの始点から単位処理区間Tの時間長の1/4離れた時間位置と、単位処理区間Tの中央の時間位置と、単位処理区間Tの終点から単位処理区間Tの時間長の1/4離れた時間位置とが写像元サンプル位置として算定される。
さて、このようにして写像元サンプル位置が設定された補間処理部33は、単位処理区間Tの補間区間tiのそれぞれについて、当該補間区間tiについて写像関数算出部32で算出された写像関数ωiを用いて、単位処理区間Tの入力オーディオデータの各写像元サンプル位置にあるサンプルを、代表点オーディオデータの各代表点の間に写像することにより、代表点オーディオデータをアップサンプリングし、高域補間後オーディオデータとして出力する。
すなわち、たとえば、図5a1のように、単位処理区間Tの中央の時間位置が写像元サンプル位置として設定されている場合には、図5a2に示すように、代表点オーディオデータの各補間区間tiについて、入力オーディオデータの当該写像元サンプル位置にある一つの二重丸のサンプルが、当該補間区間tiの写像関数ωiを用いて当該補間区間tiの中央の時間位置に写像されて、代表点オーディオデータがアップサンプリングされ、アップサンプリングされた代表点オーディオデータが高域補間後オーディオデータとして出力される。
また、図5b1のように、単位処理区間Tの始点から単位処理区間Tの1/4離れた時間位置と、単位処理区間Tの中央の時間位置と、単位処理区間Tの終点から単位処理区間Tの1/4離れた時間位置とが写像元サンプル位置として設定されている場合には、図5b2に示すように、代表点オーディオデータの各補間区間tiについて、入力オーディオデータの当該写像元サンプル位置にある3つの二重丸のサンプルが、当該補間区間tiの写像関数ωiを用いて当該補間区間の当該補間区間tiの始点から補間区間の時間長の1/4離れた時間位置と、当該補間区間tiの中央の時間位置と、当該補間区間tiの終点から補間区間の時間長の1/4離れた時間位置に写像されて、代表点オーディオデータがアップサンプリングされ、アップサンプリングされた代表点オーディオデータが高域補間後オーディオデータとして出力される。
なお、以上の補間処理部33の処理において、各写像元サンプル位置にある入力オーディオデータのサンプルが代表点オーディオデータのサンプルとして代表点オーディオデータに含まれている場合には、その代表点オーディオデータのサンプルを写像元サンプル位置にある入力オーディオデータのサンプルに代えて用いるようにしてもよい。
さて、このようにして、補間処理部33から出力された高域補間後オーディオデータはそのまま、もしくは、デジタルサウンドプロセッサ3において周波数特性調整処理等の他の音声信号処理が施された後、出力オーディオデータとしてアンプ4に出力される。
ここで、以上のようにして生成した高域補間後オーディオデータの周波数特性を図7bに示す。
図7bは、オーディオデータのサンプリングレートが96kHz、オーディオデータが表す音声の周波数帯域の上限が20kHz、ダウンサンプリング後の代表点オーディオデータのサンプリングレートが48kHz、高域補間後オーディオデータのサンプリングレートが96kHzである場合について表しており、図中、SIがオーディオデータの周波数特性を、SOがFIFによって高域を補間したオーディオデータの周波数特性を表している。
上述した図7aの比較よりも示されるように、本実施形態で高域補間した高域補間後のオーディオデータでは、図7bのように入力オーディオデータが表す音声の周波数帯域の上限Fmax周辺の高域成分も欠落なく補間されている。
よって、本実施形態によれば、オーディオデータが表す音声の周波数帯域の上限に関わらずに、良好に高域を補間することができる。
1…オーディオソース、2…入力処理部、3…デジタルサウンドプロセッサ、4…アンプ、5…スピーカ、6…制御部、31…代表点抽出部、32…写像関数算出部、33…補間処理部。

Claims (9)

  1. オーディオデータの高域補間を行う音声処理装置であって、
    前記高域補間の対象とするオーディオデータである入力オーディオデータが表す音声の周波数帯域の上限を検出する周波数帯域上限検出部と、
    前記周波数帯域上限検出部が検出した上限の2倍以下のサンプリングレートとなるように、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成するダウンサンプリング部と、
    前記ダウンサンプリング部が生成した中間オーディオデータを、FIF(Fractal Interpolation Functions)によってアップサンプリングして、高域補間後のオーディオデータを生成するアップサンプリング部とを有することを特徴とする音声処理装置。
  2. 請求項1記載の音声処理装置であって、
    前記ダウンサンプリング部は、前記入力オーディオデータのサンプリングレートの2のべき乗分の1のサンプリングレートのうちの、前記周波数帯域上限検出部が検出した上限の2倍以下のサンプリングレートとなる最大のサンプリングレートに、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成し、
    前記アップサンプリング部は、前記中間オーディオデータを、FIF(Fractal Interpolation Functions)によって、当該中間オーディオデータのサンプリングレートの2のべき乗倍のサンプリングレートにアップサンプリングして、前記高域補間後のオーディオデータを生成することを特徴とする音声処理装置。
  3. 請求項1または2記載の音声処理装置であって、
    前記入力オーディオデータは、圧縮符号化されたオーディオデータを復号したオーディオデータであり、
    前記周波数帯域上限検出部は、前記圧縮符号化されたオーディオデータの再生時に単位時間あたりに処理すべき当該圧縮符号化されたオーディオデータのビット数を表すビットレートに基づいて、前記入力オーディオデータが表す音声の周波数帯域の上限を検出することを特徴とする音声処理装置。
  4. 音声処理を行う音声処理装置において、オーディオデータの高域補間を行う音声処理方法であって、
    前記音声処置装置が、前記高域補間の対象とするオーディオデータである入力オーディオデータが表す音声の周波数帯域の上限を検出する周波数帯域上限検出ステップと、
    前記音声処置装置が、前記周波数帯域上限検出ステップで検出した上限の2倍以下のサンプリングレートとなるように、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成するダウンサンプリングステップと、
    前記音声処置装置が、前記ダウンサンプリングステップで生成した中間オーディオデータを、FIF(Fractal Interpolation Functions)によってアップサンプリングして、高域補間後のオーディオデータを生成するアップサンプリング部とを有することを特徴とする音声処理方法。
  5. 請求項4記載の音声処理方法であって、
    前記ダウンサンプリングステップにおいて、前記入力オーディオデータのサンプリングレートの2のべき乗分の1のサンプリングレートのうちの、前記周波数帯域上限検出ステップで検出した上限の2倍以下のサンプリングレートとなる最大のサンプリングレートに、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成し、
    前記アップサンプリングステップにおいて、前記中間オーディオデータを、FIF(Fractal Interpolation Functions)によって、当該中間オーディオデータのサンプリングレートの2のべき乗倍のサンプリングレートにアップサンプリングして、前記高域補間後のオーディオデータを生成することを特徴とする音声処理方法。
  6. 請求項4または5記載の音声処理方法であって、
    前記入力オーディオデータは、圧縮符号化されたオーディオデータを復号したオーディオデータであり、
    前記周波数帯域上限検出ステップにおいて、前記圧縮符号化されたオーディオデータの再生時に単位時間あたりに処理すべき当該圧縮符号化されたオーディオデータのビット数を表すビットレートに基づいて、前記入力オーディオデータが表す音声の周波数帯域の上限を検出することを特徴とする音声処理方法。
  7. コンピュータによって読み取られ実行されるコンピュータプログラムであって、
    前記コンピュータを、
    高域補間の対象とするオーディオデータである入力オーディオデータが表す音声の周波数帯域の上限を検出する周波数帯域上限検出部と、
    前記周波数帯域上限検出部が検出した上限の2倍以下のサンプリングレートとなるように、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成するダウンサンプリング部と、
    前記ダウンサンプリング部が生成した中間オーディオデータを、FIF(Fractal Interpolation Functions)によってアップサンプリングして、高域補間後のオーディオデータを生成するアップサンプリング部として機能させることを特徴とするコンピュータプログラム。
  8. 請求項7記載のコンピュータプログラムであって、
    前記ダウンサンプリング部は、前記入力オーディオデータのサンプリングレートの2のべき乗分の1のサンプリングレートのうちの、前記周波数帯域上限検出部が検出した上限の2倍以下のサンプリングレートとなる最大のサンプリングレートに、前記入力オーディオデータを当該入力オーディオデータからサンプルを間引くことによりダウンサンプリングして、中間オーディオデータを生成し、
    前記アップサンプリング部は、前記中間オーディオデータを、FIF(Fractal Interpolation Functions)によって、当該中間オーディオデータのサンプリングレートの2のべき乗倍のサンプリングレートにアップサンプリングして、前記高域補間後のオーディオデータを生成することを特徴とするコンピュータプログラム。
  9. 請求項7または8記載のコンピュータプログラムであって、
    前記入力オーディオデータは、圧縮符号化されたオーディオデータを復号したオーディオデータであり、
    前記周波数帯域上限検出部は、前記圧縮符号化されたオーディオデータの再生時に単位時間あたりに処理すべき当該圧縮符号化されたオーディオデータのビット数を表すビットレートに基づいて、前記入力オーディオデータが表す音声の周波数帯域の上限を検出することを特徴とするコンピュータプログラム。
JP2016105691A 2016-05-26 2016-05-26 音声処理装置、音声処理方法及びコンピュータプログラム Active JP6621709B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016105691A JP6621709B2 (ja) 2016-05-26 2016-05-26 音声処理装置、音声処理方法及びコンピュータプログラム
US15/468,572 US10109295B2 (en) 2016-05-26 2017-03-24 Audio processing apparatus and audio processing method
EP17172658.1A EP3249649B1 (en) 2016-05-26 2017-05-24 Audio processing apparatus and audio processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016105691A JP6621709B2 (ja) 2016-05-26 2016-05-26 音声処理装置、音声処理方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2017211558A JP2017211558A (ja) 2017-11-30
JP6621709B2 true JP6621709B2 (ja) 2019-12-18

Family

ID=58772505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016105691A Active JP6621709B2 (ja) 2016-05-26 2016-05-26 音声処理装置、音声処理方法及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US10109295B2 (ja)
EP (1) EP3249649B1 (ja)
JP (1) JP6621709B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023130644A (ja) * 2022-03-08 2023-09-21 アルプスアルパイン株式会社 音響信号処理装置、音響システム及び低音感の増強方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP2005084370A (ja) 2003-09-09 2005-03-31 Alpine Electronics Inc Fifを用いたサンプリングレート変換方法
JP4567412B2 (ja) 2004-10-25 2010-10-20 アルパイン株式会社 音声再生機および音声再生方法
JP4593364B2 (ja) 2005-05-24 2010-12-08 アルパイン株式会社 オーディオデータの補間方法および補間装置
JP4906858B2 (ja) 2006-07-31 2012-03-28 パイオニア株式会社 帯域拡張装置及び方法
US8554349B2 (en) 2007-10-23 2013-10-08 Clarion Co., Ltd. High-frequency interpolation device and high-frequency interpolation method
JP5008596B2 (ja) 2008-03-19 2012-08-22 アルパイン株式会社 サンプリングレート変換装置およびその変換方法

Also Published As

Publication number Publication date
US20170345442A1 (en) 2017-11-30
US10109295B2 (en) 2018-10-23
JP2017211558A (ja) 2017-11-30
EP3249649A1 (en) 2017-11-29
EP3249649B1 (en) 2018-09-26

Similar Documents

Publication Publication Date Title
CN106463106B (zh) 用于音频接收的风噪声降低
JP5439586B2 (ja) 低複雑度の聴覚イベント境界検出
JP6401521B2 (ja) 信号処理装置及び信号処理方法
JP2005287041A (ja) サンプリングレート変換システム、サンプリングレート変換方法及びサンプリングレート変換装置
JP2008052117A (ja) 雑音除去装置、方法及びプログラム
JP6621709B2 (ja) 音声処理装置、音声処理方法及びコンピュータプログラム
JP2008102206A (ja) 高域信号補間方法及び高域信号補間装置
JP2011081033A (ja) 信号処理装置、及び携帯端末装置
JP2010145426A (ja) オーディオ帯域拡張装置
JP6547451B2 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
CN113035225A (zh) 视觉声纹辅助的语音分离方法及装置
JP2014032364A (ja) 音処理装置、音処理方法及びプログラム
JP6730580B2 (ja) 帯域拡張装置および帯域拡張方法
JP2007036710A (ja) アタック信号増幅デジタル信号処理装置
JP2009265422A (ja) 情報処理装置及び情報処理方法
EP3618312B1 (en) Signal processing device, signal processing method and program
JP2000099097A (ja) 信号再生装置及び方法、音声信号再生装置、並びに、音声信号の速度変換方法
JP2007282089A (ja) オーディオ信号処理装置,オーディオ信号処理方法,プログラムおよび記憶媒体
US8462026B2 (en) Pulse code modulation conversion circuit and method
JP6506424B2 (ja) 音響装置、欠落帯域推定装置、信号処理方法及び周波数帯域推定装置
JP2011044909A (ja) 音声処理装置およびその動作方法
JP2008216469A (ja) 音声信号処理装置および音声信号処理方法ならびにプログラム
US20170244423A1 (en) Dynamic Range Extension of Analog-to-Digital Converters
JP2007272057A (ja) オーディオ信号処理装置,オーディオ信号処理方法,プログラムおよび記憶媒体
JP2005117421A (ja) フィルタ回路

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191120

R150 Certificate of patent or registration of utility model

Ref document number: 6621709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150