JP2012022166A - 音声処理装置、音声処理方法および電話装置 - Google Patents

音声処理装置、音声処理方法および電話装置 Download PDF

Info

Publication number
JP2012022166A
JP2012022166A JP2010160346A JP2010160346A JP2012022166A JP 2012022166 A JP2012022166 A JP 2012022166A JP 2010160346 A JP2010160346 A JP 2010160346A JP 2010160346 A JP2010160346 A JP 2010160346A JP 2012022166 A JP2012022166 A JP 2012022166A
Authority
JP
Japan
Prior art keywords
audio signal
correction amount
far
band
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010160346A
Other languages
English (en)
Other versions
JP5589631B2 (ja
Inventor
Kaori Endo
香緒里 遠藤
Takeshi Otani
猛 大谷
Hitoshi Sasaki
均 佐々木
Mitsuyoshi Matsubara
光良 松原
Rika Nishiike
理香 西池
Kaoru Nakajo
薫 中条
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010160346A priority Critical patent/JP5589631B2/ja
Priority to US13/072,992 priority patent/US9070372B2/en
Priority to EP20110160750 priority patent/EP2407966A1/en
Publication of JP2012022166A publication Critical patent/JP2012022166A/ja
Application granted granted Critical
Publication of JP5589631B2 publication Critical patent/JP5589631B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Abstract

【課題】再生される音声の品質を向上させること。
【解決手段】遠端音声取得部11は、ネットワークを介して受信された第一音声信号を取得する。擬似帯域拡張部12は、遠端音声取得部11によって取得された第一音声信号に基づき生成した拡張帯域成分により第一音声信号の帯域を拡張する。近端音声取得部13は、第一音声信号を再生する再生機器の周辺の音声を示す第二音声信号を取得する。補正量算出部14は、近端音声取得部13によって取得された第二音声信号に含まれる騒音成分に基づく補正量を算出する。補正部15は、擬似帯域拡張部12によって帯域を拡張された第一音声信号の拡張帯域成分のパワーを、補正量算出部14によって算出された補正量によって補正する。出力部16は、補正部15によって拡張帯域成分のパワーが補正された第一音声信号を再生機器へ出力する。
【選択図】図1

Description

本発明は、音声信号を処理する音声処理装置、音声処理方法および電話装置に関する。
たとえば携帯電話やVoIP(Voice over Internet Protocol)においては、音声信号が狭帯域化(たとえば300[Hz]〜3400[Hz])されて伝送されるため、受話音声が劣化する(たとえば籠もり感の発生)。これに対して、従来、狭帯域音声信号の周波数成分を拡張帯域にコピーすることで擬似的に広帯域化する技術が知られている。たとえば、入力信号の成分を高域に複写することで高域信号を生成し、入力信号を全波整流することで低域信号を得る方法が示されている(たとえば、下記特許文献1参照。)。
特開平9−90992号公報
しかしながら、上述した従来技術では、受信された音声信号に含まれる騒音や再生側の騒音によっては、帯域拡張の効果を十分に得られなかったり、帯域拡張の副作用によってさらに音質が劣化したりすることがある。このため、上述した従来技術では、再生される音声の品質を十分に向上させることができないという問題がある。
開示の音声処理装置、音声処理方法および電話装置は、上述した問題点を解消するものであり、再生される音声の品質を向上させることを目的とする。
上述した課題を解決し、目的を達成するため、開示技術は、狭帯域化された入力信号から複数の周波数帯域に変換された音声信号を取得し、取得された音声信号の狭帯域成分に基づいて、前記音声信号の帯域を拡張する拡張帯域成分を生成し、前記拡張帯域成分のパワーを、取得された音声信号に含まれる騒音成分に基づいて定まる補正量によって補正し、補正された前記拡張帯域成分と取得された音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を出力する。
開示の音声処理装置、音声処理方法および電話装置によれば、再生される音声の品質を向上させることができるという効果を奏する。
実施の形態1にかかる音声処理装置を示すブロック図である。 遠端音声取得部によって取得される遠端音声信号の一例を示す図である。 擬似帯域拡張部によって帯域を拡張された遠端音声信号の一例を示す図である。 音声処理装置の動作の一例を示すフローチャートである。 実施の形態1にかかる補正量の算出動作の一例を示すフローチャートである。 近端騒音成分と補正量との関係を示すグラフである。 音声処理装置を適用した携帯電話装置の一例を示すブロック図である。 携帯電話装置を適用した通信システムの一例を示す図である。 実施の形態2にかかる音声処理装置を示すブロック図である。 実施の形態2にかかる補正量の算出動作の一例を示すフローチャートである。 遠端騒音成分と補正量との関係を示すグラフである。 実施の形態3にかかる音声処理装置を示すブロック図である。 実施の形態3にかかる補正量の算出動作の一例を示すフローチャートである。 遠端騒音成分に対する近端騒音成分の比率と補正量との関係を示すグラフである。 実施の形態4にかかる補正量の算出動作の一例を示すフローチャートである。 近端騒音成分に対する音声成分の比率と補正量との関係を示すグラフである。 実施の形態5にかかる音声処理装置を示すブロック図である。 実施の形態5にかかる補正量の算出動作の一例を示すフローチャートである。 近端騒音成分に対する帯域拡張後の遠端音声信号の比率と補正量との関係を示すグラフである。 実施の形態6にかかる補正量の算出動作の一例を示すフローチャートである。 近端騒音成分の定常性と補正量との関係を示すグラフである。 フレーム間のパワースペクトルの差と定常性との関係を示すグラフである。 実施の形態7にかかる補正量の算出動作の一例を示すフローチャートである。 遠端騒音成分の定常性と補正量との関係を示すグラフである。 実施の形態8にかかる補正量の算出動作の一例を示すフローチャートである。 近端騒音成分および遠端騒音成分の類似性と補正量との関係を示すグラフである。 各騒音成分のパワースペクトル差と類似性との関係を示すグラフである。 実施の形態9にかかる補正量の算出動作の一例を示すフローチャートである。 拡張帯域成分と狭帯域成分との境界付近の補間を示す図である。 遠端音声信号のパワースペクトルの例を示す図(その1)である。 遠端音声信号のパワースペクトルの例を示す図(その2)である。 遠端音声信号のパワースペクトルの例を示す図(その3)である。 遠端音声信号のパワースペクトルの例を示す図(その4)である。 音声処理装置の変形例1を示すブロック図である。 音声処理装置の変形例2を示すブロック図である。 対応テーブルの一例を示す図である。
以下に添付図面を参照して、開示技術の好適な実施の形態を詳細に説明する。
(実施の形態1)
(音声処理装置の構成)
図1は、実施の形態1にかかる音声処理装置を示すブロック図である。図1に示すように、実施の形態1にかかる音声処理装置10は、遠端音声取得部11と、擬似帯域拡張部12と、近端音声取得部13と、補正量算出部14と、補正部15と、出力部16と、AGC17と、を備えている。
遠端音声取得部11および近端音声取得部13のそれぞれは、狭帯域化された入力信号から複数の周波数帯域に変換された音声信号を取得する音声信号取得手段である。また、遠端音声取得部11および近端音声取得部13のそれぞれは、たとえばFFT(Fast Fourier Transform:高速フーリエ変換)部によって実現することができる。また、遠端音声取得部11および近端音声取得部13のそれぞれは、たとえば20[msec]単位で音声信号を取得する。
遠端音声取得部11は、遠端音声信号(第一音声信号)を取得する第一取得手段である。遠端音声信号は、ネットワークを介して受信された音声信号である。たとえば、遠端音声取得部11は、音声処理装置10の前段に設けられた受信回路から遠端音声信号を取得する。遠端音声取得部11は、取得した遠端音声信号を擬似帯域拡張部12へ出力する。
擬似帯域拡張部12は、遠端音声取得部11から出力された遠端音声信号(狭帯域成分)に基づき生成した拡張帯域成分により、遠端音声取得部11から出力された遠端音声信号の帯域を擬似的に拡張する拡張手段である。帯域の擬似的な拡張については後述する。擬似帯域拡張部12は、帯域を拡張した遠端音声信号を補正部15へ出力する。
近端音声取得部13は、近端音声信号(第二音声信号)を取得する第二取得手段である。近端音声信号は、音声処理装置10によって処理された遠端音声信号を再生する再生機器の周辺の音声を示す音声信号である。たとえば、近端音声取得部13は、遠端音声信号を再生する再生機器の周辺に設けられたマイクから近端音声信号を取得する。近端音声信号は、たとえば狭帯域化された信号である。近端音声取得部13は、取得した近端音声信号を補正量算出部14へ出力する。
補正量算出部14は、近端音声取得部13から出力された近端音声信号に含まれる騒音成分(以下、近端騒音成分と称する)に基づく補正量を算出する算出手段である。たとえば、補正量算出部14は、近端音声信号から近端騒音成分を抽出する。近端騒音成分の抽出には、種々の方法を用いることができる。たとえば、補正量算出部14は、雑音予測手段によって雑音の周波数領域の信号を得る方法によって近端音声信号から近端騒音成分を抽出する(たとえば、特許2830276号参照)。たとえば、近端音声信号に含まれる無音区間を抽出し、抽出した無音区間から雑音成分を予測することができる。
補正量算出部14は、抽出した近端騒音成分の大きさに基づく補正量を算出する。たとえば、補正量算出部14は、抽出した近端騒音成分が大きいほど大きな補正量を算出する。補正量算出部14は、算出した補正量を補正部15へ出力する。
補正部15は、擬似帯域拡張部12から出力された遠端音声信号の拡張帯域成分のパワーを、補正量算出部14から出力された補正量によって補正する補正手段である。補正部15は、拡張帯域成分のパワーを補正した遠端音声信号を出力部16へ出力する。
出力部16は、補正部15から出力された遠端音声信号を時間帯域に変換して再生機器へ出力する出力手段である。出力部16は、たとえばIFFT(Inverse Fast Fourier Transform:逆高速フーリエ変換)部によって実現することができる。これにより、擬似的に帯域が拡張された遠端音声信号が再生機器によって再生される。
また、遠端音声取得部11と擬似帯域拡張部12の間にはAGC17(Automatic Gain Control)が設けられていてもよい。AGC17は、遠端音声取得部11から擬似帯域拡張部12へ出力される遠端音声信号の利得一定制御を行う。また、AGC17は、補正部15と出力部16の間や、遠端音声取得部11の前段や、出力部16の後段などに設けられていてもよい。また、音声処理装置10において、AGC17を省いた構成としてもよい。
(遠端音声信号の例)
図2は、遠端音声取得部によって取得される遠端音声信号の一例を示す図である。図2において、横軸は周波数を示し、縦軸はパワーを示す。帯域成分21は、遠端音声取得部11によって取得される遠端音声信号の一例を示している。帯域成分21の帯域は、たとえば300[Hz]〜3400[Hz]である。また、ネットワークを介して受信された遠端音声信号は、元の音声信号よりも帯域が狭くなる。ここでは、たとえば元の音声信号には含まれていた3400[Hz]より高い帯域22が帯域成分21に含まれていない。
図3は、擬似帯域拡張部によって帯域を拡張された遠端音声信号の一例を示す図である。図3において、横軸は周波数を示し、縦軸はパワーを示す。また、図3において、図2に示した部分と同様の部分については同一の符号を付して説明を省略する。
擬似帯域拡張部12は、たとえば、帯域成分21を帯域22に複製することによって帯域22の高周波側に拡張帯域成分31を生成する。また、擬似帯域拡張部12は、たとえば、遠端音声信号を波形処理(たとえば全波整流)によって歪ませることによって帯域22の低周波側に拡張帯域成分32を生成する。そして、擬似帯域拡張部12は、帯域成分21および拡張帯域成分31,32を、帯域を拡張した遠端音声信号として出力する。
(音声処理装置の動作)
図4は、音声処理装置の動作の一例を示すフローチャートである。図4に示すように、まず、遠端音声取得部11が、遠端音声信号を取得する(ステップS41)。つぎに、擬似帯域拡張部12が、ステップS41によって取得された遠端音声信号の帯域を擬似的に拡張する(ステップS42)。つぎに、補正量算出部14が、遠端音声信号の拡張帯域成分の補正量を算出する(ステップS43)。
つぎに、補正部15が、ステップS42によって帯域を拡張された遠端音声信号の拡張帯域成分のパワーを、ステップS43によって算出された補正量によって補正する(ステップS44)。つぎに、出力部16が、ステップS44によって補正された遠端音声信号を再生機器へ出力し(ステップS45)、一連の動作を終了する。
(補正量の算出)
図5は、実施の形態1にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、近端音声信号から近端騒音成分を抽出する(ステップS51)。つぎに、ステップS51によって抽出された近端騒音成分の大きさに基づく補正量を算出し(ステップS52)、一連の算出動作を終了する。
図6は、近端騒音成分と補正量との関係を示すグラフである。図6において、横軸は近端騒音成分の大きさを示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のNminは、近端騒音成分の最小値(たとえば−50[dB])である。横軸のNmaxは、近端騒音成分の最大値(たとえば50[dB])である。縦軸のAminは、補正量の最小値(たとえば0.0)である。縦軸のAmaxは、補正量の最大値(たとえば2.0)である。
ここで、遠端音声取得部11および近端音声取得部13によって取得される音声信号の各周波数に対応するインデックスをiとする。遠端音声取得部11および近端音声取得部13におけるFFTの周波数の分割数をFNとすると、iは0〜FN−1の範囲の値となる。たとえば、遠端音声取得部11および近端音声取得部13が0〜8[kHz]の帯域を31.25[Hz]の帯域で分割する場合は、FNは256となる。
拡張帯域成分の周波数のインデックスをi=FB〜FEとする。FBは、拡張帯域成分の周波数のインデックスの最小値である。FEは、拡張帯域成分の周波数のインデックスの最小値である(FE=FN−1)。補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(1)式によって補正量Aiを算出する。Niは、周波数iの近端騒音成分の大きさである。
Figure 2012022166
上記(1)式によって補正量を算出することで、近端騒音成分と補正量との関係は図6の関係60に示すようになる。このように、補正量算出部14は、近端騒音成分が大きいほど大きな補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
遠端音声信号を再生する再生機器の周辺の騒音が大きい場合は、拡張帯域成分のマスキング量が大きくなり、遠端音声信号の帯域拡張の効果をユーザが感知しにくくなる。これに対して、近端騒音成分が大きいほど拡張帯域成分のパワーを大きくする補正量を算出することで、近端騒音が大きい場合に拡張帯域成分のパワーを大きくし、帯域拡張による効果をユーザが感知しやすくすることができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
(拡張帯域成分の補正)
補正部15は、たとえば下記(2)式によって遠端音声信号の拡張帯域成分のパワーを補正する。Siは、擬似帯域拡張部12から出力された遠端音声信号における周波数iのパワースペクトルである。Si’は、補正部15による補正後の帯域拡張における周波数iのパワースペクトルである。
Si’=Ai×Si …(2)
ここで、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)についてはAi=1.0となっているため、周波数i(0〜FB−1)についてはSi’はSiと同じになり補正されない。これにより、拡張帯域成分(i=FB〜FE)のパワーを補正した遠端音声信号を得ることができる。このように、補正部15は、たとえば、周波数iごとに、拡張帯域成分のパワーに補正量を乗算することによって遠端音声信号の拡張帯域成分のパワーを補正する。
(音声処理装置の適用例)
図7は、音声処理装置を適用した携帯電話装置の一例を示すブロック図である。図7に示すように、携帯電話装置70は、受信回路71と、復号回路72と、音声処理装置10と、受話器73と、送話器74と、前処理回路75と、符号化回路76と、送信回路77と、を備えている。
受信回路71は、たとえば基地局から無線送信された音声信号を受信する。受信回路71は、受信した音声信号を復号回路72へ出力する。復号回路72は、受信回路71から出力された音声信号を復号する。復号回路72によって行われる復号には、たとえばFEC(Forward Error Correction)などが含まれる。復号回路72は、復号した音声信号を音声処理装置10へ出力する。復号回路72から音声処理装置10へ出力される音声信号は、ネットワークを介して受信された遠端音声信号である。
音声処理装置10は、復号回路72から出力された遠端音声信号の帯域を擬似的に拡張して受話器73へ出力する。たとえば、音声処理装置10の遠端音声取得部11は、復号回路72から出力された遠端音声信号を取得する。音声処理装置10の出力部16は、帯域が拡張された遠端音声信号を受話器73へ出力する。
なお、図示しないが、たとえば、音声処理装置10と受話器73との間にはアナログ変換器が設けられており、音声処理装置10から受話器73へ出力されるデジタルの遠端音声信号はアナログ信号に変換される。受話器73は、音声処理装置10の出力部16から出力された遠端音声信号を受話音として再生する再生機器である。
送話器74は、送話音を音声信号に変換して前処理回路75へ出力する。前処理回路75は、送話器74から出力された音声信号をサンプリングすることによってデジタル信号に変換する。前処理回路75は、デジタル信号に変換した音声信号を音声処理装置10および符号化回路76へ出力する。
前処理回路75から出力される音声信号は、遠端音声信号を再生する再生機器(受話器73)の周辺の音声を示す近端音声信号である。音声処理装置10の近端音声取得部13は、前処理回路75から出力された近端音声信号を取得する。符号化回路76は、前処理回路75から出力された音声信号を符号化する。符号化回路76は、符号化した音声信号を送信回路77へ出力する。送信回路77は、符号化回路76から出力された音声信号を、たとえば基地局へ無線送信する。
なお、ここでは携帯電話装置70に音声処理装置10を適用する構成について説明したが、音声処理装置10の適用先は携帯電話装置70に限らない。たとえば、音声処理装置10は、固定の電話装置などに適用することもできる。また、音声処理装置10は、音声信号の送信機能を持たない音声信号の受信装置などに適用することもできる。また、前処理回路75から出力された音声信号を近端音声信号として音声処理装置10が取得する構成について説明したが、受話器73の付近にマイクなどを別途設けて得た音声信号を近端音声信号として音声処理装置10が取得する構成としてもよい。
図8は、携帯電話装置を適用した通信システムの一例を示す図である。図8に示すように、通信システム80は、携帯電話装置81,82と、基地局83,84と、ネットワーク85と、を含んでいる。携帯電話装置81,82のそれぞれには、たとえば図7に示した携帯電話装置70を適用することができる。携帯電話装置81は、基地局83との間で無線通信を行う。携帯電話装置82は、基地局84との間で無線通信を行う。
基地局83,84は、ネットワーク85を介して互いに有線の通信を行う。たとえば、携帯電話装置82は、携帯電話装置81から基地局83、ネットワーク85および基地局84を介して送信された音声信号を遠端音声信号として受信する。また、携帯電話装置82は、携帯電話装置82の周辺の音声を示す音声信号を近端音声信号として取得する。
このように、実施の形態1にかかる音声処理装置10によれば、近端音声信号に含まれる騒音成分に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
(実施の形態2)
(音声処理装置の構成)
図9は、実施の形態2にかかる音声処理装置を示すブロック図である。図9において、図1に示した構成と同様の構成については同一の符号を付して説明を省略する。図9に示すように、実施の形態2にかかる音声処理装置10は、遠端音声取得部11と、擬似帯域拡張部12と、補正量算出部14と、補正部15と、出力部16と、を備えている。また、実施の形態2においては、図1に示した近端音声取得部13を省いてもよい。
遠端音声取得部11は、取得した遠端音声信号を擬似帯域拡張部12および補正量算出部14へ出力する。補正量算出部14は、遠端音声取得部11から出力された遠端音声信号に含まれる騒音成分(以下、遠端騒音成分と称する)に基づく補正量を算出する。たとえば、補正量算出部14は、遠端音声信号から遠端騒音成分を抽出する。遠端騒音成分の抽出には、種々の方法を用いることができる。
たとえば、補正量算出部14は、雑音予測手段によって雑音の周波数領域の信号を得る方法によって遠端音声信号から遠端騒音成分を抽出する(たとえば、特許2830276号参照)。たとえば、近端音声信号に含まれる無音区間を抽出し、抽出した無音区間から雑音成分を予測することができる。補正量算出部14は、抽出した遠端騒音成分の大きさに基づく補正量を算出する。たとえば、補正量算出部14は、抽出した遠端騒音成分が大きいほど小さな補正量を算出する。
また、図9に示す音声処理装置10を、図1に示した音声処理装置10のように、利得一定制御を行うAGC17を設けた構成としてもよい。
(遠端音声信号の例,音声処理装置の動作)
実施の形態2にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態2にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態2にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(補正量の算出)
図10は、実施の形態2にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、遠端音声信号から遠端騒音成分を抽出する(ステップS101)。つぎに、ステップS101によって抽出された遠端騒音成分の大きさに基づく補正量を算出し(ステップS102)、一連の算出動作を終了する。
図11は、遠端騒音成分と補正量との関係を示すグラフである。図6において、横軸は遠端騒音成分の大きさを示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のNfminは、遠端騒音成分の最小値(たとえば−50[dB])である。横軸のNfmaxは、遠端騒音成分の最大値(たとえば50[dB])である。
補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(3)式によって周波数iの補正量Aiを算出する。Nfiは、周波数iにおける遠端騒音成分の大きさである。kは、擬似帯域拡張部12において周波数iの成分を生成するために使用した周波数のインデックスである。擬似帯域拡張部12において全波整流などの方法で帯域拡張し、周波数iの成分を生成するために使用した周波数のインデックスが決まらない場合は、k=i−mとする。mは、擬似帯域拡張部12へ入力された遠端音声信号の最大周波数に相当するインデックスである。
Figure 2012022166
また、上記(3)式によって補正量を算出することで、遠端騒音成分と補正量との関係は図11の関係110に示すようになる。このように、補正量算出部14は、遠端騒音成分が大きいほど小さな補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
遠端音声信号の帯域拡張を行うと遠端音声信号に含まれる遠端騒音成分も拡張されるため、遠端音声信号に含まれる遠端騒音成分が大きい場合は音質の劣化が大きくなる。これに対して、遠端騒音成分が大きいほど拡張帯域成分のパワーを小さくする補正量を算出することで、遠端騒音成分が大きい場合に拡張帯域成分のパワーを小さくし、音質の劣化を抑えることができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態2にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態2にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
このように、実施の形態2にかかる音声処理装置10によれば、遠端音声信号に含まれる騒音成分に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
(実施の形態3)
(音声処理装置の構成)
図12は、実施の形態3にかかる音声処理装置を示すブロック図である。図12において、図1に示した構成と同様の構成については同一の符号を付して説明を省略する。図12に示すように、実施の形態3にかかる音声処理装置10における遠端音声取得部11は、取得した遠端音声信号を擬似帯域拡張部12および補正量算出部14へ出力する。
補正量算出部14は、遠端音声取得部11から出力された遠端音声信号に含まれる遠端騒音成分に対する、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分の比率に基づく補正量を算出する。たとえば、補正量算出部14は、遠端音声信号から遠端騒音成分を抽出する。また、補正量算出部14は、近端音声信号から近端騒音成分を抽出する。そして、補正量算出部14は、抽出した遠端騒音成分に対する、抽出した近端騒音成分の比率を算出し、算出した比率に基づく補正量を算出する。たとえば、補正量算出部14は、算出した比率が高いほど大きな補正量を算出する。
また、図12に示す音声処理装置10を、図1に示した音声処理装置10のように、利得一定制御を行うAGC17を設けた構成としてもよい。
(遠端音声信号の例,音声処理装置の動作)
実施の形態3にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態3にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態3にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(補正量の算出)
図13は、実施の形態3にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、遠端音声信号から遠端騒音成分を抽出する(ステップS131)。つぎに、近端音声信号から近端騒音成分を抽出する(ステップS132)。つぎに、ステップS131によって抽出された遠端騒音成分に対する、ステップS132によって抽出された近端騒音成分の比率を算出する(ステップS133)。つぎに、ステップS133によって算出された比率に基づく補正量を算出し(ステップS134)、一連の算出動作を終了する。
図14は、遠端騒音成分に対する近端騒音成分の比率と補正量との関係を示すグラフである。図14において、横軸は遠端騒音成分に対する近端騒音成分の比率(NNR)を示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のNNRminは、遠端騒音成分に対する近端騒音成分の比率の最小値(たとえば−50[dB])である。横軸のNNRmaxは、遠端騒音成分に対する近端騒音成分の比率の最大値(たとえば50[dB])である。
補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(4)式によって周波数iの補正量Aiを算出する。NNRiは、周波数iにおける遠端騒音成分に対する近端騒音成分の比率であり、NNRi=Ni−Nfkである。
Figure 2012022166
また、上記(4)式によって補正量を算出することで、遠端騒音成分に対する近端騒音成分の比率と補正量との関係は図14の関係140に示すようになる。このように、補正量算出部14は、遠端騒音成分に対する近端騒音成分の比率が高いほど大きな補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
遠端音声信号を再生する再生機器の周辺の騒音が大きい場合は、拡張帯域成分のマスキング量が大きくなり、遠端音声信号の帯域拡張の効果をユーザが感知しにくくなる。一方、遠端音声信号に含まれる遠端騒音成分が大きい場合は、遠端音声信号の帯域拡張によって遠端騒音成分も拡張されるため、音質の劣化が大きくなる。
これに対して、遠端騒音成分に対する近端騒音成分の比率が高いほど拡張帯域成分のパワーを大きくする補正量を算出することで、帯域拡張による効果をユーザが感知しやすく、かつ音質の劣化を抑えることができるように拡張帯域成分を補正することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態3にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態3にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
このように、実施の形態3にかかる音声処理装置10によれば、遠端騒音成分に対する近端騒音成分の比率に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
(実施の形態4)
(音声処理装置の構成)
実施の形態4にかかる音声処理装置10の構成については、実施の形態3と同様である(たとえば図12参照)。ただし、補正量算出部14は、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分に対する、遠端音声取得部11から出力された遠端音声信号に含まれる音声成分の比率に基づく補正量を算出する。遠端音声信号に含まれる音声成分は、遠端音声信号に含まれる成分のうちの遠端音声成分を除いた成分である。たとえば、補正量算出部14は、近端音声信号から近端騒音成分を抽出する。また、補正量算出部14は、遠端音声信号から音声成分を抽出する。
遠端音声信号からの音声成分の抽出には、種々の方法を用いることができる(たとえば、特開2005−165021号公報参照)。補正量算出部14は、抽出した近端騒音成分に対する音声成分の比率を算出し、算出した比率に基づく補正量を算出する。たとえば、補正量算出部14は、算出した比率が高いほど大きな補正量を算出する。
(遠端音声信号の例,音声処理装置の動作)
実施の形態4にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態4にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態4にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(補正量の算出)
図15は、実施の形態4にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、近端音声信号から近端騒音成分を抽出する(ステップS151)。つぎに、遠端音声信号から音声成分を抽出する(ステップS152)。つぎに、ステップS151によって抽出された近端騒音成分に対する、ステップS152によって抽出された音声成分の比率を算出する(ステップS153)。つぎに、ステップS153によって算出された比率に基づく補正量を算出し(ステップS154)、一連の算出動作を終了する。
図16は、近端騒音成分に対する音声成分の比率と補正量との関係を示すグラフである。図16において、横軸は近端騒音成分に対する音声成分の比率(VfNnR)を示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のVfNnRminは、近端騒音成分に対する音声成分の比率の最小値(たとえば−50[dB])である。横軸のVfNnRmaxは、近端騒音成分に対する音声成分の比率の最大値(たとえば50[dB])である。
補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(5)式によって周波数iの補正量Aiを算出する。VfNnRiは、周波数iにおける近端騒音成分に対する音声成分の比率であり、VfNnRi=Vfk−Nniである。Vfkは周波数kにおける音声成分の大きさである。Nniは周波数iにおける近端騒音成分の大きさである。
Figure 2012022166
また、上記(5)式によって補正量を算出することで、近端騒音成分に対する音声成分の比率と補正量との関係は図16の関係160に示すようになる。このように、補正量算出部14は、近端騒音成分に対する音声成分の比率が高いほど小さい補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
遠端音声信号を再生する再生機器の周辺の騒音(近端騒音成分)が大きいほど、拡張帯域成分のマスキング量が大きくなり、遠端音声信号の帯域拡張の効果をユーザが感知しにくくなる。一方、遠端音声信号が小さいほど、小さなパワーの拡張帯域成分が生成されるため、遠端音声信号の帯域拡張による音質の向上効果が小さくなる。
そのため、近端騒音成分に対する音声成分の比率が高いほど、拡張帯域成分のマスキング量による影響が、遠端音声信号の帯域拡張による音質の向上効果の影響よりも大きくなる。換言すると、近端騒音成分に対する音声成分の比率が低いほど、遠端音声信号の帯域拡張による音質の向上効果の影響が、拡張帯域成分のマスキング量による影響よりも大きくなる。
補正量算出部14は、近端騒音成分に対する音声成分の比率が高いほど拡張帯域成分のパワーを小さくする補正量を算出する。これにより、帯域拡張による効果をユーザが感知しやすく、かつ遠端音声信号の帯域拡張による音質の向上効果が大きくなるように拡張帯域成分のパワーを補正することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態4にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態4にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
このように、実施の形態4にかかる音声処理装置10によれば、近端騒音成分に対する音声成分の比率に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
(実施の形態5)
(音声処理装置の構成)
図17は、実施の形態5にかかる音声処理装置を示すブロック図である。図17において、図1に示した構成と同様の構成については同一の符号を付して説明を省略する。図17に示すように、実施の形態5にかかる音声処理装置10における擬似帯域拡張部12は、帯域を拡張した遠端音声信号を補正部15および補正量算出部14へ出力する。
補正量算出部14は、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分に対する、擬似帯域拡張部12から出力された遠端音声信号の比率に基づく補正量を算出する。たとえば、補正量算出部14は、近端音声信号から近端騒音成分を抽出する。そして、補正量算出部14は、抽出した近端騒音成分に対する遠端音声信号の比率を算出し、算出した比率に基づく補正量を算出する。たとえば、補正量算出部14は、算出した比率が高いほど小さな補正量を算出する。
また、図17に示す音声処理装置10を、図1に示した音声処理装置10のように、利得一定制御を行うAGC17を設けた構成としてもよい。
(遠端音声信号の例,音声処理装置の動作)
実施の形態5にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態5にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態5にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(補正量の算出)
図18は、実施の形態5にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、近端音声信号から近端騒音成分を抽出する(ステップS181)。つぎに、ステップS181によって抽出された近端騒音成分に対する、擬似帯域拡張部12の帯域拡張後の遠端音声信号の比率を算出する(ステップS182)。つぎに、ステップS182によって算出された比率に基づく補正量を算出し(ステップS183)、一連の算出動作を終了する。
図19は、近端騒音成分に対する帯域拡張後の遠端音声信号の比率と補正量との関係を示すグラフである。図19において、横軸は近端騒音成分に対する帯域拡張後の遠端音声信号の比率(PNnR)を示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のPNnRminは、近端騒音成分に対する帯域拡張後の遠端音声信号の比率の最小値(たとえば−50[dB])である。横軸のPNnRmaxは、近端騒音成分に対する帯域拡張後の遠端音声信号の比率の最大値(たとえば50[dB])である。
補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(6)式によって周波数iの補正量Aiを算出する。PNnRiは、周波数iにおける近端騒音成分に対する帯域拡張後の遠端音声信号の比率であり、PNnRi=Pi−Nniである。Piは、擬似帯域拡張部12によって帯域を拡張された遠端音声信号の周波数iにおける大きさである。
Figure 2012022166
また、上記(6)式によって補正量を算出することで、近端騒音成分に対する帯域拡張後の遠端音声信号の比率と補正量との関係は図19の関係190に示すようになる。このように、補正量算出部14は、近端騒音成分に対する帯域拡張後の遠端音声信号の比率が高いほど小さな補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
遠端音声信号を再生する再生機器の周辺の騒音(近端騒音成分)が大きいほど、拡張帯域成分のマスキング量が大きくなり、遠端音声信号の帯域拡張の効果をユーザが感知しにくくなる。一方、帯域拡張後の遠端音声信号が小さいほど、遠端音声信号の帯域拡張による音質の向上効果が小さくなる。
これに対して、補正量算出部14は、近端騒音成分に対する帯域拡張後の遠端音声信号の比率が高いほど拡張帯域成分のパワーを小さくする補正量を算出する。これにより、帯域拡張による効果をユーザが感知しやすく、かつ遠端音声信号の帯域拡張による音質の向上効果が大きくなるように拡張帯域成分のパワーを補正することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態5にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態5にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
このように、実施の形態5にかかる音声処理装置10によれば、近端騒音成分に対する帯域拡張後の遠端音声信号の比率に基づく補正量によって拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
(実施の形態6)
(音声処理装置の構成)
実施の形態6にかかる音声処理装置10の構成については、実施の形態1と同様である(たとえば図1参照)。ただし、補正量算出部14は、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分の定常性に基づく補正量を算出する。たとえば、補正量算出部14は、近端音声信号から近端騒音成分を抽出し、抽出した近端騒音成分の定常性を算出する。補正量算出部14は、算出した定常性に基づく補正量を算出する。たとえば、補正量算出部14は、算出した定常性が高いほど小さな補正量を算出する。
(遠端音声信号の例,音声処理装置の動作)
実施の形態6にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態6にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態6にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(補正量の算出)
図20は、実施の形態6にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、近端音声信号から近端騒音成分を抽出する(ステップS201)。つぎに、ステップS201によって算出された近端騒音成分の定常性を算出する(ステップS202)。つぎに、ステップS202によって算出された定常性に基づく補正量を算出し(ステップS203)、一連の算出動作を終了する。
図21は、近端騒音成分の定常性と補正量との関係を示すグラフである。図21において、横軸は近端騒音成分の定常性を示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のTnminは、近端騒音成分の定常性の最小値(たとえば0.0)である。横軸のTnmaxは、近端騒音成分の定常性の最大値(たとえば1.0)である。補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(7)式によって周波数iの補正量Aiを算出する。Tniは、周波数iにおける近端騒音成分の定常性である。
Figure 2012022166
また、上記(7)式によって補正量を算出することで、近端騒音成分の定常性と補正量との関係は図21の関係210に示すようになる。このように、補正量算出部14は、近端騒音成分の定常性が高いほど小さい補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
一般に、定常性が高い音声ほどユーザが感知しにくい音声となる。たとえば、遠端音声信号を再生する再生機器の周辺の騒音(近端騒音成分)の定常性が高いほど、ユーザは周辺の騒音を感知しにくくなり、その結果として拡張帯域成分のマスキング量が小さくなる。一方、遠端音声信号を再生する再生機器の周辺の騒音(近端騒音成分)の定常性が低いほど、ユーザは周辺の騒音を感知しやすくなり、その結果として拡張帯域成分のマスキング量が大きくなる。
これに対して、補正量算出部14は、近端騒音成分の定常性が高いほど拡張帯域成分のパワーを小さくする補正量を算出する。これにより、拡張帯域成分をユーザが感知しやすくなる場合に拡張帯域成分のパワーを小さくし、音質の劣化を抑えることができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
(定常性の算出)
図22は、フレーム間のパワースペクトルの差と定常性との関係を示すグラフである。図22において、横軸は近端騒音成分のフレーム間のパワースペクトルの差(ΔX)を示し、縦軸は補正量算出部14によって算出される定常性を示している。横軸のΔXminは、近端騒音成分のフレーム間のパワースペクトルの差の最小値(たとえば−0.1)である。横軸のΔXmaxは、近端騒音成分のフレーム間のパワースペクトルの差の最大値(たとえば0.3)である。縦軸のTminは、定常性の最小値である。縦軸のTmaxは、定常性の最大値である。
補正量算出部14は、周波数i=0〜FN/2−1について、たとえば下記(8)式によって現フレームの周波数iにおけるパワースペクトルXiを算出する。SPi_REは、現フレームの信号の複素スペクトルの実部である。SPi_imは、現フレームの信号の複素スペクトルの虚部である。
Xi=SPi_RE×SPi_RE+SPi_im×SPi_im …(8)
また、補正量算出部14は、算出したパワースペクトルXiに基づいて、周波数i=0〜FN/2−1について、たとえば下記(9)式によって平均パワースペクトルEiを算出する。Ei_prevは、前フレームの平均パワースペクトルである。coefは、更新係数である(0<coef<1)。
Ei=coef×Xi+(1−coef)×Ei_prev …(9)
また、補正量算出部14は、算出したパワースペクトルXiおよび平均パワースペクトルEiに基づいて、周波数i=0〜FN/2−1について、たとえば下記(10)式によって差ΔXiを算出する。差ΔXiは、平均パワースペクトルEiで正規化した、前フレームとのパワースペクトルの周波数iにおける差である。Xi_prevは、前フレームの周波数iにおけるパワースペクトルである。
ΔXi=(Xi−Xi_prev)/Ei …(10)
また、補正量算出部14は、算出した差ΔXiに基づいて、周波数i=0〜FN/2−1について、たとえば下記(11)式によって周波数iにおける定常性Tiを算出する。Tiは、近端騒音成分の周波数iにおける定常性である。Tminは、近端騒音成分の定常性の最小値(たとえば0.0)である。Tmaxは、近端騒音成分の定常性の最大値(たとえば1.0)である。
Figure 2012022166
上記(11)式によって定常性Tiを算出することで、フレーム間のパワースペクトルの差ΔXiと定常性Tiとの関係は図22の関係220に示すようになる。このように、フレーム間のパワースペクトルの差ΔXiが大きいほど定常性Tiが低くなる。
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態6にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態6にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
このように、実施の形態6にかかる音声処理装置10によれば、近端騒音成分の定常性に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
(実施の形態7)
(音声処理装置の構成)
実施の形態7にかかる音声処理装置10の構成については、実施の形態2と同様である(たとえば図9参照)。ただし、補正量算出部14は、遠端音声取得部11から出力された遠端音声信号に含まれる遠端騒音成分の定常性に基づく補正量を算出する。たとえば、補正量算出部14は、遠端音声信号から遠端騒音成分を抽出し、抽出した遠端騒音成分の定常性を算出する。補正量算出部14は、算出した定常性に基づく補正量を算出する。たとえば、補正量算出部14は、算出した定常性が高いほど小さな補正量を算出する。
(遠端音声信号の例,音声処理装置の動作)
実施の形態7にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態7にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態7にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(補正量の算出)
図23は、実施の形態7にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、遠端音声信号から遠端騒音成分を抽出する(ステップS231)。つぎに、ステップS231によって算出された遠端騒音成分の定常性を算出する(ステップS232)。つぎに、ステップS232によって算出された定常性に基づく補正量を算出し(ステップS233)、一連の算出動作を終了する。
図24は、遠端騒音成分の定常性と補正量との関係を示すグラフである。図24において、横軸は遠端騒音成分の定常性を示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のTfminは、遠端騒音成分の定常性の最小値(たとえば−50[dB])である。横軸のTfmaxは、遠端騒音成分の定常性の最大値(たとえば50[dB])である。補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(12)式によって周波数iの補正量Aiを算出する。
Figure 2012022166
また、上記(12)式によって補正量を算出することで、遠端騒音成分の定常性と補正量との関係は図24の関係240に示すようになる。このように、補正量算出部14は、遠端騒音成分の定常性が高いほど小さい補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
一般に、定常性が高い音声ほどユーザが感知しにくい音声となる。たとえば、遠端騒音成分の定常性が高いほど、ユーザは遠端騒音成分を感知しにくくなり、その結果として拡張帯域成分のマスキング量が小さくなる。一方、遠端騒音成分の定常性が低いほど、ユーザは遠端騒音成分を感知しやすくなり、その結果として拡張帯域成分のマスキング量が大きくなる。
これに対して、補正量算出部14は、遠端騒音成分の定常性が高いほど拡張帯域成分のパワーを小さくする補正量を算出する。これにより、拡張帯域成分をユーザが感知しやすくなる場合に拡張帯域成分のパワーを小さくし、音質の劣化を抑えることができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
(定常性の算出,拡張帯域成分の補正,音声処理装置の適用例)
実施の形態7にかかる補正部15による遠端騒音成分の定常性の算出については、実施の形態6における近端騒音成分の定常性の算出と同様である(たとえば上記(8)式〜(11)式および図22参照)。また、実施の形態7にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態7にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
このように、実施の形態7にかかる音声処理装置10によれば、遠端騒音成分の定常性に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
(実施の形態8)
(音声処理装置の構成)
実施の形態8にかかる音声処理装置10の構成については、実施の形態3と同様である(たとえば図12参照)。ただし、補正量算出部14は、遠端音声取得部11から出力された遠端音声信号に含まれる遠端騒音成分と、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分と、の類似性に基づく補正量を算出する。
たとえば、補正量算出部14は、遠端音声信号から遠端騒音成分を抽出するとともに、近端音声信号から近端騒音成分を抽出し、抽出した遠端騒音成分と近端騒音成分との類似性を算出する。補正量算出部14は、算出した類似性に基づく補正量を算出する。たとえば、補正量算出部14は、算出した類似性が高いほど大きな補正量を算出する。
(遠端音声信号の例,音声処理装置の動作)
実施の形態8にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態8にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態8にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(補正量の算出)
図25は、実施の形態8にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、近端音声信号から近端騒音成分を抽出する(ステップS251)。つぎに、遠端音声信号から遠端騒音成分を抽出する(ステップS252)。つぎに、ステップS251によって算出された近端騒音成分と、ステップS252によって算出された遠端騒音成分と、の類似性を算出する(ステップS253)。つぎに、ステップS253によって算出された類似性に基づく補正量を算出し(ステップS254)、一連の算出動作を終了する。
図26は、近端騒音成分および遠端騒音成分の類似性と補正量との関係を示すグラフである。図26において、横軸は近端騒音成分と遠端騒音成分との類似性を示し、縦軸は補正量算出部14によって算出される補正量を示している。横軸のSminは、近端騒音成分と遠端騒音成分との類似性の最小値(たとえば0.0)である。横軸のSmaxは、近端騒音成分と遠端騒音成分との類似性の最大値(たとえば1.0)である。補正量算出部14は、周波数i=FB〜FEの補正量については、たとえば下記(13)式によって周波数iの補正量Aiを算出する。
Figure 2012022166
また、上記(13)式によって補正量を算出することで、近端騒音成分および遠端騒音成分の類似性と補正量との関係は図26の関係260に示すようになる。このように、補正量算出部14は、近端騒音成分と遠端騒音成分との類似性が高いほど大きな補正量を算出する。また、補正量算出部14は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。
一般に、類似性が高い各音声ほどユーザが聞き分けにくい各音声となる。たとえば、近端騒音成分と遠端騒音成分との類似性が高いほど、近端騒音成分と遠端音声信号の拡張帯域成分との類似性も高くなるため、ユーザが拡張帯域成分を感知しにくくなる。一方、近端騒音成分と遠端騒音成分との類似性が低いほど、近端騒音成分と遠端音声信号の拡張帯域成分との類似性も低くなるため、ユーザが拡張帯域成分を感知しやすくなる。
これに対して、補正量算出部14は、近端騒音成分と遠端騒音成分との類似性が高いほど拡張帯域成分のパワーを大きくする補正量を算出する。これにより、遠端音声信号の拡張帯域成分をユーザが感知しにくくなる場合に拡張帯域成分のパワーを大きくし、帯域拡張による効果をユーザが感知しやすくすることができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。
(類似性の算出)
図27は、各騒音成分のパワースペクトル差と類似性との関係を示すグラフである。図27において、横軸は近端騒音成分と遠端騒音成分とのパワースペクトル差を示し、縦軸は補正量算出部14によって算出される類似性を示している。横軸のDminは、近端騒音成分と遠端騒音成分とのパワースペクトル差の最小値(たとえば0.0)である。横軸のDmaxは、近端騒音成分と遠端騒音成分とのパワースペクトル差の最大値(たとえば1.0)である。縦軸のSminは、類似性の最小値(たとえば0.0)である。縦軸のSmaxは、類似性の最大値(たとえば1.0)である。
補正量算出部14は、周波数i=0〜FN/2−1について、たとえば下記(14)式によって現フレームの周波数iにおける近端騒音成分の正規化パワースペクトルXNiを算出する。SPNi_reは、近端騒音成分の周波数iにおける複素スペクトルの実部である。SPNi_imは、近端騒音成分の周波数iにおける複素スペクトルの虚部である。sは、開始インデックス(たとえば300[Hz]に対応するインデックス)である。eは、終了インデックス(たとえば3400[Hz]に対応するインデックス)である。
Figure 2012022166
また、補正量算出部14は、周波数i=0〜FN/2−1について、たとえば下記(15)式によって現フレームの周波数iにおける遠端騒音成分の正規化パワースペクトルXFiを算出する。SPFi_reは、遠端騒音成分の周波数iにおける複素スペクトルの実部である。SPFi_imは、遠端騒音成分の周波数iにおける複素スペクトルの虚部である。sは、開始インデックス(たとえば300[Hz]に対応するインデックス)である。eは、終了インデックス(たとえば3400[Hz]に対応するインデックス)である。
Figure 2012022166
また、補正量算出部14は、算出した正規化パワースペクトルXNiおよび正規化パワースペクトルXFiに基づいて、周波数i=0〜FN/2−1について、たとえば下記(16)式によってパワースペクトル差Dを算出する。パワースペクトル差Dは、近端騒音成分と遠端騒音成分のパワースペクトル差である。
Figure 2012022166
また、補正量算出部14は、算出したパワースペクトル差Dに基づいて、たとえば下記(17)式によって近端騒音成分と遠端騒音成分との類似性Sを算出する。
Figure 2012022166
上記(17)式によって類似性Sを算出することで、各騒音成分のパワースペクトル差と類似性との関係は図27の関係270に示すようになる。このように、各騒音成分のパワースペクトル差が大きいほど類似性が低くなる。
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態8にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態8にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
このように、実施の形態8にかかる音声処理装置10によれば、近端騒音成分と遠端騒音成分との類似性に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスを調整することができる。このため、遠端音声信号に基づいて再生される音声の質を向上させることができる。また、拡張帯域成分の複数の周波数について補正量を算出することで、複数の周波数について適切な補正を行い、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
(実施の形態9)
実施の形態9にかかる音声処理装置10は、上述した各実施の形態にかかる各方法で複数の補正量を算出し、算出した複数の補正量を用いて拡張帯域成分のパワーを補正する。たとえば、音声処理装置10は、実施の形態1〜8にかかる各方法のうちの少なくとも2つの方法で算出した補正量をそれぞれ重み付けして加算し、加算した補正量によって拡張帯域成分のパワーを補正する。
各補正量の重み付け係数は、各補正量の重要度などに応じてあらかじめ設定しておく。ここでは、一例として、実施の形態1にかかる方法で算出した補正量と、実施の形態2にかかる方法で算出した補正量と、をそれぞれ重み付けして加算し、加算した補正量によって拡張帯域成分のパワーを補正する場合について説明する。
(音声処理装置の構成)
実施の形態9にかかる音声処理装置10の構成については、実施の形態3と同様である(たとえば図12参照)。ただし、補正量算出部14は、遠端音声取得部11から出力された遠端音声信号に含まれる遠端騒音成分に基づく補正量と、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分に基づく補正量と、をそれぞれ重み付けして加算する。近端音声取得部13は、加算した補正量を補正量算出部14へ出力する。
たとえば、補正量算出部14は、近端音声信号から近端騒音成分を抽出し、抽出した近端騒音成分に基づく補正量を算出する(たとえば実施の形態1参照)。また、補正量算出部14は、遠端音声信号から遠端騒音成分を抽出し、抽出した遠端騒音成分に基づく補正量を算出する(たとえば実施の形態2参照)。また、補正量算出部14は、算出した各補正量にそれぞれ重み付け係数を乗算する。そして、補正量算出部14は、重み付け係数を乗算した各補正量を加算し、加算した補正量を補正量算出部14へ出力する。
(遠端音声信号の例,音声処理装置の動作)
実施の形態9にかかる遠端音声取得部11によって取得される遠端音声信号の例については実施の形態1と同様である(たとえば図2参照)。また、実施の形態9にかかる擬似帯域拡張部12によって帯域を拡張された遠端音声信号の例については実施の形態1と同様である(たとえば図3参照)。また、実施の形態9にかかる音声処理装置10の動作の例については実施の形態1と同様である(たとえば図4参照)。
(補正量の算出)
図28は、実施の形態9にかかる補正量の算出動作の一例を示すフローチャートである。補正量算出部14は、たとえば以下の各ステップによって補正量を算出する。まず、近端騒音成分に基づく補正量を算出する(ステップS281)。つぎに、遠端騒音成分に基づく補正量を算出する(ステップS282)。つぎに、ステップS281,S282によって算出された各補正量に重み付け係数を乗算する(ステップS283)。つぎに、ステップS283によって乗算された各補正量を加算し(ステップS284)、一連の算出動作を終了する。
(拡張帯域成分の補正,音声処理装置の適用例)
実施の形態9にかかる補正部15による拡張帯域成分の補正については実施の形態1と同様である(たとえば上記(2)式参照)。また、実施の形態9にかかる音声処理装置10の適用例については実施の形態1と同様である(たとえば図7,図8参照)。
このように、実施の形態9にかかる音声処理装置10によれば、複数の方法で補正量を算出し、算出した各補正量を用いて拡張帯域成分のパワーを補正することで、帯域拡張の効果と副作用のバランスをより柔軟に調整することができる。このため、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
(実施の形態10)
実施の形態10にかかる音声処理装置10の補正量算出部14は、上述した各実施の形態にかかる各方法のいずれかによって複数の補正量を算出する。そして、補正量算出部14は、拡張帯域成分と狭帯域成分との境界付近の所定幅の帯域成分について当該帯域における周波数ごとに定まる補正量を補正部15へ出力する。ここでは実施の形態10にかかる音声処理装置10による補正量の算出について説明するが、音声処理装置10の他の処理等については上述した各実施の形態と同様である。
(補正量の算出)
実施の形態10にかかる音声処理装置10の補正量算出部14は、拡張帯域成分と狭帯域成分との境界付近の所定幅の帯域成分について当該帯域における周波数ごとに定まる補正量を補正部15へ出力する。たとえば、補正量算出部14は、算出した補正量Aiのうちの、拡張帯域成分と狭帯域成分との境界付近の所定幅の帯域成分を、当該帯域の両側の周波数における補正量Aiに基づいて補間することで平滑化する。
これにより、補正部15によって拡張帯域成分の補正を行っても、遠端音声信号における拡張帯域成分と狭帯域成分との境界付近に急激なパワー勾配ができることを回避し、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
図29は、拡張帯域成分と狭帯域成分との境界付近の補間を示す図である。図29において、横軸は周波数帯域のインデックスを示し、縦軸は補正量Aiを示している。境界帯域291は、拡張帯域成分と狭帯域成分との境界付近の所定幅の帯域成分を示している。たとえば、境界帯域291は、拡張帯域成分と狭帯域成分との境界の周波数(たとえば周波数FB)を含み所定の幅を有するように設定される。
帯域292は、境界帯域291より低周波側の帯域を示している。帯域293は、境界帯域291より高周波側の帯域を示している。周波数F1は、境界帯域291と帯域292との境界の周波数である。周波数F2は、境界帯域291と帯域293との境界の周波数である。補正量AF1は、周波数F1について補正量算出部14が算出した補正量である。補正量AF2は、周波数F2について補正量算出部14が算出した補正量である。
補正量算出部14は、たとえば、算出した補正量AF1および補正量AF2に基づいて、境界帯域291の各補正量Aiを補間する。たとえば、補正量算出部14は、下記(18)式によって境界帯域291の補間後の各補正量Ai’を算出する。
Figure 2012022166
関係290は、境界帯域291における周波数iと補正量Aiの関係を示している。このように、補正量算出部14は、算出した補正量AF1および補正量AF2に基づいて、境界帯域291の各補正量Aiを線形に補間することができる。これにより、境界帯域291において急激なパワー勾配ができることを回避することができる。
また、補正量算出部14は、帯域292および帯域293の補間後の各補正量Ai’については、補間前の各補正量Aiと同じ値とする。補正量算出部14は、補間後の補正量Ai’を補正部15へ出力する。補正部15は、補正量算出部14から出力された補正量Ai’に基づいて、遠端音声信号の拡張帯域成分のパワーを補正する。
なお、補正量算出部14は、周波数F1と周波数F2との間の周波数における補正量Aiを算出しないようにしてもよい。この場合も、補正量算出部14は、境界帯域291の補正量Ai’を、補正量AF1および補正量AF2に基づいて補間することによって得ることができる。
このように、実施の形態10にかかる音声処理装置10は、拡張帯域成分と狭帯域成分との境界付近の所定幅の帯域成分について当該帯域における周波数ごとに定まる補正量により補正された音声信号を出力する。これにより、拡張帯域成分の補正を行っても、拡張帯域成分と狭帯域成分との境界付近に急激なパワー勾配ができることを回避し、遠端音声信号に基づいて再生される音声の質をさらに向上させることができる。
(遠端音声信号のパワースペクトルの例)
つぎに、上述した各実施の形態にかかる音声処理装置10の補正部15による補正の前後における遠端音声信号のパワースペクトルの例を示す。ここでは、一例として、図9に示した音声処理装置10における遠端音声信号のパワースペクトルを示す。
図30〜図33は、遠端音声信号のパワースペクトルの例を示す図である。図30〜図33において、横軸は周波数を示し、縦軸はパワーを示している。パワースペクトル300は、遠端音声信号のパワースペクトルである。狭帯域成分301は遠端音声信号の狭帯域成分(たとえばi=0〜FB−1)である。拡張帯域成分302は遠端音声信号の拡張帯域成分(たとえばi=FB〜FE)である。
図30に示すパワースペクトル300は、遠端音声信号に含まれる騒音成分が比較的大きい場合における、補正部15による補正前の遠端音声信号のパワースペクトルである。図31に示すパワースペクトル300は、図30と同様に遠端音声信号に含まれる騒音成分が比較的大きい場合における、補正部15による補正後の遠端音声信号のパワースペクトルである。図30および図31に示すように、この場合は、パワースペクトル300のうちの拡張帯域成分302のパワーを低下させるように補正が行われる。
図32に示すパワースペクトル300は、遠端音声信号に含まれる騒音成分が比較的小さい場合における、補正部15による補正前の遠端音声信号のパワースペクトルである。図33に示すパワースペクトル300は、図32と同様に遠端音声信号に含まれる騒音成分が比較的小さい場合における、補正部15による補正後の遠端音声信号のパワースペクトルである。図32および図33に示すように、この場合は、パワースペクトル300のうちの拡張帯域成分302のパワーをほぼ維持するように補正が行われる。
(音声処理装置の変形例)
つぎに、上述した各実施の形態にかかる音声処理装置10の変形例について説明する。ここでは図1に示した音声処理装置10の変形例について説明するが、上述した他の音声処理装置10についても同様の変形が可能である。
図34は、音声処理装置の変形例1を示すブロック図である。図34において、図1に示した構成と同様の構成については同一の符号を付して説明を省略する。図34に示すように、音声処理装置10において、遠端音声信号の狭帯域成分については、補正部15を経由させずに出力部16から出力するようにしてもよい。
たとえば、擬似帯域拡張部12は、生成した拡張帯域成分を補正部15へ出力するとともに、遠端音声信号の狭帯域成分を出力部16へ出力してもよい。補正部15は、擬似帯域拡張部12から出力された拡張帯域成分を補正して出力部16へ出力する。出力部16は、補正部15から出力された拡張帯域成分と、擬似帯域拡張部12から出力された狭帯域成分と、に基づいて、帯域を拡張された遠端音声信号を出力する。
また、図示しないが、遠端音声取得部11から擬似帯域拡張部12へ出力される遠端音声信号の狭帯域成分を分岐し、分岐した各狭帯域成分をそれぞれ擬似帯域拡張部12および出力部16へ出力してもよい。そして、擬似帯域拡張部12は、生成した拡張帯域成分を補正部15へ出力する。補正部15は、擬似帯域拡張部12から出力された拡張帯域成分を補正して出力部16へ出力する。出力部16は、補正部15から出力された拡張帯域成分と、遠端音声取得部11から出力された狭帯域成分と、に基づいて、帯域を拡張された遠端音声信号を出力する。
図35は、音声処理装置の変形例2を示すブロック図である。図35において、図1に示した構成と同様の構成については同一の符号を付して説明を省略する。図35に示すように、音声処理装置10は、補正量算出部14に代えて補正量参照部351を備えていてもよい。補正量参照部351は、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分に基づく補正量を、対応テーブルを参照して導出する。
たとえば音声処理装置10のメモリには、近端騒音成分の大きさと補正量とを対応付けた対応テーブルが記憶されている。補正量参照部351は、周波数ごとに、近端音声取得部13から出力された近端音声信号に含まれる近端騒音成分の大きさに対応する補正量を対応テーブルから導出する。補正量参照部351は、導出した補正量を補正部15へ出力する。
図36は、対応テーブルの一例を示す図である。図35に示した音声処理装置10のメモリには、たとえば図36に示す対応テーブル360が記憶されている。対応テーブル360においては、近端騒音成分の大きさNiと、補正量Aiと、が対応付けられている。対応テーブル360の各値は、たとえば図6に示した関係60を離散化したものである。
補正量参照部351は、周波数i=FB〜FEの補正量については、近端騒音成分の大きさNiに対応する補正量Aiを対応テーブル360から導出する。また、補正量参照部351は、遠端音声信号の狭帯域成分の周波数i(0〜FB−1)の補正量についてはAi=1.0とする。このように、音声処理装置10は、上述した各式によって補正量Aiを算出する構成に限らず、テーブル参照により補正量Aiを導出する構成としてもよい。
なお、対応テーブル360において補正量Aiと対応付けられる項目は、上述した実施の形態ごとに異なる。たとえば、図9に示した音声処理装置10においては、対応テーブル360において、周波数iにおける遠端騒音成分の大きさNfiと、補正量Aiと、を対応付けておく。また、図12に示した音声処理装置10においては、対応テーブル360において、周波数iにおける遠端騒音成分に対する近端騒音成分の比率NNRiと、補正量Aiと、を対応付けておく。
以上説明したように、開示の音声処理装置、音声処理方法および電話装置は、帯域拡張の効果と副作用のバランスを左右する近端音声成分や遠端音声成分に基づく補正量によって遠端音声信号の拡張帯域成分のパワーを補正する。これにより、帯域拡張の効果と副作用のバランスを調整し、遠端音声信号に基づいて再生される音声の質を向上させることができる。
上述した各実施の形態に関し、さらに以下の付記を開示する。
(付記1)狭帯域化された入力信号から複数の周波数帯域に変換された音声信号を取得する音声信号取得手段と、
前記音声信号取得手段によって取得された音声信号の狭帯域成分に基づいて、前記音声信号の帯域を拡張する拡張帯域成分を生成する拡張手段と、
前記拡張帯域成分のパワーを、前記音声信号取得手段によって取得された音声信号に含まれる騒音成分に基づいて定まる補正量によって補正する補正手段と、
前記補正手段によって補正された前記拡張帯域成分と前記音声信号取得手段により取得された音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を出力する出力手段と、
を備えることを特徴とする音声処理装置。
(付記2)前記音声信号取得手段は、
狭帯域化された第一音声信号を取得する第一取得手段と、
前記第一音声信号を再生する再生機器の周辺の音声を示す第二音声信号を取得する第二取得手段と、
を有し、
前記拡張手段は、
前記音声信号取得手段により取得された音声信号として、前記第一取得手段により取得された前記第一音声信号を用い、
前記補正手段は、
前記音声信号取得手段によって取得された音声信号に含まれる騒音成分として、前記第二取得手段により取得された第二音声信号に含まれる騒音成分を用い、
前記出力手段は、
前記音声信号取得手段により取得された音声信号として、前記第一取得手段により取得された前記第一音声信号を用いることを特徴とする付記1に記載の音声処理装置。
(付記3)前記補正手段は、前記拡張帯域成分に含まれる複数の周波数ごとに、前記第二取得手段により取得された第二音声信号に基づいて定まる補正量により補正することを特徴とする付記2に記載の音声処理装置。
(付記4)前記出力手段は、前記拡張帯域成分と前記狭帯域成分との境界付近の所定幅の帯域成分について当該帯域における周波数ごとに定まる補正量により補正された音声信号を出力することを特徴とする付記1〜3のいずれか一つに記載の音声処理装置。
(付記5)前記補正手段は、前記第二取得手段により取得された第二音声信号に含まれる騒音成分の大きさに基づく補正量により補正することを特徴とする付記2または3に記載の音声処理装置。
(付記6)前記補正手段は、前記第一取得手段によって取得された第一音声信号に含まれる騒音成分と、前記第二音声信号に含まれる騒音成分と、の比率に基づく補正量により補正することを特徴とする付記2または3に記載の音声処理装置。
(付記7)前記補正手段は、前記騒音成分と、前記第一取得手段によって取得された第一音声信号に含まれる音声成分と、の比率に基づく補正量により補正することを特徴とする付記2または3に記載の音声処理装置。
(付記8)前記補正手段は、前記騒音成分の定常性に基づく補正量により補正することを特徴とする付記1〜7のいずれか一つに記載の音声処理装置。
(付記9)前記補正手段は、前記第一音声信号および前記第二音声信号に含まれる各騒音成分の類似性に基づく補正量により補正することを特徴とする付記2または3に記載の音声処理装置。
(付記10)音声信号を取得する音声信号取得工程と、
前記音声信号取得工程によって取得された音声信号の狭帯域成分に基づいて、前記音声信号の帯域を拡張する拡張帯域成分を生成する拡張工程と、
前記拡張帯域成分のパワーを、前記音声信号取得工程によって取得された音声信号に含まれる騒音成分に基づいて定まる補正量によって補正する補正工程と、
前記補正工程によって補正された前記拡張帯域成分と前記音声信号取得工程により取得された音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を出力する出力工程と、
を含むことを特徴とする音声処理方法。
(付記11)ネットワークを介して第一音声信号を受信する受信手段と、
前記受信手段によって受信された第一音声信号を取得する第一取得手段と、
前記第一取得手段によって取得された第一音声信号の狭帯域成分に基づいて、前記第一音声信号の帯域を拡張する拡張帯域成分を生成する拡張手段と、
前記第一音声信号を再生する再生機器の周辺の音声を示す第二音声信号を取得する第二取得手段と、
前記拡張手段によって生成された前記拡張帯域成分のパワーを、前記第二取得手段によって取得された第二音声信号に含まれる騒音成分に基づいて定まる補正量により補正する補正手段と、
前記補正手段によって補正された前記拡張帯域成分と前記第一音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を前記再生機器へ出力する出力手段と、
前記第二取得手段によって取得された第二音声信号を、ネットワークを介して送信する送信手段と、
を備えることを特徴とする電話装置。
21 帯域成分
22 帯域
31,32 拡張帯域成分
70,81,82 携帯電話装置
80 通信システム
83,84 基地局
85 ネットワーク

Claims (9)

  1. 狭帯域化された入力信号から複数の周波数帯域に変換された音声信号を取得する音声信号取得手段と、
    前記音声信号取得手段によって取得された音声信号の狭帯域成分に基づいて、前記音声信号の帯域を拡張する拡張帯域成分を生成する拡張手段と、
    前記拡張帯域成分のパワーを、前記音声信号取得手段によって取得された音声信号に含まれる騒音成分に基づいて定まる補正量によって補正する補正手段と、
    前記補正手段によって補正された前記拡張帯域成分と前記音声信号取得手段により取得された音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を出力する出力手段と、
    を備えることを特徴とする音声処理装置。
  2. 前記音声信号取得手段は、
    狭帯域化された第一音声信号を取得する第一取得手段と、
    前記第一音声信号を再生する再生機器の周辺の音声を示す第二音声信号を取得する第二取得手段と、
    を有し、
    前記拡張手段は、
    前記音声信号取得手段により取得された音声信号として、前記第一取得手段により取得された前記第一音声信号を用い、
    前記補正手段は、
    前記音声信号取得手段によって取得された音声信号に含まれる騒音成分として、前記第二取得手段により取得された第二音声信号に含まれる騒音成分を用い、
    前記出力手段は、
    前記音声信号取得手段により取得された音声信号として、前記第一取得手段により取得された前記第一音声信号を用いることを特徴とする請求項1に記載の音声処理装置。
  3. 前記補正手段は、前記拡張帯域成分に含まれる複数の周波数ごとに、前記第二取得手段により取得された第二音声信号に基づいて定まる補正量により補正することを特徴とする請求項2に記載の音声処理装置。
  4. 前記出力手段は、前記拡張帯域成分と前記狭帯域成分との境界付近の所定幅の帯域成分について当該帯域における周波数ごとに定まる補正量により補正された音声信号を出力することを特徴とする請求項1〜3のいずれか一つに記載の音声処理装置。
  5. 前記補正手段は、前記第二取得手段により取得された第二音声信号に含まれる騒音成分の大きさに基づく補正量により補正することを特徴とする請求項2または3に記載の音声処理装置。
  6. 前記補正手段は、前記第一取得手段によって取得された第一音声信号に含まれる騒音成分と、前記第二音声信号に含まれる騒音成分と、の比率に基づく補正量により補正することを特徴とする請求項2または3に記載の音声処理装置。
  7. 前記補正手段は、前記騒音成分と、前記第一取得手段によって取得された第一音声信号に含まれる音声成分と、の比率に基づく補正量により補正することを特徴とする請求項2または3に記載の音声処理装置。
  8. 音声信号を取得する音声信号取得工程と、
    前記音声信号取得工程によって取得された音声信号の狭帯域成分に基づいて、前記音声信号の帯域を拡張する拡張帯域成分を生成する拡張工程と、
    前記拡張帯域成分のパワーを、前記音声信号取得工程によって取得された音声信号に含まれる騒音成分に基づいて定まる補正量によって補正する補正工程と、
    前記補正工程によって補正された前記拡張帯域成分と前記音声信号取得工程により取得された音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を出力する出力工程と、
    を含むことを特徴とする音声処理方法。
  9. ネットワークを介して第一音声信号を受信する受信手段と、
    前記受信手段によって受信された第一音声信号を取得する第一取得手段と、
    前記第一取得手段によって取得された第一音声信号の狭帯域成分に基づいて、前記第一音声信号の帯域を拡張する拡張帯域成分を生成する拡張手段と、
    前記第一音声信号を再生する再生機器の周辺の音声を示す第二音声信号を取得する第二取得手段と、
    前記拡張手段によって生成された前記拡張帯域成分のパワーを、前記第二取得手段によって取得された第二音声信号に含まれる騒音成分に基づいて定まる補正量により補正する補正手段と、
    前記補正手段によって補正された前記拡張帯域成分と前記第一音声信号の狭帯域成分とに基づいて、帯域を拡張された音声信号を前記再生機器へ出力する出力手段と、
    前記第二取得手段によって取得された第二音声信号を、ネットワークを介して送信する送信手段と、
    を備えることを特徴とする電話装置。
JP2010160346A 2010-07-15 2010-07-15 音声処理装置、音声処理方法および電話装置 Expired - Fee Related JP5589631B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010160346A JP5589631B2 (ja) 2010-07-15 2010-07-15 音声処理装置、音声処理方法および電話装置
US13/072,992 US9070372B2 (en) 2010-07-15 2011-03-28 Apparatus and method for voice processing and telephone apparatus
EP20110160750 EP2407966A1 (en) 2010-07-15 2011-03-31 Method and Apparatuses for bandwidth expansion for voice communication

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010160346A JP5589631B2 (ja) 2010-07-15 2010-07-15 音声処理装置、音声処理方法および電話装置

Publications (2)

Publication Number Publication Date
JP2012022166A true JP2012022166A (ja) 2012-02-02
JP5589631B2 JP5589631B2 (ja) 2014-09-17

Family

ID=44170027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010160346A Expired - Fee Related JP5589631B2 (ja) 2010-07-15 2010-07-15 音声処理装置、音声処理方法および電話装置

Country Status (3)

Country Link
US (1) US9070372B2 (ja)
EP (1) EP2407966A1 (ja)
JP (1) JP5589631B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2899722A1 (en) 2014-01-28 2015-07-29 Fujitsu Limited Communication device
JP2019168710A (ja) * 2014-02-07 2019-10-03 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ信号復号器における改善された周波数帯域拡張

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5589631B2 (ja) * 2010-07-15 2014-09-17 富士通株式会社 音声処理装置、音声処理方法および電話装置
US10375487B2 (en) 2016-08-17 2019-08-06 Starkey Laboratories, Inc. Method and device for filtering signals to match preferred speech levels
CN107087069B (zh) * 2017-04-19 2020-02-28 维沃移动通信有限公司 一种语音通话方法及移动终端
US10553235B2 (en) * 2017-08-28 2020-02-04 Apple Inc. Transparent near-end user control over far-end speech enhancement processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002536679A (ja) * 1999-01-27 2002-10-29 コーディング テクノロジーズ スウェーデン アクチボラゲット 情報源符号化システムの性能向上方法と装置
JP2003070097A (ja) * 2001-08-24 2003-03-07 Matsushita Electric Ind Co Ltd デジタル補聴装置
JP2007171954A (ja) * 2005-12-23 2007-07-05 Qnx Software Systems (Wavemakers) Inc 狭帯域音声の帯域幅拡張
JP2010014914A (ja) * 2008-07-02 2010-01-21 Fujitsu Ltd 音声強調装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU633673B2 (en) 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
JP2830276B2 (ja) 1990-01-18 1998-12-02 松下電器産業株式会社 信号処理装置
FI102337B1 (fi) * 1995-09-13 1998-11-13 Nokia Mobile Phones Ltd Menetelmä ja piirijärjestely audiosignaalin käsittelemiseksi
JP3301473B2 (ja) 1995-09-27 2002-07-15 日本電信電話株式会社 広帯域音声信号復元方法
US20020172350A1 (en) * 2001-05-15 2002-11-21 Edwards Brent W. Method for generating a final signal from a near-end signal and a far-end signal
JP2003255973A (ja) 2002-02-28 2003-09-10 Nec Corp 音声帯域拡張システムおよび方法
US7283585B2 (en) * 2002-09-27 2007-10-16 Broadcom Corporation Multiple data rate communication system
US20040138876A1 (en) * 2003-01-10 2004-07-15 Nokia Corporation Method and apparatus for artificial bandwidth expansion in speech processing
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
JP2005101917A (ja) 2003-09-25 2005-04-14 Matsushita Electric Ind Co Ltd 電話装置
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
JP4520732B2 (ja) 2003-12-03 2010-08-11 富士通株式会社 雑音低減装置、および低減方法
US8712768B2 (en) * 2004-05-25 2014-04-29 Nokia Corporation System and method for enhanced artificial bandwidth expansion
JP5046654B2 (ja) * 2005-01-14 2012-10-10 パナソニック株式会社 スケーラブル復号装置及びスケーラブル復号方法
US8135728B2 (en) * 2005-03-24 2012-03-13 Microsoft Corporation Web document keyword and phrase extraction
MX2007012187A (es) * 2005-04-01 2007-12-11 Qualcomm Inc Sistemas, metodos y aparatos para deformacion en tiempo de banda alta.
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
JP4735419B2 (ja) 2006-05-30 2011-07-27 日本キャステム株式会社 音声通話装置
JP4733727B2 (ja) 2007-10-30 2011-07-27 日本電信電話株式会社 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体
US20090144262A1 (en) * 2007-12-04 2009-06-04 Microsoft Corporation Search query transformation using direct manipulation
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US8275139B2 (en) * 2008-03-26 2012-09-25 Ittiam Systems (P) Ltd. Linear full duplex system and method for acoustic echo cancellation
US20090281803A1 (en) * 2008-05-12 2009-11-12 Broadcom Corporation Dispersion filtering for speech intelligibility enhancement
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
JP5127754B2 (ja) * 2009-03-24 2013-01-23 株式会社東芝 信号処理装置
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
US20110125494A1 (en) * 2009-11-23 2011-05-26 Cambridge Silicon Radio Limited Speech Intelligibility
US8489393B2 (en) * 2009-11-23 2013-07-16 Cambridge Silicon Radio Limited Speech intelligibility
US8321215B2 (en) * 2009-11-23 2012-11-27 Cambridge Silicon Radio Limited Method and apparatus for improving intelligibility of audible speech represented by a speech signal
JP5589631B2 (ja) * 2010-07-15 2014-09-17 富士通株式会社 音声処理装置、音声処理方法および電話装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002536679A (ja) * 1999-01-27 2002-10-29 コーディング テクノロジーズ スウェーデン アクチボラゲット 情報源符号化システムの性能向上方法と装置
JP2003070097A (ja) * 2001-08-24 2003-03-07 Matsushita Electric Ind Co Ltd デジタル補聴装置
JP2007171954A (ja) * 2005-12-23 2007-07-05 Qnx Software Systems (Wavemakers) Inc 狭帯域音声の帯域幅拡張
JP2010014914A (ja) * 2008-07-02 2010-01-21 Fujitsu Ltd 音声強調装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2899722A1 (en) 2014-01-28 2015-07-29 Fujitsu Limited Communication device
US9620149B2 (en) 2014-01-28 2017-04-11 Fujitsu Limited Communication device
JP2019168710A (ja) * 2014-02-07 2019-10-03 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ信号復号器における改善された周波数帯域拡張
JP2019168709A (ja) * 2014-02-07 2019-10-03 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ信号復号器における改善された周波数帯域拡張
JP2019168708A (ja) * 2014-02-07 2019-10-03 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ信号復号器における改善された周波数帯域拡張

Also Published As

Publication number Publication date
US9070372B2 (en) 2015-06-30
US20120016669A1 (en) 2012-01-19
EP2407966A1 (en) 2012-01-18
JP5589631B2 (ja) 2014-09-17

Similar Documents

Publication Publication Date Title
JP5589631B2 (ja) 音声処理装置、音声処理方法および電話装置
RU2585987C2 (ru) Устройство и способ обработки речевого/аудио сигнала
US7792680B2 (en) Method for extending the spectral bandwidth of a speech signal
JP6281336B2 (ja) 音声復号化装置及びプログラム
JP5535241B2 (ja) 音声信号復元装置および音声信号復元方法
JP5223786B2 (ja) 音声帯域拡張装置、音声帯域拡張方法及び音声帯域拡張用コンピュータプログラムならびに電話機
JP6073456B2 (ja) 音声強調装置
JP5598536B2 (ja) 帯域拡張装置および帯域拡張方法
JP4018571B2 (ja) 音声強調装置
US20080219471A1 (en) Signal processing method and apparatus, and recording medium in which a signal processing program is recorded
JP2005165021A (ja) 雑音低減装置、および低減方法
JP4738213B2 (ja) 利得調整方法及び利得調整装置
US10147434B2 (en) Signal processing device and signal processing method
JP5232121B2 (ja) 信号処理装置
JP6162254B2 (ja) 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
JP2008309955A (ja) ノイズサプレス装置
JP4922427B2 (ja) 信号補正装置
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
JP6428256B2 (ja) 音声処理装置
JP4227421B2 (ja) 音声強調装置および携帯端末
WO2021200151A1 (ja) 送信装置、送信方法、受信装置、及び受信方法
JP2004070240A (ja) オーディオ信号の時間軸圧伸装置、方法及びプログラム
JP2018037736A (ja) 信号処理装置及びプログラム
JP5338962B2 (ja) 帯域拡張装置、方法及びプログラム、並びに、電話端末

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140701

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140714

R150 Certificate of patent or registration of utility model

Ref document number: 5589631

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees