JP2010078812A

JP2010078812A - 音声信号処理装置及び音声信号処理方法

Info

Publication number: JP2010078812A
Application number: JP2008246015A
Authority: JP
Inventors: Fumio Amano; 文雄天野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-09-25
Filing date: 2008-09-25
Publication date: 2010-04-08
Anticipated expiration: 2028-09-25
Also published as: US20100076771A1; JP5228744B2

Abstract

【課題】ユーザの聴覚に感知される音声品質を劣化させることなく、ユーザに聞き易い信号になるように音声信号を処理する。
【解決手段】音声信号処理装置１は、ディジタル音声信号を所定長毎に分割した音声フレーム信号の周波数成分に、互いに異なる位相シフトを与えることにより得られる複数の異なる音声フレーム信号の、それぞれの最大振幅値を決定する最大振幅値決定手段（２０−１〜２０−１２、２１、６０−１〜６０−Ｔ、６１）と、複数の異なる音声フレーム信号のうち最大振幅値が最も小さいものを選択する選択手段（２１、６１）を備える。
【選択図】図２

Description

本発明は、入力又は受信した音声信号を処理する音声信号処理装置及び音声信号処理方法に関する。

たとえば携帯電話による通話中のように、スピーカから出力された音声が周囲の雑音のためによく聞こえない状況がよく生じうる。このような状況下で、出力された音声をユーザに聞き易くするためのいくつかの提案が考えられる。

たとえば、出力される音声信号のスペクトル分析を行い、特定の重要な周波数成分、たとえばフォルマント周波数などの周波数成分を強調することが考えられる。また、出力される音声と背景雑音とのＳ／Ｎ比を算出し、ある値以上のＳ／Ｎ比が得られるように音声信号のレベルを増幅することが考えられる。さらに、出力される音声信号の元信号のレベルに応じて適応的に音声信号の増幅率を制御するコンパンダ回路も考案されている。コンパンダ回路は、小さな元信号は大きく増幅し大きな元信号は小さく増幅することにより、増幅後の信号が増幅回路の許容最大出力レベルを超えないように信号を増幅する。

なお、送話器、受話器、送話器から入る周囲雑音の周波数特性を解析する周波数解析手段、および周波数解析手段の解析結果に基づいて受話器に出力される受話音声の周波数特性を変換する周波数特性変換手段を備え、周波数解析手段は、周囲雑音の大きい高雑音周波数帯域を検出し、この解析結果に基づいて周波数特性変換手段は高雑音周波数帯域以外の受話音声帯域を強調する音声制御装置が開示されている。
また、送話器と受話器を備え無線信号による音声通話が可能なものであって、送話器から入る周囲雑音の周波数特性を解析する周波数解析手段、および音声通話時に周波数解析手段の解析結果に基づいて、無線信号による受話音声の周波数特性を変換する周波数特性変換手段をさらに備えた携帯電話が開示されている。

特開２００２−２２３２６８号公報

従来の方法では、周囲の雑音レベルが非常に大きい場合にはユーザの聞き易さを改善できる程度に限界がある。たとえば、出力音声と背景雑音とのＳ／Ｎ比を算出して所望のＳ／Ｎ比を実現するように音声信号のレベルを増幅する従来の方法では、増幅後の出力音声レベルが増幅回路の最大許容値を超えると波形にクリッピング歪みが生じて音声品質が劣化する。また、コンパンダ回路を用いた方法でも波形に歪みが生じ音声品質が劣化する。

このような従来の問題点に鑑み、開示する装置及び方法は、ユーザの聴覚により感知される音声品質を劣化させることなく、ユーザに聞き易い信号になるように、入力又は受信された音声信号を処理することを目的とする。

ある実施例の形態による音声信号処理装置は、ディジタル音声信号を所定長毎に分割した音声フレーム信号の周波数成分に、互いに異なる位相シフトを与えることにより得られる複数の異なる音声フレーム信号の、それぞれの最大振幅値を決定する最大振幅値決定手段と、複数の異なる音声フレーム信号のうち最大振幅値が最も小さいものを選択する選択手段と、を備える。

他の実施例の形態による音声信号処理装置は、ディジタル音声信号を所定長毎に分割した音声フレーム信号の周波数成分に位相シフトを与えることにより音声フレーム信号の最大振幅値を減少化させる最大値減少化手段と、最大振幅値が減少化された後の音声フレーム信号の最大振幅値に応じて決定される信号増幅率で、最大振幅値が減少化された後の音声フレーム信号を増幅する信号増幅手段と、を備える。

開示の装置及び方法によれば、最大振幅値が減少するように音声信号が処理されるので、増幅段においてクリッピング歪みを発生させずに増幅可能な最大増幅率を増加させることができる。その結果、ユーザの聴覚により感知される音声品質を劣化させることなく、ユーザに聞き易い信号になるように、入力又は受信された音声信号を処理することが可能になる。

以下、添付する図面を参照して実施例を説明する。図１は、開示の音声処理装置の第１実施例の概略構成図である。音声処理装置１は、フレーム分割部２と、最大値減少化処理部３と、増幅率決定部４と、増幅部５と、フレーム記憶部６と、フレーム接続部７を備える。

フレーム分割部２は、入力されたディジタル形式の音声信号を、所定長毎の音声フレーム信号へ分割する。
最大値減少化処理部３は、フレーム分割部２から順次出力される各音声フレーム信号の周波数成分に位相シフトを与えることにより音声フレーム信号の最大振幅値を減少化させる。

増幅率決定部４は、最大値減少化処理部３によって最大振幅値が減少化された音声フレーム信号の最大振幅値に応じて、この音声フレーム信号を増幅すべき信号増幅率を決定する。増幅部５は、最大値減少化処理部３によって最大振幅値が減少化された音声フレーム信号を、増幅率決定部４により決定された信号増幅率で増幅する。

フレーム記憶部６は、増幅部５によって増幅された音声フレーム信号の最後のサンプルから少なくともＲ個のサンプルを、次の音声フレーム信号が増幅部５から出力されるまで保持する。フレーム接続部７は、増幅部５から出力された音声フレーム信号と、この音声フレーム信号の前のフレームの音声フレーム信号を接続する。フレーム接続部７によるフレームの接続処理については後述する。

最大値減少化処理部３は、フーリエ変換部１０と、周波数選択部１１と、直列接続されたＭ段の位相選択部１２−１、１２−２、…１２−Ｍと、逆フーリエ変換部１３を備える。フーリエ変換部１０は、フレーム分割部２から順次供給される音声フレーム信号をフーリエ変換して、音声フレーム信号の各周波数成分を示す周波数領域信号を生成する。この周波数領域信号は、周波数選択部１１、位相選択部１２−１〜１２−Ｍ及び逆フーリエ変換部１３へ出力される。位相選択部１２−１〜１２−Ｍは、周波数領域信号を入力Sfとして入力する。

周波数選択部１１は、フーリエ変換部１０から入力した各周波数成分のスペクトル強度にしたがって、スペクトル強度が最も強い周波数を指示する信号、２番目に強い周波数を指示する信号、…Ｍ番目に強い周波数を指示する信号を出力する。これらスペクトル強度が最も強い周波数を指示する信号、２番目に強い周波数を指示する信号、…Ｍ番目に強い周波数を指示する信号は、入力SLfとして位相選択部１２−１、１２−２、…１２−Ｍへそれぞれ入力される。

位相選択部１２−１〜１２−Ｍは、入力Sfとして与えられた各周波数成分のうち、入力SLfによって指定された周波数ｆの周波数成分へ、複数の異なるシフト量の位相シフトを与えて時間領域信号に逆フーリエ変換したとき、音声フレーム信号の最大振幅値が最も小さくなる位相シフト量を、周波数ｆの周波数成分に与えるべき位相シフト量として選択する。

位相選択部１２−１〜１２−Ｍは、各々選択した位相シフト量を示す位相選択信号を、出力SLPoutとして出力する。前段の位相選択部１２−１〜１２−（Ｍ−１）から出力される位相選択信号は、入力SLPinとして後段の位相選択部１２−２〜１２−Ｍへ入力される。

周波数ｆｉの周波数成分に与える位相シフト量を選択した前段の位相選択部１２−ｉから位相選択信号を入力した後段の位相選択部１２−（ｉ＋１）は（ｉ＝１〜Ｍ−１）、入力SLfによって指定された周波数ｆ（ｉ＋１）の周波数成分に与えるべき位相シフト量を選択し、選択された位相シフト量を、前段の位相選択部１２−ｉから入力した位相選択信号に追加してから、さらに後段の位相選択部１２−（ｉ＋２）へ出力する。

また、入力SLfによって指定された周波数ｆｉの周波数成分に与えるべき位相シフト量を選択するとき（ｉ＝２〜Ｍ）、各位相選択部１２−ｉは、周波数ｆｉ以外の他の各周波数成分には前段の位相選択部１２−（ｉ−１）から入力した位相選択信号によって指定される各シフト量の位相シフトをそれぞれ与える。

すなわち、各位相選択部１２−ｉ（ｉ＝２〜Ｍ）は、周波数ｆｉ以外の他の各周波数成分には前段の位相選択部１２−（ｉ−１）から入力した位相選択信号によって指定される各シフト量の位相シフトをそれぞれ与え、かつ周波数ｆｉの周波数成分には複数の異なるシフト量の位相シフトΔθ１〜ΔθＬを与えて時間領域信号に逆フーリエ変換したときに、音声フレーム信号の最大振幅値が最も小さくなるような位相シフト量を、位相シフト量Δθ１〜ΔθＬの中から選択する。１段目の位相選択部１２−１の入力SPLinには、全ての周波数成分について位相シフト量を指定しない位相選択信号が入力される。

最終段の位相選択部１２−Ｍの出力SPLoutからは、各段の位相選択部１２−１〜１２−Ｍによってそれぞれ選択された、スペクトル強度が最も強い周波数、２番目に強い周波数、…Ｍ番目に強い周波数へそれぞれ与える各位相シフト量を指示する位相選択信号が結合されて出力され、逆フーリエ変換部１３に出力される。

逆フーリエ変換部１３は、フーリエ変換部１０から与えられる周波数領域信号の各周波数成分に、位相選択部１２−Ｍから与えられる位相選択信号によって指定される各位相シフトをそれぞれ与えて、周波数領域信号を逆フーリエ変換した音声フレーム信号を生成する。逆フーリエ変換部１３は、音声フレーム信号を増幅率決定部４及び増幅部５へ出力する。

図２は、図１に示す位相選択部１２−１の構成例を示す図である。他の位相選択部１２−２〜１２−Ｍも同様の構成を有する。位相選択部１２−１は、Ｌ個の逆フーリエ変換部２０−１〜２０−Ｌと、選択部２１と、位相選択信号合成部２２とを備える。

Ｌ個の逆フーリエ変換部２０−ｊ（ｊ＝１、２、…Ｌ）は、入力Sfである周波数領域信号に含まれる各周波数成分のうち、入力SLfにより指定された周波数ｆの周波数成分には、シフト量（３６０／Ｌ×（ｊ−１））度の位相シフトを与え、それ以外の各周波数成分には、入力SLPinである位相選択信号によって指定される各シフト量の位相シフトを与えてから、逆フーリエ変換を行って音声フレーム信号を生成する。

本実施例では自然数Ｌ＝１２の場合の構成例である。すなわち位相選択部１２−１は、１２個の逆フーリエ変換部２０−１〜２０−１２を備える。そして、逆フーリエ変換部２０−１は入力SLfにより指定された周波数ｆの周波数成分に０度の位相シフトを与え、逆フーリエ変換部２０−２は周波数ｆの周波数成分に３０度の位相シフトを与え、逆フーリエ変換部２０−３は周波数ｆの周波数成分に６０度の位相シフトを与え、逆フーリエ変換部２０−１２は周波数ｆの周波数成分に３３０度の位相シフトを与える。自然数Ｌは他の２以上の自然数を使用してもよい。

選択部２１は、逆フーリエ変換部２０−１〜２０−１２により生成された各音声フレーム信号のうち、最大振幅値が最小である音声フレーム信号を選択する。選択部２１は、選択された音声フレーム信号の周波数ｆの周波数成分に与えられた位相シフト量を示す位相選択信号を出力する。

位相選択信号合成部２２は、入力SLPinである位相選択信号へ、選択部２１が出力した位相選択信号を、周波数ｆの周波数成分に与えるべき位相シフト量として挿入することによって、入力SLPinとして入力した位相選択信号と、選択部２１が出力した位相選択信号とを合成する。位相選択信号合成部２２は、合成した位相選択信号を出力SLPoutとして出力する。

なお、逆フーリエ変換部２０−１〜２０−１２及び選択部２１は、特許請求の範囲に記載される最大振幅値決定手段に相当する。また、選択部２１は、特許請求の範囲に記載される選択手段に相当する。

フーリエ変換部１０は、特許請求の範囲に記載される周波数成分決定手段に相当する。各段の位相選択部１２−１〜１２−Ｍの逆フーリエ変換部２０−１〜２０−１２は、特許請求の範囲に記載される組み合わせ決定手段に相当する。

逆フーリエ変換部２０−１〜２０−１２は、特許請求の範囲に記載される候補生成手段に相当し、逆フーリエ変換部２０−１〜２０−１２から出力される音声フレーム信号は、特許請求の範囲に記載される候補信号に相当する。選択部２１は特許請求の範囲に記載される候補選択手段に相当する。

図３は、開示の音声処理方法の実施例の全体フローチャートである。ステップＳ１において、図１に示すフレーム分割部２は、入力されたディジタル形式の音声信号を、所定長毎の音声フレーム信号へ分割する。ステップＳ２において最大値減少化処理部３は、音声フレーム信号の最大振幅値を減少化させる。

図４は、図１に示す最大値減少化処理部３による音声信号の最大値の減少化処理の第１例を示すフローチャートである。ステップＳ１０において、図１に示すフーリエ変換部１０は、音声フレーム信号をフーリエ変換して、音声フレーム信号の各周波数成分を示す周波数領域信号を生成する。

ステップＳ１１において周波数選択部１１は、フーリエ変換部１０から入力した周波数領域信号によって示される各周波数成分のスペクトル強度にしたがって、第１番目〜第Ｍ番目に強いスペクトル強度を有する周波数ｆｉ（ｉ＝１〜Ｍ）を決定する。周波数選択部１１は、第１番目〜第Ｍ番目に強いスペクトル強度を有する周波数ｆｉ〜ｆＭをそれぞれ指示する信号を、入力SLfとして、位相選択部１２−１、１２−２、…１２−Ｍへそれぞれ入力する。

ステップＳ１２において各位相選択部１２−ｉ（ｉ＝１〜Ｍ）を参照するインデックス変数ｉの値を「１」に初期化する。

ステップＳ１３において、ｉ段目の位相選択部１２−ｉは、第ｉ番目にスペクトル強度が強い周波数ｆｉを指示する信号を入力SLfとして受信する。

位相選択部１２−ｉの逆フーリエ変換部２０−ｊ（ｊ＝１〜１２）は、フーリエ変換部１０から与えられた各周波数成分のうち、入力SLfによって指定された周波数ｆｉ以外の他の各周波数成分には、前段の位相選択部１２−（ｉ−１）から入力した位相選択信号によって指定される各シフト量の位相シフトをそれぞれ与え、かつ周波数ｆｉの周波数成分にはそれぞれ（３６０／Ｌ×（ｊ−１））度の位相シフトを与えて時間領域信号に逆フーリエ変換する。

ステップＳ１４において、位相選択部１２−ｉの選択部２１は、逆フーリエ変換部２０−１〜２０−１２により生成された各音声フレーム信号のうち、最大振幅値が最小である音声フレーム信号を選択する。選択部２１は、逆フーリエ変換部２０−１〜２０−１２が生成した音声フレーム信号のうちの、選択された音声フレーム信号の周波数成分ｆｉに与えられた位相シフト量を示す位相選択信号を出力する。位相選択信号合成部２２は、入力SLPinとして入力した位相選択信号と、選択部２１が出力した位相選択信号とを合成する。位相選択信号合成部２２は、合成した位相選択信号を出力SLPoutとして出力する。

ステップＳ１５においてインデックス変数ｉの値を１つ増加する。ステップＳ１６において、インデックス変数ｉの値が「Ｍ」以下であるとき、すなわち、まだ位相選択処理が済んでいない位相選択部の段が残っている場合には、処理はステップＳ１３へ戻り、ステップＳ１３〜Ｓ１６が反復される。

ステップＳ１６の判定において、インデックス変数ｉの値が「Ｍ」以下でないとき、処理はステップＳ１７へ移る。ステップＳ１７において、図１に示す逆フーリエ変換部１３は、フーリエ変換部１０から与えられる各周波数成分に、最終段の位相選択部１２−Ｍから与えられる位相選択信号によって指定される各位相シフトをそれぞれ与えて、周波数領域信号を逆フーリエ変換した音声フレーム信号を生成する。

図５の（Ａ）及び図５の（Ｂ）は、最大値減少化処理部３による低減化処理の前後の音声フレーム信号の波形の模式図である。最大値減少化処理部３の各段の位相選択部１２−１〜１２−Ｍの逆フーリエ変換部２０−１〜２０−１２によってそれぞれ生成される音声フレーム信号の波形は、音声フレーム信号の周波数成分に位相シフトが加えられているために、元の音声フレーム信号の波形と異なる波形になる。

位相選択部１２−１〜１２−Ｍの選択部２１は、これら異なる波形の音声フレーム信号のうち最大振幅値が最も小さい音声フレーム信号を選択する。したがって選択部２１によって選択される音声フレーム信号の最大振幅値は、元の音声フレームの最大振幅値以下となる。たとえば、元の音声フレーム信号の最大振幅値が複数の周波数成分の比較的振幅が大きい部分の重なり合いにより生じている場合には、各周波数成分に異なる位相シフトを与えることにより最大振幅値を減少できる。

このため、最大値減少化処理部３による低減化処理後の音声フレーム信号、すなわち図５の（Ｂ）に示される音声フレーム信号の最大振幅値Ｓｍａｘ２は、図５の（Ａ）に示す元の音声フレーム信号の最大振幅値Ｓｍａｘ１よりも小さくなる。

ここで人間の聴覚には、各周波数成分における位相特性がある程度ずれても殆ど感知できないという性質がある。したがって、最大値減少化処理部３は、人間の聴覚に感知される音声品質を劣化させることなく、音声フレーム信号の最大振幅値を減少化することができる。

図３に示すステップＳ３において増幅率決定部４は、最大値減少化処理部３から出力された音声フレーム信号の最大振幅値に応じて、この音声フレーム信号を増幅すべき信号増幅率Ａを決定する。ステップＳ４において増幅部５は、最大値減少化処理部３から出力された音声フレーム信号を、増幅率決定部４により決定された信号増幅率Ａで増幅する。

図６は、図１に示す増幅率決定部４による信号増幅率Ａの決定処理の例を説明する説明図である。図６に示す波形は、最大値減少化処理部３から出力された音声フレーム信号の信号波形である。たとえば増幅率決定部４は、後段の増幅部５による増幅後の音声フレーム信号が増幅部５の許容最大出力振幅値Ｓｔｈを超えない最大の増幅率を、信号増幅率Ａとして決定してよい。

たとえば増幅率決定部４は、最大値減少化処理部３から出力された音声フレーム信号の最大振幅値がＳｍａｘであるとき、Ａ＝Ｓｔｈ／Ｓｍａｘを信号増幅率Ａとして決定してよい。増幅率決定部４がこのように信号増幅率Ａを決定することにより、音声フレーム信号は、増幅部５においてクリッピング歪みを生じずに増幅される。

このように増幅率決定部４及び増幅部５は、増幅前の最大振幅値が小さいほど、音声フレーム信号をより大きな信号増幅率で増幅できる。本実施例では、最大値減少化処理部３によって音声フレーム信号の最大振幅値が減少化されるので、より大きな増幅率で音声信号を増幅することができ、人間の聴覚に感知される音声品質を劣化させることなく背景雑音が大きい環境におけるユーザの聞き易さを改善することができる。

ステップＳ５においてフレーム接続部７は、増幅部５から出力された音声フレーム信号と、この音声フレーム信号の前のフレームの音声フレーム信号を接続する。

最大値減少化処理部３による音声信号処理を行う前は、連続する２つのフレームのうち前フレームの最後のサンプル値と後フレームの最初のサンプル値の値はほぼ同じである。

しかしながら、最大値減少化処理部３によって各周波数成分に位相シフトが与えられると、各音声フレーム信号毎に波形が変化し、その結果、連続する２つのフレームの前フレームの最後のサンプル値と、後フレームの最初のサンプル値の間のギャップが大きくなる可能性がある。

フレーム接続部７は、前フレームの最後のサンプル値Ｓｂと後フレームの最初のサンプル値Ｓａの間に目標値を定め、前フレームの最後のＲ個のサンプルと後のフレームのＳ個のサンプルとを目標値に向かって漸近させることにより、これら２つのフレームをスムーズに接続する接続処理を実行する。図７は、図１に示すフレーム接続部７による音声フレーム信号の接続処理の例を示すフローチャートである。

ステップＳ２０においてフレーム接続部７は、前フレームの最後のサンプルの値Ｓｂの符号と、後フレームの最初のサンプルの値Ｓａの符号とが異なるか否かを判定する。Ｓｂの符号とＳａの符号が同じ場合には、フレーム接続部７は処理をステップＳ２２に移す。

Ｓｂの符号とＳａの符号が異なる場合には、ステップＳ２１においてフレーム接続部７は後フレームの各サンプルの符号を反転させる。これにより、ＳｂとＳａの値を近づけることができ、よりスムーズに前フレームと後フレームを接続できるようになる。

ステップＳ２２においてフレーム接続部７は、前フレームの最後のサンプル値Ｓｂと後フレームの最初のサンプル値Ｓａの間に目標値Ｓｍを定める。目標値Ｓｍは、たとえばＳｂとＳａの中間値でよい。図８の（Ａ）に、前フレームの最後のＲ個のサンプル時刻Ｓｂ（Ｐ−Ｒ＋１）、〜Ｓｂ（Ｐ−２）、Ｓｂ（Ｐ−１）、Ｓｂ（Ｐ）におけるサンプルと、後フレームのＳ個のサンプル時刻Ｓａ（１）、Ｓａ（２）、Ｓａ（３）、〜Ｓａ（Ｓ）におけるサンプルと、目標値Ｓｍを示す。

ステップＳ２３においてフレーム接続部７は、前フレームの最後のＲ個のサンプルを目標値Ｓｍに向かって漸近させる。具体的には、前フレームの最後のＲ個のサンプル時刻Ｓｂ（Ｐ−Ｒ＋ｊ）のサンプルの値を、それぞれ（１＋（Ｓｍ／Ｓｂ−１）×ｊ／Ｒ）倍する（ｊ＝１〜Ｒ）。この乗算処理によって、前フレームの最後のＲ個のサンプルには、フレームの最後に近づくにつれて値１〜Ｓｍ／Ｓｂへと変化する係数が乗算され、これらサンプルの値は目標値Ｓｍへ徐々に近づく。図８の（Ｂ）には、ステップＳ２３に示す乗算処理が施された前フレームが示されている。

ステップＳ２４においてフレーム接続部７は、後フレームの最初のＳ個のサンプルを目標値Ｓｍに向かって漸近させる。具体的には、後フレームの最初のＳ個のサンプル時刻Ｓａ（ｊ）のサンプルの値を、それぞれ（Ｓｍ／Ｓａ＋（１−Ｓｍ／Ｓａ）×（ｊ−１）／Ｓ）倍する（ｊ＝１〜Ｓ）。この乗算処理によって、後フレームの最後のＳ個のサンプルには、フレームの始めに近づくにつれて値１〜Ｓｍ／Ｓｂへと変化する係数が乗算され、これらサンプルの値は目標値Ｓｍへ徐々に近づく。図８の（Ｂ）には、ステップＳ２３に示す乗算処理が施された後フレームが示されている。

図９は、開示の音声処理装置の第２実施例の概略構成図である。図９に示す音声処理装置１は、図１に示す構成と類似する構成を有しており、図１に示す構成要素と同様の構成要素には同じ参照符号を使用し、また同一の機能については説明を省略する。

本構成例の音声処理装置１は、音声フレーム信号の信号増幅率を決定する際の目標値である目標増幅率Ａｔを決定する目標増幅率決定部８を備える。目標増幅率決定部８は、たとえば前フレームの音声フレーム信号を増幅する際に増幅率決定部４が決定した信号増幅率を目標増幅率Ａｔとしてよい。または目標増幅率決定部８は、たとえば音声処理装置１が作動を開始した際の初めのフレームの音声フレーム信号を増幅する際に増幅率決定部４が決定した信号増幅率を目標増幅率Ａｔとしてよい。

最大値減少化処理部３は、図２を参照して説明した位相選択部１２−１と同様の位相選択部を直列に（Ｍ−１）段接続した位相選択部１２−１、１２−２、…１２−（Ｍ−１）と、位相選択部１２−（Ｍ−１）の後段に接続される最終段の位相選択部１４を備える。

図１０は、図９に示す位相選択部１４の構成例を示す図である。位相選択部１４には、フーリエ変換部１０から出力される周波数領域信号が入力Sfとして、周波数選択部１１から出力されるＭ番目に強い周波数を指示する信号が入力SLfとして、位相選択部１２−（Ｍ−１）から出力SLPoutとして出力される位相選択信号が入力SLPinとして入力される。

位相選択部１４は、図２を参照して説明した逆フーリエ変換部２０−１〜２０−Ｌと同様に動作する逆フーリエ変換部３０−１〜３０−Ｌと、図２を参照して説明した位相選択信号合成部２２と同様に動作する位相選択信号合成部３２と、選択部３１を備える。本実施例では自然数Ｌ＝１２の場合の構成例である。自然数Ｌは他の２以上の自然数を使用してもよい。

また位相選択部１４には、目標増幅率決定部８が決定した目標増幅率Ａｔと、フレーム記憶部６に記憶された前フレームの最後のサンプル値Ｓｂが入力される。選択部３１は、逆フーリエ変換部３０−１〜３０−１２が生成する音声フレーム信号を入力する。

選択部３１は、逆フーリエ変換部３０−１〜３０−１２により生成された各音声フレーム信号の最大振幅値に基づいて、これら各音声フレーム信号に与えられた位相シフトのうち、所定の選択要件を満足する位相シフト量があるか否かを判定する。

ここで、ある位相シフト量が選択されるための所定の選択要件とは、音声フレーム信号に対して、入力SLfによって指定された周波数ｆの周波数成分にその位相シフト量が与えられ、周波数ｆ以外の他の各周波数成分には前段までの位相選択部によって指定された各シフト量の位相シフトをそれぞれ与えられたとき、下記の条件（１）〜（３）が満たす信号増幅率Ａが存在することである。

（１）信号増幅率Ａが、目標増幅率Ａｔから所定の許容範囲内に存在する。所定の許容範囲とはＡｔ×（１−ｂ％）〜Ａｔ×（１＋ｂ％）である。ここにｂは所定の定数である。
（２）増幅部５が、信号波形にクリッピング歪みを生じることなく音声フレーム信号を信号増幅率Ａで増幅できる。
（３）信号増幅率Ａで音声フレーム信号を増幅したときに、音声フレーム信号の最初のサンプル値Ｓａが前フレームの最初のサンプル値Ｓｂから所定の許容範囲内に収まる。所定の許容範囲とは、Ｓｂ×（１−Ｑ％）〜Ｓｂ×（１＋Ｑ％）である。ここにＱは所定の定数である。

選択部３１は、所定の選択要件を満足する位相シフト量が与えられた音声フレーム信号のうち、最小の最大振幅値を有する音声フレーム信号に与えられた位相シフト量を選択する。選択部３１は、選択された音声フレーム信号に与えられた位相シフト量を示す位相選択信号を位相選択信号合成部３２へ出力する。

選択部３１がこのような位相シフト量を選択することによって、現在処理中の音声フレーム信号に与えられる信号増幅率と、前フレームに与えられた信号増幅率との差を所定の範囲内に収めることができる。このためユーザが音量の変化を感知しにくくなる。

またこのような位相シフト量が選択されることによって、現在処理中の音声フレーム信号の最初のサンプル値Ｓａと、前フレームの最後のサンプル値Ｓｂとの差を所定の範囲内に収めることができる。このためユーザがフレームの間のつなぎ目を感知しにくくなる。

位相選択信号合成部３２は、入力SLPinとして入力した位相選択信号と、選択部３１が出力した位相選択信号とを合成し、合成した位相選択信号を出力SLPoutとして逆フーリエ変換部１３へ出力する。

図１１は、図９に示す最大値減少化処理部３により実行される音声信号の最大値の減少化処理の第２例を示すフローチャートである。

ステップＳ３０〜ステップＳ３６では、図４に示したステップＳ１０〜Ｓ１６にて第１番目〜第（Ｍ−１）番目の各周波数の周波数成分に与える位相が選択されたのと同様に、第１番目〜第（Ｍ−１）番目の各周波数の周波数成分に与える位相が選択される。

ステップＳ３７において、Ｍ段目の位相選択部１４は、第Ｍ番目のスペクトル強度を有する周波数ｆＭを指示する信号を入力SLfとして受信する。

位相選択部１４の逆フーリエ変換部３０−ｊ（ｊ＝１〜１２）は、フーリエ変換部１０から与えられた各周波数成分のうち、周波数ｆＭ以外の他の各周波数成分には、前段の位相選択部１２−（Ｍ−１）から入力した位相選択信号によって指定される各シフト量の位相シフトをそれぞれ与え、かつ周波数ｆＭの周波数成分にはそれぞれ（３６０／Ｌ×（ｊ−１））度の位相シフトを与えて時間領域信号に逆フーリエ変換する。

ステップＳ３８において、位相選択部１４の選択部３１は、逆フーリエ変換部３０−１〜３０−１２により生成された各音声フレーム信号に与えられた位相シフトの中に、上述した所定の選択要件を満たす位相シフトがあるか否かを判定する。

図１２は、ある位相シフトが所定の選択要件を満足するか否かを判定する判定処理のフローチャートである。ステップＳ５０において選択部３１は、前フレームの最後のサンプルの値Ｓｂの符号と、位相シフトを与えた現在のフレームの最初のサンプルの値Ｓａ’の符号とが異なるか否かを判定する。Ｓｂの符号とＳａ’の符号が同じ場合には、選択部３１は処理をステップＳ５２に移す。

Ｓｂの符号とＳａ’の符号が異なる場合には、ステップＳ５１においてフレーム接続部７は現在のフレームの各サンプルの符号を反転させる。これによりＳｂとＳａ’の値の差が小さくなる。

ステップＳ５２において選択部３１は、既知の増幅部５の許容最大出力振幅値Ｓｔｈと音声フレーム信号の最大振幅値Ｓｍａｘとに基づいて、音声フレーム信号の最大振幅値Ｓｍａｘが、所定値（Ｓｔｈ／（Ａｔ×（１−ｂ％））より大きいか否かを判定する。この判定によって、選択部３１は、増幅後の音声フレーム信号にクリッピング歪みを生じない最大増幅率（Ｓｔｈ／Ｓｍａｘ）が、所定の許容範囲の下限（Ａｔ×（１−ｂ％））よりも小さいか否かを判定する。

Ｓｍａｘ＞（Ｓｔｈ／（Ａｔ×（１−ｂ％））であるとき選択部３１は、処理をＳ５３へ移行する。Ｓｍａｘ＞（Ｓｔｈ／（Ａｔ×（１−ｂ％））でないとき選択部３１は、処理をＳ５４へ移行する。ステップＳ５３において選択部３１は、位相シフトが所定の選択要件を満たさないと決定して判定処理を終了する。

ステップＳ５４において選択部３１は、Ｓｍａｘ≦（Ｓｔｈ／（Ａｔ×（１＋ｂ％））であるか否かを判定することにより、増幅後の音声フレーム信号にクリッピング歪みを生じない最大増幅率（Ｓｔｈ／Ｓｍａｘ）が、所定の許容範囲の上限（Ａｔ×（１−ｂ％））以上であるか否かを判定する。

Ｓｍａｘ≦（Ｓｔｈ／（Ａｔ×（１＋ｂ％））である場合には、選択部３１は処理をステップＳ５５に移す。ステップＳ５５において選択部３１は、増幅部５にて使用可能な信号増幅率の上限値Ａｍａｘを（Ａｔ×（１＋ｂ％））に定め、下限値Ａｍｉｎを（Ａｔ×（１−ｂ％））に定める。その後、選択部３１は処理をステップＳ５７に移す。

ステップＳ５４の判定においてＳｍａｘ≦（Ｓｔｈ／（Ａｔ×（１＋ｂ％））でない場合には、選択部３１は処理をステップＳ５６に移す。ステップＳ５６において選択部３１は、上限値Ａｍａｘを最大増幅率（Ｓｔｈ／Ｓｍａｘ）に定め、下限値Ａｍｉｎを（Ａｔ×（１−ｂ％））に定める。その後、選択部３１は処理をステップＳ５７に移す。

ステップＳ５７において選択部３１は、ステップＳ５５又はＳ５６において下限値及び上限値が定められた範囲の信号増幅率Ａｍｉｎ〜Ａｍａｘによって現在の音声フレーム信号が増幅されたときの最初のサンプル値の範囲を決定する。増幅前の現在の音声フレーム信号の最初のサンプル値をＳａ’とすると、増幅後の現在の音声フレーム信号の最初のサンプル値の範囲はＳａ’×Ａｍｉｎ〜Ｓａ’×Ａｍａｘである。

選択部３１は、増幅後の現在の音声フレーム信号の最初のサンプル値Ｓａに許される所定の許容範囲Ｓｂ×（１−Ｑ％）〜Ｓｂ×（１＋Ｑ％）と、Ｓａ’×Ａｍｉｎ〜Ｓａ’×Ａｍａｘとが重複しないか否かを判定する。これらの範囲が重複しないとき上記の所定の選択要件（３）を満たす信号増幅率が存在しないため、選択部３１は、処理をステップＳ５３へ移し、位相シフトが所定の選択要件を満たさないと決定して判定処理を終了する。

図１３の（Ａ）及び図１３の（Ｂ）は、範囲Ｓｂ（１−Ｑ％）〜Ｓｂ×（１＋Ｑ％）と範囲Ｓａ’×Ａｍｉｎ〜Ｓａ’×Ａｍａｘが重複部分Ｒを有する２つの態様を示し、図１３の（Ｃ）及び図１３の（Ｄ）は、範囲Ｓａ’×Ａｍｉｎ〜Ｓａ’×Ａｍａｘに重複部分がない２つの態様を示す。これらの図から明らかなように、（Ｓａ’×Ａｍｉｎ＞Ｓｂ×（１＋Ｑ％））であるとき、または（Ｓｂ×（１−Ｑ％）＞Ｓａ’×Ａｍａｘ）であるとき、２つの範囲には重複部分がない。

そこで選択部３１は、（Ｓａ’×Ａｍｉｎ＞Ｓｂ×（１＋Ｑ％））であるか、または（Ｓｂ×（１−Ｑ％）＞Ｓａ’×Ａｍａｘ）であるか否かを判定することにより、範囲Ｓｂ×（１−Ｑ％）〜Ｓｂ×（１＋Ｑ％）と範囲Ｓａ’×Ａｍｉｎ〜Ｓａ’×Ａｍａｘとが重複しないか否かを判定する。これらの範囲が重複するとき、選択部３１は処理をステップＳ５８へ移す。ステップＳ５８において選択部３１は、位相シフトが所定の選択要件を満たすと決定して判定処理を終了する。

図１１のステップＳ３８の判定において、所定の選択要件を満たす位相シフトがある場合には、選択部３１は処理をステップＳ３９へ移し、所定の選択要件を満たす位相シフトがない場合には、選択部３１は処理をステップＳ４０へ移す。

ステップＳ３９において選択部３１は、所定の選択要件を満足する位相シフト量が与えられた音声フレーム信号のうち最小の最大振幅値を有する音声フレーム信号に与えられた位相シフト量を選択することにより、所定の選択要件を満たす位相シフトのうちから周波数ｆＭの周波数成分に与える位相シフト量を選択する。選択部３１は、選択した位相シフト量を示す位相選択信号を出力する。位相選択信号合成部３２は、入力SLPinとして入力した位相選択信号と、選択部３１が出力した位相選択信号とを合成する。位相選択信号合成部３２は、合成した位相選択信号を出力SLPoutとして出力する。その後、処理はＳ４１へ移る。

ステップＳ４０において選択部３１は、所定の優先順序付け基準に従って、逆フーリエ変換部３０−１〜３０−１２により生成された各音声フレーム信号に与えられた位相シフト量のうち最も優先度が高い位相シフト量を、周波数ｆＭの周波数成分に与える位相シフト量として選択する。優先順序付け基準として、各位相シフト量を与えた場合の、（１）各音声フレーム信号の最大振幅値の大小、（２）増幅部５において各音声フレーム信号にクリッピング歪みを生じさせずに増幅できる増幅率の範囲と目標増幅率Ａとの間の距離の大小、（３）増幅部５において各音声フレーム信号にクリッピング歪みを生じない範囲で増幅させたときの各音声フレーム信号の最初のサンプル値と、その直前のフレームの最後のサンプル値との差の大小、などを使用してよい。

選択部３１は、選択した位相シフト量を示す位相選択信号を出力する。位相選択信号合成部３２は、入力SLPinとして入力した位相選択信号と、選択部３１が出力した位相選択信号とを合成する。位相選択信号合成部３２は、合成した位相選択信号を出力SLPoutとして出力する。その後、処理はＳ４１へ移る。

ステップＳ４１において、図９に示す逆フーリエ変換部１３は、フーリエ変換部１０から与えられる各周波数成分に、位相選択部１４から与えられる位相選択信号によって指定される各位相シフトをそれぞれ与えて、周波数領域信号を逆フーリエ変換した音声フレーム信号を生成する。

図１４は、図９に示す増幅率決定部４による信号増幅率の決定処理の第１例を示すフローチャートである。ステップＳ６０において増幅率決定部４は、前フレームの最初のサンプルの値Ｓｂの符号と、位相シフトを与えた現在のフレームの最後のサンプルの値Ｓａ’の符号とが異なるか否かを判定する。Ｓｂの符号とＳａ’の符号が同じ場合には処理はステップＳ６２に移る。Ｓｂの符号とＳａ’の符号が異なる場合には、ステップＳ６１においてフレーム接続部７は現在のフレームの各サンプルの符号を反転させる。

ステップＳ６２において増幅率決定部４は、音声フレーム信号の最大振幅値Ｓｍａｘが、所定値（Ｓｔｈ／（Ａｔ×（１−ｂ％））より大きいか否かを判定する。Ｓｍａｘ＞（Ｓｔｈ／（Ａｔ×（１−ｂ％））であるとき増幅率決定部４は、処理をＳ６３へ移行する。Ｓｍａｘ＞（Ｓｔｈ／（Ａｔ×（１−ｂ％））でないとき増幅率決定部４は、処理をＳ６４へ移行する。

Ｓｍａｘ＞（Ｓｔｈ／（Ａｔ×（１−ｂ％））であるとき、音声フレーム信号にクリッピング歪みを生じない最大振幅値Ｓｍａｘであっても信号増幅率の許容範囲の下限値（Ａｔ×（１−ｂ％））より小さい。したがってステップＳ６３において増幅率決定部４は、信号増幅率Ａを（Ａｔ×（１−ｂ％））に決定して処理を終了する。

ステップＳ６４において増幅率決定部４は、Ｓｍａｘ≦（Ｓｔｈ／（Ａｔ×（１＋ｂ％））であるか否かを判定する。Ｓｍａｘ≦（Ｓｔｈ／（Ａｔ×（１＋ｂ％））であるとき増幅率決定部４は、処理をステップＳ６５に移す。ステップＳ６５において増幅率決定部４は、増幅部５にて使用可能な信号増幅率の上限値Ａｍａｘを（Ａｔ×（１＋ｂ％））に定め、下限値Ａｍｉｎを（Ａｔ×（１−ｂ％））に定める。その後、増幅率決定部４は処理をステップＳ６７に移す。

ステップＳ６４の判定においてＳｍａｘ≦（Ｓｔｈ／（Ａｔ×（１＋ｂ％））でないとき増幅率決定部４は、処理をステップＳ６６に移す。ステップＳ６６において増幅率決定部４は、上限値Ａｍａｘを最大増幅率（Ｓｔｈ／Ｓｍａｘ）に定め、下限値Ａｍｉｎを（Ａｔ×（１−ｂ％））に定める。その後、増幅率決定部４は処理をステップＳ６７に移す。

ステップＳ６７において増幅率決定部４は、ステップＳ６５又はＳ６６において定められた範囲の信号増幅率Ａｍｉｎ〜Ａｍａｘによって現在の音声フレーム信号が増幅されたときの最初のサンプル値の範囲Ｓａ’×Ａｍｉｎ〜Ｓａ’×Ａｍａｘと、増幅後の現在の音声フレーム信号の最初のサンプル値Ｓａに許される所定の許容範囲Ｓｂ×（１−Ｑ％）〜Ｓｂ×（１＋Ｑ％）と、が重複しないか否かを判定する。

これらの範囲が重複しないとき、増幅率決定部４は処理をステップＳ６８に移行し、これらの範囲が重複するとき、増幅率決定部４は処理をステップＳ６９に移行する。ステップＳ６８において増幅率決定部４は、増幅率Ａｍｉｎ〜Ａｍａｘのうち最も目標増幅率Ａｔに近い増幅率を信号増幅率Ａに選択し、処理を終了する。

ステップＳ６９において増幅率決定部４は、増幅率Ａｍｉｎ〜Ａｍａｘのうち、増幅前の現在のフレームの最初のサンプル値Ｓａ’を増幅した値が、前フレームの最後のサンプル値Ｓｂに最も近くなる増幅率を選択する。増幅率決定部４がこのような増幅率を選択することで、増幅後の現在のフレームの最初のサンプル値Ｓａが前フレームの最後のサンプル値Ｓｂに最も近くなるような信号増幅率が選択され、フレーム間のサンプル値のギャップを低減できる。

たとえば図１５の（Ａ）に示すように、増幅された現在の音声フレーム信号の最初のサンプル値の範囲Ｓａ’×Ａｍｉｎ〜Ｓａ’×Ａｍａｘが、前フレームの最後のサンプル値Ｓｂよりも小さい範囲であるときは、増幅率決定部４は最大の増幅率Ａｍａｘを選択する。また、図１５の（Ｂ）に示すように、増幅された現在の音声フレーム信号の最初のサンプル値の範囲Ｓａ’×Ａｍｉｎ〜Ｓａ’×Ａｍａｘが、前フレームの最後のサンプル値Ｓｂよりも大きい範囲であるときは、増幅率決定部４は、最小の増幅率Ａｍｉｎを選択する。

図１５の（Ｃ）に示すように、前フレームの最後のサンプル値Ｓｂが、増幅された現在の音声フレーム信号の最初のサンプル値の範囲Ｓａ’×Ａｍｉｎ〜Ｓａ’×Ａｍａｘの範囲内にあるときは、増幅率決定部４は増幅率（Ｓｂ／Ｓａ’）を選択する。

図１６は、図９に示す増幅率決定部４による信号増幅率の決定処理の第２例を示すフローチャートである。ステップＳ６０〜Ｓ６８までは図１４を参照して説明した決定処理と同様である。ステップＳ６７における判定において、増幅後の最初のサンプル値の範囲Ｓａ’×Ａｍｉｎ〜Ｓａ’×Ａｍａｘと、所定の許容範囲Ｓｂ×（１−Ｑ％）〜Ｓｂ×（１＋Ｑ％）とが重複するとき、増幅率決定部４は処理をステップＳ７０に移す。

ステップＳ７０において増幅率決定部４は、範囲Ｓａ’×Ａｍｉｎ〜Ｓａ’×Ａｍａｘと、範囲Ｓｂ×（１−Ｑ％）〜Ｓｂ×（１＋Ｑ％）との間の重複範囲Ｓａ１〜Ｓａ２を決定する。増幅率決定部４により決定される重複範囲Ｓａ１〜Ｓａ２の例を図１７に示す。

ステップＳ７１において増幅率決定部４は、値Ｓａ１／Ｓａ’〜Ｓａ２／Ｓａ’のうち最も目標増幅率Ａｔに近い値を信号増幅率として選択する。増幅率決定部４がこのような値を信号増幅率として選択することで、上記の所定の選択要件を満たしつつ、かつ現在のフレームの信号増幅率と前フレームの信号増幅率とのギャップを低減することができる。

図１８は、開示の音声処理装置の第３実施例の概略構成図である。図１８に示す音声処理装置１は、図９に示す構成と類似する構成を有しており、図９に示す構成要素と同様の構成要素には同じ参照符号を使用し、また同一の機能については説明を省略する。

最大値減少化処理部３は、図２を参照して説明した位相選択部１２−１と同様の位相選択部を直列にＭ段接続した位相選択部１２−１、１２−２、…１２−Ｍと、位相選択部１２−Ｍの後段に接続され、直列にＮ段接続される位相選択部１５−１〜１５−Ｎを備える。

図１９は、図１８に示す位相選択部１５−１の構成例を示す図である。他の位相選択部１５−２〜１５−Ｎも同様の構成を有する。位相選択部１５−ｉ（ｉ＝１〜Ｎ）には、フーリエ変換部１０から出力される周波数領域信号が入力Sfとして入力される。また、位相選択部１５−ｉには、周波数選択部１１から出力される（Ｍ＋ｉ）番目のスペクトル強度を有する周波数を指示する信号が入力SLfとして入力される。さらに位相選択部１５−ｉには、前段の位相選択部である、位相選択部１２−Ｍ又は位相選択部１５−（ｉ−１）から出力SLPoutとして出力される位相選択信号が入力SLPinとして入力される。

位相選択部１５−１は、図２を参照して説明した逆フーリエ変換部２０−１〜２０−Ｌと同様に動作する逆フーリエ変換部４０−１〜４０−Ｌと、図２を参照して説明した位相選択信号合成部２２と同様に動作する位相選択信号合成部４２と、選択部４１を備える。本実施例では自然数Ｌ＝１２の場合の構成例である。自然数Ｌは他の２以上の自然数を使用してもよい。

また位相選択部１５−１〜１５−Ｎには、目標増幅率決定部８が決定した目標増幅率Ａｔと、フレーム記憶部６に記憶された前フレームの最後のサンプル値Ｓｂが入力される。選択部４１は、逆フーリエ変換部４０−１〜４０−１２が生成する音声フレーム信号を入力する。

選択部４１は、図１２を参照して説明した判定処理を行い、逆フーリエ変換部４０−１〜４０−１２により生成された各音声フレーム信号に与えられた位相シフトの中に、上述した所定の選択要件を満たす位相シフトがあるか否かを判定する。選択部４１は、所定の選択要件を満たす位相シフトがある場合には値「１」を、その他の場合には値「０」を有する判定結果信号を出力Routとして出力する。

位相選択部１５−ｉ（ｉ＝１〜Ｎ）は、前段の位相選択部から出力Routとして出力された判定結果信号を入力Rinとして入力する。入力Rinとして入力された判定結果信号は、逆フーリエ変換部４０−１〜４０−１２及び選択部４１へ入力される。

逆フーリエ変換部４０−１〜４０−１２及び選択部４１は、入力された判定結果信号の値が「１」であるとき、すなわち前段の位相選択部１５−（ｉ−１）にて選択要件を満たす位相シフトが見つかった場合には処理を停止し、このとき選択部４１は、出力Routの値を「１」に設定する。但し、第（Ｍ＋１）段目の位相選択部１５−１の入力Rinには値「０」が入力される。

位相選択部１５−ｉ（ｉ＝１〜Ｎ）の選択部４１は、所定の選択要件を満足する位相シフト量が与えられた音声フレーム信号のうち、最小の最大振幅値を有する音声フレーム信号の周波数ｆ（Ｍ＋ｉ）の周波数成分に与えられた位相シフト量を選択する。選択部４１は、選択された音声フレーム信号に与えられた位相シフト量を示す位相選択信号を位相選択信号合成部４２へ出力する。位相選択信号合成部４２は、入力SLPinとして入力した位相選択信号と、選択部４１が出力した位相選択信号とを合成し、合成した位相選択信号を出力SLPoutとして出力する。

前段の位相選択部１５−１〜１５−（Ｎ−１）から出力される位相選択信号は、後段の位相選択部１５−２〜１５−Ｎへ入力SLPinとして入力される。また各位相選択部１５−１〜１５−Ｎから出力される位相選択信号はセレクタ９へも入力される。

図１８に示すとおり、セレクタ９は、各位相選択部１５−ｉ（ｉ＝１〜Ｎ）から出力される判定結果信号をセレクト信号に使用し、値「１」である判定結果信号を出力した各位相選択部１５−ｉのうち、最前段に配置されている位相選択部から出力SLPoutとして出力される位相選択信号を選択して、逆フーリエ変換部１３へ入力する。

図２０は、図１８に示す最大値減少化処理部３により実行される音声信号の最大値の減少化処理の第３例を示すフローチャートである。ステップＳ８０〜ステップＳ８６では、図４に示したステップＳ１０〜Ｓ１６にて第１番目〜第Ｍ番目の各周波数の周波数成分に与える位相が選択されたのと同様に、第１番目〜第Ｍ番目の各周波数の周波数成分に与える位相が選択される。但しステップＳ８１において周波数選択部１１は、第１番目〜第（Ｍ＋Ｎ）番目に強いスペクトル強度を有する周波数ｆｉ（ｉ＝１〜Ｍ＋Ｎ）を決定する。

ステップＳ８７において各位相選択部１５−ｉ（ｉ＝１〜Ｎ）を参照するインデックス変数ｉの値を「１」に初期化する。

ステップＳ８８において、（Ｍ＋ｉ）段目の位相選択部１５−ｉは、第（Ｍ＋ｉ）番目のスペクトル強度を有する周波数ｆ（Ｍ＋ｉ）を指示する信号を入力SLfとして受信する。

位相選択部１５−ｉの逆フーリエ変換部４０−ｊ（ｊ＝１〜１２）は、フーリエ変換部１０から与えられた各周波数成分のうち、入力SLfによって指定された周波数ｆ（Ｍ＋ｉ）以外の他の各周波数成分には、前段の位相選択部１５−（ｉ−１）から入力した位相選択信号によって指定される各シフト量の位相シフトをそれぞれ与え、かつ周波数ｆ（Ｍ＋ｉ）の周波数成分にはそれぞれ（３６０／Ｌ×（ｊ−１））度の位相シフトを与えて時間領域信号に逆フーリエ変換する。

ステップＳ８９において、位相選択部１５−ｉの選択部４１は、逆フーリエ変換部４０−１〜４０−１２により生成された各音声フレーム信号に与えられた位相シフトの中に、上述した所定の選択要件を満たす位相シフトがあるか否かを判定する。ある位相シフトが所定の選択要件を満足するか否かを判定する判定処理は、図１２を参照して示した処理と同様でよい。

ステップＳ８９の判定において、所定の選択要件を満たす位相シフトがあるとき選択部４１は処理をステップＳ９０へ移し、所定の選択要件を満たす位相シフトがないとき選択部４１は処理をステップＳ９１へ移す。

ステップＳ９０において選択部４１は、図１１に示すステップＳ３９と同様にして周波数ｆ（Ｍ＋ｉ）の周波数成分に与える位相シフト量を選択する。選択部４１は、選択した位相シフト量を示す位相選択信号を出力する。位相選択信号合成部４２は、入力SLPinとして入力した位相選択信号と、選択部４１が出力した位相選択信号とを合成する。位相選択信号合成部４２は、合成した位相選択信号を出力SLPoutとして出力する。その後、処理はＳ９５へ移る。

ステップＳ９１において選択部４１は、逆フーリエ変換部４０−１〜４０−１２により生成された各音声フレーム信号のうち、最大振幅値が最小である音声フレーム信号を選択する。選択部４１は、逆フーリエ変換部４０−１〜４０−１２のうち、選択された音声フレーム信号の周波数成分ｆ（Ｍ＋ｉ）に与えられた位相シフト量を示す位相選択信号を出力する。位相選択信号合成部４２は、入力SLPinとして入力した位相選択信号と、選択部４１が出力した位相選択信号とを合成する。位相選択信号合成部４２は、合成した位相選択信号を出力SLPoutとして出力する。

ステップＳ９２において、インデックス変数ｉの値を１つ増加する。ステップＳ９３において、インデックス変数ｉの値が「Ｎ」以下であるとき、すなわち、まだ位相選択処理が済んでいない位相選択部の段が残っている場合には、処理はステップＳ８８へ戻り、ステップＳ８８〜Ｓ９３が反復される。

ステップＳ９３の判定において、インデックス変数ｉの値が「Ｎ」以下でないとき、処理はステップＳ９４へ移る。ステップＳ９４において選択部４１は、図１１に示すステップＳ４０と同様にして周波数ｆ（Ｍ＋Ｎ）の周波数成分に与える位相シフト量を選択する。その後、処理はＳ９５へ移る。

ステップＳ９５において図１８に示すセレクタ９は、各位相選択部１５−ｉ（ｉ＝１〜Ｎ）から出力される判定結果信号をセレクト信号に使用して、各位相選択部１５−ｉから出力される位相選択信号からいずれか１つを選択して逆フーリエ変換部１３へ入力する。逆フーリエ変換部１３は、入力された位相選択信号によって指定される位相シフトを、フーリエ変換部１０から与えられる各周波数成分に与え、周波数領域信号を逆フーリエ変換した音声フレーム信号を生成する。

本実施例により、所定の選択要件を満たす位相シフトを決定するのが容易な音声フレーム信号については、比較的少ない段数の位相選択部によってより少ない計算量で位相シフトを決定することができ、一方で所定の選択要件を満たす位相シフトを決定するのが難しい音声フレーム信号については、位相選択部の段数を動的に増やしてより適切な位相シフトを決定することができる。

図２１は、開示の音声処理装置の第４実施例の概略構成図である。図２１に示す音声処理装置１は、図１８に示す構成と類似する構成を有しており、図１８に示す構成要素と同様の構成要素には同じ参照符号を使用し、また同一の機能については説明を省略する。

フーリエ変換部１０は、音声フレーム信号をフーリエ変換して、音声フレーム信号のＭ個の周波数ｆｉ（ｉ＝１〜Ｍ）の各周波数成分を示す周波数領域信号を生成する。周波数選択部１６は、フーリエ変換部１０から与えられる各周波数成分のスペクトル強度にしたがって、スペクトル強度が強い順に、各周波数ｆｉを指示する信号を入力SLfとして位相選択部１５−１へ順次入力する。

最大値減少化処理部３は、図１８に示す位相選択部１５−１を備える。位相選択部１５−１は、それぞれ出力SLPout及び出力Routとして出力した位相選択信号及び判定結果信号を、入力SLPin及び入力Rinとしてフィードバックする。

位相選択部１５−１は、第ｉ番目のスペクトル強度の周波数ｆｉの周波数成分に与える位相シフト量を選択したときに出力SLPoutとして出力した位相選択信号を、第（ｉ＋１）番目のスペクトル強度の周波数ｆ（ｉ＋１）の周波数成分に与える位相シフト量を決定する際の入力SLPinとしてフィードバックする。

また、位相選択部１５−１は、周波数ｆｉの周波数成分に与える位相シフト量を選択したときに出力Routとして出力した判定結果信号を、周波数ｆ（ｉ＋１）の周波数成分に与える位相シフト量を決定する際の入力Rinとしてフィードバックする。

最大値減少化処理部３はスイッチ１７を備える。スイッチ１７は、第１番目の周波数ｆ１の周波数成分に与える位相シフト量の選択の際に、入力Rinには「０」を入力し、入力SLPinには、全ての周波数成分について位相シフト量を指定しない位相選択信号を入力する。

位相選択部１５−１から出力SLPout及び出力Routとして出力された位相選択信号及び判定結果信号は、逆フーリエ変換部１３に入力される。逆フーリエ変換部１３は、判定結果信号の値が「１」になったときに入力された位相選択信号によって指定される位相シフトを、フーリエ変換部１０から与えられる各周波数成分に与え、周波数領域信号を逆フーリエ変換した音声フレーム信号を生成する。

本実施例の最大値減少化処理部３は、上述の所定の選択要件を満たす位相シフト量が見つかるか、またはフーリエ変換部１０が生成したＭ個の周波数の周波数成分ｆ１〜ｆＭのすべてについて位相シフト量を決定し終わるまで、周波数ｆ１〜ｆＭの周波数成分に与えるべき各位相シフト量を、１段の位相選択部１５−１によって選択することができる。

図２２は、図２１に示す最大値減少化処理部３により実行される音声信号の最大値の減少化処理の第４例を示すフローチャートである。ステップＳ１００において図２１に示すフーリエ変換部１０は、音声フレーム信号をフーリエ変換して、Ｍ個の周波数ｆｉ（ｉ＝１〜Ｍ）について、音声フレーム信号の各周波数成分を示す周波数領域信号を生成する。

ステップＳ１０１において周波数選択部１６は、各周波数ｆｉの周波数成分のスペクトル強度にしたがって、各周波数ｆｉを指示する信号をスペクトル強度が強い順に位相選択部１５−１へ入力する順番を決定する。ステップＳ１０２において、第１番目から第Ｍ番目のスペクトル強度の周波数ｆｉを参照するインデックス変数ｉの値を「１」に初期化する。

ステップＳ１０３において、位相選択部１５−１は、フーリエ変換部１０から与えられた周波数領域信号に含まれる第ｉ番目にスペクトル強度が強い周波数ｆｉを指示する信号を入力SLfとして受信する。

位相選択部１５−１の逆フーリエ変換部４０−ｊ（ｊ＝１〜１２）は、入力SLfによって指定された周波数ｆｉ以外の他の各周波数成分には、周波数ｆ（ｉ−１）に与える位相シフト量を選択したときに出力SLPoutとして出力した位相選択信号によって指定される各シフト量の位相シフトをそれぞれ与え、かつ周波数ｆｉの周波数成分にはそれぞれ（３６０／Ｌ×（ｊ−１））度の位相シフトを与えて時間領域信号に逆フーリエ変換する。

ステップＳ１０４において、位相選択部１５−１の選択部４１は、逆フーリエ変換部４０−１〜４０−１２により生成された各音声フレーム信号に与えられた位相シフトの中に、上述した所定の選択要件を満たす位相シフトがあるか否かを判定する。ある位相シフトが所定の選択要件を満足するか否かを判定する判定処理は、図１２を参照して示した処理と同様でよい。

ステップＳ１０４の判定において、所定の選択要件を満たす位相シフトがあるとき選択部４１は処理をステップＳ１０５へ移し、所定の選択要件を満たす位相シフトがないとき選択部４１は処理をステップＳ１０６へ移す。ステップＳ１０５において選択部４１は、図１１に示すステップＳ３９と同様にして周波数ｆｉの周波数成分に与える位相シフト量を選択する。

選択部４１は、選択した位相シフト量を示す位相選択信号を出力する。位相選択信号合成部４２は、入力SLPinとして入力した位相選択信号と、選択部４１が出力した位相選択信号とを合成する。位相選択信号合成部４２は、合成した位相選択信号を出力SLPoutとして出力する。また選択部４１は、判定結果信号の値を「０」から「１」へ変化させる。その後、処理はステップＳ１１０へ移る。

ステップＳ１０６において、選択部４１は、逆フーリエ変換部４０−１〜４０−１２により生成された各音声フレーム信号のうち、最大振幅値が最小である音声フレーム信号を選択する。選択部４１は、逆フーリエ変換部４０−１〜４０−１２のうち、選択された音声フレーム信号の周波数成分ｆｉに与えられた位相シフト量を示す位相選択信号を出力する。位相選択信号合成部４２は、入力SLPinとして入力した位相選択信号と、選択部４１が出力した位相選択信号とを合成する。位相選択信号合成部４２は、合成した位相選択信号を出力SLPoutとして出力する。

ステップＳ１０７において、インデックス変数ｉの値を１つ増加する。ステップＳ１０８において、インデックス変数ｉの値が「Ｍ」以下であるとき、すなわち、まだ位相選択処理が済んでいない周波数が残っている場合には、処理はステップＳ１０３へ戻り、ステップＳ１０３〜Ｓ１０８が反復される。

ステップＳ１０８の判定において、インデックス変数ｉの値が「Ｍ」以下でないとき、処理はステップＳ１０９へ移る。ステップＳ１０９において選択部４１は、図１１に示すステップＳ４０と同様にして周波数ｆＭの周波数成分に与える位相シフト量を選択する。

選択部４１は、選択した位相シフト量を示す位相選択信号を出力する。位相選択信号合成部４２は、入力SLPinとして入力した位相選択信号と、選択部４１が出力した位相選択信号とを合成する。位相選択信号合成部４２は、合成した位相選択信号を出力SLPoutとして出力する。また選択部４１は、判定結果信号の値を「０」から「１」へ変化させる。その後処理は、ステップＳ１１０へ移る。

ステップＳ１１０において図２１に示す逆フーリエ変換部１３は、判定結果信号の値が「１」になったときに入力された位相選択信号によって指定される位相シフトを、フーリエ変換部１０から与えられる各周波数成分に与え、周波数領域信号を逆フーリエ変換した音声フレーム信号を生成する。

図２３は、開示の音声処理装置の第５実施例の概略構成図である。図２３に示す音声処理装置１は、図１８に示す構成と類似する構成を有しており、図１８に示す構成要素と同様の構成要素には同じ参照符号を使用し、また同一の機能については説明を省略する。

最大値減少化処理部３は、フーリエ変換部１０と、逆フーリエ変換部５０と、音声信号選択部５１とを備える。フーリエ変換部１０は、音声フレーム信号をフーリエ変換して、Ｋ個の周波数ｆｉ（ｉ＝１〜Ｋ）について、音声フレーム信号の各周波数成分を示す周波数領域信号を生成する。

逆フーリエ変換部５０は、Ｋ個の周波数ｆｉ（ｉ＝１〜Ｋ）の全ての周波数成分のそれぞれに、複数種類のシフト量Δθｊ＝（３６０／Ｌ×（ｊ−１））（ｊ＝１〜Ｌ）度の位相シフトのうちのいずれかを与える位相シフトの全ての組み合わせについて、それぞれの組み合わせの位相シフトを各周波数成分に与えて逆フーリエ変換を行うことにより、Ｌ^K個の音声フレーム信号を生成する。

すなわち逆フーリエ変換部５０は、各周波数ｆｉの周波数成分にそれぞれ与えるべき位相シフト量が以下の表１によって与えられる、Ｌ^K組の位相シフトの組み合わせＰＳ−１〜ＰＳ−Ｌ^Kの各々を、各周波数成分に与えて逆フーリエ変換を行うことによって、Ｌ^K個の音声フレーム信号を生成する。

音声信号選択部５１には、目標増幅率決定部８が決定した目標増幅率Ａｔと、フレーム記憶部６に記憶された前フレームの最後のサンプル値Ｓｂが入力される。音声信号選択部５１は、逆フーリエ変換部５０により生成された各音声フレーム信号の最大振幅値に基づいて、これら各音声フレーム信号に与えられた位相シフトのうち、所定の選択要件を満足する音声フレーム信号があるか否かを判定する。

ここである音声フレーム信号が選択されるための所定の選択要件は、図９〜図１２を参照して説明した、位相シフト量が選択されるための所定の選択要件と同様の条件である。すなわち、ある音声フレーム信号に対して、上記の条件（１）〜（３）が満たす信号増幅率Ａが存在することである。

音声信号選択部５１は、所定の選択要件を満足する音声フレーム信号のうち、最小の最大振幅値を有する音声フレーム信号を選択して増幅率決定部４及び増幅部５へ出力する。

図２４は、図２３に示す最大値減少化処理部３により実行される音声信号の最大値の減少化処理の第５例を示すフローチャートである。ステップＳ１２０において、フーリエ変換部１０は、音声フレーム信号をフーリエ変換して、Ｋ個の周波数ｆｉ（ｉ＝１〜Ｋ）について、音声フレーム信号の各周波数成分を示す周波数領域信号を生成する。

ステップＳ１２１において逆フーリエ変換部５０は、周波数ｆｉ（ｉ＝１〜Ｋ）の全ての周波数成分のそれぞれに、複数種類のシフト量Δθｊ＝（３６０／Ｌ×（ｊ−１））（ｊ＝１〜Ｌ）度の位相シフトのうちのいずれかを与える位相シフトの全ての組み合わせＰＳ−１〜ＰＳ−Ｌ^Kを各周波数成分に与えて逆フーリエ変換を行って音声フレーム信号を生成する。

ステップＳ１２２において音声信号選択部５１は、逆フーリエ変換部５０により生成された各音声フレーム信号の中に、上述した所定の選択要件を満たす音声フレーム信号があるか否かを判定する。ある音声フレーム信号が所定の選択要件を満足するか否かを判定する判定処理は、図１２を参照して示した処理と同様の処理でよい。

ステップＳ１２２の判定において、所定の選択要件を満たす音声フレーム信号があるとき音声信号選択部５１は処理をステップＳ１２３へ移し、所定の選択要件を満たす音声フレーム信号がないとき音声信号選択部５１は処理をステップＳ１２４へ移す。

ステップＳ１２３において音声信号選択部５１は、所定の選択要件を満足する音声フレーム信号のうち最小の最大振幅値を有する音声フレーム信号を選択し、処理を終了する。ステップＳ１２４において音声信号選択部５１は、所定の優先順序付け基準に従って、逆フーリエ変換部５０により生成された各音声フレーム信号のうち最も優先度が高い音声フレーム信号を選択する。優先順序付け基準として、（１）各音声フレーム信号の最大振幅値の大小、（２）増幅部５において各音声フレーム信号にクリッピング歪みを生じさせずに増幅できる増幅率の範囲と目標増幅率Ａとの間の距離の大小、（３）増幅部５において各音声フレーム信号にクリッピング歪みを生じない範囲で増幅させたときの各音声フレーム信号の最初のサンプル値と、その直前のフレームの最後のサンプル値との差の大小、などを使用してよい。

本実施例では、全ての位相シフト量の組み合わせＰＳ−１〜ＰＳ−Ｌ^Kを与えた場合の音声フレーム信号について比較を行うので、より最適な音声フレーム信号を選択できる。

図２５は、開示の音声処理装置の第６実施例の概略構成図である。図２５に示す音声処理装置１は、図２３に示す構成と類似する構成を有しており、図２３に示す構成要素と同様の構成要素には同じ参照符号を使用し、また同一の機能については説明を省略する。

最大値減少化処理部３は、異なる周波数−位相特性を有する複数のオールパスフィルタ６０−１〜６０−Ｔと、音声信号選択部６１とを備える。フレーム分割部２から出力される音声フレーム信号は、並列に配置されたオールパスフィルタ６０−１〜６０−Ｔによってフィルタリングされる。

図２６は、オールパスフィルタ６０−１〜６０−Ｔの周波数−位相特性の例を示す特性図である。オールパスフィルタ６０−１〜６０−Ｔは、入力信号の周波数成分に応じて、それぞれの周波数成分に異なるシフト量Δθの位相シフトを与えるフィルタである。図示のＣ１〜Ｃ３はそれぞれ異なる周波数−位相特性を示し、これらの特性Ｃ１〜Ｃ３の間において、各周波数における位相シフト量が異なっている。

オールパスフィルタ６０−１〜６０−Ｔとして、Ｃ１〜Ｃ３に示すような異なる周波数−位相特性を有するフィルタを使用することにより、ユーザの聴覚により感知される音声品質を劣化させずに、異なる波形を有する、すなわち異なる最大振幅値を有する音声信号を生成することができる。したがって、オールパスフィルタ６０−１〜６０−Ｔは、上述した図２３において複数の異なるシフト量の位相シフトを与えて逆フーリエ変換を行う逆フーリエ変換部５０の代わりに使用することができる。

図２７は、（Ａ）〜（Ｄ）はオールパスフィルタの第１〜４構成例を示す構成図であり、図２８は、（Ａ）及び（Ｂ）はオールパスフィルタの第５及び６構成例を示す構成図である。各図において要素６０及び６１はそれぞれ増幅率ｂ１及びｂ２で信号増幅を行う増幅器を示し、要素７０〜７３は１サンプル分の遅延を与える遅延素子を示し、要素８０〜８２は加算器を示す。増幅率ｂ１及びｂ２を変えて各例のオールパスフィルタを構成することによって、異なる周波数−位相特性を有するオールパスフィルタを実現することが可能である。

各オールパスフィルタ６０−１〜６０−Ｔの各々によってフィルタリングされた音声フレーム信号は、図２５の音声信号選択部６１に入力される。音声信号選択部６１には、目標増幅率決定部８が決定した目標増幅率Ａｔと、フレーム記憶部６に記憶された前フレームの最後のサンプル値Ｓｂが入力される。音声信号選択部６１は、オールパスフィルタ６０−１〜６０−Ｔによりそれぞれフィルタリングされた各音声フレーム信号の最大振幅値に基づいて、これら各音声フレーム信号に与えられた位相シフトのうち、上述の所定の選択要件を満足する音声フレーム信号があるか否かを判定する。

音声信号選択部６１は、所定の選択要件を満足する音声フレーム信号のうち、最小の最大振幅値を有する音声フレーム信号を選択して増幅率決定部４及び増幅部５へ出力する。

図２９は、図２５に示す最大値減少化処理部３により実行される音声信号の最大値の減少化処理の第６例を示すフローチャートである。ステップＳ１３０において、フレーム分割部２から出力される音声フレーム信号を、各オールパスフィルタ６０−１〜６０−Ｔにてフィルタリングする。

ステップＳ１３１において音声信号選択部６１は、各オールパスフィルタ６０−１〜６０−Ｔによってフィルタリングした後の各音声フレーム信号の中に、上述した所定の選択要件を満たす音声フレーム信号があるか否かを判定する。ある音声フレーム信号が所定の選択要件を満足するか否かを判定する判定処理は、図１２を参照して示した処理と同様の処理でよい。

ステップＳ１３１の判定において、所定の選択要件を満たす音声フレーム信号があるとき音声信号選択部６１は処理をステップＳ１３２へ移し、所定の選択要件を満たす音声フレーム信号がないとき音声信号選択部６１は処理をステップＳ１３３へ移す。

ステップＳ１３２において音声信号選択部６１は、所定の選択要件を満足する音声フレーム信号のうち最小の最大振幅値を有する音声フレーム信号を選択し、処理を終了する。ステップＳ１３３において音声信号選択部６１は、図２４のステップＳ１２４と同様の処理により各音声フレーム信号を選択し、処理を終了する。

本構成例によれば、フーリエ変換及び逆フーリエ変換を行うことなく、簡易な構成で最大値減少化処理部３を実現することができる。

以上の実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
ディジタル音声信号を所定長毎に分割した音声フレーム信号の周波数成分に、互いに異なる位相シフトを与えることにより得られる複数の異なる音声フレーム信号の、それぞれの最大振幅値を決定する最大振幅値決定手段と、
前記複数の異なる音声フレーム信号のうち最大振幅値が最も小さいものを選択する選択手段と、を備える音声信号処理装置。

（付記２）
前記最大振幅値決定手段は、
前記音声フレーム信号の各周波数成分を決定する周波数成分決定手段と、
前記各周波数成分にそれぞれ与えられる位相シフト量の複数の組み合わせを決定する組み合わせ決定手段と、を備え、
前記選択手段は、前記組み合わせ決定手段により決定された前記複数の組み合わせのうち、前記音声フレーム信号の最大振幅値を最も小さくする組み合わせを選択する付記１に記載の音声信号処理装置。

（付記３）
前記組み合わせ決定手段は、前記周波数成分決定手段により決定されたいずれか１つの周波数成分に、互いに異なるシフト量の位相シフトを与えて複数の候補信号を生成する候補生成手段を備え、
前記選択手段は、前記複数の候補信号のうち最大振幅値が最も小さい候補信号に与えられたシフト量を選択する候補選択手段を備える、付記２に記載の音声信号処理装置。

（付記４）
前記候補生成手段及び前記候補選択手段は、複数の前記周波数成分についてスペクトル強度が大きい順に前記複数の候補信号の生成と前記シフト量の選択を行い、
前記候補生成手段は、各周波数成分について前記複数の候補信号を作成するとき、当該周波数成分よりも以前にシフト量が選択された他の周波数成分に対して、それぞれの周波数成分について選択されたシフト量を与えて前記複数の候補信号を作成する付記３に記載の音声信号処理装置。

（付記５）
前記候補生成手段及び前記候補選択手段は、前記周波数成分決定手段が決定した各周波数成分のうちから順次選択された周波数成分について、前記複数の候補信号の生成と前記シフト量の選択を行い、
前記候補生成手段は、各周波数成分について前記複数の候補信号を作成するとき、当該周波数成分よりも以前にシフト量が選択された他の周波数成分に対して、それぞれの周波数成分について選択されたシフト量を与えて前記複数の候補信号を作成し、
前記候補生成手段及び前記候補選択手段は、各周波数成分に対してそれぞれ選択されたシフト量を与えることにより生成される候補信号の最大振幅値が所定の閾値より小さくなったとき、前記候補信号の生成とシフト量の選択を停止する付記３に記載の音声信号処理装置。

（付記６）
前記候補選択手段は、最大振幅値に基づいて、所定の増幅器において所定の許容範囲内の信号増幅率にて各候補信号を増幅できるか否かをそれぞれ判定し、増幅できると判定された各候補信号にそれぞれ与えられたシフト量の中から、前記シフト量の選択を行う付記３〜５のいずれか一項に記載の音声信号処理装置。

（付記７）
前記音声信号処理装置は、現在の音声フレーム信号の１つ前に処理された前フレームの少なくとも最後のサンプルを記憶するフレーム記憶手段を備え、
前記候補選択手段は、前記候補信号の最大振幅値に応じて信号増幅率を決定する増幅率決定手段と、決定された前記信号増幅率で増幅されたときの前記候補信号の最初のサンプル値を決定するサンプル値決定部と、を備え、
前記候補選択手段は、前記サンプル値決定部によって決定されたサンプル値が、前フレームの最後のサンプル値から所定の許容範囲内に収まる各候補信号にそれぞれ与えられたシフト量の中から、前記シフト量の選択を行う付記３〜５のいずれか一項に記載の音声信号処理装置。

（付記８）
前記組み合わせ決定手段は、前記周波数成分決定手段により決定される全ての周波数成分の各々に対して、シフト量が異なる複数の位相シフトの各々を与えて複数の音声フレーム信号を生成する候補生成手段を備え、
前記選択手段は、前記複数の音声フレーム信号のうち最大振幅値が最も小さいものを選択する付記２に記載の音声信号処理装置。

（付記９）
前記最大振幅値決定手段は、前記音声フレーム信号をフィルタリングする、異なる周波数−位相特性を有する複数のオールパスフィルタを備え、
前記選択手段は、前記複数のオールパスフィルタによりフィルタリングされた前記音声フレーム信号のうち、最大振幅値を最も小さいものを選択する付記１に記載の音声信号処理装置。

（付記１０）
前記選択手段は、最大振幅値に基づいて、所定の増幅器において所定の許容範囲内の信号増幅率にて前記音声フレーム信号を増幅できるか否かをそれぞれ判定し、増幅できると判定された音声フレーム信号の中から、音声フレーム信号の選択を行う付記８又は９に記載の音声信号処理装置。

（付記１１）
前記音声信号処理装置は、現在の音声フレーム信号の１つ前に処理された前フレームの少なくとも最後のサンプルを記憶するフレーム記憶手段を備え、
前記選択手段は、前記音声フレーム信号の最大振幅値に応じて信号増幅率を決定する増幅率決定手段と、決定された前記信号増幅率で増幅されたときの前記音声フレーム信号の最初のサンプル値を決定するサンプル値決定部と、を備え、
前記選択手段は、前記サンプル値決定部によって決定されたサンプル値が、前フレームの最後のサンプル値から所定の許容範囲内に収まる音声フレーム信号のうちから、音声フレーム信号の選択を行う付記８又は９に記載の音声信号処理装置。

（付記１２）
前記選択手段により選択された前記音声フレーム信号の最大振幅値に応じた信号増幅率で前記音声フレーム信号を増幅する信号増幅手段と、
現在の音声フレーム信号の１つ前に処理された前フレームへ、前記信号増幅手段により増幅された前記音声フレーム信号を接続するフレーム接続手段と、をさらに備え、
該フレーム接続手段は、前記音声フレーム信号の最初のサンプル値と前記前フレームの最後のサンプル値との間に存在する目標値を選択し、前記音声フレーム信号の初めの複数サンプルの値と前記前フレームの最後の複数サンプルの値とを前記目標値に向かって漸近させる付記１〜１１に記載の音声信号処理装置。

（付記１３）
ディジタル音声信号を所定長毎に分割した音声フレーム信号の周波数成分に位相シフトを与えることにより前記音声フレーム信号の最大振幅値を減少化させる最大値減少化手段と、
最大振幅値が減少化された後の音声フレーム信号の最大振幅値に応じて決定される信号増幅率で、前記最大振幅値が減少化された後の音声フレーム信号を増幅する信号増幅手段と、
を備える音声信号処理装置。

（付記１４）
ディジタル音声信号を所定長の音声フレーム信号に分割し、
分割された前記音声フレーム信号の周波数成分に互いに異なる位相シフトを与えることにより得られる複数の異なる音声フレーム信号の、それぞれの最大振幅値を決定し、
前記複数の異なる音声フレーム信号のうち最大振幅値が最も小さいものを選択する、
音声信号処理方法。

（付記１５）
ディジタル音声信号を所定長の音声フレーム信号に分割し、
分割された前記音声フレーム信号の周波数成分に位相シフトを与えることにより前記音声フレーム信号の最大振幅値を減少化させ、
最大振幅値が減少化された後の音声フレーム信号の最大振幅値に応じて決定される信号増幅率で、前記最大振幅値が減少化された後の音声フレーム信号を増幅する、
音声信号処理方法。

開示の音声処理装置の第１実施例の概略構成図である。図１に示す位相選択部の構成例を示す図である。開示の音声処理方法の実施例の全体フローチャートである。音声信号の最大値の減少化処理の第１例を示すフローチャートである。（Ａ）及び（Ｂ）は音声信号の最大値の低減化処理の前後の音声フレーム信号の波形の模式図である。図１に示す増幅率決定部による信号増幅率の決定処理の例を説明する説明図である。図１に示すフレーム接続部による音声フレーム信号の接続処理の例を示すフローチャートである。（Ａ）及び（Ｂ）は、図１に示すフレーム接続部による音声フレーム信号の接続処理の例の説明図である。開示の音声処理装置の第２実施例の概略構成図である。図９に示す位相選択部の構成例を示す図である。音声信号の最大値の減少化処理の第２例を示すフローチャートである。ある位相シフトが所定の選択要件を満足するか否かを判定する判定処理のフローチャートである。（Ａ）〜（Ｄ）は、図１２に示す判定処理の説明図である。図９に示す増幅率決定部による信号増幅率の決定処理の第１例を示すフローチャートである。（Ａ）〜（Ｃ）は、図９に示す増幅率決定部による信号増幅率の決定処理の第１例の説明図である。図９に示す増幅率決定部による信号増幅率の決定処理の第２例を示すフローチャートである。図９に示す増幅率決定部による信号増幅率の決定処理の第２例の説明図である。開示の音声処理装置の第３実施例の概略構成図である。図１８に示す位相選択部の構成例を示す図である。音声信号の最大値の減少化処理の第３例を示すフローチャートである。開示の音声処理装置の第４実施例の概略構成図である。音声信号の最大値の減少化処理の第４例を示すフローチャートである。開示の音声処理装置の第５実施例の概略構成図である。音声信号の最大値の減少化処理の第５例を示すフローチャートである。開示の音声処理装置の第６実施例の概略構成図である。オールパスフィルタの周波数−位相特性を示す特性図である。（Ａ）〜（Ｄ）はオールパスフィルタの第１〜４構成例を示す構成図である。（Ａ）及び（Ｂ）はオールパスフィルタの第５及び６構成例を示す構成図である。音声信号の最大値の減少化処理の第６例を示すフローチャートである。

符号の説明

１音声信号処理装置
３最大値減少化処理部

Claims

ディジタル音声信号を所定長毎に分割した音声フレーム信号の周波数成分に、互いに異なる位相シフトを与えることにより得られる複数の異なる音声フレーム信号の、それぞれの最大振幅値を決定する最大振幅値決定手段と、
前記複数の異なる音声フレーム信号のうち最大振幅値が最も小さいものを選択する選択手段と、を備える音声信号処理装置。
前記最大振幅値決定手段は、
前記音声フレーム信号の各周波数成分を決定する周波数成分決定手段と、
前記各周波数成分にそれぞれ与えられる位相シフト量の複数の組み合わせを決定する組み合わせ決定手段と、を備え、
前記選択手段は、前記組み合わせ決定手段により決定された前記複数の組み合わせのうち、前記音声フレーム信号の最大振幅値を最も小さくする組み合わせを選択する請求項１に記載の音声信号処理装置。
前記組み合わせ決定手段は、前記周波数成分決定手段により決定されたいずれか１つの周波数成分に、互いに異なるシフト量の位相シフトを与えて複数の候補信号を生成する候補生成手段を備え、
前記選択手段は、前記複数の候補信号のうち最大振幅値が最も小さい候補信号に与えられたシフト量を選択する候補選択手段を備える、請求項２に記載の音声信号処理装置。
前記組み合わせ決定手段は、前記周波数成分決定手段により決定される全ての周波数成分の各々に対して、シフト量が異なる複数の位相シフトの各々を与えて複数の音声フレーム信号を生成する候補生成手段を備え、
前記選択手段は、前記複数の音声フレーム信号のうち最大振幅値が最も小さいものを選択する請求項２に記載の音声信号処理装置。
前記最大振幅値決定手段は、前記音声フレーム信号をフィルタリングする、異なる周波数−位相特性を有する複数のオールパスフィルタを備え、
前記選択手段は、前記複数のオールパスフィルタによりフィルタリングされた前記音声フレーム信号のうち、最大振幅値を最も小さいものを選択する請求項１に記載の音声信号処理装置。
ディジタル音声信号を所定長毎に分割した音声フレーム信号の周波数成分に位相シフトを与えることにより前記音声フレーム信号の最大振幅値を減少化させる最大値減少化手段と、
最大振幅値が減少化された後の音声フレーム信号の最大振幅値に応じて決定される信号増幅率で、前記最大振幅値が減少化された後の音声フレーム信号を増幅する信号増幅手段と、
を備える音声信号処理装置。
ディジタル音声信号を所定長の音声フレーム信号に分割し、
分割された前記音声フレーム信号の周波数成分に互いに異なる位相シフトを与えることにより得られる複数の異なる音声フレーム信号の、それぞれの最大振幅値を決定し、
前記複数の異なる音声フレーム信号のうち最大振幅値が最も小さいものを選択する、
音声信号処理方法。
ディジタル音声信号を所定長の音声フレーム信号に分割し、
分割された前記音声フレーム信号の周波数成分に位相シフトを与えることにより前記音声フレーム信号の最大振幅値を減少化させ、
最大振幅値が減少化された後の音声フレーム信号の最大振幅値に応じて決定される信号増幅率で、前記最大振幅値が減少化された後の音声フレーム信号を増幅する、
音声信号処理方法。