JP6677110B2

JP6677110B2 - 音声信号処理装置及び音声信号処理プログラム

Info

Publication number: JP6677110B2
Application number: JP2016139753A
Authority: JP
Inventors: 遠藤　香緒里; 香緒里遠藤
Original assignee: Fujitsu Connected Technologies Ltd
Current assignee: Fujitsu Connected Technologies Ltd
Priority date: 2016-07-14
Filing date: 2016-07-14
Publication date: 2020-04-08
Anticipated expiration: 2036-07-14
Also published as: JP2018010207A

Description

本発明は、音声信号処理装置及び音声信号処理プログラムに関する。

高音質化を実現するためには広帯域の音声信号処理に対応する必要があるが、広帯域の音声信号処理では情報量が増大するため、音声信号処理の負担が増大する。例えば、入力音声信号を低域周波数雑音成分が含まれる低域音声信号と高域周波数雑音成分が含まれる高域音声信号とに分割し、入力音声信号のパワーが大きい低域音声信号をダウンサンプリングして入力音声信号から間引く技術が存在する。これにより、低域音声信号に対して、少ない演算量でより高度な雑音抑圧処理を行うことができる。また、入力音声信号のパワーが小さい高域音声信号に対しては、低域音声信号への雑音抑制処理よりも簡単な雑音抑制処理を行うことで、より少ない演算量で音声歪みを低減し、かつ、雑音を除去することで音質を劣化させない。したがって、音声信号処理の負担を低減することができる。

しかしながら、騒音を含む音声の音声信号は、状況によりその周波数特性が変化する。例えば、子音区域など、高域音声信号に音声特徴の情報が多く含まれる場合、または、騒音の高域周波数成分の定常性が低い場合などに、高域音声信号に簡単な雑音抑制処理を実行すると、音声歪みが多くなり、雑音を十分に除去できない場合がある。

また、音声信号処理の負担を低減するために、入力音声信号を所定の周波数帯域に分割された帯域分割信号に変換し、周波数帯域毎の特徴量に応じて雑音、環境音、及び楽音等の音響信号をフィルタリングする技術が存在する。フィルタリングされた帯域分割信号の明瞭度に応じて、フィルタリングされた帯域分割信号と入力音声信号との配分を調整して、出力信号を合成することで、ユーザが不快にならない程度に音質が劣化せず、かつ、第三者には聞き難い音声を生成する。

特開２００６−２０１６２２号公報特開２００９−７５１６０号公報特許第３３０９８９５号公報特許第４５３３４２７号公報特許第５４５３７４０号公報

しかしながら、音声及び周囲騒音の周波数特性などは経時的に変化する。所定の周波数帯域に分割している関連技術では、経時的な変化に応じた適切な帯域幅で音声信号処理を行うことが困難である。

本発明は、１つの側面として、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを目的とする。

１つの実施形態では、第１帯域分割部は、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第１帯域幅で複数の第１帯域に分割する。帯域幅決定部は、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第１帯域幅以上の第２帯域幅を決定する。第２帯域分割部は、帯域幅決定部で決定された第２帯域幅で、音声信号の高周波数領域を複数の第２帯域に分割する。音声信号調整部は、複数の第１帯域の各々及び複数の第２帯域の各々に対して音声信号調整処理を実行する。

本発明は、１つの側面として、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。

第１〜第５実施形態に係る音声信号処理装置の要部機能の一例を示すブロック図である。第１〜第５実施形態に係る音声信号処理装置のハードウェアの構成の一例を示すブロック図である。第１〜第５実施形態に係る音声信号処理の概要を説明するための概念図である。第１〜第５実施形態に係る音声信号処理の概要を説明するための概念図である。第１〜第４実施形態に係る音声信号処理の流れの一例を示すフローチャートである。第１実施形態に係る音声信号分析処理の流れの一例を示すフローチャートである。第１実施形態に係る高周波数領域の帯域数算出を説明するための線図である。第１〜第５実施形態に係る高周波数領域の帯域数を説明するための概念図である。第１〜第５実施形態に係る高周波数領域の帯域併合を説明するための概念図である。第１〜第５実施形態に係る高周波数領域の帯域併合を説明するための概念図である。第１〜第５実施形態に係る帯域併合処理の一例を示すフローチャートである。第１〜第５実施形態に係る音声信号調整処理の一例を示すフローチャートである。第１〜第５実施形態に係るゲイン分配の一例を示すフローチャートである。第１〜第５実施形態に係るゲイン分配の一例を示すフローチャートである。第１〜第５実施形態の原理を説明するための概念図である。第１〜第５実施形態の原理を説明するための概念図である。第１〜第５実施形態の原理を説明するための概念図である。第２実施形態に係る音声信号分析処理の流れの一例を示すフローチャートである。第２実施形態に係る高周波数領域の帯域数算出を説明するための線図である。第３実施形態に係る音声信号分析処理の流れの一例を示すフローチャートである。第３および第４実施形態に係る音声有無判定処理の流れの一例を示すフローチャートである。第３および第４実施形態に係る基本周波数算出処理の流れの一例を示すフローチャートである。第３実施形態に係る高周波数領域の帯域数算出を説明するための線図である。第４実施形態に係る音声信号分析処理の流れの一例を示すフローチャートである。第５実施形態に係る音声信号処理の流れの一例を示すフローチャートである。第５実施形態に係る音声信号処理の概要を説明するための概念図である。第５実施形態に係る音声信号処理の概要を説明するための概念図である。第５実施形態に係る音声信号処理の概要を説明するための概念図である。第５実施形態に係る音声信号処理の概要を説明するための概念図である。第５実施形態に係る高周波数領域下減変更処理の流れの一例を示すフローチャートである。

［第１実施形態］
以下、図面を参照して第１実施形態の一例を詳細に説明する。

図１に示す音声信号処理装置１０は、音声入力部２１、周波数領域変換部２２、第１帯域分割部２３、帯域幅決定部２４、第２帯域幅分割部２５、音声信号調整部２６、時間領域変換部２７及び音声出力部２８を含む。音声入力部２１は音声を検出し、検出した音声を音声信号に変換する。

周波数領域変換部２２は、音声信号を時間領域表現から周波数領域表現に変換する。例えば、フーリエ変換を使用して、時間に応じてレベルが変化する音声信号を周波数に応じてレベルが変化する音声信号に変換する。第１帯域分割部２３は、周波数領域表現に変換した音声信号の低周波数領域を第１帯域幅で複数の第１帯域幅に分割する。帯域幅決定部２４は、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第１帯域幅以上の第２帯域幅を決定する。

低周波数領域は、一般に重要度が高い領域である。一方、高周波数領域は、一般に低周波数領域と比較して重要度が低い領域であるが、高周波数領域に含まれる音声信号の特徴によっては重要度が高い場合もある。高周波数領域の重要度が高い場合には、音質を劣化させないようにするため、重要度が高くなるにしたがって、高周波数領域を分割する際の帯域幅を狭くし、帯域数を多くして、高周波数領域の音声信号処理の精度を高くすることで、音質を劣化させない。

帯域幅決定部２４は係数決定部２９を含むことができ、係数決定部２９は、高周波数領域の重要度の高さに基づいて係数を決定する。この場合、帯域幅決定部２４は、決定された係数を第１帯域幅に乗じることで第２帯域幅を決定する。帯域幅決定部２４は、決定された係数に対応する個数の第１帯域幅を加算することで第２帯域幅を決定してもよい。

第２帯域分割部２５は、帯域幅決定部２４で決定された第２帯域幅で、音声信号の高周波数領域を複数の第２帯域に分割する。音声信号調整部２６は、複数の第１帯域の各々及び複数の第２帯域の各々に対して音声信号調整処理を実行する。時間領域変換部２７は、音声信号を周波数領域表現から時間領域表現に変換する。音声出力部２８は、音声信号を音声に変換して出力する。

音声信号処理装置１０は、一例として、図２に示すように、プロセッサの一例であるＣＰＵ（Central Processing Unit）３１、一次記憶部３２、二次記憶部３３、外部インターフェイス３４、マイク３５、スピーカ３６及び通信部３７を含む。ＣＰＵ３１、一次記憶部３２、二次記憶部３３、外部インターフェイス３４、マイク３５、スピーカ３６、及び通信部３７は、バス３９を介して相互に接続されている。

一次記憶部３２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性のメモリである。二次記憶部３３は、例えば、ＨＤＤ（Hard Disk Drive）、又はＳＳＤ（Solid State Drive）などの不揮発性のメモリである。

二次記憶部３３は、プログラム格納領域３３Ａ及びデータ格納領域３３Ｂを含む。プログラム格納領域３３Ａは、一例として、音声信号処理プログラムなどのプログラムを記憶している。データ格納領域３３Ｂは、一例として、音声信号および音声信号処理プログラムを実行している間に生成される中間データなどを記憶する。

ＣＰＵ３１は、プログラム格納領域３３Ａから音声信号処理プログラムを読み出して一次記憶部３２に展開する。ＣＰＵ３１は、音声信号処理プログラムを実行することで、図１の周波数領域変換部２２、第１帯域分割部２３、帯域幅決定部２４、第２帯域分割部２５、音声信号調整部２６、時間領域変換部２７、及び係数決定部２９として動作する。

なお、音声信号処理プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部３２に展開されてもよい。また、音声信号処理プログラムなどのプログラムは、ＤＶＤ（Digital Versatile Disc）などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部３２に展開されてもよい。

マイク３５は、音声入力部２１の一例であり、ユーザが発話した音声及び背景雑音などを検出し、音声信号に変換する。スピーカ３６は、音声出力部２８の一例であり、音声信号を音声に変換して出力する。通信部３７は、音声入力部２１及び音声出力部２８の一例であり、有線または無線の通信回線を介して音声信号を送受信する。

外部インターフェイス３４には外部装置が接続され、外部インターフェイス３４は、外部装置とＣＰＵ３１との間の各種情報の送受信を司る。マイク３５、スピーカ３６及び通信部３７が音声信号処理装置１０に含まれている例について説明した。しかしながら、マイク３５、スピーカ３６及び通信部３７の全部または一部は、外部インターフェイス３４を介して接続される外部装置であってもよい。

なお、音声信号処理装置１０は、例えば、スマートフォンであってよいが、本実施形態は、これに限定されない。例えば、音声信号処理装置１０は、携帯電話、タブレット、パーソナルコンピュータなどの音声通信に利用可能な装置であってよい。また、音声信号処理装置１０の一部または全部は、マイク３５、スピーカ３６及び通信部３７などと物理的に離隔して、例えば、ネットワークを介して配置されたコンピュータであってよい。

ネットワークを介して配置されたコンピュータを音声信号処理装置１０とする場合、ネットワークを介して配置されたコンピュータとしてのサーバに音声信号処理プログラムを格納する。マイク３５、スピーカ３６及び通信部３７などを備えたユーザの情報端末で音声信号を取得する。

情報端末から送信された音声信号を用いてサーバで音声信号処理を行い、音声信号処理の結果などをサーバから通話相手の情報端末に送信する。または、マイク３５、スピーカ３６及び通信部３７などを備えた通話相手の情報端末で音声信号を取得する。情報端末から送信された音声信号を用いてサーバで音声信号処理を行い、音声信号処理の結果などをサーバからユーザの情報端末に送信する。

次に、音声信号処理の原理について説明する。図３Ａに例示するように、帯域幅ＷＢＡ２の広帯域音声信号を、所定の第１帯域幅ＷＢ１で分割すると、帯域数が多くなり、音声信号処理による負担が増加する。第１帯域幅ＷＢ１は、例えば、音声信号を時間領域表現から周波数領域表現に変換する際の周波数分解能であってよい。本実施形態では、図３Ｂに例示するように、音声信号の低周波数領域を分割する第１帯域幅ＷＢ１は変更せず、音声信号の高周波数領域を分割する第２帯域幅ＷＢ２を第１帯域幅ＷＢ１より広く決定する。これにより、全体として帯域数を低減することで、音声信号処理による負担を低減する。

音声信号の高周波数領域の重要度は、音声信号の低周波数領域の重要度よりも低い。一般的に、音声の基本周波数などの特徴は、音声信号の低周波数領域に含まれることが多いためである。しかしながら、高周波数領域の重要度によっては、高周波数領域を分割する第２帯域幅ＷＢ２を広くして帯域数を低減することで、音声信号処理後の音質が劣化する虞もある。この問題に対処するため、音声信号の高周波数領域の重要度の高さに基づいて、高周波数領域を分割する第２帯域幅ＷＢ２を決定する。これにより、音声信号処理後の音質が劣化しないようにすることができる。

音声信号の高周波数領域の重要度の高さは、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率、高周波数領域のパワーの非定常性、及び、音声信号の基本周波数に基づいて決定される。また、音声信号の高周波数領域の重要度の高さは、音声信号が子音に対応するか否か、に基づいて決定される。音声信号の高周波数領域の重要度の高さは、これらの少なくとも２つの組み合わせに基づいて決定されてもよい。

音声信号の高周波数領域の重要度の高さは、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が大きくなるにしたがって、高くされ、高周波数領域のパワーの非定常性が高くなるにしたがって、高くされる。または、音声信号の高周波数領域の重要度の高さは、音声信号の基本周波数が高くなるにしたがって、高くされ、音声信号が子音に対応する場合に子音に対応しない場合より、高くされる。

本実施形態では、高周波数領域の重要度の高さが、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が大きくなるにしたがって、高くされる例について説明する。

次に、音声信号処理装置１０の作用について説明する。図４に音声信号処理の一例を示す。例えば、ユーザが音声信号処理装置１０の電源をオンすると、ＣＰＵ３１は、ステップ１０１で、音声信号を１フレーム分読み込む。１フレームは、例えば、２０ｍ秒分の音声信号であってよい。音声信号は、マイク３５で検出された音声に基づいて変換された音声信号であってもよいし、通信部３７で通話相手の情報端末から有線または無線の通信回線を介して受信した音声信号であってもよい。

ＣＰＵ３１は、ステップ１０２で、音声信号を時間領域表現から周波数領域表現に変換する。例えば、フーリエ変換を使用して、時間に応じてレベルが変化する音声信号を周波数に応じてレベルが変化する音声信号に変換する。以下、ステップ１０７で、音声信号を周波数領域表現から時間領域表現に変換するまで、周波数領域表現に変換された音声信号を、音声信号と呼ぶ。

ＣＰＵ３１は、ステップ１０３で、後述する音声信号分析処理を行う。音声信号分析処理で、高周波数領域の重要度の高さが算出される。ＣＰＵ３１は、ステップ１０４で、後述するように、高周波数領域の重要度の高さが低くなるにしたがって、高周波数領域の帯域数が少なくなり、高周波数領域の重要度の高さが高くなるにしたがって、高周波数領域の帯域数が多くなるように、帯域数を算出する。

ＣＰＵ３１は、ステップ１０５で、後述するように、ステップ１０４で算出された高周波数領域の帯域数で、高周波数領域全体の帯域幅を除算することで、第２帯域幅ＷＢ２を算出する。また、ＣＰＵ３１は、後述するように、高周波数領域の第１帯域幅ＷＢ１の帯域を併合して第２帯域幅ＷＢ２の帯域を生成する。即ち、第２帯域幅ＷＢ２の帯域の各々に対応する第１帯域幅の複数の帯域の音声信号の平均値を、当該第２帯域幅ＷＢ２の帯域の各々の音声信号とすることで、高周波数領域は、第２帯域幅ＷＢ２の帯域に分割される。

ＣＰＵ３１は、ステップ１０６で、後述するように、低周波数領域の第１帯域幅ＷＢ１で分割された帯域及び高周波数領域の第２帯域幅ＷＢ２で分割された帯域の各々に音声信号調整処理を実行する。ＣＰＵ３１は、ステップ１０７で、例えば、逆フーリエ変換を使用して、音声信号を周波数領域表現から時間領域表現に変換する。ＣＰＵ３１は、ステップ１０８で、音声信号を出力する。音声信号は、音声に変換されてスピーカ３６から出力されてもよいし、通信部３７に出力され、有線または無線の通信回線を介して通話相手の情報端末に送信されてもよい。

ＣＰＵ３１は、ステップ１０９で、未処理の音声信号が存在するか否か判定する。例えば、ユーザが音声信号処理装置１０の電源をオフし、未処理の音声信号が存在しないと判定した場合、ＣＰＵ３１は、音声信号処理を終了する。一方、ステップ１０９で、未処理の音声信号が存在すると判定した場合、ＣＰＵ３１は、ステップ１０１に戻る。

ステップ１０３の音声信号分析処理の詳細を図５に例示する。本実施形態では、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が大きくなるにしたがって、音声信号の高周波数領域の重要度が高くされる例について説明する。

ＣＰＵ３１は、ステップ１２１で、低周波数領域の音声信号のパワーを算出する。まず、図４のステップ１０２で、音声信号を時間領域表現から周波数領域表現に変換した際の周波数の分解能に対応する第１帯域幅ＷＢ１で音声信号全体が帯域に分割されているものとし、帯域の各々にインデックスｉを付ける。例えば、音声信号の最大周波数が３２０００Ｈｚであり、第１帯域幅ＷＢ１が３１．２５Ｈｚである場合、インデックスは、０〜１０２３（＝１０２４＝３２０００Ｈｚ／３１．２５Ｈｚ）である。

次に、高周波数領域の下限周波数である境界周波数に対応する帯域のインデックスである高周波数領域の下限インデックスＨＳを定める。例えば、境界周波数を８０３１．２５Ｈｚに設定する場合、高周波数領域の下限インデックスＨＳは、２５７（＝８０３１．２５Ｈｚ／３１．２５Ｈｚ）である。

ＣＰＵ３１は、式（１）に例示するように、低周波数領域の下限インデックスＬＳから上限インデックスＬＥ（＝ＨＳ−１）までの帯域の各々の音声信号のパワーＰ［ｉ］を加算することで、低周波数領域の音声信号のパワーＬＰを算出する。

インデックスｉに対応する帯域の音声信号のパワーＰ［ｉ］は、式（２）に例示するように、インデックスｉに対応する帯域の音声信号の実部Ｒ［ｉ］の二乗と虚部Ｉ［ｉ］の二乗を加算することで算出される。
Ｐ［ｉ］＝Ｒ［ｉ］^２＋Ｉ［ｉ］^２ …（２）
例えば、低周波数領域の下限インデックスＬＳは３（９３．７５Ｈｚ＝３１．２５Ｈｚ×３）、上限インデックスＬＥは２５６（８０００Ｈｚ＝３１．２５Ｈｚ×２５６）であってよい。

ＣＰＵ３１は、ステップ１２２で、高周波数領域の音声信号のパワーＨＰを算出する。高周波数領域の音声信号のパワーＨＰは、式（３）に例示するように、高周波数領域の下限インデックスＨＳから高周波数領域の上限インデックスＨＥまでの帯域の各々の高周波数領域の音声信号のパワーＰ［ｉ］を加算することで算出される。

例えば、高周波数領域の下限インデックスＨＳは２５７（８０３１．２５Ｈｚ＝３１．２５Ｈｚ×２５７）、高周波数領域の上限インデックスＨＥは１０２３（３１９６８．７５Ｈｚ＝３１．２５Ｈｚ×１０２３）であってよい。

ＣＰＵ３１は、ステップ１２３で、低周波数領域の音声信号のパワーＬＰに対する高周波数領域の音声信号のパワーＨＰの比率Ｈｒｔを算出する。比率Ｈｒｔは、式（４）に例示するように、高周波数領域の音声信号のパワーＨＰの対数から低周波数領域の音声信号のパワーＬＰの対数を減算することで算出することができる。
Ｈｒｔ＝１０ｌｏｇ_１０ＨＰ−１０ｌｏｇ_１０ＬＰ …（４）

次に、図４のステップ１０４の詳細について説明する。ステップ１０４では、ステップ１０３で算出した低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率Ｈｒｔに基づいて、図７に例示する高周波数領域の帯域数Ｈｎｍを算出する。比率Ｈｒｔが大きくなるにしたがって、高周波数領域の重要度は高くなる。したがって、比率Ｈｒｔが大きくなるにしたがって、帯域数Ｈｎｍが大きくなるように設定する。即ち、比率Ｈｒｔが大きくなるにしたがって、高周波数領域の帯域の各々の帯域幅である第２帯域幅ＷＢ２は狭くなり、第１帯域幅ＷＢ１に近付く。第２帯域幅ＷＢ２については後述する。

詳細には、例えば、式（５）〜式（７）を使用して、比率Ｈｒｔに基づいて、高周波数領域の帯域数Ｈｎｍを取得する。式（５）〜式（７）の比率Ｈｒｔと高周波数領域の帯域数Ｈｎｍとの関係を図６に例示する。図６では、横軸に比率Ｈｒｔ、縦軸に高周波数領域の帯域数Ｈｎｍが示されている。
Ｈｎｍ＝ＨｎｍｎＨｒｔ＜ＨｒｔＬの場合 …（５）
Ｈｎｍ＝Ｈｎｍｎ＋
（（Ｈｎｍｘ−Ｈｎｍｎ）／（ＨｒｔＨ−ＨｒｔＬ））×（Ｈｒｔ−ＨｒｔＬ）
ＨｒｔＬ≦Ｈｒｔ＜ＨｒｔＨの場合 …（６）
Ｈｎｍ＝ＨｎｍｘＨｒｔ≧ＨｒｔＨの場合 …（７）

例えば、併合前の高周波数領域の帯域数が２５６（＝ＨＥ−ＨＳ＋１）である場合、Ｈｎｍｘ＝２５６、Ｈｎｍｎ＝１、ＨｒｔＨ＝−１０［ｄＢ］、ＨｒｔＬ＝−５０［ｄＢ］であってよい。

次に、図４のステップ１０５の帯域併合処理の詳細について説明する。ステップ１０５の帯域併合処理では、図８Ａ及び図８Ｂに例示するように、高周波数領域の音声信号を、ステップ１０４で算出した高周波数領域の帯域数Ｈｎｍの帯域に分割するため、第１帯域幅ＷＢ１で分割された帯域を併合帯域数Ｎ毎に併合する。併合帯域数Ｎは、高周波数領域の重要度の高さに基づいて決定される係数の一例である。

詳細には、ＣＰＵ３１は、図９のステップ１３１で、併合帯域数Ｎを算出する。併合帯域数Ｎは、高周波数領域の重要度の高さが高くなるに従って小さくなり、最も小さい場合１となるように決定される。詳細には、式（８）に例示するように、高周波数領域の上限インデックスから下限インデックスを減算し１加算した値、即ち、高周波数領域のインデックス数を、帯域数Ｈｎｍで除算することで、併合帯域数Ｎを算出する。
Ｎ＝（ＨＥ−ＨＳ＋１）／Ｈｎｍ …（８）
Ｎは、四捨五入、切り上げ、または、切り下げで、整数の値とする。

即ち、高周波数領域は、第２帯域幅ＷＢ２（＝第１帯域幅ＷＢ１×併合帯域数Ｎ）で、帯域数Ｈｎｍの帯域に分割される。次に、併合前のＮ個の帯域の音声信号の平均値を対応する併合後の帯域の音声信号として設定する。

ＣＰＵ３１は、ステップ１３２で、併合後の帯域数をカウントする変数ｊに０を設定する。ＣＰＵ３１は、ステップ１３３で、変数ｊに１を加算する。ＣＰＵ３１は、ステップ１３４で、併合される帯域数をカウントする変数ｋに０を設定する。ＣＰＵ３１は、ステップ１３５で、併合される帯域の先頭帯域のインデックスｍを算出する。インデックスｍは、式（９）に例示するように、高周波数領域の下限インデックスと、変数ｊから１を減算した値に、併合帯域数Ｎを乗算した値と、を加算することで、算出される。
ｍ＝ＨＳ＋（ｊ−１）×Ｎ …（９）

ＣＰＵ３１は、ステップ１３６で、Ｎ個分の併合前の帯域の音声信号の実部の累積を記憶する変数ｔＲ及びＮ個分の併合前の帯域の音声信号の虚部の累積を記憶する変数ｔＩに０を設定する。ＣＰＵ３１は、ステップ１３７で、変数ｋに１を加算する。ＣＰＵ３１は、ステップ１３８で、インデックスｍ＋ｋ−１に対応する帯域の音声信号の実部Ｒ［ｍ＋ｋ−１］を変数ｔＲに加算し、インデックスｍ＋ｋ−１に対応する帯域の音声信号の虚部Ｉ［ｍ＋ｋ−１］を変数ｔＩに加算する。

ＣＰＵ３１は、ステップ１３９で、変数ｋが併合帯域数Ｎより小さく、かつ、インデックスｍに変数ｋを加算した値が高周波数領域の上限インデックスより小さいか否か判定する。判定が肯定された場合、即ち、併合帯域数分の帯域がまだ併合されておらず、かつ、未処理のインデックスに対応する帯域がまだ存在する場合、ＣＰＵ３１は、ステップ１３７に戻る。一方、ステップ１３９の判定が否定された場合、即ち、併合帯域数分の帯域が併合されたか、または、未処理のインデックスに対応する帯域が存在しなくなった場合、ＣＰＵ３１はステップ１４０に進む。

ＣＰＵ３１は、ステップ１４０で、式（１０｝に例示するように、変数ｔＲに累積された音声信号の実部の値を併合帯域数Ｎで除算して、累積された音声信号の実部の値の平均値を算出し、算出した平均値をｍＲ［ＬＥ＋ｊ］に記憶する。
ｍＲ［ＬＥ＋ｊ］＝ｔＲ／Ｎ …（１０）

また、ＣＰＵ３１は、式（１１）に例示するように、変数ｔＩに累積された音声信号の虚部の値を併合帯域数Ｎで除算して、累積された音声信号の虚部の値の平均値を算出し、算出した平均値をｍＩ［ＬＥ＋ｊ］に記憶する。
ｍＩ［ＬＥ＋ｊ］＝ｔＩ／Ｎ …（１１）

ＣＰＵ３１は、ステップ１４１で、変数ｊが高周波数領域の帯域数Ｈｎｍを越えたか否か判定し、判定が否定された場合、即ち、まだ併合されていない帯域が高周波数領域に存在する場合、ＣＰＵ３１は、ステップ１３３に戻る。一方、判定が肯定された場合、即ち、併合されていない帯域が高周波数領域に存在しない場合、ＣＰＵ３１は、帯域併合処理を終了する。

なお、高周波数領域の併合帯域数Ｎが１である場合については、図９のステップ１３２〜ステップ１４１の処理を行う代わりに、式（１２）及び式（１３）に例示するように、ｍＲ［ｐ］に音声信号の実部Ｒ［ｐ］を記憶し、ｍＩ［ｐ］に虚部Ｉ［ｐ］を記憶すればよい。ｐは併合後の帯域のインデックスに相当するが、併合帯域数Ｎが１である場合、ｐは高周波数領域の下限インデックスＨＳ〜上限インデックスＨＥまで１ずつ増加する。
ｍＲ［ｐ］＝Ｒ［ｐ］ …（１２）
ｍＩ［ｐ］＝Ｉ［ｐ］ …（１３）
帯域併合を行わない低周波数領域でも、上記と同様に、ｍＲ［ｐ］に音声信号の実部Ｒ［ｐ］を記憶し、ｍＩ［ｐ］に虚部Ｉ［ｐ］を記憶する。低周波数領域では、ｐは低周波数領域の下限インデックスＬＳ〜上限インデックスＬＥまで１ずつ増加する。

次に、図４のステップ１０６の音声信号調整処理について説明する。図１０にステップ１０６の音声信号調整処理の詳細を例示する。音声信号調整処理では、高周波数領域の帯域を併合した後の帯域毎にゲインを算出し、併合前の帯域にゲインを配分し、併合前の帯域毎にゲインを適用することで、調整された音声信号を取得する。ＣＰＵ３１は、ステップ１５１で、変数ｐに０を設定する。

ＣＰＵ３１は、ステップ１５２で、変数ｐに１を加算し、ステップ１５３で、併合後の帯域の音声信号ｍＲ［ｐ］及びｍＩ［ｐ］に、既知の手法を適用して、併合後の帯域毎の騒音抑圧ゲインＧを算出する。ＣＰＵ３１は、ステップ１５４で、併合後の帯域毎の騒音抑圧ゲインＧを対応する併合前のＮ個の帯域の各々に分配する。

図１１Ａに例示するように、併合後の帯域の騒音抑圧ゲインＧがｇである場合、図１１Ｂに例示するように、対応する併合前のＮ個の帯域の騒音抑圧ゲインＧはｇに設定される。ＣＰＵ３１は、ステップ１５５で、併合前の帯域毎の音声信号に騒音抑圧ゲインＧを適用することで、騒音を抑圧した音声信号を算出する。ＣＰＵ３１は、ステップ１５６で、ｐが低域周波数領域の帯域数Ｌｎｍ（＝ＬＥ−ＬＳ＋１）と高域周波数領域の併合後の帯域数Ｈｎｍとの和、即ち、併合後の全帯域数より小さいか否か判定する。ステップ１５６の判定が肯定された場合、即ち、併合後の帯域の全てについて処理が終了していない場合、ＣＰＵ３１は、ステップ１５２に戻る。一方、ステップ１５６の判定が否定された場合、即ち、併合後の帯域の全てについて処理が終了した場合、ＣＰＵ３１は、音声信号調整処理を終了する。

なお、音声信号調整処理の一例として、騒音抑圧処理を行う例を使用したが、本実施形態はこれに限定されない。例えば、エコー抑圧処理、または音声強調処理などが行われてもよい。

図１２Ａに例示する帯域幅ＷＢＡ１の音声信号を第１帯域幅ＷＢ１で分割すると帯域数はＷＢＡ１／ＷＢ１となる。一方、図１２Ｂに例示する帯域幅ＷＢＡ２の音声信号を第１帯域幅ＷＢ１で分割すると帯域数はＷＢＡ２／ＷＢ１となる。即ち、帯域幅ＷＢＡ２の音声信号の帯域数はＷＢＡ２／ＷＢＡ１となり、音声信号の帯域幅が広くなるにしたがって、帯域数も増大する。

音声信号の帯域幅、即ち、サンプリング周波数を増大することで、高音質化を実現することができる。しかしながら、上記したように、帯域数も増大し、騒音抑圧処理などの音声信号調整処理の負担が増大する。音声信号調整処理による負担を低減するためには、音声信号を分割する帯域幅を広くして、帯域数を低減すればよい。

しかしながら、一般的に、音声信号の低周波数領域は、音声の基本周波数などの特徴を含むため、分割する帯域幅を広くして帯域数を低減することは、音声信号処理後の音質を劣化させる原因となり得る。したがって、本実施形態では、図１２Ｃに例示するように、音声信号の高周波数領域を分割する第２帯域幅ＷＢ２を、低周波数領域を分割する第１帯域幅ＷＢ１より広くして、高周波数領域の帯域数を低減することで、音声信号全体として帯域数を低減する。

しかしながら、高周波数領域の重要度によっては、高周波数領域を分割する第２帯域幅ＷＢ２を広くして帯域数を低減することで、音声信号処理後の音質が劣化する虞もある。この問題に対処するため、音声信号の高周波数領域の重要度の高さに基づいて、高周波数領域を分割する第２帯域幅ＷＢ２を決定する。即ち、高周波数領域の重要度の高さが高くなるにしたがって狭くなるように、第１帯域幅ＷＢ１以上の帯域幅である第２帯域幅ＷＢ２を決定する。これにより、音声信号処理後の音質が劣化しないようにすることができる。

本実施形態では、第１帯域分割部が、時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第１帯域幅で複数の第１帯域に分割する。帯域幅決定部が、音声信号の低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、高周波数領域を分割するための第１帯域幅以上の第２帯域幅を決定する。第２帯域分割部が、帯域幅決定部で決定された第２帯域幅で、音声信号の高周波数領域を複数の第２帯域に分割する。音声信号調整部が、複数の第１帯域の各々及び複数の第２帯域の各々に対して音声信号調整処理を実行する。

本実施形態では、広帯域の音声信号処理において、音質を劣化させず、かつ、音声信号処理による負担を低減することを可能とする。

［第２実施形態］
次に、第２実施形態の一例を説明する。第１実施形態と同様の構成及び作用については、説明を省略する。第２実施形態は、図４のステップ１０３の音声信号分析処理で、音声信号の高周波数領域の重要度の高さが、高周波数領域の音声信号のパワーの非定常性が高くなるにしたがって高くされる点で第１実施形態と異なる。また、第２実施形態は、ステップ１０４で高周波数領域の帯域数を算出する際に、音声信号のパワーの非定常性に基づいて高周波数領域の帯域数を算出する点で、第１実施形態と異なる。

図４のステップ１０３の第２実施形態における詳細を図１３に例示する。ＣＰＵ３１は、ステップ１６１で、第１帯域幅ＷＢ１で分割された帯域毎の高周波数領域のパワーＰ［ｈｉ］（ｈｉ＝ＨＳ，…，ＨＥ）を算出する。パワーＰ［ｈｉ］の算出については、上述したパワーＰ［ｉ］の算出と同様であるため、説明を省略する。ＣＰＵ３１は、ステップ１６２で、帯域毎の高周波数領域の平均パワーＰａｖ［ｈｉ］を更新する。

平均パワーＰａｖ［ｈｉ］は、式（１４）に例示するように、インデックスｈｉに対応する帯域の音声信号の１つ前のフレームまでの平均パワーＰａｖＢ［ｈｉ］に１から現フレームの寄与係数ｃ１を減算した値を乗算した値と、インデックスｈｉに対応する帯域の音声信号のパワーＰ［ｈｉ］に現フレームの寄与係数ｃ１を乗算した値と、を加算することで取得することができる。
Ｐａｖ［ｈｉ］＝（１−ｃ１）＊ＰａｖＢ［ｈｉ］＋ｃ１×Ｐ［ｈｉ］ …（１４）

寄与係数ｃ１は、０〜１の値であり、例えば、０．０１であってよい。また、最初のフレームについて平均パワーＰａｖ［ｈｉ］を計算する場合の、１つ前のフレームの平均パワーＰａｖＢ［ｈｉ］は０［ｄＢ］としてもよい。

ＣＰＵ３１は、ステップ１６３で、高周波数領域のパワーの非定常性Ｈｓｔを算出する。高周波数領域のパワーの非定常性Ｈｓｔは、式（１５）に例示するように算出することができる。式（１５）では、まず、パワーＰ［ｈｉ］から平均パワーＰａｖ［ｈｉ］を減算した値の絶対値を、高周波数領域の下限インデックスＨＳから上限インデックスＨＥまで加算する。加算した値を、上限インデックスＨＥから下限インデックスＨＳを減算し１を加算した値、即ち、高周波数領域のインデックス数で除算した値の対数が非定常性Ｈｓｔである。

次に、図４のステップ１０４の詳細について説明する。本実施形態のステップ１０４では、ステップ１０３で算出した高周波数領域のパワーの非定常性Ｈｓｔに基づいて、図１４に例示する高周波数領域の帯域数Ｈｎｍを算出する。非定常性Ｈｓｔが高くなるにしたがって、高周波数領域の重要度は高くなる。したがって、非定常性Ｈｓｔが高くなるにしたがって、帯域数Ｈｎｍが大きくなるように設定する。即ち、非定常性Ｈｓｔが高くなるにしたがって、高周波数領域の帯域の各々の帯域幅である第２帯域幅ＷＢ２は狭くなる。

ステップ１０４では、ステップ１０３で算出した高周波数領域のパワーの非定常性Ｈｓｔに基づいて、高周波数領域の帯域数Ｈｎｍを算出する。詳細には、例えば、式（１６）〜式（１８）を使用して、高周波数領域の帯域数Ｈｎｍを取得する。式（１６）〜式（１８）の高周波数領域の音声信号のパワーの非定常性Ｈｓｔと高周波数領域の帯域数Ｈｎｍの関係を図１４に例示する。

図１４では、横軸に高周波数領域の音声信号のパワーの非定常性Ｈｓｔ、縦軸に高周波数領域の帯域数Ｈｎｍが示されている。
Ｈｎｍ＝ＨｎｍｎＨｓｔ＜ＨｓｔＬの場合 …（１６）
Ｈｎｍ＝Ｈｎｍｎ＋
（（Ｈｎｍｘ−Ｈｎｍｎ）／（ＨｓｔＨ−ＨｓｔＬ））×（Ｈｓｔ−ＨｓｔＬ）
ＨｓｔＬ≦Ｈｓｔ＜ＨｓｔＨの場合 …（１７）
Ｈｎｍ＝ＨｎｍｘＨｓｔ≧ＨｓｔＨの場合 …（１８）

例えば、併合前の高周波数領域の帯域数が２５６（＝ＨＥ−ＨＳ＋１）である場合、Ｈｎｍｘ＝２５６、Ｈｎｍｎ＝１、ＨｓｔＨ＝６［ｄＢ］、ＨｓｔＬ＝１［ｄＢ］であってよい。

［第３実施形態］
次に、第３実施形態の一例を説明する。第１実施形態または第２実施形態と同様の構成及び作用については、説明を省略する。第３実施形態は、図４のステップ１０３の音声信号分析処理で、音声信号の高周波数領域の重要度の高さが、音声信号の基本周波数が高くなるにしたがって高くされる点で、第１実施形態または第２実施形態と異なる。また、第３実施形態は、ステップ１０４で高周波数領域の帯域数を算出する際に、音声信号の基本周波数の高さに基づいて高周波数領域の帯域数を算出する点で、第１実施形態または第２実施形態と異なる。

図４のステップ１０３の本実施形態における詳細を図１５に例示する。ＣＰＵ３１は、ステップ１７１で後述する音声有無判定処理を実行する。ステップ１７２で、ステップ１７１の音声有無判定処理の結果に基づいて、音声の有無を判定する。ステップ１７２の判定が否定された場合、即ち、音声信号がユーザの発話による音声を含まないと判定された場合、音声信号分析処理を終了する。音声信号がユーザの発話による音声を含まない、即ち、雑音であれば、基本周波数を算出する必要はないためである。

一方、ステップ１７２の判定が肯定された場合、即ち、音声信号がユーザの発話による音声を含むと判定された場合、ＣＰＵ３１は、ステップ１７３で、後述する基本周波数算出処理を実行することで、基本周波数Ｂを算出する。ＣＰＵ３１は、ステップ１７４で、基本周波数の平均Ｂａｖを更新する。基本周波数の平均Ｂａｖは、式（１９）に例示するように、１から寄与係数ｃ２を減算した値に１つ前のフレームまでの基本周波数の平均Ｂａｖを乗算した値と、寄与係数ｃ２に現フレームの基本周波数Ｂを乗算した値と、を加算した値で、更新することができる。
Ｂａｖ＝（１−ｃ２）＊ＢａｖＢ＋ｃ２＊Ｂ …（１９）

基本周波数の平均Ｂａｖを最初に更新する際の１つ前のフレームまでの基本周波数の平均ＢａｖＢは、３００［Ｈｚ］であってよい。寄与係数ｃ２は、現フレームの基本周波数の基本周波数の平均Ｂａｖへの寄与係数であり、寄与係数ｃ２は、０〜１であってよく、例えば、０．０１であってよい。

図１６に、図１５のステップ１７１の音声有無判定処理の詳細を例示する。ＣＰＵ３１は、ステップ１８１で、音声信号のパワーＰＡを算出する。音声信号のパワーＰＡは、式（２０）に例示するように、インデックスｉに対応する帯域の音声信号のパワーＰ［ｉ］をインデックス０からインデックスＨＥ、即ち、高周波数領域の上限インデックスまで加算した値である。

ＣＰＵ３１は、ステップ１８２で、ノイズのパワー仮平均ｔＮａｖを算出する。ノイズのパワー仮平均ｔＮａｖは、式（２１）に例示するように、１から寄与係数ｃ３を減算した値に１つ前のフレームまでのノイズの平均ＮａｖＢを乗算した値と、寄与係数ｃ３に音声信号のパワーＰＡを乗算した値と、を加算して算出することができる。
ｔＮａｖ＝（１−ｃ３）×ＮａｖＢ＋ｃ３×ＰＡ …（２１）
寄与係数ｃ３は、現在のフレームの音声信号のノイズのパワー仮平均ｔＮａｖへの寄与を表す寄与係数であり、寄与係数ｃ３は、０〜１であってよく、例えば、０．０１であってよい。音声信号がユーザの発話による音声を含まないと判定されるフレームが出現するまで、ｔＮａｖを算出する場合、ＮａｖＢは４０［ｄＢ］であってよい。

ＣＰＵ３１は、ステップ１８３で、音声信号のパワーＰＡとノイズのパワー仮平均ｔＮａｖとの差が閾値Ｔｈ１を越えるか否か判定する。Ｔｈ１は、例えば、６［ｄＢ］であってよい。ステップ１８３の判定が肯定された場合、ＣＰＵ３１は、ステップ１８４で、フラグＶＦに音声信号が発話による音声を含むことを表す値１を設定し、音声有無判定処理を終了する。ステップ１８３の判定は、音声信号のパワーＰＡとノイズのパワー仮平均ｔＮａｖとの差が閾値Ｔｈ１を越えて、音声信号がユーザの発話による音声を含むと判定された場合、肯定される。

ステップ１８３の判定が否定された場合、ＣＰＵ３１は、ステップ１８５でフラグＶＦに音声信号がユーザの発話による音声を含まないことを表す値０を設定する。ステップ１８３の判定は、音声信号のパワーＰＡとノイズのパワー仮平均ｔＮａｖとの差が閾値Ｔｈ１以下である場合、音声信号はユーザの発話による音声を含まないと判定し、否定される。ＣＰＵ３１は、ステップ１８６で、ノイズのパワー平均Ｎａｖにステップ１８２で算出したノイズのパワー仮平均ｔＮａｖを設定し、音声有無判定処理を終了する。現フレームはユーザの発話による音声を含まないノイズを表す音声信号のフレームであるためである。

なお、図１５のステップ１７２では、フラグＶＦに値１が設定されている場合に、音声信号がユーザの発話による音声を含むと判定し、フラグＶＦに値０が設定されている場合に、音声信号がユーザの発話による音声を含まないと判定する。

図１７に、図１５のステップ１７３の基本周波数算出処理の詳細を例示する。ＣＰＵ３１は、ステップ１９１で、音声信号のパワーＰ［ｉ］を算出する。音声信号のパワーＰ［ｉ］の算出については、上述したため、説明を省略する。ＣＰＵ３１は、ステップ１９２で、自己相関ＳＲを算出する。自己相関ＳＲは、パワーＰ［ｉ］のスペクトルに逆フーリエ変換を実行することで、算出することができる。

ＣＰＵ３１は、ステップ１９３で基本周波数Ｂを算出する。詳細には、音声信号の自己相関ＳＲにおいて、シフト時間が正であり、かつ、最小の位置で自己相関値が極大となる時間を基本周期τとする。サンプリング周波数Ｆｓを基本周期τで除算することで、基本周波数Ｂを算出することができる。
Ｂ＝Ｆｓ／τ …（２２）

次に、図４のステップ１０４の詳細について説明する。本実施形態のステップ１０４では、ステップ１０３で算出した平均基本周波数Ｂａｖに基づいて、図１８に例示する高周波数領域の帯域数Ｈｎｍを算出する。平均基本周波数Ｂａｖが高くなるにしたがって、高周波数領域の重要度は高くなる。したがって、平均基本周波数Ｂａｖが高くなるにしたがって、帯域数Ｈｎｍが大きくなるように設定する。即ち、平均基本周波数Ｂａｖが高くなるにしたがって、高周波数領域の帯域の各々の帯域幅である第２帯域幅ＷＢ２は狭くなる。

ステップ１０４では、ステップ１０３で算出した平均基本周波数Ｂａｖに基づいて、高周波数領域の帯域数Ｈｎｍを算出する。詳細には、例えば、式（２３）〜式（２５）を使用して、高周波数領域の帯域数Ｈｎｍを取得する。式（２３）〜式（２５）の平均基本周波数Ｂａｖと高周波数領域の帯域数Ｈｎｍの関係を図１８に例示する。

図１８では、横軸に平均基本周波数Ｂａｖ、縦軸に高周波数領域の帯域数Ｈｎｍが示されている。
Ｈｎｍ＝ＨｎｍｎＢａｖ＜ＢａｖＬの場合 …（２３）
Ｈｎｍ＝Ｈｎｍｎ＋
（（Ｈｎｍｘ−Ｈｎｍｎ）／（ＢａｖＨ−ＢａｖＬ））×（Ｂａｖ−ＢａｖＬ）
ＢａｖＬ≦Ｂａｖ＜ＢａｖＨの場合 …（２４）
Ｈｎｍ＝ＨｎｍｘＢａｖ≧ＢａｖＨの場合 …（２５）

例えば、併合前の高周波数領域の帯域数が２５６（＝ＨＥ−ＨＳ＋１）である場合、Ｈｎｍｘ＝２５６、Ｈｎｍｎ＝１、ＢａｖＨ＝４００［Ｈｚ］、ＢａｖＬ＝７０［Ｈｚ］であってよい。なお、図１５のステップ１７２で、音声信号がユーザの発話による音声を含まないと判定された場合、即ち、音声信号がノイズを含むと判定された場合、Ｈｎｍは１に設定されてもよいし、１つ前のフレームの帯域数Ｈｎｍと同じ帯域数に設定されてもよい。本実施形態において、ユーザの発話による音声を含まない音声信号の高周波数領域の重要度の高さは、低いためである。

［第４実施形態］
次に、第４実施形態の一例を説明する。第１〜第３実施形態と同様の構成及び作用については、説明を省略する。第４実施形態は、図４のステップ１０３の音声信号分析処理で、音声信号の高周波数領域の重要度の高さが、音声信号が子音に対応する場合に子音に対応しない場合より高くされる点で、第１〜第３実施形態と異なる。また、第４実施形態は、ステップ１０４で高周波数領域の帯域数を算出する際に、音声信号が子音に対応するか否かに基づいて高周波数領域の帯域数を算出する点で、第１〜第３実施形態と異なる。

本実施形態における図４のステップ１０３の詳細を図１９に例示する。ＣＰＵ３１は、ステップ２０１で、音声有無判定処理を実行し、ステップ２０２で、音声の有無を判定する。ステップ２０１及びステップ２０２は、図１５のステップ１７１及びステップ１７２と同様であるため、説明を省略する。ステップ２０２の判定が否定された場合、即ち、音声信号がユーザの発話による音声を含まないと判定された場合には、ＣＰＵ３１は、フラグＣＦに子音ではないことを示す値０を設定して、音声信号分析処理を終了する。

ステップ２０２の判定が肯定された場合、即ち、音声信号がユーザの発話による音声を含むと判定された場合、ＣＰＵ３１は、ステップ２０３で基本周波数算出処理を実行する。ステップ２０３は、図１５のステップ１７３と同様であるため、説明を省略する。ＣＰＵ３１は、ステップ２０４で、基本周波数が所定の閾値Ｔｈ２を越えるか否か判定する。ステップ２０４の判定が否定された場合、即ち、基本周波数が閾値Ｔｈ２を越えない場合、ＣＰＵ３１は、ステップ２１０で、フラグＣＦに子音ではないことを示す値０を設定して、音声信号分析処理を終了する。閾値Ｔｈ２は、例えば、１０００［Ｈｚ］であってよい。

ステップ２０４の判定が肯定された場合、即ち、基本周波数が閾値Ｔｈ２を越えた場合、ＣＰＵ３１は、ステップ２０５〜ステップ２０７で、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率を算出する。ステップ２０５〜ステップ２０７は、図５のステップ１２１〜ステップ１２３と同様であるため、説明を省略する。ＣＰＵ３１は、ステップ２０８で、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が所定の閾値Ｔｈ３を越えるか否か判定する。ステップ２０８の判定が否定された場合、即ち、低周波数領域のパワーに対する高周波数領域のパワーの比率が所定の閾値Ｔｈ３を越えない場合、ＣＰＵ３１は、ステップ２１０でフラグＣＦに子音でないことを示す値０を設定して、音声信号分析処理を終了する。

ステップ２０８の判定が肯定された場合、ＣＰＵ３１は、ステップ２０９でフラグＣＦに子音であることを示す値１を設定して、音声信号分析処理を終了する。ステップ２０９の判定は、低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率が所定の値Ｔｈ３を越えた場合に肯定される。

次に、図４のステップ１０４の詳細について説明する。ステップ１０４では、併合後の高周波数領域の帯域数Ｈｎｍを算出する。ＣＰＵ３１は、ステップ１０３（詳細には、図９のステップ２０９及びステップ２１０）で設定したフラグＣＦの値に基づいて、高周波数領域の帯域数Ｈｎｍを算出する。

例えば、フラグＣＦに値０が設定されている場合、即ち、音声信号が子音に対応しない場合、帯域数Ｈｎｍに１に近い小さい値を設定する。また、フラグＣＦに値１が設定されている場合、即ち、音声信号が子音に対応する場合、帯域数Ｈｎｍに併合前の高周波数領域の帯域数ＨＥ−ＨＳ＋１に近い値を設定する。

詳細には、フラグＣＦに値０が設定されている場合、即ち、音声信号が子音に対応しない場合、例えば、帯域数Ｈｎｍに８を設定し、フラグＣＦに値１が設定されている場合、即ち、音声信号が子音に対応する場合、例えば、帯域数Ｈｎｍに２５６を設定する。併合前の高周波数領域の帯域数は２５６（＝ＨＥ−ＨＳ＋１）であるとする。

なお、第１〜第４実施形態の何れか２つ以上を組み合わせて、高周波数領域の帯域数Ｈｎｍを算出するようにしてもよい。第１及び第２実施形態、第１及び第３実施形態、第１及び第４実施形態、第２及び第３実施形態、第２及び第４実施形態、第３及び第４実施形態、第１、第２、及び第３実施形態、及び、第１、第２及び第４実施形態、の組み合わせが可能である。また、第２、第３及び第４実施形態、及び第１〜第４実施形態の組み合わせも可能である。

例えば、第１〜第４の実施形態を組み合わせて、高周波数領域の帯域数Ｈｎｍを算出する。第１実施形態で低周波数領域の音声信号のパワーに対する高周波数領域の音声信号のパワーの比率に基づいて算出した帯域数をＨｎｍ１とし、第２実施形態で高周波数領域の非定常性に基づいて算出した帯域数をＨｎｍ２とする。第３実施形態で平均基本周波数に基づいて算出した帯域数をＨｎｍ３とし、第４実施形態で音声信号が子音に対応するか否かに基づいて算出した帯域数をＨｎｍ４とする。

この場合、帯域数Ｈｎｍは、式（２６）で例示するように算出することができる。
Ｈｎｍ＝ｄ１×Ｈｎｍ１＋ｄ２×Ｈｎｍ２＋
ｄ３×Ｈｎｍ３＋ｄ４×Ｈｎｍ４ …（２６）
ｄ１〜ｄ４は、０〜１の値を有する寄与係数であり、ｄ１＋ｄ２＋ｄ３＋ｄ４＝１である。例えば、ｄ１＝０．２５、ｄ２＝０．２、ｄ３＝０．２５、ｄ４＝０．３であってよい。

第１及び第２実施形態を組み合わせて、高周波数領域の帯域数Ｈｎｍを算出する場合には、ｄ３＝ｄ４＝０とする。第１及び第３実施形態を組み合わせて、高周波数領域の帯域数Ｈｎｍを算出する場合には、ｄ２＝ｄ４＝０とする。第１及び第４実施形態を組み合わせて、高周波数領域の帯域数Ｈｎｍを算出する場合には、ｄ２＝ｄ３＝０とする。

第２及び第３実施形態を組み合わせて、高周波数領域の帯域数Ｈｎｍを算出する場合には、ｄ１＝ｄ４＝０とする。第２及び第４実施形態を組み合わせて、高周波数領域の帯域数Ｈｎｍを算出する場合には、ｄ１＝ｄ３＝０とする。第３及び第４実施形態を組み合わせて、高周波数領域の帯域数Ｈｎｍを算出する場合には、ｄ１＝ｄ２＝０とする。

第１、第２及び第３実施形態を組み合わせて、高周波数領域の帯域数Ｈｎｍを算出する場合には、ｄ４＝０とする。第１、第２及び第４実施形態を組み合わせて、高周波数領域の帯域数Ｈｎｍを算出する場合には、ｄ３＝０とする。第２、第３及び第４実施形態を組み合わせて、高周波数領域の帯域数Ｈｎｍを算出する場合には、ｄ１＝０とする。
［第５実施形態］

次に、第５実施形態の一例を説明する。第５実施形態の一例を図２０に示す。第５実施形態は、ステップ２２５で、高周波数領域の下限インデックス、即ち、高周波数領域の下限周波数である境界周波数を変更する点で、第１実施形態〜第４実施形態と異なる。

高周波数領域の下限インデックスＨＳ１が図２１Ａに示す帯域に対応している場合、帯域併合は、図２１Ａ及び図２１Ｂに示される高周波数領域Ｈａｒｅａ１に対して行われる。高周波数領域Ｈａｒｅａ１は、下限インデックスＨＳ１〜上限インデックスＨＥの帯域を含む。

本実施形態では、図２１Ｂに例示される併合後の全帯域数が所定の最大帯域数を越える場合、高周波数領域の下限インデックスをＨＳ２に変更する。即ち、高周波数領域の下限周波数である境界周波数を低減する。これにより、帯域併合は図２１Ｃに示される、高周波数領域Ｈａｒｅａ１よりも広い高周波数領域Ｈａｒｅａ２に対して行われ、併合後の全帯域数が低減される。即ち、併合後の高周波数領域の第２帯域幅ＷＢ２を広くすることで、高周波数領域の帯域数Ｈｎｍは変わらず、低周波数領域でＨＳ１−ＨＳ２個の帯域数が低減する。

図２０のステップ２２１〜２２４は、図４のステップ１０１〜ステップ１０４と同様であり、図２０のステップ２２６〜ステップ２３０は、図４のステップ１０５〜ステップ１０９と同様であるため、説明を省略する。

図２２に、図２０のステップ２２５の詳細を例示する。ＣＰＵ３１は、ステップ２３１で、高周波数領域の下限インデックスＨＳとステップ２２４で算出した高周波数領域の帯域数Ｈｎｍとを加算した値が、所定の最大帯域数Ａｍｘを越えるか否か判定する。ステップ２３１の判定が否定された場合、即ち、併合後の全帯域数が所定の最大帯域数Ａｍｘを越えない場合、ＣＰＵ３１は、高周波数領域下限変更処理を終了する。

ステップ２３１の判定が肯定された場合、即ち、併合後の全帯域数が所定の最大帯域数Ａｍｘを越えた場合、ＣＰＵ３１は、ステップ２３２で、下限インデックスＨＳを低減する。詳細には、式（２７）に例示するように、高周波数領域の下限インデックスＨＳに最大帯域数Ａｍｘから高周波数領域の帯域数Ｈｎｍを減算した値を設定する。
ＨＳ＝Ａｍｘ−Ｈｎｍ …（２７）
即ち、低周波数領域の帯域数ＨＳ（＝ＬＥ＋１）をＨＳ１からＡｍｘ−Ｈｎｍ（＝ＨＳ２）に低減することで、図２１Ｃに例示するように、低周波数領域でＨＳ１−ＨＳ２個の帯域数が低減し、高周波数領域の帯域数はＨｎｍのままであるため、全体として帯域数をＨＳ１−ＨＳ２個分低減することができる。

なお、上記では、図４のステップ１０４で算出した高周波数領域の帯域数Ｈｎｍの値を変更しない例、即ち、図２１Ｃに例示されるように、併合後の第２帯域幅ＷＢ２を広くする、即ち、併合帯域数Ｎを増大する例について説明した。しかしながら、本実施形態は、これに限定されない。例えば、ステップ１０４で算出した高周波数領域の帯域数Ｈｎｍから算出される併合帯域数Ｎを変更しないように、帯域数Ｈｎｍの値をステップ１０４で算出した帯域数Ｈｎｍよりも増大するようにしてもよい。

詳細には、式（２８）に例示するように、低周波数領域の帯域数ＨＳ（＝ＬＥ＋１）と高周波数領域の帯域数Ｈｎｍとを加算した値が所定の最大帯域数Ａｍｘ以下の値となるように、高周波数領域の下限インデックスＨＳを調整する。
ＨＳ＋Ｈｎｍ≦Ａｍｘ …（２８）

即ち、式（２９）に例示するように、最大帯域数Ａｍｘに併合帯域数Ｎを乗算した値から、高周波数領域の上限インデックスに１を加算した値を減算した値を、併合帯域数Ｎから１を減算した値で除算した値以下となるように、下限インデックスＨＳを設定する。
ＨＳ≦（Ａｍｘ×Ｎ−（ＨＥ＋１））／（Ｎ−１） …（２９）
下限インデックスＨＳは、切り下げで、整数の値とする。

式（２９）は、以下のように導かれる。式（２８）において、高周波数領域の帯域数Ｈｎｍを、式（３０）に例示するように置き替えると、式（３１）となる。式（３０）は、高周波数領域の上限インデックスＨＥから低減後の下限インデックスＨＳを減算し、１を加算した値を、併合帯域数Ｎで除算した値が、下限インデックスＨＳを低減した後の高周波数領域の帯域数Ｈｎｍであることを表している。高周波数領域の上限インデックスＨＥから低減後の下限インデックスＨＳを減算し、１を加算した値は、下限インデックスＨＳを低減した後であって、併合前の高周波数領域の帯域数である。

Ｈｎｍ＝（ＨＥ−ＨＳ＋１）／Ｎ …（３０）
なお、高周波数領域の併合帯域数Ｎを算出する方法については、図９のステップ１３１と同様であるため、説明を省略する。
ＨＳ＋（ＨＥ−ＨＳ＋１）／Ｎ≦Ａｍｘ …（３１）
式（３１）の左辺にＨＳが現れるように変形すると、式（２９）となる。

この場合、調整前は低周波数領域であった調整後の高周波数領域の下限インデックスＨＳ（ＨＳ２）〜調整前の下限インデックスＨＳ−１（ＨＳ１−１）に対応する帯域が、調整後には高周波数領域となり、図２１Ｄに例示されるように、併合帯域数Ｎで併合される。即ち、ＨＳ２〜ＨＳ１−１に対応する帯域の併合後の帯域数は、下限インデックスＨＳを調整する前の１／Ｎとなるため、下限インデックスＨＳ調整後の帯域数は全体として低減される。

また、本実施形態では、低周波数領域の帯域数と高周波数領域の帯域数との和が最大帯域数を越えないように、境界周波数を低減する。

本実施形態では、音声信号処理による負担を所定量以下に低減することを可能とする。

なお、本実施形態は、第１〜第４の実施形態の何れか、または、第１〜第４実施形態の何れか少なくとも２つの組み合わせに適用されてもよい。

なお、第１〜第５実施形態では、低周波数領域が音声信号を周波数領域表現に変換する際の周波数分解能で分割されているものとして説明したが、第１〜第５実施形態はこれに限定されない。例えば、音声信号処理による負担をさらに低減することが期待される場合、低周波数領域は、周波数分解能のＭ倍（Ｍは２以上の自然数）の第１帯域幅に分割されてもよい。

なお、第１〜第５実施形態では、フレーム毎に、高周波数領域の併合後の帯域数Ｈｎｍを算出する例について説明したが、第１〜第５実施形態はこれに限定されない。Ｌフレーム毎に帯域数Ｈｎｍを算出し、その後のＬ−１フレームについては、同じ帯域数Ｈｎｍで、高周波数領域を分割するようにしてもよい。Ｌは、例えば、５０〜１００であってよい。音声信号は、ある程度継続的に類似した特徴を示す傾向があるためである。

なお、図６、１４、１８及び式（１）〜（３１）は一例であり、第１〜第５の実施形態はこれらに限定されない。また、図４、５、９、１０、１３、１５、１６、１７、１９、２０、２２のフローチャートのステップの順序は一例であり、第１〜第５実施形態は当該順序に限定されない。また、第１〜第５実施形態は、音声通話などの音声データのリアルタイム処理に適用されてもよいし、予め記憶装置に記憶されている音声データに適用されてもよい。

以上の各実施形態に関し、更に以下の付記を開示する。

（付記１）
時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第１帯域幅で複数の第１帯域に分割する第１帯域分割部と、
前記音声信号の前記低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、前記高周波数領域を分割するための前記第１帯域幅以上の第２帯域幅を決定する帯域幅決定部と、
前記帯域幅決定部で決定された前記第２帯域幅で、前記音声信号の前記高周波数領域を複数の第２帯域に分割する第２帯域分割部と、
前記複数の第１帯域の各々及び前記複数の第２帯域の各々に対して音声信号調整処理を実行する音声信号調整部と、
を含む、音声信号処理装置。
（付記２）
前記帯域幅決定部は、
前記高周波数領域の重要度の高さが高くなるにしたがって狭くなるように前記帯域幅を決定する、
付記１の音声信号処理装置。
（付記３）
前記音声信号の高周波数領域の重要度の高さは、
低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率、前記高周波数領域の音声信号のパワーの非定常性、前記音声信号の基本周波数、及び前記音声信号が子音に対応するか否か、の少なくとも１つに基づいて決定され、
前記低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率が大きくなるにしたがって高くなり、
前記高周波数領域の音声信号のパワーの非定常性が高くなるにしたがって高くなり、
前記音声信号の基本周波数が高くなるにしたがって高くなり、
前記音声信号が子音に対応する場合は子音に対応しない場合より高くなるように、
決定される、
付記１または付記２に記載の音声信号処理装置。
（付記４）
前記帯域幅決定部は、
前記高周波数領域の重要度の高さに基づいて係数を決定する係数決定部、
を含み、
前記第１帯域幅に前記係数決定部で決定された前記係数を乗じることで、前記第２帯域幅を決定する、
付記１〜付記３の何れかの音声信号処理装置。
（付記５）
前記係数は、前記高周波数領域の重要度の高さが高くなるにしたがって小さくなり、最も小さい場合、前記係数は１となるように決定される、
付記４の音声信号処理装置。
（付記６）
前記係数は自然数である、
付記４または付記５の音声信号処理装置。
（付記７）
前記高周波数領域は、周波数が所定の境界周波数以上の周波数領域であり、
前記低周波数領域は、周波数が前記境界周波数より低い周波数領域であり、
前記第１帯域分割部で分割される前記第１帯域の数と前記第２帯域分割部で分割される前記第２帯域の数との和が最大帯域数を越えないように前記境界周波数を低減する、
付記１〜付記６の何れかの音声信号処理装置。
（付記８）
時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第１帯域幅で複数の第１帯域に分割し、
前記音声信号の前記低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、前記高周波数領域を分割するための前記第１帯域幅以上の第２帯域幅を決定し、
決定された前記第２帯域幅で、前記音声信号の前記高周波数領域を複数の第２帯域に分割し、
前記複数の第１帯域の各々及び前記複数の第２帯域の各々に対して音声信号調整処理を実行する、
音声信号処理をコンピュータに実行させるためのプログラム。
（付記９）
前記高周波数領域の重要度の高さが高くなるにしたがって狭くなるように前記帯域幅を決定する、
付記８のプログラム。
（付記１０）
前記音声信号の高周波数領域の重要度の高さは、
低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率、前記高周波数領域の音声信号のパワーの非定常性、前記音声信号の基本周波数、及び前記音声信号が子音に対応するか否か、の少なくとも１つに基づいて決定され、
前記低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率が大きくなるにしたがって高くなり、
前記高周波数領域の音声信号のパワーの非定常性が高くなるにしたがって高くなり、
前記音声信号の基本周波数が高くなるにしたがって高くなり、
前記音声信号が子音に対応する場合は子音に対応しない場合より高くなるように、
決定される、
付記８または付記９のプログラム。
（付記１１）
前記音声信号処理は、
前記高周波数領域の重要度の高さに基づいて係数を決定する、
ことをさらに含み、
前記第１帯域幅に、決定された前記係数を乗じることで、前記第２帯域幅を決定する、
付記８〜付記１０の何れかのプログラム。
（付記１２）
前記係数は、前記高周波数領域の重要度の高さが高くなるにしたがって小さくなり、最も小さい場合、前記係数は１となるように決定される、
付記１１のプログラム。
（付記１３）
前記係数は自然数である、
付記１１または付記１２のプログラム。
（付記１４）
前記高周波数領域は、周波数が所定の境界周波数以上の周波数領域であり、
前記低周波数領域は、周波数が前記境界周波数より低い周波数領域であり、
分割される前記第１帯域の数と、分割される前記第２帯域の数と、の和が最大帯域数を越えないように前記境界周波数を低減する、
付記８〜付記１３の何れかのプログラム。

１０音声信号処理装置
２３第１帯域分割部
２４帯域幅決定部
２５第２帯域分割部
３１ＣＰＵ
３２一次記憶部
３３二次記憶部

Claims

時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第１帯域幅で複数の第１帯域に分割する第１帯域分割部と、
前記音声信号の前記低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、前記高周波数領域を分割するための前記第１帯域幅以上の第２帯域幅を決定する帯域幅決定部と、
前記帯域幅決定部で決定された前記第２帯域幅で、前記音声信号の前記高周波数領域を複数の第２帯域に分割する第２帯域分割部と、
前記複数の第１帯域の各々及び前記複数の第２帯域の各々に対して音声信号調整処理を実行する音声信号調整部と、
を含む、音声信号処理装置。
前記帯域幅決定部は、
前記高周波数領域の重要度の高さが高くなるにしたがって狭くなるように前記第２帯域幅を決定する、
請求項１に記載の音声信号処理装置。
前記音声信号の高周波数領域の重要度の高さは、
低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率、前記高周波数領域の音声信号のパワーの非定常性、前記音声信号の基本周波数、及び前記音声信号が子音に対応するか否か、の少なくとも１つに基づいて決定され、
前記低周波数領域の音声信号のパワーに対する前記高周波数領域の音声信号のパワーの比率が大きくなるにしたがって高くなり、
前記高周波数領域のパワーの非定常性が高くなるにしたがって高くなり、
前記音声信号の基本周波数が高くなるにしたがって高くなり、
前記音声信号が子音に対応する場合は子音に対応しない場合より高くなるように、
決定される、
請求項１または請求項２に記載の音声信号処理装置。
前記帯域幅決定部は、
前記高周波数領域の重要度の高さに基づいて係数を決定する係数決定部、
を含み、
前記第１帯域幅に前記係数決定部で決定された前記係数を乗じることで、前記第２帯域幅を決定する、
請求項１〜請求項３の何れか１項に記載の音声信号処理装置。
前記係数は、前記高周波数領域の重要度の高さが高くなるにしたがって小さくなり、最も小さい場合、前記係数は１となるように決定される、
請求項４に記載の音声信号処理装置。
前記係数は自然数である、
請求項４または請求項５に記載の音声信号処理装置。
前記高周波数領域は、周波数が所定の境界周波数以上の周波数領域であり、
前記低周波数領域は、周波数が前記境界周波数より低い周波数領域であり、
前記第１帯域分割部で分割される前記第１帯域の数と前記第２帯域分割部で分割される前記第２帯域の数との和が最大帯域数を越えないように前記境界周波数を低減する、
請求項１〜請求項６の何れか１項に記載の音声信号処理装置。
時間領域表現から周波数領域表現に変換した音声信号の低周波数領域を第１帯域幅で複数の第１帯域に分割し、
前記音声信号の前記低周波数領域の周波数より周波数が高い高周波数領域の重要度の高さに基づいて、前記高周波数領域を分割するための前記第１帯域幅以上の第２帯域幅を決定し、
決定された前記第２帯域幅で、前記音声信号の前記高周波数領域を複数の第２帯域に分割し、
前記複数の第１帯域の各々及び前記複数の第２帯域の各々に対して音声信号調整処理を実行する、
音声信号処理をコンピュータに実行させるためのプログラム。