JP2019035839A

JP2019035839A - 音声処理装置、音声処理方法、及び音声処理プログラム

Info

Publication number: JP2019035839A
Application number: JP2017156486A
Authority: JP
Inventors: 将志道上; Masashi Michigami
Original assignee: Axell Corp
Current assignee: Axell Corp
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2019-03-07
Anticipated expiration: 2037-08-14
Also published as: JP6765124B2

Abstract

【課題】再生信号の品質を向上させることができるようにする。
【解決手段】対象信号に対して音声処理を行って処理後信号を生成する音声処理部１１を有する音声処理装置１において、音声処理部１１のパラメータの値を複数の値に変更させて、音声処理部１１に音声処理を実行させる音声処理制御部１５と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、対象信号のエネルギーと、処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出する差分検出部１２と、検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらを合計した特徴量を算出する特徴量算出部１３と、特徴量算出部１３により算出される複数の特徴量に基づいて、音声処理の利用に適したパラメータの値である有効値を決定する有効値決定部１４と、を備えるようにする。
【選択図】図１

Description

本発明は、対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理装置等に関する。

信号処理技術として、ＡＤＰＣＭ（adaptive differential pulse code modulation）が知られている。ＡＤＰＣＭは、ハードウェア実装の回路規模が小さく、かつ高速なデコードが可能であるため、複数の音声信号を同時に再生するアミューズメント分野などで重要な技術である。

しかし、ＡＤＰＣＭは、同程度の圧縮率を実現できる他の技術、例えば、ＭＰ３等の変換符号化方式のコーデック技術よりも再生される音質が劣ることがある。

これに対して、ＡＤＰＣＭによって発生する量子化雑音と、ＡＤＰＣＭのエンコード対象である原信号との周波数スペクトルの傾向を考慮し、再生信号の品質を向上させる緩やかな遮蔽周波数を持つポストフィルタを用いる技術が知られている。

関連する技術として、複数の時系列信号によって形成される音声信号を生成するための量子化処理部と、量子化処理部において量子化を行った際に発生する量子化ノイズについてノイズシェーピングを行うためのノイズシェーピング手段とを備えた音声信号処理装置が知られている。ノイズシェーピング手段は、量子化された音声信号のノイズシェーピングを実現できる特性を有するポストフィルタと、ポストフィルタの逆特性を有するプリフィルタとを備え、ポストフィルタを量子化処理部の後段に、プリフィルタを量子化処理部の前段にそれぞれ設ける技術が開示されている（例えば、特許文献１参照）。

また、関連する他の技術として、量子化誤差を低減するノイズシェーピングフィルタの係数設定方法において、所定のサンプル数の周波数分析結果に基づいたパワースペクトル形状の逆数をとった後、逆直交変換して求められた自己相関係数に基づいてフィルタの係数を演算する技術が知られている（例えば、特許文献２）。これによると、通常のいわゆるＤＳＰ（digital signal processor）によって量子化誤差低減の実時間処理が可能となるノイズシェーピングフィルタの係数設定方法が提供できる。

特開２０１６−２１３６８３号公報特開平４−７２９０７号公報

例えば、上記したポストフィルタを用いて再生信号の品質を向上させる音声処理技術は、高周波帯域の特性を改善するものであり、低・中周波数帯域の量子化雑音は低減されない。

これに対して、高周波帯域だけでなく、低・中周波数帯域の量子化雑音も低減するために、量子化雑音のエネルギーを最小とする方法が考えられる。量子化雑音のエネルギーを最小にすると、量子化雑音のスペクトル包絡は全周波数帯域で平坦となる。

しかしながら、このように量子化雑音のスペクトル包絡を全周波数帯域で平坦としたとしても、人間にとって、再生信号の品質が向上しているとは限らない。

一方、原信号の周波数特性を考慮してノイズシェーピングを施し、量子化雑音のスペクトルを変形し、原信号のエネルギーの強いところに量子化雑音を集中させることにより、原信号のエネルギーの弱いところの量子化雑音を軽減させる方法が考えられる。しかしながら、ノイズシェーピングの強度を固定してしまうと、量子化雑音の総量を増加させてしまって再生信号の品質が逆に劣化してしまう問題がある。

本発明は、上記事情に鑑みなされたものであり、その目的は、再生信号の品質を向上させることのできる技術を提供することにある。

上記目的を達成するため、第１の観点に係る音声処理装置は、対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理部を有する音声処理装置であって、音声処理部による音声処理における１以上のパラメータの値を複数の値に変更させて、音声処理部に音声処理を実行させる音声処理制御部と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、対象信号のエネルギーと、処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出する差分検出部と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、差分検出部により検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらに基づいた特徴量を算出する特徴量算出部と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、特徴量算出部により算出される複数の特徴量に基づいて、音声処理の利用に適したパラメータの値である有効値を決定する有効値決定部と、を備える。

上記音声処理装置において、音声処理におけるパラメータの値を、有効値検出部により検出された有効値に設定して、音声処理を実行させ、音声処理により得られた処理後信号を有効な処理後信号である有効処理後信号として記憶部に格納させる有効信号生成制御部をさらに有するようにしてもよい。

また、上記音声処理装置において、音声処理部は、対象信号における量子化雑音の周波数特性を変化させるノイズシェーピングを行うノイズシェーピング部を含み、パラメータは、ノイズシェーピング部におけるノイズシェーピングに関わるパラメータであってもよい。

また、上記音声処理装置において、差分検出部は、対象信号の所定サイズのブロックを単位として差分を検出し、特徴量算出部は、ブロックを単位として特徴量を算出し、有効値決定部は、ブロックを単位として、有効値を決定するようにしてもよい。

また、上記音声処理装置において、人間の聴覚の周波数成分に対応する感度に関する情報を記憶する聴覚情報記憶部をさらに備え、特徴量算出部は、聴覚情報記憶部の感度に関する情報に基づいて、重みを決定するようにしてもよい。

また、上記目的を達成するため、第２の観点に係る音声処理方法は、対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理部を有する音声処理装置による音声処理方法であって、音声処理部による音声処理における１以上のパラメータの値を複数の値に変更させて、音声処理部に音声処理を実行させ、パラメータを複数の値のそれぞれに変更させた際に、原信号のエネルギーと、処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出し、検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらに基づいた特徴量を算出し、算出された複数の特徴量に基づいて、音声処理の利用に適したパラメータの値である有効値を決定する。

また、上記目的を達成するため、第３の観点に係る音声処理プログラムは、対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理装置を構成するコンピュータに実行させる音声処理プログラムであって、音声処理プログラムは、コンピュータを、音声処理部による音声処理における１以上のパラメータの値を複数の値に変更させて、音声処理部に音声処理を実行させる音声処理制御部と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、対象信号のエネルギーと、処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出する差分検出部と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、差分検出部により検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらに基づいた特徴量を算出する特徴量算出部と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、特徴量算出部により算出される複数の特徴量に基づいて、音声処理の利用に適したパラメータの値である有効値を決定する有効値決定部として機能させる。

本発明によれば、再生信号の品質を向上させることができる。

図１は、一実施形態に係る音声処理装置の機能ブロック図である。図２は、一実施形態に係る音声処理装置の音声処理部の機能ブロック図である。図３は、一実施形態に係る人間の聴覚の周波数に対する感度を示すＡカーブを示す図である。図４は、一実施形態に係る音声処理装置のハードウェア構成図である。図５は、一実施形態に係る音声生成処理のフローチャートである。図６は、一実施形態に係る特徴量算出処理のフローチャートである。

実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

まず、一実施形態に係る音声処理装置について説明する。

図１は、一実施形態に係る音声処理装置の機能ブロック図である。図２は、一実施形態に係る音声処理装置の音声処理部の機能ブロック図である。

音声処理装置１は、音声処理部１１と、差分検出部１２と、特徴量算出部１３と、有効値決定部１４と、有効信号生成制御部の一例としての音声処理制御部１５と、聴覚情報記憶部の一例としての記憶部２０とを備える。

音声処理部１１は、対象信号の一例としての原信号ｓ（ｎ）に対して、所定の音声処理（例えば、ＡＤＰＣＭのエンコード処理）を行う。音声処理部１１は、例えば、図２に示すように、量子化部の一例としての適応量子化部３１と、逆量子化部の一例としての逆適応量子化部３２と、演算部３３，３４と、ノイズシェーピング部３５と、演算部３６と、適応予測部３７と、演算部３８とを備える。

演算部３３は、原信号ｓ（ｎ）と、適応予測部３７から出力される予測信号との差分である差分信号を出力する。演算部３４は、演算部３３から出力された差分信号と、ノイズシェーピング部３５により出力された信号とを加算する。

適応量子化部３１は、演算部３４から出力された信号（ノイズシェーピング後の差分信号）に対して、適応量子化処理（デコード処理）を実行することにより、処理後信号ｘ（ｎ）を出力する。逆適応量子化部３２は、適応量子化部３１により出力された処理後信号ｘ（ｎ）に対して、逆適応量子化処理（デコード処理）を実行する。

演算部３６は、逆適応量子化部３２から出力された信号と、演算部３４から出力された信号との差分の信号を出力する。演算部３６から出力された信号は、適応量子化部３１に入力された信号に対する量子化雑音の信号である。

ノイズシェーピング部３５は、演算部３６から出力された信号を入力として、量子化雑音の信号の形状を変形させるノイズシェーピングを行う。

ここで、量子化雑音の伝達関数（雑音伝達関数）Ｈ（ｚ）について、ノイズシェーピングの強度を変更するためのパラメータ（強度γ（０以上１以下））を導入した伝達関数Ｈ（γｚ）とすると、この伝達関数は、以下の式（１）に示すように表すことができる。式（１）において、Ｈ^―（γｚ）（なお、本明細書では、「Ｈ^―」は、Ｈの上に「―」を表すこととする。）は、ノイズシェーピング部３５のフィードバック要素に相当する。

本実施形態では、雑音伝達関数Ｈ（γｚ）を、再生信号ｙ（ｎ）を自己回帰モデルとした場合における伝達関数Ａ（ｚ）に対して上記したパラメータである強度γを導入した伝達関数Ａ（γｚ）としている。このように、雑音伝達関数Ｈ（γｚ）を、伝達関数Ａ（γｚ）とすることにより、原信号と同様なスペクトル包絡によるノイズシェーピングを行うことができ、所謂聴覚マスキングによる雑音の隠蔽が期待できる。また、後述するように、強度γの値を再生信号の品質の向上に有効な値に設定することができるので、雑音の総エネルギーを抑制し、再生信号による音質を向上することができる。

ここで、自己回帰モデルの伝達関数Ａ（ｚ）について説明する。

まず、時刻ｎの再生信号ｙ（ｎ）の予測値を、過去ｋ個（ｋは所定の数）のサンプルと、ｋ個の予測係数αｉとを用いた線形和で予測することとすると、時刻ｎの再生信号の予測値をｙ＾_ｋ（ｎ）（なお、本明細書では、「ｙ＾」は、ｙの真上に「＾」を表すこととする。）とすると、以下の式（２）に示すように表される。

予測値ｙ＾_ｋ（ｎ）と、実際の値ｙ（ｎ）との差分信号をｄ（ｎ）とすると、差分信号ｄ（ｎ）は、以下の式（３）に示すように表される。

この式（３）に、式（２）を代入すると、以下の式（４）に示す関係が得られる。この式（４）は、自己回帰モデルと呼ばれる。

この式（４）に対して、ｚ変換することにより、以下の式（５）に示すように、式（４）の伝達関数Ａ（ｚ）が得られる。

なお、予測係数αｉは、Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎのアルゴリズムを用いることにより求めることができる。

Ｈ（γｚ）＝Ａ（γｚ）と、式（５）及び式（１）とによると、フィードバック要素Ｈ^―（γｚ）は、以下の式（６）に示すように表される。

演算部３８は、逆適応量子化部３２の出力した信号と、適応予測部３７が出力した予測信号とを加算した再生信号ｙ（ｎ）を出力する。

適応予測部３７は、再生信号ｙ（ｎ）を入力として、原信号ｓ（ｎ）を予測する予測信号を出力する。

図１の説明に戻り、記憶部２０は、原信号データ２１と、聴覚情報２２と、有効処理後信号データ２３とを記憶する。

原信号データ２１は、音声処理部１１の処理対象となるデジタルデータ化された原信号ｓ（ｎ）である。原信号ｓ（ｎ）は、例えば、アナログの原信号を、所定のサンプリング間隔ごとに、各時点におけるアナログ値を、そのアナログ値に対応するデジタル値に変換したものである。

聴覚情報２２は、人間の聴覚の周波数成分に対応する感度に関する情報（聴覚情報）である。聴覚情報としては、例えば、人間が感覚的に同じ音の大きさであると認識する音圧レベルの周波数変化を示す等ラウドネス曲線のミラー特性を持つ曲線に対応する情報や、ＪＩＳＣ１５０９−１：２００５のＡカーブやＣカーブに対応する情報である。

ここで、Ａカーブについて説明する。

図３は、一実施形態に係る人間の聴覚の周波数に対する感度を示すＡカーブを示す図である。図３において、横軸は周波数［ＫＨｚ］であり、縦軸は、音圧［ｄＢ］である。縦軸については、周波数１．０［ｋＨｚ］の音圧を０［ｄＢ］としている。

人間の聴覚は、図３のＡカーブに示すように、周波数に応じて、同一の音圧と感じる値が異なっている、すなわち、感度が異なっている。

図１の説明に戻り、有効処理後信号データ２３は、ノイズシェーピング部３５の強度γに対して、有効値決定部１４により決定された有効値が設定されている場合において、音声処理部１１により生成される処理後信号ｘ（ｎ）である。この有効処理後信号データ２３を、デコードすることにより、高品質の音声を再現できる再生信号を生成することができる。

差分検出部１２は、ノイズシェーピング部３５のパラメータの値を複数の値に変更させた場合のそれぞれにおいて、原信号ｓ（ｎ）の所定の単位（ブロック）を処理対象として、そのブロック（処理対象ブロック）についての対数パワースペクトルと、原信号ｓ（ｎ）の処理対象ブロックを適応量子化部３１でエンコードし、逆適応量子化部３２でデコードした後に得られる再生信号ｙ（ｎ）（図２では、演算部３８から出力される信号）についての対数パワースペクトルとを算出し、求めた２つの対数パワースペクトルの差の絶対値を周波数成分ごとに求める。具体的には、差分検出部１２は、以下の式（７）により、原信号ｓ（ｎ）のブロックについての対数パワースペクトルＳ（ｆ）を算出する。

また、差分検出部１２は、以下の式（８）により、再生信号ｙ（ｎ）のブロックについての対数パワースペクトルＹ（ｆ）を算出する。

次いで、差分検出部１２は、以下の式（９）により、原信号ｓ（ｎ）の対数パワースペクトルＳ（ｆ）と、再生信号ｙ（ｎ）のブロックについての対数パワースペクトルＹ（ｆ）との周波数成分ごとの絶対値の差分である差分パワースペクトルＤ（ｆ）を算出する。

特徴量算出部１３は、ノイズシェーピング部３５のパラメータの値を複数の値に変更させた場合のそれぞれにおいて、差分パワースペクトルＤ（ｆ）の各周波数成分に対して、人間の聴力に基づく重みｗ（ｆ）を乗算し、得られた値のすべてに基づいて（例えば、すべてを加算することにより）、特徴量（ＦＤＤ：ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎＤｉｆｆｅｒｅｎｃｅ）を算出する。

ここで、聴覚情報２２を、図３に示すＡカーブが示す周波数と音圧との対応関係としている場合には、各周波数成分に対する重みｗ（ｆ）は、周波数に対する縦軸の音圧の値をＣ_Ａ（ｆ）とすると、以下の式（１０）により算出される。

特徴量算出部１３は、特徴量ＦＤＤを、以下の式（１１）により算出する。

ここで、特徴量ＦＤＤは、各周波数の原信号ｓ（ｎ）と再生信号ｙ（ｎ）とのエネルギーの差分に対して人間の聴覚の特性に応じた重みをつけて合計したものである。このことから、特徴量ＦＤＤが小さいと、人間の聴覚に対しては、再生信号ｙ（ｎ）における量子化雑音の影響が少ない、すなわち、再生信号ｙ（ｎ）による音声の音質が良いことを示している。

音声処理制御部１５は、原信号ｓ（ｎ）のブロックのそれぞれを対象（処理対象ブロック）として、音声処理部１１による音声処理における１以上のパラメータの値を複数の値に変更させて、それぞれの値を設定したそれぞれの状態で音声処理部１１に音声処理を実行させ、それぞれの音声処理に対して、差分検出部１２及び特徴量算出部１３による処理を実行させる。本実施形態では、音声処理制御部１５は、例えば、ノイズシェーピング部３５における強度γについて、０以上１以下の範囲で複数の値に変化させる。また、音声処理制御部１５は、有効値決定部１４により、パラメータの有効値が決定された場合には、音声処理部１１による原信号ｓ（ｎ）の処理対象ブロックに対する音声処理における１以上のパラメータの値を、その処理対象ブロックに対応する有効値に変更させ、音声処理部１１により生成された処理後信号ｘ（ｎ）を処理対象ブロックの有効な処理後信号（有効処理後データ）として、記憶部２０に格納させる。

有効値決定部１４は、音声処理制御部１５によって変更されたパラメータの各値に対応する特徴量算出部１３により算出された特徴量ＦＤＤに基づいて、劣化の少ない音声処理を行うことのできるパラメータ（強度γ）の値（有効値）を決定する。本実施形態では、有効値決定部１４は、特徴量ＦＤＤが最も小さくなるパラメータの値を、処理対象ブロックに対する有効値として決定する。

次に、音声処理装置１のハードウェア構成について詳細に説明する。

図４は、一実施形態に係る音声処理装置のハードウェア構成図である。

音声処理装置１は、制御回路１０１と、記憶装置１０２と、リーダライタ１０３と、通信インターフェース（通信Ｉ／Ｆ）１０４と、入出力インターフェース（入出力Ｉ／Ｆ）１０５と、入力装置１０６と、表示装置１０７とを備えるコンピュータにより構成される。制御回路１０１、記憶装置１０２、リーダライタ１０３、通信Ｉ／Ｆ１０４、入出力Ｉ／Ｆ１０５、及び表示装置１０７は、バス１０８を介して接続されている。

制御回路１０１は、例えば、プロセッサであり、音声処理装置１の全体を統括制御する。制御回路１０１は、記憶装置１０２に格納されたプログラムを実行することにより各種処理を実行する。本実施形態では、制御回路１０１は、記憶装置１０２に格納された音声処理プログラムを実行することにより、音声処理部１１、差分検出部１２、特徴量算出部１３、有効値決定部１４、及び音声処理制御部１５を構成する。

記憶装置１０２は、例えば、ＨＤＤ（ＨａｒｄＤＩＳＫＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＲＡＭ、ＲＯＭ等であり、制御回路１０１に実行されるプログラム（音声処理プログラム等）や、各種情報を記憶する。記録装置１０２は、図１に示す記憶部２０を構成する。

リーダライタ１０３は、記録媒体１１０を着脱可能であり、記録媒体１１０からのデータの読み出し、及び記録媒体１１０へのデータの書き込みを行う。記録媒体１１０としては、例えば、ＳＤメモリーカード、ＦＤ（フロッピーディスク：登録商標）、ＣＤ、ＤＶＤ，ＢＤ（登録商標）、フラッシュメモリ等の非一時的記録媒体（不揮発性記録媒体）がある。本実施形態においては、記録媒体１１０に、音声処理プログラム、処理に使用する原信号ｓ（ｎ）、聴覚情報等を格納させておき、リードライタ１０３により、これらを読み出して、利用するようにしてもよい。

通信Ｉ／Ｆ１０４は、ネットワーク１１１に接続されており、ネットワーク１１１に接続された他の装置との間でのデータの送受信を行う。

次に、本実施形態に係る音声処理装置１における音声生成処理の動作について説明する。

図５は、一実施形態に係る音声生成処理のフローチャートである。

音声処理制御部１５は、記憶部２０から原信号ｓ（ｎ）の処理範囲内の未処理のブロック（処理対象ブロック）を抽出する（ステップＳ１０１）。なお、原信号ｓ（ｎ）の処理範囲は、例えば、原信号ｓ（ｎ）の全体としてもよいし、原信号ｓ（ｎ）のうちのユーザから指定された一部の範囲としてもよい。

次いで、音声処理制御部１５は、音声処理部１１のノイズシェーピング部３５の強度γに０を設定し（ステップＳ１０２）、抽出した処理対象ブロックを音声処理部１１に入力して音声処理を実行させる（ステップＳ１０３）。

次いで、音声処理制御部１５は、差分検出部１２及び特徴量算出部１３に、音声処理部１１による音声処理に用いた原信号ｓ（ｎ）と、音声処理部１１により出力される再生信号ｙ（ｎ）とを用いて、特徴量ＦＤＤを算出する処理（特徴量算出処理）を実行させる（ステップＳ１０４）。

次いで、音声処理制御部１５は、音声処理部１１の強度γを変更する（ステップＳ１０５）。例えば、音声処理制御部１５は、強度γの値に所定値（例えば、０．０１）を加算する。

次いで、音声処理制御部１５は、強度γが１より大きいか否かを判定する（ステップＳ１０６）。この結果、強度γが１より大きくない場合（ステップＳ１０６：Ｎｏ）には、この強度γによる特徴量ＦＤＤを算出する必要があるので、音声処理制御部１５は、処理をステップＳ１０３に進める。一方、強度γが１より大きい場合（ステップＳ１０６：Ｙｅｓ）には、強度γを十分に変更させて必要な特徴量ＦＤＤを算出したことを意味するので、音声処理制御部１５は、処理をステップＳ１０７に進める。

ステップＳ１０７では、有効値決定部１４が、ステップＳ１０４で算出された複数の特徴量ＦＤＤに基づいて、量子化雑音が少ない再生信号を得ることのできる処理後信号を生成することのできる強度γの値（有効値）を決定し、音声処理制御部１５が、決定した有効値を音声処理部１１の強度γに設定する。本実施形態では、有効値決定部１４は、特徴量ＦＤＤが最も小さくなる強度γの値を、処理対象ブロックに対する有効値として決定する。

次いで、音声処理制御部１５は、処理対象ブロックを音声処理部１１に入力して音声処理を実行させ、音声処理部１１により生成された処理後信号ｘ（ｎ）を有効処理後信号データとして記憶部２０に格納する（ステップＳ１０８）。

次いで、音声処理制御部１５は、原信号ｓ（ｎ）の処理範囲の全てのブロックに対して処理を行ったか否かを判定する（ステップＳ１０９）。この結果、処理範囲の全てのブロックに対して処理を行っていない場合（ステップＳ１０９：Ｎｏ）には、音声処理制御部１５は、処理をステップＳ１０１に進めて、次のブロックを対象に処理を行う一方、処理範囲の全てのブロックに対して処理を行った場合（ステップＳ１０９：Ｙｅｓ）には、音声処理制御部１５は、音声生成処理を終了する。

次に、図５のステップＳ１０４に示す特徴量算出処理について説明する。

図６は、一実施形態に係る特徴量算出処理のフローチャートである。

差分検出部１２は、式（７）により、原信号ｓ（ｎ）の対数パワースペクトルＳ（ｆ）を算出する（ステップＳ２０１）。さらに、差分検出部１２は、式（８）により、再生信号ｙ(ｎ)の対数パワースペクトルＹ（ｆ）を算出する（ステップＳ２０２）。そして、差分検出部１２は、式（９）により、対数パワースペクトルＳ（ｆ）と対数パワースペクトルＹ（ｆ）との絶対値の差分である差分パワースペクトルＤ（ｆ）を周波数毎に算出する（ステップＳ２０３）。次いで、特徴量算出部１３は、各差分パワースペクトルＤ（ｆ）に対して、対応する周波数に応じた人間の聴覚特性に応じた重みｗ（ｆ）を付与する。すなわち、特徴量算出部１３は、式（１０）により、各差分パワースペクトルＤ（ｆ）に対して対応する重みｗ（ｆ）を乗算する（ステップＳ２０４）。次いで、特徴量算出部１３は、式（１１）により、重みが付与された周波数ごとの差分パワースペクトルＤ（ｆ）を合計することにより、特徴量ＦＤＤを算出する（ステップＳ２０５）。

以上説明したように、本実施形態に係る音声処理装置１によると、音声処理における１以上のパラメータの値を複数の値に変更させて、音声処理部１１に音声処理を実行させ、原信号ｓ（ｎ）のエネルギーと、再生信号ｙ（ｎ）のエネルギーとの所定の周波数成分ごとの差分を検出し、検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらを合計した特徴量を算出し、パラメータを複数の値のそれぞれに変更させた際に特徴量算出部１３により算出される複数の特徴量に基づいて、量子化誤差の少ない再生信号が得られる処理後信号の生成に適したパラメータの有効値を決定するようにしたので、音声処理によって生成される処理後信号により生成される再生信号による音声の品質を向上することができる。

なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。

例えば、上記実施形態においては、原信号の各ブロックに対して、ノイズシェーピング部３５の強度γの値を常に所定の範囲（０以上１以下の範囲）内で変更して特徴量ＦＤＤを算出するようにしていたが、本発明はこれに限られず、所定数前（例えば、直前）のブロックに対する強度γの有効値を基準に、その有効値の周辺の限られた範囲内で強度γの値を変更するようにしてもよい。ブロックに対する強度γの有効値は、時間的に近い範囲（例えば、直前）のブロックの強度γの有効値と近い値となる傾向が高く、このようにすることにより、有効値を適切に決定できると共に、有効値を決定するために必要な処理負荷を低減することができる。

また、上記実施形態においては、各ブロックのそれぞれに対して特徴量を算出して強度γの有効値を決定するようにしていたが、本発明はこれに限られず、例えば、複数のブロックのうちの一つのブロックに対して強度γを変更して有効値を決定し、それら複数のブロックに対する強度γとして決定した１つの有効値を用いて音声処理をするようにしてもよい。このようにすると、ブロックごとに特徴量を算出して強度γの有効値を決定する場合に比して、処理負荷を低減することができ、短時間で比較的品質の良い再生信号を生成することのできる処理後信号を生成することができる。

また、上記実施形態では、ノイズシェーピング部３５の強度γの値を変化させた場合の特徴量を算出し、特徴量に基づいて、強度γの有効値を決定するようにしていたが、本発明はこれに限られず、音声処理における他のパラメータの値（例えば、音声処理部にＬＰＦ（ローパスフィルタ）があれば、そのフィルタの遮断周波数、ノイズシェーピング部３５の雑音伝達関数として用いる自己回帰モデルの予測係数の個数、量子化する際のブロックのサイズ等の少なくともいずれか１つのパラメータ）を変化させて、各パラメータ値での特徴量を算出し、その特徴量に基づいて、そのパラメータの有効値を決定するように、有効処理後信号を生成する際に用いるようにしてもよい。

また、上記実施形態では、共通の聴覚情報２２に基づいて、重み付けを決定し、特徴量を算出するようにしていたが、本発明はこれに限られず、例えば、処理後信号から生成される再生信号に基づく音声を聞く対象となる利用者の年代別（例えば、１０代、２０代、３０代、・・・等）に、その年代に対応する聴覚情報を用意し、それら聴覚情報に基づいて重み付けを決定し、特徴量を算出するようにしてもよい。この場合には、音声を聞く主な年代の聴覚情報２２を利用して特徴量を算出して、パラメータの有効度を決定して、処理後信号を生成するようにしてもよく、年代ごとの特徴量を算出し、年代ごとのパラメータの有効度を決定し、各年代に適した処理後信号を生成するようにしてもよい。

また、上記実施形態では、聴覚情報２２として、主に等ラウドネス曲線に対応する情報の例を示していたが、本発明はこれに限られず、例えば、等ラウドネス曲線に対応する情報に代えて、又は等ラウドネス曲線に対応する情報に加えて、時間的に前の音によりその後の音がかき消されてしまうという現象である時間マスキングに対応する情報や、或る音が発生している際に他の音がかき消されてしまう現象であるスペクトルマスキングに対応する情報を用いるようにしてもよい。

また、上記実施形態では、音声処理部による音声処理を、ＡＤＰＣＭとしていたが、本発明はこれに限られず、例えば、他のＤＰＣＭや他の方式（例えば、ＭＰ３）のコーデックであってもよい。音声処理部による音声処理がＭＰ３である場合、例えば、音声処理におけるカットする音の周波数（パラメータ）を変えた場合のそれぞれにおいて、聴覚特性（例えば、等ラウドネス曲線とマスキングに対応する情報とのいずれか１以上に基づく聴覚特性）に応じた重みを用いて特徴量ＦＤＤを算出し、特徴量ＦＤＤを閾値以下とすることができ、且つ圧縮率を高くすることのできるような（例えば、カットする音の周波数を多くすることができるような）パラメータを選択するようにすればよい。このようにすると、ＭＰ３では、聴覚特性に応じて、音質を一定以上に維持しつつ、音質に影響のない、又は少ない音のカットにより圧縮率を高くすることができる。

また、上記実施形態において、制御回路１０１が行っていた処理の一部又は全部を、ハードウェア回路で行うようにしてもよい。例えば、図１に示す各機能部１１〜１５の少なくともいずれか１つをハードウェア回路で構成してもよい。また、音声処理部１１の各構成の少なくとも一部をハードウェア回路で構成してもよい。

１…音声処理装置、１１…音声処理部、１２…差分検出部、１３…特徴量算出部、１４…有効値決定部、１５…音声処理制御部、２０…記憶部、２１…原信号データ、２２…聴覚情報、２３…有効処理後信号データ

Claims

対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理部を有する音声処理装置であって、
前記音声処理部による前記音声処理における１以上のパラメータの値を複数の値に変更させて、前記音声処理部に前記音声処理を実行させる音声処理制御部と、
前記パラメータの値を複数の値に変更させた場合のそれぞれにおける、前記対象信号のエネルギーと、前記処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出する差分検出部と、
前記パラメータの値を複数の値に変更させた場合のそれぞれにおける、前記差分検出部により検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらに基づく特徴量を算出する特徴量算出部と、
前記パラメータの値を複数の値に変更させた場合のそれぞれにおける、前記特徴量算出部により算出される複数の前記特徴量に基づいて、前記音声処理の利用に適したパラメータの値である有効値を決定する有効値決定部と、
を備える音声処理装置。
前記音声処理における前記パラメータの値を、前記有効値検出部により検出された前記有効値に設定して、前記音声処理を実行させ、前記音声処理により得られた処理後信号を有効な処理後信号である有効処理後信号として記憶部に格納させる有効信号生成制御部をさらに有する
請求項１に記載の音声処理装置。
前記音声処理部は、前記対象信号における量子化雑音の周波数特性を変化させるノイズシェーピングを行うノイズシェーピング部を含み、
前記パラメータは、前記ノイズシェーピング部におけるノイズシェーピングに関わるパラメータである
請求項１又は請求項２に記載の音声処理装置。
前記差分検出部は、前記対象信号の所定のサイズのブロックを単位として前記差分を検出し、
前記特徴量算出部は、前記ブロックを単位として前記特徴量を算出し、
前記有効値決定部は、前記ブロックを単位として、前記有効値を決定する
請求項３に記載の音声処理装置。
前記人間の聴覚の周波数成分に対応する感度に関する情報を記憶する聴覚情報記憶部をさらに備え、
前記特徴量算出部は、前記聴覚情報記憶部の前記感度に関する情報に基づいて、前記重みを決定する
請求項１乃至請求項４のいずれか一項に記載の音声処理装置。
対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理部を有する音声処理装置による音声処理方法であって、
前記音声処理部による前記音声処理における１以上のパラメータの値を複数の値に変更させて、前記音声処理部に前記音声処理を実行させ、
前記パラメータを複数の値のそれぞれに変更させた際に、前記対象信号のエネルギーと、前記処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出し、検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらを合計した特徴量を算出し、算出された複数の前記特徴量に基づいて、前記音声処理の利用に適したパラメータの値である有効値を決定する
音声処理方法。
対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理装置を構成するコンピュータに実行させる音声処理プログラムであって、
前記音声処理プログラムは、
前記コンピュータを、
前記音声処理部による前記音声処理における１以上のパラメータの値を複数の値に変更させて、前記音声処理部に前記音声処理を実行させる音声処理制御部と、
前記パラメータの値を複数の値に変更させた場合のそれぞれにおける、前記対象信号のエネルギーと、前記処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出する差分検出部と、
前記パラメータの値を複数の値に変更させた場合のそれぞれにおける、前記差分検出部により検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらに基づく特徴量を算出する特徴量算出部と、
前記パラメータの値を複数の値に変更させた場合のそれぞれにおける、前記特徴量算出部により算出される複数の前記特徴量に基づいて、前記音声処理の利用に適したパラメータの値である有効値を決定する有効値決定部と、
して機能させる音声処理プログラム。