JP6843701B2

JP6843701B2 - 音響信号処理のパラメータ予測装置及びパラメータ予測方法

Info

Publication number: JP6843701B2
Application number: JP2017095786A
Authority: JP
Inventors: 大治郎市村
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2016-09-28
Filing date: 2017-05-12
Publication date: 2021-03-17
Anticipated expiration: 2037-05-12
Also published as: JP2018092117A

Description

本開示は、環境及び用途に適した、音響信号処理の制御パラメータセットを予測するパラメータ予測技術に関する。

近年、家庭電化製品や車載製品など広い分野にマイクロフォンデバイス（マイク）が普及し、屋内や屋外など利用する環境や、通話や音声認識による操作など用途も多様化している。マイクからの音響信号には雑音が含まれている場合がある。そこで、ウィナーフィルタやエコーキャンセラなどの音響信号処理により雑音が除去もしくは抑圧される。

音響信号処理では、係数や閾値などの性能を制御する複数の制御パラメータが用いられる。環境や用途に応じて各制御パラメータを最適化することによって音響信号処理の性能を向上することができる。

本開示では、音響信号処理に用いられる１以上の制御パラメータを制御パラメータセットと呼ぶ。また、音響信号処理の１以上の性能を数値化したものあるいは処理済音響信号の１以上の評価値を評価値セットと呼ぶ。また、音響信号の収音環境の１以上の特徴を数値化したものを環境特徴量セットと呼ぶ。制御パラメータセット、評価値セット及び環境特徴量セットはそれぞれ１つ以上の値を持つ。

非特許文献１では、環境特徴量セットから環境が幾つかのグループに分類される。さらに、分類されたグループ毎に、良い評価値セットが得られるようにあらかじめ最適化された制御パラメータセットが準備される。このような準備が行われた後で音響信号処理が行われるときに、処理対象の音響信号に対応する環境特徴量セットからグループが特定される。そして、特定されたグループに対応する制御パラメータセットが選択される。このように、非特許文献１は、環境のグループ毎に準備された制御パラメータセットに基づいて音響信号処理の性能を向上する技術を開示している。

非特許文献２は、非特許文献１における環境のグループ毎に最適な制御パラメータセットを遺伝アルゴリズムで効率的に決定する技術を開示している。

Kawase et al., "Selection of Optimal Array Noise Reduction Parameter Set for Accurate Speech Recognition in Various Noisy Environments", WESPAC, 449-455、 2015 川瀬智子、他、"雑音処理パラメータの自動調整に関する一検討"、2016 年電子情報通信学会総合大会、D-14-9

しかしながら、上記従来の技術では、グループ毎に最適な制御パラメータセットを準備する必要があり、制御パラメータセットの準備に多くの時間を要する。さらに、グループの境界近傍に相当する収音環境では、最適な制御パラメータセットを予測することが難しい。

そこで、本開示では、音響信号処理の制御パラメータセットの最適化において、制御パラメータセットの予測精度を向上させ、最適化に関する負荷あるいは時間を低減することができるパラメータ予測装置を提供する。

そこで、本開示に係るパラメータ予測装置は、音響信号処理を制御するための制御パラメータセットを予測するパラメータ予測装置であって、音響信号の収音環境の１以上の特徴を数値化した環境特徴量セットを取得する環境特徴取得部と、前記音響信号処理の１以上の性能を数値化したものあるいは処理済音響信号の１以上の評価値である目標評価値セットを設定する目標設定部と、前記環境特徴量セット及び前記目標評価値セットを独立変数として第１予測モデルに入力して前記制御パラメータセットを予測する第１予測部と、を備える。

なお、これらの包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本開示に係るパラメータ予測装置は、音響信号処理の制御パラメータセットの最適化において、制御パラメータセットの予測精度を向上させ、最適化に関する負荷あるいは時間を低減することができる。

実施の形態１〜４に係る音響信号処理システムの構成を示す図実施の形態１に係るパラメータ予測装置の機能構成を示すブロック図実施の形態１に係る信号処理装置の機能構成を示すブロック図実施の形態１に係る学習装置の機能構成を示すブロック図実施の形態１に係るパラメータ予測装置の動作を示すフローチャート実施の形態１における目標評価値セットの一例を示す図実施の形態１に係る学習装置の動作を示すフローチャート実施の形態１における学習で用いられる複数の目標評価値セットの一例を示す図実施の形態１における学習で用いられる複数の目標評価値セットの一例を示す図実施の形態２に係るパラメータ予測装置の機能構成を示すブロック図実施の形態２に係るパラメータ予測装置の動作を示すフローチャート実施の形態２において目標評価値セットの設定が繰り返されたときの目標評価値セット及び予測信頼度の一例を示す図実施の形態３に係るパラメータ予測装置の機能構成を示すブロック図実施の形態３に係る学習装置の機能構成を示すブロック図実施の形態３に係るパラメータ予測装置の動作を示すフローチャート実施の形態３に係る学習装置の動作を示すフローチャート実施の形態４に係るパラメータ予測装置の機能構成を示すブロック図実施の形態４に係る音声認識率、抑圧量及び歪み率の目標評価値の補正の一例を示す図実施の形態４に係る学習装置の機能構成を示すブロック図実施の形態４に係るパラメータ予測装置の動作を示すフローチャート

（本開示の基礎となった知見）
自動車内に設置した４つのマイク及び２つのスピーカを備える音響信号処理装置を例にして本開示の基礎となった知見を説明する。この音響信号処理装置は、音声認識ソフトウェアを用いた音声操作のための音響信号処理と、遠隔地との通話のための音響信号処理と、広い自動車内の前列と後列との座席間での通話のための音響信号処理とを選択的に行う。いずれの音響信号処理の場合も、話者の口の近くに位置するマイクではなく、話者の口から離れた位置にあるマイクに対してハンズフリーの状態で入力された音響信号が用いられる。

音響信号処理装置は、スピーカ再生音がマイクに回り込むエコーを抑圧するためのエコーキャンセラ及びエコーサプレッサと、周囲雑音を抑圧し、話者の方向への指向性の制御を行うためのビームフォーマと、を備え、処理済音響信号を後段の音声認識ソフトウェアや通話先の端末に出力する。

エコーキャンセラは、スピーカから出力する再生音響信号とマイクに入力する入力音響信号とから、エコーを抑圧する。一般的にエコーキャンセラだけでエコーを完全に抑圧することは難しい。なお、エコーキャンセラから出力される音響信号には歪みが小さい。

エコーサプレッサは、エコーキャンセラが抑圧できないエコーを抑圧する。ただし、エコーサプレッサでの抑圧量を高めると、音響信号の歪みが大きくなる。また、エコーを過度に抑圧すると、エコーと同時に入力される話者の音声も抑圧されやすい。

ビームフォーマは、エコーが抑圧された４つの音響信号を用いて、指向性を制御し、周囲の雑音を抑圧する。周囲雑音に対する抑圧量を高めると、音響信号の歪みが大きくなる。

このような音響信号処理装置では、エコーキャンセラ、エコーサプレッサ及びビームフォーマを制御するための制御パラメータセットを環境や用途に応じて最適化する必要がある。

用途によって音響信号処理に要求される性能は異なる。例えば、発話者は、音声操作を行うときに「音声認識スタート、地図検索」と発話する。「音声認識スタート」は、音声操作の開始を指示する起動ワードである。「地図検索」は、操作内容を指示する操作ワードである。

音声操作のための音響信号処理には、正しく音声認識される割合である音声認識率が高いことと、スピーカ再生中でも音声入力を受け付ける同時通話性が要求される。音声操作のための音響信号処理には、起動ワードのための音響信号処理と操作ワードのための音響信号処理とが含まれる。この２つの音響信号処理では、さらに要求される性能が異なる。

起動ワードのための音響信号処理では、周囲雑音が起動ワードと誤って認識されないように、誤検出率の低さが重要となる。一方、操作ワードのための音響信号処理では、話者の音声を破棄してしまわないように、誤棄却率の低さが重要となる。また、起動ワードが入力される際にはスピーカで音声を再生している場合があるので、起動ワードのための音響信号処理では、エコーの抑圧量の高さが重要である。起動ワードの認識後にスピーカの再生音量を下げるあるいは再生を停止することができるので、操作ワードのための音響信号処理では、エコーの抑圧量は必ずしも重要ではない。

また、通話のための音響信号処理では、エコーの抑圧が要求される。特に、遠隔通話のための音響信号処理では、音響信号処理済みの音響信号は人間の耳で主観的に聞かれるので、周囲雑音の抑圧量の高さ、抑圧による歪み率の低さ、及び同時通話性が重要となる。また、自動車内通話のための音響信号処理では、通話の相手が同一の車内空間にいるため、ハウリングを発生させないためにエコーの抑圧が重要となるが、同時通話性は重要ではない。自動車内通話では、話者から相手に直接伝わる音声と、音響信号処理を介して相手に伝わる音声との間で、遅延があると違和感が発生する。したがって、自動車内通話のための音響信号処理では、遅延の短さが重要である。

これら４つの用途（起動ワード、操作ワード、遠隔通話及び自動車内通話）に、走行速度、エアコンのオン／オフ、天候、話者の老若男女、及び自動車の広さなどの環境の要素も鑑みて、制御パラメータセットの最適化が行われる。ここで、音響信号処理後の音響信号に要求する評価値セットを目標評価値セットと呼ぶ。

非特許文献１及び非特許文献２の方法では、例えば環境を６４グループに分類する場合は、６４のグループに対して最適な制御パラメータセットを準備する必要がある。また、複数の用途に対して別々に制御パラメータセットを準備する場合は、さらに多くの制御パラメータセットを事前に準備しなければならず、多大な時間を要する。また、離散的なグループへの分類により、隣接するグループの中間に位置する環境に対しては、制御パラメータセットの予測の精度が落ちる。また、グループの数を変更する場合や、目標評価値セットの値を変更する場合には、最適な制御パラメータセットの準備をやり直す必要がある。

そこで、本開示の一態様に係るパラメータ予測装置は、音響信号処理を制御するための制御パラメータセットを予測するパラメータ予測装置であって、音響信号の収音環境の１以上の特徴を数値化した環境特徴量セットを取得する環境特徴取得部と、前記音響信号処理の１以上の性能を数値化したものあるいは処理済音響信号の１以上の評価値である目標評価値セットを設定する目標設定部と、前記環境特徴量セット及び前記目標評価値セットを独立変数として第１予測モデルに入力して前記制御パラメータセットを予測する第１予測部と、を備える。

この構成によれば、環境特徴量セット及び目標評価値セットを独立変数として第１予測モデルに入力することにより、制御パラメータセットを予測することができる。したがって、収音環境及び用途の両方に適した制御パラメータセットを予測することができ、制御パラメータセットの予測精度を向上させることができる。さらに、環境のグループ毎に最適な制御パラメータセットを予め準備する必要もないので、パラメータの最適化のための準備に関する負荷あるいは時間を低減することができる。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、添付図面および以下の説明は、当業者が本発明を十分に理解するために、提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（実施の形態１）
以下、図１〜図９を用いて、実施の形態１を説明する。

［１−１．音響信号処理システムの構成］
［１−１−１．音響信号処理システムの全体構成］
図１は、実施の形態１に係る音響信号処理システム１０の構成を示す図である。音響信号処理システム１０は、パラメータ予測装置１００と、信号処理装置２００と、学習装置３００と、データベース２０と、マイクロフォン３０と、を備える。

パラメータ予測装置１００は、環境情報及び要求性能情報に基づく環境特徴量セット及び目標評価値セットを、学習装置３００から受信した第１予測係数が適用された第１予測モデルに入力することにより、信号処理装置２００における信号処理を制御するための制御パラメータセットを予測する。パラメータ予測装置１００は、予測した制御パラメータセットを信号処理装置２００に出力する。

第１予測モデルは、第１予測係数を用いて、独立変数（説明変数）である環境特徴量セット及び目標評価値セットと、従属変数（目的変数）である制御パラメータセットとの間の関係を表すモデルである。例えば、第１予測モデルは、環境特徴量セット及び評価値セットを独立変数として有し、制御パラメータセットを従属変数として有する第１の回帰モデルである。

信号処理装置２００は、パラメータ予測装置１００から受信した制御パラメータセットを用いて、マイクロフォン３０から出力された音響信号を処理することにより、処理済音響信号を生成する。処理済音響信号は、例えば音声認識ソフトウエアあるいは通話相手の端末に送信される。また、学習時には、処理済音響信号は、学習装置３００に送信される。

学習装置３００は、データベース２０に記憶されている訓練データを用いて、パラメータ予測装置１００の第１予測モデルで用いられる第１予測係数を学習する。訓練データは、音響信号及び環境特徴量セットの組み合わせを複数含む。

［１−１−２．パラメータ予測装置の構成］
ここで、パラメータ予測装置１００の機能構成について、図２を参照しながら具体的に説明する。図２は、実施の形態１に係るパラメータ予測装置１００の機能構成を示すブロック図である。

パラメータ予測装置１００は、環境特徴取得部１０１と、目標設定部１０２と、第１予測部１０３と、を備える。

環境特徴取得部１０１は、環境情報に基づいて、環境特徴量セットを取得する。環境情報は、環境特徴量セットそのものであってもよい。また、環境情報は、音響信号あるいは映像信号であってもよい。また、環境情報は、自動車の車種あるいは話者の識別子であってもよい。環境情報が音響信号あるいは映像信号である場合には、環境特徴取得部１０１は、音響信号又は映像信号から環境特徴量セットを抽出すればよい。

環境特徴量セットは、環境情報を数値化したものである。環境特徴量セットは、少なくとも１つの環境特徴量を含む。環境特徴量は、音響信号の収音環境を表す。言い換えると、環境特徴量は、マイクロフォン３０の設置場所の環境を表す。

具体的な例としては、環境特徴量として、例えば３種類の周波数帯域の騒音レベルを用いることができる。また例えば、環境特徴量として、騒音レベルと人間の音声の信号レベルとの比（Ｓ／Ｎ比）、話者の性別や年齢、及びマイクと話者との距離や方向などが用いられてもよい。また例えば、環境特徴量として、マイクロフォンから入力した音響信号を任意に加工して数値化した値が用いられてもよい。

目標設定部１０２は、要求性能情報に基づいて、目標評価値セットを設定する。要求性能情報は、音声認識率抑圧量あるいは歪み率などの性能を示す情報であり、目標評価値セットそのものであってもよい。また、要求性能情報は、音声操作や通話などの用途そのものを示す情報であってもよい。

目標評価値セットは、音響信号処理された音響信号の評価値の目標を表す。本実施の形態では、目標評価値セットは、音声認識率、抑圧量及び歪み率の数値の組み合わせで表される。また例えば、目標評価値セットとして、音響信号処理された音響信号を任意に加工して数値化した値が用いられてもよい。

第１予測部１０３は、環境特徴量セットと目標評価値セットを独立変数として第１予測モデルに入力して制御パラメータセットを予測する。

制御パラメータセットは、音響信号処理を制御するための少なくとも１つの制御パラメータを含む。具体的には、制御パラメータセットは、例えばパワースペクトル密度のゲイン、忘却係数及びフロアリング係数などを含む。

第１予測モデルは、独立変数である環境特徴量セット及び目標評価値セットと、従属変数である制御パラメータセットとの間の関係を表す。第１予測モデルの予測係数（パラメータ）は、訓練データを用いた機械学習によって事前に準備される。具体的には、第１予測モデルとしては、例えば線形回帰モデル、サポートベクターマシン、ガウス過程回帰モデル、ニューラルネットワークなどを用いることができる。

例えば、第１予測モデルとして回帰モデルを用いる場合、第１予測モデルは以下の（式１）により表すことができる。

（式１）において、ｘは独立変数を表し、ｙは従属変数を表し、εは誤差を表す。本実施の形態では、複数の独立変数と複数の従属変数とが用いられるが、簡便化のために、複数の独立変数をＤ次元の行列で表し、複数の従属変数を１次元の行列で表している。ｎ組の独立変数及び従属変数を学習用の訓練データとして用いて、回帰モデルの予測係数が学習される。

回帰モデルの最も単純な例は、ｆ（ｘｉ）＝ＷＴｘｉで定義される線形回帰モデルである。ｉ番目の訓練データの独立変数の入力ｘｉから予測値ｆ（ｘｉ）を予測し、予測値ｆ（ｘｉ）とｉ番目の訓練データの従属変数ｙｉとの間の予測誤差εが小さくなるように予測係数Ｗが計算される。ただし、本実施の形態では、独立変数（環境特徴量セット及び目標評価値セット）と従属変数（制御パラメータセット）との間の関係性が複雑なので線形回帰モデルでは予測誤差εが大きくなる可能性が高い。

そこで、第１予測モデルとして、例えばニューラルネットワークが用いられてもよい。ニューラルネットワークでは、重み（パラメータ）が予測係数に相当する。ニューラルネットワークにおいても、訓練データを用いて、予測値ｆ（ｘｉ）と訓練データの従属変数ｙｉとの間の誤差が小さくなるような重みを全ての学習データについて探索することにより予測係数を学習することができる。

なお、ニューラルネットワークは、Rumelhart DE、 Hinton GE and Williams RJ: Learning internal representations by error propagation. Parallel Distributed Processing, 1, MIT Press, MA, 318-362, (1986)に詳しく説明されているので、ここでは詳細な説明を省略する。

また、第１予測モデルとして、例えばガウス過程回帰モデルが用いられてもよい。ガウス過程回帰モデルでは、以下の（式２）及び（式３）に示す、平均関数ｍ（ｘ）及び分散関数ｋ（ｘ，ｘ’）を用いて学習データから分散行列Ｋ（Ｘ，Ｘ）（式４）が計算される。この分散行列Ｋ（Ｘ，Ｘ）から予測係数（Ｋ（Ｘ，Ｘ）＋σ２Ｉ）−１が算出される。この予測係数を用いて、独立変数Ｘ＊から予測値ｆ＊が算出される（式５）。

ガウス過程回帰モデルは、C. E. Rasmussen & C. K. I. Williams, “Gaussian Processes for Machine Learning”, MIT Press, 2006に詳しく説明されているので、ここでは詳細な説明を省略する。

［１−１−３．信号処理装置の構成］
次に、信号処理装置２００の機能構成について、図３を参照しながら具体的に説明する。ここでは、通話のための音響信号処理を例として信号処理装置について説明する。相手先の端末から送信された音響信号がスピーカ４０から出力され、マイクロフォン３０から入力された音響信号が信号処理されて相手先の端末に送信される。

図３は、実施の形態１に係る信号処理装置２００の機能構成を示すブロック図である。信号処理装置２００は、エコーキャンセラ２０１と、エコーサプレッサ２０２と、ビームフォーマ２０３と、を備える。

エコーキャンセラ２０１は、２つのスピーカ４０から出力される２つの音響信号と４つのマイクロフォン３０に入力する４つの音響信号とに基づいて、マイクロフォン３０に入力する４つの音響信号からエコーを除去する。このとき、エコーキャンセラ２０１は、パラメータ予測装置１００から受信した制御パラメータセットに基づいてエコー除去処理を行う。

エコーサプレッサ２０２は、エコーキャンセラ２０１で除去できないエコーを抑圧する。つまり、エコーサプレッサ２０２は、エコーキャンセラ２０１でエコー除去処理が行われた音響信号に対してエコー抑圧処理を行う。このとき、エコーサプレッサ２０２は、パラメータ予測装置１００から受信した制御パラメータセットに基づいてエコー抑圧処理を行う。

ビームフォーマ２０３は、エコー抑圧処理が行われた４つの音響信号を用いて、指向性を制御し、音響信号から周囲の雑音を除去する。このとき、ビームフォーマ２０３は、パラメータ予測装置１００から受信した制御パラメータセットに基づいて指向性制御及び雑音除去を行う。

［１−１−４．学習装置の構成］
パラメータ予測装置１００において最適な制御パラメータセットの予測を実現するためには、第１予測モデルに適用する第１予測係数をあらかじめ学習によって準備する必要がある。このような第１予測係数の準備のための学習装置３００の機能構成について、図４を参照しながら具体的に説明する。

図４は、実施の形態１に係る学習装置３００の機能構成を示すブロック図である。

データベース２０は、音響信号データと当該音響信号データに対応する環境特徴量セットとの複数の組み合わせを訓練データとして記憶している。音響信号データは、マイクロフォン３０を用いてあらかじめ録音された音響信号を表す。環境特徴量セットは、音響信号の録音時に取得される、もしくは、データベース２０への音響信号の格納時に生成される。データベース２０は、学習装置３００に内蔵された半導体メモリあるいはハードディスクドライブで実現されてもよいし、学習装置３００等と通信ネットワークを介して接続された記憶装置で実現されてもよい。

信号処理装置２００は、データベース２０から音響信号データを取得し、学習装置３００から制御パラメータセットを取得する。そして、信号処理装置２００は、制御パラメータセットを用いて音響信号データを処理することで、処理済音響信号データを学習装置３００に出力する。

図４に示すように、学習装置３００は、探索部３０１と、評価値セット算出部３０２と、第１学習部３０３と、を備える。

評価値セット算出部３０２は、処理済音響信号から評価値セットを算出する。算出された評価値セットは探索部３０１に出力される。

第１学習部３０３は、環境特徴量セット及び評価値セットと制御パラメータセットとの関係を回帰分析することにより、第１予測モデルに用いる第１予測係数を導出する。

探索部３０１は、予め定められた複数の目標評価値セットの各々について、第１学習部３０３で導出された第１予測係数が適用された第１予測モデルに、当該目標評価値セット及び環境特徴量セットを入力することにより、制御パラメータセットを予測する。そして、探索部３０１は、予測された制御パラメータセットを信号処理装置２００に出力する。その結果、信号処理装置２００は、新たな処理済音響信号を評価値セット算出部３０２に出力する。

［１−２．音響信号処理システムの動作］
次に、以上のように構成された音響信号処理システム１０の動作について説明する。

［１−２−１．パラメータ予測装置の動作］
図５は、実施の形態１に係るパラメータ予測装置１００の動作を示すフローチャートである。

まず、環境特徴取得部１０１は、環境特徴量セットを取得する（Ｓ１０１）。例えば、環境特徴取得部１０１は、走行速度及び話者の性別などの環境情報から、ノイズの大きさ及び話者の声の基本周波数などの環境特徴量セットを生成する。

目標設定部１０２は、目標評価値セットを設定する（Ｓ１０２）。例えば、目標設定部１０２は、要求性能情報から目標評価値セットを生成する。

図６は、実施の形態１における目標評価値セットの一例を示す図である。図６では、要求性能情報として用途が用いられている。例えば、要求性能情報が音声操作及び起動ワードを示す場合、エコー抑圧量、同時通話性、音声認識率が高く、誤検出率が低くなるように目標評価値セットが設定される。

第１予測部１０３は、学習装置３００の学習結果である第１予測係数が適用された第１予測モデルに、環境特徴量セット及び目標評価値セットを独立変数として入力することにより、制御パラメータセットを予測する（Ｓ１０３）。

［１−２−２．学習装置の動作］
次に、制御パラメータの予測に用いられる第１予測モデルの第１予測係数を得るための学習装置３００の動作について説明する。図７は、実施の形態１における学習装置３００の動作を示すフローチャートである。

まず、探索部３０１は、目標評価値セットを設定する（Ｓ３０１）。例えば、探索部３０１は、用途に応じて予め定められた複数の目標評価値セットの中から１つの目標評価値セットを選択する。

図８及び図９は、実施の形態１における学習で用いられる複数の目標評価値セットの一例を示す。図８は、音声操作に対応する複数の目標評価値セットを示し、図９は、通話に対応する複数の目標評価値セットを示す。ここでは、複数の目標評価値セットは、６つ音声認識率と、６つの抑圧量と、６つの歪み率との任意の組み合わせである。つまり、図８及び図９の各々は、２１６（＝６×６×６）通りの目標評価値セットを表している。音声操作では、抑圧量及び歪み率を広い範囲で設定することにより、高い音声認識率を得るための制御パラメータセットの予測に適した第１予測係数を学習する。逆に通話の際は、音声認識率を広い範囲で設定することにより、高い抑圧量及び低い歪み率を得るための制御パラメータセットの予測に適した第１予測係数を学習する。

次に、探索部３０１は、第１学習部３０３が学習した第１予測係数を第１予測モデルに適用し、データベース２０から読み出した訓練データに含まれる環境特徴量セットと、ステップＳ３０１で設定された目標評価値セットとを独立変数として第１予測モデルに入力することにより、制御パラメータセットを予測する（Ｓ３０２）。なお、第１学習部３０３から第１予測係数が得られない場合、探索部３０１は、予め定められた制御パラメータセットの初期値を出力すればよい。

信号処理装置２００は、探索部３０１が予測した制御パラメータセットを用いて、データベース２０から読み出した訓練データに含まれる音響信号を処理する（Ｓ３０３）。

評価値セット算出部３０２は、信号処理装置２００で処理された音響信号の評価値セットを算出する（Ｓ３０４）。評価値セットは、例えば、音声認識率、抑圧量及び歪み率を含む。

第１学習部３０３は、データベース２０から読み出された環境特徴量セット及び評価値セット算出部３０２が算出した評価値セットと、探索部３０１が予測した制御パラメータセットとの関係を回帰分析することにより、第１予測係数を導出する（Ｓ３０５）。つまり、第１学習部３０３は、独立変数（環境特徴量セット及び評価値セット）と従属変数（制御パラメータセット）との関係を学習することにより、第１予測モデルにおける第１予測係数を導出する。導出された第１予測係数は、探索部３０１に出力され、次の制御パラメータセットの予測（Ｓ３０２）に用いられる。

第１学習部３０３は、設定された目標評価値セットの学習終了条件が満たされたか否かを判定する（Ｓ３０６）。学習終了条件は、例えば、学習処理のループ回数を用いて定義される。この場合、ループ回数が予め定められた回数と一致すれば、第１学習部３０３は、学習終了条件が満たされたと判定すればよい。また例えば、学習終了条件は、設定された目標評価値セットと算出された評価値セットとの差分を用いて定義されてもよい。この場合、差分が予め定められた閾値よりも小さければ、第１学習部３０３は、学習終了条件が満たされたと判定すればよい。また例えば、学習終了条件は、前回導出された第１予測係数と今回導出された第１予測係数との差分を用いて定義されてもよい。この場合、差分が予め定められた閾値よりも小さければ、第１学習部３０３は、学習終了条件が満たされたと判定すればよい。

学習終了条件が満たされていない場合は（Ｓ３０６のＮｏ）、ステップＳ３０２に戻る。学習終了条件が満たされた場合は（Ｓ３０６のＹｅｓ）、探索部３０１は、全ての目標評価値セットが設定されたか否かを判定する（Ｓ３０７）。いずれかの目標評価値セットが設定されていない場合は（Ｓ３０７のＮｏ）、ステップＳ３０１に戻る。全ての目標評価値セットが設定された場合は（Ｓ３０７のＹｅｓ）、第１学習部３０３は、学習結果である第１予測係数をパラメータ予測装置１００に出力する（Ｓ３０８）。

［１−３．効果等］
以上、本実施の形態に係るパラメータ予測装置１００によれば、環境特徴量セット及び目標評価値セットを独立変数として第１予測モデルに入力することにより、制御パラメータセットを予測することができる。したがって、収音環境及び用途の両方に適した制御パラメータセットを予測することができ、制御パラメータセットの予測精度を向上させることができる。さらに、環境のグループ毎に最適な制御パラメータセットを予め準備する必要もないので、パラメータの最適化のための準備に関する負荷あるいは時間を低減することができる。

（実施の形態２）
実施の形態２では、制御パラメータセットの予測信頼度に応じて目標評価値セットを修正することにより制御パラメータセットの予測精度を向上させる点が、上記実施の形態１と異なる。以下に、本実施の形態について、実施の形態１と異なる点を中心に図１及び図１０〜図１２を参照しながら具体的に説明する。

［２−１．音響信号処理システムの構成］
実施の形態２に係る音響信号処理システムの構成について説明する。図１に示すように、音響信号処理システム１０Ａは、パラメータ予測装置１００Ａと、信号処理装置２００と、学習装置３００と、データベース２０と、マイクロフォン３０と、を備える。

［２−１−１．パラメータ予測装置の構成］
図１０は、実施の形態２に係るパラメータ予測装置１００Ａの機能構成を示すブロック図である。図１０において、図２と同一又は類似の構成要素については、同一の符号を付し、適宜説明を省略する。

パラメータ予測装置１００Ａは、環境特徴取得部１０１と、目標設定部１０２Ａと、第１予測部１０３Ａと、目標修正部１０４Ａと、を備える。

第１予測部１０３Ａは、制御パラメータセットを予測するとともに、当該制御パラメータセットの予測信頼度を算出する。予測信頼度は、回帰分析の予測値の精度を示す指標である。例えば、予測信頼度は、回帰分析の予測の際に予測値とともに得られる予測誤差でもよく、尤度でもよい。または、予測信頼度は、予測誤差又は尤度の逆数であってもよい。予測信頼度に何が採用されるかによって、予測信頼度の値の大きさと予測精度の高さとの関係は変わる。つまり、予測信頼度の値が大きいほど予測精度が高い場合もあれば、予測信頼度の値が小さいほど予測精度が高い場合もある。

目標修正部１０４Ａは、制御パラメータセットの予測信頼度に応じて目標修正指示を目標設定部１０２Ａに出力する。例えば、目標修正部１０４Ａは、予測信頼度が予め定められた閾値信頼度よりも低い場合に、目標修正指示を目標設定部１０２Ａに出力し、予測信頼度が予め定められた閾値信頼度よりも高い場合に、目標修正指示を目標設定部１０２Ａに出力しない。

目標設定部１０２Ａは、目標修正指示を目標修正部１０４Ａから受けたときに、要求性能情報と現在設定されている目標評価値セットとに基づいて、新たな目標評価値セットを設定する。つまり、目標設定部１０２Ａは、予測信頼度に応じて、目標評価値セットを修正する。

［２−２．音響信号処理システムの動作］
［２−２−１．パラメータ予測装置の動作］
次に、パラメータ予測装置１００Ａの動作について説明する。図１１は、実施の形態２に係るパラメータ予測装置１００Ａの動作を示すフローチャートである。図１１において、図５と同一又は類似のステップについては同一の符号を付し、適宜説明を省略する。

まず、環境特徴取得部１０１は、環境特徴量セットを取得する（Ｓ１０１）。目標設定部１０２Ａは、目標評価値セットを設定する（Ｓ４０１）。第１予測部１０３Ａは、学習装置３００の学習結果である第１予測係数が適用された第１予測モデルに、環境特徴量セット及び目標評価値セットを独立変数として入力することにより、制御パラメータセットを予測する。このとき、第１予測部１０３Ａは、制御パラメータセットの予測信頼度も算出する（Ｓ４０２）。目標修正部１０４Ａは、制御パラメータセットの予測信頼度が予め定められた条件を満たすか否かを判定する（Ｓ４０３）。予め定められた条件は、予測信頼度が十分に高いことを示す条件である。例えば、目標修正部１０４Ａは、予測信頼度が閾値信頼度よりも高いか否かを判定する。

ここで、予測信頼度が条件を満たす場合（Ｓ４０３のＹｅｓ）、制御パラメータセットが信号処理装置２００に出力、処理が終了する。一方、予測信頼度が条件を満たさない場合は（Ｓ４０３のＮｏ）、目標修正部１０４Ａから目標設定部１０２Ａに目標修正指示が送信され、目標設定部１０２Ａは、新たな目標評価値セットを設定する（Ｓ４０１）。なお、ステップＳ４０２では、予測信頼度だけではなく、目標評価値セットの設定回数（Ｓ４０１〜Ｓ４０３の繰り返し回数）あるいは処理時間に基づいて判定が行われてもよい。なお、繰り返し回数に応じて、予測信頼度に対する条件が緩和されてもよい。

図１２は、実施の形態２において目標評価値セットの設定が繰り返されたときの目標評価値セット及び予測信頼度の一例を示す図である。ここでは、説明が不必要に冗長となることを避け、当業者の理解を容易にするために、音声認識率、抑圧量、歪み率、及び予測信頼度は正規化された値（０〜１）が記載されている。用途に応じて目標評価値セットが修正されており、図１２では、音声操作という用途に応じて、音声認識率の値は小幅に修正され、抑圧量と歪み率の値は大幅に修正されている。

回帰分析（学習）の際に、音声認識率、抑圧量、歪み率、及び予測信頼度の上限及び下限並びに統計情報を取得できるので、目標設定部１０２Ａは、それらの情報に基づいて、目標評価値セットの初期値、あるいは各目標評価値の修正の刻み幅を決定してもよい。

回帰分析の処理負荷は大きいが、回帰分析の結果（ここでは第１予測係数）を用いた予測の処理負荷は小さいので、本実施の形態のように繰り返し予測することは実現可能である。

［２−３．効果等］
以上、本実施の形態に係るパラメータ予測装置１００Ａによれば、制御パラメータセットの予測信頼度に応じて目標評価値セットを修正することができる。したがって、目標評価値セットに適した制御パラメータセットの予測が難しい場合に、目標評価値セットを修正することができ、修正後の目標評価値セットに適した制御パラメータセットを予測することが可能となる。つまり、目標評価値セットから大きく乖離した評価値セットを有する処理済音響信号が出力される可能性を低減することができ、制御パラメータセットの予測精度を向上させることができる。

（実施の形態３）
実施の形態３では、複数の制御パラメータセット候補に対する複数の評価値セットを第２予測モデルを用いて予測する。そして、予測された複数の評価値セットに基づいて、複数の制御パラメータセット候補の中から制御パラメータセットを選択する。これにより、本実施の形態に係るパラメータ予測装置は、要求性能（目標評価値セット）を満たすことができる制御パラメータセットを選別することができる。

以下に、本実施の形態について、実施の形態１と異なる点を中心に図１及び図１３〜図１６を参照しながら具体的に説明する。

［３−１．音響信号処理システムの構成］
実施の形態３に係る音響信号処理システムの構成について説明する。図１に示すように、音響信号処理システム１０Ｂは、パラメータ予測装置１００Ｂと、信号処理装置２００と、学習装置３００Ｂと、データベース２０と、マイクロフォン３０と、を備える。

パラメータ予測装置１００Ｂは、環境特徴量セット及び目標評価値セットを第１予測モデルに独立変数として入力することにより制御パラメータセットを予測する。さらに、パラメータ予測装置１００Ｂは、予測された制御パラメータセットから複数の制御パラメータセット候補を生成する。生成された複数の制御パラメータセット候補の各々は、環境特徴量セットとともに第２予測モデルに入力され、各候補に対応する評価値セットが予測される。

学習装置３００Ｂは、データベース２０に記憶されている訓練データを用いて、環境特徴量セット及び目標評価値セットと、制御パラメータセットとの関係を回帰分析することにより、第１予測モデルの第１予測係数を導出する。

［３−１−１．パラメータ予測装置の構成］
図１３は、実施の形態３に係るパラメータ予測装置１００Ｂの機能構成を示すブロック図である。図１３において、図２と同一又は類似の構成要素については、同一の符号を付し、適宜説明を省略する。

パラメータ予測装置１００Ａは、環境特徴取得部１０１と、目標設定部１０２と、第１予測部１０３と、候補生成部１０５Ｂと、第２予測部１０６Ｂと、選択部１０７Ｂと、を備える。

候補生成部１０５Ｂは、第１予測部１０３によって予測された制御パラメータセットに基づいて、複数の制御パラメータセット候補を生成する。具体的には、候補生成部１０５Ｂは、例えば、制御パラメータセットの予測値と予測信頼度とに基づいて、各制御パラメータの予測下限値、予測平均値及び予測上限値を計算する。そして、候補生成部１０５Ｂは、予測下限値、予測平均値及び予測上限値を満たす制御パラメータを組み合わせることにより、複数の制御パラメータセット候補を生成する。なお、候補生成部１０５Ｂは、予測信頼度を使用せずに、制御パラメータセットの予測値に一定の比率（例えば、±５％）の値を付与して予測下限値、予測平均値及び予測上限値を計算してもよい。

第２予測部１０６Ｂは、第２予測係数が適用された第２予測モデルに環境特徴量セット及び複数の制御パラメータセット候補の各々を独立変数として入力することで、複数の予測評価値セットを予測する。

第２予測モデルは、第２予測係数を用いて、独立変数（説明変数）である環境特徴量セット及び制御パラメータセットと、従属変数（目的変数）である評価値セットとの間の関係を表すモデルである。例えば、第２予測モデルは、環境特徴量セット及び制御パラメータセットを独立変数として有し、評価値セットを従属変数として有する第２の回帰モデルである。第１予測モデル及び第２予測モデルでは、環境特徴量セットが独立変数であることが同じであるが、制御パラメータセット及び評価値セットが独立変数及び従属変数のどちらであるかが異なる。

選択部１０７Ｂは、複数の評価値セットに基づいて、複数の制御パラメータセット候補の中から１つの制御パラメータセットを選択する。具体的には、選択部１０７Ｂは、例えば、複数の制御パラメータセット候補の中から、目標評価値セットに最も類似する評価値セットに対応する制御パラメータセットを選択する。また例えば、選択部１０７Ｂは、複数の制御パラメータセット候補の中から、目標評価値セットより高い評価値セットに対応する制御パラメータセットを選択する。

［３−１−２．学習装置の構成］
図１４は、実施の形態３に係る学習装置３００Ｂの機能構成を示すブロック図である。図１４において、図４と同一又は類似の構成要素については、同一の符号を付し、適宜説明を省略する。

学習装置３００Ｂは、探索部３０１と、評価値セット算出部３０２と、第１学習部３０３と、第２学習部３０４Ｂと、を備える。

第２学習部３０４Ｂは、環境特徴量セット及び制御パラメータセットと評価値セットとの関係を回帰分析することにより、第２予測モデルに用いる第２予測係数を導出する。導出された第２予測係数は、パラメータ予測装置１００Ｂに出力される。

［３−２．音響信号処理システムの動作］
［３−２−１．パラメータ予測装置の動作］
次に、パラメータ予測装置１００Ｂの動作について図１５を参照しながら具体的に説明する。図１５は、実施の形態３に係るパラメータ予測装置１００Ｂの動作を示すフローチャートである。図１５において、図５と同一又は類似のステップについては同一の符号を付し、適宜説明を省略する。

ステップＳ１０１〜ステップＳ１０３が実行された後、候補生成部１０５Ｂは、第１予測部１０３によって予測された制御パラメータセットに基づいて、複数の制御パラメータセット候補を生成する（Ｓ５０１）。そして、第２予測部１０６Ｂは、複数の制御パラメータセット候補の各々について、学習装置３００Ｂの学習結果である第２予測係数が適用された第２予測モデルに、当該候補及び環境特徴量セットを独立変数として入力することにより評価値セットを予測する（Ｓ５０２）。

選択部１０７Ｂは、予測された複数の評価値セットに基づいて、複数の制御パラメータセット候補から制御パラメータセットを選択する（Ｓ５０３）。選択された制御パラメータセットは、信号処理装置２００に出力される。

［３−２−２．学習装置の動作］
次に、学習装置３００Ｂの動作について図１６を参照しながら具体的に説明する。図１６は、実施の形態３に係る学習装置３００Ｂの動作を示すフローチャートである。図１６において、図７と同一又は類似のステップについては同一の符号を付し、適宜説明を省略する。

ステップＳ３０１〜ステップＳ３０５が実行された後、第２学習部３０４Ｂは、データベース２０から読み出された環境特徴量セット及び探索部３０１が予測した制御パラメータセットと、評価値セット算出部３０２が算出した評価値セットとの関係を回帰分析することにより、第２予測係数を導出する（Ｓ６０１）。つまり、第２学習部３０４Ｂは、独立変数（環境特徴量セット及び制御パラメータセット）と従属変数（評価値セット）との関係を学習することにより、第２予測モデルにおける第２予測係数を導出する。

その後、ステップＳ３０６〜ステップＳ３０８が実行された後、第２学習部３０４Ｂは、学習結果である第２予測係数をパラメータ予測装置１００Ｂに出力する（Ｓ６０２）。

［３−３．効果等］
以上のように、本実施の形態に係るパラメータ予測装置１００Ｂによれば、複数の制御パラメータセット候補に対する複数の評価値セットを第２予測モデルを用いて予測することができる。そして、予測された複数の評価値セットに基づいて、複数の制御パラメータセット候補の中から制御パラメータセットを選択することができる。したがって、要求性能（目標評価値セット）を満たすことができる制御パラメータセットを信号処理装置２００に与えることができる。

（実施の形態４）
実施の形態４では、環境特徴量セットを用いて目標評価値セットを補正する。高騒音下では低騒音下に比べて認識率が低くなる。また、低騒音下では低い認識率を示す制御パラメータセットを設定することが難しい。本実施の形態により、高騒音下での高認識率の要求や、低騒音下での低認識率の要求など、実際にそぐわない要求性能情報を補正することができ、制御パラメータセットの予測精度を向上することができる。

以下に、本実施の形態について、実施の形態１と異なる点を中心に図１及び図１７〜図１９を参照しながら具体的に説明する。

［４−１．音響信号処理システムの構成］
実施の形態４に係る音響信号処理システムの構成について説明する。図１に示すように、音響信号処理システム１０Ｃは、パラメータ予測装置１００Ｃと、信号処理装置２００と、学習装置３００Ｃと、データベース２０と、マイクロフォン３０と、を備える。

［４−１−１．パラメータ予測装置の構成］
図１７は、実施の形態４に係るパラメータ予測装置１００Ｃの機能構成を示すブロック図である。図１７において、図２と同一又は類似の構成要素については、同一の符号を付し、適宜説明を省略する。

パラメータ予測装置１００Ｃは、環境特徴取得部１０１と、目標設定部１０２と、第１予測部１０３と、目標補正部１０８Ｃと、を備える。

目標補正部１０８Ｃは、目標設定部１０２によって設定された目標評価値セットを補正する。例えば、目標補正部１０８Ｃは、環境特徴量セットを独立変数として第３予測モデルに入力して評価値セットの予測を行う。そして、目標補正部１０８Ｃは、当該予測における予測分散に基づいて目標評価値セットを補正する。

第３予測モデルは、第３予測係数を用いて、独立変数（説明変数）である環境特徴量セットと、従属変数（目的変数）である評価値セットとの間の関係を表すモデルである。例えば、第３予測モデルは、環境特徴量セットを独立変数として有し、評価値セットを従属変数として有する第３の回帰モデルである。第３予測係数は、学習装置３００Ｃによって予め導出されればよい。

例えば、目標補正部１０８Ｃは、評価値セットの予測の際に得られる予測分散を用いて、目標評価値セットに含まれる各目標評価値の許容最大値と許容最小値とを決定する。そして、目標補正部１０８Ｃは、目標設定部１０２から得られた目標評価値セットに含まれる各目標評価値が、許容最大値及び許容最小値によって定められる範囲から逸脱している場合に、各目標評価値が当該範囲内に収まるように補正する。例えば、目標評価値セットに含まれる目標評価値が許容最大値より大きい場合に、目標補正部１０８Ｃは、当該目標評価値を許容最大値に補正する。また例えば、目標評価値セットに含まれる目標評価値が許容最小値より小さい場合に、目標補正部１０８Ｃは、当該目標評価値を許容最小値に補正する。

図１８は、音声認識率、抑圧量及び歪み率の目標評価値の補正の一例を示す図である。図１８に示すように、音声認識率の目標評価値は、許容最大値よりも大きいので許容最大値に補正されている。また、歪み率の目標評価値は、許容最小値よりも小さいので許容最小値に補正されている。

なお、目標補正部１０８Ｃは、必ずしも第３予測モデルを用いて評価値セットの予測を行わなくてもよい。例えば、目標補正部１０８Ｃは、学習装置３００Ｃから第３予測係数の代わりに、各目標評価値の許容最大値及び許容最小値を取得してもよい。

［４−１−２．学習装置の構成］
図１９は、実施の形態４に係る学習装置３００Ｃの機能構成を示すブロック図である。図１９において、図４と同一又は類似の構成要素については、同一の符号を付し、適宜説明を省略する。

学習装置３００Ｃは、探索部３０１と、評価値セット算出部３０２と、第１学習部３０３と、第３学習部３０５Ｃと、を備える。

第３学習部３０５Ｃは、データベース２０から環境特徴量セットを取得し、評価値セット算出部３０２から評価値セットを取得する。第３学習部３０５Ｃは、環境特徴量セットを独立変数、評価値セットを従属変数として回帰分析することにより、第３予測モデルに用いる第３予測係数を導出する。導出された第３予測係数は、パラメータ予測装置１００Ｃに出力される。

［４−２．音響信号処理システムの動作］
［４−２−１．パラメータ予測装置の動作］
次に、パラメータ予測装置１００Ｃの動作について図２０を参照しながら具体的に説明する。図２０は、実施の形態４に係るパラメータ予測装置１００Ｃの動作を示すフローチャートである。図２０において、図５と同一又は類似のステップについては同一の符号を付し、適宜説明を省略する。

ステップＳ１０１〜ステップＳ１０２が実行された後、目標補正部１０８Ｃは、目標設定部１０２によって設定された目標評価値セットを補正する（Ｓ７０１）。そして、第１予測部１０３は、補正された目標評価値セットを用いて、制御パラメータセットを予測する（Ｓ１０３）。

［４−３．効果等］
以上、本実施の形態にかかるパラメータ予測装置１００Ｃによれば、環境特徴量セットを独立変数として第３予測モデルに入力して評価値セットを予測し、目標評価値セットを補正することができる。したがって、収音環境に適した目標評価値セットに補正することができ、制御パラメータセットの予測精度を向上することができる。

（他の実施の形態）
以上、本開示の１つまたは複数の態様に係る音響信号処理システムについて、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の１つまたは複数の態様の範囲内に含まれてもよい。

例えば、上記実施の形態２と上記実施の形態３とは組み合わせて実現されてもよい。

なお、上記各実施の形態における音響信号処理システムは、１つの装置として実現されてもよいし、パラメータ予測装置、学習装置及び信号処理装置を任意に組み合わせた２つの装置として実現されてもよい。例えば、信号処理装置はスマートフォンなどの情報端末で実現され、パラメータ予測装置及び学習装置は、クラウドサーバで実現されてもよい。また、パラメータ予測装置、学習装置及び信号処理装置は、互いに通信ネットワークを介して接続されてもよい。

なお、上記各実施の形態では、第１予測モデル及び第２予測モデルの例として、線形回帰モデル、ニューラルネットワーク及びガウス過程回帰モデルを説明したが、これに限られない。例えば、第１予測モデル及び第２予測モデルの一方又は両方は、サポートベクターマシンであってもよい。

また、上記各実施の形態におけるパラメータ予測装置が備える構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。例えば、パラメータ予測装置１００は、環境特徴取得部１０１と、目標設定部１０２と、第１予測部１０３と、を有するシステムＬＳＩから構成されてもよい。

システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含んで構成されるコンピュータシステムである。前記ＲＯＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

なお、ここでは、システムＬＳＩとしたが、集積度の違いにより、ＩＣ、ＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、あるいはＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。また、本開示の一態様は、このようなパラメータ予測装置だけではなく、パラメータ予測装置に含まれる特徴的な構成要素をステップとするパラメータ予測方法であってもよい。また、本開示の一態様は、パラメータ予測方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。

なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態のパラメータ予測装置などを実現するソフトウェアは、次のようなプログラムである。

すなわち、このプログラムは、コンピュータに、音響信号処理を制御するための制御パラメータセットを予測するパラメータ予測方法であって、音響信号の収音環境の１以上の特徴を数値化した環境特徴量セットを取得するステップと、前記音響信号処理の１以上の性能を数値化したものあるいは処理済音響信号の１以上の評価値である目標評価値セットを設定するステップと、前記環境特徴量セット及び前記目標評価値セットを独立変数として第１予測モデルに入力して前記制御パラメータセットを予測するステップと、を含む、パラメータ予測方法を実行させる。

本開示は、家庭電化製品、自動車、スマートフォン、及びウェアラブル端末に搭載されたマイクから出力される音響信号の信号処理に対して、環境及び用途に最適な制御パラメータセットを提供することができる制御パラメータ予測装置として利用することができる。

１０、１０Ａ、１０Ｂ、１０Ｃ音響信号処理システム
２０データベース
３０マイクロフォン
４０スピーカ
１００、１００Ａ、１００Ｂ、１００Ｃパラメータ予測装置
１０１環境特徴取得部
１０２、１０２Ａ目標設定部
１０３、１０３Ａ第１予測部
１０４Ａ目標修正部
１０５Ｂ候補生成部
１０６Ｂ第２予測部
１０７Ｂ選択部
１０８Ｃ目標補正部
２００信号処理装置
２０１エコーキャンセラ
２０２エコーサプレッサ
２０３ビームフォーマ
３００、３００Ｂ、３００Ｃ学習装置
３０１探索部
３０２評価値セット算出部
３０３第１学習部
３０４Ｂ第２学習部
３０５Ｃ第３学習部

Claims

音響信号処理を制御するための制御パラメータセットを予測するパラメータ予測装置であって、
音響信号の収音環境の１以上の特徴を数値化した環境特徴量セットを取得する環境特徴取得部と、
前記音響信号処理の１以上の性能を数値化したものあるいは処理済音響信号の１以上の評価値である目標評価値セットを設定する目標設定部と、
前記環境特徴量セット及び前記目標評価値セットを独立変数として第１予測モデルに入力して前記制御パラメータセットを予測する第１予測部と、を備える、
パラメータ予測装置。
前記第１予測部は、さらに、前記制御パラメータセットの予測信頼度を算出し、
前記目標設定部は、前記予測信頼度に応じて前記目標評価値セットを修正し、
前記第１予測部は、前記目標評価値セットが修正された場合に、修正された前記目標評価値セットを用いて前記制御パラメータセットを予測する、
請求項１に記載のパラメータ予測装置。
前記第１予測部によって予測された前記制御パラメータセットに基づいて、複数の制御パラメータセット候補を生成する候補生成部と、
前記複数の制御パラメータセットの各々について、前記環境特徴量セット及び当該候補を独立変数として第２予測モデルに入力して評価値セットを予測する評価値セット予測部と、
前記評価値セット予測部によって予測された複数の評価値セットに基づいて、前記複数の制御パラメータセット候補の中から制御パラメータセットを選択する選択部と、を備える、
請求項１又は２に記載のパラメータ予測装置。
前記第１予測モデルは、環境特徴量セット及び目標評価値セットを独立変数として有し、制御パラメータセットを従属変数として有する第１の回帰モデルである、
請求項１〜３のいずれか１項に記載のパラメータ予測装置。
前記第２予測モデルは、環境特徴量セット及び制御パラメータセットを独立変数として有し、評価値セットを従属変数として有する第２の回帰モデルである、
請求項３に記載のパラメータ予測装置。
前記パラメータ予測装置は、さらに、
前記環境特徴量セットに基づいて、前記目標設定部によって設定された前記目標評価値セットを補正する目標補正部を備え、
前記第１予測部は、前記目標補正部によって補正された前記目標評価値セットを用いて前記制御パラメータセットを予測する、
請求項１に記載のパラメータ予測装置。
前記目標補正部は、前記環境特徴量セットを独立変数として第３予測モデルに入力して評価値セットの予測を行い、当該予測における予測分散に基づいて前記目標評価値セットを補正する、
請求項６に記載のパラメータ予測装置。
音響信号処理を制御するための制御パラメータセットを予測するパラメータ予測方法であって、
音響信号の収音環境の１以上の特徴を数値化した環境特徴量セットを取得するステップと、
前記音響信号処理の１以上の性能を数値化したものあるいは処理済音響信号の１以上の評価値である目標評価値セットを設定するステップと、
前記環境特徴量セット及び前記目標評価値セットを独立変数として第１予測モデルに入力して前記制御パラメータセットを予測するステップと、を含む、
パラメータ予測方法。
請求項８に記載のパラメータ予測方法をコンピュータに実行させるためのプログラム。