JP2019095551A

JP2019095551A - 生成装置、生成方法、および生成プログラム

Info

Publication number: JP2019095551A
Application number: JP2017223704A
Authority: JP
Inventors: 祐介木田; Yusuke Kida; トランデュング; Tran Dung
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2017-11-21
Filing date: 2017-11-21
Publication date: 2019-06-20
Anticipated expiration: 2037-11-21
Also published as: JP6991041B2; US20190156846A1

Abstract

【課題】目的信号の認識精度を向上させること。【解決手段】本願に係る生成装置は、観測信号のうち、所定の信号が含まれる所定範囲を推定する推定部と、前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成部とを有することを特徴とする。【選択図】図１

Description

本発明は生成装置、生成方法、および生成プログラムに関する。

従来、観測信号に含まれる複数の信号から認識目的となる信号（以下、「目的信号」と記載する場合がある。）の認識精度を向上させる技術が知られている。このような技術の一例として、複数の測定装置が同時期に測定した測定信号の比較結果に基づいて、目的信号の伝達元となる方向を推定し、推定した方向から伝達する信号を強調するビームフォーミング処理が提案されている。

特開２０１７−９０８５３号公報

しかしながら、従来技術では、目的信号の認識精度を向上させることができない恐れがある。

例えば、上述した従来技術では、観測信号のうち目的信号が含まれる時間帯を推定し、推定した時間帯の観測信号を用いて、目的信号を強調するための空間相関行列を算出する。しかしながら、このような技術では、推定した時間帯に目的信号以外の信号（例えば、雑音となる信号や残響信号等）が含まれている場合、目的信号以外の信号を強調する空間相関行列を算出する恐れがある。

本願は、上記に鑑みてなされたものであって、目的信号の認識精度を向上させることを目的とする。

本願に係る生成装置は、観測信号のうち、所定の信号が含まれる所定範囲を推定する推定部と、前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成部とを有することを特徴とする。

実施形態の一態様によれば、目的信号の認識精度を向上させることができる。

図１は、実施形態に係る情報提供装置が実行する学習処理および生成処理の一例を示す図である。図２は、実施形態に係る情報提供装置および音声デバイスの構成例を示す図である。図３は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図４は、実施形態に係る観測信号データベースに登録される情報の一例を示す図である。図５は、実施形態に係る情報提供装置が信号を強調する処理結果の一例を示す図である。図６は、実施形態に係る情報提供装置が実行する処理の流れの一例を示すフローチャートである。図７は、ハードウェア構成の一例を示す図である。

以下に、本願に係る生成装置、生成方法、および生成プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法、および生成プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．情報提供装置の概要について〕
まず、図１を用いて、生成装置の一例である情報提供装置が実行する学習処理および生成処理の一例について説明する。図１は、実施形態に係る情報提供装置が実行する学習処理および生成処理の一例を示す図である。図１では、情報提供装置１０は、以下に説明する学習処理および生成処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。

例えば、情報提供装置１０は、インターネット等の所定のネットワークＮ（例えば、図２参照）を介して、所定の情報処理装置１００および音声デバイス２００と通信可能である。例えば、情報処理装置１００は、情報処理装置１００や音声デバイス２００との間で、音声に関するデータ等、各種データの送受信を行う。

情報処理装置１００は、各種データを保持する情報処理装置であり、サーバ装置やクラウドシステム等により実現される。例えば、情報処理装置１００は、後述する学習処理において用いる学習データを保持し、学習データを情報提供装置１０に提供する。

音声デバイス２００は、周囲の音を取得するマイク等の取得装置と、任意の音を出力可能なスピーカー等の出力装置とを有する入出力装置とを有する入出力装置であり、例えば、スマートスピーカーと呼ばれるデバイスである。例えば、音声デバイス２００は、出力装置を用いて、音楽の出力や音声による情報提供を実現可能な装置である。また、音声デバイス２００は、音の入力を受付ける受付機能を有し、利用者Ｕが発した音声を取得すると、取得した音声の内容に応じた音を出力する出力機能を有する。

例えば、音声デバイス２００は、利用者Ｕが所定の楽曲の曲名を示す音声を発した場合には、各種の音声解析技術により、音声が示す曲名を特定し、特定した曲名が示す楽曲のデータを、ネットワークＮ（例えば、図２を参照）を介して、所定の外部サーバ（図示は省略）から取得する。そして、音声デバイスは、取得した楽曲を再生する。

なお、音声デバイス２００は、例えば、利用者Ｕが発した音声の内容を各種の音声解析技術により特定し、特定した内容に応じた応答を出力する機能を有する。例えば、音声デバイス２００は、「今日の天気は？」といった利用者Ｕの音声を取得した場合は、外部サーバから天気や気温などといった各種の気象情報を取得し、取得した気象情報を読み上げることで、利用者Ｕに天気の情報を提供する。また、音声デバイス２００は、上述した処理以外にも、例えば、電子商店街に出品された商品の注文、空調装置や照明装置等といった各種家電機器の制御、メールやスケジュールの読み上げ等といった各種の処理を実現可能なスマートスピーカーである。

ここで、音声デバイス２００は、それぞれ異なる位置に取付けられた複数の取得装置（例えば、マイク等）を有し、各取得装置を介して受付けた音声を用いて、上述した各種の処理を実行するものとする。なお、音声デバイス２００は、それぞれ異なる位置に取付けられた複数の取得装置を有する装置であれば、例えば、スマートデバイスや録音装置等、任意の装置であってもよい。また、音声デバイス２００は、物理的に離間した位置に設置された複数の取得装置と無線ＬＡＮ（Local Area Network）やブルートゥース（登録商標）等の無線通信を介して接続され、各取得装置が取得した音声を収集する装置であってもよい。

なお、以下の説明では、音声デバイス２００は、入力装置として複数のマイクを有するものとする。また、以下の説明では、各マイクが取得した音声信号を観測信号と記載する場合がある。

〔１−１．情報提供装置１０が実行する処理について〕
ここで、利用者Ｕが発した声を精度よく解析するため、ビームフォーミングと呼ばれる技術が知られている。このような技術では、利用者Ｕの声が発せられた方向とマイクの間の空間的な情報を推定する。そして、利用者Ｕの声が発せられた方向から到来する音声を強調するよう、推定した空間的な情報を用いて各マイクが観測した観測信号に対する重み付けを行い、各観測信号の合成が行われる。

ここで、「音楽をかけて」や「今日の天気は？」等といった認識対象となる利用者Ｕの声の音声信号、すなわち、目的信号の認識精度を向上させるため、このようなビームフォーミングの技術を用いる手法が考えられる。しかしながら、観測信号に目的信号のみならず、雑音や残響音の信号（以下、「雑音信号」と総称する）が含まれる場合、雑音信号を強調してしまう恐れがある。例えば、テレビやラジオから音声が出力されている場合、利用者Ｕが「今日の天気は？」といった発話を行ったとしても、テレビやラジオから出力されている音声の音声信号を目的信号として誤認し、テレビやラジオから出力されている音声の音声信号を強調し、利用者Ｕの発話の音声信号を雑音信号として低減させる恐れがある。

一方で、音声デバイス２００に対して何かしらの指示を音声により行う場合、所定のキーワードを発話した後で、指示の内容を続けて発話する態様が考えられる。そこで、情報提供装置１０は、以下の生成処理を実行する。

まず、情報提供装置１０は、観測信号のうち、所定の信号が含まれる所定範囲を推定する。そして、情報提供装置１０は、所定範囲に含まれる信号のうち所定の信号を強調した所定範囲（以下、「強調範囲」と記載する。）に基づいて、観測信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。例えば、情報提供装置１０は、音声信号のうち所定の信号が含まれる範囲を所定範囲として推定する。そして、情報提供装置１０は、所定範囲に含まれる信号のうち、所定の信号であると推定される信号を強調した強調範囲を生成し、生成した強調範囲に含まれる各信号（以下、「強調信号」と記載する。）に基づいて、音声信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。

例えば、情報提供装置１０は、音声デバイス２００の各マイクが観測した観測信号をそれぞれ取得する。このような場合、情報提供装置１０は、観測信号ごとに、所定の信号として、波形若しくは周波数特性が所定の特徴を有する信号が含まれる範囲を所定範囲として推定する。より具体的には、情報提供装置１０は、観測信号として観測された音声信号のうち、利用者Ｕが所定のキーワードを発話した際の音声信号が含まれる範囲を所定範囲として推定する。なお、情報提供装置１０は、１つのマイクが観測した観測信号から所定範囲を推定し、推定した所定範囲を各マイクで共有してもよい。例えば、情報提供装置１０は、第１のマイクが観測した観測信号のうちある範囲を所定範囲として推定した場合、第１のマイクが所定範囲を観測した際に、第２のマイクが観測していた観測信号の範囲を第２のマイクが観測した観測信号の所定範囲としてもよい。

そして、情報提供装置１０は、観測信号のうち、所定範囲よりも後の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。すなわち、情報提供装置１０は、観測信号のうち、利用者Ｕがキーワードを発話した際の音声信号（以下、「キーワード信号」と記載する）よりも後に観測された音声信号、すなわち、キーワードに続いて発話された指示の内容の音声信号を強調するためのフィルタを生成する。

ここで、推定された所定範囲には、キーワード信号のみならず、雑音信号や残響音の信号等が含まれる恐れがある。そこで、情報提供装置１０は、所定範囲に含まれる各信号のうち、キーワード信号であると推定される信号（例えば、周波数特性等といった特徴が、キーワード信号と類似する信号）を強調した強調範囲を生成する。より具体的には、情報提供装置１０は、キーワード信号等といった所定の信号が有する特徴を学習したモデルを用いて、所定範囲に含まれる各信号のうちキーワード信号と類似する特徴を有する信号を推定し、推定した信号を強調するマスクを生成する。そして、情報提供装置１０は、マスクを用いて、所定範囲に含まれる各信号のうち所定信号を強調した強調範囲を生成し、強調範囲に含まれる信号、すなわち、強調信号を用いて、観測信号からキーワード信号と類似する信号を強調するフィルタを生成する。

換言すると、情報提供装置１０は、観測信号のうち、キーワード信号が含まれる所定範囲をそのまま用いるのではなく、所定範囲に含まれる信号のうち所定の信号を強調した強調信号を用いて、キーワード信号に続く目的信号を強調するためのフィルタを生成する。その後、情報提供装置１０は、生成したフィルタを用いて、観測信号から目的信号を強調し、目的信号の解析を行う。例えば、情報提供装置１０は、音声解析技術により目的信号から利用者Ｕの指示発話の内容を特定し、特定した内容に応じた処理を実行する。このように、情報提供装置１０は、所定の信号を強調した強調信号に基づいて、所定の信号と共通する特徴を有する信号を強調するフィルタを生成するので、フィルタの精度を向上させることができる。

〔１−２．情報提供装置１０が生成するフィルタについて〕
ここで、情報提供装置１０は、観測信号から目的信号を強調するためのフィルタであれば、任意のフィルタを生成してよい。例えば、キーワードと指示発話とは、同じ利用者Ｕによって発話されることとなるため、音声の到来方向や周波数特性が類似すると考えられる。そこで、情報提供装置１０は、観測信号に含まれる各種の信号のうち、キーワード信号と空間的な特徴や周波数特性が類似する信号を目的信号として強調するためのフィルタを生成する。

例えば、情報提供装置１０は、空間的な特徴として、キーワード信号の到来方向を推定し、推定した方向から到来する信号を目的信号として強調するためのフィルタを生成する。より具体的には、情報提供装置１０は、それぞれ設置位置が異なる複数のマイクが同時期に取得した複数の観測信号を合成する際の重みづけ係数を、各マイクごとに生成する。すなわち、情報提供装置１０は、複数の観測信号のうち所定範囲以外の範囲から所定の信号と空間的な特徴（例えば、信号の到来方向等）が類似する信号を強調するためのフィルタを生成する。

例えば、情報提供装置１０は、周知のマイクアレーの技術を用いて、目的信号を強調するためのフィルタを生成する。例えば、情報提供装置１０は、各マイクが観測した観測信号の時間的なずれを補正し、補正した観測信号の足し合わせを行うことで、目的信号の強調を行う。あるいは、情報提供装置１０は、観測信号を周波数変換し、周波数領域でフィルタリングを実行することで、目的信号の強調を行う。例えば、情報提供装置１０は、フーリエ変換した周波数ｆの信号をＸ（ｆ）、フィルタ（重み）をＷ（ｆ）とすると、Ｙ（ｆ）＝Ｗ（ｆ）Ｘ（ｆ）という乗算を行い、周波数ｆごとに得られたＹ（ｆ）を逆フーリエ変換することで、再度時間信号に戻すことで、目的信号が協調された観測信号を得ることができる。

また、情報提供装置１０は、空間的な特徴のみならず、例えば、所定の信号と周波数特性が類似する信号を強調するためのフィルタを生成してもよい。例えば、情報提供装置１０は、観測信号から所定範囲を推定し、推定した所定範囲に含まれる信号から所定の特徴（例えば、波形が所定の特徴を有する信号等）を有する信号をキーワード信号として抽出する。そして、情報提供装置１０は、抽出したキーワード信号が有する周波数特性を特定し、観測信号のうち所定範囲以外の範囲に含まれる信号のうち、特定した周波数特定を有する信号を強調するためのフィルタを生成してもよい。

〔１−３．所定範囲の推定および所定の信号の抽出について〕
ここで、情報提供装置１０は、任意の手法を用いて、所定範囲の推定を行ってもよい。例えば、情報提供装置１０は、公知の音声推定技術を用いて、観測信号のうちキーワード信号が含まれる範囲を推定してもよい。より具体的な例を挙げると、情報提供装置１０は、キーワード信号の波形や周波数特性の特徴をあらかじめ学習し、観測信号に学習した特性を有する信号が含まれる可能性が高い範囲をキーワード信号が含まれる範囲、すなわち、所定範囲として推定してもよい。

ここで、所定範囲からキーワード信号を適切に抽出できない場合、目的信号を強調するフィルタの精度が劣化する恐れがある。そこで、情報提供装置１０は、キーワード信号等といった所定の信号が有する特徴を学習したモデルを用いて、所定範囲に含まれる信号のうち所定の信号と類似する特徴を有する類似信号を強調し、類似信号を強調した所定範囲に基づいて、フィルタを生成してもよい。すなわち、情報提供装置１０は、所定範囲に含まれる信号のうち類似信号を強調することで、雑音や残響音であると推定される信号を抑制した強調信号を生成する。そして、情報提供装置１０は、強調信号を用いて、フィルタを生成してもよい。このような処理の結果、情報提供装置１０は、キーワード信号であると推定される信号の寄与がより大きい信号を用いて、フィルタの生成を行うので、利用者の指示発話をより精度良く強調するフィルタの生成を実現できる。

例えば、情報提供装置１０は、観測信号のうち所定の信号が含まれる範囲の波形又は周波数特性を深層学習したモデルの学習を行う学習処理をあらかじめ実行する。そして、情報提供装置１０は、学習を行ったモデルを用いて、所定範囲に含まれるキーワード信号を強調し、強調したキーワード信号を含む強調信号を用いて、目的信号を強調するフィルタの生成を行う。

以下、情報提供装置１０が実行する学習処理の一例について説明する。例えば、情報提供装置１０は、複数のノードを多段に接続したニューラルネットワークをモデルとして準備する。このようなモデルは、例えば、ＤＮＮ（Deep Neural Network）、ＬＳＴＭ（Long Short-Term Memory）畳み込みニューラルネットワークや、再帰型ニューラルネットワークであってもよい。また、モデルは、これら畳み込みニューラルネットワークや、再帰型ニューラルネットワークの機能を組み合わせたものであってもよい。また、情報提供装置１０は、サポートベクトル回帰（Support Vector Regression）等の任意の回帰モデルを用いてもよい。

続いて、情報提供装置１０は、学習処理に用いる信号（以下、「学習信号」と総称する場合がある。）を取得する。例えば、情報提供装置１０は、雑音の少ない環境で発話された様々なキーワードの音声信号と、雑音や反響音等といった様々な雑音信号を取得する。そして、情報提供装置１０は、取得した音声信号と雑音信号との混合信号を学習信号として取得し、取得した学習信号、すなわち混合信号をモデルへの入力信号とし、混合信号に含まれるキーワード音声信号の割合を示すマスクを教師信号として、学習信号に含まれるキーワード信号を強調するためのマスク（以下、「キーワード強調マスク」と記載する。）を出力するように、モデルの学習を行う。

例えば、情報提供装置１０は、学習信号を入力信号として入力した際に、入力信号を所定の範囲の周波数帯と所定の長さの時間帯との組に分割した各組ごとに、キーワード信号を構成する信号が含まれる確度を算出するように、モデルの学習を行う。より具体的には、情報提供装置１０は、学習信号を周波数帯と時間帯との組に分割し、各組にキーワード信号が含まれているか否かを判定する。そして、情報提供装置１０は、学習信号をモデルに入力した際に、キーワード信号が含まれている組の確度が高くなり、キーワード信号が含まれていない組の確度が低くなるように、モデルの学習を行う。例えば、情報提供装置１０は、モデルが有するノード間の接続係数、すなわち、あるノードが次段のノードに値を伝達する際の重みづけ係数を修正することで、キーワード信号が有する特徴を学習させる。

また、情報提供装置１０は、観測信号のうち推定した所定範囲を入力信号として学習済モデルに入力する。このような場合、学習済モデルは、入力信号の周波数帯と時間帯との組ごとに、キーワード信号が含まれる確度を出力する。すなわち、学習済モデルは、入力信号に含まれる各信号のうち、キーワード信号と類似する特徴を有する可能性が高い信号が含まれる確度を、入力信号の周波数帯と時間帯との組ごとに出力する。このような確度は、所定範囲に含まれる信号のうち、キーワード信号等の所定の信号を強調し、雑音等の他の信号を低減するマスクとして利用可能である。このため、情報提供装置１０は、学習済モデルが出力した確度を用いて、所定範囲のうちキーワード信号の強調を行う。例えば、情報提供装置１０は、所定範囲に含まれる周波数帯と時間帯との組のうち、学習済モデルが出力した確度が所定の閾値を超える組に含まれる信号の振幅を増大させ、他の組に含まれる信号の振幅を減少させてもよい。また、情報提供装置１０は、各組に含まれる信号の振幅に対し、学習済モデルが出力した確度若しくはその確度に応じた係数を積算してもよい。すなわち、情報提供装置１０は、学習済モデルが出力した確度をキーワード強調マスクとして利用する。

このような処理の結果、情報提供装置１０は、キーワード信号が協調された所定範囲、すなわち、強調範囲を得ることができる。このような処理を各観測信号から推定された所定範囲ごとに実行することで、情報提供装置１０は、キーワード信号が有する特徴を適切に抽出し、抽出した特徴に基づいて、目的信号を強調するフィルタを作成することができる。

〔１−４．情報提供装置１０が実行する処理の一例について〕
次に、図１を用いて、情報提供装置１０が実行する処理の流れの一例について説明する。例えば、情報提供装置１０は、情報処理装置１００からキーワードを含む音声データを学習信号として取得する（ステップＳ１）。このような場合、情報提供装置１０は、音声データの中からキーワードの音声部分を強調するキーワード強調マスクを生成するようにモデルの学習を行う（ステップＳ２）。例えば、情報提供装置１０は、キーワードの音声と雑音とが混ざった信号や、キーワードの音声と残響音とが混ざった信号を入力信号として入力した際に、キーワードの音声部分、すなわち、キーワード信号部分を強調するキーワード強調マスクを出力するようにモデルの学習を行う。

一方、音声デバイス２００は、複数のマイクを用いて観測信号を取得する（ステップＳ３）。例えば、音声デバイス２００は、利用者Ｕの発話のみならず、テレビジョンから発せされた音声等といった雑音を含む音声信号を観測信号として取得する。なお、図１に示す例では、利用者Ｕの発話には、キーワードと指示発話とが含まれるものとする。

このような場合、情報提供装置１０は、各マイクが取得した観測信号を取得する（ステップＳ４）。そして、情報提供装置１０は、各観測信号ごとに、キーワードを含む範囲を所定範囲として推定し、推定した所定範囲から、モデルを用いてキーワード強調マスクを生成する（ステップＳ５）。

例えば、情報提供装置１０は、マイク＃１が取得した観測信号＃１を解析し、キーワード信号が含まれる可能性が高い範囲を所定範囲＃１として抽出する。また、情報提供装置１０は、観測信号＃１のうち、所定範囲＃１に続く所定の範囲（例えば、数十秒間の範囲や、音声が含まれる範囲）を指示発話が含まれる指示範囲＃１として抽出する。

続いて、情報提供装置１０は、学習済モデルに所定範囲＃１を入力信号として入力し、所定範囲＃１からキーワード信号を強調するためのキーワード強調マスク＃１を取得する。そして、情報提供装置１０は、キーワード強調マスクを用いて、各マイクが観測した観測信号の所定範囲に含まれるキーワードを強調する（ステップＳ６）。例えば、情報提供装置１０は、所定範囲＃１とキーワード強調マスク＃１とを用いて、所定範囲＃１に含まれる信号のうち、キーワード信号を強調した強調信号＃１を生成する。また、情報提供装置１０は、マイク＃２が取得した観測信号＃２から所定範囲＃２を推定し、推定した所定範囲＃２から生成したキーワード強調マスク＃２と所定範囲＃２とから、所定範囲＃２に含まれる信号のうちキーワード信号を強調した強調信号＃２を生成する。また、情報提供装置１０は、他のマイクが取得した観測信号についても同様の処理を行い、マイクごとにキーワード信号を強調した強調信号を取得する。

そして、情報提供装置１０は、各強調信号を用いて、キーワードの到来方向の信号を強調するフィルタを生成する（ステップＳ７）。例えば、情報提供装置１０は、マイク＃１〜マイク＃４が取得した観測信号＃１〜＃４から生成した強調信号＃１〜＃４を比較することで、キーワード信号を取得した時間のタイミングのズレやキーワード信号の強度のズレを特定し、タイミングや強度のズレと各マイクの設置位置との関係性に基づいて、キーワード信号の到来方向を推定する。そして、情報提供装置１０は、推定した方向から到来する信号を強調するためのフィルタを空間フィルタとして生成する。例えば、情報提供装置１０は、各マイクが取得した観測信号を合成する際の重みづけ係数を各マイクごとに設定する。

なお、情報提供装置１０は、例えば、ＭＶＤＲ（Minimum Variance Distortionless Response）、ＧＥＶ（Generalized Eigenvalue）、若しくはＭＬ（Maximum Likelihood）等といった各種ビームフォーミング技術を用いて、フィルタの生成を行ってもよい。

そして、情報提供装置１０は、空間フィルタを用いて各マイクが観測した指示範囲を合成し、合成した指示範囲の音声認識結果に応じた処理結果を取得する（ステップＳ８）。例えば、情報提供装置１０は、各マイクが取得した指示範囲に含まれる信号の振幅に対し、各マイクごとに設定した係数を積算した信号を生成し、生成した信号を合成した合成指示範囲を生成する。そして、情報提供装置１０は、音声認識技術により合成指示範囲に含まれる指示範囲を認識し、認識結果に応じた処理結果を取得する。そして、情報提供装置１０は、処理結果を音声デバイス２００に出力する（ステップＳ９）。

このように、情報提供装置１０は、観測信号からキーワード信号が含まれる所定範囲を推定し、推定した所定範囲に含まれる信号に基づいて、所定範囲に続く範囲に含まれる指示発話を強調するフィルタを生成する。そして、情報提供装置１０は、生成したフィルタを用いて指示発話を強調し、強調した指示発話の認識を行うので、利用者Ｕが発話した指示発話を精度よく認識し、適切な処理結果を提供することができる。

〔１−５．処理の実行主体について〕
上述した例では、情報提供装置１０は、学習済モデルの学習、観測信号からキーワード信号が含まれる所定範囲の推定、所定範囲からモデルを用いたキーワード強調マスクの作成、キーワード強調マスクを用いたキーワード信号の強調、キーワード信号を強調した強調信号を用いたフィルタの生成、およびフィルタを用いた指示発話の特定を行った。しかしながら、実施形態は、これに限定されるものではない。

例えば、上述した各処理は、音声デバイス２００がスタンドアローンで実行してもよい。また、情報提供装置１０は、学習済モデルの学習を行い、学習済モデルを音声デバイス２００に提供してもよい。すなわち、情報提供装置１０は、モデルの学習を行う学習装置であってもよい。

例えば、音声デバイス２００は、観測信号からキーワード信号が含まれる所定範囲を推定し、所定範囲から学習済モデルを用いてキーワード強調マスクを作成する。また、音声デバイス２００は、キーワード強調マスクを用いたキーワード信号の強調を行い、キーワード信号を強調した強調信号を用いたフィルタの生成を行う。そして、音声デバイス２００は、フィルタを用いた指示発話の特定を行い、特定した指示発話を情報提供装置１０へと提供してもよい。このような場合、情報提供装置１０は、音声デバイス２００から取得した指示発話に従って処理を行い、処理結果を音声デバイス２００に提供してもよい。

また、上述した各処理は、情報提供装置１０と音声デバイス２００とのいずれかによって実現されてもよい。また、フィルタを用いて合成した合成指示範囲から指示発話を認識する処理は、音声認識を行う任意の外部サーバにより実現されてもよい。

また、例えば、情報提供装置１０は、他の学習装置によって学習が行われた学習済モデルを用いて、推定範囲からキーワード強調マスクを生成し、生成したキーワード強調マスクを他のサーバ装置に提供する装置であってもよい。また、情報提供装置１０は、他のサーバ装置によって生成されたキーワード強調マスクを用いて、観測信号からキーワード信号を強調し、強調したキーワード信号を用いて目的信号を強調するフィルタを生成する生成装置であってもよい。

〔１−６．処理の適用範囲について〕
上述した説明では、情報提供装置１０は、音声デバイス２００が取得した音声信号を観測信号とし、観測信号から所定範囲の推定や、指示発話の音声信号を目的信号として強調するフィルタの生成を行った。しかしながら、実施形態は、これに限定されるものではない。すなわち、上述したフィルタを生成する生成処理等は、音声のみならず、任意の波形を有する任意の観測対象に対して適用可能である。

例えば、情報提供装置１０は、複数のアンテナがそれぞれ取得した携帯端末からの電波を観測信号として取得する。このような場合、情報提供装置１０は、ハンドシェイクを行う際の電波等、所定の信号を含む範囲を所定範囲として推定し、所定範囲から所定の信号の強調を行い、強調した所定の信号と各アンテナの位置関係とから、端末装置の方向を推定し、推定した方向から到来する電波を強調するフィルタの生成を行ってもよい。

また、情報提供装置１０は、キーワード信号以外にも、任意の信号を所定の信号としてもよい。例えば、情報提供装置１０は、目的信号に先駆けて観測される可能性が高い信号を所定の信号とし、所定の信号が含まれる所定範囲から目的信号を強調するフィルタを生成すればよい。

〔１−７．モデルの学習内容について〕
上述した例では、情報提供装置１０は、キーワード信号を強調するキーワード強調マスクを出力するように、モデルの学習を行った。しかしながら、実施形態は、これに限定されるものではない。例えば、ＤＮＮ等のモデルは、ある入力情報を入力した際に、その入力情報が有する特徴に基づいた出力情報を出力するように学習を行うことが可能である。このようなモデルの特性を考慮し、例えば、情報提供装置１０は、学習信号を入力した際に、時間帯と周波数帯との各組に含まれるキーワード信号の振幅を直接出力するように、モデルの学習を行ってもよい。例えば、情報提供装置１０は、教師信号として、入力信号となる混合信号に含まれるキーワード信号を取得する。そして、情報提供装置１０は、混合信号をモデルに入力した際に、キーワード信号を出力するように、モデルの学習を行ってもよい。

このように、情報提供装置１０は、キーワード信号等といった所定の信号の特徴を学習したモデルを用いて、所定範囲に含まれる信号から所定の信号を抽出する。すなわち、情報提供装置１０は、モデルを用いて、所定範囲に含まれる信号のうち、所定の信号を強調し、雑音信号等の他の信号を低減した強調範囲を生成する。そして、情報提供装置１０は、生成した強調範囲、すなわち、所定範囲に含まれる信号からモデルが推定した所定の信号を用いて、フィルタの生成を行ってもよい。すなわち、所定範囲から所定の信号を強調するといった処理は、モデルを用いてキーワード強調マスクを生成する処理のみならず、モデルを用いてキーワード信号であると推定される信号のみを抽出する処理を含む概念である。

〔２．情報提供装置が有する機能構成の一例について〕
以下、上記した検出処理および配信処理を実現する情報提供装置１０および音声デバイス２００が有する機能構成の一例について説明する。図２は、実施形態に係る情報提供装置および音声デバイスの構成例を示す図である。図２に示すように、音声デバイス２００は、通信部２１０、出力部２２０、および観測部２３０を有する。また、情報提供装置１０は、通信部２０、記憶部３０、および制御部４０を有する。

まず、音声デバイス２００が有する機能構成の一例について説明する。通信部２１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２１０は、ネットワークＮと有線または無線で接続され、例えば、情報提供装置１０との間で各種データの送受信、入力情報および対応情報の送受信を行う。

出力部２２０は、各種の情報を出力する出力装置であり、例えば、音声信号を出力するスピーカー等により実現される。また、出力部２２０は、文字や画像等を出力するモニタ等の表示装置であってもよい。

観測部２３０は、各種観測対象となる信号を観測する観測装置である。例えば、観測部２３０は、設置位置がそれぞれ異なる複数のマイク＃１、＃２等により実現される。例えば、観測部２３０は、各マイクにより同時期に観測された観測信号を、それぞれ情報提供装置１０へと出力する。

なお、音声デバイス２００は、図２に示す機能構成以外にも、各種の情報処理を実行する処理部や、記憶部を有していてもよい。このような処理部は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。また、記憶部は、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現されてもよい。

続いて、情報提供装置１０が有する機能構成の一例について説明する。例えば、通信部２０は、例えば、ＮＩＣ等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、例えば、情報処理装置１００や音声デバイス２００との間で学習データの送受信、観測信号や処理結果の送受信を行う。

記憶部３０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、学習データデータベース３１、観測信号データベース３２、およびモデルデータベース３３を記憶する。

学習データデータベース３１は、学習データが登録される。例えば、図３は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図３に示すように、学習データデータベース３１には、「学習データＩＤ（Identifier）」、「入力信号」、および「教師信号」といった項目を有する情報が登録される。

ここで、「学習データＩＤ」とは、学習データの識別子である。また、「入力信号」とは、モデルの学習時に用いられる信号であり、例えば、キーワード信号を含む音声信号である。また、「教師信号」とは、対応付けられた入力信号のうち、キーワード信号が含まれる範囲（すなわち、キーワード信号が含まれる周波数帯と時間帯との組）を示す信号である。なお、教師信号は、入力信号に含まれるキーワード信号そのものであってもよい。

例えば、図３に示す例では、学習データデータベース３１には学習データＩＤ「ＩＤ＃１」、入力信号「入力信号＃１」、教師信号「教師信号＃１」が対応付けて登録されている。このような情報は、学習データＩＤ「ＩＤ＃１」が示す学習データが、入力信号「入力信号＃１」であり、入力信号「入力信号＃１」のうち、キーワード信号が教師信号「教師信号＃１」が示す範囲である旨を示す。

なお、図３に示す例では、「入力信号＃１」や「教師信号＃１」といった概念的な値を記載したが、実際には、学習データデータベース３１には、音声信号等が入力信号や教師信号として登録されることとなる。また、図３に示す情報以外にも、学習データデータベース３１には、任意の情報が登録されていてよい。

図２に戻り、説明を続ける。観測信号データベース３２には、音声デバイス２００によって観測された観測信号が登録される。例えば、図４は、実施形態に係る観測信号データベースに登録される情報の一例を示す図である。図４に示すように、観測信号データベース３２には、「信号ＩＤ」、「装置ＩＤ」、および「観測信号」といった項目を有する情報が登録される。

ここで、「信号ＩＤ」とは、観測信号の識別子である。また、「装置ＩＤ」とは、対応付けられた信号ＩＤが示す観測信号を測定した観測装置、すなわち、音声デバイス２００が有するマイクを識別するための識別子である。また、「観測信号」とは、対応付けられた「装置ＩＤ」が示す観測装置により観測された観測信号である。

例えば、図４に示す例では、観測信号データベース３２には信号ＩＤ「信号＃１」、装置ＩＤ「マイク＃１」、観測信号「観測信号＃１」が対応付けて登録されている。このような情報は、信号ＩＤ「信号＃１」が示す観測信号が、観測信号「観測信号＃１」であり、装置ＩＤ「マイク＃１」が示すマイクにより観測された旨を示す。

なお、図４に示す例では、「観測信号＃１」といった概念的な値を記載したが、実際には、観測信号データベース３２には、観測信号として音声信号等が登録されることとなる。また、図４に示す情報以外にも、観測信号データベース３２には、例えば、各マイクの設置位置等が登録されていてよい。

図２に戻り、説明を続ける。モデルデータベース３３には、学習済モデルが登録される。例えば、モデルデータベース３３には、モデルに入力される情報である入力情報が入力される入力層と、入力層に入力された入力情報に対して所定の処理を順次行う複数の中間層と、複数の中間層のうち最後に処理を行う終端中間層の出力に基づいて、入力情報に対応する出力情報を生成する出力層とを有するモデルのデータが登録されている。より具体的には、モデルデータベース３３には、各ノードの接続関係や、ノード間の接続係数を示すデータが登録される。

ここで、モデルは、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、入力層に入力された情報と対応する情報を出力層から出力するようコンピュータを機能させる。なお、モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとしての利用が想定されるものであってもよい。

このようなモデルは、入力層に観測信号の所定範囲といった入力信号が入力された場合に、出力層から、入力信号のうち所定の信号を強調するマスクを出力するようコンピュータを機能させる。例えば、モデルは、ＣＰＵ及びメモリを備えるコンピュータにて用いられる。具体的には、コンピュータのＣＰＵが、メモリに記憶された学習済モデルからの指令に従って、モデルの入力層に入力された入力信号に対して、ニューラルネットワークにおける学習済みの重みづけ係数と応答関数等に基づく演算を行い、出力層から入力された入力信号のうち所定の信号（例えば、キーワード信号等）を強調するマスクを出力するよう動作する。

ここで、モデルをＤＮＮ等、１つまたは複数の中間層を有するニューラルネットワークで実現される場合、各モデルが含む第１要素とは、入力層または中間層が有するいずれかのノードと見做すことができ、第２要素とは、第１要素と対応するノードから値が伝達されるノード、すなわち、次段のノードと対応し、第１要素の重みとは、第１要素と対応するノードから第２要素と対応するノードに伝達される値に対して考慮される重み、すなわち、接続係数である。

ここで、情報提供装置１０は、学習データデータベース３１に登録される学習データを用いて、所定の信号を強調するマスクを生成するモデルを生成する。すなわち、学習データデータベース３１に登録される学習データは、入力情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力情報の特徴を反映させた重みに基づく演算を行うことにより、入力された入力情報に対応する出力情報（例えば、入力信号に含まれるキーワード信号を強調するマスク）を出力層から出力するよう、コンピュータを機能させるためのデータである。

制御部４０は、コントローラ（controller）であり、例えば、ＣＰＵ、ＭＰＵ等のプロセッサによって、情報提供装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部４０は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

また、制御部４０は、記憶部３０に記憶されるモデルを実行することで、モデルの入力層に入力された入力信号に対し、モデルが有する係数（すなわち、モデルが学習した各特徴に対応する係数）に基づく演算を行い、入力された入力信号から所定の信号を強調するマスクを生成し、モデルの出力層から出力する。

図２に示すように、制御部４０は、学習部４１、取得部４２、推定部４３、マスク生成部４４、フィルタ生成部４５、解析部４６、および提供部４７を有する。

学習部４１は、モデルの学習を行う。より具体的には、学習部４１は、観測信号のうち所定の信号が含まれる範囲の特徴をモデルに学習させる。例えば、学習部４１は、所定の信号と雑音信号とを含む観測信号が入力された際に、観測信号のうち、所定の信号が含まれる範囲（例えば、時間帯と周波数との組）を強調するためのマスクを出力するように、モデルの学習を行う。

例えば、学習部４１は、所定の構造を有するモデルを生成し、学習データデータベース３１に登録された入力信号＃１をモデルに入力する。そして、学習部４１は、入力信号＃１のうち、教師信号＃１が示す信号を含む範囲に対してより高い値の確度を出力し、他の範囲に対してより低い値の確度を出力するように、バックプロパゲーション等の学習手法を用いて、モデルが有する接続係数の値を修正する。なお、学習部４１は、任意の学習手法を用いて、モデルの学習を行ってよい。そして、学習部４１は、学習済モデルをモデルデータベース３３に登録する。

取得部４２は、処理対象となる観測信号を取得する。例えば、取得部４２は、音声デバイス２００が各マイクを用いて取得した観測信号をそれぞれ取得する。このような場合、取得部４２は、観測信号を観測信号データベース３２に登録する。

推定部４３は、観測信号のうち、所定の信号が含まれる所定範囲を推定する。例えば、推定部４３は、音声信号のうち所定の信号が含まれる範囲を所定範囲として推定する。例えば、推定部４３は、観測信号データベース３２に登録された各観測信号を読み出し、読み出した観測信号ごとに、所定の信号として、波形若しくは周波数特性が所定の特徴を有する信号が含まれる範囲を推定する。例えば、推定部４３は、観測信号として観測された音声信号のうち、利用者Ｕが所定のキーワードを発話した際の音声信号、すなわち、キーワード信号が含まれる範囲を所定範囲として推定する。より具体的には、推定部４３は、それぞれ設置位置が異なる複数の取得装置が同時期に取得した複数の観測信号のうち、所定の信号が含まれる所定範囲を推定する。

例えば、推定部４３は、任意の音声推定技術を用いて、観測信号のうち、キーワード信号が含まれる可能性が高い範囲を所定範囲として推定する。なお、推定部４３は、例えば、学習部４１によって学習が行われた学習モデルを用いて、観測信号の各領域のうち、キーワード信号が含まれる可能性が高い領域を特定し、特定した領域を含む時間帯を所定範囲として推定してもよい。

マスク生成部４４は、所定の信号が有する特徴を学習したモデルを用いて、所定範囲に含まれる信号のうち所定の信号と類似する特徴を有する類似信号を強調するマスクを生成する。例えば、マスク生成部４４は、観測信号のうち所定の信号が含まれる範囲の波形又は周波数特性を深層学習したモデルを用いて、所定範囲に含まれる信号のうち所定の信号と類似する特徴を有する類似信号を強調するマスクを生成する。

例えば、マスク生成部４４は、観測信号のうち推定部４３によって推定された所定範囲を抽出し、抽出した所定範囲に含まれる信号を入力信号として学習済モデルに入力する。そして、マスク生成部４４は、学習済モデルの出力を、キーワード信号を強調するマスクとして取得する。すなわち、マスク生成部４４は、観測信号に含まれる信号のうち、キーワード信号であると推定される信号（すなわち、特徴を学習したキーワード信号と類似する特徴を有する信号）を強調するマスクを生成する。

そして、マスク生成部４４は、生成したマスクを用いて、所定範囲に含まれるキーワード信号を強調した強調信号を生成する。例えば、マスク生成部４４は、所定範囲の各領域に含まれる信号の振幅を、学習済モデルが所定範囲の各領域ごとに算出した確度に従って増幅した強調信号を生成する。

フィルタ生成部４５は、所定範囲に含まれる信号のうち所定の信号を強調した強調範囲に基づいて、観測信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。すなわち、フィルタ生成部４５は、観測信号に含まれるキーワード信号を用いて、キーワード信号と同様の特徴を有する信号、すなわち、目的信号を強調するためのフィルタを生成する。

例えば、フィルタ生成部４５は、音声信号のうち所定範囲に含まれる信号に基づいて、音声信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。具体的には、フィルタ生成部４５は、各マイクごとに取得された観測信号からマスク生成部４４が生成した強調信号を取得する。このような場合、フィルタ生成部４５は、各強調信号に含まれる信号のうちキーワード信号の可能性が高い信号を抽出する。そして、フィルタ生成部４５は、各強調信号から抽出した信号から、所定範囲よりも後の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。すなわち、フィルタ生成部４５は、類似信号を強調した所定範囲に基づいて、フィルタを生成する。

例えば、フィルタ生成部４５は、各強調信号から抽出した信号が観測された時間と、各マイクの設置位置とに基づいて、抽出した信号、すなわち、キーワード信号の到来方向を推定する。そして、フィルタ生成部４５は、推定した到来方向から到来する信号を強調するためのフィルタを生成する。すなわち、フィルタ生成部４５は、複数の観測信号のうち所定範囲以外の範囲から所定の信号と空間的な特徴が類似する信号を強調するためのフィルタを生成する。例えば、フィルタ生成部４５は、複数のマイクがそれぞれ取得した観測信号を合成する際の重みづけ係数をフィルタとして生成する。

なお、フィルタ生成部４５は、複数の観測信号のうち所定範囲以外の範囲から所定の信号と周波数特性が類似する信号を強調するための関数を生成してもよい。例えば、キーワードと指示発話とは、同じ利用者Ｕによって発話されるため、類似する周波数特性を有するとも考えられる。そこでフィルタ生成部４５は、強調されたキーワード信号の周波数特性を推定し、観測信号から推定した周波数特性を有する信号を強調するためのフィルタを生成してもよい。

解析部４６は、フィルタ生成部４５によって生成されたフィルタを用いて、観測信号のうち所定範囲以外の範囲から目的信号を抽出する。そして、解析部４６は、抽出した目的信号を解析し、利用者Ｕの指示発話を特定する。例えば、解析部４６は、各マイクが取得した観測信号を、フィルタ生成部４５によって生成されたフィルタを用いて合成する。例えば、解析部４６は、各観測信号から、所定範囲に続く範囲を指示範囲として抽出する。そして、解析部４６は、指示範囲を、フィルタ生成部４５がフィルタとして生成した重みづけ係数を考慮して合成した合成指示範囲を生成する。そして、解析部４６は、合成指示範囲に含まれる信号の解析を行い、利用者Ｕが発話した指示発話を特定する。

提供部４７は、利用者Ｕの指示発話に応じた処理を実行し、処理結果を音声デバイス２００に提供する。例えば、提供部４７は、指示発話が「今日の天気は？」といった内容であった場合、外部サーバから天気予報を取得し、取得した天気予報の内容を読み上げる音声データを生成する。そして、提供部４７は、生成した音声データを音声デバイス２００に提供し、音声データの再生を実行させることで、利用者Ｕの指示発話に対応する処理結果を提供する。

〔３．精度の一例について〕
ここで、上述したモデルを用いて所定範囲からキーワード信号を強調する処理の結果の一例について説明する。図５は、実施形態に係る情報提供装置が信号を強調する処理結果の一例を示す図である。なお、図５に示す例では、キーワードの発話音声のみを含む第１音声信号、キーワードの発話音声と雑音とを含む第２音声信号、第２音声信号に対して音声のパワースペクトル密度を推定するモデルを用いて生成したマスクを反映させた第３音声信号、および第２音声信号に対してキーワード信号の特徴を学習したモデルを用いて生成したマスクを反映させた第４音声信号のパワースペクトルの一例について例示した。

例えば、図５中（Ａ）には、キーワードの発話音声のみを含む第１音声信号のパワースペクトルを示し、図５中（Ｂ）には、キーワードの発話音声と雑音とを含む第２音声信号のパワースペクトルを示した。図５中（Ｂ）に示すように、キーワードと雑音とを含む第２音声信号においては、キーワードの発話音声であるキーワード信号が雑音により隠されてしまっている。

また、図５中（Ｃ）には、第２音声信号に対して音声のパワースペクトル密度を推定するモデルを用いて生成したマスクを反映させた第３音声信号のパワースペクトルを示した。図５中（Ｃ）に示すように、第３音声信号においては、タイミングＴ１に含まれる音声、すなわち、キーワード信号ではない雑音信号が除去されておらず、タイミングＴ２に含まれる音声、すなわち、キーワード信号が雑音とともに除去されてしまっている。

一方、図５中（Ｄ）には、第２音声信号に対してキーワード信号の特徴を学習したモデル、すなわち、上述した学習処理により学習が行われた学習済モデルを用いて生成したマスクを反映させた第４音声信号のパワースペクトルを示した。図５中（Ｄ）に示すように、第４音声信号においては、タイミングＴ１に含まれる音声、すなわち、キーワード信号ではない雑音信号が第３音声信号よりも軽減されており、タイミングＴ２に含まれる音声、すなわち、キーワード信号が第３音声信号よりも多く残されている。

このような第４音声信号を用いて、キーワード信号と推定される信号を抽出した場合、キーワード信号の成分が雑音よりも多い信号を抽出することができる。このような信号を用いて、指示発話等の目的信号を強調するフィルタを生成した場合、目的信号をより精度よく強調するフィルタを生成することができる。この結果、情報提供装置１０は、目的信号の認識精度を向上させることができる。

〔４．情報提供装置が実行する処理の流れについて〕
次に、図６を用いて、情報提供装置１０が実行する処理の流れの一例について説明する。図６は、実施形態に係る情報提供装置が実行する処理の流れの一例を示すフローチャートである。

まず、情報提供装置１０は、複数のマイクが観測した観測信号を取得する（ステップＳ１０１）。このような場合、情報提供装置１０は、キーワード信号等の所定の信号が含まれる所定範囲を推定し、推定した所定範囲から所定の信号を強調するマスクを作成する（ステップＳ１０２）。そして、情報提供装置１０は、マスクを用いて所定範囲に含まれる所定の信号を強調する（ステップＳ１０３）。

また、情報提供装置１０は、所定の信号を強調した強調信号を用いて、所定の信号と同様の特徴を有する目的信号を強調するフィルタを生成する（ステップＳ１０４）。そして、情報提供装置１０は、生成したフィルタを用いて、各観測信号を合成する（ステップＳ１０５）。すなわち、情報提供装置１０は、生成したフィルタを用いて各観測信号を合成することで、観測信号に含まれる目的信号を強調した信号を生成する。

また、情報提供装置１０は、合成した信号から目的信号を抽出し、目的信号に対応する処理を実行する（ステップＳ１０６）。そして、情報提供装置１０は、処理結果を提供し（ステップＳ１０７）、処理を終了する。

〔５．変形例〕
上記では、情報提供装置１０による学習処理および生成処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置１０が実行する検出処理や配信処理のバリエーションについて説明する。

〔５−１．装置構成〕
記憶部３０に登録された各データベース３１〜３３は、外部のストレージサーバに保持されていてもよい。また、情報提供装置１０は、学習処理を実行する学習サーバ、生成処理を実行する生成サーバ、および利用者Ｕの発話に応じた各種の処理を実行する処理サーバとが連携して動作することにより、実現されてもよい。このような場合、学習サーバには、学習部４１が配置されていればよく、生成サーバには、取得部４２、推定部４３、マスク生成部４４、フィルタ生成部４５が配置されていればよく、処理サーバには、解析部４６および提供部４７が配置されていればよい。

また、例えば、推定部４３、マスク生成部４４およびフィルタ生成部４５は、音声デバイス２００が有していてもよい。すなわち、生成処理は、音声デバイス２００によって実現されてもよい。

〔５−２．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔５−３．プログラム〕
また、上述した実施形態に係る情報提供装置１０は、例えば図７に示すような構成のコンピュータ１０００によって実現される。図７は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が情報提供装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムまたはデータ（例えば、モデルＭ１）を実行することにより、制御部４０の機能を実現する。コンピュータ１０００の演算装置１０３０は、これらのプログラムまたはデータ（例えば、モデルＭ１）を一次記憶装置１０４０から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

〔６．効果〕
上述したように、情報提供装置１０は、観測信号のうち、所定の信号が含まれる所定範囲を推定する。そして、情報提供装置１０は、所定範囲に含まれる信号のうち所定の信号を強調した強調範囲に基づいて、観測信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。この結果、情報提供装置１０は、所定の信号と同様の特徴を有する信号、すなわち、目的信号を精度よく強調するフィルタを生成することができるので、目的信号の認識精度を向上させることができる。

また、情報提供装置１０は、所定の信号として、波形若しくは周波数特性が所定の特徴を有する信号が含まれる範囲を推定する。例えば、情報提供装置１０は、所定の信号として、利用者Ｕが所定のキーワードを発話した際の音声信号が含まれる範囲を推定する。また、情報提供装置１０は、観測信号のうち、所定範囲よりも後の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。このため、情報提供装置１０は、例えば、キーワードに続いて利用者Ｕが発話する指示発話の認識精度を向上させることができる。

また、情報提供装置１０は、それぞれ設置位置が異なる複数の取得装置が同時期に取得した複数の観測信号のうち、所定の信号が含まれる所定範囲を推定する。そして、情報提供装置１０は、複数の観測信号のうち所定範囲以外の範囲から所定の信号と空間的な特徴が類似する信号を強調するためのフィルタを生成する。例えば、情報提供装置１０は、フィルタとして、複数の取得装置がそれぞれ取得した観測信号を合成する際の重みづけ係数を生成する。また、情報提供装置１０は、観測信号のうち所定範囲に含まれる信号に基づいて、フィルタを生成する。このため、情報提供装置１０は、例えば、目的信号に先立つ所定の信号と同じ方向から到来する信号を精度よく強調するフィルタを生成することができるので、目的信号の認識精度を向上させることができる。

また、情報提供装置１０は、複数の観測信号のうち所定範囲以外の範囲から所定の信号と周波数特性が類似する信号を強調するための関数を生成する。このため、情報提供装置１０は、例えば、目的信号と同じ発生源の信号を精度よく強調するフィルタを生成することができる。

また、情報提供装置１０は、所定の信号と類似する特徴を有する信号を強調するマスクを用いて、所定範囲に含まれる各信号のうち所定の信号を強調した強調範囲を生成し、生成した強調範囲に含まれる各信号、すなわち、強調信号に基づいて、フィルタの生成を行う。例えば、情報提供装置１０は、所定の信号が有する特徴を学習したモデルを用いて、所定範囲に含まれる信号のうち所定の信号と類似する特徴を有する類似信号を強調するマスクを生成し、生成したマスクを用いて、強調範囲の生成を行う。また、情報提供装置１０は、モデルとして、観測信号のうち所定の信号が含まれる範囲の波形又は周波数特性を深層学習したモデルを用いる。このため、情報提供装置１０は、所定範囲から所定の信号を推定される信号を精度よく強調することができるので、所定の信号と類似する信号を精度よく強調するフィルタの生成を実現する結果、目的信号の認識精度を向上させることができる。

また、情報提供装置１０は、音声信号のうち所定の信号が含まれる範囲を所定範囲として推定し、所定範囲に含まれる信号のうち所定の信号を強調した強調範囲に含まれる信号に基づいて、音声信号のうち所定範囲以外の範囲から所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する。このため、情報提供装置１０は、例えば、キーワードを発話した利用者等、所定の利用者Ｕの発話を精度よく強調するフィルタを生成することができるので、指示発話等といった目的信号の認識精度を向上させることができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、検出部は、検出手段や検出回路に読み替えることができる。

１０情報提供装置
２０、２１０通信部
３０記憶部
３１学習データデータベース
３２観測信号データベース
３３モデルデータベース
４０制御部
４１学習部
４２取得部
４３推定部
４４マスク生成部
４５フィルタ生成部
４６解析部
４７提供部
１００情報処理装置
２００音声デバイス
２２０出力部
２３０観測部

Claims

観測信号のうち、所定の信号が含まれる所定範囲を推定する推定部と、
前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成部と
を有することを特徴とする生成装置。
前記推定部は、前記所定の信号として、波形若しくは周波数特性が所定の特徴を有する信号が含まれる範囲を推定する
ことを特徴とする請求項１に記載の生成装置。
前記推定部は、前記所定の信号として、利用者が所定のキーワードを発話した際の音声信号が含まれる範囲を推定する
ことを特徴とする請求項２に記載の生成装置。
前記生成部は、前記観測信号のうち、前記所定範囲よりも後の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する
ことを特徴とする請求項１〜３のうちいずれか１つに記載の生成装置。
前記推定部は、それぞれ設置位置が異なる複数の取得装置が同時期に取得した複数の観測信号のうち、前記所定の信号が含まれる所定範囲を推定し、
前記生成部は、前記複数の観測信号のうち前記所定範囲以外の範囲から前記所定の信号と空間的な特徴が類似する信号を強調するためのフィルタを生成する
ことを特徴とする請求項１〜４のうちいずれか１つに記載の生成装置。
前記生成部は、前記フィルタとして、前記複数の取得装置がそれぞれ取得した観測信号を合成する際の重みづけ係数を生成する
ことを特徴とする請求項５に記載の生成装置。
前記生成部は、観測信号のうち前記所定範囲以外の範囲から前記所定の信号と周波数特性が類似する信号を強調するための関数を生成する
ことを特徴とする請求項１〜６のうちいずれか１つに記載の生成装置。
前記生成部は、前記所定の信号と類似する特徴を有する信号を強調するマスクを用いて、前記所定範囲に含まれる各信号のうち前記所定の信号を強調した強調範囲を生成し、当該強調範囲に含まれる各信号に基づいて、前記フィルタを生成する
ことを特徴とする請求項１〜７のうちいずれか１つに記載の生成装置。
前記生成部は、前記所定の信号が有する特徴を学習したモデルを用いて、前記所定範囲に含まれる信号のうち前記所定の信号と類似する特徴を強調する前記マスクを生成し、生成したマスクを用いて、前記強調範囲を生成する
ことを特徴とする請求項８に記載の生成装置。
前記生成部は、前記モデルとして、観測信号のうち所定の信号が含まれる範囲の波形又は周波数特性を深層学習したモデルを用いる
ことを特徴とする請求項９に記載の生成装置。
前記推定部は、音声信号のうち所定の信号が含まれる範囲を前記所定範囲として推定し、
前記生成部は、前記強調範囲に含まれる信号に基づいて、前記音声信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する
ことを特徴とする請求項１〜１０のうちいずれか１つに記載の生成装置。
生成装置が実行する生成方法であって、
観測信号のうち、所定の信号が含まれる所定範囲を推定する推定工程と、
前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成工程と
を含むことを特徴とする生成方法。
観測信号のうち、所定の信号が含まれる所定範囲を推定する推定手順と、
前記所定範囲に含まれる信号のうち前記所定の信号を強調した強調範囲に基づいて、前記観測信号のうち前記所定範囲以外の範囲から前記所定の信号と同様の特徴を有する信号を強調するためのフィルタを生成する生成手順と
コンピュータに実行させるための生成プログラム。