JP6856697B2

JP6856697B2 - 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム

Info

Publication number: JP6856697B2
Application number: JP2019083226A
Authority: JP
Inventors: トランデュング; 健一磯
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2021-04-07
Anticipated expiration: 2039-04-24
Also published as: JP2020181060A

Description

本発明は、情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラムに関する。

近年、ディープラーニング等の技術を用いて、複数の情報からなる混成情報の中から目標となる情報を抽出する技術が知られている。このような技術の一例として、自動音声認識（Automatic Speech Recognition）における精度を向上させるため、目標となる利用者の発話音声が有する特徴をあらかじめ学習したモデルを用いて、複数の利用者の発話音声が混ざった混合音声から、目標となる利用者の発話音声を抽出する技術が知られている。

"ＳｐｅａｋｅｒＢｅａｍ：聞きたい人の声に耳を傾けるコンピュータ――深層学習に基づく音声の選択的聴取"＜インターネット＞http://www.ntt.co.jp/journal/1809/files/JN20180912.pdf［平成３１年４月１９日検索］ "Speaker-aware neural network based beamformer for speaker extraction in speech mixtures,"K. Zmolikova, M. Delcroix, K. Kinoshita, T. Higuchi, A. Ogawa, and T. Nakatani, INTERSPEECH,2017.

しかしながら、上述した技術では、容易に目標となる情報を抽出しているとは言えなかった。

例えば、上述した従来技術では、目標となる利用者の発話音声が有する特徴をあらかじめ学習する手間がかかる。また、上述した従来技術では、目標となる利用者ごとに発話音声の特徴をあらかじめ学習したモデルを作成する手間がかかる。

本願は、上記に鑑みてなされたものであって、目標となる情報の抽出を容易にすることを目標とする。

本願に係る情報処理装置は、複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報とを取得する取得部と、前記混合情報の特徴と前記適用情報の特徴とに基づいた第１特徴情報と前記混合情報の特徴に基づいた第２特徴情報とに基づいて前記混合情報から前記目標情報を抽出するための抽出情報を生成するモデルを用いて、前記取得部により取得された前記混合情報および前記適用情報から、前記抽出情報を生成する生成部と、前記生成部により生成された抽出情報を用いて、前記混合情報から前記目標情報を抽出する抽出部とを有することを特徴とする。

実施形態の一態様によれば、目標となる情報の抽出をより容易にすることができる。

図１は、実施形態に係る情報提供装置およびスマートスピーカが実行する処理の一例を示す図である。図２は、実施形態に係る情報提供装置が生成するモデルの構成例を示す図である。図３は、実施形態に係る情報提供装置の構成例を示す図である。図４は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図５は、実施形態に係るスマートスピーカの構成例を示す図である。図６は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。図７は、実施形態に係るスマートスピーカが実行する情報処理の流れの一例を示すフローチャートである。図８は、実施形態に係る情報提供装置が生成するモデルの精度の第１例を示す図である。図９は、実施形態に係る情報提供装置が生成するモデルの精度の第２例を示す図である。図１０は、実施形態に係る情報提供装置が生成するモデルの精度の第３例を示す図である。図１１は、ハードウェア構成の一例を示す図である。

以下に、本願に係る情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．情報提供装置について〕
まず、図１を用いて、学習装置の一例である情報提供装置１０と、情報処理装置の一例であるスマートスピーカ２００とが実行する処理の一例について説明する。図１は、実施形態に係る情報提供装置およびスマートスピーカが実行する処理の一例を示す図である。図１では、情報提供装置１０が実行する処理として、モデルの学習を行う学習処理の一例について記載し、スマートスピーカ２００が実行する処理として、学習済のモデル（以下、「学習モデル」と記載する場合がある。）を用いて情報処理を実行する処理の一例について記載した。

なお、以下の説明では、学習処理を情報提供装置１０が実行し、スマートスピーカ２００が学習モデルを用いた情報処理を実行する例について記載するが、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、学習処理に加えて、スマートスピーカ２００と同様の情報処理を実行してもよい。また、以下の説明では、情報処理の一例として、複数の利用者が発話した音声である発話音声やテレビから発せられた音声等を含む混合音声から、目標となる利用者（以下、「目標利用者」と記載する場合がある。）が発話した音声（以下、「目標音声」と記載する場合がある。）を抽出する処理の一例について記載するが、実施形態は、これに限定されるものではない。後述するように、以下に説明する学習処理および情報処理は、混合音声から目標音声を抽出する処理以外にも、任意の種別の情報に対して適用可能である。

図１に示す情報提供装置１０は、情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。後述するように、情報提供装置１０は、学習データを用いて、混合音声から目標音声を抽出するための抽出情報（例えば、所謂マスク）を生成するモデルの学習を行う。

また、図１に示すデータサーバ１００は、各種のデータを管理しており、例えば、サーバ装置やクラウドシステム等により実現される。例えば、データサーバ１００は、情報提供装置１０が学習処理に用いる学習データの管理を行う。なお、データサーバ１００が管理する学習データの詳細については、後述する。

スマートスピーカ２００は、周囲の音を取得するマイク等の取得装置と、任意の音を出力可能なスピーカ等の出力装置とを有する入出力装置とを有する入出力装置であり、例えば、スマートスピーカと呼ばれるデバイスである。例えば、スマートスピーカ２００は、出力装置を用いて、音楽の出力や音声による情報提供を実現可能な装置である。また、スマートスピーカ２００は、音の入力を受付ける受付機能を有し、利用者が発した音声を取得すると、取得した音声の内容に応じた音を出力する出力機能を有する。なお、スマートスピーカ２００は、スマートスピーカ以外にも、スマートフォンやタブレット等といった各種の情報処理装置であってもよい。また、スマートスピーカ２００は、必ずしもスピーカ等の出力装置を有する必要はない。例えば、スマートスピーカ２００は、音声に代えて、文字列等の情報を表示することで各種の情報を利用者に対して出力してもよい。

例えば、スマートスピーカ２００は、利用者が所定の楽曲の曲名を示す音声を発した場合には、各種の音声解析技術により、音声が示す曲名を特定し、特定した曲名が示す楽曲のデータを、ネットワークＮ（例えば、図３を参照）を介して、所定の外部サーバから取得する。そして、音声デバイスは、取得した楽曲を再生する。

なお、スマートスピーカ２００は、例えば、利用者Ｕが発した音声の内容を各種の音声解析技術により特定し、特定した内容に応じた応答を出力する機能を有する。例えば、スマートスピーカ２００は、「今日の天気は？」といった利用者Ｕの音声を取得した場合は、外部サーバから天気や気温などといった各種の気象情報を取得し、取得した気象情報を読み上げることで、利用者Ｕに天気の情報を提供する。また、スマートスピーカ２００は、上述した処理以外にも、例えば、電子商店街に出品された商品の注文、空調装置や照明装置等といった各種家電機器の制御、メールやスケジュールの読み上げ等といった各種の処理を実現可能な情報処理端末である。

なお、スマートスピーカ２００は、外部サーバ（図示は、省略）と連携することで、音声解析を行ってもよい。例えば、スマートスピーカ２００は、マイク等を用いて周囲の音声を取得し、取得した音声が所定の条件を満たした場合は、外部サーバに取得した音声を送信する。このような場合、外部サーバは、取得した音声の内容を各種の音声解析技術により特定し、特定結果をスマートスピーカ２００へと送信する。その後、スマートスピーカ２００は、特定結果に対応する各種の処理を実行してもよい。すなわち、スマートスピーカ２００は、スタンドアローン型のスマートスピーカであってもよく、クラウド等の外部サーバと連携するスマートスピーカであってもよい。

ここで、スマートスピーカ２００は、それぞれ異なる位置に取付けられた複数の取得装置（例えば、マイク等）を有し、各取得装置を介して受付けた音声を用いて、上述した各種の処理を実行してもよい。また、スマートスピーカ２００は、それぞれ異なる位置に取付けられた複数の取得装置を有する装置であれば、例えば、スマートデバイスや録音装置等、任意の装置であってもよい。また、スマートスピーカ２００は、物理的に離間した位置に設置された複数の取得装置と無線ＬＡＮ（Local Area Network）やブルートゥース（登録商標）等の無線通信を介して接続され、各取得装置が取得した音声を収集する装置であってもよい。

〔１−１．入力音声について〕
利用者は、スマートスピーカ等を操作する場合は、所定のキーワードを発話した後で、実行させる処理を示す発話（以下、「処理発話」と記載する。）を発話する。このような場合、スマートスピーカ２００は、取得した音声に所定のキーワードが含まれているか否かを判定する。そして、スマートスピーカ２００は、所定のキーワードが含まれていると判定される場合は、そのキーワードに続いて利用者が発話した処理発話が含まれる音声データの区間から、音声解析により利用者の発話内容を特定する。

しかしながら、スマートスピーカ２００に対して入力される音声には、キーワードを利用者が発話した音声であるキーワード発話や処理発話以外にも、各種の雑音が含まれる場合がある。例えば、スマートスピーカ２００が受け付ける音声には、所定のキーワードを発話した利用者（すなわち、目標利用者）以外にも、目標利用者の周囲で発話している他の利用者の音声やテレビジョン等から発せられた音声等といった雑音が含まれる場合がある。また、このような雑音以外にも、各種の施設内放送や施設外放送、音声解析に影響を与えうる各種の音声（例えば、雨音や風の音、モスキート音等）が雑音として含まれる場合がある。

このように、スマートスピーカ２００が取得する音声は、目標利用者が発話した音声（すなわち、目標音声）と、それ以外の音声（以下「雑音」と総称する。）とが混合した混合音声となる。このように雑音が含まれる混合音声が入力された場合、目標利用者の発話を適切に認識することができなくなる結果、スマートスピーカ２００に実行させる処理を示す処理音声を適切に認識することができなくなり、音声を介した指示に対する適切な処理を行うことができなくなる恐れがある。

〔１−２．抽出処理の一例について〕
ここで、予め特定の利用者が発声した音声の特徴を学習しておき、入力音声のうち学習済の特徴を有する音声を強調する技術が知られている。このような技術においては、例えば、雑音が無い状況で目標利用者が発声した音声の特徴を学習し、入力音声に含まれる各種の音声のうち、目標利用者が発声した音声と特徴が類似する音声を強調するといった処理が行われる。

また、このような処理を実現するモデルとして、目標利用者が発生した音声の特徴をあらかじめ学習した補助ネットワークと、補助ネットワークが出力した情報を用いて、混合音声から目標音声を強調するためのマスクを生成する主ネットワークとを有するモデル用いる技術が知られている。例えば、このようなモデルが有する主ネットワークは、混合音声が有する複数の特徴を抽出する。一方、補助ネットワークは、目標利用者の音声が有する特徴に基づいて、主ネットワークが抽出する特徴ごとの重みを決定する。そして、主ネットワークは、抽出した各特徴に対して、補助ネットワークが出力する重みを適用し、重みを適用した各特徴に基づいてマスクの生成を行う。

しかしながら、このようなモデルは、ネットワーク規模が大きくなる傾向があり、パラメータの量が膨大となるため、学習を容易に行うことができなかった。また、このようなモデルを利用した場合、マスクの生成に対する計算コストが増大する。

また、このようなモデルを用いた場合、予め目標利用者の音声が有する特徴を学習する必要があるため、音声の特徴を学習していない利用者の音声を抽出するためのマスクを生成することができない。

〔１−３．情報処理の一例について〕
そこで、情報提供装置１０は、以下に説明する構造を有するモデルＭを生成し、スマートスピーカ２００へと提供する。そして、スマートスピーカ２００は、モデルＭを用いて、混合音声から目標音声を抽出するための目標音声抽出マスクを生成し、生成した目標音声抽出マスクを用いて、混合音声から目標音声の抽出を行う。

より具体的には、情報提供装置１０は、学習データとして、混合音声と、目標音声に特徴が類似する適用情報と、混合音声から目標音声を抽出するためのマスクとの組を取得する。そして、情報提供装置１０は、モデルＭに混合音声と適用音声とを入力した場合に、混合音声の特徴と適用音声の特徴とに基づいた第１特徴情報を生成するとともに、混合音声の特徴に基づいた第２特徴情報を生成し、生成された第１特徴情報と生成された第２特徴情報とからマスクを生成するようにモデルの学習を行う。

一方、スマートスピーカ２００は、混合音声と、目標利用者が発したキーワードとを取得する。そして、スマートスピーカ２００は、モデルＭに対して混合音声を入力するとともに、キーワードを適用音声としてを入力することで、混合音声から適用音声と特徴が類似する音声、すなわち、目標音声を抽出するための目標音声抽出マスクを生成する。その後、スマートスピーカ２００は、目標音声抽出マスクを用いて、混合音声から目標音声を抽出し、抽出した目標音声を用いた各種の情報処理を実行する。

例えば、スマートスピーカ２００は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する。そして、スマートスピーカ２００は、入力音声のうちキーワード音声に続く音声である後続音声から、キーワード音声と特徴が類似する音声を抽出する。例えば、スマートスピーカ２００は、後続音声に含まれる音声のうち、キーワード音声と特徴が類似する音声を強調した強調音声を生成する。

例えば、スマートスピーカ２００に対して何かしらの処理を実行させたい利用者は、所定のキーワードを発話した後で処理発話を発話することとなる。ここで、キーワードに含まれる音素は、利用者によらず一定なため、キーワード音声は、発話する利用者ごとの特徴だけではなく、発話する利用者によらない共通した特徴を有する。このため、スマートスピーカ２００は、キーワードに含まれる音素の特徴等、発話する利用者によらず、各利用者により発話されるキーワード音声に共通した特徴に基づいて、キーワード音声の検出を行う。

一方で、キーワード音声を発声した利用者は、キーワード音声に続けて処理発話を発話すると考えられるが、このように同一の利用者が発したキーワード音声と処理発話とは、特徴が共通する音声となる。そこで、スマートスピーカ２００は、検出したキーワード音声と特徴が類似する音声を後続音声から抽出する。すなわち、スマートスピーカ２００は、キーワードの音素が有する特徴に基づいてキーワード発話を検出し、音の高さや周波数成分等といった利用者の声の特徴がキーワード発話と類似する音声を後続音声から抽出する。

このような処理を実行した場合、スマートスピーカ２００は、キーワード音声を発声した利用者と同じ利用者が発した音声であって、キーワード音声に続けて発声した音声、すなわち、処理発話を後続音声から抽出することができる。この結果、スマートスピーカ２００は、雑音が含まれる入力音声から、処理発話を適切に抽出することができるので、処理発話の認識精度を向上させることができる。

〔１−４．学習処理および情報処理の一例について〕
以下、図１を用いて、情報提供装置１０が実行する学習処理およびスマートスピーカ２００が実行する情報処理の一例について説明する。なお、以下の説明では、情報提供装置１０が実行する学習処理を先に説明し、続いて、スマートスピーカ２００が実行する情報処理について説明する。

〔１−４−１．学習処理の一例について〕
例えば、情報提供装置１０は、データサーバ１００から学習データを取得する（ステップＳ１）。より具体的な例を挙げると、情報提供装置１０は、混合音声と、目標利用者が発した音声である適用音声と、混合音声から適用音声と特徴が類似する音声を抽出するためのマスク（以下、「適用音声抽出マスク」と記載する。）との組を受付ける。

ここで、適用音声は、混合音声から抽出する音声と同一であってもよく、異なる音声であってもよい。例えば、混合音声は、目標利用者の処理発話が含まれる。このような場合、適用音声は、目標利用者が発したキーワード音声や目標利用者が発した任意の音声であってもよい。また、適用音声は、スマートスピーカ２００がモデルＭを用いた情報処理を実行する際の目標とする目標利用者と同一の利用者の音声であってもよく、他の利用者の音声であってもよい。すなわち、情報提供装置１０は、混合音声と、混合音声から抽出する音声と特徴が類似する適用音声と、混合音声から適用音声と特徴が類似する音声を抽出するための適用音声抽出マスクとの組を取得するのであれば、任意の態様の音声を学習データとして取得してもよい。

そして、情報提供装置１０は、混合音声の特徴と適用音声の特徴とに基づく第１特徴情報と、混合音声の特徴に基づく第２特徴情報から、適用音声と特徴が類似する音声を混合音声から抽出するマスクである適用音声抽出マスクを生成するモデルＭの学習を行う。

〔１−４−２．モデルＭについて〕
例えば、情報提供装置１０は、図１に示すように、適用音声特徴抽出部Ｍ１、混合音声特徴抽出部Ｍ２、適用態様決定部Ｍ３、第１ゲート部Ｍ４、第２ゲート部Ｍ５、およびマスク生成部Ｍ６を有するモデルＭを生成する。そして、情報提供装置１０は、適用音声特徴抽出部Ｍ１に適用音声を入力し、適用態様決定部Ｍ２と混合音声特徴抽出部Ｍ３とに混合音声を入力した場合に、マスク生成部Ｍ６が適用音声抽出マスクを出力するように、モデルＭの学習を行う。

例えば、情報提供装置１０は、適用音声と混合音声とを所定のフレーム単位（例えば、１０ミリ秒）に分割し、各フレームに含まれる音声の周波数特定を示す情報（例えば、ベクトル等の多次元量）をモデルＭに入力する。そして、情報提供装置１０は、モデルＭが、混合音声の各フレームから適用音声と特徴が類似する音声を強調し、他の音声を低減させるマスクを適用音声抽出マスクとして出力するように、モデルＭの学習を行う。

なお、このようなモデルＭの全体若しくはモデルＭが有する各部Ｍ１〜Ｍ６は、例えば、ＤＮＮ（Deep Neural Network）、ＲＮＮ（Recurrent Neural Networks）、ＬＳＴＭ（Long short-term memory）、ＣＮＮ（Convolutional Neural Network）等、任意の構造を有するＤＮＮにより実現される。そして、情報提供装置１０は、バックプロパゲーション等、ＤＮＮ等のモデルＭに対して各種情報の特徴を学習させる任意の学習手法を用いて、モデルＭの学習を行う。

以下、モデルＭの構成について説明する。適用音声特徴抽出部Ｍ１は、適用音声が有する特徴を抽出し、抽出した特徴を示す情報を第１ゲート部Ｍ４に出力する。例えば、適用音声特徴抽出部Ｍ１は、入力された適用音声の情報から、適用音声が有する周波数特性を示すベクトルを生成し、生成したベクトルを第１ゲート部Ｍ４へと出力する。すなわち、モデルＭは、適用情報の特徴を抽出する第１抽出部としての適用音声特徴抽出部Ｍ１を有する。

混合音声特徴抽出部Ｍ２は、混合音声が有する特徴を抽出し、抽出した特徴を示す情報を第２ゲート部Ｍ５に出力する。例えば、混合音声特徴抽出部Ｍ２は、入力された混合音声の情報から、混合音声が有する周波数特性を示すベクトルを生成し、生成したベクトルを第２ゲート部Ｍ５へと出力する。すなわち、モデルＭは、適用情報の特徴を抽出する第２抽出部としての混合音声特徴抽出部Ｍ１を有する。

適用態様決定部Ｍ３は、適用音声の特徴に対する重みと、混合音声の特徴に対する重みとを決定する。すなわち、適用態様決定部Ｍ３は、適用音声抽出マスクを生成する際に、適用音声の特徴の適用度合と、混合音声の特徴の適用度合とを決定する。例えば、適用態様決定部Ｍ３は、混合音声の特徴に基づいて、適用音声の特徴を示すベクトルの各次元の値と、混合音声の特徴を示すベクトルの数次元の値のうち、どの次元の値を採用するかを示すベクトルを適用度合として決定する。

なお、このような適用度合を示すベクトルは、例えば、適用音声や混合音声の特徴を示すベクトルのうち、適用音声抽出マスクの生成に用いる次元と対応する次元に「１」が格納され、それ以外に「０」が格納されたベクトルにより実現されてもよい。すなわち、モデルＭは、混合音声の特徴から適用音声の特徴の適用度合を示す第１適用情報を生成する第１生成部と、混合音声の特徴から混合音声の特徴の適用度合を示す第２適用情報を生成する第２生成部とに対応する適用態様決定部Ｍ３を有する。

第１ゲート部Ｍ４は、適用音声の特徴と、混合音声の特徴に基づいた適用度合とに基づいて、第１特徴情報の生成を行う。例えば、第１ゲート部Ｍ４は、適用音声特徴抽出部Ｍ１により抽出された適用音声の特徴を示すベクトルと、適用態様決定部Ｍ３が混合音声の特徴に基づいて決定した、適用音声の特徴の適用度合を示すベクトルとのアダマール積を算出し、算出したアダマール積を第１特徴情報として出力する。

第２ゲート部Ｍ５は、混合音声の特徴と、混合音声の特徴に基づいた適用度合とに基づいて、第２特徴情報の生成を行う。例えば、第２ゲート部Ｍ５は、混合音声特徴抽出部Ｍ２により抽出された混合音声の特徴を示すベクトルと、適用態様決定部Ｍ３が混合音声の特徴に基づいて決定した、混合音声の特徴の適用度合を示すベクトルとのアダマール積を算出し、算出したアダマール積を第２特徴情報として出力する。

マスク生成部Ｍ６は、第１特徴情報と第２特徴情報とに基づいて、混合音声に含まれる音声のうち適用音声と類似する特徴を有する音声を抽出するための適用音声抽出マスクを生成する。すなわち、マスク生成部Ｍ６は、適用音声の特徴と混合音声の特徴とに基づいた第１特徴情報と、混合音声の特徴に基づいた第２特徴情報とを用いて、混合音声から特徴が適用音声と類似する音声を強調するためのベクトルを適用音声抽出マスクを生成する。すなわち、モデルＭは、第１特徴情報および第２特徴情報を用いて適用音声抽出マスクを生成する第３生成部としてのマスク生成部Ｍ６を有する。

このように、情報提供装置１０が学習するモデルＭは、適用音声の特徴に応じた重みを混合音声の特徴に適用するのではなく、混合音声の特徴に応じたゲート機構を用いて、適用音声の特徴と混合音声の特徴とから、適用音声抽出マスクを生成する。この結果、情報提供装置１０は、モデルＭが有するネットワークの構成を単純化し、パラメータの数を削減することができる。

例えば、従来のモデルでは、主ネットワークと補助ネットワークとの複数のネットワークを用いて混合音声から複数の特徴を抽出し、各特徴に対して目標音声の特徴に応じた重みを適用するといった機構を有していた。しかしながら、このような構成を有するモデルにおいては、個別に動作する複数のネットワークが存在することとなるため、モデル全体としてのパラメータの数が増大する。また、補助ネットワークが出力する各特徴に対する重みは、スカラー値であるため、効率的な学習を行うことができない。

一方、モデルＭは、ゲート機構を用いて、混合音声と適用音声とから、適用音声抽出モデルを生成する。より具体的には、情報提供装置１０は、モデルＭとして、混合音声の特徴から適用音声の特徴の適用度合を示す第１適用情報を生成する第１生成部と、混合音声の特徴から混合音声の特徴の適用度合を示す第２適用情報を生成する第２生成部とに対応する適用態様決定部Ｍ３を有する。そして、情報提供装置１０は、第１適用情報と適用音声の特徴とから第１特徴情報を生成する第１ゲート部Ｍ４と、第２適用情報と混合音声の特徴とから第２特徴情報を生成する第２ゲート部Ｍ５とを有し、第１特徴情報および第２特徴情報とから、適用音声抽出マスクの生成を行う。

このようなゲート機構を有した場合、各部Ｍ１〜Ｍ６が出力する情報は、全てベクトルとなるので、情報提供装置１０は、モデルＭを全体として一つのモデルと見做し、学習を行うことができる。この結果、情報提供装置１０は、学習対象となるパラメータの数を削減し、効率的な学習を実現することができる。

また、このような構成を有するモデルＭは、あらかじめ設定された目標利用者の目標音声を抽出するのではなく、混合音声に含まれる音声のうち適用音声と特徴が類似する音声を抽出するためのマスクを生成することとなる。このような処理の結果、情報提供装置１０は、あらかじめ目標利用者を定めずとも、混成音声に含まれる任意の音声を目標音声として抽出可能なモデルＭを生成することができる。

〔１−４−３．モデルＭの具体例について〕
続いて、図２を用いて、情報提供装置１０が学習を行うモデルの具体的な構成例について説明する。図２は、実施形態に係る情報提供装置が生成するモデルの構成例を示す図である。

例えば、モデルＭが有する適用音声特徴抽出部Ｍ１は、図２において「Ｆ＋ｔａｎｈ」により示される複数の中間層と、「Ａｖｅ（Ａｖｅｒａｇｅ）」により示される出力層とを有するネットワークにより実現される。ここで「Ｆ＋ｔａｎｈ」で示される中間層においては、各層のノードが全結合されており、「ｔａｎｈ」で示される非線形関数が入力された情報に対して適用される。また、「Ａｖｅ」により示される出力層においては、前段の中間層が過去に出力した所定の数の情報の平均値が出力される。なお、図２に示す例では、混成音声特徴抽出部Ｍ２も、適用音声特徴抽出部Ｍ１と同様の構成を有するネットワークにより実現される。

また、モデルＭが有する適用態様決定部Ｍ３は、「Ｆ＋ｒｅｌｕ」で示される複数の中間層Ｍ３１〜Ｍ３３を有するネットワークにより実現される。ここで「Ｆ＋ｒｅｌｕ」で示される中間層においては、各層のノードが全結合されており、「ｒｅｌｕ」で示される非線形関数が入力された情報に対して適用される。例えば、適用態様決定部Ｍ３においては、中間層Ｍ３１が入力された混成音声の特徴に応じたベクトルを中間層Ｍ３２および中間層Ｍ３３に対して並列に入力する。また、中間層Ｍ３２は、第１生成部に対応し、中間層Ｍ３１が出力した混成音声の特徴に応じて適用音声の特徴に対する適用度合を決定する。また、中間層Ｍ３３は、第２生成部に対応し、中間層Ｍ３１が出力した混成音声の特徴に応じて混成音声の特徴に対する適用度合を決定する。

また、モデルＭが有するマスク生成部Ｍ６は、「Ｃｏｎｃａｔ」で示される中間層と、「Ｆ＋ｒｅｌｕ」で示される中間層と、「Ｆ」で示される中間層とを有する。ここで、「Ｃｏｎｃａｔ」で示される中間層においては、第１ゲート部Ｍ４が出力した第１特徴情報のベクトルと、第２ゲート部Ｍ５が出力した第２特徴情報のベクトルとを連結した連結情報を生成する。例えば、「Ｃｏｎｃａｔ」で示される中間層では、５１２次元の第１特徴情報に、５１２次元の第２特徴情報を連結した１０２４次元のベクトルを生成する。また、「Ｆ」で示される中間層は、「Ｆ＋ｒｅｌｕ」で示される中間層による処理が繰り返し行われた連結情報に基づいて、適用音声抽出マスクとなるベクトルを生成するための処理を実行する。

なお、図２に示すモデルＭの構成は、あくまで一例であり、これに限定されるものではない。例えば、モデルＭの各部Ｍ１〜Ｍ６は、任意の数の中間層を有していてもよい。なお、上述した説明における各種の音声は、人間が実際に認識可能な音声であってもよく、このような音声の特徴量であってもよい。すなわち、モデルＭは、実際の音声そのものに対する各種の処理を実現してもよく、音声の特徴量を用いた処理を実現してもよい。すなわち、上述した各種の処理は、実際の音声の検出、抽出、生成等の処理に限定されるものではなく、音声の特徴量の検出、抽出、生成等の処理をも含む概念である。

〔１−４−４．情報処理の一例について〕
続いて、図１に戻り、スマートスピーカ２００が実行する情報処理の一例について説明する。例えば、スマートスピーカ２００は、情報提供装置１０により学習が行われたモデルＭの提供を受付ける（ステップＳ３）。続いて、スマートスピーカ２００は、キーワード音声と混合音声とを受付ける（ステップＳ４）。

このような場合、スマートスピーカ２００は、キーワード音声を適用音声として、混合音声と共にモデルＭに入力し、目標音声を抽出する目標音声抽出マスクを取得する（ステップＳ５）。すなわち、スマートスピーカ２００は、キーワード音声を発話した利用者を目標利用者とし、目標利用者が発話したキーワード音声を適用音声とする。そして、スマートスピーカ２００は、適用音声と混合音声とをモデルＭに入力することで、混合音声のうち適用音声と特徴が類似する音声、すなわち、目標利用者が発話した目標音声を抽出するための目標音声抽出マスクの生成を行う。

すなわち、スマートスピーカ２００は、モデルＭとして、混合音声と適用音声とが入力された際に、混合音声の特徴と適用音声の特徴とに基づいた第１特徴情報を生成するとともに、混合音声の特徴に基づいた第２特徴情報を生成し、入力された混合音声から入力された適用音声を抽出するための抽出情報（すなわち、目標音声抽出マスク）を第１特徴情報と第２特徴情報とから生成するように学習が行われたモデルＭを用いて、目標音声抽出マスクの生成を行う。例えば、スマートスピーカ２００は、利用者が発話した所定のキーワードの音声を適用音声として取得し、混合音声から所定のキーワードを発話した利用者の音声を抽出するための抽出情報を生成する。

そして、スマートスピーカ２００は、目標音声抽出マスクを用いて、混合音声から目標利用者の音声を取得する（ステップＳ６）。すなわち、スマートスピーカ２００は、混合音声から所定のキーワードを発話した利用者の音声を抽出する。例えば、スマートスピーカ２００は、混合音声の各フレームに対し、目標音声抽出マスクとして得られたベクトルを適用することで、目標音声の強調を行う。そして、スマートスピーカ２００は、目標音声の音声認識を実行し、音声認識の結果に応じた各種の処理を実行し、実行結果を目標利用者に対して提供する（ステップＳ７）。このような処理の結果、スマートスピーカ２００は、容易に目標となる情報を抽出し、抽出した情報を用いた各種の情報処理を実現することができる。

〔１−４−５．モデルＭが実行する処理の一例について〕
続いて、数式を用いて、図２に例示した構造を有するモデルＭが実行する処理の一例を数式を用いて説明する。なお、以下の説明では、適用音声と混合音声とを複数のフレームに分割し、分割した各フレームをモデルＭに入力した際に、モデルＭが生成する適用音声抽出マスクの一例について説明する。

例えば、適用音声ｘ^{ａｄａｐｔ}のうち、フレームｔにおけるデータ（例えば、周波数特性を示すベクトル）をｘ_ｔ ^{ａｄａｐｔ}とし、混合音声ｘのうち、フレームｔにおけるデータ（例えば、周波数特性を示すベクトル）をｘ_ｔとする。また、適用音声ｘ^{ａｄａｐｔ}は、所定長（例えば、２秒〜４秒程度）のデータであり、フレーム０〜Ｔに分割されるものとする。一方、混合音声ｘは、任意長のデータであり、フレーム０〜ｔに分割されるものとする。

ここで、「Ｆ＋ｔａｎｈ」で示される適用音声特徴抽出部Ｍ１の複数の中間層が適用音声に対して行う処理をｇ_{ａｕｘ，ｓ}とし、「Ａｖｅ」で示される適用音声特徴抽出部Ｍ１の出力層が、前段となる中間層「Ｆ＋ｔａｎｈ」が出力した情報の履歴の平均値を出力する場合、適用音声特徴抽出部Ｍ１が出力する情報λ_ｓは、以下の式（１）で示すことができる。すなわち、適用音声特徴抽出部Ｍ１は、入力された適用音声ごとにλ_ｓの値を算出することとなる。

同様に、「Ｆ＋ｔａｎｈ」で示される混合音声特徴抽出部Ｍ２の複数の中間層が適用音声に対して行う処理をｇ_{ａｕｘ，ｄ}とし、「Ａｖｅ」で示される混合音声特徴抽出部Ｍ２の出力層が、前段となる中間層「Ｆ＋ｔａｎｈ」が出力した情報の履歴の平均値を出力する場合、フレームｔにおける混合音声ｘ_ｔを入力した際に混合音声特徴抽出部Ｍ２が出力する情報λ_ｄ，ｔは、以下の式（２）で示すことができる。

なお、混合音声が０〜Ｔ_ｍのフレームに分割される場合、混合音声特徴抽出部Ｍ２が出力する情報λ_ｄ，ｔは、以下の式（３）で示されることとなる。

また、適用態様決定部Ｍ３は、フレーム単位の混成発話の特徴量の平均を算出し、算出した特徴量の平均に基づいて、適用音声の特徴の適用度合、および混合音声の特徴の適用度合を算出する。例えば、適用態様決定部Ｍ３における各中間層において各層のノードが全結合されており、各中間層のノードと対応する非線形の活性関数をσとし、第２層における線形変換をＬとし、適用態様決定部Ｍ３の入力層が混合音声ｘ_ｔの特徴に基づいて出力する情報をｘ_ｌ，ｔとする。このような場合、適用態様決定部Ｍ３が出力する第１適用情報は、σ（Ｌ_ｓ（ｘ_ｌ，ｔ））で示すことが出来、第２適用情報は、σ（Ｌ_ｄ（ｘ_ｌ，ｔ））で示すことができる。この結果、第１ゲート部Ｍ４が生成する第１特徴情報ｘ^ｓ _ｌ，ｔは、以下の式（４）で示すことができ、第２ゲート部Ｍ５が生成する第２特徴情報ｘ^ｄ _ｌ，ｔは、以下の式（５）で示すことができる。

この結果、マスク生成部Ｍ６の「Ｃｏｎｃａｔ」で示される中間層は、以下の式（６）に示すように、第１特徴情報ｘ^ｓ _ｌ，ｔおよび第２特徴情報ｘ^ｄ _ｌ，ｔを結合したベクトルｘ_{ｌ＋１，ｔ}を生成して出力することとなる。そして、マスク生成部Ｍ６は、このようなベクトルｘ_{ｌ＋１，ｔ}に基づいて、混合音声から適用音声と特徴が類似する音声を抽出するための適用音声抽出マスク（すなわち、目標音声抽出マスク）を生成することとなる。

〔１−５．学習データについて〕
なお、上述したモデルＭの学習を行う場合、情報提供装置１０は、混合音声と適用音声と適用音声抽出マスクとの組を学習データとするのであれば、任意の学習データを用いてもよい。例えば、情報提供装置１０は、利用者＃１〜＃３の音声を混合した混合音声と、各利用者＃１〜＃３のそれぞれの音声である適用音声＃１〜＃３と、各利用者＃１〜＃３の音声を抽出するための適用音声抽出マスク＃１〜＃３とを学習データとして取得する。このような場合、情報提供装置１０は、混合音声と適用音声＃１とを入力した際に適用音声抽出マスク＃１を出力し、混合音声と適用音声＃２とを入力した際に適用音声抽出マスク＃２を出力し、混合音声と適用音声＃３とを入力した際に適用音声抽出マスク＃３を出力するようにモデルＭの学習を行えばよい。ここで、適用音声＃１〜＃３が混合音声に含まれる音声であってもよく、異なる音声（例えば、個別に発話した音声）であってもよい。

また、情報提供装置１０は、任意の音声が雑音として含まれる音声を混合音声としてもよい。例えば、情報提供装置１０は、キーワード音声と処理音声とを所定の利用者が続けて発話した音声に対し、各種の音を雑音として合成した音声データを学習データに用いてもよい。ここで、雑音として合成される音声には、各種のノイズ音声のみならず、キーワード音声と処理音声とを発話した利用者以外の利用者による発話が含まれていてもよい。また、雑音として合成される音声には、テレビジョンＴＶ等から出力されるであろう音声が含まれていてもよい。また、学習モデルの精度を控除した場合、情報提供装置１０は、様々な種別の雑音を含む音声データを学習データとして採用するのが望ましい。

〔２．機能構成の一例〕
以下、上記した学習処理を実現する情報提供装置１０が有する機能構成の一例、および、上述した情報処理を実現するスマートスピーカ２００が有する機能構成の一例について説明する。

〔２−１．情報提供装置の機能構成の一例について〕
まず、図３を用いて、情報提供装置１０が有する機能構成の一例を説明する。図３は、実施形態に係る情報提供装置の構成例を示す図である。図７に示すように、情報提供装置１０は、通信部２０、記憶部３０、および制御部４０を有する。

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、例えば、スマートスピーカ２００やデータサーバ１００との間で情報の送受信を行う。

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、学習データデータベース３１を記憶する。

学習データデータベース３１は、学習データが登録される。例えば、図４は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図４に示すように、学習データデータベース３１には、「学習データＩＤ（Identifier）」、「混合音声」、「利用者音声」、および「利用者音声マスク」といった項目を有する情報が登録される。

ここで、「学習データＩＤ」とは、学習データの識別子である。また、「混合音声」とは、学習データとなる混合音声の音声データである。また、「利用者音声」とは、対応付けられた混合音声に音声が含まれる利用者により発話された音声であり、適用音声として用いられる音声の音声データである。また、「利用者音声マスク」とは、対応付けられた混合音声から、対応付けられた利用者音声と同一の利用者により発話された音声を抽出するためのマスク、すなわち適用音声抽出マスクである。

例えば、図８に示す例では、学習データデータベース３１には、学習データＩＤ「学習データ＃１」、混合音声「混合音声＃１」、利用者音声「利用者音声＃１−１」、利用者音声マスク「マスク＃１−１」が対応付けて登録されている。このような情報は、学習データＩＤ「学習データ＃１」が示す学習データとして、混合音声「混合音声＃１」から利用者音声「利用者音声＃１−１」と特徴が類似する音声（すなわち、同一利用者により発話された音声）を抽出するためのマスクが利用者音声マスク「マスク＃１−１」である旨を示す。

なお、図４に示す例では、「混合音声＃１」、「利用者音声＃１−１」、および「マスク＃１−１」といった概念的な値を記載したが、実際には、学習データデータベース３１には、各種形式の音声データやマスクを構成する各種の数値等が登録されることとなる。また、図４に示す情報以外にも、学習データデータベース３１には、任意の情報が登録されていてよい。

図３に戻り、説明を続ける。制御部４０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等のプロセッサによって、情報提供装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部４０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

図３に示すように、制御部４０は、取得部４１、学習部４２、および提供部４３を有する。取得部４１は、複数の音声を含む混合音声と、複数の音声のうち抽出対象となる目標音声に特徴が類似する適用音声と、混合音声から目標音声を抽出するための適用音声抽出マスクとを取得する。例えば、取得部４１は、データサーバ１００から、学習データとなる各種の音声や適用音声抽出マスクを取得する。そして、取得部４１は、取得した学習データを学習データデータベース３１に登録する。

学習部４２は、混合音声と適用音声とが入力された際に、混合音声の特徴と適用音声の特徴とに基づいた第１特徴情報を生成するとともに、混合音声の特徴に基づいた第２特徴情報を生成し、生成された第１特徴情報と生成された第２特徴情報とから適用音声抽出マスクを生成するようにモデルＭの学習を行う。

例えば、学習部４２は、図２に示すような構成を有するモデルＭのデータを生成する。より具体的には、学習部４２は、モデルＭとして、適用音声の特徴を抽出する適用音声特徴抽出部Ｍ１と、混合音声の特徴を抽出する混合音声特徴抽出部Ｍ２とを有するモデルＭを生成する。また、学習部４２は、混合音声の特徴から適用音声の特徴の適用度合を示すベクトルである第１適用情報と、混合音声の特徴から混合音声の特徴の適用度合を示すベクトルである第２適用情報とを生成する適用態様決定部Ｍ３を有するモデルＭを生成する。

また、学習部４２は、第１適用情報と適用音声の特徴とからベクトルである第１特徴情報を生成する第１ゲート部Ｍ４と、第２適用情報と混合音声の特徴とからベクトルである第２特徴情報を生成する第２ゲート部Ｍ５とを有するモデルＭを生成する。例えば、学習部４２は、適用音声特徴抽出部Ｍ１が出力したベクトルと、適用態様決定部Ｍ３が出力したベクトルである第１適用情報とのアダマール積を第１特徴情報として出漁する第１ゲート部Ｍ４を有するモデルＭを生成する。また、例えば、学習部４２は、混合音声特徴抽出部Ｍ２が出力したベクトルと、適用態様決定部Ｍ３が出力したベクトルである第２適用情報とのアダマール積を第２特徴情報として出漁する第２ゲート部Ｍ５を有するモデルＭを生成する。

また、学習部４２は、第１特徴情報および第２特徴情報とを連結した連結情報を用いて適用音声抽出マスクを生成するマスク生成部Ｍ６とを有するモデルＭを生成する。例えば、学習部４２は、連結情報からベクトルである適用音声抽出マスクを生成するマスク生成部Ｍ６を有するモデルＭを生成する。

そして、学習部４２は、学習データデータベース３１から学習データを読出し、読み出した学習データを用いて、モデルＭの学習を行う。例えば、学習部４２は、混合音声＃１と、適用音声として用いる利用者音声＃１−１と、適用音声と特徴が類似する音声を混合音声＃１から抽出するためのマスクであるマスク＃１−１とを取得する。そして、学習部４２は、モデルＭに混合音声＃１と利用者音声＃１−１とを入力した際に、モデルＭがマスク＃１−１を出力するように、各種の学習技術を用いて、モデルＭのパラメータを修正する。

提供部４３は、学習部４２により学習が行われたマスクＭを提供する。例えば、提供部４３は、マスクＭの各種パラメータを示すデータをスマートスピーカ２００へと送信する。

〔２−２．スマートスピーカの機能構成の一例について〕
次に、図５を用いて、スマートスピーカ２００が有する機能構成の一例を説明する。図５は、実施形態に係るスマートスピーカの構成例を示す図である。図５に示すように、スマートスピーカ２００は、通信部２１０、記憶部２２０、制御部２３０、入力部２４０および出力部２５０を有する。

通信部２１０は、例えば、ＮＩＣ等によって実現される。そして、通信部２１０は、ネットワークＮと有線または無線で接続され、例えば、情報提供装置１０、データサーバ１００および情報提供装置１０との間で情報の送受信を行う。

記憶部２２０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部２２０は、情報提供装置１０から配信されるモデルＭのデータを学習モデル２１１として記憶する。

入力部２４０は、利用者が発話した音声等、スマートスピーカ２００の周囲から発せられた音声を受付けるマイク等といった入力装置である。また、出力部２５０は、各種の音声を出力するためのスピーカといった、出力装置である。なお、スマートスピーカ２００は、設置位置が異なる複数のマイクを入力部２４０として有していてもよく、複数のスピーカを出力部２５０として有していてもよい。また、スマートスピーカ２００は、各種の情報を表示可能な画面を出力部２５０として有していてもよい。

制御部２３０は、コントローラであり、例えば、ＣＰＵ、ＭＰＵ等のプロセッサによって、スマートスピーカ２００内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部２３０は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

制御部２３０は、検出部２３１、生成部２３２、抽出部２３３、および処理部２３４を有する。ここで、学習モデルＭが図２に示すモデルＭの構成を有する場合、制御部２３０は、学習モデルを実行することで、生成部２５２の機能を有することとなる。なお、検出部２３１、抽出部２３３および処理部２３４は、それぞれ学習モデルＭとは個別の各種プログラムを実行することにより実現されてもよい。

検出部１４１は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する。例えば、検出部１４１は、入力部２４０により取得された音声を入力音声として受付けると、受付けた入力音声からキーワード音声を検出する。より具体的な例を挙げると、検出部１４１は、入力音声に含まれる音声の波形や周波数特性から、キーワードを構成する各音素の特徴や各音素が出現する順番の特徴に基づいて、キーワード音声の検出を行う。換言すると、検出部１４１は、複数の利用者が発話したキーワード音声において共通する特徴に基づいて、キーワード音声を検出を行う。なお、このような検出は、例えば、複数の利用者が発話したキーワード音声の特徴を学習した各種のモデルにより実現されてもよく、非負値行列因子分解といった各種音声の切り分けを行う技術を用いて、キーワード音声の検出を行ってもよい。

生成部２３２は、複数の音声を含む混合音声と、当該複数の音声のうち抽出対象となる目標音声に特徴が類似する適用音声とを取得する。例えば、生成部２３２は、入力部２４０が取得した音声のうち、検出部２３１が検出したキーワード音声を適用音声として取得する。また、生成部２３２は、入力部２４０が取得した音声のうち、検出部２３１が検出したキーワード音声以外の音声を混合音声として取得する。

そして、生成部２３２は、混合音声の特徴と適用音声の特徴とに基づいた第１特徴情報と混合音声の特徴に基づいた第２特徴情報とに基づいて混合音声から目標音声を抽出するための抽出情報を生成するモデルＭを用いて、取得された混合音声から、適用音声と特徴が類似する音声、すなわち、目標音声を抽出するための目標音声抽出マスクを抽出情報として生成する。例えば、生成部２３２は、学習モデル２２１を記憶部２２０から読み出す。そして、生成部２３２は、キーワード音声を適用音声として学習モデル２２１に入力するとともに、混合音声を学習モデル２２１に入力し、学習モデル２２１が出力したベクトルを目標音声抽出マスクとして取得する。すなわち、生成部２３２は、モデルＭを用いて、混合音声からキーワード音声を発話した利用者（すなわち、目標利用者）の発話音声（すなわち、目標音声）を抽出するためのマスクを生成する。

抽出部２３３は、生成された目標音声抽出マスクを用いて、混合音声から目標音声を抽出する。例えば、抽出部２３３は、混合音声の各フレームに対し、フレームごとに生成された目標音声抽出マスクを適用することで、各フレームから、目標音声の強調を行う。すなわち、抽出部２３３は、混合音声から所定のキーワードを発話した利用者の音声を抽出する。

処理部１４７は、目標音声の内容に応じた処理を実行する。例えば、処理部１４７は、目標音声の音声認識を行い、認識結果が「今日の天気は？」で合った場合、外部サーバ等から天気予報の情報を取得する。そして、処理部１４７は、取得した情報を読み上げた音声を出力部２５０から出力する。

〔３．情報提供装置およびスマートスピーカが実行する処理の流れについて〕
次に、図６、図７を用いて、情報提供装置１０およびスマートスピーカ２００が実行する処理の流れの一例について説明する。図６は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。また、図７は、実施形態に係るスマートスピーカが実行する情報処理の流れの一例を示すフローチャートである。

まず、図６を用いて、学習処理の流れの一例を説明する。まず、情報提供装置１０は、混合音声と適用音声と適用音声に対応するマスクとの組を学習データとして取得する（ステップＳ１０１）。そして、情報提供装置１０は、混合音声の特徴と適用音声の特徴とに基づく第１特徴情報と、混合音声の特徴に基づく第２特徴情報から、適用音声の特徴を抽出するマスクを生成するモデルＭの学習を行う（ステップＳ１０２）。そして、情報提供装置１０は、スマートスピーカ２００にモデルを提供し（ステップＳ１０３）、処理を終了する。

続いて、図７を用いて、情報処理の流れの一例を説明する。まず、スマートスピーカ２００は、キーワード音声を検出したか否かを判定し（ステップＳ２０１）、検出していない場合は（ステップＳ２０１：Ｎｏ）、検出するまで待機する。そして、スマートスピーカ２００は、キーワード音声を検出した場合は（ステップＳ２０１：Ｙｅｓ）、キーワード音声に続く後続の音声を取得する（ステップＳ２０２）。そして、スマートスピーカ２００は、キーワード音声を適用音声とし、キーワード音声に続く後続の音声を混合音声としてモデルＭに入力し、キーワード音声と特徴が類似する音声、すなわち、目標音声を抽出する目標音声抽出マスクを生成する（ステップＳ２０３）。

続いて、スマートスピーカ２００は、目標音声抽出マスクを用いて混合音声から目標音声を抽出する（ステップＳ２０４）。そして、スマートスピーカ２００は、目標音声の解析結果に応じた処理を実行し（ステップＳ２０５）、処理の実行結果を提供して（ステップＳ２０６）、処理を終了する。

〔４．効果の一例〕
以下、上述した学習処理によって学習が行われたモデルＭを準備し、モデルＭが生成するマスクの精度の一例について説明する。

例えば、図８は、実施形態に係る情報提供装置が生成するモデルの精度の第１例を示す図である。図８に示す例ではＶＣＴＫ（Voice Cloning Tool Kit）コーパスを用いて学習を行った各種のモデルが出力するマスクの精度の一例を示した。ここで、図８に示す例では、従来のモデルとして、「Ｍｉｘｔｕｒｅ」、「ＳｐｅａｋｅｒＡｄａｐｔｉｖｅＬａｙｅｒ」、および「ＳｐｅａｋｅｒＡｄａｐｔｉｖｅＢｉａｓ」、「Ｏｒａｃｌｅｍａｓｋ」と呼ばれるモデルを準備した。

また、図８に示す例では、モデルＭのうち混合音声特徴抽出部Ｍ２および第２ゲート部Ｍ５を有さないモデルを「ＴｒａｎｓｆｏｒｍＳｔａｔｉｃ」とし、モデルＭのうち混合音声特徴抽出部Ｍ２をオフラインとしたモデルを「ＴｒａｎｓｆｏｒｍＳｔａｔｉｃＤｙｎａｍｉｃ−ｏｆｆｌｉｎｅ」とし、モデルＭを「ＴｒａｎｓｆｏｒｍＳｔａｔｉｃＤｙｎａｍｉｃ−ｏｎｌｉｎｅ」とした。また、図８に示す例では、各モデルの性能の指標として、ＳＤＲ（signal-to-distortion ratio）の改善量であるΔＳＤＲと、ＰＥＳＱ（perceptual evaluation of speech quality score）とを示した。

図８に示すように、ＶＣＴＫコーパスを学習データとして用いた場合、「Ｍｉｘｔｕｒｅ」および「ＳｐｅａｋｅｒＡｄａｐｔｉｖｅＬａｙｅｒ」といった従来のモデルと比較して、ΔＳＤＲおよびＰＥＳＱの値を改善させることができた。

また、図９は、実施形態に係る情報提供装置が生成するモデルの精度の第２例を示す図である。図９に示す例ではＷＳＪ（Wall Street Journal）コーパスを用いて図８に示した各モデルの学習を行った際に、各種のモデルが出力するマスクの精度の一例を示した。図９に示すように、ＷＳＪコーパスを利用した場合においても、従来のモデルと比較して、モデルＭは、ΔＳＤＲおよびＰＥＳＱの値を改善させることができた。

また、図１０は、実施形態に係る情報提供装置が生成するモデルの精度の第３例を示す図である。図１０に示す例ではＶＣＴＫコーパスおよびＷＳＪコーパスを用いて図８、図９に示した各モデルの学習を行った際に、各種のモデルが出力するマスクの精度の一例を示した。図１０に示すように、ＶＣＴＫコーパスおよびＷＳＪコーパスの両方を利用した場合においても、従来のモデルと比較して、モデルＭは、ΔＳＤＲおよびＰＥＳＱの値を改善させることができた。

〔５．変形例〕
上記では、学習処理や情報処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置１０やスマートスピーカ２００が実行する学習処理や情報処理のバリエーションについて説明する。

〔５−１．適用対象について〕
上述した説明では、情報提供装置１０は、混合音声から目標音声を抽出するためのモデルＭの学習を行い、スマートスピーカ２００は、モデルＭを用いて、混合音声から目標音声を抽出するマスクを生成した。しかしながら、実施形態は、これに限定されるものではない。

例えば、スマートスピーカ２００は、電波望遠鏡が受信した電波を、目標となる電波とノイズからなる混合電波と見做し、混合電波から目標となる電波（例えば、予め測定された観測対象の電波や予測された電波）を適用電波として、モデルＭに入力することで、混合電波から目標となる電波を抽出するためのマスクを生成してもよい。また、情報提供装置１０は、このようなマスクを生成するようにモデルＭの学習を行ってもよい。また、情報提供装置１０は、音声や電波以外にも、複数の信号が混合した混合信号から、目標となる目標信号を抽出するためのモデルＭの学習を行ってもよく、スマートスピーカ２００は、このようなモデルＭを用いて、混合信号から目標信号を抽出してもよい。

また、上述した各種の信号以外にも、ベクトルとして表現可能な情報であれば、任意の情報について、上述した学習処理および情報処理を実行して良い。例えば、情報提供装置１０は、複数の情報を示すベクトルを混合情報と見做し、目標となる情報である目標情報のベクトル、若しくは、目標情報と類似する情報のベクトルを適用情報と見做す。そして、情報提供装置１０は、混合情報と適用情報とを入力した際に、混合情報から目標情報を抽出するためのマスクを生成するように、モデルＭの学習を行う。一方、スマートスピーカ２００は、目標情報と所定の共通性を有する情報（例えば、目標情報と類似する他の情報や目標情報の一部、目標情報と出所が類似若しくは共通する情報等）を適用情報として混合情報と共に入力し、混合情報から目標情報を強調するためのマスクを生成する。そして、スマートスピーカ２００は、マスクを用いて混合情報から目標情報を抽出すればよい。

このように、情報提供装置１０およびスマートスピーカ２００は、利用者が発話した音声のみならず、任意の情報について、上述した学習処理および情報処理を実行して良い。また、情報提供装置１０およびスマートスピーカ２００は、任意の目標について上述した学習処理および情報処理を実行して良い。例えば、動画像の中に抽出対象となる利用者が撮影されている場合や、所定の動きを行う利用者が含まれる場合、このような利用者の画像や所定の動きを行った際の画像を示すベクトルを適用情報とし、カメラが撮影した画像を示すベクトルを混合情報とすることで、所定の利用者や所定の動きを行った利用者の抽出を行うためのマスクを生成してもよい。また、例えば、情報提供装置１０およびスマートスピーカ２００は、データベースに格納された複数の情報を示すベクトルを混合情報とし、検索目標となる情報の一部や検索目標と類似する情報を示すベクトルを適用情報とすることで、データベースから検索目標となる情報や類似する情報を検索する手段にモデルを用いてもよい。

すなわち、情報提供装置１０は、混合情報の特徴と適用情報の特徴とに基づいた第１特徴情報と混合情報の特徴に基づいた第２特徴情報とに基づいて混合情報から目標情報を抽出するための抽出情報を生成するモデルを学習するのであれば、任意の種別の情報および任意の目標に用いられるモデルを学習してよい。また、スマートスピーカ２００は、このようなモデルを用いるのであれば、任意の種別の情報について任意の目標にモデルを用いてよい。

〔５−２．適用音声について〕
上述した例では、スマートスピーカ２００は、キーワード音声を適用音声とし、混合音声からキーワード音声と特徴が類似する音声を抽出するためのマスクを目標音声抽出マスクとして生成した。しかしながら、実施形態は、これに限定されるものではない。スマートスピーカ２００は、目標情報の一部もしくは目標情報と類似する情報を適用情報とするのであれば、任意の情報を適用情報としてもよい。

例えば、スマートスピーカ２００は、予め目標となる利用者の声（例えば、２秒〜４秒程度）をあらかじめ記憶しておき、記憶しておいた利用者の声を適用情報として採用してもよい。また、スマートスピーカ２００は、目標となる利用者以外にも、例えば、目標利用者が発生しているであろう文言と同一若しくは類似している文言を発声している他の利用者の声を適用情報とすることで、例えば、所定の文言若しくはそれに類似する文言を発声している利用者の声を目標音声として抽出してもよい。

〔５−３．装置構成〕
記憶部３０に登録された学習データデータベース３１は、外部のストレージサーバに保持されていてもよい。また、情報提供装置１０とスマートスピーカ２００とは、上述した学習処理および情報処理を連携して実現してもよく、いずれか一方の装置が単独で実行してもよい。

〔５−４．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔５−５．プログラム〕
また、上述した実施形態に係る情報提供装置１０は、例えば図１１に示すような構成のコンピュータ１０００によって実現される。図１１は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が情報提供装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムまたはデータ（例えば、学習モデルＭ１）を実行することにより、制御部４０の機能を実現する。コンピュータ１０００の演算装置１０３０は、これらのプログラムまたはデータ（例えば、学習モデルＭ１）を一次記憶装置１０４０から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

〔６．効果〕
上述したように、スマートスピーカ２００は、複数の情報を含む混合情報と、複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報とを取得する。そして、スマートスピーカ２００は、混合情報の特徴と適用情報の特徴とに基づいた第１特徴情報と混合情報の特徴に基づいた第２特徴情報とに基づいて混合情報から目標情報を抽出するための抽出情報を生成するモデルＭを用いて、取得された混合情報および適用情報から、抽出情報を生成する。その後、スマートスピーカ２００は、生成された抽出情報を用いて、混合情報から目標情報を抽出する。このため、スマートスピーカ２００は、目標となる情報の抽出を容易かつ精度良く抽出することができる。

また、スマートスピーカ２００は、モデルＭとして、混合情報の特徴から適用情報の特徴の適用度合を示す第１適用情報を生成する第１生成部（例えば、適用態様決定部Ｍ３）と、第１生成部により生成された第１適用情報と適用情報の特徴とから第１特徴情報を生成する第１ゲート部Ｍ４と、混合情報の特徴から混合情報の特徴の適用度合を示す第２適用情報を生成する第２生成部（例えば、適用態様決定部Ｍ３）と、第２生成部により生成された第２適用情報と混合情報の特徴とから第２特徴情報を生成する第２ゲート部Ｍ５とを有するモデルＭを用いて、抽出情報を生成する。また、スマートスピーカ２００は、モデルＭとして、適用情報の特徴を抽出する第１抽出部（例えば、適用音声特徴抽出部Ｍ１）と、混合情報の特徴を抽出する第２抽出部（例えば、混合音声特徴抽出部Ｍ２）と、第１特徴情報および第２特徴情報を用いて抽出情報を生成する第３生成部とを有するモデルＭを用いて、抽出情報を生成する。また、スマートスピーカ２００は、モデルＭとして、第１特徴情報と第２特徴情報とを連結した連結情報から抽出情報を生成する第３生成部（例えば、マスク生成部Ｍ６）を有するモデルＭを用いて、抽出情報を生成する。このため、スマートスピーカ２００は、精度良く目的情報を抽出できる。

また、スマートスピーカ２００は、モデルＭとして、ベクトルである第１特徴情報を生成する第１ゲート部Ｍ４と、ベクトルである第２特徴情報を生成する第２ゲート部Ｍ５とを有するモデルＭを用いて、抽出情報を生成する。また、スマートスピーカ２００は、モデルＭとして、ベクトルである第１適用情報を生成する第１生成部（例えば、適用態様決定部Ｍ３）と、ベクトルである第２適用情報を生成する第２生成部（例えば、適用態様決定部Ｍ３）とを有するモデルＭを用いて、抽出情報を生成する。また、スマートスピーカ２００は、モデルＭとして、第１適用情報と適用情報の特徴とのアダマール積を第１特徴情報として生成する第１ゲート部Ｍ４と、第２適用情報と混合情報の特徴とのアダマール積を第２特徴情報として生成する第２ゲート部Ｍ５とを有するモデルＭを用いて、抽出情報を生成する。また、スマートスピーカ２００は、モデルＭとして、ベクトルである抽出情報を生成するモデルＭを用いて、抽出情報を生成する。

このように、スマートスピーカ２００は、ベクトルのみで処理を実行可能なモデルＭを用いて、抽出情報を生成する。このようなベクトルのみで処理を実行するモデルＭは、全体として単一のモデルとして学習および処理を実行可能であるので、例えば、主ネットワークと補助ネットワークとを有する従来のモデルと比較して、パラメータの数を減少させることができる。このため、スマートスピーカ２００は、マスクの生成に要する計算コストを削減できる。

また、スマートスピーカ２００は、モデルＭとして、混合情報と適用情報とが入力された際に、混合情報の特徴と適用情報の特徴とに基づいた第１特徴情報を生成するとともに、混合情報の特徴に基づいた第２特徴情報を生成し、入力された混合情報から入力された適用情報を抽出するための抽出情報を、生成された第１特徴情報と生成された第２特徴情報とから生成するように学習が行われたモデルＭを用いて、混合情報から目標情報を抽出するための抽出情報を生成する。このため、スマートスピーカ２００は、精度良く目的情報を抽出できる。

また、スマートスピーカ２００は、混合情報として、所定の利用者の発話音声と他の音声とを含む混合音声を取得するとともに、適用情報として、所定の利用者の発話音声とを取得する。そして、スマートスピーカ２００は、モデルＭを用いて、混合音声から所定の利用者の発話音声を抽出するための抽出情報を生成し、抽出情報を用いて、混合音声から所定の利用者の発話音声を抽出する。例えば、スマートスピーカ２００は、適用音声として、利用者が発話した所定のキーワードの音声を取得する。そして、スマートスピーカ２００は、混合音声から所定のキーワードを発話した利用者の音声を抽出するための抽出情報を生成し、混合音声から所定のキーワードを発話した利用者の音声を抽出する。このため、スマートスピーカ２００は、容易に目標利用者が発した目標音声を抽出するための目標音声抽出マスクを生成することができる。

また、情報提供装置１０は、複数の情報を含む混合情報と、複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報と、混合情報から目標情報を抽出するための抽出情報とを取得する。そして、情報提供装置１０は、混合情報と適用情報とが入力された際に、混合情報の特徴と適用情報の特徴とに基づいた第１特徴情報を生成するとともに、混合情報の特徴に基づいた第２特徴情報を生成し、生成された第１特徴情報と生成された第２特徴情報とから抽出情報を生成するようにモデルＭの学習を行う。このため、情報提供装置１０は、精度良く目的情報を抽出するモデルＭを容易に学習することができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、検出部は、検出手段や検出回路に読み替えることができる。

１０情報提供装置
２０、２１０通信部
３０、２２０記憶部
３１学習データデータベース
４０、２３０制御部
４１取得部
４２学習部
４３提供部
１００データサーバ
２００スマートスピーカ
２２１学習モデル
２３１検出部
２３２生成部
２３３抽出部
２３４処理部
２４０入力部
２５０出力部

Claims

複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報とを取得する取得部と、
前記混合情報の特徴と前記適用情報の特徴とに基づいた第１特徴情報と前記混合情報の特徴に基づいた第２特徴情報とに基づいて前記混合情報から前記目標情報を抽出するための抽出情報を生成するモデルを用いて、前記取得部により取得された前記混合情報および前記適用情報から、前記抽出情報を生成する生成部と、
前記生成部により生成された抽出情報を用いて、前記混合情報から前記目標情報を抽出する抽出部と
を有することを特徴とする情報処理装置。
前記生成部は、前記モデルとして、前記混合情報の特徴から前記適用情報の特徴の適用度合を示す第１適用情報を生成する第１生成部と、第１生成部により生成された第１適用情報と前記適用情報の特徴とから前記第１特徴情報を生成する第１ゲート部と、前記混合情報の特徴から前記混合情報の特徴の適用度合を示す第２適用情報を生成する第２生成部と、第２生成部により生成された第２適用情報と前記混合情報の特徴とから前記第２特徴情報を生成する第２ゲート部とを有するモデルを用いて、前記抽出情報を生成する
ことを特徴とする請求項１に記載の情報処理装置。
前記生成部は、前記モデルとして、前記適用情報の特徴を抽出する第１抽出部と、前記混合情報の特徴を抽出する第２抽出部と、前記第１特徴情報および前記第２特徴情報を用いて前記抽出情報を生成する第３生成部とを有するモデルを用いて、前記抽出情報を生成する
ことを特徴とする請求項２に記載の情報処理装置。
前記生成部は、前記モデルとして、ベクトルである第１特徴情報を生成する第１ゲート部と、ベクトルである第２特徴情報を生成する第２ゲート部とを有するモデルを用いて、前記抽出情報を生成する
ことを特徴とする請求項３に記載の情報処理装置。
前記生成部は、前記モデルとして、前記第１特徴情報と前記第２特徴情報とを連結した連結情報から前記抽出情報を生成する第３生成部を有するモデルを用いて、前記抽出情報を生成する
ことを特徴とする請求項４に記載の情報処理装置。
前記生成部は、前記モデルとして、ベクトルである前記第１適用情報を生成する第１生成部と、ベクトルである前記第２適用情報を生成する第２生成部とを有するモデルを用いて、前記抽出情報を生成する
ことを特徴とする請求項５に記載の情報処理装置。
前記生成部は、前記モデルとして、前記第１適用情報と前記適用情報の特徴とのアダマール積を前記第１特徴情報として生成する第１ゲート部と、前記第２適用情報と前記混合情報の特徴とのアダマール積を前記第２特徴情報として生成する第２ゲート部とを有するモデルを用いて、前記抽出情報を生成する
ことを特徴とする請求項６に記載の情報処理装置。
前記生成部は、前記モデルとして、ベクトルである前記抽出情報を生成するモデルを用いて、前記抽出情報を生成する
ことを特徴とする請求項７に記載の情報処理装置。
前記生成部は、前記モデルとして、混合情報と適用情報とが入力された際に、当該混合情報の特徴と当該適用情報の特徴とに基づいた第１特徴情報を生成するとともに、当該混合情報の特徴に基づいた第２特徴情報を生成し、入力された混合情報から入力された適用情報を抽出するための抽出情報を、生成された第１特徴情報と生成された第２特徴情報とから生成するように学習が行われたモデルを用いて、前記取得部により取得された混合情報から前記目標情報を抽出するための抽出情報を生成する
ことを特徴とする請求項１〜７のうちいずれか１つに記載の情報処理装置。
前記取得部は、前記混合情報として、所定の利用者の発話音声と他の音声とを含む混合音声を取得するとともに、前記適用情報として、前記所定の利用者の発話音声である適用音声とを取得し、
前記生成部は、前記モデルを用いて、前記混合音声から前記所定の利用者の発話音声を抽出するための抽出情報を生成し、
前記抽出部は、前記抽出情報を用いて、前記混合音声から前記所定の利用者の発話音声を抽出する
ことを特徴とする請求項１〜９のうちいずれか１つに記載の情報処理装置。
前記取得部は、前記適用音声として、利用者が発話した所定のキーワードの音声を取得し、
前記生成部は、前記混合音声から前記所定のキーワードを発話した利用者の音声を抽出するための抽出情報を生成し、
前記抽出部は、前記混合音声から前記所定のキーワードを発話した利用者の音声を抽出する
ことを特徴とする請求項１０に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報とを取得する取得工程と、
前記混合情報の特徴と前記適用情報の特徴とに基づいた第１特徴情報と前記混合情報の特徴に基づいた第２特徴情報とに基づいて前記混合情報から前記目標情報を抽出するための抽出情報を生成するモデルを用いて、前記取得工程により取得された前記混合情報および前記適用情報から、前記抽出情報を生成する生成工程と、
前記生成工程により生成された抽出情報を用いて、前記混合情報から前記目標情報を抽出する抽出工程と
を含むことを特徴とする情報処理方法。
複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報とを取得する取得手順と、
前記混合情報の特徴と前記適用情報の特徴とに基づいた第１特徴情報と前記混合情報の特徴に基づいた第２特徴情報とに基づいて前記混合情報から前記目標情報を抽出するための抽出情報を生成するモデルを用いて、前記取得手順により取得された前記混合情報および前記適用情報から、前記抽出情報を生成する生成手順と、
前記生成手順により生成された抽出情報を用いて、前記混合情報から前記目標情報を抽出する抽出手順と
をコンピュータに実行させるための情報処理プログラム。
複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報と、当該混合情報から当該目標情報を抽出するための抽出情報とを取得する取得部と、
前記混合情報と前記適用情報とが入力された際に、当該混合情報の特徴と当該適用情報の特徴とに基づいた第１特徴情報を生成するとともに、当該混合情報の特徴に基づいた第２特徴情報を生成し、生成された第１特徴情報と生成された第２特徴情報とから前記抽出情報を生成するようにモデルの学習を行う学習部と
を有することを特徴とする学習装置。
学習装置が実行する学習方法であって、
複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報と、当該混合情報から当該目標情報を抽出するための抽出情報とを取得する取得工程と、
前記混合情報と前記適用情報とが入力された際に、当該混合情報の特徴と当該適用情報の特徴とに基づいた第１特徴情報を生成するとともに、当該混合情報の特徴に基づいた第２特徴情報を生成し、生成された第１特徴情報と生成された第２特徴情報とから前記抽出情報を生成するようにモデルの学習を行う学習工程と
を含むことを特徴とする学習方法。
複数の情報を含む混合情報と、当該複数の情報のうち抽出対象となる目標情報に特徴が類似する適用情報と、当該混合情報から当該目標情報を抽出するための抽出情報とを取得する取得手順と、
前記混合情報と前記適用情報とが入力された際に、当該混合情報の特徴と当該適用情報の特徴とに基づいた第１特徴情報を生成するとともに、当該混合情報の特徴に基づいた第２特徴情報を生成し、生成された第１特徴情報と生成された第２特徴情報とから前記抽出情報を生成するようにモデルの学習を行う学習手順と
をコンピュータに実行させるための学習プログラム。