JP6688820B2

JP6688820B2 - 出力装置、出力方法、および出力プログラム

Info

Publication number: JP6688820B2
Application number: JP2018034776A
Authority: JP
Inventors: 伸裕鍜治
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2020-04-28
Anticipated expiration: 2038-02-28
Also published as: JP2019149768A

Description

本発明は出力装置、出力方法、および出力プログラムに関する。

従来、観測信号に含まれる複数の信号から認識目的となる信号（以下、「目的信号」と記載する場合がある。）を認識する技術が知られている。このような技術の一例として、複数の測定装置が同時期に測定した測定信号の比較結果に基づいて、目的信号の伝達元となる方向を推定し、推定した方向から伝達する信号を強調するビームフォーミング処理が提案されている。

また、このような目的信号の認識を行い、認識結果に基づいて、各種の処理を行う技術が提案されている。このような技術の一例として、利用者が発した音声の音声認識を行い、音声認識の結果に従って各種の処理を実行する端末装置の技術が知られている。

特開２０１７−９０８５３号公報

"Generating Adversarial Examples for Speech Recognition", Dan Iter, Jade Huang, Mike Jermann

しかしながら、従来技術では、利用者が意図しない動作を端末装置が実行する恐れがある。

例えば、上述した従来技術では、音声認識の結果に従って各種の処理を実行するため、テレビやラジオで放送される音声等、利用者が発した音声以外の音声を認識した場合、利用者が意図しない処理を実行してしまう恐れがある。

本願は、上記に鑑みてなされたものであって、利用者が意図しない端末装置の動作を防止することを目的とする。

本願に係る出力装置は、入力信号を受付ける受付部と、前記入力信号のうち所定の範囲を、所定の端末装置が正しく識別できないように変更する変更部と、前記変更部によって前記所定の範囲が変更された入力信号を出力する出力部とを有することを特徴とする。

実施形態の一態様によれば、利用者が意図しない端末装置の動作を防止することができる。

図１は、実施形態に係る情報提供装置が実行する学習処理および出力処理の一例を示す図である。図２は、実施形態に係る情報提供装置および音声デバイスの構成例を示す図である。図３は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図４は、実施形態に係る情報提供装置が音声を変更する処理の一例を示す図である。図５は、実施形態に係る情報提供装置が実行する出力処理の流れの一例を示すフローチャートである。図６は、ハードウェア構成の一例を示す図である。

以下に、本願に係る出力装置、出力方法、および出力プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る出力装置、出力方法、および出力プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

［実施形態］
〔１．情報提供装置の概要について〕
まず、図１を用いて、出力装置の一例である情報提供装置が実行する出力処理の一例について説明する。図１は、実施形態に係る情報提供装置が実行する学習処理および出力処理の一例を示す図である。図１では、情報提供装置１０は、以下に説明する学習処理および出力処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。

例えば、情報提供装置１０は、インターネット等の所定のネットワークＮ（例えば、図２参照）を介して、情報処理装置１００、および配信装置２００と通信可能である。なお、情報提供装置１０は、音声デバイス３００と通信可能であってもよい。例えば、情報提供装置１０は、情報処理装置１００や音声デバイス３００との間で、音声に関するデータ等、各種データの送受信を行う。なお、情報提供装置１０は、任意の数の情報処理装置１００、配信装置２００、および音声デバイス３００と通信可能であってよい。

また、情報提供装置１０は、ネットワークＮや、その他任意の通信経路を介して、端末装置ＴＭに対し、任意の信号を送信可能である。例えば、情報提供装置１０は、所定の周波数の搬送波を介して、送信対象となる信号を端末装置ＴＭに送信可能である。より具体的な例を挙げると、情報提供装置１０は、テレビ放送ネットワークやラジオネットワークを介して、音声を示す信号を送信する。このような場合、端末装置ＴＭは、搬送波から音声を示す信号を分離し、分離した信号に基づいて、音声の再生を行う。以下の説明では、情報提供装置１０は、少なくとも音声を含む信号を端末装置ＴＭへと送信し、端末装置ＴＭに音声の再生を実行させるものとする。

なお、情報提供装置１０が信号を端末装置ＴＭへと送信する手法は、上述したものに限定されるものではない。例えば、情報提供装置１０は、オンデマンドにコンテンツを配信するサービスを提供する情報処理装置であってもよい。例えば、情報提供装置１０は、端末装置ＴＭから配信対象とする動画像コンテンツや音声コンテンツの指定を受付けると、指定されたコンテンツのデータを配信装置２００から取得する。そして、情報提供装置１０は、ネットワークＮを介して、取得したデータを端末装置ＴＭへと配信してもよい。

情報処理装置１００は、各種データを保持する情報処理装置であり、サーバ装置やクラウドシステム等により実現される。例えば、情報処理装置１００は、後述する学習処理において用いる学習データを保持し、学習データを情報提供装置１０に提供する。

配信装置２００は、端末装置ＴＭへと配信される信号を配信する。例えば、配信装置２００は、端末装置ＴＭに再生させる音声の音声信号を情報提供装置１０へと配信する。すなわち、配信装置２００は、端末装置ＴＭへと配信される音声（以下、「配信音声」と記載する。）を、情報提供装置１０へと配信する。なお、配信装置２００は、音声を含む動画像の信号を情報提供装置１０に配信してもよい。また、配信装置２００は、音声データや動画像のデータを配信してもよい。

端末装置ＴＭは、利用者が使用する端末装置であり、例えば、ＰＣ（Personal Computer）やテレビジョン装置、ラジオ装置等により実現される。例えば、端末装置ＴＭは、情報提供装置１０から音声を示す信号等の情報を受けつけると、受付けた信号が示す音声を再生し、出力する機能を有する。

音声デバイス３００は、周囲の音を取得するマイク等の取得装置と、任意の音を出力可能なスピーカー等の出力装置とを有する入出力装置とを有する入出力装置であり、例えば、スマートスピーカーと呼ばれるデバイスである。例えば、音声デバイス３００は、出力装置を用いて、音楽の出力や音声による情報提供を実現可能な装置である。また、音声デバイス３００は、音の入力を受付ける受付機能を有し、利用者Ｕが発した音声を取得すると、取得した音声の内容に応じた音を出力する出力機能を有する。

例えば、音声デバイス３００は、利用者Ｕが所定の楽曲の曲名を示す音声を発した場合には、各種の音声解析技術により、音声が示す曲名を特定し、特定した曲名が示す楽曲のデータを、ネットワークＮ（例えば、図２を参照）を介して、所定の外部サーバ（図示は省略）から取得する。そして、音声デバイスは、取得した楽曲を再生する。

なお、音声デバイス３００は、例えば、利用者Ｕが発した音声の内容を各種の音声解析技術により特定し、特定した内容に応じた応答を出力する機能を有する。例えば、音声デバイス３００は、「今日の天気は？」といった利用者Ｕの音声を取得した場合は、外部サーバから天気や気温などといった各種の気象情報を取得し、取得した気象情報を読み上げることで、利用者Ｕに天気の情報を提供する。また、音声デバイス３００は、上述した処理以外にも、例えば、電子商店街に出品された商品の注文、空調装置や照明装置等といった各種家電機器の制御、メールやスケジュールの読み上げ等といった各種の処理を実現可能なスマートスピーカーである。

ここで、音声デバイス３００は、それぞれ異なる位置に取付けられた複数の取得装置（例えば、マイク等）を有し、各取得装置を介して受付けた音声を用いて、上述した各種の処理を実行するものとする。なお、音声デバイス３００は、それぞれ異なる位置に取付けられた複数の取得装置を有する装置であれば、例えば、スマートデバイスや録音装置等、任意の装置であってもよい。また、音声デバイス３００は、物理的に離間した位置に設置された複数の取得装置と無線ＬＡＮ（Local Area Network）やブルートゥース（登録商標）等の無線通信を介して接続され、各取得装置が取得した音声を収集する装置であってもよい。

なお、以下の説明では、音声デバイス３００は、入力装置として複数のマイクを有するものとする。また、以下の説明では、各マイクが取得した音声信号を観測信号と記載する場合がある。

〔１−１．音声デバイスが実行する処理について〕
ここで、音声デバイス３００に各種処理を実行させるため、所定の起動音声を用いる技術が知られている。例えば、音声デバイス３００は、商品名や所定の単語等、予め定められた所定のキーワード（以下、「起動音声」と記載する。）の音声信号が有する特徴をあらかじめ学習したモデルを保持する。そして、音声デバイス３００は、周囲の音声を常時取得し、モデルを用いて取得した音声に起動音声が含まれているか否かを判定する。

また、音声デバイス３００は、起動音声が含まれると判定した場合、すなわち、起動音声の検出を行った場合は、起動音声に続く音声の音声認識を実行する。例えば、音声デバイス３００は、起動音声に続く音声（以下、「指示音声」と記載する。）の音声認識を実行し、指示音声をテキストに変換する。続いて、音声デバイス３００は、変換後のテキストの意図解析を実行することで、指示音声が示す処理の内容を特定し、特定した処理の実行結果を出力する。例えば、音声デバイス３００は、処理の実行結果として、音楽の再生や情報の提供、電子商店街における取引対象の注文等を実行する。なお、音声デバイス３００は、指示音声を外部サーバ（図示は、省略）に送信し、外部サーバに音声認識、意図解析、および処理の実行を行わせてもよい。

なお、音声デバイス３００は、起動音声を用いて、ビームフォーミングと呼ばれる処理を実行してもよい。例えば、音声デバイス３００は、複数のマイクを用いて周囲の音声を取得し、各マイクが取得した音声毎に、起動音声の検出を行う。そして、音声デバイス３００は、各マイクが起動音声を取得した時間のずれに基づいて、起動音声が発せられた方向（すなわち、利用者の方向）とマイクの間の空間的な情報を推定する。そして、利用者Ｕの声が発せられた方向から到来する音声を強調するよう、推定した空間的な情報を用いて各マイクが観測した観測信号に対する重み付けを行い、各観測信号の合成が行われる。

〔１−２．情報提供装置が実行する処理について〕
近年、スマートスピーカーの普及に伴い、利用者が意図しない動作をスマートスピーカーが実行してしまうという問題が生じている。例えば、スマートスピーカーは、音声によって操作が可能であるため、例えば、端末装置ＴＭが出力する音声に起動音声が含まれる場合は、起動音声に続く音声に従って、音声デバイス３００が処理を実行してしまう恐れがある。また、音声デバイス３００が起動音声を用いたビームフォーミングを行う場合、端末装置ＴＭが起動音声を出力すると、端末装置ＴＭ側から発せられる音が強調される結果、利用者の音声が適切に認識されなくなる恐れがある。また、将来的に起動音声が用いられなくなった場合、このような音声デバイス３００の誤作動が増加するとも考えられる。

そこで、情報提供装置１０は、以下の出力処理を実行する。まず、情報提供装置１０は、入力信号を受付ける。そして、情報提供装置１０は、入力信号のうち所定の範囲を、所定の端末装置が正しく識別できないように変更し、所定の範囲が変更された入力信号を出力する。ここで、入力信号のうち所定の範囲を所定の端末装置が正しく識別できないようにする処理とは、所定の範囲に含まれる信号を正しく検出できなくする処理のみならず、所定の範囲に含まれる信号の認識処理を正しく検出できなくする処理をも含む概念である。

例えば、情報提供装置１０は、音声デバイス３００が、所定の範囲に含まれる信号を正しく検出できないように変更すればよい。より具体的な例を挙げると、情報提供装置１０は、音声デバイス３００が起動音声の検出を行えなくなるように、配信音声のうち起動音声が含まれる範囲を変更する。また、情報提供装置１０は、音声デバイス３００が、所定の範囲に含まれる信号が示す処理を正しく認識できないように変更すればよい。より具体的な例を挙げると、情報提供装置１０は、音声デバイス３００が起動音声や指示音声の音声認識を正しく行うことができなくなるように、配信音声のうち起動音声が含まれる範囲を変更する。すなわち、情報提供装置１０は、所定の装置が所定の音声に対して反応しなくなるように、所定の音声を変更すればよい。

例えば、情報提供装置１０は、端末装置ＴＭへの配信対象となる配信音声の音声信号を受付けると、配信音声のうち、起動音声が含まれる範囲を推定する。そして、情報提供装置１０は、配信音声のうち、推定された範囲（以下、「推定範囲」と記載する場合がある。）を、音声デバイス３００が正しく識別できないように変更する。そして、情報提供装置１０は、変更済みの音声（以下、「変更音声」と記載する。）を、端末装置ＴＭへと配信する。

このような処理を実行した場合、端末装置ＴＭは、推定範囲を音声デバイス３００が正しく識別できない状態で、音声信号の再生を行うこととなる。このため、情報提供装置１０は、音声デバイス３００の誤動作を防ぐごとができる。

〔１−３．変更音声について〕
ここで、情報提供装置１０が配信音声を変更音声に変更する具体例について説明する。例えば、情報提供装置１０が配信音声に含まれる起動音声を他の音声へと変更したり、配信音声のうち起動音声の部分を無音に変更した場合は、音声デバイス３００が起動音声を検出することができなくなるものの、端末装置ＴＭから出力される音声を利用者が理解できなくなる恐れがある。一方で、音声デバイス３００が起動音声が有する特徴を学習したモデルを用いて周囲の音声から起動音声を検出する場合、変更後の音声が起動音声と類似する特徴を有していると、音声デバイス３００が変更後の音声を起動音声として検出する恐れがある。例えば、起動音声の音量を小さくしただけでは、音声デバイス３００が起動音声を検出してしまう恐れがある。

そこで、情報提供装置１０は、いわゆるアドバーサリアルエグザンプルの技術を用いて、起動音声の変更を行う。例えば、所定の情報が有する特徴を学習したモデルは、入力された情報が所定の情報であるか否かを分類を行う。しかしながら、このようなモデルは、入力された情報にある種のノイズを付加することで、正しい分類を行えなくなることが知られている。例えば、猫の外観が有する特徴を学習したモデルは、画像に撮像された撮像対象が猫であるか否かを推定することができる。ここで、画像にある種の微小なノイズを付加した場合、人間には変化があまりないと認識される（すなわち、元の画像に撮影された猫を認識することができる）にも関わらず、猫以外のものが撮影されているとモデルが誤判定してしまう。

そこで、情報提供装置１０は、起動音声をアドバーサリアルエグザンプル（以下、「アドバーサリアル音声」と記載する。）へと変更し、変更したアドバーサリアル音声を含む変更音声を出力する。すなわち、情報提供装置１０は、配信音声に含まれる起動音声を、利用者が差異を認識することができないが、モデルに誤判定を行わせる程度の差異を有する音声へと変更する。例えば、情報提供装置１０は、入力信号のうち所定の範囲に含まれる信号に対し、その信号を音声デバイス３００が正しく識別できなくさせる強度のノイズを合成する。より具体的な例を挙げると、情報提供装置１０は、音声信号のうち所定の範囲に含まれる信号に対し、利用者による認識が困難な強度のノイズであって、音声デバイス３００が音声を正しく識別できなくなる強度のノイズを合成する。

このような処理の結果、情報提供装置１０は、利用者による配信音声の認識を阻害することなく、音声デバイス３００が起動音声を検出したり認識することを防ぐことができる。なお、このようなアドバーサリアル音声を生成する技術については、例えば、非特許文献１に提案された手法等、任意の手法が採用可能である。

〔１−４．変更対象について〕
ここで、情報提供装置１０は、利用者が想定しない処理を音声デバイス３００に実行させることを防ぐのであれば、配信音声のうち任意の範囲の音声を変更してよい。

例えば、音声デバイス３００は、所定の起動音声を検出あるいは認識すると、後続する音声の音声認識を行い、認識結果に従って各処理を実行する。このような場合、起動音声を正しく検出あるいは認識できなくすれば、音声デバイス３００の誤作動を防ぐことができると考えられる。そこで、情報提供装置１０は、所定の範囲として、後続する音声が示す処理を音声デバイス３００に実行させるための音声、すなわち、起動音声が含まれる範囲を、音声デバイス３００が正しく識別できないように変更すればよい。例えば、情報提供装置１０は、配信音声のうち起動音声が含まれる範囲を推定し、推定した範囲の音声に所定のノイズを合成することで、起動音声をアドバーサリアル音声に変更すればよい。

また、音声デバイス３００は、所定の起動音声等、所定の音声を用いて、上述したビームフォーミングを行うこととなる。そこで、情報提供装置１０は、所定の範囲として、音声デバイス３００が送信元の方向を推定する際に用いる音声が含まれる範囲を、アドバーサリアル音声に変更すればよい。このような処理を実行した場合、音声デバイス３００がビームフォーミングに用いる起動音声を検出することができなくなるので、音声デバイス３００による音声検出や音声認識の精度を低下させる結果、情報提供装置１０は、利用者が意図しない音声デバイス３００の動作を防止することができる。

また、音声デバイス３００は、起動音声等、所定の音声が有する特徴を学習したモデルを用いて、所定の音声を検出し、検出した音声に後続する音声の認識処理を実行することとなる。そこで、情報提供装置１０は、所定の範囲として、音声デバイス３００が用いるモデルが特徴を学習した音声であって、音声デバイス３００が検出した際に後続する音声の認識処理を行わせるための音声が含まれる範囲を、アドバーサリアル音声に変更すればよい。このような処理の結果、音声デバイス３００が起動音声を検出できなくなるので、情報提供装置１０は、利用者が意図しない音声デバイス３００の動作を防止することができる。

また、音声デバイス３００は、起動音声を用いて、後続する指示音声を強調するマスクを生成する場合がある。例えば、音声デバイス３００は、起動音声の特徴に基づいて、各マイクの音声を合成する際の係数をマスクとして生成する場合がある。そこで、情報提供装置１０は、入力信号のうち、音声デバイス３００が後続する信号を強調するマスクの生成に用いる所定の信号が含まれる範囲を、音声デバイス３００が検出あるいは認識できなくなるように変更してもよい。

なお、情報提供装置１０は、起動音声に続く音声等、音声デバイス３００に各種の処理を実行させる音声、すなわち指示音声が含まれる範囲をアドバーサリアル音声に変更してもよい。すなわち、情報提供装置１０は、所定の範囲として、音声デバイス３００に実行させる処理を示す音声が含まれる範囲を、アドバーサリアル音声に変更してもよい。また、情報提供装置１０は、配信音声全体をアドバーサリアル音声に変更してもよい。このような処理の結果、情報提供装置１０は、利用者が意図しない音声デバイス３００の動作を防止することができる。

〔１−５．変更対象とする範囲について〕
ここで、情報提供装置１０は、アドバーサリアル音声に変更する範囲を任意の手法で特定あるいは推定してよい。例えば、情報提供装置１０は、起動音声等、アドバーサリアル音声に変更する音声（以下、「変更対象音声」と記載する。）が有する特徴を学習した学習モデルを生成する。そして、情報提供装置１０は、学習モデルを用いて、配信音声のうち変更対象音声が含まれる範囲を推定し、推定した範囲をアドバーサリアル音声に変更すしてもよい。

例えば、情報提供装置１０は、複数のノードを多段に接続したニューラルネットワークをモデルとして準備する。このようなモデルは、例えば、ＤＮＮ（Deep Neural Network）、ＬＳＴＭ（Long Short-Term Memory）畳み込みニューラルネットワークや、再帰型ニューラルネットワークであってもよい。また、モデルは、これら畳み込みニューラルネットワークや、再帰型ニューラルネットワークの機能を組み合わせたものであってもよい。また、情報提供装置１０は、サポートベクトル回帰（Support Vector Regression）等の任意の回帰モデルを用いてもよい。

また、情報提供装置１０は、変更対象音声の例を取得する。例えば、情報提供装置１０は、様々な性別や様々な年代の利用者が発した変更対象音声の音声信号を正例として取得する。また、情報提供装置１０は、変更対象音声以外の音声を負例として取得する。そして、情報提供装置１０は、正例となる音声信号を入力した際には、変更対象音声を検出した旨を出力し、負例としなる音声信号を入力した際には、変更対象音声以外の音声を検出した旨を出力するように、バックプロパゲーション等の技術を用いて、モデルの学習を行う。

また、情報提供装置１０は、上述した学習が行われたモデル、すなわち学習モデルに対して配信音声を入力し、学習モデルの出力結果から、変更対象音声が含まれる範囲を推定する。例えば、情報提供装置１０は、学習モデルが変更対象音声を検出した旨を出力した範囲を、変更対象音声が含まれる範囲として推定する。そして、情報提供装置１０は、推定した範囲の音声をアドバーサリアル音声に変更すればよい。

なお、変更対象音声として起動音声が採用される場合、情報提供装置１０は、音声デバイス３００が起動音声の検出に用いるモデルを用いて、配信音声から起動音声を検出し、起動音声が検出された範囲をアドバーサリアル音声に変更してもよい。すなわち、音声デバイス３００が用いるモデルであって、音声デバイス３００に検出させたくない音声を検出するモデルと同じモデルを用いて、アドバーサリアル音声に変更する範囲を設定してもよい。

また、情報提供装置１０は、配信音声に対して予め付与されたマーキングに基づいて、アドバーサリアル音声に変更範囲を設定してもよい。例えば、配信装置２００は、配信音声のうち、起動音声が含まれる範囲の先頭部分に所定の信号を付与する。例えば、情報提供装置１０は、人間が視聴することができない周波数の音声やピーク信号等、ステガノグラフィの技術を用いて、起動音声が含まれる範囲を示す信号を配信音声に付与する。

このような場合、情報提供装置１０は、配信音声から所定の信号を検出し、検出した信号が示す範囲をアドバーサリアル音声に変更する。例えば、情報提供装置１０は、所定の信号が検出された場合、検出された位置から１０秒間の範囲に含まれる音声をアドバーサリアル音声に変更する。このような処理を実行することで、情報提供装置１０は、例えば、ストリーミング形式で配信される配信音声のうち、起動音声が含まれる範囲を、アドバーサリアル音声に変更することができる。

〔１−６．処理の一例について〕
以下、図１を用いて、情報提供装置１０が実行する処理の一例について説明する。まず、情報提供装置１０は、学習に用いる起動音声を情報処理装置１００から取得する（ステップＳ１）。このような場合、情報提供装置１０は、起動音声が有する特徴をモデルに学習させることで（ステップＳ２）、起動音声が有する特徴を学習した学習モデルを生成する。

続いて、情報提供装置１０は、配信装置２００から配信対象となる配信音声を受付ける（ステップＳ３）。このような場合、情報提供装置１０は、学習モデルを用いて、配信音声から起動音声が含まれる範囲を推定する（ステップＳ４）。そして、情報提供装置１０は、音声デバイス３００が用いるモデルが適切な検出を行えないように、配信音声のうち起動音声が含まれると推定された推定範囲を変更する（ステップＳ５）。例えば、情報提供装置１０は、推定範囲の信号に所定のランダムノイズを合成することで、モデルが起動音声を正しく識別することができないアドバーサリアル音声を生成する。そして、情報提供装置１０は、配信音声のうち推定範囲をアドバーサリアル音声に置き換えた変更音声を生成し、生成した変更音声を端末装置ＴＭへと配信する（ステップＳ６）。

このような場合、端末装置ＴＭは、変更音声を出力することとなる。このような変更音声に含まれるアドバーサリアル音声からは、人間が起動音声を識別することができるものの、音声デバイス３００が起動音声を検出するモデルが、起動音声を検出することができない。この結果、音声デバイス３００は、端末装置ＴＭが出力した変更音声からモデルを用いて起動音声の検出を試行するものの（ステップＳ７）、起動音声を検出することができないため、そのまま処理を終了する。一方、利用者は、変更音声から起動音声を識別することができるので、配信音声をそのまま認識することができる（ステップＳ８）。

〔１−７．処理の実行主体について〕
上述した例では、情報提供装置１０は、配信装置２００から受付けた配信音声のうち起動音声が含まれる範囲等、所定の範囲をアドバーサリアル音声に変更し、変更後の変更音声を端末装置ＴＭへと配信した。しかしながら、実施形態は、これに限定されるものではない。

例えば、配信装置２００は、配信対象となる配信音声を登録した登録者から、配信音声のうち起動音声等、音声デバイス３００に識別させたくない音声が含まれる範囲の指示を受付ける。このような場合、配信装置２００は、情報提供装置１０と同様に、指示された範囲をアドバーサリアル音声に変更してもよい。

また、例えば、端末装置ＴＭは、配信装置２００から直接配信音声の配信を受付ける。そして、端末装置ＴＭは、情報提供装置１０と同様に、音声デバイス３００に識別させたくない音声が含まれる範囲を推定し、推定した範囲の音声をアドバーサリアル音声に変更してから、配信音声を出力してもよい。

すなわち、所定の音声をアドバーサリアル音声に変更する処理は、配信音声を配信する装置が実行してもよく、配信音声を中継する装置が実行してもよく、配信音声を再生する装置が実行してもよい。また、上述した所定の音声をアドバーサリアル音声に変更する機能は、端末装置といった情報処理装置やテレビもしくはラジオ等の装置以外にも、例えば、音声を出力するスピーカーやアンプ等に備えられていてもよい。

また、端末装置ＴＭがオンデマンドで配信される動画コンテンツの再生を行う場合、例えば、情報提供装置１０は、動画コンテンツに含まれる音声を分離し、分離した音声をアドバーサリアル音声に変更し、変換後のアドバーサリアル音声を動画のデータと再結合したコンテンツを生成し、生成したコンテンツの配信を行えばよい。

また、端末装置ＴＭが所定の音声をアドバーサリアル音声に変更する場合、端末装置ＴＭが有する所定のハードウェアが処理を実行してもよく、ソフトウェアが処理を実行してもよい。例えば、端末装置ＴＭが実行するソフトウエアであって、音声の再生を行うソフトウェアが、再生対象となる音声のうち所定の範囲をアドバーサリアル音声に変更した上で、音声の再生を行ってもよい。

〔１−８．処理の適用範囲について〕
上述した説明では、情報提供装置１０は、入力信号として音声信号を受付け、音声信号に含まれる音声のうち所定の範囲に含まれる音声を所定の端末装置が正しく識別できないように変更した。より具体的には、情報提供装置１０は、音声デバイス３００が使用するモデルであって、音声信号に含まれる音声のうち後続する音声信号の音声認識を実行させる起動音声を検出するモデルが検出できないように、音声信号に含まれる起動音声をアドバーサリアル音声に変更した。しかしながら、実施形態は、これに限定されるものではない。

上述した所定の音声をアドバーサリアル音声に変更する処理等は、音声のみならず、任意の波形を有する任意の信号に対して適用可能である。例えば、情報提供装置１０は、所定の装置に対して所定の処理を実行させる恐れがある電波、超音波、マイクロ波等の各種信号を入力信号として取得する。このような場合、情報提供装置１０は、入力信号のうち、所定の装置に対して所定の処理を実行させる範囲を推定し、推定した範囲をアドバーサリアル信号に変換する。そして、情報提供装置１０は、変換後の信号を出力すればよい。

〔１−９．モデルの学習内容について〕
上述した例では、情報提供装置１０は、起動音声の検出を行うモデルの学習を行った。しかしながら、実施形態は、これに限定されるものではない。例えば、ＤＮＮ等のモデルは、ある入力情報を入力した際に、その入力情報が有する特徴に基づいた出力情報を出力するように学習を行うことが可能である。このようなモデルの特性を考慮し、例えば、情報提供装置１０は、配信音声を入力した際に、起動音声等の所定の音声が含まれる範囲をアドバーサリアル音声に変換した変換音声を直接出力するように、モデルの学習を行ってもよい。

〔２．情報提供装置が有する機能構成の一例について〕
以下、上記した検出処理および配信処理を実現する情報提供装置１０および音声デバイス３００が有する機能構成の一例について説明する。図２は、実施形態に係る情報提供装置および音声デバイスの構成例を示す図である。図２に示すように、情報提供装置１０は、通信部２０、記憶部３０、および制御部４０を有する。また、音声デバイス３００は、通信部３１０、記憶部３２０、制御部３３０、出力部３４０および観測部３５０を有する。

まず、音声デバイス３００が有する機能構成の一例について説明する。通信部３１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部３１０は、ネットワークＮと有線または無線で接続され、任意の装置との間での情報の送受信を行う。

記憶部３２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現されてる。また、記憶部３２０は、検出モデル３２１を記憶する。検出モデル３２１は、観測部３５０が観測した音声信号から、起動音声等の所定の音声を検出するためのモデルであり、検出対象となる音声の特徴を学習したモデルである。

制御部３３０は、コントローラであり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。例えば、制御部３３０は、検出部３３１および実行部３３２を有する。

検出部３３１は、検出モデル３２１を用いて、検出対象となる音声の検出を行う。例えば、検出部３３１は、観測部３５０によって観測された音声信号を検出モデル３２１に入力する。そして、検出部３３１は、検出モデル３２１が起動音声を検出した旨を出力した場合は、起動音声に続く処理音声を実行部３３２に出力する。

なお、検出部３３１は、検出モデル３２１が起動音声を検出した場合は、観測部３５０が有する複数のマイクが起動音声を検出した時刻のズレに基づいて、起動音声が発せられた方向を推定する。そして、検出部３３１は、推定結果に基づいたビームフォーミングににより、処理音声のより認識しやすい音声に変換し、変換後の処理音声を実行部３３２に出力してもよい。

実行部３３２は、処理音声が示す各種の処理を実行する。例えば、実行部３３２は、所定の音声認識技術を用いて、処理音声をテキストに変換し、変換後のテキストが示す処理を実行する。そして、実行部３３２は、実行結果を示す音声信号を生成し、生成した音声信号を出力部３４０に出力する。なお、実行部３３２は、音声認識および認識結果に従った処理を実行する外部サーバに対し、処理音声を出力することで、処理音声が示す処理を実現してもよい。

出力部３４０は、各種の情報を出力する出力装置であり、例えば、音声信号を出力するスピーカー等により実現される。また、出力部３４０は、文字や画像等を出力するモニタ等の表示装置であってもよい。

観測部３５０は、各種観測対象となる信号を観測する観測装置である。例えば、観測部３５０は、設置位置がそれぞれ異なる複数のマイク＃１、＃２等により実現される。例えば、観測部２３０は、各マイクにより同時期に観測された観測信号を、制御部３３０に提供する。

続いて、情報提供装置１０が有する機能構成の一例について説明する。例えば、通信部２０は、例えば、ＮＩＣ等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、例えば、情報処理装置１００や配信装置２００との間で各種データの送受信を行う。

記憶部３０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、学習データデータベース３１、およびモデルデータベース３２を記憶する。

学習データデータベース３１は、学習データが登録される。例えば、図３は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図３に示すように、学習データデータベース３１には、「学習データＩＤ（Identifier）」、「入力信号」、および「教師信号」といった項目を有する情報が登録される。

ここで、「学習データＩＤ」とは、学習データの識別子である。また、「入力信号」とは、モデルの学習時に用いられる信号であり、例えば、起動信号を含む音声信号である。また、「教師信号」とは、対応付けられた入力信号のうち、起動信号が含まれる範囲（すなわち、起動信号が含まれる周波数帯と時間帯との組）を示す信号である。なお、教師信号は、入力信号に含まれる起動信号そのものであってもよい。また、教師信号は、対応付けられた入力信号に起動信号が含まれていない旨を示してもよい。

例えば、図３に示す例では、学習データデータベース３１には学習データＩＤ「ＩＤ＃１」、入力信号「入力信号＃１」、教師信号「教師信号＃１」が対応付けて登録されている。このような情報は、学習データＩＤ「ＩＤ＃１」が示す学習データが、入力信号「入力信号＃１」であり、入力信号「入力信号＃１」のうち、起動信号が教師信号「教師信号＃１」が示す範囲である旨を示す。

なお、図３に示す例では、「入力信号＃１」や「教師信号＃１」といった概念的な値を記載したが、実際には、学習データデータベース３１には、音声信号等が入力信号や教師信号として登録されることとなる。また、図３に示す情報以外にも、学習データデータベース３１には、任意の情報が登録されていてよい。

図２に戻り、説明を続ける。モデルデータベース３２には、学習モデルが登録される。例えば、モデルデータベース３２には、モデルに入力される情報である入力情報が入力される入力層と、入力層に入力された入力情報に対して所定の処理を順次行う複数の中間層と、複数の中間層の出力に基づいて、入力情報に対応する出力情報を生成する出力層とを有するモデルのデータが登録されている。より具体的には、モデルデータベース３２には、各ノードの接続関係や、ノード間の接続係数を示すデータが登録される。

ここで、モデルは、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第１要素として、第１要素と第１要素の重みとに基づく演算を行うことにより、入力層に入力された情報と対応する情報を出力層から出力するようコンピュータを機能させる。なお、モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとしての利用が想定されるものであってもよい。

このようなモデルは、入力層に入力信号が入力された場合に、出力層から、入力信号のうち起動音声等、変換対象となる信号が含まれる範囲を示す情報を出力するようコンピュータを機能させる。例えば、モデルは、ＣＰＵ及びメモリを備えるコンピュータにて用いられる。具体的には、コンピュータのＣＰＵが、メモリに記憶された学習モデルからの指令に従って、モデルの入力層に入力された入力信号に対して、ニューラルネットワークにおける学習済みの重みづけ係数と応答関数等に基づく演算を行い、出力層から入力された入力信号のうち所定の信号（例えば、起動信号等）が含まれる範囲を示す情報を出力するよう動作する。

ここで、モデルをＤＮＮ等、１つまたは複数の中間層を有するニューラルネットワークで実現される場合、各モデルが含む第１要素とは、入力層または中間層が有するいずれかのノードと見做すことができ、第２要素とは、第１要素と対応するノードから値が伝達されるノード、すなわち、次段のノードと対応し、第１要素の重みとは、第１要素と対応するノードから第２要素と対応するノードに伝達される値に対して考慮される重み、すなわち、接続係数である。

ここで、情報提供装置１０は、学習データデータベース３１に登録される学習データを用いて、変換対象となる信号が含まれる範囲を示す情報を出力するモデルを生成する。すなわち、学習データデータベース３１に登録される学習データは、入力情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力情報の特徴を反映させた重みに基づく演算を行うことにより、入力された入力情報に対応する出力情報（例えば、起動音声が含まれる範囲を示す情報）を出力層から出力するよう、コンピュータを機能させるためのデータである。

制御部４０は、コントローラ（controller）であり、例えば、ＣＰＵ、ＭＰＵ等のプロセッサによって、情報提供装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部４０は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

また、制御部４０は、記憶部３０に記憶されるモデルを実行することで、モデルの入力層に入力された入力信号に対し、モデルが有する係数（すなわち、モデルが学習した各特徴に対応する係数）に基づく演算を行い、入力された入力信号から変換対象となる所定の範囲を示す情報を生成し、モデルの出力層から出力する。

図２に示すように、制御部４０は、収集部４１、学習部４２、受付部４３、推定部４４、変更部４５、および出力部４６を有する。

収集部４１は、学習データを収集する。例えば、収集部４１は、情報処理装置１００から、起動音声を含む音声信号と、音声信号のうちどの範囲が起動音声であるかを示す教師信号とを収集する。そして、収集部４１は、収集した音声信号を入力信号とし、入力信号と教師信号とを学習データデータベース３１に登録する。

学習部４２は、入力信号から変換対象となる信号が含まれる範囲を推定するモデルの学習を行う。例えば、学習部４２は、モデルに対して学習データデータベース３１に登録された入力信号を入力した際に、教師信号が示す範囲を変換対象となる信号が含まれる範囲として推定するように、モデルの学習を行う。そして、学習部４２は、学習が行われたモデル、すなわち、学習モデルをモデルデータベース３２に登録する。

受付部４３は、入力信号を受付ける。例えば、受付部４３は、情報処理装置１００から、入力信号として音声信号である配信音声を受付ける。このような場合、受付部４３は、受付けた配信音声を推定部４４に提供する。

推定部４４は、所定の信号が有する特徴を学習した学習モデルを用いて、入力信号のうち所定の信号が含まれる範囲を推定する。例えば、推定部４４は、所定の範囲として、後続する信号が示す処理を音声デバイス３００に実行させるための信号が含まれる範囲を推定する。また、推定部４４は、所定の範囲として、音声デバイス３００が送信元の方向を推定する際に用いる信号が含まれる範囲を推定する。

より具体的には、推定部４４は、所定の範囲として、音声デバイス３００が用いる検出モデル３２１が特徴を学習した信号であって、音声デバイス３００が検出した際に後続する信号の認識処理を行わせるための信号が含まれる範囲を推定する。すなわち、推定部４４は、配信音声のうち起動音声が含まれる範囲を推定する。

例えば、推定部４４は、配信音声を学習モデルに入力し、学習モデルによって起動音声が含まれると推定された範囲を特定する。そして、推定部４４は、特定した範囲を推定範囲として、変更部４５に通知する。なお、推定部４４は、音声デバイス３００に実行させる処理を示す信号が含まれる範囲を推定してもよい。すなわち、推定部４４は、配信音声のうち、指示音声等が含まれる範囲の推定を行ってもよい。

なお、推定部４４は、入力信号から所定の信号が検出された場合は、入力信号のうち所定の信号から所定の範囲を、推定範囲としてもよい。例えば、推定部４４は、入力信号から所定の周波数特性を有する信号を検出し、信号を検出した場合は、検出された信号に続く所定の期間（例えば、５秒間）を推定範囲としてもよい。

変更部４５は、入力信号のうち所定の範囲を、所定の音声デバイス３００が正しく識別できないように変更する。例えば、変更部４５は、音声デバイス３００が推定範囲に含まれる信号を正しく検出できないように変更する。また、例えば、変更部４５は、音声デバイス３００が推定範囲に含まれる信号が示す処理を正しく認識できないように変更する。より具体的には、変更部４５は、配信音声のうち推定範囲に含まれる音声を音声デバイス３００が正しく識別できないように変更する。例えば、変更部４５は、音声デバイス３００が使用するモデルであって、音声信号に含まれる音声のうち後続する音声信号の音声認識を実行させる所定の音声を検出するモデル、すなわち、起動音声を検出する検出モデル３２１が正しく検出できないように、配信音声に含まれる起動音声を変更する。

例えば、変更部４５は、推定範囲に含まれる信号に対し、音声デバイス３００が正しく識別できなくさせる強度のノイズを合成する。より具体的には、変更部４５は、推定範囲に含まれる信号に対し、利用者による認識が困難な強度のノイズであって、音声デバイス３００が正しく識別できなくさせる強度のノイズを合成する。例えば、変更部４５は、配信音声のうち起動音声が含まれる範囲を、アドバーサリアル音声に変更する。

ここで、図４は、実施形態に係る情報提供装置が音声を変更する処理の一例を示す図である。例えば、図４に示す例では、情報提供装置１０は、「ターミナル＿今日の＿天気を＿教えて」といった利用者の音声を含む配信音声を受付ける。このような配信音声において、「ターミナル」とは、音声デバイス３００に後続する音声が示す処理を実行させるためのキーワード、すなわち、起動音声である。また、「今日の＿天気を＿教えて」とは、音声デバイス３００に天気予報の情報を取得し、音声で情報を出力させるための指示音声である。

このような配信音声を端末装置ＴＭが再生した場合、音声デバイス３００は、利用者が発話していないにもかかわらず、天気予報を取得し、音声で天気予報を出力すると考えられる。そこで、情報提供装置１０は、起動音声または指示音声をアドバーサリアル音声に変更する。例えば、情報提供装置１０は、学習モデルを用いて、「ターミナル」といった起動音声が含まれる範囲を推定し、推定した範囲をアドバーサリアル音声に変更した変更音声＃１を出力する。このような場合、音声デバイス３００は、起動音声が検出されないため、アドバーサリアル音声に続く指示音声の音声認識を行わない。

また、情報提供装置１０は、指示音声部分をアドバーサリアル音声に変更した変更音声＃２を出力してもよい。このような処理を実行した場合、音声デバイス３００は、指示音声を正確に認識することができなくなる。この結果、情報提供装置１０は、利用者が意図しない動作の実行を防ぐことができる。

図２に戻り、説明を続ける。出力部４６は、所定の範囲が変更された入力信号を出力する。例えば、出力部４６は、配信音声のうち起動音声が含まれる範囲をアドバーサリアル音声に変更した変更音声を端末装置ＴＭに出力する。なお、出力部４６は、例えば、端末装置ＴＭに対して音声信号を送信する基地翼などに対して、変更音声を出力してもよい。

〔３．情報提供装置が実行する処理の流れについて〕
次に、図５を用いて、情報提供装置１０が実行する出力処理の流れの一例について説明する。図５は、実施形態に係る情報提供装置が実行する出力処理の流れの一例を示すフローチャートである。

まず、情報提供装置１０は、入力信号を受付けと（ステップＳ１０１）、入力信号のうち所定の信号が含まれる範囲を推定する（ステップＳ１０２）。そして、情報提供装置１０は、推定した範囲を音声デバイス３００が正しく識別できないように変更し（ステップＳ１０３）、変更した信号を出力して（ステップＳ１０４）、処理を終了する。

〔４．変形例〕
上記では、情報提供装置１０による学習処理および出力処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置１０が実行する処理のバリエーションについて説明する。

〔４−１．処理の実行タイミングについて〕
情報提供装置１０は、所定の条件が満たされた場合には、上述した音声の変更を実行せずともよい。例えば、ＴＶで出力される音声と、このような音声に従って音声デバイス３００が出力する音声とを連動させた広告態様が考えられる。このような広告の音声が配信音声に含まれる場合、情報提供装置１０は、広告の音声をアドバーサリアル音声に変更せずとも好い。また、配信装置２００は、予め起動音声をアドバーサリアル音声に変更した配信音声の配信を行ってもよい。

〔４−２．装置構成〕
記憶部３０に登録された各データベース３１、３２は、外部のストレージサーバに保持されていてもよい。また、情報提供装置１０は、学習処理を実行する学習サーバ、および配信音声を変更して出力する出力サーバとが連携して動作することにより、実現されてもよい。このような場合、学習サーバには、学習部４２が配置されていればよく、出力サーバには、受付部４３、推定部４４、変更部４５および出力部４６が配置されていればよい。

〔４−３．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

〔４−４．プログラム〕
また、上述した実施形態に係る情報提供装置１０は、例えば図６に示すような構成のコンピュータ１０００によって実現される。図６は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が情報提供装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムまたはデータ（例えば、モデルＭ１）を実行することにより、制御部４０の機能を実現する。コンピュータ１０００の演算装置１０３０は、これらのプログラムまたはデータ（例えば、モデルＭ１）を一次記憶装置１０４０から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

〔５．効果〕
上述したように、情報提供装置１０は、入力信号を受付けると、入力信号のうち所定の範囲を、所定の音声デバイス３００が正しく識別できないように変更し、所定の範囲が変更された入力信号を出力する。このため、情報提供装置１０は、利用者が意図しない動作を音声デバイス３００が実行することを防ぐことができる。

また、情報提供装置１０は、音声デバイス３００が所定の範囲に含まれる信号を正しく検出できないように変更する。また、情報提供装置１０は、音声デバイス３００が所定の範囲に含まれる信号が示す処理を正しく認識できないように変更する。このため、情報提供装置１０は、利用者が意図しない動作を音声デバイス３００が実行することを防ぐことができる。

また、情報提供装置１０は、所定の範囲として、後続する信号が示す処理を音声デバイス３００に実行させるための信号が含まれる範囲を、音声デバイス３００が正しく識別できないように変更する。また、情報提供装置１０は、所定の範囲として、音声デバイス３００が送信元の方向を推定する際に用いる信号が含まれる範囲を、音声デバイス３００が正しく識別できないように変更する。

また、情報提供装置１０は、所定の範囲として、音声デバイス３００が用いるモデルが特徴を学習した信号であって、音声デバイス３００が検出した際に後続する信号の認識処理を行わせるための信号が含まれる範囲を、音声デバイス３００が正しく識別できないように変更する。また、情報提供装置１０は、所定の範囲として、音声デバイス３００に実行させる処理を示す信号が含まれる範囲を、音声デバイス３００が正しく識別できないように変更する。

また、情報提供装置１０は、所定の信号が有する特徴を学習した学習モデルを用いて、入力信号のうち所定の信号が含まれる範囲を推定し、所定の信号を音声デバイス３００が正しく識別できないように、入力信号のうち推定部により推定された範囲を変更する。また、情報提供装置１０は、入力信号から所定の信号が検出された場合は、その入力信号のうち所定の信号から所定の範囲を、音声デバイス３００が正しく識別できないように変更する。

また、情報提供装置１０は、入力信号として音声信号を受付け、音声信号に含まれる音声のうち所定の範囲に含まれる音声を所定の音声デバイス３００が正しく識別できないように変更する。また、情報提供装置１０は、入力信号として音声信号を受付け、音声デバイス３００が使用するモデルであって、音声信号に含まれる音声のうち後続する音声信号の音声認識を実行させる所定の音声を検出するモデルが検出できないように、音声信号に含まれる所定の音声を変更する。

これらの処理の結果、情報提供装置１０は、端末装置ＴＭから出力される音声により音声デバイス３００が動作するといった現象を防ぐことができるので、利用者が意図しない動作を音声デバイス３００が実行することを防ぐことができる。

また、情報提供装置１０は、入力信号のうち所定の範囲に含まれる信号に対し、音声デバイス３００が正しく識別できなくさせる強度のノイズを合成する。例えば、情報提供装置１０は、音声信号のうち所定の範囲に含まれる信号に対し、利用者による認識が困難な強度のノイズであって、音声デバイス３００が正しく識別できなくさせる強度のノイズを合成する。このような処理の結果、情報提供装置１０は、入力信号が利用者に対して提供する意図を妨害することなく、音声デバイス３００等が利用者の意図に反して動作するのを防ぐことができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、検出部は、検出手段や検出回路に読み替えることができる。

１０情報提供装置
２０、３１０通信部
３０、３２０記憶部
３１学習データデータベース
３２モデルデータベース
４０、３３０制御部
４１収集部
４２学習部
４３受付部
４４推定部
４５変更部
４６出力部
１００情報処理装置
２００配信装置
３００音声デバイス
３２１検出モデル
３３１検出部
３３２実行部
３４０出力部
３５０観測部

Claims

所定の端末装置に実行させる処理を示す第１信号と、当該所定の端末装置が当該第１信号を識別する際に用いる第２信号とを含む入力信号を受付ける受付部と、
前記入力信号のうち前記第１信号または前記第２信号を、所定の端末装置が正しく識別できないように変更する変更部と、
前記変更部によって前記第１信号または前記第２信号が変更された入力信号を出力する出力部と
を有することを特徴とする出力装置。
前記変更部は、前記端末装置が前記第２信号を正しく検出できないように変更する
ことを特徴とする請求項１に記載の出力装置。
前記変更部は、前記端末装置が前記第１信号が示す処理を正しく認識できないように変更する
ことを特徴とする請求項１または２に記載の出力装置。
前記変更部は、後続する第１信号が示す処理を前記端末装置に実行させるための第２信号が含まれる範囲を、前記端末装置が正しく識別できないように変更する
ことを特徴とする請求項１〜３のうちいずれか１つに記載の出力装置。
前記変更部は、前記端末装置が前記入力信号の送信元の方向を推定する際に用いる第２信号が含まれる範囲を、前記端末装置が正しく識別できないように変更する
ことを特徴とする請求項１〜４のうちいずれか１つに記載の出力装置。
前記変更部は、前記端末装置が用いるモデルが特徴を学習した信号であって、前記端末装置が検出した際に後続する第１信号の認識処理を行わせるための第２信号を、前記端末装置が正しく識別できないように変更する
ことを特徴とする請求項１〜５のうちいずれか１つに記載の出力装置。
前記変更部は、前記端末装置に実行させる処理を示す第１信号を、前記端末装置が正しく識別できないように変更する
ことを特徴とする請求項１〜６のうちいずれか１つに記載の出力装置。
所定の信号が有する特徴を学習した学習モデルを用いて、前記入力信号のうち前記第１信号若しくは前記第２信号が含まれる範囲を推定する推定部
を有し、
前記変更部は、前記入力信号のうち前記推定部により推定された範囲に含まれる信号を前記端末装置が正しく識別できないように変更する
ことを特徴とする請求項１〜７のうちいずれか１つに記載の出力装置。
前記変更部は、前記入力信号から前記第２信号が検出された場合は、当該入力信号のうち前記第２信号から所定の範囲に含まれる信号を、前記端末装置が正しく識別できないように変更する
ことを特徴とする請求項１〜８のうちいずれか１つに記載の出力装置。
前記受付部は、前記入力信号として音声信号を受付け、
前記変更部は、前記音声信号に含まれる音声のうち前記端末装置に実行させる処理を示す第１音声または前記端末装置が当該第１音声を識別する際に用いる第２音声を所定の端末装置が正しく識別できないように変更する
ことを特徴とする請求項１〜９のうちいずれか１つに記載の出力装置。
前記受付部は、前記入力信号として音声信号を受付け、
前記変更部は、前記端末装置が使用するモデルであって、前記音声信号に含まれる音声のうち後続する音声信号の音声認識を実行させる所定の音声を検出するモデルが検出できないように、前記音声信号に含まれる所定の音声を変更する
ことを特徴とする請求項１〜１０のうちいずれか１つに記載の出力装置。
前記変更部は、前記入力信号のうち前記第１信号または前記第２信号に対し、前記端末装置が正しく識別できなくさせる強度のノイズを合成する
ことを特徴とする請求項１〜１１のうちいずれか１つに記載の出力装置。
前記受付部は、前記入力信号として音声信号を受付け、
前記変更部は、前記音声信号のうち前記端末装置に実行させる処理を示す第１音声または前記端末装置が当該第１音声を識別する際に用いる第２音声に対し、利用者による認識が困難な強度のノイズであって、前記端末装置が正しく識別できなくさせる強度のノイズを合成する
ことを特徴とする請求項１２に記載の出力装置。
出力装置が実行する出力方法であって、
所定の端末装置に実行させる処理を示す第１信号と、当該所定の端末装置が当該第１信号を識別する際に用いる第２信号とを含む入力信号を受付ける受付工程と、
前記入力信号のうち前記第１信号または前記第２信号を、所定の端末装置が正しく識別できないように変更する変更工程と、
前記変更工程によって前記第１信号または前記第２信号が変更された入力信号を出力する出力工程と
を含むことを特徴とする出力方法。
所定の端末装置に実行させる処理を示す第１信号と、当該所定の端末装置が当該第１信号を識別する際に用いる第２信号とを含む入力信号を受付ける受付手順と、
前記入力信号のうち前記第１信号または前記第２信号を、所定の端末装置が正しく識別できないように変更する変更手順と、
前記変更手順によって前記第１信号または前記第２信号が変更された入力信号を出力する出力手順と
をコンピュータに実行させるための出力プログラム。