JP6688820B2 - 出力装置、出力方法、および出力プログラム - Google Patents

出力装置、出力方法、および出力プログラム Download PDF

Info

Publication number
JP6688820B2
JP6688820B2 JP2018034776A JP2018034776A JP6688820B2 JP 6688820 B2 JP6688820 B2 JP 6688820B2 JP 2018034776 A JP2018034776 A JP 2018034776A JP 2018034776 A JP2018034776 A JP 2018034776A JP 6688820 B2 JP6688820 B2 JP 6688820B2
Authority
JP
Japan
Prior art keywords
signal
voice
terminal device
output
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018034776A
Other languages
English (en)
Other versions
JP2019149768A (ja
Inventor
伸裕 鍜治
伸裕 鍜治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018034776A priority Critical patent/JP6688820B2/ja
Publication of JP2019149768A publication Critical patent/JP2019149768A/ja
Application granted granted Critical
Publication of JP6688820B2 publication Critical patent/JP6688820B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は出力装置、出力方法、および出力プログラムに関する。
従来、観測信号に含まれる複数の信号から認識目的となる信号(以下、「目的信号」と記載する場合がある。)を認識する技術が知られている。このような技術の一例として、複数の測定装置が同時期に測定した測定信号の比較結果に基づいて、目的信号の伝達元となる方向を推定し、推定した方向から伝達する信号を強調するビームフォーミング処理が提案されている。
また、このような目的信号の認識を行い、認識結果に基づいて、各種の処理を行う技術が提案されている。このような技術の一例として、利用者が発した音声の音声認識を行い、音声認識の結果に従って各種の処理を実行する端末装置の技術が知られている。
特開2017−90853号公報
"Generating Adversarial Examples for Speech Recognition", Dan Iter, Jade Huang, Mike Jermann
しかしながら、従来技術では、利用者が意図しない動作を端末装置が実行する恐れがある。
例えば、上述した従来技術では、音声認識の結果に従って各種の処理を実行するため、テレビやラジオで放送される音声等、利用者が発した音声以外の音声を認識した場合、利用者が意図しない処理を実行してしまう恐れがある。
本願は、上記に鑑みてなされたものであって、利用者が意図しない端末装置の動作を防止することを目的とする。
本願に係る出力装置は、入力信号を受付ける受付部と、前記入力信号のうち所定の範囲を、所定の端末装置が正しく識別できないように変更する変更部と、前記変更部によって前記所定の範囲が変更された入力信号を出力する出力部とを有することを特徴とする。
実施形態の一態様によれば、利用者が意図しない端末装置の動作を防止することができる。
図1は、実施形態に係る情報提供装置が実行する学習処理および出力処理の一例を示す図である。 図2は、実施形態に係る情報提供装置および音声デバイスの構成例を示す図である。 図3は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。 図4は、実施形態に係る情報提供装置が音声を変更する処理の一例を示す図である。 図5は、実施形態に係る情報提供装置が実行する出力処理の流れの一例を示すフローチャートである。 図6は、ハードウェア構成の一例を示す図である。
以下に、本願に係る出力装置、出力方法、および出力プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る出力装置、出力方法、および出力プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
[実施形態]
〔1.情報提供装置の概要について〕
まず、図1を用いて、出力装置の一例である情報提供装置が実行する出力処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する学習処理および出力処理の一例を示す図である。図1では、情報提供装置10は、以下に説明する学習処理および出力処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。
例えば、情報提供装置10は、インターネット等の所定のネットワークN(例えば、図2参照)を介して、情報処理装置100、および配信装置200と通信可能である。なお、情報提供装置10は、音声デバイス300と通信可能であってもよい。例えば、情報提供装置10は、情報処理装置100や音声デバイス300との間で、音声に関するデータ 等、各種データの送受信を行う。なお、情報提供装置10は、任意の数の情報処理装置100、配信装置200、および音声デバイス300と通信可能であってよい。
また、情報提供装置10は、ネットワークNや、その他任意の通信経路を介して、端末装置TMに対し、任意の信号を送信可能である。例えば、情報提供装置10は、所定の周波数の搬送波を介して、送信対象となる信号を端末装置TMに送信可能である。より具体的な例を挙げると、情報提供装置10は、テレビ放送ネットワークやラジオネットワークを介して、音声を示す信号を送信する。このような場合、端末装置TMは、搬送波から音声を示す信号を分離し、分離した信号に基づいて、音声の再生を行う。以下の説明では、情報提供装置10は、少なくとも音声を含む信号を端末装置TMへと送信し、端末装置TMに音声の再生を実行させるものとする。
なお、情報提供装置10が信号を端末装置TMへと送信する手法は、上述したものに限定されるものではない。例えば、情報提供装置10は、オンデマンドにコンテンツを配信するサービスを提供する情報処理装置であってもよい。例えば、情報提供装置10は、端末装置TMから配信対象とする動画像コンテンツや音声コンテンツの指定を受付けると、指定されたコンテンツのデータを配信装置200から取得する。そして、情報提供装置10は、ネットワークNを介して、取得したデータを端末装置TMへと配信してもよい。
情報処理装置100は、各種データを保持する情報処理装置であり、サーバ装置やクラウドシステム等により実現される。例えば、情報処理装置100は、後述する学習処理において用いる学習データを保持し、学習データを情報提供装置10に提供する。
配信装置200は、端末装置TMへと配信される信号を配信する。例えば、配信装置200は、端末装置TMに再生させる音声の音声信号を情報提供装置10へと配信する。すなわち、配信装置200は、端末装置TMへと配信される音声(以下、「配信音声」と記載する。)を、情報提供装置10へと配信する。なお、配信装置200は、音声を含む動画像の信号を情報提供装置10に配信してもよい。また、配信装置200は、音声データや動画像のデータを配信してもよい。
端末装置TMは、利用者が使用する端末装置であり、例えば、PC(Personal Computer)やテレビジョン装置、ラジオ装置等により実現される。例えば、端末装置TMは、情報提供装置10から音声を示す信号等の情報を受けつけると、受付けた信号が示す音声を再生し、出力する機能を有する。
音声デバイス300は、周囲の音を取得するマイク等の取得装置と、任意の音を出力可能なスピーカー等の出力装置とを有する入出力装置とを有する入出力装置であり、例えば、スマートスピーカーと呼ばれるデバイスである。例えば、音声デバイス300は、出力装置を用いて、音楽の出力や音声による情報提供を実現可能な装置である。また、音声デバイス300は、音の入力を受付ける受付機能を有し、利用者Uが発した音声を取得すると、取得した音声の内容に応じた音を出力する出力機能を有する。
例えば、音声デバイス300は、利用者Uが所定の楽曲の曲名を示す音声を発した場合には、各種の音声解析技術により、音声が示す曲名を特定し、特定した曲名が示す楽曲のデータを、ネットワークN(例えば、図2を参照)を介して、所定の外部サーバ(図示は省略)から取得する。そして、音声デバイスは、取得した楽曲を再生する。
なお、音声デバイス300は、例えば、利用者Uが発した音声の内容を各種の音声解析技術により特定し、特定した内容に応じた応答を出力する機能を有する。例えば、音声デバイス300は、「今日の天気は?」といった利用者Uの音声を取得した場合は、外部サーバから天気や気温などといった各種の気象情報を取得し、取得した気象情報を読み上げることで、利用者Uに天気の情報を提供する。また、音声デバイス300は、上述した処理以外にも、例えば、電子商店街に出品された商品の注文、空調装置や照明装置等といった各種家電機器の制御、メールやスケジュールの読み上げ等といった各種の処理を実現可能なスマートスピーカーである。
ここで、音声デバイス300は、それぞれ異なる位置に取付けられた複数の取得装置(例えば、マイク等)を有し、各取得装置を介して受付けた音声を用いて、上述した各種の処理を実行するものとする。なお、音声デバイス300は、それぞれ異なる位置に取付けられた複数の取得装置を有する装置であれば、例えば、スマートデバイスや録音装置等、任意の装置であってもよい。また、音声デバイス300は、物理的に離間した位置に設置された複数の取得装置と無線LAN(Local Area Network)やブルートゥース(登録商標)等の無線通信を介して接続され、各取得装置が取得した音声を収集する装置であってもよい。
なお、以下の説明では、音声デバイス300は、入力装置として複数のマイクを有するものとする。また、以下の説明では、各マイクが取得した音声信号を観測信号と記載する場合がある。
〔1−1.音声デバイスが実行する処理について〕
ここで、音声デバイス300に各種処理を実行させるため、所定の起動音声を用いる技術が知られている。例えば、音声デバイス300は、商品名や所定の単語等、予め定められた所定のキーワード(以下、「起動音声」と記載する。)の音声信号が有する特徴をあらかじめ学習したモデルを保持する。そして、音声デバイス300は、周囲の音声を常時取得し、モデルを用いて取得した音声に起動音声が含まれているか否かを判定する。
また、音声デバイス300は、起動音声が含まれると判定した場合、すなわち、起動音声の検出を行った場合は、起動音声に続く音声の音声認識を実行する。例えば、音声デバイス300は、起動音声に続く音声(以下、「指示音声」と記載する。)の音声認識を実行し、指示音声をテキストに変換する。続いて、音声デバイス300は、変換後のテキストの意図解析を実行することで、指示音声が示す処理の内容を特定し、特定した処理の実行結果を出力する。例えば、音声デバイス300は、処理の実行結果として、音楽の再生や情報の提供、電子商店街における取引対象の注文等を実行する。なお、音声デバイス300は、指示音声を外部サーバ(図示は、省略)に送信し、外部サーバに音声認識、意図解析、および処理の実行を行わせてもよい。
なお、音声デバイス300は、起動音声を用いて、ビームフォーミングと呼ばれる処理を実行してもよい。例えば、音声デバイス300は、複数のマイクを用いて周囲の音声を取得し、各マイクが取得した音声毎に、起動音声の検出を行う。そして、音声デバイス300は、各マイクが起動音声を取得した時間のずれに基づいて、起動音声が発せられた方向(すなわち、利用者の方向)とマイクの間の空間的な情報を推定する。そして、利用者Uの声が発せられた方向から到来する音声を強調するよう、推定した空間的な情報を用いて各マイクが観測した観測信号に対する重み付けを行い、各観測信号の合成が行われる。
〔1−2.情報提供装置が実行する処理について〕
近年、スマートスピーカーの普及に伴い、利用者が意図しない動作をスマートスピーカーが実行してしまうという問題が生じている。例えば、スマートスピーカーは、音声によって操作が可能であるため、例えば、端末装置TMが出力する音声に起動音声が含まれる場合は、起動音声に続く音声に従って、音声デバイス300が処理を実行してしまう恐れがある。また、音声デバイス300が起動音声を用いたビームフォーミングを行う場合、端末装置TMが起動音声を出力すると、端末装置TM側から発せられる音が強調される結果、利用者の音声が適切に認識されなくなる恐れがある。また、将来的に起動音声が用いられなくなった場合、このような音声デバイス300の誤作動が増加するとも考えられる。
そこで、情報提供装置10は、以下の出力処理を実行する。まず、情報提供装置10は、入力信号を受付ける。そして、情報提供装置10は、入力信号のうち所定の範囲を、所定の端末装置が正しく識別できないように変更し、所定の範囲が変更された入力信号を出力する。ここで、入力信号のうち所定の範囲を所定の端末装置が正しく識別できないようにする処理とは、所定の範囲に含まれる信号を正しく検出できなくする処理のみならず、所定の範囲に含まれる信号の認識処理を正しく検出できなくする処理をも含む概念である。
例えば、情報提供装置10は、音声デバイス300が、所定の範囲に含まれる信号を正しく検出できないように変更すればよい。より具体的な例を挙げると、情報提供装置10は、音声デバイス300が起動音声の検出を行えなくなるように、配信音声のうち起動音声が含まれる範囲を変更する。また、情報提供装置10は、音声デバイス300が、所定の範囲に含まれる信号が示す処理を正しく認識できないように変更すればよい。より具体的な例を挙げると、情報提供装置10は、音声デバイス300が起動音声や指示音声の音声認識を正しく行うことができなくなるように、配信音声のうち起動音声が含まれる範囲を変更する。すなわち、情報提供装置10は、所定の装置が所定の音声に対して反応しなくなるように、所定の音声を変更すればよい。
例えば、情報提供装置10は、端末装置TMへの配信対象となる配信音声の音声信号を受付けると、配信音声のうち、起動音声が含まれる範囲を推定する。そして、情報提供装置10は、配信音声のうち、推定された範囲(以下、「推定範囲」と記載する場合がある。)を、音声デバイス300が正しく識別できないように変更する。そして、情報提供装置10は、変更済みの音声(以下、「変更音声」と記載する。)を、端末装置TMへと配信する。
このような処理を実行した場合、端末装置TMは、推定範囲を音声デバイス300が正しく識別できない状態で、音声信号の再生を行うこととなる。このため、情報提供装置10は、音声デバイス300の誤動作を防ぐごとができる。
〔1−3.変更音声について〕
ここで、情報提供装置10が配信音声を変更音声に変更する具体例について説明する。例えば、情報提供装置10が配信音声に含まれる起動音声を他の音声へと変更したり、配信音声のうち起動音声の部分を無音に変更した場合は、音声デバイス300が起動音声を検出することができなくなるものの、端末装置TMから出力される音声を利用者が理解できなくなる恐れがある。一方で、音声デバイス300が起動音声が有する特徴を学習したモデルを用いて周囲の音声から起動音声を検出する場合、変更後の音声が起動音声と類似する特徴を有していると、音声デバイス300が変更後の音声を起動音声として検出する恐れがある。例えば、起動音声の音量を小さくしただけでは、音声デバイス300が起動音声を検出してしまう恐れがある。
そこで、情報提供装置10は、いわゆるアドバーサリアルエグザンプルの技術を用いて、起動音声の変更を行う。例えば、所定の情報が有する特徴を学習したモデルは、入力された情報が所定の情報であるか否かを分類を行う。しかしながら、このようなモデルは、入力された情報にある種のノイズを付加することで、正しい分類を行えなくなることが知られている。例えば、猫の外観が有する特徴を学習したモデルは、画像に撮像された撮像対象が猫であるか否かを推定することができる。ここで、画像にある種の微小なノイズを付加した場合、人間には変化があまりないと認識される(すなわち、元の画像に撮影された猫を認識することができる)にも関わらず、猫以外のものが撮影されているとモデルが誤判定してしまう。
そこで、情報提供装置10は、起動音声をアドバーサリアルエグザンプル(以下、「アドバーサリアル音声」と記載する。)へと変更し、変更したアドバーサリアル音声を含む変更音声を出力する。すなわち、情報提供装置10は、配信音声に含まれる起動音声を、利用者が差異を認識することができないが、モデルに誤判定を行わせる程度の差異を有する音声へと変更する。例えば、情報提供装置10は、入力信号のうち所定の範囲に含まれる信号に対し、その信号を音声デバイス300が正しく識別できなくさせる強度のノイズを合成する。より具体的な例を挙げると、情報提供装置10は、音声信号のうち所定の範囲に含まれる信号に対し、利用者による認識が困難な強度のノイズであって、音声デバイス300が音声を正しく識別できなくなる強度のノイズを合成する。
このような処理の結果、情報提供装置10は、利用者による配信音声の認識を阻害することなく、音声デバイス300が起動音声を検出したり認識することを防ぐことができる。なお、このようなアドバーサリアル音声を生成する技術については、例えば、非特許文献1に提案された手法等、任意の手法が採用可能である。
〔1−4.変更対象について〕
ここで、情報提供装置10は、利用者が想定しない処理を音声デバイス300に実行させることを防ぐのであれば、配信音声のうち任意の範囲の音声を変更してよい。
例えば、音声デバイス300は、所定の起動音声を検出あるいは認識すると、後続する音声の音声認識を行い、認識結果に従って各処理を実行する。このような場合、起動音声を正しく検出あるいは認識できなくすれば、音声デバイス300の誤作動を防ぐことができると考えられる。そこで、情報提供装置10は、所定の範囲として、後続する音声が示す処理を音声デバイス300に実行させるための音声、すなわち、起動音声が含まれる範囲を、音声デバイス300が正しく識別できないように変更すればよい。例えば、情報提供装置10は、配信音声のうち起動音声が含まれる範囲を推定し、推定した範囲の音声に所定のノイズを合成することで、起動音声をアドバーサリアル音声に変更すればよい。
また、音声デバイス300は、所定の起動音声等、所定の音声を用いて、上述したビームフォーミングを行うこととなる。そこで、情報提供装置10は、所定の範囲として、音声デバイス300が送信元の方向を推定する際に用いる音声が含まれる範囲を、アドバーサリアル音声に変更すればよい。このような処理を実行した場合、音声デバイス300がビームフォーミングに用いる起動音声を検出することができなくなるので、音声デバイス300による音声検出や音声認識の精度を低下させる結果、情報提供装置10は、利用者が意図しない音声デバイス300の動作を防止することができる。
また、音声デバイス300は、起動音声等、所定の音声が有する特徴を学習したモデルを用いて、所定の音声を検出し、検出した音声に後続する音声の認識処理を実行することとなる。そこで、情報提供装置10は、所定の範囲として、音声デバイス300が用いるモデルが特徴を学習した音声であって、音声デバイス300が検出した際に後続する音声の認識処理を行わせるための音声が含まれる範囲を、アドバーサリアル音声に変更すればよい。このような処理の結果、音声デバイス300が起動音声を検出できなくなるので、情報提供装置10は、利用者が意図しない音声デバイス300の動作を防止することができる。
また、音声デバイス300は、起動音声を用いて、後続する指示音声を強調するマスクを生成する場合がある。例えば、音声デバイス300は、起動音声の特徴に基づいて、各マイクの音声を合成する際の係数をマスクとして生成する場合がある。そこで、情報提供装置10は、入力信号のうち、音声デバイス300が後続する信号を強調するマスクの生成に用いる所定の信号が含まれる範囲を、音声デバイス300が検出あるいは認識できなくなるように変更してもよい。
なお、情報提供装置10は、起動音声に続く音声等、音声デバイス300に各種の処理を実行させる音声、すなわち指示音声が含まれる範囲をアドバーサリアル音声に変更してもよい。すなわち、情報提供装置10は、所定の範囲として、音声デバイス300に実行させる処理を示す音声が含まれる範囲を、アドバーサリアル音声に変更してもよい。また、情報提供装置10は、配信音声全体をアドバーサリアル音声に変更してもよい。このような処理の結果、情報提供装置10は、利用者が意図しない音声デバイス300の動作を防止することができる。
〔1−5.変更対象とする範囲について〕
ここで、情報提供装置10は、アドバーサリアル音声に変更する範囲を任意の手法で特定あるいは推定してよい。例えば、情報提供装置10は、起動音声等、アドバーサリアル音声に変更する音声(以下、「変更対象音声」と記載する。)が有する特徴を学習した学習モデルを生成する。そして、情報提供装置10は、学習モデルを用いて、配信音声のうち変更対象音声が含まれる範囲を推定し、推定した範囲をアドバーサリアル音声に変更すしてもよい。
例えば、情報提供装置10は、複数のノードを多段に接続したニューラルネットワークをモデルとして準備する。このようなモデルは、例えば、DNN(Deep Neural Network)、LSTM(Long Short-Term Memory)畳み込みニューラルネットワークや、再帰型ニューラルネットワークであってもよい。また、モデルは、これら畳み込みニューラルネットワークや、再帰型ニューラルネットワークの機能を組み合わせたものであってもよい。また、情報提供装置10は、サポートベクトル回帰(Support Vector Regression)等の任意の回帰モデルを用いてもよい。
また、情報提供装置10は、変更対象音声の例を取得する。例えば、情報提供装置10は、様々な性別や様々な年代の利用者が発した変更対象音声の音声信号を正例として取得する。また、情報提供装置10は、変更対象音声以外の音声を負例として取得する。そして、情報提供装置10は、正例となる音声信号を入力した際には、変更対象音声を検出した旨を出力し、負例としなる音声信号を入力した際には、変更対象音声以外の音声を検出した旨を出力するように、バックプロパゲーション等の技術を用いて、モデルの学習を行う。
また、情報提供装置10は、上述した学習が行われたモデル、すなわち学習モデルに対して配信音声を入力し、学習モデルの出力結果から、変更対象音声が含まれる範囲を推定する。例えば、情報提供装置10は、学習モデルが変更対象音声を検出した旨を出力した範囲を、変更対象音声が含まれる範囲として推定する。そして、情報提供装置10は、推定した範囲の音声をアドバーサリアル音声に変更すればよい。
なお、変更対象音声として起動音声が採用される場合、情報提供装置10は、音声デバイス300が起動音声の検出に用いるモデルを用いて、配信音声から起動音声を検出し、起動音声が検出された範囲をアドバーサリアル音声に変更してもよい。すなわち、音声デバイス300が用いるモデルであって、音声デバイス300に検出させたくない音声を検出するモデルと同じモデルを用いて、アドバーサリアル音声に変更する範囲を設定してもよい。
また、情報提供装置10は、配信音声に対して予め付与されたマーキングに基づいて、アドバーサリアル音声に変更範囲を設定してもよい。例えば、配信装置200は、配信音声のうち、起動音声が含まれる範囲の先頭部分に所定の信号を付与する。例えば、情報提供装置10は、人間が視聴することができない周波数の音声やピーク信号等、ステガノグラフィの技術を用いて、起動音声が含まれる範囲を示す信号を配信音声に付与する。
このような場合、情報提供装置10は、配信音声から所定の信号を検出し、検出した信号が示す範囲をアドバーサリアル音声に変更する。例えば、情報提供装置10は、所定の信号が検出された場合、検出された位置から10秒間の範囲に含まれる音声をアドバーサリアル音声に変更する。このような処理を実行することで、情報提供装置10は、例えば、ストリーミング形式で配信される配信音声のうち、起動音声が含まれる範囲を、アドバーサリアル音声に変更することができる。
〔1−6.処理の一例について〕
以下、図1を用いて、情報提供装置10が実行する処理の一例について説明する。まず、情報提供装置10は、学習に用いる起動音声を情報処理装置100から取得する(ステップS1)。このような場合、情報提供装置10は、起動音声が有する特徴をモデルに学習させることで(ステップS2)、起動音声が有する特徴を学習した学習モデルを生成する。
続いて、情報提供装置10は、配信装置200から配信対象となる配信音声を受付ける(ステップS3)。このような場合、情報提供装置10は、学習モデルを用いて、配信音声から起動音声が含まれる範囲を推定する(ステップS4)。そして、情報提供装置10は、音声デバイス300が用いるモデルが適切な検出を行えないように、配信音声のうち起動音声が含まれると推定された推定範囲を変更する(ステップS5)。例えば、情報提供装置10は、推定範囲の信号に所定のランダムノイズを合成することで、モデルが起動音声を正しく識別することができないアドバーサリアル音声を生成する。そして、情報提供装置10は、配信音声のうち推定範囲をアドバーサリアル音声に置き換えた変更音声を生成し、生成した変更音声を端末装置TMへと配信する(ステップS6)。
このような場合、端末装置TMは、変更音声を出力することとなる。このような変更音声に含まれるアドバーサリアル音声からは、人間が起動音声を識別することができるものの、音声デバイス300が起動音声を検出するモデルが、起動音声を検出することができない。この結果、音声デバイス300は、端末装置TMが出力した変更音声からモデルを用いて起動音声の検出を試行するものの(ステップS7)、起動音声を検出することができないため、そのまま処理を終了する。一方、利用者は、変更音声から起動音声を識別することができるので、配信音声をそのまま認識することができる(ステップS8)。
〔1−7.処理の実行主体について〕
上述した例では、情報提供装置10は、配信装置200から受付けた配信音声のうち起動音声が含まれる範囲等、所定の範囲をアドバーサリアル音声に変更し、変更後の変更音声を端末装置TMへと配信した。しかしながら、実施形態は、これに限定されるものではない。
例えば、配信装置200は、配信対象となる配信音声を登録した登録者から、配信音声のうち起動音声等、音声デバイス300に識別させたくない音声が含まれる範囲の指示を受付ける。このような場合、配信装置200は、情報提供装置10と同様に、指示された範囲をアドバーサリアル音声に変更してもよい。
また、例えば、端末装置TMは、配信装置200から直接配信音声の配信を受付ける。そして、端末装置TMは、情報提供装置10と同様に、音声デバイス300に識別させたくない音声が含まれる範囲を推定し、推定した範囲の音声をアドバーサリアル音声に変更してから、配信音声を出力してもよい。
すなわち、所定の音声をアドバーサリアル音声に変更する処理は、配信音声を配信する装置が実行してもよく、配信音声を中継する装置が実行してもよく、配信音声を再生する装置が実行してもよい。また、上述した所定の音声をアドバーサリアル音声に変更する機能は、端末装置といった情報処理装置やテレビもしくはラジオ等の装置以外にも、例えば、音声を出力するスピーカーやアンプ等に備えられていてもよい。
また、端末装置TMがオンデマンドで配信される動画コンテンツの再生を行う場合、例えば、情報提供装置10は、動画コンテンツに含まれる音声を分離し、分離した音声をアドバーサリアル音声に変更し、変換後のアドバーサリアル音声を動画のデータと再結合したコンテンツを生成し、生成したコンテンツの配信を行えばよい。
また、端末装置TMが所定の音声をアドバーサリアル音声に変更する場合、端末装置TMが有する所定のハードウェアが処理を実行してもよく、ソフトウェアが処理を実行してもよい。例えば、端末装置TMが実行するソフトウエアであって、音声の再生を行うソフトウェアが、再生対象となる音声のうち所定の範囲をアドバーサリアル音声に変更した上で、音声の再生を行ってもよい。
〔1−8.処理の適用範囲について〕
上述した説明では、情報提供装置10は、入力信号として音声信号を受付け、音声信号に含まれる音声のうち所定の範囲に含まれる音声を所定の端末装置が正しく識別できないように変更した。より具体的には、情報提供装置10は、音声デバイス300が使用するモデルであって、音声信号に含まれる音声のうち後続する音声信号の音声認識を実行させる起動音声を検出するモデルが検出できないように、音声信号に含まれる起動音声をアドバーサリアル音声に変更した。しかしながら、実施形態は、これに限定されるものではない。
上述した所定の音声をアドバーサリアル音声に変更する処理等は、音声のみならず、任意の波形を有する任意の信号に対して適用可能である。例えば、情報提供装置10は、所定の装置に対して所定の処理を実行させる恐れがある電波、超音波、マイクロ波等の各種信号を入力信号として取得する。このような場合、情報提供装置10は、入力信号のうち、所定の装置に対して所定の処理を実行させる範囲を推定し、推定した範囲をアドバーサリアル信号に変換する。そして、情報提供装置10は、変換後の信号を出力すればよい。
〔1−9.モデルの学習内容について〕
上述した例では、情報提供装置10は、起動音声の検出を行うモデルの学習を行った。しかしながら、実施形態は、これに限定されるものではない。例えば、DNN等のモデルは、ある入力情報を入力した際に、その入力情報が有する特徴に基づいた出力情報を出力するように学習を行うことが可能である。このようなモデルの特性を考慮し、例えば、情報提供装置10は、配信音声を入力した際に、起動音声等の所定の音声が含まれる範囲をアドバーサリアル音声に変換した変換音声を直接出力するように、モデルの学習を行ってもよい。
〔2.情報提供装置が有する機能構成の一例について〕
以下、上記した検出処理および配信処理を実現する情報提供装置10および音声デバイス300が有する機能構成の一例について説明する。図2は、実施形態に係る情報提供装置および音声デバイスの構成例を示す図である。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。また、音声デバイス300は、通信部310、記憶部320、制御部330、出力部340および観測部350を有する。
まず、音声デバイス300が有する機能構成の一例について説明する。通信部310は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部310は、ネットワークNと有線または無線で接続され、任意の装置との間での情報の送受信を行う。
記憶部320は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現されてる。また、記憶部320は、検出モデル321を記憶する。検出モデル321は、観測部350が観測した音声信号から、起動音声等の所定の音声を検出するためのモデルであり、検出対象となる音声の特徴を学習したモデルである。
制御部330は、コントローラであり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。例えば、制御部330は、検出部331および実行部332を有する。
検出部331は、検出モデル321を用いて、検出対象となる音声の検出を行う。例えば、検出部331は、観測部350によって観測された音声信号を検出モデル321に入力する。そして、検出部331は、検出モデル321が起動音声を検出した旨を出力した場合は、起動音声に続く処理音声を実行部332に出力する。
なお、検出部331は、検出モデル321が起動音声を検出した場合は、観測部350が有する複数のマイクが起動音声を検出した時刻のズレに基づいて、起動音声が発せられた方向を推定する。そして、検出部331は、推定結果に基づいたビームフォーミングににより、処理音声のより認識しやすい音声に変換し、変換後の処理音声を実行部332に出力してもよい。
実行部332は、処理音声が示す各種の処理を実行する。例えば、実行部332は、所定の音声認識技術を用いて、処理音声をテキストに変換し、変換後のテキストが示す処理を実行する。そして、実行部332は、実行結果を示す音声信号を生成し、生成した音声信号を出力部340に出力する。なお、実行部332は、音声認識および認識結果に従った処理を実行する外部サーバに対し、処理音声を出力することで、処理音声が示す処理を実現してもよい。
出力部340は、各種の情報を出力する出力装置であり、例えば、音声信号を出力するスピーカー等により実現される。また、出力部340は、文字や画像等を出力するモニタ等の表示装置であってもよい。
観測部350は、各種観測対象となる信号を観測する観測装置である。例えば、観測部350は、設置位置がそれぞれ異なる複数のマイク#1、#2等により実現される。例えば、観測部230は、各マイクにより同時期に観測された観測信号を、制御部330に提供する。
続いて、情報提供装置10が有する機能構成の一例について説明する。例えば、通信部20は、例えば、NIC等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、例えば、情報処理装置100や配信装置200との間で各種データの送受信を行う。
記憶部30は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、学習データデータベース31、およびモデルデータベース32を記憶する。
学習データデータベース31は、学習データが登録される。例えば、図3は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図3に示すように、学習データデータベース31には、「学習データID(Identifier)」、「入力信号」、および「教師信号」といった項目を有する情報が登録される。
ここで、「学習データID」とは、学習データの識別子である。また、「入力信号」とは、モデルの学習時に用いられる信号であり、例えば、起動信号を含む音声信号である。また、「教師信号」とは、対応付けられた入力信号のうち、起動信号が含まれる範囲(すなわち、起動信号が含まれる周波数帯と時間帯との組)を示す信号である。なお、教師信号は、入力信号に含まれる起動信号そのものであってもよい。また、教師信号は、対応付けられた入力信号に起動信号が含まれていない旨を示してもよい。
例えば、図3に示す例では、学習データデータベース31には学習データID「ID#1」、入力信号「入力信号#1」、教師信号「教師信号#1」が対応付けて登録されている。このような情報は、学習データID「ID#1」が示す学習データが、入力信号「入力信号#1」であり、入力信号「入力信号#1」のうち、起動信号が教師信号「教師信号#1」が示す範囲である旨を示す。
なお、図3に示す例では、「入力信号#1」や「教師信号#1」といった概念的な値を記載したが、実際には、学習データデータベース31には、音声信号等が入力信号や教師信号として登録されることとなる。また、図3に示す情報以外にも、学習データデータベース31には、任意の情報が登録されていてよい。
図2に戻り、説明を続ける。モデルデータベース32には、学習モデルが登録される。例えば、モデルデータベース32には、モデルに入力される情報である入力情報が入力される入力層と、入力層に入力された入力情報に対して所定の処理を順次行う複数の中間層と、複数の中間層の出力に基づいて、入力情報に対応する出力情報を生成する出力層とを有するモデルのデータが登録されている。より具体的には、モデルデータベース32には、各ノードの接続関係や、ノード間の接続係数を示すデータが登録される。
ここで、モデルは、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、入力層に入力された情報と対応する情報を出力層から出力するようコンピュータを機能させる。なお、モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとしての利用が想定されるものであってもよい。
このようなモデルは、入力層に入力信号が入力された場合に、出力層から、入力信号のうち起動音声等、変換対象となる信号が含まれる範囲を示す情報を出力するようコンピュータを機能させる。例えば、モデルは、CPU及びメモリを備えるコンピュータにて用いられる。具体的には、コンピュータのCPUが、メモリに記憶された学習モデルからの指令に従って、モデルの入力層に入力された入力信号に対して、ニューラルネットワークにおける学習済みの重みづけ係数と応答関数等に基づく演算を行い、出力層から入力された入力信号のうち所定の信号(例えば、起動信号等)が含まれる範囲を示す情報を出力するよう動作する。
ここで、モデルをDNN等、1つまたは複数の中間層を有するニューラルネットワークで実現される場合、各モデルが含む第1要素とは、入力層または中間層が有するいずれかのノードと見做すことができ、第2要素とは、第1要素と対応するノードから値が伝達されるノード、すなわち、次段のノードと対応し、第1要素の重みとは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重み、すなわち、接続係数である。
ここで、情報提供装置10は、学習データデータベース31に登録される学習データを用いて、変換対象となる信号が含まれる範囲を示す情報を出力するモデルを生成する。すなわち、学習データデータベース31に登録される学習データは、入力情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力情報の特徴を反映させた重みに基づく演算を行うことにより、入力された入力情報に対応する出力情報(例えば、起動音声が含まれる範囲を示す情報)を出力層から出力するよう、コンピュータを機能させるためのデータである。
制御部40は、コントローラ(controller)であり、例えば、CPU、MPU等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
また、制御部40は、記憶部30に記憶されるモデルを実行することで、モデルの入力層に入力された入力信号に対し、モデルが有する係数(すなわち、モデルが学習した各特徴に対応する係数)に基づく演算を行い、入力された入力信号から変換対象となる所定の範囲を示す情報を生成し、モデルの出力層から出力する。
図2に示すように、制御部40は、収集部41、学習部42、受付部43、推定部44、変更部45、および出力部46を有する。
収集部41は、学習データを収集する。例えば、収集部41は、情報処理装置100から、起動音声を含む音声信号と、音声信号のうちどの範囲が起動音声であるかを示す教師信号とを収集する。そして、収集部41は、収集した音声信号を入力信号とし、入力信号と教師信号とを学習データデータベース31に登録する。
学習部42は、入力信号から変換対象となる信号が含まれる範囲を推定するモデルの学習を行う。例えば、学習部42は、モデルに対して学習データデータベース31に登録された入力信号を入力した際に、教師信号が示す範囲を変換対象となる信号が含まれる範囲として推定するように、モデルの学習を行う。そして、学習部42は、学習が行われたモデル、すなわち、学習モデルをモデルデータベース32に登録する。
受付部43は、入力信号を受付ける。例えば、受付部43は、情報処理装置100から、入力信号として音声信号である配信音声を受付ける。このような場合、受付部43は、受付けた配信音声を推定部44に提供する。
推定部44は、所定の信号が有する特徴を学習した学習モデルを用いて、入力信号のうち所定の信号が含まれる範囲を推定する。例えば、推定部44は、所定の範囲として、後続する信号が示す処理を音声デバイス300に実行させるための信号が含まれる範囲を推定する。また、推定部44は、所定の範囲として、音声デバイス300が送信元の方向を推定する際に用いる信号が含まれる範囲を推定する。
より具体的には、推定部44は、所定の範囲として、音声デバイス300が用いる検出モデル321が特徴を学習した信号であって、音声デバイス300が検出した際に後続する信号の認識処理を行わせるための信号が含まれる範囲を推定する。すなわち、推定部44は、配信音声のうち起動音声が含まれる範囲を推定する。
例えば、推定部44は、配信音声を学習モデルに入力し、学習モデルによって起動音声が含まれると推定された範囲を特定する。そして、推定部44は、特定した範囲を推定範囲として、変更部45に通知する。なお、推定部44は、音声デバイス300に実行させる処理を示す信号が含まれる範囲を推定してもよい。すなわち、推定部44は、配信音声のうち、指示音声等が含まれる範囲の推定を行ってもよい。
なお、推定部44は、入力信号から所定の信号が検出された場合は、入力信号のうち所定の信号から所定の範囲を、推定範囲としてもよい。例えば、推定部44は、入力信号から所定の周波数特性を有する信号を検出し、信号を検出した場合は、検出された信号に続く所定の期間(例えば、5秒間)を推定範囲としてもよい。
変更部45は、入力信号のうち所定の範囲を、所定の音声デバイス300が正しく識別できないように変更する。例えば、変更部45は、音声デバイス300が推定範囲に含まれる信号を正しく検出できないように変更する。また、例えば、変更部45は、音声デバイス300が推定範囲に含まれる信号が示す処理を正しく認識できないように変更する。より具体的には、変更部45は、配信音声のうち推定範囲に含まれる音声を音声デバイス300が正しく識別できないように変更する。例えば、変更部45は、音声デバイス300が使用するモデルであって、音声信号に含まれる音声のうち後続する音声信号の音声認識を実行させる所定の音声を検出するモデル、すなわち、起動音声を検出する検出モデル321が正しく検出できないように、配信音声に含まれる起動音声を変更する。
例えば、変更部45は、推定範囲に含まれる信号に対し、音声デバイス300が正しく識別できなくさせる強度のノイズを合成する。より具体的には、変更部45は、推定範囲に含まれる信号に対し、利用者による認識が困難な強度のノイズであって、音声デバイス300が正しく識別できなくさせる強度のノイズを合成する。例えば、変更部45は、配信音声のうち起動音声が含まれる範囲を、アドバーサリアル音声に変更する。
ここで、図4は、実施形態に係る情報提供装置が音声を変更する処理の一例を示す図である。例えば、図4に示す例では、情報提供装置10は、「ターミナル_今日の_天気を_教えて」といった利用者の音声を含む配信音声を受付ける。このような配信音声において、「ターミナル」とは、音声デバイス300に後続する音声が示す処理を実行させるためのキーワード、すなわち、起動音声である。また、「今日の_天気を_教えて」とは、音声デバイス300に天気予報の情報を取得し、音声で情報を出力させるための指示音声である。
このような配信音声を端末装置TMが再生した場合、音声デバイス300は、利用者が発話していないにもかかわらず、天気予報を取得し、音声で天気予報を出力すると考えられる。そこで、情報提供装置10は、起動音声または指示音声をアドバーサリアル音声に変更する。例えば、情報提供装置10は、学習モデルを用いて、「ターミナル」といった起動音声が含まれる範囲を推定し、推定した範囲をアドバーサリアル音声に変更した変更音声#1を出力する。このような場合、音声デバイス300は、起動音声が検出されないため、アドバーサリアル音声に続く指示音声の音声認識を行わない。
また、情報提供装置10は、指示音声部分をアドバーサリアル音声に変更した変更音声#2を出力してもよい。このような処理を実行した場合、音声デバイス300は、指示音声を正確に認識することができなくなる。この結果、情報提供装置10は、利用者が意図しない動作の実行を防ぐことができる。
図2に戻り、説明を続ける。出力部46は、所定の範囲が変更された入力信号を出力する。例えば、出力部46は、配信音声のうち起動音声が含まれる範囲をアドバーサリアル音声に変更した変更音声を端末装置TMに出力する。なお、出力部46は、例えば、端末装置TMに対して音声信号を送信する基地翼などに対して、変更音声を出力してもよい。
〔3.情報提供装置が実行する処理の流れについて〕
次に、図5を用いて、情報提供装置10が実行する出力処理の流れの一例について説明する。図5は、実施形態に係る情報提供装置が実行する出力処理の流れの一例を示すフローチャートである。
まず、情報提供装置10は、入力信号を受付けと(ステップS101)、入力信号のうち所定の信号が含まれる範囲を推定する(ステップS102)。そして、情報提供装置10は、推定した範囲を音声デバイス300が正しく識別できないように変更し(ステップS103)、変更した信号を出力して(ステップS104)、処理を終了する。
〔4.変形例〕
上記では、情報提供装置10による学習処理および出力処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する処理のバリエーションについて説明する。
〔4−1.処理の実行タイミングについて〕
情報提供装置10は、所定の条件が満たされた場合には、上述した音声の変更を実行せずともよい。例えば、TVで出力される音声と、このような音声に従って音声デバイス300が出力する音声とを連動させた広告態様が考えられる。このような広告の音声が配信音声に含まれる場合、情報提供装置10は、広告の音声をアドバーサリアル音声に変更せずとも好い。また、配信装置200は、予め起動音声をアドバーサリアル音声に変更した配信音声の配信を行ってもよい。
〔4−2.装置構成〕
記憶部30に登録された各データベース31、32は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10は、学習処理を実行する学習サーバ、および配信音声を変更して出力する出力サーバとが連携して動作することにより、実現されてもよい。このような場合、学習サーバには、学習部42が配置されていればよく、出力サーバには、受付部43、推定部44、変更部45および出力部46が配置されていればよい。
〔4−3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔4−4.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図6に示すような構成のコンピュータ1000によって実現される。図6は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムまたはデータ(例えば、モデルM1)を実行することにより、制御部40の機能を実現する。コンピュータ1000の演算装置1030は、これらのプログラムまたはデータ(例えば、モデルM1)を一次記憶装置1040から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
〔5.効果〕
上述したように、情報提供装置10は、入力信号を受付けると、入力信号のうち所定の範囲を、所定の音声デバイス300が正しく識別できないように変更し、所定の範囲が変更された入力信号を出力する。このため、情報提供装置10は、利用者が意図しない動作を音声デバイス300が実行することを防ぐことができる。
また、情報提供装置10は、音声デバイス300が所定の範囲に含まれる信号を正しく検出できないように変更する。また、情報提供装置10は、音声デバイス300が所定の範囲に含まれる信号が示す処理を正しく認識できないように変更する。このため、情報提供装置10は、利用者が意図しない動作を音声デバイス300が実行することを防ぐことができる。
また、情報提供装置10は、所定の範囲として、後続する信号が示す処理を音声デバイス300に実行させるための信号が含まれる範囲を、音声デバイス300が正しく識別できないように変更する。また、情報提供装置10は、所定の範囲として、音声デバイス300が送信元の方向を推定する際に用いる信号が含まれる範囲を、音声デバイス300が正しく識別できないように変更する。
また、情報提供装置10は、所定の範囲として、音声デバイス300が用いるモデルが特徴を学習した信号であって、音声デバイス300が検出した際に後続する信号の認識処理を行わせるための信号が含まれる範囲を、音声デバイス300が正しく識別できないように変更する。また、情報提供装置10は、所定の範囲として、音声デバイス300に実行させる処理を示す信号が含まれる範囲を、音声デバイス300が正しく識別できないように変更する。
また、情報提供装置10は、所定の信号が有する特徴を学習した学習モデルを用いて、入力信号のうち所定の信号が含まれる範囲を推定し、所定の信号を音声デバイス300が正しく識別できないように、入力信号のうち推定部により推定された範囲を変更する。また、情報提供装置10は、入力信号から所定の信号が検出された場合は、その入力信号のうち所定の信号から所定の範囲を、音声デバイス300が正しく識別できないように変更する。
また、情報提供装置10は、入力信号として音声信号を受付け、音声信号に含まれる音声のうち所定の範囲に含まれる音声を所定の音声デバイス300が正しく識別できないように変更する。また、情報提供装置10は、入力信号として音声信号を受付け、音声デバイス300が使用するモデルであって、音声信号に含まれる音声のうち後続する音声信号の音声認識を実行させる所定の音声を検出するモデルが検出できないように、音声信号に含まれる所定の音声を変更する。
これらの処理の結果、情報提供装置10は、端末装置TMから出力される音声により音声デバイス300が動作するといった現象を防ぐことができるので、利用者が意図しない動作を音声デバイス300が実行することを防ぐことができる。
また、情報提供装置10は、入力信号のうち所定の範囲に含まれる信号に対し、音声デバイス300が正しく識別できなくさせる強度のノイズを合成する。例えば、情報提供装置10は、音声信号のうち所定の範囲に含まれる信号に対し、利用者による認識が困難な強度のノイズであって、音声デバイス300が正しく識別できなくさせる強度のノイズを合成する。このような処理の結果、情報提供装置10は、入力信号が利用者に対して提供する意図を妨害することなく、音声デバイス300等が利用者の意図に反して動作するのを防ぐことができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、検出部は、検出手段や検出回路に読み替えることができる。
10 情報提供装置
20、310 通信部
30、320 記憶部
31 学習データデータベース
32 モデルデータベース
40、330 制御部
41 収集部
42 学習部
43 受付部
44 推定部
45 変更部
46 出力部
100 情報処理装置
200 配信装置
300 音声デバイス
321 検出モデル
331 検出部
332 実行部
340 出力部
350 観測部

Claims (15)

  1. 所定の端末装置に実行させる処理を示す第1信号と、当該所定の端末装置が当該第1信号を識別する際に用いる第2信号とを含む入力信号を受付ける受付部と、
    前記入力信号のうち前記第1信号または前記第2信号を、所定の端末装置が正しく識別できないように変更する変更部と、
    前記変更部によって前記第1信号または前記第2信号が変更された入力信号を出力する出力部と
    を有することを特徴とする出力装置。
  2. 前記変更部は、前記端末装置が前記第2信号を正しく検出できないように変更する
    ことを特徴とする請求項1に記載の出力装置。
  3. 前記変更部は、前記端末装置が前記第1信号が示す処理を正しく認識できないように変更する
    ことを特徴とする請求項1または2に記載の出力装置。
  4. 前記変更部は、後続する第1信号が示す処理を前記端末装置に実行させるための第2信号が含まれる範囲を、前記端末装置が正しく識別できないように変更する
    ことを特徴とする請求項1〜3のうちいずれか1つに記載の出力装置。
  5. 前記変更部は、前記端末装置が前記入力信号の送信元の方向を推定する際に用いる第2信号が含まれる範囲を、前記端末装置が正しく識別できないように変更する
    ことを特徴とする請求項1〜4のうちいずれか1つに記載の出力装置。
  6. 前記変更部は、前記端末装置が用いるモデルが特徴を学習した信号であって、前記端末装置が検出した際に後続する第1信号の認識処理を行わせるための第2信号を、前記端末装置が正しく識別できないように変更する
    ことを特徴とする請求項1〜5のうちいずれか1つに記載の出力装置。
  7. 前記変更部は、前記端末装置に実行させる処理を示す第1信号を、前記端末装置が正しく識別できないように変更する
    ことを特徴とする請求項1〜6のうちいずれか1つに記載の出力装置。
  8. 所定の信号が有する特徴を学習した学習モデルを用いて、前記入力信号のうち前記第1信号若しくは前記第2信号が含まれる範囲を推定する推定部
    を有し、
    前記変更部は、前記入力信号のうち前記推定部により推定された範囲に含まれる信号を前記端末装置が正しく識別できないように変更する
    ことを特徴とする請求項1〜7のうちいずれか1つに記載の出力装置。
  9. 前記変更部は、前記入力信号から前記第2信号が検出された場合は、当該入力信号のうち前記第2信号から所定の範囲に含まれる信号を、前記端末装置が正しく識別できないように変更する
    ことを特徴とする請求項1〜8のうちいずれか1つに記載の出力装置。
  10. 前記受付部は、前記入力信号として音声信号を受付け、
    前記変更部は、前記音声信号に含まれる音声のうち前記端末装置に実行させる処理を示す第1音声または前記端末装置が当該第1音声を識別する際に用いる第2音声を所定の端末装置が正しく識別できないように変更する
    ことを特徴とする請求項1〜9のうちいずれか1つに記載の出力装置。
  11. 前記受付部は、前記入力信号として音声信号を受付け、
    前記変更部は、前記端末装置が使用するモデルであって、前記音声信号に含まれる音声のうち後続する音声信号の音声認識を実行させる所定の音声を検出するモデルが検出できないように、前記音声信号に含まれる所定の音声を変更する
    ことを特徴とする請求項1〜10のうちいずれか1つに記載の出力装置。
  12. 前記変更部は、前記入力信号のうち前記第1信号または前記第2信号に対し、前記端末装置が正しく識別できなくさせる強度のノイズを合成する
    ことを特徴とする請求項1〜11のうちいずれか1つに記載の出力装置。
  13. 前記受付部は、前記入力信号として音声信号を受付け、
    前記変更部は、前記音声信号のうち前記端末装置に実行させる処理を示す第1音声または前記端末装置が当該第1音声を識別する際に用いる第2音声に対し、利用者による認識が困難な強度のノイズであって、前記端末装置が正しく識別できなくさせる強度のノイズを合成する
    ことを特徴とする請求項12に記載の出力装置。
  14. 出力装置が実行する出力方法であって、
    所定の端末装置に実行させる処理を示す第1信号と、当該所定の端末装置が当該第1信号を識別する際に用いる第2信号とを含む入力信号を受付ける受付工程と、
    前記入力信号のうち前記第1信号または前記第2信号を、所定の端末装置が正しく識別できないように変更する変更工程と、
    前記変更工程によって前記第1信号または前記第2信号が変更された入力信号を出力する出力工程と
    を含むことを特徴とする出力方法。
  15. 所定の端末装置に実行させる処理を示す第1信号と、当該所定の端末装置が当該第1信号を識別する際に用いる第2信号とを含む入力信号を受付ける受付手順と、
    前記入力信号のうち前記第1信号または前記第2信号を、所定の端末装置が正しく識別できないように変更する変更手順と、
    前記変更手順によって前記第1信号または前記第2信号が変更された入力信号を出力する出力手順と
    をコンピュータに実行させるための出力プログラム。
JP2018034776A 2018-02-28 2018-02-28 出力装置、出力方法、および出力プログラム Active JP6688820B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018034776A JP6688820B2 (ja) 2018-02-28 2018-02-28 出力装置、出力方法、および出力プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018034776A JP6688820B2 (ja) 2018-02-28 2018-02-28 出力装置、出力方法、および出力プログラム

Publications (2)

Publication Number Publication Date
JP2019149768A JP2019149768A (ja) 2019-09-05
JP6688820B2 true JP6688820B2 (ja) 2020-04-28

Family

ID=67849679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018034776A Active JP6688820B2 (ja) 2018-02-28 2018-02-28 出力装置、出力方法、および出力プログラム

Country Status (1)

Country Link
JP (1) JP6688820B2 (ja)

Also Published As

Publication number Publication date
JP2019149768A (ja) 2019-09-05

Similar Documents

Publication Publication Date Title
JP7271674B2 (ja) ネットワークマイクロフォンデバイスのノイズ分類による最適化
US11741979B1 (en) Playback of audio content on multiple devices
US9431021B1 (en) Device grouping for audio based interactivity
US8819554B2 (en) System and method for playing media
JP7212718B2 (ja) 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム
JP2018190413A (ja) ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム
JP2019095551A (ja) 生成装置、生成方法、および生成プログラム
WO2020195821A1 (ja) 情報処理装置、情報処理方法、情報処理プログラム
JP6400871B1 (ja) 発話制御装置、発話制御方法、および発話制御プログラム
CN113168827A (zh) 终端设备及其控制方法
WO2022218027A1 (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
JP6557376B1 (ja) 出力制御装置、出力制御方法、および出力制御プログラム
JP6767322B2 (ja) 出力制御装置、出力制御方法及び出力制御プログラム
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
JP6688820B2 (ja) 出力装置、出力方法、および出力プログラム
US20230099383A1 (en) Power state detection via audio signal capture
WO2016052520A1 (ja) 対話装置
JP2020181060A (ja) 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム
WO2020208972A1 (ja) 応答生成装置及び応答生成方法
JP6998289B2 (ja) 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム
WO2020149031A1 (ja) 応答処理装置及び応答処理方法
JP6516805B2 (ja) 決定装置、決定方法、及び決定プログラム
JP7018850B2 (ja) 端末装置、決定方法、決定プログラム及び決定装置
JP6499343B1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
US20220360935A1 (en) Sound field control apparatus and method for the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191108

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20191108

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200406

R150 Certificate of patent or registration of utility model

Ref document number: 6688820

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350