JP7405660B2

JP7405660B2 - 出力装置、出力方法及び出力プログラム

Info

Publication number: JP7405660B2
Application number: JP2020050261A
Authority: JP
Inventors: 孝太坪内; 照彦寺岡; 秀仁五味; 潤一佐藤
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2023-12-26
Anticipated expiration: 2040-03-19
Also published as: US20210358511A1; JP2021149697A; US11763831B2

Description

本発明は、出力装置、出力方法及び出力プログラムに関する。

従来、音声対話によりインターネット上から所望の情報を検索したり、宅内の家電機器を制御したりする音声対話装置が知られている。例えば、音声対話装置は、対話型の音声操作に対応するＡＩ（Artificial Intelligence）アシスタント機能を利用可能な装置であり、スマートスピーカと呼ばれる。利用者は、スマートスピーカと対話することで様々な情報を取得する。

特開２０１７－１０７０７８号公報

しかしながら、上記の従来技術では、所定の波形情報を適切に除去することができるとは限らない。例えば、上記の従来技術では、スマートスピーカが出力した音声のうち、利用者のプライバシを考慮して除去する必要がある音声を適切に除去することができるとは限らなかった。

本願は、上記に鑑みてなされたものであって、所定の波形情報を適切に除去することができる出力装置、出力方法及び出力プログラムを提供することを目的とする。

本願に係る出力装置は、所定の検知装置によって検知された検知情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測する予測部と、前記所定のコンテキストを有する波形情報が発生すると予測された場合に、当該所定のコンテキストを有する波形情報とは逆位相の波形情報を出力する出力部とを備えることを特徴とする。

実施形態の一態様によれば、所定の波形情報を適切に除去することができるという効果を奏する。

図１は、実施形態に係る出力装置が実行する出力処理の一例を示す図である。図２は、実施形態に係る出力システムの構成例を示す図である。図３は、実施形態に係る発言履歴データベースの一例を示す図である。図４は、実施形態に係る情報処理装置が実行する情報処理の流れの一例を示すフローチャートである。図５は、実施形態に係る出力装置が実行する出力処理の流れの一例を示すフローチャートである。図６は、出力装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る出力装置、出力方法及び出力プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る出力装置、出力方法及び出力プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．出力装置が示す出力処理の一例〕
まず、図１を用いて、出力装置２００が実行する出力処理の一例について説明する。図１は、実施形態に係る出力装置２００が実行する出力処理の一例を示す図である。図１の例では、利用者Ｕ１が他の利用者Ｕ２及びＵ３に対して利用者Ｕ１を特定されうる個人情報を発話するものとする。この場合、出力装置２００が個人情報を除く処理を実行する。また、図１の例では、利用者Ｕ１が利用者Ｕ２に対して発話した時間から、所定の時間経過した後に、利用者Ｕ１が利用者Ｕ３に対して発話するものとする。

なお、ここで、出力装置２００は、周囲の音を取得するマイクと、任意の音を出力可能なスピーカとを有する入出力装置であり、例えば、スマートスピーカと呼ばれるデバイスであるものとして説明する。

このような出力装置２００は、コンテキストにより特定される波形情報として、所定のコンテキストを有する音声が利用者Ｕ１によって発話された場合に、所定のコンテキストを有する音声の逆位相の音声を出力することで、利用者Ｕ１の発話を遮蔽する。すなわち、出力装置２００は、所定のコンテキストを有する波形情報の発生を予測し、所定のコンテキストを有する波形情報が発生すると予測される場合に、かかる波形情報と逆位相の波形情報を出力することで、所定のコンテキストを有する波形情報を遮蔽する。

例えば、出力装置２００は、利用者Ｕ１が所定のコンテキストを有する対象発言を発話する前に行った事前発言を、対象発言が発生する際のコンテキストとして取得する。そして、出力装置２００は、取得したコンテキストと類似するコンテキストが発生した場合（例えば、利用者が対象発言を発話した際の事前発言と類似する発話を行った場合）に、対象発言の発生を予測し、対象発言の逆位相の音声を出力することで、対象発言の遮蔽を行う。

以下、図１を用いて、具体的な例を説明する。図１に示すように、出力装置２００は、利用者Ｕ１の発言を取得する（ステップＳ１）。例えば、出力装置２００は、利用者Ｕ１の発言として、「昨日、友達Ａから私の電話番号０９０－ＸＸＸＸ－ＸＸＸＸに電話がかかってきたんだよね」といった発言が示す音声を取得する。この場合、出力装置２００は、「昨日、友達Ａから私の電話番号０９０－ＸＸＸＸ－ＸＸＸＸに電話がかかってきたんだよね」を示す音声の波形情報を取得する。

続いて、利用者Ｕ１は、利用者Ｕ２に対して対象発言を行う（ステップＳ２）。例えば、利用者Ｕ１は、利用者Ｕ２に対して、「昨日、友達Ａから私の電話番号０９０－ＸＸＸＸ－ＸＸＸＸに電話がかかってきたんだよね」といった発言を発話する。ここで、対象発言が「０９０－ＸＸＸＸ－ＸＸＸＸ」であるものとする。

このような電話番号を示す対象発言は、プライバシを毀損する恐れがある。そこで、情報処理装置１００は、このようなプライバシを毀損する恐れのある発言を、所定のコンテキストを有する発言、すなわち、対象発言とする。例えば、情報処理装置１００は、所定のコンテキストを有する対象発言に先駆けた事前発言を出力装置２００から取得する（ステップＳ３）。例えば、情報処理装置１００は、対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」の前に位置する「昨日、友達Ａから私の電話番号」を事前発言として、「昨日、友達Ａから私の電話番号」が示す音声の波形情報を出力装置２００から取得する。なお、ステップ１及びステップ２は、同時に行ってもよいし、順不同で行ってもよい。例えば、ステップ２の方がステップ１よりも早いステップで行われてもよい。

続いて、情報処理装置１００は、事前発言から所定のコンテキストを有する波形情報、すなわち対象発言の発生を予測する予測モデルを生成する（ステップＳ４）。例えば、情報処理装置１００は、事前発言が示す音声の波形情報と、所定のコンテキストを有する対象発言が示す音声の波形情報とを学習することで、事前発言が示す音声の波形情報が入力された場合に、所定のコンテキストを有する対象発言が発話される確率を出力する予測モデルを生成する。

また、情報処理装置１００は、所定のコンテキストを有する波形情報の逆位相の音声を生成する（ステップＳ５）。具体的には、情報処理装置１００は、所定のコンテキストを有する対象発言を除去するために、対象発言が示す音声の波形情報を打ち消す逆位相の波形情報を生成する。

例えば、情報処理装置１００は、ノイズキャンセル等で用いられる従来技術によって、対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が示す音声の波形情報から逆位相の波形情報を生成する。

そして、情報処理装置１００は、予測モデルと逆位相の音声とを出力装置２００に提供する（ステップＳ４）。例えば、情報処理装置１００は、事前発言が示す音声の波形情報が入力された場合に、所定のコンテキストを有する対象発言が発話される確率を出力する予測モデルと、対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が示す音声の逆位相の波形情報とを出力装置２００に提供する。

また、利用者Ｕ１が利用者Ｕ２に対して発話を行った時間から、所定の時間が経過した場合について説明する。このとき、出力装置２００は、利用者Ｕ１の発言を取得する（ステップＳ７）。例えば、出力装置２００は、利用者Ｕ１が利用者Ｕ３に対する発言として、「昨日、友達Ａから私の電話番号０９０－ＸＸＸＸ－ＸＸＸＸに電話がかかってきたよ」といった発言が示す音声を取得する。この場合、出力装置２００は、「昨日、友達Ａから私の電話番号・・・」を示す音声の波形情報を取得する。

続いて、出力装置２００は、予測モデルを用いて、所定のコンテキストを有する対象発言の発生を予測する（ステップＳ８）。例えば、出力装置２００は、事前発言として、「昨日、友達Ａから私の電話番号」が示す音声を予測モデルに入力することで、所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が発話される確率を出力する。そして、出力装置２００は、所定のコンテキストを有する対象発言が発話される確率が所定の閾値以上である場合に、利用者Ｕ１によって所定のコンテキストを有する対象発言が発話されると判定する。

そして、出力装置２００は、所定のコンテキストを有する対象発言の発生が予測された場合に、逆位相の音声を出力する（ステップＳ９）。例えば、情報処理装置１００は、利用者Ｕ１によって対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が発話されると判定された場合に、所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が示す音声の逆位相の波形情報を利用者Ｕ１に対して出力する。これにより、出力装置２００は、利用者Ｕ１によって発話された音声のうち、所定のコンテキストを有する対象発言に相当する音声を選択的に除去することが可能となる。

このように、出力装置２００は、各種のセンサが検知した現実世界（リアリティ）の情報を検知情報として取得し、取得した検知情報から検知世界（センスドリアリティ）を構築する。そして、出力装置２００は、検知世界に含まれる各種の対象（現実世界における対象と対応）のうち、所定のコンテキストを有する波形情報等、所定の条件を満たす対象を消去、変更、或いは認識の容易性を低下させた減少世界（ディミニッシュドリアリティ）を各種の提供手段により利用者に提供する。この結果、出力装置２００は、利用者が認知したくない、或いは、利用者に認知させたくない情報を利用者の認知対象から除外することができる。

従来、スマートスピーカが出力した音声のうち、利用者のプライバシを考慮して除去する必要がある音声を適切に除去することが困難である場合があった。そこで、実施形態に係る出力装置２００は、所定の検知装置によって検知された検知情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測し、所定のコンテキストを有する波形情報が発生すると予測された場合に、所定のコンテキストを有する波形情報とは逆位相の波形情報を出力することで従来の課題を解決する。これにより、出力装置２００は、利用者のプライバシを適切に保護することができる。

〔２．コンテキストに基づく予測処理の具体例〕
上記実施形態では、実施形態に係る出力装置２００が所定の検知装置によって検知された検知情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測する予測処理について説明したが、出力装置２００は、以下に示すような予測処理を行ってもよい。なお、ここでいうコンテキストは、例えば、利用者の属性、利用者の位置、利用者が発話した日時、利用者の感情等を示す状態、利用者がこれから行うであろう行動又は利用者が所定の地域に集まった場合の混雑の具合を示す混雑度等を含む。

具体的には、出力装置２００は、所定の検知装置によって検知情報が検知されたときの時間に関する時間情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測する。例えば、利用者によって端末装置が利用されている例を挙げて説明する。この場合、出力装置２００は、端末装置によって検知された利用者の属性が３０代男性である場合に、事前発言として、「昨日、友達Ａから私の電話番号」が示す音声を予測モデルに入力することで、所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が発話される確率を出力する。そして、出力装置２００は、所定のコンテキストを有する対象発言が発話される確率が所定の閾値以上である場合に、利用者によって所定のコンテキストを有する対象発言が発話されると判定する。一方、出力装置２００は、検知された利用者の属性が２０代女性である場合に、所定のコンテキストを有する対象発言が発話される確率が所定の閾値未満であることから、利用者によって所定のコンテキストを有する対象発言が発話されないと判定する。

また、出力装置２００は、所定の検知装置によって検知情報が検知されたときの時間に関する時間情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測する。例えば、出力装置２００は、時刻を計時するセンサ等によって検知された日時が午前である場合に、事前発言として、「昨日、友達Ａから私の電話番号」が示す音声を予測モデルに入力することで、所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が発話される確率を出力する。そして、出力装置２００は、所定のコンテキストを有する対象発言が発話される確率が所定の閾値以上である場合に、利用者によって所定のコンテキストを有する対象発言が発話されると判定する。一方、出力装置２００は、検知された日時が夕方である場合に、所定のコンテキストを有する対象発言が発話される確率が所定の閾値未満であることから、利用者によって所定のコンテキストを有する対象発言が発話されないと判定する。

また、出力装置２００は、所定の検知装置によって検知情報が検知されたときの所定の検知装置が示す位置に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測してもよい。例えば、利用者によって端末装置が利用されている例を挙げて説明する。また、過去に利用者Ｕ１が利用者Ｕ２に対して発話を行った位置と、現在の利用者Ｕ１が利用者Ｕ３に対して発話を行った位置とが類似するものとする。この場合、出力装置２００は、端末装置が有するＧＰＳ（Global Positioning System）センサ等によって検知された位置が学校の位置である場合に、利用者Ｕ１によって発話された事前発言として、「昨日、友達Ａから私の電話番号」が示す音声を予測モデルに入力することで、所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が発話される確率を出力する。そして、出力装置２００は、所定のコンテキストを有する対象発言が発話される確率が所定の閾値以上である場合に、利用者Ｕ１によって所定のコンテキストを有する対象発言が発話されると判定する。一方、出力装置２００は、検知された位置が公園の位置である場合に、所定のコンテキストを有する対象発言が発話される確率が所定の閾値未満である場合に、利用者Ｕ１によって所定のコンテキストを有する対象発言が発話されないと判定する。

また、出力装置２００は、所定の検知装置によって過去に検知情報が検知されたときの天候に関する天候情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測してもよい。例えば、過去に利用者Ｕ１が利用者Ｕ２に対して発話を行ったときの天候情報と、現在の利用者Ｕ１が利用者Ｕ３に対して発話を行ったときの天候情報とが類似するものとする。この場合、出力装置２００は、利用者Ｕ１によって発話された事前発言として、「昨日、友達Ａから私の電話番号」が示す音声を予測モデルに入力することで、所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が発話される確率を出力する。そして、出力装置２００は、所定のコンテキストを有する対象発言が発話される確率が所定の閾値以上である場合に、利用者Ｕ１によって対象発言が発話されると判定する。

また、出力装置２００は、所定の検知装置によって検知された過去の検知情報を解析した所定のコンテキストを有する発言内容に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測してもよい。例えば、形態素解析や、構文解析や、意味解析等の従来技術を用いて、事前発言が示す発言内容及び所定のコンテキストを有する対象発言が示す発言内容を解析しているものとする。この場合、出力装置２００は、事前発言が示す発言内容として「電話番号」を予測モデルに入力することで、所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が発話される確率を出力する。そして、出力装置２００は、所定のコンテキストを有する対象発言が発話される確率が所定の閾値以上である場合に、利用者によって対象発言が発話されると判定する。

また、出力装置２００は、過去に所定の検知装置によって検知された検知情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測してもよい。例えば、各利用者から予め取得された事前発言と、所定のコンテキストを有する対象発言とが対応付けて記憶されるデータベースが出力装置２００に備えられているものとする。この場合、出力装置２００は、利用者によって発話された事前発言を取得し、データベースを参照して、事前発言に対応付けられた所定のコンテキストを有する対象発言を検索する。例えば、出力装置２００は、音声解析等の従来技術を用いて、利用者によって発話された事前発言が示す第１の波形情報と、データベースに記憶される事前発言が示す第２の波形情報との類似性に基づいて、利用者によって発話された事前発言を特定する。そして、出力装置２００は、特定された事前発言と対応付けられた所定のコンテキストを有する対象発言を、利用者によって発話された事前発言に対応する所定のコンテキストを有する対象発言と予測する。このように、出力装置２００は、所定のコンテキストを有する対象発言が発生すると判定することができる。

例えば、電車における車内アナウンスを例に挙げる。この場合、出力装置２００は、１両目の車両で聞こえる外の音及び音声（例えば、駅構内の放送、街宣車の音声又は広告に関する放送等）のうち、所定のポリシに合致する音及び音声を検知する。そして、出力装置２００は、２両目以降の車両で逆位相の音及び音声を出力することで、搭乗者に聞かせないようにする。また、出力装置２００は、電車が走行する線路上、トンネル近くに位置する駅構内で放送が流れる場合に、駅構内の放送を逆位相の音によって打ち消すことで、車両内放送を強調するようにしてもよい。

また、アナウンス等が放送される駅及び駅の位置と、放送される時間とに対応付けられてデータベースに予め記憶されていてもよい。例えば、利用者によって端末装置が利用されているものとする。この場合、出力装置２００は、端末装置が有するＧＰＳセンサ等によって検知された利用者の位置が電車の車内であり、位置を取得した時間が「１３：４５」である場合に、５分後に「Ａ駅」を通過するとき（通過時間が「１３：５０」）に放送されるアナウンスが記憶されたデータベースを参照する。そして、出力装置２００は、利用者の位置と、「Ａ駅」とが所定の距離以内であり、且つ、時間が通過時間「１３：５０」である場合に、データベースに記憶された「Ａ駅」で放送されるアナウンスに対応する逆位相の音声によって、「Ａ駅」で放送されるアナウンスを打ち消してもよい。

なお、上記例では、電車を対象として例を挙げたが、電車の代わりに如何なる移動体に対して適用されてもよい。例えば、移動体とは、自家用車、タクシー又はバス等を含む自動車や、飛行機等である。

また、出力装置２００は、所定のコンテキストを有する波形情報が示す発言の内容そのものではなく、それを発言した際の利用者のコンテキストに基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測してもよい。例えば、出力装置２００は、利用者が旅行中である場合に、事前発言として、「昨日、友達Ａから私の電話番号」が示す音声を予測モデルに入力することで、対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が発話される確率を出力する。そして、出力装置２００は、対象発言が発話される確率が所定の閾値以上である場合に、利用者によって対象発言が発話されると判定する。一方、出力装置２００は、利用者が旅行中ではない場合に、対象発言が発話される確率が所定の閾値未満である場合に、利用者によって対象発言が発話されないと判定する。

例えば、出力装置２００は、利用者Ｕ１と利用者Ｕ２とが家族である場合に、利用者Ｕ１によって発話された事前発言として、「昨日、友達Ａから私の電話番号」が示す音声を予測モデルに入力することで、対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が発話される確率を出力する。そして、出力装置２００は、対象発言が発話される確率が所定の閾値以上である場合に、利用者Ｕ１によって対象発言が発話されると判定する。一方、出力装置２００は、利用者Ｕ１と利用者Ｕ２とが友人である場合に、対象発言が発話される確率が所定の閾値未満である場合に、利用者Ｕ１によって対象発言が発話されないと判定する。

また、出力装置２００は、検知情報に基づいて推定されるコンテキストとして、過去に所定の検知装置によって利用者が所定の状態で発話された音声が示す所定の波形情報が検知された場合に、所定の波形情報が発生するか否かを予測する。例えば、出力装置２００は、検知情報に基づいて推定されるコンテキストとして、音声を発話した利用者の感情に基づいて、所定の波形情報が発生するか否かを予測する。

ここで、出力装置２００は、例えば、利用者の感情を、利用者の音声が示す振幅が所定の閾値以上である場合に、利用者が怒っていると推定する。一方、出力装置２００は、利用者の感情を、利用者の音声が示す振幅が所定の閾値未満である場合に、利用者が冷静であると推定する。また、出力装置２００は、利用者の感情を、利用者によって発話された発言の速度が所定の閾値以上である場合に、利用者が怒っていると推定する。一方、出力装置２００は、利用者の感情を、利用者によって発話された発言の速度が所定の閾値未満である場合に、利用者が冷静であると推定する。

例えば、過去に利用者Ｕ１の感情と、現在の利用者Ｕ１の感情とが類似するものとする。この場合、出力装置２００は、事前発言として、「昨日、友達Ａから私の電話番号」が示す音声を予測モデル２２１に入力することで、対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が発話される確率を出力する。そして、出力装置２００は、対象発言が発話される確率が所定の閾値以上である場合に、利用者Ｕ１によって対象発言が発話されると判定する。

このように、出力装置２００は、波形情報そのものが有するコンテキストのみならず、波形情報の出力元若しくは出力先に関するコンテキスト、波形情報が発生した際の日時や場所といった発生態様のコンテキストが所定の条件を満たす波形情報の発生を予測し、発生が予測された場合に、逆位相の情報を出力してもよい。

〔２．出力システムの構成〕
図２に示すように、出力システム１は、情報処理装置１００と、出力装置２００とを含む。情報処理装置１００及び出力装置２００は、ネットワークＮを介して、有線又は無線により通信可能に接続される。なお、図２に示す出力システム１には、複数台の情報処理装置１００や、複数台の出力装置２００が含まれてもよい。

実施形態に係る情報処理装置１００は、インターネット等の所定のネットワークＮを介して、各種の装置と通信可能な情報処理装置であり、例えば、サーバ装置又はクラウドシステム等により実現される。例えば、情報処理装置１００は、ネットワークＮを介して、他の各種装置と通信可能に接続されるである。

実施形態に係る出力装置２００は、音声認識機能や、音声再生機能や、音声合成機能や、音声応答機能等を有する情報処理装置であり、例えば、スマートスピーカ等である。また、出力装置２００は、ネットワークＮを介して、他の各種装置と通信可能に接続される。

また、出力装置２００は、音楽の出力や音声による情報提供を実現可能な装置である。また、出力装置２００は、音を取得する取得機能を有し、利用者が発した音声を取得すると、取得した音声の内容に応じた音を出力する出力機能を有する。

〔３．情報処理装置の構成〕
以下、上記した情報処理装置１００が有する機能構成の一例について説明する。図２は、実施形態に係る情報処理装置１００の構成例を示す図である。図２に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークＮと有線または無線で接続され、出力装置２００との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部１２０は、発言履歴データベース１２１を有する。

（発言履歴データベース１２１について）
発言履歴データベース１２１は、利用者によって発話された発言に関する音声情報を記憶する。ここで、図３に、実施形態に係る発言履歴データベース１２１の一例を示す。図３に示した例では、発言履歴データベース１２１は、「発言履歴ＩＤ（Identifier）」、「対象発言」、「事前発言」といった項目を有する。

「発言履歴ＩＤ」は、発言履歴を識別する識別子である。「対象発言」は、「発言履歴ＩＤ」に対応付けられた予測対象となる発言に関する情報である。例えば、対象発言は、予測対象となる発言の音声が示す波形情報であって、所定のコンテキストを有する波形情報等である。「事前発言」は、「発言履歴ＩＤ」に対応付けられた対象発言の前に発話される発言に関する情報である。例えば、事前発言は、対象発言の前に発話される発言の音声が示す波形情報等である。

例えば、図３では、発言履歴ＩＤによって識別された「ＲＥ１」は、対象発言が「対象発言＃１」であり、事前発言が「事前発言＃１」である。なお、図３に示した例では、対象発言及び事前発言を抽象的な符号で表現したが、対象発言及び事前発言は、具体的な数値や、具体的なファイル形式等であってもよい。また、発言履歴データベース１２１は、上記項目だけでなく、利用者によって発話された発言の特徴を示す特徴情報等を記憶してもよい。

（制御部１３０について）
制御部１３０は、コントローラ（Controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図２に示すように、制御部１３０は、学習部１３１と、生成部１３２と、提供部１３３とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図２に示した接続関係に限られず、他の接続関係であってもよい。

（学習部１３１について）
学習部１３１は、各種情報を用いて、学習モデルを生成する。具体的には、学習部１３１は、発言履歴データベース１２１を参照して、事前発言から、所定のコンテキストを有する対象発言の発生を予測する予測モデルを生成する。例えば、学習部１３１は、機械学習等の従来技術を用いて、事前発言が示す音声の波形情報と、所定のコンテキストを有する対象発言が示す音声の波形情報とを学習することで、事前発言が示す音声の波形情報が入力された場合に、所定のコンテキストを有する対象発言が発話される確率を出力する予測モデルを生成する。

また、学習部１３１は、事前発言が示す音声の波形情報と、所定のコンテキストを有する対象発言が示す音声の波形情報と、発話された時間に関する時間情報とを学習することで、事前発言が示す音声の波形情報と、発話された時間に関する時間情報とが入力された場合に、所定のコンテキストを有する対象発言が発話される確率を出力する予測モデルを生成してもよい。

また、学習部１３１は、事前発言が示す音声の波形情報と、所定のコンテキストを有する対象発言が示す音声の波形情報と、発話した利用者の位置とを学習することで、事前発言が示す音声の波形情報と、発話した利用者の位置とが入力された場合に、所定のコンテキストを有する対象発言が発話される確率を出力する予測モデルを生成してもよい。

また、学習部１３１は、事前発言が示す音声の波形情報と、所定のコンテキストを有する対象発言が示す音声の波形情報と、発話したときの天候に関する天候情報とを学習することで、事前発言が示す音声の波形情報と、発話したときの天候情報とが入力された場合に、所定のコンテキストを有する対象発言が発話される確率を出力する予測モデルを生成してもよい。

また、学習部１３１は、各種情報を所定の学習モデルに学習させてもよい。具体的には、学習部１３１は、発言履歴データベース１２１を参照して、事前発言が示す音声の波形情報が入力された場合に、所定のコンテキストを有する対象発言が発話される確率を出力する予測モデルに対して、新規に取得された事前発言が示す音声の波形情報と、新規に取得された所定のコンテキストを有する対象発言が示す音声の波形情報とを学習させてもよい。

なお、実施形態における予測モデルは、上記例に限定されない。例えば、学習部１３１は、音声の波形情報の代わりに、音声が示す発言内容を学習することで、予測モデルを生成してもよい。

例えば、学習部１３１は、形態素解析や、構文解析や、意味解析等の従来技術を用いて、事前発言が示す発言内容を解析することで、事前発言が示す発言内容を推定する。また、学習部１３１は、形態素解析や、構文解析や、意味解析等の従来技術を用いて、所定のコンテキストを有する対象発言が示す発言内容を解析することで、所定のコンテキストを有する対象発言が示す発言内容を推定する。そして、学習部１３１は、事前発言が示す発言内容と、所定のコンテキストを有する対象発言が示す発言内容とを学習することで、事前発言が示す発言内容が入力された場合に、所定のコンテキストを有する対象発言が発話される確率を出力する予測モデルを生成してもよい。なお、学習部１３１は、対象発言が発話される確率を出力する予測モデルを生成する処理に限定されなくともよく、例えば、所定のコンテキストを有する対象発言が示す発言内容を出力する予測モデルを生成してもよい。

（生成部１３２について）
生成部１３２は、各種情報を生成する。具体的には、生成部１３２は、所定のコンテキストを有する対象発言を除去するために、所定のコンテキストを有する対象発言が示す音声の波形情報を打ち消す逆位相の波形情報を生成する。例えば、生成部１３２は、ノイズキャンセル等で用いられる従来技術によって、所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が示す音声の波形情報から逆位相の波形情報を生成する。

（提供部１３３について）
提供部１３３は、各種情報を提供する。具体的には、提供部１３３は、予測モデルと逆位相の音声とを出力装置２００に提供する。例えば、提供部１３３は、事前発言が示す音声の波形情報が入力された場合に、所定のコンテキストを有する対象発言が発話される確率を出力する予測モデルと、所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が示す音声の逆位相の波形情報とを出力装置２００に提供する。

〔４．出力装置の構成〕
以下、上記した出力装置２００が有する機能構成の一例について説明する。図２は、実施形態に係る出力装置２００の構成例を示す図である。図２に示すように、出力装置２００は、通信部２１０と、記憶部２２０と、マイク２３０と、スピーカ２３１と、制御部２４０とを有する。

（通信部２１０について）
通信部２１０は、例えば、ＮＩＣ等によって実現される。そして、通信部２１０は、ネットワークＮと有線または無線で接続され、情報処理装置１００との間で情報の送受信を行う。

（記憶部２２０について）
記憶部２２０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部２２０は、予測モデル２２１を有する。例えば、予測モデル２２１は、事前発言が示す音声の波形情報が入力された場合に、対象発言が発話される確率を出力する予測モデルである。

（マイク２３０について）
マイク２３０は、各種音及び音声を取得する。例えば、マイク２３０は、周囲の音を取得する。また、マイク２３０は、周囲に位置する利用者によって発話された音声を取得する。

（スピーカ２３１について）
スピーカ２３１は、各種音及び音声を出力する。例えば、スピーカ２３１は、任意の音及び音声を出力する。また、スピーカ２３１は、逆位相の音声を出力する。

（制御部２４０について）
制御部２４０は、コントローラであり、例えば、ＣＰＵやＭＰＵ等によって、出力装置２００内部の記憶装置に記憶されている各種プログラム（出力プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部２４０は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

図２に示すように、制御部２４０は、取得部２４１と、予測部２４２と、出力部２４３とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部２４０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部２４０が有する各処理部の接続関係は、図２に示した接続関係に限られず、他の接続関係であってもよい。

（取得部２４１について）
取得部２４１は、各種情報を取得する。具体的には、取得部２４１は、利用者Ｕ１が利用者Ｕ２に対して発話を行った場合に、所定のコンテキストを有する対象発言に先駆けた事前発言を利用者Ｕ１から取得する。そして、取得部２４１は、利用者Ｕ１が利用者Ｕ２に対して発話を行った時間から、所定の時間が経過した場合に、利用者の発言を取得する。

例えば、取得部２４１は、所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」の前に位置する「昨日、友達Ａから私の電話番号」を事前発言として、「昨日、友達Ａから私の電話番号」が示す音声の波形情報を取得する。

例えば、取得部２４１は、利用者Ｕ１が利用者Ｕ３に対する発言として、「昨日、友達Ａから私の電話番号・・・」といった発言が示す音声を取得する。この場合、出力装置２００は、「昨日、友達Ａから私の電話番号・・・」を示す音声の波形情報を取得する。

（予測部２４２について）
予測部２４２は、各種情報を予測する。具体的には、予測部２４２は、所定の検知装置によって検知された検知情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測する。

例えば、利用者Ｕ１が利用者Ｕ２に対して発話を行った時間から、所定の時間が経過した場合に、利用者Ｕ１が利用者Ｕ３に対して発話を行ったものとする。この場合、予測部２４２は、時刻を計時するセンサ等によって検知された日時に基づいて、事前発言として、「昨日、友達Ａから私の電話番号」が示す音声を予測モデル２２１に入力することで、所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が発話される確率を出力する。そして、予測部２４２は、所定のコンテキストを有する対象発言が発話される確率が所定の閾値以上である場合に、利用者Ｕ１によって所定のコンテキストを有する対象発言が発話されると判定する。

（出力部２４３について）
出力部２４３は、各種情報を出力する。具体的には、出力部２４３は、所定のコンテキストを有する波形情報が発生すると予測された場合に、所定のコンテキストを有する波形情報とは逆位相の波形情報を出力する。例えば、出力部２４３は、利用者Ｕ１によって所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が発話されると判定された場合に、所定のコンテキストを有する対象発言「０９０－ＸＸＸＸ－ＸＸＸＸ」が示す音声の逆位相の波形情報を利用者Ｕ１に対して出力する。これにより、出力部２４３は、利用者Ｕ１によって発話された音声のうち、所定のコンテキストを有する対象発言に相当する音声を選択的に除去することが可能となる。

例えば、電車における車内アナウンスを例に挙げる。この場合、出力部２４３は、電車が駅に進入してきた場合に、駅構内で流れる放送を軽減するように、駅構内の放送が示す波形情報とは逆位相の音を電車内に出力する。これにより、出力部２４３は、駅構内で流れる放送を軽減し、車内放送を強調することができる。

〔５．処理手順（１）〕
次に、図４を用いて、実施形態に係る情報処理装置１００が実行する情報処理の手順について説明する。図４は、実施形態に係る情報処理装置１００が実行する情報処理の流れの一例を示すフローチャートである。

図４に示すように、学習部１３１は、対象発言が発話されたか否かを判定する（ステップＳ１０１）。具体的には、学習部１３１は、対象発言が発話されないと判定した場合（ステップＳ１０１；Ｎｏ）、ステップＳ１０４まで進む。

一方、学習部１３１は、対象発言が発話されたと判定した場合（ステップＳ１０１；Ｙｅｓ）、事前発言が有する特徴を学習した予測モデルを生成する（ステップＳ１０２）。そして、生成部１３２は、所定のコンテキストを有する波形情報の逆位相の音声を生成する（ステップＳ１０３）。そして、提供部１３３は、予測モデルと、逆位相の音声とを出力装置２００に提供する（ステップＳ１０４）。

〔６．処理手順（２）〕
次に、図５を用いて、実施形態に係る出力装置２００が実行する出力処理の手順について説明する。図５は、実施形態に係る出力装置２００が実行する出力処理の流れの一例を示すフローチャートである。

図５に示すように、取得部２４１は、利用者の発言を取得する（ステップＳ２０１）。そして、予測部２４２は、所定のコンテキストを有する波形情報として、対象発言が発話されるか否かを予測する（ステップＳ２０２）。具体的には、予測部２４２は、対象発言が発話されないと予測した場合（ステップＳ２０２；Ｎｏ）、ステップＳ２０１の前まで戻る。

一方、出力部２４３は、予測部２４２によって対象発言が発話されると予測された場合（ステップＳ２０２；Ｙｅｓ）、逆位相の音声を出力する（ステップＳ２０３）。そして、出力部２４３は、ステップＳ２０１の前まで戻り、上記処理を繰り返す。

〔７．変形例〕
上述した情報処理装置１００及び出力装置２００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理装置１００及び出力装置２００の他の実施形態について説明する。

〔７－１．音声〕
上記実施形態では、利用者によって発話された発言が示す音声を例に挙げて説明してきたが、音声の代わりに、例えば、香り、光、電磁波、地震等の振動に対して上記実施形態で示した出力処理を適用してもよい。このように、上記実施形態は、周期的な変動を示す物理現象であるならば、如何なる物理現象に対しても適用されることが可能である。

〔７－２．対象発言〕
上記実施形態では、利用者が特定されうる個人情報を発話し、個人情報に対応する発言を対象発言として例に挙げて説明してきたが、これに限定されない。例えば、他の利用者の個人情報又は侮辱したり、差別したりする内容に相当する発言に対して上記実施形態で示した出力処理を適用してもよい。また、利用者の口癖に対して上記実施形態で示した出力処理を適用してもよい。

〔７－３．出力方向〕
上記実施形態では、出力装置２００が所定のコンテキストを有する波形情報が発生すると予測された場合に、所定のコンテキストを有する波形情報とは逆位相の波形情報を出力する例を挙げて説明してきたが、これに限定されない。例えば、出力装置２００は、逆位相の音声を出力する方向を限定してもよい。この場合、出力装置２００は、逆位相の音声を、利用者が対象発言を発する方向に限定して出力してもよい。なお、逆位相の音声は、指向性を有していてもよい。

例えば、街宣車が大音量の音を周囲に鳴らして走行しているものとする。この場合、出力装置２００は、街宣車から出力される音を、所定の区域に届けないようにするために、逆位相の音を出力させ、街宣車から出力される音を打ち消すようにしてもよい。なお、出力装置２００は、所定の区域から街宣車の音を軽減させるための要請又は契約がされている場合に行ってもよい。

〔７－４．出力装置〕
上記実施形態では、出力装置２００がスマートスピーカとして例を挙げて説明したが、出力装置２００は、音声再生機能を有するならば、如何なる情報処理装置であってもよい。具体的には、出力装置２００は、ブラウザに表示されるウェブページやアプリケーション用のコンテンツ等のコンテンツにアクセスする利用者によって利用される端末装置であってもよい。

例えば、出力装置２００は、デスクトップ型ＰＣ（Personal Computer）や、ノート型ＰＣや、タブレット端末や、携帯電話機や、ＰＤＡ（Personal Digital Assistant）、スマートウォッチ、ウェアラブルデバイス（Wearable Device）等であってもよい。例えば、出力装置２００は、移動可能な滑車等を備え、自走してもよい。

〔７－５．プログラム〕
また、上述した実施形態に係る出力装置２００は、例えば、図６に示すような構成のコンピュータ１０００によって実現される。図６は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が出力装置２００として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部４０の機能を実現する。

〔７－６．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、情報処理装置１００と、出力装置２００を統合して、出力装置としてもよい。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、出力部は、出力手段や出力回路に読み替えることができる。

〔８．効果〕
上述してきたように、実施形態に係る出力装置２００は、予測部２４２と、出力部２４３とを有する。予測部２４２は、所定の検知装置によって検知された検知情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測する。出力部２４３は、所定のコンテキストを有する波形情報が発生すると予測された場合に、所定のコンテキストを有する波形情報とは逆位相の波形情報を出力する。

これにより、実施形態に係る出力装置２００は、所定のコンテキストを有する波形情報が発生すると予測された場合に、所定のコンテキストを有する波形情報とは逆位相の波形情報を出力するため、所定の波形情報を適切に除去することができる。

また、実施形態に係る出力装置２００において、予測部２４２は、所定のコンテキストを有する波形情報として、所定の波形を有する波形情報が発生するか否かを予測する。

これにより、実施形態に係る出力装置２００は、所定のコンテキストを有する波形情報として、所定の波形を有する波形情報が発生するか否かを予測するため、所定の波形情報を適切に除去することができる。

また、実施形態に係る出力装置２００において、予測部２４２は、所定の検知装置によって検知情報が検知されたときの所定の検知装置が示す位置に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測し、出力部２４３は、所定の検知装置によって検知情報が検知された位置が過去に所定のコンテキストを有する波形情報が検知された位置と類似する場合に、所定のコンテキストを有する波形情報とは逆位相の波形情報を過去に所定のコンテキストを有する波形情報が検知された方向に出力する。

これにより、実施形態に係る出力装置２００は、所定の検知装置によって検知情報が検知された位置が過去に所定のコンテキストを有する波形情報が検知された位置と類似する場合に、所定のコンテキストを有する波形情報とは逆位相の波形情報を過去に所定のコンテキストを有する波形情報が検知された方向に出力するため、所定の波形情報を適切に除去することができる。

また、実施形態に係る出力装置２００において、予測部２４２は、所定の検知装置によって検知情報が検知されたときの時間に関する時間情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測し、出力部２４３は、所定の検知装置によって検知情報が検知された時間情報が過去に所定のコンテキストを有する波形情報が検知された時間情報と類似する場合に、所定のコンテキストを有する波形情報とは逆位相の波形情報を出力する。

これにより、実施形態に係る出力装置２００は、所定の検知装置によって検知情報が検知された時間情報が過去に所定のコンテキストを有する波形情報が検知された時間情報と類似する場合に、所定のコンテキストを有する波形情報とは逆位相の波形情報を出力するため、所定の波形情報を適切に除去することができる。

また、実施形態に係る出力装置２００において、予測部２４２は、所定の検知装置によって過去に検知情報が検知されたときの天候に関する天候情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測し、出力部２４３は、所定の検知装置によって検知情報が検知された天候情報が過去に所定のコンテキストを有する波形情報が検知された天候情報と類似する場合に、所定のコンテキストを有する波形情報とは逆位相の波形情報を出力する。

これにより、実施形態に係る出力装置２００は、所定の検知装置によって検知情報が検知された天候情報が過去に所定のコンテキストを有する波形情報が検知された天候情報と類似する場合に、所定のコンテキストを有する波形情報とは逆位相の波形情報を出力するため、所定の波形情報を適切に除去することができる。

また、実施形態に係る出力装置２００において、予測部２４２は、検知情報に基づいて推定されるコンテキストに基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測する。

これにより、実施形態に係る出力装置２００は、検知情報に基づいて推定されるコンテキストに基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測するため、音声を適切なタイミングで除去することができる。

また、実施形態に係る出力装置２００において、予測部２４２は、コンテキストとして、過去に所定の検知装置によって利用者が所定のコンテキストを有する音声を発話した際に検知された利用者の状態と類似する状態が検知された場合に、所定のコンテキストを有する波形情報が発生すると予測する。

これにより、実施形態に係る出力装置２００は、コンテキストとして、過去に所定の検知装置によって利用者が所定のコンテキストを有する音声を発話した際に検知された利用者の状態と類似する状態が検知された場合に、所定のコンテキストを有する波形情報が発生すると予測するため、音声を適切なタイミングで除去することができる。

また、実施形態に係る出力装置２００において、予測部２４２は、所定のコンテキストを有する音声を発話した際の利用者の感情に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測する。

これにより、実施形態に係る出力装置２００は、所定のコンテキストを有する音声を発話した際の利用者の感情に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測するため、音声を適切なタイミングで除去することができる。

また、実施形態に係る出力装置２００において、予測部２４２は、過去に所定の検知装置によって検知された検知情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測する。

これにより、実施形態に係る出力装置２００は、過去に所定の検知装置によって検知された検知情報に基づいて、所定のコンテキストを有する波形情報が発生するか否かを予測するため、音声を適切なタイミングで除去することができる。

また、実施形態に係る出力装置２００において、予測部２４２は、所定の検知装置によって検知された検知情報に基づく第１の波形情報と、過去に所定の検知装置によって検知された検知情報に基づく所定のコンテキストを有する第２の波形情報であって、第１の波形情報とは異なる他の第２の波形情報との類似性に基づいて、所定の波形情報が発生するか否かを予測する。

これにより、実施形態に係る出力装置２００は、所定の検知装置によって検知された検知情報に基づく第１の波形情報と、過去に所定の検知装置によって検知された検知情報に基づく所定のコンテキストを有する第２の波形情報であって、第１の波形情報とは異なる他の第２の波形情報との類似性に基づいて、所定の波形情報が発生するか否かを予測するため、音声を適切なタイミングで除去することができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

Ｎネットワーク
１出力システム
１００情報処理装置
１１０通信部
１２０記憶部
１２１発言履歴データベース
１３０制御部
１３１学習部
１３２生成部
１３３提供部
２００出力装置
２１０通信部
２２０記憶部
２２１予測モデル
２３０マイク
２３１スピーカ
２４０制御部
２４１取得部
２４２予測部
２４３出力部

Claims

所定のコンテキストを有する対象発言を発話する前に行った事前発言が示す音声の波形情報が入力された場合に、当該対象発言の発生を予測することを学習した予測モデルを用いて、所定の検知装置によって検知された、当該所定の検知装置または検知された利用者に係る状態を含む検知情報に基づいて、所定のコンテキストを有する対象発言に係る音声の波形情報が発生するか否かを予測する予測部と、
当該所定のコンテキストを有する対象発言に係る音声の波形情報が発生すると予測された場合に、当該波形情報とは逆位相の波形情報を出力する出力部と
を備えることを特徴とする出力装置。
前記予測部は、前記所定のコンテキストを有する対象発言に係る音声の波形情報として、所定の波形を有する波形情報が発生するか否かを予測する
ことを特徴とする請求項１に記載の出力装置。
前記予測部は、
前記所定の検知装置によって検知情報が検知されたときの前記所定の検知装置が示す位置に基づいて、前記所定のコンテキストを有する対象発言に係る音声の波形情報が発生するか否かを予測し、
前記出力部は、
前記所定の検知装置によって検知情報が検知された位置が過去に前記所定のコンテキストを有する対象発言に係る音声の波形情報が検知された位置と類似する場合に、当該波形情報とは逆位相の波形情報を前記過去に所定のコンテキストを有する対象発言に係る音声の波形情報が検知された方向に出力する
ことを特徴とする請求項１又は２に記載の出力装置。
前記予測部は、
前記所定の検知装置によって検知情報が検知されたときの時間に関する時間情報に基づいて、前記所定のコンテキストを有する対象発言に係る音声の波形情報が発生するか否かを予測し、
前記出力部は、
前記所定の検知装置によって検知情報が検知された時間情報が過去に前記所定のコンテキストを有する対象発言に係る音声の波形情報が検知された時間情報と類似する場合に、当該波形情報とは逆位相の波形情報を出力する
ことを特徴とする請求項１～３のいずれか１つに記載の出力装置。
前記予測部は、
前記所定の検知装置によって過去に検知情報が検知されたときの天候に関する天候情報に基づいて、前記所定のコンテキストを有する対象発言に係る音声の波形情報が発生するか否かを予測し、
前記出力部は、
前記所定の検知装置によって検知情報が検知された天候情報が過去に前記所定のコンテキストを有する対象発言に係る音声の波形情報が検知された天候情報と類似する場合に、当該波形情報とは逆位相の波形情報を出力する
ことを特徴とする請求項１～４のいずれか１つに記載の出力装置。
前記予測部は、
前記検知情報に基づいて推定されるコンテキストに基づいて、前記所定のコンテキストを有する対象発言に係る音声の波形情報が発生するか否かを予測する
ことを特徴とする請求項１～５のいずれか１つに記載の出力装置。
前記予測部は、
前記コンテキストとして、過去に前記所定の検知装置によって利用者が前記所定のコンテキストを有する音声を発話した際に検知された当該利用者の状態と類似する状態が検知された場合に、当該所定のコンテキストを有する音声の波形情報が発生するかと予測する
ことを特徴とする請求項６に記載の出力装置。
前記予測部は、
前記コンテキストを有する音声を発話した際の利用者の感情に基づいて、前記所定のコンテキストを有する音声の波形情報が発生するか否かを予測する
ことを特徴とする請求項７に記載の出力装置。
前記予測部は、
過去に前記所定の検知装置によって検知された検知情報に基づいて、前記所定のコンテキストを有する対象発言に係る音声の波形情報が発生するか否かを予測する
ことを特徴とする請求項１～８のいずれか１つに記載の出力装置。
前記予測部は、
前記所定の検知装置によって検知された検知情報に基づく第１の波形情報と、前記過去に前記所定の検知装置によって検知された検知情報に基づく前記所定のコンテキストを有する対象発言に係る音声の第２の波形情報であって、当該第１の波形情報とは異なる他の第２の波形情報との類似性に基づいて、前記所定のコンテキストを有する対象発言に係る音声の波形情報が発生するか否かを予測する
ことを特徴とする請求項９に記載の出力装置。
コンピュータが実行する出力方法であって、
所定のコンテキストを有する対象発言を発話する前に行った事前発言が示す音声の波形情報が入力された場合に、当該対象発言の発生を予測することを学習した予測モデルを用いて、所定の検知装置によって検知された、当該所定の検知装置または検知された利用者に係る状態を含む検知情報に基づいて、所定のコンテキストを有する対象発言に係る音声の波形情報が発生するか否かを予測する予測工程と、
当該所定のコンテキストを有する対象発言に係る音声の波形情報が発生すると予測された場合に、当該波形情報とは逆位相の波形情報を出力する出力工程と
を含むことを特徴とする出力方法。
所定のコンテキストを有する対象発言を発話する前に行った事前発言が示す音声の波形情報が入力された場合に、当該対象発言の発生を予測することを学習した予測モデルを用いて、所定の検知装置によって検知された、当該所定の検知装置または検知された利用者に係る状態を含む検知情報に基づいて、所定のコンテキストを有する対象発言に係る音声の波形情報が発生するか否かを予測する予測手順と、
当該所定のコンテキストを有する対象発言に係る音声の波形情報が発生すると予測された場合に、当該波形情報とは逆位相の波形情報を出力する出力手順と
をコンピュータに実行させるための出力プログラム。