JP6400871B1 - 発話制御装置、発話制御方法、および発話制御プログラム - Google Patents

発話制御装置、発話制御方法、および発話制御プログラム Download PDF

Info

Publication number
JP6400871B1
JP6400871B1 JP2018053250A JP2018053250A JP6400871B1 JP 6400871 B1 JP6400871 B1 JP 6400871B1 JP 2018053250 A JP2018053250 A JP 2018053250A JP 2018053250 A JP2018053250 A JP 2018053250A JP 6400871 B1 JP6400871 B1 JP 6400871B1
Authority
JP
Japan
Prior art keywords
user
utterance
information
output
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018053250A
Other languages
English (en)
Other versions
JP2019164301A (ja
Inventor
孝太 坪内
孝太 坪内
山本 学
学 山本
中村 浩樹
浩樹 中村
太士 岩▲瀬▼張
太士 岩▲瀬▼張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018053250A priority Critical patent/JP6400871B1/ja
Application granted granted Critical
Publication of JP6400871B1 publication Critical patent/JP6400871B1/ja
Publication of JP2019164301A publication Critical patent/JP2019164301A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】発話タイミングをより適切に決定することができる発話制御装置、発話制御方法、および発話制御プログラムを提供すること。
【解決手段】実施形態に係る発話制御装置は、ユーザに関するコンテキスト情報を取得するコンテキスト取得部と、コンテキスト取得部によって取得されたコンテキスト情報に基づいて、音声出力器からの発話に対する過去のユーザの反応を考慮した発話のタイミングを決定するタイミング決定部とを備える。
【選択図】図3

Description

本発明は、発話制御装置、発話制御方法、および発話制御プログラムに関する。
従来、機器からの発話を制御する発話制御装置が知られている。例えば、特許文献1には、機器の稼働状況を示す稼働ログを分析して、機器を使用するユーザの繁忙度を判定し、判定した繁忙度に応じて、機器からの発話タイミングを制御する発話制御装置が開示されている。
特開2017−151718号公報
しかしながら、上記特許文献1に記載の発話制御装置は、機器の稼働状況から予め設定された条件で発話タイミングを制御するものであり、機器のユーザによっては適切な発話タイミングとならないおそれがあり、更なる改善の余地があった。
本願は、上記に鑑みてなされたものであって、発話タイミングをより適切に決定することができる発話制御装置、発話制御方法、および発話制御プログラムを提供することを目的とする。
本願に係る発話制御装置は、ユーザに関するコンテキスト情報を取得するコンテキスト取得部と、前記コンテキスト取得部によって取得された前記コンテキスト情報に基づいて、音声出力器からの発話に対する過去のユーザの反応を考慮した前記発話のタイミングを決定するタイミング決定部とを備える。
実施形態の一態様によれば、発話タイミングをより適切に決定することができる発話制御装置、発話制御方法、および発話制御プログラムを提供することができる。
図1は、実施形態に係る情報処理システムの構成例を示す図である。 図2は、実施形態に係る発話制御処理の説明図である。 図3は、実施形態に係るスマートスピーカの構成例を示す図である。 図4は、実施形態に係る発話テーブルの一例を示す図である。 図5は、実施形態に係る情報提供装置の構成例を示す図である。 図6は、実施形態に係る発話テーブル記憶部に記憶される発話テーブルの一例を示す図である。 図7は、実施形態に係るコンテンツ記憶部に記憶されるコンテンツテーブルの一例を示す図である。 図8は、実施形態に係る音声広告記憶部に記憶される音声広告テーブルの一例を示す図である。 図9は、実施形態に係るユーザ情報記憶部に記憶されるユーザ情報テーブルの一例を示す図である。 図10は、実施形態に係る情報処理システムによる発話制御処理の一例を示すフローチャート(その1)である。 図11は、実施形態に係る情報処理システムによる発話制御処理の一例を示すフローチャート(その2)である。 図12は、実施形態に係る情報処理システムによる出力制御処理の一例を示すフローチャートである。 図13は、実施形態に係る情報処理システムによる音声情報効果判定処理の一例を示すフローチャートである。 図14は、プログラムを実行するコンピュータのハードウェア構成の一例を示す図である。
以下に、本願に係る発話制御装置、発話制御方法、および発話制御プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る発話制御装置、発話制御方法、および発話制御プログラムが限定されるものではない。
〔1.情報提供システム〕
図1は、実施形態に係る情報処理システムの構成例を示す図である。図1に示すように、実施形態に係る情報処理システム100は、スマートスピーカ1と、情報提供装置2と、端末装置3と、複数の機器4〜4(nは2以上の整数)と、複数のセンサ装置5〜5(mは2以上の整数)とを備える。以下、機器4〜4の各々を区別せずに示す場合、機器4と記載し、センサ装置5〜5の各々を区別せずに示す場合、センサ装置5と記載する。
スマートスピーカ1、情報提供装置2、端末装置3、機器4、およびセンサ装置5は、ネットワーク6を介して無線または有線で互いに通信可能に接続される。ネットワーク6は、例えば、LAN(Local Area Network)や、インターネットなどのWAN(Wide Area Network)であり、1以上のネットワークで構成される。
スマートスピーカ1、端末装置3、機器4、およびセンサ装置5は、ユーザUの周囲の領域ARに配置されている。領域ARは、例えばユーザUの部屋または家である。また、図示していないがユーザU〜U(kは2以上の整数)の領域AR〜ARの各々にも、領域ARと同様に、スマートスピーカ1、端末装置3、機器4、およびセンサ装置5が配置されている。以下、ユーザU〜Uの各々を区別せずに示す場合、ユーザUと記載する。
スマートスピーカ1は、対話型の音声操作に対応するAI(人工知能:Artificial Intelligence)アシスタント機能を利用可能なスピーカであり、ユーザUは、スマートスピーカ1と対話することで様々な情報を取得することができる。例えば、スマートスピーカ1は、ユーザUからの指示を示す入力情報を情報提供装置2へ送信し、入力情報応じた情報提供装置2からネットワーク6を介して提供されるコンテンツ(例えば、音楽、ニュース、交通情報、天候などの各種情報)を取得し、内蔵している音声出力器から取得したコンテンツを出力することができる。
また、スマートスピーカ1は、ユーザUからの指示に従って機器4を制御することができる。例えば、機器4が照明機器である場合、スマートスピーカ1は、ユーザUからの指示に従って照明機器である機器4のオンとオフを制御することができる。
情報提供装置2は、スマートスピーカ1から出力される情報に基づいて、ユーザUからの指示に応じたコンテンツをスマートスピーカ1へネットワーク6を介して提供することができる。例えば、情報提供装置2は、スマートスピーカ1から送信されるユーザUの発話情報に基づき、ユーザUの指示を判定し、判定した指示に応じたコンテンツをスマートスピーカ1へ提供することができる。
端末装置3は、例えば、スマートフォン、デスクトップ型PC(Personal Computer)、ノート型PC、タブレット型端末、携帯電話機、PDA(Personal Digital Assistant)等により実現される。かかる端末装置3は、例えば、情報通知アプリケーションを含む複数のアプリケーションを有しており、情報提供装置2から通知されるコンテンツを取得して表示したりする。端末装置3は、端末装置3の動作状態を示す情報やユーザUによる端末装置3の操作履歴を示す情報をスマートスピーカ1や情報提供装置2へ通知することができる。
機器4は、ユーザUの周囲に存在する機器である。例えば、機器4には、冷蔵庫、照明機器、洗濯機、エアーコンディショナー、テレビジョン受像機、食器洗浄機、食器乾燥機、電磁調理器、電子レンジといった種々の機器が含まれる。機器4は、機器4の動作状態を示す情報やユーザUによる機器4の操作履歴を示す情報をスマートスピーカ1や情報提供装置2へ通知することができる。
センサ装置5は、ユーザUの周囲に存在するセンサである。センサ装置5は、例えば、温度センサ、湿度センサ、照度センサ、気圧センサ、ドアの開閉を検出する開閉センサといったセンサを含む。また、センサ装置5は、ユーザUを撮像する撮像部を含む。センサ装置5は、温度の計測値、湿度の計測値、照度の計測値、気圧の計測値、ドアの開閉情報、撮像画像の情報といったセンサ情報をスマートスピーカ1や情報提供装置2へ通知することができる。なお、センサ装置5は、スマートスピーカ1や機器4に内蔵されていてもよい。
実施形態に係る情報処理システム100は、スマートスピーカ1の音声出力器からの自発的な発話を制御する発話制御処理を実行することができる。以下、発話制御処理について説明する。図2は、実施形態に係る発話制御処理の説明図であり、図2に示す例では、発話制御装置の一例であるスマートスピーカ1によって発話制御処理が実行される。
スマートスピーカ1は、ユーザUに関するコンテキスト情報を取得するコンテキスト取得処理を実行する(ステップS1)。ユーザUに関するコンテキスト情報は、ユーザUに関するコンテキストを示す情報である。例えば、ユーザUに関するコンテキスト(以下、単にコンテキストと記載する場合がある)は、ユーザUに関する状況である。例えば、コンテキストには、ユーザUの状況、ユーザUによる機器(例えば、端末装置3や機器4)の使用状況、およびユーザUの周囲の状況といったユーザUに関する状況が含まれる。
ユーザUの状況には、例えば、ユーザUの会話状態、ユーザUの発話内容、ユーザUの運動状態、ユーザUの現在位置、ユーザUの属性状態、およびユーザUの感情状態などが含まれる。ユーザUによる機器の使用状況には、例えば、ユーザUによる機器の操作履歴および使用時間などが含まれる。
ユーザUの周囲の状況には、例えば、ユーザUの周囲の他人の存在や他人の状態、ユーザUが置かれた物理環境、およびユーザUが置かれた社会環境などが含まれる。ユーザUが置かれた物理環境には、ユーザUの周囲の明るさ、気温、湿度、および天候などが含まれる。ユーザUが置かれた社会環境には、ユーザUの周囲の交通機関の運行状態、ユーザUの周囲のイベントの開催状態、曜日(例えば、休日と平日の区別を含む)などが含まれる。
スマートスピーカ1は、例えば、端末装置3や機器4から、ユーザUによる端末装置3や機器4の使用状況を示す情報をコンテキスト情報として取得することができる。また、スマートスピーカ1は、ユーザUの周囲に配置されたセンサ装置5からユーザUが置かれた物理環境を示す情報をコンテキスト情報として取得することができる。また、スマートスピーカ1は、ユーザUの発話を不図示の音声入力器から取得し、取得したユーザUの発話からユーザUの会話状態を示す情報を得ることができる。また、スマートスピーカ1は、ユーザUの発話以外の音を不図示の音声入力器から取得し、取得したユーザUの発話以外の音から周囲の音の状態を示す情報を得ることができる。
また、スマートスピーカ1は、情報提供装置2からネットワーク6を介してユーザUが置かれた社会環境を示す情報(例えば、交通機関の運行状態)やユーザUが置かれた物理環境(例えば、天候)を示す情報などを取得することができる。また、端末装置3や機器4が情報提供装置2へユーザUによる端末装置3や機器4の使用状況を示す情報を送信する場合、スマートスピーカ1は、情報提供装置2からネットワーク6を介してユーザUによる端末装置3や機器4の使用状況を示す情報を取得することもできる。
スマートスピーカ1は、上述したコンテキスト取得処理を繰り返し実行する。スマートスピーカ1は、繰り返し実行されるコンテキスト取得処理によって取得されたコンテキスト情報に基づいて、音声出力器11からの発話に対する過去のユーザUの反応を考慮した発話タイミングを決定するタイミング決定処理を実行する(ステップS2)。発話タイミングは、ユーザUの指示によることなくスマートスピーカ1から自発的に発話するタイミングである。
スマートスピーカ1は、音声出力器11からの過去の発話に対するユーザUの反応を示す反応情報とコンテキスト情報に基づいて、現在のコンテキストが発話に適しているコンテキストであるか否かを判定することができる。
例えば、スマートスピーカ1は、反応情報を教師データとしコンテキスト情報を特徴量とした機械学習によって生成されたモデル(以下、タイミング判定モデルと記載する場合がある)を有している。スマートスピーカ1は、コンテキスト取得処理で取得されたコンテキスト情報をタイミング判定モデルに入力することで、現在のコンテキストが発話に適しているコンテキストであるか否かを判定することができる。
スマートスピーカ1は、ユーザUに関する現在のコンテキストが発話に適しているコンテキストである場合、発話のタイミングになったと判定し、音声出力器11から自発的な発話を出力する出力制御処理を行う(ステップS3)。これにより、音声出力器11から自発的な発話が出力される(ステップS4)。
このように、スマートスピーカ1は、音声出力器11からの発話に対する過去のユーザUの反応を考慮してスマートスピーカ1から自発的に発話するタイミングを決定することから、予め設定された条件で発話タイミングを制御する場合に比べ、より適切なタイミングでスマートスピーカ1からの発話を行うことができる。
なお、スマートスピーカ1は、タイミング決定処理において、音声出力器11から出力することができるコンテンツ毎に発話のタイミングを決定することができる。これにより、スマートスピーカ1は、コンテンツ毎に適したタイミングで発話を行うことができる。
〔2.スマートスピーカ1の構成〕
次に、実施形態に係るスマートスピーカ1の構成について具体的に説明する。図3は、実施形態に係るスマートスピーカ1の構成例を示す図である。図3に示すように、スマートスピーカ1は、通信部10と、音声出力器11と、音声入力器12と、撮像部13と、記憶部14と、制御部15とを備える。
通信部10は、ネットワーク6を介して情報提供装置2、端末装置3、機器4、およびセンサ装置5などの装置と通信可能な通信インターフェイスである。制御部15は通信部10を介して情報提供装置2、端末装置3、機器4、およびセンサ装置5と情報の送受信を行うことができる。なお、スマートスピーカ1は、通信部10以外の通信部によって端末装置3、機器4、およびセンサ装置5と通信する構成であってもよい。
例えば、ネットワーク6がLANとWANで構成され、且つ通信部10がLANに接続される場合、制御部15は、LANを介して端末装置3、機器4、およびセンサ装置5と情報の送受信を行い、LANおよびWANを介して情報提供装置2と情報の送受信を行う。
音声出力器11は、制御部15から出力される電気信号に応じた振動を行うことで、電気信号に応じた音波をスマートスピーカ1の外部へ出力する。音声出力器11は、例えば、振動板と、電気信号に応じて振動板を振動させる駆動機構とを備える。なお、図3に示す例では、一つの音声出力器11のみ図示しているが、スマートスピーカ1には、音声出力器11が複数設けられてもよい。
音声入力器12は、マイクロフォンであり、外部から入力される音波を電気信号に変換し、変換した電気信号を制御部15へ出力する。なお、図3に示す例では、一つの音声入力器12のみ図示しているが、スマートスピーカ1には、音声入力器12が複数設けられてもよい。
撮像部13は、例えば、COMS(Complementary Metal Oxide Semiconductor)イメージセンサを有しており、スマートスピーカ1の周囲を撮像する。撮像部13は、撮像結果である撮像情報を制御部15へ出力する。撮像情報には、スマートスピーカ1の周囲の撮像画像の情報が含まれる。
記憶部14は、スマートスピーカ1へのユーザUの操作履歴20、および自発的な発話を行うための発話テーブル21を記憶する。
操作履歴20は、スマートスピーカ1への操作内容と操作時刻とがユーザUの操作毎に関連付けられた情報である。操作内容は、例えば、各種のコンテンツ(例えば、スケジュール、メール、ニュース、音楽、交通情報など)の音声出力器11からの出力を開始する音声操作、各種のコンテンツの音声出力器11からの出力を停止する音声操作などの種々の操作が含まれる。
図4は、実施形態に係る発話テーブル21の一例を示す図である。図4に示す発話テーブル21は、「コンテンツID」と、「発話内容」と、「モデル」とが互いに関連付けられた情報を含む。「コンテンツID」は、コンテンツに固有の識別情報である。
「発話内容」は、例えば、コンテンツの利用の可否の問い合わせを行うための発話情報である。例えば、「発話内容」は、コンテンツがニュースである場合、「今日のニュースはいかがですか?」、「ニュースが“X”件あります」などである。また、「発話内容」は、コンテンツがメールである場合、「メールが“X”通届いています」などであり、コンテンツがスケジュールである場合、「本日は、“X”件の予定があります」などである。なお、“X”の情報は、情報提供装置2から制御部15が取得して発話内容に追加することができる。
また、「発話内容」は、コンテンツそのものであってもよい。この場合、発話テーブル21には発話内容は設定されず、制御部15がコンテンツIDに基づいて情報提供装置2からコンテンツを取得する。
「モデル」は、発話に対する過去のユーザUの反応と発話時の過去のユーザUに関するコンテキスト情報とに基づいて生成されるタイミング判定モデルであり、コンテンツ毎に異なる。例えば、タイミング判定モデルは、発話に対する過去のユーザUの反応を目的変数とし、ユーザUに関するコンテキストを説明変数とする回帰モデルである。目的変数は、教師データとも呼ばれ、説明変数は、素性または特徴量とも呼ばれる。タイミング判定モデルにおいて説明変数の数は多いほど精度が良くなるが、説明変数の数は一つであってもよい。
図3に示す制御部15は、入力処理部31と、情報出力部32と、情報取得部33と、出力処理部34と、コンテキスト取得部35と、タイミング決定部36とを備える。入力処理部31は、音声入力器12から出力される電気信号からユーザUの音声を認識する。
また、入力処理部31は、撮像部13から出力される撮像情報からユーザUのジェスチャーを判定する。なお、入力処理部31は、撮像部を含むセンサ装置5から撮像情報を取得し、取得した撮像情報に基づいて、ユーザUのジェスチャーを判定することができる。
また、入力処理部31は、撮像部13から出力される撮像情報からユーザUの口の動きを検出し、検出した口の動きからユーザUの口パク(無音発声)の内容を判定することができる。すなわち、入力処理部31は、撮像部13から出力される撮像情報から読唇を行うことができる。入力処理部31は、読唇の結果をユーザUの発話情報とする。なお、入力処理部31は、ユーザUの音声が識別できる場合、読唇を行わない。
情報出力部32は、ユーザUがウェークアップワードを発話したと入力処理部31によって認識された場合、ウェークアップワードに続くユーザUの発話情報を情報提供装置2へ出力する。発話情報は、ユーザUの音声情報そのものであっても、テキスト情報であってもよい。また、情報出力部32は、入力処理部31によって判定されたジェスチャーの情報であるジェスチャー情報を情報提供装置2へ出力する。なお、ウェークアップワードは、スマートスピーカ1に予め設定されたワードであるが、情報出力部32は、ウェークアップワードの発話にかかわらずユーザUの発話情報およびジェスチャー情報を情報提供装置2へ出力することもできる。
また、情報出力部32は、例えば、情報提供装置2からコンテキスト情報を取得しない場合などにおいて、コンテキスト取得部35で取得したコンテキスト情報を継続して繰り返し情報提供装置2へ出力することもできる。
また、情報出力部32は、音声出力器11からの音声広告の出力が開始されたときから予め設定された期間(以下、広告出力期間と記載する場合がある)において、音声入力器12へ入力される音を含む音情報および撮像部13から出力される撮像情報を含む撮像情報を情報提供装置2へ出力する。なお、予め設定された期間は、例えば、音声出力器11からの音声広告の出力が開始されたときから開始し、音声広告の出力が停止または終了されたときに終了する期間、または、音声出力器11からの音声広告の出力が開始されたときから開始し、音声広告の出力が停止または終了されてから一定期間後に終了する期間である。なお、情報出力部32は、広告出力期間において、端末装置3の音声入力器またはセンサ装置5へ入力される音を含む音情報を端末装置3またはセンサ装置5から取得して情報提供装置2へ出力することもできる。
情報取得部33は、情報提供装置2からコンテンツ毎のタイミング判定モデルを含むモデル情報を取得し、取得したタイミング判定モデル情報を発話テーブル21に設定することができる。また、情報取得部33は、情報提供装置2からコンテンツを取得する。出力処理部34は、情報取得部33によって取得されたコンテンツを電気信号へ変換して音声出力器11へ出力する。これにより、スマートスピーカ1からコンテンツが音として出力される。
なお、出力処理部34は、コンテンツを情報提供装置2から文字情報として取得した場合、文字情報を音声合成処理によって音声信号(電気信号)へ変換して音声出力器11へ出力する。また、出力処理部34は、コンテンツを情報提供装置2から音声情報として取得した場合、音声情報をデジタルアナログ変換によって音声信号(電気信号)へ変換して音声出力器11へ出力する。
コンテキスト取得部35は、ユーザUに関するコンテキスト情報を取得するコンテンツ取得処理を実行する。コンテキスト取得部35は、端末装置3、機器4、およびセンサ装置5から直接または情報提供装置2を介してコンテキスト情報を取得することができる。
具体的には、コンテキスト取得部35は、ユーザUの周囲の状況を示す周囲情報をコンテキスト情報の少なくとも一部として取得することができる。例えば、コンテキスト取得部35は、ユーザUの周囲に存在する1以上のセンサ装置5から出力されるセンサ情報から周囲情報を取得することができる。
センサ情報は、例えば、ユーザUの周囲の明るさを示す照度情報、ユーザUの周囲の気温を示す気温情報、およびユーザUの周囲の湿度を示す湿度情報の少なくとも一つが含まれている。コンテキスト取得部35は、照度情報、気温情報、および湿度情報を周囲情報として取得することができる。
また、コンテキスト取得部35は、ユーザUの周囲に存在する1以上の機器の状態を示す機器情報から周囲情報を取得することができる。ここで、1以上の機器とは、スマートスピーカ1、端末装置3、および機器4のうち1以上の機器である。機器情報は、例えば、機器のオン/オフといった機器の稼動状態を示す情報や、動作状態を示す情報である。
例えば、端末装置3の場合、動作状態を示す情報には、端末装置3で表示中のアプリケーションの種別や表示中のコンテンツの内容などが含まれる。また、機器がエアコンである場合、動作状態を示す情報には、エアコンの設定風量や設定温度などの情報が含まれる。
また、コンテキスト取得部35は、ユーザUの周囲に存在する1以上の機器への操作履歴を示す操作履歴情報から周囲情報を取得することができる。1以上の機器とは、スマートスピーカ1、端末装置3、および機器4のうち1以上の機器である。操作履歴情報には、例えば、機器への操作内容と操作時刻とが関連付けられた情報がユーザUの操作毎に含まれる。コンテキスト取得部35は、スマートスピーカ1の操作履歴情報を記憶部14から取得することができる。
また、コンテキスト取得部35は、例えば、ユーザUの撮像情報を示す撮像情報を撮像部13、端末装置3、機器4、またはセンサ装置5から取得することができる。コンテキスト取得部35は、取得した撮像情報からユーザUの状況を示す情報といったコンテキスト情報を取得することができる。
また、コンテキスト取得部35は、例えば、音声入力器12へ入力される音を含む音情報から、ユーザUの会話の状態、ユーザUの発話状態、ユーザUの周囲の音(機器4の音を含む)などのコンテキスト情報を取得することができる。
タイミング決定部36は、コンテキスト取得部35によって取得されたコンテキスト情報に基づいて、音声出力器11からの発話に対する過去のユーザUの反応を考慮した発話のタイミングである発話タイミングを決定する。
例えば、タイミング決定部36は、記憶部14に記憶された発話テーブルに含まれるコンテンツ毎のタイミング判定モデルにコンテキスト取得部35で取得されたコンテキスト情報を入力情報として入力してモデルを用いた演算を行う。タイミング決定部36は、タイミング判定モデルの演算結果であるスコアが予め設定された閾値であるか否かを判定する。
タイミング決定部36は、タイミング判定モデルの演算結果であるスコアが閾値以上であると判定した場合、発話テーブル21において、スコアが閾値以上であるタイミング判定モデルに関連付けられた発話内容を出力するタイミングになったと判定する。また、タイミング決定部36は、スコアが閾値以上であるタイミング判定モデルが同時に2以上ある場合、スコアが閾値以上であるタイミング判定モデルのうち最も高いスコアのタイミング判定モデルに関連付けられた発話内容を出力するタイミングになったと判定する。
なお、タイミング決定部36は、タイミング判定モデルの演算結果であるスコアが閾値以上であると判定した場合でも、発話内容を出力するタイミングになったとは判定しないことができる。例えば、タイミング決定部36は、スコアが閾値以上であるタイミング判定モデルに関連付けられた発話内容を前回出力してから予め設定した期間(以下、出力禁止期間と記載する)を経過していない場合、発話タイミングになったとは判定しないことができる。
また、タイミング決定部36は、スコアが閾値以上であるタイミング判定モデルに関連付けられた発話内容を現時刻から予め設定された期間(以下、設定期間と記載する)前までの間に予め設定された回数(以下、出力上限回数と記載する)を超えた場合、発話タイミングになったとは判定しないことができる。
また、タイミング決定部36は、タイミング判定モデルの演算結果であるスコアが閾値以上であると判定した場合でも、ユーザUがスマートスピーカ1を操作中の場合や音声出力器11からコンテンツや発話が出力中であれば、発話タイミングになったとは判定しない。この場合、タイミング決定部36は、ユーザUによるスマートスピーカ1の操作が終了した時点で、継続してスコアが閾値以上であるタイミング判定モデルがあれば、ユーザUによるスマートスピーカ1の操作が終了してから一定期間後に、発話内容を出力するタイミングになったと判定することができる。
また、タイミング決定部36は、ユーザUによる音声操作に基づいて、上述した出力禁止期間、および出力上限回数をコンテンツ毎に発話テーブル21に設定することができる。なお、コンテンツ毎に設定可能な情報は、出力禁止期間、および出力上限回数に限定されない。また、出力禁止期間、および出力上限回数といった情報はユーザUの設定によらず予め発話テーブル21に設定されていてもよい。
このように、タイミング決定部36は、コンテキスト情報に基づいて、発話タイミングと、かかる発話タイミングで出力すると判定した発話内容(以下、出力対象発話内容と記載する場合がある)とを決定することができる。タイミング決定部36は、発話タイミングと出力対象発話内容とを音声出力器11からの発話に対する過去のユーザUの反応を考慮して、発話タイミングと出力対象発話内容とを決定することから、発話タイミングをより適切に決定することができる。
例えば、ユーザUが暗い場所に位置し、ユーザUの周囲に収集車(例えば、ゴミ収集車)がいる状況で何度発話しても、発話に対するユーザUの反応がないとする。この場合、タイミング判定モデルは、ユーザUが暗い場所に位置し、かつ、ユーザUの周囲に収集車がいることを示す場合に出力するスコアが閾値よりも小さくなるように生成される。そのため、タイミング決定部36は、ユーザUが暗い場所に位置し、かつ、ユーザUの周囲に収集車がいることをコンテキスト情報が示す場合、発話タイミングでないと判定する。
また、食器洗浄機と電子レンジとが共に使用されている状態では、発話に対するユーザUの反応がないとする。この場合、タイミング判定モデルは、食器洗浄機と電子レンジとが共に使用されている状態である場合に出力するスコアが閾値よりも小さくなるように生成される。そのため、タイミング決定部36は、食器洗浄機と電子レンジとが共に使用されていることをコンテキスト情報が示す場合、発話タイミングでないと判定する。
また、ユーザUが端末装置3を操作中(例えば、端末装置3でウェブページを閲覧中、または端末装置3で音楽を再生中)である場合に、発話に対するユーザUの反応がないとする。この場合、タイミング判定モデルは、ユーザUが端末装置3を操作中である場合に出力するスコアが閾値よりも小さくなるように生成される。そのため、タイミング決定部36は、ユーザUが端末装置3を操作中であることをコンテキスト情報が示す場合、発話タイミングでないと判定する。
また、例えば、発話が開始された後において、ユーザUの会話が続く場合やユーザUが「やめて」と発話した場合を不正解データとして、且つ発話時のコンテキスト情報を特徴量としてタイミング判定モデルが生成される。この場合、タイミング決定部36は、ユーザUがユーザUの会話を続けるようなコンテキストやユーザUが「やめて」と発話するようなコンテキストでは、発話タイミングでないと判定することができる。
このように、タイミング決定部36は、現在のユーザUに関するコンテキストが発話に適したコンテキストである場合に、発話タイミングであると決定することができる。また、タイミング判定モデルはコンテンツ毎に生成されているため、コンテンツ毎の適切な発話タイミングが決定される。例えば、朝の時間帯であれば、交通機関の運行状態に関するコンテンツやニュースのコンテンツにユーザUが反応することが多い。そのため、交通機関の運行状態に関するコンテンツやニュースのコンテンツには、朝の時間帯が発話タイミングになりやすいタイミング判定モデルが生成される。
出力処理部34は、タイミング決定部36によって決定された発話タイミングで、タイミング決定部36によって決定された出力対象発話内容を音声出力器11から出力する。例えば、発話テーブル21が図4に示す状態で、出力対象発話内容が「発話内容XA」である場合、出力処理部34は、発話内容XAに基づく電信信号を音声出力器11へ出力することで、発話内容XAが音声出力器11から音声で出力される。
〔3.情報提供装置2の構成〕
次に、実施形態に係る情報提供装置2の構成について具体的に説明する。図5は、実施形態に係る情報提供装置2の構成例を示す図である。図5に示すように、情報提供装置2は、通信部41と、記憶部42と、制御部43とを備える。
通信部41は、ネットワーク6を介してスマートスピーカ1、端末装置3、機器4、およびセンサ装置5などの装置と通信可能な通信インターフェイスである。制御部43は通信部41を介して情報提供装置2、スマートスピーカ1、端末装置3、機器4、およびセンサ装置5と情報の送受信を行うことができる。
記憶部42は、発話テーブル記憶部51と、コンテンツ記憶部52と、音声広告記憶部53と、ユーザ情報記憶部54と、コンテキスト記憶部55と、出力態様判定情報記憶部56とを有する。
発話テーブル記憶部51は、スマートスピーカ1毎の発話テーブル21の情報を記憶する。図6は、実施形態に係る発話テーブル記憶部51に記憶される発話テーブルの一例を示す図である。図6に示す発話テーブル71は、「コンテンツID」と、「発話内容」と、「モデル」とが互いに関連付けられた情報を「機器ID」毎に含む。
発話テーブル71における「コンテンツID」、「発話内容」、および「モデル」は、発話テーブル21における「コンテンツID」、「発話内容」、および「モデル」と同様の情報である。「機器ID」は、スマートスピーカ1毎に固有の識別情報である。
図5に示すコンテンツ記憶部52は、スマートスピーカ1へ提供する各種のコンテンツを記憶する。図7は、実施形態に係るコンテンツ記憶部52に記憶されるコンテンツテーブルの一例を示す図である。図7に示すコンテンツテーブル72は、「コンテンツID」と、「コンテンツ」とが互いに関連付けられた情報である。
「コンテンツ」には、聴覚的出力用コンテンツと、視覚的出力用コンテンツとが含まれる。聴覚的出力用コンテンツは、音声で出力されるコンテンツであり、視覚的出力用コンテンツは文字、画像などといった音声以外の態様で出力されるコンテンツである。
図5に示す音声広告記憶部53は、音声広告の情報などを記憶する。図8は、実施形態に係る音声広告記憶部53に記憶される音声広告テーブルの一例を示す図である。図8に示す音声広告テーブル73は、「広告ID」と、「音声広告」と、「出力回数」と、「受容回数」と、「受容率」とが互いに関連付けられた情報である。「広告ID」は、音声広告毎に固有の識別情報である。
「音声広告」は、音声広告のコンテンツであり、例えば、スマートスピーカ1の音声出力器11または端末装置3の音声出力器から出力される。なお、音声広告テーブル73の「音声広告」は、音声広告のコンテンツそのものであるが、音声広告のコンテンツの格納場所を示す情報であってもよい。
「出力回数」は、音声広告がユーザUに提供された回数を示す情報であり、例えば、音声広告がスマートスピーカ1や端末装置3へ出力される度に制御部43によってインクリメントされる。「受容回数」は、音声広告がユーザUに受容された回数であり、例えば、音声広告がユーザUに受容される度に制御部43によってインクリメントされる。「受容率」は、出力回数に対する受容回数の割合であり、例えば、制御部43によって演算される。
例えば、図8に示す音声広告テーブル73において、広告ID「A101」の音声広告は、出力回数が29817回で、受容回数が827回で、受容率が0.0278であることを示している。また、広告ID「A102」の音声広告は、出力回数が8372回で、受容回数が352回で、受容率が0.0420であることを示している。
図5に示すユーザ情報記憶部54は、ユーザUの情報を記憶する。図9は、実施形態に係るユーザ情報記憶部54に記憶されるユーザ情報テーブルの一例を示す図である。図9に示すユーザ情報テーブル74は、「ユーザID」と、「ユーザ属性」と、「機器ID」と、「機器アドレス」とが互いに関連付けられた情報である。
「ユーザID」は、ユーザU毎に固有の識別情報である。「ユーザ属性」は、ユーザUの属性を示す情報である。ユーザUの属性は、例えば、性別、および年齢の他、住所、職業などのデモグラフィック属性であるが、ユーザUの嗜好などを示すサイコグラフィック属性を含んでもよい。「機器ID」は、ユーザUが所有するスマートスピーカ1に固有の識別情報、およびユーザUが所有する端末装置3に固有の識別情報を含む。「機器アドレス」は、ユーザUが所有するスマートスピーカ1または端末装置3のネットワーク6上のアドレスである。
出力態様判定情報記憶部56は、スマートスピーカ1からコンテンツの出力要求があった場合に、出力要求の対象となるコンテンツの出力態様を決定するための出力態様判定情報を含む。出力態様には、上述したように、コンテンツの出力種別、およびコンテンツの出力先の少なくとも一つが含まれる。
出力態様判定情報は、例えば、ユーザUに関するコンテキストと各出力態様との関係を規定する情報であり、モデルまたはテーブルを含む。出力態様判定情報に含まれるテーブルは、ユーザUに関するコンテキストと各出力態様との関係を規定するテーブルである。また、出力態様判定情報に含まれるモデルは、学習部64による学習によって生成されるモデルである。
図5に示す制御部43は、情報取得部61と、情報出力部62と、コンテキスト取得部63と、学習部64と、出力態様決定部65と、検出部66と、判定部67と、広告効果更新部68とを備える。
情報取得部61は、スマートスピーカ1から送信される情報を取得する。例えば、情報取得部61は、スマートスピーカ1からユーザUの指示を示す入力情報(例えば、発話情報、ジェスチャーによる操作内容を示す情報)を取得することができる。また、情報取得部61は、例えば、ユーザUの撮像画像を示す撮像情報をスマートスピーカ1、端末装置3、機器4、またはセンサ装置5から取得することができる。
また、情報取得部61は、ユーザUの周囲に存在する1以上の機器(例えば、スマートスピーカ1、端末装置3、機器4など)への操作履歴を示す操作履歴情報をスマートスピーカ1、端末装置3、または機器4から取得することができる。
情報出力部62は、出力態様決定部65によって決定される出力態様に基づいて、ユーザUの入力情報に応じたコンテンツ(聴覚的出力用コンテンツ)をコンテンツ記憶部52から取得する。例えば、情報出力部62は、出力態様決定部65によって決定される出力種別が聴覚的出力である場合、ユーザUの入力情報に応じたコンテンツであって音声のコンテンツをコンテンツ記憶部52から取得する。
また、情報出力部62は、出力態様決定部65によって決定される出力種別が視覚的出力である場合、ユーザUの入力情報に応じたコンテンツであって文字または画像のコンテンツ(視覚的出力用コンテンツ)をコンテンツ記憶部52のコンテンツテーブル72から取得する。また、情報出力部62は、出力態様決定部65によって決定される出力種別が聴覚的出力および視覚的出力である場合、ユーザUの入力情報に応じたコンテンツであって音声および文字(または画像)を含むコンテンツをコンテンツ記憶部52のコンテンツテーブル72から取得する。
情報出力部62は、出力態様決定部65によって決定される出力態様に基づいて、記憶部42から取得したコンテンツをスマートスピーカ1および端末装置3の少なくとも一つに出力する。情報出力部62は、出力態様決定部65によって決定される出力先の機器アドレスを記憶部42のユーザ情報テーブル74から取得し、取得した機器アドレス宛にコンテンツを送信する。
例えば、情報出力部62は、出力態様決定部65によって決定される出力先がスマートスピーカ1である場合、記憶部42から取得したコンテンツをスマートスピーカ1の機器アドレス宛へ送信する。また、情報出力部62は、出力態様決定部65によって決定される出力先が端末装置3である場合、記憶部42から取得したコンテンツを端末装置3の機器アドレス宛へ送信する。
コンテキスト取得部63は、ユーザUに関するコンテキスト情報を取得するコンテンツ取得処理を実行する。コンテキスト取得部63は、情報取得部61で取得した情報からコンテキスト情報を取得することができる。コンテキスト取得部63によって取得されるコンテキスト情報は、コンテキスト取得部35によって取得されるコンテキスト情報と同じであるが、コンテキスト取得部35によって取得されるコンテキスト情報と一部または全部が異なる情報であってもよい。
なお、コンテキスト取得部63が取得するコンテキスト情報には、ユーザUの指示の種別を示す入力種別情報が含まれる。入力種別情報は、例えば、ユーザUの指示が音声、ジェスチャー、および口の動きのいずれであるかを示す情報である。なお、コンテキスト取得部63は、スマートスピーカ1、端末装置3、機器4、またはセンサ装置5からユーザUの撮像画像が情報提供装置2へ送信される場合、ユーザUの撮像画像からユーザUのジェスチャーや口の動きを判定することで、入力種別情報を取得することもできる。
学習部64は、コンテキスト取得部63によって取得されるユーザU毎のコンテキスト情報に基づいて、発話テーブル71のタイミング判定モデルをユーザU毎且つコンテンツ毎に生成することができる。かかるタイミング判定モデルは、上述したように、発話に対する過去のユーザUの反応と発話時の過去のユーザUに関するコンテキスト情報とに基づいて生成されるモデルである。
学習部64は、スマートスピーカ1からの自発的な発話を開始してから予め設定された期間においてコンテキスト情報に含まれるユーザUの動作またはユーザUの発話がスマートスピーカ1からの自発的な発話に対して肯定的な反応であるか否かを教師データとする。
例えば、学習部64は、スマートスピーカ1の自発的発話に対するユーザUの発話が肯定的である場合、スマートスピーカ1の自発的発話に対して肯定的な反応であると判定する。例えば、学習部64は、「今日のニュースはいかがですか?」などの自発的発話に対して、ユーザUの発話が例えば「よろしく」、「うん」などである場合、肯定的な反応であると判定することができる。
また、学習部64は、スマートスピーカ1の自発的発話に対するユーザUの発話がない場合、またはスマートスピーカ1の自発的発話に対するユーザUの発話が否定的である場合、スマートスピーカ1の自発的発話に対して肯定的な反応ではないと判定する。例えば、学習部64は、「今日のニュースはいかがですか?」などの自発的発話に対して、ユーザUの発話がない場合、またはユーザUの発話が例えば「いらない」、「やめて」などである場合、肯定的な反応ではないと判定することができる。
なお、自発的発話に対するユーザUの反応が肯定的であるか否かは、上述した例に限定されない。例えば、学習部64は、ユーザUが頷いた場合に、自発的発話に対して肯定的な反応であると判定することができる。また、学習部64は、ユーザUがスマートスピーカ1から遠ざかった場合に、自発的発話に対して肯定的な反応ではないと判定することができる。
学習部64は、上述のように自発的発話に対して肯定的な反応であるか否かを教師データとし、自発的発話を開始してから予め設定された期間においてコンテキスト情報に含まれる1以上の情報を特徴量として機械学習を行ってタイミング判定モデルを生成および更新する。
なお、タイミング判定モデルは、上述した例に限定されるものではなく、例えば、SVM(Support Vector Machine)やその他の機械学習法を用いて生成されるモデルであってもよい。また、タイミング判定モデルの生成は、深層学習(ディープラーニング)の技術を用いて行われてもよい。例えば、タイミング判定モデルの生成は、DNN(Deep Neural Network)やRNN(Recurrent Neural Network)やCNN(Convolutional Neural Network)等の種々のディープラーニングの技術を適宜用いて行われてもよい。
学習部64は、生成したタイミング判定モデルを発話テーブル71に設定する。また、学習部64は、発話テーブル71に設定されたタイミング判定モデルを、新たに取得される発話に対するユーザUの反応とコンテキスト情報とに基づいてタイミング判定モデルを更新することができる。例えば、学習部64は、情報提供装置2の処理負荷が少ない時間帯(例えば、深夜)などにタイミング判定モデルを更新することができる。
また、学習部64は、複数のユーザUに共通のタイミング判定モデル(以下、共通判定モデルと記載する場合がある)をコンテンツ毎または特定のコンテンツについて生成することができる。この場合、学習部64は、発話に対する過去の複数のユーザUの反応と発話時の過去の複数のユーザUに関するコンテキスト情報とに基づいて、共通判定モデルを生成することができる。
また、学習部64は、共通判定モデルをコンテンツ毎に生成した後、かかる共通判定モデルをベースにして新たに取得される発話に対する各ユーザUの反応とコンテキスト情報とに基づいて、各ユーザUに固有のタイミング判定モデルを生成することもできる。
また、学習部64は、複数のコンテンツに共通かつ複数のユーザUに共通のタイミング判定モデルを生成することもできる。この場合、学習部64は、任意の発話に対する過去の複数のユーザUの反応と任意の発話時の過去の複数のユーザUに関するコンテキスト情報とに基づいて、複数のユーザUに共通のタイミング判定モデルを生成することができる。
また、学習部64は、コンテンツに対する過去のユーザUの反応と過去のユーザUに関するコンテキスト情報とに基づいて出力態様毎に出力態様判定モデルを生成することができる。例えば、ユーザUの反応が否定的な反応であるか否かまたは肯定的な反応であるか否かを教師データとし、ユーザUの反応時のコンテキスト情報を特徴量として機械学習を行うことができる。
否定的な反応は、例えば、スマートスピーカ1からコンテンツが音声として出力された場合におけるユーザUの否定的な発話(例えば、「いらない」や「やめて」など)である。また、否定的な反応は、例えば、端末装置3からコンテンツが文字または画像として出力された場合におけるユーザUの端末装置3に対する非操作である。
また、肯定的な反応は、例えば、スマートスピーカ1からコンテンツが音声として出力された場合におけるユーザUの否定的な発話がない状態である。肯定的な反応は、例えば、端末装置3からコンテンツが文字または画像として出力された場合における端末装置3に対する操作である。
出力態様決定部65は、コンテンツの出力要求があった場合、コンテキスト取得部63によって取得されたコンテキスト情報に基づいて、ユーザUに提供されるコンテンツの出力態様を決定する。出力態様には出力種別および出力先が含まれるが、出力態様決定部65は、出力種別および出力先の一方のみを決定することもできる。出力態様決定部65による出力態様の決定は、出力態様判定情報記憶部56に記憶された上述の出力態様判定情報を用いて行われる。
出力態様決定部65は、コンテキスト情報に含まれるユーザUの状況を示す状況情報に基づいて、出力態様を決定することができる。例えば、出力態様決定部65は、ユーザUが移動中である場合、出力種別を聴覚的出力とし且つ出力先をスマートスピーカ1とする態様を、コンテンツの出力態様として決定することができる。これにより、ユーザUは移動しながら端末装置3の画面を見ることなくコンテンツを把握することができる。
また、出力態様決定部65は、スマートスピーカ1および端末装置3のうちユーザUの現在位置に近い機器を出力先とすることができ、これにより、ユーザUによるコンテンツの把握を容易にすることができる。
また、出力態様決定部65は、ユーザUが会話中である場合、出力種別を視覚的出力とし且つ出力先を端末装置3とする態様を、コンテンツの出力態様として決定することができる。これにより、ユーザUが会話を中断することなくコンテンツを把握することができる。
また、出力態様決定部65は、コンテキスト情報に含まれるユーザUの周囲の状況を示す周囲情報に基づいて、出力態様を決定することができる。例えば、出力態様決定部65は、ユーザUの周囲に他人が存在する場合に、出力種別を視覚的出力とし且つ出力先を端末装置3とする態様を、コンテンツの出力態様として決定することができる。これにより、例えば、コンテンツがユーザUのスケジュールやユーザUへのメールである場合に、スマートスピーカ1からコンテンツで音声出力されないため、ユーザUのスケジュールやメールを他人に知られることを防止することができる。
出力態様決定部65は、ユーザUの周囲に存在する他人が寝ている場合に、出力種別を視覚的出力とし且つ出力先を端末装置3とする態様を、コンテンツの出力態様として決定することができる。これにより、例えば、ユーザUの周囲で寝ている他人をコンテンツの出力によって起こしてしまうといった事態を回避することができる。
また、出力態様決定部65は、ユーザUの周囲の音が大きい場合に、出力種別を視覚的出力とし且つ出力先を端末装置3とする態様を、コンテンツの出力態様として決定することができる。これにより、ユーザUの周囲の騒音や機器4の発する音でコンテンツが把握できなくなるといった事態を回避することができる。
また、出力態様決定部65は、ユーザUの周囲に他人が存在しない場合や、ユーザUの周囲の音が小さい場合、出力種別を聴覚的出力とし且つ出力先をスマートスピーカ1とする態様を、コンテンツの出力態様として決定することができる。これにより、ユーザUは端末装置3の画面を見ることなく、コンテンツを把握することができる。
また、出力態様決定部65は、スマートスピーカ1への入力種別がジェスチャーまたは口の動きである場合、出力種別を視覚的出力とし且つ出力先を端末装置3とする態様を、コンテンツの出力態様として決定することができる。また、出力態様決定部65は、スマートスピーカ1への発話(有音発話)である場合、出力種別を聴覚的出力とし且つ出力先をスマートスピーカ1とする態様を、コンテンツの出力態様として決定することができる。
これにより、ユーザUは、所望の出力態様に応じた入力種別でスマートスピーカ1へ入力することができ、ユーザUは、スマートスピーカ1または端末装置3から所望の出力態様でコンテンツを確認することができる。出力態様決定部65が出力態様判定モデルに基づいて入力種別に応じた出力態様を決定する場合、出力態様判定モデルは、例えば、入力種別を特徴量としての重みを大きくしたり、特徴量を入力種別のみとしたりすることで、出力態様決定部65は、入力種別に応じた出力態様を決定することができる。なお、出力態様決定部65は、入力種別と出力態様とが入力種別毎に対応付けられた出力態様判定テーブルに基づいて、入力種別に応じた出力態様を決定することもできる。
また、出力態様決定部65は、出力態様判定情報として出力態様毎の出力態様判定モデルを含む場合、出力態様毎の出力態様判定モデルにコンテキスト情報を入力する。出力態様決定部65は、出力態様毎の出力態様判定モデルの出力に基づいて、コンテンツの出力態様を決定する。
例えば、ユーザUの反応が否定的な反応であるか否かを教師データとして出力態様判定モデルが生成される場合、出力態様決定部65は、出力するスコアが最も低い出力態様判定モデルに対応する出力態様を、コンテンツの出力態様として決定することができる。また、ユーザUの反応が肯定的な反応であるか否かを教師データとして出力態様判定モデルが生成される場合、出力態様決定部65は、出力するスコアが最も高い出力態様判定モデルに対応する出力態様を、コンテンツの出力態様として決定することができる。
このように、出力態様決定部65は、ユーザUの状況やユーザUの周囲の状況に応じてコンテンツの出力態様を決定することができるため、ユーザUへのコンテンツの提供を適切に行うことができる。
検出部66は、スマートスピーカ1の音声出力器11または端末装置3の音声出力器(図示せず)から音声広告が出力された場合のユーザUの振る舞いを検出する。検出部66は、情報取得部61によって取得される撮像情報を画像解析することで、音声広告が出力された場合のユーザUの振る舞いを検出することができる。
例えば、検出部66は、情報取得部61によって取得される撮像情報に基づいて、ユーザUの目線の動き、ユーザUの頭部の動き、ユーザUの口の動き、ユーザUの手の動き、およびユーザUの足の動きのうち少なくとも一つの身体的振る舞いをユーザUの振る舞いとして検出することができる。
また、検出部66は、情報取得部61によって取得される撮像情報に基づいて、ユーザUが行っている作業の状態を検出することができる。例えば、検出部66は、ユーザUが食器洗い、ミシンでの縫製、および料理といった作業を中断したか否かを検出することができる。
また、検出部66は、情報取得部61によって取得される音情報を音響解析することで、音声広告が出力された場合のユーザUの振る舞いを検出することができる。例えば、検出部66は、音情報に基づいて、ユーザUの会話における振る舞い、ユーザUによるスマートスピーカ1への発話による問いかけ、ユーザUが行っていた作業における振る舞い、およびユーザUの機器4への振る舞いなどを検出することができる。
具体的には、検出部66は、音情報に基づいて、会話中のユーザUが発話を止める、および会話中のユーザUが発話の音量を下げるといった振る舞いを検出することができる。また、検出部66は、ユーザUが情報を検索するための発話、およびユーザUが情報を確認するための発話といった振る舞いを検出することができる。
また、検出部66は、音情報に基づいて、食器洗いや料理といった作業をユーザUが中断したか否かを検出することができる。例えば、検出部66は、水道の蛇口から水が吐出する音が消えた場合や食器を洗う音が消えた場合、食器洗いを中断したと判定することができる。
また、ユーザUが機器4をオフすることで機器4から出力される音である機器音が停止するため、検出部66は、音情報に基づいて、ユーザUが機器4をオフする振る舞いを行ったことを検出することができる。検出部66が音情報に基づいてオフを検出する機器4は、例えば、電子レンジ、洗濯機、食器洗浄機、ミシン、テレビジョン受像機、ラジオ受信器などの比較的大きな音を発する機器である。
また、検出部66は、情報取得部61によって取得された操作履歴情報に基づいて、スマートスピーカ1、端末装置3、または機器4へのユーザUの振る舞いを検出することができる。例えば、検出部66は、操作履歴情報に基づいて、ユーザUが機器をオフしたりオンしたりする振る舞いおよびユーザUが情報を検索する振る舞いなどを検出することができる。
判定部67は、検出部66によって検出されたユーザUの振る舞いに基づいて音声広告がユーザUに受容されたか否かを判定する。例えば、判定部67は、検出部66によって検出されたユーザUの身体的な振る舞いが特定の振る舞いである場合に、音声広告がユーザUに受容されたと判定する。
特定の振る舞いは、例えば、広告出力期間においてユーザUが一定時間以上視線をスマートスピーカ1に向ける、音声広告の出力開始時に移動中のユーザUが広告出力期間において一定時間以上移動を停止する、および広告出力期間においてユーザUが頷くなどといった振る舞いである。また、特定の振る舞いは、音声広告の出力開始前に継続的に手が動いていたユーザUが広告出力期間において一定時間以上手を止める、およびユーザUが特定のジェスチャーをしたなどといった振る舞いである。
また、判定部67は、検出部66が音情報に基づいて検出したユーザUの振る舞いが特定の振る舞いである場合に、音声広告がユーザUに受容されたと判定する。特定の振る舞いは、例えば、会話中のユーザUが発話を止める、会話中のユーザUが発話の音量を下げる、ユーザUが音声広告に関する発話をする、ユーザUが作業を中断する、およびユーザUが機器をオフするなどといった振る舞いである。なお、ユーザUによる音声広告に関する発話は、例えば、「それで?」、「続きは?」などである。
また、判定部67は、検出部66が操作履歴情報に基づいて検出したユーザUの振る舞いが特定の振る舞いである場合に、音声広告がユーザUに受容されたと判定する。特定の振る舞いは、例えば、ユーザUが音声広告の広告対象の商品またはサービスに関する検索をする、およびユーザUが機器をオフするなどといった振る舞いである。
判定部67は、ユーザUの振る舞いが否定的な振る舞いである場合に、音声広告がユーザUに受容されていないと判定することができる。否定的な振る舞いは、例えば、ユーザUが否定的な発話をする、およびユーザUが否定的な身体的振る舞いをするなどといった振る舞いである。
例えば、判定部67は、ユーザUが「やめて」、「聞きたくない」、および「嫌い」といった否定的な発話をした場合に、ユーザUが否定的な振る舞いをしたと判定することができる。また、例えば、判定部67は、ユーザUが耳を手で塞いだ場合に、ユーザUが否定的な振る舞いをしたと判定することができる。
なお、判定部67は、ユーザUの振る舞いが特定の振る舞いでないと判定した場合、音声広告がユーザUに受容されていないと判定することもできる。これにより、判定部67はユーザUが否定的な振る舞いをしたか否かを判定しなくてもよく、処理負荷が軽減される。
また、判定部67は、ユーザUの振る舞いが特定の振る舞いでも否定的な振る舞いでもないと判定した場合、ユーザUによる音声広告の非受容度が低いと判定し、ユーザUの振る舞いが否定的な振る舞いである場合、ユーザUによる音声広告の非受容度が高いと判定することもできる。
また、判定部67は、ユーザUの振る舞いが特定の振る舞いである場合に、音声広告がユーザUに受容されたと判定する処理を行わないこともできる。例えば、判定部67は、ユーザUの振る舞いが否定的な振る舞いである場合に、音声広告がユーザUに受容されていないと判定し、ユーザUの振る舞いが否定的な振る舞いではない場合に、音声広告がユーザUに受容されていると判定することができる。
上述した特定の振る舞いおよび否定的な振る舞いは、ユーザUの属性に応じて設定される。ユーザUの属性は、例えば、性別、年齢、住所、および職業の少なくとも一つを含む。例えば、判定部67は、ユーザUが子供である場合、ユーザUが飛び跳ねる、およびユーザUが踊り出すといった振る舞いをした場合、音声広告がユーザUに受容されたと判定する。
なお、判定部67は、ユーザUに受容されたと判定する基準とする特定の振る舞いを音声広告の時間的長さや種類に応じて変更することもできる。また、判定部67は、一つの音声広告を出力している期間(例えば、30秒)における所定期間(例えば、5秒)毎に、音声広告がユーザUに受容されているか否かを判定することもできる。
広告効果更新部68は、音声広告がユーザUに受容されたと判定すると、音声広告テーブル73において音声広告の受容回数を更新する。これにより、テキスト広告またはバナー広告のクリックに相当する広告効果を音声広告に対して得ることができる。そして、広告効果更新部68は、音声広告の出力回数に対する音声広告の受容回数の割合である受容率を演算し、演算した受容率を音声広告効果として音声広告テーブル73に設定することができる。これにより、音声広告においてCTRに相当する広告効果指標を得ることができる。
また、広告効果更新部68は、音声広告のコンバージョン回数を外部装置から取得することができる。音声広告のコンバージョン回数とは、商品やサービスの購入、サンプルの申し込み、およびパンフレットの申し込みといった音声広告の目的を達成した回数である。広告効果更新部68は、音声広告の受容回数に対する音声広告のコンバージョン回数の割合であるコンバージョン率を演算し、演算したコンバージョン率を音声広告効果とすることができる。これにより、音声広告においてCVR(Conversion Rate)に相当する広告効果指標を得ることができる。
また、判定部67によって非受容度が判定された場合、広告効果更新部68は、音声広告の出力回数に対する音声広告の非受容度毎の非受容回数の割合を演算することができる。この場合、広告効果更新部68は、例えば、非受容度が2の非受容回数を音声広告の受容回数から減算し、減算結果を音声広告の受容回数とすることもできる。
〔4.情報処理システム100の処理フロー〕
次に、実施形態に係る情報処理システム100による発話制御処理の手順について説明する。図10および図11は、実施形態に係る情報処理システム100による発話制御処理の一例を示すフローチャートである。
まず、スマートスピーカ1の発話制御処理について説明する。図10に示すように、スマートスピーカ1の制御部15は、コンテンツ出力処理中か否かを判定する(ステップS10)。制御部15は、ステップS10の処理において、例えば、制御部15がユーザUからコンテンツの出力要求を受け付けてから出力要求に対応するコンテンツの出力が完了するまでの間をコンテンツ出力処理中として扱う。
制御部15は、コンテンツ出力中ではないと判定した場合(ステップS10:No)、発話処理中か否かを判定する(ステップS11)。制御部15は、ステップS11の処理において、例えば、音声入力器12からの発話の出力を開始してから発話に対するユーザUの要求を受け可能な期間が終了するまでの期間を発話処理中として扱う。
制御部15は、発話処理中ではないと判定した場合(ステップS11:No)、ユーザUに関するコンテキスト情報を取得し(ステップS12)、取得したコンテキスト情報を発話テーブル21に含まれる各タイミング判定モデルに入力する(ステップS13)。
つづいて、制御部15は、予め設定された閾値以上のスコアを出力するタイミング判定モデルがあるか否かを判定する(ステップS14)。制御部15は、閾値以上のスコアを出力するタイミング判定モデルがあると判定した場合(ステップS14:Yes)、閾値以上のスコアを出力するタイミング判定モデルが複数であるか否かを判定する(ステップS15)。
制御部15は、タイミング判定モデルが複数であると判定した場合(ステップS15:Yes)、最もスコアが高いタイミング判定モデルを選択する(ステップS16)。また、制御部15は、タイミング判定モデルが複数ではないと判定した場合(ステップS15:No)、閾値以上のスコアを出力するタイミング判定モデルを選択する(ステップS17)。制御部15は、選択したタイミング判定モデルに関連付けられた発話内容を発話テーブル21から取得し、取得した発話内容を音声入力器12から出力する(ステップS18)。
制御部15は、ステップS18の処理が終了した場合、コンテンツ出力中であると判定した場合(ステップS10:Yes)、発話処理中であると判定した場合(ステップS11:Yes)、または閾値上のスコアを出力するタイミング判定モデルがないと判定した場合(ステップS14:No)、図10に示す処理を終了する。
次に、情報提供装置2の処理を説明する。図11に示すように、情報提供装置2の制御部43は、スマートスピーカ1が自発的に発話をする時のユーザUの反応を示す反応情報を取得する(ステップS20)。また、制御部43は、スマートスピーカ1が自発的に発話をする時のユーザUに関するコンテキスト情報を取得する(ステップS21)。制御部43は、ステップS20で取得した反応情報とステップS21で取得したコンテキスト情報を記憶部42に記憶する(ステップS22)。
つづいて、制御部43は、記憶部42に記憶した反応情報およびコンテキスト情報に基づいて、コンテンツ毎のタイミング判定モデルを生成または更新し(ステップS23)、図11に示す処理を終了する。例えば、制御部43は、発話テーブル71にタイミング判定モデルが生成されていないコンテンツのタイミング判定モデルを生成した場合、発話テーブル71にタイミング判定モデルを追加する。また、制御部43は、発話テーブル71のタイミング判定モデルを更新した場合、更新したタイミング判定モデルを発話テーブル71に上書きする。
次に、情報処理システム100による出力制御処理について説明する。図12は、実施形態に係る情報処理システム100による出力制御処理の一例を示すフローチャートである。
図12に示すように、制御部43は、スマートスピーカ1からコンテンツの出力要求があるか否かを判定する(ステップS30)。制御部43は、コンテンツの出力要求があると判定した場合(ステップS30:Yes)、出力要求を行ったスマートスピーカ1のユーザUに関するコンテキスト情報を取得する(ステップS31)。
そして、制御部43は、取得したコンテキスト情報に基づいて、出力要求されたコンテンツの出力態様を決定する(ステップS32)。制御部43は、ステップS32で決定した出力態様でコンテンツを出力する(ステップS33)。制御部43は、ステップS33の処理が終了した場合、または出力要求がないと判定した場合(ステップS30:No)、図12に示す処理を終了する。
次に、情報処理システム100による音声情報効果判定処理について説明する。図13は、実施形態に係る情報処理システム100による音声情報効果判定処理の一例を示すフローチャートである。
図13に示すように、情報提供装置2の制御部43は、音声広告の出力タイミングであるか否かを判定する(ステップS40)。制御部43は、音声広告の出力タイミングであると判定した場合(ステップS40:Yes)、音声広告をスマートスピーカ1へ出力する(ステップS41)。
つづいて、制御部43は、音声広告テーブル73において、ステップS41で出力した音声広告の出力回数をインクリメントする(ステップS42)。また、制御部43は、音声出力期間における撮像情報、音情報および機器操作情報をスマートスピーカ1、端末装置3、機器4、およびセンサ装置5の少なくとも一つから取得する(ステップS43)。
制御部43は、ステップS43で取得した情報に基づいて、ユーザUの振る舞いを検出し(ステップS44)、検出した振る舞いが特定の振る舞いであるか否かを判定する(ステップS45)。制御部43は、ステップS44で検出した振る舞いが特定の振る舞いであると判定した場合(ステップS45:Yes)、音声広告がユーザUに受容されたと判定し(ステップS46)、音声広告テーブル73において、ステップS41で出力した音声広告の受容回数をインクリメントする(ステップS47)。
一方、制御部43は、ステップS44で検出した振る舞いが特定の振る舞いではないと判定した場合(ステップS45:No)、音声広告がユーザUに受容されていないと判定する(ステップS48)。制御部43は、ステップS47またはステップS48の処理が終了した場合、または、音声広告の出力タイミングではないと判定した場合(ステップS40:No)、図13に示す処理を終了する。
〔5.変形例〕
上述した例では、情報提供装置2において、タイミング判定モデルを生成する学習部64が設けられるが、スマートスピーカ1に学習部64が設けられてもよい。また、上述した例では、スマートスピーカ1において、コンテキスト取得部35およびタイミング決定部36が設けられるが、情報提供装置2において、コンテキスト取得部35およびタイミング決定部36が設けられてもよい。
また、上述した例では、タイミング判定モデルを用いて発話タイミングを決定したが、過去の発話に対するユーザUの反応を考慮して発話タイミングを決定することができればよく、上述した例に限定されない。例えば、スマートスピーカ1は、タイミング判定モデルに代えて、過去の発話に対する反応情報とコンテキスト情報とに基づいて生成される判定条件情報によって、現在のコンテキストが発話に適しているコンテキストであるか否かを判定することもできる。なお、上記判定条件情報には、発話タイミングであると判定するコンテキストの条件が含まれる。
また、上述した例では、ユーザUのジェスチャーや口の動きをスマートスピーカ1で検出したが、ユーザUのジェスチャーや口の動きを情報提供装置2で検出する構成であってもよい。
また、上述した例では、スマートスピーカ1から出力される音声情報の一例として音声広告を挙げて説明したが、スマートスピーカ1から出力される音声情報は、音声広告に限定されない。例えば、情報提供装置2の制御部43は、「今日は晴れですね」、「今日は仕事お休みですね」といったプッシュ発話型の音声情報などをスマートスピーカ1から出力した場合のユーザUの振る舞いに基づいて、音声情報がユーザUに受容されたか否かを判定することができる。そして、情報提供装置の制御部43は、音声情報の出力回数に対する音声情報の受容回数の割合を演算し、演算した割合を音声情報効果とすることができる。これにより、音声情報においてCTRに相当する効果指標を得ることができる。
なお、効果の判定対象となる音声情報は、情報提供装置2からスマートスピーカ1へ出力する音声情報に限定されず、スマートスピーカ1に記憶された音声情報であってもよい。
また、上述した例では、情報処理システム100は、ユーザUの肯定的な反応でない場合であっても、ユーザUが受容したと判定する場合があるが、ユーザUが肯定的な反応である場合のみ、ユーザUが受容したと判定することもできる。すなわち、情報処理システム100は、音声情報効果判定処理において、発話制御処理および出力制御処理におけるユーザUの肯定的な反応があったと判定されるユーザUの状態を、ユーザUの受容し、それ以外をユーザの非受容とすることができる。また、情報処理システム100は、発話制御処理および出力制御処理において、音声情報効果判定処理におけるユーザUが受容したと判定されるユーザUの状態を、ユーザUの肯定的な反応とし、それ以外をユーザの肯定的でない反応とすることができる。
〔6.プログラム〕
上述した実施形態におけるスマートスピーカ1および情報提供装置2の各々は、例えば図14に示すような構成のコンピュータ200がプログラムを実行することによって実現される。図14は、プログラムを実行するコンピュータのハードウェア構成の一例を示す図である。コンピュータ200は、CPU(Central Processing Unit)201、RAM(Random Access Memory)202、ROM(Read Only Memory)203、HDD(Hard Disk Drive)204、通信インターフェイス(I/F)205、入出力インターフェイス(I/F)206、およびメディアインターフェイス(I/F)207を備える。
CPU201は、ROM203またはHDD204に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM203は、コンピュータ200の起動時にCPU201によって実行されるブートプログラムや、コンピュータ200のハードウェアに依存するプログラム等を格納する。 HDD204は、CPU201によって実行されるプログラムによって使用されるデータ等を格納する。通信インターフェイス205は、ネットワーク6を介して他の機器からデータを受信してCPU201へ送り、CPU201が生成したデータを、ネットワーク6を介して他の機器へ送信する。
CPU201は、入出力インターフェイス206を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。CPU201は、入出力インターフェイス206を介して、入力装置からデータを取得する。また、CPU201は、生成したデータを、入出力インターフェイス206を介して出力装置へ出力する。
メディアインターフェイス207は、記録媒体208に格納されたプログラムまたはデータを読み取り、RAM202を介してCPU201に提供する。CPU201は、当該プログラムを、メディアインターフェイス207を介して記録媒体208からRAM202上にロードし、ロードしたプログラムを実行する。記録媒体208は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
コンピュータ200が上述した実施形態に係るスマートスピーカ1として機能する場合、コンピュータ200のCPU201は、RAM202上にロードされたプログラムを実行することにより、図3に示す入力処理部31、情報出力部32、情報取得部33、出力処理部34、コンテキスト取得部35、およびタイミング決定部36の各機能を実現する。また、例えば、HDD204は、図3に示す記憶部14と同様の情報を記憶する。
また、コンピュータ200が上述した実施形態に係る情報提供装置2として機能する場合、コンピュータ200のCPU201は、RAM202上にロードされたプログラムを実行することにより、図5に示す情報取得部61、情報出力部62、コンテキスト取得部63、学習部64、出力態様決定部65、検出部66、判定部67、および広告効果更新部68の各機能を実現する。また、例えば、HDD204は、図5に示す記憶部42と同様の情報を記憶する。
コンピュータ200のCPU201は、プログラムを、記録媒体208から読み取って実行するが、他の例として、他の装置から、ネットワーク6を介してこれらのプログラムを取得してもよい。
〔7.効果〕
上述したように、実施形態に係る情報処理システム100(発話制御装置の一例)は、ユーザUに関するコンテキスト情報を取得するコンテキスト取得部35と、コンテキスト取得部35によって取得されたコンテキスト情報に基づいて、音声出力器11からの発話に対する過去のユーザUの反応を考慮した発話のタイミングを決定するタイミング決定部36とを備える。これにより、予め設定された条件で発話タイミングを制御する場合に比べ、発話タイミングをより適切に決定することができる。
また、タイミング決定部36は、コンテキスト取得部35によって取得されたコンテキスト情報に基づいて、音声出力器11からのコンテンツ毎の発話に対する過去のユーザUの反応を考慮したコンテンツ毎の発話のタイミングを決定する。これにより、コンテンツに応じた適切な発話タイミングを決定することができる。
また、タイミング決定部36は、発話に対する過去のユーザUの反応と発話時の過去のユーザUに関するコンテキスト情報とに基づいて生成されるタイミング判定モデルにコンテキスト取得部35で取得されたコンテキスト情報を入力して、発話のタイミングを決定する。これにより、ユーザUの過去の反応に基づいて発話タイミングを容易に決定することができる。
また、コンテキスト取得部35は、ユーザUの周囲の状況を示す周囲情報をコンテキスト情報の少なくとも一部として取得する。これにより、例えば、ユーザUの反応に影響を与える周囲の状況から、コンテンツに応じたより適切な発話タイミングを決定することができる。
また、コンテキスト取得部35は、ユーザUの周囲に存在する1以上のセンサ装置5から出力されるセンサ情報から周囲情報を取得する。これにより、例えば、ユーザUの周囲の明るさ、温度、湿度などのコンテキストを用いることができ、コンテンツに応じたより適切な発話タイミングを決定することができる。
また、コンテキスト取得部35は、ユーザUの周囲に存在する1以上の機器(例えば、スマートスピーカ1、端末装置3、または機器4)の状態を示す機器情報から周囲情報を取得する。これにより、ユーザUによる機器の操作状態などのコンテキストを用いることができ、コンテンツに応じたより適切な発話タイミングを決定することができる。
また、コンテキスト取得部35は、ユーザUの周囲に存在する1以上の機器(例えば、スマートスピーカ1、端末装置3、または機器4)への操作履歴を示す操作履歴情報から周囲情報を取得する。これにより、ユーザUによる機器の操作ログなどのコンテキストを用いることができ、コンテンツに応じたより適切な発話タイミングを決定することができる。
また、タイミング判定モデルは、複数のユーザUに共通に生成されるモデルである。これにより、ユーザU毎にタイミング判定モデルを生成する場合に比べ、タイミング判定モデルを生成するための処理負荷を軽減することができる。
また、タイミング判定モデルは、少なくとも一部がユーザUに固有のモデルである。これにより、ユーザUの特性に沿ったより適切な発話タイミングを決定することができる。
また、情報処理システム100は、音声出力器11からの発話に対する過去のユーザUの反応とコンテキスト情報とに基づいて、タイミング判定モデルを更新する学習部64を備える。これにより、ユーザUやユーザUの周囲に特性変化があった場合であっても、より適切な発話タイミングを決定することができる。
また、タイミング判定モデルに用いられるユーザUの反応は、音声出力器11からの発話に対するユーザの発話が肯定的か否かを含む。これにより、より適切な発話タイミングを決定することができる。
また、タイミング判定モデルに用いられるユーザUの反応は、ユーザUが会話中である場合、音声出力器11から発話の出力が開始された後のユーザUの会話の状態で判定される。例えば、ユーザUの反応は、ユーザUが会話を中断する、ユーザUが会話の話題を変える、などである。
また、音声出力器11からの発話は、コンテンツの出力の可否に関する発話である。これにより、仮に発話タイミングが適切でないタイミングになった場合であっても、コンテンツを自発的に出力する場合に比べ、ユーザUに与える発話に対するわずらわしさを抑えることができる。
〔8.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、情報処理システム100は、入力処理部31、コンテキスト取得部35およびタイミング決定部36の少なくとも一つをスマートスピーカ1とは異なる情報提供装置2または別の装置に設ける構成であってもよい。また、スマートスピーカ1は、上述した情報提供装置2の処理の一部または全部を行うことができる構成であってもよい。なお、情報提供装置2は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、入力処理部31は、入力処理手段や入力処理回路に読み替えることができる。
1 スマートスピーカ
2 情報提供装置
3 端末装置
4,4〜4 機器
5,5〜5 センサ装置
6 ネットワーク
10,41 通信部
11 音声出力器
12 音声入力器
13 撮像部
14,42 記憶部
15,43 制御部
20 操作履歴
21 発話テーブル
31 入力処理部
32,62 情報出力部
33,61 情報取得部
34 出力処理部
35,63 コンテキスト取得部
36 タイミング決定部
51 発話テーブル記憶部
52 コンテンツ記憶部
53 音声広告記憶部
54 ユーザ情報記憶部
55 コンテキスト記憶部
56 出力態様判定情報記憶部
64 学習部
65 出力態様決定部
66 検出部
67 判定部
68 広告効果更新部
71 発話テーブル
72 コンテンツテーブル
73 音声広告テーブル
74 ユーザ情報テーブル
100 情報処理システム

Claims (15)

  1. 音声出力器からの発話に対する過去のユーザの反応が肯定的であるか否かを教師データとし、前記ユーザに関する過去のコンテキスト情報を用いて前記発話のタイミングの決定に用いられるモデルを機械学習によって生成する学習部と、
    ユーザに関するコンテキスト情報を取得するコンテキスト取得部と、
    前記コンテキスト取得部によって取得された前記コンテキスト情報を前記モデルに入力して、前記発話のタイミングを決定するタイミング決定部と、を備える
    ことを特徴とする発話制御装置。
  2. 前記学習部は、
    前記モデルをコンテンツ毎に生成し、
    前記タイミング決定部は、
    前記コンテキスト取得部によって取得された前記コンテキスト情報を前記コンテンツ毎の前記モデルに入力して、前記コンテンツ毎の発話のタイミングを決定する
    ことを特徴とする請求項1に記載の発話制御装置。
  3. 前記コンテキスト取得部は、
    前記ユーザの周囲の状況を示す周囲情報を前記コンテキスト情報の少なくとも一部として取得する
    ことを特徴とする請求項1または2に記載の発話制御装置。
  4. 前記コンテキスト取得部は、
    前記ユーザの周囲に存在する1以上のセンサ装置から出力されるセンサ情報から前記周囲情報を取得する
    ことを特徴とする請求項に記載の発話制御装置。
  5. 前記コンテキスト取得部は、
    前記ユーザの周囲に存在する1以上の機器の状態を示す機器情報から前記周囲情報を取得する
    ことを特徴とする請求項またはに記載の発話制御装置。
  6. 前記コンテキスト取得部は、
    前記ユーザの周囲に存在する1以上の機器への操作履歴を示す操作履歴情報から前記周囲情報を取得する
    ことを特徴とする請求項のいずれか一つに記載の発話制御装置。
  7. 前記モデルは、
    複数のユーザに共通に生成されるモデルである
    ことを特徴とする請求項のいずれか一つに記載の発話制御装置。
  8. 前記モデルは、
    少なくとも一部が前記ユーザに固有のモデルである
    ことを特徴とする請求項のいずれか一つに記載の発話制御装置。
  9. 前記音声出力器からの発話に対する過去のユーザの反応と前記コンテキスト情報とに基づいて、前記モデルを更新する学習部と、を備える
    ことを特徴とする請求項のいずれか一つに記載の発話制御装置。
  10. 前記ユーザの反応は、前記音声出力器からの発話に対する前記ユーザの発話が肯定的か否かを含む
    ことを特徴とする請求項のいずれか一つに記載の発話制御装置。
  11. 前記ユーザの反応は、前記ユーザが会話中である場合、前記音声出力器から発話の出力が開始された後の前記会話の状態で判定される
    ことを特徴とする請求項のいずれか一つに記載の発話制御装置。
  12. 前記音声出力器からの発話は、コンテンツの出力の可否に関する発話である
    ことを特徴とする請求項1〜11のいずれか一つに記載の発話制御装置。
  13. 前記音声出力器は、スマートスピーカに含まれる音声出力器である
    ことを特徴とする請求項1〜12のいずれか一つに記載の発話制御装置。
  14. コンピュータが実行する発話制御方法であって、
    音声出力器からの発話に対する過去のユーザの反応が肯定的であるか否かを教師データとし、前記ユーザに関する過去のコンテキスト情報を用いて前記発話のタイミングの決定に用いられるモデルを機械学習によって生成する学習工程と、
    ユーザに関するコンテキスト情報を取得するコンテキスト取得工程と、
    前記コンテキスト取得工程によって取得された前記コンテキスト情報を前記モデルに入力して、前記発話のタイミングを決定するタイミング決定工程と、を含む
    ことを特徴とする発話制御方法。
  15. 音声出力器からの発話に対する過去のユーザの反応が肯定的であるか否かを教師データとし、前記ユーザに関する過去のコンテキスト情報を用いて前記発話のタイミングの決定に用いられるモデルを機械学習によって生成する学習手順と、
    ユーザに関するコンテキスト情報を取得するコンテキスト取得手順と、
    前記コンテキスト取得手順によって取得された前記コンテキスト情報を前記モデルに入力して、前記発話のタイミングを決定するタイミング決定手順と、
    をコンピュータに実行させることを特徴とする発話制御プログラム。
JP2018053250A 2018-03-20 2018-03-20 発話制御装置、発話制御方法、および発話制御プログラム Active JP6400871B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018053250A JP6400871B1 (ja) 2018-03-20 2018-03-20 発話制御装置、発話制御方法、および発話制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018053250A JP6400871B1 (ja) 2018-03-20 2018-03-20 発話制御装置、発話制御方法、および発話制御プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018159400A Division JP6787957B2 (ja) 2018-08-28 2018-08-28 発話制御装置、発話制御方法、および発話制御プログラム

Publications (2)

Publication Number Publication Date
JP6400871B1 true JP6400871B1 (ja) 2018-10-03
JP2019164301A JP2019164301A (ja) 2019-09-26

Family

ID=63708665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018053250A Active JP6400871B1 (ja) 2018-03-20 2018-03-20 発話制御装置、発話制御方法、および発話制御プログラム

Country Status (1)

Country Link
JP (1) JP6400871B1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020071255A1 (ja) * 2018-10-05 2020-04-09 株式会社Nttドコモ 情報提供装置
JP2020091448A (ja) * 2018-12-07 2020-06-11 コニカミノルタ株式会社 音声操作システム、音声操作方法および音声操作プログラム
JP2020106746A (ja) * 2018-12-28 2020-07-09 シャープ株式会社 制御装置、制御方法、制御プログラム、及び対話装置
JP2020134545A (ja) * 2019-02-13 2020-08-31 ヤフー株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP7135887B2 (ja) 2019-01-24 2022-09-13 トヨタ自動車株式会社 促し発話装置、促し発話方法及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105192A (ja) * 1996-10-03 1998-04-24 Toyota Motor Corp 車両用音声案内装置
JP2007072331A (ja) * 2005-09-09 2007-03-22 Matsushita Electric Ind Co Ltd 音声対話方法および音声対話システム
JP2009003040A (ja) * 2007-06-20 2009-01-08 Univ Waseda 音声対話装置、音声対話方法及びロボット装置
JP2017067852A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 情報提供装置及び情報提供制御プログラム
JP2017204252A (ja) * 2016-05-14 2017-11-16 株式会社ユピテル システム及びプログラム
JP2018060192A (ja) * 2016-09-30 2018-04-12 本田技研工業株式会社 発話装置およびコミュニケーション装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105192A (ja) * 1996-10-03 1998-04-24 Toyota Motor Corp 車両用音声案内装置
JP2007072331A (ja) * 2005-09-09 2007-03-22 Matsushita Electric Ind Co Ltd 音声対話方法および音声対話システム
JP2009003040A (ja) * 2007-06-20 2009-01-08 Univ Waseda 音声対話装置、音声対話方法及びロボット装置
JP2017067852A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 情報提供装置及び情報提供制御プログラム
JP2017204252A (ja) * 2016-05-14 2017-11-16 株式会社ユピテル システム及びプログラム
JP2018060192A (ja) * 2016-09-30 2018-04-12 本田技研工業株式会社 発話装置およびコミュニケーション装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020071255A1 (ja) * 2018-10-05 2020-04-09 株式会社Nttドコモ 情報提供装置
JPWO2020071255A1 (ja) * 2018-10-05 2021-09-02 株式会社Nttドコモ 情報提供装置
JP7146933B2 (ja) 2018-10-05 2022-10-04 株式会社Nttドコモ 情報提供装置
JP2020091448A (ja) * 2018-12-07 2020-06-11 コニカミノルタ株式会社 音声操作システム、音声操作方法および音声操作プログラム
JP7271925B2 (ja) 2018-12-07 2023-05-12 コニカミノルタ株式会社 音声操作システム、音声操作方法および音声操作プログラム
JP2020106746A (ja) * 2018-12-28 2020-07-09 シャープ株式会社 制御装置、制御方法、制御プログラム、及び対話装置
JP7135887B2 (ja) 2019-01-24 2022-09-13 トヨタ自動車株式会社 促し発話装置、促し発話方法及びプログラム
JP2020134545A (ja) * 2019-02-13 2020-08-31 ヤフー株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP7085500B2 (ja) 2019-02-13 2022-06-16 ヤフー株式会社 音声処理装置、音声処理方法および音声処理プログラム

Also Published As

Publication number Publication date
JP2019164301A (ja) 2019-09-26

Similar Documents

Publication Publication Date Title
JP6400871B1 (ja) 発話制御装置、発話制御方法、および発話制御プログラム
US20230386462A1 (en) Reducing the need for manual start/end-pointing and trigger phrases
KR102543693B1 (ko) 전자 장치 및 그의 동작 방법
CN112074900B (zh) 用于自然语言处理的音频分析
US11308955B2 (en) Method and apparatus for recognizing a voice
CN112513833A (zh) 用于基于预先合成的对话提供人工智能服务的电子设备和方法
CN108885485A (zh) 基于存在性检测的数字助理体验
JP6557376B1 (ja) 出力制御装置、出力制御方法、および出力制御プログラム
JP2018190413A (ja) ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム
US10147426B1 (en) Method and device to select an audio output circuit based on priority attributes
US20210125610A1 (en) Ai-driven personal assistant with adaptive response generation
JP6973380B2 (ja) 情報処理装置、および情報処理方法
JP6767322B2 (ja) 出力制御装置、出力制御方法及び出力制御プログラム
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
KR20210102032A (ko) 음성 비서 서비스 제공 방법 및 장치
JP2022544066A (ja) マルチモーダルスマートオーディオデバイスシステムのアテンティブネス表現
JP6499343B1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP6787957B2 (ja) 発話制御装置、発話制御方法、および発話制御プログラム
KR20200033189A (ko) 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
CN112866480B (zh) 信息处理方法、装置、电子设备及存储介质
WO2020054361A1 (ja) 情報処理システム、情報処理方法、および記録媒体
KR20230047434A (ko) 어시스턴트 디바이스(들)의 주변 감지에 기초한 어시스턴트 액션(들) 추론하기
WO2020149031A1 (ja) 応答処理装置及び応答処理方法
JP2020030245A (ja) 端末装置、決定方法、決定プログラム及び決定装置
JP7218312B2 (ja) 情報処理装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180320

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180418

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180905

R150 Certificate of patent or registration of utility model

Ref document number: 6400871

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350