JP2022053669A

JP2022053669A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2022053669A
Application number: JP2020160426A
Authority: JP
Inventors: 隆一郎林; Ryuichiro Hayashi; 純一鶴見; Junichi Tsurumi; 政明厚地; Masaaki Atsuji; 峻資宮永; Shunsuke Miyanaga; 涼古屋; Ryo Furuya
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-04-06
Anticipated expiration: 2040-09-25
Also published as: JP6867543B1

Abstract

【課題】ユーザが会話をしながら動画を視聴しやすくできるようにする。
【解決手段】本発明の一実施形態に係る情報処理装置１は、ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生する再生制御部１３１と、動画像データの再生中にユーザの発話を検出する検出部１３２と、を有し、再生制御部は、再生中の第１シーンにおいてユーザが発話していることを検出部が検出した場合に、第１シーンを繰り返し再生し、ユーザが発話を終了したことを検出部が検出した場合に、第１シーンより後の第２シーンをユーザ端末に再生する。
【選択図】図３

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

従来、指定された場所に関連する動画をユーザの端末に配信することによって、ユーザに疑似的に旅行を体験させる技術が知られている（例えば、特許文献１を参照）。

特開２００７－１５６５６２号公報

特許文献１のような技術を用いて、複数のユーザが会話をしながら１つの動画を同時に視聴する場合や、ユーザがＡＩ（Artificial Intelligence）と会話をしながら動画を視聴する場合が考えられる。このような場合において、例えば、ユーザが会話をしている最中に動画の特定のシーンに関する話題をしているにも関わらず異なるシーンに切り替わってしまい、会話が中断する等の問題があった。

そこで、本発明はこれらの点に鑑みてなされたものであり、ユーザが会話をしながら動画を視聴しやすくできるようにすることを目的とする。

本発明の第１の態様の情報処理装置は、ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生する再生制御部と、前記動画像データの再生中に前記ユーザの発話を検出する検出部と、を有し、前記再生制御部は、再生中の第１シーンにおいて前記ユーザが発話していることを前記検出部が検出した場合に、前記第１シーンを繰り返し再生し、前記ユーザが発話を終了したことを前記検出部が検出した場合に、前記第１シーンより後の第２シーンを再生する。

前記検出部は、前記動画像データを再生している複数の前記ユーザ端末に対応する複数の前記ユーザ間の会話を、前記発話として検出してもよい。

前記情報処理装置は、前記ユーザの発話に応答する応答部をさらに有し、前記検出部は、前記ユーザと前記応答部との間の会話を、前記発話として検出してもよい。

前記再生制御部は、前記ユーザ端末において選択された場所に関連付けられた前記動画像データを再生してもよい。

前記再生制御部は、前記第１シーンにおいて前記検出部が前記発話を検出しない期間が所定の長さ以上継続した場合に、前記動画像データの属性又は前記第１シーンに関連付けられた情報を前記動画像データ上に表示させてもよい。

前記検出部は、前記ユーザが発話をした発話期間の長さを測定し、前記再生制御部は、前記発話期間の長さに基づいて前記第２シーンを決定してもよい。

前記再生制御部は、複数の前記ユーザ端末が前記動画像データを再生している間に、複数の前記ユーザ端末に対応する複数の前記ユーザそれぞれの視線に対応する複数の注視点を前記動画像データ上に表示させてもよい。

前記再生制御部は、前記動画像データにおける前記ユーザの視線に対応する注視点の位置に関連付けられた情報を、前記動画像データ上に表示させてもよい。

前記情報処理装置は、前記動画像データのシーンと、当該シーンごとに前記検出部が検出した前記発話とを関連付けて記憶する記憶部をさらに有し、前記再生制御部は、前記ユーザ端末において指定されたシーン又は発話内容に対応する、前記記憶部に記憶された前記シーン及び前記発話を再生してもよい。

前記再生制御部は、語学に関する前記動画像データを再生し、前記再生制御部は、前記発話の音声又は発話内容が前記語学の基準に合致しているか否かを示す情報を、前記動画像データ上に表示させてもよい。

本発明の第２の態様のプログラムは、コンピュータを、ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生する再生制御部と、前記動画像データの再生中に前記ユーザの発話を検出する検出部と、として機能させ、前記再生制御部は、再生中の第１シーンにおいて前記ユーザが発話していることを前記検出部が検出した場合に、前記第１シーンを繰り返し再生し、前記ユーザが発話を終了したことを前記検出部が検出した場合に、前記第１シーンより後の第２シーンを再生する。

本発明の第３の態様の情報処理方法は、コンピュータが実行する、ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生するステップと、前記動画像データの再生中に前記ユーザの発話を検出するステップと、を有し、前記再生するステップでは、再生中の第１シーンにおいて前記ユーザが発話していることが前記検出するステップで検出された場合に、前記第１シーンを繰り返し再生し、前記ユーザが発話を終了したことが前記検出するステップで検出された場合に、前記第１シーンより後の第２シーンを再生する。

本発明によれば、ユーザが会話をしながら動画を視聴しやすくできるようにするという効果を奏する。

実施形態に係る画像表示システムの概要を説明するための図である。画像表示装置が動画像データを表示している状態を示す模式図である。情報処理装置の構成を示す図である。情報処理装置が再生している動画像データの模式図である。情報処理装置が会話を支援する方法を説明するための模式図である。情報処理装置が会話を支援する別の方法を説明するための模式図である。実施形態に係る画像表示システムが実行する情報処理方法のシーケンス図である。

［画像表示システムＳの概要］
図１は、本実施形態に係る画像表示システムＳの概要を説明するための図である。画像表示システムＳは、情報処理装置１と、一又は複数の画像表示装置２とを有する。情報処理装置１及び画像表示装置２は、ネットワークＮを介して各種のデータを送受信する。ネットワークＮは、例えばインターネット又は携帯電話網を含む。

情報処理装置１は、画像表示装置２において表示するための動画像データの再生を制御する情報処理装置であり、例えばサーバ等のコンピュータである。情報処理装置１は、動画像データを再生している間に、画像表示装置２との間で音声又は文字の情報を送受信する。また、情報処理装置１は、例えば、動画像データを再生している間に、画像表示装置２にユーザの会話を支援する情報を送信する。

画像表示装置２は、動画像データを見るユーザが利用するユーザ端末であり、例えばユーザの頭部に装着されるヘッドマウントディスプレイ等を備えるコンピュータである。また、画像表示装置２は、パーソナルコンピュータ、スマートフォン、タブレット等のコンピュータであってもよい。画像表示装置２は、動画像データを表示するためのディスプレイ等の表示部と、ユーザによる操作を受け付けるタッチパネルやコントローラ等の操作部と、ユーザが発した音声を受け付けるマイクロフォン等の音声入力部とを有していれば、任意の装置であってよい。情報処理装置１が有する機能の少なくとも一部を、ユーザ端末である画像表示装置２が実行してもよい。

画像表示装置２は、情報処理装置１からストリーミング配信された動画像データを逐次表示する。また、画像表示装置２は、画像表示装置２が備える記憶部に予め記憶された動画像データを再生してもよい。

図２は、画像表示装置２が動画像データを表示している状態を示す模式図である。図２の例では、情報処理装置１は、複数のユーザが利用している複数の画像表示装置２において同時に同じ動画像データを表示するように、当該動画像データを再生している。情報処理装置１は、複数の画像表示装置２において動画像データが同じタイミングで進むように、動画像データの再生を制御する。

情報処理装置１は、ユーザが利用しているユーザ端末である画像表示装置２において表示するための複数のシーンから構成される動画像データを再生する。複数のシーンそれぞれは、動画像データを期間ごとに区切ることによって生成された、部分的な動画像データである。動画像データは、５分間等の所定時間ごとに複数のシーンに区切られ、又は人間によって指定された時刻（すなわち、動画像データ内のタイムスタンプ）で複数のシーンに区切られる。

ユーザは、画像表示装置２において動画像データを見ている最中に、当該動画像データを同時に見ている他のユーザと会話をする。また、ユーザは、画像表示装置２において動画像データを見ている最中に、ＡＩ等を用いてユーザに対して自動的に応答するボットと会話をしてもよい。本実施形態において、情報処理装置１がユーザに対して自動的に応答するボットとして機能するが、情報処理装置１とは異なる装置がボットとして機能してもよい。

情報処理装置１は、動画像データの再生中に、動画像データを視聴しているユーザの発話を検出する。情報処理装置１は、動画像データを構成する複数のシーンのうち再生中の第１シーンにおいてユーザが発話していることを検出した場合に、第１シーンを繰り返し再生する。一方、情報処理装置１は、ユーザが発話を終了したことを検出した場合に、第１シーンより後の第２シーンを再生する。ここでユーザが発話を終了したことは、ユーザが他のユーザ又はボットとの一連の会話を終了したことである。

このように、画像表示システムＳは、ユーザが会話を継続している最中には第１シーンを繰り返し再生し、ユーザが会話を終了したら第１シーンより後の第２シーンの再生を開始する。これにより、画像表示システムＳは、ユーザが第１シーンに関する会話をしているにも関わらず異なるシーンに切り替わってしまい会話が中断することを抑制し、ユーザが会話をしながら動画を視聴しやすくすることができる。

［情報処理装置１の構成］
図３は、情報処理装置１の構成を示す図である。情報処理装置１は、通信部１１と、記憶部１２と、制御部１３と、を有する。制御部１３は、再生制御部１３１と、検出部１３２と、応答部１３３と、を有する。

通信部１１は、ネットワークＮを介して、画像表示装置２との間で情報を送受信するための通信インターフェースである。また、通信部１１は、ネットワークＮを介して、画像表示装置２に動画像データを送信してもよい。通信部１１は、再生制御部１３１から入力された動画像データ（シーン）と、応答部１３３から入力された応答情報とを、画像表示装置２に送信する。また、通信部１１は、画像表示装置２から受信した音声情報を、検出部１３２に入力する。

記憶部１２は、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）を含む記憶媒体である。記憶部１２は、制御部１３が実行するプログラムを記憶している。また、記憶部１２は、複数の動画像データそれぞれを識別するための動画像ＩＤ（Identification）等の動画像識別情報に関連付けて、当該動画像データを構成するシーンに関するシーン情報を記憶している。また、記憶部１２は、複数の動画像データそれぞれを識別するための動画像識別情報に関連付けて、当該動画像データを記憶してもよい。

制御部１３は、例えばＣＰＵ（Central Processing Unit）を有しており、記憶部１２に記憶されたプログラムを実行することにより、再生制御部１３１、検出部１３２及び応答部１３３として機能する。

まず再生制御部１３１は、再生対象の動画像データを決定する。再生制御部１３１は、例えば、画像表示装置２において再生対象の動画像データの選択を受け付ける。また、再生制御部１３１は、画像表示装置２においてユーザによって選択された場所に関連付けられた動画像データを、再生対象の動画像データとして決定してもよい。また、再生制御部１３１は、画像表示装置２においてユーザによって選択された分類や被写体等に関連付けられた動画像データを、再生対象の動画像データとして決定してもよい。

再生制御部１３１は、記憶部１２において再生対象の動画像データの動画像識別情報に関連付けられたシーン情報を取得する。シーン情報は、例えば、動画像データを構成する複数のシーンの期間、すなわち各シーンの開始時刻及び終了時刻を含む。また、シーン情報は、動画像データを構成する複数のシーンそれぞれに関連付けられた、当該シーンに写っている人物、動物、建物等の被写体の名称や、当該シーンが撮影された場所等の情報を含んでもよい。

再生制御部１３１は、一又は複数の画像表示装置２に、再生対象の動画像データをストリーミング配信により送信することによって再生する。画像表示装置２が既に動画像データを記憶している場合には、再生制御部１３１は、再生対象の動画像データを識別するための動画像識別情報を含む制御情報を画像表示装置２に送信してもよい。

画像表示装置２は、ディスプレイ上で、情報処理装置１から受信した動画像データの表示を開始する。また、画像表示装置２は、画像表示装置２が備える記憶部に動画像データが既に記憶されている場合に、情報処理装置１から受信した制御情報に対応する動画像データを記憶部から読み出して再生してもよい。

図４は、情報処理装置１が再生している動画像データの模式図である。図４の例において、複数の画像表示装置２それぞれは、情報処理装置１から受信した動画像データの第１シーンを表示している。画像表示装置２は、動画像データに重畳して、動画像データにおいて現在表示している時刻（タイムスタンプ）に対応するインジケータＩを、動画像データの長さに対応する棒状領域上に表示している。また、画像表示装置２は、動画像データを構成する複数のシーンの期間Ｔ１、Ｔ２を、動画像データの長さに対応する棒状領域上に表示している。図４の例では、第１期間Ｔ１は表示中の第１シーンに対応しており、第２期間Ｔ２は第１シーンの後の第２シーンに対応している。

ユーザは、画像表示装置２において動画像データを見ている最中に、当該動画像データを同時に見ている他のユーザと会話をする。ユーザは、他のユーザと同じ場所にいる場合には直接会話をし、他のユーザと離れた場所にいる場合にはネットワークを介した音声通話によって会話をする。ユーザ間の音声通話は、画像表示システムＳによって提供され、又は画像表示システムＳとは異なる音声通話システムによって提供される。また、ユーザは、画像表示装置２において動画像データを視聴している最中に、後述のボットＢと会話をしてもよい。

画像表示装置２は、音声入力部を用いてユーザが発した音声を取得し、取得した音声を示す音声情報を情報処理装置１に送信する。情報処理装置１において、再生制御部１３１が動画像データを再生している最中に、検出部１３２は、画像表示装置２から音声情報を受信し、受信した音声情報に基づいてユーザの発話を検出する。ユーザと他のユーザとが会話をしている場合に、検出部１３２は、動画像データを表示している複数の画像表示装置２に対応する複数のユーザ間の会話を、発話として検出する。ユーザとボットとが会話をしている場合に、検出部１３２は、動画像データを表示している画像表示装置２に対応するユーザと、ボットとして機能している後述の応答部１３３との間の会話を、発話として検出する。

検出部１３２は、例えば、音声情報に対して既知の音声認識処理を実行することによって、ユーザが発話をしていることを検出する。また、検出部１３２は、既知の音声認識処理によって、ユーザの発話の内容、すなわち発話文を検出してもよい。また、検出部１３２は、ユーザが発話をした発話期間の長さを測定してもよい。検出部１３２は、動画像データのシーンと、当該シーンごとに検出したユーザの発話を含む音声情報と、発話の内容と、発話期間の長さと、を関連付けて記憶部１２に記憶させる。

また、検出部１３２は、ユーザが発話を終了したことを検出する。検出部１３２は、例えば、ユーザが発話をしていない時間が所定時間（例えば５秒）以上継続した場合に、ユーザが発話を終了したことを検出する。このとき、検出部１３２は、例えば、ユーザが発話をしていない時間が所定時間（例えば５秒）以上継続した場合であっても、ユーザと会話をしている他のユーザ又はボットが発話をしている場合には、ユーザが発話を終了したことを検出しない。すなわち、検出部１３２は、ユーザと他のユーザ又はボットとの会話が継続している場合にはユーザが発話を終了したことを検出せず、ユーザと他のユーザ又はボットとの会話が継続していない場合にはユーザが発話を終了したことを検出する。そのため、検出部１３２による検出結果において、ユーザが発話を終了したことは、ユーザが会話を終了したことに対応する。

応答部１３３は、検出部１３２が検出したユーザの発話に対して応答する応答内容を決定する。応答部１３３は、例えば、ユーザの発話の内容と、再生中の動画像データのシーンとに、既知のＡＩを適用することによって、応答内容を決定する。応答部１３３は、例えば、記憶部１２においてシーンごとに予め記憶されたキーワードのデータベースからユーザの発話に対して応答に用いるキーワードを特定してもよい。また、応答部１３３は、シーンに対して既知のリアルタイム画像認識処理を実行することによってユーザの発話に対して応答に用いるキーワードを特定してもよい。

応答部１３３は、特定したキーワード自体を応答内容として決定し、又は特定したキーワードを含む文を応答内容として決定する。また、応答部１３３は、ユーザが選択した言語（例えば語学学習の対象とする外国語）で応答内容を決定してもよい。

応答部１３３は、決定した応答内容を、画像表示装置２に送信する。画像表示装置２は、情報処理装置１から受信した応答内容を、ボットからの応答としてユーザに対して出力する。

応答部１３３は、例えば、再生中の動画像データのシーンに重畳して、ユーザに対して応答するボットＢを示す図形を表示させる。そして応答部１３３は、吹き出し等により、ボットＢに関連付けて、応答内容を表す文字を表示させる。また、応答部１３３は、応答内容を示す音声を、ボットＢが発した音声として画像表示装置２が備えるスピーカから出力してもよい。応答内容を示す音声は、リアルタイム合成された音声であってもよく、予め録音された音声であってもよい。

応答部１３３は、ユーザによる設定、又はユーザの属性（例えば、語学学習の習熟度）に応じて、ユーザごとにボットＢを表示するか否かを切り替えてもよい。この場合に、応答部１３３は、あるユーザに対して表示しているボットＢを、他のユーザに対しては表示しない。また、応答部１３３は、ユーザによる設定、又はユーザの属性（例えば、語学学習の習熟度）に応じて、ボットＢによる応答内容（支援内容）を変更してもよい。この場合に、応答部１３３は、例えば、習熟度が高いユーザに対してはキーワードのみを提示し、習熟度が低いユーザに対しては会話の文を提示する。

ユーザは、応答部１３３による応答内容に対して、さらに会話をする。検出部１３２は、ユーザの発話を検出することを継続する。これにより、ユーザは、動画像データの各シーンを視聴しながら、ユーザに対して応答するボットとして機能する応答部１３３と会話を行うことができる。情報処理装置１は、例えば、ユーザが選択した外国語を用いてユーザに対して応答することにより、ユーザの語学学習を支援することができる。

ユーザとボットとの間の会話が行われず、複数のユーザ間の会話のみが行われる場合に、応答部１３３による処理は行われなくてもよい。この場合に、画像表示装置２は、ディスプレイ上にボットＢを表示しなくてもよい。

再生制御部１３１は、検出部１３２によるユーザの発話の検出結果に基づいて、第１シーンの次に再生するシーンを決定する。再生制御部１３１は、再生中の第１シーンにおいてユーザが発話していることを検出部１３２が検出した場合に、第１シーンを繰り返し再生する。この場合に、再生制御部１３１は、第１シーンの終了時間になるか、終了前の所定時間以内になった場合には、第１シーンの冒頭から、又は第１シーンに含まれる最後のブロックのシーンの冒頭に戻って再生する。一方、再生制御部１３１は、ユーザが発話を終了したことを検出部１３２が検出した場合に、第１シーンより後の第２シーンを再生する。画像表示装置２が記憶部に既に記憶されている動画像データを再生している場合には、再生制御部１３１は、第１シーンの次に再生するシーンを示す制御情報を画像表示装置２に送信してもよい。

再生制御部１３１は、第１シーンより後の第２シーンを再生する場合に、第１シーンの直後のシーンを、第２シーンとして決定してもよい。また、再生制御部１３１は、検出部１３２が検出したユーザの発話期間の長さに基づいて、第２シーンを決定してもよい。この場合に、ユーザが動画像データを視聴するための上限時間（例えば、６０分）が予め定められている。再生制御部１３１は、検出部１３２が検出したユーザの発話期間の長さを合計し、発話期間の長さの合計値と上限時間との差に応じて、第１シーンの後のいずれかのシーンを第２シーンとして決定する。また、再生制御部１３１は、視聴時間（すなわち、視聴開始時刻から現在時刻までの経過時間）と上限時間との差に応じて、第１シーンの後のいずれかのシーンを第２シーンとして決定してもよい。

再生制御部１３１は、例えば、発話期間の長さの合計値と上限時間との差が、動画像データの残り時間よりも少ない場合に、第１シーン直後の一又は複数のシーンをスキップした後のシーンを、第２シーンとして決定する。

また、再生制御部１３１は、観光案内の動画像データである場合に動画像データ中で人気スポットに対応するシーンが決まっているため、動画像データ中で人気の高いシーン、又は予めいずれかのユーザにより選択されたシーンを、第２シーンとして優先的に決定してもよい。また、再生制御部１３１は、動画像データ中で視聴時間と上限時間との差の時間に収まる複数のシーンをユーザに対して提示し、ユーザにより選択されたシーンを第２シーンとして決定してもよい。

また、再生制御部１３１は、発話期間の長さの合計値と上限時間との差が、動画像データの残り時間よりも多い場合に、ユーザが発話をしているか否かに関わらず、第１シーンを繰り返し再生してもよい。また、応答部１３３は、発話期間の長さの合計値と上限時間との差が、動画像データの残り時間よりも多い場合に、ユーザが発話をしているか否かに関わらず、ユーザに対してボットを介して質問してもよい。応答部１３３は、例えば、ユーザの属性（年齢、性別、居住地等）に基づいて、質問を決定する。

これにより、情報処理装置１は、レッスン時間等により上限時間が設けられている場合に、上限時間に収まるようにシーンの再生状況を調整することができる。

画像表示装置２において、現在表示中の第１シーンが終了すると、情報処理装置１から受信した次のシーンの表示を開始する。すなわち、情報処理装置１は、第１シーンにおいてユーザが発話をしている場合には、第１シーンが終了すると、再び第１シーンを再生する。一方、情報処理装置１は、第１シーンにおいてユーザが発話を終了した場合には、第１シーンが終了すると、第１シーンより後の第２シーンを再生する。これにより、情報処理装置１は、ユーザが第１シーンに関する会話をしているにも関わらず異なるシーンに切り替わってしまい会話が中断することを抑制できる。

再生制御部１３１は、第１シーンが終了すると、自動的に次のシーンの再生を開始してもよい。また、再生制御部１３１は、第１シーンの残り時間が所定時間以下になった場合に、ユーザに異なるシーンへの切り替えを促してもよい。この場合に、再生制御部１３１は、例えば、「このシーンはもうすぐ終了なので、次のシーンに切り替えますか？」という質問を画像表示装置２に表示させ、ユーザによるシーンを切り替えるための操作（画面上のボタンの選択等）が行われたことを条件として、次のシーンの再生を開始してもよい。また、再生制御部１３１は、検出部１３２が検出した発話の内容が「次のシーンを再生」等の所定のフレーズを含む場合に、次のシーンの再生を開始してもよい。

情報処理装置１は、会話を支援するための情報を画像表示装置２に表示させてもよい。図５は、情報処理装置１が会話を支援する方法を説明するための模式図である。

再生制御部１３１は、語学に関する動画像データを再生している場合に、検出部１３２が検出した発話の音声又は発話内容が当該語学の基準に合致しているか否かを判定する。語学の基準は、例えばユーザにより選択された言語における文法や発音である。そして再生制御部１３１は、判定結果を示す情報を、ヒント情報Ｈとして動画像データ上に表示させる。

これにより、情報処理装置１は、ユーザが語学学習に関する動画像データを見ながら会話をしている最中に、ユーザの発話に関する判定結果を提供でき、ユーザの語学学習の効率を向上させることができる。

また、再生制御部１３１は、動画像データを見ているユーザの視線に対応する注視点を特定する。この場合に、画像表示装置２は、動画像データを表示している間に、既知の視線特定方法を用いて、ユーザの視線の向きを特定し、特定した視線の向きを示す情報を情報処理装置１に送信する。情報処理装置１において、再生制御部１３１は、ユーザの視線の向きから、動画像データの表示範囲中の注視点の座標を特定する。

図５に示すように、再生制御部１３１は、複数の画像表示装置２が動画像データを表示している間に、複数の画像表示装置２に対応する複数のユーザそれぞれの視線に対応する複数の注視点Ｐを、動画像データ上に表示させる。再生制御部１３１は、複数のユーザの注視点Ｐを区別可能にするために、ユーザごとに異なる図形で注視点Ｐを表示することが望ましい。これにより、情報処理装置１は、複数のユーザ間でどこを見ているかを共有させ、複数のユーザ間で会話をしやすくすることができる。

さらに再生制御部１３１は、動画像データにおけるユーザの視線に対応する注視点の位置に関連付けられたキーワード（例えば注視点近傍の被写体の名称）を示す情報Ｋを、動画像データ上に表示させてもよい。再生制御部１３１は、例えば、記憶部１２においてシーンごとに予め記憶されたキーワードのデータベースから注視点の座標に関連付けられたキーワードを特定し、又は注視点周辺の画像に対して既知のリアルタイム画像認識処理を実行することによってキーワードを特定する。これにより、情報処理装置１は、ユーザが見ている場所に関するキーワードをユーザに提供し、ユーザが会話をしやすくすることができる。

図６は、情報処理装置１が会話を支援する別の方法を説明するための模式図である。再生制御部１３１は、第１シーンにおいて検出部１３２がユーザの発話を検出しない期間が所定の長さ以上継続した場合に、動画像データの属性又は第１シーンに関連付けられたヒント情報Ｈを、動画像データ上に表示させる。再生制御部１３１は、例えば、記憶部１２に記憶されたシーン情報に基づいて、第１シーンに写っている人物、動物、建物等の被写体の名称、又は第１シーンが撮像された場所のいずれかの情報を特定し、特定した情報に関するヒント情報Ｈ（例えば、「あの塔は何ですか？」という質問）を画像表示装置２に表示させる。また、再生制御部１３１は、動画像データの属性（例えば、観光案内）に関連付けられたヒント情報Ｈ（例えば、「どの地域の動画ですか？」という質問）を画像表示装置２に表示させてもよい。

再生制御部１３１は、同じ動画像データを見ている複数のユーザの複数の画像表示装置２に同じヒント情報Ｈを表示させてもよい。また再生制御部１３１は、ユーザの属性（例えば、語学学習の習熟度）に応じて、ユーザごとに異なるヒント情報Ｈを表示させたり、ヒント情報Ｈの表示有無を切り替えたりしてもよい。

このように情報処理装置１は、ユーザが会話をしていない場合に動画像データに関する情報をユーザに提供することによって、ユーザが積極的に会話をすることを支援できる。

情報処理装置１は、ボットＢを用いてユーザの会話を支援してもよい。例えばユーザがボットＢを所定時間以上見つめた場合、又はユーザがボットＢを選択する操作を行った場合に、応答部１３３は、上述のヒント情報Ｈを、ボットＢからの応答として画像表示装置２に出力させる。また、応答部１３３は、第１シーンにおいて検出部１３２がユーザの発話を検出しない期間が所定の長さ以上継続した場合に、ユーザに対して発話を促す情報（例えば、「〇〇さんはどう思いますか？」という質問）を、ボットＢからの応答として画像表示装置２に出力させてもよい。

応答部１３３は、同じ動画像データを見ている複数のユーザのうち、検出部１３２が発話を検出したユーザに向くように、ボットＢの外観を変更してもよい。このとき応答部１３３は、ユーザの発話に応じて、ボットＢに所定のリアクション（例えば、頷きや相槌）を行わせてもよい。応答部１３３は、発話をしているユーザに対して出力する音声の音量を、発話をしているユーザ以外のユーザに対して出力する音声の音量よりも大きくしてもよい。これにより、情報処理装置１は、ユーザがボットＢと会話をしていることをユーザにとってわかりやすくし、ユーザとボットＢとの会話を促進できる。

応答部１３３は、同じ動画像データを見ている複数のユーザそれぞれに対応するアバタ画像（例えば、人型の画像の上半身）を、当該ユーザに対応する位置に表示させてもよい。応答部１３３は、ボットＢが話し掛けているユーザのアバタ画像に向くように、ボットＢの外観を変更してもよい。これにより、情報処理装置１は、ボットＢがいずれのユーザに話し掛けているかをわかりやすくすることができる。

３人以上のユーザが同じ動画像データを見ている状況において、いずれかのユーザが他のユーザの名前を呼んだ場合、又はいずれかのユーザが他のユーザのアバタ画像を選択した場合に、応答部１３３は、当該他のユーザのアバタ画像に向くように、当該ユーザのアバタ画像の外観を変更してもよい。このとき、応答部１３３は、当該ユーザが当該他のユーザに話し掛けた音声の音量を大きくしてもよい。これにより、情報処理装置１は、ユーザがいずれのユーザに話し掛けているかをわかりやすくすることができる。

また、応答部１３３は、第１シーンにおいて複数のユーザ間の会話が終了したか否かを判定し、会話が終了したと判定した場合に、ボットＢに「次のシーンに進めます」と応答させ、再生制御部１３１に第１シーンの後の第２シーンを再生させてもよい。

また、複数のユーザ同士の位置関係に応じて、音声の音量を調整してもよい。応答部１３３は、例えば、ボットＢが発話をしているユーザに話し掛けている際に、当該ユーザの右側にいるユーザに対応する画像表示装置２において、左側スピーカの音量を大きくし、右側スピーカの音量を小さくする。これにより、情報処理装置１は、例えばボットＢが左側のユーザに話し掛けていることを右側のユーザに知らせ、誰がボットＢと会話をしているかをわかりやすくすることができる。

ユーザが動画像データの視聴を終了した後、再生制御部１３１は、画像表示装置２においてユーザにより指定されたシーン又は発話内容に対応する、記憶部１２に記憶されたシーン及び発話を再生してもよい。すなわち、ユーザが見たいシーンや、発話したキーワードを指定すると、再生制御部１３１は過去に記憶されたシーン及び発話を再生し、画像表示装置２は再生された過去のシーン及び発話を表示する。これにより、情報処理装置１は、シーンごとにユーザが行った発話に関する情報をユーザに提供し、ユーザが復習することを支援できる。

［情報処理方法のシーケンス］
図７は、本実施形態に係る画像表示システムＳが実行する情報処理方法のシーケンス図である。情報処理装置１において、再生制御部１３１は、一又は複数の画像表示装置２において表示するための再生対象の動画像データを再生する（Ｓ１１）。ここで再生制御部１３１は、ストリーミング配信により再生対象の動画像データを画像表示装置に送信する。画像表示装置２は、ディスプレイ上で、情報処理装置１から受信した動画像データの表示を開始する（Ｓ１２）。

ユーザは、画像表示装置２において動画像データを見ている最中に、当該動画像データを同時に見ている他のユーザと会話をする。画像表示装置２は、音声入力部を用いてユーザが発した音声を取得し、取得した音声を示す音声情報を情報処理装置１に送信する（Ｓ１３）。

情報処理装置１において、再生制御部１３１が動画像データを再生している最中に、検出部１３２は、画像表示装置２から音声情報を受信し、受信した音声情報に基づいてユーザの発話を検出する（Ｓ１４）。

応答部１３３は、検出部１３２が検出したユーザの発話に対して応答する応答内容を決定する（Ｓ１５）。応答部１３３は、決定した応答内容を、画像表示装置２に送信する。画像表示装置２において、情報処理装置１から受信した応答内容をユーザに対して出力する。

ユーザは、応答部１３３による応答内容に対して、さらに会話をする。画像表示装置２は、音声入力部を用いてユーザが発した音声を取得し、取得した音声を示す音声情報を情報処理装置１に送信する（Ｓ１６）。情報処理装置１において、再生制御部１３１が動画像データを再生している最中に、検出部１３２は、画像表示装置２から音声情報を受信し、受信した音声情報に基づいてユーザの発話を検出する（Ｓ１７）。情報処理装置１がボットによる応答を行わない場合に、ステップＳ１５～ステップＳ１７は行われなくてもよい。

再生制御部１３１は、検出部１３２によるユーザの発話の検出結果に基づいて、第１シーンの次に再生するシーンを決定する（Ｓ１８）。再生制御部１３１は、再生中の第１シーンにおいてユーザが発話していることを検出部１３２が検出した場合に、第１シーンを繰り返し再生し、ユーザが発話を終了したことを検出部１３２が検出した場合に、第１シーンより後の第２シーンを再生する。ここで再生制御部１３１は、ストリーミング配信により第１シーンの次に再生するシーンの動画像データを画像表示装置に送信する。

画像表示装置２において、現在表示中の第１シーンが終了すると、第１シーン又は第２シーンの表示を開始する（Ｓ１９）。すなわち、情報処理装置１は、第１シーンにおいてユーザが発話をしている場合には、第１シーンが終了すると、再び第１シーンを再生する。一方、情報処理装置１は、第１シーンにおいてユーザが発話を終了した場合には、第１シーンが終了すると、第１シーンより後の第２シーンを再生する。

［実施形態の効果］
本実施形態に係る画像表示システムＳによれば、情報処理装置１は、ユーザが会話を継続している最中には第１シーンを繰り返し再生し、ユーザが会話を終了したら第１シーンより後の第２シーンの再生を開始する。これにより、情報処理装置１は、ユーザが第１シーンに関する会話をしているにも関わらず異なるシーンに切り替わってしまい会話が中断することを抑制し、ユーザが会話をしながら動画を視聴しやすくすることができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

情報処理装置１及び画像表示装置２のプロセッサは、図７に示す情報処理方法に含まれる各ステップ（工程）の主体となる。すなわち、情報処理装置１及び画像表示装置２のプロセッサは、図７に示す情報処理方法を実行するためのプログラムを記憶部から読み出し、該プログラムを実行して画像表示システムＳの各部を制御することによって、図７に示す情報処理方法を実行する。図７に示す情報処理方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。

Ｓ画像表示システム
１情報処理装置
１２記憶部
１３制御部
１３１再生制御部
１３２検出部
１３３応答部
２画像表示装置

Claims

ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生する再生制御部と、
前記動画像データの再生中に前記ユーザの発話を検出する検出部と、
を有し、
前記再生制御部は、再生中の第１シーンにおいて前記ユーザが発話していることを前記検出部が検出した場合に、前記第１シーンを繰り返し再生し、前記ユーザが発話を終了したことを前記検出部が検出した場合に、前記第１シーンより後の第２シーンを再生する、
情報処理装置。
前記検出部は、前記動画像データを再生している複数の前記ユーザ端末に対応する複数の前記ユーザ間の会話を、前記発話として検出する、
請求項１に記載の情報処理装置。
前記ユーザの発話に応答する応答部をさらに有し、
前記検出部は、前記ユーザと前記応答部との間の会話を、前記発話として検出する、
請求項１又は２に記載の情報処理装置。
前記再生制御部は、前記ユーザ端末において選択された場所に関連付けられた前記動画像データを再生する、
請求項１から３のいずれか一項に記載の情報処理装置。
前記再生制御部は、前記第１シーンにおいて前記検出部が前記発話を検出しない期間が所定の長さ以上継続した場合に、前記動画像データの属性又は前記第１シーンに関連付けられた情報を前記動画像データ上に表示させる、
請求項１から４のいずれか一項に記載の情報処理装置。
前記検出部は、前記ユーザが発話をした発話期間の長さを測定し、
前記再生制御部は、前記発話期間の長さに基づいて前記第２シーンを決定する、
請求項１から５のいずれか一項に記載の情報処理装置。
前記再生制御部は、複数の前記ユーザ端末が前記動画像データを再生している間に、複数の前記ユーザ端末に対応する複数の前記ユーザそれぞれの視線に対応する複数の注視点を前記動画像データ上に表示させる、
請求項１から６のいずれか一項に記載の情報処理装置。
前記再生制御部は、前記動画像データにおける前記ユーザの視線に対応する注視点の位置に関連付けられた情報を、前記動画像データ上に表示させる、
請求項１から７のいずれか一項に記載の情報処理装置。
前記動画像データのシーンと、当該シーンごとに前記検出部が検出した前記発話とを関連付けて記憶する記憶部をさらに有し、
前記再生制御部は、前記ユーザ端末において指定されたシーン又は発話内容に対応する、前記記憶部に記憶された前記シーン及び前記発話を再生する、
請求項１から８のいずれか一項に記載の情報処理装置。
前記再生制御部は、語学に関する前記動画像データを再生し、
前記再生制御部は、前記発話の音声又は発話内容が前記語学の基準に合致しているか否かを示す情報を、前記動画像データ上に表示させる、
請求項１から９のいずれか一項に記載の情報処理装置。
コンピュータを、
ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生する再生制御部と、
前記動画像データの再生中に前記ユーザの発話を検出する検出部と、
として機能させ、
前記再生制御部は、再生中の第１シーンにおいて前記ユーザが発話していることを前記検出部が検出した場合に、前記第１シーンを繰り返し再生し、前記ユーザが発話を終了したことを前記検出部が検出した場合に、前記第１シーンより後の第２シーンを再生する、
プログラム。
コンピュータが実行する、
ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生するステップと、
前記動画像データの再生中に前記ユーザの発話を検出するステップと、
を有し、
前記再生するステップでは、再生中の第１シーンにおいて前記ユーザが発話していることが前記検出するステップで検出された場合に、前記第１シーンを繰り返し再生し、前記ユーザが発話を終了したことが前記検出するステップで検出された場合に、前記第１シーンより後の第２シーンを再生する、
を実行する情報処理方法。