JP2022053669A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2022053669A
JP2022053669A JP2020160426A JP2020160426A JP2022053669A JP 2022053669 A JP2022053669 A JP 2022053669A JP 2020160426 A JP2020160426 A JP 2020160426A JP 2020160426 A JP2020160426 A JP 2020160426A JP 2022053669 A JP2022053669 A JP 2022053669A
Authority
JP
Japan
Prior art keywords
user
scene
moving image
image data
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020160426A
Other languages
English (en)
Other versions
JP6867543B1 (ja
Inventor
隆一郎 林
Ryuichiro Hayashi
純一 鶴見
Junichi Tsurumi
政明 厚地
Masaaki Atsuji
峻資 宮永
Shunsuke Miyanaga
涼 古屋
Ryo Furuya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020160426A priority Critical patent/JP6867543B1/ja
Application granted granted Critical
Publication of JP6867543B1 publication Critical patent/JP6867543B1/ja
Publication of JP2022053669A publication Critical patent/JP2022053669A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

Figure 2022053669000001
【課題】ユーザが会話をしながら動画を視聴しやすくできるようにする。
【解決手段】本発明の一実施形態に係る情報処理装置1は、ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生する再生制御部131と、動画像データの再生中にユーザの発話を検出する検出部132と、を有し、再生制御部は、再生中の第1シーンにおいてユーザが発話していることを検出部が検出した場合に、第1シーンを繰り返し再生し、ユーザが発話を終了したことを検出部が検出した場合に、第1シーンより後の第2シーンをユーザ端末に再生する。
【選択図】図3

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
従来、指定された場所に関連する動画をユーザの端末に配信することによって、ユーザに疑似的に旅行を体験させる技術が知られている(例えば、特許文献1を参照)。
特開2007-156562号公報
特許文献1のような技術を用いて、複数のユーザが会話をしながら1つの動画を同時に視聴する場合や、ユーザがAI(Artificial Intelligence)と会話をしながら動画を視聴する場合が考えられる。このような場合において、例えば、ユーザが会話をしている最中に動画の特定のシーンに関する話題をしているにも関わらず異なるシーンに切り替わってしまい、会話が中断する等の問題があった。
そこで、本発明はこれらの点に鑑みてなされたものであり、ユーザが会話をしながら動画を視聴しやすくできるようにすることを目的とする。
本発明の第1の態様の情報処理装置は、ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生する再生制御部と、前記動画像データの再生中に前記ユーザの発話を検出する検出部と、を有し、前記再生制御部は、再生中の第1シーンにおいて前記ユーザが発話していることを前記検出部が検出した場合に、前記第1シーンを繰り返し再生し、前記ユーザが発話を終了したことを前記検出部が検出した場合に、前記第1シーンより後の第2シーンを再生する。
前記検出部は、前記動画像データを再生している複数の前記ユーザ端末に対応する複数の前記ユーザ間の会話を、前記発話として検出してもよい。
前記情報処理装置は、前記ユーザの発話に応答する応答部をさらに有し、前記検出部は、前記ユーザと前記応答部との間の会話を、前記発話として検出してもよい。
前記再生制御部は、前記ユーザ端末において選択された場所に関連付けられた前記動画像データを再生してもよい。
前記再生制御部は、前記第1シーンにおいて前記検出部が前記発話を検出しない期間が所定の長さ以上継続した場合に、前記動画像データの属性又は前記第1シーンに関連付けられた情報を前記動画像データ上に表示させてもよい。
前記検出部は、前記ユーザが発話をした発話期間の長さを測定し、前記再生制御部は、前記発話期間の長さに基づいて前記第2シーンを決定してもよい。
前記再生制御部は、複数の前記ユーザ端末が前記動画像データを再生している間に、複数の前記ユーザ端末に対応する複数の前記ユーザそれぞれの視線に対応する複数の注視点を前記動画像データ上に表示させてもよい。
前記再生制御部は、前記動画像データにおける前記ユーザの視線に対応する注視点の位置に関連付けられた情報を、前記動画像データ上に表示させてもよい。
前記情報処理装置は、前記動画像データのシーンと、当該シーンごとに前記検出部が検出した前記発話とを関連付けて記憶する記憶部をさらに有し、前記再生制御部は、前記ユーザ端末において指定されたシーン又は発話内容に対応する、前記記憶部に記憶された前記シーン及び前記発話を再生してもよい。
前記再生制御部は、語学に関する前記動画像データを再生し、前記再生制御部は、前記発話の音声又は発話内容が前記語学の基準に合致しているか否かを示す情報を、前記動画像データ上に表示させてもよい。
本発明の第2の態様のプログラムは、コンピュータを、ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生する再生制御部と、前記動画像データの再生中に前記ユーザの発話を検出する検出部と、として機能させ、前記再生制御部は、再生中の第1シーンにおいて前記ユーザが発話していることを前記検出部が検出した場合に、前記第1シーンを繰り返し再生し、前記ユーザが発話を終了したことを前記検出部が検出した場合に、前記第1シーンより後の第2シーンを再生する。
本発明の第3の態様の情報処理方法は、コンピュータが実行する、ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生するステップと、前記動画像データの再生中に前記ユーザの発話を検出するステップと、を有し、前記再生するステップでは、再生中の第1シーンにおいて前記ユーザが発話していることが前記検出するステップで検出された場合に、前記第1シーンを繰り返し再生し、前記ユーザが発話を終了したことが前記検出するステップで検出された場合に、前記第1シーンより後の第2シーンを再生する。
本発明によれば、ユーザが会話をしながら動画を視聴しやすくできるようにするという効果を奏する。
実施形態に係る画像表示システムの概要を説明するための図である。 画像表示装置が動画像データを表示している状態を示す模式図である。 情報処理装置の構成を示す図である。 情報処理装置が再生している動画像データの模式図である。 情報処理装置が会話を支援する方法を説明するための模式図である。 情報処理装置が会話を支援する別の方法を説明するための模式図である。 実施形態に係る画像表示システムが実行する情報処理方法のシーケンス図である。
[画像表示システムSの概要]
図1は、本実施形態に係る画像表示システムSの概要を説明するための図である。画像表示システムSは、情報処理装置1と、一又は複数の画像表示装置2とを有する。情報処理装置1及び画像表示装置2は、ネットワークNを介して各種のデータを送受信する。ネットワークNは、例えばインターネット又は携帯電話網を含む。
情報処理装置1は、画像表示装置2において表示するための動画像データの再生を制御する情報処理装置であり、例えばサーバ等のコンピュータである。情報処理装置1は、動画像データを再生している間に、画像表示装置2との間で音声又は文字の情報を送受信する。また、情報処理装置1は、例えば、動画像データを再生している間に、画像表示装置2にユーザの会話を支援する情報を送信する。
画像表示装置2は、動画像データを見るユーザが利用するユーザ端末であり、例えばユーザの頭部に装着されるヘッドマウントディスプレイ等を備えるコンピュータである。また、画像表示装置2は、パーソナルコンピュータ、スマートフォン、タブレット等のコンピュータであってもよい。画像表示装置2は、動画像データを表示するためのディスプレイ等の表示部と、ユーザによる操作を受け付けるタッチパネルやコントローラ等の操作部と、ユーザが発した音声を受け付けるマイクロフォン等の音声入力部とを有していれば、任意の装置であってよい。情報処理装置1が有する機能の少なくとも一部を、ユーザ端末である画像表示装置2が実行してもよい。
画像表示装置2は、情報処理装置1からストリーミング配信された動画像データを逐次表示する。また、画像表示装置2は、画像表示装置2が備える記憶部に予め記憶された動画像データを再生してもよい。
図2は、画像表示装置2が動画像データを表示している状態を示す模式図である。図2の例では、情報処理装置1は、複数のユーザが利用している複数の画像表示装置2において同時に同じ動画像データを表示するように、当該動画像データを再生している。情報処理装置1は、複数の画像表示装置2において動画像データが同じタイミングで進むように、動画像データの再生を制御する。
情報処理装置1は、ユーザが利用しているユーザ端末である画像表示装置2において表示するための複数のシーンから構成される動画像データを再生する。複数のシーンそれぞれは、動画像データを期間ごとに区切ることによって生成された、部分的な動画像データである。動画像データは、5分間等の所定時間ごとに複数のシーンに区切られ、又は人間によって指定された時刻(すなわち、動画像データ内のタイムスタンプ)で複数のシーンに区切られる。
ユーザは、画像表示装置2において動画像データを見ている最中に、当該動画像データを同時に見ている他のユーザと会話をする。また、ユーザは、画像表示装置2において動画像データを見ている最中に、AI等を用いてユーザに対して自動的に応答するボットと会話をしてもよい。本実施形態において、情報処理装置1がユーザに対して自動的に応答するボットとして機能するが、情報処理装置1とは異なる装置がボットとして機能してもよい。
情報処理装置1は、動画像データの再生中に、動画像データを視聴しているユーザの発話を検出する。情報処理装置1は、動画像データを構成する複数のシーンのうち再生中の第1シーンにおいてユーザが発話していることを検出した場合に、第1シーンを繰り返し再生する。一方、情報処理装置1は、ユーザが発話を終了したことを検出した場合に、第1シーンより後の第2シーンを再生する。ここでユーザが発話を終了したことは、ユーザが他のユーザ又はボットとの一連の会話を終了したことである。
このように、画像表示システムSは、ユーザが会話を継続している最中には第1シーンを繰り返し再生し、ユーザが会話を終了したら第1シーンより後の第2シーンの再生を開始する。これにより、画像表示システムSは、ユーザが第1シーンに関する会話をしているにも関わらず異なるシーンに切り替わってしまい会話が中断することを抑制し、ユーザが会話をしながら動画を視聴しやすくすることができる。
[情報処理装置1の構成]
図3は、情報処理装置1の構成を示す図である。情報処理装置1は、通信部11と、記憶部12と、制御部13と、を有する。制御部13は、再生制御部131と、検出部132と、応答部133と、を有する。
通信部11は、ネットワークNを介して、画像表示装置2との間で情報を送受信するための通信インターフェースである。また、通信部11は、ネットワークNを介して、画像表示装置2に動画像データを送信してもよい。通信部11は、再生制御部131から入力された動画像データ(シーン)と、応答部133から入力された応答情報とを、画像表示装置2に送信する。また、通信部11は、画像表示装置2から受信した音声情報を、検出部132に入力する。
記憶部12は、ROM(Read Only Memory)及びRAM(Random Access Memory)を含む記憶媒体である。記憶部12は、制御部13が実行するプログラムを記憶している。また、記憶部12は、複数の動画像データそれぞれを識別するための動画像ID(Identification)等の動画像識別情報に関連付けて、当該動画像データを構成するシーンに関するシーン情報を記憶している。また、記憶部12は、複数の動画像データそれぞれを識別するための動画像識別情報に関連付けて、当該動画像データを記憶してもよい。
制御部13は、例えばCPU(Central Processing Unit)を有しており、記憶部12に記憶されたプログラムを実行することにより、再生制御部131、検出部132及び応答部133として機能する。
まず再生制御部131は、再生対象の動画像データを決定する。再生制御部131は、例えば、画像表示装置2において再生対象の動画像データの選択を受け付ける。また、再生制御部131は、画像表示装置2においてユーザによって選択された場所に関連付けられた動画像データを、再生対象の動画像データとして決定してもよい。また、再生制御部131は、画像表示装置2においてユーザによって選択された分類や被写体等に関連付けられた動画像データを、再生対象の動画像データとして決定してもよい。
再生制御部131は、記憶部12において再生対象の動画像データの動画像識別情報に関連付けられたシーン情報を取得する。シーン情報は、例えば、動画像データを構成する複数のシーンの期間、すなわち各シーンの開始時刻及び終了時刻を含む。また、シーン情報は、動画像データを構成する複数のシーンそれぞれに関連付けられた、当該シーンに写っている人物、動物、建物等の被写体の名称や、当該シーンが撮影された場所等の情報を含んでもよい。
再生制御部131は、一又は複数の画像表示装置2に、再生対象の動画像データをストリーミング配信により送信することによって再生する。画像表示装置2が既に動画像データを記憶している場合には、再生制御部131は、再生対象の動画像データを識別するための動画像識別情報を含む制御情報を画像表示装置2に送信してもよい。
画像表示装置2は、ディスプレイ上で、情報処理装置1から受信した動画像データの表示を開始する。また、画像表示装置2は、画像表示装置2が備える記憶部に動画像データが既に記憶されている場合に、情報処理装置1から受信した制御情報に対応する動画像データを記憶部から読み出して再生してもよい。
図4は、情報処理装置1が再生している動画像データの模式図である。図4の例において、複数の画像表示装置2それぞれは、情報処理装置1から受信した動画像データの第1シーンを表示している。画像表示装置2は、動画像データに重畳して、動画像データにおいて現在表示している時刻(タイムスタンプ)に対応するインジケータIを、動画像データの長さに対応する棒状領域上に表示している。また、画像表示装置2は、動画像データを構成する複数のシーンの期間T1、T2を、動画像データの長さに対応する棒状領域上に表示している。図4の例では、第1期間T1は表示中の第1シーンに対応しており、第2期間T2は第1シーンの後の第2シーンに対応している。
ユーザは、画像表示装置2において動画像データを見ている最中に、当該動画像データを同時に見ている他のユーザと会話をする。ユーザは、他のユーザと同じ場所にいる場合には直接会話をし、他のユーザと離れた場所にいる場合にはネットワークを介した音声通話によって会話をする。ユーザ間の音声通話は、画像表示システムSによって提供され、又は画像表示システムSとは異なる音声通話システムによって提供される。また、ユーザは、画像表示装置2において動画像データを視聴している最中に、後述のボットBと会話をしてもよい。
画像表示装置2は、音声入力部を用いてユーザが発した音声を取得し、取得した音声を示す音声情報を情報処理装置1に送信する。情報処理装置1において、再生制御部131が動画像データを再生している最中に、検出部132は、画像表示装置2から音声情報を受信し、受信した音声情報に基づいてユーザの発話を検出する。ユーザと他のユーザとが会話をしている場合に、検出部132は、動画像データを表示している複数の画像表示装置2に対応する複数のユーザ間の会話を、発話として検出する。ユーザとボットとが会話をしている場合に、検出部132は、動画像データを表示している画像表示装置2に対応するユーザと、ボットとして機能している後述の応答部133との間の会話を、発話として検出する。
検出部132は、例えば、音声情報に対して既知の音声認識処理を実行することによって、ユーザが発話をしていることを検出する。また、検出部132は、既知の音声認識処理によって、ユーザの発話の内容、すなわち発話文を検出してもよい。また、検出部132は、ユーザが発話をした発話期間の長さを測定してもよい。検出部132は、動画像データのシーンと、当該シーンごとに検出したユーザの発話を含む音声情報と、発話の内容と、発話期間の長さと、を関連付けて記憶部12に記憶させる。
また、検出部132は、ユーザが発話を終了したことを検出する。検出部132は、例えば、ユーザが発話をしていない時間が所定時間(例えば5秒)以上継続した場合に、ユーザが発話を終了したことを検出する。このとき、検出部132は、例えば、ユーザが発話をしていない時間が所定時間(例えば5秒)以上継続した場合であっても、ユーザと会話をしている他のユーザ又はボットが発話をしている場合には、ユーザが発話を終了したことを検出しない。すなわち、検出部132は、ユーザと他のユーザ又はボットとの会話が継続している場合にはユーザが発話を終了したことを検出せず、ユーザと他のユーザ又はボットとの会話が継続していない場合にはユーザが発話を終了したことを検出する。そのため、検出部132による検出結果において、ユーザが発話を終了したことは、ユーザが会話を終了したことに対応する。
応答部133は、検出部132が検出したユーザの発話に対して応答する応答内容を決定する。応答部133は、例えば、ユーザの発話の内容と、再生中の動画像データのシーンとに、既知のAIを適用することによって、応答内容を決定する。応答部133は、例えば、記憶部12においてシーンごとに予め記憶されたキーワードのデータベースからユーザの発話に対して応答に用いるキーワードを特定してもよい。また、応答部133は、シーンに対して既知のリアルタイム画像認識処理を実行することによってユーザの発話に対して応答に用いるキーワードを特定してもよい。
応答部133は、特定したキーワード自体を応答内容として決定し、又は特定したキーワードを含む文を応答内容として決定する。また、応答部133は、ユーザが選択した言語(例えば語学学習の対象とする外国語)で応答内容を決定してもよい。
応答部133は、決定した応答内容を、画像表示装置2に送信する。画像表示装置2は、情報処理装置1から受信した応答内容を、ボットからの応答としてユーザに対して出力する。
応答部133は、例えば、再生中の動画像データのシーンに重畳して、ユーザに対して応答するボットBを示す図形を表示させる。そして応答部133は、吹き出し等により、ボットBに関連付けて、応答内容を表す文字を表示させる。また、応答部133は、応答内容を示す音声を、ボットBが発した音声として画像表示装置2が備えるスピーカから出力してもよい。応答内容を示す音声は、リアルタイム合成された音声であってもよく、予め録音された音声であってもよい。
応答部133は、ユーザによる設定、又はユーザの属性(例えば、語学学習の習熟度)に応じて、ユーザごとにボットBを表示するか否かを切り替えてもよい。この場合に、応答部133は、あるユーザに対して表示しているボットBを、他のユーザに対しては表示しない。また、応答部133は、ユーザによる設定、又はユーザの属性(例えば、語学学習の習熟度)に応じて、ボットBによる応答内容(支援内容)を変更してもよい。この場合に、応答部133は、例えば、習熟度が高いユーザに対してはキーワードのみを提示し、習熟度が低いユーザに対しては会話の文を提示する。
ユーザは、応答部133による応答内容に対して、さらに会話をする。検出部132は、ユーザの発話を検出することを継続する。これにより、ユーザは、動画像データの各シーンを視聴しながら、ユーザに対して応答するボットとして機能する応答部133と会話を行うことができる。情報処理装置1は、例えば、ユーザが選択した外国語を用いてユーザに対して応答することにより、ユーザの語学学習を支援することができる。
ユーザとボットとの間の会話が行われず、複数のユーザ間の会話のみが行われる場合に、応答部133による処理は行われなくてもよい。この場合に、画像表示装置2は、ディスプレイ上にボットBを表示しなくてもよい。
再生制御部131は、検出部132によるユーザの発話の検出結果に基づいて、第1シーンの次に再生するシーンを決定する。再生制御部131は、再生中の第1シーンにおいてユーザが発話していることを検出部132が検出した場合に、第1シーンを繰り返し再生する。この場合に、再生制御部131は、第1シーンの終了時間になるか、終了前の所定時間以内になった場合には、第1シーンの冒頭から、又は第1シーンに含まれる最後のブロックのシーンの冒頭に戻って再生する。一方、再生制御部131は、ユーザが発話を終了したことを検出部132が検出した場合に、第1シーンより後の第2シーンを再生する。画像表示装置2が記憶部に既に記憶されている動画像データを再生している場合には、再生制御部131は、第1シーンの次に再生するシーンを示す制御情報を画像表示装置2に送信してもよい。
再生制御部131は、第1シーンより後の第2シーンを再生する場合に、第1シーンの直後のシーンを、第2シーンとして決定してもよい。また、再生制御部131は、検出部132が検出したユーザの発話期間の長さに基づいて、第2シーンを決定してもよい。この場合に、ユーザが動画像データを視聴するための上限時間(例えば、60分)が予め定められている。再生制御部131は、検出部132が検出したユーザの発話期間の長さを合計し、発話期間の長さの合計値と上限時間との差に応じて、第1シーンの後のいずれかのシーンを第2シーンとして決定する。また、再生制御部131は、視聴時間(すなわち、視聴開始時刻から現在時刻までの経過時間)と上限時間との差に応じて、第1シーンの後のいずれかのシーンを第2シーンとして決定してもよい。
再生制御部131は、例えば、発話期間の長さの合計値と上限時間との差が、動画像データの残り時間よりも少ない場合に、第1シーン直後の一又は複数のシーンをスキップした後のシーンを、第2シーンとして決定する。
また、再生制御部131は、観光案内の動画像データである場合に動画像データ中で人気スポットに対応するシーンが決まっているため、動画像データ中で人気の高いシーン、又は予めいずれかのユーザにより選択されたシーンを、第2シーンとして優先的に決定してもよい。また、再生制御部131は、動画像データ中で視聴時間と上限時間との差の時間に収まる複数のシーンをユーザに対して提示し、ユーザにより選択されたシーンを第2シーンとして決定してもよい。
また、再生制御部131は、発話期間の長さの合計値と上限時間との差が、動画像データの残り時間よりも多い場合に、ユーザが発話をしているか否かに関わらず、第1シーンを繰り返し再生してもよい。また、応答部133は、発話期間の長さの合計値と上限時間との差が、動画像データの残り時間よりも多い場合に、ユーザが発話をしているか否かに関わらず、ユーザに対してボットを介して質問してもよい。応答部133は、例えば、ユーザの属性(年齢、性別、居住地等)に基づいて、質問を決定する。
これにより、情報処理装置1は、レッスン時間等により上限時間が設けられている場合に、上限時間に収まるようにシーンの再生状況を調整することができる。
画像表示装置2において、現在表示中の第1シーンが終了すると、情報処理装置1から受信した次のシーンの表示を開始する。すなわち、情報処理装置1は、第1シーンにおいてユーザが発話をしている場合には、第1シーンが終了すると、再び第1シーンを再生する。一方、情報処理装置1は、第1シーンにおいてユーザが発話を終了した場合には、第1シーンが終了すると、第1シーンより後の第2シーンを再生する。これにより、情報処理装置1は、ユーザが第1シーンに関する会話をしているにも関わらず異なるシーンに切り替わってしまい会話が中断することを抑制できる。
再生制御部131は、第1シーンが終了すると、自動的に次のシーンの再生を開始してもよい。また、再生制御部131は、第1シーンの残り時間が所定時間以下になった場合に、ユーザに異なるシーンへの切り替えを促してもよい。この場合に、再生制御部131は、例えば、「このシーンはもうすぐ終了なので、次のシーンに切り替えますか?」という質問を画像表示装置2に表示させ、ユーザによるシーンを切り替えるための操作(画面上のボタンの選択等)が行われたことを条件として、次のシーンの再生を開始してもよい。また、再生制御部131は、検出部132が検出した発話の内容が「次のシーンを再生」等の所定のフレーズを含む場合に、次のシーンの再生を開始してもよい。
情報処理装置1は、会話を支援するための情報を画像表示装置2に表示させてもよい。図5は、情報処理装置1が会話を支援する方法を説明するための模式図である。
再生制御部131は、語学に関する動画像データを再生している場合に、検出部132が検出した発話の音声又は発話内容が当該語学の基準に合致しているか否かを判定する。語学の基準は、例えばユーザにより選択された言語における文法や発音である。そして再生制御部131は、判定結果を示す情報を、ヒント情報Hとして動画像データ上に表示させる。
これにより、情報処理装置1は、ユーザが語学学習に関する動画像データを見ながら会話をしている最中に、ユーザの発話に関する判定結果を提供でき、ユーザの語学学習の効率を向上させることができる。
また、再生制御部131は、動画像データを見ているユーザの視線に対応する注視点を特定する。この場合に、画像表示装置2は、動画像データを表示している間に、既知の視線特定方法を用いて、ユーザの視線の向きを特定し、特定した視線の向きを示す情報を情報処理装置1に送信する。情報処理装置1において、再生制御部131は、ユーザの視線の向きから、動画像データの表示範囲中の注視点の座標を特定する。
図5に示すように、再生制御部131は、複数の画像表示装置2が動画像データを表示している間に、複数の画像表示装置2に対応する複数のユーザそれぞれの視線に対応する複数の注視点Pを、動画像データ上に表示させる。再生制御部131は、複数のユーザの注視点Pを区別可能にするために、ユーザごとに異なる図形で注視点Pを表示することが望ましい。これにより、情報処理装置1は、複数のユーザ間でどこを見ているかを共有させ、複数のユーザ間で会話をしやすくすることができる。
さらに再生制御部131は、動画像データにおけるユーザの視線に対応する注視点の位置に関連付けられたキーワード(例えば注視点近傍の被写体の名称)を示す情報Kを、動画像データ上に表示させてもよい。再生制御部131は、例えば、記憶部12においてシーンごとに予め記憶されたキーワードのデータベースから注視点の座標に関連付けられたキーワードを特定し、又は注視点周辺の画像に対して既知のリアルタイム画像認識処理を実行することによってキーワードを特定する。これにより、情報処理装置1は、ユーザが見ている場所に関するキーワードをユーザに提供し、ユーザが会話をしやすくすることができる。
図6は、情報処理装置1が会話を支援する別の方法を説明するための模式図である。再生制御部131は、第1シーンにおいて検出部132がユーザの発話を検出しない期間が所定の長さ以上継続した場合に、動画像データの属性又は第1シーンに関連付けられたヒント情報Hを、動画像データ上に表示させる。再生制御部131は、例えば、記憶部12に記憶されたシーン情報に基づいて、第1シーンに写っている人物、動物、建物等の被写体の名称、又は第1シーンが撮像された場所のいずれかの情報を特定し、特定した情報に関するヒント情報H(例えば、「あの塔は何ですか?」という質問)を画像表示装置2に表示させる。また、再生制御部131は、動画像データの属性(例えば、観光案内)に関連付けられたヒント情報H(例えば、「どの地域の動画ですか?」という質問)を画像表示装置2に表示させてもよい。
再生制御部131は、同じ動画像データを見ている複数のユーザの複数の画像表示装置2に同じヒント情報Hを表示させてもよい。また再生制御部131は、ユーザの属性(例えば、語学学習の習熟度)に応じて、ユーザごとに異なるヒント情報Hを表示させたり、ヒント情報Hの表示有無を切り替えたりしてもよい。
このように情報処理装置1は、ユーザが会話をしていない場合に動画像データに関する情報をユーザに提供することによって、ユーザが積極的に会話をすることを支援できる。
情報処理装置1は、ボットBを用いてユーザの会話を支援してもよい。例えばユーザがボットBを所定時間以上見つめた場合、又はユーザがボットBを選択する操作を行った場合に、応答部133は、上述のヒント情報Hを、ボットBからの応答として画像表示装置2に出力させる。また、応答部133は、第1シーンにおいて検出部132がユーザの発話を検出しない期間が所定の長さ以上継続した場合に、ユーザに対して発話を促す情報(例えば、「〇〇さんはどう思いますか?」という質問)を、ボットBからの応答として画像表示装置2に出力させてもよい。
応答部133は、同じ動画像データを見ている複数のユーザのうち、検出部132が発話を検出したユーザに向くように、ボットBの外観を変更してもよい。このとき応答部133は、ユーザの発話に応じて、ボットBに所定のリアクション(例えば、頷きや相槌)を行わせてもよい。応答部133は、発話をしているユーザに対して出力する音声の音量を、発話をしているユーザ以外のユーザに対して出力する音声の音量よりも大きくしてもよい。これにより、情報処理装置1は、ユーザがボットBと会話をしていることをユーザにとってわかりやすくし、ユーザとボットBとの会話を促進できる。
応答部133は、同じ動画像データを見ている複数のユーザそれぞれに対応するアバタ画像(例えば、人型の画像の上半身)を、当該ユーザに対応する位置に表示させてもよい。応答部133は、ボットBが話し掛けているユーザのアバタ画像に向くように、ボットBの外観を変更してもよい。これにより、情報処理装置1は、ボットBがいずれのユーザに話し掛けているかをわかりやすくすることができる。
3人以上のユーザが同じ動画像データを見ている状況において、いずれかのユーザが他のユーザの名前を呼んだ場合、又はいずれかのユーザが他のユーザのアバタ画像を選択した場合に、応答部133は、当該他のユーザのアバタ画像に向くように、当該ユーザのアバタ画像の外観を変更してもよい。このとき、応答部133は、当該ユーザが当該他のユーザに話し掛けた音声の音量を大きくしてもよい。これにより、情報処理装置1は、ユーザがいずれのユーザに話し掛けているかをわかりやすくすることができる。
また、応答部133は、第1シーンにおいて複数のユーザ間の会話が終了したか否かを判定し、会話が終了したと判定した場合に、ボットBに「次のシーンに進めます」と応答させ、再生制御部131に第1シーンの後の第2シーンを再生させてもよい。
また、複数のユーザ同士の位置関係に応じて、音声の音量を調整してもよい。応答部133は、例えば、ボットBが発話をしているユーザに話し掛けている際に、当該ユーザの右側にいるユーザに対応する画像表示装置2において、左側スピーカの音量を大きくし、右側スピーカの音量を小さくする。これにより、情報処理装置1は、例えばボットBが左側のユーザに話し掛けていることを右側のユーザに知らせ、誰がボットBと会話をしているかをわかりやすくすることができる。
ユーザが動画像データの視聴を終了した後、再生制御部131は、画像表示装置2においてユーザにより指定されたシーン又は発話内容に対応する、記憶部12に記憶されたシーン及び発話を再生してもよい。すなわち、ユーザが見たいシーンや、発話したキーワードを指定すると、再生制御部131は過去に記憶されたシーン及び発話を再生し、画像表示装置2は再生された過去のシーン及び発話を表示する。これにより、情報処理装置1は、シーンごとにユーザが行った発話に関する情報をユーザに提供し、ユーザが復習することを支援できる。
[情報処理方法のシーケンス]
図7は、本実施形態に係る画像表示システムSが実行する情報処理方法のシーケンス図である。情報処理装置1において、再生制御部131は、一又は複数の画像表示装置2において表示するための再生対象の動画像データを再生する(S11)。ここで再生制御部131は、ストリーミング配信により再生対象の動画像データを画像表示装置に送信する。画像表示装置2は、ディスプレイ上で、情報処理装置1から受信した動画像データの表示を開始する(S12)。
ユーザは、画像表示装置2において動画像データを見ている最中に、当該動画像データを同時に見ている他のユーザと会話をする。画像表示装置2は、音声入力部を用いてユーザが発した音声を取得し、取得した音声を示す音声情報を情報処理装置1に送信する(S13)。
情報処理装置1において、再生制御部131が動画像データを再生している最中に、検出部132は、画像表示装置2から音声情報を受信し、受信した音声情報に基づいてユーザの発話を検出する(S14)。
応答部133は、検出部132が検出したユーザの発話に対して応答する応答内容を決定する(S15)。応答部133は、決定した応答内容を、画像表示装置2に送信する。画像表示装置2において、情報処理装置1から受信した応答内容をユーザに対して出力する。
ユーザは、応答部133による応答内容に対して、さらに会話をする。画像表示装置2は、音声入力部を用いてユーザが発した音声を取得し、取得した音声を示す音声情報を情報処理装置1に送信する(S16)。情報処理装置1において、再生制御部131が動画像データを再生している最中に、検出部132は、画像表示装置2から音声情報を受信し、受信した音声情報に基づいてユーザの発話を検出する(S17)。情報処理装置1がボットによる応答を行わない場合に、ステップS15~ステップS17は行われなくてもよい。
再生制御部131は、検出部132によるユーザの発話の検出結果に基づいて、第1シーンの次に再生するシーンを決定する(S18)。再生制御部131は、再生中の第1シーンにおいてユーザが発話していることを検出部132が検出した場合に、第1シーンを繰り返し再生し、ユーザが発話を終了したことを検出部132が検出した場合に、第1シーンより後の第2シーンを再生する。ここで再生制御部131は、ストリーミング配信により第1シーンの次に再生するシーンの動画像データを画像表示装置に送信する。
画像表示装置2において、現在表示中の第1シーンが終了すると、第1シーン又は第2シーンの表示を開始する(S19)。すなわち、情報処理装置1は、第1シーンにおいてユーザが発話をしている場合には、第1シーンが終了すると、再び第1シーンを再生する。一方、情報処理装置1は、第1シーンにおいてユーザが発話を終了した場合には、第1シーンが終了すると、第1シーンより後の第2シーンを再生する。
[実施形態の効果]
本実施形態に係る画像表示システムSによれば、情報処理装置1は、ユーザが会話を継続している最中には第1シーンを繰り返し再生し、ユーザが会話を終了したら第1シーンより後の第2シーンの再生を開始する。これにより、情報処理装置1は、ユーザが第1シーンに関する会話をしているにも関わらず異なるシーンに切り替わってしまい会話が中断することを抑制し、ユーザが会話をしながら動画を視聴しやすくすることができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
情報処理装置1及び画像表示装置2のプロセッサは、図7に示す情報処理方法に含まれる各ステップ(工程)の主体となる。すなわち、情報処理装置1及び画像表示装置2のプロセッサは、図7に示す情報処理方法を実行するためのプログラムを記憶部から読み出し、該プログラムを実行して画像表示システムSの各部を制御することによって、図7に示す情報処理方法を実行する。図7に示す情報処理方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。
S 画像表示システム
1 情報処理装置
12 記憶部
13 制御部
131 再生制御部
132 検出部
133 応答部
2 画像表示装置

Claims (12)

  1. ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生する再生制御部と、
    前記動画像データの再生中に前記ユーザの発話を検出する検出部と、
    を有し、
    前記再生制御部は、再生中の第1シーンにおいて前記ユーザが発話していることを前記検出部が検出した場合に、前記第1シーンを繰り返し再生し、前記ユーザが発話を終了したことを前記検出部が検出した場合に、前記第1シーンより後の第2シーンを再生する、
    情報処理装置。
  2. 前記検出部は、前記動画像データを再生している複数の前記ユーザ端末に対応する複数の前記ユーザ間の会話を、前記発話として検出する、
    請求項1に記載の情報処理装置。
  3. 前記ユーザの発話に応答する応答部をさらに有し、
    前記検出部は、前記ユーザと前記応答部との間の会話を、前記発話として検出する、
    請求項1又は2に記載の情報処理装置。
  4. 前記再生制御部は、前記ユーザ端末において選択された場所に関連付けられた前記動画像データを再生する、
    請求項1から3のいずれか一項に記載の情報処理装置。
  5. 前記再生制御部は、前記第1シーンにおいて前記検出部が前記発話を検出しない期間が所定の長さ以上継続した場合に、前記動画像データの属性又は前記第1シーンに関連付けられた情報を前記動画像データ上に表示させる、
    請求項1から4のいずれか一項に記載の情報処理装置。
  6. 前記検出部は、前記ユーザが発話をした発話期間の長さを測定し、
    前記再生制御部は、前記発話期間の長さに基づいて前記第2シーンを決定する、
    請求項1から5のいずれか一項に記載の情報処理装置。
  7. 前記再生制御部は、複数の前記ユーザ端末が前記動画像データを再生している間に、複数の前記ユーザ端末に対応する複数の前記ユーザそれぞれの視線に対応する複数の注視点を前記動画像データ上に表示させる、
    請求項1から6のいずれか一項に記載の情報処理装置。
  8. 前記再生制御部は、前記動画像データにおける前記ユーザの視線に対応する注視点の位置に関連付けられた情報を、前記動画像データ上に表示させる、
    請求項1から7のいずれか一項に記載の情報処理装置。
  9. 前記動画像データのシーンと、当該シーンごとに前記検出部が検出した前記発話とを関連付けて記憶する記憶部をさらに有し、
    前記再生制御部は、前記ユーザ端末において指定されたシーン又は発話内容に対応する、前記記憶部に記憶された前記シーン及び前記発話を再生する、
    請求項1から8のいずれか一項に記載の情報処理装置。
  10. 前記再生制御部は、語学に関する前記動画像データを再生し、
    前記再生制御部は、前記発話の音声又は発話内容が前記語学の基準に合致しているか否かを示す情報を、前記動画像データ上に表示させる、
    請求項1から9のいずれか一項に記載の情報処理装置。
  11. コンピュータを、
    ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生する再生制御部と、
    前記動画像データの再生中に前記ユーザの発話を検出する検出部と、
    として機能させ、
    前記再生制御部は、再生中の第1シーンにおいて前記ユーザが発話していることを前記検出部が検出した場合に、前記第1シーンを繰り返し再生し、前記ユーザが発話を終了したことを前記検出部が検出した場合に、前記第1シーンより後の第2シーンを再生する、
    プログラム。
  12. コンピュータが実行する、
    ユーザが利用しているユーザ端末において表示するための複数のシーンから構成される動画像データを再生するステップと、
    前記動画像データの再生中に前記ユーザの発話を検出するステップと、
    を有し、
    前記再生するステップでは、再生中の第1シーンにおいて前記ユーザが発話していることが前記検出するステップで検出された場合に、前記第1シーンを繰り返し再生し、前記ユーザが発話を終了したことが前記検出するステップで検出された場合に、前記第1シーンより後の第2シーンを再生する、
    を実行する情報処理方法。
JP2020160426A 2020-09-25 2020-09-25 情報処理装置、情報処理方法及びプログラム Active JP6867543B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020160426A JP6867543B1 (ja) 2020-09-25 2020-09-25 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020160426A JP6867543B1 (ja) 2020-09-25 2020-09-25 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP6867543B1 JP6867543B1 (ja) 2021-04-28
JP2022053669A true JP2022053669A (ja) 2022-04-06

Family

ID=75638940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020160426A Active JP6867543B1 (ja) 2020-09-25 2020-09-25 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6867543B1 (ja)

Also Published As

Publication number Publication date
JP6867543B1 (ja) 2021-04-28

Similar Documents

Publication Publication Date Title
US20210280185A1 (en) Interactive voice controlled entertainment
US11017779B2 (en) System and method for speech understanding via integrated audio and visual based speech recognition
US11222632B2 (en) System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
US11468894B2 (en) System and method for personalizing dialogue based on user's appearances
US11151997B2 (en) Dialog system, dialog method, dialog apparatus and program
CN107403011B (zh) 虚拟现实环境语言学习实现方法和自动录音控制方法
US8847884B2 (en) Electronic device and method for offering services according to user facial expressions
JP6541934B2 (ja) 音声対話機能を備えた携帯端末機及びその音声対話方法
US20140036022A1 (en) Providing a conversational video experience
CN112653902B (zh) 说话人识别方法、装置及电子设备
JP6585733B2 (ja) 情報処理装置
US11501768B2 (en) Dialogue method, dialogue system, dialogue apparatus and program
JP6654691B2 (ja) 情報処理装置
CN111696538A (zh) 语音处理方法、装置和介质
JP6833209B2 (ja) 発話促進装置
US8553855B2 (en) Conference support apparatus and conference support method
JP6867543B1 (ja) 情報処理装置、情報処理方法及びプログラム
KR20190004486A (ko) 더빙/증강현실을 이용한 참여형 대화훈련 학습 방법
CN111696536A (zh) 语音处理方法、装置和介质
JP2007108524A (ja) 音声入力評価装置及び方法並びにプログラム
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
JP7330518B2 (ja) ゲームシステム、ゲームシステムの制御方法及びゲームプログラム
KR20120031373A (ko) 학습 서비스 시스템 및 방법
WO2013181633A1 (en) Providing a converstional video experience
CN111696537A (zh) 语音处理方法、装置和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201008

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201008

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210408

R150 Certificate of patent or registration of utility model

Ref document number: 6867543

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150