JP7237895B2

JP7237895B2 - 情報処理装置、情報処理プログラム及び情報処理方法

Info

Publication number: JP7237895B2
Application number: JP2020130113A
Authority: JP
Inventors: 茂莉黒川; 朋子水元; 達也小西; 統新井田; 康孝西村
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2023-03-13
Anticipated expiration: 2040-07-31
Also published as: JP2022026573A

Description

本発明は、情報端末を制御するための情報処理装置、情報処理プログラム及び情報処理方法に関する。

特許文献１には、分析対象の人間、業務、時間等の情報と、それらの情報の属性とを関連付けて分析することによって、業務課題を特定するシステムが開示されている。

特開２０１３－２４６５２９号公報

ところで、被調査者の隠されたニーズや課題を抽出するために、調査者が被調査者との間で会話をしながら被調査者の環境を観察するエスノグラフィ（行動観察ともいう）という調査の手法が知られている。エスノグラフィにおいて、調査者は会話及び観察を主観的に関連付けて調査を進めて行く。そのため、調査者が被調査者の環境をどのように把握しているかは暗黙知となっており、被調査者の環境に含まれるいずれの領域が調査において重要であるかを外部から特定することは困難であった。

本発明はこれらの点に鑑みてなされたものであり、調査者が被調査者に対して行う調査のために、被調査者の環境において重要な領域を特定できるようにすることを目的とする。

本発明の第１の態様の情報処理装置は、被調査者と会話をしている調査者の視線を特定する視線特定部と、前記調査者と前記被調査者との前記会話を取得する会話取得部と、前記会話中に前記調査者及び前記被調査者を含む環境を撮像した撮像画像を取得する撮像画像取得部と、前記撮像画像の特徴を示す第１画像特徴量と、前記撮像画像の少なくとも一部の画像であって前記視線の先にあたる注視点を含む視線方向画像の特徴を示す第２画像特徴量と、前記会話の文の特徴を示す文特徴量とを機械学習することによって、第１時刻における前記第１画像特徴量から、前記第１時刻より後の第２時刻における前記第２画像特徴量及び前記文特徴量を予測し、さらに前記第２時刻における前記第１画像特徴量、予測された前記第２時刻における前記第２画像特徴量及び予測された前記第２時刻における前記文特徴量から、前記第２時刻より後の第３時刻における前記第２画像特徴量及び前記文特徴量を再帰的に予測するための予測モデルを生成する学習部と、前記予測モデルに新たな撮像画像を入力することによって予測された前記第２画像特徴量に対応する領域を示す情報を出力する出力部と、を有する。

前記学習部は、前記第２画像特徴量及び前記文特徴量それぞれの予測値と実測値との差を低減するように機械学習することによって、前記予測モデルを生成してもよい。

前記学習部は、前記会話の文の区切りに基づいて、前記第１時刻、前記第２時刻及び前記第３時刻を決定してもよい。

前記学習部は、前記第２画像特徴量及び前記文特徴量に加えて、前記会話の次の発話文の特徴を示す次文特徴量を予測するための前記予測モデルを生成してもよい。

前記学習部は、前記予測モデルにおいて前記次文特徴量に代えて前記被調査者の要望を推測するようにさらに学習することによって、前記要望を推測するための要望推測モデルを生成し、前記出力部は、前記要望推測モデルに新たな撮像画像を入力することによって推測された前記要望を示す情報を出力してもよい。

前記学習部は、前記要望の予測値と実測値との差を低減するように機械学習することによって、前記要望推測モデルを生成してもよい。

前記出力部は、前記撮像画像上に、予測された前記第２画像特徴量に対応する範囲を表示してもよい。

本発明の第２の態様の情報処理プログラムは、プロセッサに、被調査者と会話をしている調査者の視線を特定するステップと、前記調査者と前記被調査者との前記会話を取得するステップと、前記会話中に前記調査者及び前記被調査者を含む環境を撮像した撮像画像を取得するステップと、前記撮像画像の特徴を示す第１画像特徴量と、前記撮像画像の少なくとも一部の画像であって前記視線の先にあたる注視点を含む視線方向画像の特徴を示す第２画像特徴量と、前記会話の文の特徴を示す文特徴量とを機械学習することによって、第１時刻における前記第１画像特徴量から、前記第１時刻より後の第２時刻における前記第２画像特徴量及び前記文特徴量を予測し、さらに前記第２時刻における前記第１画像特徴量、予測された前記第２時刻における前記第２画像特徴量及び予測された前記第２時刻における前記文特徴量から、前記第２時刻より後の第３時刻における前記第２画像特徴量及び前記文特徴量を再帰的に予測するための予測モデルを生成するステップと、前記予測モデルに新たな撮像画像を入力することによって予測された前記第２画像特徴量に対応する領域を示す情報を出力するステップと、を実行させる。

本発明の第３の態様の情報処理方法は、プロセッサが実行する、被調査者と会話をしている調査者の視線を特定するステップと、前記調査者と前記被調査者との前記会話を取得するステップと、前記会話中に前記調査者及び前記被調査者を含む環境を撮像した撮像画像を取得するステップと、前記撮像画像の特徴を示す第１画像特徴量と、前記撮像画像の少なくとも一部の画像であって前記視線の先にあたる注視点を含む視線方向画像の特徴を示す第２画像特徴量と、前記会話の文の特徴を示す文特徴量とを機械学習することによって、第１時刻における前記第１画像特徴量から、前記第１時刻より後の第２時刻における前記第２画像特徴量及び前記文特徴量を予測し、さらに前記第２時刻における前記第１画像特徴量、予測された前記第２時刻における前記第２画像特徴量及び予測された前記第２時刻における前記文特徴量から、前記第２時刻より後の第３時刻における前記第２画像特徴量及び前記文特徴量を再帰的に予測するための予測モデルを生成するステップと、前記予測モデルに新たな撮像画像を入力することによって予測された前記第２画像特徴量に対応する領域を示す情報を出力するステップと、を有する。

本発明によれば、調査者が被調査者に対して行う調査のために、被調査者の環境において重要な領域を特定できるという効果を奏する。

実施形態に係る情報処理システムの模式図である。実施形態に係る情報処理装置のブロック図である。第１学習処理を説明するための模式図である。第２学習処理を説明するための模式図である。出力部が画像特徴量に対応する領域を示す情報を出力する方法を説明するための模式図である。出力部が被調査者の要望を示す情報を出力する方法を説明するための模式図である。実施形態に係る情報処理装置が実行する情報処理方法のフローチャートを示す図である。

［情報処理システムの概要］
図１は、本実施形態に係る情報処理システムＳの模式図である。情報処理システムＳは、情報処理装置１を含む。情報処理システムＳは、その他のサーバ、端末等の機器を含んでもよい。

情報処理装置１は、調査者の被調査者に対する調査に関するデータを学習し、学習結果を利用して予測又は推測された情報を出力するサーバ等のコンピュータである。調査者は、被調査者との間で会話をしながら被調査者の環境を観察する、すなわちエスノグラフィを行う人間である。被調査者は、調査者による調査の対象とする人間である。調査者は、被調査者との会話と、被調査者を含む環境の観察とを組み合わせて行うことによって、インタビューやアンケートのみから特定することが難しいような被調査者の隠されたニーズや課題を抽出することを試みる。

情報処理装置１は、撮像部１１と、音声入力部１２とを有する。撮像部１１は、例えば一又は複数のカメラを含む。撮像部１１は、調査者及び被調査者が滞在する部屋の内部等、調査者及び被調査者を含む環境を撮像する。また、撮像部１１は、撮像部１１と物体との間の距離を測定可能なレーザセンサや超音波センサ等の距離センサを含む。音声入力部１２は、例えば一又は複数のマイクロフォンを含む。音声入力部１２は、調査者と被調査者との会話を録音する。情報処理装置１は、複数の撮像部１１、及び複数の音声入力部１２を有してもよい。

［情報処理装置１全体の構成］
図２は、本実施形態に係る情報処理装置１のブロック図である。図２において、矢印は主なデータの流れを示しており、図２に示したもの以外のデータの流れがあってもよい。図２において、各ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図２に示すブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

情報処理装置１は、上述の撮像部１１及び音声入力部１２に加えて、記憶部１３と、制御部１４とを有する。情報処理装置１は、図２に示す具体的な構成に限定されない。情報処理装置１は、１つの装置に限られず、２つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。

記憶部１３は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスクドライブ等を含む記憶媒体である。記憶部１３は、制御部１４が実行するプログラムを予め記憶している。記憶部１３は、情報処理装置１の外部に設けられてもよく、その場合にネットワークを介して制御部１４との間でデータの授受を行ってもよい。

制御部１４は、撮像画像取得部１４１と、視線特定部１４２と、会話取得部１４３と、特徴抽出部１４４と、学習部１４５と、出力部１４６とを有する。制御部１４は、例えばＣＰＵ（Central Processing Unit）等のプロセッサであり、記憶部１３に記憶されたプログラムを実行することにより、撮像画像取得部１４１、視線特定部１４２、会話取得部１４３、特徴抽出部１４４、学習部１４５及び出力部１４６として機能する。制御部１４の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部１４の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。

［特徴抽出処理に係る構成］
調査者が被調査者に対する調査をしている間に、撮像部１１は、会話中に調査者及び被調査者を含む環境を撮像した撮像画像を、画像データとして記憶部１３に記憶させる。撮像画像は、動画像、又は定期的に撮像された複数の静止画像を含む。調査者が被調査者に対する調査をしている間に、音声入力部１２は、調査者と被調査者との会話を録音した音声データを記憶部１３に記憶させる。

情報処理装置１は、記憶部１３に記憶された画像データ及び音声データに対して以下に説明する特徴抽出処理を実行する。情報処理装置１は、例えば、調査者が情報処理装置１と通信可能な情報端末において所定の開始指示を行ったことを契機として、画像データ及び音声データに対する特徴抽出処理を開始する。

撮像画像取得部１４１は、記憶部１３に記憶された画像データから、会話中に調査者及び被調査者を含む環境を撮像した撮像画像を取得する。撮像画像は、環境の全体に対応しており、例えば３６０度画像である。また、撮像画像取得部１４１は、同じ時刻に撮像された複数の画像を１つの撮像画像としてもよい。時刻ｔにおける撮像画像を、全体画像Ｉ（ｔ）とする。

視線特定部１４２は、各時刻ｔにおいて、被調査者と会話をしている調査者の視線を特定する。視線特定部１４２は、例えば、予め記憶部１３に記憶された調査者の顔画像と、全体画像Ｉ（ｔ）とを比較することによって、調査者の視線を特定する。この場合に、視線特定部１４２は、視線方向δごとに撮像された調査者の参照用顔画像ＲＩ（δ）を記憶部１３から取得する。視線方向δは、調査者の視線の向きを表しており、例えば２次元又は３次元のベクトルである。ここで、参照用顔画像ＲＩ（δ）は目の領域に限定した画像でもよい。

視線特定部１４２は、全体画像Ｉ（ｔ）を走査することによって、参照用顔画像ＲＩ（δ）と最も合致する領域を検出し、合致度Ｓｉｍ（Ｉ（ｔ），ＲＩ（δ））を算出する。合致度Ｓｉｍ（Ｉ（ｔ），ＲＩ（δ））は、例えばコサイン類似度である。視線特定部１４２は、光の加減やその時の髪の色等の影響を取り除くため、Ｉ（ｔ）から抽出した輪郭とＲＩ（δ）から抽出した輪郭の合致度を算出してもよい。そして視線特定部１４２は、合致度Ｓｉｍ（Ｉ（ｔ），ＲＩ（δ））が最大になる視線方向δを、時刻ｔにおける調査者の視線方向δ（ｔ）として特定する。視線方向δ（ｔ）は、３次元空間の場合には、３次元の方向ベクトル（単位ベクトル）として表現されてもよい。

また、視線特定部１４２は、各時刻ｔにおいて、全体画像Ｉ（ｔ）の少なくとも一部の画像であって、特定した視線の先にあたる注視点を含む視線方向画像ＥＩ（ｔ）を特定する。注視点を含む視線方向画像ＥＩ（ｔ）は、調査者が被調査者と会話をしている間に観察した領域に対応している。

視線特定部１４２は、例えば、以下の方法で視線方向画像ＥＩ（ｔ）を特定する、ここで、撮像部１１を原点とした調査者の位置ベクトルをｐとする。
（ａ）視線特定部１４２は、調査者の視線方向δ（ｔ）の延長方向を、調査者の位置ベクトルと視線方向ベクトルのスカラー倍の和ｐ＋ｋδ（ｔ）として求め、これと環境に存在する物体との交点をｑとして求める。視線特定部１４２は、交点ｑを、環境の３Ｄモデルを事前に用意しその上での幾何学的演算により求めてもよいし、レーザセンサや超音波センサなどにより特定しても構わない。
（ｂ）視線特定部１４２は、既知の座標変換方法によって交点ｑを全体画像Ｉ（ｔ）上の位置ｑ’に変換する。
（ｃ）視線特定部１４２は、全体画像Ｉ（ｔ）上の位置ｑ’の周辺の格子領域を切り出し、視線方向画像ＥＩ（ｔ）を特定する。この際、視線特定部１４２は、既知のテクスチャマッピングの技術を用いて格子領域の画像を平面画像（矩形画像）に投影し、平面画像として視線方向画像ＥＩ（ｔ）を特定してもよい。

視線特定部１４２は、ここに例示した具体的な方法に限られず、その他の方法で調査者の視線方向δ（ｔ）及び視線方向画像ＥＩ（ｔ）を特定してもよい。

会話取得部１４３は、記憶部１３に記憶された音声データに対して既知の音声認識処理を実行することによって、調査者と被調査者との会話の文を取得する。また、会話取得部１４３は、音声データに代えて又は加えて、調査者によって入力された文字情報から会話の文を取得してもよい。

特徴抽出部１４４は、記憶部１３に記憶された画像データに対して既知の物体認識処理を実行することによって、全体画像Ｉ（ｔ）の特徴を示す画像特徴量（第１画像特徴量ともいう）と、視線方向画像ＥＩ（ｔ）の特徴を示す画像特徴量（第２画像特徴量ともいう）とを抽出する。画像特徴量は、例えば、物体の種類（本棚、テレビ等）、物体が含むコンテンツの種類（本棚の本、テレビの番組等）、物体の大きさ、物体の状態（整理されているか否か等）を示す情報である。画像特徴量は、例えば、連続値のベクトルによって表される。

なお、後述の学習部１４５において画像自体を画像特徴量として用いる場合には、特徴抽出部１４４は全体画像Ｉ（ｔ）及び視線方向画像ＥＩ（ｔ）から画像特徴量の抽出を行わなくてもよい。また、特徴抽出部１４４は、３６０度画像が円周状の画像であるため、これを平面画像（矩形画像）に変換した上で、当該平面画像から画像特徴量を抽出してもよい。具体的には、３６０度画像を格子領域に分割し、各領域を既知のテクスチャマッピングの技術を用いて平面画像に変換し、変換後の平面画像をつなぎあわせることで１枚の平面画像を構成してもよい。

また、特徴抽出部１４４は、会話取得部１４３が取得した会話の文に対して既知の形態素解析処理を実行することによって、会話の文の特徴を示す文特徴量を抽出する。特徴抽出部１４４は、例えば、「本読むとか、好きなんでしょ？」という会話の文を、形態素解析処理によって「本読むとか好きだのです？」に分割する。さらに特徴抽出部１４４は、形態素の中から一部の品詞を選択してもよい。特徴抽出部１４４は、例えば、名詞及び動詞を抽出する場合に、「本読む」を抽出する。

特徴抽出部１４４は、予め定義された語彙に基づいて、文特徴量を示すベクトルを取得する。特徴抽出部１４４は、例えば、「マンガ見る寝る本読む」という語彙が定義されている場合に、これらの語彙のうち「本」と「読む」が会話の文に含まれるため、文特徴量を示すマルチホットベクトルＳ（ｔ）＝｛０，０，０，１，１｝を取得する。同様の方法で、特徴抽出部１４４は、会話の次の発話文の特徴を示す次文特徴量を抽出する。

特徴抽出部１４４による画像特徴量、文特徴量及び次文特徴量の抽出が行われた後に、学習部１４５は、会話の次の発話文を予測するための予測モデルを生成するための第１学習処理と、被調査者の要望を推測するための推測モデルを生成するための第２学習処理とを実行する。

［第１学習処理に係る構成］
第１学習処理として、学習部１４５は、特徴抽出部１４４が抽出した画像特徴量及び文特徴量を機械学習することによって、画像特徴量及び文特徴量を再帰的に予測するための予測モデルを生成する。

図３は、第１学習処理を説明するための模式図である。図３において、ｘｔ、ｓｔ、ｅｔは、それぞれ時刻ｔにおける全体画像Ｉ（ｔ）の画像特徴量（第１画像特徴量）、文特徴量、及び視線方向画像ＥＩ（ｔ）の画像特徴量（第２画像特徴量）である。ｙは、次の発話文の特徴を示す次文特徴量である。

文特徴量及び次文特徴量は、例えば特徴抽出部１４４が取得したマルチホットベクトルＳ（ｔ）である。全体画像Ｉ（ｔ）及び視線方向画像ＥＩ（ｔ）の画像特徴量は、例えば、特徴抽出部１４４が抽出した全体画像Ｉ（ｔ）及び視線方向画像ＥＩ（ｔ）に含まれている物体の特徴を表すベクトル又は行列である。また、全体画像Ｉ（ｔ）及び視線方向画像ＥＩ（ｔ）の画像特徴量は、それぞれ全体画像Ｉ（ｔ）自体及び視線方向画像ＥＩ（ｔ）自体であってもよい。

学習部１４５は、各時刻ｔのｘｔ、ｓｔ、ｅｔを変換することによって潜在表現であるｈｔを算出する。学習部１４５は、ｈｔを変換することによって次の時刻ｔ＋１における会話の文の文特徴量及び視線方向画像ＥＩ（ｔ）の画像特徴量の推定値、すなわちｓ’ｔ＋１、ｅ’ｔ＋１を算出する。また、学習部１４５は、これを再帰的に繰り返し、最終的にｈｔを変換することよって次の時刻ｔ＋１における次の発話文の特徴を示す次文特徴量の推定値ｙ’を算出する。

学習部１４５による第１学習処理の計算過程の詳細を以下に説明する。ここでは学習部１４５が第１時刻ｔ－２、第２時刻ｔ－１、第３時刻ｔについて計算する例を説明するが、計算対象とする時刻の数は限定されない。学習部１４５は、例えば、会話の文の区切り（１回の発話が開始してから終了するまでの期間等）に基づいて、第１時刻ｔ－２、第２時刻ｔ－１及び第３時刻ｔを決定する。これにより、第１時刻ｔ－２、第２時刻ｔ－１及び第３時刻ｔはそれぞれ１つの文に対応する。

学習部１４５は、式（１）を用いて全体画像Ｉ（ｔ－２）の画像特徴量ｘｔ－２からｈｔ－２を算出する。以降の各式におけるＷ（ｘ→ｈ）等のパラメータは重み行列であり、学習によって最適化される。また、画像特徴量が画像自体の場合は、学習部１４５は、重み行列を用いた変換に代えて既知の畳み込み関数を用いた変換によりｈｔ－２を算出してもよい。

学習部１４５は、式（２）、式（３）を用いて、ｈｔ－２から文特徴量の推定値ｓ’ｔ－１、視線方向画像ＥＩ（ｔ－１）の画像特徴量の推定値ｅ’ｔ－１を算出する。以降の各式におけるＳｉｇｍｏｉｄ関数、ＲｅＬＵ関数は式（４）、式（５）によって表され、入力がベクトルの場合はベクトルの各要素にＳｉｇｍｏｉｄ関数、ＲｅＬＵ関数が適用される。また、学習部１４５は、Ｓｉｇｍｏｉｄ関数、ＲｅＬＵ関数に代えて、その他の活性化関数を適用してもよい。

学習部１４５は、式（６）を用いて、全体画像Ｉ（ｔ－１）の画像特徴量ｘｔ－１、文特徴量の推定値ｓ’ｔ－１、及び視線方向画像ＥＩ（ｔ－１）の画像特徴量の推定値ｅ’ｔ－１から、ｈｔ－１を算出する。

学習部１４５は、式（７）、式（８）を用いて、ｈｔ－１から文特徴量の推定値ｓ’ｔ、視線方向画像ＥＩ（ｔ－１）の画像特徴量の推定値ｅ’ｔを算出する。

学習部１４５は、式（９）を用いて、全体画像Ｉ（ｔ）の画像特徴量ｘｔ、文特徴量の推定値ｓ’ｔ、及び視線方向画像ＥＩ（ｔ）の画像特徴量の推定値ｅ’ｔから、ｈｔを算出する。式（２）～式（９）において出力値が再び入力値になることが繰り返されているため、本実施形態に係る学習処理は再帰的であるといえる。

学習部１４５は、式（１０）を用いて、ｈｔから次の発話文の特徴を示す次文特徴量の推定値ｙ’を算出する。

学習部１４５は、画像特徴量ｅｔ－１、ｅｔ、文特徴量ｓｔ－１、ｓｔ及び次文特徴量ｙそれぞれの予測値と実測値との差（すなわち、損失関数）を低減するように、式（１）～式（１０）を最適化する。実測値は、記憶部１３に記憶された画像データ及び音声データから抽出された正解値である。学習部１４５は、例えば、式（１１）に例示した損失関数Ｌを定義する。

式（１１）のλ１、λ２、λ３、λ４、λ５は、損失関数の各項を加重和するときの重みであり、全て１でもよく、又はハイパーパラメータとして調整されてもよい。式（１１）のbinary_crossentropyは２値交差エントロピーであり、mean_squared_errorは平均二乗誤差である。損失関数Ｌは、その他の式によって定義されてもよい。

学習部１４５は、損失関数Ｌを小さくするように、式（１）～式（１０）のＷ（ｘ→ｈ）等の各パラメータを最適化する。学習部１４５は、このように最適化した式（１）～式（１０）及びパラメータを、予測モデルとして記憶部１３に記憶させる。

このように、学習部１４５は、特徴抽出部１４４が抽出した画像特徴量及び文特徴量を機械学習することによって、第１時刻における撮像画像から、第１時刻より後の第２時刻における画像特徴量及び文特徴量を予測し、さらに第２時刻における撮像画像、予測された第２時刻における画像特徴量及び予測された第２時刻における文特徴量から、第２時刻より後の第３時刻における画像特徴量及び文特徴量を再帰的に予測するための予測モデルを生成する。

学習部１４５によって生成された予測モデルは、入力された全体画像Ｉ（ｔ）に対して、視線方向画像ＥＩ（ｔ）の画像特徴量及び会話の文の文特徴量を再帰的に予測しながら、最終的に次の発話文を予測できるように構成されている。したがって、全体画像Ｉ（ｔ）の中で予測モデルが途中経過として予測した画像特徴量に対応する領域は、調査者の被調査者に対する調査のために重要な領域、すなわち調査に対する貢献度が高い領域であると考えられる。そこで情報処理装置１は、後述の出力処理において、予測モデルによって予測された画像特徴量に対応する領域を示す情報を出力することによって、被調査者の環境において重要な領域を特定しやすくできる。

［第２学習処理に係る構成］
第２学習処理として、学習部１４５は、第１学習処理で生成した予測モデルを用いて転移学習することによって、被調査者の要望を推測するための要望推測モデルを生成する。被調査者の要望は、被調査者が欲する又は欲しない商品やサービス、被調査者が必要とする又は必要としない情報等である。要望の推測を行わない場合に、情報処理装置１は、第２学習処理を実行せず、第１学習処理のみを実行してもよい。

図４は、第２学習処理を説明するための模式図である。図４について、図３と異なる部分を以下に説明する。ｙは、次の発話文の特徴を示す次文特徴量の代わりに、被調査者の要望を示す値である。第２学習処理において、学習部１４５は、要望の予測値ｙ’と要望の実測値ｙとの差である損失関数Ｌｙを低減するように、予測モデルのパラメータを用いて機械学習する。要望ｙの実測値は、被調査者へのインタビューやアンケートによって予め収集され、記憶部１３に記憶された正解値である。

ここで学習部１４５は、予測モデルの最後のＷ（ｈ→ｙ）のみを調整し、それ以外の予測モデルのパラメータを固定しておく。これにより、学習部１４５は、予測モデルにおいて次の発話文を予測できるように調整されたパラメータを再利用して、次の発話文の代わりに被調査者の要望を推測可能な要望推測モデルを生成できる。また、学習部１４５は、最後のＷ（ｈ→ｙ）以外の予測モデルのパラメータを固定せず、更新しても構わない。この場合、第１学習処理で学習されたパラメータを初期値として用いることにより、効率的に要望推測モデルを生成できる。

学習部１４５によって生成された要望推測モデルは、入力された全体画像Ｉ（ｔ）に対して、視線方向画像ＥＩ（ｔ）の画像特徴量及び会話の文の文特徴量を再帰的に予測しながら、最終的に被調査者の要望を推測できるように構成されている。これにより情報処理装置１は、後述の出力処理において、調査者及び被調査者の会話と、調査者による被調査者の環境の観察とを学習した結果である要望推測モデルを用いて、被調査者の環境の撮像画像のみから被調査者の要望を推測できる。

［出力処理に係る構成］
出力部１４６は、学習部１４５が生成した予測モデルに新たな撮像画像を入力することによって予測された画像特徴量（第２画像特徴量）に対応する領域を示す情報を出力する。新たな撮像画像は、撮像部１１が被調査者を含む環境を撮像した画像である。被調査者は、予測モデルの学習時に用いたデータに係る被調査者と同じ人物であってもよく、異なる人物であってもよい。

出力部１４６は、予測モデルに、新たな撮像画像、すなわち新たな撮像画像の特徴を示す画像特徴量（第１画像特徴量）を入力する。そうすると、予測モデルは、図３に示したように、各時刻ｔの会話の文の文特徴量ｓ’ｔと、視線方向画像ＥＩ（ｔ）の画像特徴量ｅ’ｔとを予測して出力する。

出力部１４６は、撮像画像に対して既知の物体認識処理を実行し、撮像画像の中で、予測モデルが出力した画像特徴量（第２画像特徴量）に対応する範囲、すなわち予測モデルが出力した画像特徴量と同一又は類似の画像特徴量が検出される範囲を特定する。

図５は、出力部１４６が画像特徴量に対応する領域を示す情報を出力する方法を説明するための模式図である。出力部１４６は、調査者に関連付けられたスマートフォン等の情報端末の表示部において、撮像画像Ｉ上に、特定した画像特徴量に対応する範囲Ａを表示する。出力部１４６は、例えば、撮像画像Ｉ上で範囲Ａを示す枠線を表示し、又は範囲Ａ内の色や模様等の表示態様を範囲Ａ外の表示態様とは異ならせる。

これにより、情報処理装置１は、調査者に対して、被調査者を含む環境の撮像画像において、過去の会話及び観察を含む調査のデータを学習した結果に基づいて重要であると予測された領域を通知することができる。調査者は、被調査者の環境において重要な領域を容易に把握し、被調査者に対する調査を効率的に進めることができる。

また、出力部１４６は、学習部１４５が生成した要望推測モデルに新たな撮像画像を入力することによって予測された要望を示す情報を出力してもよい。新たな撮像画像は、撮像部１１が被調査者を含む環境を撮像した画像である。被調査者は、要望推測モデルの学習時に用いたデータに係る被調査者と同じ人物であってもよく、異なる人物であってもよい。

出力部１４６は、要望推測モデルに、新たな撮像画像、すなわち新たな撮像画像の特徴を示す画像特徴量（第１画像特徴量）を入力する。そうすると、要望推測モデルは、図４に示したように、要望ｙを推測して出力する。出力部１４６は、要望推測モデルが推測した要望ｙを示す情報を、文字、画像、音声等を用いて調査者又は被調査者に対して出力する。

図６は、出力部１４６が被調査者の要望を示す情報を出力する方法を説明するための模式図である。図６の例では、被調査者を含む環境に、上述の撮像部１１と音声出力部とを備えるロボットＲが配置されている。出力部１４６は、ロボットＲが備えるスピーカ等の音声出力部から、要望推測モデルが推測した要望を示す音声を出力する。また、出力部１４６は、スマートフォン等の情報端末を用いて、要望推測モデルが推測した要望を示す情報を出力してもよい。また、出力部１４６は、被調査者に代えて又は加えて、調査者に対して、要望推測モデルが推測した要望を示す情報を出力してもよい。

これにより、情報処理装置１は、調査者又は被調査者に対して、被調査者を含む環境の撮像画像を用いて、過去の会話及び観察を含む調査のデータを学習した結果に基づいて推測された被調査者の要望を通知することができる。これにより、調査者又は被調査者は、会話を行うことなく、被調査者の隠された要望を知ることができる。

［情報処理方法の説明］
図７は、本実施形態に係る情報処理装置１が実行する情報処理方法のフローチャートを示す図である。撮像画像取得部１４１は、記憶部１３に記憶された画像データから、会話中に調査者及び被調査者を含む環境を撮像した撮像画像を取得する（Ｓ１１）。時刻ｔにおける撮像画像を、全体画像Ｉ（ｔ）とする。

視線特定部１４２は、各時刻ｔにおいて、被調査者と会話をしている調査者の視線を特定する（Ｓ１２）。また、視線特定部１４２は、各時刻ｔにおいて、全体画像Ｉ（ｔ）の少なくとも一部の画像であって、特定した視線の先にあたる注視点を含む視線方向画像ＥＩ（ｔ）を特定する。会話取得部１４３は、記憶部１３に記憶された音声データに対して既知の音声認識処理を実行することによって、調査者と被調査者との会話の文を取得する（Ｓ１３）。

特徴抽出部１４４は、記憶部１３に記憶された画像データに対して既知の物体認識処理を実行することによって、全体画像Ｉ（ｔ）及び視線方向画像ＥＩ（ｔ）それぞれの特徴を示す画像特徴量を抽出する。また、特徴抽出部１４４は、会話取得部１４３が取得した会話の文に対して既知の形態素解析処理を実行することによって、会話の文の特徴を示す文特徴量を抽出する（Ｓ１４）。

学習部１４５は、特徴抽出部１４４が抽出した画像特徴量及び文特徴量に対して、会話の次の発話文を予測するための予測モデルを生成するための第１学習処理と、被調査者の要望を推測するための推測モデルを生成するための第２学習処理とを実行する（Ｓ１５）。

第１学習処理として、学習部１４５は、特徴抽出部１４４が抽出した画像特徴量及び文特徴量を機械学習することによって、画像特徴量及び文特徴量を再帰的に予測するための予測モデルを生成する。第２学習処理として、学習部１４５は、第１学習処理で生成した予測モデルを用いて転移学習することによって、被調査者の要望を推測するための要望推測モデルを生成する。

出力部１４６は、学習部１４５が生成した予測モデルに新たな撮像画像を入力することによって予測された画像特徴量に対応する領域を示す情報を出力する（Ｓ１６）。また、出力部１４６は、学習部１４５が生成した要望推測モデルに新たな撮像画像を入力することによって予測された要望を示す情報を出力してもよい。

［本実施形態の効果］
本実施形態に係る情報処理システムＳによれば、情報処理装置１は、機械学習をすることによって、入力された全体画像に対して、視線方向画像の画像特徴量及び会話の文の文特徴量を再帰的に予測しながら、最終的に次の発話文を予測できる予測モデルを生成する。全体画像の中で予測モデルが途中経過として予測した画像特徴量に対応する領域は、調査者の被調査者に対する調査のために重要な領域といえるため、情報処理装置１は、当該領域を調査者の被調査者に対する調査のために重要な領域として特定し、調査者に通知することができる。

また、情報処理装置１は、次の発話文を予測できる予測モデルにおいて要望を推測するように転移学習をすることによって、要望推測モデルを生成する。これにより、情報処理装置１は、調査者及び被調査者の会話と、調査者による被調査者の環境の観察とを学習した結果である要望推測モデルを用いて、被調査者の環境の撮像画像のみから被調査者の要望を推測できる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

情報処理装置１のプロセッサは、図７に示す情報処理方法に含まれる各ステップ（工程）の主体となる。すなわち、情報処理装置１のプロセッサは、図７に示す情報処理方法を実行するためのプログラムを記憶部１３から読み出し、該プログラムを実行して情報処理装置１の各部を制御することによって、図７に示す情報処理方法を実行する。図７に示す情報処理方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。

Ｓ情報処理システム
１情報処理装置
１４制御部
１４１撮像画像取得部
１４２視線特定部
１４３会話取得部
１４４特徴抽出部
１４５学習部
１４６出力部

Claims

被調査者と会話をしている調査者の視線を特定する視線特定部と、
前記調査者と前記被調査者との前記会話を取得する会話取得部と、
前記会話中に前記調査者及び前記被調査者を含む環境を撮像した撮像画像を取得する撮像画像取得部と、
前記撮像画像の特徴を示す第１画像特徴量と、前記撮像画像の少なくとも一部の画像であって前記視線の先にあたる注視点を含む視線方向画像の特徴を示す第２画像特徴量と、前記会話の文の特徴を示す文特徴量とを機械学習することによって、第１時刻における前記第１画像特徴量から、前記第１時刻より後の第２時刻における前記第２画像特徴量及び前記文特徴量を予測し、さらに前記第２時刻における前記第１画像特徴量、予測された前記第２時刻における前記第２画像特徴量及び予測された前記第２時刻における前記文特徴量から、前記第２時刻より後の第３時刻における前記第２画像特徴量及び前記文特徴量を再帰的に予測するための予測モデルを生成する学習部と、
前記予測モデルに新たな撮像画像を入力することによって予測された前記第２画像特徴量に対応する領域を示す情報を出力する出力部と、
を有する、情報処理装置。
前記学習部は、前記第２画像特徴量及び前記文特徴量それぞれの予測値と実測値との差を低減するように機械学習することによって、前記予測モデルを生成する、
請求項１に記載の情報処理装置。
前記学習部は、前記会話の文の区切りに基づいて、前記第１時刻、前記第２時刻及び前記第３時刻を決定する、
請求項１又は２に記載の情報処理装置。
前記学習部は、前記第２画像特徴量及び前記文特徴量に加えて、前記会話の次の発話文の特徴を示す次文特徴量を予測するための前記予測モデルを生成する、
請求項１から３のいずれか一項に記載の情報処理装置。
前記学習部は、前記予測モデルにおいて前記次文特徴量に代えて前記被調査者の要望を推測するようにさらに学習することによって、前記要望を推測するための要望推測モデルを生成し、
前記出力部は、前記要望推測モデルに新たな撮像画像を入力することによって推測された前記要望を示す情報を出力する、
請求項４に記載の情報処理装置。
前記学習部は、前記要望の予測値と実測値との差を低減するように機械学習することによって、前記要望推測モデルを生成する、
請求項５に記載の情報処理装置。
前記出力部は、前記撮像画像上に、予測された前記第２画像特徴量に対応する範囲を表示する、
請求項１から６のいずれか一項に記載の情報処理装置。
プロセッサに、
被調査者と会話をしている調査者の視線を特定するステップと、
前記調査者と前記被調査者との前記会話を取得するステップと、
前記会話中に前記調査者及び前記被調査者を含む環境を撮像した撮像画像を取得するステップと、
前記撮像画像の特徴を示す第１画像特徴量と、前記撮像画像の少なくとも一部の画像であって前記視線の先にあたる注視点を含む視線方向画像の特徴を示す第２画像特徴量と、前記会話の文の特徴を示す文特徴量とを機械学習することによって、第１時刻における前記第１画像特徴量から、前記第１時刻より後の第２時刻における前記第２画像特徴量及び前記文特徴量を予測し、さらに前記第２時刻における前記第１画像特徴量、予測された前記第２時刻における前記第２画像特徴量及び予測された前記第２時刻における前記文特徴量から、前記第２時刻より後の第３時刻における前記第２画像特徴量及び前記文特徴量を再帰的に予測するための予測モデルを生成するステップと、
前記予測モデルに新たな撮像画像を入力することによって予測された前記第２画像特徴量に対応する領域を示す情報を出力するステップと、
を実行させる、情報処理プログラム。
プロセッサが実行する、
被調査者と会話をしている調査者の視線を特定するステップと、
前記調査者と前記被調査者との前記会話を取得するステップと、
前記会話中に前記調査者及び前記被調査者を含む環境を撮像した撮像画像を取得するステップと、
前記撮像画像の特徴を示す第１画像特徴量と、前記撮像画像の少なくとも一部の画像であって前記視線の先にあたる注視点を含む視線方向画像の特徴を示す第２画像特徴量と、前記会話の文の特徴を示す文特徴量とを機械学習することによって、第１時刻における前記第１画像特徴量から、前記第１時刻より後の第２時刻における前記第２画像特徴量及び前記文特徴量を予測し、さらに前記第２時刻における前記第１画像特徴量、予測された前記第２時刻における前記第２画像特徴量及び予測された前記第２時刻における前記文特徴量から、前記第２時刻より後の第３時刻における前記第２画像特徴量及び前記文特徴量を再帰的に予測するための予測モデルを生成するステップと、
前記予測モデルに新たな撮像画像を入力することによって予測された前記第２画像特徴量に対応する領域を示す情報を出力するステップと、
を有する、情報処理方法。