JP2020038433A

JP2020038433A - 画像解析装置、画像解析方法、およびプログラム

Info

Publication number: JP2020038433A
Application number: JP2018164409A
Authority: JP
Inventors: 伸幸清水; Nobuyuki Shimizu; 崇史宮崎; Takashi Miyazaki; ミンタオレ; Minh Dao Le
Original assignee: Z Holdings Corp
Current assignee: LY Corp
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2020-03-12
Also published as: JP2022106887A; JP7354344B2

Abstract

【課題】画像に含まれる発話者と発話内容とに基づいて、発話相手を適切に推測することができる画像解析装置、画像解析方法、およびプログラムを提供すること。【解決手段】発話者が含まれる画像と、前記発話者の発話内容の予測結果とを取得する取得部と、前記画像および前記発話内容の予測結果に基づいて、前記発話者が発話する対象の発話相手を推定する発話相手推測部と、を備える画像解析装置。【選択図】図１

Description

本発明は、画像解析装置、画像解析方法、およびプログラムに関する。

従来、人物を撮像した画像の特徴（例えば、発話前に確認される癖や表情）と、その特徴が確認された際に発話する確率とを学習した学習結果に基づいて、発話者が実際に話す前に発話者を予測することで、ＴＶ会議システムなどでマイク、カメラ等の円滑なスイッチングを実現する技術が知られている（特許文献１参照）。

また、画像に映る人物の目線を検出する技術が知られている（非特許文献１参照）。

特開２００７−１４７７６２号公報

Recasens、外３名、Massachusetts Institute of Technology, "Where are they looking?"、[online], [平成３０年７月２日検索]、インターネット＜ＵＲＬ：http://people.csail.mit.edu/khosla/papers/nips2015_recasens.pdf＞

しかしながら、従来の技術では人物を撮像した画像から、発話者と発話相手とを推測するには至っていなかった。

本発明は、このような事情を考慮してなされたものであり、画像に含まれる発話者と発話内容とに基づいて、発話相手を適切に推測することができる画像解析装置、画像解析方法、およびプログラムを提供することを目的の一つとする。

本発明の一態様の画像解析装置は、発話者が含まれる画像と、前記発話者の発話内容の予測結果とを取得する取得部と、前記画像および前記発話内容の予測結果に基づいて、前記発話者が発話する対象の発話相手を推定する発話相手推測部と、を備える画像解析装置である。

本発明の一態様によれば、画像の被写体である発話者と発話内容とに基づいて、発話相手を適切に推測することができる画像解析装置、画像解析方法、およびプログラムを提供することができる。

実施形態の画像解析装置１００の使用環境を示す図である。視線先位置推定部１３２の視線検出方法について説明する図である。視線先位置推定部１３２により視線が検出された結果の一例を示す図である。発話内容推測部１４０による発話者の発話内容の推測手順を示す図である。視線先位置推定部１３２、および発話内容推測部１４０による処理の流れを模式的に示す図である。画像解析装置１００による推測処理の流れの一例を示すフローチャートである。第２の実施形態の画像解析装置１００Ａの概要図である。画像解析装置１００Ａによる推測処理の流れの一例を示すフローチャートである。

以下、図面を参照し、本発明の画像解析装置、画像解析方法、およびプログラムの実施形態について説明する。

［概要］
画像解析装置は、一以上のプロセッサにより実現される。画像解析装置は、１以上の人物が撮像された１以上の画像と、その画像における発話者および発話内容を取得し、その取得した情報に基づいて、発話相手（発話者が話しかけている相手）を推測する。なお、画像は動画であってもよい。また、画像には、撮像日時情報や地理情報等が付随していてもよい。

画像解析装置は、画像の特徴、発話者の特徴、および発話内容に基づいて、発話相手を推測する。発話相手は、画像に撮像された人物であってもよいし、画像に含まれない人物（例えば、画像を撮像した人物や、画像から想定される実空間に存在する人物）であってもよい。これによって、画像解析装置は、人物を撮像した画像から発話者と発話相手とを推測することができる。

＜第１実施形態＞
［全体構成］
図１は、第１実施形態の画像解析装置１００の使用環境および構成の一例を示す図である。画像解析装置１００は、ネットワークＮＷを介して依頼元端末２００と通信する。ネットワークＮＷは、例えば、インターネット、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、プロバイダ端末、無線通信網、無線基地局、専用回線などを含む。依頼元端末２００は、例えば、通信機能などを有するコンピュータ装置である。通信機能は、ＮＩＣ（Network Interface Card）などのネットワークカード、無線通信モジュールなどにより実現される。

画像解析装置１００は、例えば、取得部１１０と、特徴量導出部１２０と、発話者推定部１３０と、発話内容推測部１４０と、発話相手推測部１５０と、出力部１６０と、記憶部１７０とを備える。これらの構成要素は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

取得部１１０は、１以上の人物が含まれる１以上の画像を、依頼元端末２００から取得する。取得部１１０は、取得した画像を特徴量導出部１２０に出力する。以下、画像は人物を撮像したものとする。

特徴量導出部１２０は、画像の特徴量を導出する。特徴量とは、画像を解析することにより算出される数値（ベクトルや行列を含む）その他のデジタルデータである。画像の特徴量は、例えば、輝度、色、明度分布、彩度、色比率、人物の顔の各パーツ（目、鼻、口、眉、顎、髪など）の形状やサイズなどである。なお、特徴量導出部１２０は、画像に撮像された人物の属性を識別して、その人物の特徴量を導出してもよい。人物の属性とは、例えば、人物の年齢、性別、職業、パターン化された表情（怒り顔、笑顔など）である。また、取得部１１０が取得した画像が複数枚の連続した画像である場合や、動画である場合、人物の特徴量には、人物の基準位置（頭部あるいは体の重心など）の移動ベクトル、人物の形態変化（例えば、表情の変化や身振り）や、画像に音声が対応付けられている場合には音声に基づく特徴量（例えば、声の大きさ、高さ、抑揚等）が含まれてもよい。

なお、特徴量導出部１２０は、導出した特徴量に基づいて、画像から連想される場面タイトルを特徴量として導出してもよい。場面タイトルとは、画像を端的に説明するものであり、例えば、「学校」、「オフィス」のように場所を示したり、「上司と部下」、「教員と生徒」のように画像に撮像された人物の関係を示したりするものである。特徴量導出部１２０は、導出した特徴量を発話者推定部１３０、視線先位置推定部１３２および発話内容推測部１４０に出力する。

発話者推定部１３０は、特徴量導出部１２０により出力された特徴量に基づいて、画像における発話者を推定する。発話者推定部１３０は、例えば、画像に撮像された人物が１名である場合には、その人物を発話者として発話内容を推定する。また、発話者推定部１３０は、例えば、画像に撮像された人物が２名以上である場合には、人物のうち、視線の先の位置（その位置にある人物）に基づいて、発話者を推定する。また、発話者推定部１３０は、例えば、撮像された他の人物が口を閉じている中で、１名だけ口を開けている場合、その口を開けている人物を発話者であると推定する。

発話者推定部１３０は、例えば、視線先位置推定部１３２を備える。視線先位置推定部１３２は、特徴量導出部１２０により出力された特徴量と、発話者推定部１３０により推定された発話者とに基づいて、発話者の視線の先の位置（視線先位置）を推定する。視線先位置推定部１３２が推定する視線先位置は、画像平面上の位置でもよいし、画像から想定される実空間上の位置でもよい。

なお、視線先位置推定部１３２は、画像から人物を検出した場合であっても、その人物の瞳の一部または全部が確認できない場合（例えば、画像に映るのが人物の後ろ姿である場合や、画像に映る人物が項垂れていて顔が映り込んでない場合等）、視線を推定しないものとしてよい。視線先位置推定部１３２による視線先位置推定方法については後述する。視線先位置推定部１３２は、推定した視線先位置情報を発話内容推測部１４０に出力する。

発話内容推測部１４０は、特徴量導出部１２０により出力された特徴量、発話者推定部１３０により推定された発話者、および視線先位置推定部１３２により推定された人物の視線先位置に基づいて、発話者の発話内容を推測する。発話内容には、話題に挙がる目的語や、話題の方向性（例えば、ポジティブな内容か、ネガティブな内容か）の情報が含まれる。

発話内容推測部１４０は、推測した発話者および発話内容を発話相手推測部１５０および出力部１６０に出力する。

発話相手推測部１５０は、発話内容推測部１４０により出力された発話内容が誰に対するものであるかを推測する。発話相手推測部１５０は、画像に撮像された人物が２名である場合、発話者でない人物を発話相手であると推測する。発話相手推測部１５０は、画像に撮像された人物が３名以上である場合、例えば、発話者の視線に基づいて発話相手を推測する。発話相手推測部１５０は、画像に撮像された人物が１名である場合、例えば、特徴量導出部１２０により導出された場面タイトルに基づいて発話相手を推測する。発話相手推測部１５０は、推測した発話相手を出力部１６０に出力する。

出力部１６０は、発話内容推測部１４０により出力された発話内容、および発話相手推測部１５０により出力された発話相手を図１に示す依頼元端末２００に出力する。

記憶部１７０は、発話推測情報１７１を記憶する。発話推測情報１７１とは、発話内容推測部１４０により参照され、発話内容の参考情報として用いられる文章情報、および発話内容の文脈に関する情報を含むものである。

発話内容推測部１４０は、推測結果を発話推測情報１７１として記憶させることで、発話内容推測部１４０による推測結果を学習させてもよい。また、発話推測情報１７１には、特徴量導出部１２０により導出される場面タイトルが含まれていてもよい。また、発話内容推測部１４０は、発話推測情報１７１として、図１に示すネットワークＮＷを介して、発話内容の参考情報として用いられる文章情報や、発話内容の文脈に関する情報を他の情報源を学習させてもよい。

［視線推定］
図２は、視線先位置推定部１３２の視線先位置推定方法について説明する図である。図３に示す視線先位置推定方法は、例えば、以下の４段階の手順により実現される。なお、下記の手順（ａ）と手順（ｂ）は並行して行われてもよいし、いずれか一方の処理の終了後に他方の処理が実施されてもよい。
（ａ）物標検出
（ｂ）被写体人物頭部・瞳位置分析
（ｃ）視線演算
（ｄ）視線先位置（グリッド）推定

以下、（ａ）〜（ｄ）の各手順について説明する。

（ａ）物標検出
視線先位置推定部１３２は、被写体の人物、および被写体の人物の視線の先に当たる物標の候補を、画像（以下、画像ｘ_ｉ）内の視線先位置推定対象である被写体の人物の映り込む部分を除いた画像全体から検出する。物標とは、視線を誘引される可能性がある物体・人物・生物等の対象物をいう。

物標の検出は、例えば、ＶＧＧＮｅｔ等の畳み込みニューラルネットワーク（Convolutional Neural Network；ＣＮＮ）などを利用した導出器１によって実現される。導出器１は、予め機械学習によって生成されたものである。視線先位置推定部１３２は、画像ｘ_ｉからサイズＤ×Ｄの顕著性マップＳ（ｘ_ｉ）を導出する。

（ｂ）被写体人物頭部・瞳位置分析
視線先位置推定部１３２は、被写体の人物の顔の向きや瞳の位置に基づいて、視線の方向を推定する。視線先位置推定部１３２は、視線の方向の推定のため、畳み込みニューラルネットワークなどを利用した導出器２を用いて、画像ｘ_ｉから顕著性マップＳ（ｘ_ｉ）とは別の空間マップである、サイズＤ×Ｄの視線マスクマップＧ（ｘ_ｈ，ｘ_ｐ）を導出する。導出器２は、導出器１と同様に、予め機械学習によって生成されたものである。ｘ_ｐは、画像ｘ_ｉ内での被写体の人物の頭の位置または瞳の位置を示すパラメータ（例えば、座標）である。またｘ_ｈは、ｘ_ｐの導出によって得られた画像ｘ_ｉ内での被写体の人物の頭の位置、または瞳の位置を拡大処理した際の拡大程度を表す画像パラメータである。

（ｃ）視線演算
視線先位置推定部１３２は、手順（ａ）の物標の検出結果である顕著性マップＳ（ｘ_ｉ）、および（ｂ）の視線の方向の分析結果である視線マスクマップＧ（ｘ_ｈ，ｘ_ｐ）に基づいて、被写体の人物の方向を演算し、被写体の視線先位置を推定する。ここで、被写体の人物が複数存在する場合には、瞳の位置が推定できるすべての人物の視線先位置を推定してもよいし、発話者推定部１３０がすでに発話者を推定している場合にはその人物の視線先位置を推定してもよい。

視線先位置推定部１３２は、例えば、ＶＧＧＮｅｔを利用して下記の式（１）のように、顕著性マップＳ（ｘ_ｉ）と視線マスクマップＧ（ｘ_ｈ，ｘ_ｐ）との要素ごとの積（element-wise product）を演算することによって、被写体の視線先位置ｙ（ハット）（式（１）の左辺）を演算する。

なお、式（１）の右辺のＦ（）は、顕著性マップＳ（ｘ_ｉ）と視線マスクマップＧ（ｘ_ｈ，ｘ_ｐ）との要素ごとの積から、畳み込みニューラルネットワークにおけるＦＣ層（Fully Connected Layer；最終的な判定を行う層）のパラメータを予め導出しておくための関数である。

（ｄ）視線先位置（グリッド）推定
視線先位置推定部１３２は、手順（ｃ）の演算結果に基づいて、被写体の人物の視線先位置ｙ（ハット）を推定する。視線先位置推定部１３２は、被写体の人物の視線先位置ｙ（ハット）の推定のため、視線マスクマップＧ（ｘ_ｈ，ｘ_ｐ）のみを用いてもよいし、視線マスクマップＧ（ｘ_ｈ，ｘ_ｐ）の導出とは異なる演算モデルを用いて演算を実施し、複数の演算結果を統合することで被写体の人物の視線先位置である領域（グリッド）を推定してもよい。

また、視線先位置推定部１３２は、被写体の人物の顔を正面から撮像し、その人物がカメラの方を向いている場合（いわゆるカメラ目線である場合）には、「視線の先の位置は撮像者である」と推定してもよい。また、視線先位置推定部１３２は、被写体の人物の顔を認識した場合であり、その人物が虚空に目線を向けている場合には、何も見ていないものとしてもよいし、画像外の不特定の人物に対する目線であるものとしてもよい。

図３は、視線先位置推定部１３２により視線先位置が推定された結果の一例を示す図である。例えば、視線先位置推定部１３２は、図３の右側の人物の視線先位置を推定し、どの人物に対して視線先位置を推定したかの推定結果を顔の上の丸印で示す。なお、画像解析装置１００は、視線先位置推定部１３２によって視線先位置を推定した右の人物を、発話者であるものとして、発話内容の推測を行う。

視線先位置推定部１３２による視線先位置推定処理は、下記の式（２）〜（５）により示すことができる。

式（２）において、ａは受信者区分（addressee class；発話者の視線の先が画像ｘ_ｉ内の物標であるか、撮像者であるか、それ以外であるかを示す分類区分）を示し、Ｉ_１は顕著性マップＳ（ｘ_ｉ）によって得られる特徴量を示し、Ｉ_２は視線マスクマップＧ（ｘ_ｈ，ｘ_ｐ）によって得られる発話者特徴量を示し、θはＬＳＴＭ言語モデルｐ（ａ｜Ｉ_１，Ｉ_２，Ｓ_１，…，Ｓ_Ｔ）におけるモデルパラメータを示す。発話内容を構成する単語Ｓ_１‐Ｓ_Ｔはベクトル値によって示される。単語Ｓ_１‐Ｓ_Ｔは予め用意された多数の候補から抽出されたものである。また、argmaxは対象項を最大にするパラメータを求める関数であり、ｐ（）は視線先位置推定モデルを示す式であり、１以上のモダリティストリームを含むものである。モダリティストリームとは、話している内容に対する話し手の判断や感じ方を表す言語表現モデルの構成要素の一部のことである。モダリティストリームとは、例えば、saliency-estimation-feature stream、speaker-appearance-feature stream、utterance-based- feature streamと称されるものである。発話内容推測部１４０は、例えば、発話者の表情や仕草に応じて発話内容に反映する単語Ｓ_１‐Ｓ_Ｔの抽出方法を選択したり、抽出元となる単語群を発話推測情報１７１から選択したりする。θ*はｐ（）を最大にするパラメータθを示す。また、Ｔは発話内容の単語の数を示す正の整数である。発話内容推測部１４０は、式（２）に示す関係をモデル化するため、例えば、式（３）〜（５）を用いて、モダリティストリーム毎に１つずつモデル化する。

式（３）〜（５）において、Ｗ_１およびＷ_２はネットワークパラメータであり、ｂ_１およびｂ_２はバイアス値であり、ＲｅＬＵ（Rectified Linear Unit）は、正規化線形関数であり、ｃｏｎｃａｔは、結合関数である。発話内容推測部１４０は、顕著性マップＳ（ｘ_ｉ）を式（３）で、視線マスクマップＧ（ｘ_ｈ，ｘ_ｐ）を式（４）で処理し、その処理結果を式（５）で統合する。式（５）のｃｏｎｃａｔは、ベクトルを結合する関数である、ｃｏｎｃａｔｅｎａｔｅ関数を示す。

［発話内容推測］
発話内容推測部１４０による発話内容の推測処理は、例えば、以下の２段階の手順により実現される。
（ｅ）画像全体分析
（ｆ）発話内容推測

以下、（ｅ）〜（ｆ）の各手順について説明する。

（ｅ）画像全体分析
発話内容推測部１４０は、例えば、画像ｘ_ｉに映り込む人物、物標、背景等の物標を分析する。発話内容推測部１４０は、特徴量導出部１２０の導出結果を用いて物標を分析してもよい。

発話内容推測部１４０は、例えば、発話者推定部１３０によって画像ｘ_ｉに映り込む人物から発話者を推測された結果に基づいて、画像ｘ_ｉにおいてその発話者の映り込む部分を分析する。なお、発話内容推測部１４０は、発話内容の予測に視線先位置推定部１３２による視線先位置の推定結果の一部または全部を用いてもよいし、依頼元端末２００による視線の入力を取得した結果を用いてもよい。

（ｆ）発話内容推測
発話内容推測部１４０は、例えば、手順（ｅ）で分析された物標を示す単語や、それらから連想される単語に基づいて、発話者の発話しそうな文章を構成することで、発話者の発話内容を推測する。

発話内容推測部１４０による発話内容推測は、例えば、ＬＳＴＭ(Long short-term memory)言語モデルにより実現される。ＬＳＴＭ言語モデルとは、学習内容を長期的に活用する再帰型ニューラルネットワーク(ＲＮＮ）により実現されるモデルであり、例えば、演算過程が累積記憶して以後の計算に用いられる。ＬＳＴＭ言語モデルを用いて処理を行う方法は、イメージ・キャプショニング（Image Captioning;画像説明文自動生成）方法と称される場合がある。なお、ＬＳＴＭ言語モデルは、注意モデル（Attention Model；例えば、発話者や発話者の視線を示す画像ｘ_ｉの一部分に注目を向けさせる補完情報）で拡張されてもよい。

図４は、発話内容推測部１４０によって推測された発話内容の構成を示す図である。発話内容推測部１４０は、例えば、図３に示す画像ｘ_ｉから、２名の人物が船上にいる様子であり、出航準備中であるものとして、“Are you ready for leave port?”という発話内容を推測するものとして、その推測方法を説明する。

例えば、図４の上図に示す一般的なニューラルネットワーク言語モデルに基づいて文章が構成される場合、文章を構成する第４単語Ｓ_４（文頭から４つ目の単語）の“for”を導出する過程において、入力データとして第４単語の直前に用いられる第３単語Ｓ₃（文頭から３つ目の単語）の“ready”のみが用いられる。

一方、図４の下図に示すＬＳＴＭ言語モデルに基づいて文章が構成される場合、文章を構成する第４単語を導出する過程において、第１単語〜第３単語(“Are you ready”)を入力データとして、第４単語が導出される。したがって、ＬＳＴＭ言語モデルは、連続する言葉の並びに基づいて次に出現させる言葉を推測することができ、単語や文の並びの妥当性を高めることができる。

発話内容推測部１４０による発話内容推測処理は、例えば、下記の式（６）〜（８）により示すことができる。

式（６）において、ｔは時間であり、ｘ_ｔは時間ｔにおけるインプット情報（すなわち、視線先位置推定部１３２による視線先位置推定結果や単語Ｓ_ｔ）であり、ｕ_ｔは時間ｔにおける組み込みベクトルであり、ｈ_ｔ−１は時間ｔ−１における隠れ状態を示す。式（６）の右辺は、ｕ_ｔおよびｈ_ｔ−１をＬＳＴＭ言語モデルにて演算することを示す。式（８）の右辺は、ネットワークパラメータＷ_ｆｕとインプット情報ｘ_ｆｕの積にバイアス値ｂ_ｆｕを加算するソフトマックス関数を示す。ソフトマックス関数は、下記の式（９）の演算を行うものである。式（９）において、ｖはベクトルである。

［発話相手推測］
発話相手推測部１５０は、例えば、視線先位置推定部１３２によって発話者の視線先位置が推定されていない場合、発話内容推測部１４０により推測された発話内容に基づいて、発話相手を推測する。

発話相手推測部１５０による発話相手の推測は、下記の数式（１０）〜（１５）により示すことができる。

式（１４）および式（１５）は、ＬＳＴＭ言語モデルのステータスｃ_ｔおよびｈ_ｔを導出する式である。式（１４）において、ｉ_ｔは入力ゲート（Input gate）であり、ｇ_ｔは入力調整ゲート（input modulation gate）であり、ｏ_ｔは出力ゲート（Output gate）であり、ｆ_ｔは忘却ゲート（forgetting gate）である。また、式（１０）〜（１２）のシグモイド関数σ（）は、σ（ｘ）＝（１＋ｅ^―ｘ）^−１の関係を示す。また、式（１３）および（１５）のφ（）は、複素数の双曲線関数（hyperbolic tangent function）を示すものであり、φ（ｘ）＝（ｅ^ｘ−ｅ^―ｘ）／（ｅ^ｘ＋ｅ^―ｘ）の関係を示す。式（１４）および式（１５）の右辺の丸内に黒丸を収めた記号は、２つのベクトル値の要素ごとの積（あだマール積）を示す。

なお、発話相手推測部１５０は、視線先位置推定部１３２によって発話者の視線先位置が推定されている場合、その推定結果に基づいて発話相手を推測してもよい。例えば、発話相手推測部１５０は、視線先位置推定部１３２によって発話者の視線先位置が推定されており、画像ｘ_ｉにおいて発話者の視線の先に当たる位置に人物が映り込む場合、発話者の視線先位置の人物を発話相手である可能性が高いものとして推測する。また、例えば、発話相手推測部１５０は、視線先位置推定部１３２によって発話者の視線先位置が推定されており、画像ｘ_ｉにおいて発話者の視線先位置に人物が映り込み、その人物の視線が発話者の方向に向けられている場合（図４のように、人物同士の目が合っている場合）、発話者の視線先位置の人物を発話相手であると推測する。

また、発話相手推測部１５０は、発話相手の推測結果と、視線先位置推定部１３２によって発話者の視線先位置の物標とを照合することで、発話相手の推測精度を検証してもよい。発話相手推測部１５０は、例えば、発話相手の推測結果と、視線先位置推定部１３２によって発話者の視線の先の物標とがアンマッチである場合に、発話内容推測部１４０に処理を戻し、発話内容推測を再実施してもよい。

図５は、視線先位置推定部１３２、および発話内容推測部１４０による処理の流れを模式的に示す図である。なお、図５の上部分は図２に示した視線先位置推定処理の詳細を示すものである。

視線先位置推定部１３２は、画像ｘ_ｉ全体および、視線先位置推定部１３２により視線先位置が推定された発話者の頭部または瞳の位置の情報を、それぞれＶＧＧＮｅｔ等の畳み込みニューラルネットワークを利用した機械学習による演算結果を結合することにより視線推定を行う。次に、発話内容推測部１４０は、ＬＳＴＭ言語モデルを用いて発話内容を推測する。画像解析装置１００は、これらの演算結果を統合し、依頼元端末２００に出力する。

［処理フロー］
図６は、画像解析装置１００による推測処理の流れの一例を示すフローチャートである。まず、取得部１１０は、依頼元端末２００より画像ｘ_ｉを取得し、特徴量導出部１２０に出力する（Ｓ１００）。次に、特徴量導出部１２０は、画像ｘ_ｉの特徴量を導出する（Ｓ１０２）。次に、視線先位置推定部１３２は、画像ｘ_ｉにおける発話者を推測し、発話者の視線先位置を推定する（Ｓ１０４）。次に、発話内容推測部１４０は、発話内容を推測する（Ｓ１０６）。次に、発話相手推測部１５０は、発話相手を推測する（Ｓ１０８）。次に、出力部１６０は、推測結果を依頼元端末２００に出力する（Ｓ１１０）。以上、本フローチャートの処理の説明を終了する。

以上説明したように、画像解析装置１００は、発話者の映り込む画像ｘ_ｉを取得する取得部１１０と、画像ｘ_ｉに映り込む発話者の視線の先の位置を推定する視線先位置推定部１３２と、画像ｘ_ｉおよび推定された視線の先の位置に基づいて、発話者の発話内容を推測する発話内容推測部１４０とを備えることにより、画像ｘ_ｉから発話者および発話者の発話内容を適切に推測することができる。

また、画像解析装置１００は、発話者の映り込む画像ｘ_ｉを取得する取得部１１０と、画像ｘｉおよび発話内容推測部１４０による発話内容の予測結果に基づいて、発話者が発話する対象の発話相手を推定する発話相手推測部１５０とを備えることにより、画像ｘ_ｉと発話者の発話内容から発話相手を適切に推測することができる。

＜第２実施形態＞
図７は、第２の実施形態の画像解析装置１００Ａの概要図である。画像解析装置１００Ａは、第１の実施形態の画像解析装置１００と比較して、関連挙動推測部１８０をさらに備える点が異なる。したがって、以下では関連挙動推測部１８０を中心に説明する。

関連挙動推測部１８０は、視線先位置推定部１３２による視線先位置推定結果、および発話内容推測部１４０、および発話相手推測部１５０の推測結果に基づいて、発話者と発話相手の発話に伴う挙動を推測する。発話に伴う挙動には、例えば、頷く、手を振る、拍手する等のジェスチャや、微笑む、睨む等の表情の変化、その場を立ち去る、振り向く、座り直す等の発話者または発話相手の移動を含む。

人間のリアクションは必ずしも言語コミュニケーションに限定されるものでないことから、発話内容推測部１４０による発話推測が困難である場面においても関連挙動推測部１８０が発話者の挙動を推測することにより、画像ｘ_ｉから、より自然な状況や、その場のコミュニケーションを推測することができる。

［処理フロー］
図８は、画像解析装置１００Ａによる推測処理の流れの一例を示す図である。図８に示すフローチャートは、図６のフローチャートにＳ１１２が追加されたものである。したがって、以下ではＳ１１２について説明する。

Ｓ１０８の処理の後、関連挙動推測部１８０は、発話者の発話に伴う挙動を推測し（Ｓ１１２）、Ｓ１１０に処理を進める。以上、本フローチャートの処理の説明を終了する。

なお、上述の画像解析装置１００および１００Ａにおいて、視線先位置推定部１３２による視線先の位置の検出、および発話内容推測部１４０による発話内容の推測は省略されてもよい。その場合、視線先位置推定部１３２による視線先の位置の代替として、取得部１１０が依頼元端末２００を介してユーザによる視線検出結果の入力（文字情報でもよいし、画像に視線を示す印を付与してもよい）や、発言内容の入力（文字情報でもよいし、音声データでもよい）を取得してもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１００、１００Ａ…画像解析装置、１１０…取得部、１２０…特徴量導出部、１３０…発話者推定部、１３２…視線先位置推定部、１４０…発話内容推測部、１５０…発話相手推測部、１６０…出力部、１７０…記憶部、１７１…発話推測情報、１８０…関連挙動推測部、２００…依頼元端末

Claims

発話者が含まれる画像と、前記発話者の発話内容の予測結果とを取得する取得部と、
前記画像および前記発話内容の予測結果に基づいて、前記発話者が発話する対象の発話相手を推定する発話相手推測部と、
を備える画像解析装置。
前記画像に含まれる物標および／または前記発話者以外の人物に対する前記発話者の視線の先の位置を推定する視線先位置推定部をさらに備え、
前記発話相手推測部は、前記画像および前記位置の推定結果に基づいて、前記発話者の発話内容を予測する、
請求項１に記載の画像解析装置。
前記発話相手推測部は、前記発話者の視線の先の位置が推定されており、且つ前記位置に人物が存在する場合、発話者の視線先位置の人物を、前記発話相手である可能性が高いものとして推測する、
請求項１または２に記載の画像解析装置。
前記発話相手推測部は、前記発話相手の推測結果と、前記発話者の視線の先の位置に存在する物標とを照合することで、前記発話相手の推測精度を検証する、
請求項１からの３のいずれか一項に記載の画像解析装置。
コンピュータが、
発話者が含まれる画像と、前記発話者の発話内容の予測結果とを取得し、
前記画像および前記発話内容の予測結果に基づいて、前記発話者が発話する対象の発話相手を推定する、
画像解析方法。
コンピュータに、
発話者が含まれる画像と、前記発話者の発話内容の予測結果とを取得させ、
前記画像および前記発話内容の予測結果に基づいて、前記発話者が発話する対象の発話相手を推定させる、
プログラム。