JP2020038433A - 画像解析装置、画像解析方法、およびプログラム - Google Patents

画像解析装置、画像解析方法、およびプログラム Download PDF

Info

Publication number
JP2020038433A
JP2020038433A JP2018164409A JP2018164409A JP2020038433A JP 2020038433 A JP2020038433 A JP 2020038433A JP 2018164409 A JP2018164409 A JP 2018164409A JP 2018164409 A JP2018164409 A JP 2018164409A JP 2020038433 A JP2020038433 A JP 2020038433A
Authority
JP
Japan
Prior art keywords
speaker
image
utterance
sight
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018164409A
Other languages
English (en)
Inventor
伸幸 清水
Nobuyuki Shimizu
伸幸 清水
崇史 宮崎
Takashi Miyazaki
崇史 宮崎
ミン タオ レ
Minh Dao Le
ミン タオ レ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LY Corp
Original Assignee
Z Holdings Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Z Holdings Corp filed Critical Z Holdings Corp
Priority to JP2018164409A priority Critical patent/JP2020038433A/ja
Publication of JP2020038433A publication Critical patent/JP2020038433A/ja
Priority to JP2022075171A priority patent/JP7354344B2/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】画像に含まれる発話者と発話内容とに基づいて、発話相手を適切に推測することができる画像解析装置、画像解析方法、およびプログラムを提供すること。【解決手段】発話者が含まれる画像と、前記発話者の発話内容の予測結果とを取得する取得部と、前記画像および前記発話内容の予測結果に基づいて、前記発話者が発話する対象の発話相手を推定する発話相手推測部と、を備える画像解析装置。【選択図】図1

Description

本発明は、画像解析装置、画像解析方法、およびプログラムに関する。
従来、人物を撮像した画像の特徴(例えば、発話前に確認される癖や表情)と、その特徴が確認された際に発話する確率とを学習した学習結果に基づいて、発話者が実際に話す前に発話者を予測することで、TV会議システムなどでマイク、カメラ等の円滑なスイッチングを実現する技術が知られている(特許文献1参照)。
また、画像に映る人物の目線を検出する技術が知られている(非特許文献1参照)。
特開2007−147762号公報
Recasens、外3名、Massachusetts Institute of Technology, "Where are they looking?"、[online], [平成30年7月2日検索]、インターネット<URL:http://people.csail.mit.edu/khosla/papers/nips2015_recasens.pdf>
しかしながら、従来の技術では人物を撮像した画像から、発話者と発話相手とを推測するには至っていなかった。
本発明は、このような事情を考慮してなされたものであり、画像に含まれる発話者と発話内容とに基づいて、発話相手を適切に推測することができる画像解析装置、画像解析方法、およびプログラムを提供することを目的の一つとする。
本発明の一態様の画像解析装置は、発話者が含まれる画像と、前記発話者の発話内容の予測結果とを取得する取得部と、前記画像および前記発話内容の予測結果に基づいて、前記発話者が発話する対象の発話相手を推定する発話相手推測部と、を備える画像解析装置である。
本発明の一態様によれば、画像の被写体である発話者と発話内容とに基づいて、発話相手を適切に推測することができる画像解析装置、画像解析方法、およびプログラムを提供することができる。
実施形態の画像解析装置100の使用環境を示す図である。 視線先位置推定部132の視線検出方法について説明する図である。 視線先位置推定部132により視線が検出された結果の一例を示す図である。 発話内容推測部140による発話者の発話内容の推測手順を示す図である。 視線先位置推定部132、および発話内容推測部140による処理の流れを模式的に示す図である。 画像解析装置100による推測処理の流れの一例を示すフローチャートである。 第2の実施形態の画像解析装置100Aの概要図である。 画像解析装置100Aによる推測処理の流れの一例を示すフローチャートである。
以下、図面を参照し、本発明の画像解析装置、画像解析方法、およびプログラムの実施形態について説明する。
[概要]
画像解析装置は、一以上のプロセッサにより実現される。画像解析装置は、1以上の人物が撮像された1以上の画像と、その画像における発話者および発話内容を取得し、その取得した情報に基づいて、発話相手(発話者が話しかけている相手)を推測する。なお、画像は動画であってもよい。また、画像には、撮像日時情報や地理情報等が付随していてもよい。
画像解析装置は、画像の特徴、発話者の特徴、および発話内容に基づいて、発話相手を推測する。発話相手は、画像に撮像された人物であってもよいし、画像に含まれない人物(例えば、画像を撮像した人物や、画像から想定される実空間に存在する人物)であってもよい。これによって、画像解析装置は、人物を撮像した画像から発話者と発話相手とを推測することができる。
<第1実施形態>
[全体構成]
図1は、第1実施形態の画像解析装置100の使用環境および構成の一例を示す図である。画像解析装置100は、ネットワークNWを介して依頼元端末200と通信する。ネットワークNWは、例えば、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)、プロバイダ端末、無線通信網、無線基地局、専用回線などを含む。依頼元端末200は、例えば、通信機能などを有するコンピュータ装置である。通信機能は、NIC(Network Interface Card)などのネットワークカード、無線通信モジュールなどにより実現される。
画像解析装置100は、例えば、取得部110と、特徴量導出部120と、発話者推定部130と、発話内容推測部140と、発話相手推測部150と、出力部160と、記憶部170とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
取得部110は、1以上の人物が含まれる1以上の画像を、依頼元端末200から取得する。取得部110は、取得した画像を特徴量導出部120に出力する。以下、画像は人物を撮像したものとする。
特徴量導出部120は、画像の特徴量を導出する。特徴量とは、画像を解析することにより算出される数値(ベクトルや行列を含む)その他のデジタルデータである。画像の特徴量は、例えば、輝度、色、明度分布、彩度、色比率、人物の顔の各パーツ(目、鼻、口、眉、顎、髪など)の形状やサイズなどである。なお、特徴量導出部120は、画像に撮像された人物の属性を識別して、その人物の特徴量を導出してもよい。人物の属性とは、例えば、人物の年齢、性別、職業、パターン化された表情(怒り顔、笑顔など)である。また、取得部110が取得した画像が複数枚の連続した画像である場合や、動画である場合、人物の特徴量には、人物の基準位置(頭部あるいは体の重心など)の移動ベクトル、人物の形態変化(例えば、表情の変化や身振り)や、画像に音声が対応付けられている場合には音声に基づく特徴量(例えば、声の大きさ、高さ、抑揚等)が含まれてもよい。
なお、特徴量導出部120は、導出した特徴量に基づいて、画像から連想される場面タイトルを特徴量として導出してもよい。場面タイトルとは、画像を端的に説明するものであり、例えば、「学校」、「オフィス」のように場所を示したり、「上司と部下」、「教員と生徒」のように画像に撮像された人物の関係を示したりするものである。特徴量導出部120は、導出した特徴量を発話者推定部130、視線先位置推定部132および発話内容推測部140に出力する。
発話者推定部130は、特徴量導出部120により出力された特徴量に基づいて、画像における発話者を推定する。発話者推定部130は、例えば、画像に撮像された人物が1名である場合には、その人物を発話者として発話内容を推定する。また、発話者推定部130は、例えば、画像に撮像された人物が2名以上である場合には、人物のうち、視線の先の位置(その位置にある人物)に基づいて、発話者を推定する。また、発話者推定部130は、例えば、撮像された他の人物が口を閉じている中で、1名だけ口を開けている場合、その口を開けている人物を発話者であると推定する。
発話者推定部130は、例えば、視線先位置推定部132を備える。視線先位置推定部132は、特徴量導出部120により出力された特徴量と、発話者推定部130により推定された発話者とに基づいて、発話者の視線の先の位置(視線先位置)を推定する。視線先位置推定部132が推定する視線先位置は、画像平面上の位置でもよいし、画像から想定される実空間上の位置でもよい。
なお、視線先位置推定部132は、画像から人物を検出した場合であっても、その人物の瞳の一部または全部が確認できない場合(例えば、画像に映るのが人物の後ろ姿である場合や、画像に映る人物が項垂れていて顔が映り込んでない場合等)、視線を推定しないものとしてよい。視線先位置推定部132による視線先位置推定方法については後述する。視線先位置推定部132は、推定した視線先位置情報を発話内容推測部140に出力する。
発話内容推測部140は、特徴量導出部120により出力された特徴量、発話者推定部130により推定された発話者、および視線先位置推定部132により推定された人物の視線先位置に基づいて、発話者の発話内容を推測する。発話内容には、話題に挙がる目的語や、話題の方向性(例えば、ポジティブな内容か、ネガティブな内容か)の情報が含まれる。
発話内容推測部140は、推測した発話者および発話内容を発話相手推測部150および出力部160に出力する。
発話相手推測部150は、発話内容推測部140により出力された発話内容が誰に対するものであるかを推測する。発話相手推測部150は、画像に撮像された人物が2名である場合、発話者でない人物を発話相手であると推測する。発話相手推測部150は、画像に撮像された人物が3名以上である場合、例えば、発話者の視線に基づいて発話相手を推測する。発話相手推測部150は、画像に撮像された人物が1名である場合、例えば、特徴量導出部120により導出された場面タイトルに基づいて発話相手を推測する。発話相手推測部150は、推測した発話相手を出力部160に出力する。
出力部160は、発話内容推測部140により出力された発話内容、および発話相手推測部150により出力された発話相手を図1に示す依頼元端末200に出力する。
記憶部170は、発話推測情報171を記憶する。発話推測情報171とは、発話内容推測部140により参照され、発話内容の参考情報として用いられる文章情報、および発話内容の文脈に関する情報を含むものである。
発話内容推測部140は、推測結果を発話推測情報171として記憶させることで、発話内容推測部140による推測結果を学習させてもよい。また、発話推測情報171には、特徴量導出部120により導出される場面タイトルが含まれていてもよい。また、発話内容推測部140は、発話推測情報171として、図1に示すネットワークNWを介して、発話内容の参考情報として用いられる文章情報や、発話内容の文脈に関する情報を他の情報源を学習させてもよい。
[視線推定]
図2は、視線先位置推定部132の視線先位置推定方法について説明する図である。図3に示す視線先位置推定方法は、例えば、以下の4段階の手順により実現される。なお、下記の手順(a)と手順(b)は並行して行われてもよいし、いずれか一方の処理の終了後に他方の処理が実施されてもよい。
(a)物標検出
(b)被写体人物頭部・瞳位置分析
(c)視線演算
(d)視線先位置(グリッド)推定
以下、(a)〜(d)の各手順について説明する。
(a)物標検出
視線先位置推定部132は、被写体の人物、および被写体の人物の視線の先に当たる物標の候補を、画像(以下、画像x)内の視線先位置推定対象である被写体の人物の映り込む部分を除いた画像全体から検出する。物標とは、視線を誘引される可能性がある物体・人物・生物等の対象物をいう。
物標の検出は、例えば、VGGNet等の畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)などを利用した導出器1によって実現される。導出器1は、予め機械学習によって生成されたものである。視線先位置推定部132は、画像xからサイズD×Dの顕著性マップS(x)を導出する。
(b)被写体人物頭部・瞳位置分析
視線先位置推定部132は、被写体の人物の顔の向きや瞳の位置に基づいて、視線の方向を推定する。視線先位置推定部132は、視線の方向の推定のため、畳み込みニューラルネットワークなどを利用した導出器2を用いて、画像xから顕著性マップS(x)とは別の空間マップである、サイズD×Dの視線マスクマップG(x,x)を導出する。導出器2は、導出器1と同様に、予め機械学習によって生成されたものである。xは、画像x内での被写体の人物の頭の位置または瞳の位置を示すパラメータ(例えば、座標)である。またxは、xの導出によって得られた画像x内での被写体の人物の頭の位置、または瞳の位置を拡大処理した際の拡大程度を表す画像パラメータである。
(c)視線演算
視線先位置推定部132は、手順(a)の物標の検出結果である顕著性マップS(x)、および(b)の視線の方向の分析結果である視線マスクマップG(x,x)に基づいて、被写体の人物の方向を演算し、被写体の視線先位置を推定する。ここで、被写体の人物が複数存在する場合には、瞳の位置が推定できるすべての人物の視線先位置を推定してもよいし、発話者推定部130がすでに発話者を推定している場合にはその人物の視線先位置を推定してもよい。
視線先位置推定部132は、例えば、VGGNetを利用して下記の式(1)のように、顕著性マップS(x)と視線マスクマップG(x,x)との要素ごとの積(element-wise product)を演算することによって、被写体の視線先位置y(ハット)(式(1)の左辺)を演算する。
Figure 2020038433
なお、式(1)の右辺のF()は、顕著性マップS(x)と視線マスクマップG(x,x)との要素ごとの積から、畳み込みニューラルネットワークにおけるFC層(Fully Connected Layer;最終的な判定を行う層)のパラメータを予め導出しておくための関数である。
(d)視線先位置(グリッド)推定
視線先位置推定部132は、手順(c)の演算結果に基づいて、被写体の人物の視線先位置y(ハット)を推定する。視線先位置推定部132は、被写体の人物の視線先位置y(ハット)の推定のため、視線マスクマップG(x,x)のみを用いてもよいし、視線マスクマップG(x,x)の導出とは異なる演算モデルを用いて演算を実施し、複数の演算結果を統合することで被写体の人物の視線先位置である領域(グリッド)を推定してもよい。
また、視線先位置推定部132は、被写体の人物の顔を正面から撮像し、その人物がカメラの方を向いている場合(いわゆるカメラ目線である場合)には、「視線の先の位置は撮像者である」と推定してもよい。また、視線先位置推定部132は、被写体の人物の顔を認識した場合であり、その人物が虚空に目線を向けている場合には、何も見ていないものとしてもよいし、画像外の不特定の人物に対する目線であるものとしてもよい。
図3は、視線先位置推定部132により視線先位置が推定された結果の一例を示す図である。例えば、視線先位置推定部132は、図3の右側の人物の視線先位置を推定し、どの人物に対して視線先位置を推定したかの推定結果を顔の上の丸印で示す。なお、画像解析装置100は、視線先位置推定部132によって視線先位置を推定した右の人物を、発話者であるものとして、発話内容の推測を行う。
視線先位置推定部132による視線先位置推定処理は、下記の式(2)〜(5)により示すことができる。
Figure 2020038433
式(2)において、aは受信者区分(addressee class;発話者の視線の先が画像x内の物標であるか、撮像者であるか、それ以外であるかを示す分類区分)を示し、Iは顕著性マップS(x)によって得られる特徴量を示し、Iは視線マスクマップG(x,x)によって得られる発話者特徴量を示し、θはLSTM言語モデルp(a|I,I,S,…,S)におけるモデルパラメータを示す。発話内容を構成する単語S‐Sはベクトル値によって示される。単語S‐Sは予め用意された多数の候補から抽出されたものである。また、argmaxは対象項を最大にするパラメータを求める関数であり、p()は視線先位置推定モデルを示す式であり、1以上のモダリティストリームを含むものである。モダリティストリームとは、話している内容に対する話し手の判断や感じ方を表す言語表現モデルの構成要素の一部のことである。モダリティストリームとは、例えば、saliency-estimation-feature stream、speaker-appearance-feature stream、utterance-based- feature streamと称されるものである。発話内容推測部140は、例えば、発話者の表情や仕草に応じて発話内容に反映する単語S‐Sの抽出方法を選択したり、抽出元となる単語群を発話推測情報171から選択したりする。θ*はp()を最大にするパラメータθを示す。また、Tは発話内容の単語の数を示す正の整数である。発話内容推測部140は、式(2)に示す関係をモデル化するため、例えば、式(3)〜(5)を用いて、モダリティストリーム毎に1つずつモデル化する。
Figure 2020038433
式(3)〜(5)において、WおよびWはネットワークパラメータであり、bおよびbはバイアス値であり、ReLU(Rectified Linear Unit)は、正規化線形関数であり、concatは、結合関数である。発話内容推測部140は、顕著性マップS(x)を式(3)で、視線マスクマップG(x,x)を式(4)で処理し、その処理結果を式(5)で統合する。式(5)のconcatは、ベクトルを結合する関数である、concatenate関数を示す。
[発話内容推測]
発話内容推測部140による発話内容の推測処理は、例えば、以下の2段階の手順により実現される。
(e)画像全体分析
(f)発話内容推測
以下、(e)〜(f)の各手順について説明する。
(e)画像全体分析
発話内容推測部140は、例えば、画像xに映り込む人物、物標、背景等の物標を分析する。発話内容推測部140は、特徴量導出部120の導出結果を用いて物標を分析してもよい。
発話内容推測部140は、例えば、発話者推定部130によって画像xに映り込む人物から発話者を推測された結果に基づいて、画像xにおいてその発話者の映り込む部分を分析する。なお、発話内容推測部140は、発話内容の予測に視線先位置推定部132による視線先位置の推定結果の一部または全部を用いてもよいし、依頼元端末200による視線の入力を取得した結果を用いてもよい。
(f)発話内容推測
発話内容推測部140は、例えば、手順(e)で分析された物標を示す単語や、それらから連想される単語に基づいて、発話者の発話しそうな文章を構成することで、発話者の発話内容を推測する。
発話内容推測部140による発話内容推測は、例えば、LSTM(Long short-term memory)言語モデルにより実現される。LSTM言語モデルとは、学習内容を長期的に活用する再帰型ニューラルネットワーク(RNN)により実現されるモデルであり、例えば、演算過程が累積記憶して以後の計算に用いられる。LSTM言語モデルを用いて処理を行う方法は、イメージ・キャプショニング(Image Captioning;画像説明文自動生成)方法と称される場合がある。なお、LSTM言語モデルは、注意モデル(Attention Model;例えば、発話者や発話者の視線を示す画像xの一部分に注目を向けさせる補完情報)で拡張されてもよい。
図4は、発話内容推測部140によって推測された発話内容の構成を示す図である。発話内容推測部140は、例えば、図3に示す画像xから、2名の人物が船上にいる様子であり、出航準備中であるものとして、“Are you ready for leave port?”という発話内容を推測するものとして、その推測方法を説明する。
例えば、図4の上図に示す一般的なニューラルネットワーク言語モデルに基づいて文章が構成される場合、文章を構成する第4単語S(文頭から4つ目の単語)の“for”を導出する過程において、入力データとして第4単語の直前に用いられる第3単語S3(文頭から3つ目の単語)の“ready”のみが用いられる。
一方、図4の下図に示すLSTM言語モデルに基づいて文章が構成される場合、文章を構成する第4単語を導出する過程において、第1単語〜第3単語(“Are you ready”)を入力データとして、第4単語が導出される。したがって、LSTM言語モデルは、連続する言葉の並びに基づいて次に出現させる言葉を推測することができ、単語や文の並びの妥当性を高めることができる。
発話内容推測部140による発話内容推測処理は、例えば、下記の式(6)〜(8)により示すことができる。
Figure 2020038433
式(6)において、tは時間であり、xは時間tにおけるインプット情報(すなわち、視線先位置推定部132による視線先位置推定結果や単語S)であり、uは時間tにおける組み込みベクトルであり、ht−1は時間t−1における隠れ状態を示す。式(6)の右辺は、uおよびht−1をLSTM言語モデルにて演算することを示す。式(8)の右辺は、ネットワークパラメータWfuとインプット情報xfuの積にバイアス値bfuを加算するソフトマックス関数を示す。ソフトマックス関数は、下記の式(9)の演算を行うものである。式(9)において、vはベクトルである。
Figure 2020038433
[発話相手推測]
発話相手推測部150は、例えば、視線先位置推定部132によって発話者の視線先位置が推定されていない場合、発話内容推測部140により推測された発話内容に基づいて、発話相手を推測する。
発話相手推測部150による発話相手の推測は、下記の数式(10)〜(15)により示すことができる。
Figure 2020038433
式(14)および式(15)は、LSTM言語モデルのステータスcおよびhを導出する式である。式(14)において、iは入力ゲート(Input gate)であり、gは入力調整ゲート(input modulation gate)であり、oは出力ゲート(Output gate)であり、fは忘却ゲート(forgetting gate)である。また、式(10)〜(12)のシグモイド関数σ()は、σ(x)=(1+e―x−1の関係を示す。また、式(13)および(15)のφ()は、複素数の双曲線関数(hyperbolic tangent function)を示すものであり、φ(x)=(e−e―x)/(e+e―x)の関係を示す。式(14)および式(15)の右辺の丸内に黒丸を収めた記号は、2つのベクトル値の要素ごとの積(あだマール積)を示す。
なお、発話相手推測部150は、視線先位置推定部132によって発話者の視線先位置が推定されている場合、その推定結果に基づいて発話相手を推測してもよい。例えば、発話相手推測部150は、視線先位置推定部132によって発話者の視線先位置が推定されており、画像xにおいて発話者の視線の先に当たる位置に人物が映り込む場合、発話者の視線先位置の人物を発話相手である可能性が高いものとして推測する。また、例えば、発話相手推測部150は、視線先位置推定部132によって発話者の視線先位置が推定されており、画像xにおいて発話者の視線先位置に人物が映り込み、その人物の視線が発話者の方向に向けられている場合(図4のように、人物同士の目が合っている場合)、発話者の視線先位置の人物を発話相手であると推測する。
また、発話相手推測部150は、発話相手の推測結果と、視線先位置推定部132によって発話者の視線先位置の物標とを照合することで、発話相手の推測精度を検証してもよい。発話相手推測部150は、例えば、発話相手の推測結果と、視線先位置推定部132によって発話者の視線の先の物標とがアンマッチである場合に、発話内容推測部140に処理を戻し、発話内容推測を再実施してもよい。
図5は、視線先位置推定部132、および発話内容推測部140による処理の流れを模式的に示す図である。なお、図5の上部分は図2に示した視線先位置推定処理の詳細を示すものである。
視線先位置推定部132は、画像x全体および、視線先位置推定部132により視線先位置が推定された発話者の頭部または瞳の位置の情報を、それぞれVGGNet等の畳み込みニューラルネットワークを利用した機械学習による演算結果を結合することにより視線推定を行う。次に、発話内容推測部140は、LSTM言語モデルを用いて発話内容を推測する。画像解析装置100は、これらの演算結果を統合し、依頼元端末200に出力する。
[処理フロー]
図6は、画像解析装置100による推測処理の流れの一例を示すフローチャートである。まず、取得部110は、依頼元端末200より画像xを取得し、特徴量導出部120に出力する(S100)。次に、特徴量導出部120は、画像xの特徴量を導出する(S102)。次に、視線先位置推定部132は、画像xにおける発話者を推測し、発話者の視線先位置を推定する(S104)。次に、発話内容推測部140は、発話内容を推測する(S106)。次に、発話相手推測部150は、発話相手を推測する(S108)。次に、出力部160は、推測結果を依頼元端末200に出力する(S110)。以上、本フローチャートの処理の説明を終了する。
以上説明したように、画像解析装置100は、発話者の映り込む画像xを取得する取得部110と、画像xに映り込む発話者の視線の先の位置を推定する視線先位置推定部132と、画像xおよび推定された視線の先の位置に基づいて、発話者の発話内容を推測する発話内容推測部140とを備えることにより、画像xから発話者および発話者の発話内容を適切に推測することができる。
また、画像解析装置100は、発話者の映り込む画像xを取得する取得部110と、画像xiおよび発話内容推測部140による発話内容の予測結果に基づいて、発話者が発話する対象の発話相手を推定する発話相手推測部150とを備えることにより、画像xと発話者の発話内容から発話相手を適切に推測することができる。
<第2実施形態>
図7は、第2の実施形態の画像解析装置100Aの概要図である。画像解析装置100Aは、第1の実施形態の画像解析装置100と比較して、関連挙動推測部180をさらに備える点が異なる。したがって、以下では関連挙動推測部180を中心に説明する。
関連挙動推測部180は、視線先位置推定部132による視線先位置推定結果、および発話内容推測部140、および発話相手推測部150の推測結果に基づいて、発話者と発話相手の発話に伴う挙動を推測する。発話に伴う挙動には、例えば、頷く、手を振る、拍手する等のジェスチャや、微笑む、睨む等の表情の変化、その場を立ち去る、振り向く、座り直す等の発話者または発話相手の移動を含む。
人間のリアクションは必ずしも言語コミュニケーションに限定されるものでないことから、発話内容推測部140による発話推測が困難である場面においても関連挙動推測部180が発話者の挙動を推測することにより、画像xから、より自然な状況や、その場のコミュニケーションを推測することができる。
[処理フロー]
図8は、画像解析装置100Aによる推測処理の流れの一例を示す図である。図8に示すフローチャートは、図6のフローチャートにS112が追加されたものである。したがって、以下ではS112について説明する。
S108の処理の後、関連挙動推測部180は、発話者の発話に伴う挙動を推測し(S112)、S110に処理を進める。以上、本フローチャートの処理の説明を終了する。
なお、上述の画像解析装置100および100Aにおいて、視線先位置推定部132による視線先の位置の検出、および発話内容推測部140による発話内容の推測は省略されてもよい。その場合、視線先位置推定部132による視線先の位置の代替として、取得部110が依頼元端末200を介してユーザによる視線検出結果の入力(文字情報でもよいし、画像に視線を示す印を付与してもよい)や、発言内容の入力(文字情報でもよいし、音声データでもよい)を取得してもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
100、100A…画像解析装置、110…取得部、120…特徴量導出部、130…発話者推定部、132…視線先位置推定部、140…発話内容推測部、150…発話相手推測部、160…出力部、170…記憶部、171…発話推測情報、180…関連挙動推測部、200…依頼元端末

Claims (6)

  1. 発話者が含まれる画像と、前記発話者の発話内容の予測結果とを取得する取得部と、
    前記画像および前記発話内容の予測結果に基づいて、前記発話者が発話する対象の発話相手を推定する発話相手推測部と、
    を備える画像解析装置。
  2. 前記画像に含まれる物標および/または前記発話者以外の人物に対する前記発話者の視線の先の位置を推定する視線先位置推定部をさらに備え、
    前記発話相手推測部は、前記画像および前記位置の推定結果に基づいて、前記発話者の発話内容を予測する、
    請求項1に記載の画像解析装置。
  3. 前記発話相手推測部は、前記発話者の視線の先の位置が推定されており、且つ前記位置に人物が存在する場合、発話者の視線先位置の人物を、前記発話相手である可能性が高いものとして推測する、
    請求項1または2に記載の画像解析装置。
  4. 前記発話相手推測部は、前記発話相手の推測結果と、前記発話者の視線の先の位置に存在する物標とを照合することで、前記発話相手の推測精度を検証する、
    請求項1からの3のいずれか一項に記載の画像解析装置。
  5. コンピュータが、
    発話者が含まれる画像と、前記発話者の発話内容の予測結果とを取得し、
    前記画像および前記発話内容の予測結果に基づいて、前記発話者が発話する対象の発話相手を推定する、
    画像解析方法。
  6. コンピュータに、
    発話者が含まれる画像と、前記発話者の発話内容の予測結果とを取得させ、
    前記画像および前記発話内容の予測結果に基づいて、前記発話者が発話する対象の発話相手を推定させる、
    プログラム。
JP2018164409A 2018-09-03 2018-09-03 画像解析装置、画像解析方法、およびプログラム Pending JP2020038433A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018164409A JP2020038433A (ja) 2018-09-03 2018-09-03 画像解析装置、画像解析方法、およびプログラム
JP2022075171A JP7354344B2 (ja) 2018-09-03 2022-04-28 画像解析装置、画像解析方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018164409A JP2020038433A (ja) 2018-09-03 2018-09-03 画像解析装置、画像解析方法、およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022075171A Division JP7354344B2 (ja) 2018-09-03 2022-04-28 画像解析装置、画像解析方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2020038433A true JP2020038433A (ja) 2020-03-12

Family

ID=69737959

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018164409A Pending JP2020038433A (ja) 2018-09-03 2018-09-03 画像解析装置、画像解析方法、およびプログラム
JP2022075171A Active JP7354344B2 (ja) 2018-09-03 2022-04-28 画像解析装置、画像解析方法、およびプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022075171A Active JP7354344B2 (ja) 2018-09-03 2022-04-28 画像解析装置、画像解析方法、およびプログラム

Country Status (1)

Country Link
JP (2) JP2020038433A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011108055A (ja) * 2009-11-19 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 対話システム、対話方法、対話プログラム
US20130120522A1 (en) * 2011-11-16 2013-05-16 Cisco Technology, Inc. System and method for alerting a participant in a video conference

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127353A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International 会話参与手続き認識装置および会話参与手続き認識システム
JP4804801B2 (ja) * 2005-06-03 2011-11-02 日本電信電話株式会社 会話構造推定方法、プログラム、および記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011108055A (ja) * 2009-11-19 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 対話システム、対話方法、対話プログラム
US20130120522A1 (en) * 2011-11-16 2013-05-16 Cisco Technology, Inc. System and method for alerting a participant in a video conference

Also Published As

Publication number Publication date
JP2022106887A (ja) 2022-07-20
JP7354344B2 (ja) 2023-10-02

Similar Documents

Publication Publication Date Title
Li et al. Write-a-speaker: Text-based emotional and rhythmic talking-head generation
JP6467965B2 (ja) 感情推定装置及び感情推定方法
US12027062B2 (en) Communication skill evaluation system, communication skill evaluation device and communication skill evaluation method
CN107911643B (zh) 一种视频通信中展现场景特效的方法和装置
KR20140129171A (ko) 비디오 화상회의 동안 참가자의 외모 수정
KR102167760B1 (ko) 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템
US20140145936A1 (en) Method and system for 3d gesture behavior recognition
JP7118697B2 (ja) 注視点推定処理装置、注視点推定モデル生成装置、注視点推定処理システム、注視点推定処理方法、プログラム、および注視点推定モデル
WO2021196721A1 (zh) 一种舱内环境的调整方法及装置
KR102148151B1 (ko) 디지털 커뮤니케이션 네트워크에 기반한 지능형 채팅
JP2018032164A (ja) 面接システム
KR101913811B1 (ko) 얼굴 표현 및 심리 상태 파악과 보상을 위한 얼굴 정보 분석 방법 및 얼굴 정보 분석 장치
JP5349238B2 (ja) 表情認識装置、人物間感情推定装置、表情認識方法、人物間感情推定方法、及びプログラム
CN111108508A (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
JP7370050B2 (ja) 読唇装置及び読唇方法
JP2020038432A (ja) 画像解析装置、画像解析方法、およびプログラム
Żarkowski Identification-driven emotion recognition system for a social robot
JP7354344B2 (ja) 画像解析装置、画像解析方法、およびプログラム
TWI667054B (zh) 飛行器飛行控制方法、裝置、飛行器及系統
JP2018060374A (ja) 情報処理装置、評価システムおよびプログラム
TWI620076B (zh) 人體動作的分析系統
Gervasi et al. A method for predicting words by interpreting labial movements
Kumano et al. Recognizing communicative facial expressions for discovering interpersonal emotions in group meetings
JP5485044B2 (ja) 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム
JP5931021B2 (ja) 対人認知傾向モデル学習装置、対人認知状態推定装置、対人認知傾向モデル学習方法、対人認知状態推定方法及びプログラム

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20181003

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220428

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220428

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220512

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220517

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20220610

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20220614

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220802

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220913

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221212

C302 Record of communication

Free format text: JAPANESE INTERMEDIATE CODE: C302

Effective date: 20221213

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20221223

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20230328