JP7466812B2

JP7466812B2 - 食事摂取情報取得装置および食事摂取情報取得方法

Info

Publication number: JP7466812B2
Application number: JP2023578876A
Authority: JP
Inventors: 祥樹松山
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2024-04-12
Anticipated expiration: 2042-04-13
Also published as: JPWO2023199424A1; WO2023199424A1

Description

本開示は、ユーザの食事状況を把握するための食事摂取情報を取得する食事摂取情報取得装置および食事摂取情報取得方法に関するものである。

ユーザの食生活改善に向けた食事のレコメンドまたは健康管理等を行うためには、ユーザが摂取した料理または食材を含むユーザの食事状況を把握することが必要である。
ここで、ユーザに食事状況を何等かの手段で登録させることは、ユーザにとって負担となる。このような問題に対し、例えば、食事をしているユーザが撮像された撮像画像に基づいて、画像認識によってユーザの食事状況を把握することが考えられる。しかし、光によっていわゆる白飛びが発生する、加工または調理された料理について当該料理に使用されている特定の食材を認識することが困難である等、画像認識によるユーザの食事状況の把握には限界がある。
そこで、従来、ユーザに対して、「今日の朝ごはんは何を食べましたか？」のように、音声によって食事内容を質問し、音声によって質問に対するユーザからの回答を受け付けることで、ユーザの食事状況を把握する技術が知られている（例えば、特許文献１）。

特開２０１９－１９２０６０号公報

上述したような、ユーザとの対話によりユーザの食事状況を把握する従来技術は、ユーザに対し、直感的に質問されている料理または食材を把握させ、迷うことなく回答させられるようにはなっていない。例えば、複数の料理を摂取している場合、「朝ごはんは何を食べましたか？」といった質問されても、ユーザは、具体的にどの料理について質問されているかがわからず、回答に迷うおそれがある。また、例えば、摂取した料理が一品であっても、当該料理に複数の食材が含まれる場合、ユーザは、具体的にどの食材を質問されているかがわからず、回答に迷うおそれがある。
従来技術では、ユーザに対して音声によって摂取している料理または食材を質問する場合に、ユーザが摂取した料理または食材を確実に回答させるよう質問が行えていないため、ユーザが摂取した料理または食材に関する情報を得ることができない可能性があるという課題があった。その結果、従来技術では、依然として、ユーザの食事状況を把握可能となっていなかった。

本開示は上記のような課題を解決するためになされたもので、ユーザに対し、摂取した食材を確実に回答させるよう質問することで、ユーザが摂取した料理または食材に関する情報を得ることを可能とした食事摂取情報取得装置を提供することを目的としている。

本開示に係る食事摂取情報取得装置は、撮像画像に基づき、ユーザが摂取する料理または食材を推論し、推論した料理または食材に関する食事摂取情報を作成する食事内容推論部と、食事内容推論部が推論した料理または食材のうちの対象料理または対象食材について、対象料理または対象食材が何であるかを問う質問を作成する質問作成部と、撮像画像に基づき、対象料理または対象食材に関係するユーザの動作を検出する動作検出部と、動作検出部が対象料理または対象食材に関係するユーザの動作を検出している期間から質問作成部が作成した質問を出力する質問タイミングを判定するタイミング判定部と、タイミング判定部が判定した質問タイミングで、質問作成部が作成した質問を音声出力させる質問音声出力情報を出力する質問出力部と、質問音声出力情報に基づき質問出力部が音声出力させた質問に対するユーザの発話音声を取得する音声取得部と、音声取得部が取得した発話音声に対する音声認識を行う音声認識部と、音声認識部による音声認識結果に基づき特定した、質問に対してユーザが回答した料理または食材に関する情報を、食事摂取情報に反映させる反映部とを備えたものである。

本開示によれば、食事摂取情報取得装置は、ユーザに対し、摂取した食材を確実に回答させるよう質問することで、ユーザが摂取した料理または食材に関する情報を得ることができる。

実施の形態１に係る食事摂取情報取得装置の構成例を示す図である。実施の形態１に係る食事摂取情報取得装置を搭載したロボットの外観の一例を示す図である。実施の形態１において、第１カメラが撮像した撮像画像、および、第２カメラが撮像した撮像画像の一例を説明するための図である。実施の形態１において、第１カメラが撮像した撮像画像の一例を示す図である。図５Ａおよび図５Ｂは、実施の形態１において定義されている料理識別用情報の一例を示す図である。実施の形態１において食事内容推論部が作成した食事摂取情報の一例を説明するための図である。実施の形態１において、反映部が、ユーザが回答した料理または食材に関する情報を反映させた後の食事摂取情報の一例を説明するための図である。実施の形態１に係る食事摂取情報取得装置の動作について説明するためのフローチャートである。図９Ａおよび図９Ｂは、実施の形態１に係る食事摂取情報取得装置のハードウェア構成の一例を示す図である

以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態１．
実施の形態１に係る食事摂取情報取得装置は、ユーザが摂取した料理または食材に関する情報（以下「食事摂取情報」という。）を作成し、記憶部に記憶させる。具体的には、実施の形態１に係る食事摂取情報取得装置は、撮像画像に基づき、ユーザが摂取する料理または食材を推論する。食事摂取情報取得装置は、撮像画像に基づいて推論した料理または食材について、当該料理または食材が何であるかを質問する対象となる料理（以下「対象料理」という。）または食材（以下「対象食材」という。）があると判定した場合は、ユーザに対して、音声によって、対象料理または対象食材が何であるかの質問を出力する。食事摂取情報取得装置は、対象料理または対象食材に関する情報と撮像画像に基づき検出したユーザの動作とに基づき、質問を出力するタイミング（以下「質問タイミング」という。）を判定する。食事摂取情報取得装置は、質問タイミングで音声出力させた質問に対するユーザの回答を発話音声にて取得し、取得した発話音声から、ユーザによる対象料理または対象食材が何であるかの回答を、食事摂取情報に反映する。
なお、実施の形態１では、「料理」とは、食材または調味料等を組み合わせて加工が行われた食べ物または飲み物をいう。また、「食材」とは、料理の材料であり、料理に含まれているものをいう。

食事摂取情報取得装置が作成し、記憶させた食事摂取情報は、例えば、ユーザが摂取した栄養素を把握し、ユーザの食生活改善に向けたレコメンドまたは健康管理に使用される。
なお、実施の形態１に係る食事摂取情報取得装置は、主に一般家庭で用いられ、一般家庭における食卓にてユーザが摂取している料理または食材に関する食事摂取情報を作成する装置を想定している。すなわち、実施の形態１において、ユーザは、一般家庭の住人を想定している。

図１は、実施の形態１に係る食事摂取情報取得装置１の構成例を示す図である。
実施の形態１に係る食事摂取情報取得装置１は、例えば、ロボット２に搭載されていることを想定している。
図２は、実施の形態１に係る食事摂取情報取得装置１を搭載したロボット２の外観の一例を示す図である。

ロボット２は、駆動装置２５を備え、駆動装置２５によって居室内を自律的に移動可能である。駆動装置２５は、例えば、複数のタイヤおよびモータ等で構成される。

ロボット２は、第１カメラ２１および第２カメラ２２を搭載している。
第１カメラ２１は、少なくともユーザが摂取する料理または食材を撮像可能に設けられる。例えば、第１カメラ２１は、ユーザが食事しているテーブル上を撮像可能に設けられる。
第２カメラ２２は、料理または食材を摂取している、言い換えれば、食事をしているユーザを撮像可能に設けられる。
なお、図２では、ユーザ、ユーザが食事しているテーブル、および、テーブル上の料理または食材等の図示は省略している。
第１カメラ２１および第２カメラ２２は、モータ等で構成される駆動部（図示省略）を有しており、駆動部によって撮像方向を変更可能に設けられている。

ここで、図３は、実施の形態１において、第１カメラ２１が撮像した撮像画像（以下「第１撮像画像」という。）、および、第２カメラ２２が撮像した撮像画像（以下「第２撮像画像」という。）の一例を説明するための図である。
図３Ａが第１撮像画像の一例を示し、図３Ｂが第２撮像画像の一例を示している。
第１撮像画像には、料理または食材が撮像されている。
第２撮像画像には、食事をしているユーザ、詳細には、第１撮像画像にて撮像されている料理または食材を摂取しているユーザの様子が撮像されている。

駆動装置２５の制御、第１カメラ２１の駆動部の制御、および、第２カメラ２２の駆動部の制御は、ロボット２が備えている駆動制御部２０１が行う。
例えば、ユーザは、ロボット２が備えているタッチパネル式ディスプレイ（図示省略）等の入力装置を操作して、ロボット２の位置、第１カメラ２１の撮像方向、および、第２カメラ２２の撮像方向を指示する。駆動制御部２０１は、ユーザからの指示に基づき、ロボット２を移動させる、第１カメラ２１の撮像方向を変更する、または、第２カメラ２２の撮像方向を変更する。

また、ロボット２は、音声入力装置であるマイク２３、および、音声出力装置であるスピーカ２４を搭載している。
マイク２３は、発話音声を収集する。スピーカ２４は、食事摂取情報取得装置１が出力させた音声を出力する。
なお、ユーザは、スピーカ２４から出力される音声の音量を調整できる。例えば、ユーザは、ロボット２が備えている入力装置から音量の調整指示を入力する。ロボット２が備えている音量制御部（図示省略）は、ユーザからの音量の調整指示に基づき、スピーカ２４から出力される音声の音量を調整する。

図１に示すように、食事摂取情報取得装置１は、第１画像取得部１０１、食事内容推論部１０２、質問作成部１０３、第２画像取得部１０４、動作検出部１０５、記憶部１０６、タイミング判定部１０７、質問出力部１０８、音声取得部１０９、音声認識部１１０、および、反映部１１１を備える。

第１画像取得部１０１は、第１カメラ２１が撮像した第１撮像画像を取得する。
第１画像取得部１０１は、取得した第１撮像画像を食事内容推論部１０２に出力する。

食事内容推論部１０２は、第１画像取得部１０１が取得した第１撮像画像に基づき、ユーザが摂取する料理または食材を推論する。そして、食事内容推論部１０２は、推論した料理または食材に関する食事摂取情報を作成する。
その際、食事内容推論部１０２は、料理または食材の推論結果の確からしさをあらわす確信度を算出する。
なお、食事内容推論部１０２が第１画像取得部１０１の機能を有していてもよい。
実施の形態１において、第１画像取得部１０１はフレーム単位で第１撮像画像を取得する。食事内容推論部１０２は、第１画像取得部１０１が取得した最新のフレームに基づき、ユーザが摂取する料理または食材を推論する。

食事内容推論部１０２による、ユーザが摂取する料理または食材の推論方法、および、料理または食材の推論結果の確信度の算出方法について、一例を挙げて説明する。
例えば、食事内容推論部１０２は、公知の画像認識技術またはパターンマッチング等を用いて行った画像認識結果と、予め管理者等によって作成され食事内容推論部１０２が参照可能な場所に記憶されている料理識別用情報とに基づいて、ユーザが摂取する料理または食材を推論する。
料理識別用情報は、例えば、料理と当該料理が含んでいると想定される食材とが定義された情報である。料理識別用情報において、料理を特定可能な情報と、当該料理が含んでいると想定される食材を示す情報とが対応付けられている。なお、食材を示す情報は、食材そのものを特定可能な情報であってもよいし、食材の色、または、形状を特定可能な情報であってもよい。

図４は、実施の形態１において、第１カメラ２１が撮像した第１撮像画像の一例を示す図である。例えば、第１撮像画像が、図４に示すような撮像画像であったとする。図４において、第１撮像画像は、Ｉｍで示されている。また、図４において、料理はＤ１またはＤ２で示され、食材はＭ１～Ｍ６で示されている。料理Ｄ１に含まれている食材が食材Ｍ１～Ｍ５であり、料理Ｄ２に含まれている食材が食材Ｍ６である。
また、例えば、図５Ａおよび図５Ｂに示すような内容の料理識別用情報が定義されているとする。
例えば、図５Ａに示す料理識別用情報は食べ物に関する料理識別用情報であり、図５Ｂに示す料理識別用情報は飲み物に関する料理識別用情報であるとする。

例えば、食事内容推論部１０２は、まず、第１撮像画像に対して公知の画像認識処理またはパターンマッチング等を行い、第１撮像画像で撮像されている料理および食材を推論する。
その結果、食事内容推論部１０２は、料理Ｄ１はカレーライスであると推論する。また、食事内容推論部１０２は、カレーライスに含まれる食材として、食材Ｍ１～Ｍ５を推論する。なお、食材Ｍ１～食材Ｍ４はルーの具材である。
ここで、食事内容推論部１０２は、第１撮像画像に対する画像認識処理等によって、食材Ｍ５はライスと推論できたとする。また、食事内容推論部１０２は、食材Ｍ３は玉ねぎと推論できたとする。一方、食事内容推論部１０２は、食材Ｍ１～Ｍ４、第１撮像画像上、そのほとんどの部分がルーで覆われていることによって、第１撮像画像に対する画像認識処理等からでは、何であるのかが推論できなかったとする。

そこで、食事内容推論部１０２は、推論結果と図５Ａに示されているような料理識別用情報とのつきあわせを行う。
そうすると、食事内容推論部１０２は、カレーライスの中には例えばビーフカレーとチキンカレーとがあることがわかる。さらに、食事内容推論部１０２は、ビーフカレーとチキンカレーそれぞれに含まれていると想定される食材がわかる。
今、食事内容推論部１０２は、第１撮像画像から、料理Ｄ１はカレーであること、および、食材Ｍ３が玉ねぎであること、食材Ｍ５がライスであると推論している。しかし、料理識別用情報によれば、玉ねぎとライスはビーフカレーにもチキンカレーにも含まれており、玉ねぎとライスが推論できていることだけでは、料理Ｄ１がビーフカレーかチキンカレーかまでは判別できない。そこで、食事内容推論部１０２は、食材Ｍ３，Ｍ５以外の食材Ｍ１，Ｍ２，Ｍ４について、第１撮像画像に基づき、料理識別用情報を参考に、何であるか推論する。その結果、食事内容推論部１０２は、食材Ｍ２について、にんじんらしいことを推論する。例えば、食事内容推論部１０２は、第１撮像画像上で、食材Ｍ２の、ルーで覆われていないわずかな部分の色または形状等から、料理識別用情報で定義されているカレーに含まれる食材として最も近いと推論される食材は、にんじんであると判定する。
同様の方法で、食事内容推論部１０２は、食材Ｍ１は牛肉らしく、食材Ｍ４はじゃがいもらしいと推論する。
また、食事内容推論部１０２は、料理識別用情報から、カレーライスの中には例えばビーフカレーとチキンカレーとがあり、ビーフカレーとチキンカレーとを区別する食材は牛肉か鶏肉かであることがわかったものの、第１撮像画像から牛肉か鶏肉かは推論できなかった。しかし、今、食材Ｍ１は牛肉らしいと推論したことから、食事内容推論部１０２は、料理Ｄ１はビーフカレーらしいと推論する。

食事内容推論部１０２は、料理Ｄ１および食材Ｍ１～Ｍ５と同様の方法で、料理Ｄ２および食材Ｍ６についても、それが何であるかを推論する。ここでは、食事内容推論部１０２は、料理識別用情報を参考にすることなく、第１撮像画像から、料理Ｄ２はオレンジジュースであり、食材Ｍ６はオレンジと推論できたとする。

食事内容推論部１０２は、第１撮像画像から、または、第１撮像画像をもとに料理識別用情報を参考にして、料理（上述の例では料理Ｄ１、Ｄ２）または食材（上述の例では食材Ｍ１～Ｍ６）を推論すると、当該料理または食材の推論結果の確信度を算出する。
なお、食事内容推論部１０２が算出する確信度について、どのようなルールに従って当該確信度を算出するかは、予め決められている。例えば、第１撮像画像のみから推論できた料理または食材については、パターンマッチングの際の一致度合い等に応じて７０～１００（％）の範囲で確信度を算出し、第１撮像画像をもとに料理識別用情報を参考にして推論した料理または食材については、例えば、第１撮像画像上で判別できる面積に応じて、または、第１撮像画像上で推論できた料理または食材と料理識別用情報で定義されている料理または食材との総合的な一致度合いに応じて、０～６９（％）の範囲で確信度を算出するとのルールが決められている。
食事内容推論部１０２は、予め決められているルールに従って、料理または食材の確信度を算出すればよい。

上述の例では、例えば、食事内容推論部１０２は、料理Ｄ１をビーフカレーと推論した推論結果の確信度を５０（％）、食材Ｍ１を牛肉と推論した推論結果の確信度を２０（％）、食材Ｍ２をにんじんと推論した推論結果の確信度を３０（％）、食材Ｍ３を玉ねぎと推論した推論結果の確信度を１００（％）、食材Ｍ４をじゃがいもと推論した推論結果の確信度を２０（％）、食材Ｍ５をライスとした推論結果の確信度を１００（％）、料理Ｄ２をオレンジジュースと推論した推論結果の確信度を９０（％）、食材Ｍ６をオレンジと推論した推論結果の確信度を９０（％）と算出したとする。

なお、上述したような、食事内容推論部１０２による、第１撮像画像に基づくユーザが摂取する料理または食材の推論方法、および、確信度の算出方法は、一例に過ぎない。食事内容推論部１０２は、その他の方法で、ユーザが摂取する料理または食材を推論し、料理または食材の推論結果の確信度を算出してもよい。
例えば、食事内容推論部１０２は、学習済みのモデル（以下「機械学習モデル」という。）を用いて、ユーザが摂取する料理または食材の推論結果と当該推論結果の確信度を得てもよい。
機械学習モデルは、撮像画像を入力とし、確信度が付与された料理または食材に関する情報を出力する。機械学習モデルは予め管理者等によって作成され、食事内容推論部１０２が参照可能な場所に記憶されている。

食事内容推論部１０２は、料理または食材を推論すると、推論した料理または食材に関する食事摂取情報を作成する。

図６は、実施の形態１において食事内容推論部１０２が作成した食事摂取情報の一例を説明するための図である。
図６は、図４および図５を用いて説明したような例において食事内容推論部１０２が推論した料理（Ｄ１、Ｄ２）および食材（Ｍ１～Ｍ６）に関する食事摂取情報としている。
食事摂取情報は、料理を示す情報と食材を示す情報とが対応付けられた情報である。図６に示す食事摂取情報では、対応する料理と食材とには同じ識別番号（図６の「Ｎｏ」）が付与され、グループ化されている。食事摂取情報において、第１撮像画像上で料理または食材を特定可能な情報と、推論した料理または食材を示す情報と、確信度と、回答フラグとが付与される。
図６に示す食事摂取情報では、推論した料理または食材を示す情報は、料理または食材の名称としているが、これは一例に過ぎない。食事内容推論部１０２は、食事摂取情報において、推論した料理または食材がわかる情報を、推論した料理または食材を示す情報として設定すればよい。また、図６に示す食事摂取情報では、第１撮像画像上で料理または食材を特定可能な情報は、便宜上、Ｄ１、Ｄ２、Ｍ１～Ｍ６としているが、これは一例に過ぎない。食事内容推論部１０２は、食事摂取情報において、第１撮像画像上で料理または食材を特定可能な情報を設定すればよい。また、食事内容推論部１０２は、第１撮像画像上で料理または食材を特定可能な情報に、第１撮像画像において料理または食材の位置を示す情報（例えば、第１撮像画像上の座標）を、付与する。なお、図６において、第１撮像画像において料理または食材の位置を示す情報の図示は省略している。また、食事内容推論部１０２は、食事摂取情報において、算出した確信度を設定する。回答フラグについては、後述する。また、食事摂取情報において、例えば、識別番号単位で第１撮像画像が対応付けられてもよい。

食事内容推論部１０２は、作成した食事摂取情報を、記憶部１０６に記憶させる。
また、食事内容推論部１０２は、食事摂取情報を作成した旨を、質問作成部１０３に通知する。

記憶部１０６は、食事摂取情報を記憶する。
なお、図１では、記憶部１０６は食事摂取情報取得装置１に備えられるものとしているが、これは一例に過ぎない。記憶部１０６は、食事摂取情報取得装置１の外部の、食事摂取情報取得装置１が参照可能な場所に備えられてもよい。

質問作成部１０３は、食事内容推論部１０２が作成した食事摂取情報に基づき、食事内容推論部１０２が推論した料理または食材の中に質問を出力する対象となる対象料理または対象食材があるか否かを判定する。

例えば、質問作成部１０３は、記憶部１０６に記憶されている食事摂取情報に基づき、付与されている確信度が予め設定された閾値（以下「質問要否判定用閾値」という。）未満の料理または食材がある場合、対象料理または対象食材があると判定する。
質問作成部１０３は、食事摂取情報に基づき、付与されている確信度が質問要否判定用閾値未満の料理および食材がない場合は、対象料理および対象食材がないと判定する。
なお、質問要否判定用閾値は、予め管理者等によって設定され、質問作成部１０３が参照可能な場所に記憶されている。管理者等は、適宜、質問要否判定用閾値を設定可能である。
以下の実施の形態１において、「質問対象」というとき、当該「質問対象」は、質問作成部１０３が判定した対象料理または対象食材を指す。すなわち、質問作成部１０３が、食事内容推論部１０２が推論した料理または食材の中には対象料理および対象食材があると判定した場合、質問対象は当該対象料理および当該対象食材であり、質問作成部１０３が、食事内容推論部１０２が推論した料理または食材の中には対象料理のみあると判定した場合、質問対象は当該対象料理であり、質問作成部１０３が、食事内容推論部１０２が推論した料理または食材の中には対象食材のみあると判定した場合、質問対象は当該対象食材である。

質問作成部１０３は、対象料理または対象食材があると判定すると、質問対象について、質問対象が何であるかを問う質問を作成する。

質問作成部１０３は、例えば、質問対象が何であるかを指示語で問う質問を作成する。
具体例を挙げると、質問作成部１０３は、対象料理について、例えば、「その料理は何ですか？」、または、「今食べているその料理は何ですか？」と問う質問を作成する。
また、質問作成部１０３は、対象食材について、例えば、「その食材は何ですか？」、「その料理には何が入っていますか？」、または、「今食べているその食材は何ですか？」と問う質問を作成する。
なお、対象料理が複数ある場合、または、対象食材が複数ある場合、質問作成部１０３は、全ての対象料理、または、全ての対象食材について、作成する質問の内容を同じ内容にする必要はない。質問作成部１０３は、各対象料理について異なる内容の質問を作成してもよいし、各対象食材について異なる内容の質問を作成してもよい。

質問作成部１０３は、作成した質問に関する情報（以下「質問情報」という。）を作成し、質問情報を、動作検出部１０５、タイミング判定部１０７および質問出力部１０８に出力する。
質問情報において、質問と、第１撮像画像上で当該質問に対応する質問対象を特定可能な情報と、当該質問に対応する質問対象の第１撮像画像上における位置を示す情報とが対応付けられる。なお、質問作成部１０３は、例えば、作成した質問ごとに質問情報を作成する。

ここで、質問作成部１０３は、質問対象が複数存在する場合、質問情報において、複数の質問対象に優先順位を付与しておく。質問作成部１０３がどのようなルールに従って複数の質問対象に優先順位を付与するかは、予め決められている。
ここでは、一例として、質問作成部１０３は、ある対象料理に対象食材が含まれている場合、対象料理には、対象食材よりも高い優先順位を付与する。また、質問作成部１０３は、ある対象料理に含まれている対象食材が複数存在する場合、複数の対象食材について、確信度が低い対象食材ほど、高い優先順位を付与する。なお、質問作成部１０３は、複数の対象食材について、確信度が同じである場合は優先順位を任意とできる。また、質問作成部１０３は、対象料理が複数存在する場合、複数の対象料理について、確信度が低い対象料理ほど、高い優先順位を付与する。なお、質問作成部１０３は、複数の対象料理について、確信度が同じである場合は優先順位を任意とできる。

第２画像取得部１０４は、第２カメラ２２が撮像した第２撮像画像を取得する。
第２画像取得部１０４は、取得した第２撮像画像を動作検出部１０５に出力する。

動作検出部１０５は、第２画像取得部１０４が取得した第２撮像画像に基づき、質問対象に関係するユーザの動作を検出する。動作検出部１０５は、質問対象を、質問作成部１０３から出力された質問情報から特定する。動作検出部１０５は、公知の画像認識技術等を用いて、ユーザの動作を検出すればよい。
動作検出部１０５が、どのような動作を、料理または食材に関係する動作とするかは、予め管理者等によって定義されている。

なお、第１カメラ２１および第２カメラ２２の設置位置および画角は予め決められているので、動作検出部１０５は、第１撮像画像上の質問対象の位置と第２撮像画像上の料理または食材の位置とを対応付けることができる。すなわち、動作検出部１０５は、第１撮像画像上の質問対象が、第２撮像画像上でどの位置に撮像されているかを対応付けることができる。したがって、動作検出部１０５は、ユーザによる質問対象に関係する動作を検出できる。

例えば、動作検出部１０５は、ユーザによる質問対象が盛り付けられた食器に触る動作を検出する。
また、例えば、動作検出部１０５は、ユーザによる質問対象を食事用器具で保持する動作を検出する。実施の形態１において、ユーザが料理または食材を摂取する際に使用する道具を、食事用器具という。食事用器具とは、具体的には、箸、フォーク、ナイフ、または、スプーン等である。
また、例えば、動作検出部１０５は、ユーザによる質問対象を口に入れる動作を検出する。例えば、動作検出部１０５は、ユーザによる質問対象を咀嚼している動作を検出してもよい。
また、例えば、動作検出部１０５は、ユーザによる質問対象を飲み込む動作を検出する。

動作検出部１０５は、検出したユーザの動作に関する情報（以下「動作情報」という。）を、タイミング判定部１０７に出力する。動作検出部１０５は、動作情報において、例えば、検出したユーザの動作と、当該動作が行われた、言い換えれば、当該動作に関係する質問対象を特定可能な情報と、第２撮像画像上で質問対象の位置を示す情報（例えば、第２撮像画像上の座標）とを対応付ける。

なお、動作検出部１０５が第２画像取得部１０４の機能を有していてもよい。
実施の形態１において、第２画像取得部１０４はフレーム単位で第２撮像画像を取得する。動作検出部１０５は、第２画像取得部１０４が取得した最新のフレームに基づき、質問対象に関係するユーザの動作を検出する。

タイミング判定部１０７は、動作検出部１０５が質問対象に関係するユーザの動作を検出している期間から、質問作成部１０３が作成した質問を出力する質問タイミングを判定する。
具体的には、タイミング判定部１０７は、ユーザが質問対象に関係する動作を行っているときを質問タイミングと判定する。
例えば、タイミング判定部１０７は、ユーザが、質問対象が盛り付けられた食器を触る動作を行っているときを質問タイミングと判定する。
また、例えば、タイミング判定部１０７は、ユーザが質問対象を食事用器具で保持しているときを質問タイミングと判定する。
また、例えば、タイミング判定部１０７は、ユーザが質問対象を口に入れる動作をしているとき、または、ユーザが質問対象を咀嚼しているときを、質問タイミングと判定する。
また、例えば、タイミング判定部１０７は、ユーザが質問対象を飲み込む動作をしているときを質問タイミングと判定する。

質問対象が複数ある場合、タイミング判定部１０７は、例えば、質問対象に付与されている優先順位に従って、どの質問対象に関係する動作を行っているときを、質問タイミングと判定するか特定する。タイミング判定部１０７は、質問作成部１０３から出力された質問情報に基づけば、質問対象に付与されている優先順位を把握できる。

なお、タイミング判定部１０７は、ユーザが質問対象に関係する動作を継続している間を、質問タイミングと判定する。

ただし、タイミング判定部１０７は、例えば、ユーザ等による発話がある間は質問タイミングの判定を行わないようにしてもよい。タイミング判定部１０７は、音声認識部１１０による音声認識結果に基づいて発話の有無を判定すればよい。音声認識部１１０については、後述する。
タイミング判定部１０７が、音声認識部１１０による音声認識結果に基づき発話の有無を判定し、発話がある間は質問タイミングの判定を行わないようにすることで、食事摂取情報取得装置１は、ユーザ等による発話によって、ユーザが聞き取りづらい状況で、当該ユーザに対して対象料理または対象食材が何であるかを問う質問が出力されないようにできる。

タイミング判定部１０７は、質問タイミングであると判定すると、質問タイミングであることを通知する情報（以下「タイミング到来情報」という。）を、質問出力部１０８に出力する。タイミング判定部１０７は、タイミング到来情報において、質問タイミングである旨を示す情報と当該質問タイミングはユーザがどの質問対象に対して関係する動作を行ったことによるものかを示す情報とを対応付ける。

質問出力部１０８は、質問作成部１０３から出力された質問情報とタイミング判定部１０７から出力されたタイミング到来情報とに基づき、タイミング判定部１０７が判定した質問タイミングで、質問作成部１０３が作成した質問を音声出力させる情報（以下「質問音声出力情報」という。）を、スピーカ２４に出力する。
詳細には、質問出力部１０８は、タイミング判定部１０７が判定した質問タイミングで、質問情報において、当該質問タイミングであると判定されることとなったユーザの動作が行われた質問対象に対応付けられている質問、を音声出力させる質問音声出力情報をスピーカ２４に出力する。スピーカ２４は、質問を音声出力する。

音声取得部１０９は、マイク２３が収集した周囲の発話音声を取得する。
音声取得部１０９は、質問出力部１０８が質問音声出力情報に基づき質問出力部１０８が音声出力させた質問に対するユーザの発話音声を取得する。
音声取得部１０９は、取得した発話音声を音声認識部１１０に出力する。

音声認識部１１０は、音声認識処理を実行し、音声取得部１０９が取得した発話音声に対する音声認識を行う。音声認識部１１０は、公知の音声認識技術を用いて音声認識処理を実行すればよい。
音声認識部１１０は、音声認識結果を、反映部１１１に出力する。

反映部１１１は、音声認識部１１０による音声認識結果に基づき特定した、質問出力部１０８が質問音声出力情報に基づき質問出力部１０８が音声出力させた質問に対してユーザが回答した料理または食材に関する情報を、記憶部１０６に記憶されている食事摂取情報に反映させる。
なお、例えば、質問出力部１０８は、質問音声出力情報をスピーカ２４に出力させた際、どの質問対象に関する質問が行われたのかを示す情報（以下「出力質問情報」という。）を反映部１１１に出力しておく。質問出力部１０８は、出力質問情報を、例えば、質問と、第１撮像画像上で質問対象を特定可能な情報とが対応付けられた情報とする。質問出力部１０８は、出力質問情報において、さらに、質問対象の第１撮像画像上における位置を示す情報を対応付けてもよいし、第１撮像画像を対応付けてもよい。なお、質問出力部１０８は、質問作成部１０３から出力される質問情報に基づけば、第１撮像画像上で当該質問に対応する質問対象を特定可能な情報と、当該質問に対応する質問対象の第１撮像画像上における位置を示す情報とを判定できる。また、質問出力部１０８は、質問作成部１０３から第１撮像画像を取得すればよい。反映部１１１は、質問出力部１０８から出力された情報に基づき、ユーザに対する質問が行われたこと、および、その内容を把握する。

ここで、図７は、実施の形態１において、反映部１１１が、ユーザが回答した料理または食材に関する情報を反映させた後の食事摂取情報の一例を説明するための図である。
図７は、例えば、図６にて示したような食事摂取情報に基づき質問作成部１０３によって作成された、料理Ｄ１について「その料理は何ですか？」と問う質問を、質問出力部１０８が音声出力させたのに対し、ユーザが「ビーフカレー」と回答した場合の、当該回答を反映させた後の食事摂取情報の一例としている。

料理Ｄ１については、もともと食事内容推論部１０２がビーフカレーと推論していたが、確信度が５０（％）であった。これに対し、ユーザから「ビーフカレー」との回答を得られたことで、反映部１１１は、料理Ｄ１がビーフカレーであると確定させる。すなわち、反映部１１１は、食事摂取情報において、料理Ｄ１に対応する料理を示す情報を、ビーフカレーを示す情報に更新し、当該ビーフカレーを示す情報に付与されている確信度を１００（％）に更新する。
なお、仮に、料理Ｄ１について「その料理は何ですか？」と問う質問に対し、ユーザが「チキンカレー」と回答したとする。その場合、反映部１１１は、例えば、食事摂取情報において、料理Ｄ１に対応する料理を示す情報を、チキンカレーを示す情報となるよう食事摂取情報を更新し、当該チキンカレーを示す情報に付与されている確信度を１００（％）と反映する。

また、反映部１１１は、あわせて、食事摂取情報において、更新した料理または食材を示す情報に付与されている回答フラグを「１」とする。当該回答フラグは、食事摂取情報において、料理または食事を示す情報が、ユーザと対話してユーザから得られた料理または食事を示す情報であることを示す。

実施の形態１に係る食事摂取情報取得装置１の動作について説明する。
図８は、実施の形態１に係る食事摂取情報取得装置１の動作について説明するためのフローチャートである。
食事摂取情報取得装置１は、例えば、当該食事摂取情報取得装置１の電源がオンにされると、図８のフローチャートで示すような動作を開始する。なお、これは一例に過ぎず、例えば、食事摂取情報取得装置１は、ユーザから動作を開始する指示を受け付けると、図８のフローチャートで示すような動作を開始してもよい。例えば、ユーザは、食事摂取情報取得装置１が備えているタッチパネル式ディスプレイを操作して、食事摂取情報取得装置１の動作を開始させる指示を入力する。食事摂取情報取得装置１は、入力された指示を受け付け、動作を開始する。

第１画像取得部１０１は、第１カメラ２１が撮像した第１撮像画像を取得し、取得した第１撮像画像を食事内容推論部１０２に出力する。
食事内容推論部１０２は、第１画像取得部１０１が取得した第１撮像画像に基づき、ユーザが摂取する料理または食材を推論する（ステップＳＴ１）。
そして、食事内容推論部１０２は、推論した料理または食材に関する食事摂取情報を作成する。その際、食事内容推論部１０２は、料理または食材の推論結果の確からしさをあらわす確信度を算出する。
食事内容推論部１０２は、作成した食事摂取情報を、記憶部１０６に記憶させる。
また、食事内容推論部１０２は、食事摂取情報を作成した旨を、質問作成部１０３に通知する。

質問作成部１０３は、ステップＳＴ１で食事内容推論部１０２が作成した食事摂取情報に基づき、食事内容推論部１０２が推論した料理または食材の中に対象料理または対象食材があるか否かを判定する（ステップＳＴ２）。

質問作成部１０３が、対象料理および対象食材がないと判定した場合（ステップＳＴ２の“ＮＯ”の場合）、食事摂取情報取得装置１の動作は、ステップＳＴ１の処理に戻る。

対象料理または対象食材があると判定した場合（ステップＳＴ２の“ＹＥＳ”の場合）、質問作成部１０３は、質問対象について、当該質問対象が何であるかを問う質問を作成する（ステップＳＴ３）。

具体例を挙げると、例えば、記憶部１０６に記憶されている食事摂取情報が、図６で示したような内容の食事摂取情報であったとする。また、質問要否判定用閾値には７０（％）が設定されていたとする。この場合、料理Ｄ１、食材Ｍ１、食材Ｍ２、および、食材Ｍ４が質問要否判定用閾値未満であるので、質問作成部１０３は、対象料理および対象食材があると判定する。
そして、質問作成部１０３は、質問対象である料理Ｄ１、食材Ｍ１、食材Ｍ２、および、食材Ｍ４について、それぞれ、料理Ｄ１、食材Ｍ１、食材Ｍ２、および、食材Ｍ４が何であるかを問う質問を作成する。
例えば、質問作成部１０３は、料理Ｄ１について、例えば、「その料理は何ですか？」と問う質問を作成する。また、質問作成部１０３は、食材Ｍ１、食材Ｍ２、および、食材Ｍ４について、例えば、「その食材は何ですか？」と問う質問を作成する。

質問作成部１０３は、質問情報を、動作検出部１０５、タイミング判定部１０７および質問出力部１０８に出力する。
ここでは、質問作成部１０３は、例えば、料理Ｄ１を示す情報と「その料理は何ですか？」とが対応付けられた質問情報、食材Ｍ１と「その料理は何ですか？」とが対応付けられた質問情報、食材Ｍ２と「その料理は何ですか？」とが対応付けられた質問情報、および、食材Ｍ４と「その料理は何ですか？」とが対応付けられた質問情報を作成する。
質問作成部１０３は、例えば、優先度が高い順に料理Ｄ１、食材Ｍ１、食材Ｍ４、食材Ｍ２となるよう、料理Ｄ１、食材Ｍ１、食材Ｍ４、および、食材Ｍ２に優先順位を付与する。

第２画像取得部１０４は、第２カメラ２２が撮像した第２撮像画像を取得し、取得した第２撮像画像を動作検出部１０５に出力する。
動作検出部１０５は、第２画像取得部１０４が取得した第２撮像画像に基づき、質問対象に関係するユーザの動作を検出する（ステップＳＴ４）。

動作検出部１０５は、例えば、ユーザが、料理Ｄ１、食材Ｍ１、食材Ｍ２、または、食材Ｍ４が盛り付けられた食器を触る動作、ユーザが、料理Ｄ１、食材Ｍ１、食材Ｍ２、または、食材Ｍ４を食事用器具で保持する動作、ユーザが、料理Ｄ１、食材Ｍ１、食材Ｍ２、または、食材Ｍ４を口に入れる動作、ユーザが、料理Ｄ１、食材Ｍ１、食材Ｍ２、または、食材Ｍ４を咀嚼している動作、ユーザが、料理Ｄ１、食材Ｍ１、食材Ｍ２、または、食材Ｍ４を飲み込む動作を検出する。

動作検出部１０５は、検出したユーザの動作に関する動作情報を、タイミング判定部１０７に出力する。

タイミング判定部１０７は、ステップＳＴ４にて動作検出部１０５が質問対象に関係するユーザの動作を検出している期間から、質問作成部１０３が作成した質問を出力する質問タイミングを判定する（ステップＳＴ５）。具体的には、タイミング判定部１０７は、ユーザが質問対象に関係する動作を行っているときを質問タイミングと判定する。

ここでは、タイミング判定部１０７は、ユーザが、料理Ｄ１、食材Ｍ１、食材Ｍ２、または、食材Ｍ４に関係する動作を行っているときを質問タイミングと判定する。
ここで、今、複数の質問対象（料理Ｄ１、食材Ｍ１、食材Ｍ２、および、食材Ｍ４）がある。質問情報において、料理Ｄ１に付与されている優先順位が一番高いとする。この場合、タイミング判定部１０７は、ユーザが料理Ｄ１に関係する動作を行っているときを質問タイミングと判定する。例えば、タイミング判定部１０７は、ユーザが、料理Ｄ１が盛り付けられた食器を触る動作を行っているとき、ユーザが、料理Ｄ１を食事用器具で保持しているとき、ユーザが、料理Ｄ１を口に入れる動作をしているとき、ユーザが、料理Ｄ１を咀嚼しているとき、または、ユーザが、料理Ｄ１を飲み込む動作をしているときを、質問タイミングと判定する。

タイミング判定部１０７は質問タイミングと判定しなかった場合（ステップＳＴ５の“ＮＯ”の場合）、質問タイミングが判定されなかった旨を動作検出部１０５に通知する。動作検出部１０５は、質問タイミングが判定されなかった旨が通知されると、引き続き、第２画像取得部１０４が取得した第２撮像画像に基づき、質問対象に関係するユーザの動作を検出する（ステップＳＴ４）。

タイミング判定部１０７は、質問タイミングであると判定すると（ステップＳＴ５の“ＹＥＳ”の場合）、タイミング到来情報を、質問出力部１０８に出力する。
ここでは、タイミング判定部１０７は、料理Ｄ１について、質問タイミングである旨のタイミング到来情報を、質問出力部１０８に出力する。

質問出力部１０８は、ステップＳＴ３にて質問作成部１０３から出力された質問情報と、ステップＳＴ５にてタイミング判定部１０７から出力されたタイミング到来情報とに基づき、質問音声出力情報を、スピーカ２４に出力する（ステップＳＴ６）。
ここでは、質問出力部１０８は、例えば、質問情報において料理Ｄ１に対応付けられている「その料理は何ですか？」を音声出力させる質問音声出力情報を作成し、これをスピーカ２４に出力する。その結果、スピーカ２４から「その料理は何ですか？」と質問する音声が出力される。

音声取得部１０９は、ステップＳＴ６にて出力された質問に対してユーザが回答すると、当該回答によるユーザの発話音声を取得するまで待機する（ステップＳＴ７の“ＮＯ”の場合）。
発話音声を取得すると（ステップＳＴ７の“ＹＥＳ”の場合）、音声取得部１０９は、取得した発話音声を音声認識部１１０に出力する。
なお、音声取得部１０９は、常時、周囲の発話音声を取得している。ステップＳＴ７では、例えば、音声取得部１０９は、質問出力部１０８が質問音声出力情報を出力させた直後に取得した発話音声を、質問に対する回答によるユーザの発話音声とみなす。例えば、質問出力部１０８は質問音声出力情報を出力した際にその旨を音声取得部１０９に通知する。なお、図１において、質問出力部１０８から音声取得部１０９への矢印は省略している。

音声認識部１１０は、音声認識処理を実行し、ステップＳＴ７にて音声取得部１０９が取得した発話音声に対する音声認識を行う（ステップＳＴ８）。
音声認識部１１０は、音声認識結果を、反映部１１１に出力する。

反映部１１１は、ステップＳＴ８における音声認識部１１０による音声認識結果に基づき特定した、ステップＳＴ６にて質問出力部１０８が質問音声出力情報に基づき質問出力部１０８が音声出力させた質問に対してユーザが回答した料理または食材に関する情報を、記憶部１０６に記憶されている食事摂取情報に反映させる（ステップＳＴ９）。このとき、反映部１１１は、あわせて、食事摂取情報において、対応する料理または食材を示す情報に付与されている回答フラグを「１」とする。
例えば、ユーザが、「その料理は何ですか？」との質問に対し、「ビーフカレー」と回答したとする。この場合、反映部１１１は、当該回答を食事摂取情報に反映させる。また、反映部１１１は、あわせて、食事摂取情報において、料理Ｄ１を示す情報に付与されている回答フラグを「１」とする。その結果、反映部１１１は、記憶部１０６に記憶されている食事摂取情報について、料理Ｄ１に関する情報を、図７に示したような内容に更新する。

ステップＳＴ９の処理が完了すると、食事摂取情報取得装置１の動作は、ステップＳＴ１の処理に戻る。

食事内容推論部１０２は、再び、第１画像取得部１０１が取得した第１撮像画像に基づき、ユーザが摂取する料理または食材を推論する（ステップＳＴ１）。
ステップＳＴ２では、質問作成部１０３は、ステップＳＴ９にて反映部１１１がユーザの回答を反映させた後の食事摂取情報に基づき、食事内容推論部１０２が推論した料理または食材の中に対象料理または対象食材があるか否かを判定することになる。すなわち、質問作成部１０３は、反映部１１１が、ユーザが回答した料理または食材に関する情報を反映させた後の食事摂取情報に基づき、食事内容推論部１０２が推論した料理または食材の中に質問対象があるか否かを再判定する。
このように、食事摂取情報取得装置１は、例えば、確信度が低い料理または食材が何であるかのユーザへ対話による質問と、ユーザから得た回答の食事摂取情報への反映を繰り返すことにより、食事摂取情報の精度を上げることができる。

なお、食事内容推論部１０２は、ステップＳＴ１にて、既に食事摂取情報が作成されている料理について当該料理に含まれている新たな食材を推論すると、当該料理に対応付けられている食材に、新たに推論した食材を追加する。
例えば、今記憶部１０６には図７に示したような内容の食事摂取情報が記憶されているとする。
食事内容推論部１０２は、再び、最新の第１撮像画像に基づきユーザが摂取する料理または食材を推論した結果、新たに、カレーのルーの具材として、食材Ｍ７を検出し、これを茄子と推論したとする。この場合、食事内容推論部１０２は、食事摂取情報において、料理Ｄ１に対応する食材を示す情報に、茄子を示す情報を追加する。
ユーザが食事を進めていくと、食器の中の料理または食材の様子が変化する。例えば、皿に盛られていた料理の量は減っていく。これに伴い、それまで第１撮像画像に対する画像認識処理では検出できていなかった食材が新たに認識されるようになる可能性がある。

また、食事内容推論部１０２は、例えば、ステップＳＴ１にて、既に食事摂取情報が作成されている料理または食材について、過去に推論した料理または食材とは異なる料理または食材を推論した場合、食事摂取情報を、新たに推論した内容に更新してもよい。
ただし、食事内容推論部１０２は、食事摂取情報において回答フラグ「１」が付与されている料理または食材に関する情報については、更新しないようにする。ユーザから得られた回答は確かであると想定されるためである。

このように、食事摂取情報取得装置１は、撮像画像に基づき、ユーザが摂取する料理または食材を推論して食事摂取情報を作成する。食事摂取情報取得装置１は、推論した料理または食材のうちの質問対象（対象料理または対象食材）について、質問対象（対象料理または対象食材）が何であるかを問う質問を作成する。また、食事摂取情報取得装置１は、撮像画像に基づき、質問対象（対象料理または対象食材）に関係するユーザの動作を検出する。
そして、食事摂取情報取得装置１は、質問対象（対象料理または対象食材）に関係するユーザの動作を検出している期間から質問を出力する質問タイミングを判定する。食事摂取情報取得装置１は、質問タイミングで質問を音声出力させる質問音声出力情報を出力し、当該質問に対するユーザの発話音声を取得すると、発話音声の音声認識結果に基づき特定した、質問に対してユーザが回答した料理または食材に関する情報を、食事摂取情報に反映させる。
食事摂取情報取得装置１は、質問対象（対象料理または対象食材）に関係するユーザの動作を検出している期間から質問タイミングを判定するので、ユーザに対し、直感的に質問されている料理または食材を把握させ、迷うことなく回答させられる。その結果、食事摂取情報取得装置１は、ユーザが、具体的にどの料理または食材について質問されているかがわからず、回答に迷う事態が生じることを低減できる。つまり、食事摂取情報取得装置１は、ユーザに対し、摂取した食材を確実に回答させるよう質問することで、ユーザが摂取した料理または食材に関する情報を得ることができる。
このように、食事摂取情報取得装置１は、簡易的に、かつ、正確性高く、ユーザの食事状況を把握するための食事摂取情報を取得することができる。

以上の実施の形態１では、食事摂取情報取得装置１において、タイミング判定部１０７は、質問対象が複数である場合、質問対象に付与されている優先順位に従って、どの質問対象に関係する動作を行っているときを、質問タイミングと判定するか特定していたが、これは一例に過ぎない。タイミング判定部１０７は、優先順位にかかわらず、複数の質問対象のいずれかについて関係する動作が検出されたときを質問タイミングと判定してもよい。この場合、質問作成部１０３は、質問対象に優先順位を付与することを必須としない。

また、以上の実施の形態１において、質問作成部１０３は、質問に対する回答が、他の対象料理または対象食材に対する回答ともできる対象料理または対象食材には高い優先順位を付与するようにしてもよい。
上述の具体例でいうと、例えば、食事摂取情報が図６で示すような内容であったとする。この場合、質問作成部１０３は、料理Ｄ１を対象料理、食材Ｍ１、Ｍ２、Ｍ４を対象食材と判定する。ここで、食材Ｍ１が牛肉であることが確定すれば、料理Ｄ１が何かを問う質問がユーザに出力されなくても、質問作成部１０３は当該料理Ｄ１がビーフカレーと推論できる。
そこで、質問作成部１０３は、食材Ｍ１の優先順位には高い優先順位を付与する。質問作成部１０３は、食材Ｍ１に、質問対象の中で最も高い優先順位を付与してもよいし、少なくとも料理Ｄ１より高い優先順位を付与してもよい。この場合、質問作成部１０３は、食材Ｍ１には、当該食材Ｍ１が何であるかを問う質問の回答が料理Ｄ１の回答にもなる旨の情報を付与する。この、食材Ｍ１が何であるかを問う質問の回答が料理Ｄ１の回答にもなる旨の情報は、例えば、質問出力部１０８を介して、反映部１１１に引き継がれる。反映部１１１は、食材Ｍ１が何であるかを問う質問の回答を食事摂取情報に反映させる際、料理Ｄ１に関する情報も更新する。例えば、反映部１１１は、ユーザから「牛肉」である旨の回答が得られれば、食事摂取情報において、食材Ｍ１を示す情報を、牛肉を示す情報に更新するとともに、料理Ｄ１を示す情報を、ビーフカレーを示す情報に更新する。なお、反映部１１１は、食材Ｍ１の確信度も、料理Ｄ１の確信度も、１００（％）とすればよい。
なお、質問に対する回答が他の料理または食材に対する回答ともできる料理または食材、および、その場合の他の料理または食材が定義された情報（以下「複数回答可能情報」という。）は、予め、管理者等によって、料理単位で定義されている。管理者等は、例えば、料理識別用情報を作成する際に、複数回答可能情報についても作成しておく。

また、以上の実施の形態１では、食事摂取情報取得装置１において、質問作成部１０３は、付与されている確信度が質問要否判定用閾値未満の料理または食材がある場合、対象料理または対象食材があると判定したが、これは一例に過ぎない。
質問作成部１０３は、適宜の条件に従って、対象料理または対象食材があるか否かを判定可能である。例えば、質問作成部１０３は、確信度が閾値以上の料理または食材がある場合、これを対象料理または対象食材と判定してもよい。
この場合、例えば、質問作成部１０３は、「その料理はビーフカレーでいいですね？」、または、「その食材はにんじんでいいですね？」等、対象料理または対象食材を確認するような形態で対象料理または対象食材が何であるかを問う質問を作成してもよい。

また、以上の実施の形態１では、質問作成部１０３は、質問対象が何であるかを指示語で問う質問を作成するものとしたが、これは一例に過ぎない。
質問作成部１０３は、指示語を用いない質問を作成してもよい。例えば、質問作成部１０３は、「今食べている料理は何ですか？」、「チキンカレーですか？」、「にんじんですね？」等、指示語を用いず質問対象が何であるかを問う質問を作成してもよい。ただし、食事摂取情報取得装置１は、質問対象が何であるかを指示語で問う質問を作成するほうが、指示語を用いない質問を作成する場合よりも、自然な対話で質問対象が何であるかの回答を得るようにできる。また、食事摂取情報取得装置１は、短い文章でのユーザとの意思疎通を可能とできる。

また、以上の実施の形態１において、質問作成部１０３は、食事内容推論部１０２が推論した料理または食材のうちから対象料理または対象食材を判定する機能を有さず、食事内容推論部１０２が推論した料理または食材を全て対象料理または対象食材と判定してもよい。
この場合、図８のフローチャートを用いて説明した食事摂取情報取得装置１の動作について、ステップＳＴ２の処理は省略可能である。

また、以上の実施の形態１において、食事内容推論部１０２が機械学習モデルを用いてユーザが摂取する料理または食材の推論結果と当該推論結果の確信度を得るようにした場合、食事摂取情報取得装置１は、質問に対する回答によるユーザの発話音声を取得すると、機械学習モデルを再学習する学習部（図示省略）を備えてもよい。
例えば、学習部は、反映部１１１から、食事摂取情報を更新した旨の通知を取得する。また、学習部は、質問作成部１０３から質問出力部１０８および反映部１１１を介して第１撮像画像を取得する。学習部は、第１撮像画像と食事摂取情報とに基づき学習用データを作成し、機械学習モデルを再学習する。

以上の実施の形態１では、食事摂取情報取得装置１の構成および動作の説明において、具体例として、食事摂取情報取得装置１は、対象料理および対象食材があると判定したケースを挙げたが、これは一例に過ぎない。
食事摂取情報取得装置１が、対象料理のみあると判定するケースもあり得る。

例えば、第１撮像画像が、図４に示したような料理Ｄ１を撮像した撮像画像であるが、茶色のルーで皿のほぼ全体が覆われており、第１撮像画像に対する画像認識処理では茶色のルーしか画像認識できないとする。この場合、食事摂取情報取得装置１において、食事内容推論部１０２は、茶色のルーである食材のみを推論する。食事内容推論部１０２は、茶色のルーだけでは、料理Ｄ１が例えばカレーライスなのかビーフシチューなのか推論できない。そこで、食事内容推論部１０２は、料理識別用情報（例えば、図５参照）を参考にして料理Ｄ１を推論する。料理識別用情報を参考にしても、料理Ｄ１がカレー（例えばビーフカレーまたはチキンカレー）なのかビーフシチューなのかわからないため、食事内容推論部１０２は、例えば、料理Ｄ１をビーフシチューと推論し、料理Ｄ１を示す情報に付与される信度を３０（％）とする。この場合、当該料理Ｄ１は質問要否判定用閾値未満となるので、質問作成部１０３は、料理Ｄ１を対象料理と判定する。また、質問作成部１０３は、料理Ｄ１が何なのかを問う質問（例えば、「その料理は何ですか？」）を作成する。
動作検出部１０５は、ユーザによる料理Ｄ１に関係する動作、例えば、ユーザによる料理Ｄ１が盛り付けられた皿を触る動作を検出し、タイミング判定部１０７は、動作検出部１０５がユーザによる料理Ｄ１が盛り付けられた皿を触る動作を検出したときを、質問タイミングと判定する。

質問出力部１０８は、スピーカ２４に質問音声出力情報を出力し、スピーカ２４から質問作成部１０３が作成した「その料理は何ですか？」と問う質問を音声出力させる。
ここで、ユーザは、「その料理は何ですか？」との質問に対し、「カレー」と回答したとする。この場合、反映部１１１は、食事摂取情報において、料理Ｄ１についてビーフシチューを示す情報を、カレーを示す情報に更新する。しかし、この時点でも、まだ、料理Ｄ１はビーフカレーなのかチキンカレーなのかわからない。そこで、反映部１１１は、料理Ｄ１はビーフカレーらしいと推論し、食事摂取情報においてビーフシチューを示す情報を、ビーフカレーを示す情報に更新し、当該ビーフカレーを示す情報に付与する確信度を５０（％）に更新する。また、反映部１１１は、ビーフカレーを示す情報に対応付けられている回答フラグについては、「０」のままとする。このように、反映部１１１は、質問してもユーザから確度の高い回答が得られなかった場合には、ユーザと対話してもユーザから料理または食材に関する情報が得られなかったとみなしてもよい。あるいは、反映部１１１は、食事摂取情報において、回答フラグは「１」とし、当該回答フラグとは別の、再質問要フラグに「１」を設定するようにしてもよい。食事内容推論部１０２は、回答フラグが「１」であっても、再質問要フラグに「１」が設定されている場合には、当該回答フラグ「１」が対応付けられている料理または食材を示す情報を更新可とする。

反映部１１１によって、料理Ｄ１はビーフカレーを示す情報に食事摂取情報が更新されると、当該ビーフカレーを示す情報に付与されている確信度が質問要否判定用閾値未満であることから、質問作成部１０３は、再び料理Ｄ１を対象料理と判定し、当該料理Ｄ１が何であるかを問う質問を作成することになる。ここで、質問作成部１０３は、２度目に料理Ｄ１が何であるかを問う質問を作成する際には、例えば、「それはビーフカレーですか？」と、直接、食事内容推論部１０２が推論した料理Ｄ１であっているかを問う質問を作成してもよい。
質問出力部１０８は、再度、ユーザによる料理Ｄ１が盛り付けられた皿を触る動作が検出されたときに当該料理Ｄ１について何であるかをユーザに質問する。例えば、「それはビーフカレーですか？」との質問に対し、ユーザが「はい」と回答した場合、反映部１１１は、食事内容推論部１０２の推論は正しかったと判定し、食事摂取情報において、料理Ｄ１について、ビーフカレーを示す情報はそのままとして、当該ビーフカレーを示す情報に付与されている確信度を１００（％）に更新する。一方、例えば、ユーザが「いいえ」と回答した場合、反映部１１１は、例えば、食事摂取情報において、料理Ｄ１について、ビーフカレーを示す情報を、チキンカレーを示す情報に更新し、当該チキンカレーを示す情報に付与されている確信度を７０（％）に更新する。反映部１１１は、例えば、食事摂取情報において、料理Ｄ１について、ビーフカレーを示す情報を、チキンカレーを示す情報に更新し、当該チキンカレーを示す情報に付与されている確信度を５０（％）として、再度料理Ｄ１が何であるかを問う質問が行われるようにしてもよい。

なお、上述のとおり、ユーザが食事を進めると、食事摂取情報取得装置１において、食事内容推論部１０２が、第１撮像画像に基づいて料理Ｄ１に含まれている食材を推論可能となる可能性がある。食事内容推論部１０２は料理Ｄ１に含まれている食材を推論すると、食事摂取情報に、当該食材を示す情報を追加する。食事内容推論部１０２は、料理Ｄ１に含まれている食材である牛肉を推論可能となったときに、料理識別用情報を参考にして、料理Ｄ１をビーフカレーと推論するようにしてもよい。

また、食事摂取情報取得装置１が、対象食材のみあると判定するケースもあり得る。
例えば、食事内容推論部１０２は、第１撮像画像に基づき、おにぎりを推論できたが、おにぎりの中の具材（食材Ｘとする）が画像認識できないとする。この場合、食事摂取情報取得装置１において、食事内容推論部１０２は、第１撮像画像からは、例えば、料理であるおにぎりと食材であるのりと食材であるごはんを推論する。そして、食事内容推論部１０２は、料理識別用情報を参考にして食材Ｘを推論する。食事内容推論部１０２は、例えば、食材Ｘをかつおぶしと推論し、かつおぶしを示す情報に付与される確信度を５０（％）と算出する。この場合、確信度５０（％）は質問要否判定用閾値未満となるので、質問作成部１０３は、食材Ｘを対象食材と判定する。また、質問作成部１０３は、食材Ｘが何なのかを問う質問（例えば、「その具材は何ですか？」）を作成する。

動作検出部１０５は、ユーザによる食材Ｘに関係する動作、例えば、ユーザが食材Ｘを口に入れる動作を検出し、タイミング判定部１０７は、動作検出部１０５がユーザによる食材Ｘを口に入れる動作を検出したときを、質問タイミングと判定する。
質問出力部１０８は、スピーカ２４に質問音声出力情報を出力し、スピーカ２４から質問作成部１０３が作成した「その具材は何ですか？」と問う質問を音声出力させる。
ここで、ユーザは、「その具材は何ですか？」との質問に対し、「ちりめんじゃこ」と回答したとする。この場合、反映部１１１は、食事摂取情報において、食材Ｘについて、かつおぶしを示す情報を、ちりめんじゃこを示す情報に更新する。また、反映部１１１は、食事摂取情報において、ちりめんじゃこを示す情報に付与される確信度を１００（％）に更新する。また、反映部１１１は、食事摂取情報において、ちりめんじゃこを示す情報に付与される回答フラグを「１」に更新する。

また、以上の実施の形態１では、食事摂取情報取得装置１はロボット２に搭載されているものとしたが、これは一例に過ぎない。
食事摂取情報取得装置１は、例えば、スマートスピーカ等の音声出力機能を有する装置（図示省略）に搭載されてもよい。
また、食事摂取情報取得装置１は、サーバ（図示省略）に搭載されていてもよい。例えば、第１画像取得部１０１と、食事内容推論部１０２、質問作成部１０３、第２画像取得部１０４と、動作検出部１０５と、タイミング判定部１０７と、質問出力部１０８と、音声取得部１０９と、音声認識部１１０と、反映部１１１のうちの一部がサーバに搭載されてもよい。

また、以上の実施の形態１では、第１カメラ２１と第２カメラ２２は別々のカメラとしたが、これは一例に過ぎない。第１カメラ２１と第２カメラ２２を共通のカメラとしてもよい。

なお、以上の実施の形態１において、食事摂取情報取得装置１は、ユーザが摂取したカロリーを計算するカロリー計算装置（図示省略）と接続可能である。
例えば、食事摂取情報取得装置１は、記憶部１０６に記憶させる食事摂取情報を更新する都度、更新後の食事摂取情報と第１撮像画像とをカロリー計算装置に連携する。カロリー計算装置は、食事摂取情報と第１撮像画像とに基づき、ユーザが接種したカロリーを計算する。また、例えば、食事摂取情報取得装置１は、第１撮像画像のみをカロリー計算装置に連携し、カロリー計算装置は、第１撮像画像に基づき、ユーザが摂取したカロリーを計算することもできる。カロリー計算装置は、撮像画像に基づいて摂取カロリーを計算する公知の技術を用いて、ユーザが摂取したカロリーを計算すればよい。
例えば、カロリー計算装置が計算したユーザの摂取カロリーに関する情報は、食事摂取情報取得装置１が作成した食事摂取情報とともに、ユーザの食生活改善に向けたレコメンドまたは健康管理に使用される。
なお、食事摂取情報取得装置１が、カロリー計算機能を有していてもよい。

図９Ａおよび図９Ｂは、実施の形態１に係る食事摂取情報取得装置１のハードウェア構成の一例を示す図である。
実施の形態１において、第１画像取得部１０１と、食事内容推論部１０２、質問作成部１０３、第２画像取得部１０４と、動作検出部１０５と、タイミング判定部１０７と、質問出力部１０８と、音声取得部１０９と、音声認識部１１０と、反映部１１１の機能は、処理回路１００１により実現される。すなわち、食事摂取情報取得装置１は、ユーザに対し、摂取した食材を確実に回答させるよう質問することで、ユーザが摂取した料理または食材に関する情報を得る制御を行うための処理回路１００１を備える。
処理回路１００１は、図９Ａに示すように専用のハードウェアであっても、図９Ｂに示すようにメモリに格納されるプログラムを実行するプロセッサ１００４であってもよい。

処理回路１００１が専用のハードウェアである場合、処理回路１００１は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、またはこれらを組み合わせたものが該当する。

処理回路がプロセッサ１００４の場合、第１画像取得部１０１と、食事内容推論部１０２、質問作成部１０３、第２画像取得部１０４と、動作検出部１０５と、タイミング判定部１０７と、質問出力部１０８と、音声取得部１０９と、音声認識部１１０と、反映部１１１の機能は、ソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ１００５に記憶される。プロセッサ１００４は、メモリ１００５に記憶されたプログラムを読み出して実行することにより、第１画像取得部１０１と、食事内容推論部１０２、質問作成部１０３、第２画像取得部１０４と、動作検出部１０５と、タイミング判定部１０７と、質問出力部１０８と、音声取得部１０９と、音声認識部１１０と、反映部１１１の機能を実行する。すなわち、食事摂取情報取得装置１は、プロセッサ１００４により実行されるときに、上述の図８のステップＳＴ１～ステップＳＴ９が結果的に実行されることになるプログラムを格納するためのメモリ１００５を備える。また、メモリ１００５に記憶されたプログラムは、第１画像取得部１０１と、食事内容推論部１０２、質問作成部１０３、第２画像取得部１０４と、動作検出部１０５と、タイミング判定部１０７と、質問出力部１０８と、音声取得部１０９と、音声認識部１１０と、反映部１１１の処理の手順または方法をコンピュータに実行させるものであるともいえる。ここで、メモリ１００５とは、例えば、ＲＡＭ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）等の不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等が該当する。

なお、第１画像取得部１０１と、食事内容推論部１０２、質問作成部１０３、第２画像取得部１０４と、動作検出部１０５と、タイミング判定部１０７と、質問出力部１０８と、音声取得部１０９と、音声認識部１１０と、反映部１１１の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、第１画像取得部１０１と、第２画像取得部１０４と、音声取得部１０９については専用のハードウェアとしての処理回路１００１でその機能を実現し、食事内容推論部１０２、質問作成部１０３、動作検出部１０５と、タイミング判定部１０７と、質問出力部１０８と、音声認識部１１０と、反映部１１１についてはプロセッサ１００４がメモリ１００５に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
記憶部１０６は、メモリ１００５またはＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等で構成される。
また、食事摂取情報取得装置１は、第１カメラ２１、第２カメラ２２、マイク２３、スピーカ２４等の装置と、有線通信または無線通信を行う入力インタフェース装置１００２および出力インタフェース装置１００３を備える。

以上のように、実施の形態１によれば、食事摂取情報取得装置１は、撮像画像に基づき、ユーザが摂取する料理または食材を推論し、推論した料理または食材に関する食事摂取情報を作成する食事内容推論部１０２と、食事内容推論部１０２が推論した料理または食材のうちの対象料理または対象食材について、対象料理または対象食材が何であるかを問う質問を作成する質問作成部１０３と、撮像画像に基づき、対象料理または対象食材に関係するユーザの動作を検出する動作検出部１０５と、動作検出部１０５が対象料理または対象食材に関係するユーザの動作を検出している期間から質問作成部１０３が作成した質問を出力する質問タイミングを判定するタイミング判定部１０７と、タイミング判定部１０７が判定した質問タイミングで、質問作成部１０３が作成した質問を音声出力させる質問音声出力情報を出力する質問出力部１０８と、質問音声出力情報に基づき質問出力部１０８が音声出力させた質問に対するユーザの発話音声を取得する音声取得部１０９と、音声取得部１０９が取得した発話音声に対する音声認識を行う音声認識部１１０と、音声認識部１１０による音声認識結果に基づき特定した、質問に対してユーザが回答した料理または食材に関する情報を、食事摂取情報に反映させる反映部１１１とを備えるように構成した。食事摂取情報取得装置１は、質問対象（対象料理または対象食材）に関係するユーザの動作を検出している期間から質問タイミングを判定するので、ユーザに対し、直感的に質問されている料理または食材を把握させ、迷うことなく回答させられる。その結果、食事摂取情報取得装置１は、ユーザが、具体的にどの料理または食材について質問されているかがわからず、回答に迷う事態が生じることを低減できる。つまり、食事摂取情報取得装置１は、ユーザに対し、摂取した食材を確実に回答させるよう質問することで、ユーザが摂取した料理または食材に関する情報を得ることができる。

また、食事摂取情報取得装置１は、質問作成部１０３について、食事内容推論部１０２が作成した食事摂取情報に基づき、食事内容推論部１０２が推論した料理または食材の中に質問を出力する対象となる料理または食材があるか否かを判定し、質問を出力する対象となると判定した料理または食材を対象料理または対象食材として質問を作成するように構成できる。食事摂取情報取得装置１は、対象料理または対象食材を絞り込むことで、不必要にユーザに対して質問がされることにより、ユーザに対して回答の煩わしさが生じることを低減できる。

また、食事摂取情報取得装置１は、タイミング判定部１０７について、音声認識部１１０による音声認識結果に基づき発話の有無を判定し、発話がある間は質問タイミングの判定を行わないように構成できる。そのため、食事摂取情報取得装置１は、ユーザ等による発話によって、ユーザが聞き取りづらい状況で、当該ユーザに対して対象料理または対象食材が何であるかを問う質問が出力されないようにできる。

また、食事摂取情報取得装置１は、質問作成部１０３について、対象料理または対象食材が何であるかを指示語で問う質問を作成するように構成できる。そのため、食事摂取情報取得装置１は、自然な対話で質問対象が何であるかの回答を得るようにできる。また、食事摂取情報取得装置１は、短い文章でのユーザとの意思疎通を可能とできる。

また、食事摂取情報取得装置１において、食事内容推論部１０２は、料理または食材の推論結果の確からしさをあらわす確信度を算出し、質問作成部１０３は、食事内容推論部１０２が算出した確信度に基づき、食事内容推論部１０２が推論した料理または食材の中に対象料理または対象食材があるか否かを判定するように構成できる。例えば、質問作成部１０３が、確信度が質問要否判定用閾値未満の料理または食材がある場合、対象料理または対象食材があると判定することで、食事摂取情報取得装置１は、対象料理または対象食材を絞り込むことで、不必要にユーザに対して質問がされることにより、ユーザに対して回答の煩わしさが生じることを低減できる。

また、食事摂取情報取得装置１は、質問作成部１０３について、反映部１１１が、ユーザが回答した料理または食材に関する情報を反映させた後の食事摂取情報に基づき、食事内容推論部１０２が推論した料理または食材の中に対象料理または対象食材があるか否かを再判定するように構成できる。そのため、食事摂取情報取得装置１は、対象料理または対象食材が何であるかのユーザへ対話による質問と、ユーザから得た回答の食事摂取情報への反映を繰り返すことにより、食事摂取情報の精度を上げることができる。

また、食事摂取情報取得装置１は、質問作成部１０３について、対象料理または対象食材が複数ある場合、複数の対象料理または対象食材に優先順位を付与し、タイミング判定部１０７について、優先順位に従って質問タイミングを判定するように構成できる。そのため、食事摂取情報取得装置１は、ユーザに対して、効率的に、対象料理または対象食材が何であるかを問う質問を行うことができる。

また、食事摂取情報取得装置１は、質問作成部１０３について、質問に対する回答が、他の対象料理または対象食材に対する回答ともできる対象料理または対象食材には高い優先順位を付与し、タイミング判定部１０７について、優先順位に従って質問タイミングを判定するように構成できる。そのため、食事摂取情報取得装置１は、ユーザに対して少ない質問回数で、複数の対象料理または対象食材が何であるかの回答を得ることができる。

なお、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

以下、本開示の諸態様を付記としてまとめて記載する。

（付記１）
撮像画像に基づき、ユーザが摂取する料理または食材を推論し、推論した前記料理または前記食材に関する食事摂取情報を作成する食事内容推論部と、
前記食事内容推論部が推論した前記料理または前記食材のうちの対象料理または対象食材について、前記対象料理または前記対象食材が何であるかを問う質問を作成する質問作成部と、
前記撮像画像に基づき、前記対象料理または前記対象食材に関係する前記ユーザの動作を検出する動作検出部と、
前記動作検出部が前記対象料理または前記対象食材に関係する前記ユーザの動作を検出している期間から前記質問作成部が作成した前記質問を出力する質問タイミングを判定するタイミング判定部と、
前記タイミング判定部が判定した前記質問タイミングで、前記質問作成部が作成した前記質問を音声出力させる質問音声出力情報を出力する質問出力部と、
前記質問音声出力情報に基づき前記質問出力部が音声出力させた前記質問に対する前記ユーザの発話音声を取得する音声取得部と、
前記音声取得部が取得した前記発話音声に対する音声認識を行う音声認識部と、
前記音声認識部による音声認識結果に基づき特定した、前記質問に対して前記ユーザが回答した前記料理または前記食材に関する情報を、前記食事摂取情報に反映させる反映部
とを備えた食事摂取情報取得装置。
（付記２）
前記質問作成部は、前記食事内容推論部が作成した前記食事摂取情報に基づき、前記食事内容推論部が推論した前記料理または前記食材の中に前記質問を出力する対象となる前記料理または前記食材があるか否かを判定し、前記質問を出力する対象となると判定した前記料理または前記食材を前記対象料理または前記対象食材として前記質問を作成する
ことを特徴とする付記１記載の食事摂取情報取得装置。
（付記３）
前記動作検出部は、前記ユーザによる前記対象料理または前記対象食材が盛り付けられた食器に触る動作を検出する
ことを特徴とする付記１または付記２記載の食事摂取情報取得装置。
（付記４）
前記動作検出部は、前記ユーザによる前記対象料理または前記対象食材を食事用器具で保持する動作を検出する
ことを特徴とする付記１から付記３のうちのいずれか１つ記載の食事摂取情報取得装置。
（付記５）
前記動作検出部は、前記ユーザによる前記対象料理または前記対象食材を口に入れる動作、または、前記ユーザによる前記対象料理または前記対象食材を咀嚼している動作を検出する
ことを特徴とする付記１から付記４のうちのいずれか１つ記載の食事摂取情報取得装置。
（付記６）
前記動作検出部は、前記ユーザによる前記料理または前記食材を飲み込む動作を検出する
ことを特徴とする付記１から付記５のうちのいずれか１つ記載の食事摂取情報取得装置。
（付記７）
前記タイミング判定部は、前記ユーザが前記対象料理または前記対象食材に関係する動作を継続している間を、前記質問タイミングと判定する
ことを特徴とする付記１から付記６のうちのいずれか１つ記載の食事摂取情報取得装置。
（付記８）
前記音声取得部は周囲の前記発話音声を取得し、
前記タイミング判定部は、前記音声認識部による前記音声認識結果に基づき発話の有無を判定し、前記発話がある間は前記質問タイミングの判定を行わない
ことを特徴とする付記１から付記７のうちのいずれか１つ記載の食事摂取情報取得装置。
（付記９）
前記質問作成部は、前記対象料理または前記対象食材が何であるかを指示語で問う前記質問を作成する
ことを特徴とする付記１から付記８のうちのいずれか１つ記載の食事摂取情報取得装置。
（付記１０）
前記食事内容推論部は、前記料理または前記食材の推論結果の確からしさをあらわす確信度を算出し、
前記質問作成部は、前記食事内容推論部が算出した前記確信度に基づき、前記食事内容推論部が推論した前記料理または前記食材の中に前記対象料理または前記対象食材があるか否かを判定する
ことを特徴とする付記２記載の食事摂取情報取得装置。
（付記１１）
前記質問作成部は、前記反映部が、前記ユーザが回答した前記料理または前記食材に関する情報を反映させた後の前記食事摂取情報に基づき、前記食事内容推論部が推論した前記料理または前記食材の中に前記対象料理または前記対象食材があるか否かを再判定する
ことを特徴とする付記２記載の食事摂取情報取得装置。
（付記１２）
前記質問作成部は、前記対象料理または前記対象食材が複数ある場合、複数の前記対象料理または前記対象食材に優先順位を付与し、
前記タイミング判定部は、優先順位に従って前記質問タイミングを判定する
ことを特徴とする付記１から付記１１のうちのいずれか１つ記載の食事摂取情報取得装置。
（付記１３）
前記質問作成部は、前記質問に対する回答が、他の前記対象料理または前記対象食材に対する回答ともできる前記対象料理または前記対象食材には高い優先順位を付与する
ことを特徴とする付記１２記載の食事摂取情報取得装置。
（付記１４）
食事内容推論部が、撮像画像に基づき、ユーザが摂取する料理または食材を推論し、推論した前記料理または前記食材に関する食事摂取情報を作成するステップと、
質問作成部が、前記食事内容推論部が推論した前記料理または前記食材のうちの対象料理または対象食材について、前記対象料理または前記対象食材が何であるかを問う質問を作成するステップと、
動作検出部が、前記撮像画像に基づき、前記対象料理または前記対象食材に関係する前記ユーザの動作を検出するステップと、
タイミング判定部が、前記動作検出部が前記対象料理または前記対象食材に関係する前記ユーザの動作を検出している期間から前記質問作成部が作成した前記質問を出力する質問タイミングを判定するステップと、
質問出力部が、前記タイミング判定部が判定した前記質問タイミングで、前記質問作成部が作成した前記質問を音声出力させる質問音声出力情報を出力するステップと、
音声取得部が、前記質問音声出力情報に基づき前記質問出力部が音声出力させた前記質問に対する前記ユーザの発話音声を取得するステップと、
音声認識部が、前記音声取得部が取得した前記発話音声に対する音声認識を行うステップと、
反映部が、前記音声認識部による音声認識結果に基づき特定した、前記質問に対して前記ユーザが回答した前記料理または前記食材に関する情報を、前記食事摂取情報に反映させるステップ
とを備えた食事摂取情報取得方法。

本開示に係る表示制御装置は、車両を出発させると車両または乗員が不測の事態に陥る可能性がある場合に、運転者に対して、当該不測の事態の深刻さの程度がわかる表示形態でこれを警告することができる。

１食事摂取情報取得装置、１０１第１画像取得部、１０２食事内容推論部、１０３質問作成部、１０４第２画像取得部、１０５動作検出部、１０６記憶部、１０７タイミング判定部、１０８質問出力部、１０９音声取得部、１１０音声認識部、１１１反映部、２ロボット、２１第１カメラ、２２第２カメラ、２３マイク、２４スピーカ、２５駆動装置、２０１駆動制御部、１００１処理回路、１００２入力インタフェース装置、１００３出力インタフェース装置、１００４プロセッサ、１００５メモリ。

Claims

撮像画像に基づき、ユーザが摂取する料理または食材を推論し、推論した前記料理または前記食材に関する食事摂取情報を作成する食事内容推論部と、
前記食事内容推論部が推論した前記料理または前記食材のうちの対象料理または対象食材について、前記対象料理または前記対象食材が何であるかを問う質問を作成する質問作成部と、
前記撮像画像に基づき、前記対象料理または前記対象食材に関係する前記ユーザの動作を検出する動作検出部と、
前記動作検出部が前記対象料理または前記対象食材に関係する前記ユーザの動作を検出している期間から前記質問作成部が作成した前記質問を出力する質問タイミングを判定するタイミング判定部と、
前記タイミング判定部が判定した前記質問タイミングで、前記質問作成部が作成した前記質問を音声出力させる質問音声出力情報を出力する質問出力部と、
前記質問音声出力情報に基づき前記質問出力部が音声出力させた前記質問に対する前記ユーザの発話音声を取得する音声取得部と、
前記音声取得部が取得した前記発話音声に対する音声認識を行う音声認識部と、
前記音声認識部による音声認識結果に基づき特定した、前記質問に対して前記ユーザが回答した前記料理または前記食材に関する情報を、前記食事摂取情報に反映させる反映部
とを備えた食事摂取情報取得装置。
前記質問作成部は、前記食事内容推論部が作成した前記食事摂取情報に基づき、前記食事内容推論部が推論した前記料理または前記食材の中に前記質問を出力する対象となる前記料理または前記食材があるか否かを判定し、前記質問を出力する対象となると判定した前記料理または前記食材を前記対象料理または前記対象食材として前記質問を作成する
ことを特徴とする請求項１記載の食事摂取情報取得装置。
前記動作検出部は、前記ユーザによる前記対象料理または前記対象食材が盛り付けられた食器に触る動作を検出する
ことを特徴とする請求項１記載の食事摂取情報取得装置。
前記動作検出部は、前記ユーザによる前記対象料理または前記対象食材を食事用器具で保持する動作を検出する
ことを特徴とする請求項１記載の食事摂取情報取得装置。
前記動作検出部は、前記ユーザによる前記対象料理または前記対象食材を口に入れる動作、または、前記ユーザによる前記対象料理または前記対象食材を咀嚼している動作を検出する
ことを特徴とする請求項１記載の食事摂取情報取得装置。
前記動作検出部は、前記ユーザによる前記料理または前記食材を飲み込む動作を検出する
ことを特徴とする請求項１記載の食事摂取情報取得装置。
前記タイミング判定部は、前記ユーザが前記対象料理または前記対象食材に関係する動作を継続している間を、前記質問タイミングと判定する
ことを特徴とする請求項１記載の食事摂取情報取得装置。
前記音声取得部は周囲の前記発話音声を取得し、
前記タイミング判定部は、前記音声認識部による前記音声認識結果に基づき発話の有無を判定し、前記発話がある間は前記質問タイミングの判定を行わない
ことを特徴とする請求項１記載の食事摂取情報取得装置。
前記質問作成部は、前記対象料理または前記対象食材が何であるかを指示語で問う前記質問を作成する
ことを特徴とする請求項１記載の食事摂取情報取得装置。
前記食事内容推論部は、前記料理または前記食材の推論結果の確からしさをあらわす確信度を算出し、
前記質問作成部は、前記食事内容推論部が算出した前記確信度に基づき、前記食事内容推論部が推論した前記料理または前記食材の中に前記対象料理または前記対象食材があるか否かを判定する
ことを特徴とする請求項２記載の食事摂取情報取得装置。
前記質問作成部は、前記反映部が、前記ユーザが回答した前記料理または前記食材に関する情報を反映させた後の前記食事摂取情報に基づき、前記食事内容推論部が推論した前記料理または前記食材の中に前記対象料理または前記対象食材があるか否かを再判定する
ことを特徴とする請求項２記載の食事摂取情報取得装置。
前記質問作成部は、前記対象料理または前記対象食材が複数ある場合、複数の前記対象料理または前記対象食材に優先順位を付与し、
前記タイミング判定部は、優先順位に従って前記質問タイミングを判定する
ことを特徴とする請求項１記載の食事摂取情報取得装置。
前記質問作成部は、前記質問に対する回答が、他の前記対象料理または前記対象食材に対する回答ともできる前記対象料理または前記対象食材には高い優先順位を付与する
ことを特徴とする請求項１２記載の食事摂取情報取得装置。
食事内容推論部が、撮像画像に基づき、ユーザが摂取する料理または食材を推論し、推論した前記料理または前記食材に関する食事摂取情報を作成するステップと、
質問作成部が、前記食事内容推論部が推論した前記料理または前記食材のうちの対象料理または対象食材について、前記対象料理または前記対象食材が何であるかを問う質問を作成するステップと、
動作検出部が、前記撮像画像に基づき、前記対象料理または前記対象食材に関係する前記ユーザの動作を検出するステップと、
タイミング判定部が、前記動作検出部が前記対象料理または前記対象食材に関係する前記ユーザの動作を検出している期間から前記質問作成部が作成した前記質問を出力する質問タイミングを判定するステップと、
質問出力部が、前記タイミング判定部が判定した前記質問タイミングで、前記質問作成部が作成した前記質問を音声出力させる質問音声出力情報を出力するステップと、
音声取得部が、前記質問音声出力情報に基づき前記質問出力部が音声出力させた前記質問に対する前記ユーザの発話音声を取得するステップと、
音声認識部が、前記音声取得部が取得した前記発話音声に対する音声認識を行うステップと、
反映部が、前記音声認識部による音声認識結果に基づき特定した、前記質問に対して前記ユーザが回答した前記料理または前記食材に関する情報を、前記食事摂取情報に反映させるステップ
とを備えた食事摂取情報取得方法。