JP2022176841A

JP2022176841A - 情報処理装置および情報処理方法

Info

Publication number: JP2022176841A
Application number: JP2021083494A
Authority: JP
Inventors: 智輝高畑; Tomoki Takahata
Original assignee: Alps Alpine Co Ltd
Current assignee: Alps Alpine Co Ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2022-11-30

Abstract

【課題】事物の大きさを問う質問に対して、その事物が現実空間でどの程度の大きさであるかをユーザが正しく認識しているかどうかを確認した上で、正しく認識しているかどうかに応じた応答を提供できるようにした「情報処理装置および情報処理方法」を提供する。【解決手段】情報処理装置３は、事物の大きさを問う質問をユーザに提供する質問提供部１０と、質問提供部１０による質問の提供に応じて、大きさを表す動きがユーザにより行われたか否かを１台以上のカメラからの入力に基づいて監視し、行われたと判定した場合、大きさを表す動きによって表される大きさを検出する大きさ検出部１１と、大きさ検出部１１により検出された大きさと、質問の正解との関係に関する応答を提供する応答提供部１２とを備え、ユーザの動きによって表される大きさをユーザによる質問の解答として検出し、それに応答する。【選択図】図２

Description

本発明は、情報処理装置および情報処理方法に関し、特に、質問を提供する機能を備える情報処理装置、および、この情報処理装置による情報処理方法に用いて好適なものである。

従来、ユーザに質問を提供し、入力装置を利用してユーザが解答を選択または入力すると、その解答の正誤を判別し、判別結果を提供するシステムが存在する。この種のシステムについて例えば特許文献１には、練習問題（質問）を解答の選択肢と共に表示装置に表示し、幼児を想定した学習者（ユーザ）により解答が選択されるとその正誤を判別し、正解である場合にはその旨を表示する一方、不正解の場合には不正解の選択肢の表示を徐々に消して再度、解答を選択させるシステムが記載されている。この特許文献１によれば、学習者が再度、解答を選択したときには必ず正解することになり、学習者に学習性無力感を生じさせることを抑制できる。

特開２００４－２１９８７９号公報

しかしながら従来のシステムは以下の課題があった。すなわち、事物がどの程度の大きさであるかを問う質問をシステムにより提供することを考える。質問は例えば、ペンギンの大きさはどの程度であるかというものである。この種の質問は通常、ある事物の大きさについてユーザが正しく認識しているどうかを確認し、正しく認識しているかどうかに応じた応答を提供することを目的として提供される。

この種の質問の提供に際して従来のシステムでは、（１）１センチ、（２）１００センチ・・・といった複数の選択肢から入力装置を介して解答を選択させ、正解が選択されたかどうかを判別するか、或いは、入力装置を介して大きさを示す値を入力させ、入力された値が一定の範囲内に収まっているかどうかを判別することが想定される。しかしながら、これらの場合、対象となった事物が現実空間でどの程度の大きさであるかをユーザが正しく認識しているかどうかを確認し、応答することが難しいという問題があった。これらの場合、ユーザが選択または入力した数値が数値として正しいかどうかは確認できるものの、数値が選択または入力された場合であっても、ユーザが数値としての知識ではなく、現実空間における事物の大きさを正しく認識しているとは必ずしも言えないからである。

本発明は、このような問題を解決するために成されたものであり、事物の大きさを問う質問に対して、その事物が現実空間でどの程度の大きさであるかをユーザが正しく認識しているかどうかを確認した上で、正しく認識しているかどうかに応じた応答を提供できるようにすることを目的とする。

上記した課題を解決するために、本発明では、事物の大きさを問う質問をユーザに提供し、大きさを表す動きがユーザにより行われたか否かをカメラからの入力に基づいて監視し、行われたと判定した場合、大きさを表す動きによって表される大きさを検出し、検出した大きさと質問の正解との関係に関する応答を提供するようにしている。

上記のように構成した本発明によれば、事物の大きさを問う質問に対して、ユーザにより具体的な数値として解答が選択または入力されるのではなく、現実空間において事物の大きさを表す動作がユーザにより行われることによって解答が示される。そしてカメラからの入力に基づいてユーザの動作によって表された大きさが検出された上で、検出された大きさと質問の正解との関係に関する応答が提供される。このため、対象となった事物が現実空間でどの程度の大きさであるかをユーザが正しく認識しているかどうかを確認した上で、正しく認識しているかどうかに応じた応答を提供することができる。

本発明の一実施形態に係る情報処理システムの構成例を示す図である。本発明の一実施形態に係る情報処理装置の機能構成例を示すブロック図である。本実施形態で使用する用語の説明に利用する図である。第１パターンの表現動作の例を示す図である。第２パターンの表現動作の例を示す図である。第３パターンの表現動作の例を示す図である。解答関連範囲の関係を示す図である。本発明の一実施形態に係る情報処理装置の動作例を示すフローチャートである。

以下、本発明の一実施形態を図面に基づいて説明する。図１は、本実施形態に係る情報処理システム１が適用された車両２の内部を説明に適した態様で単純化し、模式的に示す図である。図１で示すように情報処理システム１は、情報処理装置３、ステレオカメラ５、後部座席カメラ４およびスピーカ６を含んで構成されている。図１では、各部材を単純な矩形のブロックによって表している。

図１で示すように本実施形態に係る情報処理装置３は、車両２のダッシュボードに設置され、後部座席カメラ４、ステレオカメラ５およびスピーカ６のそれぞれに接続されている。ただし情報処理装置３が設けられる場所は、本実施形態で例示する場所に限られず、どこであってもよい。

後部座席カメラ４（特許請求の範囲の「カメラ」に相当）は、後部座席を撮影する撮影ユニットである。後部座席カメラ４は、所定周期で継続して撮影を実行し、撮影結果に基づく撮影画像を情報処理装置３に出力する。後部座席カメラ４は、後部座席に搭乗者が着座している場合に、その搭乗者の上半身の全域が撮影できるよう、配置位置、光軸の向き、画角、その他のソフトウェア的およびハードウェア的な設定が調整されている。特に後部座席カメラ４は、大きさ検出部１１が後述する動作監視処理を実行するのに適した内容の撮影画像を出力するように最適化されている。

ステレオカメラ５（特許請求の範囲の「カメラ」に相当）は、水平方向に離間した２台の撮影ユニットを備え、三次元測距センサとして機能する装置である。ステレオカメラ５の２台の撮影ユニットのそれぞれは、所定周期で継続して撮影を実行し、撮影結果に基づく撮影画像を情報処理装置３に出力する。ステレオカメラ５は、後部座席に搭乗者が着座している場合に、その搭乗者の上半身の全域が撮影（測距）できるよう配置位置、光軸の向き、画角、その他のソフトウェア的およびハードウェア的な設定が調整されている。特にステレオカメラ５は、大きさ検出部１１が後述する大きさ検出処理で利用するのに適した内容の一対の撮影画像を出力するように最適化されている。

スピーカ６は、車両２の車内に音声を放音する放音装置である。スピーカ６は、通常の音量において後部座席に搭乗する搭乗者が音声を聞き取れるよう、その位置およびその向きが調整されている。

図２は、本実施形態に係る情報処理装置３の機能構成例を示すブロック図である。図２で示すように本実施形態に係る情報処理装置３は機能構成として、質問提供部１０、大きさ検出部１１、応答提供部１２および音声処理部１３を備えている。上記各機能ブロック１０～１３は、ハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック１０～１３は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。また情報処理装置３は記憶媒体として、記憶部１４を備えている。

また、音声処理部１３は、Ｄ／Ａコンバータや、ボリューム回路、アンプ回路等を備え、入力した音声データをＤ／Ａコンバータによりデジタル／アナログ変換し、ボリューム回路により音量レベルを調整し、アンプ回路により増幅して、スピーカ６から音声として出力する。

情報処理装置３は、後部座席に着座する搭乗者に質問を提供し、当該搭乗者から解答を受け付け、解答に応じた応答を提供する機能（以下「クイズ機能」という）を有している。クイズ機能は例えば、後部座席に子供が着座しているときに、その子供の教育のために利用することができ、また例えば車両２で目的地に向かう道中のレクリエーションのために利用することができる。事物の大きさを問う質問は例えば、動物（一例としてペンギン）の大きさを問う問題であり、また例えば、「５０センチはどのくらいか」といった大きさを示す値が提示され、その値によって表される大きさが現実空間においてどの程度であるかを問う問題である。本実施形態に係る情報処理装置３は、質問として事物の大きさを問う質問を提供する場合の処理に特徴がある。以下、事物の大きさを問う問題を提供する場合の情報処理装置３の処理について説明する。以下の説明では、搭乗者のうち情報処理装置３の質問に対して回答する者を特に「ユーザ」という。

質問提供部１０は、記憶部１４に記憶された質問データベース１５を参照する。質問データベース１５は、質問ごとに質問関連データが登録されたデータベースである。ある質問に対応する質問関連データには、その質問に関連する一連の処理の実行にあたって質問提供部１０および応答提供部１２が利用する種々のデータが含まれている。質問関連データの具体的な内容については後に明らかになる。

質問提供部１０は、質問データベース１５から、次に提供すべき質問に対応する質問関連データを取得する。本例では、次に提供すべき質問は事物の大きさを問う質問であるものとする。以下、ここで取得した質問関連データを「対象質問関連データ」という。質問提供部１０は、事前に搭乗者により設定された動作モードに従って、ランダムに或いは予め定められたルールに従って質問データベース１５に登録された質問関連データから、ある１つの質問関連データを取得する。

次いで質問提供部１０は、対象質問関連データに含まれる質問用音声データを音声処理部１３に出力することによって、音声処理部１３に、質問を表す文言の音声（以下「質問音声」という）をスピーカ６から出力させる。質問用音声データは、質問を表す文言の音声が記録された音声データである。本例では、質問は事物の大きさを問う質問であり、質問用音声データに記録された音声は、例えば「ペンギンの大きさはどのくらいでしょうか。」というものであり、また例えば「５０センチはどのくらいの大きさでしょうか。」というものである。

質問提供部１０が音声処理部１３を制御して、質問を表す文言の音声をスピーカ６から出力させる処理は、ユーザに質問を提供する処理に相当する。以下、質問提供部１０が音声処理部１３を制御して、質問を表す文言の音声をスピーカ６から出力させることを単に、「質問提供部１０が（ユーザに）質問を提供する」という場合がある。

大きさ検出部１１は、質問提供部１０により質問が提供された後、ユーザが「表現動作」を行ったか否かを監視する動作監視処理を実行する。表現動作とは、ユーザが自身の身体を使って現実空間中で事物の大きさを表現する動作（動き）を意味する。本実施形態では表現動作のパターンとして、以下の第１～第３パターンの３つのパターンが定義されている。

図３は、本実施形態で使用する用語について説明する図である。本実施形態では「手部分」、「腕部分」および「手腕」という３つの用語を定義し、各用語が表す部位を明確に区別する。図３で示すように本実施形態では、手首より先の、手の平と指とを含む部位を「手部分」といい、手首より肩側の部位を「腕部分」といい、手部分と腕部分とを含む部位を「手腕」という。

図４は第１パターンの説明に利用する図である。第１パターンに係る表現動作は、左右の手腕の左右の手部分が向かい合った状態で離間し、左右の手部分で挟まれた空間によって大きさが表現される動作である。このような第１パターンの動作は、その場に存在しない事物の大きさを動き（ジェスチャと言い換えてもよい）によって表現するときに、しばしば行われる動作である。

図４（Ａ）は、第１パターンに係る表現動作の一例を示している。図４（Ａ）では、ユーザの胸部の前方において、右の手部分と左の手部分とが向かい合った状態で水平方向（左右方向）に離間して配置されており、右の手部分と左の手部分とで挟まれた空間によって大きさが表されている。図４（Ｂ）は、第１パターンに係る表現動作の別の例を示している。図４（Ｂ）では、ユーザの胸部の前方において、右の手部分と左の手部分とが向かい合った状態で鉛直方向に離間して配置されており、右の手部分と左の手部分とで挟まれた空間によって大きさが表されている。

なお第１パターンに係る表現動作として、図４を用いて２つの具体例を示したが、第１パターンに係る表現動作は当然、これら２つの具体例に限定されるものではない。例えば左右の手部分を結ぶ仮想的な線が水平面に対して相当程度（例えば４５°程度）斜めに傾くように左右の手部分が配置されていてもよく、また例えば左右の手部分が顔の前方に配置されていてもよい。

図５は第２パターンの説明に利用する図である。第２パターンに係る表現動作は、左右の手部分のうち、何れか一方の手部分の親指の先と人差し指の先とが向かい合った状態で離間して配置され、親指の先と人差し指の先とで挟まれた空間によって大きさが表現される動作である。このような第２パターンの動作は、その場に存在しない事物（特に第１パターンの表現動作によって表される大きさよりも十分に小さい大きさの事物）を動きによって表現するときに、しばしば行われる動作である。

図５（Ａ）は、第２パターンに係る表現動作の一例を示している。図５（Ａ）では、ユーザの肩あたりの前方において、左の手部分の親指の先と人差し指の先とが向かい合った状態で鉛直方向に離間して配置されており、親指の先と人差し指の先とで挟まれた空間によって大きさが表されている。図５（Ｂ）は、第２パターンに係る表現動作の別の例を示している。図５（Ｂ）では、ユーザの顔の前方において、右の手部分の親指の先と人差し指の先とが向かい合った状態で水平方向に離間して配置されており、親指の先と人差し指の先とで挟まれた空間によって大きさが表されている。

なお第２パターンに係る表現動作として、図５を用いて２つの具体例を示したが、第２パターンに係る表現動作は当然、これら２つの具体例に限定されるものではない。例えば親指の先と人差し指の先とを結ぶ仮想的な線が水平面に対して斜めに傾くように親指の先と人差し指の先とが配置されていてもよい。

図６は第３パターンの説明に利用する図である。第３パターンに係る表現動作は、一方の手部分について、その手の平が、後部座席の座面の上方で当該座面（物体の面）と向かい合った状態で離間し、手部分と座面とで挟まれた空間によって大きさが表現される動作である。このような第３パターンの動作は、その場に存在しない事物を動きによって表現するときに、しばしば行われる動作である。

図６は、第３パターンに係る表現動作の一例を示している。図６では、左の手部分の手の平が、後部座席の座面の上方で当該座面と対向するように配置されており、手部分と座面とで挟まれた空間によって大きさが表されている。なお第３パターンに係る表現動作として、図６を用いて１つの具体例を示したが、第３パターンに係る表現動作は当然、この１つの具体例に限定されるものではない。例えば右の手部分が使用されてもよい。

第１～第３パターンに係る表現動作が有効であることは、ユーザに事前に伝えられており、ユーザはそのことを認識している。

以下、大きさ検出部１１が、動作監視処理（表現動作をユーザが行ったか否かを監視する処理）の一例について説明する。例えば大きさ検出部１１は、後部座席カメラ４から所定周期で入力する撮影画像を対象として既存の骨格検出技術によって、撮影画像に記録された人物（＝後部座席に搭乗する搭乗者）の骨格検出を行う。撮影画像に複数の人物が記録されている場合、大きさ検出部１１は、複数の人物のそれぞれについて骨格検出を行う。そして大きさ検出部１１は、検出した人物の骨格を対象として随時、その人物について動作推定を実行し、その人物の動作が第１～第３パターンの何れかに係る表現動作に該当すると推定される場合、その人物が表現動作を行ったと判定する。

なお動作推定に必要な情報は事前に記憶部１４に記憶される。動作推定に必要な情報は例えば、第１～第３パターンの何れかに係る表現動作が行われるときの骨格のパターン（当然、相当数のパターン）を示す情報である。なお大きさ検出部１１が、動作推定に代えて、画像処理技術に係る姿勢推定により表現動作が行われたか否かを判定する構成でもよい。また大きさ検出部１１が各種処理を実行するにあたって、所定の機械学習手法（例えばディープラーニング）で学習されたモデルが使用されてもよい。

以上、動作監視処理の一例について説明したが、説明した処理はあくまで一例である。大きさ検出部１１の処理には、既存の画像処理技術（特に画像認識技術）の全てを応用することができる。

動作監視処理により表現動作をユーザが行ったか否かを監視する中で、表現動作をユーザが行ったと判定した場合、大きさ検出部１１は、大きさ検出処理を実行する。大きさ検出処理は、表現動作によって表される大きさ（以下「提示サイズ」という場合がある）を検出する処理である。本実施形態では大きさ検出部１１は、（体積や、面積ではなく）「長さ」として表される提示サイズを検出する。以下、大きさ検出処理の一例について詳述する。

大きさ検出処理において、まず大きさ検出部１１は、ステレオカメラ５の一対の撮影ユニットから一対の撮影画像を入力する。ここで入力した一対の撮影画像は、表現動作をユーザが行ったと判定したタイミング（或いはこのタイミングに非常に近いタイミング）でステレオカメラ５の一対の撮影ユニットにより行われた撮影結果に基づいて生成された画像である。

次いで大きさ検出部１１は、入力した一対の撮影画像を対象として既存技術に基づくマッチングを行い、３次元データを生成する。３次元データとは、３次元測距センサとして機能するステレオカメラ５により距離が測定された画素が３次元直交座標系に配置された点群データ（＝３次元直交座標系において距離が測定された各画素の座標を保持する点群データ）である。理想的には３次元データにより、後部座席の周辺の空間の各物体（ユーザを含む）について、ステレオカメラ５の光軸基点に対向する表面（つまり一対の撮影ユニットにより撮影される表面）が３次元直交座標系における点の集合として表現される。

次いで大きさ検出部１１は、生成した３次元データを分析し、ユーザが行った表現動作のパターンに応じて、３次元データが示す３次元画像中から、一端部および他端部を特定する。後に明らかとなる通り、大きさ検出部１１は、３次元データが示す３次元画像中の一端部と他端部との離間量を、現実空間における長さ（離間量）に換算した値を提示サイズとして検出する。つまり一端部および他端部とは、長さとして表される提示サイズの測定の対象となる仮想的な線分の両端を示す部位である。大きさ検出部１１は、ユーザが行った表現動作のパターンごとに、異なる観点で一端部および他端部を特定する。以下、一端部および他端部を特定するときの大きさ検出部１１の処理について、表現動作のパターンごとに具体例を挙げて説明する。

例えばユーザが行った表現動作が図４（Ａ）の画像で示す動作であり（つまり表現動作のパターンは第１パターン）、図４（Ａ）で示す画像に対応する像（三次元的な像）が、３次元データが示す３次元画像中に形成されているとする。この場合、大きさ検出部１１は、３次元データを分析することによって、図４（Ａ）の符号４ＡＮａで示す右の手部分の像を特定する。像の特定は、既存の画像処理技術（特に画像認識技術）により行われる。像の特定に際して、動作監視処理で行った撮影画像に対する分析の結果を利用してもよい。以上のことは他の像の特定についても同様である。次いで大きさ検出部１１は、右の手部分の像４ＡＮａ中の一点を一端部４ＡＰａとして特定する。一端部４ＡＰａは例えば、像の中心部とされる。更に大きさ検出部１１は、３次元データを分析し、左の手部分の像４ＡＮｂを特定し、左の手部分の像４ＡＮｂ中の一点を他端部４ＡＰｂとして特定する。

以上のようにユーザが行った表現動作のパターンが第１パターンの場合、大きさ検出部１１は、右の手部分の像を特定し、この像中の一点を一端部として特定すると共に、左の手部分の像を特定し、この像中の一点を他端部として特定する。従って３次元データが示す３次元画像中に、図４（Ｂ）で示す画像に対応する像が形成されている場合には、大きさ検出部１１は、右の手部分の像４ＢＮａを特定し、この像中の一点を一端部４ＢＰａとして特定すると共に、左の手部分の像４ＢＮｂを特定し、この像中の一点を他端部４ＢＰｂとして特定する。

また例えばユーザが行った表現動作が図５（Ａ）の画像で示す動作であり（つまり表現動作のパターンは第２パターン）、図５（Ａ）で示す画像に対応する像が、３次元データが示す３次元画像中に形成されているとする。この場合、大きさ検出部１１は、３次元データを分析することによって、図５（Ａ）の符号５ＡＮａで示す左の人差し指の像を特定する。次いで大きさ検出部１１は、左の人差し指の像５ＡＮａの先端部分の一点を一端部５ＡＰａとして特定する。更に大きさ検出部１１は、３次元データを分析し、左の親指の像５ＡＮｂを特定し、左の親指の像５ＡＮｂの先端部分の一点を他端部５ＡＰｂとして特定する。

以上のようにユーザが行った表現動作のパターンが第２パターンの場合、大きさ検出部１１は、左右の手部分のうち、提示サイズの表現に用いられた方の手部分について、人差し指の像を特定し、この像の先端部分の一点を一端部として特定すると共に、親指の像を特定し、この像の先端部分の一点を他端部として特定する。従って３次元データが示す３次元画像中に、図５（Ｂ）で示す画像に対応する像が形成されている場合には、大きさ検出部１１は、右の手部分について人差し指の像５ＢＮａを特定し、この像の先端部分の一点を一端部５ＢＰａとして特定すると共に、親指の像５ＢＮｂを特定し、この像の先端部分の一点を他端部５ＢＰｂとして特定する。

また例えばユーザが行った表現動作が図６の画像で示す動作であり（つまり表現動作のパターンは第３パターン）、図６で示す画像に対応する像が、３次元データが示す３次元画像中に形成されているとする。この場合、大きさ検出部１１は、３次元データを分析することによって、図６の符号６Ｎａで示す左の手部分の像を特定する。次いで大きさ検出部１１は、左の手部分の像６Ｎａ中の一点を一端部６Ｐａとして特定する。更に大きさ検出部１１は、左の手部分の像６Ｎａの鉛直下方に位置する座面の部位の像６Ｎｂ（以下、「座面部位像６Ｎｂ」という）を特定する。大きさ検出部１１は、３次元データが展開される３次元直交座標系を考慮して、座面部位像６Ｎｂを特定する。次いで大きさ検出部１１は、座面部位像６Ｎｂ中の一点を他端部６Ｐｂとして特定する。

以上のようにユーザが行った表現動作のパターンが第３パターンの場合、大きさ検出部１１は、左右の手部分のうち、提示サイズの表現に用いられた方の手部分の像を特定し、この像中の一点を一端部として特定すると共に、手部分の像の鉛直下方に位置する座面（物体の面）の部位の像を特定し、この像中の一点を他端部として特定する。

さて一端部および他端部を特定した後、大きさ検出部１１は、３次元データが展開された３次元直交座標系における一端部と他端部との離間量を導出し、導出した離間量を現実空間における長さ（離間量）に換算し、換算して得た長さ（離間量）を提示サイズとして検出する。３次元直交座標系における離間量を、現実空間における長さ（離間量）に換算する計算式は事前に用意されている。

以上が大きさ検出処理である。以上の大きさ検出処理が行われる結果、ユーザが図４（Ａ）で示す表現動作を行った場合には、大きさ検出部１１は、提示サイズとして、図４（Ａ）の符号４ＡＬで示す大きさ（長さ）を検出する。ここで検出された提示サイズは、ユーザが図４（Ａ）で示す表現動作を行うことによって表現しようとしていた大きさとみなすことができる。同様に大きさ検出部１１は提示サイズとして、図４（Ｂ）の場合には符号４ＢＬで示す大きさを、図５（Ａ）の場合には符号５ＡＬで示す大きさを、図５（Ｂ）の場合には符号５ＢＬで示す大きさを、図６の場合には符号６Ｌで示す大きさを検出する。

大きさ検出部１１により大きさ検出処理が行われ、提示サイズが検出された後、応答提供部１２は、以下の処理を実行する。すなわち応答提供部１２は、記憶部１４に記憶された質問データベース１５を参照し、対象質問関連データを取得する。次いで応答提供部１２は、対象質問関連データに含まれる正解関連情報を取得する。正解関連情報は、正解範囲情報と大側近接範囲情報と小側近接範囲情報とを含んでいる。正解範囲情報は、正解とする大きさの範囲を示す情報である。また大側近接範囲情報は、正解範囲情報が示す正解の範囲から値が大きい側に外れた範囲（ただし正解範囲情報が示す正解の範囲に隣接する範囲）であって、正解とはしないものの正解に近いとする範囲を示す情報である。小側近接範囲情報は、正解範囲情報が示す正解の範囲から値が小さい側に外れた範囲（ただし正解範囲情報が示す正解の範囲に隣接する範囲）であって、正解とはしないものの正解に近いとする範囲を示す情報である。

例えば、正解範囲情報が示す範囲が「５０センチ以上７０センチ以下」とされ、大側近接範囲情報が示す範囲が「７０センチより大きく８０センチ以下」とされ、小側近接範囲情報が示す範囲が「４０センチ以上、５０センチより小さい」とされる。以下、正解範囲情報が示す範囲を「正解範囲」といい、大側近接範囲情報が示す範囲を「大側近接範囲」といい、小側近接範囲情報が示す範囲を「小側近接範囲」という。また大側近接範囲を値が大きい側に超えた範囲を「大側不正解範囲」といい、小側近接範囲を値が小さい側に超えた範囲を「小側不正解範囲」という。正解範囲は、特許請求の範囲の「質問の正解に対応する一定の範囲」に相当する。また正解範囲、大側近接範囲、小側近接範囲、大側不正解範囲および小側不正解範囲を総称して「解答関連範囲」という。図７は、各解答関連範囲の関係を示している。

次いで応答提供部１２は、大きさ検出部１１により検出された提示サイズが、上述した５つの解答関連範囲のうち、何れの解答関連範囲に属するかを特定する。ここで、事物の大きさを問う質問に係る質問関連データには、解答関連範囲ごとに異なる内容の音声データが含まれている。

応答提供部１２は、大きさ検出部１１により検出された提示サイズが、正解範囲に属している場合、対象質問関連データに含まれる、正解範囲に対応する音声データを取得する。そして応答提供部１２は、取得した音声データを音声処理部１３に出力することによって、音声処理部１３に、音声データに記録された音声をスピーカ６から出力させる。正解範囲に対応する音声データは、ユーザによって表現された大きさが正解であったことを表す文言の音声が記録された音声データである。

正解範囲に対応する音声データに係る文言は例えば、「正解です。おめでとうございます。」というものである。この場合、ユーザは、スピーカから出力される音声を聴取し、内容を認識することによって、自身が表現動作によって表した大きさが正解であったことを認識できる。特にユーザは、自らの身体を使って現実空間に表した大きさが正解であることを認識することによって、現実空間における正解の大きさを体感として直感的に認識できる。

また応答提供部１２は、大きさ検出部１１により検出された提示サイズが、大側近接範囲に属している場合、対象質問関連データに含まれる、大側近接範囲に対応する音声データを取得する。そして応答提供部１２は、取得した音声データを音声処理部１３に出力することによって、音声処理部１３に、音声データに記録された音声をスピーカ６から出力させる。大側近接範囲に対応する音声データは、ユーザによって表現された大きさが正解ではないものの正解に近い大きさであり、正解は表現された大きさよりも少しだけ小さい（或いは表現された大きさは正解よりも少しだけ大きい）ことを表す文言の音声が記録された音声データである。

大側近接範囲に対応する音声データに係る文言は例えば、「惜しい。もう少しだけ小さいです。」というものである。この場合、ユーザは、スピーカから出力される音声を聴取し、内容を認識することによって、自身が表現動作によって表した大きさが正解よりも少し大きかったことを認識できる。特にユーザは、自らの身体を使って現実空間に表した大きさが正解よりも少し大きかったことを認識することによって、現実空間における正解の大きさを体感として直感的に認識できる。

また応答提供部１２は、大きさ検出部１１により検出された提示サイズが、小側近接範囲に属している場合、対象質問関連データに含まれる、小側近接範囲に対応する音声データを取得する。そして応答提供部１２は、取得した音声データを音声処理部１３に出力することによって、音声処理部１３に、音声データに記録された音声をスピーカ６から出力させる。小側近接範囲に対応する音声データは、ユーザによって表現された大きさが正解ではないものの正解に近い大きさであり、正解は表現された大きさよりも少しだけ大きい（或いは表現された大きさは正解よりも少しだけ小さい）ことを表す文言の音声が記録された音声データである。

小側近接範囲に対応する音声データに係る文言は例えば、「惜しい。もう少しだけ大きいです。」というものである。この場合、ユーザは、スピーカから出力される音声を聴取し、内容を認識することによって、自身が表現動作によって表した大きさが正解よりも少し小さかったことを認識できる。特にユーザは、自らの身体を使って現実空間に表した大きさが正解よりも少し小さかったことを認識することによって、現実空間における正解の大きさを体感として直感的に認識できる。

また応答提供部１２は、大きさ検出部１１により検出された提示サイズが、大側不正解範囲に属している場合、対象質問関連データに含まれる、大側不正解範囲に対応する音声データを取得する。そして応答提供部１２は、取得した音声データを音声処理部１３に出力することによって、音声処理部１３に、音声データに記録された音声をスピーカ６から出力させる。大側不正解範囲に対応する音声データは、ユーザによって表現された大きさが正解から値が大きい側に大きく外れていることを表す文言の音声が記録された音声データである。

大側不正解範囲に対応する音声データに係る文言は例えば、「残念。もっと小さいです。」というものである。この場合、ユーザは、スピーカから出力される音声を聴取し、内容を認識することによって、自身が表現動作によって表した大きさが正解よりもかなり大きかったことを認識できる。特にユーザは、自らの身体を使って現実空間に表した大きさが正解よりもかなり大きかったことを認識することによって、自身の認識が誤りであったことおよび自身の認識と正解の大きさとのズレを体感として直感的に認識できる。

また応答提供部１２は、大きさ検出部１１により検出された提示サイズが、小側不正解範囲に属している場合、対象質問関連データに含まれる、小側不正解範囲に対応する音声データを取得する。そして応答提供部１２は、取得した音声データを音声処理部１３に出力することによって、音声処理部１３に、音声データに記録された音声をスピーカ６から出力させる。小側不正解範囲に対応する音声データは、ユーザによって表現された大きさが正解から値が小さい側に大きく外れていることを表す文言の音声が記録された音声データである。

小側不正解範囲に対応する音声データに係る文言は例えば、「残念。もっと大きいです。」というものである。この場合、ユーザは、スピーカから出力される音声を聴取し、内容を認識することによって、自身が表現動作によって表した大きさが正解よりもかなり小さかったことを認識できる。特にユーザは、自らの身体を使って現実空間に表した大きさが正解よりもかなり小さかったことを認識することによって、自身の認識が誤りであったことおよび自身の認識と正解の大きさとのズレを体感として直感的に認識できる。

以上の通り、応答提供部１２は、大きさ検出部１１により検出された大きさが、質問の正解に対応する一定の範囲内に属する場合、正解であることを示す応答を提供する一方、当該一定の範囲内に属していない場合、当該一定の範囲からの離間の度合いに応じて、正解からどの程度外れているのかを示す応答を提供する。このため、ユーザは、自身が示した大きさが正解の場合にはそのことを認識できると共に、正解ではない場合には、どの程度外れているのかを的確に認識できる。

次に情報処理装置３による情報処理方法についてフローチャートを用いて説明する。図８は、情報処理装置３の主要な処理の動作例を示すフローチャートである。図８で示すように、情報処理装置３の質問提供部１０は、事物の大きさを問う質問をユーザに提供する（ステップＳＡ１）。次いで情報処理装置３の大きさ検出部１１は、質問提供部１０による質問の提供に応じて、大きさを表す動きがユーザにより行われたか否かを１台以上のカメラからの入力に基づいて監視し、行われたと判定した場合、大きさを表す動きによって表される大きさを検出する（ステップＳＡ２）。次いで情報処理装置３の応答提供部１２は、大きさ検出部１１により検出された大きさと、質問提供部１０により提供された質問の正解との関係に関する応答を提供する（ステップＳＡ３）。

以上詳しく説明したように本実施形態に係る情報処理装置３は、事物の大きさを問う質問をユーザに提供し、大きさを表す動きがユーザにより行われたか否かをカメラからの入力に基づいて監視し、行われたと判定した場合、大きさを表す動きによって表される大きさを検出し、検出した大きさと質問の正解との関係に関する応答を提供するようにしている。

この構成によれば、事物の大きさを問う質問に対して、ユーザにより具体的な数値として解答が選択または入力されるのではなく、現実空間において事物の大きさを表す動作がユーザにより行われることによって解答が示される。そしてカメラからの入力に基づいてユーザの動作によって表された大きさが検出された上で、検出された大きさと質問の正解との関係に関する応答が提供される。このため、対象となった事物が現実空間でどの程度の大きさであるかをユーザが正しく認識しているかどうかを確認した上で、正しく認識しているかどうかに応じた応答を提供することができる。

以上、本発明の一実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

例えば上記実施形態では、車両２に情報処理装置３が設けられ、情報処理装置３による質問の提供が行われる場所は車両２の車内であった。しかしながら情報処理装置３が設けられて質問の提供が行われる場所は車両２の車内に限られるものではない。例えば場所は、自宅、学校、公共施設等の建造物の一室でもよい。

また上記実施形態では、質問および応答は音声により提供されていた。しかしながら、音声以外の手段（当然、音声を伴う手段であってもよい）で提供される構成でもよい。一例として、ユーザが視認可能な位置にディスプレイを設け、質問提供部１０がこのディスプレイに質問を示す情報を表示し、また、応答提供部１２がこのディスプレイに応答を示す情報を表示する構成でもよい。

また上記実施形態では、大きさ検出部１１は、後部座席カメラ４およびステレオカメラ５からの入力に基づいて動作監視処理および大きさ検出処理を含む各種処理を実行していた。この点に関し、カメラの構成および大きさ検出部１１の処理の内容は例示したものに限られるものではない。動作監視処理および大きさ検出処理には、既存の技術（特に画像認識技術）を応用可能であり、処理の実行にあたっては所定の機械学習手法で学習されたモデルを使用することができる。

特に後部座席カメラ４のみを設け、大きさ検出部１１が後部座席カメラ４から入力する撮影画像に基づいて動作監視処理だけでなく、大きさ検出処理を実行する構成でもよい。この場合、例えば大きさ検出部１１は、２次元の撮影画像において一端部と他端部とを特定し、２次元の撮影画像における一端部と他端部との距離（離間ドット数）を検出し、検出した距離に対して係数（係数は一定値でもよく、一端部および他端部の撮影画像における位置に応じて変わる値でもよい）を乗じることによって提示サイズを導出する。この場合ステレオカメラ５からの入力に基づいて提示サイズを求めた場合と比較して精度が低くなることが想定されるが、提出サイズは厳密に正確であることが求められるものではなく、問題ない。この場合、事前にユーザに対して、後部座席カメラ４のレンズに向かって動作を行うよう事前に通知することによって、精度の向上を図ることができる。またステレオカメラ５のみを設け、大きさ検出部１１がステレオカメラ５からの入力に基づいて動作監視処理を実行する構成でもよい。

また上記実施形態では表現動作のパターンは、３つであったが、パターンは３つに限られるものではない。一例として、一方の手部分で把持する物体（ペン）と、他方の手部分とを離間して配置し、この物体と他方の手部分とで挟まれた空間によって、大きさを表すような動作であってもよい。また第２パターンに関し、大きさ検出部１１が親指と人差し指との組み合わせ以外の２つの指の組み合わせによる提示サイズを検出する構成でもよい。

また例えば上記実施形態では記憶部１４を情報処理装置３が備える構成であったが、情報処理装置３と通信可能な他の装置、媒体が記憶部１４を備える構成でもよい。

また上記実施形態では、情報処理装置３の大きさ検出部１１がステレオカメラ５からの入力に基づいて３次元データを生成する構成であったが、情報処理装置３とは別の装置がステレオカメラ５からの入力に基づいて３次元データを生成し、生成した３次元データを情報処理装置３に出力する構成でもよい。

また応答提供部１２が応答を提供する方法は、例示した方法に限られない。例えば解答関連範囲をより細かくし、各解答関連範囲に応じた応答を提供する構成でもよい。また、正解でない場合に、「もっと大きい／小さい」といった内容ではなく、「○センチ大きい／小さい」というように正解との関係についてより具体的な情報を提供する構成でもよい。また応答提供部１２が、正解範囲情報に相当する情報を用いて単に、単に正解であること或いは不正解であることを通知する構成でもよい。また応答提供部１２が正解に至るまで誘導する構成でもよい。

２車両
３情報処理装置
４後部座席カメラ（カメラ）
５ステレオカメラ（カメラ）
１０質問提供部
１１大きさ検出部
１２応答提供部

Claims

事物の大きさを問う質問をユーザに提供する質問提供部と、
前記質問提供部による質問の提供に応じて、大きさを表す動きが前記ユーザにより行われたか否かを１台以上のカメラからの入力に基づいて監視し、行われたと判定した場合、前記大きさを表す動きによって表される大きさを検出する大きさ検出部と、
前記大きさ検出部により検出された大きさと、前記質問提供部により提供された質問の正解との関係に関する応答を提供する応答提供部とを備える
ことを特徴とする情報処理装置。
前記応答提供部は、前記大きさ検出部により検出された大きさが、質問の正解に対応する一定の範囲内に属する場合、正解であることを示す応答を提供する一方、当該一定の範囲内に属していない場合、当該一定の範囲からの離間の度合いに応じて、正解からどの程度外れているのかを示す応答を提供する
ことを特徴とする請求項１に記載の情報処理装置。
前記大きさを表す動きは、左右の手部分が向かい合った状態で離間し、左右の手部分で挟まれた空間によって大きさが表現される動作であり、
前記大きさ検出部は、前記カメラからの入力に基づいて左右の手部分の離間量を検出し、検出した離間量を、前記大きさを表す動きによって表される大きさとする
ことを特徴とする請求項１または２に記載の情報処理装置。
前記大きさを表す動きは、手部分の一の指の先と他の指の先とが向かい合った状態で離間し、各指の先で挟まれた空間によって大きさが表現される動作であり、
前記大きさ検出部は、前記カメラからの入力に基づいて各指の先の離間量を検出し、検出した離間量を、前記大きさを表す動きによって表される大きさとする
ことを特徴とする請求項１から３の何れか１項に記載の情報処理装置。
前記大きさを表す動きは、手部分と物体の面とが向かい合った状態で離間し、手部分と物体の面とで挟まれた空間によって大きさが表現される動作であり、
前記大きさ検出部は、前記カメラからの入力に基づいて手部分と物体の面との離間量を検出し、検出した離間量を、前記大きさを表す動きによって表される大きさとする
ことを特徴とする請求項１から４の何れか１項に記載の情報処理装置。
車両に設けられ、
前記質問提供部は、車両に搭乗する搭乗者に対して質問を提供する
ことを特徴とする請求項１から５の何れか１項に記載の情報処理装置。
情報処理装置の質問提供部が、事物の大きさを問う質問をユーザに提供するステップと、
前記情報処理装置の大きさ検出部が、前記質問提供部による質問の提供に応じて、大きさを表す動きが前記ユーザにより行われたか否かを１台以上のカメラからの入力に基づいて監視し、行われたと判定した場合、前記大きさを表す動きによって表される大きさを検出するステップと、
前記情報処理装置の応答提供部が、前記大きさ検出部により検出された大きさと、前記質問提供部により提供された質問の正解との関係に関する応答を提供するステップとを含む
ことを特徴とする情報処理方法。