JP2022176841A - 情報処理装置および情報処理方法 - Google Patents
情報処理装置および情報処理方法 Download PDFInfo
- Publication number
- JP2022176841A JP2022176841A JP2021083494A JP2021083494A JP2022176841A JP 2022176841 A JP2022176841 A JP 2022176841A JP 2021083494 A JP2021083494 A JP 2021083494A JP 2021083494 A JP2021083494 A JP 2021083494A JP 2022176841 A JP2022176841 A JP 2022176841A
- Authority
- JP
- Japan
- Prior art keywords
- size
- question
- information processing
- user
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
【課題】事物の大きさを問う質問に対して、その事物が現実空間でどの程度の大きさであるかをユーザが正しく認識しているかどうかを確認した上で、正しく認識しているかどうかに応じた応答を提供できるようにした「情報処理装置および情報処理方法」を提供する。【解決手段】情報処理装置3は、事物の大きさを問う質問をユーザに提供する質問提供部10と、質問提供部10による質問の提供に応じて、大きさを表す動きがユーザにより行われたか否かを1台以上のカメラからの入力に基づいて監視し、行われたと判定した場合、大きさを表す動きによって表される大きさを検出する大きさ検出部11と、大きさ検出部11により検出された大きさと、質問の正解との関係に関する応答を提供する応答提供部12とを備え、ユーザの動きによって表される大きさをユーザによる質問の解答として検出し、それに応答する。【選択図】図2
Description
本発明は、情報処理装置および情報処理方法に関し、特に、質問を提供する機能を備える情報処理装置、および、この情報処理装置による情報処理方法に用いて好適なものである。
従来、ユーザに質問を提供し、入力装置を利用してユーザが解答を選択または入力すると、その解答の正誤を判別し、判別結果を提供するシステムが存在する。この種のシステムについて例えば特許文献1には、練習問題(質問)を解答の選択肢と共に表示装置に表示し、幼児を想定した学習者(ユーザ)により解答が選択されるとその正誤を判別し、正解である場合にはその旨を表示する一方、不正解の場合には不正解の選択肢の表示を徐々に消して再度、解答を選択させるシステムが記載されている。この特許文献1によれば、学習者が再度、解答を選択したときには必ず正解することになり、学習者に学習性無力感を生じさせることを抑制できる。
しかしながら従来のシステムは以下の課題があった。すなわち、事物がどの程度の大きさであるかを問う質問をシステムにより提供することを考える。質問は例えば、ペンギンの大きさはどの程度であるかというものである。この種の質問は通常、ある事物の大きさについてユーザが正しく認識しているどうかを確認し、正しく認識しているかどうかに応じた応答を提供することを目的として提供される。
この種の質問の提供に際して従来のシステムでは、(1)1センチ、(2)100センチ・・・といった複数の選択肢から入力装置を介して解答を選択させ、正解が選択されたかどうかを判別するか、或いは、入力装置を介して大きさを示す値を入力させ、入力された値が一定の範囲内に収まっているかどうかを判別することが想定される。しかしながら、これらの場合、対象となった事物が現実空間でどの程度の大きさであるかをユーザが正しく認識しているかどうかを確認し、応答することが難しいという問題があった。これらの場合、ユーザが選択または入力した数値が数値として正しいかどうかは確認できるものの、数値が選択または入力された場合であっても、ユーザが数値としての知識ではなく、現実空間における事物の大きさを正しく認識しているとは必ずしも言えないからである。
本発明は、このような問題を解決するために成されたものであり、事物の大きさを問う質問に対して、その事物が現実空間でどの程度の大きさであるかをユーザが正しく認識しているかどうかを確認した上で、正しく認識しているかどうかに応じた応答を提供できるようにすることを目的とする。
上記した課題を解決するために、本発明では、事物の大きさを問う質問をユーザに提供し、大きさを表す動きがユーザにより行われたか否かをカメラからの入力に基づいて監視し、行われたと判定した場合、大きさを表す動きによって表される大きさを検出し、検出した大きさと質問の正解との関係に関する応答を提供するようにしている。
上記のように構成した本発明によれば、事物の大きさを問う質問に対して、ユーザにより具体的な数値として解答が選択または入力されるのではなく、現実空間において事物の大きさを表す動作がユーザにより行われることによって解答が示される。そしてカメラからの入力に基づいてユーザの動作によって表された大きさが検出された上で、検出された大きさと質問の正解との関係に関する応答が提供される。このため、対象となった事物が現実空間でどの程度の大きさであるかをユーザが正しく認識しているかどうかを確認した上で、正しく認識しているかどうかに応じた応答を提供することができる。
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態に係る情報処理システム1が適用された車両2の内部を説明に適した態様で単純化し、模式的に示す図である。図1で示すように情報処理システム1は、情報処理装置3、ステレオカメラ5、後部座席カメラ4およびスピーカ6を含んで構成されている。図1では、各部材を単純な矩形のブロックによって表している。
図1で示すように本実施形態に係る情報処理装置3は、車両2のダッシュボードに設置され、後部座席カメラ4、ステレオカメラ5およびスピーカ6のそれぞれに接続されている。ただし情報処理装置3が設けられる場所は、本実施形態で例示する場所に限られず、どこであってもよい。
後部座席カメラ4(特許請求の範囲の「カメラ」に相当)は、後部座席を撮影する撮影ユニットである。後部座席カメラ4は、所定周期で継続して撮影を実行し、撮影結果に基づく撮影画像を情報処理装置3に出力する。後部座席カメラ4は、後部座席に搭乗者が着座している場合に、その搭乗者の上半身の全域が撮影できるよう、配置位置、光軸の向き、画角、その他のソフトウェア的およびハードウェア的な設定が調整されている。特に後部座席カメラ4は、大きさ検出部11が後述する動作監視処理を実行するのに適した内容の撮影画像を出力するように最適化されている。
ステレオカメラ5(特許請求の範囲の「カメラ」に相当)は、水平方向に離間した2台の撮影ユニットを備え、三次元測距センサとして機能する装置である。ステレオカメラ5の2台の撮影ユニットのそれぞれは、所定周期で継続して撮影を実行し、撮影結果に基づく撮影画像を情報処理装置3に出力する。ステレオカメラ5は、後部座席に搭乗者が着座している場合に、その搭乗者の上半身の全域が撮影(測距)できるよう配置位置、光軸の向き、画角、その他のソフトウェア的およびハードウェア的な設定が調整されている。特にステレオカメラ5は、大きさ検出部11が後述する大きさ検出処理で利用するのに適した内容の一対の撮影画像を出力するように最適化されている。
スピーカ6は、車両2の車内に音声を放音する放音装置である。スピーカ6は、通常の音量において後部座席に搭乗する搭乗者が音声を聞き取れるよう、その位置およびその向きが調整されている。
図2は、本実施形態に係る情報処理装置3の機能構成例を示すブロック図である。図2で示すように本実施形態に係る情報処理装置3は機能構成として、質問提供部10、大きさ検出部11、応答提供部12および音声処理部13を備えている。上記各機能ブロック10~13は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック10~13は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。また情報処理装置3は記憶媒体として、記憶部14を備えている。
また、音声処理部13は、D/Aコンバータや、ボリューム回路、アンプ回路等を備え、入力した音声データをD/Aコンバータによりデジタル/アナログ変換し、ボリューム回路により音量レベルを調整し、アンプ回路により増幅して、スピーカ6から音声として出力する。
情報処理装置3は、後部座席に着座する搭乗者に質問を提供し、当該搭乗者から解答を受け付け、解答に応じた応答を提供する機能(以下「クイズ機能」という)を有している。クイズ機能は例えば、後部座席に子供が着座しているときに、その子供の教育のために利用することができ、また例えば車両2で目的地に向かう道中のレクリエーションのために利用することができる。事物の大きさを問う質問は例えば、動物(一例としてペンギン)の大きさを問う問題であり、また例えば、「50センチはどのくらいか」といった大きさを示す値が提示され、その値によって表される大きさが現実空間においてどの程度であるかを問う問題である。本実施形態に係る情報処理装置3は、質問として事物の大きさを問う質問を提供する場合の処理に特徴がある。以下、事物の大きさを問う問題を提供する場合の情報処理装置3の処理について説明する。以下の説明では、搭乗者のうち情報処理装置3の質問に対して回答する者を特に「ユーザ」という。
質問提供部10は、記憶部14に記憶された質問データベース15を参照する。質問データベース15は、質問ごとに質問関連データが登録されたデータベースである。ある質問に対応する質問関連データには、その質問に関連する一連の処理の実行にあたって質問提供部10および応答提供部12が利用する種々のデータが含まれている。質問関連データの具体的な内容については後に明らかになる。
質問提供部10は、質問データベース15から、次に提供すべき質問に対応する質問関連データを取得する。本例では、次に提供すべき質問は事物の大きさを問う質問であるものとする。以下、ここで取得した質問関連データを「対象質問関連データ」という。質問提供部10は、事前に搭乗者により設定された動作モードに従って、ランダムに或いは予め定められたルールに従って質問データベース15に登録された質問関連データから、ある1つの質問関連データを取得する。
次いで質問提供部10は、対象質問関連データに含まれる質問用音声データを音声処理部13に出力することによって、音声処理部13に、質問を表す文言の音声(以下「質問音声」という)をスピーカ6から出力させる。質問用音声データは、質問を表す文言の音声が記録された音声データである。本例では、質問は事物の大きさを問う質問であり、質問用音声データに記録された音声は、例えば「ペンギンの大きさはどのくらいでしょうか。」というものであり、また例えば「50センチはどのくらいの大きさでしょうか。」というものである。
質問提供部10が音声処理部13を制御して、質問を表す文言の音声をスピーカ6から出力させる処理は、ユーザに質問を提供する処理に相当する。以下、質問提供部10が音声処理部13を制御して、質問を表す文言の音声をスピーカ6から出力させることを単に、「質問提供部10が(ユーザに)質問を提供する」という場合がある。
大きさ検出部11は、質問提供部10により質問が提供された後、ユーザが「表現動作」を行ったか否かを監視する動作監視処理を実行する。表現動作とは、ユーザが自身の身体を使って現実空間中で事物の大きさを表現する動作(動き)を意味する。本実施形態では表現動作のパターンとして、以下の第1~第3パターンの3つのパターンが定義されている。
図3は、本実施形態で使用する用語について説明する図である。本実施形態では「手部分」、「腕部分」および「手腕」という3つの用語を定義し、各用語が表す部位を明確に区別する。図3で示すように本実施形態では、手首より先の、手の平と指とを含む部位を「手部分」といい、手首より肩側の部位を「腕部分」といい、手部分と腕部分とを含む部位を「手腕」という。
図4は第1パターンの説明に利用する図である。第1パターンに係る表現動作は、左右の手腕の左右の手部分が向かい合った状態で離間し、左右の手部分で挟まれた空間によって大きさが表現される動作である。このような第1パターンの動作は、その場に存在しない事物の大きさを動き(ジェスチャと言い換えてもよい)によって表現するときに、しばしば行われる動作である。
図4(A)は、第1パターンに係る表現動作の一例を示している。図4(A)では、ユーザの胸部の前方において、右の手部分と左の手部分とが向かい合った状態で水平方向(左右方向)に離間して配置されており、右の手部分と左の手部分とで挟まれた空間によって大きさが表されている。図4(B)は、第1パターンに係る表現動作の別の例を示している。図4(B)では、ユーザの胸部の前方において、右の手部分と左の手部分とが向かい合った状態で鉛直方向に離間して配置されており、右の手部分と左の手部分とで挟まれた空間によって大きさが表されている。
なお第1パターンに係る表現動作として、図4を用いて2つの具体例を示したが、第1パターンに係る表現動作は当然、これら2つの具体例に限定されるものではない。例えば左右の手部分を結ぶ仮想的な線が水平面に対して相当程度(例えば45°程度)斜めに傾くように左右の手部分が配置されていてもよく、また例えば左右の手部分が顔の前方に配置されていてもよい。
図5は第2パターンの説明に利用する図である。第2パターンに係る表現動作は、左右の手部分のうち、何れか一方の手部分の親指の先と人差し指の先とが向かい合った状態で離間して配置され、親指の先と人差し指の先とで挟まれた空間によって大きさが表現される動作である。このような第2パターンの動作は、その場に存在しない事物(特に第1パターンの表現動作によって表される大きさよりも十分に小さい大きさの事物)を動きによって表現するときに、しばしば行われる動作である。
図5(A)は、第2パターンに係る表現動作の一例を示している。図5(A)では、ユーザの肩あたりの前方において、左の手部分の親指の先と人差し指の先とが向かい合った状態で鉛直方向に離間して配置されており、親指の先と人差し指の先とで挟まれた空間によって大きさが表されている。図5(B)は、第2パターンに係る表現動作の別の例を示している。図5(B)では、ユーザの顔の前方において、右の手部分の親指の先と人差し指の先とが向かい合った状態で水平方向に離間して配置されており、親指の先と人差し指の先とで挟まれた空間によって大きさが表されている。
なお第2パターンに係る表現動作として、図5を用いて2つの具体例を示したが、第2パターンに係る表現動作は当然、これら2つの具体例に限定されるものではない。例えば親指の先と人差し指の先とを結ぶ仮想的な線が水平面に対して斜めに傾くように親指の先と人差し指の先とが配置されていてもよい。
図6は第3パターンの説明に利用する図である。第3パターンに係る表現動作は、一方の手部分について、その手の平が、後部座席の座面の上方で当該座面(物体の面)と向かい合った状態で離間し、手部分と座面とで挟まれた空間によって大きさが表現される動作である。このような第3パターンの動作は、その場に存在しない事物を動きによって表現するときに、しばしば行われる動作である。
図6は、第3パターンに係る表現動作の一例を示している。図6では、左の手部分の手の平が、後部座席の座面の上方で当該座面と対向するように配置されており、手部分と座面とで挟まれた空間によって大きさが表されている。なお第3パターンに係る表現動作として、図6を用いて1つの具体例を示したが、第3パターンに係る表現動作は当然、この1つの具体例に限定されるものではない。例えば右の手部分が使用されてもよい。
第1~第3パターンに係る表現動作が有効であることは、ユーザに事前に伝えられており、ユーザはそのことを認識している。
以下、大きさ検出部11が、動作監視処理(表現動作をユーザが行ったか否かを監視する処理)の一例について説明する。例えば大きさ検出部11は、後部座席カメラ4から所定周期で入力する撮影画像を対象として既存の骨格検出技術によって、撮影画像に記録された人物(=後部座席に搭乗する搭乗者)の骨格検出を行う。撮影画像に複数の人物が記録されている場合、大きさ検出部11は、複数の人物のそれぞれについて骨格検出を行う。そして大きさ検出部11は、検出した人物の骨格を対象として随時、その人物について動作推定を実行し、その人物の動作が第1~第3パターンの何れかに係る表現動作に該当すると推定される場合、その人物が表現動作を行ったと判定する。
なお動作推定に必要な情報は事前に記憶部14に記憶される。動作推定に必要な情報は例えば、第1~第3パターンの何れかに係る表現動作が行われるときの骨格のパターン(当然、相当数のパターン)を示す情報である。なお大きさ検出部11が、動作推定に代えて、画像処理技術に係る姿勢推定により表現動作が行われたか否かを判定する構成でもよい。また大きさ検出部11が各種処理を実行するにあたって、所定の機械学習手法(例えばディープラーニング)で学習されたモデルが使用されてもよい。
以上、動作監視処理の一例について説明したが、説明した処理はあくまで一例である。大きさ検出部11の処理には、既存の画像処理技術(特に画像認識技術)の全てを応用することができる。
動作監視処理により表現動作をユーザが行ったか否かを監視する中で、表現動作をユーザが行ったと判定した場合、大きさ検出部11は、大きさ検出処理を実行する。大きさ検出処理は、表現動作によって表される大きさ(以下「提示サイズ」という場合がある)を検出する処理である。本実施形態では大きさ検出部11は、(体積や、面積ではなく)「長さ」として表される提示サイズを検出する。以下、大きさ検出処理の一例について詳述する。
大きさ検出処理において、まず大きさ検出部11は、ステレオカメラ5の一対の撮影ユニットから一対の撮影画像を入力する。ここで入力した一対の撮影画像は、表現動作をユーザが行ったと判定したタイミング(或いはこのタイミングに非常に近いタイミング)でステレオカメラ5の一対の撮影ユニットにより行われた撮影結果に基づいて生成された画像である。
次いで大きさ検出部11は、入力した一対の撮影画像を対象として既存技術に基づくマッチングを行い、3次元データを生成する。3次元データとは、3次元測距センサとして機能するステレオカメラ5により距離が測定された画素が3次元直交座標系に配置された点群データ(=3次元直交座標系において距離が測定された各画素の座標を保持する点群データ)である。理想的には3次元データにより、後部座席の周辺の空間の各物体(ユーザを含む)について、ステレオカメラ5の光軸基点に対向する表面(つまり一対の撮影ユニットにより撮影される表面)が3次元直交座標系における点の集合として表現される。
次いで大きさ検出部11は、生成した3次元データを分析し、ユーザが行った表現動作のパターンに応じて、3次元データが示す3次元画像中から、一端部および他端部を特定する。後に明らかとなる通り、大きさ検出部11は、3次元データが示す3次元画像中の一端部と他端部との離間量を、現実空間における長さ(離間量)に換算した値を提示サイズとして検出する。つまり一端部および他端部とは、長さとして表される提示サイズの測定の対象となる仮想的な線分の両端を示す部位である。大きさ検出部11は、ユーザが行った表現動作のパターンごとに、異なる観点で一端部および他端部を特定する。以下、一端部および他端部を特定するときの大きさ検出部11の処理について、表現動作のパターンごとに具体例を挙げて説明する。
例えばユーザが行った表現動作が図4(A)の画像で示す動作であり(つまり表現動作のパターンは第1パターン)、図4(A)で示す画像に対応する像(三次元的な像)が、3次元データが示す3次元画像中に形成されているとする。この場合、大きさ検出部11は、3次元データを分析することによって、図4(A)の符号4ANaで示す右の手部分の像を特定する。像の特定は、既存の画像処理技術(特に画像認識技術)により行われる。像の特定に際して、動作監視処理で行った撮影画像に対する分析の結果を利用してもよい。以上のことは他の像の特定についても同様である。次いで大きさ検出部11は、右の手部分の像4ANa中の一点を一端部4APaとして特定する。一端部4APaは例えば、像の中心部とされる。更に大きさ検出部11は、3次元データを分析し、左の手部分の像4ANbを特定し、左の手部分の像4ANb中の一点を他端部4APbとして特定する。
以上のようにユーザが行った表現動作のパターンが第1パターンの場合、大きさ検出部11は、右の手部分の像を特定し、この像中の一点を一端部として特定すると共に、左の手部分の像を特定し、この像中の一点を他端部として特定する。従って3次元データが示す3次元画像中に、図4(B)で示す画像に対応する像が形成されている場合には、大きさ検出部11は、右の手部分の像4BNaを特定し、この像中の一点を一端部4BPaとして特定すると共に、左の手部分の像4BNbを特定し、この像中の一点を他端部4BPbとして特定する。
また例えばユーザが行った表現動作が図5(A)の画像で示す動作であり(つまり表現動作のパターンは第2パターン)、図5(A)で示す画像に対応する像が、3次元データが示す3次元画像中に形成されているとする。この場合、大きさ検出部11は、3次元データを分析することによって、図5(A)の符号5ANaで示す左の人差し指の像を特定する。次いで大きさ検出部11は、左の人差し指の像5ANaの先端部分の一点を一端部5APaとして特定する。更に大きさ検出部11は、3次元データを分析し、左の親指の像5ANbを特定し、左の親指の像5ANbの先端部分の一点を他端部5APbとして特定する。
以上のようにユーザが行った表現動作のパターンが第2パターンの場合、大きさ検出部11は、左右の手部分のうち、提示サイズの表現に用いられた方の手部分について、人差し指の像を特定し、この像の先端部分の一点を一端部として特定すると共に、親指の像を特定し、この像の先端部分の一点を他端部として特定する。従って3次元データが示す3次元画像中に、図5(B)で示す画像に対応する像が形成されている場合には、大きさ検出部11は、右の手部分について人差し指の像5BNaを特定し、この像の先端部分の一点を一端部5BPaとして特定すると共に、親指の像5BNbを特定し、この像の先端部分の一点を他端部5BPbとして特定する。
また例えばユーザが行った表現動作が図6の画像で示す動作であり(つまり表現動作のパターンは第3パターン)、図6で示す画像に対応する像が、3次元データが示す3次元画像中に形成されているとする。この場合、大きさ検出部11は、3次元データを分析することによって、図6の符号6Naで示す左の手部分の像を特定する。次いで大きさ検出部11は、左の手部分の像6Na中の一点を一端部6Paとして特定する。更に大きさ検出部11は、左の手部分の像6Naの鉛直下方に位置する座面の部位の像6Nb(以下、「座面部位像6Nb」という)を特定する。大きさ検出部11は、3次元データが展開される3次元直交座標系を考慮して、座面部位像6Nbを特定する。次いで大きさ検出部11は、座面部位像6Nb中の一点を他端部6Pbとして特定する。
以上のようにユーザが行った表現動作のパターンが第3パターンの場合、大きさ検出部11は、左右の手部分のうち、提示サイズの表現に用いられた方の手部分の像を特定し、この像中の一点を一端部として特定すると共に、手部分の像の鉛直下方に位置する座面(物体の面)の部位の像を特定し、この像中の一点を他端部として特定する。
さて一端部および他端部を特定した後、大きさ検出部11は、3次元データが展開された3次元直交座標系における一端部と他端部との離間量を導出し、導出した離間量を現実空間における長さ(離間量)に換算し、換算して得た長さ(離間量)を提示サイズとして検出する。3次元直交座標系における離間量を、現実空間における長さ(離間量)に換算する計算式は事前に用意されている。
以上が大きさ検出処理である。以上の大きさ検出処理が行われる結果、ユーザが図4(A)で示す表現動作を行った場合には、大きさ検出部11は、提示サイズとして、図4(A)の符号4ALで示す大きさ(長さ)を検出する。ここで検出された提示サイズは、ユーザが図4(A)で示す表現動作を行うことによって表現しようとしていた大きさとみなすことができる。同様に大きさ検出部11は提示サイズとして、図4(B)の場合には符号4BLで示す大きさを、図5(A)の場合には符号5ALで示す大きさを、図5(B)の場合には符号5BLで示す大きさを、図6の場合には符号6Lで示す大きさを検出する。
大きさ検出部11により大きさ検出処理が行われ、提示サイズが検出された後、応答提供部12は、以下の処理を実行する。すなわち応答提供部12は、記憶部14に記憶された質問データベース15を参照し、対象質問関連データを取得する。次いで応答提供部12は、対象質問関連データに含まれる正解関連情報を取得する。正解関連情報は、正解範囲情報と大側近接範囲情報と小側近接範囲情報とを含んでいる。正解範囲情報は、正解とする大きさの範囲を示す情報である。また大側近接範囲情報は、正解範囲情報が示す正解の範囲から値が大きい側に外れた範囲(ただし正解範囲情報が示す正解の範囲に隣接する範囲)であって、正解とはしないものの正解に近いとする範囲を示す情報である。小側近接範囲情報は、正解範囲情報が示す正解の範囲から値が小さい側に外れた範囲(ただし正解範囲情報が示す正解の範囲に隣接する範囲)であって、正解とはしないものの正解に近いとする範囲を示す情報である。
例えば、正解範囲情報が示す範囲が「50センチ以上70センチ以下」とされ、大側近接範囲情報が示す範囲が「70センチより大きく80センチ以下」とされ、小側近接範囲情報が示す範囲が「40センチ以上、50センチより小さい」とされる。以下、正解範囲情報が示す範囲を「正解範囲」といい、大側近接範囲情報が示す範囲を「大側近接範囲」といい、小側近接範囲情報が示す範囲を「小側近接範囲」という。また大側近接範囲を値が大きい側に超えた範囲を「大側不正解範囲」といい、小側近接範囲を値が小さい側に超えた範囲を「小側不正解範囲」という。正解範囲は、特許請求の範囲の「質問の正解に対応する一定の範囲」に相当する。また正解範囲、大側近接範囲、小側近接範囲、大側不正解範囲および小側不正解範囲を総称して「解答関連範囲」という。図7は、各解答関連範囲の関係を示している。
次いで応答提供部12は、大きさ検出部11により検出された提示サイズが、上述した5つの解答関連範囲のうち、何れの解答関連範囲に属するかを特定する。ここで、事物の大きさを問う質問に係る質問関連データには、解答関連範囲ごとに異なる内容の音声データが含まれている。
応答提供部12は、大きさ検出部11により検出された提示サイズが、正解範囲に属している場合、対象質問関連データに含まれる、正解範囲に対応する音声データを取得する。そして応答提供部12は、取得した音声データを音声処理部13に出力することによって、音声処理部13に、音声データに記録された音声をスピーカ6から出力させる。正解範囲に対応する音声データは、ユーザによって表現された大きさが正解であったことを表す文言の音声が記録された音声データである。
正解範囲に対応する音声データに係る文言は例えば、「正解です。おめでとうございます。」というものである。この場合、ユーザは、スピーカから出力される音声を聴取し、内容を認識することによって、自身が表現動作によって表した大きさが正解であったことを認識できる。特にユーザは、自らの身体を使って現実空間に表した大きさが正解であることを認識することによって、現実空間における正解の大きさを体感として直感的に認識できる。
また応答提供部12は、大きさ検出部11により検出された提示サイズが、大側近接範囲に属している場合、対象質問関連データに含まれる、大側近接範囲に対応する音声データを取得する。そして応答提供部12は、取得した音声データを音声処理部13に出力することによって、音声処理部13に、音声データに記録された音声をスピーカ6から出力させる。大側近接範囲に対応する音声データは、ユーザによって表現された大きさが正解ではないものの正解に近い大きさであり、正解は表現された大きさよりも少しだけ小さい(或いは表現された大きさは正解よりも少しだけ大きい)ことを表す文言の音声が記録された音声データである。
大側近接範囲に対応する音声データに係る文言は例えば、「惜しい。もう少しだけ小さいです。」というものである。この場合、ユーザは、スピーカから出力される音声を聴取し、内容を認識することによって、自身が表現動作によって表した大きさが正解よりも少し大きかったことを認識できる。特にユーザは、自らの身体を使って現実空間に表した大きさが正解よりも少し大きかったことを認識することによって、現実空間における正解の大きさを体感として直感的に認識できる。
また応答提供部12は、大きさ検出部11により検出された提示サイズが、小側近接範囲に属している場合、対象質問関連データに含まれる、小側近接範囲に対応する音声データを取得する。そして応答提供部12は、取得した音声データを音声処理部13に出力することによって、音声処理部13に、音声データに記録された音声をスピーカ6から出力させる。小側近接範囲に対応する音声データは、ユーザによって表現された大きさが正解ではないものの正解に近い大きさであり、正解は表現された大きさよりも少しだけ大きい(或いは表現された大きさは正解よりも少しだけ小さい)ことを表す文言の音声が記録された音声データである。
小側近接範囲に対応する音声データに係る文言は例えば、「惜しい。もう少しだけ大きいです。」というものである。この場合、ユーザは、スピーカから出力される音声を聴取し、内容を認識することによって、自身が表現動作によって表した大きさが正解よりも少し小さかったことを認識できる。特にユーザは、自らの身体を使って現実空間に表した大きさが正解よりも少し小さかったことを認識することによって、現実空間における正解の大きさを体感として直感的に認識できる。
また応答提供部12は、大きさ検出部11により検出された提示サイズが、大側不正解範囲に属している場合、対象質問関連データに含まれる、大側不正解範囲に対応する音声データを取得する。そして応答提供部12は、取得した音声データを音声処理部13に出力することによって、音声処理部13に、音声データに記録された音声をスピーカ6から出力させる。大側不正解範囲に対応する音声データは、ユーザによって表現された大きさが正解から値が大きい側に大きく外れていることを表す文言の音声が記録された音声データである。
大側不正解範囲に対応する音声データに係る文言は例えば、「残念。もっと小さいです。」というものである。この場合、ユーザは、スピーカから出力される音声を聴取し、内容を認識することによって、自身が表現動作によって表した大きさが正解よりもかなり大きかったことを認識できる。特にユーザは、自らの身体を使って現実空間に表した大きさが正解よりもかなり大きかったことを認識することによって、自身の認識が誤りであったことおよび自身の認識と正解の大きさとのズレを体感として直感的に認識できる。
また応答提供部12は、大きさ検出部11により検出された提示サイズが、小側不正解範囲に属している場合、対象質問関連データに含まれる、小側不正解範囲に対応する音声データを取得する。そして応答提供部12は、取得した音声データを音声処理部13に出力することによって、音声処理部13に、音声データに記録された音声をスピーカ6から出力させる。小側不正解範囲に対応する音声データは、ユーザによって表現された大きさが正解から値が小さい側に大きく外れていることを表す文言の音声が記録された音声データである。
小側不正解範囲に対応する音声データに係る文言は例えば、「残念。もっと大きいです。」というものである。この場合、ユーザは、スピーカから出力される音声を聴取し、内容を認識することによって、自身が表現動作によって表した大きさが正解よりもかなり小さかったことを認識できる。特にユーザは、自らの身体を使って現実空間に表した大きさが正解よりもかなり小さかったことを認識することによって、自身の認識が誤りであったことおよび自身の認識と正解の大きさとのズレを体感として直感的に認識できる。
以上の通り、応答提供部12は、大きさ検出部11により検出された大きさが、質問の正解に対応する一定の範囲内に属する場合、正解であることを示す応答を提供する一方、当該一定の範囲内に属していない場合、当該一定の範囲からの離間の度合いに応じて、正解からどの程度外れているのかを示す応答を提供する。このため、ユーザは、自身が示した大きさが正解の場合にはそのことを認識できると共に、正解ではない場合には、どの程度外れているのかを的確に認識できる。
次に情報処理装置3による情報処理方法についてフローチャートを用いて説明する。図8は、情報処理装置3の主要な処理の動作例を示すフローチャートである。図8で示すように、情報処理装置3の質問提供部10は、事物の大きさを問う質問をユーザに提供する(ステップSA1)。次いで情報処理装置3の大きさ検出部11は、質問提供部10による質問の提供に応じて、大きさを表す動きがユーザにより行われたか否かを1台以上のカメラからの入力に基づいて監視し、行われたと判定した場合、大きさを表す動きによって表される大きさを検出する(ステップSA2)。次いで情報処理装置3の応答提供部12は、大きさ検出部11により検出された大きさと、質問提供部10により提供された質問の正解との関係に関する応答を提供する(ステップSA3)。
以上詳しく説明したように本実施形態に係る情報処理装置3は、事物の大きさを問う質問をユーザに提供し、大きさを表す動きがユーザにより行われたか否かをカメラからの入力に基づいて監視し、行われたと判定した場合、大きさを表す動きによって表される大きさを検出し、検出した大きさと質問の正解との関係に関する応答を提供するようにしている。
この構成によれば、事物の大きさを問う質問に対して、ユーザにより具体的な数値として解答が選択または入力されるのではなく、現実空間において事物の大きさを表す動作がユーザにより行われることによって解答が示される。そしてカメラからの入力に基づいてユーザの動作によって表された大きさが検出された上で、検出された大きさと質問の正解との関係に関する応答が提供される。このため、対象となった事物が現実空間でどの程度の大きさであるかをユーザが正しく認識しているかどうかを確認した上で、正しく認識しているかどうかに応じた応答を提供することができる。
以上、本発明の一実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
例えば上記実施形態では、車両2に情報処理装置3が設けられ、情報処理装置3による質問の提供が行われる場所は車両2の車内であった。しかしながら情報処理装置3が設けられて質問の提供が行われる場所は車両2の車内に限られるものではない。例えば場所は、自宅、学校、公共施設等の建造物の一室でもよい。
また上記実施形態では、質問および応答は音声により提供されていた。しかしながら、音声以外の手段(当然、音声を伴う手段であってもよい)で提供される構成でもよい。一例として、ユーザが視認可能な位置にディスプレイを設け、質問提供部10がこのディスプレイに質問を示す情報を表示し、また、応答提供部12がこのディスプレイに応答を示す情報を表示する構成でもよい。
また上記実施形態では、大きさ検出部11は、後部座席カメラ4およびステレオカメラ5からの入力に基づいて動作監視処理および大きさ検出処理を含む各種処理を実行していた。この点に関し、カメラの構成および大きさ検出部11の処理の内容は例示したものに限られるものではない。動作監視処理および大きさ検出処理には、既存の技術(特に画像認識技術)を応用可能であり、処理の実行にあたっては所定の機械学習手法で学習されたモデルを使用することができる。
特に後部座席カメラ4のみを設け、大きさ検出部11が後部座席カメラ4から入力する撮影画像に基づいて動作監視処理だけでなく、大きさ検出処理を実行する構成でもよい。この場合、例えば大きさ検出部11は、2次元の撮影画像において一端部と他端部とを特定し、2次元の撮影画像における一端部と他端部との距離(離間ドット数)を検出し、検出した距離に対して係数(係数は一定値でもよく、一端部および他端部の撮影画像における位置に応じて変わる値でもよい)を乗じることによって提示サイズを導出する。この場合ステレオカメラ5からの入力に基づいて提示サイズを求めた場合と比較して精度が低くなることが想定されるが、提出サイズは厳密に正確であることが求められるものではなく、問題ない。この場合、事前にユーザに対して、後部座席カメラ4のレンズに向かって動作を行うよう事前に通知することによって、精度の向上を図ることができる。またステレオカメラ5のみを設け、大きさ検出部11がステレオカメラ5からの入力に基づいて動作監視処理を実行する構成でもよい。
また上記実施形態では表現動作のパターンは、3つであったが、パターンは3つに限られるものではない。一例として、一方の手部分で把持する物体(ペン)と、他方の手部分とを離間して配置し、この物体と他方の手部分とで挟まれた空間によって、大きさを表すような動作であってもよい。また第2パターンに関し、大きさ検出部11が親指と人差し指との組み合わせ以外の2つの指の組み合わせによる提示サイズを検出する構成でもよい。
また例えば上記実施形態では記憶部14を情報処理装置3が備える構成であったが、情報処理装置3と通信可能な他の装置、媒体が記憶部14を備える構成でもよい。
また上記実施形態では、情報処理装置3の大きさ検出部11がステレオカメラ5からの入力に基づいて3次元データを生成する構成であったが、情報処理装置3とは別の装置がステレオカメラ5からの入力に基づいて3次元データを生成し、生成した3次元データを情報処理装置3に出力する構成でもよい。
また応答提供部12が応答を提供する方法は、例示した方法に限られない。例えば解答関連範囲をより細かくし、各解答関連範囲に応じた応答を提供する構成でもよい。また、正解でない場合に、「もっと大きい/小さい」といった内容ではなく、「○センチ大きい/小さい」というように正解との関係についてより具体的な情報を提供する構成でもよい。また応答提供部12が、正解範囲情報に相当する情報を用いて単に、単に正解であること或いは不正解であることを通知する構成でもよい。また応答提供部12が正解に至るまで誘導する構成でもよい。
2 車両
3 情報処理装置
4 後部座席カメラ(カメラ)
5 ステレオカメラ(カメラ)
10 質問提供部
11 大きさ検出部
12 応答提供部
3 情報処理装置
4 後部座席カメラ(カメラ)
5 ステレオカメラ(カメラ)
10 質問提供部
11 大きさ検出部
12 応答提供部
Claims (7)
- 事物の大きさを問う質問をユーザに提供する質問提供部と、
前記質問提供部による質問の提供に応じて、大きさを表す動きが前記ユーザにより行われたか否かを1台以上のカメラからの入力に基づいて監視し、行われたと判定した場合、前記大きさを表す動きによって表される大きさを検出する大きさ検出部と、
前記大きさ検出部により検出された大きさと、前記質問提供部により提供された質問の正解との関係に関する応答を提供する応答提供部とを備える
ことを特徴とする情報処理装置。 - 前記応答提供部は、前記大きさ検出部により検出された大きさが、質問の正解に対応する一定の範囲内に属する場合、正解であることを示す応答を提供する一方、当該一定の範囲内に属していない場合、当該一定の範囲からの離間の度合いに応じて、正解からどの程度外れているのかを示す応答を提供する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記大きさを表す動きは、左右の手部分が向かい合った状態で離間し、左右の手部分で挟まれた空間によって大きさが表現される動作であり、
前記大きさ検出部は、前記カメラからの入力に基づいて左右の手部分の離間量を検出し、検出した離間量を、前記大きさを表す動きによって表される大きさとする
ことを特徴とする請求項1または2に記載の情報処理装置。 - 前記大きさを表す動きは、手部分の一の指の先と他の指の先とが向かい合った状態で離間し、各指の先で挟まれた空間によって大きさが表現される動作であり、
前記大きさ検出部は、前記カメラからの入力に基づいて各指の先の離間量を検出し、検出した離間量を、前記大きさを表す動きによって表される大きさとする
ことを特徴とする請求項1から3の何れか1項に記載の情報処理装置。 - 前記大きさを表す動きは、手部分と物体の面とが向かい合った状態で離間し、手部分と物体の面とで挟まれた空間によって大きさが表現される動作であり、
前記大きさ検出部は、前記カメラからの入力に基づいて手部分と物体の面との離間量を検出し、検出した離間量を、前記大きさを表す動きによって表される大きさとする
ことを特徴とする請求項1から4の何れか1項に記載の情報処理装置。 - 車両に設けられ、
前記質問提供部は、車両に搭乗する搭乗者に対して質問を提供する
ことを特徴とする請求項1から5の何れか1項に記載の情報処理装置。 - 情報処理装置の質問提供部が、事物の大きさを問う質問をユーザに提供するステップと、
前記情報処理装置の大きさ検出部が、前記質問提供部による質問の提供に応じて、大きさを表す動きが前記ユーザにより行われたか否かを1台以上のカメラからの入力に基づいて監視し、行われたと判定した場合、前記大きさを表す動きによって表される大きさを検出するステップと、
前記情報処理装置の応答提供部が、前記大きさ検出部により検出された大きさと、前記質問提供部により提供された質問の正解との関係に関する応答を提供するステップとを含む
ことを特徴とする情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021083494A JP2022176841A (ja) | 2021-05-17 | 2021-05-17 | 情報処理装置および情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021083494A JP2022176841A (ja) | 2021-05-17 | 2021-05-17 | 情報処理装置および情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022176841A true JP2022176841A (ja) | 2022-11-30 |
Family
ID=84233993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021083494A Pending JP2022176841A (ja) | 2021-05-17 | 2021-05-17 | 情報処理装置および情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022176841A (ja) |
-
2021
- 2021-05-17 JP JP2021083494A patent/JP2022176841A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Geronazzo et al. | Interactive spatial sonification for non-visual exploration of virtual maps | |
Hoffmann et al. | Evaluation of an audio-haptic sensory substitution device for enhancing spatial awareness for the visually impaired | |
JPWO2004091400A1 (ja) | 加速度センサ軸情報補正装置及び加速度センサ軸情報補正方法 | |
EP2239652A1 (en) | Providing an interactive visual representation on a display | |
CN109191939B (zh) | 一种基于智能设备的三维投影交互方法及智能设备 | |
JP2010204926A (ja) | モニタリングシステム、モニタリング方法、およびプログラム | |
US20150339859A1 (en) | Apparatus and method for navigating through volume image | |
CN104023802A (zh) | 使用神经分析的电子装置的控制 | |
US11508150B2 (en) | Image processing apparatus and method of controlling the same | |
Vermun et al. | Gesture-based affective and cognitive states recognition using kinect for effective feedback during e-learning | |
Yang et al. | Sight-to-sound human-machine interface for guiding and navigating visually impaired people | |
JP2018036536A (ja) | 参加レベル算出システム、装置、プログラム、および方法 | |
JP2016189073A (ja) | 個性推定装置、個性推定プログラムおよび個性推定方法 | |
JP2023160899A (ja) | 集中度計測装置、集中度計測方法、およびプログラム | |
JP2022176841A (ja) | 情報処理装置および情報処理方法 | |
KR20200000680U (ko) | 학습 집중도 향상 장치 | |
US20220189200A1 (en) | Information processing system and information processing method | |
JP6832005B2 (ja) | 被験者判断装置、方法、及びプログラム | |
JP6865996B1 (ja) | 認知・運動機能異常評価システムおよび認知・運動機能異常評価用プログラム | |
RU152572U1 (ru) | Обучающий робот-ассистент | |
Rahman et al. | Monitoring and alarming activity of islamic prayer (salat) posture using image processing | |
JP2023093124A (ja) | 情報端末、情報処理方法及びプログラム | |
Jindai et al. | A nodding detection system based on the active appearance model | |
US20230027320A1 (en) | Movement Disorder Diagnostics from Video Data Using Body Landmark Tracking | |
JP7390891B2 (ja) | クライアント装置、サーバ、プログラム、及び、情報処理方法 |