JP2019079204A - 情報入出力制御システムおよび方法 - Google Patents

情報入出力制御システムおよび方法 Download PDF

Info

Publication number
JP2019079204A
JP2019079204A JP2017204737A JP2017204737A JP2019079204A JP 2019079204 A JP2019079204 A JP 2019079204A JP 2017204737 A JP2017204737 A JP 2017204737A JP 2017204737 A JP2017204737 A JP 2017204737A JP 2019079204 A JP2019079204 A JP 2019079204A
Authority
JP
Japan
Prior art keywords
user
intention
transmission
target
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017204737A
Other languages
English (en)
Inventor
佐藤 良治
Ryoji Sato
良治 佐藤
田中 久美子
Kumiko Tanaka
久美子 田中
剛史 齊藤
Takashi Saito
剛史 齊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2017204737A priority Critical patent/JP2019079204A/ja
Publication of JP2019079204A publication Critical patent/JP2019079204A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】認知負荷のない自然なインターフェイスで、ユーザが日常行うコミュニケーション動作を利用して機器装置とインタラクションすることを可能にする。【解決手段】音響センサーと撮像センサーを用いて、ユーザの音声信号と画像信号を得る。初期設定と動作認識設定に基づいて、それら信号を動作認識するための情報に変換する。そして、発話、注目動作、ジェスチャーの中から、コミュニケーション開始・終了、肯定・否定、複数のもの中からの対象選択、場所・方向の指示、というユーザの日常的なコミュニケーション動作であって、機器装置をコントロールする意図を持った動作を検出する。検出した動作を時系列で記録する。そして、初期設定と現状態と動作の時系列情報に基づいてユーザの意図を解釈し、フィードバック・実行する。【選択図】図3

Description

本発明は、各種の機器装置に使用される、情報入出力制御システムに関する。
情報処理装置のユーザ・インターフェイスは、以下のような発展段階をたどった。
今日の情報処理装置は、プログラム内蔵方式と呼ばれ、ソフトウェアプログラムが動作を指示することで処理が実行される。どのプログラムを動かすかは、ユーザがコマンドで指示する。ユーザとやり取りするハードウェア・ソフトウエア部分を、CHI(コンピュータ・ヒューマン・インターフェイス)、より一般的にはUI(ユーザ・インターフェイス)という。CHIでは、主に、コンソールにキーボードでコマンドを入力し、出力結果を情報提示モニターに表示させる。このプログラム内蔵方式コンピュータとCHI技術によって、コンピュータには様々な応用が生まれ、今日の興隆を得た。その後、CHIは、一般にGUI(グラフィカル・ユーザ・インターフェイス)と呼ばれるUIが主流になった。GUIでは、マウスとキーボードないしはタッチを入力手段とし、情報提示モニターに表示されたアイコンやコマンドメニューといったグラフィカルなオブジェクトを選択し実行する。このGUIによって、UIが視覚的になってわかりやすくなった。そして、PCの普及とともにコンピュータの利用者が広まった。さらに、タッチジェスチャー入力技術は、キーボード、マウスという作為的な入力手段をなくし、指ジェスチャーで直接にグラフィカルなオブジェクトを操作することを可能にした。このタッチ技術によって、ユーザはより直感的に操作できるようになった。そして、スマホの普及とともに、コンピュータの利用が一般に広まった。
情報処理機器のみならず、従来の電子機器のUIは、主に、手で入力し、出力は目で何らかの情報表示を見る。しかし、最近は、入力として音声、ジェスチャー、視線といった技術が利用され始めた。また、出力として表示装置に限らずロボットの反応等などの、物理的な効果を持つ応用が重要になってきた。ここで、ユーザは、音声対話ロボットを使い、人に話すかのように情報機器とやりとりする。例えば、「曲Xを探し、選択し、再生する」というコマンド列を入力する代わりに、「曲Xを再生して」と指示すればよい。音声対話ロボットのUIは、キーボードなしで直接入力でき、そのレベルはコマンドではなく、やりたいことを指示するといった意図である。そういう音声認識が、クラウドサービス等によって、誰でも利用できるようになってきた。一方、ジェスチャーは、タッチ・デバイスの接触操作以外とゲームの遠隔操作以外は、まだ一般的なユーザシナリオに利用されていない。しかしジェスチャー認識を構成するための要素技術は,OpenCVやDlibなどによって、誰でも利用できるようになった。また、視線追跡は、適用例として以下のようなものが提案されたが、まだ利用が普及していない。(1)ポインティング、位置指示:視線は、ほかのどのポインティング手段よりも速く位置を指示することができる。シューティングゲームで見た対象へミサイルを発射したり、画面上の目で見た場所にマウスポインターを動かしたりなどである(非特許文献1、特許文献1)。(2)操作対象選択:グラフィカルなオブジェクトを見ることで選択し、ほかの手段による操作を導く(特許文献2、特許文献3)。(3)GUIの情報提示装置ないしタッチデバイスを前提とし、ほかの操作のコンテキストとして使う(特許文献4)。現在の視線追跡は、ユースケースが未熟であるし利用条件に制限はあるものの、安価に提供され、やはり誰でも利用できるようになった。
ジェスチャー、音声、視線といった五感を使った情報伝達手段のそれぞれを、モダリティという。複数のモダリティを組み合わせてUIとするアプローチをマルチ・モダリティUIという。この分野の研究は活発であるが、実用品として普及したものはまだない。そのため、アカデミアの流れを要約する。マルチモダリティの研究は、Boltが1980年(非特許文献2)に、音声認識と指さしジェスチャーを同時に用いて、言明中の代名詞の曖昧さを解消したことに始まる。非特許文献3では、マルチ・モダリティのゴールは「人が他人とのコミュニケーションで使う手段を機械とのやり取りに使うこと」であること、人はコミュニケ−ション時に複数のモダリティを同時に使うこと、それには学習が不要なこと、などが指摘された。また、マルチ・モダリティのメリットとして、複数のモダリティを使うと単一のモダリティのあいまい性を減らせること、障碍者にも役立つこと、という点が指摘された。非特許文献4では、認知負荷の観点からのメリットとして、複数のモダリティ、特に視覚空間系と音響系、を独立に平行に使用したほうが人の記憶容量が増えること、認知資源がより節約されるために人のパフォーマンスがあがること、などが指摘された。また、一番重要な効用として、ミスを減らす点が指摘された。個々の研究としては、音声入力をほかの手段で補うものが多かった。種々の試みの中に、音声、ジェスチャー、視線という3つの手段を併用するものもあった(非特許文献5、非特許文献6、非特許文献7)。
なお、本書類では、以降、モダリティの代わりに伝達手段という用語を用いる。
以下、上述の背景技術のそれぞれの限界を説明する。
図1に、従来のUIと本発明の属するインタラクションの相違を模式的に示す。図1の上、従来のUIでは、ユーザはコマンドを与えることでプログラムを実行し装置を動かす。そのUI上の単位は、プログラムという単位に即したものである。これは、人が認知する意味のレベルではなくて、コンピュータを実現する手段のレベルである。ユーザは、コマンドとプログラム実行の繰り返しによって、当初の意図から期待した効果を得る。ここで、意図からコマンドに変換する過程は人が担う。図1の上、「従来のコンピュータヒューマンインターフェイス」に示すように、意図からコマンド列に変換する過程、つまり意図とコマンド列とのギャップが、認知負荷となる。そして、意図をコマンド列に変換するために、ユーザは試行錯誤を通してコマンドに習熟するという学習過程を必要とする。
GUIにおいて、ユーザは、アイコンやメニューからオブジェクトを選び操作を実行する。これらグラフィカルなオブジェクトのうち、メニューのコマンドは、従来のUIと同じく、プログラムという処理単位がそのままUIとなっている。グラフィカルなオブジェクトのうち、アイコンは、抽象的なメタファーである。メタファーは間接的な暗示であって、それで具体的な対象を連想させる。アイコンは、ある場合にはデータであり、ある場合にはアプリケーションの起動などのコマンドである。アイコンが何を意味するのかを理解するには、ユーザはやはり習熟という学習過程を要する。GUIでも、メタファーに習熟し、意図をコマンドに変換しなければならず、認知負荷は高い。
タッチ・デバイスに代わっても、アイコンやコマンドメニューといったGUIの概念はそのまま残っている。
これら従来のCHI、GUI、タッチインターフェイスの認知負荷が高いということは、情報弱者、例えば高齢者を、ユーザとして想定すれば明らかとなる。高齢者の相当は、PCやスマートフォンを使いこなせず、今日の情報機器やインターネットの恩恵を受けていない。高齢者は、まず視力が低下し、耳が遠いという身体的なハンディキャップがある場合が多い。それ以上に、認知負荷の故の問題がある。高齢者は、メタファーが例えているものを推測できない。高齢者は、操作結果を予測できない。高齢者は、試行を通しての操作習得が難しい。高齢者は、記憶を必要とするような深い画面遷移やメニューのネストの把握が難しい。また、情報弱者でなくとも、この認知的負荷は、ストレスとなる。この原因は、これらのUIが、プログラムという実現手段に即したコマンド・レベルの表現言語であり、ユーザが本来気にすべきでないものであるからである。
実は、認知負荷の高さは、情報機器のUIだけの問題ではない。現在の家電製品のUIでは機能ボタンが多用される。例えばテレビのリモコンには複数の機能ボタンがある。どの機能ボタンを押せばどういう効果があるのかは、マニュアルを丁寧に読む必要があったり、押してみて試すという習熟プロセスが必要だったりする。これら機能ボタンは、やはり実装レベルのコマンドに対応している。情報機器のUIと同じく、日常的に使う電子機器のUIもまた認知負荷が高いという問題を持っている。
一方、アマゾン・エコーのような音声対話ロボットは、音声対話のみでUIを構成する。音声対話ロボットは、UIが意図レベルに近いので、認知負荷が減り、一般ユーザもストレスなく楽に使えるため、現在、普及しつつある。しかしながら、音声が苦手なことがある。例えば、複数のものから選ぶことは、音声でメニューを読み上げてユーザに番号で項目を返事させるよりも、視覚的に並んだものから指で選べば、瞬時にできる。また、音量調整等のアナログ量の指示は、音声で指示調整するよりは、つまみをひねったりスライドを動かしたりなど身体的動作のほうが簡単である。また、位置をロボットに指示するのは、音声では無理で、指さしジェスチャーのほうが容易である。また、地図を操作したり形状を指定したりなどの空間的な概念を操作するのは、音声でなく手でないと不便である。つまり、音声UIで快適になる分野には限界があり、伝達手段を音声に限定すればかえって不便で不自然なケースが出てくる。
視線を使ったUIにおいて、伝達手段を視線に限定するアプローチでは、視線をポインティングや対象選択といった操作手段とする。しかし、視覚は、本来、受容器であって、作用するための器官ではない。目は、アイコンタクトとして、コミュニケーションにおいて能動的な役割を果たす。しかし、視覚は、基本的には、何かを見つけ出してそこに向かって筋・骨格を使って近づいたり、例えば手で操作しつつその結果がどうなったかを周辺視野ともに観察したりするような、受動的な器官である。そのため、視線を能動的な操作手段として使おうとすると、装置を操作するための人為的で不自然なルールが必要となり、疲労を招いたり学習を要したりする。例えば、視線は不随意的・無意識的にsaccadeと呼ばれる微細な動きをする。そのため、従来の視線追跡技術の応用では、一般に、視線がある領域に一定時間停留(fixation)することによって位置やオブジェクトを選ぶ(非特許文献8やTobii社の製品SDKなど)が、どのくらい視線を止めるかは固定なので、ユーザはそれを学習する必要がある。例えば、シューティングゲームで標的をじっと見つめることで自動的にミサイルがその対象へ発射される応用では、例えば1秒じっと見つめることでミサイル発射がおきるということを学習する必要がある。また、目をオブジェクトに強制的に一定時間とどめおくのは不自然な動作なので、長時間の使用は目の疲労を招く恐れがある。
一方、視線追跡を前提にして、それにタッチ・ジェスチャーを組み合わせるなどの適用例がある。例えば、GUI情報提示装置上のあるオブジェクトを一定時間以上見て選択し、マウスをクリックすることでその対象の選択を確定する。この場合、視線は操作の一部として必須要素である。また、視線と他の手段の操作は同時に発生し、必ず両者が存在する必要がある。これらの適用例でのUIは、視線プラスアルファという前提を人為的なルールとしてユーザに強いる。
さらに、従来の視線追跡技術の適用例では、GUI情報提示装置を前提としている。GUIはコマンド・レベルなのでそれを視線で扱っても所詮コマンド・レベルのUIである。
結局、従来の視線追跡の適用例では、認知負荷を軽減していない。
一方、複数の伝達手段(マルチ・モダリティ)に関する従来の研究は、「人が他人とのコミュニケーションで使う手段を機械とのやり取りに使」(非特許文献3)えばいかに役立つかという発想ではなく、ある技術の有用性を証明することが主眼である。そのため、安易にGUIの情報提示装置およびその上のUIを前提している。また、音声認識を軸にして、複雑なタスクを課題に設定している。非特許文献5は、GUIの情報提示装置に映した地図あるいはブロックを操作するために、音声認識された指示文章を解析(Parse)し、それとジェスチャーによる空間操作と視線ポインターからの位置情報を補う。また、非特許文献6,非特許文献7のいずれも、GUI情報提示装置に映した3Dオブジェクトを操作するものである。これらは、複雑な記述ができる音声文章の利点と、視覚的に把握し指で操作するという空間的な作業とを組み合わせ、複雑なタスクの負荷を軽減する。そして、複雑なタスクに適用するため、結局、操作ルールという規則を導入してしまう。これらは、GUIではないUIでの可能性と、もっと単純だが基本的な動作の利用、という点に思い至っていない。
また、非特許文献4は、単一の伝達手段を使うよりも複数の伝達手段を使ったほうが、人の認知的な資源をより効率的に使えるということの実証結果を例示している。しかしユーザが直接的に対峙する既存のUIがプログラムレベルであるという点、つまり認知負荷の主役を看過している。
また、非特許文献3や非特許文献4での、システム構成に関する議論は、抽象的で実際的でない。UI設計に関しても、具体的な指針はない。
米国特許出願公開第2013/0169560号明細書 米国特許出願公開第2012/0295708号明細書 米国特許出願公開第2016/0132290号明細書 米国特許出願公開第2011/0175932号明細書
"A Breadth-First Survey of Eye Tracking Applications", Andrew T. Duchowski, 2002 "Put-That-There: Voice and Gesture at the Graphics Interface" Richard A. Bolt, 1980 "Toward Multimodal Human-Computer Interface", Rajeev Sharma, 1998, IEEE "Multimodal Interfaces: A Survey of Principles, Models and Frameworks", Bruno Dumas, 2009, Human Machine Interaction "Integrating Simultaneous Input from Speech, Gaze, and Hand Gestures", David B. Kcons, 1993 "Integrating Model of Eye-Gaze and Manual Response in Multimodal User Interface", Wang Jian, 1996, Journal of Computational Science and Technology "Speech/Gaze Interface to a Visual Computing Environment for Molecular Biologists", Rajeev Sharma, 1996, IEEE "WHAT YOU LOOK AT IS WHAT YOU GET: Eye Movement-based Interaction Techniques", Robert J. K. Jacob,CHI'90 Proceedings https://en.wikipedia.org/wiki/List_of_gestures https://en.wikipedia.org/wiki/Body_language https://en.wikipedia.org/wiki/Nonverbal_communication https://en.wikipedia.org/wiki/Oculesics edX, "MichiganX: Evaluating Designs With User", "Lecture Questionnaires", https://courses.Edx.org/asset-v1:MichiganX+UX504x+1T2017+type@asset+block@UX504_3.01.pdf "Head Pose Estimation Using OpenCV and Dlib", http://www.Learnopencv.com/head-pose-estimation-using-opencv-and-dlib "In the Eye of the Beholder: A Survey of Models for Eyes and Gaze", Dan Witzner, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, Vol32, No.3, March 2010 "Remote and Head-Motion-Free Gaze Tracking for Real Environments With Automated Head-Eye Model Calibrations", Hirotake Yamazoe, Computer Vision and Pattern Recognition Workshops, 2008. CVPRW '08. IEEE Computer Society Conference on "3D Gaze Estimation with a Single Camera without IR Illumination", Jixu Chen, Qiang Ji, Pattern Recognition, 2008. ICPR 2008. 19th International Conference on "Appearance-Based Gaze Estimation in the Wild", Xucong Zhang, Computer Vision and Pattern Recognition, 2015 "Pointing Gesture Recognition based on 3D-Tracking"、Kai Nickel, 2003, ICMI '03 Proceedings of the 5th international conference on Multimodal interfaces 「直感的なジェスチャの認識を利用したインテリジェントルームの構築」, 若村直弘, 2005, The Japan Society of Mechanical Engineers 「指さし対象認識による個人用知的移動体の直感的な操作」、矢田幸大, 2013, IPSJ
上記の背景技術で説明したように、従来の情報処理機器もしくは電子機器のUIは、コマンドという機器側の処理単位のレベルのインタラクションである。そのために、意図をコマンド列に変換するという認知負荷がユーザに掛かる。その結果、従来の電子機器は、すべての人に今日の技術の恩恵を与えていない。また、音声や視線といった伝達手段を用いた既存のUIは、特定の伝達手段を前提にするために、不自然な操作をユーザに強いる。そこで、本発明は、伝達手段を制限することなく、人が日常行うコミュニケーション動作のままの自然なやり方で、機器とインターフェイスすることを可能にすることで、認知負荷がないインタラクションを提供することを目的とする。
本発明に基づくHMI(ヒューマン・マシン・インタラクション)とそれを具備した電子機器装置は、背景技術に説明したようなメニューやコマンドといった実現レベルのインターフェイスを用いない。本発明は、図1の下図「今後のヒューマンマシンインターフェイス」に示すように、人の日常的なコミュニケーション動作を意図の表現手段としてそのまま利用する。人の日常的なコミュニケーション動作とは、発話(10)、注目方向(111)、ジェスチャー(112)によって構成されたものである。本発明は、特定の伝達手段を前提にした制約なしに、日常的な動作を前提にして、それに必要な検知手段を必要に応じて利用する。そのため、認知負荷のないHMIを提供することができる。
なお、本書類では、以下、従来の音声認識技術で検出される動作を発話(10)という用語で示す。また、従来の視線追跡技術分野では、目で見ているものを視野角で数度まで絞り込んだものを視線という用語で呼んでいるが、本書類では顔の向きも包含するより広い概念の用語として注目方向(111)という用語を用いる。顔の向きだけでも十分に意図解釈ができるケースもあるためである。また、頭部もしくは手腕部の身体動作による意図表現の動作を、ジェスチャー(112)という用語で示す。
図1下図に示すように、本発明の属するHMI(ヒューマン・マシン・インタラクション)では、コマンドやプログラムではなく、意図をUIの単位とする。人の意図とそれを実現する処理単位であるプログラムの間に、UIがある。従来のUIは、意図から、処理単位であるコマンド列を持つプログラムへ変換する過程を人が担う。その過程のギャップが認知負荷である。従来のUIでは、意図をいくつかのコマンドの実行手順に変換し、コマンドを選択ないし入力しては、得た結果をもとに次のコマンドを実行するということを繰り返す。そこでは、意図を手順に分割し実行を計画し、その後、手順を実行し中間的な結果を確認するという作業を繰り返す。一方、本発明の属するこれからのHMIでは、ユーザは日常的な動作で意図を表現し、プログラム側が意図を解釈し処理内容へ変換する。さらに効果や出力は物理的に明確であるため、従来の認知負荷がない。
本発明のシステムは、ユーザの動作から意図を判定するため、次の処理構成をとる。システムは、音響センサーと撮像センサーとメモリと処理系を備える。メモリは、初期設定、制御プログラム、動作検出のための設定、動作の時系列、および現状態を記録する。処理系は制御プログラムを実行する。制御プログラムは、まず撮像センサーと音響センサーによって、ユーザの動作を信号としてとらえる。そして、信号からユーザの動作を検出し、時系列情報として記録する。そして、動作の時系列記録にある最近の一つ以上の動作から、ユーザの制御指示の意図を判定する。最後にその意図を実行してフィードバック・出力し、状態を遷移する。
本発明は、ユーザが日常的に行うコミュニケーション動作である、発話(10)および身体動作(11)とから、意図を推定する。実は、日常的に行うコミュニケーション行動の身体動作の多くは、感情表現であって機器操作に無関係であり、さらに文化依存性が高い(非特許文献9、非特許文献10、非特許文献11、非特許文献12)。その中で、発話(10)に加えて、操作指示の意図を表現しうる身体動作として、顔の向きないし視線によって得られる注目方向(111)、および頭部・手部によるジェスチャー(112)がある。本発明はそれらを利用する。本発明は、人の日常的なコミュニケーション動作から、電子機器装置の操作に利用できる手段を得るため、誰でもすぐに操作でき、習熟や記憶の必要がない。
発話(10)には、日常的なコミュニケーションで利用されるもののうちで、機器対象を選択したり制御したりするために使用できる動作として、次のものがある。コミュニケーションの開始・終了を指示する表現(日本語では「開始」、「もしもし」、「終了」、「ばいばい」など)、肯定・否定を意図する表現(日本語では「はい」、「そう」、「いいえ」、「ちがう」など)、対象を指示する表現(日本語では人名、機器一般名詞)、場所を指示する表現(日本語では「こっち」「そこ」「あっち」「むこう」)、方向を指示する表現(日本語では「上」、「下」、「右」、「左」)。これらの発話(10)は、音声認識処理によって検出する。発話(10)の意図は、認識された表現、現在の状態、およびほかの伝達手段の動作を含む動作履歴を含めて判定する。本発明は、意図の伝達手段を発話(10)に限定しないので、音声操作が苦手なタスクに対しては、あるいは発話に障害のあるユーザは、ジェスチャー(112)や注目方向(111)を通した意図表現によって機器を操作することができる。
注目方向(111)は、何かを探し目的の対象を選ぶ、もしくは興味のありかを示す動作である。何かを探すのは目の受容器官として本来の機能である。探す動作は、会話を開始する際や機器を選び操作する状況では、意図の伝達相手を選ぶという意図がある。一方、伝達相手を確立した後で、目配せで伝達相手と異なる対象を注目する動作は、伝達対象以外のものへの興味を示し、伝達対象以外の対象を指示したり、場所や方向を示したりする意図がある。これは動物でも行う普遍的な動作である。注目方向(111)の検出は、顔の向きおよび視線の推定によって大まかな注目方向の動きを追跡し、ある領域への停留時間を計測することで行う。注目方向(111)の意図が、伝達対象の探索・選択と、伝達対象以外の対象ないし位置や方向の示唆と、のいずれなのかは、現在の状態、動作履歴をもとに決定する。
従来の視線追跡技術の応用と比較する。第1に、従来の視線を使ったUIは、視線を操作の必須な要素とするが、本発明では、必ずしも視線を操作の必須要素とするものではなく、発話(10)、ジェスチャー(112)を含む動作の時系列履歴をもとに意図を解釈する。また、場合によっては視野角度数度の視線情報は必要なく、顔の向きで周辺視野内に入っているかどうかだけで意図を判定できるケースもある。一方で、ほかの手段を伴わず注目方向単独でユーザの意図を十分に決定できるケースもある。第2に、従来の視線追跡技術の適用と異なり、本発明は必ずしもGUI情報提示装置を前提としない。本発明のUIは、GUI情報提示装置がないユーザシナリオでも利用することができる。本発明では、そのような制約を設けない。
ここで、注目動作に関し、従来技術はそれを操作手段として扱うが、本発明はその自然な動作をそのまま生かし意図の解釈に利用する。その違いは、特に、何に注目しているかを判定する処理に現れる。視線は、何か特定の対象を見ているときも不随意で無意識的な小さな動き(saccade)をする。そのため非特許文献8にあるように、ある小さな固定の時間だけある範囲に視線が停留(fixation)したという現象を持って「見た」とする。ところが従来の視線追跡技術は、その生理学的な事実をそのままUIの概念としてしまい、かつ視線を操作の手段と位置付けているため、ある固定的な停留時間の閾値を使って視線の対象を判定する。しかし、人は、初めて見るものから興味対象を探す場合はゆっくり眺めまわすだろうし、見慣れたものの中から探す場合は素早く探す。つまり、固定的な停留時間は、個人や状況に即さず、操作ルールを持ち込むものである。本発明では、ユーザが複数対象からあるものを探す場合、固定的な停留時間閾値ではなく、いろいろな対象を眺めたあとに目的のものに目が比較的長く落ち着く、という注目の停留時間のパターンを利用して、注目したという動作を判定する。これは、固定の閾値を使って視線で操作するという約束ごとをユーザに強いるのでなく、ユーザそれぞれの、なにかを探す自然な動作を、そのまま利用するためである。
ジェスチャー(112)に関し、日常的なコミュニケーションで利用されるもののうちで、機器対象を選択したり制御したりするために使用できる動作として、次のものがある:コミュニケーションの開始・終了を伝えるジェスチャー(例:手を挙げて掌を相手に向ける挨拶、手を挙げて掌を相手に向けて振りばいばいする)、肯定否定を伝えるジェスチャー(日本の場合、うなずきと、首の横振り)、伝達対象以外の対象ないし場所・方向を伝えるジェスチャー(指さし、手のひらを広げて腕を伸ばす、掌を上あるいは下に向けて指を手前に折るなど)、である。指さしは、人間の赤ちゃんが興味対象を示すためにまず覚える動作であり、普遍的なものである。が、一方で首の振り方によって肯定・否定のどちらになるかなど、文化依存な動作も多い。そのような文化依存性による動作と意図の対応付けのバリエーションは、初期設定と意図解釈で対処する。ジェスチャーの検出は、撮像センサーを使った画像処理によって顔や手などの特徴点を追跡し、判定しやすい統計量(例:顔の特徴点から顔平面の法線角度を求めるなど)に変換したうえで、ある動作パターン(例:うなずき)にマッチしたかどうかで判定する。検出されたジェスチャーの意図は、設定内容と、現在の状態と、ほかの伝達手段の動作を含む動作の時系列履歴とを加味して、決定する。
意図解釈は、以上のような、日常的なコミュニケーション動作(1)、すなわち発話(10)、注目方向(111)、ジェスチャー(112)という3種類の伝達手段の動作の記録と、現在の状態と、初期設定とを総合して行う。背景技術に述べたように、3種類の伝達手段の中の特定の、あるいは複数の伝達手段を前提にすると、操作ルールという人為的な制約をユーザに強いることになる。一方、本発明では、特定の伝達手段を前提にせずに、まずもって人の日常的で自然なままの伝達動作があってそれを把握するために必要な手段を利用して意図を判定する。
なお、本発明の情報入出力システムは、制御する機器装置の付加装置とすることができる。また、一部として組み込んで利用することもできる。また、無線LANやインターネットなどのネットワークを介して、機器装置への入出力情報を、本発明の情報入出力システムが仲介する構成にもできる。また、対象となる装置は、GUI情報表示装置を備えたコンピュータ(PC、スマホ、タブレット)にとどまらない。運動機能ないし運動部品を備えて、位置や方向の指示を必要とする、いかなる家電やロボット装置も利用することができる。さらに、複数のものから特定の選択肢を指示することを必要とする、いかなる装置ないし装置群も利用できる。
文化によって、同じジェスチャーでも意図が異なることがあるということを前述した。同じような配慮が必要なこととして、言語がある。本発明の情報入出力システムで使う音声認識と、フィードバック・出力に使う言語は、ユーザに適合したものにする。また、ユーザの身体的特性には、よりきめ細かい配慮が必要となる。従来のUIは、身体的特性に適合させるのは難しく、特殊なアプリや専門的な機器を必要とした。一方、本発明は、3つの伝達手段を利用するため、そのメリットとして、さまざまな身体的特性を抱えたユーザでも利用できるようになるという特徴がある。例えば、耳の遠いユーザには、フィードバック・出力の音量を少し高めに設定しかつ音声は必ずテキストでも表示する、などの対応をとることができる。以上の、文化依存性、身体的特性への適合は、システムの初期設定と解釈とフィードバック・出力で対応する。
本発明は、従来の複数伝達手段(マルチモダリティ)の研究がGUIを引きずっているのと異なり、GUIの要素であるWIMP(Window、Icon、Menu、Pointing Device)を出発点としない。WIMPをいかに自然な動作に変えるかというアプローチでなく、ユーザの日常にある自然な動作がまずありきで、それをいかに検出・解釈して生かすかというアプローチをとる。従来の研究の複雑なタスクとは異なり、本発明は、対人のコミュニケーションや擬人化したロボットとのコミュニケーションという領域を得意とする。それらは、人相手だったら負荷がないのに、同じことが機械経由であるために負荷が高い。そういう領域こそは対人的な動作をそのまま生かしやすい。また、日常的な動作を生かすため、肯定・否定動作、開始・終了動作、そして言明ではなく呼びかけ動作など基本的な動作を利用する。そうすることで、認知負荷をなくす。
また、日常的な動作を利用することは、複数の伝達手段をどう組み合わせてUIを設計するかに関し、明確で具体的なガイドラインを与える。人が日常的に行うコミュニケーション動作(2)は、人が日常的に行うその他の動作と組み合わせることで自然なインタラクションとなる。人が日常的に行うその他の動作とは、情報機器が生まれる前から人が慣れ親しんでいる、物理的なボタンを押す・引く、つまみを回す、取っ手をスライドするといった機械的な動作である。また、本発明に基づく自然な入力インターフェイスは、人が観察できる物理的な変化という処理結果のフィードバック・出力と組み合わせることで自然なインタラクションとなる。人が観察できる物理的な変化というフィードバック・出力とは、意図を実行した結果得られる効果であり、興味対象の写真、液晶ランプの点滅、音声による返答、機器の移動など、人の感覚的受容器官が観察できる物理的な変化である。情報提示装置を出力手段とする場合でも、表示内容はアイコン等の人工的・間接的な抽象物は排除し、表示テキスト以外は顔写真など実物を表現するものを使う。
以上のように、本発明に基づくシステムのHMI(ヒューマン・マシン・インタラクション)は、人が日常的に行うコミュニケーション動作を入力とし、直接的な効果をフィードバック・出力とする。本発明は、UIのレベルがプログラムではなく意図レベルである。また操作UIとして日常の動作以上の制約を設けない。そのため認知負荷がない。そして、ある伝達手段を前提にするのではなく、日常的なコミュニケーション動作を前提としてそれに必要な伝達手段の動作を参照する。そのため、発明の効果に示すような、優れた「使いやすさ」を提供することができる。本発明の使いやすさの効果は、従来の音声認識、視線追跡、ジェスチャー認識という個別の分野技術及びその単なる組み合わせからは得られないものである。また、本発明は、GUIのWIMPを前提にせず、コミュニケーションというタスク領域で、単純で基本的な動作を利用することで、「人が他人とのコミュニケーションで使う手段を機械とのやり取りに使うこと」(非特許文献3)を可能にする。さらに、本発明は、複数の伝達手段を利用するため、ユーザの身体的特性に容易に適合することができる。また本発明に基づくUIは、複数の伝達手段の組み合わせとして日常動作にすでにある自然なものを利用し、かつ効果を外部的なものに限定することにおいて、従来の抽象的な議論と異なり、マルチ・モダルな(複数の伝達手段を利用した)UI設計の明確なガイドラインを示す。
本発明によるHMI(ヒューマン・マシン・インタラクション)の効果を、ユーザビリティ・テストで実証した。
本発明によるHMIの事例として、テレビ電話アプリ「見てもしもし(仮称)」のPC上のプロトタイプシステムを用いた。これは、視線追跡と音声認識と顔認識を備え、画面を見る、連絡先の写真から探して注目する、「もしもし」と呼び掛ける、相手の名前を呼ぶ、うなずく、などの動作を認識する。実験したタスクは、起動する、連絡先から相手を探す、通話を開始する、の3つとした。そして、現在、一般に普及しているPC上のビデオ会議システムであるスカイプと、本発明に基づくテレビ会議システムのプロトタイプの2つを比較する。そのため、被検者に上記の3つのタスクを、PC上で、順次、2つのシステムで遂行してもらった。被検者は10名で、PCやスマホに不慣れな被検者が2名、PCかスマホを普段使っている被検者が8名。操作に躓いた時は、少しポーズをとった後で、操作のやり方を説明した。そして、3つのタスクを2つのシステムで遂行した後に、使いやすさの評価方法として実績のあるSUS(System Usability Scale)(非特許文献13)という手法で、アンケートに回答してもらい、使いやすさを数値化した。SUSでは、10個の質問(頻繁に使ってみたい。全体的に不必要に複雑だ。大変簡単に使える。使うには手助けが必要だ。複数の機能がよくまとまっている。複数の機能があまりにもちぐはぐに見える。たいていの人はすぐに使えるようになる。使うのがとても面倒だ。自分は難なく使いこなせる。使うためにはいろいろ習熟しないといけない。)に関し、「全然そう思わない」を1、「全くそう思う」を5としたスケールで、1から5までのスコアをつけてもらう。そして、奇数番の質問は(スコアー1)*2.5を、偶数版の質問は(5―スコア)*2.5を加算する。非特許文献13では、SUSは、68点で平均的な使いやすさ、50点未満なら使いにくい、80点より大きいならきわめて使いやすい、とされている。
図2に各被検者と平均のSUSスコアを示す。平均すると、スカイプは100点満点中53点で普通かやや使いにくい、本発明に基づくシステムは87点できわめて使いやすい、という結果が出た。これにより、本発明に基づくHMIは、従来型のUIに比べて、大きく使いやすさを増すことが示された。普段PCを使い慣れていない被検者は、スコアの差が大きい傾向があった。これは、現在のUIで困難を感じるユーザにとって本発明はより効果が大きいらしいという観察ができる(標本数が2と少ないので、仮説)。したがって、高齢者等の情報弱者でも誰でも使えるUIを提供するという本発明の目標に合致していそうである。また、普段PCを使い慣れている被検者でも、本発明に基づくシステムは、一貫して歴然とした差で、従来のUIより使いやすいという結果を得ている。これは、現在のUIに習熟したユーザでも、実は現状のUIにストレスを感じていることを示唆する。これは、一般ユーザにおいても、本発明から派生あるいは本発明を模倣したHMIが、今後、従来普及しているUIに取って代わる可能性を示している。
従来のUI(ユーザインターフェイス)と本発明の属するこれからのHMI(ヒューマンマシンインタラクション)を比較し、認知負荷の違いを示す説明図である。 従来のUIに基づくスカイプと、本発明に基づくテレビ会議システム「見てもしもし」のプロトタイプとの使いやすさを、System Usability Scaleでスコア化し、10名の被検者でプロットしたものである。 本発明に基づくHMIを実装する制御プログラムの全体概略ブロック図である。 本発明に基づくHMIを実装する制御プログラムの全体概略フロー図である。 本発明に基づくHMIを実装する際の、注目方向を決める処理の環境条件の3類型を示す図である。 注目方向を判定する手法を示す図である。 本発明において、注目動作を検出するときに、注目対象への注目方向の停留時間に関し、相対的な長さの閾値を使うことを説明する図である。 コミュニケーションの開始・終了を伝えるジェスチャーの例を示す図である。 肯定否定を伝えるジェスチャーの例を示す図である。 伝達対象以外の対象ないし方向を指すジェスチャーの例を示す図である。 場所の移動を伝えるジェスチャーの例を示す図である。 本発明の第1の実施例であるテレビ電話システムの構成を示す図である。 本発明の実施例であるテレビ電話システムの初期待機画面の例を示す図である。 本発明の実施例であるテレビ電話システムの起動画面の例を示す図である。 本発明の実施例であるテレビ電話システムの連絡先リスト画面の例を示す図である。 本発明の実施例であるテレビ電話システムの連絡先リスト画面で、注目対象のフィードバックの例を示す図である。 本発明の実施例であるテレビ電話システムの連絡先リスト画面で、絞り込まれた連絡先を表示する例を示す図である。 本発明の第1の実施例であるテレビ電話システムのテレビ電話で、通信相手の動画と当方の動画を表示する例を示す図である。 本発明の第2の実施例である、自走車椅子システムの構成を示す図である。 ステレオ撮像センサーの原理を示す図である。
本発明を実施するためのハードウェアおよび制御プログラムの概略ブロック図を、図3に示す。ハードウェアとして、発話(10)をとらえるための音響センサー(20)と、注目方向(111)およびジェスチャー(112)をとらえるための撮像センサー(21)と、動作検出処理部(22)、意図解釈部(23)、実行部(4)を担う処理系と、処理系のコードを収納し、状態記憶部(25)、設定記憶部(24)、動作時系列記憶部(26)を持つメモリとを持つ。また、フィードバック・出力(5)を与えるために、実行部(4)は、スピーカ、LEDランプもしくは情報提示装置、または移動のためのモータ駆動機構を持つこともある。
なお、図3は、ネットワークを介した通信部を省略している。ある実装では、これらすべてが制御される装置側に組み込まれる。ある実装では、信号を受け取ったあと、それを加工して実行計画まで変換し指示を出す、ところまでの高負荷の処理を、制御されるクライアント装置とは別のサーバに集約する。その場合、信号処理部(221)と実行部(4)は、それぞれ制御されるクライアント装置側とサーバ側に分割される。まずクライアントで音響センサー(20)、撮像センサー(21)から信号を受け、サーバに送信する。サーバ側で信号を受け取って、動作を検出(22)し、意図を判定(23)し、サーバ側の実行部(4)で実行計画を作成する。そして、実行指示をクライアントに送信する。すると、ライアント側の実行部(4)が指示を遂行する。このように内部に通信系を設け負荷分散するかどうかは、最適化設計事項なので、以下の説明ではこのような内部の通信系を省略する。
以下、各構成要素を説明する。音響センサー(20)は、発話(10)をとらえる。音響センサーとしては、コンデンサー・マイクロフォーン、ダイナミック・マイクロフォーン、など人間の会話音声の可聴周波数帯の空気振動をとらえるものであれば何でもよい。撮像センサー(21)は、顔の向きや視線による注目方向(111)と、頭部、手部のジェスチャー(112)とをとらえるセンサーである。適用目的が、顔向き、視線、ジェスチャー検出さえできればよい場合は、CCD、CMOS撮像素子を持つ2D撮像センサーでよい。適用目的が、指さしの方向推定を含むならば、KINECTのようなRBG−D(深度)撮像センサーや、ステレオ・撮像センサーないし複数撮像センサーを用いる。
動作検出処理部(22)は、センサーから得た信号から動作を検出し、動作時系列記憶(26)に動作を登録する。動作検出処理部(22)は、まず信号処理部(221)において、センサーから得た情報を、音声信号・画像信号へ変換する。次に、動作検出処理部(22)の動作判定部(222)は、まず前処理として、設定記憶部(24)の設定内容に応じて、信号情報を動作検出しやすい形式に変換する。発話(10)ならば、音声認識処理により音声をテキストに変換する。また、注目方法(111)とジェスチャー(112)ならば、画像動画フレーム列の画像内の特徴点をもとに注目オブジェクト(例:左目、右目など)を特定し、動作検出に適した統計量(例:顔の向き角度、掌の法線角度、など)に変換する。動作判定部(222)は、前処理の後、設定記憶部(24)の設定内容に応じて、現在の状態において期待している動作かどうかを判定する。例えば、統計量の変化からジェスチャー(例:うなずき)を検出する。
なお、動作判定部(222)の前処理と実際の判定処理は、有効な統計量(Feature)を自動的に学習するニューラルネットワークの能力を利用して、一体のものとして実装する形態もありうる。
意図解釈処理部(23)は、現在の状態で可能な意図のうちから、時系列で記録した、少なくとも1つの最近の動作に基づいて、ユーザの意図を決定し、実行部(4)に指令を送る。
初期設定部(231)は、ユーザに見えるテキスト言語と、文化によるジェスチャーの意図の違いと、ユーザの身体的特性に応じた解釈やフィードバック・出力の違いなどに、適合するための設定を記録する。
動作検出設定部(232)は、状態記憶部(25)にある現在の状態(現在のコンテキスト)に基づいて、現在どういう動作を期待するのかを設定記憶部(24)に設定することで動作検出処理部(22)に指示し、動作検出の精度を高める。どういう動作が来るかわからずすべての動作にいつも対応するよりは、現在のコンテキストを利用して、現在ユーザがとりうる動作を絞り込んだうえで、検出したほうが容易だからである。
意図判定部(232)は、状態記憶部(25)の現在の状態と、設定記憶部(24)の期待する動作群の設定と、動作時系列記憶部(26)にある動作履歴とから、もっともらしい意図を判定する。この処理の詳細は、制御される機器装置もしくはアプリに特有なため、以下の実施例1と実施例2で例を示す。
なお、意図の決定は、Heuristics(手作りコード)で実装する形態、ニューラルネットワークで動作時系列と意図との対応を学習させて実装する形態がありうる。
状態管理部(234)は、判定された意図に基づき、入力システム(2)の現状態を遷移し、状態記憶部(25)に記録する。状態記憶部(25)は、システムの状態を一意に識別するIDを持つ。このIDの集合は、制御される機器装置もしくはアプリに特有なデータであり、該アプリの取りうる状態のうちの現在の状態を表現し、動作検出設定部(232)、意図判定部(232)、実行部(4)で参照される。
実行部(4)の一部は、操作される装置機器側にある。実行部(4)は、意図解釈処理部(23)の指示に基づいて処理を実行し、フィードバック・出力(5)で、ユーザに意図の実行結果を返す。そして、完了結果を意図解釈処理部(23)に通知する。実行部(4)は、実行を計画する処理(例:描画する画面を作成する、ロボットの移動パスを計画する)と実行を遂行する処理(例:画面を描画する、モータを駆動して実際に移動する)からなる。そして、実装形態としては、(ア)実行部(4)が入力システム(2)を組み込んだ一体型装置、(イ)実行部(4)が入力システム(2)を付加的に持つ装置、(ウ)センサーと信号処理の一部と実行部の実行遂行部分のみをクライアント側に置き、入力システム(2)の高負荷部分と実行計画部分とをサーバに持ちネットワークで通信する、という3つの実装がありうる。ここの処理内容も、制御される機器装置もしくはアプリ特有の処理である。
入力システム(2)及び実行部(4)は、このような、動作検出、意図解釈、状態遷移、実行を繰り返す。
なお、状態記憶、動作検出、動作履歴記憶、意図解釈の手段ないし工程をすべてニューラルネットワークに任せ、センサー信号と初期設定を入力とし意図を出力させる実装形態もありうる。
本発明を実施するための制御プログラムの概略処理フローを、図4に示す。意図の表現を検出して、判定し、実行する処理フローは、単一の装置にすべて組み込んだ場合、3つのスレッドに分かれる。動作検出スレッド(SB)、意図解釈スレッド(SI)、実行スレッド(SE)である。ネットワークを介して、入力システム(2)が、操作対象機器からのセンサー信号列を受信し、実行部(4)の実行遂行処理に指示を返す場合は、動作検出スレッド(SB)は、制御される装置側と、入力システム(2)とでさらに二つのスレッドに分割され、実行スレッド(SE)は、指示を作成する入力システム(2)側のスレッドと、実際に実行遂行するスレッドの二つに分割される。
以下、図4に沿って、3つのスレッドの処理ステップについて説明する。
主たるドライバーは、意図解釈スレッド(SI)である。まず入力システム(2)が開始ステップ(SI1)で起動される。起動は、電源ボタンの押下や通電などで、操作対象側からトリガーされる。意図解釈スレッド(SI)は、まず初期設定ステップ(SI2)で、初期状態であると状態記憶部(25)へ設定し、その他アプリの実行に必要な情報(ユーザの言語、文化、身体的特性、連絡先情報、職員識別情報など)を設定記憶部(24)に設定する。
次に、動作検出設定ステップ(SI3)で、現在の状態に応じ、動作検出のための情報を設定記憶部(24)に設定する。ここでは、発話(10)に関しては、現状態で期待される発話表現候補を辞書に登録し、認識しやすくする設定を行う。注目方向(111)に関しては、注目対象候補集合のそれぞれの座標範囲を設定する。ジェスチャー(112)に関しては、期待するジェスチャー候補のパターンの登録を行う。
意図解釈スレッド(SI)はこれらの設定を済ませた上で、動作検出スレッド(SB)を起動する。あるいは、動作検出スレッド(SB)におけるセンサーの起動は、通電とともに行い、意図解釈スレッド(AI)が準備完了するまでは、何も動作を検出しない状態にしておいてもよい。
動作検出スレッド(SB)は、まず、信号受信ステップ(SB1)で、音響センサー(20)から音声信号を得て、撮像センサー(21)から画像フレーム信号を得る。操作される装置と入力システム(2)の本体とがネットワーク越しで接続されている場合、ここで信号列は、ネットワークを経由して入力システム本体(2)へ送信され、入力システム本体(2)はそれらを受信する。
次いで動作検出スレッド(SB)は、動作判定部(222)の前処理として、動作情報変換ステップ(SB2)で信号系列を、動作認識しやすい形態に変換する。発話(10)の音声信号に対しては、音声認識を施しテキストへ変換する。注目方向(111)であれば、動作検出設定ステップ(SI3)による設定に応じて、顔の向きないし視線を計算することで注目方向を求め、現状態での注目対象集合の座標範囲内であるかどうかとその停留時間を動作検出ステップ(SI3)に渡す。ジェスチャー(112)に関しては、画像フレームから顔などの特徴点を検出し、顔の向き角度等を計算する。
次いで、動作検出スレッド(SB)は、動作検出ステップ(SB3)で、前処理で得たデータを観察し、動作検出設定ステップ(SI3)において設定された動作に合致するものが検出されたかどうかを判定する。発話(10)であれば、認識された結果のテキストが期待した表現にマッチするかどうかを判定し、マッチすれば動作時系列記憶部(26)に登録し、意図解釈スレッド(SI)に通知する。注目方向(111)であれば、ある座標範囲への注目方向が期待する停留パターンに合致したかどうかを検査し、動作時系列記憶部(26)にその対象が注目候補になったということを登録し、意図解釈スレッド(SI)に通知する。ジェスチャー(112)であれば、例えば顔の向き角度の変化が上下方向であるという登録パターンに合致するかどうかを判定し、合致すれば動作時系列記憶部(26)に登録し、意図解釈スレッド(SI)に通知する。動作検出スレッド(SB)は、信号が来る限り、現在の動作検出設定に応じて、ほかのスレッドとは非同期的に動作し、動作検出を続行する。
一方、意図解釈スレッド(SI)は、動作検出スレッド(SB)から通知を受けると、状態記録部(25)の現状態と、動作時系列記録部(26)の動作履歴とから、もっともらしい意図を検出する。意図が認められた場合、その意図を実行する処理を、実行スレッド(SE)に指示し、状態記録部(25)の状態を遷移させる。意図解釈スレッド(SI)は、ほかのスレッドと非同期的に動き、新しく動作検出が通知される都度、意図の判定を行う。また、実行スレッド(SE)の処理実行完了後に通知を受け取ってから、状態を遷移するという同期的な処理にすることもある。
実行スレッド(SE)は、意図解釈スレッド(SI)から実行指示を受け取り、あるいは実行計画作成後に、それの実行を遂行する。
初期設定ステップ(SI2)で設定記憶部(24)に設定する情報に関して補足する。初期設定ステップ(S12)では、例えば、ターゲット市場の文化によって、頭部の上下方向のジェスチャーは肯定の意図であるなどと、文化に応じた対応付けの設定を行う。UI言語をターゲット市場の言語とする設定もここで行う。また、ユーザの身体的特性によって、例えば視覚的ハンディキャップがあるので、注目方向情報を使わないなどのカスタマイズのための設定を行う。これらの動作設定情報は、意図解釈スレッド(SI)のロジック、もしくは実行スレッド(SE)の構成するフィードバック・出力内容に影響を与える。例えば、あるユーザは、指が震えるためにキーボード・マウス操作やタッチはできない。そのような人は、指さしという日常的なコミュニケーション動作でも不自由する。また、首筋が硬直しているため、うなずきができない人もいる。そのような身体的な障害でジェスチャーに不自由するユーザには、意図解釈ステップ(SI4)においてジェスチャーを利用せず、発話と顔の向き・注目方向をもとに意図を解釈する。また、視覚障害があるユーザには、注目動作ではなく、ジェスチャー・発話に重きを置いた意図解釈を行う。一方、例えば、耳が遠いユーザには、フィードバック・出力内容を生成する実行ステップ(SE1)において、音声による通知音を大きくし、音声テキストの画面表示を常に併用する。また、弱視のユーザには、画面表示の文字フォントのサイズを大きくする。聴覚・発話に障害があるユーザの場合は、発話ではなく、注目動作と身体動作をもとに意図を解釈する。従来のUIは、手入力と画面出力に偏り、それによる制約があって、身体的な障碍者には利用するのが困難であった。一方、本発明に基づくHMIは、複数の伝達手段を用いるために、このようなユーザの身体的特性に応じた柔軟なインタラクションを可能にでき、今日のIT技術の恩恵を誰でも受けられるようにすることができる。
以下、発話(20)、注目方向(211)、ジェスチャー(212)ごとに、動作検出スレッド(SB)の処理を補足する。
発話(20)に関しては、動作検出設定ステップ(SI3)において、現状態で発話される可能性のある表現を辞書に設定する。そして動作情報変換ステップ(SB2)において、通常の音声認識・テキスト変換を行う。音声認識は周知の技術である。そして、動作検出ステップ(SB3)においては、現状態で発話される可能性のある表現を認識したかどうかをチェックし、動作指示表現に該当した場合に動作とみなして登録し、そうでなければノイズとする。
動作検出設定ステップ(SI3)において、辞書に登録し、動作検出する表現は、機器操作に利用しうる以下のいずれかである。日本語の場合の例を示す。コミュニケーションの開始・終了を指示する表現(日本語では「開始」、「もしもし」、「終了」、「ばいばい」など)、肯定・否定を意図する表現(日本語では「はい」、「そう」、「いいえ」、「ちがう」など)、対象を指示する表現(日本語では人名、機器一般名詞など)、場所を指示する表現(日本語では「こっち」「そこ」「あっち」「むこう」など)、方向を指示する表現(日本語では「上」、「下」、「右」、「左」など)。本発明は、このような日常的に自然に存在する呼びかけ動作をそのまま利用するため、連想・習熟する必要がなく、認知負荷がない。
注目方向(111)及びジェスチャー(112)に関しては、実施処理内容は、図5に示すように、(ア)情報表示装置の画面に複数の対象を表示していて注目方向はその表示装置上のどこかである場合と、(イ、ウ)複数の装置があって注目方向はそれら装置のいずれかの上にある場合とで、処理が異なる。後者の場合、さらに、(イ)操作される装置が撮像センサーを備え、各装置がネットワークを介して相互にコ−ディネートされる場合と、(ウ)部屋など、操作される装置を含む設備自体が、複数の撮像センサーを備えて支持者の注目方向をとらえ、部屋内部の各装置に実行指示の通信をする場合とに分けられる。以下のテレビ電話と車いすの実施例で、これらの場合の処理の違いについて説明する。
注目方向(211)に関しては、動作検出設定ステップ(SI3)において、現状態で注目されうる一つないし複数の注目候補対象の撮像センサー座標系内での座標範囲を設定する。動作情報変換ステップ(SB2)においては、顔の向きないし視線という注目方向が、注目対象候補の座標範囲内に存在するかどうかを判定し、範囲内に停留した時間を求める。動作検出ステップ(SB3)においては、停留時間を利用して、注目動作候補を検出する。
動作検出ステップ(SB3)における注目動作の検出は、従来の視線追跡技術では、もっぱら、固定的な時間の閾値を用いる。しかし、固定的な閾値では、初めて見るものから対象を探すケースではゆっくりと、見慣れたものから対象を探すケースは素早くと、といった状況に対応できない。また、固定の閾値を用いるのは、操作の約束事となり、ユーザにその規則を習熟させる必要がある。そのような不都合をなくすため、本発明では、注目動作を検出するために、注目方向の停留時間の相対的な長さを使う。対象が単一である場合は、ある一定時間注目方向が停留したことで注目動作と判定する。しかし、対象が複数ある場合、きょろきょろ見わした後で、最後に目的対象に目をゆっくりとどめるという自然なパターンをそのまま利用する。そうすることで、不自然な規則をユーザに強いない。すなわち、現在、最後に注目している対象への視線の停留時間が、他の対象よりもある比率倍だけ長く停留したとき、探索から注目へ移る動作ととらえる。相対的閾値の考え方を図7で示す。注目方向の停留時間の相対的な長さを利用する方法においては、いったん、システムが注目動作とみなしたあとで、実はさらに別の対象へより長く目をとどめた場合、注目動作の検出に失敗しうる。失敗と判定した場合、アプリの状態とUI上では、注目動作による絞り込みをキャンセルし、絞り込みの前の探索時の状態に戻す。しかし、実際上は、注目対象が絞れた段階で、「もしもし」とか「こっちへきて」とか、操作される対象に対するほかの伝達手段の指示動作が、直後にあるいは並行して行われることが自然である。そこで、注目動作の検出は、注目動作候補の検出と位置づけ、意図解釈においてほかの動作を踏まえて最終的な意図を決定する。このように、本発明では、1つ以上の複数の伝達手段の動作に基づいて意図を解釈するため、相対的な閾値を用いる方法で、日常的に行う自然な注目動作(候補)をそのまま生かし利用することができる。
ジェスチャー(112)に関しては、動作検出設定ステップ(SI3)において、初期設定における文化との対応付けと現在の状態に応じて、期待する検出ジェスチャーパターンを登録する。例えば、日本文化内であって、ユーザに確認を求め肯定か否定を期待する状態では、肯定を意図する首の縦振りと否定を意味する横振りを検出するように設定する。動作情報変換ステップ(SB2)においては、画像内の特徴点から検出に必要な統計(例:顔の向き角度)を得る。動作検出ステップ(SB3)で、統計値の変化が検出パターンに合致したかどうかを検査する(例:角度の上下変化)。
ジェスチャー(112)は、日常的なコミュニケーション内で利用されるもののうちで、機器対象を選択したり制御したりするために使用できる動作として、日本文化圏を例に説明する。コミュニケーションの開始・終了を伝えるジェスチャーの例(手を挙げて「やー」と掌を相手に向ける挨拶、手を挙げて掌を相手に向けて「ばいばい」と振る)を図8aに示す。肯定否定を伝えるジェスチャーの例(うなずきと、首の横振り)を図8bに示す。伝達対象以外の対象ないし方向を指すジェスチャーの例(指さし、手のひらを広げて腕を伸ばす)を図8cに示す。場所の移動を伝えるジェスチャーの例(掌を上あるいは下に向けて指を手前に振るなど)を図8dに示す。本発明は、このような日常的に自然に存在するジェスチャーを表現手段としてそのまま利用するため、従来の人為的なジェスチャー言語とは異なり、連想・習熟する必要がなく、認知負荷がない。
次に、意図検出ステップ(SI4)の解釈処理について補足する。ここでは、設定記憶部(24)の設定内容、状態記憶部(25)の現在の状態、動作時系列記憶部(26)の動作履歴をもとに、現在システムが期待しているユーザ意図のうち、どれがマッチするかを決定する。ここでは、現状態に入った後で検出された複数の動作を解釈の入力として利用する。しかし、ユーザはある状態でしばらくアイドル状態になるかもしれない。そこで、最近検出された動作と、それに時系列上で近接した動作だけを参照する。そのような直近の動作列に関し、状態によっては単一の動作のみで意図は明確になる。しかし、直近に複数の動作があった場合は、その複数の証拠を単一の証拠よりも優先する。その理由は、以下のとおりである。従来のUIにおけるコマンドの効果は一意に決まっているのに対し、個々の動作は単独ではあいまい性を持つ場合がある。複数の入力手段を総合することにより、あいまい性を低減することができるためである。
発話だけではあいまいである。例えば、「鈴木さん」と呼びかけた場合、それだけでは、画面に向かって連絡先の写真集合から鈴木さんを探しているのか、生活の中で何か別の対人作業として日常会話を行っているのか不明である。しかし、連絡先リストの画面に向かっているときの発話であれば、連絡先を探すという意図がより確かとなる。視線だけではあいまいである。例えば、連絡先の相手の写真が一つ写っている画面を見ているだけでは、ユーザが何を望んでいるのかは不明である。そこで「もしもし」という発話があることで、通信したいという意図がより確かとなる。ジェスチャーだけではあいまいである。例えば、首を縦に振った場合、機器からの問いかけに対する肯定なのか生活上の動作なのか不明である。機器を見ていて、問いかけがなされた状態であれば、意図がより確かとなる。視線と発話だけでもあいまいなケースがある。例えば、複数の連絡先が画面に表示されていて、「鈴木さん」という発話と画面を見るという動作があったとき、それは「これは違うから別の鈴木さんを探せ」という意味なのか、「この鈴木さんでいい」という意味なのか不明である。それは「うなずき」か「いや」という首のジェスチャーがあることで、意図がより確かとなる。ジェスチャーと発話だけでもあいまいなケースがある。例えば、「はい」と言いながらうなずいた場合、機器への反応なのか生活上の動作なのか不明である。しかし、機器側がユーザの反応を待っている状態でユーザが機器を見ていれば、意図はより確かとなる。注目方向とジェスチャーだけでもあいまいなケースがある。例えば、機器を見てうなずいた場合、気まぐれな身振りなのか機器からの問いかけへの肯定反応か不明である。「はい」という肯定の言葉があることで、意図がより確かとなる。
以上のように、複数の伝達手段を総合して、意図を解釈することでより確かな意図を得ることができる。システムは、意図解釈に十分な確度がない場合、ユーザに問い返すかもしれない。その場合、ユーザはうなずくか「はい」と答えるか、首を横に振るか「違う」「いや」などと答えればよい。
以下、具体的な実施例を説明する。第1の実施例は、テレビ電話である。それを、従来のGUIベースのものと比較しながら、本発明に基づくHMIが、いかに違うかを、処理の内容の具体例とともに説明する。この実施例のターゲットユーザは、在宅高齢者である。高齢者は、孤独である。高齢者の親族は、無事を時々確かめたい。しかし高齢者は、PCやスマホは難しくて使えないため、スカイプなどは使えない。電話という手段があるが、親族からは顔が見えず、元気かどうか本当にはわからない。そのうえ、高齢者は耳が遠いため、電話では話も通じにくい。本装置は、そういう状況を解決する、高齢者のリビングのテレビの付加装置である。
図9に、この実施例の構成ブロック図を示す。図3のブロック図の対応する構成要素を、同じ符号で示す。本実施例システムでは、ユーザとインタラクションする入出力制御機能は、クライアント端末とサーバ装置が分担する。本実施例システムには、ほかにテレビ電話の接続をつかさどるテレビ電話サーバおよびインターネットを含む。クライアント端末は、テレビのそばに設置され、撮像センサー、音響センサーを備え、信号を入力・制御サーバへ送信し、一方で入力・制御サーバから受信した指示に沿って、デジタル通信インターフェース・ケーブルで、フィードバック・出力をテレビモニターおよびテレビスピーカーに流す。サーバは、音声信号と画像信号をクライアント端末から受信して、動作検出、意図解釈といった高負荷な処理を行い、テレビにフィードバック・出力する音声・画像を作成し、クライアント端末へ送信する。また、サーバはテレビ電話の通話機能を実行するために、テレビ電話接続サーバを介して、クライアント端末と通信相手のクライアントとの接続を樹立し、テレビ電話を開始させ、終了後、ユーザインタラクション制御を取り戻す。なお、サーバの担う負荷処理をすべてクライアントの付加装置に担わせる実施形態もとりうる。
本実施例は、図5の(ア)の場合である。この場合の、注目方向(111)及びジェスチャー(112)をとらえるための周知の方法を説明する。OpenCVやDlibの機械学習機能を利用すれば、顔写真と、顔の目や鼻の口の端点などの特徴点の正解マーク集合と、の多数の訓練ペアデータを学習させれば、それら特徴点のイメージ上の統計的特性を学習し、新しい写真におけるそれら特徴点を得られるようにできる。そして、非特許文献14にあるように、撮像センサーの座標系において、ユーザの顔がどの方向を向いているかは、人体の3Dモデルと撮像センサーがとらえたイメージから、簡単に求めることができる。図6のように、撮像センサーの座標系の点を(X,Y,Z)とし、ユーザ側から見た座標系の点を(U,V,W)としてその座標系を世界座標と呼ぶ。顔の正面方向の単位ベクトルを(0、0、w)とする。そして撮像センサーとユーザの間にあり撮像センサーがとらえたイメージ平面上の座標系を(x,y)とする。そして、人体の統計に基づく顔の3Dモデルから3D世界座標系における顔の特徴点群を与え、それと撮像センサーのとらえたイメージ上の対応する2D座標系内の特徴点群を与えれば、撮像センサー座標系と世界座標系の対応(R,T)を求めることができる。すると、世界座標系で表現されたユーザの顔の向き単位ベクトル(0,0,w)を撮像センサー座標系で表現することができる。一方、撮像センサーは情報表示装置の付加装置で、撮像センサーの位置と情報表示装置に表示したオブジェクトとの位置関係は固定であるため、情報提示装置の2D表示平面を撮像センサー座標で表現できる。すると、顔の向きベクトルと情報提示装置の2D平面との交点を得ることができる。このようにして、情報提示装置に表示したオブジェクトの見える範囲を撮像センサー座標で設定しておけば、顔の向きがどのオブジェクトに注目しているかどうかが判定できる。
なお、図5の(ウ)の場合ならば、撮像センサーは操作される装置に固着するので、ユーザがおおよそ撮像センサーの方向へ顔を向けている限り、(ア)と同じ方法で注目方向の検出を行うことができる。図5の(イ)の場合、撮像センサーは顔をとらえられるように室内に複数設置してあるとすると、(ア)と同じ方法で顔の向きを推定できる。さらに、制御システムが各装置を識別する手段があれば、撮像センサー座標系での存在範囲を計算でき、ユーザがどの装置に注目しているかが計算できる。装置を識別するには、装置がIDラベルを備え撮像センサーで読み取るとか、装置が自分の位置を推定し制御システムに送信するとか、種々の方法がありうる。
視線追跡装置には、据え置きタイプのものと、ウェアラブルタイプのものがある。本実施例では、据え置き型を使う。非特許文献15のサーベイにあるように、据え置き型の視線追跡技術は、大きく分けて、60センチメータほどの近距離にある情報提示装置を前提とし、視線とおおよそ同じ方向に赤外線光源と撮像センサーを置き、瞳に映る赤外線光源の反射光を利用して視線を検出する方法と、頭部・顔の向き、目の外形、黒目の位置、黒目の中心などの画像内特徴点という外見だけで視線を推定する方法がある。前者は現在の商用システムの主流の方法である。後者は、非特許文献16,非特許文献17,非特許文献18にあるように、撮像センサーがとらえた目のイメージを利用することで、眼球の3Dモデルを使ったり、イメージに現れた外見と方向の対応を機械学習させる手法によって、ユーザの世界座標系で顔の向きを基準にして、視線がどこを向いているかが推定する。そして顔向きと視線推定を組み合わせることで、撮像センサー座標系における注目方向を求めることができる。その結果、撮像センサーの座標系においてユーザが注目しうる対象の範囲を与えれば、視線が対象の座標範囲内にあるかどうかを判定でき、その結果、ユーザの視線がその対象を注目しているかどうかが判定できる。
本発明では、図5の(ア)のケースにおいて、近距離・小画面という制約がつくが、赤外線を用いた方法をとってもよいし、制約をなくすため外見だけで推定する方法をとってもよい。図5の(イ)、(ウ)の場合、数メートル離れたところから、かつ視線と異なる方向から、注目方向を決める必要があるため、外見で注目方向を推定する方法をとる。
このように、本発明の実施時に注目方向を決める際、顔の向きという概略だけでなくより正確な座標が必要な場合、このような周知の視線推定技術を用いて、注目方向を精密に求め利用する。
以下、従来のUIシステムとの違い及び本発明の処理内容を、説明する。まず図4の開始ステップ(SI1)において、アプリを起動する。従来のPCやスマホのテレビ電話アプリであれば、装置を起動し、起動後、メニューを開いたり画面を切り替えるなどして、アプリのコマンドないしアイコンを探し出し、そしてダブルクリックないしタップする。そこでは、アプリのコマンドないしアイコンを探し出すため、複数のステップが必要で、その上、アイコンをテレビ電話アプリだと連想記憶しておく必要がある。また、アイコンのクリックないしタップがテレビ電話のアプリの起動であることを覚えておかなければならない。一方、本実施例では、まず、電源ボタンの押し下げによる通電で待機(見守り)モードに入り、初期設定ステップ(SI2)で、ユーザや文化に応じた設定を行い、動作検出設定ステップ(SI3)で、ユーザの注目方向を検査するために、テレビモニターの撮像センサー座標系における座標範囲を注目対象候補として1個設定し、テレビ画面に図10aのような待機状態を示す画面を表示する。同時に、期待する動作を登録する。ここでは、「テレビ電話」などの語句を辞書設定して音声認識を開始し、手のひらを挙げて「はい」というあいさつジェスチャーを登録する。そして、ジェスチャー認識を開始しておく。そして、信号受信ステップ(SB1)、動作情報変換ステップ(SB2)、動作判定ステップ(SB3)を繰り返し、前面を監視する。ここで、動作情報変換ステップ(SB2)では、注目動作を検出するために、検出した顔の特徴点から顔向き角度を得る。また、「はい」という手のひらを向ける動作を検出するために、手の特徴点から手のひらの平面の法線角度を得る。そして、ユーザがテレビモニターに注目する動作を行ったら、意図検出ステップ(SI4)で、初期状態において注目動作が行われたのでアプリを起動する意図だと判定する。そして、実行ステップ(SE1)で、図10bのようなテレビ電話開始画面を表示し、同時に音声とテキストで「テレビ電話を開始します」とフィードバックする。そして、状態遷移ステップ(SI5)において、初期の待機状態から開始画面を表示したという状態に遷移する。このように本実施例では、ユーザは、アプリを起動するために、電源ボタンを押下しテレビ画面を注目するだけでよい。アプリの起動に必要なのは、物理的に電源ボタンを押すという操作と、コミュニケーション開始を意図するアイコンタクトという日常的な動作だけである。従来のシステムのような、記憶を要する複数のステップは必要なく、ほとんど何もせずに意図だけで自動的にアプリの起動が行われる。このアプリ起動のトリガーは、「テレビ電話始め」という発話動作にしてもよいし、手のひらを挙げて「はい」というあいさつのジェスチャーにしてもよいし、従来の特定の伝達手段を前提にしたものでなく、ユーザにとって最も自然な動作を利用できる。また、電源ボタンはなく、通電は常時行い、常時待機モードとし、その待機モードでは、1分おきに撮像センサーを起動して異常がないか検査するような、高齢者を見守る機能を持たせておくのでもよい。ここで、初期設定ステップ(SI1)における初期設定によって、弱視者の場合は、画面表示メッセージテキストを大きくし、難聴者の場合は、フィードバックの音声メッセージの音量を大きくしてあるものとする。
従来のPCやスマホのテレビ電話アプリであれば、テレビ電話アプリを起動後、まず次に通話相手を連絡先から探さねばならない。ここでも、メニューやアイコンを探し操作する複数のステップを通して、連絡先をどこからか見つけ、相手をどうにかして選択しなければならない。ここでも複数のステップに習熟し、アイコンを記憶しておかなければ使えない。前述の発明の効果の記述にある実験では、当アプリを使った経験があるユーザであっても、どこから通話相手を探せばいいのか、どうやって相手を選択すればいいのか、すべての被検者でアシストが必要であった。現在普及しているUIは、試行錯誤による習熟が必須である。一方、本実施例では、起動後、ステップ初期設定SI1で、ユーザアカウントの連絡先データベースとそれぞれのネット上のアドレス情報を読み取って顔写真をメモリにロードしておく。実行ステップ(SE1)で、図10cのような連絡先リスト画面を生成準備する。そして、図10b開始画面を、数秒後、自動的に、連絡先リスト画面である図10cに変える。そして、動作検出設定ステップ(SI3)に戻り、画面上の連絡先候補の写真配置座標を注目候補として登録する。連絡先の人名、ニックネームなどを、音声認識のための辞書に設定する。あるいは、高齢者向けの医療・生活支援機関の名前・写真などが追加されてもよい。連絡先リスト画面である図10cを表示したうえで、信号受信ステップ(SB1),動作情報変換ステップ(SB2),動作検出ステップ(SB3)を繰り返し待機する。そして、ユーザが、表示された写真を眺め渡して、最後に比較的長く注目した写真があった場合(前述の注目の停留時間の相対的長さの閾値の方法による)、それをある相手に注目した動作であるとみなし時系列動作履歴に登録する。そして、意図判定ステップ(SI4)で連絡先相手を選んでいると解釈する。そして、実行ステップ(SE1)で、図10dのように注目対象を検出したというフィードバックを表示したのち、図10eのような相手確認画面に遷移する。あるいは、ユーザが発話で名前を呼んだ場合、それにマッチした写真のみを選び、図10c連絡先リスト画面をマッチした連絡先の写真のみで再描画したうえで、相手注目動作の検出を行う。発話によって、すでに相手が一人に絞り込まれている場合は、図10eのような相手確認画面に遷移し、状態を遷移する。このように本実施例では、ユーザは、連絡先をどう探せばいいのかを覚えておくことも、連絡先の中からどうやって相手を選べばよいのかも、覚えたり習熟したりする必要がない。本実施例では、複数のものを見回して興味あるものを探す、あるいは興味ある人を呼び出すという、ユーザの日常的な探索行動に応じるだけである。ここで、連絡先が多く、1画面で表示すると写真が小さくなりすぎてしまう場合、連絡先の顔写真リストをスクロールして視線が停留したときにその連絡先候補だけを表示する、あるいは小さな写真集合から視線先の写真部分集合をズームアップすることを単一の顔写真に至るまでを繰り返す、などの補助をしてもよい。また、後述の第2の実施例で説明する指さし方向推定技術を使って、連絡先から指さしで選ばせてもよい。
次に、従来のPCやスマホのテレビ電話アプリであれば、連絡先から相手を選んだ後、テレビ電話の開始を指示しなければならない。そこでも、アイコンやメニューコマンドを探したのち、あるアイコンが通話開始コマンドであると記憶しておかなければならない。コマンドメニューならば、複数のステップで探し出さなければならない。前述の発明の効果の記述にある実験では、通話開始アイコンが探せない、あるいはそれを見つけ出してもそれをクリックあるいはタップすると何が起きるか不安で、どの被検者もアシストを求めた。一方、本実施例では、通信相手が絞り込まれた時点で、図10eのような相手確認画面が表示される。そして、動作検出設定ステップにおいて、絞り込まれた写真の座標範囲を1個登録し、「もしもし」と、否定か肯定を意味する語句と、絞り込まれた相手の名前を音声認識できるように辞書に登録し、否定か肯定を表すジェスチャーも登録する。次いで、信号受信ステップ(SB1),動作情報変換ステップ(SB2),動作検出ステップ(SB3)の繰り返しで待機する。動作検出ステップ(SB3)で、ユーザが、相手に注目しながら、コミュニケーション開始の意図を示す「もしもし」という呼び掛けがあったことを検出したら、意図判定ステップ(SI4)でテレビ電話開始の指示であると判定し、実行ステップ(SE1)で、通話のための接続を開始する。その結果、相手が応じれば、図10fのようなテレビ電話通信に入る。「もしもし」でなく、相手の名前で呼び掛けた場合も、通話開始の意図であると判定する。また、「はい」かうなずきで肯定を意味する発話ないしジェスチャーがあれば、通話開始の意図であると判定する。もしも、「いいえ」という発話か首の横降りか、違う人への呼びかけ発話である場合、相手の選択に失敗したと解釈し連絡先リスト表示に戻る。このように、本実施例では、アイコンタクトする、呼び掛ける、否定肯定する、といった日常的なコミュニケーション行動をそのまま使って、テレビ電話を開始する。ここでは、アイコンやコマンドといった抽象的な対象を操作する必要がなく、それらを記憶したり習熟したり、意図を複数のコマンド操作に分割するといった認知負荷の過程がない。
ここで、相手がオフラインの場合や相手が受信しなかった場合、「録画しますか」と問いかけ肯定の意図を受けたら、相手の小さな顔写真と、自分を映した大きな動画枠とを並べ表示し、ビデオメッセージの録画を行う。録画は、取得後、自動的に相手に送信される。終了は、ボタンを再度押したり、バイバイのジェスチャーなどで行う。バイバイという動作は、動作検出情報変換ステップ(SB2)で、顔の中心と手の中心を求め、動作検出ステップ(SB3)で、顔の中心を基準として手の中心が横に動いたことで検出する。留守中に着信があった場合、クライアント装置は、ランプの点滅と音でユーザの注意を引いてもよい。その場合、ユーザが起動したら、自動的に着信していた録画メッセージを流す。なお、連絡先の初期登録や初期設定のパラメータは、高齢者にはむずかしいので、高齢者の親族などがネットワーク越しに設定できるようにする。
この第1の実施例とほぼ同じ方法で、高齢者の見守りバンドのUIを実現できる。見守りバンドは、時計機能、通信機能のほかに、GPSと転倒センサーを備える、手首に装着するバンドである。手首の上側(胴体の外側)と下側(胴体側)が情報提示装置になっている。そして、ユーザが手首の上側を注目すると時計表示を行う。手首の下側を注目すると、連絡先の写真がスクロールされ、そのいずれかをタッチで選び、「もしもし」と話しかけることで、ビデオ電話が起動される。あるいは、声で相手を選び、「もしもし」でビデオ電話による通信を開始する。高齢者は、現在のUIのようなGUIメニュー、アイコン、機能ボタンなどを一切操作する必要がない。注目する、話しかけるだけである。
第2の実施例は、自動運転機能を備えた車椅子の誘導である。ターゲットのユーザは介護施設の職員である。介護施設では、車椅子をベッドわきに寄せ移乗する、車椅子を食卓に整列するなど、人の物理的な動きの負荷が大きく、従業員の精神的なストレスや人手不足が問題となっている。人力を補助するロボットの導入が模索されているが、本発明はそれらロボットのコントロールに、自然なHMIを提供し、職員の身体的負荷と精神的ストレスを軽減する。先の実施例のテレビ電話では、コミュニケーション開始・終了機能と、GUI情報提示装置上の複数のものからの探索・選択機能を例示したが、本実施例では、位置や方向の指示機能、および複数装置の中からの探索・選択機能を例示する。
本実施例の装置は、障害物を避けて自動運転する機能を備えた、電動車椅子を制御するための付加装置である。車椅子の誘導担当者と複数の車椅子の自動運転機構との仲介を行う。各車椅子は、自動運転機構として、フロアの3Dマップを検知し、障害物を避けて、指定されたところへ自動的に移動する機能をすでに持っているとする。また、車椅子の撮像センサーは、4辺に4個配置するか魚眼レンズ付き撮像センサーかで、360度をとらえられるものとする。また、各車椅子は、撮像センサーの画像によって、職員と入所者の人物を特定し、その上、あらかじめ登録された優先順位によって優先的にしたがう誘導担当者を識別できるとする。本装置の構成ブロック図を図11に示す。本装置は、動作認識用の撮像センサーと音響センサー、フィードバック用のLEDランプとスピーカを備えていて、通信によって、高負荷の処理と、複数車椅子ロボット間のコーディネート処理と、を行うサーバと通信している。
本実施例は、テレビ電話と異なり、ジェスチャーの検出だけではなく、指さしの方向推定が必要になるので、その周知の技術について補足する。ジェスチャーの検出だけならば、2Dの世界で、特徴点の、何か基準とする別の特徴点との、相対的な位置変化を追跡することでできる。また、顔向き推定は、前述したように、顔の固定的な3Dモデルを利用して推定できる。一方、手腕による指示方向の推定は、手腕という動く対象の3D位置把握が必要である。動的に、手や腕が3Dでどこに存在するか検出できなければならない。それを行うためには、ステレオ撮像センサー(非特許文献19)ないし複数の撮像センサー(非特許文献20)を利用する方法と、深度もとらえられるKINECTのようなRBG−Dセンサーを利用する方法(非特許文献21)とがある。RBG−Dセンサーの場合、深度が直接得られるので、撮像センサー座標系で特徴点の3D座標が直接得られる。ステレオ撮像センサーないし複数の撮像センサーの場合、同一の特徴点を異なった方向からとらえた2枚のイメージが得られる。撮像される側に標準的な世界座標を仮定し、それと2個の撮像センサーの座標系との関係が得られたとする。図12のように、2枚のイメージがあれば、各々の撮像センサー座標系の原点とそれがとらえたイメージ上の特徴点とを結んだ直線が2本得られる。該特徴点は、この2本の直線上にある。その近似交点を求めれば、その特徴点の世界座標系における3D座標が得られる。
図5の(ア)の場合、情報表示装置の画面中心を原点にした世界座標をとるとすると、RBG−Dセンサーであれば、そのセンサーを画面に対し固定位置に装着すれば、世界座標と撮像センサー座標の対応は得られる。撮像センサー座標で特徴点の3D座標が直接得られるので、世界座標系での3Dも得られる。ステレオ撮像センサーの場合、撮像センサー座標と世界座標の対応と、同一の特徴点の2つのイメージ内位置とから、世界座標系での特徴点の3D座標が得られる。図5の(イ)の場合、例えば、部屋の空間に世界座標を設定する。各装置は、自己位置推定をする。例えば、部屋のマップを持っていて、画像内の壁の位置をもとに自分が部屋のどこにいるのかを計算する。また、部屋の柱に位置識別を可能にする電子タグが埋め込んであって、そこに近づいたときに位置情報を同期し、そこからはモータ回転記録を使って推定するなどでもよい。自己位置が特定できれば、各撮像センサー座標と世界座標の対応をとることができる。各装置が、RBG−Dセンサーを持っていれば、特徴点の3D座標を直接得て、それを世界座標系に変換することができる。各装置がステレオ撮像センサーになっているか、もしくは複数の装置の撮像センサーを利用する場合、ある特徴点の複数イメージ内位置から、世界座標系での3D位置が推定できる。図5の(ウ)の場合、撮像センサーは室内の例えば天井に据え付きなので、撮像センサー座標と部屋の世界座標系との対応付けができる。そのため(ア)と同様に、特徴点の3D座標を得ることができる。
手部と頭部の3D位置が大略把握できたら、非特許文献19のように、頭部と手部を結んだ直線が指示方向の大まかな近似となる。なお、人の動作は不正確なので、指示方向を精密に求めるのはそもそも無理である。大略の方向を得たら、発話や注目方向の情報で補う。「こっち」ならば誘導者の近距離の場所、「そっち」あっち」ならば誘導者から見て遠距離の方向と推論する。動作履歴に指さしと近接した注目方向が検出されていて、指さし方向概略と整合すれば、注目方向のを指示場所とする、などである。
以下のステップ説明において、指さしのジャスチャー検出と方向計算とは、いずれも動作検出ステップ(SB3)で行ってもよいし、指さしのジャスチャーがあったという検出だけを動作検出ステップ(SB3)で行い、方向推定は実行ステップ(SE1)で行うようにしてもよい。
まず、職員が、車椅子の電源を入れて起動し、車椅子利用者を自動運転車椅子に移乗させ、食事部屋まで誘導してきたとする。そして、複数の車椅子が部屋の入口に存在し、そこから食事テーブルに整列させる場面を想定する。そこで、一つの車椅子に一人の職員が張り付いて誘導するかもしれない。しかし、それでは、人手不足の解消にならない。あるいは、リモコンを持った誘導者が、まず車椅子選択機能ボタンを押し、数字キーを押して車椅子を選択し、移動ボタンを押し、スティックを指で操作しながら移動を制御するかもしれない。車椅子は、障害物を避けて自動運転する機能があるので、障害物を避けながらスティックで指示された方向へ向かう。誘導者はリモコンの操作に習熟しなければならず、しかも、一台を誘導するのにさえ時間がかかり、複数の車椅子を整列させるにはなおさら時間がかかり、その結果、効率化に寄与しない。
一方、本発明に基づくシステムでは、まず、通電した段階で、図4の開始ステップ(SI1)と初期設定ステップ(SI2)と動作検出設定ステップ(SI3)とが行われる。動作検出設定ステップ(SI2)において、介護施設の入所者の人名、「こちら」「あちら」などの方向指示語句、「ここ」「N番目」などの位置を指示する表現などを、音声認識のための辞書に登録する。また、図8cと図8dのような移動や位置指示のジェスチャーパターンを登録する。次に、動作検出スレッド(SB)で、音声認識、ジェスチャー認識が起動され、各車椅子は、信号受信ステップ(SB1),動作情報変換ステップ(SB2),動作検出ステップ(SB3)の繰り返しによって、誘導担当者の発話(10)、注目方向(111)とジェスチャー(112)とを追跡する。
サーバは、動作検出処理部(22)・意図解釈処理部(23)および実行(4)を計画するという負荷処理を担う。複数の車椅子のそれぞれに付随する付加装置は、撮像センサー(21)で得た画像によって、誘導担当者が、いつ自分の車椅子に注目し、その注目停留時間がどのくらいかを、サーバに報告する。ここで、誘導担当者がある車椅子に注目し、それに乗っている人の名前「Yさん」と発話したとする。付加装置とサーバからなる本システムは、サーバの動作検出部(22)の動作検出ステップ(SB3)で、複数の車椅子の中で、誘導担当者が最後に比較的長く注目したかどうかという注目動作の検出を行い、誘導者のその後の指示の対象となる車椅子を決定することができる。意図解釈ステップ(SI4)の判定において、ある車椅子が注目されて発話された人名がマッチした場合、複数の車椅子から特定の車椅子を指示対象として選んだと判定する。そして、Yさんの車椅子はサーバからの実行指示を受け、自分が注目されていますねと、LEDランプを点滅させてフィードバックし、状態を遷移する。
次に、動作検出設定ステップ(SI3)を経由して、再度、動作検出スレッド(SB)のループに戻る。そこで、誘導担当者は、「Yさん、来て」と発話しながら、図8dのようなジェスチャーをしたとする。Yさんの車椅子の付加装置は、クライアント側の信号処理ステップSB1で、その発話とジェスチャーの画像をサーバに送る。サーバは、自身の信号処理ステップSB1で信号を受信し、動作検出ステップ(SB3)でそれらのジェスチャーを検出し、意図解釈ステップ(SI4)で移動指示だと判定し、実行ステップ(SE1)で誘導担当者のほうに近づくように実行計画を作り、Yさんの車椅子の駆動系に指示を送る。クライアントの車いす側の実行部(4)はその実行ステップ(SE1)で、駆動系を指示通りに動かし、誘導担当者のそばに近づける。サーバは、移動完了の通知を受け、ステップSI5で状態を遷移する。あるいは、誘導担当者は、「Yさん、こちら」と発話しながら、図8cのようなジェスチャーをしたとする。Yさんの車椅子の付加装置はその発話とジェスチャーの画像をサーバに送る。サーバは、動作検出ステップ(SB3)でそのジェスチャーを検出し、意図解釈ステップ(SI4)でその意図を判定する。そして、実行ステップ(SE1)で、手ないし指のさす概略方向を求め、誘導担当者の指示概略方向に移動するように実行計画を作り、Yさんの車椅子の駆動系に指示を送り、その方向に移動させ、状態を遷移する。あるいは、担当者は、「Yさん、こちら」と発話しながら、注目方向を変えたとする。Yさんの車椅子の付加装置は、目配せの画像をサーバに送る。サーバは、動作検出ステップ(SB3)でそのジェスチャーを検出し、注目方向の変化動作だと検出する。そして、意図解釈ステップ(SI4)で意図解釈部は、現在、操作対象が決まっている状態での注目方向の変化は、操作対象以外の対象、方向、場所を示唆する意図であると解釈する。そして実行ステップ(SE1)で大略の方向を計算する。そして、誘導担当者の指示方向に移動するように実行計画を作り、Yさんの車椅子の駆動系に指示を送り、その方向に移動する。あるいは、誘導担当者は、「Yさん、ここ」と発話しながら、図8cのようなジェスチャーをしたとする。Yさんの車椅子の付加装置はその発話とジェスチャーの画像をサーバに送る。サーバは、動作検出ステップ(SB3)でそのジェスチャーを検出し、意図判定ステップ(SI4)でその意図を判定し、実行ステップ(SE1)で、フロアマップを参照しながら、手ないし指のさす近距離の位置を求める。そして、誘導担当者の指示場所に移動するように実行計画を作り、Yさんの車椅子の駆動系に指示を送り、その位置に移動する。
このように、本発明に基づくHMIでは、複数の機能ボタンも移動指示のための特殊なデバイスが必要なく、それらに習熟する必要がない。日常的な注目動作、発話、ジェスチャーという動作だけで、車椅子をコントロールする。そのため、機械を操作するための認知負荷がなく、ユーザにストレスをかけない。
第2の実施例とほぼ同じ処理で、自動掃除ロボットとインタラクションすることができる。従来の掃除ロボットは、人から場所の指定を受けることはできない。しかし、第2の実施例と同じく、本発明の方向・場所の指示を受ける機能を追加すれば、日常的なコミュニケーション行動で装置の移動制御を行うことができるようになる。この場合、操作対象は単一で、サーバを介してどれが注目されたのかを判定する処理がなく、掃除ロボットのみで自分に注目された状態を判定し移動の指示を受ける点が異なる。ユーザは、掃除ロボットに注目しながら、「あっちを掃除して」と方向指示ジェスチャーとともに指示する。掃除ロボットは、計算した方向を部屋のマップと照らし合わせて、「あっち」方面の清掃を行う。
また、上記第2の実施例を簡略化して、単一の車椅子をそれに乗っているシニア自身が制御するというシステムも実現できる。
また、自動車の駐車位置の指示も、また同じ処理で「もう少し後ろ」とジェスチャーで行うことができる。
また、音声対話ロボットに、運動機能を付加した場合、その移動制御にも利用できる。
また、第2の実施例とほぼ同じような処理で、複数の家電装置のコントロールを行うことができる。現在、家電製品をコントロールするには、複数のリモコンの複雑な機能ボタンを操作しなければならない。一つのリモコンに制御信号を覚えさせても、複数の機能ボタンを操作しなければならない。また、音声対話ロボットで、自然言語によって意図を表現して家電製品をコントロールする動向もあるが、背景技術に述べたように、複数の装置から特定のものを選ぶことと、位置や方向を指示することは、音声では不便である。一方、第2の実施例と同様な構成と処理によって、普段のコミュニケーション動作で、複数の家電をコントロールすることができる。家電のコントロールは、部屋に撮像センサーと音響センサーがある実装と、家電製品それぞれが撮像センサーと音響センサーを持っている実装のいずれでもよい。部屋に複数の照明器具があった場合、「明かりをつけて」という発話には、注目方向の対象が応じる。また、部屋のエアコンに注目して、「風向き変えて」という発話とともに、方向を指示するジェスチャーを行うことで、エアコンの風向きを変えさせる。
運動手段を備えた複数のロボットを操作することにも、指示相手を選ぶ際や移動を指示する際に、同様な処理が利用できる。
なお、上記テレビ電話、車椅子の実施例では、本発明の情報入出力システムは付加装置+サーバとして説明した。しかし、それにとどまらず、本発明の情報入出力システムは、それら機器装置の一部として組み込んで利用できる。また、対象となる装置は、GUI情報表示装置を備えたコンピュータ(PC、スマホ、タブレット)にとどまらず、運動機能ないし運動部品を備えて位置や方向の指示を必要とする家電やロボット装置、および複数のものから特定の選択肢を指示することを必要とする、いかなる装置ないし装置群にも適用できる。
今後の電子機器装置が、本発明のHMIを用いれば、高齢者などの情報弱者や障碍者も、負荷なく機器装置に指示を送ることができるようになる。そればかりでなく、一般の人も、従来のUIにあったストレスを感じることなく、自然なコミュニケーション動作で指示を送ることができ、快適な社会が実現できる。
1… 動作
10… 発話
11… 身体動作
111… 注目方向
112… ジェスチャー
2… 入力システム
20… 音響センサー
21… 撮像センサー
22… 動作検出処理部
221… 信号処理部
222… 動作情報変換部
223… 動作判定部
23… 意図解釈処理部
231… 初期設定部
232… 動作検出設定部
233… 意図判定部
234… 状態管理部
24… 設定記憶部
25… 状態記憶部
26… 動作時系列記憶部
3… 通信部
4… 実行部
5… フィードバック・出力

Claims (7)

  1. ユーザの日常的な動作で機器装置を操作することを可能にする情報入出力制御システムであって、
    音響センサーと撮像センサーとメモリと処理系を備え、
    音響センサーと撮像センサーは、ユーザの動作をとらえ、
    メモリは、初期設定と制御プログラムと動作検出設定と現状態と動作の時系列履歴とを記録し、
    処理系は、前記制御プログラムを実行する、
    情報入出力制御システムにおいて、
    前記制御プログラムは、
    前記撮像センサーと前記音響センサーによってユーザの動作を信号としてとらえるステップ、
    前記センサーから得た画像信号と音声信号から、前期初期設定と前期動作検出設定に応じて、ユーザの動作を検出するステップ、
    検出した動作をタイムススタンプとともに前期メモリに順次記録して動作の時系列を記録するステップ、
    前期初期設定と前期動作の時系列記録と前期現状態とからユーザの機器装置制御指示の意図を解釈するステップ、
    その意図を実行してフィードバック・出力するステップ、
    前期現状態を更新するステップ、
    からなることと、
    前記ユーザの動作の検出ステップは、少なくとも、
    コミュニケーション開始・終了を伝達する表現、肯定・否定を伝達する表現、対象を伝達する表現、場所ないし方向を伝達する表現、の発話動作、
    または、伝達対象の選択の伝達、伝達対象以外の対象・場所・方向の伝達、のための注目動作、
    または、コミュニケーション開始・終了の伝達、肯定・否定の伝達、伝達対象以外の対象、場所ないし方向の伝達、のための頭部または手腕部のジェスチャー、
    のいずれかを検出対象とすることと、
    前記意図の解釈ステップは、少なくとも1個の前記検出動作から、
    コミュニケーションの開始・終了、肯定・否定、伝達対象の選択、伝達対象以外の対象、場所・方向
    のいずれかの指示意図を判定することと、
    を特徴とする。
  2. 上記請求項1の注目動作の検出において、
    注目可能な対象が複数ある中から特定の興味対象を探す場合、
    現注目対象以前にほかの対象に注目方向が停留した時間に対する、現注目対象への停留時間の相対的な長さの閾値を用いて、注目動作候補を検出する、
    情報入出力制御システム。
  3. 上記請求項1の情報入出力制御システムを組み込んだ装置、
    または上記請求項1の情報入出力制御システムを付加した装置、
    または通信回線を介して、上記請求項1の情報入出力制御システムと動作する単一もしくは複数の装置。
  4. 上記請求項の1の初期設定は、
    動作の認識における発話認識とフィードバック・出力における言語をユーザの言語に適合させるための設定と、
    意図の解釈においてジェスチャーの文化的な相違に適合させるための設定と、
    意図の解釈とフィードバック・出力においてユーザの身体的な特性からくる認知・動作の相違に適合させるための設定と、
    を記録する情報入出力制御システム。
  5. 上記請求項3の装置において、該装置は、
    情報提示装置を備えたコミュニケーションアプリを載せた装置であって、
    上記請求項1の意図解釈ステップにおいて、少なくとも、アプリの起動・終了と、連絡先相手の選択と、相手とのコミュニケーション開始・終了と、肯定・否定と、のいずれかを判定する装置。
  6. 上記請求項3の装置において、該装置は、
    自動移動手段を備えた単一あるいは複数のロボットであって、
    請求項1の意図解釈ステップにおいて、少なくとも、伝達対象となるロボットの選択と、伝達対象以外の対象の指示と、移動方向・場所の指示と、肯定・否定と、のいずれかを判定する、単一のないし複数の装置。
  7. ユーザの日常的な動作で機器装置を操作することを可能にする情報入出力制御方法であって、
    ユーザの動作を音響センサーと撮像センサーで信号としてとらえる工程と、
    信号から、
    コミュニケーション開始・終了を意味する表現、肯定・否定を意味する表現、対象を指示する表現、場所ないし方向を指示する表現、の発話動作、
    あるいは、伝達対象の選択、伝達対象以外の対象の指示、場所・方向の指示、のための注目動作、
    あるいは、コミュニケーション開始・終了の伝達、肯定・否定の伝達、伝達対象以外の対象の伝達、場所・方向の伝達、のための頭部または手腕部のジェスチャー、
    のいずれかの動作を検出する工程と、
    前記の検出動作の少なくとも1個の動作に基づいて、
    コミュニケーション開始・終了の指示、肯定・否定の指示、伝達対象の指示、伝達対象以外の対象の指示、場所・方向の指示
    のいずれかの機器操作意図を判定する工程と、
    意図を実行し、フィードバック・出力する工程と、
    を具備する情報入出力制御方法。
JP2017204737A 2017-10-23 2017-10-23 情報入出力制御システムおよび方法 Pending JP2019079204A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017204737A JP2019079204A (ja) 2017-10-23 2017-10-23 情報入出力制御システムおよび方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017204737A JP2019079204A (ja) 2017-10-23 2017-10-23 情報入出力制御システムおよび方法

Publications (1)

Publication Number Publication Date
JP2019079204A true JP2019079204A (ja) 2019-05-23

Family

ID=66627823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017204737A Pending JP2019079204A (ja) 2017-10-23 2017-10-23 情報入出力制御システムおよび方法

Country Status (1)

Country Link
JP (1) JP2019079204A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021090921A1 (ja) * 2019-11-08 2021-11-25 国立大学法人大阪大学 被験者の顎運動を測定するためのシステム、プログラム、および方法
CN114253386A (zh) * 2020-09-11 2022-03-29 成都木帆科技有限公司 一种基于感知的通信系统
WO2022224833A1 (ja) * 2021-04-19 2022-10-27 日立グローバルライフソリューションズ株式会社 生活支援システム
JP7328935B2 (ja) 2020-06-01 2023-08-17 本田技研工業株式会社 移動体制御装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021090921A1 (ja) * 2019-11-08 2021-11-25 国立大学法人大阪大学 被験者の顎運動を測定するためのシステム、プログラム、および方法
JP7037159B2 (ja) 2019-11-08 2022-03-16 国立大学法人大阪大学 被験者の顎運動を測定するためのシステム、プログラム、および方法
JP7328935B2 (ja) 2020-06-01 2023-08-17 本田技研工業株式会社 移動体制御装置
CN114253386A (zh) * 2020-09-11 2022-03-29 成都木帆科技有限公司 一种基于感知的通信系统
WO2022224833A1 (ja) * 2021-04-19 2022-10-27 日立グローバルライフソリューションズ株式会社 生活支援システム

Similar Documents

Publication Publication Date Title
US10861242B2 (en) Transmodal input fusion for a wearable system
CN111492328B (zh) 虚拟助手的非口头接合
US8700392B1 (en) Speech-inclusive device interfaces
Bohus et al. Directions robot: in-the-wild experiences and lessons learned
Csapo et al. Multimodal conversational interaction with a humanoid robot
JP2019079204A (ja) 情報入出力制御システムおよび方法
JP2017156511A (ja) 情報処理装置、情報処理方法、およびプログラム
CN108475507A (zh) 信息处理设备、信息处理方法和程序
JPH10301675A (ja) マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
CN110737335B (zh) 机器人的交互方法、装置、电子设备及存储介质
Sharma et al. Webcam controlled robotic arm for persons with SSMI
Mohd et al. Multi-modal data fusion in enhancing human-machine interaction for robotic applications: A survey
Chen et al. Human-robot interaction based on cloud computing infrastructure for senior companion
US20230152886A1 (en) Gaze-based user interface with assistant features for smart glasses in immersive reality applications
US10558951B2 (en) Method and arrangement for generating event data
Rehrl et al. The ambient adaptable living assistant is meeting its users
Goetze et al. Multimodal human-machine interaction for service robots in home-care environments
JP2019086858A (ja) 顧客応対システム及び顧客応対方法
Chacón-Quesada et al. Augmented reality control of smart wheelchair using eye-gaze–enabled selection of affordances
Hanheide et al. Combining environmental cues & head gestures to interact with wearable devices
Wrede et al. Towards an integrated robotic system for interactive learning in a social context
US20230236016A1 (en) Computer system, apparatus, and method for an augmented reality hand guidance application for people with visual impairments
EP4163765A1 (en) Method and apparatus for initiating an action
Porta E-learning and machine perception: in pursuit of human-like interaction in computer-based teaching systems
Kuno et al. Importance of vision in human-robot communication understanding speech using robot vision and demonstrating proper actions to human vision