JP2007034942A

JP2007034942A - 情報処理装置及びそのプログラム

Info

Publication number: JP2007034942A
Application number: JP2005220931A
Authority: JP
Inventors: Makiyuki Nakayama; 万希志中山; Takayuki Hiekata; 孝之稗方
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2005-07-29
Filing date: 2005-07-29
Publication date: 2007-02-08

Abstract

【課題】ごく簡易な操作で実行させたい処理を特定できるとともに，その特定のための処理の負荷（演算負荷）を極力小さく抑えることができること。
【解決手段】予め定められた複数の特定画像各々を識別する特定画像識別情報と，予め定められた複数の特定音声各々を識別する特定音声識別情報との組合せ，及びその組合せに応じて実行する処理に関する情報を予め記憶しておき，ＣＣＤカメラ２及びマイクロホン３ａ，３ｂの各々により得られる入力画像及び入力音声から，画像認識及び音声認識によって前記特定画像及び前記特定音声各々を認識し，認識された前記特定画像と前記特定音声との組合せに応じた処理を，前述の予め記憶した情報を参照することによって特定し，これにより特定された処理を実行する。
【選択図】図１

Description

本発明は，入力に応じた処理を実行する情報処理装置に関するものであり，特に画像入力及び音声入力に応じた処理を実行する情報処理装置及びそのプログラムに関するものである。

近年，工場等における作業現場においても，情報処理装置を有効に活用したいという要求がある。ここで，情報処理装置に所望の処理を実行させるには，実行させたい処理を特定するための情報を入力する必要がある。この入力を，以下，処理要求入力という。しかし，作業現場等は，マウスやキーボード等の一般的な情報入力手段の使用に適しない環境であるため，ごく簡易な操作で処理要求入力が可能な情報処理装置の開発が望まれている。
これに対し，従来，音声認識技術（音声解析技術）を利用し，音声により処理要求入力が可能なカーナビゲーション装置等の情報処理装置が知られている。
また，特許文献１には，処理要求入力を行うユーザの口元を継続的に撮像しながら口元の画像の変化を監視し，口元の画像に変化があった時が音声入力のタイミングであるとして，そのタイミングを起点に，マイクから入力された音声に対して音声認識処理（音声解析処理）を実行する技術が示されている。
特開平１１−３３８４９０号公報

しかしながら，そもそも音声認識処理は，その処理を行う演算部にかかる演算負荷が高い上，実行対象となる処理の候補の数が多い場合，それらの候補各々を特定するために，数多くのパターンの音声を識別できる複雑な（高度な）音声認識を行う構成とすると，音声認識処理を行う演算部の演算負荷が非常に高くなるという問題点があった。例えば，「はい」や「いいえ」等のごく少数の単純な音声のみを識別するための音声認識処理は軽負荷であるが，所定の値を設定するための連続的な数値情報を音声認識するような場合には，認識すべき音声のパターンが膨大な数となり，非常に演算負荷の高い処理となる。
特に，工場等における作業現場等の環境では，運転中の設備の音や他の作業者の声等，高レベルのノイズ音が存在するため，複雑な音声認識を行うこと自体が困難になるという問題点もあった。
ここで，特許文献１に示される技術によれば，ユーザの口元が動き始めるまでは音声認識処理を休止させて演算部の負荷を低減できるものの，音声認識処理の開始後は，上述した問題点がやはり残る。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，ごく簡易な操作で実行させたい処理を特定できるとともに，その特定のための処理の負荷（演算負荷）を極力小さく抑えることができる情報処理装置及びそのプログラムを提供することにある。

上記目的を達成するために本発明は，画像入力手段及び音声入力手段を備え，これらを通じた入力情報に応じた処理を実行する情報処理装置或いはそのような情報処理装置（コンピュータ）に実行させる情報処理プログラムとして構成されるものであって，予め定められた複数の画像（以下，特定画像という）各々を識別する特定画像識別情報と予め定められた複数の音声（以下，特定音声という）各々を識別する特定音声識別情報との組合せ，及びその組合せに応じて実行する処理に関する情報を予め記憶しておき，前記画像入力手段及び前記音声入力手段の各々により得られる入力画像及び入力音声から，画像認識処理及び音声認識処理によって前記特定画像及び前記特定音声各々を認識し，認識された前記特定画像と前記特定音声との組合せに応じた処理を，前述の予め記憶した情報を参照することによって特定し（処理特定処理），これにより特定された処理を実行するものである（特定処理実行処理）。
このように，特定画像の認識結果と特定音声の認識結果との組合せにより処理を特定するので，キーボードやマウスを用いなくても，特定画像が写るよう画像入力手段や特定画像の記録媒体（表示媒体）を動かす操作（例えば，利用者がかぶっているヘルメットに取り付けられた画像入力手段（カメラ）を特定画像の記録媒体に向ける等）と，特定音声の発声との組合せによる簡易な操作により，実行したい処理を特定できる。
また，特定画像と特定音声との組合せで処理を特定するので，特定画像及び特定音声の各々の種類は比較的少なくても，数多くの組合せを作ることができ，画像認識及び音声認識各々は比較的簡易な処理とすることができる。その結果，実行したい処理を特定する処理の負荷（演算負荷）を小さく抑えることができる。
特に，画像認識処理により前記特定画像が認識された場合に，前記特定音声の認識を開始するものとすれば，まずは音声認識よりも処理負荷が軽い画像認識処理のみを実行させておき，これにより前記特定画像が認識されるまでは，相対的に処理負荷が高い音声認識処理を休止させることができるので，処理負荷を一層小さく抑えることができる。
なお，当該情報処理装置を作業現場等で移動する作業者が用いる場合を考慮すれば，前記画像入力手段及び前記音声入力手段が身体に装着可能に構成されていることが望ましい。

また，所定の表示手段を設け，画像認識処理により前記特定画像が認識された場合に，その特定画像との組合せ対象となり得る前記特定音声識別情報を予め記憶した情報の中から特定し，その特定した特定音声識別情報の候補やその関連情報を前記表示手段に表示させる第１の表示制御を行うものが考えられる。
これにより，利用者は，特定画像の種類によって概ねどのような処理が特定され得るかさえ覚えておけば，特定画像と特定音声との全ての組合せを覚えていなくても，表示内容を参照しながら，実行させたい処理に対応した特定音声を発する（発声する）ことができる。
また，表示手段を設けた場合に，前記画像入力手段を通じて得られる入力画像とその表示領域中の予め定められた特定の位置を示す画像（例えば，特定の領域を表す枠画像等）とを併せて前記表示手段に表示させ（第２の表示制御），画像認識処理において，前記入力画像における前記特定の位置若しくはその位置を含む所定範囲にある画像から前記特定画像を認識するものも考えられる。
これにより，画像認識処理は，入力画像全体の中で前記特定の位置周辺の部分画像についてのみ認識対象とすればよく，入力画像全体の中のどの位置に特定画像が写されるかわからない場合に比べ，画像認識の処理負荷を低減できる。この場合，利用者は，表示手段の表示内容を確認しながら，前記特定の位置に特定画像が写るよう画像入力手段や特定画像の記録媒体を動かせば，特定画像を認識させることができる。
また，この場合，画像認識処理により前記特定画像を認識した場合に，その特定画像の所定の基準位置からのずれの大きさを検出し，そのずれの大きさに基づいて，実行される処理に用いられる数値情報を認識するものが考えられる。
これにより，マウスやキーボード等の入力手段を用いる必要がなく，また，音声認識によって数値情報を入力（認識）する場合に比べ，処理負荷を大幅に低減することができる。
さらにこの場合，その数値情報を利用者が確認できるよう，画像認識処理により認識された前記数値情報を前記表示手段に表示させる第３の表示制御を行うことが望ましい。
なお，前記表示手段も，前記画像入力手段及び前記音声入力手段と同様の理由で，身体に装着可能に構成されていることが望ましい。例えば，ＨＭＤ(Head Mounted Display)等である。

また，前記特定画像が形成された記録媒体であって身体に装着可能に構成された物（特定画像記録媒体，（例えば，作業服の袖の部分に特定画像が形成されたもの等））を用いれば，特定画像が記録されたパネル等を手に持つ必要がなく，作業現場等で用いる場合に作業性が高まり好適である。
また，画像認識処理において，例えば，画像の色，形若しくはそれらの組合せ，又は複数の色若しくは形が占める大きさの比率等により前記特定画像を認識する（即ち，特定画像が色，形等によって識別できるものである）ものとすれば，ごく簡易な画像処理によって特定画像を認識でき好適である。
また，本発明は，画像入力手段及び音声入力手段を有する情報処理装置が備えるコンピュータに，上述した情報処理装置が行う各処理を実行させるための情報処理プログラムとして捉えたものであってもよい。

本発明によれば，特定画像の認識結果と特定音声の認識結果との組合せにより実行する処理を特定するので，キーボードやマウスを用いなくても，特定画像が写るよう画像入力手段や特定画像の記録媒体（表示媒体）を動かす操作と，特定音声の発声との組合せによる簡易な操作により，実行したい処理を特定できる。
特に，画像認識処理により前記特定画像が認識された場合に，前記特定音声の認識を開始するものとすれば，画像認識処理により前記特定画像が認識されるまでは，相対的に処理負荷が高い音声認識処理を休止させることができるので，処理負荷を一層小さく抑えることができる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の一実施形態に係る情報処理装置Ａの概略構成図，図２は情報処置装置Ａによる実行内容特定処理の手順を示すフローチャート，図３は情報処理装置Ａにおける画面表示例を表す図，図４は情報処理装置Ａが予め記憶する画像・音声組合せ情報のデータ構成の一例を表す図である。

まず，図１に示す概略構成図を参照しつつ，本発明の一実施形態に係る情報処理装置Ａの構成について説明する。
図１に示すように，情報処理装置Ａは，その本体がＣＰＵ（演算手段）及びその周辺装置を備えた可搬型（携帯型）のパーソナルコンピュータ（計算機）であるモバイルＰＣ（５）であり，これに，身体装着型の表示手段であるＨＭＤ１（Head Mounted Display）と，画像（映像）入力を行う画像（映像）入力手段であるＣＣＤカメラ２と，音声入力手段であるマイクロホン３ａ，３ｂと，身体装着型の音声出力手段であるヘッドホン４とが接続されて構成されている。
また，情報処理装置Ａは，マンマシンインターフェースに関する構成要素（ＨＭＤ１，ＣＣＤカメラ２，マイクロホン３ａ，３ｂ，ヘッドホン４）が，利用者（作業者）がかぶるヘルメット４１に取り付けられることにより，作業現場等における作業者の身体に装着可能に，即ち，いわゆるウェアラブルに構成されている。
図１に示す例では，ＣＣＤカメラ２がヘルメット４１の正面に取り付けられ，ヘルメット４１の側面下部には，当該ヘルメット４１をかぶる作業者の耳に近接するようにスピーカが内蔵されたヘッドホン４が取り付けられている。
また，ヘッドホン４には，ヘルメット４１をかぶる作業者の片目の斜め前方に位置するように，ＨＭＤ１がアーム部４２を介して支持されている。
これにより，作業者は，作業を行いながらＨＭＤ１の表示内容を見ることができる。

また，マイクロホン３ａ，３ｂは，ヘッドホン４１に設けられたアーム部４３により，ヘルメット４１をかぶる作業者の口元に近接する位置に支持されている。但し，その一方のマイクロホン３ａは，作業者の口元に向けて取り付けられ，他方のマイクロホン３ｂは，その反対方向に向けて取り付けられている。ここで，口元に向けられるマイクロホン３ａは，向けられた方向に対して指向性を有する。
このような配置により，作業者が発する声は，マイクロホン３ａ，３ｂの両方に入力（集音）されるが，マイクロホン３ａの方により効率的に（高い強度で）入力（集音）される。同時に，マイクロホン３ａ，３ｂは近接しているので，周囲にある設備の運転音等の雑音についてはほぼ同等のレベルで入力される。従って，マイクロホン３ａによる入力音声信号からマイクロホン３ｂによる入力音声信号を差し引いた差分音声信号は，雑音の混入が少なく作業者が発する音声がよりクリアに再現された音声信号となる。この差分音声信号を後述する音声認識処理の対象として用いることにより，より精度の高い音声認識が可能となる。以下，マイクロホン３（３ａと３ｂの総称）による入力音声信号といえば，その差分音声信号のことをいうものとする。
一方，モバイルＰＣ５は，作業者のベルトに装着，或いはポケットに収納される等により，作業者の身体に装着され携帯される。

また，作業者の作業服における一方の袖部分（身体の一部）には，予め定められた複数（図１の例では３つ）の特定の画像（以下，第１特定画像６ａ，６ｂ，６ｃという）が形成された板状或いはシート状の記録媒体である第１特定画像記録媒体６が装着されている。
この第１特定画像６ａ〜６ｃは，モバイルＰＣ５により実行させたい処理を選択する際に用いられるものであり，例えば，色や形，或いはそれらの組合せ，又は複数の色や形が占める大きさの比率等により識別可能な画像である。後述するように，モバイルＰＣ５により，ＣＣＤカメラ２の入力画像に基づく画像認識処理が行われ，これら特定画像が認識される。これらの画像の認識手法は，周知な画像処理手法により可能であり，ここでは説明を省略する。なお，ここでは，第１特定画像６ａ，６ｂ，６ｃは，各々「赤」，「黄」，「青」の色で特定される画像であるものとする。
同様に，作業服の他方の袖部分にも，予め定められた２色（例えば，白と黒）で２領域に塗り分けられた特定の画像（以下，第２特定画像７ａという）が形成された板状或いはシート状の記録媒体である第２特定画像記録媒体６が装着されている。この第２特定画像７ａは，モバイルＰＣ５により実行させる処理で用いられる数値情報を入力する際に用いられるものである。これらについて，詳しくは後述する。

情報処理装置Ａは，モバイルＰＣ５により，ＣＣＤカメラ２により入力された入力画像（画像情報）及びマイクロホン３により入力された入力音声（音声情報）に基づいて，画像認識及び音声認識を行うことにより利用者（作業者）が要求する処理を特定し，特定した処理を実行するものである。以下，利用者が要求する処理を特定する処理のことを，実行内容特定処理という。
ここで，モバイルＰＣ５が備えるハードディスク等の記憶部には，前述した第１特定画像及び第２特定画像（予め定められた特定画像）各々を識別する特定画像識別情報ｄ１と，予め定められた複数の特定の音声（以下，特定音声という）各々を識別する特定音声識別情報ｄ２との組合せ，及びその組合せに応じて実行する処理を識別する情報（以下，処理特定情報ｄ３という）が予め記憶されている。この情報を，以下，画像・音声組合せ情報Ｄという。
図４は，画像・音声組合せ情報Ｄのデータ構成の一例を表す図である。
図４に示す例では，「赤」，「黄」，「青」及び「数値入力バー」の各々（「画像：」の後に続く情報）が，前述の第１特定画像６ａ，同６ｂ，同６ｃ及び第２特定画像７ａの各々を識別する特定画像識別情報ｄ１の一例である。また，「装置コード」も，後述する他の特定画像を識別する特定画像識別情報ｄ１の一例である。
また，「１」，「２」，「３」及び「４」は（「音声：」の後に続く情報），特定音声「イチ」，「ニー」，「サン」，「ヨン」各々を識別する特定音声識別情報ｄ２の一例である。
さらに，「録画」，「カメラ輝度補正」，「図面検索・表示」等は（「処理：」の後に続く情報），前記処理特定情報ｄ３の一例である。
図４に示す例では，例えば，特定画像＝「赤」（第１特定画像６ａ）と，特定音声＝「１」（イチ）との組合せに対し，ＣＣＤカメラ２による入力画像（入力映像）をモバイルＰＣ５の記憶部に記憶させる（録画する）録画処理が対応付けられている。
同様に，特定画像＝「赤」（第１特定画像６ａ）と，特定音声＝「４」（ヨン）と，特定画像＝「数値入力バー」（第２特定画像６ｂ）と，特定音声＝「１」（イチ）との組合せに対し，ＣＣＤカメラ２の輝度補正処理（カメラ輝度補正）が対応付けられている。このように，１つの特定画像と１つの特定音声との１対１の組合せのみでなく，その１対１の組合せの更なる組合せによって処理を特定することも可能である。このため，図４に示す画像・音声組合せ情報Ｄは，上記１対１の組合せごとの階層構造となっており，丸印の数が階層の深さを表している。
ここで，処理特定情報ｄ３における「〜（数値）」は，当該処理特定情報ｄ３に対応する処理が，画像認識処理で認識される数値情報を用いる（引数とする）ことを表す。同様に，処理特定情報ｄ３における「〜（コード）」は，当該処理特定情報ｄ３に対応する処理が，画像認識処理で認識されるコード情報を用いる（引数とする）ことを表す。これらの詳細については後述する。
さらに，画像・音声組合せ情報Ｄには，特定音声識別情報ｄ３各々に対応付けられた表示情報ｄ４が含まれる。図４の例では，特定画像識別情報ｄ１「画像：赤」と組合せを構成する特定音声識別情報「１」に対し，「録画」という表示情報ｄ４が対応付けられている。また，特定画像識別情報ｄ１「数値入力バー」と組合せを構成する特定音声識別情報「１」に対し，「輝度補正」という表示情報ｄ４が対応付けられている。この表示情報ｄ４は，音声認識処理を行う際のＨＭＤ１へのメニュー表示の情報として用いられるものであるが，詳しくは後述する。

以下，図２に示すフローチャートを参照しながら，モバイルＰＣ５が予めその記憶部に記憶されたプログラムを実行することにより行う上記実行内容特定処理の手順について説明する。なお，以下に示すＳ１，Ｓ２，…は，処理手順（ステップ）の識別符号を表す。
情報処理装置Ａは，モバイルＰＣ５が所定のプログラム（情報処理プログラム）を実行することにより，ＣＣＤカメラ２及びマイクロホン３各々を通じて得られる入力画像及び入力音声から特定画像及び特定音声の各々を認識するとともに（Ｓ４，Ｓ１０），画像・音声組合せ情報Ｄ（図４）を参照することにより，認識した特定画像と特定音声との組合せに応じた処理を特定する実行内容特定処理を実行する（Ｓ１４，処理特定手段の一例）。以下，これについて詳説する。
モバイルＰＣ５では，まず，これから行う画像認識処理により認識すべき特定画像の候補の初期設定がなされる（Ｓ１）。ここでは，画像・音声組合せ情報Ｄ（図４）における第１層（丸印１つ）の特定画像識別情報ｄ１各々に対応する特定画像（赤，黄，青）が候補として初期設定される。
次に，ＣＣＤカメラ２を通じて入力される入力画像が取り込まれるとともに，その入力画像がＨＭＤ１に表示され（Ｓ２），これと併せて，その入力画像の表示領域中に，予め定められた特定の位置を示す画像として画像認識枠がＨＭＤ１に表示される（Ｓ３，第２の表示制御の一例）。

図３（ａ）に，ＨＭＤ１の表示画面の例を示すが，破線で表す円形の枠画像が画像認識枠ｇ１の一例である。
次に，ＨＭＤ１に表示された入力画像における画像認識枠ｇ１の枠内（特定の位置）の画像に基づいて，その時点で設定されている特定画像の候補のいずれかに合致する特定画像を認識する処理（画像認識処理）が行われ（Ｓ４），その特定画像が認識されるまでステップＳ２〜Ｓ４の処理が繰り返される。
この状態において，利用者は，ＨＭＤ１の表示内容を確認しながら，画像認識枠ｇ１内の位置（特定の位置）に，これからモバイルＰＣ５に実行させたい処理に対応する特定画像が写るように，第１特定画像記録媒体６或いは第２特定画像記録媒体７を配置する（即ち，利用者が腕の位置をそのように配置する）。
図３（ａ）は，第１特定画像６ａ（赤画像）が画像認識枠ｇ１内に位置するように，作業者の袖部分に設けられた第１特定画像記録媒体６を配置した状態を表す。
図４に示す画像・音声組合せ情報Ｄによれば，ステップＳ１で初期設定された状態においては，特定画像の候補は，「赤」，「黄」，「青」であるので，画像認識枠ｇ１内に第１特定画像６ａ〜６ｃのいずれかが認識対象となる。
このように，画像認識の対象とする領域を特定の領域に限定することにより，画像認識の処理負荷を低減できる。
そして，画像認識枠ｇ１の枠内の画像に，その時点で設定されている特定画像の候補のいずれかに合致する特定画像が存在することが認識された場合には，その特定画像が数入力用の特定画像（数値特定画像）である前記第２特定画像７ａであるか否かが判別され（Ｓ６），数値入力用の第２特定画像７ａである場合には，その第２特定画像７ａの位置に基づいて数値情報が認識されるとともに，その数値情報がＨＭＤ１に表示される（Ｓ７）。ここで認識される数値情報は，後述するステップＳ１５（特定処理実行手段の処理）で実行される処理に用いられるものである。

次に，第２特定画像７ａではないと判別された場合，或いは数値情報が認識された場合には，画像・音声組合せ情報Ｄを参照することにより，ステップＳ４の処理で認識された特定画像との組合せ対象となり得る特定音声の候補が抽出（特定）され（Ｓ８），抽出された特定音声に関する情報が，音声メニューｇ１１としてＨＭＤ１に一覧表示（リスト表示）される（Ｓ９，第１の表示制御の一例）。
より具体的には，まず，ステップＳ４の処理で認識された特定画像に対応する特定画像識別情報ｄ１が特定され，さらに，その特定画像識別情報ｄ１と組合せ対象となり得る特定音声識別情報ｄ２が，画像・音声組合せ情報Ｄを参照することによって抽出される（Ｓ８）。これによって抽出された特定音声識別情報ｄ２が，ステップＳ４の処理で認識された特定画像との組合せ対象となり得る特定音声を表すものである。
例えば，図４に示す画像・音声組合せ情報Ｄによれば，ステップＳ４で第１特定画像６ａ（赤画像）が認識された場合，特定画像認識情報ｄ１「赤」に対応付けられた特定音声識別情報ｄ２として「１」，「２」，「３」，「４」が抽出される。
さらに，抽出された特定音声識別情報ｄ２各々と，その各々に関連づけられた前記表示情報ｄ４各々とを組合せた情報が，音声メニューｇ１１としてＨＭＤ１に一覧表示される（Ｓ９）。なお，利用者が認識できる情報であれば，特定音声識別情報ｄ２又は表示情報ｄ４のいずれか一方の情報のみを表示させるものであってもよい。
図３（ａ）は，画像認識枠ｇ１内に第１特定画像６ａ（赤色画像）が認識され，画像・音声組合せ情報Ｄにおいて，その第１特定画像６ａを表す特定画像識別情報ｄ１「赤」に対応付けられた特定音声識別情報ｄ１の候補「１」，「２」，「３」，「４」各々と，その各々に対応付けられた表示情報ｄ４「録画」，「再生」，「停止」，「カメラ画質調整」各々とを組み合わせた情報が，音声メニューｇ１１として表示された画面例を表す。

次に，モバイルＰＣ５において音声認識処理プログラムが起動され，マイクロホン３を通じて音声を入力するとともに，その入力音声について音声認識処理が開始される（Ｓ１０）。そして，ステップＳ８で抽出された特定音声の候補のいずれかが認識されるまでその音声認識処理が継続される（Ｓ１０，Ｓ１１）。
このように，まずは比較的処理負荷が軽い画像認識処理（Ｓ４，Ｓ５）のみを実行させておき，これにより特定画像が認識された場合に，特定音声の認識が開始されるので，特定画像が認識されるまでは，相対的に処理負荷が高い音声認識処理を休止させることができ，処理負荷を一層小さく抑えることができる。
そして，特定音声が認識された場合，画像・音声組合せ情報Ｄが参照され，ステップＳ４で認識された特定画像と，ステップＳ１０で認識された特定音声との組合せによって処理が確定したか否か，即ち，その組合せによって特定される処理が存在するか否かが判別される（Ｓ１２）。
図４に示した画像・音声組合せ情報Ｄによれば，特定画像識別情報ｄ１と特定音声識別情報ｄ２との組合せにより特定される処理特定情報ｄ３の内容が「未確定」以外であれば，その内容に対応する処理が確定したと判別され，「未確定」であれば処理は確定しないと判別される。
例えば，ステップＳ４で第１特定画像６ａ（赤画像）が認識され，ステップＳ１０で特定音声「１」（イチ）が認識された場合，その組合せに対応する処理特定情報ｄ３は「録画」であるので，録画処理が確定したと判別される。
一方，ステップＳ４で第１特定画像６ａ（赤画像）が認識され，ステップＳ１０で特定音声「４」（ヨン）が認識された場合，その組合せに対応する処理特定情報ｄ３は「未確定」であるので，処理は確定しないと判別される。

そして，ステップＳ１２において処理が確定したと判別された場合は，その確定した処理が，利用者により要求された処理として特定（Ｓ１４）されるとともに，その特定された処理が実行され（Ｓ１５），その後，ステップＳ１に処理が戻されて前述したのと同様の処理が繰り返される。なお，ステップＳ１５では，特定された処理が，画像認識処理に基づいて検知される数値情報を用いる処理（画像・音声組合せ情報Ｄにおいて処理特定情報ｄ３が「〜（数値）」である処理）である場合は，ステップＳ７で認識された数値情報が用いられる。
一方，ステップＳ１２において，処理が確定しないと判別された場合は，画像・音声組合せ情報Ｄが参照され，ステップＳ４で認識された特定画像と，ステップＳ１０で認識された特定音声との組合せに対し，さらに組合せ対象となり得る特定画像の候補が抽出され，その候補が，次に行う画像認識処理により認識すべき特定画像の候補として設定（更新）される（Ｓ１３）。
さらに，ステップＳ２に処理が戻され，２階層目以降（２回目以降）の特定画像と特定音声との組合せを認識するために前述した処理が繰り返される。
以上の処理により，最終的に利用者が望む処理が特定されて実行される（Ｓ１４，Ｓ１５）。

次に，図４に示す画像・音声組合せ情報Ｄが予め設定（記憶）されている場合における，図３に画面例を示す具体的事例について，図２に示すフローチャートの各処理に対応させながら説明する。
まず，利用者が，第１特定画像記録媒体６が装着された腕（袖）を操作して，画像認識枠ｇ１内に第１特定画像６ａ（赤画像）が写されるようにした場合，モバイルＰＣ５のステップＳ４，Ｓ５の処理により，初期設定された特定画像の候補である第１特定画像６ａ，６ｂ，６ｃの中から，特定画像識別情報ｄ１「赤」に対応する第１特定画像６ａ（赤画像）が認識される。
さらに，この特定画像は，数値入力用の第２特定画像７ａではないため，モバイルＰＣ５のステップＳ６の処理により，ステップＳ７の処理はスキップされる。

次に，モバイルＰＣ５のステップＳ８の処理により，特定画像識別情報ｄ１「赤」に対応する特定音声識別情報ｄ２（特定音声）として「１」（イチ），「２」（ニー），「３」（サン），「４」（ヨン）が抽出され，さらにステップＳ９の処理により，それらに対応する音声メニューｇ１１が，図３（ａ）に示すようにＨＭＤ１に表示される。
この図３（ａ）に示す表示状態で，モバイルＰＣ５のステップＳ１０，Ｓ１１の処理により，特定音声として「イチ」（１）が認識されると（Ｓ１１のＹ側），ステップＳ１１の処理によって画像・音声組合せ情報Ｄが参照され，処理特定情報ｄ３「録画」が確定し，ステップＳ１５の処理によって録画処理が実行される。

一方，図３（ａ）に示す表示状態で，モバイルＰＣ５のステップＳ１０，Ｓ１１の処理により，特定音声として「ヨン」（４）が認識されると（Ｓ１１のＹ側），ステップＳ１１の処理によって画像・音声組合せ情報Ｄが参照され，処理特定情報ｄ３が「未確定」となり処理が確定しない。
このため，モバイルＰＣ５のステップＳ１３の処理により，次の特定画像の候補として，特定画像識別情報ｄ１「数値入力バー」に対応する第２特定画像７が設定され，処理がステップＳ２へ移行される。
そして，ステップＳ２及びＳ３の処理により，再度の画像取り込み及び表示，並びに図３（ｂ）に示す画像認識枠ｇ２の表示が行われる。ここで示す例では，特定画像の候補が第２特定画像７ａである場合は，図３（ｂ）に示すような数値情報入力用の矩形状の画像認識枠ｇ２が表示され，それ以外の場合は，図３（ａ）に示すような処理選択用の円形状の画像認識枠ｇ１が表示される。

そして，ステップＳ４の処理により，第２特定画像７ａについての画像認識処理が行われる。ここで，数値情報入力用の画像認識枠ｇ２が表示されている状態では，この画像認識枠ｇ２内に加え，その外側の所定範囲に渡る画像について第２特定画像７ａの認識処理が行われる。
ここで，図３（ｂ）に示すように，第２特定画像記録媒体７が動かされて第２特定画像７ａが画像認識枠ｇ２を含む所定領域に配置されると，ステップＳ４及びＳ５の処理により第２特定画像７ａが認識される。
この第２特定画像７ａは，前述したように数値情報入力用の特定画像であり，ステップＳ４の画像認識処理では，第２特定画像７ａを認識した場合に，その第２特定画像７ａの所定の基準位置からのずれの大きさに基づいて，後のステップＳ１５（特定処理実行手段の処理）において実行される処理に用いられる数値情報が認識される。

例えば，図３（ｂ）に示すように，第２特定画像７ａにおける２色に塗り分けられた境界線の位置が，画像認識枠ｇ２の右端の位置（基準位置の一例）と一致している場合に０（％）と認識し，同境界線の位置が，画像認識枠ｇ２の右端の位置から左側へずれるほど，そのずれの大きさに比例した数値（％）であると認識し，画像認識枠ｇ２の左端の位置と一致している場合（最大のずれの場合）に１００（％）と認識する。
これにより，マウスやキーボード等の入力手段を用いる必要がなく，また，音声認識によって数値情報を入力（認識）する場合に比べ，処理負荷を大幅に低減することができる。
次に，ステップＳ６の処理により，ステップＳ４で認識された特定画像が数値入力用の第２特定画像７ａであると判別されるので，ステップＳ７の処理が実行され，図３（ｂ）に示すように，認識された数値情報を利用者が目視確認できるよう，画像認識処理により認識された数値情報（図３（ｂ）では「３５％」）が，ＨＭＤ１（表示手段）に表示される（第３の表示制御の一例）。

次に，モバイルＰＣ５のステップＳ８の処理により，画像・音声組合せ情報Ｄが参照され，「数値入力バー」（第２特定画像７ａ）に対応する特定音声の候補を表す特定音声識別特定情報ｄ２「１」，「２」，…と，その各々に対応する表示情報ｄ４である「輝度補正」，「コントラスト補正」，…とが抽出され，さらに，ステップＳ９の処理により，図３（ｂ）に示すような音声メニューｇ１１’がＨＭＤ１に表示される。
そして，図３（ｂ）に示すような表示状態において，利用者が「ニー」という特定音声を発すると，ステップＳ１０，Ｓ１１の処理によりその特定音声が認識される。
さらに，ステップＳ１２の処理により，画像・音声組合せ情報Ｄが参照され，特定画像（１回目）＝「赤」，特定音声（１回目）＝「４」（ヨン），特定画像（２回目）＝「数値入力バー」（第２特定画像７ａ），特定音声（２回目）＝「２」という組合せに対応する処理「カメラコントラスト補正（数値）」が確定したと判別され，ステップＳ１５の処理により，その確定した処理が実行される。その際，ステップＳ７の処理で認識された数値情報が用いられる（引数とされる）。図３（ｂ）に示す例では，コントラストが３５％に補正される。

一方，例えば，作業現場における設備自体やその設備の付属物等に，その設備を特定するための記号や数字，或いはバーコード等からなる所定の識別コードを予め記録（画像形成）しておき，その識別コードを特定画像として画像認識処理を行うことも考えられる。これにより，ある特定の設備の図面情報を，モバイルＰＣ５の記憶部や，モバイルＰＣ５と通信可能なサーバ装置に予め記憶された所定のデータベースから検索して読み出し，その図面情報をＨＭＤ１に表示させるといった処理を実行させたい場合に，その特定の設備の識別コードを画像認識処理によって特定することが可能となる。
図４に示す画像・音声組合せ情報Ｄは，２回目の画像認識処理において，特定画像識別情報ｄ１が「コード」である場合に，そのようなコード認識処理（特定画像認識処理）が行われ，これにより認識されたコードを，図面の検索及び表示（図面検索・表示）や取扱説明書の検索及び表示（取説検索・表示）に用いられる場合の例を表す。

本発明は，情報処理装置に利用可能である。

本発明の一実施形態に係る情報処理装置Ａの概略構成図。情報処置装置Ａによる実行内容特定処理の手順を示すフローチャート。情報処理装置Ａにおける画面表示例を表す図。情報処理装置Ａが予め記憶する画像・音声組合せ情報のデータ構成の一例を表す図。

符号の説明

１…ＨＭＤ（Head Mounted Display）
２…ＣＣＤカメラ
３（３ａ，３ｂ）…マイクロホン
４…ヘッドホン
５…モバイルＰＣ
６…第１特定画像記録媒体
６ａ，６ｂ，６ｃ…第１特定画像
７…第２特定画像記録媒体
７ａ…第２特定画像
Ａ…本発明の実施形態に係る情報処理装置
Ｄ…画像・音声組合せ情報
Ｓ１，Ｓ２，，…処理手順（ステップ）

Claims

画像入力手段及び音声入力手段を備え，これらを通じた入力情報に応じた処理を実行する情報処理装置であって，
予め定められた複数の特定画像各々を識別する特定画像識別情報と予め定められた複数の特定音声各々を識別する特定音声識別情報との組合せ及びその組合せに応じて実行する処理に関する情報を記憶する組合せ情報記憶手段と，
前記画像入力手段を通じて得られる入力画像から前記特定画像を認識する画像認識手段と，
前記音声入力手段を通じて得られる入力音声から前記特定音声を認識する音声認識手段と，
前記組合せ情報記憶手段の記憶情報を参照することにより，前記画像認識手段により認識された前記特定画像と前記音声認識手段により認識された前記特定音声との組合せに応じた処理を特定する処理特定手段と，
前記処理特定手段により特定された処理を実行する特定処理実行手段と，
を具備してなることを特徴とする情報処理装置。
前記音声認識手段が，前記画像認識手段により前記特定画像が認識された場合に前記特定音声の認識を開始するものである請求項１に記載の情報処理装置。
前記画像認識手段により前記特定画像が認識された場合に，該特定画像との組合せ対象となり得る前記特定音声識別情報を前記組合せ情報記憶手段の記憶情報から特定し，特定した前記特定音声識別情報の候補及び／若しくはその関連情報を所定の表示手段に表示させる第１の表示制御手段を具備してなる請求項１又は２のいずれかに記載の情報処理装置。
前記画像入力手段を通じて得られる前記入力画像とその表示領域中の予め定められた特定の位置を示す画像とを併せて所定の表示手段に表示させる第２の表示制御手段と，を具備し，
前記画像認識手段が，前記入力画像における前記特定の位置若しくは該特定の位置を含む所定範囲にある画像から前記特定画像を認識してなる請求項１〜３のいずれかに記載の情報処理装置。
前記画像認識手段が，前記特定画像を認識した場合に，該特定画像の所定の基準位置からのずれの大きさに基づいて前記特定処理実行手段により実行される処理に用いられる数値情報を認識してなる請求項４に記載の情報処理装置。
前記画像認識手段により認識された前記数値情報を前記表示手段に表示させる第３の表示制御手段を具備してなる請求項５に記載の情報処理装置。
前記画像入力手段及び前記音声入力手段が身体に装着可能に構成されてなる請求項１〜６のいずれかに記載の情報処理装置。
前記表示手段が身体に装着可能に構成されてなる請求項３〜７のいずれかに記載の情報処理装置。
前記特定画像が形成された記録媒体であって身体に装着可能に構成された特定画像記録媒体を具備してなる請求項１〜８のいずれかに記載の情報処理装置。
前記画像認識手段が，画像の色，形若しくはそれらの組合せ，又は複数の色若しくは形が占める大きさの比率により前記特定画像を認識してなる請求項１〜９のいずれかに記載の情報処理装置。
画像入力手段及び音声入力手段を有する情報処理装置が備えるコンピュータに，前記画像入力手段及び前記音声入力手段を通じた入力情報に応じた処理を実行させるための情報処理プログラムであって，
予め定められた複数の特定画像各々を識別する特定画像識別情報と予め定められた複数の特定音声各々を識別する特定音声識別情報との組合せ及びその組合せに応じて実行する処理に関する情報が所定の記憶手段に記憶されている場合において，
前記画像入力手段を通じて得られる入力画像から前記特定画像を認識する画像認識処理と，
前記音声入力手段を通じて得られる入力音声から前記特定音声を認識する音声認識処理と，
前記記憶手段の記憶情報を参照することにより，前記画像認識処理により認識された前記特定画像と前記音声認識処理により認識された前記特定音声との組合せに応じた処理を特定する処理特定処理と，
前記処理特定処理により特定された処理を実行する特定処理実行処理と，
をコンピュータに実行させるための情報処理プログラム。