JP2007034942A - 情報処理装置及びそのプログラム - Google Patents

情報処理装置及びそのプログラム Download PDF

Info

Publication number
JP2007034942A
JP2007034942A JP2005220931A JP2005220931A JP2007034942A JP 2007034942 A JP2007034942 A JP 2007034942A JP 2005220931 A JP2005220931 A JP 2005220931A JP 2005220931 A JP2005220931 A JP 2005220931A JP 2007034942 A JP2007034942 A JP 2007034942A
Authority
JP
Japan
Prior art keywords
image
specific
information
voice
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005220931A
Other languages
English (en)
Inventor
Makiyuki Nakayama
万希志 中山
Takayuki Hiekata
孝之 稗方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Original Assignee
Kobe Steel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd filed Critical Kobe Steel Ltd
Priority to JP2005220931A priority Critical patent/JP2007034942A/ja
Publication of JP2007034942A publication Critical patent/JP2007034942A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 ごく簡易な操作で実行させたい処理を特定できるとともに,その特定のための処理の負荷(演算負荷)を極力小さく抑えることができること。
【解決手段】 予め定められた複数の特定画像各々を識別する特定画像識別情報と,予め定められた複数の特定音声各々を識別する特定音声識別情報との組合せ,及びその組合せに応じて実行する処理に関する情報を予め記憶しておき,CCDカメラ2及びマイクロホン3a,3bの各々により得られる入力画像及び入力音声から,画像認識及び音声認識によって前記特定画像及び前記特定音声各々を認識し,認識された前記特定画像と前記特定音声との組合せに応じた処理を,前述の予め記憶した情報を参照することによって特定し,これにより特定された処理を実行する。
【選択図】図1

Description

本発明は,入力に応じた処理を実行する情報処理装置に関するものであり,特に画像入力及び音声入力に応じた処理を実行する情報処理装置及びそのプログラムに関するものである。
近年,工場等における作業現場においても,情報処理装置を有効に活用したいという要求がある。ここで,情報処理装置に所望の処理を実行させるには,実行させたい処理を特定するための情報を入力する必要がある。この入力を,以下,処理要求入力という。しかし,作業現場等は,マウスやキーボード等の一般的な情報入力手段の使用に適しない環境であるため,ごく簡易な操作で処理要求入力が可能な情報処理装置の開発が望まれている。
これに対し,従来,音声認識技術(音声解析技術)を利用し,音声により処理要求入力が可能なカーナビゲーション装置等の情報処理装置が知られている。
また,特許文献1には,処理要求入力を行うユーザの口元を継続的に撮像しながら口元の画像の変化を監視し,口元の画像に変化があった時が音声入力のタイミングであるとして,そのタイミングを起点に,マイクから入力された音声に対して音声認識処理(音声解析処理)を実行する技術が示されている。
特開平11−338490号公報
しかしながら,そもそも音声認識処理は,その処理を行う演算部にかかる演算負荷が高い上,実行対象となる処理の候補の数が多い場合,それらの候補各々を特定するために,数多くのパターンの音声を識別できる複雑な(高度な)音声認識を行う構成とすると,音声認識処理を行う演算部の演算負荷が非常に高くなるという問題点があった。例えば,「はい」や「いいえ」等のごく少数の単純な音声のみを識別するための音声認識処理は軽負荷であるが,所定の値を設定するための連続的な数値情報を音声認識するような場合には,認識すべき音声のパターンが膨大な数となり,非常に演算負荷の高い処理となる。
特に,工場等における作業現場等の環境では,運転中の設備の音や他の作業者の声等,高レベルのノイズ音が存在するため,複雑な音声認識を行うこと自体が困難になるという問題点もあった。
ここで,特許文献1に示される技術によれば,ユーザの口元が動き始めるまでは音声認識処理を休止させて演算部の負荷を低減できるものの,音声認識処理の開始後は,上述した問題点がやはり残る。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,ごく簡易な操作で実行させたい処理を特定できるとともに,その特定のための処理の負荷(演算負荷)を極力小さく抑えることができる情報処理装置及びそのプログラムを提供することにある。
上記目的を達成するために本発明は,画像入力手段及び音声入力手段を備え,これらを通じた入力情報に応じた処理を実行する情報処理装置或いはそのような情報処理装置(コンピュータ)に実行させる情報処理プログラムとして構成されるものであって,予め定められた複数の画像(以下,特定画像という)各々を識別する特定画像識別情報と予め定められた複数の音声(以下,特定音声という)各々を識別する特定音声識別情報との組合せ,及びその組合せに応じて実行する処理に関する情報を予め記憶しておき,前記画像入力手段及び前記音声入力手段の各々により得られる入力画像及び入力音声から,画像認識処理及び音声認識処理によって前記特定画像及び前記特定音声各々を認識し,認識された前記特定画像と前記特定音声との組合せに応じた処理を,前述の予め記憶した情報を参照することによって特定し(処理特定処理),これにより特定された処理を実行するものである(特定処理実行処理)。
このように,特定画像の認識結果と特定音声の認識結果との組合せにより処理を特定するので,キーボードやマウスを用いなくても,特定画像が写るよう画像入力手段や特定画像の記録媒体(表示媒体)を動かす操作(例えば,利用者がかぶっているヘルメットに取り付けられた画像入力手段(カメラ)を特定画像の記録媒体に向ける等)と,特定音声の発声との組合せによる簡易な操作により,実行したい処理を特定できる。
また,特定画像と特定音声との組合せで処理を特定するので,特定画像及び特定音声の各々の種類は比較的少なくても,数多くの組合せを作ることができ,画像認識及び音声認識各々は比較的簡易な処理とすることができる。その結果,実行したい処理を特定する処理の負荷(演算負荷)を小さく抑えることができる。
特に,画像認識処理により前記特定画像が認識された場合に,前記特定音声の認識を開始するものとすれば,まずは音声認識よりも処理負荷が軽い画像認識処理のみを実行させておき,これにより前記特定画像が認識されるまでは,相対的に処理負荷が高い音声認識処理を休止させることができるので,処理負荷を一層小さく抑えることができる。
なお,当該情報処理装置を作業現場等で移動する作業者が用いる場合を考慮すれば,前記画像入力手段及び前記音声入力手段が身体に装着可能に構成されていることが望ましい。
また,所定の表示手段を設け,画像認識処理により前記特定画像が認識された場合に,その特定画像との組合せ対象となり得る前記特定音声識別情報を予め記憶した情報の中から特定し,その特定した特定音声識別情報の候補やその関連情報を前記表示手段に表示させる第1の表示制御を行うものが考えられる。
これにより,利用者は,特定画像の種類によって概ねどのような処理が特定され得るかさえ覚えておけば,特定画像と特定音声との全ての組合せを覚えていなくても,表示内容を参照しながら,実行させたい処理に対応した特定音声を発する(発声する)ことができる。
また,表示手段を設けた場合に,前記画像入力手段を通じて得られる入力画像とその表示領域中の予め定められた特定の位置を示す画像(例えば,特定の領域を表す枠画像等)とを併せて前記表示手段に表示させ(第2の表示制御),画像認識処理において,前記入力画像における前記特定の位置若しくはその位置を含む所定範囲にある画像から前記特定画像を認識するものも考えられる。
これにより,画像認識処理は,入力画像全体の中で前記特定の位置周辺の部分画像についてのみ認識対象とすればよく,入力画像全体の中のどの位置に特定画像が写されるかわからない場合に比べ,画像認識の処理負荷を低減できる。この場合,利用者は,表示手段の表示内容を確認しながら,前記特定の位置に特定画像が写るよう画像入力手段や特定画像の記録媒体を動かせば,特定画像を認識させることができる。
また,この場合,画像認識処理により前記特定画像を認識した場合に,その特定画像の所定の基準位置からのずれの大きさを検出し,そのずれの大きさに基づいて,実行される処理に用いられる数値情報を認識するものが考えられる。
これにより,マウスやキーボード等の入力手段を用いる必要がなく,また,音声認識によって数値情報を入力(認識)する場合に比べ,処理負荷を大幅に低減することができる。
さらにこの場合,その数値情報を利用者が確認できるよう,画像認識処理により認識された前記数値情報を前記表示手段に表示させる第3の表示制御を行うことが望ましい。
なお,前記表示手段も,前記画像入力手段及び前記音声入力手段と同様の理由で,身体に装着可能に構成されていることが望ましい。例えば,HMD(Head Mounted Display)等である。
また,前記特定画像が形成された記録媒体であって身体に装着可能に構成された物(特定画像記録媒体,(例えば,作業服の袖の部分に特定画像が形成されたもの等))を用いれば,特定画像が記録されたパネル等を手に持つ必要がなく,作業現場等で用いる場合に作業性が高まり好適である。
また,画像認識処理において,例えば,画像の色,形若しくはそれらの組合せ,又は複数の色若しくは形が占める大きさの比率等により前記特定画像を認識する(即ち,特定画像が色,形等によって識別できるものである)ものとすれば,ごく簡易な画像処理によって特定画像を認識でき好適である。
また,本発明は,画像入力手段及び音声入力手段を有する情報処理装置が備えるコンピュータに,上述した情報処理装置が行う各処理を実行させるための情報処理プログラムとして捉えたものであってもよい。
本発明によれば,特定画像の認識結果と特定音声の認識結果との組合せにより実行する処理を特定するので,キーボードやマウスを用いなくても,特定画像が写るよう画像入力手段や特定画像の記録媒体(表示媒体)を動かす操作と,特定音声の発声との組合せによる簡易な操作により,実行したい処理を特定できる。
特に,画像認識処理により前記特定画像が認識された場合に,前記特定音声の認識を開始するものとすれば,画像認識処理により前記特定画像が認識されるまでは,相対的に処理負荷が高い音声認識処理を休止させることができるので,処理負荷を一層小さく抑えることができる。
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の一実施形態に係る情報処理装置Aの概略構成図,図2は情報処置装置Aによる実行内容特定処理の手順を示すフローチャート,図3は情報処理装置Aにおける画面表示例を表す図,図4は情報処理装置Aが予め記憶する画像・音声組合せ情報のデータ構成の一例を表す図である。
まず,図1に示す概略構成図を参照しつつ,本発明の一実施形態に係る情報処理装置Aの構成について説明する。
図1に示すように,情報処理装置Aは,その本体がCPU(演算手段)及びその周辺装置を備えた可搬型(携帯型)のパーソナルコンピュータ(計算機)であるモバイルPC(5)であり,これに,身体装着型の表示手段であるHMD1(Head Mounted Display)と,画像(映像)入力を行う画像(映像)入力手段であるCCDカメラ2と,音声入力手段であるマイクロホン3a,3bと,身体装着型の音声出力手段であるヘッドホン4とが接続されて構成されている。
また,情報処理装置Aは,マンマシンインターフェースに関する構成要素(HMD1,CCDカメラ2,マイクロホン3a,3b,ヘッドホン4)が,利用者(作業者)がかぶるヘルメット41に取り付けられることにより,作業現場等における作業者の身体に装着可能に,即ち,いわゆるウェアラブルに構成されている。
図1に示す例では,CCDカメラ2がヘルメット41の正面に取り付けられ,ヘルメット41の側面下部には,当該ヘルメット41をかぶる作業者の耳に近接するようにスピーカが内蔵されたヘッドホン4が取り付けられている。
また,ヘッドホン4には,ヘルメット41をかぶる作業者の片目の斜め前方に位置するように,HMD1がアーム部42を介して支持されている。
これにより,作業者は,作業を行いながらHMD1の表示内容を見ることができる。
また,マイクロホン3a,3bは,ヘッドホン41に設けられたアーム部43により,ヘルメット41をかぶる作業者の口元に近接する位置に支持されている。但し,その一方のマイクロホン3aは,作業者の口元に向けて取り付けられ,他方のマイクロホン3bは,その反対方向に向けて取り付けられている。ここで,口元に向けられるマイクロホン3aは,向けられた方向に対して指向性を有する。
このような配置により,作業者が発する声は,マイクロホン3a,3bの両方に入力(集音)されるが,マイクロホン3aの方により効率的に(高い強度で)入力(集音)される。同時に,マイクロホン3a,3bは近接しているので,周囲にある設備の運転音等の雑音についてはほぼ同等のレベルで入力される。従って,マイクロホン3aによる入力音声信号からマイクロホン3bによる入力音声信号を差し引いた差分音声信号は,雑音の混入が少なく作業者が発する音声がよりクリアに再現された音声信号となる。この差分音声信号を後述する音声認識処理の対象として用いることにより,より精度の高い音声認識が可能となる。以下,マイクロホン3(3aと3bの総称)による入力音声信号といえば,その差分音声信号のことをいうものとする。
一方,モバイルPC5は,作業者のベルトに装着,或いはポケットに収納される等により,作業者の身体に装着され携帯される。
また,作業者の作業服における一方の袖部分(身体の一部)には,予め定められた複数(図1の例では3つ)の特定の画像(以下,第1特定画像6a,6b,6cという)が形成された板状或いはシート状の記録媒体である第1特定画像記録媒体6が装着されている。
この第1特定画像6a〜6cは,モバイルPC5により実行させたい処理を選択する際に用いられるものであり,例えば,色や形,或いはそれらの組合せ,又は複数の色や形が占める大きさの比率等により識別可能な画像である。後述するように,モバイルPC5により,CCDカメラ2の入力画像に基づく画像認識処理が行われ,これら特定画像が認識される。これらの画像の認識手法は,周知な画像処理手法により可能であり,ここでは説明を省略する。なお,ここでは,第1特定画像6a,6b,6cは,各々「赤」,「黄」,「青」の色で特定される画像であるものとする。
同様に,作業服の他方の袖部分にも,予め定められた2色(例えば,白と黒)で2領域に塗り分けられた特定の画像(以下,第2特定画像7aという)が形成された板状或いはシート状の記録媒体である第2特定画像記録媒体6が装着されている。この第2特定画像7aは,モバイルPC5により実行させる処理で用いられる数値情報を入力する際に用いられるものである。これらについて,詳しくは後述する。
情報処理装置Aは,モバイルPC5により,CCDカメラ2により入力された入力画像(画像情報)及びマイクロホン3により入力された入力音声(音声情報)に基づいて,画像認識及び音声認識を行うことにより利用者(作業者)が要求する処理を特定し,特定した処理を実行するものである。以下,利用者が要求する処理を特定する処理のことを,実行内容特定処理という。
ここで,モバイルPC5が備えるハードディスク等の記憶部には,前述した第1特定画像及び第2特定画像(予め定められた特定画像)各々を識別する特定画像識別情報d1と,予め定められた複数の特定の音声(以下,特定音声という)各々を識別する特定音声識別情報d2との組合せ,及びその組合せに応じて実行する処理を識別する情報(以下,処理特定情報d3という)が予め記憶されている。この情報を,以下,画像・音声組合せ情報Dという。
図4は,画像・音声組合せ情報Dのデータ構成の一例を表す図である。
図4に示す例では,「赤」,「黄」,「青」及び「数値入力バー」の各々(「画像:」の後に続く情報)が,前述の第1特定画像6a,同6b,同6c及び第2特定画像7aの各々を識別する特定画像識別情報d1の一例である。また,「装置コード」も,後述する他の特定画像を識別する特定画像識別情報d1の一例である。
また,「1」,「2」,「3」及び「4」は(「音声:」の後に続く情報),特定音声「イチ」,「ニー」,「サン」,「ヨン」各々を識別する特定音声識別情報d2の一例である。
さらに,「録画」,「カメラ輝度補正」,「図面検索・表示」等は(「処理:」の後に続く情報),前記処理特定情報d3の一例である。
図4に示す例では,例えば,特定画像=「赤」(第1特定画像6a)と,特定音声=「1」(イチ)との組合せに対し,CCDカメラ2による入力画像(入力映像)をモバイルPC5の記憶部に記憶させる(録画する)録画処理が対応付けられている。
同様に,特定画像=「赤」(第1特定画像6a)と,特定音声=「4」(ヨン)と,特定画像=「数値入力バー」(第2特定画像6b)と,特定音声=「1」(イチ)との組合せに対し,CCDカメラ2の輝度補正処理(カメラ輝度補正)が対応付けられている。このように,1つの特定画像と1つの特定音声との1対1の組合せのみでなく,その1対1の組合せの更なる組合せによって処理を特定することも可能である。このため,図4に示す画像・音声組合せ情報Dは,上記1対1の組合せごとの階層構造となっており,丸印の数が階層の深さを表している。
ここで,処理特定情報d3における「〜(数値)」は,当該処理特定情報d3に対応する処理が,画像認識処理で認識される数値情報を用いる(引数とする)ことを表す。同様に,処理特定情報d3における「〜(コード)」は,当該処理特定情報d3に対応する処理が,画像認識処理で認識されるコード情報を用いる(引数とする)ことを表す。これらの詳細については後述する。
さらに,画像・音声組合せ情報Dには,特定音声識別情報d3各々に対応付けられた表示情報d4が含まれる。図4の例では,特定画像識別情報d1「画像:赤」と組合せを構成する特定音声識別情報「1」に対し,「録画」という表示情報d4が対応付けられている。また,特定画像識別情報d1「数値入力バー」と組合せを構成する特定音声識別情報「1」に対し,「輝度補正」という表示情報d4が対応付けられている。この表示情報d4は,音声認識処理を行う際のHMD1へのメニュー表示の情報として用いられるものであるが,詳しくは後述する。
以下,図2に示すフローチャートを参照しながら,モバイルPC5が予めその記憶部に記憶されたプログラムを実行することにより行う上記実行内容特定処理の手順について説明する。なお,以下に示すS1,S2,…は,処理手順(ステップ)の識別符号を表す。
情報処理装置Aは,モバイルPC5が所定のプログラム(情報処理プログラム)を実行することにより,CCDカメラ2及びマイクロホン3各々を通じて得られる入力画像及び入力音声から特定画像及び特定音声の各々を認識するとともに(S4,S10),画像・音声組合せ情報D(図4)を参照することにより,認識した特定画像と特定音声との組合せに応じた処理を特定する実行内容特定処理を実行する(S14,処理特定手段の一例)。以下,これについて詳説する。
モバイルPC5では,まず,これから行う画像認識処理により認識すべき特定画像の候補の初期設定がなされる(S1)。ここでは,画像・音声組合せ情報D(図4)における第1層(丸印1つ)の特定画像識別情報d1各々に対応する特定画像(赤,黄,青)が候補として初期設定される。
次に,CCDカメラ2を通じて入力される入力画像が取り込まれるとともに,その入力画像がHMD1に表示され(S2),これと併せて,その入力画像の表示領域中に,予め定められた特定の位置を示す画像として画像認識枠がHMD1に表示される(S3,第2の表示制御の一例)。
図3(a)に,HMD1の表示画面の例を示すが,破線で表す円形の枠画像が画像認識枠g1の一例である。
次に,HMD1に表示された入力画像における画像認識枠g1の枠内(特定の位置)の画像に基づいて,その時点で設定されている特定画像の候補のいずれかに合致する特定画像を認識する処理(画像認識処理)が行われ(S4),その特定画像が認識されるまでステップS2〜S4の処理が繰り返される。
この状態において,利用者は,HMD1の表示内容を確認しながら,画像認識枠g1内の位置(特定の位置)に,これからモバイルPC5に実行させたい処理に対応する特定画像が写るように,第1特定画像記録媒体6或いは第2特定画像記録媒体7を配置する(即ち,利用者が腕の位置をそのように配置する)。
図3(a)は,第1特定画像6a(赤画像)が画像認識枠g1内に位置するように,作業者の袖部分に設けられた第1特定画像記録媒体6を配置した状態を表す。
図4に示す画像・音声組合せ情報Dによれば,ステップS1で初期設定された状態においては,特定画像の候補は,「赤」,「黄」,「青」であるので,画像認識枠g1内に第1特定画像6a〜6cのいずれかが認識対象となる。
このように,画像認識の対象とする領域を特定の領域に限定することにより,画像認識の処理負荷を低減できる。
そして,画像認識枠g1の枠内の画像に,その時点で設定されている特定画像の候補のいずれかに合致する特定画像が存在することが認識された場合には,その特定画像が数入力用の特定画像(数値特定画像)である前記第2特定画像7aであるか否かが判別され(S6),数値入力用の第2特定画像7aである場合には,その第2特定画像7aの位置に基づいて数値情報が認識されるとともに,その数値情報がHMD1に表示される(S7)。ここで認識される数値情報は,後述するステップS15(特定処理実行手段の処理)で実行される処理に用いられるものである。
次に,第2特定画像7aではないと判別された場合,或いは数値情報が認識された場合には,画像・音声組合せ情報Dを参照することにより,ステップS4の処理で認識された特定画像との組合せ対象となり得る特定音声の候補が抽出(特定)され(S8),抽出された特定音声に関する情報が,音声メニューg11としてHMD1に一覧表示(リスト表示)される(S9,第1の表示制御の一例)。
より具体的には,まず,ステップS4の処理で認識された特定画像に対応する特定画像識別情報d1が特定され,さらに,その特定画像識別情報d1と組合せ対象となり得る特定音声識別情報d2が,画像・音声組合せ情報Dを参照することによって抽出される(S8)。これによって抽出された特定音声識別情報d2が,ステップS4の処理で認識された特定画像との組合せ対象となり得る特定音声を表すものである。
例えば,図4に示す画像・音声組合せ情報Dによれば,ステップS4で第1特定画像6a(赤画像)が認識された場合,特定画像認識情報d1「赤」に対応付けられた特定音声識別情報d2として「1」,「2」,「3」,「4」が抽出される。
さらに,抽出された特定音声識別情報d2各々と,その各々に関連づけられた前記表示情報d4各々とを組合せた情報が,音声メニューg11としてHMD1に一覧表示される(S9)。なお,利用者が認識できる情報であれば,特定音声識別情報d2又は表示情報d4のいずれか一方の情報のみを表示させるものであってもよい。
図3(a)は,画像認識枠g1内に第1特定画像6a(赤色画像)が認識され,画像・音声組合せ情報Dにおいて,その第1特定画像6aを表す特定画像識別情報d1「赤」に対応付けられた特定音声識別情報d1の候補「1」,「2」,「3」,「4」各々と,その各々に対応付けられた表示情報d4「録画」,「再生」,「停止」,「カメラ画質調整」各々とを組み合わせた情報が,音声メニューg11として表示された画面例を表す。
次に,モバイルPC5において音声認識処理プログラムが起動され,マイクロホン3を通じて音声を入力するとともに,その入力音声について音声認識処理が開始される(S10)。そして,ステップS8で抽出された特定音声の候補のいずれかが認識されるまでその音声認識処理が継続される(S10,S11)。
このように,まずは比較的処理負荷が軽い画像認識処理(S4,S5)のみを実行させておき,これにより特定画像が認識された場合に,特定音声の認識が開始されるので,特定画像が認識されるまでは,相対的に処理負荷が高い音声認識処理を休止させることができ,処理負荷を一層小さく抑えることができる。
そして,特定音声が認識された場合,画像・音声組合せ情報Dが参照され,ステップS4で認識された特定画像と,ステップS10で認識された特定音声との組合せによって処理が確定したか否か,即ち,その組合せによって特定される処理が存在するか否かが判別される(S12)。
図4に示した画像・音声組合せ情報Dによれば,特定画像識別情報d1と特定音声識別情報d2との組合せにより特定される処理特定情報d3の内容が「未確定」以外であれば,その内容に対応する処理が確定したと判別され,「未確定」であれば処理は確定しないと判別される。
例えば,ステップS4で第1特定画像6a(赤画像)が認識され,ステップS10で特定音声「1」(イチ)が認識された場合,その組合せに対応する処理特定情報d3は「録画」であるので,録画処理が確定したと判別される。
一方,ステップS4で第1特定画像6a(赤画像)が認識され,ステップS10で特定音声「4」(ヨン)が認識された場合,その組合せに対応する処理特定情報d3は「未確定」であるので,処理は確定しないと判別される。
そして,ステップS12において処理が確定したと判別された場合は,その確定した処理が,利用者により要求された処理として特定(S14)されるとともに,その特定された処理が実行され(S15),その後,ステップS1に処理が戻されて前述したのと同様の処理が繰り返される。なお,ステップS15では,特定された処理が,画像認識処理に基づいて検知される数値情報を用いる処理(画像・音声組合せ情報Dにおいて処理特定情報d3が「〜(数値)」である処理)である場合は,ステップS7で認識された数値情報が用いられる。
一方,ステップS12において,処理が確定しないと判別された場合は,画像・音声組合せ情報Dが参照され,ステップS4で認識された特定画像と,ステップS10で認識された特定音声との組合せに対し,さらに組合せ対象となり得る特定画像の候補が抽出され,その候補が,次に行う画像認識処理により認識すべき特定画像の候補として設定(更新)される(S13)。
さらに,ステップS2に処理が戻され,2階層目以降(2回目以降)の特定画像と特定音声との組合せを認識するために前述した処理が繰り返される。
以上の処理により,最終的に利用者が望む処理が特定されて実行される(S14,S15)。
次に,図4に示す画像・音声組合せ情報Dが予め設定(記憶)されている場合における,図3に画面例を示す具体的事例について,図2に示すフローチャートの各処理に対応させながら説明する。
まず,利用者が,第1特定画像記録媒体6が装着された腕(袖)を操作して,画像認識枠g1内に第1特定画像6a(赤画像)が写されるようにした場合,モバイルPC5のステップS4,S5の処理により,初期設定された特定画像の候補である第1特定画像6a,6b,6cの中から,特定画像識別情報d1「赤」に対応する第1特定画像6a(赤画像)が認識される。
さらに,この特定画像は,数値入力用の第2特定画像7aではないため,モバイルPC5のステップS6の処理により,ステップS7の処理はスキップされる。
次に,モバイルPC5のステップS8の処理により,特定画像識別情報d1「赤」に対応する特定音声識別情報d2(特定音声)として「1」(イチ) ,「2」(ニー),「3」(サン),「4」(ヨン)が抽出され,さらにステップS9の処理により,それらに対応する音声メニューg11が,図3(a)に示すようにHMD1に表示される。
この図3(a)に示す表示状態で,モバイルPC5のステップS10,S11の処理により,特定音声として「イチ」(1)が認識されると(S11のY側),ステップS11の処理によって画像・音声組合せ情報Dが参照され,処理特定情報d3「録画」が確定し,ステップS15の処理によって録画処理が実行される。
一方,図3(a)に示す表示状態で,モバイルPC5のステップS10,S11の処理により,特定音声として「ヨン」(4)が認識されると(S11のY側),ステップS11の処理によって画像・音声組合せ情報Dが参照され,処理特定情報d3が「未確定」となり処理が確定しない。
このため,モバイルPC5のステップS13の処理により,次の特定画像の候補として,特定画像識別情報d1「数値入力バー」に対応する第2特定画像7が設定され,処理がステップS2へ移行される。
そして,ステップS2及びS3の処理により,再度の画像取り込み及び表示,並びに図3(b)に示す画像認識枠g2の表示が行われる。ここで示す例では,特定画像の候補が第2特定画像7aである場合は,図3(b)に示すような数値情報入力用の矩形状の画像認識枠g2が表示され,それ以外の場合は,図3(a)に示すような処理選択用の円形状の画像認識枠g1が表示される。
そして,ステップS4の処理により,第2特定画像7aについての画像認識処理が行われる。ここで,数値情報入力用の画像認識枠g2が表示されている状態では,この画像認識枠g2内に加え,その外側の所定範囲に渡る画像について第2特定画像7aの認識処理が行われる。
ここで,図3(b)に示すように,第2特定画像記録媒体7が動かされて第2特定画像7aが画像認識枠g2を含む所定領域に配置されると,ステップS4及びS5の処理により第2特定画像7aが認識される。
この第2特定画像7aは,前述したように数値情報入力用の特定画像であり,ステップS4の画像認識処理では,第2特定画像7aを認識した場合に,その第2特定画像7aの所定の基準位置からのずれの大きさに基づいて,後のステップS15(特定処理実行手段の処理)において実行される処理に用いられる数値情報が認識される。
例えば,図3(b)に示すように,第2特定画像7aにおける2色に塗り分けられた境界線の位置が,画像認識枠g2の右端の位置(基準位置の一例)と一致している場合に0(%)と認識し,同境界線の位置が,画像認識枠g2の右端の位置から左側へずれるほど,そのずれの大きさに比例した数値(%)であると認識し,画像認識枠g2の左端の位置と一致している場合(最大のずれの場合)に100(%)と認識する。
これにより,マウスやキーボード等の入力手段を用いる必要がなく,また,音声認識によって数値情報を入力(認識)する場合に比べ,処理負荷を大幅に低減することができる。
次に,ステップS6の処理により,ステップS4で認識された特定画像が数値入力用の第2特定画像7aであると判別されるので,ステップS7の処理が実行され,図3(b)に示すように,認識された数値情報を利用者が目視確認できるよう,画像認識処理により認識された数値情報(図3(b)では「35%」)が,HMD1(表示手段)に表示される(第3の表示制御の一例)。
次に,モバイルPC5のステップS8の処理により,画像・音声組合せ情報Dが参照され,「数値入力バー」(第2特定画像7a)に対応する特定音声の候補を表す特定音声識別特定情報d2「1」,「2」,…と,その各々に対応する表示情報d4である「輝度補正」,「コントラスト補正」,…とが抽出され,さらに,ステップS9の処理により,図3(b)に示すような音声メニューg11’がHMD1に表示される。
そして,図3(b)に示すような表示状態において,利用者が「ニー」という特定音声を発すると,ステップS10,S11の処理によりその特定音声が認識される。
さらに,ステップS12の処理により,画像・音声組合せ情報Dが参照され,特定画像(1回目)=「赤」,特定音声(1回目)=「4」(ヨン),特定画像(2回目)=「数値入力バー」(第2特定画像7a),特定音声(2回目)=「2」という組合せに対応する処理「カメラコントラスト補正(数値)」が確定したと判別され,ステップS15の処理により,その確定した処理が実行される。その際,ステップS7の処理で認識された数値情報が用いられる(引数とされる)。図3(b)に示す例では,コントラストが35%に補正される。
一方,例えば,作業現場における設備自体やその設備の付属物等に,その設備を特定するための記号や数字,或いはバーコード等からなる所定の識別コードを予め記録(画像形成)しておき,その識別コードを特定画像として画像認識処理を行うことも考えられる。これにより,ある特定の設備の図面情報を,モバイルPC5の記憶部や,モバイルPC5と通信可能なサーバ装置に予め記憶された所定のデータベースから検索して読み出し,その図面情報をHMD1に表示させるといった処理を実行させたい場合に,その特定の設備の識別コードを画像認識処理によって特定することが可能となる。
図4に示す画像・音声組合せ情報Dは,2回目の画像認識処理において,特定画像識別情報d1が「コード」である場合に,そのようなコード認識処理(特定画像認識処理)が行われ,これにより認識されたコードを,図面の検索及び表示(図面検索・表示)や取扱説明書の検索及び表示(取説検索・表示)に用いられる場合の例を表す。
本発明は,情報処理装置に利用可能である。
本発明の一実施形態に係る情報処理装置Aの概略構成図。 情報処置装置Aによる実行内容特定処理の手順を示すフローチャート。 情報処理装置Aにおける画面表示例を表す図。 情報処理装置Aが予め記憶する画像・音声組合せ情報のデータ構成の一例を表す図。
符号の説明
1…HMD(Head Mounted Display)
2…CCDカメラ
3(3a,3b)…マイクロホン
4…ヘッドホン
5…モバイルPC
6…第1特定画像記録媒体
6a,6b,6c…第1特定画像
7…第2特定画像記録媒体
7a…第2特定画像
A…本発明の実施形態に係る情報処理装置
D…画像・音声組合せ情報
S1,S2,,…処理手順(ステップ)

Claims (11)

  1. 画像入力手段及び音声入力手段を備え,これらを通じた入力情報に応じた処理を実行する情報処理装置であって,
    予め定められた複数の特定画像各々を識別する特定画像識別情報と予め定められた複数の特定音声各々を識別する特定音声識別情報との組合せ及びその組合せに応じて実行する処理に関する情報を記憶する組合せ情報記憶手段と,
    前記画像入力手段を通じて得られる入力画像から前記特定画像を認識する画像認識手段と,
    前記音声入力手段を通じて得られる入力音声から前記特定音声を認識する音声認識手段と,
    前記組合せ情報記憶手段の記憶情報を参照することにより,前記画像認識手段により認識された前記特定画像と前記音声認識手段により認識された前記特定音声との組合せに応じた処理を特定する処理特定手段と,
    前記処理特定手段により特定された処理を実行する特定処理実行手段と,
    を具備してなることを特徴とする情報処理装置。
  2. 前記音声認識手段が,前記画像認識手段により前記特定画像が認識された場合に前記特定音声の認識を開始するものである請求項1に記載の情報処理装置。
  3. 前記画像認識手段により前記特定画像が認識された場合に,該特定画像との組合せ対象となり得る前記特定音声識別情報を前記組合せ情報記憶手段の記憶情報から特定し,特定した前記特定音声識別情報の候補及び/若しくはその関連情報を所定の表示手段に表示させる第1の表示制御手段を具備してなる請求項1又は2のいずれかに記載の情報処理装置。
  4. 前記画像入力手段を通じて得られる前記入力画像とその表示領域中の予め定められた特定の位置を示す画像とを併せて所定の表示手段に表示させる第2の表示制御手段と,を具備し,
    前記画像認識手段が,前記入力画像における前記特定の位置若しくは該特定の位置を含む所定範囲にある画像から前記特定画像を認識してなる請求項1〜3のいずれかに記載の情報処理装置。
  5. 前記画像認識手段が,前記特定画像を認識した場合に,該特定画像の所定の基準位置からのずれの大きさに基づいて前記特定処理実行手段により実行される処理に用いられる数値情報を認識してなる請求項4に記載の情報処理装置。
  6. 前記画像認識手段により認識された前記数値情報を前記表示手段に表示させる第3の表示制御手段を具備してなる請求項5に記載の情報処理装置。
  7. 前記画像入力手段及び前記音声入力手段が身体に装着可能に構成されてなる請求項1〜6のいずれかに記載の情報処理装置。
  8. 前記表示手段が身体に装着可能に構成されてなる請求項3〜7のいずれかに記載の情報処理装置。
  9. 前記特定画像が形成された記録媒体であって身体に装着可能に構成された特定画像記録媒体を具備してなる請求項1〜8のいずれかに記載の情報処理装置。
  10. 前記画像認識手段が,画像の色,形若しくはそれらの組合せ,又は複数の色若しくは形が占める大きさの比率により前記特定画像を認識してなる請求項1〜9のいずれかに記載の情報処理装置。
  11. 画像入力手段及び音声入力手段を有する情報処理装置が備えるコンピュータに,前記画像入力手段及び前記音声入力手段を通じた入力情報に応じた処理を実行させるための情報処理プログラムであって,
    予め定められた複数の特定画像各々を識別する特定画像識別情報と予め定められた複数の特定音声各々を識別する特定音声識別情報との組合せ及びその組合せに応じて実行する処理に関する情報が所定の記憶手段に記憶されている場合において,
    前記画像入力手段を通じて得られる入力画像から前記特定画像を認識する画像認識処理と,
    前記音声入力手段を通じて得られる入力音声から前記特定音声を認識する音声認識処理と,
    前記記憶手段の記憶情報を参照することにより,前記画像認識処理により認識された前記特定画像と前記音声認識処理により認識された前記特定音声との組合せに応じた処理を特定する処理特定処理と,
    前記処理特定処理により特定された処理を実行する特定処理実行処理と,
    をコンピュータに実行させるための情報処理プログラム。
JP2005220931A 2005-07-29 2005-07-29 情報処理装置及びそのプログラム Pending JP2007034942A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005220931A JP2007034942A (ja) 2005-07-29 2005-07-29 情報処理装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005220931A JP2007034942A (ja) 2005-07-29 2005-07-29 情報処理装置及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2007034942A true JP2007034942A (ja) 2007-02-08

Family

ID=37794084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005220931A Pending JP2007034942A (ja) 2005-07-29 2005-07-29 情報処理装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP2007034942A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198304A (ja) * 2010-03-24 2011-10-06 Brother Industries Ltd ヘッドマウントディスプレイ
JP2015069512A (ja) * 2013-09-30 2015-04-13 株式会社Nttドコモ 情報処理装置及び情報処理方法
JP2016206960A (ja) * 2015-04-23 2016-12-08 日本電信電話株式会社 音声映像入出力装置
JP2019046482A (ja) * 2018-10-09 2019-03-22 日本電信電話株式会社 音声映像追跡装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096798A (ja) * 1995-06-19 1997-01-10 Sony Corp 情報処理システムおよび情報処理方法
JPH1031551A (ja) * 1996-07-15 1998-02-03 Mitsubishi Electric Corp ヒューマンインターフェースシステムおよびこれを使用した高速移動物体位置検出装置
JP2000339401A (ja) * 1999-05-28 2000-12-08 Sony Corp 情報処理装置、情報処理方法及び提供媒体
JP2005122609A (ja) * 2003-10-20 2005-05-12 Mitsubishi Electric Corp 撮像物認識装置
JP2005202533A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 情報処理装置、情報処理方法及びソフトウェア

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096798A (ja) * 1995-06-19 1997-01-10 Sony Corp 情報処理システムおよび情報処理方法
JPH1031551A (ja) * 1996-07-15 1998-02-03 Mitsubishi Electric Corp ヒューマンインターフェースシステムおよびこれを使用した高速移動物体位置検出装置
JP2000339401A (ja) * 1999-05-28 2000-12-08 Sony Corp 情報処理装置、情報処理方法及び提供媒体
JP2005122609A (ja) * 2003-10-20 2005-05-12 Mitsubishi Electric Corp 撮像物認識装置
JP2005202533A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 情報処理装置、情報処理方法及びソフトウェア

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198304A (ja) * 2010-03-24 2011-10-06 Brother Industries Ltd ヘッドマウントディスプレイ
JP2015069512A (ja) * 2013-09-30 2015-04-13 株式会社Nttドコモ 情報処理装置及び情報処理方法
JP2016206960A (ja) * 2015-04-23 2016-12-08 日本電信電話株式会社 音声映像入出力装置
JP2019046482A (ja) * 2018-10-09 2019-03-22 日本電信電話株式会社 音声映像追跡装置

Similar Documents

Publication Publication Date Title
US20200312335A1 (en) Electronic device and method of operating the same
US11861264B2 (en) Portable terminal device and information processing system
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6102588B2 (ja) 情報処理装置、情報処理方法およびプログラム
KR102657519B1 (ko) 음성을 기반으로 그래픽 데이터를 제공하는 전자 장치 및 그의 동작 방법
KR20130016016A (ko) 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치
CN107430856B (zh) 信息处理系统和信息处理方法
WO2018235831A1 (en) INFORMATION PROCESSING APPARATUS, METHOD FOR IDENTIFYING ARTIFICIAL INTELLIGENCE, AND PROGRAM
US20210208844A1 (en) Input and Edit Functions Utilizing Accelerometer Based Earpiece Movement System and Method
US20160212525A1 (en) Sound source localization device, sound processing system, and control method of sound source localization device
JP2007034942A (ja) 情報処理装置及びそのプログラム
JP2010109898A (ja) 撮影制御装置、撮影制御方法及びプログラム
CN113853529A (zh) 用于空间音频捕获的装置和相关方法
JP6624476B2 (ja) 翻訳装置および翻訳システム
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
US11227423B2 (en) Image and sound pickup device, sound pickup control system, method of controlling image and sound pickup device, and method of controlling sound pickup control system
US20230100151A1 (en) Display method, display device, and display system
JP4778362B2 (ja) 情報処理装置及びそのプログラム
JP7468360B2 (ja) 情報処理装置および情報処理方法
JP2019149023A (ja) 運転支援方法、車両、及び運転支援システム
WO2021107308A1 (ko) 전자 장치 및 이의 제어 방법
US10812898B2 (en) Sound collection apparatus, method of controlling sound collection apparatus, and non-transitory computer-readable storage medium
CN106060394A (zh) 一种拍照方法、装置和终端设备
WO2023157963A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6763484B2 (ja) ヒューマンエラー防止装置、ヒューマンエラー防止方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110118