JP6177655B2

JP6177655B2 - 画像認識装置および画像認識方法

Info

Publication number: JP6177655B2
Application number: JP2013214186A
Authority: JP
Inventors: ▲高▼橋　誠; 誠 ▲高▼橋; 渋谷　彰; 彰渋谷; 小林　茂子; 茂子小林; 雄太樋口
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2013-10-11
Filing date: 2013-10-11
Publication date: 2017-08-09
Anticipated expiration: 2033-10-11
Also published as: JP2015075750A

Description

本発明は、撮影対象者の動作を認識する画像認識装置および画像認識方法に関する。

一般的に、ジェスチャーや手話などを画像認識により翻訳する装置が知られている。このような装置においては、誤認識することが考えられることから、その修正を行うことが必要である。例えば、特許文献１に記載されているように、入力された手話の翻訳の結果、得られた候補をすべて表示し、それらを入力者がマウス等を用いて選択することができる装置が知られている。この特許文献１によれば、正しい翻訳結果を得ることができる。

特開平６−３３７６２７号公報

しかしながら、特許文献１に記載されている技術では、手話の認識結果を正しいものにするため、マウスなどのデバイスが必要となり、またその操作に手間のかかるものである。

そこで、本発明においては、手話やジェスチャーなどの撮影対象の翻訳結果を簡単な操作で修正することができる画像認識装置および画像認識方法を提供することを目的とする。

上述の課題を解決するために、本発明の画像認識装置は、撮影対象を画像データにして取得する画像取得手段と、前記画像取得手段により取得された画像データに含まれる撮影対象の動作に対して、当該動作毎に翻訳を行う画像翻訳手段と、前記画像取得手段により取得された画像データに含まれる撮影対象の動作を示す第１の動作パラメータを、前記動作毎に生成する生成手段と、画像翻訳手段により翻訳された撮影対象の動作の翻訳結果を出力する結果出力手段と、前記結果出力手段により出力された翻訳結果を修正する修正制御手段と、を備え、前記画像取得手段は、前記結果出力手段により翻訳結果が出力された後、修正のための撮影対象の動作を含んだ画像データを再度取得し、前記画像翻訳手段は、前記画像取得手段により再度取得された撮影対象の動作に対する翻訳を行い、前記生成手段は、前記画像取得手段により再度取得された撮影対象の動作の第２の動作パラメータを生成し、前記修正制御手段は、前記第２の動作パラメータを、動作毎に定められた前記第１の動作パラメータのそれぞれと比較し、この比較の結果が所定の条件を満たした第１の動作パラメータに対応する動作の翻訳結果を、前記第２の動作パラメータの動作の翻訳結果に置き換えて修正し、前記結果出力手段は、前記修正制御手段により修正された翻訳結果を出力するように構成されている。

また、本発明の画像認識方法において、撮影対象の動作を認識する画像認識装置において、撮影対象を画像データにして取得する画像取得ステップと、前記画像取得ステップにより取得された画像データに含まれる撮影対象の動作に対して、当該動作毎に翻訳を行う画像翻訳ステップと、前記画像取得ステップにより取得された画像データに含まれる撮影対象の動作を示す第１の動作パラメータを、前記動作毎に生成する生成ステップと、画像翻訳ステップにより翻訳された撮影対象の動作の翻訳結果を出力する結果出力ステップと、前記結果出力ステップにより出力された翻訳結果を修正する修正制御ステップと、を備え、前記画像取得ステップは、前記結果出力ステップにより翻訳結果が出力された後、修正のための撮影対象の動作を含んだ画像データを再度取得し、前記画像翻訳ステップは、前記画像取得ステップにより再度取得された撮影対象の動作に対する翻訳を行い、前記生成ステップは、前記画像取得ステップにより再度取得された撮影対象の動作の第２の動作パラメータを生成し、前記修正制御ステップは、前記第２の動作パラメータを、動作毎に定められた前記第１の動作パラメータのそれぞれと比較し、この比較の結果が所定の条件を満たした第１の動作パラメータに対応する動作の翻訳結果を、前記第２の動作パラメータの動作の翻訳結果に置き換えて修正し、前記結果出力ステップは、前記修正制御ステップにより修正された翻訳結果を出力する。

この発明によれば、撮影対象の動作に対する翻訳を行うとともに、第１の動作パラメータを生成して、翻訳結果を出力し、その後、修正のための撮影対象の動作を含んだ画像データを再度取得する。そして、再度取得された撮影対象の動作に対する翻訳を行うとともに、再度取得された撮影対象の動作の第２の動作パラメータを生成する。この第２の動作パラメータを、動作毎に定められた第１の動作パラメータのそれぞれと比較し、この比較の結果が所定の条件を満たした第１の動作パラメータに対応する動作の翻訳結果を、第２の動作パラメータの動作の翻訳結果に置き換えて修正して、翻訳結果を出力する。

これにより、修正対象を指定することなく、修正処理を行うことができる。特に、その修正対象を指定するための処理構成を備える必要がなく、その構成を簡易にするとともに、コストを低減することができる。

また、本発明の画像認識装置において、前記画像翻訳手段が修正指示を示す動作を認識すると、前記画像取得手段は修正のための画像データの取得処理を実行する。

この発明によれば、撮影対象が修正指示を示す動作をした場合、それを認識することで修正のための画像データの取得処理を実行する。これにより、修正指示のためのボタンなどの物理的な構成を必要とすることなく、修正指示を実行することができる。さらに、動作により修正を指示するため、撮影対象が近くにいる必要がなく、その使い勝手をよくすることができる。

また、本発明の画像認識装置において、前記修正制御手段は、あらかじめ定めた条件を満たした場合、前記第２の動作パラメータを、動作毎に定められた前記第１の動作パラメータのそれぞれと比較する。

また、本発明の画像認識装置において、前記修正制御手段は、前記あらかじめ定めた条件として、前記結果出力手段による翻訳結果の出力後、前記画像取得手段による画像取得から前記画像翻訳手段による第２の動作パラメータ生成までの時間が所定時間以内である場合に、動作パラメータの比較処理を行う。

また、本発明の画像認識装置において、前記修正制御手段は、前記あらかじめ定めた条件として、修正指示のための操作を受け付けた場合に、動作パラメータの比較処理を行う。

この発明によれば、あらかじめ定めた条件を満たした場合、第２の動作パラメータを、動作毎に定められた前記第１の動作パラメータのそれぞれと比較することで、修正対象となる動作を把握することができる。よって、その条件を満たしていない場合には、比較処理を行わず、その結果、通常の翻訳処理を行うことになる。

例えば、あらかじめ定めた条件として、翻訳結果の出力後、画像取得から第２の動作パラメータ生成までの時間が所定時間以内であることが考えられる。この場合には、その動作に基づいた処理が所定時間以内、すなわちその動作が短いということは、一連の動作による意思伝達ではなく、ある一動作の修正をすることであると判断することができる。よって、そのような場合には、修正指示を判断し、修正対象のための各動作パラメータの比較処理を実行することで、その処理を自動的に行うことができる。

なお、このあらかじめ定めた条件としては、上述の通りすべてを自動的に行うことのほか、修正指示は物理的なボタンや、タッチパネルのボタンなどによる指示を受け付けることもできる。

また、本発明の画像認識装置は、画像取得手段により取得された画像データの撮影対象の動作毎の、当該動作の始まりから終わりまでの時間を計測する計測手段をさらに備え、前記生成手段は、撮影対象の動作を示す動作パラメータに加えて、前記動作毎の時間を動作パラメータとして生成する。

この発明によれば、画像データの撮影対象の動作毎の、当該動作の始まりから終わりまでの時間を計測し、撮影対象の動作を示す動作パラメータに加えて、当該動作毎の時間を動作パラメータとして生成する。これにより、パラメータは動作のみならず、その動作を構成する時間を加味することができ、修正対象となる動作の一致度を判断する際に、より正確に行うことができる。

本発明によれば、修正対象を指定することなく、修正処理を行うことができる。特に、その修正対象を指定するための処理構成を備える必要がなく、その構成を簡易にするとともに、コストを低減することができる。

本実施形態の画像認識装置１００の機能を示すブロック図である。画像認識装置１００のハードウェア構成図である。手話者の動作を示す動作パラメータを説明するための図である。手話者の動作とその翻訳結果を模式的に示した説明図である。動作パラメータを記述するパラメータテーブルを示す説明図である。画像認識装置１００の手話の翻訳処理を示すフローチャートである。動作パラメータとして動作時間を考慮した変形例における翻訳処理を示すフローチャートである。変形例における画像認識装置１００ａの機能構成を示すブロック図である。修正指示を明示的に行わない変形例における翻訳処理を示すフローチャートである。ネットワーク先のデータベースにアクセスする構成を有する画像認識装置１００ｂおよびサーバ２００の機能構成を示すブロック図である。

添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

図１は、本実施形態の画像認識装置１００の機能を示すブロック図である。この画像認識装置１００は、手話者などのジェスチャーをテキストやイメージなどに翻訳するための装置であり、ジェスチャー入力部１０１（画像取得手段）、翻訳エンジン部１０２、画像表示部１０９（結果出力手段）、および通信制御部１１０を含んで構成されている。さらに、翻訳エンジン部１０２は、翻訳制御部１０３（画像翻訳手段）、パラメータ生成部１０４（生成手段）、修正制御部１０５（修正制御手段）、ジェスチャー認識ＤＢ１０６、意図解釈ＤＢ１０７、および文字翻訳ＤＢ１０８を含んで構成されている。この画像認識装置１００は、例えば、携帯端末やスマートフォンなどの携帯端末であることが好適である。

図２は、画像認識装置１００のハードウェア構成図である。図１に示される画像認識装置１００は、物理的には、図２に示すように、一または複数のＣＰＵ１１、主記憶装置であるＲＡＭ１２及びＲＯＭ１３、入力デバイスであるキーボード及びマウス等の入力装置１４、ディスプレイ等の出力装置１５、ネットワークカード等のデータ送受信デバイスである通信モジュール１６、半導体メモリ等の補助記憶装置１７などを含むコンピュータシステムとして構成されている。図１における各機能は、図２に示すＣＰＵ１１、ＲＡＭ１２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１１の制御のもとで入力装置１４、出力装置１５、通信モジュール１６を動作させるとともに、ＲＡＭ１２や補助記憶装置１７におけるデータの読み出し及び書き込みを行うことで実現される。以下、図１に示す機能ブロックに基づいて、各機能ブロックを説明する。

ジェスチャー入力部１０１は、手話者などの撮影対象者の動作を画像として取得する部分であり、例えばカメラである。

翻訳エンジン部１０２は、ジェスチャー入力部１０１により取得された撮影対象者の動作に基づいて、手話を理解できない人に対して理解しやすいようにしたテキストまたはイメージに翻訳する部分である。この翻訳エンジン部１０２は、上述した通り、翻訳制御部１０３、パラメータ生成部１０４、修正制御部１０５、ジェスチャー認識ＤＢ１０６、意図解釈ＤＢ１０７、および文字翻訳ＤＢ１０８を含んだものである。この構成要素についてさらに詳述する。

翻訳制御部１０３は、ジェスチャー入力部１０１で取得された手話者の動作を含んだ画像データを、ジェスチャー認識ＤＢ１０６、意図解釈ＤＢ１０７、および文字翻訳ＤＢ１０８を参照して、テキストやイメージに翻訳する部分である。なお、翻訳制御部１０３は、テキストなどの翻訳処理のほか、手話者の動作が修正指示などの制御のための動作であるか否かを認識することができる。

パラメータ生成部１０４は、ジェスチャー入力部１０１で取得された手話者の動作を含んだ画像データから、当該動作を示す一または複数の動作パラメータを生成する部分である。この動作パラメータは、例えば図３に示されるものが挙げられる。

図３は、手話者の動作を示す動作パラメータを説明するための図である。図３（ａ）は、動作パラメータとその具体例を示す。図３（ａ）から明らかなとおり、この動作パラメータは、指の動作、指の数、掌の動作、左右方向の手の動作、上下方向の手の動作、手の回転動作の有無、および手の位置から構成される。各動作パラメータの内容は以下の通りである。
指の動作：一動作の中で，指の本数に変化があったか（変化の有無，0か1か）
指の数：一動作の中で，指の本数が何本だったか（何本の状態が一番多かったか，0〜5）
掌の動作：一動作の中で，掌の反転変化があったか（変化の有無，0か1か）
左右方向の手の動作：一動作の中で，左右方向の移動変化があったか（右→左，右←左，右←→左，なし，の0〜3）
上下方向の手の動作２：一動作の中で，上下方向の移動変化があったか（上→下，上←下，上⇔下，なし，の0〜3 ）
手の回転動作：一動作の中で，回転方向の移動変化があったか（変化の有無，0か1か）
手の位置：一動作の中で，手は主にどの位置にあったか（顔の前，首の前，身体の前，の0〜2）

図３（ｂ）は、「素直」を手話で表現した動作を示している。ここでは、両手で指文字の”も”を作り、その指先を胸にあてて同時に上下に引き離す動作を示している。この場合、指の動作や、指の数等は、０である。一方、手は上下方向に動いているため、「上下方向の手の動作」は、３で表される。また、手の位置は、体の前にあるため、２で表される。

同様に、図３（ｃ）は、「心配」を手話で表現した動作を示している。ここでは、両手の指先で旨を２回叩く動作を示している。この場合、指の数は、５本認識されるため、５で表される。また、手の位置は、体の前にあるため、２で表される。

このようにして、指や手の動作・位置を翻訳制御部１０３が認識することにより、それに基づいてパラメータ生成部１０４は、各動作パラメータを生成することができる。

図４は、手話者の動作とその翻訳結果を模式的に示した説明図である。図４（ａ）〜図４（ｇ）では、一連の手話の動作によって、「羨ましい、私は３日間しか休めないの」を表している。これは上述の翻訳制御部１０３による翻訳制御に基づいて得られた翻訳結果である。

パラメータ生成部１０４は、このような手話の一連の動作から各動作の動作パラメータを生成することができる。図５は、パラメータ生成部１０４により生成された動作パラメータを記述するパラメータテーブルを示す説明図である。図５に示される通り、動作パラメータＰ１〜Ｐ７からなるパラメータセットで、各手話の動作毎に対応付けがなされている。例えば、「羨ましい」は、動作パラメータＰ２と動作パラメータＰ５とにおいて１が付与されている。これをパラメータ生成部１０４は、手話者が手話の一連の動作をすると、翻訳制御部１０３において認識された手話者の各動作に基づいて各動作パラメータＰ１〜Ｐ７からなるパラメータセットを生成する。なお、図５においては、オプションとして手話動作時間ｔも、一動作パラメータとして、各動作に対応付けられることも考えられる。これは一連の動作における動作毎にその動作時間が、パラメータ生成部１０４（計測手段）により計測されたものであり、動作パラメータを用いた一致度の計算において用いられる。

修正制御部１０５は、翻訳制御部１０３で翻訳された翻訳結果を修正する部分である。より詳しくは、修正制御部１０５は、あらかじめ定めた条件を満たしている場合に、修正指示前のパラメータ生成部１０４により生成された動作パラメータ（第1の動作パラメータ）と、修正指示後においてパラメータ生成部１０４により生成された動作パラメータ（第２の動作パラメータ）とを比較して、修正指示後における動作パラメータとの比較結果が所定条件を満たす修正指示前の動作パラメータに対応する動作の翻訳結果を、修正指示後の動作パラメータの動作の翻訳結果に置き換える修正を行う部分である。例えば、修正制御部１０５は、その一致度が所定値以上である場合に、修正処理を行うことができる。

図３を用いて説明する。図３（ｂ）と図３（ｃ）とにおいて、手話者の手話動作はよく似ている。図３（ａ）に示される通り、各動作パラメータにおいて、指の動作等は一致しているが、指の数や、上下方向の手の動作などが相違している。修正制御部１０５は、これら各動作パラメータに基づいて類似度７１．４％（５／７）を算出することができ、この類似度が最も高い動作の翻訳結果を修正対象として判断することができる。
このような修正対象の判断手法の適用例を、図４を用いて説明する。図４は、手話の動作、その動作毎の翻訳結果を示す説明図である。図４（ａ）〜図４（ｇ）で示される通り、手話者は、７つからなる動作をしている。ここで、図４（ｃ）および図４（ｄ）では、「３日間」と表現している部分がある。この“３”の部分を、例えば“４”に修正したい場合、ユーザは、修正指示をしてから４本指を示した動作をすることになる。翻訳制御部１０３は、これを認識し、そしてパラメータ生成部１０４は、この“４”を示す動作パラメータ（第２の動作パラメータ）を生成する。修正制御部１０５は、この“４”を示す動作パラメータと一致度の高い動作パラメータ（第1の動作パラメータ）を、図４で示される一連の動作から探索し、所定の類似度の動作パラメータ（第1の動作パラメータ）を持つ動作の翻訳結果を、修正後の翻訳結果に置き換える処理を行う。ここでは、図４（ｃ）で示される“３”は、“４”と一致度が高いため（指の数のみが異なっているため）、“３”という翻訳結果を“４”という翻訳結果に置き換える処理を行うことになる。

図１に戻り引き続きブロック図について説明する。ジェスチャー認識ＤＢ１０６は、手話者の動作を翻訳制御部１０３に認識させるための動作のパターンを記述するデータベースである。これはジェスチャー認識のための一般的なデータベースである。

意図解釈ＤＢ１０７は、翻訳制御部１０３が、ジェスチャー認識ＤＢ１０６を参照して、ある程度の動作を認識すると、その意味を解釈するためのデータベースである。ここには動作のパターンとその意味（意図）とが対応付けて記述されることになる。これも一般的なジェスチャー解析のためのデータベースである。

文字翻訳ＤＢ１０８は、意図解釈ＤＢ１０７で解釈される意味を一般的な文章に翻訳するためのデータベースである。例えば、「自分」を指し示し、それが主語であると意図解釈ＤＢ１０７を用いて解釈されると、「私は」というように翻訳するためのデータベースである。このデータベースも、ジェスチャー翻訳における一般的なデータベースである。

画像表示部１０９は、翻訳制御部１０３において翻訳された翻訳結果や、修正制御部１０５により修正された翻訳結果を表示する部分である。

このように構成された画像認識装置１００は、さらに、タブレット型の携帯端末であるとすると、背面側（画像表示部１０９の反対側の面）にカメラであるジェスチャー入力部１０１が配置されている。そして、そのジェスチャー入力部１０１により撮影対象者が撮影され、翻訳エンジン部１０２により翻訳され、画像表示部１０９にその翻訳結果が表示される。

この画像認識装置１００を保持しているユーザ（健常者などで、手話を理解できない人）は、その翻訳結果を撮影対象者（手話者）に向けて、確認させる。撮影対象者は修正したい場合には、再度、ジェスチャー入力部１０１側をユーザに向けてもらい、所定の修正指示を行うことができる。

なお、画像認識装置１００の両面（表面および背面）に画像表示部１０９を配置し、背面側にジェスチャー入力部１０１を配置することにより、ユーザは、画像認識装置１００の向きを変えること必要がなくなる。

つぎに、このように構成された画像認識装置１００による手話の翻訳処理について説明する。図６は、画像認識装置１００の手話の翻訳処理を示すフローチャートである。

撮影対象となる手話者の手話動作が、ジェスチャー入力部１０１により撮影され、入力される（Ｓ１０１）。撮影された手話動作は、翻訳制御部１０３により翻訳されるとともに（Ｓ１０２）、パラメータ生成部１０４により、翻訳制御部１０３により認識された手話の動作に基づいて動作パラメータ（第1の動作パラメータ）が生成され、一時記憶される（Ｓ１０３）。これら手話の一連の動作、すなわち一文が終了するまで行われる（Ｓ１０４）。ここで一文が終了、すなわち、一連の手話動作終了後、所定時間手話動作がないと、翻訳制御部１０３により判断されると、画像表示部１０９に翻訳結果が表示される（Ｓ１０５）。

ここで、修正指示が受け付けられると、修正処理が開始される（Ｓ１０６）。例えば、修正指示としては、手話者やその他のユーザによる所定の修正ボタン（図示せず）などの押下が制御部（図示せず）により検知されたり、手話者による所定のジェスチャー（修正指示を示すもの）が翻訳制御部１０３により認識されることなどが考えられる。

そして、手話者やほかのユーザにより修正指示がなされると、ジェスチャー入力部１０１により、手話者の動作の撮影が開始される（Ｓ１０７）。そして、上述の修正指示前の撮影処理および翻訳処理と同様に、翻訳制御部１０３による翻訳処理が行われ（Ｓ１０８）、パラメータ生成部１０４により動作パラメータ（第２の動作パラメータ）が生成され、記憶される（Ｓ１０９）。ここで、修正指示後の動作パラメータと修正指示前の動作パラメータとが一致する動作、または所定の一致度をもった動作（手話文節）が、パラメータテーブルに記憶されているか否かが、修正制御部１０５により判断される（Ｓ１１０）。

修正指示後の動作パラメータと修正指示前の動作パラメータが一致する動作、または所定の一致度をもった動作が、パラメータテーブルに記憶されている場合、修正制御部１０５により、修正指示後の動作パラメータを構成する動作の翻訳結果に、修正指示前の動作パラメータを構成する動作の翻訳結果を置き換える処理が行われる（Ｓ１１１）。そして、画像表示部１０９にその置き換えられた全翻訳結果が表示される（Ｓ１１１）。翻訳制御部１０３により、次の入力処理があると判断されると、再度撮影処理や翻訳処理などが繰り返し行われる（Ｓ１１２）。なお、Ｓ１１０において、Ｓ１０７に戻る処理が行われているが、これに限らず、一致する文節がない場合には、エラーとしてもよい。

これにより、手話を理解できない人は、手話者からの伝達事項を正しく理解することができる。そして、次の入力がある場合には、Ｓ１０１に戻り、繰り返し、手話の翻訳処理およびその修正処理が行われる。

なお、Ｓ１１０において、修正制御部１０５は、それぞれの動作パラメータが一致するかまたはその一致度が所定値以上であることを判断することにより、修正対象となる動作を特定しているが、これに限るものではない。すなわち、それぞれの動作パラメータに優先順位をつけるたり、重みづけをしたりして、動作パラメータごとの一致度の判断に強弱をつけるようにしてもよい。例えば、動作パラメータＰ１が重要である場合には、他の動作パラメータが一致していたとしても、動作パラメータＰ１が一致していない場合には、一致度の所定条件を満たしていないなどの判断処理を行うようにしてもよい。

また、修正指示前と修正指示後とでそれぞれの動作パラメータが一致していた場合に、１を加算することが通常とした場合、重要な動作パラメータについては、所定係数をかけたものとすることにより、重み付け処理をするようにしてもよい。

つぎに、図７における翻訳処理の変形例について説明する。図７は、変形例における翻訳処理を示すフローチャートである。この変形例においては、動作パラメータとして、動作の時間を含んだ点で上述図６とは異なっている。

図７に示される通り、ジェスチャー入力部１０１により、手話動作が撮影され、翻訳制御部１０３により翻訳されると（Ｓ１０１、Ｓ１０２）、パラメータ生成部１０４により動作パラメータ（第1の動作パラメータ）が生成されるとともに、パラメータ生成部１０４により、各手話の動作毎（いわゆる手話文節ごと）の時間が計測され、パラメータテーブルに記憶される（Ｓ１０３ａ）。そして、翻訳結果が画像表示部１０９に表示され（Ｓ１０５）、修正指示がなされると（Ｓ１０６）、再度手話動作が撮影され、翻訳される（Ｓ１０７、Ｓ１０８）。ここでも、パラメータ生成部１０４により、修正指示後の動作パラメータ（第２の動作パラメータ）が生成されるとともに、その動作毎（いわゆる手話文節ごと）の時間が計測され、パラメータテーブルに記憶される（Ｓ１０９ａ）。そして、修正指示後および修正指示前におけるそれぞれの動作パラメータが一致する動作、または所定の一致度がある動作（手話文節）がある場合には（Ｓ１１０）、その動作に対応する翻訳結果を、修正指示後の動作の翻訳結果に置き換える処理が行われ、画像表示部１０９に表示される（Ｓ１１１）。そして、手話の入力がある限り、これら処理が繰り返し行われる（Ｓ１１２）。なお、Ｓ１１０において、Ｓ１０７に戻る処理が行われているが、これに限らず、一致する文節がない場合には、エラーとしてもよい。

このように手話動作の時間を動作パラメータの一つとすることで、より正確な一致度の判定を行うことができる。

つぎに、別の変形例について説明する。図８は、この変形例における画像認識装置１００ａの機能構成を示すブロック図である。この変形例においては、手話者は修正指示をあらかじめ行うことなく、自動的に画像認識装置１００ａにて修正指示があったものか否かを判断することができる。その処理を実現するためには、この画像認識装置１００ａは、修正制御部１０５ａおよびそれに内蔵されるタイマー１０５ｂを、修正制御部１０５に代えて備えている。

この修正制御部１０５ａは、画像表示部１０９が翻訳結果を一旦表示した後、ジェスチャー入力部１０１が手話者の撮影を行うように制御するとともに、タイマー１０５ｂの計測を開始させる。そして、ジェスチャー入力部１０１において取得された手話者の動作を翻訳制御部１０３が翻訳するとともに、パラメータ生成部１０４がその動作に対する動作パラメータを生成すると、タイマー１０５ｂの計測処理を停止させる。そして、修正制御部１０５ａが、タイマー１０５ｂにより計測された翻訳処理時間およびパラメータ生成時間が所定時間内で終了したと判断した場合には、再取得した動作に対する動作パラメータの一致度に応じて、修正処理を実行することができる。なお、動作パラメータの比較処理については上述のとおり各動作パラメータに重み付けをしたり、優先順位をつけるようにしてもよい。

なお、上述の実施形態と同様に、修正するごとに、この画像認識装置１００ａの画像表示部１０９が配置されている側の手話者に向けて、その翻訳結果を確認させるとともに、確認後再度ジェスチャー入力部１０１側を手話者に向けて、継続した手話の翻訳か、またはその修正か判断するようにしてもよい。また、画像認識装置１００ａの両面に画像表示部１０９を配置してもよい。

図９は、その具体的な処理を示すフローチャートである。撮影対象となる手話者の手話動作が、ジェスチャー入力部１０１により撮影され、入力される（Ｓ２０１）。撮影された手話動作は、翻訳制御部１０３により翻訳されるとともに（Ｓ２０２）、パラメータ生成部１０４により、翻訳制御部１０３により認識された手話の動作に基づいて動作パラメータ（第1の動作パラメータ）が生成され、一時記憶される（Ｓ２０３）。これら手話の一連の動作、すなわち一文が終了するまで行われる（Ｓ２０４）。ここで一文が終了、すなわち、所定時間手話動作がないと、翻訳制御部１０３により判断されると、画像表示部１０９に翻訳結果が表示される（Ｓ２０５）。

そして、ジェスチャー入力部１０１により、手話者の撮影が再開され（Ｓ２０６）、手話動作時間の計測のためのタイマー１０５ｂの計測が開始される（Ｓ２０７）。ここでは、このタイマー１０５ｂは、修正制御部１０５ａ内に内蔵されているものとするが、特にこれに限定するものではない。翻訳制御部１０３により、ジェスチャー入力部１０１により入力された手話者の動作に基づいて翻訳が行われる（Ｓ２０８）。この翻訳とともに、パラメータ生成部１０４により、手話者の動作に基づいた動作パラメータ（第２の動作パラメータ）が生成される（Ｓ２０９）。動作パラメータが生成されると、手話動作時間の計測のためのタイマー１０５ｂによる計測処理が停止され、その計測時間が所定時間内か否かが、修正制御部１０５ａにより判断される（Ｓ２１０）。

ここで、再度取得された動作（手話文節）に基づいて生成された動作パラメータが、先に取得された動作に基づいて生成された動作パラメータと一致する、またはその一致度が所定条件を満たしていると（Ｓ２１１）、修正制御部１０５により、判断されると、再度取得された手話者の動作は、次の手話のための動作ではなく、修正のための動作であると判断することができる。なお、Ｓ２１１において、一致するものがない場合には、Ｓ２０６に戻る処理が行われているが、これに限らず、一致する文節がない場合には、エラーとしてもよい。

そして、一致するまたは一致度が所定条件を満たしている動作パラメータに対応する動作の翻訳結果を置き換える処理が、修正制御部１０５により行われ、画像表示部１０９に表示される（Ｓ２１２）。そして、これら処理が、ジェスチャー入力がある限り繰り返し行われる（Ｓ２１３）。

このように、修正指示などの具体的な指示を手話者や他のユーザが行うことなく、自動的に修正を行うことができ、使い勝手の良い手話翻訳のための画像認識装置を提供することができる。

上述実施形態および変形例においては、画像認識装置１００の中に、ジェスチャー認識ＤＢ１０６、意図解釈ＤＢ１０７、および文字翻訳ＤＢ１０８を含み、その装置単体で機能するものであるが、これに限るものではない。これら各種ＤＢは、ネットワークを介して接続されるサーバに備えられ、画像認識装置１００ｂは、このサーバの各種ＤＢにアクセスすることにより翻訳処理を行うようにしてもよい。

図１０は、その具体的な構成を示すブロック図である。図１０に示される通り、画像認識装置１００ｂは、ジェスチャー入力部１０１、翻訳エンジン部１０２、画像表示部１０９、および通信制御部１１０を含んで構成されている。翻訳エンジン部１０２は、上述実施形態と同様に、翻訳制御部１０３、パラメータ生成部１０４、および修正制御部１０５を含んで構成されている。

翻訳エンジン部１０２は、ジェスチャー入力部１０１から手話者の動作を含んだ画像データが入力されると、通信制御部１１０を介してサーバ２００のジェスチャー認識ＤＢ２０６、意図解釈ＤＢ２０７、および文字認識ＤＢ２０８に対してアクセスして、翻訳処理を行う。

画像表示部１０９は、翻訳エンジン部１０２により翻訳された翻訳結果を表示する。

修正処理を行う場合には、ジェスチャー入力部１０１は、再度手話者の動作を含んだ画像データを入力し、翻訳エンジン部１０２は、この画像データに対する翻訳処理を行う。

サーバ２００は、ジェスチャー認識ＤＢ２０６、意図解釈ＤＢ２０７、および文字認識ＤＢ２０８を有しており、画像認識装置１００ｂや、その他通信端末１００ｘ〜１００ｚからの翻訳要求を受け付けた場合、各ＤＢに対する参照を許可するように構成されている。

つぎに、本実施形態および各変形例における画像認識装置１００、１００ａ、および１００ｂの作用効果について説明する。

本実施形態の画像認識装置１００によれば、翻訳制御部１０３は、ジェスチャー入力部１０１により入力された撮影対象の動作に対する翻訳を行うとともに、パラメータ生成部１０４は、修正指示前の動作パラメータである第１の動作パラメータを生成して、画像表示部１０９は翻訳結果を出力する。その後、ジェスチャー入力部１０１は、修正のための撮影対象の動作を含んだ画像データを再度取得する。そして、翻訳制御部１０３は、再度取得された撮影対象の動作に対する翻訳を行うとともに、パラメータ生成部１０４は、修正指示後の動作パラメータであって、再度取得された撮影対象の動作の第２の動作パラメータを生成する。

修正制御部１０５は、この第２の動作パラメータを、動作毎に定められた第１の動作パラメータのそれぞれと比較し、この比較の結果が所定の条件を満たした第１の動作パラメータに対応する動作の翻訳結果を、第２の動作パラメータの動作の翻訳結果に置き換えて修正して、画像表示部１０９は、修正された翻訳結果を出力する。

なお、変形例における画像認識装置１００ａも同様の作用効果を奏する。

また、本実施形態の画像認識装置１００または変形例における画像認識装置１００ａによれば、翻訳制御部１０３は、撮影対象である手話者が修正指示を示す動作をした場合、それを認識すると、ジェスチャー入力部１０１は、修正のための画像データの取得処理を実行する。これにより、修正指示のためのボタンなどの物理的な構成を必要とすることなく、修正指示を実行することができる。さらに、動作により修正を指示するため、撮影対象が近くにいる必要がなく、その使い勝手をよくすることができる。

また、変形例の画像認識装置１００ａによれば、修正制御部１０５は、あらかじめ定めた条件を満たした場合、第２の動作パラメータを、動作毎に定められた第１の動作パラメータのそれぞれと比較することで、修正対象となる動作を把握することができる。よって、その条件を満たしていない場合には、比較処理を行わず、その結果、通常の翻訳処理を行うことになる。

例えば、あらかじめ定めた条件として、翻訳結果の出力後、画像取得から第２の動作パラメータ生成までの時間が所定時間以内であることが考えられる。変形例における画像認識装置１００ａにおいて、タイマー１０５ｂが、その時間を計測し、修正制御部１０５ａがタイマー１０５ｂによる計測時間が所定時間内であると判断する場合には、修正処理を実行する。

すなわち、その動作に基づいた処理が所定時間以内、すなわちその動作が短い、ということは、一連の動作による意思伝達ではなく、ある一動作の修正をすることであると判断することができる。よって、そのような場合には、修正指示を判断し、修正対象のための各動作パラメータの比較処理を実行することで、その処理を自動的に行うことができる。

また、本実施形態の画像認識装置１００または変形例における画像認識装置１００ａによれば、パラメータ生成部１０４は、画像データの撮影対象の動作毎の、当該動作の始まりから終わりまでの時間を計測し、撮影対象の動作を示す動作パラメータに加えて、当該動作毎の時間を動作パラメータとして生成する。これにより、動作パラメータは動作のみならず、その動作を構成する時間を加味することができ、修正対象となる動作の一致度を判断する際に、より正確に行うことができる。

なお、上述は、画像認識装置１００および１００ａについての作用効果について記載したが、画像認識装置１００ｂにおいても、同様の作用効果を奏するものである。なお、画像認識装置１００ｂにおいては、ネットワーク側に翻訳のためのデータベースを持たせるため、祖内側の負担を軽減することができる。

１００、１００ａ、１００ｂ…画像認識装置、１０１…ジェスチャー入力部、１０２…翻訳エンジン部、１０３…翻訳制御部、１０４…パラメータ生成部、１０５…修正制御部、１０５ａ…修正制御部、１０５ｂ…タイマー、１０９…画像表示部、１１０…通信制御部、１０６…ジェスチャー認識ＤＢ、１０７…意図解釈ＤＢ、１０８…文字翻訳ＤＢ、２０６…ジェスチャー認識ＤＢ、２０７…意図解釈ＤＢ、２０８…文字認識ＤＢ。

Claims

撮影対象を画像データにして取得する画像取得手段と、
前記画像取得手段により取得された画像データに含まれる撮影対象の動作に対して、当該動作毎に翻訳を行う画像翻訳手段と、
前記画像取得手段により取得された画像データに含まれる撮影対象の動作を示す第１の動作パラメータを、前記動作毎に生成する生成手段と、
画像翻訳手段により翻訳された撮影対象の動作の翻訳結果を出力する結果出力手段と、
前記結果出力手段により出力された翻訳結果を修正する修正制御手段と、
を備え、
前記画像取得手段は、前記結果出力手段により翻訳結果が出力された後、修正のための撮影対象の動作を含んだ画像データを再度取得し、
前記画像翻訳手段は、前記画像取得手段により再度取得された撮影対象の動作に対する翻訳を行い、
前記生成手段は、前記画像取得手段により再度取得された撮影対象の動作の第２の動作パラメータを生成し、
前記修正制御手段は、前記第２の動作パラメータを、動作毎に定められた前記第１の動作パラメータのそれぞれと比較し、この比較の結果が所定の条件を満たした第１の動作パラメータに対応する動作の翻訳結果を、前記第２の動作パラメータの動作の翻訳結果に置き換えて修正し、
前記結果出力手段は、前記修正制御手段により修正された翻訳結果を出力する、
画像認識装置。
前記画像翻訳手段が修正指示を示す動作を認識すると、前記画像取得手段は修正のための画像データの取得処理を実行する、
請求項１に記載の画像認識装置。
前記修正制御手段は、あらかじめ定めた条件を満たした場合、前記第２の動作パラメータを、動作毎に定められた前記第１の動作パラメータのそれぞれと比較する
請求項１に記載の画像認識装置。
前記修正制御手段は、前記あらかじめ定めた条件として、前記結果出力手段による翻訳結果の出力後、前記画像取得手段による画像取得から前記画像翻訳手段による第２の動作パラメータ生成までの時間が所定時間以内である場合に、前記第１の動作パラメータと前記第２の動作パラメータとの比較処理を行う、
請求項３に記載の画像認識装置。
前記修正制御手段は、前記あらかじめ定めた条件として、修正指示のための操作を受け付けた場合に、前記第１の動作パラメータと前記第２の動作パラメータとの比較処理を行う、
請求項３に記載の画像認識装置。
画像取得手段により取得された画像データの撮影対象の動作毎の、当該動作の始まりから終わりまでの時間を計測する計測手段をさらに備え、
前記生成手段は、撮影対象の動作を示す動作パラメータに加えて、前記動作毎の時間を動作パラメータとして生成する
請求項１から５のいずれか一項に記載の画像認識装置。
撮影対象の動作を認識する画像認識装置において、
撮影対象を画像データにして取得する画像取得ステップと、
前記画像取得ステップにより取得された画像データに含まれる撮影対象の動作に対して、当該動作毎に翻訳を行う画像翻訳ステップと、
前記画像取得ステップにより取得された画像データに含まれる撮影対象の動作を示す第１の動作パラメータを、前記動作毎に生成する生成ステップと、
画像翻訳ステップにより翻訳された撮影対象の動作の翻訳結果を出力する結果出力ステップと、
前記結果出力ステップにより出力された翻訳結果を修正する修正制御ステップと、
を備え、
前記画像取得ステップは、前記結果出力ステップにより翻訳結果が出力された後、修正のための撮影対象の動作を含んだ画像データを再度取得し、
前記画像翻訳ステップは、前記画像取得ステップにより再度取得された撮影対象の動作に対する翻訳を行い、
前記生成ステップは、前記画像取得ステップにより再度取得された撮影対象の動作の第２の動作パラメータを生成し、
前記修正制御ステップは、前記第２の動作パラメータを、動作毎に定められた前記第１の動作パラメータのそれぞれと比較し、この比較の結果が所定の条件を満たした第１の動作パラメータに対応する動作の翻訳結果を、前記第２の動作パラメータの動作の翻訳結果に置き換えて修正し、
前記結果出力ステップは、前記修正制御ステップにより修正された翻訳結果を出力する、
画像認識方法。