JP6177655B2 - 画像認識装置および画像認識方法 - Google Patents

画像認識装置および画像認識方法 Download PDF

Info

Publication number
JP6177655B2
JP6177655B2 JP2013214186A JP2013214186A JP6177655B2 JP 6177655 B2 JP6177655 B2 JP 6177655B2 JP 2013214186 A JP2013214186 A JP 2013214186A JP 2013214186 A JP2013214186 A JP 2013214186A JP 6177655 B2 JP6177655 B2 JP 6177655B2
Authority
JP
Japan
Prior art keywords
translation
image
parameter
result
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013214186A
Other languages
English (en)
Other versions
JP2015075750A (ja
Inventor
▲高▼橋 誠
誠 ▲高▼橋
渋谷 彰
彰 渋谷
小林 茂子
茂子 小林
雄太 樋口
雄太 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013214186A priority Critical patent/JP6177655B2/ja
Publication of JP2015075750A publication Critical patent/JP2015075750A/ja
Application granted granted Critical
Publication of JP6177655B2 publication Critical patent/JP6177655B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)

Description

本発明は、撮影対象者の動作を認識する画像認識装置および画像認識方法に関する。
一般的に、ジェスチャーや手話などを画像認識により翻訳する装置が知られている。このような装置においては、誤認識することが考えられることから、その修正を行うことが必要である。例えば、特許文献1に記載されているように、入力された手話の翻訳の結果、得られた候補をすべて表示し、それらを入力者がマウス等を用いて選択することができる装置が知られている。この特許文献1によれば、正しい翻訳結果を得ることができる。
特開平6−337627号公報
しかしながら、特許文献1に記載されている技術では、手話の認識結果を正しいものにするため、マウスなどのデバイスが必要となり、またその操作に手間のかかるものである。
そこで、本発明においては、手話やジェスチャーなどの撮影対象の翻訳結果を簡単な操作で修正することができる画像認識装置および画像認識方法を提供することを目的とする。
上述の課題を解決するために、本発明の画像認識装置は、撮影対象を画像データにして取得する画像取得手段と、前記画像取得手段により取得された画像データに含まれる撮影対象の動作に対して、当該動作毎に翻訳を行う画像翻訳手段と、前記画像取得手段により取得された画像データに含まれる撮影対象の動作を示す第1の動作パラメータを、前記動作毎に生成する生成手段と、画像翻訳手段により翻訳された撮影対象の動作の翻訳結果を出力する結果出力手段と、前記結果出力手段により出力された翻訳結果を修正する修正制御手段と、を備え、前記画像取得手段は、前記結果出力手段により翻訳結果が出力された後、修正のための撮影対象の動作を含んだ画像データを再度取得し、前記画像翻訳手段は、前記画像取得手段により再度取得された撮影対象の動作に対する翻訳を行い、前記生成手段は、前記画像取得手段により再度取得された撮影対象の動作の第2の動作パラメータを生成し、前記修正制御手段は、前記第2の動作パラメータを、動作毎に定められた前記第1の動作パラメータのそれぞれと比較し、この比較の結果が所定の条件を満たした第1の動作パラメータに対応する動作の翻訳結果を、前記第2の動作パラメータの動作の翻訳結果に置き換えて修正し、前記結果出力手段は、前記修正制御手段により修正された翻訳結果を出力するように構成されている。
また、本発明の画像認識方法において、撮影対象の動作を認識する画像認識装置において、撮影対象を画像データにして取得する画像取得ステップと、前記画像取得ステップにより取得された画像データに含まれる撮影対象の動作に対して、当該動作毎に翻訳を行う画像翻訳ステップと、前記画像取得ステップにより取得された画像データに含まれる撮影対象の動作を示す第1の動作パラメータを、前記動作毎に生成する生成ステップと、画像翻訳ステップにより翻訳された撮影対象の動作の翻訳結果を出力する結果出力ステップと、前記結果出力ステップにより出力された翻訳結果を修正する修正制御ステップと、を備え、前記画像取得ステップは、前記結果出力ステップにより翻訳結果が出力された後、修正のための撮影対象の動作を含んだ画像データを再度取得し、前記画像翻訳ステップは、前記画像取得ステップにより再度取得された撮影対象の動作に対する翻訳を行い、前記生成ステップは、前記画像取得ステップにより再度取得された撮影対象の動作の第2の動作パラメータを生成し、前記修正制御ステップは、前記第2の動作パラメータを、動作毎に定められた前記第1の動作パラメータのそれぞれと比較し、この比較の結果が所定の条件を満たした第1の動作パラメータに対応する動作の翻訳結果を、前記第2の動作パラメータの動作の翻訳結果に置き換えて修正し、前記結果出力ステップは、前記修正制御ステップにより修正された翻訳結果を出力する。
この発明によれば、撮影対象の動作に対する翻訳を行うとともに、第1の動作パラメータを生成して、翻訳結果を出力し、その後、修正のための撮影対象の動作を含んだ画像データを再度取得する。そして、再度取得された撮影対象の動作に対する翻訳を行うとともに、再度取得された撮影対象の動作の第2の動作パラメータを生成する。この第2の動作パラメータを、動作毎に定められた第1の動作パラメータのそれぞれと比較し、この比較の結果が所定の条件を満たした第1の動作パラメータに対応する動作の翻訳結果を、第2の動作パラメータの動作の翻訳結果に置き換えて修正して、翻訳結果を出力する。
これにより、修正対象を指定することなく、修正処理を行うことができる。特に、その修正対象を指定するための処理構成を備える必要がなく、その構成を簡易にするとともに、コストを低減することができる。
また、本発明の画像認識装置において、前記画像翻訳手段が修正指示を示す動作を認識すると、前記画像取得手段は修正のための画像データの取得処理を実行する。
この発明によれば、撮影対象が修正指示を示す動作をした場合、それを認識することで修正のための画像データの取得処理を実行する。これにより、修正指示のためのボタンなどの物理的な構成を必要とすることなく、修正指示を実行することができる。さらに、動作により修正を指示するため、撮影対象が近くにいる必要がなく、その使い勝手をよくすることができる。
また、本発明の画像認識装置において、前記修正制御手段は、あらかじめ定めた条件を満たした場合、前記第2の動作パラメータを、動作毎に定められた前記第1の動作パラメータのそれぞれと比較する。
また、本発明の画像認識装置において、前記修正制御手段は、前記あらかじめ定めた条件として、前記結果出力手段による翻訳結果の出力後、前記画像取得手段による画像取得から前記画像翻訳手段による第2の動作パラメータ生成までの時間が所定時間以内である場合に、動作パラメータの比較処理を行う。
また、本発明の画像認識装置において、前記修正制御手段は、前記あらかじめ定めた条件として、修正指示のための操作を受け付けた場合に、動作パラメータの比較処理を行う。
この発明によれば、あらかじめ定めた条件を満たした場合、第2の動作パラメータを、動作毎に定められた前記第1の動作パラメータのそれぞれと比較することで、修正対象となる動作を把握することができる。よって、その条件を満たしていない場合には、比較処理を行わず、その結果、通常の翻訳処理を行うことになる。
例えば、あらかじめ定めた条件として、翻訳結果の出力後、画像取得から第2の動作パラメータ生成までの時間が所定時間以内であることが考えられる。この場合には、その動作に基づいた処理が所定時間以内、すなわちその動作が短いということは、一連の動作による意思伝達ではなく、ある一動作の修正をすることであると判断することができる。よって、そのような場合には、修正指示を判断し、修正対象のための各動作パラメータの比較処理を実行することで、その処理を自動的に行うことができる。
なお、このあらかじめ定めた条件としては、上述の通りすべてを自動的に行うことのほか、修正指示は物理的なボタンや、タッチパネルのボタンなどによる指示を受け付けることもできる。
また、本発明の画像認識装置は、画像取得手段により取得された画像データの撮影対象の動作毎の、当該動作の始まりから終わりまでの時間を計測する計測手段をさらに備え、前記生成手段は、撮影対象の動作を示す動作パラメータに加えて、前記動作毎の時間を動作パラメータとして生成する。
この発明によれば、画像データの撮影対象の動作毎の、当該動作の始まりから終わりまでの時間を計測し、撮影対象の動作を示す動作パラメータに加えて、当該動作毎の時間を動作パラメータとして生成する。これにより、パラメータは動作のみならず、その動作を構成する時間を加味することができ、修正対象となる動作の一致度を判断する際に、より正確に行うことができる。
本発明によれば、修正対象を指定することなく、修正処理を行うことができる。特に、その修正対象を指定するための処理構成を備える必要がなく、その構成を簡易にするとともに、コストを低減することができる。
本実施形態の画像認識装置100の機能を示すブロック図である。 画像認識装置100のハードウェア構成図である。 手話者の動作を示す動作パラメータを説明するための図である。 手話者の動作とその翻訳結果を模式的に示した説明図である。 動作パラメータを記述するパラメータテーブルを示す説明図である。 画像認識装置100の手話の翻訳処理を示すフローチャートである。 動作パラメータとして動作時間を考慮した変形例における翻訳処理を示すフローチャートである。 変形例における画像認識装置100aの機能構成を示すブロック図である。 修正指示を明示的に行わない変形例における翻訳処理を示すフローチャートである。 ネットワーク先のデータベースにアクセスする構成を有する画像認識装置100bおよびサーバ200の機能構成を示すブロック図である。
添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
図1は、本実施形態の画像認識装置100の機能を示すブロック図である。この画像認識装置100は、手話者などのジェスチャーをテキストやイメージなどに翻訳するための装置であり、ジェスチャー入力部101(画像取得手段)、翻訳エンジン部102、画像表示部109(結果出力手段)、および通信制御部110を含んで構成されている。さらに、翻訳エンジン部102は、翻訳制御部103(画像翻訳手段)、パラメータ生成部104(生成手段)、修正制御部105(修正制御手段)、ジェスチャー認識DB106、意図解釈DB107、および文字翻訳DB108を含んで構成されている。この画像認識装置100は、例えば、携帯端末やスマートフォンなどの携帯端末であることが好適である。
図2は、画像認識装置100のハードウェア構成図である。図1に示される画像認識装置100は、物理的には、図2に示すように、一または複数のCPU11、主記憶装置であるRAM12及びROM13、入力デバイスであるキーボード及びマウス等の入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、半導体メモリ等の補助記憶装置17などを含むコンピュータシステムとして構成されている。図1における各機能は、図2に示すCPU11、RAM12等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御のもとで入力装置14、出力装置15、通信モジュール16を動作させるとともに、RAM12や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。以下、図1に示す機能ブロックに基づいて、各機能ブロックを説明する。
ジェスチャー入力部101は、手話者などの撮影対象者の動作を画像として取得する部分であり、例えばカメラである。
翻訳エンジン部102は、ジェスチャー入力部101により取得された撮影対象者の動作に基づいて、手話を理解できない人に対して理解しやすいようにしたテキストまたはイメージに翻訳する部分である。この翻訳エンジン部102は、上述した通り、翻訳制御部103、パラメータ生成部104、修正制御部105、ジェスチャー認識DB106、意図解釈DB107、および文字翻訳DB108を含んだものである。この構成要素についてさらに詳述する。
翻訳制御部103は、ジェスチャー入力部101で取得された手話者の動作を含んだ画像データを、ジェスチャー認識DB106、意図解釈DB107、および文字翻訳DB108を参照して、テキストやイメージに翻訳する部分である。なお、翻訳制御部103は、テキストなどの翻訳処理のほか、手話者の動作が修正指示などの制御のための動作であるか否かを認識することができる。
パラメータ生成部104は、ジェスチャー入力部101で取得された手話者の動作を含んだ画像データから、当該動作を示す一または複数の動作パラメータを生成する部分である。この動作パラメータは、例えば図3に示されるものが挙げられる。
図3は、手話者の動作を示す動作パラメータを説明するための図である。図3(a)は、動作パラメータとその具体例を示す。図3(a)から明らかなとおり、この動作パラメータは、指の動作、指の数、掌の動作、左右方向の手の動作、上下方向の手の動作、手の回転動作の有無、および手の位置から構成される。各動作パラメータの内容は以下の通りである。
指の動作:一動作の中で,指の本数に変化があったか(変化の有無,0か1か)
指の数:一動作の中で,指の本数が何本だったか(何本の状態が一番多かったか,0〜5)
掌の動作:一動作の中で,掌の反転変化があったか(変化の有無,0か1か)
左右方向の手の動作:一動作の中で,左右方向の移動変化があったか(右→左,右←左,右←→左,なし,の0〜3)
上下方向の手の動作2:一動作の中で,上下方向の移動変化があったか(上→下,上←下,上⇔下,なし,の0〜3 )
手の回転動作:一動作の中で,回転方向の移動変化があったか(変化の有無,0か1か)
手の位置:一動作の中で,手は主にどの位置にあったか(顔の前,首の前,身体の前,の0〜2)
図3(b)は、「素直」を手話で表現した動作を示している。ここでは、両手で指文字の”も”を作り、その指先を胸にあてて同時に上下に引き離す動作を示している。この場合、指の動作や、指の数等は、0である。一方、手は上下方向に動いているため、「上下方向の手の動作」は、3で表される。また、手の位置は、体の前にあるため、2で表される。
同様に、図3(c)は、「心配」を手話で表現した動作を示している。ここでは、両手の指先で旨を2回叩く動作を示している。この場合、指の数は、5本認識されるため、5で表される。また、手の位置は、体の前にあるため、2で表される。
このようにして、指や手の動作・位置を翻訳制御部103が認識することにより、それに基づいてパラメータ生成部104は、各動作パラメータを生成することができる。
図4は、手話者の動作とその翻訳結果を模式的に示した説明図である。図4(a)〜図4(g)では、一連の手話の動作によって、「羨ましい、私は3日間しか休めないの」を表している。これは上述の翻訳制御部103による翻訳制御に基づいて得られた翻訳結果である。
パラメータ生成部104は、このような手話の一連の動作から各動作の動作パラメータを生成することができる。図5は、パラメータ生成部104により生成された動作パラメータを記述するパラメータテーブルを示す説明図である。図5に示される通り、動作パラメータP1〜P7からなるパラメータセットで、各手話の動作毎に対応付けがなされている。例えば、「羨ましい」は、動作パラメータP2と動作パラメータP5とにおいて1が付与されている。これをパラメータ生成部104は、手話者が手話の一連の動作をすると、翻訳制御部103において認識された手話者の各動作に基づいて各動作パラメータP1〜P7からなるパラメータセットを生成する。なお、図5においては、オプションとして手話動作時間tも、一動作パラメータとして、各動作に対応付けられることも考えられる。これは一連の動作における動作毎にその動作時間が、パラメータ生成部104(計測手段)により計測されたものであり、動作パラメータを用いた一致度の計算において用いられる。
修正制御部105は、翻訳制御部103で翻訳された翻訳結果を修正する部分である。より詳しくは、修正制御部105は、あらかじめ定めた条件を満たしている場合に、修正指示前のパラメータ生成部104により生成された動作パラメータ(第1の動作パラメータ)と、修正指示後においてパラメータ生成部104により生成された動作パラメータ(第2の動作パラメータ)とを比較して、修正指示後における動作パラメータとの比較結果が所定条件を満たす修正指示前の動作パラメータに対応する動作の翻訳結果を、修正指示後の動作パラメータの動作の翻訳結果に置き換える修正を行う部分である。例えば、修正制御部105は、その一致度が所定値以上である場合に、修正処理を行うことができる。
図3を用いて説明する。図3(b)と図3(c)とにおいて、手話者の手話動作はよく似ている。図3(a)に示される通り、各動作パラメータにおいて、指の動作等は一致しているが、指の数や、上下方向の手の動作などが相違している。修正制御部105は、これら各動作パラメータに基づいて類似度71.4%(5/7)を算出することができ、この類似度が最も高い動作の翻訳結果を修正対象として判断することができる。
このような修正対象の判断手法の適用例を、図4を用いて説明する。図4は、手話の動作、その動作毎の翻訳結果を示す説明図である。図4(a)〜図4(g)で示される通り、手話者は、7つからなる動作をしている。ここで、図4(c)および図4(d)では、「3日間」と表現している部分がある。この“3”の部分を、例えば“4”に修正したい場合、ユーザは、修正指示をしてから4本指を示した動作をすることになる。翻訳制御部103は、これを認識し、そしてパラメータ生成部104は、この“4”を示す動作パラメータ(第2の動作パラメータ)を生成する。修正制御部105は、この“4”を示す動作パラメータと一致度の高い動作パラメータ(第1の動作パラメータ)を、図4で示される一連の動作から探索し、所定の類似度の動作パラメータ(第1の動作パラメータ)を持つ動作の翻訳結果を、修正後の翻訳結果に置き換える処理を行う。ここでは、図4(c)で示される“3”は、“4”と一致度が高いため(指の数のみが異なっているため)、“3”という翻訳結果を“4”という翻訳結果に置き換える処理を行うことになる。
図1に戻り引き続きブロック図について説明する。ジェスチャー認識DB106は、手話者の動作を翻訳制御部103に認識させるための動作のパターンを記述するデータベースである。これはジェスチャー認識のための一般的なデータベースである。
意図解釈DB107は、翻訳制御部103が、ジェスチャー認識DB106を参照して、ある程度の動作を認識すると、その意味を解釈するためのデータベースである。ここには動作のパターンとその意味(意図)とが対応付けて記述されることになる。これも一般的なジェスチャー解析のためのデータベースである。
文字翻訳DB108は、意図解釈DB107で解釈される意味を一般的な文章に翻訳するためのデータベースである。例えば、「自分」を指し示し、それが主語であると意図解釈DB107を用いて解釈されると、「私は」というように翻訳するためのデータベースである。このデータベースも、ジェスチャー翻訳における一般的なデータベースである。
画像表示部109は、翻訳制御部103において翻訳された翻訳結果や、修正制御部105により修正された翻訳結果を表示する部分である。
このように構成された画像認識装置100は、さらに、タブレット型の携帯端末であるとすると、背面側(画像表示部109の反対側の面)にカメラであるジェスチャー入力部101が配置されている。そして、そのジェスチャー入力部101により撮影対象者が撮影され、翻訳エンジン部102により翻訳され、画像表示部109にその翻訳結果が表示される。
この画像認識装置100を保持しているユーザ(健常者などで、手話を理解できない人)は、その翻訳結果を撮影対象者(手話者)に向けて、確認させる。撮影対象者は修正したい場合には、再度、ジェスチャー入力部101側をユーザに向けてもらい、所定の修正指示を行うことができる。
なお、画像認識装置100の両面(表面および背面)に画像表示部109を配置し、背面側にジェスチャー入力部101を配置することにより、ユーザは、画像認識装置100の向きを変えること必要がなくなる。
つぎに、このように構成された画像認識装置100による手話の翻訳処理について説明する。図6は、画像認識装置100の手話の翻訳処理を示すフローチャートである。
撮影対象となる手話者の手話動作が、ジェスチャー入力部101により撮影され、入力される(S101)。撮影された手話動作は、翻訳制御部103により翻訳されるとともに(S102)、パラメータ生成部104により、翻訳制御部103により認識された手話の動作に基づいて動作パラメータ(第1の動作パラメータ)が生成され、一時記憶される(S103)。これら手話の一連の動作、すなわち一文が終了するまで行われる(S104)。ここで一文が終了、すなわち、一連の手話動作終了後、所定時間手話動作がないと、翻訳制御部103により判断されると、画像表示部109に翻訳結果が表示される(S105)。
ここで、修正指示が受け付けられると、修正処理が開始される(S106)。例えば、修正指示としては、手話者やその他のユーザによる所定の修正ボタン(図示せず)などの押下が制御部(図示せず)により検知されたり、手話者による所定のジェスチャー(修正指示を示すもの)が翻訳制御部103により認識されることなどが考えられる。
そして、手話者やほかのユーザにより修正指示がなされると、ジェスチャー入力部101により、手話者の動作の撮影が開始される(S107)。そして、上述の修正指示前の撮影処理および翻訳処理と同様に、翻訳制御部103による翻訳処理が行われ(S108)、パラメータ生成部104により動作パラメータ(第2の動作パラメータ)が生成され、記憶される(S109)。ここで、修正指示後の動作パラメータと修正指示前の動作パラメータとが一致する動作、または所定の一致度をもった動作(手話文節)が、パラメータテーブルに記憶されているか否かが、修正制御部105により判断される(S110)。
修正指示後の動作パラメータと修正指示前の動作パラメータが一致する動作、または所定の一致度をもった動作が、パラメータテーブルに記憶されている場合、修正制御部105により、修正指示後の動作パラメータを構成する動作の翻訳結果に、修正指示前の動作パラメータを構成する動作の翻訳結果を置き換える処理が行われる(S111)。そして、画像表示部109にその置き換えられた全翻訳結果が表示される(S111)。翻訳制御部103により、次の入力処理があると判断されると、再度撮影処理や翻訳処理などが繰り返し行われる(S112)。なお、S110において、S107に戻る処理が行われているが、これに限らず、一致する文節がない場合には、エラーとしてもよい。
これにより、手話を理解できない人は、手話者からの伝達事項を正しく理解することができる。そして、次の入力がある場合には、S101に戻り、繰り返し、手話の翻訳処理およびその修正処理が行われる。
なお、S110において、修正制御部105は、それぞれの動作パラメータが一致するかまたはその一致度が所定値以上であることを判断することにより、修正対象となる動作を特定しているが、これに限るものではない。すなわち、それぞれの動作パラメータに優先順位をつけるたり、重みづけをしたりして、動作パラメータごとの一致度の判断に強弱をつけるようにしてもよい。例えば、動作パラメータP1が重要である場合には、他の動作パラメータが一致していたとしても、動作パラメータP1が一致していない場合には、一致度の所定条件を満たしていないなどの判断処理を行うようにしてもよい。
また、修正指示前と修正指示後とでそれぞれの動作パラメータが一致していた場合に、1を加算することが通常とした場合、重要な動作パラメータについては、所定係数をかけたものとすることにより、重み付け処理をするようにしてもよい。
つぎに、図7における翻訳処理の変形例について説明する。図7は、変形例における翻訳処理を示すフローチャートである。この変形例においては、動作パラメータとして、動作の時間を含んだ点で上述図6とは異なっている。
図7に示される通り、ジェスチャー入力部101により、手話動作が撮影され、翻訳制御部103により翻訳されると(S101、S102)、パラメータ生成部104により動作パラメータ(第1の動作パラメータ)が生成されるとともに、パラメータ生成部104により、各手話の動作毎(いわゆる手話文節ごと)の時間が計測され、パラメータテーブルに記憶される(S103a)。そして、翻訳結果が画像表示部109に表示され(S105)、修正指示がなされると(S106)、再度手話動作が撮影され、翻訳される(S107、S108)。ここでも、パラメータ生成部104により、修正指示後の動作パラメータ(第2の動作パラメータ)が生成されるとともに、その動作毎(いわゆる手話文節ごと)の時間が計測され、パラメータテーブルに記憶される(S109a)。そして、修正指示後および修正指示前におけるそれぞれの動作パラメータが一致する動作、または所定の一致度がある動作(手話文節)がある場合には(S110)、その動作に対応する翻訳結果を、修正指示後の動作の翻訳結果に置き換える処理が行われ、画像表示部109に表示される(S111)。そして、手話の入力がある限り、これら処理が繰り返し行われる(S112)。なお、S110において、S107に戻る処理が行われているが、これに限らず、一致する文節がない場合には、エラーとしてもよい。
このように手話動作の時間を動作パラメータの一つとすることで、より正確な一致度の判定を行うことができる。
つぎに、別の変形例について説明する。図8は、この変形例における画像認識装置100aの機能構成を示すブロック図である。この変形例においては、手話者は修正指示をあらかじめ行うことなく、自動的に画像認識装置100aにて修正指示があったものか否かを判断することができる。その処理を実現するためには、この画像認識装置100aは、修正制御部105aおよびそれに内蔵されるタイマー105bを、修正制御部105に代えて備えている。
この修正制御部105aは、画像表示部109が翻訳結果を一旦表示した後、ジェスチャー入力部101が手話者の撮影を行うように制御するとともに、タイマー105bの計測を開始させる。そして、ジェスチャー入力部101において取得された手話者の動作を翻訳制御部103が翻訳するとともに、パラメータ生成部104がその動作に対する動作パラメータを生成すると、タイマー105bの計測処理を停止させる。そして、修正制御部105aが、タイマー105bにより計測された翻訳処理時間およびパラメータ生成時間が所定時間内で終了したと判断した場合には、再取得した動作に対する動作パラメータの一致度に応じて、修正処理を実行することができる。なお、動作パラメータの比較処理については上述のとおり各動作パラメータに重み付けをしたり、優先順位をつけるようにしてもよい。
なお、上述の実施形態と同様に、修正するごとに、この画像認識装置100aの画像表示部109が配置されている側の手話者に向けて、その翻訳結果を確認させるとともに、確認後再度ジェスチャー入力部101側を手話者に向けて、継続した手話の翻訳か、またはその修正か判断するようにしてもよい。また、画像認識装置100aの両面に画像表示部109を配置してもよい。
図9は、その具体的な処理を示すフローチャートである。撮影対象となる手話者の手話動作が、ジェスチャー入力部101により撮影され、入力される(S201)。撮影された手話動作は、翻訳制御部103により翻訳されるとともに(S202)、パラメータ生成部104により、翻訳制御部103により認識された手話の動作に基づいて動作パラメータ(第1の動作パラメータ)が生成され、一時記憶される(S203)。これら手話の一連の動作、すなわち一文が終了するまで行われる(S204)。ここで一文が終了、すなわち、所定時間手話動作がないと、翻訳制御部103により判断されると、画像表示部109に翻訳結果が表示される(S205)。
そして、ジェスチャー入力部101により、手話者の撮影が再開され(S206)、手話動作時間の計測のためのタイマー105bの計測が開始される(S207)。ここでは、このタイマー105bは、修正制御部105a内に内蔵されているものとするが、特にこれに限定するものではない。翻訳制御部103により、ジェスチャー入力部101により入力された手話者の動作に基づいて翻訳が行われる(S208)。この翻訳とともに、パラメータ生成部104により、手話者の動作に基づいた動作パラメータ(第2の動作パラメータ)が生成される(S209)。動作パラメータが生成されると、手話動作時間の計測のためのタイマー105bによる計測処理が停止され、その計測時間が所定時間内か否かが、修正制御部105aにより判断される(S210)。
ここで、再度取得された動作(手話文節)に基づいて生成された動作パラメータが、先に取得された動作に基づいて生成された動作パラメータと一致する、またはその一致度が所定条件を満たしていると(S211)、修正制御部105により、判断されると、再度取得された手話者の動作は、次の手話のための動作ではなく、修正のための動作であると判断することができる。なお、S211において、一致するものがない場合には、S206に戻る処理が行われているが、これに限らず、一致する文節がない場合には、エラーとしてもよい。
そして、一致するまたは一致度が所定条件を満たしている動作パラメータに対応する動作の翻訳結果を置き換える処理が、修正制御部105により行われ、画像表示部109に表示される(S212)。そして、これら処理が、ジェスチャー入力がある限り繰り返し行われる(S213)。
このように、修正指示などの具体的な指示を手話者や他のユーザが行うことなく、自動的に修正を行うことができ、使い勝手の良い手話翻訳のための画像認識装置を提供することができる。
上述実施形態および変形例においては、画像認識装置100の中に、ジェスチャー認識DB106、意図解釈DB107、および文字翻訳DB108を含み、その装置単体で機能するものであるが、これに限るものではない。これら各種DBは、ネットワークを介して接続されるサーバに備えられ、画像認識装置100bは、このサーバの各種DBにアクセスすることにより翻訳処理を行うようにしてもよい。
図10は、その具体的な構成を示すブロック図である。図10に示される通り、画像認識装置100bは、ジェスチャー入力部101、翻訳エンジン部102、画像表示部109、および通信制御部110を含んで構成されている。翻訳エンジン部102は、上述実施形態と同様に、翻訳制御部103、パラメータ生成部104、および修正制御部105を含んで構成されている。
翻訳エンジン部102は、ジェスチャー入力部101から手話者の動作を含んだ画像データが入力されると、通信制御部110を介してサーバ200のジェスチャー認識DB206、意図解釈DB207、および文字認識DB208に対してアクセスして、翻訳処理を行う。
画像表示部109は、翻訳エンジン部102により翻訳された翻訳結果を表示する。
修正処理を行う場合には、ジェスチャー入力部101は、再度手話者の動作を含んだ画像データを入力し、翻訳エンジン部102は、この画像データに対する翻訳処理を行う。
サーバ200は、ジェスチャー認識DB206、意図解釈DB207、および文字認識DB208を有しており、画像認識装置100bや、その他通信端末100x〜100zからの翻訳要求を受け付けた場合、各DBに対する参照を許可するように構成されている。
つぎに、本実施形態および各変形例における画像認識装置100、100a、および100bの作用効果について説明する。
本実施形態の画像認識装置100によれば、翻訳制御部103は、ジェスチャー入力部101により入力された撮影対象の動作に対する翻訳を行うとともに、パラメータ生成部104は、修正指示前の動作パラメータである第1の動作パラメータを生成して、画像表示部109は翻訳結果を出力する。その後、ジェスチャー入力部101は、修正のための撮影対象の動作を含んだ画像データを再度取得する。そして、翻訳制御部103は、再度取得された撮影対象の動作に対する翻訳を行うとともに、パラメータ生成部104は、修正指示後の動作パラメータであって、再度取得された撮影対象の動作の第2の動作パラメータを生成する。
修正制御部105は、この第2の動作パラメータを、動作毎に定められた第1の動作パラメータのそれぞれと比較し、この比較の結果が所定の条件を満たした第1の動作パラメータに対応する動作の翻訳結果を、第2の動作パラメータの動作の翻訳結果に置き換えて修正して、画像表示部109は、修正された翻訳結果を出力する。
これにより、修正対象を指定することなく、修正処理を行うことができる。特に、その修正対象を指定するための処理構成を備える必要がなく、その構成を簡易にするとともに、コストを低減することができる。
なお、変形例における画像認識装置100aも同様の作用効果を奏する。
また、本実施形態の画像認識装置100または変形例における画像認識装置100aによれば、翻訳制御部103は、撮影対象である手話者が修正指示を示す動作をした場合、それを認識すると、ジェスチャー入力部101は、修正のための画像データの取得処理を実行する。これにより、修正指示のためのボタンなどの物理的な構成を必要とすることなく、修正指示を実行することができる。さらに、動作により修正を指示するため、撮影対象が近くにいる必要がなく、その使い勝手をよくすることができる。
また、変形例の画像認識装置100aによれば、修正制御部105は、あらかじめ定めた条件を満たした場合、第2の動作パラメータを、動作毎に定められた第1の動作パラメータのそれぞれと比較することで、修正対象となる動作を把握することができる。よって、その条件を満たしていない場合には、比較処理を行わず、その結果、通常の翻訳処理を行うことになる。
例えば、あらかじめ定めた条件として、翻訳結果の出力後、画像取得から第2の動作パラメータ生成までの時間が所定時間以内であることが考えられる。変形例における画像認識装置100aにおいて、タイマー105bが、その時間を計測し、修正制御部105aがタイマー105bによる計測時間が所定時間内であると判断する場合には、修正処理を実行する。
すなわち、その動作に基づいた処理が所定時間以内、すなわちその動作が短い、ということは、一連の動作による意思伝達ではなく、ある一動作の修正をすることであると判断することができる。よって、そのような場合には、修正指示を判断し、修正対象のための各動作パラメータの比較処理を実行することで、その処理を自動的に行うことができる。
なお、このあらかじめ定めた条件としては、上述の通りすべてを自動的に行うことのほか、修正指示は物理的なボタンや、タッチパネルのボタンなどによる指示を受け付けることもできる。
また、本実施形態の画像認識装置100または変形例における画像認識装置100aによれば、パラメータ生成部104は、画像データの撮影対象の動作毎の、当該動作の始まりから終わりまでの時間を計測し、撮影対象の動作を示す動作パラメータに加えて、当該動作毎の時間を動作パラメータとして生成する。これにより、動作パラメータは動作のみならず、その動作を構成する時間を加味することができ、修正対象となる動作の一致度を判断する際に、より正確に行うことができる。
なお、上述は、画像認識装置100および100aについての作用効果について記載したが、画像認識装置100bにおいても、同様の作用効果を奏するものである。なお、画像認識装置100bにおいては、ネットワーク側に翻訳のためのデータベースを持たせるため、祖内側の負担を軽減することができる。
100、100a、100b…画像認識装置、101…ジェスチャー入力部、102…翻訳エンジン部、103…翻訳制御部、104…パラメータ生成部、105…修正制御部、105a…修正制御部、105b…タイマー、109…画像表示部、110…通信制御部、106…ジェスチャー認識DB、107…意図解釈DB、108…文字翻訳DB、206…ジェスチャー認識DB、207…意図解釈DB、208…文字認識DB。

Claims (7)

  1. 撮影対象を画像データにして取得する画像取得手段と、
    前記画像取得手段により取得された画像データに含まれる撮影対象の動作に対して、当該動作毎に翻訳を行う画像翻訳手段と、
    前記画像取得手段により取得された画像データに含まれる撮影対象の動作を示す第1の動作パラメータを、前記動作毎に生成する生成手段と、
    画像翻訳手段により翻訳された撮影対象の動作の翻訳結果を出力する結果出力手段と、
    前記結果出力手段により出力された翻訳結果を修正する修正制御手段と、
    を備え、
    前記画像取得手段は、前記結果出力手段により翻訳結果が出力された後、修正のための撮影対象の動作を含んだ画像データを再度取得し、
    前記画像翻訳手段は、前記画像取得手段により再度取得された撮影対象の動作に対する翻訳を行い、
    前記生成手段は、前記画像取得手段により再度取得された撮影対象の動作の第2の動作パラメータを生成し、
    前記修正制御手段は、前記第2の動作パラメータを、動作毎に定められた前記第1の動作パラメータのそれぞれと比較し、この比較の結果が所定の条件を満たした第1の動作パラメータに対応する動作の翻訳結果を、前記第2の動作パラメータの動作の翻訳結果に置き換えて修正し、
    前記結果出力手段は、前記修正制御手段により修正された翻訳結果を出力する、
    画像認識装置。
  2. 前記画像翻訳手段が修正指示を示す動作を認識すると、前記画像取得手段は修正のための画像データの取得処理を実行する、
    請求項1に記載の画像認識装置。
  3. 前記修正制御手段は、あらかじめ定めた条件を満たした場合、前記第2の動作パラメータを、動作毎に定められた前記第1の動作パラメータのそれぞれと比較する
    請求項1に記載の画像認識装置。
  4. 前記修正制御手段は、前記あらかじめ定めた条件として、前記結果出力手段による翻訳結果の出力後、前記画像取得手段による画像取得から前記画像翻訳手段による第2の動作パラメータ生成までの時間が所定時間以内である場合に、前記第1の動作パラメータと前記第2の動作パラメータとの比較処理を行う、
    請求項3に記載の画像認識装置。
  5. 前記修正制御手段は、前記あらかじめ定めた条件として、修正指示のための操作を受け付けた場合に、前記第1の動作パラメータと前記第2の動作パラメータとの比較処理を行う、
    請求項3に記載の画像認識装置。
  6. 画像取得手段により取得された画像データの撮影対象の動作毎の、当該動作の始まりから終わりまでの時間を計測する計測手段をさらに備え、
    前記生成手段は、撮影対象の動作を示す動作パラメータに加えて、前記動作毎の時間を動作パラメータとして生成する
    請求項1から5のいずれか一項に記載の画像認識装置。
  7. 撮影対象の動作を認識する画像認識装置において、
    撮影対象を画像データにして取得する画像取得ステップと、
    前記画像取得ステップにより取得された画像データに含まれる撮影対象の動作に対して、当該動作毎に翻訳を行う画像翻訳ステップと、
    前記画像取得ステップにより取得された画像データに含まれる撮影対象の動作を示す第1の動作パラメータを、前記動作毎に生成する生成ステップと、
    画像翻訳ステップにより翻訳された撮影対象の動作の翻訳結果を出力する結果出力ステップと、
    前記結果出力ステップにより出力された翻訳結果を修正する修正制御ステップと、
    を備え、
    前記画像取得ステップは、前記結果出力ステップにより翻訳結果が出力された後、修正のための撮影対象の動作を含んだ画像データを再度取得し、
    前記画像翻訳ステップは、前記画像取得ステップにより再度取得された撮影対象の動作に対する翻訳を行い、
    前記生成ステップは、前記画像取得ステップにより再度取得された撮影対象の動作の第2の動作パラメータを生成し、
    前記修正制御ステップは、前記第2の動作パラメータを、動作毎に定められた前記第1の動作パラメータのそれぞれと比較し、この比較の結果が所定の条件を満たした第1の動作パラメータに対応する動作の翻訳結果を、前記第2の動作パラメータの動作の翻訳結果に置き換えて修正し、
    前記結果出力ステップは、前記修正制御ステップにより修正された翻訳結果を出力する、
    画像認識方法。
JP2013214186A 2013-10-11 2013-10-11 画像認識装置および画像認識方法 Active JP6177655B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013214186A JP6177655B2 (ja) 2013-10-11 2013-10-11 画像認識装置および画像認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013214186A JP6177655B2 (ja) 2013-10-11 2013-10-11 画像認識装置および画像認識方法

Publications (2)

Publication Number Publication Date
JP2015075750A JP2015075750A (ja) 2015-04-20
JP6177655B2 true JP6177655B2 (ja) 2017-08-09

Family

ID=53000619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013214186A Active JP6177655B2 (ja) 2013-10-11 2013-10-11 画像認識装置および画像認識方法

Country Status (1)

Country Link
JP (1) JP6177655B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7264547B1 (ja) 2022-03-02 2023-04-25 株式会社ベネモ 動作認識方法、および動作認識システム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3338992B2 (ja) * 1992-10-29 2002-10-28 株式会社日立製作所 手話/単語変換システム
JPH06337627A (ja) * 1993-05-27 1994-12-06 Hitachi Ltd 手話通訳装置
JPH06337628A (ja) * 1993-05-31 1994-12-06 Hitachi Ltd 手話翻訳確認装置
JPH08115408A (ja) * 1994-10-19 1996-05-07 Hitachi Ltd 手話認識装置
JP2781743B2 (ja) * 1995-05-30 1998-07-30 日本電気オフィスシステム株式会社 手話翻訳装置
JPH1026999A (ja) * 1996-07-10 1998-01-27 Nec Shizuoka Ltd 手話翻訳装置
JP4565200B2 (ja) * 1998-09-28 2010-10-20 パナソニック株式会社 手動作分節方法および装置
JP3949913B2 (ja) * 2001-08-06 2007-07-25 株式会社日立製作所 手話文認識装置およびユーザインタフェース
JP5846552B2 (ja) * 2011-06-03 2016-01-20 国立大学法人九州工業大学 手話認識方法及びその装置
US20130104089A1 (en) * 2011-10-20 2013-04-25 Fuji Xerox Co., Ltd. Gesture-based methods for interacting with instant messaging and event-based communication applications

Also Published As

Publication number Publication date
JP2015075750A (ja) 2015-04-20

Similar Documents

Publication Publication Date Title
CN104850542B (zh) 非可听语音输入校正
US9268987B2 (en) Method of recognizing QR code in image data and apparatus and method for converting QR code in content data into touchable object
CN106407666A (zh) 一种电子病历信息的生成方法、装置及系统
US10678342B2 (en) Method of virtual user interface interaction based on gesture recognition and related device
JP6709997B2 (ja) 翻訳装置、翻訳システム、および評価サーバ
CN112232062A (zh) 文本纠错方法、装置、电子设备和存储介质
WO2014008450A1 (en) Generalization and/or specialization of code fragments
CN111401318B (zh) 动作识别方法及装置
EP2940551A1 (en) Method and device for implementing voice input
US20170123630A1 (en) Electronic device and method for searching data
JP6275840B2 (ja) 手書き文字の識別方法
US20200349204A1 (en) Patent evaluation and determination method, patent evaluation and determination device, and patent evaluation and determination program
CN110750991B (zh) 实体识别方法、装置、设备及计算机可读存储介质
US20220139061A1 (en) Model training method and apparatus, keypoint positioning method and apparatus, device and medium
CN113889074A (zh) 语音生成方法、装置、设备及介质
US20140164996A1 (en) Apparatus, method, and storage medium
JP6177655B2 (ja) 画像認識装置および画像認識方法
EP3358489A1 (en) Biometric authentication apparatus, biometric authentication method, and non-transitory computer-readable storage medium for storing program for biometric authentication
CN112949261A (zh) 文本还原方法、装置及电子设备
US11507181B2 (en) Input apparatus having virtual keys set on reference plane
RU2652457C2 (ru) Обработка мультисенсорного ввода для выбора отображаемого варианта
US11320914B1 (en) Computer interaction method, device, and program product
US10127478B2 (en) Electronic apparatus and method
CN113190160A (zh) 分析手部震颤误触的输入纠错方法、计算装置和介质
CN113228028A (zh) 翻译装置、翻译方法以及程序

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170712

R150 Certificate of patent or registration of utility model

Ref document number: 6177655

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250