JP6227418B2 - 画像認識装置、及び画像認識方法 - Google Patents

画像認識装置、及び画像認識方法 Download PDF

Info

Publication number
JP6227418B2
JP6227418B2 JP2014000849A JP2014000849A JP6227418B2 JP 6227418 B2 JP6227418 B2 JP 6227418B2 JP 2014000849 A JP2014000849 A JP 2014000849A JP 2014000849 A JP2014000849 A JP 2014000849A JP 6227418 B2 JP6227418 B2 JP 6227418B2
Authority
JP
Japan
Prior art keywords
database
translation
image
acquired
status information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014000849A
Other languages
English (en)
Other versions
JP2015130031A (ja
Inventor
雄太 樋口
雄太 樋口
渋谷 彰
彰 渋谷
小林 茂子
茂子 小林
▲高▼橋 誠
誠 ▲高▼橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2014000849A priority Critical patent/JP6227418B2/ja
Publication of JP2015130031A publication Critical patent/JP2015130031A/ja
Application granted granted Critical
Publication of JP6227418B2 publication Critical patent/JP6227418B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像認識装置、及び画像認識方法に関する。
ジェスチャを判断する情報処理装置として、特許文献1に記載のような技術がある。特許文献1に記載の装置は、複数のジェスチャを、それぞれのジェスチャが描くパターンの開始位置から終了位置へのベクトルが類似するジェスチャ毎に分類してグループ化して管理し、ユーザがジェスチャを開始した開始座標が、いずれのグループの入力開始領域に含まれるかによって、入力領域に対して行われたジェスチャを特定するために検索を行う対象を限定するものである。
特開2013−97610号公報
特許文献1に記載の装置は、類似するジェスチャのデータをグループ化しておくことにより、多数のジェスチャから、ユーザが任意の位置で開始したジェスチャを認識するのにかかる処理負荷を軽減するものである。ところで、同一又は類似するジェスチャは、使用する場面によっては異なる意味を有することがある。この場合、同一又は類似するジェスチャは、複数の意味を有することになる。この結果、ジェスチャの意味を管理するデータベースのデータ量が増えることにより、ジェスチャの意味を検索する処理の負荷が増大することになる。
本発明は、このような問題点を解決するためになされたものであり、ジェスチャの意味を検索する検索処理負荷を軽減し得る画像認識装置、画像認識方法を提供することを目的とする。
本発明に係る画像認識装置は、利用者の状況情報を取得する状況情報取得手段と、動作情報と、当該動作情報の意味とを対応付ける、複数の状況情報毎に規定された翻訳データベースの内、状況情報取得手段が取得した利用者の状況情報に対応する翻訳データベースを取得するデータベース管理手段と、撮影対象を画像データにして取得する画像取得手段と、データベース管理手段が取得した翻訳データベースを利用して、画像取得手段により取得された画像データに含まれる撮影対象の動作に対して翻訳を行う画像翻訳手段と、画像翻訳手段により翻訳された撮影対象の動作の翻訳結果を出力する結果出力手段と、を備える。
また、本発明に係る画像認識方法は、利用者の状況情報を取得する状況情報取得ステップと、動作情報と、当該動作情報の意味とを対応付ける、複数の状況情報毎に規定された翻訳データベースの内、状況情報取得ステップで取得した利用者の状況情報に対応する翻訳データベースを取得するデータベース管理ステップと、撮影対象を画像データにして取得する画像取得ステップと、データベース管理ステップで取得した翻訳データベースを利用して、画像取得ステップにより取得された画像データに含まれる撮影対象の動作に対して翻訳を行う画像翻訳ステップと、画像翻訳ステップにより翻訳された撮影対象の動作の翻訳結果を出力する結果出力ステップと、を備える。
このような画像認識装置、及び画像認識方法によれば、状況情報を取得した後に、動作情報と、当該動作情報の意味とを対応付ける、複数の状況情報毎に規定された翻訳データベースの内、状況情報取得ステップで取得した利用者の状況情報に対応する翻訳データベースを取得して、取得した翻訳データベースを用いて、撮影対象の動作の翻訳を行う。このように、画像認識装置、及び画像認識方法によれば、取得した状況情報に対応する翻訳データベースを取得して、取得した翻訳データベースを用いて、ジェスチャの意味を翻訳する。この場合、ジェスチャの意味を翻訳する際、不要なデータベースまで検索することがないので、ジェスチャの意味を検索する検索処理負荷を軽減させることができる。
本発明に係る画像認識装置では、利用者状況情報取得手段は、位置情報、音声情報、及び時刻情報の何れか少なくとも一つを状況情報として取得する、こととしてもよい。この構成によれば、位置情報、音声情報、及び時刻情報という、利用者の状況の変化を反映する情報を取得するので、利用者の状況に応じたデータベースを取得することができる。
本発明に係る画像認識装置では、データベース管理手段が取得した翻訳データベースを保持する翻訳データベース保持手段をさらに備え、状況情報取得手段は、状況情報を複数回取得し、データベース管理手段は、状況情報取得手段により取得された、最新の状況情報に対応しない翻訳データベースを保持している場合、当該翻訳データベースを、画像翻訳手段が翻訳する際に利用するデータベースから除外し、画像翻訳手段は、データベース管理手段により除外されていない翻訳データベースを利用して翻訳を行うこととしてもよい。この構成によれば、状況情報取得手段により取得された、最新の状況情報に対応しない翻訳データベースを利用対象から除外することにより、ジェスチャの意味を翻訳する時に、除外した翻訳データベースを用いることなく検索するので検索処理の負荷を軽減することができる。
本発明に係る画像認識装置では、データベース管理手段が取得した翻訳データベースを保持する翻訳データベース保持手段をさらに備え、データベース管理手段は、取得済みの翻訳データベースの内、画像翻訳手段による翻訳時の利用頻度が低い翻訳データベースを削除する、こととしてもよい。この構成によれば、利用可能性が低い翻訳データベースを削除するので、検索処理負荷を軽減するだけでなく、画像認識装置の記憶領域を有効活用することもできる。
本発明に係る画像認識装置では、利用対象となる翻訳データベースを示すデータベースリストを保持するデータベースリスト保持手段をさらに備え、データベース管理手段は、状況情報取得手段により取得された状況情報に対応する翻訳データベースの識別情報を、データベースリスト保持手段が保持するデータベースリストへ登録し、所定のタイミングでデータベースリストに登録されている翻訳データベースの識別情報の内、画像認識装置が保持していない翻訳データベースを外部装置から取得する、こととしてもよい。この構成によれば、データベースリストで状況情報に対応するデータベースの識別子を定義しておくことになる。よって、画像認識装置は、状況情報を取得する度に外部の装置へ翻訳データベースを取得することがないので、外部装置との通信負荷を軽減させることができる。
本発明に係る画像認識装置では、翻訳データベースを予め保持し、データベース管理手段は、予め保持している翻訳データベースの内、状況情報取得手段が取得した利用者の状況情報に対応する翻訳データベースを取得する、こととしてもよい。
本発明によれば、ジェスチャの意味を検索する検索処理負荷を軽減することができる。
本実施形態に係る情報システムの機能構成を示す図である。 本実施形態に係る端末のハードウェア構成を示す図である。 本実施形態に係るデータベースの構成及びデータ例を示す図である。 本実施形態に係るデータベースリストの構成及びデータ例を示す図である。 状況情報に対応するデータベースを取得する説明図である。 利用データベースリストの編集処理を示すフローチャートである。 利用データベースを更新する処理を示すフローチャートである。
以下、図面を参照しながら、本発明に係る実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
(情報処理システムの構成)
図1に本実施形態に係る情報処理システムを示す。本実施形態に係る情報処理システムは、端末10(画像認識装置)とDB(Database)管理サーバ30(外部装置)とを有する。端末10と、DB管理サーバ30とは、有線あるいは無線によって接続されており、互いに情報の送受信を行うことができる。本実施形態に係る情報処理システムでは、端末10が、その周囲状況(例えば、位置、音声、時刻等)を特定し、特定した状況で端末10の利用者が行う可能性の高いジェスチャを解釈するために必要となるデータベースを保持していない場合に、DB管理サーバ30へ当該データベースの取得要求をする。そして、端末10は、当該データベースを取得し、当該データベースを保持する。そして、端末10は、ジェスチャを翻訳するアプリケーション(ジェスチャ翻訳アプリケーション)を有し、当該アプリケーションを起動すると、保持しているデータベースを用いてジェスチャの意味を翻訳する。
端末10は、例えば、携帯電話機やスマートフォンであるが、これに限るものではなく、パソコンや、そのほかタブレット端末などであってもよい。端末10は、ジェスチャ入力部11(画像取得手段)と、文章変換部12(画像翻訳手段)と、変換結果出力部13(結果出力手段)と、状況情報取得部14(利用者状況情報取得手段)と、データベース管理部15(データベース管理手段)と、通信制御部16と、記憶部17(データベースリスト保持手段、翻訳データベース保持手段)とを含んで構成されている。
ここで、端末10のハードウェア構成を図2に示す。端末10は、図2に示すように、1又は複数のCPU101、主記憶装置であるRAM102及びROM103、入力デバイスであるキーボード及びマウス等の入力装置104、ディスプレイ等の出力装置105、ネットワークカード等のデータ送受信デバイスである通信モジュール106、半導体メモリ等の補助記憶装置107などを含むコンピュータシステムとして構成されている。端末10は、図2に示すCPU101、RAM102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで入力装置104、出力装置105、通信モジュール106を動作させるとともに、RAM102や補助記憶装置107におけるデータの読み出し及び書き込みを行うことで実現される。
図1に戻り、ジェスチャ入力部11は、手話者などの撮影対象者の動作を画像として取得する部分であり、例えばカメラである。
文章変換部12は、ジェスチャ入力部11により取得された撮影対象者の動作に基づいて、ジェスチャの意味を示す文章へ翻訳する部分である。具体的には、文章変換部12は、ジェスチャ翻訳アプリケーションであり、複数の画像から撮影対象者の指、腕、または上体の動きを判別し、記憶部17のデータベースを検索して判別した動きに対応する文章に翻訳する。
変換結果出力部13は、文章変換部12が翻訳した内容を出力する部分であり、例えば、ディスプレイである。
状況情報取得部14は、端末10の利用者の状況情報を取得する部分である。状況情報取得部14は、端末10の利用者の状況情報として、利用者による音声情報、端末10の位置情報、時刻情報等を取得する。状況情報取得部14は、具体的には、音声情報を取得する手段としては、マイク、位置情報を取得する手段としては、GPS(Global Positioning System)、時刻情報を取得する手段としては、時計機能等である。
データベース管理部15は、端末10が保持するデータベースを管理する部分である。具体的に、データベース管理部15は、端末10が保持する状況情報とその状況情報に即したデータベースとを対応付けた情報を用いて、状況情報取得部14が取得した状況情報に基づいて必要とするデータベースを特定する。
また、データベース管理部15は、状況情報取得部14が取得した状況情報に基づいて、利用データベースリスト21を管理する。データベース管理部15は、利用データベースリスト21の管理として、状況情報に対応するデータベースの識別子の登録と、利用データベースリスト21に登録済みのデータベースの識別子の除外を行う。
具体的に、状況情報に対応するデータベースの識別子の登録する場合には、データベース管理部15は、状況情報に基づいて必要とするデータベース(即ち、利用対象となるデータベース)のデータベースIDを利用データベースリスト21へ登録する。文章変換部12は、利用データベースリスト21を参照して、利用データベースリスト21に登録されているデータベースを検索することにより動作の翻訳をする。
そして、利用データベースリスト21に登録済みのデータベースの識別子の除外を行う場合には、利用データベースリスト21に最新の状況情報に対応しないデータベースの識別子が登録されているとき、最新の状況情報に対応しないデータベースの識別子を利用データベースリスト21から削除する。例えば、状況情報取得部14が取得した位置情報が北海道を示す場合に、沖縄の方言に関するデータベースを保持しているとすると、使用する可能性が薄いので、沖縄の方言に関するデータベースを使用候補から除外する。ここで除外とは、文章変換部12が意味を検索する時における、検索対象のデータベースから外すことを意味し、端末10からデータベースを削除することではない。
このように、データベース管理部15が最新の状況情報に対応しないデータベースの識別子を利用データベースリスト21から削除するので、文章変換部12が、最新の状況情報に対応しないデータベースを用いて翻訳することを防止することができ、検索処理負荷を軽減させることができる。
そして、データベース管理部15は、所定のタイミング(例えば、ジェスチャ翻訳アプリケーションを起動するタイミング)で利用データベースリスト21に登録されているデータベースの内で、端末10が保持していないデータベースの取得要求をし、取得したデータベースを記憶部17に記憶させる。
そして、データベース管理部15は、所定のタイミング(例えば、ジェスチャ翻訳アプリケーションを起動するタイミング)で端末10が保持しているデータベースの内、不要なデータベースを削除する。具体的には、データベース管理部15は、利用データベースリスト21から除外され、且つ文章変換部12により検索されてから所定時間経過しているデータベースを、不要なデータベースであると判断し、当該データベースを削除する。
通信制御部16は、データ(例えば、データベース)の送受信を行う部分である。具体的に、通信制御部16は、DB管理サーバ30にデータベースの取得要求をしたり、DB管理サーバ30からデータベースを受信したりする。
記憶部17は、各種データ(データベース等)を記憶する部分である。具体的に、記憶部17は、ジェスチャの翻訳のためのデータベースの集合と利用データベースリスト21を保持する。ジェスチャの翻訳のためのデータベースとして、汎用的な動作の翻訳に用いるデータベースである汎用データベース18a、大阪に位置する場合における動作の翻訳に用いる大阪方言用データベース18b等を含む。また、記憶部17は、端末10の利用者の時間帯別行動を特定するために使用する、行動履歴情報を有する。ここで行動履歴情報とは、時刻に対応付けられた位置情報の履歴情報、や時刻に対応付けられた購買情報等の時刻に対応付けられた端末10の利用者の動作を示す履歴情報をいう。
汎用データベース18aは、端末10が予め保持しているデータベースである。大阪方言用データベース18bは、状況情報取得部14が状況情報として大阪に関する情報(例えば、大阪の位置情報)を取得した結果、端末10がDB管理サーバ30から取得したデータベースである。
汎用データベース18a及び大阪方言用データベース18b等の各データベースは、各データベースの識別子であるデータベースIDをそれぞれ有する。具体的には、汎用データベース18aは、データベースID01を有し、大阪方言用データベース18bは、データベースID02を有する。また、汎用データベース18a及び大阪方言用データベース18b等の各データベースは、最終検索時刻の情報も有する。この最終検索時刻は、文章変換部12が直近に各データベースを検索した時刻である。
汎用データベース18a及び大阪方言用データベース18bは、それぞれジェスチャの動作を定義したデータベースであるジェスチャDB19及び、ジェスチャの動作に対応する意味を定義したデータベースである文章解釈DB20を有する。この2つのデータベースにより、動作と、当該動作の意味とを対応付ける翻訳データベースを実現する。
ジェスチャDB19(ジェスチャDB19a、ジェスチャDB19b等)は、手話者の動作を文章変換部12に認識させるための動作のパターンを記述するデータベースである。これはジェスチャ翻訳のための一般的なデータベースである。
ジェスチャDB19のデータ例を図3(A)に示す。図3(A)に示すように、ジェスチャDB13は、「手の向き」と、「手の角度」と、「指の突起有無」と、「手の動きの情報」と、「ジェスチャID」とを有する。
例えば、ジェスチャIDが「00000001」であるジェスチャは、手の向きが正面であり、手の角度が0度(指先が上を向いた状態)であり、「指の突起有無」に基づき、親指のみ上がっていて、「動き」に基づき、手が止まっていることを示す。
文章解釈DB20(文章解釈DB20a、文章解釈DB20b等)は、文章変換部12が、ジェスチャDB19を検索して、ある程度の動作を認識すると、その意味を解釈するためのデータベースである。ここには動作のパターンの識別子とその意味(意図)とが対応付けて記述されることになる。これも一般的なジェスチャ翻訳のためのデータベースである。
文章解釈DB20のデータ例を図3(B)に示す。図3(B)に示すように、文章解釈DB20は、「ジェスチャID」と「意味」とを有する。
図3(B)の例によれば、ジェスチャIDが「00000001」のジェスチャは、指文字で「あ」の意味であることを示す。このように、ジェスチャDB19と文章解釈DB20とにより、ある動作に対応する意味を特定することができる。
大阪方言用データベース18bや旅行用データベース18cが有するジェスチャDB(ジェスチャDB19b、ジェスチャDB19c)、文章解釈DB(文章解釈DB20b、文章解釈DB20c)のデータ構造は、それぞれ図3(A)、図3(B)に示したデータ構造と同一であり、それぞれ保持するデータ自体が異なる。
例えば、汎用データベース18aにおいて、右親指及び人指し指で輪を作り左胸をあてる動作が「名札」という意味である場合に、大阪方言用データベース18bでは、「名前」という意味で登録される。すなわち、ジェスチャDB19a及びジェスチャDB19bでは、右親指及び人指し指で輪を作って左胸をあてる動作が定義され、文章解釈DB20aでは、当該動作の意味が「名札」と定義され、文章解釈DB20bでは、当該動作の意味が「名前」と定義される。
なお、大阪方言用データベース18bのジェスチャDB19bにおいて、汎用データベース18aに定義されていない動作を定義してもよい。例えば、大阪方言独特のジェスチャとその意味を大阪方言用データベース18bのジェスチャDB19bと文章解釈DB20bで定義してもよい。
利用データベースリスト21は、文章変換部12が翻訳処理(ジェスチャの意味を翻訳する処理)をする際に利用する各データベースの識別子を保持している。利用データベースリスト21のデータ例を図4に示す。図4に示すように、利用データベースリスト21では、文章変換部12が翻訳処理する際に利用するデータベースの識別子を保持する。図4の例では、少なくともデータベースIDが01、02のデータベースを、文章変換部12による翻訳処理時に利用することを示している。
(DB管理サーバ)
続いて、図1に戻り、DB管理サーバ30の説明を行う。DB管理サーバ30は、状況情報毎に規定されている状況対応用のデータベース(例えば、大阪方言用データベース18b)を管理するサーバである。例えば、大阪方言用データベース18b、旅行用データベース18cを保有する。
DB管理サーバ30は、通信制御部31も有する。当該通信制御部31は、端末10からのデータベースの取得要求を受信し、取得要求に応じたデータベースを端末10へ送信する。
(データベースの管理方法)
次に、端末10のデータベース管理部15によるデータベースの管理方法を図5を用いて説明する。具体的には、状況情報取得部14により取得された状況情報に基づいて必要となるデータベースを特定し、特定したデータベースの識別子を利用データベースリスト21へ登録する例を中心に説明する。図5(A)〜(C)に示すように、初期状態では、汎用データベース18aのみが利用データベースリスト21に設定され、さらに端末10は、汎用データベース18aを保持しているものとする。以下にケース1、ケース2、及びケース3に分けて説明する。
図5(A)に記載のケース1は、状況情報取得部14が取得した位置情報に対応するデータベースを追加するケースである。ケース1に示すように、状況情報取得部14が、位置情報を取得し、その位置情報が大阪のホテルの位置を示すものである場合、データベース管理部15は、追加データベースとして、大阪方言用データベース18b、旅行用データベース18cが追加候補になると判断する。これは、データベース管理部15において、大阪のホテルの位置と、大阪方言用データベース18bとが対応付けられて定義され、大阪のホテルの位置と、旅行用データベース18cとが対応付けられて定義されていることによる。
そして、データベース管理部15は、利用データベースリスト21を参照し、初期状態では、大阪方言用データベース18b及び旅行用データベース18cが設定されていないため、利用データベースリスト21に大阪方言用データベース18b及び旅行用データベース18cを設定する。具体的には、データベース管理部15は、大阪方言用データベース18b及び旅行用データベース18cのデータベースIDを利用データベースリスト21へ設定する。
図5(B)に記載のケース2は、状況情報取得部14が取得した時刻情報に対応するデータベースを追加するケースである。ケース2に示すように、状況情報取得部14が、時刻情報を取得し、その時刻が10時である場合、例えば、端末10で保持する購入履歴・滞在履歴情報により、10時前後に買い物を行う傾向が示されるとき、データベース管理部15は、買い物用データベース18dが追加候補になると判断する。これは、データベース管理部15において、10時を示す時刻情報と、買い物用DB18dとが対応付けられて定義されていることによる。
そして、データベース管理部15は、利用データベースリスト21を参照し、初期状態では、買い物用データベース18dが設定されていないため、買い物用データベース18dのデータベースIDを利用データベースリスト21へ設定する。
図5(C)に記載のケース3は、状況情報取得部14が取得した音声情報に対応するデータベースを追加するケースである。ケース3に示すように、状況情報取得部14が、「ご注文はお決まりでしょうか」という音声情報を取得した場合、データベース管理部15は、喫茶用データベース18eが追加候補になると判断する。これは、データベース管理部15において、「ご注文はお決まりでしょうか」という音声情報と、喫茶用データベース18eとが対応付けられて定義されていることによる。
そして、データベース管理部15は、利用データベースリスト21を参照し、初期状態では、買い物用データベース18dが設定されていないため、喫茶用データベース18eのデータベースIDを利用データベースリスト21へ設定する。
上述のケース1〜3のように、状況情報取得部14が取得した状況情報に基づいて、追加すべきデータベースを特定し、当該データベースの識別情報を利用データベースリスト21に登録しておくことにより、端末10が保持しているデータベースの識別子と、利用データベースリスト21に登録されているデータベース識別子とを比較することにより、追加対象のデータベース(DB管理サーバ30に取得要求するデータベース)を特定することができる。
そして、データベース管理部15は、所定のタイミング(例えば、ジェスチャ翻訳アプリケーションの起動等)で利用データベースリスト21を参照し、端末10が保持していないデータベースの取得要求をDB管理サーバ30に対して行い、追加対象のデータベースを取得する。
続いて、図6及び図7のフローチャートを用いて、本実施形態に係る端末10で実行される処理及び動作を説明する。図6のフローチャートは、利用データベースリスト21の編集処理のフローチャートであり、図7のフローチャートは、データベースの更新処理のフローチャートである。
(利用データベースリストの編集処理)
最初に、図6のフローチャートを用いて、利用データベースリスト21の編集処理を説明する。ここでいう利用データベースリスト21の編集処理とは、状況情報取得部14が取得した状況情報に対応するデータベースを特定し、特定したデータベースの識別子を利用データベースリスト21へ登録する処理をいう。
まず、状況情報取得部14が、状況情報(例えば、位置情報、時刻情報)を取得する(ステップS1)。
次に、データベース管理部15は、状況情報取得部14が取得した状況情報に対応するデータベースを特定し、当該データベースを端末10が保持しているか否かを判断した結果、データベースの構成を変更する必要がある場合(ステップS2;YES)、利用データベースリスト21を編集し、状況情報に対応するデータベースの識別子を利用データベースリスト21へ登録し(ステップS3)、処理を終了する。なお、状況情報取得部14が取得した状況情報に対応するデータベースを特定し、当該データベースを端末10が保持しているか否かを判断した結果、データベースの構成を変更する必要がない場合(ステップS2;NO)、利用データベースリスト21を編集することなく、処理を終了する。
(利用データベースの更新処理)
次に、図7のフローチャートを用いて、利用データベースの更新処理を説明する。この処理は、利用データベースリスト21に登録されているデータベース識別子と、端末10が保持しているデータベースの識別子とを比較して、データベースの追加又は削除をする処理である。この利用データベースの更新処理は、例えば、ジェスチャ翻訳アプリケーションを起動するタイミングで実行する。
まず、データベース管理部15は、利用データベースリスト21を参照し(ステップS11)、利用データベースを更新する(ステップS12)。
ステップS12の利用データベースの更新処理としては、端末10が保持しているデータベースに含まれないデータベースが利用データベースリスト21に含まれる場合に、そのデータベースの取得要求をDB管理サーバ30へ行い、データベースを取得する処理や、端末10が保持しているデータベースの内、利用頻度が少ないデータベースを削除する処理が含まれる。
利用データベースを更新した後、ジェスチャ入力部11が画像データを取得し(ステップS13)、文章変換部12がジェスチャ入力部11により取得された撮影対象者の動作に基づいて、ジェスチャの意味を示す文章に翻訳し(ステップS14)、変換結果出力部13が、文章変換部12により翻訳された内容を出力する(ステップS15)。
(作用効果)
続いて、端末10の作用効果について説明する。端末10において、状況情報取得部14が、利用者の状況情報を取得し、データベース管理部15が、動作情報と、当該動作情報の意味とを対応付け、複数の状況情報毎に規定された翻訳データベースの内、状況情報取得部14が取得した状況情報に対応する翻訳データベース(例えば、大阪方言用データベース18b)をDB管理サーバ30から取得する。そして、ジェスチャ入力部11は、撮影対象を画像データにして取得し、文章変換部12が、翻訳データベースを利用して、ジェスチャ入力部11により取得された画像データに含まれる撮影対象の動作に対して翻訳を行う。変換結果出力部13は、翻訳された撮影対象の動作の翻訳結果を出力する。
本実施形態の端末10によれば、取得した状況情報に対応する翻訳データベースを取得して、取得した翻訳データベースを用いて、ジェスチャの意味を翻訳する。この場合、ジェスチャの意味を翻訳する際、不要なデータベース(状況情報に対応しないデータベース)まで検索することがないので、ジェスチャの意味を検索する検索処理負荷を軽減させることができる。すなわち、ジェスチャの意味を翻訳する際、状況情報に対応しないデータベースを含む全てのデータベースを検索対象とする場合に比べて、検索対象が少なくなるので検索処理負荷を軽減させることができる。なお、端末10では、複数回状況情報を取得した後に翻訳する際、複数のデータベース(例えば、大阪方言用データベース18b、喫茶用データベース18e)を検索対象とすることもあるが、この場合でも全てのデータベースを検索対象とする場合に比べて、検索対象が少なくなるので検索処理負荷を軽減させることができる。
また、端末10によれば、状況情報に対応する翻訳データベースが端末10内に存在しない場合に、必要なデータベースだけDB管理サーバ30から取得する。このため、端末10は、少ない通信量で翻訳することができる。
そして、文章変換部12は、状況情報に対応するデータベースを検索することにより翻訳するため、様々な状況情報に対応する大量のデータを有するデータベースを検索して翻訳する場合と比べ、類似動作で異なる意味をもつ候補を検索対象から除外することができる。この結果、端末10は、より適切な候補を選択することができる。
DB管理サーバ30は、全ての状況別のデータベースを管理し、必要に応じて端末10に対して状況に対応するデータベースを提供しているので、端末10は、必要に応じて複数の状況情報に対応するデータベースを増やすことができる。
端末10において、状況情報取得部14は、位置情報、音声情報、及び時刻情報の何れか少なくとも一つを状況情報として取得する、こととしてもよい。この構成によれば、位置情報、音声情報、及び時刻情報という、利用者の状況の変化を反映する情報を取得するので、利用者の状況に応じたデータベースを取得することができる。
端末10において、データベース管理部15が取得した翻訳データベースを保持し、状況情報取得部14は、状況情報を複数回取得し、データベース管理部15は、状況情報取得部14により取得された、最新の状況情報に対応しない翻訳データベースを保持している場合、当該翻訳データベースを、文章変換部12が翻訳する際に利用するデータベースから除外し、文章変換部12は、データベース管理部15により除外されていない翻訳データベースを利用して翻訳を行うこととしてもよい。この構成によれば、状況情報取得部14により取得された、最新の状況情報に対応しない翻訳データベースを利用対象から除外することにより、ジェスチャの意味を翻訳する時に、除外した翻訳データベースを用いないので検索処理の負荷を軽減することができる。
端末10において、データベース管理部15が取得した翻訳データベースを保持し、データベース管理部15は、取得済みの翻訳データベースの内、文章変換部12による翻訳時の利用頻度が低い翻訳データベースを削除する、こととしてもよい。この構成によれば、利用可能性が低い翻訳データベースを削除するので、検索処理負荷を軽減するだけでなく、端末10の記憶領域を有効活用することもできる。
利用対象となるデータベースを示す利用データベースリスト21を保持し、データベース管理部15は、状況情報取得部14により取得された状況情報に対応する翻訳データベースの識別情報を、利用データベースリスト21へ登録し、所定のタイミングで利用データベースリスト21に登録されている翻訳データベースの識別情報の内、端末10が保持していない翻訳データベースをDB管理サーバ30から取得する、こととしてもよい。この構成によれば、利用データベースリスト21で状況情報に対応するデータベースの識別子を定義しておくことになる。よって、端末10は、状況情報を取得する度にDB管理サーバ30へ翻訳データベースを取得することがないので、DB管理サーバ30との通信負荷を軽減させることができる。
上述の実施形態では、データベース管理部15が、利用データベースリスト21を参照して、DB管理サーバ30から取得するデータベースを特定していたが、記憶部17を参照し、DB管理サーバ30から取得するデータベースを特定するようにしてもよい。
上述の実施形態では、汎用データベース18aを保持する場合について述べたが、汎用データベース18aを保持しなくてもよい。
上述の実施形態では、データベース管理部15がDB管理サーバ30からデータベースを取得する場合について述べたが、予め端末10が、複数のデータベースを保持し、端末10が保持しているデータベースの内、状況情報に対応するデータベースを取得するようにしてもよい。具体的には、端末10が、予め複数のデータベース(例えば、大阪方言用データベース18b、旅行用データベース18c等)を保持して、データベース管理部15が、上記保持しているデータベースの内、状況情報に対応するデータベースを選択することによりデータベースを取得するようにしてもよい。
10…端末、11…ジェスチャ入力部、12…文章変換部、13…変換結果出力部、14…状況情報取得部、15…データベース管理部、16…通信制御部、17…データベース群、18a…汎用データベース、19…ジェスチャDB、20…文章解釈DB、21…利用データベースリスト、30…DB管理サーバ。

Claims (7)

  1. 利用者の状況情報を取得する状況情報取得手段と、
    動作情報と、当該動作情報の意味とを対応付ける、複数の状況情報毎に規定された翻訳データベースの内、前記状況情報取得手段が取得した利用者の状況情報に対応する翻訳データベースを取得するデータベース管理手段と、
    撮影対象を画像データにして取得する画像取得手段と、
    前記データベース管理手段が取得した翻訳データベースを利用して、前記画像取得手段により取得された画像データに含まれる撮影対象の動作に対して翻訳を行う画像翻訳手段と、
    前記画像翻訳手段により翻訳された撮影対象の動作の翻訳結果を出力する結果出力手段と、
    前記データベース管理手段が取得した翻訳データベースを保持する翻訳データベース保持手段と、を備え、
    前記状況情報取得手段は、状況情報を複数回取得し、
    前記データベース管理手段は、前記状況情報取得手段により取得された、最新の状況情報に対応しない翻訳データベースを保持している場合、当該翻訳データベースを、前記画像翻訳手段が翻訳する際に利用するデータベースから除外し、
    前記画像翻訳手段は、前記データベース管理手段により除外されていない翻訳データベースを利用して翻訳を行う、画像認識装置。
  2. 利用者の状況情報を取得する状況情報取得手段と、
    動作情報と、当該動作情報の意味とを対応付ける、複数の状況情報毎に規定された翻訳データベースの内、前記状況情報取得手段が取得した利用者の状況情報に対応する翻訳データベースを取得するデータベース管理手段と、
    撮影対象を画像データにして取得する画像取得手段と、
    前記データベース管理手段が取得した翻訳データベースを利用して、前記画像取得手段により取得された画像データに含まれる撮影対象の動作に対して翻訳を行う画像翻訳手段と、
    前記画像翻訳手段により翻訳された撮影対象の動作の翻訳結果を出力する結果出力手段と、
    利用対象となる翻訳データベースを示すデータベースリストを保持するデータベースリスト保持手段と、を備え、
    前記データベース管理手段は、前記状況情報取得手段により取得された状況情報に対応する翻訳データベースの識別情報を、前記データベースリスト保持手段が保持するデータベースリストへ登録し、所定のタイミングで前記データベースリストに登録されている翻訳データベースの識別情報の内、保持していない翻訳データベースを外部装置から取得する、画像認識装置。
  3. 前記状況情報取得手段は、位置情報、音声情報、及び時刻情報の何れか少なくとも一つを状況情報として取得する、請求項1または2に記載の画像認識装置。
  4. 前記データベース管理手段は、取得済みの翻訳データベースの内、前記画像翻訳手段による翻訳時の利用頻度が低い翻訳データベースを削除する、
    請求項1に記載の画像認識装置。
  5. 前記画像認識装置は、前記翻訳データベースを予め保持し、
    前記データベース管理手段は、予め保持している翻訳データベースの内、前記状況情報取得手段が取得した利用者の状況情報に対応する翻訳データベースを取得する、
    請求項1または4に記載の画像認識装置。
  6. 利用者の状況情報を取得する状況情報取得ステップと、
    動作情報と、当該動作情報の意味とを対応付ける、複数の状況情報毎に規定された翻訳データベースの内、前記状況情報取得ステップで取得した利用者の状況情報に対応する翻訳データベースを取得するデータベース管理ステップと、
    撮影対象を画像データにして取得する画像取得ステップと、
    前記データベース管理ステップで取得した翻訳データベースを利用して、前記画像取得ステップにより取得された画像データに含まれる撮影対象の動作に対して翻訳を行う画像翻訳ステップと、
    前記画像翻訳ステップにより翻訳された撮影対象の動作の翻訳結果を出力する結果出力ステップと、
    前記データベース管理ステップで取得した翻訳データベースを翻訳データベース保持手段に保持する保持ステップと、を備え、
    前記状況情報取得ステップは、状況情報を複数回取得し、
    前記データベース管理ステップは、前記状況情報取得ステップにより取得された、最新の状況情報に対応しない翻訳データベースを保持している場合、当該翻訳データベースを、前記画像翻訳ステップが翻訳する際に利用するデータベースから除外し、
    前記画像翻訳ステップは、前記データベース管理ステップにより除外されていない翻訳データベースを利用して翻訳を行う、画像認識方法。
  7. 利用者の状況情報を取得する状況情報取得ステップと、
    動作情報と、当該動作情報の意味とを対応付ける、複数の状況情報毎に規定された翻訳データベースの内、前記状況情報取得ステップで取得した利用者の状況情報に対応する翻訳データベースを取得するデータベース管理ステップと、
    撮影対象を画像データにして取得する画像取得ステップと、
    前記データベース管理ステップで取得した翻訳データベースを利用して、前記画像取得ステップにより取得された画像データに含まれる撮影対象の動作に対して翻訳を行う画像翻訳ステップと、
    前記画像翻訳ステップにより翻訳された撮影対象の動作の翻訳結果を出力する結果出力ステップと、
    利用対象となる翻訳データベースを示すデータベースリストをデータベースリスト保持手段に保持する保持ステップと、を備え、
    前記データベース管理ステップは、前記状況情報取得ステップにより取得された状況情報に対応する翻訳データベースの識別情報を、前記データベースリスト保持手段が保持するデータベースリストへ登録し、所定のタイミングで前記データベースリストに登録されている翻訳データベースの識別情報の内、保持していない翻訳データベースを外部装置から取得する、画像認識方法。
JP2014000849A 2014-01-07 2014-01-07 画像認識装置、及び画像認識方法 Active JP6227418B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014000849A JP6227418B2 (ja) 2014-01-07 2014-01-07 画像認識装置、及び画像認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014000849A JP6227418B2 (ja) 2014-01-07 2014-01-07 画像認識装置、及び画像認識方法

Publications (2)

Publication Number Publication Date
JP2015130031A JP2015130031A (ja) 2015-07-16
JP6227418B2 true JP6227418B2 (ja) 2017-11-08

Family

ID=53760719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014000849A Active JP6227418B2 (ja) 2014-01-07 2014-01-07 画像認識装置、及び画像認識方法

Country Status (1)

Country Link
JP (1) JP6227418B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004179937A (ja) * 2002-11-27 2004-06-24 Matsushita Electric Ind Co Ltd ドアホン装置
JP4743053B2 (ja) * 2006-09-06 2011-08-10 ヤマハ株式会社 生体認証装置、生体認証方法およびプログラム
JP2011191418A (ja) * 2010-03-12 2011-09-29 Nippon Telegr & Teleph Corp <Ntt> 地域対応手話生成システム、地域対応手話生成方法、および地域対応手話生成プログラム

Also Published As

Publication number Publication date
JP2015130031A (ja) 2015-07-16

Similar Documents

Publication Publication Date Title
US10789078B2 (en) Method and system for inputting information
AU2015259118B2 (en) Natural language image search
KR102567285B1 (ko) 모바일 비디오 서치 기법
US20150161997A1 (en) Using context to interpret natural language speech recognition commands
US9027837B2 (en) Method of recognizing QR code in image data and apparatus and method for converting QR code in content data into touchable object
CN106663109A (zh) 针对移动屏上内容提供自动动作
CN104919522A (zh) 分布式nlu/nlp
US10175863B2 (en) Video content providing scheme
US8965909B2 (en) Type-ahead search optimization
CN108768824B (zh) 信息处理方法及装置
US20140348400A1 (en) Computer-readable recording medium storing program for character input
WO2017052772A1 (en) System and method for accessing images with a captured query image
KR101307325B1 (ko) 관심영역 설정을 이용한 이미지 이중 검색 시스템
KR102408256B1 (ko) 검색을 수행하는 방법 및 장치
JP6227418B2 (ja) 画像認識装置、及び画像認識方法
CN111552527A (zh) 用户界面内文字翻译方法、装置、系统及存储介质
KR101789234B1 (ko) 데이터 태깅 장치, 그의 데이터 태깅 방법 및 데이터 검색 방법
JP6602245B2 (ja) 情報処理装置
CN106959970B (zh) 词库、词库的处理方法、装置和用于处理词库的装置
CN112905825B (zh) 用于信息处理的方法、设备和计算机存储介质
US11403534B2 (en) Acquiring entity webpage link based on topological relationship graph
JP6107003B2 (ja) 辞書更新装置、音声認識システム、辞書更新方法、音声認識方法、および、コンピュータ・プログラム
US20160055180A1 (en) Non-transitory recording medium, information processing device, and method
JP6165595B2 (ja) 帳票識別システム
JP7293764B2 (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171011

R150 Certificate of patent or registration of utility model

Ref document number: 6227418

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250