JP7264547B1

JP7264547B1 - 動作認識方法、および動作認識システム

Info

Publication number: JP7264547B1
Application number: JP2022032015A
Authority: JP
Inventors: 大悟山田
Original assignee: 株式会社ベネモ
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2023-04-25
Anticipated expiration: 2042-03-02
Also published as: JP2023127994A

Abstract

【課題】手話などの規定動作を正確かつ安定して認識できる動作認識方法および動作認識システムを提案する。【解決手段】手話を撮像した動画データに含まれる単位時間毎の単位静止画データＩ～Ｘを取得し、各単位静止画データＩ～Ｘについて、規定動作を特定する手話特定データとの一致率を算出する。次に、各単位静止画データＩ～Ｘに、夫々と最も高い一致率の手話特定データを割り当て、さらに、該一致率が選出用下限値以上である単位静止画データを選出し、時系列で連続し且つ同一の手話特定データが割り当てられた複数の単位静止画データについては一のみを有効とする。次に、時系列順で列なる単位静止画データの手話特定データに基づいて規定動作を判定し、該規定動作が示す手話を翻訳する。【選択図】図５

Description

本発明は、人、動物、および機械等の対象体が行う動作を正確かつ安定して認識し得る動作認識方法および動作認識システムに関する。

例えば特許文献１には、手話を認識して翻訳する装置（および方法）が提案されている。この従来構成は、手話を撮像した動画を表す一連のフレーム画像を取り込んで、該一連のフレーム画像によって表される手話を認識し、翻訳を行うものである。詳述すると、取り込んだ各フレーム画像における手話者の手指の形状と複数のフレーム画像に亘る該手指の時間的変化とに基づいて、テンプレート画像にマッチングするジェスチャを決定する。そして、このジェスチャに対応する手話を判定して、その翻訳を生成する。ここで、従来構成では、顔に対する手指の相対的位置または時間的な手指の相対的変化に応じてジェスチャの差異を識別し、異なるジェスチャまたは手話を判別する。

特開２０１５－６９３９６号公報

一般的に、手話には、複数の特徴的なジェスチャを含むものがあり、さらに、該ジェスチャにより構成される手話が、複数組み合わされることによって、一つの意味合いを表現する場合もある。そして、こうした一の意味合いを表現する場合には、複数のジェスチャが連続して行われることから、該意味合いを認識するためには、これら連続するジェスチャを夫々正確に識別することが必要である。

ところで、前述した従来構成では、フレーム画像における手指の形状が、手話を構成するジェスチャと近似すれば、そのジェスチャが成立したと判別し、成立したジェスチャから可能性のある手話を探索する途中で、該手話で出現しないジェスチャが検出されると、該探索をリセットする。このようにして複数のジェスチャを識別して、手話を判定している。しかし、手話で複数のジェスチャが連続して行われる場合には、ジェスチャ間における手指の動きに、手話者の癖などにより個人差が生ずる。特に、前記複数の手話が組み合わされて一の意味合いを表現する場合には、手話間に次の手話に移行する動作が生じ、この移行動作に個人的な癖が現れ易い。前述の従来構成では、こうしたジェスチャ間の動作や手話間の動作が、手話の探索中に出現しないジェスチャと判定されてしまうと、該探索がリセットされてしまうことから、正確に手話を判定できない場合があった。

本発明は、前述した手話やジェスチャなどの規定動作を正確かつ安定して認識することができる動作認識方法および動作認識システムを提供するものである。

本発明の第一発明は、所定の動作認識手段により実行され、撮像手段で対象体の動作を撮像した画像情報に基づいて、前記動作に含まれる所定の規定動作を認識する動作認識方法であって、前記画像情報に含まれる所定単位時間毎の単位画像情報を取得する単位情報取得ステップと、前記単位情報取得ステップで取得した各単位画像情報を、予め記憶された、前記規定動作を特定するための一又は複数の規定動作特定情報と照合し、単位画像情報毎に、各規定動作特定情報と夫々一致する割合を算出する一致率算出ステップと、単位画像情報毎に、前記一致率算出ステップで算出した前記割合の最も高い規定動作特定情報のみを割り当てると共に、前記割合が所定の選出用下限値以上である単位画像情報を選出する単位情報選出ステップと、前記単位情報選出ステップにより選出された単位画像情報のなかで、時系列で連続し且つ同一の規定動作特定情報が割り当てられた複数の単位画像情報については一のみを有効とし、時系列順に列なる各単位画像情報の規定動作特定情報に基づいて、前記対象体が行った一又は複数の規定動作を判定する規定動作判定ステップと、前記規定動作判定ステップによる判定結果に基づいて規定動作を認識する規定動作認識ステップとを備えていることを特徴とする動作認識方法である。
ここで、「画像情報に含まれる所定単位時間毎の単位画像情報」は、撮像手段で撮像された画像情報に含まれる単位画像情報と、撮像手段で単位時間毎に撮像される単位画像情報とのいずれも含む。後者の場合には、画像情報が複数の単位画像情報により構成される。

かかる方法にあっては、規定動作特定情報と一致する割合（以下、一致率という）に基づいて単位画像情報を選出し、さらに、時系列で連続し且つ同一の規定動作特定情報を割り当てた単位画像情報の一のみを有効とすることから、規定動作の判定に最適な単位画像情報のみを時系列で列ねることができるため、対象体が行った規定動作を正確かつ安定して認識することができる。

ここで、例えば、規定動作と異なる動作を示す単位画像情報があった場合には、規定動作特定情報と不一致または低い一致率となることから、規定動作の判定に採用されない。同様に、規定動作と異なる動作を示す単位画像情報が、他の規定動作特定情報と類似した場合にあっても、当該規定動作特定情報との一致率が低くなることから、規定動作の判定に採用されない。こうしたことから、本発明の方法によれば、規定動作を行った一連の動作に対象体の個体差や癖等が含まれていても、当該規定動作を正確に判別して認識することができる。

本発明の第二発明は、前述した第一発明の動作認識方法にあって、一又は複数の規定動作により構成される手話を翻訳するものであって、前記規定動作認識ステップは、前記規定動作判定ステップにより判定された一又は複数の規定動作を、予め記憶された手話を示す手話照合情報と照合して、当該規定動作が示す手話を翻訳する手話動作翻訳ステップを備えている方法が提案される。

かかる方法にあっては、前述したように規定動作を正確かつ安定して認識できることから、該規定動作で示される手話を正確に翻訳できる。ここで、第二発明の方法では、前述したように手話者（対象体）の個人差や癖等を含む規定動作を正確に認識できることから、当該規定動作に基づいて手話を高精度で翻訳することが可能である。

本発明の第三発明は、前述した第二発明の動作認識方法にあって、前記手話照合情報は、各規定動作に夫々割り当てられた個別翻訳情報と、時系列で連続する複数の規定動作を組み合わせた組合せ動作態様に割り当てられた組合せ翻訳情報とを含むものであって、前記手話動作翻訳ステップでは、前記規定動作判定ステップで判定された複数の規定動作が前記組合せ動作態様と一致した場合に、当該組合せ動作態様の組合せ翻訳情報に従って手話を翻訳する一方、前記規定動作判定ステップで判定された一又は複数の規定動作が前記組合せ動作態様と不一致である場合に、当該規定動作の個別翻訳情報に従って手話を翻訳する方法が提案される。

かかる方法にあっては、規定動作毎に翻訳する場合と、規定動作の組合せ動作態様で翻訳する場合とを正確に判別して行うことができる。ここで、第三発明の方法では、前述したように手話者の個人差や癖等を含む規定動作を正確に認識できることから、規定動作毎の個別翻訳情報で翻訳することと、組合せ動作態様の組合せ翻訳情報で翻訳することとを正確に判別することができ、夫々に最適な翻訳を正確かつ安定して実行できる。尚、個別翻訳情報に比して組合せ翻訳情報による翻訳を優先して行うことが好適であり、一層正確に翻訳できる。

本発明の第四発明は、対象体の動作を撮像する撮像手段と、前記撮像手段により撮像された画像情報に基づいて、前記動作に含まれる所定の規定動作を認識する動作認識手段と、予め定められた複数の前記規定動作を夫々特定するための一又は複数の規定動作特定情報が記憶された情報記憶手段とを備えた動作認識システムであって、前記動作認識手段は、前記画像情報に含まれる所定単位時間毎の単位画像情報を取得する単位情報取得処理と、前記単位情報取得処理で取得した各単位画像情報を、前記情報記憶手段に記憶された前記規定動作特定情報と照合し、単位画像情報毎に、各規定動作特定情報と夫々一致する割合を算出する一致率算出処理と、単位画像情報毎に、前記一致率算出処理で算出した前記割合の最も高い規定動作特定情報のみを割り当てると共に、前記割合が所定の選出用下限値以上である単位画像情報を選出する単位情報選出処理と、前記単位情報選出処理により選出された単位画像情報のなかで、時系列で連続し且つ同一の規定動作特定情報を割り当てた複数の単位画像情報については一のみを有効とし、時系列順に列なる各単位画像情報の規定動作特定情報に基づいて、前記対象体が行った一又は複数の規定動作を判定する動作判定処理と、前記動作判定処理による判定結果に基づいて規定動作を認識する規定動作認識処理とを備えたものであることを特徴とする動作認識システムである。

かかる構成にあっては、前述した第一発明の方法を実現するものであり、該第一発明と同様の作用効果を奏し得る。尚、動作認識手段の単位情報取得処理が第一発明の単位情報取得ステップを実行し、一致率算出処理が一致率算出ステップを実行し、単位情報選出処理が単位情報選出ステップを実行し、動作判定処理が動作判定処理を実行し、規定動作認識処理が規定動作認識ステップを実行するものである。

本発明の第五発明は、前述の第四発明の動作認識システムにあって、前記情報記憶手段は、一又は複数の規定動作により構成される手話を示す手話照合情報が記憶されたものであり、前記規定動作認識処理は、前記動作判定処理により判定された一又は複数の規定動作を、前記情報記憶手段に記憶された前記手話照合情報と照合し、当該規定動作が示す手話を翻訳する手話動作翻訳処理を備えたものであり、前記動作認識手段の手話動作翻訳処理により翻訳した内容を出力する翻訳内容出力手段を備えたものである構成が提案される。

かかる構成にあっては、手話動作翻訳処理が第二発明の手話動作翻訳ステップを実行するものであり、該手話動作翻訳処理により翻訳した内容を出力することから、前述した第二発明と同様の作用効果を奏することができ、手話者（対象体）の個人差や癖等を含む規定動作から手話を正確かつ安定して翻訳できる。

本発明の第六発明は、前述の第五発明の動作認識システムにあって、前記手話照合情報は、各規定動作に夫々割り当てられた個別翻訳情報と、時系列で連続する複数の規定動作を組み合わせた組合せ動作態様に割り当てられた組合せ翻訳情報とを含むものであって、前記手話動作翻訳処理は、前記動作判定処理で判定された一又は複数の規定動作が前記組合せ動作態様と不一致である場合に、当該規定動作の個別翻訳情報に従って手話を翻訳する一方、前記動作判定処理により判定された複数の規定動作が前記組合せ動作態様と一致した場合に、当該組合せ動作態様の組合せ翻訳情報に従って手話を翻訳する構成が提案される。

かかる構成にあっては、前述した第三発明の方法を実現するものであり、該第三発明と同様の作用効果を奏し得る。ここで、第六発明の手話動作翻訳処理が、第三発明の手話動作翻訳ステップを実行するものである。

本発明の動作認識方法によれば、前述したように、対象体の個体差や癖等を含む動作から規定動作を正確に判別して認識することができる。

本発明の動作認識システムにあっては、前記動作認識方法を実現するものであることから、該動作認識方法と同様の作用効果を奏し得る。

実施例の操作端末１を含むシステム全体の構成図である。手話を構成する規定動作Ｍ，Ｎと、手話特定データｍ，ｎ１，ｎ２とを示す説明図である。実施例１の、操作端末１で実行される手話翻訳処理を示すフローチャートである。動画データから生成した単位静止画データＩ～Ｘを示す説明図である。実施例１における、（Ａ）一致率算出処理による処理結果と、（Ｂ）第一選出処理および第二選出処理による処理結果と、（Ｃ）動作判定処理による処理結果とを示す図表である。実施例１における、手話動作翻訳処理による処理過程を示す説明図である。実施例２の手話翻訳処理を示すフローチャートである。実施例２の手話翻訳処理における翻訳確定表示処理を示すフローチャートである。

本発明を具体化した実施例１，２を、添付図面を用いて説明する。

（実施例１）
図１に示す操作端末１は、手話者の手話を撮像してリアルタイムで翻訳することができるものであり、インターネットなどの通信ネットワーク２を介して翻訳管理サーバ３と通信可能に接続される。

翻訳管理サーバ３は、操作端末１に通信ネットワーク２を介して手話の翻訳サービスを提供するものであり、一台または複数台のコンピュータにより構成される。この翻訳管理サーバ３は、操作端末１にアプリケーションソフトやデータ等を提供する機能を有しており、中央制御装置６、記憶装置７、および送受信装置８を備え、該記憶装置７に前記アプリケーションソフトやデータ等が記憶されている。ここで、アプリケーションソフトは、手話を翻訳する処理（後述の手話翻訳処理）を実行する専用のプログラムにより構成され、操作端末１にインストールされて実行される。翻訳管理サーバ３の記憶装置７には、こうした手話翻訳専用のアプリケーションソフトと、該アプリケーションソフトで使用される手話翻訳用のデータとが記憶されている。手話翻訳用のデータとして、規定動作に関するデータ（手話特定データ、組合せ動作態様のデータなど）と手話の翻訳に関するデータ（個別翻訳データ、組合せ翻訳データなど）とが、前記記憶装置７に記憶されており、サーバ管理者によって、これらデータの更新追加が随時行われる。

操作端末１は、通信ネットワーク２を介して前記翻訳管理サーバ３と通信するための無線通信機能および／又は有線通信機能を備えた情報端末装置（例えば、タブレットＰＣ、スマートフォン、ノート型パソコン、デスクトップ型パソコン、ヘッドマウントディスプレイなど）によって構成される。本実施例にあって、操作端末１をスマートフォンとしている。こうした操作端末１は、通信ネットワーク２を介してダウンロードされた手話翻訳専用のアプリケーションソフトがインストールされたものであり、該アプリケーションソフトの動作に必要な手話翻訳用のデータもダウンロードされて記憶されている。さらに、翻訳管理サーバ３で、手話翻訳専用のアプリケーションソフトがバージョンアップされた場合や手話翻訳用データの更新追加が行われた場合などでは、これらが操作端末１に随時ダウンロードされる。

本実施例におけるスマートフォンからなる操作端末１は、制御装置（ＣＰＵ）１１、記憶装置（ＲＯＭやＲＡＭ）１２、入力機能付きのディスプレイ（タッチパネル）１３、送受信装置１４、カメラ１５、スピーカ１６、およびマイク１７等を備える。操作端末１では、前記した手話翻訳用のアプリケーションソフトとデータとが記憶装置１２に記憶されており、ディスプレイ１３を介した入力操作によって、該アプリケーションソフトが起動される。尚、こうした制御装置１１やカメラ１５等のハードウエアは、一般的なスマーフォンで用いられるものであることから、詳細な説明は省略する。

操作端末１の記憶装置１２には、前記手話翻訳用のアプリケーションソフトが記憶される領域、前記手話翻訳用のデータが記憶される領域、および前記カメラ１５で撮像したデータが記憶される領域などを備える。

この記憶装置１２に記憶される手話翻訳用のデータとしては、手話を特定するための画像データ（手話特定データ、組合せ動作態様を示すデータなど）と、手話を翻訳するデータ（個別翻訳データ、組合せ翻訳データなど）とを含む。
ここで、手話は、一般的に、手指を単一のポーズ（姿勢）をする動作で表されるものと、手指を一のポーズから他のポーズへ変遷させる一連の動作で表されるものとがあり、いずれの動作（以下、規定動作という）も、一の意味合いを有する手話の最小単位を構成する。すなわち、本実施例では、一の意味合いを有する最小単位の手話を構成する動作を、規定動作という。さらに、手話には、前記規定動作を複数組み合わせることにより一の意味合いを生じさせるものもあり、本実施例では、一の意味合いを有する規定動作の組み合わせを、組合せ動作態様という。このように手話は、一または複数の規定動作により構成されている。

前記手話特定データは、規定動作を特定するための画像データであり、各規定動作に一又は複数の手話特定データが夫々設定されている。単一のポーズによる規定動作には、該ポーズを表す少数（１個～３個程度）の手話特定データが設定される一方、一連の規定動作には、該規定動作の開始から終了までの間における特徴的な手指の形態を示した複数の手話特定データが設定されている。そして、各規定動作には、最小単位の手話を翻訳した個別翻訳データが夫々割り当てられていると共に、前記組合せ動作態様には、複数の規定動作を組み合わせた手話を翻訳する組合せ翻訳データが割り当てられている。

具体例として、図２に、単一のポーズによる規定動作Ｍで構成される手話と、一連の規定動作Ｎで構成される手話とを示す。これら規定動作Ｍ，Ｎは、最小単位の手話を構成し、且つ両者の組合せにより組合せ動作態様（規定動作Ｎ＋規定動作Ｎ）を構成するものであり、規定動作Ｍを特定する一個の手話特定データｍと規定動作Ｎを特定する複数の手話特定データｎ１，ｎ２とが予め設定されている。そして、各規定動作Ｍ，Ｎに、最小単位の手話を翻訳した個別翻訳データが設定されていると共に、両者を組み合わせた組合せ動作態様に組合せ翻訳データが設定されている。

このように操作端末１の記憶装置１２には、手話特定データ、組合せ翻訳態様を示すデータ、個別翻訳データ、および組合せ翻訳データが適宜紐付けられて記憶されている。

次に、操作端末１による、手話を翻訳する一連の作動について説明する。
手話翻訳の一連の作動は、前記した手話翻訳用のアプリケーションソフトを起動することによって実行される。図３に、このアプリケーションソフトにより実行される手話翻訳処理のフローチャートを示す。

手話翻訳処理は、Ｓ１０１で画像情報取得処理を実行する。画像情報取得処理では、カメラ１５により撮像された動画データを取得する。この動画データは、手話者による手話を撮像したデータであり、該手話者の上半身が映るように撮影されている（図４参照）。ここで、手話翻訳用のアプリケーションソフトでは、画像情報取得処理を介してカメラ１５を起動させることができ、該カメラ１５で撮像された動画データをリアルタイムで取得することが可能である。このように画像情報取得処理では、カメラ１５で撮像された動作データを直接的に取得可能である一方、画像情報取得処理を介さずにカメラ１５を起動して撮像された動画データを記憶装置１２から取得することも可能である。尚、前記したスマートフォン等の操作端末１では、一般的に、カメラ１５で撮像された動画データ（および静止画データ）は、記憶装置１２に記憶される。

Ｓ１０２では、単位画像情報取得処理を実行する。単位画像情報取得処理では、前記画像情報取得処理で取得した動画データから、予め設定された単位時間（例えば、１／３０秒）毎に静止画像情報（以下、単位静止画データという）を生成する。これにより、動画データから多数の単位静止画データを生成する（図４参照）。

Ｓ１０３では、一致率算出処理を実行する。一致率算出処理では、記憶装置１２に記憶された前記手話特定データ（図２参照）を読み込んで、単位画像情報取得処理で生成した各単位静止画データと照合する。そして、各単位静止画データについて、各手話特定データと一致する割合（以下、一致率という）を夫々算出する。ここで、一致率の算出には、従来から公知のＡＩによる画像判定処理を適用できる。これにより、各単位静止画データには、複数の手話特定データとの一致率が夫々算出される（図５参照）。

Ｓ１０４では、第一選出処理を実行する。第一選出処理では、単位静止画データ毎に、前記一致率算出処理で算出した一致率が最も高くなった手話特定データのみを夫々割り当てる。

Ｓ１０５では、第二選出処理を実行する。第二選出処理では、各単位静止画データについて、前記第一選出処理で夫々割り当てられた手話特定データとの一致率が所定の選出用下限値（例えば、８０％）以上か否かを判定し、手話特定データとの一致率が該選出用下限値以上の単位静止画データのみを選出する。ここで、本実施例では、手話特定データとの一致率が選出用下限値未満の単位静止画データを削除し、該一致率が選出用下限値以上の単位静止画データを残している。尚、選出用下限値は、適宜設定可能であるが、規定動作の判定精度と手話者の個人差とを考慮すれば、７０％～９５％の範囲内で設定されることが好適であり、さらには７５％～９０％の範囲内で設定することが一層好ましい。本実施例では、８０％に設定した。

Ｓ１０６では、動作判定処理を実行する。動作判定処理では、前記第二選出処理で選択した単位静止画データを時系列順に列ねる。そして、同一の規定動作を特定する手話特定データを割り当てた複数の単位静止画データが時系列で連続していると、この中で一の単位静止画データのみを有効として他を無効とする。ここで、本実施例では、無効とする単位静止画データを削除する。こうして残った単位静止画データの手話特定データによって、該単位静止画データを取得した前記動画データに映る一又は複数の規定動作を判定する（図６参照）。尚ここで、複数の手話特定データにより構成される規定動作については、各規定動作を構成する全ての手話特定データがあるか否かを判定し、各規定動作の特定に必要な全ての手話特定データがある場合には、その規定動作を有りと判定する一方、一部の手話特定データのみがある場合には、その規定動作を無しと判定する。

Ｓ１０７では、手話動作翻訳処理を実行する。手話動作翻訳処理では、前記動作判定処理で判定された規定動作に、前記組合せ動作態様を成すものがあるか否かを判定する。組合せ動作態様を成す規定動作が無い場合には、各規定動作に夫々割り当てられている個別翻訳データを確定する。一方、組合せ動作態様を成す複数の規定動作がある場合には、該組合せ動作態様に割り当てられた組合せ翻訳データを確定し、他に規定動作があれば、夫々の個別翻訳データを確定する。

Ｓ１０８では、翻訳出力処理を実行する。翻訳出力処理では、前記手話動作翻訳処理で確定した個別翻訳データと組み合わせ翻訳データとを、ディスプレイ１３で表示する。

次に、手話の撮像から翻訳結果の表示までの一連の流れを、具体例により説明する。
操作端末１で手話翻訳用のアプリケーションソフトを起動して、手話を行う手話者をカメラ１５により撮像する。ここで、手話者は、図２に示す規定動作Ｍと規定動作Ｎとを組み合わせた手話を行ったとする。

前記手話者の手話を撮像した動画データには、通常、規定動作Ｍと規定動作Ｎとが含まれるだけでなく、規定動作Ｍ，Ｎを行う前後の動作や中間の動作なども含まれる。

操作端末１では、手話翻訳用のアプリケーションソフトで前記手話翻訳処理が実行され、カメラ１５で撮像した前記動画データを取得すると、該動作データから、図４に示す複数の単位静止画データＩ～Ｘが生成される。そして、これら各単位静止画データＩ～Ｘについて、図５（Ａ）に示すように、記憶装置１２から読み込んだ手話特定データとの一致率を夫々算出する。ここで、単位静止画データＩ～Ｘは、規定動作Ｍ，Ｎを含むものであることから、該規定動作Ｍの手話特定データｍと規定動作Ｎの手話特定データｎ１，ｎ２との一致率が算出される。さらには、規定動作Ｍ，Ｎの他にも多数の規定動作を夫々特定する手話特定データが記憶されていることから、これら各手話特定データとの一致率も算出される。尚、本実施例にあっては、一致率が所定の不一致値（例えば、５０％）未満であると、不一致であるとみなして、一致率無しとする。

前記一致率の算出後に、各単位静止画データＩ～Ｘで最も一致率の高い手話特定データのみを夫々有効として割り当てる。これにより、各単位静止画データＩ～Ｘと、夫々に最も一致率の高い手話特定データとが対応付けられる。この後、各単位静止画データＩ～Ｘで、夫々割り当てられた手話特定データとの一致率が前記選出用下限値（例えば、８０％）以上のものを選出し、該選出用下限値未満のものを削除する。これにより、図５（Ｂ）に示すように、単位静止画データI, III, IV,Ｖ,VI,VII,Xを選出し、単位静止画データII, VIII,IXを削除する。

さらに、前記選出用下限値以上の単位静止画データI, III, IV,Ｖ,VI,VII,Xを時系列順に列ねる。そして、図５（Ｃ）に示すように、同一の手話特定データを割り当てた複数の単位静止画データが複数連続すれば、この中で一の単位静止画データのみを有効として、他を削除する。これにより、時系列順で連続する単位静止画データIIIと単位静止画データIVとに同一の手話特定データｍが割り当てられていることから、一方（単位静止画データIV）を削除する。同様に、同一の手話特定データｎ２が割り当てられた単位静止画データVI,VIIの一方を削除する。

残った単位静止画データI,III,V,VI,Xについて、この中で組合せ動作態様に該当するものがあるか否かを判定し、組合せ動作態様があれば、該組合せ動作態様の組合せ翻訳データを確定する。そして、組合せ動作態様に該当しない単位静止画データの個別翻訳データを確定する。これにより、図６に示すように、単位静止画データIIIの規定動作Ｍと単位静止画データV,VIの規定動作Ｎとが組合せ動作態様に該当することから、当該組合せ動作態様に示された組合せ翻訳データ「おはよう」を確定する。一方、これ以外の単位静止画データI,Xは、夫々が規定動作を特定できないことから、個別翻訳データを確定せずに無効とする。ここでは、単位静止画データI,Xの手話特定データｈは、他の手話特定データと共に一の手話を構成するものであることから、単独で規定動作を特定できず、手話とならない。

組合せ翻訳データを確定すると、操作端末１のディスプレイ１３に「おはよう」と表示する。尚、この具体例では、組合せ翻訳データのみを確定したが、個別翻訳データを確定すれば、それが表示される。

また、本実施例の構成は、カメラ１５により撮像した動画データをリアルタイムで翻訳するだけでなく、予め記憶装置１２に記憶された動画データを翻訳することも可能である。さらには、通信ネットワーク２を介して取得した動画データを翻訳することも可能である。いずれの場合も前述と同様に翻訳することができる。

このように本実施例の操作端末１によれば、そのカメラ１５で撮像した手話者の手話を正確かつ安定して翻訳することができる。これは、動作データから生成した複数の単位静止画データを、手話特定データとの一致率が選出用下限値以上のものを選出し、さらに時系列で連続し且つ同一の手話特定データを割り当てた単位静止画データの一のみを有効とすることにより、手話を構成する規定動作を高精度で正確に認識できることに因る。加えて、複数の規定動作を組み合わせた組合せ動作態様に該当するか否かを判別することによって、単一の規定動作で構成される手話と複数の規定動作で構成する手話とを夫々適切に判別できることから、前記した正確かつ安定した翻訳を行うことができる。

（実施例２）
実施例２は、前記した一致率の算出処理を翻訳管理サーバ３で実行する構成である。すなわち、翻訳管理サーバ３は、その記憶装置７に、前記した手話特定データが記憶されており、操作端末１から単位静止画データが送信されると、該単位静止画データと各手話特定データとの一致率を夫々算出して、この算出結果を示すデータを操作端末１へ送信する。一方、操作端末１では、翻訳管理サーバ３から取得した前記一致率のデータに基づいて、手話の翻訳処理を実行する。

実施例２にあって、操作端末１の記憶装置１２には、組合せ動作態様を示すデータ、個別翻訳データ、および組合せ翻訳データなどが記憶されており、これら各データが前記手話特定データと紐付けられて翻訳辞書リストとして整理されている。ここで、操作端末１の記憶装置１２には、手話特定データ自体が記憶されておらず、各手話特定データを夫々示す記号（以下、特定用記号という）が記憶されている。この特定用記号は、手話特定データと同数設定されて１対１で対応付けられており、各特定用記号を介して、前記組合せ動作態様を示すデータ、個別翻訳データ、および組合せ翻訳データ等が各手話特定データに夫々紐付けられている。具体的には、前記した手話特定データｍを示す特定用記号がｍであり、同様に、手話特定データｎ１の特定用記号がｎ１、手話特定データｎ２の特定用記号がｎ２である。そして、実施例２にあって、組合せ動作態様には、特定用記号ｎ１，ｎ２を時系列順に列ねたものや、特定用記号ｍ，ｎ１，ｎ２を時系列順に列ねたものが設定されている。

さらに、操作端末１の記憶装置１２には、後述する手話翻訳処理（図７参照）により前記特定用記号を当該処理の時系列順に列ねて一時的に記憶する翻訳待機リストが設定されている。実施例２では、この翻訳待機リストに時系列順に記憶された特定用記号を、前記組合せ動作態様と個別翻訳データと組合せ翻訳データとに基づいて照合することにより、手話の翻訳を行う。

尚、実施例２は、翻訳管理サーバ３の記憶装置７に手話特定データが記憶され、該翻訳管理サーバ３で一致率の算出を実行すること、および後述する図７の手話翻訳処理（図８の翻訳確定処理を含む）を実行すること以外が、前述した実施例１と同じであることから、同じ構成要素には同じ符号を記し、その説明を省略する。

実施例２の操作端末１で実行される手話翻訳処理について、図７，８のフローチャートにより説明する。尚、実施例２の手話翻訳処理は、前述の実施例１と同様に、手話翻訳用のアプリケーションソフトを起動することにより実行される。

実施例２の手話翻訳処理は、Ｓ２００の画像情報取得処理により、カメラ１５から単位静止画データを取得する。ここで、画像情報取得処理で取得される単位静止画データは、カメラ１５のフレームレートに従って撮像された１フレーム（コマ）毎の静止画を成すデータであり、画像情報取得処理では、該カメラ１５で撮像された１フレーム毎のデータ（単位静止画データ）を取得する。こうして取得した単位静止画データは、操作端末１の記憶装置１２に記憶される。

Ｓ２０５では、一致率データ取得処理を実行する。一致率データ取得処理では、前記画像情報取得処理で取得した単位静止画データを、翻訳管理サーバ３に送信する処理と、該翻訳管理サーバ３から受信した当該単位静止画データの一致率データを取得する処理とを行う。ここで、翻訳管理サーバ３は、操作端末１から単位静止画データを受信すると、該翻訳管理サーバ３の記憶装置７に記憶された前記手話特定データ（図２参照）を読み込み、該単位静止画データと照合する。そして、単位静止画データと各手話特定データとの夫々の一致率を算出し、各手話特定データとの一致率データを操作端末１に送信する。これにより、操作端末１では、単位静止画データの一致率データを取得する。

Ｓ２１０では、データ割当処理を実行する。データ割当処理は、翻訳管理サーバ３から取得した一致率データに基づいて、最も高い一致率を示す手話特定データの前記特定用記号を、当該単位静止画データに割り当てる。

Ｓ２１５では、最も高い一致率が８０％（選出用下限値）以上か否かを判定し、肯定判定（Ｙｅｓ）の場合にＳ２２０に進み、否定判定（Ｎｏ）の場合にＳ２２５に進む。尚、選出用下限値は、前述した実施例１と同様に適宜設定することが可能である。

Ｓ２２０では、前記Ｓ２１０で割り当てた特定用記号（手話特定データ）が、前記の翻訳待機リストに記憶されている特定用記号のなかで、時系列順で最後尾の特定用記号と同一か否かを判定する。そして、肯定判定（Ｙｅｓ）の場合にはＳ２２５に進み、否定判定（Ｎｏ）の場合にはＳ２４０に進む。

Ｓ２２５では、後述する待機時間が経過したか否かを判定し、肯定判定（Ｙｅｓ）の場合にＳ２３０に進み、否定判定（Ｎｏ）の場合にＳ２００に進む。

Ｓ２３０では、翻訳確定表示処理（図８）を実行する。翻訳確定表示処理については、後述する。

Ｓ２４０では、データ追加処理を実行する。このデータ追加処理では、前記翻訳待機リストに、前記Ｓ２１５で割り当てた特定用記号（手話特定データ）を追加して記憶する。ここで、新たに追加される特定用記号は、翻訳待機リストの時系列順の最後尾に記憶される。

Ｓ２４５では、翻訳待機リストに記憶された全ての特定用記号の時系列順序が、翻訳待機リストに記憶された前記組合せ動作態様のいずれかと完全一致するか否かを判定する。そして、肯定判定（Ｙｅｓ）の場合にはＳ２５０に進み、否定判定（Ｎｏ）の場合にはＳ２７０に進む。

Ｓ２５０では、翻訳待機リストに記憶された全ての特定用記号の時系列順序が、翻訳待機リストに記憶された前記組合せ動作態様の前方のみと一致するものが無いか否かを判定する。そして、肯定判定（Ｙｅｓ）の場合にはＳ２５５に進み、否定判定（Ｎｏ）の場合にはＳ２７０に進む。ここで、組合せ動作態様の前方とは、該組合せ動作態様を構成する複数の規定動作のなかで、時系列順で少なくとも最後尾の規定動作を除いた残りの規定動作による時系列順序を示す。例えば、組合せ動作態様が特定用記号ｗ，ｘ，ｙ，ｚの時系列順で構成されているものの場合に、特定用記号ｗ，ｘ，ｙや特定用記号ｗ，ｘ等の時系列順序が、当該組合せ動作態様の前方に相当する。

Ｓ２５５では、翻訳結果表示処理を実行する。翻訳結果表示処理では、翻訳待機リストの全特定用記号の時系列順と完全一致した組合せ動作態様の組合せ翻訳データを確定して、当該組合せ翻訳データを操作端末１のディスプレイ１３で表示する。

Ｓ２６０では、待機リストクリア処理を実行し、翻訳待機リストに記憶されている全ての特定用記号を消去する。このＳ２６０の後にＳ２９５へ進む。

Ｓ２７０では、翻訳待機リストに記憶された全ての特定用記号の時系列順序が、翻訳待機リストに記憶された前記組合せ動作態様の前方のみと一致するものが有るか否かを判定する。そして、肯定判定（Ｙｅｓ）の場合にはＳ２９５に進み、否定判定（Ｎｏ）の場合にはＳ２７５に進む。ここで、組合せ動作態様の前方とは、前記Ｓ２５０と同様である。

Ｓ２７５では、翻訳待機リストで、時系列順の最後尾を除いた他の全特定用記号の順序が、翻訳待機リストに記憶された前記組合せ動作態様のいずれかと完全一致するか否かを判定する。そして、肯定判定（Ｙｅｓ）の場合にはＳ２８０に進み、否定判定（Ｎｏ）の場合にはＳ２９０に進む。

Ｓ２８０では、前記Ｓ２７５で一致した組合せ動作態様の組合せ翻訳データを確定して、当該組合せ翻訳データを操作端末１のディスプレイ１３で表示する。

Ｓ２８５では、待機リスト更新処理を実行し、翻訳待機リストにおける最後尾の特定用記号を除く他全ての特定用記号を消去する。これにより、消去前に最後尾であった特定用記号が時系列順で最前に位置する。このＳ２８５の後にＳ２９５へ進む。

一方、Ｓ２９０では、翻訳確定表示処理を実行し、Ｓ２９５に進む。尚、この翻訳確定表示処理は、前記Ｓ２３０と同じ処理であり、詳細は後述する。

Ｓ２９５では、待機時間更新処理を実行する。待機時間更新処理では、予め設定された待機時間（例えば、３秒間など）をリセットし、新たな待機時間を計時開始する。ここで、待機時間は、手話として有効な動作を判定できる期間（時間）を示しており、手話翻訳用のアプリケーションソフトの起動時に計時開始されて、有効な動作を検知する毎にリセットされる。尚、この待機時間は、手話に要する時間などを考慮して適宜設定される。

次に、前記Ｓ２３０とＳ２９０とで実行される翻訳確定表示処理を、図８に従って説明する。
翻訳確定処理では、Ｓ３００で、翻訳待機リストに特定用記号（手話特定データ）が記憶されているか否かを判定する。そして、肯定判定（Ｙｅｓ）の場合にはＳ３０５に進み、否定判定（Ｎｏ）の場合には翻訳確定処理を終了する。

Ｓ３０５では、翻訳辞書リストに記憶された組合せ動作態様を、前記規定動作の組合せ数の多い順にループ開始する。これにより、翻訳辞書リストに記憶された組合せ動作態様を順次有効として、以下の処理で翻訳待機リストの特定用記号と照合される。尚、組合せ動作態様のループ順序は、予め設定されている。

Ｓ３１０では、前記Ｓ３０５のループにより有効とされた組合せ動作態様が、翻訳待機リストに記憶された時系列順の特定用記号と一致するか否かを判定する。そして、肯定判定（Ｙｅｓ）の場合にはＳ３２０に進み、否定判定（Ｎｏ）の場合にはＳ３３０に進む。

Ｓ３２０では、翻訳表示処理を実行する。翻訳表示処理では、前記Ｓ３１０で一致判定された組合せ動作態様の組合せ翻訳データを確定して、当該組合せ翻訳データを操作端末１のディスプレイ１３で表示する。

Ｓ３２５では、待機リスト更新処理を実行し、前記Ｓ３２０で確定した組合せ動作態様と一致する特定用記号を、翻訳待機リストから消去して、残りの特定用記号を時系列順に列ねる。このＳ３２５の後に、Ｓ３４５に進む。

一方、Ｓ３３０では、翻訳辞書リストに記憶された全ての組合せ翻訳データによる照合が終了したか否かを判定する。そして、肯定判定（Ｙｅｓ）の場合にはＳ３３５に進み、否定判定（Ｎｏ）の場合にはＳ３１０に進む。ここで、Ｓ３１０に進むと、次の組合せ動作態様を有効として、前記Ｓ３１０以下の処理を実行する。

Ｓ３３５では、前記Ｓ３０５で開始した組合せ動作態様のループを終了する。

Ｓ３４０では、リストデータ削除処理を実行する。リストデータ削除処理では、翻訳待機リストに記憶された特定用記号のなかから、時系列順で最前の特定用記号を消去する。そして、残りの全特定用記号が時系列順で一つ前に進む。

Ｓ３４５では、翻訳待機リストに特定用記号が記憶されているか否かを判定し、肯定判定（Ｙｅｓ）の場合にはＳ３０５に進み、否定判定（Ｎｏ）の場合には翻訳確定処理を終了する。

こうした実施例２の手話翻訳処理による翻訳表示の流れを、具体例により説明する。
例えば、前述した実施例１と同様に、手話者の手話を撮像した動画データのフレーム（コマ）が前記単位静止画データＩ～Ｘである場合（図４参照）には、手話翻訳処理（図７，８）が実行されると、カメラ１５による撮像に伴って該単位静止画データＩから順に取得する。

前記単位静止画データＩは、特定用記号（手話特定データ）ｈとの一致率が８０％以上であることから（図５（Ａ）参照）、手話翻訳処理のＳ２４０で翻訳待機リストに記憶される。そして、手話翻訳処理のＳ２７０による肯定判定を介して、次の単位静止画データIIを取得する。尚、この時点の翻訳待機リストには特定用記号ｈ（単位静止画データＩ）のみが記憶されている。

単位静止画データIIは、特定用記号との一致率が８０％未満であることから（図５（Ａ）参照）、Ｓ２１５とＳ２２５とを否定判定され、翻訳待機リストに記憶されない。

次に取得する単位静止画データIIIは、特定用記号ｍとの一致率が８０％以上であることから（図５（Ａ）参照）、翻訳待機リストに記憶される。この時点の翻訳待機リストには特定用記号ｈ（単位静止画データＩ）と特定用記号ｍ（単位静止画データIII）とが時系列順に記憶される。

次に取得する単位静止画データIVは、特定用記号ｍとの一致率が８０％以上であるものの、翻訳待機リストにおける時系列順で最後尾の特定用記号ｍと同じであることから、翻訳待機リストに新たに記憶されない。そのため、この時点では、特定用記号ｈ，ｍが翻訳待機リスに記憶されている。

次に取得する単位静止画データＶは、特定用記号ｎ１との一致率が８０％以上であることから、翻訳待機リストに記憶される。これにより、この時点の翻訳待機リストには、特定用記号ｈ，ｍ，ｎ１が時系列順に記憶される。

次に取得する単位静止画データVIは、特定用記号ｎ２との一致率が８０％以上であることから、翻訳待機リストに記憶される。これにより、この時点の翻訳待機リストには、特定用記号ｈ，ｍ，ｎ１，ｎ２が時系列順に記憶される。

次に取得する単位静止画データVIIは、特定用記号ｎ２との一致率が８０％以上であるものの、翻訳待機リストにおける時系列順で最後尾の特定用記号ｎ２と同じであることから、翻訳待機リストに新たに記憶されない。この後に取得する単位静止画データVIII，IXは、いずれも一致率が８０％未満であることから、翻訳待機リストに記憶されない。

次に取得する単位静止画データＸは、特定用記号ｈとの一致率が８０％以上であることから、翻訳待機リストに記憶される。これにより、この時点の翻訳待機リストには、特定用記号ｈ，ｍ，ｎ１，ｎ２，ｈが時系列順に記憶される（図５（Ｃ）参照）。

こうした単位静止画データＸの取得後から待機時間が経過すると、図８の翻訳確定表示処理が実行される。ここで、特定用記号ｍ，ｎ１，ｎ２が組合せ動作態様に一致することから、組合せ翻訳データ「こんにちは」がディスプレイ１３で表示される。尚、特定用記号ｈは、翻訳辞書リストの個別翻訳データと一致しないことから、削除される。

実施例２の構成は、操作端末１のカメラ１５で撮像中に、該カメラ１５で撮像される動画データを構成する１フレーム（コマ）の単位静止画データを順次リアルタイムで取得し、手話翻訳処理（図７，８）により手話の翻訳を行う。実施例２の手話翻訳処理は、有効な動作の検知毎にリセットされる待機時間を計時し、該待機時間で順次取得する単位静止画データを、前記一致率が選出用下限値以上であり且つ同一の特定用記号（手話特定データ）が時系列で連続しないことを条件として、翻訳待機リストに記憶する。そして、この翻訳待機リストを、規定動作の組合せ数が多い組合せ動作態様を優先して照合し、手話の翻訳を行う。

このように実施例２にあっても、前述した実施例１と同様に、手話を構成する規定動作を高精度で正確に認識でき、操作端末１のカメラ１５で撮像した手話者の手話を正確かつ安定して翻訳できる。

尚、実施例１，２の構成にあって、手話者が、本発明の対象体に相当する。
実施例１にあって、手話翻訳用のアプリケーションソフトがインストールされた操作端末１が、本発明にかかる動作認識システムに相当する。当該操作端末１で実行される手話翻訳処理によって、本発明にかかる動作認識方法が実現される。
実施例２にあって、翻訳管理サーバ３と、手話翻訳用のアプリケーションソフトがインストールされた操作端末１とが、本発明にかかる動作認識システムに相当する。操作端末１で実行される手話翻訳処理と、翻訳管理サーバ３で実行される単位静止画データと手話特定データとの照合処理とにより、本発明にかかる動作認識方法が実現される。
実施例１，２にあって、操作端末１のカメラ１５が、本発明の撮像手段に相当し、ディスプレイ１３が、本発明にかかる翻訳情報出力手段に相当する。
実施例１にあって、操作端末１の記憶装置１２が、本発明の情報記憶手段に相当する。手話翻訳処理を実行する制御装置１１を備えた操作端末１が、本発明の動作認識手段に相当する。ディスプレイ１３が、本発明にかかる翻訳情報出力手段に相当する。
実施例２にあって、操作端末１の記憶装置１２と翻訳管理サーバ３の記憶装置７とが、本発明の情報記憶手段に相当する。手話翻訳処理を実行する制御装置１１を備えた操作端末１と、単位静止画データと手話特定データとの照合処理を実行する中央制御装置６を備えた翻訳管理サーバ３とが、本発明の動作認識手段に相当する。
実施例１，２にあって、カメラ１５により撮像される動画データが、本発明にかかる画像情報に相当し、単位静止画データが、本発明にかかる単位画像情報に相当する。手話特定データが、本発明にかかる規定動作特定情報に相当する。個別翻訳データが、本発明にかかる個別翻訳情報に相当し、組合せ翻訳データが、本発明にかかる組合せ翻訳情報に相当する。そして、個別翻訳データと組合せ翻訳データとが、本発明の手話照合情報に相当する。
実施例１にあって、動作翻訳処理の画像情報取得処理および単位画像情報取得処理が、本発明にかかる単位情報取得ステップと単位情報取得処理とに相当する。
実施例２にあって、画像情報取得処理が、本発明にかかる単位情報取得ステップと単位情報取得処理とに相当する。
実施例１の一致率算出処理が、本発明にかかる一致率算出ステップに相当する。
実施例２にあって、翻訳管理サーバ３により単位静止画データと手話特定データとを照合して一致率を算出する処理が、本発明にかかる一致率算出ステップと一致率算出処理とに相当する。
実施例１にあって、第一選出処理および第二選出処理が、本発明にかかる単位情報選出ステップと単位情報選出処理とに相当する。
実施例２にあって、手話翻訳処理のＳ２１０～Ｓ２２０が、本発明にかかる単位情報選出ステップと単位情報選出処理とに相当する。
実施例１にあって、動作判定処理が、本発明にかかる規定動作判定ステップに相当する。
実施例２にあって、手話翻訳処理のＳ２４０～Ｓ２５０およびＳ２７０～Ｓ２７５と、翻訳確定処理のＳ３００～Ｓ３１０およびＳ３２５～Ｓ３４５とが、本発明にかかる規定動作判定ステップに相当する。
実施例１にあって、手話動作翻訳処理が、本発明にかかる手話動作翻訳ステップ（規定動作認識ステップ）と手話動作翻訳処理（規定動作認識処理）とに相当する。
実施例２にあって、手話翻訳処理のＳ２５５およびＳ２８０と、翻訳確定表示意処理のＳ３２０とが、本発明にかかる手話動作翻訳ステップ（規定動作認識ステップ）と手話動作翻訳処理（規定動作認識処理）とに相当する。

本発明は、前述した実施例に限定されず、本発明の趣旨を逸脱しない範囲内で適宜変更することが可能である。
実施例１，２では、操作端末１がスマートフォンであるが、これに限らず、タブレットＰＣ、ノートパソコン、デスクトップパソコン、又はヘッドマウントディスプレイなどの情報端末装置（通信機能を備えた情報端末装置）とできる。また、実施例１，２では、操作端末１がカメラ１５を備えものであるが、着脱可能なカメラであっても良い。
実施例１では、手話翻訳用のアプリケーションソフトをインストールした操作端末１が独立して手話翻訳を実施できる構成としたが、これに限らず、例えば、実施例２と同様に、通信ネットワーク２を介して翻訳管理サーバ３とデータの送受信を行うことによって、手話の翻訳を行うようにしても良い。又は、実施例２の構成にあって、実施例１と同様に、操作端末１で単位静止画データを手話特定データと照合して一致率を算出する構成とすることもできる。
実施例１では、手話翻訳処理で第一選出処理により単位静止画データに最も一致率の高い手話特定データを割り当てた後に、第二選出処理により選出用下限値以上の該一致率を割り当てた単位静止画データのみを選出するようにしたが、これに限らず、第一選出処理の前に第二選出処理を実行するようにしても良い。
同様に、実施例２にあっても、手話翻訳処理のＳ２１５をＳ２１０の前に実行するようにしても良い。
実施例１，２では、翻訳をディスプレイ１３で表示するようにしたが、これに限らず、スピーカ１６から音声により出力するようにしても良い。さらには、ディスプレイ１３の表示とスピーカ１６の出力とを両方行うようにしても良いし、一方または両方を選択可能としても良い。
実施例１，２は、手話翻訳を行う構成について例示したが、これに限らず、対象体（人、動物、機械など）の動作を認識する構成とすることも可能である。具体的には、ゲームなどで参加者の動作（規定動作）を認識する構成に適用することができる。この場合には、例えば、実施例１の規定動作を認識する処理（手話判定処理のＳ１０１～Ｓ１０７）によって実現できる。

１操作端末
２通信ネットワーク
３翻訳管理サーバ
１１制御装置
１２記憶装置
１３ディスプレイ
１４送受信装置
１５カメラ（撮像手段）
１６スピーカ
１７マイク
Ｍ，Ｎ規定動作
ｍ，ｎ１，ｎ２手話特定データ（規定動作特定情報）
Ｉ～Ｘ単位静止画データ（単位画像情報）

Claims

所定の動作認識手段により実行され、撮像手段で対象体の動作を撮像した画像情報に基づいて、前記動作に含まれる所定の規定動作を認識する動作認識方法であって、
前記画像情報に含まれる所定単位時間毎の単位画像情報を取得する単位情報取得ステップと、
前記単位情報取得ステップで取得した各単位画像情報を、予め記憶された、前記規定動作を特定するための一又は複数の規定動作特定情報と照合し、単位画像情報毎に、各規定動作特定情報と夫々一致する割合を算出する一致率算出ステップと、
単位画像情報毎に、前記一致率算出ステップで算出した前記割合の最も高い規定動作特定情報のみを割り当てると共に、前記割合が所定の選出用下限値以上である単位画像情報を選出する単位情報選出ステップと、
前記単位情報選出ステップにより選出された単位画像情報のなかで、時系列で連続し且つ同一の規定動作特定情報が割り当てられた複数の単位画像情報については一のみを有効とし、時系列順に列なる各単位画像情報の規定動作特定情報に基づいて、前記対象体が行った一又は複数の規定動作を判定する規定動作判定ステップと、
前記規定動作判定ステップによる判定結果に基づいて規定動作を認識する規定動作認識ステップと
を備えていることを特徴とする動作認識方法。
一又は複数の規定動作により構成される手話を翻訳するものであって、
前記規定動作認識ステップは、
前記規定動作判定ステップにより判定された一又は複数の規定動作を、予め記憶された手話を示す手話照合情報と照合して、当該規定動作が示す手話を翻訳する手話動作翻訳ステップを備えていることを特徴とする請求項１に記載の動作認識方法。
前記手話照合情報は、各規定動作に夫々割り当てられた個別翻訳情報と、時系列で連続する複数の規定動作を組み合わせた組合せ動作態様に割り当てられた組合せ翻訳情報とを含むものであって、
前記手話動作翻訳ステップでは、
前記規定動作判定ステップで判定された複数の規定動作が前記組合せ動作態様と一致した場合に、当該組合せ動作態様の組合せ翻訳情報に従って手話を翻訳する一方、
前記規定動作判定ステップで判定された一又は複数の規定動作が前記組合せ動作態様と不一致である場合に、当該規定動作の個別翻訳情報に従って手話を翻訳することを特徴とする請求項２に記載の動作認識方法。
対象体の動作を撮像する撮像手段と、
前記撮像手段により撮像された画像情報に基づいて、前記動作に含まれる所定の規定動作を認識する動作認識手段と、
予め定められた複数の前記規定動作を夫々特定するための一又は複数の規定動作特定情報が記憶された情報記憶手段と
を備えた動作認識システムであって、
前記動作認識手段は、
前記画像情報に含まれる所定単位時間毎の単位画像情報を取得する単位情報取得処理と、
前記単位情報取得処理で取得した各単位画像情報を、前記情報記憶手段に記憶された前記規定動作特定情報と照合し、単位画像情報毎に、各規定動作特定情報と夫々一致する割合を算出する一致率算出処理と、
単位画像情報毎に、前記一致率算出処理で算出した前記割合の最も高い規定動作特定情報のみを割り当てると共に、前記割合が所定の選出用下限値以上である単位画像情報を選出する単位情報選出処理と、
前記単位情報選出処理により選出された単位画像情報のなかで、時系列で連続し且つ同一の規定動作特定情報を割り当てた複数の単位画像情報については一のみを有効とし、時系列順に列なる各単位画像情報の規定動作特定情報に基づいて、前記対象体が行った一又は複数の規定動作を判定する動作判定処理と、
前記動作判定処理による判定結果に基づいて規定動作を認識する規定動作認識処理と
を備えたものであることを特徴とする動作認識システム。
前記情報記憶手段は、一又は複数の規定動作により構成される手話を示す手話照合情報が記憶されたものであり、
前記規定動作認識処理は、
前記動作判定処理により判定された一又は複数の規定動作を、前記情報記憶手段に記憶された前記手話照合情報と照合し、当該規定動作が示す手話を翻訳する手話動作翻訳処理を備えたものであり、
前記動作認識手段の手話動作翻訳処理により翻訳した内容を出力する翻訳内容出力手段を備えたものであることを特徴とする請求項４に記載の動作認識システム。
前記手話照合情報は、各規定動作に夫々割り当てられた個別翻訳情報と、時系列で連続する複数の規定動作を組み合わせた組合せ動作態様に割り当てられた組合せ翻訳情報とを含むものであって、
前記手話動作翻訳処理は、
前記動作判定処理により判定された複数の規定動作が前記組合せ動作態様と一致した場合に、当該組合せ動作態様の組合せ翻訳情報に従って手話を翻訳する一方、
前記動作判定処理で判定された一又は複数の規定動作が前記組合せ動作態様と不一致である場合に、当該規定動作の個別翻訳情報に従って手話を翻訳することを特徴とする請求項５に記載の動作認識システム。