JP7264547B1 - 動作認識方法、および動作認識システム - Google Patents
動作認識方法、および動作認識システム Download PDFInfo
- Publication number
- JP7264547B1 JP7264547B1 JP2022032015A JP2022032015A JP7264547B1 JP 7264547 B1 JP7264547 B1 JP 7264547B1 JP 2022032015 A JP2022032015 A JP 2022032015A JP 2022032015 A JP2022032015 A JP 2022032015A JP 7264547 B1 JP7264547 B1 JP 7264547B1
- Authority
- JP
- Japan
- Prior art keywords
- sign language
- action
- information
- translation
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
【課題】手話などの規定動作を正確かつ安定して認識できる動作認識方法および動作認識システムを提案する。【解決手段】手話を撮像した動画データに含まれる単位時間毎の単位静止画データI~Xを取得し、各単位静止画データI~Xについて、規定動作を特定する手話特定データとの一致率を算出する。次に、各単位静止画データI~Xに、夫々と最も高い一致率の手話特定データを割り当て、さらに、該一致率が選出用下限値以上である単位静止画データを選出し、時系列で連続し且つ同一の手話特定データが割り当てられた複数の単位静止画データについては一のみを有効とする。次に、時系列順で列なる単位静止画データの手話特定データに基づいて規定動作を判定し、該規定動作が示す手話を翻訳する。【選択図】図5
Description
本発明は、人、動物、および機械等の対象体が行う動作を正確かつ安定して認識し得る動作認識方法および動作認識システムに関する。
例えば特許文献1には、手話を認識して翻訳する装置(および方法)が提案されている。この従来構成は、手話を撮像した動画を表す一連のフレーム画像を取り込んで、該一連のフレーム画像によって表される手話を認識し、翻訳を行うものである。詳述すると、取り込んだ各フレーム画像における手話者の手指の形状と複数のフレーム画像に亘る該手指の時間的変化とに基づいて、テンプレート画像にマッチングするジェスチャを決定する。そして、このジェスチャに対応する手話を判定して、その翻訳を生成する。ここで、従来構成では、顔に対する手指の相対的位置または時間的な手指の相対的変化に応じてジェスチャの差異を識別し、異なるジェスチャまたは手話を判別する。
一般的に、手話には、複数の特徴的なジェスチャを含むものがあり、さらに、該ジェスチャにより構成される手話が、複数組み合わされることによって、一つの意味合いを表現する場合もある。そして、こうした一の意味合いを表現する場合には、複数のジェスチャが連続して行われることから、該意味合いを認識するためには、これら連続するジェスチャを夫々正確に識別することが必要である。
ところで、前述した従来構成では、フレーム画像における手指の形状が、手話を構成するジェスチャと近似すれば、そのジェスチャが成立したと判別し、成立したジェスチャから可能性のある手話を探索する途中で、該手話で出現しないジェスチャが検出されると、該探索をリセットする。このようにして複数のジェスチャを識別して、手話を判定している。しかし、手話で複数のジェスチャが連続して行われる場合には、ジェスチャ間における手指の動きに、手話者の癖などにより個人差が生ずる。特に、前記複数の手話が組み合わされて一の意味合いを表現する場合には、手話間に次の手話に移行する動作が生じ、この移行動作に個人的な癖が現れ易い。前述の従来構成では、こうしたジェスチャ間の動作や手話間の動作が、手話の探索中に出現しないジェスチャと判定されてしまうと、該探索がリセットされてしまうことから、正確に手話を判定できない場合があった。
本発明は、前述した手話やジェスチャなどの規定動作を正確かつ安定して認識することができる動作認識方法および動作認識システムを提供するものである。
本発明の第一発明は、所定の動作認識手段により実行され、撮像手段で対象体の動作を撮像した画像情報に基づいて、前記動作に含まれる所定の規定動作を認識する動作認識方法であって、前記画像情報に含まれる所定単位時間毎の単位画像情報を取得する単位情報取得ステップと、前記単位情報取得ステップで取得した各単位画像情報を、予め記憶された、前記規定動作を特定するための一又は複数の規定動作特定情報と照合し、単位画像情報毎に、各規定動作特定情報と夫々一致する割合を算出する一致率算出ステップと、単位画像情報毎に、前記一致率算出ステップで算出した前記割合の最も高い規定動作特定情報のみを割り当てると共に、前記割合が所定の選出用下限値以上である単位画像情報を選出する単位情報選出ステップと、前記単位情報選出ステップにより選出された単位画像情報のなかで、時系列で連続し且つ同一の規定動作特定情報が割り当てられた複数の単位画像情報については一のみを有効とし、時系列順に列なる各単位画像情報の規定動作特定情報に基づいて、前記対象体が行った一又は複数の規定動作を判定する規定動作判定ステップと、前記規定動作判定ステップによる判定結果に基づいて規定動作を認識する規定動作認識ステップとを備えていることを特徴とする動作認識方法である。
ここで、「画像情報に含まれる所定単位時間毎の単位画像情報」は、撮像手段で撮像された画像情報に含まれる単位画像情報と、撮像手段で単位時間毎に撮像される単位画像情報とのいずれも含む。後者の場合には、画像情報が複数の単位画像情報により構成される。
ここで、「画像情報に含まれる所定単位時間毎の単位画像情報」は、撮像手段で撮像された画像情報に含まれる単位画像情報と、撮像手段で単位時間毎に撮像される単位画像情報とのいずれも含む。後者の場合には、画像情報が複数の単位画像情報により構成される。
かかる方法にあっては、規定動作特定情報と一致する割合(以下、一致率という)に基づいて単位画像情報を選出し、さらに、時系列で連続し且つ同一の規定動作特定情報を割り当てた単位画像情報の一のみを有効とすることから、規定動作の判定に最適な単位画像情報のみを時系列で列ねることができるため、対象体が行った規定動作を正確かつ安定して認識することができる。
ここで、例えば、規定動作と異なる動作を示す単位画像情報があった場合には、規定動作特定情報と不一致または低い一致率となることから、規定動作の判定に採用されない。同様に、規定動作と異なる動作を示す単位画像情報が、他の規定動作特定情報と類似した場合にあっても、当該規定動作特定情報との一致率が低くなることから、規定動作の判定に採用されない。こうしたことから、本発明の方法によれば、規定動作を行った一連の動作に対象体の個体差や癖等が含まれていても、当該規定動作を正確に判別して認識することができる。
本発明の第二発明は、前述した第一発明の動作認識方法にあって、一又は複数の規定動作により構成される手話を翻訳するものであって、前記規定動作認識ステップは、前記規定動作判定ステップにより判定された一又は複数の規定動作を、予め記憶された手話を示す手話照合情報と照合して、当該規定動作が示す手話を翻訳する手話動作翻訳ステップを備えている方法が提案される。
かかる方法にあっては、前述したように規定動作を正確かつ安定して認識できることから、該規定動作で示される手話を正確に翻訳できる。ここで、第二発明の方法では、前述したように手話者(対象体)の個人差や癖等を含む規定動作を正確に認識できることから、当該規定動作に基づいて手話を高精度で翻訳することが可能である。
本発明の第三発明は、前述した第二発明の動作認識方法にあって、前記手話照合情報は、各規定動作に夫々割り当てられた個別翻訳情報と、時系列で連続する複数の規定動作を組み合わせた組合せ動作態様に割り当てられた組合せ翻訳情報とを含むものであって、前記手話動作翻訳ステップでは、前記規定動作判定ステップで判定された複数の規定動作が前記組合せ動作態様と一致した場合に、当該組合せ動作態様の組合せ翻訳情報に従って手話を翻訳する一方、前記規定動作判定ステップで判定された一又は複数の規定動作が前記組合せ動作態様と不一致である場合に、当該規定動作の個別翻訳情報に従って手話を翻訳する方法が提案される。
かかる方法にあっては、規定動作毎に翻訳する場合と、規定動作の組合せ動作態様で翻訳する場合とを正確に判別して行うことができる。ここで、第三発明の方法では、前述したように手話者の個人差や癖等を含む規定動作を正確に認識できることから、規定動作毎の個別翻訳情報で翻訳することと、組合せ動作態様の組合せ翻訳情報で翻訳することとを正確に判別することができ、夫々に最適な翻訳を正確かつ安定して実行できる。尚、個別翻訳情報に比して組合せ翻訳情報による翻訳を優先して行うことが好適であり、一層正確に翻訳できる。
本発明の第四発明は、対象体の動作を撮像する撮像手段と、前記撮像手段により撮像された画像情報に基づいて、前記動作に含まれる所定の規定動作を認識する動作認識手段と、予め定められた複数の前記規定動作を夫々特定するための一又は複数の規定動作特定情報が記憶された情報記憶手段とを備えた動作認識システムであって、前記動作認識手段は、前記画像情報に含まれる所定単位時間毎の単位画像情報を取得する単位情報取得処理と、前記単位情報取得処理で取得した各単位画像情報を、前記情報記憶手段に記憶された前記規定動作特定情報と照合し、単位画像情報毎に、各規定動作特定情報と夫々一致する割合を算出する一致率算出処理と、単位画像情報毎に、前記一致率算出処理で算出した前記割合の最も高い規定動作特定情報のみを割り当てると共に、前記割合が所定の選出用下限値以上である単位画像情報を選出する単位情報選出処理と、前記単位情報選出処理により選出された単位画像情報のなかで、時系列で連続し且つ同一の規定動作特定情報を割り当てた複数の単位画像情報については一のみを有効とし、時系列順に列なる各単位画像情報の規定動作特定情報に基づいて、前記対象体が行った一又は複数の規定動作を判定する動作判定処理と、前記動作判定処理による判定結果に基づいて規定動作を認識する規定動作認識処理とを備えたものであることを特徴とする動作認識システムである。
かかる構成にあっては、前述した第一発明の方法を実現するものであり、該第一発明と同様の作用効果を奏し得る。尚、動作認識手段の単位情報取得処理が第一発明の単位情報取得ステップを実行し、一致率算出処理が一致率算出ステップを実行し、単位情報選出処理が単位情報選出ステップを実行し、動作判定処理が動作判定処理を実行し、規定動作認識処理が規定動作認識ステップを実行するものである。
本発明の第五発明は、前述の第四発明の動作認識システムにあって、前記情報記憶手段は、一又は複数の規定動作により構成される手話を示す手話照合情報が記憶されたものであり、前記規定動作認識処理は、前記動作判定処理により判定された一又は複数の規定動作を、前記情報記憶手段に記憶された前記手話照合情報と照合し、当該規定動作が示す手話を翻訳する手話動作翻訳処理を備えたものであり、前記動作認識手段の手話動作翻訳処理により翻訳した内容を出力する翻訳内容出力手段を備えたものである構成が提案される。
かかる構成にあっては、手話動作翻訳処理が第二発明の手話動作翻訳ステップを実行するものであり、該手話動作翻訳処理により翻訳した内容を出力することから、前述した第二発明と同様の作用効果を奏することができ、手話者(対象体)の個人差や癖等を含む規定動作から手話を正確かつ安定して翻訳できる。
本発明の第六発明は、前述の第五発明の動作認識システムにあって、前記手話照合情報は、各規定動作に夫々割り当てられた個別翻訳情報と、時系列で連続する複数の規定動作を組み合わせた組合せ動作態様に割り当てられた組合せ翻訳情報とを含むものであって、前記手話動作翻訳処理は、前記動作判定処理で判定された一又は複数の規定動作が前記組合せ動作態様と不一致である場合に、当該規定動作の個別翻訳情報に従って手話を翻訳する一方、前記動作判定処理により判定された複数の規定動作が前記組合せ動作態様と一致した場合に、当該組合せ動作態様の組合せ翻訳情報に従って手話を翻訳する構成が提案される。
かかる構成にあっては、前述した第三発明の方法を実現するものであり、該第三発明と同様の作用効果を奏し得る。ここで、第六発明の手話動作翻訳処理が、第三発明の手話動作翻訳ステップを実行するものである。
本発明の動作認識方法によれば、前述したように、対象体の個体差や癖等を含む動作から規定動作を正確に判別して認識することができる。
本発明の動作認識システムにあっては、前記動作認識方法を実現するものであることから、該動作認識方法と同様の作用効果を奏し得る。
本発明を具体化した実施例1,2を、添付図面を用いて説明する。
(実施例1)
図1に示す操作端末1は、手話者の手話を撮像してリアルタイムで翻訳することができるものであり、インターネットなどの通信ネットワーク2を介して翻訳管理サーバ3と通信可能に接続される。
図1に示す操作端末1は、手話者の手話を撮像してリアルタイムで翻訳することができるものであり、インターネットなどの通信ネットワーク2を介して翻訳管理サーバ3と通信可能に接続される。
翻訳管理サーバ3は、操作端末1に通信ネットワーク2を介して手話の翻訳サービスを提供するものであり、一台または複数台のコンピュータにより構成される。この翻訳管理サーバ3は、操作端末1にアプリケーションソフトやデータ等を提供する機能を有しており、中央制御装置6、記憶装置7、および送受信装置8を備え、該記憶装置7に前記アプリケーションソフトやデータ等が記憶されている。ここで、アプリケーションソフトは、手話を翻訳する処理(後述の手話翻訳処理)を実行する専用のプログラムにより構成され、操作端末1にインストールされて実行される。翻訳管理サーバ3の記憶装置7には、こうした手話翻訳専用のアプリケーションソフトと、該アプリケーションソフトで使用される手話翻訳用のデータとが記憶されている。手話翻訳用のデータとして、規定動作に関するデータ(手話特定データ、組合せ動作態様のデータなど)と手話の翻訳に関するデータ(個別翻訳データ、組合せ翻訳データなど)とが、前記記憶装置7に記憶されており、サーバ管理者によって、これらデータの更新追加が随時行われる。
操作端末1は、通信ネットワーク2を介して前記翻訳管理サーバ3と通信するための無線通信機能および/又は有線通信機能を備えた情報端末装置(例えば、タブレットPC、スマートフォン、ノート型パソコン、デスクトップ型パソコン、ヘッドマウントディスプレイなど)によって構成される。本実施例にあって、操作端末1をスマートフォンとしている。こうした操作端末1は、通信ネットワーク2を介してダウンロードされた手話翻訳専用のアプリケーションソフトがインストールされたものであり、該アプリケーションソフトの動作に必要な手話翻訳用のデータもダウンロードされて記憶されている。さらに、翻訳管理サーバ3で、手話翻訳専用のアプリケーションソフトがバージョンアップされた場合や手話翻訳用データの更新追加が行われた場合などでは、これらが操作端末1に随時ダウンロードされる。
本実施例におけるスマートフォンからなる操作端末1は、制御装置(CPU)11、記憶装置(ROMやRAM)12、入力機能付きのディスプレイ(タッチパネル)13、送受信装置14、カメラ15、スピーカ16、およびマイク17等を備える。操作端末1では、前記した手話翻訳用のアプリケーションソフトとデータとが記憶装置12に記憶されており、ディスプレイ13を介した入力操作によって、該アプリケーションソフトが起動される。尚、こうした制御装置11やカメラ15等のハードウエアは、一般的なスマーフォンで用いられるものであることから、詳細な説明は省略する。
操作端末1の記憶装置12には、前記手話翻訳用のアプリケーションソフトが記憶される領域、前記手話翻訳用のデータが記憶される領域、および前記カメラ15で撮像したデータが記憶される領域などを備える。
この記憶装置12に記憶される手話翻訳用のデータとしては、手話を特定するための画像データ(手話特定データ、組合せ動作態様を示すデータなど)と、手話を翻訳するデータ(個別翻訳データ、組合せ翻訳データなど)とを含む。
ここで、手話は、一般的に、手指を単一のポーズ(姿勢)をする動作で表されるものと、手指を一のポーズから他のポーズへ変遷させる一連の動作で表されるものとがあり、いずれの動作(以下、規定動作という)も、一の意味合いを有する手話の最小単位を構成する。すなわち、本実施例では、一の意味合いを有する最小単位の手話を構成する動作を、規定動作という。さらに、手話には、前記規定動作を複数組み合わせることにより一の意味合いを生じさせるものもあり、本実施例では、一の意味合いを有する規定動作の組み合わせを、組合せ動作態様という。このように手話は、一または複数の規定動作により構成されている。
ここで、手話は、一般的に、手指を単一のポーズ(姿勢)をする動作で表されるものと、手指を一のポーズから他のポーズへ変遷させる一連の動作で表されるものとがあり、いずれの動作(以下、規定動作という)も、一の意味合いを有する手話の最小単位を構成する。すなわち、本実施例では、一の意味合いを有する最小単位の手話を構成する動作を、規定動作という。さらに、手話には、前記規定動作を複数組み合わせることにより一の意味合いを生じさせるものもあり、本実施例では、一の意味合いを有する規定動作の組み合わせを、組合せ動作態様という。このように手話は、一または複数の規定動作により構成されている。
前記手話特定データは、規定動作を特定するための画像データであり、各規定動作に一又は複数の手話特定データが夫々設定されている。単一のポーズによる規定動作には、該ポーズを表す少数(1個~3個程度)の手話特定データが設定される一方、一連の規定動作には、該規定動作の開始から終了までの間における特徴的な手指の形態を示した複数の手話特定データが設定されている。そして、各規定動作には、最小単位の手話を翻訳した個別翻訳データが夫々割り当てられていると共に、前記組合せ動作態様には、複数の規定動作を組み合わせた手話を翻訳する組合せ翻訳データが割り当てられている。
具体例として、図2に、単一のポーズによる規定動作Mで構成される手話と、一連の規定動作Nで構成される手話とを示す。これら規定動作M,Nは、最小単位の手話を構成し、且つ両者の組合せにより組合せ動作態様(規定動作N+規定動作N)を構成するものであり、規定動作Mを特定する一個の手話特定データmと規定動作Nを特定する複数の手話特定データn1,n2とが予め設定されている。そして、各規定動作M,Nに、最小単位の手話を翻訳した個別翻訳データが設定されていると共に、両者を組み合わせた組合せ動作態様に組合せ翻訳データが設定されている。
このように操作端末1の記憶装置12には、手話特定データ、組合せ翻訳態様を示すデータ、個別翻訳データ、および組合せ翻訳データが適宜紐付けられて記憶されている。
次に、操作端末1による、手話を翻訳する一連の作動について説明する。
手話翻訳の一連の作動は、前記した手話翻訳用のアプリケーションソフトを起動することによって実行される。図3に、このアプリケーションソフトにより実行される手話翻訳処理のフローチャートを示す。
手話翻訳の一連の作動は、前記した手話翻訳用のアプリケーションソフトを起動することによって実行される。図3に、このアプリケーションソフトにより実行される手話翻訳処理のフローチャートを示す。
手話翻訳処理は、S101で画像情報取得処理を実行する。画像情報取得処理では、カメラ15により撮像された動画データを取得する。この動画データは、手話者による手話を撮像したデータであり、該手話者の上半身が映るように撮影されている(図4参照)。ここで、手話翻訳用のアプリケーションソフトでは、画像情報取得処理を介してカメラ15を起動させることができ、該カメラ15で撮像された動画データをリアルタイムで取得することが可能である。このように画像情報取得処理では、カメラ15で撮像された動作データを直接的に取得可能である一方、画像情報取得処理を介さずにカメラ15を起動して撮像された動画データを記憶装置12から取得することも可能である。尚、前記したスマートフォン等の操作端末1では、一般的に、カメラ15で撮像された動画データ(および静止画データ)は、記憶装置12に記憶される。
S102では、単位画像情報取得処理を実行する。単位画像情報取得処理では、前記画像情報取得処理で取得した動画データから、予め設定された単位時間(例えば、1/30秒)毎に静止画像情報(以下、単位静止画データという)を生成する。これにより、動画データから多数の単位静止画データを生成する(図4参照)。
S103では、一致率算出処理を実行する。一致率算出処理では、記憶装置12に記憶された前記手話特定データ(図2参照)を読み込んで、単位画像情報取得処理で生成した各単位静止画データと照合する。そして、各単位静止画データについて、各手話特定データと一致する割合(以下、一致率という)を夫々算出する。ここで、一致率の算出には、従来から公知のAIによる画像判定処理を適用できる。これにより、各単位静止画データには、複数の手話特定データとの一致率が夫々算出される(図5参照)。
S104では、第一選出処理を実行する。第一選出処理では、単位静止画データ毎に、前記一致率算出処理で算出した一致率が最も高くなった手話特定データのみを夫々割り当てる。
S105では、第二選出処理を実行する。第二選出処理では、各単位静止画データについて、前記第一選出処理で夫々割り当てられた手話特定データとの一致率が所定の選出用下限値(例えば、80%)以上か否かを判定し、手話特定データとの一致率が該選出用下限値以上の単位静止画データのみを選出する。ここで、本実施例では、手話特定データとの一致率が選出用下限値未満の単位静止画データを削除し、該一致率が選出用下限値以上の単位静止画データを残している。尚、選出用下限値は、適宜設定可能であるが、規定動作の判定精度と手話者の個人差とを考慮すれば、70%~95%の範囲内で設定されることが好適であり、さらには75%~90%の範囲内で設定することが一層好ましい。本実施例では、80%に設定した。
S106では、動作判定処理を実行する。動作判定処理では、前記第二選出処理で選択した単位静止画データを時系列順に列ねる。そして、同一の規定動作を特定する手話特定データを割り当てた複数の単位静止画データが時系列で連続していると、この中で一の単位静止画データのみを有効として他を無効とする。ここで、本実施例では、無効とする単位静止画データを削除する。こうして残った単位静止画データの手話特定データによって、該単位静止画データを取得した前記動画データに映る一又は複数の規定動作を判定する(図6参照)。尚ここで、複数の手話特定データにより構成される規定動作については、各規定動作を構成する全ての手話特定データがあるか否かを判定し、各規定動作の特定に必要な全ての手話特定データがある場合には、その規定動作を有りと判定する一方、一部の手話特定データのみがある場合には、その規定動作を無しと判定する。
S107では、手話動作翻訳処理を実行する。手話動作翻訳処理では、前記動作判定処理で判定された規定動作に、前記組合せ動作態様を成すものがあるか否かを判定する。組合せ動作態様を成す規定動作が無い場合には、各規定動作に夫々割り当てられている個別翻訳データを確定する。一方、組合せ動作態様を成す複数の規定動作がある場合には、該組合せ動作態様に割り当てられた組合せ翻訳データを確定し、他に規定動作があれば、夫々の個別翻訳データを確定する。
S108では、翻訳出力処理を実行する。翻訳出力処理では、前記手話動作翻訳処理で確定した個別翻訳データと組み合わせ翻訳データとを、ディスプレイ13で表示する。
次に、手話の撮像から翻訳結果の表示までの一連の流れを、具体例により説明する。
操作端末1で手話翻訳用のアプリケーションソフトを起動して、手話を行う手話者をカメラ15により撮像する。ここで、手話者は、図2に示す規定動作Mと規定動作Nとを組み合わせた手話を行ったとする。
操作端末1で手話翻訳用のアプリケーションソフトを起動して、手話を行う手話者をカメラ15により撮像する。ここで、手話者は、図2に示す規定動作Mと規定動作Nとを組み合わせた手話を行ったとする。
前記手話者の手話を撮像した動画データには、通常、規定動作Mと規定動作Nとが含まれるだけでなく、規定動作M,Nを行う前後の動作や中間の動作なども含まれる。
操作端末1では、手話翻訳用のアプリケーションソフトで前記手話翻訳処理が実行され、カメラ15で撮像した前記動画データを取得すると、該動作データから、図4に示す複数の単位静止画データI~Xが生成される。そして、これら各単位静止画データI~Xについて、図5(A)に示すように、記憶装置12から読み込んだ手話特定データとの一致率を夫々算出する。ここで、単位静止画データI~Xは、規定動作M,Nを含むものであることから、該規定動作Mの手話特定データmと規定動作Nの手話特定データn1,n2との一致率が算出される。さらには、規定動作M,Nの他にも多数の規定動作を夫々特定する手話特定データが記憶されていることから、これら各手話特定データとの一致率も算出される。尚、本実施例にあっては、一致率が所定の不一致値(例えば、50%)未満であると、不一致であるとみなして、一致率無しとする。
前記一致率の算出後に、各単位静止画データI~Xで最も一致率の高い手話特定データのみを夫々有効として割り当てる。これにより、各単位静止画データI~Xと、夫々に最も一致率の高い手話特定データとが対応付けられる。この後、各単位静止画データI~Xで、夫々割り当てられた手話特定データとの一致率が前記選出用下限値(例えば、80%)以上のものを選出し、該選出用下限値未満のものを削除する。これにより、図5(B)に示すように、単位静止画データI, III, IV,V,VI,VII,Xを選出し、単位静止画データII, VIII,IXを削除する。
さらに、前記選出用下限値以上の単位静止画データI, III, IV,V,VI,VII,Xを時系列順に列ねる。そして、図5(C)に示すように、同一の手話特定データを割り当てた複数の単位静止画データが複数連続すれば、この中で一の単位静止画データのみを有効として、他を削除する。これにより、時系列順で連続する単位静止画データIIIと単位静止画データIVとに同一の手話特定データmが割り当てられていることから、一方(単位静止画データIV)を削除する。同様に、同一の手話特定データn2が割り当てられた単位静止画データVI,VIIの一方を削除する。
残った単位静止画データI,III,V,VI,Xについて、この中で組合せ動作態様に該当するものがあるか否かを判定し、組合せ動作態様があれば、該組合せ動作態様の組合せ翻訳データを確定する。そして、組合せ動作態様に該当しない単位静止画データの個別翻訳データを確定する。これにより、図6に示すように、単位静止画データIIIの規定動作Mと単位静止画データV,VIの規定動作Nとが組合せ動作態様に該当することから、当該組合せ動作態様に示された組合せ翻訳データ「おはよう」を確定する。一方、これ以外の単位静止画データI,Xは、夫々が規定動作を特定できないことから、個別翻訳データを確定せずに無効とする。ここでは、単位静止画データI,Xの手話特定データhは、他の手話特定データと共に一の手話を構成するものであることから、単独で規定動作を特定できず、手話とならない。
組合せ翻訳データを確定すると、操作端末1のディスプレイ13に「おはよう」と表示する。尚、この具体例では、組合せ翻訳データのみを確定したが、個別翻訳データを確定すれば、それが表示される。
また、本実施例の構成は、カメラ15により撮像した動画データをリアルタイムで翻訳するだけでなく、予め記憶装置12に記憶された動画データを翻訳することも可能である。さらには、通信ネットワーク2を介して取得した動画データを翻訳することも可能である。いずれの場合も前述と同様に翻訳することができる。
このように本実施例の操作端末1によれば、そのカメラ15で撮像した手話者の手話を正確かつ安定して翻訳することができる。これは、動作データから生成した複数の単位静止画データを、手話特定データとの一致率が選出用下限値以上のものを選出し、さらに時系列で連続し且つ同一の手話特定データを割り当てた単位静止画データの一のみを有効とすることにより、手話を構成する規定動作を高精度で正確に認識できることに因る。加えて、複数の規定動作を組み合わせた組合せ動作態様に該当するか否かを判別することによって、単一の規定動作で構成される手話と複数の規定動作で構成する手話とを夫々適切に判別できることから、前記した正確かつ安定した翻訳を行うことができる。
(実施例2)
実施例2は、前記した一致率の算出処理を翻訳管理サーバ3で実行する構成である。すなわち、翻訳管理サーバ3は、その記憶装置7に、前記した手話特定データが記憶されており、操作端末1から単位静止画データが送信されると、該単位静止画データと各手話特定データとの一致率を夫々算出して、この算出結果を示すデータを操作端末1へ送信する。一方、操作端末1では、翻訳管理サーバ3から取得した前記一致率のデータに基づいて、手話の翻訳処理を実行する。
実施例2は、前記した一致率の算出処理を翻訳管理サーバ3で実行する構成である。すなわち、翻訳管理サーバ3は、その記憶装置7に、前記した手話特定データが記憶されており、操作端末1から単位静止画データが送信されると、該単位静止画データと各手話特定データとの一致率を夫々算出して、この算出結果を示すデータを操作端末1へ送信する。一方、操作端末1では、翻訳管理サーバ3から取得した前記一致率のデータに基づいて、手話の翻訳処理を実行する。
実施例2にあって、操作端末1の記憶装置12には、組合せ動作態様を示すデータ、個別翻訳データ、および組合せ翻訳データなどが記憶されており、これら各データが前記手話特定データと紐付けられて翻訳辞書リストとして整理されている。ここで、操作端末1の記憶装置12には、手話特定データ自体が記憶されておらず、各手話特定データを夫々示す記号(以下、特定用記号という)が記憶されている。この特定用記号は、手話特定データと同数設定されて1対1で対応付けられており、各特定用記号を介して、前記組合せ動作態様を示すデータ、個別翻訳データ、および組合せ翻訳データ等が各手話特定データに夫々紐付けられている。具体的には、前記した手話特定データmを示す特定用記号がmであり、同様に、手話特定データn1の特定用記号がn1、手話特定データn2の特定用記号がn2である。そして、実施例2にあって、組合せ動作態様には、特定用記号n1,n2を時系列順に列ねたものや、特定用記号m,n1,n2を時系列順に列ねたものが設定されている。
さらに、操作端末1の記憶装置12には、後述する手話翻訳処理(図7参照)により前記特定用記号を当該処理の時系列順に列ねて一時的に記憶する翻訳待機リストが設定されている。実施例2では、この翻訳待機リストに時系列順に記憶された特定用記号を、前記組合せ動作態様と個別翻訳データと組合せ翻訳データとに基づいて照合することにより、手話の翻訳を行う。
尚、実施例2は、翻訳管理サーバ3の記憶装置7に手話特定データが記憶され、該翻訳管理サーバ3で一致率の算出を実行すること、および後述する図7の手話翻訳処理(図8の翻訳確定処理を含む)を実行すること以外が、前述した実施例1と同じであることから、同じ構成要素には同じ符号を記し、その説明を省略する。
実施例2の操作端末1で実行される手話翻訳処理について、図7,8のフローチャートにより説明する。尚、実施例2の手話翻訳処理は、前述の実施例1と同様に、手話翻訳用のアプリケーションソフトを起動することにより実行される。
実施例2の手話翻訳処理は、S200の画像情報取得処理により、カメラ15から単位静止画データを取得する。ここで、画像情報取得処理で取得される単位静止画データは、カメラ15のフレームレートに従って撮像された1フレーム(コマ)毎の静止画を成すデータであり、画像情報取得処理では、該カメラ15で撮像された1フレーム毎のデータ(単位静止画データ)を取得する。こうして取得した単位静止画データは、操作端末1の記憶装置12に記憶される。
S205では、一致率データ取得処理を実行する。一致率データ取得処理では、前記画像情報取得処理で取得した単位静止画データを、翻訳管理サーバ3に送信する処理と、該翻訳管理サーバ3から受信した当該単位静止画データの一致率データを取得する処理とを行う。ここで、翻訳管理サーバ3は、操作端末1から単位静止画データを受信すると、該翻訳管理サーバ3の記憶装置7に記憶された前記手話特定データ(図2参照)を読み込み、該単位静止画データと照合する。そして、単位静止画データと各手話特定データとの夫々の一致率を算出し、各手話特定データとの一致率データを操作端末1に送信する。これにより、操作端末1では、単位静止画データの一致率データを取得する。
S210では、データ割当処理を実行する。データ割当処理は、翻訳管理サーバ3から取得した一致率データに基づいて、最も高い一致率を示す手話特定データの前記特定用記号を、当該単位静止画データに割り当てる。
S215では、最も高い一致率が80%(選出用下限値)以上か否かを判定し、肯定判定(Yes)の場合にS220に進み、否定判定(No)の場合にS225に進む。尚、選出用下限値は、前述した実施例1と同様に適宜設定することが可能である。
S220では、前記S210で割り当てた特定用記号(手話特定データ)が、前記の翻訳待機リストに記憶されている特定用記号のなかで、時系列順で最後尾の特定用記号と同一か否かを判定する。そして、肯定判定(Yes)の場合にはS225に進み、否定判定(No)の場合にはS240に進む。
S225では、後述する待機時間が経過したか否かを判定し、肯定判定(Yes)の場合にS230に進み、否定判定(No)の場合にS200に進む。
S230では、翻訳確定表示処理(図8)を実行する。翻訳確定表示処理については、後述する。
S240では、データ追加処理を実行する。このデータ追加処理では、前記翻訳待機リストに、前記S215で割り当てた特定用記号(手話特定データ)を追加して記憶する。ここで、新たに追加される特定用記号は、翻訳待機リストの時系列順の最後尾に記憶される。
S245では、翻訳待機リストに記憶された全ての特定用記号の時系列順序が、翻訳待機リストに記憶された前記組合せ動作態様のいずれかと完全一致するか否かを判定する。そして、肯定判定(Yes)の場合にはS250に進み、否定判定(No)の場合にはS270に進む。
S250では、翻訳待機リストに記憶された全ての特定用記号の時系列順序が、翻訳待機リストに記憶された前記組合せ動作態様の前方のみと一致するものが無いか否かを判定する。そして、肯定判定(Yes)の場合にはS255に進み、否定判定(No)の場合にはS270に進む。ここで、組合せ動作態様の前方とは、該組合せ動作態様を構成する複数の規定動作のなかで、時系列順で少なくとも最後尾の規定動作を除いた残りの規定動作による時系列順序を示す。例えば、組合せ動作態様が特定用記号w,x,y,zの時系列順で構成されているものの場合に、特定用記号w,x,yや特定用記号w,x等の時系列順序が、当該組合せ動作態様の前方に相当する。
S255では、翻訳結果表示処理を実行する。翻訳結果表示処理では、翻訳待機リストの全特定用記号の時系列順と完全一致した組合せ動作態様の組合せ翻訳データを確定して、当該組合せ翻訳データを操作端末1のディスプレイ13で表示する。
S260では、待機リストクリア処理を実行し、翻訳待機リストに記憶されている全ての特定用記号を消去する。このS260の後にS295へ進む。
S270では、翻訳待機リストに記憶された全ての特定用記号の時系列順序が、翻訳待機リストに記憶された前記組合せ動作態様の前方のみと一致するものが有るか否かを判定する。そして、肯定判定(Yes)の場合にはS295に進み、否定判定(No)の場合にはS275に進む。ここで、組合せ動作態様の前方とは、前記S250と同様である。
S275では、翻訳待機リストで、時系列順の最後尾を除いた他の全特定用記号の順序が、翻訳待機リストに記憶された前記組合せ動作態様のいずれかと完全一致するか否かを判定する。そして、肯定判定(Yes)の場合にはS280に進み、否定判定(No)の場合にはS290に進む。
S280では、前記S275で一致した組合せ動作態様の組合せ翻訳データを確定して、当該組合せ翻訳データを操作端末1のディスプレイ13で表示する。
S285では、待機リスト更新処理を実行し、翻訳待機リストにおける最後尾の特定用記号を除く他全ての特定用記号を消去する。これにより、消去前に最後尾であった特定用記号が時系列順で最前に位置する。このS285の後にS295へ進む。
一方、S290では、翻訳確定表示処理を実行し、S295に進む。尚、この翻訳確定表示処理は、前記S230と同じ処理であり、詳細は後述する。
S295では、待機時間更新処理を実行する。待機時間更新処理では、予め設定された待機時間(例えば、3秒間など)をリセットし、新たな待機時間を計時開始する。ここで、待機時間は、手話として有効な動作を判定できる期間(時間)を示しており、手話翻訳用のアプリケーションソフトの起動時に計時開始されて、有効な動作を検知する毎にリセットされる。尚、この待機時間は、手話に要する時間などを考慮して適宜設定される。
次に、前記S230とS290とで実行される翻訳確定表示処理を、図8に従って説明する。
翻訳確定処理では、S300で、翻訳待機リストに特定用記号(手話特定データ)が記憶されているか否かを判定する。そして、肯定判定(Yes)の場合にはS305に進み、否定判定(No)の場合には翻訳確定処理を終了する。
翻訳確定処理では、S300で、翻訳待機リストに特定用記号(手話特定データ)が記憶されているか否かを判定する。そして、肯定判定(Yes)の場合にはS305に進み、否定判定(No)の場合には翻訳確定処理を終了する。
S305では、翻訳辞書リストに記憶された組合せ動作態様を、前記規定動作の組合せ数の多い順にループ開始する。これにより、翻訳辞書リストに記憶された組合せ動作態様を順次有効として、以下の処理で翻訳待機リストの特定用記号と照合される。尚、組合せ動作態様のループ順序は、予め設定されている。
S310では、前記S305のループにより有効とされた組合せ動作態様が、翻訳待機リストに記憶された時系列順の特定用記号と一致するか否かを判定する。そして、肯定判定(Yes)の場合にはS320に進み、否定判定(No)の場合にはS330に進む。
S320では、翻訳表示処理を実行する。翻訳表示処理では、前記S310で一致判定された組合せ動作態様の組合せ翻訳データを確定して、当該組合せ翻訳データを操作端末1のディスプレイ13で表示する。
S325では、待機リスト更新処理を実行し、前記S320で確定した組合せ動作態様と一致する特定用記号を、翻訳待機リストから消去して、残りの特定用記号を時系列順に列ねる。このS325の後に、S345に進む。
一方、S330では、翻訳辞書リストに記憶された全ての組合せ翻訳データによる照合が終了したか否かを判定する。そして、肯定判定(Yes)の場合にはS335に進み、否定判定(No)の場合にはS310に進む。ここで、S310に進むと、次の組合せ動作態様を有効として、前記S310以下の処理を実行する。
S335では、前記S305で開始した組合せ動作態様のループを終了する。
S340では、リストデータ削除処理を実行する。リストデータ削除処理では、翻訳待機リストに記憶された特定用記号のなかから、時系列順で最前の特定用記号を消去する。そして、残りの全特定用記号が時系列順で一つ前に進む。
S345では、翻訳待機リストに特定用記号が記憶されているか否かを判定し、肯定判定(Yes)の場合にはS305に進み、否定判定(No)の場合には翻訳確定処理を終了する。
こうした実施例2の手話翻訳処理による翻訳表示の流れを、具体例により説明する。
例えば、前述した実施例1と同様に、手話者の手話を撮像した動画データのフレーム(コマ)が前記単位静止画データI~Xである場合(図4参照)には、手話翻訳処理(図7,8)が実行されると、カメラ15による撮像に伴って該単位静止画データIから順に取得する。
例えば、前述した実施例1と同様に、手話者の手話を撮像した動画データのフレーム(コマ)が前記単位静止画データI~Xである場合(図4参照)には、手話翻訳処理(図7,8)が実行されると、カメラ15による撮像に伴って該単位静止画データIから順に取得する。
前記単位静止画データIは、特定用記号(手話特定データ)hとの一致率が80%以上であることから(図5(A)参照)、手話翻訳処理のS240で翻訳待機リストに記憶される。そして、手話翻訳処理のS270による肯定判定を介して、次の単位静止画データIIを取得する。尚、この時点の翻訳待機リストには特定用記号h(単位静止画データI)のみが記憶されている。
単位静止画データIIは、特定用記号との一致率が80%未満であることから(図5(A)参照)、S215とS225とを否定判定され、翻訳待機リストに記憶されない。
次に取得する単位静止画データIIIは、特定用記号mとの一致率が80%以上であることから(図5(A)参照)、翻訳待機リストに記憶される。この時点の翻訳待機リストには特定用記号h(単位静止画データI)と特定用記号m(単位静止画データIII)とが時系列順に記憶される。
次に取得する単位静止画データIVは、特定用記号mとの一致率が80%以上であるものの、翻訳待機リストにおける時系列順で最後尾の特定用記号mと同じであることから、翻訳待機リストに新たに記憶されない。そのため、この時点では、特定用記号h,mが翻訳待機リスに記憶されている。
次に取得する単位静止画データVは、特定用記号n1との一致率が80%以上であることから、翻訳待機リストに記憶される。これにより、この時点の翻訳待機リストには、特定用記号h,m,n1が時系列順に記憶される。
次に取得する単位静止画データVIは、特定用記号n2との一致率が80%以上であることから、翻訳待機リストに記憶される。これにより、この時点の翻訳待機リストには、特定用記号h,m,n1,n2が時系列順に記憶される。
次に取得する単位静止画データVIIは、特定用記号n2との一致率が80%以上であるものの、翻訳待機リストにおける時系列順で最後尾の特定用記号n2と同じであることから、翻訳待機リストに新たに記憶されない。この後に取得する単位静止画データVIII,IXは、いずれも一致率が80%未満であることから、翻訳待機リストに記憶されない。
次に取得する単位静止画データXは、特定用記号hとの一致率が80%以上であることから、翻訳待機リストに記憶される。これにより、この時点の翻訳待機リストには、特定用記号h,m,n1,n2,hが時系列順に記憶される(図5(C)参照)。
こうした単位静止画データXの取得後から待機時間が経過すると、図8の翻訳確定表示処理が実行される。ここで、特定用記号m,n1,n2が組合せ動作態様に一致することから、組合せ翻訳データ「こんにちは」がディスプレイ13で表示される。尚、特定用記号hは、翻訳辞書リストの個別翻訳データと一致しないことから、削除される。
実施例2の構成は、操作端末1のカメラ15で撮像中に、該カメラ15で撮像される動画データを構成する1フレーム(コマ)の単位静止画データを順次リアルタイムで取得し、手話翻訳処理(図7,8)により手話の翻訳を行う。実施例2の手話翻訳処理は、有効な動作の検知毎にリセットされる待機時間を計時し、該待機時間で順次取得する単位静止画データを、前記一致率が選出用下限値以上であり且つ同一の特定用記号(手話特定データ)が時系列で連続しないことを条件として、翻訳待機リストに記憶する。そして、この翻訳待機リストを、規定動作の組合せ数が多い組合せ動作態様を優先して照合し、手話の翻訳を行う。
このように実施例2にあっても、前述した実施例1と同様に、手話を構成する規定動作を高精度で正確に認識でき、操作端末1のカメラ15で撮像した手話者の手話を正確かつ安定して翻訳できる。
尚、実施例1,2の構成にあって、手話者が、本発明の対象体に相当する。
実施例1にあって、手話翻訳用のアプリケーションソフトがインストールされた操作端末1が、本発明にかかる動作認識システムに相当する。当該操作端末1で実行される手話翻訳処理によって、本発明にかかる動作認識方法が実現される。
実施例2にあって、翻訳管理サーバ3と、手話翻訳用のアプリケーションソフトがインストールされた操作端末1とが、本発明にかかる動作認識システムに相当する。操作端末1で実行される手話翻訳処理と、翻訳管理サーバ3で実行される単位静止画データと手話特定データとの照合処理とにより、本発明にかかる動作認識方法が実現される。
実施例1,2にあって、操作端末1のカメラ15が、本発明の撮像手段に相当し、ディスプレイ13が、本発明にかかる翻訳情報出力手段に相当する。
実施例1にあって、操作端末1の記憶装置12が、本発明の情報記憶手段に相当する。手話翻訳処理を実行する制御装置11を備えた操作端末1が、本発明の動作認識手段に相当する。ディスプレイ13が、本発明にかかる翻訳情報出力手段に相当する。
実施例2にあって、操作端末1の記憶装置12と翻訳管理サーバ3の記憶装置7とが、本発明の情報記憶手段に相当する。手話翻訳処理を実行する制御装置11を備えた操作端末1と、単位静止画データと手話特定データとの照合処理を実行する中央制御装置6を備えた翻訳管理サーバ3とが、本発明の動作認識手段に相当する。
実施例1,2にあって、カメラ15により撮像される動画データが、本発明にかかる画像情報に相当し、単位静止画データが、本発明にかかる単位画像情報に相当する。手話特定データが、本発明にかかる規定動作特定情報に相当する。個別翻訳データが、本発明にかかる個別翻訳情報に相当し、組合せ翻訳データが、本発明にかかる組合せ翻訳情報に相当する。そして、個別翻訳データと組合せ翻訳データとが、本発明の手話照合情報に相当する。
実施例1にあって、動作翻訳処理の画像情報取得処理および単位画像情報取得処理が、本発明にかかる単位情報取得ステップと単位情報取得処理とに相当する。
実施例2にあって、画像情報取得処理が、本発明にかかる単位情報取得ステップと単位情報取得処理とに相当する。
実施例1の一致率算出処理が、本発明にかかる一致率算出ステップに相当する。
実施例2にあって、翻訳管理サーバ3により単位静止画データと手話特定データとを照合して一致率を算出する処理が、本発明にかかる一致率算出ステップと一致率算出処理とに相当する。
実施例1にあって、第一選出処理および第二選出処理が、本発明にかかる単位情報選出ステップと単位情報選出処理とに相当する。
実施例2にあって、手話翻訳処理のS210~S220が、本発明にかかる単位情報選出ステップと単位情報選出処理とに相当する。
実施例1にあって、動作判定処理が、本発明にかかる規定動作判定ステップに相当する。
実施例2にあって、手話翻訳処理のS240~S250およびS270~S275と、翻訳確定処理のS300~S310およびS325~S345とが、本発明にかかる規定動作判定ステップに相当する。
実施例1にあって、手話動作翻訳処理が、本発明にかかる手話動作翻訳ステップ(規定動作認識ステップ)と手話動作翻訳処理(規定動作認識処理)とに相当する。
実施例2にあって、手話翻訳処理のS255およびS280と、翻訳確定表示意処理のS320とが、本発明にかかる手話動作翻訳ステップ(規定動作認識ステップ)と手話動作翻訳処理(規定動作認識処理)とに相当する。
実施例1にあって、手話翻訳用のアプリケーションソフトがインストールされた操作端末1が、本発明にかかる動作認識システムに相当する。当該操作端末1で実行される手話翻訳処理によって、本発明にかかる動作認識方法が実現される。
実施例2にあって、翻訳管理サーバ3と、手話翻訳用のアプリケーションソフトがインストールされた操作端末1とが、本発明にかかる動作認識システムに相当する。操作端末1で実行される手話翻訳処理と、翻訳管理サーバ3で実行される単位静止画データと手話特定データとの照合処理とにより、本発明にかかる動作認識方法が実現される。
実施例1,2にあって、操作端末1のカメラ15が、本発明の撮像手段に相当し、ディスプレイ13が、本発明にかかる翻訳情報出力手段に相当する。
実施例1にあって、操作端末1の記憶装置12が、本発明の情報記憶手段に相当する。手話翻訳処理を実行する制御装置11を備えた操作端末1が、本発明の動作認識手段に相当する。ディスプレイ13が、本発明にかかる翻訳情報出力手段に相当する。
実施例2にあって、操作端末1の記憶装置12と翻訳管理サーバ3の記憶装置7とが、本発明の情報記憶手段に相当する。手話翻訳処理を実行する制御装置11を備えた操作端末1と、単位静止画データと手話特定データとの照合処理を実行する中央制御装置6を備えた翻訳管理サーバ3とが、本発明の動作認識手段に相当する。
実施例1,2にあって、カメラ15により撮像される動画データが、本発明にかかる画像情報に相当し、単位静止画データが、本発明にかかる単位画像情報に相当する。手話特定データが、本発明にかかる規定動作特定情報に相当する。個別翻訳データが、本発明にかかる個別翻訳情報に相当し、組合せ翻訳データが、本発明にかかる組合せ翻訳情報に相当する。そして、個別翻訳データと組合せ翻訳データとが、本発明の手話照合情報に相当する。
実施例1にあって、動作翻訳処理の画像情報取得処理および単位画像情報取得処理が、本発明にかかる単位情報取得ステップと単位情報取得処理とに相当する。
実施例2にあって、画像情報取得処理が、本発明にかかる単位情報取得ステップと単位情報取得処理とに相当する。
実施例1の一致率算出処理が、本発明にかかる一致率算出ステップに相当する。
実施例2にあって、翻訳管理サーバ3により単位静止画データと手話特定データとを照合して一致率を算出する処理が、本発明にかかる一致率算出ステップと一致率算出処理とに相当する。
実施例1にあって、第一選出処理および第二選出処理が、本発明にかかる単位情報選出ステップと単位情報選出処理とに相当する。
実施例2にあって、手話翻訳処理のS210~S220が、本発明にかかる単位情報選出ステップと単位情報選出処理とに相当する。
実施例1にあって、動作判定処理が、本発明にかかる規定動作判定ステップに相当する。
実施例2にあって、手話翻訳処理のS240~S250およびS270~S275と、翻訳確定処理のS300~S310およびS325~S345とが、本発明にかかる規定動作判定ステップに相当する。
実施例1にあって、手話動作翻訳処理が、本発明にかかる手話動作翻訳ステップ(規定動作認識ステップ)と手話動作翻訳処理(規定動作認識処理)とに相当する。
実施例2にあって、手話翻訳処理のS255およびS280と、翻訳確定表示意処理のS320とが、本発明にかかる手話動作翻訳ステップ(規定動作認識ステップ)と手話動作翻訳処理(規定動作認識処理)とに相当する。
本発明は、前述した実施例に限定されず、本発明の趣旨を逸脱しない範囲内で適宜変更することが可能である。
実施例1,2では、操作端末1がスマートフォンであるが、これに限らず、タブレットPC、ノートパソコン、デスクトップパソコン、又はヘッドマウントディスプレイなどの情報端末装置(通信機能を備えた情報端末装置)とできる。また、実施例1,2では、操作端末1がカメラ15を備えものであるが、着脱可能なカメラであっても良い。
実施例1では、手話翻訳用のアプリケーションソフトをインストールした操作端末1が独立して手話翻訳を実施できる構成としたが、これに限らず、例えば、実施例2と同様に、通信ネットワーク2を介して翻訳管理サーバ3とデータの送受信を行うことによって、手話の翻訳を行うようにしても良い。又は、実施例2の構成にあって、実施例1と同様に、操作端末1で単位静止画データを手話特定データと照合して一致率を算出する構成とすることもできる。
実施例1では、手話翻訳処理で第一選出処理により単位静止画データに最も一致率の高い手話特定データを割り当てた後に、第二選出処理により選出用下限値以上の該一致率を割り当てた単位静止画データのみを選出するようにしたが、これに限らず、第一選出処理の前に第二選出処理を実行するようにしても良い。
同様に、実施例2にあっても、手話翻訳処理のS215をS210の前に実行するようにしても良い。
実施例1,2では、翻訳をディスプレイ13で表示するようにしたが、これに限らず、スピーカ16から音声により出力するようにしても良い。さらには、ディスプレイ13の表示とスピーカ16の出力とを両方行うようにしても良いし、一方または両方を選択可能としても良い。
実施例1,2は、手話翻訳を行う構成について例示したが、これに限らず、対象体(人、動物、機械など)の動作を認識する構成とすることも可能である。具体的には、ゲームなどで参加者の動作(規定動作)を認識する構成に適用することができる。この場合には、例えば、実施例1の規定動作を認識する処理(手話判定処理のS101~S107)によって実現できる。
実施例1,2では、操作端末1がスマートフォンであるが、これに限らず、タブレットPC、ノートパソコン、デスクトップパソコン、又はヘッドマウントディスプレイなどの情報端末装置(通信機能を備えた情報端末装置)とできる。また、実施例1,2では、操作端末1がカメラ15を備えものであるが、着脱可能なカメラであっても良い。
実施例1では、手話翻訳用のアプリケーションソフトをインストールした操作端末1が独立して手話翻訳を実施できる構成としたが、これに限らず、例えば、実施例2と同様に、通信ネットワーク2を介して翻訳管理サーバ3とデータの送受信を行うことによって、手話の翻訳を行うようにしても良い。又は、実施例2の構成にあって、実施例1と同様に、操作端末1で単位静止画データを手話特定データと照合して一致率を算出する構成とすることもできる。
実施例1では、手話翻訳処理で第一選出処理により単位静止画データに最も一致率の高い手話特定データを割り当てた後に、第二選出処理により選出用下限値以上の該一致率を割り当てた単位静止画データのみを選出するようにしたが、これに限らず、第一選出処理の前に第二選出処理を実行するようにしても良い。
同様に、実施例2にあっても、手話翻訳処理のS215をS210の前に実行するようにしても良い。
実施例1,2では、翻訳をディスプレイ13で表示するようにしたが、これに限らず、スピーカ16から音声により出力するようにしても良い。さらには、ディスプレイ13の表示とスピーカ16の出力とを両方行うようにしても良いし、一方または両方を選択可能としても良い。
実施例1,2は、手話翻訳を行う構成について例示したが、これに限らず、対象体(人、動物、機械など)の動作を認識する構成とすることも可能である。具体的には、ゲームなどで参加者の動作(規定動作)を認識する構成に適用することができる。この場合には、例えば、実施例1の規定動作を認識する処理(手話判定処理のS101~S107)によって実現できる。
1 操作端末
2 通信ネットワーク
3 翻訳管理サーバ
11 制御装置
12 記憶装置
13 ディスプレイ
14 送受信装置
15 カメラ(撮像手段)
16 スピーカ
17 マイク
M,N 規定動作
m,n1,n2 手話特定データ(規定動作特定情報)
I~X 単位静止画データ(単位画像情報)
2 通信ネットワーク
3 翻訳管理サーバ
11 制御装置
12 記憶装置
13 ディスプレイ
14 送受信装置
15 カメラ(撮像手段)
16 スピーカ
17 マイク
M,N 規定動作
m,n1,n2 手話特定データ(規定動作特定情報)
I~X 単位静止画データ(単位画像情報)
Claims (6)
- 所定の動作認識手段により実行され、撮像手段で対象体の動作を撮像した画像情報に基づいて、前記動作に含まれる所定の規定動作を認識する動作認識方法であって、
前記画像情報に含まれる所定単位時間毎の単位画像情報を取得する単位情報取得ステップと、
前記単位情報取得ステップで取得した各単位画像情報を、予め記憶された、前記規定動作を特定するための一又は複数の規定動作特定情報と照合し、単位画像情報毎に、各規定動作特定情報と夫々一致する割合を算出する一致率算出ステップと、
単位画像情報毎に、前記一致率算出ステップで算出した前記割合の最も高い規定動作特定情報のみを割り当てると共に、前記割合が所定の選出用下限値以上である単位画像情報を選出する単位情報選出ステップと、
前記単位情報選出ステップにより選出された単位画像情報のなかで、時系列で連続し且つ同一の規定動作特定情報が割り当てられた複数の単位画像情報については一のみを有効とし、時系列順に列なる各単位画像情報の規定動作特定情報に基づいて、前記対象体が行った一又は複数の規定動作を判定する規定動作判定ステップと、
前記規定動作判定ステップによる判定結果に基づいて規定動作を認識する規定動作認識ステップと
を備えていることを特徴とする動作認識方法。 - 一又は複数の規定動作により構成される手話を翻訳するものであって、
前記規定動作認識ステップは、
前記規定動作判定ステップにより判定された一又は複数の規定動作を、予め記憶された手話を示す手話照合情報と照合して、当該規定動作が示す手話を翻訳する手話動作翻訳ステップを備えていることを特徴とする請求項1に記載の動作認識方法。 - 前記手話照合情報は、各規定動作に夫々割り当てられた個別翻訳情報と、時系列で連続する複数の規定動作を組み合わせた組合せ動作態様に割り当てられた組合せ翻訳情報とを含むものであって、
前記手話動作翻訳ステップでは、
前記規定動作判定ステップで判定された複数の規定動作が前記組合せ動作態様と一致した場合に、当該組合せ動作態様の組合せ翻訳情報に従って手話を翻訳する一方、
前記規定動作判定ステップで判定された一又は複数の規定動作が前記組合せ動作態様と不一致である場合に、当該規定動作の個別翻訳情報に従って手話を翻訳することを特徴とする請求項2に記載の動作認識方法。 - 対象体の動作を撮像する撮像手段と、
前記撮像手段により撮像された画像情報に基づいて、前記動作に含まれる所定の規定動作を認識する動作認識手段と、
予め定められた複数の前記規定動作を夫々特定するための一又は複数の規定動作特定情報が記憶された情報記憶手段と
を備えた動作認識システムであって、
前記動作認識手段は、
前記画像情報に含まれる所定単位時間毎の単位画像情報を取得する単位情報取得処理と、
前記単位情報取得処理で取得した各単位画像情報を、前記情報記憶手段に記憶された前記規定動作特定情報と照合し、単位画像情報毎に、各規定動作特定情報と夫々一致する割合を算出する一致率算出処理と、
単位画像情報毎に、前記一致率算出処理で算出した前記割合の最も高い規定動作特定情報のみを割り当てると共に、前記割合が所定の選出用下限値以上である単位画像情報を選出する単位情報選出処理と、
前記単位情報選出処理により選出された単位画像情報のなかで、時系列で連続し且つ同一の規定動作特定情報を割り当てた複数の単位画像情報については一のみを有効とし、時系列順に列なる各単位画像情報の規定動作特定情報に基づいて、前記対象体が行った一又は複数の規定動作を判定する動作判定処理と、
前記動作判定処理による判定結果に基づいて規定動作を認識する規定動作認識処理と
を備えたものであることを特徴とする動作認識システム。 - 前記情報記憶手段は、一又は複数の規定動作により構成される手話を示す手話照合情報が記憶されたものであり、
前記規定動作認識処理は、
前記動作判定処理により判定された一又は複数の規定動作を、前記情報記憶手段に記憶された前記手話照合情報と照合し、当該規定動作が示す手話を翻訳する手話動作翻訳処理を備えたものであり、
前記動作認識手段の手話動作翻訳処理により翻訳した内容を出力する翻訳内容出力手段を備えたものであることを特徴とする請求項4に記載の動作認識システム。 - 前記手話照合情報は、各規定動作に夫々割り当てられた個別翻訳情報と、時系列で連続する複数の規定動作を組み合わせた組合せ動作態様に割り当てられた組合せ翻訳情報とを含むものであって、
前記手話動作翻訳処理は、
前記動作判定処理により判定された複数の規定動作が前記組合せ動作態様と一致した場合に、当該組合せ動作態様の組合せ翻訳情報に従って手話を翻訳する一方、
前記動作判定処理で判定された一又は複数の規定動作が前記組合せ動作態様と不一致である場合に、当該規定動作の個別翻訳情報に従って手話を翻訳することを特徴とする請求項5に記載の動作認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022032015A JP7264547B1 (ja) | 2022-03-02 | 2022-03-02 | 動作認識方法、および動作認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022032015A JP7264547B1 (ja) | 2022-03-02 | 2022-03-02 | 動作認識方法、および動作認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7264547B1 true JP7264547B1 (ja) | 2023-04-25 |
JP2023127994A JP2023127994A (ja) | 2023-09-14 |
Family
ID=86096185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022032015A Active JP7264547B1 (ja) | 2022-03-02 | 2022-03-02 | 動作認識方法、および動作認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7264547B1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015075750A (ja) | 2013-10-11 | 2015-04-20 | 株式会社Nttドコモ | 画像認識装置および画像認識方法 |
CN107368181A (zh) | 2016-05-12 | 2017-11-21 | 株式会社理光 | 一种手势识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9230160B1 (en) * | 2012-08-27 | 2016-01-05 | Amazon Technologies, Inc. | Method, medium, and system for online ordering using sign language |
-
2022
- 2022-03-02 JP JP2022032015A patent/JP7264547B1/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015075750A (ja) | 2013-10-11 | 2015-04-20 | 株式会社Nttドコモ | 画像認識装置および画像認識方法 |
CN107368181A (zh) | 2016-05-12 | 2017-11-21 | 株式会社理光 | 一种手势识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2023127994A (ja) | 2023-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9671872B2 (en) | Gesture recognition method, gesture recognition system, terminal device and wearable device | |
KR20200145827A (ko) | 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체 | |
WO2012063560A1 (ja) | 画像処理システム、画像処理方法、及び画像処理プログラムを記憶した記憶媒体 | |
KR102663375B1 (ko) | 음성 및 영상 자동 포커싱 방법 및 장치 | |
CN110741377A (zh) | 人脸图像处理方法、装置、存储介质及电子设备 | |
CN114860187A (zh) | 智能语音设备控制方法、装置、计算机设备和存储介质 | |
CN111401318A (zh) | 动作识别方法及装置 | |
JP7264547B1 (ja) | 動作認識方法、および動作認識システム | |
CN109871128B (zh) | 一种题型识别方法及装置 | |
WO2023051215A1 (zh) | 注视点获取方法、装置、电子设备及可读存储介质 | |
TWI667054B (zh) | 飛行器飛行控制方法、裝置、飛行器及系統 | |
KR20210048271A (ko) | 복수 객체에 대한 자동 오디오 포커싱 방법 및 장치 | |
JP2023026630A (ja) | 情報処理システム、情報処理装置、情報処理方法、およびプログラム | |
CN111077997A (zh) | 一种点读模式下的点读控制方法及电子设备 | |
CN114090738A (zh) | 场景数据信息确定的方法、装置、设备及存储介质 | |
CN116823869A (zh) | 背景替换的方法和电子设备 | |
CN112115751A (zh) | 一种动物心情识别模型的训练方法和装置 | |
CN111610886A (zh) | 触控屏幕亮度的调整方法、设备及计算机可读存储介质 | |
CN112837813A (zh) | 自动问诊方法及装置 | |
CN111913590A (zh) | 一种输入方法、装置和设备 | |
JP2015102897A (ja) | 画像認識装置、及び画像認識方法 | |
US20240054812A1 (en) | Image acquisition apparatus, image acquisition method, and non-transitory computer-readable storage medium | |
CN114173061B (zh) | 一种多模态摄像控制方法、装置、计算机设备及存储介质 | |
WO2021084898A1 (ja) | 画像管理装置、制御方法、及びプログラム | |
US11880654B2 (en) | Acquiring event information from a plurality of texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230406 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7264547 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |