JP7485454B2 - Sign language translation processing device, sign language translation processing system, sign language translation processing method, program, and recording medium - Google Patents
Sign language translation processing device, sign language translation processing system, sign language translation processing method, program, and recording medium Download PDFInfo
- Publication number
- JP7485454B2 JP7485454B2 JP2022125151A JP2022125151A JP7485454B2 JP 7485454 B2 JP7485454 B2 JP 7485454B2 JP 2022125151 A JP2022125151 A JP 2022125151A JP 2022125151 A JP2022125151 A JP 2022125151A JP 7485454 B2 JP7485454 B2 JP 7485454B2
- Authority
- JP
- Japan
- Prior art keywords
- hand
- skeletal
- information
- sign language
- coordinates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims description 73
- 238000012545 processing Methods 0.000 title claims description 60
- 238000003672 processing method Methods 0.000 title claims description 19
- 238000001514 detection method Methods 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 38
- 230000010354 integration Effects 0.000 claims description 29
- 230000009471 action Effects 0.000 claims description 24
- 238000012937 correction Methods 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 206010011878 Deafness Diseases 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、手話翻訳処理装置、手話翻訳処理システム、手話翻訳処理方法、プログラム、及び記録媒体に関する。 The present invention relates to a sign language translation processing device, a sign language translation processing system, a sign language translation processing method, a program, and a recording medium.
ろう者と聴者とが会話をする手段として、例えば、特許文献1には、手話情報を音声又は文字に変換するものがある。 For example, Patent Document 1 describes a method for deaf and hearing people to communicate by converting sign language information into voice or text.
ここで、特許文献1に記載の発明は、手話パターンライブラリを参照して手話情報を音声又は文字に変換するものである。手話パターンライブラリを参照する場合、性別や背丈、衣服の色などの多種多様なパターンを想定した手話パターンを取得する必要がある。このとき、例えば、ライブラリに保存されたパターンと相違する手話情報が入力された場合、その翻訳精度は低下するという課題がある。 The invention described in Patent Document 1 converts sign language information into speech or text by referring to a sign language pattern library. When referring to a sign language pattern library, it is necessary to obtain sign language patterns that assume a wide variety of patterns, such as gender, height, and clothing color. In this case, for example, if sign language information that differs from the patterns stored in the library is input, there is a problem that the translation accuracy decreases.
そこで、本発明は、高精度で手話翻訳をするための、手話翻訳処理装置、手話翻訳処理システム、手話翻訳処理方法、プログラム、及び記録媒体の提供を目的とする。 The present invention aims to provide a sign language translation processing device, a sign language translation processing system, a sign language translation processing method, a program, and a recording medium for performing sign language translation with high accuracy.
前記目的を達成するために、本発明の手話翻訳処理装置は、
画像取得部、手骨格情報取得部、身体骨格情報取得部、情報統合部、及び動作認識部を含み、
前記画像取得部は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得部は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得部は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合部は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識部は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する。
In order to achieve the above object, the sign language translation processing device of the present invention comprises:
The present invention includes an image acquisition unit, a hand skeletal information acquisition unit, a body skeletal information acquisition unit, an information integration unit, and a motion recognition unit,
The image acquisition unit acquires an image of a body including a hand,
The images are a plurality of time-series images captured over time,
the hand skeletal information acquisition unit acquires hand skeletal information from the acquired image;
The hand skeletal information includes hand skeletal coordinates;
the body skeletal information acquisition unit acquires body skeletal information from the acquired image;
The body skeletal information includes body skeletal coordinates;
the information integration unit integrates the hand skeletal information and the body skeletal information to calculate a position of the hand skeletal position on the body and a position of the hand;
The movement recognition unit organizes the integrated and calculated hand skeletal position and hand position, as well as the body skeletal information, in chronological order, and recognizes hand movement information from the organized hand skeletal position and hand position, as well as the body skeletal information, to infer a sign language word.
本発明の手話翻訳処理システムは、
手話翻訳処理装置、及びユーザ端末を含み、
前記手話翻訳処理装置が、本発明の前記手話翻訳処理装置であり、
前記ユーザ端末が、手を含む身体の画像を取得可能であり、
前記画像は、経時的に撮像された複数の時系列画像である。
The sign language translation processing system of the present invention comprises:
A sign language translation processing device and a user terminal,
The sign language translation processing device is the sign language translation processing device of the present invention,
The user terminal is capable of acquiring an image of a body including a hand;
The images are a plurality of time-series images captured over time.
本発明の手話翻訳処理方法は、
画像取得工程、手骨格情報取得工程、身体骨格情報取得工程、情報統合工程、及び動作認識工程を含み、
前記画像取得工程は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得工程は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得工程は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合工程は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識工程は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する。
The sign language translation processing method of the present invention comprises the steps of:
The method includes an image acquisition step, a hand skeleton information acquisition step, a body skeleton information acquisition step, an information integration step, and a motion recognition step,
The image capturing step captures an image of a body including a hand;
The images are a plurality of time-series images captured over time,
The hand skeletal information acquiring step acquires hand skeletal information from the acquired image,
The hand skeletal information includes hand skeletal coordinates;
The body skeleton information acquiring step acquires body skeleton information from the acquired image,
The body skeletal information includes body skeletal coordinates;
the information integration step includes integrating the hand skeletal information and the body skeletal information to calculate a position of the hand skeletal position on the body and a position of the hand;
The movement recognition process organizes the integrated and calculated hand skeletal position and hand position, as well as the body skeletal information, in chronological order, and recognizes hand movement information from the organized hand skeletal position and hand position, as well as the body skeletal information, to infer a sign language word.
本発明のプログラムは、
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記各手順をコンピュータに実行させるためのプログラムである。
The program of the present invention comprises:
The method includes an image acquisition step, a hand skeleton information acquisition step, a body skeleton information acquisition step, an information integration step, and a motion recognition step.
The image acquisition step includes acquiring an image of a body including a hand;
The images are a plurality of time-series images captured over time,
The hand skeletal information acquisition step acquires hand skeletal information from the acquired image,
The hand skeletal information includes hand skeletal coordinates;
The body skeleton information acquisition step acquires body skeleton information from the acquired image,
The body skeletal information includes body skeletal coordinates;
the information integration step includes integrating the hand skeletal information and the body skeletal information to calculate a position of the hand skeletal position on the body and a position of the hand;
the motion recognition step includes chronologically organizing the integrated and calculated skeletal position of the hand and the position of the hand, and the skeletal information of the body, and recognizing hand motion information from the organized skeletal position of the hand and the position of the hand, and the skeletal information of the body, to estimate a sign language word;
The program is for causing a computer to execute each of the above procedures.
本発明の記録媒体は、前記本発明のプログラムを記録したコンピュータ読み取り可能な記録媒体である。 The recording medium of the present invention is a computer-readable recording medium on which the program of the present invention is recorded.
本発明によれば、高精度で手話翻訳をすることができる。 The present invention enables highly accurate sign language translation.
つぎに、本発明の実施形態について図を用いて説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用でき、各実施形態の構成は、特に言及がない限り、組合せ可能である。 Next, an embodiment of the present invention will be described with reference to the drawings. The present invention is not limited to the following embodiment. In each of the drawings, the same parts are given the same reference numerals. Furthermore, the explanations of each embodiment can be mutually incorporated unless otherwise specified, and the configurations of each embodiment can be combined unless otherwise specified.
[実施形態1]
図1は、本実施形態の手話翻訳処理装置10の一例の構成を示すブロック図である。図1に示すように、本装置10は、画像取得部11、手骨格情報取得部12、身体骨格情報取得部13、情報統合部14、及び動作認識部15を含む。
[Embodiment 1]
1 is a block diagram showing an example of the configuration of a sign language
本装置10は、例えば、前記各部を含む1つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、本装置10は、前記通信回線網を介して、後述する外部装置と接続可能である。前記通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。前記通信回線網は、例えば、インターネット回線、WWW(World Wide Web)、電話回線、LAN(Local Area Network)、SAN(Storage Area Network)、DTN(Delay Tolerant Networking)、LPWA(Low Power Wide Area)、L5G(ローカル5G)、等があげられる。無線通信としては、例えば、Wi-Fi(登録商標)、Bluetooth(登録商標)、ローカル5G、LPWA等が挙げられる。前記無線通信としては、各装置が直接通信する形態(Ad Hoc通信)、インフラストラクチャ(infrastructure通信)、アクセスポイントを介した間接通信等であってもよい。本装置10は、例えば、システムとしてサーバに組み込まれていてもよい。また、本装置10は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ(PC、例えば、デスクトップ型、ノート型)、スマートフォン、タブレット端末等であってもよい。本装置10は、例えば、前記各部のうち少なくとも一つがサーバ上にあり、その他の前記各部が端末上にあるような、クラウドコンピューティングやエッジコンピューティング等の形態であってもよい。
The
図2に、本装置10のハードウェア構成のブロック図を例示する。本装置10は、例えば、中央処理装置(CPU、GPU等)101、メモリ102、バス103、記憶装置104、入力装置105、出力装置106、通信デバイス107等を含む。本装置10の各部は、それぞれのインタフェース(I/F)により、バス103を介して相互に接続されている。
Figure 2 shows an example block diagram of the hardware configuration of the
中央処理装置101は、コントローラ(システムコントローラ、I/Oコントローラ等)等により、他の構成と連携動作し、本装置10の全体の制御を担う。本装置10において、中央処理装置101により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的には、例えば、中央処理装置101が、画像取得部11、手骨格情報取得部12、身体骨格情報取得部13、情報統合部14、及び動作認識部15として機能する。中央処理装置101は、演算装置として、CPU、GPU(Graphics Processing Unit)、APU(Accelerated Processing Unit)等の演算装置を備えてもよいし、これらの組合せを備えてもよい。
The
バス103は、例えば、外部装置とも接続できる。前記外部装置は、例えば、外部記憶装置(外部データベース等)、プリンタ、外部入力装置、外部表示装置、外部撮像装置等があげられる。本装置10は、例えば、バス103に接続された通信デバイス107により、外部ネットワーク(前記通信回線網)に接続でき、外部ネットワークを介して、他の装置と接続することもできる。
The
メモリ102は、例えば、メインメモリ(主記憶装置)が挙げられる。中央処理装置101が処理を行う際には、例えば、後述する記憶装置104に記憶されている本発明のプログラム等の種々の動作プログラムを、メモリ102が読み込み、中央処理装置101は、メモリ102からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。また、メモリ102は、例えば、ROM(読み出し専用メモリ)であってもよい。
The
記憶装置104は、例えば、前記メインメモリ(主記憶装置)に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置104には、本発明のプログラムを含む動作プログラムが格納されている。記憶装置104は、例えば、記録媒体と、記録媒体に読み書きするドライブとの組合せであってもよい。前記記録媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、CD-ROM、CD-R、CD-RW、MO、DVD、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置104は、例えば、記録媒体とドライブとが一体化されたハードディスクドライブ(HDD)、及びソリッドステートドライブ(SSD)であってもよい。
The
本装置10において、メモリ102及び記憶装置104は、ログ情報、外部データベース(図示せず)や外部の装置から取得した情報、本装置10によって生成した情報、本装置10が処理を実行する際に用いる情報等の種々の情報を記憶することも可能である。この場合、メモリ102及び記憶装置104は、例えば、手の動作情報と手話会話とを紐づけて記憶していてもよい。なお、少なくとも一部の情報は、例えば、メモリ102及び記憶装置104以外の外部サーバに記憶されていてもよいし、複数の端末にブロックチェーン技術等を用いて分散して記憶されていてもよい。
In the
本装置10は、例えば、さらに、入力装置105、出力装置106を備える。入力装置105は、例えば、タッチパネル、トラックパッド、マウス等のポインティングデバイス;キーボード;カメラ、スキャナ等の撮像手段;ICカードリーダ、磁気カードリーダ等のカードリーダ;マイク等の音声入力手段;等があげられる。出力装置106は、例えば、LED(light-emitting diode)ディスプレイ、液晶ディスプレイ等の表示装置;スピーカ等の音声出力装置;プリンタ;等があげられる。本実施形態1において、入力装置105と出力装置106とは、別個に構成されているが、入力装置105と出力装置106とは、タッチパネルディスプレイのように、一体として構成されてもよい。
The
つぎに、本実施形態の手話翻訳処理方法の一例を、図3のフローチャートS10に基づき説明する。本実施形態の手話翻訳処理方法は、例えば、図1又は図2の装置10を用いて、次のように実施する。なお、本実施形態の手話翻訳処理方法は、図1又は図2の装置10の使用には限定されない。
Next, an example of the sign language translation processing method of this embodiment will be described based on the flowchart S10 of FIG. 3. The sign language translation processing method of this embodiment is implemented as follows, for example, using the
まず、画像取得部11により、手を含む身体の画像を取得する(S11)。ここで、前記画像は、経時的に撮像された複数の時系列画像である。前記身体は、例えば、上半身及び下半身を含む全身でも良いし、上半身のみでもよい。ここで、前記画像の取得は、例えば、本装置10が備えるカメラなどにより行ってもよいし、本装置10以外のカメラなどが取得した画像を、通信デバイス107を介して取得してもよい。前記画像の取得は、例えば、1フレーム毎に行われる。なお、本発明において「手」という場合は、特に断りがない限り、両手でも良いし、片手でも良い。
First, the
つぎに、手骨格情報取得部12により、前記取得した画像から手の骨格情報を取得する(S12)。前記手の骨格情報は、手の骨格座標を含む。前記手の骨格情報は、例えば、従来公知の方法により検出し、取得することができる。前記手の骨格は、例えば、手の関節を含む。前記手の骨格座標は、例えば、手の骨格検出モデルを用いて取得しても良い。
Next, the hand skeletal
また、身体骨格情報取得部13により、前記取得した画像から身体の骨格情報を取得する(S13)。前記身体の骨格情報は、身体の骨格座標を含む。前記身体の骨格情報は、例えば、従来公知の方法により検出し、取得することができる。前記身体の骨格座標は、例えば、身体の骨格検出モデルを用いて取得しても良い図3において、図示していないが、例えば、S13で取得した身体の骨格座標を保存してもよい。S13で取得した身体の骨格座標を保存しておけば、例えば、次フレームで身体の骨格情報を取得する際、保存した身体の骨格座標と次フレームの身体の画像とを統合して、次フレームの身体の骨格座標を取得することができる。このようにすれば、次フレーム以降の身体の骨格座標の取得精度が向上する。
The body skeletal
なお、図3においては、手を含む身体の画像を取得した後(S11)、手の骨格情報の取得(S12)と、身体の骨格情報の取得(S13)とを、それぞれ同時並行して実施しているが、これはあくまでも例示であり、例えば、手の骨格情報を取得した後に身体の骨格情報を取得しても良く、又は、身体の骨格情報を取得した後に手の骨格情報を取得してもよい。 In FIG. 3, after acquiring an image of the body including the hand (S11), skeletal information of the hand (S12) and skeletal information of the body (S13) are acquired simultaneously in parallel. However, this is merely an example. For example, skeletal information of the hand may be acquired first, and then skeletal information of the body may be acquired, or skeletal information of the hand may be acquired first, and then skeletal information of the body may be acquired.
つぎに、情報統合部14により、前記手の骨格情報及び前記身体の骨格情報を統合する(S14)。前記統合した情報をもとに、身体における手の骨格の位置及び手の位置を算出する(S15)。
Next, the
つぎに、動作認識部15により、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する(S16)。前記手話は、特に限定されないが、例えば、日本手話、日本語対応手話、及び中間型手話等があげられる。世界各国で使用されている手話であってもよい。前記手話単語の推定は、例えば、従来公知の方法によりすることができる。前記手の動作情報の認識は、例えば、動作認識モデルを用いて認識してもよい。
Next, the
さらに、本装置10が、例えば、出力部を含む場合(図示せず)、前記出力部は、前記取得した口語会話を文字または音声によりユーザ端末装置に出力しても良い。前記出力部を含む場合、例えば、中央処理装置101が前記出力部として機能しても良い。前記ユーザ端末措置は、例えば、パーソナルコンピュータ(PC、例えば、デスクトップ型、ノート型)、スマートフォン、タブレット端末等であってもよい。前記出力が文字である場合、例えば、出力装置106のLEDディスプレイ、液晶ディスプレイ等の表示装置により出力してもよい。前記出力が音声である場合、例えば、スピーカ等の音声出力装置により出力してもよい。
Furthermore, if the
本実施形態によれば、前述のとおり、手の骨格座標及び身体の骨格座標をもとに手話会が推定される。したがって、例えば、手話パターンライブラリを使用した従来の手話翻訳技術とは異なり、ヒトの性別や背丈、衣服の色などの違いによらず、高精度の手話翻訳が可能となる。また、ヒトの性別や背丈、衣服の色などの違いを想定した膨大な手話パターンライブラリを準備する必要がない点にもメリットがある。 According to this embodiment, as described above, the sign language is estimated based on the skeletal coordinates of the hand and the skeletal coordinates of the body. Therefore, unlike conventional sign language translation techniques that use a sign language pattern library, for example, highly accurate sign language translation is possible regardless of differences in a person's gender, height, clothing color, etc. Another advantage is that there is no need to prepare a huge sign language pattern library that takes into account differences in a person's gender, height, clothing color, etc.
[実施形態2]
本実施形態は、本発明の手話翻訳処理装置及び手話翻訳処理方法のその他の例である。図4のとおり、本装置10は、例えば、さらに補正部16を含んでもよい。また、図5のとおり、例えば、中央処理装置101が補正部16として機能してもよい。
[Embodiment 2]
The present embodiment is another example of the sign language translation processing device and the sign language translation processing method of the present invention. As shown in Fig. 4, the
つぎに、本実施形態の手話翻訳処理方法の一例を、図6のフローチャートS20に基づき説明する。本実施形態の手話翻訳処理方法は、例えば、図4又は図5の装置10を用いて、次のように実施する。なお、本実施形態の手話翻訳処理方法は、図4又は図5の装置10の使用には限定されない。
Next, an example of the sign language translation processing method of this embodiment will be described based on the flowchart S20 of FIG. 6. The sign language translation processing method of this embodiment is implemented as follows, for example, using the
まず、実施形態1のフロー(S11)と同じく、手を含む身体の画像を取得する(S21)。つぎに、手の骨格情報を取得する。ここで、前記手の骨格情報は、さらに、手の検出領域座標を含み、手の検出領域座標を取得する(S220)。その後、手の骨格座標を取得する(S221)。つぎに、補正部16は、前記手の骨格座標から前記手の検出領域座標を補正し、保存する(S222)。保存された補正後の座標は、例えば、次フレームの手の骨格座標を取得する際に使用することができる。前記手の骨格情報は、前述のとおり、例えば、従来公知の方法により取得し、取得することができる。前記手の検出領域座標は、例えば、手の検出モデルを用いて取得してもよい。
First, as in the flow (S11) of the first embodiment, an image of the body including the hand is acquired (S21). Next, hand skeletal information is acquired. Here, the hand skeletal information further includes hand detection area coordinates, and the hand detection area coordinates are acquired (S220). Thereafter, the hand skeletal coordinates are acquired (S221). Next, the
その他のフローは、実施形態1におけるS13からS16のフローと同様である(S22~S26)。 The rest of the flow is the same as steps S13 to S16 in embodiment 1 (S22 to S26).
本実施形態のとおり、手の検出領域座標を取得してから手の骨格座標を取得することで、例えば、手の検出領域座標を取得せずに手の骨格座標を取得する場合と比べて、手の骨格情報を素早く取得することができる。また、前述のとおり、手の検出領域座標を補正し、保存することで、例えば、次フレームで手の骨格座標を検出する際の精度が向上する。 As in this embodiment, by acquiring the hand detection area coordinates and then the hand skeletal coordinates, hand skeletal information can be acquired more quickly than, for example, acquiring the hand skeletal coordinates without acquiring the hand detection area coordinates. Also, as described above, correcting and saving the hand detection area coordinates improves the accuracy of detecting the hand skeletal coordinates in the next frame, for example.
[実施形態3]
実施形態1及び2において、本装置10が、さらに記憶部を含む場合、例えば、記憶装置104は、前記記憶部として機能する。前記記憶部は、例えば、手の動作情報と手話単語とを紐づけて記憶することができる。このとき、前記動作認識部は、前記手の動作情報と、前記紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定することができる。
[Embodiment 3]
In the first and second embodiments, when the
[実施形態4]
次に、実施形態1から3のいずれかの装置10及び、ユーザ端末を含む、手話翻訳処理システムの一例を図7に示す。前記ユーザ端末は、手を含む身体の画像を取得可能である。
[Embodiment 4]
Next, an example of a sign language translation processing system including the
図7のとおり、ろう者(手話話者)は、本装置10に対して手話を入力する。図7において、本装置10は、例えば、スマートフォンやタブレット端末等の機器であってもよく、前記機器が備えるカメラに向かって手話を行い、本装置10に対して手話を入力してもよい。本装置10は、例えば、実施形態1から3のいずれかの処理を行って手話翻訳を実施し、その翻訳結果をユーザ端末へ出力する。実施形態1から3のいずれかの処理は、本装置10を備える前記機器自体が行ってもよいし、本装置10の各部を備えるサーバが行ってもよい。出力された翻訳結果は、例えば、ユーザ端末の表示画面に文字として表示されてもよいし、スピーカによって音声出力されてもよい。聴者(非手話話者)は、ユーザ端末に出力された手話翻訳の結果を確認することができる。
As shown in FIG. 7, a deaf person (sign language speaker) inputs sign language into the
[実施形態5]
本実施形態のプログラムは、前述の各工程を、コンピュータに実行させるためのプログラムである。具体的に、本実施形態のプログラムは、コンピュータに、画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を実行させるためのプログラムである。
[Embodiment 5]
The program of the present embodiment is a program for causing a computer to execute each of the above-mentioned steps. Specifically, the program of the present embodiment is a program for causing a computer to execute an image acquisition procedure, a hand skeletal information acquisition procedure, a body skeletal information acquisition procedure, an information integration procedure, and a motion recognition procedure.
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する。
The image acquisition step includes acquiring an image of a body including a hand;
The images are a plurality of time-series images captured over time,
The hand skeletal information acquisition step acquires hand skeletal information from the acquired image,
The hand skeletal information includes hand skeletal coordinates;
The body skeleton information acquisition step acquires body skeleton information from the acquired image,
The body skeletal information includes body skeletal coordinates;
the information integration step includes integrating the hand skeletal information and the body skeletal information to calculate a position of the hand skeletal position on the body and a position of the hand;
The movement recognition procedure organizes the integrated and calculated hand skeletal position and hand position, as well as the body skeletal information, in chronological order, and recognizes hand movement information from the organized hand skeletal position and hand position, as well as the body skeletal information, to infer a sign language word.
また、本実施形態のプログラムは、コンピュータを、画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順として機能させるプログラムということもできる。 The program of this embodiment can also be said to cause a computer to function as an image acquisition procedure, a hand skeletal information acquisition procedure, a body skeletal information acquisition procedure, an information integration procedure, and a motion recognition procedure.
本実施形態のプログラムは、前記本発明の手話翻訳処理装置および手話翻訳処理方法における記載を援用できる。前記各手順は、例えば、「手順」を「処理」と読み替え可能である。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体は、例えば、非一時的なコンピュータ可読記録媒体(non-transitory computer-readable storage medium)である。前記記録媒体は、特に制限されず、例えば、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードディスク(HD)、光ディスク、フロッピー(登録商標)ディスク(FD)等があげられる。 The program of this embodiment can use the description of the sign language translation processing device and the sign language translation processing method of the present invention. For example, the "procedure" in each of the steps can be read as "processing". The program of this embodiment can be recorded in a computer-readable recording medium. The recording medium is, for example, a non-transitory computer-readable storage medium. The recording medium is not particularly limited, and examples include random access memory (RAM), read-only memory (ROM), hard disk (HD), optical disk, and floppy (registered trademark) disk (FD).
以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をできる。 The present invention has been described above with reference to the embodiments, but the present invention is not limited to the above embodiments. Various modifications that can be understood by a person skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
<付記>
上記の実施形態の一部または全部は、以下の付記のように記載されうるが、以下には限られない。
(付記1)
画像取得部、手骨格情報取得部、身体骨格情報取得部、情報統合部、及び動作認識部を含み、
前記画像取得部は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得部は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得部は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合部は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識部は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する、
手話翻訳処理装置。
(付記2)
さらに、出力部を含み、
前記出力部は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、付記1記載の手話翻訳処理装置。
(付記3)
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
付記1又は2記載の手話翻訳処理装置。
(付記4)
さらに、補正部を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正部は、前記手の骨格座標から前記手の検出領域座標を補正する、
付記1から3のいずれかに記載の手話翻訳処理装置。
(付記5)
前記手の検出領域座標は、手の検出モデルを用いて検出される、
付記4記載の手話翻訳処理装置。
(付記6)
さらに、手の動作情報と手話単語とを紐づけて記憶する記憶部を含み、
前記動作認識部は、前記手の動作情報と、前記紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、
付記1から5のいずれかに記載の手話翻訳処理装置。
(付記7)
手話翻訳処理装置、及びユーザ端末を含み、
前記手話翻訳処理装置が、付記1から6のいずれかに記載の手話翻訳処理装置であり、
前記ユーザ端末が、手を含む身体の画像を取得可能であり、
前記画像は、経時的に撮像された複数の時系列画像である、
手話翻訳処理システム。
(付記8)
画像取得工程、手骨格情報取得工程、身体骨格情報取得工程、情報統合工程、及び動作認識工程を含み、
前記画像取得工程は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得工程は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得工程は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合工程は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識工程は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する、
手話翻訳処理方法。
(付記9)
さらに、出力工程を含み、
前記出力工程は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、付記8記載の手話翻訳処理方法。
(付記10)
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
付記8又は9記載の手話翻訳処理方法。
(付記11)
さらに、補正工程を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正工程は、前記手の骨格座標から前記手の検出領域座標を補正する、
付記8から10のいずれかに記載の手話翻訳処理方法。
(付記12)
前記手の検出領域座標は、手の検出モデルを用いて検出される、
付記11記載の手話翻訳処理方法。
(付記13)
前記動作認識工程は、前記手の動作情報と、紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、付記8から12のいずれかに記載の手話翻訳処理方法。
(付記14)
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記各手順をコンピュータに実行させるためのプログラム。
(付記15)
さらに、出力手順を含み、
前記出力手順は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、付記14記載のプログラム。
(付記16)
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
付記14又は15記載のプログラム。
(付記17)
さらに、補正手順を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正手順は、前記手の骨格座標から前記手の検出領域座標を補正する、
付記14から16のいずれかに記載のプログラム。
(付記18)
前記手の検出領域座標は、手の検出モデルを用いて検出される、
付記17記載のプログラム。
(付記19)
前記動作認識手順は、前記手の動作情報と、紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、付記14から18のいずれかに記載のプログラム。
(付記20)
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記各手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記21)
さらに、出力手順を含み、
前記出力手順は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、付記20記載の記録媒体。
(付記22)
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
付記20又は21記載の記録媒体。
(付記23)
さらに、補正手順を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正手順は、前記手の骨格座標から前記手の検出領域座標を補正する、
付記20から22のいずれかに記載の記録媒体。
(付記24)
前記手の検出領域座標は、手の検出モデルを用いて検出される、
付記23記載の記録媒体。
(付記25)
前記動作認識手順は、前記手の動作情報と、紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、付記20から24のいずれかに記載の記録媒体。
<Additional Notes>
Some or all of the above embodiments may be described as follows, but are not limited to the following:
(Appendix 1)
The present invention includes an image acquisition unit, a hand skeleton information acquisition unit, a body skeleton information acquisition unit, an information integration unit, and a motion recognition unit,
The image acquisition unit acquires an image of a body including a hand,
the images are a plurality of time-series images captured over time,
the hand skeletal information acquisition unit acquires hand skeletal information from the acquired image;
The hand skeletal information includes hand skeletal coordinates;
the body skeletal information acquisition unit acquires body skeletal information from the acquired image;
The body skeletal information includes body skeletal coordinates;
the information integration unit integrates the hand skeletal information and the body skeletal information to calculate a position of the hand skeletal position on the body and a position of the hand;
the movement recognition unit organizes the integrated and calculated hand skeletal position and hand position, and the body skeletal information in chronological order, and recognizes hand movement information from the organized hand skeletal position and hand position, and the body skeletal information, to estimate a sign language word.
Sign language translation processing device.
(Appendix 2)
Further, an output unit is included,
2. The sign language translation processing device according to claim 1, wherein the output unit outputs the sign language words to a user terminal device by characters or voice.
(Appendix 3)
the hand skeleton coordinates are detected using a hand skeleton detection model;
The body skeletal coordinates are detected using a body skeletal detection model;
The hand movement information is recognized using a movement recognition model.
3. A sign language translation processing device according to claim 1 or 2.
(Appendix 4)
Further, a correction unit is included,
The hand skeleton information further includes hand detection area coordinates,
The correction unit corrects the detection area coordinates of the hand from the skeletal coordinates of the hand.
4. A sign language translation processing device according to any one of claims 1 to 3.
(Appendix 5)
The hand detection region coordinates are detected using a hand detection model.
5. A sign language translation processing device as claimed in claim 4.
(Appendix 6)
Further, a storage unit is included which stores hand movement information and sign language words in association with each other,
The action recognition unit estimates a sign language word from the hand action information and the associated and stored hand action information and sign language word.
6. A sign language translation processing device according to any one of appendix 1 to 5.
(Appendix 7)
A sign language translation processing device and a user terminal,
The sign language translation processing device is the sign language translation processing device according to any one of Supplementary Note 1 to 6,
The user terminal is capable of acquiring an image of a body including a hand;
The images are a plurality of time-series images captured over time.
Sign language translation processing system.
(Appendix 8)
The method includes an image acquisition step, a hand skeleton information acquisition step, a body skeleton information acquisition step, an information integration step, and a motion recognition step,
The image capturing step captures an image of a body including a hand;
the images are a plurality of time-series images captured over time,
The hand skeletal information acquiring step acquires hand skeletal information from the acquired image,
The hand skeletal information includes hand skeletal coordinates;
The body skeleton information acquiring step acquires body skeleton information from the acquired image,
The body skeletal information includes body skeletal coordinates;
the information integration step includes integrating the hand skeletal information and the body skeletal information to calculate a position of the hand skeletal position on the body and a position of the hand;
the action recognition step includes chronologically arranging the integrated and calculated hand skeletal position and hand position, and the body skeletal information, and recognizing hand action information from the organized hand skeletal position and hand position, and the body skeletal information, to estimate a sign language word;
A sign language translation processing method.
(Appendix 9)
Further, an output step is included,
9. The sign language translation processing method according to
(Appendix 10)
the hand skeleton coordinates are detected using a hand skeleton detection model;
The body skeletal coordinates are detected using a body skeletal detection model;
The hand movement information is recognized using a movement recognition model.
10. A sign language translation processing method according to
(Appendix 11)
Further, a correction step is included,
The hand skeleton information further includes hand detection area coordinates,
The correction step includes correcting coordinates of the detection area of the hand based on skeletal coordinates of the hand.
A sign language translation processing method according to any one of
(Appendix 12)
The hand detection region coordinates are detected using a hand detection model.
12. A sign language translation processing method as described in
(Appendix 13)
A sign language translation processing method according to any one of
(Appendix 14)
The method includes an image acquisition step, a hand skeleton information acquisition step, a body skeleton information acquisition step, an information integration step, and a motion recognition step.
The image acquisition step includes acquiring an image of a body including a hand;
The images are a plurality of time-series images captured over time,
The hand skeletal information acquisition step acquires hand skeletal information from the acquired image,
The hand skeletal information includes hand skeletal coordinates;
The body skeleton information acquisition step acquires body skeleton information from the acquired image,
The body skeletal information includes body skeletal coordinates;
the information integration step includes integrating the hand skeletal information and the body skeletal information to calculate a position of the hand skeletal position on the body and a position of the hand;
the motion recognition step includes chronologically organizing the integrated and calculated hand skeletal position and hand position, and the body skeletal information, and recognizing hand motion information from the organized hand skeletal position and hand position, and the body skeletal information, to estimate a sign language word;
A program for causing a computer to execute each of the above procedures.
(Appendix 15)
Further, an output procedure is included,
The program according to
(Appendix 16)
the hand skeleton coordinates are detected using a hand skeleton detection model;
The body skeletal coordinates are detected using a body skeletal detection model;
The hand movement information is recognized using a movement recognition model.
16. The program according to claim 14 or 15.
(Appendix 17)
Further, a correction procedure is included,
The hand skeleton information further includes hand detection area coordinates,
the correction step corrects the detection area coordinates of the hand from the skeleton coordinates of the hand;
17. The program according to any one of
(Appendix 18)
The hand detection region coordinates are detected using a hand detection model.
18. The program according to claim 17.
(Appendix 19)
19. The program according to any one of
(Appendix 20)
The method includes an image acquisition step, a hand skeleton information acquisition step, a body skeleton information acquisition step, an information integration step, and a motion recognition step.
The image acquisition step includes acquiring an image of a body including a hand;
the images are a plurality of time-series images captured over time,
The hand skeletal information acquisition step acquires hand skeletal information from the acquired image,
The hand skeletal information includes hand skeletal coordinates;
The body skeleton information acquisition step acquires body skeleton information from the acquired image,
The body skeletal information includes body skeletal coordinates;
the information integration step includes integrating the hand skeletal information and the body skeletal information to calculate a position of the hand skeletal position on the body and a position of the hand;
the motion recognition step includes chronologically organizing the integrated and calculated skeletal position of the hand and the position of the hand, and the skeletal information of the body, and recognizing hand motion information from the organized skeletal position of the hand and the position of the hand, and the skeletal information of the body, to estimate a sign language word;
A computer-readable recording medium having recorded thereon a program for causing a computer to execute each of the above procedures.
(Appendix 21)
Further, an output procedure is included,
21. The recording medium according to claim 20, wherein the output step outputs the sign language word to a user terminal device by text or voice.
(Appendix 22)
the hand skeleton coordinates are detected using a hand skeleton detection model;
The body skeletal coordinates are detected using a body skeletal detection model;
The hand movement information is recognized using a movement recognition model.
22. The recording medium according to claim 20 or 21.
(Appendix 23)
Further, a correction procedure is included,
The hand skeleton information further includes hand detection area coordinates,
the correction step corrects coordinates of the detection area of the hand from skeletal coordinates of the hand;
23. A recording medium according to any one of appendices 20 to 22.
(Appendix 24)
The hand detection region coordinates are detected using a hand detection model.
24. The recording medium according to claim 23.
(Appendix 25)
25. The recording medium according to any one of appendices 20 to 24, wherein the action recognition step estimates a sign language word from the hand action information and the hand action information and the sign language word stored in association with each other.
本発明によれば、高精度で手話翻訳をすることができる。本発明は、例えば、ろう者と聴者との円滑なコミュニケーションを目的とした手話翻訳処理装置に適用できるが、適用できる分野は制限されず、手話翻訳処理装置を用いた幅広い分野に適用可能である。 The present invention enables highly accurate sign language translation. For example, the present invention can be applied to a sign language translation processing device aimed at smooth communication between deaf and hearing people, but the fields of application are not limited, and the present invention can be applied to a wide range of fields using sign language translation processing devices.
10 手話翻訳処理装置
11 画像取得部
12 手骨格情報取得部
13 身体骨格情報取得部
14 情報統合部
15 動作認識部
16 補正部
101 CPU
102 メモリ
103 バス
104 記憶装置
105 入力装置
106 出力装置
107 通信デバイス
10 Sign language
102
Claims (9)
前記画像取得部は、手話話者の手話における手を含む身体の画像を取得し、
前記手話が、前記手話話者と非手話話者とのコミュニケーションにおける手話であり、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得部は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標、及び手の検出領域座標を含み、
前記身体骨格情報取得部は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合部は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識部は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記補正部は、前記手の骨格座標から前記手の検出領域座標を補正する、
手話翻訳処理装置。 The present invention includes an image acquisition unit, a hand skeletal information acquisition unit, a body skeletal information acquisition unit, an information integration unit, a motion recognition unit, and a correction unit,
The image acquisition unit acquires an image of a body including a hand in a sign language of a sign language speaker ,
The sign language is a sign language for communication between the sign language user and a non-sign language user,
the images are a plurality of time-series images captured over time,
the hand skeletal information acquisition unit acquires hand skeletal information from the acquired image;
The hand skeleton information includes hand skeleton coordinates and hand detection area coordinates;
the body skeletal information acquisition unit acquires body skeletal information from the acquired image;
The body skeletal information includes body skeletal coordinates;
the information integration unit integrates the hand skeletal information and the body skeletal information to calculate a position of the hand skeletal position on the body and a position of the hand;
the movement recognition unit organizes the integrated and calculated hand skeletal position and hand position, and the body skeletal information in chronological order, recognizes hand movement information from the organized hand skeletal position and hand position, and the body skeletal information, and estimates a sign language word;
The correction unit corrects the detection area coordinates of the hand from the skeletal coordinates of the hand.
Sign language translation processing device.
前記出力部は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、請求項1記載の手話翻訳処理装置。 Further, an output unit is included,
The sign language translation processing device according to claim 1 , wherein the output unit outputs the sign language words to a user terminal device by characters or voice.
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
請求項1又は2記載の手話翻訳処理装置。 the hand skeleton coordinates are detected using a hand skeleton detection model;
The body skeletal coordinates are detected using a body skeletal detection model;
The hand movement information is recognized using a movement recognition model.
3. The sign language translation processing device according to claim 1 or 2.
請求項1又は2記載の手話翻訳処理装置。 The hand detection region coordinates are detected using a hand detection model.
3. The sign language translation processing device according to claim 1 or 2.
前記動作認識部は、前記手の動作情報と、前記紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、
請求項1又は2記載の手話翻訳処理装置。 Further, a storage unit is included which stores hand movement information and sign language words in association with each other,
The action recognition unit estimates a sign language word from the hand action information and the associated and stored hand action information and sign language word.
3. The sign language translation processing device according to claim 1 or 2.
前記手話翻訳処理装置が、請求項1又は2記載の手話翻訳処理装置であり、
前記ユーザ端末が、手を含む身体の画像を取得可能であり、
前記画像は、経時的に撮像された複数の時系列画像である、
手話翻訳処理システム。 A sign language translation processing device and a user terminal,
The sign language translation processing device is a sign language translation processing device according to claim 1 or 2,
The user terminal is capable of acquiring an image of a body including a hand;
The images are a plurality of time-series images captured over time.
Sign language translation processing system.
前記画像取得工程は、手話話者の手話における手を含む身体の画像を取得し、
前記手話が、前記手話話者と非手話話者とのコミュニケーションにおける手話であり、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得工程は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標、及び手の検出領域座標を含み、
前記身体骨格情報取得工程は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合工程は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識工程は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記補正工程は、前記手の骨格座標から前記手の検出領域座標を補正する、
手話翻訳処理方法。 The method includes an image acquisition step, a hand skeleton information acquisition step, a body skeleton information acquisition step, an information integration step, a motion recognition step, and a correction step,
The image acquisition step acquires an image of a body including a hand of a sign language user ,
The sign language is a sign language for communication between the sign language user and a non-sign language user,
The images are a plurality of time-series images captured over time,
The hand skeletal information acquiring step acquires hand skeletal information from the acquired image,
The hand skeleton information includes hand skeleton coordinates and hand detection area coordinates;
The body skeleton information acquiring step acquires body skeleton information from the acquired image,
The body skeletal information includes body skeletal coordinates;
the information integration step includes integrating the hand skeletal information and the body skeletal information to calculate a position of the hand skeletal position on the body and a position of the hand;
the action recognition step includes chronologically arranging the integrated and calculated hand skeletal position and hand position, and the body skeletal information, and recognizing hand action information from the organized hand skeletal position and hand position, and the body skeletal information, to estimate a sign language word;
The correction step includes correcting coordinates of the detection area of the hand based on skeletal coordinates of the hand.
A sign language translation processing method.
前記画像取得手順は、手話話者の手話における手を含む身体の画像を取得し、
前記手話が、前記手話話者と非手話話者とのコミュニケーションにおける手話であり、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標、及び手の検出領域座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記補正手順は、前記手の骨格座標から前記手の検出領域座標を補正する、
前記各手順をコンピュータに実行させるためのプログラム。 The method includes an image acquisition step, a hand skeleton information acquisition step, a body skeleton information acquisition step, an information integration step, a motion recognition step, and a correction step.
The image acquisition step includes acquiring an image of a body including a hand of a sign language user ;
The sign language is a sign language for communication between the sign language user and a non-sign language user,
The images are a plurality of time-series images captured over time,
The hand skeletal information acquisition step acquires hand skeletal information from the acquired image,
The hand skeleton information includes hand skeleton coordinates and hand detection area coordinates;
The body skeleton information acquisition step acquires body skeleton information from the acquired image,
The body skeletal information includes body skeletal coordinates;
the information integration step includes integrating the hand skeletal information and the body skeletal information to calculate a position of the hand skeletal position on the body and a position of the hand;
the motion recognition step includes chronologically organizing the integrated and calculated skeletal position of the hand and the position of the hand, and the skeletal information of the body, and recognizing hand motion information from the organized skeletal position of the hand and the position of the hand, and the skeletal information of the body, to estimate a sign language word;
the correction step corrects coordinates of the detection area of the hand from skeletal coordinates of the hand;
A program for causing a computer to execute each of the above procedures.
前記画像取得手順は、手話話者の手話における手を含む身体の画像を取得し、
前記手話が、前記手話話者と非手話話者とのコミュニケーションにおける手話であり、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標、及び手の検出領域座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記補正手順は、前記手の骨格座標から前記手の検出領域座標を補正する、
前記各手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 The method includes an image acquisition step, a hand skeleton information acquisition step, a body skeleton information acquisition step, an information integration step, a motion recognition step, and a correction step.
The image acquisition step includes acquiring an image of a body including a hand of a sign language user ;
The sign language is a sign language for communication between the sign language user and a non-sign language user,
the images are a plurality of time-series images captured over time,
The hand skeletal information acquisition step acquires hand skeletal information from the acquired image,
The hand skeleton information includes hand skeleton coordinates and hand detection area coordinates;
The body skeleton information acquisition step acquires body skeleton information from the acquired image,
The body skeletal information includes body skeletal coordinates;
the information integration step includes integrating the hand skeletal information and the body skeletal information to calculate a position of the hand skeletal position on the body and a position of the hand;
the motion recognition step includes chronologically organizing the integrated and calculated skeletal position of the hand and the position of the hand, and the skeletal information of the body, and recognizing hand motion information from the organized skeletal position of the hand and the position of the hand, and the skeletal information of the body, to estimate a sign language word;
the correction step corrects the detection area coordinates of the hand from the skeleton coordinates of the hand;
A computer-readable recording medium having recorded thereon a program for causing a computer to execute each of the above procedures.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022125151A JP7485454B2 (en) | 2022-08-05 | 2022-08-05 | Sign language translation processing device, sign language translation processing system, sign language translation processing method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022125151A JP7485454B2 (en) | 2022-08-05 | 2022-08-05 | Sign language translation processing device, sign language translation processing system, sign language translation processing method, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2024021935A JP2024021935A (en) | 2024-02-16 |
JP7485454B2 true JP7485454B2 (en) | 2024-05-16 |
Family
ID=89855352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022125151A Active JP7485454B2 (en) | 2022-08-05 | 2022-08-05 | Sign language translation processing device, sign language translation processing system, sign language translation processing method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7485454B2 (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001056861A (en) | 1999-06-08 | 2001-02-27 | Matsushita Electric Ind Co Ltd | Device and method for recognizing shape and attitude of hand and recording medium where program implementing the method is recorded |
JP2011065652A (en) | 2004-05-14 | 2011-03-31 | Honda Motor Co Ltd | Sign based man-machine interaction |
JP2015148706A (en) | 2014-02-06 | 2015-08-20 | 日本放送協会 | Classification information generation device for sign language word and program thereof, and search device of sign language word and program thereof |
JP2017204067A (en) | 2016-05-10 | 2017-11-16 | 株式会社オルツ | Sign language conversation support system |
JP2020126144A (en) | 2019-02-05 | 2020-08-20 | ソフトバンク株式会社 | System, server device, and program |
JP2020198019A (en) | 2019-06-05 | 2020-12-10 | Kddi株式会社 | Method, device and program for skeleton extraction |
JP2021170247A (en) | 2020-04-16 | 2021-10-28 | 本田技研工業株式会社 | Information processing device, information processing system, information processing method and program |
-
2022
- 2022-08-05 JP JP2022125151A patent/JP7485454B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001056861A (en) | 1999-06-08 | 2001-02-27 | Matsushita Electric Ind Co Ltd | Device and method for recognizing shape and attitude of hand and recording medium where program implementing the method is recorded |
JP2011065652A (en) | 2004-05-14 | 2011-03-31 | Honda Motor Co Ltd | Sign based man-machine interaction |
JP2015148706A (en) | 2014-02-06 | 2015-08-20 | 日本放送協会 | Classification information generation device for sign language word and program thereof, and search device of sign language word and program thereof |
JP2017204067A (en) | 2016-05-10 | 2017-11-16 | 株式会社オルツ | Sign language conversation support system |
JP2020126144A (en) | 2019-02-05 | 2020-08-20 | ソフトバンク株式会社 | System, server device, and program |
JP2020198019A (en) | 2019-06-05 | 2020-12-10 | Kddi株式会社 | Method, device and program for skeleton extraction |
JP2021170247A (en) | 2020-04-16 | 2021-10-28 | 本田技研工業株式会社 | Information processing device, information processing system, information processing method and program |
Also Published As
Publication number | Publication date |
---|---|
JP2024021935A (en) | 2024-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6713141B1 (en) | Layout analysis method, reading aid, circuit and medium | |
CN110852254B (en) | Face key point tracking method, medium, device and computing equipment | |
Porzi et al. | A smart watch-based gesture recognition system for assisting people with visual impairments | |
US20110273474A1 (en) | Image display apparatus and image display method | |
US20140010441A1 (en) | Unsupervised movement detection and gesture recognition | |
US10762340B2 (en) | Real-time gesture detection and recognition | |
WO2015172735A1 (en) | Detection devices and methods for detecting regions of interest | |
EP4187492A1 (en) | Image generation method and apparatus, and computer device and computer-readable storage medium | |
JP6277736B2 (en) | State recognition method and state recognition device | |
JP2017167779A (en) | Image processor, display device, animation generating method, animation display method and program | |
US20210201696A1 (en) | Automated speech coaching systems and methods | |
WO2015183420A1 (en) | Efficient forest sensing based eye tracking | |
KR20150107499A (en) | Object recognition apparatus and control method thereof | |
CN113194281A (en) | Video analysis method and device, computer equipment and storage medium | |
US20220013117A1 (en) | Information processing apparatus and information processing method | |
JP7485454B2 (en) | Sign language translation processing device, sign language translation processing system, sign language translation processing method, program, and recording medium | |
US20180126561A1 (en) | Generation device, control method, robot device, call system, and computer-readable recording medium | |
JP2006133941A (en) | Image processing device, image processing method, image processing program, and portable terminal | |
US9870197B2 (en) | Input information support apparatus, method for supporting input information, and computer-readable recording medium | |
JP2018060374A (en) | Information processing device, evaluation system and program | |
WO2023176144A1 (en) | Living body detection support device, facial authentication device, living body detection support method, facial authentication method, program, and recording medium | |
WO2023162410A1 (en) | Emotion correction device, emotion estimation device, emotion compensation method, emotion estimation method, and program | |
Peiris | Sinhala sign language to text interpreter based on machine learning | |
KR20070008993A (en) | Method of data acquisition using collaboration between input modalities | |
JP6144192B2 (en) | Image recognition apparatus and image recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231106 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240305 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240425 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7485454 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |