JP2023003442A - 手話教材用画像生成装置及びそのプログラム - Google Patents

手話教材用画像生成装置及びそのプログラム Download PDF

Info

Publication number
JP2023003442A
JP2023003442A JP2021104526A JP2021104526A JP2023003442A JP 2023003442 A JP2023003442 A JP 2023003442A JP 2021104526 A JP2021104526 A JP 2021104526A JP 2021104526 A JP2021104526 A JP 2021104526A JP 2023003442 A JP2023003442 A JP 2023003442A
Authority
JP
Japan
Prior art keywords
image
sign language
wrist
candidate
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021104526A
Other languages
English (en)
Inventor
結子 山内
Yuiko Yamauchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2021104526A priority Critical patent/JP2023003442A/ja
Publication of JP2023003442A publication Critical patent/JP2023003442A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】静止画の手話教材用画像を効率的に生成できる手話教材用画像生成装置を提供する。【解決手段】手話教材用画像生成装置1は、手話動画から、手話動作開始画像及び手話動作終了画像を選択する手話動作画像選択手段12と、手話動作終了画像から手話動作開始画像まで、所定のフレーム間隔に渡って手首の動きが少なくなる候補画像を推定する候補画像推定手段21と、候補画像21に手首の軌跡を合成することで、手話教材用画像を生成する手首軌跡合成手段31とを備える。【選択図】図1

Description

本発明は、手話教材用画像生成装置及びそのプログラムに関する。
手話教材書籍は、手話単語や指文字といった手話を習得するための書籍であり、手話動作の写真やイラストを用いた説明が行われる。現状、手話教材書籍は、手話動作を行っている人物の写真やイラストなどの静止画教材が主流である。従って、手話を理解できる制作者が手話映像から一枚一枚静止画を手作業で抽出する、又は、イラストレーターが実手話映像から手話動作を想像してイラスト化することで、静止画教材を作成している。
また、手話教材を作成する技術も提案されている(非特許文献1)。この従来技術は、言語研究用に開発された無料ソフトELAN(EUDICO Linguistic Annotator)を利用して、手話教材を作成するものである。なお、ELANは、映像や音声データなどのメディアファイルを取り込み、異なるタイプの注釈(コメントやメモ)を自由につけることを可能にするソフトである。
南田政浩 松岡和美 矢野羽衣子、ELANを用いた手話教材の開発、『手話学研究』第20巻(2011年)、39ページ~44ページ
しかしながら、前記した静止画教材の作成手法では、静止画の抽出やイラスト化に手話の経験が要求され、作業時間が多くなるという問題がある。また、非特許文献1に記載の技術は、手話教材を動画で作成するものであり、静止画の手話教材には対応できない。
そこで、本発明は、静止画の手話教材用画像を効率的に生成できる手話教材用画像生成装置及びそのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係る手話教材用画像生成装置は、人物が手話を行っている手話映像から、静止画である手話教材用画像を生成する手話教材用画像生成装置であって、手話動作画像選択手段と、候補画像推定手段と、手首軌跡合成手段と、を備える構成とした。
かかる構成によれば、手話動作画像選択手段は、手話映像の手首位置が予め設定した手話動作基準位置より下側となるフレーム画像を手話動作開始画像として選択し、手話動作開始画像より後に、再び手首位置が手話動作基準位置より下側となるフレーム画像を手話動作終了画像として選択する。
候補画像推定手段は、手話動作終了画像から手話動作開始画像まで、所定のフレーム間隔に渡って手首の動きが少なくなるフレーム画像を候補画像として推定する。
手首軌跡合成手段は、候補画像に手首の軌跡を合成することで、手話教材用画像を生成する。
ここで、手首の動きが遅いときの画像や手首が反転するときの画像が、手話動作の特徴を表していると考えられる。そこで、候補画像推定手段が、手首の動きが遅いときのフレーム画像や手首が反転するときのフレーム画像を候補画像として推定することで、手話学習に適した静止画の手話教材用画像を効率的に生成できる。
なお、本発明は、コンピュータを、前記した手話教材用画像生成装置として機能させるためのプログラムで実現することもできる。
本発明によれば、静止画の手話教材用画像を効率的に生成することができる。
実施形態に係る手話教材用画像生成装置の構成を示すブロック図である。 実施形態において、手話教材用画像生成装置の全体動作を示すフローチャートである。 実施形態において、手話動作取得処理を示すフローチャートである。 実施形態において、画像差分による候補画像推定処理を示すフローチャートである。 実施形態において、手首座標による候補画像推定処理を示すフローチャートである。 実施形態において、候補画像指定処理を示すフローチャートである。 実施形態において、動き情報合成処理を示すフローチャートである。 (a)及び(b)は、手話教材用画像の生成を説明する説明図である。
以下、本発明の実施形態について図面を参照して説明する。但し、以下に説明する各実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。また、同一の手段には同一の符号を付し、説明を省略する場合がある。
[手話教材用画像生成装置の構成]
図1及び図2を参照し、実施形態に係る手話教材用画像生成装置1の構成について説明する。
手話教材用画像生成装置1は、人物が手話を行っている手話映像から、静止画である手話教材用画像を生成するものである。図1に示すように、手話教材用画像生成装置1は、手話動作取得手段10と、静止画推定手段20と、動き情報合成手段30とを備える。
手話動作取得手段10は、手話映像から手話動作を取得する手話動作取得処理S1(図2)を行うものであり、キャプチャデータ判定手段11と、手話動作画像選択手段12とを備える。
キャプチャデータ判定手段11は、手話映像が入力され、入力された手話映像にキャプチャデータが付加されているか否かを判定するである。
なお、キャプチャデータとは、手話映像の各フレーム画像に付加されている手首の3次元座標を表すデータのことであり、一般的なモーションキャプチャ装置で生成できる。
手話動作画像選択手段12は、手話映像の手首位置が予め設定した手話動作基準位置より下側となるフレーム画像を手話動作開始画像として選択するものである。また、手話動作画像選択手段12は、手話動作開始画像より後に、再び手首位置が手話動作基準位置より下側となるフレーム画像を手話動作終了画像として選択する。
以後、手話動作開始画像を「In点」と表記し、手話動作終了画像を「Out点」と表記する場合ある。
静止画推定手段20は、手話教材用画像として用いる静止画を推定する静止画推定処理S2(図2)を行うものであり、候補画像推定手段21と、候補画像指定手段22とを備える。
候補画像推定手段21は、手話映像のOut点からIn点まで、所定のフレーム間隔に渡って手首の動きが少なくなるフレーム画像を候補画像として推定するものである。
候補画像指定手段22は、前記した候補画像を指定するものである。例えば、手話教材用画像生成装置1の利用者が、図示を省略したキーボード、マウスなどの操作手段を用いて、候補画像を手動で指定する。
動き情報合成手段30は、手首の動き情報(軌跡)を候補画像に合成する動き情報合成処理S3(図2)を行うものであり、手首軌跡合成手段31と、手首軌跡修正手段32とを備える。
手首軌跡合成手段31は、候補画像に手首の軌跡を合成することで、手話教材用画像を生成するものである。
手首軌跡修正手段32は、前記した手首の軌跡を修正するものである。例えば、手話教材用画像生成装置1の利用者が、操作手段を用いて、手首の軌跡を手動で修正する。
[手話教材用画像生成装置の全体動作:手話動作取得処理]
図2を参照し、手話教材用画像生成装置1の全体動作を説明する。
手話教材を作成する際、手話映像だけを収録する場合と、手話映像に加え、モーションキャプチャ装置でキャプチャデータも取得している場合がある。このため、図2の手話動作取得処理S1では、手話動作取得手段10が、手話映像又はキャプチャデータから手首位置を取得する。そして、手話動作取得手段10は、手話映像の手の動きに注目し、両手を胸下で組んだ状態又は両手を真下に下した状態をIn点、再び両手を胸下で組んだ状態又は両手を真下に戻した状態をOut点として選択する。
図3を参照し、手話動作取得処理S1の各ステップを詳細に説明する。
ステップS10において、キャプチャデータ判定手段11は、手話映像にキャプチャデータが付加されているか否かを判定する。
キャプチャデータが付加されていない場合(ステップS10でNo)、キャプチャデータ判定手段11は、手話映像のみを取得し、ステップS12の処理に進む。
キャプチャデータが付加されている場合(ステップS10でNo)、キャプチャデータ判定手段11は、手話映像及びキャプチャデータを取得し、ステップS13の処理に進む。
ステップS12において、手話動作画像選択手段12は、手話映像の各フレーム画像に関節検出処理を施すことで、手首の2次元座標を手首位置として検出する。例えば、関節検出処理には、フレーム画像単位で関節位置を検出可能なOpenPoseを利用できる(参考文献1)。このOpenPoseでは、検出された各関節に固有の識別子が割り当てられており、例えば、識別子4,7が両手首に割り当てられている。従って、この識別子を指定すれば、OpenPoseで両手首の2次元座標を検出できる。
参考文献1:OpenPose、[online]、[令和3年5月24日検索]、インターネット<URL:https://github.com/CMU-Perceptual-Computing-Lab/openpose>
ステップS13,S14では、手話動作画像選択手段12が、手話映像から、手首位置が手話動作基準位置より下側となるフレーム画像をOut点として選択する。
具体的には、ステップS13において、手話動作画像選択手段12は、処理対象となるi番目のフレーム画像Yを最後のフレーム画像YEndに設定する(i=End)。そして、手話動作画像選択手段12は、フレーム画像Yから手首位置を取得する。
ここで、キャプチャデータが付加されている場合(ステップS10でYes)、手話動作画像選択手段12は、キャプチャデータから手首の3次元座標(x,y,z)を取得する。
一方、キャプチャデータが付加されていない場合(ステップS10でNo)、手話動作画像選択手段12は、ステップS12で検出した手首の2次元座標(x,y)を取得する。この場合、奥行座標z=0として扱うこととする。
ステップS14において、手話動作画像選択手段12は、手首の垂直座標yが予め設定した手話動作基準位置(閾値y_Chst)を超えているかを閾値判定する。ここでは、手話動作画像選択手段12は、左右両方の手首の垂直座標yが手話動作基準位置を超えているかを閾値判定する。
なお、手話動作基準位置は、画像上で手話動作の開始及び終了するときの位置(高さ)を表しており、例えば、胸下で両手を組んだときの胸下位置、又は、両手を真下に下げたときの真下位置である。なお、閾値y_Chstが胸下位置を表す閾値である。
垂直座標yが閾値y_Chstを超えない場合(ステップS14でNo)、手話動作画像選択手段12は、変数iをデクリメントし(i=i-1)、ステップS13の処理に戻る。
垂直座標yが閾値y_Chstを超える場合(ステップS14でYes)、手話動作画像選択手段12は、フレーム画像YをOut点として選択する(Out点=i)。
ステップS15,S16では、手話動作画像選択手段12が、手話映像から、手首位置が手話動作基準位置より下側となるフレーム画像YをIn点として選択する。
ステップS15において、手話動作画像選択手段12は、フレーム画像Yから手首位置を取得する。
ステップS16において、手話動作画像選択手段12は、手首の垂直座標yが閾値y_Chst未満であるかを閾値判定する。ここでは、手話動作画像選択手段12は、左右両方の手首の垂直座標yが手話動作基準位置未満であるかを閾値判定する。
垂直座標yが閾値y_Chst未満でない場合(ステップS16でNo)、手話動作画像選択手段12は、変数iをデクリメントし(i=i-1)、ステップS15の処理に戻る。
垂直座標yが閾値y_Chst未満の場合(ステップS16でYes)、手話動作画像選択手段12は、フレーム画像YをIn点として選択し(In点=i)、図2の静止画推定処理S2に進む。
図2の静止画推定処理S2では、静止画推定手段20は、画像差分による候補画像推定処理S20、又は、手首座標による候補画像推定処理S21の何れか一方を実行した後、候補画像指定処理S22を実行する。例えば、手話教材用画像生成装置1の利用者が、操作手段を用いて、画像差分による候補画像推定処理S20、又は、手首座標による候補画像推定処理S21の何れを実行するか手動で設定する。
<画像差分による候補画像推定処理>
図4を参照し、画像差分による候補画像推定処理S20を説明する。
画像差分による候補画像推定処理S20では、候補画像推定手段21が、Out点からIn点まで、隣接するフレーム画像Yで画像差分を算出する。そして、候補画像推定手段21は、フレーム間隔連続して画像差分が予め設定した差分閾値未満となるフレーム画像Yを候補画像として推定する。
以下、画像差分による候補画像推定処理S20の各ステップを詳細に説明する。
図4に示すように、ステップS200では、候補画像推定手段21は、変数iをOut点に設定し(i:Out点)、変数jを初期化し(j:1)、変数kを初期化する(k:1)。続いて、候補画像推定手段21は、処理対象のフレーム画像YがIn点未満であるか否か、つまり、変数iがIn点未満を指しているか否かを判定する。
変数iがIn点未満を指す場合(ステップS200でYes)、候補画像推定手段21は、図2の候補画像指定処理S22に進む。
変数iがin点未満を指していない場合(ステップS200でNo)、候補画像推定手段21は、ステップS201の処理に進む。
ステップS201において、候補画像推定手段21は、Out点からIn点まで、隣接するフレーム画像Yで画像差分を算出する。本実施形態では、候補画像推定手段21は、画像差分として、隣接するフレーム画像Y間において、全対応画素の輝度値の絶対差分合計値を算出する。この他、候補画像推定手段21は、RGBや色差信号を用いて、画像差分を算出してもよい。
具体的には、候補画像推定手段21は、フレーム画像Yの画素(p,s)の輝度値Y(p,s)と、フレーム画像Yi-1の画素(p,s)の輝度値Yi-1(p,s)との絶対差分を算出する。そして、候補画像推定手段21は、全画素(p,s)について、輝度値の絶対差分の合計値DiffYを求める。
なお、p=0,…,pmax、s=0,…,smaxとなる。また、pmaxがフレーム画像Yの水平最大画素数、smaxがフレーム画像Yの垂直最大画素数を表す。
ステップS202において、候補画像推定手段21は、合計値DiffYが差分閾値Y_th未満であるか否かを閾値判定する。
なお、差分閾値Y_thは画像差分の閾値であり、時間閾値Cnt_thはフレーム間隔の閾値である。例えば、手話動作が早い人と遅い人がいるので、手話動作の速度に応じて、手話教材用画像生成装置1の利用者が、これら閾値を手動で設定すればよい。
合計値DiffYが差分閾値Y_th未満の場合(ステップS202でYes)、候補画像推定手段21は、ステップS203の処理に進む。
合計値DiffYが差分閾値Y_th未満でない場合(ステップS202でNo)、候補画像推定手段21は、変数iをデクリメントし(i=i-1)、ステップS200の処理に戻る。
ステップS203において、候補画像推定手段21は、変数jが時間閾値Cnt_th以上であるかを閾値判定する。
変数jが時間閾値Cnt_th以上の場合(ステップS203でYes)、手首の動きが少ない状態が所定のフレーム間隔連続したと言えるので、候補画像推定手段21は、ステップS204の処理に進む。
変数jが時間閾値Cnt_th以上でない場合(ステップS203でNo)、候補画像推定手段21は、変数iをデクリメントし(i=i-1)、変数jをインクリメントし(j=j+1)、ステップS200の処理に戻る。
ステップS204において、候補画像推定手段21は、フレーム画像Yをk番目の候補画像StopFrame[k]として推定する。そして、候補画像推定手段21は、変数iをデクリメントし(i=i-1)、変数jを初期化し(j=1)、変数kをカウントアップし(k=+1)、ステップS200の処理に戻る。
なお、候補画像StopFrame[k]は、Out点に近くなる程、優先度が高くなる。従って、k=1の候補画像StopFrame[1]が、優先度が最も高い候補画像となる。
<手首座標による候補画像推定処理>
図5を参照し、手首座標による候補画像推定処理S21を詳細に説明する。
手首座標による候補画像推定処理S21では、候補画像推定手段21が、手首座標として、キャプチャデータが示す手首の3次元座標、又は、関節検出処理で検出した手首の2次元座標を用いて、図4の画像差分による候補画像推定処理S20と同様の処理を行う。
つまり、手首座標による候補画像推定処理S21では、候補画像推定手段21が、Out点からIn点まで、隣接するフレーム画像Yで手首座標(3次元座標又は2次元座標)の差分を算出する。そして、候補画像推定手段21は、フレーム間隔連続して手首座標の差分が予め設定した差分閾値未満となるフレーム画像Yを候補画像として推定する。
以下、手首座標による候補画像推定処理S21の各ステップを詳細に説明する。
図5に示すように、ステップS210では、候補画像推定手段21は、変数iをOut点に設定し、変数j,kを初期化する(i:Out点、j:1、k:1)。続いて、候補画像推定手段21は、変数iがIn点未満を指しているか否かを判定する。
変数iがin点未満を指す場合(ステップS210でYes)、候補画像推定手段21は、図2の候補画像指定処理S22に進む。
変数iがin点未満を指していない場合(ステップS210でNo)、候補画像推定手段21は、ステップS211の処理に進む。
ステップS211において、候補画像推定手段21は、Out点からIn点まで、隣接するフレーム画像Yで手首座標を取得する。具体的には、候補画像推定手段21は、フレーム画像Yの手首座標(x,y,z)と、フレーム画像Yi-1の手首座標(xi-1,yi-1,zi-1)とを取得する。なお、関節検出処理で手首の2次元座標を検出した場合、z=zi-1=0とすればよい。
ステップS212において、候補画像推定手段21は、フレーム画像Y,Yi-1の手首座標の差分L={|x-xi-1|+|y-yi-1|+|z-zi-1|}を算出する。そして、候補画像推定手段21は、手首座標の差分Lが差分閾値D_th未満であるか否かを閾値判定する。
なお、差分閾値D_thは、手首座標の差分閾値であり、例えば、手話教材用画像生成装置1の利用者が手動で設定する。
手首座標の差分Lが差分閾値D_th未満の場合(ステップS212でYes)、候補画像推定手段21は、ステップS213の処理に進む。
手首座標の差分Lが差分閾値D_th未満でない場合(ステップS212でNo)、候補画像推定手段21は、変数iをデクリメントし(i=i-1)、ステップS210の処理に戻る。
ステップS213において、候補画像推定手段21は、変数jが時間閾値Cnt_th以上であるかを閾値判定する。
変数jが時間閾値Cnt_th以上の場合(ステップS213でYes)、手首の動きが少ない状態が所定のフレーム間隔連続したと言えるので、候補画像推定手段21は、ステップS214の処理に進む。
変数jが時間閾値Cnt_th以上でない場合(ステップS213でNo)、候補画像推定手段21は、変数iをデクリメントし(i=i-1)、変数jをインクリメントし(j=j+1)、ステップS210の処理に戻る。
ステップS214において、候補画像推定手段21は、フレーム画像Yをk番目の候補画像StopFrame[k]として推定する。そして、候補画像推定手段21は、変数iをデクリメントし(i=i-1)、変数jを初期化し(j=1)、変数kをカウントアップし(k=+1)、ステップS210の処理に戻る。
<候補画像指定処理>
図6を参照し、図2の候補画像指定処理S22を説明する。
候補画像指定処理S22では、手話教材用画像生成装置1の利用者が、最優先の候補画像よりも、他の候補画像又はフレーム画像Yの方が手話教材用画像として最適と判断した場合、最終的な候補画像を手動で指定する。
以下、候補画像指定処理S22の各ステップを詳細に説明する。
図6に示すように、ステップS220において、候補画像指定手段22は、全ての候補画像(All StopFrame[j])をディスプレイ(不図示)に表示する。ここで、手話教材用画像生成装置1の利用者が候補画像を指定できれば、その表示手法は任意である。例えば、候補画像指定手段22は、各候補画像を一枚一枚順に表示してもよく、全ての候補画像を1画面に縮小表示してもよい。
ステップS221において、手話教材用画像生成装置1の利用者に候補画像StopFrame[j]を指定させる。例えば、手話教材用画像生成装置1の利用者が、操作手段を用いて、候補画像StopFrame[j]を手動で指定する。
なお、手話教材用画像生成装置1の利用者が指定した候補画像StopFrame[j]を候補画像SelectFrame[k]とする。
ステップS222において、候補画像指定手段22は、候補画像StopFrame[j]が指定されたか否かを判定する。
候補画像StopFrame[j]が指定された場合(ステップS222でYes)、候補画像指定手段22は、ステップS223の処理に進む。
候補画像StopFrame[j]が指定されなかった場合(ステップS222でNo)、候補画像指定手段22は、ステップS225の処理に進む。
ステップS223において、候補画像指定手段22は、候補画像StopFrame[j]に±Dフレームだけ前後するフレーム画像(StopFrame[j]±D)をディスプレイに表示する。なお、Dは、1以上の任意の整数で予め設定する。
ステップS224において、候補画像指定手段22は、手話教材用画像生成装置1の利用者に、前後のフレーム画像(StopFrame[j]±D)を指定させる。例えば、手話教材用画像生成装置1の利用者が、操作手段を用いて、候補画像StopFrame[j]±Dを手動で指定する。
なお、手話教材用画像生成装置1の利用者が指定した候補画像StopFrame[j]±Dを候補画像SelectFrame[k]とする。
ステップS225において、候補画像指定手段22は、複数の候補画像StopFrame[j]が指定されたか否かを判定する。
複数の候補画像StopFrame[j]±Dが指定された場合(ステップS225でYes)、候補画像指定手段22は、変数kをカウントアップし(k=+1)、ステップS221の処理に戻る。
複数の候補画像StopFrame[j]±Dが指定されなかった場合(ステップS225でNo)、候補画像指定手段22は、図2の動き情報合成処理S3に進む。
<動き情報合成処理>
図7を参照し、図2の動き情報合成処理S3を説明する。
動き情報合成処理S3では、手首軌跡合成手段31が、手首の3次元座標を2次元座標に透視変換し、手首の2次元座標に基づいて軌跡を合成する。さらに、動き情報合成処理S3では、手話教材用画像生成装置1の利用者が、合成した軌跡を消去又は修正する。
以下、動き情報合成処理S3の各ステップを詳細に説明する。
図7に示すように、ステップS300において、手首軌跡合成手段31は、候補画像SelectFrame[m]をディスプレイに表示する。なお、候補画像SelectFrame[m]は、図6の候補画像指定処理S22で最終的に指定された候補画像SelectFrame[k]のことである。
ステップS301において、手首軌跡合成手段31は、手話教材用画像生成装置1の利用者に、手首の軌跡を合成するか否かを入力させる。
手首の軌跡を合成する場合(ステップS301でYes)、手首軌跡合成手段31は、ステップS302の処理に進む。
手首の軌跡を合成しない場合(ステップS301でNo)、手首軌跡合成手段31は、ステップS310の処理に進む。
ステップS302において、手首軌跡合成手段31は、手首の3次元座標(x,y,z)を2次元座標(p,s)に透視変換し、手首の2次元座標(p,s)に基づいて軌跡を合成する。ここで、手首軌跡合成手段31は、最もOut点に近い候補画像から最もIn点に近い候補画像までの間で手首の軌跡を合成する。具体的には、手首軌跡合成手段31は、候補画像SelectFrame[m]以前で、i=SelectFrame[m]からStopFrame[jmax]までのフレーム画像Yについて、手首の2次元座標(p,s)を軌跡として連結する。そして、手首軌跡合成手段31は、手首の軌跡を候補画像SelectFrame[m]に合成する。なお、jmaxは、フレーム間隔jの最大値で予め設定されている。
ステップS310において、手首軌跡合成手段31は、手首の軌跡が合成された候補画像SelectFrame[k]をディスプレイに表示する。
ステップS311において、手首軌跡修正手段32は、手話教材用画像生成装置1の利用者に、手首の軌跡を修正するか否かを入力させる。
手首の軌跡を修正する場合(ステップS311でYes)、手首軌跡修正手段32は、ステップS312の処理に進む。
手首の軌跡を修正しない場合(ステップS311でNo)、手首軌跡修正手段32は、処理を終了する。
ステップS312において、手首軌跡修正手段32は、手話教材用画像生成装置1の利用者に、i≦StopFrame[jmax]の範囲内で、軌跡の先頭及び末尾となるフレーム画像Yを選択させる。そして、手首軌跡修正手段32は、選択された先頭から末尾までのフレーム画像Yにおいて、ステップS32と同様に手首の軌跡を生成し、ステップS310の処理に戻る。
<手話教材用画像の具体例>
図8を参照し、手話教材用画像の具体例について説明する。
図8(a)には、手話動画の各フレーム画像Yのうち、手話教材用画像の生成に関連するものを図示した。また、図8(b)には、手話教材用画像の一例を図示した。
図8(a)に示すように、手話動作画像選択手段12が、手話動画の末尾から先頭側にかけて、両手を真下に下げた状態となる最初のフレーム画像YOutをOut点として選択する。
また、手話動作画像選択手段12が、手話動画のOut点から先頭側にかけて、再び両手を真下に下げた状態となるフレーム画像YInをIn点として選択する。
候補画像推定手段21が、手話動画のOut点から先頭側にかけて、合計値DiffYが差分閾値Y_th未満で、かつ、変数jが時間閾値Cnt_th未満となる最初のフレーム画像Yk1を、最優先の候補画像StopFrame[1]として推定する。
また、候補画像推定手段21が、手話動画のフレーム画像Yk1から先頭側にかけて、合計値DiffYが差分閾値Y_th未満で、かつ、変数jが時間閾値Cnt_th未満となるフレーム画像Yk2を、優先度が2番目の候補画像StopFrame[2]として推定する。ここで、フレーム画像Yk2より優先度が高いフレーム画像Yk1が、最終的な候補画像となる。
図8(b)に示すように、手首軌跡合成手段31は、フレーム画像Yk2からフレーム画像YInまでの手首の軌跡Bを連結し、フレーム画像Yk1に軌跡Bを合成する。この軌跡Bを合成したフレーム画像Yk1が手話教材用画像となる。
[作用・効果]
以上のように、実施形態に係る手話教材用画像生成装置1は、静止画の手話教材用画像を効率的に生成できる。つまり、手話教材用画像生成装置1は、手話動画から手話教材用画像として用いる静止画を自動的に抽出し、手話教材用画像に必要な手首の軌跡も自動的に合成できる。このように、手話教材用画像生成装置1は、静止画という制約のある書籍に適した手話教材用画像を生成できるので、著者が意図する書籍を短時間で制作できる。
さらに、手話教材用画像生成装置1は、書籍では伝わりにくかった手首の動きを簡易に合成できるため、静止画の手話教材用画像でも手話の動作が理解しやすくなる。
以上、実施例を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
前記した実施形態では、手話教材用画像生成装置を独立したハードウェアとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記した手話教材用画像生成装置として動作させるプログラムで実現することもできる。これらプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
1 手話教材用画像生成装置
10 手話動作取得手段
11 キャプチャデータ判定手段
12 手話動作画像選択手段
20 静止画推定手段
21 候補画像推定手段
22 候補画像指定手段
30 動き情報合成手段
31 手首軌跡合成手段
32 手首軌跡修正手段

Claims (9)

  1. 人物が手話を行っている手話映像から、静止画である手話教材用画像を生成する手話教材用画像生成装置であって、
    前記手話映像の手首位置が予め設定した手話動作基準位置より下側となるフレーム画像を手話動作開始画像として選択し、前記手話動作開始画像より後に、再び前記手首位置が前記手話動作基準位置より下側となるフレーム画像を手話動作終了画像として選択する手話動作画像選択手段と、
    前記手話動作終了画像から前記手話動作開始画像まで、所定のフレーム間隔に渡って手首の動きが少なくなる前記フレーム画像を候補画像として推定する候補画像推定手段と、
    前記候補画像に前記手首の軌跡を合成することで、前記手話教材用画像を生成する手首軌跡合成手段と、
    を備えることを特徴とする手話教材用画像生成装置。
  2. 前記手話動作画像選択手段は、前記手話映像の各フレーム画像に関節検出処理を施すことで、前記手首の2次元座標を前記手首位置として検出することを特徴とする請求項1に記載の手話教材用画像生成装置。
  3. 前記候補画像推定手段は、前記手話動作終了画像から前記手話動作開始画像まで、隣接する前記フレーム画像で前記手首の2次元座標の差分を算出し、前記フレーム間隔連続して前記手首の2次元座標の差分が予め設定した差分閾値未満となるフレーム画像を前記候補画像として推定することを特徴とする請求項2に記載の手話教材用画像生成装置。
  4. 前記候補画像推定手段は、前記手話動作終了画像から前記手話動作開始画像まで、隣接する前記フレーム画像で画像差分を算出し、前記フレーム間隔連続して前記画像差分が予め設定した差分閾値未満となるフレーム画像を前記候補画像として推定することを特徴とする請求項1又は請求項2に記載の手話教材用画像生成装置。
  5. 前記手話動作画像選択手段は、前記手話映像の各フレーム画像に付加されている前記手首の3次元座標を前記手首位置として取得することを特徴とする請求項1に記載の手話教材用画像生成装置。
  6. 前記候補画像推定手段は、前記手話動作終了画像から前記手話動作開始画像まで、隣接する前記フレーム画像で前記手首の3次元座標の差分を算出し、前記フレーム間隔連続して前記手首の3次元座標の差分が予め設定した差分閾値未満となるフレーム画像を前記候補画像として推定することを特徴とする請求項5に記載の手話教材用画像生成装置。
  7. 前記手首軌跡合成手段は、前記手首の3次元座標を2次元座標に透視変換し、前記手首の2次元座標に基づいて前記軌跡を合成することを特徴とする請求項5又は請求項6に記載の手話教材用画像生成装置。
  8. 前記手話動作基準位置は、前記フレーム画像において、両手を胸下で組んだときの胸下位置、又は、両手を真下に下げたときの真下位置に予め設定されていることを特徴とする請求項1から請求項7の何れか一項に記載の手話教材用画像生成装置。
  9. コンピュータを、請求項1から請求項8の何れか一項に記載の手話教材用画像生成装置として機能させるためのプログラム。
JP2021104526A 2021-06-24 2021-06-24 手話教材用画像生成装置及びそのプログラム Pending JP2023003442A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021104526A JP2023003442A (ja) 2021-06-24 2021-06-24 手話教材用画像生成装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021104526A JP2023003442A (ja) 2021-06-24 2021-06-24 手話教材用画像生成装置及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2023003442A true JP2023003442A (ja) 2023-01-17

Family

ID=85100819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021104526A Pending JP2023003442A (ja) 2021-06-24 2021-06-24 手話教材用画像生成装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP2023003442A (ja)

Similar Documents

Publication Publication Date Title
Patwardhan et al. Video inpainting under constrained camera motion
KR20230165350A (ko) 모바일 디바이스에서 사실적인 머리 회전들 및 얼굴 애니메이션 합성을 위한 방법들 및 시스템들
WO2019089097A1 (en) Systems and methods for generating a summary storyboard from a plurality of image frames
US20220078358A1 (en) System for automatic video reframing
Kovacevic et al. Deinterlacing by successive approximation
CN110910479B (zh) 视频处理方法、装置、电子设备及可读存储介质
Jensenius Some video abstraction techniques for displaying body movement in analysis and performance
KR20160097430A (ko) 애니메이션 생성 장치 및 방법
CN113395569B (zh) 视频生成方法及装置
CN112073749A (zh) 一种手语视频合成方法、手语翻译系统、介质和电子设备
JP2023109570A (ja) 情報処理装置、学習装置、画像認識装置、情報処理方法、学習方法、画像認識方法
JP4199214B2 (ja) 動画生成装置、動画生成方法、動画生成プログラム
JP2023003442A (ja) 手話教材用画像生成装置及びそのプログラム
Ekmen et al. From 2D to 3D real-time expression transfer for facial animation
JP2023526860A (ja) 階層化ニューラルレンダリングによる映像中のオブジェクトのリタイミング
Jha et al. Cross-language speech dependent lip-synchronization
CN116524087A (zh) 融合神经辐射场的音频驱动的说话人视频合成方法及系统
Chiang et al. A virtual tutor movement learning system in eLearning
CN115578298A (zh) 一种基于内容感知的深度肖像视频合成方法
Yang et al. An interactive facial expression generation system
US11151767B1 (en) Techniques for removing and synthesizing secondary dynamics in facial performance capture
JP2001051579A (ja) 映像表示方法、映像表示装置及び映像表示プログラムを記録した記録媒体
CN114219877A (zh) 人像头发流动特效处理方法、装置、介质和电子设备
JP6648930B2 (ja) 編集装置、編集方法及びプログラム
JP7321464B2 (ja) 抽出プログラム、画像生成プログラム、抽出方法、画像生成方法、抽出装置、および画像生成装置