JP2020126144A - システム、サーバ装置及びプログラム - Google Patents

システム、サーバ装置及びプログラム Download PDF

Info

Publication number
JP2020126144A
JP2020126144A JP2019018694A JP2019018694A JP2020126144A JP 2020126144 A JP2020126144 A JP 2020126144A JP 2019018694 A JP2019018694 A JP 2019018694A JP 2019018694 A JP2019018694 A JP 2019018694A JP 2020126144 A JP2020126144 A JP 2020126144A
Authority
JP
Japan
Prior art keywords
sign language
unit
time range
word
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019018694A
Other languages
English (en)
Other versions
JP6840365B2 (ja
Inventor
夏樹 高山
Natsuki Takayama
夏樹 高山
高橋 裕樹
Hiroki Takahashi
裕樹 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electro Communications NUC
SoftBank Corp
Original Assignee
University of Electro Communications NUC
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electro Communications NUC, SoftBank Corp filed Critical University of Electro Communications NUC
Priority to JP2019018694A priority Critical patent/JP6840365B2/ja
Publication of JP2020126144A publication Critical patent/JP2020126144A/ja
Application granted granted Critical
Publication of JP6840365B2 publication Critical patent/JP6840365B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】既存システムは手作業を前提としている点で労力が大きく、手話の言語解析及び認識システム等を構築する労力を低減可能な技術を提供することが望ましい。【解決手段】手話を行っている人物を含む手話動画を取得する動画取得部と、手話動画を送信する動画送信部とを有するクライアント装置と、動画送信部によって送信された手話動画を受信する動画受信部と、手話動画に対して、手話動画において行われている手話によって表される単語を対応付けるアノテーション作業を支援する支援UIをクライアント装置に提供するUI提供部とを有するサーバ装置とを備えるシステムを提供する。【選択図】図1

Description

本発明は、システム、サーバ装置及びプログラムに関する。
手話の言語解析及び認識システム等を構築するためには、大規模な動画データを収集し、さらにデータに対して解析や認識のための情報を付与するアノテーションを行い、手話コーパスを作成する必要がある。動画に対するアノテーション支援システムとして、手作業を前提とする各種システムが知られている(例えば、非特許文献1及び非特許文献2参照)。
[先行技術文献]
[非特許文献]
[非特許文献1]H.Lausberg and H.Sloetjes: Coding gestural behavior with the NEUROGES-ELAN system, Behavior Research Methods, Vol.41, No.3, pp.841-849 (2009)
[非特許文献2]M.Kipp:Multimedia Information Extraction: Advances in Video, Audio, and Imagery Analysis for Search, Data Mining, Surveillance, and Authorig, chapter 21, pp.351-368, John Wiley & Sons Inc. (2014)
既存システムは手作業を前提としている点で労力が大きく、手話の言語解析及び認識システム等を構築する労力を低減可能な技術を提供することが望ましい。
本発明の第1の態様によれば、システムが提供される。システムは、クライアント装置及びサーバ装置を備える。クライアント装置は、手話を行っている人物を含む手話動画を取得する動画取得部を有してよい。クライアント装置は、手話動画を送信する動画送信部を有してよい。サーバ装置は、動画送信部によって送信された手話動画を受信する動画受信部を有してよい。サーバ装置は、手話動画に対して、手話動画において行われている手話によって表される単語を対応付けるアノテーション作業を支援する支援UI(User Interface)をクライアント装置に提供するUI提供部を有してよい。
上記UI提供部は、Webブラウザ上で動作する上記支援UIを上記クライアント装置に提供してよい。上記UI提供部は、上記手話動画における手話動作が行われている時間範囲を特定する時間範囲特定部と、予め格納している手話単語認識モデルを用いて、上記時間範囲において行われている手話動作によって表わされる単語を認識する手話単語認識部と、上記時間範囲特定部によって特定された上記時間範囲と、上記手話単語認識部によって認識された単語とを上記支援UIを介して提示する提示部とを含んでよい。上記提示部は、上記支援UIを介して、上記時間範囲及び上記単語を修正可能に提示してよく、上記UI提供部は、上記時間範囲及び上記単語に対する修正を受け付ける修正受付部と、修正後の上記時間範囲及び上記単語を対応付けて格納する単語格納部とを含んでよい。上記単語格納部に格納されている上記時間範囲及び上記単語に基づいて、上記手話単語認識モデルを更新する認識モデル更新部を備えてよい。
上記手話単語認識部は、上記手話動画の上記時間範囲の複数のフレームのそれぞれについて、上記人物の身体の各部位の座標点を取得する身体動作追跡部と、上記身体動作追跡部による取得結果に基づいて、手話の特徴を示す手話特徴データを導出する手話特徴抽出部と、上記手話特徴抽出部が導出した複数の上記手話特徴データを用いて上記手話単語認識モデルを生成するモデル生成部とを含んでよい。上記身体動作追跡部は、上記手話動画の上記時間範囲の複数のフレームのそれぞれについて、上記人物の身体の各部の座標点と、上記座標点の信頼度とを取得してよく、上記手話特徴抽出部は、上記身体動作追跡部によって取得された複数の座標点のうち、信頼度が予め定められた閾値以下である座標点を、当該座標点に対応する座標点の信頼度が上記閾値より高い、当該座標点を含むフレームよりも過去のフレームの、当該座標点を含むフレームに最も時間が近いフレームに含まれる当該座標点に対応する座標点によって補正してよい。上記手話特徴抽出部は、上記身体動作追跡部によって取得された複数のフレームのそれぞれの複数の座標点に対して、予め定められた原点及び予め定められた基準長を用いて座標変換を施してよい。上記手話特徴抽出部は、上記人物の身体、左手、右手、及び顔毎に、予め定められた原点及び基準長を用いて座標変換を施してよい。
上記UI提供部は、上記手話動画において手話動作が行われている時間範囲を特定する時間範囲特定部と、上記支援UIを介して、上記時間範囲に対応付ける単語の入力を受け付ける入力受付部と、上記時間範囲と上記単語とを対応付けて格納する単語格納部とを含んでよい。上記時間範囲特定部は、学習用の手話動画に含まれる複数のフレームのそれぞれの、フレーム内の人物が静止状態であるか動作状態であるかを示す状態情報及び手話の特徴を示す手話特徴データを用いてSVM(Support Vector Machine)モデルを学習することによって導出された分割超平面に基づいて、上記動画受信部が受信した上記手話動画に含まれる複数のフレームを、静止状態と動作状態とに分類する分類部と、時系列データの特徴量と隣接データ間の特徴量連続性とに基づく分割手法を用いて、上記分類部による分類結果を補正する分類結果補正部とを含んでよい。上記分類部は、上記動画受信部が受信した上記手話動画に含まれる複数のフレームのそれぞれについて、上記人物の身体の各部位の座標点を取得する身体動作追跡部と、上記身体動作追跡部による取得結果に基づいて、上記複数のフレームのそれぞれについて、手話の特徴を示す手話特徴データを導出する手話特徴抽出部と、上記複数のフレームのそれぞれの上記手話特徴データと上記分割超平面とに基づいて、上記複数のフレームを静止状態と動作状態とに分類する分類処理部とを含んでよく、上記分類結果補正部は、上記複数のフレームのそれぞれの上記手話特徴データの上記分割超平面からの距離と、上記分類処理部による分類結果とをGraphcutsに適用することにより、上記分類結果を補正してよい。
本発明の第2の態様によれば、サーバ装置が提供される。サーバ装置は、手話を行っている人物を含む手話動画をクライアント装置から受信する動画受信部を備えてよい。サーバ装置は、手話動画に対して、手話動画において行われている手話によって表される単語を対応付けるアノテーション作業を支援する支援UIをクライアント装置に提供するUI提供部を備えてよい。
本発明の第3の態様によれば、コンピュータを上記サーバ装置として機能させるためのプログラムが提供される。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
システム10の一例を概略的に示す。 アノテーション作業を説明するための説明図である。 支援UI400の一例を概略的に示す。 サーバ装置100の機能構成の一例を概略的に示す。 手話単語認識部130の機能構成の一例を概略的に示す。 身体の座標点510の一例を概略的に示す。 顔の座標点520の一例を概略的に示す。 右手の座標点530の一例を概略的に示す。 時間範囲特定部120の機能構成の一例を概略的に示す。 分類部121及び分類結果補正部125による処理を説明する説明図である。 分類部121及び分類結果補正部125による処理を説明する説明図である。 クライアント装置200の機能構成の一例を概略的に示す。 サーバ装置100として機能するコンピュータ1000のハードウェア構成の一例を概略的に示す。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本実施形態に係るシステム10の一例を概略的に示す。システム10は、サーバ装置100と、複数のクライアント装置200とを備える。
クライアント装置200は、手話を行っている人物を含む動画(手話動画と記載する場合がある。)に対して、手話動画において行われている手話によって表される単語を対応付けるアノテーション作業を行う作業者250が使用する装置である。クライアント装置200は、例えば、PC(Personal Computer)である。クライアント装置200は、タブレット端末であってもよい。クライアント装置200は、スマートフォンであってもよい。
サーバ装置100は、アノテーション作業を支援する支援UIをクライアント装置200に提供する。サーバ装置100は、ネットワーク20を介して、支援UIをクライアント装置200に提供する。ネットワーク20は、インターネットを含んでよい。ネットワーク20は、3G(3rd Generation)通信システム、LTE(Long Term Evolution)通信システム、及び5G(5th Generation)通信システム等の移動体通信システムを含んでよい。
サーバ装置100は、Webブラウザ上で動作する支援UIをクライアント装置200に提供してよい。これにより、作業者250は、専用ソフトウェア等をインストールすることなく、アノテーション作業を開始することができる。サーバ装置100は、例えば、自らがWebサーバを有して、Webブラウザ上で動作する支援UIをクライアント装置200に提供する。また、サーバ装置100は、例えば、他の装置が有するWebサーバを介して、Webブラウザ上で動作する支援UIをクライアント装置200に提供する。
図2は、アノテーション作業を説明するための説明図である。アノテーション作業は、手話動画310に対して、動作種別毎に時間範囲を区切る作業を含む。動作種別は、例えば、手話動画に含まれる人物が静止している静止状態と、当該人物が動いている動作状態とを含む。静止状態は、例えば、人物が手話を開始する前と手話を終了した後に、一定姿勢で静止している状態であってよい。動作状態は、人物が手話動作中の状態であってよい。
図2は、動作種別が静止状態と動作状態とからなる場合を例示しており、静止状態の時間範囲である静止区間311及び静止区間313と、動作状態の時間範囲である動作区間312とが登録されている例を示す。なお、動作状態は、複数の動作に分割されてもよい。例えば、動作状態は、開始動作、主要動作、及び終了動作を含む。主要動作は、複数の動作に分割されてもよい。
アノテーション作業は、動作状態の時間範囲に対して情報を付与する作業を含む。例えば、アノテーション作業は、動作状態の時間範囲に対して、当該時間範囲において行われている手話によって表される単語を対応付ける作業を含む。図2に示す例では、動作区間312に対して、「ありがとう」が対応付けられている。
図3は、支援UI400の一例を概略的に示す。図3に例示する支援UI400は、動画領域402と、参照ボタン404、動画開始ボタン406、動画終了ボタン408、アイテムボタン410及び送信ボタン412と、入力エリア420とを含む。
作業者250は、手作業によって、アノテーション作業を行い得る。作業者250は、例えば、マウス及びキーボード等によって、アノテーション作業を行う。具体例として、まず、作業者250は、参照ボタン404を押下して、アノテーション作業の対象となる手話動画を選択する。選択された手話動画は、動画領域402に配置される。作業者250は、動画開始ボタン406によって手話動画の再生を開始し、動画終了ボタン408によって手話動画の再生を停止し得る。
作業者250は、手話動画の内容を確認しながら、入力エリア420に、静止状態の時間範囲と、動作状態の時間範囲と、動作状態の時間範囲において行われている手話によって表される単語とを入力する。図3では、静止状態の時間範囲を示すアイテム422及びアイテム426と、動作状態の時間範囲であって、単語が「ありがとう」であるアイテム424とが入力された例を示す。
入力完了後に、作業者250が送信ボタン412を押下したことに応じて、クライアント装置200は、手話動画、静止状態の時間範囲、動作状態の時間範囲、及び単語をサーバ装置100に送信する。このように作業者250は、手作業によって、単語ラベルが付与された手話動画を、サーバ装置100に登録することができる。サーバ装置100において手話コーパスを生成するためには、大量のデータを収集することが望ましいが、作業者250の手作業のみでは、大量のデータを収集することが容易でない。よって、アノテーション作業を支援することによって、データ収集を効率化できることが望ましい。
本実施形態に係るサーバ装置100は、例えば、入力エリア420内のアイテムの生成を支援する。以下、その流れを説明する。まず、作業者250が動画領域402に手話動画を配置した後、アイテムボタン410を押下したことに応じて、クライアント装置200が、手話動画をサーバ装置100に送信する。サーバ装置100は、手話動画に対して手話単語認識を実行して、静止状態の時間範囲と、動作状態の時間範囲と、動作状態の時間範囲内で行われている手話によって表される単語とを認識して、それぞれを表すアイテムを生成する。サーバ装置100によって生成されたアイテムは、入力エリア420内に表示される。
作業者250は、入力エリア420内のアイテムを確認し、誤りがなければ、送信ボタン412を押下する。クライアント装置200は、送信ボタン412の押下に応じて、入力エリア420内のアイテムが正しい旨をサーバ装置100に通知する。サーバ装置100は、通知に応じて、手話動画に対して、静止状態の時間範囲、動作状態の時間範囲及び単語を対応付けて格納する。これにより、作業者250による時間範囲及び単語の入力作業を無くすことができ、アノテーション作業を効率化することができる。
作業者250は、入力エリア420内のアイテムを確認し、誤りがある場合には、修正を行う。例えば、単語が誤っている場合、作業者250は単語を正しい単語に修正する。また、例えば、静止状態の時間範囲が誤っている場合、作業者250は静止状態の時間範囲を正しい時間範囲に修正する。また、例えば、動作状態の時間範囲が誤っている場合、作業者250は動作状態の時間範囲を正しい時間範囲に修正する。作業者250は、修正後に、送信ボタン412を押下する。クライアント装置200は、送信ボタン412の押下に応じて、修正されたアイテムをサーバ装置100に送信する。これにより、作業者250による作業を修正作業のみとすることができ、アノテーション作業を効率化することができる。
なお、サーバ装置100は、アノテーション作業のうち、動作種別毎に時間範囲を区切る作業のみを支援してもよい。サーバ装置100によって認識可能な手話単語の数が少ない場合、手話単語認識による認識結果が誤認識となる可能性が高くなり、単語の修正作業が増加してしまうことになる。よって、サーバ装置100によって認識可能な手話単語の数が少ない場合においては、サーバ装置100が、動作種別毎に時間範囲を区切る作業のみを支援することによって、動作種別毎に時間範囲を区切る作業及び動作状態の時間範囲に対して情報を付与する作業の両方を支援する場合と比較して、アノテーション作業を効率化し得る。
例えば、作業者250が動画領域402に手話動画を配置した後、アイテムボタン410を押下したことに応じて、クライアント装置200が、手話動画をサーバ装置100に送信する。サーバ装置100は、手話動画を解析して、静止状態の時間範囲及び動作状態の時間範囲を特定して、それぞれを表すアイテムを生成する。サーバ装置100によって生成されたアイテムは、入力エリア420内に表示される。
作業者250は、入力エリア420内の静止状態の時間範囲及び動作状態の時間範囲を確認し、誤りがなければ、動作状態の時間範囲内で行われている手話によって表される単語を入力して、送信ボタン412を押下する。クライアント装置200は、送信ボタン412の押下に応じて、入力エリア420内の静止状態の時間範囲及び動作状態の時間範囲が正しい旨と、入力された単語とをサーバ装置100に通知する。サーバ装置100は、手話動画に対して、静止状態の時間範囲、動作状態の時間範囲及び単語を対応付けて格納する。これにより、作業者250による静止状態の時間範囲及び動作状態の時間範囲の入力作業を無くすことができ、アノテーション作業を効率化することができる。
作業者250は、入力エリア420内のアイテムを確認し、誤りがある場合には、修正を行う。例えば、静止状態の時間範囲が誤っている場合、作業者250は静止状態の時間範囲を正しい時間範囲に修正する。また、例えば、動作状態の時間範囲が誤っている場合、作業者250は動作状態の時間範囲を正しい時間範囲に修正する。作業者250は、修正後に、動作状態の時間範囲内で行われている手話によって表される単語を入力して、送信ボタン412を押下する。クライアント装置200は、送信ボタン412の押下に応じて、修正した時間範囲と単語とをサーバ装置100に送信する。これにより、作業者250による作業を、時間範囲の修正作業及び単語の入力のみとすることができ、アノテーション作業を効率化することができる。
なお、図3に例示する支援UI400は一例であり、支援UI400は、手話動画を表示する領域と、アイテムの表示、入力、及び修正を行うインタフェースとを含めば、どのようなものであってもよい。
図4は、サーバ装置100の機能構成の一例を概略的に示す。サーバ装置100は、動画受信部102、動画格納部104、及びUI提供部110を備える。
動画受信部102は、手話動画を受信する。動画受信部102は、クライアント装置200から手話動画を受信してよい。
動画受信部102は、アノテーション作業の対象となる手話動画を受信してよい。動画受信部102は、クライアント装置200から、アノテーション作業の対象となる手話動画を受信してよい。
動画受信部102は、学習用の手話動画を受信してよい。学習用の手話動画は、手話によって表される単語と、動作種別毎の時間範囲とが既知の手話動画であってよい。動画受信部102は、例えば、クライアント装置200において、作業者250によって手作業で生成された学習用の手話動画を、クライアント装置200から受信する。
動画格納部104は、手話動画を格納する。動画格納部104は、動画受信部102が受信した、アノテーション作業の対象となる手話動画を格納してよい。動画格納部104は、動画受信部102が受信した、学習用の手話動画を格納してよい。動画格納部104は、外部記憶媒体に記憶された学習用の手話動画を読み出して、格納してもよい。
UI提供部110は、動画格納部104に格納されたアノテーション作業の対象となる手話動画に対するアノテーション作業を支援する支援UIをクライアント装置200に提供する。UI提供部110は、モデル格納部112、時間範囲特定部120、手話単語認識部130、提示部140、受付部142、単語格納部144、及びモデル更新部146を有する。なお、UI提供部110がこれらのすべての構成を有することは必須とは限らない。
モデル格納部112は、手話単語認識モデルを格納する。モデル格納部112は、例えば、作業者250によって予め準備された手話単語認識モデルを格納する。
時間範囲特定部120は、手話動画に対して、動作種別毎に時間範囲を特定する。時間範囲特定部120は、例えば、手話動画に対して、静止状態の時間範囲及び動作状態の時間範囲を特定する。
時間範囲特定部120は、手話動画を解析することによって、動作種別毎に時間範囲を特定してよい。また、時間範囲特定部120は、作業者250からの指定を受け付けることによって、動作種別毎に時間範囲を特定してもよい。時間範囲特定部120は、クライアント装置200を介して、作業者250からの指定を受け付けてよい。
手話単語認識部130は、モデル格納部112に格納されている手話単語認識モデルを用いて、動作状態の時間範囲において行われている手話によって表される単語を認識する。
手話単語認識モデルは、手話単語認識部130によって生成されてもよい。手話単語認識部130は、例えば、動画格納部104に格納されている学習用の手話動画を用いて手話単語認識モデルを生成し、モデル格納部112に格納する。
提示部140は、時間範囲特定部120によって特定された時間範囲と、手話単語認識部130によって認識された単語とを、支援UIを介してクライアント装置200を使用する作業者250に提示する。提示部140は、例えば、時間範囲特定部120によって特定された静止状態の時間範囲を示すアイテムと、時間範囲特定部120によって特定された動作状態の時間範囲を示すアイテムであって、手話単語認識部130によって認識された単語を含むアイテムとを、支援UIを介して作業者250に提示する。提示部140は、時間範囲及び単語を修正可能に提示してよい。
受付部142は、手話動画、時間範囲及び単語の登録要求を受け付ける。単語格納部144は、受付部142が登録要求を受け付けた手話動画、時間範囲及び単語を対応付けて格納する。
例えば、提示部140がクライアント装置200に時間範囲及び単語を提示し、時間範囲及び単語が修正されることなく、受付部142が登録要求を受け付けた場合、単語格納部144は、対象となる手話動画、時間範囲及び単語を対応付けて格納する。また、例えば、提示部140がクライアント装置200に時間範囲及び単語を提示し、受付部142が修正を受け付けた場合、単語格納部144は、対象となる手話動画と、修正後の時間範囲及び単語とを対応付けて格納する。受付部142は、修正受付部の一例であってよい。
また、例えば、提示部140がクライアント装置200に時間範囲を提示し、時間範囲が修正されることなく、受付部142が単語の入力を受け付けた場合、単語格納部144は、対象となる手話動画と、時間範囲と、入力された単語とを対応付けて格納する。受付部142は、入力受付部の一例であってよい。また、例えば、提示部140がクライアント装置200に時間範囲を提示し、受付部142が時間範囲の修正と、単語の入力とを受け付けた場合、単語格納部144は、対象となる手話動画と、修正後の時間範囲と、入力された単語とを対応付けて格納する。
モデル更新部146は、単語格納部144に格納されている手話動画、時間範囲及び単語に基づいて、モデル格納部112に格納されている手話単語認識モデルを更新する。モデル更新部146が、複数のクライアント装置200を介して、複数の作業者250によって登録された手話動画、時間範囲及び単語に基づいて手話単語認識モデルを更新することによって、手話単語認識モデルを用いた手話単語認識の認識精度を向上させることができる。
図5は、手話単語認識部130の機能構成の一例を概略的に示す。図6は、身体の座標点510の一例を概略的に示す。図7は、顔の座標点520の一例を概略的に示す。図8は、右手の座標点530の一例を概略的に示す。
手話単語認識部130は、身体動作追跡部131、手話特徴抽出部132、モデル生成部133、及び認識実行部134を有する。なお、手話単語認識部130がこれらのすべての構成を有することは必須とは限らない。
身体動作追跡部131は、手話動画の複数のフレームのそれぞれについて、手話動画に含まれる人物の身体の各部位の座標点を取得する。身体動作追跡部131は、例えば、Deep Neural Networkに基づく身体動作追跡アルゴリズムであるOpenPoseを用いて、手話動画に含まれる人物の身体の各部位の座標点を取得してよい。図6、図7、図8に例示する座標点510、座標点520、座標点530は、OpenPoseを用いることによって取得できる座標点を示す。OpenPoseでは、手話動画の各フレームの追跡結果として身体、左手、右手、及び顔で、それぞれ18点、21点、21点、70点の合計130点の座標点p=(x、y)と、各座標点の信頼度cとが得られる。なお、身体動作追跡部131は、OpenPose以外の身体動作追跡アルゴリズムを用いてもよい。
手話特徴抽出部132は、身体動作追跡部131による取得結果に基づいて、手話の特徴を示す手話特徴データを導出する。手話特徴抽出部132は、例えば、身体動作追跡部131による身体追跡で得られた各フレームの座標点と信頼度を統合した390次元データに対して、加工を施したデータを手話特徴として用いる。手話特徴抽出の工程は、低信頼度データの補正と、座標変換と、座標点の接続情報抽出と、不要特徴の削除及び特徴変化情報抽出と、次元標準化及び次元圧縮とを含んでよい。
手話特徴抽出部132は、身体動作追跡部131によって取得された複数の座標点のうち、信頼度が予め定められた閾値以下である座標点を、当該座標点に対応する座標点の信頼度が閾値より高い、当該座標点を含むフレームよりも過去のフレームであって、当該座標点を含むフレームに最も時間が近いフレームに含まれる当該座標点に対応する座標点によって補正してよい。例えば、手話特徴抽出部132は、信頼度が予め定められた閾値以下である座標点の代替データとして、当該座標点に対応する座標点の信頼度が閾値より高い、当該座標点を含むフレームよりも過去のフレームであって、当該座標点を含むフレームに最も時間が近いフレームに含まれる当該座標点に対応する座標点を用いる。当該閾値は、任意に設定可能であってよい。当該閾値は、例えば、c=0である。
手話特徴抽出部132は、身体動作追跡部131によって取得された複数のフレームのそれぞれの複数の座標点に対して、予め定められた原点及び予め定められた基準長を用いて座標変換を施してよい。手話特徴抽出部132は、人物の身体、左手、右手、及び顔毎に、予め定められた原点及び基準長を用いて座標変換を施してよい。
Figure 2020126144
Figure 2020126144
Figure 2020126144
Figure 2020126144
Figure 2020126144
表1に示す基準点po, pa, pbは、例示であり、任意の基準点が用いられてよい。例えば、下記表2に示す基準点が用いられてもよい。
Figure 2020126144
OpenPoseで得られる座標点には、人体の骨格や身体部位の輪郭に即して身体、左手、右手、および顔でそれぞれ17個、20個、20個、63個の接続関係が定義されている。座標点接続関係の定義に従い,手話特徴抽出部132は、座標点間の距離と方向の合計240次元を特徴量として抽出する。なお、座標点間の方向は番号の小さな座標点から番号の大きな座標点に向かう方向ベクトルから求めたラジアン角を用いる。また、座標点間の接続情報は座標変換後の座標値を用いて算出する。
身体部位の下半身の座標点と各部位の座標変換の原点は、手話動作中に座標が変化しないため認識に有効な情報を持たない。また、各座標点に対応する信頼度も認識に有効な情報を持たない可能性が高い。そこで、本実施形態において手話特徴抽出部132は、ここまでの工程で得た630次元データから、8個の不要座標点のx;y座標16次元と下半身座標点の接続情報8次元と、信頼度130次元とを不要特徴として削除する。その後、残された476次元データの特徴変化情報として各次元の1次微分値を特徴量として抽出する。
ここまでの工程で特徴量として952次元の高次元データが得られる。各次元は値のスケールが異なるためそのまま学習に用いることは望ましくない。また、高次元の特徴量を用いて認識を行うためには大量の学習データを必要とする。そこで本実施形態において、手話特徴抽出部132は、特徴量の各次元が平均0、分散1の正規分布に従うように標準化を行い、さらに主成分分析を用いて次元圧縮を行う。データセットの全動画から得たデータを用いて標準化と主成分分析を行い、累積寄与率を調査したところ、第397主成分で累積寄与率が95%に達した。ここから、手話特徴抽出部132は、主成分分析を用いて397次元に圧縮したデータを手話特徴とする。
モデル生成部133は、身体動作追跡部131及び手話特徴抽出部132による処理によって学習用の手話動画から抽出された手話特徴データを用いて、手話単語認識モデルを生成する。モデル生成部133は、生成した手話単語認識モデルを、モデル格納部112に格納してよい。
認識実行部134は、身体動作追跡部131及び手話特徴抽出部132による処理によって、アノテーション作業の対象となる手話動画から抽出された手話特徴データと、モデル格納部112に格納されている手話単語認識モデルとを用いて、手話単語認識を実行する。認識実行部134は、手話単語認識に隠れマルコフモデル(HMM:Hidden Markov Model)を用いてよい。HMMは時間軸方向の特徴伸縮に頑健な認識アルゴリズムであり、音声認識の分野で多数の実績がある。本実施形態では静止状態に対して状態数5、各手話単語に対して状態数22のLeft to Right型HMMモデルを学習し、認識に用いる。認識モデルの学習と単語ラベルの推定にはThe Hidden Markov Model Toolkitを用いてよい。認識モデルの学習にはBaum−Welchアルゴリズムなどの一般化期待値最大化法を用いてもよい。単語ラベルの推定にはViterbiアルゴリズムなどの動的計画法を用いてもよい。
図9は、時間範囲特定部120の機能構成の一例を概略的に示す。ここでは、時間範囲特定部120が、SVMと、時系列データの特徴量と隣接データ間の特徴量連続性とに基づく分割手法とを用いて、時間範囲を特定する機能を有する場合の機能構成を例示する。時間範囲特定部120は、分類部121及び分類結果補正部125を備える。
分類部121は、学習用の手話動画に含まれる複数のフレームのそれぞれの、フレーム内の人物が静止状態であるか動作状態であるかを示す状態情報及び手話特徴データを用いてSVMモデルを学習することによって導出された分割超平面に基づいて、アノテーション作業の対象となる手話動画に含まれる複数のフレームを、静止状態と動作状態とに分類する。分類結果補正部125は、時系列データの特徴量と隣接データ間の特徴量連続性とに基づく分割手法を用いて、分類部121による分類結果を補正する。
分類部121は、身体動作追跡部122、手話特徴抽出部123、及び分類処理部124を有する。身体動作追跡部122は、アノテーション作業の対象となる手話動画に含まれる複数のフレームのそれぞれについて、手話動画に含まれる人物の身体の各部位の座標点を取得する。身体動作追跡部122は、身体動作追跡部131と同様の処理によって座標点を取得してよい。身体動作追跡部122は、身体動作追跡部131と一体であってもよい。
手話特徴抽出部123は、身体動作追跡部122による取得結果に基づいて、複数のフレームのそれぞれについて、手話の特徴を示す手話特徴データを導出する。手話特徴抽出部123は、手話特徴抽出部132と同様の処理によって手話特徴データを導出してよい。手話特徴抽出部123は、手話特徴抽出部132と一体であってもよい。
分類処理部124は、複数のフレームのそれぞれの手話特徴データと分割超平面とに基づいて、複数のフレームを静止状態と動作状態とに分類する。分類結果補正部125は、複数のフレームのそれぞれの手話特徴データの分割超平面からの距離と、分類処理部124による分類結果とをGraphcutsに適用することにより、分類結果を補正してよい。
図10及び図11は、分類部121及び分類結果補正部125による処理を説明する説明図である。ここでは、分類部121及び分類結果補正部125が手話動画を2段階で静止状態の時間範囲と動作状態の時間範囲とに分割する処理の流れを示す。
まず、初期分割として、分類部121が、学習済みのSVMモデル600を用いて手話動画の各フレームを静止状態と動作状態の2値に分割する。学習済みのSVMモデル600は、学習用の手話動画に含まれる複数のフレームのそれぞれの、フレーム内の人物の状態情報及び手話特徴データを用いて学習することによって導出された分割超平面602を含む。初期分割によって、各フレームが、静止状態のフレームであるか動作状態のフレームであるかを示す分割ラベルと、分割超平面602からの距離604とが導出される。
初期分割は、フレームの時間的な流れを考慮せず、フレームの特徴によって分割するので、誤分割が発生し得る。図10では、フレーム611が、本来、動作状態のフレームであるところを静止状態のフレームとして分割され、フレーム621が、本来、静止状態のフレームであるところを動作状態のフレームとして分割されている場合を例示している。
分類結果補正部125は、隣接フレームを考慮した分割手法を適用することによって、分類部121による分類結果を補正する。ここでは、分類結果補正部125が、Graphcutsを用いる場合を例に挙げて説明する。分類結果補正部125は、複数のフレームのそれぞれに対して導出された分割ラベルと、分割超平面602からの距離とをGraphcutsに適用する。
各フレームの特徴量と隣接フレーム間の特徴量連続性を考慮した分割は、下記数式2に示すエネルギー最小化問題として定義できる。
Figure 2020126144
上記数式2の右辺第1項はデータ項と呼ばれ、各フレームに当てはめるラベル値の妥当性を評価する。上記数式2の右辺第2項は平滑化項と呼ばれ、隣接フレーム間におけるラベル値の連続性を評価する。λはデータ項と平滑化項の影響を調整する定数であり、本実施形態ではλ=10を用いる。Graphcutsは上記数式2のエネルギー最小化問題を、グラフ理論における最小カットを導出する問題として扱うことでデータ集合の分割を行う手法である。本実施形態では時系列データの分割にGraphcutsを適用するために図11に示すような重み付き有効グラフG630(G=(V;E))を構築する。Vは頂点集合を表し、各フレームを示す頂点viと分割する静止区間と動作区間を示す特別な頂点vsとvtから成る。本実施形態では、vsを静止区間とし、vtを動作区間とする。Eはエッジ集合を表し、隣接する頂点間を結ぶ双方向エッジeij=ejiとvs;vtと各vi間を結ぶ有向エッジesi、及びeitから成る。各エッジは切断コストと呼ばれる重みを持っておりそれぞれcij=cji、csi、citと表記する。グラフのカットとは、頂点集合Vを二つの部分集合S(vs∈S)とT(vt∈T)に分ける操作を指す。図11ではエッジを切断するカットを点線で示している。この切断されたエッジのうち、頂点vsからvtに向かうエッジの総切断コストをカットの容量と呼ぶ。最小カット問題は容量が最小であるカットを見つける問題である。データ項と平滑化項をグラフの切断コストに対応させたとき、最小カット容量は上記数式2の最小エネルギーに一致する。したがって、カットにより分割した部分集合S、TがGraphcutsによる分割結果となる。本実施形態ではエッジesi; eit; eijに対応する切断コストをそれぞれ、csi=E1(yi=−1)、cit=E1(yi=1)、cij=E2(yi, yj)で表す。データ項は既知の特徴量モデルに対する各フレーム特徴量の尤度を用いて算出し、平滑化項は隣接フレーム間の特徴量差に基づいて算出する。本実施形態では特徴モデルとしてSVMモデルの超平面からの距離に基づく正規分布を用いる。Yに基づいて分割した静止区間と動作区間をそれぞれ、CとCで表す。特徴モデルの学習ではまず、初期分割結果の分割ラベルに基づいて各フレームをCとCに振り分け、その後、下記数式3によって導出される分割超平面からの距離diを用いて、μC1距離平均μC0、μC1と距離分散σC0、σC1を導出する。
Figure 2020126144
Figure 2020126144
学習した特徴モデルを用いたデータ項は下記数式4及び数式5を用いて算出する。
Figure 2020126144
Figure 2020126144
ただし、N(μC、σC、di)は、下記数式6で示される。
Figure 2020126144
平滑化項は、下記数式7で導出する。
Figure 2020126144
ただし、<>は期待値を導出する演算を指す。上記数式7の指数項はSVMの分割超平面からの距離値の差に基づくガウス関数であり、距離差が期待値を下回る隣接フレーム間のコストを強調する効果がある。グラフの最小カットは最大フロー最小カットアルゴリズムを用いて解けることが知られている。さらに、分割と特徴量モデルの更新を繰り返すことで分割結果を改善することが可能である。本手法ではまず、SVMによる初期分割結果に基づいて特徴モデルの学習を行った後、1回目の分割を行う。その後の分割では、中間分割結果に基づいて特徴モデルを更新して分割を行う。本実施形態では特徴モデルの更新と分割を繰り返し、カットの容量が減少しなくなった時点の分割結果を最終分割結果とする。
図12は、クライアント装置200の機能構成の一例を概略的に示す。クライアント装置200は、動画取得部202、表示制御部204、入力受付部206、及び通信部208を備える。
動画取得部202は、手話動画を取得する。動画取得部202は、例えば、クライアント装置200が備える撮像部によって撮像された手話動画を取得する。また、動画取得部202は、スマートフォン及びタブレット端末等の任意の装置によって撮像された手話動画を、当該任意の装置から受信してもよい。
表示制御部204は、各種情報をクライアント装置200が備えるディスプレイに表示させる。表示制御部204は、例えば、支援UIを表示させる。また、表示制御部204は、動画取得部202が取得した動画を表示させる。
入力受付部206は、各種入力を受け付ける。入力受付部206は、例えば、クライアント装置200が備える入力デバイスによる入力を受け付ける。入力受付部206は、例えば、入力エリア420に対する入力を受け付ける。
通信部208は、各種通信を実行する。通信部208は、例えば、動画取得部202が取得した手話動画をサーバ装置100に送信する。通信部208は、例えば、入力受付部206が受け付けた入力内容をサーバ装置100に送信する。通信部208は、サーバ装置100から各種データを受信する。表示制御部204は、通信部208がサーバ装置100から受信した各種データを、クライアント装置200が備えるディスプレイに表示させてよい。
図13は、サーバ装置100として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。コンピュータ1200にインストールされたプログラムは、コンピュータ1200を、本発明の実施形態に係る装置の1又は複数の「部」として機能させ、又はコンピュータ1200に、本発明の実施形態に係る装置に関連付けられるオペレーション又は当該1又は複数の「部」を実行させることができ、及び/又はコンピュータ1200に、本発明の実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ1200に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、CPU1212によって実行されてよい。
本実施形態によるコンピュータ1200は、CPU1212、RAM1214、及びグラフィックコントローラ1216を含み、それらはホストコントローラ1210によって相互に接続されている。コンピュータ1200はまた、通信インタフェース1222、記憶装置1224、DVDドライブ1226、及びICカードドライブのような入出力ユニットを含み、それらは入出力コントローラ1220を介してホストコントローラ1210に接続されている。DVDドライブ1226は、DVD−ROMドライブ及びDVD−RAMドライブ等であってよい。記憶装置1224は、ハードディスクドライブ及びソリッドステートドライブ等であってよい。コンピュータ1200はまた、ROM1230及びキーボードのようなレガシの入出力ユニットを含み、それらは入出力チップ1240を介して入出力コントローラ1220に接続されている。
CPU1212は、ROM1230及びRAM1214内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ1216は、RAM1214内に提供されるフレームバッファ等又はそれ自体の中に、CPU1212によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス1218上に表示されるようにする。
通信インタフェース1222は、ネットワークを介して他の電子デバイスと通信する。記憶装置1224は、コンピュータ1200内のCPU1212によって使用されるプログラム及びデータを格納する。DVDドライブ1226は、プログラム又はデータをDVD−ROM1227等から読み取り、記憶装置1224に提供する。ICカードドライブは、プログラム及びデータをICカードから読み取り、及び/又はプログラム及びデータをICカードに書き込む。
ROM1230はその中に、アクティブ化時にコンピュータ1200によって実行されるブートプログラム等、及び/又はコンピュータ1200のハードウェアに依存するプログラムを格納する。入出力チップ1240はまた、様々な入出力ユニットをUSBポート、パラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ1220に接続してよい。
プログラムは、DVD−ROM1227又はICカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもある記憶装置1224、RAM1214、又はROM1230にインストールされ、CPU1212によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ1200に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ1200の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。
例えば、通信がコンピュータ1200及び外部デバイス間で実行される場合、CPU1212は、RAM1214にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース1222に対し、通信処理を命令してよい。通信インタフェース1222は、CPU1212の制御の下、RAM1214、記憶装置1224、DVD−ROM1227、又はICカードのような記録媒体内に提供される送信バッファ領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。
また、CPU1212は、記憶装置1224、DVDドライブ1226(DVD−ROM1227)、ICカード等のような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がRAM1214に読み取られるようにし、RAM1214上のデータに対し様々なタイプの処理を実行してよい。CPU1212は次に、処理されたデータを外部記録媒体にライトバックしてよい。
様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。CPU1212は、RAM1214から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々なタイプの処理を実行してよく、結果をRAM1214に対しライトバックする。また、CPU1212は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU1212は、当該複数のエントリの中から、第1の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
上で説明したプログラム又はソフトウエアモジュールは、コンピュータ1200上又はコンピュータ1200近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はRAMのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ1200に提供する。
本実施形態におけるフローチャート及びブロック図におけるブロックは、オペレーションが実行されるプロセスの段階又はオペレーションを実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、専用回路、コンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び/又はコンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び/又はアナログハードウェア回路を含んでよく、集積回路(IC)及び/又はディスクリート回路を含んでよい。プログラマブル回路は、例えば、フィールドプログラマブルゲートアレイ(FPGA)、及びプログラマブルロジックアレイ(PLA)等のような、論理積、論理和、排他的論理和、否定論理積、否定論理和、及び他の論理演算、フリップフロップ、レジスタ、並びにメモリエレメントを含む、再構成可能なハードウェア回路を含んでよい。
コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読記憶媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読記憶媒体のより具体的な例としては、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイ(登録商標)ディスク、メモリスティック、集積回路カード等が含まれてよい。
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
10 システム
20 ネットワーク
100 サーバ装置
102 動画受信部
104 動画格納部
110 UI提供部
112 モデル格納部
120 時間範囲特定部
121 分類部
122 身体動作追跡部
123 手話特徴抽出部
124 分類処理部
125 分類結果補正部
130 手話単語認識部
131 身体動作追跡部
132 手話特徴抽出部
133 モデル生成部
134 認識実行部
140 提示部
142 受付部
144 単語格納部
146 モデル更新部
200 クライアント装置
202 動画取得部
204 表示制御部
206 入力受付部
208 通信部
250 作業者
310 手話動画
311 静止区間
312 動作区間
313 静止区間
400 支援UI
402 動画領域
404 参照ボタン
406 動画開始ボタン
408 動画終了ボタン
410 アイテムボタン
412 送信ボタン
420 入力エリア
422 アイテム
424 アイテム
426 アイテム
510 座標点
520 座標点
530 座標点
600 SVMモデル
602 分割超平面
604 距離
611 フレーム
621 フレーム
630 グラフ
1200 コンピュータ
1210 ホストコントローラ
1212 CPU
1214 RAM
1216 グラフィックコントローラ
1218 ディスプレイデバイス
1220 入出力コントローラ
1222 通信インタフェース
1224 記憶装置
1226 DVDドライブ
1227 DVD−ROM
1230 ROM
1240 入出力チップ

Claims (14)

  1. 手話を行っている人物を含む手話動画を取得する動画取得部と、
    前記手話動画を送信する動画送信部と
    を有するクライアント装置と、
    前記動画送信部によって送信された前記手話動画を受信する動画受信部と、
    前記手話動画に対して、前記手話動画において行われている手話によって表される単語を対応付けるアノテーション作業を支援する支援UI(User Interface)を前記クライアント装置に提供するUI提供部と
    を有するサーバ装置と
    を備えるシステム。
  2. 前記UI提供部は、Webブラウザ上で動作する前記支援UIを前記クライアント装置に提供する、請求項1に記載のシステム。
  3. 前記UI提供部は、
    前記手話動画における手話動作が行われている時間範囲を特定する時間範囲特定部と、
    予め格納している手話単語認識モデルを用いて、前記時間範囲において行われている手話動作によって表わされる単語を認識する手話単語認識部と、
    前記時間範囲特定部によって特定された前記時間範囲と、前記手話単語認識部によって認識された単語とを前記支援UIを介して提示する提示部と
    を含む、請求項1又は2に記載のシステム。
  4. 前記提示部は、前記支援UIを介して、前記時間範囲及び前記単語を修正可能に提示し、
    前記UI提供部は、
    前記時間範囲及び前記単語に対する修正を受け付ける修正受付部と、
    修正後の前記時間範囲及び前記単語を対応付けて格納する単語格納部と
    を含む、請求項3に記載のシステム。
  5. 前記単語格納部に格納されている前記時間範囲及び前記単語に基づいて、前記手話単語認識モデルを更新するモデル更新部
    を備える、請求項4に記載のシステム。
  6. 前記手話単語認識部は、
    前記手話動画の前記時間範囲の複数のフレームのそれぞれについて、前記人物の身体の各部位の座標点を取得する身体動作追跡部と、
    前記身体動作追跡部による取得結果に基づいて、手話の特徴を示す手話特徴データを導出する手話特徴抽出部と、
    前記手話特徴抽出部が導出した複数の前記手話特徴データを用いて前記手話単語認識モデルを生成するモデル生成部と
    を含む、請求項3から5のいずれか一項に記載のシステム。
  7. 前記身体動作追跡部は、前記手話動画の前記時間範囲の複数のフレームのそれぞれについて、前記人物の身体の各部の座標点と、前記座標点の信頼度とを取得し、
    前記手話特徴抽出部は、前記身体動作追跡部によって取得された複数の座標点のうち、信頼度が予め定められた閾値以下である座標点を、当該座標点に対応する座標点の信頼度が前記閾値より高い、当該座標点を含むフレームよりも過去のフレームであって、当該座標点を含むフレームに最も時間が近いフレームに含まれる当該座標点に対応する座標点によって補正する、請求項6に記載のシステム。
  8. 前記手話特徴抽出部は、前記身体動作追跡部によって取得された複数のフレームのそれぞれの複数の座標点に対して、予め定められた原点及び予め定められた基準長を用いて座標変換を施す、請求項6又は7に記載のシステム。
  9. 前記手話特徴抽出部は、前記人物の身体、左手、右手、及び顔毎に、予め定められた原点及び基準長を用いて座標変換を施す、請求項8に記載のシステム。
  10. 前記UI提供部は、
    前記手話動画において手話動作が行われている時間範囲を特定する時間範囲特定部と、
    前記支援UIを介して、前記時間範囲に対応付ける単語の入力を受け付ける入力受付部と、
    前記時間範囲と前記単語とを対応付けて格納する単語格納部と
    を含む、請求項1又は2に記載のシステム。
  11. 前記時間範囲特定部は、
    学習用の手話動画に含まれる複数のフレームのそれぞれの、フレーム内の人物が静止状態であるか動作状態であるかを示す状態情報及び手話の特徴を示す手話特徴データを用いてSVM(Support Vector Machine)モデルを学習することによって導出された分割超平面に基づいて、前記動画受信部が受信した前記手話動画に含まれる複数のフレームを、静止状態と動作状態とに分類する分類部と、
    時系列データの特徴量と隣接データ間の特徴量連続性とに基づく分割手法を用いて、前記分類部による分類結果を補正する分類結果補正部と
    を含む、請求項10に記載のシステム。
  12. 前記分類部は、
    前記動画受信部が受信した前記手話動画に含まれる複数のフレームのそれぞれについて、前記人物の身体の各部位の座標点を取得する身体動作追跡部と、
    前記身体動作追跡部による取得結果に基づいて、前記複数のフレームのそれぞれについて、手話の特徴を示す手話特徴データを導出する手話特徴抽出部と、
    前記複数のフレームのそれぞれの前記手話特徴データと前記分割超平面とに基づいて、前記複数のフレームを静止状態と動作状態とに分類する分類処理部と
    を含み、
    前記分類結果補正部は、前記複数のフレームのそれぞれの前記手話特徴データの前記分割超平面からの距離と、前記分類処理部による分類結果とをGraphcutsに適用することにより、前記分類結果を補正する、請求項11に記載のシステム。
  13. 手話を行っている人物を含む手話動画をクライアント装置から受信する動画受信部と、
    前記手話動画に対して、前記手話動画において行われている手話によって表される単語を対応付けるアノテーション作業を支援する支援UIを前記クライアント装置に提供するUI提供部と
    を備えるサーバ装置。
  14. コンピュータを、請求項13に記載のサーバ装置として機能させるためのプログラム。
JP2019018694A 2019-02-05 2019-02-05 システム、サーバ装置及びプログラム Active JP6840365B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019018694A JP6840365B2 (ja) 2019-02-05 2019-02-05 システム、サーバ装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019018694A JP6840365B2 (ja) 2019-02-05 2019-02-05 システム、サーバ装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020126144A true JP2020126144A (ja) 2020-08-20
JP6840365B2 JP6840365B2 (ja) 2021-03-10

Family

ID=72083908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019018694A Active JP6840365B2 (ja) 2019-02-05 2019-02-05 システム、サーバ装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6840365B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022091304A1 (en) * 2020-10-29 2022-05-05 Nec Corporation Categorization apparatus, control device, categorization method, control method and computer readable medium
JP7485454B2 (ja) 2022-08-05 2024-05-16 Necソリューションイノベータ株式会社 手話翻訳処理装置、手話翻訳処理システム、手話翻訳処理方法、プログラム、及び記録媒体

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06337628A (ja) * 1993-05-31 1994-12-06 Hitachi Ltd 手話翻訳確認装置
JP2008292963A (ja) * 2007-05-23 2008-12-04 Saori Tanaka 手話学習装置
JP2015148706A (ja) * 2014-02-06 2015-08-20 日本放送協会 手話単語分類情報生成装置およびそのプログラム、ならびに、手話単語検索装置およびそのプログラム
JP2017084335A (ja) * 2015-08-31 2017-05-18 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド ユーザーインターフェースのリアルタイムインタラクティブ操作のためのシステム及び方法
JP2017191576A (ja) * 2016-04-15 2017-10-19 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム
JP2017204067A (ja) * 2016-05-10 2017-11-16 株式会社オルツ 手話会話支援システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06337628A (ja) * 1993-05-31 1994-12-06 Hitachi Ltd 手話翻訳確認装置
JP2008292963A (ja) * 2007-05-23 2008-12-04 Saori Tanaka 手話学習装置
JP2015148706A (ja) * 2014-02-06 2015-08-20 日本放送協会 手話単語分類情報生成装置およびそのプログラム、ならびに、手話単語検索装置およびそのプログラム
JP2017084335A (ja) * 2015-08-31 2017-05-18 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド ユーザーインターフェースのリアルタイムインタラクティブ操作のためのシステム及び方法
JP2017191576A (ja) * 2016-04-15 2017-10-19 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム
JP2017204067A (ja) * 2016-05-10 2017-11-16 株式会社オルツ 手話会話支援システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022091304A1 (en) * 2020-10-29 2022-05-05 Nec Corporation Categorization apparatus, control device, categorization method, control method and computer readable medium
JP7485217B2 (ja) 2020-10-29 2024-05-16 日本電気株式会社 分類装置、分類方法及びプログラム
JP7485454B2 (ja) 2022-08-05 2024-05-16 Necソリューションイノベータ株式会社 手話翻訳処理装置、手話翻訳処理システム、手話翻訳処理方法、プログラム、及び記録媒体

Also Published As

Publication number Publication date
JP6840365B2 (ja) 2021-03-10

Similar Documents

Publication Publication Date Title
US11062090B2 (en) Method and apparatus for mining general text content, server, and storage medium
CN107832662B (zh) 一种获取图片标注数据的方法和系统
CN109635838B (zh) 人脸样本图片标注方法、装置、计算机设备及存储介质
WO2019233421A1 (zh) 图像处理方法及装置、电子设备、存储介质
US8649602B2 (en) Systems and methods for tagging photos
US20190251471A1 (en) Machine learning device
CN109034069B (zh) 用于生成信息的方法和装置
EP2461273A2 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
CN113382279B (zh) 直播推荐方法、装置、设备、存储介质以及计算机程序产品
EP3872652B1 (en) Method and apparatus for processing video, electronic device, medium and product
US20180239986A1 (en) Image Clustering Method, Image Clustering System, And Image Clustering Server
US20170185913A1 (en) System and method for comparing training data with test data
CN110941978B (zh) 一种未识别身份人员的人脸聚类方法、装置及存储介质
CN113780098B (zh) 文字识别方法、装置、电子设备以及存储介质
CN113205047B (zh) 药名识别方法、装置、计算机设备和存储介质
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
US11823494B2 (en) Human behavior recognition method, device, and storage medium
JP6840365B2 (ja) システム、サーバ装置及びプログラム
US20150139547A1 (en) Feature calculation device and method and computer program product
CN113255501B (zh) 生成表格识别模型的方法、设备、介质及程序产品
CN111292333A (zh) 用于分割图像的方法和装置
US20210374147A1 (en) Information processing apparatus, information processing method, and storage medium
JP2017538226A (ja) スケーラブルなウェブデータの抽出
CN111552780B (zh) 医用场景的搜索处理方法、装置、存储介质及电子设备
US11227186B2 (en) Method and device for training image recognition model and related device

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20190307

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200508

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200914

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210201

R150 Certificate of patent or registration of utility model

Ref document number: 6840365

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250