JP2020126144A

JP2020126144A - システム、サーバ装置及びプログラム

Info

Publication number: JP2020126144A
Application number: JP2019018694A
Authority: JP
Inventors: 夏樹高山; Natsuki Takayama; 高橋　裕樹; Hiroki Takahashi; 裕樹高橋
Original assignee: University of Electro Communications NUC; SoftBank Corp
Current assignee: University of Electro Communications NUC; SoftBank Corp
Priority date: 2019-02-05
Filing date: 2019-02-05
Publication date: 2020-08-20
Anticipated expiration: 2039-02-05
Also published as: JP6840365B2

Abstract

【課題】既存システムは手作業を前提としている点で労力が大きく、手話の言語解析及び認識システム等を構築する労力を低減可能な技術を提供することが望ましい。【解決手段】手話を行っている人物を含む手話動画を取得する動画取得部と、手話動画を送信する動画送信部とを有するクライアント装置と、動画送信部によって送信された手話動画を受信する動画受信部と、手話動画に対して、手話動画において行われている手話によって表される単語を対応付けるアノテーション作業を支援する支援ＵＩをクライアント装置に提供するＵＩ提供部とを有するサーバ装置とを備えるシステムを提供する。【選択図】図１

Description

本発明は、システム、サーバ装置及びプログラムに関する。

手話の言語解析及び認識システム等を構築するためには、大規模な動画データを収集し、さらにデータに対して解析や認識のための情報を付与するアノテーションを行い、手話コーパスを作成する必要がある。動画に対するアノテーション支援システムとして、手作業を前提とする各種システムが知られている（例えば、非特許文献１及び非特許文献２参照）。
［先行技術文献］
［非特許文献］
［非特許文献１］H.Lausberg and H.Sloetjes: Coding gestural behavior with the NEUROGES-ELAN system, Behavior Research Methods, Vol.41, No.3, pp.841-849 (2009)
［非特許文献２］M.Kipp:Multimedia Information Extraction: Advances in Video, Audio, and Imagery Analysis for Search, Data Mining, Surveillance, and Authorig, chapter 21, pp.351-368, John Wiley & Sons Inc. (2014)

既存システムは手作業を前提としている点で労力が大きく、手話の言語解析及び認識システム等を構築する労力を低減可能な技術を提供することが望ましい。

本発明の第１の態様によれば、システムが提供される。システムは、クライアント装置及びサーバ装置を備える。クライアント装置は、手話を行っている人物を含む手話動画を取得する動画取得部を有してよい。クライアント装置は、手話動画を送信する動画送信部を有してよい。サーバ装置は、動画送信部によって送信された手話動画を受信する動画受信部を有してよい。サーバ装置は、手話動画に対して、手話動画において行われている手話によって表される単語を対応付けるアノテーション作業を支援する支援ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）をクライアント装置に提供するＵＩ提供部を有してよい。

上記ＵＩ提供部は、Ｗｅｂブラウザ上で動作する上記支援ＵＩを上記クライアント装置に提供してよい。上記ＵＩ提供部は、上記手話動画における手話動作が行われている時間範囲を特定する時間範囲特定部と、予め格納している手話単語認識モデルを用いて、上記時間範囲において行われている手話動作によって表わされる単語を認識する手話単語認識部と、上記時間範囲特定部によって特定された上記時間範囲と、上記手話単語認識部によって認識された単語とを上記支援ＵＩを介して提示する提示部とを含んでよい。上記提示部は、上記支援ＵＩを介して、上記時間範囲及び上記単語を修正可能に提示してよく、上記ＵＩ提供部は、上記時間範囲及び上記単語に対する修正を受け付ける修正受付部と、修正後の上記時間範囲及び上記単語を対応付けて格納する単語格納部とを含んでよい。上記単語格納部に格納されている上記時間範囲及び上記単語に基づいて、上記手話単語認識モデルを更新する認識モデル更新部を備えてよい。

上記手話単語認識部は、上記手話動画の上記時間範囲の複数のフレームのそれぞれについて、上記人物の身体の各部位の座標点を取得する身体動作追跡部と、上記身体動作追跡部による取得結果に基づいて、手話の特徴を示す手話特徴データを導出する手話特徴抽出部と、上記手話特徴抽出部が導出した複数の上記手話特徴データを用いて上記手話単語認識モデルを生成するモデル生成部とを含んでよい。上記身体動作追跡部は、上記手話動画の上記時間範囲の複数のフレームのそれぞれについて、上記人物の身体の各部の座標点と、上記座標点の信頼度とを取得してよく、上記手話特徴抽出部は、上記身体動作追跡部によって取得された複数の座標点のうち、信頼度が予め定められた閾値以下である座標点を、当該座標点に対応する座標点の信頼度が上記閾値より高い、当該座標点を含むフレームよりも過去のフレームの、当該座標点を含むフレームに最も時間が近いフレームに含まれる当該座標点に対応する座標点によって補正してよい。上記手話特徴抽出部は、上記身体動作追跡部によって取得された複数のフレームのそれぞれの複数の座標点に対して、予め定められた原点及び予め定められた基準長を用いて座標変換を施してよい。上記手話特徴抽出部は、上記人物の身体、左手、右手、及び顔毎に、予め定められた原点及び基準長を用いて座標変換を施してよい。

上記ＵＩ提供部は、上記手話動画において手話動作が行われている時間範囲を特定する時間範囲特定部と、上記支援ＵＩを介して、上記時間範囲に対応付ける単語の入力を受け付ける入力受付部と、上記時間範囲と上記単語とを対応付けて格納する単語格納部とを含んでよい。上記時間範囲特定部は、学習用の手話動画に含まれる複数のフレームのそれぞれの、フレーム内の人物が静止状態であるか動作状態であるかを示す状態情報及び手話の特徴を示す手話特徴データを用いてＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）モデルを学習することによって導出された分割超平面に基づいて、上記動画受信部が受信した上記手話動画に含まれる複数のフレームを、静止状態と動作状態とに分類する分類部と、時系列データの特徴量と隣接データ間の特徴量連続性とに基づく分割手法を用いて、上記分類部による分類結果を補正する分類結果補正部とを含んでよい。上記分類部は、上記動画受信部が受信した上記手話動画に含まれる複数のフレームのそれぞれについて、上記人物の身体の各部位の座標点を取得する身体動作追跡部と、上記身体動作追跡部による取得結果に基づいて、上記複数のフレームのそれぞれについて、手話の特徴を示す手話特徴データを導出する手話特徴抽出部と、上記複数のフレームのそれぞれの上記手話特徴データと上記分割超平面とに基づいて、上記複数のフレームを静止状態と動作状態とに分類する分類処理部とを含んでよく、上記分類結果補正部は、上記複数のフレームのそれぞれの上記手話特徴データの上記分割超平面からの距離と、上記分類処理部による分類結果とをＧｒａｐｈｃｕｔｓに適用することにより、上記分類結果を補正してよい。

本発明の第２の態様によれば、サーバ装置が提供される。サーバ装置は、手話を行っている人物を含む手話動画をクライアント装置から受信する動画受信部を備えてよい。サーバ装置は、手話動画に対して、手話動画において行われている手話によって表される単語を対応付けるアノテーション作業を支援する支援ＵＩをクライアント装置に提供するＵＩ提供部を備えてよい。

本発明の第３の態様によれば、コンピュータを上記サーバ装置として機能させるためのプログラムが提供される。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

システム１０の一例を概略的に示す。アノテーション作業を説明するための説明図である。支援ＵＩ４００の一例を概略的に示す。サーバ装置１００の機能構成の一例を概略的に示す。手話単語認識部１３０の機能構成の一例を概略的に示す。身体の座標点５１０の一例を概略的に示す。顔の座標点５２０の一例を概略的に示す。右手の座標点５３０の一例を概略的に示す。時間範囲特定部１２０の機能構成の一例を概略的に示す。分類部１２１及び分類結果補正部１２５による処理を説明する説明図である。分類部１２１及び分類結果補正部１２５による処理を説明する説明図である。クライアント装置２００の機能構成の一例を概略的に示す。サーバ装置１００として機能するコンピュータ１０００のハードウェア構成の一例を概略的に示す。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、本実施形態に係るシステム１０の一例を概略的に示す。システム１０は、サーバ装置１００と、複数のクライアント装置２００とを備える。

クライアント装置２００は、手話を行っている人物を含む動画（手話動画と記載する場合がある。）に対して、手話動画において行われている手話によって表される単語を対応付けるアノテーション作業を行う作業者２５０が使用する装置である。クライアント装置２００は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）である。クライアント装置２００は、タブレット端末であってもよい。クライアント装置２００は、スマートフォンであってもよい。

サーバ装置１００は、アノテーション作業を支援する支援ＵＩをクライアント装置２００に提供する。サーバ装置１００は、ネットワーク２０を介して、支援ＵＩをクライアント装置２００に提供する。ネットワーク２０は、インターネットを含んでよい。ネットワーク２０は、３Ｇ（３ｒｄＧｅｎｅｒａｔｉｏｎ）通信システム、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）通信システム、及び５Ｇ（５ｔｈＧｅｎｅｒａｔｉｏｎ）通信システム等の移動体通信システムを含んでよい。

サーバ装置１００は、Ｗｅｂブラウザ上で動作する支援ＵＩをクライアント装置２００に提供してよい。これにより、作業者２５０は、専用ソフトウェア等をインストールすることなく、アノテーション作業を開始することができる。サーバ装置１００は、例えば、自らがＷｅｂサーバを有して、Ｗｅｂブラウザ上で動作する支援ＵＩをクライアント装置２００に提供する。また、サーバ装置１００は、例えば、他の装置が有するＷｅｂサーバを介して、Ｗｅｂブラウザ上で動作する支援ＵＩをクライアント装置２００に提供する。

図２は、アノテーション作業を説明するための説明図である。アノテーション作業は、手話動画３１０に対して、動作種別毎に時間範囲を区切る作業を含む。動作種別は、例えば、手話動画に含まれる人物が静止している静止状態と、当該人物が動いている動作状態とを含む。静止状態は、例えば、人物が手話を開始する前と手話を終了した後に、一定姿勢で静止している状態であってよい。動作状態は、人物が手話動作中の状態であってよい。

図２は、動作種別が静止状態と動作状態とからなる場合を例示しており、静止状態の時間範囲である静止区間３１１及び静止区間３１３と、動作状態の時間範囲である動作区間３１２とが登録されている例を示す。なお、動作状態は、複数の動作に分割されてもよい。例えば、動作状態は、開始動作、主要動作、及び終了動作を含む。主要動作は、複数の動作に分割されてもよい。

アノテーション作業は、動作状態の時間範囲に対して情報を付与する作業を含む。例えば、アノテーション作業は、動作状態の時間範囲に対して、当該時間範囲において行われている手話によって表される単語を対応付ける作業を含む。図２に示す例では、動作区間３１２に対して、「ありがとう」が対応付けられている。

図３は、支援ＵＩ４００の一例を概略的に示す。図３に例示する支援ＵＩ４００は、動画領域４０２と、参照ボタン４０４、動画開始ボタン４０６、動画終了ボタン４０８、アイテムボタン４１０及び送信ボタン４１２と、入力エリア４２０とを含む。

作業者２５０は、手作業によって、アノテーション作業を行い得る。作業者２５０は、例えば、マウス及びキーボード等によって、アノテーション作業を行う。具体例として、まず、作業者２５０は、参照ボタン４０４を押下して、アノテーション作業の対象となる手話動画を選択する。選択された手話動画は、動画領域４０２に配置される。作業者２５０は、動画開始ボタン４０６によって手話動画の再生を開始し、動画終了ボタン４０８によって手話動画の再生を停止し得る。

作業者２５０は、手話動画の内容を確認しながら、入力エリア４２０に、静止状態の時間範囲と、動作状態の時間範囲と、動作状態の時間範囲において行われている手話によって表される単語とを入力する。図３では、静止状態の時間範囲を示すアイテム４２２及びアイテム４２６と、動作状態の時間範囲であって、単語が「ありがとう」であるアイテム４２４とが入力された例を示す。

入力完了後に、作業者２５０が送信ボタン４１２を押下したことに応じて、クライアント装置２００は、手話動画、静止状態の時間範囲、動作状態の時間範囲、及び単語をサーバ装置１００に送信する。このように作業者２５０は、手作業によって、単語ラベルが付与された手話動画を、サーバ装置１００に登録することができる。サーバ装置１００において手話コーパスを生成するためには、大量のデータを収集することが望ましいが、作業者２５０の手作業のみでは、大量のデータを収集することが容易でない。よって、アノテーション作業を支援することによって、データ収集を効率化できることが望ましい。

本実施形態に係るサーバ装置１００は、例えば、入力エリア４２０内のアイテムの生成を支援する。以下、その流れを説明する。まず、作業者２５０が動画領域４０２に手話動画を配置した後、アイテムボタン４１０を押下したことに応じて、クライアント装置２００が、手話動画をサーバ装置１００に送信する。サーバ装置１００は、手話動画に対して手話単語認識を実行して、静止状態の時間範囲と、動作状態の時間範囲と、動作状態の時間範囲内で行われている手話によって表される単語とを認識して、それぞれを表すアイテムを生成する。サーバ装置１００によって生成されたアイテムは、入力エリア４２０内に表示される。

作業者２５０は、入力エリア４２０内のアイテムを確認し、誤りがなければ、送信ボタン４１２を押下する。クライアント装置２００は、送信ボタン４１２の押下に応じて、入力エリア４２０内のアイテムが正しい旨をサーバ装置１００に通知する。サーバ装置１００は、通知に応じて、手話動画に対して、静止状態の時間範囲、動作状態の時間範囲及び単語を対応付けて格納する。これにより、作業者２５０による時間範囲及び単語の入力作業を無くすことができ、アノテーション作業を効率化することができる。

作業者２５０は、入力エリア４２０内のアイテムを確認し、誤りがある場合には、修正を行う。例えば、単語が誤っている場合、作業者２５０は単語を正しい単語に修正する。また、例えば、静止状態の時間範囲が誤っている場合、作業者２５０は静止状態の時間範囲を正しい時間範囲に修正する。また、例えば、動作状態の時間範囲が誤っている場合、作業者２５０は動作状態の時間範囲を正しい時間範囲に修正する。作業者２５０は、修正後に、送信ボタン４１２を押下する。クライアント装置２００は、送信ボタン４１２の押下に応じて、修正されたアイテムをサーバ装置１００に送信する。これにより、作業者２５０による作業を修正作業のみとすることができ、アノテーション作業を効率化することができる。

なお、サーバ装置１００は、アノテーション作業のうち、動作種別毎に時間範囲を区切る作業のみを支援してもよい。サーバ装置１００によって認識可能な手話単語の数が少ない場合、手話単語認識による認識結果が誤認識となる可能性が高くなり、単語の修正作業が増加してしまうことになる。よって、サーバ装置１００によって認識可能な手話単語の数が少ない場合においては、サーバ装置１００が、動作種別毎に時間範囲を区切る作業のみを支援することによって、動作種別毎に時間範囲を区切る作業及び動作状態の時間範囲に対して情報を付与する作業の両方を支援する場合と比較して、アノテーション作業を効率化し得る。

例えば、作業者２５０が動画領域４０２に手話動画を配置した後、アイテムボタン４１０を押下したことに応じて、クライアント装置２００が、手話動画をサーバ装置１００に送信する。サーバ装置１００は、手話動画を解析して、静止状態の時間範囲及び動作状態の時間範囲を特定して、それぞれを表すアイテムを生成する。サーバ装置１００によって生成されたアイテムは、入力エリア４２０内に表示される。

作業者２５０は、入力エリア４２０内の静止状態の時間範囲及び動作状態の時間範囲を確認し、誤りがなければ、動作状態の時間範囲内で行われている手話によって表される単語を入力して、送信ボタン４１２を押下する。クライアント装置２００は、送信ボタン４１２の押下に応じて、入力エリア４２０内の静止状態の時間範囲及び動作状態の時間範囲が正しい旨と、入力された単語とをサーバ装置１００に通知する。サーバ装置１００は、手話動画に対して、静止状態の時間範囲、動作状態の時間範囲及び単語を対応付けて格納する。これにより、作業者２５０による静止状態の時間範囲及び動作状態の時間範囲の入力作業を無くすことができ、アノテーション作業を効率化することができる。

作業者２５０は、入力エリア４２０内のアイテムを確認し、誤りがある場合には、修正を行う。例えば、静止状態の時間範囲が誤っている場合、作業者２５０は静止状態の時間範囲を正しい時間範囲に修正する。また、例えば、動作状態の時間範囲が誤っている場合、作業者２５０は動作状態の時間範囲を正しい時間範囲に修正する。作業者２５０は、修正後に、動作状態の時間範囲内で行われている手話によって表される単語を入力して、送信ボタン４１２を押下する。クライアント装置２００は、送信ボタン４１２の押下に応じて、修正した時間範囲と単語とをサーバ装置１００に送信する。これにより、作業者２５０による作業を、時間範囲の修正作業及び単語の入力のみとすることができ、アノテーション作業を効率化することができる。

なお、図３に例示する支援ＵＩ４００は一例であり、支援ＵＩ４００は、手話動画を表示する領域と、アイテムの表示、入力、及び修正を行うインタフェースとを含めば、どのようなものであってもよい。

図４は、サーバ装置１００の機能構成の一例を概略的に示す。サーバ装置１００は、動画受信部１０２、動画格納部１０４、及びＵＩ提供部１１０を備える。

動画受信部１０２は、手話動画を受信する。動画受信部１０２は、クライアント装置２００から手話動画を受信してよい。

動画受信部１０２は、アノテーション作業の対象となる手話動画を受信してよい。動画受信部１０２は、クライアント装置２００から、アノテーション作業の対象となる手話動画を受信してよい。

動画受信部１０２は、学習用の手話動画を受信してよい。学習用の手話動画は、手話によって表される単語と、動作種別毎の時間範囲とが既知の手話動画であってよい。動画受信部１０２は、例えば、クライアント装置２００において、作業者２５０によって手作業で生成された学習用の手話動画を、クライアント装置２００から受信する。

動画格納部１０４は、手話動画を格納する。動画格納部１０４は、動画受信部１０２が受信した、アノテーション作業の対象となる手話動画を格納してよい。動画格納部１０４は、動画受信部１０２が受信した、学習用の手話動画を格納してよい。動画格納部１０４は、外部記憶媒体に記憶された学習用の手話動画を読み出して、格納してもよい。

ＵＩ提供部１１０は、動画格納部１０４に格納されたアノテーション作業の対象となる手話動画に対するアノテーション作業を支援する支援ＵＩをクライアント装置２００に提供する。ＵＩ提供部１１０は、モデル格納部１１２、時間範囲特定部１２０、手話単語認識部１３０、提示部１４０、受付部１４２、単語格納部１４４、及びモデル更新部１４６を有する。なお、ＵＩ提供部１１０がこれらのすべての構成を有することは必須とは限らない。

モデル格納部１１２は、手話単語認識モデルを格納する。モデル格納部１１２は、例えば、作業者２５０によって予め準備された手話単語認識モデルを格納する。

時間範囲特定部１２０は、手話動画に対して、動作種別毎に時間範囲を特定する。時間範囲特定部１２０は、例えば、手話動画に対して、静止状態の時間範囲及び動作状態の時間範囲を特定する。

時間範囲特定部１２０は、手話動画を解析することによって、動作種別毎に時間範囲を特定してよい。また、時間範囲特定部１２０は、作業者２５０からの指定を受け付けることによって、動作種別毎に時間範囲を特定してもよい。時間範囲特定部１２０は、クライアント装置２００を介して、作業者２５０からの指定を受け付けてよい。

手話単語認識部１３０は、モデル格納部１１２に格納されている手話単語認識モデルを用いて、動作状態の時間範囲において行われている手話によって表される単語を認識する。

手話単語認識モデルは、手話単語認識部１３０によって生成されてもよい。手話単語認識部１３０は、例えば、動画格納部１０４に格納されている学習用の手話動画を用いて手話単語認識モデルを生成し、モデル格納部１１２に格納する。

提示部１４０は、時間範囲特定部１２０によって特定された時間範囲と、手話単語認識部１３０によって認識された単語とを、支援ＵＩを介してクライアント装置２００を使用する作業者２５０に提示する。提示部１４０は、例えば、時間範囲特定部１２０によって特定された静止状態の時間範囲を示すアイテムと、時間範囲特定部１２０によって特定された動作状態の時間範囲を示すアイテムであって、手話単語認識部１３０によって認識された単語を含むアイテムとを、支援ＵＩを介して作業者２５０に提示する。提示部１４０は、時間範囲及び単語を修正可能に提示してよい。

受付部１４２は、手話動画、時間範囲及び単語の登録要求を受け付ける。単語格納部１４４は、受付部１４２が登録要求を受け付けた手話動画、時間範囲及び単語を対応付けて格納する。

例えば、提示部１４０がクライアント装置２００に時間範囲及び単語を提示し、時間範囲及び単語が修正されることなく、受付部１４２が登録要求を受け付けた場合、単語格納部１４４は、対象となる手話動画、時間範囲及び単語を対応付けて格納する。また、例えば、提示部１４０がクライアント装置２００に時間範囲及び単語を提示し、受付部１４２が修正を受け付けた場合、単語格納部１４４は、対象となる手話動画と、修正後の時間範囲及び単語とを対応付けて格納する。受付部１４２は、修正受付部の一例であってよい。

また、例えば、提示部１４０がクライアント装置２００に時間範囲を提示し、時間範囲が修正されることなく、受付部１４２が単語の入力を受け付けた場合、単語格納部１４４は、対象となる手話動画と、時間範囲と、入力された単語とを対応付けて格納する。受付部１４２は、入力受付部の一例であってよい。また、例えば、提示部１４０がクライアント装置２００に時間範囲を提示し、受付部１４２が時間範囲の修正と、単語の入力とを受け付けた場合、単語格納部１４４は、対象となる手話動画と、修正後の時間範囲と、入力された単語とを対応付けて格納する。

モデル更新部１４６は、単語格納部１４４に格納されている手話動画、時間範囲及び単語に基づいて、モデル格納部１１２に格納されている手話単語認識モデルを更新する。モデル更新部１４６が、複数のクライアント装置２００を介して、複数の作業者２５０によって登録された手話動画、時間範囲及び単語に基づいて手話単語認識モデルを更新することによって、手話単語認識モデルを用いた手話単語認識の認識精度を向上させることができる。

図５は、手話単語認識部１３０の機能構成の一例を概略的に示す。図６は、身体の座標点５１０の一例を概略的に示す。図７は、顔の座標点５２０の一例を概略的に示す。図８は、右手の座標点５３０の一例を概略的に示す。

手話単語認識部１３０は、身体動作追跡部１３１、手話特徴抽出部１３２、モデル生成部１３３、及び認識実行部１３４を有する。なお、手話単語認識部１３０がこれらのすべての構成を有することは必須とは限らない。

身体動作追跡部１３１は、手話動画の複数のフレームのそれぞれについて、手話動画に含まれる人物の身体の各部位の座標点を取得する。身体動作追跡部１３１は、例えば、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋに基づく身体動作追跡アルゴリズムであるＯｐｅｎＰｏｓｅを用いて、手話動画に含まれる人物の身体の各部位の座標点を取得してよい。図６、図７、図８に例示する座標点５１０、座標点５２０、座標点５３０は、ＯｐｅｎＰｏｓｅを用いることによって取得できる座標点を示す。ＯｐｅｎＰｏｓｅでは、手話動画の各フレームの追跡結果として身体、左手、右手、及び顔で、それぞれ１８点、２１点、２１点、７０点の合計１３０点の座標点ｐ＝（ｘ、ｙ）と、各座標点の信頼度ｃとが得られる。なお、身体動作追跡部１３１は、ＯｐｅｎＰｏｓｅ以外の身体動作追跡アルゴリズムを用いてもよい。

手話特徴抽出部１３２は、身体動作追跡部１３１による取得結果に基づいて、手話の特徴を示す手話特徴データを導出する。手話特徴抽出部１３２は、例えば、身体動作追跡部１３１による身体追跡で得られた各フレームの座標点と信頼度を統合した３９０次元データに対して、加工を施したデータを手話特徴として用いる。手話特徴抽出の工程は、低信頼度データの補正と、座標変換と、座標点の接続情報抽出と、不要特徴の削除及び特徴変化情報抽出と、次元標準化及び次元圧縮とを含んでよい。

手話特徴抽出部１３２は、身体動作追跡部１３１によって取得された複数の座標点のうち、信頼度が予め定められた閾値以下である座標点を、当該座標点に対応する座標点の信頼度が閾値より高い、当該座標点を含むフレームよりも過去のフレームであって、当該座標点を含むフレームに最も時間が近いフレームに含まれる当該座標点に対応する座標点によって補正してよい。例えば、手話特徴抽出部１３２は、信頼度が予め定められた閾値以下である座標点の代替データとして、当該座標点に対応する座標点の信頼度が閾値より高い、当該座標点を含むフレームよりも過去のフレームであって、当該座標点を含むフレームに最も時間が近いフレームに含まれる当該座標点に対応する座標点を用いる。当該閾値は、任意に設定可能であってよい。当該閾値は、例えば、ｃ＝０である。

手話特徴抽出部１３２は、身体動作追跡部１３１によって取得された複数のフレームのそれぞれの複数の座標点に対して、予め定められた原点及び予め定められた基準長を用いて座標変換を施してよい。手話特徴抽出部１３２は、人物の身体、左手、右手、及び顔毎に、予め定められた原点及び基準長を用いて座標変換を施してよい。

表１に示す基準点p_o, p_a, p_bは、例示であり、任意の基準点が用いられてよい。例えば、下記表２に示す基準点が用いられてもよい。

ＯｐｅｎＰｏｓｅで得られる座標点には、人体の骨格や身体部位の輪郭に即して身体、左手、右手、および顔でそれぞれ１７個、２０個、２０個、６３個の接続関係が定義されている。座標点接続関係の定義に従い，手話特徴抽出部１３２は、座標点間の距離と方向の合計２４０次元を特徴量として抽出する。なお、座標点間の方向は番号の小さな座標点から番号の大きな座標点に向かう方向ベクトルから求めたラジアン角を用いる。また、座標点間の接続情報は座標変換後の座標値を用いて算出する。

身体部位の下半身の座標点と各部位の座標変換の原点は、手話動作中に座標が変化しないため認識に有効な情報を持たない。また、各座標点に対応する信頼度も認識に有効な情報を持たない可能性が高い。そこで、本実施形態において手話特徴抽出部１３２は、ここまでの工程で得た６３０次元データから、８個の不要座標点のｘ；ｙ座標１６次元と下半身座標点の接続情報８次元と、信頼度１３０次元とを不要特徴として削除する。その後、残された４７６次元データの特徴変化情報として各次元の１次微分値を特徴量として抽出する。

ここまでの工程で特徴量として９５２次元の高次元データが得られる。各次元は値のスケールが異なるためそのまま学習に用いることは望ましくない。また、高次元の特徴量を用いて認識を行うためには大量の学習データを必要とする。そこで本実施形態において、手話特徴抽出部１３２は、特徴量の各次元が平均０、分散１の正規分布に従うように標準化を行い、さらに主成分分析を用いて次元圧縮を行う。データセットの全動画から得たデータを用いて標準化と主成分分析を行い、累積寄与率を調査したところ、第３９７主成分で累積寄与率が９５％に達した。ここから、手話特徴抽出部１３２は、主成分分析を用いて３９７次元に圧縮したデータを手話特徴とする。

モデル生成部１３３は、身体動作追跡部１３１及び手話特徴抽出部１３２による処理によって学習用の手話動画から抽出された手話特徴データを用いて、手話単語認識モデルを生成する。モデル生成部１３３は、生成した手話単語認識モデルを、モデル格納部１１２に格納してよい。

認識実行部１３４は、身体動作追跡部１３１及び手話特徴抽出部１３２による処理によって、アノテーション作業の対象となる手話動画から抽出された手話特徴データと、モデル格納部１１２に格納されている手話単語認識モデルとを用いて、手話単語認識を実行する。認識実行部１３４は、手話単語認識に隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いてよい。ＨＭＭは時間軸方向の特徴伸縮に頑健な認識アルゴリズムであり、音声認識の分野で多数の実績がある。本実施形態では静止状態に対して状態数５、各手話単語に対して状態数２２のＬｅｆｔｔｏＲｉｇｈｔ型ＨＭＭモデルを学習し、認識に用いる。認識モデルの学習と単語ラベルの推定にはＴｈｅＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌＴｏｏｌｋｉｔを用いてよい。認識モデルの学習にはＢａｕｍ−Ｗｅｌｃｈアルゴリズムなどの一般化期待値最大化法を用いてもよい。単語ラベルの推定にはＶｉｔｅｒｂｉアルゴリズムなどの動的計画法を用いてもよい。

図９は、時間範囲特定部１２０の機能構成の一例を概略的に示す。ここでは、時間範囲特定部１２０が、ＳＶＭと、時系列データの特徴量と隣接データ間の特徴量連続性とに基づく分割手法とを用いて、時間範囲を特定する機能を有する場合の機能構成を例示する。時間範囲特定部１２０は、分類部１２１及び分類結果補正部１２５を備える。

分類部１２１は、学習用の手話動画に含まれる複数のフレームのそれぞれの、フレーム内の人物が静止状態であるか動作状態であるかを示す状態情報及び手話特徴データを用いてＳＶＭモデルを学習することによって導出された分割超平面に基づいて、アノテーション作業の対象となる手話動画に含まれる複数のフレームを、静止状態と動作状態とに分類する。分類結果補正部１２５は、時系列データの特徴量と隣接データ間の特徴量連続性とに基づく分割手法を用いて、分類部１２１による分類結果を補正する。

分類部１２１は、身体動作追跡部１２２、手話特徴抽出部１２３、及び分類処理部１２４を有する。身体動作追跡部１２２は、アノテーション作業の対象となる手話動画に含まれる複数のフレームのそれぞれについて、手話動画に含まれる人物の身体の各部位の座標点を取得する。身体動作追跡部１２２は、身体動作追跡部１３１と同様の処理によって座標点を取得してよい。身体動作追跡部１２２は、身体動作追跡部１３１と一体であってもよい。

手話特徴抽出部１２３は、身体動作追跡部１２２による取得結果に基づいて、複数のフレームのそれぞれについて、手話の特徴を示す手話特徴データを導出する。手話特徴抽出部１２３は、手話特徴抽出部１３２と同様の処理によって手話特徴データを導出してよい。手話特徴抽出部１２３は、手話特徴抽出部１３２と一体であってもよい。

分類処理部１２４は、複数のフレームのそれぞれの手話特徴データと分割超平面とに基づいて、複数のフレームを静止状態と動作状態とに分類する。分類結果補正部１２５は、複数のフレームのそれぞれの手話特徴データの分割超平面からの距離と、分類処理部１２４による分類結果とをＧｒａｐｈｃｕｔｓに適用することにより、分類結果を補正してよい。

図１０及び図１１は、分類部１２１及び分類結果補正部１２５による処理を説明する説明図である。ここでは、分類部１２１及び分類結果補正部１２５が手話動画を２段階で静止状態の時間範囲と動作状態の時間範囲とに分割する処理の流れを示す。

まず、初期分割として、分類部１２１が、学習済みのＳＶＭモデル６００を用いて手話動画の各フレームを静止状態と動作状態の２値に分割する。学習済みのＳＶＭモデル６００は、学習用の手話動画に含まれる複数のフレームのそれぞれの、フレーム内の人物の状態情報及び手話特徴データを用いて学習することによって導出された分割超平面６０２を含む。初期分割によって、各フレームが、静止状態のフレームであるか動作状態のフレームであるかを示す分割ラベルと、分割超平面６０２からの距離６０４とが導出される。

初期分割は、フレームの時間的な流れを考慮せず、フレームの特徴によって分割するので、誤分割が発生し得る。図１０では、フレーム６１１が、本来、動作状態のフレームであるところを静止状態のフレームとして分割され、フレーム６２１が、本来、静止状態のフレームであるところを動作状態のフレームとして分割されている場合を例示している。

分類結果補正部１２５は、隣接フレームを考慮した分割手法を適用することによって、分類部１２１による分類結果を補正する。ここでは、分類結果補正部１２５が、Ｇｒａｐｈｃｕｔｓを用いる場合を例に挙げて説明する。分類結果補正部１２５は、複数のフレームのそれぞれに対して導出された分割ラベルと、分割超平面６０２からの距離とをＧｒａｐｈｃｕｔｓに適用する。

各フレームの特徴量と隣接フレーム間の特徴量連続性を考慮した分割は、下記数式２に示すエネルギー最小化問題として定義できる。

上記数式２の右辺第１項はデータ項と呼ばれ、各フレームに当てはめるラベル値の妥当性を評価する。上記数式２の右辺第２項は平滑化項と呼ばれ、隣接フレーム間におけるラベル値の連続性を評価する。λはデータ項と平滑化項の影響を調整する定数であり、本実施形態ではλ=１０を用いる。Ｇｒａｐｈｃｕｔｓは上記数式２のエネルギー最小化問題を、グラフ理論における最小カットを導出する問題として扱うことでデータ集合の分割を行う手法である。本実施形態では時系列データの分割にＧｒａｐｈｃｕｔｓを適用するために図１１に示すような重み付き有効グラフＧ６３０（Ｇ＝（Ｖ；Ｅ））を構築する。Ｖは頂点集合を表し、各フレームを示す頂点v_iと分割する静止区間と動作区間を示す特別な頂点v_sとv_tから成る。本実施形態では、v_sを静止区間とし、v_tを動作区間とする。Ｅはエッジ集合を表し、隣接する頂点間を結ぶ双方向エッジe_ij=e_jiとv_s;v_tと各v_i間を結ぶ有向エッジe_si、及びe_itから成る。各エッジは切断コストと呼ばれる重みを持っておりそれぞれc_ij=c_ji、c_si、c_itと表記する。グラフのカットとは、頂点集合Ｖを二つの部分集合S(v_s∈S)とT(v_t∈T)に分ける操作を指す。図１１ではエッジを切断するカットを点線で示している。この切断されたエッジのうち、頂点v_sからv_tに向かうエッジの総切断コストをカットの容量と呼ぶ。最小カット問題は容量が最小であるカットを見つける問題である。データ項と平滑化項をグラフの切断コストに対応させたとき、最小カット容量は上記数式２の最小エネルギーに一致する。したがって、カットにより分割した部分集合Ｓ、ＴがＧｒａｐｈｃｕｔｓによる分割結果となる。本実施形態ではエッジe_si; e_it; e_ijに対応する切断コストをそれぞれ、c_si=E₁(y_i=−1)、c_it=E₁(y_i=1)、c_ij=E₂(y_i, y_j)で表す。データ項は既知の特徴量モデルに対する各フレーム特徴量の尤度を用いて算出し、平滑化項は隣接フレーム間の特徴量差に基づいて算出する。本実施形態では特徴モデルとしてＳＶＭモデルの超平面からの距離に基づく正規分布を用いる。Ｙに基づいて分割した静止区間と動作区間をそれぞれ、Ｃ_０とＣ_１で表す。特徴モデルの学習ではまず、初期分割結果の分割ラベルに基づいて各フレームをＣ_０とＣ_１に振り分け、その後、下記数式３によって導出される分割超平面からの距離d_iを用いて、μ^C1距離平均μ^C0、μ^C1と距離分散σ^C0、σ^C1を導出する。

学習した特徴モデルを用いたデータ項は下記数式４及び数式５を用いて算出する。

ただし、N(μ^C、σ^C、d_i)は、下記数式６で示される。

平滑化項は、下記数式７で導出する。

ただし、＜＞は期待値を導出する演算を指す。上記数式７の指数項はＳＶＭの分割超平面からの距離値の差に基づくガウス関数であり、距離差が期待値を下回る隣接フレーム間のコストを強調する効果がある。グラフの最小カットは最大フロー最小カットアルゴリズムを用いて解けることが知られている。さらに、分割と特徴量モデルの更新を繰り返すことで分割結果を改善することが可能である。本手法ではまず、ＳＶＭによる初期分割結果に基づいて特徴モデルの学習を行った後、１回目の分割を行う。その後の分割では、中間分割結果に基づいて特徴モデルを更新して分割を行う。本実施形態では特徴モデルの更新と分割を繰り返し、カットの容量が減少しなくなった時点の分割結果を最終分割結果とする。

図１２は、クライアント装置２００の機能構成の一例を概略的に示す。クライアント装置２００は、動画取得部２０２、表示制御部２０４、入力受付部２０６、及び通信部２０８を備える。

動画取得部２０２は、手話動画を取得する。動画取得部２０２は、例えば、クライアント装置２００が備える撮像部によって撮像された手話動画を取得する。また、動画取得部２０２は、スマートフォン及びタブレット端末等の任意の装置によって撮像された手話動画を、当該任意の装置から受信してもよい。

表示制御部２０４は、各種情報をクライアント装置２００が備えるディスプレイに表示させる。表示制御部２０４は、例えば、支援ＵＩを表示させる。また、表示制御部２０４は、動画取得部２０２が取得した動画を表示させる。

入力受付部２０６は、各種入力を受け付ける。入力受付部２０６は、例えば、クライアント装置２００が備える入力デバイスによる入力を受け付ける。入力受付部２０６は、例えば、入力エリア４２０に対する入力を受け付ける。

通信部２０８は、各種通信を実行する。通信部２０８は、例えば、動画取得部２０２が取得した手話動画をサーバ装置１００に送信する。通信部２０８は、例えば、入力受付部２０６が受け付けた入力内容をサーバ装置１００に送信する。通信部２０８は、サーバ装置１００から各種データを受信する。表示制御部２０４は、通信部２０８がサーバ装置１００から受信した各種データを、クライアント装置２００が備えるディスプレイに表示させてよい。

図１３は、サーバ装置１００として機能するコンピュータ１２００のハードウェア構成の一例を概略的に示す。コンピュータ１２００にインストールされたプログラムは、コンピュータ１２００を、本発明の実施形態に係る装置の１又は複数の「部」として機能させ、又はコンピュータ１２００に、本発明の実施形態に係る装置に関連付けられるオペレーション又は当該１又は複数の「部」を実行させることができ、及び／又はコンピュータ１２００に、本発明の実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ１２００に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、ＣＰＵ１２１２によって実行されてよい。

本実施形態によるコンピュータ１２００は、ＣＰＵ１２１２、ＲＡＭ１２１４、及びグラフィックコントローラ１２１６を含み、それらはホストコントローラ１２１０によって相互に接続されている。コンピュータ１２００はまた、通信インタフェース１２２２、記憶装置１２２４、ＤＶＤドライブ１２２６、及びＩＣカードドライブのような入出力ユニットを含み、それらは入出力コントローラ１２２０を介してホストコントローラ１２１０に接続されている。ＤＶＤドライブ１２２６は、ＤＶＤ−ＲＯＭドライブ及びＤＶＤ−ＲＡＭドライブ等であってよい。記憶装置１２２４は、ハードディスクドライブ及びソリッドステートドライブ等であってよい。コンピュータ１２００はまた、ＲＯＭ１２３０及びキーボードのようなレガシの入出力ユニットを含み、それらは入出力チップ１２４０を介して入出力コントローラ１２２０に接続されている。

ＣＰＵ１２１２は、ＲＯＭ１２３０及びＲＡＭ１２１４内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ１２１６は、ＲＡＭ１２１４内に提供されるフレームバッファ等又はそれ自体の中に、ＣＰＵ１２１２によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス１２１８上に表示されるようにする。

通信インタフェース１２２２は、ネットワークを介して他の電子デバイスと通信する。記憶装置１２２４は、コンピュータ１２００内のＣＰＵ１２１２によって使用されるプログラム及びデータを格納する。ＤＶＤドライブ１２２６は、プログラム又はデータをＤＶＤ−ＲＯＭ１２２７等から読み取り、記憶装置１２２４に提供する。ＩＣカードドライブは、プログラム及びデータをＩＣカードから読み取り、及び／又はプログラム及びデータをＩＣカードに書き込む。

ＲＯＭ１２３０はその中に、アクティブ化時にコンピュータ１２００によって実行されるブートプログラム等、及び／又はコンピュータ１２００のハードウェアに依存するプログラムを格納する。入出力チップ１２４０はまた、様々な入出力ユニットをＵＳＢポート、パラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ１２２０に接続してよい。

プログラムは、ＤＶＤ−ＲＯＭ１２２７又はＩＣカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもある記憶装置１２２４、ＲＡＭ１２１４、又はＲＯＭ１２３０にインストールされ、ＣＰＵ１２１２によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ１２００に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ１２００の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。

例えば、通信がコンピュータ１２００及び外部デバイス間で実行される場合、ＣＰＵ１２１２は、ＲＡＭ１２１４にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース１２２２に対し、通信処理を命令してよい。通信インタフェース１２２２は、ＣＰＵ１２１２の制御の下、ＲＡＭ１２１４、記憶装置１２２４、ＤＶＤ−ＲＯＭ１２２７、又はＩＣカードのような記録媒体内に提供される送信バッファ領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。

また、ＣＰＵ１２１２は、記憶装置１２２４、ＤＶＤドライブ１２２６（ＤＶＤ−ＲＯＭ１２２７）、ＩＣカード等のような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がＲＡＭ１２１４に読み取られるようにし、ＲＡＭ１２１４上のデータに対し様々なタイプの処理を実行してよい。ＣＰＵ１２１２は次に、処理されたデータを外部記録媒体にライトバックしてよい。

様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。ＣＰＵ１２１２は、ＲＡＭ１２１４から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索／置換等を含む、様々なタイプの処理を実行してよく、結果をＲＡＭ１２１４に対しライトバックする。また、ＣＰＵ１２１２は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第２の属性の属性値に関連付けられた第１の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、ＣＰＵ１２１２は、当該複数のエントリの中から、第１の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に格納された第２の属性の属性値を読み取り、それにより予め定められた条件を満たす第１の属性に関連付けられた第２の属性の属性値を取得してよい。

上で説明したプログラム又はソフトウエアモジュールは、コンピュータ１２００上又はコンピュータ１２００近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はＲＡＭのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ１２００に提供する。

本実施形態におけるフローチャート及びブロック図におけるブロックは、オペレーションが実行されるプロセスの段階又はオペレーションを実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、専用回路、コンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び／又はコンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び／又はアナログハードウェア回路を含んでよく、集積回路（ＩＣ）及び／又はディスクリート回路を含んでよい。プログラマブル回路は、例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、及びプログラマブルロジックアレイ（ＰＬＡ）等のような、論理積、論理和、排他的論理和、否定論理積、否定論理和、及び他の論理演算、フリップフロップ、レジスタ、並びにメモリエレメントを含む、再構成可能なハードウェア回路を含んでよい。

コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読記憶媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読記憶媒体のより具体的な例としては、フロッピー（登録商標）ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ-ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク、メモリスティック、集積回路カード等が含まれてよい。

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はＳｍａｌｌｔａｌｋ、ＪＡＶＡ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、１又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク（ＬＡＮ）、インターネット等のようなワイドエリアネットワーク（ＷＡＮ）を介して、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１０システム
２０ネットワーク
１００サーバ装置
１０２動画受信部
１０４動画格納部
１１０ＵＩ提供部
１１２モデル格納部
１２０時間範囲特定部
１２１分類部
１２２身体動作追跡部
１２３手話特徴抽出部
１２４分類処理部
１２５分類結果補正部
１３０手話単語認識部
１３１身体動作追跡部
１３２手話特徴抽出部
１３３モデル生成部
１３４認識実行部
１４０提示部
１４２受付部
１４４単語格納部
１４６モデル更新部
２００クライアント装置
２０２動画取得部
２０４表示制御部
２０６入力受付部
２０８通信部
２５０作業者
３１０手話動画
３１１静止区間
３１２動作区間
３１３静止区間
４００支援ＵＩ
４０２動画領域
４０４参照ボタン
４０６動画開始ボタン
４０８動画終了ボタン
４１０アイテムボタン
４１２送信ボタン
４２０入力エリア
４２２アイテム
４２４アイテム
４２６アイテム
５１０座標点
５２０座標点
５３０座標点
６００ＳＶＭモデル
６０２分割超平面
６０４距離
６１１フレーム
６２１フレーム
６３０グラフ
１２００コンピュータ
１２１０ホストコントローラ
１２１２ＣＰＵ
１２１４ＲＡＭ
１２１６グラフィックコントローラ
１２１８ディスプレイデバイス
１２２０入出力コントローラ
１２２２通信インタフェース
１２２４記憶装置
１２２６ＤＶＤドライブ
１２２７ＤＶＤ−ＲＯＭ
１２３０ＲＯＭ
１２４０入出力チップ

Claims

手話を行っている人物を含む手話動画を取得する動画取得部と、
前記手話動画を送信する動画送信部と
を有するクライアント装置と、
前記動画送信部によって送信された前記手話動画を受信する動画受信部と、
前記手話動画に対して、前記手話動画において行われている手話によって表される単語を対応付けるアノテーション作業を支援する支援ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）を前記クライアント装置に提供するＵＩ提供部と
を有するサーバ装置と
を備えるシステム。
前記ＵＩ提供部は、Ｗｅｂブラウザ上で動作する前記支援ＵＩを前記クライアント装置に提供する、請求項１に記載のシステム。
前記ＵＩ提供部は、
前記手話動画における手話動作が行われている時間範囲を特定する時間範囲特定部と、
予め格納している手話単語認識モデルを用いて、前記時間範囲において行われている手話動作によって表わされる単語を認識する手話単語認識部と、
前記時間範囲特定部によって特定された前記時間範囲と、前記手話単語認識部によって認識された単語とを前記支援ＵＩを介して提示する提示部と
を含む、請求項１又は２に記載のシステム。
前記提示部は、前記支援ＵＩを介して、前記時間範囲及び前記単語を修正可能に提示し、
前記ＵＩ提供部は、
前記時間範囲及び前記単語に対する修正を受け付ける修正受付部と、
修正後の前記時間範囲及び前記単語を対応付けて格納する単語格納部と
を含む、請求項３に記載のシステム。
前記単語格納部に格納されている前記時間範囲及び前記単語に基づいて、前記手話単語認識モデルを更新するモデル更新部
を備える、請求項４に記載のシステム。
前記手話単語認識部は、
前記手話動画の前記時間範囲の複数のフレームのそれぞれについて、前記人物の身体の各部位の座標点を取得する身体動作追跡部と、
前記身体動作追跡部による取得結果に基づいて、手話の特徴を示す手話特徴データを導出する手話特徴抽出部と、
前記手話特徴抽出部が導出した複数の前記手話特徴データを用いて前記手話単語認識モデルを生成するモデル生成部と
を含む、請求項３から５のいずれか一項に記載のシステム。
前記身体動作追跡部は、前記手話動画の前記時間範囲の複数のフレームのそれぞれについて、前記人物の身体の各部の座標点と、前記座標点の信頼度とを取得し、
前記手話特徴抽出部は、前記身体動作追跡部によって取得された複数の座標点のうち、信頼度が予め定められた閾値以下である座標点を、当該座標点に対応する座標点の信頼度が前記閾値より高い、当該座標点を含むフレームよりも過去のフレームであって、当該座標点を含むフレームに最も時間が近いフレームに含まれる当該座標点に対応する座標点によって補正する、請求項６に記載のシステム。
前記手話特徴抽出部は、前記身体動作追跡部によって取得された複数のフレームのそれぞれの複数の座標点に対して、予め定められた原点及び予め定められた基準長を用いて座標変換を施す、請求項６又は７に記載のシステム。
前記手話特徴抽出部は、前記人物の身体、左手、右手、及び顔毎に、予め定められた原点及び基準長を用いて座標変換を施す、請求項８に記載のシステム。
前記ＵＩ提供部は、
前記手話動画において手話動作が行われている時間範囲を特定する時間範囲特定部と、
前記支援ＵＩを介して、前記時間範囲に対応付ける単語の入力を受け付ける入力受付部と、
前記時間範囲と前記単語とを対応付けて格納する単語格納部と
を含む、請求項１又は２に記載のシステム。
前記時間範囲特定部は、
学習用の手話動画に含まれる複数のフレームのそれぞれの、フレーム内の人物が静止状態であるか動作状態であるかを示す状態情報及び手話の特徴を示す手話特徴データを用いてＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）モデルを学習することによって導出された分割超平面に基づいて、前記動画受信部が受信した前記手話動画に含まれる複数のフレームを、静止状態と動作状態とに分類する分類部と、
時系列データの特徴量と隣接データ間の特徴量連続性とに基づく分割手法を用いて、前記分類部による分類結果を補正する分類結果補正部と
を含む、請求項１０に記載のシステム。
前記分類部は、
前記動画受信部が受信した前記手話動画に含まれる複数のフレームのそれぞれについて、前記人物の身体の各部位の座標点を取得する身体動作追跡部と、
前記身体動作追跡部による取得結果に基づいて、前記複数のフレームのそれぞれについて、手話の特徴を示す手話特徴データを導出する手話特徴抽出部と、
前記複数のフレームのそれぞれの前記手話特徴データと前記分割超平面とに基づいて、前記複数のフレームを静止状態と動作状態とに分類する分類処理部と
を含み、
前記分類結果補正部は、前記複数のフレームのそれぞれの前記手話特徴データの前記分割超平面からの距離と、前記分類処理部による分類結果とをＧｒａｐｈｃｕｔｓに適用することにより、前記分類結果を補正する、請求項１１に記載のシステム。
手話を行っている人物を含む手話動画をクライアント装置から受信する動画受信部と、
前記手話動画に対して、前記手話動画において行われている手話によって表される単語を対応付けるアノテーション作業を支援する支援ＵＩを前記クライアント装置に提供するＵＩ提供部と
を備えるサーバ装置。
コンピュータを、請求項１３に記載のサーバ装置として機能させるためのプログラム。