JP2021099713A

JP2021099713A - 変換装置およびプログラム

Info

Publication number: JP2021099713A
Application number: JP2019231754A
Authority: JP
Inventors: 岳士梶山; Takeshi Kajiyama; 伶遠藤; Rei Endo
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2021-07-01
Anticipated expiration: 2039-12-23
Also published as: JP7422535B2

Abstract

【課題】エンコーダー部が入力データを状態データに変換し、デコーダー部が状態データを出力データに変換する処理において、エンコーダー部の機械学習を効率的且つ良好に行える変換装置を提供する。【解決手段】ロス算出部（５０）は、学習用入力データを基にエンコーダー部（２０）とデコーダー部（３０）とが生成した出力データと、学習用入力データに対応する正解データと、のロスを算出する。エンコーダー部（２０）およびデコーダー部（３０）は、前記ロスを基にパラメーターを調整する。さらに、第２エンコーダー部（６０）は、正解データを基に状態データを生成する。第２ロス算出部は、エンコーダー部（２０）および第２エンコーダー部（６０）の出力から第２ロスを算出する。エンコーダー部（２０）および第２エンコーダー部（６０）は、第２ロスを基にパラメーターを調整する。【選択図】図１

Description

本発明は、変換装置およびプログラムに関する。

映像に映されている内容を自動的に認識する技術は、人のコミュニケーションを補助する手段としての活用が期待されている。その一例として、手話をカメラ等で撮影して、その映像（画像）を自動的に認識する技術は、聴覚障害者と健聴者との間のコミュニケーションへの活用が期待される。

非特許文献１には、手話言語のひとつであるドイツ手話を自動認識してドイツ語へ変換する研究について記載されている。例えば、非特許文献１内のFigure 2は、手話言語を口語言語に翻訳するための手話翻訳機の概略構成を示している。このFigure 2が示す手話翻訳機は、エンコーダーとデコーダーを含んで構成される。エンコーダーおよびデコーダーは、それぞれ、再帰型ニューラルネットワーク（ＲＮＮ，recurrent neural network）を用いている。エンコーダーは、フレーム画像の系列を入力し、特徴ベクトルを生成する。デコーダーは、エンコーダーによって生成された特徴ベクトルを入力し、語の系列を生成する。

Necati Cihan Camgoz, Simon Hadfield, Oscar Koller, Hermann Ney, Richard Bowden "Neural Sign Language Translation" In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018．

カメラを用いて撮影される映像の内容（例えば、人のジェスチャー等）を認識する技術は、例えば、非接触型のヒューマンマシンインターフェースが望まれる適用領域で実用化されてきた。非接触型のインターフェースが望まれる領域とは、例えば、食品工場や医療現場など、衛生面での考慮が求められる領域である。しかしながら、例えば手話言語のような、連続する複雑な人の動きを、自動認識して別の言語に変換する技術は、実用レベルに達していない。

日本で使用される手話言語のひとつである日本手話の自動認識に関しても、実用例は報告されていない。

また、入力される手話映像が予め単語単位に区切られていない場合には、映像を基に手話単語の単位に自動的に区切って手話単語を自動認識することは、さらに困難である。

本発明は、上記の課題認識に基づいて行なわれたものであり、入力データ（例えば、所定の単位（例えば変換先の単語等の区切り）に区切られていない映像（フレーム画像の系列））を入力し、その入力データに対応する記号列（例えば、所定の言語表現における単語列）を出力することのできる変換装置およびプログラムを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様による変換装置は、入力データを基に状態データを生成するエンコーダー部と、前記状態データを基に出力データを生成するデコーダー部と、前記エンコーダー部への入力となる学習用入力データと、前記学習用入力データに対応する前記出力データの正解である正解データとの対を供給する学習データ供給部と、前記学習用入力データに基づいて前記エンコーダー部が生成する状態データ、に基づいて前記デコーダー部が生成する学習用出力データと、前記学習用入力データに対応して前記学習データ供給部が供給する前記正解データと、の差を表すロスを算出するロス算出部と、前記正解データを基に推定される状態データである推定状態データを生成する第２エンコーダー部と、前記学習用入力データに基づいて前記エンコーダー部が生成する前記状態データと、前記学習用入力データに対応して前記学習データ供給部が供給する前記正解データに基づいて前記第２エンコーダー部が生成する前記推定状態データと、の差を表す第２ロスを算出する第２ロス算出部と、第１学習モードと、第２学習モードと、変換実行モードとを適宜切り替えて動作させるように制御する制御部と、を備え、前記第１学習モードにおいては、学習データ供給部が供給する前記学習用入力データと前記正解データとに基づいて前記ロス算出部が算出した前記ロス、に基づいて前記エンコーダー部および前記デコーダー部の内部パラメーターを調整し、前記第２学習モードにおいては、学習データ供給部が供給する前記学習用入力データと前記正解データとに基づいて前記第２ロス算出部が算出した前記第２ロス、に基づいて前記エンコーダー部および前記第２エンコーダー部の内部パラメーターを調整し、前記変換実行モードにおいては、前記エンコーダー部が入力データを基に状態データを生成し、前記エンコーダー部が生成した前記状態データを基に、前記デコーダー部が、出力データを生成する、変換装置である。

［２］また、本発明の一態様は、上記の変換装置において、前記エンコーダー部と、前記デコーダー部と、前記第２エンコーダー部との各々は、内部にニューラルネットワークを備え、前記第１学習モードにおいては、前記ロスに基づいて前記エンコーダー部および前記デコーダー部のそれぞれのニューラルネットワークの誤差逆伝播を行うことによって前記エンコーダー部および前記デコーダー部の内部パラメーターを調整し、前記第２学習モードにおいては、前記第２ロスに基づいて前記エンコーダー部および前記第２エンコーダー部のそれぞれのニューラルネットワークの誤差逆伝播を行うことによって前記エンコーダー部および前記第２エンコーダー部の内部パラメーターを調整するものである。

［３］また、本発明の一態様は、上記の変換装置において、前記制御部は、学習処理の際に、学習データ供給部が供給する前記学習用入力データと前記正解データとの対ごとに、前記第１学習モードと前記第２学習モードとを繰り返して実行するよう制御するものである。

［４］また、本発明の一態様は、上記の変換装置において、前記入力データは、画像の系列であり、前記出力データは、所定の記号の系列である、というものである。

［５］また、本発明の一態様は、上記の変換装置において、前記画像の系列は、手話を表す画像の系列であり、前記記号の系列は、前記手話に対応する、グロス表記による語の列である、というものである。

［６］また、本発明の一態様は、入力データを基に状態データを生成するエンコーダー部と、前記状態データを基に出力データを生成するデコーダー部と、前記エンコーダー部への入力となる学習用入力データと、前記学習用入力データに対応する前記出力データの正解である正解データとの対を供給する学習データ供給部と、前記学習用入力データに基づいて前記エンコーダー部が生成する状態データ、に基づいて前記デコーダー部が生成する学習用出力データと、前記学習用入力データに対応して前記学習データ供給部が供給する前記正解データと、の差を表すロスを算出するロス算出部と、前記正解データを基に推定される状態データである推定状態データを生成する第２エンコーダー部と、前記学習用入力データに基づいて前記エンコーダー部が生成する前記状態データと、前記学習用入力データに対応して前記学習データ供給部が供給する前記正解データに基づいて前記第２エンコーダー部が生成する前記推定状態データと、の差を表す第２ロスを算出する第２ロス算出部と、第１学習モードと、第２学習モードと、変換実行モードとを適宜切り替えて動作させるように制御する制御部と、を備え、前記第１学習モードにおいては、学習データ供給部が供給する前記学習用入力データと前記正解データとに基づいて前記ロス算出部が算出した前記ロス、に基づいて前記エンコーダー部および前記デコーダー部の内部パラメーターを調整し、前記第２学習モードにおいては、学習データ供給部が供給する前記学習用入力データと前記正解データとに基づいて前記第２ロス算出部が算出した前記第２ロス、に基づいて前記エンコーダー部および前記第２エンコーダー部の内部パラメーターを調整し、前記変換実行モードにおいては、前記エンコーダー部が入力データを基に状態データを生成し、前記エンコーダー部が生成した前記状態データを基に、前記デコーダー部が、出力データを生成する、変換装置としてコンピューターを機能させるプログラムである。

本発明によれば、データ（映像）を自動認識してその映像に対応する記号列を出力する処理において、認識精度を向上させることができる。

本発明の実施形態による変換装置の概略機能構成を示すブロック図である。同実施形態による変換装置内の、エンコーダー部およびデコーダー部の処理によるデータの流れを示す概略図である。同実施形態による変換装置の、付加的なネットワークである第２エンコーダー部を用いた学習処理によるデータの流れを示す概略図である。同実施形態による変換装置内のエンコーダー部のより詳細な構成例を示すブロック図である。同実施形態による変換装置内のデコーダー部のより詳細な構成例を示すブロック図である。同実施形態による変換装置内の第２エンコーダー部のより詳細な構成例を示すブロック図である。同実施形態による変換装置が機械学習処理を行う際の処理手順を示すフローチャートである。評価実験の結果を示すグラフであり、本実施形態の変換装置と、従来技術による変換装置との間で、変換誤り率を対比するためのグラフである。

次に、本発明の実施形態について、説明する。

本実施形態による変換装置は、手話の映像を入力し、その映像が表す手話を、グロス表記と呼ばれる中間表現に変換する。グロス表記は、文字を持たない手話言語において、手話のフレーズまたは文章を構成する一連の動作を、手話の単語に相当する短い区間で区切り、文字によって書き起こした記号列である。日本手話のグロス表記では、手話の単語の意味に近い日本語の単語をラベルとして用いる。つまり、本実施形態による変換装置は、手話の映像を入力し、映像の自動認識処理を行い、その映像に対応するラベル列（記号列）を出力するものである。

なお、変換装置に入力される手話映像は、単語等の単位に予め区切られているものではない。また、区切り位置を示すメタ情報も、付与されていない。

図１は、本実施形態による変換装置の概略機能構成を示すブロック図である。図示するように、変換装置１は、入力部１０と、エンコーダー部２０と、デコーダー部３０と、出力部４０と、ロス算出部５０と、第２エンコーダー部６０と、第２ロス算出部７０と、学習データ供給部８０と、制御部９０とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各機能部の機能について、次に説明する。

入力部１０は、入力データを取得し、エンコーダー部２０に供給する。この入力データは、画像の系列であって良い。さらに、この画像の系列（映像）は、手話を表す画像の系列（映像）であって良い。なお、映像のフレームレートは任意であるが、例えば、３０フレーム毎秒（ｆｐｓ）程度として良い。

エンコーダー部２０は、入力データを基に状態ベクトル（状態データ）を生成するものである。エンコーダー部２０は、機械学習処理を行って内部のモデルを更新する（パラメーターを調整する）機能を持つ。本実施形態では、エンコーダー部２０は、内部にニューラルネットワークを持ち、誤差逆伝播の処理によって内部のパラメーターを更新できる。なお、誤差逆伝播の手法自体は、既存技術によって実施できるものである。

デコーダー部３０は、状態ベクトル（状態データ）を基に出力データを生成するものである。デコーダー部３０は、機械学習処理を行って内部のモデルを更新する（パラメーターを調整する）機能を持つ。本実施形態では、デコーダー部３０は、内部にニューラルネットワークを持ち、誤差逆伝播の処理によって内部のパラメーターを更新できる。

出力部４０は、デコーダー部３０が生成した出力データ（推定記号列）を出力する。出力データは、例えば、手話の映像に対応するグロス表記の語列（記号列）であっても良い。

ロス算出部５０は、エンコーダー部２０に入力される学習用入力データを基にエンコーダー部２０およびデコーダー部３０が生成する出力データ（推定された単語列、学習用出力データ）と、前記学習用入力データに対応して学習データ供給部が供給する正解データと、の差を表すロスを算出する。エンコーダー部２０およびデコーダー部３０によって生成される学習用出力データと、正解データとが、それぞれ、記号列に対応するベクトルであると捉えた場合、ロス算出部５０が算出するロスは、例えば、それら両ベクトル間のノルムである。

第２エンコーダー部６０は、学習データ供給部８０が供給する正解データ（デコーダー部３０が出力する出力データの正解）を基に、推定される状態ベクトル（状態データ）である推定状態データを生成する。第２エンコーダー部６０は、機械学習処理を行って内部のモデルを更新する（パラメーターを調整する）機能を持つ。本実施形態では、第２エンコーダー部６０は、内部にニューラルネットワークを持ち、誤差逆伝播の処理によって内部のパラメーターを更新できる。

第２ロス算出部７０は、学習用入力データに基づいてエンコーダー部２０が生成する状態データと、学習用入力データに対応して学習データ供給部８０が供給する正解データ、に基づいて第２エンコーダー部６０が生成する推定状態データと、の差を表す第２ロスを算出する。状態データと推定状態データとをともにベクトルと捉えた場合、第２ロス算出部７０が算出する第２ロスは、例えば、それら両ベクトル間のノルムである。

学習データ供給部８０は、エンコーダー部２０やデコーダー部３０や第２エンコーダー部６０が機械学習を行うための学習データを供給する。具体的には、学習データ供給部８０は、エンコーダー部２０への入力となる学習用入力データと、その学習用入力データに対応する出力データの正解である正解データとの対を供給する。上記の学習用入力データは、第２エンコーダー部６０への入力としても使用される。学習データ供給部８０は、学習用入力データと正解データとの対を多数供給する。

制御部９０は、変換装置１全体の動作を制御する。制御部９０は、少なくとも、変換装置１の動作モードに基づく制御を行う。具体例として、制御部９０は、第１学習モードと、第２学習モードと、変換実行モードとを適宜切り替えて動作させるように、変換装置１の各部を制御する。各モードでの変換装置１の動作は、次のとおりである。第１学習モードにおいては、学習データ供給部８０が供給する学習用入力データと正解データとに基づいてロス算出部５０が算出したロス、に基づいて、エンコーダー部２０およびデコーダー部３０の内部パラメーターを調整する。第２学習モードにおいては、学習データ供給部８０が供給する学習用入力データと正解データとに基づいて第２ロス算出部が算出した第２ロス、に基づいてエンコーダー部２０および第２エンコーダー部６０の内部パラメーターを調整する。これらの第１学習モードおよび第２学習モードのそれぞれにおける内部パラメーターの調整とは、例えば、ニューラルネットワークにおける誤差逆伝播処理によって、各部の内部パラメーターを更新する処理である。ニューラルネットワークの内部パラメーターとは、各節における出力値を計算する際の入力値に適用される重み値のベクトルである。そして、変換実行モードにおいては、エンコーダー部２０が入力データを基に状態ベクトル（状態データ）を生成し、エンコーダー部２０が生成した状態ベクトル（状態データ）を基に、デコーダー部３０が、出力データ（入力データに対応する推定変換結果）を生成する。

なお、制御部９０が第１学習モードと第２学習モードとを切り替える制御の手順については、後で、図７（フローチャート）を参照しながらさらに説明する。

図２は、本実施形態の変換装置１内の、エンコーダー部２０およびデコーダー部３０による動作におけるデータの流れを示す概略図である。以下において説明するように、エンコーダー部２０およびデコーダー部３０は、学習モードと変換モードで、動作するものである。

エンコーダー部２０は、内部にニューラルネットワーク２０１を有している。ニューラルネットワーク２０１には、入力映像が持つフレーム画像の系列ｆｒａｍｅ_１，ｆｒａｍｅ_２，・・・，ｆｒａｍｅ_ｒが入力される。ニューラルネットワーク２０１は、フレーム画像の系列ｆｒａｍｅ_１，ｆｒａｍｅ_２，・・・，ｆｒａｍｅ_ｒに基づいて算出される状態ベクトルを出力する。エンコーダー部２０は、入力映像に基づいて生成した状態ベクトルを、デコーダー部３０に渡す。

デコーダー部３０は、内部にニューラルネットワーク３０１を有している。ニューラルネットワーク３０１には、エンコーダー部２０のニューラルネットワーク２０１で生成された状態ベクトルが入力される。ニューラルネットワーク３０１は、入力される状態ベクトルに基づいて算出される語の列ｗｏｒｄ_１，ｗｏｒｄ_２，・・・，ｗｏｒｄ_ｕ−１,ｗｏｒｄ_ｕを出力する。これらの語は、いずれも、前述のグロス表記における記号である。また、ニューラルネットワーク３０１は、語列の最後に、特殊記号である＜ｅｏｓ＞を出力する。＜ｅｏｓ＞は、文の終わり（end of sentence）を表す記号である。ニューラルネットワーク３０１が出力する語の列は、推定語列とも呼ばれる。

ニューラルネットワーク２０１および３０１の各々は、学習モードで動作する際に、学習データに基づく機械学習処理を行うことによって、内部のパラメーターを調整する。ニューラルネットワーク２０１および３０１の各々は、変換モードで動作する際には、機械学習処理において調整済みの内部パラメーターを用いて、出力を算出する。エンコーダー部２０とデコーダー部３０とが変換モードで動作する際には、ニューラルネットワーク３０１が出力する推定語列が、入力映像に対応する変換結果である。

機械学習処理についてさらに詳しく書く。ニューラルネットワーク３０１が出力する推定語列は、正解データである正解語列と比較することができる。正解語列は、入力映像に対応する形で、学習データ供給部８０によって供給される。ロス算出部５０は、ニューラルネットワーク３０１が出力する推定語列と、学習データ供給部８０から供給される正解語列とから、ロスを算出する。ロス算出部５０によって算出されたロスに基づき、ニューラルネットワーク２０１および３０１は、誤差逆伝播を行い、内部のパラメーターを更新する。

図３は、付加的なネットワークである第２エンコーダー部６０を用いた学習処理の流れを示す概略図である。第２エンコーダー部６０は、エンコーダー部２０の学習処理を補助する目的のみに用いられる。つまり、第２エンコーダー部６０は、学習モードのみで用いられるものであり、変換モードでは使用されない。

学習モードで変換装置１が動作する場合に、エンコーダー部２０が、フレーム画像の系列を入力して、状態ベクトルを出力することは、既に説明した通りである。学習モードで変換装置１が動作する場合には、それに加えて、第２エンコーダー部６０に、正解語列が入力される。この正解語列は、学習データ供給部８０によって供給されるものである。正解語列は、図示するように、ｗｏｒｄ_１，ｗｏｒｄ_２，・・・，ｗｏｒｄ_ｕ−１,ｗｏｒｄ_ｕといった語の列である。また、正解語列の先頭には特殊記号である＜ｂｏｓ＞（文の始め、beginning of sentence）が付加され、正解語列の最後には特殊記号である＜ｅｏｓ＞（文の終わり、end of sentence）が付加されている。第２エンコーダー部６０は、ニューラルネットワーク６０１を内部に持っている。ニューラルネットワーク６０１は、入力された正解語列と、その時点における内部パラメーターとに基づき、状態ベクトルを算出し、出力する。

第２ロス算出部７０は、エンコーダー部２０が出力した状態ベクトルと、第２エンコーダー部６０が出力した状態ベクトルとを取得し、これらの両ベクトルからロス（第２ロス）を算出する。ニューラルネットワーク２０１と６０１の各々は、第２ロス算出部７０によって算出されたロスに基づき、誤差逆伝播を行い、それぞれの内部パラメーターを更新する。

つまり、エンコーダー部２０は、第２ロス算出部７０が算出したロスに基づく誤差逆伝播を行うことにより、内部のパラメーターを調整する。この学習処理により、エンコーダー部２０は、入力映像を基に、良好な状態ベクトルを出力することが可能となる。エンコーダー部２０は、図２にも示したように、ロス算出部５０が算出したロスに基づく誤差逆伝播も、行う。しかしながら、ロス算出部５０が算出したロスに基づいて誤差逆伝播を行う場合の逆伝播の経路は比較的長く、第２ロス算出部７０が算出したロスに基づいて誤差逆伝播を行う場合の逆伝播の経路は比較的短い。つまり、ロス算出部５０が算出したロスに基づく誤差逆伝播だけではその経路が長すぎることによって十分な機械学習効果が得られない場合にも、第２ロス算出部７０が算出したロスに基づく誤差逆伝播を併用することにより、エンコーダー部２０は、より良好な学習を行うことができる。

つまり、本実施形態に特有の構成である第２エンコーダー部６０を用いることにより、エンコーダー部２０の学習効果を改善することができる。

図４は、エンコーダー部２０のより詳細な構成例を示すブロック図である。図示するように、エンコーダー部２０は、内部に再帰型ニューラルネットワーク（ＲＮＮ，recurrent neural network）を含むように構成される。図ではＲＮＮの時間的な再帰構造を左から右方向に展開して表現している。図示する構成例では、エンコーダー部２０は、入力されるフレーム画像列ｆｒａｍｅ_１，ｆｒａｍｅ_２，・・・，ｆｒａｍｅ_ｒの各フレームに対応して、第１層から第Ｎ層までのＲＮＮを持つ。Ｎは、正整数である。例えば、Ｎを２以上且つ４以下程度の値としてよい。しかし、Ｎは、ここに例示した範囲に限定されるものではない。エンコーダー部２０を構成するため、時間の進行につれて（フレーム画像の進行につれて）、Ｎ層のＲＮＮの回路を順次再利用する。第１層のＲＮＮには、フレーム画像が入力される。第1層のＲＮＮには直接フレーム画像を入力するのではなく、事前にフレーム画像を図示していないＣＮＮ（畳み込みニューラルネットワーク）などの特徴を抽出する回路に入力し、その出力である特徴ベクトルを第1層のＲＮＮに入力しても良い。第１層のＲＮＮからの出力は、同じフレーム画像に対応する第２層のＲＮＮと、次のフレーム画像に対応する第１層のＲＮＮとに、渡される。また、第ｉ層（１＜ｉ＜Ｎ）のＲＮＮは、同じフレーム画像に対応する第（ｉ−１）層のＲＮＮからの出力と、前のフレーム画像に対応する第ｉ層のＲＮＮからの出力とを受け取る。そして、その第ｉ層のＲＮＮからの出力は、同じフレーム画像に対応する第（ｉ＋１）層のＲＮＮと、次のフレーム画像に対応する第ｉ層のＲＮＮとに、渡される。また、第Ｎ層のＲＮＮは、同じフレーム画像に対応する第（Ｎ−１）層のＲＮＮからの出力と、前のフレーム画像に対応する第Ｎ層のＲＮＮからの出力とを受け取る。そして、その第Ｎ層のＲＮＮからの出力は、次のフレーム画像に対応する第Ｎ層のＲＮＮに渡される。最後のフレーム画像（図４においては、ｆｒａｍｅ_ｒ）に対応するＲＮＮからの出力は、状態ベクトルである。エンコーダー部２０は、生成した状態ベクトルを、デコーダー部３０や第２ロス算出部７０に渡す。

図４を参照して説明したように、エンコーダー部２０は、論理的には、Ｎ行ｒ列のマトリクス状に配置されたＲＮＮを用いて構成される。ただし、Ｎは層の数であり、ｒは入力される画像の系列の長さである。

図５は、デコーダー部３０のより詳細な構成例を示すブロック図である。図示するように、デコーダー部３０は、内部にＲＮＮを含んで構成される。図ではＲＮＮの時間的な再帰構造を左から右方向に展開して表現している。図示する構成例では、デコーダー部３０は、出力する語列（推定語列）ｗｏｒｄ_１，ｗｏｒｄ_２，・・・，ｗｏｒｄ_ｕ−１,ｗｏｒｄ_ｕ，および＜ｅｏｓ＞の各記号に対応して、第１層から第Ｎ層までのＲＮＮを持つ。ここでのＮの値は、エンコーダー部２０（図４参照）のＮの値に合わせる。つまり、デコーダー部３０は、論理的には、エンコーダー部２０の内部構成と同様の、Ｎ行（ｕ＋１）列のマトリクス状に配置されたＲＮＮを用いて構成される。デコーダー部３０におけるＲＮＮのマトリクス内での、データの受け渡しの流れも、エンコーダー部２０のＲＮＮのマトリクス内におけるそれと同様である。ここで、（ｕ＋１）は、出力系列の長さである。ただし、この出力系列の長さは、＜ｅｏｓ＞等の特殊記号を含む長さであってもよい。

デコーダー部３０は、エンコーダー部２０が生成した状態ベクトルを、入力データとして取得する。また、デコーダー部３０の第Ｎ層のＲＮＮは、順次、推定語列（ｗｏｒｄ_１，ｗｏｒｄ_２，・・・，ｗｏｒｄ_ｕ−１,ｗｏｒｄ_ｕ，および＜ｅｏｓ＞）を出力する。デコーダー部３０は、生成した推定語列を、出力部４０やロス算出部５０に渡す。

図６は、第２エンコーダー部６０のより詳細な構成例を示すブロック図である。図示するように、第２エンコーダー部６０は、内部にＲＮＮを含んで構成される。図ではＲＮＮの時間的な再帰構造を左から右方向に展開して表現している。図示する構成例では、第２エンコーダー部６０は、入力される正解語列＜ｂｏｓ＞，ｗｏｒｄ_１，ｗｏｒｄ_２，・・・，ｗｏｒｄ_ｕ−１,ｗｏｒｄ_ｕ，および＜ｅｏｓ＞に対応して、第１層から第Ｎ層までのＲＮＮを持つ。ここでのＮの値は、エンコーダー部２０（図４参照）のＮの値に合わせる。つまり、第２エンコーダー部６０は、論理的には、エンコーダー部２０の内部構成と同様の、Ｎ行（ｕ＋２）列のマトリクス状に配置されたＲＮＮを用いて構成される。第２エンコーダー部６０におけるＲＮＮのマトリクス内での、データの受け渡しの流れも、エンコーダー部２０のＲＮＮのマトリクス内におけるそれと同様である。ここで、（ｕ＋２）は、出力系列の長さである。ただし、この出力系列の長さは、＜ｂｏｓ＞や＜ｅｏｓ＞等の特殊記号を含む長さであってもよい。

第２エンコーダー部６０は、学習データ供給部８０から渡される正解語列のデータを入力として取得する。第２エンコーダー部６０の第１層のＲＮＮは、順次、正解語列（＜ｂｏｓ＞，ｗｏｒｄ_１，ｗｏｒｄ_２，・・・，ｗｏｒｄ_ｕ−１,ｗｏｒｄ_ｕ，および＜ｅｏｓ＞）を入力する。第２エンコーダー部６０は、上記の正解語列を基に生成した状態ベクトルを、第２ロス算出部７０に渡す。

図７は、変換装置１が機械学習処理を行う際の手順の一例を示すフローチャートである。以下では、このフローチャートを参照しながら、学習処理の手順について説明する。

ステップＳ１０１において、学習データ供給部８０は、学習用データとして、１対の入出力データを供給する。入力データは、映像データである。学習データ供給部８０は、入力データを、フレーム画像データの系列として、エンコーダー部２０に渡す。出力データは、正解語列データである。学習データ供給部８０は、出力データである正解語列を、第２エンコーダー部６０およびロス算出部５０に渡す。

次に、ステップＳ１０２において、エンコーダー部２０は、ステップＳ１０１で渡されたフレーム画像データの系列を基に、順伝播を行う。エンコーダー部２０は、順伝播の結果として、状態ベクトルを出力する。

次に、ステップＳ１０３において、第２エンコーダー部６０は、ステップＳ１０１で渡された正解語列のデータを基に、順伝播を行う。第２エンコーダー部６０は、順伝播の結果として、状態ベクトルを出力する。

次に、ステップＳ１０４において、第２ロス算出部７０は、エンコーダー部２０から出力された状態ベクトル（ステップＳ１０２）と、第２エンコーダー部６０から出力された状態ベクトル（ステップＳ１０３）とを基に、ロスを算出する。

次に、ステップＳ１０５において、エンコーダー部２０は、ステップＳ１０４において第２ロス算出部７０が算出したロスに基づいて、誤差逆伝播を行う。この誤差逆伝播により、エンコーダー部２０は、内部のパラメーターを更新する。

次に、ステップＳ１０６において、第２エンコーダー部６０は、ステップＳ１０４において第２ロス算出部７０が算出したロスに基づいて、誤差逆伝播を行う。この誤差逆伝播により、第２エンコーダー部６０は、内部のパラメーターを更新する。

以上、ステップＳ１０２からＳ１０６までの一連の処理は、エンコーダー部２０の出力と第２エンコーダー部６０の出力との差分に基づき、エンコーダー部２０および第２エンコーダー部６０の各々が内部に持つニューラルネットワークのパラメーターを調整する処理である。つまり、前述の、第２学習モードの処理である。

次に、ステップＳ１０７において、エンコーダー部２０は、ステップＳ１０１で渡されたフレーム画像データの系列を基に、順伝播を行う。エンコーダー部２０は、順伝播の結果として、状態ベクトルを出力する。本ステップで生成した状態ベクトルを、エンコーダー部２０は、デコーダー部３０に渡す。

次に、ステップＳ１０８において、デコーダー部３０は、ステップＳ１０７においてエンコーダー部２０が出力した状態ベクトルに基づいて、順伝播を行う。その結果として、デコーダー部３０は、語の列（推定語列）を出力する。この推定語列は、＜ｅｏｓ＞等の特殊記号を含んでもよい。

次に、ステップＳ１０９において、ロス算出部５０は、ステップＳ１０１で渡された正解語列のデータと、ステップＳ１０８において求められた推定語列のデータとを基に、ロスを算出する。

次に、ステップＳ１１０において、デコーダー部３０は、ステップＳ１０９において算出されたロスに基づいて、誤差逆伝播を行う。この誤差逆伝播により、デコーダー部３０は、内部のパラメーターを更新する。

次に、ステップＳ１１１において、エンコーダー部２０は、ステップＳ１１０におけるデコーダー部３０の誤差逆伝播の処理の延長として、エンコーダー部２０が持つニューラルネットワークの誤差逆伝播を行う。この誤差逆伝播により、エンコーダー部２０は、内部のパラメーターを更新する。

以上、ステップＳ１０７からＳ１１１までの一連の処理は、エンコーダー部２０およびデコーダー部３０の順伝播処理によって得られた推定語列と、学習データ供給部８０から与えられた正解語列との差分に基づき、エンコーダー部２０およびデコーダー部３０の各々が内部に持つニューラルネットワークのパラメーターを調整する処理である。つまり、前述の、第１学習モードの処理である。

ステップＳ１１２において、制御部９０は、全ての学習データを用いた機械学習処理を完了したか否かを判定する。全ての学習データを処理済みである場合（ステップＳ１１２：ＹＥＳ）には、次のステップＳ１１３に進む。まだ学習データ（入出力データ対）が残っている場合（ステップＳ１１２：ＮＯ）には、次のデータを処理するためにステップＳ１０１に戻る。

ステップＳ１１３に進んだ場合には、制御部９０は、現在の学習データの集合を用いた学習処理の所定回数の繰り返しが完了したか否かを判定する。なお、この回数は、例えば、予め定めておくものとする。所定回数の処理が完了した場合（ステップＳ１１３：ＹＥＳ）には、本フローチャート全体の処理を終了する。所定回数の処理が完了していない場合（ステップＳ１１３：ＮＯ）には、次の回の処理を行うためにステップＳ１０１に戻る。なお、本ステップにおいて、予め定めておいた回数に基づいて全体の処理を終了するか否かの判断を行う代わりに、他の判断基準に基づいた判断を行うようにしてもよい。一例として、更新対象であるニューラルネットワークのパラメーター集合の値の収束状況（十分に収束しているか否か）に基づいて、全体の処理を終了するか否かの判断を行うようにしてもよい。

以上の処理の手順により、エンコーダー部２０およびデコーダー部３０の学習が進む。学習により、エンコーダー部２０およびデコーダー部３０のそれぞれの内部のパラメーターが調整されるため、エンコーダー部２０およびデコーダー部３０は、より精度良く、入力データ（具体例としては、画像の系列。さらに具体的な例としては、手話を表す映像。）に対応する出力データ（具体例としては、記号の列。さらに具体的な例としては、手話に対応するグロス表記の単語列。）を生成するようになる。

以上、説明した手順では、ロス算出部５０が算出したロスに基づいてエンコーダー部２０のパラメーターを更新するだけでなく、第２ロス算出部７０が算出したロスにも基づいてエンコーダー部２０のパラメーターを更新する。第２ロス算出部７０は、エンコーダー部２０と第２エンコーダー部６０とがそれぞれ算出する状態ベクトルの差をロスとして産出する。この手法により、エンコーダー部２０の学習をより良好に行うことができる。つまり、エンコーダー部２０が生成する状態ベクトルは、入力映像と正解語列との関係をより良く表現するものとなる。したがって、変換装置１は、入力映像に対応して、精度の高い推定語列を生成することが期待される。

図７に示した手順では、第２ロス算出部７０が算出したロスに基づく学習（ステップＳ１０２からＳ１０６までの、エンコーダー部２０および第２エンコーダー部６０の学習、第２学習モード）と、ロス算出部５０が算出したロスに基づく学習（ステップＳ１０７からＳ１１１までの、エンコーダー部２０およびデコーダー部３０の学習、第１学習モード）とを、個別且つ交互に実施している。これは、前述の制御部９０によるモードの切り替えの例である。つまり、制御部９０は、学習処理の際に、学習データ供給部８０が供給する学習用入力データと正解データとの対ごとに、第１学習モードと第２学習モードとを繰り返して実行するよう制御する。しかしながら、これら両者の学習を計算グラフ上で同時に行うようにしてもよい。

［評価実験の例］
上記の実施形態による変換装置の評価実験を行った。その結果を次に記す。

実験の条件は次のとおりである。ＣＮＮ（畳み込みニューラルネットワーク）として、ＡｌｅｘＮｅｔを用いてＩｍａｇｅＮｅｔのデータセットで学習したパラメーターを初期値とした。また、ＲＮＮとして、エンコーダー部２０とデコーダー部３０と第２エンコーダー部６０のすべてに、４層１０００ユニットのＲｅｓｉｄｕａｌＧＲＵ（Gated Recurrent Unit）を採用した。

なお、比較対象の変換装置は、従来技術の手法を用いた変換装置である。言い換えれば、比較対象の変換装置は、第２ロス算出部７０を持たず、第２ロス算出部７０が算出したロスに基づく誤差逆伝播を行わない。また、したがって、比較対象の変換装置は、第２エンコーダー部６０を持たない。

評価実験で用いた学習データとして、入力映像（手話映像）と、グロス表現による正解語列との対、１６０００対を用いた。評価用データとしては、同様に入力映像とグロス表現による正解語列との対、１０００対を用いた。学習データとして用いた入力映像は、日本放送協会の手話ニュース（２００９年から２０１５年までの放送分）の映像である。対象ドメインは、気象情報および気象関連の話題である。入力映像の長さは、最大で、１文あたり１０秒である。入力映像のフレームレートは、２９．９７フレーム毎秒である。画像のサイズは２５６画素×２５６画素であり、画像は、上半身と右手と左手とを含む。語彙数は、６６９５語である。

図８は、評価実験の結果を示すグラフである。同図のグラフは、従来技術の手法と、本実施形態の手法とのそれぞれについて、学習データ数と単語誤り率（変換誤り率）との対応関係を示す。グラフの横軸は延べ学習データ数である（単位は、文数）。グラフの縦軸は、単語誤り率である。両手法とも、概ね、学習データ数を大きくするほど、単語誤り率が下がる傾向が出ている。しかし、学習データ数のすべての領域において、従来技術の手法を用いる場合よりも、本実施形態の手法を用いる場合のほうが、単語誤り率は低い。従来技術の手法を用いる場合の単語誤り率の最小値は、０．４２４であった。一方、本実施形態の手法を用いる場合の単語誤り率の最小値は、０．４０３であった。つまり、本実施形態を用いることにより、より低い単語誤り率を実現できることが、確認できた。

なお、上述した実施形態における変換装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。例えば、入力映像に映る内容は、手話以外でもよい。手話に限らず、任意のジェスチャー等の動き（人あるいは生物の動きには限定されない）の映像を基に、記号列を出力する変換装置を実施してもよい。また、出力する単語列は、グロス表記には限定されない。出力する単語列は、任意の言語表現や、より一般的な記号列等であってもよい。また、入力データは、映像に限定されない。例えば、任意の系列データであってもよい。また、エンコーダー部２０やデコーダー部３０や第２エンコーダー部６０が用いる、機械学習のための手法は、ニューラルネットワークに限られるものではない。つまり、ニューラルネットワークの代わりに、学習データに基づいて機械学習を行うことのできる任意の手段を用いてもよい。

以上、説明したように、本実施形態（変形例を含む）によれば、変換装置１は、ニューラルネットワークを用いて構成され入力される正解記号列を基に状態ベクトルを生成するする第２エンコーダー部６０と、エンコーダー部２０が生成する状態ベクトルと第２エンコーダー部６０が生成する状態ベクトルとの差を算出する第２ロス算出部７０とを備える。そして、第２ロス算出部７０が算出したロスに基づいて、エンコーダー部２０および第２エンコーダー部６０の誤差逆伝播を行うことができる。つまり、相対的に短い誤差逆伝播経路を用いて、エンコーダー部２０の機械学習処理を行うことができる。これにより、学習効果が良く表れ、変換装置１の変換精度が向上する。あるいは、変換装置１の学習コストを下げることができる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、例えば、映像を基に記号列を生成するあらゆる適用領域（一例として、映像理解等）に利用することができる。特に手話映像を対象とした処理を行う場合には、聴覚障害者と健聴者のコミュニケーションに利用したり、手話学習者の教育に利用したり、することができる。但し、本発明の利用範囲はここに例示したものには限られない。

１変換装置
１０入力部
２０エンコーダー部
３０デコーダー部
４０出力部
５０ロス算出部
６０第２エンコーダー部
７０第２ロス算出部
８０学習データ供給部
９０制御部
２０１，３０１，６０１ニューラルネットワーク

Claims

入力データを基に状態データを生成するエンコーダー部と、
前記状態データを基に出力データを生成するデコーダー部と、
前記エンコーダー部への入力となる学習用入力データと、前記学習用入力データに対応する前記出力データの正解である正解データとの対を供給する学習データ供給部と、
前記学習用入力データに基づいて前記エンコーダー部が生成する状態データ、に基づいて前記デコーダー部が生成する学習用出力データと、前記学習用入力データに対応して前記学習データ供給部が供給する前記正解データと、の差を表すロスを算出するロス算出部と、
前記正解データを基に推定される状態データである推定状態データを生成する第２エンコーダー部と、
前記学習用入力データに基づいて前記エンコーダー部が生成する前記状態データと、前記学習用入力データに対応して前記学習データ供給部が供給する前記正解データに基づいて前記第２エンコーダー部が生成する前記推定状態データと、の差を表す第２ロスを算出する第２ロス算出部と、
第１学習モードと、第２学習モードと、変換実行モードとを適宜切り替えて動作させるように制御する制御部と、
を備え、
前記第１学習モードにおいては、学習データ供給部が供給する前記学習用入力データと前記正解データとに基づいて前記ロス算出部が算出した前記ロス、に基づいて前記エンコーダー部および前記デコーダー部の内部パラメーターを調整し、
前記第２学習モードにおいては、学習データ供給部が供給する前記学習用入力データと前記正解データとに基づいて前記第２ロス算出部が算出した前記第２ロス、に基づいて前記エンコーダー部および前記第２エンコーダー部の内部パラメーターを調整し、
前記変換実行モードにおいては、前記エンコーダー部が入力データを基に状態データを生成し、前記エンコーダー部が生成した前記状態データを基に、前記デコーダー部が、出力データを生成する、
変換装置。
前記エンコーダー部と、前記デコーダー部と、前記第２エンコーダー部との各々は、内部にニューラルネットワークを備え、
前記第１学習モードにおいては、前記ロスに基づいて前記エンコーダー部および前記デコーダー部のそれぞれのニューラルネットワークの誤差逆伝播を行うことによって前記エンコーダー部および前記デコーダー部の内部パラメーターを調整し、
前記第２学習モードにおいては、前記第２ロスに基づいて前記エンコーダー部および前記第２エンコーダー部のそれぞれのニューラルネットワークの誤差逆伝播を行うことによって前記エンコーダー部および前記第２エンコーダー部の内部パラメーターを調整する、
請求項１に記載の変換装置。
前記制御部は、学習処理の際に、学習データ供給部が供給する前記学習用入力データと前記正解データとの対ごとに、前記第１学習モードと前記第２学習モードとを繰り返して実行するよう制御する、
請求項１または２に記載の変換装置。
前記入力データは、画像の系列であり、
前記出力データは、所定の記号の系列である、
請求項１から３までのいずれか一項に記載の変換装置。
前記画像の系列は、手話を表す画像の系列であり、
前記記号の系列は、前記手話に対応する、グロス表記による語の列である、
請求項４に記載の変換装置。
入力データを基に状態データを生成するエンコーダー部と、
前記状態データを基に出力データを生成するデコーダー部と、
前記エンコーダー部への入力となる学習用入力データと、前記学習用入力データに対応する前記出力データの正解である正解データとの対を供給する学習データ供給部と、
前記学習用入力データに基づいて前記エンコーダー部が生成する状態データ、に基づいて前記デコーダー部が生成する学習用出力データと、前記学習用入力データに対応して前記学習データ供給部が供給する前記正解データと、の差を表すロスを算出するロス算出部と、
前記正解データを基に推定される状態データである推定状態データを生成する第２エンコーダー部と、
前記学習用入力データに基づいて前記エンコーダー部が生成する前記状態データと、前記学習用入力データに対応して前記学習データ供給部が供給する前記正解データに基づいて前記第２エンコーダー部が生成する前記推定状態データと、の差を表す第２ロスを算出する第２ロス算出部と、
第１学習モードと、第２学習モードと、変換実行モードとを適宜切り替えて動作させるように制御する制御部と、
を備え、
前記第１学習モードにおいては、学習データ供給部が供給する前記学習用入力データと前記正解データとに基づいて前記ロス算出部が算出した前記ロス、に基づいて前記エンコーダー部および前記デコーダー部の内部パラメーターを調整し、
前記第２学習モードにおいては、学習データ供給部が供給する前記学習用入力データと前記正解データとに基づいて前記第２ロス算出部が算出した前記第２ロス、に基づいて前記エンコーダー部および前記第２エンコーダー部の内部パラメーターを調整し、
前記変換実行モードにおいては、前記エンコーダー部が入力データを基に状態データを生成し、前記エンコーダー部が生成した前記状態データを基に、前記デコーダー部が、出力データを生成する、
変換装置としてコンピューターを機能させるプログラム。