JP7493398B2 - 変換装置、学習装置、およびプログラム - Google Patents
変換装置、学習装置、およびプログラム Download PDFInfo
- Publication number
- JP7493398B2 JP7493398B2 JP2020115497A JP2020115497A JP7493398B2 JP 7493398 B2 JP7493398 B2 JP 7493398B2 JP 2020115497 A JP2020115497 A JP 2020115497A JP 2020115497 A JP2020115497 A JP 2020115497A JP 7493398 B2 JP7493398 B2 JP 7493398B2
- Authority
- JP
- Japan
- Prior art keywords
- statistical information
- unit
- learning
- decoder unit
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 61
- 238000012545 processing Methods 0.000 claims description 83
- 238000004364 calculation method Methods 0.000 claims description 59
- 238000012549 training Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 description 78
- 238000000034 method Methods 0.000 description 49
- 238000013528 artificial neural network Methods 0.000 description 43
- 239000013598 vector Substances 0.000 description 23
- 238000010801 machine learning Methods 0.000 description 18
- 239000010410 layer Substances 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 208000032041 Hearing impaired Diseases 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Description
デコーダーは、エンコーダーによって生成された特徴ベクトルを入力し、語の系列を生成する。
参考文献:Ashish Vaswani他,Attention Is All You Need,arXiv:1706.03762v5,2017年
具体的には、学習データ供給部81は、入力フレーム画像系列と、正解語列と、正解統計情報との組を多数集めた学習データセットを持つ。学習データ供給部81は、学習処理モードの際に、そのデータの組を順次1組ずつ供給する。つまり、学習データ供給部81は、エンコーダー部21への入力の基となる学習用画像系列と、その学習用画像系列に対応する記号列の正解である正解記号列と、その正解記号列に対応する統計情報の正解である正解統計情報と、の組を供給する。具体的には、学習データ供給部81は、入力フレーム画像系列を、エンコーダー部21に渡す。また、学習データ供給部81は、正解語列を、ロス算出部71に渡す。また、学習データ供給部81は、正解統計情報を、統計情報ロス算出部72に渡す。
上記実施形態では、エンコーダー部21や、デコーダー部31や、統計情報デコーダー部61は、ニューラルネットワークの構造として、トランスフォーマーを用いた。変形例として、エンコーダー部21や、デコーダー部31や、統計情報デコーダー部61が、他の構造を用いてもよい。例えば、エンコーダー部21や、デコーダー部31や、統計情報デコーダー部61が、トランスフォーマーの代わりにRNN(Recurrent Neural Network)等を用いても良い。
上記実施形態では、統計情報として、記号の出現回数を用いた。変形例として、記号の出現頻度を統計情報として用いてもよい。
上記実施形態では、統計情報として、記号の出現回数の情報のみを用いた。変形例として、出現回数の情報に加えて、出力記号列の長さを、統計情報に含めるようにしてよい。この場合、学習データ供給部81が供給する正解統計情報が、正解語列の長さの情報を含むようにする。
上記実施形態では、統計情報デコーダー部61の中の全結合層6003(図5参照)が、1×Vの行列を入力し、V×Nの行列に変換していた。また、統計情報デコーダー部61は、このV×Nの行列(統計情報)を、デコーダー部31に渡していた。そして、デコーダー部31の中の全結合層3003(図6参照)が、V×Nの行列を入力し、1×Vの行列に変換していた。全結合層3003は、この1×Nの行列を、トランスフォーマー3002に渡していた。
上記実施形態において、統計情報を、V×Nのサイズを持つ行列とした(ただし、N≧2)。変形例として、統計情報を、V×1のサイズを持つ行列としてよい。この行列が、V種類の記号(特殊記号を含む)のそれぞれが、出力記号列内に存在する確率を表すようにする。推定統計情報において、V×1の行列の要素は、各記号が出力記号列内に含まれる確率を表す。また、正解統計情報において、V×1の行列の要素は、1または0の値をとる。値が1の場合には、正解語列の中にその記号が含まれる。値が0の場合には、正解語列の中にその記号が含まれない。このような統計情報を用いる点以外は、上記実施系遺体と同様にしてよい。
上記実施形態において、統計情報は、単語(記号)の出現回数であった。変形例において、その代わりに、単語(記号)の連鎖の出現回数(ないしは頻度)についての統計情報を用いるようにしてもよい。例えば、いわゆるnグラム(n-gram;n個の単語の連鎖;n≧2)の出現回数の情報を統計情報とする。学習データ供給部81は、正解語列に含まれるnグラムの出現回数を数え上げ、正解統計情報を生成する。学習データ供給部81は、その正解統計情報を、統計情報ロス算出部72に提供する。統計情報ロス算出部72は、学習処理モードにおいて、上記の正解統計情報と、統計情報デコーダー部61が求めた推定統計情報との間のロス(統計情報ロス)を算出する。統計情報デコーダー部61およびエンコーダー部21は、このロスに基づいて、誤差逆伝播法により、内部のパラメーターを更新する。また、推定処理モードにおいて、統計情報デコーダー部61は、推定結果である推定統計情報を、デコーダー部31に渡す。デコーダー部31は、この推定統計情報に基づいて、出力記号列の推定処理を行う。なお、本変形例において、統計情報のニューラルネットワーク上での表現方法は、設計として適宜定めるようにする。
上記の実施形態において、エンコーダー部21や、デコーダー部31や、統計情報デコーダー部61のそれぞれは、学習処理モードと推定処理モードのどちらの動作モードでも動作するように構成されていた。本変形例では、エンコーダー部21や、デコーダー部31や、統計情報デコーダー部61のそれぞれは、学習処理モードでのみ動作するようにする。この場合、実施形態において「変換装置1」として説明した装置は、モデルの学習を行うための「学習装置」として機能する。このような学習装置が動作することにより、モデルの学習を行える。学習済みのモデル(学習済みのパラメーター値のデータを含む)は、当該装置を、あるいはモデルの移植先の他の装置(コンピューター等)を、変換装置として稼働させることができる。
上記の実施形態において、エンコーダー部21や、デコーダー部31や、統計情報デコーダー部61のそれぞれは、学習処理モードと推定処理モードのどちらの動作モードでも動作するように構成されていた。本変形例では、エンコーダー部21や、デコーダー部31や、統計情報デコーダー部61のそれぞれは、推定処理モードでのみ動作するようにする。この場合、エンコーダー部21や、デコーダー部31や、統計情報デコーダー部61のモデルの学習は予め済ませておいたものとする。つまり、エンコーダー部21の内部パラメーターは機械学習処理によって予め調整済みである。また、統計情報デコーダー部61の内部パラメーターは機械学習処理によって予め調整済みである。また、デコーダー部31の内部パラメーターも機械学習処理によって予め調整済みである。例えば、他の装置(コンピューター等)から学習済みのモデル(学習済みのパラメーター値のデータを含む)を移植してもよい。この場合の変換装置1もまた、良い精度で入力フレーム画像系列から出力記号列への変換を行う。
上で説明した実施形態の変換装置1を用いて、100エポック(epoch)の機械学習処理を実施した。その結果、統計情報を用いて推定語列を求める変換装置1のほうが、統計情報を用いずに推定語列を求める従来技術の場合よりも、BLUE値において約5%の変換精度の改善を確認できた。
10 入力部
21 エンコーダー部
31 デコーダー部
40 出力部
61 統計情報デコーダー部
71 ロス算出部
72 統計情報ロス算出部
81 学習データ供給部
91 制御部
901 中央処理装置
902 RAM
903 入出力ポート
904,905 入出力デバイス
906 バス
2001 ニューラルネットワーク
2002 トランスフォーマー
3001 ニューラルネットワーク
3002 トランスフォーマー
3003 全結合層
6001 ニューラルネットワーク
6002 トランスフォーマー
6003 全結合層
Claims (6)
- 入力される画像系列を基に状態データを生成するエンコーダー部と、
前記状態データを基に記号列についての統計の情報である統計情報を生成する統計情報デコーダー部と、
前記状態データと前記統計情報とを基に記号列を生成するデコーダー部と、
前記エンコーダー部への入力の基となる学習用画像系列と、前記学習用画像系列に対応する前記記号列の正解である正解記号列と、前記記号列に対応する前記統計情報の正解である正解統計情報と、の組を供給する学習データ供給部と、
前記学習用画像系列に基づいて前記エンコーダー部が生成する状態データ、に基づいて前記デコーダー部が生成する記号列である学習用推定記号列と、前記学習用画像系列に対応して前記学習データ供給部が供給する前記正解記号列と、の差を表すロスを算出するロス算出部と、
前記学習用画像系列に基づいて前記エンコーダー部が生成する状態データ、に基づいて前記統計情報デコーダー部が生成する統計情報である学習用推定統計情報と、前記学習用画像系列に対応して前記学習データ供給部が供給する前記正解統計情報と、の差を表す統計情報ロスを算出する統計情報ロス算出部と、
学習処理モードと推定処理モードとを適宜切り替えて実行させるように制御する制御部と、
を備え、
前記学習処理モードにおいては、前記デコーダー部は、前記統計情報デコーダー部が生成した統計情報である推定統計情報、または前記学習データ供給部が供給した前記正解統計情報の、いずれかの前記統計情報を基に、前記記号列を生成し、
前記学習処理モードにおいては、前記ロス算出部が算出した前記ロスに基づいて前記デコーダー部の内部パラメーターと前記エンコーダー部の内部パラメーターとを調整するとともに、前記統計情報ロス算出部が算出した前記統計情報ロスに基づいて前記統計情報デコーダー部の内部パラメーターと前記エンコーダー部の内部パラメーターとを調整し、
前記推定処理モードにおいては、前記エンコーダー部が推定対象の画像系列を基に状態データを生成し、前記エンコーダー部が生成した前記状態データを基に前記統計情報デコーダー部が前記統計情報を生成し、前記デコーダー部が前記状態データと前記統計情報とを基に前記記号列を生成する、
変換装置。 - 前記画像系列は、手話を表す映像であり、
前記デコーダー部が生成する前記記号列は、前記手話のグロス表記を表す記号の列である、
請求項1に記載の変換装置。 - 入力される画像系列を基に状態データを生成するエンコーダー部と、
前記状態データを基に記号列についての統計の情報である統計情報を生成する統計情報デコーダー部と、
前記状態データと前記統計情報とを基に記号列を生成するデコーダー部と、
前記エンコーダー部への入力の基となる学習用画像系列と、前記学習用画像系列に対応する前記記号列の正解である正解記号列と、前記記号列に対応する前記統計情報の正解である正解統計情報と、の組を供給する学習データ供給部と、
前記学習用画像系列に基づいて前記エンコーダー部が生成する状態データ、に基づいて前記デコーダー部が生成する記号列である学習用推定記号列と、前記学習用画像系列に対応して前記学習データ供給部が供給する前記正解記号列と、の差を表すロスを算出するロス算出部と、
前記学習用画像系列に基づいて前記エンコーダー部が生成する状態データ、に基づいて前記統計情報デコーダー部が生成する統計情報である学習用推定統計情報と、前記学習用画像系列に対応して前記学習データ供給部が供給する前記正解統計情報と、の差を表す統計情報ロスを算出する統計情報ロス算出部と、
を備え、
前記ロス算出部が算出した前記ロスに基づいて前記デコーダー部の内部パラメーターと前記エンコーダー部の内部パラメーターとを調整するとともに、前記統計情報ロス算出部が算出した前記統計情報ロスに基づいて前記統計情報デコーダー部の内部パラメーターと前記エンコーダー部の内部パラメーターとを調整する、
学習装置。 - 前記画像系列は、手話を表す映像であり、
前記デコーダー部が生成する前記記号列、および前記学習データ供給部が供給する正解記号列は、前記手話のグロス表記を表す記号の列である、
請求項3に記載の学習装置。 - コンピューターを、
請求項1または2に記載の変換装置、
として機能させるためのプログラム。 - コンピューターを、
請求項3または4に記載の学習装置、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020115497A JP7493398B2 (ja) | 2020-07-03 | 2020-07-03 | 変換装置、学習装置、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020115497A JP7493398B2 (ja) | 2020-07-03 | 2020-07-03 | 変換装置、学習装置、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022013136A JP2022013136A (ja) | 2022-01-18 |
JP7493398B2 true JP7493398B2 (ja) | 2024-05-31 |
Family
ID=80169809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020115497A Active JP7493398B2 (ja) | 2020-07-03 | 2020-07-03 | 変換装置、学習装置、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7493398B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018063502A (ja) | 2016-10-11 | 2018-04-19 | 株式会社日本総合研究所 | 自然言語処理装置、自然言語処理方法および自然言語処理プログラム |
JP2019519045A (ja) | 2016-06-09 | 2019-07-04 | プログレス インコーポレイテッドProgress,Inc. | ニューラルネットワーク、およびニューラルネットワークトレーニングの方法 |
-
2020
- 2020-07-03 JP JP2020115497A patent/JP7493398B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019519045A (ja) | 2016-06-09 | 2019-07-04 | プログレス インコーポレイテッドProgress,Inc. | ニューラルネットワーク、およびニューラルネットワークトレーニングの方法 |
JP2018063502A (ja) | 2016-10-11 | 2018-04-19 | 株式会社日本総合研究所 | 自然言語処理装置、自然言語処理方法および自然言語処理プログラム |
Non-Patent Citations (1)
Title |
---|
Hao Zhou et al.,"Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition",arXiv,Cornell University,2020年02月08日,pp.1-8,インターネット<URL:https://arxiv.org/abs/2002.03187>,[2024年2月17日検索] |
Also Published As
Publication number | Publication date |
---|---|
JP2022013136A (ja) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
US11783199B2 (en) | Image description information generation method and apparatus, and electronic device | |
EP3857459B1 (en) | Method and system for training a dialogue response generation system | |
CN110168531B (zh) | 用于多模态融合模型的方法和系统 | |
JP6504590B2 (ja) | 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体 | |
CN112733768B (zh) | 基于双向特征语言模型的自然场景文本识别方法及装置 | |
CN109919221B (zh) | 基于双向双注意力机制图像描述方法 | |
JP2018206307A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN114090815A (zh) | 一种图像描述模型的训练方法及训练装置 | |
CN111816159A (zh) | 一种语种识别方法以及相关装置 | |
CN114339450B (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN107766319A (zh) | 序列转换方法及装置 | |
KR20200143450A (ko) | 화상 처리 방법, 장치, 전자 장치 및 저장 매체 | |
WO2021082518A1 (zh) | 机器翻译方法、机器翻译模型训练方法、装置及存储介质 | |
CN113822790A (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
Rastgoo et al. | A survey on recent advances in Sign Language Production | |
JP7493398B2 (ja) | 変換装置、学習装置、およびプログラム | |
CN117094365A (zh) | 图文生成模型的训练方法、装置、电子设备及介质 | |
JP7422535B2 (ja) | 変換装置およびプログラム | |
KR102196874B1 (ko) | 위성 이미지 생성 학습 장치, 위성 이미지 생성 학습 방법, 위성 이미지 생성 장치 및 위성 이미지 생성 방법 | |
CN113469260A (zh) | 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法 | |
CN110381313B (zh) | 基于lstm网络与图像组质量盲评估的视频压缩感知重构方法 | |
JP7455000B2 (ja) | 変換装置、学習装置、およびプログラム | |
Joshi et al. | FYEO: A Character Level Model for Lip Reading | |
JP7243821B2 (ja) | 学習装置、制御方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240423 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240521 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7493398 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |