JP2021081930A - 学習装置、情報分類装置、及びプログラム - Google Patents
学習装置、情報分類装置、及びプログラム Download PDFInfo
- Publication number
- JP2021081930A JP2021081930A JP2019208103A JP2019208103A JP2021081930A JP 2021081930 A JP2021081930 A JP 2021081930A JP 2019208103 A JP2019208103 A JP 2019208103A JP 2019208103 A JP2019208103 A JP 2019208103A JP 2021081930 A JP2021081930 A JP 2021081930A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- feature
- unit
- classification
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000013016 learning Effects 0.000 title claims abstract description 291
- 238000000605 extraction Methods 0.000 claims abstract description 122
- 239000013598 vector Substances 0.000 claims abstract description 95
- 230000010354 integration Effects 0.000 claims abstract description 42
- 238000013145 classification model Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 14
- 238000000034 method Methods 0.000 abstract description 51
- 230000008569 process Effects 0.000 abstract description 32
- 238000012549 training Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000013604 expression vector Substances 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】モーダリティごとに個別に学習プロセスを制御できる学習装置、情報分類装置、及びプログラムを提供する。【解決手段】マルチモーダル情報を分類する情報分類モデルを生成する学習装置は、複数のモーダリティデータをベクトル化するベクトル化部と、特徴ベクトルを生成する特徴抽出部と、統合特徴ベクトルを生成する特徴統合部と、前記統合特徴ベクトルに基づいて分類結果を出力する統合特徴分類部と、個別の前記特徴ベクトルに基づいて分類結果を出力する単一特徴分類部と、前記特徴抽出部の学習終了判定を行う特徴抽出部学習終了判定手段と、前記統合特徴分類部の学習終了判定を行う学習終了判定手段と、を備える。学習データを用いて少なくとも前記特徴抽出部と前記統合特徴分類部の学習を行い、前記特徴抽出部と前記統合特徴分類部の学習終了時期を個別に制御することを特徴とする。【選択図】図1
Description
本発明は、学習装置、情報分類装置、及びプログラムに関し、特に、画像とテキスト等複数の表現が組み合わさった情報が、どのような種類の情報であるかを分類するための学習装置、情報分類装置、及びプログラムに関する。
近年、ニューラルネットワーク(Neural Network)等を用いた人工知能(AI)が、画像認識や音声認識、言語処理等、様々な分野に利用されている。これまでの人工知能を用いた装置は、特定の表現種類のデータ(例えば、画像のみのデータ)を扱うことに特化した装置が殆どであったが、最近は、画像、音声、テキスト等、一つの対象に対する複数の表現(モーダリティ)を取り扱う装置の研究も進められている。
例えば、画像の内容に関連する質問に回答するために、画像とテキストを処理するマルチモーダルモデルを用いた画像質問応答システムが提案されている(特許文献1)。また、各モーダリティの出力への影響を決定する学習可能な重みを用いて複数のモーダリティの情報を統合する手法が提案されている(非特許文献1)。
さらに、複数のモーダリティが組み合わさった情報(マルチモーダル情報、マルチモーダルデータ)を分類する方法が提案されており(非特許文献2)、ここでは、各モーダリティを学習可能な重みを用いて複数の段階で統合する手法が開示されている。この分類方法は、統合された特徴による分類モデルに加えて、統合する前の単一モーダリティの特徴による分類モデルを同時に学習することで、分類精度の向上を図っている。
図6は、本発明者が開発してきた従来のマルチモーダル情報分類装置とその学習装置のブロック図である。マルチモーダル情報分類装置は、ベクトル化部11,12と、特徴抽出部21,22と、特徴統合部30と、統合特徴分類部40を備えており、マルチモーダル情報としてテキストデータと画像データが入力される。
ベクトル化部11は、テキストデータが入力され、これを学習モデルに入力可能な形式であるベクトルV1に変換し、特徴抽出部21に出力する。同様に、ベクトル化部12は、画像データが入力され、これを学習モデルに入力可能な形式であるベクトルV2に変換し、特徴抽出部22に出力する。
特徴抽出部21は特徴抽出モデルを備えており、テキストデータのベクトルV1を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルVf1を出力する。同様に、特徴抽出部22は、画像データのベクトルV2を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルVf2を出力する。
特徴統合部30は、テキストデータの特徴ベクトルVf1と画像データの特徴ベクトルVf2が入力され、これらを統合して、統合特徴ベクトルVを統合特徴分類部40へ出力する。そして、統合特徴分類部40は、ニューラルネットワーク等を用いて構成され、統合特徴ベクトルVに基づいて、分類結果を出力する。こうして、マルチモーダル情報分類装置は、テキストデータと画像データ等の複数のモーダリティの組み合わせ情報から、情報の分類を行うことができる。
このようなマルチモーダル情報分類装置には、ニューラルネットワーク等で構成されたモデルが利用されるが、装置を適切に動作させるためには、一般に学習データを用いて繰り返し学習を行い、モデル(パラメータ)を最適なものとなるように収束させること(いわゆる、機械学習)が必要である。
図6のマルチモーダル情報分類装置も学習モードを備えており、更に、学習終了判定手段50を設け、学習装置を構成している。マルチモーダル情報分類装置は、学習モードにおいて、学習データで得られた分類結果を正解データと比較し、情報分類装置内部のモデルを調整し、学習を行う。そして、学習終了判定手段50は、検証データによって学習終了の判定を行う。
しかしながら、ニューラルネットワーク等の機械学習では、過度に学習を行うと、学習(訓練)データだけに最適化されてしまって未知データには対応ができない状態、いわゆる「過学習(過剰適合、Overfittingともいう)」が生じる。このニューラルネットワークの学習の際に生じる過学習を防ぐため、過学習を検出して学習率を制御し、収束状態を判定して学習を停止する手法(Early Stopping)が提案されている(特許文献2、非特許文献3)。
J. Arevalo, et al.,"Gated Multimodal Units for Information Fusion",5th International Conference on Learning Representations Workshop,2017年,pp. 1-17
V. Vielzeuf, et al.,"CentralNet: A Multilayer Approach for Multimodal Fusion",European Conference on Computer Vision Workshop,2018年
L. Prechelt, et al.,"Early Stopping - But When?",Neural Networks: Tricks of the Trade, 2nd edn. Springer,2012年,pp. 53-67
マルチモーダル機械学習とは、画像、音声、テキストなど、一つの対象に対する複数の表現(モーダリティ)を入力として、分類などのタスクを解くモデルを構築することであるが、前述のとおり、機械学習においては、学習データに適応しすぎることで、現実のデータの分類性能が低下する、「過学習(過剰適合)」の問題がある。
図6を参照すると、機械学習では、一つの学習データの分類結果に対して正解データによるフィードバックが、統合特徴分類部40、特徴統合部30、特徴抽出部21,22に順次反映され、それぞれのモデルの修正が行われる。そして、学習を繰り返した後、学習終了判定手段50が、モデルが最適な状態となった時期を判定して、学習を終了する。従来のマルチモーダル機械学習は、図6に示すように、テキストデータの特徴抽出部21、画像データの特徴抽出部22、特徴統合部30、及び統合特徴分類部40の全体を学習ブロック41として、学習終了判定を行っていた。すなわち、異なる表現に関する特徴抽出部21,22のそれぞれのモデルに対して、同一回数の共通の学習プロセスを行い、学習ブロック41全体として、学習の終了タイミングを決定していた。
しかしながら、一般的に、異なる表現の入力は異なる性質を持つため、各表現から特徴を抽出するモデルの収束速度や汎化性能が異なる。そのため、全ての特徴抽出モデルを同一の学習プロセスにより学習すると、一部のモーダリティの特徴抽出モデルの学習が不十分であるにもかかわらず、残りのモーダリティの特徴抽出モデルが過学習することにより、分類モデルの精度が低下するという現象が生じる。
また、従来の学習法を用いて汎化性能を高め、過学習を防ぐためには、大量の学習データが必要であり、これを収集するためには、コストがかかる。
従って、上記のような問題点に鑑みてなされた本発明の目的は、モーダリティごとに個別に学習プロセスを制御し、それぞれ最適なタイミングで学習を終了することができ、一部のモーダリティのモデルの過学習による精度低下を防ぐことができる、学習装置及びプログラムを提供することにある。
また、本発明の目的は、複数のモーダリティを統合することによる精度向上の効果を最大限活用でき、マルチモーダル情報をより正確に分類することができる、情報分類装置及びプログラムを提供することにある。
上記課題を解決するために本発明に係る学習装置は、マルチモーダル情報を分類する情報分類モデルを生成する学習装置であって、複数のモーダリティデータをベクトル化するベクトル化部と、ベクトル化された各モーダリティデータから特徴ベクトルを生成する特徴抽出部と、複数の前記特徴ベクトルから統合特徴ベクトルを生成する特徴統合部と、前記統合特徴ベクトルに基づいて分類結果を出力する統合特徴分類部と、個別の前記特徴ベクトルに基づいて分類結果を出力する単一特徴分類部と、前記特徴抽出部の学習終了判定を行う特徴抽出部学習終了判定手段と、前記統合特徴分類部の学習終了判定を行う学習終了判定手段と、を備え、学習データを用いて少なくとも前記特徴抽出部と前記統合特徴分類部の学習を行い、前記特徴抽出部と前記統合特徴分類部の学習終了時期を個別に制御することを特徴とする。
また、前記学習装置は、前記特徴抽出部学習終了判定手段が、検証データに対する前記単一特徴分類部の出力と正解データとに基づいて、前記特徴抽出部の学習終了を判定することが望ましい。
また、前記学習装置は、前記学習終了判定手段が、前記特徴抽出部の学習終了後に、検証データに対する前記統合特徴分類部の出力と正解データとに基づいて、前記統合特徴分類部の学習終了を判定することが望ましい。
また、前記学習装置は、前記特徴抽出部、前記単一特徴分類部、及び前記統合特徴分類部を、ニューラルネットワークを用いて構成することが望ましい。
また、本発明の情報分類装置は、学習装置の前記単一特徴分類部、前記特徴抽出部学習終了判定手段、及び前記学習終了判定手段の機能を、学習終了後に停止させて構成したことを特徴とする。
上記課題を解決するために本発明に係る情報分類装置は、マルチモーダル情報を分類する情報分類装置であって、複数のモーダリティデータをベクトル化するベクトル化部と、ベクトル化された各モーダリティデータから特徴ベクトルを生成する特徴抽出部と、複数の前記特徴ベクトルから統合特徴ベクトルを生成する特徴統合部と、前記統合特徴ベクトルに基づいて分類結果を出力する統合特徴分類部と、を備え、前記特徴抽出部と前記統合特徴分類部は、過学習が防止された最適な学習済みモデルに個別に調整されていることを特徴とする。
また、前記情報分類装置は、前記統合特徴分類部のモデルが、前記特徴抽出部の学習済みモデルを前提として、学習により最適化されたモデルであることが望ましい。
上記課題を解決するために本発明に係るプログラムは、コンピュータを、前記学習装置として機能させることを特徴とする。
上記課題を解決するために本発明に係るプログラムは、コンピュータを、前記情報分類装置として機能させることを特徴とする。
本発明の学習装置及びプログラムによれば、モーダリティごとに最適なタイミングで学習を終了することができ、特定のモーダリティのモデルの過学習による精度低下を防ぎ、モーダリティ統合による効果を十分に活かすことができる。
また、本発明の情報分類装置及びプログラムによれば、複数のモーダリティを統合することによる精度向上の効果を最大限活用でき、マルチモーダルな情報を正確に分類することができる。
以下、本発明の実施の形態について、図を参照して説明する。
(実施の形態1)
図1に、本発明の学習装置のブロック図の一例を示す。図1は、情報分類装置のモデル(情報分類モデル)を構築するためのマルチモーダル機械学習を行う学習装置である。
図1に、本発明の学習装置のブロック図の一例を示す。図1は、情報分類装置のモデル(情報分類モデル)を構築するためのマルチモーダル機械学習を行う学習装置である。
学習装置100は、情報分類装置を構成するベクトル化部11,12、特徴抽出部21,22、特徴統合部30、及び統合特徴分類部40に加えて、単一特徴分類部61,62と、学習終了判定手段50〜52とを備えている。図6の従来の学習装置と比較すると、単一特徴分類部61,62と学習終了判定手段51,52が追加されている。図1では、複数の表現(モーダリティ)として、テキストと画像(RGB画像)を例示しているが、更に、音声、動画像、デプス画像等、多数の様々なモーダリティに対応してもよい。この学習装置100は、全体を一つのコンピュータとプログラムにより構成することができる。なお、必要に応じて、学習終了判定手段50〜52は、別のコンピュータで構成してもよい。以下、各構成について説明する。
学習時には、学習装置100に学習データが入力される。学習データには、複数のモーダリティを一組としたデータ(マルチモーダルデータ)を用いる。例えば、1つのデータがM個のモーダリティを持つとする(図1では、M=2)。なお、学習のための各データには、情報の種別を示す正解ラベル(正解データ)が付与されている。
本実施形態では、映画のポスターとプロット(あらすじ)から、映画のジャンルを分類する情報分類モデルを例として説明する。ある映画を一つのデータとし、データは、プロットのテキストデータと、ポスターの画像データを持つ。また、正解ラベルとして、ドラマ、コメディ、ロマンス等の映画ジャンルが付与されている。
ベクトル化部11,12は、学習データの各モーダリティ(モーダリティデータと言うことがある。)の入力をベクトル化し、学習モデルに入力可能な形式に変換する。M個のモーダリティから、M個のベクトルV1、V2、・・・、VMが生成される。ベクトル化は、入力する情報の種類に合わせて公知の手法を用いることができる。なお、ベクトル化部11,12は、各モーダリティデータを学習モデルに入力するための前処理を行うブロックであるから、学習装置(又は情報分類装置)と分離された前処理手段として構成されてもよい。
図1のベクトル化部11は、テキストデータを学習モデルに入力可能なベクトルV1に変換し、特徴抽出部21に出力する。例えば、テキスト(文)を単語に分割し、分割された単語から文単位の分散表現ベクトルを生成する。若しくは、単語にIDを割り当てたone−hotベクトルの系列を用いることができる。
テキストデータのベクトル化の例を示す。まず、次のように、テキストデータを単語に分割する(単語の区切りを/で示す)。
「A documentary which examines …」
⇒ 「A/documentary/which/examines/…」
「A documentary which examines …」
⇒ 「A/documentary/which/examines/…」
そして、分割された単語を分散表現ベクトルに変換し、更に文単位の分散表現ベクトルを生成する。なお、分散表現ベクトルは、意味が近い単語を近いベクトルに対応させて、単語を有限の高次元(例えば、300次元)の数値ベクトルで表現したものである。分散表現ベクトルは、例えば、word2vecやGloVe(Global Vectors for Word Representation)等の一般的な手法により生成することができる。
表1に示すように、まず、各単語をn次元の分散表現ベクトルに変換する。次いで、全単語の分散表現ベクトルの合計(全単語合計)を求める。この分散表現ベクトルの合計を単語数で割ったもの(全単語合計/単語数)を、文単位単語分散表現ベクトル(テキストデータ全体を表すベクトルV1)とすることができる。なお、このベクトル化手法は一例であり、他の手法でテキストデータのベクトル化を行ってもよい。
ベクトル化部12は、画像データを学習モデルに入力可能な形式であるベクトルV2に変換し、特徴抽出部22に出力する。例えば、画像データの場合は、単に画素値を並べてベクトルとすることができる。又は、画像中の特徴点(被写体の角、弧、十字等の特徴的な点)の出現頻度を算出し、これらを数値として並べてベクトルとしてもよい。若しくは、画像データを学習済みの画像分類モデルに入力し、中間層の出力を用いることができる。
特徴抽出部21,22は、それぞれ特徴抽出モデルを備えており、M個のモーダリティのベクトルV1、V2、・・・、VMから、M個の特徴ベクトルVf1、Vf2、・・・、VfMを生成する。特徴抽出部には、ニューラルネットワークの全結合層や畳み込み層を用いることができる。入力が系列データの場合はLSTM(Long short-term memory)やGRU(Gated Recurrent Unit)といった再起型ニューラルネットワークを用いることが望ましい。系列データの例としては、例えば、音声、動画像等であり、文章データを系列データとして取り扱う場合もある。なお、特徴抽出モデルはニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。
図1の実施形態において、特徴抽出部21はテキストデータのベクトルV1を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルVf1を出力し、単一特徴分類部61と特徴統合部30に出力する。同様に、特徴抽出部22は、画像データのベクトルV2を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルVf2を出力し、単一特徴分類部62と特徴統合部30に出力する。
特徴統合部30は、特徴ベクトルVf1、Vf2、・・・、VfMを統合して一つのベクトル(統合特徴ベクトル)Vを生成する。ベクトルの統合方法は、ベクトルの結合、要素ごとの和、要素ごとの積等、一般的な計算処理を用いてもよい。若しくは学習可能なパラメータを持つモデルを用いた公知の手法であるGMU(Gated Multimodal Unit)、CentralNet等(非特許文献1,2を参照)を用いることができる。本実施形態では、特徴統合部30に学習可能なモデルを用い、学習データで学習を行うものとして説明する。
図1では、特徴統合部30は、テキストデータの特徴ベクトルVf1と画像データの特徴ベクトルVf2が入力され、これらを統合して、統合特徴ベクトルVを統合特徴分類部40へ出力する。
統合特徴分類部40は、統合特徴ベクトルVに基づいて、分類結果を出力する。統合特徴分類部40は、例えば、順伝搬ニューラルネットワーク(FFNN:Feed Forward Neural Network)を適用して構成する。図1の実施形態では、統合特徴分類部40は、映画のプロットの特徴(Vf1)とポスターの特徴(Vf2)を統合した統合特徴ベクトルVを入力とし、映画のジャンルを分類結果として出力する。
単一特徴分類部61,62は、それぞれ単一のモーダリティの特徴ベクトルVf1、Vf2、・・・、VfMが入力され、それぞれのモーダリティに対応した分類結果を出力する。単一特徴分類部61,62は、例えば、順伝搬ニューラルネットワーク(FFNN)を適用して構成する。なお、統合特徴分類部40及び単一特徴分類部61,62のモデルはニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。
図1の実施形態では、単一特徴分類部61は、テキストデータ(映画のプロット)の特徴ベクトルVf1を入力とし、プロットに基づく映画のジャンルを分類結果Tとして出力する。また、単一特徴分類部62は、画像データ(映画のポスター)の特徴ベクトルVf2を入力とし、ポスターに基づく映画のジャンルを分類結果Pとして出力する。
図2に、単一特徴分類部61,62と統合特徴分類部40の構成について一例を示す。前述のとおり、単一特徴分類部61,62には、それぞれ単一のモーダリティの特徴ベクトルVf1、Vf2が入力され、また、特徴統合部30で各モーダリティの特徴を統合した統合特徴ベクトルVが統合特徴分類部40に入力される。
単一特徴分類部61,62及び統合特徴分類部40は、例えば、順伝搬ニューラルネットワーク(FFNN)を適用して構成され、特徴ベクトルが入力される入力層と、入力を重みパラメータ及び活性化関数等で処理する中間層と、中間層の処理の結果から得られる映画のジャンルに対応する出力層とを備える。なお、中間層は一層に限られず、複数層であってもよい。また、出力層には、入力した映画が対応するジャンルである確率値(スコア)が出力される。
なお、統合特徴分類部40は、学習終了後に、情報分類装置の統合特徴分類部40として機能するブロックであるが、単一特徴分類部61,62は、情報分類装置の学習時にのみ機能するブロックであり、情報分類装置としては機能しない。
図1に戻って、学習装置100は、更に学習終了判定手段50,51,52を備えている。
学習装置100は、学習モードにおいては、統合特徴分類部40から出力された学習データによる分類結果を正解ラベルと比較して正解データに基づくフィードバックを行い、統合特徴分類部40、特徴統合部30、及び特徴抽出部21,22の学習(モデルの調整)を行う。また、単一特徴分類部61から出力されたテキストデータ(学習データ)による分類結果Tを学習データの正解ラベル(各モーダリティの正解ラベルとデータの正解ラベルは共通)と比較し、単一特徴分類部61及び特徴抽出部21に対して正解データに基づくフィードバックを行い、特徴抽出部21及び単一特徴分類部61の学習(モデルの調整)を行う。同様に、単一特徴分類部62から出力された画像データ(学習データ)による分類結果Pを学習データの正解ラベルと比較し、単一特徴分類部62及び特徴抽出部22に対して正解データに基づくフィードバックを行い、特徴抽出部22及び単一特徴分類部62の学習(モデルの調整)を行う。
なお、全体の分類結果に基づく特徴抽出部21,22の学習と、分類結果T又は分類結果Pに基づく特徴抽出部21,22の学習は、一方を他方に優先させて学習を行うことができる。例えば、特徴抽出部21,22の学習は、単一モーダリティによる分類結果に基づいて行い、全体の分類結果による学習は、特徴統合部30と統合特徴分類部40の学習に利用するように構成してもよい。
学習終了判定手段51は、検証データの分類結果Tと正解データから、単一特徴分類部61及び特徴抽出部21の学習状態を把握し(過学習の発生を検知し)、学習終了の判定を行う。すなわち、学習終了判定手段51は、特徴抽出部21の学習の終了を決定し、特徴抽出部21の学習終了(最善のモデル)の決定後は、特徴抽出部21がそれ以上の学習を受け付けないようにする。学習終了判定手段51により、特徴抽出部21は個別に学習プロセスが制御され、独自の最適な学習回数による学習が行われる。
同様に、学習終了判定手段52は、検証データの分類結果Pと正解データから、単一特徴分類部62及び特徴抽出部22の学習状態を把握し(過学習の発生を検知し)、学習終了の判定を行う。すなわち、学習終了判定手段52は、特徴抽出部22の学習の終了を決定し、特徴抽出部22の学習終了(最善のモデル)の決定後は、特徴抽出部22がそれ以上の学習を受け付けないようにする。学習終了判定手段52により、特徴抽出部22は個別に学習プロセスが制御され、独自の最適な学習回数による学習が行われる。学習終了判定手段51,52は、特徴抽出部学習終了判定手段ということができる。
学習終了判定手段50は、検証データの分類結果と正解データから統合特徴分類部40の出力精度を求め、学習装置100全体の学習終了の判定を行う。学習終了判定手段50は、特徴抽出部21,22の学習終了後に、特徴統合部30及び統合特徴分類部40からなる学習ブロック42の学習の終了を判定する。
なお、図1では、学習終了判定手段50,51,52をそれぞれ独立の処理部として図示したが、各学習終了判定手段のアルゴリズムは共通であるから、学習終了判定手段50,51,52を一体化して、共通の学習終了判定手段としてもよい。
本発明は、各表現(モーダリティ)の特徴ベクトルをそれぞれ単一特徴分類部61,62に入力し、その分類結果を正解データと比較することで、モーダリティデータの種類ごとに、特徴抽出部21,22の学習及び学習終了判定をするようにしている。モーダリティごとに学習を終了するタイミング(学習終了時期)を最適に制御することで、特定のモーダリティの特徴抽出部の過学習による分類モデルの精度低下を防ぐことができる。
図3に、本発明の学習装置100の学習アルゴリズムの例をフローチャートで示す。以下、各ステップについて説明する。
ステップS11:学習装置100に対して、学習データの画像及びテキストを入力する。ここでは、図1の学習装置100に対応させて、モーダリティとして画像とテキストを例示しているが、装置に応じて、更に、音声や動画等、様々なモーダリティデータを入力してもよい。
ステップS12:入力された学習データにより、学習を実行する。具体的には、学習データによる分類結果と正解ラベルとを比較し、その結果に基づいて、特徴抽出部21,22、特徴統合部30、単一特徴分類部61,62、及び統合特徴分類部40のモデルの調整を行う。
ステップS13:学習データによる学習後に、学習終了判定を行うタイミングか判断する。学習終了判定を行うタイミングは予め設定しておき、例えば、全ての学習データを1回ずつ学習に用いたタイミング(エポック終了時)と設定することができる。すなわち、1エポックの学習が終了したら学習終了判定を行うこととする。学習終了判定を行うタイミングに達していない場合は、ステップS11に戻る。タイミングに達した場合は、次のステップS14に進む。
ステップS14:学習終了判定手段により、学習装置100の学習を終了するかの判定を行う。判定処理については、後に詳述するが、まず、検証データにより単一特徴分類部61,62の結果を評価し、学習終了条件を満たした場合に、特徴抽出部21,22の学習を終了する。そして、全てのモーダリティの特徴抽出部の学習が終了したのち、統合特徴分類部40の評価結果を参照し、学習終了条件を満たした場合に、特徴統合部30及び統合特徴分類部40の学習を終了する。いずれかのブロックが学習終了条件を満たしていない場合は、ステップS11に戻る。全ての学習終了条件を満たした場合は、次のステップS15に進む。
ステップS15:学習済みのモデル(ここでは、情報分類装置のモデル)を出力又は保存する。
以上のステップを経て、学習アルゴリズムのフローチャートを終了する。
次に、学習終了判定手段の処理(図3のステップS14)について詳述する。図4に、学習終了判定手段による学習終了判定アルゴリズムの例をフローチャートで示す。各ステップについて説明する。
ステップS21:学習装置100に対して、検証データのテキスト及び画像を入力する。なお、ここでは、図1の学習装置100に対応させて、モーダリティとしてテキストと画像を例示しているが、装置に応じて、更に、音声や動画等、様々なモーダリティデータを入力してもよい。
ステップS22:全ての特徴抽出部21,22(及び単一特徴分類部61,62)の学習が終了しているか否か判断する。全特徴抽出部の学習が終了していない場合は、次のステップS23に進む。学習が終了している場合はステップS32に進む。
ステップS23:学習が終了していない特徴抽出部に関連する単一特徴分類部の出力の精度を計算・記録する。検証データの分類結果(T,P)及び正解データから、検証データに関する精度を求めることができる。精度として、分類結果と正解データの違いを表すロス関数の値や、分類結果の正解率などを用いることができる。その後、ステップS24に進む。
ステップS24:保存されているモデルに基づく出力の精度と比較して、現在のモデルによる出力の精度が改善したか判断する。改善した場合は次のステップS25に進み、改善しない場合はステップS27に進む。
ステップS25:現在のモデルを保存し、ステップS26に進む。
ステップS26:学習装置100の学習を再開する。すなわち、図3のフローチャートの開始に戻る。
ステップS27:(精度の改善がない場合)単一特徴分類部の学習終了条件を満たすか判断する。学習終了条件としては、例えば「予め決めた期間(例えば、10エポック)精度が改善しない」等と設定することができる。学習終了条件を満たさない場合は、ステップS31に進む。学習終了条件を満たす場合は、次のステップS28に進む。
ステップS28:学習終了条件を満たした特徴抽出部に対応する単一特徴分類部の出力の精度が最善のモデルを読み込む。次いで、ステップS29を行う。
ステップS29:読み込んだモデルが記録された時点よりも後に記録されたモデル及び分類結果の精度を破棄する。次いで、ステップS30を行う。
ステップS30:学習終了条件を満たした特徴抽出部の学習を終了する。若しくは、学習を直ちに終了する代わりに学習率を小さくする(例えば前の学習率に1/10を掛ける)ことを行ってもよい。この場合、所定の回数、学習率を小さくして学習した後に、学習終了条件を満たすか判断(S27)をする。特徴抽出部の学習を終了後、ステップS31に進む。
なお、ここで学習率とは、ニューラルネットワークのパラメータ(重み)を学習により更新する際の更新の幅を設定する係数に相当する。例えば、学習データによる出力データと正解データとの誤差関数fの傾き(∂f/∂x)に学習率(ε)を乗じた値を現在の変数(重み値)xiから減じて、新たな変数xi+1を算出する。こうしてパラメータ(重み)を最適な値に調整する。学習率を0にすることが学習の終了に相当する。
ステップS31:学習装置100の学習を再開する。すなわち、図3のフローチャートの開始に戻る。
ステップS32:統合特徴分類部40の出力の精度を計算・記録する。ステップS23と同様に、精度として、分類結果と正解データの違いを表すロス関数の値や、分類結果の正解率などを用いることができる。その後、ステップS33に進む。
ステップS33:保存されているモデルに基づく出力精度と比較して、現在の統合特徴分類部のモデルによる出力精度が改善したか判断する。改善した場合は次のステップS34に進み、改善しない場合はステップS36に進む。
ステップS34:現在のモデルを保存し、ステップS35に進む。
ステップS35:学習装置100の学習を再開する。すなわち、図3のフローチャートの開始に戻る。
ステップS36:統合特徴分類部の学習終了条件を満たすか判断する。ステップS27と同様に、学習終了条件としては、例えば「予め決めた期間(例えば、10エポック)精度が改善しない」等と設定することができる。学習終了条件を満たさない場合は、ステップS35に進む。学習終了条件を満たす場合は、次のステップS37に進む。
ステップS37:統合特徴分類部の出力の精度が最善のモデルを保存して、学習を終了する。なお、学習を直ちに終了する代わりに学習率を小さくする(例えば前の学習率に1/10を掛ける)ことを行ってもよい。この場合、所定の回数学習率を小さくして学習した後、学習終了条件を満たすか判断(S36)し、その後、統合特徴分類部の出力の精度が最善のモデルを保存して、学習を終了する。
以上で学習終了判定手段の動作を終了する。この後は、図3のフローチャートのステップS15に進み、最適なモデルを出力又は保存する。
(実施の形態2)
次に、本発明の情報分類装置について説明する。図5に、本発明の情報分類装置のブロック図の一例を示す。
次に、本発明の情報分類装置について説明する。図5に、本発明の情報分類装置のブロック図の一例を示す。
情報分類装置200は、第1から第MのM種類のモーダリティデータからなるデータが入力され、このデータの種別を判定し、分類結果を出力する。情報分類装置200は、第1ベクトル化部11,第2ベクトル化部12,〜第Mベクトル化部13,第1特徴抽出部21,第2特徴抽出部22,〜第M特徴抽出部23、特徴統合部30、及び統合特徴分類部40を備える。この情報分類装置200は、全体を一つのコンピュータとプログラムにより構成することができる。
本発明の情報分類装置200は、図1の学習装置100の学習終了後に、単一特徴分類部61,62と学習終了判定手段50,51,52を削除(又は、機能を停止)させたものとして構成することができる。若しくは、第1特徴抽出部21,第2特徴抽出部22,〜第M特徴抽出部23、特徴統合部30、及び統合特徴分類部40に対して、図1の学習装置100で学習を行った各部の学習済みモデルをそれぞれ反映した装置として構成することができる。
第1ベクトル化部11は、第1モーダリティデータを学習モデルに入力可能なベクトルV1に変換し、第1特徴抽出部21に出力する。第1モーダリティデータは、例えばテキストデータとすることができる。また、第2ベクトル化部12は、第2モーダリティデータを学習モデルに入力可能なベクトルV2に変換し、第2特徴抽出部22に出力する。第2モーダリティデータは、例えば画像データとすることができる。他のベクトル化部も同様であり、第Mベクトル化部13は、第Mモーダリティデータを学習モデルに入力可能なベクトルVMに変換し、第M特徴抽出部23に出力する。第Mモーダリティデータは、例えば音声データであり、各ベクトル化部はそれぞれ異なるモーダリティのデータを処理する。
M個のモーダリティから、M個のベクトルV1、V2、・・・、VMが生成される。ベクトル化は、入力する情報の種類に合わせて公知の手法を用いることができる。なお、第1〜第Mベクトル化部11〜13は、各モーダリティデータを学習モデルに入力するための前処理を行うブロックであるから、情報分類装置200と分離された前処理手段として構成されてもよい。
第1特徴抽出部21は、第1特徴抽出モデル(図示せず)を備える。第1特徴抽出部21は、第1モーダリティデータ(例えば、テキストデータ)をベクトル化したベクトルV1を第1特徴抽出モデルに入力し、その特徴を示す特徴ベクトルVf1を特徴統合部30へ出力する。第1特徴抽出モデルには、ニューラルネットワークの全結合層や畳み込み層を用いることができ、特徴ベクトルVf1を出力するための最適な学習が行われている。
また、第2特徴抽出部22は、第2特徴抽出モデル(図示せず)を備え、第2モーダリティデータ(例えば、画像データ)をベクトル化したベクトルV2を第2特徴抽出モデルに入力し、その特徴を示す特徴ベクトルVf2を特徴統合部30へ出力する。第2特徴抽出モデルには、ニューラルネットワークの全結合層や畳み込み層を用いることができ、特徴ベクトルVf2を出力するための最適な学習が行われている。他の特徴抽出部も同様であり、第M特徴抽出部23は、第M特徴抽出モデル(図示せず)を備え、第Mモーダリティデータ(例えば、音声データ)をベクトル化したベクトルVMを第M特徴抽出モデルに入力し、その特徴を示す特徴ベクトルVfMを特徴統合部30へ出力する。入力が系列データの場合は、特徴抽出モデルに再起型ニューラルネットワークを用いることができる。なお、各特徴抽出モデルはニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。
M個のモーダリティのベクトルV1、V2、・・・、VMから、M個の特徴ベクトルVf1、Vf2、・・・、VfMが生成される。ここで、各特徴抽出部21〜23の特徴抽出モデルは、図1の学習装置100で学習した学習済みモデルであり、各特徴抽出部の出力した特徴ベクトルVf1、Vf2、・・・、VfMをそれぞれ単一特徴分類部に入力し、その結果得られた分類結果が最も精度の高い結果となるように、それぞれのモーダリティ毎に最適な学習回数(エポック回数)で学習が調整されている。モーダリティごとに学習の終了時期を制御することで、各モーダリティの特徴抽出部の過学習が防止され、それぞれが最適な学習済みモデルとなっている。
特徴統合部30は、特徴ベクトルVf1、Vf2、・・・、VfMを統合して一つのベクトル(統合特徴ベクトル)Vを生成する。ベクトルの統合方法は、ベクトルの結合、要素ごとの和、要素ごとの積、若しくは学習可能なパラメータを持つモデルを用いた公知の手法であるGMU(Gated Multimodal Unit)、CentralNet等を用いることができ、そのモデルは図1の学習装置100により学習済みで最適化されている。
統合特徴分類部40は、統合特徴ベクトルVに基づいて、分類結果を出力する。統合特徴分類部40は、例えば、順伝搬ニューラルネットワーク(FFNN)を適用して構成することができるが、ニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。統合特徴分類部40のモデルは、図1の学習装置100で学習したものであり、全てのモーダリティの特徴抽出部21〜23の学習が終了した後も学習を行い、統合特徴分類部の学習終了条件を満たしたとき、特徴統合部30及び統合特徴分類部40の学習を終了した学習済みモデルである。すなわち、統合特徴分類部40のモデルは、特徴抽出部21〜23の学習済みモデルを前提として、学習により最適化されたモデルである。特徴抽出部と独立して学習の終了時期を制御することで、過学習が防止され、分類精度が高い最適なモデルとなっている。
このように、図5の情報分類装置200は、モーダリティごとの特徴抽出部に最適な、過学習のない学習済みモデルが格納されており、複数のモーダリティを統合することによる精度向上の効果を最大限活用でき、マルチモーダルな情報を正確に分類することができる。
(発明の効果の確認)
本発明の学習装置及び情報分類装置の効果を評価するため、本発明の学習装置で学習した情報分類装置と、従来の学習手法(図6参照)で学習した情報分類装置とにより、実際に分類の実験を行い比較した。両者は、装置のハードウエアは同一であり、モデルの学習過程のみが異なっている。実験条件は、次のとおりである。
本発明の学習装置及び情報分類装置の効果を評価するため、本発明の学習装置で学習した情報分類装置と、従来の学習手法(図6参照)で学習した情報分類装置とにより、実際に分類の実験を行い比較した。両者は、装置のハードウエアは同一であり、モデルの学習過程のみが異なっている。実験条件は、次のとおりである。
データセットとして、マルチモーダルIMDbデータセット25,959件を用いた。IMDb(Internet Movie Database)データセットは多数の映画に関するデータセットであり、各映画のプロット、ポスター、ジャンル、俳優等、様々な情報が含まれている。本実験では、25,959件のデータを次のように区分して利用した。
学習データ・・・データセットのうち15,552件
検証データ・・・データセットのうち 2,608件
評価データ・・・データセットのうち 7,799件
すなわち、学習データを用いて情報分類装置の学習を行い、検証データを用いて学習の終了判定を行い、評価データを用いて学習済み情報分類装置の性能を評価した。
学習データ・・・データセットのうち15,552件
検証データ・・・データセットのうち 2,608件
評価データ・・・データセットのうち 7,799件
すなわち、学習データを用いて情報分類装置の学習を行い、検証データを用いて学習の終了判定を行い、評価データを用いて学習済み情報分類装置の性能を評価した。
装置に入力するモーダリティデータとしては、映画のポスターの画像及び映画のプロットのテキストを入力データとした。また、装置の出力としては、統合特徴分類部40の出力層(図2)において、23のジャンルについて当てはまる確率値を示すスコアを出力とした。
情報分類装置の構成として、特徴統合部30の統合処理は、要素ごとの和、GMU、CentralNetの3パターンを準備し、それぞれの構成で実験を行った。
正誤判定に用いるジャンルの判定は、装置の出力層におけるそれぞれのジャンルのスコアが0.5以上かどうかで判断した。本発明と従来手法を比較するにあたり、適合率(precision)と再現率(recall)の調和平均をとった「F値」を評価値として比較した。
なお、適合率(precision)とは、そのモデルがあるジャンル(例えば、ドラマ)と判定したものの中で、正解が本当にそのジャンル(ドラマ)であったものの割合であり、再現率(recall)とは、正解があるジャンル(例えば、ドラマ)であるもののうち、モデルがそのジャンル(ドラマ)であると判定した割合を意味する。結果として、「F値」は分類の精度を表す指標となり、F値=1が100%正解を意味する。
表2に、実験結果として、本発明と従来手法によるF値の比較を示す。
実験結果によれば、情報分類装置の特徴統合部30の統合処理が、要素ごとの和、GMU、CentralNetの3パターンのいずれの場合も、本発明による分類結果のF値が、従来手法による分類結果のF値を上まわっており、本発明の学習装置による学習効果が優れていることが確認できた。
上記の実施の形態1では、学習装置100の構成と動作について説明したが、本発明はこれに限らず、学習装置100により情報分類装置200の学習を行う学習方法として構成されてもよい。すなわち、図3及び図4に示されるフローチャートの各ステップを備えた学習方法として構成されても良い。
また更に、上記の実施の形態2では、情報分類装置200の構成と動作について説明したが、本発明はこれに限らず、情報分類装置200を用いたマルチモーダルデータの分類方法として構成されてもよい。すなわち、図5のデータの流れに従って、複数のモーダリティデータから特徴ベクトルを生成する工程、統合特徴ベクトルを生成する工程、分類結果を判定する工程を備えた、マルチモーダルデータの分類方法として構成されても良い。
なお、上述した学習装置100又は情報分類装置200として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、学習装置100又は情報分類装置200の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータの中央演算処理装置(CPU)によってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録可能である。
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
11〜13 ベクトル化部
21〜23 特徴抽出部
30 特徴統合部
40 統合特徴分類部
50〜52 学習終了判定手段
100 学習装置
200 情報分類装置
21〜23 特徴抽出部
30 特徴統合部
40 統合特徴分類部
50〜52 学習終了判定手段
100 学習装置
200 情報分類装置
Claims (9)
- マルチモーダル情報を分類する情報分類モデルを生成する学習装置であって、
複数のモーダリティデータをベクトル化するベクトル化部と、
ベクトル化された各モーダリティデータから特徴ベクトルを生成する特徴抽出部と、
複数の前記特徴ベクトルから統合特徴ベクトルを生成する特徴統合部と、
前記統合特徴ベクトルに基づいて分類結果を出力する統合特徴分類部と、
個別の前記特徴ベクトルに基づいて分類結果を出力する単一特徴分類部と、
前記特徴抽出部の学習終了判定を行う特徴抽出部学習終了判定手段と、
前記統合特徴分類部の学習終了判定を行う学習終了判定手段と、を備え、
学習データを用いて少なくとも前記特徴抽出部と前記統合特徴分類部の学習を行い、前記特徴抽出部と前記統合特徴分類部の学習終了時期を個別に制御することを特徴とする、学習装置。 - 請求項1に記載の学習装置において、
前記特徴抽出部学習終了判定手段は、検証データに対する前記単一特徴分類部の出力と正解データとに基づいて、前記特徴抽出部の学習終了を判定することを特徴とする、学習装置。 - 請求項1又は2に記載の学習装置において、
前記学習終了判定手段は、前記特徴抽出部の学習終了後に、検証データに対する前記統合特徴分類部の出力と正解データとに基づいて、前記統合特徴分類部の学習終了を判定することを特徴とする、学習装置。 - 請求項1乃至3のいずれか一項に記載の学習装置において、
前記特徴抽出部、前記単一特徴分類部、及び前記統合特徴分類部を、ニューラルネットワークを用いて構成することを特徴とする、学習装置。 - 請求項1乃至4のいずれか一項に記載の学習装置の前記単一特徴分類部、前記特徴抽出部学習終了判定手段、及び前記学習終了判定手段の機能を、学習終了後に停止させて構成したことを特徴とする、情報分類装置。
- マルチモーダル情報を分類する情報分類装置であって、
複数のモーダリティデータをベクトル化するベクトル化部と、
ベクトル化された各モーダリティデータから特徴ベクトルを生成する特徴抽出部と、
複数の前記特徴ベクトルから統合特徴ベクトルを生成する特徴統合部と、
前記統合特徴ベクトルに基づいて分類結果を出力する統合特徴分類部と、を備え、
前記特徴抽出部と前記統合特徴分類部は、過学習が防止された最適な学習済みモデルに個別に調整されていることを特徴とする、情報分類装置。 - 請求項6に記載の情報分類装置において、
前記統合特徴分類部のモデルは、前記特徴抽出部の学習済みモデルを前提として、学習により最適化されたモデルであることを特徴とする、情報分類装置。 - コンピュータを、請求項1乃至4のいずれか一項に記載の学習装置として機能させる、プログラム。
- コンピュータを、請求項5乃至7のいずれか一項に記載の情報分類装置として機能させる、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019208103A JP2021081930A (ja) | 2019-11-18 | 2019-11-18 | 学習装置、情報分類装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019208103A JP2021081930A (ja) | 2019-11-18 | 2019-11-18 | 学習装置、情報分類装置、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021081930A true JP2021081930A (ja) | 2021-05-27 |
Family
ID=75965259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019208103A Pending JP2021081930A (ja) | 2019-11-18 | 2019-11-18 | 学習装置、情報分類装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021081930A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021128774A (ja) * | 2020-02-14 | 2021-09-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0749945A (ja) * | 1993-08-04 | 1995-02-21 | Mitsubishi Electric Corp | 識別装置 |
WO2017187516A1 (ja) * | 2016-04-26 | 2017-11-02 | 株式会社日立製作所 | 情報処理システムおよびその運用方法 |
WO2018062398A1 (ja) * | 2016-09-30 | 2018-04-05 | 株式会社Uacj | アルミニウム製品の特性予測装置、アルミニウム製品の特性予測方法、制御プログラム、および記録媒体 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
JP2019074947A (ja) * | 2017-10-17 | 2019-05-16 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
US20190147366A1 (en) * | 2017-11-13 | 2019-05-16 | International Business Machines Corporation | Intelligent Recommendations Implemented by Modelling User Profile Through Deep Learning of Multimodal User Data |
JP2019125204A (ja) * | 2018-01-17 | 2019-07-25 | 株式会社東芝 | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク |
-
2019
- 2019-11-18 JP JP2019208103A patent/JP2021081930A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0749945A (ja) * | 1993-08-04 | 1995-02-21 | Mitsubishi Electric Corp | 識別装置 |
WO2017187516A1 (ja) * | 2016-04-26 | 2017-11-02 | 株式会社日立製作所 | 情報処理システムおよびその運用方法 |
WO2018062398A1 (ja) * | 2016-09-30 | 2018-04-05 | 株式会社Uacj | アルミニウム製品の特性予測装置、アルミニウム製品の特性予測方法、制御プログラム、および記録媒体 |
JP2019074947A (ja) * | 2017-10-17 | 2019-05-16 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
US20190147366A1 (en) * | 2017-11-13 | 2019-05-16 | International Business Machines Corporation | Intelligent Recommendations Implemented by Modelling User Profile Through Deep Learning of Multimodal User Data |
JP2019125204A (ja) * | 2018-01-17 | 2019-07-25 | 株式会社東芝 | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021128774A (ja) * | 2020-02-14 | 2021-09-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体 |
JP7142737B2 (ja) | 2020-02-14 | 2022-09-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299396B (zh) | 融合注意力模型的卷积神经网络协同过滤推荐方法及系统 | |
Zhuang et al. | Adabelief optimizer: Adapting stepsizes by the belief in observed gradients | |
Cateni et al. | Variable selection and feature extraction through artificial intelligence techniques | |
EP3295381B1 (en) | Augmenting neural networks with sparsely-accessed external memory | |
CN110084670B (zh) | 一种基于lda-mlp的货架商品组合推荐方法 | |
CN107729999A (zh) | 考虑矩阵相关性的深度神经网络压缩方法 | |
Konar et al. | Comparison of various learning rate scheduling techniques on convolutional neural network | |
CN108921342B (zh) | 一种物流客户流失预测方法、介质和系统 | |
CN111340227A (zh) | 通过强化学习模型对业务预测模型进行压缩的方法和装置 | |
US20190295004A1 (en) | Recommending sequences of content with bootstrapped reinforcement learning | |
US10762329B2 (en) | Inter-object relation recognition apparatus, learned model, recognition method and non-transitory computer readable medium | |
US20220253722A1 (en) | Recommendation system with adaptive thresholds for neighborhood selection | |
KR102129161B1 (ko) | 컨볼루션 신경망의 하이퍼파라미터를 설정하는 방법 및 이를 수행하는 단말 장치 | |
WO2019146189A1 (ja) | ニューラルネットワークのランク最適化装置および最適化方法 | |
KR20220098991A (ko) | 음성 신호에 기반한 감정 인식 장치 및 방법 | |
US20140236869A1 (en) | Interactive variable selection device, interactive variable selection method, and interactive variable selection program | |
Bauer et al. | Exodus: Stable and efficient training of spiking neural networks | |
US20210374545A1 (en) | Method and apparatus of increasing knowledge based on uncertainty in neural networks | |
JPH11510936A (ja) | コンピュータによるファジィルールの最適化方法 | |
Singh et al. | Supervised hierarchical clustering using graph neural networks for speaker diarization | |
JP2021081930A (ja) | 学習装置、情報分類装置、及びプログラム | |
JP7310904B2 (ja) | 学習装置、学習方法、及び、プログラム | |
CN111010595B (zh) | 一种新节目推荐的方法及装置 | |
CN116521908A (zh) | 一种基于人工智能的多媒体内容个性化推荐方法 | |
CN108446718B (zh) | 一种动态深度置信网络分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231003 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240402 |