JP6491262B2 - モデル - Google Patents
モデル Download PDFInfo
- Publication number
- JP6491262B2 JP6491262B2 JP2017102887A JP2017102887A JP6491262B2 JP 6491262 B2 JP6491262 B2 JP 6491262B2 JP 2017102887 A JP2017102887 A JP 2017102887A JP 2017102887 A JP2017102887 A JP 2017102887A JP 6491262 B2 JP6491262 B2 JP 6491262B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- content
- learning
- image
- information providing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 67
- 238000000034 method Methods 0.000 description 40
- 230000008569 process Effects 0.000 description 30
- 238000012545 processing Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 18
- 238000003860 storage Methods 0.000 description 17
- 241000406668 Loxodonta cyclotis Species 0.000 description 15
- 239000000284 extract Substances 0.000 description 10
- 238000004891 communication Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、図1を用いて、学習処理の一例である情報提供装置が実行する学習処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する学習処理の一例を示す図である。図1では、情報提供装置10は、インターネット等の所定のネットワークNを介して、所定のクライアントが使用するデータサーバ50および端末装置100と通信可能である。
ここで、データサーバ50が管理する学習データについて説明する。データサーバ50が管理する学習データは、種別が異なる複数のデータの組であり、例えば、画像や動画像等を含む第1コンテンツと、英語や日本語等の任意の言語で記述された文章を含む第2コンテンツとを組み合わせたデータである。より具体的な例を説明すると、学習データは、任意の撮像対象が撮影された画像と、画像がどのような画像であるか、画像中にどのような撮像対象が撮影されているか、どのような状態を撮影した画像であるか等といった画像の内容を説明する文章、すなわち、画像のキャプションとを対応付けたデータである。
ここで、情報提供装置10は、データサーバ50が管理する学習データを用いて、学習データに含まれる画像とキャプションとの関連性を深層学習させたモデルを生成する学習処理を実行する。すなわち、情報提供装置10は、ニューラルネットワーク等、複数のノードを含む層を複数積み重ねたモデルをあらかじめ生成し、生成したモデルに学習モデルに含まれるコンテンツ同士が有する関係性(例えば、共起性等)を学習させる。このような深層学習を行ったモデルは、例えば、画像を入力した際に、入力された画像を説明するキャプションを出力したり、キャプションを入力した際に、キャプションが示す画像と類似する画像を検索または生成して出力したりすることが出来る。
以下、図1を用いて、情報提供装置10が実行する学習処理の一例を説明する。まず。、情報提供装置10は、データサーバ50から、学習データを収集する(ステップS1)。より具体的には、情報提供装置10は、画像と英文キャプションとを対応付けた学習データ(以下、「第1学習データ」と記載する。)、および、画像と日文キャプションとを対応付けた学習データ(以下、「第2学習データ」と記載する。)を取得する。続いて、情報提供装置10は、第1学習データを用いて、画像と英文キャプションとの関係性を第1モデルに深層学習させる(ステップS2)。以下、情報提供装置10が第1モデルの深層学習を行う処理の一例を説明する。
まず、情報提供装置10が生成する第1モデルM10および第2モデルM20の構成について説明する。例えば、情報提供装置10は、図1に示すような構成を有する第1モデルM10を生成する。具体的には、情報提供装置10は、画像学習モデルL11、画像特徴入力層L12、言語入力層L13、特徴学習モデルL14、および言語出力層L15(以下、「各層L11〜L15」と記載する場合がある。)を有する第1モデルM10を生成する。
ここで、このような構成を有する第1モデルM10は、例えば、画像D11と英文キャプションD12との入力を受付けると、第1コンテンツである画像D11から抽出した特徴と、第2コンテンツである英文キャプションD12の内容とに基づいて、英文キャプションD13を出力する。そこで、情報提供装置10は、英文キャプションD13の内容が、英文キャプションD12の内容と近づくように、第1モデルM10の全体を最適化する学習処理を実行する。この結果、情報提供装置10は、第1モデルM10に対し、第1学習データD10が有する関係性を深層学習させることが出来る。
ここで、第1学習データD10が有する関係性を学習するように第1モデルM10全体の最適化が行われた場合には、画像学習モデルL11や画像特徴入力層L12は、第1モデルM10が画像D11と英文キャプションD12との関係性を精度よく学習できるように、画像D11から特徴を抽出しようとすると考えられる。例えば、画像学習モデルL11や画像特徴入力層L12には、画像D11に含まれる撮像対象と英文キャプションD12に含まれる単語との対応関係の特徴を特徴学習モデルL14が精度よく学習できるようなバイアスが形成されるものと考えられる。
ここで、情報提供装置10が学習した第2モデルM20は、画像D11と日文キャプションD22との共起性を学習しているため、例えば、他の画像のみが入力された際に、入力された画像と共起する日文キャプション、すなわち、入力された画像を示す日文キャプションを自動生成することが出来る。そこで、情報提供装置10は、第2モデルM20を用いて、日文キャプションを自動生成して提供するサービスを実現してもよい。
上述した例では、情報提供装置10は、データサーバ50から収集した第1学習データD10の一部を用いて、第2モデルM20を生成した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、第1学習データD10に含まれる画像D11と英文キャプションD12との関係性を学習済みの第1モデルM10を任意のサーバから取得し、取得した第1モデルM10の一部を用いて、第2モデルM20を生成してもよい。
ここで、上述した説明では、情報提供装置10は、画像と英文または日文のキャプション(文章)との関係性を各モデルに深層学習させた。しかしながら、実施形態は、これに限定されるものではない。すなわち、情報提供装置10は、任意の種別のコンテンツを含む学習データについて上述した学習処理を実行して良い。より具体的には、情報提供装置10は、任意の種別と第1コンテンツと、第1コンテンツとは異なる第2コンテンツとの組である第1学習データD10の関係性を第1モデルM10に深層学習させ、第1モデルM10の一部から第2モデルM20を生成し、第1コンテンツと第2コンテンツとは種別が異なる(例えば、言語が異なる)第3コンテンツとの組である第2学習データD20の関係性を第2モデルM20に学習させるのであれば、任意の種別のコンテンツを適用可能である。
以下、上記した学習処理を実現する情報提供装置10が有する機能構成の一例について説明する。図2は、実施形態に係る情報提供装置の構成例を示す図である。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
次に、図5、図6を用いて、情報提供装置10が第1モデルM10および第2モデルM20の深層学習を行う処理の具体例について説明する。まず、図5を用いて、第1モデルM10の深層学習を行う処理の具体例について説明する。図5は、実施形態に係る情報提供装置が第1モデルの深層学習を行う処理の一例を説明する図である。
上記では、情報提供装置10による学習処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する学習処理のバリエーションについて説明する。
上述した例では、情報提供装置10は、画像D11と言語である英文キャプションD12との関係性を深層学習した第1モデルM10の一部を用いて、第2モデルM20を生成し、英文キャプションD12とは異なる言語の日文キャプションD22と画像D11との関係性を深層学習させた。しかしながら、実施形態は、これに限定されるものではない。
上述した学習処理では、情報提供装置10は、第1モデルM10のうち、画像学習部分を用いて第2モデルM20を生成した。すなわち、情報提供装置10は、第1モデルM10のうち、画像学習部分以外の部分を削除し、新たな部分を付加した第2モデルM20を生成した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、第1モデルM10の一部を削除し、代替となる新たな部分を付加することで、第2モデルM20を生成してもよい。また、情報提供装置10は、第1モデルM10の一部を取り出し、取り出した部分に新たな部分を付加することで、第2モデルM20を生成してもよい。すなわち、情報提供装置10は、第1モデルM10の一部を抽出し、抽出した部分を用いて、第2モデルM20を生成するのであれば、第1モデルM10から一部分を抽出してもよく、第1モデルM10のうち必要のない部分を削除してもよい。このような第1モデルM10の部分的な削除や抽出は、データの取り扱いにおける便宜上の処理であり、同様の効果を得ることが出来るのであれば、任意の処理が適用可能である。
なお、情報提供装置10は、第1モデルM10と第2モデルM20とがどのような出力を行うように最適化を行うかについては、任意の設定を採用して良い。例えば、情報提供装置10は、第2モデルM20が入力された画像に対して質問に応答するような深層学習を行ってもよい。また、情報提供装置10は、第2モデルM20が、入力されたテキストに対して音声で応答を行うような深層学習を行ってもよい。また、情報提供装置10は、味覚センサ等で取得した食品の味を示す値が入力された際に、その食品の味を表現する文章を出力するような深層学習を行ってもよい。
なお、情報提供装置10は、任意の数の端末装置100と通信可能に接続されていてもよく、任意の数のデータサーバ50と通信可能に接続されていてもよい。また、情報提供装置10は、端末装置100と情報のやり取りを行うフロントエンドサーバと、学習処理を実行するバックエンドサーバとにより実現されてもよい。このような場合、フロントエンドサーバには、図2に示す第2モデルデータベース34および情報提供部45が含まれ、バックエンドサーバには、図2に示す第1学習データデータベース31、第2学習データデータベース32、第1モデルデータベース33、収集部41、第1モデル学習部42、第2モデル生成部43、第2モデル学習部44が含まれることとなる。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
次に、図9を用いて、情報提供装置10が実行する学習処理の手順の一例について説明する。図9は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。例えば、情報提供装置10は、第1コンテンツと第2コンテンツとの組を含む第1学習データD10を収集する(ステップS101)。続いて、情報提供装置10は、第1コンテンツと第3コンテンツとの組を含む第2学習データD20を収集する(ステップS102)。また、情報提供装置10は、第1学習データD10を用いて、第1モデルM10の深層学習を行い(ステップS103)、第1モデルM10の一部を用いて、第2モデルM20を生成する(ステップS104)。そして、情報提供装置10は、第2学習データD20を用いて、第2モデルM20の深層学習を行い(ステップS105)、処理を終了する。
また、上述してきた実施形態に係る端末装置100は、例えば図10に示すような構成のコンピュータ1000によって実現される。図10は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述したように、情報提供装置10は、第1コンテンツと、第1コンテンツとは種別が異なる第2コンテンツとの組が有する関係性を深層学習した第1モデルM10の一部を用いて、新たな第2モデルM20を生成する。そして、情報提供装置10は、第2モデルM20に、第1コンテンツと、第2コンテンツとは異なる種別の第3コンテンツとの組が有する関係性を深層学習させる。このため、情報提供装置10は、第2コンテンツと第3コンテンツとの組、すなわち、第2学習データD20の数が少ない場合にも、第2コンテンツと第3コンテンツとの関係性の学習精度の悪化を防ぐことができる。
20 通信部
30 記憶部
31 第1学習データデータベース
32 第2学習データデータベース
33 第1モデルデータベース
34 第2モデルデータベース
40 制御部
41 収集部
42 第1モデル学習部
43 第2モデル生成部
44 第2モデル学習部
45 情報提供部
50 データサーバ
100 端末装置
Claims (4)
- 第1コンテンツが入力されると当該第1コンテンツが有する特徴を出力する第1部分と、当該第1コンテンツとは種別が異なる第2コンテンツが入力されると当該第2コンテンツが有する特徴を出力する第2部分と、前記第1部分の出力と前記第2部分の出力とに基づいて、前記第2コンテンツと同じ種別のコンテンツを出力するための特徴を出力する第3部分とを有し、前記第1コンテンツが前記第1部分に入力され、前記第2コンテンツが前記第2部分に入力された際に、当該第2コンテンツと同じ内容のコンテンツを出力するように、バックプロパゲーションによる深層学習を行うことで、当該第1コンテンツと当該第2コンテンツとの組が有する所定の関係性の深層学習が行われた学習済みニューラルネットワークの前記第1部分と、
前記第2コンテンツと類似する種別の第3コンテンツが入力されると当該第3コンテンツが有する特徴を出力する第4部分と、
前記第1部分の出力と前記第4部分の出力とに基づいて、前記第3コンテンツと同じ種別のコンテンツを出力するための特徴を出力する第5部分と
を有するニューラルネットワークであって、
前記第1コンテンツが前記第1部分に入力され、前記第3コンテンツが前記第4部分に入力された際に、当該第3コンテンツと同じ内容のコンテンツを出力するようにバックプロパゲーションによる深層学習を行うことで、当該第1コンテンツと当該第3コンテンツとの組が有する前記所定の関係性の深層学習が行われ、
前記第1コンテンツと同じ種別の入力コンテンツのみが前記第1部分に入力された際に、前記第3コンテンツと同じ種別のコンテンツであって、当該入力コンテンツと前記所定の関係性を有する出力コンテンツを出力するニューラルネットワークとしてコンピュータを機能させる
ためのモデル。 - 前記モデルは、非言語に関する第1コンテンツと言語に関する第2コンテンツとの組が有する前記所定の関係性を深層学習した学習済みニューラルネットワークの前記第1部分を有し、
前記第1コンテンツと、前記第2コンテンツとは異なる言語に関する第3コンテンツとの組が有する前記所定の関係性の深層学習が行われたニューラルネットワークとしてコンピュータを機能させる
ことを特徴とする請求項1に記載のモデル。 - 前記モデルは、静止画像または動画像に関する第1コンテンツと、文章に関する第2コンテンツとの組が有する前記所定の関係性を深層学習した学習済みニューラルネットワークの前記第1部分を有し、前記第1コンテンツと、当該第1コンテンツの説明を含む文章であって、前記第2コンテンツとは異なる言語の文章を含む第3コンテンツとの組が有する前記所定の関係性の深層学習が行われたニューラルネットワークとしてコンピュータを機能させる
ことを特徴とする請求項2に記載のモデル。 - 前記モデルは、前記第1コンテンツと、所定の言語による当該第1コンテンツのキャプションである第2コンテンツとの組が有する前記所定の関係性を深層学習した学習済みニューラルネットワークの前記第1部分を有し、前記第1コンテンツと、前記所定の言語とは異なる言語による当該第1コンテンツのキャプションである第3コンテンツとの組が有する前記所定の関係性の深層学習が行われたニューラルネットワークとしてコンピュータを機能させる
ことを特徴とする請求項3に記載のモデル。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017102887A JP6491262B2 (ja) | 2017-05-24 | 2017-05-24 | モデル |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017102887A JP6491262B2 (ja) | 2017-05-24 | 2017-05-24 | モデル |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016088493A Division JP6151404B1 (ja) | 2016-04-26 | 2016-04-26 | 学習装置、学習方法および学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017199383A JP2017199383A (ja) | 2017-11-02 |
JP6491262B2 true JP6491262B2 (ja) | 2019-03-27 |
Family
ID=60239452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017102887A Active JP6491262B2 (ja) | 2017-05-24 | 2017-05-24 | モデル |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6491262B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7066385B2 (ja) * | 2017-11-28 | 2022-05-13 | キヤノン株式会社 | 情報処理方法、情報処理装置、情報処理システム及びプログラム |
US10789284B2 (en) * | 2018-04-13 | 2020-09-29 | Fuji Xerox Co., Ltd. | System and method for associating textual summaries with content media |
JP2020052479A (ja) * | 2018-09-25 | 2020-04-02 | 三菱電機株式会社 | 車両用制御装置および車両制御方法 |
JP7056592B2 (ja) * | 2019-01-17 | 2022-04-19 | Jfeスチール株式会社 | 金属材料の製造仕様決定方法、製造方法、および製造仕様決定装置 |
JP2020131248A (ja) * | 2019-02-21 | 2020-08-31 | Jfeスチール株式会社 | 圧延荷重予測方法、圧延荷重予測装置、及び圧延制御方法 |
-
2017
- 2017-05-24 JP JP2017102887A patent/JP6491262B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017199383A (ja) | 2017-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6151404B1 (ja) | 学習装置、学習方法および学習プログラム | |
JP6491262B2 (ja) | モデル | |
EP3964998A1 (en) | Text processing method and model training method and apparatus | |
AU2019201787B2 (en) | Compositing aware image search | |
US20190005399A1 (en) | Learning device, generation device, learning method, generation method, and non-transitory computer readable storage medium | |
US20190251179A1 (en) | Language generation from flow diagrams | |
CN108205581B (zh) | 生成数字媒介环境中的紧凑视频特征表示 | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
US20170039192A1 (en) | Language generation from flow diagrams | |
CN110555208A (zh) | 一种信息查询中的歧义消除方法、装置及电子设备 | |
US10191921B1 (en) | System for expanding image search using attributes and associations | |
CN113901954A (zh) | 一种文档版面的识别方法、装置、电子设备及存储介质 | |
TW201931163A (zh) | 影像搜尋方法、系統和索引建構方法和媒體 | |
CN112883736A (zh) | 医疗实体关系抽取方法和装置 | |
CN114495147B (zh) | 识别方法、装置、设备以及存储介质 | |
JP2022159037A (ja) | ソーシャルメディアコンテンツのリコメンデーション | |
CN113535912A (zh) | 基于图卷积网络和注意力机制的文本关联方法及相关设备 | |
CN110020214B (zh) | 一种融合知识的社交网络流式事件检测系统 | |
JP6680655B2 (ja) | 学習装置および学習方法 | |
JP6997656B2 (ja) | 検索装置、検索方法および検索プログラム | |
El Abdouli et al. | Mining tweets of Moroccan users using the framework Hadoop, NLP, K-means and basemap | |
JP6727097B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7192990B2 (ja) | 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム | |
JP7265837B2 (ja) | 学習装置および学習方法 | |
CN113627466A (zh) | 图像标签识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170815 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20170815 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20170817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171113 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180511 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20180521 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20180622 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6491262 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |