JP7454568B2 - 情報処理方法、情報処理装置及びプログラム - Google Patents
情報処理方法、情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP7454568B2 JP7454568B2 JP2021522683A JP2021522683A JP7454568B2 JP 7454568 B2 JP7454568 B2 JP 7454568B2 JP 2021522683 A JP2021522683 A JP 2021522683A JP 2021522683 A JP2021522683 A JP 2021522683A JP 7454568 B2 JP7454568 B2 JP 7454568B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- sensing data
- input
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 59
- 238000003672 processing method Methods 0.000 title claims description 54
- 238000012549 training Methods 0.000 claims description 88
- 238000000034 method Methods 0.000 claims description 75
- 230000004044 response Effects 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 29
- 238000010801 machine learning Methods 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000006002 Pepper Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Description
本発明者は、「背景技術」の欄において記載した画像認識の手法に関し、以下の問題を見出した。
[1.概要]
図2は、実施の形態に係る情報処理方法の概要を説明するための図であり、1台以上のコンピュータ上に実現される、当該情報処理方法を実行するためのこれらの2つのモデルを含む構成例を示す。本実施の形態に係る情報処理方法は、プロセッサを備える1台以上のコンピュータによって実行される、訓練済みの機械学習の推定モデルを得るための情報処理方法である。この(又はこれらの)コンピュータは、当該情報処理方法を実行するために用いられる2つのモデルが動作するよう構成されている。
図2に加えて図3から図5を参照して、本実施の形態に係る情報処理方法の手順について説明する。以下の説明では、認識処理の対象であるセンシングデータが画像データである場合を例に用いる。
図3は、本実施の形態に係る情報処理方法の手順例を示すフロー図である。コンピュータによって実行される当該情報処理方法の全体の流れは次のとおりである。
ステップS10のVAEの訓練について、図2及び図4を参照してより詳しく説明する。図4は、VAEの訓練方法の手順例を示すフロー図である。
上述の方法で訓練されたVAEのパラメータの保存(S20)及びエンコーダ10のパラメータの読込み(S30)を経て、ステップS40の認識器30の訓練、つまり図2の例における第2モデルの訓練を実行する。認識器30の訓練について、図2及び図5を参照してより詳しく説明する。図5は、認識器30の訓練方法の手順例を示すフロー図である。
このように、訓練された機械学習の推定モデルを得るための方法である本実施の形態に係る情報処理方法には、ノイズを含むセンシングデータの入力に対して、ノイズが低減されたセンシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練(第1訓練)が実行された第1モデルが用いられる。この訓練が実行された第1モデルは、ノイズを含むセンシングデータの入力に対して模擬センシングデータを出力するまでの過程で、このセンシングデータについての特徴データを生成する。
本実施の形態に係る情報処理方法の中で訓練された認識器を用いた認識方法は、上述の訓練済みの機械学習の推定モデルを得るための方法と同じく、プロセッサを備える1台以上のコンピュータによって実行される情報処理方法である。この認識方法の手順は、認識器30の訓練方法の手順から、誤差を用いてのパラメータの更新のステップ(図5のS44)を除いたものにほぼ相当する。図6は、訓練済みの認識器30を用いた画像認識の手順例を示すフロー図である。ステップS50はステップS41に、ステップS60はステップS42に、ステップS70はステップS43に相当する。ただし、ステップS50でエンコーダ10に入力する画像には、ステップS41のようにノイズを含まない画像を含める必要はない。ステップS50でノイズを含む画像の入力を受けたエンコーダ10の出力から、この画像についての特徴データである潜在変数Zが取得される(ステップS60)。ステップS60で取得した潜在変数Zを、次は訓練済みの認識器30に入力すると、認識器30から認識結果、ここまで用いている例に沿えば、ステップS50でエンコーダ10に入力された画像に写る数字の推論による認識が実行された結果が出力される(ステップS70)。
本開示の一又は複数の態様に係る情報処理方法は、上記実施の形態の説明に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が想到する各種の変形を上記実施の形態に施したものも本開示の態様に含まれ得る。下記にそのような変形の例、及び上記実施の形態の説明へのその他の補足事項を挙げる。
本発明者は、ここまでに説明した情報処理方法を用いて得た認識器による認識性能を確認するための実験を行った。図8は、この実験の結果を示す表である。
20,20A デコーダ
30 認識器(第2モデル)
Claims (10)
- コンピュータにより実行される方法であって、
ノイズを含む第1センシングデータを取得し、
ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第1訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第1モデルに前記第1センシングデータを入力し、前記第1センシングデータの入力に対してノイズが低減された前記第1センシングデータを模擬した前記模擬センシングデータである第1模擬センシングデータが出力されるまでの過程で生成された、前記第1センシングデータについての前記特徴データである第1特徴データを取得し、
前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第2訓練が実行される第2モデルに前記第1特徴データを入力し、前記第1特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第1推論結果データを取得し、
前記第1センシングデータに対する推論についてのリファレンスデータ及び前記第1推論結果データに基づいて、前記第2訓練を実行し、
前記第1モデルは、ニューラルネットワークであり、
前記ニューラルネットワークは、複数の層を有するエンコーダとデコーダとを備え、
前記エンコーダは、前記センシングデータの入力に対して、当該センシングデータについての前記特徴データを出力し、
前記デコーダは、前記エンコーダが出力した前記特徴データの入力に対して、前記模擬センシングデータを生成して、前記模擬センシングデータを出力し、
前記エンコーダは、入力されたセンシングデータの平均及び分散を出力する層を有し、
前記特徴データは、前記平均及び前記分散に基づいて算出される潜在変数である
情報処理方法。 - 前記特徴データは、前記第1センシングデータについての平均データ及び分散データである
請求項1に記載の情報処理方法。 - 前記特徴データは、前記第1センシングデータの事前分布に関する潜在変数である
請求項1又は2に記載の情報処理方法。 - 前記第1センシングデータ及び前記第1模擬センシングデータを取得し、
前記第1センシングデータ、前記第1模擬センシングデータ、及び前記第1特徴データに基づいて、前記第1訓練を行う
請求項1~3のいずれか1項に記載の情報処理方法。 - 前記第2訓練の後に、再訓練を実行し、
前記再訓練は、前記第1訓練をさらに実行し、さらに訓練された前記第1モデルが生成した前記特徴データである第2特徴データを取得し、前記第2特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第2推論結果データを取得し、前記第2推論結果データに基づいて前記第2訓練をさらに実行することを含む
請求項4に記載の情報処理方法。 - 前記推論結果データが示す前記第2モデルによる推論結果に対する評価を取得し、
前記評価が所定の基準を満たすまで、前記再訓練を繰り返す
請求項5に記載の情報処理方法。 - 前記センシングデータは、画像データである
請求項1~6のいずれか1項に記載の情報処理方法。 - 情報処理装置であって、
プロセッサと、
プログラムを記憶したメモリとを備え、
前記プログラムは、前記プロセッサに、
ノイズを含む第1センシングデータを取得する処理、
ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第1訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第1モデルに前記第1センシングデータを入力し、前記第1センシングデータの入力に対してノイズが低減された前記第1センシングデータを模擬した前記模擬センシングデータである第1模擬センシングデータが出力されるまでの過程で生成された、前記第1センシングデータについての前記特徴データである第1特徴データを取得する処理、及び、
前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第2訓練が実行される第2モデルに前記第1特徴データを入力し、前記第1特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第1推論結果データを取得する処理を実行させ、
前記第1モデルは、ニューラルネットワークであり、
前記ニューラルネットワークは、複数の層を有するエンコーダとデコーダとを備え、
前記エンコーダは、前記センシングデータの入力に対して、当該センシングデータについての前記特徴データを出力し、
前記デコーダは、前記エンコーダが出力した前記特徴データの入力に対して、前記模擬センシングデータを生成して、前記模擬センシングデータを出力し、
前記エンコーダは、入力されたセンシングデータの平均及び分散を出力する層を有し、
前記特徴データは、前記平均及び前記分散に基づいて算出される潜在変数である
情報処理装置。 - コンピュータにおいて、前記コンピュータが備えるプロセッサによって実行されることで前記プロセッサに、
ノイズを含む第1センシングデータを取得する処理、
ノイズを含むセンシングデータの入力に対して前記ノイズが低減された前記センシングデータを模擬した模擬センシングデータを出力させる機械学習の訓練である第1訓練が実行され、前記センシングデータの入力に対して前記模擬センシングデータが出力されるまでの過程で前記センシングデータについての特徴データを生成する第1モデルへ前記第1センシングデータを入力させて、前記第1センシングデータの入力に対してノイズが低減された前記第1センシングデータを模擬した前記模擬センシングデータである第1模擬センシングデータが出力されるまでの過程で生成された、前記第1センシングデータについての前記特徴データである第1特徴データを取得する処理、及び、
前記特徴データの入力に対して推論結果データを出力させる機械学習の訓練である第1訓練が実行される第2モデルに前記第1特徴データを入力し、前記第1特徴データの入力に対して前記第2モデルが出力する前記推論結果データである第1推論結果データを取得する処理を実行させ、
前記第1モデルは、ニューラルネットワークであり、
前記ニューラルネットワークは、複数の層を有するエンコーダとデコーダとを備え、
前記エンコーダは、前記センシングデータの入力に対して、当該センシングデータについての前記特徴データを出力し、
前記デコーダは、前記エンコーダが出力した前記特徴データの入力に対して、前記模擬センシングデータを生成して、前記模擬センシングデータを出力し、
前記エンコーダは、入力されたセンシングデータの平均及び分散を出力する層を有し、
前記特徴データは、前記平均及び前記分散に基づいて算出される潜在変数である
プログラム。 - 前記デコーダが生成する前記模擬センシングデータの条件を示すラベルが前記エンコーダの最終層及び前記デコーダの最初の層に入力される、
請求項1~7のいずれか1項に記載の情報処理方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962854673P | 2019-05-30 | 2019-05-30 | |
US62/854,673 | 2019-05-30 | ||
JP2019229945 | 2019-12-20 | ||
JP2019229945 | 2019-12-20 | ||
PCT/JP2020/015801 WO2020241074A1 (ja) | 2019-05-30 | 2020-04-08 | 情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020241074A1 JPWO2020241074A1 (ja) | 2020-12-03 |
JP7454568B2 true JP7454568B2 (ja) | 2024-03-22 |
Family
ID=73552325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021522683A Active JP7454568B2 (ja) | 2019-05-30 | 2020-04-08 | 情報処理方法、情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210374541A1 (ja) |
JP (1) | JP7454568B2 (ja) |
WO (1) | WO2020241074A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022153480A1 (ja) * | 2021-01-15 | 2022-07-21 | 日本電気株式会社 | 情報処理装置、情報処理システム、情報処理方法および記録媒体 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018042211A1 (en) | 2016-09-05 | 2018-03-08 | Kheiron Medical Technologies Ltd | Multi-modal medical image processing |
WO2018207334A1 (ja) | 2017-05-12 | 2018-11-15 | 日本電気株式会社 | 画像認識装置、画像認識方法および画像認識プログラム |
JP2018200531A (ja) | 2017-05-26 | 2018-12-20 | 富士通株式会社 | 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム |
-
2020
- 2020-04-08 WO PCT/JP2020/015801 patent/WO2020241074A1/ja active Application Filing
- 2020-04-08 JP JP2021522683A patent/JP7454568B2/ja active Active
-
2021
- 2021-08-17 US US17/404,312 patent/US20210374541A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018042211A1 (en) | 2016-09-05 | 2018-03-08 | Kheiron Medical Technologies Ltd | Multi-modal medical image processing |
WO2018207334A1 (ja) | 2017-05-12 | 2018-11-15 | 日本電気株式会社 | 画像認識装置、画像認識方法および画像認識プログラム |
JP2018200531A (ja) | 2017-05-26 | 2018-12-20 | 富士通株式会社 | 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム |
Non-Patent Citations (1)
Title |
---|
片岡 裕介 ほか,深層学習における敵対的ネットワークを用いた漫画画像の自動カラー化,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM) 2017-CVIM-20,日本,情報処理学会 [オンライン],2017年03月02日,pp.1-6,[検索日 2020.06.08], <URL: https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=178333&fil |
Also Published As
Publication number | Publication date |
---|---|
WO2020241074A1 (ja) | 2020-12-03 |
US20210374541A1 (en) | 2021-12-02 |
JPWO2020241074A1 (ja) | 2020-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019233166A1 (zh) | 一种表面缺陷检测方法、装置及电子设备 | |
CN111080628A (zh) | 图像篡改检测方法、装置、计算机设备和存储介质 | |
WO2021146935A1 (zh) | 图像缺陷确定方法与装置、电子设备及存储介质 | |
CN111368758B (zh) | 一种人脸模糊度检测方法、装置、计算机设备及存储介质 | |
CN110956632B (zh) | 钼靶图像中胸大肌区域自动检测方法及装置 | |
CN114240797B (zh) | 一种oct图像去噪方法、装置、设备及介质 | |
CN110782406B (zh) | 一种基于信息蒸馏网络的图像去噪方法及装置 | |
CN112861785B (zh) | 一种基于实例分割和图像修复的带遮挡行人重识别方法 | |
CN111081266A (zh) | 一种训练生成对抗网络、语音增强方法及系统 | |
CN115631112B (zh) | 一种基于深度学习的建筑轮廓矫正方法及装置 | |
CN110929733A (zh) | 除噪方法、装置、计算机设备、存储介质及模型训练方法 | |
CN114266894A (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
JP7454568B2 (ja) | 情報処理方法、情報処理装置及びプログラム | |
CN113221601A (zh) | 字符识别方法、装置及计算机可读存储介质 | |
CN114444565A (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
CN113282905A (zh) | 一种登录测试方法及装置 | |
CN115358952B (zh) | 一种基于元学习的图像增强方法、系统、设备和存储介质 | |
CN111476741A (zh) | 图像的去噪方法、装置、电子设备和计算机可读介质 | |
CN110728692A (zh) | 一种基于Scharr算子改进的图像边缘检测方法 | |
CN116258873A (zh) | 一种位置信息确定方法、对象识别模型的训练方法及装置 | |
Bae et al. | Fingerprint image denoising and inpainting using convolutional neural network | |
TWI775038B (zh) | 字元識別方法、裝置及電腦可讀取存儲介質 | |
CN113379637A (zh) | 基于递进学习策略的图像修复方法、系统、介质及设备 | |
CN114648751A (zh) | 一种处理视频字幕的方法、装置、终端及存储介质 | |
Yousaf et al. | Closed-loop restoration approach to blurry images based on machine learning and feedback optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240311 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7454568 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |