JP7233555B2 - 画像認識方法、認識モデルのトレーニング方法及びその装置、並びにコンピュータプログラム - Google Patents
画像認識方法、認識モデルのトレーニング方法及びその装置、並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP7233555B2 JP7233555B2 JP2021547115A JP2021547115A JP7233555B2 JP 7233555 B2 JP7233555 B2 JP 7233555B2 JP 2021547115 A JP2021547115 A JP 2021547115A JP 2021547115 A JP2021547115 A JP 2021547115A JP 7233555 B2 JP7233555 B2 JP 7233555B2
- Authority
- JP
- Japan
- Prior art keywords
- target
- recognition model
- image
- recognition
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 219
- 238000000034 method Methods 0.000 title claims description 106
- 238000004590 computer program Methods 0.000 title claims description 21
- 230000006870 function Effects 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 3
- 230000001149 cognitive effect Effects 0.000 claims 1
- 201000010099 disease Diseases 0.000 description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 7
- 206010008111 Cerebral haemorrhage Diseases 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000002595 magnetic resonance imaging Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 206010002329 Aneurysm Diseases 0.000 description 3
- 208000022211 Arteriovenous Malformations Diseases 0.000 description 3
- 206010020772 Hypertension Diseases 0.000 description 3
- 208000009433 Moyamoya Disease Diseases 0.000 description 3
- 230000005744 arteriovenous malformation Effects 0.000 description 3
- 238000002591 computed tomography Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002059 diagnostic imaging Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 208000003174 Brain Neoplasms Diseases 0.000 description 1
- 208000014644 Brain disease Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 201000007983 brain glioma Diseases 0.000 description 1
- JXSJBGJIGXNWCI-UHFFFAOYSA-N diethyl 2-[(dimethoxyphosphorothioyl)thio]succinate Chemical compound CCOC(=O)CC(SP(=S)(OC)OC)C(=O)OCC JXSJBGJIGXNWCI-UHFFFAOYSA-N 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Image Analysis (AREA)
Description
認識対象となる目標三次元画像を取得するステップと、
前記認識対象となる目標三次元画像を第一の認識モデルに入力するステップと、
前記第一の認識モデルによって出力された前記目標三次元画像のタイプを取得するステップと、を含み、
前記第一の認識モデルは、前記目標三次元画像を認識して、前記目標三次元画像の画像タイプを取得するために使用され、
前記第一の認識モデルの畳み込みブロックは、第二の認識モデルの畳み込みブロックと同じであり、前記第一の認識モデルの畳み込みブロックは、前記目標三次元画像に対して前記認識を実行するために使用され、
前記第二の認識モデルは、目標トレーニングサンプルを使用して元の認識モデルをトレーニングすることにより取得されたモデルであり、
前記目標トレーニングサンプルは、三次元サンプル画像から取得されたN(Nは1より大きい自然数である)個の目標立方体を回転及びソートすることにより取得された立方体を含む。
認識対象となる目標三次元画像を取得するステップと、
前記認識対象となる目標三次元画像を第一の認識モデルに入力するステップと、
前記第一の認識モデルによって出力された前記目標三次元画像のタイプを取得するステップと、を含み、
前記第一の認識モデルは、前記目標三次元画像を認識して、前記目標三次元画像の画像タイプを取得するために使用され、
前記第一の認識モデルの畳み込みブロックは、第二の認識モデルの畳み込みブロックと同じであり、前記第一の認識モデルの畳み込みブロックは、前記目標三次元画像に対して前記認識を実行するために使用され、
前記第二の認識モデルは、目標トレーニングサンプルを使用して元の認識モデルをトレーニングすることにより取得されたモデルであり、
前記目標トレーニングサンプルは、三次元サンプル画像から取得されたN(Nは1より大きい自然数である)個の目標立方体を回転及びソートすることにより取得された立方体を含む。
三次元サンプル画像を取得し、前記三次元サンプル画像からN(Nは1より大きい自然数である)個の目標立方体を分割するステップと、
前記N個の目標立方体を回転及びソートして、目標トレーニングサンプルを取得するステップと、
前記目標トレーニングサンプルを使用して元の認識モデルをトレーニングすることにより、第二の認識モデルを取得するステップと、を含み、
ここで、前記第二の認識モデルの畳み込みブロックは、第一の認識モデルの畳み込みブロックと同じであり、前記第二の認識モデルの畳み込みブロックは、前記第一の認識モデルが目標三次元画像に対して前記認識を実行して、前記目標三次元画像のタイプを取得するために使用される。
三次元サンプル画像を取得し、前記三次元サンプル画像からN(Nは1より大きい自然数である)個の目標立方体を分割するステップと、
前記N個の目標立方体を回転及びソートして、目標トレーニングサンプルを取得し、前記目標トレーニングサンプルを使用して元の認識モデルをトレーニングすることにより、第二の認識モデルを取得するステップと、を含み、
ここで、前記第二の認識モデルの畳み込みブロックは、第一の認識モデルの畳み込みブロックと同じであり、前記第二の認識モデルの畳み込みブロックは、前記第一の認識モデルが目標三次元画像に対して前記認識を実行して、前記目標三次元画像のタイプを取得するために使用される。
認識対象となる目標三次元画像を取得するように構成される第一の取得ユニットと、前記目標三次元画像を第一の認識モデルに入力するように構成される第一の入力ユニットと、
前記第一の認識モデルによって出力された前記目標三次元画像のタイプを取得するように構成される第二の取得ユニットと、を備え、
前記第一の認識モデルは、前記目標三次元画像を認識して、前記目標三次元画像の画像タイプを取得するために使用され、
前記第一の認識モデルの畳み込みブロックは、第二の認識モデルの畳み込みブロックと同じであり、前記第一の認識モデルの畳み込みブロックは、前記目標三次元画像に対して前記認識を実行するために使用され、
前記第二の認識モデルは、目標トレーニングサンプルを使用して元の認識モデルをトレーニングすることにより取得されたモデルであり、
前記目標トレーニングサンプルは、三次元サンプル画像から取得されたN(Nは1より大きい自然数である)個の目標立方体を回転及びソートすることにより取得された立方体を含む。
三次元サンプル画像を取得し、前記三次元サンプル画像からN(Nは1より大きい自然数である)個の目標立方体を分割するように構成される分割ユニットと、
前記N個の目標立方体を回転及びソートして、目標トレーニングサンプルを取得するように構成される処理ユニットと、
前記目標トレーニングサンプルを使用して元の認識モデルをトレーニングすることにより、第二の認識モデルを取得するように構成されるトレーニングユニットと、を備え、
ここで、前記第二の認識モデルの畳み込みブロックは、第一の認識モデルの畳み込みブロックと同じであり、前記第二の認識モデルの畳み込みブロックは、前記第一の認識モデルが目標三次元画像に対して前記認識を実行して、前記目標三次元画像のタイプを取得するために使用される。
第一の認識モデルの畳み込みブロックは、第二の認識モデルの畳み込みブロックと同じであり、前記第一の認識モデルの畳み込みブロックは、前記目標三次元画像に対して前記認識を実行するために使用され、
第二の認識モデルは、目標トレーニングサンプルを使用して元の認識モデルをトレーニングすることにより取得されたモデルであり、目標トレーニングサンプルは、3Dサンプル画像から取得されたN(Nは1より大きい自然数である)個の目標立方体を回転及びソートすることにより取得された立方体を含む。
前記目標トレーニングサンプルを前記元の認識モデルに入力して、前記元の認識モデルをトレーニングすることにより、前記第二の認識モデルを取得することを更に含み得る。
認識対象となる目標3D画像を取得するように構成される第一の取得ユニット1102と、
前記認識対象となる目標3D画像を第一の認識モデルに入力するように構成される第一の入力ユニット1104であって、
前記第一の認識モデルは、前記認識対象となる目標3D画像を認識して、前記認識対象となる目標3D画像の画像タイプを取得するために使用され、
前記第一の認識モデルの畳み込みブロックは、第二の認識モデルの畳み込みブロックと同じであり、前記第一の認識モデルの畳み込みブロックは、前記目標三次元画像に対して前記認識を実行するために使用され、
前記第二の認識モデルは、目標トレーニングサンプルを使用して元の認識モデルをトレーニングすることにより取得されたモデルであり、
前記目標トレーニングサンプルは、3Dサンプル画像から取得されたN(Nは1より大きい自然数である)個の目標立方体を回転及びソートすることにより取得された立方体を含む、第一の入力ユニットと、
前記第一の認識モデルによって出力された前記認識対象となる目標3D画像の第一のタイプを取得するように構成される第二の取得ユニット1106と、を備える。
前記認識対象となる目標3D画像を取得する前に、前記目標3Dサンプル画像を取得するように構成される第三の取得ユニットと、
前記3Dサンプル画像から元の立方体を決定するように構成される第一の決定ユニットと、
前記元の立方体を前記N個の目標立方体に分割するように構成される分割ユニットと、を備える。
隣接する2つの前記目標立方体の間の間隔がM(Mは、0より大きい且つJ-1より小さい正の整数である)ボクセルになるように維持し、前記元の立方体から前記N個の目標立方体を分割するように構成される分割モジュールを備え、前記Jは、前記目標立方体の辺長さである。
前記認識対象となる目標3D画像を取得する前に、前記N個の目標立方体から第一の目標立方体を決定するように構成される第二の決定ユニットと、
前記第一の目標立方体を第一の角度回転するように構成される回転ユニットと、
前記N個の目標立方体のうち、前記第一の角度回転した後の前記第一の目標サンプル立方体及び他の目標立方体をソートして、前記目標トレーニングサンプルを取得するように構成されるソートユニットと、を備える。
前記将前記N個の目標立方体のうち、前記第一の角度回転した後の前記第一の目標サンプル立方体及び他の目標立方体をソートして、前記目標トレーニングサンプルを取得した後、前記目標トレーニングサンプルを前記元の認識モデルに入力して、前記元の認識モデルをトレーニングすることにより、前記第二の認識モデルを取得するように構成される第二の入力ユニットを備える。
前記認識対象となる目標3D画像を取得する前に、前記元の認識モデルが前記目標トレーニングサンプルを認識した後に出力した認識結果を取得するように構成される第四の取得ユニットであって、前記認識結果は、前記目標トレーニングサンプル内の前記目標立方体のさまざまなソート順と、前記目標立方体のそれぞれの回転角度の確率とを含む、第四の取得ユニットと、
前記認識結果が第一の目標関数を満たす確率が第一の閾値より大きい場合、前記元の認識モデルを前記第二の認識モデルとして決定するように構成される第三の決定ユニットと、を備える。
前記認識対象となる目標3D画像を取得する前に、前記第二の認識モデルの畳み込みブロックを前記第一の認識モデルの畳み込みブロックとして決定するように構成される第四の決定ユニットと、
前記第一の認識モデルの精度が第二の閾値よりも大きくなるまで、第一のトレーニングサンプルを使用して前記第一の認識モデルをトレーニングするように構成されるトレーニングユニットであって、前記第一のトレーニングサンプルは、第一の3D画像及び前記第一の3D画像のタイプを含む、トレーニングユニットと、を備える。
3Dサンプル画像を取得し、3Dサンプル画像からN個の目標立方体を分割するように構成される分割ユニット1202と、
N個の目標立方体に対して所定操作を実行して、目標トレーニングサンプルを取得するように構成される処理ユニット1204であって、所定操作は、N個の目標立方体を回転及びソートすることを含む、処理ユニット1204と、
目標トレーニングサンプルを使用して元の認識モデルをトレーニングすることにより、第二の認識モデルを取得するように構成されるトレーニングユニット1206であって、元の認識モデルは、目標トレーニングサンプルの認識結果を出力するために使用され、認識結果が第一の目標関数を満たす確率が第一の閾値より大きい場合、元の認識モデルを第二の認識モデルとして決定する、トレーニングユニット1206と、を備える。
前期第二の認識モデルは、目標トレーニングサンプルを使用して元の認識モデルをトレーニングすることにより取得されたモデルであり、前期目標トレーニングサンプルは、3Dサンプル画像から取得されたN(Nは1より大きい自然数である)個の目標立方体を回転及びソートすることにより取得された立方体を含む。
106 メモリ
108 プロセッサ
110 ネットワーク
112 サーバ
114 データベース
116 処理エンジン
1102 第一の取得ユニット
1104 第一の入力ユニット
1106 第二の取得ユニット
1202 分割ユニット
1204 処理ユニット
1206 トレーニングユニット
1302 メモリ
1304 プロセッサ
1306 伝送装置
1308 ディスプレイ
1402 メモリ
1404 プロセッサ
1406 伝送装置
1408 ディスプレイ
Claims (17)
- 端末が実行する画像認識方法であって、
認識対象となる目標三次元画像を取得するステップと、
前記認識対象となる目標三次元画像を第一の認識モデルに入力するステップと、
前記第一の認識モデルによって出力された前記目標三次元画像のタイプを取得するステップと、を含み、
前記第一の認識モデルは、前記目標三次元画像を認識して、前記目標三次元画像の画像タイプを取得するために使用され、
前記第一の認識モデルの畳み込みブロックは、第二の認識モデルの畳み込みブロックと同じであり、前記第二の認識モデルの前記畳み込みブロックは、前記第一の認識モデルの前記畳み込みブロックとして使用されるために取得され、前記第一の認識モデルは、画像タイプを含む三次元画像である第一のトレーニングサンプルを使用してトレーニングされ、前記第一の認識モデルの前記畳み込みブロックは、前記目標三次元画像に対して前記認識を実行するために使用され、
前記第二の認識モデルは、ラベルのない画像である三次元サンプル画像を取得した後に、前記三次元サンプル画像から元の立方体を抽出し、前記元の立方体をN(Nは1より大きい自然数である)個の目標立方体に分割し、前記N個の目標立方体のうちの回転された第一の目標立方体及び回転されていない残りの目標立方体をランダムソートすることにより目標トレーニングサンプルを取得し、前記目標トレーニングサンプルを使用して元の認識モデルをトレーニングし、前記元の認識モデルにより、前記目標トレーニングサンプル内の前記目標立方体の回転及びソート順の確率を出力し、前記元の認識モデルの認識結果が損失関数を満たす確率が第一の閾値より大きい場合、前記元の認識モデルを前記第二の認識モデルとして決定することにより取得されたモデルである、前記画像認識方法。 - 前記認識対象となる目標三次元画像を取得する前に、前記画像認識方法は、
前記三次元サンプル画像を取得するステップと、
前記三次元サンプル画像から元の立方体を決定するステップと、
前記元の立方体を前記N個の目標立方体に分割するステップと、を更に含む、
請求項1に記載の画像認識方法。 - 前記Nの値は、1より大きい正の整数の3乗であり、前記元の立方体を前記N個の目標立方体に分割する前記ステップは、
隣接する2つの前記目標立方体の間の間隔がM(Mは、0より大きい且つJ-1より小さい正の整数である)ボクセルになるように維持し、前記元の立方体から前記N個の目標立方体を分割するステップを含み、
前記Jは、前記目標立方体の辺長さである、
請求項2に記載の画像認識方法。 - 前記認識対象となる目標三次元画像を取得する前に、前記画像認識方法は、
前記N個の目標立方体から第一の目標立方体を決定するステップと、
前記第一の目標立方体を第一の角度回転するステップと、
前記第一の角度回転した後の第一の目標立方体、及び前記N個の目標立方体のうちの他の目標立方体をソートして、前記目標トレーニングサンプルを取得するステップと、を更に含む、
請求項1に記載の画像認識方法。 - 前記目標トレーニングサンプルを取得した後、前記画像認識方法は、
前記目標トレーニングサンプルを前記元の認識モデルに入力して、前記元の認識モデルをトレーニングすることにより、前記第二の認識モデルを取得するステップを更に含む、
請求項4に記載の画像認識方法。 - 前記認識対象となる目標三次元画像を取得する前に、前記画像認識方法は、
前記元の認識モデルが前記目標トレーニングサンプルを認識した後に出力した認識結果を取得するステップであって、前記認識結果は、前記目標トレーニングサンプル内の前記目標立方体のさまざまなソート順と、前記目標立方体のそれぞれの回転角度の確率とを含む、ステップと、
前記認識結果が第一の目標関数を満たす確率が第一の閾値より大きい場合、前記元の認識モデルを前記第二の認識モデルとして決定するステップと、を更に含む、
請求項1に記載の画像認識方法。 - 前記認識対象となる目標三次元画像を取得する前に、前記画像認識方法は、
前記第二の認識モデルの畳み込みブロックを前記第一の認識モデルの畳み込みブロックとして決定するステップと、
前記第一の認識モデルの精度が第二の閾値よりも大きくなるまで、第一のトレーニングサンプルを使用して前記第一の認識モデルをトレーニングするステップであって、前記第一のトレーニングサンプルは、第一の三次元画像及び前記第一の三次元画像のタイプを含む、ステップと、を更に含む、
請求項1に記載の画像認識方法。 - 端末が実行する、認識モデルのトレーニング方法であって、
ラベルのない画像である三次元サンプル画像を取得し、前記三次元サンプル画像から元の立方体を抽出し、前記元の立方体からN(Nは1より大きい自然数である)個の目標立方体を分割するステップと、
前記N個の目標立方体のうちの回転された第一の目標立方体及び回転されていない残りの目標立方体をランダムソートすることにより、目標トレーニングサンプルを取得するステップと、
前記目標トレーニングサンプルを使用して元の認識モデルをトレーニングし、前記元の認識モデルにより、前記目標トレーニングサンプル内の前記目標立方体の回転及びソート順の確率を出力し、前記元の認識モデルの認識結果が損失関数を満たす確率が第一の閾値より大きい場合、前記元の認識モデルを第二の認識モデルとして決定することにより、前記第二の認識モデルを取得するステップと、を含み、
前記第二の認識モデルの畳み込みブロックは、第一の認識モデルの畳み込みブロックと同じであり、前記第二の認識モデルの畳み込みブロックは、前記第一の認識モデルの前記畳み込みブロックとして使用されるために取得され、前記第一の認識モデルが目標三次元画像に対して前記認識を実行して、前記目標三次元画像のタイプを取得するために使用され、前記第一の認識モデルは、画像タイプを含む三次元画像である第一のトレーニングサンプルを使用してトレーニングされる、前記認識モデルのトレーニング方法。 - 画像認識装置であって、
認識対象となる目標三次元画像を取得するように構成される第一の取得ユニットと、
前記目標三次元画像を第一の認識モデルに入力するように構成される第一の入力ユニットと、
前記第一の認識モデルによって出力された前記目標三次元画像のタイプを取得するように構成される第二の取得ユニットと、を備え、
前記第一の認識モデルは、前記目標三次元画像を認識して、前記目標三次元画像の画像タイプを取得するために使用され、
前記第一の認識モデルの畳み込みブロックは、第二の認識モデルの畳み込みブロックと同じであり、前記第二の認識モデルの前記畳み込みブロックは、前記第一の認識モデルの前記畳み込みブロックとして使用されるために取得され、前記第一の認識モデルは、画像タイプを含む三次元画像である第一のトレーニングサンプルを使用してトレーニングされ、前記第一の認識モデルの前記畳み込みブロックは、前記目標三次元画像に対して前記認識を実行するために使用され、
前記第二の認識モデルは、ラベルのない画像である三次元サンプル画像を取得した後に、前記三次元サンプル画像から元の立方体を抽出し、前記元の立方体をN(Nは1より大きい自然数である)個の目標立方体に分割し、前記N個の目標立方体のうちの回転された第一の目標立方体及び回転されていない残りの目標立方体をランダムソートすることにより目標トレーニングサンプルを取得し、前記目標トレーニングサンプルを使用して元の認識モデルをトレーニングし、前記元の認識モデルにより、前記目標トレーニングサンプル内の前記目標立方体の回転及びソート順の確率を出力し、前記元の認識モデルの認識結果が損失関数を満たす確率が第一の閾値より大きい場合、前記元の認識モデルを前記第二の認識モデルとして決定することにより取得されたモデルである、前記画像認識装置。 - 前記画像認識装置は更に、
前記認識対象となる目標三次元画像を取得する前に、前記三次元サンプル画像を取得するように構成される第三の取得ユニットと、
前記三次元サンプル画像から元の立方体を決定するように構成される第一の決定ユニットと、
前記元の立方体を前記N個の目標立方体に分割するように構成される分割ユニットと、を備える、
請求項9に記載の画像認識装置。 - 前記画像認識装置は更に、
前記認識対象となる目標三次元画像を取得する前に、前記N個の目標立方体から第一の目標立方体を決定するように構成される第二の決定ユニットと、
前記第一の目標立方体を第一の角度回転するように構成される回転ユニットと、
前記第一の角度回転した後の第一の目標立方体、及び前記N個の目標立方体のうちの他の目標立方体をソートして、前記目標トレーニングサンプルを取得するように構成されるソートユニットと、を備える、
請求項10に記載の画像認識装置。 - 前記画像認識装置は更に、
ソートされた前記目標トレーニングサンプルを前記元の認識モデルに入力して、前記元の認識モデルをトレーニングすることにより、前記第二の認識モデルを取得するように構成される第二の入力ユニットを備える、
請求項11に記載の画像認識装置。 - 認識モデルのトレーニング装置であって、
ラベルのない画像である三次元サンプル画像を取得し、前記三次元サンプル画像から元の立方体を抽出し、前記元の立方体からN(Nは1より大きい自然数である)個の目標立方体を分割するように構成される分割ユニットと、
前記N個の目標立方体のうちの回転された第一の目標立方体及び回転されていない残りの目標立方体をランダムソートすることにより、目標トレーニングサンプルを取得するように構成される処理ユニットと、
前記目標トレーニングサンプルを使用して元の認識モデルをトレーニングし、前記元の認識モデルにより、前記目標トレーニングサンプル内の前記目標立方体の回転及びソート順の確率を出力し、前記元の認識モデルの認識結果が損失関数を満たす確率が第一の閾値より大きい場合、前記元の認識モデルを第二の認識モデルとして決定することにより、前記第二の認識モデルを取得するように構成されるトレーニングユニットと、を備え、
前記第二の認識モデルの畳み込みブロックは、第一の認識モデルの畳み込みブロックと同じであり、前記第二の認識モデルの畳み込みブロックは、前記第一の認識モデルの前記畳み込みブロックとして使用されるために取得され、前記第一の認識モデルが目標三次元画像に対して前記認識を実行して、前記目標三次元画像のタイプを取得するために使用され、前記第一の認識モデルは、画像タイプを含む三次元画像である第一のトレーニングサンプルを使用してトレーニングされる、前記認識モデルのトレーニング装置。 - コンピュータに、請求項1ないし7のいずれか一項に記載の画像認識方法を実行させるように構成される、コンピュータプログラム。
- コンピュータに、請求項8に記載の認識モデルのトレーニング方法を実行させるように構成される、コンピュータプログラム。
- 電子装置であって、
メモリ及びプロセッサを備え、前記メモリには、コンピュータプログラムが記憶され、前記プロセッサは、前記コンピュータプログラムを実行するときに、請求項1ないし7のいずれか一項に記載の画像認識方法を実行するように構成される、前記電子装置。 - 電子装置であって、
メモリ及びプロセッサを備え、前記メモリには、コンピュータプログラムが記憶され、前記プロセッサは、前記コンピュータプログラムを実行するときに、請求項8に記載の認識モデルのトレーニング方法を実行するように構成される、前記電子装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910544392.0 | 2019-06-21 | ||
CN201910544392.0A CN110263724A (zh) | 2019-06-21 | 2019-06-21 | 图片识别方法、识别模型训练方法、装置及存储介质 |
PCT/CN2020/097273 WO2020253852A1 (zh) | 2019-06-21 | 2020-06-20 | 图片识别方法、识别模型训练方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022520390A JP2022520390A (ja) | 2022-03-30 |
JP7233555B2 true JP7233555B2 (ja) | 2023-03-06 |
Family
ID=67920476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021547115A Active JP7233555B2 (ja) | 2019-06-21 | 2020-06-20 | 画像認識方法、認識モデルのトレーニング方法及びその装置、並びにコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US12112556B2 (ja) |
EP (1) | EP3989109A4 (ja) |
JP (1) | JP7233555B2 (ja) |
KR (1) | KR102645533B1 (ja) |
CN (2) | CN110263724A (ja) |
WO (1) | WO2020253852A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263724A (zh) * | 2019-06-21 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 图片识别方法、识别模型训练方法、装置及存储介质 |
CN110710986B (zh) * | 2019-10-25 | 2021-01-22 | 华院数据技术(上海)有限公司 | 一种基于ct图像的脑部动静脉畸形检测方法及检测系统 |
CN111166070A (zh) * | 2019-12-17 | 2020-05-19 | 五邑大学 | 一种基于指静脉认证的医疗储物柜及其管理方法 |
CN111242952B (zh) * | 2020-01-15 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 图像分割模型训练方法、图像分割方法、装置及计算设备 |
CN111353580B (zh) * | 2020-02-03 | 2023-06-20 | 中国人民解放军国防科技大学 | 目标检测网络的训练方法、电子设备及存储介质 |
CN111723868B (zh) * | 2020-06-22 | 2023-07-21 | 海尔优家智能科技(北京)有限公司 | 用于去除同源图片的方法、装置及服务器 |
CN112241764B (zh) * | 2020-10-23 | 2023-08-08 | 北京百度网讯科技有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN112686898B (zh) * | 2021-03-15 | 2021-08-13 | 四川大学 | 一种基于自监督学习的放疗靶区自动分割方法 |
CN112949583A (zh) * | 2021-03-30 | 2021-06-11 | 京科互联科技(山东)有限公司 | 复杂城市场景的目标检测方法、系统、设备及存储介质 |
CN113362313B (zh) * | 2021-06-18 | 2024-03-15 | 四川启睿克科技有限公司 | 一种基于自监督学习的缺陷检测方法及系统 |
CN114092446B (zh) * | 2021-11-23 | 2024-07-16 | 中国人民解放军总医院 | 基于自监督学习与M-Net的颅内出血参数获取方法及装置 |
CN114549904B (zh) * | 2022-02-25 | 2023-07-07 | 北京百度网讯科技有限公司 | 视觉处理及模型训练方法、设备、存储介质及程序产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180089530A1 (en) | 2015-05-11 | 2018-03-29 | Siemens Healthcare Gmbh | Method and system for landmark detection in medical images using deep neural networks |
CN109886933A (zh) | 2019-01-25 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 一种医学图像识别方法、装置和存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025642B (zh) * | 2016-01-27 | 2018-06-22 | 百度在线网络技术(北京)有限公司 | 基于点云数据的车辆轮廓检测方法和装置 |
CN106960219B (zh) * | 2017-03-10 | 2021-04-16 | 百度在线网络技术(北京)有限公司 | 图片识别方法及装置、计算机设备及计算机可读介质 |
CN107154043B (zh) * | 2017-06-05 | 2020-03-24 | 杭州健培科技有限公司 | 一种基于3dcnn的肺结节假阳性样本抑制方法 |
AU2018313841B2 (en) * | 2017-08-09 | 2023-10-26 | Allen Institute | Systems, devices, and methods for image processing to generate an image having predictive tagging |
CN107977963A (zh) * | 2017-11-30 | 2018-05-01 | 北京青燕祥云科技有限公司 | 肺结节的判定方法、装置和实现装置 |
CN108389201B (zh) * | 2018-03-16 | 2020-06-30 | 北京推想科技有限公司 | 基于3d卷积神经网络与深度学习的肺结节良恶性分类方法 |
CN109147940B (zh) * | 2018-07-05 | 2021-05-25 | 科亚医疗科技股份有限公司 | 从患者的医学图像自动预测生理状况的装置和系统 |
CN109063753B (zh) * | 2018-07-18 | 2021-09-14 | 北方民族大学 | 一种基于卷积神经网络的三维点云模型分类方法 |
CN110263724A (zh) * | 2019-06-21 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 图片识别方法、识别模型训练方法、装置及存储介质 |
-
2019
- 2019-06-21 CN CN201910544392.0A patent/CN110263724A/zh active Pending
-
2020
- 2020-01-15 CN CN202010043334.2A patent/CN111046855A/zh active Pending
- 2020-06-20 KR KR1020217029414A patent/KR102645533B1/ko active IP Right Grant
- 2020-06-20 WO PCT/CN2020/097273 patent/WO2020253852A1/zh active Application Filing
- 2020-06-20 EP EP20825586.9A patent/EP3989109A4/en active Pending
- 2020-06-20 JP JP2021547115A patent/JP7233555B2/ja active Active
-
2021
- 2021-08-13 US US17/402,500 patent/US12112556B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180089530A1 (en) | 2015-05-11 | 2018-03-29 | Siemens Healthcare Gmbh | Method and system for landmark detection in medical images using deep neural networks |
CN109886933A (zh) | 2019-01-25 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 一种医学图像识别方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110263724A (zh) | 2019-09-20 |
EP3989109A4 (en) | 2022-07-20 |
KR102645533B1 (ko) | 2024-03-07 |
JP2022520390A (ja) | 2022-03-30 |
US12112556B2 (en) | 2024-10-08 |
WO2020253852A1 (zh) | 2020-12-24 |
CN111046855A (zh) | 2020-04-21 |
US20210374475A1 (en) | 2021-12-02 |
EP3989109A1 (en) | 2022-04-27 |
KR20210119539A (ko) | 2021-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7233555B2 (ja) | 画像認識方法、認識モデルのトレーニング方法及びその装置、並びにコンピュータプログラム | |
US10970520B1 (en) | Apparatus and method for image analysis using virtual three-dimensional deep neural network | |
JP6993371B2 (ja) | ディープラーニングに基づいたコンピュータ断層撮影肺結節検出法 | |
CN109522874B (zh) | 人体动作识别方法、装置、终端设备及存储介质 | |
DE112019002589T5 (de) | Tiefenlernsystem | |
WO2020125498A1 (zh) | 心脏磁共振图像分割方法、装置、终端设备及存储介质 | |
JP2021524083A (ja) | 画像処理方法、装置、コンピュータプログラム、並びにコンピュータ機器 | |
CN111369681A (zh) | 三维模型的重构方法、装置、设备及存储介质 | |
JP7358117B2 (ja) | イメージ自動分類方法及びシステム | |
CN110838125A (zh) | 医学图像的目标检测方法、装置、设备、存储介质 | |
US20230154007A1 (en) | Few-shot semantic image segmentation using dynamic convolution | |
CN113469180A (zh) | 医学图像的处理方法和系统、数据处理方法 | |
EP4386579A1 (en) | Retrieval model training method and apparatus, retrieval method and apparatus, device and medium | |
CN110570394A (zh) | 医学图像分割方法、装置、设备及存储介质 | |
CN112529068A (zh) | 一种多视图图像分类方法、系统、计算机设备和存储介质 | |
CN110427870B (zh) | 眼部图片识别方法、目标识别模型训练方法及装置 | |
CN114365188A (zh) | 基于vrds ai下腔静脉影像的分析方法及产品 | |
CN111709473B (zh) | 对象特征的聚类方法及装置 | |
WO2023122896A1 (zh) | 一种数据处理方法和装置 | |
CN112669450B (zh) | 人体模型构建方法和个性化人体模型构建方法 | |
CN115471807A (zh) | 一种基于多模态信息进行自监督学习的处理方法和装置 | |
CN112580641B (zh) | 图像特征的提取方法及装置、存储介质、电子设备 | |
JP7105918B2 (ja) | 領域特定装置、方法およびプログラム | |
CN113723519A (zh) | 基于对比学习的心电数据处理方法、装置及存储介质 | |
CN110287982A (zh) | 一种基于卷积神经网络的ct影像分类方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210811 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210811 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7233555 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |