JP2022547184A

JP2022547184A - 画像認識モデルのトレーニング方法、画像認識方法及び装置

Info

Publication number: JP2022547184A
Application number: JP2022515569A
Authority: JP
Inventors: ▲鴻▼ 尚; 瀚 ▲鄭▼; ▲鐘▼前 ▲孫▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-17
Filing date: 2020-09-23
Publication date: 2022-11-10
Anticipated expiration: 2040-09-23
Also published as: WO2021073380A1; EP3982292A1; CN110738263A; US20220051059A1; EP3982292B1; US20240184854A1; US11960571B2; EP3982292A4; CN110738263B; JP7355924B2

Abstract

本願は、画像認識モデルのトレーニング方法を開示し、該方法は、トレーニング対象となる画像セットを取得する、ステップと、トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得する、ステップと、第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定する、ステップと、ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する、ステップと、を含む。本願はさらに、画像認識方法及び装置を開示する。本願は、ラベル付けされ且つ異なるタスクの医用画像及びラベル付けされていない医用画像に対して、モデルを共にトレーニングし、ラベル付き画像及びラベルなし画像を効果的に利用して、画像に対するラベル付けの要求を低下するだけでなく、トレーニングのデータ量を増やし、それにより、ラベル付きリソースを節約し、同時にモデルの予測効果を向上させることもできる。

Description

本願は、２０１９年１０月１７日に中国特許局に提出された、出願番号が２０１９１０９８９２６２．８であり、発明の名称が「画像認識モデルのトレーニング方法、画像認識方法及び装置」である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれている。

本願は、人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）分野に関し、特に、画像処理技術に関する。

人口の増加に伴い、医療システムへの負担は日々増加され、医療資源の需要もますます高まっている。実際の適用において、医療関係者は医用画像を介して患者の状態を分析することができる。医療関係者がより速く且つより正確に病状を診断するのを助けるために、自動診断機器によって医用画像を認識することができる。

現在、自動診断を実現するために、通常、大量の医用画像を採用して画像認識モデルをトレーニングする必要があり、ここで、これらの医用画像は医療関係者によるラベル付けを必要とし、即ち、医療関係者は、臨床経験に応じて、例えば、当該医用画像に疾患が存在するか否かをラベル付けすること、及び当該医用画像内の病変の位置をラベル付けすることなど、各医用画像に対して判断する。

しかし、医用画像の数の増え続けることに伴い、病変の複雑さもますます高まり、ラベル付けの難易度も増やし、画像認識モデルをトレーニングするためのラベル付けのリソースは限られている。ただし、ラベル付けのリソースが限られているため、モデルのトレーニングプロセスでは、ラベル付けされた医用画像の一部のみを使用できるようになる。さらに、モデルのトレーニングは、通常、具体的なタスクを組み合わせて実現する必要があり、異なるタスクに対して、当該タスクに対応するトレーニングセットを採用する必要がある。その結果、ラベル付けされた医用画像は、効果的に利用できないし、タスクのトレーニングセットの一部のデータが足りなくなる可能性があり、さらに、モデルの予測効果の正確度が低くなる。

本願実施例は、画像認識モデルのトレーニング方法、画像認識方法及び装置を提供し、ラベル付けされ且つ異なるタスクの医用画像及びラベル付けされていない医用画像に対して、モデルを共にトレーニングすることができ、ラベル付き画像及びラベルなし画像を効果的に利用して、画像に対するラベル付けの要求を低下するだけでなく、トレーニングのデータ量を増やし、それにより、ラベル付きリソースを節約し、同時にモデルの予測効果を向上させることもできる。

これを鑑みて、本願の第１態様は、画像認識モデルのトレーニング方法を提供し、前記方法は、
トレーニング対象となる画像セットを取得するステップであって、ここで、前記トレーニング対象となる画像セットは、少なくとも、第１画像セット、第２画像セット及び第３画像セットを含み、前記第１画像セットは、少なくとも１つの第１画像を含み、前記第２画像セットは、少なくとも１つの第２画像及び少なくとも１つの干渉画像を含み、前記第３画像セットは、少なくとも１つの第３画像を含み、前記第１画像は、第１タスクに対応するラベル付き画像であり、前記第２画像は、第１タスクに対応するラベルなし画像であり、前記第３画像は、第２タスクに対応するラベル付き画像であり、前記第１タスク及び前記第２タスクは異なるタスクに属する、ステップと、
前記トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得するステップであって、ここで、前記第１予測確率は、前記第１画像セットに基づいて出力される予測結果であり、前記第２予測確率及び前記第３予測確率は、前記第２画像セットに基づいて出力される予測結果であり、前記第４予測確率は、前記第３画像セットに基づいて出力される予測結果である、ステップと、
前記第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定するステップであって、ここで、前記ターゲット損失関数は、少なくとも、第１損失関数、第２損失関数及び第３損失関数を含み、前記第１損失関数は、前記第１予測確率によって決定されるものであり、前記第２損失関数は、前記第２予測確率及び前記第３予測確率によって決定されるものであり、前記第３損失関数は、前記第４予測確率によって決定されるものである、ステップと、
前記ターゲット損失関数に基づいて、前記トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得するステップと、を含む。

本願の第２態様は、画像認識方法を提供し、前記方法は、
認識対象となる画像を取得する、ステップと、
画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得する、ステップであって、ここで、前記画像認識モデルは、上記の第１態様によって提供される画像認識モデルである、ステップと、
前記画像認識結果を展示する、ステップと、を含む。

本願の第３態様は、画像認識モデルのトレーニング装置を提供し、前記装置は、取得モジュールと、決定モジュールと、トレーニングモジュールと、を備え、
前記取得モジュールは、トレーニング対象となる画像セットを取得するように構成され、ここで、前記トレーニング対象となる画像セットは、少なくとも、第１画像セット、第２画像セット及び第３画像セットを含み、前記第１画像セットは、少なくとも１つの第１画像を含み、前記第２画像セットは、少なくとも１つの第２画像及び少なくとも１つの干渉画像を含み、前記第３画像セットは、少なくとも１つの第３画像を含み、前記第１画像は、第１タスクに対応するラベル付き画像であり、前記第２画像は、第１タスクに対応するラベルなし画像であり、前記第３画像は、第２タスクに対応するラベル付き画像であり、前記第１タスク及び前記第２タスクは異なるタスクに属し、
前記取得モジュールはさらに、前記トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得するように構成され、ここで、前記第１予測確率は、前記第１画像セットに基づいて出力される予測結果であり、前記第２予測確率及び前記第３予測確率は、前記第２画像セットに基づいて出力される予測結果であり、前記第４予測確率は、前記第３画像セットに基づいて出力される予測結果であり、
前記決定モジュールは、前記第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定するように構成され、ここで、前記ターゲット損失関数は、少なくとも、第１損失関数、第２損失関数及び第３損失関数を含み、前記第１損失関数は、前記第１予測確率によって決定されるものであり、前記第２損失関数は、前記第２予測確率及び前記第３予測確率によって決定されるものであり、前記第３損失関数は、前記第４予測確率によって決定されるものであり、
前記トレーニングモジュールは、前記決定モジュールによって決定される前記ターゲット損失関数に従って、前記トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得するように構成される。

本願の第４態様は、画像認識装置を提供し、前記装置は、取得モジュールと、展示モジュールと、を備え、
前記取得モジュールは、認識対象となる画像を取得するように構成され、
前記取得モジュールはさらに、画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得するように構成され、ここで、前記画像認識モデルは、上記の第１態様によって提供される画像認識モデルであり、
前記展示モジュールは、前記取得モジュールによって取得される前記画像認識結果を展示するように構成される。

本願の第５態様は、メモリ、トランシーバ、プロセッサ及びバスシステムを備える、電子機器を提供し、
ここで、前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、上記の第１態様又は第２態様のいずれか一項に記載の方法を実行することを含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサが通信できるように構成される。

本願の第６態様は、プローブ、回路、プロセッサ及びディスプレイを備える、内視鏡医療診断システムを提供し、
前記回路は、前記プローブを励起して、認識対象となる画像を取得させるように構成され、
前記プロセッサは、画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得するように構成され、ここで、前記画像認識モデルは、上記の第１態様のいずれか一項に記載の画像認識モデルであり、
前記ディスプレイは、前記画像認識結果を表示するように構成される。

本願の第７態様は、コンピュータで実行されるとき、コンピュータに上記の各態様に記載の方法を実行させる命令を記憶する、コンピュータ可読記憶媒体を提供する。

本願の第８態様は、コンピュータで実行されるとき、コンピュータに上記の第１態様又は第２態様のいずれか一項に記載の方法を実行させる命令を含む、コンピュータプログラム製品を提供する。

以上の技術的解決策から分かるように、本願実施例は、以下の利点を有する。

本願実施例は、画像認識モデルのトレーニング方法を提供し、まず、トレーニング対象となる画像セットを取得し、その後、トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得し、さらに、第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定し、最後に、ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する。上記の方式を介して、ラベル付けされ且つ異なるタスクの医用画像及びラベル付けされていない医用画像に対して、モデルを共にトレーニングすることができ、ラベル付き画像及びラベルなし画像を効果的に利用して、画像に対するラベル付けの要求を低下するだけでなく、トレーニングのデータ量を増やし、それにより、ラベル付けリソースを節約し、同時にモデルの予測効果を向上させることができる。

本願実施例における画像認識システムのアーキテクチャの概略図である。本願実施例における画像認識モデルをトレーニングする全体的な構造の概略図である。本願実施例における画像認識モデルのトレーニング方法の実施例の概略図である。本願実施例における半教師あり学習ベースの実施例の概略図である。本願実施例におけるマルチタスク学習ベースの実施例の概略図である。本願実施例における画像認識方法の実施例の概略図である。本願実施例における画像認識結果を展示するインターフェースの概略図である。本願実施例における画像認識モデルのトレーニング装置の実施例の概略図である。本願実施例における画像認識装置の実施例の概略図である。本願実施例におけるサーバの例示的な構造図である。本願実施例における端末機器の例示的な構造図である。本願実施例における内視鏡医療診断システムの例示的な構造図である。

本願実施例は、画像認識モデルのトレーニング方法、画像認識方法及び装置を提供し、ラベル付けされ且つ異なるタスクの医用画像及びラベル付けされていない医用画像に対して、モデルを共にトレーニングし、ラベル付き画像及びラベルなし画像を効果的に利用して、画像に対するラベル付け要求を低下するだけでなく、トレーニングのデータ量を増やし、それにより、ラベル付きリソースを節約し、同時にモデルの予測効果を向上させることができる。

本願による画像認識モデルのトレーニング方法及び画像認識方法は、人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）の医学分野に適用され、具体的には、コンピュータビジョン技術（ＣＶ：ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）に基づく医用画像認識の分野に適用されることができることを理解されたい。

医学分野で最も一般的な医用画像は、内視鏡画像、血管造影画像、心血管造影画像、コンピュータ断層撮影（ＣＴ：ｃｏｍｐｕｔｅｒｉｚｅｄｔｏｍｏｇｒａｐｈｙ）画像、超音波Ｂモード画像及び病理学的画像を含むがこれに限定されない。医用画像は、組織内部で発生した病変を直接に反映できるため、医師が疾患を診断する重要な根拠であり、特定の疾患診断のための最終的な根拠でもある。例えば、癌の診断では、影、プラーク又は血管の拡張などの状況があるか否かを観察するなど、病変の放射線画像を観察することにより、癌の診断結果を決定する。本願は、内視鏡画像を認識して、内視鏡画像の自動診断に適用することで、医師を補助して、診断の効率及び正確度を向上させ、この基で、取得できる他の形のデータをさらに利用してモデルのトレーニングを補助して、モデルの正確度を向上させることができる。

医用画像は、医師が患者の状態を理解するための重要な情報ポータルであり、現在、高品質の医療イメージング機器は普及されているが、医用画像を正確に解釈するためには、常に、専門的な知識及び長期的な経験の蓄積を持つ医師が必要である。人口が多く、医療システムへの負担が大きく、経験豊富な医師の数が足りなく、且つ、主に、１線都市の大規模な三甲病院（日本の特定機能病院に相当）に集まっていることを考慮すると、医療資源が非常に乏しい。本願による方法は、ターゲットタスクのラベル付きデータを利用する基で、当該ターゲットタスクのラベルなしデータ（即ち、半教師あり学習）、及び他の関連タスクのラベル付きデータ（即ち、マルチタスク学習）をさらに利用し、既存の様々なタイプのデータ内の情報を最大限に利用してモデルのトレーニングを補助し、それにより、モデル効果を向上させることができる。

理解を容易にするために、本願は、図１に示された画像認識システムに適用される、画像認識方法を提案し、図１を参照すると、図１は、本願実施例における画像認識システムの１つのアーキテクチャの概略図であり、図面に示されたように、画像認識システムは、医療機器を含み得、医療機器は、具体的には、内視鏡機器又は電子顕微鏡などであり得、医療機器は、認識対象となる医用画像を収集した後、タスクのタイプに従って、トレーニングされた画像認識モデルを採用して医用画像を認識することができる。内視鏡画像の自動診断を例として、異なる部位（例えば、食道、胃、十二指腸又は結腸直腸）に従って認識してもよいし、異なるターゲットタスク（良性と悪性の区別、部位の区別、画像が適格かどうかの区別など）に従って認識してもよく、最後に、１つの視覚的な結果を取得して、医師に焦点を当てる領域を提供することができる。

例示的に、医療機器は、認識対象となる医用画像を収集した後、当該医用画像を端末機器に送信することができ、端末機器は、トレーニングされた画像認識モデルを採用して当該医用画像を認識することにより、１つの視覚的な結果を取得して、医師に１つの焦点を当てる領域を提供し、インターフェースに展示することができる。

例示的に、医療機器は、認識対象となる医用画像を収集した後、当該医用画像をサーバに送信することができ、サーバは、トレーニングされた画像認識モデルを採用して当該医用画像を認識し、サーバは、認識結果を取得した後、当該結果を端末機器又は医療機器にフィードバックすることができ、端末機器又は医療機器によって展示する。

端末機器は、タブレット、ラップトップ、ポケットコンピュータ、携帯電話、音声対話機器及びパソコン（ＰＣ：ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）を含むがこれに限定されないことに留意されたい。

本願で使用される画像認識モデルは、図２に示されたアーキテクチャを採用してトレーニングすることができ、図２を参照すると、図２は、本願実施例における画像認識モデルをトレーニングする１つの全体的な構造の概略図である。図面に示されたように、本願の画像認識モデルは、残差ネットワーク（ＲｅｓＮｅｔ：ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ）構造又は密集畳み込みネットワーク（ＤｅｎｓｅＮｅｔ）構造など、深層学習モデル構造を採用することができる。トレーニングのプロセスでは、トレーニングデータに対してデータ増強（ｄａｔａａｕｇｍｅｎｔａｔｉｏｎ）及びデータ前処理（ｐｒｅｐｒｏｃｅｓｓｉｎｇ）を実行することができ、トレーニングは、エンドツーエンドの確率的勾配降下法を採用する。タスクごとに代替トレーニングを選択することができ、代替トレーニングに対して、即ち、ターゲットタスクのラベル付きデータ、マルチタスク学習内の補助タスクデータ及び半教師あり学習内のラベルなしデータを順次に入力し、対応するオプティマイザを呼び出して対応する損失値を低下することにより、重複する部分のパラメータ及び当該ターゲットタスクに固有のパラメータを更新する。ハイブリッドトレーニングを選択することもできるが、ハイブリッドトレーニングに対して、即ち、ハイブリッドのターゲットタスクのラベル付きデータ、マルチタスク学習内の補助タスクデータ及び半教師あり学習内のラベルなしデータを毎回入力して、対応する損失値を加算した後、オプティマイザを呼び出し、それにより、損失値の合計を低下する。

トレーニングして画像認識モデルを得た後、図２に示されたオンライン推論（ｉｎｆｅｒｅｎｃｅ）部分を使用して予測することができ、オンライン推論部分は、データ前処理、ネットワークモデル及び全結合層を含み、実際の適用ではさらに、他のネットワーク層を含み得、ここでは一例に過ぎず、本願に対する制限として理解されるべきではない。

図３を参照すると、本願実施例における画像認識モデルのトレーニング方法の一実施例は、以下のステップを含む。

ステップ１０１において、トレーニング対象となる画像セットを取得し、ここで、トレーニング対象となる画像セットは、少なくとも、第１画像セット、第２画像セット及び第３画像セットを含み、第１画像セットは、少なくとも１つの第１画像を含み、第２画像セットは、少なくとも１つの第２画像及び少なくとも１つの干渉画像を含み、第３画像セットは、少なくとも１つの第３画像を含み、第１画像は、第１タスクに対応するラベル付き画像であり、第２画像は、第１タスクに対応するラベルなし画像であり、第３画像は、第２タスクに対応するラベル付き画像であり、第１タスク及び第２タスクは異なるタスクに属する。

本実施例において、画像認識モデルのトレーニング装置が、トレーニング対象となる画像セットを取得し、画像認識のトレーニング装置は端末機器に配置されてもよいし、サーバに配置されてもよいことを理解されたい。トレーニングされるデータ量は比較的に大きいことが多いため、サーバを採用してモデルをトレーニングすることができるが、本願に対する制限として理解されるべきではない。

トレーニング対象となる画像セットは少なくとも、第１画像セット、第２画像セット及び第３画像セットを含み、第１画像セット、第２画像セット及び第３画像セットはすべてトレーニングサンプルに属し、第１画像セットは、少なくとも１つの第１画像（ｘ_０に表すことができる）を含み、第２画像セットは、少なくとも１つの第２画像（ｘ_ULに表すことができる）及び少なくとも１つの干渉画像（ｘ_ｐｅｒｔに表すことができる）を含み、第３画像セットは、少なくとも１つの第３画像（ｘ_１に表すことができる）を含み、第１画像は、第１タスクに対応する、ラベル付き情報を搬送するラベル付き画像であり、第２画像は、第１タスクに対応する、ラベル付き情報を搬送しないラベルなし画像であり、第３画像は、第２タスクに対応する、ラベル付き情報を搬送するラベル付き画像であり、第１タスク及び第２タスクは異なるタスクに属する。干渉画像は、第２画像がランダムにスクランブルされた後に得られたものであり、干渉画像のサイズは通常、第２画像のサイズと同じである。ランダムのスクランブルは、反転、回転及び平行移動を含むがこれに限定されない。１つの第２画像は、ランダムのスクランブルを２回実行することができ、即ち、１つの第２画像は、２つの干渉画像に対応することを理解されたい。さらに、干渉画像は通常、トレーニング中に生成されたものである。

ステップ１０２において、トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得し、ここで、第１予測確率は、第１画像セットに基づいて出力される予測結果であり、第２予測確率及び第３予測確率は、第２画像セットに基づいて出力される予測結果であり、第４予測確率は、第３画像セットに基づいて出力される予測結果である。

本実施例において、２つのトレーニングプロセスを採用し、それぞれ、半教師あり学習（Ｓｅｍｉ－Ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）及びマルチタスク学習（ＭＴＬ：Ｍｕｌｔｉｔａｓｋｌｅａｒｎｉｎｇ）である。ここで、第１画像セット及び第２画像セットは、半教師あり学習のために使用され、第２予測確率及び第３予測確率は、半教師あり学習の出力結果であり、第３画像セットは、マルチタスク学習のために使用され、第４予測確率は、マルチタスク学習の出力結果である。

半教師あり学習は、同じタスクのラベルなしデータを利用して、トレーニングを補助してモデル効果を向上させる。ラベル付けの重要性は、現在のモデル予測の結果は正しいか否かを判断することであり、それにより、モデルの良否を評価する指標として使用する。即ち、１つのターゲット損失関数を設定し、現在のトレーニング対象となる画像認識モデルが正確であるほど、ターゲット損失関数の値は小さくなり、モデルトレーニングのプロセスは、ターゲット損失関数に最小値を取得させる最適化プロセスである。ラベル付き画像データに対して、クロスエントロピ損失関数（ｃｒｏｓｓｅｎｔｒｏｐｙｌｏｓｓ）を採用して、モデルの良否を評価することができることに留意されたい。そして、ラベルなし画像データに対して、ラベルでモデルの良否を評価できないため、同じ画像を、２回のランダムな摂動を介してネットワークに入力させ、一貫性制限損失関数（ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ）を採用して、２回の予測結果間の差異を判断することができる。モデルトレーニングの目的は、２回の予測結果間の差異を減らすことである。

マルチタスク学習は、他の関連タスク内のラベル付きデータセットを利用してトレーニングを補助することにより、モデル効果を向上させる。従来の機械学習方法は、タスクごとに１つのモデルを独立してトレーニングするが、マルチタスク学習の方法は、１つのネットワークモデルで複数の関連タスクをトレーニングすることができ、ネットワークモデルのパラメータの一部は各タスクによって共有され、ネットワークモデルのパラメータの別の一部は各タスクによって固有される。

ステップ１０３において、第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定し、ここで、ターゲット損失関数は、少なくとも、第１損失関数、第２損失関数及び第３損失関数を含み、第１損失関数は、第１予測確率によって決定されるものであり、第２損失関数は、第２予測確率及び第３予測確率によって決定されるものであり、第３損失関数は、第４予測確率によって決定されるものである。

本実施例において、画像認識モデルのトレーニング装置は、第１予測確率及び第１画像セットに対応するラベル付き情報に従って第１損失関数を決定し、ここで、第１予測確率セットは予測値に属するが、第１画像セットに対応するラベル付き情報は実の値に属し、予測値及び実の値に基づいて第１損失関数を計算する。画像認識モデルのトレーニング装置は、第２予測確率及び第３予測確率に従って第２損失関数を決定し、ここで、第２予測確率及び第３予測確率は両方とも予測値である。画像認識モデルのトレーニング装置は、第４予測結果セット及び第３画像セットに対応するラベル付き情報に従って第３損失関数を決定し、第４予測結果セットは予測値に属するが、第３画像セットに対応するラベル付き情報は実の値に属し、予測値及び実の値に基づいて第３損失関数を計算する。第１損失関数、第２損失関数及び第３損失関数を組み合わせて、ターゲット損失関数を取得することができる。

ステップ１０４において、ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する。

本実施例において、ターゲット損失関数が収束するとき、トレーニング対象となる画像認識モデルがトレーニングを完了したことを表し、この場合、当該トレーニング対象となる画像認識モデルが画像認識モデルである。実際の適用では、回数の閾値に達するまでトレーニングした場合、ターゲット損失関数が収束されたと見なすことができることを理解されたい。

本願実施例は、画像認識モデルのトレーニング方法を提供し、まず、トレーニング対象となる画像セットを取得し、その後、トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得し、さらに、第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定し、最後に、ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する。上記の方式を介して、ラベル付けされ且つ異なるタスクの医用画像及びラベル付けされていない医用画像に対して、モデルを共にトレーニングすることができ、ラベル付き画像及びラベルなし画像を効果的に利用して、画像に対するラベル付けの要求を低下するだけでなく、トレーニングのデータ量を増やし、それにより、ラベル付きリソースを節約し、同時にモデルの予測効果を向上させることもできる。

例示的に、上記の図３に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の最初の代替実施例において、トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得する、ステップは、
第１画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率を取得する、ステップと、
第２画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第２予測確率及び第３予測確率を取得する、ステップと、
第３画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第４予測確率を取得する、ステップと、を含み得る。

本実施例において、画像認識モデルのトレーニング装置は、第２画像セットをトレーニング対象となる画像認識モデルに入力し、具体的には、第２画像セットは、第２画像及び干渉画像を含む。第２画像Ａが最初のランダムスクランブルを介して干渉画像Ａを取得し、第２画像Ａが二回目のランダムスクランブルを介して干渉画像Ｂを取得すると仮定する。そして、画像認識モデルのトレーニング装置は、まず、第２画像Ａ及び干渉画像Ａをトレーニング対象となる画像認識モデルに入力し、当該トレーニング対象となる画像認識モデルによって第２予測確率を出力し、その後、画像認識モデルのトレーニング装置は、第２画像Ａ及び干渉画像Ｂをトレーニング対象となる画像認識モデルに入力して、当該トレーニング対象となる画像認識モデルによって第３予測確率を出力し、２回の予測を介して２つの予測確率を取得する。実際の適用では、各第２画像に対していずれも２回のランダムスクランブル処理を実行することができる。

理解を容易にするために、図４を参照すると、図４は、本願実施例におけるラベルなしサンプルに基づいてトレーニングする１つの実施例の概略図であり、図面に示されたように、第２画像のサンプルセットは少なくとも１つの第２画像を含む。まず、第２画像のサンプルセット内の各第２画像に対して最初のランダムスクランブルを実行して、干渉画像Ａのサンプルセットを取得する。さらに、第２画像のサンプルセット内の各第２画像に対して二回目のランダムスクランブルを実行して、干渉画像Ｂのサンプルセットを取得する。第２画像のサンプルセット及び干渉画像Ａのサンプルセットを両方ともトレーニング対象となる画像認識モデルに入力することにより、各サンプルに対応する第１予測確率を取得する。次に、第２画像のサンプルセット及び干渉画像Ｂのサンプルセットを両方ともトレーニング対象となる画像認識モデルに入力することにより、各サンプルに対応する第２予測確率を取得する。

本実施例において、画像認識モデルのトレーニング装置は、さらに、第１画像セットをトレーニング対象となる画像認識モデルに入力し、具体的には、第１画像セットは第１画像を含み、第１画像はラベル付き画像である。同様に、画像認識モデルのトレーニング装置は、さらに、第３画像セットをトレーニング対象となる画像認識モデルに入力し、具体的には、第３画像セットは第３画像を含み、第３画像は第１画像と類似して、ラベル付き画像である。異なるのは、第１画像が配置されている第１画像セット及び第３画像が配置されている第３画像セットは、異なる学習タスクに対応する。例えば、第１画像セットは、病変の位置づけタスクに対してラベル付けしたものであり、即ち、第１画像によってラベル付けされたコンテンツは、例えば、病変が食道、胃、十二指腸又は結腸直腸における病変の位置など、病変の位置である。第３画像セットは、腫瘍の性質のタスクに対してラベル付けしたものであり、即ち、第３画像によってラベル付けされたコンテンツは、悪性腫瘍又は良性腫瘍などの腫瘍の性質である。実際の適用では、さらに、要件に応じて他の異なるタスクを設定することができ、ここでは一例に過ぎず、本願の制限として理解されるべきではない。

説明を容易にするために、図５を参照すると、図５は、本願実施例におけるマルチタスク学習ベースの１つの実施例の概略図であり、図面に示されたように、マルチタスク学習（ＭＴＬ：Ｍｕｌｔｉｔａｓｋｌｅａｒｎｉｎｇ）は他の関連するラベル付きデータセットを利用してトレーニングを補助し、それにより、モデル効果を向上させ、従来の機械学習方法は、タスクごとに１つのモデルを独立してトレーニングするが、マルチタスク学習の方法は、１つのネットワークモデルを使用して、複数の関連タスクを同時にトレーニングすることができ、ネットワークモデルのパラメータの一部は、各タスクによって共有され、ネットワークモデルのパラメータの別の一部は、各タスクによって固有される。図５に示されたように、入力されたトレーニングデータに対して、トレーニング対象となる画像認識モデルは、４つの異なるタスクでの予測結果を出力し、且つ異なるタスク間はパラメータを共有し、且つすべてのタスクのすべてのデータセットを利用するため、トレーニングのデータ量を増やす。

マルチタスク学習は複数の形があり、統合学習（ｊｏｉｎｔｌｅａｒｎｉｎｇ）、自律的学習（ｌｅａｒｎｉｎｇｔｏｌｅａｒｎ）及び補助タスクありの学習（ｌｅａｒｎｉｎｇｗｉｔｈａｕｘｉｌｉａｒｙｔａｓｋ）を含むがこれに限定されない。通常の場合、複数の損失関数を最適化することは、マルチタスク学習を実行することと同じである。１つの損失関数のみを最適化しても、補助タスクによって元のタスクモデルを改善する可能性がある。本願によるマルチタスク学習は、パラメータのハード共有（ＰａｒａｍｅｔｅｒＨａｒｄＳｈａｒｉｎｇ）に基づいて実現してもよいし、パラメータのソフト共有（ＰａｒａｍｅｔｅｒＳｏｆｔＳｈａｒｉｎｇ）に基づいて実現してもよい。パラメータのハード共有の場合、通常、すべてのタスク間で隠し層を共有し、同時にいくつかの特定のタスクの出力層を保留することにより実現する。パラメータのソフト共有の場合、各タスクはすべて、独立したモデルがあり、各モデルは、それぞれのパラメータを含む。

さらに、本願実施例において、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得する方法を提供し、半教師あり学習を利用して、第２画像セットに基づいて第２予測確率及び第３予測確率を取得し、さらに、マルチタスク学習を利用して、第３画像セットに基づいて第４予測確率を取得する。上記の方式を介して、ラベルなしデータを効果的に利用してトレーニングし、それにより、モデル効果を向上させ、より良い効果を取得し、同時にラベル付きデータに対する要求を低下して、製品開発のコストを減らし、製品開発の周期を加速する。同時に、１つの画像認識モデルを使用して、複数の関連タスクをトレーニングすることもでき、画像認識モデルのパラメータの一部は、各タスクによって共有され、パラメータの別の一部は、各タスクによって固有される。共有パラメータは、すべてのタスクのすべてのデータセットを利用することにより、トレーニングのデータ量を増やすだけでなく、同時に各トレーニングセット固有のノイズを相殺し、それにより、モデルの一般化能力を向上させ、モデルのオーバーフィットを低減する。独立した出力層は、共有部分から当該タスクに最も関連性のある特徴を選択し、各タスクの特定の分類境界を学習して、モデルに、十分な柔軟度を有し、画像認識タスクからより高い正確度を取得させることができる。

例示的に、上記の図３に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の二番目の代替実施例において、第１画像セットに基づいて、トレーニング対象となる画像認識モデルを介して第１予測確率を取得する、ステップは、
少なくとも１つの第１画像に基づいて、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第１予測値を取得する、ステップと、
第１予測値に対して正規化処理を実行して、第１予測確率を取得する、ステップと、を含み得る。

本実施例において、第１予測確率を生成する方法を紹介し、説明の便宜上、以下は、第１画像セット内の１つの第１画像を例として説明する。第１画像セット内の他の第１画像も類似する方式を採用して処理し、ここでは繰り返して説明しないことを理解されたい。

具体的には、第１画像をｘ_０に表し、第１画像のラベル付き情報をｙ_０に表し、ラベル付き情報は、分類タスクでの分類ラベルを表すと仮定すると、例えば、分類タスクが病変の位置づけタスクであると、分類ラベルは異なる部位であり得、例えば、ラベル１は、食道部位を表し、ラベル２は、胃を表し、ラベル３は、十二指腸部位を表し、ラベル４は、結腸直腸部位を表し、ラベル５は、タイプなしを表す。さらに例えば、分類タスクは、腫瘍の性質を区別するタスクであると、分類ラベルは、異なる腫瘍の悪化程度であり得、例えば、ラベル１は、良性腫瘍を表し、ラベル２は、悪性腫瘍を表し、ラベル３は、腫瘍なしを表す。さらに例えば、分類タスクが、画像の適格状況を区別するタスクであると、分類ラベルは、異なる画像の適格状況であり得、例えば、ラベル１は、画像の適格を表し、ラベル２は、画像の不適格を表す。

第２タスクに属する第１画像ｘ_０は、全結合（ＦＣ：ｆｕｌｌｙｃｏｎｎｅｃｔｉｏｎ）層を通した後、第１予測値を出力し、第１予測値はｚ_０に表し、第１予測値ｚ_０は、ｓｏｆｔｍａｘを通した後、正規化処理を実現し、それにより、第１画像の第１予測確率ｐ_０を取得する。以下の方式を採用して第１予測確率を計算して取得する。

ここで、ｐ_０は、第１予測確率を表し、ｐ_０［ｉ］は、第１予測確率内の第ｉ個のユニットを表し、Ｃは、タイプの総数を表し、ｋは、第ｋ個のタイプを表し、ｉの値は、０より大きいか等しく、且つＣ－１より小さいか等しい整数である。

トレーニング対象となる画像認識モデルの最後の一層は、全結合層＋Ｓｏｆｔｍａｘ層であり得、全結合層は、重み行列を入力ベクトルと乗算してからバイアスを加算し、Ｎ個の実数をＫ個の分数にマッピングし、Ｓｏｆｔｍａｘ層は、Ｋ個の実数をＫ個の（０，１）範囲内の確率にマッピングし、同時にＫ個の実数の合計が１になるように保証する。

次に、本願実施例において、第１予測確率を生成する方法を提供し、即ち、まず、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第１画像の第１予測値を取得し、その後、第１画像の第１予測値に対して正規化処理を実行して、第１画像の第１予測確率を取得する。上記の方式を介して、予測値に対して正規化処理を実行した後、サンプルの予測カテゴリをより直感的に反映することができ、それにより、トレーニングサンプル分類の正確度を向上させ、モデルトレーニングの効率及び正確度を向上させることに役立つ。

例示的に、上記の図３に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の三番目の代替実施例において、第２画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第２予測確率及び第３予測確率を取得する、ステップは、
少なくとも１つの第２画像に従って第１干渉画像セットを生成するステップであって、ここで、第１干渉画像セットは、少なくとも１つの第１干渉画像を含み、第１干渉画像は第２画像と対応関係を有し、第１干渉画像は干渉画像に属する、ステップと、
少なくとも１つの第２画像に従って第２干渉画像セットを生成するステップであって、ここで、第２干渉画像セットは、少なくとも１つの第２干渉画像を含み、第２干渉画像は第２画像と対応関係を有し、第２干渉画像は干渉画像に属する、ステップと、
少なくとも１つの第２画像及び第１干渉画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第２予測確率を取得する、ステップと、
少なくとも１つの第２画像及び第２干渉画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第３予測確率を取得する、ステップと、を含み得る。

本実施例において、半教師あり学習ベースのデータ処理方式を紹介し、まず、画像認識モデルのトレーニング装置は、少なくとも１つの第２画像を取得し、ここでの第２画像はラベルなし画像である。その後、各第２画像に対して２回のランダムスクランブル処理を実行し、最初のスクランブルの後、第１干渉画像セットを取得し、第１干渉画像セットは、少なくとも１つの第１干渉画像を含み、即ち、各第１干渉画像は１つの第２画像に対応する。同様に、二回目のスクランブルの後、第２干渉画像セットを取得し、第２干渉画像セットは少なくとも１つの第２干渉画像を含み、即ち、各第２干渉画像は１つの第２画像に対応し、且つ、第２干渉画像の数は、通常、第１干渉画像の数と同じである。少なくとも１つの第２画像及び第１干渉画像セットをトレーニング対象となる画像認識モデルに入力して、第２予測確率を取得する。例えば、１０００個の第２画像及び１０００個の第１干渉画像をトレーニング対象となる画像認識モデルに入力してもよいし、１００個の第２画像及び１００個の第１干渉画像をトレーニング対象となる画像認識モデルに入力してもよく、ここでは、第２画像の数に対して限定しない。同様に、少なくとも１つの第２画像及び第２干渉画像セットをトレーニング対象となる画像認識モデルに入力して、第３予測確率を取得する。第２予測確率は第３予測確率と同じであってもよいし、異なってもよい。

実際の適用では、トレーニング対象となる画像認識モデルによって出力された結果は、１つの予測値であり得、当該予測値に対して正規化処理を実行した後、予測確率を取得することができることを理解されたい。

ランダムスクランブルのプロセスでは、第２画像に対してデータ増強処理を実行する必要があり、第２画像に対して反転、回転及び平行移動処理を実行することができるだけでなく、第２画像の方向、位置、比率及び輝度などをさらに変更することもできることに留意されたい。トレーニング対象となる画像認識モデルにランダムドロップアウト（ｄｒｏｐｏｕｔ）などのランダム要因を追加することができ、ｄｒｏｐｏｕｔは、深層構造を有する人工ニューラルネットワークを最適化する方法であり、学習プロセスでは、隠れ層の重みの一部又は出力の一部をランダムにゼロにすることにより、ノード間の相互依存性を低減し、ニューラルネットワークの正則化を実現する。干渉画像がランダムノイズである場合、ランダムスクランブルのプロセスを、Ｐｉモデル（Ｐｉ－Ｍｏｄｅｌ）と称することができる。干渉画像が敵対的干渉（ａｄｖｅｒｓａｒｉａｌｐｅｒｔｕｒｂａｔｉｏｎ）である場合、ランダムスクランブルのプロセスを、仮想敵対的トレーニング（ＶＡＴ：ＶｉｒｔｕａｌＡｄｖｅｒｓａｒｉａｌＴｒａｉｎｉｎｇ）と称することができる。

次に、本願実施例において、半教師あり学習ベースのデータ処理方式を提供し、即ち、第２画像に対して２回のランダムスクランブルの処理を実行して、第１干渉画像及び第２干渉画像を取得する必要があり、その後、第２画像を、第１干渉画像及び第２干渉画像とそれぞれ組み合わせて、モデルによって入力された２つのトレーニングサンプルを構成して、２つの予測確率を取得する。上記の方式を介して、ラベルなし画像に対してランダムスクランブル処理を実行することにより、干渉のレベルが異なる画像を取得してモデルのトレーニングサンプルとして使用し、ランダムスクランブルのプロセスは、人工的な介入は必要せず、モデルのトレーニング効率を向上させる同時に、ランダム化の処理は、サンプルの一般化能力を向上させて、モデルのトレーニング効果を向上させることができる。半教師あり学習は、データ及びリソースの浪費を回避すると同時に、完全教師あり学習のモデルの弱い一般化能力と、教師なし学習のモデルの不正確である問題を解决する。

例示的に、上記の図３に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の四番目の代替実施例において、第３画像セットに基づいて、トレーニング対象となる画像認識モデルを介して第４予測確率を取得する、ステップは、
少なくとも１つの第３画像に基づいて、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第４予測値を取得する、ステップと、
第４予測値に対して正規化処理を実行して、第４予測確率を取得する、ステップと、を含み得る。

本実施例において、第４予測確率を生成する方法を紹介し、説明の便宜上、以下は、第３画像セット内の１つの第３画像を例として説明する。第３画像セット内の他の第３画像も類似する方式を採用して処理し、ここでは繰り返して説明しないことを理解されたい。

具体的には、第３画像をｘ_１に表し、第３画像のラベル付き情報をｙ_１に表し、ラベル付き情報は、分類タスクでの分類ラベルを表すと仮定すると、例えば、分類タスクが病変の位置づけタスクであると、分類ラベルは異なる部位であり得、例えば、ラベル１は、食道部位を表し、ラベル２は、胃を表し、ラベル３は、十二指腸部位を表し、ラベル４は、結腸直腸部位を表し、ラベル５は、タイプなしを表す。さらに例えば、分類タスクは、腫瘍の性質を区別するタスクであると、分類ラベルは、異なる腫瘍の悪化程度であり得、例えば、ラベル１は、良性腫瘍を表し、ラベル２は、悪性腫瘍を表し、ラベル３は、腫瘍なしを表す。さらに例えば、分類タスクが、画像の適格状況を区別するタスクであると、分類ラベルは、異なる画像の適格状況であり得、例えば、ラベル１は、画像の適格を表し、ラベル２は、画像不適格を表す。第３画像のラベル付き情報は第２タスクに属し、第１画像のラベル付き情報は第１タスクに属し、２つのタスクは異なることに留意されたい。

第２タスクに属する第３画像ｘ_１は全結合層を通した後、第２予測値を出力し、第２予測値をｚ_１に表し、第２予測値ｚ_１は、ｓｏｆｔｍａｘを通した後、正規化処理を実現して、第３画像の第４予測確率ｐ_１を取得する。以下の方式を採用して第４予測確率を計算して取得する。

ここで、ｐ_１は第４予測確率を表し、ｐ_１［ｉ］は、第４予測確率内の第ｉ個のユニットを表し、Ｃは、タイプの総数を表し、ｋは、第ｋ個のタイプを表し、ｉの値は、０より大きいか等しく、且つＣ－１より小さいか等しい整数である。

次に、本願実施例において、第４予測確率を生成する方法を提供し、即ち、まず、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第３画像の第２予測値を取得し、その後、第３画像の第２予測値に対して正規化処理を実行して、第３画像の第４予測確率を取得する。上記の方式を介して、予測値に対して正規化処理を実行した後、サンプルの予測カテゴリをより直感的に反映することができ、それにより、トレーニングサンプル分類の正確度を向上させ、モデルトレーニングの効率及び正確度を向上させることに役立つ。

例示的に、上記の図３に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の五番目の代替実施例において、第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定する、ステップは、
第１予測確率及び第１画像セットに対応するラベル付き情報に従って、第１損失関数を計算する、ステップと、
第２予測確率及び第３予測確率に従って、第２損失関数を計算する、ステップと、
第４予測確率及び第３画像セットに対応するラベル付き情報に従って、第３損失関数を計算する、ステップと、
エントロピ損失関数及び正則化損失関数を取得する、ステップと、
第１損失関数、第２損失関数、第３損失関数、エントロピ損失関数及び正則化損失関数に従って、ターゲット損失関数を計算する、ステップと、を含み得る。

本実施例において、ターゲット損失関数の具体的なコンテンツを紹介し、画像認識モデルのトレーニング装置は、第１予測確率及び第１画像セットに対応するラベル付き情報に従って、第１損失関数Ｌ_ＣＥを計算する。画像認識モデルのトレーニング装置は、少なくとも１つの第２予測確率及び少なくとも１つの第３予測確率に従って、第２損失関数Ｌ_Ｃｏｎを計算する。画像認識モデルのトレーニング装置は、第３予測確率及び第３画像セットに対応するラベル付き情報に従って、第３損失関数Ｌ_ＭＴＬを計算する。さらに、ターゲット損失関数は、さらに、エントロピ損失関数Ｌ_Ｅｎｔ及び正則化損失関数Ｌ_Ｒｅｇを含む。

以下は、エントロピ損失関数Ｌ_Ｅｎｔ及び正則化損失関数Ｌ_Ｒｅｇを紹介する。

エントロピ損失関数を最小化すると、いくつかのカテゴリがすべて可能であると見なすことではなく、モデルを特定のタスクでの具体的なカテゴリをより確実に予測させ、エントロピは、各分類の情報量の期待を表す。

エントロピ損失関数の計算方式は以下の通りである。

ここで、Ｌ_Ｅｎｔは、エントロピ損失関数を表し、Ｃは、タイプの総数を表し、ｋは、第ｋ個のタイプを表し、ｐは、予測確率を表す。

モデルのオーバーフィットを防ぎ、モデルの一般化能力を向上させるために、ターゲット損失関数に１つの正則化損失関数を追加することができ、正則化損失関数は、Ｌ１正則化損失関数及びＬ２正則化損失関数を含むがこれに限定されないことを理解されたい。正則化損失関数は、ターゲット損失関数のペナルティ項として使用することができる。
上記の紹介に基づいて、本願におけるターゲット損失関数は、以下の通りに表すことができる。

ここで、Ｌ_{ｔｏｔａｌ}は、ターゲット損失関数を表し、Ｌ_ＣＥは、第１損失関数を表し、Ｌ_Ｃｏｎは、第２損失関数を表し、Ｌ_ＭＴＬは、第３損失関数を表し、Ｌ_Ｅｎｔは、エントロピ損失関数を表し、Ｌ_Ｒｅｇは、正則化損失関数を表し、ｗ_０は、第１重みを表し、ｗ_１は、第２重みを表し、ｗ_２は、第３重みを表し、ｗ_３は、第４重みを表し、ｗ_４は、第５重みを表す。重ね合わせるとき、各項は異なる重み（即ち、重みは一定値又は動的に変化するものであり得る）を有することができ、通常の場合、異なるタスク及び異なるデータセットに応じて、各重みを調整する必要がある。

次に、本願実施例において、ターゲット損失関数の具体的なコンテンツを提供し、即ち、ターゲット損失関数は第１損失関数、第２損失関数、第３損失関数、エントロピ損失関数及び正則化損失関数を含む。上記の方式を介して、異なるタイプの損失関数を利用して、異なる次元でモデルをトレーニングして、モデルトレーニングの正確度を向上させる。

例示的に、上記の図３に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の六番目の代替実施例において、第１予測確率及び第１画像セットに対応するラベル付き情報に従って、第１損失関数を計算する、ステップは、以下のステップを含み得る。

以下の方式を採用して第１損失関数を計算する。

ここで、Ｌ_ＣＥは、第１損失関数を表し、ｐ_０は、第１予測確率を表し、ｙ_０は、第１画像セットに対応するラベル付き情報を表す。

本実施例において、第１損失関数の計算方式を紹介し、画像認識モデルのトレーニング装置は、予測して得られた第１予測確率、及び第１画像セットに対応する実のラベル付き情報に従って、第１損失関数を計算することができ、当該第１損失関数はクロスエントロピ損失関数であり得、実際の適用では、他のタイプの損失関数であってもよく、ここではクロスエントロピ損失関数を例として説明することを理解されたい。

以下の方式を採用して第１損失関数を計算する。

ｐ_０は、第１予測確率を表し、第１予測確率が腫瘍の悪化程度のラベル付けタスクに対して生成された確率であると仮定すると、ラベル１は、良性腫瘍を表し、ラベル２は、悪性腫瘍を表し、ラベル３は、腫瘍なしを表す。第１画像の第１予測確率が（０．１，０．２，０．７）であると仮定すると、第１画像の予測ラベルがラベル３であり、即ち、腫瘍なしのラベルであることを取得する。第１画像に対してはラベル付け処理を実行しており、それにより、ラベル付き情報ｙ_０、即ち、実のラベルを取得することができる。実のラベルがラベル３であると仮定すると、当該ラベル３に対応する確率は（０，０，１）である。クロスエントロピ損失関数を利用して２つの確率分布間の距離を説明し、クロスエントロピが小さいほど、両方間はより近接することを説明する。モデルトレーニングの目的は、予測確率が実の確率の分布により近接することを期待することである。

次に、本願実施例において、第１損失関数の計算方式を提供し、上記の方式を介して、第１損失関数の生成のために具体的な実現根拠を提供し、それにより、モデルトレーニングの実行可能性及び動作可能性を向上させる。

例示的に、上記の図３に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の七番目の代替実施例において、第２予測確率及び第３予測確率に従って、第２損失関数を計算する、ステップは、

の方式を採用して、第２損失関数を計算する、ステップ、
又は、

の方式を採用して、第２損失関数を計算する、ステップを含み得、
ここで、Ｌ_Ｃｏｎは、第２損失関数を表し、Ｃは、タイプの総数を表し、ｋは、第ｋ個のタイプを表し、ｐ_ｓは、第２予測確率を表し、ｐ_ｒは、第３予測確率を表す。

本実施例において、第２損失関数の計算方式を紹介し、画像認識モデルのトレーニング装置は、予測して得られた第２予測確率及び第３予測確率に従って、第２損失関数を計算することができる。当該第２損失関数は、平均二乗誤差（ＭＳＥ：ｍｅａｎ－ｓｑｕａｒｅｅｒｒｏｒ）損失関数であってもよいし、ＫＬ発散（Ｋｕｌｌｂａｃｋ－ＬｅｉｂｌｅｒＤｉｖｅｒｇｅｎｃｅ）損失関数であってもよい。実際の適用では、他のタイプの損失関数であってもよく、ここでは、ＭＳＥ損失関数及びＫＬ発散損失関数を例として説明することを理解されたい。

第２損失関数がＭＳＥ損失関数である場合、以下の方式を採用して第２損失関数を計算する。

第２損失関数がＫＬ発散損失関数である場合、以下の方式を採用して第２損失関数を計算する。

第２予測確率ｐ_ｓの計算方式は以下の通りである。

ここで、ｐ_ｓは、第２予測確率を表し、ｐ_ｓ［ｉ］は、第２予測確率内の第ｉ個のユニットを表し、Ｃは、タイプの総数を表し、ｋは、第ｋ個のタイプを表し、ｉの値は、０より大きいか等しく、且つＣ－１より小さいか等しい整数である。
第３予測確率ｐ_ｒの計算方式は以下の通りである。

ここで、ｐ_ｒは、第３予測確率を表し、ｐ_ｒ［ｉ］は、第３予測確率内の第ｉ個のユニットを表し、Ｃは、タイプの総数を表し、ｋは、第ｋ個のタイプを表し、ｉの値は、０より大きいか等しく、且つＣ－１より小さいか等しい整数である。

第２予測確率及び第３予測確率は、同じトレーニングで出力されることができるため、第２予測確率はｐ_０で表すこともでき、ｐ_ｒは、第３予測確率を表し、同様に、第３予測確率ｐ_ｒは、予測値ｚ_ｒが正規化処理された後に得られたものであることを理解されたい。第２予測確率及び第３予測確率は、異なるトレーニングで出力されたものである。第２損失関数は、具体的には、一貫性損失関数（ＣｏｎｓｉｓｔｅｎｃｙＬｏｓｓ）であり得、第２損失関数が小さいほど、２回の予測の結果はより近接し、即ち、モデルのトレーニング効果もよりよく、当該第２損失関数を最小化することにより、２回の予測値を一致させる。

さらに、本願実施例において、第２損失関数の計算方式を提供し、上記の方式を介して、第２損失関数の生成に具体的な実現根拠を提供し、それにより、モデルトレーニングの実行可能性及び動作可能性を向上させる。なお、ニーズに応じて適した第２損失関数を選択して計算して、技術案の柔軟性を向上させることもできる。

例示的に、上記の図３に対応する各実施例の基で、本願実施例による画像認識モデルのトレーニング方法の八番目の代替実施例において、第４予測確率及び、第３画像セットに対応するラベル付き情報に従って、第３損失関数を計算する、ステップは、以下のステップを含む。

の方式を採用して、第３損失関数を計算する。

ここで、Ｌ_ＭＴＬは、第３損失関数を表し、ｐ_１は、第４予測確率を表し、ｙ_１は、第３画像セットに対応するラベル付き情報を表す。

本実施例において、第３損失関数の計算方式を紹介し、画像認識モデルのトレーニング装置は、予測して得られた第３予測確率、及び第３画像セットに対応する実のラベル付き情報に従って、第３損失関数を計算することができ、当該第３損失関数はクロスエントロピ損失関数であり得、実際の適用では、他のタイプの損失関数であってもよく、ここではクロスエントロピ損失関数を例として説明することを理解されたい。

の方式を採用して、第３損失関数を計算する。

ｐ_１は、第４予測確率を表し、第４予測確率が、画像の適格状況のラベル付けタスクに対して生成された確率であると仮定すると、ラベル１は、画像の適格を表し、ラベル２は、画像の不適格を表す。第３画像の第４予測確率が（０．２，０．８）であると仮定すると、第３画像の予測ラベルがラベル２であることを取得し、即ち、画像不適格のラベルを取得する。第３画像に対してはラベル付け処理を実行しており、それにより、ラベル付き情報ｙ_１、即ち、実のラベルを取得することができる。実のラベルがラベル１であると仮定すると、当該ラベル１に対応する確率は（１，０）である。クロスエントロピ損失関数を利用して２つの確率分布間の距離を説明し、クロスエントロピが小さいほど、両方間はより近接することを説明する。モデルトレーニングの目的は、予測確率が実の確率の分布により近接することを期待することである。

次に、本願実施例において、第３損失関数の計算方式を提供し、上記の方式を介して、第３損失関数の生成に具体的な実現根拠を提供し、それにより、モデルトレーニングの実行可能性及び動作可能性を向上させる。

上記の紹介を参照して、本願はさらに、画像認識方法を提供し、図６を参照すると、本願実施例における画像認識方法の一実施例は、以下のステップを含む。

ステップ２０１において、認識対象となる画像を取得する。

本実施例において、画像認識装置は、認識対象となる画像を取得し、当該認識対象となる画像は内視鏡画像であってもよいし、他のタイプの医用画像であってもよく、ここでは限定しない。ここで、画像認識装置は、サーバに配置されてもよいし、端末機器に配置されてもよく、ここでは、端末機器に配置することを例として説明するが、本願の制限として理解されるべきではない。

ステップ２０２において、画像認識モデルを介して、認識対象となる画像に対応する画像認識結果を取得し、ここで、画像認識モデルは、上記の実施例で説明された画像認識モデルである。

本実施例において、画像認識装置は、認識対象となる画像を上記の実施例で説明された画像認識モデルに入力して、当該画像認識モデルによって、対応する画像認識結果を出力する。

ステップ２０３において、画像認識結果を展示する。

本実施例において、画像認識装置は、当該画像認識結果を展示することができる。理解を容易にするために、図７を参照すると、図７は、本願実施例における画像認識結果を展示するインターフェースの概略図であり、図面に示されたように、入力された一枚の医用画像を例として、医師は、ニーズに応じて、対応するタスクを選択することができる。タスクＡ、即ち、病変部位を位置づけるタスクを選択すると仮定すると、医師によって選択されたタスクＡに基づいて対応する結果を出力し、例えば、位置づけられた病変部位が「胃」である。タスクＢ、即ち、腫瘍の性質を検出するタスクを選択すると仮定すると、医師によって選択されたタスクＢに基づいて対応する結果を出力し、例えば、腫瘍の性質が「良性」であると検出する。タスクＣ、即ち、画像の適格要求のタスクを選択すると仮定すると、医師によって選択されたタスクＣに基づいて対応する結果を出力し、例えば、画像の適格状況が「適格」である。

本願実施例において、画像認識方法を提供し、即ち、まず、認識対象となる画像を取得し、その後、それをトレーニングされた画像認識モデルに入力して、画像認識モデルによって画像認識結果を出力し、最後に、当該画像認識結果を展示する。上記の方式を介して、本願による画像認識モデルを使用して自動診断を実行するとき、ニーズに応じて、対応するタスクでの認識結果を展示し、医師の診断を補助して、特に、関連する臨床的経験が足りない医師にとって、医師をより効果的に助けて、検査中の誤診や見逃し診断を減らせる。

以下は、本願における画像認識モデルのトレーニング装置を詳細に説明し、図８を参照すると、図８は、本願実施例における画像認識モデルのトレーニング装置の実施例の概略図であり、画像認識モデルのトレーニング装置３０は、取得モジュール３０１と、決定モジュール３０２と、トレーニングモジュール３０３と、を備え、
前記取得モジュール３０１は、トレーニング対象となる画像セットを取得するように構成され、ここで、前記トレーニング対象となる画像セットは、少なくとも、第１画像セット、第２画像セット及び第３画像セットを含み、前記第１画像セットは、少なくとも１つの第１画像を含み、前記第２画像セットは、少なくとも１つの第２画像及び少なくとも１つの干渉画像を含み、前記第３画像セットは、少なくとも１つの第３画像を含み、前記第１画像は、第１タスクに対応するラベル付き画像であり、前記第２画像は、第１タスクに対応するラベルなし画像であり、前記第３画像は、第２タスクに対応するラベル付き画像であり、前記第１タスク及び前記第２タスクは異なるタスクに属し、
前記取得モジュール３０１はさらに、前記トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得するように構成され、ここで、前記第１予測確率は、前記第１画像セットに基づいて出力される予測結果であり、前記第２予測確率及び前記第３予測確率は、前記第２画像セットに基づいて出力される予測結果であり、前記第４予測確率は、前記第３画像セットに基づいて出力される予測結果であり、
前記決定モジュール３０２は、前記取得モジュール３０１によって取得された前記第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定するように構成され、ここで、前記ターゲット損失関数は、少なくとも、第１損失関数、第２損失関数及び第３損失関数を含み、前記第１損失関数は、前記第１予測確率によって決定されるものであり、前記第２損失関数は、前記第２予測確率及び前記第３予測確率によって決定されるものであり、前記第３損失関数は、前記第４予測確率によって決定されるものであり、
前記トレーニングモジュール３０３は、前記決定モジュール３０２によって決定される前記ターゲット損失関数に従って、前記トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得するように構成される、
本願実施例は、画像認識モデルのトレーニング装置を提供し、まず、トレーニング対象となる画像セットを取得し、その後、トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得し、さらに、第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定し、最後に、ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する。上記の方式を介して、ラベル付けされ且つ異なるタスクの医用画像及びラベルなし医用画像に対して、モデルを共にトレーニングし、ラベル付き画像及びラベルなし画像を効果的に利用して、画像に対するラベル付けの要求を低下するだけでなく、トレーニングのデータ量を増やし、それにより、ラベル付きリソースを節約し、同時にモデルの予測効果を向上させることができる。

例示的に、上記の図８に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置３０の別の実施例において、前記取得モジュール３０１は、具体的に、
前記第１画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第１予測確率を取得し、
前記第２画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第２予測確率及び前記第３予測確率を取得し、
前記第３画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第４予測確率を取得するように構成される。

さらに、本願実施例において、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得する方法を提供し、半教師あり学習を利用して、第２画像セットに基づいて第２予測確率及び第３予測確率を取得し、マルチタスク学習を利用して、第３画像セットに基づいて第４予測確率を取得する。上記の方式を介して、ラベルなしデータを効果的に利用してトレーニングして、モデル効果を向上させ、より良い効果を取得し、同時にラベル付きデータに対する要求を低下して、製品開発のコストを減らし、製品開発の周期を加速する。同時に、１つの画像認識モデルを使用して複数の関連タスクをトレーニングすることもでき、画像認識モデルのパラメータの一部は各タスクによって共有され、パラメータの別の一部は各タスクによって固有される。共有パラメータは、すべてのタスクのすべてのデータセットを利用し、トレーニングのデータ量を増やしただけでなく、各トレーニングセット固有のノイズをキャンセルし、それにより、モデル一般化能力を向上させ、モデルオーバーフィットを低減する。独立する出力層は、共有部分から当該タスクに最も関連する特徴を選択し、各タスク固有の分類制限を学習して、モデルに、十分な柔軟度を有し、画像認識タスクからより高い正確度を取得させることができる。

例示的に、上記の図８に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置３０の別の実施例において、
前記取得モジュール３０１は、具体的に、前記少なくとも１つの第１画像に基づいて、前記トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第１予測値を取得し、
前記第１予測値に対して正規化処理を実行して、前記第１予測確率を取得するように構成される。

次に、本願実施例において、第１予測確率を生成する方法を提供し、まず、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第１画像の第１予測値を取得し、その後、第１画像の第１予測値に対して正規化処理を実行して、第１画像の第１予測確率を取得する。上記の方式を介して、予測値に対して正規化処理を実行した後、サンプルの予測カテゴリを直感的に反映し、それにより、トレーニングサンプル分類の正確度を向上させ、モデルトレーニングの効率及び正確度を向上させることに役立つ。

例示的に、上記の図８に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置３０の別の実施例において、前記取得モジュール３０１は、具体的に、
前記少なくとも１つの第２画像に従って第１干渉画像セットを生成し、ここで、前記第１干渉画像セットは、少なくとも１つの第１干渉画像を含み、前記第１干渉画像は前記第２画像と対応関係を有し、前記第１干渉画像は前記干渉画像に属し、
前記少なくとも１つの第２画像に従って第２干渉画像セットを生成し、ここで、前記第２干渉画像セットは、少なくとも１つの第２干渉画像を含み、前記第２干渉画像は前記第２画像と対応関係を有し、前記第２干渉画像は前記干渉画像に属し、
前記少なくとも１つの第２画像及び前記第１干渉画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第２予測確率を取得し、
前記少なくとも１つの第２画像及び前記第２干渉画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第３予測確率を取得するように構成される。

さらに、本願実施例において、半教師あり学習ベースのデータ処理方式を提供し、即ち、第２画像に対して２回のランダムスクランブルの処理を実行して、第１干渉画像及び第２干渉画像を取得する必要があり、その後、第２画像を、第１干渉画像及び第２干渉画像とそれぞれ組み合わせて、モデルによって入力された２つのトレーニングサンプルを構成して、２つの予測確率を取得する。上記の方式を介して、ラベルなし画像に対してランダムスクランブル処理を効果的に実行して、干渉のレベルが異なる画像を取得してモデルのトレーニングサンプルとして使用し、ランダムスクランブルのプロセスは、人工的な介入は必要せず、モデルのトレーニング効率を向上させ、同時にランダム化の処理は、サンプルの一般化能力を向上させて、モデルのトレーニング効果を向上させることができる。半教師あり学習は、データ及びリソースの浪費を回避すると同時に、完全教師あり学習のモデルの弱い一般化能力と、教師なし学習のモデルの不正確である問題を解决する。

例示的に、上記の図８に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置３０の別の実施例において、前記取得モジュール３０１は、具体的に、
前記少なくとも１つの第３画像に基づいて、前記トレーニング対象となる画像認識モデルに含まれる全結合層を介して、前記第４予測値を取得し、
前記第４予測値に対して正規化処理を実行して、前記第４予測確率を取得するように構成される。

次に、本願実施例において、第４予測確率を生成する方法を提供し、まず、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第３画像の第２予測値を取得し、その後、第３画像の第２予測値に対して正規化処理を実行して、第３画像の第４予測確率を取得する。上記の方式を介して、予測値に対して正規化処理を実行した後、サンプルの予測カテゴリをより直感的に反映することができ、それにより、トレーニングサンプル分類の正確度を向上させ、モデルトレーニングの効率及び正確度を向上させることに役立つ。

例示的に、上記の図８に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置３０の別の実施例において、前記決定モジュール３０２は、具体的に、
前記第１予測確率及び前記第１画像セットに対応するラベル付き情報に従って、前記第１損失関数を計算し、
前記第２予測確率及び前記第３予測確率に従って、前記第２損失関数を計算し、
前記第４予測確率及び前記第３画像セットに対応するラベル付き情報に従って、前記第３損失関数を計算し、
エントロピ損失関数及び正則化損失関数を取得し、
前記第１損失関数、前記第２損失関数、前記第３損失関数、前記エントロピ損失関数及び前記正則化損失関数に従って、前記ターゲット損失関数を計算するように構成される。

さらに、本願実施例において、ターゲット損失関数の具体的なコンテンツを提供し、即ち、ターゲット損失関数は第１損失関数、第２損失関数、第３損失関数、エントロピ損失関数及び正則化損失関数を含む。上記の方式を介して、異なるタイプの損失関数を利用して、異なる次元でモデルをトレーニングして、モデルトレーニングの正確度を向上させる。

例示的に、上記の図８に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置３０の別の実施例において、前記決定モジュール３０２は、具体的に、以下の方式を採用して前記第１損失関数を計算するように構成される。

ここで、前記Ｌ_ＣＥは、前記第１損失関数を表し、前記ｐ_０は、第１予測確率を表し、前記ｙ_０は、前記第１画像セットに対応するラベル付き情報を表す。

次に、本願実施例において、第１損失関数の計算方式を提供し、上記の方式を介して、第１損失関数の生成に具体的な実現根拠を提供し、それにより、モデルトレーニングの実行可能性及び動作可能性を向上させる。

例示的に、上記の図８に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置３０の別の実施例において、前記決定モジュール３０２は、具体的に、

の方式を採用して、前記第２損失関数を計算し、
又は、

の方式を採用して前記第２損失関数を計算するように構成され、
ここで、前記Ｌ_Ｃｏｎは、前記第２損失関数を表し、前記Ｃは、タイプの総数を表し、前記ｋは、第ｋ個のタイプを表し、前記ｐ_ｓは、前記第２予測確率を表し、前記ｐ_ｒは、前記第３予測確率を表す。

次に、本願実施例において、第２損失関数の計算方式を提供し、上記の方式を介して、第２損失関数の生成に具体的な実現根拠を提供し、それにより、モデルトレーニングの実行可能性及び動作可能性を向上させる。なお、ニーズに応じて適した第２損失関数を選択して計算して、技術案の柔軟性を向上させることもできる。

例示的に、上記の図８に対応する実施例の基で、本願実施例による画像認識モデルのトレーニング装置３０の別の実施例において、前記決定モジュール３０２は、具体的に、
以下の方式を採用して、前記第３損失関数を計算するように構成され、

ここで、前記Ｌ_ＭＴＬは、前記第３損失関数を表し、前記ｐ_１は、前記第４予測確率を表し、前記ｙ_１は、前記第３画像セットに対応するラベル付き情報を表す。

さらに、本願実施例において、第３損失関数の計算方式を提供し、上記の方式を介して、第３損失関数の生成に具体的な実現根拠を提供し、それにより、モデルトレーニングの実行可能性及び動作可能性を向上させる。

以下は、本願における画像認識装置を詳細に説明し、図９を参照すると、図９は、本願実施例における画像認識装置の実施例の概略図であり、画像認識装置４０は、取得モジュール４０１と、展示モジュール４０２と、を備え、
前記取得モジュール４０１は、認識対象となる画像を取得するように構成され、
前記取得モジュール４０１は、さらに、画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得するように構成され、ここで、前記画像認識モデルは、上記の図３に対応する各実施例による画像認識モデルであり、
前記展示モジュール４０２は、前記取得モジュール４０１によって取得される前記画像認識結果を展示するように構成される。

本願実施例において、画像認識装置を提供し、即ち、まず、認識対象となる画像を取得し、その後、それをトレーニングされた画像認識モデルに入力して、画像認識モデルによって画像認識結果を出力し、最後に、当該画像認識結果を展示する。上記の方式を介して、本願による画像認識モデルを使用して自動診断を実行するとき、ニーズに応じて、対応するタスクでの認識結果を展示し、医師の診断を補助して、特に、関連する臨床的経験が足りない医師にとって、医師をより効果的に助けて、検査中の誤診や見逃し診断を減らせる。

本願による画像認識モデルのトレーニング装置及び画像認識装置は、電子機器に配置することができ、当該電子機器はサーバであってもよいし、端末機器であってもよい。

図１０を参照すると、図１０は、本願実施例によるサーバの例示的な構造図であり、当該サーバ５００は、構成又は性能の異なりにより比較的に大きい差異があり得、１つ又は１つ以上の中央プロセッサ（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ）５２２（例えば、１つ又は１つ以上のプロセッサ）及びメモリ５３２、１つ又は１つ以上のアプリケーションプログラム５４２又はデータ５４４が記憶された記憶媒体５３０（例えば、１つ又は１つ以上の大容量記憶機器）を備えることができる。ここで、メモリ５３２及び記憶媒体５３０は、一時的な記憶又は持続的な記憶であり得る。記憶媒体５３０に記憶されたプログラムは、１つ又は１つ以上のモジュール（未図示）を含み得、各モジュールは、サーバでの一連の命令動作を含み得る。さらに、中央プロセッサ５２２は、記憶媒体５３０と通信し、サーバ５００で記憶媒体５３０内の一連の命令動作を実行するように設定することができる。

サーバ５００は、さらに、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭなどの、１つ又は１つ以上の電源５２６、１つ又は１つ以上の有線又は無線ネットワークインターフェース５５０、１つ又は１つ以上の入力出力インターフェース５５８、及び／又は、１つ又は１つ以上の動作システム５４１を含み得る。

上記の実施例における、サーバによって実行されたステップは、当該図１０に示されたサーバ構造に基づくことができる。

本願実施例において、当該サーバに含まれるＣＰＵ５２２は、さらに、以下の機能を有する。

トレーニング対象となる画像セットを取得し、ここで、トレーニング対象となる画像セットは、少なくとも、第１画像セット、第２画像セット及び第３画像セットを含み、第１画像セットは、少なくとも１つの第１画像を含み、第２画像セットは、少なくとも１つの第２画像及び少なくとも１つの干渉画像を含み、第３画像セットは、少なくとも１つの第３画像を含み、第１画像は、第１タスクに対応するラベル付き画像であり、第２画像は、第１タスクに対応するラベルなし画像であり、第３画像は、第２タスクに対応するラベル付き画像であり、第１タスク及び第２タスクは異なるタスクに属し、
トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得し、ここで、第１予測確率は、第１画像セットに基づいて出力される予測結果であり、第２予測確率及び第３予測確率は、第２画像セットに基づいて出力される予測結果であり、第４予測確率は、第３画像セットに基づいて出力される予測結果であり、
第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定し、ここで、ターゲット損失関数は、少なくとも、第１損失関数、第２損失関数及び第３損失関数を含み、第１損失関数は、第１予測確率によって決定されるものであり、第２損失関数は、第２予測確率及び第３予測確率によって決定されるものであり、第３損失関数は、第４予測確率によって決定されるものであり、
ターゲット損失関数に基づいて、トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得する。

認識対象となる画像を取得し、
画像認識モデルを介して認識対象となる画像に対応する画像認識結果を取得し、ここで、画像認識モデルは上記の図３に対応する各実施例における画像認識モデルであり、
画像認識結果を展示する。

本願実施例は、さらに、別の画像認識モデルのトレーニング装置及び画像認識装置を提供し、図１１に示されたように、説明の便宜上、本願実施例に関連する部分のみを示し、具体的な技術的詳細は示しておらず、本願実施例の方法部分を参照されたい。当該端末機器は、携帯電話、タブレット、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、販売端末機器（ＰＯＳ：ＰｏｉｎｔｏｆＳａｌｅｓ）、車載コンピュータなどを含む任意の端末機器であり得、端末機器が携帯電話であることを例として、
図１１は、本願実施例による端末機器に関連する携帯電話の構造の一部のブロック図を示す。図１１を参照すると、携帯電話は、無線周波数（ＲＦ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙ）回路６１０、メモリ６２０、入力ユニット６３０、ディスプレイユニット６４０、センサ６５０、オーディオ回路６６０、ワイヤレス・フィディリティ（ＷｉＦｉ：ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ）モジュール６７０、プロセッサ６８０、及び電源６９０などの部品を備え、ここで、入力ユニット６３０は、タッチパネル６３１及び他の入力機器６３２を備えることができ、ディスプレイユニット６４０は、ディスプレイパネル６４１を備えることができ、オーディオ回路６６０には、スピーカ６６１及びマイクロフォン６６２が接続されている。当業者なら自明であるが、図１１で示された携帯電話の構造は、携帯電話への限定を構成せず、図に示されるよりも多いまたは少ない部品を備えるか、またはいくつかの部品を組み合わせるか、または異なる部品で配置することができる。

ここで、メモリ６２０は、ソフトウェアプログラム及びモジュールを記憶するように構成でき、プロセッサ６８０は、メモリ６２０に記憶されたソフトウェアプログラム及びモジュールを実行することによって、携帯電話の様々な機能アプリケーション及びデータ処理を実行する。メモリ６２０は、主に、プログラム記憶エリア及びデータ記憶エリアを含み得、ここで、プログラム記憶エリアは、操作システム、少なくとも１つの機能に必要なアプリケーションプログラム（例えば、音声再生機能、画像再生機能など）などを記憶することができ、データ記憶エリアは、携帯電話の使用によって作成されたデータ（例えば、オーディオデータ、電話帳など）などを記憶することができる。

ここで、プロセッサ６８０は、携帯電話のコントロールセンタであり、様々なインターフェース及び回線を使用してすべての携帯電話の各部分を接続し、メモリ６２０内に記憶されたソフトウェアプログラム及び／又はモジュールを動作又は実行し、及びメモリ６２０内に記憶されたデータを呼び出すことにより、携帯電話の様々な機能の実行およびデータの処理を実行し、それにより、携帯電話に対して全体的な監視を実行する。

本願実施例において、当該端末機器に含まれるプロセッサ６８０は、さらに、以下の機能を有する。

図１２は、本願の実施形態の内視鏡医療診断システム７０の構造図を示す。本実施形態の内視鏡医療診断システム８０は、内視鏡ビジネスを補助するためのシステムである。内視鏡医療診断システム７０は、プローブ７０１、プロセッサ７０２、ディスプレイ７０３、回路７０４及びインターフェース７０５を備える。内視鏡医療診断システム７０は、端末機器８０と協働して作業することができる。プローブ７０１は、具体的には、内視鏡プローブであり得、食道、胃腸、気管支などに挿入して、リアルタイムの撮影イメージングを実行することができる。内視鏡プローブを使用することにより、医師は、腫瘍の成長レベル、浸潤の深さを明確に特定することができる。なお、内視鏡プローブは、腸の近くの臓器のイメージングに適用されることができ、膵臓、胆管、胆嚢の病変の診断に役立つ。

プロセッサ７０２は、プローブ７０１によって撮影された内視鏡画像を認識して、認識結果を生成するように構成される。ディスプレイ７０３は、プロセッサ７０２によって入力された影像信号に従って病変の認識結果を表示し、当該病変の認識結果は、具体的は、影像結果であり、プローブ７０１によって撮影して得られた影像をリアルタイムで表示することができる。回路７０４は、内視鏡医療診断システム７０の内部が正常に作業でき、端末機器８０と通信接続を確立できるようにするために、内視鏡医療診断システム７０内の各モジュールを接続し、電気信号を提供するように構成される。

内視鏡医療診断システム７０は、収集された内視鏡画像を直接に認識したり処理することができ、インターフェース７０５を介して、端末機器８０に収集された内視鏡画像を送信することもでき、端末機器８０によって内視鏡画像を認識したり処理する。端末機器８０は、内視鏡医療診断システム７０から送信された病変の認識結果に基づいて、電子カルテ、処方箋を作成するか、直接に印刷することができる。

本願実施例において、当該内視鏡医療診断システムに含まれるプロセッサ７０２は、さらに、以下の機能を有する。

例示的に、当該内視鏡医療診断システムに含まれるプロセッサ７０２は、具体的には、
第１画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率を取得し、
第２画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第２予測確率及び第３予測確率を取得し、
第３画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第４予測確率を取得する、ステップを実行するように構成される。

例示的に、当該内視鏡医療診断システムに含まれるプロセッサ７０２は、具体的には、
少なくとも１つの第１画像に基づいて、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第１予測値を取得し、
第１予測値に対して正規化処理を実行して、第１予測確率を取得する、ステップを実行するように構成される。

例示的に、当該内視鏡医療診断システムに含まれるプロセッサ７０２は、具体的には、
少なくとも１つの第２画像に従って第１干渉画像セットを生成し、ここで、第１干渉画像セットは、少なくとも１つの第１干渉画像を含み、第１干渉画像は第２画像と対応関係を有し、第１干渉画像は干渉画像に属し、
少なくとも１つの第２画像に従って第２干渉画像セットを生成し、ここで、第２干渉画像セットは、少なくとも１つの第２干渉画像を含み、第２干渉画像は第２画像と対応関係を有し、第２干渉画像は干渉画像に属し、
少なくとも１つの第２画像及び第１干渉画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第２予測確率を取得し、
少なくとも１つの第２画像及び第２干渉画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第３予測確率を取得する、ステップを実行するように構成される。

例示的に、当該内視鏡医療診断システムに含まれるプロセッサ７０２は、具体的には、
少なくとも１つの第３画像に基づいて、トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第４予測値を取得し、
第４予測値に対して正規化処理を実行して、第４予測確率を取得する、ステップを実行するように構成される。

例示的に、当該内視鏡医療診断システムに含まれるプロセッサ７０２は、具体的には、
第１予測確率及び第１画像セットに対応するラベル付き情報に従って、第１損失関数を計算し、
第２予測確率及び第３予測確率に従って、第２損失関数を計算し、
第４予測確率及び第３画像セットに対応するラベル付き情報に従って、第３損失関数を計算し、
エントロピ損失関数及び正則化損失関数を取得し、
第１損失関数、第２損失関数、第３損失関数、エントロピ損失関数及び正則化損失関数に従って、ターゲット損失関数を計算する、ステップを実行するように構成される。

当業者なら自明であるが、説明の便宜上および簡潔さのために、上記に説明されるシステム、装置およびユニットの具体的な作業プロセスは、上記の方法の実施例における対応するプロセスを参照することができ、ここでは繰り返して説明しない。

30 画像認識モデルのトレーニング装置
40 画像認識装置
70 内視鏡医療診断システム
80 端末機器
301 取得モジュール
302 決定モジュール
303 トレーニングモジュール
401 取得モジュール
402 展示モジュール
500 サーバ
522 中央プロセッサ
526 電源
530 記憶媒体
532 メモリ
541 動作システム
542 アプリケーションプログラム
544 データ
550 有線又は無線ネットワークインターフェース
558 入力出力インターフェース
610 ＲＦ回路
620 メモリ
630 入力ユニット
631 タッチパネル
632 他の入力機器
640 ディスプレイユニット
641 ディスプレイパネル
650 センサ
660 オーディオ回路
661 スピーカ
662 マイクロフォン
670 ＷｉＦｉモジュール
680 プロセッサ
690 電源
702 プロセッサ
703 ディスプレイ
704 回路
705 インターフェース

Claims

電子機器が実行する、画像認識モデルのトレーニング方法であって、
トレーニング対象となる画像セットを取得するステップであって、前記トレーニング対象となる画像セットは、少なくとも、第１画像セット、第２画像セット及び第３画像セットを含み、前記第１画像セットは、少なくとも１つの第１画像を含み、前記第２画像セットは、少なくとも１つの第２画像及び少なくとも１つの干渉画像を含み、前記第３画像セットは、少なくとも１つの第３画像を含み、前記第１画像は、第１タスクに対応するラベル付き画像であり、前記第２画像は、前記第１タスクに対応するラベルなし画像であり、前記第３画像は、第２タスクに対応するラベル付き画像であり、前記第１タスク及び前記第２タスクは異なるタスクに属する、ステップと、
前記トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得するステップであって、前記第１予測確率は、前記第１画像セットに基づいて出力される予測結果であり、前記第２予測確率及び前記第３予測確率は、前記第２画像セットに基づいて出力される予測結果であり、前記第４予測確率は、前記第３画像セットに基づいて出力される予測結果である、ステップと、
前記第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定するステップであって、前記ターゲット損失関数は、少なくとも、第１損失関数、第２損失関数及び第３損失関数を含み、前記第１損失関数は、前記第１予測確率によって決定されるものであり、前記第２損失関数は、前記第２予測確率及び前記第３予測確率によって決定されるものであり、前記第３損失関数は、前記第４予測確率によって決定されるものである、ステップと、
前記ターゲット損失関数に基づいて、前記トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得するステップと、
を含む、画像認識モデルのトレーニング方法。
前記トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得する、前記ステップは、
前記第１画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第１予測確率を取得する、ステップと、
前記第２画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第２予測確率及び前記第３予測確率を取得する、ステップと、
前記第３画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第４予測確率を取得する、ステップと、
を含む、請求項１に記載の画像認識モデルのトレーニング方法。
前記第１画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第１予測確率を取得する、前記ステップは、
前記少なくとも１つの第１画像に基づいて、前記トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第１予測値を取得する、ステップと、
前記第１予測値に対して正規化処理を実行して、前記第１予測確率を取得する、ステップと、
を含む、請求項２に記載の画像認識モデルのトレーニング方法。
前記少なくとも１つの第２画像に従って第１干渉画像セットを生成する方式であって、前記第１干渉画像セットは、少なくとも１つの第１干渉画像を含み、前記第１干渉画像は前記第２画像と対応関係を有し、前記第１干渉画像は前記干渉画像に属する方式と、
前記少なくとも１つの第２画像に従って第２干渉画像セットを生成する方式であって、前記第２干渉画像セットは、少なくとも１つの第２干渉画像を含み、前記第２干渉画像は前記第２画像と対応関係を有し、前記第２干渉画像は前記干渉画像に属する方式と、を介して前記第２画像セットを生成し、
前記第２画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第２予測確率及び前記第３予測確率を取得する、前記ステップは、
前記少なくとも１つの第２画像及び前記第１干渉画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第２予測確率を取得する、ステップと、
前記少なくとも１つの第２画像及び前記第２干渉画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第３予測確率を取得する、ステップと、
を含む、請求項２に記載の画像認識モデルのトレーニング方法。
前記第３画像セットに基づいて、前記トレーニング対象となる画像認識モデルを介して、前記第４予測確率を取得する、前記ステップは、
前記少なくとも１つの第３画像に基づいて、前記トレーニング対象となる画像認識モデルに含まれる全結合層を介して、第４予測値を取得する、ステップと、
前記第４予測値に対して正規化処理を実行して、前記第４予測確率を取得する、ステップと、
を含む、請求項２に記載の画像認識モデルのトレーニング方法。
前記第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定する、前記ステップは、
前記第１予測確率及び前記第１画像セットに対応するラベル付き情報に従って、前記第１損失関数を計算する、ステップと、
前記第２予測確率及び前記第３予測確率に従って、前記第２損失関数を計算する、ステップと、
前記第４予測確率及び前記第３画像セットに対応するラベル付き情報に従って、前記第３損失関数を計算する、ステップと、
エントロピ損失関数及び正則化損失関数を取得する、ステップと、
前記第１損失関数、前記第２損失関数、前記第３損失関数、前記エントロピ損失関数及び前記正則化損失関数に従って、前記ターゲット損失関数を計算する、ステップと、
を含む、請求項１に記載の画像認識モデルのトレーニング方法。
前記第１予測確率及び前記第１画像セットに対応するラベル付き情報に従って、前記第１損失関数を計算する、前記ステップは、

の方式を採用して、前記第１損失関数を計算する、ステップを含み、
前記Ｌ_ＣＥは、前記第１損失関数を表し、前記ｐ_０は、第１予測確率を表し、前記ｙ_０は、前記第１画像セットに対応するラベル付き情報を表す、
請求項６に記載の画像認識モデルのトレーニング方法。
前記第２予測確率及び前記第３予測確率に従って、前記第２損失関数を計算する、前記ステップは、

の方式を採用して、前記第２損失関数を計算する、ステップ、
又は、

の方式を採用して前記第２損失関数を計算する、ステップを含み、
前記Ｌ_Ｃｏｎは、前記第２損失関数を表し、前記Ｃは、タイプの総数を表し、前記ｋは、ｋ番目のタイプを表し、前記ｐ_ｓは、前記第２予測確率を表し、前記ｐ_ｒは、前記第３予測確率を表す、
請求項６に記載の画像認識モデルのトレーニング方法。
前記第４予測確率及び前記第３画像セットに対応するラベル付き情報に従って、前記第３損失関数を計算する、前記ステップは、

の方式を採用して、前記第３損失関数を計算する、ステップを含み、
前記Ｌ_ＭＴＬは、前記第３損失関数を表し、前記ｐ_１は、前記第４予測確率を表し、前記ｙ_１は、前記第３画像セットに対応するラベル付き情報を表す、
請求項６に記載の画像認識モデルのトレーニング方法。
電子機器が実行する、画像認識方法であって、
認識対象となる画像を取得する、ステップと、
画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得する、ステップであって、前記画像認識モデルは、上記の請求項１ないし９のいずれか一項に記載の画像認識モデルである、ステップと、
前記画像認識結果を展示する、ステップと、
を含む、画像認識方法。
画像認識モデルのトレーニング装置であって、取得モジュールと、決定モジュールと、トレーニングモジュールと、を備え、
前記取得モジュールは、トレーニング対象となる画像セットを取得するように構成され、前記トレーニング対象となる画像セットは、少なくとも、第１画像セット、第２画像セット及び第３画像セットを含み、前記第１画像セットは、少なくとも１つの第１画像を含み、前記第２画像セットは、少なくとも１つの第２画像及び少なくとも１つの干渉画像を含み、前記第３画像セットは、少なくとも１つの第３画像を含み、前記第１画像は、第１タスクに対応するラベル付き画像であり、前記第２画像は、前記第１タスクに対応するラベルなし画像であり、前記第３画像は、第２タスクに対応するラベル付き画像であり、前記第１タスク及び前記第２タスクは異なるタスクに属し、
前記取得モジュールはさらに、前記トレーニング対象となる画像セットに基づいて、トレーニング対象となる画像認識モデルを介して、第１予測確率、第２予測確率、第３予測確率及び第４予測確率を取得するように構成され、前記第１予測確率は、前記第１画像セットに基づいて出力される予測結果であり、前記第２予測確率及び前記第３予測確率は、前記第２画像セットに基づいて出力される予測結果であり、前記第４予測確率は、前記第３画像セットに基づいて出力される予測結果であり、
前記決定モジュールは、前記第１予測確率、第２予測確率、第３予測確率及び第４予測確率に従って、ターゲット損失関数を決定するように構成され、前記ターゲット損失関数は、少なくとも、第１損失関数、第２損失関数及び第３損失関数を含み、前記第１損失関数は、前記第１予測確率によって決定されるものであり、前記第２損失関数は、前記第２予測確率及び前記第３予測確率によって決定されるものであり、前記第３損失関数は、前記第４予測確率によって決定されるものであり、
前記トレーニングモジュールは、前記決定モジュールによって決定される前記ターゲット損失関数に従って、前記トレーニング対象となる画像認識モデルをトレーニングして、画像認識モデルを取得するように構成される、画像認識モデルのトレーニング装置。
画像認識装置であって、取得モジュールと、展示モジュールと、を備え、
前記取得モジュールは、認識対象となる画像を取得するように構成され、
前記取得モジュールはさらに、画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得するように構成され、前記画像認識モデルは、上記の請求項１ないし９のいずれか一項に記載の画像認識モデルであり、
前記展示モジュールは、前記取得モジュールによって取得される前記画像認識結果を展示するように構成される、画像認識装置。
メモリ、トランシーバ、プロセッサ及びバスシステムを備える、電子機器であって、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、上記の請求項１ないし９のいずれか一項に記載の方法を実行し、又は、上記の請求項１０に記載の方法を実行することを含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサが通信できるように構成される、
電子機器。
プローブ、回路、プロセッサ及びディスプレイを備える、内視鏡医療診断システムであって、
前記回路は、前記プローブを励起して、認識対象となる画像を取得させるように構成され、
前記プロセッサは、画像認識モデルを介して、前記認識対象となる画像に対応する画像認識結果を取得するように構成され、前記画像認識モデルは、上記の請求項１ないし９のいずれか一項に記載の画像認識モデルであり、
前記ディスプレイは、前記画像認識結果を表示するように構成される、
内視鏡医療診断システム。
命令を含み、コンピュータで実行されるとき、コンピュータに請求項１ないし９のいずれか一項に記載の方法、又は、請求項１０に記載の方法を実行させる、コンピュータプログラム。