JP2022518939A

JP2022518939A - 検出モデルのトレーニング方法、装置、コンピュータデバイス及びコンピュータプログラム

Info

Publication number: JP2022518939A
Application number: JP2021544225A
Authority: JP
Inventors: ▲澤▼群 ▲掲▼; 佳▲時▼ ▲馮▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-18
Filing date: 2020-06-12
Publication date: 2022-03-17
Anticipated expiration: 2040-06-12
Also published as: CN110599503A; CN110599503B; US20210390706A1; WO2020253629A1; CN110245662A; JP7208408B2; CN110245662B; KR20210122855A; EP3989119A1; US20240062369A1; US11842487B2; CN110490202B; CN110490202A; EP3989119A4

Abstract

本出願は、検出モデルのトレーニング方法、装置、コンピュータデバイス及び記憶媒体に関し、人工知能における機械学習に関連する。上記方法は、第１サンプル画像を分割して得られた候補画像領域集合を取得するステップと、候補画像領域にそれぞれ対応する第１関係度を取得するステップであって、第１関係度は、候補画像領域をそれぞれ第１検出モデルに入力し、出力される候補画像領域がターゲットオブジェクトを含む関係度である、ステップと、候補画像領域にそれぞれ対応する第２関係度を取得するステップであって、第２関係度は、候補画像領域をそれぞれ第２検出モデルに入力し、出力される候補画像領域がターゲットオブジェクトを含む関係度である、ステップと、第１関係度及び第２関係度に基づいて関係度変化値を得、関係度変化値に基づいて候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするステップと、ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップとを含む。

Description

（関連出願への相互参照）
本出願は、２０１９年６月１８日に中国特許庁に提出された、出願番号が第２０１９１０５２８００２．０号であり、出願名称が「検出モデルのトレーニング方法、装置、コンピュータデバイス及び記憶媒体」である中国特許出願に対する優先権を主張し、その全ての内容が参照により本明細書に組み込まれる。

本出願の実施例は、画像認識分野に関し、特に検出モデルのトレーニング方法、装置、コンピュータデバイス及び記憶媒体に関する。

画像認識技術とは、画像に含まれる物体を認識する技術を指し、よく見られる画像処理方式である。関連技術では、機械学習モデルにより、認識しようとする物体が画像に含まれるか否かを検出することができる。機械学習モデルに対してモデルトレーニングを行う時に、ターゲット物体を含む画像を取得してモデルトレーニングを行うことができ、それによって、機械学習モデルは、ターゲット物体を含む画像を認識するためのモデルパラメータが学習できる。しかしながら、通常、ターゲット物体を含む画像が大きく、それに対してターゲット物体が小さいため、学習したモデルオブジェクトの検出精度が低い。

本出願の様々な実施例によれば、検出モデルのトレーニング方法、装置、コンピュータデバイス及び記憶媒体が提供される。

コンピュータデバイスによって実行される検出モデルのトレーニング方法は、第１サンプル画像を分割して得られた候補画像領域集合を取得するステップであって、前記候補画像領域集合に複数の候補画像領域が含まれる、ステップと、前記候補画像領域にそれぞれ対応する第１関係度を取得するステップであって、前記第１関係度は、前記候補画像領域をそれぞれ第１検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第１検出モデルは、前記第１サンプル画像に基づいてモデルトレーニングを行って得られるものである、ステップと、前記候補画像領域のそれぞれに対応する第２関係度を取得するステップであって、前記第２関係度は、前記候補画像領域をそれぞれ第２検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第２検出モデルは、前記第２サンプル画像を使用して前記第１検出モデルに対してモデルトレーニングを行って得られるものである、ステップと、前記第１関係度及び前記第２関係度に基づいて関係度変化値を得、前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするステップと、前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップであって、前記ターゲット検出モデルは検出対象画像に対してオブジェクト検出を行うために用いられる、ステップとを含む。

検出モデルのトレーニング装置は、第１サンプル画像を分割して得られた候補画像領域集合を取得するように構成される候補画像領域集合取得モジュールであって、前記候補画像領域集合に複数の候補画像領域が含まれる、候補画像領域集合取得モジュールと、前記候補画像領域にそれぞれ対応する第１関係度を取得するように構成される第１関係度取得モジュールであって、前記第１関係度は、前記候補画像領域をそれぞれ第１検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第１検出モデルは、前記第１サンプル画像に基づいてモデルトレーニングを行って得られるものである、第１関係度取得モジュールと、前記候補画像領域のそれぞれに対応する第２関係度を取得するように構成される第２関係度取得モジュールであって、前記第２関係度は、前記候補画像領域をそれぞれ第２検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第２検出モデルは、前記第２サンプル画像を使用して前記第１検出モデルに対してモデルトレーニングを行って得られるものである、第２関係度取得モジュールと、前記第１関係度及び前記第２関係度に基づいて関係度変化値を得、前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするように構成されるターゲット画像領域スクリーニングモジュールと、前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るように構成される第１モデルトレーニングモジュールであって、前記ターゲット検出モデルは検出対象画像に対してオブジェクト検出を行うために用いられる、第１モデルトレーニングモジュールとを備える。

コンピュータデバイスは、メモリとプロセッサとを備え、前記メモリにコンピュータ読み取り可能な命令が記憶され、前記コンピュータ読み取り可能な命令は、前記プロセッサによって実行されると、前記プロセッサに上記検出モデルのトレーニング方法のステップを実行させる。

１つ又は複数の不揮発性記憶媒体は、コンピュータ読み取り可能な命令を記憶しており、前記コンピュータ読み取り可能な命令は、１つ又は複数のプロセッサによって実行されると、前記プロセッサに上記検出モデルのトレーニング方法のステップを実行させる。

本出願の１つ又は複数の実施例の詳細は、以下の図面及び説明に記載される。本出願の他の特徴、目的及び利点は明細書、図面及び特許請求の範囲から明らかになる。

いくつかの実施例によって提供される検出モデルのトレーニング方法の適用環境図である。いくつかの実施例における検出モデルのトレーニング方法のフローチャートである。いくつかの実施例におけるサンプル画像を分割して得られた候補画像領域の概略図である。いくつかの実施例における検出モデルのトレーニング方法のフローチャートである。いくつかの実施例における検出モデルのトレーニング方法のフローチャートである。いくつかの実施例におけるオブジェクト検出モデルに対してモデルトレーニングを行う概略図である。いくつかの実施例における検出モデルのトレーニング方法のフローチャートである。いくつかの実施例における検出モデルのトレーニング方法のフローチャートである。いくつかの実施例におけるサンプル画像内のターゲット画像領域及び候補画像領域の位置の概略図である。いくつかの実施例における検出モデルのトレーニング方法のフローチャートである。いくつかの実施例における検出対象画像をターゲット検出モデルに入力し、出力されたオブジェクト検出結果の概略図である。いくつかの実施例における検出モデルのトレーニング装置の構造ブロック図である。いくつかの実施例によるコンピュータデバイスの内部構造ブロック図である。

本出願の実施例をより明確に説明するために、上記に実施例の説明に必要な図面を簡単に説明しているが、明らかに、上記に説明している図面は本出願の実施例にすぎず、当業者であれば、創造的な労力を払わなくても、これらの図面に基づいて他の図面を得ることができる。

本出願の目的、実施例及び利点をより明確にするため、以下に図面及び実施例を組み合わせて、本出願をさらに詳しく説明する。ここで説明する具体的な実施例は、本出願を解釈するためのものにすぎず、本出願を限定するためのものではないと理解すべきである。

本出願で使用される「第１」、「第２」などの用語は、本明細書で様々な要素を説明するためのものであるが、特に明記しない限り、これらの要素は、これらの用語によって限定されないことが理解できる。これらの用語は、要素と他の要素を区別するためのものにすぎない。例えば、本出願の範囲から逸脱しない前提で、第１画像領域を第２画像領域と称してもよく、同様に、第２画像領域を第１画像領域と称してもよい。

本出願の実施例における検出モデルは、人工知能モデルであってもよく、機械学習アルゴリズムにより学習した後、画像に対するターゲット検出に使用されてもよい。人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）は、デジタルコンピュータ又はデジタルコンピュータによって制御されるマシンを使用して人間の知能をシミュレート、延長及び拡張し、環境をセンシングし、知識を獲得し、知識を使用して最適結果を得る理論、方法、技術及びアプリケーションシステムである。言い換えれば、人工知能は、コンピュータサイエンスの総合技術であり、知能の実質を理解し、人間の知能と同じように反応できる新しいインテリジェントマシンを生み出すことを図る。人工知能とは、様々なインテリジェントマシンの設計原理と実現方法を研究して、マシンに知覚、推論、意思決定の機能を持たせる。

人工知能技術は、総合分野であり、関係する分野が広く、ハードウェアとソフトウェア両方にも関わる技術を含む。基本的な人工知能技術は、一般的に、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、オペレーション／相互作用システム、メカトロニクスなどの技術を含む。人工知能のハードウェア技術は、主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習などのいくつかの主要な方向を含む。

コンピュータビジョン技術（ＣＶ：ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）は、如何に機械に「見る」ようにさせるかを研究する科学であり、さらに、人間の目の代わりにカメラとコンピュータを使用してターゲットに対して認識、追跡、測定などの機械ビジョンを行い、さらにグラフィックス処理を行い、コンピュータに画像を処理させ、画像を、人間の目で観察し、又は機器に伝送して検出を行うのに適する画像にする。１つの科学学科として、コンピュータビジョンは、関連する理論と技術を研究し、画像や多次元データから情報を取得できる人工知能システムを構築しようとする。コンピュータビジョン技術は、通常、画像処理、画像認識、画像セマンティック理解、画像検索、ＯＣＲ、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ／行動識別、３次元物体再構築、３Ｄ技術、仮想現実、拡張現実、同期測位とマップ構築などの技術を含み、また、よく見られる顔認識、指紋認識などの生体特徴認識技術をさらに含む。

機械学習（ＭＬ：ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの複数の学科に関わる複数の分野をわたる学科であり、コンピュータがどのように人間の学習行為をシミュレート又は実現し、新しい知識又は技能を習得し、既存の知識構造を再構築してそれ自体の性能を継続的に向上させるかを研究する。機械学習は、人工知能のコアであり、コンピュータに知能を持たせるための基本的な手段であり、その用途が人工知能の各々の分野に及ぶ。機械学習と深層学習は、通常、人工ニューラルネットワーク、信頼度ネットワーク、強化学習、転移学習、帰納学習、教示学習などの技術を含む。

図１はいくつかの実施例によって提供される検出モデルのトレーニング方法の適用環境図である。図１に示すように、当該適用環境に、端末１１０及びサーバー１２０が含まれている。端末１１０は、カメラで画像を撮影し、サーバー１２０に送信することができ、サーバー１２０に、本出願の実施例で提供される方法によってモデルのトレーニングを行うことで得られたターゲット検出モデルが記憶され、サーバー１２０は、ターゲット検出モデルを使用し、撮影された画像に対してオブジェクト検出を行い、画像に含まれるターゲットオブジェクトの具体的な位置を取得することができる。サーバー１２０は、ターゲットオブジェクトの位置をアノテーションした画像を端末１１０に返信し、端末１１０は、ターゲットオブジェクトの位置をアノテーションした画像を表示することができる。

いくつかの実施例では、端末１１０にターゲット検出モデルを記憶してもよく、端末１１０は、ターゲット検出モデルを使用して画像内のターゲットオブジェクトの位置を検出するステップを実行する。

サーバー１２０は、独立した物理サーバーであってもよいし、複数の物理サーバーで構成されるサーバークラスターであってもよく、クラウドサーバー、クラウドデータベース、クラウドストレージ及びＣＤＮなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバーであってもよい。端末１１０は、スマートフォン、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、スマートスピーカー、スマートウォッチ、Ｘ線機器などの医療機器などであってもよいが、これらに限定されない。端末１１０とサーバー１２０は、ネットワークなどの通信接続方式で接続することができ、本出願で限定されない。

図２に示すように、いくつかの実施形態では、検出モデルのトレーニング方法を提出し、本実施例では、この方法を上記図１のサーバー１２０に適用することを例として説明する。具体的には以下のステップを含むことができる。

ステップＳ２０２において、第１サンプル画像を分割して得られた候補画像領域集合を取得し、候補画像領域集合に複数の候補画像領域が含まれる。

具体的には、サンプル画像は、モデルトレーニングに使用される画像である。サンプル画像にターゲットオブジェクトが含まれ、ターゲットオブジェクトとは、検出対象である物体を指し、ターゲットオブジェクトは、具体的な応用シーンによって異なってもよく、例えば、ターゲットオブジェクトは、動物、植物又は物品の少なくとも１つであってもよい。具体的には、腫れ物、自動車又は歩行者などであってもよい。「複数」は少なくとも２つを意味している。候補画像領域は、サンプル画像を分割して得られた画像領域であり、候補画像領域集合の数は、必要に応じて設定されてもよく、例えば、３０００個であってもよく、即ち１枚の画像を分割して３０００個の画像領域を取得することができる。候補画像領域は、第１サンプル画像のサイズよりも小さく、候補画像領域集合内の候補画像領域には、重複領域が存在してもよいし、重複領域が存在しなくてもよい。候補画像領域のサイズは、同じであっても異なっていてもよい。例えば、図３に示すように、サンプル画像を分割して候補画像領域を取得することを示す概略図であり、サンプル画像は、Ａ、Ｂ、Ｃの３つの候補領域を含むことができる。ここで、ＡとＢの間に重複領域があり、ＡとＢのサイズは同じであり、Ｃの画像サイズはＡとＢの画像サイズよりも小さい。

いくつかの実施例では、候補画像領域の分割方法は、必要に応じて設定されてもよく、例えば、教師なしアルゴリズムに基づき、領域類似性によってサンプル画像を複数の画像領域に分割することができる。教師なしでの候補領域の取得方法では、アノテーションが必要ではなく、画像の下位層の視覚的特徴に基づいて、ターゲットオブジェクトを含む確率が高い領域を抽出することができ、確率は、予め設定された確率、例えば０．８よりも高いものであってもよい。例えば、異常組織の結節又は腫れ物などの病巣を含む領域を抽出する。教師なしでの候補領域生成方法により、ターゲットを含む可能性のある数千の候補領域を取得することができる。教師なしの分割アルゴリズムは、フラグメントグルーピング方法（ｇｒｏｕｐｉｎｇｍｅｔｈｏｄ）とウィンドウスコアリング方法（ｗｉｎｄｏｗｓｃｏｒｉｎｇｍｅｔｈｏｄ）を含むことができる。ここで、フラグメントグルーピング方法は、画像をウルトラピクセルブロックに分割することができ、グルーピング法によりターゲットを含む可能性のある複数の候補領域を生成でき、例えば、ＭＣＧ（ｍｕｌｔｉｓｃａｌｅｃｏｍｂｉｎａｔｏｒｉａｌｇｒｏｕｐｉｎｇ：マルチスケールコンビナトリアルグループ化）又は選択的検索アルゴリズムにより複数の候補領域を取得することができる。ウィンドウスコアリング方法は、例えばＥｄｇｅＢｏｘアルゴリズムであってもよく、ＥｄｇｅＢｏｘは、エッジ特徴抽出によりターゲット検出を行う方法であり、当該アルゴリズムは、境界ボックスに含まれる完全な輪郭の数によって、ターゲットオブジェクトを含む確率を表すことができ、これに基づいて当該境界ボックスをスコアリングし、スコアが一定の閾値を超える境界ボックスに対応する領域を候補領域として残す。

いくつかの実施例では、サンプル画像はマンモグラフィ画像であり、マンモグラフィ画像は、医療機器（Ｘ線機器など）で撮影された白黒画像を指す。ターゲットオブジェクトは、腫れ物、例えば乳癌のしこりであってもよい。モデルトレーニングは、最終的に得られたターゲット検出モデルにより画像内のターゲットオブジェクトの位置を正確に検出することを目的としている。

ステップＳ２０４において、候補画像領域にそれぞれ対応する第１関係度を取得し、第１関係度は、候補画像領域をそれぞれ第１検出モデルに入力し、出力される候補画像領域がターゲットオブジェクトを含む関係度であり、第１検出モデルは第１サンプル画像に基づいてモデルトレーニングを行って得られるものである。

具体的には、関係度は、候補画像領域がターゲットオブジェクトの所在する画像領域である可能性、即ち、候補画像領域にターゲットオブジェクトが含まれる可能性を示す。関係度は確率で表されてもよい。１つの画像領域に対応する関係度が大きいほど、当該画像領域がターゲットオブジェクトの所在する画像領域である可能性が高くなる。検出モデルは、候補画像領域がターゲットオブジェクトの所在する画像領域である関係度を計算するための人工知能モデルであり、画像内のターゲットオブジェクトの所在する位置又は画像にターゲットオブジェクトが含まれる確率の少なくとも１つを出力することができる。ターゲットオブジェクトの所在する位置は、ターゲットオブジェクトの中心座標、高さ及び幅で表されてもよく、中心座標、高さ及び幅によって１つの位置領域を決定することができ、当該位置領域はターゲットオブジェクトの所在する位置である。第１検出モデルは、第１サンプル画像に基づいてモデルトレーニングを行って得られるものであるものであり、第１サンプル画像は、１つ又は複数が含まれても良い。例えば、第１サンプル画像をａとすると、第１検出モデルは、ａに基づいてモデルトレーニングを行って得られるものである。第１サンプル画像に基づいてモデルトレーニングを行う時に、サンプル画像全体を、ターゲットオブジェクトを含む画像として使用することができ、サンプル画像を複数の候補画像領域に分割して、ターゲットオブジェクトの所在する画像領域である可能性が高い領域を選択し、例えば、関係度が予め設定される関係度より大きい領域を選択して、モデルトレーニングを行い、第１検出モデルを取得することができる。

モデルトレーニングを行う時に、教師ありトレーニング方法を使用することができ、画像をモデルに入力し、モデルにより画像内のターゲットオブジェクトの所在位置を予測することができる。画像内のターゲットオブジェクトの実際の位置と予測位置の差に基づいて損失値を取得し、差が大きいほど、損失値が大きくなり、勾配降下法を使用して、損失値が小さくなる方向に向かってモデルパラメータを調整することができる。損失値を計算する時に、予測されたターゲットオブジェクトの位置の中心座標と実際のターゲットオブジェクトの中心座標との差に基づいて第１損失値を得、予測された関係度と実際の関係度に基づいて第２損失値を得、第１損失値及び第２損失値に基づいて合計損失値を得ることができる。また、予測された幅と実際の幅の差に基づいて計算された損失値と、予測された高さと実際の高さの差に基づいて計算された損失値とを組み合わせて、合計損失値を得ることもできる。

ステップＳ２０６において、候補画像領域にそれぞれ対応する第２関係度を取得し、第２関係度は、候補画像領域をそれぞれ第２検出モデルに入力し、出力される候補画像領域がターゲットオブジェクトを含む関係度であり、第２検出モデルは、第２サンプル画像を使用して第１検出モデルに対してモデルトレーニングを行って得られるものである。

具体的には、第１サンプル画像と第２サンプル画像は異なるサンプル画像である。第２検出モデルは、第１検出モデルに基づいてモデルトレーニングを行うことで得られるものであってもよく、即ち、モデルトレーニングを行って第１検出モデルを得てから、第２サンプル画像を使用して継続的にモデルトレーニングして得られるものであってもよい。第２サンプル画像は、複数含まれてもよい。第２サンプル画像に基づいてモデルトレーニングを行う時に、第２サンプル画像全体を、ターゲットオブジェクトを含む画像として使用することができ、サンプル画像を複数の候補画像領域に分割して、ターゲットオブジェクトの所在する画像領域である可能性が高い領域を選択し、例えば、関係度が予め設定された関係度より大きい領域を選択して第１検出モデルに対して継続的にモデルトレーニングし、第２検出モデルを得ることもできる。

ステップＳ２０８において、第１関係度及び第２関係度に基づいて関係度変化値を得、関係度変化値に基づいて候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングする。

具体的には、関係度変化値は、第１関係度から第２関係度への変化の大きさを示し、関係度変化値は、比の値又は差の値で表されてもよい。関係度変化値に基づき、候補画像領域集合から、予め設定された関係度変化条件を満たす候補画像領域をスクリーニングし、ターゲットオブジェクトを含むターゲット画像領域とすることができ、例えば、サンプル画像のうち、関係度変化値の最も大きい候補画像領域をターゲット画像領域として使用することができる。

いくつかの実施例では、第２関係度から第１関係度を引き算し又は第２関係度を第１関係度で割り算し、関係度変化値を得ることができる。例えば、第１関係度が０．６で、第２関係度が０．９２であるとすると、関係度変化値は０．９２－０．６＝０．３２である。

いくつかの実施例では、候補画像領域集合から、関係度変化値が予め設定された変化条件を満たす候補画像領域をスクリーニングし、ターゲットオブジェクトを含むターゲット画像領域とすることができ、予め設定された変化条件は、関係度変化値が予め設定された順位の前にソートされること、又は関係度変化値が予め設定された変化値より大きいことのうちの少なくとも１つを含み、関係度変化値は、降順でソートされる。

具体的には、予め設定された順位は必要に応じて設定されてもよく、例えば２である。予め設定された変化値は、必要に応じて任意の正数に設定されてもよく、例えば０．４であってもよい。関係度変化値は、降順でソートされ、変化値が大きいほど、順位が前になる。例えば、候補画像領域が４つであり、対応する関係度変化値がそれぞれ０．４３、０．３２、０．４１、０．０２であるとすると、０．４３に対応する候補画像領域は、第１位にソートされ、０．４１に対応する候補画像領域は第２位にソートされ、０．３２に対応する候補画像領域は第３位にソートされ、０．０２に対応する候補画像領域は第４位にソートされる。

いくつかの実施例では、関係度変化値に基づき、候補画像領域集合からターゲットオブジェクトが含まれない画像領域をスクリーニングすることができ、例えば、関係度変化値が第２の予め設定された順位の後にソートされた候補画像領域、又は関係度変化値が第２の予め設定された変化値よりも小さい候補画像領域をターゲットオブジェクトが含まれない画像領域とすることができ、第２の予め設定された値は負数であってもよく、このような画像領域を負例のサンプルに対応する画像領域としてモデルトレーニングを行う。

ステップＳ２１０において、ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得、ターゲット検出モデルは検出対象画像に対してオブジェクト検出を行うために用いられる。

具体的には、ターゲット画像領域を得た後、ターゲット画像領域を、ターゲットオブジェクトを含む領域、即ち正例のサンプルとしてターゲット画像領域を使用してモデルトレーニングを行い、ターゲット検出モデルを得る。ターゲット画像領域に基づいてトレーニングして得られた検出モデルをターゲットモデルとして使用することができ、ターゲット画像領域を使用してモデルトレーニングを行った後、他のサンプル画像を使用してトレーニングを継続し、ターゲット検出モデルを得ることもできる。ターゲット検出モデルは、トレーニング済みのモデルであり、検出待ち画像、即ち検出対象画像に対してオブジェクト検出を行うために用いられることが可能である。例えば、画像内のオブジェクトの位置を検出するために用いられてもよいし、画像にターゲットオブジェクトが含まれるか否かを検出するために用いられてもよい。

いくつかの実施例では、ターゲット画像領域に基づいて第２検出モデルをトレーニングして、ターゲット検出モデルを得ることができ、即ち、第２検出モデルのモデルパラメータを基にして、モデルパラメータを継続的に調整し、ターゲット検出モデルを得ることができる。

いくつかの実施例では、ターゲット画像領域との重畳度が高い画像領域、例えば、予め設定された重畳度より大きい画像領域を、ターゲットオブジェクトを含む画像領域として取得することができる。ターゲットオブジェクトの位置が複数の候補画像領域にわたっている可能性があるが、第１検出モデルと第２検出モデルの誤差により、検出が漏れる可能性があり、したがって、重畳度によりターゲット周辺の画像領域もターゲットオブジェクトを含む画像領域として使用されてもよい。

上記の検出モデルのトレーニング方法では、第１検出モデルは、第１サンプル画像に基づいてモデルトレーニングを行って得られるものであるものであり、第１サンプル画像に対する認識能力が高く、第２サンプルに基づいて継続的にトレーニングして得られた第２検出モデルは、モデルの汎用性を強化し、即ちサンプルに対するモデルの適応性を強化している。したがって、候補画像領域の前後の関係度の変化は、画像領域にターゲットオブジェクトが含まれるか否かを表すことができ、その故、関係度変化値に基づいて得られたターゲットオブジェクトを含む領域の精度が高く、そのため、第１サンプル画像からターゲットオブジェクトを含む画像領域を見つけて、それをサンプルとしてモデルトレーニングを行い、トレーニングによって得られたターゲット検出モデルの精度が高い。

検出モデルを使用して候補画像領域がターゲットオブジェクトを含む領域であるか否かを決定する時に、モデルによって出力される候補画像領域の関係度の決定要因は、主に２つの方面からのものであり、第１方面は、当該サンプル画像が検出モデルをトレーニングするために正例のサンプルとして使用されるか否かであり、検出モデルをトレーニングするために正例のサンプルとして使用される場合、オーバーフィットにより、モデルトレーニングによって得られた第１検出モデルを使用して当該候補画像領域を評価する場合、出力される関係度が高い。第２方面は、他のサンプル画像を使用して検出モデルを継続的にトレーニングした後、検出モデルの分類能力が強化され、したがって、他のサンプル画像を使用して第１検出モデルを継続的にトレーニングして得られた第２検出モデルの分類能力が強化され、ターゲットオブジェクトを含む候補画像領域のスコア値（即ち、出力される関係度）も向上することができる。したがって、他のサンプル画像（第２サンプル画像）でトレーニングして得られた第２検出モデルによって出力された候補画像領域の第２関係度が大きい場合、当該候補画像領域に対応する関係度変化値は、同一サンプル画像内の他の候補画像領域より大きく、これは、候補画像領域がターゲットオブジェクトを含む領域である可能性が高いことを示している。前回のトレーニング実施後のサンプルは、今回のトレーニングまでの時間内で、オブジェクト検出モデルをトレーニングするためにターゲットオブジェクトを含むサンプルとして再び使用されていないため、関係度変化値が高いことは第２方面の要因によるものであると裏付けられることができ、即ち、オブジェクト検出モデルは、他のサンプルをトレーニングすることによって分類能力が強化され、しかも当該サンプルは、ターゲットオブジェクトを含むものである。したがって、２回のトレーニング間の関係度変化値は、候補画像領域にターゲットオブジェクトが含まれるか否かを合理的に表すことができる。その故、第１サンプル画像のうち、関係度の変化が大きい候補画像領域を、ターゲットオブジェクトを含む画像領域として使用することができる。

候補画像領域がターゲットオブジェクトを含まないものである場合、当該候補画像領域を、ターゲットオブジェクトを含む領域としてモデルトレーニングを行っても、他のサンプル画像を使用して継続的にトレーニングした後、第２検出モデルを使用して関係度の予測を行う時に、検出モデルの分類能力が高くなるため、この候補画像領域の関係度が低いことは、ターゲットオブジェクトを含む画像領域ではないことを示し、そのため、本出願の実施例の方法により、ターゲットオブジェクトを含む画像領域を取得する精度を向上させることができる。

いくつかの実施例では、図４に示すように、第１サンプル画像を分割して得られた候補画像領域集合を取得する前に、前記方法は、ステップＳ４０２をさらに含み、ステップＳ４０２において、サンプル画像集合を取得し、サンプル画像集合に基づいて分割し、更新された第１サンプル画像と更新された第２サンプル画像を取得し、サンプル画像集合は複数のサンプル画像を含む。

具体的には、サンプル画像集合の画像の数は、必要に応じて設定されてもよく、例えば１０００個である。モデルトレーニングを行う時に、サンプル画像集合を使用してモデルトレーニングを行い、ターゲット検出モデルを得ることができる。サンプル画像集合で、第１サンプル画像と第２サンプル画像は、モデルトレーニングの実行に伴って継続的に更新される。例えば、１つのサンプル画像は、ある時点で第１サンプル画像として使用され、別の時点で第２サンプル画像として使用される。例えば、順次に、サンプル画像集合内の１つ又は複数の画像を第１サンプル画像として使用し、第１サンプル画像以外のサンプル画像を第２サンプル画像として使用する。実際の例として、サンプル集合に１０００個のサンプル画像があると仮定すると、１回目のモデルトレーニングの時に、１番目のサンプル画像を、第１サンプル画像として使用し、１番目のサンプル画像を使用してモデルトレーニングを行った後に、２番目のサンプル画像を第１サンプル画像として使用し、このように類推し、９９９番目のサンプル画像を使用してモデルトレーニングを行った後、１０００番目のサンプル画像を、第１サンプル画像として使用する。

また、図４に示すように、ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップＳ２１０は、以下のステップを含むことができる。

ステップＳ４０４において、ターゲット画像領域に基づいて第２検出モデルに対してモデルトレーニングを行い、第１サンプル画像に対応する更新後の第１検出モデルを得る。

具体的には、ターゲット画像領域に基づいて第２検出モデルに対してモデルトレーニングを行い、トレーニングして得られたモデルを、当該第１サンプル画像に基づいてトレーニングして得られたモデルとし、即ち、トレーニングして得られたモデルを使用して当該第１サンプル画像に対応する第１検出モデルを更新する。

ステップＳ４０６において、更新後の第１検出モデルが収束するか否かを判断する。

具体的には、モデルの収束は、モデルの損失値が第１閾値より小さいこと、モデルの損失値の変化値が第１変化値より小さいこと、又はモデルのパラメータの変化が第２変化値より小さいこと、のうちも少なくとも１つを含むことができる。第１検出モデルが収束する場合、ステップＳ４０８に入り、更新後の第１検出モデルをターゲット検出モデルとする。第１検出モデルが収束していない場合、ステップＳ４０２に戻り、即ち、サンプル画像集合に基づいて分割して更新された第１サンプル画像と更新された第２サンプル画像を取得するステップに戻り、サンプル集合の次のサンプル画像又は次のグループのサンプル画像を第１サンプル画像とする。更新後の第１検出モデルが収束し、ターゲット検出モデルを得るまで続く。

ステップＳ４０４における、第１サンプル画像に対応する更新後の第１検出モデルは、同一第１サンプル画像でトレーニングして得られた第１検出モデルを更新することを指すことが理解できる。ステップＳ４０２に戻った後、第１サンプル画像が変更され、そのため、第１サンプル画像に基づいてトレーニングして得られた第１検出モデルも変わる。例えば、第１サンプル画像がａであると仮定すると、更新された第１検出モデルは、ａに基づいてトレーニングして得られた検出モデルであり、ステップＳ４０２に戻った後、更新された第１サンプル画像がｂであると仮定すると、取得した第１検出モデルは、ｂに基づいてトレーニングして得られた検出モデルである。次回、ａを第１サンプル画像として使用する場合、取得したのはａに対応する更新後の第１検出モデルである。

ステップＳ４０８において、更新後の第１検出モデルをターゲット検出モデルとする。

本出願の実施例では、サンプル集合内の複数のサンプルに基づいてモデルトレーニングを行い、サンプル集合内の第１サンプル画像が更新されるものであるため、モデルに対して複数回のトレーニングを行い、モデルの精度を向上させることができる。

いくつかの実施例では、図５Ａに示すように、ステップ４０２、即ち、サンプル画像集合に基づいて分割して更新された第１サンプル画像と更新された第２サンプル画像を取得するステップは、以下のステップを含む。

ステップＳ５０２において、サンプル画像集合を複数のサンプル画像グループに分割する。

具体的には、１つのサンプル画像グループには複数のサンプル画像が含まれても良い。サンプル画像グループの数は、必要に応じて設定されてもよく、例えば１００個であってもよい。例えば、サンプル画像集合に１０００個のサンプル画像があると仮定すると、１０個毎に１グループにし、１００個のグループに分割することができる。

ステップＳ５０４において、サンプル画像グループをモデルパラメータ調整単位とし、サンプル画像集合から現在のサンプル画像グループを順次取得し、現在のサンプル画像グループのサンプル画像は第１サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第２サンプル画像である。

具体的には、サンプル画像グループをモデルパラメータ調整単位とすることは、１つのグループをトレーニング単位としてモデルパラメータを１回調整することを意味する。即ち、グループを単位として、グループごとにパラメータの勾配更新を１回行う。モデルの損失値を計算する時に、現在のサンプル画像グループのうち、第１サンプル画像の損失値の平均値を計算することができる。現在のサンプル画像グループ以外のサンプル画像グループとは現在のサンプル画像グループではないサンプル画像グループを指す。サンプル画像集合から現在のサンプル画像グループを順次取得することは、サンプル画像集合から現在のサンプル画像グループを順序で取得することを指す。例えば、サンプル画像グループが１０個であるとすると、１回目のモデルトレーニングの時に、１番目のサンプル画像グループを現在のサンプル画像グループとして使用し、２回目のモデルトレーニングの時に、２番目のサンプル画像グループを現在のサンプル画像グループとして使用する。したがって、第１サンプル画像を取得する時に、グループを単位として取得し、グループごとにモデルパラメータを１回調整し、そのため、モデルパラメータの調整はより正確になる。

いくつかの実施例では、図５Ａに示すように、第１モデルが収束していない場合、サンプル画像グループをモデルパラメータ調整単位とし、サンプル画像集合から現在のサンプル画像グループを順次取得するステップに戻り、現在のサンプル画像グループのサンプル画像は第１サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第２サンプル画像である。

いくつかの実施例では、複数ラウンドのモデルトレーニングを行うことができ、候補画像領域にそれぞれ対応する第１関係度を取得するステップは、前のラウンドのモデルトレーニングの時に同一サンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、更新された第１検出モデルとして使用し、更新された第１検出モデルによって候補画像領域にそれぞれ対応する第１関係度を取得するステップを含み、候補画像領域にそれぞれ対応する第２関係度を取得するステップは、現在のラウンドのモデルトレーニングの時に現在のサンプル画像グループのフォワードサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、更新された第２検出モデルとして使用し、更新された第２検出モデルによって候補画像領域にそれぞれ対応する第２関係度を取得するステップを含む。

具体的には、１ラウンドのトレーニングは、サンプル集合内のサンプル画像グループをすべてサンプルとして検出モデルをトレーニングしたことを指す。例えば、サンプル集合に１０００個のサンプル画像があり、１００個のグループに分割していると仮定すると、これらの１００個のグループのサンプル画像グループを順次現在のサンプル画像グループとして、モデルトレーニングを行ったことは、１ラウンドのモデルトレーニングである。本ラウンドは、現在のモデルトレーニングを行うラウンドを指し、前のラウンドは、本ラウンドの前のラウンドを指す。本ラウンドで現在のサンプル画像グループを使用してモデルトレーニングを行う時に、前のラウンドでモデルトレーニングを行う時に同一サンプル画像グループを使用してトレーニングした後に更新されたモデルを取得し、それを当該現在のサンプル画像グループに対応する第１検出モデルとし、即ち現在のサンプル画像グループ内の各第１サンプル画像に対応する第１検出モデルとする。現在のサンプル画像グループ内の各第１サンプル画像に対して、対応する候補画像領域を取得し、第１検出モデルに入力し、第１検出モデルは、候補画像領域にターゲットオブジェクトが含まれる第１関係度を出力する。

フォワードサンプル画像グループは、本ラウンドのモデルトレーニングの時に、当該現在のサンプル画像グループの前に検出モデルをトレーニングするために第１サンプル画像として既に使用されていたサンプル画像グループである。現在のサンプル画像グループにとって、第２検出モデルは、フォワードサンプル画像グループを使用してモデルトレーニングを行って得られたモデルである。現在のサンプル画像グループ内の各第１サンプル画像から、対応する候補画像領域を取得し、第２検出モデルに入力し、第２検出モデルは、候補画像領域にターゲットオブジェクトが含まれる第２関係度を出力する。したがって、同一候補画像領域に対して、第１関係度及び第２関係度に基づいて関係度変化値を得ることができ、各第１サンプル画像に対して、関係度変化値に基づいて候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングすることができる。

いくつかの実施例では、現在のサンプル画像グループが本ラウンドでトレーニングするためのサンプル画像グループである場合、前のラウンドで最後にトレーニングして得られた検出モデルを、更新された第２検出モデルとして使用することができる。

ターゲット画像領域を取得するための式は、式（１）で表してもよく、任意のサンプル画像について、第ｔ＋１ラウンドにおける正例のサンプル、即ちターゲット画像を含む画像領域は、第２関係度から第１関係度を減算して得られた関係度変化値が最も大きい候補画像領域を含み、第１関係度は、当該サンプル画像の所在するサンプル画像グループを使用して第ｔラウンドでトレーニングを行った後に得られた第１検出モデルにより、候補画像領域を処理して出力されるものである。第２関係度は、当該サンプル画像の前の一つのサンプル画像グループを使用して第ｔ＋１ラウンドでトレーニングを行った後に得られた第２検出モデルにより、候補画像領域を処理して出力されるものである。ここで、

は、第ｔ＋１ラウンドの時に、第２検出モデルによって出力されたｉ番目の候補画像領域に対応する第２関係度である。

は、第ｔラウンドの時に、第１検出モデルによって出力されたｉ番目の候補画像領域に対応する第１関係度であり、

は、第ｔ＋１ラウンドで、当該サンプル画像からスクリーニングされたターゲット画像領域であり、ａｒｇｍａｘは最大値を求めることを示す。

本出願の実施例によって提供されるオブジェクト検出モデルのトレーニング方法では、前のラウンドのモデルトレーニングの時に同一サンプル画像グループを使用してトレーニングした後に更新されたモデルを取得して、それを第１検出モデルとして使用することにより、本ラウンドのモデルトレーニングの時に現在のサンプル画像グループのフォワードサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、第２検出モデルとして使用する。これらの２つのモデルによって出力された関係度の変化に基づいて候補画像領域をターゲット画像領域としてスクリーニングする。したがって、異なるラウンドのモデルトレーニングでは、同一サンプル画像に対して、ターゲットオブジェクトを含む画像領域が動的に更新され、即ち、正例のサンプルは、モデルのトレーニングに伴って動的に更新され、モデルのトレーニングに伴い、モデルの精度が継続的に向上しているため、正例のサンプルの取得精度も継続的に向上し、その故、サンプルの品質とモデルの検出能力を同時に向上させることができる。

例えば、取得したサンプル画像が乳がんを含む画像として例にすると、図５Ｂに示すように、乳腺マンモグラフィのスキャノグラムを取得した後、教師なしの候補ボックス生成技術に基づいて複数の候補ボックスを生成することができ、候補ボックスで囲まれた領域が候補画像領域であり、各ラウンドのトレーニングにおいて、１つのサンプル画像のターゲット画像領域は、継続的に更新されているものであってもよく、更新されたターゲット画像領域を取得し、病巣検出器（即ちオブジェクト検出モデル）をトレーニングし、ターゲット検出モデルを得ることができる。例えば、サンプル画像ａの場合、第１ラウンドでは、第２画像領域がターゲット画像領域であり得、第２ラウンドでは、第３画像領域がターゲット画像領域であり得る。

いくつかの実施例では、図６に示すように、オブジェクト検出方法は以下のステップをさらに含むことができる。

ステップＳ６０２において、ターゲット画像分類モデルを取得する。

具体的には、画像分類モデルは、画像にターゲットオブジェクトが含まれるか否かを区別するためのモデルであり、画像をターゲット分類モデルに入力すると、ターゲット分類モデルは、当該画像にターゲットオブジェクトが含まれるか否かの結果、例えば、ターゲットオブジェクトが含まれる関係度を出力し、ターゲット画像分類モデルは、２クラス分類のネットワークモデルであってもよい。オブジェクト検出モデルは、画像内のターゲットオブジェクトの位置を検出するために使用されてもよく、また、画像にターゲットオブジェクトが含まれるか否かを検出するためにも使用されてもよく、即ち、画像を分類することもできる。ターゲット分類画像モデルは、サンプル集合内の完全なサンプル画像に基づいてトレーニングして得られたモデルであってもよく、画像レベルのアノテーション（即ちサンプル画像にターゲットオブジェクトが含まれるか否かをアノテーションしている）をついている画像をトレーニングサンプルとして使用して、画像にターゲットオブジェクトが含まれるか否かを認識するための深層畳み込みニューラルネットワークをトレーニンすることができる。トレーニングして得られたのは分類モデルであるため、サンプル集合内のサンプル画像を分割しなくてもよく、完全なサンプル画像に基づいてトレーニングして分類モデルを得ることもできる。

ターゲット分類モデルのネットワーク構造は、任意の画像分類ネットワーク構造であってもよく、例えばＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：残差ニューラルネットワーク）、ＡｌｅｘＮｅｔ、又はＧｏｏｇｌｅＮｅｔなどであってもよい。ＧｏｏｇＬｅＮｅｔは、Ｇｏｏｇｌｅ社が開発した深層ラーニングネットワークモデルである。ターゲット検出モデルは、任意のターゲット検出ネットワークであってもよく、例えばＦａｓｔｅｒＲＣＮＮ（ＲｅｇｉｏｎｓｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：領域畳み込みニューラルネットワーク）、ＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）又はＲＦＣＮ（Ｒｅｇｉｏｎ－ｂａｓｅｄＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ：領域に基づく完全畳み込みネットワーク）などであってもよい。ＹＯＬＯは、ターゲット検出アルゴリズムであり、オブジェクト検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）問題を回帰問題として扱い、畳み込みニューラルネットワーク構造によって入力画像を予測し、ターゲットオブジェクトが存在する画像領域とカテゴリ確率を予測することができる。

ステップＳ６０４において、サンプル集合内の各サンプル画像が対応する候補画像領域をそれぞれターゲット画像分類モデルに入力し、各サンプル画像の候補画像領域がターゲットオブジェクトの所在する領域である第３関係度を出力する。

具体的には、ターゲット分類モデルのモデルパラメータによって候補画像領域を処理し、各候補画像領域がターゲットオブジェクトを含む関係度を第３関係度として出力する。

ステップＳ６０６において、第３関係度に基づいて候補画像領域集合からターゲットオブジェクトを含む第２画像領域をスクリーニングする。

具体的には、第３関係度に基づき、候補画像領域から、第３関係度が関係度閾値より大きい画像領域又は関係度が事前に設定された順位の前にソートされる画像領域を、ターゲットオブジェクトを含む第２画像領域として取得することができる。関係度閾値は必要に応じて設定され、予め設定された順位は例えば２であってもよい。関係度の順位は、降順でソートして得られる順位である。例えば、各サンプル画像に対して、第３関係度の最も大きい候補画像領域を第２画像領域として使用することができる。

ステップＳ６０８において、第２画像領域に基づいてモデルトレーニングを行って、第１ラウンドでモデルトレーニングして得られた検出モデルを得る。

具体的には、第１ラウンドでモデルトレーニングを行う時に、サンプル画像グループをモデルパラメータ調整単位とし、サンプル画像集合から現在のサンプル画像グループを順次取得してモデルトレーニングを行うことができ、したがって、第１ラウンドでトレーニングを行うときの各サンプル画像グループに対応する第１検出モデルを得ることができ、第２ラウンドでモデルトレーニングを行う時に、第１ラウンドでトレーニングを行った時に同一サンプル画像グループを使用してトレーニングした後に得られたモデルを、第１検出モデルとすることができる。第１ラウンドでモデルトレーニングを行う時に、前のラウンドでトレーニングして得られたモデルが存在していないため、関係度変化値に基づいてターゲット画像領域を取得することができなく、その故、予めトレーニングして得られたターゲット分類モデルを使用して候補画像領域をスコアリングし（即ち関係度を出力し）、出力された関係度に基づいて関係度の高い画像領域を、ターゲットオブジェクトを含む画像領域としてスクリーニングし、第２画像領域が得られた後、第２画像領域を、ターゲットオブジェクトを含む領域とし、第２画像領域を使用してモデルトレーニングを行い、第１ラウンドでモデルトレーニングして得られた検出モデルを得ることができる。したがって、本出願の実施例によって提供されるオブジェクト検出モデルのトレーニング方法は、サンプル画像に、ターゲットオブジェクトを含むか否かのみをアノテーションし、ターゲットオブジェクトの具体的な位置をアノテーションしていない時に、モデルトレーニングを行い、第１ラウンドでモデルトレーニングして得られた検出モデルを得ることができ、これにより、後続のラウンドのモデルトレーニングを、第１ラウンドでトレーニングして得られたモデルで実行することができるようにする。即ち、本出願の実施例によって提供されるオブジェクト検出モデルのトレーニング方法は、弱教師ありモデルトレーニング方法であってもよい。モデルトレーニングを行う時に、サンプル画像に画像レベルのアノテーション（サンプル画像にターゲットオブジェクトがあるか否か）のみが含まれ、詳細な位置のアノテーションが含まれない（即ち、サンプル画像内のターゲットオブジェクトの具体的な位置がアノテーションされていない）場合でも、モデルトレーニングを行い、画像内のターゲットオブジェクトの具体的な位置を検出できるモデルを得ることができる。

いくつかの実施例では、図７に示すように、オブジェクト検出モデルのトレーニング方法は、以下のステップをさらに含むことができる。

ステップＳ７０２において、ターゲット画像領域と候補画像領域との画像重畳度を取得する。

具体的には、画像重畳度は、画像位置の重畳の度合いを示すために用いられ、画像重畳度が高いほど、位置重畳の度合いが高くなることを示す。ターゲット画像領域と候補画像領域集合のうち、各候補画像領域の画像重畳度を計算することができる。

いくつかの実施例では、位置重畳度は、第１面積及び第２面積との比によって取得されてもよい。第１面積は、画像内のターゲット画像領域と候補画像領域の重畳面積、即ち位置における共通集合が対応する面積である。第２面積は、画像内のターゲット画像領域と候補画像領域の位置の和集合に占有された面積である。画像重畳度の計算方法は式（２）で表されてもよく、「Ｉ」は位置重畳度を表し、ａｒｅａは面積を求めることを表し、Ａは、画像内のターゲット画像領域の現在の位置を指し、Ｂは、画像内の候補画像領域の基準位置を指す。「∩」は共通集合を求めることを指し、「∪」は和集合を求めることを指す。図８に示すように、いくつかの実施例におけるサンプル画像内のターゲット画像領域及び候補画像領域の位置の概略図である。ボックスＡは、画像内のターゲット画像領域の位置を表す。ボックスＢは、画像内の候補画像領域の位置を表す。図８では１つの格子は１つのピクセル点を表し、図８から、ＡとＢが重なり合う部分、即ち共通集合は、合計６つのピクセル点（５行目、４列目から６行目、６列目までのピクセル点）を占有していることがわかる。ＡとＢの和集合が合計１８個のピクセル点を占有し、この場合、位置重畳度は、６／１８＝０．３３である。

Ｉ＝ａｒｅａ（Ａ∩Ｂ）／ａｒｅａ（Ａ∪Ｂ）（２）

ステップＳ７０４において、画像重畳度が第１の予め設定された重畳度より大きい候補画像領域を第３画像領域として取得する。

具体的には、第１の予め設定された重畳度は、必要に応じて設定されてもよく、例えば０．５であってもよい。第３画像領域は、ターゲットオブジェクトを含む画像領域を指す。

ステップＳ２１０、即ちターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、第３画像領域及びターゲット画像領域を正例のサンプル画像領域として使用し、正例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップを含む。

具体的には、正例のサンプル画像領域とは、ターゲットオブジェクトを含む画像領域を指し、正例のサンプル画像領域は、それが対応する、ターゲットオブジェクトを含む関係度は、例えば確率は１であってもよく、即ちサンプルのアノテーション値は１である。関係度の変化に基づいてターゲットオブジェクトを含む画像領域をスクリーニングする時に、モデルに誤差がある可能性があり、ターゲットオブジェクトに占有された位置が複数の候補画像領域を含み得るため、重畳度に基づき、ターゲット画像領域との重畳度が高い候補画像領域を、ターゲットオブジェクトを含む画像領域として取得するため、より多い正確な正例のサンプルを取得してモデルトレーニングを行うことができ、これにより、トレーニングして得られたモデルの精度が向上する。

いくつかの実施例では、画像重畳度が第２の予め設定された重畳度よりも小さい候補画像領域を第４画像領域として取得することができ、第２の予め設定された重畳度は第１の予め設定された重畳度以下である。ステップＳ２１０、即ち、ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、第４画像領域を負例のサンプル画像領域として使用し、ターゲット画像領域グループを正例のサンプル画像領域として使用し、正例のサンプル画像領域及び負例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップを含む。

具体的には、第２の予め設定された重畳度は、第１の予め設定された重畳度以下であってもよく、例えば、第２の予め設定された重畳度は、０．５であってもよい。負例のサンプル画像領域とは、ターゲットオブジェクトを含まない画像領域を指し、負例のサンプル画像領域は、それが対応する、ターゲットオブジェクトが含まれる関係度は０であってもよく、即ちサンプルアノテーション値は０であってもよい。

いくつかの実施例では、第３画像領域及び第４画像領域は同時に取得されてもよく、第３画像領域及びターゲット画像領域を、正例のサンプル画像領域として使用し、第４画像領域を、負例のサンプル画像領域として使用する。正例のサンプル画像領域及び負例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得る。

いくつかの実施例では、ターゲット検出モデルを得た後、ターゲット検出モデルを使用してオブジェクト検出を行うことができ、図９に示すように、オブジェクト検出モデルのトレーニング方法は、以下のステップをさらに含むことができる。

ステップＳ９０２において、検出対象画像を取得し、検出対象画像を複数の第１画像領域に分割する。

具体的には、検出対象画像は、ターゲットオブジェクトの位置を検出しようとする画像である。ターゲット画像を複数の第１画像領域に分割する方法については、サンプル画像を複数の候補画像領域に分割する方法を参照することもでき、ここでは説明を省略する。ターゲット検出モデルによって画像分割を行ってもよい。

ステップＳ９０４において、各第１画像領域をそれぞれターゲット検出モデルに入力して、各第１画像領域にターゲットオブジェクトが含まれるターゲット関係度を取得する。

具体的には、ターゲット検出モデルは、トレーニングして得られたモデルパラメータに基づき、各第１画像領域をそれぞれ処理し、各第１画像領域にターゲットオブジェクトが含まれるターゲット関係度を予測して得ることができる。

ステップＳ９０６において、ターゲット関係度に基づき、複数の第１画像領域からターゲットオブジェクトを含む画像領域をスクリーニングして、検出対象画像内のターゲットオブジェクトの位置を得る。

具体的には、ターゲット検出モデルは、各第１画像領域がそれぞれ対応するターゲット関係度を取得した後、ターゲット関係度に基づき、複数の第１画像領域から、ターゲット関係度が予め設定された関係度より大きい画像領域又は関係度の順位が予め設定された順位より大きい画像領域を、ターゲットオブジェクトを含む画像領域としてスクリーニングし、検出対象画像内の、ターゲットオブジェクトを含む画像領域の位置を得ることができ、例えば、ターゲットオブジェクトを含む画像領域を、検出対象画像内にアノテーションボックスでアノテーションすることができ、関係度の順位は降順でソートされる。

例えば、図１０に示すように、検出対象画像を得た後、検出対象画像をターゲット検出モデルに入力することができ、ターゲット検出モデルは、検出対象画像内のターゲットオブジェクトの位置を出力し、図１０のボックスに示されているように、検出対象画像内のターゲットオブジェクトの位置を示す。

以下は、画像内の乳がんの位置を検出するためのモデルをトレーニングすることを例として、本出願の実施例によって提供される方法を説明する。前記方法は以下のステップを含むことができる。

１．サンプル画像集合を取得する。
具体的には、例えば、Ｘ線医療機器を用いて人の乳腺を撮影して得られたマンモグラフィ画像を取得することができ、サンプル画像集合内のサンプル画像は１万枚であってもよい。

２．サンプル画像集合を複数のサンプル画像グループに分割する。
例えば、１０枚を１サンプル画像グループとして、サンプル画像集合を１０００個のサンプル画像グループに分割する。

３．サンプル画像集合内の各サンプル画像を分割して、各サンプル画像に対応する候補領域集合を取得する。
例えば、ＭＣＧ法を使用し、各マンモグラフィ画像を分割し、各画像に対応する３０００個の候補画像領域を取得することができ、即ち、１枚のマンモグラフィ画像に３０００個の候補ボックスがあり得、１つの候補ボックスで囲まれる位置は１つの候補画像領域である。

４．サンプル画像グループをモデルパラメータ調整単位とし、サンプル画像集合から現在のサンプル画像グループを順次取得する。
具体的には、現在のサンプル画像グループが継続的に更新され、例えば、まず１番目のサンプル画像グループを現在のサンプル画像グループとして使用して、１回のモデルトレーニングを完了させ、モデルのパラメータを更新することができる。次に２番目のサンプル画像グループを取得し、再び１回のモデルトレーニングを完了させ、モデルのパラメータを更新する。１０００番目のサンプル画像グループを現在のサンプル画像グループとして使用して、１ラウンドのモデルトレーニングが完了するまで続く。

５．第１サンプル画像を分割して得られた候補画像領域集合を取得する。
具体的には、第１サンプル画像は、現在のサンプル画像グループ内のサンプル画像であり、ステップ３でサンプル画像の分割が既に完了し、したがって、ステップ３で得られた候補画像領域から、第１サンプル画像を分割して得られた候補画像領域集合を直接取得することができる。

７．前のラウンドのモデルトレーニングの時に同一サンプル画像グループを使用してトレーニングした後に更新されたモデルを、第１検出モデルとして使用し、第１検出モデルによって候補画像領域にそれぞれ対応する第１関係度を取得する。
具体的には、複数のラウンドのモデルトレーニングを行うことができる。例えば、第２ラウンドのモデルトレーニングを行う時に、現在のサンプル画像グループが８番目のサンプル画像グループである場合、第１ラウンドのモデルトレーニングの時に８番目のサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、第１検出モデルとして取得する。第３ラウンドでモデルトレーニングを行う時に、現在のサンプル画像グループが９番目のサンプル画像グループである場合、第２ラウンドトレーニングの時に９番目のサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、第１検出モデルとして取得する。現在のサンプル画像グループ内の各サンプル画像が対応する候補画像領域を第１検出モデルに入力して、候補画像領域に対応する第１関係度を取得する。
第１ラウンドでモデルトレーニングを行う時に、前のラウンドのモデルトレーニングがないため、完全なサンプル画像に基づいてトレーニングしてターゲット分類モデルを取得し、ターゲット分類モデルを使用してサンプル画像の各候補画像領域をスコアリングする（即ち第３関係度を出力する）ことができる。各サンプル画像に対して、第３関係度が最も高い候補画像領域を第２画像領域として使用し、第２画像領域に基づいて第１ラウンドでモデルトレーニングを行う。

８．現在ラウンドのモデルトレーニングの時に現在のサンプル画像グループのフォワードサンプルを使用してモデルトレーニングを行って得られたモデルを、更新された第２検出モデルとして使用し、更新された第２検出モデルによって候補画像領域にそれぞれ対応する第２関係度を取得する。
例えば、第２ラウンドでモデルトレーニングを行う時に、現在のサンプル画像グループが８番目のサンプル画像グループである場合、第２ラウンドのモデルトレーニングの時に７番目のサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、第２検出モデルとして取得する。第３ラウンドでモデルトレーニングを行う時に、現在のサンプル画像グループが９番目のサンプル画像グループである場合、第３ラウンドのモデルトレーニングの時に８番目のサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、第２検出モデルとして取得する。現在のサンプル画像グループ内の各サンプル画像が対応する候補画像領域を第２検出モデルに入力して、候補画像領域に対応する第２関係度を取得する。

９．第１関係度及び第２関係度に基づいて関係度変化値を得、関係度変化値に基づいて候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングする。
第２関係度から第１関係度を減算し、関係度変化値を得、各第１サンプル画像に対して、関係度変化値が最も大きい候補画像領域を、当該第１サンプル画像に乳がんが含まれる領域とすることができる。

１０．ターゲット画像領域に基づいて第２検出モデルに対してモデルトレーニングを行い、第１サンプル画像に対応する更新後の第１検出モデルを得る。

１１．第１検出モデルが収束するか否かを判断する。
第１検出モデルが収束する場合、更新後の第１検出モデルをターゲット検出モデルとして使用し、ステップ１２に入る。第１検出モデルが収束していない場合、ステップ４に戻る。

１２．更新後の第１検出モデルをターゲット検出モデルとする。
オブジェクト検出モデルをトレーニングする時に、通常、サンプルを動的に更新しないため、オブジェクト検出モデルをトレーニングする時に、初期に得られたサンプルは、ずっと、トレーニングサンプルとして使用される。また、サンプル画像内にターゲットオブジェクトの位置を手動でアノテーションするコストが高く、例えば、サンプル画像にターゲットオブジェクトの具体的な位置をアノテーションする時に、プロフェッショナルのアノテーション操作者が正確にアノテーションするために数分かかる必要があり、しかもターゲットオブジェクトの位置に対するアノテーションは客観的ではなく、アノテーション操作者のレベル、状態などの主観的要因に大きく影響されるため、大規模なターゲットオブジェクトの位置をアノテーションすることは、現実には非常に困難である。そのため、モデルトレーニングを行う時に、サンプル画像上にターゲットオブジェクトの位置をアノテーションしないケースが多く、サンプル画像全体をターゲットオブジェクトを含む画像として使用するため、モデルの精度を保証することが困難である。

本出願の実施例によってモデルトレーニング方法を採用する。画像レベルのアノテーションを実施するだけで、まず教師なしのターゲット候補ボックス技術により、乳がんの位置などのターゲットオブジェクトを含む可能性のある候補画像領域を得、第１ラウンドでトレーニングを行う時に、完全なサンプル画像でトレーニングして得られたターゲット分類モデルによって候補画像領域にターゲットオブジェクトが含まれる第３関係度を出力し、第３関係度に基づいてターゲットオブジェクトを含む可能性のある画像領域をスクリーニングし、初期のトレーニングサンプルとし、モデルトレーニングを行い、第１ラウンドでモデルトレーニングして得られた検出モデルを得ることができる。

後続のモデルトレーニングでは、連続する２ラウンドのトレーニングの間の関係度の変化が高い候補画像領域を選択し、当該反復トレーニングステップにおける新しい正例のサンプルとし、そのため、オブジェクト検出モデルのトレーニングサンプルを動的に更新することができる。連続する２ラウンドのトレーニングの間の関係度の変化は、候補画像領域のオブジェクト検出モデルにおける汎用性が強化された後、候補画像領域の品質に対する評価を表すことができ、関係度が高くなる候補画像領域ほど、直近の２ラウンドの反復トレーニングの間で、品質が高いとオブジェクト検出モデルによって評価され、即ち、ターゲットオブジェクトを含む可能性が高く、したがって、より高い信頼度がある画像領域を、ターゲットオブジェクトを含む画像領域としてモデルのトレーニングを行う。したがって、１ラウンドずつのモデルトレーニングの繰り返しにおいて、より品質の高い正例のサンプルを継続的に選択することによって、サンプルの品質と検出器の機能を共に向上させることができ、オブジェクト検出モデルの精度を、完全な教師ありの場合に近づけ、即ち、ターゲットオブジェクトの位置を手動でアノテーションする場合でトレーニングして得られた検出モデルの精度に近づけ、モデルトレーニングでサンプル画像内のターゲットオブジェクトの位置をアノテーションするニーズを大幅に軽減することがきる。

図１１に示すように、いくつかの実施例では、検出モデルのトレーニング装置が提供される。当該検出モデルのトレーニング装置は、上記のサーバー１２０に統合されてもよく、具体的には、候補画像領域集合取得モジュール１１０２、第１関係度取得モジュール１１０４、第２関係度取得モジュール１１０６、ターゲット画像領域スクリーニングモジュール１１０８及び第１モデルトレーニングモジュール１１１０を備えることができる。

候補画像領域集合取得モジュール１１０２は、第１サンプル画像を分割して得られた候補画像領域集合を取得するように構成され、候補画像領域集合に複数の候補画像領域が含まれる。

第１関係度取得モジュール１１０４は、候補画像領域にそれぞれ対応する第１関係度を取得するように構成され、第１関係度は、候補画像領域をそれぞれ第１検出モデルに入力し、出力される候補画像領域がターゲットオブジェクトを含む関係度であり、第１検出モデルは第１サンプル画像に基づいてモデルトレーニングを行って得られるものである。

第２関係度取得モジュール１１０６は、候補画像領域にそれぞれ対応する第２関係度を取得するように構成され、第２関係度は、候補画像領域をそれぞれ第２検出モデルに入力し、出力される候補画像領域がターゲットオブジェクトを含む関係度であり、第２検出モデルは、第２サンプル画像を使用して第１検出モデルに対してモデルトレーニングを行って得られるものである。

ターゲット画像領域スクリーニングモジュール１１０８は、第１関係度及び第２関係度に基づいて関係度変化値を得、関係度変化値に基づいて候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするように構成される。

第１モデルトレーニングモジュール１１１０は、ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るように構成される。

いくつかの実施例では、オブジェクト検出モデルのトレーニング装置は、複数のサンプル画像を含むサンプル画像集合を取得し、サンプル画像集合に基づいて分割して更新された第１サンプル画像と更新された第２サンプル画像を取得するように構成されるサンプル画像集合取得モジュールをさらに備え、第１モデルトレーニングモジュール１１０は、ターゲット画像領域に基づいて第２検出モデルに対してモデルトレーニングを行い、第１サンプル画像に対応する更新後の第１検出モデルを得るように構成される更新モジュールと、サンプル画像集合に基づいて分割して更新された第１サンプル画像と更新された第２サンプル画像を取得するステップに戻り、更新後の第１検出モデルが収束し、ターゲット検出モデルを得るまで続くように構成される戻りモジュールとを含む。

いくつかの実施例では、サンプル画像集合取得モジュールは、サンプル画像集合を複数のサンプル画像グループに分割し、サンプル画像グループをモデルパラメータ調整単位とし、サンプル画像集合から現在のサンプル画像グループを順次取得し、現在のサンプル画像グループのサンプル画像は第１サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第２サンプル画像であり、戻りモジュールは、サンプル画像グループをモデルパラメータ調整単位とし、サンプル画像集合から現在のサンプル画像グループを順次取得するステップに戻るように構成され、現在のサンプル画像グループのサンプル画像は第１サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第２サンプル画像である。

いくつかの実施例では、第１関係度取得モジュール１１０４は、前のラウンドのモデルトレーニングの時に同一サンプル画像グループを使用してトレーニングすることで得られたモデルを、更新された第１検出モデルとして使用し、更新された第１検出モデルによって候補画像領域にそれぞれ対応する第１関係度を取得するように構成される。

第２関係度取得モジュール１１０６は、現在のラウンドのモデルトレーニングの時に現在のサンプル画像グループのフォワードサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、更新された第２検出モデルとして使用し、更新された第２検出モデルによって候補画像領域にそれぞれ対応する第２関係度を取得するように構成される。

いくつかの実施例では、オブジェクト検出モデルのトレーニング装置は、
ターゲット画像分類モデルを取得するように構成される分類モデル取得モジュールと、
サンプル集合内の各サンプル画像が対応する候補画像領域をそれぞれターゲット画像分類モデルに入力し、各サンプル画像の候補画像領域がターゲットオブジェクトの所在する領域である第３関係度を出力するように構成される第３関係度取得モジュールと、
第３関係度に基づいて候補画像領域集合からターゲットオブジェクトを含む第２画像領域をスクリーニングするように構成される第２画像領域スクリーニングモジュールと、
第２画像領域に基づいてモデルトレーニングを行って、第１ラウンドでモデルトレーニングして得られた検出モデルを得るように構成される第２モデルトレーニングモジュールと、をさらに備える。

いくつかの実施例では、ターゲット画像領域スクリーニングモジュール１１０８は、候補画像領域集合から関係度変化値が予め設定された変化条件を満たす候補画像領域を、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするように構成され、予め設定された変化条件は、関係度変化値が予め設定された順位の前にソートされること、又は関係度変化値が予め設定された変化値より大きいことのうちの少なくとも１つを含み、関係度変化値は、降順でソートされる。

いくつかの実施例では、ターゲット画像領域スクリーニングモジュール１１０８は、第２関係度から第１関係度を引き算し又は第２関係度を第１関係度で割り算し、関係度変化値を得るように構成される。

いくつかの実施例では、オブジェクト検出モデルのトレーニング装置は、
ターゲット画像領域と候補画像領域との画像重畳度を取得するように構成される画像重畳度取得モジュールと、
画像重畳度が第１の予め設定された重畳度より大きい候補画像領域を第３画像領域として取得するように構成される第３画像領域取得モジュールとをさらに備える。

第１モデルトレーニングモジュール１１１０は、
第３画像領域及びターゲット画像領域を正例のサンプル画像領域として使用し、正例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るように構成される。

いくつかの実施例では、オブジェクト検出モデルのトレーニング装置は、
ターゲット画像領域と候補画像領域との画像重畳度を取得するように構成される画像重畳度取得モジュールと、
画像重畳度が第２の予め設定された重畳度よりも小さい候補画像領域を第４画像領域として取得するように構成され、第２の予め設定された重畳度が第１の予め設定された重畳度以下である第４画像領域取得モジュールとをさらに備える。

第１モデルトレーニングモジュール１１１０は、第４画像領域を負例のサンプル画像領域とし、ターゲット画像領域グループを正例のサンプル画像領域とし、正例のサンプル画像領域及び負例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るように構成される。

いくつかの実施例では、オブジェクト検出モデルのトレーニング装置は、
検出対象画像を取得し、検出対象画像を複数の第１画像領域に分割するように構成される検出対象画像取得モジュールと、
各第１画像領域をそれぞれターゲット検出モデルに入力して、各第１画像領域にターゲットオブジェクトが含まれるターゲット関係度を取得するように構成されるターゲット関係度取得モジュールと、
ターゲット関係度に基づき、複数の第１画像領域からターゲットオブジェクトを含む画像領域をスクリーニングして、検出対象画像内のターゲットオブジェクトの位置を得るように構成される位置検出モジュールと、をさらに備える。

図１２はいくつかの実施例におけるコンピュータデバイスの内部構造図である。当該コンピュータデバイスは、具体的には図１のサーバー１２０であってもよい。図１２に示すように、当該コンピュータデバイスはシステムバスを介して接続されているプロセッサ、メモリ及びネットワークインタフェースを備える。ここで、メモリは、不揮発性記憶媒体と内部メモリを含む。当該コンピュータデバイスの不揮発性記憶媒体は、オペレーティングシステムを記憶しており、コンピュータ読み取り可能な命令を記憶することもでき、当該コンピュータ読み取り可能な命令がプロセッサによって実行されると、プロセッサに検出モデルのトレーニング方法を実現させることができる。当該内部メモリにもコンピュータ読み取り可能な命令が記憶されてもよく、当該コンピュータ読み取り可能な命令がプロセッサによって実行されると、プロセッサに検出モデルのトレーニング方法を実行させることができる。

当業者であれば、図１２に示す構造が本出願の解決策と関連する一部の構造のブロック図にすぎず、本出願の解決策が応用されるコンピュータデバイスを限定するためのものではないことを理解でき、具体的なコンピュータデバイスは、図面に示すものよりも多い又は少ない部材を備え、又は異なる部材配置を有することができる。

いくつかの実施例では、本出願で提供される検出モデルのトレーニング装置は、コンピュータ読み取り可能な命令の形態として実現されてもよく、コンピュータ読み取り可能な命令は、図１２に示すコンピュータデバイス上で実行され得る。コンピュータデバイスのメモリには、当該検出モデルのトレーニング装置を構成する各プログラムモジュール、例えば、図１１に示す候補画像領域集合取得モジュール１１０２、第１関係度取得モジュール１１０４、第２関係度取得モジュール１１０６、ターゲット画像領域スクリーニングモジュール１１０８及び第１モデルトレーニングモジュール１１１０が記憶されてもよい。各プログラムモジュールで構成されたコンピュータ読み取り可能な命令により、プロセッサは、本明細書に記載されている本出願の各実施例の検出モデルのトレーニング方法のステップを実行する。

いくつかの実施例では、メモリとプロセッサとを備え、メモリにコンピュータ読み取り可能な命令が記憶され、コンピュータ読み取り可能な命令がプロセッサによって実行されると、プロセッサに上記検出モデルのトレーニング方法のステップを実行させる、コンピュータデバイスを提供する。ここで、検出モデルのトレーニング方法のステップは、上記の各実施例の検出モデルのトレーニング方法のステップであってもよい。

いくつかの実施例では、コンピュータ読み取り可能な命令が記憶され、コンピュータ読み取り可能な命令がプロセッサによって実行されると、プロセッサに上記検出モデルのトレーニング方法のステップを実行させる、コンピュータ読み取り可能な記憶媒体を提供する。ここで、検出モデルのトレーニング方法のステップは、上記の各実施例の検出モデルのトレーニング方法のステップであってもよい。

本出願の各実施例のフローチャートにおける各ステップは、矢印の指示に従って順次表示されるが、これらのステップは必ずしも矢印に示される順序に従って順次実行されるわけではない。本明細書で明確に説明しない限り、これらのステップの実行は厳しい順序制限がなく、これらのステップは他の順序で実行されてもよい。そして、各実施例の少なくとも一部のステップが複数のサブステップ又は複数の段階を含むことができ、これらのサブステップ又は段階は必ずしも同一の時点で実行されて完了されず、異なる時点で実行されてもよく、これらのサブステップ又は段階の実行順序も順次実行されず、他のステップ又は他のステップのサブステップ又は段階の少なくとも一部と順次又は交互に実行されてもよい。

当業者は、上記実施例の方法の全て又は一部のフローを実現することが、コンピュータ読み取り可能な命令によって関連するハードウェアに命令して完了されてもよいことを理解することができ、コンピュータ読み取り可能な命令は不揮発性のコンピュータ読み取り可能な記録媒体に記憶されてもよく、当該コンピュータ読み取り可能な命令が実行されるとき、上記の各方法の実施例のフローを含むことができる。その中、本出願で提供される様々な実施例で用いられる、メモリ、ストレージ、データベース又は他の媒体へのいかなる参照はいずれも不揮発性及び／又は揮発性メモリを含むことができる。不揮発性メモリは、読み出し専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）又はフラッシュメモリを含むことができる。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）又は外部高速キャッシュメモリを含むことができる。限定ではなく例として、ＲＡＭは、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、強化型ＳＤＲＡＭ（ＥＳＤＲＡＭ）、同期リンク（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、メモリバス（Ｒａｍｂｕｓ）直接ＲＡＭ（ＲＤＲＡＭ）、直接メモリバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びメモリバスダイナミックＲＡＭ（ＲＤＲＡＭ）などの様々な形態で得られてもよい。

上記実施例の様々な技術的特徴が任意に組み合わせてもよく、説明を簡単にするために、上記実施例の各技術的特徴の全ての可能な組み合わせを説明しないが、これらの技術的特徴の組み合わせが矛盾しない限り、本明細書に記載される範囲と見なされるべきである。

上記実施例は本出願のいくつかの実施形態だけを示し、その説明がより具体的かつ詳細であるが、本出願の特許範囲を限定するものとして理解されるべきではない。当業者にとって、本出願の考えを逸脱しない前提で、いくつかの修正と変更を行うことができ、これらの修正と変更が全て本出願の保護範囲に属することは指摘すべきである。したがって、本出願の特許の保護範囲は添付の特許請求の範囲に従うべきである。

１１０端末
１２０サーバー
１１０２候補画像領域集合取得モジュール
１１０４第１関係度取得モジュール
１１０６第２関係度取得モジュール
１１０８ターゲット画像領域スクリーニングモジュール
１１１０第１モデルトレーニングモジュール

Claims

コンピュータデバイスが実行する、検出モデルのトレーニング方法であって、
第１サンプル画像を分割して得られた候補画像領域集合を取得するステップであって、前記候補画像領域集合に複数の候補画像領域が含まれる、ステップと、
前記候補画像領域にそれぞれ対応する第１関係度を取得するステップであって、前記第１関係度は、前記候補画像領域をそれぞれ第１検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第１検出モデルは、前記第１サンプル画像に基づいてモデルトレーニングを行って得られるものである、ステップと、
前記候補画像領域にそれぞれ対応する第２関係度を取得するステップであって、前記第２関係度は、前記候補画像領域をそれぞれ第２検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第２検出モデルは、第２サンプル画像を使用して前記第１検出モデルに対してモデルトレーニングを行って得られるものである、ステップと、
前記第１関係度及び前記第２関係度に基づいて関係度変化値を得、前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするステップと、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップであって、前記ターゲット検出モデルは検出対象画像に対してオブジェクト検出を行うために用いられる、ステップと、を含む方法。
第１サンプル画像を分割して得られた候補画像領域集合を取得するステップの前に、
サンプル画像集合を取得し、前記サンプル画像集合に基づいて分割して更新された第１サンプル画像と更新された第２サンプル画像を取得するステップであって、前記サンプル画像集合は複数のサンプル画像を含む、ステップをさらに含み、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、
前記ターゲット画像領域に基づいて前記第２検出モデルに対してモデルトレーニングを行い、第１サンプル画像に対応する更新後の第１検出モデルを得るステップと、
前記サンプル画像集合に基づいて分割して更新された第１サンプル画像と更新された第２サンプル画像を取得するステップに戻り、更新後の第１検出モデルが収束し、ターゲット検出モデルを得るまで続くステップと、を含む
ことを特徴とする請求項１に記載の方法。
前記サンプル画像集合に基づいて分割して更新された第１サンプル画像と更新された第２サンプル画像を取得するステップは、
前記サンプル画像集合を複数のサンプル画像グループに分割するステップと、
サンプル画像グループをモデルパラメータ調整単位とし、前記サンプル画像集合から現在のサンプル画像グループを順次取得するステップであって、現在のサンプル画像グループのサンプル画像は第１サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第２サンプル画像である、ステップと、を含み、
前記サンプル画像集合に基づいて分割して更新された第１サンプル画像と更新された第２サンプル画像を取得するステップに戻るステップは、
サンプル画像グループをモデルパラメータ調整単位とし、前記サンプル画像集合から現在のサンプル画像グループを順次取得するステップに戻るステップであって、現在のサンプル画像グループのサンプル画像は第１サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第２サンプル画像である、ステップを含む
ことを特徴とする請求項２に記載の方法。
前記候補画像領域にそれぞれ対応する第１関係度を取得するステップは、
前のラウンドのモデルトレーニングの時に同一サンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、更新された第１検出モデルとして使用し、更新された第１検出モデルによって前記候補画像領域にそれぞれ対応する第１関係度を取得するステップを含み、
前記候補画像領域にそれぞれ対応する第２関係度を取得するステップは、
現在のラウンドのモデルトレーニングの時に現在のサンプル画像グループのフォワードサンプルを使用してモデルトレーニングを行って得られたモデルを、更新された第２検出モデルとして使用し、更新された第２検出モデルによって前記候補画像領域にそれぞれ対応する第２関係度を取得するステップを含む
ことを特徴とする請求項３に記載の方法。
前記方法は、
ターゲット画像分類モデルを取得するステップと、
前記サンプル画像集合内の各サンプル画像が対応する候補画像領域をそれぞれ前記ターゲット画像分類モデルに入力し、各サンプル画像の候補画像領域がターゲットオブジェクトの所在する領域である第３関係度を出力するステップと、
前記第３関係度に基づいて前記候補画像領域集合からターゲットオブジェクトを含む第２画像領域をスクリーニングするステップと、
前記第２画像領域に基づいてモデルトレーニングを行い、第１ラウンドでモデルトレーニングして得られた検出モデルを得るステップと、をさらに含む
ことを特徴とする請求項４に記載の方法。
前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするステップは、
前記候補画像領域集合から、前記関係度変化値が予め設定された変化条件を満たす候補画像領域を、ターゲットオブジェクトを含むターゲット画像領域としてスクリーニングするステップであって、前記予め設定された変化条件は、関係度変化値が予め設定された順位の前にソートされること、又は前記関係度変化値が予め設定された変化値より大きいことのうちの少なくとも１つを含み、前記関係度変化値は降順でソートされる、ステップを含む
ことを特徴とする請求項１に記載の方法。
前記第１関係度及び前記第２関係度に基づいて関係度変化値を得るステップは、
前記第２関係度から前記第１関係度を引き算し又は前記第２関係度を前記第１関係度で割り算し、関係度変化値を得るステップを含む
ことを特徴とする請求項１又は６に記載の方法。
前記方法は、
前記ターゲット画像領域と前記候補画像領域との画像重畳度を取得するステップと、
前記画像重畳度が第１の予め設定された重畳度より大きい候補画像領域を第３画像領域として取得するステップと、をさらに含み、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、
前記第３画像領域及び前記ターゲット画像領域を正例のサンプル画像領域とし、前記正例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップを含む
ことを特徴とする請求項１に記載の方法。
前記方法は、
前記ターゲット画像領域と前記候補画像領域との画像重畳度を取得するステップと、
前記画像重畳度が第２の予め設定された重畳度よりも小さい候補画像領域を第４画像領域として取得するステップと、をさらに含み、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、
前記第４画像領域を負例のサンプル画像領域として使用し、前記ターゲット画像領域グループを正例のサンプル画像領域として使用するステップと、
前記正例のサンプル画像領域及び前記負例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップと、を含む
ことを特徴とする請求項１に記載の方法。
前記方法は、
検出対象画像を取得し、前記検出対象画像を複数の第１画像領域に分割するステップと、
各前記第１画像領域をそれぞれ前記ターゲット検出モデルに入力し、各前記第１画像領域にターゲットオブジェクトが含まれるターゲット関係度を取得するステップと、
前記ターゲット関係度に基づき、前記複数の第１画像領域からターゲットオブジェクトを含む画像領域をスクリーニングして、前記検出対象画像内のターゲットオブジェクトの位置を得るステップと、をさらに含む
ことを特徴とする請求項１に記載の方法。
検出モデルのトレーニング装置であって、
第１サンプル画像を分割して得られた候補画像領域集合を取得するように構成される候補画像領域集合取得モジュールであって、前記候補画像領域集合に複数の候補画像領域が含まれる、候補画像領域集合取得モジュールと、
前記候補画像領域にそれぞれ対応する第１関係度を取得するように構成される第１関係度取得モジュールであって、前記第１関係度は、前記候補画像領域をそれぞれ第１検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第１検出モデルは、前記第１サンプル画像に基づいてモデルトレーニングを行って得られるものである、第１関係度取得モジュールと、
前記候補画像領域にそれぞれ対応する第２関係度を取得するように構成される第２関係度取得モジュールであって、前記第２関係度は、前記候補画像領域をそれぞれ第２検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第２検出モデルは、第２サンプル画像を使用して前記第１検出モデルに対してモデルトレーニングを行って得られるものである、第２関係度取得モジュールと、
前記第１関係度及び前記第２関係度に基づいて関係度変化値を得、前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするように構成されるターゲット画像領域スクリーニングモジュールと、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るように構成される第１モデルトレーニングモジュールであって、前記ターゲット検出モデルは検出対象画像に対してオブジェクト検出を行うために用いられる、第１モデルトレーニングモジュールと、を備える装置。
コンピュータデバイスであって、メモリとプロセッサとを備え、前記メモリにコンピュータ読み取り可能な命令が記憶され、前記コンピュータ読み取り可能な命令は、前記プロセッサによって実行されると、前記プロセッサに請求項１から１０のいずれか一項に記載の方法のステップを実行させる、コンピュータデバイス。
コンピュータ読み取り可能な命令を記憶している１つ又は複数の不揮発性記憶媒体であって、前記コンピュータ読み取り可能な命令は、１つ又は複数のプロセッサによって実行されると、前記プロセッサに請求項１から１０のいずれか一項に記載の方法のステップを実行させる、不揮発性記憶媒体。