JP2022528961A

JP2022528961A - 胚を選択する方法及びシステム

Info

Publication number: JP2022528961A
Application number: JP2021560476A
Authority: JP
Inventors: ホール，ジョナサン，マイケル，マクギリブレー; ペルジーニ，ドナート; ペルジーニ，ミシェル
Original assignee: プレサーゲンプロプライアトリーリミテッド
Priority date: 2019-04-04
Filing date: 2020-04-02
Publication date: 2022-06-16
Also published as: EP3948772A1; CN113906472A; WO2020198779A1; EP3948772A4; US20220198657A1; AU2020251045A1

Abstract

体外受精（ＩＶＦ）法における着床のための胚の選択に寄与するために、胚の単一画像から胚生存性スコアを生成するための人工知能（ＡＩ）計算システムが記載される。ＡＩモデルは、セグメンテーションを使用して画像中の透明帯領域が特定された画像に適用されるディープラーニング法、及び、６週目の超音波スキャンにおける心拍の検出等のグラウンドトゥルースラベルを使用する。

Description

本出願は、“ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＳＥＬＥＣＴＩＮＧＥＭＢＲＹＯＳ”と題され、２０１９年４月４日に出願されたオーストラリア仮特許出願第２０１９９０１１５２号の優先権を主張し、その内容を参照により本明細書に援用する。

本開示は、体外受精（ＩＶＦ）に関する。特定の形態において、本開示は、胚を選択する方法に関する。

体外受精（ＩＶＦ）法は、卵子産生を刺激する卵巣刺激相から始まる。次に、卵子（卵母細胞）が患者から回収され、接合子を形成するために、卵子（卵母細胞）を囲む糖タンパク質層である透明帯に侵入する精子と体外受精させられる。胚が約５日間にわたって発生し、その後、胚は患者に戻すのに適した（栄養膜、胞胚腔、及び内部細胞塊から形成される）胚盤胞を形成する。約５日目には、胚盤胞は依然として透明帯によって囲まれており、そこから胚盤胞は孵化し、次に、子宮内膜壁に着床する。ここでは、透明帯の内面によって境界がつけられた領域を透明帯内空洞（ＩｎｎｅｒＺｏｎａｌＣａｖｉｔｙ（ＩＺＣ））と呼ぶ。移植時点における最良の胚の選択は、陽性の妊娠結果を確実にするために重大な意味を持つ。発生学者が顕微鏡を使用して胚を視覚的に評価し、この選択を行う。一部のクリニックは、選択時点において胚の画像を記録し、発生学者が、様々な測定基準及び発生学者の顕微鏡下での視覚的評価に基づき各胚をスコア化することができる。例えば、１つの一般的に使用されるスコアリングシステムは、ガードナースケールであり、ガードナースケールでは、内部細胞塊の質、栄養外胚葉の質、及び胚発生の進歩等の形態学的特徴が評価され、英数字スケールに従って段階分けされる。次に、発生学者は、胚のうち１つ（又はそれ以上）を選択し、次に、その胚は患者に戻される。

このように、胚の選択は、現在、目視検査を介した発生学者による胚の主観的評価を含む手動のプロセスである。胚の段階分けにおける主要な課題の１つは、異なる技能レベルの発生学者間に存在する高レベルの主観性及びオペレーター内及びオペレーター間のばらつきである。これは、標準化が単一の研究所内でさえ困難であり、業界全体では不可能であることを意味する。このように、このプロセスは発生学者の専門知識に大きく依存しており、彼らの最善の努力にもかかわらず、ＩＶＦの成功率は依然として（約２０％と）比較的低い。妊娠結果が低い理由は複雑であるけれども、最も生存可能な胚をより正確に選択するためのツールは、妊娠結果の成功率を高めることが期待される。

現在までに、着床前遺伝子スクリーニング（ＰＧＳ）又はタイムラプス写真を含む、発生学者が生存可能な胚を選択するのを支援するいくつかのツールが開発されている。しかし、各アプローチには重大な制限がある。ＰＧＳは、生検を行い、次に、抽出した細胞をスクリーニングすることによって、胚由来のいくつかの細胞を遺伝子評価することを含む。これは、妊娠失敗に至る可能性のある遺伝的リスクを特定するのに有用であり得るけれども、これは、生検プロセスの間に胚に害を及ぼす可能性もある。これはまた、高価であり、中国等の多くの大きな発展途上市場では、利用可能性が限られているか又はない。考慮されてきた別のツールは、胚発生の過程にわたるタイムラプスイメージングを使用することである。しかし、これには、多くのクリニックにとって法外な費用がかかる、高価で特殊なハードウェアが必要である。さらに、それが胚の選択を確実に改善することができるという証拠はない。せいぜい、初期段階の胚が成熟した胚盤胞まで発生するかどうかを決定することを支援し得るが、妊娠結果を確実に予測することは実証されておらず、従って、胚の選択に対するその有用性には限界がある。

従って、発生学者が着床のための胚の選択を行うのを支援するための改善されたツールを提供する、又は、少なくとも既存のツール及びシステムに対する有用な代替物を提供する必要がある。

第１の態様によると、画像から胚生存性スコアを推定するように構成された人工知能（ＡＩ）モデルを計算的に生成する方法が提供され、当該方法は：
複数の画像及び関連するメタデータを受信するステップであり、各画像は、体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされ、所定の時間窓は、２４時間以内であり、画像に関連するメタデータは、少なくとも妊娠結果ラベルを含む、ステップ；
少なくとも、透明帯領域を特定するために画像をセグメントに分けることを含む、各画像を前処理するステップ；
ディープラーニング法を使用して少なくとも１つの透明帯ディープラーニングモデル（ＺｏｎａＤｅｅｐＬｅａｒｎｉｎｇＭｏｄｅｌ）を訓練することによって入力画像から胚生存性スコアを生成するように構成された人工知能（ＡＩ）モデルを生成するステップであり、透明帯領域が特定された透明帯画像のセットにおいてディープラーニングモデルを訓練することを含み、関連する妊娠結果ラベルが、訓練されたモデルの精度を評価するために少なくとも使用される、ステップ；及び
ＡＩモデルを展開させるステップ；
を含む。

さらなる形態において、透明帯画像のセットは、透明帯領域によって境界がつけられた領域がマスクされた画像を含む。

さらなる形態において、ＡＩモデルを生成するステップは、ＡＩモデルを生成するために、１つ以上のさらなるＡＩモデルを訓練することであって、各さらなるＡＩモデルが、胚生存性スコアを推定するために、画像から抽出された１つ以上のコンピュータビジョン記述子の組み合わせを使用する機械学習法を使用して訓練されたコンピュータビジョンモデル、透明帯領域及びＩＺＣ領域の両方を含む胚に局在化された画像において訓練されたディープラーニングモデル、及び、透明帯内空洞（ＩＺＣ）を除いた全ての領域がマスクされたＩＺＣ画像のセットにおいて訓練されたディープラーニングモデルのいずれかである、１つ以上のさらなるＡＩモデルを訓練することと、少なくとも１つの透明帯ディープラーニングモデル及び１つ以上のさらなるＡＩモデルのうち少なくとも２つを組み合わせて、入力画像からＡＩモデル胚生存性スコアを生成するためにアンサンブル法を使用すること、又は、少なくとも１つの透明帯ディープラーニングモデル及び１つ以上のさらなるＡＩモデルを使用して、ＡＩモデルを訓練してＡＩモデル胚生存性スコアを生成するために蒸留法を使用することと、をさらに含む。

一形態において、ＡＩモデルは、少なくとも１つの透明帯ディープラーニングモデル及び１つ以上のさらなるＡＩモデルから少なくとも２つの対照的なＡＩモデルを選択することであり、ＡＩモデルの選択は、対照的なＡＩモデルのセットを生成するために行われることと、選択された少なくとも２つの対照的なＡＩモデルをどのように組み合わせて画像に対する結果スコアを生成するかを定める投票戦略を少なくとも２つの対照的なＡＩモデルに適用することと、を含むアンサンブルモデルを使用して生成される。

さらなる形態では、少なくとも２つの対照的なＡＩモデルを選択することは、
少なくとも１つの透明帯ディープラーニングモデル及び１つ以上のさらなるＡＩモデルの各々に対して、画像のセットから胚生存性スコアの分布を生成することと、
分布を比較し、関連する分布が別の分布と類似し過ぎて、対照的な分布を有するＡＩモデルを選択することができない場合にモデルを廃棄することと、
を含む。

一形態において、所定の時間窓は、受精後５日目に始まる２４時間タイマー期間である。一形態において、妊娠結果ラベルは、胚移植後１２週間以内に行われるグラウンドトゥルースの妊娠結果測定である。さらなる形態において、グラウンドトゥルースの妊娠結果測定は、胎児の心拍が検出されるかどうかである。

一形態において、当該方法は、複数の画像をクリーニングするステップをさらに含み、複数の画像をクリーニングするステップは、おそらく不正確な妊娠結果ラベルを有する画像を特定することと、特定された画像を排除するか又は再度ラベルすることと、を含む。

さらなる形態では、複数の画像をクリーニングするステップは、画像に関連する妊娠結果ラベルが不正確である可能性を推定することと、閾値と比較し、次に、閾値を超える可能性を有する画像を排除するか又は再度ラベルすることと、を含む。

さらなる形態では、画像に関連する妊娠結果ラベルが不正確である可能性を推定することは、複数のＡＩ分類モデル、及び、複数の画像がｋの相互に排他的な検証データセットに分割されるｋ分割交差検証法を使用することによって行われ、複数のＡＩ分類モデルの各々が、組み合わされたｋ－１の検証データセットにおいて訓練され、次に、残りの検証データセット内の画像を分類するために使用され、画像の妊娠結果ラベルを誤って分類するＡＩ分類モデルの数に基づき、可能性が決定される。

一形態では、各ＡＩモデルを訓練すること又はアンサンブルモデルを生成することは、少なくとも１つの精度測定基準及び少なくとも１つの信頼度測定基準を含む複数の測定基準、又は、精度及び信頼度を組み合わせる１つの測定基準を使用して、ＡＩモデルの性能を評価することを含む。

一形態では、画像を前処理するステップは、ディープラーニング又はコンピュータビジョン法を使用して画像内の胚を局在化することによって画像をクロップすることをさらに含む。

一形態では、画像を前処理するステップは、画像に対してパディングを行うこと、カラーバランスを正規化すること、輝度を正規化すること、及び画像を既定の解像度にスケール調整することのうち１つ以上をさらに含む。

一形態では、画像に対してパディングを行うことは、画像に対するスクエアアスペクト比を生成するために行われてもよい。一形態において、当該方法は、ＡＩモデルの訓練に使用するための１つ以上の拡張画像を生成するステップをさらに含む。各画像を準備することはまた、変化を有する画像のコピーを作成することによって１つ以上の拡張画像を生成することを含んでもよく、又は、拡張は、画像上で行われてもよく、訓練に先立ち又は訓練中に（オンザフライで）行われてもよい。画像の９０度回転、ミラーフリップ、背景色に合わせるために斜めの境界線が埋め込まれている場合の非９０度回転、画像ぼかしの量を変えて、強度ヒストグラムを使用して画像のコントラストを調整して、及び、水平方向及び／又は垂直方向の両方における１つ以上の小さなランダム変換、ランダム回転、ＪＰＥＧノイズ、ランダム画像のサイズ変更、ランダム色相ジッタ、ランダム輝度ジッタ、コントラスト制限付き適応ヒストグラム均等化、ランダムフリップ／ミラー、画像鮮鋭化、画像エンボス処理、ランダム輝度及びコントラスト、ＲＧＢカラーシフト、ランダム色相及び飽和、チャンネルシャッフル、ＲＧＢからＢＧＲ又はＲＢＧ又は他のものへのスワップ、粗いドロップアウト、モーションブラー、中央ブラー、ガウスブラー、ランダムシフトスケール回転（すなわち、３つが全て組み合わされたもの）を適用して、任意の数の拡張が行われてもよい。

一形態では、ＡＩモデルの訓練中に、訓練セット内の画像ごとに１つ以上の拡張画像が生成され、検証セットの評価中に、１つ以上の拡張画像に対する結果が組み合わされて、画像に対する単一の結果が生成される。結果は、モデル予測を組み合わせるための、平均信頼度、中央信頼度、大数平均（ｍａｊｏｒｉｔｙ－ｍｅａｎ）信頼度、最大信頼度の方法、又は他の投票戦略のうち１つを使用して組み合わされてもよい。

一形態では、画像を前処理するステップは、１つ以上の特徴記述子モデルを使用して画像に注釈を付けることと、記述子のキーポイントの所与の半径内の領域を除いて、画像の全ての領域をマスクすることと、をさらに含んでもよい。１つ以上の特徴記述子モデルは、グレーレベル同時生起行列（ＧＬＣＭ）テクスチャ解析、勾配方向ヒストグラム（ＨＯＧ）、方向付き加速化断片試験による特徴抽出（ＦＡＳＴ）及び回転バイナリロバスト独立基本特徴（ＢＲＩＥＦ）、バイナリロバスト不変スケーラブルキーポイント（ＢＲＩＳＫ）、最大安定極値領域（ＭＳＥＲ）、又は追跡に向いた特徴（ＧＦＴＴ）の特徴検出器を含んでもよい。

一形態において、各ＡＩモデルが結果スコアを生成し、結果は、ｎ状態を有するｎ項の結果であり、ＡＩモデルを訓練することは、複数の訓練検証サイクルを含み、訓練データセットが画像の少なくとも６０％を含み、検証データセットが画像の少なくとも１０％を含み、ブラインド検証データセットが画像の少なくとも１０％を含むように、複数の画像を、訓練セット、検証セット、又はブラインド検証セットのうち１つに無作為に割り当て、画像を訓練セット、検証セット、及びブラインド検証セットに割り当てた後、訓練セット、検証セット、及びブラインド検証セットの各々におけるｎ項の結果の状態の各々の頻度を計算し、頻度が類似していることをテストし、頻度が類似していない場合は、割り当てを廃棄し、頻度が類似する無作為化が得られるまで、無作為化を繰り返すことをさらに含む。

一形態では、コンピュータビジョンモデルを訓練することは、複数の訓練検証サイクルを行うことを含み、各サイクルの間に、画像は、教師なしクラスタリングアルゴリズムを使用して、コンピュータビジョン記述子に基づきクラスタ化されて、クラスタのセットが生成され、各画像は、画像のコンピュータビジョン記述子の値に基づき距離測度を使用して、クラスタに割り当てられ、教師あり学習法が、これらの特徴の特定の組み合わせが、複数の画像における各コンピュータビジョン記述子の存在の結果尺度（ｏｕｔｃｏｍｅｍｅａｓｕｒｅ）及び頻度情報に対応するかどうかを決定するために使用される。

一形態において、ディープラーニングモデルは、畳み込みニューラルネットワーク（ＣＮＮ）であってもよく、入力画像に対して、各ディープラーニングモデルは、結果確率を生成する。

一形態において、ディープラーニング法は、最適化サーフェスを修正するように構成された損失関数を使用して、大域最適解（ｇｌｏｂａｌｍｉｎｉｍａ）を強調することができる。損失関数は、ネットワークの重みに関して定められる残差項を含んでもよく、残差項は、モデルからの予測値と各画像に対するターゲットとなる結果における集合的な差をエンコードし、それを、正常の交差エントロピー損失関数へのさらなる寄与として含む。

一形態において、当該方法は、ウェブサーバ、データベース、及び複数の訓練サーバを使用してクラウドベースのコンピューティングシステム上で行われてもよく、ウェブサーバは、ユーザから１つ以上のモデル訓練パラメータを受信し、ウェブサーバは、複数の訓練サーバのうち１つに訓練コードをアップロードすることを含む訓練プロセスを複数の訓練サーバのうち１つ以上で開始し、訓練サーバは、データリポジトリから複数の画像及び関連するメタデータを要求し、各画像を準備するステップ、複数のコンピュータビジョンモデルを生成するステップ、及び複数のディープラーニングモデルを生成するステップを行い、各訓練サーバは、モデルを記憶サービスに、及び精度情報を１つ以上のログファイルに定期的に保存して、訓練プロセスが再始動されるのを可能にするように構成される。さらなる形態において、アンサンブルモデルは、残差（ｒｅｓｉｄｕａｌｉｎａｃｃｕｒａｃｉｅｓ）にバイアスをかけて偽陰性を最小化するように訓練されてもよい。

一形態において、結果は、生存可能又は生存不可能のバイナリ結果であり、無作為化は、生存可能の分類及び生存不可能の分類を有する画像の頻度を、訓練セット、検証セット、及びブラインド検証セットの各々において計算すること、及び、それらが類似しているかどうかテストすることを含んでもよい。一形態において、結果尺度は、各画像に関連する生存性分類を使用した胚生存性の尺度である。一形態において、各結果確率は、画像が生存可能である確率であってもよい。一形態において、各画像は位相差画像であってもよい。

第２の態様によると、画像から胚生存性スコアを計算的に生成する方法が提供され、当該方法は：
計算システムにおいて、第１の態様の方法に従って、画像から胚生存性スコアを生成するように構成された人工知能（ＡＩ）モデルを生成するステップ；
計算システムのユーザインターフェースを介してユーザから、体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされた画像を受信するステップ；
ＡＩモデルを生成するために使用される前処理するステップに従って、画像を前処理するステップ；
胚生存性スコアの推定値を得るために、前処理された画像をＡＩモデルに提供するステップ；
ユーザインターフェースを介してユーザに胚生存性スコアを送信するステップ；
を含む。

第３の態様によると、画像から胚生存性スコアを得る方法が提供され、当該方法は：
第１の態様の方法に従って生成された、画像から胚生存性スコアを生成するように構成されたクラウドベースの人工知能（ＡＩ）モデルに、体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされた画像を、ユーザインターフェースを介してアップロードするステップ；
ユーザインターフェースを介して、クラウドベースのＡＩモデルから胚生存性スコアを受信するステップ；
を含む。

第４の態様によると、第１の態様の方法に従って、画像から胚生存性スコアを推定するように構成された人工知能（ＡＩ）モデルを計算的に生成するように構成されたクラウドベースの計算システムが提供される。

第５の態様によると、画像から胚生存性スコアを計算的に生成するように構成されたクラウドベースの計算システムが提供され、当該計算システムは：
第１の態様の方法に従って生成された、画像から胚生存性スコアを生成するように構成された人工知能（ＡＩ）モデル；
計算システムのユーザインターフェースを介してユーザから、体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされた画像を受信すること；
ＡＩモデルに画像を提供して、胚生存性スコアを得ること；及び
ユーザインターフェースを介してユーザに胚生存性スコアを送信すること；
を含む。

第６の態様によると、画像から胚生存性スコアを生成するように構成された計算システムが提供され、当該計算システムは、少なくとも１つのプロセッサと、少なくとも１つのメモリとを含み、少なくとも１つのメモリは：
体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされた画像を受信する；
第１の態様の方法に従って生成された、画像から胚生存性スコアを生成するように構成されたクラウドベースの人工知能（ＡＩ）モデルに、ユーザインターフェースを介して、体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされた画像をアップロードする；
クラウドベースのＡＩモデルから胚生存性スコアを受信する；
ユーザインターフェースを介して胚生存性スコアを表示する；
ように少なくとも１つのプロセッサを構成するための命令を含む。

本開示の実施形態は、添付の図面を参照して論じられる。
一実施形態による、画像から胚生存性スコアを推定するように構成された人工知能（ＡＩ）モデルの生成の概略的な流れ図である。一実施形態による、画像から胚生存性スコアを推定するように構成されたＡＩモデルを計算的に生成し且つ使用するように構成されたクラウドベースの計算システムの概略的なブロック図である。一実施形態による、着床のための胚の選択を支援するために、画像から胚生存性スコアを推定するように構成されたＡＩモデルを使用したＩＶＦ法の概略図である。一実施形態による、画像から胚生存性スコアを推定するように構成されたＡＩモデルを生成し且つ使用するように構成されたクラウドベースの計算システムの概略的なアーキテクチャ図である。一実施形態による、訓練サーバ上のモデル訓練プロセスの概略的な流れ図である。一実施形態による、ヒト胚の画像上の境界発見のための二値化しきい値処理の概略図である。一実施形態による、ヒト胚の画像上の境界発見方法の概略図である。一実施形態による、画像セグメンテーションのために画像の固定領域に適用された幾何学的動的輪郭（ＧＡＣ）モデルの使用例である。一実施形態による、画像セグメンテーションのために画像の固定領域に適用されたモルフォロジカルスネークの使用例である。一実施形態による、セマンティックセグメンテーションモデルに対するＵ－Ｎｅｔアーキテクチャの概略的なアーキテクチャ図である。５日目の胚の画像を示した図である。正方形画像を作成する図６Ｄのパディングが行われたバージョンを示した図である。一実施形態による、ＩＺＣがマスクされた図６Ｅに基づく透明帯画像を示した図である。一実施形態による、透明帯及び背景がマスクされた図６Ｅに基づくＩＺＣ画像を示した図である。グレーレベル同時生起行列（ＧＬＣＭ）のプロットを示した図であり、関連する実施形態による、６つの透明帯領域及び６つの細胞質領域のセットに対して計算された、サンプル特徴記述子：ＡＳＭ、均一性、相関、コントラスト、及びエントロピーのＧＬＣＭ相関を示している。一実施形態による、訓練後に入力画像を予測に変換する畳み込み層を含む、ディープラーニング法の概略的なアーキテクチャ図である。一実施形態による、胚生存性の特定におけるアンサンブルモデルの一実施形態の精度のプロットを示した図である。胚生存性を正確に特定することにおける、世界トップレベルの発生学者（臨床医）と比較したアンサンブルモデルの一実施形態の精度を示す棒グラフを示した図である。アンサンブルモデルの評価が不正確であった場合の胚生存性を正確に特定する発生学者と比較した、発生学者の評価が不正確であった場合の胚生存性を正確に特定することにおける、世界トップレベルの発生学者（臨床医）と比較したアンサンブルモデルの一実施形態の精度を示す棒グラフを示した図である。研究１のブラインド検証データセットに適用した場合の、アンサンブルモデルの一実施形態を使用した、生存可能な胚（成功した臨床妊娠）に対する推論スコアの分布のプロットを示した図である。研究１のブラインド検証データセットに適用した場合の、アンサンブルモデルの一実施形態を使用した、生存不可能な胚（不成功の臨床妊娠）に対する推論スコアの分布のプロットを示した図である。全ブラインドデータセットにわたる発生学者のスコアから得られたランクのヒストグラムである。全ブラインドデータセットにわたるアンサンブルモデル推論の一実施形態から得られたランクのヒストグラムである。１から５までのランクバンディング内に配置される前の、アンサンブルモデル推論のヒストグラムである。研究２のブラインド検証データセットに適用した場合の、アンサンブルモデルを使用した、生存可能な胚（成功した臨床妊娠）に対する推論スコアの分布のプロットを示した図である。研究２のブラインド検証データセットに適用した場合の、アンサンブルモデルを使用した、生存不可能な胚（不成功の臨床妊娠）に対する推論スコアの分布のプロットを示した図である。研究３のブラインド検証データセットに適用した場合の、アンサンブルモデルを使用した、生存可能な胚（成功した臨床妊娠）に対する推論スコアの分布のプロットを示した図である。研究３のブラインド検証データセットに適用した場合の、アンサンブルモデルを使用した、生存不可能な胚（成功した臨床妊娠）に対する推論スコアの分布のプロットを示した図である。

以下の説明において、同様の参照符号は、図全体を通して、同様の又は対応する部分を示している。

図１Ａ、１Ｂ、及び２を参照すると、胚の単一画像から胚生存性スコアを推定するように構成された人工知能（ＡＩ）モデル１００を計算的に生成し且つ使用するように構成されたクラウドベースの計算システム１の実施形態が、次に論じられる。このＡＩモデル１００は、胚生存性評価モデルとしても参照される。図１Ａは、一実施形態による、クラウドベースの計算システム１を使用した、ＡＩモデル１００の生成の概略的な流れ図である。複数の画像及び関連するメタデータが、１つ以上のデータソース１０１から受信（又は取得）される。各画像は、受精後５日目に開始される２４時間等、体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされる。画像及びメタデータは、ＩＶＦクリニックから供給されてもよく、位相差画像を含む、光学顕微鏡を使用してキャプチャされた画像であってもよい。メタデータには、妊娠結果ラベル（例えば、ＩＶＦ後の最初のスキャンで検出された心拍等）が含まれ、様々な他の臨床情報及び患者情報が含まれてもよい。

次に、画像は前処理され（１０２）、この前処理には、画像の透明帯領域を特定するために画像をセグメントに分けることが含まれる。セグメンテーションはまた、透明帯領域によって囲まれた透明帯内空洞（ＩＺＣ）の特定を含んでもよい。画像の前処理はまた、以下に論じられるように、物体検出、アルファチャンネル削除、パディング、クロッピング／局在化、カラーバランスの正規化、輝度の正規化、及び／又は画像の所定の解像度へのスケール調整のうち１つ以上（又は全て）を含んでもよい。画像の前処理はまた、画像からコンピュータビジョン特徴記述子を計算／決定すること、及び、１つ以上の画像拡張を行うこと又は１つ以上の拡張画像を生成することを含んでもよい。

入力画像から胚生存性スコアを生成するように構成された人工知能（ＡＩ）モデル１００を生成するために（１０４）、少なくとも１つの透明帯ディープラーニングモデルが、透明帯画像のセットにおいて訓練される（１０３）。透明帯画像のセットは、（例えば、ステップ１０２におけるセグメンテーションの間に）透明帯領域が特定された画像である。一部の実施形態において、透明帯画像のセットは、透明帯領域を除いて画像の全ての領域がマスクされる画像である（すなわち、そのためディープラーニングモデルは、透明帯領域からの／透明帯領域に関連する情報においてのみ訓練される）。妊娠結果ラベルは、少なくとも、訓練されたモデルの評価に（すなわち、精度／性能を評価するために）使用され、また、（例えば、モデル最適化を駆動するための損失関数による）モデル訓練に使用されてもよい。複数の透明帯ディープラーニングモデルを訓練することができ、最も優れた性能のモデルをＡＩモデル１００として選択することができる。

別の実施形態では、１つ以上のさらなるＡＩモデルが、前処理された画像において訓練される（１０６）。これらは、胚画像において及び／又はＩＺＣを除いて画像の全ての領域がマスクされたＩＺＣ画像のセットにおいて直接訓練されたさらなるディープラーニングモデル、又は、画像から胚生存性スコアを生成するために、前処理ステップ（１０２）において生成されるコンピュータビジョン特徴／記述子を組み合わせるように訓練されたコンピュータビジョン（ＣＶ）モデルであってもよい。コンピュータビジョンモデルの各々は、画像から抽出された１つ以上のコンピュータビジョン記述子の組み合わせを使用して、画像内の胚の胚生存性スコアを推定し、機械学習法は、複数の訓練検証サイクルを行って、ＣＶモデルを生成する。同様に、ディープラーニングモデルの各々は、各ディープラーニングモデルが、画像内の胚の胚生存性スコアを推定する方法を学習するように、複数の訓練検証サイクルで訓練される。訓練の間、画像は、訓練セット、検証セット、及びブラインド検証セットの各々に無作為に割り当てられてもよく、各訓練検証サイクルは、訓練セット、検証セット、及びブラインド検証セットの各々における複数の画像の（さらなる）無作為化を含む。すなわち、各セット内の画像は、サイクルごとに無作為にサンプリングされるため、サイクルごとに、異なる画像のサブセットが分析されるか又は異なる順序で分析される。しかし、画像は無作為にサンプリングされるため、これは２つ以上のセットが同一であることを可能にするが、これは無作為な選択プロセスを介して発生するという条件であることに留意されたい。

次に、ステップ１０４においてＡＵモデル１００を生成するために、アンサンブル、蒸留、又は他の類似の技術を使用して、複数のＡＩモデルは、単一のＡＩモデル１００に組み合わされる（１０７）。アンサンブルのアプローチは、利用可能なモデルのセットからモデルを選択すること、及び、選択されたモデルの個々の結果からどのように結果スコアが生成されるかを定める投票戦略を使用することを含む。一部の実施形態において、モデルは、結果の分布を生成するために結果が対比させられることを確実にするように選択される。これらは、好ましくは、優れた結果の分布を確実にするために、可能な限り独立している。蒸留法では、複数のＡＩモデルを教師として使用して単一の生徒モデルを訓練し、この生徒モデルが、最終的なＡＩモデル１００になる。

ステップ１０４において、最終的なＡＩモデルが選択される。これは、ステップ１０３において訓練された透明帯ディープラーニングモデルの１つであってもよく、又は、アンサンブル、蒸留、若しくは類似の組み合わせステップ（ステップ１０７）を使用して得られたモデルであってもよく、訓練は、（１０３からの）少なくとも１つの透明帯ディープラーニングモデル及び１つ以上のさらなるＡＩモデル（ディープラーニング及び／又はＣＶ；ステップ１０６）を含む。最終的なＡＩモデル１００が生成される（１０４）と、これは、例えば、光学顕微鏡を使用してＩＶＦクリニックでキャプチャされた５日目の胚の位相差画像を受信するように構成されたクラウドサーバ上で、運用上の使用のために展開されて、入力画像から胚生存性スコアを推定する（１０５）。これは、図２においてさらに例示され、以下に論じられる。一部の実施形態において、展開は、モデルの重み及び関連するモデルのメタデータを、演算計算システムに転送され且つ訓練されたモデルを再現するためにアップロードされるファイルに書き込むことによって等、訓練されたモデルを保存又はエクスポートすることを含む。展開はまた、訓練されたモデルを、１つ以上のクラウドベースのサーバ、又はＩＶＦクリニックにおけるローカルベースのコンピュータサーバ等の演算計算システム上に移動、コピー、又は複製することを含んでもよい。一実施形態において、展開は、例えば、画像を受信し、受信した画像上で訓練されたモデルを実行し、結果をソースに送り返すために、又は後の検索のために結果を格納するためにインターフェースを加えることによって、新しい画像を受け入れ、訓練されたモデルを使用して生存性の推定値を生成するように、ＡＩモデルが訓練された計算システムを再構成することを含んでもよい。展開されるシステムは、入力画像を受信し、ＡＩモデルを生成するために使用される任意の前処理ステップを行うように構成される（すなわち、そのため新しい画像は、訓練された画像と同じ方法で前処理される）。一部の実施形態において、画像は、クラウドシステムへのアップロードに先立ち前処理（すなわち、局所的に前処理）されてもよい。一部の実施形態において、前処理は、ローカルシステムとリモート（例えば、クラウド）システムとの間で分散されてもよい。展開されるモデルは画像上で遂行又は実行されて、胚生存性スコアを生成し、胚生存性スコアは、次に、ユーザに提供される。

図１Ｂは、クラウドベースの計算システム１の概略的なブロック図であり、クラウドベースの計算システム１は、画像から胚生存性スコアを推定するように構成されたＡＩモデル１００（すなわち、胚生存性評価モデル）を計算的に生成し、次に、このＡＩモデル１００を使用して、受信した画像の生存性の推定（又は評価）である胚生存性スコア（すなわち、結果スコア）を生成するように構成される。入力１０は、生存性分類を生成するために使用され得る、胚の画像及び妊娠結果情報（例えば、ＩＶＦ後の最初の超音波スキャンで検出された心拍、出生若しくは未出生、又は成功した着床）等のデータを含む。これは、ＡＩモデルを作成及び訓練するモデル作成プロセス２０への入力として提供される。これらは、透明帯ディープラーニングモデル（１０３）を含み、一部の実施形態では、さらなるディープラーニングモデル及び／又はコンピュータビジョンモデル（１０６）も含む。モデルは、セグメントに分けられたデータセット（例えば、透明帯画像、ＩＺＣ画像等）及び妊娠結果データの使用を含む種々の方法及び情報を使用して訓練されてもよい。複数のＡＩモデルが訓練される場合には、妊娠結果情報に基づき等、一部の基準に従って、最も優れた性能のモデルが選択されてもよく、又は、複数のＡＩモデルは、ＡＩモデルを選択して投票戦略に基づき結果を生成するアンサンブルモデルを使用して組み合わされてもよく、若しくは、複数のＡＩモデルを教師として使用して生徒ＡＩモデルを訓練する蒸留法が使用されてもよく、若しくは、一部の他の類似の方法が、複数のモデルを組み合わせて単一のモデルにするために使用されてもよい。モデルモニタと呼ばれるクラウドベースのモデル管理及びモニタリングツール２１が、ＡＩモデルを作成（又は生成）するために使用される。これは、画像分析に特有であるモデルの訓練、ロギング、及びトラッキング及びそのモデルを管理するＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓ（ＡＷＳ）等の一連のリンクされたサービスを使用する。他のクラウドプラットフォーム上の他の類似のサービスが使用されてもよい。これらは、ディープラーニング法２２、コンピュータビジョン法２３、分類法２４、統計法２５、及び物理学に基づくモデル２６を使用することができる。モデル生成は、例えば、コンピュータビジョンモデルにおいてどのような特徴を抽出し、使用するかについてのもの等、発生学者、コンピュータ科学者、科学／技術文献等からのもの等、入力としてドメイン専門知識１２を使用することもできる。モデル作成プロセスの出力は、検証された胚評価モデルとも呼ばれるＡＩモデル（１００）の一例である。

ユーザ４０のためにシステムにユーザインターフェース４２を提供するクラウドベースのデリバリープラットフォーム３０が使用される。これは、図２を参照してさらに例示され、図２は、一実施形態による、着床のための胚の選択を支援する胚生存性スコアを生成するために、事前学習されたＡＩモデルを使用するＩＶＦ法２００の概略図である。０日目に、回収した卵子が受精させられる（２０２）。これらは、次に、数日間ｉｎｖｉｔｒｏで培養され、次に、例えば位相差顕微鏡を使用して胚の画像がキャプチャされる（２０４）。以下に論じられるように、体外受精の５日後に撮影された画像は、それよりも前の日に撮影された画像よりも良好な結果をもたらすことが一般的に分かっている。従って、好ましくは、モデルは、５日目の胚において訓練及び使用されるが、モデルは、特定の時代に関して特定の時間窓の間に得られた胚において訓練及び使用され得ることが理解されたい。一実施形態において、時間は２４時間であるが、１２時間、３６時間、又は４８時間等の他の時間窓を使用することもできる。さらなる外観の類似性を確実にするためには、一般的に２４時間以下の短い時間窓が好ましい。一実施形態において、これは、その日の始まり（０：００）からその日の終わり（２３：３９）までの２４時間の窓である特定の日、又は４又は５日目（４日目の始まりから始まる４８時間の窓）等の特定の日であり得る。或いは、時間窓は、５日目を中心とした２４時間（すなわち、４．５日目から５．５日目）等、窓サイズ及び時代を定めることができる。時間窓は、少なくとも５日間等、下限を有して変更可能であり得る。上述したように、５日目あたりの２４時間の時間窓からの胚の画像を使用することが好ましいけれども、３日目又は４日目の画像を含むそれよりも早い段階の胚を使用することができるということが理解されたい。

典型的には、いくつかの卵子が同時に受精させられることになり、従って、どの胚が着床に最も適しているか（すなわち、最も生存可能であるか）を考慮するために、複数の画像のセットが得られることになる。ユーザは、例えば「ドラッグアンドドロップ」機能を使用して、ユーザインターフェース４２を介して、キャプチャされた画像をプラットフォーム３０にアップロードする。ユーザは、例えば、複数の胚のセットからどの胚が着床に対して考慮されるかの選択を支援するために、単一の画像又は複数の画像をアップロードすることができる。プラットフォーム３０は、画像リポジトリを含むデータベース３６に格納される１つ以上の画像を受信する（３１２）。クラウドベースのデリバリープラットフォームは、画像前処理（例えば、物体検出、セグメンテーション、パディング、正規化、クロップ、中央寄せ等）を行い、次に、処理された画像を、オンデマンドのクラウドサーバ３２のうち１つで実行されて胚生存性スコアを生成する（３１４）訓練されたＡＩ（胚生存性評価）モデル１００に提供することができるオンデマンドのクラウドサーバ３２を含む。胚生存性スコアを含むレポートが生成され（３１６）、これは、ユーザインターフェース４２を介して等、ユーザ４０に送られるか、又は他の方法で提供される。ユーザ（例えば、発生学者等）は、ユーザインターフェースを介して胚生存性スコアを受け取り、次に、その生存性スコアを使用して、その胚を着床させるかどうか、又は着床させるのにセット内のどれが最良の胚であるかの決定を支援することができる。次に、選択された胚は着床させられる（２０５）。ＡＩモデルのさらなる改良を支援するために、着床後（通常は受精後６～１０週頃）の最初の超音波スキャンにおける心拍の検出（又は不検出）等の妊娠結果データをシステムに提供することができる。これは、さらなるデータが利用可能になったときに、ＡＩモデルが再訓練及び更新されるのを可能にする。

画像は、既存のＩＶＦクリニックで見られるもの等、様々なイメージングシステムを使用してキャプチャされてもよい。これは、ＩＶＦクリニックが新しいイメージングシステムを購入するか又は特定のイメージングシステムを使用する必要がないという利点を有する。イメージングシステムは、典型的には、胚の単相コントラスト画像をキャプチャするように構成された光学顕微鏡である。しかし、他のイメージングシステム、特に、様々なイメージングセンサ及び画像キャプチャ技術を使用する光学顕微鏡システムを使用することができるということが理解されることになる。これらには、位相差顕微鏡、偏光顕微鏡、微分干渉（ＤＩＣ）顕微鏡、暗視野顕微鏡、及び明視野顕微鏡が含まれてもよい。画像は、カメラ又は画像センサを備え付けた従来の光学顕微鏡を使用してキャプチャされてもよく、又は、画像は、スマートフォンシステムを含む、高解像度又は高倍率の画像を撮影することができる一体型光学系を有するカメラによってキャプチャされてもよい。画像センサは、ＣＭＯＳセンサチップ又は電荷結合素子（ＣＣＤ）であってもよく、各々が関連する電子機器を有する。光学系は、特定の波長を収集するか、又は特定の波長を収集（又は排除）するためのバンドパスフィルタを含むフィルタを使用するように構成されてもよい。一部の画像センサは、特定の波長の光、又は赤外線（ＩＲ）若しくは近赤外線を含む光学範囲を超える波長の光に対して動作又は感受性を有するように構成されてもよい。一部の実施形態において、イメージングセンサは、複数の異なる波長範囲で画像を収集するマルチスペクトルカメラである。照明システムはまた、特定の波長、特定の波長バンド、又は特定の強度の光で胚を照射するために使用されてもよい。ストップ及び他の構成要素が、画像の特定の部分（又は画像平面）への照明を制限又は修正するために使用されてもよい。

さらに、本明細書において記載される実施形態で使用される画像は、ビデオ及びタイムラプスイメージングシステムから供給されてもよい。ビデオストリームは、画像フレーム間の間隔がキャプチャフレームレート（例えば、１秒あたり２４又は４８フレーム等）によって定められる周期的な画像フレームのシーケンスである。同様に、タイムラプスシステムは、非常に遅いフレームレート（例えば、１時間あたり１枚の画像）で画像のシーケンスをキャプチャして、胚が成長するに従い（受精後の）画像のシーケンスを得る。従って、本明細書において記載される実施形態で使用される画像は、胚のビデオストリーム又は画像のタイムラプスシーケンスから抽出された単一の画像であってもよいことが理解されることになる。画像がビデオストリーム又はタイムラプスシーケンスから抽出される場合、使用することになる画像は、受精後５．０日又は５．５日等の基準時点に最も近いキャプチャ時間を有する画像として選択されてもよい。

一部の実施形態において、前処理は、画像が画質評価事項を満たさない場合にその画像が排除され得るように、画質評価を含んでもよい。元の画像が画質評価事項を満たさない場合に、さらなる画像をキャプチャすることができる。画像がビデオストリーム又はタイムラプスシーケンスから選択される実施形態において、選択された画像は、基準時間に最も近い画質評価を通過する最初の画像である。或いは、基準時間窓を、画質基準と共に（例えば、５．０日目の始まりから３０分後等と）定めることができる。この実施形態において、選択される画像は、基準時間窓の間に最も高い画質を有する選択された画像である。画質評価を行う際に使用される画質基準は、ピクセルの色の分布、輝度範囲、及び／又は低い画質若しくは装置故障を示す異常な画像特性又は特徴に基づいてもよい。閾値が、基準の画像セットを分析することによって決定されてもよい。これは、手動の評価、又は分布から外れ値を抽出する自動システムに基づき得る。

ＡＩ胚生存性評価モデル１００の生成は、図３Ａを参照してさらに理解することができ、図３Ａは、一実施形態による、画像から胚生存性スコアを推定するように構成されたＡＩモデル１００を生成及び使用するように構成されたクラウドベースの計算システム１の概略的なアーキテクチャ図である。図１Ｂを参照すると、ＡＩモデル生成方法は、モデルモニタ２１によって処理される。

モデルモニタ２１は、ユーザ４０が画像データ及びメタデータ１４を、データリポジトリを含むデータ管理プラットフォームに提供するのを可能にする。データ準備ステップは、例えば、画像を特定のフォルダに移動させるため、及び、画像の名前を変更し、画像に対して、物体検出、セグメンテーション、アルファチャンネル削除、パディング、クロッピング／局在化、正規化、スケーリング等の前処理を行うために行われる。特徴記述子を計算し、拡張した画像を予め生成することもできる。しかし、拡張を含むさらなる前処理を、訓練中に（すなわち、オンザフライで）行うこともできる。明らかに劣った画像の拒絶を可能にし、さらに、置き換え画像の捕捉を可能にするために、画像は画質評価を受けることもできる。同様に、患者記録又は他の臨床データを、（例えば生存可能又は生存不可能等の）追加の胚生存性分類に対して処理（準備）して、これは、ＡＩモデルの訓練及び／又は評価における使用を可能にするために、各画像にリンク又は関連付けられる。準備したデータは、最新バージョンの訓練アルゴリズムと共に、クラウドプロバイダ（例えばＡＷＳ等）のテンプレートサーバ２８にロードされる（１６）。テンプレートサーバは保存され、訓練サーバ３５を形成するＣＰＵ、ＧＰＵ、ＡＳＩＣ、ＦＰＧＡ、又はＴＰＵ（テンソルプロセッシングユニット）ベースであってもよい様々な訓練サーバクラスタ３７にわたって複数のコピーが作成される。モデルモニタのウェブサーバ３１は、次に、ユーザ４０によってジョブが提出されるごとに、複数のクラウドベースの訓練サーバ３５からの訓練サーバ３７に適用される。各訓練サーバ３５は、Ｐｙｔｏｒｃｈ、Ｔｅｎｓｏｒｆｌｏｗ、又は同等物等のライブラリを使用して、ＡＩモデルを訓練するために（テンプレートサーバ２８からの）予め準備されたコードを実行し、ＯｐｅｎＣＶ等のコンピュータビジョンライブラリを使用することができる。ＰｙＴｏｒｃｈ及びＯｐｅｎＣＶは、ＣＶ機械学習モデルを構築するための低レベルコマンドを有するオープンソースライブラリである。

訓練サーバ３７は、訓練プロセスを管理する。これは、例えば、無作為割当プロセスを使用して、画像を訓練セット、検証セット、及びブラインド検証セットに分割することを含んでもよい。さらに、訓練検証サイクルの間に、訓練サーバ３７は、サイクルごとに異なる画像のサブセットが分析されるか又は異なる順序で分析されるように、サイクルの開始時に画像のセットを無作為化することもできる。前処理が以前に行われなかったか、又は（例えば、データ管理の間に）不完全であった場合、物体検出、セグメンテーション、及びマスクされたデータセット（例えば、透明帯だけの画像、又はＩＺＣだけの画像等）の生成、ＣＶ特徴記述子の計算／推定、及びデータ拡張の生成を含むさらなる前処理が行われてもよい。前処理はまた、必要に応じて、パディング、正規化等を含んでもよい。すなわち、前処理ステップ１０２が、訓練に先立ち、訓練中、又は何らかの組み合わせで（すなわち、分散された前処理で）行われてもよい。実行されている訓練サーバ３５の数は、ブラウザインターフェースから管理することができる。訓練が進行するに従い、訓練の状態に関するロギング情報が、クラウドウォッチ６０等の分散されたロギングサービスに記録される（６２）。鍵となる患者情報及び精度情報もログから解析され、関係データベース３６に保存される。モデルも、（例えば、エラー又は他の停止の場合に再始動するために）後日検索及びロードすることができるように、データストレージ（例えば、ＡＷＳＳｉｍｐｌｅＳｔｏｒａｇｅＳｅｒｖｉｃｅ（Ｓ３）又は類似のクラウドストレージサービス）５０に定期的に保存される（５１）。訓練サーバのジョブが完了した場合又はエラーに遭遇した場合に、訓練サーバのステータスに関する電子メール更新がユーザ４０に送信される（４４）。

各訓練クラスタ３７内では、多数のプロセスが行われる。クラスタがウェブサーバ３１を介して開始されると、スクリプトが自動的に実行され、これは、準備された画像及び患者記録を読み取り、要求された特定のＰｙｔｏｒｃｈ／ＯｐｅｎＣＶ訓練コードを開始する（７１）。モデル訓練に対する入力パラメータ２８が、ブラウザインターフェース４２を介して又は構成スクリプトを介してユーザ４０によって供給される。次に、訓練プロセス７２は、要求されたモデルパラメータに対して開始され、長くて集中的なタスクであり得る。従って、訓練の進行中に進行を失わないように、ログは、ロギング（例えばＡＷＳクラウドウォッチ）サービス６０に定期的に保存され、モデルの現在のバージョンは（訓練されながら）、後の検索及び使用のためにデータ（例えばＳ３）ストレージサービスに保存される（５１）。訓練サーバ上のモデル訓練プロセスの概略的な流れ図の一実施形態が図３Ｂにおいて示されている。データ記憶サービス上の様々な訓練されたＡＩモデルが入手可能で、例えば、アンサンブル、蒸留、又は類似のアプローチを使用して複数のモデルを組み合わせて、様々なディープラーニングモデル（例えば、ＰｙＴｏｒｃｈ等）及び／又は目標とされたコンピュータビジョンモデル（例えば、ＯｐｅｎＣＶ等）を組み込んで、クラウドベースのデリバリープラットフォーム３０に提供されるロバストなＡＩモデル１００を生成することができる。

次に、クラウドベースのデリバリープラットフォーム３０システムは、ユーザ１０がウェブアプリケーション３４に直接画像をドラッグアンドドロップするのを可能にし、ウェブアプリケーション３４は、画像を準備し、胚生存性スコアを得るために訓練された／検証されたＡＩモデル１００に画像を渡し、（図２において示されているように）胚生存性スコアは直ちにレポートに戻される。ウェブアプリケーション３４は、クリニックが画像及び患者情報等のデータをデータベース３６に格納し、データに関する種々のレポートを作成し、それらの組織、グループ、又は特定のユーザのためのツールの使用だけでなく、請求書及びユーザアカウント（例えば、ユーザを作成する、ユーザを削除する、パスワードをリセットする、アクセスレベルを変更する等）に関する監査報告を作成することも可能にする。クラウドベースのデリバリープラットフォーム３０は、製品管理者がシステムにアクセスして、新しい顧客アカウント及びユーザを作成し、パスワードをリセットするだけでなく、（データ及び画面を含む）顧客／ユーザアカウントにアクセスして、技術サポートを容易にするのも可能にする。

画像から胚生存性スコアを推定するように構成されたＡＩモデルの実施形態の生成における様々なステップ及びバリエーションが、次に、さらに詳細に論じられる。図１Ａを参照すると、モデルは、訓練され、受精後５日目（すなわち、５日目：００：００から５日目：２３：５９までの２４時間）にキャプチャされた画像を使用している。検証されたモデルに関する研究が、受精後４日目に撮影された画像と比較される受精後５日目に撮影された画像を使用して、モデルの性能が有意に改善されることを示している。しかし、上述のように、１２時間等のより短い時間窓、又は３日目若しくは４日目等の他の日に撮影された画像、又は少なくとも５日目等の受精後の最短時間（例えば、オープンエンドの時間窓等）を使用して、効果的なモデルを依然として開発することができる。正確な時間窓（例えば、４日目又は５日目）よりもおそらく重要なことは、ＡＩモデルの訓練のために使用される画像、及び訓練されたＡＩモデルによるその後の分類に使用される画像が、類似の、好ましくは同じ時間窓（例えば、同じ１２又は２４時間窓）の間に撮影されることである。

分析に先立ち、各画像は、少なくとも、透明帯領域を特定するために画像をセグメントに分けることを含む前処理（画像準備）手順を受ける（１０２）。様々な前処理ステップ又は技術が適用されてもよい。これらは、データ記憶装置１４に追加した後に、又は訓練サーバ３７による訓練中に行われてもよい。一部の実施形態において、胚に対する画像の位置を検出及び特定するために物体検出（局在化）モジュールが使用される。物体検出／局在化は、胚を含むバウンディングボックスを推定することを含む。これは、画像のクロッピング及び／又はセグメンテーションのために使用することができる。また画像には、所与の境界でパディングが行われてもよく、次に、カラーバランス及び輝度が正規化される。画像は、次に、胚の外側の領域が画像の境界に近くなるようにクロップされる。これは、ＡＩ物体検出モデルの使用を含む、境界選択のためのコンピュータビジョン技術を使用して達成される。画像セグメンテーションは、透明帯及び透明帯内空洞（ＩＺＣ）等の着目されることになるモデル訓練に関連する領域を選ぶために、特定のモデルに対する画像を準備するのに有用なコンピュータビジョン技術である。画像は、透明帯のみの（すなわち、透明帯の境界をクロップし、ＩＺＣをマスクする）画像（図６Ｆを参照されたい）又はＩＺＣのみの（すなわち、ＩＺＣの境界をクロップして透明帯を排除する）画像（図６Ｇ）を生成するためにマスクされてもよい。背景は、画像内に残されてもよく、又は、マスクされてもよい。次に、胚生存性モデルは、例えば、透明帯及び画像の背景のみを有するようにマスクされた透明帯画像及び／又はＩＺＣのみを有するようにマスクされたＩＺＣ画像等、マスクされた画像のみを使用して訓練されてもよい。スケーリングは、訓練されている特定のモデルに合うように、既定のスケールに画像を再スケーリングすることを含む。拡張は、胚用ディッシュの方向を制御するために、画像の回転等、画像のコピーへの少しの変更を組み込むことを含む。ディープラーニングに先立つセグメンテーションの使用は、ディープラーニング法の性能に有意な影響を及ぼすことが分かった。同様に、拡張は、ロバストなモデルを生成するために重要であった。

様々な画像前処理技術を、ＡＩモデルの訓練に先立ち、ヒト胚画像の準備のために使用することができる。これらには：
アルファチャンネルストリッピングであって、例えば透明マップを除去するために、アルファチャンネルの画像を（存在する場合に）ストリップして、３チャンネルフォーマット（例えば、ＲＧＢ等）でコードされることを確実にすることを含む、アルファチャンネルストリッピング；
セグメンテーション、クロッピング、又は境界発見に先立ち、スクエアアスペクト比を生成するために、パディング境界線で各画像にパディング／ボルスタリングを行うことであって、このプロセスは、画像寸法に一貫性があり、比較可能であり、且つ、典型的には入力として正方形の画像を必要とするディープラーニング法に適合性があることを確実にする一方、画像の主要な構成要素がクロップされないことも確実にすること；
画像全てに対する固定平均値にＲＧＢ（赤－緑－青）又はグレースケール画像を正規化することであって、例えば、これは、各ＲＧＢチャンネルの平均をとり、各チャンネルをその平均値で割ることを含み、次に、ＲＧＢ空間における各画像の平均値が（１００，１００，１００）であることを確実にするために、各チャンネルに１００／２５５の固定値を掛け、このステップによって、画像間のカラーバイアスが抑制されること、及び各画像の輝度が正規化されることが確実になること；
バイナリ法、大津法、又は適応法を使用した画像のしきい値処理であって、膨張（オープニング）、収縮（クロージング）、スケール勾配を使用した、及び、形状の外側及び内側の境界の抽出するためにスケールマスクを使用した画像のモルフォロジー処理を含む、しきい値処理；
物体検出／画像のクロッピングを行って、胚に対する画像の位置を特定し、画像の端の周囲にアーチファクトがないことを確実にすることであって、これは、（透明帯を含む）胚を有するバウンディングボックスを推定するように訓練された（以下に論じられる）物体検出モデルを使用する物体検出器を使用して行われてもよいこと；
例えば、画像の二値化しきい値マップ上で計算された楕円ハフ変換からの最良の楕円当てはめ等、画像輪郭の楕円ハフ変換を使用して境界の幾何学的特性を抽出することであって、この方法は、画像内の胚の硬境界を選択することによって、並びに、新しい楕円の最長半径が新しい画像の幅及び高さによって包含されるように、及び、楕円の中心が新しい画像の中心であるように、新しい画像の正方形境界をクロップすることによって作用すること；
楕円領域の周囲に一貫した境界サイズを有する一貫して中心を持つ画像を確実にすることによって画像をズームすること；
画像をセグメントに分けて透明帯領域及び細胞質の透明帯内空洞（ＩＺＣ）領域を特定することであって、セグメンテーションは、所与の領域内で幾何学的動的輪郭（ＧＡＣ）モデル又はモルフォロジカルスネークを使用して非楕円画像の周囲の最良当てはめ輪郭を計算することによって行われてもよく、スネークの内側及び他の領域は、胚盤胞を有し得る細胞質（透明帯内空洞）領域又は透明帯領域上の訓練されたモデルの着目点に応じて異なって処理することができ、或いは、画像内のピクセルごとにクラスを特定するセマンティックセグメンテーションモデルが訓練されてもよく、一実施形態では、セマンティックセグメンテーションモデルを、透明帯及びＩＺＣをセグメントに分けるために事前学習されたＲｅｓＮｅｔ－５０エンコーダを有するＵ－Ｎｅｔアーキテクチャを使用して展開させ、バイナリ交差エントロピー損失関数を使用してこのモデルを訓練したこと；
特徴記述子を選択することによって画像に注釈を付け、記述子のキーポイントの所与の半径内のものを除いて、画像の全ての領域をマスクすること；
指定された解像度に画像のセット全体をリサイズ／スケール調整すること；並びに
視覚的に表示可能な画像ではなくテンソルに各画像を変換することを含むテンソル変換であって、これは、このデータフォーマットが、ディープラーニングモデルによってより使用可能であるためであり、一実施形態において、テンソル正規化は、平均（０．４８５，０．４５６，０．４０６）及び標準偏差（０．２９９，０．２２４，０．２２５）で、標準的な事前学習されたＩｍａｇｅＮｅｔ値から得られた、テンソル変換；
が含まれる。

図４は、一実施形態による、ヒト胚の画像上の境界発見のための二値化しきい値処理４００の概略図である。図４は、同じ画像に適用された８つの二値化しきい値処理、すなわち、レベル６０、７０、８０、９０、１００、１１０（それぞれ、画像４０１、４０２、４０３、４０４、４０５、４０６）、適応型ガウス４０７、及び大津型ガウス４０８を示している。図５は、一実施形態による、ヒト胚の画像上の境界発見方法５００の概略図である。第１のパネルは、外側の境界５０１、内側の境界５０２、並びに検出された内側の境界及び外側の境界を有する画像５０３を示している。内側の境界５０２は、ＩＺＣ境界にほぼ対応し、外側の境界５０１は、透明帯領域の外縁にほぼ対応し得る。

図６Ａは、一実施形態による、画像セグメンテーションのために画像の固定領域に適用された幾何学的動的輪郭（ＧＡＣ）モデルの使用例６００である。青色の実線６０１は、透明帯領域の外側の境界であり、緑色の破線６０２は、透明帯領域の縁及び細胞質（透明帯内空洞又はＩＺＣ）領域を画定する内側の境界を示している。図６Ｂは、画像セグメンテーションのために画像の固定領域に適用されたモルフォロジカルスネークの使用例である。ここでも、青色の実線６１１は、透明帯領域の外側の境界であり、緑色の破線６１２は、透明帯領域の縁及び細胞質（内側の）領域を画定する内側の境界を示している。この第２の画像では、（細胞質の透明帯内空洞領域を画定する）境界６１２は、右下の四分円において隆起又は突出部を有する不規則な形状を有している。

別の実施形態において、物体検出器は、胚を有するバウンディングボックスを推定するように訓練された物体検出モデルを使用する。物体検出の目標は、その物体に関連するピクセルの全てを有する最も大きなバウンディングボックスを特定することである。これは、モデルが、物体の位置及びカテゴリ／ラベル（すなわち、ボックス内に何があるか）の両方をモデル化することを必要とし、従って、検出モデルは、典型的には、物体分類器ヘッド及びバウンディングボックス回帰ヘッドの両方を有する。

１つのアプローチは、高価な探索プロセスを使用する領域ベースの畳み込みニューラルネットワーク（又はＲ‐ＣＮＮ）が適用されて、画像パッチ提案（潜在的なバウンディングボックス）を探索することである。次に、これらのバウンディングボックスを使用して、関心のある画像の領域がクロップされる。次に、クロップされた画像には、画像領域の内容を分類するために分類モデルが実行される。このプロセスは、複雑であり、計算コストが高い。代替案は、画像パッチ提案の探索ではなく、特徴領域を提案したＣＮＮを使用するＦａｓｔＣＮＮである。このモデルは、ＣＮＮを使用して、典型的には１００から２０００の間に設定された固定数の候補ボックスを推定する。さらに速い代替のアプローチは、アンカーボックスを使用して必要なボックスの探索スペースを制限するＦａｓｔｅｒＲＣＮＮである。デフォルトによって、（各々が異なるサイズの）９つのアンカーボックスの標準セットが使用される。ＦａｓｔｅｒＲＣＮＮ。これは、関心のある特徴領域を予測するように併せて学習する小さなネットワークを使用し、これは、高価な領域探索を置き換えることができるため、Ｒ－ＣＮＮ又はＦａｓｔＣＮＮと比較してランタイムを速めることができる。

後ろからくる全ての特徴活性化に対して、１つもモデルが、アンカーポイント（以下の画像では赤）とみなされる。全てのアンカーポイントに対して、９（又は問題に応じてそれ以上、それ以下）のアンカーボックスが生成される。アンカーボックスは、訓練データセット内の共通の物体サイズに対応する。複数のアンカーボックスを有する複数のアンカーポイントが存在するため、これは、数万の領域提案をもたらす。次に、提案には、非最大抑制（Ｎｏｎ－ＭａｘｉｍａｌＳｕｐｐｒｅｓｓｉｏｎ（ＮＭＳ））と呼ばれるプロセスを介してフィルタがかけられ、これによって、確信的なより小さなボックスをその中に有する最も大きなボックスが選択される。これは、物体ごとに１つのボックスのみ存在することを確実にする。ＮＭＳは各バウンディングボックス予測の信頼性に依存するため、いつ物体を同じオブジェクトインスタンスの一部とみなすかに対して閾値を設定しなければならない。アンカーボックスは物体に完全には適合しないため、回帰ヘッドのジョブは、最良適合バウンディングボックスに変態させるこれらのアンカーボックスへのオフセットを予測することである。

検出器を特殊化することもでき、例えば、歩行者検出器に対して人のみ等、物体のサブセットに対するボックスのみを推定することもできる。関心のない物体のカテゴリは、背景クラスに対応する０クラスにエンコードされる。訓練の間、背景クラスに対するパッチ／ボックスは、通常、バウンディングボックス情報を有さない画像領域から無作為にサンプリングされる。このステップは、モデルがそれらの望ましくない物体に対して不変になるのを可能にし、例えば、それらの物体を不正確に分類するのではなく、それらを無視するということを学習することができる。バウンディングボックスは、通常、２つの異なるフォーマットで表され、最も一般的なのは、（ｘ１，ｙ１，ｘ２，ｙ２）であり、ここで、ポイントｐ１＝（ｘ１，ｙ１）は、ボックスの左上隅であり、ｐ２＝（ｘ２，ｙ２）は、右下側である。もう１つの一般的なボックスフォーマットは、（ｃｘ，ｃｙ，高さ，幅）であり、ここで、バウンディングボックス／矩形はボックスの中心点（ｃｘ，ｃｙ）及びボックスのサイズ（高さ，幅）としてエンコードされる。検出方法によって、タスク及び状況に応じて異なるエンコーディング／フォーマットを使用する。

回帰ヘッドは、Ｌ１損失を使用して訓練されてもよく、分類ヘッドは、交差エントロピー損失を使用して訓練されてもよい。Ｏｂｊｅｃｔｎｅｓｓ損失（これは背景であるか又は物体であるか）も使用することができ、最終損失が、これらの損失の合計として計算される。個々の損失はまた、以下のように重み付けされてもよい：

一実施形態では、ＦａｓｔｅｒＲＮＮに基づく胚検出モデルを使用した。この実施形態では、約２０００の画像を、グラウンドトゥルースバウンディングボックスを用いて手動でラベルした。透明帯領域を含む完全な胚がバウンディングボックスの内側にあるようにボックスをラベルした。二胚移植としても知られる２つ以上の胚が存在する場合には、モデルが二胚移植と単一胚移植とを区別するのを可能にするために、両方の胚をラベルした。どちらの胚が二胚移植のものであるかを一致させることは不可能であるため、二胚移植が検出された場合に、使用に対してエラーを生じさせるようにモデルを構成した。複数の「ローブ」を有するモデルは、単一の胚であるとしてラベルされる。

ＧＡＣセグメンテーションに代わるものとして、セマンティックセグメンテーションが使用されてもよい。セマンティックセグメンテーションは、全てのピクセルに対してカテゴリ又はラベルを予測しようとするタスクである。セマンティックセグメンテーションのようなタスクは、全ての入力ピクセルに対して出力が必要とされるため、ピクセルごとの高密度予測タスクと呼ばれる。セマンティックセグメンテーションモデルは、全画像出力を必要とするため、標準的なモデルとは異なって設定される。典型的には、セマンティックセグメンテーション（又は任意の高密度予測モデル）は、エンコードモジュール及びデコードモジュールを有することになる。エンコードモジュールは、画像の（特徴表現と呼ばれることもある）低次元表現の作成に対して責任がある。次に、この特徴表現は、デコードモジュールを介して最終出力画像にデコードされる。訓練の間に、（セマンティックセグメンテーションに対する）予測ラベルマップが、次に、各ピクセルにカテゴリを割り当てるグラウンドトゥルースラベルマップと比較され、損失が計算される。セグメンテーションモデルに対する標準的な損失関数は、（問題が複数クラスであるかどうかに応じて）バイナリ交差エントロピー、標準的な交差エントロピー損失のいずれかである。これらの実装は、損失がピクセルごとに（テンソルの画像チャンネル寸法にわたって）適用されることを除いて、それらの画像分類同類（ｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｕｓｉｎｓ）と同じである。

完全畳み込みネットワーク（ＦＣＮ）スタイルのアーキテクチャが、一般的なセマンティックセグメンテーションタスクに対してこの分野で一般的に使用されている。このアーキテクチャでは、（ＲｅｓＮｅｔ等の）事前学習されたモデルが、第一に、（元の解像度の約１／３２であるが、拡張畳み込みが使用される場合には１／８でもあり得る）低解像度画像をエンコードするために使用される。この低解像度ラベルマップは、次に、元の画像解像度までアップサンプリングされ、損失が計算される。低解像度ラベルマップを予測したことの背後にある直観は、セマンティックセグメンテーションマスクが非常に低い頻度であり、より大きなデコーダの余分なパラメータ全てを必要としないということである。セグメンテーション結果を改善するために多段階アップサンプリングを使用する、このモデルのより複雑なバージョンが存在する。簡単に言うと、損失は、各スケールでの予測を洗練させるために、漸進的な様式で複数の解像度で計算される。

このタイプのモデルの１つの欠点は、入力データが高解像度であるか又は高周波情報を有する（すなわち、より小さい／より薄い物体である）場合に、低解像度のラベルマップは、（特に、エンコードモデルが拡張畳み込みを使用しない場合に）これらの小さな構造を捕捉することができないということである。標準的なエンコーダ／畳み込みニューラルネットワークにおいて、入力画像／画像特徴は、モデルが深くなるに従い漸進的にダウンサンプリングされる。しかし、画像／特徴がダウンサンプリングされるに従い、主要な高頻度の詳細が失われる恐れがある。従って、これに取り組むために、エンコーダ及びデコーダの対称的な構成要素間のスキップ接続を代わりに使用する代替のＵ－Ｎｅｔアーキテクチャを使用することができる。簡単に言うと、全てのエンコードブロックは、デコーダにおいて対応するブロックを有する。次に、各段階における特徴は、最も低い解像度の特徴表現に沿ってデコーダに渡される。デコードブロックの各々について、入力特徴表現は、その対応するエンコードブロックの解像度に一致するようにアップサンプリングされる。次に、エンコードブロック及びアップサンプリングされた低解像度の特徴からの特徴表現は、連結され、２Ｄ畳み込み層を通過させられる。このように特徴を連結することによって、デコーダは、各ブロックにおける入力を洗練させるように学習することができ、その入力に応じてどの詳細（低解像度の詳細又は高解像度の詳細）を統合するかを選ぶことができる。

Ｕ－Ｎｅｔアーキテクチャの一例６２０が、図６Ｃにおいて示されている。ＦＣＮスタイルのモデルとＵ－Ｎｅｔスタイルのモデルとの主な相違点は、ＦＣＮモデルにおいて、エンコーダが低解像度のラベルマップを予測し、それを次に（おそらく漸進的に）アップサンプリングすることに対して責任があるということである。一方、Ｕ－Ｎｅｔモデルは、最終層まで十分完全なラベルマップの予測を有さない。最終的に、これらのモデルの多くの変形（例えば、ハイブリッド等）が存在し、これらのモデルの相違点をトレードオフする。Ｕ－ｎｅｔアーキテクチャは、モデルをゼロから訓練するのには不十分なデータの場合に使用するために、ＲｅｓＮｅｔ－１８又はＲｅｓＮｅｔ－５０等の事前学習された重みを使用することもできる。

一部の実施形態において、セグメンテーションを、バイナリ交差エントロピーを使用して訓練された事前学習されたＲｅｓＮｅｔ－５０エンコーダを用いてＵ－Ｎｅｔアーキテクチャを使用して行って、透明帯領域及び透明帯内空洞領域を特定した。このＵ－Ｎｅｔアーキテクチャに基づくセグメンタは、一般的に、動的輪郭に基づくセグメンテーションよりも性能が優れており、特に、より低い画質の画像に対して優れていた。図６Ｄ乃至６Ｆは、一実施形態によるセグメンテーションを例示している。図６Ｄは、透明帯内空洞（ＩＺＣ、６３２）を囲む透明帯領域６３１を含む５日目の胚６３０の画像である。この実施形態において、胚は孵化し始めており、ＩＳＺが、透明帯から出現（孵化）している。胚は、背景ピクセル６３３によって囲まれている。図６Ｅは、ディープラーニング法によってより容易に処理される正方形画像を生成するためにパディングピクセル６４１、６４２を加えることによって図６Ｄから生成されたパディングが行われた画像６４０である。図６Ｆは、透明帯６３１及び背景ピクセル６３３を残すようにＩＺＣ６５２がマスクされた透明帯画像６５０を示しており、図６Ｇは、ＩＺＣ領域６３２のみを残して透明帯及び背景６６１がマスクされたＩＺＣ画像６６０を示している。セグメントに分けられると、所望の領域以外の全ての領域がマスクされた画像セットが生成され得る。次に、ＡＩモデルを、これらの特定の画像セットにおいて訓練することができる。すなわち、ＡＩモデルを２つのグループに分けることができ、すなわち、第一に、さらなる画像セグメンテーションを含むものと、第二に、全体的にセグメントに分けられていない画像を必要とするものに分けることができる。ＩＺＣをマスクし、透明帯領域を露出させた画像において訓練されたモデルを、透明帯モデルとして示した。透明帯をマスクした画像において訓練されたモデル（ＩＺＣモデルと示した）及び完全胚画像において訓練されたモデル（すなわち、第２のグループ）も、訓練において考慮した。

一実施形態では、各画像の一意性を確実にするために、記録のコピーが結果にバイアスをかけないように、新しい画像の名前は、ｐｎｇ（ロスレス）ファイルとして、元の画像内容のハッシュに等しく設定される。実行されると、データパーサーが、出力ディレクトリにおいてすでに存在しないいかなる画像（存在しない場合には作成することになる）に対しても、マルチスレッド方式で画像を出力することになり、従って、長い処理である場合は、中断されたとしても同じポイントからリスタートさせることができる。データ準備ステップはまた、一貫性のない又は矛盾した記録に関連する画像を排除し且ついかなる誤った臨床記録も特定するためにメタデータを処理することを含んでもよい。例えば、スクリプトをスプレッドシート上で実行して、既定のフォーマットにメタデータを適合させることができる。これは、モデルを生成及び訓練するために使用されるデータが高品質なものであり、均一な特徴（例えば、サイズ、色、スケール等）を有するということを確実にする。

一部の実施形態において、データは、おそらく不正確な妊娠結果ラベル（すなわち、誤ってラベルされたデータ）を有する画像を特定すること、及び、特定された画像を排除するか又は再度ラベルすることによってクリーニングされる。一実施形態において、これは、画像に関連する妊娠結果ラベルが不正確である可能性を推定すること、及び、その可能性を閾値と比較することによって行われる。可能性が閾値を超える場合、画像は排除されるか又は再度ラベルされる。妊娠結果ラベルが不正確である可能性を推定することは、複数のＡＩ分類モデル及びｋ分割交差検証法を使用することによって行われてもよい。このアプローチにおいて、画像は、ｋの相互に排他的な検証データセットに分割される。複数のＡＩ分類モデルの各々は、組み合わされたｋ－１検証データセットにおいて訓練され、次に、残りの検証データセットにおける画像を分類するために使用される。次に、その可能性は、画像の妊娠結果ラベルを誤って分類するＡＩ分類モデルの数に基づき決定される。一部の実施形態において、ディープラーニングモデルは、尤度値を学習するためにさらに使用されてもよい。

データが適切に前処理されると、次に、１つ以上のＡＩモデルを訓練するために使用することができる。一実施形態において、ＡＩモデルは、透明帯を除いて画像の全ての領域が前処理の間にマスクされた透明帯画像のセットにおいて訓練されたディープラーニングモデルである。一実施形態では、複数のＡＩモデルが訓練され、次に、アンサンブル又は蒸留法を使用して組み合わされる。ＡＩモデルは、１つ以上のディープラーニングモデル及び／又は１つ以上のコンピュータビジョン（ＣＶ）モデルであってもよい。ディープラーニングモデルは、完全胚画像、透明帯画像、又はＩＺＣ画像において訓練されてもよい。コンピュータビジョン（ＣＶ）モデルは、各画像から計算された特徴記述子のセットを使用した機械学習法を使用して生成されてもよく、個々のモデルの各々は、画像における胚の胚生存性スコアを推定するように構成され、ＡＩモデルは、選択されたモデルを組み合わせて、ＡＩモデルによって戻される全体的な胚生存性スコアを生成する。

訓練は、無作為化されたデータセットを使用して行われる。複雑な画像データのセットは、特に、データセットが約１０，０００の画像より小さい場合に、不均等分布を受ける可能性があり、ここで、主要な生存可能又は生存不可能な胚の例は、セットを通して均等に分布されない。従って、データのいくつかの（例えば、２０の）無作為化が一度に考慮され、次に、以下に定められる訓練、検証、及びブラインドテストのサブセットに分割される。全ての無作為化は、どれが訓練のための最良の分布を示すかを計測するために、単一の訓練例に対して使用される。当然の結果として、生存可能な胚と生存不可能な胚の数の比が全てのサブセットにわたって同じであることを確実にすることも有益である。胚の画像は非常に多様であり、従って、テスト及び訓練セットにわたる画像の均一な分布を使用して性能を改善することができるということを確実にする。従って、無作為化を行った後で、訓練セット、検証セット、及びブラインド検証セットの各々における、生存可能の分類を有する画像と生存不可能の分類を有する画像との比が計算及びテストされて、比が類似していることを確実にする。例えばこれは、比の範囲が、画像の数を考慮したある分散内であるかどうか又は閾値未満であるかどうかテストすることを含んでもよい。その範囲が類似していない場合、無作為化は廃棄され、その比が類似している無作為化が得られるまで、新たな無作為化が生成及びテストされる。より一般的には、結果が、ｎの状態を有するｎ項の結果である場合、無作為化が行われた後、計算ステップは、訓練セット、検証セット、及びブラインド検証セットの各々におけるｎ項の結果の状態の各々の頻度を計算すること、及び、頻度が類似していることをテストし、頻度が類似していない場合は、その頻度が類似している無作為化が得られるまで、割り当てを廃棄し、無作為化を繰り返すことを含んでもよい。

訓練は、複数の訓練検証サイクルを行うことをさらに含む。各訓練検証サイクルにおいて、全使用可能データセットの各無作為化は、訓練、検証、及びブラインド検証のデータセットとして知られる典型的に３つの別々のデータセットに分割される。一部の変形では、４つ以上のデータセットを使用することができ、例えば、検証及びブラインド検証のデータセットを、異なる困難性の複数のサブテストセットに層別化することができる。

第１のセットは訓練データセットであり、少なくとも６０％、好ましくは７０～８０％の画像を含む。これらの画像は、ディープラーニングモデル及びコンピュータビジョンモデルによって、胚生存性評価モデルを作成して生存可能な胚を正確に特定するために使用される。第２のセットは検証データセットであり、これは、典型的には、約（又は少なくとも）１０％の画像である。このデータセットは、訓練データセットを使用して作成したモデルの精度を検証又はテストするために使用される。これらの画像は、モデルを作成するために使用される訓練データセットから独立しているけれども、検証データセットは、モデル訓練の進行をモニター及び最適化するために使用されるため、精度において小さな正のバイアスを依然として有する。従って、訓練は、この特定の検証データセットの精度を最大化するモデルをターゲットにする傾向があり、これは、より一般的に他の胚画像に適用される場合には必ずしも最良のモデルであるわけではない。第３のデータセットは、ブラインド検証データセットであり、これは、典型的には、約１０～２０％の画像である。上記の検証データセットを用いて正のバイアスに取り組むために、第３のブラインド検証データセットを使用して、最終モデルの最終的なバイアスのない精度評価が行われる。この検証は、モデリング及び検証プロセスの最後に、最終モデルが作成及び選択されたときに生じる。最終モデルの精度が検証データセットと比較的一貫していることを確実にして、モデルが全ての胚画像に対して一般化できることを確実にすることが重要である。上記の理由により、検証データセットの精度はブラインド検証データセットよりも高くなる可能性が高い。ブラインド検証データセットの結果は、モデルの精度のより信頼性の高い尺度である。

一部の実施形態において、データを前処理することは、画像を拡張することをさらに含み、画像に変更が加えられる。これは、訓練に先立ち又は訓練の間に（即ち、オンザフライで）行われてもよい。拡張は、直接画像を拡張（変更）するか又は小さな変化を有する画像のコピーを作成することによって拡張（変更）することを含んでもよい。画像の９０度回転、ミラーフリップ、背景色に合わせるために斜めの境界線が埋め込まれている場合の非９０度回転、画像ぼかしの量を変えて、強度ヒストグラムを使用して画像のコントラストを調整して、及び、水平方向及び／又は垂直方向の両方における１つ以上の小さなランダム変換、ランダム回転を適用して、ＪＰＥＧ（又は圧縮）ノイズ、ランダム画像のサイズ変更、ランダム色相ジッタ、ランダム輝度ジッタ、コントラスト制限付き適応ヒストグラム均等化、ランダムフリップ／ミラー、画像鮮鋭化、画像エンボス処理、ランダム輝度及びコントラスト、ＲＧＢカラーシフト、ランダム色相及び飽和、チャンネルシャッフル、ＲＧＢからＢＧＲ又はＲＢＧ又は他のものへのスワップ、粗いドロップアウト、モーションブラー、中央ブラー、ガウスブラー、ランダムシフトスケール回転（すなわち、３つが全て組み合わされたもの）を加えて、任意の数の拡張を行うことができる。同じ拡張された画像のセットが複数の訓練検証サイクルに使用されてもよく、又は、新しい拡張が、各サイクルの間にオンザフライで生成されてもよい。ＣＶモデル訓練に使用されるさらなる拡張は、特徴記述子を抽出するための乱数発生器の「シード」の変更である。コンピュータビジョン記述子を得るための技術は、特徴のサンプルを抽出することにおける乱数性の要素を有する。ＣＶモデルに対するよりロバストな訓練を提供するために、この乱数を拡張間で変更し且つ含めることができる。

コンピュータビジョンモデルは、主要な画像の特徴を特定すること、及び、それらを記述子の観点から表現することに依存する。これらの記述子は、ピクセル変動、グレーレベル、テクスチャの粗さ、固定されたコーナーポイント、又は画像勾配の向き等の品質をエンコードすることができ、これらは、ＯｐｅｎＣＶ又は類似のライブラリに実装される。各画像において探索するためにそのような特徴を選択することによって、モデルを、どの特徴の配置が胚生存性に対する良好な指標であるかを発見することにより構築することができる。この手順は、ランダムフォレスト又はサポートベクトルマシン等の機械学習プロセスによって最良に実行され、これらは、コンピュータビジョン分析から、それらの記述子の観点から画像を分けることができる。

小規模な特徴及び大規模な特徴の両方を包含する、様々なコンピュータビジョン記述子が使用され、これらは、従来の機械学習法と組み合わされて、胚選択のための「ＣＶモデル」が生成される。これらは、任意選択で、後にディープラーニング（ＤＬ）モデルと組み合わされて、例えば、アンサンブルモデルになるか、又は、蒸留に使用されて、生徒モデルを訓練する。適したコンピュータビジョン画像記述子には以下が含まれる：
ハフ変換を介した透明帯：内側及び外側の楕円を発見して、透明帯及び透明帯内空洞のスプリットを近似し、半径の平均値及び差を特徴として記録する；
グレーレベル同時生起行列（ＧＬＣＭ）テクスチャ解析：領域内の隣接するピクセルを比較することによって、異なる領域の粗さを検出する。使用されるサンプル特徴記述子は：角二次モーメント（ＡＳＭ）、均一性、相関、コントラスト、及びエントロピーである。領域の選択は、所定のサイズの画像の所与の数の正方形サブ領域を無作為にサンプリングすることによって得られ、各領域に対する５つの記述子の各々の結果を、全特徴のセットとして記録する；
勾配方向ヒストグラム（ＨＯＧ）：スケール不変特徴変換記述子及びシェイプコンテキストを使用して、物体及び特徴を検出する。この方法は、発生学及び他の医学的画像診断に使用されることに対して勝っているが、それ自体は機械学習モデルを構成しない；
方向付き加速化断片試験による特徴抽出（ＦＡＳＴ）及び回転バイナリロバスト独立基本特徴（ＢＲＩＥＦ）（ＯＲＢ）：ＳＩＦＴ及びＳＵＲＦ特徴に代わる業界標準であり、ＦＡＳＴキーポイント検出器（特定のピクセル）とＢＲＩＥＦ記述子との組み合わせに依存し、回転不変性を含むように修正されている；
バイナリロバスト不変スケーラブルキーポイント（ＢＲＩＳＫ）：ピクセルの強度比較のアセンブリと組み合わせたＦＡＳＴベースの検出器であり、これは、キーポイントで指定された特徴の周りの各近傍をサンプリングすることによって達成される；
最大安定極値領域（ＭＳＥＲ）：画像から抽出された１つ以上のグレーレベルセットに関する安定した接続成分である共変領域の抽出を介した局所形態学的特徴検出アルゴリズムである；
追跡に向いた特徴（ＧＦＴＴ）：コーナーのテクスチャを検出するために適応ウィンドウサイズを使用する特徴検出器であり、Ｈａｒｒｉｓコーナー検出又はＳｈｉ－Ｔｏｍａｓｉコーナー検出を使用し、それらの空間強度プロファイルにおいて高い標準偏差を示すポイントを抽出して特定される。

図７は、画像７０１内の（７１１から７１６でラベルされた；網目模様）６つの透明帯領域及び（７２１から７２６でラベルされた；点線）６つの細胞質／ＩＺＣ領域のセットにおいて計算された、サンプル特徴記述子７０２：ＡＳＭ、均一性、相関、コントラスト、及びエントロピーのＧＬＣＭ相関を示すグレーレベル同時生起行列（ＧＬＣＭ）のプロット７００である。

コンピュータビジョン（ＣＶ）モデルは、以下の方法によって構築される。上記のコンピュータビジョン画像記述子技術のうち１つ（又はそれ以上）が選択され、特徴が、訓練データセット内の画像の全てから抽出される。これらの特徴は、組み合わされたアレイに配列され、次に、Ｋ平均法の教師なしクラスタリングアルゴリズムに供給され、このアレイは、「バッグオブビジュアルワード」に対するコードブックと呼ばれる。クラスタの数は、モデルの自由パラメータである。このポイントからのクラスタ化された特徴は、アルゴリズムのいずれかの組み合わせを通して使用される「カスタム特徴」を表し、それに対して、検証又はテストセット内の各個々の画像が比較されることになる。各画像は、抽出される特徴を有し、個々にクラスタ化される。クラスタ化される特徴を有する所与の画像に対して、コードブック内のクラスタの各々への（特徴空間における）「距離」が、最も近いクラスタ化される特徴を与えるＫＤＴｒｅｅのクエリアルゴリズムを使用して測定される。次に、ツリークエリからの結果を、ヒストグラムとして表し、各特徴がその画像において生じる頻度を示すことができる。最後に、これらの特徴の特定の組み合わせが胚生存性の尺度に対応するかどうかという問題が、機械学習を使用して評価される必要がある。ここでは、ヒストグラム及びグラウンドトゥルースの結果を使用して、教師あり学習が実行される。最終選択モデルを得るために使用される方法は、ランダムフォレスト又はサポートベクトルマシン（ＳＶＭ）を含む。

複数のディープラーニングモデルを生成することもできる。ディープラーニングモデルは、ニューラルネットワーク法、典型的には、複数の結合層から成る畳み込みニューラルネットワーク（ＣＮＮ）に基づいており、「ニューロン」の各層は、「整流器」、「シグモイド」等の非線形活性化関数を有している。特徴ベースの方法（すなわち、ＣＶモデル）と対照をなして、ディープラーニング及びニューラルネットワークは、手動で設計された特徴記述子に依存するのではなく、代わりに特徴を「学習」する。これは、それらが所望のタスクに合わせた「特徴表現」を学習するのを可能にする。これらの方法は、全体的な分類に到達するために、小さな細部及び全体的な形態学的形状の両方をピックアップすることができるため、画像分析に適している。種々のディープラーニングモデルが利用可能であり、各々が、残差ネットワーク（例えば、ＲｅｓＮｅｔ－１８、ＲｅｓＮｅｔ－５０、及びＲｅｓＮｅｔ－１０１）、高密度に接続されたネットワーク（例えば、ＤｅｎｓｅＮｅｔ－１２１及びＤｅｎｓｅＮｅｔ－１６１）、並びに他のバリエーション（例えば、ＩｎｃｅｐｔｉｏｎＶ４及びＩｎｃｅｐｔｉｏｎ－ＲｅｓＮｅｔＶ２）等、異なるアーキテクチャ（すなわち、異なる数の層及び層間の接続）を有している。ディープラーニングモデルは、安定性（訓練プロセスにわたって検証セットに対して精度値がどの程度安定していたか）、転移性（ｔｒａｎｓｆｅｒａｂｉｌｉｔｙ）（訓練データにおける精度が検証セットにおける精度とどの程度良く相関していたか）、及び予測精度（どのモデルが、生存可能及び生存不可能な胚の両方について、最良の検証精度、総精度、及び胚のクラスタイプ両方にわたる重み付け平均精度として定められる均衡化精度を提供したか）に基づき評価することができる。訓練には、入力画像解像度、最適化アルゴリズムの選択、学習速度値及びスケジューリング、モーメンタム値、ドロップアウト、及び重みの初期化（事前学習）を含む、モデルパラメータ及びハイパーパラメータの異なる組み合わせを試すことが含まれる。損失関数は、モデルの実行を評価するために定められてもよく、訓練の間に、ディープラーニングモデルは、学習速度を変えることによって最適化されて、ネットワークの重みパラメータに対する更新機構を駆動して、目的／損失関数を最小化する。

ディープラーニングモデルは、種々のライブラリ及びソフトウェア言語を使用して実装されてもよい。一実施形態において、ＰｙＴｏｒｃｈライブラリが、ｐｙｔｈｏｎの言語でニューラルネットワークを実装するために使用される。ライブラリのＰｙｔｏｒｃｈは、加えて、ハードウェア（ＧＰＵ、ＴＰＵ）加速を利用するテンソルが作成されるのを可能にし、ニューラルネットワークのための複数の層を構築するためのモジュールを含む。ディープラーニングは、画像分類のための最も強力な技術の一つであるけれども、上記のセグメンテーション又は拡張の使用を介したガイダンスを提供することによって改善することができる。ディープラーニングに先立つセグメンテーションの使用は、ディープラーニング法の性能に著しい影響を及ぼすことが分かり、対照的なモデルの生成を支援した。従って、好ましくは、少なくとも一部のディープラーニングモデルを、透明帯が特定された画像等のセグメントに分けられた画像、又は、透明帯領域を除く全ての領域を隠すためにマスクされた画像において訓練した。一部の実施形態において、複数のディープラーニングモデルは、セグメントに分けられた画像において訓練された少なくとも１つのモデルと、セグメンテーションを受けていない画像において訓練された１つのモデルとを含む。同様に、拡張が、ロバストなモデルを生成するために重要であった。

アプローチの有効性は、ディープニューラルネットワーク（ＤＮＮ）のアーキテクチャによって決定される。しかし、特徴記述子法とは異なり、ＤＮＮは、分類器を利用する前に、畳み込み層全体を通して特徴自体を学習する。すなわち、提案された特徴を手動で組み込むことなく、ＤＮＮは、文献中の既存の実践をチェックするために使用することができ、並びに、以前には推測できなかった記述子、特に、ヒトの目が検出及び測定するのが困難な記述子を開発することができる。

ＤＮＮのアーキテクチャは、入力としての画像のサイズ、ＤＮＮを記述するテンソルの次元を有する隠れ層、及び出力としてクラスラベルの数を有する線形分類器によって制約される。ほとんどのアーキテクチャは、左右、上下、及び中心の概念を捉えるために、小さな（３×３ピクセル）フィルタを用いて、多数のダウンサンプリング比を利用する。ａ）畳み込み２ｄ層、ｂ）整流線形ユニット（ＲｅＬＵ）、及びｃ）最大プーリング層のスタックは、ＤＮＮを通るパラメータの数が扱いやすいままであるのを可能にする一方で、フィルタが、画像の高レベル（トポロジー）の特徴上を通過し、それらを画像に埋め込まれた中間の及び最後に顕微鏡レベルの特徴上にマッピングするのを可能にする。最上層は、典型的には、ＳＶＭと同様に、分類器として作用する１つ以上の全結合ニューラルネットワーク層を含む。典型的には、ソフトマックス層が、全結合分類器の後の確率を有するように、結果として生じるテンソルを正規化するために使用される。従って、モデルの出力は、画像が生存不可能又は生存可能のいずれかである確率のリストである。

図８は、一実施形態による、訓練後の、入力画像を予測に変換する畳み込み層を含むディープラーニング法の概略的なアーキテクチャ図である。図８は、一実施形態による、ＲＥＳＮＥＴ１５２アーキテクチャに基づく一連の層を示している。構成要素には、以下のように注釈が付けられている。「ＣＯＮＶ」は、下層からの入力の相互相関を計算する畳み込み２Ｄ層を示す。畳み込み層内の各要素又はニューロンは、その受容野、例えば３×３又は７×７ピクセルからの入力のみを処理する。これによって、層を記述するのに必要な学習可能なパラメータの数が減り、全結合層から構築されるものよりもディープなニューラルネットワークが形成されるのが可能になる。これらの層では、全てのニューロンが後続の層における全ての他のニューロンに接続され、これは、メモリ負荷が高く、オーバーフィッティングさせる傾向がある。畳み込み層は空間移動不変性でもあり、これは、主題が正確に中心合わせされることを保証することができない画像を処理するのに有用である。「ＰＯＯＬ」は、最大プーリング層を指し、これは、ダウンサンプリング法であり、それによって、所与の領域内で代表的なニューロンの重みのみが選択され、ネットワークの複雑さが低減され、オーバーフィッティングも低減される。例えば、畳み込み層の４×４の正方形領域内の重みについては、各２×２のコーナーブロックの最大値が計算され、これらの代表値が、次に、正方形領域のサイズを２×２の大きさまで減らすために使用される。ＲＥＬＵは、非線形活性化関数として作用する整流線形ユニットの使用を示す。一般的な例として、ランプ関数が、所与のニューロンからの入力ｘについて以下の形式：

をとり、生物学におけるニューロンの活性化と類似している。入力が畳み込み層の全てを通過した後の、ネットワークの終わりにおける最終層は、典型的には、分類器として作用する全結合（ＦＣ）層である。この層は、最終入力を得て、分類カテゴリと同じ数の次元のアレイを出力する。例えば「生存可能な５日目の胚」及び「生存不可能な５日目の胚」等、２つのカテゴリでは、最終層は長さ２のアレイを出力し、これは、入力画像がそれぞれのカテゴリと共に整列する特徴を有する割合を示す。最終ソフトマックス層が加えられることが多くあり、これは、出力アレイにおける最終的な数を０から１に適合するパーセンテージに変換し、両方を合わせて合計１にすることによって、最終的な出力を、画像がカテゴリの１つに分類されるための信頼限界として解釈することができる。

１つの適したＤＮＮアーキテクチャは、ＲｅｓＮｅｔ１５２、ＲｅｓＮｅｔ１０１、ＲｅｓＮｅｔ５０、又はＲｅｓＮｅｔ－１８等のＲｅｓｎｅｔ（ｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｄｏｃｕｍｅｎｔ／７７８０４５９）である。ＲｅｓＮｅｔは、極めて多くの隠れ層を使用すること、及び、「残差接続」としても知られる「スキップ接続」を導入することによって、２０１６年にこの分野を著しく前進させた。１つの層から次の層への差のみが計算され、これは、より時間費用効果が高く、特定の層において変化がほとんど検出されない場合、その層はスキップされ、従って、画像内の小さい特徴と大きい特徴の組み合わせに非常に迅速に合わせるネットワークを作成する。特に、ＲｅｓＮｅｔ－１８、ＲｅｓＮｅｔ－５０、ＲｅｓＮｅｔ－１０１、ＤｅｎｓｅＮｅｔ－１２１、及びＤｅｎｓｅＮｅｔ－１６１は、一般的に、他のアーキテクチャよりも性能が優れていた。別の適したＤＮＮアーキテクチャは、ＤｅｎｓｅＮｅｔ１６１、ＤｅｎｓｅＮｅｔ２０１、ＤｅｎｓｅＮｅｔ１６９、ＤｅｎｓｅＮｅｔ１２１等のＤｅｎｓｅＮｅｔ（ｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｄｏｃｕｍｅｎｔ／８０９９７２６）である。ＤｅｎｓｅＮｅｔは、ＲｅｓＮｅｔの発展形であり、現在、全ての層は、最大数のスキップ接続を有して、いかなる他の層にもスキップすることができる。このアーキテクチャは、はるかに多くのメモリを必要とし、従って効率も悪いが、ＲｅｓＮｅｔよりも改善された性能を示すことができる。多数のモデルパラメータで、オーバートレーニング／オーバーフィッティングすることも容易である。全てのモデルアーキテクチャは、これを制御する方法、特にＤｅｎｓｅＮｅｔ－１２１及びＤｅｎｓｅＮｅｔ－１６１を制御する方法と組み合わされることが多くある。別の適したＤＮＮアーキテクチャは、ＩｎｃｅｐｔｉｏｎＶ４、ＩｎｃｅｐｔｉｏｎＲｅｓＮｅｔＶ２等のＩｎｃｅｐｔｉｏｎ（－ＲｅｓＮｅｔ）（ｈｔｔｐｓ：／／ｗｗｗ．ａａａｉ．ｏｒｇ／ｏｃｓ／ｉｎｄｅｘ．ｐｈｐ／ＡＡＡＩ／ＡＡＡＩ１７／ｐａｐｅｒ／ｖｉｅｗＰａｐｅｒ／１４８０６）である。Ｉｎｃｅｐｔｉｏｎは、より複雑な畳み込みユニットを表し、それによって、セクション３．２に記載されるような固定サイズのフィルタ（例えば、３×３ピクセル等）を単に使用する代わりに、いくつかのサイズのフィルタが、自由パラメータである重み付きで、並列に（５×５、３×３、１×１ピクセル）計算されるため、ニューラルネットワークは、ＤＮＮにおける各層において、どのフィルタが最も適しているかを優先することができる。この種のアーキテクチャの発展は、ＲｅｓＮｅｔと同じ方法でそれをスキップ接続と組み合わせて、Ｉｎｃｅｐｔｉｏｎ－ＲｅｓＮｅｔを作成することである。特に、ＲｅｓＮｅｔ－１８、ＲｅｓＮｅｔ－５０、ＲｅｓＮｅｔ－１０１、ＤｅｎｓｅＮｅｔ－１２１、及びＤｅｎｓｅＮｅｔ－１６１は、一般的に、他のアーキテクチャよりも性能が優れていた。

上記のように、コンピュータビジョン及びディープラーニング法の両方が、前処理されたデータにおいて複数の訓練検証サイクルを使用して訓練される。訓練検証サイクルは、以下のフレームワークに従う。

訓練データは前処理され、バッチに分割される（各バッチにおけるデータの数は自由モデルパラメータであるが、どのくらい速く及びどのくらい安定してアルゴリズムが学習するかを制御する）。拡張は、分割に先立ち又は訓練の間に行われてもよい。

各バッチの後で、ネットワークの重みが調整され、これまでの総実行精度（ｒｕｎｎｉｎｇｔｏｔａｌａｃｃｕｒａｃｙ）が評価される。一部の実施形態において、重みは、例えば勾配累積を使用して、バッチの間に更新される。全ての画像が評価され、１エポックが実行されたとき、訓練セットはシャッフルされ（すなわち、セットを用いた新しい無作為化が得られ）、訓練が、次のエポックに対して、最初から再び開始される。

訓練の間に、データセットのサイズ、データの複雑さ、及び訓練されているモデルの複雑さに応じて、多数のエポックが実行されてもよい。最適なエポック数は、典型的には、２から１００の範囲であるが、特定のケースに応じてより大きくてもよい。

各エポックの後で、モデルは、いかなる訓練も行われることなく、検証セットに対して実行されて、モデルがどのくらい正確であるかにおいて進行の尺度が提供され、より多くのエポックを実行するべきであるか、又はより多くのエポックがオーバートレーニングをもたらすかどうかをユーザにガイドする。検証セットは、全モデルパラメータ又はハイパーパラメータの選択をガイドするものであり、従って、真のブラインドセットではない。しかし、検証セットの画像の分布が、訓練後に実行されることになる最終ブラインドテストセットと非常に類似していることが重要である。

検証セットの結果を報告する際に、拡張を、各画像に対して含めるか（ａｌｌ）又は含めない（ｎｏａｕｇ）こともできる。さらに、各画像に対する拡張は、画像に対するよりロバストな最終結果を提供するために組み合わされてもよい。平均信頼度（拡張全てにわたるモデルの推論の平均値をとる）、中央信頼度、大数平均信頼度（大数生存性評価をとり、同意するものの平均信頼のみを提供し、大数に達しない場合には、平均をとる）、最大信頼度、加重平均、大数最大信頼度等を含むいくつかの組み合わせ／投票戦略を使用することができる。

機械学習の分野において使用される別の方法は転移学習であり、ここでは、以前に訓練されたモデルが、新しいモデルを訓練するための出発点として使用される。これは、事前学習とも呼ばれる。事前学習は広く使用され、新しいモデルが迅速に構築されるのを可能にしている。２種類の事前学習がある。事前学習の一実施形態は、ＩｍａｇｅＮｅｔ事前学習である。ほとんどのモデルアーキテクチャには、標準画像データベースＩｍａｇｅＮｅｔを使用して、事前学習された重みのセットが提供される。これは医用画像に特有ではなく、１０００の異なるタイプの物体を含むけれども、モデルが形状を特定することをすでに学習する方法を提供する。１０００の物体の分類器は完全に除去され、生存性に対する新しい分類器がそれに取って代わる。この種の事前学習は、他の初期化戦略よりも性能が優れている。事前学習の別の実施形態は、異なる結果のセット又は異なる画像（生存性の代わりにＰＧＳ、又は無作為に割り当てられた結果）を有する研究からの、以前に訓練された胚モデルを使用するカスタム事前学習である。これらのモデルは、分類にわずかな利益しかもたらさない。

事前学習を受けていないモデル、又は分類器等の事前学習の後に加えられる新しい層については、重みを初期化する必要がある。初期化方法は、訓練の成功に影響を及ぼす恐れがある。例えば、０又は１に設定された全ての重みは、非常に性能が良くない。乱数の均一の配置又は乱数のガウス分布も、一般的に使われる選択肢を表す。これらは、Ｘａｖｉｅｒ又はＫａｉｍｉｎｇアルゴリズム等の正規化法と組み合わされることも多くある。これは、ニューラルネットワークにおけるノードが、飽和（１に近い）状態又はデッド（０に近い）状態になることによって、特定の状態において「トラップ」される恐れがあり、その特定のニューロンに関連する重みを調整する方向を測定することが困難であるという問題に取り組む。これは、特に、双曲線正接関数又はシグモイド関数を導入する場合に普及しており、Ｘａｖｉｅｒ初期化によって対処される。

Ｘａｖｉｅｒ初期化プロトコルでは、活性化関数への各層の入力が、飽和の一番端又はデッドの一番端のいずれにも近づき過ぎないように、ニューラルネットワークの重みは無作為化される。しかし、ＲｅＬＵの使用が、より良く動作し、異なる初期化は、Ｋａｉｍｉｎｇ初期化等、より小さい利点を提供する。Ｋａｉｍｉｎｇ初期化は、ＲｅＬＵがニューロンの非線形活性化プロファイルとして使用される場合により適している。これは、Ｘａｖｉｅｒの初期化と同じプロセスを効果的に達成する。

ディープラーニングでは、様々な自由パラメータが使用されて、検証セットにおけるモデル訓練が最適化される。主要なパラメータの１つは学習速度であり、これは、基礎となるニューロンの重みが各バッチ後にどのくらい調整されるかによって決定される。選択モデルを訓練する場合、データのオーバートレーニング又はオーバーフィッティングは回避されるべきである。これは、モデルがあまりにも多くのパラメータを有するためフィットさせることができず、本質的にデータを「記憶」し、一般化可能性と引き換えに訓練又は検証セットにおける精度を得る場合に起こる。一般化可能性は、データのノイズの中でも、胚の健全性を示す真の基礎となるパラメータをモデルが正確に特定し、これを損なわずに訓練セットを完全にフィットさせたかどうかの真の尺度であるため、これは回避されることになる。

検証及びテストのフェーズの間に、訓練フェーズ中のオーバーフィッティングのために、成功率が突然低下することがあり得る。これは、減速若しくは減衰学習速度（例えば、ｎのエポックごとに学習速度を半減させる等）、又は、上述のテンソル初期化若しくは事前学習の方法及びドロップアウト層等のノイズの追加若しくはバッチ正規化を組み込んだコサインアニーリングの使用を含む、種々の戦法を介して回復させることができる。バッチ正規化は、消失又は爆発する勾配に対抗するために使用され、大きいモデルの訓練の安定性を改善し、結果として一般化を改善する。ドロップアウト正則化は、整流器の受容範囲内で全ての入ってくる重みをゼロに設定する無作為な機会を導入することによって、ネットワークを効果的に単純化する。ノイズを導入することによって、残りの整流器が、過度の特殊化に依存することなく、データの表現に正確にフィットすることを効果的に確実にする。これは、ＤＮＮがより効果的に一般化され、ネットワークの重みの特定の値に対する感度が低下するのを可能にする。同様に、バッチ正規化は、非常にディープなニューラルネットワークの訓練安定性を改善し、これは、整流段階の前駆体として入力重みをゼロ平均及び単位分散にシフトさせることによって、より速い学習及びより良好な一般化を可能にする。

ディープラーニングを行う際に、許容可能な分類を達成するためにニューロンの重みを変更するための方法論は、最適化プロトコルを指定する必要性を含む。すなわち、（以下に論じられる）「精度」又は「損失」の所与の定義、正確にどのくらい重みが調整されるべきか及びどのようにして学習速度の値が使用されるべきかに対しては、多くの技術が指定される必要がある。適した最適化技術には、モーメンタム法（及び／又はＮｅｓｔｅｒｏｖの加速勾配法）を伴う確率的勾配降下法（ＳＧＤ）、デルタを伴う適応勾配（Ａｄａｄｅｌｔａ）、適応モーメント推定（Ａｄａｍ）、二乗平均平方根のプロパゲーション（ＲＭＳＰｒｏｐ）、及び記憶制限ブロイデン・フレッチャー・ゴールドファーブ・シャンノ法（Ｌ－ＢＦＧＳ）アルゴリズムが含まれる。これらのうち、ＳＧＤに基づく技術は、一般的に、他の最適化技術よりも性能が優れていた。ヒト胚の位相差顕微鏡画像に対する典型的な学習速度は０．０１から０．０００１であった。しかし、学習速度はバッチサイズに依存し、これは、ハードウェア容量に依存する。例えば、ＧＰＵが大きいほど、より大きなバッチサイズ及びより速い学習速度が可能にする。

モーメンタム法（及び／又はＮｅｓｔｅｒｏｖの加速勾配法）を伴う確率的勾配降下法（ＳＧＤ）は、最もシンプルで一般的に使用される最適化アルゴリズムを表す。勾配降下アルゴリズムは、典型的に、精度に対する所与の重みの影響の勾配（傾き）を計算する。重みの更新を行うためにデータセット全体に対する勾配を計算する必要がある場合にこれは遅いけれども、確率的勾配降下法は、１つずつ、訓練画像ごとに更新を行う。これは、達成される全体目標の精度又は損失に変動をもたらし得るけれども、損失パラメータランドスケープの新しい領域に飛び込み、新しい最小損失関数を見つけることができるため、他の方法よりも良く一般化する傾向を有する。胚選択等の難しい問題における目立つ損失ランドスケープに対して、ＳＧＤは良好に機能する。ＳＧＤは、一方の側で他方よりも急な非対称損失関数表面曲線をナビゲートするのに問題がある恐れがあり、これは、モーメンタムと呼ばれるパラメータを加えることによって補償することができる。これは、前の状態から得られる重みの更新に余分なフラクションを加えることによって、その方向においてＳＧＤを加速し、精度における高い変動を弱めるのに寄与する。この方法の発展は、次の状態における重みの推定位置も含めることであり、この発展形はＮｅｓｔｅｒｏｖの加速勾配法として知られている。

デルタを伴う適応勾配（Ａｄａｄｅｌｔａ）は、学習速度を重み自体に適応させるためのアルゴリズムであり、頻繁に発生するパラメータに対してより小さな更新、及び稀に発生する特徴に対してより大きな更新を行い、スパースデータによく適している。これは、データセット全体にわたる数回のエポックの後で、学習速度を突然低下させることができるけれども、ウィンドウを制限するためにデルタパラメータを追加することが、累積された過去の勾配を一定のサイズにするのを可能にした。しかし、このプロセスは、デフォルトの学習速度を冗長にし、さらなる自由パラメータの自由度は、最良の全体選択モデルを見つける際にある程度の制御を提供する。

適応モーメント推定（Ａｄａｍ）は、過去の二乗及び非二乗勾配の両方の指数関数的減衰平均を格納し、それら両方を重み更新に組み込む。これは、重み更新の方向に対して「摩擦」を提供する効果があり、大きな変動を有することなく、比較的浅い又は平坦な損失最小を有する問題に適している。胚選択モデルにおいて、Ａｄａｍを用いた訓練は、訓練セットにおいては良好に機能する傾向を有するが、オーバートレーニングであることが多く、モーメンタム法を伴うＳＧＤほど適していない。

二乗平均平方根のプロパゲーション（ＲＭＳＰｒｏｐ）は、上記の適応勾配最適化アルゴリズムに関し、重みに対する更新項が二乗勾配の指数関数的減衰平均で学習速度を割ることを除いて、Ａｄａｄｅｌｔａとほぼ同一である。

記憶制限ブロイデン・フレッチャー・ゴールドファーブ・シャンノ法（Ｌ－ＢＦＧＳ）アルゴリズム。計算機負荷が高いけれども、Ｌ－ＢＦＧＳアルゴリズムは、この推定の欠如を追加項で補償しようとする他の方法ではなく、損失ランドスケープの曲率を実際に推定する。データセットが小さい場合は、Ａｄａｍよりも性能が優れている傾向があるが、スピード及び精度の点では必ずしもＳＧＤよりも性能が優れているとは限らない。

上記の方法に加えて、不均一な学習速度を含めることも可能である。すなわち、畳み込み層の学習速度は、分類器の学習速度よりもはるかに大きいか又は小さいように指定することができる。これは、事前学習がさらなる再訓練によって元に戻されないように、分類器の下のフィルタに対する変更をさらに「凍結」で保ち、分類器を再訓練するべきである事前学習モデルの場合に有用である。

最適化アルゴリズムは、特定の損失又は精度の尺度を与えられた重みを更新する方法を指定するけれども、一部の実施形態において、損失関数は、分布効果を組み込むように修正される。これらは、交差エントロピー（ＣＥ）損失、重み付けＣＥ、残差ＣＥ、推論分布、又はカスタム損失関数を含み得る。

交差エントロピー損失は、一般的に使用される損失関数であり、グラウンドトゥルースと予測値との間のシンプルな平均二乗誤差よりも性能が優れている傾向がある。ここでの場合のように、ネットワークの結果がソフトマックス層を通過する場合、交差エントロピーの分布はより良い精度をもたらす。これは、当然、かけ離れた外れ値をあまり重視しないことによって、正確に入力データを分類する可能性を最大化するためである。入力アレイ、バッチ、画像のバッチを表すこと、及び生存可能又は生存不可能を表すクラスに対して、交差エントロピー損失は：

として定められ、ここで、Ｃはクラスの数である。二値の場合は、これは、

に簡略化することができる。最適化されたバージョンは：

である。

データがクラスバイアスを有する場合、すなわち、生存不可能な例よりも多くの生存可能な例を有する（又はその逆の）場合、損失関数は、比例して重み付けされるべきであるため、より数の少ないクラスの要素を誤って分類することは、より重く罰せられる。これは、式（２）の右辺に係数を予め掛けることによって達成され：

ここで、Ｎ［ｃｌａｓｓ］はクラスごとの画像の総数であり、Ｎはデータセットにおけるサンプルの総数であり、Ｃはクラスの数である。必要に応じて、偽陽性と比較して偽陰性の数を減らすために、生存可能な胚に向けて重みに手動でバイアスをかけることも可能である。

一部の実施形態において、推論分布が使用されてもよい。胚の分類において高いレベルの精度を求めることは重要であるけれども、モデルにおいて高いレベルの移植性を求めることも重要である。すなわち、スコアの分布を理解する、及び、高い精度を求めることは重要な目標であるけれども、生存可能な胚と生存不可能な胚を、確信をもって区別することは、モデルがテストセットによく一般化されていることを示す指標であるということを理解するのは有益であることが多い。テストセットにおける精度は、同じ胚における発生学者の分類の精度等、臨床ベンチマークとの比較を引用するために使用されることが多いため、一般化可能性を確実にすることは、エポックごとに、モデルの成功のバッチごとの評価に組み込まれるべきでもある。

一部の実施形態では、カスタム損失関数が使用される。一実施形態において、最適化サーフェスが大域最適解をより明確にし、従ってモデルのロバスト性を改善するように変更されるように、損失関数をどのように定めるかをカスタマイズした。これを達成するために、ネットワークの重みの観点から定められる、残差項と呼ばれる微分可能性を維持する新しい項が損失関数に追加される。これは、モデルからの予測値及び各画像に対するターゲットとなる結果における集合的な差をエンコードし、それを正常の交差エントロピー損失関数へのさらなる寄与として含む。残差項に対する式は、Ｎの画像について：

である。

このカスタム損失関数では、生存可能及び生存不可能な胚のスコアのウェルスペースクラスタが、従って、改善された損失評価と一致すると考慮される。このカスタム損失関数は胚検出アプリケーションに特有ではなく、他のディープラーニングモデルにおいて使用することができるということに留意されたい。

一部の実施形態において、モデルは、よりロバストな最終ＡＩモデル１００を生成するために組み合わされる。すなわち、ディープラーニング及び／又はコンピュータビジョンモデルを共に組み合わせて、胚生存性の全体的な予測に寄与する。

一実施形態では、アンサンブル法が使用される。第一に、良好に機能するモデルが選択される。次に、各モデルが、画像の１つに（拡張を使用して又はその他の方法で）「投票」を行い、最良の結果をもたらす投票戦略が選択される。例となる投票戦略には、最大信頼度、平均値、大数平均値、中央値、平均信頼度、中央信頼度、大数平均信頼度、加重平均、大数最大信頼度等が含まれる。投票戦略が選択されると、拡張の組み合わせに対する評価方法も選択されなければならず、これは、上述のように、回転の各々がアンサンブルによってどのように処理されるべきかを記述する。この実施形態において、最終ＡＩモデル１００は、従って、個々のＡＩモデルの結果がどのように組み合わされることになるかを定める投票戦略をエンコードするモード、及び、（存在する場合）拡張がどのように組み合わされることになるかを定める評価モードと共に、ディープラーニング及び／又はコンピュータビジョンモデルを使用した、訓練されたＡＩモデルの集合として定めることができる。

モデルの選択を、それらの結果が互いに対比する、すなわち、それらの結果が可能な限り独立しており、スコアが良好に分布されるように行った。この選択手順は、モデルごとにテストセット内のどの画像が正確に特定されたかを調べることによって実行される。２つのモデルを比較する際に、正確に特定された画像のセットが非常に類似している場合、又は各モデルによって提供されるスコアが所与の画像について互いに類似している場合、モデルは対照的なモデルとはみなされない。しかし、正確に特定された画像の２つのセット間に重複がほとんどない場合、又は各画像に対して提供されるスコアが互いに著しく異なる場合、モデルは対照的であるとみなされる。この手順は、２つの異なるモデルについてのテストセットにおける胚スコアの分布が類似しているかどうかを効果的に評価する。対照基準は、異なる入力画像又はセグメンテーションのために、多様な予測結果分布でモデル選択を駆動する。この方法は、特定のクリニックのデータセットにおいてのみ良好に機能したモデルの選択を回避することによって移動可能性（ｔｒａｎｓｌａｔａｂｉｌｉｔｙ）を確実にし、従って、オーバーフィッティングを防いだ。加えて、モデル選択は、多様性基準を使用することもできる。多様性基準は、異なるモデルのハイパーパラメータ及び構成を含むようにモデル選択を駆動する。その理由は、実際には、類似のモデル設定が、類似の予測結果をもたらし、従って、最終的なアンサンブルモデルには有用でない可能性があるためである。

一実施形態において、これは、カウントアプローチを使用すること、及び、２つのセットにおける５０％、７５％、又は９０％の重複画像等の閾値類似性を指定することによって実施することができる。他の実施形態では、画像のセット（例えば、生存可能なセット）におけるスコアを合計し、２つのセット（合計）を比較し、２つの合計が閾値量未満である場合に同様にランク付けすることができる。統計に基づく比較も、例えば、セットにおける画像の数を考慮するか、又さもなければ、セットの各々における画像の分布を比較して、使用することができる。

他の実施形態では、蒸留法を使用して、個々のＡＩモデルを組み合わせることができる。このアプローチでは、ＡＩモデルが、生徒モデルを訓練するための教師モデルとして使用される。個々のＡＩモデルの選択は、アンサンブル法に対して論じたように、多様性及び対照基準を使用して行うことができる。様々なモデルから最良のモデルを選択する、又は複数のモデルからの出力を組み合わせて単一の出力にするさらなる他の方法が使用されてもよい。

アンサンブルベースの胚生存性評価モデルの一実施形態を生成し、２つの検証（又はベンチマーキング）研究をＩＶＦクリニックにおいて行って、現役の発生学者と比較して本明細書において記載される胚生存性評価モデルの性能を評価した。参照を容易にするために、これは、アンサンブルモデルと呼ばれることになる。これらの検証研究は、胚生存性評価モデルによって、世界トップレベルの発生学者と直接比較した場合、胚の生存性の特定において３０％を超える精度の改善が示されたことを示した。従って、本研究は、本明細書において記載されるアンサンブルモデルの実施形態が、発生学者に情報を与え且つ発生学者の選択決定を支持する能力を検証し、これは、カップルに対するＩＶＦ結果の改善に寄与することが期待される。

第１の研究は、オーストラリアのクリニック（ＭｏｎａｓｈＩＶＦ）で実行されたパイロット研究であり、第２の研究は、複数のクリニック及び地理的位置にわたって実行された。研究は、臨床的妊娠によって測定される、記載されるようなアンサンブルベースの胚生存性評価モデルの一実施形態が５日目の胚生存性を予測する能力を評価した。

各臨床研究に対して、ＩＶＦプロセスにおける各患者は、選択すべき複数の胚を有することができる。本明細書において記載される胚生存性評価モデルの一実施形態を使用して、これらの胚の各々の生存性を評価及びスコア化した。しかし、着床され且つ妊娠結果（例えば、最初の超音波スキャンで検出された胎児の心拍）が分かっている胚のみを使用して、モデルの精度を検証することができる。従って、全データセットは、患者に着床された胚の画像を、関連する既知の結果と共に含み、これらに対して、モデルの精度（従って、性能）を検証することができる。

検証に関してさらに厳密にするために、検証に使用される画像の一部は、胚の生存性に関する発生学者のスコアを含む。場合によっては、「生存不可能」としてスコア化された胚が、それにもかかわらず依然として最も好ましい胚の選択肢である場合、及び／又は患者の要求に応じて、依然として着床されることがある。このデータによって、発生学者と比較してどのくらいアンサンブルモデルが機能するかを直接比較することが可能になる。スコア化した胚の総数によって割った、生存不可能であるとしてスコア化し且つ不成功の妊娠結果（真陰性）を有した胚の数に加えて、生存可能であるとしてスコア化し且つ成功した妊娠結果（真陽性）を有した胚の数のパーセンテージとして、アンサンブルモデル及び発生学者の精度の両方が測定される。このアプローチは、アンサンブルモデルが、リードする発生学者と直接比較した場合に、同等に又はそれ以上機能するかどうかを検証するために使用される。データセットにおいて、全ての画像が対応する発生学者のスコアを有しているわけではないことに留意されたい。

選択モデルの精度を、発生学者によって利用される現在の手動による方法と直接比較するために、少なくとも胚盤胞である増殖の程度について、各クリニックに対する発生学者のスコアの以下の解釈が使用される（ＯｖａｔｉｏｎＦｅｒｔｉｌｉｔｙ表示法では「ＢＬ」、又はＭｉｄｗｅｓｔＦｅｒｔｉｌｉｔｙＳｐｅｃｉａｌｉｓｔｓ表示法では「ＸＢ」）。細胞期（例えば、１０細胞等）として、細胞期から桑実胚への圧縮として、又は胞胚腔形成桑実胚（ＩＶＦ後５日目において胞胚腔空洞が総体積の５０％未満である）として列挙された胚は、生存不可能である可能性が高いとみなされる。

透明帯内空洞（第１の文字）及び栄養外胚葉（第２の文字）の質を示すレターグレードは、胚の質のバンドに配置され、発生学者によって識別される。次に、以下の表１を使用して、胚がおそらく生存不可能又は生存可能であるか判断したかどうかを示すために分割が行われる。バンド１から３はおそらく生存可能であると考えられ、バンド４以上はおそらく生存不可能であると考えられている。バンド６では、いずれかのレタースコアが「Ｃ」よりも悪い場合、胚はおそらく生存不可能であると考えられる。バンド７では、ＭｉｄｗｅｓｔＦｅｒｔｉｌｉｔｙＳｐｅｃｉａｌｉｓｔｓからの「１ＸＸ」というスコアが、初期の（大きい）栄養外胚葉細胞を有し且つ識別可能な透明帯内空洞を有さない初期胚盤胞を示し、おそらく生存不可能であると考えられている。

ＩＶＦ後５日目に撮影した約２０，０００の胚画像のセットを、関連する妊娠及び着床前遺伝子スクリーニング（ＰＧＳ）の結果、並びに患者の年齢及びクリニックの地理的位置を含む人口統計学的情報と共に取得した。この研究にデータを寄付したクリニックは：ＭｏｎａｓｈＩＶＦＧｒｏｕｐ（Ｍｅｌｂｏｕｒｎｅ，ＶＩＣ，Ａｕｓｔｒａｌｉａ）の一部としてのＲｅｐｒｏｍｅｄ（Ａｄｅｌａｉｄｅ，ＳＡ，Ａｕｓｔｒａｌｉａ）、ＯｖａｔｉｏｎＦｅｒｔｉｌｉｔｙ（Ａｕｓｔｉｎ，ＴＸ，ＵＳＡ）、ＳａｎＡｎｔｏｎｉｏＩＶＦ（ＳａｎＡｎｔｏｎｉｏ，ＴＸ，ＵＳＡ）、ＭｉｄｗｅｓｔＦｅｒｔｉｌｉｔｙＳｐｅｃｉａｌｉｓｔｓ（Ｃａｒｍｅｌ，ＩＮ，ＵＳＡ）、ＩｎｓｔｉｔｕｔｅｆｏｒＲｅｐｒｏｄｕｃｔｉｖｅＨｅａｌｔｈ（Ｃｉｎｃｉｎｎａｔｉ，ＯＨ，ＵＳＡ）、ＦｅｒｔｉｌｉｔｙＡｓｓｏｃｉａｔｅｓ（Ａｕｃｋｌａｎｄ，Ｈａｍｉｌｔｏｎ，Ｗｅｌｌｉｎｇｔｏｎ，ＣｈｒｉｓｔｃｈｕｒｃｈａｎｄＤｕｎｅｄｉｎ，ＮｅｗＺｅａｌａｎｄ）、ＯｒｅｇｏｎＲｅｐｒｏｄｕｃｔｉｖｅＭｅｄｉｃｉｎｅ（Ｐｏｒｔｌａｎｄ，ＯＲ，ＵＳＡ）、及びＡｌｐｈａＦｅｒｔｉｌｉｔｙＣｅｎｔｒｅ（ＰｅｔａｌｉｎｇＪａｙａ，Ｓｅｌａｎｇｏｒ，Ｍａｌａｙｓｉａ）である。

試験において使用するためのＡＩモデルの生成は、以下のように進められた。第一に、様々なモデルアーキテクチャ（又はモデルタイプ）が生成され、各ＡＩモデルは、入力画像解像度、最適化アルゴリズムの選択、学習速度値及びスケジューリング、モーメンタム値、ドロップアウト、及び重みの初期化（事前学習）を含む、様々な設定のモデルパラメータ及びハイパーパラメータを用いて訓練される。安定性（訓練プロセスにわたって安定な精度）、転移性（訓練セットと検証セットの間で安定な精度）、及び予測精度を示すモデルを選択するために、初期フィルタリングが行われる。予測精度は、両方のクラスタイプの胚にわたる加重平均精度として定められるように、生存可能な胚及び生存不可能な胚の両方について、どのモデルが最良の検証精度、総精度、及びバランス精度を提供したかを調べた。一実施形態では、ＩｍａｇｅＮｅｔの事前学習された重みの使用は、これらの量の改善された性能を実証した。損失関数の評価は、重み付けされたＣＥ及び残差ＣＥ損失関数が、一般的に、他のモデルよりも性能が優れていたことを示した。

次に、次のモデルを２つのグループ：さらなる画像セグメンテーション（透明帯又はＩＺＣの特定）を含む第１のグループ、及び全体のセグメントに分けられていない画像を使用する第２のグループ（すなわち、完全胚モデル）に分けた。ＩＺＣをマスクし、透明帯領域を露出させた画像において訓練されたモデルを、透明帯モデルとして示した。透明帯をマスクした画像において訓練されたモデル（ＩＺＣモデルとして示された）及び完全胚画像において訓練されたモデルも、訓練において考慮した。多様性を提供し、検証セットにおける性能を最大化するために、対照的なアーキテクチャ及び前処理方法を包含するモデルのグループを選択した。

最終的なアンサンブルベースのＡＩモデルは、多様性及び対照的な結果に基づき選択された最も高い性能の個々のモデルのアンサンブルであった。異なる方法論を示したか又は機械学習を通じて得られた特徴から異なるバイアスを抽出した良好に機能する個々のモデルを、各モデルの信頼性に基づく様々な投票戦略を使用して組み合わせた。評価された投票戦略は、平均、中央、最大、大数平均投票、最大信頼度、平均値、大数平均値、中央値、平均信頼度、中央信頼度、大数平均信頼度、加重平均、大数最大信頼度等を含んだ。一実施形態において、大数平均投票戦略は、他の投票戦略よりも性能が優れていて、全てのデータセットにわたって最も安定したモデルを与えたかをテストするかのように使用される。

この実施形態では、最終的なアンサンブルベースのＡＩモデルは、８つのディープラーニングモデルを含み、そのうちの４つは透明帯モデルであり、４つは完全胚モデルである。この実施形態において使用される最終モデルの構成は：
モーメンタム＝０．９を伴うＳＧＤ、ＣＥ損失、学習速度５．０ｅ－５、３エポックごとに学習速度を半減させる段階的なスケジューラー、３２のバッチサイズ、２２４×２２４の入力解像度、及び０．１のドロップアウト値を使用して訓練された１つの完全胚ＲｅｓＮｅｔ－１５２モデル；
モーメンタム＝０．９９を伴うＳＧＤ、ＣＥ損失、学習速度１．０ｅ－５、３エポックごとに１０で学習速度を割る段階的なスケジューラー、８のバッチサイズ、２９９×２９９の入力解像度、及び０．１のドロップアウト値を使用して訓練された１つの透明帯モデルＲｅｓＮｅｔ－１５２モデル；
モーメンタム＝０．９９を伴うＳＧＤ、ＣＥ損失、学習速度１．０ｅ－５、６エポックごとに１０で学習速度を割る段階的なスケジューラー、８のバッチサイズ、２９９×２９９の入力解像度、及び０．１のドロップアウト値を使用して訓練され、そのうち１つが任意の角度の無作為回転を用いて訓練された３つの透明帯ＲｅｓＮｅｔ－１５２モデル；
モーメンタム＝０．９を伴うＳＧＤ、ＣＥ損失、学習速度１．０ｅ－４、５エポックごとに学習速度を半減させる段階的なスケジューラー、３２のバッチサイズ、２２４×２２４の入力解像度、０のドロップアウト値を使用して訓練され、さらに、任意の角度の無作為回転を用いて訓練された１つの完全胚ＤｅｎｓｅＮｅｔ－１６１モデル；
モーメンタム＝０．９を伴うＳＧＤ、ＣＥ損失、学習速度１．０ｅ－４、５エポックごとに学習速度を半減させる段階的なスケジューラー、３２のバッチサイズ、２９９×２９９の入力解像度、０のドロップアウト値を使用して訓練された１つの完全胚ＤｅｎｓｅＮｅｔ－１６１モデル；並びに
モーメンタム＝０．９を伴うＳＧＤ、残差ＣＥ損失、学習速度１．０ｅ－４、５エポックごとに学習速度を半減させる段階的なスケジューラー、３２のバッチサイズ、２９９×２９９の入力解像度、０のドロップアウト値を使用して訓練され、さらに、任意の角度の無作為回転を用いて訓練された１つの完全胚ＤｅｎｓｅＮｅｔ－１６１モデル；
である。

最終モデルの構成の中で大きな特徴となるＲｅｓＮｅｔ－１５２に対応するアーキテクチャの図が、図８において示されている。その後、最終アンサンブルモデルを、結果のセクションにおいて記載されるように、ブラインドテストデータセットにおいて検証及びテストした。

データにおけるモデル挙動の評価において使用される精度の尺度には、感度、特異度、全体的な精度、予測の分布、及び発生学者のスコアリング法との比較が含まれた。ＡＩモデルに対して、５０％以上の胚生存性スコアを生存可能、５０％未満を生存不可能とみなした。生存可能な胚の特定における精度（感度）を、陽性の臨床妊娠をもたらした既知の生存可能な胚の総数によって割られた、ＡＩモデルが生存可能であるとして特定した胚の数として定めた。生存不可能な胚の特定における精度（特異度）を、陰性の臨床妊娠結果をもたらした既知の生存不可能な胚の総数によって割られた、ＡＩモデルが生存不可能であるとして特定した胚の数として定めた。ＡＩモデルの全体的な精度を、感度及び特異度の加重平均を使用して決定し、発生学者と比較したＡＩモデルの精度における改善率を、元の発生学者の精度の割合としての精度の差として定めた（すなわち、（ＡＩ＿精度－発生学者＿精度）／発生学者＿精度）。

パイロット研究
ＭｏｎａｓｈＩＶＦは、約１０，０００の胚画像と、各画像に対する関連する妊娠及び出生データとをアンサンブルモデルに提供した。提供されたさらなるデータには、患者の年齢、ＢＭＩ、胚が新鮮なまま着床されたか又は前もって冷凍保存されたかどうか、及び任意の受精能に関連する医学的状態が含まれていた。画像のうち一部に対するデータには、胚の生存性に対する発生学者のスコアが含まれていた。予備の訓練、検証、及び分析は、モデルの精度が４日目の胚と比較して５日目の胚に対して有意に高いことを示した。従って、全ての４日目の胚を取り除き、約５０００の画像を残した。訓練及び検証のための使用可能なデータセットは４６５０の画像であった。この初期データセットを、３つの別々のデータセットに分割した。次に、さらなる６３２の画像を提供し、これらを、第２のブラインド検証データセットとして使用した。訓練及び検証のための最終データセットには、以下のものが含まれている：
訓練データセット：３８９２の画像；
検証データセット：３９０の画像のうち、７０（１７．９％）が成功した妊娠結果を有し、１４９の画像には胚の生存性に関する発生学者のスコアが含まれていた；
ブラインド検証データセット１：３６８の画像のうち、７６（２０．７％）が成功した妊娠結果を有し、１２１の画像には胚の生存性に関する発生学者のスコアが含まれていた；及び
ブラインド検証データセット２：６３２の画像のうち、１９４（３０．７％）が成功した妊娠結果を有し、４７７の画像には胚の生存性に関する発生学者のスコアが含まれていた。

データセットにおいて、全ての画像が、対応する発生学者のスコアを有しているわけではない。データセットのサイズ、並びに、発生学者のスコアを含むサブセットは、以下に列挙される。

アンサンブルベースのＡＩモデルを、３つの検証データセットに適用した。生存可能な胚の特定におけるアンサンブルモデルに対する全体的な精度の結果が、表２において示されている。２つのブラインド検証データセットに対する精度の結果が主要な精度指標であるが、検証データセットに対する結果が、完全性のために示されている。生存可能な胚を特定するための精度は、データセット内の生存可能な胚の総数によって割られた、アンサンブルモデルが生存可能として特定することができた生存可能な胚の数（すなわち、成功した妊娠結果を有した画像）の割合（このモデルによる５０％以上の生存性スコア）として計算される。同様に、生存不可能な胚を特定するための精度は、データセット内の生存不可能な胚の総数によって割られた、アンサンブルモデルが生存不可能として特定することができた生存不可能な胚の数（すなわち、不成功の妊娠結果を有した画像）の割合（このモデルによる５０％を下回る生存性スコア）として計算される。

ＭｏｎａｓｈＩＶＦで実行された検証の第１段階では、アンサンブルモデルの訓練された胚生存性評価モデルを、組み合わせて合計１０００の画像（患者）で、既知の妊娠結果を有する胚画像の２つのブラインドデータセットに適用した。図９は、一実施形態による、胚生存性の特定におけるアンサンブルモデルの一実施形態の精度のプロット９００である。結果は、アンサンブルモデル９１０が、２つのブラインド検証データセットを通した胚生存性の特定において６７．７％の全体的な精度を有したことを示している。生存可能であるとして特定され、成功した結果につながった胚の数と、生存不可能として特定され、不成功の結果につながった胚の数を合計し、胚の総数で割ることによって、精度を計算した。アンサンブルモデルは、生存可能な胚の特定において７４．１％の精度９２０を示し、生存不可能な胚の特定において６５．３％の精度９３０を示した。これは、すでに発生学者によって予め選択され且つ患者に着床された胚のこの大きなデータセットにおける有意な精度の改善を表しており、わずか２７％が、成功した妊娠結果をもたらした。

検証に関してさらに厳密にするために、検証に使用される画像のサブセットは、胚の生存性に関する関連する発生学者のスコアを有した（５９８の画像）。場合によっては、発生学者によって「生存不可能」としてスコア化された胚が、その患者にとって最も好ましい胚の選択肢であると考えられる場合、及び／又は患者の要求に応じて、低い成功の可能性にもかかわらず、依然として着床されることがある。胚のスコアを、発生学者の生存性の評価のグラウンドトゥルースとして使用し、リードしている発生学者と比較してアンサンブルモデルが機能するかを直接比較することが可能になる。

ブラインド検証データセット１又は２に対する最悪なケースの精度は、ブラインドデータセット１における生存可能な胚を特定することに対して６３．２％、ブラインドデータセット２において生存不可能な胚を特定することに対して５７．５％、及びブラインドデータセット２において全体的な精度に対して６３．９％である。

表３は、ブラインドデータセット１及び２の両方にわたる総平均精度を示しており、これは、生存可能な胚を特定することに対して７４．１％、生存不可能な胚を特定することに対して６５．３％、並びに、生存可能な胚及び生存不可能な胚の両方にわたる総精度に対して６７．７％である。

両方の表における精度の値は、胚の２７％が成功した妊娠結果をもたらすこと、及び発生学者によって既に分析され、生存可能として又は同じバッチにおける他の胚よりも好ましいとして選択された胚画像をさらに分類するというアンサンブルモデルの困難なタスクを考慮すると高い。

表４は、モデルの精度を発生学者のものと比較した結果を示している。データセット内の全ての胚画像が胚スコアを有しているわけではないため、精度の値は、上記の表におけるものと異なっており、従って、以下の結果は、各データセットのサブセットにおける精度の値である。この表は、生存可能な胚の特定におけるモデルの精度が発生学者よりも高いことを示している。これらの結果は、図１０の棒グラフ１０００において例示されており、アンサンブルの結果１０１０は左側に、発生学者の結果１０２０は右側に例示されている。

表５は、モデルが胚の生存性を正確に特定することができた回数と、発生学者ができなかった回数との比較、及びその逆の比較を示している。結果は、モデルが正確であり、発生学者が不正確であった場合と比較して、発生学者が正確であり、モデルが不正確であった場合の方が少ないことを示している。これらの結果は、図１１において例示されている。この結果は、さらに、アンサンブルモデルの胚生存性評価モデルの高いレベルの性能及び精度を検証するものである。

全体的にみて、アンサンブルモデルは、胚の生存性の特定において合計６６．７％の精度を達成し、発生学者はそのスコアリング法に基づき５１％の精度を達成した（図１０）。１５．７％のさらなる精度は、発生学者と比較したアンサンブルモデルに対する有意な３０．８％の性能（精度）改善を表している（ｐ＝０．０２１，ｎ＝２，スチューデントのｔ検定）。具体的には、結果は、発生学者が不正確であった場合にアンサンブルモデルが胚生存性を１４８回正確に分類することができ、逆にアンサンブルモデルが不正確であった場合に発生学者は胚生存性を５４回のみ正確に分類したことを示している。図１１は、アンサンブルモデルの評価が不正確であった場合の発生学者が胚生存性を正確に特定したことと比較した、発生学者の評価が不正確である場合の胚生存性を正確に特定することにおける世界トップレベルの発生学者（臨床医）（バー１１２０）と比較したアンサンブルモデルの一実施形態の精度（バー１１１０）を示した棒グラフである。これらの結果は、世界トップレベルの発生学者と比較した場合の、生存可能及び生存不可能な胚の特定におけるアンサンブルモデルの明らかな利点を示している。ＯｖａｔｉｏｎＦｅｒｔｉｌｉｔｙからの胚画像に対して、さらなる検証試験を行い、類似の結果を得た。

アンサンブルモデルのアプローチ及び技術を胚画像に適用して、生存可能な胚を正確に特定することができ且つ最終的にカップルに対するＩＶＦ結果の改善につながるモデルを作成することができるということを、成功した検証は実証している。次に、このモデルを、より大きなクリニック横断研究（ｃｒｏｓｓｃｌｉｎｉｃｓｔｕｄｙ）においてさらにテストした。

クリニック横断研究
オーストラリアのパイロット研究に続く、より一般的なクリニック横断研究では、１０，０００を超える胚画像が複数の人口統計学から供給された。これらの画像のうち、８，０００を超える画像が、胚の生存性に対する発生学者のスコアに関している可能性がある。訓練のために、各画像は、ディープラーニング及びコンピュータビジョンアルゴリズムが胚の生存性に関するパターン及び特徴を特定するのを可能にするために、生存可能又は生存不可能としてラベルされる必要がある。

第１のクリニック横断研究では、アンサンブルモデルを開発するための２２１７の画像（及び関連づけられた結果）の使用可能なデータセットが、パイロット研究と同じ様式で３つのサブセット：訓練データセット、検証データセット、及びブラインド検証データセットに分割される。これらの研究には、クリニック：ＯｖａｔｉｏｎＦｅｒｔｉｌｉｔｙＡｕｓｔｉｎ、ＳａｎＡｎｔｏｎｉｏＩＶＦ、ＭｉｄｗｅｓｔＦｅｒｔｉｌｉｔｙＳｐｅｃｉａｌｉｓｔｓ、及びＩｎｓｔｉｔｕｔｅｆｏｒＲｅｐｒｏｄｕｃｔｉｖｅＨｅａｌｔｈａｎｄＦｅｒｔｉｌｉｔｙＡｓｓｏｃｉａｔｅｓＮＺから供給されたデータが含まれる。これは：
訓練データセット：１７４４の画像－８８６の生存不可能、８５８の生存可能；
検証データセット：１９３の画像－９６の生存不可能、９７の生存可能；及び
ブラインド検証データセット１：２８０の画像－１３９の生存不可能、１４１の生存可能；
を含んだ。

訓練、検証、及びブラインド検証のフェーズの完了後、クリニック：ＯｒｅｇｏｎＲｅｐｒｏｄｕｃｔｉｖｅＭｅｄｉｃｉｎｅから供給された、完了した別個の人口統計学において第２の研究が実行される。このデータセットは：
ブラインド検証データセット２：２８６の画像－１０６の生存不可能、１８０の生存可能；
を含んだ。

第３の研究は、クリニック：ＡｌｐｈａＦｅｒｔｉｌｉｔｙＣｅｎｔｒｅから供給されたＥｍｂｒｙｏＳｃｏｐｅ画像：
ＥｍｂｒｙｏＳｃｏｐｅ検証データセット：６２の画像－３２の生存不可能、３０の生存可能；
を利用する
訓練されたアンサンブルベースのＡＩモデルを作成する際に、同じ訓練データセットが、訓練される各モデルに対して使用されるため、それらを一貫した様式で比較することができる。

混合された人口統計学的ブラインド検証データセットに適用したアンサンブルベースのＡＩモデルに対する最終結果は、以下の通りである。総精度のまとめを表６において見ることができる。

ヒストグラムとして表示される推論の分布が、図１２及び１３において示されている。図１２は、研究１のブラインド検証データセットに適用した場合の、アンサンブルベースのＡＩモデルの実施形態を使用した、生存可能な胚（成功した臨床妊娠）に対する推論スコアの分布のプロット１２００である。推論は０から１の間で正規化され、信頼スコアとして解釈することができる。モデルが正確である例が、太い下向きの斜線で満たされたボックス（真陽性１２２０）においてマークされ、モデルが正確ではない例は、細い上向きの斜線で満たされたボックス（偽陰性１２１０）においてマークされている。図１３は、研究１のブラインド検証データセットに適用した場合の、アンサンブルベースのＡＩモデルの実施形態を使用した、生存不可能な胚（不成功の臨床妊娠）に対する推論スコアの分布のプロット１３００である。推論は０から１の間で正規化され、信頼スコアとして解釈することができる。モデルが正確である例が、太い下向きの斜線で満たされたボックス（真陰性１３２０）においてマークされ、モデルが正確ではない例は、細い上向きの斜線で満たされたボックス（偽陽性１３１０）においてマークされている。２つのグループ間には明らかな隔たりがある。これらのヒストグラムは、正確に特定された胚画像と不正確に特定された胚画像との間に良好な隔たりを示しており、これは、モデルがブラインド検証セットに上手く移動されるという証拠を提供する。

図１３は、偽陽性１３１０（細い上向きの斜線で満たされたボックス）において高いピークを有し、これは、図１２における偽陰性に対する等価ヒストグラムでは顕著ではない。この影響の理由は、胚画像自体を介して特定することができない子宮瘢痕等の患者の健康因子の存在による可能性がある。これらの因子が存在するということは、理想的な胚であっても、成功した着床につながらない可能性があることを意味する。これは、胚画像分析のみを使用した成功した臨床妊娠の予測における精度の上限値も制限する。

胚の選択においては、潜在的に健康な胚を危険にさらす（偽陰性）よりも、生存不可能な胚が着床されるのを可能にすること（偽陽性）が優先的に広く考えられている。従って、アンサンブルベースのＡＩモデルを形成する最終的なアンサンブルベースのＡＩモデルを得る際に、可能であれば、優先的に偽陰性を最小化するために残差不正確性にバイアスをかける努力がなされた。従って、最終モデルは、特異度よりも高い感度を有し、すなわち、生存不可能な胚よりも生存可能な胚を選択することにおいてより高い精度を有することになる。偽陰性を最小化することに優先順位をつけるようにモデルにバイアスをかけるために、モデルは、可能であれば、生存可能な胚画像のセットに対するアンサンブルベースのＡＩモデルの精度が生存不可能な胚画像のセットに対する精度よりも高いように、最終的なアンサンブルベースのＡＩモデルに含めるために選択される。モデルが共に組み合わさって生存性精度にバイアスを与えるようにモデルを見つけることができない場合、訓練の間にさらなるパラメータが供給されることがあり、これは、生存可能な胚を誤って分類することに対するペナルティを増加させる。

総精度は、モデルの全体的な有効性を大まかに評価するのに有用であるけれども、異なる人口統計学に関する複雑さは必然的に平均化されている。従って、以下に記載されるように、様々な主要グループへの結果の分類を考慮することは指令的である。

研究１：人口統計学的横断
アンサンブルベースのＡＩモデルの挙動を調査するために、以下の人口統計学的グループが考慮される。第一に、ＦｅｒｔｉｌｉｔｙＡｓｓｏｃｉａｔｅｓＮＺによって提供されたデータセットに対する精度は、米国を拠点とするクリニックの精度よりも低い。これは、おそらく、このクリニックからのデータに固有の多様性によるものであり、このデータに固有の多様性には、多くの異なる都市、カメラフィルター、及び輝度レベルが包含され、アンサンブルベースのＡＩモデルは、これらにわたる平均をとらなければならない。はるかに大きなデータセットにおけるＡＩのさらなる訓練は、それをファインチューニングの訓練データセットに組み込むことによってカメラの多様性を考慮することができると予測される。ＮＺデータを含む及び除く精度が、表７及び８において示されている。

クリニックＭｉｄｗｅｓｔＦｅｒｔｉｌｉｔｙＡｓｓｏｃｉａｔｅｓ及びＳａｎＡｎｔｏｎｉｏＩＶＦからの画像数が少ないため、サンプルサイズが個々に小さすぎて信頼できる精度測定を行うことができない。従って、それらの結果は、表７においてＯｖａｔｉｏｎＦｅｒｔｉｌｉｔｙＡｕｓｔｉｎからの結果と共に組み合わされている。

アンサンブルベースのＡＩモデルの精度に対する患者の年齢の影響についての研究も実行し、表７において示されている。３５歳以上の患者に対応する胚画像はより正確に分類されることが分かった。年齢のカットオフが３８歳に引き上げられると、精度は再び改善され、アンサンブルベースのＡＩモデルは、年齢と共により顕著になる形態学的特性に対してより感度が高いことを示した。

胚が移植に先立ち孵化又は孵化なしのプロトコルで処理されているかどうかも考慮した。より大きな形態学的特徴を示す孵化した胚を、孵化していない胚よりもＡＩによってより容易に特定したが、前者の場合には特異度が低下したということが分かった。これはおそらく、孵化した胚と孵化していない胚の混合データセットにおいて訓練されたアンサンブルベースのＡＩモデルが、首尾よく孵化した胚を生存性と関連付ける傾向を有するという事実の結果である。

研究１：発生学者のランク付けの比較
アンサンブルベースのＡＩモデル及び発生学者の精度のまとめを、セクション５Ａで考慮した同じ人口統計学的分類について表９及び１０において見ることができる。この研究では、対応する発生学者スコアを有する胚画像のみが考慮されている。

元の発生学者の精度の割合として精度の差（（ＡＩ＿精度－発生学者＿精度）／発生学者＿精度）によって定められるように、精度における発生学者と比較したアンサンブルベースのＡＩモデルの改善率が引用されている。全画像数にわたる改善は３１．８５％であったけれども、改善因子は各所与のデータセットにおける発生学者の能力に対して非常に感度が高いため、改善は特定の人口統計学にわたって非常にばらつきがあることが分かった。

ＦｅｒｔｉｌｉｔｙＡｓｓｏｃｉａｔｅｓＮＺの場合、発生学者は、他の人口統計学よりも有意に良好に機能し、アンサンブルベースのＡＩモデルを使用した場合に１２．３７％のみの改善につながった。ＯｖａｔｉｏｎＦｅｒｔｉｌｉｔｙＡｕｓｔｉｎ等、アンサンブルベースのＡＩモデルが非常に良好に機能した場合、改善は７７．７１％と高かった。発生学者と比較したアンサンブルベースのＡＩモデルの性能の比較は、表９及び１０の両方の最後の２列に見られるように、その比較器が同じ画像を不正確に評価した場合の正確に評価された画像の総数においても反映されている。

発生学者のスコアが、胚の前進又は停止（細胞の数、圧縮、桑実胚、胞胚腔形成、初期胚盤胞、完全胚盤胞、又は孵化した胚盤胞）の観点から胚のランクを表す数字又は用語法を有している場合に、アンサンブルベースのＡＩモデル及び発生学者の評価の有効性を比較する代替の研究を実行することができる。胚のランクの比較は、１～５にラベルされた５つの等しいバンド（最小推論から最大推論まで）にＡＩ推論を分けながら、発生学者の評価を１から５の数値スコアと等しくすることによって行うことができる。アンサンブルベースのＡＩモデル及び発生学者のスコアの両方が１から５の整数で表現されると、ランク付け精度の比較は以下のように行われる。

所与の胚画像に、アンサンブルベースのＡＩモデル及び発生学者によって同じランクが与えられた場合、これは、一致として認められる。しかし、アンサンブルベースのＡＩモデルが発生学者よりも高いランクを与え、グラウンドトゥルースの結果が生存可能として記録された場合、又はアンサンブルベースのＡＩモデルが発生学者よりも低いランクを与え、グラウンドトゥルースの結果が生存不可能として記録された場合、この結果は、モデルが正確であるとして認められる。同様に、アンサンブルベースのＡＩモデルが発生学者よりも低いランクを与え、グラウンドトゥルースの結果が生存可能として記録された場合、又はアンサンブルベースのＡＩモデルがより高いランクを与え、結果が生存不可能として記録された場合、この結果は、モデルが不正確であるとして認められる。先に考慮した同じ人口統計学的分類について、一致、モデルが正確である、又はモデルが不正確であるとして評価された画像の割合のまとめを、表１１及び１２において見ることができる。モデルが正確である割合が高く、一致及びモデルが不正確である割合が低い場合に、アンサンブルベースのＡＩモデルは、データセットにおいて良好に機能したと考えられる。

研究１の全ブラインドデータセットにわたる発生学者及びアンサンブルベースのＡＩモデルから得られたランクの分布の視覚表示を、それぞれ図１４及び１５のヒストグラムにおいて見ることができる。図１４は、全ブラインドデータセットにわたる発生学者のスコアから得られたランクのヒストグラム１４００であり、図１５は、全ブラインドデータセットにわたるアンサンブルベースのＡＩモデル推論の実施形態から得られたランクのヒストグラム１５００である。

図１４及び１５は、分布の形状が互いに異なっている。発生学者のスコアにおいては３のランクの値付近で優位性があり、１及び２の低いスコアに対して急激に低下しているけれども、アンサンブルベースのＡＩモデルは、２及び３の値付近でより均等のスコアの分布を有し、４のランクが優位のスコアである。図１６は、アンサンブルベースのＡＩモデルから得られた推論スコアから直接抽出されており、推論スコアは、比較のために図１３においてヒストグラムとして示されている。図１２におけるランクは、図１３におけるスコアのより粗いバージョンである。図１６におけるより細かい分布は、（生存不可能と予測された）５０％未満のスコア１６１０と、（生存可能と予測された）それ以上のスコア１６２０との間に明確な隔たりがあることを示している。これは、アンサンブルベースのＡＩモデルが、標準的なスコアリング法よりも胚のランク付けに関してより大きな粒度を提供し、より決定的な選択が達成されるのを可能にすることを示唆している。

研究２－二次ブラインド検証
研究２では、別のクリニックであるＯｒｅｇｏｎＲｅｐｒｏｄｕｃｔｉｖｅＭｅｄｉｃｉｎｅから胚画像が供給されて、二次ブラインド検証として使用した。関連付けられた臨床妊娠結果を有する画像の総数は２８６であり、サイズは、研究１におけるブラインド検証データセットと類似していた。混合人口統計学的ブラインド検証セットに適用したアンサンブルベースのＡＩモデルに対する最終結果を、表１３において見ることができる。このブラインド検証では、研究１と比較して（６６．４３％－６２．６４％＝３．４９％）のみの精度の低下があり、これは、モデルが二次ブラインドセットまで横切って移動していることを示している。しかし、精度の低下は、生存不可能及び生存可能な胚にわたって均一ではない。感度は安定したままであるけれども、特異度は低下する。この試験では、（画質基準を満たしていない）古い（＞１年の）Ｐｉｘｅｌｉｎｋ（登録商標）カメラから供給された１８３の低画質の画像を、研究の開始前に取り除いて、低画質の画像が、胚の生存性を正確に予測するアンサンブルベースのＡＩモデルに影響を及ぼすのを防いだ。

この点をさらに調査するために、不均一なクロッピング、スケーリング（ぼかし）を導入するか、又は圧縮ノイズ（ｊｐｅｇアーチファクト等）を加えることによって胚画像を連続的に歪ませた別の研究を実行した。いずれの場合においても、アンサンブルベースのＡＩモデル予測の信頼性はアーチファクトが増加するに従い低下することが分かった。さらに、アンサンブルベースのＡＩモデルが歪んだ画像に生存不可能の予測を割り当てる傾向があることが分かった。これは、損傷を受けた胚の画像と正常な胚の損傷を受けた画像とを区別することができないアンサンブルベースのＡＩモデルの観点から理にかなっている。どちらの場合も、歪みはアンサンブルベースのＡＩモデルによって特定され、画像に生存不可能の予測を割り当てる可能性が高くなる。

この分析の確証として、ＯｒｅｇｏｎＲｅｐｒｏｄｕｃｔｉｖｅＭｅｄｉｃｉｎｅからの主な高画質の画像セットから取り除いた１８３のＰｉｘｅｌｉｎｋカメラ画像のみにアンサンブルベースのＡＩモデルを適用し、結果が表１４において示されている。

歪んだ画像及び画質の悪い画像の場合（すなわち、画質評価に失敗した場合）に、アンサンブルベースのＡＩモデルの性能が低下するだけでなく、より大きな割合の画像が、生存不可能の予測に割り当てられるということが、表１４から明らかである。代替のカメラ設定におけるアンサンブルベースのＡＩモデルの挙動のさらなる分析、及び結果を改善するためのそのようなアーチファクトを処理する方法が以下に論じられる。ヒストグラム１７００及び１８００として表示されている推論の分布が、図１７及び１８において示されている。ちょうど研究１と同じように、図１７及び１８はどちらも、生存可能な胚及び生存不可能な胚の両方に対する、正確な予測（１７２０；１８２０；太い下向きの斜線で満たされたボックス）と不正確な予測（１７１０；１８１０；細い上向きの斜線で満たされたボックス）との間の明確な隔たりを示している。図１７と１８との間の分布の形状も互いに類似しているが、偽陰性に対するものよりも、偽陽性率はより高い。

研究３－ＥｍｂｒｙｏＳｃｏｐｅ検証
研究３では、完全に異なるカメラ設定から供給されたデータセットにおけるアンサンブルベースのＡＩモデルの潜在的性能が調査される。主に位相差顕微鏡画像において訓練されたアンサンブルベースのＡＩモデルをテストするつもりで、限られた数のＥｍｂｒｙｏＳｃｏｐｅ画像をＡｌｐｈａＦｅｒｔｉｌｉｔｙＣｅｎｔｒｅから得た。ＥｍｂｒｙｏＳｃｏｐｅ画像は、インキュベーターのランプに由来する胚周囲のクリアで明るい輪と、この輪の外側の暗い領域を有しており、これは、研究１からの典型的な位相差顕微鏡画像には存在しない。いかなる追加的処理もなくＥｍｂｒｙｏＳｃｏｐｅ画像においてモデルを適用すると、予測にばらつきが生じ、高い割合で画像が生存不可能であると予測され、表１５において示されているように、偽陰性率が高くなり、感度が低くなる。しかし、コンピュータビジョンイメージング技術を使用すると、画像をその期待される形態に近づけるための粗い一次通過の適用は、推論の有意なリバランシングをもたらし、精度を向上させる。

このデータセットは小さいけれども、それにもかかわらず、画像の形態における変動性を低減するコンピュータビジョン技術を、アンサンブルベースのＡＩモデルの一般化可能性を改善するために使用することができるという証拠を提供する。発生学者との比較も実行した。スコアは、ＡｌｐｈａＦｅｒｔｉｌｉｔｙＣｅｎｔｒｅによって直接提供されなかったけれども、胚は（偽陰性を回避するために）おそらく生存可能であると予測されるという保守的な仮定が、研究１の場合の真の発生学者の精度と非常に類似した精度をもたらすことがわかった。従って、このように仮定することによって、アンサンブルベースのＡＩモデルの精度と発生学者の精度との比較も、表１６において示されているように、同じ方法で行うことができる。この研究では、３３．３３％の改善率が認められ、研究１から得られた全改善率３１．８５％と類似していた。

推論の分布も、図１９及び２０において示されているように、この研究で得ることができる。図１９は、アンサンブルベースのＡＩモデルを使用した、生存可能な胚（成功した臨床妊娠）に対する推論スコアの分布のプロット１９００（偽陰性１９１０、細い上向きの斜線で満たされたボックス；真陽性１９２０、太い下向きの斜線で満たされたボックス）である。図２０は、アンサンブルベースのＡＩモデルを使用した、生存不可能な胚（成功した臨床妊娠）に対する推論スコアの分布のプロット２０００（偽陰性１２２０、細い上向きの斜線で満たされたボックス；真陽性２０２０、太い下向きの斜線で満たされたボックス）である。限られた研究のサイズ（６２の画像）は、分布が非常に明確であるのを可能にしないけれども、それにもかかわらず、この場合、生存可能な胚及び生存不可能な胚の両方に対する正確である予測（１９２０、２０２０）と不正確である予測（１９１０、２０１０）との隔たりがはるかに不明瞭であることを観察することができる。これは、ＥｍｂｒｙｏＳｃｏｐｅカメラの設定とは全く異なるアーチファクトとしてのさらなる特徴を示す画像に対して予測されることになる。これらのさらなるアーチファクトは、画像にノイズを効果的に加え、胚の健康を示す関連する特徴を抽出することをより困難にする。

さらに、生存可能カテゴリにおける精度は生存不可能カテゴリよりも有意に低く、高い偽陰性率をもたらす。しかし、この効果は画像の予備的なコンピュータビジョン処理の後でさえはるかに低減され、異なるカメラソースからの画像の取扱いの改善に対する証拠を提供することが分かった。加えて、その後の訓練又はファインチューニングフェーズの間のＥｍｂｒｙｏＳｃｏｐｅ画像の追加も、性能改善につながることが期待される。

要約
顕微鏡画像に基づく胚の生存性を予測するためのディープラーニングモデル及びコンピュータビジョンモデルを含むＡＩモデルの有効性を、オーストラリアのパイロット研究及び３つのクリニック横断研究において調査して、一般的なアンサンブルベースのＡＩモデルを開発した。

単一のオーストラリアのクリニックを含むパイロット研究は、胚生存性の特定において６７．７％の全体的な精度、生存可能な胚に対する７４．１％の精度、及び生存不可能な胚に対する６５．３％の精度をもたらすことができた。これによって、発生学者の分類率は３０．８％改善される。これらの結果の成功によって、より徹底的なクリニック横断研究が促進された。

３つの別個のクリニック横断研究では、米国、ニュージーランド、及びマレーシアにわたる異なるクリニックからの様々な人口統計学において、一般的なＡＩ選択モデルを開発、検証、及びテストした。研究１では、アンサンブルベースのＡＩモデルは、クリニックの各々からの発生学者と比較した場合に高い精度を達成することができ、クリニック横断のブラインド検証研究では３１．８５％の平均改善率を有し、オーストラリアのパイロット研究での改善率と類似していることが分かった。加えて、アンサンブルベースのＡＩモデルから得られた推論スコアの分布は、生存可能な胚及び生存不可能な胚の両方についての正確である予測と不正確である予測との間に明確な隔たりを示し、これは、モデルが将来のブラインドデータセットまで正しく移動しているという証拠を提供する。

発生学者スコアとの比較研究を、胚ランクの順位の影響を考慮するために発展させた。アンサンブルベースのＡＩモデルの推論及び発生学者のランクを１から５の整数に変換することによって、発生学者と比較して、胚を最も生存可能なものから最も生存可能でないものへランク付けすることにおいて、アンサンブルベースのＡＩモデルがどのように異なるかについて直接比較することができた。アンサンブルベースのＡＩモデルはここでも発生学者よりも性能が優れており、４０．０８％の画像に改善されたランクが与えられたが、２５．１９％の画像のみにより悪いランクが与えられ、３４．７３％の画像はそれらのランクに変化がなかったということが分かった。

アンサンブルベースのＡＩモデルを、第２のブラインド検証セットに適用し、研究１の数％以内の精度を示した。損傷を受けたか又は歪んだ画像において機能するアンサンブルベースのＡＩモデルの能力も評価した。標準的な位相差顕微鏡画像に適合しない画像、又は低画質の、ぼやけた、圧縮された、又は不十分にクロップされた画像は、おそらく生存不可能として評価されることになり、予測される胚画像におけるアンサンブルベースのＡＩモデルの信頼性は低下することが分かった。

異なるカメラハードウェアの問題点を理解し、研究の結果にどのように影響するかを理解するために、ＥｍｂｒｙｏＳｃｏｐｅ画像のデータセットが得られ、このデータセットに単純に適用した場合のアンサンブルベースのＡＩモデルは、研究１の元のセットにおいて達成された高い精度には達しないことが分かった。しかし、アーチファクトを処理し、ＥｍｂｒｙｏＳｃｏｐｅ画像において系統的に存在するノイズを低減するための画像の予備的なデータクリーニング処理は、結果を著しく改善し、アンサンブルベースのＡＩモデルの精度を研究１でのその最適値にかなり近づけた。より大きくより多様なデータセットを訓練プロセスに組み込み、従って、時間の経過に伴い自己改善することができるようにモデルをファインチューニングすることによって改善されることになるアンサンブルベースのＡＩモデルの能力のため、本願における３つの研究は、近い将来における胚生存性のロバストで一貫した評価のための重要で不可欠なツールとしてのＡＩモデルの有効性に対して、説得力のある証拠を提供する。

さらに、上記の例は、ＥｍｂｒｙｏＳｃｏｐｅシステム及び光学顕微鏡からの位相差画像を使用しているけれども、さらなるテストは、当該方法が、様々なイメージングシステムを使用してキャプチャされた画像において使用され得ることを示している。この試験は、当該方法が、ビデオ及びタイムラプスシステムから抽出された画像を含む、様々な画像センサ及び画像（すなわち、単なる胎児鏡及び位相差画像を超えるもの）に対してロバストであることを示している。ビデオ及びタイムラプスシステムから抽出された画像を使用する場合、基準キャプチャ時点を定めることができ、そのようなシステムから抽出された画像は、この基準キャプチャ時点に最も近い時間の画像、又は基準時間の後にキャプチャされた最初の画像であってもよい。選択した画像が最低限の品質基準を満たすことを確実にするために、品質評価を画像において行うことができる。

１つ以上のディープラーニングモデルを使用して画像から胚生存性スコアを生成するように構成されたＡＩモデルの計算的生成のための方法及びシステムの実施形態が記載されてきた。訓練のための胚画像の新しいセットが与えられると、画像をセグメントに分けて、画像を主要な形態学的構成要素に注釈付けする透明帯及びＩＺＣ領域を特定することによって、胚生存性を推定するための新しいＡＩモデルを生成することができる。次に、少なくとも１つの透明帯ディープラーニングモデルが、透明帯マスク画像において訓練される。一部の実施形態において、ディープラーニングモデル及び／又はコンピュータビジョンモデルを含む複数のＡＩモデルが生成され、安定性、検証セットからブラインドテストセットへの転移性を示すモデルが選択され、予測精度が保持される。これらのＡＩモデルを、例えば、信頼性に基づく投票戦略を使用して組み合わされるモデルを対照及び多様性基準に基づき選択するアンサンブルモデルを使用して組み合わせることができる。適したＡＩモデルが訓練されると、新たに収集した画像の生存性を推定するように展開させることができる。これは、クラウドサービスとして提供することができ、ＩＶＦクリニック又は発生学者が、キャプチャした画像をアップロードし、生存性スコアを取得して、胚を着床させるかどうかの決定、又は、複数の胚が利用可能な場合に、どの（１つ又は複数の）胚が最も生存可能である可能性が高いかの選択を支援するのを可能にする。展開は、モデル係数及びモデルメタデータをファイルにエクスポートし、次に、別のコンピューティングシステムにロードして新しい画像を処理すること、又は、計算システムを再構成して、新しい画像を受信し、生存性の推定値を生成することを含んでもよい。

アンサンブルベースのＡＩモデルの実装は、多数の選択肢を含み、本明細書において記載される実施形態は、いくつかの新規且つ有利な特徴を含む。透明帯及びＩＺＣ領域を特定するためのセグメンテーション、物体検出、画像の正規化、画像のクロッピング、古い画像又は非適合画像（例えば、アーティファクトを有する画像）の除去等の画像クリーニング等、画像前処理ステップを行うことができる。

ディープラーニングモデルに関連して、透明帯を特定するためのセグメンテーションの使用は有意な効果を有し、最終的なアンサンブルベースのＡＩモデルは、４つの透明帯モデルを特徴としている。最終モデルは、８のディープラーニングＡＩモデルのアンサンブルを含み、さらなるディープラーニングモデルは、一般的に、コンピュータビジョンモデルよりも性能が優れていることが分かった。しかし、透明帯画像に基づく単一のＡＩモデル、又はディープラーニングとＣＶモデルとの組み合わせを含むアンサンブル（若しくは類似の）ＡＩモデルを使用して、有用な結果を依然として生成することができる。従って、ディープラーニングに先立ちセグメンテーションが行われるいくつかのディープラーニングモデルの使用が好ましく、アンサンブルベースのＡＩモデルにおいて使用するための対照的なディープラーニングモデルの作成を支援する。画像拡張も、ロバスト性を改善することが分かった。良好に機能したいくつかのアーキテクチャは、ＲｅｓＮｅｔ－１５２及びＤｅｎｓｅＮｅｔ－１６１を含んだ（しかし、他の異形も使用することができる）。同様に、確率的勾配降下法は、一般的に、（Ａｄａｍが続く）ほぼ全ての試験において、ニューロンの重みを変えるための全ての他の最適化プロトコルよりも性能が優れていた。大域最適解をより明らかにするために最適化サーフェスを修正したカスタム損失関数の使用は、ロバスト性を改善した。訓練前のデータセットの無作為化、特にデータセットの分布がテスト及び訓練セットにわたって均等（又は類似）であることをチェックすることも、有意な効果を有すると分かった。生存可能な胚の画像は非常に多様であり、従って、無作為化をチェックすることで、多様性の影響に対するロバスト性が提供される。アンサンブルベースのＡＩモデルを構築するために、選択プロセスを使用して対照的なモデルを選ぶこと（すなわち、それらの結果は可能な限り独立しており、スコアは十分に分布している）も、性能を改善した。これは、２つのモデルに対して、生存可能な画像のセットにおける重複を調べることによって評価することができる。偽陰性の減少の優先順位付け（すなわち、データクレンジング）も、精度の改善を支援する。本明細書において記載されているように、胚生存性評価モデルの場合、体外受精後５日目に撮影された画像を使用したモデルは、（例えば、４日目又はそれ以前等）それより前の画像を使用して得られたモデルよりも性能が優れていた。

コンピュータビジョン及びディープラーニング法を使用したＡＩモデルは、これらの有利な特徴のうち１つ以上を使用して生成することができ、胚以外の他の画像セットに適用することができた。図１を参照すると、胚モデル１００は、別のモデルに置き換えられ、訓練され、医学的性質であるか否かにかかわらず、他の画像データにおいて使用され得る。当該方法は、アンサンブルベースのディープラーニングモデルを含むディープラーニングベースのモデルに対しても、より一般的であり得る。これらを、図３Ａ及び３Ｂにおいて例示され且つ上記のもの等のシステムを使用して訓練及び実装することができた。

本明細書において記載されているように訓練されたモデルは、新しい画像を分類するために有用に展開することができ、従って、発生学者が着床の決定を行うのを支援し、従って、成功率（すなわち、妊娠）を増加させることができる。アンサンブルベースのＡＩモデルの一実施形態の広範な試験を行い、その試験では、アンサンブルベースのＡＩモデルを、体外受精後５日目に撮影された胚の画像から胚の胚生存性スコアを生成するように構成した。この試験によって、モデルが生存可能な胚と生存不可能な胚とを明確に隔てることが示され（図１３を参照）、表１０から１２及び図１４から１６は、このモデルが発生学者よりも性能が優れていることを例示している。特に、上記の研究において例示されているように、アンサンブルベースのＡＩモデルの一実施形態は、生存可能な胚を特定すること（７４．１％）及び生存不可能な胚を特定すること（６５．３％）の両方において高い精度を有し、３０％以上、画像の生存性を評価することにおいて経験豊富な発生学者よりも有意に性能が優れていることが分かった。

当業者は、情報及び信号が種々のテクノロジー及び技術のいずれかを使用して表現され得ることを理解するであろう。例えば、上記の説明全体を通して言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、及びチップは、電圧、電流、電磁波、磁場若しくは磁性粒子、光学場若しくは光学粒子、又はそれらの任意の組み合わせによって表現されてもよい。

当業者は、さらに、本明細書において開示される実施形態に関連して記載される様々な例示的な論理ブロック、モジュール、回路、及びアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェア若しくは命令、ミドルウェア、プラットフォーム、又はそれらの組み合わせとして実装され得ることを正しく理解するであろう。ハードウェア及びソフトウェアのこの互換性を明確に例示するために、様々な例示的な構成要素、ブロック、モジュール、回路、及びステップが、それらの機能性の観点から一般的に記載されてきた。そのような機能性がハードウェア又はソフトウェアとして実装されるかどうかは、特定の用途及びシステム全体に課される設計上の制約次第である。当業者は、各特定の用途に対して様々な方法で、記載される機能性を実装することができるが、そのような実装決定は、本発明の範囲から逸脱させるものとして解釈されるべきではない。

本明細書において開示される実施形態に関連して記載される方法又はアルゴリズムのステップは、ハードウェアにおいて、プロセッサによって実行されるソフトウェアモジュールにおいて、又はクラウドベースのシステムを含む２つの組み合わせにおいて直接具体化されてもよい。ハードウェア実装のために、処理が、１つ以上の特定用途向け集積回路（ＡＳＩＣｓ）、デジタルシグナルプロセッサ（ＤＳＰｓ）、デジタル信号処理デバイス（ＤＳＰＤｓ）、プログラマブルロジックデバイス（ＰＬＤｓ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡｓ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、若しくは本明細書において記載される機能を行うように設計された他の電子ユニット、又はそれらの組み合わせ内で実装されてもよい。様々なミドルウェア及びコンピューティングプラットフォームが使用されてもよい。

一部の実施形態において、プロセッサモジュールは、方法のステップの一部を行うように構成された１つ以上の中央処理装置（ＣＰＵｓ）又はグラフィックスプロセッシングユニット（ＧＰＵ）を含む。同様に、計算装置は、１つ以上のＣＰＵ及び／又はＧＰＵを含んでもよい。ＣＰＵは、入出力インターフェース、演算装置（ＡＬＵ）、並びに、入出力インターフェースを介して入力及び出力装置と通信する制御装置及びプログラムカウンタ要素を含んでもよい。入出力インターフェースは、既定の通信プロトコル（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｚｉｇｂｅｅ、ＩＥＥＥ８０２．１５、ＩＥＥＥ８０２．１１、ＴＣＰ／ＩＰ、ＵＤＰ等）を使用して、別のデバイスにおける同等の通信モジュールと通信するためのネットワークインターフェース及び／又は通信モジュールを含んでもよい。計算装置は、単一のＣＰＵ（コア）若しくは複数のＣＰＵ（マルチコア）、又は複数のプロセッサを含んでもよい。計算装置は、典型的には、ＧＰＵクラスタを使用するクラウドベースの計算装置であるが、パラレルプロセッサ、ベクトルプロセッサ、又は分散コンピューティングデバイスであってもよい。メモリが、１つ又は複数のプロセッサに動作可能に結合され、ＲＡＭ及びＲＯＭ構成要素を含んでもよく、デバイス又はプロセッサモジュールの内部又は外部に提供されてもよい。オペレーティングシステム及びさらなるソフトウェアモジュール又は命令を格納するためにメモリを使用することができる。１つ又は複数のプロセッサは、メモリに格納されたソフトウェアモジュール又は命令をロード及び実行するように構成されてもよい。

コンピュータプログラム、コンピュータコード、又は命令としても知られるソフトウェアモジュールは、多数のソースコード又はオブジェクトコードのセグメント又は命令を有してもよく、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ブルーレイディスク、又は任意の他の形態のコンピュータ読み取り可能媒体等、任意のコンピュータ読み取り可能媒体内に存在してもよい。一部の態様において、コンピュータ読み取り可能媒体は、非一時的なコンピュータ読み取り可能媒体（例えば、有形媒体等）を含んでもよい。加えて、他の態様では、コンピュータ読み取り可能媒体は、一時的なコンピュータ読み取り可能媒体（例えば、信号等）を含んでもよい。上記の組み合わせも、コンピュータ読み取り可能媒体の範囲内に含まれるべきである。別の態様では、コンピュータ読み取り可能媒体は、プロセッサに一体化されてもよい。プロセッサ及びコンピュータ読み取り可能媒体は、ＡＳＩＣ又は関連装置内に存在してもよい。ソフトウェアコードは、メモリユニットに格納されてもよく、プロセッサは、それらを実行するように構成されてもよい。メモリユニットは、プロセッサ内に実装されてもよく、又はプロセッサの外部に実装されてもよく、その場合、当技術分野において既知の様々な手段を介してプロセッサに通信的に結合することができる。

さらに、本明細書において記載される方法及び技術を行うためのモジュール及び／又は他の適切な手段は、ダウンロードすることができる及び／又は他の方法で計算装置によって得ることができるということが正しく理解されるべきである。例えば、そのような装置は、本明細書において記載される方法を行うための手段の転送を容易にするためにサーバに結合することができる。或いは、計算装置が、記憶手段を装置に結合又は提供する際に様々な方法を得ることができるように、本明細書において記載される様々な方法は、記憶手段（例えば、ＲＡＭ、ＲＯＭ、コンパクトディスク（ＣＤ）又はフロッピーディスク等の物理記憶媒体等）を介して提供することができる。さらに、本明細書において記載される方法及び技術を装置に提供するための任意の他の適した技術を利用することができる。

本明細書において開示される方法は、記載される方法を達成するための１つ以上のステップ又はアクションを含む。当該方法のステップ及び／又はアクションは、特許請求の範囲から逸脱することなく、互いに交換されてもよい。言い換えると、特定のステップ又はアクションの順序が指定されない限り、特定のステップ及び／又はアクションの順序及び／又は使用を、特許請求の範囲から逸脱することなく修正することができる。

本明細書及び添付の特許請求の範囲を通して、文脈上他の意味に解すべき場合を除き、「含む」という用語及び「含んでいる」等の変形は、記載された整数又は整数のグループを含むことを意味するが、任意の他の整数又は整数のグループを除外することは意味しないと理解されることになる。

本明細書における任意の先行技術の参照は、そのような先行技術が技術常識の一部を形成することを示唆する何らかの形態の認知ではなく、そのように解釈されるべきではない。

本開示は、その使用において、記載される特定の１つ又は複数の用途に限定されないことが、当業者によって正しく理解されることになる。また、本開示は、その好ましい実施形態において、本明細書において記載される又は描かれる特定の要素及び／又は特徴に関して限定されない。本開示は、開示される１つ又は複数の実施形態に限定されるものではないが、添付の特許請求の範囲によって明記され且つ定められた範囲から逸脱することなく、多くの再構成、修正、及び置換が可能であることが正しく理解されることになる。

Claims

画像から胚生存性スコアを推定するように構成された人工知能（ＡＩ）モデルを計算的に生成する方法であって、
複数の画像及び関連するメタデータを受信するステップであり、各画像は、体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされ、前記所定の時間窓は、２４時間以内であり、前記画像に関連するメタデータは、少なくとも妊娠結果ラベルを含む、ステップと、
少なくとも、透明帯領域を特定するために前記画像をセグメントに分けることを含む、各画像を前処理するステップと、
ディープラーニング法を使用して少なくとも１つの透明帯ディープラーニングモデルを訓練することによって入力画像から胚生存性スコアを生成するように構成された人工知能（ＡＩ）モデルを生成するステップであり、透明帯領域が特定された透明帯画像のセットにおいてディープラーニングモデルを訓練することを含み、関連する前記妊娠結果ラベルが、訓練されたモデルの精度を評価するために少なくとも使用される、ステップと、
前記ＡＩモデルを展開させるステップと、
を含む方法。
前記透明帯画像のセットは、前記透明帯領域によって境界がつけられた領域がマスクされた画像を含む、請求項１に記載の方法。
前記ＡＩモデルを生成するステップは、前記ＡＩモデルを生成するために、１つ以上のさらなるＡＩモデルを訓練することであって、各さらなるＡＩモデルが、胚生存性スコアを推定するために、画像から抽出された１つ以上のコンピュータビジョン記述子の組み合わせを使用する機械学習法を使用して訓練されたコンピュータビジョンモデル、透明帯領域及びＩＺＣ領域の両方を含む胚に局在化された画像において訓練されたディープラーニングモデル、及び、透明帯内空洞（ＩＺＣ）を除いた全ての領域がマスクされたＩＺＣ画像のセットにおいて訓練されたディープラーニングモデルのいずれかである、１つ以上のさらなるＡＩモデルを訓練することと、前記少なくとも１つの透明帯ディープラーニングモデル及び前記１つ以上のさらなるＡＩモデルのうち少なくとも２つを組み合わせて、入力画像から前記ＡＩモデルの胚生存性スコアを生成するためにアンサンブル法を使用すること、又は、前記少なくとも１つの透明帯ディープラーニングモデル及び前記１つ以上のさらなるＡＩモデルを使用して、ＡＩモデルを訓練して前記ＡＩモデルの胚生存性スコアを生成するために蒸留法を使用することと、をさらに含む、請求項１又は２に記載の方法。
前記ＡＩモデルは、前記少なくとも１つの透明帯ディープラーニングモデル及び前記１つ以上のさらなるＡＩモデルから少なくとも２つの対照的なＡＩモデルを選択することであり、ＡＩモデルの選択は、対照的なＡＩモデルのセットを生成するために行われることと、選択された前記少なくとも２つの対照的なＡＩモデルをどのように組み合わせて画像に対する結果スコアを生成するかを定める投票戦略を前記少なくとも２つの対照的なＡＩモデルに適用することと、を含むアンサンブルモデルを使用して生成される、請求項３に記載の方法。
少なくとも２つの対照的なＡＩモデルを選択することは、
前記少なくとも１つの透明帯ディープラーニングモデル及び前記１つ以上のさらなるＡＩモデルの各々に対して、画像のセットから胚生存性スコアの分布を生成することと、
前記分布を比較し、関連する分布が別の分布と類似し過ぎて、対照的な分布を有するＡＩモデルを選択することができない場合にモデルを廃棄することと、
を含む、請求項３に記載の方法。
前記所定の時間窓は、受精後５日目に始まる２４時間タイマー期間である、請求項１乃至５のいずれか一項に記載の方法。
前記妊娠結果ラベルは、胚移植後１２週間以内に行われるグラウンドトゥルースの妊娠結果測定である、請求項１乃至６のいずれか一項に記載の方法。
前記グラウンドトゥルースの妊娠結果測定は、胎児の心拍が検出されるかどうかである、請求項７に記載の方法。
前記複数の画像をクリーニングするステップをさらに含み、前記複数の画像をクリーニングするステップは、おそらく不正確な妊娠結果ラベルを有する画像を特定することと、前記特定された画像を排除するか又は再度ラベルすることと、を含む、請求項１乃至８のいずれか一項に記載の方法。
前記複数の画像をクリーニングするステップは、画像に関連する妊娠結果ラベルが不正確である可能性を推定することと、閾値と比較し、次に、前記閾値を超える可能性を有する画像を排除するか又は再度ラベルすることと、を含む、請求項９に記載の方法。
画像に関連する妊娠結果ラベルが不正確である可能性を推定することは、複数のＡＩ分類モデル、及び、複数の画像がｋの相互に排他的な検証データセットに分割されるｋ分割交差検証法を使用することによって行われ、前記複数のＡＩ分類モデルの各々が、組み合わされたｋ－１の検証データセットにおいて訓練され、次に、残りの検証データセット内の画像を分類するために使用され、画像の妊娠結果ラベルを誤って分類するＡＩ分類モデルの数に基づき、前記可能性が決定される、請求項１０に記載の方法。
各ＡＩモデルを訓練すること又は前記アンサンブルモデルを生成することは、少なくとも１つの精度測定基準及び少なくとも１つの信頼度測定基準を含む複数の測定基準、又は精度及び信頼度を組み合わせる１つの測定基準を使用して、ＡＩモデルの性能を評価することを含む、請求項１乃至１１のいずれか一項に記載の方法。
前記画像を前処理するステップは、ディープラーニング又はコンピュータビジョン法を使用して前記画像内の胚を局在化することによって前記画像をクロップすることをさらに含む、請求項１乃至１２のいずれか一項に記載の方法。
前記画像を前処理するステップは、前記画像に対してパディングを行うこと、カラーバランスを正規化すること、輝度を正規化すること、及び前記画像を既定の解像度にスケール調整することのうち１つ以上をさらに含む、請求項１乃至１３のいずれか一項に記載の方法。
ＡＩモデルの訓練に使用するための１つ以上の拡張画像を生成するステップをさらに含む、請求項１乃至１４のいずれか一項に記載の方法。
画像に１つ以上の回転、反射、サイズ変更、ぼかし、コントラスト変化、ジッタ、又はランダム圧縮ノイズを適用することによって、拡張画像が生成される、請求項１乃至１５のいずれか一項に記載の方法。
ＡＩモデルの訓練中に、前記訓練セット内の画像ごとに１つ以上の拡張画像が生成され、前記検証セットの評価中に、前記１つ以上の拡張画像に対する結果が組み合わされて、前記画像に対する単一の結果が生成される、請求項１５又は１６に記載の方法。
前記画像を前処理するステップは、１つ以上の特徴記述子モデルを使用して前記画像に注釈を付けることと、前記記述子のキーポイントの所与の半径内の領域を除いて、前記画像の全ての領域をマスクすることと、をさらに含む、請求項１乃至１７のいずれか一項に記載の方法。
各ＡＩモデルは結果スコアを生成し、前記結果スコアにおいては、結果が、ｎ状態を有するｎ項の結果であり、ＡＩモデルを訓練することは、複数の訓練検証サイクルを含み、訓練データセットが前記画像の少なくとも６０％を含み、検証データセットが前記画像の少なくとも１０％を含み、ブラインド検証データセットが前記画像の少なくとも１０％を含むように、前記複数の画像を、訓練セット、検証セット、又はブラインド検証セットのうち１つに無作為に割り当て、前記画像を前記訓練セット、前記検証セット、及び前記ブラインド検証セットに割り当てた後、前記訓練セット、前記検証セット、及び前記ブラインド検証セットの各々における前記ｎ項の結果の状態の各々の頻度を計算し、前記頻度が類似していることをテストし、前記頻度が類似していない場合は、前記割り当てを廃棄し、前記頻度が類似する無作為化が得られるまで、前記無作為化を繰り返すことをさらに含む、請求項１乃至１８のいずれか一項に記載の方法。
コンピュータビジョンモデルを訓練することは、複数の訓練検証サイクルを行うことを含み、各サイクルの間に、前記画像は、教師なしクラスタリングアルゴリズムを使用して、前記コンピュータビジョン記述子に基づきクラスタ化されて、クラスタのセットが生成され、各画像は、前記画像の前記コンピュータビジョン記述子の値に基づき距離測度を使用して、クラスタに割り当てられ、教師あり学習法が、これらの特徴の特定の組み合わせが、前記複数の画像における各コンピュータビジョン記述子の存在の結果尺度及び頻度情報に対応するかどうかを決定するために使用される、請求項３に記載の方法。
各ディープラーニングモデルは、畳み込みニューラルネットワーク（ＣＮＮ）であり、入力画像に対して、各ディープラーニングモデルは、結果確率を生成する、請求項１乃至２０のいずれか一項に記載の方法。
前記ディープラーニング法は、最適化サーフェスを修正するように構成された損失関数を使用して、大域最適解を強調することである、請求項１乃至２１のいずれか一項に記載の方法。
前記損失関数は、前記ネットワークの重みに関して定められる残差項を含み、前記残差項は、前記モデルからの予測値と各画像に対するターゲットとなる結果における集合的な差をエンコードし、それを、正常の交差エントロピー損失関数へのさらなる寄与として含む、請求項１乃至２２のいずれか一項に記載の方法。
前記方法は、ウェブサーバ、データベース、及び複数の訓練サーバを使用してクラウドベースのコンピューティングシステム上で行われ、前記ウェブサーバは、ユーザから１つ以上のモデル訓練パラメータを受信し、前記ウェブサーバは、前記複数の訓練サーバのうち１つに訓練コードをアップロードすることを含む訓練プロセスを前記複数の訓練サーバのうち１つ以上で開始し、前記訓練サーバは、データリポジトリから前記複数の画像及び関連するメタデータを要求し、各画像を準備するステップ、複数のコンピュータビジョンモデルを生成するステップ、及び複数のディープラーニングモデルを生成するステップを行い、各訓練サーバは、前記モデルを記憶サービスに、及び精度情報を１つ以上のログファイルに定期的に保存して、訓練プロセスが再始動されるのを可能にするように構成される、請求項１乃至２３のいずれか一項に記載の方法。
前記アンサンブルモデルは、残差にバイアスをかけて偽陰性を最小化するように訓練される、請求項１乃至２４のいずれか一項に記載の方法。
前記胚生存性スコアは、生存可能又は生存不可能のバイナリ結果である、請求項１乃至２５のいずれか一項に記載の方法。
各画像は位相差画像である、請求項１乃至２６のいずれか一項に記載の方法。
画像から胚生存性スコアを計算的に生成する方法であって、
計算システムにおいて、請求項１乃至２７のいずれか一項に記載の方法に従って、画像から胚生存性スコアを生成するように構成された人工知能（ＡＩ）モデルを生成するステップと、
前記計算システムのユーザインターフェースを介してユーザから、体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされた画像を受信するステップと、
前記ＡＩモデルを生成するために使用される前記前処理するステップに従って、前記画像を前処理するステップと、
前記胚生存性スコアの推定値を得るために、前記前処理された画像を前記ＡＩモデルに提供するステップと、
前記ユーザインターフェースを介して前記ユーザに前記胚生存性スコアを送信するステップと、
を含む方法。
画像から胚生存性スコアを得る方法であって、
請求項１乃至２７のいずれか一項に記載の方法に従って生成された、画像から胚生存性スコアを生成するように構成されたクラウドベースの人工知能（ＡＩ）モデルに、体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされた画像を、ユーザインターフェースを介してアップロードするステップと、
前記ユーザインターフェースを介して、前記クラウドベースのＡＩモデルから胚生存性スコアを受信するステップと、
を含む方法。
請求項１乃至２７のいずれか一項に記載の方法に従って、画像から胚生存性スコアを推定するように構成された人工知能（ＡＩ）モデルを計算的に生成するように構成されたクラウドベースの計算システム。
画像から胚生存性スコアを計算的に生成するように構成されたクラウドベースの計算システムであって、前記計算システムは、
請求項１乃至２７のいずれか一項に記載の方法に従って生成された、画像から胚生存性スコアを生成するように構成された人工知能（ＡＩ）モデル、
前記計算システムのユーザインターフェースを介してユーザから、体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされた画像を受信すること、
前記ＡＩモデルに前記画像を提供して、胚生存性スコアを得ること、及び
前記ユーザインターフェースを介して前記ユーザに前記胚生存性スコアを送信すること、
を含む、計算システム。
画像から胚生存性スコアを生成するように構成された計算システムであって、前記計算システムは、少なくとも１つのプロセッサと、少なくとも１つのメモリとを含み、前記少なくとも１つのメモリは、
体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされた画像を受信する、
請求項１乃至２７のいずれか一項に記載の方法に従って生成された、画像から胚生存性スコアを生成するように構成されたクラウドベースの人工知能（ＡＩ）モデルに、ユーザインターフェースを介して、前記体外受精（ＩＶＦ）後の所定の時間窓の間にキャプチャされた画像をアップロードする、
前記クラウドベースのＡＩモデルから胚生存性スコアを受信する、
前記ユーザインターフェースを介して前記胚生存性スコアを表示する、
ように前記少なくとも１つのプロセッサを構成するための命令を含む、計算システム。