JP2022528961A - 胚を選択する方法及びシステム - Google Patents

胚を選択する方法及びシステム Download PDF

Info

Publication number
JP2022528961A
JP2022528961A JP2021560476A JP2021560476A JP2022528961A JP 2022528961 A JP2022528961 A JP 2022528961A JP 2021560476 A JP2021560476 A JP 2021560476A JP 2021560476 A JP2021560476 A JP 2021560476A JP 2022528961 A JP2022528961 A JP 2022528961A
Authority
JP
Japan
Prior art keywords
model
image
images
training
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021560476A
Other languages
English (en)
Inventor
ホール,ジョナサン,マイケル,マクギリブレー
ペルジーニ,ドナート
ペルジーニ,ミシェル
Original Assignee
プレサーゲン プロプライアトリー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2019901152A external-priority patent/AU2019901152A0/en
Application filed by プレサーゲン プロプライアトリー リミテッド filed Critical プレサーゲン プロプライアトリー リミテッド
Publication of JP2022528961A publication Critical patent/JP2022528961A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/149Segmentation; Edge detection involving deformable models, e.g. active contour models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B17/00Surgical instruments, devices or methods, e.g. tourniquets
    • A61B17/42Gynaecological or obstetrical instruments or methods
    • A61B17/425Gynaecological or obstetrical instruments or methods for reproduction or fertilisation
    • A61B17/435Gynaecological or obstetrical instruments or methods for reproduction or fertilisation for embryo or ova transplantation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/145Square transforms, e.g. Hadamard, Walsh, Haar, Hough, Slant transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/28Indexing scheme for image data processing or generation, in general involving image processing hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20061Hough transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30044Fetus; Embryo

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

体外受精(IVF)法における着床のための胚の選択に寄与するために、胚の単一画像から胚生存性スコアを生成するための人工知能(AI)計算システムが記載される。AIモデルは、セグメンテーションを使用して画像中の透明帯領域が特定された画像に適用されるディープラーニング法、及び、6週目の超音波スキャンにおける心拍の検出等のグラウンドトゥルースラベルを使用する。

Description

本出願は、“METHOD AND SYSTEM FOR SELECTING EMBRYOS”と題され、2019年4月4日に出願されたオーストラリア仮特許出願第2019901152号の優先権を主張し、その内容を参照により本明細書に援用する。
本開示は、体外受精(IVF)に関する。特定の形態において、本開示は、胚を選択する方法に関する。
体外受精(IVF)法は、卵子産生を刺激する卵巣刺激相から始まる。次に、卵子(卵母細胞)が患者から回収され、接合子を形成するために、卵子(卵母細胞)を囲む糖タンパク質層である透明帯に侵入する精子と体外受精させられる。胚が約5日間にわたって発生し、その後、胚は患者に戻すのに適した(栄養膜、胞胚腔、及び内部細胞塊から形成される)胚盤胞を形成する。約5日目には、胚盤胞は依然として透明帯によって囲まれており、そこから胚盤胞は孵化し、次に、子宮内膜壁に着床する。ここでは、透明帯の内面によって境界がつけられた領域を透明帯内空洞(InnerZonal Cavity(IZC))と呼ぶ。移植時点における最良の胚の選択は、陽性の妊娠結果を確実にするために重大な意味を持つ。発生学者が顕微鏡を使用して胚を視覚的に評価し、この選択を行う。一部のクリニックは、選択時点において胚の画像を記録し、発生学者が、様々な測定基準及び発生学者の顕微鏡下での視覚的評価に基づき各胚をスコア化することができる。例えば、1つの一般的に使用されるスコアリングシステムは、ガードナースケールであり、ガードナースケールでは、内部細胞塊の質、栄養外胚葉の質、及び胚発生の進歩等の形態学的特徴が評価され、英数字スケールに従って段階分けされる。次に、発生学者は、胚のうち1つ(又はそれ以上)を選択し、次に、その胚は患者に戻される。
このように、胚の選択は、現在、目視検査を介した発生学者による胚の主観的評価を含む手動のプロセスである。胚の段階分けにおける主要な課題の1つは、異なる技能レベルの発生学者間に存在する高レベルの主観性及びオペレーター内及びオペレーター間のばらつきである。これは、標準化が単一の研究所内でさえ困難であり、業界全体では不可能であることを意味する。このように、このプロセスは発生学者の専門知識に大きく依存しており、彼らの最善の努力にもかかわらず、IVFの成功率は依然として(約20%と)比較的低い。妊娠結果が低い理由は複雑であるけれども、最も生存可能な胚をより正確に選択するためのツールは、妊娠結果の成功率を高めることが期待される。
現在までに、着床前遺伝子スクリーニング(PGS)又はタイムラプス写真を含む、発生学者が生存可能な胚を選択するのを支援するいくつかのツールが開発されている。しかし、各アプローチには重大な制限がある。PGSは、生検を行い、次に、抽出した細胞をスクリーニングすることによって、胚由来のいくつかの細胞を遺伝子評価することを含む。これは、妊娠失敗に至る可能性のある遺伝的リスクを特定するのに有用であり得るけれども、これは、生検プロセスの間に胚に害を及ぼす可能性もある。これはまた、高価であり、中国等の多くの大きな発展途上市場では、利用可能性が限られているか又はない。考慮されてきた別のツールは、胚発生の過程にわたるタイムラプスイメージングを使用することである。しかし、これには、多くのクリニックにとって法外な費用がかかる、高価で特殊なハードウェアが必要である。さらに、それが胚の選択を確実に改善することができるという証拠はない。せいぜい、初期段階の胚が成熟した胚盤胞まで発生するかどうかを決定することを支援し得るが、妊娠結果を確実に予測することは実証されておらず、従って、胚の選択に対するその有用性には限界がある。
従って、発生学者が着床のための胚の選択を行うのを支援するための改善されたツールを提供する、又は、少なくとも既存のツール及びシステムに対する有用な代替物を提供する必要がある。
第1の態様によると、画像から胚生存性スコアを推定するように構成された人工知能(AI)モデルを計算的に生成する方法が提供され、当該方法は:
複数の画像及び関連するメタデータを受信するステップであり、各画像は、体外受精(IVF)後の所定の時間窓の間にキャプチャされ、所定の時間窓は、24時間以内であり、画像に関連するメタデータは、少なくとも妊娠結果ラベルを含む、ステップ;
少なくとも、透明帯領域を特定するために画像をセグメントに分けることを含む、各画像を前処理するステップ;
ディープラーニング法を使用して少なくとも1つの透明帯ディープラーニングモデル(Zona Deep Learning Model)を訓練することによって入力画像から胚生存性スコアを生成するように構成された人工知能(AI)モデルを生成するステップであり、透明帯領域が特定された透明帯画像のセットにおいてディープラーニングモデルを訓練することを含み、関連する妊娠結果ラベルが、訓練されたモデルの精度を評価するために少なくとも使用される、ステップ;及び
AIモデルを展開させるステップ;
を含む。
さらなる形態において、透明帯画像のセットは、透明帯領域によって境界がつけられた領域がマスクされた画像を含む。
さらなる形態において、AIモデルを生成するステップは、AIモデルを生成するために、1つ以上のさらなるAIモデルを訓練することであって、各さらなるAIモデルが、胚生存性スコアを推定するために、画像から抽出された1つ以上のコンピュータビジョン記述子の組み合わせを使用する機械学習法を使用して訓練されたコンピュータビジョンモデル、透明帯領域及びIZC領域の両方を含む胚に局在化された画像において訓練されたディープラーニングモデル、及び、透明帯内空洞(IZC)を除いた全ての領域がマスクされたIZC画像のセットにおいて訓練されたディープラーニングモデルのいずれかである、1つ以上のさらなるAIモデルを訓練することと、少なくとも1つの透明帯ディープラーニングモデル及び1つ以上のさらなるAIモデルのうち少なくとも2つを組み合わせて、入力画像からAIモデル胚生存性スコアを生成するためにアンサンブル法を使用すること、又は、少なくとも1つの透明帯ディープラーニングモデル及び1つ以上のさらなるAIモデルを使用して、AIモデルを訓練してAIモデル胚生存性スコアを生成するために蒸留法を使用することと、をさらに含む。
一形態において、AIモデルは、少なくとも1つの透明帯ディープラーニングモデル及び1つ以上のさらなるAIモデルから少なくとも2つの対照的なAIモデルを選択することであり、AIモデルの選択は、対照的なAIモデルのセットを生成するために行われることと、選択された少なくとも2つの対照的なAIモデルをどのように組み合わせて画像に対する結果スコアを生成するかを定める投票戦略を少なくとも2つの対照的なAIモデルに適用することと、を含むアンサンブルモデルを使用して生成される。
さらなる形態では、少なくとも2つの対照的なAIモデルを選択することは、
少なくとも1つの透明帯ディープラーニングモデル及び1つ以上のさらなるAIモデルの各々に対して、画像のセットから胚生存性スコアの分布を生成することと、
分布を比較し、関連する分布が別の分布と類似し過ぎて、対照的な分布を有するAIモデルを選択することができない場合にモデルを廃棄することと、
を含む。
一形態において、所定の時間窓は、受精後5日目に始まる24時間タイマー期間である。一形態において、妊娠結果ラベルは、胚移植後12週間以内に行われるグラウンドトゥルースの妊娠結果測定である。さらなる形態において、グラウンドトゥルースの妊娠結果測定は、胎児の心拍が検出されるかどうかである。
一形態において、当該方法は、複数の画像をクリーニングするステップをさらに含み、複数の画像をクリーニングするステップは、おそらく不正確な妊娠結果ラベルを有する画像を特定することと、特定された画像を排除するか又は再度ラベルすることと、を含む。
さらなる形態では、複数の画像をクリーニングするステップは、画像に関連する妊娠結果ラベルが不正確である可能性を推定することと、閾値と比較し、次に、閾値を超える可能性を有する画像を排除するか又は再度ラベルすることと、を含む。
さらなる形態では、画像に関連する妊娠結果ラベルが不正確である可能性を推定することは、複数のAI分類モデル、及び、複数の画像がkの相互に排他的な検証データセットに分割されるk分割交差検証法を使用することによって行われ、複数のAI分類モデルの各々が、組み合わされたk-1の検証データセットにおいて訓練され、次に、残りの検証データセット内の画像を分類するために使用され、画像の妊娠結果ラベルを誤って分類するAI分類モデルの数に基づき、可能性が決定される。
一形態では、各AIモデルを訓練すること又はアンサンブルモデルを生成することは、少なくとも1つの精度測定基準及び少なくとも1つの信頼度測定基準を含む複数の測定基準、又は、精度及び信頼度を組み合わせる1つの測定基準を使用して、AIモデルの性能を評価することを含む。
一形態では、画像を前処理するステップは、ディープラーニング又はコンピュータビジョン法を使用して画像内の胚を局在化することによって画像をクロップすることをさらに含む。
一形態では、画像を前処理するステップは、画像に対してパディングを行うこと、カラーバランスを正規化すること、輝度を正規化すること、及び画像を既定の解像度にスケール調整することのうち1つ以上をさらに含む。
一形態では、画像に対してパディングを行うことは、画像に対するスクエアアスペクト比を生成するために行われてもよい。一形態において、当該方法は、AIモデルの訓練に使用するための1つ以上の拡張画像を生成するステップをさらに含む。各画像を準備することはまた、変化を有する画像のコピーを作成することによって1つ以上の拡張画像を生成することを含んでもよく、又は、拡張は、画像上で行われてもよく、訓練に先立ち又は訓練中に(オンザフライで)行われてもよい。画像の90度回転、ミラーフリップ、背景色に合わせるために斜めの境界線が埋め込まれている場合の非90度回転、画像ぼかしの量を変えて、強度ヒストグラムを使用して画像のコントラストを調整して、及び、水平方向及び/又は垂直方向の両方における1つ以上の小さなランダム変換、ランダム回転、JPEGノイズ、ランダム画像のサイズ変更、ランダム色相ジッタ、ランダム輝度ジッタ、コントラスト制限付き適応ヒストグラム均等化、ランダムフリップ/ミラー、画像鮮鋭化、画像エンボス処理、ランダム輝度及びコントラスト、RGBカラーシフト、ランダム色相及び飽和、チャンネルシャッフル、RGBからBGR又はRBG又は他のものへのスワップ、粗いドロップアウト、モーションブラー、中央ブラー、ガウスブラー、ランダムシフトスケール回転(すなわち、3つが全て組み合わされたもの)を適用して、任意の数の拡張が行われてもよい。
一形態では、AIモデルの訓練中に、訓練セット内の画像ごとに1つ以上の拡張画像が生成され、検証セットの評価中に、1つ以上の拡張画像に対する結果が組み合わされて、画像に対する単一の結果が生成される。結果は、モデル予測を組み合わせるための、平均信頼度、中央信頼度、大数平均(majority-mean)信頼度、最大信頼度の方法、又は他の投票戦略のうち1つを使用して組み合わされてもよい。
一形態では、画像を前処理するステップは、1つ以上の特徴記述子モデルを使用して画像に注釈を付けることと、記述子のキーポイントの所与の半径内の領域を除いて、画像の全ての領域をマスクすることと、をさらに含んでもよい。1つ以上の特徴記述子モデルは、グレーレベル同時生起行列(GLCM)テクスチャ解析、勾配方向ヒストグラム(HOG)、方向付き加速化断片試験による特徴抽出(FAST)及び回転バイナリロバスト独立基本特徴(BRIEF)、バイナリロバスト不変スケーラブルキーポイント(BRISK)、最大安定極値領域(MSER)、又は追跡に向いた特徴(GFTT)の特徴検出器を含んでもよい。
一形態において、各AIモデルが結果スコアを生成し、結果は、n状態を有するn項の結果であり、AIモデルを訓練することは、複数の訓練検証サイクルを含み、訓練データセットが画像の少なくとも60%を含み、検証データセットが画像の少なくとも10%を含み、ブラインド検証データセットが画像の少なくとも10%を含むように、複数の画像を、訓練セット、検証セット、又はブラインド検証セットのうち1つに無作為に割り当て、画像を訓練セット、検証セット、及びブラインド検証セットに割り当てた後、訓練セット、検証セット、及びブラインド検証セットの各々におけるn項の結果の状態の各々の頻度を計算し、頻度が類似していることをテストし、頻度が類似していない場合は、割り当てを廃棄し、頻度が類似する無作為化が得られるまで、無作為化を繰り返すことをさらに含む。
一形態では、コンピュータビジョンモデルを訓練することは、複数の訓練検証サイクルを行うことを含み、各サイクルの間に、画像は、教師なしクラスタリングアルゴリズムを使用して、コンピュータビジョン記述子に基づきクラスタ化されて、クラスタのセットが生成され、各画像は、画像のコンピュータビジョン記述子の値に基づき距離測度を使用して、クラスタに割り当てられ、教師あり学習法が、これらの特徴の特定の組み合わせが、複数の画像における各コンピュータビジョン記述子の存在の結果尺度(outcome measure)及び頻度情報に対応するかどうかを決定するために使用される。
一形態において、ディープラーニングモデルは、畳み込みニューラルネットワーク(CNN)であってもよく、入力画像に対して、各ディープラーニングモデルは、結果確率を生成する。
一形態において、ディープラーニング法は、最適化サーフェスを修正するように構成された損失関数を使用して、大域最適解(global minima)を強調することができる。損失関数は、ネットワークの重みに関して定められる残差項を含んでもよく、残差項は、モデルからの予測値と各画像に対するターゲットとなる結果における集合的な差をエンコードし、それを、正常の交差エントロピー損失関数へのさらなる寄与として含む。
一形態において、当該方法は、ウェブサーバ、データベース、及び複数の訓練サーバを使用してクラウドベースのコンピューティングシステム上で行われてもよく、ウェブサーバは、ユーザから1つ以上のモデル訓練パラメータを受信し、ウェブサーバは、複数の訓練サーバのうち1つに訓練コードをアップロードすることを含む訓練プロセスを複数の訓練サーバのうち1つ以上で開始し、訓練サーバは、データリポジトリから複数の画像及び関連するメタデータを要求し、各画像を準備するステップ、複数のコンピュータビジョンモデルを生成するステップ、及び複数のディープラーニングモデルを生成するステップを行い、各訓練サーバは、モデルを記憶サービスに、及び精度情報を1つ以上のログファイルに定期的に保存して、訓練プロセスが再始動されるのを可能にするように構成される。さらなる形態において、アンサンブルモデルは、残差(residual inaccuracies)にバイアスをかけて偽陰性を最小化するように訓練されてもよい。
一形態において、結果は、生存可能又は生存不可能のバイナリ結果であり、無作為化は、生存可能の分類及び生存不可能の分類を有する画像の頻度を、訓練セット、検証セット、及びブラインド検証セットの各々において計算すること、及び、それらが類似しているかどうかテストすることを含んでもよい。一形態において、結果尺度は、各画像に関連する生存性分類を使用した胚生存性の尺度である。一形態において、各結果確率は、画像が生存可能である確率であってもよい。一形態において、各画像は位相差画像であってもよい。
第2の態様によると、画像から胚生存性スコアを計算的に生成する方法が提供され、当該方法は:
計算システムにおいて、第1の態様の方法に従って、画像から胚生存性スコアを生成するように構成された人工知能(AI)モデルを生成するステップ;
計算システムのユーザインターフェースを介してユーザから、体外受精(IVF)後の所定の時間窓の間にキャプチャされた画像を受信するステップ;
AIモデルを生成するために使用される前処理するステップに従って、画像を前処理するステップ;
胚生存性スコアの推定値を得るために、前処理された画像をAIモデルに提供するステップ;
ユーザインターフェースを介してユーザに胚生存性スコアを送信するステップ;
を含む。
第3の態様によると、画像から胚生存性スコアを得る方法が提供され、当該方法は:
第1の態様の方法に従って生成された、画像から胚生存性スコアを生成するように構成されたクラウドベースの人工知能(AI)モデルに、体外受精(IVF)後の所定の時間窓の間にキャプチャされた画像を、ユーザインターフェースを介してアップロードするステップ;
ユーザインターフェースを介して、クラウドベースのAIモデルから胚生存性スコアを受信するステップ;
を含む。
第4の態様によると、第1の態様の方法に従って、画像から胚生存性スコアを推定するように構成された人工知能(AI)モデルを計算的に生成するように構成されたクラウドベースの計算システムが提供される。
第5の態様によると、画像から胚生存性スコアを計算的に生成するように構成されたクラウドベースの計算システムが提供され、当該計算システムは:
第1の態様の方法に従って生成された、画像から胚生存性スコアを生成するように構成された人工知能(AI)モデル;
計算システムのユーザインターフェースを介してユーザから、体外受精(IVF)後の所定の時間窓の間にキャプチャされた画像を受信すること;
AIモデルに画像を提供して、胚生存性スコアを得ること;及び
ユーザインターフェースを介してユーザに胚生存性スコアを送信すること;
を含む。
第6の態様によると、画像から胚生存性スコアを生成するように構成された計算システムが提供され、当該計算システムは、少なくとも1つのプロセッサと、少なくとも1つのメモリとを含み、少なくとも1つのメモリは:
体外受精(IVF)後の所定の時間窓の間にキャプチャされた画像を受信する;
第1の態様の方法に従って生成された、画像から胚生存性スコアを生成するように構成されたクラウドベースの人工知能(AI)モデルに、ユーザインターフェースを介して、体外受精(IVF)後の所定の時間窓の間にキャプチャされた画像をアップロードする;
クラウドベースのAIモデルから胚生存性スコアを受信する;
ユーザインターフェースを介して胚生存性スコアを表示する;
ように少なくとも1つのプロセッサを構成するための命令を含む。
本開示の実施形態は、添付の図面を参照して論じられる。
一実施形態による、画像から胚生存性スコアを推定するように構成された人工知能(AI)モデルの生成の概略的な流れ図である。 一実施形態による、画像から胚生存性スコアを推定するように構成されたAIモデルを計算的に生成し且つ使用するように構成されたクラウドベースの計算システムの概略的なブロック図である。 一実施形態による、着床のための胚の選択を支援するために、画像から胚生存性スコアを推定するように構成されたAIモデルを使用したIVF法の概略図である。 一実施形態による、画像から胚生存性スコアを推定するように構成されたAIモデルを生成し且つ使用するように構成されたクラウドベースの計算システムの概略的なアーキテクチャ図である。 一実施形態による、訓練サーバ上のモデル訓練プロセスの概略的な流れ図である。 一実施形態による、ヒト胚の画像上の境界発見のための二値化しきい値処理の概略図である。 一実施形態による、ヒト胚の画像上の境界発見方法の概略図である。 一実施形態による、画像セグメンテーションのために画像の固定領域に適用された幾何学的動的輪郭(GAC)モデルの使用例である。 一実施形態による、画像セグメンテーションのために画像の固定領域に適用されたモルフォロジカルスネークの使用例である。 一実施形態による、セマンティックセグメンテーションモデルに対するU-Netアーキテクチャの概略的なアーキテクチャ図である。 5日目の胚の画像を示した図である。 正方形画像を作成する図6Dのパディングが行われたバージョンを示した図である。 一実施形態による、IZCがマスクされた図6Eに基づく透明帯画像を示した図である。 一実施形態による、透明帯及び背景がマスクされた図6Eに基づくIZC画像を示した図である。 グレーレベル同時生起行列(GLCM)のプロットを示した図であり、関連する実施形態による、6つの透明帯領域及び6つの細胞質領域のセットに対して計算された、サンプル特徴記述子:ASM、均一性、相関、コントラスト、及びエントロピーのGLCM相関を示している。 一実施形態による、訓練後に入力画像を予測に変換する畳み込み層を含む、ディープラーニング法の概略的なアーキテクチャ図である。 一実施形態による、胚生存性の特定におけるアンサンブルモデルの一実施形態の精度のプロットを示した図である。 胚生存性を正確に特定することにおける、世界トップレベルの発生学者(臨床医)と比較したアンサンブルモデルの一実施形態の精度を示す棒グラフを示した図である。 アンサンブルモデルの評価が不正確であった場合の胚生存性を正確に特定する発生学者と比較した、発生学者の評価が不正確であった場合の胚生存性を正確に特定することにおける、世界トップレベルの発生学者(臨床医)と比較したアンサンブルモデルの一実施形態の精度を示す棒グラフを示した図である。 研究1のブラインド検証データセットに適用した場合の、アンサンブルモデルの一実施形態を使用した、生存可能な胚(成功した臨床妊娠)に対する推論スコアの分布のプロットを示した図である。 研究1のブラインド検証データセットに適用した場合の、アンサンブルモデルの一実施形態を使用した、生存不可能な胚(不成功の臨床妊娠)に対する推論スコアの分布のプロットを示した図である。 全ブラインドデータセットにわたる発生学者のスコアから得られたランクのヒストグラムである。 全ブラインドデータセットにわたるアンサンブルモデル推論の一実施形態から得られたランクのヒストグラムである。 1から5までのランクバンディング内に配置される前の、アンサンブルモデル推論のヒストグラムである。 研究2のブラインド検証データセットに適用した場合の、アンサンブルモデルを使用した、生存可能な胚(成功した臨床妊娠)に対する推論スコアの分布のプロットを示した図である。 研究2のブラインド検証データセットに適用した場合の、アンサンブルモデルを使用した、生存不可能な胚(不成功の臨床妊娠)に対する推論スコアの分布のプロットを示した図である。 研究3のブラインド検証データセットに適用した場合の、アンサンブルモデルを使用した、生存可能な胚(成功した臨床妊娠)に対する推論スコアの分布のプロットを示した図である。 研究3のブラインド検証データセットに適用した場合の、アンサンブルモデルを使用した、生存不可能な胚(成功した臨床妊娠)に対する推論スコアの分布のプロットを示した図である。
以下の説明において、同様の参照符号は、図全体を通して、同様の又は対応する部分を示している。
図1A、1B、及び2を参照すると、胚の単一画像から胚生存性スコアを推定するように構成された人工知能(AI)モデル100を計算的に生成し且つ使用するように構成されたクラウドベースの計算システム1の実施形態が、次に論じられる。このAIモデル100は、胚生存性評価モデルとしても参照される。図1Aは、一実施形態による、クラウドベースの計算システム1を使用した、AIモデル100の生成の概略的な流れ図である。複数の画像及び関連するメタデータが、1つ以上のデータソース101から受信(又は取得)される。各画像は、受精後5日目に開始される24時間等、体外受精(IVF)後の所定の時間窓の間にキャプチャされる。画像及びメタデータは、IVFクリニックから供給されてもよく、位相差画像を含む、光学顕微鏡を使用してキャプチャされた画像であってもよい。メタデータには、妊娠結果ラベル(例えば、IVF後の最初のスキャンで検出された心拍等)が含まれ、様々な他の臨床情報及び患者情報が含まれてもよい。
次に、画像は前処理され(102)、この前処理には、画像の透明帯領域を特定するために画像をセグメントに分けることが含まれる。セグメンテーションはまた、透明帯領域によって囲まれた透明帯内空洞(IZC)の特定を含んでもよい。画像の前処理はまた、以下に論じられるように、物体検出、アルファチャンネル削除、パディング、クロッピング/局在化、カラーバランスの正規化、輝度の正規化、及び/又は画像の所定の解像度へのスケール調整のうち1つ以上(又は全て)を含んでもよい。画像の前処理はまた、画像からコンピュータビジョン特徴記述子を計算/決定すること、及び、1つ以上の画像拡張を行うこと又は1つ以上の拡張画像を生成することを含んでもよい。
入力画像から胚生存性スコアを生成するように構成された人工知能(AI)モデル100を生成するために(104)、少なくとも1つの透明帯ディープラーニングモデルが、透明帯画像のセットにおいて訓練される(103)。透明帯画像のセットは、(例えば、ステップ102におけるセグメンテーションの間に)透明帯領域が特定された画像である。一部の実施形態において、透明帯画像のセットは、透明帯領域を除いて画像の全ての領域がマスクされる画像である(すなわち、そのためディープラーニングモデルは、透明帯領域からの/透明帯領域に関連する情報においてのみ訓練される)。妊娠結果ラベルは、少なくとも、訓練されたモデルの評価に(すなわち、精度/性能を評価するために)使用され、また、(例えば、モデル最適化を駆動するための損失関数による)モデル訓練に使用されてもよい。複数の透明帯ディープラーニングモデルを訓練することができ、最も優れた性能のモデルをAIモデル100として選択することができる。
別の実施形態では、1つ以上のさらなるAIモデルが、前処理された画像において訓練される(106)。これらは、胚画像において及び/又はIZCを除いて画像の全ての領域がマスクされたIZC画像のセットにおいて直接訓練されたさらなるディープラーニングモデル、又は、画像から胚生存性スコアを生成するために、前処理ステップ(102)において生成されるコンピュータビジョン特徴/記述子を組み合わせるように訓練されたコンピュータビジョン(CV)モデルであってもよい。コンピュータビジョンモデルの各々は、画像から抽出された1つ以上のコンピュータビジョン記述子の組み合わせを使用して、画像内の胚の胚生存性スコアを推定し、機械学習法は、複数の訓練検証サイクルを行って、CVモデルを生成する。同様に、ディープラーニングモデルの各々は、各ディープラーニングモデルが、画像内の胚の胚生存性スコアを推定する方法を学習するように、複数の訓練検証サイクルで訓練される。訓練の間、画像は、訓練セット、検証セット、及びブラインド検証セットの各々に無作為に割り当てられてもよく、各訓練検証サイクルは、訓練セット、検証セット、及びブラインド検証セットの各々における複数の画像の(さらなる)無作為化を含む。すなわち、各セット内の画像は、サイクルごとに無作為にサンプリングされるため、サイクルごとに、異なる画像のサブセットが分析されるか又は異なる順序で分析される。しかし、画像は無作為にサンプリングされるため、これは2つ以上のセットが同一であることを可能にするが、これは無作為な選択プロセスを介して発生するという条件であることに留意されたい。
次に、ステップ104においてAUモデル100を生成するために、アンサンブル、蒸留、又は他の類似の技術を使用して、複数のAIモデルは、単一のAIモデル100に組み合わされる(107)。アンサンブルのアプローチは、利用可能なモデルのセットからモデルを選択すること、及び、選択されたモデルの個々の結果からどのように結果スコアが生成されるかを定める投票戦略を使用することを含む。一部の実施形態において、モデルは、結果の分布を生成するために結果が対比させられることを確実にするように選択される。これらは、好ましくは、優れた結果の分布を確実にするために、可能な限り独立している。蒸留法では、複数のAIモデルを教師として使用して単一の生徒モデルを訓練し、この生徒モデルが、最終的なAIモデル100になる。
ステップ104において、最終的なAIモデルが選択される。これは、ステップ103において訓練された透明帯ディープラーニングモデルの1つであってもよく、又は、アンサンブル、蒸留、若しくは類似の組み合わせステップ(ステップ107)を使用して得られたモデルであってもよく、訓練は、(103からの)少なくとも1つの透明帯ディープラーニングモデル及び1つ以上のさらなるAIモデル(ディープラーニング及び/又はCV;ステップ106)を含む。最終的なAIモデル100が生成される(104)と、これは、例えば、光学顕微鏡を使用してIVFクリニックでキャプチャされた5日目の胚の位相差画像を受信するように構成されたクラウドサーバ上で、運用上の使用のために展開されて、入力画像から胚生存性スコアを推定する(105)。これは、図2においてさらに例示され、以下に論じられる。一部の実施形態において、展開は、モデルの重み及び関連するモデルのメタデータを、演算計算システムに転送され且つ訓練されたモデルを再現するためにアップロードされるファイルに書き込むことによって等、訓練されたモデルを保存又はエクスポートすることを含む。展開はまた、訓練されたモデルを、1つ以上のクラウドベースのサーバ、又はIVFクリニックにおけるローカルベースのコンピュータサーバ等の演算計算システム上に移動、コピー、又は複製することを含んでもよい。一実施形態において、展開は、例えば、画像を受信し、受信した画像上で訓練されたモデルを実行し、結果をソースに送り返すために、又は後の検索のために結果を格納するためにインターフェースを加えることによって、新しい画像を受け入れ、訓練されたモデルを使用して生存性の推定値を生成するように、AIモデルが訓練された計算システムを再構成することを含んでもよい。展開されるシステムは、入力画像を受信し、AIモデルを生成するために使用される任意の前処理ステップを行うように構成される(すなわち、そのため新しい画像は、訓練された画像と同じ方法で前処理される)。一部の実施形態において、画像は、クラウドシステムへのアップロードに先立ち前処理(すなわち、局所的に前処理)されてもよい。一部の実施形態において、前処理は、ローカルシステムとリモート(例えば、クラウド)システムとの間で分散されてもよい。展開されるモデルは画像上で遂行又は実行されて、胚生存性スコアを生成し、胚生存性スコアは、次に、ユーザに提供される。
図1Bは、クラウドベースの計算システム1の概略的なブロック図であり、クラウドベースの計算システム1は、画像から胚生存性スコアを推定するように構成されたAIモデル100(すなわち、胚生存性評価モデル)を計算的に生成し、次に、このAIモデル100を使用して、受信した画像の生存性の推定(又は評価)である胚生存性スコア(すなわち、結果スコア)を生成するように構成される。入力10は、生存性分類を生成するために使用され得る、胚の画像及び妊娠結果情報(例えば、IVF後の最初の超音波スキャンで検出された心拍、出生若しくは未出生、又は成功した着床)等のデータを含む。これは、AIモデルを作成及び訓練するモデル作成プロセス20への入力として提供される。これらは、透明帯ディープラーニングモデル(103)を含み、一部の実施形態では、さらなるディープラーニングモデル及び/又はコンピュータビジョンモデル(106)も含む。モデルは、セグメントに分けられたデータセット(例えば、透明帯画像、IZC画像等)及び妊娠結果データの使用を含む種々の方法及び情報を使用して訓練されてもよい。複数のAIモデルが訓練される場合には、妊娠結果情報に基づき等、一部の基準に従って、最も優れた性能のモデルが選択されてもよく、又は、複数のAIモデルは、AIモデルを選択して投票戦略に基づき結果を生成するアンサンブルモデルを使用して組み合わされてもよく、若しくは、複数のAIモデルを教師として使用して生徒AIモデルを訓練する蒸留法が使用されてもよく、若しくは、一部の他の類似の方法が、複数のモデルを組み合わせて単一のモデルにするために使用されてもよい。モデルモニタと呼ばれるクラウドベースのモデル管理及びモニタリングツール21が、AIモデルを作成(又は生成)するために使用される。これは、画像分析に特有であるモデルの訓練、ロギング、及びトラッキング及びそのモデルを管理するAmazon Web Services(AWS)等の一連のリンクされたサービスを使用する。他のクラウドプラットフォーム上の他の類似のサービスが使用されてもよい。これらは、ディープラーニング法22、コンピュータビジョン法23、分類法24、統計法25、及び物理学に基づくモデル26を使用することができる。モデル生成は、例えば、コンピュータビジョンモデルにおいてどのような特徴を抽出し、使用するかについてのもの等、発生学者、コンピュータ科学者、科学/技術文献等からのもの等、入力としてドメイン専門知識12を使用することもできる。モデル作成プロセスの出力は、検証された胚評価モデルとも呼ばれるAIモデル(100)の一例である。
ユーザ40のためにシステムにユーザインターフェース42を提供するクラウドベースのデリバリープラットフォーム30が使用される。これは、図2を参照してさらに例示され、図2は、一実施形態による、着床のための胚の選択を支援する胚生存性スコアを生成するために、事前学習されたAIモデルを使用するIVF法200の概略図である。0日目に、回収した卵子が受精させられる(202)。これらは、次に、数日間in vitroで培養され、次に、例えば位相差顕微鏡を使用して胚の画像がキャプチャされる(204)。以下に論じられるように、体外受精の5日後に撮影された画像は、それよりも前の日に撮影された画像よりも良好な結果をもたらすことが一般的に分かっている。従って、好ましくは、モデルは、5日目の胚において訓練及び使用されるが、モデルは、特定の時代に関して特定の時間窓の間に得られた胚において訓練及び使用され得ることが理解されたい。一実施形態において、時間は24時間であるが、12時間、36時間、又は48時間等の他の時間窓を使用することもできる。さらなる外観の類似性を確実にするためには、一般的に24時間以下の短い時間窓が好ましい。一実施形態において、これは、その日の始まり(0:00)からその日の終わり(23:39)までの24時間の窓である特定の日、又は4又は5日目(4日目の始まりから始まる48時間の窓)等の特定の日であり得る。或いは、時間窓は、5日目を中心とした24時間(すなわち、4.5日目から5.5日目)等、窓サイズ及び時代を定めることができる。時間窓は、少なくとも5日間等、下限を有して変更可能であり得る。上述したように、5日目あたりの24時間の時間窓からの胚の画像を使用することが好ましいけれども、3日目又は4日目の画像を含むそれよりも早い段階の胚を使用することができるということが理解されたい。
典型的には、いくつかの卵子が同時に受精させられることになり、従って、どの胚が着床に最も適しているか(すなわち、最も生存可能であるか)を考慮するために、複数の画像のセットが得られることになる。ユーザは、例えば「ドラッグアンドドロップ」機能を使用して、ユーザインターフェース42を介して、キャプチャされた画像をプラットフォーム30にアップロードする。ユーザは、例えば、複数の胚のセットからどの胚が着床に対して考慮されるかの選択を支援するために、単一の画像又は複数の画像をアップロードすることができる。プラットフォーム30は、画像リポジトリを含むデータベース36に格納される1つ以上の画像を受信する(312)。クラウドベースのデリバリープラットフォームは、画像前処理(例えば、物体検出、セグメンテーション、パディング、正規化、クロップ、中央寄せ等)を行い、次に、処理された画像を、オンデマンドのクラウドサーバ32のうち1つで実行されて胚生存性スコアを生成する(314)訓練されたAI(胚生存性評価)モデル100に提供することができるオンデマンドのクラウドサーバ32を含む。胚生存性スコアを含むレポートが生成され(316)、これは、ユーザインターフェース42を介して等、ユーザ40に送られるか、又は他の方法で提供される。ユーザ(例えば、発生学者等)は、ユーザインターフェースを介して胚生存性スコアを受け取り、次に、その生存性スコアを使用して、その胚を着床させるかどうか、又は着床させるのにセット内のどれが最良の胚であるかの決定を支援することができる。次に、選択された胚は着床させられる(205)。AIモデルのさらなる改良を支援するために、着床後(通常は受精後6~10週頃)の最初の超音波スキャンにおける心拍の検出(又は不検出)等の妊娠結果データをシステムに提供することができる。これは、さらなるデータが利用可能になったときに、AIモデルが再訓練及び更新されるのを可能にする。
画像は、既存のIVFクリニックで見られるもの等、様々なイメージングシステムを使用してキャプチャされてもよい。これは、IVFクリニックが新しいイメージングシステムを購入するか又は特定のイメージングシステムを使用する必要がないという利点を有する。イメージングシステムは、典型的には、胚の単相コントラスト画像をキャプチャするように構成された光学顕微鏡である。しかし、他のイメージングシステム、特に、様々なイメージングセンサ及び画像キャプチャ技術を使用する光学顕微鏡システムを使用することができるということが理解されることになる。これらには、位相差顕微鏡、偏光顕微鏡、微分干渉(DIC)顕微鏡、暗視野顕微鏡、及び明視野顕微鏡が含まれてもよい。画像は、カメラ又は画像センサを備え付けた従来の光学顕微鏡を使用してキャプチャされてもよく、又は、画像は、スマートフォンシステムを含む、高解像度又は高倍率の画像を撮影することができる一体型光学系を有するカメラによってキャプチャされてもよい。画像センサは、CMOSセンサチップ又は電荷結合素子(CCD)であってもよく、各々が関連する電子機器を有する。光学系は、特定の波長を収集するか、又は特定の波長を収集(又は排除)するためのバンドパスフィルタを含むフィルタを使用するように構成されてもよい。一部の画像センサは、特定の波長の光、又は赤外線(IR)若しくは近赤外線を含む光学範囲を超える波長の光に対して動作又は感受性を有するように構成されてもよい。一部の実施形態において、イメージングセンサは、複数の異なる波長範囲で画像を収集するマルチスペクトルカメラである。照明システムはまた、特定の波長、特定の波長バンド、又は特定の強度の光で胚を照射するために使用されてもよい。ストップ及び他の構成要素が、画像の特定の部分(又は画像平面)への照明を制限又は修正するために使用されてもよい。
さらに、本明細書において記載される実施形態で使用される画像は、ビデオ及びタイムラプスイメージングシステムから供給されてもよい。ビデオストリームは、画像フレーム間の間隔がキャプチャフレームレート(例えば、1秒あたり24又は48フレーム等)によって定められる周期的な画像フレームのシーケンスである。同様に、タイムラプスシステムは、非常に遅いフレームレート(例えば、1時間あたり1枚の画像)で画像のシーケンスをキャプチャして、胚が成長するに従い(受精後の)画像のシーケンスを得る。従って、本明細書において記載される実施形態で使用される画像は、胚のビデオストリーム又は画像のタイムラプスシーケンスから抽出された単一の画像であってもよいことが理解されることになる。画像がビデオストリーム又はタイムラプスシーケンスから抽出される場合、使用することになる画像は、受精後5.0日又は5.5日等の基準時点に最も近いキャプチャ時間を有する画像として選択されてもよい。
一部の実施形態において、前処理は、画像が画質評価事項を満たさない場合にその画像が排除され得るように、画質評価を含んでもよい。元の画像が画質評価事項を満たさない場合に、さらなる画像をキャプチャすることができる。画像がビデオストリーム又はタイムラプスシーケンスから選択される実施形態において、選択された画像は、基準時間に最も近い画質評価を通過する最初の画像である。或いは、基準時間窓を、画質基準と共に(例えば、5.0日目の始まりから30分後等と)定めることができる。この実施形態において、選択される画像は、基準時間窓の間に最も高い画質を有する選択された画像である。画質評価を行う際に使用される画質基準は、ピクセルの色の分布、輝度範囲、及び/又は低い画質若しくは装置故障を示す異常な画像特性又は特徴に基づいてもよい。閾値が、基準の画像セットを分析することによって決定されてもよい。これは、手動の評価、又は分布から外れ値を抽出する自動システムに基づき得る。
AI胚生存性評価モデル100の生成は、図3Aを参照してさらに理解することができ、図3Aは、一実施形態による、画像から胚生存性スコアを推定するように構成されたAIモデル100を生成及び使用するように構成されたクラウドベースの計算システム1の概略的なアーキテクチャ図である。図1Bを参照すると、AIモデル生成方法は、モデルモニタ21によって処理される。
モデルモニタ21は、ユーザ40が画像データ及びメタデータ14を、データリポジトリを含むデータ管理プラットフォームに提供するのを可能にする。データ準備ステップは、例えば、画像を特定のフォルダに移動させるため、及び、画像の名前を変更し、画像に対して、物体検出、セグメンテーション、アルファチャンネル削除、パディング、クロッピング/局在化、正規化、スケーリング等の前処理を行うために行われる。特徴記述子を計算し、拡張した画像を予め生成することもできる。しかし、拡張を含むさらなる前処理を、訓練中に(すなわち、オンザフライで)行うこともできる。明らかに劣った画像の拒絶を可能にし、さらに、置き換え画像の捕捉を可能にするために、画像は画質評価を受けることもできる。同様に、患者記録又は他の臨床データを、(例えば生存可能又は生存不可能等の)追加の胚生存性分類に対して処理(準備)して、これは、AIモデルの訓練及び/又は評価における使用を可能にするために、各画像にリンク又は関連付けられる。準備したデータは、最新バージョンの訓練アルゴリズムと共に、クラウドプロバイダ(例えばAWS等)のテンプレートサーバ28にロードされる(16)。テンプレートサーバは保存され、訓練サーバ35を形成するCPU、GPU、ASIC、FPGA、又はTPU(テンソルプロセッシングユニット)ベースであってもよい様々な訓練サーバクラスタ37にわたって複数のコピーが作成される。モデルモニタのウェブサーバ31は、次に、ユーザ40によってジョブが提出されるごとに、複数のクラウドベースの訓練サーバ35からの訓練サーバ37に適用される。各訓練サーバ35は、Pytorch、Tensorflow、又は同等物等のライブラリを使用して、AIモデルを訓練するために(テンプレートサーバ28からの)予め準備されたコードを実行し、OpenCV等のコンピュータビジョンライブラリを使用することができる。PyTorch及びOpenCVは、CV機械学習モデルを構築するための低レベルコマンドを有するオープンソースライブラリである。
訓練サーバ37は、訓練プロセスを管理する。これは、例えば、無作為割当プロセスを使用して、画像を訓練セット、検証セット、及びブラインド検証セットに分割することを含んでもよい。さらに、訓練検証サイクルの間に、訓練サーバ37は、サイクルごとに異なる画像のサブセットが分析されるか又は異なる順序で分析されるように、サイクルの開始時に画像のセットを無作為化することもできる。前処理が以前に行われなかったか、又は(例えば、データ管理の間に)不完全であった場合、物体検出、セグメンテーション、及びマスクされたデータセット(例えば、透明帯だけの画像、又はIZCだけの画像等)の生成、CV特徴記述子の計算/推定、及びデータ拡張の生成を含むさらなる前処理が行われてもよい。前処理はまた、必要に応じて、パディング、正規化等を含んでもよい。すなわち、前処理ステップ102が、訓練に先立ち、訓練中、又は何らかの組み合わせで(すなわち、分散された前処理で)行われてもよい。実行されている訓練サーバ35の数は、ブラウザインターフェースから管理することができる。訓練が進行するに従い、訓練の状態に関するロギング情報が、クラウドウォッチ60等の分散されたロギングサービスに記録される(62)。鍵となる患者情報及び精度情報もログから解析され、関係データベース36に保存される。モデルも、(例えば、エラー又は他の停止の場合に再始動するために)後日検索及びロードすることができるように、データストレージ(例えば、AWS Simple Storage Service(S3)又は類似のクラウドストレージサービス)50に定期的に保存される(51)。訓練サーバのジョブが完了した場合又はエラーに遭遇した場合に、訓練サーバのステータスに関する電子メール更新がユーザ40に送信される(44)。
各訓練クラスタ37内では、多数のプロセスが行われる。クラスタがウェブサーバ31を介して開始されると、スクリプトが自動的に実行され、これは、準備された画像及び患者記録を読み取り、要求された特定のPytorch/OpenCV訓練コードを開始する(71)。モデル訓練に対する入力パラメータ28が、ブラウザインターフェース42を介して又は構成スクリプトを介してユーザ40によって供給される。次に、訓練プロセス72は、要求されたモデルパラメータに対して開始され、長くて集中的なタスクであり得る。従って、訓練の進行中に進行を失わないように、ログは、ロギング(例えばAWSクラウドウォッチ)サービス60に定期的に保存され、モデルの現在のバージョンは(訓練されながら)、後の検索及び使用のためにデータ(例えばS3)ストレージサービスに保存される(51)。訓練サーバ上のモデル訓練プロセスの概略的な流れ図の一実施形態が図3Bにおいて示されている。データ記憶サービス上の様々な訓練されたAIモデルが入手可能で、例えば、アンサンブル、蒸留、又は類似のアプローチを使用して複数のモデルを組み合わせて、様々なディープラーニングモデル(例えば、PyTorch等)及び/又は目標とされたコンピュータビジョンモデル(例えば、OpenCV等)を組み込んで、クラウドベースのデリバリープラットフォーム30に提供されるロバストなAIモデル100を生成することができる。
次に、クラウドベースのデリバリープラットフォーム30システムは、ユーザ10がウェブアプリケーション34に直接画像をドラッグアンドドロップするのを可能にし、ウェブアプリケーション34は、画像を準備し、胚生存性スコアを得るために訓練された/検証されたAIモデル100に画像を渡し、(図2において示されているように)胚生存性スコアは直ちにレポートに戻される。ウェブアプリケーション34は、クリニックが画像及び患者情報等のデータをデータベース36に格納し、データに関する種々のレポートを作成し、それらの組織、グループ、又は特定のユーザのためのツールの使用だけでなく、請求書及びユーザアカウント(例えば、ユーザを作成する、ユーザを削除する、パスワードをリセットする、アクセスレベルを変更する等)に関する監査報告を作成することも可能にする。クラウドベースのデリバリープラットフォーム30は、製品管理者がシステムにアクセスして、新しい顧客アカウント及びユーザを作成し、パスワードをリセットするだけでなく、(データ及び画面を含む)顧客/ユーザアカウントにアクセスして、技術サポートを容易にするのも可能にする。
画像から胚生存性スコアを推定するように構成されたAIモデルの実施形態の生成における様々なステップ及びバリエーションが、次に、さらに詳細に論じられる。図1Aを参照すると、モデルは、訓練され、受精後5日目(すなわち、5日目:00:00から5日目:23:59までの24時間)にキャプチャされた画像を使用している。検証されたモデルに関する研究が、受精後4日目に撮影された画像と比較される受精後5日目に撮影された画像を使用して、モデルの性能が有意に改善されることを示している。しかし、上述のように、12時間等のより短い時間窓、又は3日目若しくは4日目等の他の日に撮影された画像、又は少なくとも5日目等の受精後の最短時間(例えば、オープンエンドの時間窓等)を使用して、効果的なモデルを依然として開発することができる。正確な時間窓(例えば、4日目又は5日目)よりもおそらく重要なことは、AIモデルの訓練のために使用される画像、及び訓練されたAIモデルによるその後の分類に使用される画像が、類似の、好ましくは同じ時間窓(例えば、同じ12又は24時間窓)の間に撮影されることである。
分析に先立ち、各画像は、少なくとも、透明帯領域を特定するために画像をセグメントに分けることを含む前処理(画像準備)手順を受ける(102)。様々な前処理ステップ又は技術が適用されてもよい。これらは、データ記憶装置14に追加した後に、又は訓練サーバ37による訓練中に行われてもよい。一部の実施形態において、胚に対する画像の位置を検出及び特定するために物体検出(局在化)モジュールが使用される。物体検出/局在化は、胚を含むバウンディングボックスを推定することを含む。これは、画像のクロッピング及び/又はセグメンテーションのために使用することができる。また画像には、所与の境界でパディングが行われてもよく、次に、カラーバランス及び輝度が正規化される。画像は、次に、胚の外側の領域が画像の境界に近くなるようにクロップされる。これは、AI物体検出モデルの使用を含む、境界選択のためのコンピュータビジョン技術を使用して達成される。画像セグメンテーションは、透明帯及び透明帯内空洞(IZC)等の着目されることになるモデル訓練に関連する領域を選ぶために、特定のモデルに対する画像を準備するのに有用なコンピュータビジョン技術である。画像は、透明帯のみの(すなわち、透明帯の境界をクロップし、IZCをマスクする)画像(図6Fを参照されたい)又はIZCのみの(すなわち、IZCの境界をクロップして透明帯を排除する)画像(図6G)を生成するためにマスクされてもよい。背景は、画像内に残されてもよく、又は、マスクされてもよい。次に、胚生存性モデルは、例えば、透明帯及び画像の背景のみを有するようにマスクされた透明帯画像及び/又はIZCのみを有するようにマスクされたIZC画像等、マスクされた画像のみを使用して訓練されてもよい。スケーリングは、訓練されている特定のモデルに合うように、既定のスケールに画像を再スケーリングすることを含む。拡張は、胚用ディッシュの方向を制御するために、画像の回転等、画像のコピーへの少しの変更を組み込むことを含む。ディープラーニングに先立つセグメンテーションの使用は、ディープラーニング法の性能に有意な影響を及ぼすことが分かった。同様に、拡張は、ロバストなモデルを生成するために重要であった。
様々な画像前処理技術を、AIモデルの訓練に先立ち、ヒト胚画像の準備のために使用することができる。これらには:
アルファチャンネルストリッピングであって、例えば透明マップを除去するために、アルファチャンネルの画像を(存在する場合に)ストリップして、3チャンネルフォーマット(例えば、RGB等)でコードされることを確実にすることを含む、アルファチャンネルストリッピング;
セグメンテーション、クロッピング、又は境界発見に先立ち、スクエアアスペクト比を生成するために、パディング境界線で各画像にパディング/ボルスタリングを行うことであって、このプロセスは、画像寸法に一貫性があり、比較可能であり、且つ、典型的には入力として正方形の画像を必要とするディープラーニング法に適合性があることを確実にする一方、画像の主要な構成要素がクロップされないことも確実にすること;
画像全てに対する固定平均値にRGB(赤-緑-青)又はグレースケール画像を正規化することであって、例えば、これは、各RGBチャンネルの平均をとり、各チャンネルをその平均値で割ることを含み、次に、RGB空間における各画像の平均値が(100,100,100)であることを確実にするために、各チャンネルに100/255の固定値を掛け、このステップによって、画像間のカラーバイアスが抑制されること、及び各画像の輝度が正規化されることが確実になること;
バイナリ法、大津法、又は適応法を使用した画像のしきい値処理であって、膨張(オープニング)、収縮(クロージング)、スケール勾配を使用した、及び、形状の外側及び内側の境界の抽出するためにスケールマスクを使用した画像のモルフォロジー処理を含む、しきい値処理;
物体検出/画像のクロッピングを行って、胚に対する画像の位置を特定し、画像の端の周囲にアーチファクトがないことを確実にすることであって、これは、(透明帯を含む)胚を有するバウンディングボックスを推定するように訓練された(以下に論じられる)物体検出モデルを使用する物体検出器を使用して行われてもよいこと;
例えば、画像の二値化しきい値マップ上で計算された楕円ハフ変換からの最良の楕円当てはめ等、画像輪郭の楕円ハフ変換を使用して境界の幾何学的特性を抽出することであって、この方法は、画像内の胚の硬境界を選択することによって、並びに、新しい楕円の最長半径が新しい画像の幅及び高さによって包含されるように、及び、楕円の中心が新しい画像の中心であるように、新しい画像の正方形境界をクロップすることによって作用すること;
楕円領域の周囲に一貫した境界サイズを有する一貫して中心を持つ画像を確実にすることによって画像をズームすること;
画像をセグメントに分けて透明帯領域及び細胞質の透明帯内空洞(IZC)領域を特定することであって、セグメンテーションは、所与の領域内で幾何学的動的輪郭(GAC)モデル又はモルフォロジカルスネークを使用して非楕円画像の周囲の最良当てはめ輪郭を計算することによって行われてもよく、スネークの内側及び他の領域は、胚盤胞を有し得る細胞質(透明帯内空洞)領域又は透明帯領域上の訓練されたモデルの着目点に応じて異なって処理することができ、或いは、画像内のピクセルごとにクラスを特定するセマンティックセグメンテーションモデルが訓練されてもよく、一実施形態では、セマンティックセグメンテーションモデルを、透明帯及びIZCをセグメントに分けるために事前学習されたResNet-50エンコーダを有するU-Netアーキテクチャを使用して展開させ、バイナリ交差エントロピー損失関数を使用してこのモデルを訓練したこと;
特徴記述子を選択することによって画像に注釈を付け、記述子のキーポイントの所与の半径内のものを除いて、画像の全ての領域をマスクすること;
指定された解像度に画像のセット全体をリサイズ/スケール調整すること;並びに
視覚的に表示可能な画像ではなくテンソルに各画像を変換することを含むテンソル変換であって、これは、このデータフォーマットが、ディープラーニングモデルによってより使用可能であるためであり、一実施形態において、テンソル正規化は、平均(0.485,0.456,0.406)及び標準偏差(0.299,0.224,0.225)で、標準的な事前学習されたImageNet値から得られた、テンソル変換;
が含まれる。
図4は、一実施形態による、ヒト胚の画像上の境界発見のための二値化しきい値処理400の概略図である。図4は、同じ画像に適用された8つの二値化しきい値処理、すなわち、レベル60、70、80、90、100、110(それぞれ、画像401、402、403、404、405、406)、適応型ガウス407、及び大津型ガウス408を示している。図5は、一実施形態による、ヒト胚の画像上の境界発見方法500の概略図である。第1のパネルは、外側の境界501、内側の境界502、並びに検出された内側の境界及び外側の境界を有する画像503を示している。内側の境界502は、IZC境界にほぼ対応し、外側の境界501は、透明帯領域の外縁にほぼ対応し得る。
図6Aは、一実施形態による、画像セグメンテーションのために画像の固定領域に適用された幾何学的動的輪郭(GAC)モデルの使用例600である。青色の実線601は、透明帯領域の外側の境界であり、緑色の破線602は、透明帯領域の縁及び細胞質(透明帯内空洞又はIZC)領域を画定する内側の境界を示している。図6Bは、画像セグメンテーションのために画像の固定領域に適用されたモルフォロジカルスネークの使用例である。ここでも、青色の実線611は、透明帯領域の外側の境界であり、緑色の破線612は、透明帯領域の縁及び細胞質(内側の)領域を画定する内側の境界を示している。この第2の画像では、(細胞質の透明帯内空洞領域を画定する)境界612は、右下の四分円において隆起又は突出部を有する不規則な形状を有している。
別の実施形態において、物体検出器は、胚を有するバウンディングボックスを推定するように訓練された物体検出モデルを使用する。物体検出の目標は、その物体に関連するピクセルの全てを有する最も大きなバウンディングボックスを特定することである。これは、モデルが、物体の位置及びカテゴリ/ラベル(すなわち、ボックス内に何があるか)の両方をモデル化することを必要とし、従って、検出モデルは、典型的には、物体分類器ヘッド及びバウンディングボックス回帰ヘッドの両方を有する。
1つのアプローチは、高価な探索プロセスを使用する領域ベースの畳み込みニューラルネットワーク(又はR‐CNN)が適用されて、画像パッチ提案(潜在的なバウンディングボックス)を探索することである。次に、これらのバウンディングボックスを使用して、関心のある画像の領域がクロップされる。次に、クロップされた画像には、画像領域の内容を分類するために分類モデルが実行される。このプロセスは、複雑であり、計算コストが高い。代替案は、画像パッチ提案の探索ではなく、特徴領域を提案したCNNを使用するFast CNNである。このモデルは、CNNを使用して、典型的には100から2000の間に設定された固定数の候補ボックスを推定する。さらに速い代替のアプローチは、アンカーボックスを使用して必要なボックスの探索スペースを制限するFaster RCNNである。デフォルトによって、(各々が異なるサイズの)9つのアンカーボックスの標準セットが使用される。Faster RCNN。これは、関心のある特徴領域を予測するように併せて学習する小さなネットワークを使用し、これは、高価な領域探索を置き換えることができるため、R-CNN又はFast CNNと比較してランタイムを速めることができる。
後ろからくる全ての特徴活性化に対して、1つもモデルが、アンカーポイント(以下の画像では赤)とみなされる。全てのアンカーポイントに対して、9(又は問題に応じてそれ以上、それ以下)のアンカーボックスが生成される。アンカーボックスは、訓練データセット内の共通の物体サイズに対応する。複数のアンカーボックスを有する複数のアンカーポイントが存在するため、これは、数万の領域提案をもたらす。次に、提案には、非最大抑制(Non-Maximal Suppression(NMS))と呼ばれるプロセスを介してフィルタがかけられ、これによって、確信的なより小さなボックスをその中に有する最も大きなボックスが選択される。これは、物体ごとに1つのボックスのみ存在することを確実にする。NMSは各バウンディングボックス予測の信頼性に依存するため、いつ物体を同じオブジェクトインスタンスの一部とみなすかに対して閾値を設定しなければならない。アンカーボックスは物体に完全には適合しないため、回帰ヘッドのジョブは、最良適合バウンディングボックスに変態させるこれらのアンカーボックスへのオフセットを予測することである。
検出器を特殊化することもでき、例えば、歩行者検出器に対して人のみ等、物体のサブセットに対するボックスのみを推定することもできる。関心のない物体のカテゴリは、背景クラスに対応する0クラスにエンコードされる。訓練の間、背景クラスに対するパッチ/ボックスは、通常、バウンディングボックス情報を有さない画像領域から無作為にサンプリングされる。このステップは、モデルがそれらの望ましくない物体に対して不変になるのを可能にし、例えば、それらの物体を不正確に分類するのではなく、それらを無視するということを学習することができる。バウンディングボックスは、通常、2つの異なるフォーマットで表され、最も一般的なのは、(x1,y1,x2,y2)であり、ここで、ポイントp1=(x1,y1)は、ボックスの左上隅であり、p2=(x2,y2)は、右下側である。もう1つの一般的なボックスフォーマットは、(cx,cy,高さ,幅)であり、ここで、バウンディングボックス/矩形はボックスの中心点(cx,cy)及びボックスのサイズ(高さ,幅)としてエンコードされる。検出方法によって、タスク及び状況に応じて異なるエンコーディング/フォーマットを使用する。
回帰ヘッドは、L1損失を使用して訓練されてもよく、分類ヘッドは、交差エントロピー損失を使用して訓練されてもよい。Objectness損失(これは背景であるか又は物体であるか)も使用することができ、最終損失が、これらの損失の合計として計算される。個々の損失はまた、以下のように重み付けされてもよい:
Figure 2022528961000002
一実施形態では、Faster RNNに基づく胚検出モデルを使用した。この実施形態では、約2000の画像を、グラウンドトゥルースバウンディングボックスを用いて手動でラベルした。透明帯領域を含む完全な胚がバウンディングボックスの内側にあるようにボックスをラベルした。二胚移植としても知られる2つ以上の胚が存在する場合には、モデルが二胚移植と単一胚移植とを区別するのを可能にするために、両方の胚をラベルした。どちらの胚が二胚移植のものであるかを一致させることは不可能であるため、二胚移植が検出された場合に、使用に対してエラーを生じさせるようにモデルを構成した。複数の「ローブ」を有するモデルは、単一の胚であるとしてラベルされる。
GACセグメンテーションに代わるものとして、セマンティックセグメンテーションが使用されてもよい。セマンティックセグメンテーションは、全てのピクセルに対してカテゴリ又はラベルを予測しようとするタスクである。セマンティックセグメンテーションのようなタスクは、全ての入力ピクセルに対して出力が必要とされるため、ピクセルごとの高密度予測タスクと呼ばれる。セマンティックセグメンテーションモデルは、全画像出力を必要とするため、標準的なモデルとは異なって設定される。典型的には、セマンティックセグメンテーション(又は任意の高密度予測モデル)は、エンコードモジュール及びデコードモジュールを有することになる。エンコードモジュールは、画像の(特徴表現と呼ばれることもある)低次元表現の作成に対して責任がある。次に、この特徴表現は、デコードモジュールを介して最終出力画像にデコードされる。訓練の間に、(セマンティックセグメンテーションに対する)予測ラベルマップが、次に、各ピクセルにカテゴリを割り当てるグラウンドトゥルースラベルマップと比較され、損失が計算される。セグメンテーションモデルに対する標準的な損失関数は、(問題が複数クラスであるかどうかに応じて)バイナリ交差エントロピー、標準的な交差エントロピー損失のいずれかである。これらの実装は、損失がピクセルごとに(テンソルの画像チャンネル寸法にわたって)適用されることを除いて、それらの画像分類同類(image classification cousins)と同じである。
完全畳み込みネットワーク(FCN)スタイルのアーキテクチャが、一般的なセマンティックセグメンテーションタスクに対してこの分野で一般的に使用されている。このアーキテクチャでは、(ResNet等の)事前学習されたモデルが、第一に、(元の解像度の約1/32であるが、拡張畳み込みが使用される場合には1/8でもあり得る)低解像度画像をエンコードするために使用される。この低解像度ラベルマップは、次に、元の画像解像度までアップサンプリングされ、損失が計算される。低解像度ラベルマップを予測したことの背後にある直観は、セマンティックセグメンテーションマスクが非常に低い頻度であり、より大きなデコーダの余分なパラメータ全てを必要としないということである。セグメンテーション結果を改善するために多段階アップサンプリングを使用する、このモデルのより複雑なバージョンが存在する。簡単に言うと、損失は、各スケールでの予測を洗練させるために、漸進的な様式で複数の解像度で計算される。
このタイプのモデルの1つの欠点は、入力データが高解像度であるか又は高周波情報を有する(すなわち、より小さい/より薄い物体である)場合に、低解像度のラベルマップは、(特に、エンコードモデルが拡張畳み込みを使用しない場合に)これらの小さな構造を捕捉することができないということである。標準的なエンコーダ/畳み込みニューラルネットワークにおいて、入力画像/画像特徴は、モデルが深くなるに従い漸進的にダウンサンプリングされる。しかし、画像/特徴がダウンサンプリングされるに従い、主要な高頻度の詳細が失われる恐れがある。従って、これに取り組むために、エンコーダ及びデコーダの対称的な構成要素間のスキップ接続を代わりに使用する代替のU-Netアーキテクチャを使用することができる。簡単に言うと、全てのエンコードブロックは、デコーダにおいて対応するブロックを有する。次に、各段階における特徴は、最も低い解像度の特徴表現に沿ってデコーダに渡される。デコードブロックの各々について、入力特徴表現は、その対応するエンコードブロックの解像度に一致するようにアップサンプリングされる。次に、エンコードブロック及びアップサンプリングされた低解像度の特徴からの特徴表現は、連結され、2D畳み込み層を通過させられる。このように特徴を連結することによって、デコーダは、各ブロックにおける入力を洗練させるように学習することができ、その入力に応じてどの詳細(低解像度の詳細又は高解像度の詳細)を統合するかを選ぶことができる。
U-Netアーキテクチャの一例620が、図6Cにおいて示されている。FCNスタイルのモデルとU-Netスタイルのモデルとの主な相違点は、FCNモデルにおいて、エンコーダが低解像度のラベルマップを予測し、それを次に(おそらく漸進的に)アップサンプリングすることに対して責任があるということである。一方、U-Netモデルは、最終層まで十分完全なラベルマップの予測を有さない。最終的に、これらのモデルの多くの変形(例えば、ハイブリッド等)が存在し、これらのモデルの相違点をトレードオフする。U-netアーキテクチャは、モデルをゼロから訓練するのには不十分なデータの場合に使用するために、ResNet-18又はResNet-50等の事前学習された重みを使用することもできる。
一部の実施形態において、セグメンテーションを、バイナリ交差エントロピーを使用して訓練された事前学習されたResNet-50エンコーダを用いてU-Netアーキテクチャを使用して行って、透明帯領域及び透明帯内空洞領域を特定した。このU-Netアーキテクチャに基づくセグメンタは、一般的に、動的輪郭に基づくセグメンテーションよりも性能が優れており、特に、より低い画質の画像に対して優れていた。図6D乃至6Fは、一実施形態によるセグメンテーションを例示している。図6Dは、透明帯内空洞(IZC、632)を囲む透明帯領域631を含む5日目の胚630の画像である。この実施形態において、胚は孵化し始めており、ISZが、透明帯から出現(孵化)している。胚は、背景ピクセル633によって囲まれている。図6Eは、ディープラーニング法によってより容易に処理される正方形画像を生成するためにパディングピクセル641、642を加えることによって図6Dから生成されたパディングが行われた画像640である。図6Fは、透明帯631及び背景ピクセル633を残すようにIZC652がマスクされた透明帯画像650を示しており、図6Gは、IZC領域632のみを残して透明帯及び背景661がマスクされたIZC画像660を示している。セグメントに分けられると、所望の領域以外の全ての領域がマスクされた画像セットが生成され得る。次に、AIモデルを、これらの特定の画像セットにおいて訓練することができる。すなわち、AIモデルを2つのグループに分けることができ、すなわち、第一に、さらなる画像セグメンテーションを含むものと、第二に、全体的にセグメントに分けられていない画像を必要とするものに分けることができる。IZCをマスクし、透明帯領域を露出させた画像において訓練されたモデルを、透明帯モデルとして示した。透明帯をマスクした画像において訓練されたモデル(IZCモデルと示した)及び完全胚画像において訓練されたモデル(すなわち、第2のグループ)も、訓練において考慮した。
一実施形態では、各画像の一意性を確実にするために、記録のコピーが結果にバイアスをかけないように、新しい画像の名前は、png(ロスレス)ファイルとして、元の画像内容のハッシュに等しく設定される。実行されると、データパーサーが、出力ディレクトリにおいてすでに存在しないいかなる画像(存在しない場合には作成することになる)に対しても、マルチスレッド方式で画像を出力することになり、従って、長い処理である場合は、中断されたとしても同じポイントからリスタートさせることができる。データ準備ステップはまた、一貫性のない又は矛盾した記録に関連する画像を排除し且ついかなる誤った臨床記録も特定するためにメタデータを処理することを含んでもよい。例えば、スクリプトをスプレッドシート上で実行して、既定のフォーマットにメタデータを適合させることができる。これは、モデルを生成及び訓練するために使用されるデータが高品質なものであり、均一な特徴(例えば、サイズ、色、スケール等)を有するということを確実にする。
一部の実施形態において、データは、おそらく不正確な妊娠結果ラベル(すなわち、誤ってラベルされたデータ)を有する画像を特定すること、及び、特定された画像を排除するか又は再度ラベルすることによってクリーニングされる。一実施形態において、これは、画像に関連する妊娠結果ラベルが不正確である可能性を推定すること、及び、その可能性を閾値と比較することによって行われる。可能性が閾値を超える場合、画像は排除されるか又は再度ラベルされる。妊娠結果ラベルが不正確である可能性を推定することは、複数のAI分類モデル及びk分割交差検証法を使用することによって行われてもよい。このアプローチにおいて、画像は、kの相互に排他的な検証データセットに分割される。複数のAI分類モデルの各々は、組み合わされたk-1検証データセットにおいて訓練され、次に、残りの検証データセットにおける画像を分類するために使用される。次に、その可能性は、画像の妊娠結果ラベルを誤って分類するAI分類モデルの数に基づき決定される。一部の実施形態において、ディープラーニングモデルは、尤度値を学習するためにさらに使用されてもよい。
データが適切に前処理されると、次に、1つ以上のAIモデルを訓練するために使用することができる。一実施形態において、AIモデルは、透明帯を除いて画像の全ての領域が前処理の間にマスクされた透明帯画像のセットにおいて訓練されたディープラーニングモデルである。一実施形態では、複数のAIモデルが訓練され、次に、アンサンブル又は蒸留法を使用して組み合わされる。AIモデルは、1つ以上のディープラーニングモデル及び/又は1つ以上のコンピュータビジョン(CV)モデルであってもよい。ディープラーニングモデルは、完全胚画像、透明帯画像、又はIZC画像において訓練されてもよい。コンピュータビジョン(CV)モデルは、各画像から計算された特徴記述子のセットを使用した機械学習法を使用して生成されてもよく、個々のモデルの各々は、画像における胚の胚生存性スコアを推定するように構成され、AIモデルは、選択されたモデルを組み合わせて、AIモデルによって戻される全体的な胚生存性スコアを生成する。
訓練は、無作為化されたデータセットを使用して行われる。複雑な画像データのセットは、特に、データセットが約10,000の画像より小さい場合に、不均等分布を受ける可能性があり、ここで、主要な生存可能又は生存不可能な胚の例は、セットを通して均等に分布されない。従って、データのいくつかの(例えば、20の)無作為化が一度に考慮され、次に、以下に定められる訓練、検証、及びブラインドテストのサブセットに分割される。全ての無作為化は、どれが訓練のための最良の分布を示すかを計測するために、単一の訓練例に対して使用される。当然の結果として、生存可能な胚と生存不可能な胚の数の比が全てのサブセットにわたって同じであることを確実にすることも有益である。胚の画像は非常に多様であり、従って、テスト及び訓練セットにわたる画像の均一な分布を使用して性能を改善することができるということを確実にする。従って、無作為化を行った後で、訓練セット、検証セット、及びブラインド検証セットの各々における、生存可能の分類を有する画像と生存不可能の分類を有する画像との比が計算及びテストされて、比が類似していることを確実にする。例えばこれは、比の範囲が、画像の数を考慮したある分散内であるかどうか又は閾値未満であるかどうかテストすることを含んでもよい。その範囲が類似していない場合、無作為化は廃棄され、その比が類似している無作為化が得られるまで、新たな無作為化が生成及びテストされる。より一般的には、結果が、nの状態を有するn項の結果である場合、無作為化が行われた後、計算ステップは、訓練セット、検証セット、及びブラインド検証セットの各々におけるn項の結果の状態の各々の頻度を計算すること、及び、頻度が類似していることをテストし、頻度が類似していない場合は、その頻度が類似している無作為化が得られるまで、割り当てを廃棄し、無作為化を繰り返すことを含んでもよい。
訓練は、複数の訓練検証サイクルを行うことをさらに含む。各訓練検証サイクルにおいて、全使用可能データセットの各無作為化は、訓練、検証、及びブラインド検証のデータセットとして知られる典型的に3つの別々のデータセットに分割される。一部の変形では、4つ以上のデータセットを使用することができ、例えば、検証及びブラインド検証のデータセットを、異なる困難性の複数のサブテストセットに層別化することができる。
第1のセットは訓練データセットであり、少なくとも60%、好ましくは70~80%の画像を含む。これらの画像は、ディープラーニングモデル及びコンピュータビジョンモデルによって、胚生存性評価モデルを作成して生存可能な胚を正確に特定するために使用される。第2のセットは検証データセットであり、これは、典型的には、約(又は少なくとも)10%の画像である。このデータセットは、訓練データセットを使用して作成したモデルの精度を検証又はテストするために使用される。これらの画像は、モデルを作成するために使用される訓練データセットから独立しているけれども、検証データセットは、モデル訓練の進行をモニター及び最適化するために使用されるため、精度において小さな正のバイアスを依然として有する。従って、訓練は、この特定の検証データセットの精度を最大化するモデルをターゲットにする傾向があり、これは、より一般的に他の胚画像に適用される場合には必ずしも最良のモデルであるわけではない。第3のデータセットは、ブラインド検証データセットであり、これは、典型的には、約10~20%の画像である。上記の検証データセットを用いて正のバイアスに取り組むために、第3のブラインド検証データセットを使用して、最終モデルの最終的なバイアスのない精度評価が行われる。この検証は、モデリング及び検証プロセスの最後に、最終モデルが作成及び選択されたときに生じる。最終モデルの精度が検証データセットと比較的一貫していることを確実にして、モデルが全ての胚画像に対して一般化できることを確実にすることが重要である。上記の理由により、検証データセットの精度はブラインド検証データセットよりも高くなる可能性が高い。ブラインド検証データセットの結果は、モデルの精度のより信頼性の高い尺度である。
一部の実施形態において、データを前処理することは、画像を拡張することをさらに含み、画像に変更が加えられる。これは、訓練に先立ち又は訓練の間に(即ち、オンザフライで)行われてもよい。拡張は、直接画像を拡張(変更)するか又は小さな変化を有する画像のコピーを作成することによって拡張(変更)することを含んでもよい。画像の90度回転、ミラーフリップ、背景色に合わせるために斜めの境界線が埋め込まれている場合の非90度回転、画像ぼかしの量を変えて、強度ヒストグラムを使用して画像のコントラストを調整して、及び、水平方向及び/又は垂直方向の両方における1つ以上の小さなランダム変換、ランダム回転を適用して、JPEG(又は圧縮)ノイズ、ランダム画像のサイズ変更、ランダム色相ジッタ、ランダム輝度ジッタ、コントラスト制限付き適応ヒストグラム均等化、ランダムフリップ/ミラー、画像鮮鋭化、画像エンボス処理、ランダム輝度及びコントラスト、RGBカラーシフト、ランダム色相及び飽和、チャンネルシャッフル、RGBからBGR又はRBG又は他のものへのスワップ、粗いドロップアウト、モーションブラー、中央ブラー、ガウスブラー、ランダムシフトスケール回転(すなわち、3つが全て組み合わされたもの)を加えて、任意の数の拡張を行うことができる。同じ拡張された画像のセットが複数の訓練検証サイクルに使用されてもよく、又は、新しい拡張が、各サイクルの間にオンザフライで生成されてもよい。CVモデル訓練に使用されるさらなる拡張は、特徴記述子を抽出するための乱数発生器の「シード」の変更である。コンピュータビジョン記述子を得るための技術は、特徴のサンプルを抽出することにおける乱数性の要素を有する。CVモデルに対するよりロバストな訓練を提供するために、この乱数を拡張間で変更し且つ含めることができる。
コンピュータビジョンモデルは、主要な画像の特徴を特定すること、及び、それらを記述子の観点から表現することに依存する。これらの記述子は、ピクセル変動、グレーレベル、テクスチャの粗さ、固定されたコーナーポイント、又は画像勾配の向き等の品質をエンコードすることができ、これらは、OpenCV又は類似のライブラリに実装される。各画像において探索するためにそのような特徴を選択することによって、モデルを、どの特徴の配置が胚生存性に対する良好な指標であるかを発見することにより構築することができる。この手順は、ランダムフォレスト又はサポートベクトルマシン等の機械学習プロセスによって最良に実行され、これらは、コンピュータビジョン分析から、それらの記述子の観点から画像を分けることができる。
小規模な特徴及び大規模な特徴の両方を包含する、様々なコンピュータビジョン記述子が使用され、これらは、従来の機械学習法と組み合わされて、胚選択のための「CVモデル」が生成される。これらは、任意選択で、後にディープラーニング(DL)モデルと組み合わされて、例えば、アンサンブルモデルになるか、又は、蒸留に使用されて、生徒モデルを訓練する。適したコンピュータビジョン画像記述子には以下が含まれる:
ハフ変換を介した透明帯:内側及び外側の楕円を発見して、透明帯及び透明帯内空洞のスプリットを近似し、半径の平均値及び差を特徴として記録する;
グレーレベル同時生起行列(GLCM)テクスチャ解析:領域内の隣接するピクセルを比較することによって、異なる領域の粗さを検出する。使用されるサンプル特徴記述子は:角二次モーメント(ASM)、均一性、相関、コントラスト、及びエントロピーである。領域の選択は、所定のサイズの画像の所与の数の正方形サブ領域を無作為にサンプリングすることによって得られ、各領域に対する5つの記述子の各々の結果を、全特徴のセットとして記録する;
勾配方向ヒストグラム(HOG):スケール不変特徴変換記述子及びシェイプコンテキストを使用して、物体及び特徴を検出する。この方法は、発生学及び他の医学的画像診断に使用されることに対して勝っているが、それ自体は機械学習モデルを構成しない;
方向付き加速化断片試験による特徴抽出(FAST)及び回転バイナリロバスト独立基本特徴(BRIEF)(ORB):SIFT及びSURF特徴に代わる業界標準であり、FASTキーポイント検出器(特定のピクセル)とBRIEF記述子との組み合わせに依存し、回転不変性を含むように修正されている;
バイナリロバスト不変スケーラブルキーポイント(BRISK):ピクセルの強度比較のアセンブリと組み合わせたFASTベースの検出器であり、これは、キーポイントで指定された特徴の周りの各近傍をサンプリングすることによって達成される;
最大安定極値領域(MSER):画像から抽出された1つ以上のグレーレベルセットに関する安定した接続成分である共変領域の抽出を介した局所形態学的特徴検出アルゴリズムである;
追跡に向いた特徴(GFTT):コーナーのテクスチャを検出するために適応ウィンドウサイズを使用する特徴検出器であり、Harrisコーナー検出又はShi-Tomasiコーナー検出を使用し、それらの空間強度プロファイルにおいて高い標準偏差を示すポイントを抽出して特定される。
図7は、画像701内の(711から716でラベルされた;網目模様)6つの透明帯領域及び(721から726でラベルされた;点線)6つの細胞質/IZC領域のセットにおいて計算された、サンプル特徴記述子702:ASM、均一性、相関、コントラスト、及びエントロピーのGLCM相関を示すグレーレベル同時生起行列(GLCM)のプロット700である。
コンピュータビジョン(CV)モデルは、以下の方法によって構築される。上記のコンピュータビジョン画像記述子技術のうち1つ(又はそれ以上)が選択され、特徴が、訓練データセット内の画像の全てから抽出される。これらの特徴は、組み合わされたアレイに配列され、次に、K平均法の教師なしクラスタリングアルゴリズムに供給され、このアレイは、「バッグオブビジュアルワード」に対するコードブックと呼ばれる。クラスタの数は、モデルの自由パラメータである。このポイントからのクラスタ化された特徴は、アルゴリズムのいずれかの組み合わせを通して使用される「カスタム特徴」を表し、それに対して、検証又はテストセット内の各個々の画像が比較されることになる。各画像は、抽出される特徴を有し、個々にクラスタ化される。クラスタ化される特徴を有する所与の画像に対して、コードブック内のクラスタの各々への(特徴空間における)「距離」が、最も近いクラスタ化される特徴を与えるKDTreeのクエリアルゴリズムを使用して測定される。次に、ツリークエリからの結果を、ヒストグラムとして表し、各特徴がその画像において生じる頻度を示すことができる。最後に、これらの特徴の特定の組み合わせが胚生存性の尺度に対応するかどうかという問題が、機械学習を使用して評価される必要がある。ここでは、ヒストグラム及びグラウンドトゥルースの結果を使用して、教師あり学習が実行される。最終選択モデルを得るために使用される方法は、ランダムフォレスト又はサポートベクトルマシン(SVM)を含む。
複数のディープラーニングモデルを生成することもできる。ディープラーニングモデルは、ニューラルネットワーク法、典型的には、複数の結合層から成る畳み込みニューラルネットワーク(CNN)に基づいており、「ニューロン」の各層は、「整流器」、「シグモイド」等の非線形活性化関数を有している。特徴ベースの方法(すなわち、CVモデル)と対照をなして、ディープラーニング及びニューラルネットワークは、手動で設計された特徴記述子に依存するのではなく、代わりに特徴を「学習」する。これは、それらが所望のタスクに合わせた「特徴表現」を学習するのを可能にする。これらの方法は、全体的な分類に到達するために、小さな細部及び全体的な形態学的形状の両方をピックアップすることができるため、画像分析に適している。種々のディープラーニングモデルが利用可能であり、各々が、残差ネットワーク(例えば、ResNet-18、ResNet-50、及びResNet-101)、高密度に接続されたネットワーク(例えば、DenseNet-121及びDenseNet-161)、並びに他のバリエーション(例えば、InceptionV4及びInception-ResNetV2)等、異なるアーキテクチャ(すなわち、異なる数の層及び層間の接続)を有している。ディープラーニングモデルは、安定性(訓練プロセスにわたって検証セットに対して精度値がどの程度安定していたか)、転移性(transferability)(訓練データにおける精度が検証セットにおける精度とどの程度良く相関していたか)、及び予測精度(どのモデルが、生存可能及び生存不可能な胚の両方について、最良の検証精度、総精度、及び胚のクラスタイプ両方にわたる重み付け平均精度として定められる均衡化精度を提供したか)に基づき評価することができる。訓練には、入力画像解像度、最適化アルゴリズムの選択、学習速度値及びスケジューリング、モーメンタム値、ドロップアウト、及び重みの初期化(事前学習)を含む、モデルパラメータ及びハイパーパラメータの異なる組み合わせを試すことが含まれる。損失関数は、モデルの実行を評価するために定められてもよく、訓練の間に、ディープラーニングモデルは、学習速度を変えることによって最適化されて、ネットワークの重みパラメータに対する更新機構を駆動して、目的/損失関数を最小化する。
ディープラーニングモデルは、種々のライブラリ及びソフトウェア言語を使用して実装されてもよい。一実施形態において、PyTorchライブラリが、pythonの言語でニューラルネットワークを実装するために使用される。ライブラリのPytorchは、加えて、ハードウェア(GPU、TPU)加速を利用するテンソルが作成されるのを可能にし、ニューラルネットワークのための複数の層を構築するためのモジュールを含む。ディープラーニングは、画像分類のための最も強力な技術の一つであるけれども、上記のセグメンテーション又は拡張の使用を介したガイダンスを提供することによって改善することができる。ディープラーニングに先立つセグメンテーションの使用は、ディープラーニング法の性能に著しい影響を及ぼすことが分かり、対照的なモデルの生成を支援した。従って、好ましくは、少なくとも一部のディープラーニングモデルを、透明帯が特定された画像等のセグメントに分けられた画像、又は、透明帯領域を除く全ての領域を隠すためにマスクされた画像において訓練した。一部の実施形態において、複数のディープラーニングモデルは、セグメントに分けられた画像において訓練された少なくとも1つのモデルと、セグメンテーションを受けていない画像において訓練された1つのモデルとを含む。同様に、拡張が、ロバストなモデルを生成するために重要であった。
アプローチの有効性は、ディープニューラルネットワーク(DNN)のアーキテクチャによって決定される。しかし、特徴記述子法とは異なり、DNNは、分類器を利用する前に、畳み込み層全体を通して特徴自体を学習する。すなわち、提案された特徴を手動で組み込むことなく、DNNは、文献中の既存の実践をチェックするために使用することができ、並びに、以前には推測できなかった記述子、特に、ヒトの目が検出及び測定するのが困難な記述子を開発することができる。
DNNのアーキテクチャは、入力としての画像のサイズ、DNNを記述するテンソルの次元を有する隠れ層、及び出力としてクラスラベルの数を有する線形分類器によって制約される。ほとんどのアーキテクチャは、左右、上下、及び中心の概念を捉えるために、小さな(3×3ピクセル)フィルタを用いて、多数のダウンサンプリング比を利用する。a)畳み込み2d層、b)整流線形ユニット(ReLU)、及びc)最大プーリング層のスタックは、DNNを通るパラメータの数が扱いやすいままであるのを可能にする一方で、フィルタが、画像の高レベル(トポロジー)の特徴上を通過し、それらを画像に埋め込まれた中間の及び最後に顕微鏡レベルの特徴上にマッピングするのを可能にする。最上層は、典型的には、SVMと同様に、分類器として作用する1つ以上の全結合ニューラルネットワーク層を含む。典型的には、ソフトマックス層が、全結合分類器の後の確率を有するように、結果として生じるテンソルを正規化するために使用される。従って、モデルの出力は、画像が生存不可能又は生存可能のいずれかである確率のリストである。
図8は、一実施形態による、訓練後の、入力画像を予測に変換する畳み込み層を含むディープラーニング法の概略的なアーキテクチャ図である。図8は、一実施形態による、RESNET 152アーキテクチャに基づく一連の層を示している。構成要素には、以下のように注釈が付けられている。「CONV」は、下層からの入力の相互相関を計算する畳み込み2D層を示す。畳み込み層内の各要素又はニューロンは、その受容野、例えば3×3又は7×7ピクセルからの入力のみを処理する。これによって、層を記述するのに必要な学習可能なパラメータの数が減り、全結合層から構築されるものよりもディープなニューラルネットワークが形成されるのが可能になる。これらの層では、全てのニューロンが後続の層における全ての他のニューロンに接続され、これは、メモリ負荷が高く、オーバーフィッティングさせる傾向がある。畳み込み層は空間移動不変性でもあり、これは、主題が正確に中心合わせされることを保証することができない画像を処理するのに有用である。「POOL」は、最大プーリング層を指し、これは、ダウンサンプリング法であり、それによって、所与の領域内で代表的なニューロンの重みのみが選択され、ネットワークの複雑さが低減され、オーバーフィッティングも低減される。例えば、畳み込み層の4×4の正方形領域内の重みについては、各2×2のコーナーブロックの最大値が計算され、これらの代表値が、次に、正方形領域のサイズを2×2の大きさまで減らすために使用される。RELUは、非線形活性化関数として作用する整流線形ユニットの使用を示す。一般的な例として、ランプ関数が、所与のニューロンからの入力xについて以下の形式:
Figure 2022528961000003
をとり、生物学におけるニューロンの活性化と類似している。入力が畳み込み層の全てを通過した後の、ネットワークの終わりにおける最終層は、典型的には、分類器として作用する全結合(FC)層である。この層は、最終入力を得て、分類カテゴリと同じ数の次元のアレイを出力する。例えば「生存可能な5日目の胚」及び「生存不可能な5日目の胚」等、2つのカテゴリでは、最終層は長さ2のアレイを出力し、これは、入力画像がそれぞれのカテゴリと共に整列する特徴を有する割合を示す。最終ソフトマックス層が加えられることが多くあり、これは、出力アレイにおける最終的な数を0から1に適合するパーセンテージに変換し、両方を合わせて合計1にすることによって、最終的な出力を、画像がカテゴリの1つに分類されるための信頼限界として解釈することができる。
1つの適したDNNアーキテクチャは、ResNet152、ResNet101、ResNet50、又はResNet-18等のResnet(https://ieeexplore.ieee.org/document/7780459)である。ResNetは、極めて多くの隠れ層を使用すること、及び、「残差接続」としても知られる「スキップ接続」を導入することによって、2016年にこの分野を著しく前進させた。1つの層から次の層への差のみが計算され、これは、より時間費用効果が高く、特定の層において変化がほとんど検出されない場合、その層はスキップされ、従って、画像内の小さい特徴と大きい特徴の組み合わせに非常に迅速に合わせるネットワークを作成する。特に、ResNet-18、ResNet-50、ResNet-101、DenseNet-121、及びDenseNet-161は、一般的に、他のアーキテクチャよりも性能が優れていた。別の適したDNNアーキテクチャは、DenseNet161、DenseNet201、DenseNet169、DenseNet121等のDenseNet(https://ieeexplore.ieee.org/document/8099726)である。DenseNetは、ResNetの発展形であり、現在、全ての層は、最大数のスキップ接続を有して、いかなる他の層にもスキップすることができる。このアーキテクチャは、はるかに多くのメモリを必要とし、従って効率も悪いが、ResNetよりも改善された性能を示すことができる。多数のモデルパラメータで、オーバートレーニング/オーバーフィッティングすることも容易である。全てのモデルアーキテクチャは、これを制御する方法、特にDenseNet-121及びDenseNet-161を制御する方法と組み合わされることが多くある。別の適したDNNアーキテクチャは、InceptionV4、InceptionResNetV2等のInception(-ResNet)(https://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/viewPaper/14806)である。Inceptionは、より複雑な畳み込みユニットを表し、それによって、セクション3.2に記載されるような固定サイズのフィルタ(例えば、3×3ピクセル等)を単に使用する代わりに、いくつかのサイズのフィルタが、自由パラメータである重み付きで、並列に(5×5、3×3、1×1ピクセル)計算されるため、ニューラルネットワークは、DNNにおける各層において、どのフィルタが最も適しているかを優先することができる。この種のアーキテクチャの発展は、ResNetと同じ方法でそれをスキップ接続と組み合わせて、Inception-ResNetを作成することである。特に、ResNet-18、ResNet-50、ResNet-101、DenseNet-121、及びDenseNet-161は、一般的に、他のアーキテクチャよりも性能が優れていた。
上記のように、コンピュータビジョン及びディープラーニング法の両方が、前処理されたデータにおいて複数の訓練検証サイクルを使用して訓練される。訓練検証サイクルは、以下のフレームワークに従う。
訓練データは前処理され、バッチに分割される(各バッチにおけるデータの数は自由モデルパラメータであるが、どのくらい速く及びどのくらい安定してアルゴリズムが学習するかを制御する)。拡張は、分割に先立ち又は訓練の間に行われてもよい。
各バッチの後で、ネットワークの重みが調整され、これまでの総実行精度(running total accuracy)が評価される。一部の実施形態において、重みは、例えば勾配累積を使用して、バッチの間に更新される。全ての画像が評価され、1エポックが実行されたとき、訓練セットはシャッフルされ(すなわち、セットを用いた新しい無作為化が得られ)、訓練が、次のエポックに対して、最初から再び開始される。
訓練の間に、データセットのサイズ、データの複雑さ、及び訓練されているモデルの複雑さに応じて、多数のエポックが実行されてもよい。最適なエポック数は、典型的には、2から100の範囲であるが、特定のケースに応じてより大きくてもよい。
各エポックの後で、モデルは、いかなる訓練も行われることなく、検証セットに対して実行されて、モデルがどのくらい正確であるかにおいて進行の尺度が提供され、より多くのエポックを実行するべきであるか、又はより多くのエポックがオーバートレーニングをもたらすかどうかをユーザにガイドする。検証セットは、全モデルパラメータ又はハイパーパラメータの選択をガイドするものであり、従って、真のブラインドセットではない。しかし、検証セットの画像の分布が、訓練後に実行されることになる最終ブラインドテストセットと非常に類似していることが重要である。
検証セットの結果を報告する際に、拡張を、各画像に対して含めるか(all)又は含めない(noaug)こともできる。さらに、各画像に対する拡張は、画像に対するよりロバストな最終結果を提供するために組み合わされてもよい。平均信頼度(拡張全てにわたるモデルの推論の平均値をとる)、中央信頼度、大数平均信頼度(大数生存性評価をとり、同意するものの平均信頼のみを提供し、大数に達しない場合には、平均をとる)、最大信頼度、加重平均、大数最大信頼度等を含むいくつかの組み合わせ/投票戦略を使用することができる。
機械学習の分野において使用される別の方法は転移学習であり、ここでは、以前に訓練されたモデルが、新しいモデルを訓練するための出発点として使用される。これは、事前学習とも呼ばれる。事前学習は広く使用され、新しいモデルが迅速に構築されるのを可能にしている。2種類の事前学習がある。事前学習の一実施形態は、ImageNet事前学習である。ほとんどのモデルアーキテクチャには、標準画像データベースImageNetを使用して、事前学習された重みのセットが提供される。これは医用画像に特有ではなく、1000の異なるタイプの物体を含むけれども、モデルが形状を特定することをすでに学習する方法を提供する。1000の物体の分類器は完全に除去され、生存性に対する新しい分類器がそれに取って代わる。この種の事前学習は、他の初期化戦略よりも性能が優れている。事前学習の別の実施形態は、異なる結果のセット又は異なる画像(生存性の代わりにPGS、又は無作為に割り当てられた結果)を有する研究からの、以前に訓練された胚モデルを使用するカスタム事前学習である。これらのモデルは、分類にわずかな利益しかもたらさない。
事前学習を受けていないモデル、又は分類器等の事前学習の後に加えられる新しい層については、重みを初期化する必要がある。初期化方法は、訓練の成功に影響を及ぼす恐れがある。例えば、0又は1に設定された全ての重みは、非常に性能が良くない。乱数の均一の配置又は乱数のガウス分布も、一般的に使われる選択肢を表す。これらは、Xavier又はKaimingアルゴリズム等の正規化法と組み合わされることも多くある。これは、ニューラルネットワークにおけるノードが、飽和(1に近い)状態又はデッド(0に近い)状態になることによって、特定の状態において「トラップ」される恐れがあり、その特定のニューロンに関連する重みを調整する方向を測定することが困難であるという問題に取り組む。これは、特に、双曲線正接関数又はシグモイド関数を導入する場合に普及しており、Xavier初期化によって対処される。
Xavier初期化プロトコルでは、活性化関数への各層の入力が、飽和の一番端又はデッドの一番端のいずれにも近づき過ぎないように、ニューラルネットワークの重みは無作為化される。しかし、ReLUの使用が、より良く動作し、異なる初期化は、Kaiming初期化等、より小さい利点を提供する。Kaiming初期化は、ReLUがニューロンの非線形活性化プロファイルとして使用される場合により適している。これは、Xavierの初期化と同じプロセスを効果的に達成する。
ディープラーニングでは、様々な自由パラメータが使用されて、検証セットにおけるモデル訓練が最適化される。主要なパラメータの1つは学習速度であり、これは、基礎となるニューロンの重みが各バッチ後にどのくらい調整されるかによって決定される。選択モデルを訓練する場合、データのオーバートレーニング又はオーバーフィッティングは回避されるべきである。これは、モデルがあまりにも多くのパラメータを有するためフィットさせることができず、本質的にデータを「記憶」し、一般化可能性と引き換えに訓練又は検証セットにおける精度を得る場合に起こる。一般化可能性は、データのノイズの中でも、胚の健全性を示す真の基礎となるパラメータをモデルが正確に特定し、これを損なわずに訓練セットを完全にフィットさせたかどうかの真の尺度であるため、これは回避されることになる。
検証及びテストのフェーズの間に、訓練フェーズ中のオーバーフィッティングのために、成功率が突然低下することがあり得る。これは、減速若しくは減衰学習速度(例えば、nのエポックごとに学習速度を半減させる等)、又は、上述のテンソル初期化若しくは事前学習の方法及びドロップアウト層等のノイズの追加若しくはバッチ正規化を組み込んだコサインアニーリングの使用を含む、種々の戦法を介して回復させることができる。バッチ正規化は、消失又は爆発する勾配に対抗するために使用され、大きいモデルの訓練の安定性を改善し、結果として一般化を改善する。ドロップアウト正則化は、整流器の受容範囲内で全ての入ってくる重みをゼロに設定する無作為な機会を導入することによって、ネットワークを効果的に単純化する。ノイズを導入することによって、残りの整流器が、過度の特殊化に依存することなく、データの表現に正確にフィットすることを効果的に確実にする。これは、DNNがより効果的に一般化され、ネットワークの重みの特定の値に対する感度が低下するのを可能にする。同様に、バッチ正規化は、非常にディープなニューラルネットワークの訓練安定性を改善し、これは、整流段階の前駆体として入力重みをゼロ平均及び単位分散にシフトさせることによって、より速い学習及びより良好な一般化を可能にする。
ディープラーニングを行う際に、許容可能な分類を達成するためにニューロンの重みを変更するための方法論は、最適化プロトコルを指定する必要性を含む。すなわち、(以下に論じられる)「精度」又は「損失」の所与の定義、正確にどのくらい重みが調整されるべきか及びどのようにして学習速度の値が使用されるべきかに対しては、多くの技術が指定される必要がある。適した最適化技術には、モーメンタム法(及び/又はNesterovの加速勾配法)を伴う確率的勾配降下法(SGD)、デルタを伴う適応勾配(Adadelta)、適応モーメント推定(Adam)、二乗平均平方根のプロパゲーション(RMSProp)、及び記憶制限ブロイデン・フレッチャー・ゴールドファーブ・シャンノ法(L-BFGS)アルゴリズムが含まれる。これらのうち、SGDに基づく技術は、一般的に、他の最適化技術よりも性能が優れていた。ヒト胚の位相差顕微鏡画像に対する典型的な学習速度は0.01から0.0001であった。しかし、学習速度はバッチサイズに依存し、これは、ハードウェア容量に依存する。例えば、GPUが大きいほど、より大きなバッチサイズ及びより速い学習速度が可能にする。
モーメンタム法(及び/又はNesterovの加速勾配法)を伴う確率的勾配降下法(SGD)は、最もシンプルで一般的に使用される最適化アルゴリズムを表す。勾配降下アルゴリズムは、典型的に、精度に対する所与の重みの影響の勾配(傾き)を計算する。重みの更新を行うためにデータセット全体に対する勾配を計算する必要がある場合にこれは遅いけれども、確率的勾配降下法は、1つずつ、訓練画像ごとに更新を行う。これは、達成される全体目標の精度又は損失に変動をもたらし得るけれども、損失パラメータランドスケープの新しい領域に飛び込み、新しい最小損失関数を見つけることができるため、他の方法よりも良く一般化する傾向を有する。胚選択等の難しい問題における目立つ損失ランドスケープに対して、SGDは良好に機能する。SGDは、一方の側で他方よりも急な非対称損失関数表面曲線をナビゲートするのに問題がある恐れがあり、これは、モーメンタムと呼ばれるパラメータを加えることによって補償することができる。これは、前の状態から得られる重みの更新に余分なフラクションを加えることによって、その方向においてSGDを加速し、精度における高い変動を弱めるのに寄与する。この方法の発展は、次の状態における重みの推定位置も含めることであり、この発展形はNesterovの加速勾配法として知られている。
デルタを伴う適応勾配(Adadelta)は、学習速度を重み自体に適応させるためのアルゴリズムであり、頻繁に発生するパラメータに対してより小さな更新、及び稀に発生する特徴に対してより大きな更新を行い、スパースデータによく適している。これは、データセット全体にわたる数回のエポックの後で、学習速度を突然低下させることができるけれども、ウィンドウを制限するためにデルタパラメータを追加することが、累積された過去の勾配を一定のサイズにするのを可能にした。しかし、このプロセスは、デフォルトの学習速度を冗長にし、さらなる自由パラメータの自由度は、最良の全体選択モデルを見つける際にある程度の制御を提供する。
適応モーメント推定(Adam)は、過去の二乗及び非二乗勾配の両方の指数関数的減衰平均を格納し、それら両方を重み更新に組み込む。これは、重み更新の方向に対して「摩擦」を提供する効果があり、大きな変動を有することなく、比較的浅い又は平坦な損失最小を有する問題に適している。胚選択モデルにおいて、Adamを用いた訓練は、訓練セットにおいては良好に機能する傾向を有するが、オーバートレーニングであることが多く、モーメンタム法を伴うSGDほど適していない。
二乗平均平方根のプロパゲーション(RMSProp)は、上記の適応勾配最適化アルゴリズムに関し、重みに対する更新項が二乗勾配の指数関数的減衰平均で学習速度を割ることを除いて、Adadeltaとほぼ同一である。
記憶制限ブロイデン・フレッチャー・ゴールドファーブ・シャンノ法(L-BFGS)アルゴリズム。計算機負荷が高いけれども、L-BFGSアルゴリズムは、この推定の欠如を追加項で補償しようとする他の方法ではなく、損失ランドスケープの曲率を実際に推定する。データセットが小さい場合は、Adamよりも性能が優れている傾向があるが、スピード及び精度の点では必ずしもSGDよりも性能が優れているとは限らない。
上記の方法に加えて、不均一な学習速度を含めることも可能である。すなわち、畳み込み層の学習速度は、分類器の学習速度よりもはるかに大きいか又は小さいように指定することができる。これは、事前学習がさらなる再訓練によって元に戻されないように、分類器の下のフィルタに対する変更をさらに「凍結」で保ち、分類器を再訓練するべきである事前学習モデルの場合に有用である。
最適化アルゴリズムは、特定の損失又は精度の尺度を与えられた重みを更新する方法を指定するけれども、一部の実施形態において、損失関数は、分布効果を組み込むように修正される。これらは、交差エントロピー(CE)損失、重み付けCE、残差CE、推論分布、又はカスタム損失関数を含み得る。
交差エントロピー損失は、一般的に使用される損失関数であり、グラウンドトゥルースと予測値との間のシンプルな平均二乗誤差よりも性能が優れている傾向がある。ここでの場合のように、ネットワークの結果がソフトマックス層を通過する場合、交差エントロピーの分布はより良い精度をもたらす。これは、当然、かけ離れた外れ値をあまり重視しないことによって、正確に入力データを分類する可能性を最大化するためである。入力アレイ、バッチ、画像のバッチを表すこと、及び生存可能又は生存不可能を表すクラスに対して、交差エントロピー損失は:
Figure 2022528961000004
として定められ、ここで、Cはクラスの数である。二値の場合は、これは、
Figure 2022528961000005
に簡略化することができる。最適化されたバージョンは:
Figure 2022528961000006
である。
データがクラスバイアスを有する場合、すなわち、生存不可能な例よりも多くの生存可能な例を有する(又はその逆の)場合、損失関数は、比例して重み付けされるべきであるため、より数の少ないクラスの要素を誤って分類することは、より重く罰せられる。これは、式(2)の右辺に係数を予め掛けることによって達成され:
Figure 2022528961000007
ここで、N[class]はクラスごとの画像の総数であり、Nはデータセットにおけるサンプルの総数であり、Cはクラスの数である。必要に応じて、偽陽性と比較して偽陰性の数を減らすために、生存可能な胚に向けて重みに手動でバイアスをかけることも可能である。
一部の実施形態において、推論分布が使用されてもよい。胚の分類において高いレベルの精度を求めることは重要であるけれども、モデルにおいて高いレベルの移植性を求めることも重要である。すなわち、スコアの分布を理解する、及び、高い精度を求めることは重要な目標であるけれども、生存可能な胚と生存不可能な胚を、確信をもって区別することは、モデルがテストセットによく一般化されていることを示す指標であるということを理解するのは有益であることが多い。テストセットにおける精度は、同じ胚における発生学者の分類の精度等、臨床ベンチマークとの比較を引用するために使用されることが多いため、一般化可能性を確実にすることは、エポックごとに、モデルの成功のバッチごとの評価に組み込まれるべきでもある。
一部の実施形態では、カスタム損失関数が使用される。一実施形態において、最適化サーフェスが大域最適解をより明確にし、従ってモデルのロバスト性を改善するように変更されるように、損失関数をどのように定めるかをカスタマイズした。これを達成するために、ネットワークの重みの観点から定められる、残差項と呼ばれる微分可能性を維持する新しい項が損失関数に追加される。これは、モデルからの予測値及び各画像に対するターゲットとなる結果における集合的な差をエンコードし、それを正常の交差エントロピー損失関数へのさらなる寄与として含む。残差項に対する式は、Nの画像について:
Figure 2022528961000008
である。
このカスタム損失関数では、生存可能及び生存不可能な胚のスコアのウェルスペースクラスタが、従って、改善された損失評価と一致すると考慮される。このカスタム損失関数は胚検出アプリケーションに特有ではなく、他のディープラーニングモデルにおいて使用することができるということに留意されたい。
一部の実施形態において、モデルは、よりロバストな最終AIモデル100を生成するために組み合わされる。すなわち、ディープラーニング及び/又はコンピュータビジョンモデルを共に組み合わせて、胚生存性の全体的な予測に寄与する。
一実施形態では、アンサンブル法が使用される。第一に、良好に機能するモデルが選択される。次に、各モデルが、画像の1つに(拡張を使用して又はその他の方法で)「投票」を行い、最良の結果をもたらす投票戦略が選択される。例となる投票戦略には、最大信頼度、平均値、大数平均値、中央値、平均信頼度、中央信頼度、大数平均信頼度、加重平均、大数最大信頼度等が含まれる。投票戦略が選択されると、拡張の組み合わせに対する評価方法も選択されなければならず、これは、上述のように、回転の各々がアンサンブルによってどのように処理されるべきかを記述する。この実施形態において、最終AIモデル100は、従って、個々のAIモデルの結果がどのように組み合わされることになるかを定める投票戦略をエンコードするモード、及び、(存在する場合)拡張がどのように組み合わされることになるかを定める評価モードと共に、ディープラーニング及び/又はコンピュータビジョンモデルを使用した、訓練されたAIモデルの集合として定めることができる。
モデルの選択を、それらの結果が互いに対比する、すなわち、それらの結果が可能な限り独立しており、スコアが良好に分布されるように行った。この選択手順は、モデルごとにテストセット内のどの画像が正確に特定されたかを調べることによって実行される。2つのモデルを比較する際に、正確に特定された画像のセットが非常に類似している場合、又は各モデルによって提供されるスコアが所与の画像について互いに類似している場合、モデルは対照的なモデルとはみなされない。しかし、正確に特定された画像の2つのセット間に重複がほとんどない場合、又は各画像に対して提供されるスコアが互いに著しく異なる場合、モデルは対照的であるとみなされる。この手順は、2つの異なるモデルについてのテストセットにおける胚スコアの分布が類似しているかどうかを効果的に評価する。対照基準は、異なる入力画像又はセグメンテーションのために、多様な予測結果分布でモデル選択を駆動する。この方法は、特定のクリニックのデータセットにおいてのみ良好に機能したモデルの選択を回避することによって移動可能性(translatability)を確実にし、従って、オーバーフィッティングを防いだ。加えて、モデル選択は、多様性基準を使用することもできる。多様性基準は、異なるモデルのハイパーパラメータ及び構成を含むようにモデル選択を駆動する。その理由は、実際には、類似のモデル設定が、類似の予測結果をもたらし、従って、最終的なアンサンブルモデルには有用でない可能性があるためである。
一実施形態において、これは、カウントアプローチを使用すること、及び、2つのセットにおける50%、75%、又は90%の重複画像等の閾値類似性を指定することによって実施することができる。他の実施形態では、画像のセット(例えば、生存可能なセット)におけるスコアを合計し、2つのセット(合計)を比較し、2つの合計が閾値量未満である場合に同様にランク付けすることができる。統計に基づく比較も、例えば、セットにおける画像の数を考慮するか、又さもなければ、セットの各々における画像の分布を比較して、使用することができる。
他の実施形態では、蒸留法を使用して、個々のAIモデルを組み合わせることができる。このアプローチでは、AIモデルが、生徒モデルを訓練するための教師モデルとして使用される。個々のAIモデルの選択は、アンサンブル法に対して論じたように、多様性及び対照基準を使用して行うことができる。様々なモデルから最良のモデルを選択する、又は複数のモデルからの出力を組み合わせて単一の出力にするさらなる他の方法が使用されてもよい。
アンサンブルベースの胚生存性評価モデルの一実施形態を生成し、2つの検証(又はベンチマーキング)研究をIVFクリニックにおいて行って、現役の発生学者と比較して本明細書において記載される胚生存性評価モデルの性能を評価した。参照を容易にするために、これは、アンサンブルモデルと呼ばれることになる。これらの検証研究は、胚生存性評価モデルによって、世界トップレベルの発生学者と直接比較した場合、胚の生存性の特定において30%を超える精度の改善が示されたことを示した。従って、本研究は、本明細書において記載されるアンサンブルモデルの実施形態が、発生学者に情報を与え且つ発生学者の選択決定を支持する能力を検証し、これは、カップルに対するIVF結果の改善に寄与することが期待される。
第1の研究は、オーストラリアのクリニック(Monash IVF)で実行されたパイロット研究であり、第2の研究は、複数のクリニック及び地理的位置にわたって実行された。研究は、臨床的妊娠によって測定される、記載されるようなアンサンブルベースの胚生存性評価モデルの一実施形態が5日目の胚生存性を予測する能力を評価した。
各臨床研究に対して、IVFプロセスにおける各患者は、選択すべき複数の胚を有することができる。本明細書において記載される胚生存性評価モデルの一実施形態を使用して、これらの胚の各々の生存性を評価及びスコア化した。しかし、着床され且つ妊娠結果(例えば、最初の超音波スキャンで検出された胎児の心拍)が分かっている胚のみを使用して、モデルの精度を検証することができる。従って、全データセットは、患者に着床された胚の画像を、関連する既知の結果と共に含み、これらに対して、モデルの精度(従って、性能)を検証することができる。
検証に関してさらに厳密にするために、検証に使用される画像の一部は、胚の生存性に関する発生学者のスコアを含む。場合によっては、「生存不可能」としてスコア化された胚が、それにもかかわらず依然として最も好ましい胚の選択肢である場合、及び/又は患者の要求に応じて、依然として着床されることがある。このデータによって、発生学者と比較してどのくらいアンサンブルモデルが機能するかを直接比較することが可能になる。スコア化した胚の総数によって割った、生存不可能であるとしてスコア化し且つ不成功の妊娠結果(真陰性)を有した胚の数に加えて、生存可能であるとしてスコア化し且つ成功した妊娠結果(真陽性)を有した胚の数のパーセンテージとして、アンサンブルモデル及び発生学者の精度の両方が測定される。このアプローチは、アンサンブルモデルが、リードする発生学者と直接比較した場合に、同等に又はそれ以上機能するかどうかを検証するために使用される。データセットにおいて、全ての画像が対応する発生学者のスコアを有しているわけではないことに留意されたい。
選択モデルの精度を、発生学者によって利用される現在の手動による方法と直接比較するために、少なくとも胚盤胞である増殖の程度について、各クリニックに対する発生学者のスコアの以下の解釈が使用される(Ovation Fertility表示法では「BL」、又はMidwest Fertility Specialists表示法では「XB」)。細胞期(例えば、10細胞等)として、細胞期から桑実胚への圧縮として、又は胞胚腔形成桑実胚(IVF後5日目において胞胚腔空洞が総体積の50%未満である)として列挙された胚は、生存不可能である可能性が高いとみなされる。
透明帯内空洞(第1の文字)及び栄養外胚葉(第2の文字)の質を示すレターグレードは、胚の質のバンドに配置され、発生学者によって識別される。次に、以下の表1を使用して、胚がおそらく生存不可能又は生存可能であるか判断したかどうかを示すために分割が行われる。バンド1から3はおそらく生存可能であると考えられ、バンド4以上はおそらく生存不可能であると考えられている。バンド6では、いずれかのレタースコアが「C」よりも悪い場合、胚はおそらく生存不可能であると考えられる。バンド7では、Midwest Fertility Specialistsからの「1XX」というスコアが、初期の(大きい)栄養外胚葉細胞を有し且つ識別可能な透明帯内空洞を有さない初期胚盤胞を示し、おそらく生存不可能であると考えられている。
Figure 2022528961000009
IVF後5日目に撮影した約20,000の胚画像のセットを、関連する妊娠及び着床前遺伝子スクリーニング(PGS)の結果、並びに患者の年齢及びクリニックの地理的位置を含む人口統計学的情報と共に取得した。この研究にデータを寄付したクリニックは:Monash IVF Group(Melbourne,VIC,Australia)の一部としてのRepromed(Adelaide,SA,Australia)、Ovation Fertility(Austin,TX,USA)、San Antonio IVF(San Antonio,TX,USA)、Midwest Fertility Specialists(Carmel,IN,USA)、Institute for Reproductive Health(Cincinnati,OH,USA)、Fertility Associates(Auckland,Hamilton,Wellington,Christchurch and Dunedin,New Zealand)、Oregon Reproductive Medicine(Portland,OR,USA)、及びAlpha Fertility Centre(Petaling Jaya,Selangor,Malaysia)である。
試験において使用するためのAIモデルの生成は、以下のように進められた。第一に、様々なモデルアーキテクチャ(又はモデルタイプ)が生成され、各AIモデルは、入力画像解像度、最適化アルゴリズムの選択、学習速度値及びスケジューリング、モーメンタム値、ドロップアウト、及び重みの初期化(事前学習)を含む、様々な設定のモデルパラメータ及びハイパーパラメータを用いて訓練される。安定性(訓練プロセスにわたって安定な精度)、転移性(訓練セットと検証セットの間で安定な精度)、及び予測精度を示すモデルを選択するために、初期フィルタリングが行われる。予測精度は、両方のクラスタイプの胚にわたる加重平均精度として定められるように、生存可能な胚及び生存不可能な胚の両方について、どのモデルが最良の検証精度、総精度、及びバランス精度を提供したかを調べた。一実施形態では、ImageNetの事前学習された重みの使用は、これらの量の改善された性能を実証した。損失関数の評価は、重み付けされたCE及び残差CE損失関数が、一般的に、他のモデルよりも性能が優れていたことを示した。
次に、次のモデルを2つのグループ:さらなる画像セグメンテーション(透明帯又はIZCの特定)を含む第1のグループ、及び全体のセグメントに分けられていない画像を使用する第2のグループ(すなわち、完全胚モデル)に分けた。IZCをマスクし、透明帯領域を露出させた画像において訓練されたモデルを、透明帯モデルとして示した。透明帯をマスクした画像において訓練されたモデル(IZCモデルとして示された)及び完全胚画像において訓練されたモデルも、訓練において考慮した。多様性を提供し、検証セットにおける性能を最大化するために、対照的なアーキテクチャ及び前処理方法を包含するモデルのグループを選択した。
最終的なアンサンブルベースのAIモデルは、多様性及び対照的な結果に基づき選択された最も高い性能の個々のモデルのアンサンブルであった。異なる方法論を示したか又は機械学習を通じて得られた特徴から異なるバイアスを抽出した良好に機能する個々のモデルを、各モデルの信頼性に基づく様々な投票戦略を使用して組み合わせた。評価された投票戦略は、平均、中央、最大、大数平均投票、最大信頼度、平均値、大数平均値、中央値、平均信頼度、中央信頼度、大数平均信頼度、加重平均、大数最大信頼度等を含んだ。一実施形態において、大数平均投票戦略は、他の投票戦略よりも性能が優れていて、全てのデータセットにわたって最も安定したモデルを与えたかをテストするかのように使用される。
この実施形態では、最終的なアンサンブルベースのAIモデルは、8つのディープラーニングモデルを含み、そのうちの4つは透明帯モデルであり、4つは完全胚モデルである。この実施形態において使用される最終モデルの構成は:
モーメンタム=0.9を伴うSGD、CE損失、学習速度5.0e-5、3エポックごとに学習速度を半減させる段階的なスケジューラー、32のバッチサイズ、224×224の入力解像度、及び0.1のドロップアウト値を使用して訓練された1つの完全胚ResNet-152モデル;
モーメンタム=0.99を伴うSGD、CE損失、学習速度1.0e-5、3エポックごとに10で学習速度を割る段階的なスケジューラー、8のバッチサイズ、299×299の入力解像度、及び0.1のドロップアウト値を使用して訓練された1つの透明帯モデルResNet-152モデル;
モーメンタム=0.99を伴うSGD、CE損失、学習速度1.0e-5、6エポックごとに10で学習速度を割る段階的なスケジューラー、8のバッチサイズ、299×299の入力解像度、及び0.1のドロップアウト値を使用して訓練され、そのうち1つが任意の角度の無作為回転を用いて訓練された3つの透明帯ResNet-152モデル;
モーメンタム=0.9を伴うSGD、CE損失、学習速度1.0e-4、5エポックごとに学習速度を半減させる段階的なスケジューラー、32のバッチサイズ、224×224の入力解像度、0のドロップアウト値を使用して訓練され、さらに、任意の角度の無作為回転を用いて訓練された1つの完全胚DenseNet-161モデル;
モーメンタム=0.9を伴うSGD、CE損失、学習速度1.0e-4、5エポックごとに学習速度を半減させる段階的なスケジューラー、32のバッチサイズ、299×299の入力解像度、0のドロップアウト値を使用して訓練された1つの完全胚DenseNet-161モデル;並びに
モーメンタム=0.9を伴うSGD、残差CE損失、学習速度1.0e-4、5エポックごとに学習速度を半減させる段階的なスケジューラー、32のバッチサイズ、299×299の入力解像度、0のドロップアウト値を使用して訓練され、さらに、任意の角度の無作為回転を用いて訓練された1つの完全胚DenseNet-161モデル;
である。
最終モデルの構成の中で大きな特徴となるResNet-152に対応するアーキテクチャの図が、図8において示されている。その後、最終アンサンブルモデルを、結果のセクションにおいて記載されるように、ブラインドテストデータセットにおいて検証及びテストした。
データにおけるモデル挙動の評価において使用される精度の尺度には、感度、特異度、全体的な精度、予測の分布、及び発生学者のスコアリング法との比較が含まれた。AIモデルに対して、50%以上の胚生存性スコアを生存可能、50%未満を生存不可能とみなした。生存可能な胚の特定における精度(感度)を、陽性の臨床妊娠をもたらした既知の生存可能な胚の総数によって割られた、AIモデルが生存可能であるとして特定した胚の数として定めた。生存不可能な胚の特定における精度(特異度)を、陰性の臨床妊娠結果をもたらした既知の生存不可能な胚の総数によって割られた、AIモデルが生存不可能であるとして特定した胚の数として定めた。AIモデルの全体的な精度を、感度及び特異度の加重平均を使用して決定し、発生学者と比較したAIモデルの精度における改善率を、元の発生学者の精度の割合としての精度の差として定めた(すなわち、(AI_精度-発生学者_精度)/発生学者_精度)。
パイロット研究
Monash IVFは、約10,000の胚画像と、各画像に対する関連する妊娠及び出生データとをアンサンブルモデルに提供した。提供されたさらなるデータには、患者の年齢、BMI、胚が新鮮なまま着床されたか又は前もって冷凍保存されたかどうか、及び任意の受精能に関連する医学的状態が含まれていた。画像のうち一部に対するデータには、胚の生存性に対する発生学者のスコアが含まれていた。予備の訓練、検証、及び分析は、モデルの精度が4日目の胚と比較して5日目の胚に対して有意に高いことを示した。従って、全ての4日目の胚を取り除き、約5000の画像を残した。訓練及び検証のための使用可能なデータセットは4650の画像であった。この初期データセットを、3つの別々のデータセットに分割した。次に、さらなる632の画像を提供し、これらを、第2のブラインド検証データセットとして使用した。訓練及び検証のための最終データセットには、以下のものが含まれている:
訓練データセット:3892の画像;
検証データセット:390の画像のうち、70(17.9%)が成功した妊娠結果を有し、149の画像には胚の生存性に関する発生学者のスコアが含まれていた;
ブラインド検証データセット1:368の画像のうち、76(20.7%)が成功した妊娠結果を有し、121の画像には胚の生存性に関する発生学者のスコアが含まれていた;及び
ブラインド検証データセット2:632の画像のうち、194(30.7%)が成功した妊娠結果を有し、477の画像には胚の生存性に関する発生学者のスコアが含まれていた。
データセットにおいて、全ての画像が、対応する発生学者のスコアを有しているわけではない。データセットのサイズ、並びに、発生学者のスコアを含むサブセットは、以下に列挙される。
アンサンブルベースのAIモデルを、3つの検証データセットに適用した。生存可能な胚の特定におけるアンサンブルモデルに対する全体的な精度の結果が、表2において示されている。2つのブラインド検証データセットに対する精度の結果が主要な精度指標であるが、検証データセットに対する結果が、完全性のために示されている。生存可能な胚を特定するための精度は、データセット内の生存可能な胚の総数によって割られた、アンサンブルモデルが生存可能として特定することができた生存可能な胚の数(すなわち、成功した妊娠結果を有した画像)の割合(このモデルによる50%以上の生存性スコア)として計算される。同様に、生存不可能な胚を特定するための精度は、データセット内の生存不可能な胚の総数によって割られた、アンサンブルモデルが生存不可能として特定することができた生存不可能な胚の数(すなわち、不成功の妊娠結果を有した画像)の割合(このモデルによる50%を下回る生存性スコア)として計算される。
Monash IVFで実行された検証の第1段階では、アンサンブルモデルの訓練された胚生存性評価モデルを、組み合わせて合計1000の画像(患者)で、既知の妊娠結果を有する胚画像の2つのブラインドデータセットに適用した。図9は、一実施形態による、胚生存性の特定におけるアンサンブルモデルの一実施形態の精度のプロット900である。結果は、アンサンブルモデル910が、2つのブラインド検証データセットを通した胚生存性の特定において67.7%の全体的な精度を有したことを示している。生存可能であるとして特定され、成功した結果につながった胚の数と、生存不可能として特定され、不成功の結果につながった胚の数を合計し、胚の総数で割ることによって、精度を計算した。アンサンブルモデルは、生存可能な胚の特定において74.1%の精度920を示し、生存不可能な胚の特定において65.3%の精度930を示した。これは、すでに発生学者によって予め選択され且つ患者に着床された胚のこの大きなデータセットにおける有意な精度の改善を表しており、わずか27%が、成功した妊娠結果をもたらした。
検証に関してさらに厳密にするために、検証に使用される画像のサブセットは、胚の生存性に関する関連する発生学者のスコアを有した(598の画像)。場合によっては、発生学者によって「生存不可能」としてスコア化された胚が、その患者にとって最も好ましい胚の選択肢であると考えられる場合、及び/又は患者の要求に応じて、低い成功の可能性にもかかわらず、依然として着床されることがある。胚のスコアを、発生学者の生存性の評価のグラウンドトゥルースとして使用し、リードしている発生学者と比較してアンサンブルモデルが機能するかを直接比較することが可能になる。
ブラインド検証データセット1又は2に対する最悪なケースの精度は、ブラインドデータセット1における生存可能な胚を特定することに対して63.2%、ブラインドデータセット2において生存不可能な胚を特定することに対して57.5%、及びブラインドデータセット2において全体的な精度に対して63.9%である。
表3は、ブラインドデータセット1及び2の両方にわたる総平均精度を示しており、これは、生存可能な胚を特定することに対して74.1%、生存不可能な胚を特定することに対して65.3%、並びに、生存可能な胚及び生存不可能な胚の両方にわたる総精度に対して67.7%である。
両方の表における精度の値は、胚の27%が成功した妊娠結果をもたらすこと、及び発生学者によって既に分析され、生存可能として又は同じバッチにおける他の胚よりも好ましいとして選択された胚画像をさらに分類するというアンサンブルモデルの困難なタスクを考慮すると高い。
Figure 2022528961000010
Figure 2022528961000011
表4は、モデルの精度を発生学者のものと比較した結果を示している。データセット内の全ての胚画像が胚スコアを有しているわけではないため、精度の値は、上記の表におけるものと異なっており、従って、以下の結果は、各データセットのサブセットにおける精度の値である。この表は、生存可能な胚の特定におけるモデルの精度が発生学者よりも高いことを示している。これらの結果は、図10の棒グラフ1000において例示されており、アンサンブルの結果1010は左側に、発生学者の結果1020は右側に例示されている。
Figure 2022528961000012
表5は、モデルが胚の生存性を正確に特定することができた回数と、発生学者ができなかった回数との比較、及びその逆の比較を示している。結果は、モデルが正確であり、発生学者が不正確であった場合と比較して、発生学者が正確であり、モデルが不正確であった場合の方が少ないことを示している。これらの結果は、図11において例示されている。この結果は、さらに、アンサンブルモデルの胚生存性評価モデルの高いレベルの性能及び精度を検証するものである。
Figure 2022528961000013
全体的にみて、アンサンブルモデルは、胚の生存性の特定において合計66.7%の精度を達成し、発生学者はそのスコアリング法に基づき51%の精度を達成した(図10)。15.7%のさらなる精度は、発生学者と比較したアンサンブルモデルに対する有意な30.8%の性能(精度)改善を表している(p=0.021,n=2,スチューデントのt検定)。具体的には、結果は、発生学者が不正確であった場合にアンサンブルモデルが胚生存性を148回正確に分類することができ、逆にアンサンブルモデルが不正確であった場合に発生学者は胚生存性を54回のみ正確に分類したことを示している。図11は、アンサンブルモデルの評価が不正確であった場合の発生学者が胚生存性を正確に特定したことと比較した、発生学者の評価が不正確である場合の胚生存性を正確に特定することにおける世界トップレベルの発生学者(臨床医)(バー1120)と比較したアンサンブルモデルの一実施形態の精度(バー1110)を示した棒グラフである。これらの結果は、世界トップレベルの発生学者と比較した場合の、生存可能及び生存不可能な胚の特定におけるアンサンブルモデルの明らかな利点を示している。Ovation Fertilityからの胚画像に対して、さらなる検証試験を行い、類似の結果を得た。
アンサンブルモデルのアプローチ及び技術を胚画像に適用して、生存可能な胚を正確に特定することができ且つ最終的にカップルに対するIVF結果の改善につながるモデルを作成することができるということを、成功した検証は実証している。次に、このモデルを、より大きなクリニック横断研究(cross clinic study)においてさらにテストした。
クリニック横断研究
オーストラリアのパイロット研究に続く、より一般的なクリニック横断研究では、10,000を超える胚画像が複数の人口統計学から供給された。これらの画像のうち、8,000を超える画像が、胚の生存性に対する発生学者のスコアに関している可能性がある。訓練のために、各画像は、ディープラーニング及びコンピュータビジョンアルゴリズムが胚の生存性に関するパターン及び特徴を特定するのを可能にするために、生存可能又は生存不可能としてラベルされる必要がある。
第1のクリニック横断研究では、アンサンブルモデルを開発するための2217の画像(及び関連づけられた結果)の使用可能なデータセットが、パイロット研究と同じ様式で3つのサブセット:訓練データセット、検証データセット、及びブラインド検証データセットに分割される。これらの研究には、クリニック:Ovation Fertility Austin、San Antonio IVF、Midwest Fertility Specialists、及びInstitute for Reproductive Health and Fertility Associates NZから供給されたデータが含まれる。これは:
訓練データセット:1744の画像-886の生存不可能、858の生存可能;
検証データセット:193の画像-96の生存不可能、97の生存可能;及び
ブラインド検証データセット1:280の画像-139の生存不可能、141の生存可能;
を含んだ。
訓練、検証、及びブラインド検証のフェーズの完了後、クリニック:Oregon Reproductive Medicineから供給された、完了した別個の人口統計学において第2の研究が実行される。このデータセットは:
ブラインド検証データセット2:286の画像-106の生存不可能、180の生存可能;
を含んだ。
第3の研究は、クリニック:Alpha Fertility Centreから供給されたEmbryoScope画像:
EmbryoScope検証データセット:62の画像-32の生存不可能、30の生存可能;
を利用する
訓練されたアンサンブルベースのAIモデルを作成する際に、同じ訓練データセットが、訓練される各モデルに対して使用されるため、それらを一貫した様式で比較することができる。
混合された人口統計学的ブラインド検証データセットに適用したアンサンブルベースのAIモデルに対する最終結果は、以下の通りである。総精度のまとめを表6において見ることができる。
Figure 2022528961000014
ヒストグラムとして表示される推論の分布が、図12及び13において示されている。図12は、研究1のブラインド検証データセットに適用した場合の、アンサンブルベースのAIモデルの実施形態を使用した、生存可能な胚(成功した臨床妊娠)に対する推論スコアの分布のプロット1200である。推論は0から1の間で正規化され、信頼スコアとして解釈することができる。モデルが正確である例が、太い下向きの斜線で満たされたボックス(真陽性1220)においてマークされ、モデルが正確ではない例は、細い上向きの斜線で満たされたボックス(偽陰性1210)においてマークされている。図13は、研究1のブラインド検証データセットに適用した場合の、アンサンブルベースのAIモデルの実施形態を使用した、生存不可能な胚(不成功の臨床妊娠)に対する推論スコアの分布のプロット1300である。推論は0から1の間で正規化され、信頼スコアとして解釈することができる。モデルが正確である例が、太い下向きの斜線で満たされたボックス(真陰性1320)においてマークされ、モデルが正確ではない例は、細い上向きの斜線で満たされたボックス(偽陽性1310)においてマークされている。2つのグループ間には明らかな隔たりがある。これらのヒストグラムは、正確に特定された胚画像と不正確に特定された胚画像との間に良好な隔たりを示しており、これは、モデルがブラインド検証セットに上手く移動されるという証拠を提供する。
図13は、偽陽性1310(細い上向きの斜線で満たされたボックス)において高いピークを有し、これは、図12における偽陰性に対する等価ヒストグラムでは顕著ではない。この影響の理由は、胚画像自体を介して特定することができない子宮瘢痕等の患者の健康因子の存在による可能性がある。これらの因子が存在するということは、理想的な胚であっても、成功した着床につながらない可能性があることを意味する。これは、胚画像分析のみを使用した成功した臨床妊娠の予測における精度の上限値も制限する。
胚の選択においては、潜在的に健康な胚を危険にさらす(偽陰性)よりも、生存不可能な胚が着床されるのを可能にすること(偽陽性)が優先的に広く考えられている。従って、アンサンブルベースのAIモデルを形成する最終的なアンサンブルベースのAIモデルを得る際に、可能であれば、優先的に偽陰性を最小化するために残差不正確性にバイアスをかける努力がなされた。従って、最終モデルは、特異度よりも高い感度を有し、すなわち、生存不可能な胚よりも生存可能な胚を選択することにおいてより高い精度を有することになる。偽陰性を最小化することに優先順位をつけるようにモデルにバイアスをかけるために、モデルは、可能であれば、生存可能な胚画像のセットに対するアンサンブルベースのAIモデルの精度が生存不可能な胚画像のセットに対する精度よりも高いように、最終的なアンサンブルベースのAIモデルに含めるために選択される。モデルが共に組み合わさって生存性精度にバイアスを与えるようにモデルを見つけることができない場合、訓練の間にさらなるパラメータが供給されることがあり、これは、生存可能な胚を誤って分類することに対するペナルティを増加させる。
総精度は、モデルの全体的な有効性を大まかに評価するのに有用であるけれども、異なる人口統計学に関する複雑さは必然的に平均化されている。従って、以下に記載されるように、様々な主要グループへの結果の分類を考慮することは指令的である。
研究1:人口統計学的横断
アンサンブルベースのAIモデルの挙動を調査するために、以下の人口統計学的グループが考慮される。第一に、Fertility Associates NZによって提供されたデータセットに対する精度は、米国を拠点とするクリニックの精度よりも低い。これは、おそらく、このクリニックからのデータに固有の多様性によるものであり、このデータに固有の多様性には、多くの異なる都市、カメラフィルター、及び輝度レベルが包含され、アンサンブルベースのAIモデルは、これらにわたる平均をとらなければならない。はるかに大きなデータセットにおけるAIのさらなる訓練は、それをファインチューニングの訓練データセットに組み込むことによってカメラの多様性を考慮することができると予測される。NZデータを含む及び除く精度が、表7及び8において示されている。
クリニックMidwest Fertility Associates及びSan Antonio IVFからの画像数が少ないため、サンプルサイズが個々に小さすぎて信頼できる精度測定を行うことができない。従って、それらの結果は、表7においてOvation Fertility Austinからの結果と共に組み合わされている。
Figure 2022528961000015
アンサンブルベースのAIモデルの精度に対する患者の年齢の影響についての研究も実行し、表7において示されている。35歳以上の患者に対応する胚画像はより正確に分類されることが分かった。年齢のカットオフが38歳に引き上げられると、精度は再び改善され、アンサンブルベースのAIモデルは、年齢と共により顕著になる形態学的特性に対してより感度が高いことを示した。
Figure 2022528961000016
胚が移植に先立ち孵化又は孵化なしのプロトコルで処理されているかどうかも考慮した。より大きな形態学的特徴を示す孵化した胚を、孵化していない胚よりもAIによってより容易に特定したが、前者の場合には特異度が低下したということが分かった。これはおそらく、孵化した胚と孵化していない胚の混合データセットにおいて訓練されたアンサンブルベースのAIモデルが、首尾よく孵化した胚を生存性と関連付ける傾向を有するという事実の結果である。
研究1:発生学者のランク付けの比較
アンサンブルベースのAIモデル及び発生学者の精度のまとめを、セクション5Aで考慮した同じ人口統計学的分類について表9及び10において見ることができる。この研究では、対応する発生学者スコアを有する胚画像のみが考慮されている。
元の発生学者の精度の割合として精度の差((AI_精度-発生学者_精度)/発生学者_精度)によって定められるように、精度における発生学者と比較したアンサンブルベースのAIモデルの改善率が引用されている。全画像数にわたる改善は31.85%であったけれども、改善因子は各所与のデータセットにおける発生学者の能力に対して非常に感度が高いため、改善は特定の人口統計学にわたって非常にばらつきがあることが分かった。
Fertility Associates NZの場合、発生学者は、他の人口統計学よりも有意に良好に機能し、アンサンブルベースのAIモデルを使用した場合に12.37%のみの改善につながった。Ovation Fertility Austin等、アンサンブルベースのAIモデルが非常に良好に機能した場合、改善は77.71%と高かった。発生学者と比較したアンサンブルベースのAIモデルの性能の比較は、表9及び10の両方の最後の2列に見られるように、その比較器が同じ画像を不正確に評価した場合の正確に評価された画像の総数においても反映されている。
Figure 2022528961000017
発生学者のスコアが、胚の前進又は停止(細胞の数、圧縮、桑実胚、胞胚腔形成、初期胚盤胞、完全胚盤胞、又は孵化した胚盤胞)の観点から胚のランクを表す数字又は用語法を有している場合に、アンサンブルベースのAIモデル及び発生学者の評価の有効性を比較する代替の研究を実行することができる。胚のランクの比較は、1~5にラベルされた5つの等しいバンド(最小推論から最大推論まで)にAI推論を分けながら、発生学者の評価を1から5の数値スコアと等しくすることによって行うことができる。アンサンブルベースのAIモデル及び発生学者のスコアの両方が1から5の整数で表現されると、ランク付け精度の比較は以下のように行われる。
所与の胚画像に、アンサンブルベースのAIモデル及び発生学者によって同じランクが与えられた場合、これは、一致として認められる。しかし、アンサンブルベースのAIモデルが発生学者よりも高いランクを与え、グラウンドトゥルースの結果が生存可能として記録された場合、又はアンサンブルベースのAIモデルが発生学者よりも低いランクを与え、グラウンドトゥルースの結果が生存不可能として記録された場合、この結果は、モデルが正確であるとして認められる。同様に、アンサンブルベースのAIモデルが発生学者よりも低いランクを与え、グラウンドトゥルースの結果が生存可能として記録された場合、又はアンサンブルベースのAIモデルがより高いランクを与え、結果が生存不可能として記録された場合、この結果は、モデルが不正確であるとして認められる。先に考慮した同じ人口統計学的分類について、一致、モデルが正確である、又はモデルが不正確であるとして評価された画像の割合のまとめを、表11及び12において見ることができる。モデルが正確である割合が高く、一致及びモデルが不正確である割合が低い場合に、アンサンブルベースのAIモデルは、データセットにおいて良好に機能したと考えられる。
Figure 2022528961000018
Figure 2022528961000019
Figure 2022528961000020
研究1の全ブラインドデータセットにわたる発生学者及びアンサンブルベースのAIモデルから得られたランクの分布の視覚表示を、それぞれ図14及び15のヒストグラムにおいて見ることができる。図14は、全ブラインドデータセットにわたる発生学者のスコアから得られたランクのヒストグラム1400であり、図15は、全ブラインドデータセットにわたるアンサンブルベースのAIモデル推論の実施形態から得られたランクのヒストグラム1500である。
図14及び15は、分布の形状が互いに異なっている。発生学者のスコアにおいては3のランクの値付近で優位性があり、1及び2の低いスコアに対して急激に低下しているけれども、アンサンブルベースのAIモデルは、2及び3の値付近でより均等のスコアの分布を有し、4のランクが優位のスコアである。図16は、アンサンブルベースのAIモデルから得られた推論スコアから直接抽出されており、推論スコアは、比較のために図13においてヒストグラムとして示されている。図12におけるランクは、図13におけるスコアのより粗いバージョンである。図16におけるより細かい分布は、(生存不可能と予測された)50%未満のスコア1610と、(生存可能と予測された)それ以上のスコア1620との間に明確な隔たりがあることを示している。これは、アンサンブルベースのAIモデルが、標準的なスコアリング法よりも胚のランク付けに関してより大きな粒度を提供し、より決定的な選択が達成されるのを可能にすることを示唆している。
研究2-二次ブラインド検証
研究2では、別のクリニックであるOregon Reproductive Medicineから胚画像が供給されて、二次ブラインド検証として使用した。関連付けられた臨床妊娠結果を有する画像の総数は286であり、サイズは、研究1におけるブラインド検証データセットと類似していた。混合人口統計学的ブラインド検証セットに適用したアンサンブルベースのAIモデルに対する最終結果を、表13において見ることができる。このブラインド検証では、研究1と比較して(66.43%-62.64%=3.49%)のみの精度の低下があり、これは、モデルが二次ブラインドセットまで横切って移動していることを示している。しかし、精度の低下は、生存不可能及び生存可能な胚にわたって均一ではない。感度は安定したままであるけれども、特異度は低下する。この試験では、(画質基準を満たしていない)古い(>1年の)Pixelink(登録商標)カメラから供給された183の低画質の画像を、研究の開始前に取り除いて、低画質の画像が、胚の生存性を正確に予測するアンサンブルベースのAIモデルに影響を及ぼすのを防いだ。
Figure 2022528961000021
この点をさらに調査するために、不均一なクロッピング、スケーリング(ぼかし)を導入するか、又は圧縮ノイズ(jpegアーチファクト等)を加えることによって胚画像を連続的に歪ませた別の研究を実行した。いずれの場合においても、アンサンブルベースのAIモデル予測の信頼性はアーチファクトが増加するに従い低下することが分かった。さらに、アンサンブルベースのAIモデルが歪んだ画像に生存不可能の予測を割り当てる傾向があることが分かった。これは、損傷を受けた胚の画像と正常な胚の損傷を受けた画像とを区別することができないアンサンブルベースのAIモデルの観点から理にかなっている。どちらの場合も、歪みはアンサンブルベースのAIモデルによって特定され、画像に生存不可能の予測を割り当てる可能性が高くなる。
この分析の確証として、Oregon Reproductive Medicineからの主な高画質の画像セットから取り除いた183のPixelinkカメラ画像のみにアンサンブルベースのAIモデルを適用し、結果が表14において示されている。
Figure 2022528961000022
歪んだ画像及び画質の悪い画像の場合(すなわち、画質評価に失敗した場合)に、アンサンブルベースのAIモデルの性能が低下するだけでなく、より大きな割合の画像が、生存不可能の予測に割り当てられるということが、表14から明らかである。代替のカメラ設定におけるアンサンブルベースのAIモデルの挙動のさらなる分析、及び結果を改善するためのそのようなアーチファクトを処理する方法が以下に論じられる。ヒストグラム1700及び1800として表示されている推論の分布が、図17及び18において示されている。ちょうど研究1と同じように、図17及び18はどちらも、生存可能な胚及び生存不可能な胚の両方に対する、正確な予測(1720;1820;太い下向きの斜線で満たされたボックス)と不正確な予測(1710;1810;細い上向きの斜線で満たされたボックス)との間の明確な隔たりを示している。図17と18との間の分布の形状も互いに類似しているが、偽陰性に対するものよりも、偽陽性率はより高い。
研究3-EmbryoScope検証
研究3では、完全に異なるカメラ設定から供給されたデータセットにおけるアンサンブルベースのAIモデルの潜在的性能が調査される。主に位相差顕微鏡画像において訓練されたアンサンブルベースのAIモデルをテストするつもりで、限られた数のEmbryoScope画像をAlpha Fertility Centreから得た。EmbryoScope画像は、インキュベーターのランプに由来する胚周囲のクリアで明るい輪と、この輪の外側の暗い領域を有しており、これは、研究1からの典型的な位相差顕微鏡画像には存在しない。いかなる追加的処理もなくEmbryoScope画像においてモデルを適用すると、予測にばらつきが生じ、高い割合で画像が生存不可能であると予測され、表15において示されているように、偽陰性率が高くなり、感度が低くなる。しかし、コンピュータビジョンイメージング技術を使用すると、画像をその期待される形態に近づけるための粗い一次通過の適用は、推論の有意なリバランシングをもたらし、精度を向上させる。
Figure 2022528961000023
このデータセットは小さいけれども、それにもかかわらず、画像の形態における変動性を低減するコンピュータビジョン技術を、アンサンブルベースのAIモデルの一般化可能性を改善するために使用することができるという証拠を提供する。発生学者との比較も実行した。スコアは、Alpha Fertility Centreによって直接提供されなかったけれども、胚は(偽陰性を回避するために)おそらく生存可能であると予測されるという保守的な仮定が、研究1の場合の真の発生学者の精度と非常に類似した精度をもたらすことがわかった。従って、このように仮定することによって、アンサンブルベースのAIモデルの精度と発生学者の精度との比較も、表16において示されているように、同じ方法で行うことができる。この研究では、33.33%の改善率が認められ、研究1から得られた全改善率31.85%と類似していた。
Figure 2022528961000024
推論の分布も、図19及び20において示されているように、この研究で得ることができる。図19は、アンサンブルベースのAIモデルを使用した、生存可能な胚(成功した臨床妊娠)に対する推論スコアの分布のプロット1900(偽陰性1910、細い上向きの斜線で満たされたボックス;真陽性1920、太い下向きの斜線で満たされたボックス)である。図20は、アンサンブルベースのAIモデルを使用した、生存不可能な胚(成功した臨床妊娠)に対する推論スコアの分布のプロット2000(偽陰性1220、細い上向きの斜線で満たされたボックス;真陽性2020、太い下向きの斜線で満たされたボックス)である。限られた研究のサイズ(62の画像)は、分布が非常に明確であるのを可能にしないけれども、それにもかかわらず、この場合、生存可能な胚及び生存不可能な胚の両方に対する正確である予測(1920、2020)と不正確である予測(1910、2010)との隔たりがはるかに不明瞭であることを観察することができる。これは、EmbryoScopeカメラの設定とは全く異なるアーチファクトとしてのさらなる特徴を示す画像に対して予測されることになる。これらのさらなるアーチファクトは、画像にノイズを効果的に加え、胚の健康を示す関連する特徴を抽出することをより困難にする。
さらに、生存可能カテゴリにおける精度は生存不可能カテゴリよりも有意に低く、高い偽陰性率をもたらす。しかし、この効果は画像の予備的なコンピュータビジョン処理の後でさえはるかに低減され、異なるカメラソースからの画像の取扱いの改善に対する証拠を提供することが分かった。加えて、その後の訓練又はファインチューニングフェーズの間のEmbryoScope画像の追加も、性能改善につながることが期待される。
要約
顕微鏡画像に基づく胚の生存性を予測するためのディープラーニングモデル及びコンピュータビジョンモデルを含むAIモデルの有効性を、オーストラリアのパイロット研究及び3つのクリニック横断研究において調査して、一般的なアンサンブルベースのAIモデルを開発した。
単一のオーストラリアのクリニックを含むパイロット研究は、胚生存性の特定において67.7%の全体的な精度、生存可能な胚に対する74.1%の精度、及び生存不可能な胚に対する65.3%の精度をもたらすことができた。これによって、発生学者の分類率は30.8%改善される。これらの結果の成功によって、より徹底的なクリニック横断研究が促進された。
3つの別個のクリニック横断研究では、米国、ニュージーランド、及びマレーシアにわたる異なるクリニックからの様々な人口統計学において、一般的なAI選択モデルを開発、検証、及びテストした。研究1では、アンサンブルベースのAIモデルは、クリニックの各々からの発生学者と比較した場合に高い精度を達成することができ、クリニック横断のブラインド検証研究では31.85%の平均改善率を有し、オーストラリアのパイロット研究での改善率と類似していることが分かった。加えて、アンサンブルベースのAIモデルから得られた推論スコアの分布は、生存可能な胚及び生存不可能な胚の両方についての正確である予測と不正確である予測との間に明確な隔たりを示し、これは、モデルが将来のブラインドデータセットまで正しく移動しているという証拠を提供する。
発生学者スコアとの比較研究を、胚ランクの順位の影響を考慮するために発展させた。アンサンブルベースのAIモデルの推論及び発生学者のランクを1から5の整数に変換することによって、発生学者と比較して、胚を最も生存可能なものから最も生存可能でないものへランク付けすることにおいて、アンサンブルベースのAIモデルがどのように異なるかについて直接比較することができた。アンサンブルベースのAIモデルはここでも発生学者よりも性能が優れており、40.08%の画像に改善されたランクが与えられたが、25.19%の画像のみにより悪いランクが与えられ、34.73%の画像はそれらのランクに変化がなかったということが分かった。
アンサンブルベースのAIモデルを、第2のブラインド検証セットに適用し、研究1の数%以内の精度を示した。損傷を受けたか又は歪んだ画像において機能するアンサンブルベースのAIモデルの能力も評価した。標準的な位相差顕微鏡画像に適合しない画像、又は低画質の、ぼやけた、圧縮された、又は不十分にクロップされた画像は、おそらく生存不可能として評価されることになり、予測される胚画像におけるアンサンブルベースのAIモデルの信頼性は低下することが分かった。
異なるカメラハードウェアの問題点を理解し、研究の結果にどのように影響するかを理解するために、EmbryoScope画像のデータセットが得られ、このデータセットに単純に適用した場合のアンサンブルベースのAIモデルは、研究1の元のセットにおいて達成された高い精度には達しないことが分かった。しかし、アーチファクトを処理し、EmbryoScope画像において系統的に存在するノイズを低減するための画像の予備的なデータクリーニング処理は、結果を著しく改善し、アンサンブルベースのAIモデルの精度を研究1でのその最適値にかなり近づけた。より大きくより多様なデータセットを訓練プロセスに組み込み、従って、時間の経過に伴い自己改善することができるようにモデルをファインチューニングすることによって改善されることになるアンサンブルベースのAIモデルの能力のため、本願における3つの研究は、近い将来における胚生存性のロバストで一貫した評価のための重要で不可欠なツールとしてのAIモデルの有効性に対して、説得力のある証拠を提供する。
さらに、上記の例は、EmbryoScopeシステム及び光学顕微鏡からの位相差画像を使用しているけれども、さらなるテストは、当該方法が、様々なイメージングシステムを使用してキャプチャされた画像において使用され得ることを示している。この試験は、当該方法が、ビデオ及びタイムラプスシステムから抽出された画像を含む、様々な画像センサ及び画像(すなわち、単なる胎児鏡及び位相差画像を超えるもの)に対してロバストであることを示している。ビデオ及びタイムラプスシステムから抽出された画像を使用する場合、基準キャプチャ時点を定めることができ、そのようなシステムから抽出された画像は、この基準キャプチャ時点に最も近い時間の画像、又は基準時間の後にキャプチャされた最初の画像であってもよい。選択した画像が最低限の品質基準を満たすことを確実にするために、品質評価を画像において行うことができる。
1つ以上のディープラーニングモデルを使用して画像から胚生存性スコアを生成するように構成されたAIモデルの計算的生成のための方法及びシステムの実施形態が記載されてきた。訓練のための胚画像の新しいセットが与えられると、画像をセグメントに分けて、画像を主要な形態学的構成要素に注釈付けする透明帯及びIZC領域を特定することによって、胚生存性を推定するための新しいAIモデルを生成することができる。次に、少なくとも1つの透明帯ディープラーニングモデルが、透明帯マスク画像において訓練される。一部の実施形態において、ディープラーニングモデル及び/又はコンピュータビジョンモデルを含む複数のAIモデルが生成され、安定性、検証セットからブラインドテストセットへの転移性を示すモデルが選択され、予測精度が保持される。これらのAIモデルを、例えば、信頼性に基づく投票戦略を使用して組み合わされるモデルを対照及び多様性基準に基づき選択するアンサンブルモデルを使用して組み合わせることができる。適したAIモデルが訓練されると、新たに収集した画像の生存性を推定するように展開させることができる。これは、クラウドサービスとして提供することができ、IVFクリニック又は発生学者が、キャプチャした画像をアップロードし、生存性スコアを取得して、胚を着床させるかどうかの決定、又は、複数の胚が利用可能な場合に、どの(1つ又は複数の)胚が最も生存可能である可能性が高いかの選択を支援するのを可能にする。展開は、モデル係数及びモデルメタデータをファイルにエクスポートし、次に、別のコンピューティングシステムにロードして新しい画像を処理すること、又は、計算システムを再構成して、新しい画像を受信し、生存性の推定値を生成することを含んでもよい。
アンサンブルベースのAIモデルの実装は、多数の選択肢を含み、本明細書において記載される実施形態は、いくつかの新規且つ有利な特徴を含む。透明帯及びIZC領域を特定するためのセグメンテーション、物体検出、画像の正規化、画像のクロッピング、古い画像又は非適合画像(例えば、アーティファクトを有する画像)の除去等の画像クリーニング等、画像前処理ステップを行うことができる。
ディープラーニングモデルに関連して、透明帯を特定するためのセグメンテーションの使用は有意な効果を有し、最終的なアンサンブルベースのAIモデルは、4つの透明帯モデルを特徴としている。最終モデルは、8のディープラーニングAIモデルのアンサンブルを含み、さらなるディープラーニングモデルは、一般的に、コンピュータビジョンモデルよりも性能が優れていることが分かった。しかし、透明帯画像に基づく単一のAIモデル、又はディープラーニングとCVモデルとの組み合わせを含むアンサンブル(若しくは類似の)AIモデルを使用して、有用な結果を依然として生成することができる。従って、ディープラーニングに先立ちセグメンテーションが行われるいくつかのディープラーニングモデルの使用が好ましく、アンサンブルベースのAIモデルにおいて使用するための対照的なディープラーニングモデルの作成を支援する。画像拡張も、ロバスト性を改善することが分かった。良好に機能したいくつかのアーキテクチャは、ResNet-152及びDenseNet-161を含んだ(しかし、他の異形も使用することができる)。同様に、確率的勾配降下法は、一般的に、(Adamが続く)ほぼ全ての試験において、ニューロンの重みを変えるための全ての他の最適化プロトコルよりも性能が優れていた。大域最適解をより明らかにするために最適化サーフェスを修正したカスタム損失関数の使用は、ロバスト性を改善した。訓練前のデータセットの無作為化、特にデータセットの分布がテスト及び訓練セットにわたって均等(又は類似)であることをチェックすることも、有意な効果を有すると分かった。生存可能な胚の画像は非常に多様であり、従って、無作為化をチェックすることで、多様性の影響に対するロバスト性が提供される。アンサンブルベースのAIモデルを構築するために、選択プロセスを使用して対照的なモデルを選ぶこと(すなわち、それらの結果は可能な限り独立しており、スコアは十分に分布している)も、性能を改善した。これは、2つのモデルに対して、生存可能な画像のセットにおける重複を調べることによって評価することができる。偽陰性の減少の優先順位付け(すなわち、データクレンジング)も、精度の改善を支援する。本明細書において記載されているように、胚生存性評価モデルの場合、体外受精後5日目に撮影された画像を使用したモデルは、(例えば、4日目又はそれ以前等)それより前の画像を使用して得られたモデルよりも性能が優れていた。
コンピュータビジョン及びディープラーニング法を使用したAIモデルは、これらの有利な特徴のうち1つ以上を使用して生成することができ、胚以外の他の画像セットに適用することができた。図1を参照すると、胚モデル100は、別のモデルに置き換えられ、訓練され、医学的性質であるか否かにかかわらず、他の画像データにおいて使用され得る。当該方法は、アンサンブルベースのディープラーニングモデルを含むディープラーニングベースのモデルに対しても、より一般的であり得る。これらを、図3A及び3Bにおいて例示され且つ上記のもの等のシステムを使用して訓練及び実装することができた。
本明細書において記載されているように訓練されたモデルは、新しい画像を分類するために有用に展開することができ、従って、発生学者が着床の決定を行うのを支援し、従って、成功率(すなわち、妊娠)を増加させることができる。アンサンブルベースのAIモデルの一実施形態の広範な試験を行い、その試験では、アンサンブルベースのAIモデルを、体外受精後5日目に撮影された胚の画像から胚の胚生存性スコアを生成するように構成した。この試験によって、モデルが生存可能な胚と生存不可能な胚とを明確に隔てることが示され(図13を参照)、表10から12及び図14から16は、このモデルが発生学者よりも性能が優れていることを例示している。特に、上記の研究において例示されているように、アンサンブルベースのAIモデルの一実施形態は、生存可能な胚を特定すること(74.1%)及び生存不可能な胚を特定すること(65.3%)の両方において高い精度を有し、30%以上、画像の生存性を評価することにおいて経験豊富な発生学者よりも有意に性能が優れていることが分かった。
当業者は、情報及び信号が種々のテクノロジー及び技術のいずれかを使用して表現され得ることを理解するであろう。例えば、上記の説明全体を通して言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、及びチップは、電圧、電流、電磁波、磁場若しくは磁性粒子、光学場若しくは光学粒子、又はそれらの任意の組み合わせによって表現されてもよい。
当業者は、さらに、本明細書において開示される実施形態に関連して記載される様々な例示的な論理ブロック、モジュール、回路、及びアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェア若しくは命令、ミドルウェア、プラットフォーム、又はそれらの組み合わせとして実装され得ることを正しく理解するであろう。ハードウェア及びソフトウェアのこの互換性を明確に例示するために、様々な例示的な構成要素、ブロック、モジュール、回路、及びステップが、それらの機能性の観点から一般的に記載されてきた。そのような機能性がハードウェア又はソフトウェアとして実装されるかどうかは、特定の用途及びシステム全体に課される設計上の制約次第である。当業者は、各特定の用途に対して様々な方法で、記載される機能性を実装することができるが、そのような実装決定は、本発明の範囲から逸脱させるものとして解釈されるべきではない。
本明細書において開示される実施形態に関連して記載される方法又はアルゴリズムのステップは、ハードウェアにおいて、プロセッサによって実行されるソフトウェアモジュールにおいて、又はクラウドベースのシステムを含む2つの組み合わせにおいて直接具体化されてもよい。ハードウェア実装のために、処理が、1つ以上の特定用途向け集積回路(ASICs)、デジタルシグナルプロセッサ(DSPs)、デジタル信号処理デバイス(DSPDs)、プログラマブルロジックデバイス(PLDs)、フィールドプログラマブルゲートアレイ(FPGAs)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、若しくは本明細書において記載される機能を行うように設計された他の電子ユニット、又はそれらの組み合わせ内で実装されてもよい。様々なミドルウェア及びコンピューティングプラットフォームが使用されてもよい。
一部の実施形態において、プロセッサモジュールは、方法のステップの一部を行うように構成された1つ以上の中央処理装置(CPUs)又はグラフィックスプロセッシングユニット(GPU)を含む。同様に、計算装置は、1つ以上のCPU及び/又はGPUを含んでもよい。CPUは、入出力インターフェース、演算装置(ALU)、並びに、入出力インターフェースを介して入力及び出力装置と通信する制御装置及びプログラムカウンタ要素を含んでもよい。入出力インターフェースは、既定の通信プロトコル(例えば、Bluetooth(登録商標)、Zigbee、IEEE 802.15、IEEE 802.11、TCP/IP、UDP等)を使用して、別のデバイスにおける同等の通信モジュールと通信するためのネットワークインターフェース及び/又は通信モジュールを含んでもよい。計算装置は、単一のCPU(コア)若しくは複数のCPU(マルチコア)、又は複数のプロセッサを含んでもよい。計算装置は、典型的には、GPUクラスタを使用するクラウドベースの計算装置であるが、パラレルプロセッサ、ベクトルプロセッサ、又は分散コンピューティングデバイスであってもよい。メモリが、1つ又は複数のプロセッサに動作可能に結合され、RAM及びROM構成要素を含んでもよく、デバイス又はプロセッサモジュールの内部又は外部に提供されてもよい。オペレーティングシステム及びさらなるソフトウェアモジュール又は命令を格納するためにメモリを使用することができる。1つ又は複数のプロセッサは、メモリに格納されたソフトウェアモジュール又は命令をロード及び実行するように構成されてもよい。
コンピュータプログラム、コンピュータコード、又は命令としても知られるソフトウェアモジュールは、多数のソースコード又はオブジェクトコードのセグメント又は命令を有してもよく、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD-ROM、DVD-ROM、ブルーレイディスク、又は任意の他の形態のコンピュータ読み取り可能媒体等、任意のコンピュータ読み取り可能媒体内に存在してもよい。一部の態様において、コンピュータ読み取り可能媒体は、非一時的なコンピュータ読み取り可能媒体(例えば、有形媒体等)を含んでもよい。加えて、他の態様では、コンピュータ読み取り可能媒体は、一時的なコンピュータ読み取り可能媒体(例えば、信号等)を含んでもよい。上記の組み合わせも、コンピュータ読み取り可能媒体の範囲内に含まれるべきである。別の態様では、コンピュータ読み取り可能媒体は、プロセッサに一体化されてもよい。プロセッサ及びコンピュータ読み取り可能媒体は、ASIC又は関連装置内に存在してもよい。ソフトウェアコードは、メモリユニットに格納されてもよく、プロセッサは、それらを実行するように構成されてもよい。メモリユニットは、プロセッサ内に実装されてもよく、又はプロセッサの外部に実装されてもよく、その場合、当技術分野において既知の様々な手段を介してプロセッサに通信的に結合することができる。
さらに、本明細書において記載される方法及び技術を行うためのモジュール及び/又は他の適切な手段は、ダウンロードすることができる及び/又は他の方法で計算装置によって得ることができるということが正しく理解されるべきである。例えば、そのような装置は、本明細書において記載される方法を行うための手段の転送を容易にするためにサーバに結合することができる。或いは、計算装置が、記憶手段を装置に結合又は提供する際に様々な方法を得ることができるように、本明細書において記載される様々な方法は、記憶手段(例えば、RAM、ROM、コンパクトディスク(CD)又はフロッピーディスク等の物理記憶媒体等)を介して提供することができる。さらに、本明細書において記載される方法及び技術を装置に提供するための任意の他の適した技術を利用することができる。
本明細書において開示される方法は、記載される方法を達成するための1つ以上のステップ又はアクションを含む。当該方法のステップ及び/又はアクションは、特許請求の範囲から逸脱することなく、互いに交換されてもよい。言い換えると、特定のステップ又はアクションの順序が指定されない限り、特定のステップ及び/又はアクションの順序及び/又は使用を、特許請求の範囲から逸脱することなく修正することができる。
本明細書及び添付の特許請求の範囲を通して、文脈上他の意味に解すべき場合を除き、「含む」という用語及び「含んでいる」等の変形は、記載された整数又は整数のグループを含むことを意味するが、任意の他の整数又は整数のグループを除外することは意味しないと理解されることになる。
本明細書における任意の先行技術の参照は、そのような先行技術が技術常識の一部を形成することを示唆する何らかの形態の認知ではなく、そのように解釈されるべきではない。
本開示は、その使用において、記載される特定の1つ又は複数の用途に限定されないことが、当業者によって正しく理解されることになる。また、本開示は、その好ましい実施形態において、本明細書において記載される又は描かれる特定の要素及び/又は特徴に関して限定されない。本開示は、開示される1つ又は複数の実施形態に限定されるものではないが、添付の特許請求の範囲によって明記され且つ定められた範囲から逸脱することなく、多くの再構成、修正、及び置換が可能であることが正しく理解されることになる。

Claims (32)

  1. 画像から胚生存性スコアを推定するように構成された人工知能(AI)モデルを計算的に生成する方法であって、
    複数の画像及び関連するメタデータを受信するステップであり、各画像は、体外受精(IVF)後の所定の時間窓の間にキャプチャされ、前記所定の時間窓は、24時間以内であり、前記画像に関連するメタデータは、少なくとも妊娠結果ラベルを含む、ステップと、
    少なくとも、透明帯領域を特定するために前記画像をセグメントに分けることを含む、各画像を前処理するステップと、
    ディープラーニング法を使用して少なくとも1つの透明帯ディープラーニングモデルを訓練することによって入力画像から胚生存性スコアを生成するように構成された人工知能(AI)モデルを生成するステップであり、透明帯領域が特定された透明帯画像のセットにおいてディープラーニングモデルを訓練することを含み、関連する前記妊娠結果ラベルが、訓練されたモデルの精度を評価するために少なくとも使用される、ステップと、
    前記AIモデルを展開させるステップと、
    を含む方法。
  2. 前記透明帯画像のセットは、前記透明帯領域によって境界がつけられた領域がマスクされた画像を含む、請求項1に記載の方法。
  3. 前記AIモデルを生成するステップは、前記AIモデルを生成するために、1つ以上のさらなるAIモデルを訓練することであって、各さらなるAIモデルが、胚生存性スコアを推定するために、画像から抽出された1つ以上のコンピュータビジョン記述子の組み合わせを使用する機械学習法を使用して訓練されたコンピュータビジョンモデル、透明帯領域及びIZC領域の両方を含む胚に局在化された画像において訓練されたディープラーニングモデル、及び、透明帯内空洞(IZC)を除いた全ての領域がマスクされたIZC画像のセットにおいて訓練されたディープラーニングモデルのいずれかである、1つ以上のさらなるAIモデルを訓練することと、前記少なくとも1つの透明帯ディープラーニングモデル及び前記1つ以上のさらなるAIモデルのうち少なくとも2つを組み合わせて、入力画像から前記AIモデルの胚生存性スコアを生成するためにアンサンブル法を使用すること、又は、前記少なくとも1つの透明帯ディープラーニングモデル及び前記1つ以上のさらなるAIモデルを使用して、AIモデルを訓練して前記AIモデルの胚生存性スコアを生成するために蒸留法を使用することと、をさらに含む、請求項1又は2に記載の方法。
  4. 前記AIモデルは、前記少なくとも1つの透明帯ディープラーニングモデル及び前記1つ以上のさらなるAIモデルから少なくとも2つの対照的なAIモデルを選択することであり、AIモデルの選択は、対照的なAIモデルのセットを生成するために行われることと、選択された前記少なくとも2つの対照的なAIモデルをどのように組み合わせて画像に対する結果スコアを生成するかを定める投票戦略を前記少なくとも2つの対照的なAIモデルに適用することと、を含むアンサンブルモデルを使用して生成される、請求項3に記載の方法。
  5. 少なくとも2つの対照的なAIモデルを選択することは、
    前記少なくとも1つの透明帯ディープラーニングモデル及び前記1つ以上のさらなるAIモデルの各々に対して、画像のセットから胚生存性スコアの分布を生成することと、
    前記分布を比較し、関連する分布が別の分布と類似し過ぎて、対照的な分布を有するAIモデルを選択することができない場合にモデルを廃棄することと、
    を含む、請求項3に記載の方法。
  6. 前記所定の時間窓は、受精後5日目に始まる24時間タイマー期間である、請求項1乃至5のいずれか一項に記載の方法。
  7. 前記妊娠結果ラベルは、胚移植後12週間以内に行われるグラウンドトゥルースの妊娠結果測定である、請求項1乃至6のいずれか一項に記載の方法。
  8. 前記グラウンドトゥルースの妊娠結果測定は、胎児の心拍が検出されるかどうかである、請求項7に記載の方法。
  9. 前記複数の画像をクリーニングするステップをさらに含み、前記複数の画像をクリーニングするステップは、おそらく不正確な妊娠結果ラベルを有する画像を特定することと、前記特定された画像を排除するか又は再度ラベルすることと、を含む、請求項1乃至8のいずれか一項に記載の方法。
  10. 前記複数の画像をクリーニングするステップは、画像に関連する妊娠結果ラベルが不正確である可能性を推定することと、閾値と比較し、次に、前記閾値を超える可能性を有する画像を排除するか又は再度ラベルすることと、を含む、請求項9に記載の方法。
  11. 画像に関連する妊娠結果ラベルが不正確である可能性を推定することは、複数のAI分類モデル、及び、複数の画像がkの相互に排他的な検証データセットに分割されるk分割交差検証法を使用することによって行われ、前記複数のAI分類モデルの各々が、組み合わされたk-1の検証データセットにおいて訓練され、次に、残りの検証データセット内の画像を分類するために使用され、画像の妊娠結果ラベルを誤って分類するAI分類モデルの数に基づき、前記可能性が決定される、請求項10に記載の方法。
  12. 各AIモデルを訓練すること又は前記アンサンブルモデルを生成することは、少なくとも1つの精度測定基準及び少なくとも1つの信頼度測定基準を含む複数の測定基準、又は精度及び信頼度を組み合わせる1つの測定基準を使用して、AIモデルの性能を評価することを含む、請求項1乃至11のいずれか一項に記載の方法。
  13. 前記画像を前処理するステップは、ディープラーニング又はコンピュータビジョン法を使用して前記画像内の胚を局在化することによって前記画像をクロップすることをさらに含む、請求項1乃至12のいずれか一項に記載の方法。
  14. 前記画像を前処理するステップは、前記画像に対してパディングを行うこと、カラーバランスを正規化すること、輝度を正規化すること、及び前記画像を既定の解像度にスケール調整することのうち1つ以上をさらに含む、請求項1乃至13のいずれか一項に記載の方法。
  15. AIモデルの訓練に使用するための1つ以上の拡張画像を生成するステップをさらに含む、請求項1乃至14のいずれか一項に記載の方法。
  16. 画像に1つ以上の回転、反射、サイズ変更、ぼかし、コントラスト変化、ジッタ、又はランダム圧縮ノイズを適用することによって、拡張画像が生成される、請求項1乃至15のいずれか一項に記載の方法。
  17. AIモデルの訓練中に、前記訓練セット内の画像ごとに1つ以上の拡張画像が生成され、前記検証セットの評価中に、前記1つ以上の拡張画像に対する結果が組み合わされて、前記画像に対する単一の結果が生成される、請求項15又は16に記載の方法。
  18. 前記画像を前処理するステップは、1つ以上の特徴記述子モデルを使用して前記画像に注釈を付けることと、前記記述子のキーポイントの所与の半径内の領域を除いて、前記画像の全ての領域をマスクすることと、をさらに含む、請求項1乃至17のいずれか一項に記載の方法。
  19. 各AIモデルは結果スコアを生成し、前記結果スコアにおいては、結果が、n状態を有するn項の結果であり、AIモデルを訓練することは、複数の訓練検証サイクルを含み、訓練データセットが前記画像の少なくとも60%を含み、検証データセットが前記画像の少なくとも10%を含み、ブラインド検証データセットが前記画像の少なくとも10%を含むように、前記複数の画像を、訓練セット、検証セット、又はブラインド検証セットのうち1つに無作為に割り当て、前記画像を前記訓練セット、前記検証セット、及び前記ブラインド検証セットに割り当てた後、前記訓練セット、前記検証セット、及び前記ブラインド検証セットの各々における前記n項の結果の状態の各々の頻度を計算し、前記頻度が類似していることをテストし、前記頻度が類似していない場合は、前記割り当てを廃棄し、前記頻度が類似する無作為化が得られるまで、前記無作為化を繰り返すことをさらに含む、請求項1乃至18のいずれか一項に記載の方法。
  20. コンピュータビジョンモデルを訓練することは、複数の訓練検証サイクルを行うことを含み、各サイクルの間に、前記画像は、教師なしクラスタリングアルゴリズムを使用して、前記コンピュータビジョン記述子に基づきクラスタ化されて、クラスタのセットが生成され、各画像は、前記画像の前記コンピュータビジョン記述子の値に基づき距離測度を使用して、クラスタに割り当てられ、教師あり学習法が、これらの特徴の特定の組み合わせが、前記複数の画像における各コンピュータビジョン記述子の存在の結果尺度及び頻度情報に対応するかどうかを決定するために使用される、請求項3に記載の方法。
  21. 各ディープラーニングモデルは、畳み込みニューラルネットワーク(CNN)であり、入力画像に対して、各ディープラーニングモデルは、結果確率を生成する、請求項1乃至20のいずれか一項に記載の方法。
  22. 前記ディープラーニング法は、最適化サーフェスを修正するように構成された損失関数を使用して、大域最適解を強調することである、請求項1乃至21のいずれか一項に記載の方法。
  23. 前記損失関数は、前記ネットワークの重みに関して定められる残差項を含み、前記残差項は、前記モデルからの予測値と各画像に対するターゲットとなる結果における集合的な差をエンコードし、それを、正常の交差エントロピー損失関数へのさらなる寄与として含む、請求項1乃至22のいずれか一項に記載の方法。
  24. 前記方法は、ウェブサーバ、データベース、及び複数の訓練サーバを使用してクラウドベースのコンピューティングシステム上で行われ、前記ウェブサーバは、ユーザから1つ以上のモデル訓練パラメータを受信し、前記ウェブサーバは、前記複数の訓練サーバのうち1つに訓練コードをアップロードすることを含む訓練プロセスを前記複数の訓練サーバのうち1つ以上で開始し、前記訓練サーバは、データリポジトリから前記複数の画像及び関連するメタデータを要求し、各画像を準備するステップ、複数のコンピュータビジョンモデルを生成するステップ、及び複数のディープラーニングモデルを生成するステップを行い、各訓練サーバは、前記モデルを記憶サービスに、及び精度情報を1つ以上のログファイルに定期的に保存して、訓練プロセスが再始動されるのを可能にするように構成される、請求項1乃至23のいずれか一項に記載の方法。
  25. 前記アンサンブルモデルは、残差にバイアスをかけて偽陰性を最小化するように訓練される、請求項1乃至24のいずれか一項に記載の方法。
  26. 前記胚生存性スコアは、生存可能又は生存不可能のバイナリ結果である、請求項1乃至25のいずれか一項に記載の方法。
  27. 各画像は位相差画像である、請求項1乃至26のいずれか一項に記載の方法。
  28. 画像から胚生存性スコアを計算的に生成する方法であって、
    計算システムにおいて、請求項1乃至27のいずれか一項に記載の方法に従って、画像から胚生存性スコアを生成するように構成された人工知能(AI)モデルを生成するステップと、
    前記計算システムのユーザインターフェースを介してユーザから、体外受精(IVF)後の所定の時間窓の間にキャプチャされた画像を受信するステップと、
    前記AIモデルを生成するために使用される前記前処理するステップに従って、前記画像を前処理するステップと、
    前記胚生存性スコアの推定値を得るために、前記前処理された画像を前記AIモデルに提供するステップと、
    前記ユーザインターフェースを介して前記ユーザに前記胚生存性スコアを送信するステップと、
    を含む方法。
  29. 画像から胚生存性スコアを得る方法であって、
    請求項1乃至27のいずれか一項に記載の方法に従って生成された、画像から胚生存性スコアを生成するように構成されたクラウドベースの人工知能(AI)モデルに、体外受精(IVF)後の所定の時間窓の間にキャプチャされた画像を、ユーザインターフェースを介してアップロードするステップと、
    前記ユーザインターフェースを介して、前記クラウドベースのAIモデルから胚生存性スコアを受信するステップと、
    を含む方法。
  30. 請求項1乃至27のいずれか一項に記載の方法に従って、画像から胚生存性スコアを推定するように構成された人工知能(AI)モデルを計算的に生成するように構成されたクラウドベースの計算システム。
  31. 画像から胚生存性スコアを計算的に生成するように構成されたクラウドベースの計算システムであって、前記計算システムは、
    請求項1乃至27のいずれか一項に記載の方法に従って生成された、画像から胚生存性スコアを生成するように構成された人工知能(AI)モデル、
    前記計算システムのユーザインターフェースを介してユーザから、体外受精(IVF)後の所定の時間窓の間にキャプチャされた画像を受信すること、
    前記AIモデルに前記画像を提供して、胚生存性スコアを得ること、及び
    前記ユーザインターフェースを介して前記ユーザに前記胚生存性スコアを送信すること、
    を含む、計算システム。
  32. 画像から胚生存性スコアを生成するように構成された計算システムであって、前記計算システムは、少なくとも1つのプロセッサと、少なくとも1つのメモリとを含み、前記少なくとも1つのメモリは、
    体外受精(IVF)後の所定の時間窓の間にキャプチャされた画像を受信する、
    請求項1乃至27のいずれか一項に記載の方法に従って生成された、画像から胚生存性スコアを生成するように構成されたクラウドベースの人工知能(AI)モデルに、ユーザインターフェースを介して、前記体外受精(IVF)後の所定の時間窓の間にキャプチャされた画像をアップロードする、
    前記クラウドベースのAIモデルから胚生存性スコアを受信する、
    前記ユーザインターフェースを介して前記胚生存性スコアを表示する、
    ように前記少なくとも1つのプロセッサを構成するための命令を含む、計算システム。
JP2021560476A 2019-04-04 2020-04-02 胚を選択する方法及びシステム Pending JP2022528961A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AU2019901152 2019-04-04
AU2019901152A AU2019901152A0 (en) 2019-04-04 Method and system for selecting embryos
PCT/AU2020/000027 WO2020198779A1 (en) 2019-04-04 2020-04-02 Method and system for selecting embryos

Publications (1)

Publication Number Publication Date
JP2022528961A true JP2022528961A (ja) 2022-06-16

Family

ID=72664320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021560476A Pending JP2022528961A (ja) 2019-04-04 2020-04-02 胚を選択する方法及びシステム

Country Status (6)

Country Link
US (1) US20220198657A1 (ja)
EP (1) EP3948772A4 (ja)
JP (1) JP2022528961A (ja)
CN (1) CN113906472A (ja)
AU (1) AU2020251045A1 (ja)
WO (1) WO2020198779A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102558551B1 (ko) * 2022-09-15 2023-07-24 주식회사 카이헬스 체외 수정에 대한 정보 제공 방법 및 이를 이용한 체외 수정에 대한 정보 제공용 디바이스

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
CN115512173A (zh) 2018-10-11 2022-12-23 特斯拉公司 用于使用增广数据训练机器模型的系统和方法
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US10725438B1 (en) * 2019-10-01 2020-07-28 11114140 Canada Inc. System and method for automated water operations for aquatic facilities using image-based machine learning
US20220012873A1 (en) * 2020-07-10 2022-01-13 Embryonics LTD Predicting Embryo Implantation Probability
WO2022031765A1 (en) * 2020-08-03 2022-02-10 Emgenisys, Inc. Embryo evaluation based on real-time video
US20220051788A1 (en) * 2020-08-17 2022-02-17 Fertility Guidance Technologies Methods and systems for dynamic automation of quality control and information management for an in vitro fertilization (ivf) laboratory
CN112635060B (zh) * 2020-12-29 2023-11-14 北京航空航天大学合肥创新研究院 一种生存力评估方法、装置、评估设备及存储介质
WO2022150914A1 (en) * 2021-01-12 2022-07-21 Trio Fertility Research Inc. Systems and methods for non-invasive preimplantation embryo genetic screening
TWI806006B (zh) * 2021-02-20 2023-06-21 緯創資通股份有限公司 熱影像定位方法及其系統
US20220293219A1 (en) 2021-03-09 2022-09-15 Thread Robotics Inc. System and method for dfi-based gamete selection
US20220383497A1 (en) * 2021-05-28 2022-12-01 Daniel Needleman Automated analysis and selection of human embryos
WO2023023263A1 (en) * 2021-08-18 2023-02-23 Cercle.Ai, Inc. Wisdom based decision system
WO2023081446A1 (en) 2021-11-05 2023-05-11 Thread Robotics Inc. System and method for automated cell positioning
WO2023121575A1 (en) * 2021-12-23 2023-06-29 Kodmed Saglik Ve Bilisim Teknolojileri A.S Determining the age and arrest status of embryos using a single deep learning model
WO2024019963A1 (en) * 2022-07-17 2024-01-25 Fertility Basics, Inc. Moderated communication system for infertility treatment
CN115272303B (zh) * 2022-09-26 2023-03-10 睿贸恒诚(山东)科技发展有限责任公司 基于高斯模糊的纺织物缺陷程度评估方法、装置及系统
CN116561627B (zh) * 2023-05-11 2024-04-16 中南大学 用于确定胚胎移植类型的方法、装置、处理器及存储介质
CN116778481B (zh) * 2023-08-17 2023-10-31 武汉互创联合科技有限公司 一种基于关键点检测的卵裂球图像识别方法及系统
CN116823831B (zh) * 2023-08-29 2023-11-14 武汉互创联合科技有限公司 基于循环特征推理的胚胎图像碎片去除系统
CN116958710B (zh) * 2023-09-01 2023-12-08 武汉互创联合科技有限公司 基于环形特征统计的胚胎发育阶段预测方法及系统
CN116844160B (zh) * 2023-09-01 2023-11-28 武汉互创联合科技有限公司 基于主体识别的胚胎发育质量评估系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104293646A (zh) * 2009-08-22 2015-01-21 里兰斯坦福初级大学理事会 成像并评估胚胎、卵母细胞和干细胞
CA2875038A1 (en) * 2012-05-31 2013-12-05 Auxogyn, Inc. In vitro embryo blastocyst prediction methods
WO2017132674A1 (en) * 2016-01-28 2017-08-03 Letterie Gerard Automated image analysis to assess reproductive potential of human oocytes and pronuclear embryos
JP7024231B2 (ja) * 2017-07-10 2022-02-24 ソニーグループ株式会社 情報処理装置、情報処理方法、プログラム及び観察システム
JP6414310B1 (ja) * 2017-10-26 2018-10-31 ソニー株式会社 受精卵品質評価方法、プログラム及び情報処理装置
CN109409182B (zh) * 2018-07-17 2021-03-05 宁波华仪宁创智能科技有限公司 基于图像处理的胚胎自动识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102558551B1 (ko) * 2022-09-15 2023-07-24 주식회사 카이헬스 체외 수정에 대한 정보 제공 방법 및 이를 이용한 체외 수정에 대한 정보 제공용 디바이스

Also Published As

Publication number Publication date
EP3948772A1 (en) 2022-02-09
CN113906472A (zh) 2022-01-07
WO2020198779A1 (en) 2020-10-08
EP3948772A4 (en) 2022-06-01
US20220198657A1 (en) 2022-06-23
AU2020251045A1 (en) 2021-11-11

Similar Documents

Publication Publication Date Title
JP2022528961A (ja) 胚を選択する方法及びシステム
US20220343178A1 (en) Method and system for performing non-invasive genetic testing using an artificial intelligence (ai) model
Li et al. A comprehensive review of computer-aided whole-slide image analysis: from datasets to feature extraction, segmentation, classification and detection approaches
Vijayalakshmi Deep learning approach to detect malaria from microscopic images
Lin et al. A deep convolutional neural network architecture for boosting image discrimination accuracy of rice species
CN105930815B (zh) 一种水下生物检测方法和系统
Moses et al. Deep CNN-based damage classification of milled rice grains using a high-magnification image dataset
Bhardwaj et al. Deep learning–based diabetic retinopathy severity grading system employing quadrant ensemble model
Aliyu et al. Machine learning for plant disease detection: An investigative comparison between support vector machine and deep learning
JP7294695B2 (ja) 学習済モデルによるプログラム、情報記録媒体、分類装置、ならびに、分類方法
CN112464983A (zh) 一种用于苹果树叶病害图像分类的小样本学习方法
CN113011450B (zh) 青光眼识别的训练方法、训练装置、识别方法及识别系统
CN117015796A (zh) 处理组织图像的方法和用于处理组织图像的系统
CN111462093A (zh) 一种基于眼底图像进行疾病分类的方法
Behara et al. Artificial intelligence in medical diagnostics: A review from a South African context
Bhadur et al. Agricultural crops disease identification and classification through leaf images using machine learning and deep learning technique: a review
Prasenan et al. Fish species classification using a collaborative technique of firefly algorithm and neural network
Vij et al. A hybrid evolutionary weighted ensemble of deep transfer learning models for retinal vessel segmentation and diabetic retinopathy detection
Vardhan et al. Detection of healthy and diseased crops in drone captured images using Deep Learning
Kaoungku et al. Colorectal Cancer Histology Image Classification Using Stacked Ensembles
Blanc Artificial intelligence methods for object recognition: applications in biomedical imaging
Sampaio DL4Malaria: Deep Learning Approaches for the Automated Detection and Characterisation of Malaria Parasites on Thin Blood Smear Images
Khadidos Early Plant Disease Detection Using Gray-level Co-occurrence Method with Voting Classification Techniques
Dhivya et al. MACHINE LEARNING APPROACHES INCORPORATING EPCA AND ESVM FOR AUTOMATIC CLASSIFICATION OF PLANT LEAF DISEASE
Bhandari et al. Improved Diabetic Retinopathy Severity Classification Using Squeeze-and-excitation and Sparse Light Weight Multi-level Attention U-net With Transfer Learning From Xception

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240213