JP2023521757A

JP2023521757A - ラマンスペクトルに基づいて試料の特質を識別するためのモデルを決定するための遺伝的アルゴリズムの使用

Info

Publication number: JP2023521757A
Application number: JP2022561407A
Authority: JP
Inventors: ダナローレンマクダニエル，; エルビラカダウプ，; ピンチョアンウェイ，; アンドリュージェームズマイヤー，; ゴードンエドワードマギル，
Original assignee: ジェネンテック，インコーポレイテッド
Priority date: 2020-04-10
Filing date: 2021-04-06
Publication date: 2023-05-25
Also published as: KR20230006814A; WO2021207160A1; EP4133494A1; CN115398552A; US20230009725A1

Abstract

遺伝的アルゴリズムを使用して、対応する試料の予測特性を生成するために使用可能な形態にスペクトルを変換する処理パイプラインを識別するための技術を開示する。遺伝的アルゴリズムは、様々な前処理及び機械学習処理構成を規定する複数の候補解を生成し、評価するために使用される。処理パイプラインは候補解に基づいて定義される。【選択図】図３

Description

関連出願の相互参照
［０００１］本出願は、「ＵｓｅＯｆＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｓＴｏＩｄｅｎｔｉｔｙＳａｍｐｌｅＰｒｏｐｅｒｔｉｅｓＢａｓｅｄＯｎＲａｍａｎＳｐｅｃｔｒａ」と題された、２０２０年４月１０日付け米国仮特許出願第６３／００８，１９６号の利益と優先権を主張するものである。その全内容は、全文があらゆる目的のために参照により本明細書に援用される。

［０００２］開発及び製造工程にわたって均一性を確保するためには、新薬及び研究試料の開発に関する属性を監視するための品質管理技術が頻繁に実装されている。新薬又は研究試料の製造又は分子構造におけるわずかな変動でさえも、治療結果と実験結果の双方に不整合を引き起こす可能性がある。このため、バイオ医薬品又は化合物の任意の所与の試料については、一貫した一連の属性及び品質の全体的な基準を維持することが重要である。

［０００３］バイオ医薬品及び／又は材料の多くの特質を基準計量値と比較することにより、試料の品質を示すことができる。例えば、試料のｐＨは、化合物又は薬物が予想される酸性又は塩基性の性質を有するか否かを示すために測定することができる。別の例として、試料の浸透圧を測定して、試料のための溶液内の溶質の濃度が、高品質基準試料に関連する目標浸透圧と一致するか否かを示すことができる。このような特質の測定は、分子又は化合物の純度又は安定性、並びに、対象への配布前のバイオ医薬品の大量生産の正確性及び／又は一貫性を開示することができる。

［０００４］当該分野の訓練を受けた専門家は、試料を分析するための一連の技術を手動で選択し、試料属性の目標値及び／又は範囲を定義するため、データ処理及びモデル決定のための現在の技術は、相当な計算リソース及び時間リソースを必要とする。

［０００５］スペクトルデータ及びタンデム機械学習モデルを利用した自動データ処理パイプラインを用いて試料の特性を定量化すると、使用するリソースが減り（例えば、計算時間の減少及び／又は最適な機械学習モデルを設計する手作業による時間の減少）、品質予測の精度が高まり、処理技術におけるユーザ間のばらつきが減少する可能性がある。

［０００６］本開示のいくつかの実施形態は、コンピュータ実装方法を含む。データセットにアクセス可能である。データセットは、第１のデータ要素のセットを含むことができ、その各々は、試料に対応するスペクトルを含む。スペクトルは、試料とエネルギー源からのエネルギーと間の相互作用に基づくように、分光法を用いて生成されていてもよい。例えば、スペクトルは、ラマン分光法、赤外分光法、質量分析法、液体クロマトグラフィー、又は核磁気共鳴（ＮＭＲ）分光法を用いて生成されていてもよい。

［０００７］データセットは対応するラベルのセットを含むことができ、その各々は関連する試料の既知の特性を示す。候補解の母集団は初期化される。候補解の母集団の各々は、特定のタイプの前処理を実施すべきか否か、前処理技術のパラメータを使用すべきか、どのタイプの機械学習モデルを使用すべきか、及び／又はどの機械学習ハイパーパラメータを適用するか、を示す特質のセットによって定義される。

［０００８］単一解は、候補解の母集団をフィルタ処理（候補解の中から均等に選択）することによって決定することができる。フィルタ処理は、候補解の母集団の各々について、及びデータセットの入力データ要素の少なくともいくつかについて、データ要素のスペクトルを特質のセットに従って処理することによって予測試料特性の決定を含むことができる。フィルタ処理には、適応度基準（ｆｉｔｎｅｓｓｍｅｔｒｉｃｓ）に基づいて候補解の母集団の不完全なサブセットを選択することも含まれうる。候補解の母集団の選択された不完全なサブセットと一又は複数の遺伝的演算子を使用して特定された解の次世代母集団を含むように、候補解の母集団を更新することによって、一又は複数の追加世代反復を行うことができる。一又は複数の遺伝的演算子は、選択技術及び／又は突然変異率を含みうる。候補解の更新された母集団を使用した候補解の母集団のフィルタ処理は、終了条件が満たされる（例えば、所定の世代数について処理を完了するか、又は定められた所定の閾値を下回る推定誤差の解が決定されていることを検出する）まで繰り返される。

［０００９］終了条件が満たされた後、最終世代の間に選択された不完全なサブセットにおける特定の候補解の特質のセットに基づいて、処理パイプラインが定義される。したがって、処理パイプラインには、少なくとも一部は特質のセットに基づく前処理及び／又は機械学習処理のための構成情報を含めることができる。場合によっては、別の試料に対応する別のスペクトルにアクセスすることができる。他の試料の予測特性は、処理パイプラインからの構成情報に従って、他のスペクトルを処理（例えば、機械学習モデルによって実行される前処理及び／又は処理を含むことができる）することによって生成される。他の試料の予測特性は出力（例えば、ユーザ装置に提示または送信）される。

［００１０］いくつかの実施形態では、一又は複数のデータプロセッサ上で実行される場合に、本明細書に開示されている一又は複数の方法の一部又は全部を、一又は複数のデータプロセッサに実行させる指示を含む非一時的なコンピュータ可読記憶媒体を含むシステムが提供される。

［００１１］採用されている用語及び表現は、説明のための用語として使用されるもので、限定するための用語ではなく、このような用語及び表現の使用には、示されて説明されている特徴又はその一部のいなかる等価物をも排除する意図はなく、特許請求されている発明の範囲内で様々な変更が可能であることは認識されている。したがって、特許請求されている本発明は、具体的には実施態様及び任意選択の特徴によって開示されているが、本明細書に開示されている概念の修正及び変形は、当業者に委ねられるが、そのような修正及び変形は、添付の特許請求によって定義される本発明の範囲内にあると見做されることを理解されたい。

［００１２］本開示は、添付図面と併せて説明される。

本発明のいくつかの実施形態による、試料の品質管理処理を促進するための遺伝的アルゴリズムを使用するための例示的な相互作用システムを示す。本発明のいくつかの実施形態による、試料の特性を推定又は予測する際に使用する特徴を選択する特徴選択コントローラ１１２の一例を示す本発明のいくつかの実施形態による、試料の品質管理処理を促進するための遺伝的アルゴリズムを使用するための例示的なプロセス３００を示す。本発明のいくつかの実施形態による、単一世代のための候補解の母集団の各候補解について、候補解の例示的な母集団及び対応する特質を示す。本発明のいくつかの実施形態による、乳酸濃度の測定標識値と、例示的な第１世代候補処理パイプラインによって生成された乳酸濃度の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、乳酸濃度の測定標識値と、選択された最終世代処理パイプラインによって生成された乳酸濃度の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、グルコース濃度の測定標識値と、例示的な第１世代候補処理パイプラインによって生成されたグルコース濃度の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、グルコース濃度の測定標識値と、選択された最終世代処理パイプラインによって生成されたグルコース濃度の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、ｐＨの測定標識値と、例示的な第１世代候補処理パイプラインによって生成されたｐＨの予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、ｐＨの測定標識値と、選択された最終世代処理パイプラインによって生成されたｐＨの予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、浸透圧の測定標識値と、例示的な第１世代候補処理パイプラインによって生成された浸透圧の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、浸透圧の測定標識値と、選択された最終世代処理パイプラインによって生成された浸透圧の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、抗体酸化の測定標識値と、例示的な第１世代候補処理パイプラインによって生成された抗体酸化の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、抗体酸化の測定標識値と、選択された最終世代処理パイプラインによって生成された抗体酸化の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、ＧｌｙｃａｎＧ０Ｆ－Ｎの測定標識値と、例示的な第１世代候補処理パイプラインによって生成されたＧｌｙｃａｎＧ０Ｆ－Ｎの予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、ＧｌｙｃａｎＧ０Ｆ－Ｎの測定標識値と、選択された最終世代処理パイプラインによって生成されたＧｌｙｃａｎＧ０Ｆ－Ｎの予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、ＨＭＷＦの合計の測定標識値と、例示的な第１世代候補処理パイプラインによって生成されたＨＭＷＦの合計の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、ＨＭＷＦの合計の測定標識値と、選択された最終世代処理パイプラインによって生成されたＨＭＷＦの合計の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、二重特異性アセンブリの測定標識値と、例示的な第１世代候補処理パイプラインによって生成された二重特異性アセンブリの予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、二重特異性アセンブリの測定標識値と、選択された最終世代処理パイプラインによって生成された二重特異性アセンブリの予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、生細胞の存在量の測定標識値と、例示的な第１世代候補処理パイプラインによって生成された生細胞の存在量の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、生細胞の存在量の測定標識値と、選択された最終世代処理パイプラインによって生成された生細胞の存在量の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、死細胞の存在量の測定標識値と、例示的な第１世代候補処理パイプラインによって生成された死細胞の存在量の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、死細胞の存在量の測定標識値と、選択された最終世代処理パイプラインによって生成された死細胞の存在量の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、残留水分含有量の測定標識値と、例示的な第１世代候補処理パイプラインによって生成された残留水分含有量の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、残留水分含有量の測定標識値と、選択された最終世代処理パイプラインによって生成された残留水分含有量の予測標識値との例示的な比較を示す。本発明のいくつかの実施形態による、スペクトル前処理以前の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態による、ｐＨ標識及び遺伝的アルゴリズムを使用して定義された処理パイプラインに従って実行されるスペクトル前処理以降の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態による、スペクトル前処理以前の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態による、抗体酸化標識及び遺伝的アルゴリズムを使用して定義された処理パイプラインに従って実行されるスペクトル前処理以降の例示的なスペクトルセットを示す。本発明のいくつかの実施形態による、スペクトル前処理以前の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態により、二重特異性アセンブリ標識及び遺伝的アルゴリズムを使用して定義された処理パイプラインに従って実行されるスペクトル前処理以降の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態による、スペクトル前処理以前の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態による、生細胞の存在量の標識及び遺伝的アルゴリズムを使用して定義された処理パイプラインに従って実行されるスペクトル前処理以降の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態による、スペクトル前処理以前の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態により、死細胞の存在量の標識及び遺伝的アルゴリズムを使用して定義された処理パイプラインに従って実行されるスペクトル前処理以降の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態による、スペクトル前処理以前の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態によれば、残留水分含有量のための標識及び遺伝的アルゴリズムを用いて規定された処理パイプラインに従って実施されるスペクトル前処理以降の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態による、スペクトル前処理以前の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態による、処理パイプラインの処理段階に従った特徴選択処理以降の例示的なスペクトルのセットを示す。本発明のいくつかの実施形態により、試料の特性を推定するため、数を減らした個別の特徴のセットを識別する特徴選択処理の例示的な反復のセットを示す。本発明のいくつかの実施形態による、図２３の例示的な反復のセットに対応するグラフを例示する。

［００５５］添付の図面において、類似の構成要素及び／又は特徴は、同一の参照符号を有することができる。さらに、同一タイプの様々な構成要素は、参照符号に続くダッシュ及び第２の符号によって、類似の構成要素の間で区別することができる。本明細書中で第１の参照符号のみが使用される場合には、第２の参照符号とは無関係に、同じ第１の参照符号を有する類似の構成要素のいずれにもが適用可能である。

詳細な記述
Ｉ．概要
［００５６］遺伝的アルゴリズムを使用して、試料の特性を推定するために使用可能なデータ処理パイプラインを定義することができる。試料は、（例えば）バイオ医薬品又は薬剤であってよく、及び／又は小分子活性成分及び／又は大分子活性成分を含みうる。その特性には、（例えば）一又は複数の小分子分析物の濃度、溶媒の識別、溶媒の特性決定、一又は複数のタンパク質変異体の発生率、ｐＨ、浸透圧、タンパク質の均一性、タンパク質構造（例えば、タンパク質の高次構造）、または試料の大分子不純物（例えば、高濃度の宿主細胞タンパク質）が含まれうる。処理パイプラインには、エネルギー源からのエネルギーと試料との間の相互作用の結果を表すスペクトルの処理が含まれうる。スペクトルは、機械学習モデル（例えば、部分最小二乗モデル、ランダムフォレストモデル又はサポートベクトルマシンモデル）を使用することによって処理されてもよい。処理パイプラインにはさらに、スペクトルの前処理（例えば、ベースラインの除去、スペクトルの拡大縮小及び／又はスペクトルの平滑化）が含まれてもよい。

［００５７］遺伝的アルゴリズムは、特定のタイプの前処理を実行するかどうか、実行される前処理のパラメータ、どのタイプの機械学習モデルを使用するか、及び／又は、どの機械学習ハイパーパラメータを適用するか、を含む処理パイプラインの特質のセットを決定するために使用することができる。例えば、前処理の１つのタイプには、ベースライン除去（例えば、ノイズを低減するための、及び／又はスペクトル内の蛍光又は他のスペクトル干渉を除去するための、信号データの線形又は非線形サブトラクション）、スケーリング（例えば、異なるコンテキストとの比較を可能にするためのスペクトルデータの比例変換）、外れ値の識別、及び／又は除去、及び／又は平滑化（例えば、スペクトルデータ内の残りの変動の低減）が含まれうる。場合によっては、パラメータは、より具体的なタイプの前処理が実行されるかどうか、あるいは、具体的にどのタイプの前処理が実行されるかを示すことがある。例えば、パラメータには、ベースライン除去のために使用する以下の技術、非対称最小二乗、適応反復加重ペナルティ付き最小二乗法（ａｄａｐｔｉｖｅｉｔｅｒａｔｉｖｅｌｙｒｅｗｅｉｇｈｔｅｄＰｅｎａｌｉｚｅｄＬｅａｓｔＳｑｕａｒｅｓ）、完全自動ベースライン補正、Ｋａｊｆｏｓｚ－Ｋｗｉａｔｅｋ法が含まれうる。実行される前処理のパラメータには、（例えば）減衰値、重量、ペナルティ、又はフィルタが含まれうる。実行される前処理のパラメータには、（例えば）行ごと及び／又は列ごとの単位分散（例えば、単位分散が各変数（列）を（値－平均）／標準偏差としてスケーリングする）等のスケーリングのタイプが含まれうる。機械学習モデルのタイプには、（例えば）ランダムフォレストモデル、サポートベクトルモデル、回帰モデル、ニューラルネットワーク（例えば、再帰ニューラルネットワーク、ディープニューラルネットワーク、及び／又は類似のネットワーク等の特定のタイプの）、又は複数の一般的な機械学習モデルの組合せに基づくモデルが含まれうる。機械学習ハイパーパラメータには、選択される機械学習モデルのタイプに基づいてハイパーパラメータが設定されるように、（例えば）学習速度、世代数、並びに多数のツリー（ｔｒｅｅｓ）及び／又はリーフ（ｌｅａｖｅｓ）が含まれうる。一例として、ランダムフォレストモデルは、多数のツリーを定義するハイパーパラメータを含んでもよいが、一方、線形回帰モデルは、ツリーの数に対してハイパーパラメータを必ずしも含まないであろう。

［００５８］遺伝的アルゴリズムは、候補解のセットを繰り返し定義及び評価することにより、特質のセットを決定することができる。各候補解は、実行される前処理のタイプ（及び／又は、その前処理の一又は複数のパラメータ）及び／又は、（未処理の、又は前処理された）スペクトル（及び／又は、そのスペクトルの一又は複数のハイパーパラメータ）の処理において使用される機械学習モデルのタイプを定義する特定の特質を含むことができる。より具体的には、各反復は世代反復（ｇｅｎｅｒａｔｉｏｎｉｔｅｒａｔｉｏｎ）と呼ぶことができ、候補解の母集団の評価を含むことができる。評価には、母集団内の各候補解について、既知の特性（例えば、精度基準、誤差基準、感度基準等）に関連して実行される候補解に関連する特質によって、処理パイプラインがどの程度うまく構成されているかを示す適応度基準を作成することが含まれうる。例えば、適応度基準は、平均二乗誤差（ＭＡＥ）、二乗平均平方根誤差（ＲＭＳＥ）、または対数双曲線コサイン誤差（ｌｏｇ（ｃｏｓｈ））であるか、これらを含んでもよい。次に、候補解の母集団の不完全なサブセットを、適応度基準に基づいて選択することができる（例えば、母集団中の最も高い適応度基準に関連する特定の数の候補解を識別するか、所定の閾値を超える適応度基準に関連する母集団中の各候補解を識別するように）。いくつかの例では、候補解の母集団は、対応する適応度基準によって順位付けされる。そのため、候補解の不完全なサブセットを決定する場合、遺伝的アルゴリズムは、母集団内の他の候補解に関連して、最も高い順位を有するいくつかの候補解を選択することができる。次に、候補解のサブセットを、次世代のための候補解の新しい母集団に含めることができる。

［００５９］次世代のための候補解の新しい母集団は、遺伝的演算子のセット（例えば、突然変異率）を使用した遺伝的アルゴリズムによって生成される候補解の新しいセットとともに、決定されたサブセットの選択された候補解から構成されてもよい。遺伝的演算子は、（ランダム生成とは対照的に）特性を測定するために一般的に使用される方法に基づいて、新しい候補解を生成するように構成されてもよい。さらに、新しい世代の各々について、母集団内の候補解の数は一定に保たれうる。例えば、遺伝的アルゴリズムが、次の世代に進むために２０個の候補解の総母集団から２個の候補解を選択する場合には、遺伝的アルゴリズムは、次の世代内の候補解を合計２０個とするため、１８個の追加の候補解を生成することになる。次世代反復は、候補解の新しい母集団に対して順位を決定し、候補解の新しいサブセットを選択することができる。

［００６０］最終世代の反復が完了すると、遺伝的アルゴリズムは候補解の母集団の不完全なサブセットから単一解を識別することができる。いくつかの例では、不完全なサブセットは１つの解のサイズを有し、したがって、識別された単一解は不完全なサブセットの解となりうる。いくつかの例では、不完全なサブセットは複数の解を含み、単一解は、（例えば）複数の解の中から最高の適応度基準と関連する１つの解を選択することによって識別されうる。

［００６１］単一解は、処理パイプラインを定義するために使用可能で、次に、個々のスペクトルを予測試料特性に対応する予測標識に変換することができる。処理パイプラインは、解の特質のセットに従って構成された前処理を潜在的に実行すること、及び、解の特質のセットの少なくとも一部に従って構成された機械学習モデルを使用して処理を実行することにより、入力スペクトルのセットを処理することができる。処理パイプラインは、解の特質のセットの少なくともいくつかに従って選択された、及び／又は少なくとも部分的に構成された機械学習モデルを使用して、入力スペクトルのセットの中で各スペクトルを処理すること（及び／又は、例えば前処理されたバージョン）により、入力スペクトルのセットを、さらに又は追加的に処理することができる。機械学習モデルはさらに、訓練データセットを使用して決定及び／又は学習された、一又は複数のパラメータ及び／又は変数に従って構成されうる。

［００６２］いくつかの例では、処理パイプラインは、試料の特性を推定する前に（例えば、機械学習モデル等で入力スペクトルを処理する前に）実行される、一又は複数の追加処理ステップで拡張される。例えば、特徴選択処理は、機械学習モデルによって処理される特徴の量を低減させるために実行されてもよい。特徴選択処理を実行する計算装置は、入力スペクトルを、対応する強度（例えば、特徴）を含む各波数を有する波数のセット（例えば、波の空間周波数）として表す。次に、計算装置は、入力試料の特性を予測する際に使用するため、複数の強度から、対応する一又は複数の波数で一又は複数の強度を選択する。

［００６３］例えば、計算装置は、回帰アルゴリズム（例えば、部分最小二乗法等）を用いて、波数のセットを分析して、各波数について順位を割り当てることができる（例えば、部分最小二乗回帰の重みの相対的順序付けに基づいて）。波数のセットは、各波数に割り当てられた順位に従ってソートされうる。次に、計算装置は、各波数（例えば、波数のフルセット）を含む第１のサブセットを有する波数のサブセット、及び、前のサブセットから一又は波数（例えば、最も低い順位の波数、最も高い順位の波数、ランダムな波数等）を除外した後続の各サブセットを定義する。

［００６４］計算装置は、試料の特性を推定するために使用されるサブセットを決定するために、各サブセットに対するスコアを導く反復サブセット分析を実行する。各スコアは、サブセット中の波数に対する強度を含む処理スペクトル（処理パイプラインに従う）が標本特性を正確に予測する度合いを表す。性能特性（例えば、精度、再現率（ｒｅｃａｌｌ）、正確性等）の特徴を明らかにするために、試験（例：保留（ｈｏｌｄ－ｏｕｔ））又は検証データセットを使用することができる。

［００６５］第１の反復の間、計算装置は、波数のセットを含むサブセットに対応するスペクトルを使用して、試験データセットまたは検証データセットからベースラインスコア（例えば、交差検証解析を用いる）を導き出す。すなわち、試料特性を予測するために定義された処理パイプラインを使用してフルスペクトルを処理し、予測試料特性を真の試料特性と比較して、ベースラインスコアを生成する。ベースラインスコアは、所定の波数で（スペクトルから）強度を除去することが、試料の特性を推定する機械学習モデルの精度に及ぼしうる効果を予測するための参照データポイントとして使用することができる。

［００６６］第２の反復中に、次のサブセットに対してスコアが導き出される。このサブセットは、順位（例えば、最も低い順位の波数、最も高い順位の波数、ランダムサンプリング等）に基づいて、波数のセットから削除される一又は複数の波数による最初の反復からの波数（例えば、波数のセット）を含むいくつかの例において、計算装置は、順位に基づく波数のｘ％（例えば、５％、１０％等）を、以前の反復に存在する波数から取り除かれ、丸められる可能性がある。他の例では、計算装置は所定の量の波数を除去してもよい。波数のパーセンテージ又は除去される所定の量は、（例えば、ユーザ入力によって、機械学習モデル、ハードコード化等によって）設定可能であってもよい。

［００６７］次に、計算装置は、第２の反復中に導かれたスコアをベースラインスコアと比較する。反復スコアがベースラインスコアよりも高い（例えば、波数の減少が特性の推定を改善することを示す）場合には、この反復スコアは新しいベースラインスコアとなり、処理は次の反復に続く。反復スコアがベースラインスコアより高くない場合には、ベースラインスコアを更新せずに処理を単純に継続する。

［００６８］次の反復の間に、次のサブセットに対してスコアが導き出される。このサブセットには、次に低い順位の波数が削除された、第２の反復のサブセットからの波数が含まれる。スコアは、新しいベースラインスコアであるかどうかを決定するため、ベースラインスコアと比較されてもよい。

［００６９］反復サブセット分析が終了した後、どの反復がベースラインスコアからの閾値偏差内のスコアと関連しているかが決定される。具体的には、計算装置は、その反復に関連するスコアが、ベースラインスコアからの閾値偏差に最も近いか等しい（但し、超過しない）反復であるかを識別する。特性を予測するために使用されるスペクトル（例えば、選択された波数に対応するスペクトル）を選択することによって、予測の精度に影響が及ぶ可能性がある。例えば、スペクトルの小さな部分を選択すると、予測に寄与しうる情報が減少する（例えば、予測の精度が低下する）。閾値偏差は、結果として得られる予測の精度を確保しつつ、特性を予測するための減弱スペクトル（ｒｅｄｕｃｅｄｓｐｅｃｔｒａ）の選択を可能にする。一例では、ベースラインスコアが０．８９２で、閾値が０．０２０の場合、０．８７２に最も近いかこれに等しいスコアを有する反復が選択される。あるいは、計算装置は、反復に関連するスコアがベースラインスコアからの閾値偏差に最も近い反復を識別する。計算装置は、機械学習モデルのための入力特徴となる（例えば、標本の特性を推定するために使用される）識別された反復のサブセットから波数の強度（例えば、特徴）を選択する。

［００７０］計算装置は、試料の特性を推定する（例えば、機械学習モデル等を使用する）前等、処理パイプラインの終端付近で特徴選択処理を実行してもよい。あるいは、特徴選択処理は、遺伝的アルゴリズムに含まれうる、及び／又は、遺伝的アルゴリズムによって構成されうる。この場合、遺伝的アルゴリズムは、特徴選択処理を含む一又は複数の候補解を定義することができる。次に、遺伝的アルゴリズムは、（例えば、特徴選択処理を含む又は含まない候補解の評価を経た）処理パイプライン、及び、反復の量、スコア、各反復の間に除去されるべき特徴の量（例えば、パーセンテージ、量）等の特徴選択処理の一又は複数のパラメータの段階の間に、特徴選択が実施されるかどうかを決定する。

［００７１］新しい試料のセットの特性のその後の推定は、新しい試料のセットの各々に対して特徴的な品質と、その結果得られる品質の基準を推定するため、処理パイプラインを利用することができる。試料のセットに対して、異なる関心特性の推定が望まれる場合には、遺伝的アルゴリズムは、異なる関心特性に対する別の処理パイプラインを生成するため、別の解を決定する上記技術を反復することができる。

［００７２］遺伝的アルゴリズムを使用して定義された処理パイプラインは、次に、特定の試料に関連する入力スペクトルを受信し、特定の試料の推定特性を出力する。処理パイプラインが定義された後は、遺伝的アルゴリズムにさらに関与することなく、及び／又は遺伝的アルゴリズムを実行することなく、処理パイプラインは実装されうることを理解されたい。試料特性の推定は、一又は複数の対象に投与する可能性があるため、又は実際に投与するための配布用に、所与の試料又は試料のバッチをリリースするか否かを決定する品質管理プロセスにおいて使用することができる。例えば、品質管理プロセスには、試料の推定特性を使用して品質管理条件を評価することが含まれる。品質管理条件は、（例えば）推定された特性が特定の値と一致し、あらかじめ定義された範囲内にあり、上限閾値未満で、かつ／又は下限閾値を下回る場合に、満たされるように構成されてもよい。場合によっては、品質管理条件はバッチレベルで評価され、これには、試料のバッチについて推定される特性の分布に基づいて統計量（例えば、平均値、中央値、標準偏差、範囲、分散等）を生成することや、その統計量が（例えば、）あらかじめ定義されたバッチの上限閾値を下回っているか、かつ／又はあらかじめ定義されたバッチの下限閾値を上回っているかどうかを決定することが含まれうる。品質管理条件を満たしていると決定された場合、試料には印が付けられるか、配布（出荷等）の承認が与えられる。品質管理条件を満たしていないと決定された場合、（例えば、試料に未承認の印を付ける、及び／又は試料を製造ラインから引き出すことによって）このような配布は阻止される。

［００７３］品質管理条件が満たされていない場合、試料のバッチに関する推定特性中の矛盾は、将来の試料を生成するための生産及び／又は製造工程内の動的な調整を決定する可能性がある（例えば、大きな分子を含む試料を生成するためのバイオプロセスを含みうる）。例えば、製造工程は、成分に対する推定特性が低すぎる、又は高すぎることにそれぞれ応じて、試料の成分の追加又は除去を含むように改変されうる。別の例では、品質管理条件を満たしていない推定特性に応じて、一又は複数の処理ステップ（例えば、試料の追加精製、処理ステップの温度を変えること）を追加、変更又は削除するように、製造工程は修正されうる。場合によっては、品質管理条件の評価の結果が、製造工程の開始、再開始及び／又は終了に影響を及ぼす。例えば、製造工程を定期的に休止して、選択した試料を評価し、品質管理条件が満たされているかどうかを判定することがありうる。満たされているのであれば、工程を再開することができる。満たされていなければ、工程の一又は複数の状況は修正されてもよい。

ＩＩ．例示的な相互作用システム
［００７４］図１は、本発明のいくつかの実施形態による、試料の品質管理処理を促進するための遺伝的アルゴリズムを使用するための例示的な相互作用システムを示す。一又は複数の試料生産システム１０１は、試料のセットを生産する。試料のセットの各試料は、（例えば）診断及び／又は治療目的のために使用される（例えば）医薬品及び／又は薬物試料を含みうる。試料のセットの各試料には、小分子及び／又は大分子及び一又は複数の不活性成分を含む（例えば）一又は複数の活性成分が含まれうる。試料製造システム１０１には、研究室が含まれる場合がある。

［００７５］試料の少なくとも一部は、一又は複数の試料特性検出器１０２を介して処理され、この検出器は、試料の一又は複数の特性を識別する。試料の一又は複数の特性には、活性成分の特性、不活性成分の特性及び／又は試料全体の特性が含まれる。小分子についての例示的な特性には、活性成分濃度、ラクトース濃度、又は微結晶性セルロース濃度が含まれる（が、これらに限定されない）。大分子についての例示的な特性には、大分子内の任意の不純物（例えば、未反応要素の存在量、宿主細胞タンパク質の濃度、及び／又は任意の残存する望ましくないタンパク質の濃度）が含まれうる（が、これらに限定されない）。特性には、数値的又はカテゴリ的な特性が含まれうる。一又は複数の試料特性検出器１０２を介して処理される試料の少なくとも一部には、（例えば）訓練、検証又は試験セットで表される試料が含まれうる。

［００７６］スペクトル収集器１０３は、試料のセットの各試料を処理してスペクトルを生成することができる。スペクトルは、複数の波数のそれぞれについて強度を含む。処理には、各試料をエネルギー源からのエネルギーで電圧を加え、その後のスペクトルを検出することが含まれうる。エネルギー源は、（例えば）光エネルギーを放射する光源、又は物理エネルギーを放射する物理エネルギー源を含んでもよい。いくつかの例では、試料が破壊されないように、及び／又は、スペクトル収集の結果として劣化しないように、スペクトルは非破壊的な方法で収集される。スペクトルは、（例えば）ラマン分光法、赤外分光法、質量分析法、液体クロマトグラフィー、又はＮＭＲ分光法を実行することによって得ることができる。例示的なタイプの赤外分光法は、近赤外（ＮＩＲ）、中赤外（ＭＩＲＡ）、熱赤外（ＴＩＲ）又はフーリエ変換赤外（ＦＴＩＲ）分光法を含むことができる。

［００７７］場合によっては、単一の試料を使用して複数のスペクトルが収集されうる。したがって、複数のスペクトルの各々は、それらが同一の試料に関連すると仮定すると、同一の一又は複数の試料特性と関連付けることができる。複数のスペクトルは、複製スペクトルとも称される。スペクトル間の差は、（例えば）スキャン間の試料容器のわずかなシフト及び／又はスペクトル記録装置の不整合による可能性がある。同一スペクトル試料間の差異には、ピーク高、ピーク幅、ピーク位置及び／又はジッターの差異が含まれうる。その差は比較的小さいと思われるが、それにもかかわらず、訓練及び／又は処理パイプラインの質に影響を及ぼす可能性がある。拡張多重散乱補正アルゴリズムは、特異体質誤差を識別するため、複製スペクトルの処理に使用することができる。個々のスペクトルは、Ｍａｒｔｅｒｎｓ，Ｈ．＆Ｓｔａｒｋ，Ｅ．（１９９１）「Ｅｘｔｅｎｄｅｄｍｕｌｔｉｐｌｉｃａｔｉｖｅｓｉｇｎａｌｃｏｒｒｅｃｔｉｏｎａｎｄｓｐｅｃｔｒａｌｉｎｔｅｒｆｅｒｅｎｃｅｓｕｂｔｒａｃｔｉｏｎ：ｎｅｗｐｒｅｐｒｏｃｅｓｓｉｎｇｍｅｔｈｏｄｓｆｏｒｎｅａｒｉｎｆｒａｒｅｄｓｐｅｃｔｒｏｓｃｏｐｙ」ＪｏｕｒｎａｌｏｆＰｈａｒｍａｃｅｕｔｉｃａｌａｎｄＢｉｏｍｅｄｉｃａｌＡｎａｌｙｓｉｓ，９（８），６２５－６３５に記載されているように、線形補正を用いて特異体質誤差を補正するために前処理することができる。その全内容は、あらゆる目的のために、参照により本明細書に援用される。任意に選択した「ベースライン」複製スキャンに対する複製スペクトルの適応度及び／又は修正に伴って、より高次の多項式を用いることができる。

［００７８］スペクトル及び検出された特性は、計算装置１０４に送信される。計算装置１０４は、遺伝的アルゴリズムを使用して、スペクトルを関心特性に変換する処理パイプラインを識別し、次にその処理パイプラインを実装するように構成されている。

［００７９］より具体的には、（例えば、あるタイプの試料と関心特性との特定の組合せに関連する）新しい訓練インスタンスを識別すると、遺伝的アルゴリズムコントローラ１０５は、第１世代の処理を開始する。各世代は、候補解の母集団に関連しており、その各々が候補解の特質のセットと関連している。候補解の特質のセットの各特質は、実行すべき前処理又は機械学習処理の特性を指定することができる。どの特質が識別されるべきかの定義は、顧客及び／又は開発者によって設定されてもよい。特質に関する任意の制約（例えば、上限、下限、選択される特質の選択肢の領域等を識別すること）も、顧客及び／又は開発者によってさらに設定されてもよい。いくつかの例では、遺伝的アルゴリズムコントローラ１０５は、顧客及び／又は開発者による手動設定不要で上限及び下限を識別するため、特質に関する制約を最適化することもできる。一又は複数の第１の他の特質の各々が固定される（例えば、顧客及び／又は開発者により設定される）ことがあり、一又は複数の第２の他の特質の各々が、処理パイプラインを定義された上で学習されるべき特質として識別されることがある。

［００８０］第１世代に関連する候補解の特質のセットは、ランダムに手動で（例えば、顧客又は開発者によって定義されるように）、又は擬似ランダム選択処理に従って選択されうる。いくつかの例では、候補解の特質のセットは、少なくとも定義された度合（ｄｅｇｒｅｅ）で値空間を覆う（または覆う可能性が高い）、及び／又は定義された度合で互いに異なる可能性が高い特質の選択を促進するように設計された技術に従って選択される。選択はさらに、一又は複数の特質に適用される一又は複数のバイアスに従って実行されうる。いくつかの例では、バイアスは第１世代に対してゼロに設定される。

［００８１］世代データストア１０６に保存された生成データは、現在の世代、候補解の特質の選択に適用される任意のバイアス、及び／又は現在の世代に含まれる多数の候補解（顧客及び／又は開発者によってあらかじめ定義された数と等しいことがある）を識別する。候補解の特質は、候補解の特質の各セットを候補解の識別子に結びつける関連付け（ａｓｓｏｃｉａｔｉｏｎ）とともに、候補解特質データストア１０７に保存される。

［００８２］各候補解に対して、前処理コントローラ１０８は前処理を構成し、機械学習（ＭＬ）モデルコントローラ１０９は候補解の候補解の特質に従って機械学習モデルを構成する。そのような構成には、特定のタイプの前処理（例えば、ベースライン除去、スケーリング、フィルタ処理）が実行されるか否かのいずれかを有するようにコードを構成すること、あるタイプの前処理に使用する特定の技術を実装すること、特定のタイプの機械学習モデルを実装すること、前処理技術のための特定の変数を設定すること、及び／又は機械学習モデルのための特定の変数を（例えば、学習されないように）設定することが含まれうる。次に、候補処理パイプラインが、構成された前処理機械学習モデルを含むように定義される。処理パイプライン定義データストア１１０は、候補処理パイプラインを候補解の識別子と関連付けて保存する。

［００８３］前処理コントローラ１０８及び機械学習モデルコントローラ１０９は、さらに、（複数のスペクトル及び試料特性の複数の既知の測定値を含む）訓練データセットを使用して、任意のデータ依存値を決定する（例えば、機械学習値のためのパラメータを学習する）。検証データセット又は試験データセットの他のスペクトルは次に、推定試料特性を生成するため、処理パイプライン及びデータ依存値を使用して処理される。推定された試料特性は、候補解のための様々な適応度基準（例えば、決定係数、平均二乗誤差の平方根、交差エントロピー等）に対する適応度基準値を生成するため、検証又は試験データセットからの既知の試料特性と比較される。

［００８４］試料のセットに対応する試料特性及びスペクトルを含むデータセットは、複数のサブセット（訓練サブセット、検証サブセット及び／又は試験サブセットを含む）に分割される。分割は、データセット全体に対して１回で実行されてもよく、あるいは２回以上実行されてもよい。例えば、データセットは、遺伝的アルゴリズムを使用して評価される各世代に対して別々に分割されることがあり、単一世代の間に単一の候補解の処理に関して、複数回分割されることがある（例えば、ｋ倍の検証分析のため）。

［００８５］所定の試料について複数のデータ観察が収集されうることを理解されたい。例えば、試料特性及びスペクトルは、所与の試料について１００回収集されていてもよい。しかし、これら１００個の観察結果は独立している必要はない。むしろ、これらは繰り返された観察に関係している可能性がある。例えば、観察には、所与の試料について生成された１０の異なるロットの各々について１０個の繰り返し観察を含むことがある。これらの例では、観測値を（例えば）ランダムに、あるいは疑似ランダムにサブセットに分割するため（例えば、試験用に２０個の観測値を擬似ランダムに選択し、残りの８０個の観測値を訓練に使用するため）、１つのアプローチは、１００個の観測値が十分に独立しているとみなすことである。もう１つのアプローチは、代わりに、ロットを分割し、ロット内の観測値をグループ化すること（例えば、試験用の２ロットを疑似ランダムに選択し、次に残りの観測値を訓練用に使用しつつ、試験用の２ロットに関連する２０個の観測値を使用すること）である。この後者のアプローチは、訓練を改善し、独立したデータセットで処理がどのように実行されるかをより正確に予測する試験基準をもたらす可能性がある。

［００８６］いくつかの例では、計算装置１０４は、スペクトルの一部（例えば、一又は複数の波数の強度、スペクトル内の一又は複数のスペクトル等）がスペクトルの残りの部分に対して外れ値であるかどうかを決定するため、データセット（サブセット及び／又はロット）のスペクトルを分析してもよい。スペクトルの一部が外れ値である（例えば、スペクトルの他の部分から閾値量以上逸脱している）と決定された場合には、スペクトル（又はその一部）は廃棄されうる（又は、処理パイプラインを定義に使用しない）。外れ値検出は、試料の特性の推定または予測の信頼度を導き出すために、処理パイプラインの実行中に実行されてもよい。例えば、外れ値検出は、処理パイプラインから生じる予測を、処理パイプラインによる他の予測と比較することによって実行されうる。

［００８７］外れ値検出には、主成分分析（ＰＣＡ）の実行が含まれうる。具体的には、複数のスペクトルが分析され、主成分のセットを決定される。一又は複数のスペクトル（主成分を決定するために使用された複数のスペクトルであってもよく、又は異なるスペクトルであってもよい）の各々は次に、スペクトルの変換された表現を生成するため、主成分に従って推定（または再計算）されうる。一又は複数のスペクトルの各々について、スペクトルの変換された表現と一又は複数の他のスペクトルの各々の変換された表現とを分離する距離に基づいて、距離基準を計算することができる。距離基準が閾値よりも大きい場合には、そのスペクトルを外れ値として分類することができる。

［００８８］場合によっては、現在の入力スペクトルが破棄され、処理パイプラインの定義に使用するため、新しい入力スペクトルが取得されることもある。他の例では、外れ値検出は、外れ値である入力スペクトル内の一又は複数の波数あるいは一又は複数のスペクトルを識別し、入力スペクトルから一又は複数の波数あるいは一又は複数のスペクトルを（それぞれ）フィルタ処理することを含みうる。入力スペクトルの残りのスペクトルは、処理パイプラインの定義に使用される。

［００８９］遺伝的アルゴリズムコントローラ１０５は次に、世代データストア１０６を更新して、各候補解識別子を適応度基準と関連付ける。候補解は並列的又は反復的に評価されうることを理解されたい。母集団中の各候補解に対して適応度基準が決定されている場合、遺伝的アルゴリズムコントローラ１０５は、別の世代反復を実行するかどうかを決定する。例えば、現在の世代カウントがあらかじめ定義された世代処理量を下回っている場合（例えば、顧客又は開発者によって定義されているように）、現在の世代に対する母集団全体にわたる最良の適応度基準があらかじめ定義された閾値を上回っていない場合（例えば、最低の誤差が所与の誤差閾値よりも高い場合、又は最高のＲ^２値がＲ^２閾値よりも低い場合）、あるいは、現在の世代に対する母集団全体にわたる最良の適応度基準が、前の世代に対する母集団全体にわたる最良の適応度基準に対して、少なくともあらかじめ定義された量だけ改善されていない場合には、別の世代反復を実行することができる。

［００９０］別の世代反復が実行されるときには、遺伝的アルゴリズムコントローラ１０５は、世代データストア１０６に保存された世代カウントを増やし、（新しい候補解に関連付けられた各セットによって）候補解の特質の新しいセットを識別する。候補解の特質の新しいセットは、候補解の特質の以前のセット及び対応する適応度基準に基づいて決定される。例えば、候補解の特質の新しいセットの選択は、比較的高い適応度基準を有する前の候補解に関連した特質に偏ることがあり、比較的低い適応度基準を有する前の候補解の特質に関連した特質に偏ることがありうる。候補母集団における進化的選択は、突然変異率を修正することによって、異なるシナリオに調整される。突然変異率には、前処理技術及び機械学習パラメータのランダム化置換又は擬似ランダム化置換が含まれる。新候補解は第１世代候補解であるかのように処理され、別の世代の反復が実行されないと判断されるまで、世代は反復的に作成され評価される。

［００９１］別の世代が実行されない場合には、単一候補解が選択される。単一候補解は、（例えば）最後の世代及び／又は全世代からの候補解にわたる最良の適応度基準に関連する候補解である。

［００９２］単一候補解の処理パイプラインは、一又は複数の追加処理段階で増強することができる。例えば、処理パイプラインは、特徴選択コントローラ１１２を使用して、処理パイプラインの特定の段階における入力スペクトルから、試料特性を推定又は予測するために使用される特徴を選択するように拡張されうる。特徴選択コントローラ１１２は、（図示のように）計算装置１０４に含まれることもあれば、計算装置１０４と通信する別の処理装置として含まれることもある。

［００９３］図２を参照すると、この図は、本発明のいくつかの実施形態に従って、試料の特性を推定又は予測するために使用される特徴を選択する特徴選択コントローラ１１２の例を示している。特徴選択コントローラ１１２は、試料の推定又は予測を生成する段階の前に、処理パイプラインの任意の段階で特徴選択処理を実装してもよい。例えば、特徴選択コントローラ１１２は、機械学習モデルの動作の前の段階で動作されてもよい。入力スペクトル２０８は特徴選択コントローラ１１２に渡される。特徴選択コントローラ１１２は、２１２において、入力スペクトル内の波数のセットと、各波数における対応する強度（例えば、特徴）を識別する。特徴選択コントローラ１１２は、波数及び関連する強度を波数順位付けプロセッサ２１６に渡すが、これは波数のセットの各波数に対する順位を定義する。

［００９４］例えば、波数順位付けプロセッサ２１６は、各波数について順位を割り当てるために部分最小二乗（ＰＬＳ）回帰を使用する。ＰＬＳは、波数と他の波数との間の相関（例えば、波数の強度を変化させることが他の波数の強度を変化させる程度を示す）を記述する構成要素のセットを出力する。順位は、部分最小二乗回帰の構成要素の相対的順序に基づいて各波数に割り当てられる。

［００９５］次いで、特徴選択コントローラ１１２は、特徴選択のために評価されるべき反復の量に基づいて、波数のセットの複数のサブセットを定義するため、サブセット定義２２０を使用する。場合によっては、サブセットの数は、評価される反復の数に等しくなる。特徴選択コントローラ１１２は、順位（例えば、最高から最低まで、又はその逆）に従って波数のセットを並べることによってサブセットを定義する。第１のサブセットには波数のフルセットが含まれる。後続の各サブセットは、順位に基づく波数の所定の量を除外した前のサブセットからの波数を含む（例えば、最低順位の波数、最高順位の波数、波数のランダム選択等）。所定の量は、波数のセット（潜在的に丸められた）における波数の量のパーセンテージ、前のサブセットにおける波数の量のパーセンテージ、整数等であってもよい。

［００９６］反復コントローラ２２４は、交差検証分析を使用して波数２２８の各サブセットを反復的に評価する。交差検証分析は、反復ごとにスコア２３２を生成するために使用される。スコア２３２は、サブセット２２８における波数に対応する強度を使用して生成される試料特性の推定又は予測が正確であるという信頼度を表す。スコア２３２は、異なるサブセットを使用して生成された推定及び／又は予測の信頼度の相対的な差異を決定するため、他の反復のスコアと比較することができる。スコア２３２は、訓練データセット及び波数２２８のサブセットに含まれる波数に基づいて定義される検証データセットを使用して導出される。訓練データセットは機械学習モデルを訓練し、検証データセット（グラウンドトゥルースとして知られている）の試料特性を推定又は予測する。スコアは、検証データセットの処理の出力をグラウンドトゥルース標識と比較することによって導き出される。

［００９７］反復コントローラ２２４は、ベースラインスコアからの閾値偏差内にあるスコア（例えば、波数のセットを含むサブセットのスコア）を含む反復を出力する。例えば、閾値偏差が０．０２の場合、反復コントローラ２２４は、ベースラインスコアから０．０２に最も近いスコアを有する反復を識別する。識別された波数２３６のサブセットは、識別された反復の波数のサブセットを含む。次に、波数２３６の識別されたサブセットの各波数における強度が、処理パイプライン２０８内の機械学習モデル２４０に出力され、試料特性を推定又は予測する。

［００９８］図１に戻って、処理パイプラインを利用して、（例えば、パイプラインによって推定されるタイプの既知の特性と潜在的に関連しない）他のスペクトルを処理して、推定された試料特性を生成することができる。利用される処理パイプラインは、訓練データに基づいて決定されたデータ依存値を（例えば、前処理及び単一候補解に関連する特質で構成された機械学習モデルに加えて）含みうるが、必要ではない。処理パイプラインの利用には、単一候補解の処理パイプライン及び／又は解の特質に関連するコードを他のデバイスに伝達すること、及び／又は他のスペクトルを局所的に処理することが含まれうる。

［００９９］処理パイプラインは、ロットリリースのために準備されている試料等、他の試料のスペクトルを使用して特性を推定又は予測するために使用されることがある。これには、所与の試料に対して、他の装置に局所的に提示されるか又は送信されることがある推定特性を識別する結果が含まれる。場合によっては、（推定特性を使用して評価した）品質管理条件が満たされない場合にのみ、結果が提示又は送信される。例えば、数値推定特性が事前に定義された開放範囲（ｏｐｅｎｒａｎｇｅ）又は閉鎖範囲（ｃｌｏｓｅｄｒａｎｇｅ）内にない場合、あるいは数値推定特性が特定の閾値を超える場合には、結果が条件付きで提示されることがある。

［００１００］結果は、推定特性をカテゴリ的に定義することもできる。例示的なカテゴリには、品質管理条件が満たされているかどうかに基づいて、試料を「満足」または「不満足」と標識化することが含まれうる。場合によっては、あるロットの試料を満足または不満足として分類するため、カテゴリ自体が、一又は複数の他の試料に対応する一又は複数のカテゴリを示すか、それらと共に使用されてもよい。ロットは、試料を製造するために使用されるいくつかの又は全ての機械の連続的な操作によって定義されうる期間に、及び／又は試料を製造するために使用されるいくつか又は全ての機械が出力を維持したままである期間に、単一の施設で製造される試料のセットに対応しうる。

［００１０１］カテゴリはさらに、試料の特性、特にその欠陥（例えば、活性成分の濃度の高低、不活性成分の濃度の高低、ｐＨの高低等）の観点から識別するために定義されうる。数値推定特性は、顧客及び／又は開発者によって定義された所定の閾値（例えば、成分濃度、及び／又はｐＨ、及び／又は他の適切な試料特性のための下限又は上限のセット）に基づいて、定義されたカテゴリの１つに分類されうる。試料の特性に関して推定されたカテゴリ及び／又は分類は、他の装置に提示又は送信されうる。数値推定特性と同様に、推定特性が不満足であるか、又は何らかの状況で欠陥に分類されている場合に、結果のみが提示されることがある。場合によっては、結果は数値推定特性とカテゴリ推定特性の両方から構成されることがある。このような場合には、数値推定特性とカテゴリ推定特性の両方が、他の装置に提示されるか、又は送信されることがある。

［００１０２］推定特性は、対応する試料が一又は複数の試料配布システム１１１によって配布されることを可能にするか、促進するか、禁止するか、または防止するかを決定するために使用されうる。例えば、品質管理条件が満たされない場合、通信内容は、計算装置１０４から試料配布システム１１１及び／又は試料を識別する関連ユーザ装置に送信されてよく、推定特性及び／又は配布前に試料を収集する（又は、自動試料配布処理ラインから試料を削除する）指示を含む可能性がある。いくつかの例では、試料配布システム１１１と計算装置１０４は、同じ施設に収容されている。計算装置１０４は、試料が配布前に横切る物理的ゲート機構に接続されてもよい。物理的ゲート機構は、品質管理条件が満たされている試料を選択的に通過させるように構成されてもよい。

［００１０３］いくつかの例では、計算装置１０４は、複数の推定特性についての品質管理条件のセットを含む。結果として、遺伝的アルゴリズムは、各推定特性の別々の反復に対して構成されうる。品質管理条件のセットが全て満たされていない場合（例えば、遅延や、品質管理条件を満たすために試料が変更された場合には）、計算装置１０４は、試料の配布を停止するために、試料配布システム１１１及び／又は関連するユーザ装置と通信することができる。品質管理条件のセットの全てが満たされる場合、計算装置１０４は、試料の分配を許可してもよい。

［００１０４］いくつかの例では、計算装置１０４は、試料配布システム１１１によって試料のバッチが配布されることを許可するか、促進するか、禁止するか、又は防止するかを決定するために、推定特性をさらに使用してもよい。例えば、試料のバッチ内の少なくとも一部の量（例えば、あらかじめ定められた閾値又は大部分）の試料が品質管理条件を満たしていない場合には、試料のバッチは「不満足な」バッチに分類されることがある。計算装置１０４は、「不満足」と見なされた試料の任意のバッチの配布を停止するため、試料配布システム１１１及び／又は関連するユーザ装置と通信することができる。いくつかの例では、品質管理条件を満たすために、試料の「不満足な」バッチがさらに変更される。試料のバッチ内の試料の少なくとも多数（例えば、大部分またはあらかじめ定義された閾値のいずれか）が品質管理条件を満たしている場合、試料のバッチは「満足な」バッチとして分類してもよい。そのような場合、計算装置１０４は、品質管理条件を満たさない「満足な」バッチ内で個々の試料の分配のみを停止することになる。他の例では、計算装置１０４は、試料のバッチが「満足な」と分類されている限り、品質管理条件を満たしていない試料のバッチ内の個々の試料の配布を許可する。

［００１０５］さらに、品質管理条件の充足又は非充足は、将来の試料の製造工程における調整を決定する可能性がある。品質管理条件が満たされない場合は、試料生産システムの構成要素（）が追加、改変、除去されうるように、試料生産システムは変更（例えば、化合物及び／又は溶質のパーセンテージの追加、化合物及び／又は溶質のパーセンテージの削除、試料生産機械に対する異なる構成の使用）されてもよい。例えば、品質管理条件が、試料内の溶質の濃度が高すぎることを示す場合、試料生産システムは、より低い濃度にするため溶質の添加を調整することができる。いくつかの例では、一定数（例えば、所定の閾値であってもよい）の試料が品質管理条件を満たしていない場合には、試料生産システムのみを調整することができる。

ＩＩＩ．例示的な方法
［００１０６］図３は、本発明のいくつかの実施形態による、試料の品質管理処理を促進する遺伝的アルゴリズムを使用するための例示的な処理３００を示している。計算装置（例えば、計算装置１０４）は、処理３００を実行する。ブロック３０５において、計算装置はデータのセットにアクセスする。各データ要素は、試料のスペクトル及び既知の特性（例えば、既知の物理的又は化学的特性）を含むことができる。

［００１０７］ブロック３１０において、計算装置は、候補解の母集団を初期化する。各候補解は、スペクトルの前処理及び／又は機械学習モデルを使用したスペクトルの処理（又はその前処理バージョン）のためのタイプ、技術又は変数を特定するための特質のセットを含むことができる。

［００１０８］ブロック３１５において、計算装置は、母集団内の各候補解、及びデータ要素のセットの少なくとも一部の各々について、データ要素のスペクトルを、候補解に関連する特質のセットに従って構成された任意の前処理モデル及び機械学習モデルに従って変換することによって予測試料特性を決定する。例えば、ベースライン及び／又はフィルタは、特質のセットの少なくとも１つ及びデータ要素の少なくとも一部に基づいて識別することができ、ベースラインを除去し、かつ／又はベースライン及び／又はフィルタを使用してスペクトルをフィルタ処理することができる。別の例として、あるタイプの機械学習モデルを、候補解の特質のセットの少なくともいくつかに従って選択及び構成することができ、機械学習モデルは、データ要素の少なくともいくつかを使用してさらに構成することができる。次に、構成された前処理モデル及び／又は機械学習モデルを使用して、個々のスペクトルを処理することができる。いくつかの例では、データセットの第１の部分（例えば、訓練サブセット）は、任意のデータ依存値を決定又は学習するために使用され、前処理及び機械学習モデル（データ依存値及び特質のセットで構成される）は、データセットの一又は複数の第２の部分（例えば、検証サブセット及び／又は試験サブセット）における各データ要素についての予測試料特性を生成するために使用される。

［００１０９］ブロック３２０において、計算装置は、予測試料特性及び既知試料特性に基づいて、各候補解に対する適応度基準を生成する。適応度基準には、（例えば）誤差基準、相関基準及び／又はペアワイズの有意値が含まれることがある。例えば、適応度基準は、信号対雑音比、二乗平均平方根誤差、Ｒ^２値、又はペア分析を使用して生成されたｐ値を含みうる。いくつかの例では、データセットのサブセットの検証または試験を使用して適応度基準が生成される。いくつかの例では、予測試料特性と既知試料特性の分類精度値を使用して適応度基準が生成される（例えば、計算された誤差基準が所定の上限値と下限値との間にある場合、「満足」の標識を割り当てる）。いくつかの例では、適応度基準は、低い値及び／又は「０」値が、より高い値と比較して、候補解が試料特性の予測により適していることを示すように構成されている。いくつかの例では、適応度基準は、高い値及び／又は「１」値が、より低い値と比較して、候補解が試料特性の予測により適していることを示すように構成されている。

［００１１０］ブロック３２５において、計算装置は、適応度基準に基づいて候補解の母集団の不完全なサブセットを選択する。不完全なサブセットは、あらかじめ定義された数の候補解（例えば、１又は３）、候補解の母集団のあらかじめ定義されたパーセンテージ（例えば、５％又は１０％）、あるいはあらかじめ定義された閾値を上回る（又は下回る）適応度基準と関連する母集団中の各候補解を含みうる。不完全なサブセットは、サブセットにない他の候補解と比較して、より良い予測性能を示す適応度基準と関連する候補解を（例えば）含むように選択することができる。例えば、サブセットは、母集団中の最も低い誤差に基づく適応度基準と関連する、あるいは母集団中の最も高い相関に基づく適応度基準と関連する母集団から、２つの候補解を含むように選択することができる。

［００１１１］ブロック３３０において、計算装置は、追加世代反復を実行するかどうかを決定する。例えば、現在の世代数が、評価対象となるあらかじめ定義された世代数より少ない場合には、追加世代を実行するように決定されることがある。

［００１１２］計算装置が、追加世代反復を実行すべきであると決定すると、処理３００は、ブロック３３５に進むことができ、ここで、候補解の母集団は、サブセット及び一又は複数の遺伝的演算子を使用して更新することができる。候補解の母集団の更新には、候補解の母集団を新しい候補解の母集団と置き換えることが含まれうる（例えば、新しい母集団中の各候補解は、新しい特質のセットと関連している）。新しい母集団は、特質のセットの各々に対して、値を選択することに（例えば、擬似ランダム選択技術を使用すること）よって、生成することができる。選択は、不完全なサブセットに関連する値に偏っている可能性がある。選択は、突然変異演算子、クロスオーバー演算子及び／又は選択演算子等の一又は複数の遺伝的演算子を使用してもよい。次いで、処理３００は、ブロック３１５に戻り、更新された候補解の母集団を評価することができる。

［００１１３］計算装置が、ブロック３３０において、追加世代反復は実行すべきではないと決定した場合には、処理３００は、ブロック３４０に進むことができ、ここで、サブセット内の候補解の特質のセットに基づいて処理パイプラインが定義される。処理パイプラインは、（もしあれば）実行される前処理のタイプ及び実行される機械学習モデル処理のタイプを識別することができる。いくつかの例では、処理パイプラインには、特質のセットのうちの１つの特質によって定義される一又は複数の未学習変数、及び／又は訓練データに基づいて定義される一又は複数の学習パラメータ等の特定の変数が含まれる。

［００１１４］ブロック３４５において、計算装置は、処理パイプラインにおいて、機能選択処理を実行する。計算装置は、処理パイプラインの特定の段階（例えば、試料の特性を事前予測等）の入力スペクトルから、入力スペクトルの波数のセット及び対応する強度を識別する。特徴選択処理は、試料の特性を予測する際に使用される波数のセット、一又は複数の波数及び対応する強度（例えば、特徴）から選択することを含む。波数を選択することにより、計算装置は、特性を予測するために使用される入力スペクトルからの強度の量を減少させることができる。

［００１１５］特徴選択処理は、波数のセットの各波数に対する順位を生成することを含む。順位は部分最小二乗（ＰＬＳ）回帰等の回帰分析を使用して生成されうる。ＰＬＳは、波数と他の波数との間の相関（例えば、波数の強度を変化させることが他の波数の強度を変化させる程度を示す）を記述する構成要素のセットを出力する。順位は、部分最小二乗回帰の構成要素の相対的順序に基づいて各波数に割り当てられる。順位は、波数のセットの変動性に対する波数の寄与を示す。高い順位の波数は、波数の強度を変化させることが、一又は複数の他の波数において対応する変動性を引き起こすことを示している。低い順位の波数は、波数を変化させても他の波数の強度にほとんど変化を引き起こさないか、まったく変化を引き起こさないことを示している。スペクトルの波数は各波数の順位に従ってソートされる。例えば、波数は、最も高い順位の波数から最も低い順位の波数にソートされるか、又はその逆になる。

［００１１６］計算装置は、反復のセットを定義し、各反復が波数のセットの異なるサブセットを評価する。第１の反復の波数のサブセットは、波数の全てを含む。各後続の反復の波数のサブセットは、前の反復から順位に基づく波数の量（例えば、最も低い波数、最も高い波数、波数のランダムサンプリング等）を引いた波数を含む。一例では、スペクトルが１５００個の波数を含む場合、第１の反復のサブセットは１５００個の波数を含み、第２の反復のサブセットは、第１の反復の１５００個から低い順位を有する波数の２５％を引いた個数を含み（例えば、残りの１１２５個の波数を残す）、第３の反復のサブセットは、第１の反復の１１２５個から低い順位を有するこれらの波数のパーセンテージを引いた個数を含み（例えば、８２５個の波数を残す反復）、以下同様となる。

［００１１７］計算装置は、反復のセットの各反復を、図２で前述したように交差検証分析に基づいて、各反復のモデル検証スコアを定義することによって評価する。各スコアは、サブセット中の波数に対する強度を含む処理スペクトル（処理パイプラインに従う）が試料特性を正確に予測する度合いを表す。第１の反復のモデル検証スコア（例えば、波数のセットを含む）は、後続のモデル検証スコアと比較されるベースラインモデル検証スコアである。モデル検証スコアをベースラインモデル検証スコアと比較することにより、波数を除去することが試料特性を予測する精度に及ぼす影響が示される。

［００１１８］次に、特徴選択処理は、ベースラインモデル検証スコアからの閾値偏差内にあるモデル検証スコアを有する所定の反復の量から特定の反復を識別する。例えば、閾値を０．０２０（例えば、遺伝的アルゴリズム、ユーザ入力、波数の量、ベースラインモデル検証スコア、その組合せ等に基づく任意の所定量）に設定することができる。計算装置は、ベースラインモデル検証スコアから閾値に最も近いモデル検証スコアを有する特定の反復を識別する。いくつかの例では、特徴選択処理は、閾値を超えずにベースラインモデル検証スコアからの閾値に最も近いモデル検証スコアを有する特定の反復を識別する。

［００１１９］いくつかの例では、計算装置は、各反復に対して導出されたモデル検証スコアを、次の反復に移る前にベースラインモデル検証スコアと比較する。閾値偏差より大きいモデル検証スコアを有する反復を検出すると、特徴選択処理は、特定の反復として、前の反復（例えば、反復前の反復が、ベースラインモデル検証スコアからの閾値偏差より大きいモデル検証スコアを有する）を識別する。これらの例では、特徴選択処理は、所定の量の反復を実行するように構成されるが、分析された反復の数を減らすため、特定の反復を識別すると早期に終了する。

［００１２０］特定の反復の波数に対応する強度は、試料の特性を予測するために使用することができる。より少ない波数が使用されるため、予測器の性能（例えば、予測精度等）に影響を与えることなく、予測器の全体的な複雑さ（例えば、前述のような機械学習モデル等）を低減することができる。

［００１２１］後続のスペクトルを処理するとき、計算装置は特性の予測に使用するために特徴選択処理によって識別された同じ波数で新しいスペクトルの強度を選択する。特徴選択処理によって識別される波数に対応していない波数及びこれに対応する強度は、処理パイプラインによるさらなる処理から省略されてもよい。あるいは、特徴選択処理によって識別される波数に対応していない波数及びこれに対応する強度は、新しいスペクトルから除去されてもよい。ブロック３４０に記載された特徴選択処理は、後続のスペクトルにおける特性を予測するために使用することができる波数を選択するために１回実行されてもよい。

［００１２２］いくつかの例では、計算装置は、特性が予測されることになる新しいスペクトルごとに特徴選択処理を実行する。これらの例では、新しいスペクトルに対する処理パイプラインの各実行には、特性を予測する前に行われる特徴選択処理が含まれる。

［００１２３］特徴選択処理は、特性の予測の生成前に（例えば、ブロック３４５に記載されるように）、処理パイプラインの段階として実行されうる。あるいは、特徴選択処理は遺伝的アルゴリズムの中で実行することもできる（例えば、世代を越えて存続する遺伝子として）。これらの例では、特徴選択処理は、候補解の母集団の中の１つの候補解内で定義される。特徴選択処理は、例えば、特徴選択処理によって実行される反復であれば所定の量を変化させること、各反復の間に除去される波数の所定の量を変化させること、各反復の間に除去される波形のパーセンテージを変化させること、閾値をベースラインモデル検証スコアから変化させて、特定の反復、それらの組み合わせ等を候補解の中で、及び／又は世代を越えて識別することによって、遺伝的アルゴリズムによって変化させることが可能である。

［００１２４］例えば、属性の所定のセット（例えば、反復の量、各反復の間に除去される波数のパーセンテージ等に対応する）を含む特徴選択処理は、一又は複数の候補解の中に含まれる。いくつかの例では、いくつかの候補解における特徴選択処理は、他の候補解における特徴選択処理とは異なることがある。例えば、一又は複数の候補解に含まれる特徴選択処理は１２回の反復を含み、一又は複数の候補解に含まれる特徴選択処理は９回の反復を含むことがある。遺伝的アルゴリズムは、特徴選択処理が１つの候補解に含まれるかどうか、そして含まれる場合には、特性の改良予測に対応する属性のセット（例えば、より高い正確性等）を識別する。

［００１２５］計算装置は、ブロック３５０において、他の試料の特性を予測するために、他の試料に関連する別のスペクトルを処理するための処理パイプラインを使用する。他の試料は、様々な候補解を評価するために使用されるデータセットに示されていないものに対応することがある。新しいスペクトルは処理パイプラインで処理された後、特性の予測がなされる前に、特性の予測に使用するために波数が選択される。選択された波数は、ブロック３４０の特徴選択処理によって識別される波数に対応する。選択されなかった波数は、その後の処理から省略されるか、さもなければ特性の予測には使用されない。

［００１２６］ブロック３５５において、計算装置は予測特性を出力する。例えば、予測特性は、その場で提示されるか、別の装置に送信される。他の試料の識別子は、予測特性に関連して、さらに出力されることがある。

ＩＶ．実施例
Ａ．実施例１－単一世代の候補解母集団
［００１２７］図４は、単一世代に対して生成された２０の候補解の例示的な母集団を示す。各候補解には、以下の特質の各々についての値が含まれている。
・以下のパラメータを含む非対称最小二乗ベースライン除去の実施の有無
非対称最小二乗ベースライン除去値に対するλ値
非対称最小二乗ベースライン除去率に対するｐ値
・処理に使用される機械学習モデルの一種：部分最小二乗（例えば、主成分分析、ＰＬＳ判別分析等）、ランダムフォレスト（例えば、ＡｄａＢｏｏｓｔ又はＸＧＢｏｏｓｔ、分割ランダムフォレスト（ｓｐｌｉｔｔｉｎｇｒａｎｄｏｍｆｏｒｅｓｔ）等のブーストされたツリーモデル）、又はサポートベクトルマシン（例えば、Ｃ－ＳＶＭ分類、ｎｕ－ＳＶＭ分類、ε－ＳＶＭ回帰等）
・以下を含む機械学習モデルのハイパーパラメータ
モデルタイプが部分最小二乗モデルの場合：多数の機械学習パラメータ（すなわち、計算のための多数の主成分）
モデルタイプがランダムフォレストモデルの場合：リーフノードとなるのに必要な最小試料数
モデルタイプがランダムフォレストモデルの場合：内部ノードを分割するのに必要な最小試料数
モデルタイプがサポートベクトルマシンモデルの場合：正則化及びカーネルパラメータ値
・Ｓａｖｉｔｚｋｙ－Ｇｏｌａｙ（“ｓａｖｇｏｌ”）平滑化が実行されるかどうか
・前処理を平滑化するためのウインドウサイズ
・前処理を平滑化するための多項式次数
・前処理を平滑化するための導関数次数、及び
・標準正規変量法、最大強度値を使用したスケーリングの実行、Ｌ１基準を使用したスケーリングの実行、又はスケーリングの非実行等の、平均センタリング及び多様なスケーリング戦略を含むが、これらに限定されない前処理技術の選択

［００１２８］加えて、各候補解には、どの程度正確に各候補解が特性を推定できるかに基づいて、（例えば、「適応度ＣＶ」列として表現される）適応度基準値が与えられている。最良の実行候補解（例えば、最も低い適応度基準値を有する）は、候補解０を最も正確であるとし、候補解１９を最も正確でないとする降順で順位付けされる。遺伝的アルゴリズムは、次世代のための候補解の新しい母集団内に含まれるべき上位候補解（例えば、候補解０及び／又は候補解１）のいずれかを選択しうる。

Ｂ．実施例２－乳酸濃度標識
［００１２９］訓練データセットは、（各々が、個々の試料を使用して収集され、個々の試料に対応する）５０００個のラマンスペクトル及び５０００個の標識を含むように定義された。各標識は試料特性を識別することができ、この例では、対応する試料内の乳酸の量を識別する。モニタされる各試料は、真核細胞培養物を含んでいた。候補解の初期セットは、１０個の候補解を有するように定義され、各候補解は、実施例１の候補解と同じ特質の各々についての値と関連している。

［００１３０］次いで、遺伝的アルゴリズムを使用して、１０個の候補解の各々を評価した。訓練データセットは、特定のパラメータを学習するために（例えば、ベースライン除去が実施されることを候補解の特質のセットが示すとき、非対称最小二乗法を使用して除去される特定のベースラインを識別するために）使用された。各候補解に関しては、候補解の特質のセット及び任意の学習済パラメータに従って、候補処理パイプラインが定義された。検証データセットにおける５００個のラマンスペクトルの各々について、候補解の候補処理パイプラインを使用した予測標識を作成し、予測標識を既知の標識と比較することによって、適応度基準が計算された。

［００１３１］図５Ａは、乳酸濃度の測定標識値と、例示的な候補解の候補処理パイプラインによって生成された乳酸濃度の予測標識値との間の比較を示す。この候補処理パイプラインに対して、Ｒ^２値は０．８６８と決定され、二乗平均平方根誤差は、試験データセットに対して０．０６９と計算された。

［００１３２］図５Ａは、以下の構成を含む第１世代からの例示的な候補解に関する。
・ベースライン除去なし
・Ｓａｖｉｔｚｋｙ‐Ｇｏｌａｙ平滑化は、ウインドウサイズ１５、多項式次数２、導関数次数１を使用して実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、６成分による部分最小二乗回帰である。

［００１３３］世代の候補解のサブセットは、１０個の候補解の中から２個の候補解を含み、最高の適応度基準と関連付けられるように定義された。サブセット中の候補解の特質が突然変異アルゴリズムに入力され、次に、第２世代のための１０個の新しい候補解の各々に対する特質のセットが定義された。候補解が評価され、３０世代ごとに適応度基準値が生成されるまで、同様の方法で新世代が定義された。次に、世代に対して最も高い適応度基準に関連する候補解を識別することによって、第３０世代の候補解の中から単一候補解が選択された。

［００１３４］図５Ｂは、乳酸濃度の測定標識値と、第３０世代以降の単一の候補解によって生成された乳酸濃度の予測標識値との間の比較を示す。例示的な候補解は、以下の構成を有する。
・非対称最小二乗ベースライン除去は、λ＝４及びｐ＝７で実行される。
・Ｓａｖｉｔｚｋｙ‐Ｇｏｌａｙ平滑化は、ウインドウサイズ９、多項式次数２、導関数次数０を使用して実行される。
・スケーリングは標準正規変量法に従って実施される。
・使用される機械学習モデルは、リーフノートとなる最小試料数が７、最大特徴数が３００、内部ノードを分割する最小試料数が５であるランダムフォレストとなる。ランダムフォレストは、１００個の推定値を含む。

［００１３５］この処理パイプラインに対して、Ｒ^２値は０．８９４と決定され、試験データセットに対して計算された二乗平均平方根誤差は０．０６１であった。したがって、予測標識と実際の標識との間の一致は、第１世代の例示的候補解からの標識一致と比較して、選択された単一候補解（３０世代後に識別）の方が高かった。さらに、予測標識の誤差は、第１世代の例示的候補解の誤差と比較して、選択した単一候補解（３０世代後に識別）の方が低かった。

Ｃ．実施例３－グルコース濃度標識
［００１３６］図６Ａ及び図６Ｂは、第１世代からの例示的候補解及び３０世代からの例示的候補解についての、ｐＨの測定標識値とグルコース濃度の予測標識値との例示的な比較を示す。この例では、実施例２で実行されたものと同様の処理が実行された。標識は試料中の乳酸量ではなく試料中のグルコース量を識別し、真核細胞培養がモニタされた。図６Ａ及び図６Ｂはそれぞれ、実際の標識と推定標識との比較を示している。図６Ａは第１世代からの例示的な候補解に関するものであり、図６Ｂは（３０世代後に識別された）単一候補解に関するものである。

［００１３７］第１世代における例示的候補解の候補処理パイプラインには、以下の構成が含まれていた。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１５、多項式次数２、導関数次数１を使用して実行される。
・スケーリングは標準正規変量法に従って実施される。
・使用される機械学習モデルは、８主成分による部分最小二乗である。

［００１３８］第３０世代以降に選択された単一候補解の候補処理パイプラインには、以下の構成が含まれていた。
・非対称最小二乗ベースライン除去は、λ＝４及びｐ＝７で実行される。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１３、多項式次数２、導関数次数１を使用して実行される。
・スケーリングは実行されない。
・使用される機械学習モデルは、９主成分による部分最小二乗である。

［００１３９］第３０世代以降に選択された単一候補解に対するＲ^２値は、例示的な第１世代候補解でのＲ^２値と比較して、より高かった（それぞれ、Ｒ^２＝０．９５８に対して、Ｒ^２＝０．９４４）。さらに、第３０世代以降に選択された単一候補解の試験セット誤差は、例示的な第１世代候補解の誤差と比較して低かった（それぞれ、ＲＭＳＥ＝０．０３９に対して、ＲＭＳＥ＝０．０４５）。

［００１４０］特に、この実施例に関連する選択された単一候補解の特質のいくつかは、実施例２に関連する選択された単一候補解の対応する特質とは異なっていた。例えば、この例で選択された機械学習モデルは部分最小二乗モデルであったが、実施例２で選択された機械学習モデルはランダムフォレストモデルであった。これは、様々な前処理と処理技術及び／又は構成が、予測される標識のタイプに依存して標識を予測するのに、特異的に有効であることを示しうる。

Ｄ．実施例４－ｐＨ標識
［００１４１］図７Ａ及び図７Ｂは、第１世代からの例示的候補解及び第３０世代からの例示的候補解についての、ｐＨの測定標識値とｐＨの予測標識値との例示的な比較を示す。この例では、実施例２で実行されたものと同様の処理が実行された。実施例４の標識は、真核細胞培養試料中の乳酸の量ではなく、試料（例えば、この文脈において、製剤緩衝液中のバイオ医薬材料）のｐＨを識別する。この例では、測定値は、対象に対する試料のリリース及び配布を決定することができる品質属性である。図７Ａ及び図７Ｂはそれぞれ、実際の標識と推定標識との比較を示している。

［００１４２］図７Ａは、以下の構成を含んだ第１世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１５、多項式次数２、導関数次数１を使用して実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、６主成分による部分最小二乗である。

［００１４３］図７Ｂは、以下の構成を含んだ単一候補解（３０世代後に識別される）に関する。
・非対称最小二乗ベースライン除去は、λ＝６及びｐ＝３で実行される。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ５、多項式次数３、導関数次数０を使用して実行される。
・スケーリングは実行されない。
・使用される機械学習モデルは、２０主成分による部分最小二乗である。

［００１４４］第３０世代以降に選択された単一候補解に対するＲ^２値は、例示的な第１世代候補解でのＲ^２値と比較して、より高かった（それぞれ、Ｒ^２＝０．９１６に対して、Ｒ^２＝０．５００）。さらに、第３０世代以降に選択された単一候補解の試験セット誤差は、例示的な第１世代候補解の誤差と比較して低かった（それぞれ、ＲＭＳＥ＝０．０２２に対して、ＲＭＳＥ＝０．０５４）。

Ｅ．実施例５－浸透圧標識
［００１４５］図８Ａ及び図８Ｂは、第１世代からの例示的候補解及び第３０世代からの例示的候補解についての、浸透圧の測定標識値と浸透圧の予測標識値との例示的な比較を示す。この例では、実施例２で実行されたものと同様の処理が実行された。実施例５の標識は、試料の浸透圧（例えば、この文脈において、製剤緩衝液中のバイオ医薬材料の溶質濃度）を識別する。図８Ａ及び図８Ｂはそれぞれ、実際の標識と推定標識との比較を示している。

［００１４６］図８Ａは、以下の構成を含んだ第１世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１５、多項式次数２、導関数次数１で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、８主成分による部分最小二乗である。

［００１４７］図８Ｂは、以下の構成を含んだ単一候補解（３０世代後に識別される）に関する。
・非対称最小二乗ベースライン除去は、λ＝４及びｐ＝７で実行される。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ５、多項式次数３、導関数次数０で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、Ｃ：２１００、γ：０．０１５８４である。

［００１４８］第３０世代以降に選択された単一候補解に対するＲ^２値は、例示的な第１世代候補解でのＲ^２値と比較して、より高かった（それぞれ、Ｒ^２＝０．９１８に対して、Ｒ^２＝０．６８５）。さらに、第３０世代以降に選択された単一候補解の試験セット誤差は、例示的な第１世代候補解の誤差と比較して低かった（それぞれ、ＲＭＳＥ＝０．０７３に対して、ＲＭＳＥ＝０．１４４）。

Ｆ．実施例６－抗体酸化標識
［００１４９］図９Ａ及び図９Ｂは、第１世代からの例示的候補解及び第３０世代からの例示的候補解についての、抗体酸化の測定標識値と抗体酸化の予測標識値との例示的な比較を示す。この例では、実施例２で実行されたものと同様の処理が実行された。実施例６の標識は、試料の推定抗体酸化を識別する（例えば、この文脈において、治療用抗体の機能性の推定）。図９Ａ及び図９Ｂはそれぞれ、実際の標識と推定標識との比較を示している。

［００１５０］図９Ａは、以下の構成を含んだ第１世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１５、多項式次数２、導関数次数１で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、５主成分による部分最小二乗である。

［００１５１］図９Ｂは、以下の構成を含んだ単一候補解（３０世代後に識別される）に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ５、多項式次数４、導関数次数０で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、１０主成分による部分最小二乗回帰である。

［００１５２］第３０世代以降に選択された単一候補解に対するＲ^２値は、例示的な第１世代候補解でのＲ^２値と比較して、より高かった（それぞれ、Ｒ^２＝０．７８９に対して、Ｒ^２＝０．５７８）。さらに、第３０世代以降に選択された単一候補解の試験セット誤差は、例示的な第１世代候補解の誤差と比較して低かった（それぞれ、ＲＭＳＥ＝０．０７４に対して、ＲＭＳＥ＝０．１０５）。

Ｇ．実施例７－グリカンＧ０Ｆ－Ｎ標識
［００１５３］図１０Ａ及び図１０Ｂは、第１世代からの例示的候補解及び第３０世代からの例示的候補解についてのグリカンＧ０Ｆ－Ｎの測定標識値とグリカンＧ０Ｆ－Ｎの予測標識値との例示的な比較を示す。この例では、実施例２で実行されたものと同様の処理が実行された。実施例７の標識は、試料の推定グリカンＧ０Ｆ－Ｎを識別する。図１０Ａ及び図１０Ｂはそれぞれ、実際の標識と推定標識との比較を示している。

［００１５４］図１０Ａは、以下の構成を含んだ第１世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１５、多項式次数２、導関数次数１で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、５主成分による部分最小二乗である。

［００１５５］図１０Ｂは、以下の構成を含んだ単一候補解（３０世代後に識別される）に関する。
・非対称最小二乗ベースライン除去は、λ＝６及びｐ＝９で実行される。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ５、多項式次数３、導関数次数０で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、Ｃ：２４００、γ：０．０００６である。

［００１５６］第３０世代以降に選択された単一候補解に対するＲ^２値は、例示的な第１世代候補解でのＲ^２値と比較して、より高かった（それぞれ、Ｒ^２＝０．８１４に対して、Ｒ^２＝０．７１０）。さらに、第３０世代以降に選択された単一候補解の試験セット誤差は、例示的な第１世代候補解の誤差と比較して低かった（それぞれ、ＲＭＳＥ＝０．０４４に対して、ＲＭＳＥ＝０．０５５）。

Ｈ．実施例８－ＨＭＷＦ標識
［００１５７］図１１Ａ及び図１１Ｂは、高分子量形態（ＨＭＷＦ）の測定標識値と、第１世代からの例示的候補解及び第３０世代からの例示的候補解のＨＭＷＦの予測標識値との例示的な比較を示す。この例では、実施例２で実行されたものと同様の処理が実行された。実施例８の標識は、試料の推定ＨＭＷＦを識別する。図１１Ａ及び図１１Ｂはそれぞれ、実際の標識と推定標識との比較を示している。

［００１５８］図１１Ａは、以下の構成を含んだ第１世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１５、多項式次数２、導関数次数１で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、８主成分による部分最小二乗である。

［００１５９］図１１Ｂは、以下の構成を含んだ単一候補解（３０世代後に識別される）に関する。
・非対称最小二乗ベースライン除去は、λ＝７及びｐ＝３で実行される。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１１、多項式次数３、導関数次数０で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、Ｃ：２１００、γ：０．１である。

［００１６０］第３０世代以降に選択された単一候補解に対するＲ^２値は、例示的な第１世代候補解でのＲ^２値と比較して、より高かった（それぞれ、Ｒ^２＝０．９６０に対して、Ｒ^２＝０．８１１）。さらに、第３０世代以降に選択された単一候補解の試験セット誤差は、例示的な第１世代候補解の誤差と比較して低かった（それぞれ、ＲＭＳＥ＝０．０４８に対して、ＲＭＳＥ＝０．１０５）。

Ｉ．実施例９－二重特異性アセンブリ標識
［００１６１］図１２Ａ及び図１２Ｂは、二重特異性アセンブリの測定標識値と、第１世代からの例示的候補解及び第３０世代からの例示的候補解についての二重特異性アセンブリの予測標識値との間の例示的な比較を示す。この例では、実施例２で実行されたものと同様の処理が実行された。実施例９の標識は、試料中の抗体の二重特異性アセンブリの推定を識別する（例えば、逆相質量分析によって測定される小数分画としてのアセンブリされた二重特異性抗体のパーセント）。図１２Ａ及び図１２Ｂはそれぞれ、実際の標識と推定標識との比較を示している。

［００１６２］図１２Ａは、以下の構成を含んだ第１世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１５、多項式次数２、導関数次数１で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、６主成分による部分最小二乗である。

［００１６３］図１２Ｂは、以下の構成を含んだ単一候補解（３０世代後に識別される）に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１３、多項式次数２、導関数次数０で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、１０主成分による部分最小二乗である。

［００１６４］第３０世代以降に選択された単一候補解に対するＲ^２値は、例示的な第１世代候補解でのＲ^２値と比較して、より高かった（それぞれ、Ｒ^２＝０．９３８に対して、Ｒ^２＝０．８９８）。さらに、第３０世代以降に選択された単一候補解の試験セット誤差は、例示的な第１世代候補解の誤差と比較して低かった（それぞれ、ＲＭＳＥ＝０．０７９に対して、ＲＭＳＥ＝０．１０２）。

Ｊ．実施例１０－生存細胞の存在量アセンブリ標識
［００１６５］図１３Ａ及び図１３Ｂは、第１世代からの例示的候補解及び第３０世代からの例示的候補解についての、細胞生存率の測定標識値と細胞生存率の予測標識値との例示的な比較を示す。この例では、実施例２で実行されたものと同様の処理が実行された。実施例１０の標識は、試料中の生存細胞の存在量の推定を識別する。図１３Ａ及び図１３Ｂはそれぞれ、実際の標識と推定標識との比較を示している。

［００１６６］図１３Ａは、以下の構成を含んだ第１世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１５、多項式次数２、導関数次数１で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、１１主成分による部分最小二乗である。

［００１６７］図１３Ｂは、以下の構成を含んだ単一候補解（３０世代後に識別される）に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１５、多項式次数２、導関数次数１で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、Ｃ：１５５０、γ：０．００１６である。

［００１６８］第３０世代以降に選択された単一候補解に対するＲ^２値は、例示的な第１世代候補解でのＲ^２値と比較して、より高かった（それぞれ、Ｒ^２＝０．９８１に対して、Ｒ^２＝０．９８３）。さらに、第３０世代以降に選択された単一候補解の試験セット誤差は、例示的な第１世代候補解の誤差と比較して低かった（それぞれ、ＲＭＳＥ＝０．０４３に対して、ＲＭＳＥ＝０．０４６）。

Ｋ．実施例１１－死細胞の存在量アセンブリ標識
［００１６９］図１４Ａ及び図１４Ｂは、第１世代からの例示的候補解及び第３０世代からの例示的候補解についての、死細胞量の測定標識値と残留水分含有量の予測標識値との例示的な比較を示す。この例では、実施例２で実行されたものと同様の処理が実行された。実施例１１の標識は、試料中の死細胞の存在量の推定を同定する。図１４Ａ及び図１４Ｂはそれぞれ、実際の標識と推定標識との比較を示している。

［００１７０］図１４Ａは、以下の構成を含んだ第１世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１５、多項式次数２、導関数次数１で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、１２主成分による部分最小二乗である。

［００１７１］図１４Ｂは、以下の構成を含んだ単一候補解（３０世代後に識別される）に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズは１３、多項式次数２、導関数次数１で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、８主成分による部分最小二乗である。

［００１７２］第３０世代以降に選択された単一候補解に対するＲ^２値は、例示的な第１世代候補解でのＲ^２値と比較して、より高かった（それぞれ、Ｒ^２＝０．７１９に対して、Ｒ^２＝０．７０７）。さらに、第３０世代以降に選択された単一候補解の試験セット誤差は、例示的な第１世代候補解の誤差と比較して低かった（それぞれ、ＲＭＳＥ＝０．０９４に対して、ＲＭＳＥ＝０．０９６）。

Ｌ．実施例１２－残留水分含有量標識
［００１７３］図１５Ａ及び図１５Ｂは、第１世代からの例示的候補解及び第３０世代由来の例示的候補解についての、残留水分含有量の測定標識値と残留水分含有量の予測標識値との例示的な比較を示す。この例では、実施例２で実行されたものと同様の処理が実行された。実施例１２の標識は、試料の残留水分含有量の推定を識別する。図１５Ａ及び図１５Ｂはそれぞれ、実際の標識と推定標識との比較を示している。

［００１７４］図１５Ａは、以下の構成を含んだ第１世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１１、多項式次数４、導関数次数０で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルは、２主成分による部分最小二乗である。

［００１７５］図１５Ｂは、以下の構成を含んだ単一候補解（３０世代後に識別される）に関する。
・非対称最小二乗ベースライン除去は、λ＝５及びｐ＝９で実行される。
・１次導関数上のＳａｖｉｔｚｋｙ－Ｇｏｌａｙ平滑化は、ウインドウサイズ１１、多項式次数４、導関数次数１で実行される。
・スケーリングは、標準正規変量ｒｏｗ－ｗｉｓｅ法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、Ｃ：２４００、γ：０．００５、ε＝０．０６６である。

［００１７６］第３０世代以降に選択された単一候補解に対するＲ^２値は、例示的な第１世代候補解でのＲ^２値と比較して、より高かった（それぞれ、Ｒ^２＝０．９９２に対して、Ｒ^２＝０．９８３）。さらに、第３０世代以降に選択された単一候補解の試験セット誤差は、例示的な第１世代候補解の誤差と比較して低かった（それぞれ、ＲＭＳＥ＝０．０２７に対して、ＲＭＳＥ＝０．０３９）。

Ｍ．実施例１３－前処理による未加工スペクトル特性の操作
［００１７７］図１６Ａ～図２１Ｂは、信号品質及び機械学習予測を改善するために未加工のスペクトルデータを前処理することに関連する例示的データを示す。図１６、図１７、図１８、図１９、図２０及び図２１は、それぞれ図７、図１０、図１２、図１３、図１４及び図１５に対応する標識変数、モニタリング及び処理パイプラインの種類に対応している。各プロットについて、ｘ座標及びｙ座標の範囲は、観測された最大値の割合に対して縮尺される（例えば、０～１の間）。各「Ａ」プロットは、入力ラマンスペクトルのセットを示す。各「Ｂ」プロットは、対応する処理パイプラインに従って本明細書に開示された技術を（限定されるものではないが）適用することにより生成された、対応する前処理されたスペクトルのセットを示す。特に、「Ａ」プロットに示された特定のスペクトルに基づいて決定されるため、各可変タイプに対する特定の適用技術は異なる。

［００１７８］スペクトルの前処理の結果、すべての周波数ではないが、多くの周波数において、スペクトルの至るところで変動性が減少することが、図を通して見てとれる。交差スペクトルの変動が残っている周波数は標識変数の特定の値に関して有益であるが、交差スペクトルの変動が除去されている周波数はこの点に関して有益ではない可能性がある。

Ｎ．実施例１４－機能選択による未加工スペクトル特性の操作
［００１７９］図２２Ａ～図２２Ｂは、信号品質及び機械学習予測を改善するために未加工スペクトルデータを前処理することに関連する例示的データを示す。波数が０から２０００の間で、観測された最大値の比率に対して（例えば、０から１の間に）縮尺されたｙの範囲にある未加工入力スペクトルを図２２Ａに示した。図２２Ｂは、特徴選択処理が実行された後（例えば、図１～図３に記載されているように）、特徴選択処理が、処理パイプラインの段階（例えば、前処理の後、及び機械学習モデルに入力される前、又は特性の推定又は予測が生成される前）において実行された、対応するスペクトルのセットを示す。

［００１８０］図２２Ｂで実証されているように、図１～図３の特徴選択処理が実行された後のスペクトルのセットは減少する。波数の変動に寄与しない波数は、これらの波数が存在しないことが、特性を推定又は予測するための機械学習モデルの精度に限界効果を及ぼさなかったか、有しなかったため、入力スペクトルから除去された。図示したように、図２２Ａの波数の一部のみが変動性に寄与しており、特徴選択処理の間に選択された。

［００１８１］図２３は、試料の特性を推定するために、具体的に減少した特徴のセットを識別した特徴選択処理の例示的な実行を示している。各波数には（図１～図３に記載したように）順位が割り当てられた。特徴選択処理には、前の反復に含まれる波数から一定量の波数と対応する強度（例えば２５％）を除去する各反復を伴う１２回の反復が含まれていた。波数の望ましい選択を有する特定の反復を同定するため、閾値偏差０．０２が選択された。第１の反復の前には、１５４５の波数があった。波数のフルセットの交差検証係数は０．０８９２であった（例えば、図２に記載されたプロセスに従って導かれた）が、これはその後の反復が比較されることになるベースライン交差検証係数に相当した。

［００１８２］反復１の間に、（割り当てられた順位に基づいて）特徴の下位２５％が除去され、１１５９個の特徴が残った。減少した特徴に対して交差検証係数が導出されたが、これはベースライン交差検証係数よりも高かった（例えば、０．００１だけ）。その結果、反復１の交差検証係数は新しいベースライン交差検証係数となった。反復２の間に、残りの特徴の下位２５％（例えば、反復１から得られた１１５９個の特徴の２５％）が除去され、減少した特徴に対して、０．８８７の交差検証係数が導出された。

［００１８３］例えば、図１～図３に示された特徴選択処理のグラフ表示を図解する図２４Ａ～図２４Ｄに注目する。図２４Ａは、図２３の例の第１の反復の間に割り当てられた順位に従って順序付けられた波数のグラフを示す。図２４Ａに示されているように、グラフから除去するため、波数の下位２５％が識別された。図２４Ｂは、図２３の例の第２の反復中に割り当てられた順位に従って並べられた波数のグラフを示す。第２の反復中に、第１の反復で識別された波数の下位２５％が除去された。残りの波数の下位２５％は、除去のためマークされた。図２４Ｃは、図２２の例の第２の反復中に、割り当てられた順位に従って並べられた波数の別のグラフを示す。図２４Ｃに示されているように、除去された波数には、第１の反復で識別された波数の下位２５％及び図２４Ｂで識別された波数の下位２５％が含まれている。

［００１８４］図２３に戻ると、反復８で、交差検証係数は０．８８１で、ベースラインの交差検証係数（例えば、第３の反復の間に再度更新され０．８９５となった）から、０．０１４下回っている。次の反復の間、交差検証係数は０．８６６で、これはベースライン交差検証係数から０．０２９下回っており、閾値０．０２０を超えた。反復８の交差検証係数が、閾値を超えずに閾値０．０２０に最も近いため、反復８が特定の反復となるように選択された。その結果、反復８の特徴は、試料の予測特性の生成に使用するために選択された。

［００１８５］図２４Ｄは、図２３の例の第８の反復中に、割り当てられた順位に従って順序付けられた波数のグラフを示す。図２４Ｄのグラフは、特徴選択処理（例えば、第８の反復によって識別される）に従って選択された波数を、前の反復の間に除外された波数から区別する。図に示すように、波数のフルセットの一部が選択された。

Ｖ．例示的な実施形態
［００１８６］Ａ１．複数のデータ要素を含むデータセットへアクセスすることであって、前記データ要素の各々は、
複数の試料のうちの１つとエネルギー源からのエネルギーとの間の相互作用に基づいて生成されるスペクトル、及び、
前記試料の既知の特性
を含む、データセットへアクセスすることと、
候補解の母集団を初期化することであって、前記候補解の各々は、
特定のタイプの前処理が実行されるという指示、
実行される前処理のパラメータ、
使用される機械学習モデルのタイプの特定、及び／又は、
機械学習モデルハイパーパラメータ
を含む特質のセットによって定義される、候補解の母集団を初期化することと、
候補解の前記母集団をフィルタ処理することであって、
前記候補解の各々について、及び前記データ要素の各々について、前記データ要素の前記スペクトルを前記特質のセットで処理することにより予測試料特性を決定すること、
候補解の前記母集団の各々について、前記予測試料特性と前記データ要素の既知の特性に基づいて、適応度基準を生成すること、及び、
前記適応度基準に基づいて候補解の前記母集団の不完全なサブセットを選択すること
によって、候補解の前記母集団をフィルタ処理することと、
一又は複数の追加世代反復を実行することであって、
候補解の前記母集団の前記不完全なサブセット及び一又は複数の遺伝的演算子を使用して特定された解の次世代母集団を含むように、候補解の前記母集団を更新すること、及び、
候補解の更新された前記母集団を使用して、候補解の前記母集団の前記フィルタ処理を反復すること
によって、一又は複数の追加世代反復を実行することと、
前記追加世代反復の最後の世代反復の間に選択された候補解の前記母集団の前記不完全なサブセットにおける特定の候補解の前記特質のセットに基づいて処理パイプラインを生成することと、
を含むコンピュータ実装された方法。

［００１８７］Ａ２．他の試料に対応する他のスペクトルへアクセスすることと、
前記処理パイプラインにしたがって、前記他のスペクトルを処理することによって、前記他の試料の予測特性を生成することと、
前記他の試料の前記予測特性を出力することと、
をさらに含む、請求項Ａ１に記載のコンピュータ実装された方法。

［００１８８］Ａ３．前記複数のデータ要素の各データ要素について、前記スペクトルがラマンスペクトル又は赤外スペクトルを含む、請求項Ａ１又はＡ２に記載のコンピュータ実装された方法。

［００１８９］Ａ４．前記特定の候補解に対する前記特質のセットが、特定のタイプの機械学習モデルに対するハイパーパラメータを含み、前記特定のタイプの機械学習モデルは、
部分最小二乗法、
ランダムフォレスト、又は、
サポートベクトルマシン
を含む、請求項Ａ１からＡ３のいずれか一項に記載のコンピュータ実装された方法。

［００１９０］Ａ５．前記特定の候補解に対する前記特質のセットが、特定のタイプの機械学習モデルの選択又は特定のタイプの機械学習モデルに対するハイパーパラメータを含み、前記特定のタイプの機械学習モデルは、分類出力又は数値出力を生成するように構成される、請求項Ａ１からＡ４のいずれか一項に記載のコンピュータ実装された方法。

［００１９１］Ａ６．前記他の試料が大きな分子を含む、請求項Ａ１からＡ５のいずれか一項に記載のコンピュータ実装された方法。

［００１９２］Ａ７．前記他の試料が小さな分子を含む、請求項Ａ１からＡ６のいずれか一項に記載のコンピュータ実装された方法。

［００１９３］Ａ８．他方の予測特性は、
一又は複数の小さな分子の分析物の濃度、
溶媒、
一又は複数のタンパク質変異体の発生率、
タンパク質の高次構造、又は、
大きな分子の不純物
を特徴とする、請求項Ａ１からＡ７のいずれか一項に記載のコンピュータ実装された方法。

［００１９４］Ａ９．前記処理パイプラインは、ベースラインを低減又は除去するために非対称最小二乗法を実行することを含み、前記特定の候補解のための前記特質のセットが、前記非対称最小二乗法のための少なくとも１つのパラメータを含む、請求項Ａ１からＡ８のいずれか一項に記載のコンピュータ実装された方法。

［００１９５］Ａ１０．前記処理パイプラインは、ベースラインを低減又は除去するために平滑化技術を実行することを含み、前記特定の候補解のための前記特質のセットが、前記平滑化技術のための少なくとも１つのパラメータを含む、請求項Ａ１からＡ９のいずれか一項に記載のコンピュータ実装された方法。

［００１９６］Ａ１１．前記複数の試料のうちの少なくとも１つの試料について、前記複数のデータ要素は、前記試料に対応する複数のデータ要素を含み、前記複数のデータ要素は前記試料を使用して生成された異なる複製スペクトルを含む、請求項Ａ１からＡ１０のいずれか一項に記載のコンピュータ実装された方法。

［００１９７］Ａ１２．前記複数のデータ要素を前記複数のデータ要素の訓練サブセットに分割することをさらに含み、
前記予測試料特性が決定される前記複数のデータ要素のうちの少なくともいくつかが、前記複数のデータ要素の前記試験サブセットとして定義され、
候補解の前記母集団をフィルタ処理することは、
前記複数のデータ要素の前記試験サブセットを使用して、一又は複数のパラメータを学習することを含む、請求項Ａ１からＡ１１のいずれか一項に記載のコンピュータ実装された方法。

［００１９８］Ａ１３．前記複数の試料の各々は、同一の標的化学構造に対応し、また、同一の標的製剤に対応し、前記複数の試料は、複数のロット特異的サブセットを含み、前記複数のロット特異的サブセットの各々は、個々のロット間に製造された複数の試料を含み、前記複数のデータ要素を前記分割することは、
前記個々のロットを前記訓練サブセットと前記試験サブセットとに分割することと、
前記ロットの分割に基づいて、前記複数のデータ要素を分割することと、
を含む、請求項Ａ１からＡ１２のいずれか一項に記載のコンピュータ実装された方法。

［００１９９］Ａ１４．撮像装置を使用して、前記他の試料に対して前記他のスペクトルを収集することと、
前記他のスペクトルを請求項Ａ１からＡ１３のいずれか一項に記載のコンピュータ実装された方法を実行するコンピュータシステムに計算機的に役立てることと、
前記コンピュータシステムから前記予測特性を受信することと、
品質管理条件が満たされているかどうかを前記予測特性に基づいて決定することと、
前記品質管理条件が満たされている場合には、投与すべき前記他の試料を対象に配布することと、
前記品質管理条件が満たされていない場合には、対象に投与するための他の試料の配布を禁止することと、
をさらに含む、コンピュータ実装された方法。

［００２００］Ａ１５．前記品質管理条件が満たされていない場合には、前記他の試料の製造に関連する一又は複数のパラメータを動的に調整することをさらに含む、請求項Ａ１からＡ１４のいずれか一項に記載のコンピュータ実装された方法。

［００２０１］Ａ１６．前記他のスペクトルを収集するために前記他の試料を提供することと、
前記他のスペクトルを請求項Ａ１１からＡ１５のいずれか一項に記載のコンピュータ実装された方法を実行するコンピュータシステムに計算機的に役立てることと、
前記コンピュータシステムから前記予測特性を受信することと、
品質管理条件が満たされているかどうかを前記予測特性に基づいて決定することと、
前記品質管理条件が満たされている場合には、追加の試料を製造するように構成された一又は複数の製造工程を開始又は完了することと、
前記品質管理条件が満たされていない場合には、前記一又は複数の製造工程を終了又は変更することと、
をさらに含む、コンピュータ実装された方法。

［００２０２］Ａ１７．コンピュータ実装された方法であって、前記方法は、
クライアント装置において、特定の試料とエネルギー源からのエネルギーとの間の相互作用に基づいて生成される特定のスペクトルにアクセスすることと、
処理パイプラインを使用して前記特定のスペクトルを処理することによって生成される前記特定の試料の予測特性に対する要求を、前記クライアント装置からリモートコンピューティングシステムに送信することと、
を含み、前記処理パイプラインは、
複数の試料に対応する複数のデータ要素を含むデータセットにアクセスすることであって、前記特定の試料が前記複数の試料の各々と異なり、前記複数のデータ要素の各データ要素が、
前記複数の試料のうちの１つの試料に関連するスペクトル、及び、
前記試料の既知の特性
を含む、データセットにアクセスすることと、
候補解の母集団を初期化することであって、前記候補解の各々は、
特定のタイプの前処理が実行されるかどうか、
実行される前処理のパラメータ、
どのタイプの機械学習モデルが使用されるか、及び／又は、
機械学習モデルハイパーパラメータ
を含む、特質のセットによって定義される、候補解の母集団を初期化することと、
候補解の前記母集団をフィルタ処理することであって、
候補解の前記母集団の各々ついて、及び前記複数のデータ要素の少なくともいくつかの各々について、前記データ要素の前記スペクトルを前記特質のセットに従って処理することにより、予測試料特性を決定すること、
候補解の前記母集団の各々について、前記予測試料特性及び前記複数のデータ要素の前記少なくともいくつかの前記既知の特性に基づいて、適応度基準を生成すること、及び、
前記適応度基準に基づいて、候補解の前記母集団の不完全なサブセットを選択すること
によって、候補解の前記母集団をフィルタ処理することと、
一又は複数の追加世代反復を実行することであって、
候補解の前記母集団の前記選択された不完全なサブセット及び一又は複数の遺伝的演算子を使用して特定された解の次世代母集団を含むように、候補解の前記母集団を更新すること、及び、
候補解の更新された前記母集団を使用して候補解の前記母集団の前記フィルタ処理を反復すること、
によって、一又は複数の追加世代反復を実行することと、
前記一又は複数の追加世代反復の最後の世代反復の間に選択された候補解の前記母集団の不完全なサブセットにおける、特定の候補解の前記特質のセットに基づいて処理パイプラインを定義することと
によって、定義され、
また、前記方法は、
前記クライアント装置において、前記リモートコンピューティングシステムから、前記特定の試料の前記予測特性を受信すること、
を含む、コンピュータ実装された方法。

［００２０３］Ａ１８．前記エネルギー源からの前記エネルギーの放出を開始するために分光法を使用して、前記特定のスペクトルを収集することをさらに含む、請求項Ａ１からＡ１７のいずれか一項に記載のコンピュータ実装された方法。

［００２０４］Ａ１９．前記予測試料の前記予測特性を生成する際に使用するため、前記スペクトルの強度のセットから一又は複数の強度を選択する特徴選択処理を実行することを含むように、前記処理パイプラインを修正することをさらに含み、前記特徴選択処理は、前記処理パイプラインによって、前記予測特性の生成の前に実行される、請求項Ａ１からＡ１８のいずれか一項に記載のコンピュータ実装された方法。

［００２０５］Ａ２０９．前記特徴選択処理は、
前記スペクトルから、波数のセットを特定することであって、各波数が強度値に関連している、波数のセットを特定することと、
回帰分析を使用して、前記波数のセットの各波数に対するスコアを定義することと、
前記波数のセットの各波数の前記スコアにより、前記波数のセットをソートすることと、
一又は複数の特徴選択反復を実行することとを含み、各特徴選択反復は、
最も低いスコアを有する前記スペクトルの一又は複数の波数を除去することによって前記波数のセットのサブセットを生成すること、及び、
前記機械学習モデル上の前記波数のセットの前記サブセットの交差検証に基づくモデル検証スコアを生成すること、
前記一又は複数の特徴選択反復から、閾値に最も近いモデル検証スコアを含む前記一又は複数の特徴選択反復のうちの特定の特徴選択反復を選択すること、及び、
前記処理パイプラインによって前記予測特徴を生成する際に使用するため、前記特定の特徴選択反復の前記波数のセットの前記サブセットに対応する強度を選択すること、
を含む、請求項Ａ１からＡ１９のいずれか一項に記載のコンピュータ実装された方法。

［００２０６］Ａ２１．一又は複数のデータプロセッサと、
前記一又は複数のデータプロセッサ上で実行される場合、前記一又は複数のデータプロセッサに、本明細書に開示されている一又は複数の方法の一部又は全部を実行させる、命令を含む非一時的なコンピュータ可読記憶媒体と、
を備えるシステム。

［００２０７］Ａ２２．一又は複数のデータプロセッサに、本明細書に開示されている一又は複数の方法の一部又は全部を実行させるように構成された命令を含む、非一時的なマシン可読記憶媒体の中で有形に具現化されたコンピュータプログラム製品。

Ｖ．追加検討事項
［００２０８］本開示のいくつかの実施形態は、一又は複数のデータプロセッサを含むシステムを含む。いくつかの実施形態において、システムは、一又は複数のデータプロセッサ上で実行される場合、一又は複数のデータプロセッサに、本明細書に開示される一又は複数の方法及び／又は一又は複数のプロセスの一部または全部を実行させる、指示を含む一過性でないコンピュータ可読保存媒体を含む。本開示のいくつかの実施形態は、一又は複数のデータプロセッサに一又は複数の方法の一部または全部及び／又は本明細書に開示されている一又は複数のプロセスの一部または全部を実施させるように構成された指示を含む、一過性でない機械可読保存媒体に明白に具体化されたコンピュータプログラム製品を含む。

［００２０９］採用されている用語及び表現は、説明のための用語として使用されるもので、限定するための用語ではなく、このような用語及び表現の使用には、示されて説明されている特徴又はその一部のいなかる等価物をも排除する意図はなく、特許請求されている発明の範囲内で様々な変更が可能であることは認識されている。したがって、特許請求されている本発明は、具体的には実施態様及び任意選択の特徴によって開示されているが、本明細書に開示されている概念の修正及び変形は、当業者に委ねられるが、そのような修正及び変形は、添付の特許請求によって定義される本発明の範囲内にあると見做されることを理解されたい。

［００２１０］本明細書は、好ましい例示的な実施形態のみを提供し、開示の範囲、適用性または構成を制限することを意図していない。むしろ、好ましい例示的な実施形態の本明細書は、様々な実施形態を実装するための可能な記載を当業者に提供するであろう。添付の特許請求の範囲に示されている精神及び範囲から逸脱することなく、構成要素の機能及び配置に種々の変更がなされうることを理解されたい。

［００２１１］具体的な詳細は、実施形態の完全な理解を提供するために、本明細書の中で与えられる。しかし、実施形態は、これらの具体的な詳細なしに実施されうることが理解されるであろう。例えば、回路、システム、ネットワーク、プロセス、及び他の構成要素は、不必要な詳細にして実施形態を不明瞭にしないために、ブロック図の構成要素として示されることがある。他の例では、実施形態を不明瞭にすることを避けるために、周知の回路、プロセス、アルゴリズム、構造、及び技術が不必要な詳細なしに示されることがある。

Claims

複数のデータ要素を含むデータセットへアクセスすることであって、前記データ要素の各々は、
複数の試料のうちの１つの試料とエネルギー源からのエネルギーとの間の相互作用に基づいて生成されるスペクトル、及び、
前記試料の既知の特性
を含む、データセットへアクセスすることと、
候補解の母集団を初期化することであって、前記候補解の各々は、
特定のタイプの前処理が実行されるという指示、
実行される前処理のパラメータ、
使用される機械学習モデルのタイプの特定、及び／又は、
機械学習モデルハイパーパラメータ
を含む特質のセットによって定義される、候補解の母集団を初期化することと、
候補解の前記母集団をフィルタ処理することであって、
前記候補解の各々について、及び前記データ要素の各々について、前記データ要素の前記スペクトルを前記特質のセットで処理することにより予測試料特性を決定すること、
候補解の前記母集団の各々について、前記予測試料特性と前記データ要素の既知の特性に基づいて、適応度基準を生成すること、及び、
前記適応度基準に基づいて候補解の前記母集団の不完全なサブセットを選択すること
によって、候補解の前記母集団をフィルタ処理することと、
一又は複数の追加世代反復を実行することであって、
候補解の前記母集団の前記不完全なサブセット及び一又は複数遺伝的演算子を使用して特定された解の次世代母集団を含むように、候補解の前記母集団を更新すること、及び、
候補解の更新された前記母集団を使用して、候補解の前記母集団の前記フィルタ処理を反復すること
によって、一又は複数の追加世代反復を実行することと、
前記追加世代反復の最後の世代反復の間に選択された候補解の前記母集団の前記不完全なサブセットにおける特定の候補解の前記特質のセットに基づいて処理パイプラインを生成することと、
を含むコンピュータ実装された方法。
他の試料に対応する他のスペクトルへアクセスすることと、
前記処理パイプラインにしたがって、前記他のスペクトルを処理することによって、前記他の試料の予測特性を生成することと、
前記他の試料の前記予測特性を出力することと、
をさらに含む、請求項１に記載のコンピュータ実装された方法。
前記複数のデータ要素の各データ要素について、前記スペクトルがラマンスペクトル又は赤外スペクトルを含む、請求項１に記載のコンピュータ実装された方法。
前記特定の候補解に対する前記特質のセットが、特定のタイプの機械学習モデルに対するハイパーパラメータを含み、前記特定のタイプの機械学習モデルは、
部分最小二乗法、
ランダムフォレスト、又は、
サポートベクトルマシン
を含む、請求項１に記載のコンピュータ実装された方法。
前記特定の候補解に対する前記特質のセットが、特定のタイプの機械学習モデルの選択又は特定のタイプの機械学習モデルに対するハイパーパラメータを含み、前記特定のタイプの機械学習モデルは、分類出力又は数値出力を生成するように構成される、請求項１に記載のコンピュータ実装された方法。
他の試料が大きな分子を含む、請求項１に記載のコンピュータ実装された方法。
他の試料が小さな分子を含む、請求項１に記載のコンピュータ実装された方法。
他の試料の予測特性は、
一又は複数の小さな分子の分析物の濃度、
溶媒、
一又は複数のタンパク質変異体の発生率、
タンパク質の高次構造、又は、
大きな分子の不純物
を特徴とする、請求項１に記載のコンピュータ実装された方法。
前記処理パイプラインは、ベースラインを低減又は除去するために非対称最小二乗法を実行することを含み、前記特定の候補解のための前記特質のセットが、前記非対称最小二乗法のための少なくとも１つのパラメータを含む、請求項１に記載のコンピュータ実装された方法。
前記処理パイプラインは、ベースラインを低減又は除去するために平滑化技術を実行することを含み、前記特定の候補解のための前記特質のセットが、前記平滑化技術のための少なくとも１つのパラメータを含む、請求項１に記載のコンピュータ実装された方法。
前記複数の試料のうちの少なくとも１つの試料について、前記複数のデータ要素は、前記試料に対応する複数のデータ要素を含み、前記複数のデータ要素は前記試料を使用して生成された異なる複製スペクトルを含む、請求項１に記載のコンピュータ実装された方法。
前記複数のデータ要素を前記複数のデータ要素の訓練サブセットと前記複数のデータ要素の試験サブセットとに分割することをさらに含み、
前記予測試料特性が決定される前記複数のデータ要素のうちの少なくともいくつかが、前記複数のデータ要素の前記試験サブセットとして定義され、
候補解の前記母集団をフィルタ処理することは、
前記複数のデータ要素の前記試験サブセットを使用して、一又は複数のパラメータを学習することをさらに含む、請求項１に記載のコンピュータ実装された方法。
前記複数の試料の各々は、同一の標的化学構造に対応し、また、同一の標的製剤に対応し、前記複数の試料は、複数のロット特異的サブセットを含み、前記複数のロット特異的サブセットの各々は、個々のロット間に製造された複数の試料を含み、前記複数のデータ要素を前記分割することは、
前記個々のロットを前記訓練サブセットと前記試験サブセットとに分割することと、
前記ロットの分割に基づいて、前記複数のデータ要素を分割することと、
を含む、請求項１２に記載のコンピュータ実装された方法。
他の試料に対応する他のスペクトルへアクセスすることと、
前記他のスペクトルを前記処理パイプラインで処理することによって前記他の試料の予測特性を生成することと、
品質管理条件が満たされているかどうかを前記予測特性に基づいて決定することと、
前記品質管理条件が満たされている場合には、投与すべき前記他の試料を対象に配布することと、
前記品質管理条件が満たされていない場合には、対象に投与するための前記他の試料の配布を禁止することと、
をさらに含む、請求項１に記載のコンピュータ実装された方法。
前記品質管理条件が満たされていない場合には、前記他の試料の製造に関連する一又は複数のパラメータを動的に調整することをさらに含む、請求項１４に記載のコンピュータ実装された方法。。
予測試料の予測特性を生成する際に使用するため、前記スペクトルの強度のセットから一又は複数の強度を選択する特徴選択処理を実行することをさらに含み、前記特徴選択処理は、前記処理パイプラインによって、前記予測特性の生成の前に実行される、請求項１に記載のコンピュータ実装された方法。
前記特徴選択処理は、
前記スペクトルから、波数のセットを識別することであって、各波数が強度値に関連している、波数のセットを識別することと、
回帰分析を使用して、前記波数のセットの各波数に対するスコアを定義することと、
前記波数のセットの各波数の前記スコアにより、前記波数のセットをソートすることと、
一又は複数の特徴選択反復を実行することとを含み、各特徴選択反復は、
最も低いスコアを有する前記スペクトルの一又は複数の波数を除去することによって前記波数のセットのサブセットを生成すること、及び、
機械学習モデル上の前記波数のセットの前記サブセットの交差検証に基づくモデル検証スコアを生成すること、
前記一又は複数の特徴選択反復から、閾値に最も近いモデル検証スコアを含む前記一又は複数の特徴選択反復のうちの特定の特徴選択反復を選択すること、及び、
前記処理パイプラインによって前記予測特性を生成する際に使用するため、前記特定の特徴選択反復の前記波数のセットの前記サブセットに対応する強度を選択すること、
を含む、請求項１６に記載のコンピュータ実装された方法。
他の試料に対応する他のスペクトルへアクセスすることと、
前記他のスペクトルを前記処理パイプラインに従って処理することによって前記他の試料の予測特性を生成することと、
前記予測特性を受信することと、
品質管理条件が満たされているかどうかを前記予測特性に基づいて決定することと、
前記品質管理条件が満たされている場合には、追加の試料を製造するように構成された一又は複数の製造工程を開始又は完了すること、及び、
前記品質管理条件が満たされていない場合には、前記一又は製造工程を終了又は変更することと、
をさらに含む、請求項１に記載のコンピュータ実装された方法。
コンピュータ実装された方法であって、前記方法は、
クライアント装置において、特定の試料とエネルギー源からのエネルギーとの間の相互作用に基づいて生成される特定のスペクトルへアクセスすることと、
処理パイプラインを使用して前記特定のスペクトルを処理することによって生成される前記特定の試料の予測特性に対する要求を、前記クライアント装置からリモートコンピューティングシステムに送信することと、
を含み、前記処理パイプラインは、
複数の試料に対応する複数のデータ要素を含むデータセットにアクセスすることであって、前記特定の試料が前記複数の試料の各々と異なり、前記データ要素の各々が、
前記複数の試料のうちの１つの試料に関連するスペクトル、及び、
前記試料の既知の特性
を含む、データセットにアクセスすることと、
候補解の母集団を初期化することであって、前記候補解の各々は、
特定のタイプの前処理が実行されるかどうか、
実行される前処理のパラメータ、
どのタイプの機械学習モデルが使用されるか、及び／又は、
機械学習モデルハイパーパラメータ
を含む、特質のセットによって定義される、候補解の母集団を初期化することと、
候補解の前記母集団をフィルタ処理することであって、
前記候補解の各々ついて、及び複数のデータ要素の各々について、前記データ要素の前記スペクトルを前記特質のセットで処理することにより、予測試料特性を決定すること、
候補解の前記母集団の各々について、前記予測試料特性及び前記データ要素の前記既知の特性に基づいて、適応度基準を生成すること、及び、
前記適応度基準に基づいて、候補解の前記母集団の不完全なサブセットを選択すること
によって、候補解の前記母集団をフィルタ処理することと、
一又は複数の追加世代反復を実行することであって、
候補解の前記母集団の前記不完全なサブセットと一又は複数の遺伝的演算子を使用して特定された解の次世代母集団を含むように、候補解の前記母集団を更新すること、及び、
候補解の更新された前記母集団を使用して候補解の前記母集団の前記フィルタ処理を反復すること、
によって、一又は複数の追加世代反復を実行することと、
前記追加世代反復の最後の世代反復の間に選択された候補解の前記母集団の前記不完全なサブセットにおける、特定の候補解の前記特質のセットに基づいて処理パイプラインを生成することと
によって、定義されており、
また、前記方法は、
前記クライアント装置において、前記リモートコンピューティングシステムから、前記特定の試料の前記予測特性を受信すること、
を含む、コンピュータ実装された方法。
前記エネルギー源からの前記エネルギーの放出を開始するために分光法を使用して、前記特定のスペクトルを収集することをさらに含む、請求項１９に記載のコンピュータ実装された方法。
一又は複数のデータプロセッサと、
前記一又は複数のデータプロセッサ上で実行される場合、前記一又は複数のデータプロセッサに、本明細書に開示されている一又は複数の方法の一部又は全部を実行させる、命令を含む非一時的なコンピュータ可読記憶媒体と、
を備えるシステム。
一又は複数のデータプロセッサに、本明細書に開示されている一又は複数の方法の一部又は全部を実行させるように構成された命令を含む、非一時的なマシン可読記憶媒体の中で有形に具現化されたコンピュータプログラム製品。