JP2023521757A - ラマンスペクトルに基づいて試料の特質を識別するためのモデルを決定するための遺伝的アルゴリズムの使用 - Google Patents
ラマンスペクトルに基づいて試料の特質を識別するためのモデルを決定するための遺伝的アルゴリズムの使用 Download PDFInfo
- Publication number
- JP2023521757A JP2023521757A JP2022561407A JP2022561407A JP2023521757A JP 2023521757 A JP2023521757 A JP 2023521757A JP 2022561407 A JP2022561407 A JP 2022561407A JP 2022561407 A JP2022561407 A JP 2022561407A JP 2023521757 A JP2023521757 A JP 2023521757A
- Authority
- JP
- Japan
- Prior art keywords
- sample
- population
- candidate solutions
- candidate
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002068 genetic effect Effects 0.000 title claims abstract description 52
- 238000001237 Raman spectrum Methods 0.000 title claims description 7
- 238000004422 calculation algorithm Methods 0.000 title abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 185
- 238000012545 processing Methods 0.000 claims abstract description 173
- 238000001228 spectrum Methods 0.000 claims abstract description 157
- 238000010801 machine learning Methods 0.000 claims abstract description 95
- 238000007781 pre-processing Methods 0.000 claims abstract description 59
- 230000008569 process Effects 0.000 claims description 75
- 238000003908 quality control method Methods 0.000 claims description 47
- 238000010200 validation analysis Methods 0.000 claims description 36
- 238000009499 grossing Methods 0.000 claims description 32
- 238000012360 testing method Methods 0.000 claims description 31
- 238000004519 manufacturing process Methods 0.000 claims description 23
- 238000001914 filtration Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 20
- 238000002790 cross-validation Methods 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 18
- 108090000623 proteins and genes Proteins 0.000 claims description 12
- 238000007637 random forest analysis Methods 0.000 claims description 12
- 102000004169 proteins and genes Human genes 0.000 claims description 11
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 229920002521 macromolecule Polymers 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 8
- 150000003384 small molecules Chemical class 0.000 claims description 8
- 150000002605 large molecules Chemical class 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 239000012535 impurity Substances 0.000 claims description 4
- 239000002904 solvent Substances 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 238000004611 spectroscopical analysis Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000009472 formulation Methods 0.000 claims description 2
- 238000002329 infrared spectrum Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 239000000523 sample Substances 0.000 description 158
- 230000003595 spectral effect Effects 0.000 description 27
- 210000004027 cell Anatomy 0.000 description 17
- 238000002372 labelling Methods 0.000 description 15
- JVTAAEKCZFNVCJ-UHFFFAOYSA-M Lactate Chemical compound CC(O)C([O-])=O JVTAAEKCZFNVCJ-UHFFFAOYSA-M 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 9
- 230000003647 oxidation Effects 0.000 description 9
- 238000007254 oxidation reaction Methods 0.000 description 9
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 7
- 239000008103 glucose Substances 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 239000004480 active ingredient Substances 0.000 description 6
- 229960000074 biopharmaceutical Drugs 0.000 description 6
- 230000035772 mutation Effects 0.000 description 6
- 238000010238 partial least squares regression Methods 0.000 description 6
- 230000000712 assembly Effects 0.000 description 5
- 238000000429 assembly Methods 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 5
- 239000003550 marker Substances 0.000 description 5
- 239000007793 ph indicator Substances 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 150000004676 glycans Chemical class 0.000 description 4
- JVTAAEKCZFNVCJ-UHFFFAOYSA-N lactic acid Chemical compound CC(O)C(O)=O JVTAAEKCZFNVCJ-UHFFFAOYSA-N 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000003204 osmotic effect Effects 0.000 description 4
- 238000013450 outlier detection Methods 0.000 description 4
- 238000004566 IR spectroscopy Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004113 cell culture Methods 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 210000003527 eukaryotic cell Anatomy 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000005414 inactive ingredient Substances 0.000 description 3
- 238000004949 mass spectrometry Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 238000005033 Fourier transform infrared spectroscopy Methods 0.000 description 2
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 238000001069 Raman spectroscopy Methods 0.000 description 2
- 230000003833 cell viability Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012537 formulation buffer Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 235000014655 lactic acid Nutrition 0.000 description 2
- 239000004310 lactic acid Substances 0.000 description 2
- 238000004811 liquid chromatography Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010129 solution processing Methods 0.000 description 2
- GUBGYTABKSRVRQ-QKKXKWKRSA-N Lactose Natural products OC[C@H]1O[C@@H](O[C@H]2[C@H](O)[C@@H](O)C(O)O[C@@H]2CO)[C@H](O)[C@@H](O)[C@H]1O GUBGYTABKSRVRQ-QKKXKWKRSA-N 0.000 description 1
- 229920000168 Microcrystalline cellulose Polymers 0.000 description 1
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000008101 lactose Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 235000019813 microcrystalline cellulose Nutrition 0.000 description 1
- 239000008108 microcrystalline cellulose Substances 0.000 description 1
- 229940016286 microcrystalline cellulose Drugs 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000003026 viability measurement method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Physiology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
遺伝的アルゴリズムを使用して、対応する試料の予測特性を生成するために使用可能な形態にスペクトルを変換する処理パイプラインを識別するための技術を開示する。遺伝的アルゴリズムは、様々な前処理及び機械学習処理構成を規定する複数の候補解を生成し、評価するために使用される。処理パイプラインは候補解に基づいて定義される。【選択図】図3
Description
関連出願の相互参照
[0001] 本出願は、「Use Of Genetic Algorithms To Identity Sample Properties Based On Raman Spectra」と題された、2020年4月10日付け米国仮特許出願第63/008,196号の利益と優先権を主張するものである。その全内容は、全文があらゆる目的のために参照により本明細書に援用される。
[0001] 本出願は、「Use Of Genetic Algorithms To Identity Sample Properties Based On Raman Spectra」と題された、2020年4月10日付け米国仮特許出願第63/008,196号の利益と優先権を主張するものである。その全内容は、全文があらゆる目的のために参照により本明細書に援用される。
[0002] 開発及び製造工程にわたって均一性を確保するためには、新薬及び研究試料の開発に関する属性を監視するための品質管理技術が頻繁に実装されている。新薬又は研究試料の製造又は分子構造におけるわずかな変動でさえも、治療結果と実験結果の双方に不整合を引き起こす可能性がある。このため、バイオ医薬品又は化合物の任意の所与の試料については、一貫した一連の属性及び品質の全体的な基準を維持することが重要である。
[0003] バイオ医薬品及び/又は材料の多くの特質を基準計量値と比較することにより、試料の品質を示すことができる。例えば、試料のpHは、化合物又は薬物が予想される酸性又は塩基性の性質を有するか否かを示すために測定することができる。別の例として、試料の浸透圧を測定して、試料のための溶液内の溶質の濃度が、高品質基準試料に関連する目標浸透圧と一致するか否かを示すことができる。このような特質の測定は、分子又は化合物の純度又は安定性、並びに、対象への配布前のバイオ医薬品の大量生産の正確性及び/又は一貫性を開示することができる。
[0004] 当該分野の訓練を受けた専門家は、試料を分析するための一連の技術を手動で選択し、試料属性の目標値及び/又は範囲を定義するため、データ処理及びモデル決定のための現在の技術は、相当な計算リソース及び時間リソースを必要とする。
[0005] スペクトルデータ及びタンデム機械学習モデルを利用した自動データ処理パイプラインを用いて試料の特性を定量化すると、使用するリソースが減り(例えば、計算時間の減少及び/又は最適な機械学習モデルを設計する手作業による時間の減少)、品質予測の精度が高まり、処理技術におけるユーザ間のばらつきが減少する可能性がある。
[0006] 本開示のいくつかの実施形態は、コンピュータ実装方法を含む。データセットにアクセス可能である。データセットは、第1のデータ要素のセットを含むことができ、その各々は、試料に対応するスペクトルを含む。スペクトルは、試料とエネルギー源からのエネルギーと間の相互作用に基づくように、分光法を用いて生成されていてもよい。例えば、スペクトルは、ラマン分光法、赤外分光法、質量分析法、液体クロマトグラフィー、又は核磁気共鳴(NMR)分光法を用いて生成されていてもよい。
[0007] データセットは対応するラベルのセットを含むことができ、その各々は関連する試料の既知の特性を示す。候補解の母集団は初期化される。候補解の母集団の各々は、特定のタイプの前処理を実施すべきか否か、前処理技術のパラメータを使用すべきか、どのタイプの機械学習モデルを使用すべきか、及び/又はどの機械学習ハイパーパラメータを適用するか、を示す特質のセットによって定義される。
[0008] 単一解は、候補解の母集団をフィルタ処理(候補解の中から均等に選択)することによって決定することができる。フィルタ処理は、候補解の母集団の各々について、及びデータセットの入力データ要素の少なくともいくつかについて、データ要素のスペクトルを特質のセットに従って処理することによって予測試料特性の決定を含むことができる。フィルタ処理には、適応度基準(fitness metrics)に基づいて候補解の母集団の不完全なサブセットを選択することも含まれうる。候補解の母集団の選択された不完全なサブセットと一又は複数の遺伝的演算子を使用して特定された解の次世代母集団を含むように、候補解の母集団を更新することによって、一又は複数の追加世代反復を行うことができる。一又は複数の遺伝的演算子は、選択技術及び/又は突然変異率を含みうる。候補解の更新された母集団を使用した候補解の母集団のフィルタ処理は、終了条件が満たされる(例えば、所定の世代数について処理を完了するか、又は定められた所定の閾値を下回る推定誤差の解が決定されていることを検出する)まで繰り返される。
[0009] 終了条件が満たされた後、最終世代の間に選択された不完全なサブセットにおける特定の候補解の特質のセットに基づいて、処理パイプラインが定義される。したがって、処理パイプラインには、少なくとも一部は特質のセットに基づく前処理及び/又は機械学習処理のための構成情報を含めることができる。場合によっては、別の試料に対応する別のスペクトルにアクセスすることができる。他の試料の予測特性は、処理パイプラインからの構成情報に従って、他のスペクトルを処理(例えば、機械学習モデルによって実行される前処理及び/又は処理を含むことができる)することによって生成される。他の試料の予測特性は出力(例えば、ユーザ装置に提示または送信)される。
[0010] いくつかの実施形態では、一又は複数のデータプロセッサ上で実行される場合に、本明細書に開示されている一又は複数の方法の一部又は全部を、一又は複数のデータプロセッサに実行させる指示を含む非一時的なコンピュータ可読記憶媒体を含むシステムが提供される。
[0011] 採用されている用語及び表現は、説明のための用語として使用されるもので、限定するための用語ではなく、このような用語及び表現の使用には、示されて説明されている特徴又はその一部のいなかる等価物をも排除する意図はなく、特許請求されている発明の範囲内で様々な変更が可能であることは認識されている。したがって、特許請求されている本発明は、具体的には実施態様及び任意選択の特徴によって開示されているが、本明細書に開示されている概念の修正及び変形は、当業者に委ねられるが、そのような修正及び変形は、添付の特許請求によって定義される本発明の範囲内にあると見做されることを理解されたい。
[0012] 本開示は、添付図面と併せて説明される。
[0055] 添付の図面において、類似の構成要素及び/又は特徴は、同一の参照符号を有することができる。さらに、同一タイプの様々な構成要素は、参照符号に続くダッシュ及び第2の符号によって、類似の構成要素の間で区別することができる。本明細書中で第1の参照符号のみが使用される場合には、第2の参照符号とは無関係に、同じ第1の参照符号を有する類似の構成要素のいずれにもが適用可能である。
詳細な記述
I. 概要
[0056] 遺伝的アルゴリズムを使用して、試料の特性を推定するために使用可能なデータ処理パイプラインを定義することができる。試料は、(例えば)バイオ医薬品又は薬剤であってよく、及び/又は小分子活性成分及び/又は大分子活性成分を含みうる。その特性には、(例えば)一又は複数の小分子分析物の濃度、溶媒の識別、溶媒の特性決定、一又は複数のタンパク質変異体の発生率、pH、浸透圧、タンパク質の均一性、タンパク質構造(例えば、タンパク質の高次構造)、または試料の大分子不純物(例えば、高濃度の宿主細胞タンパク質)が含まれうる。処理パイプラインには、エネルギー源からのエネルギーと試料との間の相互作用の結果を表すスペクトルの処理が含まれうる。スペクトルは、機械学習モデル(例えば、部分最小二乗モデル、ランダムフォレストモデル又はサポートベクトルマシンモデル)を使用することによって処理されてもよい。処理パイプラインにはさらに、スペクトルの前処理(例えば、ベースラインの除去、スペクトルの拡大縮小及び/又はスペクトルの平滑化)が含まれてもよい。
I. 概要
[0056] 遺伝的アルゴリズムを使用して、試料の特性を推定するために使用可能なデータ処理パイプラインを定義することができる。試料は、(例えば)バイオ医薬品又は薬剤であってよく、及び/又は小分子活性成分及び/又は大分子活性成分を含みうる。その特性には、(例えば)一又は複数の小分子分析物の濃度、溶媒の識別、溶媒の特性決定、一又は複数のタンパク質変異体の発生率、pH、浸透圧、タンパク質の均一性、タンパク質構造(例えば、タンパク質の高次構造)、または試料の大分子不純物(例えば、高濃度の宿主細胞タンパク質)が含まれうる。処理パイプラインには、エネルギー源からのエネルギーと試料との間の相互作用の結果を表すスペクトルの処理が含まれうる。スペクトルは、機械学習モデル(例えば、部分最小二乗モデル、ランダムフォレストモデル又はサポートベクトルマシンモデル)を使用することによって処理されてもよい。処理パイプラインにはさらに、スペクトルの前処理(例えば、ベースラインの除去、スペクトルの拡大縮小及び/又はスペクトルの平滑化)が含まれてもよい。
[0057] 遺伝的アルゴリズムは、特定のタイプの前処理を実行するかどうか、実行される前処理のパラメータ、どのタイプの機械学習モデルを使用するか、及び/又は、どの機械学習ハイパーパラメータを適用するか、を含む処理パイプラインの特質のセットを決定するために使用することができる。例えば、前処理の1つのタイプには、ベースライン除去(例えば、ノイズを低減するための、及び/又はスペクトル内の蛍光又は他のスペクトル干渉を除去するための、信号データの線形又は非線形サブトラクション)、スケーリング(例えば、異なるコンテキストとの比較を可能にするためのスペクトルデータの比例変換)、外れ値の識別、及び/又は除去、及び/又は平滑化(例えば、スペクトルデータ内の残りの変動の低減)が含まれうる。場合によっては、パラメータは、より具体的なタイプの前処理が実行されるかどうか、あるいは、具体的にどのタイプの前処理が実行されるかを示すことがある。例えば、パラメータには、ベースライン除去のために使用する以下の技術、非対称最小二乗、適応反復加重ペナルティ付き最小二乗法(adaptive iteratively reweighted Penalized Least Squares)、完全自動ベースライン補正、Kajfosz-Kwiatek法が含まれうる。実行される前処理のパラメータには、(例えば)減衰値、重量、ペナルティ、又はフィルタが含まれうる。実行される前処理のパラメータには、(例えば)行ごと及び/又は列ごとの単位分散(例えば、単位分散が各変数(列)を(値-平均)/標準偏差としてスケーリングする)等のスケーリングのタイプが含まれうる。機械学習モデルのタイプには、(例えば)ランダムフォレストモデル、サポートベクトルモデル、回帰モデル、ニューラルネットワーク(例えば、再帰ニューラルネットワーク、ディープニューラルネットワーク、及び/又は類似のネットワーク等の特定のタイプの)、又は複数の一般的な機械学習モデルの組合せに基づくモデルが含まれうる。機械学習ハイパーパラメータには、選択される機械学習モデルのタイプに基づいてハイパーパラメータが設定されるように、(例えば)学習速度、世代数、並びに多数のツリー(trees)及び/又はリーフ(leaves)が含まれうる。一例として、ランダムフォレストモデルは、多数のツリーを定義するハイパーパラメータを含んでもよいが、一方、線形回帰モデルは、ツリーの数に対してハイパーパラメータを必ずしも含まないであろう。
[0058] 遺伝的アルゴリズムは、候補解のセットを繰り返し定義及び評価することにより、特質のセットを決定することができる。各候補解は、実行される前処理のタイプ(及び/又は、その前処理の一又は複数のパラメータ)及び/又は、(未処理の、又は前処理された)スペクトル(及び/又は、そのスペクトルの一又は複数のハイパーパラメータ)の処理において使用される機械学習モデルのタイプを定義する特定の特質を含むことができる。より具体的には、各反復は世代反復(generation iteration)と呼ぶことができ、候補解の母集団の評価を含むことができる。評価には、母集団内の各候補解について、既知の特性(例えば、精度基準、誤差基準、感度基準等)に関連して実行される候補解に関連する特質によって、処理パイプラインがどの程度うまく構成されているかを示す適応度基準を作成することが含まれうる。例えば、適応度基準は、平均二乗誤差(MAE)、二乗平均平方根誤差(RMSE)、または対数双曲線コサイン誤差(log(cosh))であるか、これらを含んでもよい。次に、候補解の母集団の不完全なサブセットを、適応度基準に基づいて選択することができる(例えば、母集団中の最も高い適応度基準に関連する特定の数の候補解を識別するか、所定の閾値を超える適応度基準に関連する母集団中の各候補解を識別するように)。いくつかの例では、候補解の母集団は、対応する適応度基準によって順位付けされる。そのため、候補解の不完全なサブセットを決定する場合、遺伝的アルゴリズムは、母集団内の他の候補解に関連して、最も高い順位を有するいくつかの候補解を選択することができる。次に、候補解のサブセットを、次世代のための候補解の新しい母集団に含めることができる。
[0059] 次世代のための候補解の新しい母集団は、遺伝的演算子のセット(例えば、突然変異率)を使用した遺伝的アルゴリズムによって生成される候補解の新しいセットとともに、決定されたサブセットの選択された候補解から構成されてもよい。遺伝的演算子は、(ランダム生成とは対照的に)特性を測定するために一般的に使用される方法に基づいて、新しい候補解を生成するように構成されてもよい。さらに、新しい世代の各々について、母集団内の候補解の数は一定に保たれうる。例えば、遺伝的アルゴリズムが、次の世代に進むために20個の候補解の総母集団から2個の候補解を選択する場合には、遺伝的アルゴリズムは、次の世代内の候補解を合計20個とするため、18個の追加の候補解を生成することになる。次世代反復は、候補解の新しい母集団に対して順位を決定し、候補解の新しいサブセットを選択することができる。
[0060] 最終世代の反復が完了すると、遺伝的アルゴリズムは候補解の母集団の不完全なサブセットから単一解を識別することができる。いくつかの例では、不完全なサブセットは1つの解のサイズを有し、したがって、識別された単一解は不完全なサブセットの解となりうる。いくつかの例では、不完全なサブセットは複数の解を含み、単一解は、(例えば)複数の解の中から最高の適応度基準と関連する1つの解を選択することによって識別されうる。
[0061] 単一解は、処理パイプラインを定義するために使用可能で、次に、個々のスペクトルを予測試料特性に対応する予測標識に変換することができる。処理パイプラインは、解の特質のセットに従って構成された前処理を潜在的に実行すること、及び、解の特質のセットの少なくとも一部に従って構成された機械学習モデルを使用して処理を実行することにより、入力スペクトルのセットを処理することができる。処理パイプラインは、解の特質のセットの少なくともいくつかに従って選択された、及び/又は少なくとも部分的に構成された機械学習モデルを使用して、入力スペクトルのセットの中で各スペクトルを処理すること(及び/又は、例えば前処理されたバージョン)により、入力スペクトルのセットを、さらに又は追加的に処理することができる。機械学習モデルはさらに、訓練データセットを使用して決定及び/又は学習された、一又は複数のパラメータ及び/又は変数に従って構成されうる。
[0062] いくつかの例では、処理パイプラインは、試料の特性を推定する前に(例えば、機械学習モデル等で入力スペクトルを処理する前に)実行される、一又は複数の追加処理ステップで拡張される。例えば、特徴選択処理は、機械学習モデルによって処理される特徴の量を低減させるために実行されてもよい。特徴選択処理を実行する計算装置は、入力スペクトルを、対応する強度(例えば、特徴)を含む各波数を有する波数のセット(例えば、波の空間周波数)として表す。次に、計算装置は、入力試料の特性を予測する際に使用するため、複数の強度から、対応する一又は複数の波数で一又は複数の強度を選択する。
[0063] 例えば、計算装置は、回帰アルゴリズム(例えば、部分最小二乗法等)を用いて、波数のセットを分析して、各波数について順位を割り当てることができる(例えば、部分最小二乗回帰の重みの相対的順序付けに基づいて)。波数のセットは、各波数に割り当てられた順位に従ってソートされうる。次に、計算装置は、各波数(例えば、波数のフルセット)を含む第1のサブセットを有する波数のサブセット、及び、前のサブセットから一又は波数(例えば、最も低い順位の波数、最も高い順位の波数、ランダムな波数等)を除外した後続の各サブセットを定義する。
[0064] 計算装置は、試料の特性を推定するために使用されるサブセットを決定するために、各サブセットに対するスコアを導く反復サブセット分析を実行する。各スコアは、サブセット中の波数に対する強度を含む処理スペクトル(処理パイプラインに従う)が標本特性を正確に予測する度合いを表す。性能特性(例えば、精度、再現率(recall)、正確性等)の特徴を明らかにするために、試験(例:保留(hold-out))又は検証データセットを使用することができる。
[0065] 第1の反復の間、計算装置は、波数のセットを含むサブセットに対応するスペクトルを使用して、試験データセットまたは検証データセットからベースラインスコア(例えば、交差検証解析を用いる)を導き出す。すなわち、試料特性を予測するために定義された処理パイプラインを使用してフルスペクトルを処理し、予測試料特性を真の試料特性と比較して、ベースラインスコアを生成する。ベースラインスコアは、所定の波数で(スペクトルから)強度を除去することが、試料の特性を推定する機械学習モデルの精度に及ぼしうる効果を予測するための参照データポイントとして使用することができる。
[0066] 第2の反復中に、次のサブセットに対してスコアが導き出される。このサブセットは、順位(例えば、最も低い順位の波数、最も高い順位の波数、ランダムサンプリング等)に基づいて、波数のセットから削除される一又は複数の波数による最初の反復からの波数(例えば、波数のセット)を含むいくつかの例において、計算装置は、順位に基づく波数のx%(例えば、5%、10%等)を、以前の反復に存在する波数から取り除かれ、丸められる可能性がある。他の例では、計算装置は所定の量の波数を除去してもよい。波数のパーセンテージ又は除去される所定の量は、(例えば、ユーザ入力によって、機械学習モデル、ハードコード化等によって)設定可能であってもよい。
[0067] 次に、計算装置は、第2の反復中に導かれたスコアをベースラインスコアと比較する。反復スコアがベースラインスコアよりも高い(例えば、波数の減少が特性の推定を改善することを示す)場合には、この反復スコアは新しいベースラインスコアとなり、処理は次の反復に続く。反復スコアがベースラインスコアより高くない場合には、ベースラインスコアを更新せずに処理を単純に継続する。
[0068] 次の反復の間に、次のサブセットに対してスコアが導き出される。このサブセットには、次に低い順位の波数が削除された、第2の反復のサブセットからの波数が含まれる。スコアは、新しいベースラインスコアであるかどうかを決定するため、ベースラインスコアと比較されてもよい。
[0069] 反復サブセット分析が終了した後、どの反復がベースラインスコアからの閾値偏差内のスコアと関連しているかが決定される。具体的には、計算装置は、その反復に関連するスコアが、ベースラインスコアからの閾値偏差に最も近いか等しい(但し、超過しない)反復であるかを識別する。特性を予測するために使用されるスペクトル(例えば、選択された波数に対応するスペクトル)を選択することによって、予測の精度に影響が及ぶ可能性がある。例えば、スペクトルの小さな部分を選択すると、予測に寄与しうる情報が減少する(例えば、予測の精度が低下する)。閾値偏差は、結果として得られる予測の精度を確保しつつ、特性を予測するための減弱スペクトル(reduced spectra)の選択を可能にする。一例では、ベースラインスコアが0.892で、閾値が0.020の場合、0.872に最も近いかこれに等しいスコアを有する反復が選択される。あるいは、計算装置は、反復に関連するスコアがベースラインスコアからの閾値偏差に最も近い反復を識別する。計算装置は、機械学習モデルのための入力特徴となる(例えば、標本の特性を推定するために使用される)識別された反復のサブセットから波数の強度(例えば、特徴)を選択する。
[0070] 計算装置は、試料の特性を推定する(例えば、機械学習モデル等を使用する)前等、処理パイプラインの終端付近で特徴選択処理を実行してもよい。あるいは、特徴選択処理は、遺伝的アルゴリズムに含まれうる、及び/又は、遺伝的アルゴリズムによって構成されうる。この場合、遺伝的アルゴリズムは、特徴選択処理を含む一又は複数の候補解を定義することができる。次に、遺伝的アルゴリズムは、(例えば、特徴選択処理を含む又は含まない候補解の評価を経た)処理パイプライン、及び、反復の量、スコア、各反復の間に除去されるべき特徴の量(例えば、パーセンテージ、量)等の特徴選択処理の一又は複数のパラメータの段階の間に、特徴選択が実施されるかどうかを決定する。
[0071] 新しい試料のセットの特性のその後の推定は、新しい試料のセットの各々に対して特徴的な品質と、その結果得られる品質の基準を推定するため、処理パイプラインを利用することができる。試料のセットに対して、異なる関心特性の推定が望まれる場合には、遺伝的アルゴリズムは、異なる関心特性に対する別の処理パイプラインを生成するため、別の解を決定する上記技術を反復することができる。
[0072] 遺伝的アルゴリズムを使用して定義された処理パイプラインは、次に、特定の試料に関連する入力スペクトルを受信し、特定の試料の推定特性を出力する。処理パイプラインが定義された後は、遺伝的アルゴリズムにさらに関与することなく、及び/又は遺伝的アルゴリズムを実行することなく、処理パイプラインは実装されうることを理解されたい。試料特性の推定は、一又は複数の対象に投与する可能性があるため、又は実際に投与するための配布用に、所与の試料又は試料のバッチをリリースするか否かを決定する品質管理プロセスにおいて使用することができる。例えば、品質管理プロセスには、試料の推定特性を使用して品質管理条件を評価することが含まれる。品質管理条件は、(例えば)推定された特性が特定の値と一致し、あらかじめ定義された範囲内にあり、上限閾値未満で、かつ/又は下限閾値を下回る場合に、満たされるように構成されてもよい。場合によっては、品質管理条件はバッチレベルで評価され、これには、試料のバッチについて推定される特性の分布に基づいて統計量(例えば、平均値、中央値、標準偏差、範囲、分散等)を生成することや、その統計量が(例えば、)あらかじめ定義されたバッチの上限閾値を下回っているか、かつ/又はあらかじめ定義されたバッチの下限閾値を上回っているかどうかを決定することが含まれうる。品質管理条件を満たしていると決定された場合、試料には印が付けられるか、配布(出荷等)の承認が与えられる。品質管理条件を満たしていないと決定された場合、(例えば、試料に未承認の印を付ける、及び/又は試料を製造ラインから引き出すことによって)このような配布は阻止される。
[0073] 品質管理条件が満たされていない場合、試料のバッチに関する推定特性中の矛盾は、将来の試料を生成するための生産及び/又は製造工程内の動的な調整を決定する可能性がある(例えば、大きな分子を含む試料を生成するためのバイオプロセスを含みうる)。例えば、製造工程は、成分に対する推定特性が低すぎる、又は高すぎることにそれぞれ応じて、試料の成分の追加又は除去を含むように改変されうる。別の例では、品質管理条件を満たしていない推定特性に応じて、一又は複数の処理ステップ(例えば、試料の追加精製、処理ステップの温度を変えること)を追加、変更又は削除するように、製造工程は修正されうる。場合によっては、品質管理条件の評価の結果が、製造工程の開始、再開始及び/又は終了に影響を及ぼす。例えば、製造工程を定期的に休止して、選択した試料を評価し、品質管理条件が満たされているかどうかを判定することがありうる。満たされているのであれば、工程を再開することができる。満たされていなければ、工程の一又は複数の状況は修正されてもよい。
II. 例示的な相互作用システム
[0074] 図1は、本発明のいくつかの実施形態による、試料の品質管理処理を促進するための遺伝的アルゴリズムを使用するための例示的な相互作用システムを示す。一又は複数の試料生産システム101は、試料のセットを生産する。試料のセットの各試料は、(例えば)診断及び/又は治療目的のために使用される(例えば)医薬品及び/又は薬物試料を含みうる。試料のセットの各試料には、小分子及び/又は大分子及び一又は複数の不活性成分を含む(例えば)一又は複数の活性成分が含まれうる。試料製造システム101には、研究室が含まれる場合がある。
[0074] 図1は、本発明のいくつかの実施形態による、試料の品質管理処理を促進するための遺伝的アルゴリズムを使用するための例示的な相互作用システムを示す。一又は複数の試料生産システム101は、試料のセットを生産する。試料のセットの各試料は、(例えば)診断及び/又は治療目的のために使用される(例えば)医薬品及び/又は薬物試料を含みうる。試料のセットの各試料には、小分子及び/又は大分子及び一又は複数の不活性成分を含む(例えば)一又は複数の活性成分が含まれうる。試料製造システム101には、研究室が含まれる場合がある。
[0075] 試料の少なくとも一部は、一又は複数の試料特性検出器102を介して処理され、この検出器は、試料の一又は複数の特性を識別する。試料の一又は複数の特性には、活性成分の特性、不活性成分の特性及び/又は試料全体の特性が含まれる。小分子についての例示的な特性には、活性成分濃度、ラクトース濃度、又は微結晶性セルロース濃度が含まれる(が、これらに限定されない)。大分子についての例示的な特性には、大分子内の任意の不純物(例えば、未反応要素の存在量、宿主細胞タンパク質の濃度、及び/又は任意の残存する望ましくないタンパク質の濃度)が含まれうる(が、これらに限定されない)。特性には、数値的又はカテゴリ的な特性が含まれうる。一又は複数の試料特性検出器102を介して処理される試料の少なくとも一部には、(例えば)訓練、検証又は試験セットで表される試料が含まれうる。
[0076] スペクトル収集器103は、試料のセットの各試料を処理してスペクトルを生成することができる。スペクトルは、複数の波数のそれぞれについて強度を含む。処理には、各試料をエネルギー源からのエネルギーで電圧を加え、その後のスペクトルを検出することが含まれうる。エネルギー源は、(例えば)光エネルギーを放射する光源、又は物理エネルギーを放射する物理エネルギー源を含んでもよい。いくつかの例では、試料が破壊されないように、及び/又は、スペクトル収集の結果として劣化しないように、スペクトルは非破壊的な方法で収集される。スペクトルは、(例えば)ラマン分光法、赤外分光法、質量分析法、液体クロマトグラフィー、又はNMR分光法を実行することによって得ることができる。例示的なタイプの赤外分光法は、近赤外(NIR)、中赤外(MIRA)、熱赤外(TIR)又はフーリエ変換赤外(FTIR)分光法を含むことができる。
[0077] 場合によっては、単一の試料を使用して複数のスペクトルが収集されうる。したがって、複数のスペクトルの各々は、それらが同一の試料に関連すると仮定すると、同一の一又は複数の試料特性と関連付けることができる。複数のスペクトルは、複製スペクトルとも称される。スペクトル間の差は、(例えば)スキャン間の試料容器のわずかなシフト及び/又はスペクトル記録装置の不整合による可能性がある。同一スペクトル試料間の差異には、ピーク高、ピーク幅、ピーク位置及び/又はジッターの差異が含まれうる。その差は比較的小さいと思われるが、それにもかかわらず、訓練及び/又は処理パイプラインの質に影響を及ぼす可能性がある。拡張多重散乱補正アルゴリズムは、特異体質誤差を識別するため、複製スペクトルの処理に使用することができる。個々のスペクトルは、Marterns, H. & Stark, E. (1991)「Extended multiplicative signal correction and spectral interference subtraction: new preprocessing methods for near infrared spectroscopy」 Journal of Pharmaceutical and Biomedical Analysis, 9(8), 625-635に記載されているように、線形補正を用いて特異体質誤差を補正するために前処理することができる。その全内容は、あらゆる目的のために、参照により本明細書に援用される。任意に選択した「ベースライン」複製スキャンに対する複製スペクトルの適応度及び/又は修正に伴って、より高次の多項式を用いることができる。
[0078] スペクトル及び検出された特性は、計算装置104に送信される。計算装置104は、遺伝的アルゴリズムを使用して、スペクトルを関心特性に変換する処理パイプラインを識別し、次にその処理パイプラインを実装するように構成されている。
[0079] より具体的には、(例えば、あるタイプの試料と関心特性との特定の組合せに関連する)新しい訓練インスタンスを識別すると、遺伝的アルゴリズムコントローラ105は、第1世代の処理を開始する。各世代は、候補解の母集団に関連しており、その各々が候補解の特質のセットと関連している。候補解の特質のセットの各特質は、実行すべき前処理又は機械学習処理の特性を指定することができる。どの特質が識別されるべきかの定義は、顧客及び/又は開発者によって設定されてもよい。特質に関する任意の制約(例えば、上限、下限、選択される特質の選択肢の領域等を識別すること)も、顧客及び/又は開発者によってさらに設定されてもよい。いくつかの例では、遺伝的アルゴリズムコントローラ105は、顧客及び/又は開発者による手動設定不要で上限及び下限を識別するため、特質に関する制約を最適化することもできる。一又は複数の第1の他の特質の各々が固定される(例えば、顧客及び/又は開発者により設定される)ことがあり、一又は複数の第2の他の特質の各々が、処理パイプラインを定義された上で学習されるべき特質として識別されることがある。
[0080] 第1世代に関連する候補解の特質のセットは、ランダムに手動で(例えば、顧客又は開発者によって定義されるように)、又は擬似ランダム選択処理に従って選択されうる。いくつかの例では、候補解の特質のセットは、少なくとも定義された度合(degree)で値空間を覆う(または覆う可能性が高い)、及び/又は定義された度合で互いに異なる可能性が高い特質の選択を促進するように設計された技術に従って選択される。選択はさらに、一又は複数の特質に適用される一又は複数のバイアスに従って実行されうる。いくつかの例では、バイアスは第1世代に対してゼロに設定される。
[0081] 世代データストア106に保存された生成データは、現在の世代、候補解の特質の選択に適用される任意のバイアス、及び/又は現在の世代に含まれる多数の候補解(顧客及び/又は開発者によってあらかじめ定義された数と等しいことがある)を識別する。候補解の特質は、候補解の特質の各セットを候補解の識別子に結びつける関連付け(association)とともに、候補解特質データストア107に保存される。
[0082] 各候補解に対して、前処理コントローラ108は前処理を構成し、機械学習(ML)モデルコントローラ109は候補解の候補解の特質に従って機械学習モデルを構成する。そのような構成には、特定のタイプの前処理(例えば、ベースライン除去、スケーリング、フィルタ処理)が実行されるか否かのいずれかを有するようにコードを構成すること、あるタイプの前処理に使用する特定の技術を実装すること、特定のタイプの機械学習モデルを実装すること、前処理技術のための特定の変数を設定すること、及び/又は機械学習モデルのための特定の変数を(例えば、学習されないように)設定することが含まれうる。次に、候補処理パイプラインが、構成された前処理機械学習モデルを含むように定義される。処理パイプライン定義データストア110は、候補処理パイプラインを候補解の識別子と関連付けて保存する。
[0083] 前処理コントローラ108及び機械学習モデルコントローラ109は、さらに、(複数のスペクトル及び試料特性の複数の既知の測定値を含む)訓練データセットを使用して、任意のデータ依存値を決定する(例えば、機械学習値のためのパラメータを学習する)。検証データセット又は試験データセットの他のスペクトルは次に、推定試料特性を生成するため、処理パイプライン及びデータ依存値を使用して処理される。推定された試料特性は、候補解のための様々な適応度基準(例えば、決定係数、平均二乗誤差の平方根、交差エントロピー等)に対する適応度基準値を生成するため、検証又は試験データセットからの既知の試料特性と比較される。
[0084] 試料のセットに対応する試料特性及びスペクトルを含むデータセットは、複数のサブセット(訓練サブセット、検証サブセット及び/又は試験サブセットを含む)に分割される。分割は、データセット全体に対して1回で実行されてもよく、あるいは2回以上実行されてもよい。例えば、データセットは、遺伝的アルゴリズムを使用して評価される各世代に対して別々に分割されることがあり、単一世代の間に単一の候補解の処理に関して、複数回分割されることがある(例えば、k倍の検証分析のため)。
[0085] 所定の試料について複数のデータ観察が収集されうることを理解されたい。例えば、試料特性及びスペクトルは、所与の試料について100回収集されていてもよい。しかし、これら100個の観察結果は独立している必要はない。むしろ、これらは繰り返された観察に関係している可能性がある。例えば、観察には、所与の試料について生成された10の異なるロットの各々について10個の繰り返し観察を含むことがある。これらの例では、観測値を(例えば)ランダムに、あるいは疑似ランダムにサブセットに分割するため(例えば、試験用に20個の観測値を擬似ランダムに選択し、残りの80個の観測値を訓練に使用するため)、1つのアプローチは、100個の観測値が十分に独立しているとみなすことである。もう1つのアプローチは、代わりに、ロットを分割し、ロット内の観測値をグループ化すること(例えば、試験用の2ロットを疑似ランダムに選択し、次に残りの観測値を訓練用に使用しつつ、試験用の2ロットに関連する20個の観測値を使用すること)である。この後者のアプローチは、訓練を改善し、独立したデータセットで処理がどのように実行されるかをより正確に予測する試験基準をもたらす可能性がある。
[0086] いくつかの例では、計算装置104は、スペクトルの一部(例えば、一又は複数の波数の強度、スペクトル内の一又は複数のスペクトル等)がスペクトルの残りの部分に対して外れ値であるかどうかを決定するため、データセット(サブセット及び/又はロット)のスペクトルを分析してもよい。スペクトルの一部が外れ値である(例えば、スペクトルの他の部分から閾値量以上逸脱している)と決定された場合には、スペクトル(又はその一部)は廃棄されうる(又は、処理パイプラインを定義に使用しない)。外れ値検出は、試料の特性の推定または予測の信頼度を導き出すために、処理パイプラインの実行中に実行されてもよい。例えば、外れ値検出は、処理パイプラインから生じる予測を、処理パイプラインによる他の予測と比較することによって実行されうる。
[0087] 外れ値検出には、主成分分析(PCA)の実行が含まれうる。具体的には、複数のスペクトルが分析され、主成分のセットを決定される。一又は複数のスペクトル(主成分を決定するために使用された複数のスペクトルであってもよく、又は異なるスペクトルであってもよい)の各々は次に、スペクトルの変換された表現を生成するため、主成分に従って推定(または再計算)されうる。一又は複数のスペクトルの各々について、スペクトルの変換された表現と一又は複数の他のスペクトルの各々の変換された表現とを分離する距離に基づいて、距離基準を計算することができる。距離基準が閾値よりも大きい場合には、そのスペクトルを外れ値として分類することができる。
[0088] 場合によっては、現在の入力スペクトルが破棄され、処理パイプラインの定義に使用するため、新しい入力スペクトルが取得されることもある。他の例では、外れ値検出は、外れ値である入力スペクトル内の一又は複数の波数あるいは一又は複数のスペクトルを識別し、入力スペクトルから一又は複数の波数あるいは一又は複数のスペクトルを(それぞれ)フィルタ処理することを含みうる。入力スペクトルの残りのスペクトルは、処理パイプラインの定義に使用される。
[0089] 遺伝的アルゴリズムコントローラ105は次に、世代データストア106を更新して、各候補解識別子を適応度基準と関連付ける。候補解は並列的又は反復的に評価されうることを理解されたい。母集団中の各候補解に対して適応度基準が決定されている場合、遺伝的アルゴリズムコントローラ105は、別の世代反復を実行するかどうかを決定する。例えば、現在の世代カウントがあらかじめ定義された世代処理量を下回っている場合(例えば、顧客又は開発者によって定義されているように)、現在の世代に対する母集団全体にわたる最良の適応度基準があらかじめ定義された閾値を上回っていない場合(例えば、最低の誤差が所与の誤差閾値よりも高い場合、又は最高のR2値がR2閾値よりも低い場合)、あるいは、現在の世代に対する母集団全体にわたる最良の適応度基準が、前の世代に対する母集団全体にわたる最良の適応度基準に対して、少なくともあらかじめ定義された量だけ改善されていない場合には、別の世代反復を実行することができる。
[0090] 別の世代反復が実行されるときには、遺伝的アルゴリズムコントローラ105は、世代データストア106に保存された世代カウントを増やし、(新しい候補解に関連付けられた各セットによって)候補解の特質の新しいセットを識別する。候補解の特質の新しいセットは、候補解の特質の以前のセット及び対応する適応度基準に基づいて決定される。例えば、候補解の特質の新しいセットの選択は、比較的高い適応度基準を有する前の候補解に関連した特質に偏ることがあり、比較的低い適応度基準を有する前の候補解の特質に関連した特質に偏ることがありうる。候補母集団における進化的選択は、突然変異率を修正することによって、異なるシナリオに調整される。突然変異率には、前処理技術及び機械学習パラメータのランダム化置換又は擬似ランダム化置換が含まれる。新候補解は第1世代候補解であるかのように処理され、別の世代の反復が実行されないと判断されるまで、世代は反復的に作成され評価される。
[0091] 別の世代が実行されない場合には、単一候補解が選択される。単一候補解は、(例えば)最後の世代及び/又は全世代からの候補解にわたる最良の適応度基準に関連する候補解である。
[0092] 単一候補解の処理パイプラインは、一又は複数の追加処理段階で増強することができる。例えば、処理パイプラインは、特徴選択コントローラ112を使用して、処理パイプラインの特定の段階における入力スペクトルから、試料特性を推定又は予測するために使用される特徴を選択するように拡張されうる。特徴選択コントローラ112は、(図示のように)計算装置104に含まれることもあれば、計算装置104と通信する別の処理装置として含まれることもある。
[0093] 図2を参照すると、この図は、本発明のいくつかの実施形態に従って、試料の特性を推定又は予測するために使用される特徴を選択する特徴選択コントローラ112の例を示している。特徴選択コントローラ112は、試料の推定又は予測を生成する段階の前に、処理パイプラインの任意の段階で特徴選択処理を実装してもよい。例えば、特徴選択コントローラ112は、機械学習モデルの動作の前の段階で動作されてもよい。入力スペクトル208は特徴選択コントローラ112に渡される。特徴選択コントローラ112は、212において、入力スペクトル内の波数のセットと、各波数における対応する強度(例えば、特徴)を識別する。特徴選択コントローラ112は、波数及び関連する強度を波数順位付けプロセッサ216に渡すが、これは波数のセットの各波数に対する順位を定義する。
[0094] 例えば、波数順位付けプロセッサ216は、各波数について順位を割り当てるために部分最小二乗(PLS)回帰を使用する。PLSは、波数と他の波数との間の相関(例えば、波数の強度を変化させることが他の波数の強度を変化させる程度を示す)を記述する構成要素のセットを出力する。順位は、部分最小二乗回帰の構成要素の相対的順序に基づいて各波数に割り当てられる。
[0095] 次いで、特徴選択コントローラ112は、特徴選択のために評価されるべき反復の量に基づいて、波数のセットの複数のサブセットを定義するため、サブセット定義220を使用する。場合によっては、サブセットの数は、評価される反復の数に等しくなる。特徴選択コントローラ112は、順位(例えば、最高から最低まで、又はその逆)に従って波数のセットを並べることによってサブセットを定義する。第1のサブセットには波数のフルセットが含まれる。後続の各サブセットは、順位に基づく波数の所定の量を除外した前のサブセットからの波数を含む(例えば、最低順位の波数、最高順位の波数、波数のランダム選択等)。所定の量は、波数のセット(潜在的に丸められた)における波数の量のパーセンテージ、前のサブセットにおける波数の量のパーセンテージ、整数等であってもよい。
[0096] 反復コントローラ224は、交差検証分析を使用して波数228の各サブセットを反復的に評価する。交差検証分析は、反復ごとにスコア232を生成するために使用される。スコア232は、サブセット228における波数に対応する強度を使用して生成される試料特性の推定又は予測が正確であるという信頼度を表す。スコア232は、異なるサブセットを使用して生成された推定及び/又は予測の信頼度の相対的な差異を決定するため、他の反復のスコアと比較することができる。スコア232は、訓練データセット及び波数228のサブセットに含まれる波数に基づいて定義される検証データセットを使用して導出される。訓練データセットは機械学習モデルを訓練し、検証データセット(グラウンドトゥルースとして知られている)の試料特性を推定又は予測する。スコアは、検証データセットの処理の出力をグラウンドトゥルース標識と比較することによって導き出される。
[0097] 反復コントローラ224は、ベースラインスコアからの閾値偏差内にあるスコア(例えば、波数のセットを含むサブセットのスコア)を含む反復を出力する。例えば、閾値偏差が0.02の場合、反復コントローラ224は、ベースラインスコアから0.02に最も近いスコアを有する反復を識別する。識別された波数236のサブセットは、識別された反復の波数のサブセットを含む。次に、波数236の識別されたサブセットの各波数における強度が、処理パイプライン208内の機械学習モデル240に出力され、試料特性を推定又は予測する。
[0098] 図1に戻って、処理パイプラインを利用して、(例えば、パイプラインによって推定されるタイプの既知の特性と潜在的に関連しない)他のスペクトルを処理して、推定された試料特性を生成することができる。利用される処理パイプラインは、訓練データに基づいて決定されたデータ依存値を(例えば、前処理及び単一候補解に関連する特質で構成された機械学習モデルに加えて)含みうるが、必要ではない。処理パイプラインの利用には、単一候補解の処理パイプライン及び/又は解の特質に関連するコードを他のデバイスに伝達すること、及び/又は他のスペクトルを局所的に処理することが含まれうる。
[0099] 処理パイプラインは、ロットリリースのために準備されている試料等、他の試料のスペクトルを使用して特性を推定又は予測するために使用されることがある。これには、所与の試料に対して、他の装置に局所的に提示されるか又は送信されることがある推定特性を識別する結果が含まれる。場合によっては、(推定特性を使用して評価した)品質管理条件が満たされない場合にのみ、結果が提示又は送信される。例えば、数値推定特性が事前に定義された開放範囲(open range)又は閉鎖範囲(closed range)内にない場合、あるいは数値推定特性が特定の閾値を超える場合には、結果が条件付きで提示されることがある。
[00100] 結果は、推定特性をカテゴリ的に定義することもできる。例示的なカテゴリには、品質管理条件が満たされているかどうかに基づいて、試料を「満足」または「不満足」と標識化することが含まれうる。場合によっては、あるロットの試料を満足または不満足として分類するため、カテゴリ自体が、一又は複数の他の試料に対応する一又は複数のカテゴリを示すか、それらと共に使用されてもよい。ロットは、試料を製造するために使用されるいくつかの又は全ての機械の連続的な操作によって定義されうる期間に、及び/又は試料を製造するために使用されるいくつか又は全ての機械が出力を維持したままである期間に、単一の施設で製造される試料のセットに対応しうる。
[00101] カテゴリはさらに、試料の特性、特にその欠陥(例えば、活性成分の濃度の高低、不活性成分の濃度の高低、pHの高低等)の観点から識別するために定義されうる。数値推定特性は、顧客及び/又は開発者によって定義された所定の閾値(例えば、成分濃度、及び/又はpH、及び/又は他の適切な試料特性のための下限又は上限のセット)に基づいて、定義されたカテゴリの1つに分類されうる。試料の特性に関して推定されたカテゴリ及び/又は分類は、他の装置に提示又は送信されうる。数値推定特性と同様に、推定特性が不満足であるか、又は何らかの状況で欠陥に分類されている場合に、結果のみが提示されることがある。場合によっては、結果は数値推定特性とカテゴリ推定特性の両方から構成されることがある。このような場合には、数値推定特性とカテゴリ推定特性の両方が、他の装置に提示されるか、又は送信されることがある。
[00102] 推定特性は、対応する試料が一又は複数の試料配布システム111によって配布されることを可能にするか、促進するか、禁止するか、または防止するかを決定するために使用されうる。例えば、品質管理条件が満たされない場合、通信内容は、計算装置104から試料配布システム111及び/又は試料を識別する関連ユーザ装置に送信されてよく、推定特性及び/又は配布前に試料を収集する(又は、自動試料配布処理ラインから試料を削除する)指示を含む可能性がある。いくつかの例では、試料配布システム111と計算装置104は、同じ施設に収容されている。計算装置104は、試料が配布前に横切る物理的ゲート機構に接続されてもよい。物理的ゲート機構は、品質管理条件が満たされている試料を選択的に通過させるように構成されてもよい。
[00103] いくつかの例では、計算装置104は、複数の推定特性についての品質管理条件のセットを含む。結果として、遺伝的アルゴリズムは、各推定特性の別々の反復に対して構成されうる。品質管理条件のセットが全て満たされていない場合(例えば、遅延や、品質管理条件を満たすために試料が変更された場合には)、計算装置104は、試料の配布を停止するために、試料配布システム111及び/又は関連するユーザ装置と通信することができる。品質管理条件のセットの全てが満たされる場合、計算装置104は、試料の分配を許可してもよい。
[00104] いくつかの例では、計算装置104は、試料配布システム111によって試料のバッチが配布されることを許可するか、促進するか、禁止するか、又は防止するかを決定するために、推定特性をさらに使用してもよい。例えば、試料のバッチ内の少なくとも一部の量(例えば、あらかじめ定められた閾値又は大部分)の試料が品質管理条件を満たしていない場合には、試料のバッチは「不満足な」バッチに分類されることがある。計算装置104は、「不満足」と見なされた試料の任意のバッチの配布を停止するため、試料配布システム111及び/又は関連するユーザ装置と通信することができる。いくつかの例では、品質管理条件を満たすために、試料の「不満足な」バッチがさらに変更される。試料のバッチ内の試料の少なくとも多数(例えば、大部分またはあらかじめ定義された閾値のいずれか)が品質管理条件を満たしている場合、試料のバッチは「満足な」バッチとして分類してもよい。そのような場合、計算装置104は、品質管理条件を満たさない「満足な」バッチ内で個々の試料の分配のみを停止することになる。他の例では、計算装置104は、試料のバッチが「満足な」と分類されている限り、品質管理条件を満たしていない試料のバッチ内の個々の試料の配布を許可する。
[00105] さらに、品質管理条件の充足又は非充足は、将来の試料の製造工程における調整を決定する可能性がある。品質管理条件が満たされない場合は、試料生産システムの構成要素()が追加、改変、除去されうるように、試料生産システムは変更(例えば、化合物及び/又は溶質のパーセンテージの追加、化合物及び/又は溶質のパーセンテージの削除、試料生産機械に対する異なる構成の使用)されてもよい。例えば、品質管理条件が、試料内の溶質の濃度が高すぎることを示す場合、試料生産システムは、より低い濃度にするため溶質の添加を調整することができる。いくつかの例では、一定数(例えば、所定の閾値であってもよい)の試料が品質管理条件を満たしていない場合には、試料生産システムのみを調整することができる。
III. 例示的な方法
[00106] 図3は、本発明のいくつかの実施形態による、試料の品質管理処理を促進する遺伝的アルゴリズムを使用するための例示的な処理300を示している。計算装置(例えば、計算装置104)は、処理300を実行する。ブロック305において、計算装置はデータのセットにアクセスする。各データ要素は、試料のスペクトル及び既知の特性(例えば、既知の物理的又は化学的特性)を含むことができる。
[00106] 図3は、本発明のいくつかの実施形態による、試料の品質管理処理を促進する遺伝的アルゴリズムを使用するための例示的な処理300を示している。計算装置(例えば、計算装置104)は、処理300を実行する。ブロック305において、計算装置はデータのセットにアクセスする。各データ要素は、試料のスペクトル及び既知の特性(例えば、既知の物理的又は化学的特性)を含むことができる。
[00107] ブロック310において、計算装置は、候補解の母集団を初期化する。各候補解は、スペクトルの前処理及び/又は機械学習モデルを使用したスペクトルの処理(又はその前処理バージョン)のためのタイプ、技術又は変数を特定するための特質のセットを含むことができる。
[00108] ブロック315において、計算装置は、母集団内の各候補解、及びデータ要素のセットの少なくとも一部の各々について、データ要素のスペクトルを、候補解に関連する特質のセットに従って構成された任意の前処理モデル及び機械学習モデルに従って変換することによって予測試料特性を決定する。例えば、ベースライン及び/又はフィルタは、特質のセットの少なくとも1つ及びデータ要素の少なくとも一部に基づいて識別することができ、ベースラインを除去し、かつ/又はベースライン及び/又はフィルタを使用してスペクトルをフィルタ処理することができる。別の例として、あるタイプの機械学習モデルを、候補解の特質のセットの少なくともいくつかに従って選択及び構成することができ、機械学習モデルは、データ要素の少なくともいくつかを使用してさらに構成することができる。次に、構成された前処理モデル及び/又は機械学習モデルを使用して、個々のスペクトルを処理することができる。いくつかの例では、データセットの第1の部分(例えば、訓練サブセット)は、任意のデータ依存値を決定又は学習するために使用され、前処理及び機械学習モデル(データ依存値及び特質のセットで構成される)は、データセットの一又は複数の第2の部分(例えば、検証サブセット及び/又は試験サブセット)における各データ要素についての予測試料特性を生成するために使用される。
[00109] ブロック320において、計算装置は、予測試料特性及び既知試料特性に基づいて、各候補解に対する適応度基準を生成する。適応度基準には、(例えば)誤差基準、相関基準及び/又はペアワイズの有意値が含まれることがある。例えば、適応度基準は、信号対雑音比、二乗平均平方根誤差、R2値、又はペア分析を使用して生成されたp値を含みうる。いくつかの例では、データセットのサブセットの検証または試験を使用して適応度基準が生成される。いくつかの例では、予測試料特性と既知試料特性の分類精度値を使用して適応度基準が生成される(例えば、計算された誤差基準が所定の上限値と下限値との間にある場合、「満足」の標識を割り当てる)。いくつかの例では、適応度基準は、低い値及び/又は「0」値が、より高い値と比較して、候補解が試料特性の予測により適していることを示すように構成されている。いくつかの例では、適応度基準は、高い値及び/又は「1」値が、より低い値と比較して、候補解が試料特性の予測により適していることを示すように構成されている。
[00110] ブロック325において、計算装置は、適応度基準に基づいて候補解の母集団の不完全なサブセットを選択する。不完全なサブセットは、あらかじめ定義された数の候補解(例えば、1又は3)、候補解の母集団のあらかじめ定義されたパーセンテージ(例えば、5%又は10%)、あるいはあらかじめ定義された閾値を上回る(又は下回る)適応度基準と関連する母集団中の各候補解を含みうる。不完全なサブセットは、サブセットにない他の候補解と比較して、より良い予測性能を示す適応度基準と関連する候補解を(例えば)含むように選択することができる。例えば、サブセットは、母集団中の最も低い誤差に基づく適応度基準と関連する、あるいは母集団中の最も高い相関に基づく適応度基準と関連する母集団から、2つの候補解を含むように選択することができる。
[00111] ブロック330において、計算装置は、追加世代反復を実行するかどうかを決定する。例えば、現在の世代数が、評価対象となるあらかじめ定義された世代数より少ない場合には、追加世代を実行するように決定されることがある。
[00112] 計算装置が、追加世代反復を実行すべきであると決定すると、処理300は、ブロック335に進むことができ、ここで、候補解の母集団は、サブセット及び一又は複数の遺伝的演算子を使用して更新することができる。候補解の母集団の更新には、候補解の母集団を新しい候補解の母集団と置き換えることが含まれうる(例えば、新しい母集団中の各候補解は、新しい特質のセットと関連している)。新しい母集団は、特質のセットの各々に対して、値を選択することに(例えば、擬似ランダム選択技術を使用すること)よって、生成することができる。選択は、不完全なサブセットに関連する値に偏っている可能性がある。選択は、突然変異演算子、クロスオーバー演算子及び/又は選択演算子等の一又は複数の遺伝的演算子を使用してもよい。次いで、処理300は、ブロック315に戻り、更新された候補解の母集団を評価することができる。
[00113] 計算装置が、ブロック330において、追加世代反復は実行すべきではないと決定した場合には、処理300は、ブロック340に進むことができ、ここで、サブセット内の候補解の特質のセットに基づいて処理パイプラインが定義される。処理パイプラインは、(もしあれば)実行される前処理のタイプ及び実行される機械学習モデル処理のタイプを識別することができる。いくつかの例では、処理パイプラインには、特質のセットのうちの1つの特質によって定義される一又は複数の未学習変数、及び/又は訓練データに基づいて定義される一又は複数の学習パラメータ等の特定の変数が含まれる。
[00114] ブロック345において、計算装置は、処理パイプラインにおいて、機能選択処理を実行する。計算装置は、処理パイプラインの特定の段階(例えば、試料の特性を事前予測等)の入力スペクトルから、入力スペクトルの波数のセット及び対応する強度を識別する。特徴選択処理は、試料の特性を予測する際に使用される波数のセット、一又は複数の波数及び対応する強度(例えば、特徴)から選択することを含む。波数を選択することにより、計算装置は、特性を予測するために使用される入力スペクトルからの強度の量を減少させることができる。
[00115] 特徴選択処理は、波数のセットの各波数に対する順位を生成することを含む。順位は部分最小二乗(PLS)回帰等の回帰分析を使用して生成されうる。PLSは、波数と他の波数との間の相関(例えば、波数の強度を変化させることが他の波数の強度を変化させる程度を示す)を記述する構成要素のセットを出力する。順位は、部分最小二乗回帰の構成要素の相対的順序に基づいて各波数に割り当てられる。順位は、波数のセットの変動性に対する波数の寄与を示す。高い順位の波数は、波数の強度を変化させることが、一又は複数の他の波数において対応する変動性を引き起こすことを示している。低い順位の波数は、波数を変化させても他の波数の強度にほとんど変化を引き起こさないか、まったく変化を引き起こさないことを示している。スペクトルの波数は各波数の順位に従ってソートされる。例えば、波数は、最も高い順位の波数から最も低い順位の波数にソートされるか、又はその逆になる。
[00116] 計算装置は、反復のセットを定義し、各反復が波数のセットの異なるサブセットを評価する。第1の反復の波数のサブセットは、波数の全てを含む。各後続の反復の波数のサブセットは、前の反復から順位に基づく波数の量(例えば、最も低い波数、最も高い波数、波数のランダムサンプリング等)を引いた波数を含む。一例では、スペクトルが1500個の波数を含む場合、第1の反復のサブセットは1500個の波数を含み、第2の反復のサブセットは、第1の反復の1500個から低い順位を有する波数の25%を引いた個数を含み(例えば、残りの1125個の波数を残す)、第3の反復のサブセットは、第1の反復の1125個から低い順位を有するこれらの波数のパーセンテージを引いた個数を含み(例えば、825個の波数を残す反復)、以下同様となる。
[00117] 計算装置は、反復のセットの各反復を、図2で前述したように交差検証分析に基づいて、各反復のモデル検証スコアを定義することによって評価する。各スコアは、サブセット中の波数に対する強度を含む処理スペクトル(処理パイプラインに従う)が試料特性を正確に予測する度合いを表す。第1の反復のモデル検証スコア(例えば、波数のセットを含む)は、後続のモデル検証スコアと比較されるベースラインモデル検証スコアである。モデル検証スコアをベースラインモデル検証スコアと比較することにより、波数を除去することが試料特性を予測する精度に及ぼす影響が示される。
[00118] 次に、特徴選択処理は、ベースラインモデル検証スコアからの閾値偏差内にあるモデル検証スコアを有する所定の反復の量から特定の反復を識別する。例えば、閾値を0.020(例えば、遺伝的アルゴリズム、ユーザ入力、波数の量、ベースラインモデル検証スコア、その組合せ等に基づく任意の所定量)に設定することができる。計算装置は、ベースラインモデル検証スコアから閾値に最も近いモデル検証スコアを有する特定の反復を識別する。いくつかの例では、特徴選択処理は、閾値を超えずにベースラインモデル検証スコアからの閾値に最も近いモデル検証スコアを有する特定の反復を識別する。
[00119] いくつかの例では、計算装置は、各反復に対して導出されたモデル検証スコアを、次の反復に移る前にベースラインモデル検証スコアと比較する。閾値偏差より大きいモデル検証スコアを有する反復を検出すると、特徴選択処理は、特定の反復として、前の反復(例えば、反復前の反復が、ベースラインモデル検証スコアからの閾値偏差より大きいモデル検証スコアを有する)を識別する。これらの例では、特徴選択処理は、所定の量の反復を実行するように構成されるが、分析された反復の数を減らすため、特定の反復を識別すると早期に終了する。
[00120] 特定の反復の波数に対応する強度は、試料の特性を予測するために使用することができる。より少ない波数が使用されるため、予測器の性能(例えば、予測精度等)に影響を与えることなく、予測器の全体的な複雑さ(例えば、前述のような機械学習モデル等)を低減することができる。
[00121] 後続のスペクトルを処理するとき、計算装置は特性の予測に使用するために特徴選択処理によって識別された同じ波数で新しいスペクトルの強度を選択する。特徴選択処理によって識別される波数に対応していない波数及びこれに対応する強度は、処理パイプラインによるさらなる処理から省略されてもよい。あるいは、特徴選択処理によって識別される波数に対応していない波数及びこれに対応する強度は、新しいスペクトルから除去されてもよい。ブロック340に記載された特徴選択処理は、後続のスペクトルにおける特性を予測するために使用することができる波数を選択するために1回実行されてもよい。
[00122] いくつかの例では、計算装置は、特性が予測されることになる新しいスペクトルごとに特徴選択処理を実行する。これらの例では、新しいスペクトルに対する処理パイプラインの各実行には、特性を予測する前に行われる特徴選択処理が含まれる。
[00123] 特徴選択処理は、特性の予測の生成前に(例えば、ブロック345に記載されるように)、処理パイプラインの段階として実行されうる。あるいは、特徴選択処理は遺伝的アルゴリズムの中で実行することもできる(例えば、世代を越えて存続する遺伝子として)。これらの例では、特徴選択処理は、候補解の母集団の中の1つの候補解内で定義される。特徴選択処理は、例えば、特徴選択処理によって実行される反復であれば所定の量を変化させること、各反復の間に除去される波数の所定の量を変化させること、各反復の間に除去される波形のパーセンテージを変化させること、閾値をベースラインモデル検証スコアから変化させて、特定の反復、それらの組み合わせ等を候補解の中で、及び/又は世代を越えて識別することによって、遺伝的アルゴリズムによって変化させることが可能である。
[00124] 例えば、属性の所定のセット(例えば、反復の量、各反復の間に除去される波数のパーセンテージ等に対応する)を含む特徴選択処理は、一又は複数の候補解の中に含まれる。いくつかの例では、いくつかの候補解における特徴選択処理は、他の候補解における特徴選択処理とは異なることがある。例えば、一又は複数の候補解に含まれる特徴選択処理は12回の反復を含み、一又は複数の候補解に含まれる特徴選択処理は9回の反復を含むことがある。遺伝的アルゴリズムは、特徴選択処理が1つの候補解に含まれるかどうか、そして含まれる場合には、特性の改良予測に対応する属性のセット(例えば、より高い正確性等)を識別する。
[00125] 計算装置は、ブロック350において、他の試料の特性を予測するために、他の試料に関連する別のスペクトルを処理するための処理パイプラインを使用する。他の試料は、様々な候補解を評価するために使用されるデータセットに示されていないものに対応することがある。新しいスペクトルは処理パイプラインで処理された後、特性の予測がなされる前に、特性の予測に使用するために波数が選択される。選択された波数は、ブロック340の特徴選択処理によって識別される波数に対応する。選択されなかった波数は、その後の処理から省略されるか、さもなければ特性の予測には使用されない。
[00126] ブロック355において、計算装置は予測特性を出力する。例えば、予測特性は、その場で提示されるか、別の装置に送信される。他の試料の識別子は、予測特性に関連して、さらに出力されることがある。
IV. 実施例
A. 実施例1-単一世代の候補解母集団
[00127] 図4は、単一世代に対して生成された20の候補解の例示的な母集団を示す。各候補解には、以下の特質の各々についての値が含まれている。
・以下のパラメータを含む非対称最小二乗ベースライン除去の実施の有無
非対称最小二乗ベースライン除去値に対するλ値
非対称最小二乗ベースライン除去率に対するp値
・処理に使用される機械学習モデルの一種:部分最小二乗(例えば、主成分分析、PLS判別分析等)、ランダムフォレスト(例えば、AdaBoost又はXGBoost、分割ランダムフォレスト(splitting random forest)等のブーストされたツリーモデル)、又はサポートベクトルマシン(例えば、C-SVM分類、nu-SVM分類、ε-SVM回帰等)
・以下を含む機械学習モデルのハイパーパラメータ
モデルタイプが部分最小二乗モデルの場合:多数の機械学習パラメータ(すなわち、計算のための多数の主成分)
モデルタイプがランダムフォレストモデルの場合:リーフノードとなるのに必要な最小試料数
モデルタイプがランダムフォレストモデルの場合:内部ノードを分割するのに必要な最小試料数
モデルタイプがサポートベクトルマシンモデルの場合:正則化及びカーネルパラメータ値
・Savitzky-Golay(“savgol”)平滑化が実行されるかどうか
・前処理を平滑化するためのウインドウサイズ
・前処理を平滑化するための多項式次数
・前処理を平滑化するための導関数次数、及び
・標準正規変量法、最大強度値を使用したスケーリングの実行、L1基準を使用したスケーリングの実行、又はスケーリングの非実行等の、平均センタリング及び多様なスケーリング戦略を含むが、これらに限定されない前処理技術の選択
A. 実施例1-単一世代の候補解母集団
[00127] 図4は、単一世代に対して生成された20の候補解の例示的な母集団を示す。各候補解には、以下の特質の各々についての値が含まれている。
・以下のパラメータを含む非対称最小二乗ベースライン除去の実施の有無
非対称最小二乗ベースライン除去値に対するλ値
非対称最小二乗ベースライン除去率に対するp値
・処理に使用される機械学習モデルの一種:部分最小二乗(例えば、主成分分析、PLS判別分析等)、ランダムフォレスト(例えば、AdaBoost又はXGBoost、分割ランダムフォレスト(splitting random forest)等のブーストされたツリーモデル)、又はサポートベクトルマシン(例えば、C-SVM分類、nu-SVM分類、ε-SVM回帰等)
・以下を含む機械学習モデルのハイパーパラメータ
モデルタイプが部分最小二乗モデルの場合:多数の機械学習パラメータ(すなわち、計算のための多数の主成分)
モデルタイプがランダムフォレストモデルの場合:リーフノードとなるのに必要な最小試料数
モデルタイプがランダムフォレストモデルの場合:内部ノードを分割するのに必要な最小試料数
モデルタイプがサポートベクトルマシンモデルの場合:正則化及びカーネルパラメータ値
・Savitzky-Golay(“savgol”)平滑化が実行されるかどうか
・前処理を平滑化するためのウインドウサイズ
・前処理を平滑化するための多項式次数
・前処理を平滑化するための導関数次数、及び
・標準正規変量法、最大強度値を使用したスケーリングの実行、L1基準を使用したスケーリングの実行、又はスケーリングの非実行等の、平均センタリング及び多様なスケーリング戦略を含むが、これらに限定されない前処理技術の選択
[00128] 加えて、各候補解には、どの程度正確に各候補解が特性を推定できるかに基づいて、(例えば、「適応度CV」列として表現される)適応度基準値が与えられている。最良の実行候補解(例えば、最も低い適応度基準値を有する)は、候補解0を最も正確であるとし、候補解19を最も正確でないとする降順で順位付けされる。遺伝的アルゴリズムは、次世代のための候補解の新しい母集団内に含まれるべき上位候補解(例えば、候補解0及び/又は候補解1)のいずれかを選択しうる。
B. 実施例2-乳酸濃度標識
[00129] 訓練データセットは、(各々が、個々の試料を使用して収集され、個々の試料に対応する)5000個のラマンスペクトル及び5000個の標識を含むように定義された。各標識は試料特性を識別することができ、この例では、対応する試料内の乳酸の量を識別する。モニタされる各試料は、真核細胞培養物を含んでいた。候補解の初期セットは、10個の候補解を有するように定義され、各候補解は、実施例1の候補解と同じ特質の各々についての値と関連している。
[00129] 訓練データセットは、(各々が、個々の試料を使用して収集され、個々の試料に対応する)5000個のラマンスペクトル及び5000個の標識を含むように定義された。各標識は試料特性を識別することができ、この例では、対応する試料内の乳酸の量を識別する。モニタされる各試料は、真核細胞培養物を含んでいた。候補解の初期セットは、10個の候補解を有するように定義され、各候補解は、実施例1の候補解と同じ特質の各々についての値と関連している。
[00130] 次いで、遺伝的アルゴリズムを使用して、10個の候補解の各々を評価した。訓練データセットは、特定のパラメータを学習するために(例えば、ベースライン除去が実施されることを候補解の特質のセットが示すとき、非対称最小二乗法を使用して除去される特定のベースラインを識別するために)使用された。各候補解に関しては、候補解の特質のセット及び任意の学習済パラメータに従って、候補処理パイプラインが定義された。検証データセットにおける500個のラマンスペクトルの各々について、候補解の候補処理パイプラインを使用した予測標識を作成し、予測標識を既知の標識と比較することによって、適応度基準が計算された。
[00131] 図5Aは、乳酸濃度の測定標識値と、例示的な候補解の候補処理パイプラインによって生成された乳酸濃度の予測標識値との間の比較を示す。この候補処理パイプラインに対して、R2値は0.868と決定され、二乗平均平方根誤差は、試験データセットに対して0.069と計算された。
[00132] 図5Aは、以下の構成を含む第1世代からの例示的な候補解に関する。
・ベースライン除去 なし
・Savitzky‐Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1を使用して実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、6成分による部分最小二乗回帰である。
・ベースライン除去 なし
・Savitzky‐Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1を使用して実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、6成分による部分最小二乗回帰である。
[00133] 世代の候補解のサブセットは、10個の候補解の中から2個の候補解を含み、最高の適応度基準と関連付けられるように定義された。サブセット中の候補解の特質が突然変異アルゴリズムに入力され、次に、第2世代のための10個の新しい候補解の各々に対する特質のセットが定義された。候補解が評価され、30世代ごとに適応度基準値が生成されるまで、同様の方法で新世代が定義された。次に、世代に対して最も高い適応度基準に関連する候補解を識別することによって、第30世代の候補解の中から単一候補解が選択された。
[00134] 図5Bは、乳酸濃度の測定標識値と、第30世代以降の単一の候補解によって生成された乳酸濃度の予測標識値との間の比較を示す。例示的な候補解は、以下の構成を有する。
・非対称最小二乗ベースライン除去は、λ=4及びp=7で実行される。
・Savitzky‐Golay平滑化は、ウインドウサイズ9、多項式次数2、導関数次数0を使用して実行される。
・スケーリングは標準正規変量法に従って実施される。
・使用される機械学習モデルは、リーフノートとなる最小試料数が7、最大特徴数が300、内部ノードを分割する最小試料数が5であるランダムフォレストとなる。ランダムフォレストは、100個の推定値を含む。
・非対称最小二乗ベースライン除去は、λ=4及びp=7で実行される。
・Savitzky‐Golay平滑化は、ウインドウサイズ9、多項式次数2、導関数次数0を使用して実行される。
・スケーリングは標準正規変量法に従って実施される。
・使用される機械学習モデルは、リーフノートとなる最小試料数が7、最大特徴数が300、内部ノードを分割する最小試料数が5であるランダムフォレストとなる。ランダムフォレストは、100個の推定値を含む。
[00135] この処理パイプラインに対して、R2値は0.894と決定され、試験データセットに対して計算された二乗平均平方根誤差は0.061であった。したがって、予測標識と実際の標識との間の一致は、第1世代の例示的候補解からの標識一致と比較して、選択された単一候補解(30世代後に識別)の方が高かった。さらに、予測標識の誤差は、第1世代の例示的候補解の誤差と比較して、選択した単一候補解(30世代後に識別)の方が低かった。
C. 実施例3-グルコース濃度標識
[00136] 図6A及び図6Bは、第1世代からの例示的候補解及び30世代からの例示的候補解についての、pHの測定標識値とグルコース濃度の予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。標識は試料中の乳酸量ではなく試料中のグルコース量を識別し、真核細胞培養がモニタされた。図6A及び図6Bはそれぞれ、実際の標識と推定標識との比較を示している。図6Aは第1世代からの例示的な候補解に関するものであり、図6Bは(30世代後に識別された)単一候補解に関するものである。
[00136] 図6A及び図6Bは、第1世代からの例示的候補解及び30世代からの例示的候補解についての、pHの測定標識値とグルコース濃度の予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。標識は試料中の乳酸量ではなく試料中のグルコース量を識別し、真核細胞培養がモニタされた。図6A及び図6Bはそれぞれ、実際の標識と推定標識との比較を示している。図6Aは第1世代からの例示的な候補解に関するものであり、図6Bは(30世代後に識別された)単一候補解に関するものである。
[00137] 第1世代における例示的候補解の候補処理パイプラインには、以下の構成が含まれていた。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1を使用して実行される。
・スケーリングは標準正規変量法に従って実施される。
・使用される機械学習モデルは、8主成分による部分最小二乗である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1を使用して実行される。
・スケーリングは標準正規変量法に従って実施される。
・使用される機械学習モデルは、8主成分による部分最小二乗である。
[00138] 第30世代以降に選択された単一候補解の候補処理パイプラインには、以下の構成が含まれていた。
・非対称最小二乗ベースライン除去は、λ=4及びp=7で実行される。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ13、多項式次数2、導関数次数1を使用して実行される。
・スケーリングは実行されない。
・使用される機械学習モデルは、9主成分による部分最小二乗である。
・非対称最小二乗ベースライン除去は、λ=4及びp=7で実行される。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ13、多項式次数2、導関数次数1を使用して実行される。
・スケーリングは実行されない。
・使用される機械学習モデルは、9主成分による部分最小二乗である。
[00139] 第30世代以降に選択された単一候補解に対するR2値は、例示的な第1世代候補解でのR2値と比較して、より高かった(それぞれ、R2=0.958に対して、R2=0.944)。さらに、第30世代以降に選択された単一候補解の試験セット誤差は、例示的な第1世代候補解の誤差と比較して低かった(それぞれ、RMSE=0.039に対して、RMSE=0.045)。
[00140] 特に、この実施例に関連する選択された単一候補解の特質のいくつかは、実施例2に関連する選択された単一候補解の対応する特質とは異なっていた。例えば、この例で選択された機械学習モデルは部分最小二乗モデルであったが、実施例2で選択された機械学習モデルはランダムフォレストモデルであった。これは、様々な前処理と処理技術及び/又は構成が、予測される標識のタイプに依存して標識を予測するのに、特異的に有効であることを示しうる。
D. 実施例4-pH標識
[00141] 図7A及び図7Bは、第1世代からの例示的候補解及び第30世代からの例示的候補解についての、pHの測定標識値とpHの予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例4の標識は、真核細胞培養試料中の乳酸の量ではなく、試料(例えば、この文脈において、製剤緩衝液中のバイオ医薬材料)のpHを識別する。この例では、測定値は、対象に対する試料のリリース及び配布を決定することができる品質属性である。図7A及び図7Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00141] 図7A及び図7Bは、第1世代からの例示的候補解及び第30世代からの例示的候補解についての、pHの測定標識値とpHの予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例4の標識は、真核細胞培養試料中の乳酸の量ではなく、試料(例えば、この文脈において、製剤緩衝液中のバイオ医薬材料)のpHを識別する。この例では、測定値は、対象に対する試料のリリース及び配布を決定することができる品質属性である。図7A及び図7Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00142] 図7Aは、以下の構成を含んだ第1世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1を使用して実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、6主成分による部分最小二乗である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1を使用して実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、6主成分による部分最小二乗である。
[00143] 図7Bは、以下の構成を含んだ単一候補解(30世代後に識別される)に関する。
・非対称最小二乗ベースライン除去は、λ=6及びp=3で実行される。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ5、多項式次数3、導関数次数0を使用して実行される。
・スケーリングは実行されない。
・使用される機械学習モデルは、20主成分による部分最小二乗である。
・非対称最小二乗ベースライン除去は、λ=6及びp=3で実行される。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ5、多項式次数3、導関数次数0を使用して実行される。
・スケーリングは実行されない。
・使用される機械学習モデルは、20主成分による部分最小二乗である。
[00144] 第30世代以降に選択された単一候補解に対するR2値は、例示的な第1世代候補解でのR2値と比較して、より高かった(それぞれ、R2 =0.916に対して、R2=0.500)。さらに、第30世代以降に選択された単一候補解の試験セット誤差は、例示的な第1世代候補解の誤差と比較して低かった(それぞれ、RMSE=0.022に対して、RMSE=0.054)。
E. 実施例5-浸透圧標識
[00145] 図8A及び図8Bは、第1世代からの例示的候補解及び第30世代からの例示的候補解についての、浸透圧の測定標識値と浸透圧の予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例5の標識は、試料の浸透圧(例えば、この文脈において、製剤緩衝液中のバイオ医薬材料の溶質濃度)を識別する。図8A及び図8Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00145] 図8A及び図8Bは、第1世代からの例示的候補解及び第30世代からの例示的候補解についての、浸透圧の測定標識値と浸透圧の予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例5の標識は、試料の浸透圧(例えば、この文脈において、製剤緩衝液中のバイオ医薬材料の溶質濃度)を識別する。図8A及び図8Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00146] 図8Aは、以下の構成を含んだ第1世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、8主成分による部分最小二乗である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、8主成分による部分最小二乗である。
[00147] 図8Bは、以下の構成を含んだ単一候補解(30世代後に識別される)に関する。
・非対称最小二乗ベースライン除去は、λ=4及びp=7で実行される。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ5、多項式次数3、導関数次数0で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、C:2100、γ:0.01584である。
・非対称最小二乗ベースライン除去は、λ=4及びp=7で実行される。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ5、多項式次数3、導関数次数0で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、C:2100、γ:0.01584である。
[00148] 第30世代以降に選択された単一候補解に対するR2値は、例示的な第1世代候補解でのR2値と比較して、より高かった(それぞれ、R2=0.918に対して、R2=0.685)。さらに、第30世代以降に選択された単一候補解の試験セット誤差は、例示的な第1世代候補解の誤差と比較して低かった(それぞれ、RMSE=0.073に対して、RMSE=0.144)。
F. 実施例6-抗体酸化標識
[00149] 図9A及び図9Bは、第1世代からの例示的候補解及び第30世代からの例示的候補解についての、抗体酸化の測定標識値と抗体酸化の予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例6の標識は、試料の推定抗体酸化を識別する(例えば、この文脈において、治療用抗体の機能性の推定)。図9A及び図9Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00149] 図9A及び図9Bは、第1世代からの例示的候補解及び第30世代からの例示的候補解についての、抗体酸化の測定標識値と抗体酸化の予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例6の標識は、試料の推定抗体酸化を識別する(例えば、この文脈において、治療用抗体の機能性の推定)。図9A及び図9Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00150] 図9Aは、以下の構成を含んだ第1世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、5主成分による部分最小二乗である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、5主成分による部分最小二乗である。
[00151] 図9Bは、以下の構成を含んだ単一候補解(30世代後に識別される)に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ5、多項式次数4、導関数次数0で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、10主成分による部分最小二乗回帰である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ5、多項式次数4、導関数次数0で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、10主成分による部分最小二乗回帰である。
[00152] 第30世代以降に選択された単一候補解に対するR2値は、例示的な第1世代候補解でのR2値と比較して、より高かった(それぞれ、R2=0.789に対して、R2=0.578)。さらに、第30世代以降に選択された単一候補解の試験セット誤差は、例示的な第1世代候補解の誤差と比較して低かった(それぞれ、RMSE=0.074に対して、RMSE=0.105)。
G. 実施例7-グリカンG0F-N標識
[00153] 図10A及び図10Bは、第1世代からの例示的候補解及び第30世代からの例示的候補解についてのグリカンG0F-Nの測定標識値とグリカンG0F-Nの予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例7の標識は、試料の推定グリカンG0F-Nを識別する。図10A及び図10Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00153] 図10A及び図10Bは、第1世代からの例示的候補解及び第30世代からの例示的候補解についてのグリカンG0F-Nの測定標識値とグリカンG0F-Nの予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例7の標識は、試料の推定グリカンG0F-Nを識別する。図10A及び図10Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00154] 図10Aは、以下の構成を含んだ第1世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、5主成分による部分最小二乗である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、5主成分による部分最小二乗である。
[00155] 図10Bは、以下の構成を含んだ単一候補解(30世代後に識別される)に関する。
・非対称最小二乗ベースライン除去は、λ=6及びp=9で実行される。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ5、多項式次数3、導関数次数0で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、C:2400、γ:0.0006である。
・非対称最小二乗ベースライン除去は、λ=6及びp=9で実行される。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ5、多項式次数3、導関数次数0で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、C:2400、γ:0.0006である。
[00156] 第30世代以降に選択された単一候補解に対するR2値は、例示的な第1世代候補解でのR2値と比較して、より高かった(それぞれ、R2=0.814に対して、R2=0.710)。さらに、第30世代以降に選択された単一候補解の試験セット誤差は、例示的な第1世代候補解の誤差と比較して低かった(それぞれ、RMSE=0.044に対して、RMSE=0.055)。
H. 実施例8-HMWF標識
[00157] 図11A及び図11Bは、高分子量形態(HMWF)の測定標識値と、第1世代からの例示的候補解及び第30世代からの例示的候補解のHMWFの予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例8の標識は、試料の推定HMWFを識別する。図11A及び図11Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00157] 図11A及び図11Bは、高分子量形態(HMWF)の測定標識値と、第1世代からの例示的候補解及び第30世代からの例示的候補解のHMWFの予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例8の標識は、試料の推定HMWFを識別する。図11A及び図11Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00158] 図11Aは、以下の構成を含んだ第1世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、8主成分による部分最小二乗である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、8主成分による部分最小二乗である。
[00159] 図11Bは、以下の構成を含んだ単一候補解(30世代後に識別される)に関する。
・非対称最小二乗ベースライン除去は、λ=7及びp=3で実行される。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ11、多項式次数3、導関数次数0で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、C:2100、γ:0.1である。
・非対称最小二乗ベースライン除去は、λ=7及びp=3で実行される。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ11、多項式次数3、導関数次数0で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、C:2100、γ:0.1である。
[00160] 第30世代以降に選択された単一候補解に対するR2値は、例示的な第1世代候補解でのR2値と比較して、より高かった(それぞれ、R2=0.960に対して、R2=0.811)。さらに、第30世代以降に選択された単一候補解の試験セット誤差は、例示的な第1世代候補解の誤差と比較して低かった(それぞれ、RMSE=0.048に対して、RMSE=0.105)。
I. 実施例9-二重特異性アセンブリ標識
[00161] 図12A及び図12Bは、二重特異性アセンブリの測定標識値と、第1世代からの例示的候補解及び第30世代からの例示的候補解についての二重特異性アセンブリの予測標識値との間の例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例9の標識は、試料中の抗体の二重特異性アセンブリの推定を識別する(例えば、逆相質量分析によって測定される小数分画としてのアセンブリされた二重特異性抗体のパーセント)。図12A及び図12Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00161] 図12A及び図12Bは、二重特異性アセンブリの測定標識値と、第1世代からの例示的候補解及び第30世代からの例示的候補解についての二重特異性アセンブリの予測標識値との間の例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例9の標識は、試料中の抗体の二重特異性アセンブリの推定を識別する(例えば、逆相質量分析によって測定される小数分画としてのアセンブリされた二重特異性抗体のパーセント)。図12A及び図12Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00162] 図12Aは、以下の構成を含んだ第1世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、6主成分による部分最小二乗である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、6主成分による部分最小二乗である。
[00163] 図12Bは、以下の構成を含んだ単一候補解(30世代後に識別される)に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ13、多項式次数2、導関数次数0で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、10主成分による部分最小二乗である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ13、多項式次数2、導関数次数0で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、10主成分による部分最小二乗である。
[00164] 第30世代以降に選択された単一候補解に対するR2値は、例示的な第1世代候補解でのR2値と比較して、より高かった(それぞれ、R2=0.938に対して、R2=0.898)。さらに、第30世代以降に選択された単一候補解の試験セット誤差は、例示的な第1世代候補解の誤差と比較して低かった(それぞれ、RMSE=0.079に対して、RMSE=0.102)。
J. 実施例10-生存細胞の存在量アセンブリ標識
[00165] 図13A及び図13Bは、第1世代からの例示的候補解及び第30世代からの例示的候補解についての、細胞生存率の測定標識値と細胞生存率の予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例10の標識は、試料中の生存細胞の存在量の推定を識別する。図13A及び図13Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00165] 図13A及び図13Bは、第1世代からの例示的候補解及び第30世代からの例示的候補解についての、細胞生存率の測定標識値と細胞生存率の予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例10の標識は、試料中の生存細胞の存在量の推定を識別する。図13A及び図13Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00166] 図13Aは、以下の構成を含んだ第1世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、11主成分による部分最小二乗である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、11主成分による部分最小二乗である。
[00167] 図13Bは、以下の構成を含んだ単一候補解(30世代後に識別される)に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、C:1550、γ:0.0016である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、C:1550、γ:0.0016である。
[00168] 第30世代以降に選択された単一候補解に対するR2値は、例示的な第1世代候補解でのR2値と比較して、より高かった(それぞれ、R2=0.981に対して、R2=0.983)。さらに、第30世代以降に選択された単一候補解の試験セット誤差は、例示的な第1世代候補解の誤差と比較して低かった(それぞれ、RMSE=0.043に対して、RMSE=0.046)。
K. 実施例11-死細胞の存在量アセンブリ標識
[00169] 図14A及び図14Bは、第1世代からの例示的候補解及び第30世代からの例示的候補解についての、死細胞量の測定標識値と残留水分含有量の予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例11の標識は、試料中の死細胞の存在量の推定を同定する。図14A及び図14Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00169] 図14A及び図14Bは、第1世代からの例示的候補解及び第30世代からの例示的候補解についての、死細胞量の測定標識値と残留水分含有量の予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例11の標識は、試料中の死細胞の存在量の推定を同定する。図14A及び図14Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00170] 図14Aは、以下の構成を含んだ第1世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、12主成分による部分最小二乗である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ15、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、12主成分による部分最小二乗である。
[00171] 図14Bは、以下の構成を含んだ単一候補解(30世代後に識別される)に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズは13、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、8主成分による部分最小二乗である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズは13、多項式次数2、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、8主成分による部分最小二乗である。
[00172] 第30世代以降に選択された単一候補解に対するR2値は、例示的な第1世代候補解でのR2値と比較して、より高かった(それぞれ、R2=0.719に対して、R2=0.707)。さらに、第30世代以降に選択された単一候補解の試験セット誤差は、例示的な第1世代候補解の誤差と比較して低かった(それぞれ、RMSE=0.094に対して、RMSE=0.096)。
L. 実施例12-残留水分含有量標識
[00173] 図15A及び図15Bは、第1世代からの例示的候補解及び第30世代由来の例示的候補解についての、残留水分含有量の測定標識値と残留水分含有量の予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例12の標識は、試料の残留水分含有量の推定を識別する。図15A及び図15Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00173] 図15A及び図15Bは、第1世代からの例示的候補解及び第30世代由来の例示的候補解についての、残留水分含有量の測定標識値と残留水分含有量の予測標識値との例示的な比較を示す。この例では、実施例2で実行されたものと同様の処理が実行された。実施例12の標識は、試料の残留水分含有量の推定を識別する。図15A及び図15Bはそれぞれ、実際の標識と推定標識との比較を示している。
[00174] 図15Aは、以下の構成を含んだ第1世代からの例示的な候補解に関する。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ11、多項式次数4、導関数次数0で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、2主成分による部分最小二乗である。
・ベースライン除去は実行されない。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ11、多項式次数4、導関数次数0で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルは、2主成分による部分最小二乗である。
[00175] 図15Bは、以下の構成を含んだ単一候補解(30世代後に識別される)に関する。
・非対称最小二乗ベースライン除去は、λ=5及びp=9で実行される。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ11、多項式次数4、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、C:2400、γ:0.005、ε=0.066である。
・非対称最小二乗ベースライン除去は、λ=5及びp=9で実行される。
・1次導関数上のSavitzky-Golay平滑化は、ウインドウサイズ11、多項式次数4、導関数次数1で実行される。
・スケーリングは、標準正規変量row-wise法に従って実行される。
・使用される機械学習モデルはサポートベクトルマシンで、C:2400、γ:0.005、ε=0.066である。
[00176] 第30世代以降に選択された単一候補解に対するR2値は、例示的な第1世代候補解でのR2値と比較して、より高かった(それぞれ、R2=0.992に対して、R2=0.983)。さらに、第30世代以降に選択された単一候補解の試験セット誤差は、例示的な第1世代候補解の誤差と比較して低かった(それぞれ、RMSE=0.027に対して、RMSE=0.039)。
M. 実施例13-前処理による未加工スペクトル特性の操作
[00177] 図16A~図21Bは、信号品質及び機械学習予測を改善するために未加工のスペクトルデータを前処理することに関連する例示的データを示す。図16、図17、図18、図19、図20及び図21は、それぞれ図7、図10、図12、図13、図14及び図15に対応する標識変数、モニタリング及び処理パイプラインの種類に対応している。各プロットについて、x座標及びy座標の範囲は、観測された最大値の割合に対して縮尺される(例えば、0~1の間)。各「A」プロットは、入力ラマンスペクトルのセットを示す。各「B」プロットは、対応する処理パイプラインに従って本明細書に開示された技術を(限定されるものではないが)適用することにより生成された、対応する前処理されたスペクトルのセットを示す。特に、「A」プロットに示された特定のスペクトルに基づいて決定されるため、各可変タイプに対する特定の適用技術は異なる。
[00177] 図16A~図21Bは、信号品質及び機械学習予測を改善するために未加工のスペクトルデータを前処理することに関連する例示的データを示す。図16、図17、図18、図19、図20及び図21は、それぞれ図7、図10、図12、図13、図14及び図15に対応する標識変数、モニタリング及び処理パイプラインの種類に対応している。各プロットについて、x座標及びy座標の範囲は、観測された最大値の割合に対して縮尺される(例えば、0~1の間)。各「A」プロットは、入力ラマンスペクトルのセットを示す。各「B」プロットは、対応する処理パイプラインに従って本明細書に開示された技術を(限定されるものではないが)適用することにより生成された、対応する前処理されたスペクトルのセットを示す。特に、「A」プロットに示された特定のスペクトルに基づいて決定されるため、各可変タイプに対する特定の適用技術は異なる。
[00178] スペクトルの前処理の結果、すべての周波数ではないが、多くの周波数において、スペクトルの至るところで変動性が減少することが、図を通して見てとれる。交差スペクトルの変動が残っている周波数は標識変数の特定の値に関して有益であるが、交差スペクトルの変動が除去されている周波数はこの点に関して有益ではない可能性がある。
N. 実施例14-機能選択による未加工スペクトル特性の操作
[00179] 図22A~図22Bは、信号品質及び機械学習予測を改善するために未加工スペクトルデータを前処理することに関連する例示的データを示す。波数が0から2000の間で、観測された最大値の比率に対して(例えば、0から1の間に)縮尺されたyの範囲にある未加工入力スペクトルを図22Aに示した。図22Bは、特徴選択処理が実行された後(例えば、図1~図3に記載されているように)、特徴選択処理が、処理パイプラインの段階(例えば、前処理の後、及び機械学習モデルに入力される前、又は特性の推定又は予測が生成される前)において実行された、対応するスペクトルのセットを示す。
[00179] 図22A~図22Bは、信号品質及び機械学習予測を改善するために未加工スペクトルデータを前処理することに関連する例示的データを示す。波数が0から2000の間で、観測された最大値の比率に対して(例えば、0から1の間に)縮尺されたyの範囲にある未加工入力スペクトルを図22Aに示した。図22Bは、特徴選択処理が実行された後(例えば、図1~図3に記載されているように)、特徴選択処理が、処理パイプラインの段階(例えば、前処理の後、及び機械学習モデルに入力される前、又は特性の推定又は予測が生成される前)において実行された、対応するスペクトルのセットを示す。
[00180] 図22Bで実証されているように、図1~図3の特徴選択処理が実行された後のスペクトルのセットは減少する。波数の変動に寄与しない波数は、これらの波数が存在しないことが、特性を推定又は予測するための機械学習モデルの精度に限界効果を及ぼさなかったか、有しなかったため、入力スペクトルから除去された。図示したように、図22Aの波数の一部のみが変動性に寄与しており、特徴選択処理の間に選択された。
[00181] 図23は、試料の特性を推定するために、具体的に減少した特徴のセットを識別した特徴選択処理の例示的な実行を示している。各波数には(図1~図3に記載したように)順位が割り当てられた。特徴選択処理には、前の反復に含まれる波数から一定量の波数と対応する強度(例えば25%)を除去する各反復を伴う12回の反復が含まれていた。波数の望ましい選択を有する特定の反復を同定するため、閾値偏差0.02が選択された。第1の反復の前には、1545の波数があった。波数のフルセットの交差検証係数は0.0892であった(例えば、図2に記載されたプロセスに従って導かれた)が、これはその後の反復が比較されることになるベースライン交差検証係数に相当した。
[00182] 反復1の間に、(割り当てられた順位に基づいて)特徴の下位25%が除去され、1159個の特徴が残った。減少した特徴に対して交差検証係数が導出されたが、これはベースライン交差検証係数よりも高かった(例えば、0.001だけ)。その結果、反復1の交差検証係数は新しいベースライン交差検証係数となった。反復2の間に、残りの特徴の下位25%(例えば、反復1から得られた1159個の特徴の25%)が除去され、減少した特徴に対して、0.887の交差検証係数が導出された。
[00183] 例えば、図1~図3に示された特徴選択処理のグラフ表示を図解する図24A~図24Dに注目する。図24Aは、図23の例の第1の反復の間に割り当てられた順位に従って順序付けられた波数のグラフを示す。図24Aに示されているように、グラフから除去するため、波数の下位25%が識別された。図24Bは、図23の例の第2の反復中に割り当てられた順位に従って並べられた波数のグラフを示す。第2の反復中に、第1の反復で識別された波数の下位25%が除去された。残りの波数の下位25%は、除去のためマークされた。図24Cは、図22の例の第2の反復中に、割り当てられた順位に従って並べられた波数の別のグラフを示す。図24Cに示されているように、除去された波数には、第1の反復で識別された波数の下位25%及び図24Bで識別された波数の下位25%が含まれている。
[00184] 図23に戻ると、反復8で、交差検証係数は0.881で、ベースラインの交差検証係数(例えば、第3の反復の間に再度更新され0.895となった)から、0.014下回っている。次の反復の間、交差検証係数は0.866で、これはベースライン交差検証係数から0.029下回っており、閾値0.020を超えた。反復8の交差検証係数が、閾値を超えずに閾値0.020に最も近いため、反復8が特定の反復となるように選択された。その結果、反復8の特徴は、試料の予測特性の生成に使用するために選択された。
[00185] 図24Dは、図23の例の第8の反復中に、割り当てられた順位に従って順序付けられた波数のグラフを示す。図24Dのグラフは、特徴選択処理(例えば、第8の反復によって識別される)に従って選択された波数を、前の反復の間に除外された波数から区別する。図に示すように、波数のフルセットの一部が選択された。
V. 例示的な実施形態
[00186] A1. 複数のデータ要素を含むデータセットへアクセスすることであって、前記データ要素の各々は、
複数の試料のうちの1つとエネルギー源からのエネルギーとの間の相互作用に基づいて生成されるスペクトル、及び、
前記試料の既知の特性
を含む、データセットへアクセスすることと、
候補解の母集団を初期化することであって、前記候補解の各々は、
特定のタイプの前処理が実行されるという指示、
実行される前処理のパラメータ、
使用される機械学習モデルのタイプの特定、及び/又は、
機械学習モデルハイパーパラメータ
を含む特質のセットによって定義される、候補解の母集団を初期化することと、
候補解の前記母集団をフィルタ処理することであって、
前記候補解の各々について、及び前記データ要素の各々について、前記データ要素の前記スペクトルを前記特質のセットで処理することにより予測試料特性を決定すること、
候補解の前記母集団の各々について、前記予測試料特性と前記データ要素の既知の特性に基づいて、適応度基準を生成すること、及び、
前記適応度基準に基づいて候補解の前記母集団の不完全なサブセットを選択すること
によって、候補解の前記母集団をフィルタ処理することと、
一又は複数の追加世代反復を実行することであって、
候補解の前記母集団の前記不完全なサブセット及び一又は複数の遺伝的演算子を使用して特定された解の次世代母集団を含むように、候補解の前記母集団を更新すること、及び、
候補解の更新された前記母集団を使用して、候補解の前記母集団の前記フィルタ処理を反復すること
によって、一又は複数の追加世代反復を実行することと、
前記追加世代反復の最後の世代反復の間に選択された候補解の前記母集団の前記不完全なサブセットにおける特定の候補解の前記特質のセットに基づいて処理パイプラインを生成することと、
を含むコンピュータ実装された方法。
[00186] A1. 複数のデータ要素を含むデータセットへアクセスすることであって、前記データ要素の各々は、
複数の試料のうちの1つとエネルギー源からのエネルギーとの間の相互作用に基づいて生成されるスペクトル、及び、
前記試料の既知の特性
を含む、データセットへアクセスすることと、
候補解の母集団を初期化することであって、前記候補解の各々は、
特定のタイプの前処理が実行されるという指示、
実行される前処理のパラメータ、
使用される機械学習モデルのタイプの特定、及び/又は、
機械学習モデルハイパーパラメータ
を含む特質のセットによって定義される、候補解の母集団を初期化することと、
候補解の前記母集団をフィルタ処理することであって、
前記候補解の各々について、及び前記データ要素の各々について、前記データ要素の前記スペクトルを前記特質のセットで処理することにより予測試料特性を決定すること、
候補解の前記母集団の各々について、前記予測試料特性と前記データ要素の既知の特性に基づいて、適応度基準を生成すること、及び、
前記適応度基準に基づいて候補解の前記母集団の不完全なサブセットを選択すること
によって、候補解の前記母集団をフィルタ処理することと、
一又は複数の追加世代反復を実行することであって、
候補解の前記母集団の前記不完全なサブセット及び一又は複数の遺伝的演算子を使用して特定された解の次世代母集団を含むように、候補解の前記母集団を更新すること、及び、
候補解の更新された前記母集団を使用して、候補解の前記母集団の前記フィルタ処理を反復すること
によって、一又は複数の追加世代反復を実行することと、
前記追加世代反復の最後の世代反復の間に選択された候補解の前記母集団の前記不完全なサブセットにおける特定の候補解の前記特質のセットに基づいて処理パイプラインを生成することと、
を含むコンピュータ実装された方法。
[00187] A2. 他の試料に対応する他のスペクトルへアクセスすることと、
前記処理パイプラインにしたがって、前記他のスペクトルを処理することによって、前記他の試料の予測特性を生成することと、
前記他の試料の前記予測特性を出力することと、
をさらに含む、請求項A1に記載のコンピュータ実装された方法。
前記処理パイプラインにしたがって、前記他のスペクトルを処理することによって、前記他の試料の予測特性を生成することと、
前記他の試料の前記予測特性を出力することと、
をさらに含む、請求項A1に記載のコンピュータ実装された方法。
[00188] A3. 前記複数のデータ要素の各データ要素について、前記スペクトルがラマンスペクトル又は赤外スペクトルを含む、請求項A1又はA2に記載のコンピュータ実装された方法。
[00189] A4. 前記特定の候補解に対する前記特質のセットが、特定のタイプの機械学習モデルに対するハイパーパラメータを含み、前記特定のタイプの機械学習モデルは、
部分最小二乗法、
ランダムフォレスト、又は、
サポートベクトルマシン
を含む、請求項A1からA3のいずれか一項に記載のコンピュータ実装された方法。
部分最小二乗法、
ランダムフォレスト、又は、
サポートベクトルマシン
を含む、請求項A1からA3のいずれか一項に記載のコンピュータ実装された方法。
[00190] A5. 前記特定の候補解に対する前記特質のセットが、特定のタイプの機械学習モデルの選択又は特定のタイプの機械学習モデルに対するハイパーパラメータを含み、前記特定のタイプの機械学習モデルは、分類出力又は数値出力を生成するように構成される、請求項A1からA4のいずれか一項に記載のコンピュータ実装された方法。
[00191] A6. 前記他の試料が大きな分子を含む、請求項A1からA5のいずれか一項に記載のコンピュータ実装された方法。
[00192] A7. 前記他の試料が小さな分子を含む、請求項A1からA6のいずれか一項に記載のコンピュータ実装された方法。
[00193] A8. 他方の予測特性は、
一又は複数の小さな分子の分析物の濃度、
溶媒、
一又は複数のタンパク質変異体の発生率、
タンパク質の高次構造、又は、
大きな分子の不純物
を特徴とする、請求項A1からA7のいずれか一項に記載のコンピュータ実装された方法。
一又は複数の小さな分子の分析物の濃度、
溶媒、
一又は複数のタンパク質変異体の発生率、
タンパク質の高次構造、又は、
大きな分子の不純物
を特徴とする、請求項A1からA7のいずれか一項に記載のコンピュータ実装された方法。
[00194] A9. 前記処理パイプラインは、ベースラインを低減又は除去するために非対称最小二乗法を実行することを含み、前記特定の候補解のための前記特質のセットが、前記非対称最小二乗法のための少なくとも1つのパラメータを含む、請求項A1からA8のいずれか一項に記載のコンピュータ実装された方法。
[00195] A10. 前記処理パイプラインは、ベースラインを低減又は除去するために平滑化技術を実行することを含み、前記特定の候補解のための前記特質のセットが、前記平滑化技術のための少なくとも1つのパラメータを含む、請求項A1からA9のいずれか一項に記載のコンピュータ実装された方法。
[00196] A11. 前記複数の試料のうちの少なくとも1つの試料について、前記複数のデータ要素は、前記試料に対応する複数のデータ要素を含み、前記複数のデータ要素は前記試料を使用して生成された異なる複製スペクトルを含む、請求項A1からA10のいずれか一項に記載のコンピュータ実装された方法。
[00197] A12. 前記複数のデータ要素を前記複数のデータ要素の訓練サブセットに分割することをさらに含み、
前記予測試料特性が決定される前記複数のデータ要素のうちの少なくともいくつかが、前記複数のデータ要素の前記試験サブセットとして定義され、
候補解の前記母集団をフィルタ処理することは、
前記複数のデータ要素の前記試験サブセットを使用して、一又は複数のパラメータを学習することを含む、請求項A1からA11のいずれか一項に記載のコンピュータ実装された方法。
前記予測試料特性が決定される前記複数のデータ要素のうちの少なくともいくつかが、前記複数のデータ要素の前記試験サブセットとして定義され、
候補解の前記母集団をフィルタ処理することは、
前記複数のデータ要素の前記試験サブセットを使用して、一又は複数のパラメータを学習することを含む、請求項A1からA11のいずれか一項に記載のコンピュータ実装された方法。
[00198] A13. 前記複数の試料の各々は、同一の標的化学構造に対応し、また、同一の標的製剤に対応し、前記複数の試料は、複数のロット特異的サブセットを含み、前記複数のロット特異的サブセットの各々は、個々のロット間に製造された複数の試料を含み、前記複数のデータ要素を前記分割することは、
前記個々のロットを前記訓練サブセットと前記試験サブセットとに分割することと、
前記ロットの分割に基づいて、前記複数のデータ要素を分割することと、
を含む、請求項A1からA12のいずれか一項に記載のコンピュータ実装された方法。
前記個々のロットを前記訓練サブセットと前記試験サブセットとに分割することと、
前記ロットの分割に基づいて、前記複数のデータ要素を分割することと、
を含む、請求項A1からA12のいずれか一項に記載のコンピュータ実装された方法。
[00199] A14. 撮像装置を使用して、前記他の試料に対して前記他のスペクトルを収集することと、
前記他のスペクトルを請求項A1からA13のいずれか一項に記載のコンピュータ実装された方法を実行するコンピュータシステムに計算機的に役立てることと、
前記コンピュータシステムから前記予測特性を受信することと、
品質管理条件が満たされているかどうかを前記予測特性に基づいて決定することと、
前記品質管理条件が満たされている場合には、投与すべき前記他の試料を対象に配布することと、
前記品質管理条件が満たされていない場合には、対象に投与するための他の試料の配布を禁止することと、
をさらに含む、コンピュータ実装された方法。
前記他のスペクトルを請求項A1からA13のいずれか一項に記載のコンピュータ実装された方法を実行するコンピュータシステムに計算機的に役立てることと、
前記コンピュータシステムから前記予測特性を受信することと、
品質管理条件が満たされているかどうかを前記予測特性に基づいて決定することと、
前記品質管理条件が満たされている場合には、投与すべき前記他の試料を対象に配布することと、
前記品質管理条件が満たされていない場合には、対象に投与するための他の試料の配布を禁止することと、
をさらに含む、コンピュータ実装された方法。
[00200] A15. 前記品質管理条件が満たされていない場合には、前記他の試料の製造に関連する一又は複数のパラメータを動的に調整することをさらに含む、請求項A1からA14のいずれか一項に記載のコンピュータ実装された方法。
[00201] A16. 前記他のスペクトルを収集するために前記他の試料を提供することと、
前記他のスペクトルを請求項A11からA15のいずれか一項に記載のコンピュータ実装された方法を実行するコンピュータシステムに計算機的に役立てることと、
前記コンピュータシステムから前記予測特性を受信することと、
品質管理条件が満たされているかどうかを前記予測特性に基づいて決定することと、
前記品質管理条件が満たされている場合には、追加の試料を製造するように構成された一又は複数の製造工程を開始又は完了することと、
前記品質管理条件が満たされていない場合には、前記一又は複数の製造工程を終了又は変更することと、
をさらに含む、コンピュータ実装された方法。
前記他のスペクトルを請求項A11からA15のいずれか一項に記載のコンピュータ実装された方法を実行するコンピュータシステムに計算機的に役立てることと、
前記コンピュータシステムから前記予測特性を受信することと、
品質管理条件が満たされているかどうかを前記予測特性に基づいて決定することと、
前記品質管理条件が満たされている場合には、追加の試料を製造するように構成された一又は複数の製造工程を開始又は完了することと、
前記品質管理条件が満たされていない場合には、前記一又は複数の製造工程を終了又は変更することと、
をさらに含む、コンピュータ実装された方法。
[00202] A17. コンピュータ実装された方法であって、前記方法は、
クライアント装置において、特定の試料とエネルギー源からのエネルギーとの間の相互作用に基づいて生成される特定のスペクトルにアクセスすることと、
処理パイプラインを使用して前記特定のスペクトルを処理することによって生成される前記特定の試料の予測特性に対する要求を、前記クライアント装置からリモートコンピューティングシステムに送信することと、
を含み、前記処理パイプラインは、
複数の試料に対応する複数のデータ要素を含むデータセットにアクセスすることであって、前記特定の試料が前記複数の試料の各々と異なり、前記複数のデータ要素の各データ要素が、
前記複数の試料のうちの1つの試料に関連するスペクトル、及び、
前記試料の既知の特性
を含む、データセットにアクセスすることと、
候補解の母集団を初期化することであって、前記候補解の各々は、
特定のタイプの前処理が実行されるかどうか、
実行される前処理のパラメータ、
どのタイプの機械学習モデルが使用されるか、及び/又は、
機械学習モデルハイパーパラメータ
を含む、特質のセットによって定義される、候補解の母集団を初期化することと、
候補解の前記母集団をフィルタ処理することであって、
候補解の前記母集団の各々ついて、及び前記複数のデータ要素の少なくともいくつかの各々について、前記データ要素の前記スペクトルを前記特質のセットに従って処理することにより、予測試料特性を決定すること、
候補解の前記母集団の各々について、前記予測試料特性及び前記複数のデータ要素の前記少なくともいくつかの前記既知の特性に基づいて、適応度基準を生成すること、及び、
前記適応度基準に基づいて、候補解の前記母集団の不完全なサブセットを選択すること
によって、候補解の前記母集団をフィルタ処理することと、
一又は複数の追加世代反復を実行することであって、
候補解の前記母集団の前記選択された不完全なサブセット及び一又は複数の遺伝的演算子を使用して特定された解の次世代母集団を含むように、候補解の前記母集団を更新すること、及び、
候補解の更新された前記母集団を使用して候補解の前記母集団の前記フィルタ処理を反復すること、
によって、一又は複数の追加世代反復を実行することと、
前記一又は複数の追加世代反復の最後の世代反復の間に選択された候補解の前記母集団の不完全なサブセットにおける、特定の候補解の前記特質のセットに基づいて処理パイプラインを定義することと
によって、定義され、
また、前記方法は、
前記クライアント装置において、前記リモートコンピューティングシステムから、前記特定の試料の前記予測特性を受信すること、
を含む、コンピュータ実装された方法。
クライアント装置において、特定の試料とエネルギー源からのエネルギーとの間の相互作用に基づいて生成される特定のスペクトルにアクセスすることと、
処理パイプラインを使用して前記特定のスペクトルを処理することによって生成される前記特定の試料の予測特性に対する要求を、前記クライアント装置からリモートコンピューティングシステムに送信することと、
を含み、前記処理パイプラインは、
複数の試料に対応する複数のデータ要素を含むデータセットにアクセスすることであって、前記特定の試料が前記複数の試料の各々と異なり、前記複数のデータ要素の各データ要素が、
前記複数の試料のうちの1つの試料に関連するスペクトル、及び、
前記試料の既知の特性
を含む、データセットにアクセスすることと、
候補解の母集団を初期化することであって、前記候補解の各々は、
特定のタイプの前処理が実行されるかどうか、
実行される前処理のパラメータ、
どのタイプの機械学習モデルが使用されるか、及び/又は、
機械学習モデルハイパーパラメータ
を含む、特質のセットによって定義される、候補解の母集団を初期化することと、
候補解の前記母集団をフィルタ処理することであって、
候補解の前記母集団の各々ついて、及び前記複数のデータ要素の少なくともいくつかの各々について、前記データ要素の前記スペクトルを前記特質のセットに従って処理することにより、予測試料特性を決定すること、
候補解の前記母集団の各々について、前記予測試料特性及び前記複数のデータ要素の前記少なくともいくつかの前記既知の特性に基づいて、適応度基準を生成すること、及び、
前記適応度基準に基づいて、候補解の前記母集団の不完全なサブセットを選択すること
によって、候補解の前記母集団をフィルタ処理することと、
一又は複数の追加世代反復を実行することであって、
候補解の前記母集団の前記選択された不完全なサブセット及び一又は複数の遺伝的演算子を使用して特定された解の次世代母集団を含むように、候補解の前記母集団を更新すること、及び、
候補解の更新された前記母集団を使用して候補解の前記母集団の前記フィルタ処理を反復すること、
によって、一又は複数の追加世代反復を実行することと、
前記一又は複数の追加世代反復の最後の世代反復の間に選択された候補解の前記母集団の不完全なサブセットにおける、特定の候補解の前記特質のセットに基づいて処理パイプラインを定義することと
によって、定義され、
また、前記方法は、
前記クライアント装置において、前記リモートコンピューティングシステムから、前記特定の試料の前記予測特性を受信すること、
を含む、コンピュータ実装された方法。
[00203] A18. 前記エネルギー源からの前記エネルギーの放出を開始するために分光法を使用して、前記特定のスペクトルを収集することをさらに含む、請求項A1からA17のいずれか一項に記載のコンピュータ実装された方法。
[00204] A19. 前記予測試料の前記予測特性を生成する際に使用するため、前記スペクトルの強度のセットから一又は複数の強度を選択する特徴選択処理を実行することを含むように、前記処理パイプラインを修正することをさらに含み、前記特徴選択処理は、前記処理パイプラインによって、前記予測特性の生成の前に実行される、請求項A1からA18のいずれか一項に記載のコンピュータ実装された方法。
[00205] A209. 前記特徴選択処理は、
前記スペクトルから、波数のセットを特定することであって、各波数が強度値に関連している、波数のセットを特定することと、
回帰分析を使用して、前記波数のセットの各波数に対するスコアを定義することと、
前記波数のセットの各波数の前記スコアにより、前記波数のセットをソートすることと、
一又は複数の特徴選択反復を実行することとを含み、各特徴選択反復は、
最も低いスコアを有する前記スペクトルの一又は複数の波数を除去することによって前記波数のセットのサブセットを生成すること、及び、
前記機械学習モデル上の前記波数のセットの前記サブセットの交差検証に基づくモデル検証スコアを生成すること、
前記一又は複数の特徴選択反復から、閾値に最も近いモデル検証スコアを含む前記一又は複数の特徴選択反復のうちの特定の特徴選択反復を選択すること、及び、
前記処理パイプラインによって前記予測特徴を生成する際に使用するため、前記特定の特徴選択反復の前記波数のセットの前記サブセットに対応する強度を選択すること、
を含む、請求項A1からA19のいずれか一項に記載のコンピュータ実装された方法。
前記スペクトルから、波数のセットを特定することであって、各波数が強度値に関連している、波数のセットを特定することと、
回帰分析を使用して、前記波数のセットの各波数に対するスコアを定義することと、
前記波数のセットの各波数の前記スコアにより、前記波数のセットをソートすることと、
一又は複数の特徴選択反復を実行することとを含み、各特徴選択反復は、
最も低いスコアを有する前記スペクトルの一又は複数の波数を除去することによって前記波数のセットのサブセットを生成すること、及び、
前記機械学習モデル上の前記波数のセットの前記サブセットの交差検証に基づくモデル検証スコアを生成すること、
前記一又は複数の特徴選択反復から、閾値に最も近いモデル検証スコアを含む前記一又は複数の特徴選択反復のうちの特定の特徴選択反復を選択すること、及び、
前記処理パイプラインによって前記予測特徴を生成する際に使用するため、前記特定の特徴選択反復の前記波数のセットの前記サブセットに対応する強度を選択すること、
を含む、請求項A1からA19のいずれか一項に記載のコンピュータ実装された方法。
[00206] A21. 一又は複数のデータプロセッサと、
前記一又は複数のデータプロセッサ上で実行される場合、前記一又は複数のデータプロセッサに、本明細書に開示されている一又は複数の方法の一部又は全部を実行させる、命令を含む非一時的なコンピュータ可読記憶媒体と、
を備えるシステム。
前記一又は複数のデータプロセッサ上で実行される場合、前記一又は複数のデータプロセッサに、本明細書に開示されている一又は複数の方法の一部又は全部を実行させる、命令を含む非一時的なコンピュータ可読記憶媒体と、
を備えるシステム。
[00207] A22. 一又は複数のデータプロセッサに、本明細書に開示されている一又は複数の方法の一部又は全部を実行させるように構成された命令を含む、非一時的なマシン可読記憶媒体の中で有形に具現化されたコンピュータプログラム製品。
V. 追加検討事項
[00208] 本開示のいくつかの実施形態は、一又は複数のデータプロセッサを含むシステムを含む。いくつかの実施形態において、システムは、一又は複数のデータプロセッサ上で実行される場合、一又は複数のデータプロセッサに、本明細書に開示される一又は複数の方法及び/又は一又は複数のプロセスの一部または全部を実行させる、指示を含む一過性でないコンピュータ可読保存媒体を含む。本開示のいくつかの実施形態は、一又は複数のデータプロセッサに一又は複数の方法の一部または全部及び/又は本明細書に開示されている一又は複数のプロセスの一部または全部を実施させるように構成された指示を含む、一過性でない機械可読保存媒体に明白に具体化されたコンピュータプログラム製品を含む。
[00208] 本開示のいくつかの実施形態は、一又は複数のデータプロセッサを含むシステムを含む。いくつかの実施形態において、システムは、一又は複数のデータプロセッサ上で実行される場合、一又は複数のデータプロセッサに、本明細書に開示される一又は複数の方法及び/又は一又は複数のプロセスの一部または全部を実行させる、指示を含む一過性でないコンピュータ可読保存媒体を含む。本開示のいくつかの実施形態は、一又は複数のデータプロセッサに一又は複数の方法の一部または全部及び/又は本明細書に開示されている一又は複数のプロセスの一部または全部を実施させるように構成された指示を含む、一過性でない機械可読保存媒体に明白に具体化されたコンピュータプログラム製品を含む。
[00209] 採用されている用語及び表現は、説明のための用語として使用されるもので、限定するための用語ではなく、このような用語及び表現の使用には、示されて説明されている特徴又はその一部のいなかる等価物をも排除する意図はなく、特許請求されている発明の範囲内で様々な変更が可能であることは認識されている。したがって、特許請求されている本発明は、具体的には実施態様及び任意選択の特徴によって開示されているが、本明細書に開示されている概念の修正及び変形は、当業者に委ねられるが、そのような修正及び変形は、添付の特許請求によって定義される本発明の範囲内にあると見做されることを理解されたい。
[00210] 本明細書は、好ましい例示的な実施形態のみを提供し、開示の範囲、適用性または構成を制限することを意図していない。むしろ、好ましい例示的な実施形態の本明細書は、様々な実施形態を実装するための可能な記載を当業者に提供するであろう。添付の特許請求の範囲に示されている精神及び範囲から逸脱することなく、構成要素の機能及び配置に種々の変更がなされうることを理解されたい。
[00211] 具体的な詳細は、実施形態の完全な理解を提供するために、本明細書の中で与えられる。しかし、実施形態は、これらの具体的な詳細なしに実施されうることが理解されるであろう。例えば、回路、システム、ネットワーク、プロセス、及び他の構成要素は、不必要な詳細にして実施形態を不明瞭にしないために、ブロック図の構成要素として示されることがある。他の例では、実施形態を不明瞭にすることを避けるために、周知の回路、プロセス、アルゴリズム、構造、及び技術が不必要な詳細なしに示されることがある。
Claims (22)
- 複数のデータ要素を含むデータセットへアクセスすることであって、前記データ要素の各々は、
複数の試料のうちの1つの試料とエネルギー源からのエネルギーとの間の相互作用に基づいて生成されるスペクトル、及び、
前記試料の既知の特性
を含む、データセットへアクセスすることと、
候補解の母集団を初期化することであって、前記候補解の各々は、
特定のタイプの前処理が実行されるという指示、
実行される前処理のパラメータ、
使用される機械学習モデルのタイプの特定、及び/又は、
機械学習モデルハイパーパラメータ
を含む特質のセットによって定義される、候補解の母集団を初期化することと、
候補解の前記母集団をフィルタ処理することであって、
前記候補解の各々について、及び前記データ要素の各々について、前記データ要素の前記スペクトルを前記特質のセットで処理することにより予測試料特性を決定すること、
候補解の前記母集団の各々について、前記予測試料特性と前記データ要素の既知の特性に基づいて、適応度基準を生成すること、及び、
前記適応度基準に基づいて候補解の前記母集団の不完全なサブセットを選択すること
によって、候補解の前記母集団をフィルタ処理することと、
一又は複数の追加世代反復を実行することであって、
候補解の前記母集団の前記不完全なサブセット及び一又は複数遺伝的演算子を使用して特定された解の次世代母集団を含むように、候補解の前記母集団を更新すること、及び、
候補解の更新された前記母集団を使用して、候補解の前記母集団の前記フィルタ処理を反復すること
によって、一又は複数の追加世代反復を実行することと、
前記追加世代反復の最後の世代反復の間に選択された候補解の前記母集団の前記不完全なサブセットにおける特定の候補解の前記特質のセットに基づいて処理パイプラインを生成することと、
を含むコンピュータ実装された方法。 - 他の試料に対応する他のスペクトルへアクセスすることと、
前記処理パイプラインにしたがって、前記他のスペクトルを処理することによって、前記他の試料の予測特性を生成することと、
前記他の試料の前記予測特性を出力することと、
をさらに含む、請求項1に記載のコンピュータ実装された方法。 - 前記複数のデータ要素の各データ要素について、前記スペクトルがラマンスペクトル又は赤外スペクトルを含む、請求項1に記載のコンピュータ実装された方法。
- 前記特定の候補解に対する前記特質のセットが、特定のタイプの機械学習モデルに対するハイパーパラメータを含み、前記特定のタイプの機械学習モデルは、
部分最小二乗法、
ランダムフォレスト、又は、
サポートベクトルマシン
を含む、請求項1に記載のコンピュータ実装された方法。 - 前記特定の候補解に対する前記特質のセットが、特定のタイプの機械学習モデルの選択又は特定のタイプの機械学習モデルに対するハイパーパラメータを含み、前記特定のタイプの機械学習モデルは、分類出力又は数値出力を生成するように構成される、請求項1に記載のコンピュータ実装された方法。
- 他の試料が大きな分子を含む、請求項1に記載のコンピュータ実装された方法。
- 他の試料が小さな分子を含む、請求項1に記載のコンピュータ実装された方法。
- 他の試料の予測特性は、
一又は複数の小さな分子の分析物の濃度、
溶媒、
一又は複数のタンパク質変異体の発生率、
タンパク質の高次構造、又は、
大きな分子の不純物
を特徴とする、請求項1に記載のコンピュータ実装された方法。 - 前記処理パイプラインは、ベースラインを低減又は除去するために非対称最小二乗法を実行することを含み、前記特定の候補解のための前記特質のセットが、前記非対称最小二乗法のための少なくとも1つのパラメータを含む、請求項1に記載のコンピュータ実装された方法。
- 前記処理パイプラインは、ベースラインを低減又は除去するために平滑化技術を実行することを含み、前記特定の候補解のための前記特質のセットが、前記平滑化技術のための少なくとも1つのパラメータを含む、請求項1に記載のコンピュータ実装された方法。
- 前記複数の試料のうちの少なくとも1つの試料について、前記複数のデータ要素は、前記試料に対応する複数のデータ要素を含み、前記複数のデータ要素は前記試料を使用して生成された異なる複製スペクトルを含む、請求項1に記載のコンピュータ実装された方法。
- 前記複数のデータ要素を前記複数のデータ要素の訓練サブセットと前記複数のデータ要素の試験サブセットとに分割することをさらに含み、
前記予測試料特性が決定される前記複数のデータ要素のうちの少なくともいくつかが、前記複数のデータ要素の前記試験サブセットとして定義され、
候補解の前記母集団をフィルタ処理することは、
前記複数のデータ要素の前記試験サブセットを使用して、一又は複数のパラメータを学習することをさらに含む、請求項1に記載のコンピュータ実装された方法。 - 前記複数の試料の各々は、同一の標的化学構造に対応し、また、同一の標的製剤に対応し、前記複数の試料は、複数のロット特異的サブセットを含み、前記複数のロット特異的サブセットの各々は、個々のロット間に製造された複数の試料を含み、前記複数のデータ要素を前記分割することは、
前記個々のロットを前記訓練サブセットと前記試験サブセットとに分割することと、
前記ロットの分割に基づいて、前記複数のデータ要素を分割することと、
を含む、請求項12に記載のコンピュータ実装された方法。 - 他の試料に対応する他のスペクトルへアクセスすることと、
前記他のスペクトルを前記処理パイプラインで処理することによって前記他の試料の予測特性を生成することと、
品質管理条件が満たされているかどうかを前記予測特性に基づいて決定することと、
前記品質管理条件が満たされている場合には、投与すべき前記他の試料を対象に配布することと、
前記品質管理条件が満たされていない場合には、対象に投与するための前記他の試料の配布を禁止することと、
をさらに含む、請求項1に記載のコンピュータ実装された方法。 - 前記品質管理条件が満たされていない場合には、前記他の試料の製造に関連する一又は複数のパラメータを動的に調整することをさらに含む、請求項14に記載のコンピュータ実装された方法。。
- 予測試料の予測特性を生成する際に使用するため、前記スペクトルの強度のセットから一又は複数の強度を選択する特徴選択処理を実行することをさらに含み、前記特徴選択処理は、前記処理パイプラインによって、前記予測特性の生成の前に実行される、請求項1に記載のコンピュータ実装された方法。
- 前記特徴選択処理は、
前記スペクトルから、波数のセットを識別することであって、各波数が強度値に関連している、波数のセットを識別することと、
回帰分析を使用して、前記波数のセットの各波数に対するスコアを定義することと、
前記波数のセットの各波数の前記スコアにより、前記波数のセットをソートすることと、
一又は複数の特徴選択反復を実行することとを含み、各特徴選択反復は、
最も低いスコアを有する前記スペクトルの一又は複数の波数を除去することによって前記波数のセットのサブセットを生成すること、及び、
機械学習モデル上の前記波数のセットの前記サブセットの交差検証に基づくモデル検証スコアを生成すること、
前記一又は複数の特徴選択反復から、閾値に最も近いモデル検証スコアを含む前記一又は複数の特徴選択反復のうちの特定の特徴選択反復を選択すること、及び、
前記処理パイプラインによって前記予測特性を生成する際に使用するため、前記特定の特徴選択反復の前記波数のセットの前記サブセットに対応する強度を選択すること、
を含む、請求項16に記載のコンピュータ実装された方法。 - 他の試料に対応する他のスペクトルへアクセスすることと、
前記他のスペクトルを前記処理パイプラインに従って処理することによって前記他の試料の予測特性を生成することと、
前記予測特性を受信することと、
品質管理条件が満たされているかどうかを前記予測特性に基づいて決定することと、
前記品質管理条件が満たされている場合には、追加の試料を製造するように構成された一又は複数の製造工程を開始又は完了すること、及び、
前記品質管理条件が満たされていない場合には、前記一又は製造工程を終了又は変更することと、
をさらに含む、請求項1に記載のコンピュータ実装された方法。 - コンピュータ実装された方法であって、前記方法は、
クライアント装置において、特定の試料とエネルギー源からのエネルギーとの間の相互作用に基づいて生成される特定のスペクトルへアクセスすることと、
処理パイプラインを使用して前記特定のスペクトルを処理することによって生成される前記特定の試料の予測特性に対する要求を、前記クライアント装置からリモートコンピューティングシステムに送信することと、
を含み、前記処理パイプラインは、
複数の試料に対応する複数のデータ要素を含むデータセットにアクセスすることであって、前記特定の試料が前記複数の試料の各々と異なり、前記データ要素の各々が、
前記複数の試料のうちの1つの試料に関連するスペクトル、及び、
前記試料の既知の特性
を含む、データセットにアクセスすることと、
候補解の母集団を初期化することであって、前記候補解の各々は、
特定のタイプの前処理が実行されるかどうか、
実行される前処理のパラメータ、
どのタイプの機械学習モデルが使用されるか、及び/又は、
機械学習モデルハイパーパラメータ
を含む、特質のセットによって定義される、候補解の母集団を初期化することと、
候補解の前記母集団をフィルタ処理することであって、
前記候補解の各々ついて、及び複数のデータ要素の各々について、前記データ要素の前記スペクトルを前記特質のセットで処理することにより、予測試料特性を決定すること、
候補解の前記母集団の各々について、前記予測試料特性及び前記データ要素の前記既知の特性に基づいて、適応度基準を生成すること、及び、
前記適応度基準に基づいて、候補解の前記母集団の不完全なサブセットを選択すること
によって、候補解の前記母集団をフィルタ処理することと、
一又は複数の追加世代反復を実行することであって、
候補解の前記母集団の前記不完全なサブセットと一又は複数の遺伝的演算子を使用して特定された解の次世代母集団を含むように、候補解の前記母集団を更新すること、及び、
候補解の更新された前記母集団を使用して候補解の前記母集団の前記フィルタ処理を反復すること、
によって、一又は複数の追加世代反復を実行することと、
前記追加世代反復の最後の世代反復の間に選択された候補解の前記母集団の前記不完全なサブセットにおける、特定の候補解の前記特質のセットに基づいて処理パイプラインを生成することと
によって、定義されており、
また、前記方法は、
前記クライアント装置において、前記リモートコンピューティングシステムから、前記特定の試料の前記予測特性を受信すること、
を含む、コンピュータ実装された方法。 - 前記エネルギー源からの前記エネルギーの放出を開始するために分光法を使用して、前記特定のスペクトルを収集することをさらに含む、請求項19に記載のコンピュータ実装された方法。
- 一又は複数のデータプロセッサと、
前記一又は複数のデータプロセッサ上で実行される場合、前記一又は複数のデータプロセッサに、本明細書に開示されている一又は複数の方法の一部又は全部を実行させる、命令を含む非一時的なコンピュータ可読記憶媒体と、
を備えるシステム。 - 一又は複数のデータプロセッサに、本明細書に開示されている一又は複数の方法の一部又は全部を実行させるように構成された命令を含む、非一時的なマシン可読記憶媒体の中で有形に具現化されたコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063008196P | 2020-04-10 | 2020-04-10 | |
US63/008,196 | 2020-04-10 | ||
PCT/US2021/025921 WO2021207160A1 (en) | 2020-04-10 | 2021-04-06 | Use of genetic algorithms to determine a model to identity sample properties based on raman spectra |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023521757A true JP2023521757A (ja) | 2023-05-25 |
Family
ID=75690670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022561407A Pending JP2023521757A (ja) | 2020-04-10 | 2021-04-06 | ラマンスペクトルに基づいて試料の特質を識別するためのモデルを決定するための遺伝的アルゴリズムの使用 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230009725A1 (ja) |
EP (1) | EP4133494A1 (ja) |
JP (1) | JP2023521757A (ja) |
KR (1) | KR20230006814A (ja) |
CN (1) | CN115398552A (ja) |
WO (1) | WO2021207160A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114429797A (zh) * | 2021-12-29 | 2022-05-03 | 北京百度网讯科技有限公司 | 分子集合生成方法及装置、终端和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299501B (zh) * | 2018-08-08 | 2022-03-11 | 浙江大学 | 一种基于工作流的振动光谱分析模型优化方法 |
-
2021
- 2021-04-06 CN CN202180027383.XA patent/CN115398552A/zh active Pending
- 2021-04-06 WO PCT/US2021/025921 patent/WO2021207160A1/en unknown
- 2021-04-06 EP EP21722027.6A patent/EP4133494A1/en active Pending
- 2021-04-06 KR KR1020227035798A patent/KR20230006814A/ko unknown
- 2021-04-06 JP JP2022561407A patent/JP2023521757A/ja active Pending
-
2022
- 2022-09-19 US US17/947,820 patent/US20230009725A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20230006814A (ko) | 2023-01-11 |
WO2021207160A1 (en) | 2021-10-14 |
EP4133494A1 (en) | 2023-02-15 |
CN115398552A (zh) | 2022-11-25 |
US20230009725A1 (en) | 2023-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7238056B2 (ja) | 誤検知を減少させた分光学的分類のための識別 | |
Yao et al. | Nondestructive detection for egg freshness grade based on hyperspectral imaging technology | |
Roussel et al. | Multivariate data analysis (chemometrics) | |
CN110687072B (zh) | 一种基于光谱相似度的校正集和验证集的选择及建模方法 | |
US20230385383A1 (en) | Reduced false positive identification for spectroscopic quantification | |
US11550823B2 (en) | Preprocessing for a classification algorithm | |
US20230273121A1 (en) | Outlier detection for spectroscopic classification | |
Anzanello et al. | A review of recent variable selection methods in industrial and chemometrics applications | |
Möller et al. | Random forests for functional covariates | |
CN114187979A (zh) | 数据处理、模型训练、分子预测和筛选方法及其装置 | |
US20230009725A1 (en) | Use of genetic algorithms to determine a model to identity sample properties based on raman spectra | |
Wang et al. | SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging | |
Huang et al. | Robust and accurate classification of mutton adulteration under food additives effect based on multi-part depth fusion features and optimized support vector machine | |
Feng et al. | A Novel Genetic Algorithm‐Based Optimization Framework for the Improvement of Near‐Infrared Quantitative Calibration Models | |
US11610112B2 (en) | Method for the computer-aided configuration of a data-driven model on the basis of training data | |
CN114062306B (zh) | 一种近红外光谱数据分段预处理方法 | |
Perez-Marin et al. | Advanced nonlinear approaches for predicting the ingredient composition in compound feedingstuffs by near-infrared reflection spectroscopy | |
Negoiţă et al. | Logistic regression classification model identifying drugs of abuse based on their ATR-FTIR spectra: Case study on LASSO and Ridge regularization methods | |
Sinha et al. | A study of feature selection and extraction algorithms for cancer subtype prediction | |
Chen et al. | Supervised clustering of variables | |
CN115952402B (zh) | 基于二进制蜻蜓算法的近红外模型传递标样集挑选方法 | |
Yun | Wavelength Selection Methods | |
Temmerud | Quality Assurance of Medical Mass Spectrometry with Artificial Intelligence | |
CN113674814B (zh) | 一种光谱定量分析模型的构建方法及装置 | |
Huang et al. | Rapid identification of Rice varieties by grain shape and yield-related features combined with multi-class SVM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240405 |