JP2022536343A

JP2022536343A - 機械学習を用いたタンパク質同定技術および関連するシステムと方法

Info

Publication number: JP2022536343A
Application number: JP2021573337A
Authority: JP
Inventors: マイヤー、マイケル; リード、ブライアン; チャン、ジーズオ; ラシード、サブリナ; ロバートパリー、ブラッドリー
Original assignee: Quantum Si Inc
Current assignee: Quantum Si Inc
Priority date: 2019-06-12
Filing date: 2020-06-12
Publication date: 2022-08-15
Also published as: MX2021015347A; CN115989545A; BR112021024915A2; WO2020252345A1; WO2020252345A9; KR20220019778A; US20200395099A1; CA3142888A1; AU2020290510A1; EP3966824A1

Abstract

本明細書では、タンパク質配列決定装置によって収集されたデータを用いてポリペプチドを同定するためのシステムおよび技術について説明する。タンパク質配列決定装置は、試薬がポリペプチドのアミノ酸との結合相互作用中の発光標識による検出された発光から得られたデータを収集してもよい。発光は、発光標識に励起エネルギーが適用された結果であってもよい。装置は、ポリペプチドを同定するべく使用され得る出力を得るべく、学習済み機械学習モデルへの入力としてデータを提供してもよい。出力は、ポリペプチド内の複数の位置のそれぞれについて、その位置に１つまたは複数のそれぞれのアミノ酸が存在するという１つまたは複数の尤度を示してもよい。出力は、タンパク質を同定するアミノ酸配列に照合されてもよい。

Description

本開示は、一般に、タンパク質の同定（ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）に関する。

プロテオミクスは、生物学的システムの研究において、ゲノミクスおよびトランスクリプトミクスを補完する重要かつ必要なものとして浮上している。個々の生物のプロテオミクス分析は、細胞処理および応答パターンへの洞察を提供し、それは改善された診断および治療戦略につながる。

米国特許出願公開第２０１７／２７６６８６号明細書

しかし、タンパク質の構造、組成、および修飾は複雑であるので、タンパク質の同定には課題がある。

本明細書には、タンパク質配列決定（ｐｒｏｔｅｉｎｓｅｑｕｅｎｃｉｎｇ。シークエンシング）装置によって収集されたデータを使用してタンパク質を同定するためのシステムおよび技術が記載されている。タンパク質配列決定装置は、タンパク質のアミノ酸との試薬の結合相互作用に関するデータを収集してもよい。例えば、データは、発光標識（ｌｕｍｉｎｅｓｃｅｎｔｌａｂｅｌ。発光ラベル）への励起エネルギーの適用から生じる発光から検出されたデータを備えてもよい。装置は、ポリペプチドの同定に使用できる出力を得るべく、学習済み機械学習モデルへの入力としてデータを提供してもよい。出力は、ポリペプチド内の複数の位置（ｌｏｃａｔｉｏｎ。場所）のそれぞれについて、その位置に１つまたは複数のそれぞれのアミノ酸が存在するという１つまたは複数の尤度（ｌｉｋｅｌｉｈｏｏｄ。可能性）を示してもよい。出力は、タンパク質を同定するアミノ酸配列に照合（ｍａｔｃｈｅｄ）されてもよい。

いくつかの側面によれば、ポリペプチドを同定するための方法が提供され、この方法は、少なくとも１つのコンピュータハードウェアプロセッサを使用して、１つまたは複数の試薬とポリペプチドのアミノ酸との結合相互作用に関するデータにアクセスする工程と、データを学習済み機械学習モデルへの入力として提供して、ポリペプチド内の複数の位置のそれぞれについて、１つまたは複数のそれぞれのアミノ酸がその位置に存在するという１つまたは複数の尤度を示す出力を得る工程と、学習済み機械学習モデルから得られた出力に基づきポリペプチドを同定する工程とを備えている。

いくつかの態様によれば、ポリペプチドを同定するためのシステムが提供され、このシステムは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサによって実行されたときに、１つまたは複数の試薬とポリペプチドのアミノ酸との結合相互作用に関するデータにアクセスする工程を備えている方法を、少なくとも１つのプロセッサに実行させる命令を記憶した少なくとも１つの非一時的なコンピュータ可読（読取可能な）記憶媒体とを備える。学習済み機械学習モデルへの入力としてデータを提供して、ポリペプチド内の複数の位置のそれぞれについて、１つまたは複数のそれぞれのアミノ酸がその位置に存在するという１つまたは複数の尤度を示す出力を得る工程と、学習済み機械学習モデルから得られた出力に基づきポリペプチドを同定する工程とを備えている。

いくつかの側面によれば、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに方法を実行させる命令を格納した少なくとも１つの非一時的なコンピュータ可読記憶媒体が提供され、この方法は、１つまたは複数の試薬とポリペプチドのアミノ酸との結合相互作用に関するデータにアクセスする工程を備えている。学習済み機械学習モデルへの入力としてデータを提供して、ポリペプチド内の複数の位置のそれぞれについて、１つまたは複数のそれぞれのアミノ酸がその位置に存在するという１つまたは複数の尤度を示す出力を得る工程と、学習済み機械学習モデルから得られた出力に基づきポリペプチドを同定する工程と、を備えている。

いくつかの側面によれば、ポリペプチドのアミノ酸を同定するための機械学習モデルを学習する方法が提供され、この方法は、少なくとも１つのコンピュータハードウェアプロセッサを使用して、１つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスすることを実行する工程と、学習データを使用して機械学習モデルを学習して、ポリペプチドのアミノ酸を同定するための学習済み機械学習モデルを得る工程とを備えている。

いくつかの態様によれば、ポリペプチドのアミノ酸を同定するための機械学習モデルを学習するためのシステムが提供され、このシステムは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサによって実行されたときに、１つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスする工程と、学習データを使用して機械学習モデルを学習してポリペプチドのアミノ酸を同定するための学習済み機械学習モデルを得る工程とを、少なくとも１つのプロセッサに実行させる命令を記憶した少なくとも１つの非一時的なコンピュータ可読記憶媒体とを備える。

いくつかの態様によれば、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに、１つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスする工程と、学習データを用いて機械学習モデルを学習して、ポリペプチドのアミノ酸を同定するための学習済み機械学習モデルを得る工程とを実行させる命令を格納した少なくとも１つの非一時的なコンピュータ可読記憶媒体が提供される。

上述の装置および方法の実施形態は、上述または以下にさらに詳細に記載された側面、特徴、および行為の任意の適切な組み合わせで実施することができる。本教示のこれらおよび他の側面、実施形態、および特徴は、添付の図面と併せて以下の説明からより完全に理解することができる。

本願発明の様々な側面および実施形態について、以下の図を参照して説明する。図は、必ずしも縮尺通りに描かれていないことを理解されたい。複数の図に登場する項目は、それらが登場するすべての図において同じ参照番号で示される。わかりやすくするべく、すべての構成要素がすべての図面にラベル付けされているわけではない。

本明細書に記載の技術のいくつかの実施形態に従って、１種類（タイプ）以上のアミノ酸に選択的結合（ｓｅｌｅｃｔｉｖｅｌｙｂｉｎｄ）する標識酵素および標識アプタマーを備えている、標識アフィニティ試薬（ｌａｂｅｌｅｄａｆｆｉｎｉｔｙｒｅａｇｅｎｔ。標識された親和性試薬）の構成例を示す。本明細書に記載の技術のいくつかの実施形態に従った、標識アフィニティ試薬を用いたポリペプチド配列決定の分解ベースの処理を示す。本明細書に記載の技術のいくつかの実施形態に従った、標識ポリペプチドを用いたポリペプチド配列決定の処理を示す図。本明細書に記載の技術のいくつかの実施形態に従って、発光標識で標識アフィニティ試薬同士間の会合（ａｓｓｏｃｉａｔｉｏｎ）イベントからの発光によって生成される一連のシグナルパルスを検出することによるポリペプチド配列決定を示す図。本明細書に記載の技術のいくつかの実施形態に従って、発光標識で標識アフィニティ試薬同士間の会合イベントからの発光によって生成される一連のシグナルパルスを検出することによるポリペプチド配列決定を示す図。本明細書に記載の技術のいくつかの実施形態に従った、反復的な末端アミノ酸検出および切断（ｃｌｅａｖａｇｅ。開裂）によるポリペプチド配列決定の例を示す図。本明細書に記載の技術のいくつかの実施形態に従って、それぞれが異なるタイプの末端アミノ酸に選択的結合して切断する標識エキソペプチダーゼを用いて、リアルタイムでポリペプチド配列決定を行う例を示す。本明細書に記載の技術のいくつかの実施形態に従って、標識アフィニティ試薬および標識非特異的なエキソペプチダーゼとの末端アミノ酸の結合相互作用を評価することで、リアルタイムでポリペプチド配列を決定する例を示す。本明細書に記載された技術のいくつかの実施形態に従って、末端および内部アミノ酸と、標識アフィニティ試薬および標識非特異的エキソペプチダーゼとの結合相互作用を評価することで、リアルタイムでポリペプチド配列を決定する例を示す図。本明細書に記載された技術のいくつかの実施形態に従って、本明細書に記載された技術の側面が実装され得る例示的なシステムを示す。本明細書に記載の技術のいくつかの実施形態に従って、図５Ａに示すタンパク質配列決定装置５０２の構成要素を示す。本明細書に記載の技術のいくつかの実施形態に従って、図５Ａに示すタンパク質配列決定装置５０２の構成要素を示す。本明細書に記載の技術のいくつかの実施形態に従って、アミノ酸を同定するための機械学習モデルを学習するための例示的な処理。本明細書に記載の技術のいくつかの実施形態に従って、ポリペプチドを同定するべく図６Ａの処理から得られた機械学習モデルを使用するための例示的な処理。本明細書に記載された技術のいくつかの実施形態に従って、機械学習モデルに入力を提供するための例示的な処理。本明細書に記載の技術のいくつかの実施形態に従って、ポリペプチドを同定する際に使用するための機械学習モデルから得られる出力の例である。本明細書に記載の技術のいくつかの実施形態に従って、アミノ酸との試薬の結合相互作用から得られる可能性のある例示的なデータである。本明細書に記載の技術のいくつかの実施形態に従って、図９Ａのデータを配置するための例示的なデータ構造を示す図。本明細書に記載の技術のいくつかの実施形態に従って、機械学習モデルのクラスタを同定するためのクラスタ化されたデータ点のプロットを示す。本明細書に記載の技術のいくつかの実施形態に従って、図１０Ａのクラスタ化されたデータ点から同定されたクラスタのプロットを示す。本明細書に記載されている技術のいくつかの実施形態に従って、図１０Ａのクラスタのそれぞれに対する例示的なガウス混合モデル（ＧＭＭ）のプロットを示している。本明細書に記載された技術のいくつかの実施形態に従って、アミノ酸を同定するための例示的な畳み込みニューラルネットワーク（ＣＮＮ）の構造である。本明細書に記載の技術のいくつかの実施形態に従った、アミノ酸を同定するための例示的なコネクショニスト時間分類（ＣＴＣ）適合モデルのブロック図。本明細書に記載の技術のいくつかの実施形態を実施するべく使用することができる例示的なコンピューティング装置のブロック図。本明細書に記載の技術のいくつかの実施形態に従って、シグナルトレースのウェーブレット係数を計算することで関心領域（ＲＯＩ）を同定するための例示的なアプローチを示す図。本明細書に記載の技術のいくつかの実施形態に従って、シグナルトレースのウェーブレット係数を計算することで関心領域（ＲＯＩ）を同定するための例示的なアプローチを示す図。本明細書に記載の技術のいくつかの実施形態に従って、シグナルトレースのウェーブレット係数を計算することで関心領域（ＲＯＩ）を同定するための例示的なアプローチを示す図。本明細書に記載の技術のいくつかの実施形態に従って、上述のウェーブレットアプローチを使用して関心領域ＲＯＩを同定する方法のフローチャート。本明細書に記載の技術のいくつかの実施形態に従って、既知のアフィニティ試薬から生成されたデータを、パラメータ化された分布にフィッティング（適合）させるための例示的なアプローチを示す図。本明細書に記載の技術のいくつかの実施形態に従って、既知のアフィニティ試薬から生成されたデータを、パラメータ化された分布にフィッティングさせるための例示的なアプローチを示す図。本明細書に記載された技術のいくつかの実施形態に従って、パルス持続時間値を３つの指数関数の和にフィッティングさせるアプローチを示しており、フィッティングされた各分布は共通の指数関数を備えている。本明細書に記載の技術のいくつかの実施形態に従って、サンプルウェルからの発光を測定することで得られるデータを表す多数のシグナルトレースを描いている。本明細書に記載の技術のいくつかの実施形態に従った、３つのアミノ酸についてのシグナルトレースに基づきガウス混合モデルＧＭＭベースの機械学習モデルを学習する処理を示す図。本明細書に記載の技術のいくつかの実施形態に従った、３つのアミノ酸についてのシグナルトレースに基づきガウス混合モデルＧＭＭベースの機械学習モデルを学習する処理を示す図。本明細書に記載の技術のいくつかの実施形態に従った、３つのアミノ酸についてのシグナルトレースに基づきガウス混合モデルＧＭＭベースの機械学習モデルを学習する処理を示す図。本明細書に記載の技術のいくつかの実施形態に従った、３つのアミノ酸についてのシグナルトレースに基づきガウス混合モデルＧＭＭベースの機械学習モデルを学習する処理を示す図。本明細書に記載の技術のいくつかの実施形態に従った、３つのアミノ酸についてのシグナルトレースに基づきガウス混合モデルＧＭＭベースの機械学習モデルを学習する処理を示す図。本明細書に記載の技術のいくつかの実施形態に従った、アミノ酸を同定するための２段階のアプローチを描いている。本明細書に記載の技術のいくつかの実施形態に従った、アミノ酸を同定するための２段階のアプローチを描いている。本明細書に記載の技術のいくつかの実施形態に従った、アミノ酸を同定するための２段階のアプローチを描いている。本明細書に記載の技術のいくつかの実施形態に従った、アミノ酸を同定するための２段階のアプローチを描いている。

本発明者らは、機械学習技術を用いてタンパク質を同定するタンパク質同定システムを開発した。いくつかの実施形態では、タンパク質同定システムは以下によって動作する。（１）リアルタイムタンパク質配列決定装置を使用して、タンパク質のポリペプチドに関するデータを収集し、（２）機械学習モデルおよび収集されたデータを使用して、特定のアミノ酸がそれぞれの位置でポリペプチドの一部である確率を同定し、（３）同定された確率を、「確率的指紋」（フィンガープリント）として使用して、タンパク質を同定する。いくつかの実施形態では、アミノ酸に選択的結合する試薬を用いて、タンパク質のポリペプチドに関するデータを得ることができる。一例として、試薬および／またはアミノ酸は、励起エネルギーの印加に応答して発光する発光標識（例えば、発光分子）で標識されていてもよい。この例では、タンパク質配列決定装置は、サンプル中のアミノ酸との試薬の結合相互作用中、タンパク質（例えば、ポリペプチド）のサンプルに励起エネルギーを印加してもよい。いくつかの実施形態では、配列決定装置内の１つまたは複数のセンサ（例えば、光検出器、電気センサ、および／または任意の他の適切なタイプのセンサ）が、結合相互作用を検出してもよい。次いで、検出された発光から収集および／または導出されたデータが、機械学習モデルに提供されてもよい。

本発明者らは、従来のタンパク質同定システムの中には、ポリペプチドを同定するべく、ポリペプチド中の各アミノ酸の同定を必要とするものがあることを認識した。しかし、ポリペプチド内の各アミノ酸を正確に同定することは困難である。例えば、第１標識試薬が第１アミノ酸に選択的結合する相互作用から収集されたデータは、第２標識試薬が第２アミノ酸に選択的結合する相互作用から収集されたデータとは、２つのアミノ酸を区別するのに十分な違いがない場合がある。本発明者らは、従来のタンパク質同定システムとは異なり、タンパク質中の各アミノ酸の同定を必要としない（妨げるものではない）タンパク質同定システムを開発することで、この問題を解決した。

本明細書で言及されるように、ポリペプチドは、タンパク質のポリペプチド、タンパク質の改変版、変異タンパク質、融合タンパク質、またはその断片を含み得る。いくつかの実施形態は、特定のタイプのタンパク質に限定されない。ポリペプチドは、１つまたは複数のペプチド（「ペプチド断片」とも呼ばれる）を備えていてもよい。

本明細書に記載されているいくつかの実施形態は、本発明者らが従来のタンパク質同定システムについて認識していた上述の問題点のすべてに対処する。しかし、本明細書に記載されたすべての実施形態が、これらの問題のすべてに対処するわけではないことを理解すべきである。また、本明細書に記載の技術の実施形態は、従来のタンパク質同定システムの上述の問題に対処する以外の目的で使用することができることを理解すべきである。

いくつかの実施形態では、タンパク質同定システムは、１つまたは複数の試薬とポリペプチドのアミノ酸との結合相互作用（例えば、検出された発光、電気シグナル、および／または任意の他のタイプのシグナル）のデータに（例えば、配列決定装置のセンサ部によって）アクセスしてもよい。タンパク質同定システムは、アクセスされたデータを（前処理ありまたは前処理なしで）機械学習モデルへの入力として提供し、それぞれの出力を得てもよい。出力は、ポリペプチド内の複数の位置のそれぞれについて、１つまたは複数のそれぞれのアミノ酸がその位置に存在するという１つまたは複数の尤度を示してもよい。いくつかの実施形態では、１つまたは複数のそれぞれのアミノ酸がその位置に存在するという１つまたは複数の尤度は、第１アミノ酸がその位置に存在するという第１尤度、および第２アミノ酸がその位置に存在するという第２尤度を備えている。複数の位置は、ポリペプチド内の相対的位置（例えば、他の出力との相対的位置）および／またはポリペプチド内の絶対的な位置を備えてもよい。出力は、例えば、複数の位置のそれぞれについて、その位置に異なる種類（タイプ）のアミノ酸が存在するという確率を同定してもよい。タンパク質同定システムは、機械学習モデルの出力を使用して、ポリペプチドを同定してもよい。

いくつかの実施形態では、タンパク質同定システムは、ポリペプチドが対応するタンパク質を同定することで、ポリペプチドを同定するように構成されてもよい。例えば、タンパク質同定システムは、ポリペプチドを、予め決定されたタンパク質のセット（例えば、既知のタンパク質のデータベースを保存したもの）からのタンパク質に照合（マッチング）してもよい。いくつかの実施形態では、タンパク質同定システムは、得られた出力を、それぞれのタンパク質に関連する複数のアミノ酸配列のうちの１つに照合することで、ポリペプチドが対応するタンパク質を同定するように構成されてもよい。一例として、タンパク質同定システムは、ＵｎｉＰｒｏｔデータベースおよび／またはＨｕｍａｎＰｒｏｔｅｏｍｅＰｒｏｊｅｃｔ（ＨＰＰ）データベースに格納されているアミノ酸配列に出力を照合してもよい。いくつかの実施形態では、タンパク質同定システムは、（１）機械学習モデルから得られた出力に基づき隠れマルコフモデル（ＨＭＭ）を生成し、（２）隠れマルコフモデルＨＭＭをアミノ酸配列に照合することで、出力をアミノ酸配列に照合するように構成されてもよい。一例として、タンパク質同定システムは、ＵｎｉＰｒｏｔデータベースから、隠れマルコフモデルＨＭＭが最も密接に一致するアミノ酸配列を、一致するアミノ酸配列として同定（特定）してもよい。一致したアミノ酸配列は、ポリペプチドが部分を形成するタンパク質を同定してもよい。いくつかの実施形態では、タンパク質同定システムは、機械学習モデルから得られた出力に基づき、得られた出力をデータベース内の複数のアミノ酸配列に照合することで、ポリペプチドを同定するように構成されてもよい。例えば、タンパク質同定システムは、機械学習モデルから得られた出力が、データベース内の第１アミノ酸配列および第２アミノ酸配列に一致すると判定してもよい。いくつかの実施形態では、タンパク質同定システムは、ポリペプチドがデータベース内のそれぞれの１つまたは複数のアミノ酸配列に整列する尤度を同定することで、学習済み機械学習モデルから得られた出力に基づきポリペプチドを同定するように構成されてもよい。例えば、タンパク質同定システムは、ポリペプチドが第１アミノ酸配列に整列する確率が５０％であり、ポリペプチドが第２アミノ酸配列に整列する確率が５０％であると判定してもよい。

いくつかの実施形態では、タンパク質同定システムは、ポリペプチドが一部である可能性がある１つまたは複数のタンパク質を排除することで、学習済み機械学習モデルから得られた出力に基づきポリペプチドを同定するように構成されてもよい。タンパク質同定システムは、機械学習モデルから得られた出力を用いて、ポリペプチドが１つまたは複数のタンパク質の一部であることはあり得ないと判定し、その結果、候補タンパク質のセットからタンパク質（複数可）を排除するように構成されてもよい。例えば、タンパク質同定システムは、以下のようにしてもよい。（１）機械学習モデルから得られた出力を使用して、ポリペプチドが１つまたは複数のアミノ酸のセットを備えていることを決定し、（２）データベース（例えば、Ｕｎｉｐｒｏｔおよび／またはＨＰＰ）から、アミノ酸のセットを含まないアミノ酸配列を排除する、ことができる。

いくつかの実施形態では、タンパク質同定システムは、ポリペプチドの１つまたは複数の部分（例えば、ペプチド）の配列を得るべく、配列決定デノボ（ｄｅｎｏｖｏ）によってポリペプチドを同定するように構成されてもよい。タンパク質同定システムは、機械学習モデルの出力を使用して、ポリペプチドのペプチド配列を得るように構成されてもよい。いくつかの実施形態では、タンパク質同定システムは、機械学習モデルから得られた出力に基づき、ポリペプチドのアミノ酸配列の一部または全部を決定することで、ポリペプチドを同定するように構成されてもよい。いくつかの例では、タンパク質同定システムは、決定された配列の１つまたは複数の位置でアミノ酸を同定しないことがある。例えば、タンパク質同定システムは、アミノ酸配列中の１つまたは複数の位置のアミノ酸が同定されないポリペプチドのアミノ酸配列の一部または全部を決定してもよい。いくつかの実施形態では、タンパク質同定システムは、アミノ酸配列の各位置またはその一部のアミノ酸を同定してもよい。いくつかの実施形態では、タンパク質同定システムは、ポリペプチドのアミノ酸配列の複数の部分を決定することで、機械学習モデルから得られた出力に基づきポリペプチドを同定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システムは、ポリペプチドのアミノ酸配列の非連続部分を決定してもよい。例えば、タンパク質同定システムは、アミノ酸配列の第１部分と、第１部分がアミノ酸配列中の少なくとも１つのアミノ酸によって第２部分から分離されている、アミノ酸配列の第２部分とを決定してもよい。いくつかの例では、タンパク質同定システムは、ポリペプチドのアミノ酸配列の連続した部分を決定してもよい。例えば、タンパク質同定システムは、アミノ酸配列の第１部分と、第１部分と第２部分が連続しているアミノ酸配列の第２部分とを決定してもよい。いくつかの例では、タンパク質同定システムは、ポリペプチドのアミノ酸配列の連続した部分と連続していない部分の両方を決定してもよい。例えば、タンパク質同定システムは、以下のようなアミノ酸配列の３つの部分を決定してもよい。（１）第１および第２部分が連続した部分であり、（２）第３部分が第１および第２部分からアミノ酸配列中の少なくとも１つのアミノ酸によって分離されている。

いくつかの実施形態では、タンパク質同定システムは、ポリペプチドに発生するアミノ酸配列の自然なパターンを同定することで、ペプチドの配列を得るように構成されてもよい。例えば、タンパク質同定システムは、同定されたアミノ酸配列が、（例えば、データベース内の）アミノ酸配列の自然なパターンに適合することを決定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システムは、アミノ酸の学習済みパターンを同定することで、ペプチドの配列を得るように構成されてもよい。例えば、タンパク質同定システムは、１つまたは複数のタンパク質データベース（例えば、Ｕｎｉｐｒｏｔデータベースおよび／またはＨＰＰデータベース）からアミノ酸のパターンを学習してもよい。また、タンパク質同定システムは、どのペプチドのアミノ酸配列パターンが発生しやすいかを学習し、その情報を用いてペプチドの配列を取得するように構成されていてもよい。

いくつかの実施形態では、機械学習モデルは、ポリペプチド内の複数の位置のそれぞれについて、複数のアミノ酸のそれぞれについて、そのアミノ酸がその位置に存在するという確率を示す確率分布を出力するように構成されてもよい。一例として、機械学習モデルは、ポリペプチド内の１５個の位置のそれぞれについて、２０種類のアミノ酸のそれぞれがポリペプチド内の位置に存在するという確率を出力してもよい。いくつかの実施形態では、機械学習モデルが出力を生成するように構成されているポリペプチド内の位置は、ポリペプチドのアミノ酸配列における実際の位置に必ずしも対応していなくてもよい。一例として、機械学習モデルが出力を生成する第１位置は、ポリペプチドのアミノ酸配列における第２位置に対応してもよく、機械学習モデルが出力を生成する第２位置は、ポリペプチドのアミノ酸配列における第５アミノ酸の位置に対応してもよい。

いくつかの実施形態では、試薬（複数可）とポリペプチドのアミノ酸との結合相互作用を記述するデータは、複数の光強度値（例えば、経時的に測定された値）を備えてもよい。そのような経時的に測定された光強度値を示すデータは、本明細書では「シグナルトレース」と呼ばれ、シグナルトレースの例示的な例は、以下でさらに説明される。場合によっては、試薬とポリペプチドのアミノ酸との結合相互作用を記述するデータは、１つまたは複数の光パルス持続時間、パルス幅、パルス強度、パルス同士間（インターパルス）持続時間、またはそれらの組み合わせなど、シグナルトレースの特性を記述する値を備えてもよい。例えば、パルス持続時間値は、試薬とアミノ酸との結合相互作用について検出されたシグナルパルスの持続時間を示すことができ、一方、パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示すことができる。

いくつかの実施形態では、タンパク質同定システムは、以下のように１つまたは複数のタンパク質および／またはポリペプチドを同定するように構成されてもよい。最初に、試薬（複数可）とタンパク質／ポリペプチドのアミノ酸との結合相互作用を記述するデータを、以下のようにして、学習済み機械学習モデルに入力してもよい。（１）データの複数の部分を同定し、各部分は結合相互作用のそれぞれの１つに対応し、（２）複数の部分のそれぞれを学習済み機械学習モデルへの入力として提供し、その部分に対応する出力を得る。データの各部分に対応する機械学習モデルによって生成される出力は、１つまたは複数のそれぞれのアミノ酸がポリペプチドのそれぞれの位置に存在するという１つまたは複数の尤度を示してもよい。出力は、場合によっては、データの単一の部分に基づき、ポリペプチド内の単一の位置に対する尤度を示すことがある。他のケースでは、出力は、データの単一の部分がポリペプチド内の２つ以上の位置に関連付けられていることを示す場合がある。これは、その部分によって表される連続した同一のアミノ酸が存在するため（例えば、ホモポリマー）、または、その部分によって表される複数の区別できないアミノ酸が存在するという可能性があるためである。後者の場合、出力は、ポリペプチド内の２つ以上の位置に存在するアミノ酸の特定の数および／または同一性の確率的な不確実性から構成されていてもよい。

いくつかの実施形態では、タンパク質同定システムは、以下のように、それぞれが結合相互作用の１つに対応するデータの複数の部分を同定するように構成されてもよい。（１）（例えば、ポリペプチドからの）１つまたは複数のアミノ酸の切断（ｃｌｅａｖａｇｅ。開裂）に対応するデータ内の１つまたは複数の点を同定する工程と、（２）１つまたは複数のアミノ酸の切断に対応する同定された１つまたは複数の点（ｐｏｉｎｔ）に基づき、データの複数の部分を同定する工程と、を備えている。いくつかの実施形態では、タンパク質同定システムは、以下の方法で、データの複数の部分を同定するように構成されてもよい。（１）データから、発光標識による結合相互作用の１つまたは複数の特性（例えば、パルス持続時間、パルス同士間持続時間、発光強度、および／または発光寿命）に関する要約統計量（ｓｕｍｍａｒｙｓｔａｔｉｓｔｉｃ）の値を決定する工程と、（２）少なくとも１つの特性の値が要約統計量の値（例えば、平均値）から閾値量（ｔｈｒｅｓｈｏｌｄａｍｏｕｎｔ）だけ逸脱するデータ内の１つまたは複数の点を同定する工程と、同定された１つまたは複数の点に基づきデータの複数の部分を同定する工程とを備えている。

いくつかの実施形態では、試薬（複数可）とポリペプチドのアミノ酸との結合相互作用に関するデータは、１つまたは複数の発光標識（例えば、結合相互作用に起因する）による検出された発光を備えてもよい。いくつかの実施形態では、発光標識は、試薬に関連付けられてもよい。一例として、発光標識（複数可）は、試薬（複数可）に連結された分子であってもよい。いくつかの実施形態では、発光標識は、ポリペプチドの少なくともいくつかのアミノ酸に関連付けられてもよい。一例として、発光標識（複数可）は、１つまたは複数のクラスのアミノ酸に連結された分子であってもよい。

いくつかの実施形態では、結合相互作用のデータは、相互作用中に生成されてもよい。例えば、配列決定装置センサは、結合相互作用が発生したときにそれを検出し、検出された相互作用からデータを生成してもよい。いくつかの実施形態では、結合相互作用のデータは、相互作用の前および／または後に生成されてもよい。例えば、配列（シーケンス）装置センサは、結合相互作用が発生する前および／または後に情報を収集し、収集した情報を用いてデータを生成してもよい。いくつかの実施形態では、結合相互作用のデータは、結合相互作用の前、中、および後に生成されてもよい。

いくつかの実施形態では、結合相互作用のデータは、発光標識（単数または複数）による発光の発光強度値および／または発光寿命値を備えてもよい。いくつかの実施形態では、データは、発光標識（複数可）による発光の波長値を備えてもよい。いくつかの実施形態では、データは、１つまたは複数の発光パルス持続時間値、１つまたは複数の発光パルス同士間持続時間値、１つまたは複数の発光寿命値、１つまたは複数の発光輝度値、および／または１つまたは複数の発光波長値を備えてもよい。

いくつかの実施形態では、発光標識は、例えば一連の励起光パルスを備えている励起光に応答して発光することができる。一例として、レーザエミッターは、発光標識を発光させるレーザ光を適用してもよい。発光標識の発光から収集されたデータは、複数の励起光パルスのそれぞれについて、励起光パルス後の時間期間（タイムピリオド）の一部である複数の時間区間（タイムインターバル、時間間隔）のそれぞれで検出された光子の数を備えてもよい。発光から収集されたデータは、上述したように、シグナルトレースを形成してもよい。

いくつかの実施形態では、タンパク質同定システムは、機械学習モデルへの入力としてデータを提供するべく、データをデータ構造に配列するように構成されてもよい。いくつかの実施形態では、データ構造は以下を備えてもよい。（１）一連の光パルスにおける第１光パルス後の第１時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持する第１列、および（２）一連の光パルスにおける第２光パルス後の第２時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持する第２列。いくつかの実施形態では、データ構造は、行のそれぞれが、光パルスに対応するそれぞれの時間区間における光子の数を保持する行を備えてもよい。いくつかの実施形態では、行と列を入れ替えてもよい。一例として、いくつかの実施形態では、データ構造は以下を備えてもよい。（１）一連の光パルスにおける第１光パルス後の第１時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持する第１列、および（２）一連の光パルスにおける第２光パルス後の第２時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持する第２列。この例では、データ構造は、列のそれぞれが、光パルスに対応するそれぞれの時間区間における光子の数を保持する列を備えてもよい。

いくつかの実施形態では、タンパク質同定システムは、試薬（複数）とポリペプチドのアミノ酸との結合相互作用のデータを、データを画像に配置することで、学習済み機械学習モデルに入力するように構成されてもよく、画像の各画素は、複数の光パルスのうちの光パルス後の時間期間のそれぞれの時間区間で検出された光子の数を指定する。いくつかの実施形態では、タンパク質同定システムは、画像内にデータを配置することで、学習済み機械学習モデルへの入力としてデータを提供するように構成されてもよく、画像の第１画素は、複数のパルスの第１パルス後の第１時間期間の第１時間区間で検出された光子の第１数を指定する。いくつかの実施形態では、画像の第２画素は、複数のパルスの第１パルス後の第１時間期間の第２時間区間で検出された光子の第２数を指定する。いくつかの実施形態では、画像の第２画素は、複数のパルスの第２パルス後の第２時間期間の第１時間区間における光子の第２数を指定する。

いくつかの実施形態では、試薬（複数可）とポリペプチドのアミノ酸との結合相互作用のデータは、電気センサ（例えば、電流計、電圧センサなど）によって検出された電気シグナルを備えてもよい。一例として、タンパク質配列決定装置は、試薬（複数可）とポリペプチドのアミノ酸との結合相互作用に起因する電気シグナルを検出する１つまたは複数の電気センサを備えてもよい。タンパク質同定システムは、結合相互作用について検出された電気パルスの持続時間であるパルス持続時間値を決定し、結合相互作用について検出された連続する電気パルス同士間の持続時間であるパルス同士間持続時間値を決定するように構成されてもよい。

いくつかの実施形態では、試薬とポリペプチドのアミノ酸との結合相互作用のデータは、ナノポアセンサを用いて検出することができる。１つまたは複数のプローブ（例えば、電気プローブ）がナノポアに埋め込まれてもよい。プローブは、試薬とポリペプチドのアミノ酸との結合相互作用に起因するシグナル（例えば、電気シグナル）を検出してもよい。一例として、ナノポアセンサは、試薬とポリペプチドのアミノ酸との結合相互作用に起因する電圧および／または電流の変化を測定する生物学的ナノポアであってもよい。別の例として、ナノポアセンサは、試薬（複数可）とポリペプチドのアミノ酸との結合相互作用に起因する電圧および／または電流の変化を測定する固体ナノポアであってもよい。ナノポアセンサの例は、「ＮａｎｏｐｏｒｅＳｅｑｕｅｎｃｉｎｇＴｅｃｈｎｏｌｏｇｙ：ＡＲｅｖｉｅｗ」、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＡｄｖａｎｃｅｓｉｎＳｃｉｅｎｔｉｆｉｃＲｅｓｅａｒｃｈ、Ｖｏｌ．３、Ａｕｇｕｓｔ２０１７に掲載されており、「ＴｈｅＥｖｏｌｕｔｉｏｎｏｆＮａｎｏｐｏｒｅＳｅｑｕｅｎｃｉｎｇ」、ＦｒｏｎｔｉｅｒｓｉｎＧｅｎｅｔｉｃｓ、Ｖｏｌ．５、Ｊａｎｕａｒｙ２０１５に掲載されており、これらはいずれも参照によって本明細書に組み込まれる。いくつかの実施形態では、アフィニティ試薬（親和性試薬）は、ＣｌｐＳタンパク質によるものであってもよい。例えば、アフィニティ試薬は、ＡｇｒｏｂａｃｔｅｒｉｕｍｔｕｍｅｆａｃｉｅｎｓまたはＳｙｎｅｃｈｏｃｏｃｃｕｓｅｌｏｎｇａｔｅｓ由来のＣｌｐＳ１またはＣｌｐＳ２タンパク質であってもよい。別の例では、アフィニティ試薬は、大腸菌、Ｃａｕｌｏｂａｃｔｅｒｃｒｅｓｃｅｎｔｕｓ、またはＰｌａｓｍｏｄｉｕｍｆａｌｃｉｐａｒｕｍ由来のＣｌｓｐＳタンパク質であってもよい。いくつかの実施形態では、アフィニティ試薬は、核酸アプタマーであってもよい。

本明細書に記載されている技術の側面は、本明細書に記載されている機械学習技術が、様々な技術によって得られたデータを用いて適用され得るので、試薬とポリペプチドのアミノ酸との結合相互作用のデータを得る特定の技術に限定されないことを理解すべきである。

上述のタンパク質同定システムに加えて、タンパク質を同定する際に使用する機械学習モデルを学習するためのシステムの実施形態も本明細書に記載されている。学習システムは、１つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスするように構成されてもよい。学習システムは、ポリペプチドのアミノ酸を同定するための学習済み機械学習モデルを得るべく、学習データを使用して機械学習モデルを学習してもよい。学習済み機械学習モデルが上述のようにタンパク質同定システムに提供される場合、タンパク質同定システムおよび学習システムは、同じシステムであってもよいし、異なるシステムであってもよい。

いくつかの実施形態では、学習システムは、学習データに教師付き学習を適用することで機械学習モデルを学習するように構成されてもよい。一例として、複数のデータセットのそれぞれが、データセットに対応する結合相互作用に関与するアミノ酸でラベル付けされている学習データが、学習システムに入力されてもよい。いくつかの実施形態では、学習システムは、教師なし学習アルゴリズムを学習データに適用することで、機械学習モデルを学習するように構成されてもよい。一例として、学習システムは、データの分類のためのクラスタを同定してもよい。クラスタの各々は、１つまたは複数のアミノ酸に関連付けられてもよい。いくつかの実施形態では、学習システムは、半教師付き学習アルゴリズムを学習データに適用することで、機械学習モデルを学習するように構成されてもよい。教師なし学習アルゴリズムは、ラベル付けされていない学習データをラベル付けするべく使用されてもよい。その後、ラベル付けされた学習データを使用して、ラベル付けされた学習データに教師付き学習アルゴリズムを適用することで、機械学習モデルを学習してもよい。

いくつかの実施形態では、学習データは、１つまたは複数のパルス持続時間値、１つまたは複数のパルス同士間持続時間値、および／または１つまたは複数の発光寿命値を備えてもよい。

いくつかの実施形態では、機械学習モデルは、それぞれが１つまたは複数のアミノ酸に関連付けられた複数のグループ（例えば、クラスタまたはクラス）を備えてもよい。学習システムは、クラスのアミノ酸（複数可）を区別するべく、各クラスの機械学習モデルを学習するように構成されてもよい。一例として、学習システムは、クラスに関連付けられた複数の異なるアミノ酸を表すクラスのそれぞれについて、混合モデル（例えば、ガウス混合モデル（ＧＭＭ））を学習してもよい。機械学習モデルは、データをクラスに分類して、クラスに関連付けられたアミノ酸のそれぞれが、データによって表される結合相互作用に関与している尤度の表示を出力してもよい。いくつかの実施形態では、機械学習モデルは、クラスタリングモデルを備えてもよく、各クラスは、クラスタリングモデルのクラスタによって定義される。クラスタリングモデルのクラスタの各々は、１つまたは複数のアミノ酸に関連付けられてもよい。

いくつかの実施形態では、機械学習モデルは、深層学習モデルであってもよく、またはそれを備えてもよい。いくつかの実施形態では、深層学習モデルは、畳み込みニューラルネットワーク（ＣＮＮ）であってもよい。一例として、畳み込みニューラルネットワークは、一連の入力データに基づきアミノ酸を同定するように学習されてもよい。いくつかの実施形態では、深層学習モデルは、コネクショニスト時間分類（ＣＴＣ）適合ニューラルネットワークであってもよい。コネクショニスト時間分類ＣＴＣ適合ニューラルネットワークは、入力データセットに基づきアミノ酸配列を出力するように学習されてもよい。一例として、コネクショニスト時間分類ＣＴＣ適合ニューラルネットワークは、アミノ酸配列を同定する文字列を出力してもよい。

いくつかの実施形態では、学習システムは、試薬（複数可）とポリペプチドのアミノ酸との結合相互作用を記述するデータに基づき、以下の方法で機械学習モデルを学習するように構成されてもよい。（１）データの複数の部分を同定し、各部分は結合相互作用のそれぞれの１つに対応し、（２）複数の部分のそれぞれを機械学習モデルへの入力として提供して、データのそれぞれの１つの部分に対応する出力を取得し、（３）複数の部分に対応する出力を使用して機械学習モデルを学習する。いくつかの実施形態では、データの部分に対応する出力は、１つまたは複数のそれぞれのアミノ酸が複数の位置のそれぞれの１つに存在するという１つまたは複数の尤度を示す。

いくつかの実施形態では、試薬（複数可）とアミノ酸との結合相互作用について得られた学習データは、１つまたは複数の発光標識による検出された発光のデータを備えている。いくつかの実施形態では、発光標識は、試薬に関連付けられていてもよい。一例として、発光標識は、試薬に連結された分子であってもよい。いくつかの実施形態では、発光標識（複数可）は、少なくともいくつかのアミノ酸に関連付けられてもよい。例として、発光標識（複数可）は、１つまたは複数のクラスのアミノ酸に連結される分子であってもよい。

いくつかの実施形態では、発光標識による検出された発光から得られた学習データは、発光寿命値、発光強度値、および／または波長値を備えてもよい。波長値は、発光標識によって放出される光の波長（例えば、結合相互作用中）を示してもよい。いくつかの実施形態では、発光は一連の光パルスに応答し、データは、少なくともいくつかの光パルスのそれぞれについて、光パルス後の時間期間の一部である複数の時間区間のそれぞれで検出された光子のそれぞれの数（「カウント」（計数）とも呼ばれる）を備えている。

いくつかの実施形態では、学習システムは、データを、第１列が、一連の光パルスにおける第１光パルス後の第１時間期間（タイムピリオド）の一部である第１および第２時間区間（タイムインターバル）のそれぞれにおける光子のそれぞれの数を保持し、第２列が、一連の光パルスにおける第２光パルス後の第２時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持する、複数の列を有するデータ構造に配置することで、機械学習モデルに入力としてデータを提供することで、機械学習モデルを学習するように構成されてもよい。いくつかの実施形態では、学習システムは、少なくともいくつかの光パルスに対応するそれぞれの時間区間における光子の数を行のそれぞれが保持する複数の行を有するデータ構造にデータを配置することで、機械学習モデルへの入力としてデータを提供することで、機械学習モデルを学習するように構成されてもよい。いくつかの実施形態では、データ構造の行は、列と交換されてもよい。

いくつかの実施形態では、学習システムは、画像内にデータを配置することで、機械学習モデルへの入力としてデータを提供するように構成されてもよく、画像の各画素は、複数の光パルスのうちの１つの光パルス後の時間期間（タイムピリオド）のそれぞれの時間区間（タイムインターバル）で検出された光子の数を指定する。いくつかの実施形態では、学習システムは、画像内にデータを配置することで、機械学習モデルへの入力としてデータを提供するように構成されてもよく、画像の第１画素は、複数の光パルスのうちの第１パルス後の第１時間期間の第１時間区間で検出された光子の第１数を指定している。いくつかの実施形態では、画像の第２画素は、複数のパルスの第１パルス後の第１時間期間の第２時間区間で検出された光子の第２数を指定する。いくつかの実施形態では、画像の第２画素は、複数のパルスの第２パルス後の第２時間期間の第１時間区間における光子の第２数を指定する。

いくつかの実施形態では、試薬とアミノ酸との結合相互作用の学習データは、既知のタンパク質の電気センサ（例えば、電流計、および／または電圧センサ）によって検出された検出電気シグナルを備えてもよい。一例として、タンパク質配列決定装置は、試薬とアミノ酸との結合相互作用に起因する電気シグナルを検出する１つまたは複数の電気センサを備えてもよい。

いくつかの実施形態は、ポリペプチドのアミノ酸の同定に機械学習技術を利用しなくてもよい。タンパク質同定システムは、試薬とアミノ酸との結合相互作用に関するデータにアクセスし、アクセスしたデータを使用してポリペプチドを同定するように構成されてもよい。一例として、タンパク質同定システムは、特定のアミノ酸に選択的結合する試薬を使用してもよい。この試薬は、「タイト結合（バインディング）プローブ」と呼ばれることもある。タンパク質同定システムは、結合相互作用の１つまたは複数の特性（例えば、パルス持続時間、パルス同士間持続時間）の値を使用して、どの試薬が結合相互作用に関与したかを決定することで、アミノ酸を同定してもよい。いくつかの実施形態では、タンパク質同定システムは、アミノ酸に選択的結合する試薬に関連する発光標識を同定することで、アミノ酸を同定するように構成されてもよい。一例として、タンパク質同定システムは、パルス持続時間値、および／または、パルス同士間持続時間値を用いて、アミノ酸を同定してもよい。別の例として、タンパク質同定システムが発光標識の発光を検出する実施形態において、タンパク質同定システムは、発光強度値、および／または発光の発光寿命値を用いてアミノ酸を同定してもよい。

いくつかの実施形態では、タンパク質同定システムは、機械学習技術を用いて１つまたは複数のアミノ酸の第１セットを同定し、機械学習技術を用いずに１つまたは複数のアミノ酸の第２セットを同定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システムは、第１セットのアミノ酸の複数のものに結合する試薬を使用するように構成されてもよい。これらの試薬は、本明細書では、「弱結合プローブ」と呼ばれることがある。タンパク質同定システムは、第１セットからアミノ酸を同定するべく、本明細書に記載の機械学習技術を使用するように構成されてもよい。タンパク質同定システムは、第２セットのアミノ酸に対してタイト結合プローブを使用するように構成されてもよい。タンパク質同定システムは、機械学習技術を使用せずに、第２セットからアミノ酸を同定するように構成されてもよい。一例として、タンパク質同定システムは、パルス持続時間値、パルス同士間持続時間値、発光強度値、発光寿命値、波長値、および／またはそれらから得られる値に基づき、第２セットからアミノ酸を同定してもよい。

本技術は、主にタンパク質の同定を参照して本明細書に記載されているが、いくつかの実施形態では、本技術はヌクレオチドの同定に使用されてもよい。一例として、本明細書に記載された技術は、ＤＮＡおよび／またはＲＮＡサンプルを同定するべく使用されてもよい。タンパク質同定システムは、アフィニティ試薬を同定すべき核酸サンプルと混合する分解反応中の発光標識による検出された発光から得られたデータにアクセスしてもよい。タンパク質同定システムは、アクセスされたデータを（前処理の有無にかかわらず）機械学習モデルへの入力として提供し、それぞれの出力を得てもよい。出力は、核酸の複数の位置のそれぞれについて、１つまたは複数のそれぞれのヌクレオチドが核酸の位置に組み込まれたという１つまたは複数の尤度を示してもよい。いくつかの実施形態では、１つまたは複数のそれぞれのヌクレオチドが核酸の位置に組み込まれたという１つまたは複数の尤度は、第１ヌクレオチドがその位置に存在するという第１尤度、および第２ヌクレオチドがその位置に存在するという第２尤度を備えている。一例として、出力は、複数の位置のそれぞれについて、異なるヌクレオチドがその位置に存在するという確率を同定してもよい。タンパク質同定システムは、機械学習モデルの出力を使用して、核酸を同定してもよい。

いくつかの実施形態では、タンパク質同定システムは、得られた出力を、それぞれの核酸に関連する複数のヌクレオチド配列のうちの１つに一致させるように構成されてもよい。一例として、タンパク質同定システムは、出力をＧｅｎＢａｎｋデータベースに格納されているヌクレオチド配列に照合してもよい。いくつかの実施形態では、タンパク質同定システムは、（１）機械学習モデルから得られた出力に基づき隠れマルコフモデルＨＭＭを生成し、（２）隠れマルコフモデルＨＭＭをヌクレオチド配列に照合することで、出力をヌクレオチド配列に照合するように構成されてもよい。一例として、タンパク質同定システムは、ＧｅｎＢａｎｋデータベースから、隠れマルコフモデルＨＭＭが最も密接に一致するヌクレオチド配列を、一致するヌクレオチド配列として同定してもよい。一致したヌクレオチド配列は、同定されるべき核酸の同一性（ｉｄｅｎｔｉｔｙ。身元）を同定してもよい。

［試薬を用いた配列決定］
上述したように、タンパク質同定システムは、タンパク質および／またはポリペプチドのアミノ酸との試薬の結合相互作用を記述するデータに基づき、１つまたは複数のタンパク質および／またはポリペプチドを同定するように構成されてもよい。このセクションでは、そのようなデータを生成するための例示的なアプローチを説明する。

いくつかの実施形態では、ポリペプチドを、１種類以上のアミノ酸に選択的結合する標識（ｌａｂｅｌｅｄ。標識された）アフィニティ試薬に接触させてもよい。アフィニティ試薬は、本明細書で「試薬」と呼ばれることもある。いくつかの実施形態では、標識アフィニティ試薬は、末端アミノ酸に選択的結合してもよい。本明細書で使用されるように、いくつかの実施形態では、末端アミノ酸は、ポリペプチドのアミノ末端アミノ酸またはポリペプチドのカルボキシ末端アミノ酸を指してもよい。いくつかの実施形態では、標識アフィニティ試薬は、１種類の末端アミノ酸に他の種類の末端アミノ酸よりも選択的結合する。いくつかの実施形態では、標識アフィニティ試薬は、同じタイプの内部アミノ酸よりも１つのタイプの末端アミノ酸に選択的結合する。さらに他の実施形態では、標識アフィニティ試薬は、ポリペプチドの任意の位置で１種類のアミノ酸に選択的結合し、例えば、末端アミノ酸および内部アミノ酸と同じ種類のアミノ酸に結合する。

本明細書で使用されるように、アミノ酸の「タイプ」は、２０種類の天然に存在するアミノ酸の１つ、そのタイプのサブセット、２０種類の天然に存在するアミノ酸の１つの修飾バリアント、またはその未修飾および／または修飾バリアントのサブセットを指すことがある。修飾されたアミノ酸バリアントの例には、限定されないが、翻訳後に修飾されたバリアント、化学的に修飾されたバリアント、非天然アミノ酸、およびセレノシステインやピロリジンなどのタンパク質生成アミノ酸が含まれる。いくつかの実施形態では、アミノ酸の種類のサブセットは、１つまたは複数の類似した生化学的特性を有する１つまたは複数のアミノ酸および２０個以下のアミノ酸を備えてもよい。一例として、いくつかの実施形態では、アミノ酸の種類は、荷電側鎖（例えば、正および／または負の荷電側鎖）を有するアミノ酸、極性側鎖（例えば、極性非荷電側鎖）を有するアミノ酸、非極性側鎖（例えば、非極性脂肪族および／または芳香族側鎖）を有するアミノ酸、ならびに疎水性側鎖を有するアミノ酸から選択される１種類を指す。

いくつかの実施形態では、データは、アフィニティ試薬の発光標識の検出された発光（例えば、ルミネセンス）から収集される。いくつかの実施形態では、標識付けまたはタグ付けされたアフィニティ試薬は、（１）１種類以上のアミノ酸に選択的結合するアフィニティ試薬、および（２）アフィニティ試薬に関連する発光を有する発光標識を備えている。このようにして、発光（例えば、発光寿命、発光強度、および本明細書に記載される他の発光特性）は、ポリペプチドのアミノ酸を同定するためのアフィニティ試薬の選択的結合に特徴的であり得る。いくつかの実施形態では、複数の種類の標識アフィニティ試薬が使用されてもよく、各種類は、複数の中から一意に同定できる発光を有する発光標識を備えている。適切な発光標識は、フルオロフォア染料などの発光分子を備えてもよい。

いくつかの実施形態では、アミノ酸の発光標識の検出された発光（例えば、ルミネセンス）からデータが収集される。いくつかの実施形態では、標識アミノ酸は、（１）アミノ酸と、および（２）アミノ酸に関連する発光を有する発光標識とを備えている。発光は、ポリペプチドのアミノ酸を同定するべく使用されてもよい。いくつかの実施形態では、複数の種類のアミノ酸が標識されてもよく、各発光標識は、複数の種類の中から一意に同定可能な発光を有する。

本明細書で使用されるように、用語「選択的（ｓｅｌｅｃｔｉｖｅ）」および「特異的（ｓｐｅｃｉｆｉｃ）」（およびその変形、例えば、ｓｅｌｅｃｔｉｖｅｌｙ、ｓｐｅｃｉａｌｌｙ、ｓｅｌｅｃｔｉｖｉｔｙ、ｓｐｅｃｉｆｉｃｉｔｙ）は、優先的な結合相互作用を指すことがある。例として、いくつかの実施形態では、１種類のアミノ酸に選択的結合する標識アフィニティ試薬は、別の種類のアミノ酸よりも１種類のアミノ酸に優先的に結合する。選択的結合相互作用は、１種類のアミノ酸（例えば、１種類の末端アミノ酸）と他の種類のアミノ酸（例えば、他の種類の末端アミノ酸）とを、典型的には約１０～１００倍以上（例えば、約１,０００～１０，０００倍以上）に同定する。いくつかの実施形態では、標識アフィニティ試薬は、他のタイプのアミノ酸に有意に結合することなく、約１０^－６Ｍ未満（例えば、約１０^－７Ｍ未満、約１０^－８Ｍ未満、約１０^－９Ｍ未満、約１０^－１０Ｍ未満、約１０^－１１Ｍ未満、約１０^－１２Ｍ未満、１０^－１６Ｍ程度まで）の解離定数（Ｋ_Ｄ）で１つのタイプのアミノ酸に選択的結合する。いくつかの実施形態では、標識アフィニティ試薬は、約１００ｎＭ未満、約５０ｎＭ未満、約２５ｎＭ未満、約１０ｎＭ未満、または約１ｎＭ未満のＫ_Ｄで、１種類のアミノ酸（例えば、１種類の末端アミノ酸）に選択的結合する。いくつかの実施形態では、標識アフィニティ試薬は、約５０ｎＭのＫ_Ｄで１種類のアミノ酸に選択的結合する。

図１Ａは、本明細書に記載の技術のいくつかの実施形態に従って、標識アフィニティ試薬の様々な例示の構成および使用を示す。いくつかの実施形態では、標識アフィニティ試薬１００は、発光標識１１０（例えば、ラベル）と、ポリペプチド１２０の１つまたは複数の種類の末端アミノ酸に選択的結合するアフィニティ試薬（点描の形状として示される）とを備える。いくつかの実施形態では、アフィニティ試薬は、末端位置または末端位置と内部位置の両方において、１種類のアミノ酸またはサブセット（例えば、２０種類の一般的な種類のアミノ酸よりも少ない）の種類のアミノ酸に選択的であってもよい。

本明細書に記載されているように、アフィニティ試薬は、別の分子に対する１つの分子（例えば、別のタイプのアミノ酸に対する１つのタイプのアミノ酸）に選択的または特異的に結合することができる任意の生体分子であってもよい。アフィニティ試薬には、一例として、タンパク質および核酸が含まれる。いくつかの実施形態では、アフィニティ試薬は、抗体または抗体の抗原結合部分、または酵素生体分子、例えばペプチダーゼ、リボザイム、アプタザイム、またはアミノアシル－ｔＲＮＡシンテターゼおよび２０１６年９月２日に出願された「ＭＯＬＥＣＵＬＥＳＡＮＤＭＥＴＨＯＤＳＦＯＲＩＴＥＲＡＴＩＶＥＰＯＬＹＰＥＰＴＩＤＥＡＮＡＬＹＳＩＳＡＮＤＰＲＯＣＥＳＳＩＮＧ」と題された米国特許出願第１５／２５５，４３３号に記載されている関連分子を備えているｔＲＮＡシンテターゼなどであってもよい。ペプチダーゼは、プロテアーゼまたはプロテイナーゼとも呼ばれ、ペプチド結合の加水分解を触媒する酵素であってもよい。ペプチダーゼは、ポリペプチドをより短い断片に消化し、一般的に、ポリペプチド鎖を内部および末端でそれぞれ切断するエンドペプチダーゼおよびエキソペプチダーゼに分類され得る。いくつかの実施形態では、アフィニティ試薬は、「ＴｈｅＮ－ｅｎｄｒｕｌｅｐａｔｈｗａｙ：ＦｒｏｍＲｅｃｏｇｎｉｔｉｏｎｂｙＮ－ｒｅｃｏｇｎｉｎｓ，ｔｏＤｅｓｔｒｕｃｔｉｏｎｂｙＡＡＡ+ Ｐｒｏｔｅａｓｅｓ」、ＢｉｏｃｈｉｍｉｃａｅｔＢｉｏｐｈｙｓｉｃａＡｃｔａ（ＢＢＡ）－ＭｏｌｅｃｕｌａｒＣｅｌｌＲｅｓｅａｒｃｈ，Ｖｏｌ．１８２３，Ｉｓｓｕｅ１，Ｊａｎｕａｒｙ２０１２掲載に記載されているように、原核生物および真核生物のＮ－デグロン経路に関与するＮ－レコグニンであってもよい。

いくつかの実施形態では、標識アフィニティ試薬１００は、エキソペプチダーゼまたはエンドペプチダーゼ活性を不活性化するように改変されたペプチダーゼを備えている。このようにして、標識アフィニティ試薬１００は、ポリペプチドからアミノ酸を切断することもなく、選択的結合する。いくつかの実施形態では、エキソペプチダーゼまたはエンドペプチダーゼ活性を不活性化するように改変されていないペプチダーゼを使用してもよい。一例として、いくつかの実施形態では、標識アフィニティ試薬は、標識エキソペプチダーゼ１０１を備えている。

いくつかの実施形態では、タンパク質配列決定方法は、ポリペプチドの末端での反復的な検出および切断を備えてもよい。いくつかの実施形態では、標識エキソペプチダーゼ１０１は、アミノ酸の検出および切断の両方の工程を行う単一の試薬として使用されてもよい。一般的に描かれているように、いくつかの実施形態では、標識エキソペプチダーゼ１０１は、ポリペプチドからＮ末端またはＣ末端のアミノ酸をそれぞれ選択的結合して切断するような、アミノペプチダーゼまたはカルボキシペプチダーゼ活性を有する。特定の実施形態において、標識エキソペプチダーゼ１０１は、本明細書に記載されているように、標識エキソペプチダーゼ１０１が非切断標識アフィニティ試薬１００として使用するための選択的結合特性を保持するように、当業者によって触媒的に不活性化されてもよいことが理解されるべきである。いくつかの実施形態では、標識アフィニティ試薬は、結合誘導性ルミネセンスを有する標識（ラベル）を備えている。標識アフィニティ試薬とアミノ酸との結合相互作用は、試薬が標識されている発光標識の発光を誘導することができる。

いくつかの実施形態では、配列決定は、ポリペプチド末端を、末端アミノ酸の検出および末端アミノ酸の切断の繰り返しサイクルにさらすことを備えてもよい。一例として、タンパク質配列決定装置は、ポリペプチドを１つまたは複数の標識アフィニティ試薬に接触させることで、ポリペプチドのアミノ酸配列に関するデータを収集してもよい。

図１Ｂは、本明細書に記載の技術のいくつかの実施形態に従った、標識アフィニティ試薬を用いた配列決定（シーケンシング）の例を示す。いくつかの実施形態では、配列決定は、リンカー１２２を介して固体支持体の表面１３０に固定化された（例えば、サンプルウェルの底面または側壁面に固定化された）ポリペプチド１２１を提供することを備えている。いくつかの実施形態では、ポリペプチド１２１は、一方の末端（例えば、アミノ末端アミノ酸）において、他方の末端が末端アミノ酸の検出および切断のために自由であるように固定化されてもよい。したがって、いくつかの実施形態では、試薬は、ポリペプチド１２１の固定化されていない（例えば、自由な）末端の末端アミノ酸に相互作用する。このようにして、ポリペプチド１２１は、検出と切断のサイクルを繰り返しても固定化されたままである。この目的のために、いくつかの実施形態では、リンカー１２２は、検出および切断に使用される所望の条件のセットに従って設計されてもよく、例えば、化学的切断条件でポリペプチド１２１の表面１３０からの離脱を制限するべく設計されてもよい。

いくつかの実施形態では、配列決定は、ポリペプチド１２１を、１つまたは複数のタイプの末端アミノ酸に選択的結合する１つまたは複数の標識アフィニティ試薬に接触させる工程（１）を備えている。示されるように、いくつかの実施形態では、標識アフィニティ試薬１０４は、末端アミノ酸に選択的結合することでポリペプチド１２１と相互作用する。いくつかの実施形態では、工程（１）は、ポリペプチド１２１の末端アミノ酸（例えば、遊離の末端アミノ酸）に選択的結合しない１つまたは複数の標識アフィニティ試薬のいずれかを除去することをさらに備えている。いくつかの実施形態では、配列決定は、ポリペプチド１２１の末端アミノ酸を除去する工程（２）を備えている。いくつかの実施形態では、工程（２）は、ポリペプチド１２１から標識アフィニティ試薬１０４（例えば、末端アミノ酸に選択的結合する１つまたは複数の標識アフィニティ試薬のいずれか）を除去することを備えている。

いくつかの実施形態では、配列決定（シーケンシング）は、末端アミノ酸の切断後にポリペプチド１２１を洗浄する工程（３）を備えている。いくつかの実施形態では、洗浄は、プロテアーゼ１４０を除去することを備えている。いくつかの実施形態では、洗浄は、ポリペプチド１２１を中性ｐＨ条件（例えば、酸性または塩基性条件による化学的切断の後）に戻すことを備えている。いくつかの実施形態では、配列決定は、工程（１）～（３）を複数のサイクルで繰り返すことを備えている。

図１Ｃは、本明細書に記載の技術のいくつかの実施形態に従った、標識タンパク質サンプルを用いた配列決定の一例を示す。図１Ｃの例示的な実施形態に示されるように、標識タンパク質サンプルは、標識アミノ酸を有するポリペプチド１４０を備えている。いくつかの実施形態では、標識ポリペプチド１４０は、発光標識（発光ラベル）で標識１つまたは複数のアミノ酸を有するポリペプチドを備えている。いくつかの実施形態では、ポリペプチド１４０の１つまたは複数の種類のアミノ酸が標識されていてもよく、ポリペプチド１４０の１つまたは複数の他の種類のアミノ酸は標識されていなくてもよい。いくつかの実施形態では、ポリペプチド１４０のすべてのアミノ酸が標識されていてもよい。

いくつかの実施形態では、配列決定は、１つまたは複数の試薬との接触の繰り返しサイクルにさらされる、標識ポリペプチドの発光を検出することを備えている。図１Ｃの例示的な実施形態では、配列決定は、ポリペプチド１４０を、ポリペプチド１４０の１つまたは複数のアミノ酸に結合する試薬１４２に接触させる工程を備えている。一例として、試薬１４２は、標識ポリペプチドの末端アミノ酸に相互作用してもよい。いくつかの実施形態では、配列決定は、ポリペプチド１４０を試薬１４２に接触させた後に、末端アミノ酸を除去する工程を備えている。いくつかの実施形態では、試薬１４２は、ポリペプチド１４０に接触した後に、末端アミノ酸を切断してもよい。試薬１４２とポリペプチド１４２の標識アミノ酸との相互作用は、タンパク質配列決定装置によって検出され得る１つまたは複数の発光（例えば、パルス）を生じさせる。

発光を生じさせる上述の処理は、図２Ａにさらに示されている。例示的なシグナルトレース（Ｉ）が、シグナルの変化に対応する時間に、異なる関連イベントを描写する一連のパネル（ＩＩ）とともに示されている。図示されているように、アフィニティ試薬（点描の形状）とポリペプチドの末端に存在するアミノ酸（ストリング上のビーズとして示されている）との間の会合イベントは、受け取られた励起光の測定値であるシグナルトレースの大きさに変化をもたらし、それは一定の期間持続する。

上述したように、発光標識で標識アフィニティ試薬は、アフィニティ試薬に印加される励起光に反応して発光することがある。アフィニティ試薬がアミノ酸に会合すると、この光はアミノ酸の近くで発せられる可能性がある。その後、アフィニティ試薬がアミノ酸に結合しなくなっても、その発光標識が励起光に反応して発光することがあるが、この光は異なる空間的位置から発せられているので、結合時に発せられた光と同じ強度で測定できない（あるいは全く測定できない）可能性がある。その結果、アミノ酸から放出された光を測定することで、シグナルトレース内で会合イベントを同定することができる。

例えば、図２Ａのパネル（Ａ）および（Ｂ）に示すように、アフィニティ試薬と、ポリペプチドの末端に露出した第１アミノ酸（例えば、第１末端アミノ酸）との間の２つの異なる会合イベントは、それぞれ別々の発光を生じる。各会合イベントは、光の「パルス」を生成し、これはシグナルトレース（Ｉ）で測定され、会合イベントの持続時間中にわたって持続するシグナルの大きさの変化によって特徴付けられる。パネル（Ａ）および（Ｂ）の会合イベント同士間の持続時間は、ポリペプチドがアフィニティ試薬と検出可能に会合しない時間の持続時間に対応し得る。

パネル（Ｃ）および（Ｄ）は、アフィニティ試薬と、ポリペプチドの末端に露出した第２アミノ酸（例えば、第２末端アミノ酸）との間の異なる会合イベントを描いている。本明細書に記載されているように、ポリペプチドの末端で「露出」しているアミノ酸は、ポリペプチドにまだ付着しているアミノ酸であり、分解中に先行する末端アミノ酸が除去されると（例えば、単独で、または１つまたは複数の追加アミノ酸とともに）末端アミノ酸になる。したがって、一連のパネル（ＩＩ）の第１および第２アミノ酸は、ポリペプチドの末端に露出した連続したアミノ酸の例示的な例を提供し、第２アミノ酸は第１アミノ酸の除去時に末端アミノ酸になった。

一般的に描かれているように、パネル（Ｃ）および（Ｄ）の関連イベントは、シグナルトレース（Ｉ）で測定され、パネル（Ａ）および（Ｂ）のものよりも相対的に短い時間持続する大きさの変化によって特徴付けられる、異なる光パルスを生成し、パネル（Ｃ）および（Ｄ）の関連イベント同士間の時間持続は、パネル（Ａ）および（Ｂ）のものよりも相対的に短い。上述したように、いくつかの実施形態では、シグナルのそのような特徴的な変化を使用して、異なるタイプのアミノ酸を同定することができるシグナルトレース（Ｉ）の特徴的なパターンを決定することができる。

いくつかの実施形態では、１つの特徴的なパターンから別のパターンへの移行は、アミノ酸の切断を示している。本明細書で使用されるように、いくつかの実施形態では、アミノ酸切断とは、ポリペプチドの末端から少なくとも１つのアミノ酸を除去すること（例えば、ポリペプチドから少なくとも１つの末端アミノ酸を除去すること）を指す。いくつかの実施形態では、アミノ酸切断は、特徴的なパターン同士間の時間継続に基づく推論によって決定される。いくつかの実施形態では、アミノ酸の切断は、標識切断試薬がポリペプチドの末端のアミノ酸に関連することで生じるシグナルの変化を検出することで決定される。分解中にポリペプチドの末端からアミノ酸が順次切断されると、一連の大きさの変化、すなわち一連のシグナルパルスが検出される。いくつかの実施形態では、シグナルパルスデータは、図２Ｂに示されるように分析することができる。

いくつかの実施形態では、シグナルデータの１つまたは複数のパラメータに閾値を適用することで、シグナルパルス情報を抽出するべくシグナルトレースを分析することができる。例えば、パネル（ＩＩＩ）には、例示的なシグナルトレース（Ｉ）のシグナルデータに適用される閾値マグニチュードレベル（「Ｍ_Ｌ」）が描かれている。いくつかの実施形態では、Ｍ_Ｌは、或る時点で検出されたシグナルと、所定のデータセットについて決定されたベースラインとの間の最小差である。いくつかの実施形態では、シグナルパルス（「ｓｐ」）は、Ｍ_Ｌを超える大きさの変化を示し、或る期間持続するデータの各部分に割り当てられる。いくつかの実施形態では、シグナルパルスがその部分に割り当てられるかどうかを決定するべく、Ｍ_Ｌを満たすデータの部分に閾値の持続時間を適用することができる。例えば、実験的なアーチファクトは、所望の信頼性でシグナルパルスを割り当てるのに十分な時間持続しない、Ｍ_Ｌを超える大きさの変化を生じさせることがある（例えば、アミノ酸タイプを非差別的に同定し得る一時的な関連イベント、観察領域への拡散または観察領域内での試薬の付着などの非特異的検出イベント）。したがって、いくつかの実施形態では、閾値マグニチュードレベルおよび閾値時間継続時間に基づき、シグナルトレースからパルスが同定され得る。

抽出されたシグナルパルス情報は、例示のために例示のシグナルトレース（Ｉ）を重ね合わせたパネル（ＩＩＩ）に示されている。いくつかの実施形態では、シグナルパルスの大きさのピークは、Ｍ_Ｌを超えて持続する持続時間にわたって検出された大きさを平均化することで決定される。いくつかの実施形態では、本明細書で使用される「シグナルパルス」または「パルス」は、ベースラインを超えて持続するシグナルデータの変化（例えば、例示的なシグナルトレース（Ｉ）で示されるような生のシグナルデータ）、またはそこから抽出されたシグナルパルス情報（例えば、パネル（ＩＶ）で示されるような処理済みのシグナルデータ）を指すことができることを理解されたい。

パネル（ＩＶ）は、例示のシグナルトレース（Ｉ）から抽出されたパルス情報を示す。いくつかの実施形態では、シグナルパルス情報を分析して、一連のシグナルパルスにおける異なる特性パターンに基づき、配列内の異なるタイプのアミノ酸を同定することができる。例えば、パネル（ＩＶ）に示すように、シグナルパルス情報は、第１特性パターン（「ＣＰ_１」）に基づく第１タイプのアミノ酸と、第２特性パターン（「ＣＰ_２」）に基づく第２タイプのアミノ酸とを示している。例を挙げると、早い時点で検出された２つのシグナルパルスは、ＣＰ_１に基づきポリペプチドの末端の第１アミノ酸を示す情報を提供し、遅い時点で検出された２つのシグナルパルスは、ＣＰ_２に基づきポリペプチドの末端の第２アミノ酸を示す情報を提供する。

また、パネル（ＩＶ）に示すように、各シグナルパルスは、アフィニティ試薬と特徴的なパターンのアミノ酸との間の会合イベントに対応するパルス持続時間（「ｐｄ」）を備えている。いくつかの実施形態では、パルス持続時間は、結合の解離速度に特徴的である。また、図のように、特徴的なパターンの各シグナルパルスは、特徴的なパターンの別のシグナルパルスから、パルス同士間持続時間（インターパルスデュアレーション。「ｉｐｄ」）によって分離される。いくつかの実施形態では、パルス同士間持続時間は、結合の会合速度の特徴である。いくつかの実施形態では、大きさの変化（「ΔＭ」）は、ベースラインとシグナルパルスのピークとの間の差に基づき、シグナルパルスについて決定することができる。いくつかの実施形態では、パルス持続時間に基づき特性パターンが決定される。いくつかの実施形態では、特性パターンは、パルス持続時間およびパルス同士間持続時間に基づき決定される。いくつかの実施形態では、特徴的なパターンは、パルス持続時間、パルス同士間持続時間（インターパルス持続時間）、および大きさの変化のうちのいずれか１つまたは複数に基づき決定される。

したがって、図２Ａ～図２Ｂに示されるように、いくつかの実施形態では、ポリペプチド配列決定は、発光標識で標識アフィニティ試薬間の会合イベントからの発光によって生成される一連のシグナルパルスを検出することで実行され得る。一連のシグナルパルスを分析して、一連のシグナルパルスにおける特徴的なパターンを決定し、特徴的なパターンの時間経過を用いて、ポリペプチドのアミノ酸配列を決定することができる。

いくつかの実施形態では、タンパク質またはポリペプチドを複数のより小さなポリペプチドに消化し、これらのより小さなポリペプチドの１つまたは複数から配列情報を得ることができる（例えば、ポリペプチドの末端アミノ酸を順次評価し、そのアミノ酸を除去して末端の次のアミノ酸を露出させることを備えている方法を使用する）。いくつかの実施形態では、ペプチド配列決定の方法は、ポリペプチドの末端を、末端アミノ酸の検出および末端アミノ酸の切断の反復サイクルにさらすことを備えてもよい。

反復的な末端アミノ酸検出および切断によるポリペプチド配列決定の非限定的な例は、図２Ｃに描かれている。いくつかの実施形態では、ポリペプチド配列決定は、連鎖群（ｌｉｎｋａｇｅｇｒｏｕｐ）２５２を介して固体支持体の表面２５４に固定化されている（例えば、サンプルウェルの底面または側壁面に取り付けられている）ポリペプチド２５０を提供することを備えている。いくつかの実施形態では、連鎖群２５２は、ポリペプチド２５０の官能化された末端と、表面２５４の相補的な官能部位との間の共有結合または非共有結合によって形成される。例えば、いくつかの実施形態では、連鎖群２５２は、ポリペプチド２５０のビオチン部分（例えば、本開示に従って官能化されたもの）と表面２５４のアビジンタンパク質との間の非共有結合によって形成される。いくつかの実施形態では、連鎖群２５２は、核酸を備えている。

いくつかの実施形態では、ポリペプチド２５０は、他方の末端端が、配列決定反応における末端アミノ酸の検出および切断のために自由であるように、一方の末端端で官能化部位を介して表面２５４に固定化される。したがって、いくつかの実施形態では、特定のポリペプチド配列決定反応で使用される試薬は、ポリペプチド２５０の非固定化（例えば、遊離）末端の末端アミノ酸に優先的に相互作用する。このようにして、ポリペプチド２５０は、検出と切断のサイクルを繰り返しても固定化されたままである。この目的のために、いくつかの実施形態では、連鎖群２５２は、検出および切断に使用される所望の条件のセットに従って、例えば、表面２５４からのポリペプチド２５０の剥離を制限するように設計されてもよい。ポリペプチドを官能化するための適切なリンカー組成物および技術（例えば、ポリペプチドを表面に固定化するべく使用され得る）は、本明細書の別の位置で詳細に記載されている。

いくつかの実施形態では、図２Ｃに示すように、ポリペプチド配列決定は、（１）ポリペプチド２５０を、１つまたは複数のタイプの末端アミノ酸に会合する１つまたは複数のアフィニティ試薬に接触させることで進めることができる。示すように、いくつかの実施形態では、標識アフィニティ試薬２５６は、末端アミノ酸に会合することでポリペプチド２５０と相互作用する。

いくつかの実施形態では、本方法は、標識アフィニティ試薬２５６を検出することで、ポリペプチド２５０のアミノ酸（末端アミノ酸または内部アミノ酸）を同定することをさらに備えている。いくつかの実施形態では、検出することは、標識アフィニティ試薬２５６からの発光を検出することを備えている。いくつかの実施形態では、発光は標識アフィニティ試薬２５６と一意に関連付けられており、それによって発光は標識アフィニティ試薬２５６が選択的結合するアミノ酸の種類に関連付けられている。このように、いくつかの実施形態では、アミノ酸の種類は、標識アフィニティ試薬２５６の１つまたは複数の発光特性を決定することで同定される。

いくつかの実施形態では、ポリペプチド配列決定は、（２）ポリペプチド２５０を、ポリペプチド２５０の末端アミノ酸に結合して切断するエキソペプチダーゼ２５８に接触させることで、末端アミノ酸を除去することで進行する。エキソペプチダーゼ２５８によって末端アミノ酸が除去されると、（３）ポリペプチド２５０（ｎ－１個のアミノ酸を有する）を、末端アミノ酸の認識および切断の追加のサイクルにかけることで、ポリペプチドの配列決定が進む。いくつかの実施形態では、工程（１）～（３）は、例えば、動的ペプチド配列決定反応のように、同じ反応混合物中で起こる。いくつかの実施形態では、工程（１）～（３）は、エドマン分解によるペプチド配列決定など、当技術分野で知られている他の方法を用いて実施されてもよい。

エドマン分解では、ポリペプチドの末端アミノ酸を修飾して切断するサイクルが繰り返され、連続して切断された各アミノ酸が同定されてポリペプチドのアミノ酸配列が決定される。図２Ｃを参照すると、従来のエドマン分解によるペプチド配列決定は、（１）ポリペプチド２５０を、１種類以上の末端アミノ酸に選択的結合する１種類以上のアフィニティ試薬に接触させることで行うことができる。いくつかの実施形態では、工程（１）は、ポリペプチド２５０に選択的結合しない１つまたは複数の標識アフィニティ試薬のいずれかを除去することをさらに備えている。いくつかの実施形態では、工程（２）は、末端アミノ酸をイソチオシアネート（例えば、ＰＩＴＣ）に接触させて、イソチオシアネート修飾末端アミノ酸を形成することで、ポリペプチド２５０の末端アミノ酸（例えば、遊離末端アミノ酸）を修飾することを備えている。いくつかの実施形態では、イソチオシアネート修飾された末端アミノ酸は、未修飾の末端アミノ酸よりも切断試薬（例えば、化学的または酵素的切断試薬）による除去に影響を受けやすい。

いくつかの実施形態では、エドマン分解は、（２）ポリペプチド２５０を、イソチオシアネート修飾された末端アミノ酸に特異的に結合して切断するエキソペプチダーゼ２５８に接触させることで、末端アミノ酸を除去することで進行する。いくつかの実施形態では、エキソペプチダーゼ２５８は、修飾されたシステインプロテアーゼを備えている。いくつかの実施形態では、エキソペプチダーゼ２５８は、Ｔｒｙｐａｎｏｓｏｍａｃｒｕｚｉ（例えば、Ｂｏｒｇｏ，ｅｔａｌ．（２０１５）ＰｒｏｔｅｉｎＳｃｉｅｎｃｅ２４：５７１－５７９参照）由来のシステインプロテアーゼなどの、修飾されたシステインプロテアーゼを備えている。さらに他の実施形態では、工程（２）は、イソチオシアネート修飾された末端アミノ酸を切断するのに十分な化学的（例えば、酸性、塩基性）条件にポリペプチド２５０を供することで、末端アミノ酸を除去することを備えている。いくつかの実施形態では、エドマン分解は、（３）末端アミノ酸の切断後にポリペプチド２５０を洗浄することで進行する。いくつかの実施形態では、洗浄は、エキソペプチダーゼ２５８を除去することを備えている。いくつかの実施形態では、洗浄は、ポリペプチド２５０を中性ｐＨ条件（例えば、酸性または塩基性条件による化学的切断の後）に戻すことを備えている。いくつかの実施形態では、エドマン分解による配列決定は、工程（１）～（３）を複数のサイクルで繰り返すことを備えている。

いくつかの実施形態では、ペプチド配列決定（シーケンシング）は、動的ペプチド配列決定反応において実施することができる。いくつかの実施形態では、図２Ｃを再び参照すると、工程（１）および工程（２）を実行するべく必要な試薬は、単一の反応混合物内で組み合わされる。例えば、いくつかの実施形態では、工程（１）および工程（２）は、１つの反応混合物を別の反応混合物に交換することなく、また、従来のエドマン分解のような洗浄工程を経ることなく行うことができる。したがって、この実施形態では、単一の反応混合物は、標識アフィニティ試薬２５６およびエキソペプチダーゼ２５８を備えている。いくつかの実施形態では、エキソペプチダーゼ２５８は、標識アフィニティ試薬２５６の濃度よりも低い濃度で混合物中に存在する。いくつかの実施形態では、エキソペプチダーゼ２５８は、標識アフィニティ試薬２５６の結合親和性よりも小さい結合親和性でポリペプチド２５０に結合する。

図２Ｄは、一組の標識エキソペプチダーゼ２００を用いたポリペプチド配列決定の例を示しており、各標識エキソペプチダーゼは、異なるタイプの末端アミノ酸に選択的結合して切断するようになっている。

図２Ｄの例に示されるように、標識エキソペプチダーゼ２００は、第１発光標識を含むリジン特異的エキソペプチダーゼ、第２発光標識を含むグリシン特異的エキソペプチダーゼ、第３発光標識を含むアスパラギン酸特異的エキソペプチダーゼ、および第４発光標識を含むロイシン特異的エキソペプチダーゼを含む。いくつかの実施形態では、標識各エキソペプチダーゼ２００は、それぞれのアミノ酸がポリペプチドのアミノ末端またはカルボキシ末端に存在する場合にのみ、選択的結合して切断することができる。したがって、このアプローチによる配列決定は、ペプチドの一方の末端から他方の末端に向かって進行するので、標識エキソペプチダーゼ２００は、セットのすべての試薬がアミノペプチダーゼまたはカルボキシペプチダーゼ活性のいずれかを有するように設計または選択される。

図２Ｄにさらに示すように、処理２０１は、標識エキソペプチダーゼ２００を用いたリアルタイム配列（シーケンス）反応を模式的に示す。パネル（Ｉ）～（ＩＸ）は、ポリペプチドの末端での反復的な検出および切断を含むイベントの進行を、各パネルに描かれたイベントの下に示された、それに対応するシグナルトレースに関連して示す。例示のために、「ＫＬＤＧ．．．」という任意に選択されたアミノ酸配列を持つポリペプチドが示されている（一方の末端から他方の末端に向かって進む）。

パネル（Ｉ）は、ポリペプチドがサンプルウェルの底面または側壁面などの固体支持体の表面に固定化されている、配列決定反応の開始を描いている。いくつかの実施形態では、本願発明に係る配列決定方法は、リアルタイムでの単一分子（ｓｉｎｇｌｅｍｏｌｅｃｕｌｅ）配列決定を含む。いくつかの実施形態では、複数の単一分子配列決定反応が、サンプルウェルのアレイで同時に行われる。そのような実施形態では、ポリペプチドの固定化は、単一分子分析のためにポリペプチドをサンプルウェル内に固定することで、サンプルウェルからのポリペプチドの拡散を防止する。

パネル（ＩＩ）は、標識アフィニティ試薬のセット２００からのリジン特異的エキソペプチダーゼが、ポリペプチドの末端リジン残基に選択的結合する、検出イベントを示す。パネル（Ｉ）および（ＩＩ）の下のシグナルトレースに示すように、シグナルは、シグナル強度の増加を表示することで、この結合イベントを示し、これは、センサ（例えば、光検出器）で検出され得る。パネル（ＩＩＩ）は、末端アミノ酸に選択的結合した後、標識ペプチダーゼが末端アミノ酸を切断することを示している。その結果、これらの構成要素は、発光検出のための観察領域から自由に拡散し、パネル（ＩＩＩ）の下のトレースに示すように、シグナル強度の低下によってシグナル出力に報告される。パネル（ＩＶ）から（ＩＸ）は、パネル（Ｉ）から（ＩＩＩ）で説明した処理に類似して進行する。すなわち、標識エキソペプチダーゼが、対応する末端アミノ酸に結合し、切断して、それぞれ対応するシグナル出力の増加および減少を生じる。

図２Ａ～図２Ｄの例は、末端アミノ酸、内部アミノ酸、および修飾アミノ酸の認識を備えている。シグナルトレースは、これらのタイプのアミノ酸の任意の組み合わせだけでなく、各タイプを個別に認識することを可能にし得ることが理解され得る。例えば、末端アミノ酸および次の内部アミノ酸は、１つまたは複数のアフィニティ試薬と同時に相互作用し、アミノ酸のペアを示す光を生成してもよい。

いくつかの態様では、本願は、アフィニティ試薬および標識非特異的なエキソペプチダーゼとの末端アミノ酸の結合相互作用を評価することで、リアルタイムでポリペプチド配列を決定する方法を提供する。いくつかの実施形態では、アフィニティ試薬は、標識されていてもよい（例えば、発光標識で）。いくつかの実施形態では、アフィニティ試薬は、標識されていなくてもよい。アフィニティ試薬の例を本明細書に記載する。図３は、離散的な結合イベントがシグナルトレース３００のシグナルパルスを生じさせる配列決定方法の一例を示す。図３の挿入パネルは、この方法によるリアルタイム配列決定の一般的なスキームを示している。図示されているように、標識アフィニティ試薬３１０は、末端アミノ酸（ここではリジンとして示されている）に選択的結合し、解離し、これによって、センサによって検出され得るシグナルトレース３００の一連のパルスが生じる。いくつかの実施形態では、試薬は、結合の目標特性を持つように設計することができる。一例として、試薬は、パルス持続時間、パルス同士間持続時間、発光強度、および／または発光寿命の目標値を達成するように設計することができる。

本明細書に記載されているパルスの数、パルス持続時間の値、および／またはパルス同士間持続時間の値は、例示のためのものである。いくつかの実施形態は、本明細書に記載されたパルスの特定の数、パルス継続時間値、および／またはパルス同士間継続時間値に限定されない。さらに、本明細書に記載されているアミノ酸は、例示を目的としている。いくつかの実施形態は、特定のアミノ酸に限定されるものではない。

挿入パネルに示すように、配列決定反応混合物は、標識アフィニティ試薬３１０のものとは異なる発光標識を含む標識非特異的エキソペプチダーゼ３２０をさらに備えている。いくつかの実施形態では、標識非特異的エキソペプチダーゼ３２０は、標識アフィニティ試薬３１０の濃度よりも低い濃度で混合物中に存在する。いくつかの実施形態では、標識非特異的エキソペプチダーゼ３２０は、ほとんどまたはすべてのタイプの末端アミノ酸を切断するような幅広い特異性を示す。

シグナルトレース３００の進行によって示されるように、いくつかの実施形態では、標識非特異的エキソペプチダーゼ３２０による末端アミノ酸の切断がシグナルパルスを生じさせ、これらのイベントは標識アフィニティ試薬３１０の結合パルスよりも低い頻度で生じる。シグナルトレース３００にさらに示されているように、いくつかの実施形態では、複数の標識アフィニティ試薬が使用されてもよく、それぞれが診断パルスパターンを有し、対応する末端アミノ酸を同定するべく使用されてもよい。

図４は、図３のアプローチについて説明および図示した方法を、末端および内部の両方の位置で１種類のアミノ酸（ここではリジンとして示す）に選択的結合して解離する標識アフィニティ試薬４１０を使用することで変更した、配列決定の例示的な手法を示す（図４、挿入パネル）。前述のアプローチで説明したように、選択的結合は、シグナルトレース４００に一連のパルスを生じさせる。しかし、このアプローチでは、一連のパルスは、ポリペプチド全体のアミノ酸の種類の数によって決定される可能性のある速度で発生する。したがって、いくつかの実施形態では、結合イベントに対応するパルスのレートは、ポリペプチドに現在存在するコグネートアミノ酸の数を診断することになる。

従来のアプローチと同様に、標識非特異的ペプチダーゼ４２０は、例えば、切断イベント同士の間に最適な時間窓を与えるべく、標識アフィニティ試薬４１０よりも比較的低い濃度で存在するであろう（図４、挿入パネル）。いくつかの実施形態では、標識非特異的ペプチダーゼ４２０の一意に同定可能な発光標識が、切断イベントが発生したときに示すことができる。ポリペプチドが反復的な切断を受けると、標識アフィニティ試薬４１０による結合に対応するパルスレートは、末端アミノ酸が標識非特異的ペプチダーゼ４２０によって切断するたびに、段階的に低下するであろう。この概念はプロット４０１によって示されており、このプロットは一般にパルスレートを時間の関数として描いており、時間内の切断イベントは矢印で示されている。このように、いくつかの実施形態では、パルスパターンおよび／または切断イベント同士間で検出されたパターン内で発生するパルスレートに基づき、このアプローチでアミノ酸を同定し、それによってポリペプチドを配列することができる。

［タンパク質同定のための機械学習技術］
図５Ａは、説明した技術の側面が実施され得るシステム５００を示す。システム５００は、タンパク質配列決定装置５０２、モデル学習システム５０４、およびデータストア５０６を備えており、これらの各々はネットワーク５０８に接続されている。

いくつかの実施形態では、タンパク質配列決定装置５０２は、（例えば、図１～図４を参照して上述したような）タンパク質のポリペプチドの配列決定から得られたデータを、保存のためにデータストア５０６に送信するように構成されてもよい。タンパク質配列決定装置５０２によって収集され得るデータの例は、本明細書に記載されている。タンパク質配列決定装置５０２は、ネットワーク５０８を介してモデル学習システム５０４から機械学習モデルを取得するように構成されてもよい。いくつかの実施形態では、タンパク質配列決定装置５０２は、学習済み機械学習モデルを使用してポリペプチドを同定するように構成されてもよい。タンパク質配列決定装置５０２は、（１）ポリペプチドのアミノ酸配列決定から収集されたデータにアクセスする工程と、（２）学習済み機械学習モデルへの入力としてデータを提供して出力を得る工程と、および（３）対応する出力を使用してポリペプチドを同定する工程と、の方法で未知のポリペプチドを同定するように構成されてもよい。タンパク質配列決定装置５０２の構成要素は、図５Ｂ～図５Ｃを参照して本明細書に記載されている。

図５Ａに示される例示的なシステム５００は、単一のタンパク質配列決定装置を示しているが、いくつかの実施形態では、システム５００は、複数のタンパク質配列決定装置を備えてもよい。

いくつかの実施形態では、モデル学習システム５０４は、データストア５０６に格納されたデータにアクセスし、アクセスされたデータを使用して、ポリペプチドを同定する際に使用する機械学習モデルを学習するように構成されたコンピューティング装置であってもよい。いくつかの実施形態では、モデル学習システム５０４は、複数のタンパク質配列決定装置のそれぞれについて別個の機械学習モデルを学習するように構成されてもよい。例として、モデル学習システム５０４は、以下を行ってもよい。（１）アミノ酸配列決定から第１タンパク質配列決定装置によって収集されたデータを使用して、第１タンパク質配列決定装置のための第１機械学習モデルを学習し、（２）アミノ酸配列決定から第２タンパク質配列決定装置によって収集されたデータを使用して、第２タンパク質配列決定装置のための第２機械学習モデルを学習する。それぞれの装置のための別個の機械学習モデルは、それぞれのタンパク質配列決定装置の固有の特性に合わせてもよい。いくつかの実施形態では、モデル学習システム５０４は、単一の学習済み機械学習モデルを複数のタンパク質配列決定装置に提供するように構成されてもよい。一例として、モデル学習システム５０４は、複数のタンパク質配列決定装置によって実行されるアミノ酸配列決定から収集されたデータを集約し、単一の機械学習モデルを学習してもよい。単一の機械学習モデルは、装置のばらつきに起因するモデルパラメータを緩和するべく、複数のタンパク質配列決定装置に対して正規化されてもよい。

いくつかの実施形態では、モデル学習システム５０４は、以前に学習済み機械学習モデルを定期的に更新するように構成されてもよい。いくつかの実施形態では、モデル学習システム５０４は、新しい学習データを使用して機械学習モデルの１つまたは複数のパラメータの値を更新することで、以前に学習済みモデルを更新するように構成されてもよい。いくつかの実施形態では、モデル学習システム５０４は、以前に取得された学習データと新しい学習データとの組み合わせを使用して新しい機械学習モデルを学習することで、機械学習モデルを更新するように構成されてもよい。

モデル学習システム５０４は、異なるタイプのイベントのいずれか１つに応答して機械学習モデルを更新するように構成されてもよい。例えば、いくつかの実施形態では、モデル学習システム５０４は、ユーザコマンドに応答して機械学習モデルを更新するように構成されてもよい。一例として、モデル学習システム５０４は、ユーザが学習処理の実行を命令することができるユーザインタフェースを提供してもよい。いくつかの実施形態では、モデル学習システム５０４は、例えば、ソフトウェアコマンドに応答して、機械学習モデルを自動的に（すなわち、ユーザコマンドに応答せずに）更新するように構成されてもよい。別の例として、いくつかの実施形態では、モデル学習システム５０４は、１つまたは複数の条件を検出することに応答して、機械学習モデルを更新するように構成されてもよい。例えば、モデル学習システム５０４は、或る期間の満了を検出することに応答して、機械学習モデルを更新してもよい。別の例として、モデル学習システム５０４は、閾値量の新しい学習データを受け取ることに応答して、機械学習モデルを更新してもよい。

いくつかの実施形態では、モデル学習システム５０４は、ラベル付けされた学習データに教師付き学習学習アルゴリズムを適用することで、機械学習モデルを学習するように構成されてもよい。一例として、モデル学習システム５０４は、確率的勾配降下法を用いて深層学習モデル（例えば、ニューラルネットワーク）を学習するように構成されてもよい。別の例として、モデル学習システム５０４は、コスト関数を最適化することでＳＶＭの決定境界を同定するべく、サポートベクターマシン（ＳＶＭ）を学習してもよい。いくつかの実施形態では、モデル学習システム５０４は、教師なし学習アルゴリズムを学習データに適用することで、機械学習モデルを学習するように構成されてもよい。一例として、モデル学習システム５０４は、ｋ－ｍｅａｎｓクラスタリングを実行することで、クラスタリングモデルのクラスタを同定してもよい。いくつかの実施形態では、モデル学習システム５０４は、半教師付き学習アルゴリズムを学習データに適用することで、機械学習モデルを学習するように構成されてもよい。一例として、モデル学習システム５０４は、（１）教師なし学習アルゴリズム（例えば、クラスタリング）を学習データに適用することで、ラベル付けされていない学習データセットをラベル付けし、（２）ラベル付けされた学習データに教師あり学習アルゴリズムを適用する、ようにしてもよい。

いくつかの実施形態では、機械学習モデルは、深層学習モデル（例えば、ニューラルネットワーク）を備えてもよい。一例として、深層学習モデルは、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、多層パーセプトロン、オートエンコーダおよび／またはコネクショニスト時間分類ＣＴＣ適合ニューラルネットワークモデルを備えてもよい。いくつかの実施形態では、機械学習モデルは、クラスタリングモデルを備えてもよい。一例として、クラスタリングモデルは、複数のクラスタを備えてもよく、クラスタの各々は、１つまたは複数のアミノ酸に関連付けられている。

いくつかの実施形態では、機械学習モデルは、１つまたは複数の混合モデルを備えてもよい。モデル学習システム５０４は、機械学習モデルのグループ（例えば、クラスまたはグループ）のそれぞれについて、混合モデルを学習するように構成されてもよい。一例として、機械学習モデルは、６つの異なるグループを備えてもよい。モデル学習システム５０４は、グループのそれぞれについて、ガウス混合モデル（ＧＭＭ）を学習してもよい。モデル学習システム５０４は、それぞれのグループに関連するアミノ酸（複数可）を含む結合相互作用の学習データを使用して、それぞれのグループについてガウス混合モデルＧＭＭを学習してもよい。機械学習モデルの前述の例は非限定的な例であり、本明細書に記載された技術の側面はこの点では限定されないので、他の実施形態では任意の他の適切なタイプの機械学習モデルが使用されてもよいことが理解されるべきである。

いくつかの実施形態では、データストア５０６は、データを格納するためのシステムであってもよい。いくつかの実施形態では、データストア５０６は、１つまたは複数のコンピュータ（例えば、サーバ）によってホストされる１つまたは複数のデータベースを備えてもよい。いくつかの実施形態では、データストア５０６は、１つまたは複数の物理的記憶装置を備えてもよい。一例として、物理的記憶装置は、１つまたは複数のソリッドステートドライブ、ハードディスクドライブ、フラッシュドライブ、および／または光学ドライブを備えてもよい。いくつかの実施形態では、データストア５０６は、データを格納する１つまたは複数のファイルを備えてもよい。一例として、データストア５０６は、データを格納する１つまたは複数のテキストファイルを備えてもよい。別の例として、データストア５０６は、１つまたは複数のＸＭＬファイルを備えてもよい。いくつかの実施形態では、データストア５０６は、コンピューティング装置のストレージ（例えば、ハードドライブ）であってもよい。いくつかの実施形態では、データストア５０６は、クラウドストレージシステムであってもよい。

いくつかの実施形態では、ネットワーク５０８は、無線ネットワーク、有線ネットワーク、またはそれらの任意の適切な組み合わせであってもよい。一例として、ネットワーク５０８は、インターネットのようなワイドエリアネットワーク（ＷＡＮ）であってもよい。いくつかの実施形態では、ネットワーク５０８は、ローカルエリアネットワーク（ＬＡＮ）であってもよい。ローカルエリアネットワークは、タンパク質配列決定装置５０２、モデル学習システム５０４、およびデータストア５０６の間の有線および／または無線接続によって形成されてもよい。いくつかの実施形態は、本明細書に記載される任意の特定のタイプのネットワークに限定されない。

図５Ｂは、本明細書に記載の技術のいくつかの実施形態による、図５Ａに示すタンパク質配列決定装置５０２の構成要素を示す。タンパク質配列決定装置５０２は、１つまたは複数の励起源５０２Ａ、１つまたは複数のウェル５０２Ｂ、１つまたは複数のセンサ５０２Ｃ、およびタンパク質同定システム５０２Ｄを備えている。

いくつかの実施形態では、励起源（複数可）５０２Ａは、複数の異なるウェル５０２Ｂに励起エネルギー（例えば、光のパルス）を印加するように構成される。いくつかの実施形態では、励起源（複数可）５０２Ａは、１つまたは複数の発光器であってもよい。一例として、励起源（複数可）５０２Ａは、レーザ光のパルスを放出する１つまたは複数のレーザ発光器を備えてもよい。別の例として、励起源（複数可）５０２Ａは、光のパルスを放出する１つまたは複数の発光ダイオード（ＬＥＤ）光源を備えてもよい。いくつかの実施形態では、励起源（複数可）５０２Ａは、放射線を生成する１つまたは複数の装置であってもよい。一例として、励起源（複数可）５０２Ａは、紫外線（ＵＶ）光線を放出してもよい。

いくつかの実施形態では、励起源（複数可）５０２Ａは、ウェル５０２Ｂに印加される励起パルスを生成するように構成されてもよい。いくつかの実施形態では、励起パルスは、光のパルス（例えば、レーザ光）であってもよい。励起源（複数可）５０２Ａは、励起パルスをウェル５０２Ｂに向けるように構成されてもよい。いくつかの実施形態では、励起源（複数可）５０２Ａは、それぞれのウェルに励起パルスを繰り返し印加するように構成されてもよい。一例として、励起源（複数可）５０２Ａは、１００ＭＨｚの周波数でレーザパルスを放出してもよい。発光標識に光パルスを印加すると、発光標識が発光してもよい。一例として、発光標識は、印加された光パルスの１つまたは複数の光子を吸収し、それに応答して、１つまたは複数の光子を放出してもよい。発光標識（例えば、発光分子）の種類によって、励起エネルギーの印加に対する反応が異なる場合がある。例として、異なるタイプの発光標識は、光のパルスに応答して異なる数の光子を放出し、および／または光のパルスに応答して異なる周波数で光子を放出することがある。

いくつかの実施形態では、ウェル（複数可）５０２Ｂのそれぞれは、検体の１つまたは複数のサンプル（例えば、タンパク質ポリペプチドのサンプル）を保持するように構成された容器を備えてもよい。いくつかの実施形態では、１つまたは複数の試薬とポリペプチドのアミノ酸との結合相互作用が、（例えば、図１～図４を参照して上述したように）ウェル（複数の）５０２Ｂで行われてもよい。試薬（複数可）は、発光標識で標識（標識付け）されていてもよい。励起源５０２Ａによって印加された励起エネルギーに応答して、発光標識は光を放出してもよい。

図５Ｂの例示的な実施形態に示すように、いくつかの実施形態では、ウェル（複数可）５０２Ｂは、ウェルのマトリクスに配置されてもよい。マトリックス内の各ウェルは、検体の１つまたは複数のサンプルを保持するように構成された容器を備えてもよい。いくつかの実施形態では、ウェル（複数可）５０２Ｂは、図５Ｂに図示されたものとは異なる配置で配置されてもよい。一例として、ウェル（複数可）５０２Ｂは、中心軸の周りに放射状に配置されてもよい。いくつかの実施形態は、ウェル（複数可）５０２Ｂの特定の配置に限定されない。

いくつかの実施形態では、センサ（複数可）５０２Ｃは、ウェル（複数可）５０２Ｂからの（例えば、発光標識による）発光を検出するように構成されてもよい。いくつかの実施形態では、センサ（複数可）５０２Ｃは、検出された発光を電気シグナルに変換するように構成された１つまたは複数の光検出器であってもよい。一例として、センサ（複数可）５０２Ｃは、発光を電気電圧または電流に変換してもよい。電気的な電圧または電流は、さらにデジタルシグナルに変換されてもよい。生成されたシグナルは、ポリペプチドの同定のために（例えば、タンパク質同定システム５０２によって）使用されてもよい。いくつかの実施形態では、センサ（複数可）５０２Ｃによって生成されたシグナルは、発光の様々な特性の値を得るべく処理されてもよい。一例として、シグナルは、発光の強度、発光の持続時間、発光同士間の持続時間、および発光の寿命の値を得るべく処理されてもよい。

いくつかの実施形態では、センサ（複数可）５０２Ｃは、測定期間にわたって発光標識による発光を測定するように構成されてもよい。一例として、センサ（複数可）５０２Ｃは、１０ｍｓの測定期間にわたって光子の数を測定してもよい。いくつかの実施形態において、発光標識は、それぞれの確率での励起に応じて光子を放出してもよい。一例として、発光標識は、１０，０００回の励起につき、１個の光子を放出することができる。発光標識が１０ｍｓの測定期間内に１００万回励起された場合、この例では、約１００個の光子がセンサ（複数可）５０２Ｃによって検出される可能性がある。異なる発光標識は、異なる確率で光子を放出してもよい。いくつかの実施形態は、本明細書に記載された値が例示目的であるので、本明細書に記載された光子放出の特定の確率に限定されない。

いくつかの実施形態では、センサ（複数可）５０２Ｃは、励起パルス（例えば、レーザパルス）の印加後の時間期間（タイムピリオド）の複数の時間区間（タイムインターバル）のそれぞれにおいて検出された光子の数（「光子カウント」）を決定するように構成されてもよい。本明細書では、時間区間を「ｉｎｔｅｒｖａｌ」、「ｂｉｎ」（ビン）、または「ｔｉｍｅｂｉｎ」（時間ビン）と呼ぶこともある。一例として、センサ（複数可）５０２Ｃは、励起パルスの印加後、約３ｎｓの第１時間区間で検出された光子の数と、レーザパルスの印加後、約３ｎｓの第２時間区間で検出された光子の数とを決定してもよい。いくつかの実施形態では、各時間区間は実質的に同じ持続時間を有していてもよい。いくつかの実施形態では、各時間区間は、異なる持続時間を有してもよい。いくつかの実施形態では、センサ（複数可）５０２Ｃは、励起パルスの印加後の時間期間の２、３、４、５、６、または７つの時間区間で検出された光子の数を決定するように構成されてもよい。いくつかの実施形態は、センサ（複数可）５０２Ｃが検出された光子の数を決定するように構成される時間区間の任意の数に限定されない。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、センサ（複数可）５０２Ｃによって収集されたデータに基づきポリペプチドを同定するように構成されたコンピューティング装置であってもよい。タンパク質同定システム５０２Ｄは、ポリペプチドを同定するべくタンパク質同定システム５０２Ｄによって使用される機械学習モデルを備えている。いくつかの実施形態では、学習済み機械学習モデルは、図５Ａを参照して上述したモデル学習システム５０４から得られてもよい。タンパク質同定システム５０２Ｄによって使用され得る機械学習モデルの例は、本明細書に記載されている。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、ポリペプチドを同定する際に使用するための出力を得るべく、センサ（複数可）５０２Ｃによって収集されたデータを使用して、機械学習モデルへの入力を生成するように構成されてもよい。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、センサ（複数可）５０２Ｃによって収集されたデータを処理して、機械学習モデルへの入力として提供するためのデータを（追加の前処理を伴ってまたは伴わずに）生成するように構成されてもよい。一例として、タンパク質同定システム５０２Ｄは、センサ（複数可）５０２Ｃによって検出された結合相互作用の１つまたは複数の特性の値を決定することで、機械学習モデルへの入力として提供するデータを生成してもよい。結合相互作用の例示的な特性は、本明細書に記載されている。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、データをデータ構造（例えば、行列または画像）に配置することで、機械学習モデルへの入力として提供するデータを生成するように構成されてもよい。一例として、タンパク質同定システム５０２Ｄは、１つまたは複数の励起パルス（例えば、レーザパルス）の印加後の時間区間で検出された光子カウントを同定してもよい。タンパク質同定システム５０２Ｄは、光子カウントを、機械学習モデルに入力するためのデータ構造に配列するように構成されてもよい。一例として、タンパク質同定システム５０２Ｄは、励起パルスに続く光子カウント（計数）を行列の列または行に配列してもよい。別の例として、タンパク質同定システム５０２Ｄは、機械学習モデルに入力するための画像を生成してもよく、画像の画素は、それぞれの光子カウントを指定する。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、発光標識による発光の強度の指標を決定するように構成されてもよく、これは、本明細書では「発光強度」と呼ばれてもよい。発光強度は、励起エネルギー（例えば、レーザパルス）の印加に応答して発光標識が単位時間当たりに放出する光子の数であってもよい。一例として、タンパク質同定システム５０２Ｄが、励起パルスの印加後の１０ｎｓの測定時間期間に全５個の光子が検出されたと判定した場合、タンパク質同定システム５０２Ｄは、発光強度の値を０．５光子／ｎｓと判定してもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、複数の励起パルスの各々の印加後に検出された光子の総数に基づき、発光強度の表示を決定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、複数の励起パルスの印加後に検出された光子の平均数を、発光強度の指示に決定してもよい。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、発光標識による発光の寿命の指標を決定するように構成されてもよく、これは、本明細書で「発光寿命」と呼ばれてもよい。発光寿命は、光子放出の確率が時間とともに減衰する速度であってもよい。一例として、タンパク質同定システム５０２Ｄが、励起パルスの印加後の時間期間の２つの区間で検出された光子の数を決定する場合、タンパク質同定システム５０２Ｄは、第１区間の光子の数に対する第２区間の光子の数の比を、光子放出の経時的な減衰の指標と決定してもよい。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、試薬とアミノ酸との結合相互作用について検出された１つまたは複数のシグナルパルスのそれぞれの持続時間の指標を決定するように構成されてもよい。シグナルパルスの持続時間は、本明細書では、「パルス持続時間」とも呼ばれることがある。例えば、試薬とアミノ酸との結合相互作用中、試薬および／またはアミノ酸が標識されている発光標識は、１つまたは複数の光のパルスを放出してもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、光パルスの持続時間をパルス持続時間値として決定するように構成されてもよい。一例として、上述した図３は、標識試薬３１０とアミノ酸（Ｋ）との結合相互作用中に放出される一連の光のパルスを示している。タンパク質同定システム５０２Ｄは、パルス持続時間値を、図３に示されるアミノ酸（Ｋ）を含む結合相互作用のための光のパルスの持続時間に決定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、パルス持続時間値を、電気センサ（例えば、電圧センサ）によって検出された電気パルスの持続時間に決定するように構成されてもよい。いくつかの実施形態は、パルス持続時間を検出する特定の技術に限定されない。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、試薬とアミノ酸との結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間の指標を決定するように構成されてもよい。連続するシグナルパルス同士間の時間の持続時間は、本明細書では、「パルス同士間持続時間」（インターパルスデュアレーション）とも呼ばれることがある。それぞれの結合相互作用中に、発光標識は複数のパルスを発光してもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、パルス同士間持続時間の値を、２つの連続する光のパルスの間の時間の持続時間と決定するように構成されてもよい。一例として、タンパク質同定システム５０２Ｄは、パルス同士間持続時間値を、図３に示すアミノ酸（Ｋ）と試薬の結合相互作用のための光パルス同士間の時間の持続時間と決定してもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、パルス同士間持続時間値を、電気センサ（例えば、電圧センサ）によって検出された電気パルス同士間の持続時間に決定するように構成されてもよい。いくつかの実施形態は、パルス持続時間を検出する特定の技術に限定されない。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、本明細書に記載される結合相互作用の１つまたは複数の特性から決定される１つまたは複数のパラメータの値を決定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、特性の値のセットにわたる要約統計を決定するように構成されてもよい。一例として、システムは、パルス持続時間値、パルス同士間持続時間値、発光強度値、発光寿命値、及び／又は波長値のセットの平均値、中央値、標準偏差、及び／又は範囲を決定してもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、結合反応の平均パルス持続時間値を決定するように構成されてもよい。一例として、タンパク質同定システム５０２Ｄは、図３に示すアミノ酸（Ｋ）の結合相互作用の平均パルス持続時間値を、結合相互作用中に放出される光パルスの平均持続時間と決定してもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、結合反応の平均パルス同士間持続時間値を決定するように構成されてもよい。一例として、タンパク質同定システム５０２Ｄは、図３に示すアミノ酸（Ｋ）の結合相互作用についての平均パルス同士間持続時間値を、結合相互作用中に放出された連続する光パルス同士間の持続時間の平均値と決定してもよい。いくつかの実施形態では、パラメータは、試薬および／または発光標識の特性を備えてもよい。いくつかの実施形態では、特性は、特性の値を用いた試薬および／または発光標識の速度定数を備えてもよい。一例として、システムは、パルス持続時間および／またはパルス同士間持続時間の値を用いて、結合親和性（Ｋ_Ｄ）、結合のオン率（ｋ_ｏｎ）、および／または結合のオフ率（ｋ_ｏｆｆ）を決定してもよい。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、パルス持続時間とパルス同士間持続時間との比、発光寿命と発光強度との比、および／または、特性の値から決定され得る他の値を示す値を決定するように構成されてもよい。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、提供された入力に応答して、学習済み機械学習モデルから出力を得るように構成されてもよい。タンパク質同定システム５０２Ｄは、ポリペプチドを同定するべく出力を使用するように構成されてもよい。いくつかの実施形態では、出力は、ポリペプチド内の複数の位置のそれぞれについて、１つまたは複数のアミノ酸がポリペプチド内の位置に存在するという１つまたは複数の尤度を示してもよい。一例として、出力は、位置のそれぞれについて、２０個の天然に存在するアミノ酸のそれぞれがその位置に存在するという尤度を示してもよい。いくつかの実施形態において、タンパク質同定システム５０２Ｄは、尤度を正規化するように構成されてもよく、正規化されてもよく正規化されなくてもよい。いくつかの実施形態では、正規化された尤度は、「確率」または「正規化された尤度」と呼ばれてもよい。いくつかの実施形態では、確率の合計は１になってもよい。例えば、或る位置に４つのアミノ酸が存在することの尤度は、５、５、５、５であってもよい。この例の確率（または正規化された尤度）は、０．２５、０．２５、０．２５、および０．２５であってもよい。

いくつかの実施形態では、ポリペプチド内の複数の位置のそれぞれについて、出力は、アミノ酸のそれぞれについて、そのアミノ酸がその位置に存在するという確率を示す確率分布であってもよい。また、各アミノ酸について、他のアミノ酸との相対的位置関係の確率を示してもよいし、ポリペプチド内のアミノ酸の絶対的な位置関係の確率を示してもよい。各位置について、例えば、出力は、２０個のアミノ酸のそれぞれについて、そのアミノ酸がその位置に存在するという確率を示す値を指定する。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、ポリペプチドのアミノ酸配列を同定する出力を得るように構成されてもよい。一例として、機械学習モデルの出力は、ポリペプチドの一部を形成するアミノ酸の鎖を同定する文字列であってもよい。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、機械学習モデルから得られた出力を使用して、ポリペプチドを同定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、機械学習モデルから得られた出力を、タンパク質のデータベース内のタンパク質に照合するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、それぞれのタンパク質を指定する既知のアミノ酸配列のデータストアにアクセスしてもよい。タンパク質同定システム５０２Ｄは、機械学習モデルからの出力が最もよく一致するアミノ酸配列をデータストアから同定することで、機械学習モデルの出力をタンパク質に一致させるように構成されてもよい。一例として、出力が、ポリペプチド内の位置に様々なアミノ酸が存在するという尤度を示している場合、システムは、データストア内の配列から、出力が最も密接に整合するアミノ酸配列を同定してもよい。タンパク質同定システム５０２Ｄは、同定されたアミノ酸配列によって指定されたそれぞれのタンパク質を、そのタンパク質であると同定してもよい。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、機械学習システムから得られた出力に基づき隠れマルコフモデル（ＨＭＭ）を生成し、既知のアミノ酸配列に対して隠れマルコフモデルＨＭＭを照合するように構成されてもよい。タンパク質同定システム５０２Ｄは、隠れマルコフモデルＨＭＭが照合されたアミノ酸配列に関連するタンパク質を同定してもよい。別の例として、機械学習システムの出力は、アミノ酸配列を同定してもよい。タンパク質同定システム５０２Ｄは、機械学習システムの出力によって同定されたアミノ酸配列に最も近く一致するアミノ酸配列をデータストアから選択してもよい。タンパク質同定システム５０２Ｄは、機械学習システムの出力によって同定されたアミノ酸配列との不一致が最も少ない既知のアミノ酸配列を決定することで、最密一致を決定してもよい。タンパク質同定システム５０２Ｄは、タンパク質を、データストアから選択されたアミノ酸配列に関連するものとして同定してもよい。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、タンパク質配列決定装置５０２を較正するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、機械学習モデルを学習することでタンパク質配列決定装置５０２を較正するように構成されてもよい。タンパク質同定システム５０２Ｄは、モデル学習システム５０４を参照して説明したアプローチのうちの１つまたは複数を使用して、機械学習モデルを学習するように構成されてもよい。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、１つまたは複数の既知のポリペプチド（例えば、アミノ酸配列（複数可）が一部または全体のいずれかで既知である）に関連するデータを使用して機械学習モデルを学習することで、タンパク質配列決定装置５０２を較正するように構成されてもよい。既知のポリペプチド配列に関連するデータを用いて学習を実行することで、タンパク質同定システム５０２Ｄは、異なるアミノ酸および／またはタンパク質をより正確に区別する出力を提供する機械学習モデルを得ることができる。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、アミノ酸配列が一部または全体のいずれかで知られているポリペプチドのアミノ酸との試薬の結合相互作用中の発光標識による検出された発光から得られたデータを使用するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、機械学習モデルが出力を生成するべく使用することができる１つまたは複数のグループ（例えば、クラスおよび／またはクラスタ）を同定するべく、データに学習アルゴリズムを適用するように構成されてもよい。

いくつかの実施形態では、機械学習モデルは、クラスタリングモデルを備えてもよく、タンパク質同定システム５０２Ｄは、クラスタリングモデルのクラスタを同定するべく教師なし学習アルゴリズム（例えば、ｋ－ｍｅａｎｓ）を適用することで、タンパク質配列決定装置５０２を較正するように構成されてもよい。次に、同定されたクラスタは、未知のポリペプチドを同定する際に使用するための出力を生成するべく、機械学習モデルによって使用されてもよい。一例として、タンパク質同定システム５０２Ｄは、機械学習モデルに入力されたデータに対する出力を生成するべく、機械学習モデルによって使用され得る、クラスタのセントロイドを同定してもよい。別の例として、タンパク質同定システム５０２Ｄは、アミノ酸の異なるグループ間の境界を同定してもよい（例えば、パルス持続時間、パルス同士間持続時間、波長、発光強度、発光寿命、及び／又は、これら及び／又は他の特性から導出される他の値に基づいて）。そして、境界に対するデータ点の相対的位置は、機械学習モデルによって、機械学習モデルへのそれぞれの入力に対する出力を生成するべく使用されてもよい。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、ウェル５０２Ｂのそれぞれについてタンパク質配列決定装置５０２を較正するように構成されてもよい。タンパク質同定システム５０２Ｄは、個々のウェルについて、個々のウェルで行われた結合相互作用について得られたデータを用いて、それぞれの機械学習モデルを学習するように構成されてもよい。これによって、個々のウェル５０２Ｂに合わせて微調整されたタンパク質配列決定装置５０２が提供されることになる。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、複数のウェルに対してタンパク質配列決定装置５０２を較正するように構成されてもよい。タンパク質同定システム５０２Ｄは、配列決定装置（シーケンサ）の複数のウェルにわたって行われた結合相互作用について得られたデータを用いて、機械学習モデルを学習するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム５０２Ｄは、複数のウェルに対して使用され得る一般化モデルを得るように構成されてもよい。一般化されたモデルは、個々のウェルから得られたデータの特異性を平均化または他の方法で平滑化してもよく、複数のウェルにわたって良好な性能を有してもよいが、特定のウェルに合わせたモデルは、特定のウェルから得られた将来のデータでは良好な性能を示しても、複数の異なるウェルからの将来のデータでは良好な性能を示さなくてもよい。

いくつかの実施形態では、タンパク質同定システム５０２Ｄは、個々のウェルから得られたデータを使用して、複数のウェルのために作成された一般化されたモデルを、特定の個々のウェルに適応させるように構成されてもよい。一例として、タンパク質同定システム５０２Ｄは、ウェルにおける結合相互作用について得られたデータに基づき、それぞれのウェルに対する一般化モデルのクラスタセントロイドを修正してもよい。

複数のウェルについて単一のモデルを較正することは、個々のウェルからより少ないデータを必要とするという利点を有し、したがって、較正に使用するためのデータを収集するべく、個々のウェルについて個別のモデルを学習するべく必要とされるよりも少ない実行時間を必要とする場合がある。一般化されたモデルを使用することの別の利点は、単一のモデルを格納することが、タンパク質配列決定装置５０２の各ウェルに対して個別のモデルを格納するべく必要とされるよりも、より少ないメモリを必要とし得ることである。

較正は、任意の適切な時間に実行されてもよい。例えば、較正は、タンパク質配列決定装置５０２を最初に使用する前に、新しい標識のセットを使用する際に、タンパク質配列決定装置５０２が使用される環境条件が変化した際に、またはタンパク質配列決定装置５０２の構成要素の老化を考慮するべく使用期間の後に、望ましいかもしれない。較正はまた、装置のボタンを押すか、他の装置から装置に較正コマンドを送信するなど、ユーザからの要求に応じて、またはソフトウェアコマンドに応じて、スケジュールに基づいてまたは必要に応じて自動的に実行されてもよい。

図５Ｃは、タンパク質配列決定装置５０２のウェル５０２Ｂ部分の例示的なウェルを示している。図５Ｃの例示された例では、ウェルは、配列決定されているタンパク質のサンプル５０２Ｆと、サンプル５０２Ｆのアミノ酸に結合する試薬５０２Ｇとを保持している。

いくつかの実施形態では、タンパク質のサンプル５０２Ｆは、タンパク質の１つまたは複数のポリペプチドを備えてもよい。ポリペプチド（複数可）は、図５Ｃに示されるように、ウェルの表面に固定化されてもよい。いくつかの実施形態では、サンプル５０２Ｆのデータは、サンプル５０２Ｆの末端アミノ酸との１つまたは複数の試薬５０２Ｇの連続した結合および切断の相互作用に基づき、センサ（複数可）によって収集されてもよい。いくつかの実施形態では、試薬５０２Ｇは、実質的に同時にサンプル５０２Ｆのアミノ酸に結合してもよい。いくつかの実施形態では、複数の種類の試薬が、アミノ酸のすべてまたはサブセットに結合するように設計されてもよい。アミノ酸に結合する１つまたは複数の試薬の組み合わせは、ポリペプチドを同定するべく使用することができる結合相互作用の特性の検出値（例えば、発光強度、発光寿命、パルス持続時間、パルス同士間持続時間、波長、および／またはそれに由来する任意の値）をもたらしてもよい。いくつかの実施形態では、試薬（例えば、分子）の組み合わせのそれぞれは、異なる特性を有していてもよい。一例として、試薬の各々は、異なる結合親和性（Ｋ_Ｄ）、結合率（ｋ_ｏｎ）、および／または結合オフ率（ｋ_ｏｆｆ）を有していてもよい。別の例として、試薬および／またはアミノ酸に関連する発光標識は、異なる蛍光特性を有していてもよい。試薬および試薬とアミノ酸との結合相互作用の例は、図１～図４を参照して本明細書に記載されている。

いくつかの実施形態では、試薬５０２Ｇは、発光標識でタグ付けされてもよい。試薬は、図１～図４を参照して上述したように、１つまたは複数のアミノ酸に選択的結合するように設計されてもよい。いくつかの実施形態では、ポリペプチド５０２Ｆの１つまたは複数のアミノ酸は、発光標識でタグ付けされてもよい。一例として、１つまたは複数の種類のアミノ酸が発光標識でタグ付けされてもよい。励起源（複数可）５０２Ａは、１つまたは複数の試薬５０２Ｇとポリペプチド５０２Ｆのアミノ酸との間で結合相互作用が起こる際に、励起エネルギー（例えば、光パルス）をウェルに印加してもよい。励起エネルギーの印加によって、試薬５０２Ｇおよび／またはアミノ酸がタグ付けされている発光標識による発光が生じてもよい。発光は、センサ５０２Ｃによって検出され、データを生成してもよい。次いで、データは、本明細書に記載されるように、ポリペプチドを同定するべく使用されてもよい。

図５Ａ～図５Ｃの例示的な実施形態は、発光標識による発光の検出から得られる結合相互作用データの使用を説明しているが、いくつかの実施形態では、他の技術を用いて結合相互作用データを得てもよい。いくつかの実施形態では、タンパク質配列決定装置は、結合相互作用について検出された電気シグナルの検出から得られた結合相互作用データにアクセスするように構成されてもよい。例えば、タンパク質配列決定装置は、結合相互作用に敏感な電圧シグナルを検出する電気シグナルを備えてもよい。タンパク質同定システム５０２Ｄは、電圧シグナルを使用して、パルス持続時間値および／またはパルス同士間持続時間値を決定するように構成されてもよい。いくつかの実施形態は、試薬とアミノ酸の結合相互作用を検出する特定の技術に限定されない。

図６Ａは、本明細書に記載の技術のいくつかの実施形態による、ポリペプチドを同定するための機械学習モデルを学習するための例示的な処理６００を示す。処理６００は、任意の適切なコンピューティング装置（複数可）によって実行されてもよい。一例として、処理６００は、図５Ａを参照して説明したモデル学習システム５０４によって実行されてもよい。処理６００は、本明細書に記載の機械学習モデルを学習するべく実行されてもよい。一例として、処理６００は、図１０Ａ～図１０Ｃを参照して説明したようなクラスタリングモデルおよび／またはガウス混合モデル（ＧＭＭ）を学習するべく実行されてもよい。別の例として、処理６００は、図１１を参照して説明した畳み込みニューラルネットワーク（ＣＮＮ）１１００を学習するべく実行されてもよい。別の例として、処理６００は、図１２を参照して記述されたコネクショニスト時間分類（ＣＴＣ）適合ニューラルネットワークモデル１２００を学習するべく実行されてもよい。

いくつかの実施形態では、機械学習モデルは、クラスタリングモデルであってもよい。いくつかの実施形態では、モデルの各クラスタは、１つまたは複数のアミノ酸に関連付けられてもよい。例示的な例として、クラスタリングモデルは、５つのクラスタを備えてもよく、各クラスタは、アミノ酸のそれぞれのセットに関連付けられる。例えば、第１クラスタは、アラニン、イソロイシン、ロイシン、メチオニン、およびバリンに関連付けられてもよく、第２クラスタは、アスパラギン、システイン、グルタミン、セリン、およびスレオニンに関連付けられてもよく、第３クラスタは、アルギニン、ヒスチジン、およびリジンに関連付けられてもよく、第４クラスタは、アスパラギン酸およびグルタミン酸に関連付けられてもよく、第５クラスタは、フェニルアラニン、トリプトファン、およびチロシンに関連付けられてもよい。クラスタおよび関連するアミノ酸の例示番号は、例示の目的で本明細書に記載されている。いくつかの実施形態は、任意の特定の数のクラスタまたは本明細書に記載された特定のセットのアミノ酸との関連に限定されない。

いくつかの実施形態では、機械学習モデルは、深層学習モデルであってもよい。いくつかの実施形態では、深層学習モデルは、ニューラルネットワークであってもよい。一例として、機械学習モデルは、畳み込みニューラルネットワークＣＮＮへの入力として提供されたデータセットに対して、ポリペプチドの１つまたは複数のアミノ酸を同定する出力を生成する畳み込みニューラルネットワーク（ＣＮＮ）であってもよい。別の例として、機械学習モデルは、コネクショニスト時間分類ＣＴＣにフィッティング（適合）したニューラルネットワークであってもよい。いくつかの実施形態では、深層学習モデルの一部が別々に学習されてもよい。一例として、深層学習モデルは、入力データを１つまたは複数の特徴量の値で符号化する第１部分と、ポリペプチドの１つまたは複数のアミノ酸を同定する出力を生成するべく、入力として特徴量の値を受け取る第２部分とを有していてもよい。

いくつかの実施形態では、機械学習モデルは、複数のグループ（例えば、クラスまたはクラスタ）を備えてもよく、機械学習モデルは、各グループに対する別個のモデルを備えてもよい。いくつかの実施形態では、各グループのモデルは、混合モデルであってもよい。一例として、モデルは、グループに関連するアミノ酸がポリペプチド内の位置に存在するという尤度を決定するための、グループのそれぞれに対するガウス混合モデル（ＧＭＭ）を備えてもよい。それぞれのグループについてのガウス混合モデルＧＭＭの各構成要素分布は、それぞれのグループに関連するアミノ酸を表してもよい。一例として、上記の例で説明した第１クラスタのためのガウス混合モデルＧＭＭは、アラニンのための第１分布、イソロイシンのための第２分布、ロイシンのための第３分布、メチオニンのための第４分布、およびスレオニンのための第５分布の５つの構成要素分布を備えてもよい。

処理６００はブロック６０２で始まり、処理６００を実行するシステムは、試薬がポリペプチドのアミノ酸に結合相互作用中の発光標識による発光から得られた学習データにアクセスする。いくつかの実施形態では、データは、タンパク質配列決定装置（例えば、装置５０２）の１つまたは複数のウェルにおける試薬とアミノ酸との結合相互作用のための１つまたは複数のセンサ（例えば、図５Ｂを参照して説明したセンサ（複数）５０２Ｃ）によって収集されてもよい。いくつかの実施形態では、発光は、１つまたは複数の光パルス（例えば、レーザパルス）に応答して放出されてもよい。

いくつかの実施形態では、システムは、センサ（複数可）によって収集されたデータから結合相互作用の１つまたは複数の特性の値を決定することで、学習データにアクセスするように構成されてもよい。結合性相互作用の特性の例は、本明細書に記載されている。いくつかの実施形態では、システムは、機械学習モデルの入力特徴として結合相互作用の１つまたは複数の特性を使用するように構成されてもよい。いくつかの実施形態では、システムは、光パルスのそれぞれの後の時間期間の複数の時間区間で検出された光子の数にアクセスすることで、学習データにアクセスするように構成されてもよい。いくつかの実施形態では、システムは、その例示的な例が本明細書に記載されている、１つまたは複数のデータ構造（例えば、行列、または画像）にデータを配置するように構成されてもよい。

次に、処理６００はブロック６０４に進み、システムは、ブロック６０２でアクセスされた学習データを使用して機械学習モデルを学習する。
いくつかの実施形態では、ブロック６０２でアクセスされたデータはラベルなしであってもよく、システムは、機械学習モデルを学習するべく、教師なし学習アルゴリズムを学習データに適用するように構成されてもよい。いくつかの実施形態では、機械学習モデルはクラスタリングモデルであってもよく、システムは、教師なし学習アルゴリズムを学習データに適用して、クラスタリングモデルのクラスタを同定するように構成されてもよい。各クラスタは、１つまたは複数のアミノ酸に関連付けられてもよい。一例として、システムは、ブロック６０２でアクセスされた学習データを使用して、クラスタ（例えば、クラスタセントロイド）を同定するべくｋ－ｍｅａｎｓクラスタリングを実行してもよい。

いくつかの実施形態では、システムは、教師付き学習を実行するように構成されてもよい。システムは、ブロック６０２でアクセスされたデータに関連する１つまたは複数の所定のアミノ酸を指定する情報を使用して、モデルを学習するように構成されてもよい。いくつかの実施形態では、システムは、（１）ブロック６０２でアクセスされたデータを機械学習モデルへの入力として提供して、１つまたは複数のアミノ酸を同定する出力を得る工程と、および（２）出力によって同定されたアミノ酸と所定のアミノ酸との間の差に基づき機械学習モデルを学習する工程と、の方法で機械学習モデルを学習するように構成されてもよい。一例として、システムは、決定された差に基づき、機械学習モデルの１つまたは複数のパラメータを更新するように構成されてもよい。いくつかの実施形態では、１つまたは複数のアミノ酸を指定する情報は、ブロック６０２で得られたデータのラベルであってもよい。いくつかの実施形態では、ブロック６０２で得られたデータの一部分が機械学習モデルへの入力として提供されてもよく、データの一部分に対応する機械学習モデルの出力が、データの一部分に対するラベルと比較されてもよい。順に、機械学習モデルの１つまたは複数のパラメータは、機械学習モデルの出力と、機械学習モデルへの入力として提供されたデータの部分に対するラベルとの間の差に基づき更新されてもよい。この差は、現在のパラメータセットで構成された場合に、機械学習モデルがラベルを再現するのにどの程度の性能を発揮するかの尺度を提供してもよい。一例として、機械学習モデルのパラメータは、確率的勾配降下法および／またはニューラルネットワークの学習に適した他の反復的最適化技術を用いて更新されてもよい。

いくつかの実施形態では、システムは、半教師付き学習アルゴリズムを学習データに適用するように構成されてもよい。モデル学習システム５０４は、（１）教師なし学習アルゴリズム（例えば、クラスタリング）を学習データに適用することで、ラベル付けされていない学習データセットをラベル付けし、（２）ラベル付けされた学習データに教師あり学習アルゴリズムを適用する、ということを行ってもよい。一例として、システムは、ブロック６０２でアクセスされた学習データにｋ－ｍｅａｎｓクラスタリングを適用して、データをクラスタリングしてもよい。その後、システムは、クラスタメンバーシップに基づく分類でデータセットをラベル付けしてもよい。次に、システムは、確率的勾配降下アルゴリズムおよび／または任意の他の反復最適化技術をラベル付けされたデータに適用することで、機械学習モデルを学習してもよい。

いくつかの実施形態では、機械学習モデルは、データ入力を複数のグループ（例えば、クラスまたはクラスタ）に分類してもよく、各グループは１つまたは複数のアミノ酸に関連付けられる。いくつかの実施形態では、システムは、各グループについてモデルを学習するように構成されてもよい。いくつかの実施形態では、システムは、各グループについて混合モデルを学習するように構成されてもよい。システムは、それぞれのグループに関連するアミノ酸を含む結合相互作用について得られた学習データを使用して、それぞれのグループについて混合モデルを学習するように構成されてもよい。一例として、システムは、例えば、期待値最小化または他の任意の適切な最尤または近似最尤アルゴリズムを使用して、それぞれのグループに関連するアミノ酸（複数可）が関与する結合相互作用について得られた学習データに基づき、ガウス混合モデルＧＭＭの構成要素分布のパラメータを同定することで、それぞれのグループについてガウス混合モデル（ＧＭＭ）を学習してもよい。

ブロック６０４で機械学習モデルを学習した後、処理６００はブロック６０６に進み、システムが学習済み機械学習モデルを格納する。システムは、機械学習モデルの１つまたは複数の学習済みパラメータの値（複数可）を格納してもよい。一例として、機械学習モデルは、１つまたは複数のセントロイドを有するクラスタリングモデルを備えてもよい。システムは、セントロイドの同定情報（例えば、座標）を格納してもよい。別の例として、機械学習モデルは、機械学習モデルのグループのための混合モデル（例えば、ガウス混合モデルＧＭＭ）を備えてもよい。システムは、構成要素（コンポーネント）モデルを定義するパラメータを格納してもよい。別の例として、機械学習モデルは、１つまたは複数のニューラルネットワークを備えてもよい。システムは、ニューラルネットワークの学習済み重みの値を記憶してもよい。いくつかの実施形態では、システムは、本明細書に記載の技術に従ってポリペプチドを同定する際に使用するべく、学習済み機械学習モデルを保存するように構成されてもよい。

いくつかの実施形態では、システムは、新しい学習データを使用して機械学習モデルを更新するべく、新しいデータを取得するように構成されてもよい。いくつかの実施形態では、システムは、新しい学習データを使用して新しい機械学習モデルを学習することで、機械学習モデルを更新するように構成されてもよい。一例として、システムは、新しい学習データを用いて新しい機械学習モデルを学習してもよい。いくつかの実施形態では、システムは、機械学習モデルの１つまたは複数のパラメータを更新するべく、新しい学習データを使用して機械学習モデルを再学習することで、機械学習モデルを更新するように構成されてもよい。一例として、モデルによって生成された出力（複数可）および対応する入力データは、以前に得られた学習データとともに学習データとして使用されてもよい。いくつかの実施形態では、システムは、アミノ酸を同定するデータおよび出力（例えば、図６Ｂを参照して後述する処理６１０を実行することから得られる）を使用して、学習済み機械学習モデルを反復的に更新するように構成されてもよい。一例として、システムは、第１学習済み機械学習モデル（例えば、教師モデル）に入力データを提供し、１つまたは複数のアミノ酸を同定する出力を得るように構成されてもよい。その後、システムは、入力データおよび対応する出力を使用して機械学習モデルを再学習し、第２学習済み機械学習モデル（例えば、学生（Ｓｔｕｄｅｎｔ）モデル）を取得してもよい。

いくつかの実施形態では、システムは、タンパク質配列決定装置（例えば、タンパク質配列決定装置５０２）の各ウェルについて別個の機械学習モデルを学習するように構成されてもよい。機械学習モデルは、ウェルから得られたデータを使用して、それぞれのウェルに対して学習されてもよい。機械学習モデルは、ウェルの特性に合わせて調整されてもよい。いくつかの実施形態では、システムは、配列決定装置（シーケンサ）の複数のウェルにおいてアミノ酸を同定するべく使用されるべき、一般化された機械学習モデルを学習するように構成されてもよい。一般化された機械学習モデルは、複数のウェルから集約されたデータを用いて学習されてもよい。

図６Ｂは、本明細書に記載の技術のいくつかの実施形態による、ポリペプチドを同定するべく処理６００から得られた学習済み機械学習モデルを使用するための例示的な処理６１０を示す。処理６１０は、任意の適切なコンピューティング装置によって実行されてもよい。一例として、処理６１０は、図５Ｂを参照して上述したタンパク質同定システム５０２Ｄによって実行されてもよい。

処理６１０は、ブロック６１２で始まり、システムは、試薬とポリペプチドのアミノ酸との結合相互作用からの発光標識による発光から得られたデータにアクセスする。いくつかの実施形態では、データは、タンパク質配列決定装置（例えば、装置５０２）によって実行されるアミノ酸配列決定中に、１つまたは複数のセンサ（例えば、光検出器（複数可））によって収集されたデータから得られてもよい。一例として、システムは、センサ（複数可）によって収集されたデータを処理して、データを生成してもよい。

いくつかの実施形態では、データは、センサ（複数可）によって収集されたデータから決定された結合相互作用の１つまたは複数の特性の値およびそれから決定された値を備えてもよい。プロパティおよびそこから決定されるパラメータの例は、本明細書に記載されている。いくつかの実施形態では、発光は、一連の光パルスに反応してもよい。データは、光パルス後の１つまたは複数の時間区間で検出された光子の数を備えてもよい。一例として、データは、図９Ａを参照して後述するデータ９００であってもよい。いくつかの実施形態では、システムは、データを、図９Ｂを参照して以下に説明するデータ構造９１０に配列するように構成されてもよい。

いくつかの実施形態では、ブロック６１２は、シグナルトレースなどのアクセスされたデータに対して１つまたは複数のシグナル処理動作を実行する工程を備えてもよい。シグナル処理動作は、例えば、１つまたは複数のフィルタリングおよび／またはサブサンプリング動作を備えてもよく、これによって、ノイズに起因するデータ内の観測されたパルスを除去することができる。

次に、処理６００はブロック６１４に進み、システムは、ブロック６０６でアクセスされたデータを、学習済み機械学習モデルへの入力として提供する。いくつかの実施形態では、システムは、データを入力として提供し、ポリペプチドのアミノ酸を同定する出力を得るように構成されてもよい。一例として、システムは、ブロック６１２で得られたデータを、コネクショニスト時間分類ＣＴＣに適合したニューラルネットワークモデルへの入力として提供し、ポリペプチドのアミノ酸配列を同定する出力（例えば、一連の文字）を取得してもよい。いくつかの実施形態では、システムは、データを複数の部分に分割し、部分のそれぞれのデータを、学習済み機械学習モデルへの別個の入力として提供して、対応する出力を得るように構成されてもよい（例えば、図７を参照して以下に説明するように）。一例として、システムは、試薬とポリペプチドのアミノ酸とのそれぞれの結合相互作用に関連するデータの部分を同定してもよい。

次に、処理６００はブロック６１６に進み、システムが機械学習モデルからの出力を取得する。いくつかの実施形態では、システムは、ポリペプチド内の複数の位置のそれぞれについて、１つまたは複数のそれぞれのアミノ酸がポリペプチド内の位置に存在するという１つまたは複数の尤度を示す出力を得るように構成されてもよい。一例として、出力は、各位置について、２０個のアミノ酸のそれぞれがその位置に存在するという尤度を示してもよい。機械学習システムから得られる出力の例示描写は、図８を参照して以下に説明される。

いくつかの実施形態では、システムは、機械学習モデルに提供されたデータの複数の部分のそれぞれについて出力を得るように構成されてもよい。データのそれぞれの部分についての出力は、ポリペプチド内の特定の位置に存在するアミノ酸を示してもよい。いくつかの実施形態では、出力は、データの部分に関連するポリペプチド内の位置に１つまたは複数のそれぞれのアミノ酸が存在するという尤度を示してもよい。一例として、機械学習モデルへの入力として提供されたデータの一部に対応する出力は、複数のアミノ酸のそれぞれについて、そのアミノ酸がポリペプチド内のそれぞれの位置に存在するという確率を指定する確率分布であってもよい。

いくつかの実施形態では、システムは、データの部分に関連するポリペプチド内の位置に存在するアミノ酸を同定するように構成されてもよい。一例として、システムは、機械学習モデルに提供されたデータに対する出力に基づき、アミノ酸を指定する分類を決定してもよい。いくつかの実施形態では、システムは、それぞれのアミノ酸がポリペプチド内の位置に存在するという尤度に基づき、アミノ酸を同定するように構成されてもよい。一例として、システムは、ポリペプチド内の位置に存在するという尤度が最も高い、それぞれのアミノ酸の１つであるアミノ酸を同定してもよい。いくつかの実施形態では、システムは、機械学習モデルを使用せずに、結合相互作用の１つまたは複数の特性および／または他のパラメータの値（複数可）に基づき、アミノ酸を同定するように構成されてもよい。一例として、システムは、データの部分のパルス持続時間および／またはパルス同士間持続時間が、特定のタイプのタンパク質に選択的結合する試薬に関連付けられていると判定し、その位置に存在するアミノ酸がそのタイプのアミノ酸であると同定してもよい。

いくつかの実施形態では、システムは、ポリペプチドのアミノ酸を同定する単一の出力を得るように構成されてもよい。一例として、システムは、ポリペプチドのアミノ酸を同定する一連の文字を受け取ってもよい。別の例として、システムは、ポリペプチド内の複数の位置のそれぞれについて一連の値を受け取ってもよい。一連の各値は、それぞれのアミノ酸がポリペプチドのそれぞれの位置に存在するという尤度を示してもよい。

いくつかの実施形態では、システムは、機械学習モデルから得られた出力を正規化するように構成されてもよい。いくつかの実施形態では、システムは、機械学習モデルから一連の値を受け取るように構成されてもよく、各値は、それぞれのアミノ酸がポリペプチド内のそれぞれの位置に存在するという尤度を示す。システムは、一連の値を正規化するように構成されてもよい。いくつかの実施形態では、システムは、ソフトマックス関数を適用して、合計が１になる確率値のセットを得ることで、一連の値を正規化するように構成されてもよい。一例として、システムは、ニューラルネットワークから一連の出力値を受け取り、その値にソフトマックス関数を適用して、合計が１になる一連の確率値を得るように構成されてもよい。いくつかの実施形態では、システムは、複数のモデル（例えば、ガウス混合モデルＧＭＭ）から出力を受け取るように構成されてもよく、各モデルは、アミノ酸のそれぞれのセットに関連付けられている。各モデルからの出力は、モデルに関連付けられたアミノ酸のセットのそれぞれについて、そのアミノ酸がポリペプチド内の位置に存在するという尤度を示す値であってもよい。システムは、出力を得るべく、すべての複数のモデルから受け取った値を正規化するように構成されてもよい。一例として、システムは、（１）第１ガウス混合モデルＧＭＭから第１セットのアミノ酸の確率値の第１セットを受け取り、第２ガウス混合モデルＧＭＭから第２セットのアミノ酸の確率値を受け取り、（２）確率値の共同の第１および第２セットにソフトマックス関数を適用して、正規化された出力を得ることができる。この例では、正規化された出力は、第１および第２セットのアミノ酸の各アミノ酸について、そのアミノ酸がポリペプチド内の位置に存在するという確率を示し、ここで、確率値の合計は１になる。

ブロック６１６で学習済み機械学習モデルから出力を得た後、処理６１０はブロック６１８に進み、システムは機械学習モデルから得られた出力を使用してポリペプチドを同定する。いくつかの実施形態では、システムは、ブロック６１６で得られた出力を、データストア（例えば、タンパク質配列決定装置５０２によってアクセス可能な）に格納されているアミノ酸配列および関連するタンパク質の既知のセットのうちの１つに照合するように構成されてもよい。システムは、出力が照合されたアミノ酸配列に関連するタンパク質の一部であるポリペプチドを同定してもよい。一例として、データストアは、ヒトゲノムからのアミノ酸配列のデータベース（例えば、ＵｎｉＰｒｏｔおよび／またはＨＰＰデータベース）であってもよい。

いくつかの実施形態では、システムは、（１）出力に基づき隠れマルコフモデル（ＨＭＭ）を生成し、（２）隠れマルコフモデルＨＭＭを使用して、複数のアミノ酸配列の中からデータが最も密接に整列するアミノ酸配列を同定することで、出力をアミノ酸配列に一致させるように構成されてもよい。いくつかの実施形態では、出力は、ポリペプチド内の複数の位置のそれぞれについて、それぞれのアミノ酸がその位置に存在するという尤度を示してもよい。機械学習モデルからの出力の例示描写は、図８を参照して以下に説明される。システムは、隠れマルコフモデルＨＭＭのパラメータの値を決定するべく出力を使用するように構成されてもよい。一例として、隠れマルコフモデルＨＭＭの各状態は、ポリペプチド内の位置を表していてもよい。隠れマルコフモデルＨＭＭは、アミノ酸が異なる位置に存在するという確率を備えてもよい。いくつかの実施形態では、隠れマルコフモデルＨＭＭは、挿入率および欠失率を備えてもよい。いくつかの実施形態では、挿入率および欠失率は、予め設定された値であってもよい（隠れマルコフモデルＨＭＭにおいて）。いくつかの実施形態では、システムは、ブロック６１６で機械学習モデルから得られた出力に基づき、挿入率および欠失率の値を決定するように構成されてもよい。いくつかの実施形態では、システムは、１つまたは複数の以前のポリペプチド同定処理の結果に基づき、挿入率および欠失率を決定するように構成されてもよい。一例として、システムは、１つまたは複数の以前のポリペプチド同定および／または処理６１０を実行して得られた機械学習モデルの出力に基づき、挿入率および欠失率を決定してもよい。

いくつかの実施形態では、システムは、（１）機械学習モデルから得られた出力に基づきアミノ酸の配列を決定すること、および（２）アミノ酸の配列に基づきポリペプチドを同定することで、機械学習モデルから得られた出力を使用してポリペプチドを同定するように構成されてもよい。決定されたアミノ酸の配列は、ポリペプチドの一部分（例えば、ペプチド）であってもよい。いくつかの実施形態では、出力は、ポリペプチド内の複数の位置のそれぞれについて、それぞれのアミノ酸がその位置に存在するという尤度を示してもよい。システムは、（１）位置のそれぞれについて、その位置に存在するという尤度が最も高いそれぞれのアミノ酸の１つを同定し、（２）アミノ酸の配列を、位置について同定されたアミノ酸のセットであると決定することで、アミノ酸の配列を決定するように構成されてもよい。一例として、システムは、２０種類のアミノ酸のうち、アラニン（Ａ）がポリペプチドの第１位置に存在するという尤度が最大であり、グルタミン酸（Ｅ）がポリペプチドの第２位置に存在するという尤度が最大であり、アスパラギン酸（Ｄ）が第３位置に存在するという尤度が最大であると決定することができる。この例では、システムは、アミノ酸の配列の少なくとも一部を、アラニン（Ａ）、グルタミン酸（Ｅ）、およびアスパラギン酸（Ｄ）であると決定してもよい。いくつかの実施形態では、システムは、アミノ酸配列を、タンパク質を同定するアミノ酸配列のセットからの１つに照合することで、決定されたアミノ酸配列に基づきポリペプチドを同定するように構成されてもよい。一例として、システムは、決定されたアミノ酸配列を、Ｕｎｉｐｒｏｔおよび／またはＨＰＰデータベースからの配列に照合し、ポリペプチドを、照合された配列に関連するタンパク質の一部であると同定してもよい。

いくつかの実施形態では、システムは、決定されたアミノ酸の配列を事前に選択されたパネルに照合することで、ブロック６１８の機械学習モデルから得られた出力を使用して、ポリペプチドを同定してもよい。システムが決定されたアミノ酸の配列を既知のポリペプチドのデータベースからの配列に一致させるアプローチとは対照的に、いくつかのケースでは、システムは、例えば、そのようなデータベースのサブセットであり得る事前選択されたパネルに配列を一致させてもよい。例えば、ポリペプチドは、臨床的に重要であることが知られているポリペプチドのセットの１つである可能性があり、その結果、すべての可能なポリペプチドを含むデータベース全体を検索するよりも、決定されたアミノ酸の配列をポリペプチドのセットの１つに一致させる方が、より正確および／またはより効率的である可能性がある。いくつかの実施形態では、機械学習モデルへの入力データは、予め選択されたポリペプチドのパネルの１つであることが知られているポリペプチドと相互作用するアフィニティ試薬からの発光を測定することで生成されてもよい。すなわち、データを生成するための実験手順は、データを生成するべく使用されるポリペプチドが、機械学習モデルによる照合（マッチング）のために考慮されるポリペプチドのセットの１つであることを保証してもよい。

いくつかの実施形態では、システムは、ブロック６１８で機械学習モデルから得られた出力を使用して、複数のポリペプチドに対する相対確率のリストを生成してもよい。上述のように特定のポリペプチドを同定するのではなく、複数のポリペプチドのリストを、それぞれが正しい一致である確率とともに生成することが好ましい場合がある。いくつかの実施形態では、特定のタンパク質がサンプルに存在すること、および／または特定のタンパク質がサンプルの少なくともいくつかの閾値分数（ｔｈｒｅｓｈｏｌｄｆｒａｃｔｉｏｎ）を構成することの信頼性スコアなど、データの側面に関連する信頼性スコアが、そのような確率に基づき生成されてもよい。

いくつかの実施形態では、システムは、ブロック６１８で機械学習モデルから得られた出力を使用して、ポリペプチドのバリアントを同定してもよい。特に、いくつかのケースでは、システムは、最も尤度の高い配列が参照配列（例えば、データベース内の配列）のバリアントであると判定してもよい。そのような変種は、ポリペプチドの自然発生または天然の変種、および／または、アミノ酸が修飾された（例えば、リン酸化された）ポリペプチドを含むことができる。このように、ブロック６１８において、複数の参照配列の変種は、参照配列自体の検討に加えて、機械学習モデルからの出力に一致するように検討されてもよい。

図７は、本明細書に記載の技術のいくつかの実施形態による、機械学習モデルに入力を提供するための例示的な処理７００を示す。処理７００は、任意の適切なコンピューティング装置によって実行されてもよい。一例として、処理７００は、図５Ｂを参照して上述したタンパク質同定システム５０２Ｄによって実行されてもよい。処理７００は、図６Ｂを参照して上述した処理６１０のブロック６１６の一部として実行されてもよい。

処理７００を実行する前に、処理７００を実行するシステムは、試薬とアミノ酸との結合相互作用からの発光標識による検出された発光から得られたデータにアクセスしてもよい。一例として、システムは、図６Ｂを参照して上述した処理６１０のブロック６１２で実行されるようにデータにアクセスしてもよい。

処理７００はブロック７０２で始まり、システムはデータの一部（部分。本明細書では関心領域（ＲＯＩ）とも呼ばれる）を同定する。いくつかの実施形態では、システムは、それぞれの結合相互作用に対応するデータの部分を同定するように構成されてもよい。一例として、同定されたデータの各部分は、試薬とポリペプチドのアミノ酸とのそれぞれの結合相互作用からのデータを備えてもよい。いくつかの実施形態では、システムは、ポリペプチドからのアミノ酸の切断に対応するデータ点を同定することで、データの部分を同定するように構成されてもよい。図１～図３を参照して上述したように、タンパク質配列決定装置は、ポリペプチド（例えば、図５Ｃに示すポリペプチド５０２Ｆ）の末端からアミノ酸を反復的に検出して切断することで、サンプルを配列してもよい。いくつかの実施形態では、切断は、それぞれの発光標識でタグ付けされた切断試薬によって行われてもよい。システムは、切断試薬がタグ付けされている発光標識による発光に対応するデータ点を同定することで、データの部分を同定するように構成されてもよい。一例として、システムは、１つまたは複数の発光強度、発光寿命値、パルス持続時間値、パルス同士間持続時間値、および／または光子区間（ｂｉｎ）カウントを同定してもよい。そして、システムは、同定されたデータ点に基づき、データを部分に分割してもよい。いくつかの実施形態では、切断はタグのない切断試薬によって実行されてもよい。システムは、切断の期間に対応するデータ点を同定することで、データの部分を同定するように構成されてもよい。そして、システムは、同定されたデータ点に基づき、データを部分にセグメント化してもよい。

いくつかの実施形態では、システムは、発光の時間期間同士間の時間区間を同定することでデータの部分を同定するように構成されてもよい。一例として、システムは、光パルスが放出される２つの期間同士間の時間区間を同定してもよい。システムは、同定された時間区間に基づき、それぞれの結合相互作用に対応するデータの部分を同定するように構成されてもよい。一例として、システムは、発光（例えば、光パルス）同士間の時間区間の持続時間が閾値の持続時間を超えるかどうかを判定することで、連続する結合相互作用同士間の境界を同定してもよい。システムは、同定された時間区間から決定された境界に基づき、データを部分にセグメント化してもよい。

いくつかの実施形態では、システムは、（１）データの要約統計値を追跡し、（２）要約統計値が逸脱する点に基づきデータの部分を同定することで、それぞれの結合相互作用に対応するデータの部分を同定するように構成されてもよい。いくつかの実施形態では、データは、各点が特定の時点で取得された１つまたは複数のパラメータの値を表す時系列データであってもよい。システムは、以下のように構成されてもよい。（１）データ内の要約統計量を時間に関して追跡し、（２）要約統計量が閾値量（ｔｈｒｅｓｈｏｌｄａｍｏｕｎｔ）で逸脱するデータ点を同定し、（３）同定された点に基づきデータの部分を同定する。一例として、システムは、データの時間に対する移動平均パルス持続時間値を追跡してもよい。システムは、平均パルス持続時間値が閾値量で増加する点に基づき、結合相互作用を伴う反応に対応する１つまたは複数の点を同定してもよい。別の例として、システムは、データ中の時間に対する移動する平均発光強度値を追跡してもよい。システムは、平均発光強度値が閾値量で増加する点に基づき、結合相互作用に対応する１つまたは複数の点を同定してもよい。

いくつかの実施形態では、システムは、データを同じ大きさの部分に分割することで、データの部分を同定するように構成されてもよい。いくつかの実施形態では、データは複数のフレームを備えてもよく、各フレームは、励起パルスの印加後の時間期間における１つまたは複数の時間区間のそれぞれで検出された光子の数を備えている。システムは、データを同じサイズのフレームの部分に分割することで、データの部分を同定するように構成されてもよい。一例として、システムは、データを、１０００個、５０００個、１０，０００個、５０，０００個、１００，０００個、１，０００，０００個、および／または１０００個から１，０００，０００個の間の任意の適切な数のフレーム部分に分割してもよい。いくつかの実施形態では、システムは、２つの結合相互作用同士間の遷移を決定することに基づき、データをフレームに分割するように構成されてもよい。一例として、システムは、２つの結合相互作用同士間の遷移を示す区間（ｂｉｎ）内の光子カウントの値を同定してもよい。システムは、データ内の同定された遷移に基づき、フレームを部分に割り当ててもよい。いくつかの実施形態では、システムは、各部分のサイズを縮小するように構成されてもよい。一例として、システムは、データの部分のストライド（例えば、１０フレームまたは１００フレームごと）について、１つまたは複数の要約統計を決定してもよい。

いくつかの実施形態では、システムは、シグナルトレースのウェーブレット変換を実行し、ウェーブレット変換から生成されたウェーブレット係数に基づき、シグナルの部分の前縁および／または後縁を同定することで、データの部分を同定するように構成されてもよい。この処理については、図１４Ａ～図１４Ｃおよび図１５に関連して、以下でより詳細に説明する。

いくつかの実施形態では、時間期間の一部である時間区間は、非オーバーラップである。他の実施形態では、時間期間の一部である時間区間は、互いに重なっていてもよい。つの時間区間の重複領域の光子カウントは、両方の時間区間の光子カウントに追加されてもよい。重複する時間区間のデータは、隣接する時間区間のデータに統計的に依存していてもよい。いくつかの実施形態では、そのような依存性は、データ（例えば、学習データ）を処理するべく使用されてもよい。一例として、統計的依存性は、データを正則化および／または平滑化するべく使用されてもよい。

ブロック７０２でデータの部分を同定した後、処理７００はブロック７０４に進み、システムは同定された部分に基づき機械学習モデルに入力を提供する。いくつかの実施形態では、システムは、検出された結合相互作用の１つまたは複数の特性の値を決定するように構成されてもよい。これらの値は、パルス持続時間、パルス同士間持続時間、波長、発光強度、発光寿命値、単位時間当たりのパルスカウント、またはそれらの組み合わせなど、任意の数のパルスパラメータを備えてもよい。これらの値は、平均値、中位値、最頻値として表すこともできるし、データの所定の部分について複数の測定されたパルスパラメータを提供することで表すこともできる。例えば、ブロック７０４における機械学習モデルへの入力は、データの同定された部分についての平均パルス持続時間を備えているかもしれない。

いくつかの実施形態では、機械学習モデルへの入力のための値は、ブロック７０２で同定されたデータの一部分から導出された任意のパラメータを備えてもよい。そのように導出されたパラメータは、例えば、適切な関数および／または分布を測定値にフィッティング（適合）させてパルスパラメータにすることを備えてもよい。例えば、ブロック７０２で同定されたデータの一部について測定された異なるパルス持続時間の範囲は、指数関数、ガウス分布、ポアソン分布にフィッティング（適合）されてもよく、それらの関数または分布を記述する値は、ブロック７０４で機械学習モデルに入力されてもよい。このように、値は、例えば、ブロック７０２で同定されたデータの一部で観測された異なるパルスの数を特徴づけるガウス分布の平均と分散を備えてもよい。複数の指数関数をパルスパラメータにフィッティング（適合）させる例は、図１６Ａ～図１６Ｂおよび図１７Ａ～図１７Ｂに関連して以下でさらに説明される。

ブロック７０４において値がどのように計算されるかにかかわらず、これらの値はまた、ブロック７０４において機械学習モデルへの入力として提供されてもよい。決定された値は、機械学習モデルに入力されるそれぞれの結合相互作用の特徴セットを形成してもよい。いくつかの場合、データの部分は１つまたは複数のフレームに対応してもよく、決定された値は、フレーム（複数可）の特徴セットを形成してもよい。

いくつかの実施形態では、システムは、結合相互作用の特性の値および／または特性から決定されたパラメータの値を決定することなく、機械学習モデルへの入力としてデータの同定された各部分を提供するように構成されてもよい。一例として、システムは、データが分割されたフレームの各セット（例えば、それぞれが１つまたは複数の区間（ビン）カウントを備えている）を、機械学習モデルへの入力として提供してもよい。

次に、処理７００はブロック７０６に進み、システムは、学習済み機械学習モデルに入力されたデータの各部分に対応する出力を取得する。いくつかの実施形態では、各出力は、ポリペプチド内のそれぞれの位置に対応してもよい。一例として、出力は、タンパク質のポリペプチド内の位置に対応してもよい。いくつかの実施形態では、各出力は、ポリペプチド内の位置に１つまたは複数のアミノ酸が存在するという尤度を示してもよい。例示的な例として、図８に示された機械学習システムの出力の描写８００における行のそれぞれは、データの同定された部分の１つに対応する機械学習モデルの出力であってもよい。いくつかの実施形態では、各出力は、機械学習モデルに入力されたデータの部分に対応するそれぞれの結合相互作用に関与するアミノ酸を同定してもよい。いくつかの実施形態では、システムは、ブロック７０６で得られた出力を使用して、ポリペプチドを同定するように構成されてもよい。一例として、システムは、図６Ｂを参照して上述した処理６１０のブロック６１８で実行されたように、ポリペプチドを同定するべく出力を使用してもよい。

図８は、本明細書に記載の技術のいくつかの実施形態による、機械学習モデルから得られた出力を描写する表８００を示す。一例として、図８に描かれた出力は、図６Ｂを参照して上述した処理６１０のブロック６１６で得られてもよい。

図８の例示的な表８００において、機械学習システムから得られた出力は、ポリペプチド（例えば、タンパク質の）における複数の位置８０４のそれぞれについて、それぞれのアミノ酸８０２がその位置に存在するという確率を備えている。図８の例示的な描写８００では、出力は、２０個のアミノ酸についての確率を備えている。表８００の各列は、２０個のアミノ酸のそれぞれ１つに対応する。各アミノ酸には、図８におけるそれぞれの一文字の略語が付されている（例えば、Ａ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇ、Ｈ、Ｉ、Ｋ、Ｌ、Ｍ、Ｎ、Ｐ、Ｑ、Ｒ、Ｓ、Ｔ、Ｖ、Ｗ）。表８００の各行は、２０個のアミノ酸のそれぞれが、ポリペプチド内のいずれかの位置に存在するという確率を規定している。一例として、番号１でインデックスされた位置については、アスパラギン酸（Ｄ）がその位置に存在するという確率が５０％であり、グルタミン酸（Ｅ）がその位置に存在するという確率が５０％であることが出力される。別の例として、数字１０で示される位置では、グルタミン酸（Ｄ）がその位置に存在するという確率が３０％、グリシン（Ｇ）がその位置に存在するという確率が５％、リジン（Ｋ）がその位置に存在するという確率が２５％、アスパラギン（Ｎ）がその位置に存在するという確率が４０％であることが出力される。

図８の例示的な実施形態は、ポリペプチド内の１５の位置における２０のアミノ酸に対する尤度を示しているが、いくつかの実施形態は、任意の数の位置またはアミノ酸に限定されない。いくつかの実施形態は、本明細書に記載の技術の側面がこの点において限定されないので、ポリペプチド内の任意の数の位置に対する尤度を備えてもよい。いくつかの実施形態は、本明細書に記載の技術の側面がこの点で限定されないように、任意の数のアミノ酸に対する尤度を備えてもよい。

図９Ａは、本明細書に記載の技術のいくつかの実施形態に従って、発光標識による発光から得られ得るデータ９００の一例を示す。一例として、データ９００は、図５Ａ～図５Ｃを参照して上述したタンパク質配列決定装置５０２のセンサ（複数可）５０２Ｃによって得られてもよい。

データ９００は、励起光パルス後の複数の時間区間のそれぞれで検出された光子の数を示す。光子（フォトン）の数は、本明細書では、「光子カウント」とも呼ばれる。図９Ａに示す例では、データ９００は、３つの励起光パルス後の時間区間で検出された光子の数を備えている。図９Ａに例示された例では、データ９００は以下を備えている。（１）第１励起光パルス後の時間期間９０２の第１時間区間９０２Ａ、第２時間区間９０２Ｂ、および第３時間区間９０２Ｃで検出された光子の数、（２）第２励起光パルス後の時間期間９０４の第１時間区間９０４Ａ、第２時間区間９０４Ｂ、および第３時間区間９０４Ｃで検出された光子の数、および（３）第３励起光パルス後の時間期間９０６の第１時間区間９０６Ａ、第２時間区間９０６Ｂ、および第３時間区間９０６Ｃで検出された光子の数である。

いくつかの実施形態では、励起光のパルス後の時間期間の時間区間のそれぞれは、等しいまたは実質的に等しい持続時間であってもよい。いくつかの実施形態では、励起光のパルス後の時間期間における時間区間は、変化する持続時間を有してもよい。いくつかの実施形態では、データは、励起光の各パルス後の固定数の時間区間で検出された光子の数を備えてもよい。データは、励起光のパルス後の各時間期間に３つの時間区間を備えているが、本明細書に記載された技術の側面はこの点で限定されないので、データは任意の適切な数の時間区間にビン（ｂｉｎ。区間）化されてもよい。また、図９Ａの例では、３つの励起光パルスに続く３つの時間期間のデータを示しているが、本明細書に記載された技術の側面がこの点に限定されないように、データ９００は、任意の適切な数の励起光パルス後の時間期間に収集されたデータを備えてもよい。また、図９Ａの例では、時間期間の区間同士がばらばらであることを示しているが、いくつかの実施形態では、区間同士が重なっていてもよい。

図９Ｂは、本明細書に記載の技術のいくつかの実施形態による、機械学習モデルへの入力として提供され得る図９Ａからのデータ９００の例示的な配置を示す。一例として、データ構造９１０は、アミノ酸を同定する出力を得るための深層学習モデル（例えば、ニューラルネットワーク）への入力として生成されてもよい。

図９Ｂに示されているように、データ９００からの光子の数は、複数の系列の値を備えているデータ構造９１０に配置されてもよい。いくつかの実施形態では、データ構造９１０は、行列を符号化する２次元のデータ構造（例えば、配列、連結リストのセットなど）であってもよい。一連の値のそれぞれは、行列の行または列を形成してもよい。理解されるかもしれないが、データ構造９１０は、画像の値を格納するものと考えられ、画像の各「画素」は、対応する励起光パルス後の特定の時間期間におけるそれぞれの時間区間に対応し、画素の値は、その時間区間中に検出された光子の数を示している。

図９Ｂに示された例では、データ構造９１０は、複数の系列のデータを列に備えている。各列は、本明細書では、「フレーム」とも呼ばれることがある。データ構造９１０は以下を備えている。（１）励起光の第１パルス後の時間期間９０２の時間区間９０２Ａ～９０２Ｃで検出された光子の数Ｎ_１１、Ｎ_１２、Ｎ_１３を指定する第１フレーム、（２）励起光の第２パルス後の時間期間９０４の時間区間９０４Ａ～９０４Ｃで検出された光子の数Ｎ_２１、Ｎ_２２、Ｎ_２３を指定する第２フレーム、および（３）励起光の第３パルス後の時間期間９０６の時間区間９０６Ａ～９０６Ｃで検出された光子数Ｎ_３１、Ｎ_３２、Ｎ_３３を指定する第３フレームを備えている。図９Ｂに示された例では３つのフレームを示しているが、本明細書に記載された技術の側面はこの点において限定されないので、データ構造９１０は、任意の適切な数のフレームからのデータを保持してもよい。

図９Ｂに示す例では、データ構造９１０は、複数の系列のデータを行に備えている。各行は、励起光の各パルスについて、特定の区間（ビン）で検出された光子の数を指定する。データ構造９１０は、以下を備えている第１系列（一連）の値を備えている。（１）励起光の第１パルス後の時間期間９０２における第１時間区間（インターバル）９０２Ａの光子数Ｎ_１１、（２）励起光の第２パルス後の時間期間９０４における第１時間区間９０４Ａの光子数Ｎ_２１、および（３）励起光の第３パルス後の時間期間９０６における第１時間区間９０６Ａの光子数Ｎ_３１を備えている。データ構造９１０は、以下を備えている第２系列（一連）の値を備えている。（１）励起光の第１パルス後の時間期間９０２における第２時間区間９０２Ｂの光子数Ｎ_１２、（２）励起光の第２パルス後の時間期間９０４における第２時間区間９０４Ｂの光子数Ｎ_２２、および（３）励起光の第３パルス後の時間期間９０６における第２時間区間９０６Ｂの光子数Ｎ_３２を備えている。データ構造９１０は、以下を備えている第３系列（一連）の値を備えている。（１）励起光の第１パルス後の時間期間９０２における第３時間区間９０２Ｃの光子数Ｎ_１３、（２）励起光の第２パルス後の時間期間９０４における第３時間区間９０４Ｃの光子数Ｎ_２３、および（３）励起光の第３パルス後の時間期間９０６における第３時間区間９０６Ｃの光子数Ｎ_３３を備えている。

図１０Ａ～図１０Ｃは、本明細書に記載の技術のいくつかの実施形態による、機械学習システムを学習するための工程を示す。一例として、図１０Ａ～図１０Ｃは、機械学習システムを学習するための工程を示す。図１０Ａ～図１０Ｃは、図５Ａを参照して上述したモデル学習システム５０４によって、図６Ａを参照して上述した処理６００の一部として実行され得る、機械学習モデルを学習する様々な工程を図示する。

図１０Ａは、試薬とアミノ酸との結合相互作用からの発光標識による検出された発光からアクセスされたデータのクラスタリングのプロット１０００を示す図である。図１０Ａの例では、プロット１０００は、６つのクラスタ同士間でのデータのクラスタリングの結果を示している。いくつかの実施形態では、システム（例えば、モデル学習システム５０４）は、データ点をクラスタリングして、クラスタ（例えば、セントロイドおよび／またはクラスタ同士間の境界）を同定するように構成されてもよい。いくつかの実施形態では、クラスタリングは、クラスタリングモデルを学習するべく、図６Ａを参照して説明した処理６００の一部として実行されてもよい。一例として、システムは、反復アルゴリズム（例えば、ｋ－ｍｅａｎｓ）をデータ点に適用して、図１０Ａの例に示すクラスタリング結果を得てもよい。

いくつかの実施形態では、データクラスタは、アミノ酸の既知の配列を有する既知のペプチドを配列し、既知のアミノ酸のそれぞれに対応するデータ（例えば、パルス持続時間およびパルス同士間持続時間データ）を生成することで同定されてもよい。この処理を何度も繰り返して、評価対象となる様々なパルス特性に関して、特定の既知のアミノ酸のデータがどこに集まっているかを理解することができる。

図１０Ｂは、図１０Ａのプロット１０００に示されたクラスタ化された点から同定されたクラスタ（例えば、クラスタのセントロイドの座標）のプロット１０１０を示す。一例として、プロット１０１０に示されるセントロイドの各々は、それぞれのクラスタ内のデータ点の平均パルス持続時間およびパルス同士間持続時間の値であると決定されてもよい。図１０Ａの例では、各セントロイドは、異なるアミノ酸のセットに関連付けられている。プロット１０１０は、（１）アミノ酸Ａ、Ｉ、Ｌ、Ｍ、およびＶに関連付けられた第１セントロイド、（２）アミノ酸Ｎ、Ｃ、Ｑ、Ｓ、およびＴに関連付けられた第２セントロイド、（３）アミノ酸Ｒ、Ｈ、およびＫに関連付けられた第３セントロイド、（４）アミノ酸ＤおよびＥに関連付けられた第４セントロイド、（５）Ｆ、Ｗ、およびＹに関連付けられた第５セントロイド、および（６）アミノ酸ＧおよびＰに関連付けられた第６セントロイドを示している。

図１０Ｃは、プロット１０００および１０１０に示されたクラスタのそれぞれについて、ガウス混合モデル（ＧＭＭ）を学習した結果のプロット１０２０を示す。プロット１０２０に示される各同心円は、同等の確率の境界をマークしている。いくつかの実施形態では、それぞれのクラスタについて学習済みガウス混合モデルＧＭＭモデルの各構成要素は、それぞれのクラスタに関連するアミノ酸を表す。次に、それぞれのクラスタに対して学習済みガウス混合モデルＧＭＭモデルを有するクラスタリングモデルは、図６Ｂを参照して上述したように、ポリペプチドを同定するべく使用されてもよい。一例として、未知のポリペプチドのアミノ酸との試薬の結合相互作用からの発光標識による検出された発光からアクセスされたデータが、モデルに入力されてもよい。いくつかの実施形態では、機械学習モデルへの各入力は、ポリペプチドのそれぞれの位置に存在するアミノ酸との試薬のそれぞれの結合相互作用に対応してもよい。データの一部は、プロット１０２０に示されるクラスタの１つに分類されてもよく、クラスタに対して学習済みガウス混合モデルＧＭＭは、クラスタに関連付けられた１つまたは複数のアミノ酸がポリペプチド内の位置に存在するという尤度を決定するべく使用されてもよい。いくつかの実施形態では、システムは、共同確率空間においてガウス混合モデルＧＭＭから得られた尤度を正規化するように構成されてもよい。一例として、システムは、ガウス混合モデルＧＭＭから得られた尤度にソフトマックス関数を適用して、複数のアミノ酸のそれぞれに対する確率値を得て、その確率値の合計が１になるようにしてもよい。

図１０Ｃに示すようにクラスタのそれぞれについてガウス混合モデルＧＭＭを学習する代わりに、いくつかの実施形態では、単一のガウス混合モデルＧＭＭをクラスタのすべてについてガウシアンの混合物にフィッティング（適合）させてもよい。いくつかのケースでは、そのようなフィッティングは、クラスタの数およびそれらのセントロイドがどこに位置するかなど、同定されたクラスタの特性に基づいてもよい。あるいは、データ点のそれぞれについてラベルが知られている場合、各クラスタの測定された分散およびセントロイドを用いて、単一のガウス混合モデルＧＭＭのパラメータを直接初期化してもよい。

図１０Ａ～図１０Ｃの例では、各クラスタに対するガウス混合モデルＧＭＭモデルの使用を説明しているが、実施形態はこの点で限定されないので、いくつかの実施形態では別のタイプのモデルを使用してもよい。一例として、サポートベクターマシン（ＳＶＭ）が、クラスタのそれぞれについて学習されてもよく（または、単一のＳＶＭが、一緒にすべてのクラスタについて学習されてもよい）、データの一部を、クラスタに関連する複数のアミノ酸のうちの１つとして分類するべく使用されてもよい。別の例として、ニューラルネットワークが、クラスタのそれぞれについて学習され（または、単一のニューラルネットワークが、一緒にすべてのクラスタについて学習されてもよい）、クラスタに関連するアミノ酸のそれぞれが、ポリペプチド内の位置に存在するという尤度を得るべく使用されてもよい。

ガウス混合モデルＧＭＭモデルを使用して機械学習モデルを学習し、機械学習モデルを利用して１つまたは複数のアミノ酸を同定する上述の処理は、図１８および図１９Ａ～図１９Ｅによってさらに説明される。図１８は、上述のようにサンプルウェルからの発光を測定することで得られたデータを表す多数のシグナルトレースを示している。図１８の例では、アフィニティ試薬とペプチドのＮ末端位置に存在する３つの異なるアミノ酸残基との相互作用によって生成されたシグナルトレースが示されている：４つのシグナルトレースの第１列は、「Ｆ」アミノ酸との相互作用によって生成されたことが知られており、第２列は「Ｗ」アミノ酸によって、第３列は「Ｙ」アミノ酸によって生成されたことが知られている。その結果、これらのシグナルトレースは、図６に関連して上述したような機械学習モデルの学習に使用することができる。一般的に、図１８に示された少数のシグナルトレースよりも多くのシグナルトレースが、機械学習モデルを学習するための入力として使用されてもよい。

図１９Ａ～１９Ｅは、図１８に示すような３つのアミノ酸についてのシグナルトレースに基づき、ガウス混合モデルＧＭＭベースの機械学習モデルを学習する処理を示す。図１９Ａは、いくつかの実施形態による、Ｆ、Ｗ、またはＹのいずれかの既知のアミノ酸とのアフィニティ試薬の相互作用から生成されたシグナルトレースから得られたデータを描いている。特に、図１９Ａに示すデータは、シグナルトレースからのパルスの特性を描いており、各シグナルトレースのパルスの平均特性がデータ点で表されている。例えば、Ｙアミノ酸のデータ点（暗い円）は、Ｙアミノ酸との反応から生成されたことが知られているシグナルトレースのパルスの平均パルス持続時間および平均パルス同士間持続時間を表している。

図１９Ｂに示すように、そして上述したように、既知のアミノ酸に対応する各データセットに対応するクラスタを同定することで、そのようなデータに対してガウス混合モデルＧＭＭを生成してもよい。これらの３つのクラスタは、図１９Ａに示されたデータについて図１９Ｂに示されており、図１９Ｃにこれらのデータ点なしで示されている。

一旦学習されると、図１９Ｂおよび図１９Ｃで表されるガウス混合モデルＧＭＭを備えている機械学習モデルは、図１９Ｄに示されているようなラベルのないデータに適用されてもよい。図１９Ｄの例では、多数の異なるアミノ酸から（またはそれに関連するアフィニティ試薬から）生成された可能性のあるデータを備えているシグナルトレースが描かれている。図７に関連して上述したように、データの部分は、異なる相互作用によって生成された可能性のある部分を同定するべく、パルス特性などに基づき同定することができる。これらの部分（またはその特性）の各々は、学習済み機械学習モデルに入力されて、どのアミノ酸が各部分に関連するかを決定してもよい。図１９Ｅに示すように、これによって、平均パルス持続時間および平均パルス同士間持続時間によって定義される二次元空間内の位置が各部分について決定されてもよい。これによって、空間内の各位置に関連する可能性が最も高いアミノ酸が、学習済み機械学習モデルに基づき決定され得る。例えば、図１９Ｅに示すように、第３部分は、Ｆアミノ酸に関連する可能性が高いと判定される場合がある。

図２０Ａ～図２０Ｄは、いくつかの実施形態による、アミノ酸を同定するための代替の２工程アプローチを示す。図２０Ａ～図２０Ｄの例では、第１クラスタリングモデルを開発して、アフィニティ試薬から生成されたデータの特徴的な特性を同定し、それによってこれらの試薬を互いに区別できるようにしてもよい。この手法は、複数のアフィニティ試薬がシグナルトレース内で同時にデータを生成する場合に有益である。その後、データのどの部分が様々なアフィニティ試薬によって生成されたデータを備えていると判定されるかに基づき、追加のクラスタリングモデルを適用することができる。

図２０Ａに示すように、シグナルトレースが分析され、図中で適宜ラベル付けされた５つの部分を備えていると判定される。これらの部分の少なくとも一部が複数のアフィニティ試薬によって生成されたデータを備えている場合、単一のアフィニティ試薬からのデータで学習済み機械学習モデルは、データのそのような部分を正確に分類しない可能性がある。よって、最初に、シグナルトレース内のすべての部分からのデータに基づき、第１クラスタリングモデルが開発される。この第１クラスタリングモデルは、図２０Ｂに表されており、これは、第１部分～第５部分の全てのパルスについての発光寿命およびパルス強度を示している。第１クラスタリングモデルは、それによって、アフィニティ試薬の特徴的な特性を同定することができる。－図２０Ｂに示すように、２つの異なるアフィニティ試薬からのデータを表す２つの異なるクラスタが同定される。

続いて、図２０Ｃに示すように、図２０Ａに示したデータの５つの部分のそれぞれからのパルスについてのパルス寿命および強度データを別々に配列してもよい。このデータを配置する際には、第１クラスタリングモデルからのパルスのクラスタリング割り当てが利用される。注目すべきこととして、いくつかの部分、すなわち、第１部分、第３部分、第４部分、および第５部分からのパルスは、第１クラスタリングモデルの２つのクラスタの両方からのデータを備えている。対照的に、第２部分のみが主に１つのクラスタからのデータを備えている。

第１クラスタリングモデルを利用して各部分にどのクラスタが存在するかを同定することで、どのクラスタが存在するかに基づき、異なるガウス混合モデルＧＭＭモデルを選択することができる。例えば、第１部分、第３部分、第４部分、および第５部分のデータは、第１クラスタリングモデルの各クラスタに対応するアフィニティ試薬の特性について特別に学習済みガウス混合モデルＧＭＭモデルに基づき、アミノ酸を割り当ててもよい。この結果は、第１クラスタからのデータ点の平均パルス持続時間を、第２クラスタからのデータ点の平均パルス持続時間に対してプロットした図２０Ｄに示されている（第３部分のデータ点は、図２０Ｄに示される可視領域内に示されていない）。このように、各部分は適切に分類され得る。対照的に、第２部分は、代わりに、それぞれの結合剤の特性のみに基づき学習済み別々のガウス混合モデルＧＭＭモデルによって分類されてもよい。

図１１は、本明細書に記載の技術のいくつかの実施形態による、アミノ酸を同定するための畳み込みニューラルネットワーク（ＣＮＮ）１１００の構造例を示す。いくつかの実施形態では、畳み込みニューラルネットワークＣＮＮ１１００は、図６Ａを参照して上述した処理６００を実行することで学習されてもよい。いくつかの実施形態では、処理６００から得られた学習済み畳み込みニューラルネットワークＣＮＮ１１００は、図６Ｂを参照して上述した処理６１０を実行するべく使用されてもよい。

図１１の例示的な実施形態では、畳み込みニューラルネットワークＣＮＮ１１００は、入力１１０２Ａを受け取る。いくつかの実施形態では、入力１１０２Ａは、光パルス後の時間区間の光子の数を指定するフレームの集合体であってもよい。いくつかの実施形態では、入力１１０２Ａは、図９Ｂを参照して上述したデータ構造９１０のようなデータ構造に配置されてもよい。図１１の例示的な実施形態では、入力１１０２Ａは、２×１０００の入力マトリクスを形成する、２つの時間区間のデータの１０００フレームを備えている。いくつかの実施形態では、入力１１０２Ａは、（例えば、処理７００中に同定された）アミノ酸と試薬の結合相互作用に関連するフレームのセットを備えてもよい。いくつかの実施形態では、入力１１０２Ａは、検出された結合相互作用の１つまたは複数の特性（例えば、パルス持続時間、パルス同士間持続時間、波長、発光強度、および／または発光寿命）の値、および／または、特性から導出された１つまたは複数のパラメータの値であってもよい。

いくつかの実施形態では、畳み込みニューラルネットワークＣＮＮ１１００は、入力１１０２Ａが１つまたは複数のフィルタで畳み込まれる１つまたは複数の畳込層１１０２を備えている。図１１の例示的な実施形態では、入力１１０２Ａは、第１畳込層において、１６個の２×５０フィルタの第１シリーズで畳み込まれる。１６個のフィルタによる畳み込みの結果、１６×９５１の出力１１０２Ｂが得られる。いくつかの実施形態では、畳み込みニューラルネットワークＣＮＮ１１００は、第１畳込層の後にプーリング層を備えてもよい。一例として、畳み込みニューラルネットワークＣＮＮ１１００は、第１畳込層の出力のウィンドウ内の最大値を取ってプーリングを行い、出力１１０２Ｂを得てもよい。

図１１の例示的な実施形態では、第１畳込層の出力１１０２Ｂは、次に、第２畳込層において１つまたは複数のフィルタの第２セットと畳み込まれる。出力１１０２Ｂは、１つまたは複数の１×６フィルタのセットで畳み込まれ、出力１１０２Ｃを得る。いくつかの実施形態では、畳み込みニューラルネットワークＣＮＮ１１００は、第２畳込層の後にプーリング層（例えば、最大プーリング層）を備えてもよい。

図１１の例示的な実施形態では、畳み込みニューラルネットワークＣＮＮ１１００は、畳込層１１０２の出力を平坦化して、平坦化された出力１１０６Ａを生成する平坦化工程１１０４を備えている。いくつかの実施形態では、畳み込みニューラルネットワークＣＮＮ１１００は、８×９４６の出力行列を１次元のベクトルに変換することで、出力１１０２Ｃを平坦化するように構成されてもよい。図１１の例示的な実施形態では、８×４３の出力１１０２Ｃは、１×７５６８のベクトル１１０６Ａに変換される。ベクトル１１０６Ａは、可能な各クラスに対するスコアを生成するべく、完全連結層に入力されてもよい。図１１の例示的な実施形態では、可能なクラスは、２０個の共通のアミノ酸、および空白（－）である。次に、ソフトマックス演算１１０６を完全連結層の出力に対して実行して、出力１１１０を得る。いくつかの実施形態では、ソフトマックス演算１１０６は、クラスのそれぞれに対するスコアをそれぞれの確率に変換してもよい。次いで、ａｒｇｍａｘ演算１１０８が出力１１１０に対して実行され、分類を得る。ａｒｇｍａｘ演算１１０８は、出力１１１０において最も高い確率を有するクラスを選択してもよい。一例として、出力は、入力１１０２Ａによって表される時間期間中に、試薬との結合反応を行っているアミノ酸を同定してもよい。別の例として、出力は、空白（－）の分類を出力することで、その期間中に試薬とアミノ酸との結合相互作用がなかったことを同定してもよい。

図１２は、本明細書に記載の技術のいくつかの実施形態による、ポリペプチドのアミノ酸を同定するためのコネクショニスト時間分類（ＣＴＣ）適合ニューラルネットワークモデル１２００の一例を示す。いくつかの実施形態では、コネクショニスト時間分類ＣＴＣ適合ニューラルネットワークモデル１２００は、図６Ａを参照して上述した処理６００を実行することで学習されてもよい。いくつかの実施形態では、処理６００から得られた学習済みコネクショニスト時間分類ＣＴＣ適合ニューラルネットワークモデル１２００は、図６Ｂを参照して上述した処理６１０を実行するべく使用されてもよい。

図１２の例示的な実施形態では、モデル１２００は、タンパク質配列決定装置（例えば、タンパク質配列決定装置５０２）によって収集されたデータを受け取るように構成される。一例として、モデル１２００は、タンパク質配列決定装置５０２のタンパク質同定システム５０２Ｄによって使用される機械学習モデルであってもよい。データは、試薬がアミノ酸に相互作用中の発光標識による検出された発光からアクセスされてもよい。いくつかの実施形態では、データは、図９Ｂを参照して上述したように、光子および／またはフレームの数の複数の系列として配置されてもよい。いくつかの実施形態では、タンパク質配列決定装置１２２０によって収集されたデータの一部は、モデル１２００への一連の入力として提供されてもよい。一例として、モデル１２００は、４００個の光パルスのそれぞれの後の２つの時間区間で検出された光子の数を指定する２×４００の第１入力を受け取るように構成されてもよい。

図１２の例示的な実施形態では、モデル１２００は、特徴抽出器１２０４を備えている。いくつかの実施形態では、特徴抽出器は、学習済みオートエンコーダのエンコーダであってもよい。オートエンコーダは、学習されてもよく、オートエンコーダからのデコーダは、特徴抽出器１２０４として実装されてもよい。エンコーダは、入力を１つまたは複数の特徴値１２０６としてエンコードするように構成されてもよい。

図１２の例示的な実施形態では、特徴抽出器１２０４によって決定された特徴値１２０６は、各可能なクラスに対する一連の確率値を示す確率行列１２１０を出力する予測器１２０８に入力される。図１２の例示的な実施形態では、クラスは、試薬が結合することができるアミノ酸（例えば、２０の一般的なアミノ酸、および空白（－））を備えている。一例として、予測器１２０８は、クラスのそれぞれについて、一連の５０個の確率値を示す２１×５０のマトリクスを出力してもよい。確率行列１２１０は、タンパク質配列決定装置１２２０によって収集されたデータに対応するアミノ酸配列を同定する出力１２３０を生成するべく使用されてもよい。いくつかの実施形態では、アミノ酸配列は、確率行列１２１０から決定されてもよい。一例として、アミノ酸配列の出力１２３０を得るべく、ビームサーチを実行してもよい。いくつかの実施形態では、出力は、それぞれのタンパク質を指定する複数のアミノ酸配列のうちの１つに照合されてもよい（例えば、処理６１０のブロック６１８で実行されるように）。一例として、出力は、複数のアミノ酸配列のセットから、タンパク質の複数の配列の隠れマルコフモデルＨＭＭに最も密接に整列するアミノ酸配列を選択するべく使用される隠れマルコフモデル（ＨＭＭ）を生成するべく使用されてもよい。

いくつかの実施形態では、特徴抽出器１２０４は、予測器１２０８とは別に学習されてもよい。一例として、特徴抽出器１２０４は、オートエンコーダを学習することで得られてもよい。その後、オートエンコーダからのエンコーダを特徴抽出器１２０４として使用してもよい。いくつかの実施形態では、予測器１２０８は、コネクショニスト時間分類ＣＴＣ損失関数１２１２を用いて別個に学習されてもよい。コネクショニスト時間分類ＣＴＣ損失関数１２１２は、予測器１２０８を学習して、出力１２３０を生成するのに使用できる出力を生成してもよい。

いくつかの実施形態では、複数の確率行列を組み合わせてもよい。第２入力は、タンパク質配列決定装置１２２０によって得られたデータからアクセスされてもよい。第２入力は、タンパク質配列決定装置１２２０によって得られたデータの第２部分であってもよい。いくつかの実施形態では、第２入力は、タンパク質配列決定装置１２２０によって得られたデータにおいて、いくつかの点だけシフトすることで得られてもよい。一例として、第２入力は、配列決定装置（シーケンサ）（４２０）から得られたデータにおける８点をシフトすることで得られる４００×２の第２入力行列であってもよい。第２入力に対応する確率行列は、予測器１２０８から得られ、第１入力に対応する第１確率行列と組み合わされてもよい。一例として、第２確率行列は、第１確率行列に追加されてもよい。別の例として、第２確率行列をシフトして、第１確率行列に追加してもよい。その後、結合された確率行列は、アミノ酸配列を同定する出力１２３０を得るべく使用されてもよい。

いくつかの実施形態では、特徴抽出器１２０４は、ニューラルネットワークであってもよい。いくつかの実施形態では、ニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ）であってもよい。いくつかの実施形態では、畳み込みニューラルネットワークＣＮＮは、１つまたは複数の畳込層および１つまたは複数のプーリング層を備えてもよい。畳み込みニューラルネットワークＣＮＮは、タンパク質配列決定装置１２２０からの入力がフィルタのセットで畳み込まれる第１畳込層を備えてもよい。一例として、入力は、１６×４００×２の出力を生成するべく、１×１のストライドを使用して、１６個の１０×２フィルタのセットと畳み込まれてもよい。活性化関数は、第１畳込層の出力に適用されてもよい。一例として、ＲｅＬＵ活性化関数を第１畳込層の出力に適用してもよい。いくつかの実施形態では、畳み込みニューラルネットワークＣＮＮは、第１畳込層の後に第１プーリング層を備えてもよい。いくつかの実施形態では、畳み込みニューラルネットワークＣＮＮは、第１畳込層の出力にｍａｘｐｏｏｌ演算を適用してもよい。例として、１×１のストライドを有する２×２フィルタを１６×４００×２の出力に適用して２００×１の出力を得てもよい。

いくつかの実施形態では、畳み込みニューラルネットワークＣＮＮは第２畳込層を備えていてもよい。第２畳込層は、第１プーリング層の出力を入力として受け取ってもよい。一例として、第２畳込層は、第１プーリング層の２００×１の出力を入力として受け取ってもよい。第２畳込層では、第２フィルタセットによる畳み込みを行ってもよい。例として、第２畳込層では、２００×１の入力を、ストライドが１×１の１６個の１０×１フィルタの第２セットで畳み込み、１６×２００の出力を生成してもよい。活性化関数は、第２畳込層の出力に適用されてもよい。一例として、ＲｅＬＵ活性化関数が第２畳込層の出力に適用されてもよい。いくつかの実施形態では、畳み込みニューラルネットワークＣＮＮは、第２畳込層の後に、第２プーリング層を備えてもよい。いくつかの実施形態では、畳み込みニューラルネットワークＣＮＮは、第２畳込層の出力にｍａｘｐｏｏｌ演算を適用してもよい。例として、４×１のストライドを有する４×１フィルタを第２畳込層の１６×２００の出力に適用して、１６×５０の出力を得てもよい。

いくつかの実施形態では、特徴抽出器１２０４は、リカレントニューラルネットワーク（ＲＮＮ）であってもよい。一例として、特徴抽出器１２０４は、タンパク質配列決定装置１２２０から受け取られたデータを１つまたは複数の特徴の値として符号化するように学習済みＲＮＮであってもよい。いくつかの実施形態では、特徴抽出器１２０４は、長短期記憶（ＬＳＴＭ）ネットワークであってもよい。いくつかの実施形態では、特徴抽出器１２０４は、ゲーテッドリカレントユニット（ＧＲＵ）ネットワークであってもよい。

いくつかの実施形態では、予測器１２０８は、ニューラルネットワークであってもよい。いくつかの実施形態では、ニューラルネットワークは、ＧＲＵネットワークであってもよい。いくつかの実施形態では、ＧＲＵネットワークは、双方向であってもよい。一例として、ＧＲＵネットワークは、ＧＲＵネットワークへの入力として提供される特徴抽出器１２０４の１６×５０の出力を受け取ってもよい。一例として、ＧＲＵネットワークは、５０×１２８の出力を生成する６４の隠れ層を有してもよい。いくつかの実施形態では、ＧＲＵネットワークは、ｔａｎｈ活性化関数を使用してもよい。いくつかの実施形態では、予測器１２０８は、完全連結層を備えてもよい。ＧＲＵネットワークの出力は、２１×５０の出力行列を生成する完全連結層への入力として提供されてもよい。２１×５０行列は、各可能な出力クラスに対する一連の値を備えてもよい。いくつかの実施形態では、予測器１２０８は、完全連結層の出力にソフトマックス関数を適用して、確率行列１２１０を得るように構成されてもよい。

図７に関連して上述したように、学習済み機械学習モデルに入力される値を同定するべく、シグナルトレースの部分が同定されてもよい。各部分、または関心領域（ＲＯＩ）は、関心領域ＲＯＩ内で生成されるシグナルの特性が試薬を示すという点で、特定の発光試薬に関連付けられてもよい。例えば、図３では、Ｋ、Ｆ、Ｑと示された３つの関心領域ＲＯＩが切断イベント同士間に同定されている。したがって、これらの関心領域ＲＯＩを同定することは、学習済み機械学習モデルに入力するべく各関心領域ＲＯＩから特徴を抽出する前に、図７の方法のように、データの一部を選択する最初の工程を表すことができる。

関心領域ＲＯＩを同定するための例示的なアプローチが、図１４Ａ～図１４Ｃに示されている。説明の目的で、図１４Ａは、上述したような多数のパルス（測定された発光）を備えている例示的なシグナルトレースを描いている。一般に、このようなシグナルトレースは、それぞれが特定のアフィニティ試薬によって生成されたパルスに対応する多数の関心領域ＲＯＩを備えていることができる。以下でさらに説明するアプローチでは、シグナルトレースの一部または全部にウェーブレット変換を適用して、図１４Ｂに描かれている複数のウェーブレット係数を生成してもよい。これらのウェーブレット係数は、図１４Ｂの様々な特徴の位置を、図１４Ａのパルスの対応する変化と比較することで注目され得るように、元のシグナルトレースの特性を表す。

図１４Ｃに示すように、ウェーブレット係数は、候補関心領域ＲＯＩを同定するべく分析されてもよい。図１４Ｃの暗い縦棒は、関心領域ＲＯＩの開始または終了がその位置に存在する可能性があることを示すウェーブレット係数の測定値を表している。場合によっては、後述するように、候補関心領域ＲＯＩをさらに分析して、候補が実際の関心領域ＲＯＩである可能性がどの程度高いかという信頼度の測定値に基づき、いくつかの候補関心領域ＲＯＩを除外してもよい。

図１５は、いくつかの実施形態による、上記で概説したウェーブレットアプローチを使用して関心領域ＲＯＩを同定する方法のフローチャートである。方法１５００は、例えば、図７の方法７００におけるブロック７０２で利用されてもよく、この方法では、各部分について機械学習モデルにデータを提供する前に、データの部分（関心領域ＲＯＩ）が同定される。

方法１５００は、パルスを備えているシグナルトレースの一部または全部のウェーブレット分解が実行される行為１５０２で始まる。いくつかの実施形態では、ウェーブレット分解は、離散ウェーブレット変換（ＤＷＴ）を備えてもよく、これは任意の適切なレベルの分解まで実行されてもよい。いくつかの実施形態において、行為１５０２は、少なくとも１０、または１０と２０の間、または１５と２０の間、または１７と１８の間の分解レベルを有する係数を生成する工程を備えてもよい。いくつかの実施形態では、分解レベルは、シグナルトレースの１つまたは複数の特性（例えば、フレーム持続時間、パルス同士間持続時間など）に基づき動的に選択されてもよい。

いくつかの実施形態によれば、行為１５０２において実行されるウェーブレット分解は、Ｈａａｒ、Ｄａｕｂｅｃｈｉｅｓ、ｂｉｏｒｔｈｏｇｏｎａｌ、ｃｏｉｆｌｅｔ、またはｓｙｍｌｅｔを備えているがこれらに限定されない、任意の適切な離散ウェーブレットおよび／またはウェーブレットファミリーを使用して実行されてもよい。

ウェーブレット変換は、シグナルトレースにおける測定値（フレーム）の数よりも少ない数の係数を生成する可能性があるので、ウェーブレット係数とシグナルトレースとの間で比較される値の数が同じになるように、生成されたウェーブレット係数同士の間に追加のデータ値を生成するべく、行為１５０２において１つまたは複数の操作が実行されてもよい。例えば、データ値は、任意の適切な補間方法または手法を介して、ウェーブレット係数同士間の補間によって生成されてもよい。例えば、データ値は、最近傍補間を介して、線形補間を介して、多項式補間を介して、スプライン補間を介して、またはそれらの組み合わせを介して、生成されてもよい。

行為１５０２においてウェーブレット係数がどのように計算されるかにかかわらず、また、上述したように追加のデータ値が生成されるか否かにかかわらず、行為１５０４において、ウェーブレット係数に基づき縁（エッジ）が検出される。以降の説明では、行為１５０４は、ウェーブレット係数に基づき実行される演算を備えているものとして説明するが、この説明は、行為１５０２におけるウェーブレット変換から生成されたウェーブレット係数のセットのみにも、補間されたデータ値に組み合わせたウェーブレット係数の組み合わせにも適用可能であることが理解されるであろう。

いくつかの実施形態では、エッジは、行為１５０４におけるウェーブレット係数の傾きを測定することで検出されてもよい。例えば、係数内の１つまたは複数の隣接する値にわたる平均傾斜が計算されてもよく、平均傾斜が適切な閾値を上回るときにエッジが検出されてもよい。いくつかの実施形態では、閾値はゼロであってもよく、すなわち、係数の傾きがゼロからゼロ以上になったときにエッジが検出されてもよく、係数の傾きが負でゼロに向かって上昇したときにもエッジが検出されてもよい。これによって、関心領域ＲＯＩのリーディングエッジとフォールディングエッジを検出することができる場合がある。

いくつかの実施形態では、検出されたエッジの大きさは、行為１５０４で計算されてもよい。マグニチュードは、例えば、検出されたエッジにすぐ隣接するウェーブレット係数の傾きの大きさであってもよい。したがって、急速に上昇するエッジは、よりゆっくりと上昇するエッジとは異なる大きさを有するものとして同定されてもよい。

行為１５０６では、行為１５０４で検出されたエッジに基づき、１つまたは複数の候補関心領域ＲＯＩがシグナルトレース内で同定されてもよい。いくつかの実施形態では、候補関心領域ＲＯＩは、開始エッジと終了エッジとの間の領域として同定されてもよい。例えば、図１４Ｃの例では、同定された最初の２つのエッジは、第１関心領域ＲＯＩの開始および終了であると考えられてもよく、それによって、領域１４０５が候補関心領域ＲＯＩとして同定されることができる。

いくつかの実施形態によれば、行為１５０６は、パルスについてのパルス持続時間の有意な変化が候補関心領域ＲＯＩ内で発生するかどうかを判定する有意差検定を備えてもよい。パルス持続時間の変化が何らかの尺度で有意であることが判明した場合、候補関心領域ＲＯＩを、それぞれが異なるパルス持続時間を示す２つ以上の関心領域ＲＯＩに分割してもよい。例えば、候補関心領域ＲＯＩ内の時間位置および／またはパルス位置が、関心領域ＲＯＩを２つの新しい関心領域ＲＯＩに分割する点として同定されてもよい（したがって、新しい第１関心領域ＲＯＩが分割点で終了し、新しい第２関心領域ＲＯＩが分割点で開始してもよい）。この処理は、関心領域ＲＯＩを分割した後、最初の関心領域ＲＯＩを分割することで生成された新しい関心領域ＲＯＩを検査し、再び分割するなど、再帰的に行われてもよい。また、このアプローチは、パルス持続時間のみの使用に限定されるものではないので、関心領域ＲＯＩ候補を分割するかどうかを決定するべく、任意のパルス特性を検査してもよいことが理解されるであろう。

行為１５０６において検出されたエッジから候補関心領域ＲＯＩがどのように同定されるかにかかわらず、行為１５０８において、候補関心領域ＲＯＩは任意にスコアリングされ、低スコアの関心領域ＲＯＩは検討から除外されてもよい。行為１５０８は、それによって、行為１５０６で同定されたが、実際の関心領域ＲＯＩを表している可能性が低いスプリアス（ｓｐｕｒｉｏｕｓ）関心領域ＲＯＩのカリング（ｃｕｌｌｉｎｇ）を可能にしてもよい。

いくつかの実施形態によれば、行為１５０８において、各関心領域ＲＯＩに対してスコアリング関数の値を計算してもよい。スコアリング関数は、候補関心領域ＲＯＩの前縁および／または後縁におけるウェーブレット係数の平均傾斜、関心領域ＲＯＩ内のウェーブレット係数の平均または中央値の振幅、関心領域ＲＯＩ内のパルスレート、シグナルトレース全体内のノイズレベルの推定値、シグナルトレース全体内のパルスレート、またはこれらの組み合わせを備えているが、これらに限定されないいくつかの変数の関数であってもよい。

いくつかの実施形態によれば、スコアリング関数は、ｉ番目の候補関心領域ＲＯＩの信頼性スコアＣ_ｉを計算するべく、以下の形式をとることができる。

ここで、Ｅ_ｉは、候補関心領域ＲＯＩの前縁および後縁におけるウェーブレット係数の傾きの平均であり、Ｍ_ｉは、関心領域ＲＯＩ内のウェーブレット係数の振幅の中央値であり、Ｐｒ_ｉは、関心領域ＲＯＩ内のパルスレートであり、Ｎｔは、シグナルトレース全体内のノイズレベルの推定値（例えば、シグナルトレースの全ウェーブレットエントロピー）であり、ＰＲは、シグナルトレース全体内のパルスレートである。

いくつかの実施形態によれば、行為１５０８は、計算されたスコアが閾値を下回る関心領域ＲＯＩを除外する工程を備えてもよい。例えば、スコアが上の式によって与えられる場合、或る閾値を下回るスコアを持つ候補関心領域ＲＯＩは、その後の検討から除外されてもよい。

図７に関連して上述したように、機械学習モデルへの入力用の値は、パルスパラメータにフィッティング（適合）する分布を記述するパラメータを備えている、データの一部から得られる任意のパラメータを備えてもよい。さらに、機械学習モデルの学習中に、既知のアフィニティ試薬から生成されたデータを適切な分布に当てはめて、機械学習モデルが、アフィニティ試薬が示す分布のパラメータに基づきアフィニティ試薬を認識するように学習させてもよい。

図１６Ａ～図１６Ｂは、いくつかの実施形態にしたがって、この方法で適用され得る２つの例示的なアプローチを示している。図１６Ａの例では、既知のアミノ酸に関連するアフィニティ試薬に対応するシグナルトレースの一部のパルス持続時間が、べき乗則分布にフィッティングされる。暗い線１６０１は、関連するシグナルトレースデータが示すパルス持続時間の分布を表し、明るい線１６０２は、Ｃおよびａが定数であり、ｘがパルス持続時間である、べき乗則Ｃｘ^ａによって記述される線を表す。このようにして機械学習モデルを学習することで、各アフィニティ試薬は、Ｃおよびａの独自の値（または値の独自の分布）に関連付けられてもよい。

図１６Ａとそれに続く議論によって示されるアプローチは、単一のパルス持続時間値（または他のパルスパラメータ）が、特定のアフィニティ試薬によって生成される測定値のタイプを完全には表さない可能性に基づいている。むしろ、各アフィニティ試薬は、当然、パルスパラメータ値の範囲を生成する可能性がある。しかし、その範囲の特性は、アフィニティ試薬ごとに異なる可能性があり、したがって、分布は、特定の値ではなく、試薬の特性である。

図１６Ｂは、指数関数の和（指数状態とも呼ばれる）を用いて、所定のアフィニティ試薬によって生成されたデータを表現する例である。図１６Ｂに示すように、既知のアミノ酸に関連するアフィニティ試薬に対応するシグナルトレースの一部のパルス持続時間が、指数関数の和にフィッティングされる。暗い線１６１１は、関連するシグナルトレースデータによって示されるパルス持続時間の分布を表し、中度灰色の線１６１２は、指数関数の合計によって記述される線を表す。これらの指数関数は、薄い灰色の線１６１５および１６１６として図示されている。数学的には、指数関数の和は、以下のように与えられることがある。

ここで、ａ_ｉおよびｂ_ｉは、ｉ番目の指数関数の値である。図１６Ｂに描かれたケースでは、したがって、データ１６１１にフィッティングする可能性のある値は、ａ_１、ａ_２、ｂ_１、およびｂ_２である。

図１７Ａ～図１７Ｂは、いくつかの実施形態による、パルス持続時間値が３つの指数関数の和にフィッティングするアプローチを示しており、フィッティングした各分布は共通の指数関数を備えている。図１７Ａ～図１７Ｂの例では、３つの指数関数の合計が、２つの例示的なジペプチドＦＡおよびＹＡのそれぞれのパルス持続時間分布にフィッティングされる。指数関数の和は、上式のように与えられてもよく、ここでは、ａ_０およびｂ_０の同じ値が各分布のフィッティングに使用され、残りの値ａ_１、ａ_２、ｂ_１、およびｂ_２が各分布に対して別々にフィッティングされる。特に、図１７Ａは、データ１７０１が指数関数１７０５、１７１５、１７１６の和１７０２にフィッティングする様子を描いており、関数１７０５は共通の指数関数である。図１７Ｂは、データ１７１１が、指数関数１７０５、１７１８および１７１９の和１７１２にフィッティングされる様子を描いている。

図１７Ａ～図１７Ｂのアプローチは、値ａ_０およびｂ_０によって表される共通の状態が、すべてのジペプチドに存在するという分布の共通構成要素を表すという利点を有し得る。この共通構成要素は、例えば、測定装置に固有のノイズ、および／または、シグナルトレースを生成するためのアフィニティ試薬の使用に固有のノイズを表している可能性がある。

いくつかの実施形態によれば、このアプローチを用いた機械学習モデルの学習は、以下のように構成される。まず、システムのダイナミクスを、パルス持続時間の関数である３構成要素システムとしてモデル化する。

ここで、αの値はすべてのジペプチドに共通であるが、残りのパラメータＡ，Ｂ，Ｃ，β_０およびβ_１は、インデックスｎで参照される特定のジペプチドに固有である。
関数Ｇ（ｘ）は、観測されたパルス持続時間の範囲で合計が１になるように制約されることがある。

ここで、ｄ_０とｄ_１は、観測されたパルスの持続時間の下限と上限である。
機械学習モデルの学習中、Ｇ（ｘ）のパラメータは、モデルの負の対数尤度を最小化することで決定されてもよい。

即ち、上記負の対数尤度を最小化する。ここで、ｐ^（ｎ）は、モデルのパラメータが与えられたときのデータの観測確率である。

ここで、Ｘ^（ｎ）は、学習データとして観測されたパルス幅の集合である。
タンパク質の同定を行う場合、このモデルを適用するには、すべてのｎに対してｐ^（ｎ）を計算する。Σｌｎ（ｐ^（ｎ））の値が最も大きいｎで表されるジペプチドをモデル予測とすることができる。

指数関数の和を用いてパルス持続時間の分布をモデル化する上述の例は、特定のアフィニティ試薬および／またはジペプチドによって生成されたデータのパルス特性を記述する一例として提供されていることが理解されるであろう。他のアプローチは、異なるパルス特性の複数の分布に依存してもよく、様々な機械学習技術を適用して、複数の分布からのパラメータに基づきタンパク質を同定する機械学習モデルを学習してもよい。

いくつかの実施形態では、分布は、観察されたパルスを生成するべくタンパク質と相互作用する特定のアフィニティ試薬が与えられた場合に、特定のパルス特性または特性を測定する確率に基づいてもよい。いくつかの実施形態では、分布は、観察されたパルスが観察されたときに特定の末端ジペプチドが存在する場合に、特定のパルス特性または特性を測定する確率に基づいてもよい。特定のアフィニティ試薬は、或るジペプチドとの相互作用時に、別のジペプチドとの相互作用時に、異なるパルス特性の分布を生じることがあるので、上記の２つのケースは、必ずしも同一ではない。同様に、同じジペプチドが、或るアフィニティ試薬と別のアフィニティ試薬との相互作用時に、異なるパルス特性を生じさせることもある。

このように、本発明の少なくとも１つの実施形態のいくつかの側面を説明してきたが、様々な変更、修正、および改良が当業者に容易に生じることが理解されよう。
そのような変更、修正、および改良は、本開示の一部であることが意図され、本発明の精神および範囲内であることが意図される。さらに、本発明の利点が示されているが、本明細書に記載された技術のすべての実施形態が、記載されたすべての利点を備えているわけではないことを理解すべきである。いくつかの実施形態は、本明細書で有利であると説明されたいかなる特徴も実施しない場合があり、いくつかの例では、説明された特徴のうちの１つまたは複数が、さらなる実施形態を達成するべく実施される場合がある。したがって、前述の説明および図面は、例示に過ぎない。

例えば、ペプチド、ポリペプチドおよび／またはタンパク質などの生物学的ポリマーを配列決定するための技術が本明細書に記載されている。記載されている技術は、アミノ酸の任意の適切なポリマーに適用することができ、配列決定、アミノ酸の同定などに関する本明細書のあらゆる言及は、特定のポリマーに関して限定的であると見なすべきではないことが理解されるであろう。よって、本明細書でタンパク質、ポリペプチド、ペプチドなどに言及しているのは、別段の指示がない限り、例示的な例として提供されており、そのような言及は、明示的に同定されていない他のアミノ酸のポリマーにも同様に適用できることが理解されるであろう。さらに、ＤＮＡおよび／またはＲＮＡを備えているがこれらに限定されない、任意の生物学的ポリマーが本明細書に記載された技術を用いて配列決定され得る。

さらに、本明細書で使用される、ポリペプチドまたはタンパク質に関する「シークエンシング」（配列決定）、「シーケンス決定」（配列決定）、「配列を決定する」などの用語は、ポリペプチドまたはタンパク質の完全な配列情報だけでなく、部分的な配列情報の決定を備えている。すなわち、この用語には、対象分子についての配列比較、指紋（フィンガープリント）、確率的指紋などのレベルの情報に加えて、関心領域内の対象分子の各アミノ酸の明示的な同定および順序付けることが含まれる。いくつかの実施形態では、用語は、ポリペプチドの単一のアミノ酸を同定する工程を備えている。さらに他の実施形態では、ポリペプチドの２つ以上のアミノ酸が同定される。本明細書で使用されるように、いくつかの実施形態では、アミノ酸に関連して、「同定する」（ｉｄｅｎｔｉｆｙｉｎｇ。特定する。識別する）、「同一性を決定する」（ｄｅｔｅｒｍｉｎｉｎｇｔｈｅｉｄｅｎｔｉｔｙ）などの用語は、アミノ酸の発現同一性の決定だけでなく、アミノ酸の発現同一性の確率の決定も備えている。例えば、いくつかの実施形態では、アミノ酸は、そのアミノ酸が特定の型である確率（例えば、０％から１００％）を決定することで、または複数の特定の型のそれぞれについて確率を決定することで、同定される。したがって、いくつかの実施形態では、本明細書で使用される「アミノ酸配列」、「ポリペプチド配列」、および「タンパク質配列」という用語は、ポリペプチドまたはタンパク質の材料自体を指すことがあり、特定のポリペプチドまたはタンパク質を生化学的に特徴づける特定の配列情報（例えば、或る末端から別の末端へのアミノ酸の順序を表す文字の連続）に限定されない。

いくつかの実施形態では、本明細書に記載されたシステムおよび技術は、１つまたは複数のコンピューティング装置を使用して実装することができる。しかしながら、実施形態は、任意の特定のタイプのコンピューティング装置で動作するように限定されるものではない。さらなる例示として、図１３は、例示的なコンピューティング装置１３００のブロック図である。コンピューティング装置１３００は、１つまたは複数のプロセッサ１３０２と、１つまたは複数の有形の非一時的なコンピュータ可読記憶媒体（例えば、メモリ１３０４）とを備えてもよい。メモリ１３０４は、実行されると上述の機能のいずれかを実装するコンピュータプログラム命令を、有形の非一時的なコンピュータ記録可能な媒体に格納してもよい。プロセッサ（複数可）１３０２は、メモリ１３０４に結合されてもよく、機能性を実現および実行させるべく、そのようなコンピュータプログラム命令を実行してもよい。

コンピューティング装置１３００はまた、コンピューティング装置が他のコンピューティング装置と（例えば、ネットワークを介して）通信することができるネットワーク入力／出力（Ｉ／Ｏ）インタフェース１３０６を備えてもよく、さらに、コンピューティング装置がユーザに出力を提供し、ユーザから入力を受け取ることができる１つまたは複数のユーザＩ／Ｏインタフェース１３０８を備えてもよい。ユーザＩ／Ｏインタフェースは、キーボード、マウス、マイクロフォン、ディスプレイ装置（例えば、モニタまたはタッチスクリーン）、スピーカ、カメラ、および／または他の様々なタイプのＩ／Ｏ装置などの装置を備えてもよい。

上述の実施形態は、多数の方法のいずれかで実施することができる。一例として、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせを使用して実装することができる。ソフトウェアで実装する場合、ソフトウェアコードは、単一のコンピューティング装置に設けられているか、複数のコンピューティング装置に分散されているかに関わらず、任意の適切なプロセッサ（例えば、マイクロプロセッサ）またはプロセッサの集合体上で実行することができる。上述した機能を実行する任意の構成要素または構成要素の集まりは、上述した機能を制御する１つまたは複数のコントローラとして一般的に考えることができることを理解すべきである。１つまたは複数のコントローラは、専用のハードウェア、または上述の機能を実行するべくマイクロコードまたはソフトウェアを使用してプログラムされた汎用ハードウェア（例えば、１つまたは複数のプロセッサ）など、数多くの方法で実装することができる。

この点において、本明細書に記載された実施形態の一実装は、少なくとも１つのコンピュータ可読記憶媒体（例えば、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または他の有形の非一時的なコンピュータ可読記憶媒体）であって、１つまたは複数のプロセッサで実行されると、１つまたは複数の実施形態の上述の機能を実行するコンピュータプログラム（すなわち、複数の実行可能な命令）がエンコードされている。コンピュータ可読記憶媒体（可読媒体）は、その上に格納されたプログラムが、本明細書で述べた技術の側面を実装するべく任意のコンピューティング装置にロードできるように、輸送可能であってもよい。さらに、実行されると上述の機能のいずれかを実行するコンピュータプログラムへの言及は、ホストコンピュータ上で実行されるアプリケーションプログラムに限定されないことを理解すべきである。むしろ、本明細書では、コンピュータプログラムおよびソフトウェアという用語は、本明細書で議論した技術の側面を実装するべく１つまたは複数のプロセッサをプログラムするべく採用することができる任意のタイプのコンピュータコード（例えば、アプリケーションソフトウェア、ファームウェア、マイクロコード、またはコンピュータ命令の他の形態）を参照するべく、一般的な意味で使用されている。

本開示の様々な特徴および態様は、単独で、２つ以上の任意の組み合わせで、または前述で説明した実施形態で具体的に説明されていない様々な配置で使用することができ、したがって、その適用は、前述の説明に記載された、または図面に図示された構成要素の詳細および配置に限定されない。一例として、一実施形態で説明した側面は、他の実施形態で説明した側面と任意の方法で組み合わせることができる。

また、本明細書に開示された概念は、その例が提供されている方法として具現化されてもよい。方法の一部として実行される行為は、任意の適切な方法で順序付けられてもよい。したがって、図示とは異なる順序で行為が実行される実施形態が構築されてもよく、これには、例示の実施形態では連続した行為として示されていても、いくつかの行為を同時に実行することが含まれる。

さらに、いくつかの行為は、「ユーザ」によって行われるものとして説明されている。「ユーザ」は単一の個人である必要はなく、いくつかの実施形態では、「ユーザ」に起因する行為は、個人のチームおよび／またはコンピュータ支援ツールもしくは他の機構と組み合わせた個人によって実行されてもよいことを理解すべきである。

請求項において、請求項要素を修正するべく「第１」、「第２」、「第３」などの序数詞を使用することは、それ自体、或る請求項要素の別の請求項要素に対する優先順位、先行順位、または方法の行為が実行される時間的順序を意味するものではなく、或る名称を有する或る請求項要素を、同じ名称を有する別の請求項要素（ただし、序数詞を使用する場合）と区別するための標識（ラベル）として使用されるに過ぎない。

また、本明細書で使用されているフレーズや用語は、説明のためのものであり、限定的なものとみなされるべきではない。本明細書における「ｉｎｃｌｕｄｉｎｇ」（含む、備える）、「ｃｏｍｐｒｉｓｉｎｇ」（含む、備える）、「有する」（ｈａｖｉｎｇ）、「ｃｏｎｔａｉｎｉｎｇ」（含む、備える）、「ｉｎｖｏｌｖｉｎｇ」（含む、備える）、およびそれらの変形の使用は、その後に列挙された項目およびそれらの等価物、ならびに追加の項目を包含することを意味する。

「ａｐｐｒｏｘｉｍａｔｅｌｙ」（およそ、約）および「ａｂｏｕｔ」（およそ、約）という用語は、いくつかの実施形態では目標値の±２０％以内、いくつかの実施形態では目標値の±１０％以内、いくつかの実施形態では目標値の±５％以内、さらにいくつかの実施形態では目標値の±２％以内を意味するべく使用されてもよい。「ａｐｐｒｏｘｉｍａｔｅｌｙ」（およそ、約）および「ａｂｏｕｔ」（およそ、約）という用語は、目標値を備えてもよい。「実質的に等しい」という用語は、いくつかの実施形態では互いに±２０％以内、いくつかの実施形態では互いに±１０％以内、いくつかの実施形態では互いに±５％以内、さらにいくつかの実施形態では互いに±２％以内である値を指すべく使用されてもよい。

「実質的に」という用語は、いくつかの実施形態では比較尺度の±２０％以内、いくつかの実施形態では±１０％以内、いくつかの実施形態では±５％以内、さらにいくつかの実施形態では±２％以内である値を指すべく使用されてもよい。例えば、第２方向に「実質的に」垂直な第１方向とは、いくつかの実施形態では第２方向と９０°の角度を作ることの±２０％以内、いくつかの実施形態では第２方向と９０°の角度を作ることの±１０％以内、いくつかの実施形態では第２方向と９０°の角度を作ることの±５％以内、さらにいくつかの実施形態では第２方向と９０°の角度を作ることの±２％以内である第１方向を指すことがある。

Claims

ポリペプチドを同定するための方法であって、少なくとも１つのコンピュータハードウェアプロセッサを用いて前記方法は、
前記ポリペプチドのアミノ酸との１つまたは複数の試薬の結合相互作用に関するデータにアクセスする工程と、
前記ポリペプチド内の複数の位置のそれぞれについて、１つまたは複数のそれぞれのアミノ酸がその位置に存在するという１つまたは複数の尤度を示す出力を得るべく、学習済み機械学習モデルへの入力として前記データを提供する工程と、
前記学習済み機械学習モデルから得られた出力に基づき、前記ポリペプチドを同定する工程と、
を備えている、ポリペプチドを同定するための方法。
前記１つまたは複数のそれぞれのアミノ酸がその位置に存在するという前記１つまたは複数の尤度は、
第１アミノ酸がその位置に存在するという第１尤度と、および
第２アミノ酸がその位置に存在するという第２尤度と、
を備えている、請求項１に記載の方法。
前記ポリペプチドを同定する工程は、前記得られた出力を、それぞれのタンパク質に関連する複数のアミノ酸配列のうちの１つに照合する工程を備えている、
請求項１または請求項２のいずれかに記載の方法。
前記得られた出力を、それぞれのタンパク質を同定する前記複数のアミノ酸配列のうちの１つに照合する工程は、
前記得られた出力に基づき、隠れマルコフモデル（ＨＭＭ）を生成する工程と、
前記隠れマルコフモデルＨＭＭを、前記複数のアミノ酸配列のうちの１つに照合する工程と、
を備えている、
請求項３に記載の方法。
前記機械学習モデルは、
ガウス混合モデル（ＧＭＭ）と、
複数のクラスタを備えているクラスタリングモデルであって、前記クラスタの各々は１つまたは複数のアミノ酸に関連付けられている、前記クラスタリングモデルと、
深層学習モデルと、
畳み込みニューラルネットワークと、または
コネクショニスト時間分類（ＣＴＣ）適合ニューラルネットワークと、
のうちの１つを備えている、
請求項１に記載の方法。
前記学習済み機械学習モデルは、教師付き学習アルゴリズムを学習データに適用することで生成される、
請求項１に記載の方法。
前記学習済み機械学習モデルは、半教師付き学習アルゴリズムを学習データに適用することで生成される、
請求項１に記載の方法。
前記学習済み機械学習モデルは、教師なし学習アルゴリズムを適用することで生成される、
請求項１に記載の方法。
前記学習済み機械学習モデルは、前記ポリペプチド内の前記複数の位置のうちの少なくともいくつかの位置ごとに、複数のアミノ酸のそれぞれについて、そのアミノ酸がその位置に存在するという確率を示す確率分布を出力するように構成されている、
請求項１に記載の方法。
前記１つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、パルス持続時間値を備えており、
各パルス持続時間値は、結合相互作用について検出されたシグナルパルスの持続時間を示す、
請求項１に記載の方法。
前記１つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、パルス同士間持続時間値を備えており、
各パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示す、
請求項１に記載の方法。
前記１つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、１つまたは複数のパルス持続時間値と、および１つまたは複数のパルス同士間持続時間値とを備えている、
請求項１に記載の方法。
前記学習済み機械学習モデルへの入力として前記データを提供する工程はさらに、
各部分が前記結合相互作用のそれぞれの１つに対応するべく、前記データの複数の部分を同定する工程と、
前記データの各部分に対応する出力を得るべく、前記複数の部分のそれぞれを前記学習済み機械学習モデルへの入力として提供する工程と、
を備えている、
請求項１に記載の方法。
前記データの前記部分に対応する前記出力は、１つまたは複数のそれぞれのアミノ酸が前記複数の位置のそれぞれの１つに存在するという１つまたは複数の尤度を示す、
請求項１３に記載の方法。
前記データの前記複数の部分を同定する工程は、
１つまたは複数の前記アミノ酸の切断に対応する前記データ内の１つまたは複数の点を同定する工程と、
前記１つまたは複数のアミノ酸の前記切断に対応する前記同定された１つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項１３に記載の方法。
前記データの前記複数の部分を同定する工程は、前記データの離散ウェーブレット変換を生成する工程を備えている、
請求項１３に記載の方法。
前記データの前記複数の部分を同定する工程は、
前記データから、前記結合相互作用の少なくとも１つの特性に関する要約統計量の値を決定する工程と、
前記データの中で、前記少なくとも１つの特性の値が前記要約統計量の前記値から閾値量だけ逸脱している１つまたは複数の点を同定する工程と、
前記同定された１つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項１３に記載の方法。
前記１つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用に関する前記データは、１つまたは複数の発光標識による検出された発光から得られたデータを備えている、
請求項１に記載の方法。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、波長値を備えており、
各波長値は、結合相互作用中に放出された光の波長を示す、
請求項１８に記載の方法。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、発光寿命値を備えている、
請求項１８に記載の方法。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、発光強度値を備えている、
請求項１８に記載の方法。
前記発光は一連の光パルスに反応し、
前記データは、少なくともいくつかの前記光パルスのそれぞれについて、前記光パルス後の時間期間の一部である複数の時間区間のそれぞれで検出された光子のそれぞれの数を備えている、
請求項１８に記載の方法。
前記学習済み機械学習モデルへの入力として前記データを提供する工程は、複数の列を有するデータ構造に前記データを配置する工程を備えており、
第１列は、前記一連の光パルスのうちの第１光パルス後の第１時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持しており、
第２列は、前記一連の光パルスのうちの第２光パルス後の第２時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持する、
請求項１に記載の方法。
前記１つまたは複数の発光標識は、前記１つまたは複数の試薬のうちの少なくとも１つに関連付けられている、
請求項１８に記載の方法。
前記１つまたは複数の発光標識は、前記ポリペプチドの前記アミノ酸の少なくともいくつかに関連付けられている、
請求項１８に記載の方法。
前記複数の位置は、前記ポリペプチド内の少なくとも１つの相対的位置を備えている、
請求項１に記載の方法。
ポリペプチドを同定するためのシステムであって、前記システムは、
少なくとも１つのプロセッサと、および
前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに方法を実行させる命令を格納する、少なくとも１つの非一時的なコンピュータ可読記憶媒体と、
を備えており、前記方法は、
前記ポリペプチドのアミノ酸との１つまたは複数の試薬の結合相互作用に関するデータにアクセスする工程と、
前記ポリペプチド内の複数の位置のそれぞれについて、１つまたは複数のそれぞれのアミノ酸がその位置に存在するという１つまたは複数の尤度を示す出力を得るべく、学習済み機械学習モデルへの入力として前記データを提供する工程と、
前記学習済み機械学習モデルから得られた出力に基づき、前記ポリペプチドを同定する工程と、
を備えている、ポリペプチドを同定するためのシステム。
前記１つまたは複数のそれぞれのアミノ酸がその位置に存在するという前記１つまたは複数の尤度は、
第１アミノ酸がその位置に存在するという第１尤度と、および
第２アミノ酸がその位置に存在するという第２尤度と、
を備えている、請求項２７に記載のシステム。
前記ポリペプチドを同定する工程は、前記得られた出力を、それぞれのタンパク質に関連する複数のアミノ酸配列のうちの１つに照合する工程を備えている、
請求項２７または請求項２８のいずれかに記載のシステム。
前記得られた出力を、それぞれのタンパク質を同定する前記複数のアミノ酸配列のうちの１つに照合する工程は、
前記得られた出力に基づき、隠れマルコフモデル（ＨＭＭ）を生成する工程と、
前記隠れマルコフモデルＨＭＭを、前記複数のアミノ酸配列のうちの１つに照合する工程と、
を備えている、
請求項２９に記載のシステム。
前記機械学習モデルは、
ガウス混合モデル（ＧＭＭ）と、
複数のクラスタを備えているクラスタリングモデルであって、前記クラスタの各々は１つまたは複数のアミノ酸に関連付けられている、前記クラスタリングモデルと、
深層学習モデルと、
畳み込みニューラルネットワークと、または
コネクショニスト時間分類（ＣＴＣ）適合ニューラルネットワークと、
のうちの１つを備えている、
請求項２７に記載のシステム。
前記学習済み機械学習モデルは、教師付き学習アルゴリズムを学習データに適用することで生成される、
請求項２７に記載のシステム。
前記学習済み機械学習モデルは、半教師付き学習アルゴリズムを学習データに適用することで生成される、
請求項２７に記載のシステム。
前記学習済み機械学習モデルは、教師なし学習アルゴリズムを適用することで生成される、
請求項２７に記載のシステム。
前記学習済み機械学習モデルは、前記ポリペプチド内の前記複数の位置のうちの少なくともいくつかの位置ごとに、複数のアミノ酸のそれぞれについて、そのアミノ酸がその位置に存在するという確率を示す確率分布を出力するように構成されている、
請求項２７に記載のシステム。
前記１つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、パルス持続時間値を備えており、
各パルス持続時間値は、結合相互作用について検出されたシグナルパルスの持続時間を示す、
請求項２７に記載のシステム。
前記１つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、パルス同士間持続時間値を備えており、
各パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示す、
請求項２７に記載のシステム。
前記１つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、１つまたは複数のパルス持続時間値と、および１つまたは複数のパルス同士間持続時間値とを備えている、
請求項２７に記載のシステム。
前記学習済み機械学習モデルへの入力として前記データを提供する工程はさらに、
各部分が前記結合相互作用のそれぞれの１つに対応するべく、前記データの複数の部分を同定する工程と、および
前記データの各部分に対応する出力を得るべく、前記複数の部分のそれぞれを前記学習済み機械学習モデルへの入力として提供する工程と、
を備えている、
請求項２７に記載のシステム。
前記データの前記部分に対応する前記出力は、１つまたは複数のそれぞれのアミノ酸が前記複数の位置のそれぞれの１つに存在するという１つまたは複数の尤度を示す、
請求項３９に記載のシステム。
前記データの前記複数の部分を同定する工程は、
１つまたは複数の前記アミノ酸の切断に対応する前記データ内の１つまたは複数の点を同定する工程と、
前記１つまたは複数のアミノ酸の前記切断に対応する前記同定された１つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項３９に記載のシステム。
前記データの前記複数の部分を同定する工程は、前記データの離散ウェーブレット変換を生成する工程を備えている、
請求項３９に記載のシステム。
前記データの前記複数の部分を同定する工程は、
前記データから、前記結合相互作用の少なくとも１つの特性に関する要約統計量の値を決定する工程と、
前記データの中で、前記少なくとも１つの特性の値が前記要約統計量の前記値から閾値量だけ逸脱している１つまたは複数の点を同定する工程と、
前記同定された１つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、
請求項３９に記載のシステム。
前記１つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用に関する前記データは、１つまたは複数の発光標識による検出された発光から得られたデータを備えている、
請求項２７に記載のシステム。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、波長値を備えており、
各波長値は、結合相互作用中に放出された光の波長を示す、
請求項４４に記載のシステム。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、発光寿命値を備えている、
請求項４４に記載のシステム。
前記１つまたは複数の発光標識による発光を検出した前記データは、発光強度値を備えている、
請求項４４に記載のシステム。
前記発光は一連の光パルスに反応し、
前記データは、少なくともいくつかの前記光パルスのそれぞれについて、前記光パルス後の時間期間の一部である複数の時間区間のそれぞれで検出された光子のそれぞれの数を備えている、
請求項４４に記載のシステム。
前記学習済み機械学習モデルへの入力として前記データを提供する工程は、複数の列を有するデータ構造に前記データを配置する工程を備えており、
第１列は、前記一連の光パルスのうちの第１光パルス後の第１時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持しており、
第２列は、前記一連の光パルスのうちの第２光パルス後の第２時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持する、
請求項２７に記載のシステム。
前記１つまたは複数の発光標識は、前記１つまたは複数の試薬のうちの少なくとも１つに関連付けられている、
請求項４４に記載のシステム。
前記１つまたは複数の発光標識は、前記ポリペプチドの前記アミノ酸の少なくともいくつかに関連付けられている、
請求項４４に記載のシステム。
前記複数の位置は、前記ポリペプチド内の少なくとも１つの相対的位置を備えている、
請求項２７に記載のシステム。
少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに方法を実行させる命令を格納した少なくとも１つの非一時的なコンピュータ可読記憶媒体であって、前記方法は
ポリペプチドのアミノ酸との１つまたは複数の試薬の結合相互作用に関するデータにアクセスする工程と、
前記ポリペプチド内の複数の位置のそれぞれについて、１つまたは複数のそれぞれのアミノ酸がその位置に存在するという１つまたは複数の尤度を示す出力を得るべく、学習済み機械学習モデルへの入力として前記データを提供する工程と、
前記学習済み機械学習モデルから得られた出力に基づき、前記ポリペプチドを同定する工程と、
を備えている、少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数のそれぞれのアミノ酸がその位置に存在するという前記１つまたは複数の尤度は、
第１アミノ酸がその位置に存在するという第１尤度と、および
第２アミノ酸がその位置に存在するという第２尤度と、
を備えている、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記ポリペプチドを同定する工程は、前記得られた出力を、それぞれのタンパク質に関連する複数のアミノ酸配列のうちの１つに照合する工程を備えている、
請求項５３または請求項５４のいずれかに記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記得られた出力を、それぞれのタンパク質を規定する前記複数のアミノ酸配列のうちの１つに照合する工程は、
前記得られた出力に基づき、隠れマルコフモデル（ＨＭＭ）を生成する工程と、
前記隠れマルコフモデルＨＭＭを、前記複数のアミノ酸配列のうちの１つに照合する工程と、
を備えている、請求項５５に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記機械学習モデルは、
ガウス混合モデル（ＧＭＭ）と、
複数のクラスタを備えているクラスタリングモデルであって、前記クラスタの各々は１つまたは複数のアミノ酸に関連付けられている、前記クラスタリングモデルと、
深層学習モデルと、
畳み込みニューラルネットワークと、または
コネクショニスト時間分類（ＣＴＣ）適合ニューラルネットワークと、
のうちの１つを備えている、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記学習済み機械学習モデルは、教師付き学習アルゴリズムを学習データに適用する工程で生成される、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記学習済み機械学習モデルは、半教師付き学習アルゴリズムを学習データに適用する工程で生成される、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記学習済み機械学習モデルは、教師なし学習アルゴリズムを適用する工程で生成される、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記学習済み機械学習モデルは、前記ポリペプチド内の前記複数の位置のうちの少なくともいくつかの位置ごとに、複数のアミノ酸のそれぞれについて、そのアミノ酸がその位置に存在するという確率を示す確率分布を出力するように構成されている、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、パルス持続時間値を備えており、
各パルス持続時間値は、結合相互作用について検出されたシグナルパルスの持続時間を示す、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、パルス同士間持続時間値を備えており、
各パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示す、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、１つまたは複数のパルス持続時間値と、および１つまたは複数のパルス同士間持続時間値とを備えている、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記学習済み機械学習モデルへの入力として前記データを提供する工程はさらに、
各部分が前記結合相互作用のそれぞれの１つに対応するべく、前記データの複数の部分を同定する工程と、
前記データのそれぞれの１つの部分に対応する出力を得るべく、前記複数の部分のそれぞれを前記学習済み機械学習モデルへの入力として提供する工程と、
を備えている、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記データの前記部分に対応する前記出力は、１つまたは複数のそれぞれのアミノ酸が前記複数の位置のそれぞれの１つに存在するという１つまたは複数の尤度を示す、
請求項６５に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記データの前記複数の部分を同定する工程は、
１つまたは複数の前記アミノ酸の切断に対応する前記データ内の１つまたは複数の点を同定する工程と、
前記１つまたは複数のアミノ酸の前記切断に対応する前記同定された１つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、
請求項６５に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記データの前記複数の部分を同定する工程は、前記データの離散ウェーブレット変換を生成する工程を備えている、
請求項６５に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記データの前記複数の部分を同定する工程は、
前記データから、前記結合相互作用の少なくとも１つの特性に関する要約統計量の値を決定する工程と、
前記データの中で、前記少なくとも１つの特性の値が前記要約統計量の前記値から閾値量だけ逸脱している１つまたは複数の点を同定する工程と、
前記同定された１つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項６５に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用に関する前記データは、１つまたは複数の発光標識による検出された発光から得られたデータを備えている、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、波長値を備えており、
各波長値は、結合相互作用中に放出される光の波長を示す、
請求項７０に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、発光寿命値を備えている、
請求項７０に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、発光強度値を備えている、
請求項７０に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記発光は一連の光パルスに反応し、
前記データは、少なくともいくつかの前記光パルスのそれぞれについて、前記光パルス後の時間期間の一部である複数の時間区間のそれぞれで検出された光子のそれぞれの数を備えている、
請求項７０に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記学習済み機械学習モデルへの入力として前記データを提供する工程は、複数の列を有するデータ構造に前記データを配置する工程を備えており、
第１列は、前記一連の光パルスのうちの第１光パルス後の第１時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持しており
第２列は、前記一連の光パルスのうちの第２光パルス後の第２時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持する、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の発光標識は、前記１つまたは複数の試薬のうちの少なくとも１つに関連付けられている、
請求項７０に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の発光標識は、前記ポリペプチドの前記アミノ酸の少なくともいくつかに関連付けられている、
請求項７０に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記複数の位置は、前記ポリペプチド内の少なくとも１つの相対的位置を備えている、
請求項５３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
ポリペプチドのアミノ酸を同定するための機械学習モデルを学習する方法であって、少なくとも１つのコンピュータハードウェアプロセッサを用いて前記方法は、
１つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスする工程と、
前記ポリペプチドのアミノ酸を同定するための学習済み機械学習モデルを得るべく、前記学習データとしてのデータを用いて前記機械学習モデルを学習する工程と、
を備えている、機械学習モデルを学習する方法。
前記機械学習モデルは混合モデルを備えている、
請求項７９に記載の方法。
前記混合モデルは、ガウス混合モデル（ＧＭＭ）を備えている、
請求項８０に記載の方法。
前記機械学習モデルは、深層学習モデルを備えている、
請求項７９に記載の方法。
前記深層学習モデルは、畳み込みニューラルネットワークを備えている、
請求項８２に記載の方法。
前記深層学習モデルは、コネクショニスト時間分類（ＣＴＣ）適合ニューラルネットワークを備えている、
請求項８２に記載の方法。
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに教師付き学習アルゴリズムを適用する工程を備えている、
請求項７９に記載の方法。
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに半教師付き学習アルゴリズムを適用する工程を備えている、
請求項７９に記載の方法。
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに教師なし学習アルゴリズムを適用する工程を備えている、
請求項７９に記載の方法。
前記機械学習モデルはクラスタリングモデルを備えており、
前記機械学習モデルを学習する工程は、前記クラスタリングモデルの複数のクラスタを同定する工程を備えており、
前記複数のクラスタの各々は１つまたは複数のアミノ酸に関連付けられる、
請求項７９に記載の方法。
前記１つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、パルス持続時間値を備えており、
各パルス持続時間値は、結合相互作用について検出されたシグナルパルスの持続時間を示す、
請求項７９に記載の方法。
前記１つまたは複数の試薬とアミノ酸との結合相互作用について得られた前記データは、パルス同士間持続時間値を備えており、
各パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示す、
請求項７９に記載の方法。
前記１つまたは複数の試薬とアミノ酸との結合相互作用について得られた前記データは、１つまたは複数のパルス継続時間値と、および１つまたは複数のパルス同士間継続時間値とを備えている、
請求項７９に記載の方法。
前記方法はさらに、前記ポリペプチド内の複数の位置のそれぞれについて、１つまたは複数のそれぞれのアミノ酸がその位置に存在するという１つまたは複数の尤度を出力するように、前記機械学習モデルを学習する工程を備えている、
請求項７９に記載の方法。
前記機械学習モデルを学習する工程は、
各部分が前記結合相互作用のそれぞれの１つに対応するように、前記データの複数の部分を同定する工程と、
前記データのそれぞれの１つの部分に対応する出力を得るべく、前記複数の部分のそれぞれの１つを前記機械学習モデルへの入力として提供する工程と、
前記複数の部分に対応する出力を用いて前記機械学習モデルを学習する工程と、
を備えている、請求項７９に記載の方法。
前記データの部分に対応する出力は、１つまたは複数のそれぞれのアミノ酸が複数の位置のそれぞれの１つに存在するという１つまたは複数の尤度を示す、
請求項９３に記載の方法。
前記データの前記複数の部分を同定する工程は、
１つまたは複数の前記アミノ酸の切断に対応する前記データ内の１つまたは複数の点を同定する工程と、
前記１つまたは複数のアミノ酸の前記切断に対応する前記同定された１つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項９３に記載の方法。
前記データの前記複数の部分を同定する工程は、
前記データから、前記結合相互作用の少なくとも１つの特性に関する要約統計量の値を決定する工程と、
前記データの中で、前記少なくとも１つの特性の値が前記要約統計量の値から閾値量だけ逸脱している１つまたは複数の点を同定する工程と、
前記同定された１つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項９３に記載の方法。
前記１つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、１つまたは複数の発光標識による検出された発光から得られたデータを備えている、
請求項７９に記載の方法。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、発光寿命値を備えている、
請求項９７に記載の方法。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、発光強度値を備えている、
請求項９７に記載の方法。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、波長値を備えており、
各波長値は、結合相互作用中に放出される光の波長を示す、
請求項９７に記載の方法。
前記発光は一連の光パルスに反応し、
前記データは、少なくともいくつかの前記光パルスのそれぞれについて、前記光パルス後の時間期間の一部である複数の時間区間のそれぞれで検出された光子のそれぞれの数を備えている、
請求項９７に記載の方法。
前記機械学習モデルを学習する工程は、複数の列を有するデータ構造に前記データを配置することで、前記機械学習モデルへの入力として前記データを提供する工程を備えており、
第１列は、前記一連の光パルスのうちの第１光パルス後の第１時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持しており
第２列は、前記一連の光パルスのうちの第２光パルス後の第２時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持する、
請求項１０１に記載の方法。
前記機械学習モデルを学習する工程は、複数の行を有するデータ構造に前記データを配置することで、前記機械学習モデルへの入力として前記データを提供する工程を備えており、
各行は、少なくともいくつかの光パルスに対応するそれぞれの時間区間における光子の数を保持する、
請求項１０１に記載の方法。
前記機械学習モデルへの入力として前記データを提供する工程は、前記データを画像に配置する工程を備えており、
前記画像の第１画素は、前記少なくともいくつかのパルスの第１パルス後の第１時間期間の第１時間区間で検出された光子の第１数を指定する、
請求項１０１に記載の方法。
前記画像の第２画素は、前記少なくともいくつかのパルスの前記第１パルス後の前記第１時間期間の第２時間区間で検出された光子の第２数を指定する、
請求項１０４に記載の方法。
前記画像の第２画素は、前記少なくともいくつかのパルスの第２パルス後の第２時間期間の第１時間区間における光子の第２数を指定する、
請求項１０４に記載の方法。
前記学習済み機械学習モデルへの入力として前記データを提供する工程は、画像内に前記データを配置する工程を備えており、
前記画像の各画素は、前記少なくともいくつかのパルスのうちのパルス後の時間期間のそれぞれの時間区間で検出された光子の数を指定する、
請求項１０１に記載の方法。
前記１つまたは複数の発光標識は、前記１つまたは複数の試薬のうちの少なくとも１つに関連付けられている、
請求項９７に記載の方法。
前記発光標識は、前記アミノ酸のうちの少なくともいくつかに関連付けられている、
請求項９７に記載の方法。
前記学習データは、前記１つまたは複数の試薬と単一分子のアミノ酸との結合相互作用を表す、
請求項７９に記載の方法。
前記学習データは、前記１つまたは複数の試薬と複数分子のアミノ酸との結合相互作用を表す、
請求項７９に記載の方法。
前記１つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、結合相互作用について検出されたシグナルパルスの少なくとも１つの特性の分布を記述する１つまたは複数のパラメータを備えている、
請求項７９に記載の方法。
前記１つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、結合相互作用について検出されたシグナルパルスの少なくとも１つの特性から導出された１つまたは複数のパラメータを備えている、
請求項７９に記載の方法。
ポリペプチドのアミノ酸を同定するための機械学習モデルを学習するためのシステムであって、前記システムは、
少なくとも１つのプロセッサと、および
前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに方法を実行させる命令を格納した少なくとも１つの非一時的なコンピュータ可読記憶媒体とを備えており、前記方法は、
１つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスする工程と、
前記ポリペプチドの前記アミノ酸を同定するための学習済み機械学習モデルを得るべく、前記学習データとしてのデータを用いて前記機械学習モデルを学習する工程と、
を備えている、システム。
前記機械学習モデルは、混合モデルを備えている、
請求項１１４に記載のシステム。
前記混合モデルは、ガウス混合モデル（ＧＭＭ）を備えている、
請求項１１５に記載のシステム。
前記機械学習モデルは、深層学習モデルを備えている、
請求項１１４に記載のシステム。
前記深層学習モデルは、畳み込みニューラルネットワークを備えている、
請求項１１７に記載のシステム。
前記深層学習モデルは、コネクショニスト時間分類（ＣＴＣ）適合ニューラルネットワークを備えている、
請求項１１７に記載のシステム。
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに教師付き学習アルゴリズムを適用する工程を備えている、
請求項１１４に記載のシステム。
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに半教師付き学習アルゴリズムを適用する工程を備えている、
請求項１１４に記載のシステム。
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに教師なし学習アルゴリズムを適用する工程を備えている、
請求項１１４に記載のシステム。
前記機械学習モデルはクラスタリングモデルを備えており、
前記機械学習モデルを学習する工程は、前記クラスタリングモデルの複数のクラスタを同定する工程を備えており、
前記複数のクラスタの各々は、１つまたは複数のアミノ酸に関連付けられている、
請求項１１４に記載のシステム。
前記１つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、パルス持続時間値を備えており、
各パルス持続時間値は、結合相互作用について検出されたシグナルパルスの持続時間を示す、
請求項１１４に記載のシステム。
前記１つまたは複数の試薬とアミノ酸との結合相互作用について得られた前記データは、パルス同士間持続時間値を備えており、
各パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示す、
請求項１１４に記載のシステム。
前記１つまたは複数の試薬とアミノ酸との結合相互作用について得られた前記データは、１つまたは複数のパルス持続時間値と、および１つまたは複数のパルス同士間持続時間値とを備えている、
請求項１１４に記載のシステム。
前記命令は前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサにさらに、
前記ポリペプチド内の複数の位置のそれぞれについて、前記１つまたは複数のそれぞれのアミノ酸がその位置に存在するという１つまたは複数の尤度を出力するように、前記機械学習モデルを学習する工程を実行させる、
請求項１１４に記載のシステム。
前記機械学習モデルを学習する工程は、
各部分が前記結合相互作用のうちのそれぞれの１つに対応するべく、前記データの複数の部分を同定する工程と、
前記データのそれぞれの１つの部分に対応する出力を得るべく、前記複数の部分のそれぞれの１つを前記機械学習モデルへの入力として提供する工程と、
前記複数の部分に対応する出力を用いて前記機械学習モデルを学習する工程と、
を備えている、請求項１１４に記載のシステム。
前記データの部分に対応する前記出力は、前記１つまたは複数のそれぞれのアミノ酸が複数の位置のそれぞれの１つに存在するという１つまたは複数の尤度を示す、
請求項１２８に記載のシステム。
前記データの前記複数の部分を同定する工程は、
１つまたは複数のアミノ酸の切断に対応する前記データ内の１つまたは複数の点を同定する工程と、
前記１つまたは複数のアミノ酸の前記切断に対応する前記同定された１つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項１２８に記載のシステム。
前記データの前記複数の部分を同定する工程は、
前記データから、前記結合相互作用の少なくとも１つの特性に関する要約統計量の値を決定する工程と、
前記データの中で、前記少なくとも１つの特性の値は、前記要約統計量の前記値から閾値量だけ逸脱している１つまたは複数の点を同定する工程と、
前記同定された１つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項１２８に記載のシステム。
前記１つまたは複数の試薬とアミノ酸との結合相互作用に関する前記データは、１つまたは複数の発光標識による検出された発光から得られたデータを備えている、
請求項１１４に記載のシステム。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、発光寿命値を備えている、
請求項１３２に記載のシステム。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、発光強度値を備えている、
請求項１３２に記載のシステム。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、波長値を備えており、
各波長値は、結合相互作用中に放出される光の波長を示す、
請求項１３２に記載のシステム。
前記発光は一連の光パルスに応答し、
前記データは、少なくともいくつかの前記光パルスのそれぞれについて、前記光パルス後の時間期間の一部である複数の時間区間のそれぞれで検出された光子のそれぞれの数を備えている、
請求項１３２に記載のシステム。
前記機械学習モデルを学習する工程は、複数の列を有するデータ構造に前記データを配置することで、前記機械学習モデルへの入力として前記データを提供する工程を備えており、
第１列は、前記一連の光パルスのうちの第１光パルス後の第１時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持しており、
第２列は、前記一連の光パルスのうちの第２光パルス後の第２時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持する、
請求項１３６に記載のシステム。
前記機械学習モデルを学習する工程は、複数の行を有するデータ構造に前記データを配置することで、前記機械学習モデルへの入力として前記データを提供する工程を備えており、
各行は、少なくともいくつかの光パルスに対応するそれぞれの時間区間における光子の数を保持する、
請求項１３６に記載のシステム。
前記機械学習モデルへの入力として前記データを提供する工程は、前記データを画像に配置する工程を備えており、
前記画像の第１画素は、前記少なくともいくつかのパルスの第１パルス後の第１時間期間の第１時間区間で検出された光子の第１数を指定する、
請求項１３６に記載のシステム。
前記画像の第２画素は、前記少なくともいくつかのパルスの前記第１パルス後の前記第１時間期間の第２時間区間で検出された光子の第２数を指定する、
請求項１３９に記載のシステム。
前記画像の第２画素は、前記少なくともいくつかのパルスの第２パルス後の第２時間期間の第１時間区間における光子の第２数を指定する、
請求項１３９に記載のシステム。
前記学習済み機械学習モデルへの入力として前記データを提供する工程は、画像内に前記データを配置する工程を備えており、
前記画像の各画素は、前記少なくともいくつかのパルスのうちのパルス後の時間期間のそれぞれの時間区間で検出された光子の数を指定する、
請求項１３９に記載のシステム。
前記１つまたは複数の発光標識は、前記１つまたは複数の試薬のうちの少なくとも１つに関連付けられている、
請求項１３２に記載のシステム。
前記発光標識は、少なくともいくつかの前記アミノ酸に関連付けられている、
請求項１３２に記載のシステム。
前記学習データは、前記１つまたは複数の試薬と単一分子のアミノ酸との結合相互作用を表す、
請求項１１４に記載のシステム。
前記学習データは、前記１つまたは複数の試薬と複数分子のアミノ酸との結合相互作用を表す、
請求項１１４に記載のシステム。
前記１つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、結合相互作用について検出されたシグナルパルスの少なくとも１つの特性の分布を記述する１つまたは複数のパラメータを備えている、
請求項１１４に記載のシステム。
前記１つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、結合相互作用について検出されたシグナルパルスの少なくとも１つの特性から導出された１つまたは複数のパラメータを備えている、
請求項１１４に記載のシステム。
少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに方法を実行させる命令を記憶した少なくとも１つの非一時的なコンピュータ可読記憶媒体であって、前記方法は、
１つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスする工程と、
ポリペプチドのアミノ酸を同定するための学習済み機械学習モデルを得るべく、前記学習データとしてのデータを用いて機械学習モデルを学習する工程と、
を備えている、少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記機械学習モデルは、混合モデルを備えている、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記混合モデルは、ガウス混合モデル（ＧＭＭ）を備えている、
請求項１５０に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記機械学習モデルは、深層学習モデルを備えている、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記深層学習モデルは、畳み込みニューラルネットワークを備えている、
請求項１５２に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記深層学習モデルは、コネクショニスト時間分類（ＣＴＣ）適合ニューラルネットワークを備えている、
請求項１５２に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに教師付き学習アルゴリズムを適用する工程を備えている、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに半教師付き学習アルゴリズムを適用する工程を備えていること、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに教師なし学習アルゴリズムを適用する工程を備えている、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記機械学習モデルはクラスタリングモデルを備えており、
前記機械学習モデルを学習する工程は、前記クラスタリングモデルの複数のクラスタを同定する工程を備えており、
前記複数のクラスタの各々は１つまたは複数のアミノ酸に関連付けられている、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、パルス持続時間値を備えており、
各パルス持続時間値は、結合相互作用について検出されたシグナルパルスの持続時間を示す、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の試薬とアミノ酸との結合相互作用について得られた前記データは、パルス同士間持続時間値を備えており、
各パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示す、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の試薬とアミノ酸との結合相互作用について得られた前記データは、１つまたは複数のパルス持続時間値と、および１つまたは複数のパルス同士間持続時間値とを備えている、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記命令は、少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサにさらに、
前記ポリペプチド内の複数の位置のそれぞれについて、１つまたは複数のそれぞれのアミノ酸がその位置に存在するという１つまたは複数の尤度を出力するように、前記機械学習モデルを学習する工程を実行させる、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記機械学習モデルを学習する工程は、
各部分が前記結合相互作用のそれぞれの１つに対応するように、前記データの複数の部分を同定する工程と、
前記データの各部分に対応する出力を得るべく、前記複数の部分のそれぞれ１つを前記機械学習モデルへの入力として提供する工程と、
前記複数の部分に対応する出力を用いて前記機械学習モデルを学習する工程と、
を備えている、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記データの部分に対応する出力は、１つまたは複数のそれぞれのアミノ酸が複数の位置のそれぞれの１つに存在するという１つまたは複数の尤度を示す、
請求項１６３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記データの前記複数の部分を同定する工程は、
１つまたは複数の前記アミノ酸の切断に対応する前記データ内の１つまたは複数の点を同定する工程と、
前記１つまたは複数のアミノ酸の前記切断に対応する前記同定された１つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、
請求項１６３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記データの前記複数の部分を同定する工程は、
前記データから、前記結合相互作用の少なくとも１つの特性に関する要約統計量の値を決定する工程と、
前記データの中で、前記少なくとも１つの特性の値が前記要約統計量の前記値から閾値量だけ逸脱している１つまたは複数の点を同定する工程と、
前記同定された１つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、
請求項１６３に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の試薬とアミノ酸との結合相互作用に関する前記データは、１つまたは複数の発光標識による検出された発光から得られたデータを備えている、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、発光寿命値を備えている、
請求項１６７に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の発光標識による検出された発光から得られた前記データは、発光強度値を備えている、
請求項１６７に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の発光標識によって検出された発光から得られた前記データは、波長値を備えており、
各波長値は、結合相互作用中に放出される光の波長を示す、
請求項１６７に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記発光は一連の光パルスに応答し、
前記データは、少なくともいくつかの前記光パルスのそれぞれについて、前記光パルス後の時間期間の一部である複数の時間区間のそれぞれにおいて検出された光子のそれぞれの数を備えている、
請求項１６７に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記機械学習モデルを学習する工程は、複数の列を有するデータ構造に前記データを配置することで、前記機械学習モデルへの入力として前記データを提供する工程を備えており、
第１列は、前記一連の光パルスのうちの第１光パルス後の第１時間期間の一部である第１および第２時間区間のそれぞれにおける光子の数を保持し、かつ
第２列は、前記一連の光パルスのうちの第２光パルス後の第２時間期間の一部である第１および第２時間区間のそれぞれにおける光子のそれぞれの数を保持する、
請求項１７１に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記機械学習モデルを学習する工程は、前記データを、複数の行を有するデータ構造に配置することで前記機械学習モデルへの入力として提供する工程を備えており、
各行は、少なくともいくつかの光パルスに対応するそれぞれの時間区間における光子の数を保持する、
請求項１７１に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記機械学習モデルへの入力として前記データを提供する工程は、前記データを画像に配置する工程を備えており、
前記画像の第１画素は、前記少なくともいくつかのパルスの第１パルス後の第１時間期間の第１時間区間で検出された光子の第１数を指定する、
請求項１７１に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記画像の第２画素は、前記少なくともいくつかのパルスの前記第１パルス後の第１時間期間の第２時間区間で検出された光子の第２数を指定する、
請求項１７４に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記画像の第２画素は、前記少なくともいくつかのパルスの第２パルス後の第２時間期間の第１時間区間における光子の第２数を指定する、
請求項１７４に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記学習済み機械学習モデルへの入力として前記データを提供する工程は、画像内に前記データを配置する工程を備えており、
前記画像の各画素は、前記少なくともいくつかのパルスのうちのパルス後の時間期間のそれぞれの時間区間で検出された光子の数を指定する、
請求項１７１に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の発光標識は、前記１つまたは複数の試薬のうちの少なくとも１つに関連付けられている、
請求項１６７に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
発光標識は、前記アミノ酸の少なくともいくつかに関連付けられている、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記学習データは、前記１つまたは複数の試薬と単一分子のアミノ酸との結合相互作用を表す、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記学習データは、前記１つまたは複数の試薬と複数分子のアミノ酸との結合相互作用を表す、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、結合相互作用について検出されたシグナルパルスの少なくとも１つの特性の分布を記述する１つまたは複数のパラメータを備えている、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、結合相互作用について検出されたシグナルパルスの少なくとも１つの特性から導出される１つまたは複数のパラメータを備えている、
請求項１４９に記載の少なくとも１つの非一時的なコンピュータ可読記憶媒体。