JP2005301523A - Apparatus and method for predicting vaccine candidate partial sequence, apparatus and method for predicting mhc-binding partial sequence, program and recording medium - Google Patents

Apparatus and method for predicting vaccine candidate partial sequence, apparatus and method for predicting mhc-binding partial sequence, program and recording medium Download PDF

Info

Publication number
JP2005301523A
JP2005301523A JP2004114653A JP2004114653A JP2005301523A JP 2005301523 A JP2005301523 A JP 2005301523A JP 2004114653 A JP2004114653 A JP 2004114653A JP 2004114653 A JP2004114653 A JP 2004114653A JP 2005301523 A JP2005301523 A JP 2005301523A
Authority
JP
Japan
Prior art keywords
sequence
information
mhc
partial sequence
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004114653A
Other languages
Japanese (ja)
Inventor
Kazuki Ono
一樹 大野
Seiji Saito
静司 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Celestar Lexico Sciences Inc
Original Assignee
Celestar Lexico Sciences Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Celestar Lexico Sciences Inc filed Critical Celestar Lexico Sciences Inc
Priority to JP2004114653A priority Critical patent/JP2005301523A/en
Publication of JP2005301523A publication Critical patent/JP2005301523A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Peptides Or Proteins (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an apparatus and a method for predicting vaccine candidate partial sequence, which predict a partial sequence constituting vaccine by activating a T cell, from protein amino acid sequence information, and also to provide program, recording medium, etc. thereof. <P>SOLUTION: The vaccine candidate partial sequence prediction apparatus acquires object sequence information related to an object sequence of protein or an amino acid sequence of bioactive polypeptide. From the object sequence information, there are predicted a uncut partial sequence which is not cut by proteome or a proteolytic enzyme existent in a lysosome, an MHC-binding partial sequence capable of binding with a particular major histocompatibility antigen, and a non-self recognition partial sequence which is not recognized as self and a non-mutagenic partial sequence in which mutation is hard to enter. Based on the predicted uncut partial sequence, MHC-binding partial sequence, non-self recognition partial sequence and/or non-mutagenic partial sequence, the vaccine candidate partial sequence effective as vaccine is predicted. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、ワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体に関し、特に、タンパク質または生理活性ポリペプチドのアミノ酸配列から、T細胞を活性化させることができるアミノ酸配列(ペプチド配列)を予測することにより、ワクチンとなるアミノ酸配列を高精度に予測することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体に関するものである。また、本発明は、MHC結合部分配列予測装置、MHC結合部分配列予測方法、プログラムおよび記録媒体に関し、特に、タンパク質または生理活性ポリペプチドのアミノ酸配列から、特定の主要組織適合性抗原(MHC:Major Histocompatibility Complex)と結合することができるアミノ酸配列(ペプチド配列)を高精度に予測することができるMHC結合部分配列予測装置、MHC結合部分配列予測方法、プログラムおよび記録媒体に関するものである。   The present invention relates to a vaccine candidate partial sequence prediction apparatus, a vaccine candidate partial sequence prediction method, a program, and a recording medium, and in particular, an amino acid sequence that can activate a T cell from an amino acid sequence of a protein or a biologically active polypeptide (peptide The present invention relates to a vaccine candidate partial sequence prediction apparatus, a vaccine candidate partial sequence prediction method, a program, and a recording medium that can predict an amino acid sequence to be a vaccine with high accuracy by predicting (sequence). The present invention also relates to an MHC binding partial sequence prediction apparatus, an MHC binding partial sequence prediction method, a program, and a recording medium, and in particular, from a protein or a bioactive polypeptide amino acid sequence, a specific major histocompatibility antigen (MHC: Major). The present invention relates to an MHC-binding partial sequence prediction apparatus, an MHC-binding partial sequence prediction method, a program, and a recording medium that can predict an amino acid sequence (peptide sequence) that can be combined with Histocompatibility Complex) with high accuracy.

「ペプチドワクチン」とは、人体が持つ免疫機能を調節することによる間接的な治療効果や予防効果などが期待される、ペプチドを主要な構造体とする医薬品のことをいう。   “Peptide vaccine” refers to a pharmaceutical comprising a peptide as a main structure, which is expected to have an indirect therapeutic effect or preventive effect by regulating the immune function of the human body.

ここで、人体の免疫機能について簡単に説明する。まず、ウイルスやバクテリアなどの病原体に人体がさらされると、病原体由来のタンパク質は、ヒトの細胞内で分解され、ヒトのMHCであるHLA(ヒト白血球抗原:Human Leukocyte Antigen)分子に結合し、細胞外に抗原として提示される。そして、血液中に存在し免疫機能を調節しているTリンパ球細胞がHLA分子に結合した病原体由来のタンパク質(ペプチド)を認識すると、細胞障害性Tリンパ球細胞の増殖をはじめとする免疫機能が亢進する。これにより、病原体が人体に再度進入した時には、人体から病原体を迅速に排除することができる。ワクチンはこのような人体の免疫機能を活用したものであり、無毒化した病原体などを用いている。   Here, the immune function of the human body will be briefly described. First, when a human body is exposed to a pathogen such as a virus or a bacterium, a protein derived from the pathogen is decomposed in a human cell, and binds to a human leukocyte antigen (HLA) molecule, which is a human MHC. Presented as an antigen outside. When T lymphocyte cells present in blood and regulating immune function recognize a protein (peptide) derived from a pathogen bound to an HLA molecule, immune functions including proliferation of cytotoxic T lymphocyte cells Increases. Thereby, when the pathogen enters the human body again, the pathogen can be quickly eliminated from the human body. Vaccines utilize the immune function of the human body and use detoxified pathogens.

しかしながら、無毒化した病原体などを材料とするワクチンなどでは、しばしば重篤な副作用が報告されてきた。   However, serious side effects have often been reported in vaccines made from detoxified pathogens and the like.

したがって、予めHLA分子に結合する病原体由来のペプチド断片を予測することができれば、当該ペプチド断片は、極めて効率的で副作用が殆どない、ペプチドワクチン製剤として有望な候補物質となりうる。   Therefore, if a peptide fragment derived from a pathogen that binds to an HLA molecule in advance can be predicted, the peptide fragment can be a highly effective and promising candidate substance as a peptide vaccine preparation with few side effects.

具体的には、例えば、今般のSARSなどの新興感染症に対しても、極めて迅速にワクチン候補ペプチドを予測し、提案することが可能になる。   Specifically, for example, it is possible to predict and propose vaccine candidate peptides very quickly even for emerging infectious diseases such as SARS.

また、免疫系は、例えばがん細胞に対して、本来、がん細胞特有のタンパク質断片を認識して細胞障害性T細胞をはじめとする免疫機能が亢進することにより、がん細胞を排除する働きをもっているので、例えば、予めHLA分子に結合するがん細胞固有のペプチド断片を予測することができれば、当該ペプチド断片は、極めて効率的で副作用が殆どない、抗がん剤として有望な候補物質となりうる。実際、白血病などに対しては、がん抗原ペプチド投与によるがん免疫療法が試みられており、一部では好成績を得ている。   In addition, the immune system eliminates cancer cells by, for example, recognizing protein fragments inherent to cancer cells and enhancing immune functions including cytotoxic T cells against cancer cells. For example, if a peptide fragment unique to a cancer cell that binds to an HLA molecule can be predicted in advance, the peptide fragment is a highly effective candidate with no side effects and a promising candidate substance as an anticancer agent. It can be. In fact, for leukemia and the like, cancer immunotherapy by administration of a cancer antigen peptide has been attempted, and some have achieved good results.

また、例えば、花粉症やアトピー、喘息、リウマチなどに代表されるアレルギー疾患における症状は、例えば花粉などのアレルゲン(抗原)に対して免疫機能が異常に亢進することにより現れるので、HLA分子に結合したアレルゲン由来のペプチドをうまく選択することにより、免疫機能全体を当該アレルゲンに対する免疫寛容(アナジー)状態に誘導することが可能であるといわれている。すなわち、予めHLA分子に結合するアレルゲン由来のペプチド断片を予測することができれば、当該ペプチド断片は、極めて効率的で副作用が殆どない、抗アレルギー製剤として有望な候補物質となりうる。   In addition, for example, symptoms in allergic diseases represented by hay fever, atopy, asthma, rheumatism, etc. appear due to abnormally enhanced immune functions against allergens (antigens) such as pollen, and thus bind to HLA molecules. It is said that the entire immune function can be induced into an immunological tolerance (anazy) state against the allergen by successfully selecting a peptide derived from the allergen. That is, if an allergen-derived peptide fragment that binds to an HLA molecule in advance can be predicted, the peptide fragment can be a promising candidate substance as an antiallergic preparation that is extremely efficient and has few side effects.

以上のように、様々な疾患に関係するタンパク質の配列情報から予測されたT細胞を活性化するペプチド断片は医薬品になりうる可能性をもち、当該ペプチド断片を効率的に発見する技術は産業上非常に有用である。   As described above, peptide fragments that activate T cells predicted from the sequence information of proteins related to various diseases have the potential to become pharmaceuticals. Very useful.

ここで、従来、ペプチド配列からインシリコ(in silico)でワクチン候補を予測する方法が、様々提案されている。   Here, conventionally, various methods for predicting vaccine candidates in silico from peptide sequences have been proposed.

まず、最も一般的な方法は、実験的に結合することがわかっているペプチドの配列情報を利用する方法である。この方法では、実験的に結合することが知られているペプチドの配列情報から、例えばニューラルネットワークなどの機械学習を利用して、結合するペプチドの共通性を抽出する。つまり、この方法は、タンパク質の中で、上述した共通性をもつペプチドは、MHCにも結合するという考えに基づく方法である。そして、これまでの報告には、例えば、C型肝炎のT細胞エピトープの予測を実施したというもの(例えば、非特許文献1参照。)がある。   First, the most common method is a method using sequence information of a peptide that is known to bind experimentally. In this method, commonness of peptides to be combined is extracted from sequence information of peptides known to be experimentally combined by using machine learning such as a neural network. That is, this method is based on the idea that peptides having the above-mentioned commonality among proteins also bind to MHC. And there is a report (for example, refer nonpatent literature 1) that the prediction of the T cell epitope of hepatitis C was implemented, for example until now.

この方法によれば、MHCに結合するペプチドの情報が豊富であれば、ワクチン候補のペプチドを高精度に予測することが可能である。   According to this method, if information on peptides that bind to MHC is abundant, it is possible to predict vaccine candidate peptides with high accuracy.

また、既知の結合ペプチドに依存しない方法として、MHCの構造を利用して実際にペプチドとの相互作用を計算する方法がある。そして、これまでの報告には、例えば、HLA−DRB1*0101とペプチドとの複合体を高精度に予測したというもの(例えば、非特許文献2参照。)がある。   Further, as a method that does not depend on a known binding peptide, there is a method of actually calculating the interaction with the peptide using the structure of MHC. And there is a report (for example, refer nonpatent literature 2) that the complex of HLA-DRB1 * 0101 and a peptide was predicted with high precision, for example until now.

この方法によれば、結合既知のペプチドに関する情報などを必要とせずに、予測した複合体に基づいてワクチン候補のペプチドを予測することが可能である。   According to this method, it is possible to predict a vaccine candidate peptide based on the predicted complex without requiring information on a peptide whose binding is known.

Protein Sci., 12, p.1007−1017, 2003Protein Sci. , 12, p. 1007-1017, 2003 Proteins: Structure, Function, and Bioinformatics, Volume 54, Issue 3, p.534−556Proteins: Structure, Function, and Bioinformatics, Volume 54, Issue 3, p. 534-556

しかしながら、上述した実験的に結合することがわかっているペプチドの配列情報を利用する方法(上述の非特許文献1など)では、MHCに結合するペプチドの情報が豊富であれば高精度の予測が可能ではあるが、現状では多くのMHCに関し、結合するペプチドの情報が少ないため、多くの種類のMHCに関しては予測精度が不充分である、という問題点がある。   However, in the method using the sequence information of the peptide that is known to bind experimentally as described above (Non-patent Document 1 and the like described above), if there is abundant information on the peptide that binds to MHC, high-precision prediction is possible. Although it is possible, there is a problem in that the prediction accuracy is insufficient for many types of MHC because there is little information on the peptides to be bound in many MHCs at present.

また、上述した既知の結合ペプチドに依存しない方法(上述の非特許文献2など)では、結合ペプチドが既知であるかを問わないという利点があるが、計算時間が膨大になってしまう、という問題点がある。   In addition, the above-described methods that do not depend on a known binding peptide (Non-Patent Document 2 described above) have the advantage that the binding peptide is known, but the problem is that the calculation time becomes enormous. There is a point.

また、ウイルスは抗原決定基に変異を起こすことで免疫系の攻撃から逃れていると考えられている。そのため、突然変異の入りやすい配列をもったペプチドワクチンを開発しても、ウイスルの高頻度の変異により、すぐに効果がなくなることが予測される。すなわち、突然変異の入り方が少ない配列をもつペプチドワクチンは、効果が持続的であると考えられる。   Viruses are also thought to escape immune attack by causing mutations in antigenic determinants. For this reason, even if a peptide vaccine having a sequence that is prone to mutation is developed, it is expected that the effect will soon be lost due to the frequent mutation of the virus. That is, a peptide vaccine having a sequence with less mutation is considered to have a sustained effect.

しかしながら、突然変異の入り方を考慮して、ペプチドワクチンを設計する技術はない、という問題点がある。   However, there is a problem that there is no technique for designing a peptide vaccine in consideration of how to introduce a mutation.

本発明は、上記問題点に鑑みてなされたものであって、タンパク質または生理活性ポリペプチドのアミノ酸配列から、T細胞を活性化させることができるアミノ酸配列(ペプチド配列)を予測することにより、ワクチンとなるアミノ酸配列を高精度に予測することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体を提供することを目的とするものである。また、本発明は、タンパク質または生理活性ポリペプチドのアミノ酸配列から、特定の主要組織適合性抗原(MHC:Major Histocompatibility Complex)と結合することができるアミノ酸配列(ペプチド配列)を高精度に予測することができるMHC結合部分配列予測装置、MHC結合部分配列予測方法、プログラムおよび記録媒体を提供することを目的とするものである。   The present invention has been made in view of the above problems, and predicts an amino acid sequence (peptide sequence) capable of activating T cells from an amino acid sequence of a protein or a physiologically active polypeptide, thereby providing a vaccine. It is an object of the present invention to provide a vaccine candidate partial sequence predicting apparatus, a vaccine candidate partial sequence predicting method, a program, and a recording medium that can predict an amino acid sequence to be highly accurate. In addition, the present invention predicts with high accuracy an amino acid sequence (peptide sequence) capable of binding to a specific major histocompatibility complex (MHC) from the amino acid sequence of a protein or bioactive polypeptide. It is an object of the present invention to provide an MHC binding partial sequence prediction apparatus, an MHC binding partial sequence prediction method, a program, and a recording medium.

ペプチドワクチンはヒト等の細胞内で分解されずにMHC分子に結合することで細胞外に抗原として提示されること、Tリンパ球細胞はHLA分子に結合した病原体由来のペプチドを認識すること、が必要である。さらにペプチドワクチンは自己に関する免疫寛容を保つために自己ペプチドには反応しないように調整されていること、すなわち、自己ではないことも求められる。   Peptide vaccines are presented as antigens by binding to MHC molecules without being decomposed in cells such as humans, and T lymphocyte cells recognize peptides derived from pathogens bound to HLA molecules. is necessary. Furthermore, the peptide vaccine is also required to be adjusted so as not to respond to the self-peptide in order to maintain immune tolerance regarding self, that is, not to be self.

本発明は、1)リソソーム内に存在するタンパク質分解酵素またはプロテオソームに対する耐性をもち、2)MHCと結合し、3)自己ペプチドとして認識されない、4)突然変異の入りにくい、という4つの条件を満たすペプチドがワクチンとして有効である、という考えに基づくものである。   The present invention satisfies the following four conditions: 1) resistance to proteolytic enzymes or proteosomes present in lysosomes, 2) binding to MHC, 3) not recognized as self-peptides, and 4) difficult to enter mutations. This is based on the idea that peptides are effective as vaccines.

したがって、上述した課題を解決し、目的を達成するために、請求項1に記載のワクチン候補部分配列予測装置は、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得手段と、上記目的配列取得手段により取得された上記目的配列情報から、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されない上記アミノ酸配列であって、上記目的配列の部分配列である非切断部分配列を予測する非切断部分配列予測手段と、上記目的配列取得手段により取得された上記目的配列情報から、特定の主要組織適合性抗原と結合することができる上記アミノ酸配列であって、上記目的配列の部分配列であるMHC結合部分配列を予測するMHC結合部分配列予測手段と、上記目的配列取得手段により取得された上記目的配列情報から、自己として認識されない上記アミノ酸配列であって、上記目的配列の部分配列である非自己認識部分配列を予測する非自己認識部分配列予測手段と、上記目的配列取得手段により取得された上記目的配列情報から、突然変異の入りにくい上記アミノ酸配列であって、上記目的配列の部分配列である非突然変異部分配列を予測する非突然変異部分配列予測手段と、上記非切断部分配列予測手段により予測された上記非切断部分配列、上記MHC結合部分配列予測手段により予測された上記MHC結合部分配列、上記非自己認識部分配列予測手段により予測された上記非自己認識部分配列、および/または、上記非突然変異部分配列予測手段により予測された上記非突然変異部分配列に基づいて、ワクチンとして有効な上記アミノ酸配列であるワクチン候補部分配列を予測するワクチン候補部分配列予測手段とを備えたことを特徴とする。   Therefore, in order to solve the above-described problems and achieve the object, the vaccine candidate partial sequence prediction apparatus according to claim 1 is an object that is information on an object sequence that is an amino acid sequence of an object protein or bioactive polypeptide. A target sequence obtaining means for obtaining sequence information; and the amino acid sequence that is not cleaved by a protease or proteosome present in lysosome from the target sequence information obtained by the target sequence obtaining means, The amino acid sequence capable of binding to a specific major histocompatibility antigen from the target sequence information obtained by the target sequence obtaining means and the non-cleavable partial sequence predicting means for predicting the non-cleavable partial sequence which is a partial sequence MHC that predicts an MHC binding partial sequence that is a partial sequence of the target sequence A non-self-recognizing partial sequence that is a non-self-recognized partial sequence that is not recognized as self from the target sequence information acquired by the combined partial sequence prediction unit and the target sequence acquisition unit From the target sequence information acquired by the self-recognizing partial sequence predicting means and the target sequence acquiring means, the non-mutated partial sequence that is not easily mutated and is a partial sequence of the target sequence is predicted. Non-mutated partial sequence predicting means, the non-cut partial sequence predicted by the non-cut partial sequence predicting means, the MHC binding partial sequence predicted by the MHC binding partial sequence predicting means, and the non-self-recognizing partial sequence Predicted by the non-self-recognizing partial sequence predicted by the predicting means and / or predicted by the non-mutated partial sequence predicting means. It was based on the non-mutated subsequences, characterized in that a vaccine candidate subsequence predicting means for predicting a vaccine candidate subsequence is a valid the amino acid sequence as a vaccine.

この装置によれば、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得し、取得された目的配列情報から、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されないアミノ酸配列であって、目的配列の部分配列である非切断部分配列を予測し、取得された目的配列情報から、特定の主要組織適合性抗原と結合することができるアミノ酸配列であって、目的配列の部分配列であるMHC結合部分配列を予測し、取得された目的配列情報から、自己として認識されないアミノ酸配列であって、目的配列の部分配列である非自己認識部分配列を予測し、取得された目的配列情報から、突然変異の入りにくいアミノ酸配列であって、目的配列の部分配列である非突然変異部分配列を予測し、予測された非切断部分配列、予測されたMHC結合部分配列、予測された非自己認識部分配列、および/または、予測された非突然変異部分配列に基づいて、ワクチンとして有効なアミノ酸配列であるワクチン候補部分配列を予測するので、目的配列情報から、1)リソソーム内に存在するタンパク質分解酵素またはプロテオソームに対する耐性をもち、2)MHCと結合し、3)自己ペプチドとして認識されない、4)突然変異の入りにくい、という4つの条件を満たし、T細胞を活性化させることができるワクチンとして最適なワクチン候補部分配列を効率よく高精度に予測することができる。   According to this apparatus, target sequence information, which is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide, is obtained, and a proteolytic enzyme or proteosome present in the lysosome is obtained from the obtained target sequence information. An amino acid sequence that is not cleaved by the target sequence and that is capable of binding to a specific major histocompatibility antigen from the target sequence information obtained by predicting a non-cleaved partial sequence that is a partial sequence of the target sequence. Predicting an MHC-binding partial sequence that is a partial sequence of the target sequence, and predicting a non-self-recognizing partial sequence that is an amino acid sequence that is not recognized as self from the acquired target sequence information and that is a partial sequence of the target sequence; From the obtained target sequence information, it is an amino acid sequence that is difficult to mutate, and is a partial sequence of the target sequence. Based on the predicted non-mutated partial sequence, the predicted MHC binding partial sequence, the predicted non-self-recognizing partial sequence, and / or the predicted non-mutated partial sequence. Because the vaccine candidate partial sequence, which is an amino acid sequence effective as a vaccine, is predicted, from the target sequence information, 1) resistant to proteolytic enzymes or proteosomes present in lysosomes, 2) bound to MHC, and 3) self The vaccine candidate partial sequence optimal as a vaccine that satisfies the four conditions of being unrecognized as a peptide and 4) difficult to enter a mutation and capable of activating T cells can be predicted efficiently and with high accuracy.

また、請求項2に記載のワクチン候補部分配列予測装置は、請求項1に記載のワクチン候補部分配列予測装置において、上記非切断部分配列予測手段は、上記タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含む上記アミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納する切断部位含有配列格納手段と、上記切断部位含有配列格納手段により格納された上記切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出する切断部位含有配列アミノ酸出現頻度算出手段と、上記切断部位含有配列アミノ酸出現頻度算出手段により算出された上記切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出する切断部位含有配列得点算出手段と、上記切断部位含有配列得点算出手段により算出された上記切断部位含有配列得点情報に基づいて、上記目的配列取得手段により取得された上記目的配列を上記切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出する切断部位含有配列長部分配列得点算出手段と、上記切断部位含有配列長部分配列得点算出手段により算出された上記切断部位含有配列長部分配列得点情報に基づいて上記酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を上記非切断部分配列として予測する得点基準非切断部分配列予測手段とをさらに備えたことを特徴とする。   The vaccine candidate partial sequence prediction apparatus according to claim 2 is the vaccine candidate partial sequence prediction apparatus according to claim 1, wherein the non-cleavable partial sequence prediction means is a site cleaved by the proteolytic enzyme. Stored by the cleavage site-containing sequence storage means for storing the cleavage site-containing sequence information, which is information relating to the cleavage site-containing sequence, which is the amino acid sequence including several residues before and after the enzyme cleavage site, and the cleavage site-containing sequence storage means A cleavage site-containing sequence amino acid appearance frequency calculating means for calculating cleavage site-containing sequence amino acid appearance frequency information, which is information relating to the appearance frequency of amino acids at positions corresponding to each amino acid residue in the cleavage site-containing sequence, and the cleavage site containing Based on the cleavage site-containing sequence amino acid appearance frequency information calculated by the sequence amino acid appearance frequency calculation means Obtained by the target sequence acquisition means based on the cleavage site-containing sequence score calculation means for calculating the cleavage site-containing sequence score information and the cleavage site-containing sequence score information calculated by the cleavage site-containing sequence score calculation means. A cleavage site-containing sequence length partial sequence score calculating means for calculating the cleavage site-containing sequence length partial sequence score information corresponding to each partial sequence obtained by dividing the target sequence into the length of the cleavage site-containing sequence, and the cleavage site The enzyme cleavage site is determined based on the cleavage site-containing sequence length partial sequence score information calculated by the contained sequence length partial sequence score calculation means, and the partial sequence cleaved at the enzyme cleavage site is used as the non-cleavable partial sequence It further comprises score-based non-cutting partial sequence prediction means for prediction.

これは非切断部分配列予測手段の一例を一層具体的に示すものである。この装置によれば、非切断部分配列予測手段は、タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含むアミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納し、格納された切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出し、算出された切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出し、算出された切断部位含有配列得点情報に基づいて、取得された目的配列を切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出し、算出された切断部位含有配列長部分配列得点情報に基づいて酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列として予測するので、切断部位含有配列の頻度解析に基づいて、リソソーム内に存在するタンパク質分解酵素またはプロテオソームによる酵素切断部位を高精度に予測することにより非切断部分配列を効率よく高精度に予測することができる。   This more specifically shows one example of the non-cut partial sequence predicting means. According to this apparatus, the non-cleavable partial sequence predicting means includes a cleavage site-containing sequence that is information on a cleavage site-containing sequence that is an amino acid sequence including several residues before and after the enzyme cleavage site, which is a site cleaved by a proteolytic enzyme. Information is stored, the cleavage site-containing sequence amino acid appearance frequency information, which is information about the appearance frequency of amino acids at positions corresponding to each amino acid residue in the stored cleavage site-containing sequence, is calculated, and the calculated cleavage site-containing sequence Each partial sequence obtained by calculating cleavage site-containing sequence score information based on amino acid appearance frequency information and dividing the obtained target sequence into the length of the cleavage site-containing sequence based on the calculated cleavage site-containing sequence score information Cleaving site-containing sequence length partial sequence score information corresponding to the And the partial sequence cleaved at the enzyme cleavage site is predicted as a non-cleavable partial sequence. Based on the frequency analysis of the cleavage site-containing sequence, the enzyme cleavage site by the proteolytic enzyme or proteosome present in the lysosome is determined. By predicting with high accuracy, it is possible to predict the non-cut partial sequence efficiently and with high accuracy.

また、請求項3に記載のワクチン候補部分配列予測装置は、請求項1に記載のワクチン候補部分配列予測装置において、上記非切断部分配列予測手段は、上記タンパク質分解酵素により切断される部位である酵素切断部位の上記アミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納する切断部位配列格納手段と、上記切断部位配列格納手段により格納された上記切断部位配列情報から、既知の切断部位モチーフ配列を抽出する切断部位モチーフ配列抽出手段と、上記切断部位モチーフ配列抽出手段により抽出された上記切断部位モチーフ配列を利用して上記目的配列取得手段により取得された上記目的配列に対してモチーフ検索を実行することにより上記目的配列における上記酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得する切断部位モチーフ検索手段と、上記切断部位モチーフ検索手段により取得された上記切断部位検索得点情報に基づいて上記目的配列の上記酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を上記非切断部分配列として予測するモチーフ検索基準非切断部分配列予測手段とをさらに備えたことを特徴とする。   The vaccine candidate partial sequence prediction apparatus according to claim 3 is the vaccine candidate partial sequence prediction apparatus according to claim 1, wherein the non-cleavable partial sequence prediction means is a site cleaved by the proteolytic enzyme. From the cleavage site sequence storage means for storing the cleavage site sequence information, which is information relating to the cleavage site sequence, which is the amino acid sequence of the enzyme cleavage site, and from the cleavage site sequence information stored by the cleavage site sequence storage means, a known cleavage A cleavage site motif sequence extracting means for extracting a site motif sequence, and a motif for the target sequence acquired by the target sequence acquisition means using the cleavage site motif sequence extracted by the cleavage site motif sequence extraction means Search for the enzyme cleavage site in the target sequence by executing the search, and the search score A cleavage site motif search means for obtaining a certain cleavage site search score information, and determining the enzyme cleavage site of the target sequence based on the cleavage site search score information obtained by the cleavage site motif search means, and the enzyme cleavage It further includes a motif search reference non-cutting partial sequence predicting means for predicting a partial sequence cut at a site as the non-cutting partial sequence.

これは非切断部分配列予測手段の一例を一層具体的に示すものである。この装置によれば、非切断部分配列予測手段は、タンパク質分解酵素により切断される部位である酵素切断部位のアミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納し、格納された切断部位配列情報から、既知の切断部位モチーフ配列を抽出し、抽出された切断部位モチーフ配列を利用して目的配列に対してモチーフ検索を実行することにより目的配列における酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得し、取得された切断部位検索得点情報に基づいて目的配列の酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列として予測するので、目的配列に対するモチーフ検索に基づいて、リソソーム内に存在するタンパク質分解酵素またはプロテオソームによる酵素切断部位を高精度に予測することにより非切断部分配列を効率よく高精度に予測することができる。   This more specifically shows one example of the non-cut partial sequence predicting means. According to this apparatus, the non-cleavable partial sequence predicting means stores and stores the cleavage site sequence information that is information on the cleavage site sequence that is the amino acid sequence of the enzyme cleavage site that is the site cleaved by the proteolytic enzyme. Extracts a known cleavage site motif sequence from the cleavage site sequence information, searches the target sequence for the enzyme cleavage site using the extracted cleavage site motif sequence, and searches for the enzyme cleavage site in the target sequence. Obtain the cleavage site search score information that is the score at the time, determine the enzyme cleavage site of the target sequence based on the obtained cleavage site search score information, and the partial sequence cleaved at the enzyme cleavage site as a non-cleaved partial sequence Based on the motif search for the target sequence, the proteolytic enzyme or proteosome present in the lysosome Uncut partial sequences can be predicted efficiently high precision by predicting the that enzyme cleavage sites with high precision.

また、請求項4に記載のワクチン候補部分配列予測装置は、請求項1から3のいずれか一つに記載のワクチン候補部分配列予測装置において、上記MHC結合部分配列予測手段は、上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定手段と、上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含む上記アミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納するMHC結合部位含有配列格納手段と、上記MHC結合部位含有配列格納手段により格納された上記MHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出するMHC結合部位含有配列アミノ酸出現頻度算出手段と、上記MHC結合部位含有配列アミノ酸出現頻度算出手段により算出された上記MHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出するMHC結合部位含有配列得点算出手段と、上記MHC結合部位含有配列得点算出手段により算出された上記MHC結合部位含有配列得点情報に基づいて、上記目的配列取得手段により取得された上記目的配列を上記MHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出するMHC結合部位含有配列長部分配列得点算出手段と、上記MHC結合部位含有配列長部分配列得点算出手段により算出された上記MHC結合部位含有配列長部分配列得点情報に基づいて上記MHC結合部位を決定し、当該MHC結合部位を含む上記部分配列を上記MHC結合部分配列として予測する得点基準MHC結合部分配列予測手段とをさらに備えたことを特徴とする。   In addition, the vaccine candidate partial sequence predicting apparatus according to claim 4 is the vaccine candidate partial sequence predicting apparatus according to any one of claims 1 to 3, wherein the MHC binding partial sequence predicting means is the specific A major histocompatibility antigen determining means for determining the type of major histocompatibility antigen, and a number of residues remaining before and after the MHC binding site which is a site to bind to the major histocompatibility antigen determined by the major histocompatibility antigen determination means. MHC binding site-containing sequence storage means for storing MHC binding site-containing sequence information that is information relating to the MHC binding site-containing sequence that is the amino acid sequence including the group; and the MHC binding stored by the MHC binding site-containing sequence storage means MHC binding site-containing sequence that is information regarding the frequency of occurrence of amino acids at positions corresponding to each amino acid residue in the site-containing sequence Based on the MHC binding site-containing sequence amino acid appearance frequency calculating means for calculating the amino acid appearance frequency information, and the MHC binding site-containing sequence amino acid appearance frequency information calculated by the MHC binding site-containing sequence amino acid appearance frequency calculating means. Based on the MHC binding site-containing sequence score calculation means calculated by the MHC binding site-containing sequence score calculation means, the target sequence acquisition means calculates the binding site-containing sequence score information. MHC binding site-containing sequence length partial sequence score calculating means for calculating MHC binding site-containing sequence length partial sequence score information corresponding to each partial sequence obtained by dividing the obtained target sequence into the length of the MHC binding site-containing sequence; The MHC calculated by the MHC binding site-containing sequence length partial sequence score calculation means A scoring reference MHC binding partial sequence predicting means for determining the MHC binding site based on the combined site-containing sequence length partial sequence score information and predicting the partial sequence including the MHC binding site as the MHC binding partial sequence; It is characterized by that.

これはMHC結合部分配列予測手段の一例を一層具体的に示すものである。この装置によれば、MHC結合部分配列予測手段は、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含むアミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納し、格納されたMHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出し、算出されたMHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出し、算出されたMHC結合部位含有配列得点情報に基づいて、取得された目的配列をMHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出し、算出されたMHC結合部位含有配列長部分配列得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測するので、各種の主要組織適合性抗原に対応する既知のMHC結合部位含有配列のアミノ酸頻度解析に基づいて、特定の主要組織適合性抗原と結合するMHC結合部位を高精度に予測することにより、MHC結合部分配列を効率よく高精度に予測することができる。   This shows one example of the MHC binding partial sequence predicting means more specifically. According to this apparatus, the MHC binding subsequence prediction means determines the type of a specific major histocompatibility antigen, and determines several residues before and after the MHC binding site, which is the site that binds to the determined major histocompatibility antigen. Information on the appearance frequency of amino acids at positions corresponding to each amino acid residue in the stored MHC binding site-containing sequence; MHC binding site-containing sequence amino acid appearance frequency information is calculated, MHC binding site-containing sequence amino acid appearance frequency information is calculated based on the calculated MHC binding site-containing sequence amino acid appearance frequency information, and the calculated MHC binding site-containing sequence score is calculated MHC binding corresponding to each partial sequence obtained by dividing the obtained target sequence into the length of the MHC binding site-containing sequence based on the information The position-containing sequence length partial sequence score information is calculated, the MHC binding site is calculated based on the calculated MHC binding site-containing sequence length partial sequence score information, and the partial sequence including the MHC binding site is predicted as the MHC binding partial sequence Therefore, based on the amino acid frequency analysis of known MHC binding site-containing sequences corresponding to various major histocompatibility antigens, by accurately predicting the MHC binding site binding to a specific major histocompatibility antigen, An MHC binding partial sequence can be predicted efficiently and with high accuracy.

また、請求項5に記載のワクチン候補部分配列予測装置は、請求項1から3のいずれか一つに記載のワクチン候補部分配列予測装置において、上記MHC結合部分配列予測手段は、上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定手段と、上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原と結合する部位であるMHC結合部位の上記アミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納するMHC結合部位配列格納手段と、上記MHC結合部位配列格納手段により格納された上記MHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出するMHC結合部位モチーフ配列抽出手段と、上記MHC結合部位モチーフ配列抽出手段により抽出された上記MHC結合部位モチーフ配列を利用して上記目的配列取得手段により取得された上記目的配列に対してモチーフ検索を実行することにより上記目的配列における上記MHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得するMHC結合部位モチーフ検索手段と、上記MHC結合部位モチーフ検索手段により取得された上記MHC結合部位検索得点情報に基づいて上記MHC結合部位を決定し、当該MHC結合部位を含む上記部分配列を上記MHC結合部分配列として予測するモチーフ検索基準MHC結合部分配列予測手段とをさらに備えたことを特徴とする。   Further, the vaccine candidate partial sequence predicting device according to claim 5 is the vaccine candidate partial sequence predicting device according to any one of claims 1 to 3, wherein the MHC binding partial sequence predicting means is the specific Major histocompatibility antigen determining means for determining the type of major histocompatibility antigen, and the amino acid sequence of the MHC binding site which is a site binding to the major histocompatibility antigen determined by the major histocompatibility antigen determination means MHC binding site sequence storage means for storing MHC binding site sequence information, which is information related to the MHC binding site sequence, and a known MHC binding site from the MHC binding site sequence information stored by the MHC binding site sequence storage means. MHC binding site motif sequence extracting means for extracting a motif sequence and the above MHC binding site motif sequence extracting means The MHC binding site in the target sequence is searched by performing a motif search on the target sequence acquired by the target sequence acquisition means using the MHC binding site motif sequence that has been issued. MHC binding site motif search means for acquiring MHC binding site search score information as a score, and determining the MHC binding site based on the MHC binding site search score information acquired by the MHC binding site motif search means, Motif search reference MHC binding partial sequence predicting means for predicting the partial sequence including an MHC binding site as the MHC binding partial sequence is further provided.

これはMHC結合部分配列予測手段の一例を一層具体的に示すものである。この装置によれば、MHC結合部分配列予測手段は、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原と結合する部位であるMHC結合部位のアミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納し、格納されたMHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出し、抽出されたMHC結合部位モチーフ配列を利用して取得された目的配列に対してモチーフ検索を実行することにより目的配列におけるMHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得し、取得されたMHC結合部位検索得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測するので、各種の主要組織適合性抗原に対応する既知のMHC結合部位配列を利用してモチーフを検出し、当該モチーフ検索に基づいて、特定の主要組織適合性抗原と結合するMHC結合部位を高精度に予測することにより、MHC結合部分配列を効率よく高精度に予測することができる。   This shows one example of the MHC binding partial sequence predicting means more specifically. According to this apparatus, the MHC binding subsequence prediction means determines the type of a specific major histocompatibility antigen, and the MHC that is the amino acid sequence of the MHC binding site that is the site that binds to the determined major histocompatibility antigen. Stores MHC binding site sequence information, which is information related to the binding site sequence, extracts a known MHC binding site motif sequence from the stored MHC binding site sequence information, and obtains it using the extracted MHC binding site motif sequence A motif search is performed on the target sequence thus obtained to search for an MHC binding site in the target sequence, MHC binding site search score information that is a score at the time of search is obtained, and the acquired MHC binding site search score information is obtained. MHC binding site is determined based on this, and a partial sequence including the MHC binding site is predicted as an MHC binding partial sequence. Detecting motifs using known MHC binding site sequences corresponding to histocompatibility antigens, and predicting MHC binding sites binding to specific major histocompatibility antigens with high accuracy based on the motif search Thus, the MHC binding partial sequence can be predicted efficiently and with high accuracy.

また、請求項6に記載のワクチン候補部分配列予測装置は、請求項1から3のいずれか一つに記載のワクチン候補部分配列予測装置において、上記MHC結合部分配列予測手段は、上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定手段と、上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原の上記アミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得手段と、上記目的配列取得手段により取得された上記目的配列を上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原の上記種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成手段と、上記MHC長部分配列作成手段により作成された各MHC長部分配列および上記MHC配列取得手段により取得された上記主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測手段と、上記複合体立体構造予測手段により予測された上記複合体立体構造情報に基づいて、上記MHC長部分配列と上記主要組織適合性抗原配列との間で相互作用している上記アミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定手段と、上記相互作用アミノ酸決定手段により決定された上記相互作用アミノ酸情報に含まれる上記アミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出手段と、上記親和力算出手段により算出された全ての上記アミノ酸の組の間の上記親和力情報の総和を算出する親和力総和算出手段と、上記親和力総和算出手段により算出された上記親和力情報の上記総和に基づいて、上記MHC長部分配列と上記主要組織適合性抗原との親和性を評価することにより、上記MHC結合部分配列を予測する親和力基準MHC結合部分配列予測手段とをさらに備えたことを特徴とする。   Further, the vaccine candidate partial sequence predicting device according to claim 6 is the vaccine candidate partial sequence predicting device according to any one of claims 1 to 3, wherein the MHC binding partial sequence predicting unit is configured to perform the specific operation. A major histocompatibility antigen determining means for determining the type of major histocompatibility antigen, and a major histocompatibility antigen sequence which is the amino acid sequence of the major histocompatibility antigen determined by the major histocompatibility antigen determination means MHC sequence acquisition means for acquiring information of major histocompatibility antigen sequence information, and the main histocompatibility antigen determined by the main histocompatibility antigen determination means as the target sequence acquired by the target sequence acquisition means MHC long partial sequence creating means for creating an MHC long partial sequence by dividing into lengths corresponding to the above types, and the MHC long partial sequence creating means A complex three-dimensional structure predicting means for predicting complex three-dimensional structure information based on each of the MHC long partial sequences prepared by the MHC sequence obtaining means and the major histocompatibility antigen sequence obtained by the MHC sequence obtaining means; An interacting amino acid that is information on the set of amino acids interacting between the MHC long partial sequence and the major histocompatibility antigen sequence based on the complex three-dimensional structure information predicted by the structure prediction means Affinity information, which is information relating to the affinity between the amino acid set included in the interaction amino acid determination means determined by the interaction amino acid determination means and the interaction amino acid determination means determined by the interaction amino acid determination means, Affinity calculation means for calculating statistically using structural information, and all the above-mentioned calculated by the affinity calculation means Affinity sum calculation means for calculating the sum of the affinity information between the groups of mino acids, and based on the sum of the affinity information calculated by the affinity sum calculation means, the MHC length subsequence and the main tissue compatibility And an affinity reference MHC binding partial sequence predicting means for predicting the MHC binding partial sequence by evaluating the affinity with a sex antigen.

これはMHC結合部分配列予測手段の一例を一層具体的に示すものである。この装置によれば、MHC結合部分配列予測手段は、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原のアミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得し、取得された目的配列を決定された主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成し、作成された各MHC長部分配列および取得された主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測し、予測された複合体立体構造情報に基づいて、MHC長部分配列と主要組織適合性抗原配列との間で相互作用しているアミノ酸の組に関する情報である相互作用アミノ酸情報を決定し、決定された相互作用アミノ酸情報に含まれるアミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出し、算出された全てのアミノ酸の組の間の親和力情報の総和を算出し、算出された親和力情報の総和に基づいて、MHC長部分配列と主要組織適合性抗原との親和性を評価することにより、MHC結合部分配列を予測するので、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造から統計的に算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができる。   This shows one example of the MHC binding partial sequence predicting means more specifically. According to this apparatus, the MHC binding partial sequence predicting means determines the type of a specific major histocompatibility antigen, and is information on the major histocompatibility antigen sequence that is the amino acid sequence of the determined major histocompatibility antigen. The major histocompatibility antigen sequence information is obtained, the obtained target sequence is divided into lengths corresponding to the determined major histocompatibility antigen types, MHC length subsequences are created, and each created MHC Based on the long partial sequence and the obtained major histocompatibility antigen sequence, complex tertiary structure information is predicted, and based on the predicted complex tertiary structure information, the MHC long partial sequence and the major histocompatibility antigen sequence are Information on interaction amino acid information that is information on amino acid pairs interacting with each other, and information on affinity between amino acid sets included in the determined interaction amino acid information. Affinity information is statistically calculated using the three-dimensional structure information of known proteins, the sum of affinity information between all calculated amino acid pairs is calculated, and based on the calculated sum of affinity information Thus, the MHC binding partial sequence is predicted by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen. Therefore, the complex three-dimensional structure with MHC is not dependent on the information of the known binding peptide. Based on the statistically calculated affinity, the MHC binding partial sequence that binds to and interacts with a specific major histocompatibility antigen can be predicted with high speed and high accuracy.

また、請求項7に記載のワクチン候補部分配列予測装置は、請求項6に記載のワクチン候補部分配列予測装置において、上記MHC長部分配列作成手段は、上記目的配列取得手段により取得された上記目的配列を、先頭から1アミノ酸残基ずつスライドしながら上記主要組織適合性抗原の上記種類に対応する上記長さに分割して、上記MHC長部分配列を作成するスライド分割手段をさらに備えたことを特徴とする。   In addition, the vaccine candidate partial sequence prediction apparatus according to claim 7 is the vaccine candidate partial sequence prediction apparatus according to claim 6, wherein the MHC long partial sequence creation means is the purpose acquired by the target sequence acquisition means. A slide splitting means for creating the MHC long partial sequence by splitting the sequence into the length corresponding to the type of the major histocompatibility antigen while sliding the amino acid residue from the top one by one; Features.

これはMHC長部分配列作成手段の一例を一層具体的に示すものである。この装置によれば、MHC長部分配列作成手段は、取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成するので、分割される可能性のあるMHC長部分配列を漏れなく作成することができる。   This more specifically shows one example of the MHC length partial sequence creating means. According to this apparatus, the MHC length partial sequence creating means divides the acquired target sequence into lengths corresponding to the types of major histocompatibility antigens while sliding the amino acid residues one by one from the beginning. Since the partial sequence is created, an MHC length partial sequence that may be divided can be created without omission.

また、請求項8に記載のワクチン候補部分配列予測装置は、請求項6または7に記載のワクチン候補部分配列予測装置において、上記主要組織適合性抗原の上記種類に対応する上記長さは、8〜18残基数であることを特徴とする。   The vaccine candidate partial sequence prediction apparatus according to claim 8 is the vaccine candidate partial sequence prediction apparatus according to claim 6 or 7, wherein the length corresponding to the type of the major histocompatibility antigen is 8 The number of residues is ˜18.

これは主要組織適合性抗原の種類に対応する長さの一例を一層具体的に示すものである。この装置によれば、主要組織適合性抗原の種類に対応する長さは、8〜18残基数であるので、例えばMHCクラスIに対しては8〜12残基数とし、MHCクラスIIに対しては12〜18残基数とすることができるため、各MHCの種類に対応する最適な長さのMHC長部分配列を作成することができる。   This is a more specific example of the length corresponding to the type of major histocompatibility antigen. According to this apparatus, since the length corresponding to the type of major histocompatibility antigen is 8 to 18 residues, for example, it is 8 to 12 residues for MHC class I, and MHC class II On the other hand, since the number of residues can be 12-18, an MHC length partial sequence having an optimum length corresponding to each MHC type can be prepared.

また、請求項9に記載のワクチン候補部分配列予測装置は、請求項6から8のいずれか一つに記載のワクチン候補部分配列予測装置において、上記MHC結合部分配列予測手段は、上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原と結合する上記アミノ酸配列の各アミノ酸残基と上記主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納手段をさらに備え、上記親和力算出手段は、上記親和力情報を、上記MHC結合アミノ酸残基間距離値格納手段により格納された上記MHC結合アミノ酸残基間距離値情報、および/または、上記既知の上記タンパク質の上記立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出手段をさらに備えたことを特徴とする。   The vaccine candidate partial sequence predicting device according to claim 9 is the vaccine candidate partial sequence predicting device according to any one of claims 6 to 8, wherein the MHC binding partial sequence predicting means is the main tissue compatible MHC binding, which is information on the distance value between each amino acid residue of the amino acid sequence that binds to the major histocompatibility antigen determined by the sex antigen determination means and each amino acid residue of the major histocompatibility antigen sequence MHC binding amino acid residue distance value storage means for storing amino acid residue distance value information is further provided, wherein the affinity calculation means stores the affinity information by the MHC binding amino acid residue distance value storage means. Statistical potential using the MHC-binding amino acid residue distance value information and / or the three-dimensional structure information of the known protein And further comprising a distance value based affinity calculation means for calculating using.

これはMHC結合部分配列予測手段および親和力算出手段の一例を一層具体的に示すものである。この装置によれば、MHC結合部分配列予測手段は、決定された主要組織適合性抗原と結合するアミノ酸配列の各アミノ酸残基と主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納し、親和力算出手段は、親和力情報を、格納されたMHC結合アミノ酸残基間距離値情報、および/または、既知のタンパク質の立体構造情報を利用した統計ポテンシャルを用いて算出するので、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造からMHC結合アミノ酸残基間距離値などを利用した統計ポテンシャルを用いて算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができる。   This more specifically shows one example of the MHC binding partial sequence predicting means and the affinity calculating means. According to this apparatus, the MHC binding partial sequence predicting means calculates the distance value between each amino acid residue of the amino acid sequence that binds to the determined major histocompatibility antigen and each amino acid residue of the major histocompatibility antigen sequence. MHC binding amino acid residue distance value information, which is information relating to the information, and the affinity calculation means stores the affinity information, the stored MHC binding amino acid residue distance value information, and / or the three-dimensional structure information of the known protein. Since it is calculated using the statistical potential using, it does not depend on the information of the known binding peptide, and it is calculated using the statistical potential using the distance between MHC-binding amino acid residues from the 3D complex structure with MHC. Based on the determined affinity, MHC binding subsequences that bind to and interact with specific major histocompatibility antigens can be predicted at high speed and with high accuracy.

また、請求項10に記載のワクチン候補部分配列予測装置は、請求項1から3のいずれか一つに記載のワクチン候補部分配列予測装置において、上記MHC結合部分配列予測手段は、上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定手段と、上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原の立体構造であるMHC立体構造情報を取得するMHC立体構造取得手段と、上記MHC立体構造取得手段により取得された上記MHC立体構造情報および上記目的配列取得手段により取得された上記目的配列の上記部分配列に基づいて、上記主要組織適合性抗原と上記部分配列との複合体立体構造情報を作成する複合体立体構造作成手段と、上記複合体立体構造作成手段により作成された上記複合体立体構造情報において、量子化学計算手法を用いて上記複合体立体構造情報に対応する上記立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出する構造評価指標算出手段と、上記構造評価指標算出手段により算出された上記構造評価指標値情報に基づいて、上記部分配列の中から上記MHC結合部分配列を予測する構造評価指標基準MHC結合部分配列予測手段とをさらに備えたことを特徴とする。   The vaccine candidate partial sequence predicting device according to claim 10 is the vaccine candidate partial sequence predicting device according to any one of claims 1 to 3, wherein the MHC-binding partial sequence predicting means is the specific Main histocompatibility antigen determining means for determining the type of main histocompatibility antigen, and MHC for acquiring MHC three-dimensional structure information which is the three-dimensional structure of the main histocompatibility antigen determined by the main histocompatibility antigen determination means Based on the three-dimensional structure acquisition means, the MHC three-dimensional structure information acquired by the MHC three-dimensional structure acquisition means and the partial sequence of the target sequence acquired by the target sequence acquisition means, the major histocompatibility antigen and the A composite three-dimensional structure creating means for creating complex three-dimensional structure information with the partial sequence, and the composite three-dimensional structure creating means Structure evaluation index calculation means for calculating structure evaluation index value information, which is information related to an index value for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information using a quantum chemistry calculation method in the three-dimensional structure information And a structure evaluation index reference MHC binding partial sequence prediction means for predicting the MHC binding partial sequence from the partial sequences based on the structure evaluation index value information calculated by the structure evaluation index calculation means. It is characterized by that.

これはMHC結合部分配列予測手段の一例を一層具体的に示すものである。この装置によれば、MHC結合部分配列予測手段は、特定の上記主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原の立体構造であるMHC立体構造情報を取得し、取得されたMHC立体構造情報および取得された目的配列の部分配列に基づいて、主要組織適合性抗原と部分配列との複合体立体構造情報を作成し、作成された複合体立体構造情報において、量子化学計算手法を用いて複合体立体構造情報に対応する立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出し、算出された構造評価指標値情報に基づいて、部分配列の中からMHC結合部分配列を予測するので、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造に対して量子化学計算手法を用いて算出した構造評価指標値に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を効率よく高精度に予測することができる。   This shows one example of the MHC binding partial sequence predicting means more specifically. According to this apparatus, the MHC binding partial sequence predicting means determines the type of the specific major histocompatibility antigen, acquires MHC conformation information that is the determined conformation of the major histocompatibility antigen, and obtains it. Based on the obtained MHC three-dimensional structure information and the obtained partial sequence of the target sequence, complex three-dimensional structure information of the major histocompatibility antigen and the partial sequence is created. The structure evaluation index value information, which is information related to the index value for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information, is calculated using a calculation method, and the partial array is calculated based on the calculated structure evaluation index value information. Since the MHC binding partial sequence is predicted from the inside, the structure evaluation index calculated using the quantum chemistry calculation method for the three-dimensional structure of the complex with MHC does not depend on the information of the known binding peptide. Based on the value, combined with a particular major histocompatibility antigen, it is possible to predict MHC binding subsequences that interact efficiently with high accuracy.

また、請求項11に記載のワクチン候補部分配列予測装置は、請求項1から10のいずれか一つに記載のワクチン候補部分配列予測装置において、上記非自己認識部分配列予測手段は、特定の生物種に関する上記アミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納する特定生物種配列格納手段と、上記特定生物種配列格納手段により格納された上記特定生物種配列情報に対して、上記目的配列取得手段により作成された上記目的配列の上記部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得する非自己認識部分配列検索手段と、上記非自己認識部分配列検索手段により取得された上記非自己認識検索得点情報に基づいて、上記部分配列の中から上記非自己認識部分配列を予測する検索基準非自己認識部分配列予測手段とをさらに備えたことを特徴とする。   The vaccine candidate partial sequence predicting device according to claim 11 is the vaccine candidate partial sequence predicting device according to any one of claims 1 to 10, wherein the non-self-recognizing partial sequence predicting means is a specific organism. Specific biological species sequence storage means for storing specific biological species sequence information that is information relating to the specific biological species amino acid sequence that is the amino acid sequence related to the species, and the specific biological species sequence information stored in the specific biological species sequence storage means On the other hand, non-self-recognition partial sequence search means for acquiring non-self-recognition search score information, which is a score at the time of search, by performing a search of the partial sequence of the target sequence created by the target sequence acquisition means The non-self-recognition from the partial sequences based on the non-self-recognition search score information acquired by the non-self-recognized partial sequence search means That further includes a search criteria non-self recognition moiety sequence estimating means for estimating an amount sequence characterized.

これは非自己認識部分配列予測手段の一例を一層具体的に示すものである。この装置によれば、非自己認識部分配列予測手段は、特定の生物種に関するアミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納し、格納された特定生物種配列情報に対して、取得された目的配列の部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得し、取得された非自己認識検索得点情報に基づいて、部分配列の中から非自己認識部分配列を予測するので、非自己認識検索得点情報に基づいて、自己として認識されるかを評価することにより、自己として認識されない(抗原性をもつ)非自己認識部分配列を効率よく高精度に予測することができる。   This more specifically shows an example of the non-self-recognizing partial sequence predicting means. According to this apparatus, the non-self-recognizing partial sequence predicting means stores specific biological species sequence information that is information on a specific biological species amino acid sequence that is an amino acid sequence related to a specific biological species, and stores the stored specific biological species sequence information. In contrast, by performing a search of the partial sequence of the acquired target sequence, non-self-recognition search score information that is a score at the time of search is acquired, and based on the acquired non-self-recognition search score information, a partial Because non-self-recognizing partial sequences are predicted from the sequence, non-self-recognizing parts that are not recognized as self (have antigenicity) by evaluating whether they are recognized as self based on non-self-recognition search score information The sequence can be predicted efficiently and with high accuracy.

また、本発明は、ワクチン候補部分配列予測方法に関するものであり、請求項12に記載のワクチン候補部分配列予測方法は、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得ステップと、上記目的配列取得ステップにより取得された上記目的配列情報から、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されない上記アミノ酸配列であって、上記目的配列の部分配列である非切断部分配列を予測する非切断部分配列予測ステップと、上記目的配列取得ステップにより取得された上記目的配列情報から、特定の主要組織適合性抗原と結合することができる上記アミノ酸配列であって、上記目的配列の部分配列であるMHC結合部分配列を予測するMHC結合部分配列予測ステップと、上記目的配列取得ステップにより取得された上記目的配列情報から、自己として認識されない上記アミノ酸配列であって、上記目的配列の部分配列である非自己認識部分配列を予測する非自己認識部分配列予測ステップと、上記目的配列取得ステップにより取得された上記目的配列情報から、突然変異の入りにくい上記アミノ酸配列であって、上記目的配列の部分配列である非突然変異部分配列を予測する非突然変異部分配列予測ステップと、上記非切断部分配列予測ステップにより予測された上記非切断部分配列、上記MHC結合部分配列予測ステップにより予測された上記MHC結合部分配列、上記非自己認識部分配列予測ステップにより予測された上記非自己認識部分配列、および/または、上記非突然変異部分配列予測ステップにより予測された上記非突然変異部分配列に基づいて、ワクチンとして有効な上記アミノ酸配列であるワクチン候補部分配列を予測するワクチン候補部分配列予測ステップとを含むことを特徴とする。   The present invention also relates to a vaccine candidate partial sequence prediction method, and the vaccine candidate partial sequence prediction method according to claim 12 is information relating to a target sequence which is an amino acid sequence of a target protein or physiologically active polypeptide. A target sequence acquisition step for acquiring target sequence information; and the amino acid sequence that is not cleaved by a proteolytic enzyme or proteosome present in lysosome from the target sequence information acquired by the target sequence acquisition step, and the target sequence The amino acid capable of binding to a specific major histocompatibility antigen from the non-cleaved partial sequence prediction step for predicting a non-cut partial sequence that is a partial sequence of the target sequence and the target sequence information acquired by the target sequence acquisition step An MHC binding sequence, which is a partial sequence of the target sequence Non-self recognition that is an amino acid sequence that is not recognized as self from the target sequence information acquired by the MHC binding partial sequence prediction step for predicting a partial sequence and the target sequence acquisition step, and is a partial sequence of the target sequence From the non-self-recognizing partial sequence prediction step for predicting a partial sequence and the target sequence information acquired by the target sequence acquisition step, the amino acid sequence that is difficult to be mutated and is a partial sequence of the target sequence A non-mutated partial sequence prediction step for predicting a mutated partial sequence; the non-cut partial sequence predicted by the non-cut partial sequence prediction step; the MHC binding partial sequence predicted by the MHC binding partial sequence prediction step; The non-self-recognizing partial sequence predicted by the non-self-recognizing partial sequence prediction step; And / or a vaccine candidate partial sequence prediction step for predicting a vaccine candidate partial sequence that is the amino acid sequence effective as a vaccine based on the non-mutated partial sequence predicted by the non-mutant partial sequence prediction step. It is characterized by including.

この方法によれば、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得し、取得された目的配列情報から、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されないアミノ酸配列であって、目的配列の部分配列である非切断部分配列を予測し、取得された目的配列情報から、特定の主要組織適合性抗原と結合することができるアミノ酸配列であって、目的配列の部分配列であるMHC結合部分配列を予測し、取得された目的配列情報から、自己として認識されないアミノ酸配列であって、目的配列の部分配列である非自己認識部分配列を予測し、取得された目的配列情報から、突然変異の入りにくいアミノ酸配列であって、目的配列の部分配列である非突然変異部分配列を予測し、予測された非切断部分配列、予測されたMHC結合部分配列、予測された非自己認識部分配列、および/または、予測された非突然変異部分配列に基づいて、ワクチンとして有効なアミノ酸配列であるワクチン候補部分配列を予測するので、目的配列情報から、1)リソソーム内に存在するタンパク質分解酵素またはプロテオソームに対する耐性をもち、2)MHCと結合し、3)自己ペプチドとして認識されない、4)突然変異の入りにくい、という4つの条件を満たし、T細胞を活性化させることができるワクチンとして最適なワクチン候補部分配列を効率よく高精度に予測することができる。   According to this method, target sequence information that is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide is obtained, and a proteolytic enzyme or proteosome present in the lysosome is obtained from the obtained target sequence information. An amino acid sequence that is not cleaved by the target sequence, is an amino acid sequence that can predict a non-cleaved partial sequence that is a partial sequence of the target sequence and can bind to a specific major histocompatibility antigen from the obtained target sequence information. Predicting an MHC binding partial sequence that is a partial sequence of the target sequence, and predicting a non-self-recognizing partial sequence that is a partial sequence of the target sequence that is an amino acid sequence that is not recognized as self from the acquired target sequence information, From the obtained target sequence information, it is an amino acid sequence that is difficult to mutate, and is a partial sequence of the target sequence. Based on the predicted non-mutated partial sequence, the predicted MHC binding partial sequence, the predicted non-self-recognizing partial sequence, and / or the predicted non-mutated partial sequence. Because the vaccine candidate partial sequence, which is an amino acid sequence effective as a vaccine, is predicted, from the target sequence information, 1) resistant to proteolytic enzymes or proteosomes present in lysosomes, 2) bound to MHC, and 3) self The vaccine candidate partial sequence optimal as a vaccine that satisfies the four conditions of being unrecognized as a peptide and 4) difficult to enter a mutation and capable of activating T cells can be predicted efficiently and with high accuracy.

また、請求項13に記載のワクチン候補部分配列予測方法は、請求項12に記載のワクチン候補部分配列予測方法において、上記非切断部分配列予測ステップは、上記タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含む上記アミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納する切断部位含有配列格納ステップと、上記切断部位含有配列格納ステップにより格納された上記切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出する切断部位含有配列アミノ酸出現頻度算出ステップと、上記切断部位含有配列アミノ酸出現頻度算出ステップにより算出された上記切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出する切断部位含有配列得点算出ステップと、上記切断部位含有配列得点算出ステップにより算出された上記切断部位含有配列得点情報に基づいて、上記目的配列取得ステップにより取得された上記目的配列を上記切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出する切断部位含有配列長部分配列得点算出ステップと、上記切断部位含有配列長部分配列得点算出ステップにより算出された上記切断部位含有配列長部分配列得点情報に基づいて上記酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を上記非切断部分配列として予測する得点基準非切断部分配列予測ステップとをさらに含むことを特徴とする。   The vaccine candidate partial sequence prediction method according to claim 13 is the vaccine candidate partial sequence prediction method according to claim 12, wherein the non-cleavable partial sequence prediction step is a site cleaved by the proteolytic enzyme. Stored by the cleavage site-containing sequence storage step for storing the cleavage site-containing sequence information that is information on the cleavage site-containing sequence that is the amino acid sequence including several residues before and after the enzyme cleavage site, and the cleavage site-containing sequence storage step. A cleavage site-containing sequence amino acid appearance frequency calculating step for calculating cleavage site-containing sequence amino acid appearance frequency information, which is information relating to the appearance frequency of amino acids at positions corresponding to each amino acid residue in the cleavage site-containing sequence, and the cleavage site containing The cleavage site-containing sequence sequence calculated in the sequence amino acid appearance frequency calculation step Based on the non-acid appearance frequency information, based on the cleavage site-containing sequence score calculation step that calculates the cleavage site-containing sequence score calculation step that calculates the cleavage site-containing sequence score information, The cleavage site-containing sequence length partial sequence score for calculating the cleavage site-containing sequence length partial sequence score information corresponding to each partial sequence obtained by dividing the target sequence obtained by the objective sequence acquisition step into the length of the cleavage site-containing sequence A partial sequence cleaved at the enzyme cleavage site by determining the enzyme cleavage site based on the calculation step and the cleavage site-containing sequence length partial sequence score information calculated by the cleavage site-containing sequence length partial sequence score calculation step And a score-based non-cutting partial sequence predicting step for predicting as a non-cutting partial sequence.

これは非切断部分配列予測ステップの一例を一層具体的に示すものである。この方法によれば、非切断部分配列予測ステップは、タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含むアミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納し、格納された切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出し、算出された切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出し、算出された切断部位含有配列得点情報に基づいて、取得された目的配列を切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出し、算出された切断部位含有配列長部分配列得点情報に基づいて酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列として予測するので、切断部位含有配列の頻度解析に基づいて、リソソーム内に存在するタンパク質分解酵素またはプロテオソームによる酵素切断部位を高精度に予測することにより非切断部分配列を効率よく高精度に予測することができる。   This shows one example of the non-cut partial sequence prediction step more specifically. According to this method, the non-cleavable partial sequence prediction step includes a cleavage site-containing sequence that is information on a cleavage site-containing sequence that is an amino acid sequence including several residues before and after the enzyme cleavage site, which is a site cleaved by a proteolytic enzyme. Information is stored, the cleavage site-containing sequence amino acid appearance frequency information, which is information about the appearance frequency of amino acids at positions corresponding to each amino acid residue in the stored cleavage site-containing sequence, is calculated, and the calculated cleavage site-containing sequence Each partial sequence obtained by calculating cleavage site-containing sequence score information based on amino acid appearance frequency information and dividing the obtained target sequence into the length of the cleavage site-containing sequence based on the calculated cleavage site-containing sequence score information The cleavage site-containing sequence length partial sequence score information corresponding to is calculated, and enzyme cleavage is performed based on the calculated cleavage site-containing sequence length partial sequence score information. Since the site is determined and the partial sequence cleaved at the enzyme cleavage site is predicted as a non-cleavable partial sequence, the enzyme cleavage site by the proteolytic enzyme or proteosome present in the lysosome based on the frequency analysis of the cleavage site-containing sequence It is possible to predict the non-cut partial sequence efficiently and with high accuracy.

また、請求項14に記載のワクチン候補部分配列予測方法は、請求項12に記載のワクチン候補部分配列予測方法において、上記非切断部分配列予測ステップは、上記タンパク質分解酵素により切断される部位である酵素切断部位の上記アミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納する切断部位配列格納ステップと、上記切断部位配列格納ステップにより格納された上記切断部位配列情報から、既知の切断部位モチーフ配列を抽出する切断部位モチーフ配列抽出ステップと、上記切断部位モチーフ配列抽出ステップにより抽出された上記切断部位モチーフ配列を利用して上記目的配列取得ステップにより取得された上記目的配列に対してモチーフ検索を実行することにより上記目的配列における上記酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得する切断部位モチーフ検索ステップと、上記切断部位モチーフ検索ステップにより取得された上記切断部位検索得点情報に基づいて上記目的配列の上記酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を上記非切断部分配列として予測するモチーフ検索基準非切断部分配列予測ステップとをさらに含むことを特徴とする。   The vaccine candidate partial sequence prediction method according to claim 14 is the vaccine candidate partial sequence prediction method according to claim 12, wherein the non-cleavable partial sequence prediction step is a site cleaved by the proteolytic enzyme. From the cleavage site sequence storage step for storing the cleavage site sequence information, which is information relating to the cleavage site sequence that is the amino acid sequence of the enzyme cleavage site, and the cleavage site sequence information stored by the cleavage site sequence storage step, the known cleavage A cleavage site motif sequence extraction step for extracting a site motif sequence, and a motif for the target sequence acquired by the target sequence acquisition step using the cleavage site motif sequence extracted by the cleavage site motif sequence extraction step Enzymatic cleavage at the target sequence by performing a search The site of the target sequence is retrieved based on the cleavage site search score information acquired by the cleavage site motif search step obtained by the above-mentioned cleavage site motif search step. And a motif search reference non-cutting partial sequence prediction step of determining an enzyme cutting site and predicting a partial sequence cut at the enzyme cutting site as the non-cutting partial sequence.

これは非切断部分配列予測ステップの一例を一層具体的に示すものである。この方法によれば、非切断部分配列予測ステップは、タンパク質分解酵素により切断される部位である酵素切断部位のアミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納し、格納された切断部位配列情報から、既知の切断部位モチーフ配列を抽出し、抽出された切断部位モチーフ配列を利用して目的配列に対してモチーフ検索を実行することにより目的配列における酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得し、取得された切断部位検索得点情報に基づいて目的配列の酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列として予測するので、目的配列に対するモチーフ検索に基づいて、リソソーム内に存在するタンパク質分解酵素またはプロテオソームによる酵素切断部位を高精度に予測することにより非切断部分配列を効率よく高精度に予測することができる。   This shows one example of the non-cut partial sequence prediction step more specifically. According to this method, the non-cleavable partial sequence prediction step stores and stores the cleavage site sequence information, which is information related to the cleavage site sequence, which is the amino acid sequence of the enzyme cleavage site, which is a site cleaved by a proteolytic enzyme. Extracts a known cleavage site motif sequence from the cleavage site sequence information, searches the target sequence for the enzyme cleavage site using the extracted cleavage site motif sequence, and searches for the enzyme cleavage site in the target sequence. Obtain the cleavage site search score information that is the score at the time, determine the enzyme cleavage site of the target sequence based on the obtained cleavage site search score information, and the partial sequence cleaved at the enzyme cleavage site as a non-cleaved partial sequence Therefore, based on the motif search for the target sequence It is possible to predict the non-cutting portion arranged efficiently high precision by predicting the enzyme cleavage site with high precision by.

また、請求項15に記載のワクチン候補部分配列予測方法は、請求項12から14のいずれか一つに記載のワクチン候補部分配列予測方法において、上記MHC結合部分配列予測ステップは、上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含む上記アミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納するMHC結合部位含有配列格納ステップと、上記MHC結合部位含有配列格納ステップにより格納された上記MHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出するMHC結合部位含有配列アミノ酸出現頻度算出ステップと、上記MHC結合部位含有配列アミノ酸出現頻度算出ステップにより算出された上記MHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出するMHC結合部位含有配列得点算出ステップと、上記MHC結合部位含有配列得点算出ステップにより算出された上記MHC結合部位含有配列得点情報に基づいて、上記目的配列取得ステップにより取得された上記目的配列を上記MHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出するMHC結合部位含有配列長部分配列得点算出ステップと、上記MHC結合部位含有配列長部分配列得点算出ステップにより算出された上記MHC結合部位含有配列長部分配列得点情報に基づいて上記MHC結合部位を決定し、当該MHC結合部位を含む上記部分配列を上記MHC結合部分配列として予測する得点基準MHC結合部分配列予測ステップとをさらに含むことを特徴とする。   The vaccine candidate partial sequence prediction method according to claim 15 is the vaccine candidate partial sequence prediction method according to any one of claims 12 to 14, wherein the MHC binding partial sequence prediction step includes the specific A major histocompatibility antigen determination step for determining the type of major histocompatibility antigen, and a number of residues before and after the MHC binding site that is a site to bind to the major histocompatibility antigen determined by the major histocompatibility antigen determination step. An MHC binding site-containing sequence storing step for storing MHC binding site-containing sequence information, which is information relating to the MHC binding site-containing sequence that is the amino acid sequence including the group, and the MHC binding site stored by the MHC binding site-containing sequence storage step Information on the appearance frequency of amino acids at positions corresponding to each amino acid residue in the site-containing sequence MHC binding site-containing sequence amino acid appearance frequency calculation step for calculating the MHC binding site-containing sequence amino acid appearance frequency information step, and the MHC binding site-containing sequence amino acid appearance frequency calculation step. Based on the MHC binding site-containing sequence score calculation step for calculating MHC binding site-containing sequence score information, and based on the MHC binding site-containing sequence score information calculated by the MHC binding site-containing sequence score calculation step, MHC binding site-containing sequence length portion for calculating MHC binding site-containing sequence length partial sequence score information corresponding to each partial sequence obtained by dividing the target sequence acquired in the target sequence acquisition step into the length of the MHC binding site-containing sequence A sequence score calculation step and the MHC binding site-containing sequence The MHC binding site is determined based on the MHC binding site-containing sequence length partial sequence score information calculated by the long partial sequence score calculation step, and the partial sequence including the MHC binding site is predicted as the MHC binding partial sequence The method further includes a step of predicting a score based MHC binding partial sequence.

これはMHC結合部分配列予測ステップの一例を一層具体的に示すものである。この方法によれば、MHC結合部分配列予測ステップは、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含むアミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納し、格納されたMHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出し、算出されたMHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出し、算出されたMHC結合部位含有配列得点情報に基づいて、取得された目的配列をMHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出し、算出されたMHC結合部位含有配列長部分配列得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測するので、各種の主要組織適合性抗原に対応する既知のMHC結合部位含有配列のアミノ酸頻度解析に基づいて、特定の主要組織適合性抗原と結合するMHC結合部位を高精度に予測することにより、MHC結合部分配列を効率よく高精度に予測することができる。   This shows one example of the MHC binding partial sequence prediction step more specifically. According to this method, the MHC binding subsequence prediction step determines the type of a specific major histocompatibility antigen, and determines several residues before and after the MHC binding site, which is the site that binds to the determined major histocompatibility antigen. Information on the frequency of appearance of amino acids at positions corresponding to each amino acid residue in the stored MHC binding site-containing sequence, storing MHC binding site-containing sequence information that is information on the MHC binding site-containing sequence that is an amino acid sequence including MHC binding site-containing sequence amino acid appearance frequency information is calculated, MHC binding site-containing sequence amino acid appearance frequency information is calculated based on the calculated MHC binding site-containing sequence amino acid appearance frequency information, and the calculated MHC binding site-containing sequence score is calculated Based on the information, the MHC corresponding to each partial sequence obtained by dividing the acquired target sequence into the length of the sequence containing the MHC binding site Combined site-containing sequence length partial sequence score information is calculated, an MHC binding site is determined based on the calculated MHC binding site-containing sequence length partial sequence score information, and the partial sequence including the MHC binding site is defined as an MHC binding partial sequence By predicting MHC binding sites that bind to specific major histocompatibility antigens with high accuracy based on amino acid frequency analysis of known MHC binding site-containing sequences corresponding to various major histocompatibility antigens , MHC binding partial sequences can be predicted efficiently and with high accuracy.

また、請求項16に記載のワクチン候補部分配列予測方法は、請求項12から14のいずれか一つに記載のワクチン候補部分配列予測方法において、上記MHC結合部分配列予測ステップは、上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する部位であるMHC結合部位の上記アミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納するMHC結合部位配列格納ステップと、上記MHC結合部位配列格納ステップにより格納された上記MHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出するMHC結合部位モチーフ配列抽出ステップと、上記MHC結合部位モチーフ配列抽出ステップにより抽出された上記MHC結合部位モチーフ配列を利用して上記目的配列取得ステップにより取得された上記目的配列に対してモチーフ検索を実行することにより上記目的配列における上記MHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得するMHC結合部位モチーフ検索ステップと、上記MHC結合部位モチーフ検索ステップにより取得された上記MHC結合部位検索得点情報に基づいて上記MHC結合部位を決定し、当該MHC結合部位を含む上記部分配列を上記MHC結合部分配列として予測するモチーフ検索基準MHC結合部分配列予測ステップとをさらに含むことを特徴とする。   The vaccine candidate partial sequence prediction method according to claim 16 is the vaccine candidate partial sequence prediction method according to any one of claims 12 to 14, wherein the MHC binding partial sequence prediction step includes the specific Major histocompatibility antigen determination step for determining the type of major histocompatibility antigen, and the amino acid sequence of the MHC binding site which is a site to bind to the major histocompatibility antigen determined by the major histocompatibility antigen determination step An MHC binding site sequence storing step for storing MHC binding site sequence information, which is information related to the MHC binding site sequence, and a known MHC binding site from the MHC binding site sequence information stored in the MHC binding site sequence storing step. MHC binding site motif sequence extracting step for extracting motif sequence, and MHC binding The MHC binding site in the target sequence is obtained by performing a motif search on the target sequence acquired in the target sequence acquisition step using the MHC binding site motif sequence extracted in the position motif sequence extraction step. MHC binding site motif search step for searching and acquiring MHC binding site search score information, which is a score at the time of search, and the MHC binding site based on the MHC binding site search score information acquired by the MHC binding site motif search step And a motif search reference MHC binding partial sequence prediction step of determining a site and predicting the partial sequence including the MHC binding site as the MHC binding partial sequence.

これはMHC結合部分配列予測ステップの一例を一層具体的に示すものである。この方法によれば、MHC結合部分配列予測ステップは、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原と結合する部位であるMHC結合部位のアミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納し、格納されたMHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出し、抽出されたMHC結合部位モチーフ配列を利用して取得された目的配列に対してモチーフ検索を実行することにより目的配列におけるMHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得し、取得されたMHC結合部位検索得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測するので、各種の主要組織適合性抗原に対応する既知のMHC結合部位配列を利用してモチーフを検出し、当該モチーフ検索に基づいて、特定の主要組織適合性抗原と結合するMHC結合部位を高精度に予測することにより、MHC結合部分配列を効率よく高精度に予測することができる。   This shows one example of the MHC binding partial sequence prediction step more specifically. According to this method, the MHC binding subsequence prediction step determines the type of a specific major histocompatibility antigen, and the MHC that is the amino acid sequence of the MHC binding site that is the site that binds to the determined major histocompatibility antigen. Stores MHC binding site sequence information, which is information related to the binding site sequence, extracts a known MHC binding site motif sequence from the stored MHC binding site sequence information, and obtains it using the extracted MHC binding site motif sequence A motif search is performed on the target sequence thus obtained to search for an MHC binding site in the target sequence, MHC binding site search score information that is a score at the time of search is obtained, and the acquired MHC binding site search score information is obtained. MHC binding site is determined based on this, and a partial sequence including the MHC binding site is predicted as an MHC binding partial sequence. A motif is detected by using a known MHC binding site sequence corresponding to the major histocompatibility antigen of the MHC, and an MHC binding site binding to a specific major histocompatibility antigen is predicted with high accuracy based on the motif search Thus, the MHC binding partial sequence can be predicted efficiently and with high accuracy.

また、請求項17に記載のワクチン候補部分配列予測方法は、請求項12から14のいずれか一つに記載のワクチン候補部分配列予測方法において、上記MHC結合部分配列予測ステップは、上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記アミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得ステップと、上記目的配列取得ステップにより取得された上記目的配列を上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成ステップと、上記MHC長部分配列作成ステップにより作成された各MHC長部分配列および上記MHC配列取得ステップにより取得された上記主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測ステップと、上記複合体立体構造予測ステップにより予測された上記複合体立体構造情報に基づいて、上記MHC長部分配列と上記主要組織適合性抗原配列との間で相互作用している上記アミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定ステップと、上記相互作用アミノ酸決定ステップにより決定された上記相互作用アミノ酸情報に含まれる上記アミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出ステップと、上記親和力算出ステップにより算出された全ての上記アミノ酸の組の間の上記親和力情報の総和を算出する親和力総和算出ステップと、上記親和力総和算出ステップにより算出された上記親和力情報の上記総和に基づいて、上記MHC長部分配列と上記主要組織適合性抗原との親和性を評価することにより、上記MHC結合部分配列を予測する親和力基準MHC結合部分配列予測ステップとをさらに含むことを特徴とする。   The vaccine candidate partial sequence prediction method according to claim 17 is the vaccine candidate partial sequence prediction method according to any one of claims 12 to 14, wherein the MHC binding partial sequence prediction step includes the specific A major histocompatibility antigen determination step for determining the type of major histocompatibility antigen, and a major histocompatibility antigen sequence that is the amino acid sequence of the major histocompatibility antigen determined by the major histocompatibility antigen determination step The main histocompatibility antigen determined by the main histocompatibility antigen determination step using the MHC sequence acquisition step for acquiring information of the main histocompatibility antigen sequence information and the target sequence acquired by the target sequence acquisition step. The MHC length partial sequence creation step for creating the MHC length partial sequence by dividing into lengths corresponding to the above types A complex three-dimensional structure that predicts complex three-dimensional structure information based on each MHC long partial sequence created by the MHC long partial sequence creating step and the major histocompatibility antigen sequence obtained by the MHC sequence obtaining step The amino acid interacting between the MHC long partial sequence and the major histocompatibility antigen sequence based on the structure three-dimensional structure information predicted by the structure prediction step and the complex three-dimensional structure prediction step Information on the affinity between the interacting amino acid determination step for determining interacting amino acid information, which is information on the set of amino acids, and the set of amino acids included in the interacting amino acid information determined by the interacting amino acid determination step Affinity that statistically calculates affinity information using 3D structure information of known proteins A calculation step, an affinity sum calculation step for calculating the sum of the affinity information among all the amino acid pairs calculated by the affinity calculation step, and the sum of the affinity information calculated by the affinity sum calculation step. An affinity reference MHC binding partial sequence prediction step for predicting the MHC binding partial sequence by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen based on To do.

これはMHC結合部分配列予測ステップの一例を一層具体的に示すものである。この方法によれば、MHC結合部分配列予測ステップは、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原のアミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得し、取得された目的配列を決定された主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成し、作成された各MHC長部分配列および取得された主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測し、予測された複合体立体構造情報に基づいて、MHC長部分配列と主要組織適合性抗原配列との間で相互作用しているアミノ酸の組に関する情報である相互作用アミノ酸情報を決定し、決定された相互作用アミノ酸情報に含まれるアミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出し、算出された全てのアミノ酸の組の間の親和力情報の総和を算出し、算出された親和力情報の総和に基づいて、MHC長部分配列と主要組織適合性抗原との親和性を評価することにより、MHC結合部分配列を予測するので、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造から統計的に算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができる。   This shows one example of the MHC binding partial sequence prediction step more specifically. According to this method, the MHC binding subsequence prediction step determines the type of a specific major histocompatibility antigen and is information on the major histocompatibility antigen sequence that is the amino acid sequence of the determined major histocompatibility antigen. Obtain major histocompatibility antigen sequence information, divide the obtained target sequence into lengths corresponding to the determined major histocompatibility antigen types, create MHC length subsequences, and create each MHC Based on the long partial sequence and the obtained major histocompatibility antigen sequence, complex tertiary structure information is predicted, and based on the predicted complex tertiary structure information, the MHC long partial sequence and the major histocompatibility antigen sequence are Information on interaction amino acids, which is information on amino acid pairs interacting with each other, is determined, and information on affinity between the amino acid sets included in the determined interaction amino acid information is determined. Affinity information is statistically calculated using the three-dimensional structure information of known proteins, the sum of affinity information between all calculated amino acid pairs is calculated, and the sum of the calculated affinity information is calculated. Based on this, the MHC binding partial sequence is predicted by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen. Based on the affinity calculated statistically from the structure, an MHC binding partial sequence that binds to and interacts with a specific major histocompatibility antigen can be predicted with high speed and high accuracy.

また、請求項18に記載のワクチン候補部分配列予測方法は、請求項17に記載のワクチン候補部分配列予測方法において、上記MHC長部分配列作成ステップは、上記目的配列取得ステップにより取得された上記目的配列を、先頭から1アミノ酸残基ずつスライドしながら上記主要組織適合性抗原の上記種類に対応する上記長さに分割して、上記MHC長部分配列を作成するスライド分割ステップをさらに含むことを特徴とする。   In addition, the vaccine candidate partial sequence prediction method according to claim 18 is the vaccine candidate partial sequence prediction method according to claim 17, wherein the MHC long partial sequence creation step includes the purpose acquired by the target sequence acquisition step. The method further comprises a slide splitting step in which the sequence is divided into the length corresponding to the type of the major histocompatibility antigen while sliding the amino acid residue from the beginning to create the MHC long partial sequence. And

これはMHC長部分配列作成ステップの一例を一層具体的に示すものである。この方法によれば、MHC長部分配列作成ステップは、取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成するので、分割される可能性のあるMHC長部分配列を漏れなく作成することができる。   This more specifically shows an example of the MHC length partial sequence creation step. According to this method, the MHC length partial sequence creation step divides the acquired target sequence into lengths corresponding to the types of major histocompatibility antigens while sliding one amino acid residue at a time from the beginning. Since the partial sequence is created, an MHC length partial sequence that may be divided can be created without omission.

また、請求項19に記載のワクチン候補部分配列予測方法は、請求項17または18に記載のワクチン候補部分配列予測方法において、上記主要組織適合性抗原の上記種類に対応する上記長さは、8〜18残基数であることを特徴とする。   The vaccine candidate partial sequence prediction method according to claim 19 is the vaccine candidate partial sequence prediction method according to claim 17 or 18, wherein the length corresponding to the type of the major histocompatibility antigen is 8 The number of residues is ˜18.

これは主要組織適合性抗原の種類に対応する長さの一例を一層具体的に示すものである。この方法によれば、主要組織適合性抗原の種類に対応する長さは、8〜18残基数であるので、例えばMHCクラスIに対しては8〜12残基数とし、MHCクラスIIに対しては12〜18残基数とすることができるため、各MHCの種類に対応する最適な長さのMHC長部分配列を作成することができる。   This is a more specific example of the length corresponding to the type of major histocompatibility antigen. According to this method, since the length corresponding to the type of major histocompatibility antigen is 8 to 18 residues, for example, it is 8 to 12 residues for MHC class I, and MHC class II On the other hand, since the number of residues can be 12-18, an MHC length partial sequence having an optimum length corresponding to each MHC type can be prepared.

また、請求項20に記載のワクチン候補部分配列予測方法は、請求項17から19のいずれか一つに記載のワクチン候補部分配列予測方法において、上記MHC結合部分配列予測ステップは、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する上記アミノ酸配列の各アミノ酸残基と上記主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納ステップをさらに含み、上記親和力算出ステップは、上記親和力情報を、上記MHC結合アミノ酸残基間距離値格納ステップにより格納された上記MHC結合アミノ酸残基間距離値情報、および/または、上記既知の上記タンパク質の上記立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出ステップをさらに含むことを特徴とする。   Furthermore, the vaccine candidate partial sequence prediction method according to claim 20 is the vaccine candidate partial sequence prediction method according to any one of claims 17 to 19, wherein the MHC binding partial sequence prediction step includes the main tissue adaptation. MHC binding, which is information on the distance value between each amino acid residue of the amino acid sequence that binds to the major histocompatibility antigen determined by the sex antigen determination step and each amino acid residue of the major histocompatibility antigen sequence The method further includes a MHC-binding amino acid residue distance value storing step for storing amino acid residue distance value information, wherein the affinity calculation step stores the affinity information by the MHC-binding amino acid residue distance value storing step. Distance value information between the MHC-binding amino acid residues and / or the three-dimensional structure information of the known protein And further comprising a distance value based affinity calculation step of calculating using available statistical potentials.

これはMHC結合部分配列予測ステップおよび親和力算出ステップの一例を一層具体的に示すものである。この方法によれば、MHC結合部分配列予測ステップは、決定された主要組織適合性抗原と結合するアミノ酸配列の各アミノ酸残基と主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納し、親和力算出ステップは、親和力情報を、格納されたMHC結合アミノ酸残基間距離値情報、および/または、既知のタンパク質の立体構造情報を利用した統計ポテンシャルを用いて算出するので、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造からMHC結合アミノ酸残基間距離値などを利用した統計ポテンシャルを用いて算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができる。   This more specifically shows an example of the MHC binding partial sequence prediction step and the affinity calculation step. According to this method, the MHC binding subsequence prediction step includes a distance value between each amino acid residue of the amino acid sequence that binds to the determined major histocompatibility antigen and each amino acid residue of the major histocompatibility antigen sequence. MHC binding amino acid residue distance value information, which is information relating to the information, and the affinity calculation step includes the affinity information, the stored MHC binding amino acid residue distance value information, and / or the three-dimensional structure information of the known protein. Since it is calculated using the statistical potential using, it does not depend on the information of the known binding peptide, and it is calculated using the statistical potential using the distance between MHC-binding amino acid residues from the 3D complex structure with MHC. Based on the determined affinity, the MHC binding partial sequence that binds to and interacts with a specific major histocompatibility antigen is predicted with high speed and high accuracy. It can be.

また、請求項21に記載のワクチン候補部分配列予測方法は、請求項12から14のいずれか一つに記載のワクチン候補部分配列予測方法において、上記MHC結合部分配列予測ステップは、上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の立体構造であるMHC立体構造情報を取得するMHC立体構造取得ステップと、上記MHC立体構造取得ステップにより取得された上記MHC立体構造情報および上記目的配列取得ステップにより取得された上記目的配列の上記部分配列に基づいて、上記主要組織適合性抗原と上記部分配列との複合体立体構造情報を作成する複合体立体構造作成ステップと、上記複合体立体構造作成ステップにより作成された上記複合体立体構造情報において、量子化学計算手法を用いて上記複合体立体構造情報に対応する上記立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出する構造評価指標算出ステップと、上記構造評価指標算出ステップにより算出された上記構造評価指標値情報に基づいて、上記部分配列の中から上記MHC結合部分配列を予測する構造評価指標基準MHC結合部分配列予測ステップとをさらに含むことを特徴とする。   The vaccine candidate partial sequence prediction method according to claim 21 is the vaccine candidate partial sequence prediction method according to any one of claims 12 to 14, wherein the MHC binding partial sequence prediction step includes the specific A main histocompatibility antigen determining step for determining the type of main histocompatibility antigen, and an MHC for acquiring MHC three-dimensional structure information that is a three-dimensional structure of the main histocompatibility antigen determined by the main histocompatibility antigen determination step Based on the three-dimensional structure acquisition step, the MHC three-dimensional structure information acquired by the MHC three-dimensional structure acquisition step and the partial sequence of the target sequence acquired by the target sequence acquisition step, the major histocompatibility antigen and the A composite three-dimensional structure creating step for creating complex three-dimensional structure information with the partial sequence; In the complex three-dimensional structure information created by the creation step, structure evaluation index value information, which is information related to an index value for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information using a quantum chemical calculation method, A structure evaluation index reference MHC binding portion that predicts the MHC binding partial sequence from the partial sequences based on the structure evaluation index calculation step to be calculated and the structure evaluation index value information calculated by the structure evaluation index calculation step A sequence predicting step.

これはMHC結合部分配列予測ステップの一例を一層具体的に示すものである。この方法によれば、MHC結合部分配列予測ステップは、特定の上記主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原の立体構造であるMHC立体構造情報を取得し、取得されたMHC立体構造情報および取得された目的配列の部分配列に基づいて、主要組織適合性抗原と部分配列との複合体立体構造情報を作成し、作成された複合体立体構造情報において、量子化学計算手法を用いて複合体立体構造情報に対応する立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出し、算出された構造評価指標値情報に基づいて、部分配列の中からMHC結合部分配列を予測するので、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造に対して量子化学計算手法を用いて算出した構造評価指標値に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を効率よく高精度に予測することができる。   This shows one example of the MHC binding partial sequence prediction step more specifically. According to this method, the MHC binding partial sequence prediction step determines the type of the specific major histocompatibility antigen, obtains MHC conformation information that is the determined conformation of the major histocompatibility antigen, and obtains it. Based on the obtained MHC three-dimensional structure information and the acquired partial sequence of the target sequence, a complex three-dimensional structure information of the major histocompatibility antigen and the partial sequence is created. The structure evaluation index value information, which is information related to the index value for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information, is calculated using a calculation method, and based on the calculated structure evaluation index value information, Since the MHC binding partial sequence is predicted from the inside, it is not dependent on the information of known binding peptides, and the structure evaluation calculated using the quantum chemistry calculation method for the three-dimensional structure of the complex with MHC Based on the index value, combined with a particular major histocompatibility antigen, it is possible to predict MHC binding subsequences that interact efficiently with high accuracy.

また、請求項22に記載のワクチン候補部分配列予測方法は、請求項12から21のいずれか一つに記載のワクチン候補部分配列予測方法において、上記非自己認識部分配列予測ステップは、特定の生物種に関する上記アミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納する特定生物種配列格納ステップと、上記特定生物種配列格納ステップにより格納された上記特定生物種配列情報に対して、上記目的配列取得ステップにより作成された上記目的配列の上記部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得する非自己認識部分配列検索ステップと、上記非自己認識部分配列検索ステップにより取得された上記非自己認識検索得点情報に基づいて、上記部分配列の中から上記非自己認識部分配列を予測する検索基準非自己認識部分配列予測ステップとをさらに含むことを特徴とする。   Furthermore, the vaccine candidate partial sequence prediction method according to claim 22 is the vaccine candidate partial sequence prediction method according to any one of claims 12 to 21, wherein the non-self-recognizing partial sequence prediction step includes a specific organism. A specific species sequence storage step for storing specific species sequence information, which is information relating to a specific species amino acid sequence, which is the amino acid sequence for the species, and the specific species sequence information stored by the specific species sequence storage step. On the other hand, a non-self-recognition partial sequence search step of acquiring non-self-recognition search score information that is a score at the time of searching by executing a search of the partial sequence of the target sequence created by the target sequence acquisition step; , Based on the non-self-recognition search score information acquired by the non-self-recognition partial sequence search step, the part Wherein the out of the column further comprises a search criteria non-self recognition moiety sequence prediction step of predicting the non-self recognition moiety sequence.

これは非自己認識部分配列予測ステップの一例を一層具体的に示すものである。この方法によれば、非自己認識部分配列予測ステップは、特定の生物種に関するアミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納し、格納された特定生物種配列情報に対して、取得された目的配列の部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得し、取得された非自己認識検索得点情報に基づいて、部分配列の中から非自己認識部分配列を予測するので、非自己認識検索得点情報に基づいて、自己として認識されるかを評価することにより、自己として認識されない(抗原性をもつ)非自己認識部分配列を効率よく高精度に予測することができる。   This more specifically shows an example of the non-self-recognizing partial sequence prediction step. According to this method, the non-self-recognizing partial sequence prediction step stores the specific species sequence information that is information on the specific species amino acid sequence that is an amino acid sequence related to the specific species, and stores the stored specific species sequence information. In contrast, by performing a search of the partial sequence of the acquired target sequence, non-self-recognition search score information that is a score at the time of search is acquired, and based on the acquired non-self-recognition search score information, a partial Because non-self-recognizing partial sequences are predicted from the sequence, non-self-recognizing parts that are not recognized as self (have antigenicity) by evaluating whether they are recognized as self based on non-self-recognizing search score information The sequence can be predicted efficiently and with high accuracy.

また、本発明は、プログラムに関するものであり、請求項23に記載のワクチン候補部分配列予測方法をコンピュータに実行させるプログラムは、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得ステップと、上記目的配列取得ステップにより取得された上記目的配列情報から、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されない上記アミノ酸配列であって、上記目的配列の部分配列である非切断部分配列を予測する非切断部分配列予測ステップと、上記目的配列取得ステップにより取得された上記目的配列情報から、特定の主要組織適合性抗原と結合することができる上記アミノ酸配列であって、上記目的配列の部分配列であるMHC結合部分配列を予測するMHC結合部分配列予測ステップと、上記目的配列取得ステップにより取得された上記目的配列情報から、自己として認識されない上記アミノ酸配列であって、上記目的配列の部分配列である非自己認識部分配列を予測する非自己認識部分配列予測ステップと、上記目的配列取得ステップにより取得された上記目的配列情報から、突然変異の入りにくい上記アミノ酸配列であって、上記目的配列の部分配列である非突然変異部分配列を予測する非突然変異部分配列予測ステップと、上記非切断部分配列予測ステップにより予測された上記非切断部分配列、上記MHC結合部分配列予測ステップにより予測された上記MHC結合部分配列、上記非自己認識部分配列予測ステップにより予測された上記非自己認識部分配列、および/または、上記非突然変異部分配列予測ステップにより予測された上記非突然変異部分配列に基づいて、ワクチンとして有効な上記アミノ酸配列であるワクチン候補部分配列を予測するワクチン候補部分配列予測ステップとを含むことを特徴とする。   In addition, the present invention relates to a program, and the program for causing a computer to execute the vaccine candidate partial sequence prediction method according to claim 23 is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide. A target sequence obtaining step for obtaining certain target sequence information, and the amino acid sequence that is not cleaved by a proteolytic enzyme or proteosome present in lysosome from the target sequence information obtained by the target sequence obtaining step, A non-cleaved partial sequence prediction step for predicting a non-cut partial sequence that is a partial sequence of the sequence, and the target sequence information acquired by the target sequence acquisition step, and the above-described target sequence-binding information can bind to a specific major histocompatibility antigen. Amino acid sequence, part of the target sequence An MHC binding partial sequence prediction step that predicts an MHC binding partial sequence that is a sequence, and the amino acid sequence that is not recognized as self from the target sequence information acquired by the target sequence acquisition step, the partial sequence of the target sequence A non-self-recognition partial sequence prediction step for predicting a non-self-recognition partial sequence, and the target sequence information obtained by the target sequence acquisition step, the amino acid sequence that is difficult to be mutated, A non-mutated partial sequence predicting step for predicting a non-mutated partial sequence which is a partial sequence, the non-cut partial sequence predicted by the non-cut partial sequence predicting step, and the above-mentioned predicted by the MHC binding partial sequence predicting step MHC binding partial sequence, the non-predicted by the non-self-recognizing partial sequence prediction step A vaccine candidate part that predicts a vaccine candidate partial sequence that is the amino acid sequence effective as a vaccine based on the self-recognizing partial sequence and / or the non-mutated partial sequence predicted by the non-mutated partial sequence prediction step A sequence prediction step.

このプログラムによれば、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得し、取得された目的配列情報から、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されないアミノ酸配列であって、目的配列の部分配列である非切断部分配列を予測し、取得された目的配列情報から、特定の主要組織適合性抗原と結合することができるアミノ酸配列であって、目的配列の部分配列であるMHC結合部分配列を予測し、取得された目的配列情報から、自己として認識されないアミノ酸配列であって、目的配列の部分配列である非自己認識部分配列を予測し、取得された目的配列情報から、突然変異の入りにくいアミノ酸配列であって、目的配列の部分配列である非突然変異部分配列を予測し、予測された非切断部分配列、予測されたMHC結合部分配列、予測された非自己認識部分配列、および/または、予測された非突然変異部分配列に基づいて、ワクチンとして有効なアミノ酸配列であるワクチン候補部分配列を予測するので、目的配列情報から、1)リソソーム内に存在するタンパク質分解酵素またはプロテオソームに対する耐性をもち、2)MHCと結合し、3)自己ペプチドとして認識されない、4)突然変異の入りにくい、という4つの条件を満たし、T細胞を活性化させることができるワクチンとして最適なワクチン候補部分配列を効率よく高精度に予測することができる。   According to this program, target sequence information, which is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide, is obtained, and a proteolytic enzyme or proteosome present in the lysosome is obtained from the obtained target sequence information. An amino acid sequence that is not cleaved by the target sequence, is an amino acid sequence that can predict a non-cleaved partial sequence that is a partial sequence of the target sequence and can bind to a specific major histocompatibility antigen from the obtained target sequence information. Predicting an MHC binding partial sequence that is a partial sequence of the target sequence, and predicting a non-self-recognizing partial sequence that is a partial sequence of the target sequence that is an amino acid sequence that is not recognized as self from the acquired target sequence information, Based on the obtained target sequence information, it is an amino acid sequence that is difficult to mutate, and is a part of the target sequence. Predicted non-mutated subsequences that are sequences, predicted non-cleaved subsequences, predicted MHC binding subsequences, predicted nonself-recognizing subsequences, and / or predicted nonmutated subsequences Based on this, a candidate vaccine partial sequence that is an amino acid sequence effective as a vaccine is predicted. Therefore, from the target sequence information, 1) it has resistance to proteolytic enzymes or proteosomes present in lysosomes, 2) binds to MHC, 3 It is possible to efficiently and accurately predict a vaccine candidate partial sequence that is optimal as a vaccine that satisfies the four conditions of being not recognized as a self-peptide, and 4) difficult to introduce mutations, and that can activate T cells. .

また、請求項24に記載のプログラムは、請求項23に記載のプログラムにおいて、上記非切断部分配列予測ステップは、上記タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含む上記アミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納する切断部位含有配列格納ステップと、上記切断部位含有配列格納ステップにより格納された上記切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出する切断部位含有配列アミノ酸出現頻度算出ステップと、上記切断部位含有配列アミノ酸出現頻度算出ステップにより算出された上記切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出する切断部位含有配列得点算出ステップと、上記切断部位含有配列得点算出ステップにより算出された上記切断部位含有配列得点情報に基づいて、上記目的配列取得ステップにより取得された上記目的配列を上記切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出する切断部位含有配列長部分配列得点算出ステップと、上記切断部位含有配列長部分配列得点算出ステップにより算出された上記切断部位含有配列長部分配列得点情報に基づいて上記酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を上記非切断部分配列として予測する得点基準非切断部分配列予測ステップとをさらに含むことを特徴とする。   The program according to claim 24 is the program according to claim 23, wherein the non-cleavable partial sequence prediction step includes several residues before and after the enzyme cleavage site, which is a site cleaved by the proteolytic enzyme. A cleavage site-containing sequence storage step for storing cleavage site-containing sequence information, which is information on the cleavage site-containing sequence that is the amino acid sequence, and each amino acid residue in the cleavage site-containing sequence stored by the cleavage site-containing sequence storage step. Calculated by the cleavage site-containing sequence amino acid appearance frequency calculating step for calculating the cleavage site-containing sequence amino acid appearance frequency information, which is information on the appearance frequency of the amino acid at the position corresponding to the group, and the cleavage site-containing sequence amino acid appearance frequency calculating step. Based on the cleavage site-containing sequence amino acid appearance frequency information, The cleavage site-containing sequence score calculation step for calculating the contained sequence score information, and the objective obtained by the objective sequence acquisition step based on the cleavage site-containing sequence score information calculated by the cleavage site-containing sequence score calculation step A cleavage site-containing sequence length partial sequence score calculation step for calculating a cleavage site-containing sequence length partial sequence score information corresponding to each partial sequence obtained by dividing the sequence into the lengths of the cleavage site-containing sequences, and the cleavage site-containing sequence length portion. Scoring criteria for determining the enzyme cleavage site based on the cleavage site-containing sequence length partial sequence score information calculated in the sequence score calculation step and predicting the partial sequence cleaved at the enzyme cleavage site as the non-cleavable partial sequence An uncut partial sequence predicting step.

これは非切断部分配列予測ステップの一例を一層具体的に示すものである。このプログラムによれば、非切断部分配列予測ステップは、タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含むアミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納し、格納された切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出し、算出された切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出し、算出された切断部位含有配列得点情報に基づいて、取得された目的配列を切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出し、算出された切断部位含有配列長部分配列得点情報に基づいて酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列として予測するので、切断部位含有配列の頻度解析に基づいて、リソソーム内に存在するタンパク質分解酵素またはプロテオソームによる酵素切断部位を高精度に予測することにより非切断部分配列を効率よく高精度に予測することができる。   This shows one example of the non-cut partial sequence prediction step more specifically. According to this program, the non-cleavable partial sequence prediction step is a cleavage site-containing sequence that is information on a cleavage site-containing sequence that is an amino acid sequence including several residues before and after the enzyme cleavage site, which is a site cleaved by a proteolytic enzyme. Information is stored, the cleavage site-containing sequence amino acid appearance frequency information, which is information about the appearance frequency of amino acids at positions corresponding to each amino acid residue in the stored cleavage site-containing sequence, is calculated, and the calculated cleavage site-containing sequence Each partial sequence obtained by calculating cleavage site-containing sequence score information based on amino acid appearance frequency information and dividing the obtained target sequence into the length of the cleavage site-containing sequence based on the calculated cleavage site-containing sequence score information The cleavage site-containing sequence length partial sequence score information corresponding to is calculated, based on the calculated cleavage site-containing sequence length partial sequence score information Since a partial cleavage site is determined and a partial sequence cleaved at the enzyme cleavage site is predicted as a non-cleaved partial sequence, an enzyme by a proteolytic enzyme or proteosome existing in the lysosome based on frequency analysis of the cleavage site-containing sequence By predicting a cleavage site with high accuracy, an uncut partial sequence can be efficiently and accurately predicted.

また、請求項25に記載のプログラムは、請求項23に記載のプログラムにおいて、上記非切断部分配列予測ステップは、上記タンパク質分解酵素により切断される部位である酵素切断部位の上記アミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納する切断部位配列格納ステップと、上記切断部位配列格納ステップにより格納された上記切断部位配列情報から、既知の切断部位モチーフ配列を抽出する切断部位モチーフ配列抽出ステップと、上記切断部位モチーフ配列抽出ステップにより抽出された上記切断部位モチーフ配列を利用して上記目的配列取得ステップにより取得された上記目的配列に対してモチーフ検索を実行することにより上記目的配列における上記酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得する切断部位モチーフ検索ステップと、上記切断部位モチーフ検索ステップにより取得された上記切断部位検索得点情報に基づいて上記目的配列の上記酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を上記非切断部分配列として予測するモチーフ検索基準非切断部分配列予測ステップとをさらに含むことを特徴とする。   The program according to claim 25 is the program according to claim 23, wherein the non-cleavable partial sequence prediction step is a cleavage that is the amino acid sequence of an enzyme cleavage site that is a site cleaved by the proteolytic enzyme. A cutting site sequence storing step for storing cutting site sequence information, which is information related to the site sequence, and a cutting site motif sequence for extracting a known cutting site motif sequence from the cutting site sequence information stored in the cutting site sequence storing step In the target sequence by performing a motif search on the target sequence acquired by the target sequence acquisition step using the extraction step and the cleavage site motif sequence extracted by the cleavage site motif sequence extraction step Search for the above enzyme cleavage site A cleavage site motif search step for acquiring site search score information; and the enzyme cleavage site of the target sequence is determined based on the cleavage site search score information acquired by the cleavage site motif search step, and the enzyme cleavage site And a motif search reference non-cutting partial sequence prediction step of predicting the cut partial sequence as the non-cutting partial sequence.

これは非切断部分配列予測ステップの一例を一層具体的に示すものである。このプログラムによれば、非切断部分配列予測ステップは、タンパク質分解酵素により切断される部位である酵素切断部位のアミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納し、格納された切断部位配列情報から、既知の切断部位モチーフ配列を抽出し、抽出された切断部位モチーフ配列を利用して目的配列に対してモチーフ検索を実行することにより目的配列における酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得し、取得された切断部位検索得点情報に基づいて目的配列の酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列として予測するので、目的配列に対するモチーフ検索に基づいて、リソソーム内に存在するタンパク質分解酵素またはプロテオソームによる酵素切断部位を高精度に予測することにより非切断部分配列を効率よく高精度に予測することができる。   This shows one example of the non-cut partial sequence prediction step more specifically. According to this program, the non-cleavable partial sequence prediction step stores and stores the cleavage site sequence information, which is information about the cleavage site sequence, which is the amino acid sequence of the enzyme cleavage site, which is the site cleaved by the proteolytic enzyme. Extracts a known cleavage site motif sequence from the cleavage site sequence information, searches the target sequence for the enzyme cleavage site using the extracted cleavage site motif sequence, and searches for the enzyme cleavage site in the target sequence. Obtain the cleavage site search score information that is the score at the time, determine the enzyme cleavage site of the target sequence based on the obtained cleavage site search score information, and the partial sequence cleaved at the enzyme cleavage site as a non-cleaved partial sequence Based on the motif search for the target sequence, the proteolytic enzyme or protein present in the lysosome Uncut partial sequences can be predicted efficiently high precision by predicting the enzyme cleavage site by endosomal with high accuracy.

また、請求項26に記載のプログラムは、請求項23から25のいずれか一つに記載のプログラムにおいて、上記MHC結合部分配列予測ステップは、上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含む上記アミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納するMHC結合部位含有配列格納ステップと、上記MHC結合部位含有配列格納ステップにより格納された上記MHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出するMHC結合部位含有配列アミノ酸出現頻度算出ステップと、上記MHC結合部位含有配列アミノ酸出現頻度算出ステップにより算出された上記MHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出するMHC結合部位含有配列得点算出ステップと、上記MHC結合部位含有配列得点算出ステップにより算出された上記MHC結合部位含有配列得点情報に基づいて、上記目的配列取得ステップにより取得された上記目的配列を上記MHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出するMHC結合部位含有配列長部分配列得点算出ステップと、上記MHC結合部位含有配列長部分配列得点算出ステップにより算出された上記MHC結合部位含有配列長部分配列得点情報に基づいて上記MHC結合部位を決定し、当該MHC結合部位を含む上記部分配列を上記MHC結合部分配列として予測する得点基準MHC結合部分配列予測ステップとをさらに含むことを特徴とする。   The program according to claim 26 is the program according to any one of claims 23 to 25, wherein the MHC binding partial sequence prediction step determines the type of the specific major histocompatibility antigen. Major histocompatibility antigen determination step, and MHC binding, which is the amino acid sequence including several residues before and after the MHC binding site, which is the site that binds to the major histocompatibility antigen determined by the major histocompatibility antigen determination step An MHC binding site-containing sequence storage step for storing MHC binding site-containing sequence information, which is information relating to the site-containing sequence, and each amino acid residue in the MHC binding site-containing sequence stored by the MHC binding site-containing sequence storage step. MHC binding site-containing sequence amino acid output that is information on the frequency of occurrence of amino acids at the corresponding position MHC binding site-containing sequence amino acid appearance frequency calculating step for calculating frequency information, and MHC binding site-containing sequence amino acid appearance frequency calculating step calculated based on the MHC binding site-containing sequence amino acid appearance frequency calculating step Obtained by the target sequence acquisition step based on the MHC binding site-containing sequence score calculation step calculated from the MHC binding site-containing sequence score calculation step and the MHC binding site-containing sequence score calculation step. An MHC binding site-containing sequence length partial sequence score calculation step for calculating MHC binding site-containing sequence length partial sequence score information corresponding to each partial sequence obtained by dividing the target sequence into the length of the MHC binding site-containing sequence; Binding site-containing sequence length Calculated by partial sequence score calculation step The MHC binding site-containing sequence length partial sequence scoring information is used to determine the MHC binding site and to predict the partial sequence including the MHC binding site as the MHC binding partial sequence. And further including.

これはMHC結合部分配列予測ステップの一例を一層具体的に示すものである。このプログラムによれば、MHC結合部分配列予測ステップは、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含むアミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納し、格納されたMHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出し、算出されたMHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出し、算出されたMHC結合部位含有配列得点情報に基づいて、取得された目的配列をMHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出し、算出されたMHC結合部位含有配列長部分配列得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測するので、各種の主要組織適合性抗原に対応する既知のMHC結合部位含有配列のアミノ酸頻度解析に基づいて、特定の主要組織適合性抗原と結合するMHC結合部位を高精度に予測することにより、MHC結合部分配列を効率よく高精度に予測することができる。   This shows one example of the MHC binding partial sequence prediction step more specifically. According to this program, the MHC binding subsequence prediction step determines the type of a specific major histocompatibility antigen, and determines several residues before and after the MHC binding site, which is the site that binds to the determined major histocompatibility antigen. Information on the frequency of appearance of amino acids at positions corresponding to each amino acid residue in the stored MHC binding site-containing sequence, storing MHC binding site-containing sequence information that is information on the MHC binding site-containing sequence that is an amino acid sequence including MHC binding site-containing sequence amino acid appearance frequency information is calculated, MHC binding site-containing sequence amino acid appearance frequency information is calculated based on the calculated MHC binding site-containing sequence amino acid appearance frequency information, and the calculated MHC binding site-containing sequence score is calculated Corresponding to each partial sequence obtained by dividing the obtained target sequence into the length of the MHC binding site-containing sequence based on the information HC binding site-containing sequence length partial sequence score information is calculated, an MHC binding site-containing sequence length partial sequence score information is determined, an MHC binding site is determined, and the partial sequence including the MHC binding site is determined as an MHC binding partial sequence Therefore, based on amino acid frequency analysis of known MHC binding site-containing sequences corresponding to various major histocompatibility antigens, MHC binding sites that bind to specific major histocompatibility antigens can be predicted with high accuracy. Thus, the MHC binding partial sequence can be predicted efficiently and with high accuracy.

また、請求項27に記載のプログラムは、請求項23から25のいずれか一つに記載のプログラムにおいて、上記MHC結合部分配列予測ステップは、上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する部位であるMHC結合部位の上記アミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納するMHC結合部位配列格納ステップと、上記MHC結合部位配列格納ステップにより格納された上記MHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出するMHC結合部位モチーフ配列抽出ステップと、上記MHC結合部位モチーフ配列抽出ステップにより抽出された上記MHC結合部位モチーフ配列を利用して上記目的配列取得ステップにより取得された上記目的配列に対してモチーフ検索を実行することにより上記目的配列における上記MHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得するMHC結合部位モチーフ検索ステップと、上記MHC結合部位モチーフ検索ステップにより取得された上記MHC結合部位検索得点情報に基づいて上記MHC結合部位を決定し、当該MHC結合部位を含む上記部分配列を上記MHC結合部分配列として予測するモチーフ検索基準MHC結合部分配列予測ステップとをさらに含むことを特徴とする。   The program according to claim 27 is the program according to any one of claims 23 to 25, wherein the MHC binding partial sequence prediction step determines the type of the specific major histocompatibility antigen. Information relating to the major histocompatibility antigen determination step and the MHC binding site sequence that is the amino acid sequence of the MHC binding site that is the site that binds to the major histocompatibility antigen determined in the major histocompatibility antigen determination step An MHC binding site sequence storing step for storing MHC binding site sequence information, and an MHC binding site motif sequence for extracting a known MHC binding site motif sequence from the MHC binding site sequence information stored in the MHC binding site sequence storing step Extraction by the extraction step and the MHC binding site motif sequence extraction step The MHC binding site in the target sequence is searched by performing a motif search on the target sequence obtained in the target sequence acquisition step using the MHC binding site motif sequence thus obtained, and the score at the time of the search An MHC binding site motif search step for acquiring the MHC binding site search score information, and the MHC binding site search score information acquired by the MHC binding site motif search step to determine the MHC binding site, And a motif search reference MHC binding partial sequence prediction step for predicting the partial sequence including the binding site as the MHC binding partial sequence.

これはMHC結合部分配列予測ステップの一例を一層具体的に示すものである。このプログラムによれば、MHC結合部分配列予測ステップは、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原と結合する部位であるMHC結合部位のアミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納し、格納されたMHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出し、抽出されたMHC結合部位モチーフ配列を利用して取得された目的配列に対してモチーフ検索を実行することにより目的配列におけるMHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得し、取得されたMHC結合部位検索得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測するので、各種の主要組織適合性抗原に対応する既知のMHC結合部位配列を利用してモチーフを検出し、当該モチーフ検索に基づいて、特定の主要組織適合性抗原と結合するMHC結合部位を高精度に予測することにより、MHC結合部分配列を効率よく高精度に予測することができる。   This shows one example of the MHC binding partial sequence prediction step more specifically. According to this program, the MHC binding subsequence prediction step determines the type of a specific major histocompatibility antigen, and the MHC that is the amino acid sequence of the MHC binding site that is the site that binds to the determined major histocompatibility antigen. Stores MHC binding site sequence information, which is information related to the binding site sequence, extracts a known MHC binding site motif sequence from the stored MHC binding site sequence information, and obtains it using the extracted MHC binding site motif sequence A motif search is performed on the target sequence thus obtained to search for an MHC binding site in the target sequence, MHC binding site search score information that is a score at the time of search is obtained, and the acquired MHC binding site search score information is obtained. MHC binding site is determined based on this, and a partial sequence including the MHC binding site is predicted as an MHC binding partial sequence. Detecting motifs using known MHC binding site sequences corresponding to various major histocompatibility antigens, and, based on the motif search, highly accurate MHC binding sites that bind to specific major histocompatibility antigens By predicting, an MHC binding partial sequence can be predicted efficiently and with high accuracy.

また、請求項28に記載のプログラムは、請求項23から25のいずれか一つに記載のプログラムにおいて、上記MHC結合部分配列予測ステップは、上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記アミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得ステップと、上記目的配列取得ステップにより取得された上記目的配列を上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成ステップと、上記MHC長部分配列作成ステップにより作成された各MHC長部分配列および上記MHC配列取得ステップにより取得された上記主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測ステップと、上記複合体立体構造予測ステップにより予測された上記複合体立体構造情報に基づいて、上記MHC長部分配列と上記主要組織適合性抗原配列との間で相互作用している上記アミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定ステップと、上記相互作用アミノ酸決定ステップにより決定された上記相互作用アミノ酸情報に含まれる上記アミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出ステップと、上記親和力算出ステップにより算出された全ての上記アミノ酸の組の間の上記親和力情報の総和を算出する親和力総和算出ステップと、上記親和力総和算出ステップにより算出された上記親和力情報の上記総和に基づいて、上記MHC長部分配列と上記主要組織適合性抗原との親和性を評価することにより、上記MHC結合部分配列を予測する親和力基準MHC結合部分配列予測ステップとをさらに含むことを特徴とする。   The program according to claim 28 is the program according to any one of claims 23 to 25, wherein the MHC binding partial sequence prediction step determines the type of the specific major histocompatibility antigen. Major histocompatibility antigen sequence information, which is information on a major histocompatibility antigen sequence that is the amino acid sequence of the major histocompatibility antigen determined by the major histocompatibility antigen determination step And dividing the target sequence acquired by the target sequence acquisition step into lengths corresponding to the types of the major histocompatibility antigens determined by the major histocompatibility antigen determination step. Then, an MHC length partial sequence creating step for creating an MHC length partial sequence, and the above MHC length partial sequence creating step A complex three-dimensional structure prediction step for predicting complex three-dimensional structure information based on each MHC long partial sequence prepared by the above and the major histocompatibility antigen sequence acquired by the MHC sequence acquisition step; An interacting amino acid that is information on the set of amino acids interacting between the MHC long partial sequence and the major histocompatibility antigen sequence based on the complex three-dimensional structure information predicted by the structure prediction step Affinity information, which is information on the affinity between the amino acid set included in the interaction amino acid determination step determined by the interaction amino acid determination step and the interaction amino acid determination step determined by the interaction amino acid determination step, Affinity calculation step statistically calculated using structural information, and the affinity calculation step Based on the affinity sum calculation step for calculating the sum of the affinity information among all the amino acid pairs calculated by the step, and the MHC length based on the sum of the affinity information calculated by the affinity sum calculation step. The method further comprises an affinity reference MHC binding partial sequence prediction step for predicting the MHC binding partial sequence by evaluating the affinity between the partial sequence and the major histocompatibility antigen.

これはMHC結合部分配列予測ステップの一例を一層具体的に示すものである。このプログラムによれば、MHC結合部分配列予測ステップは、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原のアミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得し、取得された目的配列を決定された主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成し、作成された各MHC長部分配列および取得された主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測し、予測された複合体立体構造情報に基づいて、MHC長部分配列と主要組織適合性抗原配列との間で相互作用しているアミノ酸の組に関する情報である相互作用アミノ酸情報を決定し、決定された相互作用アミノ酸情報に含まれるアミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出し、算出された全てのアミノ酸の組の間の親和力情報の総和を算出し、算出された親和力情報の総和に基づいて、MHC長部分配列と主要組織適合性抗原との親和性を評価することにより、MHC結合部分配列を予測するので、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造から統計的に算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができる。   This shows one example of the MHC binding partial sequence prediction step more specifically. According to this program, the MHC binding subsequence prediction step determines the type of a specific major histocompatibility antigen and is information on the major histocompatibility antigen sequence that is the amino acid sequence of the determined major histocompatibility antigen. The major histocompatibility antigen sequence information is obtained, the obtained target sequence is divided into lengths corresponding to the determined major histocompatibility antigen types, MHC length subsequences are created, and each created MHC Based on the long partial sequence and the obtained major histocompatibility antigen sequence, complex tertiary structure information is predicted, and based on the predicted complex tertiary structure information, the MHC long partial sequence and the major histocompatibility antigen sequence are The interaction amino acid information, which is information on the set of amino acids interacting with each other, is determined, and the affinity between the amino acid sets included in the determined interaction amino acid information is determined. Affinity information, which is information to be calculated, is statistically calculated using the three-dimensional structure information of known proteins, the sum of the affinity information between all the calculated amino acid pairs is calculated, and the calculated affinity information Since the MHC binding partial sequence is predicted by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen based on the sum, it is not dependent on the information of the known binding peptide, and the complex with MHC Based on the affinity calculated statistically from the three-dimensional structure of the body, an MHC binding partial sequence that binds to and interacts with a specific major histocompatibility antigen can be predicted with high speed and high accuracy.

また、請求項29に記載のプログラムは、請求項28に記載のプログラムにおいて、上記MHC長部分配列作成ステップは、上記目的配列取得ステップにより取得された上記目的配列を、先頭から1アミノ酸残基ずつスライドしながら上記主要組織適合性抗原の上記種類に対応する上記長さに分割して、上記MHC長部分配列を作成するスライド分割ステップをさらに含むことを特徴とする。   Further, the program according to claim 29 is the program according to claim 28, wherein the MHC length partial sequence creation step is configured such that the target sequence acquired by the target sequence acquisition step is changed by one amino acid residue from the beginning. The method further comprises a slide dividing step of generating the MHC long partial sequence by sliding into the length corresponding to the type of the major histocompatibility antigen while sliding.

これはMHC長部分配列作成ステップの一例を一層具体的に示すものである。このプログラムによれば、MHC長部分配列作成ステップは、取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成するので、分割される可能性のあるMHC長部分配列を漏れなく作成することができる。   This more specifically shows an example of the MHC length partial sequence creation step. According to this program, the MHC length partial sequence creation step divides the acquired target sequence into lengths corresponding to the types of major histocompatibility antigens while sliding one amino acid residue from the beginning, Since the partial sequence is created, an MHC length partial sequence that may be divided can be created without omission.

また、請求項30に記載のプログラムは、請求項28または29に記載のプログラムにおいて、上記主要組織適合性抗原の上記種類に対応する上記長さは、8〜18残基数であることを特徴とする。   The program according to claim 30 is the program according to claim 28 or 29, wherein the length corresponding to the type of the major histocompatibility antigen is 8 to 18 residues. And

これは主要組織適合性抗原の種類に対応する長さの一例を一層具体的に示すものである。このプログラムによれば、主要組織適合性抗原の種類に対応する長さは、8〜18残基数であるので、例えばMHCクラスIに対しては8〜12残基数とし、MHCクラスIIに対しては12〜18残基数とすることができるため、各MHCの種類に対応する最適な長さのMHC長部分配列を作成することができる。   This is a more specific example of the length corresponding to the type of major histocompatibility antigen. According to this program, the length corresponding to the major histocompatibility antigen type is 8 to 18 residues, so for example, it is 8 to 12 residues for MHC class I and MHC class II. On the other hand, since the number of residues can be 12 to 18, it is possible to create an MHC length partial sequence having an optimum length corresponding to each MHC type.

また、請求項31に記載のプログラムは、請求項28から30のいずれか一つに記載のプログラムにおいて、上記MHC結合部分配列予測ステップは、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する上記アミノ酸配列の各アミノ酸残基と上記主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納ステップをさらに含み、上記親和力算出ステップは、上記親和力情報を、上記MHC結合アミノ酸残基間距離値格納ステップにより格納された上記MHC結合アミノ酸残基間距離値情報、および/または、上記既知の上記タンパク質の上記立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出ステップをさらに含むことを特徴とする。   Further, the program according to claim 31 is the program according to any one of claims 28 to 30, wherein the MHC binding partial sequence prediction step is performed by the main histocompatibility antigen determination step. Stores distance value information between MHC-binding amino acid residues, which is information on the distance value between each amino acid residue of the amino acid sequence that binds to the histocompatibility antigen and each amino acid residue of the main histocompatibility antigen sequence. The method further includes a step of storing a distance value between MHC-binding amino acid residues, wherein the affinity calculating step stores the affinity information as the distance value information between MHC-binding amino acid residues stored in the MHC-binding amino acid residue distance value storing step. And / or calculation using the statistical potential using the three-dimensional structure information of the known protein. Characterized in that it further comprises a distance value based affinity calculation step of.

これはMHC結合部分配列予測ステップおよび親和力算出ステップの一例を一層具体的に示すものである。このプログラムによれば、MHC結合部分配列予測ステップは、決定された主要組織適合性抗原と結合するアミノ酸配列の各アミノ酸残基と主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納し、親和力算出ステップは、親和力情報を、格納されたMHC結合アミノ酸残基間距離値情報、および/または、既知のタンパク質の立体構造情報を利用した統計ポテンシャルを用いて算出するので、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造からMHC結合アミノ酸残基間距離値などを利用した統計ポテンシャルを用いて算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができる。   This more specifically shows an example of the MHC binding partial sequence prediction step and the affinity calculation step. According to this program, the MHC binding subsequence prediction step includes a distance value between each amino acid residue of the amino acid sequence that binds to the determined major histocompatibility antigen and each amino acid residue of the major histocompatibility antigen sequence. MHC binding amino acid residue distance value information, which is information relating to the information, and the affinity calculation step includes the affinity information, the stored MHC binding amino acid residue distance value information, and / or the three-dimensional structure information of the known protein. Since it is calculated using the statistical potential using, it does not depend on the information of the known binding peptide, and it is calculated using the statistical potential using the distance between MHC-binding amino acid residues from the 3D complex structure with MHC. Based on the determined affinity, fast and accurate prediction of MHC binding subsequences that bind to and interact with specific major histocompatibility antigens It is possible.

また、請求項32に記載のプログラムは、請求項23から25のいずれか一つに記載のプログラムにおいて、上記MHC結合部分配列予測ステップは、上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の立体構造であるMHC立体構造情報を取得するMHC立体構造取得ステップと、上記MHC立体構造取得ステップにより取得された上記MHC立体構造情報および上記目的配列取得ステップにより取得された上記目的配列の上記部分配列に基づいて、上記主要組織適合性抗原と上記部分配列との複合体立体構造情報を作成する複合体立体構造作成ステップと、上記複合体立体構造作成ステップにより作成された上記複合体立体構造情報において、量子化学計算手法を用いて上記複合体立体構造情報に対応する上記立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出する構造評価指標算出ステップと、上記構造評価指標算出ステップにより算出された上記構造評価指標値情報に基づいて、上記部分配列の中から上記MHC結合部分配列を予測する構造評価指標基準MHC結合部分配列予測ステップとをさらに含むことを特徴とする。   The program according to claim 32 is the program according to any one of claims 23 to 25, wherein the MHC binding partial sequence prediction step determines the type of the specific major histocompatibility antigen. A main histocompatibility antigen determination step, an MHC three-dimensional structure acquisition step for acquiring MHC three-dimensional structure information which is a three-dimensional structure of the main histocompatibility antigen determined by the main histocompatibility antigen determination step, and the MHC three-dimensional structure Based on the MHC three-dimensional structure information acquired in the acquisition step and the partial sequence of the target sequence acquired in the target sequence acquisition step, the complex three-dimensional structure information of the major histocompatibility antigen and the partial sequence is obtained. The composite 3D structure creation step to be created and the composite 3D structure created step In structure three-dimensional structure information, a structure evaluation index calculating step for calculating structure evaluation index value information, which is information related to an index value for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information using a quantum chemistry calculation method; And a structure evaluation index reference MHC binding partial sequence prediction step for predicting the MHC binding partial sequence from the partial sequences based on the structure evaluation index value information calculated by the structure evaluation index calculation step. It is characterized by.

これはMHC結合部分配列予測ステップの一例を一層具体的に示すものである。このプログラムによれば、MHC結合部分配列予測ステップは、特定の上記主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原の立体構造であるMHC立体構造情報を取得し、取得されたMHC立体構造情報および取得された目的配列の部分配列に基づいて、主要組織適合性抗原と部分配列との複合体立体構造情報を作成し、作成された複合体立体構造情報において、量子化学計算手法を用いて複合体立体構造情報に対応する立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出し、算出された構造評価指標値情報に基づいて、部分配列の中からMHC結合部分配列を予測するので、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造に対して量子化学計算手法を用いて算出した構造評価指標値に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を効率よく高精度に予測することができる。   This shows one example of the MHC binding partial sequence prediction step more specifically. According to this program, the MHC binding partial sequence prediction step determines the type of the specific major histocompatibility antigen, obtains MHC conformation information that is the determined conformation of the major histocompatibility antigen, and obtains it. Based on the obtained MHC three-dimensional structure information and the acquired partial sequence of the target sequence, a complex three-dimensional structure information of the major histocompatibility antigen and the partial sequence is created. The structure evaluation index value information, which is information related to the index value for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information, is calculated using a calculation method, and the partial array is calculated based on the calculated structure evaluation index value information. Since the MHC binding partial sequence is predicted from the inside, it was calculated using the quantum chemistry calculation method for the three-dimensional structure of the complex with MHC without depending on the information of known binding peptides Based on the concrete evaluation index value, combined with a particular major histocompatibility antigen, it is possible to predict MHC binding subsequences that interact efficiently with high accuracy.

また、請求項33に記載のプログラムは、請求項23から32のいずれか一つに記載のプログラムにおいて、上記非自己認識部分配列予測ステップは、特定の生物種に関する上記アミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納する特定生物種配列格納ステップと、上記特定生物種配列格納ステップにより格納された上記特定生物種配列情報に対して、上記目的配列取得ステップにより作成された上記目的配列の上記部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得する非自己認識部分配列検索ステップと、上記非自己認識部分配列検索ステップにより取得された上記非自己認識検索得点情報に基づいて、上記部分配列の中から上記非自己認識部分配列を予測する検索基準非自己認識部分配列予測ステップとをさらに含むことを特徴とする。   Further, the program according to claim 33 is the program according to any one of claims 23 to 32, wherein the non-self-recognizing partial sequence prediction step is a specific biological species that is the amino acid sequence related to a specific biological species. Created by the target sequence acquisition step for the specific species sequence storage step for storing the specific species sequence information, which is information relating to the amino acid sequence, and the specific species sequence information stored by the specific species sequence storage step. A non-self-recognition partial sequence search step for obtaining non-self-recognition search score information, which is a score at the time of search, by executing a search of the partial sequence of the target sequence, and the non-self-recognition partial sequence search step Based on the acquired non-self-recognition search score information, the non-self-recognized partial sequence is selected from the partial sequences. Characterized in that it further comprises a search criteria non-self recognition moiety sequence prediction step of measuring.

これは非自己認識部分配列予測ステップの一例を一層具体的に示すものである。このプログラムによれば、非自己認識部分配列予測ステップは、特定の生物種に関するアミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納し、格納された特定生物種配列情報に対して、取得された目的配列の部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得し、取得された非自己認識検索得点情報に基づいて、部分配列の中から非自己認識部分配列を予測するので、非自己認識検索得点情報に基づいて、自己として認識されるかを評価することにより、自己として認識されない(抗原性をもつ)非自己認識部分配列を効率よく高精度に予測することができる。   This more specifically shows an example of the non-self-recognizing partial sequence prediction step. According to this program, the non-self-recognizing partial sequence prediction step stores the specific species sequence information that is information on the specific species amino acid sequence that is the amino acid sequence related to the specific species, and the stored specific species sequence information. In contrast, by performing a search of the partial sequence of the acquired target sequence, non-self-recognition search score information that is a score at the time of search is acquired, and based on the acquired non-self-recognition search score information, a partial Because non-self-recognizing partial sequences are predicted from the sequence, non-self-recognizing parts that are not recognized as self (have antigenicity) by evaluating whether they are recognized as self based on non-self-recognizing search score information The sequence can be predicted efficiently and with high accuracy.

また、本発明は、記録媒体に関するものであり、請求項34に記載のコンピュータ読み取り可能な記録媒体は、上記請求項23から33のいずれか一つに記載のプログラムを記録したことを特徴とする。   Further, the present invention relates to a recording medium, and the computer-readable recording medium according to claim 34 records the program according to any one of claims 23 to 33. .

この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項23から33のいずれか一つに記載されたプログラムを、コンピュータを利用して実現することができ、これら各プログラムと同様の効果を得ることができる。   According to this recording medium, the program described in any one of claims 23 to 33 is realized using a computer by causing the computer to read and execute the program recorded on the recording medium. The same effect as each of these programs can be obtained.

また、本発明は、MHC結合部分配列予測装置に関するものであり、請求項35に記載のMHC結合部分配列予測装置は、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得手段と、特定の主要組織適合性抗原の種類を決定する主要組織適合性抗原決定手段と、上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原の上記アミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得手段と、上記目的配列取得手段により取得された上記目的配列を上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原の上記種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成手段と、上記MHC長部分配列作成手段により作成された各MHC長部分配列および上記MHC配列取得手段により取得された上記主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測手段と、上記複合体立体構造予測手段により予測された上記複合体立体構造情報に基づいて、上記MHC長部分配列と上記主要組織適合性抗原配列との間で相互作用している上記アミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定手段と、上記相互作用アミノ酸決定手段により決定された上記相互作用アミノ酸情報に含まれる上記アミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出手段と、上記親和力算出手段により算出された全ての上記アミノ酸の組の間の上記親和力情報の総和を算出する親和力総和算出手段と、上記親和力総和算出手段により算出された上記親和力情報の上記総和に基づいて、上記MHC長部分配列と上記主要組織適合性抗原との親和性を評価することにより、上記特定の上記主要組織適合性抗原と結合することができる上記アミノ酸配列であるMHC結合部分配列を予測する親和力基準MHC結合部分配列予測手段とを備えたことを特徴とする。   In addition, the present invention relates to an MHC binding partial sequence prediction apparatus, and the MHC binding partial sequence prediction apparatus according to claim 35 is information relating to a target sequence which is an amino acid sequence of a target protein or physiologically active polypeptide. Target sequence acquisition means for acquiring target sequence information, major histocompatibility antigen determination means for determining the type of a specific major histocompatibility antigen, and the major histocompatibility determined by the major histocompatibility antigen determination means MHC sequence acquisition means for acquiring main histocompatibility antigen sequence information, which is information on the main histocompatibility antigen sequence that is the amino acid sequence of the antigen, and the target sequence acquired by the target sequence acquisition means The MHC length portion is divided into lengths corresponding to the types of the major histocompatibility antigens determined by the sex antigen determination means. MHC length partial sequence creating means for creating a sequence, each MHC length partial sequence created by the MHC length partial sequence creating means, and the major histocompatibility antigen sequence obtained by the MHC sequence obtaining means Complex three-dimensional structure prediction means for predicting body three-dimensional structure information, and based on the complex three-dimensional structure information predicted by the complex three-dimensional structure prediction means, the MHC long partial sequence and the major histocompatibility antigen sequence Interacting amino acid determining means for determining interacting amino acid information, which is information relating to the set of amino acids interacting with each other, and the amino acids included in the interacting amino acid information determined by the interacting amino acid determining means Affinity information, which is information on the affinity between pairs, is statistically calculated using known protein conformation information. An affinity calculation means for calculating, an affinity sum calculation means for calculating the sum of the affinity information among all the amino acid pairs calculated by the affinity calculation means, and the affinity information calculated by the affinity sum calculation means MHC, which is the amino acid sequence capable of binding to the specific major histocompatibility antigen by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen based on the sum of An affinity reference MHC binding partial sequence predicting means for predicting the binding partial sequence is provided.

この装置によれば、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得し、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原のアミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得し、取得された目的配列を決定された主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成し、作成された各MHC長部分配列および取得された主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測し、予測された複合体立体構造情報に基づいて、MHC長部分配列と主要組織適合性抗原配列との間で相互作用しているアミノ酸の組に関する情報である相互作用アミノ酸情報を決定し、決定された相互作用アミノ酸情報に含まれるアミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出し、算出された全てのアミノ酸の組の間の親和力情報の総和を算出し、算出された親和力情報の総和に基づいて、MHC長部分配列と主要組織適合性抗原との親和性を評価することにより、特定の主要組織適合性抗原と結合することができるアミノ酸配列であるMHC結合部分配列を予測するので、既知の結合ペプチドの情報には依存せずに、MHCとの複合体立体構造から統計的に算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができる。   According to this apparatus, target sequence information, which is information relating to a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide, is obtained, a type of a specific main histocompatibility antigen is determined, and the determined main tissue Acquire major histocompatibility antigen sequence information, which is information on major histocompatibility antigen sequences that are amino acid sequences of compatible antigens, and obtain the target sequence length corresponding to the determined major histocompatibility antigen type To generate MHC long partial sequences, and based on each of the generated MHC long partial sequences and the obtained major histocompatibility antigen sequence, complex three-dimensional structure information is predicted, and predicted complex three-dimensional Based on the structural information, the interacting amino acid information, which is information on the set of amino acids interacting between the MHC long subsequence and the major histocompatibility antigen sequence, is determined. Affinity information, which is information related to the affinity between amino acid sets included in the determined interaction amino acid information, is statistically calculated using the three-dimensional structure information of known proteins, and all calculated amino acid sets Between the specific major histocompatibility antigen and the major histocompatibility antigen by evaluating the affinity between the MHC long subsequence and the major histocompatibility antigen based on the calculated sum of the affinity information. Since the MHC binding partial sequence, which is an amino acid sequence that can be bound, is predicted, based on the affinity calculated statistically from the three-dimensional structure of the complex with MHC without depending on the information of known binding peptides, MHC binding subsequences that bind to and interact with specific major histocompatibility antigens can be predicted with high speed and high accuracy.

また、請求項36に記載のMHC結合部分配列予測装置は、請求項35に記載のMHC結合部分配列予測装置において、上記MHC長部分配列作成手段は、上記目的配列取得手段により取得された上記目的配列を、先頭から1アミノ酸残基ずつスライドしながら上記主要組織適合性抗原の上記種類に対応する上記長さに分割して、上記MHC長部分配列を作成するスライド分割手段をさらに備えたことを特徴とする。   Further, the MHC binding partial sequence prediction apparatus according to claim 36 is the MHC binding partial sequence prediction apparatus according to claim 35, wherein the MHC long partial sequence creation means is the purpose acquired by the target sequence acquisition means. A slide splitting means for creating the MHC long partial sequence by splitting the sequence into the length corresponding to the type of the major histocompatibility antigen while sliding the amino acid residue from the top one by one; Features.

これはMHC長部分配列作成手段の一例を一層具体的に示すものである。この装置によれば、MHC長部分配列作成手段は、取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成するので、分割される可能性のあるMHC長部分配列を漏れなく作成することができる。   This more specifically shows one example of the MHC length partial sequence creating means. According to this apparatus, the MHC length partial sequence creating means divides the acquired target sequence into lengths corresponding to the types of major histocompatibility antigens while sliding the amino acid residues one by one from the beginning. Since the partial sequence is created, an MHC length partial sequence that may be divided can be created without omission.

また、請求項37に記載のMHC結合部分配列予測装置は、請求項35または36に記載のMHC結合部分配列予測装置において、上記主要組織適合性抗原の上記種類に対応する上記長さは、8〜18残基数であることを特徴とする。   The MHC binding partial sequence prediction apparatus according to claim 37 is the MHC binding partial sequence prediction apparatus according to claim 35 or 36, wherein the length corresponding to the type of the major histocompatibility antigen is 8 The number of residues is ˜18.

これは主要組織適合性抗原の種類に対応する長さの一例を一層具体的に示すものである。この装置によれば、主要組織適合性抗原の種類に対応する長さは、8〜18残基数であるので、例えばMHCクラスIに対しては8〜12残基数とし、MHCクラスIIに対しては12〜18残基数とすることができるため、各MHCの種類に対応する最適な長さのMHC長部分配列を作成することができる。   This is a more specific example of the length corresponding to the type of major histocompatibility antigen. According to this apparatus, since the length corresponding to the type of major histocompatibility antigen is 8 to 18 residues, for example, it is 8 to 12 residues for MHC class I, and MHC class II On the other hand, since the number of residues can be 12-18, an MHC length partial sequence having an optimum length corresponding to each MHC type can be prepared.

また、請求項38に記載のMHC結合部分配列予測装置は、請求項35から37のいずれか一つに記載のMHC結合部分配列予測装置において、上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原と結合する上記アミノ酸配列の各アミノ酸残基と上記主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納手段をさらに備え、上記親和力算出手段は、上記親和力情報を、上記MHC結合アミノ酸残基間距離値格納手段により格納された上記MHC結合アミノ酸残基間距離値情報、および/または、上記既知の上記タンパク質の上記立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出手段をさらに備えたことを特徴とする。   The MHC binding partial sequence prediction apparatus according to claim 38 is the MHC binding partial sequence prediction apparatus according to any one of claims 35 to 37, wherein the MHC binding partial sequence prediction apparatus is determined by the major histocompatibility antigen determination means. Stores MHC-binding amino acid residue distance value information, which is information on the distance value between each amino acid residue of the amino acid sequence that binds to the major histocompatibility antigen and each amino acid residue of the major histocompatibility antigen sequence. MHC-binding amino acid residue distance value storage means, wherein the affinity calculation means stores the affinity information between the MHC-binding amino acid residue distance value storage means stored in the MHC-binding amino acid residue distance value storage means. Distance value based affinity calculated using statistical potential using information and / or the 3D structure information of the known protein And further comprising a detection means.

これは親和力算出手段の一例を一層具体的に示すものである。この装置によれば、決定された主要組織適合性抗原と結合するアミノ酸配列の各アミノ酸残基と主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納し、親和力算出手段は、親和力情報を、格納されたMHC結合アミノ酸残基間距離値情報、および/または、既知のタンパク質の立体構造情報を利用した統計ポテンシャルを用いて算出するので、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造からMHC結合アミノ酸残基間距離値などを利用した統計ポテンシャルを用いて算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができる。   This more specifically shows an example of the affinity calculation means. According to this apparatus, the MHC binding amino acid residue, which is information on the distance value between each amino acid residue of the amino acid sequence that binds to the determined major histocompatibility antigen and each amino acid residue of the major histocompatibility antigen sequence, is obtained. The group distance value information is stored, and the affinity calculation means uses the statistical potential using the stored MHC binding amino acid residue distance value information and / or the known three-dimensional structure information of the protein. Because it is calculated, it does not depend on the information of known binding peptides, and it is specified based on the affinity calculated using the statistical potential using the distance between MHC-binding amino acid residues from the 3D complex structure with MHC. MHC binding subsequences that bind to and interact with major histocompatibility antigens can be predicted with high speed and high accuracy.

また、本発明は、MHC結合部分配列予測方法に関するものであり、請求項39に記載のMHC結合部分配列予測方法は、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得ステップと、特定の主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記アミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得ステップと、上記目的配列取得ステップにより取得された上記目的配列を上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成ステップと、上記MHC長部分配列作成ステップにより作成された各MHC長部分配列および上記MHC配列取得ステップにより取得された上記主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測ステップと、上記複合体立体構造予測ステップにより予測された上記複合体立体構造情報に基づいて、上記MHC長部分配列と上記主要組織適合性抗原配列との間で相互作用している上記アミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定ステップと、上記相互作用アミノ酸決定ステップにより決定された上記相互作用アミノ酸情報に含まれる上記アミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出ステップと、上記親和力算出ステップにより算出された全ての上記アミノ酸の組の間の上記親和力情報の総和を算出する親和力総和算出ステップと、上記親和力総和算出ステップにより算出された上記親和力情報の上記総和に基づいて、上記MHC長部分配列と上記主要組織適合性抗原との親和性を評価することにより、上記特定の上記主要組織適合性抗原と結合することができる上記アミノ酸配列であるMHC結合部分配列を予測する親和力基準MHC結合部分配列予測ステップとを含むことを特徴とする。   The present invention also relates to a method for predicting an MHC binding partial sequence, and the method for predicting an MHC binding partial sequence according to claim 39 is information relating to a target sequence which is an amino acid sequence of the target protein or physiologically active polypeptide. A target sequence acquisition step for acquiring target sequence information, a main histocompatibility antigen determination step for determining the type of a specific main histocompatibility antigen, and the main histocompatibility determined by the main histocompatibility antigen determination step An MHC sequence acquisition step for acquiring main histocompatibility antigen sequence information, which is information on the main histocompatibility antigen sequence that is the amino acid sequence of the antigen, and the target sequence acquired by the target sequence acquisition step is the main tissue compatibility Length corresponding to the type of major histocompatibility antigen determined by the sex antigen determination step MHC length partial sequence creation step for dividing and creating an MHC length partial sequence, each MHC length partial sequence created by the MHC length partial sequence creation step, and the main tissue compatibility obtained by the MHC sequence acquisition step A complex three-dimensional structure prediction step for predicting complex three-dimensional structure information based on an antigen sequence, and the MHC long partial sequence and the above-described one based on the complex three-dimensional structure information predicted by the complex three-dimensional structure prediction step An interacting amino acid determining step for determining interacting amino acid information, which is information relating to the set of amino acids interacting with a major histocompatibility antigen sequence, and the interaction determined by the interacting amino acid determining step Affinity information, which is information related to the affinity between the above amino acid pairs included in the amino acid information Affinity calculation step for calculating the total of the affinity information among all the amino acid pairs calculated by the affinity calculation step and statistically calculating the three-dimensional structure information of the known protein and the affinity calculation step And evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen on the basis of the sum of the affinity information calculated in the step of calculating the affinity sum, the specific major tissue An affinity reference MHC binding partial sequence prediction step for predicting an MHC binding partial sequence that is the amino acid sequence capable of binding to a compatible antigen.

この方法によれば、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得し、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原のアミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得し、取得された目的配列を決定された主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成し、作成された各MHC長部分配列および取得された主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測し、予測された複合体立体構造情報に基づいて、MHC長部分配列と主要組織適合性抗原配列との間で相互作用しているアミノ酸の組に関する情報である相互作用アミノ酸情報を決定し、決定された相互作用アミノ酸情報に含まれるアミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出し、算出された全てのアミノ酸の組の間の親和力情報の総和を算出し、算出された親和力情報の総和に基づいて、MHC長部分配列と主要組織適合性抗原との親和性を評価することにより、特定の主要組織適合性抗原と結合することができるアミノ酸配列であるMHC結合部分配列を予測するので、既知の結合ペプチドの情報には依存せずに、MHCとの複合体立体構造から統計的に算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができる。   According to this method, target sequence information, which is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide, is obtained, a type of a specific major histocompatibility antigen is determined, and the determined main tissue Acquire major histocompatibility antigen sequence information, which is information on major histocompatibility antigen sequences that are amino acid sequences of compatible antigens, and obtain the target sequence length corresponding to the determined major histocompatibility antigen type To generate MHC long partial sequences, and based on each of the generated MHC long partial sequences and the obtained major histocompatibility antigen sequence, complex three-dimensional structure information is predicted, and predicted complex three-dimensional Based on the structural information, the interacting amino acid information, which is information on the set of amino acids interacting between the MHC long subsequence and the major histocompatibility antigen sequence, is determined. Affinity information, which is information related to the affinity between amino acid sets included in the determined interaction amino acid information, is statistically calculated using the three-dimensional structure information of known proteins, and all calculated amino acid sets Between the specific major histocompatibility antigen and the major histocompatibility antigen by evaluating the affinity between the MHC long subsequence and the major histocompatibility antigen based on the calculated sum of the affinity information. Since the MHC binding partial sequence, which is an amino acid sequence that can be bound, is predicted, based on the affinity calculated statistically from the three-dimensional structure of the complex with MHC without depending on the information of known binding peptides, MHC binding subsequences that bind to and interact with specific major histocompatibility antigens can be predicted with high speed and high accuracy.

また、請求項40に記載のMHC結合部分配列予測方法は、請求項39に記載のMHC結合部分配列予測方法において、上記MHC長部分配列作成ステップは、上記目的配列取得ステップにより取得された上記目的配列を、先頭から1アミノ酸残基ずつスライドしながら上記主要組織適合性抗原の上記種類に対応する上記長さに分割して、上記MHC長部分配列を作成するスライド分割ステップをさらに含むことを特徴とする。   Furthermore, the MHC binding partial sequence prediction method according to claim 40 is the MHC binding partial sequence prediction method according to claim 39, wherein the MHC long partial sequence creation step includes the purpose acquired by the target sequence acquisition step. The method further comprises a slide splitting step in which the sequence is divided into the length corresponding to the type of the major histocompatibility antigen while sliding the amino acid residue from the beginning to create the MHC long partial sequence. And

これはMHC長部分配列作成ステップの一例を一層具体的に示すものである。この方法によれば、MHC長部分配列作成ステップは、取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成するので、分割される可能性のあるMHC長部分配列を漏れなく作成することができる。   This more specifically shows an example of the MHC length partial sequence creation step. According to this method, the MHC length partial sequence creation step divides the acquired target sequence into lengths corresponding to the types of major histocompatibility antigens while sliding one amino acid residue at a time from the beginning. Since the partial sequence is created, an MHC length partial sequence that may be divided can be created without omission.

また、請求項41に記載のMHC結合部分配列予測方法は、請求項39または40に記載のMHC結合部分配列予測方法において、上記主要組織適合性抗原の上記種類に対応する上記長さは、8〜18残基数であることを特徴とする。   Furthermore, the MHC binding partial sequence prediction method according to claim 41 is the MHC binding partial sequence prediction method according to claim 39 or 40, wherein the length corresponding to the type of the major histocompatibility antigen is 8 The number of residues is ˜18.

これは主要組織適合性抗原の種類に対応する長さの一例を一層具体的に示すものである。この方法によれば、主要組織適合性抗原の種類に対応する長さは、8〜18残基数であるので、例えばMHCクラスIに対しては8〜12残基数とし、MHCクラスIIに対しては12〜18残基数とすることができるため、各MHCの種類に対応する最適な長さのMHC長部分配列を作成することができる。   This is a more specific example of the length corresponding to the type of major histocompatibility antigen. According to this method, since the length corresponding to the type of major histocompatibility antigen is 8 to 18 residues, for example, it is 8 to 12 residues for MHC class I, and MHC class II On the other hand, since the number of residues can be 12-18, an MHC length partial sequence having an optimum length corresponding to each MHC type can be prepared.

また、請求項42に記載のMHC結合部分配列予測方法は、請求項39から41のいずれか一つに記載のMHC結合部分配列予測方法において、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する上記アミノ酸配列の各アミノ酸残基と上記主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納ステップをさらに含み、上記親和力算出ステップは、上記親和力情報を、上記MHC結合アミノ酸残基間距離値格納ステップにより格納された上記MHC結合アミノ酸残基間距離値情報、および/または、上記既知の上記タンパク質の上記立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出ステップをさらに含むことを特徴とする。   The MHC binding partial sequence prediction method according to claim 42 is the MHC binding partial sequence prediction method according to any one of claims 39 to 41, wherein the MHC binding partial sequence prediction method is determined by the major histocompatibility antigen determination step. Stores MHC-binding amino acid residue distance value information, which is information on the distance value between each amino acid residue of the amino acid sequence that binds to the major histocompatibility antigen and each amino acid residue of the major histocompatibility antigen sequence. A step of storing a distance value between MHC-binding amino acid residues, wherein the affinity calculating step stores the affinity information as a distance value between the MHC-binding amino acid residues stored in the MHC-binding amino acid residue distance value storing step. Calculate using information and / or statistical potential using the 3D structure information of the known protein And further comprising a Hanarechi reference affinity calculating step.

これは親和力算出ステップの一例を一層具体的に示すものである。この方法によれば、決定された主要組織適合性抗原と結合するアミノ酸配列の各アミノ酸残基と主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納し、親和力算出ステップは、親和力情報を、格納されたMHC結合アミノ酸残基間距離値情報、および/または、既知のタンパク質の立体構造情報を利用した統計ポテンシャルを用いて算出するので、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造からMHC結合アミノ酸残基間距離値などを利用した統計ポテンシャルを用いて算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができる。   This more specifically shows an example of the affinity calculation step. According to this method, the MHC binding amino acid residue, which is information on the distance value between each amino acid residue of the amino acid sequence that binds to the determined major histocompatibility antigen and each amino acid residue of the major histocompatibility antigen sequence, is obtained. The group distance value information is stored, and the affinity calculation step uses the statistical potential using the stored MHC binding amino acid residue distance value information and / or the three-dimensional structure information of the known protein. Because it is calculated, it does not depend on the information of known binding peptides, and is specified based on the affinity calculated using the statistical potential using the distance between MHC-binding amino acid residues from the complex structure with MHC. MHC binding subsequences that bind to and interact with major histocompatibility antigens can be predicted at high speed and with high accuracy.

また、本発明は、プログラムに関するものであり、請求項43に記載のMHC結合部分配列予測方法をコンピュータに実行させることを特徴とするプログラムは、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得ステップと、特定の主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記アミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得ステップと、上記目的配列取得ステップにより取得された上記目的配列を上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成ステップと、上記MHC長部分配列作成ステップにより作成された各MHC長部分配列および上記MHC配列取得ステップにより取得された上記主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測ステップと、上記複合体立体構造予測ステップにより予測された上記複合体立体構造情報に基づいて、上記MHC長部分配列と上記主要組織適合性抗原配列との間で相互作用している上記アミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定ステップと、上記相互作用アミノ酸決定ステップにより決定された上記相互作用アミノ酸情報に含まれる上記アミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出ステップと、上記親和力算出ステップにより算出された全ての上記アミノ酸の組の間の上記親和力情報の総和を算出する親和力総和算出ステップと、上記親和力総和算出ステップにより算出された上記親和力情報の上記総和に基づいて、上記MHC長部分配列と上記主要組織適合性抗原との親和性を評価することにより、上記特定の上記主要組織適合性抗原と結合することができる上記アミノ酸配列であるMHC結合部分配列を予測する親和力基準MHC結合部分配列予測ステップとを含むことを特徴とする。   In addition, the present invention relates to a program, and the program that causes a computer to execute the MHC binding partial sequence prediction method according to claim 43 is an amino acid sequence of a target protein or physiologically active polypeptide. It is determined by a target sequence acquisition step for acquiring target sequence information that is information on the target sequence, a main histocompatibility antigen determination step for determining the type of a specific main histocompatibility antigen, and the main histocompatibility antigen determination step. In addition, an MHC sequence acquisition step for acquiring main histocompatibility antigen sequence information, which is information on the main histocompatibility antigen sequence that is the amino acid sequence of the main histocompatibility antigen, and the purpose acquired by the target sequence acquisition step The major set determined by the major histocompatibility antigen determination step. An MHC length partial sequence creation step for creating an MHC length partial sequence by dividing into lengths corresponding to the types of compatible antigens, and each MHC length partial sequence created by the MHC length partial sequence creation step and the MHC Complex three-dimensional structure prediction step for predicting complex three-dimensional structure information based on the major histocompatibility antigen sequence acquired by the sequence acquisition step, and the complex three-dimensional structure predicted by the complex three-dimensional structure prediction step An interaction amino acid determination step for determining interaction amino acid information, which is information relating to the set of amino acids interacting between the MHC long partial sequence and the major histocompatibility antigen sequence, based on the information; Between the set of amino acids included in the interaction amino acid information determined by the interaction amino acid determination step Affinity calculation step for statistically calculating affinity information, which is information relating to affinity, using three-dimensional structure information of known proteins, and the affinity information between all the amino acid pairs calculated by the affinity calculation step An affinity sum total calculating step for calculating the sum of the above, and evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen based on the sum of the affinity information calculated by the affinity sum calculating step. And an affinity reference MHC binding partial sequence prediction step for predicting an MHC binding partial sequence that is the amino acid sequence capable of binding to the specific major histocompatibility antigen.

このプログラムによれば、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得し、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原のアミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得し、取得された目的配列を決定された主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成し、作成された各MHC長部分配列および取得された主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測し、予測された複合体立体構造情報に基づいて、MHC長部分配列と主要組織適合性抗原配列との間で相互作用しているアミノ酸の組に関する情報である相互作用アミノ酸情報を決定し、決定された相互作用アミノ酸情報に含まれるアミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出し、算出された全てのアミノ酸の組の間の親和力情報の総和を算出し、算出された親和力情報の総和に基づいて、MHC長部分配列と主要組織適合性抗原との親和性を評価することにより、特定の主要組織適合性抗原と結合することができるアミノ酸配列であるMHC結合部分配列を予測するので、既知の結合ペプチドの情報には依存せずに、MHCとの複合体立体構造から統計的に算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができる。   According to this program, target sequence information, which is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide, is obtained, a type of a specific major histocompatibility antigen is determined, and the determined major tissue Acquire major histocompatibility antigen sequence information, which is information on major histocompatibility antigen sequences that are amino acid sequences of compatible antigens, and obtain the target sequence length corresponding to the determined major histocompatibility antigen type To generate MHC long partial sequences, and based on each of the generated MHC long partial sequences and the obtained major histocompatibility antigen sequence, complex three-dimensional structure information is predicted, and the predicted complex three-dimensional structure Based on the structural information, interacting amino acid information that is information on the set of amino acids interacting between the MHC long subsequence and the major histocompatibility antigen sequence Affinity information, which is information on the affinity between amino acid pairs included in the determined interaction amino acid information, is statistically calculated using the three-dimensional structure information of known proteins, and all calculated By calculating the sum of affinity information between amino acid pairs and evaluating the affinity between the MHC long subsequence and the major histocompatibility antigen based on the calculated sum of affinity information, a specific major histocompatibility MHC binding partial sequence, which is an amino acid sequence that can bind to a sex antigen, is predicted, so the affinity calculated statistically from the three-dimensional structure of the complex with MHC does not depend on the information of known binding peptides. Based on this, it is possible to predict with high speed and high accuracy an MHC binding subsequence that binds to and interacts with a specific major histocompatibility antigen.

また、請求項44に記載のプログラムは、請求項43に記載のプログラムにおいて、上記MHC長部分配列作成ステップは、上記目的配列取得ステップにより取得された上記目的配列を、先頭から1アミノ酸残基ずつスライドしながら上記主要組織適合性抗原の上記種類に対応する上記長さに分割して、上記MHC長部分配列を作成するスライド分割ステップをさらに含むことを特徴とする。   Further, the program according to claim 44 is the program according to claim 43, wherein the MHC length partial sequence creation step includes: The method further comprises a slide dividing step of generating the MHC long partial sequence by sliding into the length corresponding to the type of the major histocompatibility antigen while sliding.

これはMHC長部分配列作成ステップの一例を一層具体的に示すものである。このプログラムによれば、MHC長部分配列作成ステップは、取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成するので、分割される可能性のあるMHC長部分配列を漏れなく作成することができる。   This more specifically shows an example of the MHC length partial sequence creation step. According to this program, the MHC length partial sequence creation step divides the acquired target sequence into lengths corresponding to the types of major histocompatibility antigens while sliding one amino acid residue from the beginning, Since the partial sequence is created, an MHC length partial sequence that may be divided can be created without omission.

また、請求項45に記載のプログラムは、請求項43または44に記載のプログラムにおいて、上記主要組織適合性抗原の上記種類に対応する上記長さは、8〜18残基数であることを特徴とする。   The program according to claim 45 is the program according to claim 43 or 44, wherein the length corresponding to the type of the major histocompatibility antigen is 8 to 18 residues. And

これは主要組織適合性抗原の種類に対応する長さの一例を一層具体的に示すものである。このプログラムによれば、主要組織適合性抗原の種類に対応する長さは、8〜18残基数であるので、例えばMHCクラスIに対しては8〜12残基数とし、MHCクラスIIに対しては12〜18残基数とすることができるため、各MHCの種類に対応する最適な長さのMHC長部分配列を作成することができる。   This is a more specific example of the length corresponding to the type of major histocompatibility antigen. According to this program, the length corresponding to the major histocompatibility antigen type is 8 to 18 residues, so for example, it is 8 to 12 residues for MHC class I and MHC class II. On the other hand, since the number of residues can be 12 to 18, it is possible to create an MHC length partial sequence having an optimum length corresponding to each MHC type.

また、請求項46に記載のプログラムは、請求項43から45のいずれか一つに記載のプログラムにおいて、上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する上記アミノ酸配列の各アミノ酸残基と上記主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納ステップをさらに含み、上記親和力算出ステップは、上記親和力情報を、上記MHC結合アミノ酸残基間距離値格納ステップにより格納された上記MHC結合アミノ酸残基間距離値情報、および/または、上記既知の上記タンパク質の上記立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出ステップをさらに含むことを特徴とする。   The program according to claim 46 is the amino acid that binds to the major histocompatibility antigen determined by the major histocompatibility antigen determination step in the program according to any one of claims 43 to 45. MHC-binding amino acid residue distance value information storing MHC-binding amino acid residue distance value information, which is information regarding the distance value between each amino acid residue of the sequence and each amino acid residue of the major histocompatibility antigen sequence. The affinity calculation step further includes the step of storing the affinity information, the MHC-binding amino acid residue distance value information stored in the MHC-binding amino acid residue distance value storage step, and / or the known The distance value reference affinity calculation step is calculated using the statistical potential using the above three-dimensional structure information of the protein. Characterized in that it comprises in.

これは親和力算出ステップの一例を一層具体的に示すものである。このプログラムによれば、決定された主要組織適合性抗原と結合するアミノ酸配列の各アミノ酸残基と主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納し、親和力算出ステップは、親和力情報を、格納されたMHC結合アミノ酸残基間距離値情報、および/または、既知のタンパク質の立体構造情報を利用した統計ポテンシャルを用いて算出するので、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造からMHC結合アミノ酸残基間距離値などを利用した統計ポテンシャルを用いて算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができる。   This more specifically shows an example of the affinity calculation step. According to this program, the MHC binding amino acid residue, which is information on the distance value between each amino acid residue of the amino acid sequence that binds to the determined major histocompatibility antigen and each amino acid residue of the major histocompatibility antigen sequence, is determined. The group distance value information is stored, and the affinity calculation step uses the statistical potential using the stored MHC binding amino acid residue distance value information and / or the known three-dimensional structure information of the protein. Because it is calculated, it does not depend on the information of known binding peptides, and it is specified based on the affinity calculated using the statistical potential using the distance between MHC-binding amino acid residues from the 3D complex structure with MHC. MHC binding subsequences that bind to and interact with major histocompatibility antigens can be predicted with high speed and high accuracy.

また、本発明は、記録媒体に関するものであり、請求項47に記載のコンピュータ読み取り可能な記録媒体は、上記請求項43から46のいずれか一つに記載のプログラムを記録したことを特徴とする。   Further, the present invention relates to a recording medium, and the computer-readable recording medium according to claim 47 is characterized in that the program according to any one of claims 43 to 46 is recorded. .

この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項43から46のいずれか一つに記載されたプログラムを、コンピュータを利用して実現することができ、これら各プログラムと同様の効果を得ることができる。   According to this recording medium, the program according to any one of claims 43 to 46 is realized using a computer by causing the computer to read and execute the program recorded on the recording medium. The same effect as each of these programs can be obtained.

本発明によれば、目的配列情報から、1)リソソーム内に存在するタンパク質分解酵素またはプロテオソームに対する耐性をもち、2)MHCと結合し、3)自己ペプチドとして認識されない、4)突然変異の入りにくい、という4つの条件を満たし、T細胞を活性化させることができるワクチンとして最適なワクチン候補部分配列を効率よく高精度に予測することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体を提供することができる。   According to the present invention, from the target sequence information, 1) resistance to proteolytic enzymes or proteosomes present in lysosomes, 2) binding to MHC, 3) not recognized as self-peptides, 4) difficult to enter mutations A vaccine candidate partial sequence predicting apparatus, a vaccine candidate partial sequence predicting method capable of efficiently and accurately predicting a vaccine candidate partial sequence optimal as a vaccine that satisfies the four conditions and can activate T cells, Programs and recording media can be provided.

また、本発明によれば、切断部位含有配列の頻度解析に基づいて、リソソーム内に存在するタンパク質分解酵素またはプロテオソームによる酵素切断部位を高精度に予測することにより非切断部分配列を効率よく高精度に予測することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体を提供することができる。   In addition, according to the present invention, based on frequency analysis of cleavage site-containing sequences, non-cleaved partial sequences can be efficiently and highly accurately predicted by predicting enzyme cleavage sites by proteolytic enzymes or proteosomes present in lysosomes with high accuracy. It is possible to provide a vaccine candidate partial sequence prediction apparatus, a vaccine candidate partial sequence prediction method, a program, and a recording medium.

また、本発明によれば、目的配列に対するモチーフ検索に基づいて、リソソーム内に存在するタンパク質分解酵素またはプロテオソームによる酵素切断部位を高精度に予測することにより非切断部分配列を効率よく高精度に予測することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体を提供することができる。   In addition, according to the present invention, based on a motif search for a target sequence, an enzymatic cleavage site by a proteolytic enzyme or proteosome present in lysosome is predicted with high accuracy, thereby predicting an uncut partial sequence efficiently and with high accuracy. It is possible to provide a vaccine candidate partial sequence predicting apparatus, a vaccine candidate partial sequence predicting method, a program, and a recording medium.

また、本発明によれば、各種の主要組織適合性抗原に対応する既知のMHC結合部位含有配列のアミノ酸頻度解析に基づいて、特定の主要組織適合性抗原と結合するMHC結合部位を高精度に予測することにより、MHC結合部分配列を効率よく高精度に予測することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体を提供することができる。   In addition, according to the present invention, based on the amino acid frequency analysis of known MHC binding site-containing sequences corresponding to various major histocompatibility antigens, MHC binding sites that bind to specific major histocompatibility antigens can be accurately obtained. By predicting, it is possible to provide a vaccine candidate partial sequence prediction apparatus, a vaccine candidate partial sequence prediction method, a program, and a recording medium that can efficiently and accurately predict an MHC binding partial sequence.

また、本発明によれば、各種の主要組織適合性抗原に対応する既知のMHC結合部位配列を利用してモチーフを検出し、当該モチーフ検索に基づいて、特定の主要組織適合性抗原と結合するMHC結合部位を高精度に予測することにより、MHC結合部分配列を効率よく高精度に予測することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体を提供することができる。   In addition, according to the present invention, a motif is detected using known MHC binding site sequences corresponding to various major histocompatibility antigens, and binds to a specific major histocompatibility antigen based on the motif search. To provide a vaccine candidate partial sequence prediction apparatus, a vaccine candidate partial sequence prediction method, a program, and a recording medium that can predict an MHC binding partial sequence efficiently and with high accuracy by predicting an MHC binding site with high accuracy. it can.

また、本発明によれば、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造から統計的に算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体を提供することができる。   In addition, according to the present invention, it binds to a specific major histocompatibility antigen based on the affinity statistically calculated from the three-dimensional structure of the complex with MHC, without depending on information of a known binding peptide, It is possible to provide a vaccine candidate partial sequence prediction apparatus, a vaccine candidate partial sequence prediction method, a program, and a recording medium that can predict an interacting MHC binding partial sequence at high speed and with high accuracy.

また、本発明によれば、分割される可能性のあるMHC長部分配列を漏れなく作成することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体を提供することができる。   Moreover, according to the present invention, it is possible to provide a vaccine candidate partial sequence prediction apparatus, a vaccine candidate partial sequence prediction method, a program, and a recording medium that can create an MHC long partial sequence that may be divided without omission. it can.

また、本発明によれば、各MHCの種類に対応する最適な長さのMHC長部分配列を作成することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体を提供することができる。   In addition, according to the present invention, there are provided a vaccine candidate partial sequence prediction apparatus, a vaccine candidate partial sequence prediction method, a program, and a recording medium capable of creating an MHC length partial sequence having an optimum length corresponding to each MHC type. can do.

また、本発明によれば、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造からMHC結合アミノ酸残基間距離値などを利用した統計ポテンシャルを用いて算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体を提供することができる。   In addition, according to the present invention, the affinity calculated using a statistical potential using a distance between MHC-binding amino acid residues from a three-dimensional structure of a complex with MHC does not depend on information on a known binding peptide. -Based vaccine candidate partial sequence prediction apparatus, vaccine candidate partial sequence prediction method, program, and recording medium capable of predicting an MHC binding partial sequence that binds to and interacts with a specific major histocompatibility antigen at high speed and with high accuracy Can be provided.

また、本発明によれば、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造に対して量子化学計算手法を用いて算出した構造評価指標値に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を効率よく高精度に予測することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体を提供することができる。   In addition, according to the present invention, a specific key is determined based on a structure evaluation index value calculated using a quantum chemistry calculation method for a three-dimensional structure of a complex with MHC, without depending on information on a known binding peptide. A vaccine candidate partial sequence prediction apparatus, a vaccine candidate partial sequence prediction method, a program, and a recording medium capable of efficiently and accurately predicting an MHC binding partial sequence that binds to and interacts with a histocompatibility antigen can be provided. .

また、本発明によれば、非自己認識検索得点情報に基づいて、自己として認識されるかを評価することにより、自己として認識されない(抗原性をもつ)非自己認識部分配列を効率よく高精度に予測することができるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体を提供することができる。   According to the present invention, non-self-recognizing partial sequences that are not recognized as self (having antigenicity) can be efficiently and highly accurately evaluated by evaluating whether they are recognized as self based on non-self-recognition search score information. It is possible to provide a vaccine candidate partial sequence predicting apparatus, a vaccine candidate partial sequence predicting method, a program, and a recording medium that can be predicted.

また、本発明によれば、既知の結合ペプチドの情報には依存せずに、MHCとの複合体立体構造から統計的に算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができるMHC結合部分配列予測装置、MHC結合部分配列予測方法、プログラムおよび記録媒体を提供することができる。   Further, according to the present invention, it binds to a specific major histocompatibility antigen based on the affinity calculated statistically from the three-dimensional structure of the complex with MHC without depending on the information of known binding peptides. It is possible to provide an MHC binding partial sequence prediction apparatus, an MHC binding partial sequence prediction method, a program, and a recording medium that can predict an interacting MHC binding partial sequence with high speed and high accuracy.

また、本発明によれば、分割される可能性のあるMHC長部分配列を漏れなく作成することができるMHC結合部分配列予測装置、MHC結合部分配列予測方法、プログラムおよび記録媒体を提供することができる。   Furthermore, according to the present invention, it is possible to provide an MHC binding partial sequence prediction device, an MHC binding partial sequence prediction method, a program, and a recording medium that can create an MHC long partial sequence that may be divided without omission. it can.

また、本発明によれば、各MHCの種類に対応する最適な長さのMHC長部分配列を作成することができるMHC結合部分配列予測装置、MHC結合部分配列予測方法、プログラムおよび記録媒体を提供することができる。   In addition, according to the present invention, there are provided an MHC binding partial sequence prediction apparatus, an MHC binding partial sequence prediction method, a program, and a recording medium capable of creating an MHC long partial sequence having an optimal length corresponding to each MHC type. can do.

さらに、本発明によれば、既知の結合ペプチドの情報には依存せず、MHCとの複合体立体構造からMHC結合アミノ酸残基間距離値などを利用した統計ポテンシャルを用いて算出された親和力に基づいて、特定の主要組織適合性抗原と結合し、相互作用するMHC結合部分配列を高速かつ高精度に予測することができるMHC結合部分配列予測装置、MHC結合部分配列予測方法、プログラムおよび記録媒体を提供することができる。   Furthermore, according to the present invention, the affinity calculated using the statistical potential using the distance between MHC-binding amino acid residues from the three-dimensional structure of the complex with MHC does not depend on the information of known binding peptides. MHC binding partial sequence prediction apparatus, MHC binding partial sequence prediction method, program, and recording medium capable of predicting MHC binding partial sequence that binds to and interacts with a specific major histocompatibility antigen at high speed and with high accuracy Can be provided.

以下に、本発明にかかるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、MHC結合部分配列予測装置、MHC結合部分配列予測方法、プログラムおよび記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。   Hereinafter, embodiments of a vaccine candidate partial sequence prediction device, a vaccine candidate partial sequence prediction method, an MHC binding partial sequence prediction device, an MHC binding partial sequence prediction method, a program, and a recording medium according to the present invention will be described in detail with reference to the drawings. explain. Note that the present invention is not limited to the embodiments.

[本発明の概要]
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。図1は本発明の基本原理を示す原理構成図である。
[Outline of the present invention]
Hereinafter, the outline of the present invention will be described, and then the configuration and processing of the present invention will be described in detail. FIG. 1 is a principle configuration diagram showing the basic principle of the present invention.

本発明は、概略的に、以下の基本的特徴を有する。   The present invention generally has the following basic features.

すなわち、本発明は、まず、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得し、目的配列ファイルの所定の記憶領域に格納する(ステップS−1)。   That is, according to the present invention, first, target sequence information that is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide is acquired and stored in a predetermined storage area of the target sequence file (step S-1). ).

ついで、ステップS−1にて取得された目的配列情報から、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されないアミノ酸配列であって、目的配列の部分配列である非切断部分配列(非切断ペプチド)を予測し、非切断部分配列ファイルの所定の記憶領域に格納する(ステップS−2)。   Next, from the target sequence information acquired in step S-1, an amino acid sequence that is not cleaved by a proteolytic enzyme or proteosome present in the lysosome and is a partial sequence of the target sequence (non-cleavable peptide) ) Is predicted and stored in a predetermined storage area of the uncut partial sequence file (step S-2).

ここで、ステップS−2において、タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含むアミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納し、格納された切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出し、算出された切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出し、算出された切断部位含有配列得点情報に基づいて、ステップS−1にて取得された目的配列を切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出し、算出された切断部位含有配列長部分配列得点情報に基づいて酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列(非切断ペプチド)として予測してもよい。なお、切断部位含有配列長部分配列得点情報の算出の対象となる各部分配列は、ステップS−1にて取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら切断部位含有配列の長さに分割して作成したものでもよい。   Here, in step S-2, the cleavage site-containing sequence information, which is information about the cleavage site-containing sequence, which is an amino acid sequence including several residues before and after the enzyme cleavage site, which is a site cleaved by a proteolytic enzyme, is stored. Calculate the cleavage site-containing sequence amino acid appearance frequency information, which is information on the appearance frequency of amino acids at positions corresponding to each amino acid residue in the stored cleavage site-containing sequence, and calculate the calculated cleavage site-containing sequence amino acid appearance frequency information. Based on the calculated cleavage site-containing sequence score information, each part obtained by dividing the target sequence obtained in step S-1 into the length of the cleavage site-containing sequence based on the calculated cleavage site-containing sequence score information Calculate the cleavage site-containing sequence length partial sequence score information corresponding to the sequence, and then calculate the enzyme based on the calculated cleavage site-containing sequence length partial sequence score information. Determining the cross-sectional site may predict the cut portions arranged in the enzyme cleavage site as non-cutting portion sequence (uncleaved peptide). In addition, each partial sequence which is the object of calculation of the cleavage site-containing sequence length partial sequence score information is a sequence of the cleavage site-containing sequence while sliding the target sequence obtained in step S-1 by one amino acid residue from the beginning. It may be created by dividing into lengths.

また、ステップS−2において、タンパク質分解酵素により切断される部位である酵素切断部位のアミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納し、格納された切断部位配列情報から、既知の切断部位モチーフ配列を抽出し、抽出された切断部位モチーフ配列を利用してステップS−1にて取得された目的配列に対してモチーフ検索を実行することにより目的配列における酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得し、取得された切断部位検索得点情報に基づいて目的配列の酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列として予測してもよい。   Further, in step S-2, the cleavage site sequence information that is information on the cleavage site sequence that is the amino acid sequence of the enzyme cleavage site that is the site cleaved by the proteolytic enzyme is stored, and from the stored cleavage site sequence information, A known cleavage site motif sequence is extracted, and an enzyme cleavage site in the target sequence is searched by executing a motif search on the target sequence obtained in step S-1 using the extracted cleavage site motif sequence. Obtaining the cleavage site search score information that is the score at the time of search, determining the enzyme cleavage site of the target sequence based on the obtained cleavage site search score information, and removing the partial sequence cleaved at the enzyme cleavage site. It may be predicted as a cut partial sequence.

ついで、ステップS−1にて取得された目的配列情報から、特定の主要組織適合性抗原と結合することができるアミノ酸配列であって、目的配列の部分配列であるMHC結合部分配列を予測し、MHC結合部分配列ファイルの所定の記憶領域に格納する(ステップS−3)。   Next, from the target sequence information obtained in step S-1, an amino acid sequence that can bind to a specific major histocompatibility antigen, which is a partial sequence of the target sequence, is predicted, The data is stored in a predetermined storage area of the MHC binding partial sequence file (step S-3).

ここで、ステップS−3において、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含むアミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納し、格納されたMHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出し、算出されたMHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出し、算出されたMHC結合部位含有配列得点情報に基づいて、取得された目的配列をMHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出し、算出されたMHC結合部位含有配列長部分配列得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測してもよい。なお、MHC結合部位含有配列長部分配列得点情報の算出の対象となる各部分配列は、取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながらMHC結合部位含有配列の長さに分割して作成したものでもよい。   Here, in step S-3, the type of a specific major histocompatibility antigen is determined, and the amino acid sequence includes several residues before and after the MHC binding site, which is a site that binds to the determined major histocompatibility antigen. MHC binding site-containing sequence information, which is information related to the MHC binding site-containing sequence, is stored, and MHC binding site-containing information, which is information related to the appearance frequency of amino acids at positions corresponding to each amino acid residue in the stored MHC binding site-containing sequence Sequence amino acid appearance frequency information is calculated, based on the calculated MHC binding site-containing sequence amino acid appearance frequency information, MHC binding site-containing sequence score information is calculated, and based on the calculated MHC binding site-containing sequence score information, MHC binding site-containing sequence length corresponding to each partial sequence obtained by dividing the obtained target sequence into the length of the MHC binding site-containing sequence Calculates sequence score information, to determine the MHC-binding site on the basis of the calculated MHC binding site-containing sequence length partial sequence score information may predict a partial sequence including the MHC binding site as MHC binding subsequences. The length of the MHC binding site-containing sequence is calculated by dividing the obtained target sequence into the length of the sequence containing the MHC binding site while sliding the obtained target sequence by one amino acid residue from the beginning. It may be created.

また、ステップS−3において、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原と結合する部位であるMHC結合部位のアミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納し、格納されたMHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出し、抽出されたMHC結合部位モチーフ配列を利用してステップS−1にて取得された目的配列に対してモチーフ検索を実行することにより目的配列におけるMHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得し、取得されたMHC結合部位検索得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測してもよい。   In step S-3, the type of a specific major histocompatibility antigen is determined, and information on the MHC binding site sequence, which is the amino acid sequence of the MHC binding site that is the site that binds to the determined major histocompatibility antigen. Stores certain MHC binding site sequence information, extracts a known MHC binding site motif sequence from the stored MHC binding site sequence information, and obtains it in step S-1 using the extracted MHC binding site motif sequence The MHC binding site in the target sequence is searched by executing a motif search on the target sequence obtained, MHC binding site search score information that is a score at the time of search is obtained, and the acquired MHC binding site search score information Based on this, an MHC binding site may be determined, and a partial sequence including the MHC binding site may be predicted as an MHC binding partial sequence.

また、ステップS−3において、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原のアミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得し、ステップS−1にて取得された目的配列を決定された主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成し、作成された各MHC長部分配列および取得された主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測し、予測された複合体立体構造情報に基づいて、MHC長部分配列と主要組織適合性抗原配列との間で相互作用しているアミノ酸の組に関する情報である相互作用アミノ酸情報を決定し、決定された相互作用アミノ酸情報に含まれるアミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出し、算出された全てのアミノ酸の組の間の親和力情報の総和を算出し、算出された親和力情報の総和に基づいて、MHC長部分配列と主要組織適合性抗原との親和性を評価することにより、MHC結合部分配列を予測してもよい。   In step S-3, the type of a specific major histocompatibility antigen is determined, and the major histocompatibility antigen sequence which is information on the major histocompatibility antigen sequence that is the amino acid sequence of the determined major histocompatibility antigen. Information is acquired, the target sequence acquired in step S-1 is divided into lengths corresponding to the determined major histocompatibility antigen types, MHC length partial sequences are generated, and each MHC generated Based on the long partial sequence and the obtained major histocompatibility antigen sequence, complex tertiary structure information is predicted, and based on the predicted complex tertiary structure information, the MHC long partial sequence and the major histocompatibility antigen sequence are Information on interaction amino acids that are information on amino acid pairs interacting with each other, and information on affinity between amino acid sets included in the determined interaction amino acid information. Affinity information is statistically calculated using the three-dimensional structure information of known proteins, the sum of affinity information between all calculated amino acid pairs is calculated, and based on the calculated sum of affinity information Thus, the MHC binding partial sequence may be predicted by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen.

なお、目的配列を、先頭から1アミノ酸残基ずつスライドしながら、決定された主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成してもよい。また、主要組織適合性抗原の種類に対応する長さは、例えば、8〜18残基数でもよい。また、決定された主要組織適合性抗原と結合するアミノ酸配列の各アミノ酸残基と主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納し、親和力情報を、格納されたMHC結合アミノ酸残基間距離値情報、および/または、既知のタンパク質の立体構造情報を利用した統計ポテンシャルを用いて算出してもよい。   The target sequence may be divided into lengths corresponding to the determined types of major histocompatibility antigens by sliding one amino acid residue from the beginning to create an MHC long partial sequence. The length corresponding to the type of major histocompatibility antigen may be, for example, 8 to 18 residues. Further, the distance value between MHC-binding amino acid residues, which is information on the distance value between each amino acid residue of the amino acid sequence that binds to the determined major histocompatibility antigen and each amino acid residue of the major histocompatibility antigen sequence Information may be stored, and affinity information may be calculated using the stored MHC binding amino acid residue distance value information and / or statistical potential using known protein conformation information.

また、ステップS−3において、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原の立体構造であるMHC立体構造情報を取得し、取得されたMHC立体構造情報および取得された目的配列の部分配列に基づいて、主要組織適合性抗原と部分配列との複合体立体構造情報を作成し、作成された複合体立体構造情報において、量子化学計算手法(例えば、非経験的分子軌道法、半経験的分子軌道法、MOZYME法など)を用いて複合体立体構造情報に対応する立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出し、算出された構造評価指標値情報に基づいて、部分配列の中からMHC結合部分配列を予測してもよい。なお、部分配列は、ステップS−1にて取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら分割して作成したものでもよい。   In step S-3, the type of the specific major histocompatibility antigen is determined, MHC three-dimensional structure information which is the determined three-dimensional structure of the main histocompatibility antigen is obtained, and the obtained MHC three-dimensional structure information and Based on the acquired partial sequence of the target sequence, complex 3D structure information of the major histocompatibility antigen and the partial sequence is created, and in the created complex 3D structure information, a quantum chemical calculation method (for example, inexperienced Structure evaluation index value information, which is information related to index values for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information, using a molecular orbital method, semi-empirical molecular orbital method, MOZYME method, etc. An MHC binding partial sequence may be predicted from the partial sequences based on the structured evaluation index value information. The partial sequence may be created by dividing the target sequence obtained in step S-1 while sliding it by one amino acid residue from the beginning.

また、構造評価指標値情報は、例えば、MOZYME法を実装した半経験的分子軌道計算プログラム「MOPAC2000」(製品名)(富士通株式会社(会社名))や、アブイニシオ(ab initio)分子軌道法を実装した分子軌道計算プログラム「Gaussian 98 Rev. A. 11.3」(製品名)(Gaussian, Inc.(会社名), Pittsburg PA. 2002)や「Gamess June 20 2002 R2」(製品名)(Iowa State University, 2002)、を用いてエネルギー計算を行った結果得られる値でもよい。   The structure evaluation index value information includes, for example, a semi-empirical molecular orbital calculation program “MOPAC2000” (product name) (Fujitsu Ltd. (company name)) that implements the MOZYME method, and an ab initio molecular orbital method. Implemented molecular orbital calculation program “Gaussian 98 Rev. A. 11.3” (product name) (Gaussian, Inc. (company name), Pittsburgh PA. 2002) and “Gamess June 20 2002 R2” (product name) (Iowa) State University, 2002) may be a value obtained as a result of energy calculation.

ついで、ステップS−1にて取得された目的配列情報から、自己として認識されないアミノ酸配列であって、目的配列の部分配列である非自己認識部分配列を予測し、非自己認識部分配列ファイルの所定の記憶領域に格納する(ステップS−4)。   Next, a non-self-recognizing partial sequence that is an amino acid sequence that is not recognized as self and is a partial sequence of the target sequence is predicted from the target sequence information acquired in step S-1, and a predetermined non-self-recognizing partial sequence file is stored. (Step S-4).

ここで、ステップS−4において、特定の生物種(例えば、ヒトなど)に関するアミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納し、格納された特定生物種配列情報に対して、取得された目的配列の部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得し、取得された非自己認識検索得点情報に基づいて、部分配列の中から非自己認識部分配列を予測してもよい。なお、部分配列は、ステップS−1にて取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら分割して作成したものでもよい。   Here, in step S-4, the specific biological species sequence information that is information related to the specific biological species amino acid sequence that is an amino acid sequence related to a specific biological species (for example, human) is stored, and the stored specific biological species sequence information is stored. In contrast, by performing a search of the partial sequence of the acquired target sequence, non-self-recognition search score information that is a score at the time of search is acquired, and based on the acquired non-self-recognition search score information, a partial A non-self-recognizing partial sequence may be predicted from the sequence. The partial sequence may be created by dividing the target sequence obtained in step S-1 while sliding it by one amino acid residue from the beginning.

また、ステップS−4において、本出願人による特許出願である特願2003−129554に記載の技術を利用して、非自己認識部分配列を予測してもよい。   In step S-4, a non-self-recognizing partial sequence may be predicted using the technique described in Japanese Patent Application No. 2003-129554, which is a patent application filed by the present applicant.

ついで、ステップS−1にて取得された目的配列情報から、突然変異の入りにくいアミノ酸配列であって、目的配列の部分配列である非突然変異部分配列を予測し、非突然変異部分配列ファイルの所定の記憶領域に格納する(ステップS−5)。   Next, from the target sequence information acquired in step S-1, an unmutated partial sequence that is an amino acid sequence that is difficult to mutate and is a partial sequence of the target sequence is predicted. The data is stored in a predetermined storage area (step S-5).

ここで、ステップS−5において、ステップS−1にて取得された目的配列の各部分配列に対して、突然変異を起こす確率である突然変異確率を予測するための突然変異予測手法(例えば、特許番号「特許第3102957号」の特許公報参照。)に基づいて、突然変異確率を予測し、予測された突然変異確率に基づいて、部分配列の中から非突然変異部分配列を予測してもよい。なお、部分配列は、ステップS−1にて取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら分割して作成したものでもよい。   Here, in step S-5, a mutation prediction method for predicting a mutation probability (for example, a probability of causing a mutation for each partial sequence of the target sequence acquired in step S-1) (for example, (See the patent publication “Patent No. 312957”), and a mutation probability is predicted, and a non-mutated partial sequence is predicted from among the partial sequences based on the predicted mutation probability. Good. The partial sequence may be created by dividing the target sequence obtained in step S-1 while sliding it by one amino acid residue from the beginning.

ここで、特許番号「特許第3102957号」の特許公報に記載の技術では、点突然変異が局所的な部分配列に依存していることを利用している。具体的には、DNA部分配列の各塩基の変異確率の組であるエラースペクトルを、予測したい遺伝子の文字列(A、C、G、Tの4つの文字の組み合わせ)について合成し、合成後の変異確率の和を求めて、和が高い塩基を、突然変異を起こす確率が高いと予測し、遺伝子の突然変異の予測を可能にしている。   Here, the technique described in the patent publication “Patent No. 3102957” utilizes the fact that point mutations depend on local partial sequences. Specifically, an error spectrum that is a set of mutation probabilities for each base in a DNA partial sequence is synthesized for a character string (a combination of four letters A, C, G, and T) to be predicted, By calculating the sum of the mutation probabilities, a base having a high sum is predicted to have a high probability of causing a mutation, thereby enabling prediction of gene mutation.

ついで、ステップS−2にて予測された非切断部分配列、ステップS−3にて予測されたMHC結合部分配列、ステップS−4にて予測された非自己認識部分配列、および/または、ステップS−5にて予測された非突然変異部分配列に基づいて、ワクチンとして有効なアミノ酸配列であるワクチン候補部分配列を予測し、ワクチン候補部分配列ファイルの所定の記憶領域に格納する(ステップS−6)。   Then, the non-cleavable partial sequence predicted in step S-2, the MHC binding partial sequence predicted in step S-3, the non-self-recognizing partial sequence predicted in step S-4, and / or the step Based on the non-mutated partial sequence predicted in S-5, a vaccine candidate partial sequence that is an amino acid sequence effective as a vaccine is predicted and stored in a predetermined storage area of the vaccine candidate partial sequence file (step S- 6).

ここで、ステップS−6において、例えば、ステップS−2にて算出された切断部位含有配列長部分配列得点情報、切断部位検索得点情報のうち少なくとも一つ、ステップS−3にて算出されたMHC結合部位含有配列長部分配列得点情報、MHC結合部位検索得点情報、親和力情報の総和、構造評価指標値情報のうち少なくとも一つ、ステップS−4にて算出された非自己認識検索得点情報、ステップS−5にて算出された突然変異確率の線形和を算出し、算出された線形和に基づいてワクチン候補部分配列を予測してもよい。すなわち、ペプチドワクチンらしさをスコア化して線形和をとり、線形和に基づいてワクチン候補部分配列を予測してもよい。具体的には、例えば、総合的にスコアの高い部分配列をワクチン候補部分配列として予測してもよい。   Here, in step S-6, for example, at least one of the cleavage site-containing sequence length partial sequence score information and the cleavage site search score information calculated in step S-2, calculated in step S-3 At least one of MHC binding site-containing sequence length partial sequence score information, MHC binding site search score information, sum of affinity information, structure evaluation index value information, non-self recognition search score information calculated in step S-4, A linear sum of mutation probabilities calculated in step S-5 may be calculated, and a vaccine candidate partial sequence may be predicted based on the calculated linear sum. That is, the likelihood of peptide vaccine may be scored to take a linear sum, and a vaccine candidate partial sequence may be predicted based on the linear sum. Specifically, for example, a partial sequence having a high overall score may be predicted as a vaccine candidate partial sequence.

以上、本発明の概要において、ステップS−2〜ステップS−5の処理を並列して行う場合を一例に説明したが、例えば、ステップS−2、ステップS−3、ステップS−4、ステップS−5の順に直列して処理を行うことにより目的配列の部分配列の候補を順次絞り込み、最終的に残った部分配列をワクチン候補部分配列として予測してもよい。具体的には、例えば、ステップS−2において予測された部分配列のうち、例えば下位(例えば、下位の8割に対応する集合)をワクチンとして有効なアミノ酸配列の候補から除外し、絞り込まれた残りの集合(例えば、上位2割)の部分配列がステップS−3に進み、ステップS−3にて予測された部分配列のうち例えば下位(例えば、下位の8割に対応する集合)をワクチンとして有効なアミノ酸配列の候補からさらに除外し、最終的に絞り込まれた残りの集合(例えば、上位4%)の部分配列がステップS−4およびS−5に進み、ワクチン候補部分配列を予測してもよい。つまり、ステップごとにペプチドワクチンの候補から除外する(またはペプチドワクチンの候補として採用する)ための除外基準(採用基準)を設けて、最終的に全ての除外基準(採用基準)を満たした部分配列をワクチン候補部分配列として予測してもよい。   As mentioned above, in the outline | summary of this invention, although the case where the process of step S-2-step S-5 was performed in parallel was demonstrated to an example, for example, step S-2, step S-3, step S-4, step By processing in series in the order of S-5, candidates for partial sequences of the target sequence may be sequentially narrowed down, and finally the remaining partial sequences may be predicted as vaccine candidate partial sequences. Specifically, for example, among the partial sequences predicted in step S-2, for example, the lower order (for example, the set corresponding to the lower 80%) is excluded from the candidates for amino acid sequences effective as vaccines and narrowed down. The partial sequence of the remaining set (for example, upper 20%) proceeds to step S-3, and for example, the lower sequence (for example, the set corresponding to the lower 80%) of the partial sequence predicted in step S-3 is vaccine. Are further excluded from the candidates of effective amino acid sequences, and the final narrowed partial set (for example, the top 4%) of the partial sequences proceeds to steps S-4 and S-5 to predict vaccine candidate partial sequences. May be. In other words, by setting exclusion criteria (adoption criteria) to exclude (or adopt as peptide vaccine candidates) from peptide vaccine candidates at each step, a partial sequence that finally satisfies all exclusion criteria (adoption criteria) May be predicted as a vaccine candidate partial sequence.

[システム構成]
次に、本システムの構成について説明する。図2は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、ワクチン候補部分配列予測装置100と、タンパク質のアミノ酸配列や立体構造などに関する外部データベースや、モチーフ検索やホモロジー検索などの外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成されている。
[System configuration]
Next, the configuration of this system will be described. FIG. 2 is a block diagram showing an example of the configuration of the system to which the present invention is applied, and conceptually shows only the portion related to the present invention in the configuration. This system roughly includes a vaccine candidate partial sequence prediction apparatus 100 and an external system 200 that provides an external database relating to amino acid sequences and three-dimensional structures of proteins, external programs such as motif search and homology search, and the like. It is configured to be communicably connected via 300.

図2においてネットワーク300は、ワクチン候補部分配列予測装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。   In FIG. 2, the network 300 has a function of connecting the vaccine candidate partial sequence prediction device 100 and the external system 200 to each other, and is, for example, the Internet.

図2において外部システム200は、ネットワーク300を介して、ワクチン候補部分配列予測装置100と相互に接続され、利用者に対してタンパク質のアミノ酸配列や立体構造などに関する外部データベースや、モチーフ検索やホモロジー検索などの外部プログラムを実行するウェブサイトを提供する機能を有する。   In FIG. 2, the external system 200 is connected to the vaccine candidate partial sequence prediction apparatus 100 via the network 300, and provides an external database regarding amino acid sequences and three-dimensional structures of proteins, motif search, and homology search to the user. And a function of providing a website for executing an external program.

ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。   Here, the external system 200 may be configured as a WEB server, an ASP server, or the like, and the hardware configuration may be configured by an information processing apparatus such as a commercially available workstation or a personal computer and an accessory device thereof. Good. Each function of the external system 200 is realized by a CPU, a disk device, a memory device, an input device, an output device, a communication control device, and the like in the hardware configuration of the external system 200 and a program for controlling them.

図2においてワクチン候補部分配列予測装置100は、概略的に、ワクチン候補部分配列予測装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやテーブルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、このワクチン候補部分配列予測装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。   In FIG. 2, the vaccine candidate partial sequence prediction apparatus 100 schematically includes a control unit 102 such as a CPU that controls the entire vaccine candidate partial sequence prediction apparatus 100 and a communication device such as a router connected to a communication line or the like. A communication control interface unit 104 connected to (not shown), an input / output control interface unit 108 connected to the input device 112 and the output device 114, and a storage unit 106 for storing various databases and tables. These parts are configured to be communicable via an arbitrary communication path. Further, the vaccine candidate partial sequence prediction device 100 is communicably connected to the network 300 via a communication device such as a router and a wired or wireless communication line such as a dedicated line.

記憶部106に格納される各種のデータベースやテーブル(目的配列ファイル106a〜ワクチン候補部分配列ファイル106f)は、固定ディスク装置等のストレージ手段であり、図3に示すように、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。図3は、本発明が適用される本システムの記憶部106に格納される情報の一例を示す図である。   Various databases and tables (target sequence file 106a to vaccine candidate partial sequence file 106f) stored in the storage unit 106 are storage means such as a fixed disk device, and as shown in FIG. Stores programs, tables, files, databases, web page files, etc. FIG. 3 is a diagram showing an example of information stored in the storage unit 106 of the present system to which the present invention is applied.

図3に示すように、これら記憶部106の各構成要素のうち、目的配列ファイル106aは、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を格納する目的配列格納手段である。この目的配列ファイル106aに格納される情報は、目的配列情報で構成されている。   As shown in FIG. 3, among these components of the storage unit 106, the target sequence file 106a stores the target sequence information that is information on the target sequence that is the amino acid sequence of the target protein or physiologically active polypeptide. It is an array storage means. The information stored in the target sequence file 106a is composed of target sequence information.

また、切断部位含有配列ファイル106b1は、タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含むアミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納する切断部位含有配列格納手段である。この切断部位含有配列ファイル106b1に格納される情報は、例えば、本実施例において参照する図22に示すように、酵素切断部位であるP1とP1'との間から前後6残基を含む計12残基のアミノ酸配列で構成されている。   The cleavage site-containing sequence file 106b1 stores cleavage site-containing sequence information that is information on a cleavage site-containing sequence that is an amino acid sequence including several residues before and after the enzyme cleavage site, which is a site that is cleaved by a proteolytic enzyme. It is a cutting site containing sequence storage means. The information stored in the cleavage site-containing sequence file 106b1 includes, for example, a total of 12 residues including 6 residues before and after P1 and P1 ′, which are enzyme cleavage sites, as shown in FIG. It consists of the amino acid sequence of the residues.

また、切断部位含有配列アミノ酸出現頻度ファイル106b2は、切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を格納する切断部位含有配列アミノ酸出現頻度格納手段である。この切断部位含有配列アミノ酸出現頻度ファイル106b2に格納される情報は、例えば、本実施例において参照する図23に示すように、酵素切断部位であるP1とP1'との間から前後6残基を含む計12残基のアミノ酸配列の各アミノ酸残基に対応する位置(P6〜P1およびP1'〜P6')における20種類のアミノ酸(A、C、D、・・・、V、W、Y)の出現頻度で構成されている。   The cleavage site-containing sequence amino acid appearance frequency file 106b2 contains a cleavage site-containing sequence amino acid appearance frequency information that is information on the appearance frequency of amino acids at positions corresponding to the respective amino acid residues in the cleavage site-containing sequence. It is a sequence amino acid appearance frequency storage means. The information stored in this cleavage site-containing sequence amino acid appearance frequency file 106b2 includes, for example, six residues before and after P1 and P1 ′, which are enzyme cleavage sites, as shown in FIG. 20 types of amino acids (A, C, D,..., V, W, Y) at positions (P6 to P1 and P1 ′ to P6 ′) corresponding to each amino acid residue of a total of 12 amino acid sequences including It is composed of the appearance frequency.

また、切断部位含有配列得点ファイル106b3は、切断部位含有配列アミノ酸出現頻度情報における各出現頻度をスコア(得点)に変換した情報である切断部位含有配列得点情報を格納する切断部位含有配列得点格納手段である。この切断部位含有配列得点ファイル106b3に格納される情報は、例えば、本実施例において参照する図24に示すように、酵素切断部位であるP1とP1'との間から前後6残基を含む計12残基のアミノ酸配列の各アミノ酸残基に対応する位置(P6〜P1およびP1'〜P6')における20種類のアミノ酸(A、C、D、・・・、V、W、Y)のスコア(得点)で構成されている。   The cleavage site-containing sequence score file 106b3 stores the cleavage site-containing sequence score storage means for storing the cleavage site-containing sequence score information, which is information obtained by converting each appearance frequency in the cleavage site-containing sequence amino acid appearance frequency information into a score (score). It is. The information stored in this cleavage site-containing sequence score file 106b3 includes, for example, a total of 6 residues before and after P1 and P1 ′, which are enzyme cleavage sites, as shown in FIG. 24 referred to in this example. Scores of 20 kinds of amino acids (A, C, D,..., V, W, Y) at positions (P6 to P1 and P1 ′ to P6 ′) corresponding to each amino acid residue of the 12-residue amino acid sequence (Score).

また、切断部位含有配列長部分配列ファイル106b4は、目的配列を切断部位含有配列の長さに分割した部分配列である切断部位含有配列長部分配列を格納する切断部位含有配列長部分配列格納手段である。この切断部位含有配列長部分配列ファイル106b4に格納される情報は、目的配列を切断部位含有配列の長さに分割した部分配列である切断部位含有配列長部分配列と切断部位含有配列長部分配列得点情報とを相互に関連付けて構成されている。   The cleavage site-containing sequence length partial sequence file 106b4 is a cleavage site-containing sequence length partial sequence storage means for storing a cleavage site-containing sequence length partial sequence that is a partial sequence obtained by dividing the target sequence into the length of the cleavage site-containing sequence. is there. The information stored in the cleavage site-containing sequence length partial sequence file 106b4 includes the cleavage site-containing sequence length partial sequence and the cleavage site-containing sequence length partial sequence score, which are partial sequences obtained by dividing the target sequence into the length of the cleavage site-containing sequence. It is configured to correlate with information.

また、切断部位配列ファイル106b5は、タンパク質分解酵素により切断される部位である酵素切断部位のアミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納する切断部位配列格納手段である。この切断部位配列ファイル106b5に格納される情報は、例えば、本実施例において参照する図22に示すように、酵素切断部位であるP1とP1'のアミノ酸配列(但し、図示のごとく、例えば、P2、P1、P1'のアミノ酸配列の場合を含む。)で構成されている。   The cleavage site sequence file 106b5 is a cleavage site sequence storage means for storing cleavage site sequence information that is information relating to a cleavage site sequence that is an amino acid sequence of an enzyme cleavage site that is a site cleaved by a proteolytic enzyme. The information stored in the cleavage site sequence file 106b5 includes, for example, the amino acid sequences of P1 and P1 ′ that are enzyme cleavage sites (see, for example, P2 as shown in FIG. 22). , P1, and P1 ′ amino acid sequences are included.).

また、切断部位モチーフ配列ファイル106b6は、切断部位配列情報から抽出された既知の切断部位モチーフ配列を格納する切断部位モチーフ配列格納手段である。この切断部位モチーフ配列ファイル106b6に格納される情報は、例えば、本実施例において参照する図25に示すように、切断部位モチーフ配列(EY、FA、FF、・・・、RR、VLS、WMRFA、・・・)で構成されている。   The cleavage site motif sequence file 106b6 is a cleavage site motif sequence storage means for storing a known cleavage site motif sequence extracted from the cleavage site sequence information. The information stored in the cleavage site motif sequence file 106b6 includes, for example, the cleavage site motif sequences (EY, FA, FF,..., RR, VLS, WMRFA, ...).

また、切断部位検索得点ファイル106b7は、切断部位モチーフ配列を利用して取得された目的配列に対してモチーフ検索を実行することにより目的配列における酵素切断部位を検索して取得された検索時のスコアである切断部位検索得点情報を格納する切断部位検索得点格納手段である。この切断部位検索得点ファイル106b7に格納される情報は、各切断部位モチーフ配列に対応する切断部位検索得点情報で構成されている。   In addition, the cleavage site search score file 106b7 is a search score obtained by searching for an enzyme cleavage site in the target sequence by performing a motif search on the target sequence acquired using the cleavage site motif sequence. This is a cutting site search score storage means for storing cutting site search score information. The information stored in the cut site search score file 106b7 is composed of cut site search score information corresponding to each cut site motif sequence.

また、非切断部分配列ファイル106b8は、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されないアミノ酸配列であって、目的配列の部分配列である非切断部分配列を格納する非切断部分配列格納手段である。この非切断部分配列ファイル106b8に格納される情報は、決定された酵素切断部位で切断された部分配列である非切断部分配列で構成されている。   The non-cleavable partial sequence file 106b8 is an amino acid sequence that is not cleaved by a proteolytic enzyme or proteosome present in the lysosome and is a non-cleavable partial sequence storage means for storing a non-cleavable partial sequence that is a partial sequence of the target sequence. is there. The information stored in the non-cut partial sequence file 106b8 includes a non-cut partial sequence that is a partial sequence cut at the determined enzyme cleavage site.

また、MHC結合部位含有配列ファイル106c1は、主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含むアミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納するMHC結合部位含有配列格納手段である。このMHC結合部位含有配列ファイル106c1に格納される情報は、例えば、本実施例において参照する図28に示すように、MHC結合部位を含む計8残基のアミノ酸配列で構成されている。   The MHC binding site-containing sequence file 106c1 is an MHC binding site-containing sequence that is information on an MHC binding site-containing sequence that is an amino acid sequence including several residues before and after the MHC binding site that is a site that binds to a major histocompatibility antigen. MHC binding site-containing sequence storage means for storing information. The information stored in the MHC binding site-containing sequence file 106c1 is composed of an amino acid sequence of a total of 8 residues including the MHC binding site, for example, as shown in FIG.

また、MHC結合部位含有配列アミノ酸出現頻度ファイル106c2は、MHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を格納するMHC結合部位含有配列アミノ酸出現頻度格納手段である。このMHC結合部位含有配列アミノ酸出現頻度ファイル106c2に格納される情報は、MHC結合部位含有配列の各アミノ酸残基に対応する位置(例えば、図28や図29における、B1〜B8)における20種類のアミノ酸(A、C、D、・・・、V、W、Y)の出現頻度で構成されている。   The MHC binding site-containing sequence amino acid appearance frequency file 106c2 stores MHC binding site-containing sequence amino acid appearance frequency information, which is information regarding the appearance frequency of amino acids at positions corresponding to each amino acid residue in the MHC binding site-containing sequence. MHC binding site-containing sequence amino acid appearance frequency storage means. The information stored in the MHC binding site-containing sequence amino acid appearance frequency file 106c2 includes 20 types of information at positions (for example, B1 to B8 in FIGS. 28 and 29) corresponding to each amino acid residue of the MHC binding site-containing sequence. It consists of the appearance frequency of amino acids (A, C, D,..., V, W, Y).

また、MHC結合部位含有配列得点ファイル106c3は、MHC結合部位含有配列アミノ酸出現頻度情報における各出現頻度をスコア(得点)に変換した情報であるMHC結合部位含有配列得点情報を格納するMHC結合部位含有配列得点格納手段である。このMHC結合部位含有配列得点ファイル106c3に格納される情報は、例えば、本実施例において参照する図29に示すように、MHC結合部位含有配列の各アミノ酸残基に対応する位置(B1〜B8)における20種類のアミノ酸(A、C、D、・・・、V、W、Y)のスコア(得点)で構成されている。   The MHC binding site-containing sequence score file 106c3 stores MHC binding site-containing sequence score information that is information obtained by converting each appearance frequency in the MHC binding site-containing sequence amino acid appearance frequency information into a score (score). This is an array score storage means. The information stored in the MHC binding site-containing sequence score file 106c3 includes, for example, positions (B1 to B8) corresponding to each amino acid residue of the MHC binding site-containing sequence as shown in FIG. 29 referred to in the present example. Is composed of scores (scores) of 20 types of amino acids (A, C, D,..., V, W, Y).

また、MHC結合部位含有配列長部分配列ファイル106c4は、目的配列をMHC結合部位含有配列の長さに分割した部分配列であるMHC結合部位含有配列長部分配列を格納するMHC結合部位含有配列長部分配列格納手段である。このMHC結合部位含有配列長部分配列ファイル106c4に格納される情報は、目的配列をMHC結合部位含有配列の長さに分割した部分配列であるMHC結合部位含有配列長部分配列とMHC結合部位含有配列長部分配列得点情報とを相互に関連付けて構成されている。   The MHC binding site-containing sequence length partial sequence file 106c4 stores an MHC binding site-containing sequence length partial sequence, which is a partial sequence obtained by dividing the target sequence into the length of the MHC binding site-containing sequence. It is an array storage means. The information stored in the MHC binding site-containing sequence length partial sequence file 106c4 includes the MHC binding site-containing sequence length partial sequence and the MHC binding site-containing sequence, which are partial sequences obtained by dividing the target sequence into the length of the MHC binding site-containing sequence. The long partial sequence score information is associated with each other.

また、MHC結合部位配列ファイル106c5は、主要組織適合性抗原と結合する部位であるMHC結合部位のアミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納するMHC結合部位配列格納手段である。このMHC結合部位配列ファイル106c5に格納される情報は、主要組織適合性抗原と結合する部位であるMHC結合部位のアミノ酸配列で構成されている。   The MHC binding site sequence file 106c5 stores an MHC binding site sequence information that stores MHC binding site sequence information that is information on the MHC binding site sequence that is the amino acid sequence of the MHC binding site that is a site that binds to the major histocompatibility antigen. Means. The information stored in the MHC binding site sequence file 106c5 is composed of an amino acid sequence of an MHC binding site that is a site that binds to a major histocompatibility antigen.

また、MHC結合部位モチーフ配列ファイル106c6は、MHC結合部位配列情報から抽出された既知のMHC結合部位モチーフ配列を格納するMHC結合部位モチーフ配列格納手段である。このMHC結合部位モチーフ配列ファイル106c6に格納される情報は、例えば、本実施例において参照する図28に示すように、MHC結合部位モチーフ配列(図28において斜線等で表示された、A×××AA、A××××F、A××××Iなどのアミノ酸配列(「×」は任意のアミノ酸))で構成されている。   The MHC binding site motif sequence file 106c6 is MHC binding site motif sequence storage means for storing a known MHC binding site motif sequence extracted from MHC binding site sequence information. The information stored in the MHC binding site motif sequence file 106c6 includes, for example, an MHC binding site motif sequence (Axxx indicated by hatching in FIG. 28, as shown in FIG. 28 referred to in this example). It is composed of amino acid sequences such as AA, AxxxF, and Axxx I ("x" is any amino acid)).

また、MHC結合部位検索得点ファイル106c7は、MHC結合部位モチーフ配列を利用して取得された目的配列に対してモチーフ検索を実行することにより目的配列におけるMHC結合部位を検索して取得された検索時のスコアであるMHC結合部位検索得点情報を格納するMHC結合部位検索得点格納手段である。このMHC結合部位検索得点ファイル106c7に格納される情報は、各MHC結合部位モチーフ配列に対応するMHC結合部位検索得点情報で構成されている。   In addition, the MHC binding site search score file 106c7 is used when searching for an MHC binding site in a target sequence by performing a motif search on the target sequence acquired using the MHC binding site motif sequence. MHC binding site search score storage means for storing MHC binding site search score information that is a score of The information stored in the MHC binding site search score file 106c7 is composed of MHC binding site search score information corresponding to each MHC binding site motif sequence.

また、MHC配列ファイル106c8は、主要組織適合性抗原のアミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を格納するMHC配列格納手段である。このMHC配列ファイル106c8に格納される情報は、主要組織適合性抗原の種類と主要組織適合性抗原配列情報とを相互に関連付けて構成されている。   The MHC sequence file 106c8 is MHC sequence storage means for storing main histocompatibility antigen sequence information which is information relating to the main histocompatibility antigen sequence which is the amino acid sequence of the main histocompatibility antigen. The information stored in the MHC sequence file 106c8 is configured by associating the type of main histocompatibility antigen with the main histocompatibility antigen sequence information.

また、MHC長部分配列ファイル106c9は、目的配列を、決定された主要組織適合性抗原の種類に対応する長さに分割したアミノ酸配列であるMHC長部分配列を格納するMHC長部分配列格納手段である。このMHC長部分配列ファイル106c9に格納される情報は、決定された主要組織適合性抗原の種類に対応する長さのMHC長部分配列で構成されている。   The MHC length partial sequence file 106c9 is MHC length partial sequence storage means for storing an MHC length partial sequence that is an amino acid sequence obtained by dividing the target sequence into lengths corresponding to the determined major histocompatibility antigen types. is there. The information stored in the MHC long partial sequence file 106c9 is composed of an MHC long partial sequence having a length corresponding to the determined major histocompatibility antigen type.

また、予測複合体立体構造ファイル106c10は、各MHC長部分配列および主要組織適合性抗原配列に基づいて予測された複合体立体構造情報を格納する予測複合体立体構造格納手段である。この予測複合体立体構造ファイル106c10に格納される情報は、複合体立体構造情報で構成されている。   The predicted complex three-dimensional structure file 106c10 is a predicted complex three-dimensional structure storage unit that stores complex three-dimensional structure information predicted based on each MHC long partial sequence and major histocompatibility antigen sequence. The information stored in the predicted complex 3D structure file 106c10 is composed of complex 3D structure information.

また、相互作用アミノ酸ファイル106c11は、MHC長部分配列と主要組織適合性抗原配列との間で相互作用しているアミノ酸の組に関する情報である相互作用アミノ酸情報を格納する相互作用アミノ酸格納手段である。この相互作用アミノ酸ファイル106c11に格納される情報は、相互作用しているアミノ酸を相互に関連付けて構成されている。   The interaction amino acid file 106c11 is interaction amino acid storage means for storing interaction amino acid information, which is information regarding a set of amino acids interacting between the MHC long partial sequence and the major histocompatibility antigen sequence. . The information stored in the interaction amino acid file 106c11 is configured by associating interacting amino acids with each other.

また、親和力ファイル106c12は、相互作用アミノ酸情報に含まれるアミノ酸の組の間の親和力に関する情報である親和力情報を格納する親和力格納手段である。この親和力ファイル106c12に格納される情報は、アミノ酸の組と親和力情報とを相互に関連付けて構成されている。   The affinity file 106c12 is an affinity storage unit that stores affinity information, which is information related to the affinity between amino acid sets included in the interacting amino acid information. The information stored in the affinity file 106c12 is configured by associating a set of amino acids with affinity information.

また、MHC結合アミノ酸残基間距離値ファイル106c13は、主要組織適合性抗原と結合するアミノ酸配列の各アミノ酸残基と主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納手段である。このMHC結合アミノ酸残基間距離値ファイル106c13に格納される情報は、例えば、本実施例において参照する図32に示すように、各アミノ酸残基間の距離値で構成されている。   The distance value file 106c13 between MHC-binding amino acid residues is information on the distance value between each amino acid residue of the amino acid sequence that binds to the major histocompatibility antigen and each amino acid residue of the major histocompatibility antigen sequence. It is a distance value storage means for storing MHC-linked amino acid residue distance value information for storing information on the distance value between MHC-linked amino acid residues. The information stored in the distance value file 106c13 between the MHC-binding amino acid residues is composed of distance values between amino acid residues as shown in FIG. 32 referred to in the present embodiment, for example.

また、MHC立体構造ファイル106c14は、主要組織適合性抗原の立体構造であるMHC立体構造情報を格納するMHC立体構造格納手段である。このMHC立体構造ファイル106c14に格納される情報は、例えば、本実施例において参照する図33に示すように、主要組織適合性抗原の立体構造(結晶構造)に関する情報(図33に示した結晶構造データは一部分である。)で構成されている。   The MHC three-dimensional structure file 106c14 is MHC three-dimensional structure storage means for storing MHC three-dimensional structure information that is the three-dimensional structure of the main histocompatibility antigen. The information stored in the MHC three-dimensional structure file 106c14 includes, for example, information on the three-dimensional structure (crystal structure) of the major histocompatibility antigen (the crystal structure shown in FIG. 33) as shown in FIG. The data is a part.)

また、作成複合体立体構造ファイル106c15は、MHC立体構造情報および目的配列の部分配列に基づいて作成された主要組織適合性抗原と部分配列との複合体立体構造情報を格納する作成複合体立体構造格納手段である。この作成複合体立体構造ファイル106c15に格納される情報は、主要組織適合性抗原と部分配列との複合体立体構造情報で構成されている。   The created complex 3D structure file 106c15 stores a created complex 3D structure that stores the 3D structure information of the major histocompatibility antigen and the partial sequence created based on the MHC 3D structure information and the partial sequence of the target sequence. Storage means. The information stored in the created complex three-dimensional structure file 106c15 is composed of complex three-dimensional structure information of major histocompatibility antigens and partial sequences.

また、構造評価指標値ファイル106c16は、複合体立体構造情報に対応する立体構造を評価するための指標値に関する情報である構造評価指標値情報を格納する構造評価指標値格納手段である。この構造評価指標値ファイル106c16に格納される情報は、複合体立体構造情報に対応する立体構造を評価するための指標値に関する情報である構造評価指標値情報で構成されている。   The structure evaluation index value file 106c16 is a structure evaluation index value storage unit that stores structure evaluation index value information that is information related to an index value for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information. The information stored in the structure evaluation index value file 106c16 includes structure evaluation index value information that is information regarding index values for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information.

また、MHC結合部分配列ファイル106c17は、特定の主要組織適合性抗原と結合することができるアミノ酸配列であって、目的配列の部分配列であるMHC結合部分配列を格納するMHC結合部分配列格納手段である。このMHC結合部分配列ファイル106c17に格納される情報は、MHC結合部分配列で構成されている。   The MHC binding partial sequence file 106c17 is an MHC binding partial sequence storage means for storing an MHC binding partial sequence that is an amino acid sequence that can bind to a specific major histocompatibility antigen and is a partial sequence of the target sequence. is there. The information stored in the MHC binding partial sequence file 106c17 is composed of an MHC binding partial sequence.

また、特定生物種配列ファイル106d1は、特定の生物種に関するアミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納する特定生物種配列格納手段である。この特定生物種配列ファイル106d1に格納される情報は、例えば、本実施例において参照する図36に示すように、既知の特定の生物種に関するアミノ酸配列(図36では、ヒトのアミノ酸配列)で構成されている。   The specific species sequence file 106d1 is a specific species sequence storage unit that stores specific species sequence information, which is information related to the specific species amino acid sequence, which is an amino acid sequence related to the specific species. The information stored in this specific species sequence file 106d1, for example, is composed of an amino acid sequence relating to a known specific species (in FIG. 36, a human amino acid sequence) as shown in FIG. Has been.

また、非自己認識検索得点ファイル106d2は、特定生物種配列情報に対して、目的配列の部分配列の検索を実行することにより取得された、検索時のスコアである非自己認識検索得点情報を格納する非自己認識検索得点格納手段である。この非自己認識検索得点ファイル106d2に格納される情報は、部分配列に対応する非自己認識検索得点情報で構成されている。   Further, the non-self-recognition search score file 106d2 stores non-self-recognition search score information, which is a score at the time of search, obtained by executing a partial sequence search of the target sequence with respect to the specific species sequence information. Non-self-recognizing search score storage means. The information stored in the non-self-recognized search score file 106d2 includes non-self-recognized search score information corresponding to the partial sequence.

また、非自己認識部分配列ファイル106d3は、自己として認識されないアミノ酸配列であって、目的配列の部分配列である非自己認識部分配列を格納する非自己認識部分配列格納手段である。この非自己認識部分配列ファイル106d3に格納される情報は、非自己認識部分配列で構成されている。   The non-self-recognizing partial sequence file 106d3 is non-self-recognizing partial sequence storage means for storing a non-self-recognizing partial sequence that is an amino acid sequence that is not recognized as self and that is a partial sequence of the target sequence. The information stored in the non-self-recognizing partial sequence file 106d3 includes a non-self-recognizing partial sequence.

また、突然変異確率ファイル106e1は、目的配列の各部分配列に対して、突然変異を起こす確率である突然変異確率を予測するための突然変異予測手法に基づいて予測された突然変異確率を格納する突然変異確率格納手段である。この突然変異確率ファイル106e1に格納される情報は、部分配列に対応する突然変異確率で構成されている。   The mutation probability file 106e1 stores mutation probabilities predicted based on a mutation prediction method for predicting a mutation probability that is a probability of causing mutation for each partial sequence of the target sequence. It is a mutation probability storage means. The information stored in the mutation probability file 106e1 is composed of mutation probabilities corresponding to the partial sequences.

また、非突然変異部分配列ファイル106e2は、突然変異の入りにくいアミノ酸配列であって、目的配列の部分配列である非突然変異部分配列を格納する非突然変異部分配列格納手段である。この非突然変異部分配列ファイル106e2に格納される情報は、非突然変異部分配列で構成されている。   Further, the non-mutated partial sequence file 106e2 is a non-mutated partial sequence storage means for storing a non-mutated partial sequence that is an amino acid sequence that is difficult to be mutated and is a partial sequence of the target sequence. The information stored in the non-mutant partial sequence file 106e2 is composed of a non-mutant partial sequence.

また、ワクチン候補部分配列ファイル106fは、ワクチンとして有効なアミノ酸配列であるワクチン候補部分配列を格納するワクチン候補部分配列手段である。このワクチン候補部分配列ファイル106fに格納される情報は、ワクチン候補部分配列で構成されている。   The vaccine candidate partial sequence file 106f is a vaccine candidate partial sequence means for storing a vaccine candidate partial sequence that is an amino acid sequence effective as a vaccine. The information stored in the vaccine candidate partial sequence file 106f is composed of vaccine candidate partial sequences.

また、図2において、通信制御インターフェース部104は、ワクチン候補部分配列予測装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。   In FIG. 2, the communication control interface unit 104 performs communication control between the vaccine candidate partial sequence prediction device 100 and the network 300 (or a communication device such as a router). That is, the communication control interface unit 104 has a function of communicating data with other terminals via a communication line.

また、図2において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。ここで、出力装置114としては、モニタ(家庭用テレビを含む)の他、スピーカ等を用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。また、入力装置112としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。   In FIG. 2, the input / output control interface unit 108 controls the input device 112 and the output device 114. Here, as the output device 114, in addition to a monitor (including a home TV), a speaker or the like can be used (hereinafter, the output device 114 may be described as a monitor). As the input device 112, a keyboard, a mouse, a microphone, or the like can be used. The monitor also realizes a pointing device function in cooperation with the mouse.

また、図2において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、目的配列取得部102a、非切断部分配列予測部102b、MHC結合部分配列予測部102c、非自己認識部分配列予測部102d、非突然変異部分配列予測部102eおよびワクチン候補部分配列予測部102fを含んで構成されている。   In FIG. 2, the control unit 102 has a control program such as an OS (Operating System), a program defining various processing procedures, and an internal memory for storing necessary data. Information processing for executing various processes is performed. In terms of functional concept, the control unit 102 includes a target sequence acquisition unit 102a, a non-cut partial sequence prediction unit 102b, an MHC binding partial sequence prediction unit 102c, a non-self recognition partial sequence prediction unit 102d, a non-mutation partial sequence prediction unit 102e, and A vaccine candidate partial sequence predicting unit 102f is included.

このうち、目的配列取得部102aは、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得手段である。   Among these, the target sequence acquisition unit 102a is target sequence acquisition means for acquiring target sequence information, which is information related to the target sequence, which is the amino acid sequence of the target protein or physiologically active polypeptide.

また、非切断部分配列予測部102bは、目的配列情報から、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されないアミノ酸配列であって、目的配列の部分配列である非切断部分配列を予測する非切断部分配列予測手段である。ここで、非切断部分配列予測部102bは、図4に示すように、切断部位含有配列格納部102b1、切断部位含有配列アミノ酸出現頻度算出部102b2、切断部位含有配列得点算出部102b3、切断部位含有配列長部分配列得点算出部102b4、得点基準非切断部分配列予測部102b5、切断部位配列格納部102b6、切断部位モチーフ配列抽出部102b7、切断部位モチーフ検索部102b8およびモチーフ検索基準非切断部分配列予測部102b9をさらに備えて構成されている。   Further, the non-cleavable partial sequence predicting unit 102b is an amino acid sequence that is not cleaved by a proteolytic enzyme or proteosome present in the lysosome from the target sequence information, and predicts a non-cut partial sequence that is a partial sequence of the target sequence. This is a cut partial sequence predicting means. Here, as shown in FIG. 4, the non-cut partial sequence predicting unit 102b includes a cut site containing sequence storage unit 102b1, a cut site containing sequence amino acid appearance frequency calculating unit 102b2, a cut site containing sequence score calculating unit 102b3, and a cut site containing Sequence length partial sequence score calculation unit 102b4, score reference non-cut partial sequence prediction unit 102b5, cut site sequence storage unit 102b6, cut site motif sequence extraction unit 102b7, cut site motif search unit 102b8 and motif search reference non-cut partial sequence prediction unit 102b9 is further provided.

図4は、本発明が適用される本システムの非切断部分配列予測部102bの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。図4において、切断部位含有配列格納部102b1は、タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含むアミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納する切断部位含有配列格納手段である。   FIG. 4 is a block diagram showing an example of the configuration of the non-cut partial sequence predicting unit 102b of the system to which the present invention is applied, and conceptually shows only the portion related to the present invention. In FIG. 4, the cleavage site-containing sequence storage unit 102b1 is information on a cleavage site-containing sequence that is information on a cleavage site-containing sequence that is an amino acid sequence including several residues before and after the enzyme cleavage site, which is a site cleaved by a proteolytic enzyme. Is a cutting site-containing sequence storage means for storing.

また、切断部位含有配列アミノ酸出現頻度算出部102b2は、切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出する切断部位含有配列アミノ酸出現頻度算出手段である。   In addition, the cleavage site-containing sequence amino acid appearance frequency calculation unit 102b2 calculates a cleavage site-containing sequence amino acid appearance frequency information that is information on the appearance frequency of amino acids at positions corresponding to each amino acid residue in the cleavage site-containing sequence. This is means for calculating the frequency of occurrence of amino acids in the contained sequence.

また、切断部位含有配列得点算出部102b3は、切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出する切断部位含有配列得点算出手段である。   The cleavage site-containing sequence score calculation unit 102b3 is a cleavage site-containing sequence score calculation unit that calculates cleavage site-containing sequence score information based on the cleavage site-containing sequence amino acid appearance frequency information.

また、切断部位含有配列長部分配列得点算出部102b4は、切断部位含有配列得点情報に基づいて、取得された目的配列を切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出する切断部位含有配列長部分配列得点算出手段である。   In addition, the cleavage site-containing sequence length partial sequence score calculation unit 102b4 includes a cleavage site corresponding to each partial sequence obtained by dividing the acquired target sequence into the length of the cleavage site-containing sequence based on the cleavage site-containing sequence score information. This is a cleavage site-containing sequence length partial sequence score calculation means for calculating sequence length partial sequence score information.

また、得点基準非切断部分配列予測部102b5は、切断部位含有配列長部分配列得点情報に基づいて酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列として予測する得点基準非切断部分配列予測手段である。   Further, the score criterion non-cutting partial sequence predicting unit 102b5 determines an enzyme cutting site based on the cutting site-containing sequence length partial sequence score information, and predicts a partial sequence cut at the enzyme cutting site as a non-cutting partial sequence. This is a score-based non-cutting partial sequence predicting means.

また、切断部位配列格納部102b6は、タンパク質分解酵素により切断される部位である酵素切断部位のアミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納する切断部位配列格納手段である。   The cleavage site sequence storage unit 102b6 is a cleavage site sequence storage means for storing cleavage site sequence information, which is information relating to a cleavage site sequence that is an amino acid sequence of an enzyme cleavage site that is a site cleaved by a proteolytic enzyme.

また、切断部位モチーフ配列抽出部102b7は、切断部位配列情報から、既知の切断部位モチーフ配列を抽出する切断部位モチーフ配列抽出手段である。   The cleavage site motif sequence extraction unit 102b7 is a cleavage site motif sequence extraction unit that extracts a known cleavage site motif sequence from the cleavage site sequence information.

また、切断部位モチーフ検索部102b8は、切断部位モチーフ配列を利用して取得された目的配列に対してモチーフ検索を実行することにより目的配列における酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得する切断部位モチーフ検索手段である。   The cleavage site motif search unit 102b8 searches for an enzyme cleavage site in the target sequence by performing a motif search on the target sequence obtained using the cleavage site motif sequence, and the cleavage that is the score at the time of the search This is a cutting site motif search means for acquiring site search score information.

また、モチーフ検索基準非切断部分配列予測部102b9は、切断部位検索得点情報に基づいて目的配列の酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列として予測するモチーフ検索基準非切断部分配列予測手段である。   The motif search reference non-cleavable partial sequence prediction unit 102b9 determines an enzyme cleavage site of the target sequence based on the cleavage site search score information, and predicts a partial sequence cleaved at the enzyme cleavage site as an uncut partial sequence. This is a motif search reference non-cut partial sequence prediction means.

再び図2に戻り、MHC結合部分配列予測部102cは、目的配列情報から、特定の主要組織適合性抗原と結合することができるアミノ酸配列であって、目的配列の部分配列であるMHC結合部分配列を予測するMHC結合部分配列予測手段である。ここで、MHC結合部分配列予測部102cは、図5に示すように、主要組織適合性抗原決定部102c1、MHC結合部位含有配列格納部102c2、MHC結合部位含有配列アミノ酸出現頻度算出部102c3、MHC結合部位含有配列得点算出部102c4、MHC結合部位含有配列長部分配列得点算出部102c5、得点基準MHC結合部分配列予測部102c6、MHC結合部位配列格納部102c7、MHC結合部位モチーフ配列抽出部102c8、MHC結合部位モチーフ検索部102c9、モチーフ検索基準MHC結合部分配列予測部102c10、MHC配列取得部102c11、MHC長部分配列作成部102c12、スライド分割部102c13、複合体立体構造予測部102c14、相互作用アミノ酸決定部102c15、MHC結合アミノ酸残基間距離値格納部102c16、親和力算出部102c17、距離値基準親和力算出部102c18、親和力総和算出部102c19、親和力基準MHC結合部分配列予測部102c20、MHC立体構造取得部102c21、複合体立体構造作成部102c22、構造評価指標算出部102c23および構造評価指標基準MHC結合部分配列予測部102c24をさらに備えて構成されている。   Returning to FIG. 2 again, the MHC binding partial sequence prediction unit 102c is an amino acid sequence that can bind to a specific major histocompatibility antigen from the target sequence information, and is an MHC binding partial sequence that is a partial sequence of the target sequence. Is a means for predicting MHC binding partial sequences. Here, as shown in FIG. 5, the MHC binding partial sequence predicting unit 102 c includes a major histocompatibility antigen determining unit 102 c 1, an MHC binding site-containing sequence storage unit 102 c 2, an MHC binding site-containing sequence amino acid appearance frequency calculating unit 102 c 3, and an MHC. Binding site-containing sequence score calculation unit 102c4, MHC binding site-containing sequence length partial sequence score calculation unit 102c5, score reference MHC binding partial sequence prediction unit 102c6, MHC binding site sequence storage unit 102c7, MHC binding site motif sequence extraction unit 102c8, MHC Binding site motif search unit 102c9, motif search reference MHC binding partial sequence prediction unit 102c10, MHC sequence acquisition unit 102c11, MHC long partial sequence creation unit 102c12, slide division unit 102c13, complex three-dimensional structure prediction unit 102c14, interacting amino acid determination unit 102 15, MHC binding amino acid residue distance value storage unit 102c16, affinity calculation unit 102c17, distance value reference affinity calculation unit 102c18, affinity sum calculation unit 102c19, affinity reference MHC binding partial sequence prediction unit 102c20, MHC three-dimensional structure acquisition unit 102c21, A complex three-dimensional structure creation unit 102c22, a structure evaluation index calculation unit 102c23, and a structure evaluation index reference MHC binding partial sequence prediction unit 102c24 are further provided.

図5は、本発明が適用される本システムのMHC結合部分配列予測部102cの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。図5において、主要組織適合性抗原決定部102c1は、特定の主要組織適合性抗原の種類を決定する主要組織適合性抗原決定手段である。   FIG. 5 is a block diagram showing an example of the configuration of the MHC binding partial sequence predicting unit 102c of the present system to which the present invention is applied, and conceptually shows only the portion related to the present invention. In FIG. 5, a main histocompatibility antigen determination unit 102c1 is a main histocompatibility antigen determination unit that determines the type of a specific main histocompatibility antigen.

また、MHC結合部位含有配列格納部102c2は、主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含むアミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納するMHC結合部位含有配列格納手段である。   In addition, the MHC binding site-containing sequence storage unit 102c2 includes an MHC binding site-containing information that is information on an MHC binding site-containing sequence that is an amino acid sequence including several residues before and after the MHC binding site that is a site that binds to a major histocompatibility antigen. MHC binding site-containing sequence storage means for storing sequence information.

また、MHC結合部位含有配列アミノ酸出現頻度算出部102c3は、MHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出するMHC結合部位含有配列アミノ酸出現頻度算出手段である。   In addition, the MHC binding site-containing sequence amino acid appearance frequency calculation unit 102c3 calculates MHC binding site-containing sequence amino acid appearance frequency information, which is information regarding the appearance frequency of amino acids at positions corresponding to each amino acid residue in the MHC binding site-containing sequence. MHC binding site-containing sequence amino acid appearance frequency calculation means.

また、MHC結合部位含有配列得点算出部102c4は、MHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出するMHC結合部位含有配列得点算出手段である。   The MHC binding site-containing sequence score calculation unit 102c4 is MHC binding site-containing sequence score calculation means for calculating MHC binding site-containing sequence score information based on the MHC binding site-containing sequence amino acid appearance frequency information.

また、MHC結合部位含有配列長部分配列得点算出部102c5は、MHC結合部位含有配列得点情報に基づいて、取得された目的配列をMHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出するMHC結合部位含有配列長部分配列得点算出手段である。   The MHC binding site-containing sequence length partial sequence score calculation unit 102c5 corresponds to each partial sequence obtained by dividing the acquired target sequence into the length of the MHC binding site-containing sequence based on the MHC binding site-containing sequence score information. MHC binding site-containing sequence length partial sequence score calculation means for calculating MHC binding site-containing sequence length partial sequence score information.

また、得点基準MHC結合部分配列予測部102c6は、MHC結合部位含有配列長部分配列得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測する得点基準MHC結合部分配列予測手段である。   In addition, the score reference MHC binding partial sequence predicting unit 102c6 determines an MHC binding site based on the MHC binding site-containing sequence length partial sequence score information, and a score for predicting a partial sequence including the MHC binding site as an MHC binding partial sequence Reference MHC binding partial sequence prediction means.

また、MHC結合部位配列格納部102c7は、主要組織適合性抗原と結合する部位であるMHC結合部位のアミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納するMHC結合部位配列格納手段である。   In addition, the MHC binding site sequence storage unit 102c7 stores MHC binding site sequence information, which is information related to the MHC binding site sequence that is the amino acid sequence of the MHC binding site that is a site that binds to the major histocompatibility antigen. Storage means.

また、MHC結合部位モチーフ配列抽出部102c8は、MHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出するMHC結合部位モチーフ配列抽出手段である。   The MHC binding site motif sequence extraction unit 102c8 is MHC binding site motif sequence extraction means for extracting a known MHC binding site motif sequence from the MHC binding site sequence information.

また、MHC結合部位モチーフ検索部102c9は、MHC結合部位モチーフ配列を利用して取得された目的配列に対してモチーフ検索を実行することにより目的配列におけるMHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得するMHC結合部位モチーフ検索手段である。   The MHC binding site motif search unit 102c9 searches for an MHC binding site in the target sequence by executing a motif search on the target sequence obtained using the MHC binding site motif sequence, and uses the score at the time of the search. This is an MHC binding site motif search means for acquiring certain MHC binding site search score information.

また、モチーフ検索基準MHC結合部分配列予測部102c10は、MHC結合部位検索得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測するモチーフ検索基準MHC結合部分配列予測手段である。   The motif search reference MHC binding partial sequence prediction unit 102c10 determines an MHC binding site based on the MHC binding site search score information and predicts a partial sequence including the MHC binding site as an MHC binding partial sequence. This is a binding partial sequence predicting means.

また、MHC配列取得部102c11は、主要組織適合性抗原のアミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得手段である。   The MHC sequence acquisition unit 102c11 is MHC sequence acquisition means for acquiring main histocompatibility antigen sequence information, which is information relating to the main histocompatibility antigen sequence, which is the amino acid sequence of the main histocompatibility antigen.

また、MHC長部分配列作成部102c12は、目的配列を決定された主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成手段である。   The MHC length partial sequence creation unit 102c12 is MHC length partial sequence creation means for creating an MHC length partial sequence by dividing the target sequence into lengths corresponding to the determined types of major histocompatibility antigens.

また、スライド分割部102c13は、目的配列を、先頭から1アミノ酸残基ずつスライドしながら主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成するスライド分割手段である。   The slide dividing unit 102c13 is a slide dividing unit that divides the target sequence into lengths corresponding to the types of major histocompatibility antigens while sliding the amino acid residues one by one from the beginning, and creates an MHC long partial sequence. is there.

また、複合体立体構造予測部102c14は、各MHC長部分配列およびMHC配列取得手段により取得された主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測手段である。   The complex three-dimensional structure prediction unit 102c14 is a complex three-dimensional structure prediction unit that predicts complex three-dimensional structure information based on each MHC long partial sequence and the main histocompatibility antigen sequence acquired by the MHC sequence acquisition unit. is there.

また、相互作用アミノ酸決定部102c15は、複合体立体構造情報に基づいて、MHC長部分配列と主要組織適合性抗原配列との間で相互作用しているアミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定手段である。   Further, the interacting amino acid determination unit 102c15 is based on the complex three-dimensional structure information, and interacting amino acid information that is information regarding the set of amino acids interacting between the MHC long partial sequence and the major histocompatibility antigen sequence. It is a means for determining interacting amino acids.

また、MHC結合アミノ酸残基間距離値格納部102c16は、主要組織適合性抗原と結合するアミノ酸配列の各アミノ酸残基と主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納手段である。   The distance value storage unit 102c16 between MHC-binding amino acid residues is information on the distance value between each amino acid residue of the amino acid sequence that binds to the main histocompatibility antigen and each amino acid residue of the main histocompatibility antigen sequence. MHC-binding amino acid residue distance value storage means for storing MHC-binding amino acid residue distance value information.

また、親和力算出部102c17は、相互作用アミノ酸情報に含まれるアミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出手段である。   The affinity calculator 102c17 is an affinity calculator that statistically calculates affinity information, which is information related to the affinity between amino acid sets included in the interacting amino acid information, using the three-dimensional structure information of known proteins. is there.

また、距離値基準親和力算出部102c18は、親和力情報を、格納されたMHC結合アミノ酸残基間距離値情報、および/または、既知のタンパク質の立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出手段である。   In addition, the distance value reference affinity calculation unit 102c18 calculates the affinity information using the stored MHC-binding amino acid residue distance value information and / or the statistical potential using the known three-dimensional structure information of the protein. It is a value-based affinity calculation means.

また、親和力総和算出部102c19は、全てのアミノ酸の組の間の親和力情報の総和を算出する親和力総和算出手段である。   The affinity sum calculation unit 102c19 is an affinity sum calculation means for calculating the sum of affinity information between all amino acid pairs.

また、親和力基準MHC結合部分配列予測部102c20は、親和力情報の総和に基づいて、MHC長部分配列と主要組織適合性抗原との親和性を評価することにより、MHC結合部分配列を予測する親和力基準MHC結合部分配列予測手段である。   Further, the affinity reference MHC binding partial sequence predicting unit 102c20 evaluates the affinity between the MHC long partial sequence and the main histocompatibility antigen based on the sum of the affinity information, and thereby the affinity reference for predicting the MHC binding partial sequence. MHC binding partial sequence prediction means.

また、MHC立体構造取得部102c21は、主要組織適合性抗原の立体構造であるMHC立体構造情報を取得するMHC立体構造取得手段である。   The MHC three-dimensional structure acquisition unit 102c21 is an MHC three-dimensional structure acquisition unit that acquires MHC three-dimensional structure information that is the three-dimensional structure of the main histocompatibility antigen.

また、複合体立体構造作成部102c22は、MHC立体構造情報および取得された目的配列の部分配列に基づいて、主要組織適合性抗原と部分配列との複合体立体構造情報を作成する複合体立体構造作成手段である。   The complex three-dimensional structure creation unit 102c22 creates complex three-dimensional structure information of the major histocompatibility antigen and the partial sequence based on the MHC three-dimensional structure information and the acquired partial sequence of the target sequence. It is a creation means.

また、構造評価指標算出部102c23は、複合体立体構造情報において、量子化学計算手法を用いて複合体立体構造情報に対応する立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出する構造評価指標算出手段である。   In addition, the structure evaluation index calculation unit 102c23 is structure evaluation index value information that is information regarding an index value for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information using the quantum chemistry calculation method in the three-dimensional structure information of the complex. This is a structure evaluation index calculation means for calculating.

また、構造評価指標基準MHC結合部分配列予測部102c24は、構造評価指標値情報に基づいて、部分配列の中からMHC結合部分配列を予測する構造評価指標基準MHC結合部分配列予測手段である。   The structure evaluation index reference MHC binding partial sequence prediction unit 102c24 is a structure evaluation index reference MHC binding partial sequence prediction unit that predicts an MHC binding partial sequence from the partial sequences based on the structure evaluation index value information.

再び図2に戻り、非自己認識部分配列予測部102dは、目的配列情報から、自己として認識されないアミノ酸配列であって、目的配列の部分配列である非自己認識部分配列を予測する非自己認識部分配列予測手段である。ここで、非自己認識部分配列予測部102dは、図6に示すように、特定生物種配列格納部102d1、非自己認識部分配列検索部102d2および検索基準非自己認識部分配列予測部102d3をさらに備えて構成されている。   Returning to FIG. 2 again, the non-self-recognizing partial sequence predicting unit 102d predicts a non-self-recognizing partial sequence that is an amino acid sequence that is not recognized as self from the target sequence information and that is a partial sequence of the target sequence. This is a sequence prediction means. Here, as shown in FIG. 6, the non-self-recognizing partial sequence prediction unit 102d further includes a specific species sequence storage unit 102d1, a non-self-recognizing partial sequence search unit 102d2, and a search reference non-self-recognizing partial sequence prediction unit 102d3. Configured.

図6は、本発明が適用される本システムの非自己認識部分配列予測部102dの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。図6において、特定生物種配列格納部102d1は、特定の生物種に関するアミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納する特定生物種配列格納手段である。   FIG. 6 is a block diagram showing an example of the configuration of the non-self-recognizing partial sequence prediction unit 102d of the present system to which the present invention is applied, and conceptually shows only the portion related to the present invention. . In FIG. 6, a specific species sequence storage unit 102d1 is a specific species sequence storage means for storing specific species sequence information, which is information related to a specific species amino acid sequence that is an amino acid sequence related to a specific species.

また、非自己認識部分配列検索部102d2は、特定生物種配列情報に対して、取得された目的配列の部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得する非自己認識部分配列検索手段である。   In addition, the non-self-recognizing partial sequence search unit 102d2 performs non-self-recognizing search score information, which is a score at the time of searching, by performing a search of the acquired partial sequence of the target sequence with respect to the specific species sequence information. It is a non-self-recognizing partial sequence search means to obtain.

また、検索基準非自己認識部分配列予測部102d3は、非自己認識検索得点情報に基づいて、部分配列の中から非自己認識部分配列を予測する検索基準非自己認識部分配列予測手段である。   The search reference non-self-recognizing partial sequence predicting unit 102d3 is search reference non-self-recognizing partial sequence predicting means for predicting a non-self-recognizing partial sequence from the partial sequences based on the non-self-recognized search score information.

再び図2に戻り、非突然変異部分配列予測部102eは、目的配列情報から、突然変異の入りにくいアミノ酸配列であって、目的配列の部分配列である非突然変異部分配列を予測する非突然変異部分配列予測手段である。ここで、非突然変異部分配列予測部102eは、図7に示すように、突然変異確率予測部102e1および確率基準非突然変異部分配列予測部102e2をさらに備えて構成されている。   Returning again to FIG. 2, the non-mutant partial sequence predicting unit 102e predicts a non-mutated partial sequence that is an amino acid sequence that is difficult to be mutated and is a partial sequence of the target sequence from the target sequence information. This is a partial sequence prediction means. Here, as shown in FIG. 7, the non-mutant partial sequence predicting unit 102e further includes a mutation probability predicting unit 102e1 and a probability reference non-mutant partial sequence predicting unit 102e2.

図7は、本発明が適用される本システムの非突然変異部分配列予測部102eの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。図7において、突然変異確率予測部102e1は、目的配列の各部分配列に対して、突然変異を起こす確率である突然変異確率を予測するための突然変異予測手法に基づいて、突然変異確率を予測する突然変異確率予測手段である。   FIG. 7 is a block diagram showing an example of the configuration of the non-mutated partial sequence predicting unit 102e of the system to which the present invention is applied, and conceptually shows only the portion related to the present invention in the configuration. . In FIG. 7, the mutation probability prediction unit 102e1 predicts a mutation probability based on a mutation prediction method for predicting a mutation probability that is a probability of causing mutation for each partial sequence of the target sequence. It is a mutation probability prediction means.

また、確率基準非突然変異部分配列予測部102e2は、突然変異確率に基づいて、部分配列の中から非突然変異部分配列を予測する確率基準非突然変異部分配列予測手段である。   The probability-based non-mutated partial sequence prediction unit 102e2 is a probability-based non-mutated partial sequence prediction unit that predicts a non-mutated partial sequence from the partial sequences based on the mutation probability.

再び図2に戻り、ワクチン候補部分配列予測部102fは、予測された非切断部分配列、予測されたMHC結合部分配列、予測された非自己認識部分配列、および/または、予測された非突然変異部分配列に基づいて、ワクチンとして有効なアミノ酸配列であるワクチン候補部分配列を予測するワクチン候補部分配列予測手段である。ここで、ワクチン候補部分配列予測部102fは、図8に示すように、線形和基準ワクチン候補部分配列予測部102f1をさらに備えて構成されている。   Returning again to FIG. 2, the vaccine candidate partial sequence predictor 102 f may perform the predicted non-cleaved partial sequence, the predicted MHC binding partial sequence, the predicted non-self-recognizing partial sequence, and / or the predicted non-mutation. This is a vaccine candidate partial sequence prediction means for predicting a vaccine candidate partial sequence that is an amino acid sequence effective as a vaccine based on the partial sequence. Here, as shown in FIG. 8, the vaccine candidate partial sequence predicting unit 102f is configured to further include a linear sum reference vaccine candidate partial sequence predicting unit 102f1.

図8は、本発明が適用される本システムのワクチン候補部分配列予測部102fの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。図8において、線形和基準ワクチン候補部分配列予測部102f1は、非切断部分配列予測部102bにおいて算出された切断部位含有配列長部分配列得点情報、切断部位検索得点情報のうち少なくとも一つ、MHC結合部分配列予測部102cにおいて算出されたMHC結合部位含有配列長部分配列得点情報、MHC結合部位検索得点情報、親和力情報の総和、構造評価指標値情報のうち少なくとも一つ、非自己認識部分配列予測部102dにおいて算出された非自己認識検索得点情報、非突然変異部分配列予測部102eにおいて算出された突然変異確率の線形和を算出し、算出された線形和に基づいてワクチン候補部分配列を予測する線形和基準ワクチン候補部分配列予測手段である。   FIG. 8 is a block diagram showing an example of the configuration of the vaccine candidate partial sequence prediction unit 102f of the present system to which the present invention is applied, and conceptually shows only the portion related to the present invention in the configuration. In FIG. 8, the linear sum reference vaccine candidate partial sequence prediction unit 102f1 has at least one of cleavage site-containing sequence length partial sequence score information and cleavage site search score information calculated by the non-cut partial sequence prediction unit 102b, MHC binding At least one of MHC binding site-containing sequence length partial sequence score information, MHC binding site search score information, affinity information, structure evaluation index value information calculated by the partial sequence prediction unit 102c, non-self-recognized partial sequence prediction unit Linear that calculates the linear sum of the non-self-recognition search score information calculated in 102d and the mutation probability calculated in the non-mutated partial sequence prediction unit 102e, and predicts the vaccine candidate partial sequence based on the calculated linear sum It is a sum standard vaccine candidate partial sequence prediction means.

なお、これら各部によって行われる処理の詳細については、後述する。   Details of processing performed by these units will be described later.

[システムの処理]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図9等を参照して詳細に説明する。
System processing
Next, an example of processing of the system in the present embodiment configured as described above will be described in detail with reference to FIG.

ここでは、ワクチン候補部分配列予測装置100にて行われるメイン処理について、図9等を参照して詳細に説明する。
図9は、本実施形態における本システムのメイン処理の一例を示すフローチャートである。
Here, the main process performed in the vaccine candidate partial sequence prediction apparatus 100 will be described in detail with reference to FIG. 9 and the like.
FIG. 9 is a flowchart showing an example of main processing of the system according to the present embodiment.

まず、ワクチン候補部分配列予測装置100は、目的配列取得部102aの処理により、目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得し、目的配列ファイル106aの所定の記憶領域に格納する(ステップSA−1)。   First, the vaccine candidate partial sequence prediction apparatus 100 acquires target sequence information, which is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide, by the processing of the target sequence acquisition unit 102a, and a target sequence file 106a. (Step SA-1).

ついで、ワクチン候補部分配列予測装置100は、非切断部分配列予測部102bの処理により、ステップSA−1にて取得された目的配列情報から、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されないアミノ酸配列であって、目的配列の部分配列である非切断部分配列(非切断ペプチド)を予測し、非切断部分配列ファイル106b8の所定の記憶領域に格納する(ステップSA−2)。   Next, the vaccine candidate partial sequence prediction apparatus 100 uses the non-cleavable partial sequence prediction unit 102b to process the amino acid that is not cleaved by the proteolytic enzyme or proteosome present in the lysosome from the target sequence information acquired in Step SA-1. An uncut partial sequence (non-cut peptide) that is a partial sequence of the target sequence is predicted and stored in a predetermined storage area of the non-cut partial sequence file 106b8 (step SA-2).

ここで、ステップSA−2において、非切断部分配列予測部102bは、タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含むアミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納し、格納された切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出し、算出された切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出し、算出された切断部位含有配列得点情報に基づいて、ステップSA−1にて取得された目的配列を切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出し、算出された切断部位含有配列長部分配列得点情報に基づいて酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列(非切断ペプチド)として予測してもよい(得点基準非切断部分配列予測処理)。   Here, in step SA-2, the non-cleavable partial sequence prediction unit 102b is information on a cleavage site-containing sequence that is an amino acid sequence including several residues before and after the enzyme cleavage site, which is a site cleaved by a proteolytic enzyme. The cleavage site-containing sequence information is stored, and the cleavage site-containing sequence amino acid appearance frequency information, which is information on the appearance frequency of the amino acid at the position corresponding to each amino acid residue in the stored cleavage site-containing sequence, is calculated and calculated. Based on the cleavage site-containing sequence amino acid appearance frequency information, the cleavage site-containing sequence score information is calculated, and based on the calculated cleavage site-containing sequence score information, the target sequence obtained in step SA-1 contains the cleavage site. Calculate the cleavage site containing sequence length partial sequence score information corresponding to each partial sequence divided into the length of the sequence, and include the calculated cleavage site An enzyme cleavage site may be determined based on the sequence length partial sequence score information, and a partial sequence cleaved at the enzyme cleavage site may be predicted as an uncut partial sequence (uncut peptide) (scoring based uncut partial sequence prediction) processing).

ここで、非切断部分配列予測部102bにて行われる得点基準非切断部分配列予測処理について図10を参照して詳細に説明する。   Here, the score reference non-cutting partial sequence prediction processing performed in the non-cutting partial sequence prediction unit 102b will be described in detail with reference to FIG.

図10は、本実施形態における本システムの得点基準非切断部分配列予測処理の一例を示すフローチャートである。なお、本実施形態において、非切断部分配列予測部102bは、予め、切断部位含有配列格納部102b1の処理により、タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含むアミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を切断部位含有配列ファイル106b1の所定の記憶領域に格納しているものとする。   FIG. 10 is a flowchart showing an example of the score reference non-cutting partial sequence prediction process of the system according to the present embodiment. In this embodiment, the non-cleavable partial sequence predicting unit 102b is an amino acid that includes several residues before and after the enzyme cleavage site that is a site cleaved by a proteolytic enzyme in advance by the processing of the cleavage site-containing sequence storage unit 102b1. It is assumed that the cleavage site-containing sequence information, which is information relating to the cleavage site-containing sequence that is the sequence, is stored in a predetermined storage area of the cleavage site-containing sequence file 106b1.

まず、非切断部分配列予測部102bは、切断部位含有配列アミノ酸出現頻度算出部102b2の処理により、切断部位含有配列ファイル106b1の所定の記憶領域に格納された切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出し、切断部位含有配列アミノ酸出現頻度ファイル106b2の所定の記憶領域に格納する(ステップSB−1)。   First, the non-cleavable partial sequence predicting unit 102b obtains each amino acid residue in the cut site-containing sequence stored in the predetermined storage area of the cut site-containing sequence file 106b1 by the processing of the cut site-containing sequence amino acid appearance frequency calculating unit 102b2. Is calculated and stored in a predetermined storage area of the cleavage site-containing sequence amino acid appearance frequency file 106b2 (step SB-1).

ついで、非切断部分配列予測部102bは、切断部位含有配列得点算出部102b3の処理により、ステップSB−1にて算出された切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出し、切断部位含有配列得点ファイル106b3の所定の記憶領域に格納する(ステップSB−2)。   Next, the non-cleavable partial sequence prediction unit 102b obtains the cleavage site-containing sequence score information based on the cleavage site-containing sequence amino acid appearance frequency information calculated in step SB-1 by the processing of the cleavage site-containing sequence score calculation unit 102b3. Is calculated and stored in a predetermined storage area of the cleavage site-containing sequence score file 106b3 (step SB-2).

ついで、非切断部分配列予測部102bは、切断部位含有配列長部分配列得点算出部102b4の処理により、ステップSB−2にて算出された切断部位含有配列得点情報に基づいて、ステップSA−1にて取得された目的配列を切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出し、切断部位含有配列長部分配列ファイル106b4の所定の記憶領域に格納する(ステップSB−3)。なお、ステップSB−3において、切断部位含有配列長部分配列得点情報の算出の対象となる各部分配列は、ステップSA−1にて取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら切断部位含有配列の長さに分割して作成したものでもよい。   Next, the non-cleaved partial sequence prediction unit 102b performs step SA-1 based on the cleavage site-containing sequence score information calculated in step SB-2 by the processing of the cleavage site-containing sequence length partial sequence score calculation unit 102b4. The cut site containing sequence length partial sequence score information corresponding to each partial sequence obtained by dividing the target sequence obtained by dividing the target sequence into the length of the cut site containing sequence is calculated, and a predetermined storage area of the cut site containing sequence length partial sequence file 106b4 (Step SB-3). In step SB-3, each partial sequence for which the cleavage site-containing sequence length partial sequence score information is calculated slides the target sequence obtained in step SA-1 by one amino acid residue from the beginning. However, it may be prepared by dividing the length of the cleavage site-containing sequence.

ついで、非切断部分配列予測部102bは、得点基準非切断部分配列予測部102b5の処理により、ステップSB−3にて算出された切断部位含有配列長部分配列得点情報に基づいて酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列(非切断ペプチド)として予測し、非切断部分配列ファイル106b8の所定の記憶領域に格納する(ステップSB−4)。これにて、得点基準非切断部分配列予測処理が終了する。   Next, the non-cleavable partial sequence prediction unit 102b determines the enzyme cleavage site based on the cleavage site-containing sequence length partial sequence score information calculated in step SB-3 by the processing of the score reference non-cut partial sequence prediction unit 102b5. Then, the partial sequence cleaved at the enzyme cleavage site is predicted as a non-cleaved partial sequence (non-cleaved peptide), and stored in a predetermined storage area of the non-cleaved partial sequence file 106b8 (step SB-4). This completes the score reference non-cutting partial sequence prediction process.

また、ステップSA−2において、非切断部分配列予測部102bは、タンパク質分解酵素により切断される部位である酵素切断部位のアミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納し、格納された切断部位配列情報から、既知の切断部位モチーフ配列を抽出し、抽出された切断部位モチーフ配列を利用してステップSA−1にて取得された目的配列に対してモチーフ検索を実行することにより目的配列における酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得し、取得された切断部位検索得点情報に基づいて目的配列の酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列として予測してもよい(モチーフ検索基準非切断部分配列予測処理)。   In step SA-2, the non-cleavable partial sequence predicting unit 102b stores the cleavage site sequence information that is information on the cleavage site sequence that is the amino acid sequence of the enzyme cleavage site that is the site cleaved by the proteolytic enzyme, Extracting a known cleavage site motif sequence from the stored cleavage site sequence information, and performing a motif search for the target sequence obtained in step SA-1 using the extracted cleavage site motif sequence To search for the enzyme cleavage site in the target sequence, obtain the cleavage site search score information that is the score at the time of the search, determine the enzyme cleavage site of the target sequence based on the obtained cleavage site search score information, and cleave the enzyme A partial sequence cleaved at a site may be predicted as a non-cut partial sequence (motif search reference non-cut partial sequence prediction process).

ここで、非切断部分配列予測部102bにて行われるモチーフ検索基準非切断部分配列予測処理について図11を参照して詳細に説明する。   Here, the motif search reference non-cut partial sequence prediction processing performed in the non-cut partial sequence prediction unit 102b will be described in detail with reference to FIG.

図11は、本実施形態における本システムのモチーフ検索基準非切断部分配列予測処理の一例を示すフローチャートである。なお、本実施形態において、非切断部分配列予測部102bは、予め、切断部位配列格納部102b6の処理により、タンパク質分解酵素により切断される部位である酵素切断部位のアミノ酸配列である切断部位配列に関する情報である切断部位配列情報を切断部位配列ファイル106b5の所定の記憶領域に格納しているものとする。   FIG. 11 is a flowchart showing an example of the motif search reference non-cut partial sequence prediction process of the system according to the present embodiment. In this embodiment, the non-cleavable partial sequence prediction unit 102b relates to a cleavage site sequence that is an amino acid sequence of an enzyme cleavage site that is a site cleaved by a proteolytic enzyme in advance by the processing of the cleavage site sequence storage unit 102b6. It is assumed that the cut site sequence information, which is information, is stored in a predetermined storage area of the cut site sequence file 106b5.

まず、非切断部分配列予測部102bは、切断部位モチーフ配列抽出部102b7の処理により、切断部位配列ファイル106b5の所定の記憶領域に格納された切断部位配列情報から、既知の切断部位モチーフ配列を抽出し、切断部位モチーフ配列ファイル106b6の所定の記憶領域に格納する(ステップSC−1)。   First, the non-cut partial sequence prediction unit 102b extracts a known cut site motif sequence from the cut site sequence information stored in a predetermined storage area of the cut site sequence file 106b5 by the processing of the cut site motif sequence extraction unit 102b7. And stored in a predetermined storage area of the cleavage site motif sequence file 106b6 (step SC-1).

ついで、非切断部分配列予測部102bは、切断部位モチーフ検索部102b8の処理により、ステップSC−1にて抽出された切断部位モチーフ配列を利用してステップSA−1にて取得された目的配列に対してモチーフ検索を実行することにより目的配列における酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得し、切断部位検索得点ファイル106b7の所定の記憶領域に格納する(ステップSC−2)。   Next, the non-cut partial sequence prediction unit 102b uses the cut site motif sequence extracted in step SC-1 by the processing of the cut site motif search unit 102b8 to obtain the target sequence acquired in step SA-1. By executing a motif search on the target sequence, an enzyme cleavage site in the target sequence is searched, and a cleavage site search score information that is a score at the time of search is obtained and stored in a predetermined storage area of the cleavage site search score file 106b7 (step) SC-2).

ついで、非切断部分配列予測部102bは、モチーフ検索基準非切断部分配列予測部102b9の処理により、ステップSC−2にて取得された切断部位検索得点情報に基づいて目的配列の酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を非切断部分配列として予測し、非切断部分配列ファイル106b8の所定の記憶領域に格納する(ステップSC−3)。これにて、モチーフ検索基準非切断部分配列予測処理が終了する。   Next, the non-cleavable partial sequence prediction unit 102b determines the enzyme cleavage site of the target sequence based on the cut site search score information acquired in step SC-2 by the processing of the motif search reference non-cut partial sequence prediction unit 102b9. Then, the partial sequence cleaved at the enzyme cleavage site is predicted as a non-cleaved partial sequence and stored in a predetermined storage area of the non-cleaved partial sequence file 106b8 (step SC-3). This completes the motif search reference non-cut partial sequence prediction process.

再び図9に戻り、ワクチン候補部分配列予測装置100は、MHC結合部分配列予測部102cの処理により、ステップSA−1にて取得された目的配列情報から、特定の主要組織適合性抗原と結合することができるアミノ酸配列であって、目的配列の部分配列であるMHC結合部分配列を予測し、MHC結合部分配列ファイル106c17の所定の記憶領域に格納する(ステップSA−3)。   Returning to FIG. 9 again, the vaccine candidate partial sequence prediction apparatus 100 binds to a specific major histocompatibility antigen from the target sequence information acquired in step SA-1 by the processing of the MHC binding partial sequence prediction unit 102c. An MHC-binding partial sequence that is a possible amino acid sequence and is a partial sequence of the target sequence is predicted and stored in a predetermined storage area of the MHC-binding partial sequence file 106c17 (step SA-3).

ここで、ステップSA−3において、MHC結合部分配列予測部102cは、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含むアミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納し、格納されたMHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出し、算出されたMHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出し、算出されたMHC結合部位含有配列得点情報に基づいて、取得された目的配列をMHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出し、算出されたMHC結合部位含有配列長部分配列得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測してもよい(得点基準MHC結合部分配列予測処理)。   Here, in Step SA-3, the MHC binding partial sequence prediction unit 102c determines the type of a specific major histocompatibility antigen, and before and after the MHC binding site that is a site that binds to the determined major histocompatibility antigen. Stores MHC binding site-containing sequence information, which is information on an MHC binding site-containing sequence that is an amino acid sequence containing several residues, and the appearance of amino acids at positions corresponding to each amino acid residue in the stored MHC binding site-containing sequence MHC binding site-containing sequence amino acid appearance frequency information, which is information relating to the frequency, is calculated, MHC binding site-containing sequence amino acid score information is calculated based on the calculated MHC binding site-containing sequence amino acid appearance frequency information, and the calculated MHC binding Based on the site-containing sequence score information, each part distribution obtained by dividing the acquired target sequence into the length of the MHC binding site-containing sequence MHC binding site-containing sequence length partial sequence score information corresponding to is calculated, an MHC binding site-containing sequence length partial sequence score information is determined, an MHC binding site is determined, and the partial sequence including the MHC binding site is defined as MHC It may be predicted as a binding partial sequence (scoring standard MHC binding partial sequence prediction process).

ここで、MHC結合部分配列予測部102cにて行われる得点基準MHC結合部分配列予測処理について図12を参照して詳細に説明する。   Here, the score reference MHC binding partial sequence prediction process performed by the MHC binding partial sequence prediction unit 102c will be described in detail with reference to FIG.

図12は、本実施形態における本システムの得点基準MHC結合部分配列予測処理の一例を示すフローチャートである。なお、本実施形態において、MHC結合部分配列予測部102cは、予め、主要組織適合性抗原決定部102c1の処理により、特定の主要組織適合性抗原の種類を決定し、MHC結合部位含有配列格納部102c2の処理により、決定された主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含むアミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報をMHC結合部位含有配列ファイル106c1の所定の記憶領域に格納しているものとする。   FIG. 12 is a flowchart illustrating an example of the score reference MHC binding partial sequence prediction process of the system according to the present embodiment. In the present embodiment, the MHC binding partial sequence prediction unit 102c previously determines the type of a specific major histocompatibility antigen by the processing of the major histocompatibility antigen determination unit 102c1, and stores the MHC binding site-containing sequence storage unit. The MHC binding site-containing sequence information, which is information on the MHC binding site-containing sequence that is an amino acid sequence including several residues before and after the MHC binding site, which is a site that binds to the determined major histocompatibility antigen, is obtained by the processing of 102c2. It is assumed that it is stored in a predetermined storage area of the binding site-containing sequence file 106c1.

まず、MHC結合部分配列予測部102cは、MHC結合部位含有配列アミノ酸出現頻度算出部102c3の処理により、MHC結合部位含有配列ファイル106c1の所定の記憶領域に格納されたMHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出し、MHC結合部位含有配列アミノ酸出現頻度ファイル106c2の所定の記憶領域に格納する(ステップSD−1)。   First, the MHC binding site sequence predicting unit 102c, by the processing of the MHC binding site-containing sequence amino acid appearance frequency calculation unit 102c3, each MHC binding site-containing sequence stored in a predetermined storage area of the MHC binding site-containing sequence file 106c1. MHC binding site-containing sequence amino acid appearance frequency information, which is information relating to the appearance frequency of amino acids at positions corresponding to amino acid residues, is calculated and stored in a predetermined storage area of the MHC binding site-containing sequence amino acid appearance frequency file 106c2 (step SD). -1).

ついで、MHC結合部分配列予測部102cは、MHC結合部位含有配列得点算出部102c4の処理により、ステップSD−1にて算出されたMHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出し、MHC結合部位含有配列得点ファイル106c3の所定の記憶領域に格納する(ステップSD−2)。   Next, the MHC binding site containing sequence score calculation unit 102c4 performs the processing of the MHC binding site containing sequence score calculation unit 102c4 based on the MHC binding site containing sequence amino acid appearance frequency information calculated in step SD-1. Sequence score information is calculated and stored in a predetermined storage area of the MHC binding site-containing sequence score file 106c3 (step SD-2).

ついで、MHC結合部分配列予測部102cは、MHC結合部位含有配列長部分配列得点算出部102c5の処理により、ステップSD−2にて算出されたMHC結合部位含有配列得点情報に基づいて、ステップSA−1にて取得された目的配列をMHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出し、MHC結合部位含有配列長部分配列ファイル106c4の所定の記憶領域に格納する(ステップSD−3)。なお、MHC結合部位含有配列長部分配列得点情報の算出の対象となる各部分配列は、ステップSA−1にて取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながらMHC結合部位含有配列の長さに分割して作成したものでもよい。   Next, the MHC binding site-containing sequence predicting unit 102c performs step SA- based on the MHC binding site-containing sequence score information calculated in step SD-2 by the processing of the MHC binding site-containing sequence length partial sequence score calculation unit 102c5. MHC binding site-containing sequence length partial sequence score information corresponding to each partial sequence obtained by dividing the target sequence obtained in 1 into the length of the MHC binding site-containing sequence is calculated, and the MHC binding site-containing sequence length partial sequence file 106c4 In a predetermined storage area (step SD-3). In addition, each partial sequence for which MHC binding site-containing sequence length partial sequence score information is calculated includes the MHC binding site while sliding the target sequence obtained in step SA-1 by one amino acid residue from the beginning. It may be created by dividing the length of the array.

ついで、MHC結合部分配列予測部102cは、得点基準MHC結合部分配列予測部102c6の処理により、ステップSD−3にて算出されたMHC結合部位含有配列長部分配列得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測し、MHC結合部分配列ファイル106c17の所定の記憶領域に格納する(ステップSD−4)。これにて、得点基準MHC結合部分配列予測処理が終了する。   Next, the MHC binding partial sequence predicting unit 102c determines the MHC binding site based on the MHC binding site-containing sequence length partial sequence score information calculated in step SD-3 by the processing of the score reference MHC binding partial sequence prediction unit 102c6. The partial sequence including the MHC binding site is predicted as an MHC binding partial sequence, and stored in a predetermined storage area of the MHC binding partial sequence file 106c17 (step SD-4). This completes the score reference MHC binding partial sequence prediction process.

また、ステップSA−3において、MHC結合部分配列予測部102cは、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原と結合する部位であるMHC結合部位のアミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納し、格納されたMHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出し、抽出されたMHC結合部位モチーフ配列を利用してステップSA−1にて取得された目的配列に対してモチーフ検索を実行することにより目的配列におけるMHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得し、取得されたMHC結合部位検索得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測してもよい(モチーフ検索基準MHC結合部分配列予測処理)。   In step SA-3, the MHC binding partial sequence prediction unit 102c determines the type of a specific major histocompatibility antigen, and the amino acid sequence of the MHC binding site that is a site that binds to the determined major histocompatibility antigen. MHC binding site sequence information, which is information related to the MHC binding site sequence, is stored, a known MHC binding site motif sequence is extracted from the stored MHC binding site sequence information, and the extracted MHC binding site motif sequence is used Then, a motif search is performed on the target sequence acquired in step SA-1 to search for an MHC binding site in the target sequence, and MHC binding site search score information that is a score at the time of search is acquired and acquired. The MHC binding site is determined based on the obtained MHC binding site search score information, and the partial sequence including the MHC binding site is determined as MH. It may be predicted as a binding subsequences (Motif search criteria MHC binding subsequences prediction processing).

ここで、MHC結合部分配列予測部102cにて行われるモチーフ検索基準MHC結合部分配列予測処理について図13を参照して詳細に説明する。   Here, the motif search reference MHC binding partial sequence prediction process performed by the MHC binding partial sequence prediction unit 102c will be described in detail with reference to FIG.

図13は、本実施形態における本システムのモチーフ検索基準MHC結合部分配列予測処理の一例を示すフローチャートである。なお、本実施形態において、MHC結合部分配列予測部102cは、予め、主要組織適合性抗原決定部102c1の処理により、特定の主要組織適合性抗原の種類を決定し、MHC結合部位配列格納部102c7の処理により、決定された主要組織適合性抗原と結合する部位であるMHC結合部位のアミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報をMHC結合部位配列ファイル106c5の所定の記憶領域に格納しているものとする。   FIG. 13 is a flowchart showing an example of the motif search reference MHC binding partial sequence prediction process of the present system in the present embodiment. In the present embodiment, the MHC binding partial sequence prediction unit 102c previously determines the type of a specific major histocompatibility antigen by the processing of the major histocompatibility antigen determination unit 102c1, and the MHC binding site sequence storage unit 102c7. As a result of this processing, MHC binding site sequence information, which is information relating to the MHC binding site sequence that is the amino acid sequence of the MHC binding site that is the site that binds to the determined major histocompatibility antigen, is stored in the predetermined memory of the MHC binding site sequence file 106c5 It is assumed that it is stored in the area.

まず、MHC結合部分配列予測部102cは、MHC結合部位モチーフ配列抽出部102c8の処理により、MHC結合部位配列ファイル106c5の所定の記憶領域に格納されたMHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出し、MHC結合部位モチーフ配列ファイル106c6の所定の記憶領域に格納する(ステップSE−1)。   First, the MHC binding partial sequence predicting unit 102c, by the processing of the MHC binding site motif sequence extracting unit 102c8, obtains a known MHC binding site from MHC binding site sequence information stored in a predetermined storage area of the MHC binding site sequence file 106c5. The motif sequence is extracted and stored in a predetermined storage area of the MHC binding site motif sequence file 106c6 (step SE-1).

ついで、MHC結合部分配列予測部102cは、MHC結合部位モチーフ検索部102c9の処理により、ステップSE−1にて抽出されたMHC結合部位モチーフ配列を利用してステップSA−1にて取得された目的配列に対してモチーフ検索を実行することにより目的配列におけるMHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得し、MHC結合部位検索得点ファイル106c7の所定の記憶領域に格納する(ステップSE−2)。   Next, the MHC binding partial sequence prediction unit 102c uses the MHC binding site motif sequence extracted in step SE-1 by the processing of the MHC binding site motif search unit 102c9, and the object acquired in step SA-1 A motif search is performed on the sequence to search for an MHC binding site in the target sequence, MHC binding site search score information, which is a score at the time of search, is acquired, and a predetermined storage area of the MHC binding site search score file 106c7 is obtained. Store (step SE-2).

ついで、MHC結合部分配列予測部102cは、モチーフ検索基準MHC結合部分配列予測部102c10の処理により、ステップSE−2にて取得されたMHC結合部位検索得点情報に基づいてMHC結合部位を決定し、当該MHC結合部位を含む部分配列をMHC結合部分配列として予測し、MHC結合部分配列ファイル106c17の所定の記憶領域に格納する(ステップSE−3)。これにて、モチーフ検索基準MHC結合部分配列予測処理が終了する。   Next, the MHC binding partial sequence prediction unit 102c determines the MHC binding site based on the MHC binding site search score information acquired in step SE-2 by the processing of the motif search reference MHC binding partial sequence prediction unit 102c10. The partial sequence including the MHC binding site is predicted as an MHC binding partial sequence, and stored in a predetermined storage area of the MHC binding partial sequence file 106c17 (step SE-3). This completes the motif search reference MHC binding partial sequence prediction process.

また、ステップSA−3において、MHC結合部分配列予測部102cは、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原のアミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得し、ステップSA−1にて取得された目的配列を決定された主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成し、作成された各MHC長部分配列および取得された主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測し、予測された複合体立体構造情報に基づいて、MHC長部分配列と主要組織適合性抗原配列との間で相互作用しているアミノ酸の組に関する情報である相互作用アミノ酸情報を決定し、決定された相互作用アミノ酸情報に含まれるアミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出し、算出された全てのアミノ酸の組の間の親和力情報の総和を算出し、算出された親和力情報の総和に基づいて、MHC長部分配列と主要組織適合性抗原との親和性を評価することにより、MHC結合部分配列を予測してもよい(親和力基準MHC結合部分配列予測処理)。   In Step SA-3, the MHC binding partial sequence prediction unit 102c determines the type of the specific major histocompatibility antigen, and relates to the major histocompatibility antigen sequence that is the amino acid sequence of the determined major histocompatibility antigen. The main histocompatibility antigen sequence information, which is information, is acquired, and the target sequence acquired in step SA-1 is divided into lengths corresponding to the determined type of main histocompatibility antigen, and the MHC length partial sequence And, based on each of the generated MHC length partial sequences and the obtained major histocompatibility antigen sequence, predict the complex three-dimensional structure information, and on the basis of the predicted complex three-dimensional structure information, Interacting amino acid information, which is information about the set of amino acids interacting between the sequence and the major histocompatibility antigen sequence, is determined and included in the determined interacting amino acid information. Affinity information, which is information about the affinity between amino acid pairs, is statistically calculated using the three-dimensional structure information of known proteins, and the sum of affinity information between all calculated amino acid pairs is calculated. The MHC binding partial sequence may be predicted by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen based on the calculated sum of the affinity information (affinity reference MHC binding partial sequence prediction). processing).

ここで、MHC結合部分配列予測部102cにて行われる親和力基準MHC結合部分配列予測処理について図14を参照して詳細に説明する。   Here, the affinity reference MHC binding partial sequence prediction process performed by the MHC binding partial sequence prediction unit 102c will be described in detail with reference to FIG.

図14は、本実施形態における本システムの親和力基準MHC結合部分配列予測処理の一例を示すフローチャートである。   FIG. 14 is a flowchart showing an example of the affinity reference MHC binding partial sequence prediction process of the system according to the present embodiment.

まず、MHC結合部分配列予測部102cは、主要組織適合性抗原決定部102c1の処理により、特定の主要組織適合性抗原の種類を決定する(ステップSF−1)。   First, the MHC binding partial sequence prediction unit 102c determines the type of a specific major histocompatibility antigen by the processing of the major histocompatibility antigen determination unit 102c1 (step SF-1).

ついで、MHC結合部分配列予測部102cは、MHC配列取得部102c11の処理により、ステップSF−1にて決定された主要組織適合性抗原のアミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得し、MHC配列ファイル106c8の所定の記憶領域に格納する(ステップSF−2)。   Next, the MHC binding partial sequence prediction unit 102c is the main information that is information on the main histocompatibility antigen sequence that is the amino acid sequence of the main histocompatibility antigen determined in step SF-1 by the processing of the MHC sequence acquisition unit 102c11. The histocompatibility antigen sequence information is acquired and stored in a predetermined storage area of the MHC sequence file 106c8 (step SF-2).

ついで、MHC結合部分配列予測部102cは、MHC長部分配列作成部102c12の処理により、ステップSA−1にて取得された目的配列をステップSF−1にて決定された主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成し、MHC長部分配列ファイル106c9の所定の記憶領域に格納する(ステップSF−3)。ここで、MHC長部分配列作成部102c12は、スライド分割部102c13の処理により、ステップSA−1にて取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら、ステップSF−1にて決定された主要組織適合性抗原の種類に対応する長さに分割して、MHC長部分配列を作成してもよい。また、主要組織適合性抗原の種類に対応する長さは、例えば、8〜18残基数でもよい。   Next, the MHC binding partial sequence predicting unit 102c determines the type of major histocompatibility antigen determined in step SF-1 as the target sequence acquired in step SA-1 by the processing of the MHC long partial sequence creating unit 102c12. The MHC length partial sequence is created and stored in a predetermined storage area of the MHC length partial sequence file 106c9 (step SF-3). Here, the MHC long partial sequence creating unit 102c12 slides the target sequence acquired in step SA-1 by one amino acid residue from the beginning by the process of the slide dividing unit 102c13, in step SF-1. The MHC length subsequence may be generated by dividing into lengths corresponding to the determined major histocompatibility antigen types. The length corresponding to the type of major histocompatibility antigen may be, for example, 8 to 18 residues.

ついで、MHC結合部分配列予測部102cは、複合体立体構造予測部102c14の処理により、ステップSF−3にて作成された各MHC長部分配列およびステップSF−2にて取得された主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測し、予測複合体立体構造ファイル106c10の所定の記憶領域に格納する(ステップSF−4)。   Next, the MHC binding partial sequence predicting unit 102c performs the processing of the complex three-dimensional structure predicting unit 102c14, and the main tissue compatibility acquired in step SF-2 and each MHC long partial sequence created in step SF-3. Based on the antigen sequence, complex three-dimensional structure information is predicted and stored in a predetermined storage area of the predicted complex three-dimensional structure file 106c10 (step SF-4).

ついで、MHC結合部分配列予測部102cは、相互作用アミノ酸決定部102c15の処理により、ステップSF−4にて予測された複合体立体構造情報に基づいて、MHC長部分配列と主要組織適合性抗原配列との間で相互作用しているアミノ酸の組に関する情報である相互作用アミノ酸情報を決定し、相互作用アミノ酸ファイル106c11の所定の記憶領域に格納する(ステップSF−5)。   Next, the MHC binding partial sequence prediction unit 102c performs the processing of the interaction amino acid determination unit 102c15, based on the complex three-dimensional structure information predicted in step SF-4, and the MHC long partial sequence and the major histocompatibility antigen sequence. Interacting amino acid information, which is information relating to a set of amino acids interacting with each other, is determined and stored in a predetermined storage area of the interacting amino acid file 106c11 (step SF-5).

ついで、MHC結合部分配列予測部102cは、親和力算出部102c17の処理により、ステップSF−5にて決定された相互作用アミノ酸情報に含まれるアミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出し、親和力ファイル106c12の所定の記憶領域に格納する(ステップSF−6)。   Next, the MHC binding partial sequence prediction unit 102c, by the processing of the affinity calculation unit 102c17, affinity information that is information on the affinity between the amino acid sets included in the interaction amino acid information determined in step SF-5, Statistical calculation is performed using the three-dimensional structure information of the known protein, and the information is stored in a predetermined storage area of the affinity file 106c12 (step SF-6).

ここで、ステップSF−6において、MHC結合部分配列予測部102cは、MHC結合アミノ酸残基間距離値格納部102c16の処理により、ステップSF−1にて決定された主要組織適合性抗原と結合するアミノ酸配列の各アミノ酸残基と主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報をMHC結合アミノ酸残基間距離値ファイル106c13の所定の記憶領域に格納し、親和力算出部102c17は、距離値基準親和力算出部102c18の処理により、親和力情報を、MHC結合アミノ酸残基間距離値ファイル106c13の所定の記憶領域に格納されたMHC結合アミノ酸残基間距離値情報、および/または、既知のタンパク質の立体構造情報を利用した統計ポテンシャルを用いて算出し、親和力ファイル106c12の所定の記憶領域に格納してもよい。   Here, in step SF-6, the MHC binding partial sequence prediction unit 102c binds to the major histocompatibility antigen determined in step SF-1 by the processing of the MHC binding amino acid residue distance value storage unit 102c16. MHC-binding amino acid residue distance value information, which is information relating to the distance value between each amino acid residue of the amino acid sequence and each amino acid residue of the major histocompatibility antigen sequence, is stored in the MHC-binding amino acid residue distance value file 106c13. The affinity calculation unit 102c17 stores the affinity information in the predetermined storage area, and the affinity information is stored in the predetermined storage area of the MHC-binding amino acid residue distance value file 106c13 by the processing of the distance value reference affinity calculation unit 102c18. Statistics based on distance information between amino acid residues and / or 3D structure information of known proteins Calculated using Tensharu may be stored in a predetermined memory region of the affinity file 106C12.

ついで、MHC結合部分配列予測部102cは、親和力総和算出部102c19の処理により、ステップSF−6にて算出された全てのアミノ酸の組の間の親和力情報の総和を算出する(ステップSF−7)。   Next, the MHC binding partial sequence prediction unit 102c calculates the sum of the affinity information among all the amino acid pairs calculated in step SF-6 by the processing of the affinity sum calculation unit 102c19 (step SF-7). .

ついで、MHC結合部分配列予測部102cは、親和力基準MHC結合部分配列予測部102c20の処理により、ステップSF−7にて算出された親和力情報の総和に基づいて、MHC長部分配列と主要組織適合性抗原との親和性を評価することにより、MHC結合部分配列を予測し、MHC結合部分配列ファイル106c17の所定の記憶領域に格納する(ステップSF−8)。これにて、親和力基準MHC結合部分配列予測処理が終了する。   Next, the MHC binding partial sequence predicting unit 102c, based on the sum of the affinity information calculated in step SF-7 by the processing of the affinity reference MHC binding partial sequence predicting unit 102c20, is compatible with the main tissue compatibility with the MHC long partial sequence. By evaluating the affinity with the antigen, an MHC binding partial sequence is predicted and stored in a predetermined storage area of the MHC binding partial sequence file 106c17 (step SF-8). Thus, the affinity reference MHC binding partial sequence prediction process is completed.

また、ステップSA−3において、MHC結合部分配列予測部102cは、特定の主要組織適合性抗原の種類を決定し、決定された主要組織適合性抗原の立体構造であるMHC立体構造情報を取得し、取得されたMHC立体構造情報およびステップSA−1にて取得された目的配列の部分配列に基づいて、主要組織適合性抗原と部分配列との複合体立体構造情報を作成し、作成された複合体立体構造情報において、量子化学計算手法(例えば、非経験的分子軌道法、半経験的分子軌道法、MOZYME法など)を用いて複合体立体構造情報に対応する立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出し、算出された構造評価指標値情報に基づいて、部分配列の中からMHC結合部分配列を予測してもよい(構造評価指標基準MHC結合部分配列予測処理)。   In Step SA-3, the MHC binding partial sequence prediction unit 102c determines the type of the specific major histocompatibility antigen, and acquires MHC three-dimensional structure information that is the determined three-dimensional structure of the major histocompatibility antigen. Based on the acquired MHC three-dimensional structure information and the partial sequence of the target sequence acquired in step SA-1, complex three-dimensional structure information of the major histocompatibility antigen and the partial sequence is created, and the composite In order to evaluate the three-dimensional structure corresponding to the three-dimensional structure information of a complex using quantum chemical calculation methods (for example, non-empirical molecular orbital method, semi-empirical molecular orbital method, MOZYME method) The structure evaluation index value information that is information about the value may be calculated, and the MHC binding partial sequence may be predicted from the partial sequence based on the calculated structure evaluation index value information (structure Value index reference MHC binding subsequences prediction processing).

ここで、MHC結合部分配列予測部102cにて行われる構造評価指標基準MHC結合部分配列予測処理について図15を参照して詳細に説明する。   Here, the structure evaluation index reference MHC binding partial sequence prediction process performed in the MHC binding partial sequence prediction unit 102c will be described in detail with reference to FIG.

図15は、本実施形態における本システムの構造評価指標基準MHC結合部分配列予測処理の一例を示すフローチャートである。   FIG. 15 is a flowchart illustrating an example of the structure evaluation index reference MHC binding partial sequence prediction process of the system according to the present embodiment.

まず、MHC結合部分配列予測部102cは、主要組織適合性抗原決定部102c1の処理により、特定の主要組織適合性抗原の種類を決定する(ステップSG−1)。   First, the MHC binding partial sequence prediction unit 102c determines the type of a specific major histocompatibility antigen by the processing of the major histocompatibility antigen determination unit 102c1 (step SG-1).

ついで、MHC結合部分配列予測部102cは、MHC立体構造取得部102c21の処理により、ステップSG−1にて決定された主要組織適合性抗原の立体構造であるMHC立体構造情報を取得し、MHC立体構造ファイル106c14の所定の記憶領域に格納する(ステップSG−2)。   Next, the MHC binding partial sequence prediction unit 102c acquires MHC three-dimensional structure information that is the three-dimensional structure of the main histocompatibility antigen determined in step SG-1 by the processing of the MHC three-dimensional structure acquisition unit 102c21, and MHC three-dimensional structure information is obtained. The data is stored in a predetermined storage area of the structure file 106c14 (step SG-2).

ついで、MHC結合部分配列予測部102cは、複合体立体構造作成部102c22の処理により、ステップSG−2にて取得されたMHC立体構造情報およびステップSA−1にて取得された目的配列の部分配列に基づいて、主要組織適合性抗原と部分配列との複合体立体構造情報を作成し、作成複合体立体構造ファイル106c15の所定の記憶領域に格納する(ステップSG−3)。なお、部分配列は、ステップSA−1にて取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら分割して作成したものでもよい。   Next, the MHC binding partial sequence predicting unit 102c performs the processing of the complex three-dimensional structure creating unit 102c22 to obtain the MHC three-dimensional structure information acquired in Step SG-2 and the partial sequence of the target sequence acquired in Step SA-1. Based on the above, the three-dimensional structure information of the main histocompatibility antigen and the partial sequence is created and stored in a predetermined storage area of the created complex three-dimensional structure file 106c15 (step SG-3). The partial sequence may be created by dividing the target sequence obtained in step SA-1 while sliding it by one amino acid residue from the beginning.

ついで、MHC結合部分配列予測部102cは、構造評価指標算出部102c23の処理により、ステップSG−3にて作成された複合体立体構造情報において、量子化学計算手法(例えば、非経験的分子軌道法、半経験的分子軌道法、MOZYME法など)を用いて複合体立体構造情報に対応する立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出し、構造評価指標値ファイル106c16の所定の記憶領域に格納する(ステップSG−4)。   Next, the MHC binding partial sequence predicting unit 102c uses the quantum chemistry calculation method (for example, the ab initio molecular orbital method) in the complex three-dimensional structure information created in Step SG-3 by the process of the structure evaluation index calculating unit 102c23. , Semi-empirical molecular orbital method, MOZYME method, etc.) to calculate structure evaluation index value information, which is information related to index values for evaluating the three-dimensional structure corresponding to the three-dimensional structure information of the complex. The data is stored in a predetermined storage area 106c16 (step SG-4).

ここで、構造評価指標値情報は、例えば、MOZYME法を実装した半経験的分子軌道計算プログラム「MOPAC2000」(製品名)(富士通株式会社(会社名))や、アブイニシオ(ab initio)分子軌道法を実装した分子軌道計算プログラム「Gaussian 98 Rev. A. 11.3」(製品名)(Gaussian, Inc.(会社名), Pittsburg PA. 2002)や「Gamess June 20 2002 R2」(製品名)(Iowa State University, 2002)など、を用いてエネルギー計算を行った結果得られる値でもよい。   Here, the structure evaluation index value information includes, for example, a semi-empirical molecular orbital calculation program “MOPAC2000” (product name) (Fujitsu Ltd. (company name)) that implements the MOZYME method, ab initio molecular orbital method. Orbital calculation program “Gaussian 98 Rev. A. 11.3” (product name) (Gaussian, Inc. (company name), Pittsburg PA. 2002) and “Gamess June 20 2002 R2” (product name) ( A value obtained as a result of energy calculation using Iowa State University, 2002) or the like may be used.

ついで、MHC結合部分配列予測部102cは、構造評価指標基準MHC結合部分配列予測部102c24の処理により、ステップSG−4にて算出された構造評価指標値情報に基づいて、部分配列の中からMHC結合部分配列を予測し、MHC結合部分配列ファイル106c17の所定の記憶領域に格納する(ステップSG−5)。これにて、構造評価指標基準MHC結合部分配列予測処理が終了する。   Next, the MHC binding partial sequence predicting unit 102c performs the processing of the structure evaluation index reference MHC binding partial sequence prediction unit 102c24 based on the structure evaluation index value information calculated in step SG-4, from among the partial sequences. The binding partial sequence is predicted and stored in a predetermined storage area of the MHC binding partial sequence file 106c17 (step SG-5). Thus, the structure evaluation index reference MHC binding partial sequence prediction process is completed.

再び図9に戻り、ワクチン候補部分配列予測装置100は、非自己認識部分配列予測部102dの処理により、ステップSA−1にて取得された目的配列情報から、自己として認識されないアミノ酸配列であって、目的配列の部分配列である非自己認識部分配列を予測し、非自己認識部分配列ファイル106d3の所定の記憶領域に格納する(ステップSA−4)。   Returning to FIG. 9 again, the vaccine candidate partial sequence prediction apparatus 100 is an amino acid sequence that is not recognized as self from the target sequence information acquired in step SA-1 by the processing of the non-self-recognizing partial sequence prediction unit 102d. The non-self-recognizing partial sequence that is a partial sequence of the target sequence is predicted and stored in a predetermined storage area of the non-self-recognizing partial sequence file 106d3 (step SA-4).

ここで、ステップSA−4において、非自己認識部分配列予測部102dは、特定の生物種(例えば、ヒトなど)に関するアミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納し、格納された特定生物種配列情報に対して、取得された目的配列の部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得し、取得された非自己認識検索得点情報に基づいて、部分配列の中から非自己認識部分配列を予測してもよい(検索基準非自己認識部分配列予測処理)。また、ステップSA−4において、本出願人による特許出願である特願2003−129554に記載の技術を利用して、非自己認識部分配列を予測してもよい。   Here, in step SA-4, the non-self-recognizing partial sequence predicting unit 102d stores specific biological species sequence information that is information on a specific biological species amino acid sequence that is an amino acid sequence related to a specific biological species (eg, human). Then, by executing a search for the partial sequence of the acquired target sequence with respect to the stored specific species sequence information, non-self-recognition search score information that is a score at the time of search is acquired, and Based on the self-recognition search score information, a non-self-recognized partial sequence may be predicted from the partial sequences (search reference non-self-recognized partial sequence prediction process). In step SA-4, a non-self-recognized partial sequence may be predicted using the technique described in Japanese Patent Application No. 2003-129554, which is a patent application filed by the present applicant.

ここで、非自己認識部分配列予測部102dにて行われる検索基準非自己認識部分配列予測処理について図16を参照して詳細に説明する。   Here, the search reference non-self-recognition partial sequence prediction process performed by the non-self-recognition partial sequence prediction unit 102d will be described in detail with reference to FIG.

図16は、本実施形態における本システムの検索基準非自己認識部分配列予測処理の一例を示すフローチャートである。なお、本実施形態において、非自己認識部分配列予測部102dは、予め、特定生物種配列格納部102d1の処理により、特定の生物種(例えば、ヒトなど)に関するアミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を特定生物種配列ファイル106d1の所定の記憶領域に格納しているものとする。   FIG. 16 is a flowchart illustrating an example of the search reference non-self-recognizing partial sequence prediction process of the system according to the present embodiment. In the present embodiment, the non-self-recognizing partial sequence prediction unit 102d is previously processed by the specific biological species sequence storage unit 102d1, and the specific biological species amino acid sequence that is an amino acid sequence related to a specific biological species (eg, human) is preliminarily processed. It is assumed that specific species sequence information, which is information related to this, is stored in a predetermined storage area of the specific species sequence file 106d1.

まず、非自己認識部分配列予測部102dは、非自己認識部分配列検索部102d2の処理により、特定生物種配列ファイル106d1の所定の記憶領域に格納された特定生物種配列情報に対して、ステップSA−1にて取得された目的配列の部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得し、非自己認識検索得点ファイル106d2の所定の記憶領域に格納する(ステップSH−1)。なお、部分配列は、ステップSA−1にて取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら分割して作成したものでもよい。   First, the non-self-recognizing partial sequence prediction unit 102d performs step SA on the specific biological species sequence information stored in the predetermined storage area of the specific biological species sequence file 106d1 by the processing of the non-self-recognizing partial sequence search unit 102d2. The non-self-recognition search score information, which is a score at the time of the search, is acquired by executing a search of the partial sequence of the target sequence acquired at -1, and stored in a predetermined storage area of the non-self-recognition search score file 106d2. (Step SH-1). The partial sequence may be created by dividing the target sequence obtained in step SA-1 while sliding it by one amino acid residue from the beginning.

ついで、非自己認識部分配列予測部102dは、検索基準非自己認識部分配列予測部102d3の処理により、ステップSH−1にて取得された非自己認識検索得点情報に基づいて、部分配列の中から非自己認識部分配列を予測し、非自己認識部分配列ファイル106d3の所定の記憶領域に格納する(ステップSH−2)。これにて、検索基準非自己認識部分配列予測処理が終了する。   Next, the non-self-recognizing partial sequence predicting unit 102d is selected from the partial sequences based on the non-self-recognizing search score information acquired in step SH-1 by the processing of the search reference non-self-recognizing partial sequence predicting unit 102d3. A non-self-recognizing partial sequence is predicted and stored in a predetermined storage area of the non-self-recognizing partial sequence file 106d3 (step SH-2). This completes the search reference non-self-recognizing partial sequence prediction process.

再び図9に戻り、ワクチン候補部分配列予測装置100は、非突然変異部分配列予測部102eの処理により、ステップSA−1にて取得された目的配列情報から、突然変異の入りにくいアミノ酸配列であって、目的配列の部分配列である非突然変異部分配列を予測し、非突然変異部分配列ファイル106e2の所定の記憶領域に格納する(ステップSA−5)。   Returning to FIG. 9 again, the vaccine candidate partial sequence predicting apparatus 100 is an amino acid sequence that is difficult to be mutated from the target sequence information acquired in Step SA-1 by the processing of the non-mutated partial sequence predicting unit 102e. Thus, a non-mutated partial sequence that is a partial sequence of the target sequence is predicted and stored in a predetermined storage area of the non-mutated partial sequence file 106e2 (step SA-5).

ここで、ステップSA−5において、非突然変異部分配列予測部102eは、ステップSA−1にて取得された目的配列の各部分配列に対して、突然変異を起こす確率である突然変異確率を予測するための突然変異予測手法(例えば、特許番号「特許第3102957号」の特許公報参照。)に基づいて、突然変異確率を予測し、予測された突然変異確率に基づいて、部分配列の中から非突然変異部分配列を予測してもよい(確率基準非突然変異部分配列予測処理)。   Here, in step SA-5, the non-mutated partial sequence predicting unit 102e predicts a mutation probability that is a probability of causing mutation for each partial sequence of the target sequence acquired in step SA-1. Based on a mutation prediction method (for example, refer to the patent publication “Patent No. 312957”), a mutation probability is predicted, and based on the predicted mutation probability, a partial sequence is selected. A non-mutated partial sequence may be predicted (probability-based non-mutated partial sequence prediction process).

ここで、非突然変異部分配列予測部102eにて行われる確率基準非突然変異部分配列予測処理について図17を参照して詳細に説明する。   Here, the probability-based non-mutated partial sequence prediction process performed by the non-mutated partial sequence prediction unit 102e will be described in detail with reference to FIG.

図17は、本実施形態における本システムの確率基準非突然変異部分配列予測処理の一例を示すフローチャートである。   FIG. 17 is a flowchart illustrating an example of the probability criterion non-mutated partial sequence prediction process of the system according to the present embodiment.

まず、非突然変異部分配列予測部102eは、突然変異確率予測部102e1の処理により、ステップSA−1にて取得された目的配列の各部分配列に対して、突然変異を起こす確率である突然変異確率を予測するための突然変異予測手法(例えば、特許番号「特許第3102957号」の特許公報参照。)に基づいて、突然変異確率を予測し、突然変異確率ファイル106e1の所定の記憶領域に格納する(ステップSI−1)。ここで、部分配列は、ステップSA−1にて取得された目的配列を、先頭から1アミノ酸残基ずつスライドしながら分割して作成したものでもよい。   First, the non-mutated partial sequence predicting unit 102e is a mutation that is a probability of causing mutation for each partial sequence of the target sequence acquired in step SA-1 by the processing of the mutation probability predicting unit 102e1. Based on a mutation prediction method for predicting the probability (see, for example, the patent publication “Patent No. 312957”), the mutation probability is predicted and stored in a predetermined storage area of the mutation probability file 106e1. (Step SI-1). Here, the partial sequence may be created by dividing the target sequence obtained in Step SA-1 while sliding it by one amino acid residue from the beginning.

また、特許番号「特許第3102957号」の特許公報に記載の技術では、点突然変異が局所的な部分配列に依存していることを利用している。具体的には、DNA部分配列の各塩基の変異確率の組であるエラースペクトルを、予測したい遺伝子の文字列(A、C、G、Tの4つの文字の組み合わせ)について合成し、合成後の変異確率の和を求めて、和が高い塩基を、突然変異を起こす確率が高いと予測し、遺伝子の突然変異の予測を可能にしている。   Further, the technique described in the patent publication “Patent No. 312957” utilizes the fact that point mutation depends on a local partial sequence. Specifically, an error spectrum that is a set of mutation probabilities for each base in a DNA partial sequence is synthesized for a character string (a combination of four letters A, C, G, and T) to be predicted, By calculating the sum of the mutation probabilities, a base having a high sum is predicted to have a high probability of causing a mutation, thereby enabling prediction of gene mutation.

ついで、非突然変異部分配列予測部102eは、確率基準非突然変異部分配列予測部102e3の処理により、ステップSI−1にて予測された突然変異確率に基づいて、部分配列の中から非突然変異部分配列を予測し、非突然変異部分配列ファイル106e2の所定の記憶領域に格納する(ステップSI−2)。これにて、確率基準非突然変異部分配列予測処理が終了する。   Next, the non-mutated partial sequence predicting unit 102e performs non-mutation from the partial sequences based on the mutation probability predicted in step SI-1 by the processing of the probability-based non-mutated partial sequence predicting unit 102e3. The partial sequence is predicted and stored in a predetermined storage area of the non-mutated partial sequence file 106e2 (step SI-2). This completes the probability criterion non-mutated partial sequence prediction process.

再び図9に戻り、ワクチン候補部分配列予測装置100は、ワクチン候補部分配列予測部102fの処理により、ステップSA−2にて予測された非切断部分配列、ステップSA−3にて予測されたMHC結合部分配列、ステップSA−4にて予測された非自己認識部分配列、および/または、ステップSA−5にて予測された非突然変異部分配列に基づいて、ワクチンとして有効なアミノ酸配列であるワクチン候補部分配列を予測し、ワクチン候補部分配列ファイル106fの所定の記憶領域に格納する(ステップSA−6)。   Returning to FIG. 9 again, the vaccine candidate partial sequence predicting apparatus 100 performs the process of the vaccine candidate partial sequence predicting unit 102f to perform the non-cut partial sequence predicted in step SA-2 and the MHC predicted in step SA-3. A vaccine that is an amino acid sequence effective as a vaccine based on the binding partial sequence, the non-self-recognizing partial sequence predicted in step SA-4, and / or the non-mutated partial sequence predicted in step SA-5 The candidate partial sequence is predicted and stored in a predetermined storage area of the vaccine candidate partial sequence file 106f (step SA-6).

ここで、ステップSA−6において、ワクチン候補部分配列予測部102fは、線形和基準ワクチン候補部分配列予測部102f1の処理により、例えば、ステップSA−2にて算出された切断部位含有配列長部分配列得点情報、切断部位検索得点情報のうち少なくとも一つ、ステップSA−3にて算出されたMHC結合部位含有配列長部分配列得点情報、MHC結合部位検索得点情報、親和力情報の総和、構造評価指標値情報のうち少なくとも一つ、ステップSA−4にて算出された非自己認識検索得点情報、ステップSA−5にて算出された突然変異確率の線形和を算出し、算出された線形和に基づいてワクチン候補部分配列を予測してもよい。すなわち、ペプチドワクチンらしさをスコア化して線形和をとり、線形和に基づいてワクチン候補部分配列を予測してもよい。具体的には、例えば、総合的にスコアの高い部分配列をワクチン候補部分配列として予測してもよい。   Here, in step SA-6, the vaccine candidate partial sequence prediction unit 102f is processed by the linear sum reference vaccine candidate partial sequence prediction unit 102f1, for example, the cleavage site-containing sequence length partial sequence calculated in step SA-2. At least one of score information and cleavage site search score information, MHC binding site-containing sequence length partial sequence score information calculated in step SA-3, MHC binding site search score information, sum of affinity information, structure evaluation index value At least one of the information, non-self-recognition search score information calculated in step SA-4, and a linear sum of mutation probabilities calculated in step SA-5 are calculated, and based on the calculated linear sum Vaccine candidate subsequences may be predicted. That is, the likelihood of peptide vaccine may be scored to take a linear sum, and a vaccine candidate partial sequence may be predicted based on the linear sum. Specifically, for example, a partial sequence having a high overall score may be predicted as a vaccine candidate partial sequence.

以上、本実施形態において、ステップSA−2〜ステップSA−5の処理を並列して行う場合を一例に説明したが、例えば、ステップSA−2、ステップSA−3、ステップSA−4、ステップSA−5の順に直列して処理を行うことにより目的配列の部分配列の候補を順次絞り込み、最終的に残った部分配列をワクチン候補部分配列として予測してもよい。具体的には、例えば、ステップSA−2において予測された部分配列のうち、例えば下位(例えば、下位の8割に対応する集合)をワクチンとして有効なアミノ酸配列の候補から除外し、絞り込まれた残りの集合(例えば、上位2割)の部分配列がステップSA−3に進み、ステップSA−3にて予測された部分配列のうち例えば下位(例えば、下位の8割に対応する集合)をワクチンとして有効なアミノ酸配列の候補からさらに除外し、最終的に絞り込まれた残りの集合(例えば、上位4%)の部分配列がステップSA−4およびSA−5に進み、ワクチン候補部分配列を予測してもよい。つまり、ステップごとにペプチドワクチンの候補から除外する(またはペプチドワクチンの候補として採用する)ための除外基準(採用基準)を設けて、最終的に全ての除外基準(採用基準)を満たした部分配列をワクチン候補部分配列として予測してもよい。   As described above, in the present embodiment, the case where the processes of Step SA-2 to Step SA-5 are performed in parallel has been described as an example. For example, Step SA-2, Step SA-3, Step SA-4, Step SA By processing in series in the order of −5, candidates for partial sequences of the target sequence may be sequentially narrowed down, and finally the remaining partial sequences may be predicted as vaccine candidate partial sequences. Specifically, for example, among the partial sequences predicted in Step SA-2, for example, the lower order (for example, the set corresponding to the lower 80%) was excluded from the candidate amino acid sequences effective as a vaccine, and narrowed down. The partial sequence of the remaining set (for example, upper 20%) proceeds to step SA-3, and for example, the lower sequence (for example, the set corresponding to the lower 80%) of the partial sequence predicted in step SA-3 is vaccine. As a further sub-sequence of the remaining set (for example, the top 4%) that is finally narrowed down to step SA-4 and SA-5, the vaccine candidate sub-sequence is predicted. May be. In other words, by setting exclusion criteria (adoption criteria) to exclude (or adopt as peptide vaccine candidates) from peptide vaccine candidates at each step, a partial sequence that finally satisfies all exclusion criteria (adoption criteria) May be predicted as a vaccine candidate partial sequence.

以上、メイン処理が終了する。   Thus, the main process ends.

[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
[Other embodiments]
Although the embodiments of the present invention have been described so far, the present invention can be applied to various different embodiments in addition to the above-described embodiments within the scope of the technical idea described in the claims. May be implemented.

例えば、ワクチン候補部分配列予測装置100は、ワクチン候補部分配列予測装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。   For example, the vaccine candidate partial sequence prediction device 100 performs processing in response to a request from a client terminal configured with a separate housing from the vaccine candidate partial sequence prediction device 100, and returns the processing result to the client terminal. You may comprise.

また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。   In addition, among the processes described in the embodiment, all or part of the processes described as being performed automatically can be performed manually, or all of the processes described as being performed manually are performed. Alternatively, a part can be automatically performed by a known method.

この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。   In addition, the processing procedures, control procedures, specific names, information including parameters such as various registration data and search conditions, screen examples, and database configurations shown in the above documents and drawings, unless otherwise specified. It can be changed arbitrarily.

また、ワクチン候補部分配列予測装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。   Moreover, regarding the vaccine candidate partial sequence predicting apparatus 100, each illustrated component is functionally conceptual and does not necessarily need to be physically configured as illustrated.

例えば、ワクチン候補部分配列予測装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じてワクチン候補部分配列予測装置100に機械的に読み取られる。   For example, each part of the vaccine candidate partial sequence predicting apparatus 100 or a processing function included in each apparatus, in particular, each processing function performed by the control unit 102 is entirely or arbitrarily part of the CPU (Central Processing Unit) and the relevant part. It can be realized by a program interpreted and executed by the CPU, or can be realized as hardware by wired logic. The program is recorded on a recording medium to be described later, and is mechanically read by the vaccine candidate partial sequence prediction apparatus 100 as necessary.

すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、ワクチン候補部分配列予測装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。   That is, in the storage unit 106 such as a ROM or an HD, a computer program for giving instructions to the CPU and performing various processes in cooperation with an OS (Operating System) is recorded. The computer program is executed by being loaded into a RAM or the like, and constitutes the control unit 102 in cooperation with the CPU. In addition, this computer program may be recorded in an application program server connected to the vaccine candidate partial sequence prediction apparatus 100 via an arbitrary network 300, and may be downloaded in whole or in part as necessary. Is also possible.

また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。   The program according to the present invention can also be stored in a computer-readable recording medium. Here, the “recording medium” is an arbitrary “portable physical medium” such as a flexible disk, a magneto-optical disk, a ROM, an EPROM, an EEPROM, a CD-ROM, an MO, and a DVD, and is incorporated in various computer systems. Program in a short time, such as a communication line or carrier wave when transmitting a program via any “fixed physical medium” such as ROM, RAM, HD, or a network such as LAN, WAN, or the Internet The “communication medium” that holds

また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。   The “program” is a data processing method described in an arbitrary language or description method, and may be in any format such as source code or binary code. The “program” is not necessarily limited to a single configuration, but is distributed in the form of a plurality of modules and libraries, or in cooperation with a separate program represented by an OS (Operating System). Including those that achieve the function. Note that a well-known configuration and procedure can be used for a specific configuration for reading a recording medium, a reading procedure, an installation procedure after reading, and the like in each device described in the embodiment.

記憶部106に格納される各種のファイル等(目的配列ファイル106a〜ワクチン候補部分配列ファイル106f)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。   Various files and the like (target sequence file 106a to vaccine candidate partial sequence file 106f) stored in the storage unit 106 are storage means such as a memory device such as RAM and ROM, a fixed disk device such as a hard disk, a flexible disk, and an optical disk. Yes, it stores various programs, tables, files, databases, web page files, etc. used for various processes and website provision.

また、ワクチン候補部分配列予測装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。   The vaccine candidate partial sequence prediction apparatus 100 connects a peripheral device such as a printer, a monitor, or an image scanner to an information processing apparatus such as an information processing terminal such as a known personal computer or workstation, and the present invention is applied to the information processing apparatus. You may implement | achieve by mounting the software (a program, data, etc. are included) which implement | achieve this method.

さらに、ワクチン候補部分配列予測装置100の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。   Furthermore, the specific form of distribution / integration of the vaccine candidate partial sequence predicting apparatus 100 is not limited to that shown in the figure, and all or a part thereof may be functionally or physically in arbitrary units according to various loads. It can be configured to be distributed and integrated. For example, each database may be independently configured as an independent database device, and a part of the processing may be realized by using CGI (Common Gateway Interface).

また、ネットワーク300は、ワクチン候補部分配列予測装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC−P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。   The network 300 has a function of connecting the vaccine candidate partial sequence prediction device 100 and the external system 200 to each other. For example, the Internet, an intranet, a LAN (including both wired / wireless), VAN, PC communication network, public telephone network (including both analog / digital), dedicated line network (including both analog / digital), CATV network, IMT2000 system, GSM system or PDC / PDC-P system Or a mobile phone switching network / portable packet switching network, a wireless paging network, a local wireless network such as Bluetooth, a PHS network, a satellite communication network such as CS, BS, or ISDB. That is, this system can transmit and receive various data via any network regardless of wired or wireless.

上述した実施形態におけるワクチン候補部分配列予測装置100を用いた実施例(実施例1)について、図18から図38を参照して説明する。図18は、本実施例1の基本原理を示す原理構成図である。   An example (Example 1) using the vaccine candidate partial sequence prediction apparatus 100 in the above-described embodiment will be described with reference to FIGS. FIG. 18 is a principle configuration diagram showing the basic principle of the first embodiment.

まず、上述した実施形態における目的配列取得部102aの処理により、抗原蛋白質のアミノ酸配列を取得する。   First, the amino acid sequence of the antigen protein is acquired by the processing of the target sequence acquisition unit 102a in the embodiment described above.

ついで、上述した実施形態における非切断部分配列予測部102bにて行われる処理により、取得した抗原蛋白質のアミノ酸配列から切断ペプチド断片候補を予測する(SJ−1:リソソーム内酵素またはプロテオソーム切断パターン解析)。   Next, a candidate for a cleaved peptide fragment is predicted from the obtained amino acid sequence of the antigen protein by the process performed by the non-cleaved partial sequence prediction unit 102b in the above-described embodiment (SJ-1: lysosomal enzyme or proteosome cleavage pattern analysis). .

ついで、上述した実施形態におけるMHC結合部分配列予測部102c(主要組織適合性抗原決定部102c1〜モチーフ検索基準MHC結合部分配列予測部102c10)にて行われる処理により、決定された主要組織適合性抗原の種類に対してMHC結合ペプチド断片候補を予測する(ステップSJ−2:MHC結合予測(配列))。   Next, the major histocompatibility antigen determined by the processing performed in the MHC binding partial sequence prediction unit 102c (major histocompatibility antigen determination unit 102c1 to motif search reference MHC binding partial sequence prediction unit 102c10) in the above-described embodiment. MHC-binding peptide fragment candidates are predicted for the types (step SJ-2: MHC binding prediction (sequence)).

ついで、上述した実施形態における制御部102の処理により、切断ペプチド断片候補およびMHC結合ペプチド断片候補において共通するペプチド断片である共通ペプチド断片候補を抽出する(ステップSJ−3:共通候補抽出)。   Next, a common peptide fragment candidate that is a peptide fragment common to the cleaved peptide fragment candidate and the MHC binding peptide fragment candidate is extracted by the processing of the control unit 102 in the above-described embodiment (step SJ-3: common candidate extraction).

ついで、上述した実施形態におけるMHC結合部分配列予測部102c(主要組織適合性抗原決定部102c1、MHC配列取得部102c11〜構造評価指標基準MHC結合部分配列予測部102c24)にて行われる処理により、共通ペプチド断片候補をさらに絞り込む(ステップSJ−4:MHC結合予測(構造))。   Next, the processing performed in the MHC binding partial sequence prediction unit 102c (major histocompatibility antigen determination unit 102c1, MHC sequence acquisition unit 102c11 to structure evaluation index reference MHC binding partial sequence prediction unit 102c24) in the above-described embodiment is common. The peptide fragment candidates are further narrowed down (step SJ-4: MHC binding prediction (structure)).

ついで、上述した実施形態における非自己認識部分配列予測部102dにて行われる処理により、ステップSJ−4にて絞り込まれた共通ペプチド断片候補をさらに絞り込む(ステップSJ−5:抗原性評価)。   Next, the common peptide fragment candidates narrowed down in step SJ-4 are further narrowed down by the process performed by the non-self-recognizing partial sequence prediction unit 102d in the above-described embodiment (step SJ-5: antigenicity evaluation).

ついで、上述した実施形態における非突然変異部分配列予測部102eにて行われる処理により、ステップSJ−5にて絞り込まれた共通ペプチド断片候補をさらに絞り込むことにより、上述した実施形態におけるワクチン候補部分配列を抽出する(ステップSJ−6:突然変異評価)。   Next, by further narrowing down the common peptide fragment candidates narrowed down in step SJ-5 by the processing performed in the non-mutated partial sequence predicting unit 102e in the above-described embodiment, the vaccine candidate partial sequence in the above-described embodiment. Is extracted (step SJ-6: mutation evaluation).

つぎに、本実施例1におけるワクチン候補部分配列予測装置100にて行われる処理について、図19から図36を参照して説明する。図19は、本実施例1におけるワクチン候補部分配列予測装置100にて行われるメイン処理を示すフローチャートである。   Next, a process performed by the vaccine candidate partial sequence prediction apparatus 100 according to the first embodiment will be described with reference to FIGS. 19 to 36. FIG. 19 is a flowchart illustrating main processing performed by the vaccine candidate partial sequence prediction apparatus 100 according to the first embodiment.

すなわち、ワクチン候補部分配列予測装置100は、抗原蛋白質配列および主要組織適合性抗原(MHC)の種類を取得して、抗原蛋白質配列において、リソソーム内酵素またはプロテオソームによる切断パターンを予測する(ステップSK−1:リソソーム内酵素orプロテオソーム切断パターン予測)。   That is, the vaccine candidate partial sequence prediction apparatus 100 acquires the type of antigen protein sequence and major histocompatibility antigen (MHC), and predicts the cleavage pattern of the lysosomal enzyme or proteosome in the antigen protein sequence (step SK- 1: prediction of lysosomal enzyme or proteosome cleavage pattern).

ここで、ステップSK−1における具体的な処理は、図20または図21に示すフローチャートに基づいて、図22から図25に示す各データを参照して行われる。   Here, the specific processing in step SK-1 is performed with reference to the data shown in FIGS. 22 to 25 based on the flowchart shown in FIG. 20 or FIG.

ついで、ワクチン候補部分配列予測装置100は、ステップSK−1で予測された切断パターンで切断した抗原蛋白質配列である断片ペプチドがMHCと結合するか否かを配列に基づいて予測する(ステップSK−2:MHC結合予測(配列))。   Next, the vaccine candidate partial sequence predicting apparatus 100 predicts based on the sequence whether or not the fragment peptide that is the antigen protein sequence cleaved with the cleavage pattern predicted in Step SK-1 binds to MHC (Step SK−). 2: MHC binding prediction (sequence)).

ここで、ステップSK−2における具体的な処理は、図26または図27に示すフローチャートに基づいて、図28および図29に示す各データを参照して行われる。   Here, the specific processing in step SK-2 is performed with reference to each data shown in FIG. 28 and FIG. 29 based on the flowchart shown in FIG.

ついで、ワクチン候補部分配列予測装置100は、ステップSK−2で配列に基づいてMHCに結合すると予測された断片ペプチドであるMHC結合ペプチド候補に対してさらにMHCと結合するか否かを構造に基づいて予測する(ステップSK−3:MHC結合予測(構造))。   Next, the vaccine candidate partial sequence predicting apparatus 100 determines whether or not the MHC binding peptide candidate, which is a fragment peptide predicted to bind to MHC based on the sequence in step SK-2, further binds to MHC based on the structure. (Step SK-3: MHC binding prediction (structure)).

ここで、ステップSK−3における具体的な処理は、図30または図31に示すフローチャートに基づいて、図32および図33に示す各データを参照して行われる。   Here, the specific processing in step SK-3 is performed with reference to each data shown in FIG. 32 and FIG. 33 based on the flowchart shown in FIG.

ついで、ワクチン候補部分配列予測装置100は、ステップSK−3で構造に基づいてMHCと結合すると予測されたMHC結合ペプチド候補の抗原性を評価する(ステップSK−4:抗原性評価)。   Next, the vaccine candidate partial sequence prediction apparatus 100 evaluates the antigenicity of the MHC-binding peptide candidate predicted to bind to MHC based on the structure in step SK-3 (step SK-4: antigenicity evaluation).

ここで、ステップSK−4における具体的な処理は、図34に示すフローチャートに基づいて、図36に示すデータを参照して行われる。   Here, the specific processing in step SK-4 is performed with reference to the data shown in FIG. 36 based on the flowchart shown in FIG.

ついで、ワクチン候補部分配列予測装置100は、ステップSK−4で抗原性がないと評価されたMHC結合ペプチド候補であるペプチドワクチン候補に対して突然変異の入りやすさを予測する(ステップSK−5:突然変異予測)。   Next, the vaccine candidate partial sequence prediction apparatus 100 predicts the ease of introduction of mutations for peptide vaccine candidates that are MHC-binding peptide candidates evaluated as having no antigenicity in step SK-4 (step SK-5). : Mutation prediction).

ここで、ステップSK−5における具体的な処理は、図35に示すフローチャートに基づいて行われる。   Here, the specific processing in step SK-5 is performed based on the flowchart shown in FIG.

ついで、ワクチン候補部分配列予測装置100は、ステップSK−5で突然変異が入りにくいと予測されたペプチドワクチン候補を変異に強いペプチドワクチン候補(ワクチン候補)として抽出する。   Next, the vaccine candidate partial sequence prediction apparatus 100 extracts the peptide vaccine candidate predicted to be difficult to be mutated in Step SK-5 as a peptide vaccine candidate (vaccine candidate) resistant to mutation.

以上の処理により抽出されたペプチド断片を図37、図38に示す。   The peptide fragments extracted by the above processing are shown in FIGS.

図37は、Human immunodeficiency virus type 1(HXB2 isolate)のEnvelop polyprotein GP160のHLA A*0201に対するペプチド断片を予測した結果を示す図である。   FIG. 37 is a diagram showing a result of predicting a peptide fragment for HLA A * 0201 of Envelop polyprotein GP160 of Human immunofluidity virus type 1 (HXB2 isolate).

Human immunodeficiency virus type 1(HXB2 isolate)のEnvelop polyprotein GP160のHLA A*0201に対するCTLエピトープは、“KLTPLCVSL”、“RIQRGPGRAFVTI”、“SLLNATAIAV”などが知られている。本発明によれば、“KLTPLCVS”のスコアが13位(849個ペプチド中)、“RIQRGPGR”が8位(849個ペプチド中)、“SLLNATAI”が45位(849個ペプチド中)と、実際に結合するペプチドが高いスコアを得た。なお、13位のスコアを持つ“KLTPLCVS”は実際にCTLを活性化することが実証されている。   The CTL epitope for HLA A * 0201 of Envelop polyprotein GP160 of Human immunodevelopment virus type 1 (HXB2 isolate) is “KLTLPLCVSL”, “RIQRGGPRAVVTI”, “SLLNATAI”. According to the present invention, the score of “KLTPLCVS” is in position 13 (in 849 peptides), “RIQRGGR” is in position 8 (in 849 peptides), “SLLNATAI” is in position 45 (in 849 peptides) A high score was obtained for the peptide to be bound. It has been demonstrated that “KLTPLCVS” having a score of 13th actually activates CTL.

また、図38は、Human immunodeficiency virus type 1(HXB2 isolate)のNegative factorのHLA A*0201に対するペプチド断片を予測した結果を示す図である。   FIG. 38 is a diagram showing the results of predicting peptide fragments for HLA A * 0201 of the negative factor of Human immunovirtuality virus type 1 (HXB2 isolate).

Human immunodeficiency virus type 1(HXB2 isolate)のNegative factorのHLA A*0201に対するCTLエピトープは、“PLTFGWCYKLV”,“VLEWRFDSRL”,“AFHHVAREL”などが知られている。本発明によれば、“LTFGWCYK”のスコアが12位(199個ペプチド中)、“VLEWRFDS”が32位(199個ペプチド中)、“RLAFHHVA”が18位(199個ペプチド中)、と実際に結合するペプチドが高いスコアを得た。なお、12位のスコア持つ“LTFGWCYK”は実際にCTLを活性化することが実証されている。   The CTL epitopes for negative factor HLA A * 0201 in Human immunodevelopment virus type 1 (HXB2 isolate) are known as “PLTFGWCYKLV”, “VLEWRFDSRL”, “AFHHVAREL”, etc. According to the present invention, the score of “LTFGWCYK” is 12th (in 199 peptides), “VLEWRFDS” is in 32nd position (in 199 peptides), “RLAFHHVA” is 18th (in 199 peptides) A high score was obtained for the peptide to be bound. It has been demonstrated that “LTFGGWCYK” having a score of 12th actually activates CTL.

以上、本実施例1により、CLTエピトープを効率的に予測することが可能になった。   As described above, according to Example 1, it became possible to efficiently predict the CLT epitope.

上述した実施形態におけるワクチン候補部分配列予測装置100を用いた実施例(実施例2)について、図39から図43を参照して説明する。図39は、本実施例2の基本原理を示す原理構成図である。   An example (Example 2) using the vaccine candidate partial sequence prediction apparatus 100 in the above-described embodiment will be described with reference to FIGS. 39 to 43. FIG. 39 is a principle configuration diagram showing the basic principle of the second embodiment.

まず、上述した実施形態における非切断部分配列予測部102bにて行われる処理により、蛋白質のアミノ酸配列を断片ペプチドに分割して、断片ペプチドに対し切断パターンを予測し、下位2割の断片ペプチドを候補から除外する(ステップSU−1:切断パターン予測)。   First, the process performed by the uncut partial sequence prediction unit 102b in the above-described embodiment divides the amino acid sequence of the protein into fragment peptides, predicts the cleavage pattern for the fragment peptides, and selects the lower 20% fragment peptides. It excludes from a candidate (step SU-1: cutting pattern prediction).

ついで、上述した実施形態におけるMHC結合部分配列予測部102c(主要組織適合性抗原決定部102c1〜モチーフ検索基準MHC結合部分配列予測部102c10)にて行われる処理により、ステップSU−1で除外されなかった断片ペプチドが、配列に基づいてMHCと結合するかを予測し、下位8割の断片ペプチドを候補から除外する(ステップSU−2:MHC結合予測(配列))。   Next, the processing performed in the MHC binding partial sequence prediction unit 102c (major histocompatibility antigen determination unit 102c1 to motif search reference MHC binding partial sequence prediction unit 102c10) in the above-described embodiment is not excluded in step SU-1. Based on the sequence, the fragment peptide is predicted to bind to MHC, and the lower 80% fragment peptide is excluded from the candidates (step SU-2: MHC binding prediction (sequence)).

ついで、上述した実施形態におけるMHC結合部分配列予測部102c(主要組織適合性抗原決定部102c1、MHC配列取得部102c11〜構造評価指標基準MHC結合部分配列予測部102c24)にて行われる処理により、ステップSU−2にて除外されなかった断片ペプチドが、構造に基づいてMHCと結合するかを予測し、スコアの良いものからソートして出力する(ステップSU−3:MHC結合予測(構造))。なお、ステップSU−3における処理は、図40から図42に示す各データを参照して行われる。   Next, a process performed by the MHC binding partial sequence prediction unit 102c (major histocompatibility antigen determination unit 102c1, MHC sequence acquisition unit 102c11 to structure evaluation index reference MHC binding partial sequence prediction unit 102c24) in the above-described embodiment is performed. Based on the structure, it is predicted whether the fragment peptides that have not been excluded in SU-2 will bind to MHC, and sorted and output from those with good scores (step SU-3: MHC binding prediction (structure)). Note that the processing in step SU-3 is performed with reference to the data shown in FIGS.

以上の処理により抽出された断片ペプチドを図43に示す。   The fragment peptide extracted by the above processing is shown in FIG.

図43は、Human immunodeficiency virus type 1(HXB2 isolate)のEnvelop polyprotein GP160のHLA A2に対する断片ペプチドを予測した結果を示す図である。   FIG. 43 is a diagram showing a result of predicting a fragment peptide for HLA A2 of Envelop polyprotein GP160 of Human immunofidelity virus type 1 (HXB2 isolate).

Human immunodeficiency virus type 1(HXB2 isolate)のEnvelop polyprotein GP160のHLA A2に対するCLTエピトープとして、“GDPEIVTHSF”が知られている。本発明によれば、“GDPEIVTHS”のスコアが4位(848個ペプチド中)と高いスコアを得た。なお、4位の断片ペプチドは実際にMCHに結合することが実験により確認されている。   “GDPEIVTHSF” is known as a CLT epitope for HLA A2 of Envelop Polyprotein GP160 of Human immunodevelopment virus type 1 (HXB2 isolate). According to the present invention, the score of “GDPEIVTHS” was as high as 4th place (in 848 peptides). It has been confirmed by experiments that the fragment peptide at position 4 actually binds to MCH.

以上、本実施例2により、MHCと結合する断片ペプチドを効率よく高速で予測することが可能になった。   As described above, according to Example 2, it has become possible to efficiently and quickly predict a fragment peptide that binds to MHC.

以上のように、本発明にかかるワクチン候補部分配列予測装置、ワクチン候補部分配列予測方法、プログラムおよび記録媒体は、タンパク質または生理活性ポリペプチドのアミノ酸配列から、T細胞を活性化させることができるアミノ酸配列(ペプチド配列)を予測することにより、ワクチンとなるアミノ酸配列を高精度に予測することができ、産業上の多くの分野、特に医薬品や医療、ライフサイエンス産業等の分野で広く実施することができ、極めて有用である。   As described above, the vaccine candidate partial sequence prediction apparatus, the vaccine candidate partial sequence prediction method, the program, and the recording medium according to the present invention are amino acids capable of activating T cells from the amino acid sequence of a protein or physiologically active polypeptide. By predicting the sequence (peptide sequence), it is possible to predict the amino acid sequence to be a vaccine with high accuracy, and it can be widely implemented in many industrial fields, especially in the fields of pharmaceuticals, medical care, life science industries, etc. Can be very useful.

また、本発明にかかるMHC結合部分配列予測装置、MHC結合部分配列予測方法、プログラムおよび記録媒体は、タンパク質または生理活性ポリペプチドのアミノ酸配列から、特定の主要組織適合性抗原と結合することができるアミノ酸配列(ペプチド配列)を高精度に予測することができ、産業上の多くの分野、特に医薬品や医療、ライフサイエンス産業等の分野で広く実施することができ、極めて有用である。   In addition, the MHC binding partial sequence prediction apparatus, MHC binding partial sequence prediction method, program and recording medium according to the present invention can bind to a specific major histocompatibility antigen from the amino acid sequence of a protein or bioactive polypeptide. Amino acid sequences (peptide sequences) can be predicted with high accuracy, and can be widely implemented in many industrial fields, particularly in the fields of pharmaceuticals, medical care, life science industries, etc., and are extremely useful.

本発明の基本原理を示す原理構成図である。It is a principle block diagram which shows the basic principle of this invention. 本発明が適用される本システムの構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of this system with which this invention is applied. 本発明が適用される本システムの記憶部106に格納される情報の一例を示す図である。It is a figure which shows an example of the information stored in the memory | storage part 106 of this system with which this invention is applied. 本発明が適用される本システムの非切断部分配列予測部102bの構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the non-cut | disconnecting partial arrangement | sequence prediction part 102b of this system with which this invention is applied. 本発明が適用される本システムのMHC結合部分配列予測部102cの構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the MHC coupling | bonding partial sequence estimation part 102c of this system with which this invention is applied. 本発明が適用される本システムの非自己認識部分配列予測部102dの構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the non-self recognition partial arrangement | sequence prediction part 102d of this system with which this invention is applied. 本発明が適用される本システムの非突然変異部分配列予測部102eの構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the non-mutation partial sequence estimation part 102e of this system with which this invention is applied. 本発明が適用される本システムのワクチン候補部分配列予測部102fの構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the vaccine candidate partial arrangement | sequence prediction part 102f of this system with which this invention is applied. 本実施形態における本システムのメイン処理の一例を示すフローチャートである。It is a flowchart which shows an example of the main process of this system in this embodiment. 本実施形態における本システムの得点基準非切断部分配列予測処理の一例を示すフローチャートである。It is a flowchart which shows an example of the score reference | standard non-cut | disconnecting partial arrangement | sequence prediction process of this system in this embodiment. 本実施形態における本システムのモチーフ検索基準非切断部分配列予測処理の一例を示すフローチャートである。It is a flowchart which shows an example of the motif search reference | standard non-cut | disconnecting partial arrangement | sequence prediction process of this system in this embodiment. 本実施形態における本システムの得点基準MHC結合部分配列予測処理の一例を示すフローチャートである。It is a flowchart which shows an example of the score reference | standard MHC coupling | bonding partial arrangement | sequence prediction process of this system in this embodiment. 本実施形態における本システムのモチーフ検索基準MHC結合部分配列予測処理の一例を示すフローチャートである。It is a flowchart which shows an example of the motif search reference | standard MHC binding partial sequence prediction process of this system in this embodiment. 本実施形態における本システムの親和力基準MHC結合部分配列予測処理の一例を示すフローチャートである。It is a flowchart which shows an example of the affinity reference | standard MHC binding partial sequence prediction process of this system in this embodiment. 本実施形態における本システムの構造評価指標基準MHC結合部分配列予測処理の一例を示すフローチャートである。It is a flowchart which shows an example of the structure evaluation index reference | standard MHC coupling | bonding partial sequence prediction process of this system in this embodiment. 本実施形態における本システムの検索基準非自己認識部分配列予測処理の一例を示すフローチャートである。It is a flowchart which shows an example of the search reference | standard non-self recognition partial arrangement | sequence prediction process of this system in this embodiment. 本実施形態における本システムの確率基準非突然変異部分配列予測処理の一例を示すフローチャートである。It is a flowchart which shows an example of the probability reference | standard non-mutation partial arrangement | sequence prediction process of this system in this embodiment. 本実施例1の基本原理を示す原理構成図である。It is a principle block diagram which shows the basic principle of the present Example 1. FIG. 本実施例1におけるワクチン候補部分配列予測装置100にて行われるメイン処理のフローチャートである。It is a flowchart of the main process performed in the vaccine candidate partial arrangement | sequence prediction apparatus 100 in the present Example 1. FIG. 本実施例1におけるワクチン候補部分配列予測装置100にて行われる切断パターン予測処理のフローチャートである。It is a flowchart of the cutting | disconnection pattern prediction process performed with the vaccine candidate partial arrangement | sequence prediction apparatus 100 in the present Example 1. FIG. 本実施例1におけるワクチン候補部分配列予測装置100にて行われる切断パターン予測処理を示すフローチャートである。It is a flowchart which shows the cutting pattern prediction process performed with the vaccine candidate partial arrangement | sequence prediction apparatus 100 in the present Example 1. FIG. 本実施例1におけるワクチン候補部分配列予測装置100にて行われる切断パターン予測処理で参照する切断部位アミノ酸配列を示す図である。It is a figure which shows the cutting site amino acid sequence referred in the cutting pattern prediction process performed with the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. FIG. 本実施例1におけるワクチン候補部分配列予測装置100にて行われる切断パターン予測処理で参照する切断部位アミノ酸頻度を示す図である。It is a figure which shows the cutting site amino acid frequency referred in the cutting pattern prediction process performed with the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. FIG. 本実施例1におけるワクチン候補部分配列予測装置100にて行われる切断パターン予測処理で参照する切断部位アミノ酸スコアを示す図である。It is a figure which shows the cutting | disconnection site | part amino acid score referred by the cutting | disconnection pattern prediction process performed with the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. FIG. 本実施例1におけるワクチン候補部分配列予測装置100にて行われる切断パターン予測処理で参照する切断部位モチーフを示す図である。It is a figure which shows the cutting site motif referred in the cutting pattern prediction process performed with the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. FIG. 本実施例1におけるワクチン候補部分配列予測装置100にて行われるMHC結合予測(配列)処理のフローチャートである。It is a flowchart of the MHC binding prediction (sequence) process performed in the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. 本実施例1におけるワクチン候補部分配列予測装置100にて行われるMHC結合予測(配列)処理のフローチャートである。It is a flowchart of the MHC binding prediction (sequence) process performed in the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. 本実施例1におけるワクチン候補部分配列予測装置100にて行われるMHC結合予測(配列)処理で参照するMHC結合ペプチドを示す図である。It is a figure which shows the MHC binding peptide referred by the MHC binding prediction (sequence) process performed in the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. 本実施例1におけるワクチン候補部分配列予測装置100にて行われるMHC結合予測(配列)処理で参照するMHC結合ペプチドアミノ酸頻度を示す図である。It is a figure which shows the MHC binding peptide amino acid frequency referred in the MHC binding prediction (sequence) process performed with the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. 本実施例1におけるワクチン候補部分配列予測装置100にて行われるMHC結合予測(構造)処理のフローチャートである。It is a flowchart of the MHC coupling | bonding prediction (structure) process performed with the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. FIG. 本実施例1におけるワクチン候補部分配列予測装置100にて行われるMHC結合予測(構造)処理のフローチャートである。It is a flowchart of the MHC coupling | bonding prediction (structure) process performed with the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. FIG. 本実施例1におけるワクチン候補部分配列予測装置100にて行われるMHC結合予測(構造)処理で参照するMHC結合ペプチドアミノ酸間距離値を示す図である。It is a figure which shows the distance value between MHC binding peptide amino acids referred in the MHC binding prediction (structure) process performed with the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. 本実施例1におけるワクチン候補部分配列予測装置100にて行われるMHC結合予測(構造)処理で参照するMHC/ペプチド複合体結晶構造データを示す図である。It is a figure which shows the MHC / peptide complex crystal structure data referred by the MHC binding prediction (structure) process performed with the vaccine candidate partial arrangement | sequence prediction apparatus 100 in the present Example 1. FIG. 本実施例1におけるワクチン候補部分配列予測装置100にて行われる抗原性評価処理のフローチャートである。It is a flowchart of the antigenicity evaluation process performed in the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. 本実施例1におけるワクチン候補部分配列予測装置100にて行われる突然変異予測処理のフローチャートである。It is a flowchart of the mutation prediction process performed in the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. 本実施例1におけるワクチン候補部分配列予測装置100にて行われる抗原性評価処理で参照する既知ヒトアミノ酸配列を示す図である。It is a figure which shows the known human amino acid sequence referred by the antigenicity evaluation process performed with the vaccine candidate partial sequence prediction apparatus 100 in the present Example 1. FIG. Human immunodeficiency virus type 1(HXB2 isolate)のEnvelop polyprotein GP160のHLA A*0201に対するペプチド断片を予測した結果を示す図である。It is a figure which shows the result of having estimated the peptide fragment with respect to HLA A * 0201 of Envelop polyprotein GP160 of Human immunofidelity virus type 1 (HXB2 isolate). Human immunodeficiency virus type 1(HXB2 isolate)のNegative factorのHLA A*0201に対するペプチド断片を予測した結果を示す図である。It is a figure which shows the result of having predicted the peptide fragment with respect to HLA A * 0201 of Negative factor of Human immunodevelopment virus type 1 (HXB2 isolate). 本実施例2の基本原理を示す原理構成図である。It is a principle block diagram which shows the basic principle of the present Example 2. 本実施例2におけるワクチン候補部分配列予測装置100にて行われるMHC結合予測(構造)処理で参照する複合体構造および複合体距離情報を示す図である。It is a figure which shows the complex structure and complex distance information which are referred by the MHC coupling | bonding prediction (structure) process performed with the vaccine candidate partial arrangement | sequence prediction apparatus 100 in the present Example 2. FIG. 本実施例2におけるワクチン候補部分配列予測装置100にて行われるMHC結合予測(構造)処理で参照する相互作用アミノ酸組を示す図である。It is a figure which shows the interaction amino acid group referred in the MHC binding prediction (structure) process performed with the vaccine candidate partial sequence prediction apparatus 100 in the present Example 2. FIG. 本実施例2におけるワクチン候補部分配列予測装置100にて行われるMHC結合予測(構造)処理で参照する相互作用アミノ酸組の親和力の総和を示す図である。It is a figure which shows the sum total of the affinity of the interaction amino acid group referred in the MHC binding prediction (structure) process performed with the vaccine candidate partial sequence prediction apparatus 100 in the present Example 2. Human immunodeficiency virus type 1(HXB2 isolate)のEnvelop polyprotein GP160のHLA A2に対する断片ペプチドを予測した結果を示す図である。It is a figure which shows the result of having estimated the fragment peptide with respect to HLA A2 of Envelop polyprotein GP160 of Human immunodevelopment virus type 1 (HXB2 isolate).

符号の説明Explanation of symbols

100 ワクチン候補部分配列予測装置
102 制御部
102a 目的配列取得部
102b 非切断部分配列予測部
102b1 切断部位含有配列格納部
102b2 切断部位含有配列アミノ酸出現頻度算出部
102b3 切断部位含有配列得点算出部
102b4 切断部位含有配列長部分配列得点算出部
102b5 得点基準非切断部分配列予測部
102b6 切断部位配列格納部
102b7 切断部位モチーフ配列抽出部
102b8 切断部位モチーフ検索部
102b9 モチーフ検索基準非切断部分配列予測部
102c MHC結合部分配列予測部(MHC結合部分配列予測装置)
102c1 主要組織適合性抗原決定部
102c2 MHC結合部位含有配列格納部
102c3 MHC結合部位含有配列アミノ酸出現頻度算出部
102c4 MHC結合部位含有配列得点算出部
102c5 MHC結合部位含有配列長部分配列得点算出部
102c6 得点基準MHC結合部分配列予測部
102c7 MHC結合部位配列格納部
102c8 MHC結合部位モチーフ配列抽出部
102c9 MHC結合部位モチーフ検索部
102c10 モチーフ検索基準MHC結合部分配列予測部
102c11 MHC配列取得部
102c12 MHC長部分配列作成部
102c13 スライド分割部
102c14 複合体立体構造予測部
102c15 相互作用アミノ酸決定部
102c16 MHC結合アミノ酸残基間距離値格納部
102c17 親和力算出部
102c18 距離値基準親和力算出部
102c19 親和力総和算出部
102c20 親和力基準MHC結合部分配列予測部
102c21 MHC立体構造取得部
102c22 複合体立体構造作成部
102c23 構造評価指標算出部
102c24 構造評価指標基準MHC結合部分配列予測部
102d 非自己認識部分配列予測部
102d1 特定生物種配列格納部
102d2 非自己認識部分配列検索部
102d3 検索基準非自己認識部分配列予測部
102e 非突然変異部分配列予測部
102e1 突然変異確率予測部
102e2 確率基準非突然変異部分配列予測部
102f ワクチン候補部分配列予測部
102f1 線形和基準ワクチン候補部分配列予測部
104 通信制御インターフェース部
106 記憶部
106a 目的配列ファイル
106b1 切断部位含有配列ファイル
106b2 切断部位含有配列アミノ酸出現頻度ファイル
106b3 切断部位含有配列得点ファイル
106b4 切断部位含有配列長部分配列ファイル
106b5 切断部位配列ファイル
106b6 切断部位モチーフ配列ファイル
106b7 切断部位検索得点ファイル
106b8 非切断部分配列ファイル
106c1 MHC結合部位含有配列ファイル
106c2 MHC結合部位含有配列アミノ酸出現頻度ファイル
106c3 MHC結合部位含有配列得点ファイル
106c4 MHC結合部位含有配列長部分配列ファイル
106c5 MHC結合部位配列ファイル
106c6 MHC結合部位モチーフ配列ファイル
106c7 MHC結合部位検索得点ファイル
106c8 MHC配列ファイル
106c9 MHC長部分配列ファイル
106c10 予測複合体立体構造ファイル
106c11 相互作用アミノ酸ファイル
106c12 親和力ファイル
106c13 MHC結合アミノ酸残基間距離値ファイル
106c14 MHC立体構造ファイル
106c15 作成複合体立体構造ファイル
106c16 構造評価指標値ファイル
106c17 MHC結合部分配列ファイル
106d1 特定生物種配列ファイル
106d2 非自己認識検索得点ファイル
106d3 非自己認識部分配列ファイル
106e1 突然変異確率ファイル
106e2 非突然変異部分配列ファイル
106f ワクチン候補部分配列ファイル
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク
100 Vaccine Candidate Partial Sequence Prediction Device 102 Control Unit
102a Target sequence acquisition unit
102b Uncut partial sequence predictor
102b1 cleavage site containing sequence storage section
102b2 cleavage site-containing sequence amino acid appearance frequency calculation unit
102b3 cleavage site-containing sequence score calculation unit
102b4 cleavage site-containing sequence length partial sequence score calculation unit
102b5 Score criterion non-cutting partial sequence prediction unit
102b6 cutting site sequence storage
102b7 cleavage site motif sequence extraction unit
102b8 cleavage site motif search part
102b9 Motif search reference uncut partial sequence predictor
102c MHC binding partial sequence prediction unit (MHC binding partial sequence prediction device)
102c1 Major histocompatibility antigen determination part
102c2 MHC binding site-containing sequence storage
102c3 MHC binding site-containing sequence amino acid appearance frequency calculation unit
102c4 MHC binding site-containing sequence score calculation unit
102c5 MHC binding site-containing sequence length partial sequence score calculation unit
102c6 Score criteria MHC binding subsequence prediction unit
102c7 MHC binding site sequence storage
102c8 MHC binding site motif sequence extractor
102c9 MHC binding site motif search part
102c10 Motif search reference MHC binding partial sequence prediction unit
102c11 MHC sequence acquisition unit
102c12 MHC long partial sequence generator
102c13 slide dividing unit
102c14 Complex three-dimensional structure prediction unit
102c15 interacting amino acid determinant
102c16 MHC-binding amino acid residue distance value storage
102c17 affinity calculator
102c18 Distance value reference affinity calculator
102c19 Total affinity calculator
102c20 Affinity reference MHC binding partial sequence predictor
102c21 MHC three-dimensional structure acquisition unit
102c22 composite three-dimensional structure creation unit
102c23 Structure evaluation index calculation unit
102c24 Structure Evaluation Index Criteria MHC Binding Partial Sequence Prediction Unit
102d Non-self-recognizing partial sequence prediction unit
102d1 specific species array storage
102d2 Non-self-recognizing partial sequence search unit
102d3 Search criterion non-self-recognizing partial sequence prediction unit
102e Non-mutated partial sequence prediction unit
102e1 mutation probability prediction unit
102e2 Probability-based non-mutated partial sequence predictor
102f Vaccine candidate partial sequence prediction unit
102f1 linear sum reference vaccine candidate partial sequence prediction unit 104 communication control interface unit 106 storage unit
106a Target sequence file
106b1 cleavage site-containing sequence file
106b2 Cleavage site-containing sequence amino acid appearance frequency file
106b3 cleavage site-containing sequence score file
106b4 Cleavage site-containing sequence length partial sequence file
106b5 cleavage site sequence file
106b6 cleavage site motif sequence file
106b7 Cut site search score file
106b8 Uncut partial sequence file
106c1 MHC binding site-containing sequence file
106c2 MHC binding site-containing sequence amino acid frequency file
106c3 MHC binding site-containing sequence score file
106c4 MHC binding site-containing sequence length partial sequence file
106c5 MHC binding site sequence file
106c6 MHC binding site motif sequence file
106c7 MHC binding site search score file
106c8 MHC sequence file
106c9 MHC long partial sequence file
106c10 Prediction complex 3D structure file
106c11 interacting amino acid file
106c12 affinity file
106c13 MHC binding amino acid residue distance value file
106c14 MHC 3D structure file
106c15 Creation complex 3D structure file
106c16 Structure evaluation index value file
106c17 MHC binding partial sequence file
106d1 Specific species sequence file
106d2 Non-self-recognition search score file
106d3 Non-self-recognizing partial sequence file
106e1 mutation probability file
106e2 Non-mutated partial sequence file
106f Vaccine candidate partial sequence file 108 Input / output control interface unit 112 Input device 114 Output device 200 External system 300 Network

Claims (47)

目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得手段と、
上記目的配列取得手段により取得された上記目的配列情報から、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されない上記アミノ酸配列であって、上記目的配列の部分配列である非切断部分配列を予測する非切断部分配列予測手段と、
上記目的配列取得手段により取得された上記目的配列情報から、特定の主要組織適合性抗原と結合することができる上記アミノ酸配列であって、上記目的配列の部分配列であるMHC結合部分配列を予測するMHC結合部分配列予測手段と、
上記目的配列取得手段により取得された上記目的配列情報から、自己として認識されない上記アミノ酸配列であって、上記目的配列の部分配列である非自己認識部分配列を予測する非自己認識部分配列予測手段と、
上記目的配列取得手段により取得された上記目的配列情報から、突然変異の入りにくい上記アミノ酸配列であって、上記目的配列の部分配列である非突然変異部分配列を予測する非突然変異部分配列予測手段と、
上記非切断部分配列予測手段により予測された上記非切断部分配列、上記MHC結合部分配列予測手段により予測された上記MHC結合部分配列、上記非自己認識部分配列予測手段により予測された上記非自己認識部分配列、および/または、上記非突然変異部分配列予測手段により予測された上記非突然変異部分配列に基づいて、ワクチンとして有効な上記アミノ酸配列であるワクチン候補部分配列を予測するワクチン候補部分配列予測手段と、
を備えたことを特徴とするワクチン候補部分配列予測装置。
A target sequence acquisition means for acquiring target sequence information, which is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide;
Based on the target sequence information acquired by the target sequence acquisition means, the amino acid sequence that is not cleaved by a proteolytic enzyme or proteosome present in lysosomes, and predicts an uncut partial sequence that is a partial sequence of the target sequence An uncut partial sequence predicting means;
Based on the target sequence information acquired by the target sequence acquisition means, the amino acid sequence capable of binding to a specific major histocompatibility antigen, and an MHC binding partial sequence that is a partial sequence of the target sequence is predicted MHC binding partial sequence prediction means;
Non-self-recognizing partial sequence predicting means for predicting a non-self-recognizing partial sequence that is the amino acid sequence that is not recognized as self from the target sequence information acquired by the target sequence acquiring means and that is a partial sequence of the target sequence; ,
Non-mutated partial sequence predicting means for predicting a non-mutated partial sequence that is the amino acid sequence that is difficult to be mutated and is a partial sequence of the target sequence from the target sequence information acquired by the target sequence acquiring means When,
The non-cleaved partial sequence predicted by the non-cleaved partial sequence predicting means, the MHC-binding partial sequence predicted by the MHC-binding partial sequence predicting means, and the non-self-recognized predicted by the non-self-recognized partial sequence predicting means Vaccine candidate partial sequence prediction for predicting a vaccine candidate partial sequence that is the amino acid sequence effective as a vaccine based on the partial sequence and / or the non-mutated partial sequence predicted by the non-mutated partial sequence predicting means Means,
A vaccine candidate partial sequence predicting apparatus comprising:
上記非切断部分配列予測手段は、
上記タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含む上記アミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納する切断部位含有配列格納手段と、
上記切断部位含有配列格納手段により格納された上記切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出する切断部位含有配列アミノ酸出現頻度算出手段と、
上記切断部位含有配列アミノ酸出現頻度算出手段により算出された上記切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出する切断部位含有配列得点算出手段と、
上記切断部位含有配列得点算出手段により算出された上記切断部位含有配列得点情報に基づいて、上記目的配列取得手段により取得された上記目的配列を上記切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出する切断部位含有配列長部分配列得点算出手段と、
上記切断部位含有配列長部分配列得点算出手段により算出された上記切断部位含有配列長部分配列得点情報に基づいて上記酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を上記非切断部分配列として予測する得点基準非切断部分配列予測手段と、
をさらに備えたことを特徴とする請求項1に記載のワクチン候補部分配列予測装置。
The non-cutting partial sequence predicting means includes:
A cleavage site-containing sequence storage means for storing cleavage site-containing sequence information, which is information relating to the cleavage site-containing sequence, which is the amino acid sequence including several residues before and after the enzyme cleavage site, which is a site cleaved by the proteolytic enzyme;
A cleavage site-containing sequence for calculating cleavage site-containing sequence amino acid appearance frequency information, which is information relating to the appearance frequency of amino acids at positions corresponding to each amino acid residue in the cleavage site-containing sequence stored by the cleavage site-containing sequence storage means Amino acid appearance frequency calculating means,
Based on the cleavage site-containing sequence amino acid appearance frequency information calculated by the cleavage site-containing sequence amino acid appearance frequency calculation unit, a cleavage site-containing sequence score calculation unit that calculates cleavage site-containing sequence score information;
Each partial sequence obtained by dividing the target sequence obtained by the target sequence obtaining unit into the length of the cleavage site-containing sequence based on the cleavage site-containing sequence score information calculated by the cleavage site-containing sequence score calculating unit A cleavage site-containing sequence length partial sequence score calculating means for calculating a cleavage site-containing sequence length partial sequence score information corresponding to:
Determine the enzyme cleavage site based on the cleavage site-containing sequence length partial sequence score information calculated by the cleavage site-containing sequence length partial sequence score calculation means, and the partial sequence cleaved at the enzyme cleavage site is not cleaved A score-based non-cutting partial sequence predicting means for predicting as a partial sequence,
The vaccine candidate partial sequence prediction apparatus according to claim 1, further comprising:
上記非切断部分配列予測手段は、
上記タンパク質分解酵素により切断される部位である酵素切断部位の上記アミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納する切断部位配列格納手段と、
上記切断部位配列格納手段により格納された上記切断部位配列情報から、既知の切断部位モチーフ配列を抽出する切断部位モチーフ配列抽出手段と、
上記切断部位モチーフ配列抽出手段により抽出された上記切断部位モチーフ配列を利用して上記目的配列取得手段により取得された上記目的配列に対してモチーフ検索を実行することにより上記目的配列における上記酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得する切断部位モチーフ検索手段と、
上記切断部位モチーフ検索手段により取得された上記切断部位検索得点情報に基づいて上記目的配列の上記酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を上記非切断部分配列として予測するモチーフ検索基準非切断部分配列予測手段と、
をさらに備えたことを特徴とする請求項1に記載のワクチン候補部分配列予測装置。
The non-cutting partial sequence predicting means includes:
A cleavage site sequence storage means for storing cleavage site sequence information that is information relating to the cleavage site sequence that is the amino acid sequence of the enzyme cleavage site that is a site cleaved by the proteolytic enzyme;
From the cleavage site sequence information stored by the cleavage site sequence storage means, a cleavage site motif sequence extraction means for extracting a known cleavage site motif sequence;
The enzyme cleavage site in the target sequence by performing a motif search on the target sequence acquired by the target sequence acquisition unit using the cleavage site motif sequence extracted by the cleavage site motif sequence extraction unit Cutting site motif search means for acquiring cutting site search score information that is a score at the time of searching,
The enzyme cleavage site of the target sequence is determined based on the cleavage site search score information acquired by the cleavage site motif search means, and a partial sequence cleaved at the enzyme cleavage site is predicted as the non-cleavable partial sequence Motif search reference uncut partial sequence predicting means;
The vaccine candidate partial sequence prediction apparatus according to claim 1, further comprising:
上記MHC結合部分配列予測手段は、
上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定手段と、
上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含む上記アミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納するMHC結合部位含有配列格納手段と、
上記MHC結合部位含有配列格納手段により格納された上記MHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出するMHC結合部位含有配列アミノ酸出現頻度算出手段と、
上記MHC結合部位含有配列アミノ酸出現頻度算出手段により算出された上記MHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出するMHC結合部位含有配列得点算出手段と、
上記MHC結合部位含有配列得点算出手段により算出された上記MHC結合部位含有配列得点情報に基づいて、上記目的配列取得手段により取得された上記目的配列を上記MHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出するMHC結合部位含有配列長部分配列得点算出手段と、
上記MHC結合部位含有配列長部分配列得点算出手段により算出された上記MHC結合部位含有配列長部分配列得点情報に基づいて上記MHC結合部位を決定し、当該MHC結合部位を含む上記部分配列を上記MHC結合部分配列として予測する得点基準MHC結合部分配列予測手段と、
をさらに備えたことを特徴とする請求項1から3のいずれか一つに記載のワクチン候補部分配列予測装置。
The MHC binding partial sequence predicting means comprises:
A major histocompatibility determining means for determining the type of said particular major histocompatibility antigen;
MHC binding which is information on the MHC binding site-containing sequence which is the amino acid sequence including several residues before and after the MHC binding site which is the site binding to the major histocompatibility antigen determined by the major histocompatibility determining means MHC binding site-containing sequence storage means for storing site-containing sequence information;
MHC for calculating MHC binding site-containing sequence amino acid appearance frequency information, which is information regarding the appearance frequency of amino acids at positions corresponding to each amino acid residue in the MHC binding site-containing sequence stored by the MHC binding site-containing sequence storage means A binding site-containing sequence amino acid appearance frequency calculating means;
MHC binding site-containing sequence score calculation means for calculating MHC binding site-containing sequence amino acid score information based on the MHC binding site-containing sequence amino acid appearance frequency information calculated by the MHC binding site-containing sequence amino acid appearance frequency calculation means;
Based on the MHC binding site-containing sequence score information calculated by the MHC binding site-containing sequence score calculation means, the target sequence acquired by the target sequence acquisition means is divided into the length of the MHC binding site-containing sequence. MHC binding site-containing sequence length partial sequence score calculating means for calculating MHC binding site-containing sequence length partial sequence score information corresponding to each partial sequence;
The MHC binding site-containing sequence length partial sequence score calculation means calculates the MHC binding site based on the MHC binding site-containing sequence length partial sequence score information, and the partial sequence including the MHC binding site is determined as the MHC binding site. A score-based MHC binding partial sequence predicting means for predicting as a binding partial sequence;
The vaccine candidate partial sequence prediction apparatus according to any one of claims 1 to 3, further comprising:
上記MHC結合部分配列予測手段は、
上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定手段と、
上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原と結合する部位であるMHC結合部位の上記アミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納するMHC結合部位配列格納手段と、
上記MHC結合部位配列格納手段により格納された上記MHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出するMHC結合部位モチーフ配列抽出手段と、
上記MHC結合部位モチーフ配列抽出手段により抽出された上記MHC結合部位モチーフ配列を利用して上記目的配列取得手段により取得された上記目的配列に対してモチーフ検索を実行することにより上記目的配列における上記MHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得するMHC結合部位モチーフ検索手段と、
上記MHC結合部位モチーフ検索手段により取得された上記MHC結合部位検索得点情報に基づいて上記MHC結合部位を決定し、当該MHC結合部位を含む上記部分配列を上記MHC結合部分配列として予測するモチーフ検索基準MHC結合部分配列予測手段と、
をさらに備えたことを特徴とする請求項1から3のいずれか一つに記載のワクチン候補部分配列予測装置。
The MHC binding partial sequence predicting means comprises:
A major histocompatibility determining means for determining the type of said particular major histocompatibility antigen;
An MHC that stores MHC binding site sequence information that is information on the MHC binding site sequence that is the amino acid sequence of the MHC binding site that is the site that binds to the major histocompatibility antigen determined by the major histocompatibility antigen determining means Binding site sequence storage means;
MHC binding site motif sequence extraction means for extracting a known MHC binding site motif sequence from the MHC binding site sequence information stored by the MHC binding site sequence storage means;
Using the MHC binding site motif sequence extracted by the MHC binding site motif sequence extraction means, a motif search is performed on the target sequence acquired by the target sequence acquisition unit, whereby the MHC in the target sequence is obtained. MHC binding site motif search means for searching for a binding site and obtaining MHC binding site search score information which is a score at the time of search;
Motif search criteria for determining the MHC binding site based on the MHC binding site search score information obtained by the MHC binding site motif search means and predicting the partial sequence including the MHC binding site as the MHC binding partial sequence MHC binding partial sequence prediction means;
The vaccine candidate partial sequence prediction apparatus according to any one of claims 1 to 3, further comprising:
上記MHC結合部分配列予測手段は、
上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定手段と、
上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原の上記アミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得手段と、
上記目的配列取得手段により取得された上記目的配列を上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原の上記種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成手段と、
上記MHC長部分配列作成手段により作成された各MHC長部分配列および上記MHC配列取得手段により取得された上記主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測手段と、
上記複合体立体構造予測手段により予測された上記複合体立体構造情報に基づいて、上記MHC長部分配列と上記主要組織適合性抗原配列との間で相互作用している上記アミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定手段と、
上記相互作用アミノ酸決定手段により決定された上記相互作用アミノ酸情報に含まれる上記アミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出手段と、
上記親和力算出手段により算出された全ての上記アミノ酸の組の間の上記親和力情報の総和を算出する親和力総和算出手段と、
上記親和力総和算出手段により算出された上記親和力情報の上記総和に基づいて、上記MHC長部分配列と上記主要組織適合性抗原との親和性を評価することにより、上記MHC結合部分配列を予測する親和力基準MHC結合部分配列予測手段と、
をさらに備えたことを特徴とする請求項1から3のいずれか一つに記載のワクチン候補部分配列予測装置。
The MHC binding partial sequence predicting means comprises:
A major histocompatibility determining means for determining the type of said particular major histocompatibility antigen;
MHC sequence acquisition means for acquiring main histocompatibility antigen sequence information, which is information on the main histocompatibility antigen sequence that is the amino acid sequence of the main histocompatibility antigen determined by the main histocompatibility antigen determination means;
Dividing the target sequence obtained by the target sequence obtaining means into lengths corresponding to the types of the major histocompatibility antigens determined by the major histocompatibility antigen determining means, and creating an MHC long partial sequence MHC length partial sequence creating means
Complex three-dimensional structure prediction for predicting complex three-dimensional structure information based on each MHC long partial sequence created by the MHC long partial sequence creating means and the major histocompatibility antigen sequence obtained by the MHC sequence obtaining means Means,
Based on the complex three-dimensional structure information predicted by the complex three-dimensional structure prediction means, information on the set of amino acids interacting between the MHC long partial sequence and the major histocompatibility antigen sequence. An interacting amino acid determining means for determining certain interacting amino acid information;
Affinity information, which is information related to the affinity between the amino acid pairs included in the interacting amino acid information determined by the interacting amino acid determining means, is statistically calculated using the three-dimensional structure information of a known protein. An affinity calculation means;
An affinity sum calculation means for calculating the sum of the affinity information among all the amino acid pairs calculated by the affinity calculation means;
Affinity for predicting the MHC binding partial sequence by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen based on the total of the affinity information calculated by the affinity total calculation means A reference MHC binding subsequence prediction means;
The vaccine candidate partial sequence prediction apparatus according to any one of claims 1 to 3, further comprising:
上記MHC長部分配列作成手段は、
上記目的配列取得手段により取得された上記目的配列を、先頭から1アミノ酸残基ずつスライドしながら上記主要組織適合性抗原の上記種類に対応する上記長さに分割して、上記MHC長部分配列を作成するスライド分割手段、
をさらに備えたことを特徴とする請求項6に記載のワクチン候補部分配列予測装置。
The MHC long partial sequence creating means includes:
The target sequence acquired by the target sequence acquisition means is divided into the length corresponding to the type of the major histocompatibility antigen while sliding by one amino acid residue from the beginning, and the MHC long partial sequence is Slide dividing means to create,
The vaccine candidate partial sequence prediction apparatus according to claim 6, further comprising:
上記主要組織適合性抗原の上記種類に対応する上記長さは、8〜18残基数であること、
を特徴とする請求項6または7に記載のワクチン候補部分配列予測装置。
The length corresponding to the type of major histocompatibility antigen is 8-18 residues,
The vaccine candidate partial sequence prediction apparatus according to claim 6 or 7, wherein
上記MHC結合部分配列予測手段は、
上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原と結合する上記アミノ酸配列の各アミノ酸残基と上記主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納手段、
をさらに備え、
上記親和力算出手段は、
上記親和力情報を、上記MHC結合アミノ酸残基間距離値格納手段により格納された上記MHC結合アミノ酸残基間距離値情報、および/または、上記既知の上記タンパク質の上記立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出手段、
をさらに備えたことを特徴とする請求項6から8のいずれか一つに記載のワクチン候補部分配列予測装置。
The MHC binding partial sequence predicting means comprises:
Information on the distance value between each amino acid residue of the amino acid sequence that binds to the major histocompatibility antigen determined by the major histocompatibility antigen determining means and each amino acid residue of the major histocompatibility antigen sequence MHC binding amino acid residue distance value storage means for storing MHC binding amino acid residue distance value information,
Further comprising
The affinity calculation means is:
Statistical potential using the MHC binding amino acid residue distance value information stored in the MHC binding amino acid residue distance value storage means and / or the three-dimensional structure information of the known protein. Distance value reference affinity calculating means for calculating using
The vaccine candidate partial sequence prediction apparatus according to any one of claims 6 to 8, further comprising:
上記MHC結合部分配列予測手段は、
上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定手段と、
上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原の立体構造であるMHC立体構造情報を取得するMHC立体構造取得手段と、
上記MHC立体構造取得手段により取得された上記MHC立体構造情報および上記目的配列取得手段により取得された上記目的配列の上記部分配列に基づいて、上記主要組織適合性抗原と上記部分配列との複合体立体構造情報を作成する複合体立体構造作成手段と、
上記複合体立体構造作成手段により作成された上記複合体立体構造情報において、量子化学計算手法を用いて上記複合体立体構造情報に対応する上記立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出する構造評価指標算出手段と、
上記構造評価指標算出手段により算出された上記構造評価指標値情報に基づいて、上記部分配列の中から上記MHC結合部分配列を予測する構造評価指標基準MHC結合部分配列予測手段と、
をさらに備えたことを特徴とする請求項1から3のいずれか一つに記載のワクチン候補部分配列予測装置。
The MHC binding partial sequence predicting means comprises:
A major histocompatibility determining means for determining the type of said particular major histocompatibility antigen;
MHC three-dimensional structure acquisition means for acquiring MHC three-dimensional structure information which is the three-dimensional structure of the main histocompatibility antigen determined by the main histocompatibility antigen determination means;
Based on the MHC three-dimensional structure information acquired by the MHC three-dimensional structure acquisition means and the partial sequence of the target sequence acquired by the target sequence acquisition means, a complex of the major histocompatibility antigen and the partial sequence A composite 3D structure creating means for creating 3D structure information;
In the complex three-dimensional structure information created by the complex three-dimensional structure creating means, a structure that is information about an index value for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information using a quantum chemical calculation method A structure evaluation index calculating means for calculating evaluation index value information;
A structure evaluation index reference MHC binding partial sequence prediction means for predicting the MHC binding partial sequence from the partial sequences based on the structure evaluation index value information calculated by the structure evaluation index calculation means;
The vaccine candidate partial sequence prediction apparatus according to any one of claims 1 to 3, further comprising:
上記非自己認識部分配列予測手段は、
特定の生物種に関する上記アミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納する特定生物種配列格納手段と、
上記特定生物種配列格納手段により格納された上記特定生物種配列情報に対して、上記目的配列取得手段により取得された上記目的配列の上記部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得する非自己認識部分配列検索手段と、
上記非自己認識部分配列検索手段により取得された上記非自己認識検索得点情報に基づいて、上記部分配列の中から上記非自己認識部分配列を予測する検索基準非自己認識部分配列予測手段と、
をさらに備えたことを特徴とする請求項1から10のいずれか一つに記載のワクチン候補部分配列予測装置。
The non-self-recognizing partial sequence predicting means includes:
Specific biological species sequence storage means for storing specific biological species sequence information that is information relating to the specific biological species amino acid sequence that is the amino acid sequence of the specific biological species;
By performing a search of the partial sequence of the target sequence acquired by the target sequence acquisition unit with respect to the specific species sequence information stored by the specific species sequence storage unit, a score at the time of search is obtained. A non-self-recognition partial sequence search means for obtaining a certain non-self-recognition search score information;
Based on the non-self-recognition search score information acquired by the non-self-recognition partial sequence search unit, a search reference non-self-recognition partial sequence prediction unit that predicts the non-self-recognition partial sequence from the partial sequence;
The vaccine candidate partial sequence prediction apparatus according to any one of claims 1 to 10, further comprising:
目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得ステップと、
上記目的配列取得ステップにより取得された上記目的配列情報から、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されない上記アミノ酸配列であって、上記目的配列の部分配列である非切断部分配列を予測する非切断部分配列予測ステップと、
上記目的配列取得ステップにより取得された上記目的配列情報から、特定の主要組織適合性抗原と結合することができる上記アミノ酸配列であって、上記目的配列の部分配列であるMHC結合部分配列を予測するMHC結合部分配列予測ステップと、
上記目的配列取得ステップにより取得された上記目的配列情報から、自己として認識されない上記アミノ酸配列であって、上記目的配列の部分配列である非自己認識部分配列を予測する非自己認識部分配列予測ステップと、
上記目的配列取得ステップにより取得された上記目的配列情報から、突然変異の入りにくい上記アミノ酸配列であって、上記目的配列の部分配列である非突然変異部分配列を予測する非突然変異部分配列予測ステップと、
上記非切断部分配列予測ステップにより予測された上記非切断部分配列、上記MHC結合部分配列予測ステップにより予測された上記MHC結合部分配列、上記非自己認識部分配列予測ステップにより予測された上記非自己認識部分配列、および/または、上記非突然変異部分配列予測ステップにより予測された上記非突然変異部分配列に基づいて、ワクチンとして有効な上記アミノ酸配列であるワクチン候補部分配列を予測するワクチン候補部分配列予測ステップと、
を含むことを特徴とするワクチン候補部分配列予測方法。
A target sequence acquisition step of acquiring target sequence information, which is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide;
From the target sequence information acquired in the target sequence acquisition step, the amino acid sequence that is not cleaved by a proteolytic enzyme or proteosome present in the lysosome and predicts a non-cleavable partial sequence that is a partial sequence of the target sequence An uncut subsequence prediction step;
Based on the target sequence information acquired in the target sequence acquisition step, the amino acid sequence capable of binding to a specific major histocompatibility antigen, and an MHC binding partial sequence that is a partial sequence of the target sequence is predicted An MHC binding subsequence prediction step;
A non-self-recognizing partial sequence prediction step for predicting a non-self-recognizing partial sequence that is the amino acid sequence that is not recognized as self from the target sequence information acquired by the target sequence acquisition step and that is a partial sequence of the target sequence; ,
A non-mutated partial sequence prediction step for predicting a non-mutated partial sequence that is a partial sequence of the target sequence, which is the amino acid sequence that is difficult to be mutated, from the target sequence information acquired by the target sequence acquisition step When,
The non-cut partial sequence predicted by the non-cut partial sequence prediction step, the MHC binding partial sequence predicted by the MHC binding partial sequence prediction step, and the non-self recognition predicted by the non-self recognition partial sequence prediction step. Vaccine candidate partial sequence prediction for predicting a vaccine candidate partial sequence that is the amino acid sequence effective as a vaccine based on the partial sequence and / or the non-mutated partial sequence predicted by the non-mutated partial sequence prediction step Steps,
A method for predicting a partial sequence of a vaccine candidate.
上記非切断部分配列予測ステップは、
上記タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含む上記アミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納する切断部位含有配列格納ステップと、
上記切断部位含有配列格納ステップにより格納された上記切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出する切断部位含有配列アミノ酸出現頻度算出ステップと、
上記切断部位含有配列アミノ酸出現頻度算出ステップにより算出された上記切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出する切断部位含有配列得点算出ステップと、
上記切断部位含有配列得点算出ステップにより算出された上記切断部位含有配列得点情報に基づいて、上記目的配列取得ステップにより取得された上記目的配列を上記切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出する切断部位含有配列長部分配列得点算出ステップと、
上記切断部位含有配列長部分配列得点算出ステップにより算出された上記切断部位含有配列長部分配列得点情報に基づいて上記酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を上記非切断部分配列として予測する得点基準非切断部分配列予測ステップと、
をさらに含むことを特徴とする請求項12に記載のワクチン候補部分配列予測方法。
The non-cut partial sequence prediction step includes:
A cleavage site-containing sequence storage step for storing cleavage site-containing sequence information, which is information relating to the cleavage site-containing sequence, which is the amino acid sequence including several residues before and after the enzyme cleavage site, which is a site cleaved by the proteolytic enzyme;
A cleavage site-containing sequence that calculates cleavage site-containing sequence amino acid appearance frequency information that is information on the appearance frequency of amino acids at positions corresponding to each amino acid residue in the cleavage site-containing sequence stored in the cleavage site-containing sequence storage step An amino acid appearance frequency calculating step;
Based on the cleavage site-containing sequence amino acid appearance frequency information calculated in the cleavage site-containing sequence amino acid appearance frequency calculation step, a cleavage site-containing sequence score calculation step for calculating cleavage site-containing sequence score information;
Each partial sequence obtained by dividing the target sequence obtained by the target sequence acquisition step into the length of the cleavage site-containing sequence based on the cleavage site-containing sequence score information calculated by the cleavage site-containing sequence score calculation step A cleavage site-containing sequence length partial sequence score calculation step for calculating a cleavage site-containing sequence length partial sequence score information corresponding to:
Determine the enzyme cleavage site based on the cleavage site-containing sequence length partial sequence score information calculated in the cleavage site-containing sequence length partial sequence score calculation step, and the partial sequence cleaved at the enzyme cleavage site is not cleaved. A score-based non-cutting partial sequence prediction step for predicting as a partial sequence;
The vaccine candidate partial sequence prediction method according to claim 12, further comprising:
上記非切断部分配列予測ステップは、
上記タンパク質分解酵素により切断される部位である酵素切断部位の上記アミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納する切断部位配列格納ステップと、
上記切断部位配列格納ステップにより格納された上記切断部位配列情報から、既知の切断部位モチーフ配列を抽出する切断部位モチーフ配列抽出ステップと、
上記切断部位モチーフ配列抽出ステップにより抽出された上記切断部位モチーフ配列を利用して上記目的配列取得ステップにより取得された上記目的配列に対してモチーフ検索を実行することにより上記目的配列における上記酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得する切断部位モチーフ検索ステップと、
上記切断部位モチーフ検索ステップにより取得された上記切断部位検索得点情報に基づいて上記目的配列の上記酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を上記非切断部分配列として予測するモチーフ検索基準非切断部分配列予測ステップと、
をさらに含むことを特徴とする請求項12に記載のワクチン候補部分配列予測方法。
The non-cut partial sequence prediction step includes:
A cleavage site sequence storage step for storing cleavage site sequence information that is information relating to the cleavage site sequence that is the amino acid sequence of the enzyme cleavage site that is a site cleaved by the proteolytic enzyme;
A cutting site motif sequence extracting step for extracting a known cutting site motif sequence from the cutting site sequence information stored by the cutting site sequence storing step,
The enzyme cleavage site in the target sequence by performing a motif search on the target sequence obtained in the target sequence acquisition step using the cleavage site motif sequence extracted in the cleavage site motif sequence extraction step Cutting site motif search step for acquiring cutting site search score information that is a score at the time of searching,
The enzyme cleavage site of the target sequence is determined based on the cleavage site search score information acquired by the cleavage site motif search step, and a partial sequence cleaved at the enzyme cleavage site is predicted as the non-cleavable partial sequence Motif search criterion non-cutting partial sequence prediction step;
The vaccine candidate partial sequence prediction method according to claim 12, further comprising:
上記MHC結合部分配列予測ステップは、
上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含む上記アミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納するMHC結合部位含有配列格納ステップと、
上記MHC結合部位含有配列格納ステップにより格納された上記MHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出するMHC結合部位含有配列アミノ酸出現頻度算出ステップと、
上記MHC結合部位含有配列アミノ酸出現頻度算出ステップにより算出された上記MHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出するMHC結合部位含有配列得点算出ステップと、
上記MHC結合部位含有配列得点算出ステップにより算出された上記MHC結合部位含有配列得点情報に基づいて、上記目的配列取得ステップにより取得された上記目的配列を上記MHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出するMHC結合部位含有配列長部分配列得点算出ステップと、
上記MHC結合部位含有配列長部分配列得点算出ステップにより算出された上記MHC結合部位含有配列長部分配列得点情報に基づいて上記MHC結合部位を決定し、当該MHC結合部位を含む上記部分配列を上記MHC結合部分配列として予測する得点基準MHC結合部分配列予測ステップと、
をさらに含むことを特徴とする請求項12から14のいずれか一つに記載のワクチン候補部分配列予測方法。
The MHC binding partial sequence prediction step includes:
A major histocompatibility antigen determining step to determine the type of the particular major histocompatibility antigen;
MHC binding which is information on the MHC binding site-containing sequence which is the amino acid sequence including several residues before and after the MHC binding site which is the site binding to the major histocompatibility antigen determined by the major histocompatibility antigen determination step An MHC binding site-containing sequence storage step for storing site-containing sequence information;
MHC for calculating MHC binding site-containing sequence amino acid appearance frequency information, which is information on the appearance frequency of amino acids at positions corresponding to each amino acid residue in the MHC binding site-containing sequence stored in the MHC binding site-containing sequence storage step A binding site-containing sequence amino acid appearance frequency calculating step;
An MHC binding site-containing sequence score calculation step for calculating MHC binding site-containing sequence score information based on the MHC binding site-containing sequence amino acid appearance frequency information calculated in the MHC binding site-containing sequence amino acid appearance frequency calculation step;
Based on the MHC binding site-containing sequence score information calculated in the MHC binding site-containing sequence score calculation step, the target sequence acquired in the target sequence acquisition step is divided into lengths of the MHC binding site-containing sequence. MHC binding site-containing sequence length partial sequence score calculating step for calculating MHC binding site-containing sequence length partial sequence score information corresponding to each partial sequence;
The MHC binding site-containing sequence length partial sequence score calculation step determines the MHC binding site based on the MHC binding site-containing sequence length partial sequence score information, and the partial sequence including the MHC binding site is determined as the MHC binding site. A score-based MHC binding subsequence prediction step for predicting as a binding subsequence;
The vaccine candidate partial sequence prediction method according to any one of claims 12 to 14, further comprising:
上記MHC結合部分配列予測ステップは、
上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する部位であるMHC結合部位の上記アミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納するMHC結合部位配列格納ステップと、
上記MHC結合部位配列格納ステップにより格納された上記MHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出するMHC結合部位モチーフ配列抽出ステップと、
上記MHC結合部位モチーフ配列抽出ステップにより抽出された上記MHC結合部位モチーフ配列を利用して上記目的配列取得ステップにより取得された上記目的配列に対してモチーフ検索を実行することにより上記目的配列における上記MHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得するMHC結合部位モチーフ検索ステップと、
上記MHC結合部位モチーフ検索ステップにより取得された上記MHC結合部位検索得点情報に基づいて上記MHC結合部位を決定し、当該MHC結合部位を含む上記部分配列を上記MHC結合部分配列として予測するモチーフ検索基準MHC結合部分配列予測ステップと、
をさらに含むことを特徴とする請求項12から14のいずれか一つに記載のワクチン候補部分配列予測方法。
The MHC binding partial sequence prediction step includes:
A major histocompatibility antigen determining step to determine the type of the particular major histocompatibility antigen;
An MHC that stores MHC binding site sequence information that is information about the MHC binding site sequence that is the amino acid sequence of the MHC binding site that is the site that binds to the major histocompatibility antigen determined by the major histocompatibility antigen determination step A binding site sequence storing step;
An MHC binding site motif sequence extraction step for extracting a known MHC binding site motif sequence from the MHC binding site sequence information stored by the MHC binding site sequence storage step;
Using the MHC binding site motif sequence extracted in the MHC binding site motif sequence extraction step, performing a motif search on the target sequence acquired in the target sequence acquisition step, the MHC in the target sequence An MHC binding site motif search step of searching for a binding site and obtaining MHC binding site search score information that is a score at the time of search;
Motif search criteria for determining the MHC binding site based on the MHC binding site search score information acquired by the MHC binding site motif search step and predicting the partial sequence including the MHC binding site as the MHC binding partial sequence An MHC binding subsequence prediction step;
The vaccine candidate partial sequence prediction method according to any one of claims 12 to 14, further comprising:
上記MHC結合部分配列予測ステップは、
上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記アミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得ステップと、
上記目的配列取得ステップにより取得された上記目的配列を上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成ステップと、
上記MHC長部分配列作成ステップにより作成された各MHC長部分配列および上記MHC配列取得ステップにより取得された上記主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測ステップと、
上記複合体立体構造予測ステップにより予測された上記複合体立体構造情報に基づいて、上記MHC長部分配列と上記主要組織適合性抗原配列との間で相互作用している上記アミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定ステップと、
上記相互作用アミノ酸決定ステップにより決定された上記相互作用アミノ酸情報に含まれる上記アミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出ステップと、
上記親和力算出ステップにより算出された全ての上記アミノ酸の組の間の上記親和力情報の総和を算出する親和力総和算出ステップと、
上記親和力総和算出ステップにより算出された上記親和力情報の上記総和に基づいて、上記MHC長部分配列と上記主要組織適合性抗原との親和性を評価することにより、上記MHC結合部分配列を予測する親和力基準MHC結合部分配列予測ステップと、
をさらに含むことを特徴とする請求項12から14のいずれか一つに記載のワクチン候補部分配列予測方法。
The MHC binding partial sequence prediction step includes:
A major histocompatibility antigen determining step to determine the type of the particular major histocompatibility antigen;
An MHC sequence acquisition step of acquiring main histocompatibility antigen sequence information, which is information on the main histocompatibility antigen sequence that is the amino acid sequence of the main histocompatibility antigen determined by the main histocompatibility antigen determination step;
Dividing the target sequence acquired in the target sequence acquisition step into lengths corresponding to the types of the main histocompatibility antigen determined in the main histocompatibility antigen determination step, and creating an MHC long partial sequence An MHC length partial sequence creation step;
Complex three-dimensional structure prediction for predicting complex three-dimensional structure information based on each MHC long partial sequence created by the MHC long partial sequence creating step and the major histocompatibility antigen sequence obtained by the MHC sequence obtaining step Steps,
Based on the complex three-dimensional structure information predicted by the complex three-dimensional structure prediction step, information on the set of amino acids interacting between the MHC long partial sequence and the major histocompatibility antigen sequence. An interacting amino acid determination step for determining certain interacting amino acid information;
Affinity information, which is information related to the affinity between the amino acid pairs included in the interacting amino acid information determined in the interacting amino acid determination step, is statistically calculated using the three-dimensional structure information of known proteins. An affinity calculation step;
An affinity sum total calculating step for calculating the sum of the affinity information among all the amino acid pairs calculated in the affinity calculating step;
Affinity for predicting the MHC binding partial sequence by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen based on the total of the affinity information calculated by the affinity total calculation step A reference MHC binding subsequence prediction step;
The vaccine candidate partial sequence prediction method according to any one of claims 12 to 14, further comprising:
上記MHC長部分配列作成ステップは、
上記目的配列取得ステップにより取得された上記目的配列を、先頭から1アミノ酸残基ずつスライドしながら上記主要組織適合性抗原の上記種類に対応する上記長さに分割して、上記MHC長部分配列を作成するスライド分割ステップ、
をさらに含むことを特徴とする請求項17に記載のワクチン候補部分配列予測方法。
The MHC length partial sequence creation step includes:
The target sequence acquired in the target sequence acquisition step is divided into the length corresponding to the type of the major histocompatibility antigen while sliding the amino acid residues one by one from the beginning, and the MHC long partial sequence is Slide split step to create,
The vaccine candidate partial sequence prediction method according to claim 17, further comprising:
上記主要組織適合性抗原の上記種類に対応する上記長さは、8〜18残基数であること、
を特徴とする請求項17または18に記載のワクチン候補部分配列予測方法。
The length corresponding to the type of major histocompatibility antigen is 8-18 residues,
The vaccine candidate partial sequence prediction method according to claim 17 or 18.
上記MHC結合部分配列予測ステップは、
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する上記アミノ酸配列の各アミノ酸残基と上記主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納ステップ、
をさらに含み、
上記親和力算出ステップは、
上記親和力情報を、上記MHC結合アミノ酸残基間距離値格納ステップにより格納された上記MHC結合アミノ酸残基間距離値情報、および/または、上記既知の上記タンパク質の上記立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出ステップ、
をさらに含むことを特徴とする請求項17から19のいずれか一つに記載のワクチン候補部分配列予測方法。
The MHC binding partial sequence prediction step includes:
Information on the distance value between each amino acid residue of the amino acid sequence that binds to the major histocompatibility antigen determined by the major histocompatibility antigen determination step and each amino acid residue of the major histocompatibility antigen sequence A MHC-binding amino acid residue distance value storage step for storing MHC-binding amino acid residue distance value information,
Further including
The affinity calculation step includes
Statistical potential using the MHC binding amino acid residue distance value information stored in the MHC binding amino acid residue distance value storage step and / or the known three-dimensional structure information of the protein. A distance value reference affinity calculation step to calculate using
The vaccine candidate partial sequence prediction method according to any one of claims 17 to 19, further comprising:
上記MHC結合部分配列予測ステップは、
上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の立体構造であるMHC立体構造情報を取得するMHC立体構造取得ステップと、
上記MHC立体構造取得ステップにより取得された上記MHC立体構造情報および上記目的配列取得ステップにより取得された上記目的配列の上記部分配列に基づいて、上記主要組織適合性抗原と上記部分配列との複合体立体構造情報を作成する複合体立体構造作成ステップと、
上記複合体立体構造作成ステップにより作成された上記複合体立体構造情報において、量子化学計算手法を用いて上記複合体立体構造情報に対応する上記立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出する構造評価指標算出ステップと、
上記構造評価指標算出ステップにより算出された上記構造評価指標値情報に基づいて、上記部分配列の中から上記MHC結合部分配列を予測する構造評価指標基準MHC結合部分配列予測ステップと、
をさらに含むことを特徴とする請求項12から14のいずれか一つに記載のワクチン候補部分配列予測方法。
The MHC binding partial sequence prediction step includes:
A major histocompatibility antigen determining step to determine the type of the particular major histocompatibility antigen;
An MHC three-dimensional structure acquisition step of acquiring MHC three-dimensional structure information that is a three-dimensional structure of the main histocompatibility antigen determined by the main histocompatibility antigen determination step;
Based on the MHC three-dimensional structure information acquired in the MHC three-dimensional structure acquisition step and the partial sequence of the target sequence acquired in the target sequence acquisition step, a complex of the major histocompatibility antigen and the partial sequence A composite 3D structure creation step for creating 3D structure information;
In the complex three-dimensional structure information created by the complex three-dimensional structure creation step, a structure that is information on an index value for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information using a quantum chemical calculation method A structure evaluation index calculation step for calculating evaluation index value information;
A structure evaluation index reference MHC binding partial sequence prediction step for predicting the MHC binding partial sequence from the partial sequences based on the structure evaluation index value information calculated by the structure evaluation index calculation step;
The vaccine candidate partial sequence prediction method according to any one of claims 12 to 14, further comprising:
上記非自己認識部分配列予測ステップは、
特定の生物種に関する上記アミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納する特定生物種配列格納ステップと、
上記特定生物種配列格納ステップにより格納された上記特定生物種配列情報に対して、上記目的配列取得ステップにより取得された上記目的配列の上記部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得する非自己認識部分配列検索ステップと、
上記非自己認識部分配列検索ステップにより取得された上記非自己認識検索得点情報に基づいて、上記部分配列の中から上記非自己認識部分配列を予測する検索基準非自己認識部分配列予測ステップと、
をさらに含むことを特徴とする請求項12から21のいずれか一つに記載のワクチン候補部分配列予測方法。
The non-self-recognizing partial sequence prediction step includes:
A specific species sequence storing step for storing specific species sequence information, which is information relating to a specific species amino acid sequence, which is the amino acid sequence of the specific species;
By performing a search of the partial sequence of the target sequence acquired by the target sequence acquisition step with respect to the specific biological sequence information stored by the specific species sequence storage step, the score at the time of search is obtained. A non-self-recognition subsequence search step for obtaining certain non-self-recognition search score information;
Based on the non-self-recognition search score information acquired by the non-self-recognition partial sequence search step, a search reference non-self-recognition partial sequence prediction step for predicting the non-self-recognition partial sequence from the partial sequences;
The vaccine candidate partial sequence prediction method according to any one of claims 12 to 21, further comprising:
目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得ステップと、
上記目的配列取得ステップにより取得された上記目的配列情報から、リソソーム内に存在するタンパク質分解酵素またはプロテオソームにより切断されない上記アミノ酸配列であって、上記目的配列の部分配列である非切断部分配列を予測する非切断部分配列予測ステップと、
上記目的配列取得ステップにより取得された上記目的配列情報から、特定の主要組織適合性抗原と結合することができる上記アミノ酸配列であって、上記目的配列の部分配列であるMHC結合部分配列を予測するMHC結合部分配列予測ステップと、
上記目的配列取得ステップにより取得された上記目的配列情報から、自己として認識されない上記アミノ酸配列であって、上記目的配列の部分配列である非自己認識部分配列を予測する非自己認識部分配列予測ステップと、
上記目的配列取得ステップにより取得された上記目的配列情報から、突然変異の入りにくい上記アミノ酸配列であって、上記目的配列の部分配列である非突然変異部分配列を予測する非突然変異部分配列予測ステップと、
上記非切断部分配列予測ステップにより予測された上記非切断部分配列、上記MHC結合部分配列予測ステップにより予測された上記MHC結合部分配列、上記非自己認識部分配列予測ステップにより予測された上記非自己認識部分配列、および/または、上記非突然変異部分配列予測ステップにより予測された上記非突然変異部分配列に基づいて、ワクチンとして有効な上記アミノ酸配列であるワクチン候補部分配列を予測するワクチン候補部分配列予測ステップと、
を含むワクチン候補部分配列予測方法をコンピュータに実行させることを特徴とするプログラム。
A target sequence acquisition step of acquiring target sequence information, which is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide;
From the target sequence information acquired in the target sequence acquisition step, the amino acid sequence that is not cleaved by a proteolytic enzyme or proteosome present in the lysosome and predicts a non-cleavable partial sequence that is a partial sequence of the target sequence An uncut subsequence prediction step;
Based on the target sequence information acquired in the target sequence acquisition step, the amino acid sequence capable of binding to a specific major histocompatibility antigen, and an MHC binding partial sequence that is a partial sequence of the target sequence is predicted An MHC binding subsequence prediction step;
A non-self-recognizing partial sequence prediction step for predicting a non-self-recognizing partial sequence that is the amino acid sequence that is not recognized as self from the target sequence information acquired by the target sequence acquisition step and that is a partial sequence of the target sequence; ,
A non-mutated partial sequence prediction step for predicting a non-mutated partial sequence that is a partial sequence of the target sequence, which is the amino acid sequence that is difficult to be mutated, from the target sequence information acquired by the target sequence acquisition step When,
The non-cut partial sequence predicted by the non-cut partial sequence prediction step, the MHC binding partial sequence predicted by the MHC binding partial sequence prediction step, and the non-self recognition predicted by the non-self recognition partial sequence prediction step. Vaccine candidate partial sequence prediction for predicting a vaccine candidate partial sequence that is the amino acid sequence effective as a vaccine based on the partial sequence and / or the non-mutated partial sequence predicted by the non-mutated partial sequence prediction step Steps,
A program for causing a computer to execute a vaccine candidate partial sequence prediction method including:
上記非切断部分配列予測ステップは、
上記タンパク質分解酵素により切断される部位である酵素切断部位の前後数残基を含む上記アミノ酸配列である切断部位含有配列に関する情報である切断部位含有配列情報を格納する切断部位含有配列格納ステップと、
上記切断部位含有配列格納ステップにより格納された上記切断部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報である切断部位含有配列アミノ酸出現頻度情報を算出する切断部位含有配列アミノ酸出現頻度算出ステップと、
上記切断部位含有配列アミノ酸出現頻度算出ステップにより算出された上記切断部位含有配列アミノ酸出現頻度情報に基づいて、切断部位含有配列得点情報を算出する切断部位含有配列得点算出ステップと、
上記切断部位含有配列得点算出ステップにより算出された上記切断部位含有配列得点情報に基づいて、上記目的配列取得ステップにより取得された上記目的配列を上記切断部位含有配列の長さに分割した各部分配列に対応する切断部位含有配列長部分配列得点情報を算出する切断部位含有配列長部分配列得点算出ステップと、
上記切断部位含有配列長部分配列得点算出ステップにより算出された上記切断部位含有配列長部分配列得点情報に基づいて上記酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を上記非切断部分配列として予測する得点基準非切断部分配列予測ステップと、
をさらに含むことを特徴とする請求項23に記載のプログラム。
The non-cut partial sequence prediction step includes:
A cleavage site-containing sequence storage step for storing cleavage site-containing sequence information, which is information relating to the cleavage site-containing sequence, which is the amino acid sequence including several residues before and after the enzyme cleavage site, which is a site cleaved by the proteolytic enzyme;
A cleavage site-containing sequence that calculates cleavage site-containing sequence amino acid appearance frequency information that is information on the appearance frequency of amino acids at positions corresponding to each amino acid residue in the cleavage site-containing sequence stored in the cleavage site-containing sequence storage step An amino acid appearance frequency calculating step;
Based on the cleavage site-containing sequence amino acid appearance frequency information calculated in the cleavage site-containing sequence amino acid appearance frequency calculation step, a cleavage site-containing sequence score calculation step for calculating cleavage site-containing sequence score information;
Each partial sequence obtained by dividing the target sequence obtained by the target sequence acquisition step into the length of the cleavage site-containing sequence based on the cleavage site-containing sequence score information calculated by the cleavage site-containing sequence score calculation step A cleavage site-containing sequence length partial sequence score calculation step for calculating a cleavage site-containing sequence length partial sequence score information corresponding to:
Determine the enzyme cleavage site based on the cleavage site-containing sequence length partial sequence score information calculated in the cleavage site-containing sequence length partial sequence score calculation step, and the partial sequence cleaved at the enzyme cleavage site is not cleaved. A score-based non-cutting partial sequence prediction step for predicting as a partial sequence;
The program according to claim 23, further comprising:
上記非切断部分配列予測ステップは、
上記タンパク質分解酵素により切断される部位である酵素切断部位の上記アミノ酸配列である切断部位配列に関する情報である切断部位配列情報を格納する切断部位配列格納ステップと、
上記切断部位配列格納ステップにより格納された上記切断部位配列情報から、既知の切断部位モチーフ配列を抽出する切断部位モチーフ配列抽出ステップと、
上記切断部位モチーフ配列抽出ステップにより抽出された上記切断部位モチーフ配列を利用して上記目的配列取得ステップにより取得された上記目的配列に対してモチーフ検索を実行することにより上記目的配列における上記酵素切断部位を検索し、検索時のスコアである切断部位検索得点情報を取得する切断部位モチーフ検索ステップと、
上記切断部位モチーフ検索ステップにより取得された上記切断部位検索得点情報に基づいて上記目的配列の上記酵素切断部位を決定し、当該酵素切断部位で切断された部分配列を上記非切断部分配列として予測するモチーフ検索基準非切断部分配列予測ステップと、
をさらに含むことを特徴とする請求項23に記載のプログラム。
The non-cut partial sequence prediction step includes:
A cleavage site sequence storage step for storing cleavage site sequence information that is information relating to the cleavage site sequence that is the amino acid sequence of the enzyme cleavage site that is a site cleaved by the proteolytic enzyme;
A cutting site motif sequence extracting step for extracting a known cutting site motif sequence from the cutting site sequence information stored by the cutting site sequence storing step,
The enzyme cleavage site in the target sequence by performing a motif search on the target sequence obtained in the target sequence acquisition step using the cleavage site motif sequence extracted in the cleavage site motif sequence extraction step Cutting site motif search step for acquiring cutting site search score information that is a score at the time of searching,
The enzyme cleavage site of the target sequence is determined based on the cleavage site search score information acquired by the cleavage site motif search step, and a partial sequence cleaved at the enzyme cleavage site is predicted as the non-cleavable partial sequence Motif search criterion non-cutting partial sequence prediction step;
The program according to claim 23, further comprising:
上記MHC結合部分配列予測ステップは、
上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する部位であるMHC結合部位の前後数残基を含む上記アミノ酸配列であるMHC結合部位含有配列に関する情報であるMHC結合部位含有配列情報を格納するMHC結合部位含有配列格納ステップと、
上記MHC結合部位含有配列格納ステップにより格納された上記MHC結合部位含有配列中の各アミノ酸残基に対応する位置におけるアミノ酸の出現頻度に関する情報であるMHC結合部位含有配列アミノ酸出現頻度情報を算出するMHC結合部位含有配列アミノ酸出現頻度算出ステップと、
上記MHC結合部位含有配列アミノ酸出現頻度算出ステップにより算出された上記MHC結合部位含有配列アミノ酸出現頻度情報に基づいて、MHC結合部位含有配列得点情報を算出するMHC結合部位含有配列得点算出ステップと、
上記MHC結合部位含有配列得点算出ステップにより算出された上記MHC結合部位含有配列得点情報に基づいて、上記目的配列取得ステップにより取得された上記目的配列を上記MHC結合部位含有配列の長さに分割した各部分配列に対応するMHC結合部位含有配列長部分配列得点情報を算出するMHC結合部位含有配列長部分配列得点算出ステップと、
上記MHC結合部位含有配列長部分配列得点算出ステップにより算出された上記MHC結合部位含有配列長部分配列得点情報に基づいて上記MHC結合部位を決定し、当該MHC結合部位を含む上記部分配列を上記MHC結合部分配列として予測する得点基準MHC結合部分配列予測ステップと、
をさらに含むことを特徴とする請求項23から25のいずれか一つに記載のプログラム。
The MHC binding partial sequence prediction step includes:
A major histocompatibility antigen determining step to determine the type of the particular major histocompatibility antigen;
MHC binding which is information on the MHC binding site-containing sequence which is the amino acid sequence including several residues before and after the MHC binding site which is the site binding to the major histocompatibility antigen determined by the major histocompatibility antigen determination step An MHC binding site-containing sequence storage step for storing site-containing sequence information;
MHC for calculating MHC binding site-containing sequence amino acid appearance frequency information, which is information on the appearance frequency of amino acids at positions corresponding to each amino acid residue in the MHC binding site-containing sequence stored in the MHC binding site-containing sequence storage step A binding site-containing sequence amino acid appearance frequency calculating step;
An MHC binding site-containing sequence score calculation step for calculating MHC binding site-containing sequence score information based on the MHC binding site-containing sequence amino acid appearance frequency information calculated in the MHC binding site-containing sequence amino acid appearance frequency calculation step;
Based on the MHC binding site-containing sequence score information calculated in the MHC binding site-containing sequence score calculation step, the target sequence acquired in the target sequence acquisition step is divided into lengths of the MHC binding site-containing sequence. MHC binding site-containing sequence length partial sequence score calculating step for calculating MHC binding site-containing sequence length partial sequence score information corresponding to each partial sequence;
The MHC binding site-containing sequence length partial sequence score calculation step determines the MHC binding site based on the MHC binding site-containing sequence length partial sequence score information, and the partial sequence including the MHC binding site is determined as the MHC binding site. A score-based MHC binding subsequence prediction step for predicting as a binding subsequence;
The program according to any one of claims 23 to 25, further comprising:
上記MHC結合部分配列予測ステップは、
上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する部位であるMHC結合部位の上記アミノ酸配列であるMHC結合部位配列に関する情報であるMHC結合部位配列情報を格納するMHC結合部位配列格納ステップと、
上記MHC結合部位配列格納ステップにより格納された上記MHC結合部位配列情報から、既知のMHC結合部位モチーフ配列を抽出するMHC結合部位モチーフ配列抽出ステップと、
上記MHC結合部位モチーフ配列抽出ステップにより抽出された上記MHC結合部位モチーフ配列を利用して上記目的配列取得ステップにより取得された上記目的配列に対してモチーフ検索を実行することにより上記目的配列における上記MHC結合部位を検索し、検索時のスコアであるMHC結合部位検索得点情報を取得するMHC結合部位モチーフ検索ステップと、
上記MHC結合部位モチーフ検索ステップにより取得された上記MHC結合部位検索得点情報に基づいて上記MHC結合部位を決定し、当該MHC結合部位を含む上記部分配列を上記MHC結合部分配列として予測するモチーフ検索基準MHC結合部分配列予測ステップと、
をさらに含むことを特徴とする請求項23から25のいずれか一つに記載のプログラム。
The MHC binding partial sequence prediction step includes:
A major histocompatibility antigen determining step to determine the type of the particular major histocompatibility antigen;
An MHC that stores MHC binding site sequence information that is information about the MHC binding site sequence that is the amino acid sequence of the MHC binding site that is the site that binds to the major histocompatibility antigen determined by the major histocompatibility antigen determination step A binding site sequence storing step;
An MHC binding site motif sequence extraction step for extracting a known MHC binding site motif sequence from the MHC binding site sequence information stored by the MHC binding site sequence storage step;
Using the MHC binding site motif sequence extracted in the MHC binding site motif sequence extraction step, performing a motif search on the target sequence acquired in the target sequence acquisition step, the MHC in the target sequence An MHC binding site motif search step of searching for a binding site and obtaining MHC binding site search score information that is a score at the time of search;
Motif search criteria for determining the MHC binding site based on the MHC binding site search score information acquired by the MHC binding site motif search step and predicting the partial sequence including the MHC binding site as the MHC binding partial sequence An MHC binding subsequence prediction step;
The program according to any one of claims 23 to 25, further comprising:
上記MHC結合部分配列予測ステップは、
上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記アミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得ステップと、
上記目的配列取得ステップにより取得された上記目的配列を上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成ステップと、
上記MHC長部分配列作成ステップにより作成された各MHC長部分配列および上記MHC配列取得ステップにより取得された上記主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測ステップと、
上記複合体立体構造予測ステップにより予測された上記複合体立体構造情報に基づいて、上記MHC長部分配列と上記主要組織適合性抗原配列との間で相互作用している上記アミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定ステップと、
上記相互作用アミノ酸決定ステップにより決定された上記相互作用アミノ酸情報に含まれる上記アミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出ステップと、
上記親和力算出ステップにより算出された全ての上記アミノ酸の組の間の上記親和力情報の総和を算出する親和力総和算出ステップと、
上記親和力総和算出ステップにより算出された上記親和力情報の上記総和に基づいて、上記MHC長部分配列と上記主要組織適合性抗原との親和性を評価することにより、上記MHC結合部分配列を予測する親和力基準MHC結合部分配列予測ステップと、
をさらに含むことを特徴とする請求項23から25のいずれか一つに記載のプログラム。
The MHC binding partial sequence prediction step includes:
A major histocompatibility antigen determining step to determine the type of the particular major histocompatibility antigen;
An MHC sequence obtaining step for obtaining major histocompatibility antigen sequence information, which is information relating to the major histocompatibility antigen sequence that is the amino acid sequence of the major histocompatibility antigen determined by the major histocompatibility antigen determination step;
Dividing the target sequence acquired in the target sequence acquisition step into lengths corresponding to the types of the main histocompatibility antigen determined in the main histocompatibility antigen determination step, and creating an MHC long partial sequence An MHC length partial sequence creation step;
Complex three-dimensional structure prediction for predicting complex three-dimensional structure information based on each MHC long partial sequence created by the MHC long partial sequence creating step and the major histocompatibility antigen sequence obtained by the MHC sequence obtaining step Steps,
Based on the complex three-dimensional structure information predicted by the complex three-dimensional structure prediction step, information on the set of amino acids interacting between the MHC long partial sequence and the major histocompatibility antigen sequence. An interacting amino acid determination step for determining certain interacting amino acid information;
Affinity information, which is information related to the affinity between the amino acid pairs included in the interacting amino acid information determined in the interacting amino acid determination step, is statistically calculated using the three-dimensional structure information of known proteins. An affinity calculation step;
An affinity sum total calculating step for calculating the sum of the affinity information among all the amino acid pairs calculated in the affinity calculating step;
Affinity for predicting the MHC binding partial sequence by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen based on the total of the affinity information calculated by the affinity total calculation step A reference MHC binding subsequence prediction step;
The program according to any one of claims 23 to 25, further comprising:
上記MHC長部分配列作成ステップは、
上記目的配列取得ステップにより取得された上記目的配列を、先頭から1アミノ酸残基ずつスライドしながら上記主要組織適合性抗原の上記種類に対応する上記長さに分割して、上記MHC長部分配列を作成するスライド分割ステップ、
をさらに含むことを特徴とする請求項28に記載のプログラム。
The MHC length partial sequence creation step includes:
The target sequence acquired in the target sequence acquisition step is divided into the length corresponding to the type of the major histocompatibility antigen while sliding the amino acid residues one by one from the beginning, and the MHC long partial sequence is Slide split step to create,
The program according to claim 28, further comprising:
上記主要組織適合性抗原の上記種類に対応する上記長さは、8〜18残基数であること、
を特徴とする請求項28または29に記載のプログラム。
The length corresponding to the type of major histocompatibility antigen is 8-18 residues,
30. The program according to claim 28 or 29.
上記MHC結合部分配列予測ステップは、
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する上記アミノ酸配列の各アミノ酸残基と上記主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納ステップ、
をさらに含み、
上記親和力算出ステップは、
上記親和力情報を、上記MHC結合アミノ酸残基間距離値格納ステップにより格納された上記MHC結合アミノ酸残基間距離値情報、および/または、上記既知の上記タンパク質の上記立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出ステップ、
をさらに含むことを特徴とする請求項28から30のいずれか一つに記載のプログラム。
The MHC binding partial sequence prediction step includes:
Information on the distance value between each amino acid residue of the amino acid sequence that binds to the major histocompatibility antigen determined by the major histocompatibility antigen determination step and each amino acid residue of the major histocompatibility antigen sequence A MHC-binding amino acid residue distance value storage step for storing MHC-binding amino acid residue distance value information,
Further including
The affinity calculation step includes
Statistical potential using the MHC binding amino acid residue distance value information stored in the MHC binding amino acid residue distance value storage step and / or the known three-dimensional structure information of the protein. A distance value reference affinity calculation step to calculate using
The program according to claim 28, further comprising:
上記MHC結合部分配列予測ステップは、
上記特定の上記主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の立体構造であるMHC立体構造情報を取得するMHC立体構造取得ステップと、
上記MHC立体構造取得ステップにより取得された上記MHC立体構造情報および上記目的配列取得ステップにより取得された上記目的配列の上記部分配列に基づいて、上記主要組織適合性抗原と上記部分配列との複合体立体構造情報を作成する複合体立体構造作成ステップと、
上記複合体立体構造作成ステップにより作成された上記複合体立体構造情報において、量子化学計算手法を用いて上記複合体立体構造情報に対応する上記立体構造を評価するための指標値に関する情報である構造評価指標値情報を算出する構造評価指標算出ステップと、
上記構造評価指標算出ステップにより算出された上記構造評価指標値情報に基づいて、上記部分配列の中から上記MHC結合部分配列を予測する構造評価指標基準MHC結合部分配列予測ステップと、
をさらに含むことを特徴とする請求項23から25のいずれか一つに記載のプログラム。
The MHC binding partial sequence prediction step includes:
A major histocompatibility antigen determining step to determine the type of the particular major histocompatibility antigen;
An MHC three-dimensional structure acquisition step of acquiring MHC three-dimensional structure information that is a three-dimensional structure of the main histocompatibility antigen determined by the main histocompatibility antigen determination step;
Based on the MHC three-dimensional structure information acquired in the MHC three-dimensional structure acquisition step and the partial sequence of the target sequence acquired in the target sequence acquisition step, a complex of the major histocompatibility antigen and the partial sequence A composite 3D structure creation step for creating 3D structure information;
In the complex three-dimensional structure information created by the complex three-dimensional structure creation step, a structure that is information on an index value for evaluating the three-dimensional structure corresponding to the complex three-dimensional structure information using a quantum chemical calculation method A structure evaluation index calculation step for calculating evaluation index value information;
A structure evaluation index reference MHC binding partial sequence prediction step for predicting the MHC binding partial sequence from the partial sequences based on the structure evaluation index value information calculated by the structure evaluation index calculation step;
The program according to any one of claims 23 to 25, further comprising:
上記非自己認識部分配列予測ステップは、
特定の生物種に関する上記アミノ酸配列である特定生物種アミノ酸配列に関する情報である特定生物種配列情報を格納する特定生物種配列格納ステップと、
上記特定生物種配列格納ステップにより格納された上記特定生物種配列情報に対して、上記目的配列取得ステップにより取得された上記目的配列の上記部分配列の検索を実行することにより、検索時のスコアである非自己認識検索得点情報を取得する非自己認識部分配列検索ステップと、
上記非自己認識部分配列検索ステップにより取得された上記非自己認識検索得点情報に基づいて、上記部分配列の中から上記非自己認識部分配列を予測する検索基準非自己認識部分配列予測ステップと、
をさらに含むことを特徴とする請求項23から32のいずれか一つに記載のプログラム。
The non-self-recognizing partial sequence prediction step includes:
A specific species sequence storing step for storing specific species sequence information, which is information relating to a specific species amino acid sequence, which is the amino acid sequence of the specific species;
By performing a search of the partial sequence of the target sequence acquired by the target sequence acquisition step with respect to the specific biological sequence information stored by the specific species sequence storage step, the score at the time of search is obtained. A non-self-recognition subsequence search step for obtaining certain non-self-recognition search score information;
Based on the non-self-recognition search score information acquired by the non-self-recognition partial sequence search step, a search reference non-self-recognition partial sequence prediction step for predicting the non-self-recognition partial sequence from the partial sequences;
The program according to any one of claims 23 to 32, further comprising:
上記請求項23から33のいずれか一つに記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。   34. A computer-readable recording medium on which the program according to any one of claims 23 to 33 is recorded. 目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得手段と、
特定の主要組織適合性抗原の種類を決定する主要組織適合性抗原決定手段と、
上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原の上記アミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得手段と、
上記目的配列取得手段により取得された上記目的配列を上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原の上記種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成手段と、
上記MHC長部分配列作成手段により作成された各MHC長部分配列および上記MHC配列取得手段により取得された上記主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測手段と、
上記複合体立体構造予測手段により予測された上記複合体立体構造情報に基づいて、上記MHC長部分配列と上記主要組織適合性抗原配列との間で相互作用している上記アミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定手段と、
上記相互作用アミノ酸決定手段により決定された上記相互作用アミノ酸情報に含まれる上記アミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出手段と、
上記親和力算出手段により算出された全ての上記アミノ酸の組の間の上記親和力情報の総和を算出する親和力総和算出手段と、
上記親和力総和算出手段により算出された上記親和力情報の上記総和に基づいて、上記MHC長部分配列と上記主要組織適合性抗原との親和性を評価することにより、上記特定の上記主要組織適合性抗原と結合することができる上記アミノ酸配列であるMHC結合部分配列を予測する親和力基準MHC結合部分配列予測手段と、
を備えたことを特徴とするMHC結合部分配列予測装置。
A target sequence acquisition means for acquiring target sequence information, which is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide;
A major histocompatibility determining means for determining the type of a particular major histocompatibility antigen;
MHC sequence acquisition means for acquiring main histocompatibility antigen sequence information, which is information on the main histocompatibility antigen sequence that is the amino acid sequence of the main histocompatibility antigen determined by the main histocompatibility antigen determination means;
Dividing the target sequence obtained by the target sequence obtaining means into lengths corresponding to the types of the major histocompatibility antigens determined by the major histocompatibility antigen determining means, and creating an MHC long partial sequence MHC length partial sequence creating means
Complex three-dimensional structure prediction for predicting complex three-dimensional structure information based on each MHC long partial sequence created by the MHC long partial sequence creating means and the major histocompatibility antigen sequence obtained by the MHC sequence obtaining means Means,
Based on the complex three-dimensional structure information predicted by the complex three-dimensional structure prediction means, information on the set of amino acids interacting between the MHC long partial sequence and the major histocompatibility antigen sequence. An interacting amino acid determining means for determining certain interacting amino acid information;
Affinity information, which is information related to the affinity between the amino acid pairs included in the interacting amino acid information determined by the interacting amino acid determining means, is statistically calculated using the three-dimensional structure information of a known protein. An affinity calculation means;
An affinity sum calculation means for calculating the sum of the affinity information among all the amino acid pairs calculated by the affinity calculation means;
The specific major histocompatibility antigen is evaluated by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen based on the sum of the affinity information calculated by the affinity summation calculation means. An affinity reference MHC binding partial sequence predicting means for predicting an MHC binding partial sequence which is the amino acid sequence capable of binding to
An MHC binding partial sequence prediction apparatus comprising:
上記MHC長部分配列作成手段は、
上記目的配列取得手段により取得された上記目的配列を、先頭から1アミノ酸残基ずつスライドしながら上記主要組織適合性抗原の上記種類に対応する上記長さに分割して、上記MHC長部分配列を作成するスライド分割手段、
をさらに備えたことを特徴とする請求項35に記載のMHC結合部分配列予測装置。
The MHC long partial sequence creating means includes:
The target sequence acquired by the target sequence acquisition means is divided into the length corresponding to the type of the major histocompatibility antigen while sliding by one amino acid residue from the beginning, and the MHC long partial sequence is Slide dividing means to create,
36. The MHC binding partial sequence prediction apparatus according to claim 35, further comprising:
上記主要組織適合性抗原の上記種類に対応する上記長さは、8〜18残基数であること、
を特徴とする請求項35または36に記載のMHC結合部分配列予測装置。
The length corresponding to the type of major histocompatibility antigen is 8-18 residues,
37. The MHC binding subsequence prediction apparatus according to claim 35 or 36.
上記主要組織適合性抗原決定手段により決定された上記主要組織適合性抗原と結合する上記アミノ酸配列の各アミノ酸残基と上記主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納手段、
をさらに備え、
上記親和力算出手段は、
上記親和力情報を、上記MHC結合アミノ酸残基間距離値格納手段により格納された上記MHC結合アミノ酸残基間距離値情報、および/または、上記既知の上記タンパク質の上記立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出手段、
をさらに備えたことを特徴とする請求項35から37のいずれか一つに記載のMHC結合部分配列予測装置。
Information on the distance value between each amino acid residue of the amino acid sequence that binds to the major histocompatibility antigen determined by the major histocompatibility antigen determining means and each amino acid residue of the major histocompatibility antigen sequence MHC binding amino acid residue distance value storage means for storing MHC binding amino acid residue distance value information,
Further comprising
The affinity calculation means is:
Statistical potential using the MHC binding amino acid residue distance value information stored in the MHC binding amino acid residue distance value storage means and / or the three-dimensional structure information of the known protein. Distance value reference affinity calculating means for calculating using
The MHC binding subsequence prediction apparatus according to any one of claims 35 to 37, further comprising:
目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得ステップと、
特定の主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記アミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得ステップと、
上記目的配列取得ステップにより取得された上記目的配列を上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成ステップと、
上記MHC長部分配列作成ステップにより作成された各MHC長部分配列および上記MHC配列取得ステップにより取得された上記主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測ステップと、
上記複合体立体構造予測ステップにより予測された上記複合体立体構造情報に基づいて、上記MHC長部分配列と上記主要組織適合性抗原配列との間で相互作用している上記アミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定ステップと、
上記相互作用アミノ酸決定ステップにより決定された上記相互作用アミノ酸情報に含まれる上記アミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出ステップと、
上記親和力算出ステップにより算出された全ての上記アミノ酸の組の間の上記親和力情報の総和を算出する親和力総和算出ステップと、
上記親和力総和算出ステップにより算出された上記親和力情報の上記総和に基づいて、上記MHC長部分配列と上記主要組織適合性抗原との親和性を評価することにより、上記特定の上記主要組織適合性抗原と結合することができる上記アミノ酸配列であるMHC結合部分配列を予測する親和力基準MHC結合部分配列予測ステップと、
を含むことを特徴とするMHC結合部分配列予測方法。
A target sequence acquisition step of acquiring target sequence information, which is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide;
A major histocompatibility antigen determining step to determine a particular major histocompatibility antigen type;
An MHC sequence obtaining step for obtaining major histocompatibility antigen sequence information, which is information relating to the major histocompatibility antigen sequence that is the amino acid sequence of the major histocompatibility antigen determined by the major histocompatibility antigen determination step;
Dividing the target sequence acquired in the target sequence acquisition step into lengths corresponding to the types of the main histocompatibility antigen determined in the main histocompatibility antigen determination step, and creating an MHC long partial sequence An MHC length partial sequence creation step;
Complex three-dimensional structure prediction for predicting complex three-dimensional structure information based on each MHC long partial sequence created by the MHC long partial sequence creating step and the major histocompatibility antigen sequence obtained by the MHC sequence obtaining step Steps,
Based on the complex three-dimensional structure information predicted by the complex three-dimensional structure prediction step, information on the set of amino acids interacting between the MHC long partial sequence and the major histocompatibility antigen sequence. An interacting amino acid determination step for determining certain interacting amino acid information;
Affinity information, which is information related to the affinity between the amino acid pairs included in the interacting amino acid information determined in the interacting amino acid determination step, is statistically calculated using the three-dimensional structure information of known proteins. An affinity calculation step;
An affinity sum total calculating step for calculating the sum of the affinity information among all the amino acid pairs calculated in the affinity calculating step;
The specific major histocompatibility antigen is evaluated by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen based on the sum of the affinity information calculated by the affinity summation calculation step. An affinity reference MHC binding partial sequence prediction step for predicting an MHC binding partial sequence that is the amino acid sequence capable of binding to
A method for predicting an MHC binding partial sequence, comprising:
上記MHC長部分配列作成ステップは、
上記目的配列取得ステップにより取得された上記目的配列を、先頭から1アミノ酸残基ずつスライドしながら上記主要組織適合性抗原の上記種類に対応する上記長さに分割して、上記MHC長部分配列を作成するスライド分割ステップ、
をさらに含むことを特徴とする請求項39に記載のMHC結合部分配列予測方法。
The MHC length partial sequence creation step includes:
The target sequence acquired in the target sequence acquisition step is divided into the length corresponding to the type of the major histocompatibility antigen while sliding the amino acid residues one by one from the beginning, and the MHC long partial sequence is Slide split step to create,
40. The method for predicting an MHC binding partial sequence according to claim 39, further comprising:
上記主要組織適合性抗原の上記種類に対応する上記長さは、8〜18残基数であること、
を特徴とする請求項39または40に記載のMHC結合部分配列予測方法。
The length corresponding to the type of major histocompatibility antigen is 8-18 residues,
41. The method for predicting an MHC binding partial sequence according to claim 39 or 40, wherein:
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する上記アミノ酸配列の各アミノ酸残基と上記主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納ステップ、
をさらに含み、
上記親和力算出ステップは、
上記親和力情報を、上記MHC結合アミノ酸残基間距離値格納ステップにより格納された上記MHC結合アミノ酸残基間距離値情報、および/または、上記既知の上記タンパク質の上記立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出ステップ、
をさらに含むことを特徴とする請求項39から41のいずれか一つに記載のMHC結合部分配列予測方法。
Information on the distance value between each amino acid residue of the amino acid sequence that binds to the major histocompatibility antigen determined by the major histocompatibility antigen determination step and each amino acid residue of the major histocompatibility antigen sequence A MHC-binding amino acid residue distance value storage step for storing MHC-binding amino acid residue distance value information,
Further including
The affinity calculation step includes
Statistical potential using the MHC binding amino acid residue distance value information stored in the MHC binding amino acid residue distance value storage step and / or the known three-dimensional structure information of the protein. A distance value reference affinity calculation step to calculate using
The MHC binding partial sequence prediction method according to any one of claims 39 to 41, further comprising:
目的のタンパク質または生理活性ポリペプチドのアミノ酸配列である目的配列に関する情報である目的配列情報を取得する目的配列取得ステップと、
特定の主要組織適合性抗原の種類を決定する主要組織適合性抗原決定ステップと、
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記アミノ酸配列である主要組織適合性抗原配列に関する情報である主要組織適合性抗原配列情報を取得するMHC配列取得ステップと、
上記目的配列取得ステップにより取得された上記目的配列を上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原の上記種類に対応する長さに分割して、MHC長部分配列を作成するMHC長部分配列作成ステップと、
上記MHC長部分配列作成ステップにより作成された各MHC長部分配列および上記MHC配列取得ステップにより取得された上記主要組織適合性抗原配列に基づいて、複合体立体構造情報を予測する複合体立体構造予測ステップと、
上記複合体立体構造予測ステップにより予測された上記複合体立体構造情報に基づいて、上記MHC長部分配列と上記主要組織適合性抗原配列との間で相互作用している上記アミノ酸の組に関する情報である相互作用アミノ酸情報を決定する相互作用アミノ酸決定ステップと、
上記相互作用アミノ酸決定ステップにより決定された上記相互作用アミノ酸情報に含まれる上記アミノ酸の組の間の親和力に関する情報である親和力情報を、既知のタンパク質の立体構造情報を利用して統計的に算出する親和力算出ステップと、
上記親和力算出ステップにより算出された全ての上記アミノ酸の組の間の上記親和力情報の総和を算出する親和力総和算出ステップと、
上記親和力総和算出ステップにより算出された上記親和力情報の上記総和に基づいて、上記MHC長部分配列と上記主要組織適合性抗原との親和性を評価することにより、上記特定の上記主要組織適合性抗原と結合することができる上記アミノ酸配列であるMHC結合部分配列を予測する親和力基準MHC結合部分配列予測ステップと、
を含むMHC結合部分配列予測方法をコンピュータに実行させることを特徴とするプログラム。
A target sequence acquisition step of acquiring target sequence information, which is information on a target sequence that is an amino acid sequence of a target protein or physiologically active polypeptide;
A major histocompatibility antigen determining step to determine a particular major histocompatibility antigen type;
An MHC sequence obtaining step for obtaining major histocompatibility antigen sequence information, which is information relating to the major histocompatibility antigen sequence that is the amino acid sequence of the major histocompatibility antigen determined by the major histocompatibility antigen determination step;
Dividing the target sequence acquired in the target sequence acquisition step into lengths corresponding to the types of the main histocompatibility antigen determined in the main histocompatibility antigen determination step, and creating an MHC long partial sequence An MHC length partial sequence creation step;
Complex three-dimensional structure prediction for predicting complex three-dimensional structure information based on each MHC long partial sequence created by the MHC long partial sequence creating step and the major histocompatibility antigen sequence obtained by the MHC sequence obtaining step Steps,
Based on the complex three-dimensional structure information predicted by the complex three-dimensional structure prediction step, information on the set of amino acids interacting between the MHC long partial sequence and the major histocompatibility antigen sequence. An interacting amino acid determination step for determining certain interacting amino acid information;
Affinity information, which is information related to the affinity between the amino acid pairs included in the interacting amino acid information determined in the interacting amino acid determination step, is statistically calculated using the three-dimensional structure information of known proteins. An affinity calculation step;
An affinity sum total calculating step for calculating the sum of the affinity information among all the amino acid pairs calculated in the affinity calculating step;
The specific major histocompatibility antigen is evaluated by evaluating the affinity between the MHC long partial sequence and the major histocompatibility antigen based on the sum of the affinity information calculated by the affinity summation calculation step. An affinity reference MHC binding partial sequence prediction step for predicting an MHC binding partial sequence that is the amino acid sequence capable of binding to
A program for causing a computer to execute an MHC binding partial sequence prediction method including
上記MHC長部分配列作成ステップは、
上記目的配列取得ステップにより取得された上記目的配列を、先頭から1アミノ酸残基ずつスライドしながら上記主要組織適合性抗原の上記種類に対応する上記長さに分割して、上記MHC長部分配列を作成するスライド分割ステップ、
をさらに含むことを特徴とする請求項43に記載のプログラム。
The MHC length partial sequence creation step includes:
The target sequence acquired in the target sequence acquisition step is divided into the length corresponding to the type of the major histocompatibility antigen while sliding the amino acid residues one by one from the beginning, and the MHC long partial sequence is Slide split step to create,
44. The program according to claim 43, further comprising:
上記主要組織適合性抗原の上記種類に対応する上記長さは、8〜18残基数であること、
を特徴とする請求項43または44に記載のプログラム。
The length corresponding to the type of major histocompatibility antigen is 8-18 residues,
45. The program according to claim 43 or 44, wherein:
上記主要組織適合性抗原決定ステップにより決定された上記主要組織適合性抗原と結合する上記アミノ酸配列の各アミノ酸残基と上記主要組織適合性抗原配列の各アミノ酸残基との間の距離値に関する情報であるMHC結合アミノ酸残基間距離値情報を格納するMHC結合アミノ酸残基間距離値格納ステップ、
をさらに含み、
上記親和力算出ステップは、
上記親和力情報を、上記MHC結合アミノ酸残基間距離値格納ステップにより格納された上記MHC結合アミノ酸残基間距離値情報、および/または、上記既知の上記タンパク質の上記立体構造情報を利用した統計ポテンシャルを用いて算出する距離値基準親和力算出ステップ、
をさらに含むことを特徴とする請求項43から45のいずれか一つに記載のプログラム。
Information on the distance value between each amino acid residue of the amino acid sequence that binds to the major histocompatibility antigen determined by the major histocompatibility antigen determination step and each amino acid residue of the major histocompatibility antigen sequence A MHC-binding amino acid residue distance value storage step for storing MHC-binding amino acid residue distance value information,
Further including
The affinity calculation step includes
Statistical potential using the MHC binding amino acid residue distance value information stored in the MHC binding amino acid residue distance value storage step and / or the known three-dimensional structure information of the protein. A distance value reference affinity calculation step to calculate using
The program according to claim 43, further comprising:
上記請求項43から46のいずれか一つに記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。   47. A computer-readable recording medium on which the program according to any one of claims 43 to 46 is recorded.
JP2004114653A 2004-04-08 2004-04-08 Apparatus and method for predicting vaccine candidate partial sequence, apparatus and method for predicting mhc-binding partial sequence, program and recording medium Pending JP2005301523A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004114653A JP2005301523A (en) 2004-04-08 2004-04-08 Apparatus and method for predicting vaccine candidate partial sequence, apparatus and method for predicting mhc-binding partial sequence, program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004114653A JP2005301523A (en) 2004-04-08 2004-04-08 Apparatus and method for predicting vaccine candidate partial sequence, apparatus and method for predicting mhc-binding partial sequence, program and recording medium

Publications (1)

Publication Number Publication Date
JP2005301523A true JP2005301523A (en) 2005-10-27

Family

ID=35333000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004114653A Pending JP2005301523A (en) 2004-04-08 2004-04-08 Apparatus and method for predicting vaccine candidate partial sequence, apparatus and method for predicting mhc-binding partial sequence, program and recording medium

Country Status (1)

Country Link
JP (1) JP2005301523A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020518083A (en) * 2017-03-31 2020-06-18 ヤン、ペイ−ジア Ranking system for immunogenic cancer-specific epitopes
CN111488899A (en) * 2019-01-29 2020-08-04 杭州海康威视数字技术股份有限公司 Feature extraction method, device, equipment and readable storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0630759A (en) * 1992-07-17 1994-02-08 Fujitsu Ltd Apparatus for estimating mutation of gene
WO2004022084A1 (en) * 2002-09-04 2004-03-18 Monash University A method of modulating cellular activity and molecules for use therein
JP2005525626A (en) * 2002-02-26 2005-08-25 イギリス国 Screening method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0630759A (en) * 1992-07-17 1994-02-08 Fujitsu Ltd Apparatus for estimating mutation of gene
JP2005525626A (en) * 2002-02-26 2005-08-25 イギリス国 Screening method
WO2004022084A1 (en) * 2002-09-04 2004-03-18 Monash University A method of modulating cellular activity and molecules for use therein

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020518083A (en) * 2017-03-31 2020-06-18 ヤン、ペイ−ジア Ranking system for immunogenic cancer-specific epitopes
JP7155470B2 (en) 2017-03-31 2022-10-19 エーシーティー ジェノミックス (アイピー) カンパニー リミテッド Ranking system for immunogenic cancer-specific epitopes
CN111488899A (en) * 2019-01-29 2020-08-04 杭州海康威视数字技术股份有限公司 Feature extraction method, device, equipment and readable storage medium
CN111488899B (en) * 2019-01-29 2024-02-23 杭州海康威视数字技术股份有限公司 Feature extraction method, device, equipment and readable storage medium

Similar Documents

Publication Publication Date Title
Oany et al. Design of an epitope-based peptide vaccine against spike protein of human coronavirus: an in silico approach
Bhatnager et al. Epitope based peptide vaccine against SARS-COV2: an immune-informatics approach
Paul et al. HLA class I alleles are associated with peptide-binding repertoires of different size, affinity, and immunogenicity
Madera et al. The SUPERFAMILY database in 2004: additions and improvements
Nickle et al. Coping with viral diversity in HIV vaccine design
Rahman et al. Antigenic: an improved prediction model of protective antigens
US20200243164A1 (en) Systems and methods for patient-specific identification of neoantigens by de novo peptide sequencing for personalized immunotherapy
US11069427B2 (en) Mathematical processes for determination of peptidase cleavage
Hu et al. Mining Protein Contact Maps.
Sollner et al. Analysis and prediction of protective continuous B-cell epitopes on pathogen proteins
US20230402129A1 (en) A method of epitope-based vaccine design
Burroughs et al. Discriminating self from nonself with short peptides from large proteomes
US20110269937A1 (en) Conserved-Element Vaccines and Methods for Designing Conserved-Element Vaccines
Resende et al. An assessment on epitope prediction methods for protozoa genomes
Mishra T cell epitope-based vaccine design for pandemic novel coronavirus 2019-nCoV
Khairkhah et al. Prediction of cross‐clade HIV‐1 T‐cell epitopes using immunoinformatics analysis
Khan et al. Analysis of viral diversity for vaccine target discovery
Basu et al. Strategies for vaccine design for corona virus using Immunoinformatics techniques
Schatz et al. Characterizing the N-terminal processing motif of MHC class I ligands
CN115104156A (en) Methods and systems for optimizing vaccine design
Gao et al. In silico identification of non-cross-reactive epitopes for monkeypox cell surface-binding protein
Durojaye et al. Identification of a potential mRNA‐based vaccine candidate against the SARS‐CoV‐2 spike glycoprotein: A reverse vaccinology approach
Zhang et al. Neural models for predicting viral vaccine targets
JP2005301523A (en) Apparatus and method for predicting vaccine candidate partial sequence, apparatus and method for predicting mhc-binding partial sequence, program and recording medium
Sansom Database searching with DNA and protein sequences: An introduction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100105

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100511