JPH10287696A - Estimation of function of protein - Google Patents

Estimation of function of protein

Info

Publication number
JPH10287696A
JPH10287696A JP9093577A JP9357797A JPH10287696A JP H10287696 A JPH10287696 A JP H10287696A JP 9093577 A JP9093577 A JP 9093577A JP 9357797 A JP9357797 A JP 9357797A JP H10287696 A JPH10287696 A JP H10287696A
Authority
JP
Japan
Prior art keywords
protein
amino acid
database
acid sequence
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9093577A
Other languages
Japanese (ja)
Inventor
Akiko Itai
昭子 板井
Nobuo Tomioka
伸夫 富岡
Reiko Itai
玲子 板井
Masazumi Imamura
正純 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Medicinal Molecular Design Inc IMMD
Original Assignee
Institute of Medicinal Molecular Design Inc IMMD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Medicinal Molecular Design Inc IMMD filed Critical Institute of Medicinal Molecular Design Inc IMMD
Priority to JP9093577A priority Critical patent/JPH10287696A/en
Publication of JPH10287696A publication Critical patent/JPH10287696A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To obtain a database for estimation, etc., of functions of protein containing information about amino acid sequence of the protein in which one or more biological functions are known, by making the database include information on an importance score related to the expression of the biological functions of each amino acid residue constituting the amino acid sequence therein. SOLUTION: The database contains the information on the amino acid sequence of a protein capable of utilizing the information on the steric structure of the protein as information about the amino acid sequence of the protein in which one or more biological functions are known and is prepared by adding an importance score related to the expression of the biological functions about each amino acid residue constituting the amino acid sequence thereto to thereby determine the estimation value of the homology in consideration of the importance score related to the expression of the biological functions for the coincidence of the constituent amino acid sequence of the protein housed in the database for a polypeptide unknown about the biological functions. Thereby, the biological functions of the objective protein are estimated from the final estimation value for the whole proteins contained in the database.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明はアミノ酸配列の情報
を基にして、そのアミノ酸配列から構成される蛋白質の
機能を推定する方法に関するものである。より詳しく言
うと、アミノ酸配列の情報を基にして、そのアミノ酸配
列から構成される蛋白質の酵素活性などの生物学的機能
をコンピューターで利用可能な特定のデータベースを利
用して効率的に推定する方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for estimating the function of a protein comprising an amino acid sequence based on information on the amino acid sequence. More specifically, based on amino acid sequence information, a method for efficiently estimating a biological function such as an enzymatic activity of a protein composed of the amino acid sequence using a specific database available on a computer. About.

【0002】[0002]

【従来の技術】蛋白質は生体内で生命活動の維持に必須
の物質であり、動物や植物に限らず微生物にもさまざま
な蛋白質が存在しており、それぞれ固有の機能や役割を
担っている。蛋白質をその機能から大別すると、化学反
応を触媒する酵素、シグナル伝達物質の受け皿蛋白であ
る受容体、それ自身がシグナルを伝えるシグナル伝達蛋
白、及び特定の物質を結合して輸送する蛋白などに分類
でき、それぞれが多様な機能によりさらに細分される。
例えば、特定の基質の特定部位を還元する酵素や、蛋白
質を加水分解する酵素などのように、酵素はそれぞれ固
有の反応を触媒している。
2. Description of the Related Art Proteins are indispensable substances for maintaining life activities in living organisms, and various proteins are present not only in animals and plants but also in microorganisms, and each has its own function and role. Proteins can be broadly classified by their functions into enzymes that catalyze chemical reactions, receptors that are signaling proteins, receptors that transmit signals, and proteins that bind and transport specific substances. Can be classified and each is further subdivided by various functions.
For example, enzymes catalyze a specific reaction, such as an enzyme that reduces a specific site of a specific substrate and an enzyme that hydrolyzes a protein.

【0003】蛋白質は主として20種のアミノ酸によって
構成されており、50〜1000個程度のアミノ酸がさまざま
な順序でペプチド結合により鎖状につながったポリペプ
チド分子である。蛋白質ごとにアミノ酸のつながる順序
(アミノ酸配列または1次構造と呼ぶ)が異なってお
り、その結果、それぞれの蛋白質は異なる生理機能を発
現できるようになる。すなわち、長いポリペプチド鎖が
折り畳まれて立体構造が形成されると、標的分子(酵素
基質分子や受容体基質分子など)の捕捉が可能になり、
反応に関わる官能基が適切な位置関係に配置されるな
ど、目的の生物学的作用の発現に適した場が提供され
る。それぞれのアミノ酸配列から固有の立体構造が決ま
り、その立体構造から生物学的機能が決定されることは
容易に推定されるが、それらの関係の必然性は未だうま
く説明されていない。
[0003] A protein is mainly composed of 20 kinds of amino acids, and is a polypeptide molecule in which about 50 to 1000 amino acids are connected in a chain by peptide bonds in various orders. The order in which amino acids are connected (referred to as amino acid sequence or primary structure) differs for each protein, and as a result, each protein can express a different physiological function. That is, when a long polypeptide chain is folded to form a three-dimensional structure, it becomes possible to capture target molecules (enzyme substrate molecules, receptor substrate molecules, etc.),
A field suitable for the expression of a target biological action is provided, for example, the functional groups involved in the reaction are arranged in an appropriate positional relationship. Although it is easily presumed that a unique three-dimensional structure is determined from each amino acid sequence and a biological function is determined from the three-dimensional structure, the necessity of these relationships has not yet been well explained.

【0004】蛋白質の研究は、酵素活性を指標として蛋
白質を単離・精製し、分子量や構成アミノ酸数、アミノ
酸毎の数を決定した後にアミノ酸配列を決定するという
古典的な方法に代わって、末端の20残基ほどを決定して
対応する遺伝子配列を合成した後、蛋白質をコードする
遺伝子を釣り上げて遺伝子側から全部のアミノ酸配列が
決定する方法が利用されるようになった。これらの研究
ではすでに機能がわかっている蛋白質を対象としてきた
が、最近では全く逆の順序で研究が行われることも多
い。その理由は、遺伝子配列の解析が極めて容易になっ
たために、蛋白を単離することなく、遺伝子の側からそ
れがコードするはずの蛋白質のアミノ酸配列を容易に決
定できるようになったことにある。
[0004] In the study of proteins, instead of the classical method of isolating and purifying a protein using an enzyme activity as an index, determining the molecular weight, the number of constituent amino acids, and the number of each amino acid, and then determining the amino acid sequence, a terminal method is used. After synthesizing the corresponding gene sequence by determining about 20 residues, a method of determining the entire amino acid sequence from the gene side by picking up the gene encoding the protein has come to be used. These studies have focused on proteins whose function is already known, but recently studies have often been performed in exactly the reverse order. The reason is that the analysis of the gene sequence has become so easy that the amino acid sequence of the protein that it should encode can be easily determined from the gene side without isolating the protein. .

【0005】その結果として、生物学的機能がわからな
いままアミノ酸配列だけが推定できる蛋白質が急増して
いる。蛋白質の生物学的機能は立体構造に基づいて発現
されるので、このような機能未知の蛋白質の立体構造を
結晶解析やnmr解析で解析して、その生物学的作用を
推定する試みがなされている。しかしながら、このよう
な構造解析には生化学的な使用量よりはるかに大量で、
かつ高純度の試料が必要である。また、立体構造からた
だちに生物学的機能が推定されるわけではなく、仮に生
物学的機能が推定されたとしてもそれが重要なものであ
るとは限らないので、研究の投資効率が極端に悪いとい
う問題がある。したがって、蛋白質の立体構造を決定す
る前に、そのアミノ酸配列を有する蛋白の生物学的作用
を推定する方法の開発が切望されている。このような方
法が開発されれば、蛋白質研究や遺伝子研究に多大な貢
献があるものと期待される。
[0005] As a result, the number of proteins whose amino acid sequences can be deduced without knowing their biological functions is rapidly increasing. Since the biological function of a protein is expressed based on its three-dimensional structure, attempts have been made to estimate the biological action by analyzing the three-dimensional structure of such a protein whose function is unknown by crystal analysis or nmr analysis. I have. However, such structural analysis is much larger than the biochemical usage,
And a sample of high purity is required. Also, the biological function is not immediately estimated from the three-dimensional structure, and even if the biological function is estimated, it is not necessarily important, so the investment efficiency of research is extremely low There is a problem. Therefore, development of a method for estimating the biological action of a protein having the amino acid sequence before determining the three-dimensional structure of the protein has been desired. If such a method is developed, it is expected to make a great contribution to protein research and gene research.

【0006】立体構造と生物学的機能は密接な関係をも
っており、機能が既知の蛋白質の立体構造情報は機能メ
カニズムを説明するだけでなく、さまざまな目的に役に
立つ。蛋白質またはリガンド分子との複合体の3次元座
標はプロテインデータバンク(Brookhaven National La
boratories, U.S.A.)に収められており、世界中で利用
できるようになっている。現在、収録されている構造数
は約5000程度であるが、生物種の違いやミュータントを
除いた独立の蛋白質で考えると約 400〜500 程度であ
る。解析技術の普及と蛋白質の単離精製の技術の進歩な
どから、結晶解析される蛋白質の数は加速度的に増加し
つつあるが、現状では立体構造が解明されないままの蛋
白質が圧倒的に多い。
[0006] The three-dimensional structure and the biological function are closely related, and the three-dimensional structure information of a protein whose function is known not only explains the function mechanism but is useful for various purposes. The three-dimensional coordinates of the complex with the protein or ligand molecule are described in the Protein Data Bank (Brookhaven National La
boratories, USA) and is available worldwide. At present, the number of recorded structures is about 5,000, but it is about 400-500 in consideration of the difference in species and the independent proteins excluding mutants. Due to the spread of analysis techniques and advances in the isolation and purification of proteins, the number of proteins to be crystallized has been increasing at an accelerating rate, but at present there are overwhelmingly many proteins whose tertiary structure remains unclear.

【0007】結晶解析やnmr解析によらずに蛋白質の
立体構造やリガンド分子との相互作用の様子を推定する
方法としてモデリングを利用することができる。アミノ
酸配列においてある程度相同性の高い類似蛋白質の立体
構造が既に解析されている場合には、その構造を鋳型と
して利用してモデリングを行うことにより、アミノ酸残
基の対応関係に基づいた立体構造を構築できる。この方
法は試料を入手する必要がなく、一般にはコンピュータ
グラフィックス画面上で対話的に行える点で優れた方法
である。例えば、一致していないアミノ酸については側
鎖を置換することによって行われる。側鎖のコンフォメ
ーションの問題や挿入または欠損アミノ酸の主鎖の問題
を有しているものの、推定構造の信頼性はアミノ酸配列
の相同性の高さによって決定され、結晶構造とほぼ同様
の扱いが可能である。
[0007] Modeling can be used as a method for estimating the three-dimensional structure of a protein or the state of interaction with a ligand molecule without using crystal analysis or nmr analysis. If the three-dimensional structure of a similar protein with a high degree of homology in the amino acid sequence has already been analyzed, a three-dimensional structure based on the correspondence between the amino acid residues is constructed by performing modeling using that structure as a template. it can. This method is excellent because it does not require obtaining a sample and can be generally performed interactively on a computer graphics screen. For example, this is accomplished by substituting side chains for unmatched amino acids. Despite problems with side-chain conformation and problems with the backbone of inserted or deleted amino acids, the reliability of the deduced structure is determined by the high homology of the amino acid sequence, and the treatment is almost the same as the crystal structure. It is possible.

【0008】アミノ酸の種類ができるだけ一致するよう
に2種以上の蛋白質のアミノ酸配列間の対応関係をつけ
る方法(アラインメント)は、モデリングの目的だけで
なく、生物種間やファミリー間での類似性や相違点を調
べる目的で頻繁に利用されている。アラインメントの手
法では、概念的には一方の配列を他方に対して1残基ず
つずらしながらアミノ酸の一致のスコアが最もよい対応
位置を見つけることになるが、実際には、配列間の対応
関係の可能性は無限にあるのできめ細かな配慮と繰り返
し操作が必要になり、精度の高い結果を得るためには極
めて煩雑な作業が必要になる。例えば、一方の配列に挿
入や欠損がある場合も多いので単純に全配列でのアミノ
酸の一致度をスコアにすることはできず、部分的に良く
一致する部分配列を探すことが必要であり、所定の残基
数単位(ウィンドウ)で一致のスコアを算出する必要も
ある。場合によっては、完全な一致ではなく性質の似た
アミノ酸を相同としてスコアを求める必要もある。
[0008] A method of aligning the amino acid sequences of two or more proteins so that the types of amino acids match as much as possible (alignment) is not only for the purpose of modeling, but also for the similarity between biological species and families. It is frequently used to examine differences. In the alignment method, conceptually, one sequence is shifted one residue at a time with respect to the other to find a corresponding position having the best amino acid matching score. Although the possibilities are endless, detailed considerations and repetitive operations are required, and extremely complicated work is required to obtain highly accurate results. For example, since there is often an insertion or deletion in one sequence, it is not possible to simply score the degree of amino acid identity in the entire sequence, and it is necessary to search for a partial sequence that partially matches well, It is also necessary to calculate a match score in a predetermined number of residues (window). In some cases, it is necessary to obtain a score based on homology between amino acids having similar properties instead of exact matches.

【0009】一般に、相同性が低い場合にはアラインメ
ントも一義的には決まらず曖昧さが残るという問題を有
しているものの、機能が既知の蛋白質群からアミノ酸配
列上の類似性の高い蛋白質を探し出すことができるの
で、アラインメントは現在のところアミノ酸配列しか手
がかりのない蛋白質についてその機能を推定する最も簡
便な方法である。このような理由から、アラインメント
の煩雑な操作をコンピューターを用いて部分的に自動化
する試みがなされている。例えば、アミノ酸配列のマッ
チング法としてFASTA (Pearson, W.R. and Lipman, D.
J., Proc. Natl. Acad. Sci. USA, 85, pp.2444-2448,
1988)とBLAST (Altschul, S.F. et al., J. Mol. Bio
l., 215, pp.403-410, 1990)が知られている。これら
の方法は、短い特定の配列が長い対象配列中に存在する
か否かを高速に調べるのに適しているものの、長い配列
同士を比較する場合や、相同性が低く断片的にしか一致
していないような配列を検索対象とする場合には、類似
性の判断や類似部分の抽出が著しく困難であり、相同性
の判定精度が低い。従って、これらの方法はアラインメ
ントや蛋白質の機能推定の目的には不十分であり、さら
に精度に優れた高速な方法の開発が求められていた。
In general, when the homology is low, the alignment is not uniquely determined and there is a problem that ambiguity remains. However, a protein having a high similarity in amino acid sequence is selected from a group of proteins whose functions are known. Alignment is currently the easiest way to estimate the function of a protein whose amino acid sequence is the only clue, since it can be located. For these reasons, attempts have been made to partially automate the complicated operation of alignment using a computer. For example, FASTA (Pearson, WR and Lipman, D.
J., Proc. Natl. Acad. Sci. USA, 85, pp. 2444-2448,
1988) and BLAST (Altschul, SF et al., J. Mol. Bio
l., 215, pp. 403-410, 1990). Although these methods are suitable for quickly examining whether a short specific sequence is present in a long target sequence, they are suitable for comparing long sequences or having low homology and only fragmentary matches. When sequences that do not exist are to be searched, it is extremely difficult to determine similarity and extract similar parts, and the accuracy of determining homology is low. Therefore, these methods are insufficient for the purpose of alignment and for estimating the function of a protein, and the development of a more accurate and faster method has been required.

【0010】[0010]

【発明が解決しようとする課題】本発明の課題は、アミ
ノ酸配列の情報を基にして、そのアミノ酸配列から構成
される蛋白質の生物学的機能を推定する方法を提供する
ことにある。さらに詳しくは、アミノ酸配列の情報のみ
が利用可能である場合に、生物学的機能がすでに知られ
ている蛋白質のアミノ酸配列との相同性を特定のデータ
ベースを利用してコンピューターにより効率的に検索
し、該アミノ酸配列から構成される蛋白質の生物学的機
能を正確かつ高速に検索する方法を提供することにあ
る。
SUMMARY OF THE INVENTION An object of the present invention is to provide a method for estimating a biological function of a protein comprising an amino acid sequence based on the information on the amino acid sequence. More specifically, when only amino acid sequence information is available, the homology with the amino acid sequence of a protein whose biological function is already known can be efficiently searched by a computer using a specific database. Another object of the present invention is to provide a method for accurately and rapidly searching for a biological function of a protein comprising the amino acid sequence.

【0011】[0011]

【課題を解決するための手段】本発明者らは上記の課題
を解決すべく鋭意努力した結果、下記の特徴を有するデ
ータベースを用いると、アミノ酸配列から蛋白質の機能
を極めて高速かつ高精度に推定できることを見出した。
Means for Solving the Problems The present inventors have made intensive efforts to solve the above-mentioned problems, and as a result, using a database having the following characteristics, the function of a protein can be estimated from an amino acid sequence at an extremely high speed and with high accuracy. I found what I could do.

【0012】すなわち本発明は、1又は2以上の生物学
的機能が知られている蛋白質のアミノ酸配列の情報を含
み、該アミノ酸配列を構成する各アミノ酸残基について
該生物学的機能の発現に関する重要度のスコアを付加し
た情報を含むデータベースを提供するものである。
That is, the present invention includes information on the amino acid sequence of a protein of which one or more biological functions are known, and relates to the expression of the biological function for each amino acid residue constituting the amino acid sequence. It is intended to provide a database including information to which a score of importance is added.

【0013】このデータベースは、例えば、アミノ酸配
列の相同性に基づいて生物学的機能が未知な蛋白質の機
能を推定するために用いることができ、好ましい態様で
は、生物学的機能が知られている蛋白質のアミノ酸配列
の情報として、蛋白質の3次元構造などの立体構造に関
する情報が利用可能な蛋白質のアミノ酸配列を用いて、
該アミノ酸配列を構成する各アミノ酸残基について該蛋
白質とリガンド分子との結合や生物学的機能の発現に関
する重要度のスコアが付加されている。これらのデータ
ベースは、一般的には、フロッピーディスク、CD-ROM、
磁気テープ、光ディスクなどの種々の記憶用媒体に格納
することが可能である。
This database can be used, for example, to estimate the function of a protein whose biological function is unknown based on the homology of amino acid sequences. In a preferred embodiment, the biological function is known. As the information on the amino acid sequence of the protein, using the amino acid sequence of the protein for which information on the three-dimensional structure such as the three-dimensional structure of the protein is available,
For each of the amino acid residues constituting the amino acid sequence, a score of importance relating to the binding between the protein and the ligand molecule or the expression of a biological function is added. These databases are typically stored on floppy disks, CD-ROMs,
It can be stored in various storage media such as a magnetic tape and an optical disk.

【0014】本発明の別の観点からは、上記データベー
ス中の蛋白質(本明細書において鋳型蛋白質」と呼ぶ場
合がある)と生物学的機能が未知のポリペプチド(本明
細書において「対象蛋白質」と呼ぶ場合がある)につい
て、それぞれの構成アミノ酸の一致に対して生物学的機
能の発現に関する重要度のスコアを考慮した相同性の評
価値を求め、該重要度の高い部位の相同性を表わしたア
ラインメントを作成する方法が提供される。
From another viewpoint of the present invention, the proteins in the above-mentioned database (which may be referred to as "template proteins" in this specification) and the polypeptides whose biological functions are unknown (in this specification, "proteins of interest") May be referred to as the same), an evaluation value of homology is determined in consideration of the score of the importance of the expression of the biological function with respect to the identity of each constituent amino acid, and the homology of the site having the higher importance is expressed. A method is provided for creating an aligned alignment.

【0015】この方法の好ましい態様では、生物学的機
能の発現に関して重要度が高い連続した2以上のアミノ
酸残基を含むグループ配列を用いて、上記データベース
中の蛋白質と対象蛋白質について相同性の高い対応関係
を検索する工程を含んでいる。また、他の好ましい態様
では、データベース中の1の蛋白質と対象蛋白質につい
て上記アラインメントから相同性の最終評価値を得る工
程と、データベースに含まれる全蛋白質についての最終
評価値から生物学的機能に関して対象蛋白質に最も類似
した蛋白質を推定する工程を含んでいる。これらの方法
では、蛋白質全体としての相同性は低くても、生物学的
機能に関係した部位の相同性が高い蛋白質を効率よく抽
出することができ、対象蛋白質の機能を高速かつ高精度
に推定できるという特徴を有している。
[0015] In a preferred embodiment of this method, the protein in the database and the target protein are highly homologous by using a group sequence containing two or more consecutive amino acid residues which are highly important with respect to the expression of a biological function. The method includes a step of searching for a correspondence. In another preferred embodiment, a step of obtaining a final evaluation value of homology from the above-mentioned alignment for one protein in the database and the target protein, and a step of obtaining a target function regarding biological function from the final evaluation values of all proteins contained in the database. Estimating the protein most similar to the protein. With these methods, proteins with high homology at sites related to biological functions can be efficiently extracted even if the homology of the entire protein is low, and the function of the target protein can be quickly and accurately estimated. It has the feature of being able to.

【0016】[0016]

【発明の実施の形態】本発明のデータベースは、1又は
2以上の生物学的機能が知られている蛋白質のアミノ酸
配列の情報を含み、該アミノ酸配列を構成する各アミノ
酸残基について該生物学的機能の発現に関する重要度の
スコアを付加した情報を含むことを特徴としている。格
納の対象となる蛋白質は、例えば、酵素作用や受容体作
用などの1又は2以上の生物学的機能が知られており、
全アミノ酸配列が知られているものであればいかなるも
のでもよいが、好ましくは、その蛋白質の立体構造やリ
ガンド結合部位の立体構造がすでに解明若しくは推定さ
れており、または容易に推定可能なものであることが好
ましい。データベースには立体構造が明らかにされた蛋
白質に関する情報がなるべく多く含まれていることが望
ましい。例えば、蛋白質またはリガンド分子との複合体
の3次元座標はプロテインデータバンク(Brookhaven N
ational Laboratories, U.S.A.)に収められているが、
約5000程度(生物種の違いやミュータントを除いた独立
の蛋白質で考えると約 400〜500 程度)の蛋白質につい
ての情報が利用可能であり、本発明のデータベースの作
成に好適に用いることができる。
BEST MODE FOR CARRYING OUT THE INVENTION The database of the present invention contains information on the amino acid sequence of a protein of which one or more biological functions are known, and for each amino acid residue constituting the amino acid sequence, It is characterized by including information to which a score of importance relating to the expression of a target function is added. The protein to be stored has, for example, one or more biological functions such as an enzyme action and a receptor action,
Any amino acid sequence may be used as long as the entire amino acid sequence is known, and preferably, the three-dimensional structure of the protein or the three-dimensional structure of the ligand binding site has already been elucidated or estimated, or can be easily estimated. Preferably, there is. It is desirable that the database contain as much information as possible about the protein whose tertiary structure has been clarified. For example, the three-dimensional coordinates of a complex with a protein or ligand molecule can be obtained from the Protein Data Bank (Brookhaven N
ational Laboratories, USA)
Information on about 5000 proteins (about 400 to 500 when considered as independent proteins excluding differences in species and mutants) is available, and can be suitably used to create the database of the present invention.

【0017】本発明のデータベースでは、生物学的機能
が知られた蛋白質を構成するアミノ酸配列を基にして、
各々のアミノ酸残基について該生物学的機能の発現に関
する重要度のスコアを付加することを特徴としている。
それぞれの蛋白質について格納する情報としては、例え
ば、蛋白質名、生物種、臓器・器官、サブタイプ、機能
の種類、機能の細分類(例えば、酵素については蛋白分
解作用や還元作用などの酵素作用)、酵素の分類番号
(EC番号)、酵素反応や生物学的機能に関係するリガン
ド分子(酵素基質、受容体基質、補酵素、金属イオンな
ど)、立体構造の由来(例えば、X線結晶解析、nmr
解析、同様な生物学的機能を有する類似蛋白質の情報に
基づくモデリングによるものなど)、主たる引用文献
名、他のデータベースの参照番号、対象部位リガンド、
及び全アミノ酸配列などを挙げることができるが、これ
らに限定されることはなく、適宜の情報を追加又は削除
してもよい。
In the database of the present invention, based on the amino acid sequence of a protein having a known biological function,
Each amino acid residue is characterized by adding a score of importance regarding the expression of the biological function.
Information to be stored for each protein includes, for example, protein name, species, organ / organ, subtype, type of function, and subclassification of function (for enzymes, for example, enzymatic action such as proteolytic action or reducing action). , Enzyme classification number (EC number), ligand molecules (enzyme substrate, receptor substrate, coenzyme, metal ion, etc.) involved in enzymatic reactions and biological functions, origin of three-dimensional structure (for example, X-ray crystallography, nmr
Analysis, information-based modeling of similar proteins with similar biological functions, etc.), primary citations, reference numbers from other databases, target site ligands,
And the entire amino acid sequence, but are not limited thereto, and appropriate information may be added or deleted.

【0018】本発明のデータベースは、上記の情報に加
えて、該アミノ酸配列を構成する各アミノ酸残基につい
て該生物学的機能の発現に関する重要度のスコアを付加
した情報を含んでいる。重要度のスコアは、例えば、重
要度が全くないものについてはゼロ、重要度が極めて高
いものについては10などの数字やその他の記号を与える
ことにより行われるが、好ましくは、重要度に関連する
2以上要素を勘案しながら算出するのが一般的である。
本発明のデータベースには、さらに、生物学的機能の発
現に寄与がある(スコアがゼロではない)連続したアミ
ノ酸残基配列(1〜n)の有無、スコアづけの方式、ス
コアの合計、蛋白質間でスコアの合計などを規格化のた
めのスケール因子などの情報を付加することができる
が、付加すべき情報はこれらに限定されることはなく、
適宜の情報を追加又は削除してもさしつかえない。な
お、一個の蛋白質に複数の生物学的機能や複数のリガン
ド分子が知られている場合には、それぞれについての情
報を格納しておくことが好ましい。
[0018] The database of the present invention contains, in addition to the above-mentioned information, a score indicating the importance of the expression of the biological function for each amino acid residue constituting the amino acid sequence. The importance score is determined by giving a number or other symbol such as zero for no importance at all and 10 for extremely high importance, but is preferably related to importance. In general, the calculation is performed in consideration of two or more factors.
The database of the present invention further includes the presence or absence of a continuous amino acid residue sequence (1 to n) which contributes to the expression of a biological function (the score is not zero), a scoring method, a total score, a protein Information such as a scale factor for standardizing the total score and the like among them can be added, but the information to be added is not limited to these.
Appropriate information can be added or deleted. When a plurality of biological functions and a plurality of ligand molecules are known for one protein, it is preferable to store information on each of them.

【0019】以下、蛋白質のアミノ酸配列を構成する各
アミノ酸残基について該生物学的機能の発現に関する重
要度のスコアを与える具体的な手法を説明するが、これ
らの説明は単に例示のためにのみ示されたものであり、
いかなる意味においても限定的に解釈してはならない。
また、本発明のデータベースはこれらの手段によって製
造されたものに限定されることはない。なお、以下の説
明においては、重要度のスコアを数値で表わす例につい
て説明しており、重要度が全くないものについてはゼ
ロ、重要度が高くなるにつれて大きな数値を与えるよう
にしているが、スコア付けの方法がこのような方法に限
定されないことも理解すべきである。
Hereinafter, a specific method for giving a score of importance regarding the expression of the biological function for each amino acid residue constituting the amino acid sequence of the protein will be described. However, these descriptions are merely for illustrative purposes only. Shown,
It should not be construed as limiting in any way.
Further, the database of the present invention is not limited to those manufactured by these means. In the following description, an example in which the importance score is represented by a numerical value is described. For a case where there is no importance at all, zero is given, and as the importance becomes higher, a larger numerical value is given. It should also be understood that the method of attachment is not limited to such a method.

【0020】(a) 低分子量のリガンド分子を含む蛋白質
複合体の結晶解析がなされている場合:プロテインデー
タバンクに収納された蛋白質であって、酵素基質、受容
体基質、または阻害剤などの低分子量のリガンド分子と
の複合体の3次元構造が解析されている場合には、リガ
ンド分子からの各アミノ酸残基の距離を求めて、各アミ
ノ酸残基に距離に応じた重要度のスコアを与えることが
できる。低分子量のリガンド分子としては、例えば、薬
理学的に活性な有機化合物、酵素基質、金属イオンな
ど、いかなるものであってもよい。例えば、リガンド分
子のいずれかの原子(例えば、リガンドとなるCa原子や
リガンド分子中の側鎖の1原子など)から10Å以内にあ
るアミノ酸残基には1、8Å以内なら2、6Å以内なら
4、10Åより大きい場合には0などのスコアを与えるこ
とが可能である。
(A) When crystal analysis of a protein complex containing a low-molecular-weight ligand molecule has been performed: a protein stored in a protein data bank, which is a protein complex such as an enzyme substrate, a receptor substrate, or an inhibitor. When the three-dimensional structure of a complex with a ligand molecule having a molecular weight has been analyzed, the distance of each amino acid residue from the ligand molecule is determined, and a score of importance according to the distance is given to each amino acid residue. be able to. The low-molecular-weight ligand molecule may be any of pharmacologically active organic compounds, enzyme substrates, metal ions, and the like. For example, amino acid residues within 10 ° of any atom of a ligand molecule (for example, Ca atom serving as a ligand or one atom of a side chain in a ligand molecule) are 1,8 ° or 2,6 °. , 10Å, a score such as 0 can be given.

【0021】(b) 蛋白質単独で結晶解析がなされている
場合:リガンド分子を含まずに結晶解析されている蛋白
質についても、さまざまな実験から生物学的機能(酵素
活性など)に関係する構造領域が推定される場合には、
その近傍のアミノ酸残基に対して上記(a) で行ったよう
な距離に応じた数値を与えることが可能である。生物学
的機能と立体構造との対応がついていない場合において
も、生物学的機能が明確である場合には、その蛋白質の
立体構造をコンピュータグラフィックス画面上に描いて
回転させながら顕著な内孔を探ることによって、生物学
的機能に関係するアミノ酸残基を抽出することができ
る。
(B) When the crystal analysis is performed on the protein alone: Even for the protein analyzed without the ligand molecule, the structural region related to the biological function (enzyme activity, etc.) has been obtained from various experiments. If is estimated,
It is possible to give a numerical value corresponding to the distance as described in (a) above to the amino acid residue in the vicinity. Even if there is no correspondence between the biological function and the three-dimensional structure, if the biological function is clear, draw the three-dimensional structure of the protein on a computer graphics screen and rotate By searching for, amino acid residues related to biological functions can be extracted.

【0022】(c) 構造保存領域:同じ生物学的機能を有
する蛋白質について、アミノ酸配列の異なるサブタイプ
や異生物種の蛋白質など2種以上の立体構造の解析結果
を利用できる場合には、それらの構造の重ね合わせを行
うことにより、立体構造的に保存された領域を抽出する
ことができ、それらの領域に含まれるアミノ酸残基に高
い数値を与えることができる。
(C) Structural conservation region: For proteins having the same biological function, if analysis results of two or more types of three-dimensional structures such as proteins of different subtypes or heterologous species having different amino acid sequences can be used, By superimposing the structures described above, regions that are three-dimensionally conserved can be extracted, and a high numerical value can be given to the amino acid residues contained in those regions.

【0023】(d) モデリング:蛋白質の立体構造が解析
されていない場合、実質的に同一の生物学的作用を有す
ることが知られている類縁蛋白質の立体構造を基にして
構築したモデリング構造に基づいて、重要度のスコアを
つけることが可能である。例えば、受容体サブタイプや
アイソザイム、同じファミリーに属する蛋白質、異生物
種の同一機能の蛋白質であってアミノ酸配列の相同性が
高い場合にはモデリング構造の信頼性が高いことが知ら
れている。重要度のスコアの与え方は、例えば、上記の
各手法と同様に行えばよい。
(D) Modeling: When the three-dimensional structure of a protein has not been analyzed, a modeling structure constructed based on the three-dimensional structure of a related protein that is known to have substantially the same biological action is used. Based on this, it is possible to give a score of importance. For example, it is known that the reliability of the modeling structure is high when the homology of the amino acid sequence is high when the receptor subtype or isozyme, a protein belonging to the same family, or a protein of the same function of a different species are high. How to give a score of importance may be performed, for example, in the same manner as each of the above methods.

【0024】(e) 生化学実験や遺伝子実験:例えば生化
学的な実験などから生物学的機能の発現に重要であるこ
とが推定されるアミノ酸残基や、遺伝子的なアミノ酸の
変換の実験(ポイントミューテーションなど)から酵素
作用などの生物学的機能の発現に必須であると推定され
るアミノ酸残基については、高い重要度を与えることが
できる。例えば、酵素反応においては、リガンド分子と
の結合などの観点での評価に加えて、触媒的な役割を果
たすアミノ酸残基に大きな数値を与えることが可能であ
る。
(E) Biochemical experiment or genetic experiment: For example, an amino acid residue presumed to be important for the expression of a biological function from a biochemical experiment or a genetic amino acid conversion experiment ( Amino acid residues presumed to be essential for the expression of a biological function such as an enzymatic action from point mutation or the like can be given a high degree of importance. For example, in an enzymatic reaction, it is possible to give a large numerical value to an amino acid residue that plays a catalytic role, in addition to the evaluation from the viewpoint of binding to a ligand molecule.

【0025】(f) 高分子リガンド分子である蛋白質:一
般的に、低分子量のリガンド分子との結合が機能に必須
である蛋白質はそのリガンド分子と安定に結合するため
の内孔を有している。一方、例えば蛋白質などの高分子
量のリガンド分子が結合する蛋白質では、顕著な内孔を
もたずに受容体蛋白質と分子表面で結合することが多
く、受容体蛋白質も顕著な内孔を有しないことがある。
例えば、サイトカインのようにそれ自身が高分子リガン
ドとなる場合には、モノクロナール抗体を用いて推定さ
れるエピトープ領域のアミノ酸残基に大きな数値を与え
てもよい。
(F) Protein which is a high molecular ligand molecule: Generally, a protein whose binding to a low molecular weight ligand molecule is essential for its function has an inner hole for stably binding to the ligand molecule. I have. On the other hand, for example, a protein to which a high molecular weight ligand molecule such as a protein binds to a receptor protein on the molecular surface without having a remarkable inner hole, and the receptor protein also does not have a remarkable inner hole. Sometimes.
For example, when the ligand itself is a macromolecule ligand such as a cytokine, a large value may be given to amino acid residues in the epitope region estimated using a monoclonal antibody.

【0026】以上に例示したような手法の1種、又は2
種以上の組み合わせを用い、さらに必要に応じて適宜の
手法を追加することによって、生物学的機能が知られて
いる蛋白質のアミノ酸配列を構成する各アミノ酸残基に
ついて、該生物学的機能の発現に関する重要度のスコア
付けを行い、重要度のスコアが付加されたアミノ酸配列
の情報を作成することができる。なお、アミノ酸残基と
生物学的機能の発現との関係については、例えば上記
(a) の手法などによりその関係が十分に実証されている
ものに加えて、その関係がある程度推定可能なものな
ど、種々の基準をスコア付けに利用できることは言うま
でもない。
One of the methods exemplified above, or 2
By using a combination of more than one kind, and further adding an appropriate technique as needed, for each amino acid residue constituting the amino acid sequence of a protein having a known biological function, the expression of the biological function Of the amino acid sequence to which the importance score has been added. The relationship between amino acid residues and expression of biological functions is described in, for example,
It goes without saying that various criteria can be used for scoring, such as those in which the relationship is fully demonstrated by the method (a) and others in which the relationship can be estimated to some extent.

【0027】例えば、結晶構造が既知の蛋白質や、生物
学的機能の面から類似の立体構造を有することが推定さ
れる蛋白質など、なるべく多くの蛋白質について重要度
のスコアが付加されたアミノ酸配列の情報を収集し、コ
ンピューターが利用可能な所定の形式で格納して本発明
のデータベースを構築することができる。この際、それ
ぞれの蛋白質の情報の量と質に応じて、それぞれの蛋白
質について適宜の異なる基準によりスコアを付加しても
よい。もっとも、データベース中にスコアづけの方式と
蛋白質間の合計スコアの規格化のためのスケール因子を
加えることが必要になる場合もある。なお、上記のよう
な情報の入力は、一定の方式に従ってマニュアルで行う
ことも可能であるが、一般的には、コンピュータグラフ
ィックス画面上で所定のプログラムを用いて行うのが効
率的である。
For example, amino acid sequences to which a score of importance is added for as many proteins as possible, such as proteins having a known crystal structure and proteins which are presumed to have a similar tertiary structure in terms of biological functions. Information can be collected and stored in a computer-usable predetermined format to build the database of the present invention. At this time, a score may be added to each protein according to an appropriate different standard according to the amount and quality of information of each protein. However, it may be necessary to add to the database a scoring method and a scale factor for normalizing the total score between proteins. The above information can be manually input according to a certain method, but generally, it is more efficient to use a predetermined program on a computer graphics screen.

【0028】本発明の方法では、上記データベースを用
いて、データベース中に情報が格納された鋳型蛋白質と
生物学的機能が未知の対象蛋白質について、アミノ酸残
基の重要度のスコアから計算した相同性の評価値が最大
になるようにアラインメントを作成し、ついで、データ
ベースに含まれる2以上の鋳型蛋白質、好ましくは全部
の鋳型蛋白について同様なアラインメントを作成した
後、鋳型蛋白質間で相同性の評価値の比較を行い、評価
値が最も高い鋳型蛋白質を選出することができる。この
ようにして選出された鋳型蛋白質は、対象蛋白質との立
体構造の類似度が高く、実質的に同一の生物学的機能を
有する蛋白質であると推定することが可能である。
In the method of the present invention, using the above database, the homology calculated from the score of the importance of amino acid residues between the template protein whose information is stored in the database and the target protein whose biological function is unknown. Alignment is made so that the evaluation value of is maximized, and then a similar alignment is made for two or more template proteins contained in the database, preferably for all template proteins, and then the evaluation value of homology between the template proteins is made. And a template protein having the highest evaluation value can be selected. The template protein selected in this manner has a high degree of similarity in the three-dimensional structure to the target protein, and can be estimated to be a protein having substantially the same biological function.

【0029】上記の方法は、一般的には、本発明の上記
データベース中の鋳型蛋白質に関する情報を1つ1つ取
り出して、対象蛋白質のアミノ酸配列に対してアライン
メント作業をすることにより行われる。対象蛋白質のア
ミノ酸配列の情報が直接利用できる場合にはその情報を
入力して用いればよく、対象蛋白質をコードする遺伝子
配列の情報のみが利用可能である場合には、その核酸配
列の情報から対象蛋白質のアミノ酸配列の情報を翻訳し
て用いる必要がある。
The above method is generally performed by extracting information on the template protein from the database of the present invention one by one and performing an alignment operation on the amino acid sequence of the target protein. If the amino acid sequence information of the target protein is directly available, the information may be input and used.If only the information of the gene sequence encoding the target protein is available, the target nucleic acid sequence information may be used. It is necessary to translate and use the information on the amino acid sequence of the protein.

【0030】本発明の好ましい方法の一例として、鋳型
蛋白質のアミノ酸配列において生物学的機能への寄与が
ある連続した2以上のアミノ酸残基(スコアがゼロでな
い連続したアミノ酸残基)を含むグループ配列を用い
て、鋳型蛋白質と対象蛋白質について相同性の高い対応
関係を検索する方法を挙げることができる。もっとも、
アラインメント作業はこの方法に限定されることはな
く、当業者に利用可能ないかなる方法で行ってもよい。
As an example of a preferred method of the present invention, a group sequence containing two or more consecutive amino acid residues (consecutive non-score amino acid residues) contributing to biological function in the amino acid sequence of the template protein , A method of searching for a highly homologous correspondence between a template protein and a target protein can be mentioned. However,
The alignment operation is not limited to this method and may be performed by any method available to those skilled in the art.

【0031】グループ配列を利用する上記の方法では、
グループ配列を対象蛋白質のアミノ酸配列に対して1残
基ずつずらしながら、グループ毎に相同性の評価値を求
めることができ、その後、必要に応じてグループ配列の
繋がる順序や長さなどの因子を考慮しつつ、全グループ
配列の合計評価値が最良になるように、対象蛋白質のア
ミノ酸配列に対する各グループ配列の対応関係を決定す
るすることができる。この手順をデータベース中のすべ
ての鋳型蛋白質について行い、高い総スコアを有する1
又は2個以上の蛋白質を抽出することができる。対象蛋
白質は、このようにして抽出された鋳型蛋白質と実質的
に同一の生物学的機能を有している可能性が高い。
In the above method using the group arrangement,
While shifting the group sequence by one residue with respect to the amino acid sequence of the target protein, an evaluation value of homology can be obtained for each group, and then, if necessary, factors such as the order and length of connection of the group sequences are determined. In consideration of this, it is possible to determine the correspondence between each group sequence and the amino acid sequence of the target protein so that the total evaluation value of all the group sequences is the best. This procedure was performed for all template proteins in the database, and one with a high total score
Alternatively, two or more proteins can be extracted. The target protein is likely to have substantially the same biological function as the template protein extracted in this manner.

【0032】相同性の評価値としては、例えば、鋳型蛋
白質中のグループ配列と対象蛋白配列中の対応アミノ酸
残基が一致した場合には、一致したアミノ酸残基に重要
度のスコアを転記して単に合計するのが簡単である。も
っとも、重要度のスコアの高いアミノ酸の一致を重視し
たアラインメントを作成するためには、重要度の各スコ
アをさらに1又は2以上の関数で処理して用いてもよ
い。対象蛋白質とデータベース中に含まれる全鋳型蛋白
質のアラインメントを作成するにあたっては、異なるア
ラインメント間で全相同性評価値を比較すればよいが、
一般的には、大きさの異なる鋳型蛋白質間においても重
要度のスコアの合計値によって対象蛋白質との相同性の
良し悪しを比較できるように、重要度のスコアの規格化
のためのスケール因子を鋳型蛋白質毎に算出してデータ
ベースに格納しておくことが望ましい。対象蛋白質と各
鋳型蛋白質とのアラインメント作業が完了して相同性の
スコアが計算された段階で、各鋳型蛋白質の相同性スコ
アに対応のスケール因子を掛け合わせて最終スコアを求
め、鋳型蛋白質間での相同性の優劣を決定することがで
きる。。
As the evaluation value of homology, for example, when the group sequence in the template protein and the corresponding amino acid residue in the target protein sequence match, the importance score is transferred to the matching amino acid residue. It is simply easy to sum. Of course, in order to create an alignment with emphasis on matching amino acids with high importance scores, each importance score may be further processed and used with one or more functions. When creating an alignment of the target protein and all template proteins contained in the database, all the homology evaluation values may be compared between different alignments.
In general, a scale factor for normalizing the importance score is used so that the degree of homology with the target protein can be compared based on the total value of the importance scores even between template proteins having different sizes. It is desirable to calculate for each template protein and store it in a database. At the stage where the alignment work between the target protein and each template protein is completed and the homology score has been calculated, the final score is obtained by multiplying the homology score of each template protein by the corresponding scale factor to obtain a final score between the template proteins. The homology of the two can be determined. .

【0033】また、異なる生物種に存在する同種蛋白質
において、例えば、側鎖の長さが炭素原子1個分違うだ
けでカルボキシル基を共通に有するアスパラギン酸とグ
ルタミン酸とが、アミノ酸配列中の同じような位置で同
一の役割を果たしていることがある。このような場合に
は、アミノ酸残基の一致を判定するに当たり、これらの
アミノ酸残基を一致しているとみなすのが妥当である。
また、ロイシンとイソロイシン、バリンなどのアミノ酸
残基は、形状やサイズ(嵩高さ)では異なるものの、疎
水性の観点からは類似の性質を有している。従って、ア
ミノ酸配列の相同性を数値化する際には、このような類
似アミノ酸残基の存在が反映されるように、アミノ酸残
基の類似度を段階化した対応表を用いることが望まし
い。このようなアミノ酸残基の類似度としてはいかなる
ものを用いてもよいが、類似度を記載した対応表とし
て、例えば、PAM250(Dayhoff, M.O., et al., Atlas o
f Protein Sequence and Structure, Dayhoff, M.O. E
d., Vol.5, Suppl. 3, pp.345-352, NBRF, Washington,
1978)や BLOSUM (Henikoff, S. and Henikoff, J.G.,
Proc. Natl. Acad. Sci. USA, 89, pp.10915-10919, 19
92)などが利用可能である。
In the same type of proteins existing in different species, for example, aspartic acid and glutamic acid having a carboxyl group in common but differing in the length of a side chain by one carbon atom are the same as those in the amino acid sequence. May play the same role in different locations. In such a case, it is appropriate to consider these amino acid residues to be coincident when judging the coincidence of the amino acid residues.
Also, amino acid residues such as leucine and isoleucine and valine have similar properties from the viewpoint of hydrophobicity, although they differ in shape and size (bulk). Therefore, when quantifying the homology of amino acid sequences, it is desirable to use a correspondence table in which the similarity of amino acid residues is graded so as to reflect the presence of such similar amino acid residues. Any kind of similarity of amino acid residues may be used. For example, PAM250 (Dayhoff, MO, et al., Atlas et al.)
f Protein Sequence and Structure, Dayhoff, MO E
d., Vol. 5, Suppl. 3, pp. 345-352, NBRF, Washington,
1978) and BLOSUM (Henikoff, S. and Henikoff, JG,
Proc. Natl. Acad. Sci. USA, 89, pp. 10915-10919, 19
92) are available.

【0034】[0034]

【表1】 [Table 1]

【0035】本発明の方法の一例を概念図として上記に
示した。また、本発明の方法は、例えば下記の工程を含
む方法であってもよい。もっとも、本発明の方法はこれ
らの方法に限定されることはなく、これらの方法におい
て採用された工程に加えて、必要に応じて1又は2以上
の適宜の工程を追加することができ、所望であれば1又
は2以上の工程を省略できる場合があることを理解すべ
きである。このような修飾ないし改変された方法がすべ
て本発明の範囲に包含されることは言うまでもない。
An example of the method of the present invention is shown above as a conceptual diagram. Further, the method of the present invention may be, for example, a method including the following steps. However, the method of the present invention is not limited to these methods. In addition to the steps employed in these methods, one or more appropriate steps can be added as necessary, It should be understood that one or more steps may be omitted. It goes without saying that all such modified or modified methods are included in the scope of the present invention.

【0036】(1) 対象蛋白質のアミノ酸配列を呼び出す
工程; (2) 上記データベースから鋳型配列を1個取り出す工
程; (3) 鋳型蛋白質のアミノ酸配列から重要度のスコアが一
定値以上の部分配列a,b,c,d,e,---, n,----
を例えばN末端から順に取り出す工程(それぞれの部分
配列の長さを1a,1b,1c,1d,1e----, 1n,---- とす
る); (4) 部分配列aを対象配列の1番目に位置付け、1アミ
ノ酸残基ずつずらしながら相同性の評価値S(a)i を算出
する工程(相同性の評価値として一致したアミノ酸残基
の重要度のスコアを加える); (5) 部分配列bを対象配列の(1+1a) 番目に位置づけ、
1アミノ酸残基ずつずらしながら、相同性の評価値S(b)
i を算出する工程(相同性の評価値として一致したアミ
ノ酸残基の重要度のスコアを加える); (6) 同様にc,d,e,---, n,---- について相同性の
評価値S(n)i を算出する工程; (7) a,b,c,d,e,---, n,---- の順序とそれぞ
れのアミノ酸残基数を考慮しながら、全部分配列の相同
性SSがもっとも大きくなるように部分配列の対応位置
を決定する工程; (8) SSにスケール因子をかけてSSSとする工程; (9) データベース中の全鋳型蛋白質について上記の手順
を行いSSSを求める工程;及び (10)SSSの高い蛋白質を抽出する工程
(1) a step of retrieving the amino acid sequence of the target protein; (2) a step of retrieving one template sequence from the database; (3) a partial sequence a having a score of importance greater than a certain value from the amino acid sequence of the template protein , B, c, d, e, ---, n, ----
(For example, the length of each subsequence is 1a, 1b, 1c, 1d, 1e ---, 1n, ----); (4) Subsequence a is the target sequence Calculating the homology evaluation value S (a) i while shifting one amino acid residue at a time (adding the importance score of the matched amino acid residue as the homology evaluation value); ) Position subsequence b at the (1 + 1a) th position of the target sequence
The homology evaluation value S (b) is shifted by one amino acid residue at a time.
i is calculated (the score of the importance of the amino acid residue that matches is added as the evaluation value of homology); (6) Similarly, the homology of c, d, e,- (7) taking into account the order of a, b, c, d, e, ---, n, --- and the number of amino acid residues, A step of determining the corresponding position of the partial sequence so that the homology SS of all partial sequences is maximized; (8) a step of applying SS to a scale factor to obtain SSS; and (9) a step of determining all template proteins in the database as described above. Performing a procedure to obtain an SSS; and (10) extracting a protein having a high SSS

【0037】[0037]

【実施例】本発明を下記の実施例により更に具体的に説
明するが、本発明の範囲は下記の実施例に限定されるこ
とはない。 例1:データベースの作成 生物学的機能と立体構造がわかっている大腸菌由来のジ
ヒドロ葉酸還元酵素(DHFR-EC)、ウシ由来のトリプシン
(TRYP)、ウシ由来のリボヌクレアーゼA(RNAS)、ク
ジラ由来のミオグロビン(MYGL)の4種類の蛋白質から
なるデータベースを作成した。それぞれの結晶構造はプ
ロテインデータバンク(Brookhaven National Laborato
ries, U.S.A.)から入手した。アミノ酸残基のいずれか
の構成原子が、蛋白質に結合しているリガンド分子(阻
害剤又は補酵素)のいずれかの原子から4Å以内にある
場合には2、 4〜10Åの範囲内である場合には1、その
他の場合には0を与えて、それぞれのアミノ酸配列を構
成する各アミノ酸残基についてそれぞれの生物学的機能
の発現に関する重要度のスコアを付加したアミノ酸配列
の情報を作成した。図1に各蛋白質のアミノ酸配列とス
コア付けの結果を示す。
EXAMPLES The present invention will be described more specifically with reference to the following examples, but the scope of the present invention is not limited to the following examples. Example 1: Creation of database Dihydrofolate reductase (DHFR-EC) derived from Escherichia coli with known biological function and three-dimensional structure, trypsin (TRYP) derived from bovine, ribonuclease A (RNAS) derived from bovine, derived from whale A database consisting of four proteins of myoglobin (MYGL) was created. Each crystal structure is described in the Protein Data Bank (Brookhaven National Laborato
ries, USA). When any of the constituent atoms of the amino acid residue is within 4 ° of any of the atoms of the ligand molecule (inhibitor or coenzyme) bound to the protein, it is within the range of 2, 4 to 10 ° 1 and 0 in other cases, amino acid sequence information in which a score of importance for expression of each biological function was added to each amino acid residue constituting each amino acid sequence was prepared. FIG. 1 shows the amino acid sequence of each protein and the results of scoring.

【0038】例2:生物学的機能の推定 ヒト由来のジヒドロ葉酸還元酵素(DHFR-HM)を対象蛋白
質とし、上記データベースを用いて、該対象蛋白質の生
物学的機能を本発明の方法により推定した。DHFR-HM は
生物学的機能及び立体構造が知られている蛋白質である
が、生物学的機能及び立体構造を未知なものとして解析
を行った。データベース中の鋳型蛋白質のそれぞれのア
ミノ酸配列について、スコア値が1以上の部分配列を取
り出し、対象蛋白質のアミノ酸配列に対して1残基ずつ
ずらしながら相同性の評価値Sを算出し、評価値Sの最
も高いアラインメント位置を決定した。
Example 2: Estimation of Biological Function Using human-derived dihydrofolate reductase (DHFR-HM) as a target protein, the biological function of the target protein is estimated by the method of the present invention using the above database. did. Although DHFR-HM is a protein whose biological function and tertiary structure are known, analysis was performed assuming that the biological function and tertiary structure were unknown. For each amino acid sequence of the template protein in the database, a partial sequence having a score value of 1 or more is extracted, and the homology evaluation value S is calculated while shifting one residue at a time with respect to the amino acid sequence of the target protein. The highest alignment position was determined.

【0039】評価値Sの算出には、アミノ酸の類似度に
関する対応表 BLOSUM62 を用い、部分配列と対象蛋白質
のアミノ酸配列とのアミノ酸残基の組に応じた類似度の
評価値を表から求めて、部分配列の各残基のスコアと類
似度の評価値との積を部分配列の長さにわたって積算す
る方法を採用した。全部分配列の相同性SSは、部分配
列ごとに評価値Sの最大値を求めて、それらの和として
算出した。相同性決定に用いた配列の長さの違いを補正
するために、スケール因子として全部分配列のスコアの
総和の逆数を用いて、スケール因子をSSの値に乗じて
最終的な評価値SSSを算出した。この結果、表1に示
すように、DHFR-EC, TRYP, RNAS, MYGLを鋳型蛋白質と
して用いた場合、DHFR-EC が最も高い評価値SSSを与
え、対象蛋白質(DHFR-HM)がDHFR-EC と類似の蛋白質で
あり、ジヒドロ葉酸還元酵素の活性を有するものと推定
された。図2にはDHFR-HM とDHFR-EC のアラインメント
を示した。
The evaluation value S is calculated using a correspondence table BLOSUM62 relating to the similarity of amino acids, and an evaluation value of similarity according to a set of amino acid residues between the partial sequence and the amino acid sequence of the target protein is obtained from the table. And a method of integrating the product of the score of each residue of the partial sequence and the evaluation value of the similarity over the length of the partial sequence. The homology SS of all partial sequences was calculated as the sum of the maximum evaluation value S obtained for each partial sequence. To correct the difference in the length of the sequences used for the homology determination, the reciprocal of the sum of the scores of all partial sequences is used as a scale factor, and the scale factor is multiplied by the value of SS to obtain a final evaluation value SSS. Calculated. As a result, as shown in Table 1, when DHFR-EC, TRYP, RNAS, and MYGL were used as template proteins, DHFR-EC gave the highest evaluation value SSS, and the target protein (DHFR-HM) was DHFR-EC. It is a protein similar to and has been presumed to have dihydrofolate reductase activity. FIG. 2 shows the alignment of DHFR-HM and DHFR-EC.

【0040】[0040]

【表2】 ──────────── 蛋白質 評価値SSS ──────────── DHFR-EC 1.82 TRYP 1.09 RNAS 1.22 MYGL 0.61 ────────────[Table 2] 評 価 Protein evaluation value SSS ──────────── DHFR-EC 1.82 TRYP 1.09 RNAS 1.22 MYGL 0.61 ──────── ────

【0041】[0041]

【発明の効果】本発明のデータベースは、アミノ酸配列
の情報を基にして、そのアミノ酸配列から構成される蛋
白質の生物学的機能を推定するために有用であり、本発
明の方法は、このデータベースを利用してアミノ酸配列
から構成される蛋白質の生物学的機能を正確かつ高速に
検索することができるので有用である。
The database of the present invention is useful for estimating the biological function of a protein comprising the amino acid sequence on the basis of the information on the amino acid sequence. This is useful because the biological function of a protein composed of an amino acid sequence can be accurately and rapidly searched by utilizing the method.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 生物学的機能と立体構造がわかっている4種
類の蛋白質のアミノ酸配列を構成する各アミノ酸残基に
ついて、それぞれの生物学的機能の発現に関する重要度
のスコアを付加したアミノ酸配列の情報を示す図であ
る。図中の記号は、それぞれ、大腸菌由来のジヒドロ葉
酸還元酵素(DHFR-EC)、ウシ由来のトリプシン(TRY
P)、ウシ由来のリボヌクレアーゼA(RNAS)、クジラ
由来のミオグロビン(MYGL)を示し、アミノ酸残基は1
文字表記で示した。
FIG. 1 shows the amino acid sequences of amino acid sequences constituting the amino acid sequences of four types of proteins whose biological functions and three-dimensional structures are known, to which an importance score relating to the expression of each biological function is added. It is a figure showing information. Symbols in the figure are dihydrofolate reductase (DHFR-EC) derived from E. coli and trypsin (TRY
P), bovine ribonuclease A (RNAS), and whale-derived myoglobin (MYGL).
Indicated by letter notation.

【図2】 対象蛋白質(DHFR-HM)と、該対象蛋白質に対
して最も高い評価値SSSを与える鋳型蛋白質として抽
出されたDHFR-EC とのアラインメントを示した図であ
る。図中の記号は、それぞれ、ヒト由来のジヒドロ葉酸
還元酵素(DHFR-HM)及び大腸菌由来のジヒドロ葉酸還元
酵素(DHFR-EC)を示し、1段目はDHFR-HM のアミノ酸番
号、2段目はDHFR-HM のアミノ酸配列、3段目はDHFR-E
C のアミノ酸配列の部分配列、4段目はDHFR-EC のアミ
ノ酸配列の部分配列のアミノ酸番号を示す。
FIG. 2 is a diagram showing an alignment between a target protein (DHFR-HM) and DHFR-EC extracted as a template protein that gives the highest evaluation value SSS to the target protein. The symbols in the figure indicate human-derived dihydrofolate reductase (DHFR-HM) and Escherichia coli-derived dihydrofolate reductase (DHFR-EC), respectively. Is the amino acid sequence of DHFR-HM, the third row is DHFR-E
The fourth row of the partial sequence of the amino acid sequence of C shows the amino acid number of the partial sequence of the amino acid sequence of DHFR-EC.

フロントページの続き (72)発明者 今村 正純 千葉県千葉市緑区あすみが丘4丁目39番地 ガーデンコート杜の街五番館301号Continued on the front page (72) Inventor Masazumi Imamura 4-39 Asumigaoka Midori-ku, Chiba-shi, Chiba

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 1又は2以上の生物学的機能が知られて
いる蛋白質のアミノ酸配列の情報を含み、該アミノ酸配
列を構成する各アミノ酸残基について該生物学的機能の
発現に関する重要度のスコアを付加した情報を含むデー
タベース。
Claims 1. An amino acid sequence of a protein having one or more known biological functions, and information on the amino acid sequence of the protein. A database containing information with added scores.
【請求項2】 アミノ酸配列の相同性に基づいて生物学
的機能が未知な蛋白質の機能を推定するために用いる請
求項1に記載のデータベース。
2. The database according to claim 1, which is used for estimating the function of a protein whose biological function is unknown based on the homology of amino acid sequences.
【請求項3】 生物学的機能が知られている蛋白質のア
ミノ酸配列の情報として、蛋白質の立体構造に関する情
報が利用可能な蛋白質のアミノ酸配列を用いて作成され
た請求項1又は2に記載のデータベース。
3. The method according to claim 1, wherein the information on the amino acid sequence of the protein whose biological function is known is prepared using the amino acid sequence of the protein for which information on the three-dimensional structure of the protein can be used. Database.
【請求項4】 記憶用媒体に格納された請求項1ないし
3のいずれか1項に記載のデータベース。
4. The database according to claim 1, wherein the database is stored in a storage medium.
【請求項5】 請求項1ないし3のいずれか1項に記載
のデータベースに格納された蛋白質及び生物学的機能が
未知のポリペプチドについて、それぞれの構成アミノ酸
の一致に対して生物学的機能の発現に関する重要度のス
コアを考慮した相同性の評価値を求め、該重要度の高い
部位の相同性を表わしたアラインメントを作成する方
法。
5. For a protein and a polypeptide whose biological function is unknown stored in the database according to any one of claims 1 to 3, the biological function of the polypeptide is determined by matching the respective constituent amino acids. A method of obtaining an evaluation value of homology in consideration of a score of importance regarding expression, and creating an alignment indicating homology of the site of high importance.
【請求項6】 生物学的機能の発現に関して重要度が高
い連続した2以上のアミノ酸残基を含むグループ配列を
用いて、上記データベース中の蛋白質及び対象蛋白質に
ついて相同性の高い対応関係を検索する工程を含む、請
求項5に記載の方法。
6. Using a group sequence containing two or more consecutive amino acid residues which are highly important for the expression of a biological function, searching for a highly homologous correspondence between the protein and the target protein in the database. The method of claim 5, comprising a step.
【請求項7】 データベース中の1の蛋白質と対象蛋白
質について上記アラインメントから相同性の最終評価値
を得る工程を含む、請求項5又は6に記載の方法。
7. The method according to claim 5, further comprising the step of obtaining a final evaluation value of homology from the alignment for one protein and a target protein in the database.
【請求項8】 データベースに含まれる全蛋白質につい
ての最終評価値から生物学的機能に関して対象蛋白質に
最も類似した蛋白質を推定する工程を含む、請求項7に
記載の方法。
8. The method according to claim 7, further comprising a step of estimating a protein most similar to the target protein in biological function from the final evaluation value of all proteins contained in the database.
JP9093577A 1997-04-11 1997-04-11 Estimation of function of protein Pending JPH10287696A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9093577A JPH10287696A (en) 1997-04-11 1997-04-11 Estimation of function of protein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9093577A JPH10287696A (en) 1997-04-11 1997-04-11 Estimation of function of protein

Publications (1)

Publication Number Publication Date
JPH10287696A true JPH10287696A (en) 1998-10-27

Family

ID=14086132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9093577A Pending JPH10287696A (en) 1997-04-11 1997-04-11 Estimation of function of protein

Country Status (1)

Country Link
JP (1) JPH10287696A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002040990A1 (en) * 2000-11-15 2002-05-23 Akiko Itai Method of profiling protein

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002040990A1 (en) * 2000-11-15 2002-05-23 Akiko Itai Method of profiling protein

Similar Documents

Publication Publication Date Title
Grandi et al. Chromatin accessibility profiling by ATAC-seq
Rooijers et al. Simultaneous quantification of protein–DNA contacts and transcriptomes in single cells
Helweg‐Larsen et al. No evidence of parvovirus B19, Chlamydia pneumoniae or human herpes virus infection in temporal artery biopsies in patients with giant cell arteritis
Loy et al. Blood residues on fluted points from eastern Beringia
US8574832B2 (en) Methods for preparing sequencing libraries
Hugli Techniques in protein chemistry
Pollock et al. A case for evolutionary genomics and the comprehensive examination of sequence biodiversity
CN107206043A (en) The system and method for diagnosing idiopathic pulmonary fibrosis on transbronchial biopsy using machine learning and higher-dimension transcript data
CN105793859A (en) Methods and system for detecting sequence variants
Jungkind Automation of laboratory testing for infectious diseases using the polymerase chain reaction—our past, our present, our future
Betsou et al. CEBP Focus: Biomarkers and Biospecimens
Taylor et al. Revisiting recent challenges to the ancient fish-specific genome duplication hypothesis
Wobeser et al. Localization of Bovine papillomavirus in equine sarcoids and inflammatory skin conditions of horses using laser microdissection and two forms of DNA amplification
JP6644672B2 (en) Characterization of biological materials using unassembled sequence information, stochastic methods, and trait-specific database catalogs
Fields et al. Amino acid sequence differences cannot fully explain interspecific variation in thermal sensitivities of gobiid fish A4-lactate dehydrogenases (A4-LDHs)
Eisenstein The battle for sequencing supremacy: which companies are leading the pack in terms of market share of the sequencing sector? Michael Eisenstein reports
Wang et al. The evolution of calcification in reef-building corals
Taylor Milestones in immunohistochemistry and molecular morphology
Woellhaf et al. Import of ribosomal proteins into yeast mitochondria
Ingram Association for Molecular Pathology v. Myriad Genetics, Inc.: the product of nature doctrine revisited
Prensner et al. What can ribo-seq, immunopeptidomics, and proteomics tell us about the noncanonical proteome?
Barwinska et al. Application of laser microdissection to uncover regional transcriptomics in human kidney tissue
Scopes Overview of protein purification and characterization
Onsbring et al. An efficient single-cell transcriptomics workflow for microbial eukaryotes benchmarked on Giardia intestinalis cells
JPH10287696A (en) Estimation of function of protein

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070313

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070703