JP3476310B2 - Protein database system and method for displaying protein names and functions - Google Patents

Protein database system and method for displaying protein names and functions

Info

Publication number
JP3476310B2
JP3476310B2 JP20357596A JP20357596A JP3476310B2 JP 3476310 B2 JP3476310 B2 JP 3476310B2 JP 20357596 A JP20357596 A JP 20357596A JP 20357596 A JP20357596 A JP 20357596A JP 3476310 B2 JP3476310 B2 JP 3476310B2
Authority
JP
Japan
Prior art keywords
protein
data
oligopeptide
function
oligopeptides
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20357596A
Other languages
Japanese (ja)
Other versions
JPH1045795A (en
Inventor
洋文 土居
正人 北島
勇 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP20357596A priority Critical patent/JP3476310B2/en
Publication of JPH1045795A publication Critical patent/JPH1045795A/en
Application granted granted Critical
Publication of JP3476310B2 publication Critical patent/JP3476310B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】ヒトゲノム計画などにおい
て、人や病原菌を含む種々の生物のDNA配列の読み取
りが進んでおり、それに伴い機能未知の蛋白質に関する
アミノ酸の配列情報が急速に蓄積され、膨大な量となっ
てきている。そこで、これらのデータをもとに病気や発
病の推定、病原遺伝子の推定等が行われようとしてい
る。しかし、そのためには機能未知の蛋白質の機能や機
能部位を推定する必要がある。このような推定が可能に
なれば病原遺伝子の推定が容易となり、それに対処する
医薬品の開発も進むものと考えられる。
BACKGROUND OF THE INVENTION In the human genome project, etc., the reading of DNA sequences of various organisms including humans and pathogens is progressing, and along with this, sequence information of amino acids relating to proteins of unknown function is rapidly accumulated, resulting in a huge amount. Is becoming. Therefore, based on these data, diseases and onset of diseases, pathogenic genes, etc. are being estimated. However, for that purpose, it is necessary to estimate the function or functional site of a protein of unknown function. If this kind of estimation becomes possible, it will be easier to estimate the pathogenic gene, and it is thought that the development of medicines to deal with it will advance.

【0002】 本発明は、上記のように機能未知の蛋白
質の機能や機能部位、あるいは、機能が既知で機能部位
が未知の蛋白質の機能部位を推定するために使用するこ
とができる蛋白質データベース・システム並びに蛋白質
名前および機能の表示方法に関し、生化学・分子生物
学・医薬品開発等の各種の分野で広く利用することがで
きる。
INDUSTRIAL APPLICABILITY The present invention can be used to estimate the function or functional site of a protein of unknown function, or the functional site of a protein whose function is known and whose functional site is unknown .
The protein database system capable of performing and the method of displaying the names and functions of proteins can be widely used in various fields such as biochemistry, molecular biology, and drug development.

【0003】[0003]

【従来の技術】従来、機能未知の蛋白質を推定すると
き、該機能未知の蛋白質に近似した蛋白質を検索するホ
モロジー・サーチと呼ばれるアルゴリズムを使ってデー
タベースに対して検索を行い、機能および機能部位を推
定していた。しかしながら、機能未知の蛋白質がデータ
ベース中の蛋白質アミノ酸配列データとホモロジーが無
いと機能および機能部位を推定できないのが現状であ
る。さらに、機能が生物学的に分かっていても、データ
ベース中の蛋白質アミノ酸配列データとホモロジーが無
い場合、機能部位決定のために、研究者がランダムにア
ミノ酸置換などを行い思考錯誤で実験を行っていた。
2. Description of the Related Art Conventionally, when estimating a protein of unknown function, a database is searched using an algorithm called a homology search that searches for a protein that is similar to a protein of unknown function, and the function and functional site are identified. I was estimating. However, under the present circumstances, a protein of unknown function cannot be inferred for its function and functional site unless it has homology with the protein amino acid sequence data in the database. Furthermore, even if the function is biologically known, if there is no homology with the protein amino acid sequence data in the database, researchers randomly perform amino acid substitutions etc. to determine the functional site, and conduct experiments with thought and error. It was

【0004】[0004]

【発明が解決しようとする課題】上記のように、従来に
おいて、蛋白質の機能や機能部位は、通常、データベー
ス中の蛋白質アミノ酸配列データとのホモロジーに基づ
いて推定していた。しかし、機能未知の蛋白質が、デー
タベース中の蛋白質アミノ酸配列データとホモロジーが
無い場合には、上記のように機能および機能部位の推定
が困難であった。本発明は上記した事情に鑑みなされた
ものであり、その目的とするところは、機能未知もしく
は機能部位が未知の蛋白質のアミノ酸配列をオリゴペプ
チドに分解してデータベースを検索することにより、従
来のホモロジー・サーチで推定できなかった機能未知も
しくは機能部位が未知の蛋白質に対しても機能および機
能部位の推定を行えるようにすることである。
As described above, conventionally, the function or functional site of a protein is usually estimated based on the homology with the protein amino acid sequence data in the database. However, when the protein of unknown function has no homology with the protein amino acid sequence data in the database, it was difficult to estimate the function and functional site as described above. The present invention has been made in view of the above circumstances, and an object thereof is to analyze a database by decomposing an amino acid sequence of a protein whose function is unknown or whose functional site is unknown into oligopeptides to obtain a conventional homology. -It is to be able to estimate the function and functional site even for proteins whose function is unknown or whose functional site cannot be estimated by search.

【0005】[0005]

【課題を解決するための手段】図1は本発明の原理構成
図である。同図において、1は入力されたアミノ酸配列
をある長さ(例えばアミノ酸数4〜7)のオリゴペプチ
ドに分解する手段であり、例えば、MSKGEELF…
のアミノ酸配列を5の長さを有するMSKGE,SKG
EE,KGEEL,…等のオリゴペプチドに分解する
(M,S,K等はアミノ酸の1文字記号)。2は蛋白質
データベースであり、蛋白質ID、蛋白質名、機能、ア
ミノ酸配列等の蛋白質のデータが格納されている。
FIG. 1 is a block diagram showing the principle of the present invention. In the figure, 1 is a means for decomposing an input amino acid sequence into an oligopeptide having a certain length (for example, the number of amino acids 4 to 7), and for example, MSKGEELF ...
Amino acid sequence of MSKGE, SKG having a length of 5
Decomposes into oligopeptides such as EE, KGEEL, etc. (M, S, K, etc. are single letter symbols of amino acids). A protein database 2 stores protein data such as protein IDs, protein names, functions and amino acid sequences.

【0006】3は蛋白質のデータを抽出する手段であ
り、上記オリゴペプチドに分解する手段1により得られ
たオリゴペプチドを持つ蛋白質のデータを蛋白質データ
ベース2から抽出する。4は頻度解析手段であり、上記
オリゴペプチドの頻度解析を行う。5は出力手段であ
り、上記手段3の抽出結果、手段4による頻度解析結果
等を表示する。
Reference numeral 3 denotes a means for extracting protein data, which extracts from the protein database 2 data on a protein having an oligopeptide obtained by the means 1 for decomposing into oligopeptides. Reference numeral 4 is a frequency analysis means for performing frequency analysis of the oligopeptide. An output unit 5 displays the extraction result of the unit 3, the frequency analysis result of the unit 4, and the like.

【0007】上記のような蛋白質データ・ベースシステ
ムを利用して機能未知の蛋白質のアミノ酸配列を解析す
ることにより、従来のホモロジー・サーチで推定できな
かった機能未知の蛋白質に対しても機能および機能部位
の推定を行えるようになる。すなわち、蛋白質の機能部
位を含むオリゴペプチドはデータベース中の多くの蛋白
質でも頻繁につかわれているため、オリゴペプチドの頻
度解析を行い、出現頻度が高い蛋白質の機能等を抽出す
ることにより、蛋白質の機能部位の推定が可能となる。
また、逆にデータベース中で出現頻度が極端に低いか、
出現頻度がゼロのオリゴペプチドについては、機能が未
知の蛋白質の独自の機能部位として推定することができ
る。
By analyzing the amino acid sequence of a protein of unknown function using the protein database system as described above, the function and function of a protein of unknown function which could not be estimated by the conventional homology search are analyzed. You will be able to estimate the part. In other words, oligopeptides containing functional sites of proteins are frequently used in many proteins in the database.Therefore, by performing frequency analysis of oligopeptides and extracting the functions of proteins with high frequency of occurrence, etc. It is possible to estimate the part.
On the contrary, if the frequency of occurrence in the database is extremely low,
An oligopeptide having a zero appearance frequency can be estimated as a unique functional site of a protein whose function is unknown.

【0008】 上述したように、本発明の請求項1から
請求項の発明は前記課題を次のように解決する。 (1)蛋白質データベース・システムを、蛋白質のアミ
ノ酸配列を入力とし、ある長さのオリゴペプチドに分解
する手段と、蛋白質名、機能、アミノ酸配列等の蛋白質
のデータが格納された蛋白質データベースにアクセス
し、分解された各オリゴペプチドについて、そのオリゴ
ペプチドを持つ蛋白質のデータを抽出する手段と、蛋白
質データベースにアクセスし、上記オリゴペプチドの頻
度解析を行い、蛋白質データベース中で出現頻度の高い
オリゴペプチドを求める手段と、上記出現頻度の高いオ
リゴペプチドおよびそのオリゴペプチドを持つ蛋白質の
データのうち少なくとも名前および機能を表示する手段
とから構成する。
As described above, the inventions of claims 1 to 4 of the present invention solve the above problems as follows. (1) Use the protein database system to
No acid sequence as input and decomposed into oligopeptide of a certain length
And the protein such as protein name, function, amino acid sequence, etc.
Access the protein database that stores data
For each degraded oligopeptide,
A means for extracting data of proteins having peptides,
Access the quality database and check the
Frequency analysis and high frequency of occurrence in protein databases
The means for obtaining oligopeptides and the
Of proteins with lygopeptides and their oligopeptides
A means of displaying at least the name and function of the data
It consists of and.

【0009】()蛋白質データベース・システムを、
蛋白質のアミノ酸配列を入力とし、ある長さのオリゴペ
プチドに分解する手段と、蛋白質名、機能、アミノ酸配
列等の蛋白質のデータが格納された蛋白質データベース
にアクセスし、分解された各オリゴペプチドについて、
そのオリゴペプチドを持つ蛋白質のデータを抽出する手
段と、蛋白質データベースにアクセスし、上記オリゴペ
プチドの頻度解析を行い、蛋白質データベース中で出現
頻度が極端に低いか、出現頻度がゼロのオリゴペプチド
を求める手段と、上記出現頻度の低いオリゴペプチドお
よびそのオリゴペプチドを持つ蛋白質の名前および機能
を表示するとともに、出現頻度がゼロのオリゴペプチド
を表示する手段とから構成する。
( 2 ) A protein database system
A means for degrading oligopeptides of a certain length using the amino acid sequence of the protein as input and the protein name, function, amino acid sequence
Access the protein database that stores protein data such as columns , and for each decomposed oligopeptide,
Access to the protein database with a means to extract the data of the protein having the oligopeptide, perform the frequency analysis of the above oligopeptide, and find the oligopeptide with extremely low occurrence frequency or zero appearance frequency in the protein database. And means for displaying the name and function of the oligopeptide having a low occurrence frequency and the protein having the oligopeptide, and displaying the oligopeptide having a zero appearance frequency.

【0010】(蛋白質名、機能、アミノ酸配列等の
蛋白質のデータが格納された蛋白質データベースと、デ
ータ入力手段と、入力データを処理する入力データ処理
手段と、蛋白質データベース検索手段と、蛋白質データ
ベースから検索されたデータを処理する検索データ処理
手段と、処理されたデータを表示出力するデータ出力手
段を備えた蛋白質データベース・システムにおいて、
白質のアミノ酸配列を入力とし、ある長さのオリゴペプ
チドに分解し、上記蛋白質データベースにアクセスして
上記オリゴペプチドの頻度解析を行い、上記出現頻度の
高いオリゴペプチドを持つ蛋白質のデータのうち少なく
とも名前および機能を表示する。 (蛋白質データベースと、データ入力手段と、入力
データを処理する入力データ処理手段と、蛋白質データ
ベース検索手段と、蛋白質データベースから検索された
データを処理する検索データ処理手段と、処理されたデ
ータを表示出力するデータ出力手段を備えた蛋白質デー
タベース・システムにおいて、蛋白質のアミノ酸配列を
入力とし、ある長さのオリゴペプチドに分解し、上記
白質データベースにアクセスして上記オリゴペプチドの
頻度解析を行い、出現頻度が極端に低いオリゴペプチド
を持つ蛋白質のデータのうち少なくとも名前および機能
を表示するとともに出現頻度がゼロのオリゴペプチドを
表示する。
( 3 ) Protein name, function, amino acid sequence, etc.
A protein database that stores protein data, and a
Data input means and input data processing for processing input data
Means, protein database searching means, protein data
Search data processing to process the data retrieved from the base
Means and a data output device for displaying and outputting the processed data
In a protein database system equipped with steps, the amino acid sequence of a protein is input, it is decomposed into oligopeptides of a certain length, the protein database is accessed, and the frequency analysis of the oligopeptides is performed. Display at least the name and function of the data for proteins with peptides. ( 4 ) Protein database, data input means, and input
Input data processing means for processing data and protein data
Searched from base search means and protein database
Search data processing means for processing the data and the processed data
Protein data output means for displaying and outputting the data
In database systems, as input an amino acid sequence of the protein, decomposing the oligopeptides of a length, performs frequency analysis of the oligopeptides to access the蛋<br/> white matter database, is extremely low frequency At least the name and function of the data of proteins having oligopeptides are displayed, and oligopeptides having a zero appearance frequency are displayed.

【0011】[0011]

【発明の実施の形態】図2は本発明の実施の形態のシス
テムの構成である。同図において、11はアミノ酸配列
を入力する入力装置、12は処理部であり、処理部12
において、12aは入力されたアミノ酸配列をある長さ
のオリゴペプチド(アミノ酸の連鎖)に分解するオリゴ
ペプチド分解手段、12bは検索手段であり、蛋白質デ
ータベース13にアクセスし、上記オリゴペプチド分解
手段12aにより分解されたオリゴペプチドを持つ蛋白
質の名前、機能、アミノ酸配列等のデータを検索する。
FIG. 2 shows the configuration of a system according to an embodiment of the present invention. In the figure, 11 is an input device for inputting an amino acid sequence, 12 is a processing unit, and the processing unit 12
In the above, 12a is an oligopeptide decomposing means for decomposing the input amino acid sequence into an oligopeptide (a chain of amino acids) of a certain length, and 12b is a searching means, which accesses the protein database 13 and uses the oligopeptide decomposing means 12a. Search for data such as the name, function, amino acid sequence, etc. of proteins that have degraded oligopeptides.

【0012】12cは頻度解析手段であり、上記検索手
段12bの検索結果に基づき、上記オリゴペプチドの出
現頻度を求める。12dは機能抽出手段であり、上記頻
度解析手段の解析結果に基づき上記蛋白質データベース
にアクセスし、上記オリゴペプチドを持つ蛋白質の機能
等を抽出する。13は上記した蛋白質データベースであ
り、蛋白質データベース13には、蛋白質ID、蛋白質
名、機能、アミノ酸配列、参考文献等の蛋白質のデータ
が格納されている。なお、本実施例においては、蛋白質
データベース13としてSWISS・PROT version
33を用いたが他のデータベースを用いてもよい。14は
CRT,液晶表示装置、プリンタ等から構成される出力
装置であり、上記機能抽出手段12c、頻度解析手段1
2dの結果を出力する。
Reference numeral 12c is a frequency analysis means, which determines the appearance frequency of the oligopeptide based on the search result of the search means 12b. A function extracting unit 12d accesses the protein database on the basis of the analysis result of the frequency analyzing unit and extracts the function and the like of the protein having the oligopeptide. Reference numeral 13 is the above-mentioned protein database, and the protein database 13 stores protein data such as protein ID, protein name, function, amino acid sequence, and references. In this example, the protein database 13 was used as SWISS / PROT version.
33 was used, but other databases may be used. An output device 14 is composed of a CRT, a liquid crystal display device, a printer, etc., and has the function extracting means 12c and the frequency analyzing means 1
Output the result of 2d.

【0013】以下、上記システムを用いた蛋白質の機能
および機能部位の解析についての実施例を説明する。な
お、以下の説明では、アミノ酸を図3に示す1文字記号
A,R,N,…等で表記する。また、アミノ酸配列をオ
リゴペプチドに分解する際のオリゴペプチドの長さは、
アミノ酸の種類が図3に示すように20種類であるの
で、検索効率、カバレージ等を考慮すると4〜7程度が
望ましく、以下の実施例では5とした。
An example of analysis of protein functions and functional sites using the above system will be described below. In the following description, amino acids are represented by the one-letter symbols A, R, N, ... Shown in FIG. In addition, the length of an oligopeptide when decomposing an amino acid sequence into an oligopeptide is
Since there are 20 kinds of amino acids as shown in FIG. 3, it is preferably about 4 to 7 in consideration of search efficiency, coverage, etc., and was set to 5 in the following examples.

【0014】(1)図4に示すように、機能未知の蛋白
質のアミノ酸配列を入力とし、前記オリゴペプチド分解
手段12aにより、入力された蛋白質のアミノ酸配列上
で、N末(NH2 側)からC末(COOH側)まである長さの
単位(以下ウインドウという)でアミノ酸を一つずつず
らしていきながら、上記ウインドウの長さでオリゴペプ
チドに分解していく。図5に、緑色の蛍光を発するGree
n Fluorescent Protein のN末から30アミノ酸を長さ
5のオリゴペプチドに分解した例を示す。
(1) As shown in FIG. 4, the amino acid sequence of a protein of unknown function is input, and the oligopeptide degrading means 12a causes the amino acid sequence of the input protein to start from the N-terminal (NH 2 side). While gradually shifting amino acids one by one in units of a certain length (hereinafter referred to as a window) up to the C-terminal (COOH side), they are decomposed into oligopeptides with the length of the above window. In Figure 5, Gree that emits green fluorescence
An example in which 30 amino acids from the N terminus of n Fluorescent Protein is decomposed into oligopeptides having a length of 5 is shown.

【0015】(2)図6に示すように、分解されたオリ
ゴペプチドを、前記検索手段12bにより蛋白質データ
ベース13から検索し、頻度解析手段12cにより各オ
リゴペプチドについて出現頻度をカウントし、各オリゴ
ペプチドの出現頻度を出力手段14にグラフ表示する。
図7は上記したGreen Fluorescent Protein のN末から
30アミノ酸を長さ5のオリゴペプチドに分解し、蛋白
質データベースSWISS・PROT version33中で検
索し、出現頻度をグラフ表示した結果を示す図であり、
縦軸は分解されたオリゴペプチドを示し、横軸が出現頻
度を示している。
(2) As shown in FIG. 6, the decomposed oligopeptides are searched from the protein database 13 by the searching means 12b, and the frequency of appearance of each oligopeptide is counted by the frequency analyzing means 12c. The appearance frequency of is displayed as a graph on the output means 14.
FIG. 7 is a diagram showing the results of degrading 30 amino acids from the N terminus of the above-mentioned Green Fluorescent Protein into oligopeptides of length 5, searching in the protein database SWISS PROT version33, and displaying the frequency of occurrence in a graph,
The vertical axis shows the decomposed oligopeptide, and the horizontal axis shows the appearance frequency.

【0016】(3)また、図8に示すように、分解され
たオリゴペプチドについて、そのオリゴペプチドを持つ
蛋白質を前記検索手段12bにより蛋白質データベース
13から検索し、上記分解されたオリゴペプチドを持つ
蛋白質のデータを出力手段14に表示する。図9は蛋白
質データベースSWISS・PROT version33中にお
いて、上記30アミノ酸配列の一番N末側の長さ5のオ
リゴペプチドMSKGEを持つ蛋白質を表示した結果を
示す図である。なお、同図において、FKB2 BOVIN 等は
蛋白質データベースSWISS・PROT version33に
おける蛋白質のID名である。
(3) Further, as shown in FIG. 8, regarding the degraded oligopeptide, the protein having the oligopeptide is searched from the protein database 13 by the search means 12b, and the protein having the degraded oligopeptide is searched. The data of 1 is displayed on the output means 14. FIG. 9 is a diagram showing the results of displaying a protein having the oligopeptide MSKGE with a length of 5 at the most N-terminal side of the above 30 amino acid sequence in the protein database SWISS PROT version 33. In the figure, FKB2 BOVIN and the like are protein ID names in the protein database SWISS / PROT version 33.

【0017】(4)図10に示すように、分解されたオ
リゴペプチドについて、そのオリゴペプチドを持つ蛋白
質およびその蛋白質の名前、機能を、蛋白質データベー
ス13中で検索手段12bにより検索して機能抽出手段
12dにより抽出し、出力手段14に表示する。図11
は蛋白質データベースSWISS・PROT version33
中において、上記30アミノ酸配列の一番N末側の長さ
5のオリゴペプチドMSKGEを持つ蛋白質の機能を表
示(蛋白質の名前が機能を表現しているので名前を表
示)した結果を示す図である。なお、オリゴペプチドM
SKGEを持つ蛋白質はSWISS・PROT version
33において6個あるが、同図では、この内蛋白質の機能
として頻度が上位2個について表示してある。
(4) As shown in FIG. 10, for the decomposed oligopeptide, the protein having the oligopeptide and the name and function of the protein are searched by the search means 12b in the protein database 13 to extract the function. It is extracted by 12d and displayed on the output means 14. Figure 11
Is the protein database SWISS ・ PROT version33
In the figure, the function of a protein having the oligopeptide MSKGE with a length of 5 at the N-terminal side of the above 30 amino acid sequence is displayed (the name of the protein is displayed, so the name is displayed). is there. In addition, oligopeptide M
The protein with SKGE is SWISS ・ PROT version
There are 6 in 33, but in the same figure, the highest two frequencies are shown as the function of this internal protein.

【0018】(5)図12に示すように、分解されたオ
リゴペプチドについて、そのオリゴペプチドを、検索手
段12bにより蛋白質データベース13中で検索し、頻
度解析手段12cによりカウントして、出現頻度の多い
順に並べ変える。そして、検索手段12bにより、出現
頻度の高い順に上記オリゴペプチドを持つ蛋白質の機能
を検索し、機能抽出手段12dにより機能を抽出して、
出力手段14に出現頻度の高いオリゴペブチド順に出力
する。図13〜図17は、上記30アミノ酸配列におい
て、長さ5のウインドウで分解されたオリゴペプチドに
ついて蛋白質データベースSWISS・PROT versi
on33中で頻度解析を行い、出現頻度の高い順に並べ、上
位4個のオリゴペプチドについて、そのオリゴペプチド
を持っている蛋白質のIDおよび機能を表示(蛋白質の
名前が機能を表現しているので名前を表示)した結果を
示す図である。
(5) As shown in FIG. 12, regarding the decomposed oligopeptide, the oligopeptide is searched in the protein database 13 by the search means 12b and counted by the frequency analysis means 12c, and the appearance frequency is high. Rearrange in order. Then, the searching means 12b searches the functions of the proteins having the oligopeptides in descending order of appearance frequency, and the function extracting means 12d extracts the functions,
It outputs to the output means 14 in the order of the most frequently occurring oligopeptides. 13 to 17 show protein database SWISS / PROT versi for oligopeptides decomposed in a window of length 5 in the above 30 amino acid sequence.
The frequency analysis is performed in on33, and they are arranged in descending order of appearance frequency, and for the top four oligopeptides, the IDs and functions of the proteins having the oligopeptides are displayed (the name of the protein expresses the function. Is displayed).

【0019】(6)図18に示すように、分解されたオ
リゴペプチドについて、そのオリゴペプチドを、検索手
段12bにより蛋白質データベース13中で検索し、頻
度解析手段12cによりカウントして、出現頻度の低い
順に並べ変える。そして、検索手段12bにより、出現
頻度の低い順に上記オリゴペプチドを持つ蛋白質の機能
を検索し、機能抽出手段12dにより機能を抽出して、
出力手段14に出現頻度の低いオリゴペブチド順に出力
する。図19は、上記30アミノ酸配列において長さ5
のウインドウで分解されたオリゴペプチドについて蛋白
質データベースSWISS・PROT version33中で頻
度解析を行い、出現頻度の低い順に並べ、下位2個のオ
リゴペプチドについて、そのオリゴペプチドを持ってい
る蛋白質のID、機能(蛋白質の名前が機能を表現して
いるので名前を表示)、および出現頻度ゼロのオリゴペ
プチドを表示した結果を示す図である。なお、以上の説
明では、機能未知の蛋白質の機能および機能部位を推定
する場合について説明したが、当然のことながら、本発
明により、機能は既知で機能部位が未知の蛋白質の機能
部位を推定することができる。
(6) As shown in FIG. 18, regarding the decomposed oligopeptide, the oligopeptide is searched in the protein database 13 by the search means 12b and counted by the frequency analysis means 12c, so that the appearance frequency is low. Rearrange in order. Then, the searching means 12b searches the functions of the proteins having the above oligopeptides in the order of appearance frequency, and the function extracting means 12d extracts the functions,
It outputs to the output means 14 in the order of the oligopeptides having the lowest appearance frequency. FIG. 19 shows a length of 5 in the above 30 amino acid sequence.
Frequency analysis was performed in the protein database SWISS PROT version33 for the oligopeptides decomposed in the window of, and they were arranged in order from the lowest appearance frequency. For the lower two oligopeptides, the ID and function of the protein having the oligopeptide ( It is a figure which shows the result which displayed the name because the name of a protein expresses a function) and the oligopeptide of which appearance frequency is zero. In the above description, the case of estimating the function and functional site of a protein of unknown function has been described, but, of course, according to the present invention, the functional site of a protein having a known function and an unknown functional site is estimated. be able to.

【0020】[0020]

【発明の効果】以上説明したように、本発明において
は、蛋白質のアミノ酸配列をある長さのオリゴペプチド
に分解して蛋白質データベースにアクセスして、上記オ
リゴペプチドの頻度解析を行い、出現頻度をグラフ表
示したり、 出現頻度の高いオリゴペプチドを持つ蛋白
質の名前および機能を表示したり、あるいは、 出現頻
度が極端に低いオリゴペプチドを持つ蛋白質の名前およ
び機能、出現頻度がゼロのオリゴペプチドを表示するよ
うにしたので、出現頻度の高いオリゴペプチドを機能未
知の蛋白質の機能部位と推定したり、あるいは、出現頻
度が極端に低いか出現頻度ゼロのオリゴペプチドを機能
未知の蛋白質の独自の機能部位として推定することがで
きる。
As described above, in the present invention
Is an oligopeptide of a certain length that is the amino acid sequence of a protein
And then access the protein database to
Frequency analysis of Rigopeptide is performed and the frequency of appearance is shown in a graph.
Show or Proteins with frequently occurring oligopeptides
Display quality name and function, or Frequent appearance
The names and names of proteins with extremely low oligopeptides
Function and the frequency of occurrence of oligopeptides are displayed.
As a result, oligopeptides that frequently appear will not function properly.
Presumed to be the functional site of a known protein, or
Functions oligopeptides with extremely low frequency or frequency of occurrence
It can be estimated as a unique functional site of an unknown protein.
Wear.

【0021】このため、蛋白質データベース中の蛋白質
とホモロジーが無い場合においても、機能未知の蛋白質
の機能および機能部位もしくは機能が既知で機能部位が
未知の蛋白質の機能部位を推定することができ、これま
で、研究者がランダムにアミノ酸置換などを行い試行錯
誤で行っていた実験をかなり効率よく行うことができ
る。これにより、本手法が生化学・分子生物学・医薬品
開発等の各種の分野において広く普及することが期待さ
れる。
Therefore, even if there is no homology with the protein in the protein database, it is possible to estimate the function and functional site of a protein of unknown function or the functional site of a protein whose function is known and whose functional site is unknown. Up to now, researchers can randomly perform amino acid substitutions and perform experiments by trial and error, which makes it possible to perform experiments with great efficiency. As a result, this method is expected to be widely spread in various fields such as biochemistry, molecular biology, and drug development.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理構成図である。FIG. 1 is a principle configuration diagram of the present invention.

【図2】本発明の実施の形態のシステム構成を示す図で
ある。
FIG. 2 is a diagram showing a system configuration of an embodiment of the present invention.

【図3】一文字記号とアミノ酸との対応を示す図であ
る。
FIG. 3 is a diagram showing correspondence between one-letter symbols and amino acids.

【図4】アミノ酸配列をオリゴペプチドに分解する処理
を説明する図である。
FIG. 4 is a diagram illustrating a process of decomposing an amino acid sequence into oligopeptides.

【図5】30アミノ酸配列をオリゴペプチドに分解した
例を示す図である。
FIG. 5 is a diagram showing an example in which a 30 amino acid sequence is decomposed into oligopeptides.

【図6】出現頻度をグラフ表示する場合の処理を説明す
る図である。
FIG. 6 is a diagram illustrating a process of displaying the appearance frequency in a graph.

【図7】30アミノ酸配列の出現頻度をグラフ表示した
一例を示す図である。
FIG. 7 is a diagram showing an example in which the frequency of appearance of 30 amino acid sequences is displayed graphically.

【図8】蛋白質のデータを表示する場合の処理を説明す
る図である。
FIG. 8 is a diagram illustrating processing when displaying protein data.

【図9】オリゴペプチドMSKGEを持つ蛋白質のデー
タの表示結果を示す図である。
FIG. 9 is a diagram showing a display result of data of a protein having oligopeptide MSKGE.

【図10】蛋白質およびその名前、機能を表示する場合
の処理を説明する図である。
FIG. 10 is a diagram illustrating a process of displaying a protein, its name, and a function.

【図11】オリゴペプチドMSKGEを持つ蛋白質の機
能の表示結果を示す図である。
FIG. 11 is a diagram showing the display results of the function of a protein having the oligopeptide MSKGE.

【図12】出現頻度が高いオリゴペプチドを持つ蛋白質
の機能を表示する場合の処理を説明する図である。
FIG. 12 is a diagram illustrating a process of displaying the function of a protein having an oligopeptide having a high appearance frequency.

【図13】出現頻度が高いオリゴペプチドを持つ蛋白質
のID、機能の表示結果を示す図(その1)である。
FIG. 13 is a diagram (part 1) showing the display results of IDs and functions of proteins having oligopeptides with high appearance frequency.

【図14】出現頻度が高いオリゴペプチドを持つ蛋白質
のID、機能の表示結果を示す図(その2)である。
FIG. 14 is a diagram (part 2) showing the display results of the ID and function of a protein having an oligopeptide having a high appearance frequency.

【図15】出現頻度が高いオリゴペプチドを持つ蛋白質
のID、機能の表示結果を示す図(その3)である。
FIG. 15 is a diagram (part 3) showing display results of IDs and functions of proteins having oligopeptides with high appearance frequency.

【図16】出現頻度が高いオリゴペプチドを持つ蛋白質
のID、機能の表示結果を示す図(その4)である。
FIG. 16 is a diagram (part 4) showing the display results of the ID and function of a protein having an oligopeptide having a high appearance frequency.

【図17】出現頻度が高いオリゴペプチドを持つ蛋白質
のID、機能の表示結果を示す図(その5)である。
FIG. 17 is a view (No. 5) showing display results of IDs and functions of proteins having oligopeptides with high appearance frequency.

【図18】出現頻度が低いオリゴペプチドを持つ蛋白質
の機能を表示する場合の処理を説明する図である。
FIG. 18 is a diagram illustrating a process for displaying the function of a protein having an oligopeptide having a low appearance frequency.

【図19】出現頻度が低いオリゴペプチドを持つ蛋白質
のID、機能、出現頻度がゼロのオリゴペプチドの表示
結果を示す図である。
FIG. 19 is a diagram showing IDs, functions of proteins having oligopeptides having a low appearance frequency, and display results of oligopeptides having a zero appearance frequency.

【符号の説明】[Explanation of symbols]

1 アミノ酸配列をオリゴペプチドに分解する手段 2 蛋白質データベース 3 蛋白質のデータを抽出する手段 4 頻度解析手段 5 出力手段 11 入力装置 12 処理部 12a オリゴペプチド分解手段 12b 検索手段 12c 頻度解析手段 12d 機能抽出手段 13 蛋白質データベース 14 出力装置 1 Means for degrading amino acid sequences into oligopeptides 2 protein database 3 Means for extracting protein data 4 Frequency analysis means 5 Output means 11 Input device 12 Processing unit 12a Oligopeptide degrading means 12b Search method 12c Frequency analysis means 12d function extracting means 13 protein database 14 Output device

フロントページの続き (72)発明者 渡部 勇 神奈川県川崎市中原区上小田中4丁目1 番1号 富士通株式会社内 (56)参考文献 特開 平4−75582(JP,A) 特開 平7−105224(JP,A) 特開 平8−110910(JP,A) STN INTERNATIONAL 編,CAS ONLINE ポケット・ ガイド,日本,社団法人 化学情報協 会,1996年 4月,p.30 Protein Engineeri ng,1993年,vol.6, no. 4,p.391−395 (58)調査した分野(Int.Cl.7,DB名) C12N 15/00 - 15/90 JICSTファイル(JOIS) PubMedFront page continuation (72) Inventor Yutaka Watanabe 4-1-1 Kamitadanaka, Nakahara-ku, Kawasaki-shi, Kanagawa Fujitsu Limited (56) Reference JP-A-4-75582 (JP, A) JP-A-7- 105224 (JP, A) JP-A-8-110910 (JP, A) STN INTERNATIONAL, edited by CAS ONLINE Pocket Guide, Japan, Japan Society for Chemical Information, April 1996, p. 30 Protein Engineering, 1993, vol. 6, no. 4, p. 391-395 (58) Fields surveyed (Int.Cl. 7 , DB name) C12N 15/00-15/90 JISST file (JOIS) PubMed

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 蛋白質のアミノ酸配列を入力とし、ある
長さのオリゴペプチドに分解する手段と、蛋白質名、機能、アミノ酸配列等の蛋白質のデータが格
納された 蛋白質データベースにアクセスし、分解された
各オリゴペプチドについて、そのオリゴペプチドを持つ
蛋白質のデータを抽出する手段と、上記 蛋白質データベースにアクセスし、上記オリゴペプ
チドの頻度解析を行い、蛋白質データベース中で出現頻
度の高いオリゴペプチドを求める手段と、 上記出現頻度の高いオリゴペプチドおよびそのオリゴペ
プチドを持つ蛋白質のデータのうち少なくとも名前およ
び機能を表示する手段とを備えたことを特徴とする蛋白
質データベース・システム。
1. Means for decomposing an oligopeptide of a certain length by inputting the amino acid sequence of the protein and protein data such as protein name, function, amino acid sequence, etc.
Access the pay to protein databases, each oligopeptide is degraded, and means for extracting the data of the protein having the oligopeptide, accesses the protein database, performs frequency analysis of the oligopeptide, in a protein database A protein database characterized by comprising means for obtaining an oligopeptide having a high frequency of occurrence, and means for displaying at least a name and a function of data of the above-mentioned high-frequency oligopeptide and a protein having the oligopeptide. system.
【請求項2】 蛋白質のアミノ酸配列を入力とし、ある
長さのオリゴペプチドに分解する手段と、蛋白質名、機能、アミノ酸配列等の蛋白質のデータが格
納された 蛋白質データベースにアクセスし、分解された
各オリゴペプチドについて、そのオリゴペプチドを持つ
蛋白質のデータを抽出する手段と、上記 蛋白質データベースにアクセスし、上記オリゴペプ
チドの頻度解析を行い、蛋白質データベース中で出現頻
度が極端に低いか、出現頻度がゼロのオリゴペプチドを
求める手段と、 上記出現頻度の低いオリゴペプチドおよびそのオリゴペ
プチドを持つ蛋白質のデータのうち少なくとも名前およ
び機能を表示するとともに、出現頻度がゼロのオリゴペ
プチドを表示する手段とを備えたことを特徴とする蛋白
質データベース・システム。
2. A method for inputting an amino acid sequence of a protein to decompose it into an oligopeptide of a certain length and protein data such as protein name, function, amino acid sequence, etc.
Access the pay to protein databases, each oligopeptide is degraded, and means for extracting the data of the protein having the oligopeptide, accesses the protein database, performs frequency analysis of the oligopeptide, in a protein database The method of finding oligopeptides whose occurrence frequency is extremely low or the occurrence frequency is zero, and at least the name and function of the above-mentioned oligopeptides with low occurrence frequency and the data of proteins having the oligopeptides are displayed. And a means for displaying zero-oligopeptides, and a protein database system.
【請求項3】 蛋白質名、機能、アミノ酸配列等の蛋白
質のデータが格納された蛋白質データベースと、データ
入力手段と、入力データを処理する入力データ処理手段
と、蛋白質データベース検索手段と、蛋白質データベー
スから検索されたデータを処理する検索データ処理手段
と、処理されたデータを表示出力するデータ出力手段を
備えた蛋白質データベース・システムにおいて、 蛋白質のアミノ酸配列を入力とし、ある長さのオリゴペ
プチドに分解し、上記 蛋白質データベースにアクセスして上記オリゴペプ
チドの頻度解析を行い、 上記データベース中で出現頻度の高いオリゴペプチドを
機能未知の蛋白質の機能部位と推定して、上記出現頻度
の高いオリゴペプチドを持つ蛋白質のデータのうち少な
くとも名前および機能を表示する方法
3. A protein such as protein name, function, amino acid sequence, etc.
Protein database storing quality data , data input means, input data processing means for processing input data, protein database searching means, search data processing means for processing data searched from protein database, and processing in protein database system having a data output means for displaying and outputting data as input an amino acid sequence of the protein, decomposing the oligopeptides of a length, frequency analysis of the oligopeptides to access the protein database It was carried out, how to estimate the functional site of unknown function of a protein with a high frequency oligopeptides in the database, displaying at least the name and function of the protein of data with high oligopeptide of the appearance frequency.
【請求項4】 蛋白質名、機能、アミノ酸配列等の蛋白
質のデータが格納された蛋白質データベースと、データ
入力手段と、入力データを処理する入力データ処理手段
と、蛋白質データベース検索手段と、蛋白質データベー
スから検索されたデータを処理する検索データ処理手段
と、処理されたデータを表示出力するデータ出力手段を
備えた蛋白質データベース・システムにおいて、 蛋白質のアミノ酸配列を入力とし、ある長さのオリゴペ
プチドに分解し、上記 蛋白質データベースにアクセスして上記オリゴペプ
チドの頻度解析を行い、 出現頻度が極端に低いオリゴペプチドを持つ蛋白質のデ
ータのうち少なくとも名前および機能を表示するととも
に、出現頻度がゼロのオリゴペプチドを表示する方法
4. A protein such as protein name, function, amino acid sequence, etc.
Protein database storing quality data , data input means, input data processing means for processing input data, protein database searching means, search data processing means for processing data searched from protein database, and processing in protein database system having a data output means for displaying and outputting data as input an amino acid sequence of the protein, decomposing the oligopeptides of a length, frequency analysis of the oligopeptides to access the protein database It was carried out, and displays at least a name and function of the protein of data with extremely low oligopeptide frequency, method of frequency displays zero oligopeptide.
JP20357596A 1996-08-01 1996-08-01 Protein database system and method for displaying protein names and functions Expired - Fee Related JP3476310B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20357596A JP3476310B2 (en) 1996-08-01 1996-08-01 Protein database system and method for displaying protein names and functions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20357596A JP3476310B2 (en) 1996-08-01 1996-08-01 Protein database system and method for displaying protein names and functions

Publications (2)

Publication Number Publication Date
JPH1045795A JPH1045795A (en) 1998-02-17
JP3476310B2 true JP3476310B2 (en) 2003-12-10

Family

ID=16476395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20357596A Expired - Fee Related JP3476310B2 (en) 1996-08-01 1996-08-01 Protein database system and method for displaying protein names and functions

Country Status (1)

Country Link
JP (1) JP3476310B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3618497B2 (en) * 1996-12-27 2005-02-09 富士通株式会社 Protein antigenic determinant prediction method and system
JP3324594B2 (en) * 1999-12-20 2002-09-17 株式会社日立製作所 Bio product quality assurance method and bio information distribution method
IL151661A0 (en) * 2000-03-10 2003-04-10 Daiichi Seiyaku Co Method for predicting protein-protein interactions
JP3881224B2 (en) * 2001-11-30 2007-02-14 セレスター・レキシコ・サイエンシズ株式会社 Array information processing apparatus, array information processing method, program, and recording medium
JP2003330934A (en) * 2002-05-10 2003-11-21 Celestar Lexico-Sciences Inc Variant sequence analyzer, variant sequence analysis method, program, and recording medium
JP5247009B2 (en) * 2006-06-16 2013-07-24 独立行政法人理化学研究所 Sequence extraction device, sequence extraction method, program, and recording medium
CN101991879A (en) * 2010-11-11 2011-03-30 奇瑞汽车股份有限公司 Preparation method of carbon-carbon composite material/hydroxyapatite/polylactic acid biological material
JP6773347B1 (en) * 2019-09-02 2020-10-21 株式会社Aiプランナー Building scoring system and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2825948B2 (en) * 1990-07-17 1998-11-18 富士通株式会社 Genome analysis processing equipment
JP3370787B2 (en) * 1993-08-10 2003-01-27 株式会社日立製作所 Character array search method
JPH08110910A (en) * 1994-10-13 1996-04-30 Hitachi Ltd Method for retrieving character array

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Protein Engineering,1993年,vol.6, no.4,p.391−395
STN INTERNATIONAL編,CAS ONLINE ポケット・ガイド,日本,社団法人 化学情報協会,1996年 4月,p.30

Also Published As

Publication number Publication date
JPH1045795A (en) 1998-02-17

Similar Documents

Publication Publication Date Title
Claverie et al. Information enhancement methods for large scale sequence analysis
Dror et al. MASS: multiple structural alignment by secondary structures
Altschula et al. Basic local alignment search tool
Cohen et al. Origins of structural diversity within sequentially identical hexapeptides
Mao et al. ESTAP—an automated system for the analysis of EST data
AU2001241075B2 (en) Method of anticipating interaction between proteins
JP3476310B2 (en) Protein database system and method for displaying protein names and functions
JP2016540275A (en) Methods and systems for detecting sequence variants
Wilkins et al. Multiple parameter cross‐species protein identification using MultiIdent‐a world‐wide web accessible tool
JPH11501741A (en) Computer system for storing and analyzing microbiological data
US20070016375A1 (en) Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules
US8050869B2 (en) Profile searching in nucleic acid sequences using the Fast Fourier Transformation
Schmitt et al. From structure to function: A new approach to detect functional similarity among proteins independent from sequence and fold homology
Li et al. Automated resonance assignment of proteins using heteronuclear 3D NMR. 2. Side chain and sequence-specific assignment
DE69902924D1 (en) NEW METHODS FOR DETECTING LIGAND AND TARGET BIOMOLECULES
WO2002021139A3 (en) Automated identification of peptides
Sternberg PROMOT: a FORTRAN program to scan protein sequences against a library of known motifs
JP4040764B2 (en) Gene motif extraction processing apparatus, gene motif extraction processing method, and recording medium storing gene motif extraction processing program
WO1996038589A1 (en) Method for analyzing partial gene sequences
AU782633B2 (en) Automated method for identifying related biomolecular sequences
Bagley et al. Characterizing oriented protein structural sites using biochemical properties.
Cruveiller et al. The compositional transition between the genomes of cold-and warm-blooded vertebrates: codon frequencies in orthologous genes
Wang et al. Recognizing translation initiation sites of eukaryotic genes based on the cooperatively scanning model
Sibbald et al. Overseer: a nucleotide sequence searching tool
Hudáky et al. Amino acid conformational analyses of proteins (ACAP program)

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030916

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080926

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080926

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090926

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090926

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100926

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100926

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120926

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120926

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130926

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees