JP2006085437A - Non-redundant biopolymer database production method and server for retrieval service - Google Patents
Non-redundant biopolymer database production method and server for retrieval service Download PDFInfo
- Publication number
- JP2006085437A JP2006085437A JP2004269658A JP2004269658A JP2006085437A JP 2006085437 A JP2006085437 A JP 2006085437A JP 2004269658 A JP2004269658 A JP 2004269658A JP 2004269658 A JP2004269658 A JP 2004269658A JP 2006085437 A JP2006085437 A JP 2006085437A
- Authority
- JP
- Japan
- Prior art keywords
- database
- data
- biopolymer
- databases
- correspondence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、塩基配列、タンパク質配列などの生体高分子データファイルのデータを効率的に検索する方法に関する。 The present invention relates to a method for efficiently searching data in biopolymer data files such as base sequences and protein sequences.
数多くの生体高分子データベースがインターネットで公開されている(例えば、Baxebanis, A.D:Nucl.Acids Res.,28:1-10,2000, "Genetics Databases"(Bishop M.J ed.), Academic Press, Cambridge,1999)。分子生物学を研究対象とする研究者は、これらのデータベースを検索して、自分の研究に関係するデータを取得している。多くの生体高分子データが、データベース間で重複しているため、生体高分子データベースは、重複するデータのIDの対応関係を公開している。
複数のデータベースを横断的に検索したい場合、各データベースの検索用Webページへアクセスし、それぞれのデータベースに対して検索作業を繰り返す必要があり、更に、データベース間で重複するデータがあるため、取得した検索結果から重複を取り除く作業が必要となるため、非常に面倒である。 If you want to search across multiple databases, you need to access the search web page for each database, repeat the search for each database, and there are duplicate data between the databases. Since it is necessary to remove duplicates from the search results, it is very troublesome.
例えば、図11に示すように、データベース801とデータベース802を横断的に検索したい場合、データベース801とデータベース802の両方に検索を行って、得られた検索結果803,804から対応関係805を参照して、重複するデータ806の削除を行い、重複の無い検索結果807を取得する。
For example, as shown in FIG. 11, when searching across the database 801 and the database 802, the database 801 and the database 802 are searched, and the
本発明の目的は、生体高分子データベースを効率的に検索する方法を提供することにある。 An object of the present invention is to provide a method for efficiently searching a biopolymer database.
本発明では、生体高分子データベース間に於けるデータの対応関係を利用することにより、データの重複を取り除き、非冗長な生体高分子データベースを作成し、作成した非冗長な生体高分子データベースを用いて検索を行うようにする。この方法により、同時に複数の生体高分子データベースに対して検索を行ったのと同等な検索を一度で行い、かつ、非冗長な検索結果を得ることができる。 In the present invention, by utilizing the correspondence relationship between the data in the biopolymer database, duplication of data is removed, a non-redundant biopolymer database is created, and the created non-redundant biopolymer database is used. To search. By this method, it is possible to perform a search equivalent to a search performed on a plurality of biopolymer databases at the same time and obtain a non-redundant search result.
本発明によれば、生体高分子データベースを横断的に検索したい場合に、各データベースの検索用Webページへアクセスし、検索作業を繰り返す作業や、取得した検索結果から重複を取り除く作業が不要になるため、データベース検索作業時間を短縮することができる。 According to the present invention, when it is desired to search the biopolymer database cross-sectionally, there is no need to access the search Web page of each database, repeat the search operation, and remove the duplication from the acquired search results. Therefore, the database search work time can be shortened.
以下、本発明を実施する場合の一形態について図面を参照して具体的に説明する。
図1は、本発明による検索サービスの例を示す概略図である。検索サービスセンター111は、記憶装置101を有する検索サービス用サーバ105を備える。検索サービス用サーバ105は、DBデータ取得部121、対応関係取得部122、対応関係テーブル作成部123、非冗長DB作成部124、検索処理部125を有する。
Hereinafter, an embodiment for carrying out the present invention will be specifically described with reference to the drawings.
FIG. 1 is a schematic diagram showing an example of a search service according to the present invention. The search service center 111 includes a
検索サービスセンター111では、データベース間で重複するデータを持つ外部の複数のデータベースA,B,Cのデータを、検索サービスセンター111内の検索サービス用サーバ105の記憶装置101上にダウンロードする。この処理は、検索サービス用サーバ105のDBデータ取得部121によって行われる。また、検索サービス用サーバ105の対応関係取得部122は、データベース間のデータの対応関係に関する情報を取得し、それを対応関係テーブル作成部123に渡す。対応関係テーブル作成部123では、データベース間で重複するデータの対応関係を表す対応関係テーブル130を作成し、記憶装置101に記憶する。その後、ダウンロードしたデータベースA,B,Cのデータから、対応関係テーブル130を利用することにより、データの重複を取り除き103、非冗長な生体高分子データベース104を構築する。この処理は、非冗長DB作成部124によって行う。
The search service center 111 downloads data of a plurality of external databases A, B, and C having data overlapping between the databases onto the storage device 101 of the
検索サービスセンター111は、この非冗長な生体高分子データベース104を用いて、ディスプレイ装置108、演算装置109、キーボード106、マウス110を備えた装置を操作するユーザ(クライアント)に対して、ネットワーク107を介して検索サービスを提供する。この検索サービスは、検索サービス用サーバ105の検索処理部125によって行われる。
The search service center 111 uses the
図2は、データベースA,B,Cに登録されているデータを摸式的に示した図である。図2の例では、データベースAにはデータA1,A4,A5,A7が登録され、データベースBにはデータB2,B4,B6,B7が登録され、データベースCにはデータC3,C5,C6,C7が登録されている。 FIG. 2 is a diagram schematically showing data registered in the databases A, B, and C. In the example of FIG. 2, data A1, A4, A5, A7 are registered in the database A, data B2, B4, B6, B7 are registered in the database B, and data C3, C5, C6, C7 are registered in the database C. Is registered.
図3のフローチャートと図7の工程図を用いて、本発明による非冗長な生体高分子データベースの作成方法について説明する。 A non-redundant biopolymer database creation method according to the present invention will be described with reference to the flowchart of FIG. 3 and the process diagram of FIG.
最初に、検索サービスセンター111内の検索サービス用サーバ105のDBデータ取得部121は、外部の複数の生体高分子データベース、本例ではデータベースA、データベースB、データベースCのデータを、記憶装置101上にダウンロードする(S11)。次に、検索サービス用サーバ105は、データベースA、データベースB、データベースCにアクセスし、対応関係取得部122により各データベース間のデータの対応関係についての情報を取得する。生体高分子データベースには、他の生体高分子データベースのデータとの対応関係を記述した部分があり、対応関係取得部122はその部分のデータを切り出してきて対応関係テーブル作成部123に渡す。対応関係テーブル作成部123では、渡されたデータを整理して、対応関係テーブル130を作成し、記憶装置101に記憶する(S12)。
First, the DB data acquisition unit 121 of the
図4は、こうして作成したデータベース間のデータの対応関係を示す対応関係テーブル130の模式図である。本例では、データベースA−B間のデータの対応関係として、A4とB4、A7とB7、データベースB−C間のデータの対応関係として、B6とC6、B7とC7、データベースC−A間のデータの対応関係として、C5とA5、C7とA7がそれぞれ同等のデータであることが登録されている。 FIG. 4 is a schematic diagram of the correspondence table 130 showing the correspondence of data between databases created in this way. In this example, as data correspondence between databases A-B, A4 and B4, A7 and B7, data correspondence between databases B-C, B6 and C6, B7 and C7, and database C-A As data correspondence, it is registered that C5 and A5 and C7 and A7 are equivalent data.
図5は、生体高分子データベース間のデータの対応関係の具体例を示す図である。図5は、NCBI(National Center for Biotechnology Information)が公開しているUniGeneデータベースとGenBankデータベースの対応関係である。生体高分子データベースのデータベース間のデータの対応関係はこのような形式で公開されている。データはタブ区切りで、1行が1レコードを表す。第1列301がUniGeneのIDを表し、第4列302がそのUniGeneのデータに対応するGenBankのIDを表している。例えば、UniGeneのHs.103504(303)をIDとするデータは、GenBankの AF061055(304)をIDとするデータと対応している。これらのデータを抽出することでデータベース間のデータの対応関係を取得することができる。
FIG. 5 is a diagram showing a specific example of data correspondence between biopolymer databases. FIG. 5 shows the correspondence between the UniGene database and the GenBank database published by NCBI (National Center for Biotechnology Information). The data correspondence between the biopolymer databases is disclosed in such a format. The data is tab-delimited and one line represents one record. The first column 301 represents the UniGene ID, and the
この後の処理は、検索サービス用サーバ105の非冗長DB作成部124によって行われる。非冗長DB作成部124は、オペレータからの優先度付けの指示の入力に基づき、まずデータベースA、データベースB、データベースCに優先度をつける。この優先度は任意で付けてかまわない。ここでは、図6に示したように、データベースA、データベースB、データベースCの順で優先度に高いスコアを付けたとする(ステップ13)。次に、優先度の高いデータベースから順に(ステップ14)、自分より優先度の高いデータベースとのデータの対応関係がないデータを取得する(ステップ15)。ステップ14からステップ15の処理を反復することで、非冗長DB104が作成される。
The subsequent processing is performed by the non-redundant DB creation unit 124 of the
ステップ14,15の処理を図7により説明する。最初に、図7(a)に示すように、優先度のスコアの最も高いデータベースAからデータを取得する。データベースAより優先度の高いデータベースはないので、データベースAからはすべてのデータ、A1,A4,A5,A7を取得する。次に、図7(b)に示すように、優先度のスコアが2番目のデータベースBからデータを取得する処理に移る。データベースBはデータベースAより優先度が低いので、データベースBからはデータベースAとの対応関係を持たないデータ、B2,B6を取得する。重複データの確認には図4に示したデータベース間のデータの対応関係を表す対応関係テーブル130を用いる。ここで、図7中の点線はデータが重複していることを示す。最後に、図7(c)に示すように、一番優先度の低いデータベースCからデータを取得する処理を行う。データベースCはデータベースA及びデータベースBより優先度が低いので、データベースCからはデータベースA及びデータベースBとの対応関係を持たないデータ、C3を取得する。このときも、重複データの確認には図4に示した対応関係テーブルを用いる。このようにして、データA1,B2,C3,A4,A5,B6,A7をもつ非冗長なデータベース104が作成される。
The processing of steps 14 and 15 will be described with reference to FIG. First, as shown in FIG. 7A, data is acquired from the database A having the highest priority score. Since no database has a higher priority than the database A, all data A1, A4, A5 and A7 are acquired from the database A. Next, as shown in FIG. 7B, the process moves to a process of acquiring data from the database B having the second priority score. Since the database B has a lower priority than the database A, the
図8は、検索サービスセンター111内の検索サービス用サーバ105に対する検索の概念図である。図8に示すように、ユーザ906は重複のあるデータベース901及び902から重複を除いて作成した非冗長データベース903に対して、ネットワーク904を通して検索が行えるため、重複のない検索結果905を得ることができる。ユーザによる検索キーワードの入力には、図9に示すようなグラフィカルユーザインターフェイスを用いる。ユーザがテキストボックス401に、検索したいキーワード403を入力し、検索開始ボタン402を押下することで検索が開始され、入力されたキーワードに関連するデータが図10に示すように一覧表示される。一覧にはそのデータを抽出したデータベース名501、データのID502、データの要約503が表示される。データのID502をクリックすることでデータの詳細を表示することができる。
FIG. 8 is a conceptual diagram of a search for the
101…記憶装置、103…重複の除去作業、104…非冗長な生体高分子データベース、105…検索サービス用サーバ、107…ネットワーク、111…検索サービスセンター、121…DBデータ取得部、122…対応関係取得部、123…対応関係テーブル作成部、124…非冗長DB作成部、125…検索処理部、130…対応関係テーブル、301…UniGene ID、302…GenBank ID、303…重複するUniGene ID、304…重複するGenBank ID、401…テキストボックス、402…検索開始ボタン、403…キーワード、501…データを抽出したデータベース名、502…データのID、503…データの要約、903…非冗長な生体高分子データベース、904…ネットワーク、905…重複のない検索結果 DESCRIPTION OF SYMBOLS 101 ... Memory | storage device, 103 ... Duplication removal work, 104 ... Non-redundant biopolymer database, 105 ... Server for search service, 107 ... Network, 111 ... Search service center, 121 ... DB data acquisition part, 122 ... Correspondence Acquisition unit, 123 ... correspondence table creation unit, 124 ... non-redundant DB creation unit, 125 ... search processing unit, 130 ... correspondence table, 301 ... UniGene ID, 302 ... GenBank ID, 303 ... duplicate UniGene ID, 304 ... Duplicate GenBank ID, 401 ... text box, 402 ... search start button, 403 ... keyword, 501 ... database name from which data was extracted, 502 ... data ID, 503 ... data summary, 903 ... non-redundant biopolymer database , 904 ... Network, 905 ... Search results without duplication
Claims (2)
前記複数の生体高分子データベースからデータベース間に於けるデータの対応関係の情報を取得し、対応関係テーブルとして記憶装置に記憶するステップと、
前記複数の生体高分子データベースに優先度をつけるステップと、
前記記憶装置に記憶した複数の生体高分子データベースに対し、優先度の高いデータベースから順に、自分より優先度の高いデータベースのデータとの対応関係が前記対応関係テーブルに登録されていないデータを取得する処理を反復するステップと
を含むことを特徴とする非冗長な生体高分子データベースを作成する方法。 Storing data in a plurality of biopolymer databases having data overlapping between the databases for each database and storing them in a storage device;
Obtaining information on the correspondence between the databases from the plurality of biopolymer databases, and storing it in a storage device as a correspondence table;
Prioritizing the plurality of biopolymer databases;
For the plurality of biopolymer databases stored in the storage device, in order from the database with the highest priority, data whose correspondence with the data of the database with a higher priority than itself is not registered in the correspondence table is acquired. A method for creating a non-redundant biopolymer database, comprising: repeating the process.
前記複数の生体高分子データベースからデータベース間に於けるデータの対応関係の情報を取得する対応関係取得部と、
前記対応関係取得部で取得した情報を整理してデータベース間で重複するデータの対応関係を表す対応関係テーブルを作成する対応関係テーブル作成部と、
前記対応関係テーブルを参照して、前記記憶装置に記憶した複数の生体高分子データベースのデータからデータの重複を取り除き、非冗長な生体高分子データベースを作成する非冗長DB作成部とを備えることを特徴とする検索サービス用サーバ。 DB data acquisition unit that acquires data from a plurality of external biopolymer databases, distinguishes each database and stores it in a storage device,
A correspondence acquisition unit that acquires information on data correspondence between the plurality of biopolymer databases; and
A correspondence table creating unit that organizes the information obtained by the correspondence obtaining unit and creates a correspondence table that represents the correspondence of overlapping data between databases;
A non-redundant DB creating unit that creates a non-redundant biopolymer database by removing duplication of data from a plurality of biopolymer database data stored in the storage device with reference to the correspondence table. Characteristic search service server.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004269658A JP2006085437A (en) | 2004-09-16 | 2004-09-16 | Non-redundant biopolymer database production method and server for retrieval service |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004269658A JP2006085437A (en) | 2004-09-16 | 2004-09-16 | Non-redundant biopolymer database production method and server for retrieval service |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006085437A true JP2006085437A (en) | 2006-03-30 |
Family
ID=36163897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004269658A Pending JP2006085437A (en) | 2004-09-16 | 2004-09-16 | Non-redundant biopolymer database production method and server for retrieval service |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006085437A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016534426A (en) * | 2013-10-10 | 2016-11-04 | カルガリー・サイエンティフィック・インコーポレイテッドCalgary Scientific Inc. | Method and system for high-throughput archive retrieval in multiple storage systems |
-
2004
- 2004-09-16 JP JP2004269658A patent/JP2006085437A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016534426A (en) * | 2013-10-10 | 2016-11-04 | カルガリー・サイエンティフィック・インコーポレイテッドCalgary Scientific Inc. | Method and system for high-throughput archive retrieval in multiple storage systems |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5671557B2 (en) | System including client computing device, method of tagging media objects, and method of searching a digital database including audio tagged media objects | |
JP3655714B2 (en) | Information filtering apparatus and recording medium | |
US20070094245A1 (en) | Computer-implemented system and method for obtaining customized information related to media content | |
EP1515239A1 (en) | Method and System for handling data extracted from multidimensional databases using a spreadsheet | |
JP2006285513A (en) | Information processing support system, and information processing support program | |
JP5219890B2 (en) | Product information providing apparatus, product information providing method and program | |
JPH11161670A (en) | Method, device, and system for information filtering | |
JP4333184B2 (en) | Electronic data management system | |
JP2009211603A (en) | Document search system | |
JP2003316796A (en) | Hierarchical clustering device, hierarchical clustering method, hierarchical clustering program and hierarchical clustering system | |
JP2006085437A (en) | Non-redundant biopolymer database production method and server for retrieval service | |
JP4309497B2 (en) | Information search apparatus and information search method | |
JP2001265760A (en) | Device and method for managing document history | |
JP2006243981A (en) | Document management program, document management method and document management device | |
JP2013145508A (en) | Graph pattern matching system and graph pattern representative origin extraction method | |
JP2004178150A (en) | Integrated production management method and system by production process management chart | |
JP2004272492A (en) | Method for retrieving/displaying web site | |
JP2007183819A (en) | Document file search system | |
JP2002245065A (en) | Document processor, document processing method, program and recording medium | |
JP3933407B2 (en) | Document processing apparatus, document processing method, and storage medium storing document processing program | |
JP4455068B2 (en) | Information retrieval system | |
JP2000322167A (en) | Data management system and method for displaying data attribute | |
JP2006164045A (en) | Cooccurrence graph creation method, device, program, and storage medium storing program | |
JP6692778B2 (en) | File system, file system control program, and file system control method | |
JP2014067348A (en) | Comment display system for news headline general service |