JP2002351908A - データベース検索装置、データベース検索システム、データベース検索方法、プログラム及び記憶媒体 - Google Patents

データベース検索装置、データベース検索システム、データベース検索方法、プログラム及び記憶媒体

Info

Publication number
JP2002351908A
JP2002351908A JP2001145684A JP2001145684A JP2002351908A JP 2002351908 A JP2002351908 A JP 2002351908A JP 2001145684 A JP2001145684 A JP 2001145684A JP 2001145684 A JP2001145684 A JP 2001145684A JP 2002351908 A JP2002351908 A JP 2002351908A
Authority
JP
Japan
Prior art keywords
database
sequence
array
search
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001145684A
Other languages
English (en)
Other versions
JP3871301B2 (ja
Inventor
Tetsuro Shibuya
哲朗 渋谷
Hisatsugu Kajima
久嗣 鹿島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2001145684A priority Critical patent/JP3871301B2/ja
Priority to US10/146,342 priority patent/US6928437B2/en
Publication of JP2002351908A publication Critical patent/JP2002351908A/ja
Application granted granted Critical
Publication of JP3871301B2 publication Critical patent/JP3871301B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 データベース側に何ら特殊な処理を要求する
ことなく、データベース所持者やネットワークの途中で
データベース検索を観察する者に対して、クエリーの内
容を知られずに、データベース検索を行うことが可能な
検索方法を提供する。 【解決手段】 配列パターンを蓄積したデータベースサ
ーバ10にアクセスし、このデータベースサーバ10に
蓄積されている配列パターンが所定の配列中に存在する
かを問い合わせるクライアント20において、検索対象
である検索配列を分割して複数の部分配列を作成する配
列加工部21と、この配列加工部21により作成された
複数の部分配列のそれぞれを問い合わせ配列としてデー
タベースサーバ10に対しクエリーを発行するクエリー
発行部22とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データベース検索
方法に関し、特にクエリーを発行するクライアント以外
には検索対象を隠蔽することができるデータベース検索
方法に関する。
【0002】
【従来の技術】近年、DNAなどの多くの遺伝子情報が
解読され、その成果が、モチーフデータベースなど、様
々な公開データベースに蓄積されている。そして、新し
く得られたDNAの解析結果などに関して、これらのデ
ータベースを利用して関連情報の検索が行われる。
【0003】例えば、モチーフデータベースは、DNA
や蛋白質における機能と関連した様々なパターンを集め
たデータベースである。このデータベースには、 A..T..ATAT...CGATGA (. は任意の文字を表す) A..[AT]..ATCG.A ([AT] はAまたはTを表す) のようなパターンが蓄積されている。したがって、DN
Aの解析結果を照合することにより、当該解析結果中に
どのようなパターンが含まれているか、すなわち、当該
解析結果にかかるDNAがどのような機能を持っている
かを検索することができる。
【0004】一方、このようなデータベース検索におい
ては、データベースに対するクエリー(query:問い合
わせ)に個人情報や研究開発上の機密性の高い情報など
が含まれる場合があり、その漏洩が懸念される。従来、
このデータベース検索における情報の漏洩を防止する対
策としては、クエリーにかかるデータを暗号化する方法
や、Private Information Retrievalという検索手法な
どが知られていた。
【0005】
【発明が解決しようとする課題】上述したように、公開
されたデータベースを用いてデータベース検索を行う場
合、クエリーに含まれる情報が漏洩する可能性があり、
これを効果的に防止する手段が望まれている。
【0006】情報の漏洩を防ぐ方法の一つである暗号化
されたデータを用いた検索方法は、暗号化したデータを
含むクエリーをデータベースに送り、データベースにお
いて当該暗号化されたデータをデコードした後に検索処
理を行い、結果を返す方法である。そして、暗号化には
様々な手法が存在している。しかしながら、この方法
は、データベースにおいて暗号化されたデータをデコー
ドする機能を持たなければならないため、導入に手間を
要する。また、データベースの所持者は、クエリーの内
容を知ることができるため、情報が漏洩する可能性が残
る。
【0007】また、Private Information Retrieval
は、データベースに対して、当該データベースにおける
どのエントリーを知りたいかを知らせずにクエリーを発
行する方法である。したがって、この方法によれば、情
報理論的な安全性が理論的に保証され、情報の漏洩を完
全に防止できる。しかしながら、この方法は、処理手順
の中にデータベースにおける特殊な動作を含むため、デ
ータベースをこの方法による検索に対応させて構築する
ことが必要となる。このため、導入に多大な手間を要す
る。また、この方法による安全性の保証に不可欠な部分
として、データベースが全てのエントリーを1回ずつ見
るという動作が含まれるため、巨大なデータベースにお
いては多大な検索時間を要することとなり、現実的では
ない。さらにまた、データシークエンスのマッチングに
不可欠な曖昧さを許した検索ができないといった不都合
もある。
【0008】そこで、本発明は、データベース側に何ら
特殊な処理を要求することなく、データベース所持者や
ネットワークの途中でデータベース検索を観察する者に
対して、クエリーの内容を知られずに、データベース検
索を行うことが可能な検索方法を提供することを目的と
する。
【0009】
【課題を解決するための手段】上記の目的を達成する本
発明は、配列パターンを蓄積したデータベースにアクセ
スし、このデータベースに蓄積されている配列パターン
が所定の配列中に存在するかを問い合わせるデータベー
ス検索装置において、検索対象である検索配列を分割し
て複数の部分配列を作成する配列加工部と、この配列加
工部により作成された複数の部分配列のそれぞれを問い
合わせ配列としてデータベースに対しクエリーを発行す
るクエリー発行部とを備えることを特徴とする。
【0010】ここで、この配列加工部は、データベース
に蓄積された配列パターンの長さに応じて、所定の長さ
の配列要素を重複させてこの複数の部分配列を作成する
ことができる。このように重複部分を持たせることによ
り、データベース検索において部分配列を跨いで存在す
る配列パターンの検出を落とすことを防止できる。
【0011】また、この配列加工部は、この検索配列の
後端部分の配列要素と、この検索配列の前端部分の配列
要素とを接続した配列を作成し、この部分配列に追加す
ることができる。このような配列を追加し、部分配列と
共にクエリーを発行することにより、元の検索配列を知
らない者が部分配列から元の検索配列を復元しようとし
ても、どの部分配列が先頭であるかわからないため、デ
ータベース検索における検索配列の機密性を高めること
ができる。
【0012】さらに、この配列加工部は、この検索配列
に関するデータベース検索には寄与しないダミー配列を
作成し、この部分配列に追加することができる。このダ
ミー配列としては、複数の部分配列における重複部分を
混在させた配列や、部分配列と同様の重複部分を持ちか
つ重複しない部分に任意の配列要素を挿入した配列、任
意の配列要素で構成され部分配列と共通の長さの配列な
どを用いることができる。
【0013】また、本発明のデータベース検索装置は、
次のように構成することができる。すなわち、このデー
タベース検索装置は、検索対象である検索配列に任意の
配列を接続する配列加工部と、この配列加工部により複
数の配列を接続して得られた配列を問い合わせ配列とし
てデータベースに対しクエリーを発行するクエリー発行
部とを備えることを特徴とする。ここで、検索配列に接
続する配列は、他の検索配列であっても良いし、意味の
ないダミー配列であっても良い。複数の配列を接続する
ことによって、データベース検索における本来の目的で
ある検索配列を隠蔽することができる。
【0014】さらに、この配列加工部は、この検索配列
に任意の配列を接続して得られた配列を分割して複数の
部分配列を作成することができる。この場合、クエリー
発行部は、この複数の部分配列を問い合わせ配列として
このデータベースに対しクエリーを発行する。複数の配
列を接続した後に分割することにより、元の検索配列を
復元することが一層困難になる。
【0015】さらにまた、本発明のデータベース検索装
置は、次のような構成とすることができる。すなわち、
このデータベース検索装置は、検索対象である検索配列
を、この検索配列の所定の部分ごとに複数回にわたって
データベースへの問い合わせを行う問い合わせ手段と、
このデータベースから検索結果を受け取り、検索配列に
対する検索結果に相当する情報を抽出する情報抽出手段
とを備えることを特徴とする。
【0016】ここで、この問い合わせ手段は、データベ
ースに蓄積された配列パターンの長さに応じて、所定の
長さの配列要素を重複させながらこの検索配列の部分を
切り出し、この切り出された部分ごとに前記データベー
スへの問い合わせを行うことができる。
【0017】また、本発明は、コンピュータを制御し、
上述したデータベース検索装置における各構成要素とし
て動作させるプログラムとすることができる。このプロ
グラムは、磁気ディスクや光ディスク、半導体メモリ、
その他の記憶媒体に格納して配布したり、プログラム伝
送装置の記録装置に格納しネットワークを介して配信し
たりすることにより提供することができる。
【0018】さらに、本発明は、次のように構成された
ことを特徴とするデータベース検索システムを提供する
ことができる。このデータベース検索システムは、ネッ
トワーク上に設けられ所定の配列パターンを蓄積したデ
ータベースサーバと、このネットワークを介してこのデ
ータベースサーバに対し検索の問い合わせを行うクライ
アントとを備え、このクライアントは、検索対象である
検索配列を分割し、分割により得られた個々の配列に関
するクエリーをこのデータベースサーバに対して送信
し、このデータベースサーバは、このクライアントから
受信したクエリーに対するデータベース検索を行い、検
索結果をこのクライアントに返送する。
【0019】また、本発明は、配列パターンを蓄積した
データベースにアクセスし、このデータベースに蓄積さ
れている配列パターンが所定の配列中に存在するかを問
い合わせるデータベース検索方法において、検索対象で
ある検索配列を分割して複数の部分配列を作成するステ
ップと、作成されたこの複数の部分配列のそれぞれを問
い合わせ配列としてデータベースに対しクエリーを発行
するステップと、このデータベースから受信したこのク
エリーに対する検索結果に基づいて、この検索配列に対
する検索結果に相当する情報を抽出するステップとを含
むことを特徴とする。
【0020】さらに、このデータベース検索方法は、こ
のクエリーを発行するステップに先立って、検索配列に
関するデータベース検索には寄与しないダミー配列を作
成するステップを含み、このクエリーを発行するステッ
プは、前記ダミー配列を問い合わせ配列として前記デー
タベースに対しクエリーを発行するステップを含むこと
ができる。
【0021】また、この部分配列を作成するステップ
は、検索配列の分割に先立って、この検索配列に任意の
配列を接続して新たな配列を作成するステップと、作成
されたこの新たな配列を分割して複数の部分配列を作成
するステップとを含む構成とすることができる。
【0022】
【発明の実施の形態】以下、添付図面に示す実施の形態
に基づいて、この発明を詳細に説明する。本実施の形態
は、ある程度の長さを持つ配列の中から特定の配列やパ
ターンを検出するようなデータベース検索を行う。すな
わち、データベースには、クエリーにかける配列(以
下、問い合わせ配列と称す)に比べて十分に短い配列ま
たはパターンが格納されており、当該問い合わせ配列中
に、データベースに格納されている配列やパターンと同
一または類似する配列、パターンが存在するかどうかを
調べるような検索である。具体的には、例えば、DNA
の塩基配列を問い合わせ配列とし、遺伝子のモチーフデ
ータベースに蓄積された塩基配列のパターンを検出する
場合などが該当する。一般的に、遺伝子のモチーフデー
タベースにおけるモチーフの長さは4〜40bp程度で
あり、検索にかける問い合わせ配列は、1kbp〜数M
bpであるので、妥当な設定と言える。
【0023】図1は、本実施の形態によるデータベース
検索を行うデータベース検索システムの構成を示す図で
ある。図1に示すように、本実施の形態のデータベース
検索システムは、インターネットなどのネットワーク3
0上に設けられたデータベースサーバ10と、ネットワ
ーク30を介してデータベースサーバ10にアクセスし
検索を行うデータベース検索装置としてのクライアント
20とを備える。
【0024】データベースサーバ10は、ワークステー
ションやパーソナルコンピュータなどのコンピュータ装
置にて実現され、本実施の形態における検索を行うため
のデータベース11を備える。ここで、本実施の形態に
て用いられるデータベース11について説明する。上述
したように、本実施の形態では、ある程度の長さを持つ
配列の中から特定の配列やパターンを検出する。したが
って、データベース11にはこの特定の配列やパターン
が格納されている。例えば、次のようなデータベースが
考えられる。 (a)配列データベース 比較的短い配列を集めたデータベース。例えば、DN
A、RNA、蛋白質などにおけるプロモーター配列のデ
ータベースなどが該当する。 (b)モチーフデータベース DNAや蛋白質における機能と関連した様々なパターン
(モチーフ)を集めたデータベース。このデータベース
には、 A..T..ATAT...CGATGA (. は任意の文字を表す) A..[AT]..ATCG.A ([AT] は A または T を表す) のようなパターンが蓄積されている。 (c)マトリックスデータベース ある長さの区間で、それぞれの位置における各塩基の出
現確率を行列で表し、そのパターンを集めたデータベー
ス。図16に、マトリックスデータベースの中のパター
ンの例を示す。 (d)HMMデータベース 隠れマルコフモデル(Hidden Markov Model)で表現し
たモチーフを集めたデータベース。ただし、本実施の形
態に用いるには長さに上限があるようなものが好まし
い。
【0025】図2は、図1に示したクライアント20の
構成を説明する図である。上記のようなデータベースサ
ーバ10にアクセスするクライアント20は、ワークス
テーションやパーソナルコンピュータなどのコンピュー
タ装置で実現され、検索対象である配列(検索配列)を
加工して問い合わせ配列を作成する配列加工部21と、
データベースサーバ10へのクエリーを発行するクエリ
ー発行部22と、クエリー発行部22から発行されたク
エリーに対する検索結果をデータベースサーバ10から
受け取り必要な情報を抽出する情報抽出部23とを備え
る。図2に示す配列加工部21、クエリー発行部22及
び情報抽出部23は、コンピュータプログラムにより制
御されたCPUにて実現される仮想的なソフトウェアブ
ロックである。CPUを制御する当該コンピュータプロ
グラムは、CD−ROMやフロッピー(登録商標)ディ
スクなどの記憶媒体に格納して配布したり、ネットワー
クを介して伝送したりすることにより提供される。
【0026】配列加工部21は、検索配列を入力し、加
工する。ここで、配列加工部21は、データベースサー
バ10においても、ネットワーク30の途中で当該クエ
リーまたはその回答を観察する者に対しても、加工前の
本来の検索配列を知ることができないように加工する。
具体的な加工方法については口述する。
【0027】クエリー発行部22は、配列加工部21に
より加工された検索配列を問い合わせ配列としてクエリ
ーを生成し、ネットワーク30を介してデータベースサ
ーバ10に問い合わせを行う。
【0028】情報抽出部23は、クエリー発行部22か
ら発行されたクエリーに対するデータベースサーバ10
からの回答を受け付けて解析し、元の検索配列に対する
検索結果に相当する情報を抽出して出力する。元の検索
配列に対する検索結果は、クエリー発行部22における
検索配列の加工方法に応じた手法でデータベースサーバ
10からの回答を解析処理することにより得られる。
【0029】次に、配列加工部21による検索配列の加
工方法について、詳細に説明する。 (1)検索配列の分割 検索配列を適当な長さの複数の配列に分割し、得られた
部分配列に関して個別にデータベース検索を行うことに
より、元の検索配列を隠すことができる。具体的な問い
合わせ配列の分割方法を次に説明する。まず、所定の配
列あるいはパターンに対する全一致検索を行う場合は、
データベースサーバ10のデータベース11に蓄積され
ている配列あるいはパターンのうちで最長の配列あるい
はパターンの長さをmとする。ホモロジー検索を行う場
合は、許されるホモロジーを持つ配列における類似する
部分の長さの最大値を考えることができるので、その長
さをmとする。そして、データベース検索を行おうとす
る配列(文字列)をS[0..n] とし、次のように分割す
る。 S= A1 B1 A2 B2 A3 B3 ... Ak-1 Bk-1 Ak ただし、Ai、Bi(i=1,2,3,...,k-1,k)は共に配列Sの
配列要素である部分文字列であって、Aiは長さm−1以
上の部分文字列、Biは任意の長さ(空配列でも可)の部分
文字列とする。このように分割した配列Sに関して、 C1= A1 B1 A2 C2= A2 B2 A3 ... Ck-1= Ak-1 Bk-1 Ak として、C1,...,Ck-1のk-1個の配列を問い合わせ配列と
してデータベース検索を行う。すなわち、先頭部分と最
後尾とにおいて、データベース11中の所定の配列また
はパターンを含むだけの長さの文字列を重複させた一連
の問い合わせ配列に関して、データベース検索を行うこ
とになる。これにより、配列Sについてデータベース検
索を行った場合と同じ検出結果を得ることができる。図
3は、配列Sと配列C1,...,Ck-1との関係を示す図であ
る。なお、この配列C1,...,Ck-1の問い合わせにおける
クエリー量は、最大で(全ての部分文字列B1,...,Bk-1
が空集合である場合)、高々、元の配列Sをそのままデ
ータベース検索する場合の倍の文字数である。
【0030】このように、データベース検索しようとす
る配列を一定の条件を満足するように分割し、得られた
部分配列を新たな問い合わせ配列として個別にデータベ
ース検索することにより、個々のデータベース検索から
本来の検索目的である元の問い合わせ配列を知られるこ
となく、当該元の配列に関するデータベース検索と同様
の結果を得ることができる。しかしながら、この場合で
あっても、各部分配列に対するデータベース検索のクエ
リーに関する情報を全て集めれば、データベース11の
所持者やネットワーク30上の観察者において、元の配
列を構築することが可能である。したがって、機密性が
完全に保持されているとは言えない。そこで、本実施の
形態では、上記のように分割した問い合わせ配列をさら
に加工する。
【0031】(2)問い合わせ配列の先頭を隠す配列の
追加 上述した元の配列Sを分割して得られた部分配列に基づ
く問い合わせ配列C1,...,Ck-1と共に、 Ck= Ak Bk A1 という配列を問い合わせ配列としてデータベース検索を
行う。ここで、文字列Bkは、空配列を含むどのような配
列でも良い。図4は、図3に示した問い合わせ配列C
1,...,Ck-1に問い合わせ配列Ckを付加した様子を示す図
である。これは、問い合わせ配列として、元の配列Sに
おける最後尾を先頭につなげるような部分配列を追加す
ることを意味する。この追加により、クエリーに関する
情報からk個の問い合わせ配列を全て集めても、どの問
い合わせ配列が元の配列Sの先頭に当たるのかが分から
なくなる。したがって、データベース11の所持者やネ
ットワーク30上の観察者が元の配列Sを構築すること
は困難になる。ただし、この場合であっても、問い合わ
せ配列中の文字列Aiのうちに要素が同一の文字列が無い
場合、各問い合わせ配列の並ぶ順番は特定できるので、
各問い合わせ配列を先頭とする配列を全て構築すれば、
その中に元の配列Sが含まれることとなる。
【0032】(3)配列の付加 元の配列Sの文字列において、全てのAp, Aq(p+1 !=
q)に対して次のような配列Dp,qを考える。 Dp,q= Ap Ep,q Aq ただし、Ep,qは、空配列を含む任意の配列である。ま
た、この配列Dp,qの個数は、k(k−1)となる。図5
は、配列Sにおける部分文字列A1,...,Akのうち、部分
文字列A1に関する上述した配列D1,q(= A1 E1,q Aq)
を示す図である。データベースサーバ10に対してクエ
リーを発行する際に、問い合わせ配列として、(1)に
おいて元の配列Sを分割して得られた配列C1,...,Ck-1
に、上記の配列Dp,qを加える。これにより、問い合わせ
配列中の文字列Aiのうちに要素が同一の文字列が無い場
合であっても、各問い合わせ配列を並べて構築される配
列はk!通り以上という膨大な数になる。したがって、
kの値が十分に大きければ、元の配列Sを復元すること
はほぼ不可能である。なお、問い合わせ配列中の文字列
Aiのうちに要素が同一の文字列が有る場合は、元の配列
Sの復元が一層困難となることは言うまでもない。
【0033】ここで、問い合わせ配列として追加する付
加配列の数は、上述の手法ではk(k−1)個とした
が、付加配列を適当に間引いても良い。例えば、次のよ
うな配列Fpを加えることによっても、上記の配列Dp,qを
付加する場合と同様に、元の配列Sの復元を困難にさせ
ることができる。 Fp= Ap Gp Ap+2 (ただし、p+2>kならばAp+2はAp+2-kを表す。Gpは任意
の配列) この場合、問い合わせ配列中の文字列Aiのうちに要素が
同一の文字列が無いならば、各問い合わせ配列を並べて
構築される配列は2(k-2)/2通りとなり、kの値が十分
に大きければ、元の配列Sを復元することは極めて困難
となる。
【0034】(4)別配列の付加 元の配列Sの文字列Apにおいて、全てのpに対し、次の
ような配列Hpを考える。 Hp= ApB'pAp+1 (ただし、B'pはBpとは異なる任意の配列) すなわち、元の配列Sとは関係のない配列をダミーとし
てクエリーの中に含ませる。これにより、問い合わせ配
列中の文字列Aiのうちに要素が同一の文字列が無い場
合、各問い合わせ配列を並べて構築される配列は2k/2
通り以上となる。したがって、kの値が十分に大きけれ
ば、元の配列Sを復元することは極めて困難となる。
【0035】(5)複数の問い合わせ配列の接続 データベース検索を行おうとする配列が複数ある場合
は、これらの問い合わせ配列を接続して1つの配列と
し、この配列に対して上述した(1)乃至(4)の手法
を適用することができる。例えば、データベース検索を
行おうとする配列が配列Sと配列Tである場合、これら
を接続した配列S+Tとする。そして、この配列S+T
に対し、分割や配列の付加といった処理を行って複数の
問い合わせ配列を作成し、クエリーを発行する。ただ
し、この場合、(1)の手法により配列S+Tを分割し
た境界を含む部分配列は、配列Sに対する検索結果と配
列Tに対する検索結果の両方を含む可能性がある。した
がって、配列S及び配列Tに対する正しい検索結果を取
得するためには、検索結果を取得後、配列Sに対する検
索結果と配列Tに対する検索結果とを分離する後処理を
行う必要がある。本手法の場合、複製の問い合わせ配列
を合成し処理することにより、元の配列S+Tが復元で
きたとしても、この配列自体には意味がない(意味があ
る配列は配列S及び配列Tであり、これらを接続して配
列S+Tが作成されたことは、データベース11の所持
者やネットワーク30上の観察者には知り得ない)。し
たがって、クエリーの発行者がデータベース検索を行お
うとした配列S、Tの機密性を一層向上させることがで
きる。さらに、この手法を一般化し、データベース検索
を行おうとする配列Sに対して任意のダミー配列T、U
を用意して接続し、配列T+S+Uを作成した後、上記
の(1)乃至(4)の手法を用いて問い合わせ配列を作
成することも可能である。また、複数の配列を接続して
作成された新たな配列から元の配列Sを検出できない場
合には、(1)乃至(4)の手法を用いることなく、こ
の新たな配列を問い合わせ配列として用いてクエリーを
発行することもできる。
【0036】以上説明した、データベース検索を行おう
とする配列を隠蔽するための各手法は、(1)の手法に
より配列を分割することを基本として、(2)乃至
(5)の各手法を任意に組み合わせて用いることができ
る。また、(1)の手法により配列を分割する際、元の
配列Sに長さm-1以上の全く同じ部分文字列が含まれて
いる場合、かかる部分文字列を上述した文字列Aiの部分
として選ぶことができる。これにより、作成された複数
の問い合わせ配列の中に、端部の文字列が同一である複
数の問い合わせ配列が含まれることとなる。このように
すれば、複数の問い合わせ配列を合成して作成される配
列の種類が大幅に増加するため、元の配列Sを復元する
ことがより一層困難となる。
【0037】次に、本実施の形態によるデータベース検
索の動作について、具体的な例を挙げて説明する。図6
は、データベースサーバ10への問い合わせ手段である
図2に示した配列加工部21及びクエリー発行部22
が、検索配列に対して上述した加工を行い、クエリーを
発行する動作を説明するフローチャート、図7は、デー
タベースサーバ10からの回答である検索結果を受信し
た情報抽出部23の動作を説明するフローチャートであ
る。また、図8は、蛋白質のパターンを複数含むデータ
ベース11の例である。図8に示すような蛋白質のパタ
ーンはモチーフとも呼ばれる。図示のパターンの中で、
「.」にはいずれの文字が入っても良い。図8に示した
データベース11に対し、任意の蛋白質配列をクエリー
としてデータベース検索を行った場合に、当該クエリー
にかかる配列(問い合わせ配列)に含まれるデータベー
ス11中のパターンの全てを回答するような検索システ
ム(データベースサーバ10)を考える。例えば、 TAAELCTLVIALGA という蛋白質配列を問い合わせ配列としてデータベース
サーバ10に対してクエリーすると、図8のデータベー
ス11中の A..L..L.IAL というパターンが、この配列の2文字目から現れる。し
たがって、データベースサーバ10は、このパターンを
検索結果として返すこととなる。
【0038】図9は、大腸菌の蛋白質(アクセッション
番号 gi2982763)の配列を示す図である。ここで、図9
に示す蛋白質配列を問い合わせ配列として、図8に示し
たデータベース11を持つデータベースサーバ10に対
して、クエリーを発行する場合を考える。図10は、こ
のようなクエリーに対するデータベースサーバ10の回
答(検索結果)を示す図である。図10に示すように、
図9の蛋白質配列を問い合わせ配列としたクエリーに対
し、データベースサーバ10は、図8のデータベース1
1に基づいて18個のパターンを返す。
【0039】本実施の形態において、クライアント20
は、上記のようなデータベース検索を行いたい場合に、
上述した(1)〜(5)の手法を用いて図9に示した配
列を加工し、加工後の配列を問い合わせ配列としてデー
タベースサーバ10に対してクエリーを発行する。図6
のフローチャートを参照すると、クライアント20の配
列加工部21は、まず検索配列である図9の蛋白質配列
を入力し(ステップ601)、(1)の手法に示したよ
うにこの蛋白質配列を分割する(ステップ602)。こ
の際、配列の分割に先立って、(5)の手法に示したよ
うに、他の検索配列やダミー配列を接続し、その後に配
列の分割を行うことができる。次に、配列加工部21
は、必要に応じてさらに(2)(3)(4)の手法に示
したダミーの配列を作成し、ステップ602で分割され
た複数の配列に追加する(ステップ603)。図11
は、図9に示した蛋白質配列に対して加工を施した例を
示す図である。図11に示す例では、図9の配列を、3
0塩基ずつ重複した長さ60の配列に分割する。図11
において、各配列の後半の下線を付した部分が、次の配
列における前半の下線を付していない部分と重複してい
る。さらにここでは、配列7)が最後の配列であること
を識別できないように、ランダムな文字列(図11の例
では「HRRAMK」)を付加して長さを60に揃えている。
なお、配列を加工する(1)の手法に関して上述したよ
うに、データベース11に蓄積されているパターンのう
ちで最長のものの長さをmとした場合に、重複部分Aiの
長さはm−1以上である。すなわち、ここでは、図8に
示したデータベース11において、m≦31であること
を想定している。また、ここでは全ての配列において部
分文字列Biを空配列とし、各配列の長さを60に揃えた
が、部分文字列Biをランダムに設定することにより、各
配列の長さを不揃いにすることもできる。このようにす
れば、配列7)の後尾に意味のない文字列を付加しなく
ても、配列7)が最後の配列であることを識別できない
ようにすることができる。
【0040】次に、クエリー発行部22は、配列加工部
21により作成された図11に示す配列1)〜7)をそ
れぞれ問い合わせ配列としてクエリーを作成し、データ
ベースサーバ10に送信する(ステップ604)。な
お、作成された複数の問い合わせ配列の全てについての
クエリーをまとめて送信しても良いし、何回かに分けて
送信しても良い。データベースサーバ10では、クライ
アント20から受信した複数のクエリーによる問い合わ
せ配列に対してデータベース検索を行い、検索結果を当
該クライアント20に返送する。このデータベース検索
では、問い合わせ配列である配列1)〜7)の重複部分
の長さが30であるから、元の配列(図9の蛋白質配
列)に含まれる長さ30以下のパターンの全てについて
検索を行うことができる。そして、上記のように、図8
に示したデータベースサーバ11には長さ31よりも長
いパターンは含まれない。したがって、配列1)〜7)
についてデータベース検索を行うことにより、元の配列
に含まれるデータベース11中の全てのパターンが検索
できることとなる。
【0041】次に、図7のフローチャートを参照する
と、情報抽出部23は、データベースサーバ10から受
信した検索結果を受信し(ステップ701)、その中か
ら図9の配列に対する検索結果に相当するものを抽出し
出力する(ステップ702)。図12は、図11に示し
た配列1)に対してデータベースサーバ10から返送さ
れる検索結果を示す図である。すなわち、配列1)に
は、図12に示す7種類のパターンが含まれていること
がわかる。情報抽出部23は、各配列1)〜7)に対し
て同様に返送された検索結果を集めて、検索配列である
図9の蛋白質配列に対する検索結果として出力する。た
だし、配列7)の最後尾には意味のない文字列「HRRAM
K」が存在するので、この部分にマッチするパターンは
除外する。
【0042】以上のように、本実施の形態を用いれば、
元の検索配列を知っているクライアント20以外では、
クエリーにかかる問い合わせ配列から元の検索配列を復
元することは困難である。したがって、クライアント2
0がどのような配列に対してデータベース検索を行って
いるのかを、データベース11の所持者やネットワーク
30上の観察者に知られることを有効に防止することが
できる。さらに、本実施の形態では、クライアント20
において検索配列を加工し、かつデータベースサーバ1
0から返送された検索結果を検索配列に対する加工のな
いように基づいて処理することにより、この検索配列を
直接データベース検索した場合と同様の検索結果を得る
ことができる。したがって、データベース11及びこれ
を含むデータベースサーバ10の設計を変更する必要が
ない。このため、本実施の形態によるデータベース検索
手法は、既存のデータベース検索システムに対しても極
めて容易に導入することが可能である。
【0043】以上、検索配列である図9の蛋白質配列
を、上記(1)の手法で分割してデータベース検索を行
う場合について説明した。本実施の形態では、さらに、
図11の7つの配列1)〜7)に、さらに上記(2)乃
至(4)の手法により種々の配列を追加してクエリーを
発行することができる。例えば、(2)の手法を用いれ
ば、図11の7つの配列に、さらに図13に示す配列
8)を追加することができる。図13の配列8)は、前
半部(下線の無い部分)が図11の配列7)の後半部分
(下線部分)と重複しており、後半部(下線部分)が配
列1)の前半部分(下線の無い部分)と重複している。
したがって、この配列8)を図11の配列1)〜7)に
追加してデータベース検索を行うことにより、例え、配
列1)〜8)に対する全ての検索結果を取得しても、配
列1)〜8)中のどの配列が元の配列(図9の蛋白質配
列)の先頭かわからないため、当該元の配列を知らなけ
れば、正しい検出結果を直ちに得ることはできない。
【0044】また、(3)の手法を用いれば、次のよう
な配列を作成することができる。まず、図9の蛋白質配
列を、図14に示す、長さ30の8つの部分文字列A〜
Hに分割する。ただし、部分文字列Hには、図11に示
した配列7)と同様に、長さを揃えるための意味のない
文字列「HRRAMK」が付加されている。ここで、図14の
各文字列A〜Hに関して、 A+C、A+D、A+E、A+F、A+G、A+H、 B+A、B+D、B+E、B+F、B+G、B+H、 C+A、C+B、C+E、C+F、C+G、C+H、 D+A、D+B、D+C、D+F、D+G、D+H、 E+A、E+B、E+C、E+D、E+G、E+H、 F+A、F+B、F+C、F+D、F+E、F+H、 G+A、G+B、G+C、G+D、G+E、G+F、 H+B、H+C、H+D、H+E、H+F、H+G という48種類の配列を作成する(この配列において、
例えばA+Cは文字列Aと文字列Cとを接続した配列を
意味する。また、ここでは、A+A、B+Bというよう
な同一の文字列を重ねた配列を作成していないが、この
ような配列を作成しても良い)。そして、これらの配列
を図11の配列1)〜7)に図13の配列8)を加えた
8つの配列に追加してクエリーを発行する。
【0045】このようにすれば、例えば、前半の文字列
がAである配列は、A+B(図11の配列1))、A+
C、A+D、A+E、A+F、A+G、A+Hの7種類
があり、文字列Aの次にどの文字列がくる配列が正しい
のかを知る術はない。そのため、これらを組み合わせて
作られる配列の可能な組合せは40320(=8!)通
り存在し、全てのクエリーに対する検索結果を集めて元
の配列を復元することは極めて困難である。
【0046】また、上記の48種類の配列を全て追加す
るのではなく、例えば、図11の配列1)(図13の文
字列を用いたA+Bの配列に相当)に対して、A+Cの
文字列を追加するというように、図11の配列1)〜
7)のそれぞれに対して1つずつ、A+C、B+D、C
+E、D+F、E+G、F+H、G+A、H+Bという
8個の配列を追加する場合を考える。この場合であって
も、例えば、前半の文字列がAである配列は、A+Bと
A+Cの2種類が存在し、どちらが正しい配列かを知る
術はない。したがって、これらを組み合わせて作られる
配列の可能な組合せは496通りであり、全てのクエリ
ーに対する検索結果を集めて元の配列を復元することは
やはり困難と言える。
【0047】さらにまた、(4)の手法を用いて、図1
5に示すような、長さが30の文字列Iを作成し、A+
I、I+Dというようなダミーの配列を、図11の配列
1)〜7)に対して任意に追加することにより、元の配
列の復元を困難にすることができる。なお、具体的な例
は挙げないが、(1)の手法による図9の蛋白質配列の
分割に先立ち、(5)の手法により、他の配列を当該図
9の蛋白質配列に接続することによって、クエリーに対
する検索結果を集めて図9の蛋白質配列に対する検索結
果を取得することを一層困難にすることができる。
【0048】
【発明の効果】以上説明したように、本発明によれば、
データベース側に何ら特殊な処理を要求することなく、
データベース所持者やネットワークの途中でデータベー
ス検索を観察する者に対して、クエリーの内容を知られ
ずに、データベース検索を行うことが可能となる。
【0049】また、本発明によれば、データベースの設
計変更を必要とせずに、データベース所持者やネットワ
ーク上の観察者に対して、クエリーの内容を隠蔽したデ
ータベース検索が実現できるため、既存のデータベース
検索システムに対しても導入が容易である。
【図面の簡単な説明】
【図1】 本実施の形態によるデータベース検索を行う
データベース検索システムの構成を示す図である。
【図2】 本実施の形態におけるクライアントの構成を
説明する図である。
【図3】 本実施の形態における検索配列Sとこの検索
配列Sを分割して得られる配列C1,...,Ck-1との関係を
示す図である。
【図4】 図3に示した問い合わせ配列C1,...,Ck-1に
問い合わせ配列Ckを付加した様子を示す図である。
【図5】 図3に示した問い合わせ配列C1,...,Ck-1に
追加する配列の例を示す図である。
【図6】 本実施の形態における配列加工部及びクエリ
ー発行部の動作を説明するフローチャートである。
【図7】 本実施の形態における情報抽出部の動作を説
明するフローチャートである。
【図8】 本実施の形態にて用いられる、蛋白質のパタ
ーンを複数含むデータベースの例である。
【図9】 大腸菌の蛋白質(アクセッション番号 gi298
2763)の配列を示す図である。
【図10】 図8のデータベースに図9の配列を問い合
わせ配列とするクエリーを発行した場合の回答を示す図
である。
【図11】 図9に示した蛋白質配列に対して本実施の
形態による加工を施した例を示す図である。
【図12】 図11に示した配列1)に対してデータベ
ースサーバから返送される検索結果を示す図である。
【図13】 本実施の形態による(2)の手法を用いた
配列に対する加工の例を説明する図である。
【図14】 本実施の形態による(3)の手法を用いた
配列に対する加工の例を説明する図である。
【図15】 本実施の形態による(4)の手法を用いた
配列に対する加工の例を説明する図である。
【図16】 マトリックスデータベースの例を示す図で
ある。
【符号の説明】
10…データベースサーバ、11…データベース、20
…クライアント、21…配列加工部、22…クエリー発
行部、23…情報抽出部、30…ネットワーク
フロントページの続き (72)発明者 渋谷 哲朗 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 鹿島 久嗣 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 Fターム(参考) 5B075 ND04 ND20 PP26 UU19

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 配列パターンを蓄積したデータベースに
    アクセスし、当該データベースに蓄積されている配列パ
    ターンが所定の配列中に存在するかを問い合わせるデー
    タベース検索装置において、 検索対象である検索配列を分割して複数の部分配列を作
    成する配列加工部と、 前記配列加工部により作成された前記複数の部分配列の
    それぞれを問い合わせ配列として前記データベースに対
    しクエリーを発行するクエリー発行部とを備えることを
    特徴とするデータベース検索装置。
  2. 【請求項2】 前記配列加工部は、前記データベースに
    蓄積された配列パターンの長さに応じて、所定の長さの
    配列要素を重複させて前記複数の部分配列を作成するこ
    とを特徴とする請求項1に記載のデータベース検索装
    置。
  3. 【請求項3】 前記配列加工部は、前記検索配列の後端
    部分の配列要素と、前記検索配列の前端部分の配列要素
    とを接続した配列を作成し、前記部分配列に追加するこ
    とを特徴とする請求項1に記載のデータベース検索装
    置。
  4. 【請求項4】 前記配列加工部は、前記検索配列に関す
    るデータベース検索には寄与しないダミー配列を作成
    し、前記部分配列に追加することを特徴とする請求項1
    に記載のデータベース検索装置。
  5. 【請求項5】 配列パターンを蓄積したデータベースに
    アクセスし、当該データベースに蓄積されている配列パ
    ターンが所定の配列中に存在するかを問い合わせるデー
    タベース検索装置において、 検索対象である検索配列に任意の配列を接続する配列加
    工部と、 前記配列加工部により加工された前記検索配列を問い合
    わせ配列として前記データベースに対しクエリーを発行
    するクエリー発行部とを備えることを特徴とするデータ
    ベース検索装置。
  6. 【請求項6】 前記配列加工部は、前記検索配列に任意
    の配列を接続して得られた配列を分割して複数の部分配
    列を作成し、 前記クエリー発行部は、前記複数の部分配列を問い合わ
    せ配列として前記データベースに対しクエリーを発行す
    ることを特徴とする請求項5に記載のデータベース検索
    装置。
  7. 【請求項7】 前記データベースから検索結果を受け取
    り、受け取った当該検索結果から前記検索配列に対する
    検索結果に相当する情報を抽出する情報抽出部をさらに
    備えたことを特徴とする請求項5に記載のデータベース
    検索装置。
  8. 【請求項8】 配列パターンを蓄積したデータベースに
    アクセスし、当該データベースに蓄積されている配列パ
    ターンが所定の配列中に存在するかを問い合わせるデー
    タベース検索装置において、 検索対象である検索配列を、当該検索配列の所定の部分
    ごとに複数回にわたって前記データベースへの問い合わ
    せを行う問い合わせ手段と、 前記データベースから検索結果を受け取り、前記検索配
    列に対する検索結果に相当する情報を抽出する情報抽出
    手段とを備えることを特徴とするデータベース検索装
    置。
  9. 【請求項9】 前記問い合わせ手段は、前記データベー
    スに蓄積された配列パターンの長さに応じて、所定の長
    さの配列要素を重複させながら前記検索配列の部分を切
    り出し、当該部分ごとに前記データベースへの問い合わ
    せを行うことを特徴とする請求項8に記載のデータベー
    ス検索装置。
  10. 【請求項10】 ネットワーク上に設けられ所定の配列
    パターンを蓄積したデータベースサーバと、 前記ネットワークを介して前記データベースサーバに対
    し検索の問い合わせを行うクライアントとを備え、 前記クライアントは、 検索対象である検索配列を分割し、 前記分割により得られた個々の配列に関するクエリーを
    前記データベースサーバに対して送信し、 前記データベースサーバは、 前記クライアントから受信したクエリーに対するデータ
    ベース検索を行い、検索結果を前記クライアントに返送
    することを特徴とするデータベース検索システム。
  11. 【請求項11】 配列パターンを蓄積したデータベース
    にアクセスし、当該データベースに蓄積されている配列
    パターンが所定の配列中に存在するかを問い合わせるデ
    ータベース検索方法において、 検索対象である検索配列を分割して複数の部分配列を作
    成するステップと、 作成された前記複数の部分配列のそれぞれを問い合わせ
    配列として前記データベースに対しクエリーを発行する
    ステップと、 前記データベースから受信した前記クエリーに対する検
    索結果に基づいて、前記検索配列に対する検索結果に相
    当する情報を抽出するステップとを含むことを特徴とす
    るデータベース検索方法。
  12. 【請求項12】 前記クエリーを発行するステップに先
    立って、前記検索配列に関するデータベース検索には寄
    与しないダミー配列を作成するステップをさらに含み、 前記クエリーを発行するステップは、前記ダミー配列を
    問い合わせ配列として前記データベースに対しクエリー
    を発行するステップを含むことを特徴とする請求項11
    に記載のデータベース検索方法。
  13. 【請求項13】 前記部分配列を作成するステップは、 前記検索配列の分割に先立って、当該検索配列に任意の
    配列を接続して新たな配列を作成するステップと、 作成された前記新たな配列を分割して複数の部分配列を
    作成するステップとを含むことを特徴とする請求項11
    に記載のデータベース検索方法。
  14. 【請求項14】 コンピュータを制御して、配列パター
    ンを蓄積したデータベースにアクセスし、当該データベ
    ースに蓄積されている配列パターンが所定の配列中に存
    在するかの問い合わせを行うプログラムであって、 検索対象である検索配列を分割して複数の部分配列を作
    成する配列加工手段と、 前記配列加工手段により作成された前記複数の部分配列
    のそれぞれを問い合わせ配列として前記データベースに
    対しクエリーを発行するクエリー発行手段として、 前記コンピュータを動作させることを特徴とするプログ
    ラム。
  15. 【請求項15】 前記プログラムにて実現される前記配
    列加工手段は、前記検索配列に関するデータベース検索
    には寄与しないダミー配列を作成し、 前記プログラムにて実現される前記クエリー発行手段
    は、作成された前記ダミー配列を問い合わせ配列として
    前記データベースに対しクエリーを発行すること、を特
    徴とする請求項14に記載のプログラム。
  16. 【請求項16】 前記プログラムにて実現される前記配
    列加工手段は、 前記検索配列の分割に先立って、当該検索配列に任意の
    配列を接続して新たな配列を作成し、 作成された前記新たな配列を分割して複数の部分配列を
    作成することを特徴とする請求項14に記載のプログラ
    ム。
  17. 【請求項17】 コンピュータを制御して、配列パター
    ンを蓄積したデータベースにアクセスし、当該データベ
    ースに蓄積されている配列パターンが所定の配列中に存
    在するかの問い合わせを行うプログラムを格納した記憶
    媒体であって、 前記プログラムは、 検索対象である検索配列を分割して複数の部分配列を作
    成する配列加工手段と、 前記配列加工手段により作成された前記複数の部分配列
    のそれぞれを問い合わせ配列として前記データベースに
    対しクエリーを発行するクエリー発行手段として、前記
    コンピュータを動作させることを特徴とする記憶媒体。
JP2001145684A 2001-05-15 2001-05-15 データベース検索装置、及びプログラム Expired - Fee Related JP3871301B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001145684A JP3871301B2 (ja) 2001-05-15 2001-05-15 データベース検索装置、及びプログラム
US10/146,342 US6928437B2 (en) 2001-05-15 2002-05-15 Database search device, database search system, database search method, program and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001145684A JP3871301B2 (ja) 2001-05-15 2001-05-15 データベース検索装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2002351908A true JP2002351908A (ja) 2002-12-06
JP3871301B2 JP3871301B2 (ja) 2007-01-24

Family

ID=18991454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001145684A Expired - Fee Related JP3871301B2 (ja) 2001-05-15 2001-05-15 データベース検索装置、及びプログラム

Country Status (2)

Country Link
US (1) US6928437B2 (ja)
JP (1) JP3871301B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005327006A (ja) * 2004-05-13 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> 情報フィルタリング装置及び方法
JP2007124520A (ja) * 2005-10-31 2007-05-17 Ntt Data Corp データ検索システム、情報処理装置、データ検索方法、及び、プログラム。
JP2010033197A (ja) * 2008-07-25 2010-02-12 Internatl Business Mach Corp <Ibm> 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
WO2010024116A1 (ja) * 2008-08-26 2010-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
JP2011204261A (ja) * 2004-07-02 2011-10-13 Government Of The United States Of America As Represented By The Secretary Of The Navy リシークエンシング病原体マイクロアレイ
JPWO2011013490A1 (ja) * 2009-07-28 2013-01-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation 情報処理装置、情報処理方法、プログラムおよびウェブ・システム
WO2016129390A1 (ja) * 2015-02-10 2016-08-18 株式会社RNAi 端末装置、データベースサーバおよび計算システム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8862567B2 (en) * 2004-10-21 2014-10-14 At&T Intellectual Property I, L.P. Methods, systems, and computer program products for discreetly monitoring a communications network for sensitive information
WO2006072052A2 (en) * 2004-12-31 2006-07-06 Anonymizer, Inc. System for protecting identity in a network environment
WO2007028013A1 (en) * 2005-08-31 2007-03-08 Thomson Global Resources System and method presenting search results in a topical space
US7984169B2 (en) * 2006-06-28 2011-07-19 Microsoft Corporation Anonymous and secure network-based interaction
EP2338118A4 (en) * 2008-09-08 2013-01-09 Chuan David Ai PRIVATE INFORMATION REQUESTS AND INFORMATION MANAGEMENT
US20110208717A1 (en) * 2010-02-24 2011-08-25 International Business Machines Corporation Chaffing search engines to obscure user activity and interests
US8343815B2 (en) 2010-05-11 2013-01-01 International Business Machines Corporation TFET with nanowire source
CN104054084B (zh) 2011-10-17 2017-07-28 英特托拉斯技术公司 用于保护和管理基因组及其它信息的系统和方法
US9092566B2 (en) 2012-04-20 2015-07-28 International Drug Development Institute Methods for central monitoring of research trials
EP2933750B1 (en) * 2012-12-13 2020-04-01 NEC Corporation Intermediate server, database query processing method and program
US9646166B2 (en) * 2013-08-05 2017-05-09 International Business Machines Corporation Masking query data access pattern in encrypted data
US10216899B2 (en) * 2016-10-20 2019-02-26 Hewlett Packard Enterprise Development Lp Sentence construction for DNA classification
GB202107332D0 (en) * 2021-05-21 2021-07-07 Cyan Forensics Ltd Improvements in or relating to data transmission

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US6303297B1 (en) * 1992-07-17 2001-10-16 Incyte Pharmaceuticals, Inc. Database for storage and analysis of full-length sequences
JPH0793370A (ja) * 1993-09-27 1995-04-07 Hitachi Device Eng Co Ltd 遺伝子データベース検索システム
GB2283840B (en) * 1993-11-12 1998-07-22 Fujitsu Ltd Genetic motif extracting method and apparatus
JP3611601B2 (ja) * 1994-09-01 2005-01-19 富士通株式会社 リスト処理システムとその方法
US5701256A (en) * 1995-05-31 1997-12-23 Cold Spring Harbor Laboratory Method and apparatus for biological sequence comparison
WO1997047761A1 (en) * 1996-06-14 1997-12-18 Sarnoff Corporation Method for polynucleotide sequencing
US5940825A (en) * 1996-10-04 1999-08-17 International Business Machines Corporation Adaptive similarity searching in sequence databases
US6189013B1 (en) * 1996-12-12 2001-02-13 Incyte Genomics, Inc. Project-based full length biomolecular sequence database
US6023659A (en) * 1996-10-10 2000-02-08 Incyte Pharmaceuticals, Inc. Database system employing protein function hierarchies for viewing biomolecular sequence data
US6373971B1 (en) * 1997-06-12 2002-04-16 International Business Machines Corporation Method and apparatus for pattern discovery in protein sequences
US5977890A (en) * 1997-06-12 1999-11-02 International Business Machines Corporation Method and apparatus for data compression utilizing efficient pattern discovery
US6108666A (en) * 1997-06-12 2000-08-22 International Business Machines Corporation Method and apparatus for pattern discovery in 1-dimensional event streams
US6029167A (en) * 1997-07-25 2000-02-22 Claritech Corporation Method and apparatus for retrieving text using document signatures
US6092065A (en) * 1998-02-13 2000-07-18 International Business Machines Corporation Method and apparatus for discovery, clustering and classification of patterns in 1-dimensional event streams
DE69904435T2 (de) * 1998-10-30 2003-10-09 Ibm Verfahren und vorrichtung zur detektion von homologen sequenzen
US6691109B2 (en) * 2001-03-22 2004-02-10 Turbo Worx, Inc. Method and apparatus for high-performance sequence comparison

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005327006A (ja) * 2004-05-13 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> 情報フィルタリング装置及び方法
JP4591947B2 (ja) * 2004-05-13 2010-12-01 日本電信電話株式会社 情報フィルタリング装置及び方法
JP2011204261A (ja) * 2004-07-02 2011-10-13 Government Of The United States Of America As Represented By The Secretary Of The Navy リシークエンシング病原体マイクロアレイ
JP2007124520A (ja) * 2005-10-31 2007-05-17 Ntt Data Corp データ検索システム、情報処理装置、データ検索方法、及び、プログラム。
JP2010033197A (ja) * 2008-07-25 2010-02-12 Internatl Business Mach Corp <Ibm> 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
US9195744B2 (en) 2008-07-25 2015-11-24 International Business Machines Corporation Protecting information in search queries
JPWO2010024116A1 (ja) * 2008-08-26 2012-01-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
US8150823B2 (en) 2008-08-26 2012-04-03 International Business Machines Corporation Private searching on a public search engine
JP5306356B2 (ja) * 2008-08-26 2013-10-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
WO2010024116A1 (ja) * 2008-08-26 2010-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
JPWO2011013490A1 (ja) * 2009-07-28 2013-01-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation 情報処理装置、情報処理方法、プログラムおよびウェブ・システム
JP5705114B2 (ja) * 2009-07-28 2015-04-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、プログラムおよびウェブ・システム
WO2016129390A1 (ja) * 2015-02-10 2016-08-18 株式会社RNAi 端末装置、データベースサーバおよび計算システム
JPWO2016129390A1 (ja) * 2015-02-10 2017-11-09 株式会社RNAi 端末装置、データベースサーバおよび計算システム
US10594473B2 (en) 2015-02-10 2020-03-17 Kabushikikaisha Rnai Terminal device, database server, and calculation system

Also Published As

Publication number Publication date
US6928437B2 (en) 2005-08-09
JP3871301B2 (ja) 2007-01-24
US20020174115A1 (en) 2002-11-21

Similar Documents

Publication Publication Date Title
JP3871301B2 (ja) データベース検索装置、及びプログラム
US6865575B1 (en) Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
JP5116593B2 (ja) 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
JP2000357115A (ja) ファイル検索装置及びファイル検索方法
Ileri et al. A simple yet time-optimal and linear-space algorithm for shortest unique substring queries
JP2012073693A (ja) 遺伝子情報検索システム、遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法及び遺伝子情報検索方法
JP3832821B2 (ja) データ検索の方法、システム、およびプログラム製品
JP2003188735A (ja) データ圧縮装置及び方法並びにプログラム
JPH1166078A (ja) 検索要求具体化方法及び装置及び検索要求具体化プログラムを格納した記憶媒体
US6625599B1 (en) Method and apparatus for data searching and computer-readable medium for supplying program instructions
JP2002140218A (ja) データ処理方法、コンピュータ読み取り可能な記録媒体及びデータ処理装置
JP4319827B2 (ja) 文書検索プログラム
JP2005284595A (ja) Rna配列情報処理方法、プログラムおよび装置
JP4247026B2 (ja) キーワード頻度算出方法及びそれを実行するプログラム
JP2002108887A (ja) 文書検索装置、その装置へのキーワード追加方法、文書検索方法及びコンピュータ読み取り可能な記憶媒体
JP2000112990A (ja) テキスト検索装置、有効語頻度作成装置、テキスト検索方法、及び有効語頻度作成方法並びに記録媒体
JP2001337930A (ja) パスワード管理システム
JP3761451B2 (ja) 記号列を格納するデータ構造、記号列検索装置、記号列検索方法、プログラム、ならびに、情報記録媒体
JPH08272809A (ja) 検索最適化方法
JP2002536710A (ja) アラインメント情報の記述及び保存方法
JP2001312517A (ja) インデクス生成装置及び文書検索装置
JP4638721B2 (ja) 生物情報の検索装置
JPS6129936A (ja) 検索方法
CN114860888A (zh) 面向医疗数据支持隐私保护的中文密文多关键字模糊搜索方法
JP2000187604A (ja) データベース管理装置及びプログラム記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061003

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20061005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061016

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091027

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101027

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101027

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111027

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121027

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees