JPH08110909A - 配列検索方法および装置 - Google Patents

配列検索方法および装置

Info

Publication number
JPH08110909A
JPH08110909A JP6247506A JP24750694A JPH08110909A JP H08110909 A JPH08110909 A JP H08110909A JP 6247506 A JP6247506 A JP 6247506A JP 24750694 A JP24750694 A JP 24750694A JP H08110909 A JPH08110909 A JP H08110909A
Authority
JP
Japan
Prior art keywords
score
dynamic programming
array
programming method
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6247506A
Other languages
English (en)
Inventor
Susumu Hiraoka
進 平岡
Keiichi Nagai
啓一 永井
Tetsuo Nishikawa
哲夫 西川
Naoko Kasahara
直子 笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6247506A priority Critical patent/JPH08110909A/ja
Publication of JPH08110909A publication Critical patent/JPH08110909A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 DNA配列ならびにアミノ酸配列の検索を近
似スコアを用いて高速に行い、しかもダイナミックプロ
グラミング法による厳密なスコアに基づいてどの程度高
いスコアの配列を選びだしたかを明確にする。 【構成】 あらかじめ近似スコアとダイナミックプログ
ラミング法によるスコアの間に統計的なモデルを立て、
ある信頼係数が与えられた時にデータベース中の各配列
に対して、モデルに基づいて近似スコアからダイナミッ
クプログラミング法によるスコアの信頼区間の上限値を
求める。この上限値の上位の配列から順番にデータベー
スの配列を表示する。 【効果】 図1に表示されているスコア上限よりも高い
スコアを持つ配列は検索からもれていないことが明確に
なる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、DNA配列、アミノ酸
配列の照合に適した配列検索方法および装置に関する。
【0002】
【従来の技術】近年、遺伝子工学の発展によりDNA配
列ならびにアミノ酸配列に関するデータが急増してい
る。DNA配列を蓄積したデータベースであるGenB
ankには1993年4月現在、エントリー数1119
11、総残基数129968355が収録されている。
【0003】実験によって新しく決定された配列を問い
合わせ配列としてデータベースを使って検索を行う場
合、データベースから類似した配列を検索する相同性検
索(ホモロジーサーチ)が一般的である。相同性検索を
行う最も基本的な方法として、問い合わせ配列とデータ
ベース内の各配列との間でダイナミックプログラミング
法によるアライメントを行い、高いスコア順に各配列を
表示する方法がある。ダイナミックプログラミング法に
よるアライメントに関しては1981年発行のジャーナ
ル・オブ・モレキュラー・バイオロジー147巻195
ページに記載されている。
【0004】ダイナミックプログラミング法による配列
1(CAGTGATC)と配列2(CTCTGTCA)
のアライメントを図2を用いて説明する。ダイナミック
プログラミング法によるアライメントでは2次元メッシ
ュのX、Y方向に添ってそれぞれ2本の配列を置き、メ
ッシュの各点をノードとして、ノード間には縦、横、斜
めの3方向の経路を考えた時に任意の2つのノード間を
左上から右下に向かう最適経路を求める。縦、横のアー
クは挿入・欠失に相当するためペナルティスコアがかか
り、また配列要素が対合する斜めのアークにも対合の種
類に応じたスコアが与えられる。これらのスコアを経路
に添って総計した合計スコアがもっとも高くなる経路を
ダイナミックプログラミング法によって解き最適なアラ
イメントを求める。DNA配列同士のアライメントにお
いて一般的に用いられているスコアは、挿入・欠失のス
コアはn文字に対して―8n―4点、一致した1文字の
スコアは4点、異なっている1文字のスコアは―3点で
ある。例えば図に示した経路でのスコアは9点である。
【0005】ダイナミックプログラミング法によるアラ
イメントをデータベース内の全配列に対して行った場
合、問い合わせ配列長mとデータベースの配列長の総和
nに対してm×nのオーダーの計算量が必要とされる。
急速に増大しているデータベースのサイズを考えるとデ
ータベース内の全配列に対してダイナミックプログラミ
ング法によるアライメントを行うことは不可能である。
【0006】ホモロジーサーチ・プログラムであるFA
STAについてはアカデミックプレス(Academi
c Press)より1990年に発行されたドゥーリ
トル(Doolittle)編集によるメソッヅ・イン
・エンザイモロジー(Methods in ENZY
MOLOGY)の183巻63ページに記載されてい
る。FASTAではダイナミックプログラミング法によ
るスコアよりも少ない計算量で求められるinitn、
init1と呼ばれるスコアを求めている。これらのス
コアは完全に一致する一定長の部分文字列を探し出し、
それらを繋ぎあわせて求める。FASTAではこれらの
スコアが高い順に配列を表示しており、さらに上位の配
列に対してはダイナミックプログラミング法によるスコ
アを計算しOPTという名で表示している。
【0007】またホモロジーサーチ・プログラムである
BLASTについては1990年発行のジャーナル・オ
ブ・モレキュラー・バイオロジー(Jounal of
Molecular Biology)の215巻4
03ページに記載されている。BLASTでもダイナミ
ックプログラミング法によるスコアよりも少ない計算量
で求められるスコアを求めている。BLASTではFA
STAにおけるinit1よりも単純化したスコアを用
いている。BLASTではBLAST独自のスコア計算
のみであり、ダイナミックプログラミング法によるスコ
アの計算は行っていない。
【0008】
【発明が解決しようとする課題】FASTAおよびBL
ASTなどのダイナミックプログラミング法によらない
スコア(以下近似スコアと呼ぶ)は類似した配列を検索
するための一つの基準として用いることは可能である
が、ダイナミックプログラミング法によるスコアほど厳
密なものではない。データをできる限り有効に用いるた
めにダイナミックプログラミング法によるスコアを用い
た検索が必要とされている。
【0009】近似スコアとダイナミックプログラミング
法によるスコアの関係を図3に示す。図3は配列長20
0文字のDNA配列とGenBank中の部分データベ
ースest中の各配列とのスコア計算を行い、ダイナミ
ックプログラミング法によるスコアとFASTAのin
itnをそれぞれx、yにプロットしたものである。近
似スコアは一般的に図3に示すようにダイナミックプロ
グラミング法によるスコアと相関関係が有る。しかし相
関係数は1ではなく、また近似スコアによる順序関係は
ダイナミックプログラミング法によるスコアの順序関係
と異なっている。そのためデータベースから近似スコア
で上位の配列をいくつか取り出したとしても、ダイナミ
ックプログラミング法によるスコアではどの程度上位の
配列を取り出すことができたかが定量的に明らかではな
い。さらにダイナミックプログラミング法によるスコア
がある値以上の配列を漏れなく抜き出したい場合にはF
ASTAのスコアもBLASTのスコアもまったく意味
がなく、データベース中のすべての配列に対してダイナ
ミックプログラミング法による計算を行わなければなら
ず極めて多くの計算量が必要とされる。これは従来の近
似スコアとダイナミックプログラミング法によるスコア
の関係、特にスコアの上限との関係が明らかでなかった
ためである。
【0010】
【課題を解決するための手段】本発明ではあらかじめ近
似スコアとダイナミックプログラミング法によるスコア
の間に統計的なモデルを立てておく。ある信頼係数が与
えられた時にデータベース中の各配列に対して、モデル
に基づいて近似スコアからダイナミックプログラミング
法によるスコアの信頼区間の上限値を求める。この上限
値の上位の配列から順番にデータベース中の配列を表示
する。
【0011】例えば図3でinitnをダイナミックプ
ログラミング法によるスコアに対して一次回帰を行い直
線の傾き、切片とそれらの誤差を求める。これによりi
nitnに対してダイナミックプログラミング法による
スコアの推定値αが誤差σを含めて求められる。ダイナ
ミックプログラミング法によるスコアは95%以上の確
率でα+2σ以下であり、信頼係数95%におけるダイ
ナミックプログラミング法によるスコアの上限値として
α+2σである。
【0012】
【作用】上記上限値が一定値xより低い配列は与えられ
た信頼係数のもとでダイナミックプログラミング法によ
るスコアがxより低い配列である。言い換えると、上記
上限値が一定値x以上の配列を取り出すことでダイナミ
ックプログラミング法によるスコアがx以上の配列を信
頼係数分取り出すことができる。特に信頼係数として1
00%を考えた場合にはダイナミックプログラミング法
によるスコアがx以上の配列を漏れなく抜き出すことが
できる。
【0013】
【実施例】本発明を実現するための装置構成の摸式図を
図4に示す。あらかじめデータベースに対してスコア表
を作成しておく。スコア表はデータベース内の各配列と
一定長のあらゆる文字列とのダイナミックプログラミン
グ法によるスコアを計算した結果である。スコア表記憶
器1には上記スコア表を記憶させておく。
【0014】検索の際は始めにデータベース各配列の近
似スコアを記憶しておく近似スコア記憶器2と一時スコ
ア記憶器8をすべて0にリセットし、検索配列を検索配
列記憶器3に記憶する。
【0015】次にカウンタ4を0から増分させていく。
カウンタ4の出力は上位桁は部分配列取り出し器5に入
力され部分配列切り出し部分を指定し、下位桁はスコア
表記憶器1と近似スコア記憶器2と一時スコア記憶器8
に入力されデータベース配列番号を指定する。指定され
た各配列の近似スコアと一時スコアはそれぞれスコア記
憶器14と15に記憶される。検索配列記憶器3に接続
された部分配列取り出し器5によって検索配列は一定長
k文字づつ切り出され、カウンタ4によって指定された
部分配列が部分配列記憶器6に記憶される。
【0016】部分配列記憶器6の出力はスコア表記憶器
1に入力されカウンタ4で指定されたデータベース内の
各配列とのダイナミックプログラミング法によるスコア
がスコア表記憶器1から出力される。スコア表記憶器1
の出力は加算器7を用いてスコア記憶器14のスコアと
加算される。加算器7の出力は比較器9で0と比較され
大きい値が出力され、スコア記憶器14に書き戻され
る。比較器9の出力は、スコア記憶器15のスコアと比
較器10で比較され大きい値が再びスコア記憶器15に
書き戻される。その後スコア記憶器14と15の内容は
それぞれカウンタ4で指定される一時スコア記憶器8と
近似スコア記憶器2の対応する部分に書き戻される。
【0017】本実施例の表示例を図1に示す。カウンタ
4により検索配列から切り出されたすべての部分配列に
対してすべてのデータベース配列が走査しつくされた
ら、近似スコア記憶器2の各スコアをソーター11によ
って大きいスコアの順に並べ変え、配列名称記憶器13
によって対応する配列名称を求め表示器12に表示す
る。更に近似スコアからあらかじめ求められていたモデ
ルに基づいてスコア推定器16によってあらかじめ指定
された信頼係数のもとでのダイナミックプログラミング
法によるスコアを推定し誤差と共に表示する。
【0018】図1では、信頼係数と共にソートの基準が
指定できるようになっており、図では信頼係数90%、
ソート基準にはスコア上限を選択している。図1ではス
コア上限でソートしているが、スコアの推定値でソート
することも可能である。また推定値でないダイナミック
プログラミング法によるスコアが必要な場合にはダイナ
ミックプログラミング計算の部分をチェックする。その
場合、上位配列に対するダイナミックプログラミング法
によるスコアが計算される。
【0019】本実施例で用いている近似スコアは図5に
示すように、検索配列を分割した部分配列とデータベー
ス配列とのダイナミックプログラミング計算を行った結
果を加算した結果となっている。図5において配列1は
検索配列、配列2はデータベース中の一配列である。近
似スコア計算においては検索配列を4文字づつの部分配
列CAGTとGACTに分割し、それぞれと配列2との
ダイナミックプログラミング法によるスコアを求める。
本実施例ではあらかじめデータベース内の各配列に対し
て4文字のあらゆる文字列とのダイナミックプログラミ
ング法によるスコア表を作成してある。そのためCAG
T、GACTと配列2とのダイナミックプログラミング
法によるスコアを求めるために計算する必要はなく、ス
コア表を参照するだけでよい。そして近似スコアはそれ
ぞれのダイナミックプログラミング法によるスコアの和
である18となる。
【0020】本実施例で用いている近似スコアは図6に
示すようにFASTA、BLASTなど従来の近似スコ
アと異なりダイナミックプログラミング法によるスコア
の上限値を与えるものとなっている。また近似スコアと
ダイナミックプログラミング法によるスコアはほぼ直線
関係に有り、最小二乗法による一次回帰が可能である。
【0021】本実施例で用いている近似スコアを用いる
ことによりダイナミックプログラミング法によるスコア
の上限値、推定値、推定値の誤差を求めることができ
る。また本実施例ではほとんどスコア表記憶器1からの
出力を加算するだけの処理が必要とされるだけであり、
高速な近似スコア計算が可能である。
【0022】本実施例で用いているスコア表に近い概念
としては日本語文書の全文検索に用いられている文字成
分表方式がある。文字成分表とはデータベース中の各文
書に対してある文字列が含まれているかいないかを1、
0の表としてあらわしたものである。日本語文書の全文
検索においては、検索語に含まれるすべての部分文字列
がデータベース中の各文書に対して含まれているかどう
かを文字成分表で調べる。そしてすべての部分文字列が
含まれている文書をデータベースから取り出してくる。
【0023】日本語文書の検索と異なりスコアを計算す
る必要のあるDNA配列ならびにアミノ酸配列の検索に
おいても文字成分表方式を用いることが可能である。D
NA配列ならびにアミノ酸配列に文字成分表を応用する
場合には、検索配列中の部分配列がデータベース中の各
文書に対していくつ含まれているかを近似スコアとして
考えて、近似スコアの高い配列をデータベースから取り
出すことができる。この近似スコアは検索配列からn個
の部分配列が取り出せた場合、0からnの値を取る。
【0024】この近似スコアをDNA配列に用いた場
合、使用されている文字の種類が少ないために、十分長
い部分配列に対する文字成分表を使用しなければ、文字
成分表のほとんどの部分は1になってしまい、ほとんど
の配列でまったく同じ近似スコア、nしか得られなくな
ってしまう。また長い部分配列に対する文字成分表を用
いて近似スコアを求めた場合には、nが小さくなり検索
配列とどの程度似ているかを示す近似スコアとしての意
味がなくなってしまう。さらに長い部分配列に対する文
字成分表から求めた近似スコアでは一文字の置換、一文
字の挿入であっても、完全に違う部分配列と同じとみな
されてしまうため近似スコアに誤差が大きくなる。
【0025】一方、本実施例の近似スコアの誤差の原因
は図2と異なり、図5のように部分配列同士の接続部分
で不連続となる経路でダイナミックプログラミング計算
を行ってしまうことだけである。部分配列が長くなれば
それだけ部分配列同士の接続部分が少なくなる。そのた
め文字成分表から求めた近似スコアと異なり、本実施例
では用いる部分配列が長いほど正確な近似スコアを得る
ことができる。
【0026】DNA配列の検索において部分配列の長さ
が8文字とすると、DNA配列に用いられている文字は
4種類のため考えられる部分配列の種類は約7万であ
る。そこでデータベース中の配列数が3万とし、スコア
を1バイトで表わしたとすると本実施例で用いているス
コア表の大きさは約2GBとなる。データベース中の各
配列の長さが1000バイトの時、データそのものの大
きさは30MBである。スコア表の大きさはデータその
ものの大きさの60倍以上であり、スコア表の圧縮が望
ましい。
【0027】スコア表の読みだしは部分配列単位で行わ
れるため圧縮も部分配列単位で行う必要がある。可能な
圧縮方法は様々ある。各部分配列の行毎にハフマン符号
化、算術符号化などのエントロピー符号化を行った場
合、行単位では高い圧縮率を得られるが展開処理のため
の計算量が必要とされる。一文字だけが異なっているな
どの似た部分配列に対するスコアはデータベース内の各
配列共に近いため、似ている部分配列の行間で画像圧縮
に用いられている予測圧縮法を用いることもできる。ま
たスコアをまるめて2ビットで表わして1バイト中に4
つのスコアをまとめた場合、スコアの精度は悪くなるが
エントロピー符号化に比べて展開処理のための計算量が
少なくてすむ。スコアのまるめ処理には、例えばスコア
を8進数で表わして1の桁を切り上げて10の桁だけを
スコア表に記録する方法がある。
【0028】このようにスコアを表わすビット数が少な
い場合にはスコアの上位ビットと下位ビットを分けて2
つの表として持つことも可能である。スコア表が1ビッ
ト単位に分けられた場合には二値画像の圧縮に用いられ
ているランレングス符号化による圧縮を行うことができ
る。さらにこの場合には、スコアのすべてのビットを用
いた通常の近似スコア計算だけでなく、上位ビットだけ
を用いた近似スコア計算が可能である。上位ビットだけ
を用いる場合、スコア表は極めて小さくなるため場合に
よってはメモリー上に置くことも可能であり極めて高速
の近似スコア計算が実現できる。
【0029】本実施例では、ダイナミックプログラミン
グ法によるスコアの上限値を与えるような近似スコアを
用いてダイナミックプログラミング法によるスコアを推
定することを例に示した。現在、DNA配列とアミノ酸
配列の検索においてはFASTAとBLASTが一般的
に用いられている。そこでFASTAのスコア、または
BLASTのスコアでダイナミックプログラミング法の
スコアを推定することも有効である。この場合にはよく
知られているFASTAやBLASTのスコアと合わせ
てダイナミックプログラミング法のスコアがどの程度で
あるかを知ることができる。FASTAやBLASTの
スコアからは本実施例と異なり、信頼係数100%でダ
イナミックプログラミング法のスコアの上限値を求める
ことはできない。しかし100%よりも少ない信頼係数
のもとでの上限値を用いることは可能である。
【0030】
【発明の効果】以上説明したように本発明によればダイ
ナミックプログラミング法を行わず近似スコアだけから
高速にしかも定量的にダイナミックプログラミングによ
るスコアの高い配列を取り出すことができる。
【図面の簡単な説明】
【図1】本発明の実施例の検索結果の表示画面を示す
図。
【図2】ダイナミックプログラミング法によるスコア計
算方法の説明図。
【図3】ダイナミックプログラミング法によるスコアと
従来の近似スコアの相関関係を示すグラフ。
【図4】本発明の実施例の装置のブロック図。
【図5】本発明の実施例における近似スコア計算方法の
説明図。
【図6】ダイナミックプログラミング法によるスコアと
実施例の近似スコアの相関関係を示すグラフ。
【符号の説明】
1…スコア表記憶器、2…近似スコア記憶器、3…検索
配列記憶器、4…カウンタ、5…部分配列取り出し器、
6…部分配列記憶器、7…加算器、8…一時スコア記憶
器、9…比較器、10…比較器、11…ソーター、12
…表示器、13…配列名称記憶器、14…スコア記憶
器、15…スコア記憶器、16…スコア推定器。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 笠原 直子 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】ダイナミックプログラミング法によるスコ
    アの近似値を算出することによって類似文字配列を検索
    する方法において、該近似値がダイナミックプログラミ
    ング法によるスコアの上限値であることを特徴とする配
    列検索方法。
  2. 【請求項2】ダイナミックプログラミング法によるスコ
    アの近似値を算出することによって類似文字配列を検索
    する方法において、該近似値からダイナミックプログラ
    ミング法によるスコアの推定値を信頼区間と共に求め表
    示することを特徴とする配列検索方法。
  3. 【請求項3】与えられた検索配列データから一定長の部
    分配列を切り出す部分配列取り出し器と、データーベー
    ス内の各配列に対して該部分配列をインデックスとして
    あらかじめ計算され記憶されている該部分配列と該配列
    とのダイナミックプログラミング法によるスコアを出力
    するスコア表記憶器と、データベース内の各配列に対し
    て前記スコアを加算する加算器と、検索配列と該配列と
    のダイナミックプログラミング法によるスコアの上限値
    としてスコアの加算結果を表示する表示器を備えること
    を特徴とする配列検索装置。
JP6247506A 1994-10-13 1994-10-13 配列検索方法および装置 Pending JPH08110909A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6247506A JPH08110909A (ja) 1994-10-13 1994-10-13 配列検索方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6247506A JPH08110909A (ja) 1994-10-13 1994-10-13 配列検索方法および装置

Publications (1)

Publication Number Publication Date
JPH08110909A true JPH08110909A (ja) 1996-04-30

Family

ID=17164497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6247506A Pending JPH08110909A (ja) 1994-10-13 1994-10-13 配列検索方法および装置

Country Status (1)

Country Link
JP (1) JPH08110909A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH105000A (ja) * 1996-06-27 1998-01-13 Hitachi Ltd Dnaアミノ酸配列比較方法
WO1998033900A1 (fr) * 1997-01-31 1998-08-06 Japan Science And Technology Corporation Procede et dispositif de prediction du site de fonction proteique, procede d'amelioration de la fonction proteique et proteine a fonction amelioree
WO2016175330A1 (ja) * 2015-04-30 2016-11-03 株式会社テンクー ゲノム解析装置及びゲノム可視化方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH105000A (ja) * 1996-06-27 1998-01-13 Hitachi Ltd Dnaアミノ酸配列比較方法
WO1998033900A1 (fr) * 1997-01-31 1998-08-06 Japan Science And Technology Corporation Procede et dispositif de prediction du site de fonction proteique, procede d'amelioration de la fonction proteique et proteine a fonction amelioree
WO2016175330A1 (ja) * 2015-04-30 2016-11-03 株式会社テンクー ゲノム解析装置及びゲノム可視化方法
JPWO2016175330A1 (ja) * 2015-04-30 2018-03-29 株式会社テンクー ゲノム解析装置及びゲノム可視化方法
US10573405B2 (en) 2015-04-30 2020-02-25 Xcoo Inc. Genome analysis and visualization using coverages for bin sizes and ranges of genomic base coordinates calculated and stored before an output request

Similar Documents

Publication Publication Date Title
US4959785A (en) Character processing system with spelling check function that utilizes condensed word storage and indexed retrieval
US6546394B1 (en) Database system having logical row identifiers
JPH11212980A (ja) インデクス作成方法および検索方法
US20140337315A1 (en) Method and system for storing, organizing and processing data in a relational database
US6438556B1 (en) Method and system for compressing data which allows access to data without full uncompression
US20150186471A1 (en) System and method for approximate searching very large data
US8140517B2 (en) Database query optimization using weight mapping to qualify an index
O'Neil et al. Bitmap index design choices and their performance implications
CN109325032B (zh) 一种索引数据存储及检索方法、装置及存储介质
CN111324750B (zh) 一种大规模文本相似度计算及文本查重方法
JP5183155B2 (ja) 大量配列の一括検索方法及び検索システム
JP5187670B2 (ja) 相同性検索システム
US20170046394A1 (en) Fast incremental column store data loading
US20070239663A1 (en) Parallel processing of count distinct values
CN110888880A (zh) 基于空间索引的邻近分析方法、装置、设备及介质
EP3955256A1 (en) Non-redundant gene clustering method and system, and electronic device
CN112434085B (zh) 基于Roaring Bitmap的用户数据统计方法
KR102227912B1 (ko) 최적화된 데이터 콘덴서 및 방법
CN116821053B (zh) 数据上报方法、装置、计算机设备和存储介质
US20030126138A1 (en) Computer-implemented column mapping system and method
US20040044683A1 (en) Data compiling method
CN111190896B (zh) 数据处理方法、装置、存储介质和计算机设备
JPH08110909A (ja) 配列検索方法および装置
US6226411B1 (en) Method for data compression and restoration
US9817855B2 (en) Method and system for determining a measure of overlap between data entries