JP3149824B2 - 記号列の特徴顕在化方法 - Google Patents

記号列の特徴顕在化方法

Info

Publication number
JP3149824B2
JP3149824B2 JP22390897A JP22390897A JP3149824B2 JP 3149824 B2 JP3149824 B2 JP 3149824B2 JP 22390897 A JP22390897 A JP 22390897A JP 22390897 A JP22390897 A JP 22390897A JP 3149824 B2 JP3149824 B2 JP 3149824B2
Authority
JP
Japan
Prior art keywords
symbol
color
matrix
symbol string
regularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22390897A
Other languages
English (en)
Other versions
JPH1166040A (ja
Inventor
徹彦 吉田
研二 大澤
伸明 尾畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toagosei Co Ltd
Original Assignee
Toagosei Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toagosei Co Ltd filed Critical Toagosei Co Ltd
Priority to JP22390897A priority Critical patent/JP3149824B2/ja
Priority to EP04025542A priority patent/EP1501025A3/en
Priority to EP98115643A priority patent/EP0898236B1/en
Priority to DE69827445T priority patent/DE69827445T2/de
Priority to US09/137,162 priority patent/US6438496B1/en
Publication of JPH1166040A publication Critical patent/JPH1166040A/ja
Application granted granted Critical
Publication of JP3149824B2 publication Critical patent/JP3149824B2/ja
Priority to US10/137,402 priority patent/US6862532B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)
  • Image Processing (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の技術分野】本発明は複雑な記号列、例えば、D
NAの塩基配列や、蛋白質のアミノ酸配列あるいは一見
すると規則性が認められない無理数等の記号列におい
て、実際には存在していても潜んでいて認識できない特
徴を顕在化させ、もって、認識されていない特徴の認識
を可能とする技術に関する。
【0002】
【従来の技術】複雑な記号列には、実際には存在してい
ても、人類が認識していない特徴が存在していることが
ある。例えば、遺伝子情報は塩基の種類を示す記号が一
次元に膨大な数に亘って配置された記号列で特定され
る。遺伝子の研究において、遺伝子情報を示す記号列に
潜んでいる規則性を認識することが極めて重要である。
また一見すると何らの規則性も認められない、例えば、
無理数や円周率や自然対数の底に、実は何らかの規則性
が存在していることが認識できれば、数学の研究が深ま
り、多様な発展が期待される。
【0003】このような目的のために、フーリエ解析手
法に基づいて記号列を解析する様々な試みがなされてい
る。しかしながらこの試みは必ずしも大きな成果をあげ
ていない。従来の解析手法の一つの問題点は、膨大な長
さの記号列の一部に何らかの規則性があっても、全体の
記号列を解析する際に、部分的に存在する規則性が全体
配列の中に埋没してしまって認識不能になるという問題
である。どの部分に規則性が存在するかを前もって知る
有効な技術が無いために、従来の解析手法では認識でき
ない特徴ないし規則性が多く存在する。
【0004】
【発明が解決しようとする課題】本発明では、記号列全
体の中の一部にのみ存在するような特徴ないし規則性で
あってもこれを顕在化する技術を創作し、もって、現時
点では認識されていない特徴ないし規則性を認識可能と
する。むろんこの技術は、全体に亘って存在している規
則性ないし特徴の顕在化にも有効である。
【0005】
【課題を解決するための手段】このために、本発明で
は、記号列全体から所定の個数ごとに抽出した1以上の
要素からなる部分記号列に対して、記号列に含まれる各
記号を、記号種ごとに決められた色相、明度、彩度また
はこれらの組合せからなるカラードットとし、該カラー
ドットを更にマトリクス状に配置したカラードットマト
リクスを順次出力し、該カラードットマトリクスを出力
することで得られる色彩パターンによって内在する特徴
あるいは規則性を顕在化させる。あるいは、複雑な記号
列を複数の部分記号列に分割し、分割された部分記号列
に含まれる各記号を記号種ごとに決められた色相、明
度、彩度またはこれらの組合せで表示した部分カラード
ット列とし、該部分カラードット列を並列配置すること
でカラードットをマトリクス状に配置したカラードット
マトリクスを出力し、該カラードットマトリクスを出力
することで得られる色彩パターンによって、内在する特
徴あるいは規則性を顕在化させる。 これらの方法による
と、出力されるカラードットマトリクス上に、記号列に
潜んでいた特徴が色彩パターンとして顕在化されるため
に、記号列に潜んでいて認識されなかった特徴が認識可
能となる。記号列をカラードットでマトリクス表示した
ものは本発明ではじめて得られたものであり、このカラ
ードットマトリクス得ると、そのマトリクスのなかに記
号列に潜んでいた特徴が色彩パターンとして顕在化され
るので、認識できなかった特徴が認識可能となる。この
発明は、カラードットのマトリクス表示物としても具現
化される。この表事物は、記号列全体から所定の個数ご
とに抽出した1以上の要素からなる部分記号列に対し
て、記号列に含まれる各記号を、記号種ごとに決められ
た色相、明度、彩度またはこれらの組合せからなるカラ
ードットとし、該カラードットを更にマトリクス状に配
置することによって順次出力されたものであり、該カラ
ードットマトリクス上に記号列に潜んでいた特徴が色彩
パターンによって顕在化されているものである。あるい
は、複雑な記号列を複数の部分記号列に分割し、分割さ
れた部分記号列に含まれる各記号を記号種ごとに決めら
れた色相、明度、彩度またはこれらの組 合せで表示した
部分カラードット列で表示し、その部分カラードット列
を並列配置することでカラードットがマトリクス状に配
置されたものであり、そのカラードットマトリクス上に
記号列に潜んでいた特徴が色彩パターンによって顕在化
されているものである。これらのカラードットのマトリ
クス表示物を得ることによって、認識できなかった特徴
が視覚を通して認識される。 DNA塩基配列または蛋白
質のアミノ酸配列を示す記号列から作成されたカラード
ットのマトリクス表示物を用いると、DNA塩基配列ま
たは蛋白質のアミノ酸配列に秘められている生命情報を
解明するうえで極めて有効な特徴認識が可能となり、そ
の有用性が高い。本発明の一つの態様では、複雑な記号
列をIj (j=1〜m)としたときに、記号列を構成する各記
号を下記の配置パターン、すなわち、( j= 1,
2, 3,・・・, k )( j= k+1,
k+2, k+3,・・・, k+k )・・・( j= (n-1)k+1,
(n-1)k+2, (n-1)k+3,・・・,(n-1)k+k )( j= nk+1,
nk+2, nk+3,・・・, nk+k )に従って配置してカ
ラードットマトリクスを出力することが好ましい。ここ
kは2以上の整数であり、nはnk+1≦m≦nk+kの自然
数である。
【0006】このとき、号列Ijに周期kの何らかの
徴または規則性が存在していれば、その特徴等は、カラ
ードットマトリクスの中に筋となって顕著に現れる。こ
のとき、号列の一部にその特徴等が存在していても、
その一部に存在する特徴等が希釈されることなく、顕
に表示される。なお後で詳しく説明するように、周期k
以外の特徴等も顕在化される。
【0007】全体記号列の中に周期qの規則性が重複し
ている場合、全体記号列から周期qの記号列を一旦抽出
し、抽出された記号列に対して前記手法を適用しても良
い。これに代わって、下記手法を適用することもでき
る。
【0008】この方法では、複雑な記号列をIj (j=1〜
m)としたときに、記号列を構成する各記号を下記の配置
パターン、すなわち、 ( j= q, 2q, 3q,・・・, kq ) ( j= (k+1)q, (k+2)q, (k+3)q,・・・, (k+k)q ) ・ ・ ・( j= ((n-1)k+1)q, ((n-1)k+2)q,( (n-1)k+3)q,・・・, ((n-1)k+k )q) ( j= (nk+1)q, (nk+2)q, (nk+3)q,・・・, (nk+k)q ) に従って配置してカラードットマトリクスを出力する。
ここでkは2以上整数であり、qは自然数であり、n
は(nk+1)q≦m≦(nk+k)qの自然数である。
【0009】この表示方法によると、周期qの記号列が
抽出されるのと同時に、周期kqの規則性が顕在化さ
れ、何らかの規則性が部分的にでも存在していれば、そ
の規則性が部分記号列を並列配置したもののなかに顕著
に現れ、認識し易くなる。この場合にも、周期kq以外
の規則性も顕在化される。
【0010】認識されていない規則性を顕在化させて認
識可能とする場合、k=p,p+r,p+2r,p+3
r・・・・と置き換えながら、上記の何れかの方法を実
施することが極めて有効である。ここでpはm未満の任
意の自然数、rは任意の自然数である。
【0011】この場合にはp個の部分記号列を並列配置
したもの、p+r個の部分記号列を並列配置したもの、
以下同様に順に個数を増やした部分記号列の並列配置の
全体が並列配置される。このとき、全体記号列の中に周
期sの規則性が潜んでいればその潜んでいる特徴がp=
sの部分記号列を並列配置したもののなかに顕著に現れ
る。
【0012】また、仮に、p,p+r,p+2r,p+
3r・・・・という並びの谷間にsが属していても、そ
のsに近似する個数を有する部分記号列の並列配置の中
に周期sの規則性が顕在化される。このために、部分記
号列の数に関する増分rは必ずしも1である必要が無
く、任意の自然数であればよい。もっとも増分rが小さ
いほど、特徴が確実に顕在化される。
【0013】この方法によると、未知の周期を持つ特徴
がいずれかの数を有する部分記号列の並列配置(こ
こでいうカラードットマトリクス)のなかに顕在化さ
れ、特徴の認識が容易化される
【0014】この方法によると、記号列に潜んでいる特
徴が視覚を通して顕在化される結果その記号列に潜んで
いる事象に関する理解が深まり、その事象を利用する多
様な応用・発展が可能となる。またこの結果得られる色
彩パターンは、従来存在しない、規則性と不規則性が混
在したパターンとなり、デザイン自体が有用性を有する
パターンを作り出すことができる。
【0015】
【0016】
【発明の効果】本発明の方法では、記号列に含まれる各
記号を記号種ごとに決められている色相、明度、彩度ま
たはこれらの組合せに従ってカラードットで表示し、そ
のカラードットをマトリックス状に配置してカラードッ
トマトリクスを出力する。すると、出力されたカラード
ットマトリクス上に、記号列に潜んでいた特徴が色彩パ
ターンとして顕在化されるために、複雑な記号列に潜ん
でいて認識されなかった特徴が認識可能となる。このた
めに、DNAの塩基配列の研究や蛋白質のアミノ酸配列
の研究等、特徴または規則性を知ることが極めて重要な
技術分野に、重要な解析道具が提供され、研究の促進が
期待される。また、このようにして得られるカラードッ
トマトリクス表示物は本発明によってはじめて得られた
ものであり、複雑な記号列に潜んでいて認識されなかっ
た特徴が色彩パターンによって顕在化されており、この
表示物を利用することによって、複雑な記号列に潜んで
いて認識されなかった特徴が認識可能となる。 例えば、
全体記号列のなかからk−1個おきに(従ってk個毎
に)1個の記号を取り出して部分記号列を作成し、この
部分記号列をk個を並列配置すると、記号列Ijに周期
kの何らかの規則性が潜んでいれば、その規則性が顕在
化されて顕著に現れる。このことから、記号列中に潜ん
でいて認識しにくい特徴ないし規則性が認識可能とな
る。
【0017】また、全体記号列のなかからkq−1個お
きに(従ってkq個の記号毎に)1個の記号を取り出し
て部分記号列を作成し、この部分記号列をk個並列配置
すると、記号列Ij に周期kqの何らかの規則性が潜
んでいれば、その規則性が顕在化されて顕著に現れる。
このことから、記号列中に潜んでいて認識しにくい特徴
ないし規則性が認識可能となる。
【0018】更に、k=p,p+r,p+2r・・・・
と置き換えながら、上記の何れかの方法を実施すると、
p個の部分記号列を並列配置したもの、p+r個の部分
記号列を並列配置したもの、以下同様に順に個数を増や
した部分記号列を並列配置したものの全体が並列配置さ
れ、周期sの規則性がk=s個の部分記号列を並列配置
したもののなかに顕著に現れる。このため未知の周期を
持つ特徴ないし規則性が顕在化され、特徴の認識が容易
化される。この方法によるとき、p,p+r,p+2r
・・・・という個数の並びの谷間に規則性ないし特徴の
周期sが属していても、そのsに近似する個数の部分配
列を並列配置したもののなかにその特徴ないし規則性が
顕在化されるために、個数の増分rは必ずしも1でなく
て良く、事象に合わせた増分rを選択することで、少な
いデータ処理量で特徴の顕在化が可能となる。
【0019】更に、分析結果を色彩や音で出力すること
で、事象ないし観察者に合わせた表示が可能となり、さ
らに一層特徴が認識し易くなる。また、この結果得られ
る色彩パターンや音色は規則性と不規則性が混在した興
味深いものとなり、デザインの創作手法としても活用す
る事ができる。
【0020】
【実施の態様】以下に、本発明を具現化した実験例を紹
介する。 [第1実験例]ヒトゲノムDNAの塩基配列を示す記号
列Ij を請求項1と請求項3と請求項4の方法で処理し
た実験例を示す。この記号列はATGCの4種の記号が
膨大な数に亘って1次元に配列されたものであり、そこ
に潜んでいる何らかの規則性が有用な情報になっている
と認識されており、その規則性を見出すこと、あるい
は、何らかの規則性が存在している部分を特定すること
が、遺伝子研究の大きな課題となっている。
【0021】図1は、請求項4の手法を用いて記号を色
彩で表示したものであり、ATCGの4種の記号が赤黄
緑青の4色で表示されている。図1の原本はカラー表示
されている。また図1はp=5でr=1で請求項3の発
明を実施した結果を示している。
【0022】図1のk=17の部分記号列群を例にして
説明すると、ここには、17個の部分記号列が横方向に
並列配置されている。縦方向には全体記号列Iから16
個おきに(即ち17個当たり1個)抽出した各部分記号
列が色彩によって表示されている。図2は記号列Iの添
え字jの配置の一部(k=16、17、18の最上部近
傍)を例示している。
【0023】図1中、B16は塩基配列の一部に周期1
6の繰り返しパターンが存在していることを顕著に示し
ている。このことから、この部分に何らかの有用な情報
が込められいる可能性があることがわかり、詳しく分析
する価値のある領域であることがわかる。B17はB1
6と同じ規則性を示し、k=16個の部分記号列を並列
配置したときには垂直に現れるパターンが、k=17の
並列配置では左下がりのパターンで現れる。B18も同
じパターンを示し、B17に示される傾きが水平に近く
なったパターンで表われる。同じパターンがk=19の
並列配置にも示されるが、一層水平に近くなり、徐々に
特徴抽出が困難となる。周期sの規則性はk=s個の部
分記号列を並列配置したもののなかに垂直に現れて最も
顕著に表示されるが、k=s+1、k=s+2の部分記
号列を並列配置したもののなかにも現れ、増分rは必ず
しも1で無くても良いことがわかる。 A18は周期1
8の規則性を示し、同じ規則性がk=17の並列配置で
は右下がりのパターンA17に示され、k=19の並列
配置では左下がりのパターンA19に示される。
【0024】その他にも、図1の中には多くの顕著なパ
ターンがあらわれており、これらのパターンからヒトゲ
ノムDNAの塩基配列に認められる特徴が把握される。
部分記号列の並列配置における個数の出発値pは任意の
自然数でよく、図1の場合はp=5としている。また増
分rは1に限らず、2以上にしても良い。rを小さくと
るほど、特徴を見逃さないが、rを大きく取るほどデー
タ処理量が減る。実際実行時には事象に合わせてrを選
択する。
【0025】図3は円周率という記号(数字)列を処理
した結果を例示しており、0〜9の10種の記号(数
字)を紫〜赤の可視光範囲のスペクトルを10等分した
色彩で示している。図3の表示結果から特定領域に特定
記号(数字)が多く出現して傾向にあることがわかる。
【0026】入力される雑音を記号列の並びとし、この
記号列を処理して図3と同様のパターンを得ると、雑音
の中に存在している特徴を抽出することが可能となり、
雑音の中に存在する有意義な音のみを取り出すことが可
能となる。また、図3に示されるパターンは例えば有価
証券の地模様として用いることが可能であり、この複雑
な地模様を一次元の記号列で特定できることがわかる。
【0027】図4は意図的に作り出した周期19の循環
小数を処理した結果を示し、分解する部分記号列の数k
に応じて様々な模様を創作できる。この模様創作技術に
よって様々な織り柄をデザインすることが可能となる。
【0028】図5は周期13の循環小数の処理結果を示
し、図4とはまた異なる模様を創作できることがわか
る。
【0029】図6から8は、イタヤ貝の貝柱のミオシン
のアミノ酸残基配列を残基の性質によって示す記号列を
処理した結果を示しており、塩基性が青、極性が緑、酸
性が赤、疎水性が黄色で示されている。図6においてk
=7の並列配置に顕著な黄色の縦筋が現れ、周期7の規
則性の存在が見出される。この周期7の疎水性残基の規
則性はαヘリックスに対応し、この手法によってαヘリ
ックスの存在が確認でき、かつその存在箇所を特定でき
る。このαヘリックスはk=7、14、28、35の並
列配置に黄色の縦筋になって顕在化され、且つ、k=2
2、27、29の並列配置に黄色の斜線に顕在化されて
いる。
【0030】図9は源氏物語の母音の並びを示す記号列
に本発明を適用して母音「お」の存在箇所にドットを表
示した例を示している。左側は桐壷の章の分析結果を示
し、右側は箒木の章の分析結果を示している。両章で母
音の出現頻度を分析すると、全体としてはほぼ同一であ
るにもかかわらず、母音「お」が文書中の特定領域では
出現頻度が高く、他の特定領域で低いという特徴が顕在
化される。この手法によって、文字情報の特徴抽出がや
りやすくなる。
【0031】図10は処理する記号列Ij (j=1〜1
00)に対する処理内容を模式的に示している。ここ
で、抽出したい規則性の周期がわかっている場合には、
その周期の数に分割した部分記号列を並列配置すること
でその周期の規則性が実際に存在しているか否か、存在
している場合にはそれがどこに存在しているかを容易に
確認できるようになる。周期性が未知であるある場合に
は、kを変化させて次々に並列配置することで未知の周
期の規則性が顕在化される。
【0032】図11は処理する記号列に対する前処理の
例を示しており、(A)に示される記号列Jの一部を処
理する場合には、(B)に示されるようにその処理対象
部分が本発明の全体記号列Iとされる。また、例えば、
(C)に示されるように、複数記号の組み合わせで一つ
の記号が特定されている場合には、その複数の記号の組
み合わせで特定される記号の列に対して本手法を適用す
る。あるいはまた、移動平均を計算する場合のように、
記号列Kの順序123の記号から一つの記号を得、次に
記号列Kの順序234の記号から一つの記号を得、これ
を繰り返して一つの記号列Iに変換し、この変換された
記号列Iをこの方法で処理しても良い。更に、(E)に
示されるように、記号列Lのなかに特定周期で存在して
いる記号列に対しては、まず、その周期の記号列を抽出
してその抽出された記号列に対して本手法を適用しても
良い。
【0033】これに代わって、図12に例示されるよう
に、請求項2の方法を適用しても良い。この手法ではk
q個毎に1記号を抽出する。図示の場合はq=5であ
り、順序が5・10・15・・・である記号を抽出しな
がら、kの個数に合わせて部分配列に分解する。この手
法によると、記号列L(図11の(E)に示される)に
隠れている記号列に更に隠れている規則性を顕在化でき
る。
【0034】上記のようにして部分記号列の並列配置が
得られたとき、その結果の表示には様々な手法が取り
得、記号を色彩で表示する手法、記号を濃淡で表示する
手法、記号を図柄記号で表示する方法、さらには得られ
た記号の行列を音色で表示しても良い。この場合には行
方向の記号の並びで和音を作成し、この和音を経時的に
変化させることで列方向の並びを表示する。このように
すると、記号列に存在している特徴が音を通して把握す
ることが可能になる。
【0035】本発明は、様々な記号列の分析に有用であ
り、デオキシリボ核酸ポリマーの塩基配列、リボ核酸ポ
リマーの塩基配列、蛋白質のアミノ酸配列、数字列、言
語列、音列等を分析する際に有用である。これらの分析
によって、有用情報の存在箇所を特定したり、有用情報
を抽出することが可能となる。また、一見するだけでは
区別できない2つの記号列に対してこの方法を適用する
と、特徴が顕在化されてその同一性が容易に判断可能と
なる。その意味で、この方法で顕在化される特徴ないし
規則性は一定の周期をもった繰り返しパターンに限定さ
れるものでなく出現頻度の分布などに見られる特徴も顕
在化される。さらに、部分記号列に分解する個数の増分
rは必ずしも1でなくてもよいばかりでなく、定数でな
くても良く、不規則に分布するk1,k2,k3・・・
に従ってこの方法を実施することで2以上の記号列に存
在する特徴が顕在化されてその同一性の判断が容易化さ
れる。
【0036】以上の説明は本発明の具体例に過ぎず、こ
の発明は請求範囲に記載のもとで様々に用いることがで
きる。
【図面の簡単な説明】
【図1】ヒトゲノムDNAの塩基配列を部分記号列の並
列配置で示す一例。
【図2】図1の配置関係を示す図。
【図3】円周率を示す記号列を部分記号列の並列配置で
示す一例。
【図4】19の循環小数という記号列を部分記号列の並
列配置で示す一例。
【図5】13の循環小数という記号列を部分記号列の並
列配置で示す一例。
【図6】ミオシンのアミノ酸残基配列を部分記号列の並
列配置で示す一例。
【図7】ミオシンのアミノ酸残基配列を部分記号列の並
列配置で示す一例。
【図8】ミオシンのアミノ酸残基配列を部分記号列の並
列配置で示す一例。
【図9】源氏物語に出現する母音「お」の存在位置を並
列配置で示す一例。
【図10】100個の記号列を部分記号列の並列配置で
示す一例。
【図11】記号列に対する前処理を説明する図。
【図12】記号列を部分記号列の並列配置で示す他の
例。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 J.Mol.Biol.(2000)298, p343−349 (58)調査した分野(Int.Cl.7,DB名) G06F 17/00 G06F 19/00 G06T 7/00 INSPEC(DIALOG) JICSTファイル(JOIS) WPI(DIALOG)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 内在する特徴あるいは規則性が未知の複
    雑な記号列を処理して該特徴あるいは規則性を顕在化す
    る方法であって、 該記号列全体から所定の個数ごとに抽出した1以上の要
    素からなる部分記号列に対して、記号列に含まれる各記
    号を、記号種ごとに決められた色相、明度、彩度または
    これらの組合せからなるカラードットとし、該カラード
    ットを更にマトリクス状に配置したカラードットマトリ
    クスを順次出力し、該カラードットマトリクスを出力す
    ることで得られる色彩パターンによって、内在する特徴
    あるいは規則性を顕在化させる、複雑な記号列に潜む特
    徴を顕在化する方法。
  2. 【請求項2】 内在する特徴あるいは規則性が未知の複
    雑な記号列を処理して該特徴あるいは規則性を顕在化す
    る方法であって、 複雑な記号列を複数の部分記号列に分割し、分割された
    部分記号列に含まれる各記号を記号種ごとに決められた
    色相、明度、彩度またはこれらの組合せで表示した部分
    カラードット列とし、該部分カラードット列を並列配置
    することでカラードットをマトリクス状に配置したカラ
    ードットマトリクスを出力し、該カラードットマトリク
    スを出力することで得られる色彩パターンによって、内
    在する特徴あるいは規則性を顕在化させる、複雑な記号
    列に潜む特徴を顕在化する方法。
  3. 【請求項3】 請求項1または2の顕在化方法におい
    て、複雑な記号列をIj (j=1〜m)としたときに、記号列
    を構成する各記号を下記の配置パターン、すなわち、 ( j= 1, 2, 3,・・・, k ) ( j= k+1, k+2, k+3,・・・, k+k ) ・ ・ ・( j= (n-1)k+1, (n-1)k+2, (n-1)k+3,・・・,(n-1)k+k ) ( j= nk+1, nk+2, nk+3,・・・, nk+k ) ( ただし、kは2以上の整数であり、nはnk+1≦m≦nk+k
    の自然数である)に従って配置してカラードットマトリ
    クスを出力することを特徴とする、複雑な 記号列に潜む
    特徴を顕在化する方法。
  4. 【請求項4】 請求項1または2の顕在化方法におい
    て、複雑な記号列をIj (j=1〜m)としたときに、記号列
    を構成する各記号を下記の配置パターン、すなわち、 ( j= q, 2q, 3q,・・・, kq ) ( j= (k+1)q, (k+2)q, (k+3)q,・・・, (k+k)q ) ・ ・ ・( j= ((n-1)k+1)q, ((n-1)k+2)q,( (n-1)k+3)q,・・・, ((n-1)k+k )q) ( j= (nk+1)q, (nk+2)q, (nk+3)q,・・・, (nk+k)q ) ( ただし、kは2以上の整数であり、qは自然数であり、n
    は(nk+1)q≦m≦(nk+k)qの自然数である)に従って配置
    してカラードットマトリクスを出力することを特徴とす
    る、複雑な記号列に潜む特徴を顕在化する方法。
  5. 【請求項5】 pをm未満の任意の自然数、rを任意の自
    然数としたときに、k=p,p+r, p+2r, p+3r・・・・と置
    き換えながら、請求項又はの方法を実施し、p列の
    カラードットマトリクス、p+r列のカラードットマトリ
    クス、以下同様に、p+2r, p+3r・・・列のカラードット
    マトリクスの全体を並列配置したカラードットマトリク
    ス群を出力して複雑な記号列に潜む特徴を顕在化する方
    法。
  6. 【請求項6】 内在する特徴あるいは規則性が未知の複
    雑な記号列を処理することで作成され、該特徴あるいは
    規則性を色彩パターンによって顕在化したカラードット
    のマトリクス表示物であり、 該記号列全体から所定の個数ごとに抽出した1以上の要
    素からなる部分記号列に対して、記号列に含まれる各記
    号を、記号種ごとに決められた色相、明度、彩度または
    これらの組合せからなるカラードットとし、該カラード
    ットを更にマトリクス状に配置することによって該カラ
    ードットマトリクスが順次出力されており、 該カラードットマトリクス上に記号列に潜んでいた特徴
    が色彩パターンによっ て顕在化されているカラードット
    のマトリクス表示物。
  7. 【請求項7】 内在する特徴あるいは規則性が未知の複
    雑な記号列を処理することで作成され、該特徴あるいは
    規則性を色彩パターンによって顕在化したカラードット
    のマトリクス表示物であり、 複雑な記号列を複数の部分記号列に分割し、分割された
    部分記号列に含まれる各記号を記号種ごとに決められた
    色相、明度、彩度またはこれらの組合せで表示した部分
    カラードット列で表示し、その部分カラードット列を並
    列配置することでカラードットがマトリクス状に配置さ
    れており、 該カラードットマトリクス上に記号列に潜んでいた特徴
    が色彩パターンによって顕在化されているカラードット
    のマトリクス表示物。
  8. 【請求項8】 DNA塩基配列または蛋白質のアミノ酸
    配列を示す記号列から作成された請求項6または7のカ
    ラードットのマトリクス表示物。
JP22390897A 1997-08-20 1997-08-20 記号列の特徴顕在化方法 Expired - Fee Related JP3149824B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP22390897A JP3149824B2 (ja) 1997-08-20 1997-08-20 記号列の特徴顕在化方法
EP04025542A EP1501025A3 (en) 1997-08-20 1998-08-19 Method and apparatus for manifesting characteristic existing in symbolic sequence
EP98115643A EP0898236B1 (en) 1997-08-20 1998-08-19 Method and apparatus for manifesting characteristic existing in symbolic sequence
DE69827445T DE69827445T2 (de) 1997-08-20 1998-08-19 Verfahren und Gerät um eine in einer symbolischen Reihe bestehende Charakteristik zu offenbaren
US09/137,162 US6438496B1 (en) 1997-08-20 1998-08-20 Method and apparatus for revealing latent characteristics existing in symbolic sequences
US10/137,402 US6862532B2 (en) 1997-08-20 2002-05-03 Apparatus for manifesting latent characteristics existing in sequences of symbols

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22390897A JP3149824B2 (ja) 1997-08-20 1997-08-20 記号列の特徴顕在化方法

Publications (2)

Publication Number Publication Date
JPH1166040A JPH1166040A (ja) 1999-03-09
JP3149824B2 true JP3149824B2 (ja) 2001-03-26

Family

ID=16805604

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22390897A Expired - Fee Related JP3149824B2 (ja) 1997-08-20 1997-08-20 記号列の特徴顕在化方法

Country Status (4)

Country Link
US (2) US6438496B1 (ja)
EP (2) EP1501025A3 (ja)
JP (1) JP3149824B2 (ja)
DE (1) DE69827445T2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7467047B2 (en) 2000-05-10 2008-12-16 E.I. Du Pont De Nemours & Company Method of discovering patterns in symbol sequences
AU2002228834A1 (en) 2000-12-01 2002-06-11 Sri International Data relationship model
WO2002061426A1 (fr) * 2001-02-01 2002-08-08 Toagosei Co.,Ltd Procédé et dispositif d'aide à l'analyse de réseaux hybridés
US20030033126A1 (en) * 2001-05-10 2003-02-13 Lincoln Patrick Denis Modeling biological systems
JP4356270B2 (ja) * 2001-07-31 2009-11-04 東亞合成株式会社 アレイにおけるスポットの均一性評価方法
US7308363B2 (en) * 2002-01-23 2007-12-11 Sri International Modeling and evaluation metabolic reaction pathways and culturing cells
EP1690207B1 (en) * 2003-12-05 2010-09-29 Council of Scientific and Industrial Research A computer based versatile method for identifying protein coding dna sequences useful as drug targets
US20060235845A1 (en) * 2005-04-15 2006-10-19 Argentar David R Identifying patterns of symbols in sequences of symbols using a binary array representation of the sequence
US7984003B2 (en) * 2006-07-21 2011-07-19 Nathaniel Williams Method and system for automated learning through repetition
US8965076B2 (en) * 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
CN103049246B (zh) * 2012-12-05 2015-06-10 北京奇虎科技有限公司 一种矩阵数据元素标识连续化方法和系统
CN104714782B (zh) * 2012-12-05 2017-12-08 北京奇虎科技有限公司 一种矩阵数据元素标识连续化方法和系统
CN109375989B (zh) * 2018-09-10 2022-04-08 中山大学 一种并行后缀排序方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5953006A (en) * 1992-03-18 1999-09-14 Lucent Technologies Inc. Methods and apparatus for detecting and displaying similarities in large data sets

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J.Mol.Biol.(2000)298,p343−349

Also Published As

Publication number Publication date
US6438496B1 (en) 2002-08-20
US6862532B2 (en) 2005-03-01
EP0898236B1 (en) 2004-11-10
EP1501025A2 (en) 2005-01-26
DE69827445T2 (de) 2005-10-27
DE69827445D1 (de) 2004-12-16
EP1501025A3 (en) 2005-02-02
EP0898236A2 (en) 1999-02-24
EP0898236A3 (en) 2001-01-10
US20020172971A1 (en) 2002-11-21
JPH1166040A (ja) 1999-03-09

Similar Documents

Publication Publication Date Title
JP3149824B2 (ja) 記号列の特徴顕在化方法
Wilkinson et al. The history of the cluster heat map
Allan et al. A comparison of the strength of biodiversity effects across multiple functions
US20090129647A1 (en) Methods and systems for identification of dna patterns through spectral analysis
Rossi et al. Statistical tool for soil biology. XI. Autocorrelogram and Mantel test
Karp Mathematical challenges from genomics and molecular biology
Kavakiotis et al. FIFS: A data mining method for informative marker selection in high dimensional population genomic data
Gnoli Phylogenetic classification
Tang et al. Predicting unrecognized enhancer-mediated genome topology by an ensemble machine learning model
CN1598821A (zh) 基于特征的基因组序列数据库的搜索方法
Estabrook Evolutionary classification using convex phenetics
Burma et al. Genome analysis: a new approach for visualization of sequence organization in genomes
EP2310968B1 (en) A method for spectral dna analysis
Johansson et al. A novel method for automatic genotyping of microsatellite markers based on parametric pattern recognition
US8160854B2 (en) Method of managing and displaying gene expression data
Jordan et al. Cryptic Native American ancestry recapitulates population-specific migration and settlement of the continental United States
WO2008129458A1 (en) A method for data mining dna frequency based spectra
CN117095747B (zh) 一种基于线性泛基因组和人工智能模型检测群体倒位或转座子端点基因型的方法
AU2021363121B2 (en) Detection of deletions in oligonucleotide sequences
Vieira et al. A New Data Modeling Approach for Alignment-free Biological Applications
Cockell et al. 17 Bioconductor Tools for Microarray Data Analysis
Santo et al. Improvement of spectral analysis as a genomic analysis tool
Canessa Physics-based signal analysis of genome sequences: GenomeBits overview
Wilkinson et al. THE HISTORY CORNER
Legendre Report on seventeenth international numerical taxonomy conference

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090119

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090119

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100119

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100119

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100119

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110119

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110119

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120119

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120119

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130119

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130119

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees