JP7260934B2 - 生物学的配列に基づく負の配列パターンの類似性分析方法、その実装システム及び媒体 - Google Patents
生物学的配列に基づく負の配列パターンの類似性分析方法、その実装システム及び媒体 Download PDFInfo
- Publication number
- JP7260934B2 JP7260934B2 JP2021561803A JP2021561803A JP7260934B2 JP 7260934 B2 JP7260934 B2 JP 7260934B2 JP 2021561803 A JP2021561803 A JP 2021561803A JP 2021561803 A JP2021561803 A JP 2021561803A JP 7260934 B2 JP7260934 B2 JP 7260934B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- sequences
- frequent
- negative
- similarity analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Description
本発明は、また、上記の類似性分析方法の実装システムを提供することを目的とする。
本明細書において、「DNA配列」とは、遺伝子配列とも言われ、文字列を使用して遺伝子情報を運ぶ実際のまたは仮想のDNA分子の一次構造をいう。
a、データセットをスキャンして長さ1のすべての配列パターンを取得し、元のシードセットP1に配置する。
b、元のシードセットP1から長さ1の配列パターンを取得し、連結操作によって長さ2の候補配列セットC2を生成し、Aprioriプロパティを使用して候補配列セットC2をプルーニングし、候補配列セットC2をスキャンして残りの配列のサポートを決定し、最小サポートよりも高いサポートで配列パターンを保存し、長さ2の配列パターンL2を出力し、且つ長さ2のシードセットとして、長さが増加する候補配列の生成に使用する。この方法で、長さ3の配列パターンL3、長さ4の配列パターンL4…長さn+1の配列パターンLn+1を出力し、新しい配列パターンがマイニングできなくなるまでとする。取得した配列パターンは正の頻出配列の全部であり、最小サポートは人為的に設定されたサポートしきい値min_supと設定する。以下のように記述される。
L1→C2→L2→C3→L3→C4→L4……Ln+1が生成できない場合に停止する。
NSCは、負の候補配列を指し、正の頻出配列は、まとめて正の配列と呼ばれる。正の配列からすべての非冗長NSCを生成する上で、NSCを生成する重要な工程が、正パターンを持つ非連続要素を負パートナーに変換することである。 k-sizeのPSPにとっては、NSCsは、m個の隣接しない要素を¬で表される負の数に変更することによって生成される。m= 1,2、...、「k / 2」,「k / 2」がk / 2以上の最小整数である。k-sizeは配列のサイズがkであることをいう。たとえば、配列S={A T T C C}の場合、そのサイズが5-sizeである。 NSCs:すべての負候補配列を指す。
式(X)を使用して、最大頻出12種の正・負の配列パターンをデジタル配列に変換する。以下のとおり、配列Human1を例に示す。式(IX)-(X)により、s(H1)= {0.866+0.5i,1.366-0.366i,2.2321+0.134i,3.0981+0.634i,3.5981+1.5i, 4.4641+2i}という複素数配列を取得する。モジュールで構成される時系列はS(H1)={1.0000,1.4142,2.2361,3.1623,3.8982,4.8916}である。この方法により、12種の頻出配列パターンの変換後の時系列を取得できる。
図1に示されるとおり、工程(1)~(4)を含む生物学的配列に基づく負の配列パターンの類似性分析方法
実施例1に記載の生物学的配列に基づく負の配列パターンの類似性分析方法
異なることは、工程(2)において、以下に示す工程A~Cを経て、f-NSPアルゴリズムを使用してデータセットをマイニングし、データセットはDとすることである。
a、データセットをスキャンして長さ1のすべての配列パターンを取得し、それらを元のシードセットP1に配置する。
b、元のシードセットP1から長さ1の配列パターンを取得し、連結操作によって長さ2の候補配列セットC2を生成し、Aprioriプロパティを使用して候補配列セットC2をプルーニングし、候補配列セットC2をスキャンして残りの配列のサポートを決定し、最小サポートよりも高いサポートで配列パターンを保存し、長さ2の配列パターンL2を出力し、且つ長さ2のシードセットとして、長さが増加する候補配列の生成に使用する。この方法で、長さ3の配列パターンL3、長さ4の配列パターンL4…長さn+1の配列パターンLn+1を出力し、新しい配列パターンがマイニングできなくなるまでとする。取得した配列パターンは正の頻出配列の全部であり、最小サポートは人為的に設定されたサポートしきい値min_supで、次のように記述される。
NSCは、負の候補配列を指し、正の頻出配列は、まとめて正の配列と呼ばれる。正の配列からすべての非冗長NSCを生成する上で、NSCを生成する重要な工程が、正パターンを持つ非連続要素を負パートナーに変換することである。 k-sizeのPSPにとっては、NSCsは、m個の隣接しない要素を¬で表される負の数に変更することによって生成される。m = 1,2,…, 「k / 2」,「k / 2」がk / 2以上の最小整数で、k-sizeは配列のサイズがkであることをいう。たとえば、配列S={A T T C C}の場合、そのサイズが5-sizeである。NSCs:すべての負候補配列を指す。
実施例1に記載の生物学的配列に基づく負の配列パターンの類似性分析方法
式(X)を使用して、最大頻出12種の正・負の配列パターンをデジタル配列に変換する。以下のとおり、配列Human1を例に示す。式(IX)-(X)により、s(H1)= {0.866+0.5i,1.366-0.366i,2.2321+0.134i,3.0981+0.634i,3.5981+1.5i, 4.4641+2i}という複素数配列を取得する。モジュールで構成される時系列はS(H1)={1.0000,1.4142,2.2361,3.1623,3.8982,4.8916}である。この方法により、12種の頻出配列パターンの変換後の時系列を取得できる。
実施例1に記載の生物学的配列に基づく負の配列パターンの類似性分析方法
異なることは、工程(4)において、DTWアルゴリズムを使って、異なるDNA配列の類似性を表すために用いられる距離行列を取得する。
実施例1~4のいずれかに記載の生物学的配列に基づく負の配列パターンの類似性分析方法の実装システム
Claims (6)
- 生物学的配列に基づく負の配列パターンの類似性分析方法であって、
データの前処理工程(1)において、DNA配列内の文字を数字で表し、数字で表された配列をいくつかの同じ塩基数のブロックに分割し、取得したブロックを頻出パターンマイニングのデータセットとして使用する工程と、
頻出パターンマイニング工程(2)において、f-NSPアルゴリズムを使用してデータセットをマイニングし、最大頻出正・負の配列パターンを取得する工程と、
最大頻出正・負の配列パターンをグラフィックに表現する工程(3)と、
DNA配列の類似性分析工程(4)において、類似性が小さいほど、DNA配列は類似するに基づく、異なるDNA配列の類似性を求める工程
を含む
ことを特徴とする生物学的配列に基づく負の配列パターンの類似性分析方法。 - 生物学的配列に基づく負の配列パターンの類似性分析方法であって、
工程(2)において、f-NSPアルゴリズムを使用して、データセットDをマイニングし、
工程Aにおいて、GSPアルゴリズムを使用して、すべての正の頻出配列を取得し、各正の頻出配列に対応するビットマップをハッシュテーブルに格納し、
データセットをスキャンして長さ1のすべての配列パターンを取得し、元のシードセットP1に配置する工程aと、
元のシードセットP1から長さ1の配列パターンを取得し、連結操作によって長さ2の候補配列セットC2を生成し、Aprioriプロパティを使用して候補配列セットC2をプルーニングし、候補配列セットC2をスキャンして残りの配列のサポートを決定し、最小サポートよりも高いサポートで配列パターンを保存し、長さ2の配列パターンL2を出力し、且つ長さ2のシードセットとして、長さが増加する候補配列の生成に使用し、この方法で、長さ3の配列パターンL3、長さ4の配列パターンL4…長さn+1の配列パターンLn+1を出力し、新しい配列パターンがマイニングできなくなるまでとし、取得した配列パターンは正の頻出配列の全部であり、最小サポートは人為的に設定されたサポートしきい値min_supと設定する工程bとを含む工程Aと、
工程Bにおいて、すべての正の頻出配列に基づいて対応するNSCを生成し、NSCは、負の候補配列をいい、正の頻出配列は、まとめて正の配列と呼ばれ、k-sizeのPSPにとっては、NSCsは、m個の隣接しない要素を¬で表される負の数に変更することによって生成され、m= 1,2、...、「k/2」,「k/2」がk/2以上の最小整数であり、k-sizeとは配列のサイズがkであり、NSCsとはすべての負候補配列のことである工程Bと、
請求項1に記載の生物学的配列に基づく負の配列パターンの類似性分析方法。 - 生物学的配列に基づく負の配列パターンの類似性分析方法であって、
工程(3)において、複素平面におけるプリンピリミジン図を作成し、プリンピリミジン図において、第1象限・第2象限はA、¬A、Gと¬Gを含むプリンを表し、第3象限・第4象限は、T、¬T、Cと¬Cを含むピリミジンを表し、4つのヌクレオチドA、G、T、Cおよび対応する負の配列の単位ベクトル¬ A、¬G、¬T、¬Cを式(I )~式(VIII)に示されるとおり:
式(X)を使用して、最大頻出12種の正・負の配列パターンをデジタル配列に変換し、
最大頻出正・負の配列パターンをグラフィックに表現する
請求項1に記載の生物学的配列に基づく負の配列パターンの類似性分析方法。 - 生物学的配列に基づく負の配列パターンの類似性分析方法であって、工程(4)において、異なるDNA配列の類似性を表すために用いられる距離行列を取得する
請求項1ないし3のいずれかに記載の生物学的配列に基づく負の配列パターンの類似性分析方法。 - 生物学的配列に基づく負の配列パターンの類似性分析方法の実装システムであって、
データ前処理モジュール、頻出パターンマイニングモジュール、グラフィック表現モジュール、類似性分析モジュールを順次接続し、データ前処理モジュールが工程(1)の実行に用いられ、頻出パターンマイニングモジュールが工程(2)の実行に用いられ、グラフィック表現モジュールが工程(3)の実行に用いられ、類似性分析モジュールが工程(4)の実行に用いられる
請求項1ないし5のいずれかに記載の生物学的配列に基づく負の配列パターンの類似性分析方法の実装システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011022788.8 | 2020-09-25 | ||
CN202011022788.8A CN112182497B (zh) | 2020-09-25 | 2020-09-25 | 一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质 |
PCT/CN2020/128253 WO2022062114A1 (zh) | 2020-09-25 | 2020-11-12 | 一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022553473A JP2022553473A (ja) | 2022-12-23 |
JP7260934B2 true JP7260934B2 (ja) | 2023-04-19 |
Family
ID=80822966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021561803A Active JP7260934B2 (ja) | 2020-09-25 | 2020-11-12 | 生物学的配列に基づく負の配列パターンの類似性分析方法、その実装システム及び媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220101949A1 (ja) |
JP (1) | JP7260934B2 (ja) |
KR (1) | KR20220042300A (ja) |
CA (1) | CA3129990A1 (ja) |
-
2020
- 2020-11-12 CA CA3129990A patent/CA3129990A1/en active Pending
- 2020-11-12 JP JP2021561803A patent/JP7260934B2/ja active Active
- 2020-11-12 KR KR1020217034664A patent/KR20220042300A/ko unknown
-
2021
- 2021-08-27 US US17/446,176 patent/US20220101949A1/en not_active Abandoned
Non-Patent Citations (1)
Title |
---|
Xiangjun Dong, et al.,F-NSP+: A Fast Negative Sequential Patterns Mining Method with Self-adaption Data Storage Strategy,[online],2018年01月13日,Pages 1-35,[検索日:2022年12月22日], <URL:https://datasciences.org/publication/F-NSP+.pdf> |
Also Published As
Publication number | Publication date |
---|---|
KR20220042300A (ko) | 2022-04-05 |
US20220101949A1 (en) | 2022-03-31 |
JP2022553473A (ja) | 2022-12-23 |
CA3129990A1 (en) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Berger et al. | Visualization and analysis of DNA sequences using DNA walks | |
JPH11232291A (ja) | 蛋白質立体構造データベース検索方法 | |
WO2002026934A2 (en) | System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN114287000A (zh) | 信息检索和/或可视化方法 | |
JP2011243148A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP7260934B2 (ja) | 生物学的配列に基づく負の配列パターンの類似性分析方法、その実装システム及び媒体 | |
CN112182497B (zh) | 一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质 | |
US20220171815A1 (en) | System and method for generating filters for k-mismatch search | |
Zhang et al. | A hierarchical feature selection model using clustering and recursive elimination methods | |
KR100538451B1 (ko) | 분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색시스템 및 그 방법 | |
Rathore et al. | Approximate cluster heat maps of large high-dimensional data | |
US6898530B1 (en) | Method and apparatus for extracting attributes from sequence strings and biopolymer material | |
CN112992347A (zh) | 基于拉普拉斯正则化最小二乘和网络投影的lncRNA-疾病关联预测方法和系统 | |
JP5087518B2 (ja) | 評価装置、及び、コンピュータプログラム | |
CN111259176A (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
WO2012029152A2 (ja) | データ集合間距離算出装置および方法 | |
Barik et al. | Pattern discovery using fuzzy fp-growth algorithm from gene expression data | |
Sanchez-Gendriz et al. | Gene Sequence to 2D Vector Transformation for Virus Classification | |
Tewfik et al. | Biclustering of DNA microarray data with early pruning | |
Li et al. | A novel LASSO-based feature weighting selection method for microarray data classification | |
CN113988139A (zh) | 基于多数据集协同分析的高光谱波段选择方法及存储介质 | |
JP2023013868A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
CN117746997A (zh) | 一种基于多模态先验信息的顺式调控模体识别方法 | |
JP2023013863A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230331 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7260934 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |