JP6843457B1 - 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム - Google Patents
遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム Download PDFInfo
- Publication number
- JP6843457B1 JP6843457B1 JP2020178356A JP2020178356A JP6843457B1 JP 6843457 B1 JP6843457 B1 JP 6843457B1 JP 2020178356 A JP2020178356 A JP 2020178356A JP 2020178356 A JP2020178356 A JP 2020178356A JP 6843457 B1 JP6843457 B1 JP 6843457B1
- Authority
- JP
- Japan
- Prior art keywords
- gene sequence
- gene
- word
- sequence
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 209
- 238000012916 structural analysis Methods 0.000 claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 238000000926 separation method Methods 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 abstract description 28
- 238000010586 diagram Methods 0.000 abstract description 11
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 239000003623 enhancer Substances 0.000 description 16
- 108010076504 Protein Sorting Signals Proteins 0.000 description 15
- 230000000694 effects Effects 0.000 description 7
- 150000007523 nucleic acids Chemical group 0.000 description 6
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 108020004705 Codon Proteins 0.000 description 3
- 150000001413 amino acids Chemical class 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 108010026552 Proteome Proteins 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- GUYIZQZWDFCUTA-UHFFFAOYSA-N (pentadecachlorophthalocyaninato(2-))-copper Chemical compound [Cu+2].N1=C([N-]2)C3=C(Cl)C(Cl)=C(Cl)C(Cl)=C3C2=NC(C2=C(Cl)C(Cl)=C(Cl)C(Cl)=C22)=NC2=NC(C2=C(Cl)C(Cl)=C(Cl)C(Cl)=C22)=NC2=NC2=C(C(Cl)=C(C(Cl)=C3)Cl)C3=C1[N-]2 GUYIZQZWDFCUTA-UHFFFAOYSA-N 0.000 description 1
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 1
- 108090001102 Hammerhead ribozyme Proteins 0.000 description 1
- 102000007999 Nuclear Proteins Human genes 0.000 description 1
- 108010089610 Nuclear Proteins Proteins 0.000 description 1
- 101100271190 Plasmodium falciparum (isolate 3D7) ATAT gene Proteins 0.000 description 1
- 108020004566 Transfer RNA Proteins 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 235000021028 berry Nutrition 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003898 horticulture Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12M—APPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
- C12M1/00—Apparatus for enzymology or microbiology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Wood Science & Technology (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Zoology (AREA)
- Evolutionary Biology (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medicinal Chemistry (AREA)
- Software Systems (AREA)
- Microbiology (AREA)
- Sustainable Development (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
入力された遺伝子配列から遺伝子配列の構造解析を行う解析部と、
解析部による構造解析に基づいて遺伝子配列を分かち書きする分かち書き部と、
を含む、
遺伝子配列分かち書き生成装置。
(2)分かち書き部は、さらに構造解析による構造情報を遺伝子配列に反映させる、
上記(1)に記載の遺伝子配列分かち書き生成装置。
(3)分かち書き部は、分かち書きされた部分配列から可逆的に構造情報を有した配列を再構成するために、構造情報ごとに表記を換える、
上記(2)に記載の遺伝子配列分かち書き生成装置。
(4)解析部は、遺伝子配列の二次構造について解析する、
上記(1)〜(3)の何れか一つに記載の遺伝子配列分かち書き生成装置。
(5)上記(1)〜(4)の何れか一つに記載の遺伝子配列分かち書き生成装置と、
遺伝子配列分かち書き生成装置によって生成された遺伝子配列の分かち書きを記憶する第2記憶部と、
を含む、
遺伝子コーパス生成装置。
(6)遺伝子配列を入力する処理と、
入力された遺伝子配列から遺伝子配列の構造解析を行う処理と、
遺伝子配列の構造解析に基づいて遺伝子配列を分かち書きする処理と、
をコンピュータに実行させるプログラム。
図1〜図3を参照して、第1の実施形態に係る遺伝子配列分かち書き生成装置1aについて説明する。図1は、遺伝子配列分かち書き生成装置1aの例を示す概略図である。図2Aは、ID1の二次構造の例を示す図である。図2Bは、ID1に二次構造に基づいて解析された構造情報を付加して記載した例を示す図である。図2Cは、二次構造に基づいてID1を分かち書きした例を示す図である。図3Aは、ID2にアミノ酸情報およびシグナル配列に基づいて解析された切断サイトの位置情報を付加した例を示す図である。図3Bは、シグナル配列に基づいてID2を分かち書きした例を示す図である。図3Cは、シグナル配列に基づいてID2を分かち書きした別の例を示す図である。
(1)構造モチーフに基づく場合、ATATモチーフと、CGCGモチーフとを形態素として分かち書きすればよい。
(2)繰り返し配列に基づく場合、解析したい繰り返し配列を記号化し、繰り返し配列とそうではない配列とを形態素として、その間を分かち書きすればよい。なお、記号はどのようなものを指定してもよい。
(3)コドンに基づく場合、3塩基を形態素として、その間を分かち書きすればよい。
(4)エキソンとイントロンに基づく場合、エキソンとイントロンとを形態素として、その間を分かち書きすればよい。
(5)UTRとCDSに基づく場合、UTRとCDSとを形態素として、その間を分かち書きすればよい。
(1)構造解析に基づいて遺伝子配列の分かち書きを生成できる。そして、生成された遺伝子配列の分かち書きは、自然言語処理できる情報として扱える。
図1および図4を参照して、第2の実施形態に係る遺伝子配列分かち書き生成装置1bについて説明する。図4Aは、ID1に二次構造に基づいて解析された構造情報を付加して記載した例を示す図である。図4Bは、ID1の分かち書きの別の例を示す図である。
(1)構造情報を遺伝子配列に反映しているため、分かち書きされた意味のある単語がどのような構造であるか認識できる。
(2)構造解析による構造情報を遺伝子配列に反映し、構造ごとに表記を換えた分かち書きで生成した遺伝子コーパスを用いた機械学習において、機械学習により抽出された部分配列から可逆的に構造情報を有した配列を再構成できる。
図5を参照して、実施形態に係る遺伝子コーパス生成装置7について説明する。図5は、遺伝子コーパス生成装置7の例を示す概略図である。
(1)遺伝子の分かち書きを蓄積することで、自然言語処理に使用可能な遺伝子コーパスを生成できる。
(2)ラベルおよび/または数値の情報を付与した遺伝子の分かち書きを蓄積することで、ラベルおよび/または数値の情報が付与された遺伝子コーパスを生成できる。
(3)生成された遺伝子コーパスを用い機械学習を行うことができるので、未知遺伝子の分類・相関・回帰分析を行うことができる。
上記の実施形態に係る遺伝子配列分かち書き生成装置1aまたは1bは、コンピュータにより構成することができる。その際、コンピュータは既存のものをそのまま使用できる。すなわち、遺伝子配列を入力する処理と、入力された遺伝子配列から遺伝子の構造解析を行う処理と、遺伝子の構造解析に基づいて遺伝子配列を分かち書きする処理と、をコンピュータに実行させるプログラムを提供することで、コンピュータを遺伝子配列分かち書き生成装置1aまたは1bとすることができる。
[4文字表記の遺伝子配列の分かち書きの生成]
二次構造に基づいて遺伝子配列の分かち書きを生成した。ハンマーヘッド型リボザイム(ID3)、転移RNA(ID4)および核小体低分子RNA(ID5)を対象とした。また、解析部3での構造解析は、Vienna RNAfoldを用いて二次構造について行った。
[8文字表記の遺伝子配列の分かち書きの生成]
構造解析による構造情報を遺伝子配列に反映して遺伝子の分かち書きを生成した以外は、実施例1と同様に二次構造に基づいて遺伝子配列の分かち書きを生成した。
[4文字表記による遺伝子コーパスの生成]
単子葉植物から単離した上位5167種のエンハンサー(UTR)遺伝子配列(https://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DRA006661から入手したデータをYamasaki et al.,Plant Biotechnology,35,365−373(2018)に記載された処理により得た。)を二次構造に基づいて分かち書きをしたエンハンサー遺伝子配列の分かち書きを生成し、それら生成されたエンハンサー遺伝子配列の分かち書きを蓄積した遺伝子コーパスを生成した。なお、実施例3における分かち書きは、ステムとループとの間に空白を配置した4文字表記のものである。
[8文字表記による遺伝子コーパスの生成]
二次構造に基づいて分かち書きされた遺伝子配列の分かち書きを、ステムとループとの間に空白を配置することに加え、ステムが形成される配列をAUGCに換えてBVHDとし8文字表記とした以外は、実施例3と同様に遺伝子コーパスを生成した。
遺伝子配列の分かち書きを行わなかった以外は、実施例3と同様に遺伝子コーパスを生成した。
[遺伝子コーパスを用いた機械学習による分類予測1]
実施例3、実施例4および比較例1で生成した遺伝子コーパスを用い機械学習によりエンハンサー遺伝子配列の分類を行った。機械学習には、fastTextを用い、5167種のエンハンサー遺伝子配列のうち4000種のエンハンサー遺伝子配列を教師データとして、1167種のエンハンサー遺伝子配列の発現予測値の分類を行った。なお、fastTextのハイパーパラメータはデフォルトを用いた。
[遺伝子コーパスを用いた機械学習による分類予測2]
特表2013−503640号公報に記載されたエンハンサー遺伝子配列を用いて、発現量の分類予測を行った。発現量の分類予測は、教師データとして実施例4で生成した8文字表記による遺伝子コーパスを用い、fastTextによる機械学習を行った。
[遺伝子コーパスを用いた機械学習による遺伝子配列予測]
実施例4で生成した8文字表記による遺伝子コーパスを用い機械学習により高い発現効率が期待できるエンハンサー配列を予測した。予測は以下の手順で行った。
(1)実施例4で生成した遺伝子コーパスを用いラベルXLのF値を高めるようにfastTextのハイパーパラメータの調整を行った。
(2)ラベルXLを構成する単語のベクター重心を求め、各単語ベクターとベクター中心の距離を求め、距離の短いものから順に単語列を抽出した。
Claims (4)
- 遺伝子配列を入力する入力部と、
入力された遺伝子配列から遺伝子配列の構造解析を行う解析部と、
解析部による構造解析から得られた構造情報に基づいて遺伝子配列を分かち書きする分かち書き部と、
を含み、
分かち書き部が、構造情報の種類に応じて遺伝子配列の表記を換えることにより、構造情報を有した配列が、表記を換えた部分配列から可逆的に再構成される、
遺伝子配列分かち書き生成装置。 - 解析部は、遺伝子配列の二次構造について解析する、
請求項1に記載の遺伝子配列分かち書き生成装置。 - 請求項1または2に記載の遺伝子配列分かち書き生成装置と、
遺伝子配列分かち書き生成装置によって生成された遺伝子配列の分かち書きを記憶する記憶部と、
を含む、
遺伝子コーパス生成装置。 - 遺伝子配列を入力する処理と、
入力された遺伝子配列から遺伝子配列の構造解析を行う処理と、
遺伝子配列の構造解析から得られた構造情報に基づいて遺伝子配列を分かち書きし、構造情報の種類に応じて遺伝子配列の表記を換えることにより、構造情報を有した配列が、表記を換えた部分配列から可逆的に再構成される処理と、
をコンピュータに実行させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020178356A JP6843457B1 (ja) | 2020-10-23 | 2020-10-23 | 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム |
PCT/JP2021/038909 WO2022085756A1 (ja) | 2020-10-23 | 2021-10-21 | 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020178356A JP6843457B1 (ja) | 2020-10-23 | 2020-10-23 | 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6843457B1 true JP6843457B1 (ja) | 2021-03-17 |
JP2022069267A JP2022069267A (ja) | 2022-05-11 |
Family
ID=74860866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020178356A Active JP6843457B1 (ja) | 2020-10-23 | 2020-10-23 | 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6843457B1 (ja) |
WO (1) | WO2022085756A1 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3881238B2 (ja) * | 2001-12-28 | 2007-02-14 | セレスター・レキシコ・サイエンシズ株式会社 | Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体 |
JPWO2004051546A1 (ja) * | 2002-11-29 | 2006-04-06 | 株式会社インシリコサイエンス | 配列情報処理装置、配列情報処理方法、プログラムおよび記録媒体 |
JP2004310561A (ja) * | 2003-04-09 | 2004-11-04 | Hitachi Ltd | 情報検索方法、情報検索システム及び検索サーバ |
WO2005057464A1 (en) * | 2003-12-05 | 2005-06-23 | Council Of Scientific And Industrial Research | A computer based versatile method for identifying protein coding dna sequences useful as drug targets |
CN100533431C (zh) * | 2005-09-21 | 2009-08-26 | 富士通株式会社 | 一种基于语素标注的自然语言成分识别、校正装置及方法 |
-
2020
- 2020-10-23 JP JP2020178356A patent/JP6843457B1/ja active Active
-
2021
- 2021-10-21 WO PCT/JP2021/038909 patent/WO2022085756A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022085756A1 (ja) | 2022-04-28 |
JP2022069267A (ja) | 2022-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Löytynoja et al. | Accurate extension of multiple sequence alignments using a phylogeny-aware graph algorithm | |
AU2014340461B2 (en) | Systems and methods for using paired-end data in directed acyclic structure | |
Huang et al. | Protein folding simulations of 2D HP model by the genetic algorithm based on optimal secondary structures | |
Stiller et al. | Complexity of avian evolution revealed by family-level genomes | |
WO2007135996A1 (ja) | 文字列更新量評価プログラム | |
Esmaili-Taheri et al. | Evolutionary solution for the RNA design problem | |
JP2015004996A (ja) | 複数の文書をクラスタリングする装置 | |
Chang et al. | An ILP solution for the gene duplication problem | |
Siederdissen et al. | Discriminatory power of RNA family models | |
Hussein et al. | Flower pollination algorithm with profile technique for multiple sequence alignment | |
JP6843457B1 (ja) | 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム | |
Thode et al. | Comparative analyses of Mikania (Asteraceae: Eupatorieae) plastomes and impact of data partitioning and inference methods on phylogenetic relationships | |
US20200243162A1 (en) | Method, system, and computing device for optimizing computing operations of gene sequencing system | |
Gusfield | Persistent phylogeny: a galled-tree and integer linear programming approach | |
JP5604465B2 (ja) | テキスト要約装置、方法、及びプログラム | |
Wang et al. | CRISPR-GNL: an improved model for predicting CRISPR activity by machine learning and featurization | |
Kumar et al. | Modeling human genome (3D) using linear & nearest interpolation | |
Almutiri et al. | A survey of machine learning and deep learning applications in genome editing | |
Bartoli et al. | On the automatic construction of regular expressions from examples (GP vs. Humans 1-0) | |
Fowler et al. | A Comparison of Machine Learning Models for Predicting CRISPR/Cas On-target Efficacy | |
Das et al. | PtRNAdb: A web resource of Plant tRNA genes from a wide range of plant species | |
Lan et al. | Optimized sgRNA design by deep learning to balance the off-target effects and on-target activity of CRISPR/Cas9 | |
Kumar et al. | Tools and Methods in the Analysis of Simple Sequences | |
Joshi et al. | Parallelization of Velvet,“a de novo genome sequence assembler” | |
Mannion | Predicting Single Guide RNA Targets for Genome Editing Using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201116 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20201116 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6843457 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |