JP2022069267A - Gene sequence word segmentation generator, gene corpus generating device, and program - Google Patents
Gene sequence word segmentation generator, gene corpus generating device, and program Download PDFInfo
- Publication number
- JP2022069267A JP2022069267A JP2020178356A JP2020178356A JP2022069267A JP 2022069267 A JP2022069267 A JP 2022069267A JP 2020178356 A JP2020178356 A JP 2020178356A JP 2020178356 A JP2020178356 A JP 2020178356A JP 2022069267 A JP2022069267 A JP 2022069267A
- Authority
- JP
- Japan
- Prior art keywords
- gene sequence
- gene
- sequence
- word
- division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 210
- 230000011218 segmentation Effects 0.000 title abstract description 7
- 238000012916 structural analysis Methods 0.000 claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 238000000926 separation method Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 abstract description 28
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 239000003623 enhancer Substances 0.000 description 16
- 108010076504 Protein Sorting Signals Proteins 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 6
- 150000007523 nucleic acids Chemical group 0.000 description 6
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 108020004705 Codon Proteins 0.000 description 3
- 150000001413 amino acids Chemical class 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 108010026552 Proteome Proteins 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- GUYIZQZWDFCUTA-UHFFFAOYSA-N (pentadecachlorophthalocyaninato(2-))-copper Chemical compound [Cu+2].N1=C([N-]2)C3=C(Cl)C(Cl)=C(Cl)C(Cl)=C3C2=NC(C2=C(Cl)C(Cl)=C(Cl)C(Cl)=C22)=NC2=NC(C2=C(Cl)C(Cl)=C(Cl)C(Cl)=C22)=NC2=NC2=C(C(Cl)=C(C(Cl)=C3)Cl)C3=C1[N-]2 GUYIZQZWDFCUTA-UHFFFAOYSA-N 0.000 description 1
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 1
- 108090001102 Hammerhead ribozyme Proteins 0.000 description 1
- 108010089610 Nuclear Proteins Proteins 0.000 description 1
- 102000007999 Nuclear Proteins Human genes 0.000 description 1
- 101100271190 Plasmodium falciparum (isolate 3D7) ATAT gene Proteins 0.000 description 1
- 108020004566 Transfer RNA Proteins 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 235000021028 berry Nutrition 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003898 horticulture Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12M—APPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
- C12M1/00—Apparatus for enzymology or microbiology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Wood Science & Technology (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Zoology (AREA)
- Evolutionary Biology (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medicinal Chemistry (AREA)
- Software Systems (AREA)
- Microbiology (AREA)
- Sustainable Development (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
本出願における開示は、遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラムに関する。 The disclosure in this application relates to a gene sequence divider generator, a gene corpus generator and a program.
近年、生命科学の分野において、ゲノム、トランスクリプトーム、プロテオーム等の大規模情報が得られるようになった。そして、医学、農業、園芸等の多くの分野で、それら情報を使った機械学習システムの実用化が進められている。例えば、特許文献1および特許文献2には、機械学習によって機能性核酸配列を設計することが開示されている。
In recent years, in the field of life science, large-scale information such as genome, transcriptome, and proteome has become available. In many fields such as medicine, agriculture, and horticulture, machine learning systems using such information are being put into practical use. For example,
特許文献1および特許文献2に記載されているように、遺伝子配列を用いた機械学習は実行されている。より具体的には、特許文献1には、カーネル法による機能性核酸配列データから特徴抽出による固定長の塩基配列を特徴ベクターとして活性の有無に関わる特徴配列の計数を行い、教師付き学習であるサポート・ベクター・マシン(SVM)または、サポート・ベクター・回帰(SVR)により、既知の機能性核酸配列データを訓練パターンとして活性判別モデルを構築または、判別モデルに帰着させて回帰させ、標的遺伝子に対して有効な機能性核酸を分析することが記載されている。また、特許文献2には、機能性核酸の塩基配列を1-merごとに分割し位置ごとの特徴量を学習データとして教師付き学習に用いる方法で機能性核酸配列の機能予測と該機能を有する配列を設計する解析方法が記載されている。
As described in
しかしながら、本発明者らは鋭意検討の結果、(1)特許文献1および特許文献2に記載された機械学習は、遺伝子配列を意味のある単語として分割していない、(2)そのため、自然言語処理による機械学習を行うことができない、という問題があることを新たに見出した。
However, as a result of diligent studies by the present inventors, (1) the machine learning described in
本出願の開示は、上記問題点を解決するためになされたものであり、自然言語処理による機械学習ができるように、遺伝子配列を分かち書きする遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラムを提供することにある。本出願の開示のその他の任意付加的な効果は、発明を実施するための形態において明らかにされる。 The disclosure of this application is made to solve the above-mentioned problems, and provides a gene sequence division generator, a gene corpus generator, and a program for sharing gene sequences so that machine learning by natural language processing can be performed. To do. Other optional additional effects of the disclosure of this application will be manifested in the form for carrying out the invention.
(1)遺伝子配列を入力する入力部と、
入力された遺伝子配列から遺伝子配列の構造解析を行う解析部と、
解析部による構造解析に基づいて遺伝子配列を分かち書きする分かち書き部と、
を含む、
遺伝子配列分かち書き生成装置。
(2)分かち書き部は、さらに構造解析による構造情報を遺伝子配列に反映させる、
上記(1)に記載の遺伝子配列分かち書き生成装置。
(3)分かち書き部は、分かち書きされた部分配列から可逆的に構造情報を有した配列を再構成するために、構造情報ごとに表記を換える、
上記(2)に記載の遺伝子配列分かち書き生成装置。
(4)解析部は、遺伝子配列の二次構造について解析する、
上記(1)~(3)の何れか一つに記載の遺伝子配列分かち書き生成装置。
(5)上記(1)~(4)の何れか一つに記載の遺伝子配列分かち書き生成装置と、
遺伝子配列分かち書き生成装置によって生成された遺伝子配列の分かち書きを記憶する第2記憶部と、
を含む、
遺伝子コーパス生成装置。
(6)遺伝子配列を入力する処理と、
入力された遺伝子配列から遺伝子配列の構造解析を行う処理と、
遺伝子配列の構造解析に基づいて遺伝子配列を分かち書きする処理と、
をコンピュータに実行させるプログラム。
(1) An input unit for inputting a gene sequence and
An analysis unit that analyzes the structure of the gene sequence from the input gene sequence,
A word-separator that divides gene sequences based on structural analysis by the analysis unit,
including,
Gene sequence division generator.
(2) The word-separated section further reflects the structural information obtained by structural analysis in the gene sequence.
The gene sequence division generator according to (1) above.
(3) The word-separated section changes the notation for each structural information in order to reversibly reconstruct an array having structural information from the divided partial array.
The gene sequence division generator according to (2) above.
(4) The analysis unit analyzes the secondary structure of the gene sequence.
The gene sequence word-separating generator according to any one of (1) to (3) above.
(5) The gene sequence division generator according to any one of (1) to (4) above, and
A second storage unit that stores the word-separation of the gene sequence generated by the gene sequence word-separator.
including,
Gene corpus generator.
(6) Processing to input the gene sequence and
Processing to analyze the structure of the gene sequence from the input gene sequence,
The process of dividing the gene sequence based on the structural analysis of the gene sequence,
A program that causes a computer to run.
本出願で開示する遺伝子配列分かち書き生成装置により、遺伝子配列を意味のある単語として分かち書きできる。 The gene sequence division generator disclosed in this application allows the gene sequence to be divided as a meaningful word.
以下、図面を参照しつつ、遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラムについて説明する。なお、本明細書において、同種の機能を有する部位には、同一または類似の符号が付されている。そして、同一または類似の符号の付された部位について、繰り返しとなる説明が省略される場合がある。 Hereinafter, the gene sequence division generator, the gene corpus generator, and the program will be described with reference to the drawings. In addition, in this specification, the same or similar reference numerals are given to the parts having the same kind of functions. Then, the repeated description of the parts with the same or similar reference numerals may be omitted.
本明細書中に記載されるID番号が付された配列は、分かち書きの生成、コーパスの生成および/または機械学習に用いられる文字列(単語列)である。また、ID番号が付された配列には、遺伝子配列が含まれる場合もある。 The array with the ID number described in the present specification is a character string (word string) used for word-separation generation, corpus generation, and / or machine learning. In addition, the sequence with the ID number may include a gene sequence.
(遺伝子配列分かち書き装置の第1の実施形態)
図1~図3を参照して、第1の実施形態に係る遺伝子配列分かち書き生成装置1aについて説明する。図1は、遺伝子配列分かち書き生成装置1aの例を示す概略図である。図2Aは、ID1の二次構造の例を示す図である。図2Bは、ID1に二次構造に基づいて解析された構造情報を付加して記載した例を示す図である。図2Cは、二次構造に基づいてID1を分かち書きした例を示す図である。図3Aは、ID2にアミノ酸情報およびシグナル配列に基づいて解析された切断サイトの位置情報を付加した例を示す図である。図3Bは、シグナル配列に基づいてID2を分かち書きした例を示す図である。図3Cは、シグナル配列に基づいてID2を分かち書きした別の例を示す図である。
(First Embodiment of the gene sequence division device)
The gene sequence division generation device 1a according to the first embodiment will be described with reference to FIGS. 1 to 3. FIG. 1 is a schematic diagram showing an example of a gene sequence division generation device 1a. FIG. 2A is a diagram showing an example of the secondary structure of ID1. FIG. 2B is a diagram showing an example in which structural information analyzed based on a secondary structure is added to ID1. FIG. 2C is a diagram showing an example in which ID1 is divided based on a secondary structure. FIG. 3A is a diagram showing an example in which the position information of the cleavage site analyzed based on the amino acid information and the signal sequence is added to ID2. FIG. 3B is a diagram showing an example in which ID2 is divided based on the signal sequence. FIG. 3C is a diagram showing another example in which ID2 is divided based on the signal sequence.
第1の実施形態に係る遺伝子配列分かち書き生成装置1aは、少なくとも入力部2と、解析部3と、分かち書き部4と、を具備している。なお、図1に示す例では、任意付加的に、第1記憶部5と、表示部6と、を具備している。
The gene sequence word-separating generator 1a according to the first embodiment includes at least an
第1の実施形態に係る遺伝子配列分かち書き生成装置1aは、コンピュータにより構成してもよい。コンピュータは、制御部(CPU)を具備している。そして、制御部が所定のプログラムを読み込むことにより、遺伝子配列分かち書き装置1aは解析部3および分かち書き部4を具備することとなる。
The gene sequence division generation device 1a according to the first embodiment may be configured by a computer. The computer includes a control unit (CPU). Then, when the control unit reads a predetermined program, the gene sequence dividing device 1a includes the
入力部2は、遺伝子配列分かち書き生成装置1aに遺伝子配列を入力できれば、特に制限はない。入力部2は、例えば、キーボード、マウスまたはタッチパネルが挙げられる。また、代替的に、ネットワーク(例えば、LANやインターネット等)を介して遺伝子配列は入力部2に入力されてもよく、この場合、入力部2はネットワークインターフェースの形態で構成されてもよい。さらに代替的に、スキャナや記憶手段を用いて遺伝子配列を入力部2に入力してもよい。
The
解析部3は、入力された遺伝子配列の構造解析を行う。構造解析される遺伝子配列中の構造は、意味ある構造であれば特に制限はない。構造解析される構造としては、例えば、二次構造(ステム、ループ)、構造モチーフ、三次元構造(三重鎖、四重鎖、同軸的スタッキング等の高次構造の有無)、シグナル配列、繰り返し配列、コドン、エキソンとイントロン、UTRとCDS等が挙げられる。それら構造の解析は、公知のプログラムを用いることができる。二次構造を解析する場合には、例えば、CentroidFold、Vienna RNAfold等が挙げられる。また、シグナル配列を解析する場合であれば、SignalP、Uniprot等が挙げられる。さらに、構造モチーフ抽出および探索には、MEME(Multiple Em for Motif Elicitation, http://meme-suite.org/tools/meme)、FGENESH(http://www.softberry.com/berry.phtml?topic=about&no_menu=on)等が挙げられる。三次元構造である四重鎖のグアニン四重鎖の解析は、QGPRSMapper(https://bioinformatics.ramapo.edu/QGRS/analyze.php)等が挙げられる。そして、構造解析された遺伝子配列には、構造情報が付加される。
The
図2Aには、二次構造を有する配列「ACGAAACAGCGC」(ID1)の例が示されている。ID1は、GとCが相補的なので、GとCによりステムが形成される。図2Bには、ID1の構造解析を行い、「ドット」、「ブラケット」表記を用い二次構造を表現した構造情報をID1に付加した例が示されている。より具体的には、ステムは「(」、「)」で表現し、ループまたは相補対を形成していない塩基は「.」で表現している。なお、構造情報に用いる表現は、当該表現に基づき分かち書きができれば特に制限はない。例えば、具体的に分かち書きする位置情報を付加してもよい。 FIG. 2A shows an example of the sequence "ACGAAAGAGCGC" (ID1) having a secondary structure. Since G and C are complementary to ID1, a stem is formed by G and C. FIG. 2B shows an example in which the structure of ID1 is analyzed and structural information expressing a secondary structure is added to ID1 using the “dot” and “bracket” notations. More specifically, the stem is represented by "(", ")", and the bases that do not form a loop or complementary pair are represented by ".". The expression used for the structural information is not particularly limited as long as it can be divided based on the expression. For example, the position information to be specifically divided may be added.
分かち書き部4は、構造解析に基づいて遺伝子配列の分かち書きを生成する。本明細書中における「分かち書き」とは、遺伝子配列を一定の方針で区切り分割することを意味する。分かち書きは、遺伝子配列を区切ることができれば特に制限はなく、例えば記号等で区切ればよい。記号としては、例えば、空白、タブ、コンマ等が挙げられる。図2Bに示すように、構造解析によってID1には構造情報が付加されている。そして、図2Cに示すように、付加された構造情報に基づき、ID1が分かち書きされる。図2Cに示す例では、二次構造であるステムとループのそれぞれが単語となるように、ステムとループの境界部、すなわち「(」と「.」または「)」と「.」との間に空白を配置している。
The word-
分かち書き部4で生成された遺伝子配列の分かち書きは、遺伝子配列が構造情報に基づいて区切り分割されたものである。したがって、遺伝子配列の分かち書きは、構造情報に基づいて単語となる、すなわち形態素分析が行われたといえる。よって、遺伝子配列の分かち書きは、自然言語処理できる情報となる。
In the word-separation of the gene sequence generated by the word-separating
構造解析に基づいて遺伝子配列の分かち書きを生成する別の例として、ID2を用いてシグナル配列に基づいて遺伝子配列の分かち書きを行うことを説明する。図3Aには、解析部3でID2に対しシグナル配列の構造解析が行われ、ID2にアミノ酸情報と構造情報を付加した例が示されている。その後、分かち書き部4において、ID2は、構造情報に基づいてシグナル配列の切断サイトで分かち書きが行われる。図3Bには、シグナル配列に基づいてID2を分かち書きした例が示されている。また、図3Bに示す例では、ID2の分かち書きをATGCで表記しているが、他の文字で表記してもよい。例えば、図3Cに示すように、ATGCに換えてアイウエ等の文字を用いて遺伝子配列の分かち書きを表記してもよい。ATGCとは異なる表記とすることで、シグナル配列と他の機能を有する配列とを区別できる。また、機械学習によって、翻訳効率への寄与の高い単語から全長のUTRを導出する場合に、ATGCとは異なる表記であるとシグナル配列とタンパク質先頭の区別もできる。
As another example of generating the gene sequence division based on the structural analysis, it will be described that the gene sequence division is performed based on the signal sequence using ID2. FIG. 3A shows an example in which the
また、二次構造およびシグナル配列以外の構造解析に基づく分かち書きの生成は、以下に記載するように行われてもよい。
(1)構造モチーフに基づく場合、ATATモチーフと、CGCGモチーフとを形態素として分かち書きすればよい。
(2)繰り返し配列に基づく場合、解析したい繰り返し配列を記号化し、繰り返し配列とそうではない配列とを形態素として、その間を分かち書きすればよい。なお、記号はどのようなものを指定してもよい。
(3)コドンに基づく場合、3塩基を形態素として、その間を分かち書きすればよい。
(4)エキソンとイントロンに基づく場合、エキソンとイントロンとを形態素として、その間を分かち書きすればよい。
(5)UTRとCDSに基づく場合、UTRとCDSとを形態素として、その間を分かち書きすればよい。
In addition, the generation of the word-separated words based on the structural analysis other than the secondary structure and the signal sequence may be performed as described below.
(1) When based on a structural motif, the ATAT motif and the CGCG motif may be divided and written as morphemes.
(2) When based on a repeating sequence, the repeating sequence to be analyzed may be symbolized, and the repeating sequence and the non-repeating sequence may be used as morphemes, and the space between them may be divided. Any symbol may be specified.
(3) When based on a codon, 3 bases may be used as morphemes, and the space between them may be divided.
(4) When based on an exon and an intron, the exon and the intron may be used as morphemes, and the space between them may be divided.
(5) When based on UTR and CDS, UTR and CDS may be used as morphemes, and the space between them may be divided.
また、上記した構造解析を複数組み合わせて遺伝子配列の分かち書きを行ってもよい。例えば、UTR配列全体として記号を指定し、更に2次構造のステムとループをそれぞれ形態素として分かち書きし、さらにCDSは異なる記号列として、CDS配列内でコドンに基づく形態素として分かち書きを行うこともできる。 In addition, a plurality of the above-mentioned structural analyzes may be combined to divide the gene sequence. For example, a symbol can be specified for the entire UTR sequence, and the stem and loop of the secondary structure can be divided as morphemes, respectively, and the CDS can be divided as a different symbol string as a codon-based morpheme in the CDS sequence.
第1の実施形態に係る遺伝子配列分かち書き生成装置1において、第1記憶部5および表示部6は、任意付加的な構成要素である。第1記憶部5は、遺伝子配列を入力する処理、入力された遺伝子配列から遺伝子配列の構造解析を行う処理および遺伝子配列の構造解析に基づいて遺伝子配列を分かち書きする処理を行うプログラムを記憶する。また、第1記憶部5には、入力された遺伝子配列、構造解析によって構造情報が付加された遺伝子配列および/または遺伝子配列の分かち書き等のデータを記憶してもよい。第1記憶部5としては、例えば、RAM、ROM、SSD等のフラッシュメモリ、HDD等が挙げられる。
In the gene sequence
表示部6は、入力部2で入力された遺伝子配列、構造解析によって構造情報が付加された遺伝子配列および/または遺伝子配列分のかち書きを表示できれば、特に制限はない。表示部6としては、例えば、液晶ディスプレイ、CRTディスプレイ、有機ELディスプレイ、LEDディスプレイ等が挙げられる。
The
第1の実施形態に係る遺伝子配列分かち書き生成装置1は、以下の効果を奏する。
(1)構造解析に基づいて遺伝子配列の分かち書きを生成できる。そして、生成された遺伝子配列の分かち書きは、自然言語処理できる情報として扱える。
The gene sequence word-
(1) It is possible to generate a word-separation of a gene sequence based on structural analysis. Then, the generated gene sequence can be treated as information that can be processed in natural language.
(遺伝子配列分かち書き生成装置の第2の実施形態)
図1および図4を参照して、第2の実施形態に係る遺伝子配列分かち書き生成装置1bについて説明する。図4Aは、ID1に二次構造に基づいて解析された構造情報を付加して記載した例を示す図である。図4Bは、ID1の分かち書きの別の例を示す図である。
(Second embodiment of the gene sequence division generator)
The gene sequence division generation device 1b according to the second embodiment will be described with reference to FIGS. 1 and 4. FIG. 4A is a diagram showing an example in which structural information analyzed based on a secondary structure is added to ID1. FIG. 4B is a diagram showing another example of the word-separation of ID1.
第2の実施形態に係る遺伝子配列分かち書き生成装置1bは、分かち書き部4で生成される遺伝子配列の分かち書きが第1の実施形態と異なる。したがって、第2の実施形態に係る遺伝子配列分かち書き生成装置1bでは、第1の実施形態と異なる点を中心に説明し、第1の実施形態において説明済みの事項についての繰り返しとなる説明は省略する。よって、第2の実施形態において明示的に説明されなかったとしても、第1の実施形態で説明済みの事項を採用可能であることは言うまでもない。
The gene sequence word-separating generator 1b according to the second embodiment is different from the first embodiment in the word-separation of the gene sequence generated by the word-separating
第2の実施形態に係る遺伝子配列分かち書き生成装置1bの分かち書き部4は、構造解析に基づいた分かち書きに加えて、構造解析による構造情報を遺伝子配列に反映する。構造情報の遺伝子配列への反映は、遺伝子配列の表記を換えて行われる。
The
例えば、図4Aに示す二次構造の構造情報が付加されたID1を分かち書き部4で分かち書きする。その場合、「(」と「.」または「)」と「.」との間に空白を配置することに加え、ステムが形成される配列をAT(またはU)GCに換えて、例えばBVHDとする、すなわちID1を8文字で表記する。その結果、図4Bに示された配列の分かち書きが生成される。したがって、生成された遺伝子配列の分かち書きは、構造情報が配列に反映される。図4Bに示す例では、ステムを形成する場所を記号で認識できる。なお、図4Bに示す例では、ステムが形成される配列の表記を換えたが、代替的にループが形成される配列の表記を換えてもよい。
For example, the ID1 to which the structural information of the secondary structure shown in FIG. 4A is added is divided by the dividing
さらに、構造解析による構造情報を遺伝子配列に反映した分かち書きで、後述する遺伝子コーパスを生成すると、当該遺伝子コーパスを用いた機械学習により抽出された部分配列から可逆的に構造情報を有した配列を再構成できる。例えば、ステムが形成される配列をAT(またはU)GCに換えてBVHDとした場合、機械学習によりBVHDのいずれかからなる部分配列が抽出されれば、当該部分配列がステムであることがわかる。 Furthermore, when a gene corpus, which will be described later, is generated by dividing the structural information by structural analysis into the gene sequence, the sequence having structural information is reversibly regenerated from the partial sequence extracted by machine learning using the gene corpus. Can be configured. For example, when the sequence in which a stem is formed is replaced with AT (or U) GC to be BVHD, if a partial sequence consisting of any of BVHD is extracted by machine learning, it is known that the partial sequence is a stem. ..
第2の実施形態に係る遺伝子配列分かち書き生成装置1bは、第1の実施形態に係る遺伝子配列分かち書き生成装置1aが奏する効果に加え、以下の効果を相乗的に奏する。
(1)構造情報を遺伝子配列に反映しているため、分かち書きされた意味のある単語がどのような構造であるか認識できる。
(2)構造解析による構造情報を遺伝子配列に反映し、構造ごとに表記を換えた分かち書きで生成した遺伝子コーパスを用いた機械学習において、機械学習により抽出された部分配列から可逆的に構造情報を有した配列を再構成できる。
The gene sequence division generator 1b according to the second embodiment synergistically exerts the following effects in addition to the effects of the gene sequence division generator 1a according to the first embodiment.
(1) Since the structural information is reflected in the gene sequence, it is possible to recognize what kind of structure the divided and meaningful words have.
(2) In machine learning that reflects the structural information obtained by structural analysis in the gene sequence and uses a gene corpus generated by dividing the notation for each structure, the structural information is reversibly obtained from the partial sequence extracted by machine learning. The possessed sequence can be reconstructed.
(遺伝子コーパス生成装置の実施形態)
図5を参照して、実施形態に係る遺伝子コーパス生成装置7について説明する。図5は、遺伝子コーパス生成装置7の例を示す概略図である。
(Embodiment of Gene Corpus Generator)
The
遺伝子配列の分かち書きは、自然言語処理が行える情報として扱える。そのため、それら遺伝子配列の分かち書きを蓄積することで、遺伝子コーパスを生成できる。そこで、遺伝子コーパス生成装置7は、少なくとも遺伝子配列分かち書き生成装置1と、第2記憶部8と、を具備する。また、実施形態に係る遺伝子コーパス生成装置7は、コンピュータにより構成してもよい。なお、「コーパス」とは、自然言語処理を行うための自然言語の文章を構造化し大規模に集積したもの、すなわち文字化した言語のデータベースである。
The division of gene sequences can be treated as information that can be processed in natural language. Therefore, a gene corpus can be generated by accumulating the word-separation of those gene sequences. Therefore, the gene
遺伝子配列分かち書き装置1は、上記の実施形態に係る遺伝子配列分かち書き生成装置1aまたは1bでよく、上記の実施形態に係る遺伝子配列分かち書き生成装置1aまたは1bの説明は、繰り返しとなるため省略する。
The gene
第2記憶部8は、遺伝子配列の分かち書きを記憶できれば、特に制限はない。第2記憶部8は、上記第1の実施形態に係る遺伝子配列分かち書き生成装置1aで説明済みの第1記憶部5と同様なものを用いることができる。また代替的に、遺伝子コーパス生成装置7は、第1記憶部5と第2記憶部8の何れか一方を具備し、第1記憶部5と第2記憶部8の何れか一方に遺伝子配列の分かち書き、プログラムおよびデータ等を記憶させてもよい。
The
また、遺伝子配列の分かち書きを第2記憶部8に記憶する際、遺伝子配列の分かち書きに遺伝子配列の特徴を示すラベル(文字列)および/または遺伝子配列の物理量を示す数値を付与してもよい。そうすることで、コーパスとしてラベルおよび/または数値の情報が付与された遺伝子配列の分かち書きを蓄積できる。
Further, when the gene sequence division is stored in the
生成された遺伝子コーパスは、遺伝子配列の分かち書きが蓄積されている。したがって、当該遺伝子コーパスを用いて自然言語処理ができる。自然言語処理として、例えば、公知のword2vec、fastText等を用い単語分散表現処理を行うことができる。fastTextを用いた場合、単語内の部分単語に分割し、それぞれの部分単語の分散表現を得ることができる。そして、単語分散表現処理により、遺伝子は単語または部分単語の分散量(ベクター)として表現される。 In the generated gene corpus, the division of gene sequences is accumulated. Therefore, natural language processing can be performed using the gene corpus. As the natural language processing, for example, a known word2vec, fastText, or the like can be used to perform word distribution expression processing. When fastText is used, it is possible to divide a word into subwords and obtain a distributed expression of each subword. Then, the gene is expressed as a dispersion amount (vector) of a word or a partial word by the word dispersion expression processing.
単語または部分単語の分散量として表現されたものを教師データとして、ニューラルネットワーク、サポート・ベクター・マシン等の公知の機械学習モデルで学習を行うことで、未知遺伝子の分類・相関・回帰分析を行うことができる。 Classification, correlation, and regression analysis of unknown genes are performed by learning with known machine learning models such as neural networks, support vector machines, etc., using what is expressed as the variance of words or partial words as teacher data. be able to.
実施形態に係る遺伝子コーパス生成装置は、以下の効果を奏する。
(1)遺伝子の分かち書きを蓄積することで、自然言語処理に使用可能な遺伝子コーパスを生成できる。
(2)ラベルおよび/または数値の情報を付与した遺伝子の分かち書きを蓄積することで、ラベルおよび/または数値の情報が付与された遺伝子コーパスを生成できる。
(3)生成された遺伝子コーパスを用い機械学習を行うことができるので、未知遺伝子の分類・相関・回帰分析を行うことができる。
The gene corpus generator according to the embodiment has the following effects.
(1) By accumulating gene word divisions, it is possible to generate a gene corpus that can be used for natural language processing.
(2) By accumulating the word-separated words of the gene to which the label and / or the numerical information is given, a gene corpus to which the label and / or the numerical information is given can be generated.
(3) Since machine learning can be performed using the generated gene corpus, it is possible to perform classification, correlation, and regression analysis of unknown genes.
(プログラムの実施形態)
上記の実施形態に係る遺伝子配列分かち書き生成装置1aまたは1bは、コンピュータにより構成することができる。その際、コンピュータは既存のものをそのまま使用できる。すなわち、遺伝子配列を入力する処理と、入力された遺伝子配列から遺伝子の構造解析を行う処理と、遺伝子の構造解析に基づいて遺伝子配列を分かち書きする処理と、をコンピュータに実行させるプログラムを提供することで、コンピュータを遺伝子配列分かち書き生成装置1aまたは1bとすることができる。
(Program embodiment)
The gene sequence division generation device 1a or 1b according to the above embodiment can be configured by a computer. At that time, the existing computer can be used as it is. That is, to provide a program that causes a computer to execute a process of inputting a gene sequence, a process of performing a gene structural analysis from the input gene sequence, and a process of dividing a gene sequence based on the gene structural analysis. The computer can be used as a gene sequence division generator 1a or 1b.
以下に実施例を掲げ、本出願で開示する実施形態を具体的に説明するが、この実施例は単に実施形態の説明のためのものである。本出願で開示する発明の範囲を限定したり、あるいは制限することを表すものではない。 The embodiments disclosed in the present application will be specifically described with reference to the following examples, but the embodiments are merely for the purpose of explaining the embodiments. It does not represent limiting or limiting the scope of the invention disclosed in this application.
(実施例1)
[4文字表記の遺伝子配列の分かち書きの生成]
二次構造に基づいて遺伝子配列の分かち書きを生成した。ハンマーヘッド型リボザイム(ID3)、転移RNA(ID4)および核小体低分子RNA(ID5)を対象とした。また、解析部3での構造解析は、Vienna RNAfoldを用いて二次構造について行った。
(Example 1)
[Generation of 4-letter gene sequence word-separation]
Gene sequence divisions were generated based on secondary structure. Hammerhead ribozyme (ID3), transfer RNA (ID4) and nucleolar RNA (ID5) were targeted. In addition, the structural analysis in the
図6に、ID3~5の配列、二次構造を表現した構造情報および二次構造に基づいて分かち書きされたID3~5の分かち書きを示す。ID3~5の分かち書きは、構造解析に基づいて「(」と「.」または「)」と「.」との間に空白が配置された。したがって、各配列は構造解析に基づいて形態素分析が行われ、各配列を自然言語処理できる情報にできることが示された。
FIG. 6 shows an array of
(実施例2)
[8文字表記の遺伝子配列の分かち書きの生成]
構造解析による構造情報を遺伝子配列に反映して遺伝子の分かち書きを生成した以外は、実施例1と同様に二次構造に基づいて遺伝子配列の分かち書きを生成した。
(Example 2)
[Generation of 8-character gene sequence word-separation]
Similar to Example 1, the gene sequence division was generated based on the secondary structure, except that the structural information obtained by the structural analysis was reflected in the gene sequence to generate the gene division.
図7に、ID3~5の配列、二次構造を表現した構造情報および二次構造に基づいて分かち書きされたID3~5の分かち書きを示す。ID3~5の分かち書きは、構造解析に基づいて「(」と「.」または「)」と「.」との間に空白を配置することに加え、「(」または「)」で表現されるステムをAUGCに換えてBVHDとし8文字表記とした。実施例1と同様に、各配列を自然言語処理できる情報にできることが示された。
FIG. 7 shows an array of
(実施例3)
[4文字表記による遺伝子コーパスの生成]
単子葉植物から単離した上位5167種のエンハンサー(UTR)遺伝子配列(https://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DRA006661から入手したデータをYamasaki et al.,Plant Biotechnology,35,365-373(2018)に記載された処理により得た。)を二次構造に基づいて分かち書きをしたエンハンサー遺伝子配列の分かち書きを生成し、それら生成されたエンハンサー遺伝子配列の分かち書きを蓄積した遺伝子コーパスを生成した。なお、実施例3における分かち書きは、ステムとループとの間に空白を配置した4文字表記のものである。
(Example 3)
[Generation of gene corpus by 4-letter notation]
Data obtained from the top 5167 enhancer (UTR) gene sequences isolated from monocotyledonous plants (https://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DRA006661) are collected from Yamasaki et al., Plant. (1) obtained by the treatment described in Biotechnology, 35, 365-373 (2018) was generated based on the secondary structure of the enhancer gene sequence, and the generated enhancer gene sequence was accumulated. Generated a gene corpus. In addition, the word-separation in Example 3 is a four-character notation in which a space is arranged between the stem and the loop.
また、入手した5167種のエンハンサー遺伝子配列には、発現量の情報も付加されている。そこで、遺伝子コーパスに蓄積されたエンハンサー遺伝子配列の分かち書きに、エンハンサー遺伝子配列の発現量に対応したラベル(発現量が大きいエンハンサー遺伝子配列をXLとし、順にL、M、S、XSの5種)を付与した。 In addition, information on the expression level is added to the obtained 5167 enhancer gene sequences. Therefore, in the division of the enhancer gene sequence accumulated in the gene corpus, a label corresponding to the expression level of the enhancer gene sequence (the enhancer gene sequence having a large expression level is XL, and 5 types of L, M, S, and XS in that order) is attached. Granted.
(実施例4)
[8文字表記による遺伝子コーパスの生成]
二次構造に基づいて分かち書きされた遺伝子配列の分かち書きを、ステムとループとの間に空白を配置することに加え、ステムが形成される配列をAUGCに換えてBVHDとし8文字表記とした以外は、実施例3と同様に遺伝子コーパスを生成した。
(Example 4)
[Generation of gene corpus by 8-letter notation]
Except for the fact that the gene sequence that was divided based on the secondary structure was divided by placing a space between the stem and the loop, and the sequence in which the stem was formed was changed to AUGC and changed to BVHD, which is an 8-character notation. , A gene corpus was generated in the same manner as in Example 3.
(比較例1)
遺伝子配列の分かち書きを行わなかった以外は、実施例3と同様に遺伝子コーパスを生成した。
(Comparative Example 1)
A gene corpus was generated in the same manner as in Example 3 except that the gene sequence was not divided.
(実施例5)
[遺伝子コーパスを用いた機械学習による分類予測1]
実施例3、実施例4および比較例1で生成した遺伝子コーパスを用い機械学習によりエンハンサー遺伝子配列の分類を行った。機械学習には、fastTextを用い、5167種のエンハンサー遺伝子配列のうち4000種のエンハンサー遺伝子配列を教師データとして、1167種のエンハンサー遺伝子配列の発現予測値の分類を行った。なお、fastTextのハイパーパラメータはデフォルトを用いた。
(Example 5)
[Classification prediction by machine learning using gene corpus 1]
The enhancer gene sequences were classified by machine learning using the gene corpus generated in Example 3, Example 4, and Comparative Example 1. For machine learning, fastText was used to classify the predicted expression values of 1167 enhancer gene sequences using 4000 enhancer gene sequences out of 5167 enhancer gene sequences as teacher data. In addition, the hyperparameters of fastText used the defaults.
結果を表1に示す。比較例1は、5種のラベルに対する適合率のため、ランダムな場合の確率20%と近い結果となった。それに対し実施例3および実施例4は、比較例1と比べて適合率が上昇した。このことから、エンハンサー遺伝子配列の発現量予測を行う際の機械学習において、各ステムおよびループの部分配列が有効な意味あるいは構造を提供していることがわかった。また、実施例4は、実施例3よりも適合率が高いことが示された。 The results are shown in Table 1. In Comparative Example 1, the probability of random cases was close to 20% because of the matching rate for 5 types of labels. On the other hand, in Example 3 and Example 4, the conformance rate was higher than that in Comparative Example 1. From this, it was found that the partial sequences of each stem and loop provide an effective meaning or structure in machine learning when predicting the expression level of the enhancer gene sequence. Further, it was shown that Example 4 has a higher conformance rate than Example 3.
(実施例6)
[遺伝子コーパスを用いた機械学習による分類予測2]
特表2013-503640号公報に記載されたエンハンサー遺伝子配列を用いて、発現量の分類予測を行った。発現量の分類予測は、教師データとして実施例4で生成した8文字表記による遺伝子コーパスを用い、fastTextによる機械学習を行った。
(Example 6)
[Classification prediction by machine learning using gene corpus 2]
The expression level was classified and predicted using the enhancer gene sequence described in JP-A-2013-503640. For the classification prediction of the expression level, the gene corpus in the 8-character notation generated in Example 4 was used as the teacher data, and machine learning by fastText was performed.
結果を表2に示す。機械学習の結果、各配列は発現量XLの確度が高く、発現量はXLであると予測された。そして、その結果は、特表2013-503640号公報に記載された発現量と同じ傾向を示した。 The results are shown in Table 2. As a result of machine learning, it was predicted that each sequence had a high accuracy of expression level XL and the expression level was XL. The results showed the same tendency as the expression level described in Japanese Patent Publication No. 2013-503640.
(実施例7)
[遺伝子コーパスを用いた機械学習による遺伝子配列予測]
実施例4で生成した8文字表記による遺伝子コーパスを用い機械学習により高い発現効率が期待できるエンハンサー配列を予測した。予測は以下の手順で行った。
(1)実施例4で生成した遺伝子コーパスを用いラベルXLのF値を高めるようにfastTextのハイパーパラメータの調整を行った。
(2)ラベルXLを構成する単語のベクター重心を求め、各単語ベクターとベクター中心の距離を求め、距離の短いものから順に単語列を抽出した。
(Example 7)
[Gene sequence prediction by machine learning using a gene corpus]
Using the gene corpus in 8-letter notation generated in Example 4, an enhancer sequence that can be expected to have high expression efficiency by machine learning was predicted. The prediction was made by the following procedure.
(1) Using the gene corpus generated in Example 4, the hyperparameters of fastText were adjusted so as to increase the F value of the label XL.
(2) The vector center of gravity of the words constituting the label XL was obtained, the distance between each word vector and the center of the vector was obtained, and the word strings were extracted in order from the one with the shortest distance.
表3に、抽出された単語列を示す。なお、表3の上から上記(2)の距離が短い順となっている。また、表3中、ID18、19の括弧内の表記は4文字表記とした際の配列である。 Table 3 shows the extracted word strings. The distances in (2) above are in ascending order from the top of Table 3. Further, in Table 3, the notation in parentheses of IDs 18 and 19 is an array when the four-character notation is used.
抽出された単語列のうちループであるものは、直鎖構造のエンハンサー遺伝子配列として利用すれば、高い発現効率が期待できる。また、ID18の単語列(配列)は、BVHDからなる単語列であるためステムであることがわかる。そこで、高発現効率が期待できる単語を複数持つものとして、図8に示すエンハンサー遺伝子配列(ID21)を構築した。 High expression efficiency can be expected if the extracted word sequence, which is a loop, is used as an enhancer gene sequence having a linear structure. Further, it can be seen that the word string (array) of ID18 is a stem because it is a word string composed of BVHD. Therefore, the enhancer gene sequence (ID21) shown in FIG. 8 was constructed as having a plurality of words that can be expected to have high expression efficiency.
上記実施例5および実施例6から、遺伝子配列の分かち書きから生成された遺伝子コーパスが、機械学習に有用であることが示された。また、実施例7では、機械学習に有用である遺伝子コーパスにより、高い発現効率が期待できるエンハンサー遺伝子配列を予測できることが示された。 From Examples 5 and 6 above, it was shown that the gene corpus generated from the division of gene sequences is useful for machine learning. Further, in Example 7, it was shown that an enhancer gene sequence that can be expected to have high expression efficiency can be predicted by a gene corpus useful for machine learning.
なお、本発明は、上記の実施形態に制限されない。本発明の範囲内において、上記の各実施形態の自由な組み合わせ、あるいは各実施形態の任意の構成要素の変形、または任意の構成要素の省略が可能である。さらに、上記の各実施形態に任意の構成要素が追加されてもよい。 The present invention is not limited to the above embodiment. Within the scope of the present invention, any combination of the above embodiments can be freely combined, any component of each embodiment can be modified, or any component can be omitted. Further, any component may be added to each of the above embodiments.
本出願で開示する遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置、およびプログラムを用いると、遺伝子配列を分かち書きできる。したがって、ゲノム、トランスクリプトーム、プロテオーム等の大規模情報を使った機械学習システムを扱う業者にとって有用である。 The gene sequence segmentation generator, gene corpus generator, and program disclosed in this application can be used to divide gene sequences. Therefore, it is useful for those who handle machine learning systems using large-scale information such as genomes, transcriptomes, and proteomes.
1、1a、1b…遺伝子配列分かち書き生成装置、2…入力部、3…解析部、4…分かち書き部、5…第1記憶部、6…表示部、7…遺伝子コーパス生成装置、8…第2記憶部
1, 1a, 1b ... gene sequence division generator, 2 ... input unit, 3 ... analysis unit, 4 ... division division, 5 ... first storage unit, 6 ... display unit, 7 ... gene corpus generator, 8 ... second Memory
Claims (6)
入力された遺伝子配列から遺伝子配列の構造解析を行う解析部と、
解析部による構造解析に基づいて遺伝子配列を分かち書きする分かち書き部と、
を含む、
遺伝子配列分かち書き生成装置。 Input section for inputting gene sequence and
An analysis unit that analyzes the structure of the gene sequence from the input gene sequence,
A word-separator that divides gene sequences based on structural analysis by the analysis unit,
including,
Gene sequence division generator.
請求項1に記載の遺伝子配列分かち書き生成装置。 The word-separation section further reflects the structural information obtained by structural analysis in the gene sequence.
The gene sequence division generator according to claim 1.
請求項2に記載の遺伝子配列分かち書き生成装置。 The word-separated section changes the notation for each structural information in order to reversibly reconstruct an array having structural information from the divided partial array.
The gene sequence division generator according to claim 2.
請求項1~3の何れか一項に記載の遺伝子配列分かち書き生成装置。 The analysis department analyzes the secondary structure of the gene sequence.
The gene sequence division generator according to any one of claims 1 to 3.
遺伝子配列分かち書き生成装置によって生成された遺伝子配列の分かち書きを記憶する第2記憶部と、
を含む、
遺伝子コーパス生成装置。 The gene sequence division generator according to any one of claims 1 to 4.
A second storage unit that stores the word-separation of the gene sequence generated by the gene sequence word-separator.
including,
Gene corpus generator.
入力された遺伝子配列から遺伝子配列の構造解析を行う処理と、
遺伝子配列の構造解析に基づいて遺伝子配列を分かち書きする処理と、
をコンピュータに実行させるプログラム。
The process of inputting the gene sequence and
Processing to analyze the structure of the gene sequence from the input gene sequence,
The process of dividing the gene sequence based on the structural analysis of the gene sequence,
A program that causes a computer to run.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020178356A JP6843457B1 (en) | 2020-10-23 | 2020-10-23 | Gene sequence word-separator, gene corpus generator and program |
PCT/JP2021/038909 WO2022085756A1 (en) | 2020-10-23 | 2021-10-21 | Genetic sequence segmented writing generation device, genetic corpus generation device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020178356A JP6843457B1 (en) | 2020-10-23 | 2020-10-23 | Gene sequence word-separator, gene corpus generator and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6843457B1 JP6843457B1 (en) | 2021-03-17 |
JP2022069267A true JP2022069267A (en) | 2022-05-11 |
Family
ID=74860866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020178356A Active JP6843457B1 (en) | 2020-10-23 | 2020-10-23 | Gene sequence word-separator, gene corpus generator and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6843457B1 (en) |
WO (1) | WO2022085756A1 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3881238B2 (en) * | 2001-12-28 | 2007-02-14 | セレスター・レキシコ・サイエンシズ株式会社 | RNA sequence analyzing apparatus, RNA sequence analyzing method, program, and recording medium |
JPWO2004051546A1 (en) * | 2002-11-29 | 2006-04-06 | 株式会社インシリコサイエンス | Array information processing apparatus, array information processing method, program, and recording medium |
JP2004310561A (en) * | 2003-04-09 | 2004-11-04 | Hitachi Ltd | Information retrieval method, information retrieval system and retrieval server |
DE602004029391D1 (en) * | 2003-12-05 | 2010-11-11 | Council Scient Ind Res | A COMPUTER-USED METHOD FOR IDENTIFYING DNA SEQUENCES THAT CODE PROCESSES USED AS "DRUG TARGETS" |
CN100533431C (en) * | 2005-09-21 | 2009-08-26 | 富士通株式会社 | Natural language component identifying correcting apparatus and method based on morpheme marking |
-
2020
- 2020-10-23 JP JP2020178356A patent/JP6843457B1/en active Active
-
2021
- 2021-10-21 WO PCT/JP2021/038909 patent/WO2022085756A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP6843457B1 (en) | 2021-03-17 |
WO2022085756A1 (en) | 2022-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10055539B2 (en) | Systems and methods for using paired-end data in directed acyclic structure | |
Heyne et al. | GraphClust: alignment-free structural clustering of local RNA secondary structures | |
AU2014340461A1 (en) | Systems and methods for using paired-end data in directed acyclic structure | |
Esmaili-Taheri et al. | Evolutionary solution for the RNA design problem | |
Loving et al. | BitPAl: a bit-parallel, general integer-scoring sequence alignment algorithm | |
Chang et al. | An ILP solution for the gene duplication problem | |
Hussein et al. | Flower pollination algorithm with profile technique for multiple sequence alignment | |
Naznooshsadat et al. | Fame: fast and memory efficient multiple sequences alignment tool through compatible chain of roots | |
Zogopoulos et al. | Arabidopsis Coexpression Tool: a tool for gene coexpression analysis in Arabidopsis thaliana | |
JP6843457B1 (en) | Gene sequence word-separator, gene corpus generator and program | |
Stiller et al. | Complexity of avian evolution revealed by family-level genomes | |
González-Álvarez et al. | Applying a multiobjective gravitational search algorithm (MO-GSA) to discover motifs | |
Jaiswal et al. | Development of species specific putative miRNA and its target prediction tool in wheat (Triticum aestivum L.) | |
Aslam et al. | A role of bioinformatics in agriculture | |
Wang et al. | CRISPR-GNL: an improved model for predicting CRISPR activity by machine learning and featurization | |
Baltoumas et al. | Exploring microbial functional biodiversity at the protein family level—From metagenomic sequence reads to annotated protein clusters | |
JP5604465B2 (en) | Text summarization apparatus, method, and program | |
Gupta et al. | DAVI: Deep learning-based tool for alignment and single nucleotide variant identification | |
Wu et al. | Poly (A)-tag deep sequencing data processing to extract poly (A) sites | |
Almutiri et al. | A survey of machine learning and deep learning applications in genome editing | |
Das et al. | PtRNAdb: A web resource of Plant tRNA genes from a wide range of plant species | |
Cordaux et al. | Computational methods for the analysis of primate mobile elements | |
Maitre et al. | MidClustpy: a clustering approach to predict coding region in a biological sequence | |
Numnark et al. | An emerging technique for reducing the response time in plant miRNA identification | |
Kumar et al. | Tools and Methods in the Analysis of Simple Sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201116 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20201116 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6843457 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |