JP2022069267A - Gene sequence word segmentation generator, gene corpus generating device, and program - Google Patents

Gene sequence word segmentation generator, gene corpus generating device, and program Download PDF

Info

Publication number
JP2022069267A
JP2022069267A JP2020178356A JP2020178356A JP2022069267A JP 2022069267 A JP2022069267 A JP 2022069267A JP 2020178356 A JP2020178356 A JP 2020178356A JP 2020178356 A JP2020178356 A JP 2020178356A JP 2022069267 A JP2022069267 A JP 2022069267A
Authority
JP
Japan
Prior art keywords
gene sequence
gene
sequence
word
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020178356A
Other languages
Japanese (ja)
Other versions
JP6843457B1 (en
Inventor
慧 南
Kei Minami
賢尚 南
Masanao Minami
裕昭 多田
Hiroaki Tada
晃 加藤
Akira Kato
将太朗 山▲崎▼
Shotaro Yamasaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NU Protein Co Ltd
Original Assignee
NU Protein Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NU Protein Co Ltd filed Critical NU Protein Co Ltd
Priority to JP2020178356A priority Critical patent/JP6843457B1/en
Application granted granted Critical
Publication of JP6843457B1 publication Critical patent/JP6843457B1/en
Priority to PCT/JP2021/038909 priority patent/WO2022085756A1/en
Publication of JP2022069267A publication Critical patent/JP2022069267A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Zoology (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medicinal Chemistry (AREA)
  • Software Systems (AREA)
  • Microbiology (AREA)
  • Sustainable Development (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

To provide a gene sequence word segmentation generator that performs word segmentation of a gene sequence such that machine learning by natural language processing can be performed, a gene corpus generating device and a program.SOLUTION: A gene sequence word segmentation generator includes: an input unit which accepts input of a gene sequence; an analysis unit which performs structural analysis of a gene sequence from an input gene sequence; and a word segmentation unit which performs word segmentation of the gene sequence on the basis of structural analysis by the analysis unit. A program causes a computer to execute the above actions.SELECTED DRAWING: Figure 2

Description

本出願における開示は、遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラムに関する。 The disclosure in this application relates to a gene sequence divider generator, a gene corpus generator and a program.

近年、生命科学の分野において、ゲノム、トランスクリプトーム、プロテオーム等の大規模情報が得られるようになった。そして、医学、農業、園芸等の多くの分野で、それら情報を使った機械学習システムの実用化が進められている。例えば、特許文献1および特許文献2には、機械学習によって機能性核酸配列を設計することが開示されている。 In recent years, in the field of life science, large-scale information such as genome, transcriptome, and proteome has become available. In many fields such as medicine, agriculture, and horticulture, machine learning systems using such information are being put into practical use. For example, Patent Document 1 and Patent Document 2 disclose designing a functional nucleic acid sequence by machine learning.

特開2005-038377号公報Japanese Unexamined Patent Publication No. 2005-038377 特開2006-236153号公報Japanese Unexamined Patent Publication No. 2006-236153

特許文献1および特許文献2に記載されているように、遺伝子配列を用いた機械学習は実行されている。より具体的には、特許文献1には、カーネル法による機能性核酸配列データから特徴抽出による固定長の塩基配列を特徴ベクターとして活性の有無に関わる特徴配列の計数を行い、教師付き学習であるサポート・ベクター・マシン(SVM)または、サポート・ベクター・回帰(SVR)により、既知の機能性核酸配列データを訓練パターンとして活性判別モデルを構築または、判別モデルに帰着させて回帰させ、標的遺伝子に対して有効な機能性核酸を分析することが記載されている。また、特許文献2には、機能性核酸の塩基配列を1-merごとに分割し位置ごとの特徴量を学習データとして教師付き学習に用いる方法で機能性核酸配列の機能予測と該機能を有する配列を設計する解析方法が記載されている。 As described in Patent Document 1 and Patent Document 2, machine learning using gene sequences is performed. More specifically, in Patent Document 1, a fixed-length base sequence obtained by feature extraction from functional nucleic acid sequence data obtained by the kernel method is used as a feature vector to count feature sequences related to the presence or absence of activity, which is a supervised learning. A support vector machine (SVM) or support vector regression (SVR) is used to construct an activity discrimination model using known functional nucleic acid sequence data as a training pattern, or to reduce it to a discrimination model and return it to the target gene. On the other hand, it is described to analyze effective functional nucleic acids. Further, Patent Document 2 has a function prediction of a functional nucleic acid sequence and the function by a method of dividing the base sequence of a functional nucleic acid into 1-mer units and using the feature amount for each position as learning data for supervised learning. The analysis method for designing the sequence is described.

しかしながら、本発明者らは鋭意検討の結果、(1)特許文献1および特許文献2に記載された機械学習は、遺伝子配列を意味のある単語として分割していない、(2)そのため、自然言語処理による機械学習を行うことができない、という問題があることを新たに見出した。 However, as a result of diligent studies by the present inventors, (1) the machine learning described in Patent Document 1 and Patent Document 2 does not divide the gene sequence into meaningful words, and (2) therefore, a natural language. We newly discovered that there is a problem that machine learning by processing cannot be performed.

本出願の開示は、上記問題点を解決するためになされたものであり、自然言語処理による機械学習ができるように、遺伝子配列を分かち書きする遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラムを提供することにある。本出願の開示のその他の任意付加的な効果は、発明を実施するための形態において明らかにされる。 The disclosure of this application is made to solve the above-mentioned problems, and provides a gene sequence division generator, a gene corpus generator, and a program for sharing gene sequences so that machine learning by natural language processing can be performed. To do. Other optional additional effects of the disclosure of this application will be manifested in the form for carrying out the invention.

(1)遺伝子配列を入力する入力部と、
入力された遺伝子配列から遺伝子配列の構造解析を行う解析部と、
解析部による構造解析に基づいて遺伝子配列を分かち書きする分かち書き部と、
を含む、
遺伝子配列分かち書き生成装置。
(2)分かち書き部は、さらに構造解析による構造情報を遺伝子配列に反映させる、
上記(1)に記載の遺伝子配列分かち書き生成装置。
(3)分かち書き部は、分かち書きされた部分配列から可逆的に構造情報を有した配列を再構成するために、構造情報ごとに表記を換える、
上記(2)に記載の遺伝子配列分かち書き生成装置。
(4)解析部は、遺伝子配列の二次構造について解析する、
上記(1)~(3)の何れか一つに記載の遺伝子配列分かち書き生成装置。
(5)上記(1)~(4)の何れか一つに記載の遺伝子配列分かち書き生成装置と、
遺伝子配列分かち書き生成装置によって生成された遺伝子配列の分かち書きを記憶する第2記憶部と、
を含む、
遺伝子コーパス生成装置。
(6)遺伝子配列を入力する処理と、
入力された遺伝子配列から遺伝子配列の構造解析を行う処理と、
遺伝子配列の構造解析に基づいて遺伝子配列を分かち書きする処理と、
をコンピュータに実行させるプログラム。
(1) An input unit for inputting a gene sequence and
An analysis unit that analyzes the structure of the gene sequence from the input gene sequence,
A word-separator that divides gene sequences based on structural analysis by the analysis unit,
including,
Gene sequence division generator.
(2) The word-separated section further reflects the structural information obtained by structural analysis in the gene sequence.
The gene sequence division generator according to (1) above.
(3) The word-separated section changes the notation for each structural information in order to reversibly reconstruct an array having structural information from the divided partial array.
The gene sequence division generator according to (2) above.
(4) The analysis unit analyzes the secondary structure of the gene sequence.
The gene sequence word-separating generator according to any one of (1) to (3) above.
(5) The gene sequence division generator according to any one of (1) to (4) above, and
A second storage unit that stores the word-separation of the gene sequence generated by the gene sequence word-separator.
including,
Gene corpus generator.
(6) Processing to input the gene sequence and
Processing to analyze the structure of the gene sequence from the input gene sequence,
The process of dividing the gene sequence based on the structural analysis of the gene sequence,
A program that causes a computer to run.

本出願で開示する遺伝子配列分かち書き生成装置により、遺伝子配列を意味のある単語として分かち書きできる。 The gene sequence division generator disclosed in this application allows the gene sequence to be divided as a meaningful word.

遺伝子配列分かち書き生成装置1の例を示す概略図。The schematic diagram which shows the example of the gene sequence word-separation generation apparatus 1. A:ID1の二次構造の例、B:ID1に二次構造に基づいて解析された構造情報を付加した例、C:二次構造に基づいてID1を分かち書きした例、を示す図。A: An example of a secondary structure of ID1, B: an example of adding structural information analyzed based on the secondary structure to ID1, and C: an example of dividing ID1 based on the secondary structure. A:ID2にアミノ酸情報およびシグナル配列に基づいて解析された切断サイトの位置情報を付加した例、B:シグナル配列に基づいてID2を分かち書きした例、C:シグナル配列に基づいてID2を分かち書きした別の例、を示す図。A: Example of adding amino acid information and position information of the cleavage site analyzed based on the signal sequence to ID2, B: Example of dividing ID2 based on the signal sequence, C: Separately dividing ID2 based on the signal sequence The figure which shows the example. A:ID1に二次構造に基づいて解析された構造情報を付加した例、B:ID1の分かち書きの別の例、を示す図。A: The figure which shows the example which added the structural information analyzed based on the secondary structure to ID1, and B: another example of the word-separation of ID1. 遺伝子コーパス生成装置7の例を示す概略図。The schematic which shows the example of the gene corpus generator 7. 実施例1で生成された遺伝子配列の分かち書きを示す図。The figure which shows the division of the gene sequence generated in Example 1. FIG. 実施例2で生成された遺伝子配列の分かち書きを示す図。The figure which shows the division of the gene sequence generated in Example 2. 実施例7の機械学習により予測された遺伝子配列を示す図。The figure which shows the gene sequence predicted by the machine learning of Example 7.

以下、図面を参照しつつ、遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラムについて説明する。なお、本明細書において、同種の機能を有する部位には、同一または類似の符号が付されている。そして、同一または類似の符号の付された部位について、繰り返しとなる説明が省略される場合がある。 Hereinafter, the gene sequence division generator, the gene corpus generator, and the program will be described with reference to the drawings. In addition, in this specification, the same or similar reference numerals are given to the parts having the same kind of functions. Then, the repeated description of the parts with the same or similar reference numerals may be omitted.

本明細書中に記載されるID番号が付された配列は、分かち書きの生成、コーパスの生成および/または機械学習に用いられる文字列(単語列)である。また、ID番号が付された配列には、遺伝子配列が含まれる場合もある。 The array with the ID number described in the present specification is a character string (word string) used for word-separation generation, corpus generation, and / or machine learning. In addition, the sequence with the ID number may include a gene sequence.

(遺伝子配列分かち書き装置の第1の実施形態)
図1~図3を参照して、第1の実施形態に係る遺伝子配列分かち書き生成装置1aについて説明する。図1は、遺伝子配列分かち書き生成装置1aの例を示す概略図である。図2Aは、ID1の二次構造の例を示す図である。図2Bは、ID1に二次構造に基づいて解析された構造情報を付加して記載した例を示す図である。図2Cは、二次構造に基づいてID1を分かち書きした例を示す図である。図3Aは、ID2にアミノ酸情報およびシグナル配列に基づいて解析された切断サイトの位置情報を付加した例を示す図である。図3Bは、シグナル配列に基づいてID2を分かち書きした例を示す図である。図3Cは、シグナル配列に基づいてID2を分かち書きした別の例を示す図である。
(First Embodiment of the gene sequence division device)
The gene sequence division generation device 1a according to the first embodiment will be described with reference to FIGS. 1 to 3. FIG. 1 is a schematic diagram showing an example of a gene sequence division generation device 1a. FIG. 2A is a diagram showing an example of the secondary structure of ID1. FIG. 2B is a diagram showing an example in which structural information analyzed based on a secondary structure is added to ID1. FIG. 2C is a diagram showing an example in which ID1 is divided based on a secondary structure. FIG. 3A is a diagram showing an example in which the position information of the cleavage site analyzed based on the amino acid information and the signal sequence is added to ID2. FIG. 3B is a diagram showing an example in which ID2 is divided based on the signal sequence. FIG. 3C is a diagram showing another example in which ID2 is divided based on the signal sequence.

第1の実施形態に係る遺伝子配列分かち書き生成装置1aは、少なくとも入力部2と、解析部3と、分かち書き部4と、を具備している。なお、図1に示す例では、任意付加的に、第1記憶部5と、表示部6と、を具備している。 The gene sequence word-separating generator 1a according to the first embodiment includes at least an input unit 2, an analysis unit 3, and a word-separating unit 4. In the example shown in FIG. 1, a first storage unit 5 and a display unit 6 are optionally additionally provided.

第1の実施形態に係る遺伝子配列分かち書き生成装置1aは、コンピュータにより構成してもよい。コンピュータは、制御部(CPU)を具備している。そして、制御部が所定のプログラムを読み込むことにより、遺伝子配列分かち書き装置1aは解析部3および分かち書き部4を具備することとなる。 The gene sequence division generation device 1a according to the first embodiment may be configured by a computer. The computer includes a control unit (CPU). Then, when the control unit reads a predetermined program, the gene sequence dividing device 1a includes the analysis unit 3 and the dividing unit 4.

入力部2は、遺伝子配列分かち書き生成装置1aに遺伝子配列を入力できれば、特に制限はない。入力部2は、例えば、キーボード、マウスまたはタッチパネルが挙げられる。また、代替的に、ネットワーク(例えば、LANやインターネット等)を介して遺伝子配列は入力部2に入力されてもよく、この場合、入力部2はネットワークインターフェースの形態で構成されてもよい。さらに代替的に、スキャナや記憶手段を用いて遺伝子配列を入力部2に入力してもよい。 The input unit 2 is not particularly limited as long as the gene sequence can be input to the gene sequence division generation device 1a. The input unit 2 may be, for example, a keyboard, a mouse or a touch panel. Alternatively, the gene sequence may be input to the input unit 2 via a network (for example, LAN, the Internet, etc.), and in this case, the input unit 2 may be configured in the form of a network interface. Further, as an alternative, the gene sequence may be input to the input unit 2 by using a scanner or a storage means.

解析部3は、入力された遺伝子配列の構造解析を行う。構造解析される遺伝子配列中の構造は、意味ある構造であれば特に制限はない。構造解析される構造としては、例えば、二次構造(ステム、ループ)、構造モチーフ、三次元構造(三重鎖、四重鎖、同軸的スタッキング等の高次構造の有無)、シグナル配列、繰り返し配列、コドン、エキソンとイントロン、UTRとCDS等が挙げられる。それら構造の解析は、公知のプログラムを用いることができる。二次構造を解析する場合には、例えば、CentroidFold、Vienna RNAfold等が挙げられる。また、シグナル配列を解析する場合であれば、SignalP、Uniprot等が挙げられる。さらに、構造モチーフ抽出および探索には、MEME(Multiple Em for Motif Elicitation, http://meme-suite.org/tools/meme)、FGENESH(http://www.softberry.com/berry.phtml?topic=about&no_menu=on)等が挙げられる。三次元構造である四重鎖のグアニン四重鎖の解析は、QGPRSMapper(https://bioinformatics.ramapo.edu/QGRS/analyze.php)等が挙げられる。そして、構造解析された遺伝子配列には、構造情報が付加される。 The analysis unit 3 analyzes the structure of the input gene sequence. The structure in the gene sequence to be structurally analyzed is not particularly limited as long as it is a meaningful structure. Structures to be analyzed include, for example, secondary structures (stems, loops), structural motifs, three-dimensional structures (presence or absence of higher-order structures such as triple chains, quadruple chains, and coaxial stacking), signal sequences, and repeating sequences. , Codon, exon and intron, UTR and CDS, etc. A known program can be used for the analysis of these structures. When analyzing secondary structure, for example, CentroidFold, Vienna RNAfold and the like can be mentioned. Further, in the case of analyzing a signal sequence, SignalP, Uniprot and the like can be mentioned. Furthermore, for structural motif extraction and search, MEME (Multiple Em for Motif Elicitation, http://meme-suite.org/tools/meme) and FGENSH (http://www.softberry.com/berry.phtml?topic) = about & no_menu = on) etc. Analysis of the guanine quadruple chain, which is a three-dimensional structure, includes QGPRSMapper (https://bioinformatics.ramapo.edu/QGRS/analyze.php) and the like. Then, structural information is added to the gene sequence whose structure has been analyzed.

図2Aには、二次構造を有する配列「ACGAAACAGCGC」(ID1)の例が示されている。ID1は、GとCが相補的なので、GとCによりステムが形成される。図2Bには、ID1の構造解析を行い、「ドット」、「ブラケット」表記を用い二次構造を表現した構造情報をID1に付加した例が示されている。より具体的には、ステムは「(」、「)」で表現し、ループまたは相補対を形成していない塩基は「.」で表現している。なお、構造情報に用いる表現は、当該表現に基づき分かち書きができれば特に制限はない。例えば、具体的に分かち書きする位置情報を付加してもよい。 FIG. 2A shows an example of the sequence "ACGAAAGAGCGC" (ID1) having a secondary structure. Since G and C are complementary to ID1, a stem is formed by G and C. FIG. 2B shows an example in which the structure of ID1 is analyzed and structural information expressing a secondary structure is added to ID1 using the “dot” and “bracket” notations. More specifically, the stem is represented by "(", ")", and the bases that do not form a loop or complementary pair are represented by ".". The expression used for the structural information is not particularly limited as long as it can be divided based on the expression. For example, the position information to be specifically divided may be added.

分かち書き部4は、構造解析に基づいて遺伝子配列の分かち書きを生成する。本明細書中における「分かち書き」とは、遺伝子配列を一定の方針で区切り分割することを意味する。分かち書きは、遺伝子配列を区切ることができれば特に制限はなく、例えば記号等で区切ればよい。記号としては、例えば、空白、タブ、コンマ等が挙げられる。図2Bに示すように、構造解析によってID1には構造情報が付加されている。そして、図2Cに示すように、付加された構造情報に基づき、ID1が分かち書きされる。図2Cに示す例では、二次構造であるステムとループのそれぞれが単語となるように、ステムとループの境界部、すなわち「(」と「.」または「)」と「.」との間に空白を配置している。 The word-separation unit 4 generates a word-separation of a gene sequence based on structural analysis. As used herein, the term "separate writing" means that a gene sequence is divided and divided according to a certain policy. The word-separation is not particularly limited as long as the gene sequence can be separated, and may be separated by, for example, a symbol or the like. Examples of the symbol include blanks, tabs, commas, and the like. As shown in FIG. 2B, structural information is added to ID1 by structural analysis. Then, as shown in FIG. 2C, ID1 is divided and written based on the added structural information. In the example shown in FIG. 2C, the boundary between the stem and the loop, that is, between "(" and "." Or ")" and ".", So that each of the stem and the loop, which is a secondary structure, is a word. There is a blank space in.

分かち書き部4で生成された遺伝子配列の分かち書きは、遺伝子配列が構造情報に基づいて区切り分割されたものである。したがって、遺伝子配列の分かち書きは、構造情報に基づいて単語となる、すなわち形態素分析が行われたといえる。よって、遺伝子配列の分かち書きは、自然言語処理できる情報となる。 In the word-separation of the gene sequence generated by the word-separating unit 4, the gene sequence is divided and divided based on the structural information. Therefore, it can be said that the division of gene sequences is a word based on structural information, that is, morphological analysis is performed. Therefore, the division of gene sequences is information that can be processed in natural language.

構造解析に基づいて遺伝子配列の分かち書きを生成する別の例として、ID2を用いてシグナル配列に基づいて遺伝子配列の分かち書きを行うことを説明する。図3Aには、解析部3でID2に対しシグナル配列の構造解析が行われ、ID2にアミノ酸情報と構造情報を付加した例が示されている。その後、分かち書き部4において、ID2は、構造情報に基づいてシグナル配列の切断サイトで分かち書きが行われる。図3Bには、シグナル配列に基づいてID2を分かち書きした例が示されている。また、図3Bに示す例では、ID2の分かち書きをATGCで表記しているが、他の文字で表記してもよい。例えば、図3Cに示すように、ATGCに換えてアイウエ等の文字を用いて遺伝子配列の分かち書きを表記してもよい。ATGCとは異なる表記とすることで、シグナル配列と他の機能を有する配列とを区別できる。また、機械学習によって、翻訳効率への寄与の高い単語から全長のUTRを導出する場合に、ATGCとは異なる表記であるとシグナル配列とタンパク質先頭の区別もできる。 As another example of generating the gene sequence division based on the structural analysis, it will be described that the gene sequence division is performed based on the signal sequence using ID2. FIG. 3A shows an example in which the analysis unit 3 performs structural analysis of the signal sequence for ID2 and adds amino acid information and structural information to ID2. After that, in the word-separating unit 4, the ID2 is divided at the cutting site of the signal sequence based on the structural information. FIG. 3B shows an example in which ID2 is divided based on the signal sequence. Further, in the example shown in FIG. 3B, the word-separation of ID2 is expressed in ATGC, but it may be expressed in other characters. For example, as shown in FIG. 3C, a character such as Aiue may be used instead of ATGC to indicate the division of the gene sequence. By using a different notation from ATGC, it is possible to distinguish between a signal sequence and a sequence having other functions. In addition, when deriving the full-length UTR from a word that contributes to translation efficiency by machine learning, it is possible to distinguish between the signal sequence and the protein head if the notation is different from ATGC.

また、二次構造およびシグナル配列以外の構造解析に基づく分かち書きの生成は、以下に記載するように行われてもよい。
(1)構造モチーフに基づく場合、ATATモチーフと、CGCGモチーフとを形態素として分かち書きすればよい。
(2)繰り返し配列に基づく場合、解析したい繰り返し配列を記号化し、繰り返し配列とそうではない配列とを形態素として、その間を分かち書きすればよい。なお、記号はどのようなものを指定してもよい。
(3)コドンに基づく場合、3塩基を形態素として、その間を分かち書きすればよい。
(4)エキソンとイントロンに基づく場合、エキソンとイントロンとを形態素として、その間を分かち書きすればよい。
(5)UTRとCDSに基づく場合、UTRとCDSとを形態素として、その間を分かち書きすればよい。
In addition, the generation of the word-separated words based on the structural analysis other than the secondary structure and the signal sequence may be performed as described below.
(1) When based on a structural motif, the ATAT motif and the CGCG motif may be divided and written as morphemes.
(2) When based on a repeating sequence, the repeating sequence to be analyzed may be symbolized, and the repeating sequence and the non-repeating sequence may be used as morphemes, and the space between them may be divided. Any symbol may be specified.
(3) When based on a codon, 3 bases may be used as morphemes, and the space between them may be divided.
(4) When based on an exon and an intron, the exon and the intron may be used as morphemes, and the space between them may be divided.
(5) When based on UTR and CDS, UTR and CDS may be used as morphemes, and the space between them may be divided.

また、上記した構造解析を複数組み合わせて遺伝子配列の分かち書きを行ってもよい。例えば、UTR配列全体として記号を指定し、更に2次構造のステムとループをそれぞれ形態素として分かち書きし、さらにCDSは異なる記号列として、CDS配列内でコドンに基づく形態素として分かち書きを行うこともできる。 In addition, a plurality of the above-mentioned structural analyzes may be combined to divide the gene sequence. For example, a symbol can be specified for the entire UTR sequence, and the stem and loop of the secondary structure can be divided as morphemes, respectively, and the CDS can be divided as a different symbol string as a codon-based morpheme in the CDS sequence.

第1の実施形態に係る遺伝子配列分かち書き生成装置1において、第1記憶部5および表示部6は、任意付加的な構成要素である。第1記憶部5は、遺伝子配列を入力する処理、入力された遺伝子配列から遺伝子配列の構造解析を行う処理および遺伝子配列の構造解析に基づいて遺伝子配列を分かち書きする処理を行うプログラムを記憶する。また、第1記憶部5には、入力された遺伝子配列、構造解析によって構造情報が付加された遺伝子配列および/または遺伝子配列の分かち書き等のデータを記憶してもよい。第1記憶部5としては、例えば、RAM、ROM、SSD等のフラッシュメモリ、HDD等が挙げられる。 In the gene sequence division generation device 1 according to the first embodiment, the first storage unit 5 and the display unit 6 are optional additional components. The first storage unit 5 stores a program for inputting a gene sequence, performing a structural analysis of the gene sequence from the input gene sequence, and dividing the gene sequence based on the structural analysis of the gene sequence. Further, the first storage unit 5 may store data such as an input gene sequence, a gene sequence to which structural information has been added by structural analysis, and / or a division of the gene sequence. Examples of the first storage unit 5 include flash memory such as RAM, ROM, SSD, HDD, and the like.

表示部6は、入力部2で入力された遺伝子配列、構造解析によって構造情報が付加された遺伝子配列および/または遺伝子配列分のかち書きを表示できれば、特に制限はない。表示部6としては、例えば、液晶ディスプレイ、CRTディスプレイ、有機ELディスプレイ、LEDディスプレイ等が挙げられる。 The display unit 6 is not particularly limited as long as it can display the gene sequence input by the input unit 2, the gene sequence to which the structural information has been added by structural analysis, and / or the markings for the gene sequence. Examples of the display unit 6 include a liquid crystal display, a CRT display, an organic EL display, an LED display, and the like.

第1の実施形態に係る遺伝子配列分かち書き生成装置1は、以下の効果を奏する。
(1)構造解析に基づいて遺伝子配列の分かち書きを生成できる。そして、生成された遺伝子配列の分かち書きは、自然言語処理できる情報として扱える。
The gene sequence word-separating generator 1 according to the first embodiment has the following effects.
(1) It is possible to generate a word-separation of a gene sequence based on structural analysis. Then, the generated gene sequence can be treated as information that can be processed in natural language.

(遺伝子配列分かち書き生成装置の第2の実施形態)
図1および図4を参照して、第2の実施形態に係る遺伝子配列分かち書き生成装置1bについて説明する。図4Aは、ID1に二次構造に基づいて解析された構造情報を付加して記載した例を示す図である。図4Bは、ID1の分かち書きの別の例を示す図である。
(Second embodiment of the gene sequence division generator)
The gene sequence division generation device 1b according to the second embodiment will be described with reference to FIGS. 1 and 4. FIG. 4A is a diagram showing an example in which structural information analyzed based on a secondary structure is added to ID1. FIG. 4B is a diagram showing another example of the word-separation of ID1.

第2の実施形態に係る遺伝子配列分かち書き生成装置1bは、分かち書き部4で生成される遺伝子配列の分かち書きが第1の実施形態と異なる。したがって、第2の実施形態に係る遺伝子配列分かち書き生成装置1bでは、第1の実施形態と異なる点を中心に説明し、第1の実施形態において説明済みの事項についての繰り返しとなる説明は省略する。よって、第2の実施形態において明示的に説明されなかったとしても、第1の実施形態で説明済みの事項を採用可能であることは言うまでもない。 The gene sequence word-separating generator 1b according to the second embodiment is different from the first embodiment in the word-separation of the gene sequence generated by the word-separating unit 4. Therefore, in the gene sequence word-separating generator 1b according to the second embodiment, the points different from those of the first embodiment will be mainly described, and the repeated explanation of the matters explained in the first embodiment will be omitted. .. Therefore, it goes without saying that the matters explained in the first embodiment can be adopted even if they are not explicitly explained in the second embodiment.

第2の実施形態に係る遺伝子配列分かち書き生成装置1bの分かち書き部4は、構造解析に基づいた分かち書きに加えて、構造解析による構造情報を遺伝子配列に反映する。構造情報の遺伝子配列への反映は、遺伝子配列の表記を換えて行われる。 The division 4 of the gene sequence division generation device 1b according to the second embodiment reflects the structural information obtained by the structural analysis in the gene sequence in addition to the division based on the structural analysis. The structural information is reflected in the gene sequence by changing the notation of the gene sequence.

例えば、図4Aに示す二次構造の構造情報が付加されたID1を分かち書き部4で分かち書きする。その場合、「(」と「.」または「)」と「.」との間に空白を配置することに加え、ステムが形成される配列をAT(またはU)GCに換えて、例えばBVHDとする、すなわちID1を8文字で表記する。その結果、図4Bに示された配列の分かち書きが生成される。したがって、生成された遺伝子配列の分かち書きは、構造情報が配列に反映される。図4Bに示す例では、ステムを形成する場所を記号で認識できる。なお、図4Bに示す例では、ステムが形成される配列の表記を換えたが、代替的にループが形成される配列の表記を換えてもよい。 For example, the ID1 to which the structural information of the secondary structure shown in FIG. 4A is added is divided by the dividing unit 4. In that case, in addition to placing a space between "(" and "." Or ")" and ".", The sequence in which the stem is formed is replaced with AT (or U) GC, for example, BVHD. That is, ID1 is represented by 8 characters. As a result, the sequence division shown in FIG. 4B is generated. Therefore, the structural information is reflected in the sequence of the generated gene sequence. In the example shown in FIG. 4B, the location where the stem is formed can be recognized by a symbol. In the example shown in FIG. 4B, the notation of the sequence in which the stem is formed is changed, but the notation of the sequence in which the loop is formed may be changed instead.

さらに、構造解析による構造情報を遺伝子配列に反映した分かち書きで、後述する遺伝子コーパスを生成すると、当該遺伝子コーパスを用いた機械学習により抽出された部分配列から可逆的に構造情報を有した配列を再構成できる。例えば、ステムが形成される配列をAT(またはU)GCに換えてBVHDとした場合、機械学習によりBVHDのいずれかからなる部分配列が抽出されれば、当該部分配列がステムであることがわかる。 Furthermore, when a gene corpus, which will be described later, is generated by dividing the structural information by structural analysis into the gene sequence, the sequence having structural information is reversibly regenerated from the partial sequence extracted by machine learning using the gene corpus. Can be configured. For example, when the sequence in which a stem is formed is replaced with AT (or U) GC to be BVHD, if a partial sequence consisting of any of BVHD is extracted by machine learning, it is known that the partial sequence is a stem. ..

第2の実施形態に係る遺伝子配列分かち書き生成装置1bは、第1の実施形態に係る遺伝子配列分かち書き生成装置1aが奏する効果に加え、以下の効果を相乗的に奏する。
(1)構造情報を遺伝子配列に反映しているため、分かち書きされた意味のある単語がどのような構造であるか認識できる。
(2)構造解析による構造情報を遺伝子配列に反映し、構造ごとに表記を換えた分かち書きで生成した遺伝子コーパスを用いた機械学習において、機械学習により抽出された部分配列から可逆的に構造情報を有した配列を再構成できる。
The gene sequence division generator 1b according to the second embodiment synergistically exerts the following effects in addition to the effects of the gene sequence division generator 1a according to the first embodiment.
(1) Since the structural information is reflected in the gene sequence, it is possible to recognize what kind of structure the divided and meaningful words have.
(2) In machine learning that reflects the structural information obtained by structural analysis in the gene sequence and uses a gene corpus generated by dividing the notation for each structure, the structural information is reversibly obtained from the partial sequence extracted by machine learning. The possessed sequence can be reconstructed.

(遺伝子コーパス生成装置の実施形態)
図5を参照して、実施形態に係る遺伝子コーパス生成装置7について説明する。図5は、遺伝子コーパス生成装置7の例を示す概略図である。
(Embodiment of Gene Corpus Generator)
The gene corpus generator 7 according to the embodiment will be described with reference to FIG. FIG. 5 is a schematic diagram showing an example of the gene corpus generator 7.

遺伝子配列の分かち書きは、自然言語処理が行える情報として扱える。そのため、それら遺伝子配列の分かち書きを蓄積することで、遺伝子コーパスを生成できる。そこで、遺伝子コーパス生成装置7は、少なくとも遺伝子配列分かち書き生成装置1と、第2記憶部8と、を具備する。また、実施形態に係る遺伝子コーパス生成装置7は、コンピュータにより構成してもよい。なお、「コーパス」とは、自然言語処理を行うための自然言語の文章を構造化し大規模に集積したもの、すなわち文字化した言語のデータベースである。 The division of gene sequences can be treated as information that can be processed in natural language. Therefore, a gene corpus can be generated by accumulating the word-separation of those gene sequences. Therefore, the gene corpus generation device 7 includes at least a gene sequence division generation device 1 and a second storage unit 8. Further, the gene corpus generator 7 according to the embodiment may be configured by a computer. The "corpus" is a database of natural language sentences that are structured and integrated on a large scale for natural language processing, that is, a characterized language database.

遺伝子配列分かち書き装置1は、上記の実施形態に係る遺伝子配列分かち書き生成装置1aまたは1bでよく、上記の実施形態に係る遺伝子配列分かち書き生成装置1aまたは1bの説明は、繰り返しとなるため省略する。 The gene sequence division device 1 may be the gene sequence division generation device 1a or 1b according to the above embodiment, and the description of the gene sequence division generation device 1a or 1b according to the above embodiment will be omitted because it will be repeated.

第2記憶部8は、遺伝子配列の分かち書きを記憶できれば、特に制限はない。第2記憶部8は、上記第1の実施形態に係る遺伝子配列分かち書き生成装置1aで説明済みの第1記憶部5と同様なものを用いることができる。また代替的に、遺伝子コーパス生成装置7は、第1記憶部5と第2記憶部8の何れか一方を具備し、第1記憶部5と第2記憶部8の何れか一方に遺伝子配列の分かち書き、プログラムおよびデータ等を記憶させてもよい。 The second storage unit 8 is not particularly limited as long as it can store the word-separation of the gene sequence. As the second storage unit 8, the same one as the first storage unit 5 described in the gene sequence word-separating generator 1a according to the first embodiment can be used. Alternatively, the gene corpus generator 7 includes either the first storage unit 5 or the second storage unit 8, and the gene sequence is arranged in either the first storage unit 5 or the second storage unit 8. You may store the division, the program, the data, and the like.

また、遺伝子配列の分かち書きを第2記憶部8に記憶する際、遺伝子配列の分かち書きに遺伝子配列の特徴を示すラベル(文字列)および/または遺伝子配列の物理量を示す数値を付与してもよい。そうすることで、コーパスとしてラベルおよび/または数値の情報が付与された遺伝子配列の分かち書きを蓄積できる。 Further, when the gene sequence division is stored in the second storage unit 8, a label (character string) indicating the characteristics of the gene sequence and / or a numerical value indicating the physical quantity of the gene sequence may be added to the gene sequence division. By doing so, it is possible to accumulate the word-separation of the gene sequence to which the label and / or the numerical information is given as a corpus.

生成された遺伝子コーパスは、遺伝子配列の分かち書きが蓄積されている。したがって、当該遺伝子コーパスを用いて自然言語処理ができる。自然言語処理として、例えば、公知のword2vec、fastText等を用い単語分散表現処理を行うことができる。fastTextを用いた場合、単語内の部分単語に分割し、それぞれの部分単語の分散表現を得ることができる。そして、単語分散表現処理により、遺伝子は単語または部分単語の分散量(ベクター)として表現される。 In the generated gene corpus, the division of gene sequences is accumulated. Therefore, natural language processing can be performed using the gene corpus. As the natural language processing, for example, a known word2vec, fastText, or the like can be used to perform word distribution expression processing. When fastText is used, it is possible to divide a word into subwords and obtain a distributed expression of each subword. Then, the gene is expressed as a dispersion amount (vector) of a word or a partial word by the word dispersion expression processing.

単語または部分単語の分散量として表現されたものを教師データとして、ニューラルネットワーク、サポート・ベクター・マシン等の公知の機械学習モデルで学習を行うことで、未知遺伝子の分類・相関・回帰分析を行うことができる。 Classification, correlation, and regression analysis of unknown genes are performed by learning with known machine learning models such as neural networks, support vector machines, etc., using what is expressed as the variance of words or partial words as teacher data. be able to.

実施形態に係る遺伝子コーパス生成装置は、以下の効果を奏する。
(1)遺伝子の分かち書きを蓄積することで、自然言語処理に使用可能な遺伝子コーパスを生成できる。
(2)ラベルおよび/または数値の情報を付与した遺伝子の分かち書きを蓄積することで、ラベルおよび/または数値の情報が付与された遺伝子コーパスを生成できる。
(3)生成された遺伝子コーパスを用い機械学習を行うことができるので、未知遺伝子の分類・相関・回帰分析を行うことができる。
The gene corpus generator according to the embodiment has the following effects.
(1) By accumulating gene word divisions, it is possible to generate a gene corpus that can be used for natural language processing.
(2) By accumulating the word-separated words of the gene to which the label and / or the numerical information is given, a gene corpus to which the label and / or the numerical information is given can be generated.
(3) Since machine learning can be performed using the generated gene corpus, it is possible to perform classification, correlation, and regression analysis of unknown genes.

(プログラムの実施形態)
上記の実施形態に係る遺伝子配列分かち書き生成装置1aまたは1bは、コンピュータにより構成することができる。その際、コンピュータは既存のものをそのまま使用できる。すなわち、遺伝子配列を入力する処理と、入力された遺伝子配列から遺伝子の構造解析を行う処理と、遺伝子の構造解析に基づいて遺伝子配列を分かち書きする処理と、をコンピュータに実行させるプログラムを提供することで、コンピュータを遺伝子配列分かち書き生成装置1aまたは1bとすることができる。
(Program embodiment)
The gene sequence division generation device 1a or 1b according to the above embodiment can be configured by a computer. At that time, the existing computer can be used as it is. That is, to provide a program that causes a computer to execute a process of inputting a gene sequence, a process of performing a gene structural analysis from the input gene sequence, and a process of dividing a gene sequence based on the gene structural analysis. The computer can be used as a gene sequence division generator 1a or 1b.

以下に実施例を掲げ、本出願で開示する実施形態を具体的に説明するが、この実施例は単に実施形態の説明のためのものである。本出願で開示する発明の範囲を限定したり、あるいは制限することを表すものではない。 The embodiments disclosed in the present application will be specifically described with reference to the following examples, but the embodiments are merely for the purpose of explaining the embodiments. It does not represent limiting or limiting the scope of the invention disclosed in this application.

(実施例1)
[4文字表記の遺伝子配列の分かち書きの生成]
二次構造に基づいて遺伝子配列の分かち書きを生成した。ハンマーヘッド型リボザイム(ID3)、転移RNA(ID4)および核小体低分子RNA(ID5)を対象とした。また、解析部3での構造解析は、Vienna RNAfoldを用いて二次構造について行った。
(Example 1)
[Generation of 4-letter gene sequence word-separation]
Gene sequence divisions were generated based on secondary structure. Hammerhead ribozyme (ID3), transfer RNA (ID4) and nucleolar RNA (ID5) were targeted. In addition, the structural analysis in the analysis unit 3 was performed on the secondary structure using Vienna RNAfold.

図6に、ID3~5の配列、二次構造を表現した構造情報および二次構造に基づいて分かち書きされたID3~5の分かち書きを示す。ID3~5の分かち書きは、構造解析に基づいて「(」と「.」または「)」と「.」との間に空白が配置された。したがって、各配列は構造解析に基づいて形態素分析が行われ、各配列を自然言語処理できる情報にできることが示された。 FIG. 6 shows an array of IDs 3 to 5, structural information expressing a secondary structure, and the division of IDs 3 to 5 divided based on the secondary structure. In the word-separation of IDs 3 to 5, a space was placed between "(" and "." Or ")" and "." Based on the structural analysis. Therefore, it was shown that each sequence was subjected to morphological analysis based on structural analysis, and each sequence could be made into information that can be processed in natural language.

(実施例2)
[8文字表記の遺伝子配列の分かち書きの生成]
構造解析による構造情報を遺伝子配列に反映して遺伝子の分かち書きを生成した以外は、実施例1と同様に二次構造に基づいて遺伝子配列の分かち書きを生成した。
(Example 2)
[Generation of 8-character gene sequence word-separation]
Similar to Example 1, the gene sequence division was generated based on the secondary structure, except that the structural information obtained by the structural analysis was reflected in the gene sequence to generate the gene division.

図7に、ID3~5の配列、二次構造を表現した構造情報および二次構造に基づいて分かち書きされたID3~5の分かち書きを示す。ID3~5の分かち書きは、構造解析に基づいて「(」と「.」または「)」と「.」との間に空白を配置することに加え、「(」または「)」で表現されるステムをAUGCに換えてBVHDとし8文字表記とした。実施例1と同様に、各配列を自然言語処理できる情報にできることが示された。 FIG. 7 shows an array of IDs 3 to 5, structural information expressing a secondary structure, and the division of IDs 3 to 5 divided based on the secondary structure. The word-separation of IDs 3 to 5 is expressed by "(" or ")" in addition to placing a space between "(" and "." Or ")" and "." Based on the structural analysis. The stem was changed to AUGC and changed to BVHD, which was written in 8 characters. Similar to Example 1, it was shown that each sequence can be made into information that can be processed in natural language.

(実施例3)
[4文字表記による遺伝子コーパスの生成]
単子葉植物から単離した上位5167種のエンハンサー(UTR)遺伝子配列(https://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DRA006661から入手したデータをYamasaki et al.,Plant Biotechnology,35,365-373(2018)に記載された処理により得た。)を二次構造に基づいて分かち書きをしたエンハンサー遺伝子配列の分かち書きを生成し、それら生成されたエンハンサー遺伝子配列の分かち書きを蓄積した遺伝子コーパスを生成した。なお、実施例3における分かち書きは、ステムとループとの間に空白を配置した4文字表記のものである。
(Example 3)
[Generation of gene corpus by 4-letter notation]
Data obtained from the top 5167 enhancer (UTR) gene sequences isolated from monocotyledonous plants (https://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DRA006661) are collected from Yamasaki et al., Plant. (1) obtained by the treatment described in Biotechnology, 35, 365-373 (2018) was generated based on the secondary structure of the enhancer gene sequence, and the generated enhancer gene sequence was accumulated. Generated a gene corpus. In addition, the word-separation in Example 3 is a four-character notation in which a space is arranged between the stem and the loop.

また、入手した5167種のエンハンサー遺伝子配列には、発現量の情報も付加されている。そこで、遺伝子コーパスに蓄積されたエンハンサー遺伝子配列の分かち書きに、エンハンサー遺伝子配列の発現量に対応したラベル(発現量が大きいエンハンサー遺伝子配列をXLとし、順にL、M、S、XSの5種)を付与した。 In addition, information on the expression level is added to the obtained 5167 enhancer gene sequences. Therefore, in the division of the enhancer gene sequence accumulated in the gene corpus, a label corresponding to the expression level of the enhancer gene sequence (the enhancer gene sequence having a large expression level is XL, and 5 types of L, M, S, and XS in that order) is attached. Granted.

(実施例4)
[8文字表記による遺伝子コーパスの生成]
二次構造に基づいて分かち書きされた遺伝子配列の分かち書きを、ステムとループとの間に空白を配置することに加え、ステムが形成される配列をAUGCに換えてBVHDとし8文字表記とした以外は、実施例3と同様に遺伝子コーパスを生成した。
(Example 4)
[Generation of gene corpus by 8-letter notation]
Except for the fact that the gene sequence that was divided based on the secondary structure was divided by placing a space between the stem and the loop, and the sequence in which the stem was formed was changed to AUGC and changed to BVHD, which is an 8-character notation. , A gene corpus was generated in the same manner as in Example 3.

(比較例1)
遺伝子配列の分かち書きを行わなかった以外は、実施例3と同様に遺伝子コーパスを生成した。
(Comparative Example 1)
A gene corpus was generated in the same manner as in Example 3 except that the gene sequence was not divided.

(実施例5)
[遺伝子コーパスを用いた機械学習による分類予測1]
実施例3、実施例4および比較例1で生成した遺伝子コーパスを用い機械学習によりエンハンサー遺伝子配列の分類を行った。機械学習には、fastTextを用い、5167種のエンハンサー遺伝子配列のうち4000種のエンハンサー遺伝子配列を教師データとして、1167種のエンハンサー遺伝子配列の発現予測値の分類を行った。なお、fastTextのハイパーパラメータはデフォルトを用いた。
(Example 5)
[Classification prediction by machine learning using gene corpus 1]
The enhancer gene sequences were classified by machine learning using the gene corpus generated in Example 3, Example 4, and Comparative Example 1. For machine learning, fastText was used to classify the predicted expression values of 1167 enhancer gene sequences using 4000 enhancer gene sequences out of 5167 enhancer gene sequences as teacher data. In addition, the hyperparameters of fastText used the defaults.

結果を表1に示す。比較例1は、5種のラベルに対する適合率のため、ランダムな場合の確率20%と近い結果となった。それに対し実施例3および実施例4は、比較例1と比べて適合率が上昇した。このことから、エンハンサー遺伝子配列の発現量予測を行う際の機械学習において、各ステムおよびループの部分配列が有効な意味あるいは構造を提供していることがわかった。また、実施例4は、実施例3よりも適合率が高いことが示された。 The results are shown in Table 1. In Comparative Example 1, the probability of random cases was close to 20% because of the matching rate for 5 types of labels. On the other hand, in Example 3 and Example 4, the conformance rate was higher than that in Comparative Example 1. From this, it was found that the partial sequences of each stem and loop provide an effective meaning or structure in machine learning when predicting the expression level of the enhancer gene sequence. Further, it was shown that Example 4 has a higher conformance rate than Example 3.

Figure 2022069267000002
Figure 2022069267000002

(実施例6)
[遺伝子コーパスを用いた機械学習による分類予測2]
特表2013-503640号公報に記載されたエンハンサー遺伝子配列を用いて、発現量の分類予測を行った。発現量の分類予測は、教師データとして実施例4で生成した8文字表記による遺伝子コーパスを用い、fastTextによる機械学習を行った。
(Example 6)
[Classification prediction by machine learning using gene corpus 2]
The expression level was classified and predicted using the enhancer gene sequence described in JP-A-2013-503640. For the classification prediction of the expression level, the gene corpus in the 8-character notation generated in Example 4 was used as the teacher data, and machine learning by fastText was performed.

結果を表2に示す。機械学習の結果、各配列は発現量XLの確度が高く、発現量はXLであると予測された。そして、その結果は、特表2013-503640号公報に記載された発現量と同じ傾向を示した。 The results are shown in Table 2. As a result of machine learning, it was predicted that each sequence had a high accuracy of expression level XL and the expression level was XL. The results showed the same tendency as the expression level described in Japanese Patent Publication No. 2013-503640.

Figure 2022069267000003
Figure 2022069267000003

(実施例7)
[遺伝子コーパスを用いた機械学習による遺伝子配列予測]
実施例4で生成した8文字表記による遺伝子コーパスを用い機械学習により高い発現効率が期待できるエンハンサー配列を予測した。予測は以下の手順で行った。
(1)実施例4で生成した遺伝子コーパスを用いラベルXLのF値を高めるようにfastTextのハイパーパラメータの調整を行った。
(2)ラベルXLを構成する単語のベクター重心を求め、各単語ベクターとベクター中心の距離を求め、距離の短いものから順に単語列を抽出した。
(Example 7)
[Gene sequence prediction by machine learning using a gene corpus]
Using the gene corpus in 8-letter notation generated in Example 4, an enhancer sequence that can be expected to have high expression efficiency by machine learning was predicted. The prediction was made by the following procedure.
(1) Using the gene corpus generated in Example 4, the hyperparameters of fastText were adjusted so as to increase the F value of the label XL.
(2) The vector center of gravity of the words constituting the label XL was obtained, the distance between each word vector and the center of the vector was obtained, and the word strings were extracted in order from the one with the shortest distance.

表3に、抽出された単語列を示す。なお、表3の上から上記(2)の距離が短い順となっている。また、表3中、ID18、19の括弧内の表記は4文字表記とした際の配列である。 Table 3 shows the extracted word strings. The distances in (2) above are in ascending order from the top of Table 3. Further, in Table 3, the notation in parentheses of IDs 18 and 19 is an array when the four-character notation is used.

Figure 2022069267000004
Figure 2022069267000004

抽出された単語列のうちループであるものは、直鎖構造のエンハンサー遺伝子配列として利用すれば、高い発現効率が期待できる。また、ID18の単語列(配列)は、BVHDからなる単語列であるためステムであることがわかる。そこで、高発現効率が期待できる単語を複数持つものとして、図8に示すエンハンサー遺伝子配列(ID21)を構築した。 High expression efficiency can be expected if the extracted word sequence, which is a loop, is used as an enhancer gene sequence having a linear structure. Further, it can be seen that the word string (array) of ID18 is a stem because it is a word string composed of BVHD. Therefore, the enhancer gene sequence (ID21) shown in FIG. 8 was constructed as having a plurality of words that can be expected to have high expression efficiency.

上記実施例5および実施例6から、遺伝子配列の分かち書きから生成された遺伝子コーパスが、機械学習に有用であることが示された。また、実施例7では、機械学習に有用である遺伝子コーパスにより、高い発現効率が期待できるエンハンサー遺伝子配列を予測できることが示された。 From Examples 5 and 6 above, it was shown that the gene corpus generated from the division of gene sequences is useful for machine learning. Further, in Example 7, it was shown that an enhancer gene sequence that can be expected to have high expression efficiency can be predicted by a gene corpus useful for machine learning.

なお、本発明は、上記の実施形態に制限されない。本発明の範囲内において、上記の各実施形態の自由な組み合わせ、あるいは各実施形態の任意の構成要素の変形、または任意の構成要素の省略が可能である。さらに、上記の各実施形態に任意の構成要素が追加されてもよい。 The present invention is not limited to the above embodiment. Within the scope of the present invention, any combination of the above embodiments can be freely combined, any component of each embodiment can be modified, or any component can be omitted. Further, any component may be added to each of the above embodiments.

本出願で開示する遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置、およびプログラムを用いると、遺伝子配列を分かち書きできる。したがって、ゲノム、トランスクリプトーム、プロテオーム等の大規模情報を使った機械学習システムを扱う業者にとって有用である。 The gene sequence segmentation generator, gene corpus generator, and program disclosed in this application can be used to divide gene sequences. Therefore, it is useful for those who handle machine learning systems using large-scale information such as genomes, transcriptomes, and proteomes.

1、1a、1b…遺伝子配列分かち書き生成装置、2…入力部、3…解析部、4…分かち書き部、5…第1記憶部、6…表示部、7…遺伝子コーパス生成装置、8…第2記憶部
1, 1a, 1b ... gene sequence division generator, 2 ... input unit, 3 ... analysis unit, 4 ... division division, 5 ... first storage unit, 6 ... display unit, 7 ... gene corpus generator, 8 ... second Memory

Claims (6)

遺伝子配列を入力する入力部と、
入力された遺伝子配列から遺伝子配列の構造解析を行う解析部と、
解析部による構造解析に基づいて遺伝子配列を分かち書きする分かち書き部と、
を含む、
遺伝子配列分かち書き生成装置。
Input section for inputting gene sequence and
An analysis unit that analyzes the structure of the gene sequence from the input gene sequence,
A word-separator that divides gene sequences based on structural analysis by the analysis unit,
including,
Gene sequence division generator.
分かち書き部は、さらに構造解析による構造情報を遺伝子配列に反映させる、
請求項1に記載の遺伝子配列分かち書き生成装置。
The word-separation section further reflects the structural information obtained by structural analysis in the gene sequence.
The gene sequence division generator according to claim 1.
分かち書き部は、分かち書きされた部分配列から可逆的に構造情報を有した配列を再構成するために、構造情報ごとに表記を換える、
請求項2に記載の遺伝子配列分かち書き生成装置。
The word-separated section changes the notation for each structural information in order to reversibly reconstruct an array having structural information from the divided partial array.
The gene sequence division generator according to claim 2.
解析部は、遺伝子配列の二次構造について解析する、
請求項1~3の何れか一項に記載の遺伝子配列分かち書き生成装置。
The analysis department analyzes the secondary structure of the gene sequence.
The gene sequence division generator according to any one of claims 1 to 3.
請求項1~4の何れか一項に記載の遺伝子配列分かち書き生成装置と、
遺伝子配列分かち書き生成装置によって生成された遺伝子配列の分かち書きを記憶する第2記憶部と、
を含む、
遺伝子コーパス生成装置。
The gene sequence division generator according to any one of claims 1 to 4.
A second storage unit that stores the word-separation of the gene sequence generated by the gene sequence word-separator.
including,
Gene corpus generator.
遺伝子配列を入力する処理と、
入力された遺伝子配列から遺伝子配列の構造解析を行う処理と、
遺伝子配列の構造解析に基づいて遺伝子配列を分かち書きする処理と、
をコンピュータに実行させるプログラム。
The process of inputting the gene sequence and
Processing to analyze the structure of the gene sequence from the input gene sequence,
The process of dividing the gene sequence based on the structural analysis of the gene sequence,
A program that causes a computer to run.
JP2020178356A 2020-10-23 2020-10-23 Gene sequence word-separator, gene corpus generator and program Active JP6843457B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020178356A JP6843457B1 (en) 2020-10-23 2020-10-23 Gene sequence word-separator, gene corpus generator and program
PCT/JP2021/038909 WO2022085756A1 (en) 2020-10-23 2021-10-21 Genetic sequence segmented writing generation device, genetic corpus generation device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020178356A JP6843457B1 (en) 2020-10-23 2020-10-23 Gene sequence word-separator, gene corpus generator and program

Publications (2)

Publication Number Publication Date
JP6843457B1 JP6843457B1 (en) 2021-03-17
JP2022069267A true JP2022069267A (en) 2022-05-11

Family

ID=74860866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020178356A Active JP6843457B1 (en) 2020-10-23 2020-10-23 Gene sequence word-separator, gene corpus generator and program

Country Status (2)

Country Link
JP (1) JP6843457B1 (en)
WO (1) WO2022085756A1 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3881238B2 (en) * 2001-12-28 2007-02-14 セレスター・レキシコ・サイエンシズ株式会社 RNA sequence analyzing apparatus, RNA sequence analyzing method, program, and recording medium
JPWO2004051546A1 (en) * 2002-11-29 2006-04-06 株式会社インシリコサイエンス Array information processing apparatus, array information processing method, program, and recording medium
JP2004310561A (en) * 2003-04-09 2004-11-04 Hitachi Ltd Information retrieval method, information retrieval system and retrieval server
DE602004029391D1 (en) * 2003-12-05 2010-11-11 Council Scient Ind Res A COMPUTER-USED METHOD FOR IDENTIFYING DNA SEQUENCES THAT CODE PROCESSES USED AS "DRUG TARGETS"
CN100533431C (en) * 2005-09-21 2009-08-26 富士通株式会社 Natural language component identifying correcting apparatus and method based on morpheme marking

Also Published As

Publication number Publication date
JP6843457B1 (en) 2021-03-17
WO2022085756A1 (en) 2022-04-28

Similar Documents

Publication Publication Date Title
US10055539B2 (en) Systems and methods for using paired-end data in directed acyclic structure
Heyne et al. GraphClust: alignment-free structural clustering of local RNA secondary structures
AU2014340461A1 (en) Systems and methods for using paired-end data in directed acyclic structure
Esmaili-Taheri et al. Evolutionary solution for the RNA design problem
Loving et al. BitPAl: a bit-parallel, general integer-scoring sequence alignment algorithm
Chang et al. An ILP solution for the gene duplication problem
Hussein et al. Flower pollination algorithm with profile technique for multiple sequence alignment
Naznooshsadat et al. Fame: fast and memory efficient multiple sequences alignment tool through compatible chain of roots
Zogopoulos et al. Arabidopsis Coexpression Tool: a tool for gene coexpression analysis in Arabidopsis thaliana
JP6843457B1 (en) Gene sequence word-separator, gene corpus generator and program
Stiller et al. Complexity of avian evolution revealed by family-level genomes
González-Álvarez et al. Applying a multiobjective gravitational search algorithm (MO-GSA) to discover motifs
Jaiswal et al. Development of species specific putative miRNA and its target prediction tool in wheat (Triticum aestivum L.)
Aslam et al. A role of bioinformatics in agriculture
Wang et al. CRISPR-GNL: an improved model for predicting CRISPR activity by machine learning and featurization
Baltoumas et al. Exploring microbial functional biodiversity at the protein family level—From metagenomic sequence reads to annotated protein clusters
JP5604465B2 (en) Text summarization apparatus, method, and program
Gupta et al. DAVI: Deep learning-based tool for alignment and single nucleotide variant identification
Wu et al. Poly (A)-tag deep sequencing data processing to extract poly (A) sites
Almutiri et al. A survey of machine learning and deep learning applications in genome editing
Das et al. PtRNAdb: A web resource of Plant tRNA genes from a wide range of plant species
Cordaux et al. Computational methods for the analysis of primate mobile elements
Maitre et al. MidClustpy: a clustering approach to predict coding region in a biological sequence
Numnark et al. An emerging technique for reducing the response time in plant miRNA identification
Kumar et al. Tools and Methods in the Analysis of Simple Sequences

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201116

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201116

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210216

R150 Certificate of patent or registration of utility model

Ref document number: 6843457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250