JP6843457B1 - 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム - Google Patents

遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム Download PDF

Info

Publication number
JP6843457B1
JP6843457B1 JP2020178356A JP2020178356A JP6843457B1 JP 6843457 B1 JP6843457 B1 JP 6843457B1 JP 2020178356 A JP2020178356 A JP 2020178356A JP 2020178356 A JP2020178356 A JP 2020178356A JP 6843457 B1 JP6843457 B1 JP 6843457B1
Authority
JP
Japan
Prior art keywords
gene sequence
gene
word
sequence
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020178356A
Other languages
English (en)
Other versions
JP2022069267A (ja
Inventor
慧 南
慧 南
賢尚 南
賢尚 南
裕昭 多田
裕昭 多田
加藤 晃
晃 加藤
将太朗 山▲崎▼
将太朗 山▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NU Protein Co Ltd
Original Assignee
NU Protein Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NU Protein Co Ltd filed Critical NU Protein Co Ltd
Priority to JP2020178356A priority Critical patent/JP6843457B1/ja
Application granted granted Critical
Publication of JP6843457B1 publication Critical patent/JP6843457B1/ja
Priority to PCT/JP2021/038909 priority patent/WO2022085756A1/ja
Publication of JP2022069267A publication Critical patent/JP2022069267A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Zoology (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medicinal Chemistry (AREA)
  • Software Systems (AREA)
  • Microbiology (AREA)
  • Sustainable Development (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】自然言語処理による機械学習ができるように、遺伝子配列を分かち書きする遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラムを提供する。【解決手段】遺伝子配列を入力する入力部と、入力された遺伝子配列から遺伝子配列の構造解析を行う解析部と、解析部による構造解析に基づいて遺伝子配列を分かち書きする分かち書き部と、を含む、遺伝子配列分かち書き生成装置。【選択図】図2

Description

本出願における開示は、遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラムに関する。
近年、生命科学の分野において、ゲノム、トランスクリプトーム、プロテオーム等の大規模情報が得られるようになった。そして、医学、農業、園芸等の多くの分野で、それら情報を使った機械学習システムの実用化が進められている。例えば、特許文献1および特許文献2には、機械学習によって機能性核酸配列を設計することが開示されている。
特開2005−038377号公報 特開2006−236153号公報
特許文献1および特許文献2に記載されているように、遺伝子配列を用いた機械学習は実行されている。より具体的には、特許文献1には、カーネル法による機能性核酸配列データから特徴抽出による固定長の塩基配列を特徴ベクターとして活性の有無に関わる特徴配列の計数を行い、教師付き学習であるサポート・ベクター・マシン(SVM)または、サポート・ベクター・回帰(SVR)により、既知の機能性核酸配列データを訓練パターンとして活性判別モデルを構築または、判別モデルに帰着させて回帰させ、標的遺伝子に対して有効な機能性核酸を分析することが記載されている。また、特許文献2には、機能性核酸の塩基配列を1−merごとに分割し位置ごとの特徴量を学習データとして教師付き学習に用いる方法で機能性核酸配列の機能予測と該機能を有する配列を設計する解析方法が記載されている。
しかしながら、本発明者らは鋭意検討の結果、(1)特許文献1および特許文献2に記載された機械学習は、遺伝子配列を意味のある単語として分割していない、(2)そのため、自然言語処理による機械学習を行うことができない、という問題があることを新たに見出した。
本出願の開示は、上記問題点を解決するためになされたものであり、自然言語処理による機械学習ができるように、遺伝子配列を分かち書きする遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラムを提供することにある。本出願の開示のその他の任意付加的な効果は、発明を実施するための形態において明らかにされる。
(1)遺伝子配列を入力する入力部と、
入力された遺伝子配列から遺伝子配列の構造解析を行う解析部と、
解析部による構造解析に基づいて遺伝子配列を分かち書きする分かち書き部と、
を含む、
遺伝子配列分かち書き生成装置。
(2)分かち書き部は、さらに構造解析による構造情報を遺伝子配列に反映させる、
上記(1)に記載の遺伝子配列分かち書き生成装置。
(3)分かち書き部は、分かち書きされた部分配列から可逆的に構造情報を有した配列を再構成するために、構造情報ごとに表記を換える、
上記(2)に記載の遺伝子配列分かち書き生成装置。
(4)解析部は、遺伝子配列の二次構造について解析する、
上記(1)〜(3)の何れか一つに記載の遺伝子配列分かち書き生成装置。
(5)上記(1)〜(4)の何れか一つに記載の遺伝子配列分かち書き生成装置と、
遺伝子配列分かち書き生成装置によって生成された遺伝子配列の分かち書きを記憶する第2記憶部と、
を含む、
遺伝子コーパス生成装置。
(6)遺伝子配列を入力する処理と、
入力された遺伝子配列から遺伝子配列の構造解析を行う処理と、
遺伝子配列の構造解析に基づいて遺伝子配列を分かち書きする処理と、
をコンピュータに実行させるプログラム。
本出願で開示する遺伝子配列分かち書き生成装置により、遺伝子配列を意味のある単語として分かち書きできる。
遺伝子配列分かち書き生成装置1の例を示す概略図。 A:ID1の二次構造の例、B:ID1に二次構造に基づいて解析された構造情報を付加した例、C:二次構造に基づいてID1を分かち書きした例、を示す図。 A:ID2にアミノ酸情報およびシグナル配列に基づいて解析された切断サイトの位置情報を付加した例、B:シグナル配列に基づいてID2を分かち書きした例、C:シグナル配列に基づいてID2を分かち書きした別の例、を示す図。 A:ID1に二次構造に基づいて解析された構造情報を付加した例、B:ID1の分かち書きの別の例、を示す図。 遺伝子コーパス生成装置7の例を示す概略図。 実施例1で生成された遺伝子配列の分かち書きを示す図。 実施例2で生成された遺伝子配列の分かち書きを示す図。 実施例7の機械学習により予測された遺伝子配列を示す図。
以下、図面を参照しつつ、遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラムについて説明する。なお、本明細書において、同種の機能を有する部位には、同一または類似の符号が付されている。そして、同一または類似の符号の付された部位について、繰り返しとなる説明が省略される場合がある。
本明細書中に記載されるID番号が付された配列は、分かち書きの生成、コーパスの生成および/または機械学習に用いられる文字列(単語列)である。また、ID番号が付された配列には、遺伝子配列が含まれる場合もある。
(遺伝子配列分かち書き装置の第1の実施形態)
図1〜図3を参照して、第1の実施形態に係る遺伝子配列分かち書き生成装置1aについて説明する。図1は、遺伝子配列分かち書き生成装置1aの例を示す概略図である。図2Aは、ID1の二次構造の例を示す図である。図2Bは、ID1に二次構造に基づいて解析された構造情報を付加して記載した例を示す図である。図2Cは、二次構造に基づいてID1を分かち書きした例を示す図である。図3Aは、ID2にアミノ酸情報およびシグナル配列に基づいて解析された切断サイトの位置情報を付加した例を示す図である。図3Bは、シグナル配列に基づいてID2を分かち書きした例を示す図である。図3Cは、シグナル配列に基づいてID2を分かち書きした別の例を示す図である。
第1の実施形態に係る遺伝子配列分かち書き生成装置1aは、少なくとも入力部2と、解析部3と、分かち書き部4と、を具備している。なお、図1に示す例では、任意付加的に、第1記憶部5と、表示部6と、を具備している。
第1の実施形態に係る遺伝子配列分かち書き生成装置1aは、コンピュータにより構成してもよい。コンピュータは、制御部(CPU)を具備している。そして、制御部が所定のプログラムを読み込むことにより、遺伝子配列分かち書き装置1aは解析部3および分かち書き部4を具備することとなる。
入力部2は、遺伝子配列分かち書き生成装置1aに遺伝子配列を入力できれば、特に制限はない。入力部2は、例えば、キーボード、マウスまたはタッチパネルが挙げられる。また、代替的に、ネットワーク(例えば、LANやインターネット等)を介して遺伝子配列は入力部2に入力されてもよく、この場合、入力部2はネットワークインターフェースの形態で構成されてもよい。さらに代替的に、スキャナや記憶手段を用いて遺伝子配列を入力部2に入力してもよい。
解析部3は、入力された遺伝子配列の構造解析を行う。構造解析される遺伝子配列中の構造は、意味ある構造であれば特に制限はない。構造解析される構造としては、例えば、二次構造(ステム、ループ)、構造モチーフ、三次元構造(三重鎖、四重鎖、同軸的スタッキング等の高次構造の有無)、シグナル配列、繰り返し配列、コドン、エキソンとイントロン、UTRとCDS等が挙げられる。それら構造の解析は、公知のプログラムを用いることができる。二次構造を解析する場合には、例えば、CentroidFold、Vienna RNAfold等が挙げられる。また、シグナル配列を解析する場合であれば、SignalP、Uniprot等が挙げられる。さらに、構造モチーフ抽出および探索には、MEME(Multiple Em for Motif Elicitation, http://meme-suite.org/tools/meme)、FGENESH(http://www.softberry.com/berry.phtml?topic=about&no_menu=on)等が挙げられる。三次元構造である四重鎖のグアニン四重鎖の解析は、QGPRSMapper(https://bioinformatics.ramapo.edu/QGRS/analyze.php)等が挙げられる。そして、構造解析された遺伝子配列には、構造情報が付加される。
図2Aには、二次構造を有する配列「ACGAAACAGCGC」(ID1)の例が示されている。ID1は、GとCが相補的なので、GとCによりステムが形成される。図2Bには、ID1の構造解析を行い、「ドット」、「ブラケット」表記を用い二次構造を表現した構造情報をID1に付加した例が示されている。より具体的には、ステムは「(」、「)」で表現し、ループまたは相補対を形成していない塩基は「.」で表現している。なお、構造情報に用いる表現は、当該表現に基づき分かち書きができれば特に制限はない。例えば、具体的に分かち書きする位置情報を付加してもよい。
分かち書き部4は、構造解析に基づいて遺伝子配列の分かち書きを生成する。本明細書中における「分かち書き」とは、遺伝子配列を一定の方針で区切り分割することを意味する。分かち書きは、遺伝子配列を区切ることができれば特に制限はなく、例えば記号等で区切ればよい。記号としては、例えば、空白、タブ、コンマ等が挙げられる。図2Bに示すように、構造解析によってID1には構造情報が付加されている。そして、図2Cに示すように、付加された構造情報に基づき、ID1が分かち書きされる。図2Cに示す例では、二次構造であるステムとループのそれぞれが単語となるように、ステムとループの境界部、すなわち「(」と「.」または「)」と「.」との間に空白を配置している。
分かち書き部4で生成された遺伝子配列の分かち書きは、遺伝子配列が構造情報に基づいて区切り分割されたものである。したがって、遺伝子配列の分かち書きは、構造情報に基づいて単語となる、すなわち形態素分析が行われたといえる。よって、遺伝子配列の分かち書きは、自然言語処理できる情報となる。
構造解析に基づいて遺伝子配列の分かち書きを生成する別の例として、ID2を用いてシグナル配列に基づいて遺伝子配列の分かち書きを行うことを説明する。図3Aには、解析部3でID2に対しシグナル配列の構造解析が行われ、ID2にアミノ酸情報と構造情報を付加した例が示されている。その後、分かち書き部4において、ID2は、構造情報に基づいてシグナル配列の切断サイトで分かち書きが行われる。図3Bには、シグナル配列に基づいてID2を分かち書きした例が示されている。また、図3Bに示す例では、ID2の分かち書きをATGCで表記しているが、他の文字で表記してもよい。例えば、図3Cに示すように、ATGCに換えてアイウエ等の文字を用いて遺伝子配列の分かち書きを表記してもよい。ATGCとは異なる表記とすることで、シグナル配列と他の機能を有する配列とを区別できる。また、機械学習によって、翻訳効率への寄与の高い単語から全長のUTRを導出する場合に、ATGCとは異なる表記であるとシグナル配列とタンパク質先頭の区別もできる。
また、二次構造およびシグナル配列以外の構造解析に基づく分かち書きの生成は、以下に記載するように行われてもよい。
(1)構造モチーフに基づく場合、ATATモチーフと、CGCGモチーフとを形態素として分かち書きすればよい。
(2)繰り返し配列に基づく場合、解析したい繰り返し配列を記号化し、繰り返し配列とそうではない配列とを形態素として、その間を分かち書きすればよい。なお、記号はどのようなものを指定してもよい。
(3)コドンに基づく場合、3塩基を形態素として、その間を分かち書きすればよい。
(4)エキソンとイントロンに基づく場合、エキソンとイントロンとを形態素として、その間を分かち書きすればよい。
(5)UTRとCDSに基づく場合、UTRとCDSとを形態素として、その間を分かち書きすればよい。
また、上記した構造解析を複数組み合わせて遺伝子配列の分かち書きを行ってもよい。例えば、UTR配列全体として記号を指定し、更に2次構造のステムとループをそれぞれ形態素として分かち書きし、さらにCDSは異なる記号列として、CDS配列内でコドンに基づく形態素として分かち書きを行うこともできる。
第1の実施形態に係る遺伝子配列分かち書き生成装置1において、第1記憶部5および表示部6は、任意付加的な構成要素である。第1記憶部5は、遺伝子配列を入力する処理、入力された遺伝子配列から遺伝子配列の構造解析を行う処理および遺伝子配列の構造解析に基づいて遺伝子配列を分かち書きする処理を行うプログラムを記憶する。また、第1記憶部5には、入力された遺伝子配列、構造解析によって構造情報が付加された遺伝子配列および/または遺伝子配列の分かち書き等のデータを記憶してもよい。第1記憶部5としては、例えば、RAM、ROM、SSD等のフラッシュメモリ、HDD等が挙げられる。
表示部6は、入力部2で入力された遺伝子配列、構造解析によって構造情報が付加された遺伝子配列および/または遺伝子配列分のかち書きを表示できれば、特に制限はない。表示部6としては、例えば、液晶ディスプレイ、CRTディスプレイ、有機ELディスプレイ、LEDディスプレイ等が挙げられる。
第1の実施形態に係る遺伝子配列分かち書き生成装置1は、以下の効果を奏する。
(1)構造解析に基づいて遺伝子配列の分かち書きを生成できる。そして、生成された遺伝子配列の分かち書きは、自然言語処理できる情報として扱える。
(遺伝子配列分かち書き生成装置の第2の実施形態)
図1および図4を参照して、第2の実施形態に係る遺伝子配列分かち書き生成装置1bについて説明する。図4Aは、ID1に二次構造に基づいて解析された構造情報を付加して記載した例を示す図である。図4Bは、ID1の分かち書きの別の例を示す図である。
第2の実施形態に係る遺伝子配列分かち書き生成装置1bは、分かち書き部4で生成される遺伝子配列の分かち書きが第1の実施形態と異なる。したがって、第2の実施形態に係る遺伝子配列分かち書き生成装置1bでは、第1の実施形態と異なる点を中心に説明し、第1の実施形態において説明済みの事項についての繰り返しとなる説明は省略する。よって、第2の実施形態において明示的に説明されなかったとしても、第1の実施形態で説明済みの事項を採用可能であることは言うまでもない。
第2の実施形態に係る遺伝子配列分かち書き生成装置1bの分かち書き部4は、構造解析に基づいた分かち書きに加えて、構造解析による構造情報を遺伝子配列に反映する。構造情報の遺伝子配列への反映は、遺伝子配列の表記を換えて行われる。
例えば、図4Aに示す二次構造の構造情報が付加されたID1を分かち書き部4で分かち書きする。その場合、「(」と「.」または「)」と「.」との間に空白を配置することに加え、ステムが形成される配列をAT(またはU)GCに換えて、例えばBVHDとする、すなわちID1を8文字で表記する。その結果、図4Bに示された配列の分かち書きが生成される。したがって、生成された遺伝子配列の分かち書きは、構造情報が配列に反映される。図4Bに示す例では、ステムを形成する場所を記号で認識できる。なお、図4Bに示す例では、ステムが形成される配列の表記を換えたが、代替的にループが形成される配列の表記を換えてもよい。
さらに、構造解析による構造情報を遺伝子配列に反映した分かち書きで、後述する遺伝子コーパスを生成すると、当該遺伝子コーパスを用いた機械学習により抽出された部分配列から可逆的に構造情報を有した配列を再構成できる。例えば、ステムが形成される配列をAT(またはU)GCに換えてBVHDとした場合、機械学習によりBVHDのいずれかからなる部分配列が抽出されれば、当該部分配列がステムであることがわかる。
第2の実施形態に係る遺伝子配列分かち書き生成装置1bは、第1の実施形態に係る遺伝子配列分かち書き生成装置1aが奏する効果に加え、以下の効果を相乗的に奏する。
(1)構造情報を遺伝子配列に反映しているため、分かち書きされた意味のある単語がどのような構造であるか認識できる。
(2)構造解析による構造情報を遺伝子配列に反映し、構造ごとに表記を換えた分かち書きで生成した遺伝子コーパスを用いた機械学習において、機械学習により抽出された部分配列から可逆的に構造情報を有した配列を再構成できる。
(遺伝子コーパス生成装置の実施形態)
図5を参照して、実施形態に係る遺伝子コーパス生成装置7について説明する。図5は、遺伝子コーパス生成装置7の例を示す概略図である。
遺伝子配列の分かち書きは、自然言語処理が行える情報として扱える。そのため、それら遺伝子配列の分かち書きを蓄積することで、遺伝子コーパスを生成できる。そこで、遺伝子コーパス生成装置7は、少なくとも遺伝子配列分かち書き生成装置1と、第2記憶部8と、を具備する。また、実施形態に係る遺伝子コーパス生成装置7は、コンピュータにより構成してもよい。なお、「コーパス」とは、自然言語処理を行うための自然言語の文章を構造化し大規模に集積したもの、すなわち文字化した言語のデータベースである。
遺伝子配列分かち書き装置1は、上記の実施形態に係る遺伝子配列分かち書き生成装置1aまたは1bでよく、上記の実施形態に係る遺伝子配列分かち書き生成装置1aまたは1bの説明は、繰り返しとなるため省略する。
第2記憶部8は、遺伝子配列の分かち書きを記憶できれば、特に制限はない。第2記憶部8は、上記第1の実施形態に係る遺伝子配列分かち書き生成装置1aで説明済みの第1記憶部5と同様なものを用いることができる。また代替的に、遺伝子コーパス生成装置7は、第1記憶部5と第2記憶部8の何れか一方を具備し、第1記憶部5と第2記憶部8の何れか一方に遺伝子配列の分かち書き、プログラムおよびデータ等を記憶させてもよい。
また、遺伝子配列の分かち書きを第2記憶部8に記憶する際、遺伝子配列の分かち書きに遺伝子配列の特徴を示すラベル(文字列)および/または遺伝子配列の物理量を示す数値を付与してもよい。そうすることで、コーパスとしてラベルおよび/または数値の情報が付与された遺伝子配列の分かち書きを蓄積できる。
生成された遺伝子コーパスは、遺伝子配列の分かち書きが蓄積されている。したがって、当該遺伝子コーパスを用いて自然言語処理ができる。自然言語処理として、例えば、公知のword2vec、fastText等を用い単語分散表現処理を行うことができる。fastTextを用いた場合、単語内の部分単語に分割し、それぞれの部分単語の分散表現を得ることができる。そして、単語分散表現処理により、遺伝子は単語または部分単語の分散量(ベクター)として表現される。
単語または部分単語の分散量として表現されたものを教師データとして、ニューラルネットワーク、サポート・ベクター・マシン等の公知の機械学習モデルで学習を行うことで、未知遺伝子の分類・相関・回帰分析を行うことができる。
実施形態に係る遺伝子コーパス生成装置は、以下の効果を奏する。
(1)遺伝子の分かち書きを蓄積することで、自然言語処理に使用可能な遺伝子コーパスを生成できる。
(2)ラベルおよび/または数値の情報を付与した遺伝子の分かち書きを蓄積することで、ラベルおよび/または数値の情報が付与された遺伝子コーパスを生成できる。
(3)生成された遺伝子コーパスを用い機械学習を行うことができるので、未知遺伝子の分類・相関・回帰分析を行うことができる。
(プログラムの実施形態)
上記の実施形態に係る遺伝子配列分かち書き生成装置1aまたは1bは、コンピュータにより構成することができる。その際、コンピュータは既存のものをそのまま使用できる。すなわち、遺伝子配列を入力する処理と、入力された遺伝子配列から遺伝子の構造解析を行う処理と、遺伝子の構造解析に基づいて遺伝子配列を分かち書きする処理と、をコンピュータに実行させるプログラムを提供することで、コンピュータを遺伝子配列分かち書き生成装置1aまたは1bとすることができる。
以下に実施例を掲げ、本出願で開示する実施形態を具体的に説明するが、この実施例は単に実施形態の説明のためのものである。本出願で開示する発明の範囲を限定したり、あるいは制限することを表すものではない。
(実施例1)
[4文字表記の遺伝子配列の分かち書きの生成]
二次構造に基づいて遺伝子配列の分かち書きを生成した。ハンマーヘッド型リボザイム(ID3)、転移RNA(ID4)および核小体低分子RNA(ID5)を対象とした。また、解析部3での構造解析は、Vienna RNAfoldを用いて二次構造について行った。
図6に、ID3〜5の配列、二次構造を表現した構造情報および二次構造に基づいて分かち書きされたID3〜5の分かち書きを示す。ID3〜5の分かち書きは、構造解析に基づいて「(」と「.」または「)」と「.」との間に空白が配置された。したがって、各配列は構造解析に基づいて形態素分析が行われ、各配列を自然言語処理できる情報にできることが示された。
(実施例2)
[8文字表記の遺伝子配列の分かち書きの生成]
構造解析による構造情報を遺伝子配列に反映して遺伝子の分かち書きを生成した以外は、実施例1と同様に二次構造に基づいて遺伝子配列の分かち書きを生成した。
図7に、ID3〜5の配列、二次構造を表現した構造情報および二次構造に基づいて分かち書きされたID3〜5の分かち書きを示す。ID3〜5の分かち書きは、構造解析に基づいて「(」と「.」または「)」と「.」との間に空白を配置することに加え、「(」または「)」で表現されるステムをAUGCに換えてBVHDとし8文字表記とした。実施例1と同様に、各配列を自然言語処理できる情報にできることが示された。
(実施例3)
[4文字表記による遺伝子コーパスの生成]
単子葉植物から単離した上位5167種のエンハンサー(UTR)遺伝子配列(https://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=DRA006661から入手したデータをYamasaki et al.,Plant Biotechnology,35,365−373(2018)に記載された処理により得た。)を二次構造に基づいて分かち書きをしたエンハンサー遺伝子配列の分かち書きを生成し、それら生成されたエンハンサー遺伝子配列の分かち書きを蓄積した遺伝子コーパスを生成した。なお、実施例3における分かち書きは、ステムとループとの間に空白を配置した4文字表記のものである。
また、入手した5167種のエンハンサー遺伝子配列には、発現量の情報も付加されている。そこで、遺伝子コーパスに蓄積されたエンハンサー遺伝子配列の分かち書きに、エンハンサー遺伝子配列の発現量に対応したラベル(発現量が大きいエンハンサー遺伝子配列をXLとし、順にL、M、S、XSの5種)を付与した。
(実施例4)
[8文字表記による遺伝子コーパスの生成]
二次構造に基づいて分かち書きされた遺伝子配列の分かち書きを、ステムとループとの間に空白を配置することに加え、ステムが形成される配列をAUGCに換えてBVHDとし8文字表記とした以外は、実施例3と同様に遺伝子コーパスを生成した。
(比較例1)
遺伝子配列の分かち書きを行わなかった以外は、実施例3と同様に遺伝子コーパスを生成した。
(実施例5)
[遺伝子コーパスを用いた機械学習による分類予測1]
実施例3、実施例4および比較例1で生成した遺伝子コーパスを用い機械学習によりエンハンサー遺伝子配列の分類を行った。機械学習には、fastTextを用い、5167種のエンハンサー遺伝子配列のうち4000種のエンハンサー遺伝子配列を教師データとして、1167種のエンハンサー遺伝子配列の発現予測値の分類を行った。なお、fastTextのハイパーパラメータはデフォルトを用いた。
結果を表1に示す。比較例1は、5種のラベルに対する適合率のため、ランダムな場合の確率20%と近い結果となった。それに対し実施例3および実施例4は、比較例1と比べて適合率が上昇した。このことから、エンハンサー遺伝子配列の発現量予測を行う際の機械学習において、各ステムおよびループの部分配列が有効な意味あるいは構造を提供していることがわかった。また、実施例4は、実施例3よりも適合率が高いことが示された。
(実施例6)
[遺伝子コーパスを用いた機械学習による分類予測2]
特表2013−503640号公報に記載されたエンハンサー遺伝子配列を用いて、発現量の分類予測を行った。発現量の分類予測は、教師データとして実施例4で生成した8文字表記による遺伝子コーパスを用い、fastTextによる機械学習を行った。
結果を表2に示す。機械学習の結果、各配列は発現量XLの確度が高く、発現量はXLであると予測された。そして、その結果は、特表2013−503640号公報に記載された発現量と同じ傾向を示した。
(実施例7)
[遺伝子コーパスを用いた機械学習による遺伝子配列予測]
実施例4で生成した8文字表記による遺伝子コーパスを用い機械学習により高い発現効率が期待できるエンハンサー配列を予測した。予測は以下の手順で行った。
(1)実施例4で生成した遺伝子コーパスを用いラベルXLのF値を高めるようにfastTextのハイパーパラメータの調整を行った。
(2)ラベルXLを構成する単語のベクター重心を求め、各単語ベクターとベクター中心の距離を求め、距離の短いものから順に単語列を抽出した。
表3に、抽出された単語列を示す。なお、表3の上から上記(2)の距離が短い順となっている。また、表3中、ID18、19の括弧内の表記は4文字表記とした際の配列である。
抽出された単語列のうちループであるものは、直鎖構造のエンハンサー遺伝子配列として利用すれば、高い発現効率が期待できる。また、ID18の単語列(配列)は、BVHDからなる単語列であるためステムであることがわかる。そこで、高発現効率が期待できる単語を複数持つものとして、図8に示すエンハンサー遺伝子配列(ID21)を構築した。
上記実施例5および実施例6から、遺伝子配列の分かち書きから生成された遺伝子コーパスが、機械学習に有用であることが示された。また、実施例7では、機械学習に有用である遺伝子コーパスにより、高い発現効率が期待できるエンハンサー遺伝子配列を予測できることが示された。
なお、本発明は、上記の実施形態に制限されない。本発明の範囲内において、上記の各実施形態の自由な組み合わせ、あるいは各実施形態の任意の構成要素の変形、または任意の構成要素の省略が可能である。さらに、上記の各実施形態に任意の構成要素が追加されてもよい。
本出願で開示する遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置、およびプログラムを用いると、遺伝子配列を分かち書きできる。したがって、ゲノム、トランスクリプトーム、プロテオーム等の大規模情報を使った機械学習システムを扱う業者にとって有用である。
1、1a、1b…遺伝子配列分かち書き生成装置、2…入力部、3…解析部、4…分かち書き部、5…第1記憶部、6…表示部、7…遺伝子コーパス生成装置、8…第2記憶部

Claims (4)

  1. 遺伝子配列を入力する入力部と、
    入力された遺伝子配列から遺伝子配列の構造解析を行う解析部と、
    解析部による構造解析から得られた構造情報に基づいて遺伝子配列を分かち書きする分かち書き部と、
    を含み、
    分かち書き部が、構造情報の種類に応じて遺伝子配列の表記を換えることにより、構造情報を有した配列が、表記を換えた部分配列から可逆的に再構成される、
    遺伝子配列分かち書き生成装置。
  2. 解析部は、遺伝子配列の二次構造について解析する、
    請求項1に記載の遺伝子配列分かち書き生成装置。
  3. 請求項1または2に記載の遺伝子配列分かち書き生成装置と、
    遺伝子配列分かち書き生成装置によって生成された遺伝子配列の分かち書きを記憶する記憶部と、
    を含む、
    遺伝子コーパス生成装置。
  4. 遺伝子配列を入力する処理と、
    入力された遺伝子配列から遺伝子配列の構造解析を行う処理と、
    遺伝子配列の構造解析から得られた構造情報に基づいて遺伝子配列を分かち書きし、構造情報の種類に応じて遺伝子配列の表記を換えることにより、構造情報を有した配列が、表記を換えた部分配列から可逆的に再構成される処理と、
    をコンピュータに実行させるプログラム。
JP2020178356A 2020-10-23 2020-10-23 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム Active JP6843457B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020178356A JP6843457B1 (ja) 2020-10-23 2020-10-23 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム
PCT/JP2021/038909 WO2022085756A1 (ja) 2020-10-23 2021-10-21 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020178356A JP6843457B1 (ja) 2020-10-23 2020-10-23 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP6843457B1 true JP6843457B1 (ja) 2021-03-17
JP2022069267A JP2022069267A (ja) 2022-05-11

Family

ID=74860866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020178356A Active JP6843457B1 (ja) 2020-10-23 2020-10-23 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム

Country Status (2)

Country Link
JP (1) JP6843457B1 (ja)
WO (1) WO2022085756A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3881238B2 (ja) * 2001-12-28 2007-02-14 セレスター・レキシコ・サイエンシズ株式会社 Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体
JPWO2004051546A1 (ja) * 2002-11-29 2006-04-06 株式会社インシリコサイエンス 配列情報処理装置、配列情報処理方法、プログラムおよび記録媒体
JP2004310561A (ja) * 2003-04-09 2004-11-04 Hitachi Ltd 情報検索方法、情報検索システム及び検索サーバ
WO2005057464A1 (en) * 2003-12-05 2005-06-23 Council Of Scientific And Industrial Research A computer based versatile method for identifying protein coding dna sequences useful as drug targets
CN100533431C (zh) * 2005-09-21 2009-08-26 富士通株式会社 一种基于语素标注的自然语言成分识别、校正装置及方法

Also Published As

Publication number Publication date
WO2022085756A1 (ja) 2022-04-28
JP2022069267A (ja) 2022-05-11

Similar Documents

Publication Publication Date Title
Löytynoja et al. Accurate extension of multiple sequence alignments using a phylogeny-aware graph algorithm
AU2014340461B2 (en) Systems and methods for using paired-end data in directed acyclic structure
Huang et al. Protein folding simulations of 2D HP model by the genetic algorithm based on optimal secondary structures
Stiller et al. Complexity of avian evolution revealed by family-level genomes
WO2007135996A1 (ja) 文字列更新量評価プログラム
Esmaili-Taheri et al. Evolutionary solution for the RNA design problem
JP2015004996A (ja) 複数の文書をクラスタリングする装置
Chang et al. An ILP solution for the gene duplication problem
Siederdissen et al. Discriminatory power of RNA family models
Hussein et al. Flower pollination algorithm with profile technique for multiple sequence alignment
JP6843457B1 (ja) 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム
Thode et al. Comparative analyses of Mikania (Asteraceae: Eupatorieae) plastomes and impact of data partitioning and inference methods on phylogenetic relationships
US20200243162A1 (en) Method, system, and computing device for optimizing computing operations of gene sequencing system
Gusfield Persistent phylogeny: a galled-tree and integer linear programming approach
JP5604465B2 (ja) テキスト要約装置、方法、及びプログラム
Wang et al. CRISPR-GNL: an improved model for predicting CRISPR activity by machine learning and featurization
Kumar et al. Modeling human genome (3D) using linear & nearest interpolation
Almutiri et al. A survey of machine learning and deep learning applications in genome editing
Bartoli et al. On the automatic construction of regular expressions from examples (GP vs. Humans 1-0)
Fowler et al. A Comparison of Machine Learning Models for Predicting CRISPR/Cas On-target Efficacy
Das et al. PtRNAdb: A web resource of Plant tRNA genes from a wide range of plant species
Lan et al. Optimized sgRNA design by deep learning to balance the off-target effects and on-target activity of CRISPR/Cas9
Kumar et al. Tools and Methods in the Analysis of Simple Sequences
Joshi et al. Parallelization of Velvet,“a de novo genome sequence assembler”
Mannion Predicting Single Guide RNA Targets for Genome Editing Using Deep Learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201116

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201116

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210216

R150 Certificate of patent or registration of utility model

Ref document number: 6843457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250