JP2019095819A - Information processing device and program - Google Patents

Information processing device and program Download PDF

Info

Publication number
JP2019095819A
JP2019095819A JP2016070976A JP2016070976A JP2019095819A JP 2019095819 A JP2019095819 A JP 2019095819A JP 2016070976 A JP2016070976 A JP 2016070976A JP 2016070976 A JP2016070976 A JP 2016070976A JP 2019095819 A JP2019095819 A JP 2019095819A
Authority
JP
Japan
Prior art keywords
individual
data
generation
mutation
codon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016070976A
Other languages
Japanese (ja)
Inventor
悟朗 寺井
Goro Terai
悟朗 寺井
浅井 潔
Kiyoshi Asai
潔 浅井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intec Inc Japan
University of Tokyo NUC
Original Assignee
Intec Inc Japan
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intec Inc Japan, University of Tokyo NUC filed Critical Intec Inc Japan
Priority to JP2016070976A priority Critical patent/JP2019095819A/en
Priority to PCT/JP2017/010169 priority patent/WO2017169736A1/en
Publication of JP2019095819A publication Critical patent/JP2019095819A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

To provide an information processing device and a program with which it is possible to suppress homologous recombination and increase the production amount of target protein.SOLUTION: First generation parent individual group data is acquired that is generated on the basis of data representing an amino acid sequence, the number of genes and a codon frequency table and includes a predetermined number of individual data. A mutation process is executed on individuals included in the first generation parent individual group data, and first generation child individual group data is acquired that includes the individuals having undergone the mutation process. A non-dominance sort process is executed on first generation integrated data having been integrated from the first generation parent individual group data and the first generation child individual group data on the basis of a predetermined evaluation standard that pertains to codon suitability and the base sequence of the codon, and the entire individual data included in the first generation integrated data is classified into ranks in the Pareto optimal solution. A predetermined number of individual data is selected in descending order of rank from the entire individual data classified into ranks.SELECTED DRAWING: Figure 8

Description

本発明は、目的タンパク質の生産量を高めることができる情報処理装置及びプログラムに関する。   The present invention relates to an information processing apparatus and program that can increase the production amount of a target protein.

微生物等に目的タンパク質を生産させる際に、目的タンパク質をコードする遺伝子を複数個導入する手法が知られている。かかる遺伝子は、同じDNA配列を有するものが利用されることが多い。しかし、同じDNA配列を有する複数個の遺伝子を導入すると、これらの遺伝子間で相同組み換えが生じ、遺伝子の一部が欠損してしまう。ここで、相同組み換えとは、DNAの塩基配列がよく似た部位(相同部位)で起こる組み換えのことである。これを概念的に表したのが図1である。図1(a)は、同じDNA配列を有する5個の遺伝子を導入した例を示す。かかる5個の遺伝子のうち、2個目の遺伝子の後半部分〜5個目の遺伝子の前半部分において相同組み換えが生じると、図1(b)に示されるように、遺伝子の数が2つまで減少してしまい、目的タンパク質の生産効率が低下してしまう。   When producing a target protein in a microorganism or the like, a method is known in which a plurality of genes encoding the target protein are introduced. Such genes are often used having the same DNA sequence. However, when a plurality of genes having the same DNA sequence are introduced, homologous recombination occurs between these genes and a part of the gene is deleted. Here, the homologous recombination is a recombination that occurs at a site where the nucleotide sequences of DNAs closely resemble (homologous site). A conceptual representation of this is shown in FIG. FIG. 1 (a) shows an example in which five genes having the same DNA sequence are introduced. When homologous recombination occurs in the second half of the second gene to the first half of the fifth gene among the five genes, as shown in FIG. 1 (b), the number of genes is up to two. It will decrease and the production efficiency of the target protein will decrease.

特許文献1には、合成核酸分子を取得するための方法であって、(i)ポリペプチドのアミノ酸繰り返し領域由来のアミノ酸配列を提供する工程;(ii)前記アミノ酸配列をそれぞれコードする複数のサンプルコドン最適化核酸配列を推測する工程;(iii)前記複数のサンプルコドン最適化核酸配列を、配列相同性により整列させ、前記複数のサンプルコドン最適化核酸配列を含む近隣結合ツリーを構築する工程;(iv)前記複数のサンプルコドン最適化核酸配列の1つのみを選択する工程;ならびに、(v)前記選択されたサンプルコドン最適化核酸配列を含む核酸分子を取得する工程を含む、方法が開示されている。   Patent Document 1 discloses a method for obtaining a synthetic nucleic acid molecule, which comprises the steps of: (i) providing an amino acid sequence derived from an amino acid repeat region of a polypeptide; (ii) a plurality of samples each encoding the amino acid sequence Predicting a codon-optimized nucleic acid sequence; (iii) aligning the plurality of sample codon-optimized nucleic acid sequences by sequence homology and constructing a neighboring binding tree comprising the plurality of sample codon-optimized nucleic acid sequences; (Iv) selecting a single sample of said plurality of sample codon optimized nucleic acid sequences; and (v) obtaining a nucleic acid molecule comprising said selected sample codon optimized nucleic acid sequences It is done.

特表2015-524658号公報JP-A-2015-524658

本発明は、相同組み換えを抑制し、目的タンパク質の生産量を高めることが可能な情報処理装置及びプログラムを提供するものである。   The present invention provides an information processor and program capable of suppressing homologous recombination and enhancing the production amount of a target protein.

本発明によれば、アミノ酸配列、遺伝子数及びコドン頻度表を表すデータに基いて生成されたデータであって、予め定められた数の個体データを含む第1世代の親個体集団を表す第1世代親個体集団データを取得する親個体集団データ取得部と、前記第1世代親個体集団データに含まれる個体に対し、変異処理を実行する変異処理部と、前記変異処理が実行された個体を含む第1世代の子個体集団を表す第1世代子個体集団データを取得する子個体集団データ取得部と、予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、前記第1世代親個体集団データ及び前記第1世代子個体集団データを統合した第1世代統合データに対して非優越ソート処理を実行し、前記第1世代統合データに含まれる全個体データをパレート最適解におけるランク毎に分類する非優越ソート実行部と、前記ランク毎に分類された全個体データから、前記ランクの高い順に予め定められた数の前記個体データを選択する個体選択部と、を有する情報処理装置が提供される。   According to the present invention, data generated based on data representing an amino acid sequence, gene number and codon frequency table is a data representing a first generation parent population including a predetermined number of individual data. A parent individual population data acquisition unit for acquiring generation parent individual population data; a mutation processing unit for performing mutation processing on the individuals included in the first generation parent individual population data; and an individual for which the mutation processing is performed A child population data acquisition unit for acquiring a first generation child population data representing a first generation child population including the first generation, and a predetermined evaluation standard, which is an evaluation standard regarding codon suitability and the base sequence of the codon And performing non-dominant sorting on the first generation integrated data obtained by integrating the first generation parent individual population data and the first generation child individual population data, and the data is included in the first generation integrated data. Select the individual data of a predetermined number in the descending order of the rank from the non-dominated sort execution unit which classifies all individual data according to rank in the Pareto optimal solution and all individual data classified according to the rank An information processing apparatus having an individual selection unit is provided.

本発明によれば、異なる2つの評価基準に基づいて、相同組み換えを抑制し、目的タンパク質の生産量を高めることが可能となる。   According to the present invention, it is possible to suppress homologous recombination and increase the production amount of a target protein based on two different evaluation criteria.

以下、本発明の種々の実施形態を例示する。以下に示す実施形態は互いに組み合わせ可能である。
好ましくは、前記個体選択部は、前記予め定められた数の前記個体データを選択するときに、前記ランクが同じ前記個体データが存在する場合には、混雑距離が大きいものから順に選択する。
好ましくは、前記親個体集団データ取得部は、前記個体選択部により選択された前記個体データを、第2世代の親個体集団を表す第2世代親個体集団データとし、前記変異処理部、前記非優越ソート実行部及び前記個体選択部による処理を、予め定められた世代数となるまで実行する。
好ましくは、前記コドン適合度に関する評価基準は、各個体が複数有する塩基配列であって、アミノ酸翻訳の対象となる塩基配列を表すCDSのコドン適合インデックスの最小値を基準とする。
好ましくは、前記個体に含まれる前記コドン適合インデックスの最小値が大きいほど、前記個体の評価を高くする。
好ましくは、前記コドンの塩基配列に関する評価基準は、前記各個体に含まれる2つの前記CDSのうち、互いに一致しない塩基の数を表す不一致塩基数の最小値を基準とする。
好ましくは、前記不一致塩基数の最小値が大きいほど、前記個体の評価を高くする。
好ましくは、前記コドンの塩基配列に関する評価基準は、前記各個体に含まれる前記CDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字列の長さを基準とする。
好ましくは、前記最長共通文字列の長さが短いほど、前記個体を高く評価する。
好ましくは、前記変異処理部は、第g世代の親個体集団を表す第g世代親個体集団データに含まれる各個体データに対し、第1変異処理及び前記第1変異処理とは異なる第2変異処理を実行する。
好ましくは、前記変異処理部は、前記各個体に含まれる全てのCDSに対し、前記CDSに含まれる前記コドンを、予め定められた確率で前記コドンより高頻度のコドンに置換する第1変異処理を実行する。
好ましくは、前記変異処理部は、前記各個体に含まれるCDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字と重なる前記コドンを、予め定められた確率で他のコドンに置換する第2変異処理を実行する。
好ましくは、前記第1変異処理又は前記第2変異処理は、ランダムに選択される。
好ましくは、前記第1世代親個体集団データに含まれる個体に対し、交差処理を実行する交差処理部を有し、前記交差処理は、第g世代の親個体集団を表す第g世代親個体集団データから予め定められた偶数個の個体データを抽出し、前記抽出された個体データから2個の個体データを選択し、前記選択された2個の個体データに対して交差処理を実行する。
好ましくは、前記交差処理部は、前記選択された2個の個体データである第1個体データ及び第2個体データに含まれる前記CDSに含まれる前記コドンの境界から交差ポイントを決定し、前記交差ポイントを境として前記第1個体データと前記第2個体データに含まれる前記コドンを入れ替える。
好ましくは、コンピュータを、アミノ酸配列、遺伝子数及びコドン頻度表を表すデータに基いて生成されたデータであって、予め定められた数の個体データを含む第1世代の親個体集団を表す第1世代親個体集団データを取得する親個体集団データ取得部、前記第1世代親個体集団データに含まれる個体に対し、変異処理を実行する変異処理部、前記変異処理が実行された個体を含む第1世代の子個体集団を表す第1世代子個体集団データを取得する子個体集団データ取得部、予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、前記第1世代親個体集団データ及び前記第1世代子個体集団データを統合した第1世代統合データに対して非優越ソート処理を実行し、前記第1世代統合データに含まれる全個体データをパレート最適解におけるランク毎に分類する非優越ソート実行部、前記ランク毎に分類された全個体データから、前記ランクの高い順に予め定められた数の前記個体データを選択する個体選択部、として機能させるための情報処理プログラムが提供される。
Hereinafter, various embodiments of the present invention will be illustrated. The embodiments shown below can be combined with one another.
Preferably, when selecting the predetermined number of pieces of the individual data, the individual selecting unit sequentially selects pieces of the individual data having the same rank in descending order of congestion distance.
Preferably, the parent individual population data acquisition unit sets the individual data selected by the individual selection unit as second generation parent individual population data representing a second generation parent individual population, and the mutation processing unit, The processing by the superior sort execution unit and the individual selection unit is executed until the number of generations determined in advance is reached.
Preferably, the evaluation criteria related to the degree of codon suitability are based on the minimum value of the codon matching index of CDS which is a base sequence possessed by each individual and is a target of amino acid translation.
Preferably, the larger the minimum value of the codon matching index included in the individual, the higher the evaluation of the individual.
Preferably, the evaluation criteria for the base sequences of the codons are based on the minimum value of the number of unmatched bases representing the number of unmatched bases among the two CDSs contained in each individual.
Preferably, the larger the minimum value of the number of unmatched bases, the higher the evaluation of the individual.
Preferably, the evaluation criteria for the base sequences of the codons are the longest base sequence among the base sequences among the CDSs contained in each individual, which continuously match at different sites between each CDS or within one CDS. Based on the length of the longest common character string.
Preferably, the shorter the length of the longest common character string, the higher the value of the individual.
Preferably, the mutation processing unit performs a second mutation different from the first mutation processing and the first mutation processing on each individual data included in the g-th generation parent individual population data representing the g-th generation parent individual population. Execute the process
Preferably, the mutation processing unit substitutes the codons contained in the CDS with codons more frequently than the codons with a predetermined probability for all the CDSs contained in each individual. Run.
Preferably, the mutation processing unit is a longest common character, which is the longest base sequence among base sequences successively matched among different CDSs or in different sites within one CDS among the CDSs contained in each individual. The second mutation process is performed to replace the codon overlapping with the other codon with another codon with a predetermined probability.
Preferably, the first mutation treatment or the second mutation treatment is randomly selected.
Preferably, a cross processing unit for executing cross processing on individuals included in the first generation parent individual population data, the cross processing including a g generation parent individual population representing a g generation parent individual population A predetermined number of individual data items are extracted from the data, two individual data items are selected from the extracted individual data items, and a cross process is performed on the selected two individual data items.
Preferably, the intersection processing unit determines an intersection point from the boundaries of the codons included in the CDS included in the first individual data and the second individual data which are the selected two individual data, and the intersection point is determined. The codons included in the first individual data and the second individual data are interchanged at points.
Preferably, the computer is data generated based on data representing an amino acid sequence, gene number and codon frequency table, and a first generation parent population including a predetermined number of individual data A parent individual population data acquisition unit for acquiring generation parent individual population data, a mutation processing unit for performing mutation processing on an individual included in the first generation parent individual population data, a target including the individual on which the mutation processing has been performed A child individual population data acquisition unit for acquiring first generation child individual population data representing one generation child individual population, a predetermined evaluation criterion, which is based on the evaluation criteria regarding codon suitability and the nucleotide sequence of the codon Performing a non-dominated sort process on first generation integrated data obtained by integrating the first generation parent individual population data and the first generation child individual population data, and the first generation integrated data The non-dominated sort execution unit which classifies all the contained individual data according to the rank in the Pareto optimal solution, and selects the predetermined number of pieces of the individual data from the total individual data classified according to the rank in descending order of the rank An information processing program for functioning as an individual selection unit is provided.

微生物等に目的タンパク質を生産させる際に、目的タンパク質をコードする遺伝子を複数個導入する従来の手法を表す概念図であり、(a)は同じDNA配列を有する5個の遺伝子を導入した例、(b)は5個の遺伝子のうち、2個目の遺伝子の後半部分〜5個目の遺伝子の前半部分において相同組み換えが生じ、遺伝子の数が2個まで減少した結果を表す。When producing a target protein in microorganisms etc., it is a conceptual diagram showing the conventional method which introduce | transduces two or more genes which encode target protein, and (a) is an example which introduce | transduced five genes which have the same DNA sequence, (B) shows the result that homologous recombination occurs in the first half of the second half of the second gene to the first half of the fifth gene among the five genes, and the number of genes is reduced to two. 本発明の一実施形態に係る遺伝子配列設計を表す概念図であり、(a)は本発明に係るアルゴリズムに入力データを入力し、出力データとして遺伝子配列を出力する様子を、(b)は導入された5個の遺伝子データに相同組み換えが生じず、全ての遺伝子から目的タンパク質が生産される様子を表す。It is a conceptual diagram showing gene sequence design concerning one embodiment of the present invention, (a) is a mode which inputs input data into the algorithm concerning the present invention, and outputs a gene sequence as output data, (b) introduces. It shows that the homologous recombination does not occur in the 5 gene data obtained, and the target protein is produced from all the genes. 情報処理装置1のハードウェア構成の例を示す図である。FIG. 2 is a diagram illustrating an example of a hardware configuration of the information processing device 1; 本発明の一実施形態に係る情報処理装置1の例示的な機能ブロック図である。It is an exemplary functional block diagram of information processor 1 concerning one embodiment of the present invention. 混雑距離を説明するための図であり、(a)は混雑距離の概念図、(b)は混雑距離の計算式を表す。It is a figure for demonstrating congestion distance, (a) is a conceptual diagram of congestion distance, (b) represents the calculation formula of congestion distance. 本発明の一実施形態に係る遺伝子配列設計を実施するためのフローチャートの一例を示す図である。かかる処理は、図8に示されるメインルーチンに先立ち実行される。It is a figure showing an example of the flow chart for carrying out gene sequence design concerning one embodiment of the present invention. Such processing is executed prior to the main routine shown in FIG. 個体データの例を表す図である。本実施形態では、1つの個体を、同じアミノ酸をコードする複数のタンパクコード領域(CDS)として表現する。It is a figure showing the example of individual data. In the present embodiment, one individual is expressed as a plurality of protein coding regions (CDS) encoding the same amino acid. 本発明の一実施形態に係る遺伝子配列設計を実施するためのフローチャートの一例を示す図である。なお、S22において、交差処理は任意であり、必要に応じて省略することができる。It is a figure showing an example of the flow chart for carrying out gene sequence design concerning one embodiment of the present invention. In S22, the cross process is optional and can be omitted as necessary. 本発明の一実施形態に係る交差処理を実施するためのフローチャートの一例を示す図である。FIG. 6 is a diagram illustrating an example of a flowchart for performing intersection processing according to an embodiment of the present invention. 本発明の一実施形態に係る交差処理を表す概念図である。It is a conceptual diagram showing the intersection process which concerns on one Embodiment of this invention. 本発明の一実施形態に係る変異処理を実施するためのフローチャートの一例を示す図である。It is a figure which shows an example of the flowchart for implementing the mutation process which concerns on one Embodiment of this invention. 本発明の一実施形態に係る変異処理を表す概念図であり、(a)は第1変異処理、(b)は第2変異処理を表す概念図である。It is a conceptual diagram showing the mutation process which concerns on one Embodiment of this invention, (a) is a 1st mutation process, (b) is a conceptual diagram showing a 2nd mutation process. 本発明の一実施形態に係るコドンの塩基配列に関する評価基準である「不一致塩基数」を説明するための図である。図13の例では、不一致塩基数は5である。It is a figure for demonstrating "the number of unmatched bases" which is an evaluation standard regarding the base sequence of the codon concerning one embodiment of the present invention. In the example of FIG. 13, the number of unmatched bases is five. 本発明の一実施形態に係るコドンの塩基配列に関する評価基準である「最長共通文字列」を説明するための図である。図14では、実線の下線が付された部分が最長共通文字列、破線の下線が付された部分が共通文字列を表す。It is a figure for demonstrating the "longest common character string" which is an evaluation criteria regarding the base sequence of the codon concerning one embodiment of the present invention. In FIG. 14, the underlined part of the solid line represents the longest common character string, and the underlined part of the broken line represents the common character string. 本発明の実施例における処理結果を表す図である。図15では、コドン適合度に関する評価基準(各個体が複数有する塩基配列であって、アミノ酸翻訳の対象となる塩基配列を表すCDSのコドン適合インデックス(CAI)の最小値)を横軸、コドンの塩基配列に関する評価基準(不一致塩基数の最小値)を縦軸とし、第1世代、第10世代及び第250世代の計算結果をそれぞれプロットしたグラフである。It is a figure showing the process result in the Example of this invention. In FIG. 15, evaluation criteria for codon suitability (minimum value of codon suitability index (CAI) of CDS, which is a nucleotide sequence possessed by each individual and which is a target of amino acid translation) are shown on the horizontal axis. It is the graph which plotted the calculation result of the 1st generation, the 10th generation, and the 250th generation, respectively, with the evaluation standard (minimum value of the number of unmatched bases) about the base sequence as the vertical axis. 本発明の実施例における処理結果を表す図である。図16では、コドン適合度に関する評価基準(各個体が複数有する塩基配列であって、アミノ酸翻訳の対象となる塩基配列を表すCDSのコドン適合インデックス(CAI)の最小値)を横軸、コドンの塩基配列に関する評価基準(最長共通文字列の長さ)を縦軸とし、第1世代、第10世代及び第250世代の計算結果をそれぞれプロットしたグラフである。It is a figure showing the process result in the Example of this invention. In FIG. 16, evaluation criteria for codon suitability (minimum value of codon suitability index (CAI) of CDS, which is a base sequence possessed by each individual and which is a target of amino acid translation) are shown on the horizontal axis. It is the graph which plotted the calculation result of the 1st generation, the 10th generation, and the 250th generation, respectively, with the evaluation standard (the length of the longest common character string) about the base sequence as the vertical axis.

<実施形態>
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
Embodiment
Hereinafter, embodiments of the present invention will be described using the drawings. The various features shown in the embodiments described below can be combined with one another.

<本発明の一実施形態に係る遺伝子配列設計>
図2は、本発明の一実施形態に係る遺伝子配列設計を表す概念図である。一実施形態に係る遺伝子配列設計は、相同組み換えを誘発しない遺伝子配列群を設計し、微生物等に導入することで、目的タンパク質の生産量を高めるものである。図2(a)に示されるように、目的タンパク質を表すデータ及びN個の遺伝子を表すデータを入力データとし、アルゴリズム(以下、本アルゴリズムという)に基いて計算処理し、かかる計算結果である目的タンパク質をコードするN個の遺伝子配列群を表すデータを出力する。ここで、本アルゴリズムは、相競合する評価基準を持つ複数の目的関数を同時に最適化することを目的とする多目的遺伝的アルゴリズムを利用する。これにより、図2(b)に示されるように、例えば導入された遺伝子が5個である場合、かかる5個の遺伝子データに相同組み換えが生じず、全ての遺伝子から目的タンパク質が生産される。ここで、図2(b)では、1〜5までの遺伝子は、互いに塩基配列が異なる遺伝子である。
<Gene Sequence Design According to One Embodiment of the Present Invention>
FIG. 2 is a conceptual diagram showing gene sequence design according to an embodiment of the present invention. The gene sequence design according to one embodiment is to increase gene yield of a target protein by designing gene sequence groups that do not induce homologous recombination and introducing into a microorganism or the like. As shown in FIG. 2A, data representing a target protein and data representing N genes are used as input data, and calculation processing is performed based on an algorithm (hereinafter referred to as the present algorithm), and the calculation results Output data representing a group of N gene sequences encoding a protein. Here, the present algorithm utilizes a multi-objective genetic algorithm aiming to simultaneously optimize a plurality of objective functions having phase conflicting evaluation criteria. Thereby, as shown in FIG. 2 (b), for example, when there are five introduced genes, the homologous recombination does not occur in the five gene data, and the target protein is produced from all the genes. Here, in FIG. 2 (b), the genes of 1 to 5 are genes having different base sequences from each other.

<ハードウェア構成>
次に、本発明の一実施形態に係る情報処理装置1のハードウェア構成の例について、図3を用いて説明する。情報処理装置1は、処理部10、記憶部20、操作部30、表示部40及び通信部50を有する。処理部10は、種々の演算処理を実行するものであり、例えば、CPU等により構成される。記憶部20は、種々のデータやプログラムを記憶するものであり、例えば、メモリ、HDD又はSSD等により構成される。ここで、プログラムは、情報処理装置1の出荷時点においてプリインストールされていてもよく、Web上のサイトからアプリケーションとしてダウンロードしてもよく、無線通信により他の情報処理装置から転送されてもよい。操作部30は、情報処理装置1を操作するものであり、例えば、タッチパネル、キーボード、音声入力部、カメラ等を利用した動き認識装置等により構成される。表示部40は、種々の画像(静止画及び動画を含む)を表示するものであり、例えば、タッチパネルディスプレイ、有機ELディスプレイ、電子ペーパーその他のディスプレイで構成される。通信部50は、他の情報処理装置と種々のデータを送受信するものであり、任意のI/Oにより構成される。バス100はシリアルバス、パラレルバス等で構成され、各部を電気的に接続し、種々のデータの送受信を可能にするものである。
<Hardware configuration>
Next, an example of a hardware configuration of the information processing apparatus 1 according to an embodiment of the present invention will be described with reference to FIG. The information processing apparatus 1 includes a processing unit 10, a storage unit 20, an operation unit 30, a display unit 40, and a communication unit 50. The processing unit 10 executes various arithmetic processing, and is configured of, for example, a CPU or the like. The storage unit 20 stores various data and programs, and is configured of, for example, a memory, an HDD, or an SSD. Here, the program may be pre-installed when the information processing apparatus 1 is shipped, may be downloaded as an application from a site on the Web, and may be transferred from another information processing apparatus by wireless communication. The operation unit 30 operates the information processing apparatus 1 and is configured of, for example, a touch panel, a keyboard, a voice input unit, a motion recognition apparatus using a camera, and the like. The display unit 40 displays various images (including still images and moving images), and includes, for example, a touch panel display, an organic EL display, an electronic paper, and other displays. The communication unit 50 transmits and receives various data to and from other information processing apparatuses, and is configured by an arbitrary I / O. The bus 100 is configured by a serial bus, a parallel bus, and the like, and electrically connects the respective units to enable transmission and reception of various data.

<機能ブロック図>
次に、情報処理装置1の機能について、図4の機能ブロック図を用いて説明する。情報処理装置1は、例えば、多機能情報端末であり、PC、サーバ、スマートフォン、タブレット端末、スマートウォッチ等である。情報処理装置1は、操作部30、表示部40及び通信部50と、処理部10と、記憶部20を備える。処理部10は、個体生成部101、親個体集団データ取得部102、子個体集団データ取得部103、交差処理部104、変異処理部105、非優越ソート実行部106、個体選択部107を備える。また、記憶部20は、アミノ酸配列データ記憶部201、遺伝子数データ記憶部202、コドン頻度表データ記憶部203、計算データ記憶部204、評価基準記憶部205を備える。
<Function block diagram>
Next, the function of the information processing apparatus 1 will be described using the functional block diagram of FIG. 4. The information processing apparatus 1 is, for example, a multifunction information terminal, and is a PC, a server, a smartphone, a tablet terminal, a smart watch, or the like. The information processing apparatus 1 includes an operation unit 30, a display unit 40, a communication unit 50, a processing unit 10, and a storage unit 20. The processing unit 10 includes an individual generation unit 101, a parent individual group data acquisition unit 102, a child individual group data acquisition unit 103, a cross processing unit 104, a mutation processing unit 105, a non-dominated sort execution unit 106, and an individual selection unit 107. In addition, the storage unit 20 includes an amino acid sequence data storage unit 201, a gene number data storage unit 202, a codon frequency table data storage unit 203, a calculation data storage unit 204, and an evaluation criteria storage unit 205.

操作部30、表示部40及び通信部50の各機能については、図3の説明を参照されたい。   For the functions of the operation unit 30, the display unit 40, and the communication unit 50, refer to the description of FIG.

<処理部10>
次に、処理部10の機能について説明する。個体生成部101は、アミノ酸配列、遺伝子数及びコドン頻度表を表すデータをそれぞれアミノ酸配列データ記憶部201、遺伝子数データ記憶部202及びコドン頻度表データ記憶部203から取得し、同じタンパク質のアミノ酸配列をコードするという制約下でランダムに生成した個体を表す個体データをp個生成するものである。ここで、pは正の数のパラメータであり、任意の数とすることができる。
<Processing unit 10>
Next, the function of the processing unit 10 will be described. The individual generation unit 101 acquires data representing the amino acid sequence, the number of genes and the codon frequency table from the amino acid sequence data storage unit 201, the gene number data storage unit 202 and the codon frequency table data storage unit 203, respectively, Is used to generate p pieces of individual data representing randomly generated individuals under the restriction of coding. Here, p is a positive number parameter and can be any number.

親個体集団データ取得部102は、個体生成部101が生成したp個の個体データを、本アルゴリズムに利用するデータであって、第g世代の親個体集団を表す第g世代親個体集団データとして取得する。さらに、本アルゴリズムにおける計算は、後述するように所定のフローを複数回繰り返し実行するループ計算を実行するものであり、親個体集団データ取得部102は、第1世代、第2世代、・・・第g世代の親個体集団を表す第1世代親個体集団データ、第2世代親個体集団データ・・・第g世代親個体集団データを取得する。ここで、gは正の数であり、本アルゴリズムにおける計算のループ数を表す。   The parent individual population data acquisition unit 102 is data for using the p individual data generated by the individual generation unit 101 for the present algorithm, and as g-th generation parent individual population data representing a g-th generation parent individual population get. Further, the calculation in the present algorithm is to execute loop calculation in which a predetermined flow is repeatedly executed a plurality of times as described later, and the parent individual group data acquisition unit 102 generates a first generation, a second generation,. First generation parent individual population data representing a g-th generation parent individual population, second generation parent individual population data... G-th generation parent individual population data is acquired. Here, g is a positive number and represents the number of loops of calculation in the present algorithm.

交差処理部104は、第g世代親個体集団データからe個(予め定められた偶数個)の個体データを抽出し、抽出された個体データから2個の個体データを選択し、選択された2個の個体データに対して交差処理を実行するものである。そして、まだ交差処理が行われていない個体データの中から2個の個体データを選択し、交差処理を実行する。かかる処理を、抽出されたe個の個体データの全てに対して繰り返す。具体的には、選択された2個の個体データである第1個体データ及び第2個体データに含まれるCDSに含まれるコドンの境界から交差ポイントを決定し、交差ポイントを境として第1個体データと第2個体データに含まれるコドンを入れ替える。ここで、2個の個体データの選択は、例えば乱数表等を利用してランダムに実行される。ここで、eは「p×Pc」を超えない最大の偶数である。なお、Pcはパラメータであり、0より大きく1より小さい任意の値とすることができる。p個の個体データを含む第g世代親個体集団データからe個の個体データを抽出する手法は特に限定されないが、例えば「binary tournament selection法」を用いることができる。   The cross processing unit 104 extracts e (predetermined even number) pieces of individual data from the g-th generation parent individual population data, selects two pieces of individual data from the extracted individual data, and selects 2 Cross processing is performed on individual data items. Then, two pieces of individual data are selected from among pieces of individual data for which cross processing has not been performed yet, and cross processing is performed. This process is repeated for all of the e individual data extracted. Specifically, the intersection point is determined from the boundaries of the codons contained in the CDS included in the first individual data and the second individual data which are the two selected individual data, and the first individual data is made bordering on the intersection point And the codons contained in the second individual data are replaced. Here, selection of two pieces of individual data is performed at random using, for example, a random number table or the like. Here, e is the largest even number not exceeding “p × Pc”. Pc is a parameter, and can be any value greater than 0 and less than 1. The method of extracting e individual data from the g generation parent individual population data including p individual data is not particularly limited, but for example, the “binary tournament selection method” can be used.

変異処理部105は、第g世代親個体集団データに含まれる全ての個体に対し、変異処理を実行するものである。本実施形態では、第g世代親個体集団データに含まれる各個体データに対し、第1変異処理及び前記第1変異処理とは異なる第2変異処理を実行する。具体的には、各個体データに対し、第1変異処理及び第2変異処理をランダムに決定する。そして、第1変異処理と決定された場合、各個体データに含まれる全てのCDSに対し、CDSに含まれるコドンを、予め定められた確率Pmでかかるコドンより高頻度のコドンに置換する。また、第2変異処理と決定された場合、各個体データに含まれるCDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字と重なるコドンを、予め定められた確率Pmで他のコドンに置換する。これらの処理の詳細については後述する。   The mutation processing unit 105 executes mutation processing on all the individuals included in the g-th generation parent individual population data. In this embodiment, a second mutation process different from the first mutation process and the first mutation process is performed on each individual data included in the g-th generation parent individual population data. Specifically, the first mutation treatment and the second mutation treatment are randomly determined for each individual data. Then, when it is determined that the first mutation treatment is performed, codons included in the CDS are replaced with codons more frequently than such codons with a predetermined probability Pm for all the CDSs included in each individual data. In addition, when it is determined to be the second mutation treatment, among the CDSs contained in each individual data, it is the longest base sequence among the base sequences which continuously coincide at different sites between each CDS or within one CDS. The codon overlapping with the longest common letter is replaced with another codon with a predetermined probability Pm. Details of these processes will be described later.

子個体集団データ取得部103は、変異処理部105による変異処理が実行された個体を含む第g世代の子個体集団を表す第g世代子個体集団データを取得する。ここで、第g世代子個体集団データに含まれる個体データの数は、第g世代親個体集団データに含まれる個体データの数と等しく、p個である。これは、変異処理部105による変異処理が、第g世代親個体集団データに含まれる全ての個体に実行されたためである。   The offspring population data acquisition unit 103 acquires g generation offspring population data representing a offspring population of the g generation including the individuals on which the mutation processing by the mutation processing unit 105 has been performed. Here, the number of individual data included in the g-th generation child individual population data is equal to the number of individual data included in the g-th generation parent individual population data, and is p. This is because the mutation processing by the mutation processing unit 105 is performed on all the individuals included in the g generation parent individual population data.

非優越ソート実行部106は、予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、第g世代親個体集団データ及び第g子個体集団データを統合した第g世代統合データに対し、非優越ソート処理を実行するものである。第g世代統合データに含まれる個体データの数は、2p(=p+p)個である。そして、全個体をパレート最適解におけるフロント毎(ランク毎)に分類する。   The non-dominant sort execution unit 106 integrates the g-th generation parent individual population data and the g-th child individual population data based on a predetermined evaluation criterion based on the degree of codon suitability and the base sequence of the codon. A non-dominated sort process is performed on the g-th generation integrated data. The number of individual data included in the g-th generation integrated data is 2p (= p + p). Then, all individuals are classified for each front (per rank) in the Pareto optimal solution.

個体選択部107は、パレート最適解におけるフロント毎(ランク毎)に分類された第g世代統合データから、ランクの高い順に定められた数の個体データを選択するものである。例えば、予め定められた数として、pを採用することができる。そして、親個体集団データ取得部102は、個体選択部107により選択されたp個の個体データを、第g+1世代の親個体集団を表す第g+1世代親個体集団データとして取得する。   The individual selecting unit 107 selects the individual data of the number determined in descending order of rank from the g-th generation integrated data classified for each front (per rank) in the Pareto optimal solution. For example, p can be adopted as a predetermined number. Then, the parent individual group data acquisition unit 102 acquires p pieces of individual data selected by the individual selection unit 107 as g + 1th generation parent individual group data representing a parent individual group of the (g + 1) th generation.

ここで、個体選択部107は、定められた数の個体データを選択するときに、ランクが同じ個体データが存在する場合には、混雑距離(Crowding Distance)が大きいものから順に選択することとしてもよい。ここで、混雑距離とは、ある解の両側にある2つの解の平均距離である。これを概念的に表したのが図5(a)である。そして、図5(b)の計算式により、混雑距離が計算される。ここで、混雑距離は、図5(a)において破線で示される四角形の周囲の長さの平均に相当する。   Here, when selecting a predetermined number of pieces of individual data, if there is individual data of the same rank, the individual selecting unit 107 may select in order from the one with the largest crowding distance (Crowding Distance). Good. Here, the congestion distance is an average distance between two solutions on both sides of a certain solution. FIG. 5 (a) schematically shows this. Then, the congestion distance is calculated by the calculation formula of FIG. 5 (b). Here, the crowded distance corresponds to the average of the lengths of the peripheries of the squares shown by broken lines in FIG. 5 (a).

<記憶部20>
次に、記憶部20の機能について説明する。アミノ酸配列データ記憶部201は、アミノ酸配列を表すデータを記憶するものである。アミノ酸配列は、タンパク質中のアミノ酸の配列を表すものである。
<Storage unit 20>
Next, the function of the storage unit 20 will be described. The amino acid sequence data storage unit 201 stores data representing an amino acid sequence. An amino acid sequence is intended to represent the sequence of amino acids in a protein.

遺伝子数データ記憶部202は、遺伝子数を表すデータを記憶するものである。ここで、本実施形態では、遺伝子数は、個体データに含まれるCDSの数を表すものとする。   The gene number data storage unit 202 stores data representing the number of genes. Here, in the present embodiment, the number of genes represents the number of CDSs contained in individual data.

コドン頻度表データ記憶部203は、コドン頻度表を表すデータを記憶するものである。コドン頻度表は、宿主細胞におけるコドンの使用頻度をまとめた表である。   The codon frequency table data storage unit 203 stores data representing a codon frequency table. The codon frequency table is a table summarizing the frequency of use of codons in host cells.

計算データ記憶部204は、個体生成部101、親個体集団データ取得部102、子個体集団データ取得部103、交差処理部104、変異処理部105、非優越ソート実行部106、個体選択部107等による種々の処理における計算結果を記憶するものである。   The calculation data storage unit 204 includes an individual generation unit 101, a parent individual group data acquisition unit 102, a child individual group data acquisition unit 103, a cross processing unit 104, a mutation processing unit 105, a non-dominated sort execution unit 106, an individual selection unit 107, etc. It stores the calculation results in various processes by.

評価基準記憶部205は、予め定められた評価基準であって、コドン適合度及びコドンの塩基配列に関する評価基準を記憶するものである。具体的には、コドン適合度に関する評価基準は、各個体が複数有する塩基配列であって、アミノ酸翻訳の対象となる塩基配列を表すCDSのコドン適合インデックスの最小値を基準とする。以下、かかる基準を第1評価基準という。第1評価基準においては、個体に含まれるコドン適合インデックスの最小値が大きいほど、個体が高く評価される。そして、コドンの塩基配列に関する評価基準のうちの1つ目は、各個体に含まれる2つのCDSのうち、互いに一致しない塩基の数を表す不一致塩基数の最小値を基準とする。以下、かかる基準を第2評価基準という。第2評価基準においては、不一致塩基数の最小値が大きいほど、個体が高く評価される。コドンの塩基配列に関する評価基準のうちの2つ目は、各個体に含まれるCDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字列の長さを基準とする。以下、かかる基準を第3評価基準という。第3評価基準においては、最長共通文字列の長さが短いほど、個体が高く評価される。   The evaluation criteria storage unit 205 is a predetermined evaluation criteria, and stores evaluation criteria regarding the degree of codon suitability and the base sequence of codons. Specifically, the evaluation criteria for the degree of codon suitability are based on the minimum value of the codon suitability index of CDS which is a base sequence possessed by each individual and is a target of amino acid translation. Hereinafter, such criteria are referred to as first evaluation criteria. In the first evaluation criterion, the higher the minimum value of the codon matching index included in an individual, the higher the individual is evaluated. The first of the evaluation criteria for the base sequences of codons is based on the minimum value of the number of unmatched bases representing the number of unmatched bases out of two CDSs contained in each individual. Hereinafter, such a criterion is referred to as a second evaluation criterion. In the second evaluation criteria, individuals are evaluated higher as the minimum value of the number of unmatched bases is larger. The second of the evaluation criteria for base sequences of codons is the longest base sequence among the base sequences consecutively matched among different CDSs or within one CDS among different CDSs contained in each individual. Based on the length of the longest common character string. Hereinafter, such a criterion is referred to as a third evaluation criterion. In the third evaluation criterion, the shorter the longest common character string, the higher the individual is evaluated.

次に、以上説明した種々の機能、処理及び基準の詳細について、図6〜図13を用いて説明する。   Next, details of the various functions, processes, and criteria described above will be described with reference to FIGS.

<前処理>
図6は、本発明の一実施形態に係る遺伝子配列設計を実施するためのフローチャートの一例を示す図である。図6に示される処理は、図8に示されるメインルーチンに先立ち実行される処理である。以下、図6に示される処理を前処理という。
<Pre-processing>
FIG. 6 is a diagram showing an example of a flow chart for performing gene sequence design according to an embodiment of the present invention. The process shown in FIG. 6 is a process executed prior to the main routine shown in FIG. Hereinafter, the process shown in FIG. 6 is referred to as pre-processing.

まず、S11において、処理部10は、アミノ酸配列データ記憶部201及び遺伝子数データ記憶部202から、アミノ酸配列データ及び遺伝子数データを取得する。そして、図示しないキャッシュメモリ等の記憶部にデータを記憶する。   First, in S11, the processing unit 10 acquires amino acid sequence data and gene number data from the amino acid sequence data storage unit 201 and the gene number data storage unit 202. Then, the data is stored in a storage unit such as a cache memory (not shown).

次に、S12において、処理部10は、コドン頻度表データ記憶部203からコドン頻度表データを取得する。そして、図示しないキャッシュメモリ等の記憶部にデータを記憶する。   Next, in S12, the processing unit 10 acquires codon frequency table data from the codon frequency table data storage unit 203. Then, the data is stored in a storage unit such as a cache memory (not shown).

次に、S13において、個体生成部101は、同じタンパク質のアミノ酸配列をコードするという制約下でランダムに生成した個体を表す個体データをp個生成する。例えば、ランダムな個体データを100個生成してもよい。   Next, in S13, the individual generation unit 101 generates p individual data representing an individual randomly generated under the restriction of encoding the same amino acid sequence of the protein. For example, 100 pieces of random individual data may be generated.

(個体データ)
ここで、図7を用いて個体データについて説明する。図7に示されるように、本実施形態では、1つの個体を、同じアミノ酸をコードする複数のタンパクコード領域(CDS)として表現する。図7に示される個体データでは、CDSがx個である。これは、図6のS11において処理部10が遺伝子数データ記憶部202から取得した遺伝子数データが表す遺伝子の数である。各CDSはそれぞれ同じアミノ酸をコードする。ここで、図7に示されるG,I,V,E,Qは、図6のS11において処理部10がアミノ酸配列データ記憶部201から取得したアミノ酸配列データが表すアミノ酸配列である。また、各CDSは、それぞれ塩基配列が異なっている。
(Individual data)
Here, individual data will be described with reference to FIG. As shown in FIG. 7, in the present embodiment, one individual is expressed as a plurality of protein coding regions (CDS) encoding the same amino acid. In the individual data shown in FIG. 7, there are x CDSs. This is the number of genes represented by the gene number data acquired by the processing unit 10 from the gene number data storage unit 202 in S11 of FIG. Each CDS encodes the same amino acid. Here, G, I, V, E and Q shown in FIG. 7 are the amino acid sequences represented by the amino acid sequence data acquired by the processing unit 10 from the amino acid sequence data storage unit 201 in S11 of FIG. In addition, each CDS has a different base sequence.

図6に戻り、前処理についてさらに説明する。S14において、親個体集団データ取得部102は、S13において個体生成部101がランダムに生成したp個の個体データを第1世代の親個体集団を表す第1世代親個体集団データとして取得する。親個体集団データは、本アルゴリズムにおける処理において保存されるアーカイブ母集団である。そして、第1世代親個体集団データを取得すると、前処理を終了する。   Returning to FIG. 6, the pre-processing will be further described. In S14, the parent individual group data acquisition unit 102 acquires p individual data randomly generated by the individual generation unit 101 in S13 as first generation parent individual group data representing a first generation parent individual group. The parent individual population data is an archive population stored in the processing in the present algorithm. And if 1st generation parent individual population data is acquired, pre-processing will be ended.

<メインルーチン>
次に、図8を用いて、本アルゴリズムにおけるメインルーチンについて説明する。まず、S20において、処理部10は、変数gを1にセットする。ここで、gは第g世代の親個体集団を表す符号である。gは、1〜G(後述する予め定められた世代数G)までの値をとる。
<Main routine>
Next, the main routine in the present algorithm will be described using FIG. First, in S20, the processing unit 10 sets a variable g to one. Here, g is a code representing a parent individual group of the g generation. g takes values from 1 to G (predetermined number of generations G described later).

次に、S21において、処理部10は、親個体集団データ取得部102から第1世代親個体集団データを取得する。   Next, in S21, the processing unit 10 acquires first generation parent individual population data from the parent individual population data acquisition unit 102.

次に、S22において、交差処理部104及び変異処理部105は、第1世代親個体集団データに含まれる個体データに対して交差処理及び変異処理を実行する。なお、交差処理は任意であり、必要に応じて省略することができる。以下、図9〜図12を用いて交差処理及び変異処理について説明する。   Next, in S22, the crossover processing unit 104 and the mutation processing unit 105 execute crossover processing and mutation processing on the individual data included in the first generation parent individual population data. Note that the cross process is optional and can be omitted as needed. The cross processing and mutation processing will be described below with reference to FIGS. 9 to 12.

<交差処理>
まず、図9及び図10を用いて交差処理について説明する。図9は、本発明の一実施形態に係る交差処理を実施するためのフローチャートの一例を示す図である。まず、S321において、交差処理部104は、変数iを0にセットする。
<Crossing process>
First, the intersection processing will be described using FIGS. 9 and 10. FIG. 9 is a diagram illustrating an example of a flowchart for performing intersection processing according to an embodiment of the present invention. First, in S321, the intersection processing unit 104 sets a variable i to zero.

次に、S322において、交差処理部104は、処理部10又は親個体集団データ取得部102から、第g世代親個体集団データ(図8におけるメインルーチンでg=1の場合は第1世代親個体集団データ)を取得する。そして、第g世代親個体集団データに含まれるp個の個体データから、(e−i)個(現時点ではi=0のためにe個)の個体データをランダムに抽出する。かかる抽出に利用する手法は特に限定されないが、例えば「binary tournament selection法」を用いることができる。ここで、eは「p×Pc」を超えない最大の偶数である。なお、Pcはパラメータであり、0より大きく1より小さい任意の値とすることができる。   Next, in S322, the cross processing unit 104 receives the g-th generation parent individual group data (the first generation parent individual when g = 1 in the main routine in FIG. 8) from the processing unit 10 or the parent individual group data acquisition unit 102. Collect data). Then, (e−i) pieces of individual data (e pieces for i = 0 at this time) are randomly extracted from p pieces of individual data included in the g-th generation parent individual population data. Although the method to be used for such extraction is not particularly limited, for example, the “binary tournament selection method” can be used. Here, e is the largest even number not exceeding “p × Pc”. Pc is a parameter, and can be any value greater than 0 and less than 1.

次に、S323において、交差処理部104は、(e−i)個の個体データからランダムに2個の個体データを選択する。2個の個体データの選択は、例えば乱数表等を利用してランダムに実行される。   Next, in S323, the intersection processing unit 104 randomly selects two pieces of individual data from the (ei) pieces of individual data. Selection of two pieces of individual data is performed at random using, for example, a random number table or the like.

次に、S324において、交差処理部104は、S323にて選択された2個の個体データに対して交差処理を実行する。ここで、交差処理について、図10を用いて具体的に説明する。   Next, in S324, the cross processing unit 104 performs cross processing on the two individual data selected in S323. Here, the cross processing will be specifically described with reference to FIG.

図10に示されるように、S323にて選択された2個の個体データをそれぞれ第1個体データ及び第2個体データとする。図10の例では、第1個体データ及び第2個体データはそれぞれ3つのCDSを有し、異なる塩基配列を有する。これらの個体データから、交差ポイントを決定する。交差ポイントは、コドンとコドンの境界から1箇所選ばれる。かかる決定はランダムに行われてもよい。本実施形態では、第1個体データと第2個体データにおける交差ポイントは同じ場所とする。そして、交差ポイントを境として、第1個体データと第2個体データに含まれるコドンを入れ替える。本実施形態では、かかる処理を交差処理という。   As shown in FIG. 10, the two pieces of individual data selected in S323 are set as first individual data and second individual data, respectively. In the example of FIG. 10, the first individual data and the second individual data each have three CDSs and different base sequences. From these individual data, crossing points are determined. The crossover point is selected at one position from the codon-codon boundary. Such decisions may be made randomly. In this embodiment, the intersection points in the first individual data and the second individual data are the same place. Then, the codons included in the first individual data and the second individual data are interchanged at the intersection point. In the present embodiment, such processing is called cross processing.

図9に戻り、交差処理についてさらに説明する。S325において、交差処理部104は、変数iを2増やす。   Returning to FIG. 9, the cross process will be further described. In S325, the intersection processing unit 104 increases the variable i by two.

次に、S326において、交差処理部104は、変数i=eであるか否かを判定する。そして、判定結果がNOであれば、再びS323に戻る。一方、判定結果がYESであれば、交差処理を終了し、かかる計算結果を計算データ記憶部204へ出力する。ここで、現時点ではi=2であり、eが2よりも大きいとすると、S326からS323へ戻ることになる。そして、まだ交差処理が実行されていない(e−2)個の個体データからランダムに2個の個体データを選択する。かかる処理を、S326における判定結果がYES、つまり、e個の個体データ全てに対して交差処理が実行されるまで繰り返す。なお、前述のとおり、かかる交差処理は任意であり、必要に応じて省略することができる。   Next, in S326, the intersection processing unit 104 determines whether or not the variable i = e. Then, if the determination result is NO, the process returns to S323 again. On the other hand, if the determination result is YES, the intersection processing is ended, and the calculation result is output to the calculation data storage unit 204. Here, if it is i = 2 at present, and e is larger than 2, it returns from S326 to S323. Then, two pieces of individual data are randomly selected from (e-2) pieces of individual data for which the cross process has not been performed yet. This process is repeated until the determination result in S326 is YES, that is, the cross process is performed on all e individual data. As described above, such cross processing is optional and can be omitted as necessary.

<変異処理>
次に、図11及び図12を用いて、変異処理について説明する。変異処理は、第g世代親個体集団データに含まれる全ての個体に対して実行される。ここで、S22において交差処理が実行されていない場合には、第g世代に含まれるp個の個体データに対して変異処理を実行する。一方、S22において交差処理が実行された場合には、交差処理が実行されたe個の個体データと、交差処理が実行されていないp−e個の個体データを合わせた計p個の個体データに対して変異処理を実行する。
<Mutation processing>
Next, mutation processing will be described using FIGS. 11 and 12. The mutation process is performed on all the individuals included in the g generation parent individual population data. Here, when the cross process is not performed in S22, the mutation process is performed on p individual data included in the g-th generation. On the other hand, when the cross process is executed in S22, a total of p individual data obtained by combining e individual data subjected to the cross process and p-e individual data not subjected to the cross process Perform mutation processing on

図11は、本発明の一実施形態に係る変異処理を実施するためのフローチャートの一例を示す図である。まず、S221において、変異処理部105は、第g世代親個体集団データに含まれる各個体データに対し、第1変異処理又は第2変異処理のいずれを実行するかをランダムに決定する。本実施形態では、第g世代親個体集団データに含まれるp個の個体データの全てに対して変異処理を実行するものとする。ここで、第2変異処理は、第1変異処理とは異なる変異処理である。   FIG. 11 is a diagram showing an example of a flowchart for carrying out a mutation process according to an embodiment of the present invention. First, in S221, the mutation processing unit 105 randomly determines which of the first mutation processing and the second mutation processing is to be performed on each individual data included in the g-th generation parent individual population data. In this embodiment, mutation processing is performed on all p individual data included in the g-th generation parent individual population data. Here, the second mutation treatment is a mutation treatment different from the first mutation treatment.

次に、S222において、変異処理部105は、S221における決定結果が第1変異処理であるか否かを判定する。そして、判定結果がYESであれば、S223aに進み、第1変異処理を実行する。一方、判定結果がNOであれば、S223bに進み、第2変異処理を実行する。   Next, in S222, the mutation processing unit 105 determines whether or not the determination result in S221 is the first mutation processing. Then, if the determination result is YES, the process proceeds to S223a to execute the first mutation process. On the other hand, if the determination result is NO, the process proceeds to S223b to execute the second mutation process.

(第1変異処理)
次に、S223aにおいて、変異処理部105は、個体データに対して第1変異処理を実行する。具体的には、個体データに含まれる全てのCDSに対し、各コドンを予め定められた確率Pmでかかるコドンより高頻度のコドンに置換する。ここで、より高頻度のコドンは、図6の前処理におけるS12でコドン頻度表データ記憶部203から取得したコドン頻度表データより得る。ここで、図12(a)を用いて第1変異処理について説明する。
(First mutation treatment)
Next, in S223a, the mutation processing unit 105 executes the first mutation processing on the individual data. Specifically, for every CDS contained in the individual data, each codon is replaced with a codon having a frequency higher than that of such a codon with a predetermined probability Pm. Here, more frequent codons are obtained from the codon frequency table data acquired from the codon frequency table data storage unit 203 in S12 in the pre-processing of FIG. Here, the first mutation process will be described with reference to FIG.

図12(a)は、個体データに3つのCDSが含まれる例を示す。図12(a)に示されるように、第1変異処理では、個体データに含まれる3つのCDSについて、全てのコドン(5×3=15個のコドン)に対して確率Pmで変異処理を実行する。なお、図12(a)中の破線は、確率Pmで変異処理が実行される対象となるコドンの範囲を表すものである。一例として、3つ目のCDSであるCDS−3に含まれる最初のコドンである「GGC」を、確率PmでGGCより高頻度なコドンに置換する。ここで、より高頻度なコドンは、コドン頻度表データから得る。図12(a)の例では、「GGC」より高頻度なコドンは、「GGT」及び「GGA」が存在する。このように、より高頻度なコドンが複数ある場合には、いずれか1つのコドンをランダムに選び、「GGC」と置換する。なお、「GGC」より高頻度なコドンが存在しない場合、かかる置換はされない。このような置換を、個体データに含まれる全てのコドンに対して実行する。本実施形態では、このような処理を第1変異処理という。ここで、第1変異処理は、後述する第1評価基準に係る最小CAI値を大きくすることを意図するものである。   FIG. 12 (a) shows an example in which three CDSs are included in individual data. As shown in FIG. 12 (a), in the first mutation processing, mutation processing is performed with probability Pm for all codons (5 × 3 = 15 codons) for three CDSs included in the individual data. Do. The broken line in FIG. 12A indicates the range of codons to be subjected to mutation processing with probability Pm. As an example, "GGC", which is the first codon included in the third CDS, CDS-3, is replaced with a codon more frequent than GGC with probability Pm. Here, more frequent codons are obtained from the codon frequency table data. In the example of FIG. 12 (a), “GGT” and “GGA” exist as codons more frequently than “GGC”. Thus, when there are a plurality of more frequent codons, any one codon is randomly selected and replaced with "GGC". In the absence of codons more frequently than "GGC", such substitution is not performed. Such substitutions are performed for all codons contained in the individual data. In the present embodiment, such a process is referred to as a first mutation process. Here, the first mutation treatment is intended to increase the minimum CAI value according to the first evaluation criteria described later.

(第2変異処理)
図11に戻り、変異処理についてさらに説明する。S223bにおいて、変異処理部105は、個体データに対して第2変異処理を実行する。具体的には、個体データに含まれるCDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字と重なるコドンを、予め定められた確率Pmで他のコドンに置換する。ここで、図14を用いて、最長共通文字列について説明する。
(Second mutation treatment)
Returning to FIG. 11, the mutation process will be further described. In S223b, the mutation processing unit 105 executes the second mutation processing on the individual data. Specifically, among the CDSs included in the individual data, codons overlapping with the longest common character, which is the longest base sequence among the base sequences which continuously match at different sites between each CDS or within one CDS, Replace with another codon with a predetermined probability Pm. Here, the longest common character string will be described with reference to FIG.

「最長共通文字列」
図14に示される個体データは、一例として3つのCDSを含むものである。ここで、各CDSに含まれる5個のコドンを表す文字列(3個の塩基(=文字)×5=15文字)を、他のCDS又は1つのCDS内部の異なる部位に含まれる文字列と対比して、連続して一致する文字列の中で最も長いものを最長共通文字列という。図14の例では、「GGCATCGTCGA」(実線の下線が付された部分)が最長共通文字列となり、その長さ(文字数)は11である。なお、「GTCGAGCAG」(破線の下線が付された部分)も共通文字列であるが、長さが9であり、最長ではないので最長共通文字列とならない。なお、最長共通文字列は、計算機科学における最長共通部分文字列(The longest common substring)と呼ばれている概念に相当する。
"Longest common string"
The individual data shown in FIG. 14 includes three CDSs as an example. Here, a character string (three bases (= characters) × 5 = 15 characters) representing five codons contained in each CDS and a character string contained at another site inside another CDS or one CDS In contrast, the longest of the continuously matching strings is called the longest common string. In the example of FIG. 14, “GGCATCGTCGA” (portion underlined with a solid line) is the longest common character string, and its length (number of characters) is 11. Although "GTCGAGCAG" (a portion underlined with a broken line) is also a common character string, it has a length of 9 and is not the longest, so it can not be the longest common character string. The longest common string corresponds to a concept called the longest common substring in computer science.

図12(b)は、個体データに3つのCDSが含まれる例を示す。図12(b)に示されるように、第2変異処理では、個体データに含まれる3つのCDSについて、CDSに含まれる5個のコドンを表す文字列(3個の塩基(=文字)×5=15文字)のうち、最長共通文字列と重なるコドンに対して確率Pmで変異処理を実行する。ここで、図12(b)の例では、最長共通文字列は「GGCATCGTCGA」(実線の下線が付された部分)である。図12(b)の例では、2つ目及び3つ目のCDSであるCDS−2及びCDS−3に含まれるコドンのうち、1〜4つ目のコドンが最長共通文字列と重なるコドンである。なお、図12(b)中の破線は、確率Pmで変異処理が実行される対象となるコドンの範囲を表すものである。一例として、CDS−3に含まれる最初のコドンである「GGC」を、確率Pmで他のコドンに置換する。図12(b)の例では、「GGC」とは異なるコドンとして、「GGT」、「GGA」及び「GGG」が存在する。このように、他のコドンが複数ある場合には、いずれか1つのコドンをランダムに選び、「GGC」と置換する。なお、「GGC」以外のコドンが存在しない場合には、かかる置換はされない。例えば、特定のアミノ酸をコードするコドンが1種類しか存在しないときには、置換ができない場合があるためである。このような置換を、最長共通文字列と重なるコドンに対して実行する。本実施形態では、このような処理を第2変異処理という。ここで、第2変異処理は、後述する第2評価基準に係る不一致塩基数を大きくし、最長共通文字列を小さくすることを意図するものである。   FIG. 12 (b) shows an example in which three pieces of CDS are included in individual data. As shown in FIG. 12 (b), in the second mutation process, a string (three bases (= letters) × 5) representing five codons included in the CDS for three CDSs included in the individual data. The mutation process is executed with the probability Pm on the codon overlapping with the longest common character string among = 15 characters). Here, in the example of FIG. 12 (b), the longest common character string is “GGCATCGTCGA” (portion underlined with a solid line). In the example of FIG. 12 (b), among the codons contained in the second and third CDSs, CDS-2 and CDS-3, the first to fourth codons overlap with the longest common character string. is there. The broken line in FIG. 12B indicates the range of codons to be subjected to mutation processing with probability Pm. As an example, the first codon "GGC" contained in CDS-3 is replaced with another codon with probability Pm. In the example of FIG. 12 (b), "GGT", "GGA" and "GGG" are present as codons different from "GGC". Thus, when there are a plurality of other codons, one of the codons is randomly selected and replaced with "GGC". In the case where no codon other than "GGC" exists, such substitution is not made. For example, substitution may not be possible when there is only one type of codon encoding a specific amino acid. Such substitutions are performed for those codons that overlap with the longest common string. In the present embodiment, such processing is called second mutation processing. Here, the second mutation processing is intended to increase the number of unmatched bases related to the second evaluation criteria described later, and to reduce the longest common character string.

そして、第1変異処理及び第2変異処理が終了すると、かかる計算結果を計算データ記憶部204へ出力する。   Then, when the first mutation processing and the second mutation processing are completed, the calculation result is output to the calculation data storage unit 204.

図8に戻り、メインルーチンについてさらに説明する。S22において、第g世代親個体集団データに対して変異処理部105による変異処理、必要に応じて、交差処理部104による交差処理が実行された後、S23に進む。   Returning to FIG. 8, the main routine will be further described. In S22, mutation processing by the mutation processing unit 105 is performed on the g-th generation parent individual population data, and if necessary, cross processing by the cross processing unit 104 is performed, and then the process proceeds to S23.

次に、S23において、子個体集団データ取得部103は、第g世代子個体集団データを生成する。以下、交差処理の実行の有無毎に、第g世代子個体集団データの生成の仕方について説明する。   Next, in S23, the offspring population data acquisition unit 103 generates g-th generation offspring population data. Hereinafter, how to generate the g-th generation individual population data will be described for each execution of the cross process.

1.S22において変異処理のみが実行された場合
子個体集団データ取得部103は、第g世代親個体集団データに含まれるp個の個体データが全て変異処理されたp個の個体データを、新たに第g世代子個体集団データとする。
1. When only mutation processing is performed in S22, the offspring individual population data acquisition unit 103 newly generates p individual data on which all p individual data included in the g-th generation parent individual population data are mutated. Let g generation child individual population data.

2.S22において変異処理及び交差処理が実行された場合
子個体集団データ取得部103は、第g世代親個体集団データに含まれるp個の個体データのうち、交差処理が実行されたe個の個体データと、交差処理が実行されていないp−e個の個体データを合わせた計p個の個体データが全て変異処理されたp個の個体データを、新たに第g世代子個体集団データとする。
2. When mutation processing and crossover processing are performed in S22, the offspring population data acquisition unit 103 selects e pieces of data on which crossover processing has been performed among the p pieces of individual data included in the g-th generation parent population data. In addition, p individual data in which a total of p individual data obtained by combining the p-e individual data for which cross processing has not been performed are all mutated is newly defined as the g generation child individual population data.

次に、S24において、処理部10は、第g世代親個体集団データ及び第g世代子個体集団データを統合し、第g世代統合データを生成する。これにより、第g世代統合データには2p個の個体データが含まれることとなる。   Next, in S24, the processing unit 10 integrates the g-th generation parent individual population data and the g-th generation child individual population data to generate the g-th generation integrated data. As a result, the g-th integrated data includes 2p individual data.

次に、S25において、非優越ソート実行部106は、予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、第g世代統合データに対して非優越ソートを実行する。そして、2p個の個体データをパレート最適解におけるフロント毎(ランク毎)に分類する。   Next, in S25, the non-dominated sort executing unit 106 is non-dominated to the g-th generation integrated data, which is a predetermined evaluation criterion based on the degree of codon suitability and the evaluation criteria regarding the base sequences of the codons. Perform a sort Then, 2p individual data are classified for each front (per rank) in the Pareto optimal solution.

次に、S26において、個体選択部107は、パレート最適解におけるフロント毎(ランク毎)に分類された第g世代統合データから、ランクの高い順に定められた数の個体データを選択する。なお、個体選択部107は、定められた数の個体データを選択するときに、ランクが同じ個体データが存在する場合には、混雑距離が大きいものから順に選択することとしてもよい。ここで、予め定められた数として、pを採用することができる。そして、親個体集団データ取得部102は、個体選択部107により選択されたp個の個体データを、第g+1世代の親個体集団を表す第g+1世代親個体集団データとして生成し、取得する。以下、図13及び図14を用いて、かかる評価基準について説明する。   Next, in S26, the individual selecting unit 107 selects the individual data of the number determined in descending order of rank from the g-th generation integrated data classified for each front (per rank) in the Pareto optimal solution. When selecting a predetermined number of pieces of individual data, the individual selecting unit 107 may select pieces of data in order of decreasing congestion distance when there is individual data of the same rank. Here, p can be adopted as a predetermined number. Then, the parent individual group data acquisition unit 102 generates and acquires p individual data selected by the individual selection unit 107 as g + 1th generation parent individual group data representing a parent individual group of the (g + 1) th generation. Hereinafter, the evaluation criteria will be described with reference to FIGS. 13 and 14.

<評価基準>
本実施形態では、非優越ソートを実行した2p個の個体データからp個の個体データを選択するに際し、2つの観点の評価基準を利用する。かかる観点は、相同組み換えを抑制し、目的タンパク質の生産量を高めることを目的として導き出された観点である。1つ目の観点は、「コドン適合度」に関するものである。具体的には、各個体が複数有する塩基配列であって、アミノ酸翻訳の対象となる塩基配列を表すCDSのコドン適合インデックスの最小値を基準とする。これが第1評価基準である。そして、2つ目の観点は、「コドンの塩基配列」に関するものである。さらに、2つ目の観点は、「不一致塩基数」及び「最長共通文字列」に分かれる。そして、個体データに含まれる2つのCDSのうち、不一致塩基数の最小値を基準とするのが第2評価基準である。また、個体データに含まれるCDSのうち、最長共通文字列の長さを基準とするのが第3評価基準である。以下、これら3つの評価基準の意義について、それぞれ説明する。
<Evaluation criteria>
In this embodiment, when selecting p individual data from 2p individual data subjected to non-dominated sorting, evaluation criteria of two viewpoints are used. Such a viewpoint is a viewpoint derived for the purpose of suppressing the homologous recombination and increasing the production amount of the target protein. The first aspect relates to "codon match". Specifically, the minimum value of the codon matching index of CDS, which is a base sequence possessed by each individual and is a target of amino acid translation, is used as a reference. This is the first evaluation standard. And, the second aspect relates to the "base sequence of codon". Furthermore, the second aspect is divided into “number of unmatched bases” and “longest common string”. And it is a 2nd evaluation standard that it is based on the minimum of the number of unmatched bases among two CDS contained in individual data. Further, among the CDSs included in the individual data, the third evaluation standard is based on the length of the longest common character string. The significance of these three evaluation criteria will be described below.

(第1評価基準:コドン適合度)
第1の観点である第1評価基準は、「コドン適合度」に関するものである。ここで、「コドン適合度」とは、個体データに含まれるCDS中に利用頻度の高いコドンが多く含まれているほど高くなるものとする。具体的には、各個体データに含まれるCDSのコドン適合インデックス(Codon Adaptation Index(以下、CAIという))の最小値(以下、最小CAI値という)を基準とする。CAIは、例えば以下の式で求めることができる。
(First evaluation criteria: degree of codon matching)
The first evaluation criterion, which is the first aspect, relates to "codon suitability". Here, “codon suitability” is higher as the number of frequently used codons is included in the CDS included in the individual data. Specifically, the minimum value (hereinafter referred to as minimum CAI value) of the codon adaptation index (hereinafter referred to as CAI) of CDS contained in each individual data is used as a reference. The CAI can be determined, for example, by the following equation.



L:個体データに含まれるコドンの数
fi:i番目のコドンの頻出度
max(fj):最頻出である同義コドン(j番目のコドン)の頻出度
ここで、同義コドンとは、同じアミノ酸をコードするコドンであって、異なる配列を持ったコドンのことである。


L: Number of codons contained in individual data fi: Frequency of i-th codon max (fj): Frequency of synonymous codon (j-th codon) that is most frequent Here, synonymous codon means the same amino acid Codons that encode and have different sequences.

そして、上記の式で求めたCAIを用いて、以下の式で最小CAI値を求めることができる。   Then, using the CAI determined by the above equation, the minimum CAI value can be determined by the following equation.



x:個体データに含まれるCDSの数
Ci:i番目のCDS
CAI(Ci):CiのCAI


x: Number of CDS contained in individual data Ci: i-th CDS
CAI (Ci): Ci of CAI

ここで、あるCDSのCAIが高いほど、そのCDSには利用頻度の高いコドンが多く含まれている(逆に言うとCDSに含まれるレアコドンの数が少ない)ことを示す。そして、ある個体データが、CAIが極端に低い(換言すると、レアコドンが多く含まれた)CDSを持っていると、そのCDSは効率的に翻訳されない可能性がある。したがって、最小CAI値を第1評価基準として用い、最小CAI値が大きいほど、かかる個体データの評価を高くすることにより、CAIが極端に低いCDSを持つ個体データを最適化の過程で取り除くことが可能になる。したがって、第1変異処理により、最小CAI値を大きくすることで、より好ましいシミュレーション結果を得ることができる。   Here, it indicates that the higher the CAI of a certain CDS, the more the codons contained in the CDS (in other words, the fewer the number of rare codons contained in the CDS). And, if certain individual data has a CDS with an extremely low CAI (in other words, rich in rare codons), the CDS may not be translated efficiently. Therefore, by using the minimum CAI value as the first evaluation criterion and increasing the evaluation of such individual data as the minimum CAI value is larger, individual data having an extremely low CAI CDS can be removed in the optimization process. It will be possible. Therefore, more favorable simulation results can be obtained by increasing the minimum CAI value by the first mutation treatment.

(第2評価基準:不一致塩基数)
次に、図13を用いて第2評価基準について説明する。第2の観点のうちの1つ目である第2評価基準は、「不一致塩基数」に関するものである。具体的には、不一致塩基数の最小値(以下、最小不一致塩基数という)を評価基準に用いる。ここで、不一致塩基とは、個体データに含まれるx個のCDSのうち、2つのCDS(以下、CDSペアという)Ci及びCjを対比して、コドンを構成する塩基が不一致となる塩基のことである。図13の例では、Ci及びCjを構成する塩基のうち、不一致塩基の数が5個となっている。したがって、かかるCDSペア(Ci及びCj)の不一致塩基数は5となる。最小不一致塩基数は、以下の式で求めることができる。
(Second evaluation criteria: number of mismatched bases)
Next, the second evaluation criteria will be described with reference to FIG. The second evaluation criterion, which is the first of the second aspects, relates to the “number of unmatched bases”. Specifically, the minimum value of the number of unmatched bases (hereinafter referred to as the minimum number of unmatched bases) is used as an evaluation criterion. Here, the unmatched base refers to a base in which bases constituting codons do not match with each other between two CDS (hereinafter referred to as a CDS pair) Ci and Cj among x CDS included in individual data. It is. In the example of FIG. 13, the number of unmatched bases is five among the bases constituting Ci and Cj. Therefore, the number of unmatched bases of such a CDS pair (Ci and Cj) is five. The minimum number of unmatched bases can be determined by the following equation.


x:個体データに含まれるCDSの数
Ci:i番目のCDS
Cj:j番目のCDS
NN(Ci,Cj):CiとCjの不一致塩基数

x: Number of CDS contained in individual data Ci: i-th CDS
Cj: jth CDS
NN (Ci, Cj): Number of unmatched bases of Ci and Cj

ここで、ある個体データが、不一致塩基数が極端に低い(換言すると、塩基配列がよく似た)CDSペアを持っていると、そのCDSペアの間で相同組み換えが生じる可能性が高くなる。これは、相同組み換えは、塩基配列がよく似た部位(相同部位)で生じるためである。したがって、最小不一致塩基数を第2評価基準として用い、最小不一致塩基数が大きい(換言すると、塩基配列が異なる割合が大きい)ほど、かかる個体データの評価を高くすることにより、塩基配列がよく似た個体データを最適化の過程で取り除くことが可能になる。したがって、第2変異処理により、不一致塩基数を大きくすることで、より好ましいシミュレーション結果を得ることができる。   Here, if one individual data has a CDS pair with an extremely low number of mismatched bases (in other words, similar base sequences), the possibility of homologous recombination between the CDS pairs increases. This is because the homologous recombination occurs at a site where the base sequences closely resemble (homologous site). Therefore, by using the minimum number of unmatched bases as the second evaluation criterion, and the higher the minimum number of unmatched bases (in other words, the larger the percentage of different base sequences), the base sequence is similar by raising the evaluation of such individual data. Individual data can be removed in the process of optimization. Therefore, more favorable simulation results can be obtained by increasing the number of unmatched bases by the second mutation treatment.

(第3評価基準:最長共通文字列)
次に、図14を用いて第3評価基準について説明する。第2の観点のうちの2つ目である第3評価基準は、「最長共通文字列」に関するものである。すでに述べたように、「最長共通文字列」とは、各CDS又は1つのCDS内部の異なる部位に含まれるコドンを表す文字列を、他のCDSに含まれる文字列と対比して、連続して一致する文字列の中で最も長いもののことである。
(Third evaluation criteria: longest common string)
Next, the third evaluation criteria will be described with reference to FIG. The second evaluation criterion, which is the second of the second aspects, relates to the "longest common character string". As described above, “longest common character string” refers to a character string representing codons contained at different sites within each CDS or one CDS, in contrast to the character strings contained in other CDSs. The longest matching string.

ここで、「全く同じ塩基配列」がゲノム近傍にあると、相同組み換えが生じる可能性が高くなる。これは、前述の通り、相同組み換えは、塩基配列がよく似た部位(相同部位)で生じるためである。したがって、「最長共通文字列」の長さを第3評価基準として用い、最長共通文字列の長さが短いほど、かかる個体データの評価を高くすることにより、「全く同じ塩基配列」が高い割合で含まれる個体データを最適化の過程で取り除くことが可能になる。したがって、第2変異処理により、最長共通文字列を小さくすることで、より好ましいシミュレーション結果を得ることができる。   Here, when the “exactly identical nucleotide sequence” is in the vicinity of the genome, the possibility of occurrence of homologous recombination is high. This is because, as described above, homologous recombination occurs at a site where the base sequences closely resemble (homologous site). Therefore, by using the length of the “longest common character string” as the third evaluation criterion and making the evaluation of such individual data higher as the length of the longest common character string is shorter, the proportion of “exactly the same base sequence” is high It is possible to remove individual data included in the process of optimization. Therefore, more favorable simulation results can be obtained by reducing the longest common character string by the second mutation process.

以上説明したように、第1の観点である第1評価基準を用いることにより、利用頻度の高いコドンが多く含まれるCDSを有する個体データを選択することが可能となる。また、第2の観点である第2評価基準及び第3評価基準を用いることにより、塩基配列が異なる割合が大きい個体データを選択し、相同組み換えの発生を抑制することが可能となる。   As described above, it is possible to select individual data having a CDS in which a large number of frequently used codons are included by using the first evaluation criterion which is the first aspect. Further, by using the second evaluation criterion and the third evaluation criterion, which are the second aspect, it is possible to select individual data having a large proportion of different base sequences, and to suppress the occurrence of homologous recombination.

図8に戻り、メインルーチンについてさらに説明する。S26において、個体選択部107は、パレート最適解におけるフロント毎(ランク毎)に分類された(2p個の個体データを含む)第g世代統合データから、ランクの高い順にp個の個体データを選択する。そして、親個体集団データ取得部102は、選択されたp個の個体データを新たに第g+1世代の親個体集団データとし、第g+1世代親個体集団データを生成する。   Returning to FIG. 8, the main routine will be further described. In S26, the individual selecting unit 107 selects p individual data in descending order of rank from the g-th generation integrated data (including 2p individual data) classified for each front (per rank) in the Pareto optimal solution Do. Then, the parent individual group data acquisition unit 102 newly sets the selected p individual data as the (g + 1) th generation parent individual group data, and generates the (g + 1) th generation parent individual group data.

次に、S27において、処理部10は、変数gが予め定められた世代数Gを超えるか否かを判定する。そして、かかる判定結果がNOであれば、S28に進む。一方、S27における判定結果がYESであれば、メインルーチンを終了し、かかる計算結果を計算データ記憶部204へ出力する。   Next, in S27, the processing unit 10 determines whether or not the variable g exceeds a predetermined number of generations G. And if this determination result is NO, it will progress to S28. On the other hand, if the determination result in S27 is YES, the main routine is ended, and the calculation result is output to the calculation data storage unit 204.

S27における判定結果がNOであれば、S28に進み、変数gをインクリメントし(つまり、変数gに1を加え)、再びS21に戻る。ここで、現時点では変数g=2であるので、親個体集団データ取得部102は、S26において生成された第2世代親個体集団データを取得する。かかる処理を、変数gが予め定められた世代数Gとなるまで繰り返し実行する。換言すると、S21〜S26における処理を250回繰り返し実行する。   If the determination result in S27 is NO, the process proceeds to S28, the variable g is incremented (that is, 1 is added to the variable g), and the process returns to S21 again. Here, since the variable g = 2 at the present time, the parent individual group data acquisition unit 102 acquires the second generation parent individual group data generated in S26. This process is repeated until the variable g reaches a predetermined number G of generations. In other words, the processing in S21 to S26 is repeated 250 times.

以上説明したメインルーチンを繰り返し実行することにより、3つの評価基準に基いて選択されたp個の個体データは、繰り返し回数が増えるほど、遺伝子配列群として好ましいものとなっていく。   By repeatedly executing the main routine described above, the p individual data items selected based on the three evaluation criteria become preferable as a gene sequence group as the number of repetitions increases.

<実施例>
以下、本アルゴリズムを用いた遺伝子配列設計につき、実施例について説明する。かかる実施例では、シミュレーションとして、ヒトのインスリンA鎖(アミノ酸配列:GIVEQCCTSICSLYQLENYCN)をコードする10個のCDSを設計した。種々のパラメータについては、以下の通りである。
予め定められた確率Pm(変異率)=0.05
Pc(交差率)=0.5
第g世の個体集団データ(親個体集団データ、子個体集団データ)に含まれる個体データの数p=100
予め定められた世代数G(最大世代数)=250
<Example>
Examples of gene sequence design using the present algorithm will be described below. In this example, 10 CDSs encoding human insulin A chain (amino acid sequence: GIVEQCCTSICSLYQLENYCN) were designed as a simulation. The various parameters are as follows.
Predetermined probability Pm (mutation rate) = 0.05
Pc (crossing rate) = 0.5
Number of individual data included in individual population data of g-group (parent individual population data, child individual population data) p = 100
Number of predetermined generations G (maximum number of generations) = 250

以下、図15及び図16を用いて、本シミュレーションにおける計算結果について、第1評価基準を横軸に、第2評価基準を縦軸にとってプロットしたグラフと、第1評価基準を横軸に、第3評価基準を縦軸にとってプロットしたグラフについて説明する。   Hereinafter, with reference to FIG. 15 and FIG. 16, regarding the calculation results in this simulation, a graph plotting the first evaluation standard on the horizontal axis and the second evaluation standard on the vertical axis, and the first evaluation standard on the horizontal axis A graph in which the evaluation criteria are plotted on the vertical axis will be described.

図15は、第1評価基準を横軸に、第2評価基準を縦軸にとってプロットしたグラフである。ここで、グラフ中にて丸で表されるプロットは第1世代、四角形で表されるプロットは第10世代、三角形で表されるプロットは第250世代における計算結果を示す。なお、1つのプロットは1つの設計結果(=個体データ)に対応する。すでに述べたように、第1評価基準は最小CAI値が大きいほど評価が高いので、グラフ中では横軸の右側にプロットされた点ほど評価が良く、横軸の左側にプロットされた点ほど評価が悪いといえる。また、第2評価基準は、最小不一致塩基数が大きいほど評価が高いので、グラフ中では縦軸の上側にプロットされた点ほど評価が良く、縦軸の下側にプロットされた点ほど評価が悪いといえる。図15に示されるように、世代数が大きくなるにしたがって(換言すると、図8におけるメインルーチンの繰り返し回数が増えるにしたがって)、個体集団データ全体として好ましいものとなっていることが読み取れる。   FIG. 15 is a graph in which the first evaluation criterion is plotted on the horizontal axis and the second evaluation criterion is plotted on the vertical axis. Here, in the graph, a plot represented by a circle indicates a first generation, a plot represented by a square indicates a tenth generation, and a plot represented by a triangle indicates a calculation result in the 250th generation. One plot corresponds to one design result (= solid data). As described above, since the first evaluation criterion is evaluated higher as the minimum CAI value is larger, the points plotted on the right side of the horizontal axis in the graph are better evaluated, and the points plotted on the left side of the horizontal axis are evaluated It can be said that it is bad. In the second evaluation criterion, the higher the minimum number of mismatched bases, the higher the evaluation. Therefore, in the graph, the higher the point plotted on the vertical axis, the better the evaluation, and the lower the vertical axis, the better. It can be said that it is bad. As shown in FIG. 15, as the number of generations increases (in other words, as the number of repetitions of the main routine in FIG. 8 increases), it can be read that the whole population data is preferable.

図16は、第1評価基準を横軸に、第3評価基準を縦軸にとってプロットしたグラフである。丸、四角形及び三角形で表される各プロットの意味は、図15と同様である。ここで、第3評価基準は、最長共通文字列の長さが短いほど評価が高いので、グラフ中では縦軸の下側にプロットされた点ほど評価が良く、縦軸の上側にプロットされた点ほど評価が悪いといえる。図16に示されるように、世代数が大きくなるにしたがって(換言すると、図8におけるメインルーチンの繰り返し回数が増えるにしたがって)、個体集団データ全体として好ましいものとなっていることが読み取れる。   FIG. 16 is a graph in which the first evaluation criterion is plotted on the horizontal axis and the third evaluation criterion is plotted on the vertical axis. The meanings of the plots represented by circles, squares and triangles are the same as in FIG. Here, in the third evaluation criteria, since the evaluation is higher as the length of the longest common string is shorter, the points plotted on the lower side of the vertical axis in the graph are evaluated better and plotted on the upper side of the vertical axis It can be said that the point is bad evaluation. As shown in FIG. 16, as the number of generations increases (in other words, as the number of repetitions of the main routine in FIG. 8 increases), it can be read that the entire population data is preferable.

以上、種々の実施形態について説明したが、本発明はこれらに限定されない。   Although the various embodiments have been described above, the present invention is not limited to these.

例えば、図8におけるメインルーチンのS26における選択は、第1評価基準及び第2評価基準、又は、第1評価基準及び第3評価基準のいずれか一方を用い、図15及び図16に示されるグラフの一方を得ることとしてもよい。また、第1評価基準及び第2評価基準、及び、第1評価基準及び第3評価基準の両方を用いる場合は、世代毎に図15におけるグラフと図16におけるグラフからそれぞれ評価の高い個体データを特定し、任意の基準でポイントを付与し、これら2つのグラフにおけるポイントの合計が高い個体データを選択してもよい。もしくは、図15及び図16のように2次元のグラフではなく、第1評価基準をx軸に、第2評価基準をy軸に、第3評価基準をz軸にして、3次元のグラフを作成することにより3つの評価基準のそれぞれについて高い評価を得た個体データを選択してもよい。   For example, the selection in S26 of the main routine in FIG. 8 uses the first evaluation criterion and the second evaluation criterion, or any one of the first evaluation criterion and the third evaluation criterion, and the graphs shown in FIG. It is also possible to obtain one of them. In addition, when using both the first and second evaluation criteria and both the first and third evaluation criteria, high evaluation individual data is obtained from the graph in FIG. 15 and the graph in FIG. 16 for each generation. The individual data may be selected and given points on any basis, and the total sum of points in these two graphs may be selected. Alternatively, instead of a two-dimensional graph as shown in FIG. 15 and FIG. 16, a three-dimensional graph with the first evaluation criterion as x axis, the second evaluation criterion as y axis, and the third evaluation criterion as z axis By creating, individual data that has obtained high evaluation for each of the three evaluation criteria may be selected.

また、記憶部20は、情報処理装置1の内部に設けずに、外部のPC又はサーバ等の情報処理装置に設けるクラウドコンピューティングの態様とすることができる。この場合、計算の度に必要なデータを外部の情報処理装置が情報処理装置1に送信する。   In addition, the storage unit 20 can be in an aspect of cloud computing provided in an information processing apparatus such as an external PC or a server without being provided inside the information processing apparatus 1. In this case, the external information processing apparatus transmits data necessary for each calculation to the information processing apparatus 1.

また、情報処理装置1の機能を実装したASIC(application specific integrated circuit)、FPGA(field−programmable gate array)、DRP(Dynamic ReConfigurable Processor)として提供することもできる。また、コンピュータに、情報処理装置1の機能を実現するためのプログラムとして提供することもできる。この場合、かかるプログラムをインターネット等を介して配信することもできる。   Also, it can be provided as an application specific integrated circuit (ASIC), a field-programmable gate array (FPGA), or a dynamic reconfigurable processor (DRP) in which the functions of the information processing apparatus 1 are implemented. Further, the program may be provided to a computer as a program for realizing the functions of the information processing apparatus 1. In this case, such a program can also be distributed via the Internet or the like.

さらに、本アルゴリズムとして、多目的遺伝的アルゴリズムである「NSGA−II」を利用することもできる。これは、本アルゴリズムと同様に、p個の最適解をまとめて得ることができるためである。また、組み合わせ最適化アルゴリズムの一種である「シミュレーテッドアニーリング」や「(単目的の)遺伝的アルゴリズム」を利用してもよい。ただし、この場合には、p個の最適解をまとめて得ることができないので、計算を少なくともp回以上繰り返し、p個の最適解を得る必要がある。さらに、これら2つ以上のアルゴリズムの計算結果を混合してもよい。この場合、p以下の任意の整数αを設定し、あるアルゴリズムによる計算結果からα個の個体を選択し、他のアルゴリズムによる計算結果からp−α個の個体を選択し、これらを結合したp個の個体を用いることとしてもよい。   Furthermore, "NSGA-II" which is a multipurpose genetic algorithm can also be used as this algorithm. This is because p optimal solutions can be obtained collectively as in the present algorithm. In addition, "simulated annealing" or "(single purpose) genetic algorithm", which is a kind of combined optimization algorithm, may be used. However, in this case, since the p optimal solutions can not be obtained collectively, it is necessary to repeat the calculation at least p times or more to obtain p optimal solutions. Furthermore, calculation results of these two or more algorithms may be mixed. In this case, an arbitrary integer α equal to or less than p is set, α individuals are selected from calculation results by a certain algorithm, and p−α individuals are selected from calculation results by another algorithm, and these are combined p It is also possible to use an individual.

さらに、本発明は、
アミノ酸配列、遺伝子数及びコドン頻度表を表すデータに基いて生成されたデータであって、予め定められた数の個体データを含む第1世代の親個体集団を表す第1世代親個体集団データを取得する親個体集団データ取得ステップと、
前記第1世代親個体集団データに含まれる個体に対し、変異処理を実行する変異処理ステップと、
前記変異処理が実行された個体を含む第1世代の子個体集団を表す第1世代子個体集団データを取得する子個体集団データ取得ステップと、
予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、前記第1世代親個体集団データ及び前記第1世代子個体集団データを統合した第1世代統合データに対して非優越ソート処理を実行し、前記第1世代統合データに含まれる全個体データをパレート最適解におけるランク毎に分類する非優越ソート実行ステップと、
前記ランク毎に分類された全個体データから、前記ランクの高い順に予め定められた数の前記個体データを選択する個体選択ステップと、
を有する遺伝子配列設計方法
として捉えることもできる。
Furthermore, the present invention
Data generated based on data representing an amino acid sequence, gene number and codon frequency table, which is a first generation parent individual population data representing a first generation parent individual population including a predetermined number of individual data Parent individual group data acquisition step to be acquired;
Performing mutation processing on the individuals included in the first generation parent individual population data;
Child individual population data acquisition step for acquiring first generation child individual population data representing a first generation child individual population including individuals subjected to the mutation process;
First-generation integration integrating the first-generation parent individual population data and the first-generation child individual population data, which is a predetermined evaluation criterion, based on codon suitability and an evaluation criterion regarding the base sequence of the codon A non-dominant sort execution step of executing non-dominant sort processing on data and classifying all individual data included in the first generation integrated data according to rank in Pareto optimal solution;
An individual selection step of selecting a predetermined number of the individual data in descending order of the rank from all individual data classified according to the rank;
It can also be understood as a gene sequence design method having

1:情報処理装置、10:処理部、20:記憶部、30:操作部、40:表示部、50:通信部、100:バス、101:個体生成部、102:親個体集団データ取得部、103:子個体集団データ取得部、104:交差処理部、105:変異処理部、106:非優越ソート実行部、107:個体選択部、201:アミノ酸配列データ記憶部、202:遺伝子数データ記憶部、203:コドン頻度表データ記憶部、204:計算データ記憶部、205:評価基準記憶部205   1: Information processing apparatus 10: Processing unit 20: Storage unit 30: Operation unit 40: Display unit 50: Communication unit 100: Bus 101: Individual generation unit 102: Parent individual group data acquisition unit 103: child individual population data acquisition unit, 104: cross processing unit, 105: mutation processing unit, 106: non-dominated sort execution unit, 107: individual selection unit, 201: amino acid sequence data storage unit, 202: gene number data storage unit , 203: codon frequency table data storage unit, 204: calculation data storage unit, 205: evaluation criteria storage unit 205

Claims (16)

アミノ酸配列、遺伝子数及びコドン頻度表を表すデータに基いて生成されたデータであって、予め定められた数の個体データを含む第1世代の親個体集団を表す第1世代親個体集団データを取得する親個体集団データ取得部と、
前記第1世代親個体集団データに含まれる個体に対し、変異処理を実行する変異処理部と、
前記変異処理が実行された個体を含む第1世代の子個体集団を表す第1世代子個体集団データを取得する子個体集団データ取得部と、
予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、前記第1世代親個体集団データ及び前記第1世代子個体集団データを統合した第1世代統合データに対して非優越ソート処理を実行し、前記第1世代統合データに含まれる全個体データをパレート最適解におけるランク毎に分類する非優越ソート実行部と、
前記ランク毎に分類された全個体データから、前記ランクの高い順に予め定められた数の前記個体データを選択する個体選択部と、
を有する情報処理装置。
Data generated based on data representing an amino acid sequence, gene number and codon frequency table, which is a first generation parent individual population data representing a first generation parent individual population including a predetermined number of individual data Parent individual group data acquisition unit to acquire;
A mutation processing unit that executes mutation processing on the individuals included in the first generation parent individual population data;
A child individual population data acquisition unit for acquiring first generation child individual population data representing a first generation child individual population including individuals subjected to the mutation process;
First-generation integration integrating the first-generation parent individual population data and the first-generation child individual population data, which is a predetermined evaluation criterion, based on codon suitability and an evaluation criterion regarding the base sequence of the codon A non-dominant sort execution unit that executes non-dominant sort processing on data and classifies all individual data included in the first generation integrated data according to rank in a Pareto optimal solution;
An individual selecting unit which selects a predetermined number of the individual data in descending order of the rank from all individual data classified according to the rank;
An information processing apparatus having
前記個体選択部は、前記予め定められた数の前記個体データを選択するときに、前記ランクが同じ前記個体データが存在する場合には、混雑距離が大きいものから順に選択する、
請求項1に記載の情報処理装置。
When the individual selecting unit selects the predetermined number of the individual data, if there is the individual data having the same rank, the individual selecting unit sequentially selects in order from the one with the largest crowded distance.
An information processing apparatus according to claim 1.
前記親個体集団データ取得部は、前記個体選択部により選択された前記個体データを、第2世代の親個体集団を表す第2世代親個体集団データとし、
前記変異処理部、前記非優越ソート実行部及び前記個体選択部による処理を、予め定められた世代数となるまで実行する、
請求項1又は請求項2に記載の情報処理装置。
The parent individual population data acquisition unit uses the individual data selected by the individual selection unit as second generation parent individual population data representing a second generation parent individual population.
The processing by the mutation processing unit, the non-dominated sort execution unit, and the individual selection unit is performed until a predetermined number of generations is reached.
The information processing apparatus according to claim 1 or 2.
前記コドン適合度に関する評価基準は、各個体が複数有する塩基配列であって、アミノ酸翻訳の対象となる塩基配列を表すCDSのコドン適合インデックスの最小値を基準とする、
請求項1〜請求項3のいずれか1項に記載の情報処理装置。
The evaluation standard for the degree of codon suitability is a base sequence possessed by each individual, and is based on the minimum value of the codon suitability index of CDS representing the base sequence to be subjected to amino acid translation.
The information processing apparatus according to any one of claims 1 to 3.
前記個体に含まれる前記コドン適合インデックスの最小値が大きいほど、前記個体の評価を高くする、
請求項4に記載の情報処理装置。
The higher the minimum value of the codon matching index included in the individual, the higher the evaluation of the individual,
The information processing apparatus according to claim 4.
前記コドンの塩基配列に関する評価基準は、前記各個体に含まれる2つの前記CDSのうち、互いに一致しない塩基の数を表す不一致塩基数の最小値を基準とする、
請求項1〜請求項5のいずれか1項に記載の情報処理装置。
The evaluation criteria for the base sequences of the codons are based on the minimum value of the number of unmatched bases representing the number of unmatched bases among the two CDSs included in each individual.
The information processing apparatus according to any one of claims 1 to 5.
前記不一致塩基数の最小値が大きいほど、前記個体の評価を高くする、
請求項6に記載の情報処理装置。
The higher the minimum value of the number of unmatched bases, the higher the evaluation of the individual,
The information processing apparatus according to claim 6.
前記コドンの塩基配列に関する評価基準は、前記各個体に含まれる前記CDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字列の長さを基準とする、
請求項1〜請求項7のいずれか1項に記載の情報処理装置。
The evaluation criteria for the nucleotide sequences of the codons are the longest among the CDSs contained in each individual, among the CDSs among the individual CDSs or within a single CDS, the longest base sequence among the base sequences which are consecutively matched. Based on the length of the common string,
The information processing apparatus according to any one of claims 1 to 7.
前記最長共通文字列の長さが短いほど、前記個体を高く評価する、
請求項8に記載の情報処理装置。
The shorter the length of the longest common string, the higher the value of the individual.
The information processing apparatus according to claim 8.
前記変異処理部は、
第g世代の親個体集団を表す第g世代親個体集団データに含まれる各個体データに対し、第1変異処理及び前記第1変異処理とは異なる第2変異処理を実行する、
請求項1〜請求項9のいずれか1項に記載の情報処理装置。
The mutation processing unit
A second mutation process different from the first mutation process and the first mutation process is performed on each individual data included in the g-th generation parent individual population data representing the g-th generation parent individual population.
The information processing apparatus according to any one of claims 1 to 9.
前記変異処理部は、
前記各個体に含まれる全てのCDSに対し、前記CDSに含まれる前記コドンを、予め定められた確率で前記コドンより高頻度のコドンに置換する第1変異処理を実行する、
請求項10に記載の情報処理装置。
The mutation processing unit
Performing a first mutation process of replacing the codons contained in the CDS with codons more frequently than the codons with respect to all the CDSs contained in the individual, with a predetermined probability;
The information processing apparatus according to claim 10.
前記変異処理部は、
前記各個体に含まれるCDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字と重なる前記コドンを、予め定められた確率で他のコドンに置換する第2変異処理を実行する、
請求項10又は請求項11に記載の情報処理装置。
The mutation processing unit
Among the CDSs contained in each individual, the codons overlapping with the longest common character, which is the longest base sequence among the base sequences which continuously coincide at different sites within each CDS or within one CDS, are predetermined. Execute a second mutation process that substitutes for another codon with a certain probability
The information processing apparatus according to claim 10.
前記第1変異処理又は前記第2変異処理は、ランダムに選択される、
請求項10〜請求項12のいずれか1項に記載の情報処理装置。
The first mutation treatment or the second mutation treatment is randomly selected.
The information processing apparatus according to any one of claims 10 to 12.
前記第1世代親個体集団データに含まれる個体に対し、交差処理を実行する交差処理部を有し、
前記交差処理は、
第g世代の親個体集団を表す第g世代親個体集団データから予め定められた偶数個の個体データを抽出し、前記抽出された個体データから2個の個体データを選択し、前記選択された2個の個体データに対して交差処理を実行する、
請求項1〜請求項13のいずれか1項に記載の情報処理装置。
And a crossover processing unit that performs crossover processing on the individuals included in the first generation parent individual population data,
The cross processing is
A predetermined even number of individual data is extracted from the g-th generation parent individual population data representing the g-th generation parent individual population, two individual data are selected from the extracted individual data, and the selected one is selected Perform cross processing on two sets of individual data,
The information processing apparatus according to any one of claims 1 to 13.
前記交差処理部は、
前記選択された2個の個体データである第1個体データ及び第2個体データに含まれる前記CDSに含まれる前記コドンの境界から交差ポイントを決定し、
前記交差ポイントを境として前記第1個体データと前記第2個体データに含まれる前記コドンを入れ替える、
請求項14に記載の情報処理装置。
The intersection processing unit
Determine a crossing point from boundaries of the codons included in the CDS included in the first individual data and the second individual data which are the two selected individual data,
The codons included in the first individual data and the second individual data are switched at the intersection point,
The information processing apparatus according to claim 14.
コンピュータを、
アミノ酸配列、遺伝子数及びコドン頻度表を表すデータに基いて生成されたデータであって、予め定められた数の個体データを含む第1世代の親個体集団を表す第1世代親個体集団データを取得する親個体集団データ取得部、
前記第1世代親個体集団データに含まれる個体に対し、変異処理を実行する変異処理部、
前記変異処理が実行された個体を含む第1世代の子個体集団を表す第1世代子個体集団データを取得する子個体集団データ取得部、
予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、前記第1世代親個体集団データ及び前記第1世代子個体集団データを統合した第1世代統合データに対して非優越ソート処理を実行し、前記第1世代統合データに含まれる全個体データをパレート最適解におけるランク毎に分類する非優越ソート実行部、
前記ランク毎に分類された全個体データから、前記ランクの高い順に予め定められた数の前記個体データを選択する個体選択部、
として機能させるための情報処理プログラム。
Computer,
Data generated based on data representing an amino acid sequence, gene number and codon frequency table, which is a first generation parent individual population data representing a first generation parent individual population including a predetermined number of individual data Parent individual group data acquisition unit to acquire,
A mutation processing unit that executes mutation processing on the individuals included in the first generation parent individual population data,
A child individual population data acquisition unit for acquiring first generation child individual population data representing a first generation child individual population including individuals subjected to the mutation processing;
First-generation integration integrating the first-generation parent individual population data and the first-generation child individual population data, which is a predetermined evaluation criterion, based on codon suitability and an evaluation criterion regarding the base sequence of the codon A non-dominated sort execution unit that performs non-dominated sort processing on data and classifies all individual data included in the first generation integrated data according to rank in Pareto optimal solution;
An individual selection unit which selects a predetermined number of the individual data in descending order of the rank from all individual data classified according to the rank,
Information processing program to function as.
JP2016070976A 2016-03-31 2016-03-31 Information processing device and program Pending JP2019095819A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016070976A JP2019095819A (en) 2016-03-31 2016-03-31 Information processing device and program
PCT/JP2017/010169 WO2017169736A1 (en) 2016-03-31 2017-03-14 Information processing device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016070976A JP2019095819A (en) 2016-03-31 2016-03-31 Information processing device and program

Publications (1)

Publication Number Publication Date
JP2019095819A true JP2019095819A (en) 2019-06-20

Family

ID=59964367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016070976A Pending JP2019095819A (en) 2016-03-31 2016-03-31 Information processing device and program

Country Status (2)

Country Link
JP (1) JP2019095819A (en)
WO (1) WO2017169736A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307296B (en) * 2023-05-22 2023-09-29 南京航空航天大学 Cloud resource optimization configuration method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0638772A (en) * 1991-09-30 1994-02-15 P C C Technol:Kk Expression of exogenote of plant
JP5019744B2 (en) * 2005-12-22 2012-09-05 ヤマハ発動機株式会社 Multi-objective optimization apparatus, multi-objective optimization method, and multi-objective optimization program

Also Published As

Publication number Publication date
WO2017169736A1 (en) 2017-10-05

Similar Documents

Publication Publication Date Title
Jung et al. Visual gene developer: a fully programmable bioinformatics software for synthetic gene optimization
Zhang et al. CRIP: predicting circRNA–RBP-binding sites using a codon-based encoding and hybrid deep neural networks
Kaya MOGAMOD: Multi-objective genetic algorithm for motif discovery
Smirnov et al. MAGUS: multiple sequence alignment using graph clustering
EP3611799A1 (en) Array element arrangement method for l-type array antenna based on inheritance of acquired characteristics
WO2011135410A1 (en) Optimization technique using evolutionary algorithms
Chugh et al. Surrogate-assisted evolutionary biobjective optimization for objectives with non-uniform latencies
Poladian et al. Multi-objective evolutionary algorithms and phylogenetic inference with multiple data sets
Golchin et al. Parallel biclustering detection using strength Pareto front evolutionary algorithm
Cetin et al. Multiple cut-off grade optimization by genetic algorithms and comparison with grid search method and dynamic programming
Krömer et al. Differential evolution for the optimization of low-discrepancy generalized Halton sequences
Chowdhury et al. A bi-objective function optimization approach for multiple sequence alignment using genetic algorithm
Morshedian et al. A novel approach for protein structure prediction based on an estimation of distribution algorithm
Gonzalez-Alvarez et al. Predicting DNA motifs by using evolutionary multiobjective optimization
Bruneau et al. A clustering package for nucleotide sequences using Laplacian Eigenmaps and Gaussian Mixture Model
Shegay et al. Guide tree optimization with genetic algorithm to improve multiple protein 3D-structure alignment
JP2019095819A (en) Information processing device and program
Cancino et al. A multi-criterion evolutionary approach applied to phylogenetic reconstruction
Vié Qualities, challenges and future of genetic algorithms
WO2001048640A1 (en) Method and device for calculating optimization solution of multiple mutant protein amino acid sequence, and storage medium where program for executing the method is stored
Nizam et al. Cyclic genetic algorithm for multiple sequence alignment
CN110990353B (en) Log extraction method, log extraction device and storage medium
Ramakers et al. De Novo prediction of RNA 3D structures with Deep Learning
De Clercq et al. Deep learning for classification of DNA functional sequences
Gupta et al. MSA-GA: multiple sequence alignment tool based on genetic approach