JP2021182386A - Rna情報のデータ処理方法 - Google Patents

Rna情報のデータ処理方法 Download PDF

Info

Publication number
JP2021182386A
JP2021182386A JP2021082826A JP2021082826A JP2021182386A JP 2021182386 A JP2021182386 A JP 2021182386A JP 2021082826 A JP2021082826 A JP 2021082826A JP 2021082826 A JP2021082826 A JP 2021082826A JP 2021182386 A JP2021182386 A JP 2021182386A
Authority
JP
Japan
Prior art keywords
rna
rnas
analyzed
ratio
zero
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021082826A
Other languages
English (en)
Inventor
裕也 上原
Yuya Uehara
琴美 矢島
Kotomi Yajima
高良 井上
Takayoshi Inoue
直樹 大矢
Naoki Oya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kao Corp
Original Assignee
Kao Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kao Corp filed Critical Kao Corp
Publication of JP2021182386A publication Critical patent/JP2021182386A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Immunology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】被験者由来の分泌物から得られるRNA情報を解析する場合において、効果的な正規化処理を行うためのRNA情報のデータ処理を提供する。【解決手段】複数の被験者から採取された分泌物を生体試料とし、そこから得られるRNA発現情報について解析を行うためのデータ処理方法であって、以下のa)〜d)の工程を備える方法。a)検出対象RNAのうち、発現量がゼロ又はゼロと見做せるRNAを検出不能と判断して検出可能なRNAの数をカウントし、各試料について検出対象RNAの総数に対する検出可能なRNAの比率1(TD値)を求める工程b)試料のうち、比率1が5〜29%の範囲内で設定される閾値未満である試料を除外し、解析対象試料を選択する工程c)前記選択された解析対象試料のRNA発現情報に基づいて、検出対象RNA毎に、その発現量がゼロ又はゼロと見做せる発現量より多い試料の数の全解析対象試料数に対する比率2(SD値)を求める工程d)検出対象RNAのうち、比率2が81〜99%の範囲内で設定される閾値未満のRNAを除外し、それ以外のRNAを解析対象としてその発現情報を抽出する工程【選択図】なし

Description

本発明は、ヒト由来の分泌物中のRNA情報のデータ処理方法に関する。
近年、生体試料中のDNAやRNA等の核酸の解析によりヒトの生体内の現在さらには将来の生理状態を調べる技術が開発されている。核酸を用いた解析は、網羅的な解析方法が確立されており一度の解析で豊富な情報を得られる、及び一塩基多形やRNA機能等に関する多くの研究報告に基づいて解析結果の機能的な紐付けが容易であるといった利点を有する。生体由来の核酸は、血液等の体液、分泌物、組織等から抽出することができるが、最近、皮膚表上脂質(skin surface lipids;SSL)に含まれるRNAを生体の解析用の試料として用いること、SSLから表皮、汗腺、毛包及び皮脂腺のマーカー遺伝子が検出できることが報告されている(特許文献1)。
細胞中に発現しているRNA配列を直接定量するRNAシーケンス(RNA−Seq)解析は、シグナル強度比を使うマイクロアレイでは定量が難しかった低発現遺伝子の検出を可能とし、高精度な発現プロファイルを取得できることから現在注目されている解析法である。遺伝子発現解析においては、試料中の特定のRNAの濃度及び/または相対的もしくは絶対的な量が決定され、特定のRNAが定量化(定量)されるが、この場合には、精度が高く、再現性がある方法が望まれる。しかしながら、異なる個体から採取された生物試料においては、生物試料や解析過程に依存的な発現量プロファイルの偏りが生じることがあるため、特定のRNAの数量を必ずしも直接比較できるとは限らない。そこで、2つ以上の異なる個体に由来する生物試料において特定のRNAの数量を良好に比較するために、試料間でのRNAの数量について正規化が実施されている。
RNA−seq解析では、遺伝子の発現量の定量にゲノムにマッピングされたシーケンスリードの数が使用される。したがって、正規化には、総リード数を使った補正法であるRPM;Reads Per Million reads mapped(非特許文献1)やRLE;Relative Log Expression(非特許文献2)等が使われている。RLEによる正規化はDESeq2と呼ばれる一連の遺伝子発現量解析を行うための解析手法に実装されている。
国際公開公報第2018/008319号
情報処理学会研究報告, Vol.2013−BIO−33(9):1−3 Genome Biol, 2014, 15(12):550
しかしながら、皮脂や唾液のような分泌物から採取されるRNA、特にSSLから採取されるRNAの情報は、欠損値が多く、バラツキが多いため、他のRNAの情報と同じデータ処理をすると、その後に機械学習等の統計処理を行ったとしても、精度、再現性において課題を生じる場合がある。
本発明は、被験者由来の分泌物を生体試料とし、そこから得られるRNA情報を解析する場合において、効果的な正規化処理を行うためのRNA情報のデータ処理方法を提供することに関する。
本発明者らは、SSL中に含まれるRNAの発現状態をシーケンス情報とし、各種統計学的手法に利用するための発現値の正規化を行う際の使用データについて検討した結果、データ解析対象試料の選抜基準となる閾値とデータ解析対象遺伝子の選抜基準となる閾値を特定範囲に設定してRNA情報を抽出することにより、効果的な正規化処理が可能となることを見出した。
本発明は、以下の1)〜3)に係るものである。
1)複数の被験者から採取された分泌物を生体試料とし、そこから得られるRNA発現情報について解析を行うためのデータ処理方法であって、以下のa)〜d)の工程を備える方法。
a)検出対象RNAのうち、発現量がゼロ又はゼロと見做せるRNAを検出不能と判断して検出可能なRNA数をカウントし、各試料について検出対象RNAの総数に対する検出可能なRNA数の比率1(TD値)を求める工程
b)試料のうち、比率1が5〜29%の範囲内で設定される閾値未満である試料を除外し、解析対象試料を選択する工程
c)前記選択された解析対象試料のRNA発現情報に基づいて、検出対象RNA毎に、その発現量がゼロ又はゼロと見做せる発現量より多い試料の数の全解析対象試料数に対する比率2(SD値)を求める工程
d)検出対象RNAのうち、比率2が81〜99%の範囲内で設定される閾値未満のRNAを除外し、それ以外のRNAを解析対象としてその発現情報を抽出する工程
2)1)の方法により抽出されたRNA発現情報の総数に対して正規化を行う、RNA発現値の補正方法。
3)1)のデータ処理方法又は2)の補正方法を実行するためのプログラム、該プログラムが記録された情報記録媒体、該プログラムを実行する計算装置、並びに該データ処理方法若しくは補正方法により得られたRNA解析用データセット。
本発明によれば、RNA発現情報に欠損値やバラツキが多い生体試料において、複数のサンプルに由来するRNA発現プロファイルを比較する場合に、効果的な正規化処理が可能となり、RNA情報に基づき精度が高く、再現性が高い統計解析が可能となる。
各被験者におけるLog(normalized count+1)値のボックスプロット。
本発明の方法において、解析対象となる「RNA」としては、生体に由来するRNAであればよく、total RNA、mRNA、rRNA、tRNA、non-coding RNAのいずれでもよいが、好ましくはmRNAである。
本発明の方法において用いられる生体試料は、被験者由来の分泌物であり、具体的には皮脂、唾液、鼻水、涙、汗、尿、精液、膣液、羊水、乳汁、糞便等を含む試料が挙げられる。このうち、本発明の方法は、RNA情報の欠損が多く、バラツキが多い皮膚表上脂質(SSL)について適用するのが効果的である。
「皮膚表上脂質(SSL)」とは、皮膚の表上に存在する脂溶性画分をいい、皮脂と呼ばれることもある。一般に、SSLは、皮膚にある皮脂腺等の外分泌腺から分泌された分泌物を主に含み、皮膚表面を覆う薄い層の形で皮膚表上に存在している。SSLは、皮膚細胞で発現したRNAを含む。ここで、「皮膚」とは、特に限定しない限り、角層、表皮、真皮、毛包、ならびに汗腺、皮脂腺及びその他の腺等の組織を含む領域の総称である。
被験者の皮膚からのSSLの採取には、皮膚からのSSLの回収又は除去に用いられているあらゆる手段を採用することができる。好ましくは、SSL吸収性素材、SSL接着性素材、又は皮膚からSSLをこすり落とす器具を使用することができる。SSL吸収性素材又はSSL接着性素材としては、SSLに親和性を有する素材であれば特に限定されず、例えばポリプロピレン、パルプ等が挙げられる。皮膚からのSSLの採取手順のより詳細な例としては、あぶら取り紙、あぶら取りフィルム等のシート状素材へSSLを吸収させる方法、ガラス板、テープ等へSSLを接着させる方法、スパーテル、スクレイパー等によりSSLをこすり落として回収する方法、等が挙げられる。SSLの吸着性を向上させるため、脂溶性の高い溶媒を予め含ませたSSL吸収性素材を用いてもよい。一方、SSL吸収性素材は、水溶性の高い溶媒や水分を含んでいるとSSLの吸着が阻害されるため、水溶性の高い溶媒や水分の含有量が少ないことが好ましい。SSL吸収性素材は、乾燥した状態で用いることが好ましい。SSLが採取される皮膚の部位としては、特に限定されず、頭、顔、首、体幹、手足等の身体の任意の部位の皮膚が挙げられ、皮脂の分泌が多い部位、例えば頭又は顔の皮膚が好ましく、顔の皮膚がより好ましい。
被験者から採取されたRNA含有SSLは一定期間保存されてもよい。採取されたSSLは、含有するRNAの分解を極力抑えるために、採取後できるだけ速やかに低温条件で保存することが好ましい。該RNA含有SSLの保存の温度条件は、0℃以下であればよく、好ましくは−20±20℃〜−80±20℃、より好ましくは−20±10℃〜−80±10℃、さらに好ましくは−20±20℃〜−40±20℃、さらに好ましくは−20±10℃〜−40±10℃、さらに好ましくは−20±10℃、さらに好ましくは−20±5℃である。該RNA含有SSLの該低温条件での保存の期間は、特に限定されないが、好ましくは12か月以下、例えば6時間以上12ヶ月以下、より好ましくは6ヶ月以下、例えば1日間以上6ヶ月以下、さらに好ましくは3ヶ月以下、例えば3日間以上3ヶ月以下である。
本発明の方法において、RNAの発現情報の取得方法は特に限定されないが、例えば、試料中に含まれるRNAを逆転写によりcDNAに変換した後、該cDNA又はその増幅産物を測定することにより取得することが挙げられる。発現レベルを測定する手段としては、DNAチップ、DNAマイクロアレイ、RNA−Seq等が挙げられ、好ましくはRNA−Seqである。
RNAの発現量は、マイクロアレイ解析を用いる場合にはシグナル強度比によって定量され、RNA−seq解析ではゲノムにマッピングされたシーケンスリードの数(リードカウント値)により定量される。
本発明の方法は、RNAの発現量の情報を取得する工程を備え、RNAの発現量として、上述の定量されたシーケンスリードの数(リードカウント値)を得る工程を含み、その工程の後に、該RNAの発現量のデータをサーバー、あるいはコンピュータの記録媒体に保存し、これをコンピュータに入力し、入力されたデータに基づき、本発明のデータの処理をコンピュータにインストールしたプログラムによって実行することができる。
本発明のRNA情報のデータ処理方法では、データ解析対象試料の選抜基準となる閾値とデータ解析対象遺伝子の選抜基準となる閾値を設定することにより、解析対象RNAの発現情報が抽出され、正規化が行われる。
後述する実施例に示すように、被験者由来の試料中のRNA発現量データ(RNA−Seqによるリードカウント値)について、データ解析対象となる試料(被験者)の選抜基準とデータ解析対象となる遺伝子の選抜基準について以下の検討を行った。
データ解析対象となる試料(j)の選抜指標には、試料毎に次式で求められるTD値を使用する。TD値とは、Targets Detectedであり、遺伝子検出率(%)に相当する。
Figure 2021182386
ここで、検出対象遺伝子数の総和とは、RNAの発現解析において理論上検出可能と判断される遺伝子の総和であり、用いるRNA発現解析手法に基づき適宜決定すれば良い。後述する実施例のシーケンス方法(AmpliSeq)の場合、マルチプレックスPCRのプライマーペア数に基いて決定される。
また、検出可能な遺伝子数は、検出対象遺伝子数の総和から検出不能遺伝子数を引くことによって算出することができる。ここで、検出不能遺伝子数とは、発現がゼロ又はゼロと見做せる遺伝子の数を意味する。
一方、データ解析対象となる遺伝子(i)の選抜には、遺伝子毎に次式で求められるSD値を使用する。SD値とは、Samples Detectedであり、TD値を用いた選抜後のデータ解析対象試料のRNA発現量データの各遺伝子について、当該遺伝子由来のRNA発現が検出できた試料の割合(検出試料率)である。ここでRNA発現が検出できたとは、ゼロ又はゼロと見做せる量を越えて発現が検出できたことを意味する。
Figure 2021182386
そして、TD値が0%、20%及び30%未満の試料(被験者)を除外し、それ以外の試料(被験者)をデータ解析対象試料(被験者)として選抜し、続いてSD値が70%、80%、90%及び100%未満の遺伝子を除外し、それ以外の遺伝子をデータ解析対象遺伝子として選抜し、それら遺伝子に関して抽出されたRNA発現量データについて、DESeq2(Love MI et al. Genome Biol. 2014)により正規化処理し、正規分布への近似の程度を検証した。その結果、TD値が0%、20%未満又は30%未満の試料を除外し、SD値が80%未満、90%未満又は100%未満の遺伝子を除外することによって、DESeq2による正規化において正規分布へより近似できる可能性が示された。
しかしながら、この場合において、解析対象試料数は、TD値が20%未満の試料を除外した場合には解析可能な試料が8割程度確保できる一方、TD値が30%未満の試料を除外した場合には6割程度まで減少することが示された。また解析対象遺伝子数は、SD値が90%未満の遺伝子を除外した場合には解析可能な遺伝子が2割弱あったが、SD値が100%未満の遺伝子を除外した場合には数%まで減少することが示された。
したがって、本発明では、発現量がゼロ又はゼロと見做せるRNAを検出不能と判断して検出可能なRNAの数をカウントし、各試料について検出対象RNAの総数に対する検出可能なRNAの比率1(TD値)を求め(工程a)、当該比率1が5〜29%の範囲内で設定される閾値未満である試料を除外し、解析対象試料を選択した上で(工程b)、前記選択された試料について、検出対象RNA毎に、RNAの発現量がゼロ又はゼロと見做せる発現量より多い試料の数の全解析対象試料数に対する比率2(SD値)を求め(工程c)、当該比率2が81〜99%の範囲内で設定される閾値未満のRNAを除外して、それ以外のRNAを解析対象としてその発現情報を抽出する(工程d)ことにより、その後の正規化処理において効果的な正規化が可能となると云える。
工程aにおいて、発現量がゼロ又はゼロと見做せるRNAとしては、測定手段により適宜決定できるが、例えば、RNA−seq解析においては、リードカウント値が20未満、好ましくは15未満、より好ましくは10未満であるRNAが挙げられる。
工程bの解析対象試料の選択において、検出対象RNAの総数に対する検出可能なRNAの比率1の閾値は、効果的な正規化の観点から5%以上に設定するが、好ましくは10%以上、より好ましくは15%以上、さらに好ましくは18%以上である。一方、比率1の閾値は、正規化後の解析における解析対象試料数を担保する点から29%以下に設定するが、好ましくは27%以下、より好ましくは25%以下、さらに好ましくは23%以下である。また、比率1の閾値は5〜29%の範囲内で適宜設定されるが、好ましくは10〜27%の範囲内、より好ましくは15%〜25%の範囲内、さらに好ましくは18〜23%の範囲内で設定される。比率1の閾値は20%とするのが殊更好ましい。
工程cでは、検出対象RNA毎に、全解析対象試料数に対する、発現量がゼロ又はゼロと見做せる発現量より多い試料の数の比率2(SD値)を算出する。ここで、ゼロと見做せる発現量とは、例えばRNA−seq解析においては、リードカウント値が5未満、好ましくは3未満、より好ましくは1未満であることを意味する。本発明では、比率2(SD値)として、全解析対象試料数に対する、発現量がゼロより多い試料の数(RNA−seq解析においては、リードカウント値が0より多い試料の数)の比率を用いるのが好ましい。
また、工程dの解析対象RNAの選択において、RNAの発現量がゼロ又はゼロと見做せる発現量より多い試料の数の全試料数に対する比率2の閾値は、効果的な正規化の観点から81%以上に設定するが、好ましくは84%以上、より好ましくは87%以上である。一方、比率2の閾値は、正規化後の解析における解析対象遺伝子数を担保する点から99%以下に設定するが、好ましくは96%以下、より好ましくは93%以下である。また、比率2の閾値は81〜99%の範囲内で適宜設定されるが、好ましくは84〜96%の範囲内、より好ましくは87〜93%の範囲内で設定される。比率2の閾値は90%とするのが殊更好ましい。
工程bの比率1の閾値が低い時は工程dの比率2の閾値を高くするのが効率的な正規化のためには望ましい。工程dの比率2の閾値が低い時は工程bの比率1の閾値を高くするのが効率的な正規化のためには望ましい。
斯くして、抽出された解析対象RNAの発現情報の総数に対して正規化を行うことにより、正規分布に近似した効果的なRNA発現値の補正が可能となる。
この場合に用いられる正規化法は特に制限はなく、例えば前述したRPM法、RLE法の他、FPKM(fragments per kilobase of exon per million reads mapped)法、RPKM(reads per
kilobase of exon per million reads mapped)、TPM(transcripts per million)法、TMM(Trimmed mean of M values)法等が採用できるが、RLE法が好適に用いられる。RLE法はDESeq2と呼ばれる一連の遺伝子発現量解析を行うための解析手法に実装されている。
上記のRNA発現情報について解析を行うためのデータ処理方法及び補正方法は、コンピュータ(計算装置)を用いて行うことができる。すなわち、本発明は、上記の方法を実行するための計算装置や、該コンピュータに上記の方法を実行させるためのプログラム及び該プログラムが記録された、コンピュータが読み取り可能な情報記録媒体を提供することができる。さらに、本発明は、上記のデータ処理方法により得られたRNA解析用のデータセットを提供することができる。また、本発明は、上記のデータ処理に用いる、比率1、比率2、又は閾値などの情報を、入力してデータ処理を行うことも可能であり、又は計算によって妥当な比率1、比率2、閾値を選択することもできる。
本発明の計算装置は、被験者から採取された試料から得られたRNA発現情報をインプットするための手段を有し、本発明のデータ処理方法及び補正方法を実行させるためのプログラムに従って、上記の解析対象試料の選択工程、解析対象遺伝子の選択工程、解析対象遺伝子のRNA発現情報の抽出工程及び該RNA発現情報の正規化の工程から選択される1つ以上の工程を含む。
本発明のデータ処理方法及び補正方法を実行されるためのプログラムが記録される、コンピュータが読み取り可能な情報記録媒体としては、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどが挙げられる。なお本発明において、コンピュータが読み取り可能とは、電気通信回線などを介して配信される場合も含むものとする。
本発明の態様及び好ましい実施態様を以下に示す。
<1>複数の被験者から採取された分泌物を生体試料とし、そこから得られるRNA発現情報について解析を行うためのデータ処理方法であって、以下のa)〜d)の工程を備える方法。
a)検出対象RNAのうち、発現量がゼロ又はゼロと見做せるRNAを検出不能と判断して検出可能なRNA数をカウントし、各試料について検出対象RNAの総数に対する検出可能なRNA数の比率1(TD値)を求める工程
b)試料のうち、比率1が5〜29%の範囲内で設定される閾値未満である試料を除外し、解析対象試料を選択する工程
c)前記選択された解析対象試料のRNA発現情報に基づいて、検出対象RNA毎に、その発現量がゼロ又はゼロと見做せる発現量より多い試料の数の全解析対象試料数に対する比率2(SD値)を求める工程
d)検出対象RNAのうち、比率2が81〜99%の範囲内で設定される閾値未満のRNAを除外し、それ以外のRNAを解析対象としてその発現情報を抽出する工程
<2>分泌物が皮膚表上脂質である、<1>の方法。
<3>工程a)のRNAの発現量の情報がRNA−Seqによるリードカウント値である、<1>又は<2>の方法。
<4>工程a)の発現量がゼロ又はゼロと見做せるRNAがRNA−seqによるリードカウント値が20未満、好ましくは15未満、より好ましくは10未満のRNAである、<1>〜<3>のいずれかの方法。
<5>工程b)において、比率1の閾値を、好ましくは10%以上、より好ましくは15%以上、さらに好ましくは18%以上で、且つ好ましくは27%以下、より好ましくは25%以下、さらに好ましくは23%以下に設定するか、或いは好ましくは10〜27%の範囲内、より好ましくは15%〜25%の範囲内、さらに好ましくは18〜23%の範囲内に設定する、<1>〜<4>のいずれかの方法。
<6>工程b)において、比率1の閾値を20%に設定する、<1>〜<4>のいずれかの方法。
<7>工程c)の発現量がゼロと見做せる発現量が、RNA−seqにおけるリードカウント値が5未満、好ましくは3未満、より好ましくは1未満である、<1>〜<6>のいずれかの方法。
<8>工程c)の発現量がゼロ又はゼロと見做せる発現量より多い試料が、RNA−seqにおけるリードカウント値が0より多い試料である、<1>〜<6>のいずれかの方法。
<9>工程d)において、比率2の閾値を、好ましくは84%以上、より好ましくは87%以上で、且つ好ましくは96%以下、より好ましくは93%以下に設定するか、或いは好ましくは84〜96%の範囲内、より好ましくは87〜93%の範囲内に設定する、<1>〜<8>のいずれかの方法。
<10>工程d)において、比率2の閾値を90%に設定する、<1>〜<8>のいずれかの方法。
<11><1>〜<10>のいずれかの方法により抽出されたRNAの発現情報の総数に対して正規化を行う、RNA発現値の補正方法。
<12>RLE法によって正規化を行う、<11>の方法。
<13><1>〜<12>のいずれかのRNA発現情報について解析を行うためのデータ処理方法又は補正方法を実行するためのプログラム。
<14><13>のプログラムを記録したことを特徴とする情報記録媒体。
<15><13>のプログラムにより実行される解析対象試料の選択工程、解析対象遺伝子の選択工程、解析対象遺伝子のRNA発現情報の抽出工程及び解析対象遺伝子のRNA情報の正規化の計算工程から選択される1つ以上の工程を含む、計算装置。
<16><1>〜<12>のいずれかのRNA発現情報について解析を行うためのデータ処理方法又は補正方法により得られたRNA解析用データセット。
以下、実施例に基づき本発明をさらに詳細に説明するが、本発明はこれに限定されるものではない。
実施例1 SSLから抽出されたRNA発現データの正規化
1)SSL採取
健常者(20〜59歳女性)42名の全顔からあぶら取りフィルムを用いて皮脂を回収後、該あぶら取りフィルムをバイアルに移し、RNA抽出に使用するまで−80℃で、約1ヶ月間保存した。
2)RNA調製及びシーケンシング
上記1)のあぶら取りフィルムを適当な大きさに切断し、QIAzol Lysis Reagent(Qiagen)を用いて、付属のプロトコルに準じてRNAを抽出した。抽出されたRNAを元に、SuperScript VILO cDNA Synthesis kit(ライフテクノロジーズジャパン株式会社)を用いて42℃、90分間逆転写を行いcDNAの合成を行った。逆転写反応のプライマーには、キットに付属しているランダムプライマーを使用した。得られたcDNAから、マルチプレックスPCRにより20802遺伝子に由来するDNAを含むライブラリーを調製した。マルチプレックスPCRは、Ion AmpliSeqTranscriptome Human Gene Expression Kit(ライフテクノロジーズジャパン株式会社)を用いて、[99℃、2分→(99℃、15秒→62℃、16分)×20サイクル→4℃、Hold]の条件で行った。得られたPCR産物は、Ampure XP(ベックマン・コールター株式会社)で精製した後に、バッファーの再構成、プライマー配列の消化、アダプターライゲーションと精製、増幅を行い、ライブラリーを調製した。調製したライブラリーをIon 540 Chipにローディングし、Ion S5/XLシステム(ライフテクノロジーズジャパン株式会社)を用いてシーケンシングした。
3)データ解析
上記2)で測定した被験者由来のRNA発現量データ(リードカウント値)において、データ解析対象被験者の選抜基準とデータ解析対象遺伝子の選抜基準を検討した。データ解析対象被験者の選抜基準として、Torrent Suite(ライフテクノロジーズジャパン株式会社)において算出されるTargets Detected(TD)の値を用い、被験者毎に算出されるTDの閾値を0、20及び30%に設定し、閾値未満の被験者を解析対象から除外し、それ以外の被験者をデータ解析対象被験者として選抜した。データ解析対象遺伝子の抽出基準として、TDを用いたデータ解析対象被験者選抜後のRNA発現量データの各遺伝子について、リードカウント値が0を超えた被験者のパーセンテージ(Samples Detected,SD)を用い、検出対象遺伝子毎に算出されるSDの閾値を70、80、90及び100%に設定し、閾値未満の遺伝子を解析対象から除外し、それ以外の遺伝子をデータ解析対象遺伝子として選抜した。データ解析対象被験者を選抜し、続いて選抜されたデータ解析対象遺伝子の発現情報を抽出後、DESeq2という手法を用いて正規化されたリードカウント値(normalized count値)に整数1を加算した底2の対数値(Log2(normalized count+1)値)を算出した。図1に各被験者におけるLog2(normalized
count+1)値のボックスプロットを示す。
ここで、被験者j(j=1〜nの整数、nは被験者数)におけるTDj、遺伝子i(i=1〜mの整数、mは検出対象遺伝子数)におけるSDiの値は以下の様に算定した。
Figure 2021182386
4)最適な選抜基準の設定
上記3)で算出されたLog2(normalized count+1)値について、中央値の分散を算出した結果、TD値あるいはSD値の閾値の増加に伴って中央値の分散が0.1以下に減少した(表1、太字)。またTD値及びSD値の閾値の増加に伴う相乗的な中央値の分散の減少も確認された。よって、TD値とSD値を用いたデータ解析対象被験者とデータ解析対象遺伝子の選抜によって、DESeq2による正規化後の各被験者の中央値を揃えることが可能であることが示された。しかしながら、TD値が20%未満の被験者を除外した場合には、解析可能な被験者が約83%に減少する一方、TD値が30%未満の被験者を除外した場合には、解析可能な被験者が約64%まで減少する(表2)。正規化後の解析における解析対象被験者数を担保する必要があることから、TD値20%をデータ解析対象被験者の選抜における閾値として設定することが好適であることが示された(表2、太字)。また、SD値が90%未満の遺伝子を除外した場合には解析可能な遺伝子が約16%である一方、SD値が100%未満の遺伝子を除外した場合には解析可能な遺伝子が2%や6%まで減少する(表3)。正規化後の解析における解析対象遺伝子数を担保する必要があることから、SD値90%をデータ解析対象遺伝子の選抜における閾値として設定することが好適であることが示された(表3、太字)。
Figure 2021182386
Figure 2021182386
Figure 2021182386

Claims (12)

  1. 複数の被験者から採取された分泌物を生体試料とし、そこから得られるRNA発現情報について解析を行うためのデータ処理方法であって、以下のa)〜d)の工程を備える方法。
    a)検出対象RNAのうち、発現量がゼロ又はゼロと見做せるRNAを検出不能と判断して検出可能なRNA数をカウントし、各試料について検出対象RNAの総数に対する検出可能なRNA数の比率1(TD値)を求める工程
    b)試料のうち、比率1が5〜29%の範囲内で設定される閾値未満である試料を除外し、解析対象試料を選択する工程
    c)前記選択された解析対象試料のRNA発現情報に基づいて、検出対象RNA毎に、その発現量がゼロ又はゼロと見做せる発現量より多い試料の数の全解析対象試料数に対する比率2(SD値)を求める工程
    d)検出対象RNAのうち、比率2が81〜99%の範囲内で設定される閾値未満のRNAを除外し、それ以外のRNAを解析対象としてその発現情報を抽出する工程
  2. 分泌物が皮膚表上脂質である、請求項1記載の方法。
  3. 工程a)のRNAの発現量の情報がRNA−Seqによるリードカウント値である、請求項1又は2記載の方法。
  4. 工程a)の発現量がゼロ又はゼロと見做せるRNAがRNA−seqによるリードカウント値が10未満のRNAである、請求項1〜3のいずれか1項記載の方法。
  5. 工程b)において、比率1の閾値を20%に設定する、請求項1〜4のいずれか1項記載の方法。
  6. 工程c)の発現量がゼロ又はゼロと見做せる発現量より多い試料が、RNA−seqにおけるリードカウント値が0より多い試料である、請求項1〜5のいずれか1項記載の方法。
  7. 工程d)において、比率2の閾値を90%に設定する、請求項1〜6のいずれか1項記載の方法。
  8. 請求項1〜7のいずれか1項記載の方法により抽出されたRNAの発現情報の総数に対して正規化を行う、RNA発現値の補正方法。
  9. 請求項1〜8のいずれか1項記載の、RNA発現情報について解析を行うためのデータ処理方法又は補正方法を実行するためのプログラム。
  10. 請求項9記載のプログラムを記録したことを特徴とする情報記録媒体。
  11. 請求項9記載のプログラムにより実行される解析対象試料の選択工程、解析対象遺伝子の選択工程、解析対象遺伝子のRNA発現情報の抽出工程及び解析対象遺伝子のRNA情報の正規化の計算工程から選択される少なくとも1つ以上の工程を含む、計算装置。
  12. 請求項1〜8のいずれか1項記載の、RNA発現情報について解析を行うためのデータ処理方法により得られたRNA解析用データセット。
JP2021082826A 2020-05-14 2021-05-14 Rna情報のデータ処理方法 Pending JP2021182386A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020085433 2020-05-14
JP2020085433 2020-05-14

Publications (1)

Publication Number Publication Date
JP2021182386A true JP2021182386A (ja) 2021-11-25

Family

ID=78525196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021082826A Pending JP2021182386A (ja) 2020-05-14 2021-05-14 Rna情報のデータ処理方法

Country Status (5)

Country Link
US (1) US20230197195A1 (ja)
EP (1) EP4151728A4 (ja)
JP (1) JP2021182386A (ja)
CN (1) CN115605613A (ja)
WO (1) WO2021230380A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3719138B1 (en) 2016-07-08 2022-09-21 Kao Corporation Method for preparing nucleic acid sample
CN111051535A (zh) * 2017-06-13 2020-04-21 英国肿瘤有限公司 用于测定患有增生疾病的患者对使用靶向pd1/pd-l1路径的组分的药剂的治疗的敏感性的方法
JP2020074769A (ja) * 2018-11-01 2020-05-21 花王株式会社 被験体の皮膚細胞に由来する核酸の調製方法

Also Published As

Publication number Publication date
EP4151728A4 (en) 2024-06-05
US20230197195A1 (en) 2023-06-22
EP4151728A1 (en) 2023-03-22
CN115605613A (zh) 2023-01-13
WO2021230380A1 (ja) 2021-11-18

Similar Documents

Publication Publication Date Title
JP7323671B2 (ja) 核酸試料の調製方法
JP5311439B2 (ja) 皮膚の状態を評価する方法及びその用途
WO2013086522A1 (en) Methods and compositions for sample identification
Benson et al. An analysis of select pathogenic messages in lesional and non-lesional psoriatic skin using non-invasive tape harvesting
Elston et al. A comparison of vertical versus transverse sections in the evaluation of alopecia biopsy specimens
Ronald Moy et al. An adhesive patch-based skin biopsy device for molecular diagnostics and skin microbiome studies
JP6419654B2 (ja) 発毛の状態及び頭皮の圧縮応力の評価方法
JP5653783B2 (ja) 皮膚表皮内水分保持能評価法
WO2021230380A1 (ja) Rna情報のデータ処理方法
JP7400157B2 (ja) 角層のターンオーバー遅延を評価する方法
JP5653673B2 (ja) 皮膚血管機能評価法
JP6530646B2 (ja) 頭皮の圧縮応力の評価方法
WO2021215531A1 (ja) 月経周期マーカー
JP2022097301A (ja) ストレスマーカー及びそれを用いた慢性ストレスレベルの検出方法
JP7082354B2 (ja) 体毛試料からのポリヌクレオチドサンプルの調製方法、rnaの発現解析方法、dnaの解析方法、体毛試料の保管試薬及び体毛試料の採取キット
CN113481294B (zh) 核酸样品的制备方法
JP2023069413A (ja) 被膜の皮膚保湿効果の評価方法
JP2022097303A (ja) 疲労マーカー及びそれを用いた疲労の検出方法
JP2023069499A (ja) 乾燥による皮膚表面形状悪化の検出方法
JP2023075830A (ja) 皮膚外用製剤の有効性の評価方法
JP2022174645A (ja) 生物学的年齢の予測方法
JP2023136284A (ja) 皮脂rna情報のデータ均質化方法
JP2022097302A (ja) 睡眠状態マーカー及びそれを用いた睡眠状態の検出方法
CN1414007A (zh) 一种利用胶带获取人体dna的方法
JP2021175395A (ja) 月経前症候群の重症度検出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240326