JP2021182386A

JP2021182386A - Ｒｎａ情報のデータ処理方法

Info

Publication number: JP2021182386A
Application number: JP2021082826A
Authority: JP
Inventors: 裕也上原; Yuya Uehara; 琴美矢島; Kotomi Yajima; 高良井上; Takayoshi Inoue; 直樹大矢; Naoki Oya
Original assignee: Kao Corp
Current assignee: Kao Corp
Priority date: 2020-05-14
Filing date: 2021-05-14
Publication date: 2021-11-25
Also published as: EP4151728A4; US20230197195A1; EP4151728A1; CN115605613A; WO2021230380A1

Abstract

【課題】被験者由来の分泌物から得られるＲＮＡ情報を解析する場合において、効果的な正規化処理を行うためのＲＮＡ情報のデータ処理を提供する。【解決手段】複数の被験者から採取された分泌物を生体試料とし、そこから得られるＲＮＡ発現情報について解析を行うためのデータ処理方法であって、以下のａ）〜ｄ）の工程を備える方法。ａ）検出対象ＲＮＡのうち、発現量がゼロ又はゼロと見做せるＲＮＡを検出不能と判断して検出可能なＲＮＡの数をカウントし、各試料について検出対象ＲＮＡの総数に対する検出可能なＲＮＡの比率１（ＴＤ値）を求める工程ｂ）試料のうち、比率１が５〜２９％の範囲内で設定される閾値未満である試料を除外し、解析対象試料を選択する工程ｃ）前記選択された解析対象試料のＲＮＡ発現情報に基づいて、検出対象ＲＮＡ毎に、その発現量がゼロ又はゼロと見做せる発現量より多い試料の数の全解析対象試料数に対する比率２（ＳＤ値）を求める工程ｄ）検出対象ＲＮＡのうち、比率２が８１〜９９％の範囲内で設定される閾値未満のＲＮＡを除外し、それ以外のＲＮＡを解析対象としてその発現情報を抽出する工程【選択図】なし

Description

本発明は、ヒト由来の分泌物中のＲＮＡ情報のデータ処理方法に関する。

近年、生体試料中のＤＮＡやＲＮＡ等の核酸の解析によりヒトの生体内の現在さらには将来の生理状態を調べる技術が開発されている。核酸を用いた解析は、網羅的な解析方法が確立されており一度の解析で豊富な情報を得られる、及び一塩基多形やＲＮＡ機能等に関する多くの研究報告に基づいて解析結果の機能的な紐付けが容易であるといった利点を有する。生体由来の核酸は、血液等の体液、分泌物、組織等から抽出することができるが、最近、皮膚表上脂質（ｓｋｉｎｓｕｒｆａｃｅｌｉｐｉｄｓ；ＳＳＬ）に含まれるＲＮＡを生体の解析用の試料として用いること、ＳＳＬから表皮、汗腺、毛包及び皮脂腺のマーカー遺伝子が検出できることが報告されている（特許文献１）。

細胞中に発現しているＲＮＡ配列を直接定量するＲＮＡシーケンス（ＲＮＡ−Ｓｅｑ）解析は、シグナル強度比を使うマイクロアレイでは定量が難しかった低発現遺伝子の検出を可能とし、高精度な発現プロファイルを取得できることから現在注目されている解析法である。遺伝子発現解析においては、試料中の特定のＲＮＡの濃度及び／または相対的もしくは絶対的な量が決定され、特定のＲＮＡが定量化（定量）されるが、この場合には、精度が高く、再現性がある方法が望まれる。しかしながら、異なる個体から採取された生物試料においては、生物試料や解析過程に依存的な発現量プロファイルの偏りが生じることがあるため、特定のＲＮＡの数量を必ずしも直接比較できるとは限らない。そこで、２つ以上の異なる個体に由来する生物試料において特定のＲＮＡの数量を良好に比較するために、試料間でのＲＮＡの数量について正規化が実施されている。

ＲＮＡ−ｓｅｑ解析では、遺伝子の発現量の定量にゲノムにマッピングされたシーケンスリードの数が使用される。したがって、正規化には、総リード数を使った補正法であるＲＰＭ；ＲｅａｄｓＰｅｒＭｉｌｌｉｏｎｒｅａｄｓｍａｐｐｅｄ（非特許文献１）やＲＬＥ；ＲｅｌａｔｉｖｅＬｏｇＥｘｐｒｅｓｓｉｏｎ（非特許文献２）等が使われている。ＲＬＥによる正規化はＤＥＳｅｑ２と呼ばれる一連の遺伝子発現量解析を行うための解析手法に実装されている。

国際公開公報第２０１８／００８３１９号

情報処理学会研究報告, Ｖｏｌ．２０１３−ＢＩＯ−３３（９）：１−３ＧｅｎｏｍｅＢｉｏｌ，２０１４，１５（１２）：５５０

しかしながら、皮脂や唾液のような分泌物から採取されるＲＮＡ、特にＳＳＬから採取されるＲＮＡの情報は、欠損値が多く、バラツキが多いため、他のＲＮＡの情報と同じデータ処理をすると、その後に機械学習等の統計処理を行ったとしても、精度、再現性において課題を生じる場合がある。
本発明は、被験者由来の分泌物を生体試料とし、そこから得られるＲＮＡ情報を解析する場合において、効果的な正規化処理を行うためのＲＮＡ情報のデータ処理方法を提供することに関する。

本発明者らは、ＳＳＬ中に含まれるＲＮＡの発現状態をシーケンス情報とし、各種統計学的手法に利用するための発現値の正規化を行う際の使用データについて検討した結果、データ解析対象試料の選抜基準となる閾値とデータ解析対象遺伝子の選抜基準となる閾値を特定範囲に設定してＲＮＡ情報を抽出することにより、効果的な正規化処理が可能となることを見出した。

本発明は、以下の１）〜３）に係るものである。
１）複数の被験者から採取された分泌物を生体試料とし、そこから得られるＲＮＡ発現情報について解析を行うためのデータ処理方法であって、以下のａ）〜ｄ）の工程を備える方法。
ａ）検出対象ＲＮＡのうち、発現量がゼロ又はゼロと見做せるＲＮＡを検出不能と判断して検出可能なＲＮＡ数をカウントし、各試料について検出対象ＲＮＡの総数に対する検出可能なＲＮＡ数の比率１（ＴＤ値）を求める工程
ｂ）試料のうち、比率１が５〜２９％の範囲内で設定される閾値未満である試料を除外し、解析対象試料を選択する工程
ｃ）前記選択された解析対象試料のＲＮＡ発現情報に基づいて、検出対象ＲＮＡ毎に、その発現量がゼロ又はゼロと見做せる発現量より多い試料の数の全解析対象試料数に対する比率２（ＳＤ値）を求める工程
ｄ）検出対象ＲＮＡのうち、比率２が８１〜９９％の範囲内で設定される閾値未満のＲＮＡを除外し、それ以外のＲＮＡを解析対象としてその発現情報を抽出する工程
２）１）の方法により抽出されたＲＮＡ発現情報の総数に対して正規化を行う、ＲＮＡ発現値の補正方法。
３）１）のデータ処理方法又は２）の補正方法を実行するためのプログラム、該プログラムが記録された情報記録媒体、該プログラムを実行する計算装置、並びに該データ処理方法若しくは補正方法により得られたＲＮＡ解析用データセット。

本発明によれば、ＲＮＡ発現情報に欠損値やバラツキが多い生体試料において、複数のサンプルに由来するＲＮＡ発現プロファイルを比較する場合に、効果的な正規化処理が可能となり、ＲＮＡ情報に基づき精度が高く、再現性が高い統計解析が可能となる。

各被験者におけるＬｏｇ_２（ｎｏｒｍａｌｉｚｅｄｃｏｕｎｔ＋１）値のボックスプロット。

本発明の方法において、解析対象となる「ＲＮＡ」としては、生体に由来するＲＮＡであればよく、ｔｏｔａｌＲＮＡ、ｍＲＮＡ、ｒＲＮＡ、ｔＲＮＡ、ｎｏｎ-ｃｏｄｉｎｇＲＮＡのいずれでもよいが、好ましくはｍＲＮＡである。

本発明の方法において用いられる生体試料は、被験者由来の分泌物であり、具体的には皮脂、唾液、鼻水、涙、汗、尿、精液、膣液、羊水、乳汁、糞便等を含む試料が挙げられる。このうち、本発明の方法は、ＲＮＡ情報の欠損が多く、バラツキが多い皮膚表上脂質（ＳＳＬ）について適用するのが効果的である。
「皮膚表上脂質（ＳＳＬ）」とは、皮膚の表上に存在する脂溶性画分をいい、皮脂と呼ばれることもある。一般に、ＳＳＬは、皮膚にある皮脂腺等の外分泌腺から分泌された分泌物を主に含み、皮膚表面を覆う薄い層の形で皮膚表上に存在している。ＳＳＬは、皮膚細胞で発現したＲＮＡを含む。ここで、「皮膚」とは、特に限定しない限り、角層、表皮、真皮、毛包、ならびに汗腺、皮脂腺及びその他の腺等の組織を含む領域の総称である。

被験者の皮膚からのＳＳＬの採取には、皮膚からのＳＳＬの回収又は除去に用いられているあらゆる手段を採用することができる。好ましくは、ＳＳＬ吸収性素材、ＳＳＬ接着性素材、又は皮膚からＳＳＬをこすり落とす器具を使用することができる。ＳＳＬ吸収性素材又はＳＳＬ接着性素材としては、ＳＳＬに親和性を有する素材であれば特に限定されず、例えばポリプロピレン、パルプ等が挙げられる。皮膚からのＳＳＬの採取手順のより詳細な例としては、あぶら取り紙、あぶら取りフィルム等のシート状素材へＳＳＬを吸収させる方法、ガラス板、テープ等へＳＳＬを接着させる方法、スパーテル、スクレイパー等によりＳＳＬをこすり落として回収する方法、等が挙げられる。ＳＳＬの吸着性を向上させるため、脂溶性の高い溶媒を予め含ませたＳＳＬ吸収性素材を用いてもよい。一方、ＳＳＬ吸収性素材は、水溶性の高い溶媒や水分を含んでいるとＳＳＬの吸着が阻害されるため、水溶性の高い溶媒や水分の含有量が少ないことが好ましい。ＳＳＬ吸収性素材は、乾燥した状態で用いることが好ましい。ＳＳＬが採取される皮膚の部位としては、特に限定されず、頭、顔、首、体幹、手足等の身体の任意の部位の皮膚が挙げられ、皮脂の分泌が多い部位、例えば頭又は顔の皮膚が好ましく、顔の皮膚がより好ましい。

被験者から採取されたＲＮＡ含有ＳＳＬは一定期間保存されてもよい。採取されたＳＳＬは、含有するＲＮＡの分解を極力抑えるために、採取後できるだけ速やかに低温条件で保存することが好ましい。該ＲＮＡ含有ＳＳＬの保存の温度条件は、０℃以下であればよく、好ましくは−２０±２０℃〜−８０±２０℃、より好ましくは−２０±１０℃〜−８０±１０℃、さらに好ましくは−２０±２０℃〜−４０±２０℃、さらに好ましくは−２０±１０℃〜−４０±１０℃、さらに好ましくは−２０±１０℃、さらに好ましくは−２０±５℃である。該ＲＮＡ含有ＳＳＬの該低温条件での保存の期間は、特に限定されないが、好ましくは１２か月以下、例えば６時間以上１２ヶ月以下、より好ましくは６ヶ月以下、例えば１日間以上６ヶ月以下、さらに好ましくは３ヶ月以下、例えば３日間以上３ヶ月以下である。

本発明の方法において、ＲＮＡの発現情報の取得方法は特に限定されないが、例えば、試料中に含まれるＲＮＡを逆転写によりｃＤＮＡに変換した後、該ｃＤＮＡ又はその増幅産物を測定することにより取得することが挙げられる。発現レベルを測定する手段としては、ＤＮＡチップ、ＤＮＡマイクロアレイ、ＲＮＡ−Ｓｅｑ等が挙げられ、好ましくはＲＮＡ−Ｓｅｑである。
ＲＮＡの発現量は、マイクロアレイ解析を用いる場合にはシグナル強度比によって定量され、ＲＮＡ−ｓｅｑ解析ではゲノムにマッピングされたシーケンスリードの数（リードカウント値）により定量される。

本発明の方法は、ＲＮＡの発現量の情報を取得する工程を備え、ＲＮＡの発現量として、上述の定量されたシーケンスリードの数（リードカウント値）を得る工程を含み、その工程の後に、該ＲＮＡの発現量のデータをサーバー、あるいはコンピュータの記録媒体に保存し、これをコンピュータに入力し、入力されたデータに基づき、本発明のデータの処理をコンピュータにインストールしたプログラムによって実行することができる。

本発明のＲＮＡ情報のデータ処理方法では、データ解析対象試料の選抜基準となる閾値とデータ解析対象遺伝子の選抜基準となる閾値を設定することにより、解析対象ＲＮＡの発現情報が抽出され、正規化が行われる。
後述する実施例に示すように、被験者由来の試料中のＲＮＡ発現量データ（ＲＮＡ−Ｓｅｑによるリードカウント値）について、データ解析対象となる試料（被験者）の選抜基準とデータ解析対象となる遺伝子の選抜基準について以下の検討を行った。
データ解析対象となる試料（ｊ）の選抜指標には、試料毎に次式で求められるＴＤ_ｊ値を使用する。ＴＤ値とは、ＴａｒｇｅｔｓＤｅｔｅｃｔｅｄであり、遺伝子検出率（％）に相当する。

ここで、検出対象遺伝子数の総和とは、ＲＮＡの発現解析において理論上検出可能と判断される遺伝子の総和であり、用いるＲＮＡ発現解析手法に基づき適宜決定すれば良い。後述する実施例のシーケンス方法（ＡｍｐｌｉＳｅｑ）の場合、マルチプレックスＰＣＲのプライマーペア数に基いて決定される。
また、検出可能な遺伝子数は、検出対象遺伝子数の総和から検出不能遺伝子数を引くことによって算出することができる。ここで、検出不能遺伝子数とは、発現がゼロ又はゼロと見做せる遺伝子の数を意味する。

一方、データ解析対象となる遺伝子（ｉ）の選抜には、遺伝子毎に次式で求められるＳＤ_ｉ値を使用する。ＳＤ値とは、ＳａｍｐｌｅｓＤｅｔｅｃｔｅｄであり、ＴＤ値を用いた選抜後のデータ解析対象試料のＲＮＡ発現量データの各遺伝子について、当該遺伝子由来のＲＮＡ発現が検出できた試料の割合（検出試料率）である。ここでＲＮＡ発現が検出できたとは、ゼロ又はゼロと見做せる量を越えて発現が検出できたことを意味する。

そして、ＴＤ_ｊ値が０％、２０％及び３０％未満の試料（被験者）を除外し、それ以外の試料（被験者）をデータ解析対象試料（被験者）として選抜し、続いてＳＤ_ｉ値が７０％、８０％、９０％及び１００％未満の遺伝子を除外し、それ以外の遺伝子をデータ解析対象遺伝子として選抜し、それら遺伝子に関して抽出されたＲＮＡ発現量データについて、ＤＥＳｅｑ２（Love MI et al. Genome Biol. 2014）により正規化処理し、正規分布への近似の程度を検証した。その結果、ＴＤ値が０％、２０％未満又は３０％未満の試料を除外し、ＳＤ値が８０％未満、９０％未満又は１００％未満の遺伝子を除外することによって、ＤＥＳｅｑ２による正規化において正規分布へより近似できる可能性が示された。
しかしながら、この場合において、解析対象試料数は、ＴＤ値が２０％未満の試料を除外した場合には解析可能な試料が８割程度確保できる一方、ＴＤ値が３０％未満の試料を除外した場合には６割程度まで減少することが示された。また解析対象遺伝子数は、ＳＤ値が９０％未満の遺伝子を除外した場合には解析可能な遺伝子が２割弱あったが、ＳＤ値が１００％未満の遺伝子を除外した場合には数％まで減少することが示された。

したがって、本発明では、発現量がゼロ又はゼロと見做せるＲＮＡを検出不能と判断して検出可能なＲＮＡの数をカウントし、各試料について検出対象ＲＮＡの総数に対する検出可能なＲＮＡの比率１（ＴＤ値）を求め（工程ａ）、当該比率１が５〜２９％の範囲内で設定される閾値未満である試料を除外し、解析対象試料を選択した上で（工程ｂ）、前記選択された試料について、検出対象ＲＮＡ毎に、ＲＮＡの発現量がゼロ又はゼロと見做せる発現量より多い試料の数の全解析対象試料数に対する比率２（ＳＤ値）を求め（工程ｃ）、当該比率２が８１〜９９％の範囲内で設定される閾値未満のＲＮＡを除外して、それ以外のＲＮＡを解析対象としてその発現情報を抽出する（工程ｄ）ことにより、その後の正規化処理において効果的な正規化が可能となると云える。

工程ａにおいて、発現量がゼロ又はゼロと見做せるＲＮＡとしては、測定手段により適宜決定できるが、例えば、ＲＮＡ−ｓｅｑ解析においては、リードカウント値が２０未満、好ましくは１５未満、より好ましくは１０未満であるＲＮＡが挙げられる。

工程ｂの解析対象試料の選択において、検出対象ＲＮＡの総数に対する検出可能なＲＮＡの比率１の閾値は、効果的な正規化の観点から５％以上に設定するが、好ましくは１０％以上、より好ましくは１５％以上、さらに好ましくは１８％以上である。一方、比率１の閾値は、正規化後の解析における解析対象試料数を担保する点から２９％以下に設定するが、好ましくは２７％以下、より好ましくは２５％以下、さらに好ましくは２３％以下である。また、比率１の閾値は５〜２９％の範囲内で適宜設定されるが、好ましくは１０〜２７％の範囲内、より好ましくは１５％〜２５％の範囲内、さらに好ましくは１８〜２３％の範囲内で設定される。比率１の閾値は２０％とするのが殊更好ましい。

工程ｃでは、検出対象ＲＮＡ毎に、全解析対象試料数に対する、発現量がゼロ又はゼロと見做せる発現量より多い試料の数の比率２（ＳＤ値）を算出する。ここで、ゼロと見做せる発現量とは、例えばＲＮＡ−ｓｅｑ解析においては、リードカウント値が５未満、好ましくは３未満、より好ましくは１未満であることを意味する。本発明では、比率２（ＳＤ値）として、全解析対象試料数に対する、発現量がゼロより多い試料の数（ＲＮＡ−ｓｅｑ解析においては、リードカウント値が０より多い試料の数）の比率を用いるのが好ましい。

また、工程ｄの解析対象ＲＮＡの選択において、ＲＮＡの発現量がゼロ又はゼロと見做せる発現量より多い試料の数の全試料数に対する比率２の閾値は、効果的な正規化の観点から８１％以上に設定するが、好ましくは８４％以上、より好ましくは８７％以上である。一方、比率２の閾値は、正規化後の解析における解析対象遺伝子数を担保する点から９９％以下に設定するが、好ましくは９６％以下、より好ましくは９３％以下である。また、比率２の閾値は８１〜９９％の範囲内で適宜設定されるが、好ましくは８４〜９６％の範囲内、より好ましくは８７〜９３％の範囲内で設定される。比率２の閾値は９０％とするのが殊更好ましい。

工程ｂの比率１の閾値が低い時は工程ｄの比率２の閾値を高くするのが効率的な正規化のためには望ましい。工程ｄの比率２の閾値が低い時は工程ｂの比率１の閾値を高くするのが効率的な正規化のためには望ましい。

斯くして、抽出された解析対象ＲＮＡの発現情報の総数に対して正規化を行うことにより、正規分布に近似した効果的なＲＮＡ発現値の補正が可能となる。
この場合に用いられる正規化法は特に制限はなく、例えば前述したＲＰＭ法、ＲＬＥ法の他、ＦＰＫＭ（ｆｒａｇｍｅｎｔｓｐｅｒｋｉｌｏｂａｓｅｏｆｅｘｏｎｐｅｒｍｉｌｌｉｏｎｒｅａｄｓｍａｐｐｅｄ）法、ＲＰＫＭ（ｒｅａｄｓｐｅｒ
ｋｉｌｏｂａｓｅｏｆｅｘｏｎｐｅｒｍｉｌｌｉｏｎｒｅａｄｓｍａｐｐｅｄ）、ＴＰＭ（ｔｒａｎｓｃｒｉｐｔｓｐｅｒｍｉｌｌｉｏｎ）法、ＴＭＭ（ＴｒｉｍｍｅｄｍｅａｎｏｆＭｖａｌｕｅｓ）法等が採用できるが、ＲＬＥ法が好適に用いられる。ＲＬＥ法はＤＥＳｅｑ２と呼ばれる一連の遺伝子発現量解析を行うための解析手法に実装されている。

上記のＲＮＡ発現情報について解析を行うためのデータ処理方法及び補正方法は、コンピュータ（計算装置）を用いて行うことができる。すなわち、本発明は、上記の方法を実行するための計算装置や、該コンピュータに上記の方法を実行させるためのプログラム及び該プログラムが記録された、コンピュータが読み取り可能な情報記録媒体を提供することができる。さらに、本発明は、上記のデータ処理方法により得られたＲＮＡ解析用のデータセットを提供することができる。また、本発明は、上記のデータ処理に用いる、比率１、比率２、又は閾値などの情報を、入力してデータ処理を行うことも可能であり、又は計算によって妥当な比率１、比率２、閾値を選択することもできる。

本発明の計算装置は、被験者から採取された試料から得られたＲＮＡ発現情報をインプットするための手段を有し、本発明のデータ処理方法及び補正方法を実行させるためのプログラムに従って、上記の解析対象試料の選択工程、解析対象遺伝子の選択工程、解析対象遺伝子のＲＮＡ発現情報の抽出工程及び該ＲＮＡ発現情報の正規化の工程から選択される１つ以上の工程を含む。

本発明のデータ処理方法及び補正方法を実行されるためのプログラムが記録される、コンピュータが読み取り可能な情報記録媒体としては、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどが挙げられる。なお本発明において、コンピュータが読み取り可能とは、電気通信回線などを介して配信される場合も含むものとする。

本発明の態様及び好ましい実施態様を以下に示す。
＜１＞複数の被験者から採取された分泌物を生体試料とし、そこから得られるＲＮＡ発現情報について解析を行うためのデータ処理方法であって、以下のａ）〜ｄ）の工程を備える方法。
ａ）検出対象ＲＮＡのうち、発現量がゼロ又はゼロと見做せるＲＮＡを検出不能と判断して検出可能なＲＮＡ数をカウントし、各試料について検出対象ＲＮＡの総数に対する検出可能なＲＮＡ数の比率１（ＴＤ値）を求める工程
ｂ）試料のうち、比率１が５〜２９％の範囲内で設定される閾値未満である試料を除外し、解析対象試料を選択する工程
ｃ）前記選択された解析対象試料のＲＮＡ発現情報に基づいて、検出対象ＲＮＡ毎に、その発現量がゼロ又はゼロと見做せる発現量より多い試料の数の全解析対象試料数に対する比率２（ＳＤ値）を求める工程
ｄ）検出対象ＲＮＡのうち、比率２が８１〜９９％の範囲内で設定される閾値未満のＲＮＡを除外し、それ以外のＲＮＡを解析対象としてその発現情報を抽出する工程
＜２＞分泌物が皮膚表上脂質である、＜１＞の方法。
＜３＞工程ａ）のＲＮＡの発現量の情報がＲＮＡ−Ｓｅｑによるリードカウント値である、＜１＞又は＜２＞の方法。
＜４＞工程ａ）の発現量がゼロ又はゼロと見做せるＲＮＡがＲＮＡ−ｓｅｑによるリードカウント値が２０未満、好ましくは１５未満、より好ましくは１０未満のＲＮＡである、＜１＞〜＜３＞のいずれかの方法。
＜５＞工程ｂ）において、比率１の閾値を、好ましくは１０％以上、より好ましくは１５％以上、さらに好ましくは１８％以上で、且つ好ましくは２７％以下、より好ましくは２５％以下、さらに好ましくは２３％以下に設定するか、或いは好ましくは１０〜２７％の範囲内、より好ましくは１５％〜２５％の範囲内、さらに好ましくは１８〜２３％の範囲内に設定する、＜１＞〜＜４＞のいずれかの方法。
＜６＞工程ｂ）において、比率１の閾値を２０％に設定する、＜１＞〜＜４＞のいずれかの方法。
＜７＞工程ｃ）の発現量がゼロと見做せる発現量が、ＲＮＡ−ｓｅｑにおけるリードカウント値が５未満、好ましくは３未満、より好ましくは１未満である、＜１＞〜＜６＞のいずれかの方法。
＜８＞工程ｃ）の発現量がゼロ又はゼロと見做せる発現量より多い試料が、ＲＮＡ−ｓｅｑにおけるリードカウント値が０より多い試料である、＜１＞〜＜６＞のいずれかの方法。
＜９＞工程ｄ）において、比率２の閾値を、好ましくは８４％以上、より好ましくは８７％以上で、且つ好ましくは９６％以下、より好ましくは９３％以下に設定するか、或いは好ましくは８４〜９６％の範囲内、より好ましくは８７〜９３％の範囲内に設定する、＜１＞〜＜８＞のいずれかの方法。
＜１０＞工程ｄ）において、比率２の閾値を９０％に設定する、＜１＞〜＜８＞のいずれかの方法。
＜１１＞＜１＞〜＜１０＞のいずれかの方法により抽出されたＲＮＡの発現情報の総数に対して正規化を行う、ＲＮＡ発現値の補正方法。
＜１２＞ＲＬＥ法によって正規化を行う、＜１１＞の方法。
＜１３＞＜１＞〜＜１２＞のいずれかのＲＮＡ発現情報について解析を行うためのデータ処理方法又は補正方法を実行するためのプログラム。
＜１４＞＜１３＞のプログラムを記録したことを特徴とする情報記録媒体。
＜１５＞＜１３＞のプログラムにより実行される解析対象試料の選択工程、解析対象遺伝子の選択工程、解析対象遺伝子のＲＮＡ発現情報の抽出工程及び解析対象遺伝子のＲＮＡ情報の正規化の計算工程から選択される１つ以上の工程を含む、計算装置。
＜１６＞＜１＞〜＜１２＞のいずれかのＲＮＡ発現情報について解析を行うためのデータ処理方法又は補正方法により得られたＲＮＡ解析用データセット。

以下、実施例に基づき本発明をさらに詳細に説明するが、本発明はこれに限定されるものではない。
実施例１ＳＳＬから抽出されたＲＮＡ発現データの正規化
１）ＳＳＬ採取
健常者（２０〜５９歳女性）４２名の全顔からあぶら取りフィルムを用いて皮脂を回収後、該あぶら取りフィルムをバイアルに移し、ＲＮＡ抽出に使用するまで−８０℃で、約１ヶ月間保存した。

２）ＲＮＡ調製及びシーケンシング
上記１）のあぶら取りフィルムを適当な大きさに切断し、ＱＩＡｚｏｌＬｙｓｉｓＲｅａｇｅｎｔ（Ｑｉａｇｅｎ）を用いて、付属のプロトコルに準じてＲＮＡを抽出した。抽出されたＲＮＡを元に、ＳｕｐｅｒＳｃｒｉｐｔＶＩＬＯｃＤＮＡＳｙｎｔｈｅｓｉｓｋｉｔ（ライフテクノロジーズジャパン株式会社）を用いて４２℃、９０分間逆転写を行いｃＤＮＡの合成を行った。逆転写反応のプライマーには、キットに付属しているランダムプライマーを使用した。得られたｃＤＮＡから、マルチプレックスＰＣＲにより２０８０２遺伝子に由来するＤＮＡを含むライブラリーを調製した。マルチプレックスＰＣＲは、ＩｏｎＡｍｐｌｉＳｅｑＴｒａｎｓｃｒｉｐｔｏｍｅＨｕｍａｎＧｅｎｅＥｘｐｒｅｓｓｉｏｎＫｉｔ（ライフテクノロジーズジャパン株式会社）を用いて、［９９℃、２分→（９９℃、１５秒→６２℃、１６分）×２０サイクル→４℃、Ｈｏｌｄ］の条件で行った。得られたＰＣＲ産物は、ＡｍｐｕｒｅＸＰ（ベックマン・コールター株式会社）で精製した後に、バッファーの再構成、プライマー配列の消化、アダプターライゲーションと精製、増幅を行い、ライブラリーを調製した。調製したライブラリーをＩｏｎ５４０Ｃｈｉｐにローディングし、ＩｏｎＳ５／ＸＬシステム（ライフテクノロジーズジャパン株式会社）を用いてシーケンシングした。

３）データ解析
上記２）で測定した被験者由来のＲＮＡ発現量データ（リードカウント値）において、データ解析対象被験者の選抜基準とデータ解析対象遺伝子の選抜基準を検討した。データ解析対象被験者の選抜基準として、ＴｏｒｒｅｎｔＳｕｉｔｅ（ライフテクノロジーズジャパン株式会社）において算出されるＴａｒｇｅｔｓＤｅｔｅｃｔｅｄ（ＴＤ）の値を用い、被験者毎に算出されるＴＤ_ｊの閾値を０、２０及び３０％に設定し、閾値未満の被験者を解析対象から除外し、それ以外の被験者をデータ解析対象被験者として選抜した。データ解析対象遺伝子の抽出基準として、ＴＤを用いたデータ解析対象被験者選抜後のＲＮＡ発現量データの各遺伝子について、リードカウント値が０を超えた被験者のパーセンテージ（ＳａｍｐｌｅｓＤｅｔｅｃｔｅｄ，ＳＤ）を用い、検出対象遺伝子毎に算出されるＳＤ_ｉの閾値を７０、８０、９０及び１００％に設定し、閾値未満の遺伝子を解析対象から除外し、それ以外の遺伝子をデータ解析対象遺伝子として選抜した。データ解析対象被験者を選抜し、続いて選抜されたデータ解析対象遺伝子の発現情報を抽出後、ＤＥＳｅｑ２という手法を用いて正規化されたリードカウント値（ｎｏｒｍａｌｉｚｅｄｃｏｕｎｔ値）に整数１を加算した底２の対数値（Ｌｏｇ２（ｎｏｒｍａｌｉｚｅｄｃｏｕｎｔ＋１）値）を算出した。図１に各被験者におけるＬｏｇ２（ｎｏｒｍａｌｉｚｅｄ
ｃｏｕｎｔ＋１）値のボックスプロットを示す。
ここで、被験者j（ｊ＝１〜ｎの整数、ｎは被験者数）におけるＴＤ_j、遺伝子i（ｉ＝１〜ｍの整数、ｍは検出対象遺伝子数）におけるＳＤ_iの値は以下の様に算定した。

４）最適な選抜基準の設定
上記３）で算出されたＬｏｇ２（ｎｏｒｍａｌｉｚｅｄｃｏｕｎｔ＋１）値について、中央値の分散を算出した結果、ＴＤ値あるいはＳＤ値の閾値の増加に伴って中央値の分散が０．１以下に減少した（表１、太字）。またＴＤ値及びＳＤ値の閾値の増加に伴う相乗的な中央値の分散の減少も確認された。よって、ＴＤ値とＳＤ値を用いたデータ解析対象被験者とデータ解析対象遺伝子の選抜によって、ＤＥＳｅｑ２による正規化後の各被験者の中央値を揃えることが可能であることが示された。しかしながら、ＴＤ値が２０％未満の被験者を除外した場合には、解析可能な被験者が約８３％に減少する一方、ＴＤ値が３０％未満の被験者を除外した場合には、解析可能な被験者が約６４％まで減少する（表２）。正規化後の解析における解析対象被験者数を担保する必要があることから、ＴＤ値２０％をデータ解析対象被験者の選抜における閾値として設定することが好適であることが示された（表２、太字）。また、ＳＤ値が９０％未満の遺伝子を除外した場合には解析可能な遺伝子が約１６％である一方、ＳＤ値が１００％未満の遺伝子を除外した場合には解析可能な遺伝子が２％や６％まで減少する（表３）。正規化後の解析における解析対象遺伝子数を担保する必要があることから、ＳＤ値９０％をデータ解析対象遺伝子の選抜における閾値として設定することが好適であることが示された（表３、太字）。

Claims

複数の被験者から採取された分泌物を生体試料とし、そこから得られるＲＮＡ発現情報について解析を行うためのデータ処理方法であって、以下のａ）〜ｄ）の工程を備える方法。
ａ）検出対象ＲＮＡのうち、発現量がゼロ又はゼロと見做せるＲＮＡを検出不能と判断して検出可能なＲＮＡ数をカウントし、各試料について検出対象ＲＮＡの総数に対する検出可能なＲＮＡ数の比率１（ＴＤ値）を求める工程
ｂ）試料のうち、比率１が５〜２９％の範囲内で設定される閾値未満である試料を除外し、解析対象試料を選択する工程
ｃ）前記選択された解析対象試料のＲＮＡ発現情報に基づいて、検出対象ＲＮＡ毎に、その発現量がゼロ又はゼロと見做せる発現量より多い試料の数の全解析対象試料数に対する比率２（ＳＤ値）を求める工程
ｄ）検出対象ＲＮＡのうち、比率２が８１〜９９％の範囲内で設定される閾値未満のＲＮＡを除外し、それ以外のＲＮＡを解析対象としてその発現情報を抽出する工程
分泌物が皮膚表上脂質である、請求項１記載の方法。
工程ａ）のＲＮＡの発現量の情報がＲＮＡ−Ｓｅｑによるリードカウント値である、請求項１又は２記載の方法。
工程ａ）の発現量がゼロ又はゼロと見做せるＲＮＡがＲＮＡ−ｓｅｑによるリードカウント値が１０未満のＲＮＡである、請求項１〜３のいずれか１項記載の方法。
工程ｂ）において、比率１の閾値を２０％に設定する、請求項１〜４のいずれか１項記載の方法。
工程ｃ）の発現量がゼロ又はゼロと見做せる発現量より多い試料が、ＲＮＡ−ｓｅｑにおけるリードカウント値が０より多い試料である、請求項１〜５のいずれか１項記載の方法。
工程ｄ）において、比率２の閾値を９０％に設定する、請求項１〜６のいずれか１項記載の方法。
請求項１〜７のいずれか１項記載の方法により抽出されたＲＮＡの発現情報の総数に対して正規化を行う、ＲＮＡ発現値の補正方法。
請求項１〜８のいずれか１項記載の、ＲＮＡ発現情報について解析を行うためのデータ処理方法又は補正方法を実行するためのプログラム。
請求項９記載のプログラムを記録したことを特徴とする情報記録媒体。
請求項９記載のプログラムにより実行される解析対象試料の選択工程、解析対象遺伝子の選択工程、解析対象遺伝子のＲＮＡ発現情報の抽出工程及び解析対象遺伝子のＲＮＡ情報の正規化の計算工程から選択される少なくとも１つ以上の工程を含む、計算装置。
請求項１〜８のいずれか１項記載の、ＲＮＡ発現情報について解析を行うためのデータ処理方法により得られたＲＮＡ解析用データセット。