CN114174532A - 细胞条形码编码的方法和应用 - Google Patents

细胞条形码编码的方法和应用 Download PDF

Info

Publication number
CN114174532A
CN114174532A CN202080041751.1A CN202080041751A CN114174532A CN 114174532 A CN114174532 A CN 114174532A CN 202080041751 A CN202080041751 A CN 202080041751A CN 114174532 A CN114174532 A CN 114174532A
Authority
CN
China
Prior art keywords
cell
barcode
cells
sequencing
tissue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080041751.1A
Other languages
English (en)
Inventor
尼古拉斯·E·纳温
王开乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Texas System
Original Assignee
University of Texas System
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Texas System filed Critical University of Texas System
Publication of CN114174532A publication Critical patent/CN114174532A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本公开的当前方法和组合物提供了一种用于检测与单个细胞的特定特征如细胞在组织内的位置有关的转录组谱、基因组谱或蛋白质组谱的平台。相应地,本公开的方面涉及一种用于对真核细胞细胞核进行条形码编码的方法,其包括:将寡核苷酸转移到细胞的细胞核中并进行单细胞分析以鉴定条形码的序列;其中所述寡核苷酸包含条形码区和靶标区。

Description

细胞条形码编码的方法和应用
背景技术
本申请要求2019年4月5日提交的美国临时专利申请号62/829773的权益,该临时专利申请的全部内容通过引用明确并入本文。
1.技术领域
本发明涉及可用于诊断、研究和细胞测定的分子生物学技术。
2.背景技术
所有活生物体都由一个一个单独的细胞组成,这些细胞在空间上组织成组织以形成器官结构并执行生物学功能。要了解组织如何工作以及如何在疾病如癌症中失调,研究它们的细胞类型组成和组织中的空间结构非常重要。单细胞基因组学、转录组学和表观基因组学的快速进展使研究人员能够发现稀有细胞类型、重建细胞系以及研究肿瘤微环境和肿瘤进化。然而,高通量单细胞测序方法需要生成细胞悬浮液并从而固有地丢失关于该细胞在原始组织切片中的位置的所有空间信息,此信息对于了解组织功能和疾病进展过程中发生的变化至关重要。因此,本领域需要用于从细胞中空间检测基因组、转录组或表观基因组信息的方法。
发明内容
本公开的当前方法和组合物提供了一种用于检测与单细胞的特定特征如细胞在组织内的位置有关的转录组谱、基因组谱或蛋白质组谱的平台。相应地,本公开的方面涉及一种用于对真核细胞细胞核进行条形码编码的方法,其包括:将多个寡核苷酸转移到多个细胞的细胞核中并进行单细胞分析以鉴定条形码的序列;其中每个寡核苷酸包含条形码区和靶标区。
进一步的方面涉及一种用于对真核细胞细胞核进行条形码编码的方法,其包括:i)将寡核苷酸转移到细胞的细胞核中;其中所述寡核苷酸包含条形码区和靶标区;ii)在悬浮液中合并带条形码的细胞核并且其中所述带条形码的细胞核的核被膜在悬浮液中是完整的;iii)进行悬浮液的单细胞分析以鉴定条形码的序列和细胞的转录组谱、蛋白质组谱和/或基因组谱;其中条形码序列与内源性DNA或RNA序列不邻接,并且其中条形码对应于细胞在组织切片内的内源性位置。
在一些实施方案中,通过转座体复合物(transposome complex)将寡核苷酸转移到细胞的细胞核中。在一些实施方案中,转座体复合物将促进寡核苷酸向细胞中的转移。在一些实施方案中,寡核苷酸还包含转座体衔接子区,其可用于将寡核苷酸可操作地连接到转座体复合物。在一些实施方案中,条形码对应于细胞特征。在一些实施方案中,特征包括细胞在组织中的位置、细胞类型、细胞的克隆群体、患者样本或处理条件。在特定的实施方案中,细胞特征包括细胞在组织切片内的内源性位置。条形码不是指置于一个或多于一个细胞中的单个已知序列。术语“条形码”是指鉴定细胞或一组细胞的独特细胞特征的已知序列。相应地,本公开的方法可用于确定至少或至多2、10、25、50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000、15000、20000、25000、30000、35000、40000、45000、50000、75000、100000、125000、150000、175000、200000、300000、400000、500000、600000、700000、800000、1000000、107、108、109、1010、1011、1012、1013或1014个(或其中任何可派生范围)单细胞或细胞组的独特细胞谱,这些细胞或细胞组具有将细胞或细胞组标记为独特的细胞特征的独特条形码。细胞谱可包括转录组细胞谱、基因组细胞谱或蛋白质组细胞谱。在一些实施方案中,细胞谱包括使用本文所述的测定法进行的特定蛋白质分析或相互作用。在一些实施方案中,细胞谱包括一种或多于一种RNA如mRNA、miRNA、circRNA等的表达,一种或多于一种基因组序列如疾病相关基因组序列、SNP、变体、突变、缺失、插入的存在,蛋白质-蛋白质相互作用的存在或不存在,和/或蛋白质-核相互作用的存在或不存在。本文所述的测定和方法可用于鉴定细胞谱。
在一些实施方案中,细胞的克隆群体包括癌细胞的克隆群体。术语“克隆群体”是指源自单个细胞的细胞群体。
在一些实施方案中,将细胞寡核苷酸添加到细胞悬浮液中以同时对许多细胞进行条形码编码。在一些实施方案中,转移至细胞的寡核苷酸具有相同的条形码。因此,悬浮液中的所有细胞都用相同的条形码进行条形码编码。在一些实施方案中,通过添加寡核苷酸用第二条形码对第二细胞悬浮液进行条形码编码,所有寡核苷酸具有相同的第二条形码。在一些实施方案中,一个或多于一个第n细胞悬浮液用第n条形码进行条形码编码,其中n为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、501、502、503、504、505、506、507、508、509、510、511、512、513、514、515、516、517、518、519、520、521、522、523、524、525、526、527、528、529、530、531、532、533、534、535、536、537、538、539、540、541、542、543、544、545、546、547、548、549、550、551、552、553、554、555、556、557、558、559、560、561、562、563、564、565、566、567、568、569、570、571、572、573、574、575、576、577、578、579、580、581、582、583、584、585、586、587、588、589、590、591、592、593、594、595、596、597、598、599、600、601、602、603、604、605、606、607、608、609、610、611、612、613、614、615、616、617、618、619、620、621、622、623、624、625、626、627、628、629、630、631、632、633、634、635、636、637、638、639、640、641、642、643、644、645、646、647、648、649、650、651、652、653、654、655、656、657、658、659、660、661、662、663、664、665、666、667、668、669、670、671、672、673、674、675、676、677、678、679、680、681、682、683、684、685、686、687、688、689、690、691、692、693、694、695、696、697、698、699、700、701、702、703、704、705、706、707、708、709、710、711、712、713、714、715、716、717、718、719、720、721、722、723、724、725、726、727、728、729、730、731、732、733、734、735、736、737、738、739、740、741、742、743、744、745、746、747、748、749、750、751、752、753、754、755、756、757、758、759、760、761、762、763、764、765、766、767、768、769、770、771、772、773、774、775、776、777、778、779、780、781、782、783、784、785、786、787、788、789、790、791、792、793、794、795、796、797、798、799、800、801、802、803、804、805、806、807、808、809、810、811、812、813、814、815、816、817、818、819、820、821、822、823、824、825、826、827、828、829、830、831、832、833、834、835、836、837、838、839、840、841、842、843、844、845、846、847、848、849、850、851、852、853、854、855、856、857、858、859、860、861、862、863、864、865、866、867、868、869、870、871、872、873、874、875、876、877、878、879、880、881、882、883、884、885、886、887、888、889、890、891、892、893、894、895、896、897、898、899、900、901、902、903、904、905、906、907、908、909、910、911、912、913、914、915、916、917、918、919、920、921、922、923、924、925、926、927、928、929、930、931、932、933、934、935、936、937、938、939、940、941、942、943、944、945、946、947、948、949、950、951、952、953、954、955、956、957、958、959、960、961、962、963、964、965、966、967、968、969、970、971、972、973、974、975、976、977、978、979、980、981、982、983、984、985、986、987、988、989、990、991、992、993、994、995、996、997、998、999或1000(或其中任何可派生范围)。在一些实施方案中,在单细胞分析之前将带条形码的细胞悬浮液混合在一起。
在一些实施方案中,细胞在组织内,并且细胞特征包括细胞在组织内的位置。在一些实施方案中,至少两个在组织中不同位置处的细胞各自用对应于每个细胞的相应组织位置的不同条形码进行条形码编码。在一些实施方案中,至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、500、525、550、575、600、625、650、675、700、725、750、775、800、825、850、875、900、950、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2200、2400、2600、2800、3000、3200、3400、3600、3800、4000、4200、4400、4600、4800、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000、11000、12000、13000、14000、15000、16000、17000、18000、19000、20000、21000、22000、23000、24000、25000、26000、27000、28000、29000、30000、35000、40000、50000、75000、100000、200000、300000、400000、500000、600000、700000、800000、900000或1000000个(或其中任何可派生范围)在组织中不同位置处的细胞各自用对应于每个细胞的相应组织位置的不同条形码进行条形码编码。
在一些实施方案中,细胞特征为细胞类型,并且其中第一条形码对应于来自第一细胞类型的细胞而第二条形码对应于来自第二细胞类型的细胞。本公开的实施方案涉及对应于第一细胞特征的第一条形码、对应于第二细胞特征的第二条形码和对应于第n细胞特征的第n条形码,其中n为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、501、502、503、504、505、506、507、508、509、510、511、512、513、514、515、516、517、518、519、520、521、522、523、524、525、526、527、528、529、530、531、532、533、534、535、536、537、538、539、540、541、542、543、544、545、546、547、548、549、550、551、552、553、554、555、556、557、558、559、560、561、562、563、564、565、566、567、568、569、570、571、572、573、574、575、576、577、578、579、580、581、582、583、584、585、586、587、588、589、590、591、592、593、594、595、596、597、598、599、600、601、602、603、604、605、606、607、608、609、610、611、612、613、614、615、616、617、618、619、620、621、622、623、624、625、626、627、628、629、630、631、632、633、634、635、636、637、638、639、640、641、642、643、644、645、646、647、648、649、650、651、652、653、654、655、656、657、658、659、660、661、662、663、664、665、666、667、668、669、670、671、672、673、674、675、676、677、678、679、680、681、682、683、684、685、686、687、688、689、690、691、692、693、694、695、696、697、698、699、700、701、702、703、704、705、706、707、708、709、710、711、712、713、714、715、716、717、718、719、720、721、722、723、724、725、726、727、728、729、730、731、732、733、734、735、736、737、738、739、740、741、742、743、744、745、746、747、748、749、750、751、752、753、754、755、756、757、758、759、760、761、762、763、764、765、766、767、768、769、770、771、772、773、774、775、776、777、778、779、780、781、782、783、784、785、786、787、788、789、790、791、792、793、794、795、796、797、798、799、800、801、802、803、804、805、806、807、808、809、810、811、812、813、814、815、816、817、818、819、820、821、822、823、824、825、826、827、828、829、830、831、832、833、834、835、836、837、838、839、840、841、842、843、844、845、846、847、848、849、850、851、852、853、854、855、856、857、858、859、860、861、862、863、864、865、866、867、868、869、870、871、872、873、874、875、876、877、878、879、880、881、882、883、884、885、886、887、888、889、890、891、892、893、894、895、896、897、898、899、900、901、902、903、904、905、906、907、908、909、910、911、912、913、914、915、916、917、918、919、920、921、922、923、924、925、926、927、928、929、930、931、932、933、934、935、936、937、938、939、940、941、942、943、944、945、946、947、948、949、950、951、952、953、954、955、956、957、958、959、960、961、962、963、964、965、966、967、968、969、970、971、972、973、974、975、976、977、978、979、980、981、982、983、984、985、986、987、988、989、990、991、992、993、994、995、996、997、998、999或1000(或其中任何可派生范围)。在一些实施方案中,向细胞提供多个条形码并可对应于多个细胞特征。在一些实施方案中,寡核苷酸包含至少2、3、4、5、6、7或8(或其中任何可派生范围)个条形码,每个条形码代表特定细胞的不同细胞特征。
在一些实施方案中,细胞特征为患者样本,并且其中第一条形码对应于来自第一患者样本的细胞而第二条形码对应于来自第二患者样本的细胞。在一些实施方案中,细胞特征为患者样本,并且其中第一条形码对应于来自第一患者样本的细胞,第二条形码对应于来自第二患者样本的细胞,一个或多于一个第n条形码对应于来自一个或多于一个第n患者样本的细胞,其中n为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、501、502、503、504、505、506、507、508、509、510、511、512、513、514、515、516、517、518、519、520、521、522、523、524、525、526、527、528、529、530、531、532、533、534、535、536、537、538、539、540、541、542、543、544、545、546、547、548、549、550、551、552、553、554、555、556、557、558、559、560、561、562、563、564、565、566、567、568、569、570、571、572、573、574、575、576、577、578、579、580、581、582、583、584、585、586、587、588、589、590、591、592、593、594、595、596、597、598、599、600、601、602、603、604、605、606、607、608、609、610、611、612、613、614、615、616、617、618、619、620、621、622、623、624、625、626、627、628、629、630、631、632、633、634、635、636、637、638、639、640、641、642、643、644、645、646、647、648、649、650、651、652、653、654、655、656、657、658、659、660、661、662、663、664、665、666、667、668、669、670、671、672、673、674、675、676、677、678、679、680、681、682、683、684、685、686、687、688、689、690、691、692、693、694、695、696、697、698、699、700、701、702、703、704、705、706、707、708、709、710、711、712、713、714、715、716、717、718、719、720、721、722、723、724、725、726、727、728、729、730、731、732、733、734、735、736、737、738、739、740、741、742、743、744、745、746、747、748、749、750、751、752、753、754、755、756、757、758、759、760、761、762、763、764、765、766、767、768、769、770、771、772、773、774、775、776、777、778、779、780、781、782、783、784、785、786、787、788、789、790、791、792、793、794、795、796、797、798、799、800、801、802、803、804、805、806、807、808、809、810、811、812、813、814、815、816、817、818、819、820、821、822、823、824、825、826、827、828、829、830、831、832、833、834、835、836、837、838、839、840、841、842、843、844、845、846、847、848、849、850、851、852、853、854、855、856、857、858、859、860、861、862、863、864、865、866、867、868、869、870、871、872、873、874、875、876、877、878、879、880、881、882、883、884、885、886、887、888、889、890、891、892、893、894、895、896、897、898、899、900、901、902、903、904、905、906、907、908、909、910、911、912、913、914、915、916、917、918、919、920、921、922、923、924、925、926、927、928、929、930、931、932、933、934、935、936、937、938、939、940、941、942、943、944、945、946、947、948、949、950、951、952、953、954、955、956、957、958、959、960、961、962、963、964、965、966、967、968、969、970、971、972、973、974、975、976、977、978、979、980、981、982、983、984、985、986、987、988、989、990、991、992、993、994、995、996、997、998、999或1000(或其中任何可派生范围)。
在一些实施方案中,细胞特征为细胞在组织内的位置,并且其中第一条形码对应于第一位置而第二条形码对应于第二位置。在一些实施方案中,细胞特征为细胞在组织内的位置,并且其中第一条形码对应于第一位置,第二条形码对应于第二位置,一个或多于一个第n条形码对应于一个或多于一个第n细胞位置,其中n为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900、4000、4100、4200、4300、4400、4500、4600、4700、4800、4900、5000、5100、5200、5300、5400、5500、5600、5700、5800、5900、6000、6100、6200、6300、6400、6500、6600、6700、6800、6900、7000、7100、7200、7300、7400、7500、7600、7700、7800、7900、8000、8100、8200、8300、8400、8500、8600、8700、8800、8900、9000、9100、9200、9300、9400、9500、9600、9700、9800、9900、10000、11000、12000、13000、14000、15000、16000、17000、18000、19000、20000、21000、22000、23000、24000、25000、26000、27000、28000、29000、30000、31000、32000、33000、34000、35000、36000、37000、38000、39000、40000、41000、42000、43000、44000、45000、46000、47000、48000、49000、50000、51000、52000、53000、54000、55000、56000、57000、58000、59000、60000、61000、62000、63000、64000、65000、66000、67000、68000、69000、70000、71000、72000、73000、74000、75000、76000、77000、78000、79000、80000、81000、82000、83000、84000、85000、86000、87000、88000、89000、90000、91000、92000、93000、94000、95000、96000、97000、98000、99000、100000、150000、200000、250000、300000、350000、400000、450000、500000、550000、600000、650000、700000、750000、800000、850000、900000、950000、1000000、1050000或1100000(或其中任何可派生范围)。
在一些实施方案中,组织内带条形码的细胞的总面积大于1mm2。在一些实施方案中,组织内带条形码的细胞的总面积大于1.5mm2。在一些实施方案中,组织内带条形码的细胞的总面积大于或为至少0.5、0.6、0.7、0.8、0.9、1、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9或3mm2或其中任何可派生范围。
在一些实施方案中,细胞特征为处理条件,并且其中第一条形码对应于第一处理条件而第二条形码对应于第二处理条件。在一些实施方案中,细胞特征为处理条件,并且其中第一条形码对应于第一处理条件,第二条形码对应于第二处理条件,一个或多于一个第n条形码对应于一个或多于一个第n处理条件,其中n为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、501、502、503、504、505、506、507、508、509、510、511、512、513、514、515、516、517、518、519、520、521、522、523、524、525、526、527、528、529、530、531、532、533、534、535、536、537、538、539、540、541、542、543、544、545、546、547、548、549、550、551、552、553、554、555、556、557、558、559、560、561、562、563、564、565、566、567、568、569、570、571、572、573、574、575、576、577、578、579、580、581、582、583、584、585、586、587、588、589、590、591、592、593、594、595、596、597、598、599、600、601、602、603、604、605、606、607、608、609、610、611、612、613、614、615、616、617、618、619、620、621、622、623、624、625、626、627、628、629、630、631、632、633、634、635、636、637、638、639、640、641、642、643、644、645、646、647、648、649、650、651、652、653、654、655、656、657、658、659、660、661、662、663、664、665、666、667、668、669、670、671、672、673、674、675、676、677、678、679、680、681、682、683、684、685、686、687、688、689、690、691、692、693、694、695、696、697、698、699、700、701、702、703、704、705、706、707、708、709、710、711、712、713、714、715、716、717、718、719、720、721、722、723、724、725、726、727、728、729、730、731、732、733、734、735、736、737、738、739、740、741、742、743、744、745、746、747、748、749、750、751、752、753、754、755、756、757、758、759、760、761、762、763、764、765、766、767、768、769、770、771、772、773、774、775、776、777、778、779、780、781、782、783、784、785、786、787、788、789、790、791、792、793、794、795、796、797、798、799、800、801、802、803、804、805、806、807、808、809、810、811、812、813、814、815、816、817、818、819、820、821、822、823、824、825、826、827、828、829、830、831、832、833、834、835、836、837、838、839、840、841、842、843、844、845、846、847、848、849、850、851、852、853、854、855、856、857、858、859、860、861、862、863、864、865、866、867、868、869、870、871、872、873、874、875、876、877、878、879、880、881、882、883、884、885、886、887、888、889、890、891、892、893、894、895、896、897、898、899、900、901、902、903、904、905、906、907、908、909、910、911、912、913、914、915、916、917、918、919、920、921、922、923、924、925、926、927、928、929、930、931、932、933、934、935、936、937、938、939、940、941、942、943、944、945、946、947、948、949、950、951、952、953、954、955、956、957、958、959、960、961、962、963、964、965、966、967、968、969、970、971、972、973、974、975、976、977、978、979、980、981、982、983、984、985、986、987、988、989、990、991、992、993、994、995、996、997、998、999或1000(或其中任何可派生范围)。
在一些实施方案中,所述方法还包括在悬浮液中合并带条形码的细胞核并且其中所述带条形码的细胞核的核被膜在悬浮液中是完整的。在一些实施方案中,所述方法还包括进行来自细胞核的核酸的单细胞分析。在一些实施方案中,单细胞分析包括对核酸测序以确定条形码的序列。在一些实施方案中,单细胞分析包括对细胞核酸测序以确定单细胞的转录或基因组谱。在一些实施方案中,单细胞分析包括确定单细胞的蛋白质组谱。在一些实施方案中,单细胞分析包括对核酸测序。在一些实施方案中,核酸包含RNA。在一些实施方案中,单细胞分析涉及单细胞RNA测序以确定、定量或鉴定RNA剪接、RNA-蛋白质相互作用、RNA修饰、RNA结构、或lincRNA、microRNA、mRNA、tRNA和circRNA分析中的一种或多于一种。在一些实施方案中,分析包括drop-seq、InDrop、seq-well、fluidigm、BD biosciences、illumina bio-rad microdroplets、sci-seq microwell-seq、nanogrid-seq、10xgenomics RNA测序平台、SMART-seq、SMART-seq2、CEL-seq、CEL-seq2中的一种或多于一种。在一些实施方案中,核酸包含DNA。在一些实施方案中,单细胞分析包括单细胞DNA拷贝数分析、单细胞突变检测、单细胞结构变异检测、DNA和蛋白质相互作用的检测、DNA染色质分析、DNA-DNA相互作用的检测和DNA表观遗传修饰的检测中的一种或多于一种。在一些实施方案中,单细胞分析包括单细胞ChIP-seq、单细胞3C、单细胞Hi-C、scDNase-seq和scDanmID中的一种或多于一种。在一些实施方案中,单细胞分析包括单细胞Ribo-seq、单细胞RIP-seq和单细胞CLIP-seq中的一种或多于一种。在一些实施方案中,单细胞分析包括10x genomicsCNV测序平台、mission bio、fluidigm、sci-seq、直接标签化(direct-tagmentation)、sciATAC-seq、纳米孔scATAC-seq、MDA、DOP-PCR、MALBAC和LIANTI中的一种或多于一种。在一些实施方案中,从单细胞分析中去除双细胞(doublets)。
在一些实施方案中,单细胞分析包括提供来自同一细胞的DNA和RNA序列信息或来自同一细胞的表观遗传学和RNA序列信息的分析。这样的方法的实例包括单细胞DR-seq、G&T-seq、scMT-seq、scM&T-seq、scTrio-seq、scCOOL-seq、scNMT-seq和SIDR-seq。
在一些实施方案中,转录或基因组谱包含单细胞的至少1000个基因的谱。在一些实施方案中,转录或基因组谱包含单细胞的至少500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3250、3500、3750、4000、4250、4500、4750、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000、11000、12000、13000、14000、15000、16000、17000、18000、19000、20000、21000、22000、23000、24000、25000、26000、27000、28000、29000、30000、35000、40000或50000个(或其中任何可派生范围)基因的谱。在一些实施方案中,对至少2000个不同的条形码进行测序。在一些实施方案中,对至少300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900、4000、4100、4200、4300、4400、4500、4600、4700、4800、4900、5000、5100、5200、5300、5400、5500、5600、5700、5800、5900、6000、6200、6400、6600、6800、7000、7200、7400、7600、7800、8000、8200、8400、8600、8800、9000、9200、9400、9600、9800或10000个(或其中任何可派生范围)不同的条形码或全部的条形码进行测序。
在一些实施方案中,每个细胞平均含有一个或两个外源添加的条形码。在一些实施方案中,每个细胞的条形码的平均数量为一。在一些实施方案中,每个细胞的相同序列的条形码类型的平均数量为1-2。在一些实施方案中,每个细胞的相同序列的条形码的平均数量小于2。在一些实施方案中,每个细胞的条形码如相同序列的条形码的平均数量为0.8、1、1.2、1.4、1.6、1.8、2、2.2、2.4、2.6、2.8、3、3.5或4(或其中任何可派生范围)。相应地,细胞可含有相同条形码或不同条形码的多个拷贝。在一些实施方案中,细胞包含相同条形码的多个拷贝。在一些实施方案中,每个细胞含有两个不同的外源添加的条形码(和/或两个不同条形码中的每一个的多个拷贝)并且其中所述两个条形码的序列的组合对应于每个细胞的细胞特征。在一些实施方案中,每个细胞包含n个不同的条形码并且其中所述n个条形码的序列的组合对应于每个细胞的细胞特征并且其中n为整数如n=1、2、3、4、5、6、7、8、9或10。在一些实施方案中,细胞中条形码的数量为在细胞群体中的细胞中条形码的平均数量。在一些实施方案中,术语条形码特指对应于细胞特征的条形码。在一些实施方案中,每个转座体复合物包含一个或两个寡核苷酸。在一些实施方案中,每个转座体复合物包含至少、至多或确切地1、2、3、4、5、6、7、8、9、10或n个寡核苷酸(或其中任何可派生范围),其中n为整数,其等于、至少为或确切地为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40(或其中任何可派生范围)。在一些实施方案中,转座体复合物包含至少两个寡核苷酸。在一些实施方案中,转座体复合物包含至少第一寡核苷酸和第二寡核苷酸,所述第一寡核苷酸包含第一条形码,所述第二寡核苷酸包含第二条形码,并且其中所述第一和第二条形码不同。在一些实施方案中,每个转座体复合物包含至少、至多或确切地1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个(或其中任何可派生范围)不同的寡核苷酸。在一些实施方案中,转座酶复合物中寡核苷酸的数量为来自复合物群体的平均值。
在一些实施方案中,细胞核源自大于50微米的真核细胞或在大于50微米的真核细胞内。在一些实施方案中,细胞核源自大于40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175或200微米(或其中任何可派生范围)的真核细胞或在这样的真核细胞内。在一些实施方案中,细胞核源自包含不规则形态的真核细胞或在包含不规则形态的真核细胞内。不规则形态可指由于致癌性转化或由于疾病状态而导致的细胞形态变化。在一些实施方案中,细胞核源自先前已冷冻的真核细胞或在先前已冷冻的真核细胞内。
在一些实施方案中,条形码序列与内源性DNA或RNA序列不邻接。在提及两个核酸时,术语不邻接指的是这些核酸不在同一核酸分子中并且未共价连接。在一些实施方案中,包含条形码的序列不包含内源性核酸序列。在一些实施方案中,方法包括对未整合到细胞核酸(如细胞内源性的基因组DNA或RNA)中的条形码进行测序。在一些实施方案中,方法不包括对整合到基因组DNA中或整合到内源性RNA中的条形码进行测序。在一些实施方案中,包含条形码的序列不包含来自细胞核酸的序列。
在一些实施方案中,方法不包括通过将转座体的寡核苷酸引入到基因组核酸中来对基因组核酸进行标签化。在一些实施方案中,条形码未整合到基因组DNA中或整合到内源性RNA中。术语整合意味着条形码核酸与基因组DNA如染色体DNA以共价键连接。
在一些实施方案中,方法还包括从细胞分离出核酸。在一些实施方案中,从每个细胞分离出小于1ng的核酸。在一些实施方案中,从每个细胞分离出小于1000、900、800、700、600、500、400、300、200、100、75、50、25、20、15、10、5、4、3、2、1、0.9、0.8、0.7、0.6、0.5、0.4、0.3、0.2、0.1、0.08、0.06、0.04、0.02或0.01ng(或其中任何可派生范围)。
在一些实施方案中,转座体衔接子区包含转座酶识别序列。在一些实施方案中,转座体衔接子区包含能够与转座体核酸组分碱基配对的互补序列。在一些实施方案中,所述多个寡核苷酸包含至少一个包含转座酶识别序列的寡核苷酸和至少一个包含能够与转座体核酸组分碱基配对的互补序列的寡核苷酸。在一些实施方案中,方法还包括细胞内源性核酸的片段化。在一些实施方案中,具有一个或多于一个引物结合位点和/或条形码的衔接子区与片段化核酸的一端或两端融合。在一些实施方案中,在将所述多个寡核苷酸转移到多个细胞中之前进行片段化。在一些实施方案中,在将所述多个寡核苷酸转移到多个细胞中之后进行片段化。在一些实施方案中,片段化包括标签化。
在一些实施方案中,靶标区包含一个或多于一个引物结合位点。在一些实施方案中,靶标区包含至少1、2、3或4个引物结合位点。在一些实施方案中,靶标区包含聚腺嘌呤区,所述聚腺嘌呤区包含至少4个连续的腺嘌呤核酸。在一些实施方案中,靶标区包含聚腺嘌呤区,所述聚腺嘌呤区包含至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59或60个连续的腺嘌呤核酸(或其中任何可派生范围)。在一些实施方案中,靶标区包含通用引物结合区和随机引物结合区。在一些实施方案中,靶标区和/或转座体衔接子区相对于细胞特征无变化,但条形码区相对于细胞特征是独特的。
在一些实施方案中,将寡核苷酸转移到细胞中包括将寡核苷酸微量移液到每个细胞核中或每个细胞核之上;将寡核苷酸打印到每个细胞核中或每个细胞核之上;从基底释放寡核苷酸,细胞沉积在寡核苷酸和基底之上;和将寡核苷酸声学液体转移到每个细胞核。
在一些实施方案中,寡核苷酸还包含切割位点。在一些实施方案中,释放寡核苷酸包括寡核苷酸的限制酶切割、切口酶切割、UV光切割或化学切割。在一些实施方案中,基底包含微阵列。在一些实施方案中,基底包含珠子、聚合物或显微镜载玻片。
在一些实施方案中,将寡核苷酸转移到细胞核,并且其中细胞在组织切片内的内源性位置中。在一些实施方案中,细胞为福尔马林固定的组织。在一些实施方案中,细胞包含石蜡包埋的组织。在一些实施方案中,细胞包含冷冻的组织。在一些实施方案中,细胞包含从哺乳动物分离出的组织。在一些实施方案中,细胞包含哺乳动物细胞。在一些实施方案中,细胞包含人、大鼠、小鼠、猫、狗、马、兔、猪或山羊细胞。
在一些实施方案中,转座体包含Tn5、Sleeping Beauty、PiggyBac、Tn7或MuA。
在一些实施方案中,方法包括各自用对应于不同细胞特征的不同条形码对至少100个细胞进行条形码编码。在一些实施方案中,方法包括各自用对应于不同细胞特征的不同条形码对至少50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500或10000个细胞(或其中任何可派生范围)进行条形码编码或者至少80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99%(或其中任何可派生范围)的细胞包含独特的条形码。
在一些实施方案中,转座体复合物在转移到细胞核之前处于溶液中;并且其中所述溶液包含小于0.05μM的寡核苷酸浓度。在一些实施方案中,所述溶液包含0.05至0.5μM的寡核苷酸。这样的浓度可被称为最终浓度,因为它们是寡核苷酸与细胞和/或细胞核接触时的浓度。在一些实施方案中,所述溶液包含0.02至0.2μM的寡核苷酸。在一些实施方案中,所述溶液包含0.06至0.5μM的寡核苷酸。在一些实施方案中,所述溶液包含小于、或包含大于、或包含约0.005、0.006、0.007、0.008、0.009、0.01、0.015、0.02、0.025、0.03、0.035、0.04、0.045、0.05、0.055、0.06、0.065、0.07、0.075、0.08、0.085、0.09、0.1、0.12、0.14、0.16、0.18、0.2、0.22、0.24、0.26、0.28、0.3、0.32、0.34、0.36、0.38、0.4、0.42、0.44、0.46、0.48、0.5、0.52、0.54、0.56、0.58、0.6、0.62、0.64、0.66、0.68、0.7、0.72、0.74、0.76、0.78、0.8、0.85、0.9、0.95或1μM(或其中任何可派生范围)的寡核苷酸。
在提及基因产物或功能蛋白质时,术语“蛋白质”、“多肽”和“肽”在本文中可互换使用。
当应用于细胞时,术语“接触”和“暴露”在本文中用于描述将试剂递送到靶细胞或与靶细胞或靶分子直接并置的过程。
预期所述方法和组合物包括排除本文所述的任何实施方案。
如本文所用,术语“或”和“和/或”用于描述彼此组合或相互排斥的多个组分。例如,“x、y和/或z”可单独指“x”、单独指“y”、单独指“z”、“x、y和z”、“(x和y)或z”、“x或(y和z)”或“x或y或z”。特别考虑到可从实施方案特别排除x、y或z。
在整个本申请中,术语“约”根据其在细胞生物学领域中的普通含义使用以指示值包括采用来测定该值的设备或方法的误差的标准偏差。
与“包括”、“含有”或“特征在于”同义的术语“包含”是容他性的或开放性的而不排除另外的、未记述的要素或方法步骤。表述“由……组成”排除未指定的任何元素、步骤或成分。表述“基本上由……组成”将所描述的主题的范围限制为所指定的材料或步骤及不会实质性地影响其基本和新颖特性的材料或步骤。预期在术语“包含”的上下文中描述的实施方案也可在术语“由……组成”或“基本上由……组成”的上下文中实施。
明确预期的是,关于本发明的一个实施方案讨论的任何限制可适用于本发明的任何其他实施方案。此外,本发明的任何组合物可用于本发明的任何方法中,并且本发明的任何方法可用于产生或利用本发明的任何组合物。实施例中阐述的实施方案的方面也是可在不同的实施例中别处或在本申请中别处如在发明内容、具体实施方式、权利要求书和附图说明中讨论的实施方案的上下文中实施的实施方案。
本发明的其他目的、特征和优点将从以下具体实施方式变得显而易见。然而,应理解,具体实施方式和具体实施例虽然指示了优选的实施方案,但仅作为示意给出,因为在本发明的精神和范围内的各种改变和修改对于本领域技术人员来说将从该具体实施方式变得显而易见。
附图说明
以下附图构成本说明书的一部分并引入以进一步说明本发明的某些方面。通过参考这些附图中的一个或多个并结合本文提供的具体实施方案的详细描述,本发明可得到更好的理解。
图1A-B。SNUBAR方法概述,用两种不同的手段进行细胞核的空间条形码编码。通过(A)向组织切片中微流体/微量移液器沉积空间条形码或(B)使用在递送到组织切片中的阵列上预先打印了空间条形码寡核苷酸特征的定制微阵列来对单细胞核进行空间条形码编码。
图2A-B。空间条形码寡核苷酸衔接子的分子结构。(A)用于单细胞RNA测序的空间条形码,其含有转座体结合序列、空间条形码序列和两个平台特异性序列(PCR手柄、polyA尾)。(B)使用基于直接标签化的化学进行单细胞DNA测序的空间条形码,其含有转座体结合序列和空间条形码,以及用于在PCR扩增过程中进行引发(priming)的文库特异性序列。
图3A-B。带空间条形码的转座体的组装。(A)空间条形码接头与具有通用接头的转座体复合物的杂交,示出了用于单细胞RNA-seq的一个实例应用,其包括polyA引发尾。(B)将空间条形码接头并入到裸转座酶中以生成带空间条形码的转座体。
图4A-D。向组织中的细胞核递送空间转座体的递送系统。可使用若干不同的手段来向组织切片中的细胞核递送空间条形码转座体或转座酶,如该图中所示。(A)通过向不同的管中加入空间转座体来对悬浮细胞进行样本条形码编码。(B)通过手动将空间转座体复合物微量移液到组织切片中的不同区或使用垫片集中区域来进行组织条形码编码。(C)使用声学液体转移系统、显微操作器或微阵列打印机将转座体复合物高通量自动微分配到不同的空间区。(D)使用负载了转座体的预打印定制微阵列,将组织放置在阵列上并裂解组织以为不同的区进行条形码编码。插图更详细地示出了使用预打印微阵列转座体向单细胞/细胞核中递送带条形码的微阵列探针的一个实例,其中每个微阵列特征含有与转座体衔接子的序列尾互补的通用序列、空间条形码、polyA(例如对于单细胞RNA-seq)和连接子序列。具有通用衔接子的转座体与接头特征组装形成带条形码的转座体,然后带条形码的转座体与空间条形码接头一起释放,并进入组织中的细胞核进行条形码编码。
图5-在Drop-Seq平台上使用空间条形码进行文库制备和单细胞转录组分析。在空间转座体已将空间条形码递送到细胞核中后,使用细胞核进行Drop-seq WTA,其中drop-seq珠子与裂解后细胞中的mRNA以及带有平台特异性polyA接头和PCR序列的游离空间条形码接头两者杂交。随后释放液滴并使用珠子进行逆转录和PCR扩增,其后生成用于下一代测序的文库。
图6A-B-空间条形码寡核苷酸和最终cDNA文库的DNA大小踪迹。该图示出了在tapestation(Agilent)系统上运行的空间条形码文库大小分布的实验数据和质量控制(A)及来自汇集于一起的癌细胞系库的最终cDNA测序文库大小踪迹。
图7-向不同细胞系中的单细胞核中递送空间条形码的效率评价。在对测序数据进行拆分和分析之后在来自三种细胞系的单细胞中鉴定出的空间条形码计数数量。
图8–4种细胞系的空间/样本条形码索引编制和单细胞RNA测序。四种细胞系的单细胞RNA和空间条形码的高维分析,这些细胞系被汇集于一起进行单细胞RNA测序分析。
图9-四种细胞系中用于单细胞RNA测序的不同空间条形码的百分数。对4种不同细胞系(SKN2、SK-BR-3、MDA-MB-231、MDA-MB-436)进行3'高通量单细胞RNA测序后递送到单细胞中的空间条形码的百分数。
图10–对4种细胞系进行空间/样本条形码编码以进行单细胞DNA测序。来自4种不同细胞系(SKN2、SK-BR-3、MDA-MB-231、MDA-MB-436)的单细胞拷贝数谱的聚类热图,在使用直接标签化拷贝数分析测序后进行空间/样本条形码编码。
图11-使用单细胞DNA测序的四种细胞系的单细胞核条形码计数。该图示出了四种细胞系的空间/样本条形码百分数,这些细胞系用不同的序列进行了条形码编码并汇集于一起进行直接标签化单细胞拷贝数分析和下一代测序。
图12-不使用Tn5递送系统的三种细胞系的样本条形码编码。来自在无Tn5递送系统的情况下使用高浓度寡核苷酸的三种不同细胞系(MDA-MB-231、SK-BR-3、MDA-MB-436)的单细胞的归一化样本特异性条形码计数。
图13A-E。SNuBar方案概述。(a)将新鲜或冷冻组织宏观解剖成小区,其后将来自每个区的单细胞核解离并与带独特条形码的转座体一起孵育。(b)负载的转座体向来自每个组织区的细胞核悬浮液中递送空间条形码,其后将样本一起汇集到单个反应中。递送到完整细胞核中的条形码接头通过提供用于引发的poly-T尾和使用微滴珠子对细胞进行条形码编码而充当合成靶标。(c)使用微滴方法进行高通量单细胞核RNA测序,其生成每个细胞核的空间条形码文库和细胞条形码文库。(d)使用独特的细胞条形码标识符进行每个细胞核的空间条形码文库与细胞条形码文库的计算匹配。(e)将单细胞转录组数据映射到空间组织区。
图14A-E。使用细胞系混合物实验进行技术验证。(a)上部小图示出了每个细胞核检测到的基因计数,下部小图示出了四种不同细胞系中线粒体基因的百分数。(b)在带条形码的四种细胞系的背景水平上方示出了每个细胞中条形码的百分数。(c)示出了SK-BR-3和MDA-MB-436中样本条形码计数的散点图以鉴定四种不同细胞系之间的交叉污染和双细胞。(d)4种不同细胞系中归一化条形码计数的热图,指示具有单个、多个和没有普遍条形码的细胞。(e)四种细胞系的表达数据的高维t-SNE图,指示了单细胞(singlets)、多细胞(multiplets)和阴性细胞。
图15A-F。人类乳腺组织中主要细胞类型的空间组织。(a)将人类乳腺组织宏观解剖成36个区,并用SNuBar以空间方式进行条形码编码,然后汇集并进行snRNA-seq。(b)合并的36个空间区中主要细胞类型的t-SNE图,其中鉴定出9个主要细胞类型簇。(c)每种细胞类型的前10个差异标志物的归一化基因表达热图。(d)36个空间区中细胞类型频率和空间位置的饼图,其中每个饼图上的数字代表区ID,乳腺组织的三个主要局部解剖区域标记为A1-A3。(e)每个区中细胞类型比例的分层聚类及其在乳腺组织中的空间位置。(f)Sankey图,其将9个主要乳腺细胞类型映射到乳腺组织中三个不同的空间区域。
图16A-G。人类乳腺组织中细胞表达状态的空间共定位。(a)细胞类型和表达状态的t-SNE图,示出了成纤维细胞、髓样、上皮和内皮细胞的簇,(b)三种成纤维细胞表达状态,(c)三种髓样表达状态,(d)三种上皮表达状态,和(e)两种内皮表达状态。(b-e)小图从左到右安排,示出了每种细胞类型的细胞表达状态的高维图、每种表达状态的前10个基因的聚类热图、整个组织区上表达状态频率的饼图及将表达状态映射到三个主要局部解剖区域的Sankey图。(f)整个空间区上细胞类型和细胞状态频率的聚类热图,示出了对应于不同空间区域的三个主要的簇。(g)共定位到乳腺组织中三个主要的局部解剖区域的细胞类型和表达状态的Sankey图映射。
图17A-M。浸润性乳腺癌中肿瘤细胞和微环境的空间组织。(a)来自冷冻的雌激素受体阳性乳腺肿瘤的snRNA-seq数据的高维t-SNE图,该乳腺肿瘤被宏观解剖为15个空间区。(b)乳腺肿瘤组织中15个空间区上细胞类型频率的饼图。(c)主要细胞类型到乳腺肿瘤组织中宏观解剖空间区域的Sankey图映射。(d)从snRNA-seq读段深度数据计算的拷贝数畸变的聚类热图,三个主要的簇的共有谱在下面示出。共有谱中的黑色箭头示出了克隆1和克隆2之间基因组区中的主要差异。(e)来自所有空间区的单细胞的高维表达图,及从RNA读段计数数据推断出的二倍体和非整倍体拷贝数谱的映射。(f)来自肿瘤细胞的聚类表达数据的t-SNE图。(g)非整倍体和二倍体细胞到肿瘤细胞表达簇数据的映射。(h)15个空间区上肿瘤亚克隆频率的饼图,指示肿瘤组织中的两个主要局部解剖区域(A1,A2)。(i)将来自两个肿瘤克隆的单细胞数据映射到不同空间区域的Sankey图。(j)富集在肿瘤克隆1中(顶部小图)或富集在肿瘤克隆2中(底部小图)的选定癌症基因的差异表达。Wilcoxon检验表明*:p<0.05,**:p<0.01,***:p<0.001,****:p<0.0001。(k)癌症标志通路中T1中前10个显著富集的GSEA签名(signature)(调整后的FDR p<0.05)。(l)两个巨噬细胞表达程序在15个空间区和两个局部解剖区域上的空间分布。(m)Sankey图,示出巨噬细胞状态共定位到两个主要的局部解剖区域。
图18。SNUBAR接头由转座体通用尾寡核苷酸的互补序列、PCR手柄、独特的空间/样本条形码和用于在高通量微滴snRNA-seq平台上引发的合成polyA尾组成。SNUBAR接头与带有通用尾的转座体复合物杂交。为将进行条形码编码的每个空间区制备具有独特的空间/样本接头条形码(例如,30-100)的单独的转座体。然后将负载的转座体与细胞核悬浮液一起孵育,其后样本/空间条形码将被递送到核被膜中并将整合到基因组DNA中或保持未整合于细胞核中。
图19。4种细胞系中单细胞核的总转录本计数。四种不同细胞系(SK-BR-3、MDA-MB-436、SKN-2、MDA-MB-231)的SNUBAR条形码编码,在单细胞核RNA测序后量化其转录本计数。
图20A-B-细胞系和双细胞过滤的高维图。(a)用于SNUBAR条形码编码并在于10X微滴平台上单细胞核RNA测序之前汇集于一起的四种带不同样本条形码的细胞系(SK-BR-3、MDA-MB-436、SKN-2、MDAMB-231)的t-SNE图。(b)在除了没有普遍条形码的阴性细胞外还去除了鉴定为具有多个样本条形码的多细胞后的细胞系数据。
图21A-D–用于在混合物实验中鉴定细胞系的标志基因。来自合并的四种细胞系数据与SNUBAR条形码的单细胞核RNA表达数据的高维t-SNE图。特征图中示出了(a)SKN-2的三个标志物(COL1A1、COL1A2、POSTN),(b)SK-BR-3的三个标志物(ERBB2、KRT7、GRB7),(c)MDA-MB-231的三个标志物(CD74、KISS1、BIRC3),和(d)MDA-MB-436的三个标志物(PI3、CA9、SAA1)。
图22–细胞中样本条形码计数相对于来自其他细胞系的背景条形码的百分数,分派给每种细胞系的样本条形码相对于来自进入到未分派的细胞系的细胞核中的其他条形码的污染的频率。
图23。多细胞和条形码交叉污染的散点图。样本条形码计数的散点图,用于鉴定四种不同细胞系之间的交叉污染和多细胞。
图24–在来自匹配的正常乳腺组织的空间区中检测到的细胞核数。在SNUBAR条形码编码和单细胞核RNA测序后在来自人类乳腺组织的36个宏观解剖组织区中的每一个中检测到的细胞数。
图25A-C–正常乳腺组织中上皮细胞类型的标志基因。来自人类乳腺组织的单细胞核RNA测序数据集中三种上皮亚型的已知标志物的特征图。(a)激素反应性管腔细胞中KRT19、ESR1和AR的特征图,(b)分泌性管腔上皮细胞中KRT15和LTF的表达,和(c)肌上皮细胞标志物的ACTA2、SYNPO2、MYLK和KRT14归一化基因表达的小提琴图。
图26A-D–正常乳腺组织中基质细胞的标志基因。三种基质细胞类型的已确立标志物的特征图,包括成纤维细胞、脂肪细胞和内皮细胞。(a)成纤维细胞中COL1A1、COL1A2、FN1的标志基因表达的特征图,和(b)脂肪细胞中ADIPOQ和PLIN1的表达。(c)血管内皮细胞中已知标志物PECAM1和VWF的基因表达的小提琴图,和(d)人类乳腺组织中淋巴内皮细胞标志物MMRN1、PROX1和PDPN的表达。
图27A-B–正常乳腺组织中免疫细胞的标志基因。在来自正常乳腺组织的单细胞核RNA测序数据中鉴定出的免疫细胞类型的已知标志基因的小提琴图。(a)T-细胞标志物CD2、CD247、FYN和IL7R的小提琴图,和(b)一般免疫细胞标志物CD45(PTPRC)及匹配的正常乳腺组织中已知的巨噬细胞标志物MSR1和MRC1。
图28–正常乳腺组织中成纤维细胞表达状态和空间区的聚类热图。正常乳腺组织中36个不同空间区中三种成纤维细胞表达状态(F1-F3)的聚类。pct指示每个空间区中每个成纤维细胞状态的百分数。
图29A-C–正常乳腺组织的髓样细胞中促血管生成和巨噬细胞标志物的表达。(a)促血管生成标志物SPP1、NRP1、MMP9、HIF1A和CTSB及巨噬细胞M2标志物MSR1、CD36、ITGAX(cd11c)、ITGAM(cd11b)、髓样亚簇M2-1的PPARG的单细胞核基因表达的小提琴图。(b)巨噬细胞亚簇M2-2中M2标志物(MRC1、CD163、STAB1)的单细胞核基因表达的小提琴图。(c)已确立的树突状细胞标志物AXL和TCF4以及髓样簇中HLA基因(HLA-DRA、HLA-DRB1、HLA-DRB5、HLA-DPA1)的小提琴图。
图30A-C–正常乳腺组织中髓样、上皮和内皮表达状态及空间区的聚类热图。正常乳腺组织的36个不同空间区中,(a)三种髓样表达状态M2-1、M2-2、DC的聚类,(b)三种上皮表达状态(LumHR+、LumHR-、MyoEpi)的聚类,和(c)两种不同的内皮表达状态(LymEndo、VasEndo)的聚类。pct指示每个区中每个成纤维细胞状态的百分数。
图31A-B-内皮细胞状态标志物的特征图。(a)淋巴内皮标志物(CCL21、PROX1、PDPN、RELN)和(b)血管内皮标志物(VWF、PECAM1、MCTP1、PALMD、MYRIP)的基因表达水平示出在内皮细胞的两个亚群中。
图32A-B-冷冻乳腺癌样本中的线粒体和核糖体蛋白基因百分数。(a)在冷冻乳腺肿瘤样本的每个单细胞核中检测到的线粒体(MT)基因百分数。(b)在来自冷冻乳腺癌样本的单细胞核中检测到的核糖体蛋白(RP)基因百分数。
图33–在来自冷冻人类乳腺肿瘤的5种细胞类型中表达的前部基因的聚类热图。在每个簇中检测到的前10个基因的单细胞核RNA表达对应于不同的细胞类型,包括肿瘤细胞和微环境中的4种细胞类型。
图34A-E–在来自人类乳腺肿瘤的单细胞核rna簇中表达的细胞类型的已知标志物。(a)已确立的成纤维细胞标志物表达,包括COL1A1、FN1和DCN,(b)一般免疫细胞标志物PTPRC(CD45)、巨噬细胞标志物MSR1和CD86,(c)管腔上皮标志物KRT18和KRT19,(d)内皮标志物PECAM1和VWF,和(e)T-细胞标志物CD3D和CD2。
图35-乳腺肿瘤的成纤维细胞群体中癌症相关成纤维细胞(CAF)标志物的表达。通过单细胞核RNA测序鉴定出的五个细胞类型簇中五个CAF标志物(FAP、PDGFRB、COL1A1、POSTN、GREM1)的归一化基因表达的小提琴图。
图36–CD8细胞毒性T细胞标志物的表达特征图。CD8细胞毒性T细胞标志物(GZMB、PRF1)在来自乳腺肿瘤样本的细胞类型簇中的基因表达。
图37-乳腺肿瘤中的免疫和巨噬细胞标志物。小提琴图示出了乳腺肿瘤样本中免疫细胞基因(PTPRC、CD86)和M2巨噬细胞标志物(MSR1、CD163、MRC1)的单细胞核RNA表达水平。
图38-在乳腺肿瘤组织中表达的乳腺癌基因。16个已知乳腺癌基因的特征图,其为在来自乳腺肿瘤样本的单细胞核RNA数据的高维t-SNE图中的表达。
图39A-B-两个肿瘤克隆在15个不同区中的空间分布。(a)两个肿瘤克隆(c1、c2)基于克隆频率的聚类,和(b)来自推断的拷贝数数据。Pct指示每个空间区中克隆的百分数。
图40A-B–乳腺肿瘤中巨噬细胞表达状态的聚类。冷冻人类乳腺癌组织中(a)两个巨噬细胞亚群的高维t-SNE图和(b)两个巨噬细胞亚群之间前10个差异表达基因的聚类热图。
图41-两个巨噬细胞亚群的基因标志物的表达。单细胞核RNA数据的小提琴图示出了乳腺肿瘤中两个巨噬细胞亚群的基因标志物:(a)M2-2标志物和(b)M2-1标志物的表达。
图42–乳腺肿瘤的不同空间区中肿瘤克隆和巨噬细胞亚群的聚类热图:乳腺肿瘤中由单细胞核RNA基因表达和空间区限定的两个肿瘤亚群(T1和T2)和两个巨噬细胞亚群(M2-1和M2-2)的分层聚类。
图43A-B-使用定制微阵列将空间条形码递送到DCIS患者的组织中的SNUBAR单细胞RNA数据的高维tSNE图(A)和每种细胞类型的前10个差异标志物的归一化基因表达热图(B)。
图44A-C-使用基于定制微阵列的SNUBAR方法检测到的单个细胞的空间分布。(A)基于SNUBAR空间条形码,DCIS组织切片中X-Y坐标中的空间分布。(B)解离前宏观镜下组织的明场。(C)解离前DCIS组织切片中细胞核的DAPI染色。
图45A-E-该图示出了使用单个、两个或多个条形码寡核苷酸来制备带条形码的转座体以便多重化。(A)将具有相同条形码序列的条形码与含有两个通用尾的转座体组装在一起,在本实例中我们只示出了具有相同通用尾的条形码,然而另一种可能是使用具有两个或多个通用尾的单个条形码序列与转座体通用尾杂交。(B)将具有两个不同条形码序列的条形码与转座体中两个不同的通用尾组装在一起。具有相同条形码序列的条形码可具有与转座体通用尾杂交的不同通用尾。(C)将具有两个不同条形码序列但具有相同通用尾的条形码与转座体组装在一起。(D)将具有多个不同条形码序列但具有相同通用尾的条形码与转座体组装在一起。(E)将具有多个不同条形码序列但具有两个不同通用尾的条形码与转座体组装在一起。A-E中示出的所有上述场景展示了如何使用与转座酶或转座体组装在一起的单个或组合条形码对单个细胞/核进行条形码编码,或者可分开组装带条形码的转座体,然后将它们混合在一起获得带混合条形码的转座体。
具体实施方式
本发明人创造了一种称为细胞核空间条形码编码(SNUBAR)的系统,该系统能够在将组织解离成细胞核悬浮液以进行高通量测序之前对组织切片中的单个细胞核进行空间条形码编码。SNUBAR包括四个步骤:1)组装空间条形码转座体,2)在组织切片中的不同区上施加空间转座体,3)将组织解离成细胞核悬浮液以进行高通量单细胞测序,和4)将空间条形码索引映射到单细胞基因组学数据以确定细胞在组织切片中的原始(X,Y)位置。在一些实施方案中,步骤(1)和(2)可一起进行。在一些实施方案中,可首先解离组织,然后可一起或依次进行步骤(1)和/或(2)。此手段可广泛应用于新鲜和冷冻的组织并与各种下游单细胞测序手段兼容,如基于微流体的高通量单细胞RNA测序方法如Drop seq、InDrop、Seq-Well、Microwell-seq、Nanogrid seq、10x genomics RNA测序平台或低通量方法如SMART-seq、SMART-seq2、CEL-seq、CEL-seq2。除了单细胞RNA测序方法外,该手段还可用于单细胞DNA分析如10x genomics CNV测序平台、sci-seq、直接标签化或表观基因组测序分析如sciATAC-seq和纳米孔scATAC-seq。总之,SNUBAR可将来自组织病理学或组织切片成像的空间信息与单细胞基因组学数据联系起来,并很可能在研究癌前病变、浸润性癌症、由组织病理学定义的疾病组织中具有广泛的应用。该手段还可用于许多研究应用中以研究免疫学、发育、癌症进展或神经生物学的基础生物学。
I.寡核苷酸
本公开的实施方案涉及包含条形码区、靶标区和转座体衔接子区的寡核苷酸,其将在下文进一步描述。术语“寡核苷酸”、“多核苷酸”和“核酸”可互换使用并包括天然或经修饰单体或键的线形低聚物,包括脱氧核糖核苷、核糖核苷、其α-异头物形式、肽核酸(PNA)等,能够通过单体-单体相互作用的规律如Watson-Crick类型的碱基配对、碱基堆积、Hoogsteen或反向Hoogsteen类型的碱基配对等与靶标多核苷酸特异性结合。通常单体通过磷酸二酯键或其类似物连接形成寡核苷酸,大小从几个单体单元例如3-4个到数十个单体单元不等。任何时候当用字母序列如“ATGCCTG”代表寡核苷酸时,应理解核苷酸从左到右按5'→3'顺序排列,“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,“T”表示胸苷,另有说明除外。磷酸二酯键的类似物包括硫代磷酸酯、二硫代磷酸酯、苯胺磷酸酯、氨基磷酸酯等。本领域技术人员清楚何时可采用具有天然或非天然核苷酸的寡核苷酸,例如,在要求通过酶处理的情况下,通常需要由天然核苷酸组成的寡核苷酸。
核酸可以是“未经修饰的寡核苷酸”或“未经修饰的核酸”,其通常是指核糖核酸(RNA)或脱氧核糖核酸(DNA)的低聚物或聚合物。在一些实施方案中,核酸分子为未经修饰的寡核苷酸。该术语包括由天然存在的核碱基、糖和共价核苷间键组成的寡核苷酸。术语“寡核苷酸类似物”是指具有一个或多于一个以与寡核苷酸类似的方式起作用的非天然存在的部分的寡核苷酸。由于期望的性质如增强的细胞摄取、增强的对其他寡核苷酸或核酸靶标的亲和力以及提高的在核酸酶存在下的稳定性,因此,经常选择这样的非天然存在的寡核苷酸而不是天然存在的形式。术语“寡核苷酸”可用于指未经修饰的寡核苷酸或寡核苷酸类似物。
核酸分子的具体实例包括含有经修饰的即非天然存在的核苷间键的核酸分子。由于期望的性质如增强的细胞摄取、增强的对其他寡核苷酸或核酸靶标的亲和力以及提高的在核酸酶存在下的稳定性,因此,经常选择这样的非天然的核苷间键而不是天然存在的形式。在一个具体的实施方案中,修饰包含甲基基团。
核酸分子可具有一个或多于一个经修饰的核苷间键。如本说明书中所定义,具有经修饰的核苷间键的寡核苷酸包括保留磷原子的核苷间键和不具有磷原子的核苷间键。就本说明书的目的而言,并如本领域中有时所援引的,在其核苷间骨架中不具有磷原子的经修饰寡核苷酸也可被认为是寡核苷。
对核酸分子的修饰可包括其中一个或两个末端核苷酸被修饰的修饰。一种合适的含磷的经修饰核苷间键为硫代磷酸酯核苷间键。许多其他经修饰的寡核苷酸骨架(核苷间键)是本领域已知的并可用于本实施方案的上下文中。教导含磷核苷间键的制备的代表性美国专利包括但不限于美国专利号3687808、4469863、4476301、5023243、5177196、5188897、5264423、5276019、5278302、5286717、5321131、5399676、5405939、5453496、5455233、5466677、5476925、5519126、5536821、5541306、5550111、5563253、5571799、5587361、5194599、5565555、5527899、5721218、5672697、5625050、5489677和5602240,其各通过引用并入本文。
其中不包含磷原子的经修饰寡核苷骨架(核苷间键)具有由短链烷基或环烷基核苷间键、混合杂原子和烷基或环烷基核苷间键、或一个或多于一个短链杂原子或杂环核苷间键形成的核苷间键。这些包括具有酰胺骨架的那些;和其他,包括具有混合的N、O、S和CH2组分部分的那些。
教导上述不含磷寡核苷的制备的代表性美国专利包括但不限于美国专利号5034506、5166315、5185444、5214134、5216141、5235033、5264562、5264564、5405938、5434257、5466677、5470967、5489677、5541307、5561225、5596086、5602240、5610289、5602240、5608046、5610289、5618704、5623070、5663312、5633360、5677437、5792608、5646269和5677439,其各通过引用并入本文。
低聚化合物还可包括寡核苷酸模拟物。应用于寡核苷酸的术语模拟物旨在包括其中仅呋喃糖环或呋喃糖环和核苷酸间键两者都被替换为新基团,例如仅呋喃糖环被替换为吗啉基环的低聚化合物,在本领域中也被称为糖替代物。杂环碱基部分或经修饰的杂环碱基部分被保留以与适宜的靶标核酸杂交。
寡核苷酸模拟物可包括低聚化合物如肽核酸(PNA)和环己烯基核酸(称为CeNA,参见Wang et al.,J.Am.Chem.Soc.,2000,122,8595-8602)。教导寡核苷酸模拟物的制备的代表性美国专利包括但不限于美国专利号5539082、5714331和5719262,其各自通过引用并入本文。另一类寡核苷酸模拟物被称为膦酸单酯核酸并在骨架中并入有磷基团。据报道,这类寡核苷酸模拟物在抑制基因表达(反义寡核苷酸、核酶、正义寡核苷酸和三链形成寡核苷酸)领域中具有有用的物理、生物和药理学性质,可作为检测核酸的探针和作为辅助物用于分子生物学中。已见报道另一种寡核苷酸模拟物,其中呋喃糖基环已被替换为环丁基部分。
核酸分子还可含有一个或多于一个经修饰或被取代的糖部分。保留碱基部分以与适宜的核酸靶标化合物杂交。糖修饰可赋予低聚化合物核酸酶稳定性、结合亲和力或一些其他有益的生物学性质。代表性的修饰糖包括碳环或无环糖、在其2'、3'或4'位置中的一个或多于一个处具有取代基的糖、具有替换糖的一个或多于一个氢原子的取代基的糖和在糖中的任何两个其他原子之间具有键的糖。本领域已知大量的糖修饰,在2'位置处修饰的糖和在糖的任何2个原子之间具有桥接(使得糖是双环的)的糖在此实施方案中特别有用。在此实施方案中可用的糖修饰的实例包括但不限于包含选自以下的糖取代基基团的化合物:OH;F;O-、S-或N-烷基;或O-烷基-O-烷基,其中烷基、烯基和炔基可以是取代或未取代的C1至C10烷基或C2至C10烯基和炔基。特别合适的是:2-甲氧基乙氧基(也称为2'-O-甲氧基乙氧基、2'-MOE或2'-OCH2CH2OCH3)、2'-O-甲基(2'-O--CH3)、2'-氟(2'-F)或具有连接4'碳原子与2'碳原子的桥接基团的双环糖修饰核苷,其中实例桥接基团包括--CH2--O--、--(CH2)2--O--或--CH2--N(R3)--O,其中R3为H或C1-C12烷基。
核酸分子还可含有一个或多于一个核碱基(在本领域中常简称为“碱基”)修饰或取代,这些修饰或取代在结构上与天然存在的或合成的未修饰核碱基不同,但在功能上可互换。这样的核碱基修饰可赋予低聚化合物核酸酶稳定性、结合亲和力或一些其他有益的生物学性质。如本文所用,“未经修饰的”或“天然的”核碱基包括嘌呤碱基腺嘌呤(A)和鸟嘌呤(G)及嘧啶碱基胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U)。在本文中也被称为杂环碱基部分的经修饰核碱基包括其他合成的和天然的核碱基,其许多实例有如5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、7-脱氮鸟嘌呤和7-脱氮腺嘌呤等。
杂环碱基部分还可包括其中嘌呤或嘧啶碱基被替换为其他杂环的那些,例如7-脱氮腺嘌呤、7-脱氮鸟苷、2-氨基吡啶和2-吡啶酮。一些核碱基包括在美国专利号3,687,808中公开的那些,在The Concise Encyclopedia Of Polymer Science And Engineering(第858至859页),Kroschwitz,J.I.,ed.John Wiley&Sons,1990中公开的那些,由Englisch etal.,Angewandte Chemie,International Edition,1991,30,613公开的那些,和由Sanghvi,Y.S.,Chapter 15,Antisense Research and Applications,pages 289-302,Crooke,S.T.and Lebleu,B.,ed.,CRC Press,1993公开的那些。这些核碱基中的某些对于增加低聚化合物的结合亲和力特别有用。这些包括5-取代的嘧啶、6-氮杂嘧啶及N-2、N-6和O-6取代的嘌呤,包括2氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。
寡核苷酸oligos可为至少10、20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390或400个核苷酸的长度(或其中任何可派生范围)。
B.条形码
本公开的寡核苷酸包含条形码区,其可用于鉴定细胞特征。条形码区可以是长度为至少、至多、约或确切地5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200或多于200个(或其中任何可派生范围)核苷酸的多核苷酸。条形码可包含一个或多于一个通用PCR区、衔接子(如用于制作cDNA文库的衔接子)、接头或其组合。条形码区还可包括分子索引区(MI),其可用于计数有多少条形码序列被递送到每个细胞或细胞核中。MI可为4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200或多于200个(或其中任何可派生范围)核苷酸的长度。
条形码区可鉴定的细胞特征包括细胞类型;组织类型;处理条件;如用化合物、核酸、多肽或抗体进行处理;细胞在组织内的位置;或患者身份。在某些实施方案中,细胞特征包括细胞在组织内的位置。在某些实施方案中,细胞特征包括细胞在组织内的平面位置。条形码可对于细胞或细胞群体是特异性的,使得在合并多个带不同条形码的细胞或细胞群体后,条形码的测序的分离鉴定细胞或细胞群体的细胞特征。然后可将细胞特征与其他测序数据或者细胞或细胞群体的分析相关联。例如,分析可包括通过mRNA或DNA的单细胞分析获得的表观基因组、基因组或转录组信息。
在一些实施方案中,条形码对于一个细胞是唯一的。在一些实施方案中,条形码对于细胞群体如约2、3、4、5、6、7、8、9、10、50、100、500、1000、5000、10000、25000、50000、100000、500000或1000000个(或其中任何可派生范围)细胞是唯一的。在一些实施方案中,将包含条形码的寡核苷酸打印在基底上。在一些实施方案中,在具有打印的条形码的基底之上沉积细胞。在这种情况下,条形码可代表基底的X和Y坐标,其然后对应于沉积在基底上的一个或多于一个细胞的位置。细胞可作为组织切片沉积。例如,可对组织进行切片。例如,可使用安装在切片机或超薄切片机中的钢刀或金刚石刀来切割限定厚度如20、30、40、50、100、200、500或1000纳米或者2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50微米的组织切片,其可然后安装到基底如显微镜载玻片。在一些实施方案中,显微镜载玻片具有预先打印的本公开的寡核苷酸。
切片可在多个方向上切穿组织。对于组织的病理学评价,垂直切片(垂直于组织的表面切割以产生横截面)是常用的方法。沿组织的长轴切割的水平(也称为横向或纵向)切片常用于毛囊和毛囊皮脂腺单位的评价中。在莫氏手术中和在CCPDMA的方法中使用水平切片的切向。
组织可以是固定的或未固定的。在一些实施方案中,在沉积到基底上之前将组织固定。在一些实施方案中,组织包含福尔马林固定切片。在一些实施方案中,该切片包含冷冻切片。在一些实施方案中,组织可经历某些处理以允许材料如沉积在基底上的寡核苷酸的摄取。例如,组织可经历透化以允许从本文描述的转移方法摄取寡核苷酸。
在一些实施方案中,组织用一种或多于一种实验室染色剂如苏木精、伊红、甲苯胺蓝、Masson三色染色剂、Mallory三色染色剂、Weigert弹力纤维染色剂、Heidenhain AZAN三色染色剂、银染色剂、Whright染色剂、Orcein染色剂、DAPI、Hoechst染色剂、SYTO染色剂、碘化丙啶、TO-PRO-3、SYTOX染色剂和高碘酸-希夫染色剂染色。可使用替代的组织学技术,如塑料包埋。
在一些实施方案中,在寡核苷酸的转移之前或之后对组织进行分析。分析可包括荧光原位杂交或免疫组织化学。在一些实施方案中,细胞特征可以是在分析技术中提供阳性荧光信号的细胞。
条形码通过本领域已知的方法进行定量或确定,包括定量测序(例如,使用
Figure BDA0003393927830000341
测序仪)或定量杂交技术(例如,微阵列杂交技术或使用
Figure BDA0003393927830000342
珠子系统)。测序方法将在本文中进一步描述。
C.靶标区
靶标区可以是有助于带条形码的细胞中寡核苷酸和/或其他核酸的检测、扩增、测序和/或文库制备的核酸。在一些实施方案中,靶标区可用作DNA或RNA的扩增的引物结合位点。靶标区对于应用于单细胞的分析技术可能是特异性的。分析技术还可包括对于细胞中的核酸如细胞DNA或RNA特异性的另一条形码。在一些实施方案中,细胞条形码,如鉴定细胞核酸的条形码,可与来自本公开的寡核苷酸的条形码一起或在与来自本公开的寡核苷酸的条形码相同的核酸上扩增,如鉴定细胞特征的条形码。这些单细胞分析技术将在下文进一步描述。本文描述的单细胞分析技术可用于本公开的实施方案中。例如,文库特异性序列可包含引物结合序列和polyA区。在RNA分析方法中,polyA区可与polyT寡核苷酸结合。引物结合序列可用作PCR引物结合序列以对空间条形码序列和/或细胞条形码序列进行扩增和测序。作为另一个实例,如果带条形码的细胞核将通过高通量单细胞DNA测序进行拷贝数测序(例如,基于直接标签化的化学),则靶标特异性序列可以是通用序列,其中通用序列将用于标识空间条形码位置。可基于不同的下游测序文库构建方法和应用定制靶标序列。
D.转座体衔接子区
转座体衔接子区提供将寡核苷酸与转座酶或转座体复合物连接/结合的序列。例如,转座体衔接子区可包含与转座酶直接结合的序列,或与转座体中的互补通用寡核苷酸接头结合的序列。这在实施例1的图2中进一步示意。实例包括衔接子如用于具有Tn5转座体的系统中的TCGTCGGCAGCGTCagatgtgtataagagacag(SEQ ID NO:1)和GTCTCGTGGGCTCGGagatgtgtataagagacag(SEQ ID NO:2)(大写字母:通用序列,小写字母:将被Tn5转座酶识别和结合的嵌合序列)。在某些实施方案中,条形码寡核苷酸的转座体衔接子区可设计为与SEQID NO:1或2的通用衔接子互补。包含转座体衔接子区的示例性寡核苷酸的结构包括以下:如以下的条形码寡核苷酸:(1)5’-GACGCTGCCGACGA(SEQ ID NO:3)---PCR手柄序列---空间/样本条形码序列-poly A-3’(SEQ ID NO:3为SEQ ID NO:1通用序列的互补)和(2)5’-CGAGCCCACGAGAC(SEQ ID NO:4)---PCR手柄序列---空间/样本条形码序列-poly A-3’(SEQID NO:4为SEQ ID NO:2通用序列的互补)。
II.转座体复合物
A.转座酶
转座酶可以是与寡核苷酸结合形成转座体复合物的任何转座酶。在一些实施方案中,转座酶为DDE转座酶。这些转座酶携带三个一组的保守氨基酸:天冬氨酸(D)、天冬氨酸(D)和谷氨酸(E),它们是催化所需金属离子的配位所需要的,尽管DDE化学可以不同的方式整合到转座循环中。它们采用原始转座子的剪切和粘贴机制。该家族包括玉米Ac转座子,以及果蝇P元件、噬菌体Mu、Tn5和Tn10、Mariner、IS10和IS50。
在一些实施方案中,转座酶为酪氨酸(Y)转座酶。它们也使用转座的剪切和粘贴机制,但采用位点特异性酪氨酸残基。转座子从其原始位点(被修复)切除;然后转座子形成一个封闭的DNA环,其通过原始切除步骤的倒转整合到一个新的位点中。这些转座子通常只见于细菌中,并包括Kangaroo、Tn916和DIRS1。
在一些实施方案中,转座酶为丝氨酸(S)转座酶。这些转座酶使用涉及环状DNA中间体的转座的剪切和粘贴(剪切/粘贴)机制,这与酪氨酸转座酶相似,只是它们采用位点特异性丝氨酸残基。这些转座子通常只见于细菌中,并包括Tn5397和IS607。
在一些实施方案中,转座酶为滚环(RC)或Y2转座酶。它们采用复制机制,其中它们通过DNA复制将单链直接复制到目标位点中,使得旧的(模板)和新的(复制的)转座子都有一条新合成的链。这些转座子通常采用宿主DNA复制酶。实例包括IS91和螺旋子。
在一些实施方案中,转座酶为逆转座酶。在一些实施方案中,寡核苷酸包含2类转座子元件。
转座酶的实例在下表中提供:
Figure BDA0003393927830000361
Figure BDA0003393927830000371
在一些实施方案中,本公开的方法利用具有通用衔接子的转座体。这样的复合物可商购获得。例如,Tn5转座体可自Illumina获得,TDE1转座体可自Nextera DNA LibraryPrep Kit获得,ATM转座体可自Nextera XT DNA Library Prep Kit获得。
B.复合物向细胞中的转移
本公开的实施方案涉及转座体复合物向细胞中的转移,其然后可进入细胞核以提供带条形码的细胞核。在一些实施方案中,通过将复合物手动移液到细胞之上来将转座体复合物转移到细胞中。手动移液,如微量移液,可在显微镜的帮助下进行。可将包含转座子复合物的组合物移液到每个细胞之上以允许复合物向细胞中的转移。在一些实施方案中,转座体复合物沉积在细胞核之上。在一些实施方案中,使用微流体沉积系统。在一些实施方案中,使用微阵列打印机或液体转移系统来将转座体复合物转移到细胞或细胞核。在一些实施方案中,利用微阵列。寡核苷酸或预组装的转座体可打印在微阵列的表面上。在一些实施方案中,将寡核苷酸负载到基底如微阵列上,并添加包含通过碱基互补性与微阵列表面上的寡核苷酸的转座体衔接子区结合的寡核苷酸的转座体复合物以形成基底表面上的寡核苷酸向转座子的附着。在将转座体负载到微阵列上之后,可将组织切片施加到基底,例如施加到带条形码的转座体基底之上。在一些实施方案中,方法还包括对组织进行透化。在一些实施方案中,方法包括或还包括从基底释放条形码。在一些实施方案中,寡核苷酸包含切割位点,如限制酶位点。在一些实施方案中,释放寡核苷酸包括寡核苷酸的限制酶切割、切口酶切割、UV光切割或化学切割。
核酸阵列可包含至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250或多于250个不同的多核苷酸寡核苷酸,它们可与不同和/或相同的生物标志物、转座体通用衔接子、寡核苷酸杂交。阵列上的探针密度可在任何范围内。在一些实施方案中,所述密度可为50、100、200、300、400、500或多于500个寡核苷酸/cm2
特别考虑的是基于芯片的核酸技术,如Hacia et al.(1996)和Shoemaker et al.(1996)描述的那些。简言之,这些技术涉及快速准确地分析大量基因的定量方法。通过用寡核苷酸对基因加标签或使用固定探针阵列,人们可采用芯片技术来将靶标分子分离为高密度阵列并在杂交的基础上筛选这些分子(也参见Pease et al.,1994;和Fodor et al,1991)。预期该技术可与本文所述的方法结合使用。
某些实施方案可能涉及阵列或从阵列生成的数据的使用。数据可能可容易地获得。此外,可准备阵列以生成随后可用于相关性研究中的数据。
阵列通常是指核酸分子(探针)的有序宏阵列或微阵列,如本公开的寡核苷酸。核酸分子以空间分离的组织定位在支承材料上。宏阵列通常是在其上点有核酸的硝酸纤维素或尼龙的片材。微阵列将核酸寡核苷酸定位得更密集,使得可将多达数百万个核酸分子装配到通常1至4平方厘米的区中。微阵列可通过将核酸分子例如基因、寡核苷酸等点到基底上或在基底上原位制造寡核苷酸序列来制造。点或制造的核酸分子可以高达每平方厘米约30个不相同的核酸分子或高于每平方厘米约30个不相同的核酸分子,例如高达每平方厘米约100个或甚至1000个的高密度矩阵模式施加。微阵列通常使用涂层玻璃作为固体支承物,这与过滤器阵列的基于硝酸纤维素的材料形成对比。通过具有互补核酸样本的有序阵列,可跟踪每个样本的位置并链接到原始样本。本领域技术人员已知多种不同的阵列装置,其中多个不同的核酸寡核苷酸与固体支承物的表面稳定地缔合。用于阵列的可用基底包括尼龙、玻璃和硅。这样的阵列可以多种不同的方式变化,包括平均探针长度、寡核苷酸的序列或类型、探针与阵列表面之间的键的性质,例如共价还是非共价等。
用于制备微阵列的代表性方法和设备已在例如美国专利号5143854、5202231、5242974、5288644、5324633、5384261、5405783、5412087、5424186、5429807、5432049、5436327、5445934、5468613、5470710、5472672、5492806、5525464、5503980、5510270、5525464、5527681、5529756、5532128、5545531、5547839、5554501、5556752、5561071、5571639、5580726、5580732、5593839、5599695、5599672、5610;287、5624711、5631134、5639603、5654413、5658734、5661028、5665547、5667972、5695940、5700637、5744305、5800992、5807522、5830645、5837196、5871928、5847219、5876932、5919626、6004755、6087102、6368799、6383749、6617112、6638717、6720138以及WO 93/17126、WO 95/11995、WO95/21265、WO 95/21944、WO 95/35505、WO 96/31622、WO 97/10365、WO 97/27317、WO 99/35505、WO 09923256、WO 09936760、WO0138580、WO 0168255、WO 03020898、WO 03040410、WO03053586、WO 03087297、WO 03091426、WO03100012、WO 04020085、WO 04027093、EP 373203、EP785 280、EP 799 897和UK 8 803 000中有描述;其公开内容通过引用并入本文。
预期阵列可以是高密度阵列,使得它们含有100个或多于100个不同的寡核苷酸。预期它们可含有1000、16000、65000、250000或1000000个或多于1000000个不同的寡核苷酸(或其中任何可派生范围)。
阵列中每个不同的寡核苷酸序列的位置和序列通常是已知的。此外,大量不同的寡核苷酸可占据相对小的区域,从而提供探针密度通常大于每cm2约60、100、600、1000、5000、10000、40000、100000或400000个不同的寡核苷酸探针的高密度阵列。阵列的表面积可为约或小于约1、1.6、2、3、4、5、6、7、8、9或10cm2
此外,本领域普通技术人员可容易地分析使用阵列生成的数据。这样的操作规程包括见于WO 9743450、WO 03023058、WO 03022421、WO 03029485、WO 03067217、WO03066906、WO 03076928、WO 03093810、WO 03100448A1中的信息,所有这些均通过引用明确并入。
在本公开的实施方案中,可将包含转座体复合物的组合物转移到第一细胞中,其中每个复合物包含第一条形码;可将包含转座体复合物的组合物转移到第二细胞中,其中每个复合物包含第二条形码;可将包含转座体复合物的组合物转移到第三细胞中,其中每个复合物包含第三条形码;可将包含转座体复合物的组合物转移到第四细胞中,其中每个复合物包含第四条形码;可将包含转座体复合物的组合物转移到第五细胞中,其中每个复合物包含第五条形码;可将包含转座体复合物的组合物转移到第六细胞中,其中每个复合物包含第六条形码;和可将包含转座体复合物的组合物转移到第n细胞中,其中每个复合物包含第n条形码。N可为1至1000000的数或者至多或至少10、50、75、100、500、1000、5000、10000、15000、20000、25000、50000、75000、100000、125000、150000、175000、200000、250000、300000、350000、400000、450000、500000、550000、600000、700000、800000、900000或1000000个细胞(或其中任何可派生范围)。
III.分析核酸的方法
A.单细胞分析技术
1.Drop-Seq
Drop-Seq以高度平行的方式分析来自一个一个单独的细胞的液滴的mRNA转录本。这种单细胞测序方法使用微流体装置来分隔含有单细胞、裂解缓冲液和覆盖有带条形码的引物的微珠的液滴。每个引物含有:1)30bp的oligo(dT)序列以结合mRNA;2)8bp的分子索引以独特地鉴定每条mRNA链;
3)每个细胞独有的12bp条形码和4)所有珠子上相同的通用序列。分隔后,液滴中的细胞被裂解,释放的mRNA与引物珠子的oligo(dT)束杂交。接下来,汇集所有液滴并破碎以释放其中的珠子。在分离珠子后,用模板切换对它们进行逆转录。这将生成第一cDNA链,其中PCR引物序列代替通用序列。cDNA经PCR扩增,并使用Nextera XT文库制备试剂盒添加测序接头。带条形码的mRNA样本已准备好进行测序。此方法在Macosko,Evan Z.,et al.,Cell,2015.161(5):p.1202-1214中有进一步描述,其通过引用并入本文。
2.inDrop
inDrop用于高通量单细胞标记。此手段类似于Drop-seq,但它使用水凝胶微球来引入寡核苷酸。将来自细胞悬浮液的单细胞分离到含有裂解缓冲液的液滴中。细胞裂解后,细胞液滴与含有细胞特异性条形码的水凝胶微球和另一个具有用于RT的酶的液滴融合。汇集来自所有孔的液滴并进行等温反应以实现RT。条形码退火至poly(A)+mRNA并充当逆转录酶的引物。现在每个mRNA链都具有细胞特异性条形码,汇集液滴并破碎,并纯化cDNA。cDNA链的3'末端与接头连接、扩增、退火至带索引的引物,并在测序前进一步扩增。此方法在Allon M.,et al.,Cell,2015.161(5):p.1187-1201中有进一步描述,其通过引用并入本文。
3.CEL-seq
CEL-Seq使用RNA的条形码编码和汇集来克服来自低输入的挑战。在这种方法中,每个细胞都在其单独的管中使用带有独特条形码的引物进行RT。在第二链合成后,汇集来自所有反应管的cDNA并进行PCR扩增。PCR产物的双端深度测序允许准确检测源自两条链的序列信息。此方法和相关的CEL-seq2在Hashimshony,T.,et al.,Cell Reports,2012.2(3):p.666-673和Hashimshony,T.,et al.,Genome Biology,2016.17(1):p.77中有进一步描述,其通过引用并入本文。
4.Quartz-Seq
Quartz-Seq方法优化了单细胞的全转录本扩增(WTA)。在此方法中,首先将RT引物与T7启动子和PCR靶标的一并添加到提取的mRNA中。RT合成第一链cDNA,其后RT引物被核酸外切酶I消化。接下来,向第一链cDNA的3’末端添加poly(A)尾以及含有PCR靶标的poly(dT)引物。在第二链生成后,添加封闭引物以确保足够量的PCR富集以便测序。深度测序允许单个细胞的全转录组的准确、高分辨率呈现。
5.MARS-Seq
MARS-Seq在自动化和大规模并行工作流中以高分辨率描绘单细胞的转录动力学。MARS-Seq可用于含有多种不同细胞亚群的体内样本。首先使用FACS将单细胞分离到一个一个单独的孔中。裂解每个细胞,并将mRNA的3'末端退火至含T7启动子的独特分子标识符。将mRNA逆转录以生成第一cDNA链并用核酸外切酶I处理以去除剩余的RT引物。接下来,将细胞裂解物汇集于一起并转化为双链cDNA。将DNA链转录到RNA并用DNase处理以去除混合物中剩余的DNA模板。将RNA链片段化并退火至测序接头,然后进行RT以生成准备好测序的带条形码的cDNA文库。
6.CytoSeq
CytoSeq能够对数千个单细胞进行基因表达谱分析。在这种方法中,将单细胞随机沉积到孔中。向每个孔中添加带有特定捕获探针的珠子的组合文库。在细胞裂解后,mRNA与珠子杂交,随后将其汇集进行RT、扩增和测序。深度测序提供若干单细胞的准确、高覆盖率基因表达谱。
7.Hi-SCL
Hi-SCL使用定制的微流体系统生成数千个单细胞的转录组谱,与Drop-Seq和inDrop相似。将来自细胞悬浮液的单细胞分离到含有裂解缓冲液的液滴中。细胞裂解后,细胞液滴与含有细胞特异性条形码的液滴和另一个具有用于RT的酶的液滴融合。汇集来自所有孔的液滴并进行等温反应以实现RT。条形码退火至poly(A)+mRNA并充当逆转录酶的引物。现在每个mRNA链都具有细胞特异性条形码,破碎液滴,并纯化cDNA。cDNA链的3'末端与接头连接、扩增、退火至带索引的引物,并在测序前进一步扩增。
8.Seq-Well
单细胞RNA-seq可精确解析细胞状态,但将这种方法应用于低输入样本具有挑战性。这里,发明人提出了Seq-Well,这是一种用于大规模并行单细胞RNA-seq的便携式低成本平台。使用半透膜将带条形码的mRNA捕获珠子和单细胞密封在亚纳升孔的阵列中,从而实现有效的细胞裂解和转录本捕获。此方法在Gierahn et al.,Nat Methods.2017Apr;14(4):395-398中有进一步描述,其通过引用并入本文。此方法在Gierahn,T.M.,et al.,Nature Methods,2017.14:p.395中有进一步描述,其通过引用并入本文。
9.Microwell-seq
Microwell-seq将单细胞和带条形码的poly(dT)mRNA捕获珠子限制在亚纳升孔的PDMS阵列中。孔尺寸设计为仅容纳一个珠子。细胞通过重力负载,具有双重占用率(rate ofdual occupancy),其可通过调节细胞的数量来进行调整,并在处理之前负载和可视化。此方法在Han,X.,et al.,Cell,2018.172(5):p.1091-1107.e17中有进一步描述,其通过引用并入本文。
10.Nanogrid-seq
Nanogrid-seq是一种纳米网格平台和微流体沉积系统,其能够并行地对数千个单细胞或细胞核进行成像、选择和测序。此方法在Gao,R.,et al.,Nature Communications,2017.8(1):p.228中有进一步描述,其通过引用并入本文。
11.sci-seq
Sci-seq是指单细胞组合标记测序(SCI-seq),其可用作同时生成数千个用于体细胞拷贝数变异检测的低通单细胞文库的措施。这在Vitak,S.A.,et al.,Nature Methods,2017.14:p.302中有进一步描述,其通过引用并入本文。
12.直接标签化
称为转座酶的酶随机地将DNA切割成短片段(“标签”)。在切割点(连接)的任一侧上添加接头。未能连接接头的链被洗去。衔接子可含有用于检测和扩增基因组序列的条形码和/或引物结合位点。这在Zahn,H.,et al.,Nature Methods,2017.14:p.167中有进一步描述,其通过引用并入本文。
13.sciATAC-seq
sci-ATAC-seq是一种单细胞ATAC-seq操作规程。该技术可用于确定单细胞的群体之间和内部的染色质可及性。单细胞ATAC-Seq依赖于组合细胞索引编制,并因此在文库构建过程中不需要对一个一个单独的细胞进行物理分离。该技术在时间和成本上呈亚线性扩展并可在一次实验中分析数千个单独的细胞。此方法在Cusanovich,D.A.,et al.,Science,2015.348(6237):p.910中有进一步描述,其通过引用并入本文。Mezger,A.,etal.,High-throughput chromatin accessibility profiling at single-cellresolution,bioRxiv,2018中描述了一种相关的方法:纳米孔scATAC-seq,其通过引用并入。
其他方法包括见述于Zheng,G.X.Y.,et al.,Nature Communications,2017.8:p.14049中的10x genomics RNA测序平台,见述于
Figure BDA0003393927830000431
D.,et al.,NatureBiotechnology,2012.30:p.777中的SMART-seq,见述于Picelli,S.,et al.,NatureProtocols,2014.9:p.171中的SMART-seq2,其全部内容均通过引用并入本文。预期所公开的参考文献中的实施方案可并入到本公开中描述的实施方案中。
B.测序方法
本公开的方法可还包括核酸的测序以确定细胞或细胞群体中条形码的身份/量。下面描述的测序方法是可与本文以及本公开的方法实施方案描述的单细胞分析技术结合使用的示例性方法。
2.大规模并行签名测序(MPSS)。
20世纪90年代,Lynx Therapeutics开发了最早的下一代测序技术,即大规模并行签名测序(或MPSS)。MPSS是一种基于珠子的方法,其使用复杂的接头连接手段,然后进行接头解码,以四个核苷酸的增量读取序列。这种方法使其容易受到序列特异性偏倚或特定序列丢失的影响。由于该技术如此复杂,故MPSS仅由Lynx Therapeutics“内部”进行而没有DNA测序机出售给独立实验室。Lynx Therapeutics于2004年与Solexa(后来被Illumina收购)合并,带来了通过合成测序的发展,通过合成测序是从Manteia Predictive Medicine收购的一种更简单的手段,这使得MPSS过时了。然而,MPSS输出的基本性质是后来的“下一代”数据类型所典型的,包括数十万个短DNA序列。就MPSS而言,这些通常用于对cDNA测序以测量基因表达水平。事实上,强大的Illumina HiSeq2000、HiSeq2500和MiSeq系统都是基于MPSS的。
3.Polony测序。
哈佛大学George M.Church实验室中开发的Polony测序方法是最早的下一代测序系统之一并于2005年用于对全基因组进行测序。它将体外配对标签文库与乳液PCR、自动显微镜和基于连接的测序化学相结合,以大于99.9999%的准确度对大肠杆菌(E.coli)基因组进行测序,成本大约为Sanger测序的1/9。该技术被授权给Agencourt Biosciences,随后分出到Agencourt Personal Genomics,并最终并入到Applied Biosystems SOLiD平台中,该平台现为Life Technologies所拥有。
4.454焦磷酸测序。
焦磷酸测序的并行版本由454Life Sciences开发,此后已被Roche Diagnostics收购。该方法在油溶液中扩增水滴内的DNA(乳液PCR),每个液滴含有单个DNA模板,该DNA模板附着在单个引物包被的珠子上,其然后形成克隆集落。测序机含有许多皮升体积的孔,每个孔都含有单个珠子和测序酶。焦磷酸测序使用荧光素酶以产生光来检测添加到新生DNA中的各个核苷酸,并使用组合的数据来生成序列读出(read-outs)。与在一个末端上的Sanger测序和另一末端上的Solexa和SOLiD相比,该技术提供了中等的读段长度和每碱基价格。
5.Illumina(Solexa)测序。
Solexa(现在是Illumina的一部分)开发了一种基于可逆染料终止子技术的测序方法以及其内部开发的工程化聚合酶。终止化学是在Solexa内部开发的,Solexa系统的概念是由剑桥大学化学系的Balasubramanian和Klennerman发明的。2004年,Solexa收购了Manteia Predictive Medicine公司以获得基于“DNA簇”的大规模并行测序技术,该技术涉及表面上的DNA克隆扩增。该簇技术是与加利福尼亚的Lynx Therapeutics共同收购的。Solexa Ltd.后来与Lynx合并成立了Solexa Inc.。
在此方法中,首先将DNA分子和引物附着在载玻片上并用聚合酶扩增,从而形成局部克隆DNA集落,后来称为“DNA簇”。为了确定序列,添加四种类型的可逆终止子碱基(RT-碱基)并洗去未并入的核苷酸。相机拍摄荧光标记核苷酸的图像,然后从DNA中化学去除染料和末端3'阻滞剂,从而允许下一个循环开始。与焦磷酸测序不同,DNA链每次延伸一个核苷酸,并且图像采集可在延迟的时刻进行,从而允许通过从单个相机拍摄的连续图像捕获非常大的DNA集落的阵列。
将酶促反应和图像捕获解耦可实现最佳通量和理论上无限的测序能力。采用最佳配置,最终可达到的仪器通量因此仅取决于由相机的模数转换率乘相机数量再除以最佳地可视化它们所需的每DNA集落像素数(大约10像素/集落)。2012年,随着相机以超过10MHz的A/D转换率及可用的光学、流体学和酶学运行,通量可达到100万个核苷酸/秒的倍数,大致相当于每仪器每小时1x覆盖率下一人类基因组当量,和每仪器(配备单一相机)每天对一个人类基因组重新测序(在约30x下)。
6.SOLiD测序。
Applied Biosystems'(现为Life Technologies品牌)SOLiD技术采用通过连接进行的测序。在此,根据测序位置标记固定长度的所有可能的寡核苷酸库。将寡核苷酸退火并连接;DNA连接酶对匹配序列的优先连接产生提供该位置处核苷酸的信息的信号。在测序之前,通过乳液PCR扩增DNA。所得的珠子(每个仅含有相同DNA分子的拷贝)沉积在玻璃载玻片上。结果是数量和长度与Illumina测序相当的序列。据报道,这种通过连接进行的测序在测序回文序列方面存在一些问题。
7.Ion Torrent半导体测序。
Ion Torrent Systems Inc.(现为Life Technologies所拥有)开发了一种基于使用标准测序化学但具有基于半导体的新型检测系统的系统。这种测序方法基于检测DNA聚合过程中释放的氢离子,这与其他测序系统中使用的光学方法相反。含有待测序的模板DNA链的微孔充满了单一类型的核苷酸。如果引入的核苷酸与前导模板核苷酸互补,则其将被并入到正在生长的互补链中。这会引起氢离子的释放,其触发超敏离子传感器,这表明已发生反应。如果模板序列中存在均聚物重复,则在单个循环中将并入多个核苷酸。这会导致相应数量的释放氢以及成比例地较高的电子信号。
8.DNA纳米球测序。
DNA纳米球测序是一种用于确定生物体的整个基因组序列的高通量测序技术类型。Complete Genomics公司使用这项技术对独立研究人员提交的样本进行测序。该方法使用滚环复制将基因组DNA的小片段扩增为DNA纳米球。然后使用通过连接的解链(unchained)测序来确定核苷酸序列。与其他下一代测序平台相比,这种DNA测序方法允许每次运行对大量的DNA纳米球测序并且试剂成本低。然而,只能从每个DNA纳米球确定DNA的短序列,这使得将短读段映射到参考基因组是困难的。该技术已被用于多个基因组测序项目并计划用于更多项目。
9.Heliscope单分子测序。
Heliscope测序是Helicos Biosciences开发的一种单分子测序方法。它使用带有添加的poly-A尾接头的DNA片段,该接头附着在流动池表面。接下来的步骤涉及基于延伸的测序,其中使用荧光标记的核苷酸循环洗涤流动池(与Sanger方法一样,一次为一种核苷酸类型)。读取由Heliscope测序仪进行。读段短,每次运行至多55个碱基,但近来的改进允许更准确地读取一种类型核苷酸的段。该测序方法和设备被用于对M13噬菌体的基因组进行测序。
10.单分子实时(SMRT)测序。
SMRT测序基于的是通过合成手段进行测序。在零模波导(ZMW)中合成DNA,零模波导为小孔样容器,捕获工具位于孔的底部处。使用未经修饰的聚合酶(附着在ZMW底部)和在溶液中自由流动的荧光标记核苷酸进行测序。以检测仅在孔底部出现的荧光的方式构造孔。荧光标记在其并入到DNA链中时与核苷酸分离,留下未经修饰的DNA链。根据SMRT技术开发商Pacific Biosciences,这种方法可检测核苷酸修饰(如胞嘧啶甲基化)。这通过观察聚合酶动力学实现。此手段允许读取20000或更多个核苷酸,平均读段长度为5千碱基。
C.分子生物学技术
本公开的实施方案涉及寡核苷酸、转座酶、文库构建、测序和确定细胞中的RNA和/或DNA谱。本公开的方法可包括分子生物学技术如聚合酶链反应(PCR)、实时-PCR、逆转录、逆转录-PCR、northern印迹、western印迹、原位杂交、Southern印迹、狭线印迹、核酸酶保护检测法和寡核苷酸阵列。
在某些方面,从细胞分离出的RNA可在检测和/或定量之前扩增为cDNA或cRNA。分离出的RNA可为总RNA或mRNA。RNA扩增可以是特异性的或非特异性的。在一些实施方案中,扩增是特异性的,因为它特异性地扩增鉴定空间特征的条形码和/或鉴定细胞核酸的条形码。在一些实施方案中,采用随机引物。在一些实施方案中,扩增和/或逆转录酶步骤包括随机引发。合适的扩增方法包括但不限于逆转录酶PCR、等温扩增、连接酶链反应和Qbeta复制酶。可通过与标记探针的杂交来检测和/或定量扩增的核酸产物。在一些实施方案中,检测可涉及荧光共振能量转移(FRET)或一些其他种类的量子点。
扩增引物或杂交探针可从本文所述的靶标区或引物结合位点的核酸序列制备。如本文所用,术语“引物”或“探针”意在涵盖能够在模板依赖性过程中引发新生核酸的合成的任何核酸。通常,引物是长度为十至二十和/或三十个碱基对的寡核苷酸,但可采用更长的序列。引物可以双链和/或单链形式提供,但单链形式是优选的。引物或探针可具有与本公开的寡核苷酸不具碱基互补性的tale区。tale区可用于引入有助于核酸的克隆和/或文库构建的附加序列。
使用长度为13至100个核苷酸,特别是17至100个核苷酸或在一些方面长度达1至2千碱基或多于2千碱基的探针或引物,允许形成既稳定又具选择性的双链分子。在长度大于20个碱基的连续段上具有互补序列的分子可用于增加所得杂交分子的稳定性和/或选择性。可以设计用于杂交的核酸分子,其具有一个或多于一个20至30个核苷酸或在需要时甚至更长的互补序列。这样的片段可容易地制备,例如,通过化学方法直接合成片段或通过向重组载体中引入选定的序列来重组产生。
在一个实施方案中,每个探针/引物包含至少15个核苷酸。例如,每个探针可包含至少或至多20、25、50、75、100、125、150、175、200、225、250、275、300、325、350、400个或更多个核苷酸(或其中任何可派生范围)。它们可具有这些长度并具有与本文描述的基因相同或互补的序列。特别地,每个探针/引物具有相对高的序列复杂度而没有任何不明确的残基(未确定的“n”个残基)。在严格或高度严格的条件下,探针/引物可与靶基因杂交,包括其RNA转录本。
对于需要高选择性的应用,人们通常希望采用相对高的严格条件来形成杂交体。例如,相对低盐和/或高温条件,如在约50℃至约70℃的温度下由约0.02M至约0.10M NaCl提供。这样的高度严格的条件几乎不能(如果有的话)容忍探针或引物与模板或靶标链之间的错配并将特别适合于分离特定的基因或检测特定的mRNA转录本。一般认为,通过添加增加的量的甲酰胺可使条件更加严格。
在一个实施方案中,使用定量RT-PCR(如TaqMan、ABI)来检测和比较样本中RNA转录本的水平。定量RT-PCR涉及将RNA逆转录(RT)为cDNA,然后进行相对定量PCR(RT-PCR)。PCR过程的线性部分中靶标DNA的浓度与PCR开始前靶标的起始浓度成正比。通过确定已完成相同循环数且在其线性范围内的PCR反应中靶标DNA的PCR产物的浓度,可以确定原始DNA混合物中特定靶标序列的相对浓度。如果DNA混合物是从分离自不同组织或细胞的RNA合成的cDNA,则可针对相应的组织或细胞确定衍生靶标序列的特定mRNA的相对丰度。PCR产物的浓度与相对mRNA丰度之间的这种正比例关系在PCR反应的线性范围部分中是适用的。曲线的平台部分中靶标DNA的最终浓度由反应混合物中试剂的可得性决定而与靶标DNA的原始浓度无关。因此,可在PCR反应处于其曲线的线性部分中时对扩增的PCR产物进行采样和定量。另外,可扩增cDNA的相对浓度可按一些独立的标准物来归一化,这可基于内部存在的RNA物种或外部引入的RNA物种。也可相对于样本中所有mRNA物种的平均丰度来确定特定mRNA物种的丰度。
在一个实施方案中,PCR扩增采用一种或多于一种内部PCR标准物。内部标准物可能是细胞中丰富的管家基因,也可能具体是GAPDH、GUSB和β-2微球蛋白。这些标准物可用于归一化表达水平,以便可直接比较不同基因产物的表达水平。本领域普通技术人员会知道如何使用内部标准物来归一化表达水平。
一些样本中固有的问题在于它们的数量和/或质量是可变的。如果RT-PCR作为相对定量RT-PCR使用内部标准物进行,则可克服该问题,其中内部标准物为与靶标cDNA片段相似或更大的可扩增cDNA片段并且其中编码内部标准物的mRNA的丰度比编码靶标的mRNA高大概5至100倍。该测定法测量相应的mRNA物种的相对丰度,而不是绝对丰度。
在另一个实施方案中,相对定量RT-PCR使用外部标准物操作规程。在此操作规程下,PCR产物在其扩增曲线的线性部分中采样。对于每个靶标cDNA片段,可凭经验确定对于采样最佳的PCR循环数。另外,从各种样本分离出的每个RNA群体的逆转录酶产物可针对相等浓度的可扩增cDNA进行归一化。
IV.细胞
如本文所用,术语“细胞”、“细胞系”和“细胞培养物”可互换使用。在一些实施方案中,方法涉及细胞群体。细胞群体可以是来自患者、来自特定组织或来自特定处理条件的细胞的集合。细胞群体可以是一种细胞类型的或多种细胞类型的。通常,细胞群体将具有至少一个共同的细胞特征。所有这些术语还包括新鲜分离的细胞和体外培养或扩增的细胞。所有这些术语还包括它们的后代,即任何和所有后续代际。应理解,由于有意或无意的突变,所有后代可能不相同。在表达异源核酸序列的上下文中,“宿主细胞”或简单地“细胞”是指原核或真核细胞,并且其包括能够复制载体或表达由载体或整合核酸编码的异源基因的任何可转化生物。宿主细胞可以并且已经用作载体、病毒和核酸的受体。宿主细胞可被“转染”或“转化”,这是指向宿主细胞中转移或引入外源核酸如编码重组蛋白的序列的过程。转化细胞包括原代受试者细胞及其后代。
在一些实施方案中,细胞为真核细胞。在一些实施方案中,细胞为动物细胞。在一些方面,本公开的细胞为人类细胞。在其他方面,本公开的细胞为动物细胞。在一些方面,一个或多于一个细胞为患病细胞、癌细胞、肿瘤细胞、永生化细胞或从哺乳动物分离出的细胞。在进一步的方面,细胞代表疾病模型细胞。在某些方面,细胞可为A549、B-细胞、B16、BHK-21、C2C12、C6、CaCo-2、CAP/、CAP-T、CHO、CHO2、CHO-DG44、CHO-K1、COS-1、Cos-7、CV-1、树突状细胞、DLD-1、胚胎干(ES)细胞或衍生物、H1299、HEK、293、293T、293FT、Hep G2、造血干细胞、HOS、Huh-7、诱导多潜能干(iPS)细胞或衍生物、Jurkat、K562、L5278Y、LNCaP、MCF7、MDA-MB-231、MDCK、间充质细胞、Min-6、单核细胞、Neuro2a、NIH 3T3、NIH3T3L1、K562、NK-细胞、NS0、Panc-1、PC12、PC-3、外周血细胞、浆细胞、原代成纤维细胞、RBL、Renca、RLE、SF21、SF9、SH-SY5Y、SK-MES-1、SK-N-SH、SL3、SW403、刺激触发性多能性获得(STAP)细胞或衍生物SW403、T-细胞、THP-1、肿瘤细胞、U2OS、U937、外周血淋巴细胞、扩增的T细胞、造血干细胞或Vero细胞。在一些实施方案中,细胞为原代细胞。在一些实施方案中,细胞是固定的,如福尔马林固定的。在一些实施方案中,细胞处于内源性位置中。
如本文所用,术语“传代”旨在指分裂细胞以便从预先存在的细胞产生大量细胞的过程。细胞可在本文描述的任何步骤之前或之后传代多次。传代包括分裂细胞并少量转移到每个新血管中。对于贴壁培养,首先需要分离细胞,通常使用胰蛋白酶-EDTA的混合物进行分离。然后可使用少量分离的细胞接种新的培养物,而其余的则丢弃。此外,通过将所有细胞分配到洁净的培养瓶中,可容易地扩大培养细胞的量。细胞可保持在培养物中并在允许细胞复制的条件下孵育。在一些实施方案中,将细胞保持在允许细胞进行1、2、3、4、5、6、7、8、9、10轮或多于10轮细胞分裂的培养条件下。
在一些实施方案中,可对细胞进行有限稀释方法以能够扩增细胞的克隆群体。有限稀释克隆的方法是本领域技术人员熟知的。这样的方法已见描述,例如用于杂交瘤,但可应用于任何细胞。这样的方法在(Cloning hybridoma cells by limiting dilution,Journal of tissue culture methods(1985)第9卷第3期第175-177页,作者:JoanC.Rener、Bruce L.Brown和Roland M.Nardone)中有描述,其通过引用并入本文。
本公开的方法包括细胞的培养。培养悬浮细胞和贴壁细胞的方法是本领域技术人员熟知的。在一些实施方案中,使用市售细胞培养容器和细胞培养基悬浮培养细胞。可用于一些实施方案中的市售培养容器的实例包括ADME/TOX板、细胞腔室载玻片和盖玻片、细胞计数设备、细胞培养表面、Corning HYPERFlask细胞培养容器、包被培养器皿、Nalgene冷冻器皿、培养腔室、培养皿、玻璃培养瓶、塑料培养瓶、3D培养器、培养多孔板、培养板插入物、玻璃培养管、塑料培养管、可堆叠细胞培养容器、缺氧培养腔室、皮氏培养皿和培养瓶承载器、Quickfit培养容器、使用滚瓶的大规模细胞培养、旋转瓶、3D细胞培养或细胞培养袋。
在其他实施方案中,可使用本领域技术人员熟知的组分配制培养基。以下参考文献中详细描述了培养细胞的制剂和方法:Short Protocols in Cell BiologyJ.Bonifacino,et al.,ed.,John Wiley&Sons,2003,826pp;Live Cell Imaging:ALaboratory Manual D.Spector&R.Goldman,ed.,Cold Spring Harbor LaboratoryPress,2004,450pp.;Stem Cells Handbook S.Sell,ed.,Humana Press,2003,528pp.;Animal Cell Culture:Essential Methods,John M.Davis,John Wiley&Sons,Mar 16,2011;Basic Cell Culture Protocols,Cheryl D.Helgason,Cindy Miller,HumanaPress,2005;Human Cell Culture Protocols,Series:Methods in Molecular Biology,Vol.806,Mitry,Ragai R.;Hughes,Robin D.(Eds.),3rd ed.2012,XIV,435p.89,HumanaPress;Cancer Cell Culture:Method and Protocols,Cheryl D.Helgason,CindyMiller,Humana Press,2005;Human Cell Culture Protocols,Series:Methods inMolecular Biology,Vol.806,Mitry,Ragai R.;Hughes,Robin D.(Eds.),3rd ed.2012,XIV,435p.89,Humana Press;Cancer Cell Culture:Method and Protocols,SimonP.Langdon,Springer,2004;Molecular Cell Biology.4th edition.,Lodish H,Berk A,Zipursky SL,et al.,New York:W.H.Freeman;2000.,Section 6.2Growth of AnimalCells in Culture,其均通过引用并入本文。
V.试剂盒
本公开的某些方面还涉及含有核酸、载体、转座酶、分子克隆和文库构建试剂以及测定法试剂的试剂盒。试剂盒可用于实施本公开的方法。在一些实施方案中,试剂盒可用于对真核细胞进行条形码编码。在某些实施方案中,试剂盒含有、含有至少或含有至多1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、500、1000个或多于1000个核酸探针、寡核苷酸、引物或合成RNA分子,或其中任何可派生的值或范围和组合。在一些实施方案中,包括通用探针或引物以扩增、鉴定或测序条形码。也可使用这样的试剂来生成或测试可用于筛选中的宿主细胞。
在某些实施方案中,试剂盒可包含用于分析细胞形态和/或表型的材料,如组织学载玻片和试剂、组织学染色剂、酒精、缓冲液、组织包埋介质、石蜡、甲醛和组织脱水剂。
试剂盒可包含部件,这些部件可单独包装或置于容器中,如管、瓶、小瓶、注射器或其他合适的容器装置。
还可在试剂盒中以浓缩的量提供单独的组分;在一些实施方案中,组分以与在具有其他组分的溶液中相同的浓度单独提供。组分的浓度可提供为1x、2x、5x、10x或20x或多于20x。
考虑了使用本公开的探针、多肽或多核苷酸检测剂进行药物发现的试剂盒。
在某些方面,一些试剂盒实施方案中包括阴性和/或阳性对照剂。对照分子可用于验证转染效率和/或控制细胞中转染诱导的变化。
本公开的实施方案包括用于通过评估样本的核酸或多肽谱来分析病理样本的试剂盒,其在合适的容器装置中包含两种或多于两种用于检测表达的多核苷酸的RNA探针或引物。此外,可标记探针或引物。标记是本领域已知的并也在本文中描述。在一些实施方案中,试剂盒还可包含用于标记探针、核酸和/或检测物剂的试剂。试剂盒还可包含标记试剂,包括胺修饰的核苷酸、poly(A)聚合酶和poly(A)聚合酶缓冲液中的至少一种。标记试剂可包括胺反应性染料。试剂盒可包含以下材料中的任何一种或多于一种:酶、反应管、缓冲液、去污剂、引物、探针、抗体。在一些实施方案中,这些试剂盒包含用于进行RNA提取、RT-PCR和凝胶电泳的所需装置。试剂盒中可还包含关于进行测定法的说明。
试剂盒还可包含使用试剂盒评估表达的说明、将表达数据转化为表达值的措施和/或分析表达值或序列数据的措施。
试剂盒可包含带有标记的容器。合适的容器包括例如瓶子、小瓶和试管。容器可由各种材料形成,如玻璃或塑料。容器可容纳组合物,该组合物包括对本公开的方法有用的探针。试剂盒可包含上述容器和一个或多于一个其他容器,所述其他容器包含从商业和用户角度需要的材料,包括缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装插页。
VI.实施例
引入以下实施例以说明本公开的优选实施方案。本领域技术人员应理解,以下实施例中公开的技术代表了本发明人发现的在本公开的实践中很好地起效的技术,并因此可视为构成其实践的优选模式。然而,根据本公开,本领域技术人员应理解,在不背离本公开的精神和范围的情况下,可对所公开的具体实施方案作许多改变并仍获得类似或相似的结果。
实施例1-细胞核空间条形码编码(SNUBAR)
A.单细胞核空间条形码测序概述
SNUBAR的基本原理是在原位(组织解离之前)跨组织切片对单细胞核进行空间条形码编码,之后释放并汇集具有空间条形码的细胞核以进行现有的高通量单细胞测序方法。SNUBAR可使用两种不同的实验手段进行。在第一种手段(图1A)中,发明人组装了一系列(例如,96至1536个)不同的转座体复合物,每个复合物含有独特的空间条形码寡核苷酸接头和Tn5转座酶复合物。然后,发明人对组织进行透化并在组织切片的不同区上微量沉积具有空间条形码的转座体,这可用不同的技术(例如,微量移液、声学液体转移)来完成。然后将带条形码的细胞核从载玻片刮下或从组织解离并一起汇集到悬浮液中以进行单细胞测序。在单细胞测序后,使用来自每个细胞核/细胞的位置索引来鉴定细胞在组织切片中的原始空间坐标。第二种手段(图1B)涉及首先合成定制微阵列,该微阵列含有跨越数千个特征的预打印空间条形码寡核苷酸接头。然后将组织切片直接放置在微阵列之上并进行透化以释放空间条形码接头,随后将接头并入到转座体中并递送到整个组织切片中的单个细胞核中。然后将细胞核从微阵列刮下并汇集用于高通量单细胞测序方法,之后使用空间索引来鉴定细胞在组织中的原始位置。
B.空间条形码寡核苷酸接头结构
为了向组织切片中的每个细胞递送空间条形码,发明人开发了转座体条形码编码系统。该系统由空间条形码寡核苷酸接头和转座体或转座酶组成。每个空间条形码寡核苷酸接头的分子结构由三部分组成(图2A)。第一部分为与转座酶直接结合的序列,或(图2A)与转座体中的互补通用寡核苷酸接头结合的序列(在本文中称为转座体衔接子区)。第二部分为空间条形码序列,其可以是任何大小的核苷酸(例如,8至18bp),在本文中称为条形码区,其被分派给组织切片中的不同细胞或区以对细胞核进行条形码编码。该序列还可包括分子条形码(MI),其可用于计数有多少条形码序列被递送到每个细胞或细胞核中。第三组分为平台特异性序列,其用于扩增DNA或RNA或者用于通过下游单细胞测序方法进行结合(在本文中称为靶标区)。平台特异性序列充当下游文库制备化学的后续结合和扩增的靶标。例如,如果带条形码的单细胞核将通过高通量3'单细胞RNA测序(Drop-seq)进行测序,则文库特异性序列将为PCR手柄序列和polyA序列,PCR手柄序列将用作PCR引物结合序列以对空间条形码序列进行扩增和测序,而polyA序列可被由polyT寡核苷酸进行条形码编码的珠子结合并被逆转录酶转录(图2A)。作为另一个实例,如果带条形码的细胞核将通过高通量单细胞DNA测序进行拷贝数测序(例如,基于直接标签化的化学),则文库特异性序列将为通用序列,其中通用序列将用于标识空间条形码位置。虽然发明人在此仅提供了两个实例,但可基于不同的下游测序文库构建方法和应用来定制空间条形码接头序列。
C.空间索引转座体的组装
空间条形码可被组装到具有通用接头的现有Tn5转座体(例如,Illumina Tn5转座体-Nextera DNA文库制备试剂盒中的TDE1)中,或可被并入到未并入任何寡核苷酸的Tn5转座酶中(图3)。为了组装空间转座体条形码编码系统,发明人首先将空间条形码寡核苷酸与通用衔接子(如Illumina Tn5转座体(Nextera DNA文库制备试剂盒中的TDE1或Nextera XTDNA文库制备试剂盒中的ATM))结合,并使条形码寡核苷酸或探针与Illumina转座体杂交以产生最终带条形码的转座体(图3A)。或者,条形码寡核苷酸或探针可与转座酶识别序列一起使用并将它们与裸转座酶(例如,EZ-Tn5TM转座酶、Lucigen或MuA转座酶、ThermoScientificTM)结合以组装带空间条形码的转座体(图3B)。
D.空间索引转座体向组织中单细胞核的递送
可用空间条形码转座体系统使用若干不同的手段来向组织切片中的每个单细胞核递送空间条形码。最简单的手段涉及使用手动微量移液,其中在显微镜的帮助下将带不同条形码的转座体试剂(每个转座体复合物1个条形码)移液到每个单细胞核或垫片孔之上。在与细胞核一起孵育后,带条形码的转座体将进入核膜并将空间条形码递送到细胞核中(图4B)。此手段的更高通量的替代变型包括使用微流体沉积系统(微阵列打印机或液体转移系统)将转座体复合物递送到限定空间区中的整个组织切片(图4C)。一种能够对数千到数万个空间区进行条形码编码的不同手段涉及设计一种定制的带条形码的DNA微阵列。在这个定制的微阵列中,条形码寡核苷酸或探针被打印在DNA微阵列的表面上,并用于向DNA微阵列负载具有通用衔接子的转座体(例如,Illumina Tn5转座体(Nextera DNA文库制备试剂盒中的TDE1或Nextera XT DNA文库制备试剂盒中的ATM))或转座酶(例如,Tn5、MuA)(图4D)。在将转座体负载到微阵列上之后,将新鲜或冷冻的组织切片负载到带条形码的转座体微阵列之上。然后对组织进行透化,随后释放微阵列上带条形码的转座体。转座体将空间条形码递送到整个组织切片的每个细胞核中。
E.单细胞/细胞核测序文库制备和带空间条形码的细胞核的测序
在空间条形码被递送到细胞核中后,可使用细胞核来制备不同的单细胞测序文库,例如单细胞RNA-seq、单细胞DNA-seq、单细胞ATAC-seq等,取决于不同的目标。递送的空间条形码充当全基因组扩增、全转录组扩增或基于标签化的扩增化学和文库构建化学的分子靶标。例如,如果带空间条形码的细胞核将用于高通量单细胞mRNA测序(例如,Drop-seq),则将带空间条形码的单细胞核(带poly A尾,例如图2A)与带条形码的珠子和油一起负载以形成单细胞核液滴(图5步骤1),细胞核被裂解并释放其mRNA和空间条形码,这将进一步与带条形码的珠子的表面上的polyT引物杂交(图5步骤2)。然后破碎液滴,收集珠子并使用模板转换寡核苷酸进行逆转录(图5步骤3)。收集PCR产物并测序,图5示出了使用Illumina配对末端测序对带空间条形码的单细胞核文库进行测序的实例,读段1将对细胞条形码和UMI进行测序,读段2将对cDNA或空间条形码进行测序。在一个带条形码的细胞核中,所有cDNA和空间都将携带相同的细胞条形码,这一信息将用于确定细胞核的真实位置。除了制备Drop-seq文库外,带空间条形码的细胞核也可通过其他单细胞RNA测序方法如基于SMART-seq、基于MARS-seq、基于CEL-seq、基于Drop-seq的方法如10X Genomics进行测序。另外,稍微修改空间条形码序列,空间条形码细胞核可容易地适用于DNA和表观基因组扩增化学,如适用于单细胞DNA测序,包括MDA、DOP-PCR、MALBAC、LIANTI或基于标签化的化学;适用于表观基因组方法、ATAC-seq和甲基化组测序等。下游测序平台可包括第一代测序仪(例如,sanger测序)、下一代测序平台(Illumina、Ion Torrent、454测序、ABI)或第三代单分子测序平台(PacBio的SMRT测序、Oxford Nanopore的Nanopore测序)。
F.测序后空间条形码与单细胞基因组文库的映射。
测序完成后,最后的步骤涉及对空间条形码和细胞条形码以及基因组数据进行拆分。空间条形码可在单独的测序文库中制备(例如,对于RNA)或者可以是包括细胞条形码和基因组数据集的相同测序文库的一部分(例如,对于DNA)。当空间条形码作为单独的文库的一部分构建时,空间条形码也与基因组数据共享相同的“细胞条形码”,其被用于将空间位置与基因组数据集进行匹配。例如,如果使用SNUBAR和10x genomics Chromium 3’单细胞RNA试剂盒进行单细胞RNA测序,则在cDNA扩增后,空间条形码序列(<100bp)将比cDNA大小(>1k bp)短得多并通过大小选择来分离而制备两个独立的测序文库(具有相同的细胞条形码)。由于空间条形码文库与基因组文库(cDNA)物理分离,故可在下一代测序后鉴定条形码(读段1为细胞条形码,读段2为空间条形码和poly dA序列)。另一个实例为SNUBAR和使用直接标签化化学的单细胞DNA测序,其中空间条形码将在转座体的帮助下递送到细胞核中,其后空间条形码文库与基因组DNA文库一起测序(因为条形码文库大小只比gDNA文库小一点)。对于DNA文库,空间条形码通过使用设计的空间条形码接头中的特定序列或序列组成结构来回收。
G.用于对样本进行条形码编码的转座体条形码编码系统
转座体条形码编码系统的另一个应用为对样本而不是组织中的空间区进行条形码编码。样本可能包括不同的患者样本、来自同一个体或生物体的多个样本或来自不同生物体的样本。通过用转座体条形码对多个样本进行条形码编码,可以将所有样本汇集于一起进行一次单细胞测序运行,并然后对数据和条形码进行拆分以确定每个序列读段的身份。例如,可使用转座体条形码编码系统对10个细胞系样本(每个样本1000个细胞)进行条形码编码并然后将10个带条形码的细胞系混合于一起进行在10X Genomics单细胞RNA测序系统上运行的单个实验。目前,高通量单细胞测序系统,如10X Chromium或Mission Bio,仅允许在微流体设备的每条物理泳道上运行单个样本。使用此样本条形码编码系统,可以针对单细胞测序运行为数百至数千个样本进行条形码编码。此样本条形码编码系统灵活,可用于单细胞DNA测序、单细胞RNA测序或单细胞表观基因组分析。该系统将通过多重化代替一次只能运行一个样本而大大降低与所有单细胞测序平台相关的成本。
实施例2-概念验证
A.用单细胞核RNA测序验证转座体条形码编码系统
为了在细胞系中验证转座体条形码编码系统,发明人首先使用单个条形码接头序列使用细胞悬浮液测试了SNUBAR。发明人测试了不同的转座体(TDE1)和空间条形码浓度(1uM、0.1uM、0.01uM)以对三种不同细胞系(SKN2、SK-BR-3、MDA-MB-231)中的30000个细胞进行条形码编码。在进行条形码编码后,同样地洗涤并混合细胞核以制备一个高通量单细胞核RNA测序文库(10x genomics Chromium单细胞3'试剂盒)。在cDNA扩增后,构建空间条形码和cDNA文库。在图6中,发明人示出了条形码文库和cDNA文库的最终文库踪迹,由于空间条形码寡核苷酸长度相同,故所有样本只有1个峰。下一代测序(Illumina,HiSeq4000)产生了175M带空间条形码的读段和211M cDNA读段。从测序结果发现,对1150个细胞进行了测序(平均184K读段/细胞),导致每个细胞检测到3409个基因。聚类和高维分析结果是基于细胞系来源将单细胞RNA谱分为3组(MDA-MB-231、SKN2、SK-BR-3)。在此实验中,发现每个簇中100%的细胞都成功地用空间索引进行了条形码编码。在SKN2中检测到~17442个独特的条形码,其是用1uM条形码寡核苷酸进行条形码编码的,在SK-BR-3(用0.1uM寡核苷酸进行条形码编码)和MDA-MB-231(用0.01uM寡核苷酸进行条形码编码)中分别检测到~3828和~3185个条形码(图7)。这些结果表明,具有空间索引的转座体条形码编码系统在溶液中有效地工作,条形码接头浓度低至0.01uM。
B.细胞系中交叉污染的额外验证。
使用细胞系数据,发明人通过使用不同的空间条形码研究了空间条形码是否在三个细胞系上显示出交叉污染。如果在样本被混合于一起时活性转座酶没有被灭活,则这潜在地会是一个问题。发明人还研究了空间条形码是否可在没有转座酶的情况下进入细胞以建立非整合条形码的背景水平。发明人使用了转座体条形码编码系统对四种不同的细胞系(SKN2、SK-BR-3、MDA-MB-231、MDA-MB-436)进行四种不同条形码的空间/样本加标签(对于尾1,两种(SpRNA-I7-1bc、SpRNA-I7-2bc),对于尾2,2种(SpRNA-I5-1bc、SpRNA-I5-2bc))。在条形码编码和洗涤后,将4种细胞系混合以制备用于10X Genomics系统的高通量单细胞RNA测序文库。2285个细胞110M条形码读段和311M cDNA读段的下一代测序(Illumina)(平均:136K读段/细胞)导致每个细胞检测到2909个基因。基于基因表达谱,聚类和高维分析显示细胞系清楚地分为四组(图8)。在SKN2细胞系中,条形码SpRNA-I7-1bc最常见,而在SK-BR-3中,条形码SpRNA-I7-2bc最常见,在MDA-MB-231中,条形码SpRNA-I5-1bc最常见,在MDA-MB-436中,条形码SpRNA-I5-2bc最常见,并可容易地区分以推断哪些细胞用不同的空间索引进行了条形码编码(图9)。总之,这些数据表明,在Tn5的存在下,条形码可高效地进入每个细胞的细胞核,从而在每个样本中产生显著的条形码,在将样本混合于一起进行单细胞RNA测序后,背景和交叉污染极小。
C.SNUBAR对癌细胞系单细胞核DNA测序的验证
为了确定SNUBAR是否与高通量单细胞DNA测序方法兼容,发明人使用了两种不同的手段来组装转座体条形码编码系统。在图3A中概述的第一种手段中,发明人将空间条形码寡核苷酸与转座体杂交。在图3B中概述的第二种手段中,发明人使用转座酶和具有转座酶识别序列的空间条形码寡核苷酸。为了测试这种方法是否与基于直接标签化的单细胞DNA测序方法兼容,发明人用SNUBAR对四种不同的细胞系(SKN2、SK-BR-3、MDA-MB-231和MDA-MB-436)进行了条形码编码,每种细胞系用一种不同的空间索引进行条形码编码,然后将来自以上四种细胞系的细胞混合在一起以使用直接标签化化学制备文库。将经SNUBAR进行条形码编码的单细胞核流式分选到384孔板中,并为每个细胞核制备文库,然后汇集于一起并在Nextseq 500(Illumina)平台上测序。最终,发明人得到225个单细胞,其包括16个SK-BR-3细胞、42个MDA-MD-231细胞、100个SKN2细胞、67个MDA-MD-436细胞。在已测序的SK-BR-3、MDA-MB-231、SKN2、MDA-MD-436细胞中,用于给每个细胞系编制索引的条形码分别在其特定细胞系中是显著的(图11)。
然后为了测试SNUBAR是否与基于MDA的化学兼容,发明人使用第一种手段用不同的空间条形码(spDNA-I7-4Sbc、spDNA-I7-5Sbc)对来自两种不同细胞系(SKN2、SK-BR-3)的30000个细胞进行了条形码编码并使用第二种手段用两种不同的较长条形码(SpDNA-v2-9bc、SpDNA-v2-10bc)对来自另外两种细胞系(MDA-MB-231、MDA-MB-436)的30000个细胞进行了条形码编码,然后将它们混合于一起使用CNV试剂盒在10X Genomics平台上制备高通量单细胞DNA测序文库。为了最大化空间条形码的回收,发明人收集了MDA扩增片段(<100bp、100至200bp和超过200bp)(制造商说明书中的Post GEM Incubation),并制备了测序文库。测序数据产生来自<100bp、100至200bp和>200bp文库的80M、116M和138M读段。总共对503个细胞进行了测序,其包括190个SKN2细胞、53个SK-BR-3细胞、117个MDA-MB-231细胞、126个MDA-MB-436细胞和17个被过滤的噪声细胞。基于来自每个细胞的拷贝数谱,数据分成四个不同的簇,如预期的那样(图10)。在MDA-MB-436中,在小于100bp、100至200bp、超过200bp的文库中分别在3.2%、20%和79.4%的细胞中检测到空间条形码。在MDA-MB-231中,在三个不同大小的文库中在2.6%、12%和58%的细胞中检测到空间条形码。然而,在SKN2和SK-BR-3的另两种不同文库中没有检测到条形码,这表明在Chromim 10X Genomics系统上的MDA过程中,太短的条形码片段无法有效扩增(即使细胞被高效地进行条形码编码)。对于MDA-MB-436和MDA-MB-231,发明人使用了较长接头条形码策略,其显示出与基于MDA的化学更好的兼容性,导致高效的条形码编码。
D.SNUBAR条形码编码系统用于单细胞核染色质测序的应用。
为了测试SNUBAR条形码编码系统是否与单细胞核染色质测序方法如单细胞ATAC-seq兼容,发明人在4种细胞系中验证了该方法。将SNUBAR应用于四种不同的细胞系(SKN2、SK-BR-3、MDA-MB-231和MDA-MB-436),每种细胞系用一种不同的空间索引(SpATAC-I5-1bc、SpATAC-I5-2bc、SpATAC-I5-3bc、SpATAC-I5-4bc)进行条形码编码,并然后混合在一起以使用ATAC-seq化学制备文库,在流式分选细胞核后使用基于直接标签化的TN5染色质可及性手段。将经SNUBAR进行条形码编码的单细胞核流式分选到384孔板中,并为每个细胞核制备文库,然后汇集于一起并在Miseq(Illumina)平台上测序。从这些数据,发明人获得了5M读段,导致总共8136个样本条形码读段(SKN2为2178个,SK-BR-3为1741个,MDA-MB-231为3071个,MDA-MB-436为1146个)。这些数据表明,如果从每个细胞测序1M读段,则发明人将获得大约~2000个条形码,这足以将每个空间条形码与其他样本中的单细胞区分开来。原则上,只需要一个空间条形码就可以将每个细胞与其他空间条形码区分开来。
多重微滴高通量单细胞ATAC seq:除了基于微板的单细胞ATAC-seq外,我们还对多重化液滴基高通量scATAC-seq(例如,10X Genomics、Drop-Seq)测试了SNuBar。我们首先从两种不同的细胞系(K562和A20)制备了细胞核悬浮液并使用具有通用尾的转座体(类似于Illumina TDE1)分别对上述两种细胞系进行了标签化反应。将两种带不同条形码的寡核苷酸接头分别添加到细胞系中并于37℃下再孵育30分钟。将带条形码的单细胞核进一步负载到基于高通量液滴的单细胞ATAC-seq平台中,包括Chromium Single Cell ATAC(转座酶可及染色质检测法)解决方案(10x genomics)或SureCell ATAC-Seq文库制备试剂盒(Bio-RAD)。ATAC-seq文库按照制造商说明书制备,样本/空间条形码文库使用与条形码中的通用序列杂交的引物进一步扩增。然后将带条形码的文库和ATAC-seq文库混合在一起并在Illumina Nextseq500平台上进行测序。从这些数据,我们获得了307M读段,从K562获得8845个单细胞核,每个细胞核的中位片段为5475,而从A20获得8245个单细胞核,每个细胞核的中位片段为7680。在K562单细胞核中,用于对K562进行条形码编码的条形码平均占在该单细胞核中检测到的总条形码的90%左右,而在A20单细胞核中,用于对A20进行条形码编码的条形码占总条形码的70%左右,这可清楚地与背景噪声区分开来。
实施例3-使用寡核苷酸进行样本条形码细胞核递送。
为了确定条形码是否可在没有递送转座酶的情况下转移到单细胞核中,发明人使用以下操作规程对三种癌细胞系(SK-BR-3、MDA-MB-231、MDA-MB-436)进行了条形码编码。培养的细胞用PBS洗涤并用DAPI/NST缓冲液裂解,然后通过40μm过滤器。洗涤细胞核并重悬于缓冲液中,然后进行细胞计数。使用大约50000个细胞核来用1pmol空间条形码寡核苷酸进行条形码编码。对于SK-BR-3和MDA-MB-231,条形码在37℃的温度下孵育,而对于MDA436,温度为4℃,孵育15分钟。然后用重悬缓冲液洗涤细胞核两次。将样本混合于一起以在NextSeq500(Illumina)系统上的10x single cell 3'RNA-seq v2上运行。发明人获得了~4500个单细胞核,每个细胞的中位基因计数为2881个基因。根据它们的基因表达谱,通过SNN和t-SNE将细胞清楚地分为三个不同的簇。接下来,发明人确定样本条形码是否在指定的细胞系中富集(图12,顶部小图),这在SK-BR-3和MDA-MB-231中显示,但在MDA-MB-436中未显示(由于4℃的较低孵育温度)。将同一数据显示为每个细胞核中的样本特异性条形码百分数(底部小图),其中所述百分数在SK-BR-3和MDA-MB-231中富集,但在MDA-MB-436中不富集。
实施例4-将乳腺组织结构和单细胞基因组学与空间细胞核条形码编码相整合
单细胞RNA测序方法不能够保持细胞在其天然组织环境中的空间信息。为了解决这个限制,发明人开发了细胞核空间条形码编码(SNuBar),这是一种在单细胞核RNA测序之前将空间地址递送到组织或细胞悬浮液的细胞核中的方法。使用细胞系混合物实验验证SNuBar并应用于正常和恶性乳腺组织。对新鲜正常乳腺组织中36个空间区的分析鉴定出9种细胞类型,这些细胞类型显示出不同的表达程序,它们共定位于三个局部解剖区域(脂肪区域、富含成纤维细胞的区域和上皮区域)中。对冷冻乳腺肿瘤中15个空间区的分析鉴定出了微环境中的4种细胞类型和两种肿瘤亚群,它们以不同的巨噬细胞表达程序共定位于不同的局部解剖区域中。我们的数据表明,SNuBar可通过将宏观空间信息与新鲜和冷冻组织中的单细胞核转录组学相整合来描绘组织结构。
组织中细胞类型的组成和空间组织对于理解正常的稳态功能和疾病如癌症的进展是必不可少的(1)。人类乳腺包括脂肪组织,脂肪组织支承导管小叶网络,该网络旨在运输乳汁以滋养后代(2)。除了上皮双层外,乳腺组织还包含脂肪细胞、成纤维细胞、血管细胞、淋巴细胞和免疫细胞(3)。使用单细胞RNA测序(scRNA-seq)的研究已开始描绘乳腺细胞类型的转录程序,但缺乏关于它们在组织中的空间组织以及这种组织如何影响转录程序和生物学功能的知识(4-7)。在乳腺癌中,微环境中的正常细胞类型可进行促进肿瘤生长的转录重编程。包括癌相关成纤维细胞(CAF)、肿瘤浸润淋巴细胞(TIL)、肿瘤相关巨噬细胞(TAM)和肿瘤内皮细胞(TEC)在内的细胞类型与促进肿瘤进展有关(8-11)。然而,关于这些细胞类型如何在组织中空间组织以及这种细胞组织是否可促进侵袭、转移或治疗耐药性,我们的知识仍然有限。
在批量RNA-seq实验中解析细胞类型的基因组信息一直具有挑战性,因为组织由数十种细胞类型和数百万个细胞组成。单细胞RNA测序方法已成为使用纳米孔和微滴系统解析正常组织和肿瘤微环境中细胞类型的强大无偏倚工具(12-17)。然而,一大限制在于scRNA-seq方法需要通过组织解离来生成活细胞悬浮液,在此期间所有空间信息都将固有地丢失。一些设法保留空间信息的方法限于测量由许多细胞组成的小“点”或空间区。相反,几种基于原位杂交的方法可能能够提供单细胞空间分辨率,但限于测量靶标基因。其他方法需要知道要靶向哪些基因的先验知识并且只能对小(<1mm2)的空间区域成像。
为了解决现有技术方法的局限性,发明人开发了一种称为细胞核空间条形码编码(SNuBar)的基于转座体的系统,其将空间条形码编码从大量的区递送到细胞核中以进行多重化单细胞核RNA测序(snRNA-seq)。发明人证实,这种灵活且低成本的方法可有效地将细胞核条形码引入到从组织宏观解剖的大量空间区中,并允许所有区域一起汇集到单微滴实验中。在这项研究中,发明人使用细胞系混合物实验验证了SNuBar并将其应用于研究正常和恶性乳腺癌组织中细胞类型的组织结构和转录程序。
A.结果
1.SNuBar方法概述
发明人开发了一种转座体递送系统,该系统将空间条形码转运到组织或细胞核悬浮液中的单个细胞核中,之后将多个样本汇集于一起进行高通量snRNA-seq。该递送系统由Tn5转座体和空间条形码接头组成,后者由四个组分组成:1)Tn5转座体通用尾的互补序列,2)PCR扩增手柄,3)空间条形码序列,和4)合成的poly A尾(图18)。为了制备该递送系统,通过将样本条形码与Tn5转座体杂交来组装带条形码的转座体,其中为每个将进行条形码编码的空间区制备一个独特的转座体(方法)。然后将负载的转座体与组织或细胞核悬浮液一起孵育,其中转座体进入核膜并将样本条形码接头转运到细胞核中。
为了进行实验,将新鲜或冷冻组织宏观解剖成许多空间区(例如,10至100个)并从每个区制备细胞核悬浮液(图13A,方法)。将来自每个空间区的细胞核悬浮液与负载的Tn5转座体一起孵育,该转座体含有不同的空间条形码,所述空间条形码跨核膜转运。在带条形码的样本的每个细胞核中,样本条形码使用poly-A尾创建人工分子靶标用于下游微滴snRNA-seq实验中的细胞条形码引发和逆转录(图13B)。在进行条形码编码后,将来自所有空间区的细胞核一起汇集到进行高通量微滴snRNA-seq(例如,10X Genomics、Drop-Seq)的单个样本中(图13C)。接下来,进行cDNA扩增并从1)扩增的cDNA和2)空间条形码制备两个独立的测序文库。然后将cDNA和条形码测序文库混合于一起并在Nextseq500(Illumina)系统上进行测序。从所得数据,使用细胞条形码(其存在于来自每个细胞的cDNA和样本条形码读段两者中)将表达数据与空间条形码序列相匹配(图13D)。使用最终数据集来将每个细胞核的表达数据映射到组织中的原始空间位置(图13E)。
2.细胞系样本混合物实验
为了确定SNuBar将不同的细胞核悬浮液样本多重化于一起的准确性和效率,发明人用独特的空间/样本条形码对四种不同的细胞系(SKN-2、SK-BR-3、MDA-MB-231、MDA-MB-436)进行了条形码编码并将细胞核汇集于一起使用10X Genomics微滴平台进行高通量3'snRNA-seq(方法)。发明人总共检测到2516个细胞核,这导致每个细胞核3170的中位基因计数和7017的独特分子索引(UMI)计数(图14A、图19)。四种不同的细胞系中线粒体基因百分数在0.1%-0.6%的范围内,比典型的scRNA-seq实验(1-10%)(28)低约10倍,表明来自细胞质mRNA的污染极小(图14A,底部小图)。高维分析鉴定出4个不同的表达簇,它们与细胞系的已知标志物相匹配,包括SKN-2(COL1A1,COL1A2,POSTN)、SK-BR-3(ERBB2,KRT7,GRB7)、MDA-MB-231(CD74,KISS1,BIRC3)和MD-MB-436(PI3,CA9,SAA1)(图14A、图20-21)。
发明人研究了四种细胞系的每细胞条形码计数,其表明分派给每种细胞系的条形码在相应的样本中高度富集(59.49-87.44%)并且容易与背景噪声(4.44-17.89%)区分开来,从而使得大多数细胞能够明确(97.49-99.81%)区别(图14B、图22)。
在数据集中,SNuBar总共鉴定出2147个单细胞(85.33%)、357个多细胞(14.19%)和一小组12个无条形码的核(0.48%)(图14C-E、图23)。无条形码分派的细胞核的百分数非常低,表明SNuBar在向细胞系样本中递送样本/空间条形码方面非常高效(99.52%)。SNuBar的另一个独特方面在于能够鉴定和去除在基于液滴的标准scRNA-seq方法中无法区分的双细胞。在基于微滴的手段中,双细胞错误率可占最终数据集的1至10%并常会导致中间细胞类型的错误发现(29)。通过从最终数据集去除双细胞,四种细胞系的聚类均得到大大改善(图14E、图20B)。总的来说,这些结果表明SNuBar可准确地将样本/空间条形码递送到细胞核中以进行多重化高通量snRNA-seq。
3.人类乳腺组织中细胞类型的空间分布
发明人将SNuBar应用于来自从匹配的正常乳腺组织收集的两个相邻新鲜组织块的36个宏观解剖区(图15A,方法)。在去除双细胞和不带条形码的细胞后,总共对来自36个区的2995个单细胞核进行了测序,每个样本平均83个细胞(图24)。细胞核具有平均1545个基因并且每个细胞核检测到2697个UMI。为了鉴定细胞类型,发明人将来自所有空间区的细胞合并于一起进行聚类,其鉴定出9个对应于细胞类型和已知细胞类型标志物的不同簇(图15B-C)。主要的上皮簇包括激素反应性管腔上皮细胞(LumHR+:KRT19、ESR1、AR)、分泌性管腔上皮细胞(LumHR-:KRT15、LTF)和肌上皮细胞(MyoEpi:ACTA2、SYNPO2、MYLK、KRT14)(7,30),与在之前对正常乳腺组织的研究中鉴定出的标志物一致(4,31)(图25)。主要的基质细胞类型包括成纤维细胞(COL1A1、COL1A2、FN1)、脂肪细胞(ADIPOQ、PLIN1(32))、血管内皮细胞(VasEndo:PECAM1、VWF(33))和淋巴内皮细胞(LymEndo:MMRN1、PROX1、PDPN)(图26)。主要的免疫细胞类型包括T-细胞(CD2、CD247、IL7R(34,35))和巨噬细胞(MSR1、MRC1)(图27)。合并数据显示,成纤维细胞是最丰富的细胞类型(26.92%),其次是脂肪细胞(17.19%)、巨噬细胞(16.38%)及LumHR-(12.49%)和LumHR+(10.81%)上皮细胞,而T-细胞、肌上皮细胞和内皮细胞是次要(<5%)细胞类型(图15B)。值得指出的是,检测到丰富的脂肪细胞群体,脂肪细胞是一种难以找到的细胞类型,由于细胞尺寸大(>100微米),故在微滴scRNA-seq研究中经常被遗漏(4,31)。
为了确定细胞类型在36个不同空间区中的共定位,发明人进行了细胞类型频率及其相应空间位置的聚类(图15D-E)。数据将细胞类型聚类成三个不同的空间区域(A1-A3),其中区域1代表脂肪细胞频率高(48%)的“脂肪区域”,而区域2为上皮细胞类型高(55.06%)的“上皮区域”,区域3为“富含成纤维细胞”的区域,具有大比例的巨噬细胞(39.71%)和成纤维细胞(32.24%)(图15E)。细胞类型的这三个无偏倚簇在空间上映射到乳腺组织中的3大局部解剖区域(图15D)。该数据进一步揭示了脂肪细胞和成纤维细胞在A1中、管腔HR+、管腔HR-和基底细胞与淋巴内皮细胞在A2中、以及巨噬细胞、成纤维细胞和血管内皮细胞在A3中的共定位(图15F)。正常乳腺组织中细胞表达状态的空间共定位。
为了进一步研究四种主要细胞类型(成纤维细胞、巨噬细胞、上皮细胞和内皮细胞)的转录程序的差异,发明人对来自每种细胞类型的数据独立地进行了重新聚类并定义了乳腺组织中不同空间区上的细胞表达状态(图16)。该数据揭示了几种细胞类型中的多种表达程序,包括三种成纤维细胞程序(F1-F3)、三种髓样细胞状态(DC、M2-1、M2-2)、三种上皮表达程序(LumHR+、LumHR-、MyoEpi)和两种内皮表达状态(VasEndo、LymEndo)(图16A)。
成纤维细胞显示出三种不同的(F1-F3)表达程序,它们对应于乳腺组织中的不同空间区域(图16B)。F1成纤维细胞表达高水平的ABCA转运子外排转运蛋白(例如,ABCA6、ABCA8、ABCA9),可能代表脂肪成纤维细胞,因为ABCA基因家族先前已与胆固醇转运相关(36-38)。F1成纤维细胞主要定位于脂肪乳腺组织区域(A1)和一小部分上皮区域(A2)(图16B,右小图)。相比之下,F2成纤维细胞表达与活化的成纤维细胞(FAP、COL1A1、COL1A2、POSTN)相关的标志物(8,33)并且在空间上定位于A3区域,该区域也有许多巨噬细胞。F3成纤维细胞表达高水平的FBN1和CREB5,并且主要定位于A2上皮区域(图16B、图28)。
在髓样细胞簇内,除了树突状细胞(DC)群体外,还鉴定出了M2巨噬细胞的两个亚簇(M2-1、M2-2)(图16C)。除了M2标志物如MSR1、CD36、PPARG外,M2-1巨噬细胞还表达了典型的巨噬细胞标志物如CD11B和CD11C。这种细胞状态在空间上定位于成纤维细胞A3区域,在那里它们与F2成纤维细胞共定位。有趣的是,M2-1巨噬细胞还表达了许多促血管生成基因如MMP9(39)、HIF1A(40)、NRP1(41)、CTSB(42)、SPP1(43)、ANGPT2(42)和FGFR1(44),表明它们可能是促血管生成巨噬细胞(44,45)(图29A)。M2-2簇还表达了M2标志物(例如,MRC1、CD163、STAB1)(46,47)(图29B)并在空间上定位于A1(52.86%)和A2(33.51%)两个区域中(图30A)。第三髓样簇代表树突状细胞(DC),表达标志物如MHC II类基因、AXL、TCF4(48)(图29C)并定位于上皮A2区域(图16C、图30C)。
上皮细胞状态对应于激素反应性管腔细胞(LumHR+)、分泌性管腔细胞(LumHR-)和肌上皮细胞(MyoEpi)并在空间上定位于A2(图16D)。这些细胞状态共同构成了人类乳腺中导管和小叶的上皮双层(4,49)。在局部解剖上,三种不同的上皮细胞共定位于来自A2区域的所有空间样本中(图16D、图30B)。内皮细胞类型形成两个不同的簇,其对应于不同的细胞状态:血管内皮细胞和淋巴内皮细胞(图16E、图31)。VasEndo细胞在空间上定位于巨噬细胞区域(A3),而LymEndo细胞主要定位于上皮区域(A2)。另外,在脂肪(A1)区域中未检测到内皮细胞(图16E、图30C)。此数据与先前的研究一致,先前的研究通过免疫荧光显示了乳腺中淋巴内皮细胞与上皮细胞的关联(50)。
为了确定乳腺组织区中不同细胞表达状态的共定位,发明人进行了无偏倚聚类和空间映射(图16F-G)。该分析独立地证实了我们的初步评估,并表明三个主要的簇对应于定义为脂肪(A1)、上皮(A2)和髓样(A3)的主要局部解剖区域(图16F)。在该分析中,共有11个空间区由脂肪细胞、F1成纤维细胞和M2-2巨噬细胞簇合在一起,它们共定位于A1脂肪区域。另外9个空间区簇合在一起并对应于A2上皮区域,包括DC、LymEndo细胞、LumHR-细胞、LumHR+细胞、MyoEpi细胞、F3成纤维细胞和T细胞。剩余的16个样本簇合于一起并对应于A3富含成纤维细胞的区域,其包括F2成纤维细胞、M2-1巨噬细胞、VasEndo细胞和T-细胞。总的来说,这些数据表明特定的细胞表达程序共定位于人类乳腺组织中的不同局部解剖区域,表明不同的细胞类型可能具有影响其基因表达程序的异型相互作用。
4.癌细胞及其微环境的空间表达程序
本发明人应用了SNuBar来分析从来自浸润性ER-阳性乳腺癌患者(ER+、PR-、Her2-)的冷冻肿瘤样本宏观解剖的15个空间区并对1965个单细胞核进行了测序(图17A-B)。与新鲜乳腺组织相比,冷冻样本含有更多具有高百分数的线粒体(MT)基因(8.56%±10.26%SEM)和核糖体蛋白(RP)基因(7.73%±4.51%SEM)的细胞,这些细胞被从最终数据集过滤掉(图32)。鉴定出了对应于微环境中的细胞类型的四个主要的簇和一个代表肿瘤细胞的簇(图17A、图33-34)。微环境的组分包括巨噬细胞、T-细胞、成纤维细胞和内皮细胞。成纤维细胞显示出正常成纤维细胞标志物(FN1、DCN)的高表达,但也显示出CAF的标志物,包括FAP、PDGFRB、POSTN、GREM1、COL1A1(1,8,51)(图35)。血管内皮细胞显示出包括PECAM1和VWF在内的已知内皮标志物的高表达(图34)。T-细胞显示出已知的标志物,包括CD3D和CD2,并且T-细胞的子集具有细胞毒性标志物,包括GZMB和PRF1(图34、36)。除了M2标志物如MSR1、CD163和MRC1外,巨噬细胞还表达了CD86,表明它们可能是促肿瘤巨噬细胞(图37)。
肿瘤细胞是最常见的细胞类型(66.53%±12.63%)并且在被分析的所有15个空间区中均被鉴定出。除了已知的乳腺癌基因:ERBB2、CCND1、VEGFA、PTK6、MLPH(16,52,53)外,该组还表达了上皮标志物,包括KRT18、KRT19和EPCAM(图34、38)。为了进一步确定上皮簇是否是肿瘤细胞,发明人从RNA读段计数数据计算了基因组拷贝数畸变(CNA)谱(16)(图17D,方法)。推断的CNA数据将二倍体和非整倍体拷贝数谱分开,并显示大多数二倍体谱对应于微环境中细胞类型的表达簇,而非整倍体谱对应于高维空间中的上皮簇(图17E)。推断的CNA数据鉴定出了所有非整倍体肿瘤细胞所共有的畸变,包括染色体1p丢失、1q增加、8q增加(MYC)和18丢失。此外,CNA图揭示了两个不同的非整倍体克隆簇(c1、c2),通过合并单细胞数据(方法)自其计算共有谱。两个肿瘤克隆的比较揭示了若干拷贝数差异,包括克隆1中1q和17q、19、20q上的扩增及3q、4和5p的缺失,这些在克隆2中不存在。类似地,克隆2丢失了染色体17q和19,这在克隆1中没有检测到。
两个CNA克隆(c1、c2)占据不同的高维表达空间,表明CNA可能已引起基因剂量效应和不同的表达程序(图17F-G)。c1克隆在空间上定位于区域A1(区10-13和15),而克隆2在区域2(区1-8)中更为普遍(图17H-I、图39)。发明人进行了两个肿瘤克隆之间的差异表达(DE)分析,其鉴定出克隆1中534个显著上调(FDR<0.05)的基因和克隆2中224个上调的基因。DE分析鉴定出若干癌症基因,包括在克隆1中上调的VEGFA、AKT1、IDH2和AKT2及在克隆2中上调的FGF13、BCAS1、PTPRK和DAPK1(图17J)。为了确定两个克隆中的表达差异是否影响它们的表型,发明人使用50个癌症标志签名进行了基因集富集分析(GSEA)分析(54)(图17K)。所得数据鉴定出克隆1中相对于克隆2上调的若干癌症签名,包括MYC靶标、上皮间充质转化(EMT)、氧化磷酸化(OxPhos)、缺氧和TP53信号传导(以及其他签名),表明克隆1可能是肿瘤块中恶性程度更高的亚群。
发明人进一步研究了巨噬细胞在肿瘤块中的空间表达,其揭示了两个不同的M2簇:M2-1和M2-2(图40)。M2-2巨噬细胞显示出包括MRC1、CD163、CSF1R、SMAP2、KIF13B、CPM和白介素IL15、IL2RA在内的基因的上调(图41A),而M2-1巨噬细胞显示出CTSC、ITGB2、APOC1、C1QA、NRP1和MHC II类基因(HLA-DRA、HLA-DQA1、HLA-DPA1、HLA-DRB5)的更高表达(图41B)。值得指出的是,M2-2巨噬细胞对应于在正常乳腺组织中检测到的相同M2-2细胞,如由共用标志物(例如,MRC1、CD163)所证实。空间数据进一步表明,两种巨噬细胞的细胞状态在空间上与不同克隆的分布相关。在含有更高频率的T1克隆的A2区域中,M2-2表达状态显著高于M2-1状态(p=0.01,t检验)。相比之下,在A1区域中两种巨噬细胞表达状态之间没有显著差异(p=0.45),表明M2-2巨噬细胞与T1克隆相关。T1、T2、M2-1和M2-2的分层聚类也显示T2在空间环境中与M2-2共定位(图42)。这些数据表明,这两个肿瘤克隆可能在肿瘤微环境中具有不同的免疫相互作用。
B.讨论
在此,发明人报道了SNuBar的开发,在一些实施方案中,其是一种空间条形码编码方法,来在进行高通量snRNA-seq之前标记来自宏观解剖组织的细胞核。使用细胞系混合物实验,发明人证实SNuBar可高效地将空间条形码递送到单个细胞核中(>99%)并可多重化许多样本到一起以进行单个snRNA-seq运行。值得指出的是,发明人证实空间条形码可用于从最终的单细胞数据集区分和去除双细胞。发明人应用了SNuBar来研究来自正常乳腺组织样本和浸润性乳腺肿瘤样本的空间区,这为空间局部解剖学与细胞类型共定位对表达程序的影响之间的关系提供了新的见解。
在匹配的正常乳腺组织中,单细胞数据揭示了9种主要细胞类型,这些细胞类型基于它们在三个较大局部解剖区域(脂肪区域、上皮区域或富含成纤维细胞的区域)中的空间定位而具有不同的表达程序。最有趣的细胞类型之一是成纤维细胞,其在三个局部解剖区域上显示三种不同的表达程序(F1-F3),对应于不同的生物学功能:脂肪成纤维细胞、活化的成纤维细胞和上皮相关的成纤维细胞。类似地,上皮细胞类型、内皮细胞类型和巨噬细胞具有不同的表达程序,对应于乳腺组织中的三个局部解剖区域。该数据表明,细胞类型表达程序取决于其宏观空间局部解剖区域和局部细胞类型邻域的微观共定位。
在ER阳性乳腺肿瘤中,SNuBar揭示了肿瘤细胞和微环境中4种不同细胞类型的空间表达程序。与正常乳腺组织相比,微环境细胞类型在组织的15个空间区上均匀分布。然而,两个肿瘤细胞亚群在肿瘤块中占据不同的空间区域,一个克隆(c1)具有若干增加的癌症标志签名(EMT、ROS、oxphos、缺氧、Myc、TP53信号传导),这表明它可能是肿瘤中恶性程度更高的克隆。
SNuBar使用市售的酶(Tn5转座体,Illumina),具有高的可扩展潜力并且不依赖于特定的膜表面来进行条形码编码。另一个优点是SNuBar可直接对冷冻组织中的单个细胞核进行条形码编码(在解离之前),因为空间条形码直接进入组织中的完整细胞核而不是质膜,质膜常在冻融过程中破裂(57)。
虽然SNuBar限于测量单细胞中的核RNA,此手段在单细胞基因组学领域中已成为许多组织类型的首选(16,17,58,59)。单细胞核RNA-seq可捕获较大的细胞类型、复杂的细胞形态,提供组织中细胞类型频率的更真实呈现,并允许分析冷冻的档案组织样本。为了提高SNuBar的当前实施的空间分辨率,可能可以将寡核苷酸条形码直接应用于组织切片的微区(在解离之前)以进行snRNA-seq分析。此应用在该技术的未来发展中将是重要的,并可潜在地将空间分辨率提高到数十或数百个细胞。
最后,发明人证实,SNuBar提供了一种进行空间条形码编码的独特手段并可在单细胞基因组分辨率下提供对细胞类型和表达状态的局部解剖共定位的新见解。值得指出的是,SNuBar不限于snRNA测序,而是可潜在地扩展到使用不同接头序列的单细胞核DNA测序或表观基因组分析方法(例如,scATAC-seq)。发明人预计SNuBar将在癌症研究、发育生物学、神经科学和免疫学等多种领域具有广泛的应用,在这其中,单细胞基因组信息和组织结构的整合是了解人类疾病的关键。
C.方法
1.患者样本
冷冻肿瘤和匹配的正常乳腺组织自德克萨斯大学M.D.安德森癌症中心获得。匹配的正常样本是从DCIS乳腺癌患者收集的。冷冻乳腺肿瘤样本分类为ER阳性(99%)、PR阴性(<1%)和Her2阴性,具有中等Ki-67增殖评分和T1a 2级。该研究得到德克萨斯大学M.D.安德森癌症中心伦理审查委员会(IRB)的批准。两名患者均通过经IRB审查的知情同意程序同意。
2.细胞系培养
细胞系自MD Anderson Cell Line Core Facility获得并通过RFLP分析测试了支原体污染和细胞系身份。SKN-2在37℃和5%CO2下于另具有100IU青霉素、100μg/mL链霉素(CorningTM青霉素-链霉素溶液,CorningTM30002CI)、2mM L-谷氨酰胺(CorningTML-谷氨酰胺溶液,CorningTM25005CI)、1×MEM非必需氨基酸(CorningTM25-025-CI)和20%胎牛血清(ATLAS,Fetal plus,FP-0500-A)的杜氏改良Eagle中高葡萄糖(DMEM,Sigma,D5976)中培养。SK-BR-3和MDA-MB-436细胞在37℃和5%CO2下于含有100IU青霉素、100μg/mL链霉素(CorningTM30002CI)、2mM L-谷氨酰胺(CorningTM25005CI)和10%胎牛血清(Sigma,F0926)的DMEM(Sigma,D5976)中培养。MDA-MB-231在37℃和5%CO2下于含有100IU青霉素、100μg/mL链霉素(CorningTM30002CI)、2mM L-谷氨酰胺(CorningTM25005CI)和5%胎牛血清(Sigma,F0926)的无L-谷氨酰胺HyClone RPMI 1640培养基(GE Healthcare,SH30096.01)中培养。
3.空间条形码接头与转座体的杂交
为了组装带空间条形码的转座体,发明人向1μl TDE1中添加了1μl 1μM的经HPLC纯化的条形码寡核苷酸接头(5-’GACGCTGCCGACGACCTTGGCACCCGAGAATTCCA(N)18 (A)30-3’,(N)18 序列代表图18上更详细地描述的18bp空间/样本条形码)。将试剂混合并在冰上孵育2小时,然后加入3μl 1×Tn5贮存缓冲液(50mM Tris-HCl、PH 7.5、100mM NaCl、0.1mM EDTA、0.1%Triton X-100、1mM DTT和12.5%甘油)。将混合物置于冰上直接使用或在-20℃下贮存。TDE1和TD缓冲液购自Illumina Nextera DNA文库制备试剂盒(FC-121-1030),或分开购自Illumina(目录号:TDE1:15027865,TD缓冲液:15027866)。
4.从细胞系制备细胞核悬浮液
细胞在10cm皮氏培养皿中用杜氏磷酸盐缓冲盐水(Sigma,D8537)洗涤一次。为了生成细胞核,向板中添加5ml冷的DAPI/NST细胞裂解缓冲液(116.8mM NaCl、8mM Tris碱(PH7.8)、0.8mM CaCl2、38mM MgCl2、400mg/L BSA、0.16%Nonidet P-40替代物(体积/体积,USBiological,N3500)、10mg/L DAPI)(60)和0.1U/μl RNase抑制剂(NEB,M0314L,40U/μl)。用细胞刮刀移走细胞,然后转移到15ml管中。然后使细胞核悬浮液通过35至40μm过滤器(带细胞滤网弹扣盖的CorningTMFalconTM试管,352235或
Figure BDA0003393927830000711
细胞滤网,BAH136800040-50EA)。细胞在4℃下以500g离心5分钟,并用洗涤缓冲液(1×PBS、0.04%BSA、0.2U/μlRNase抑制剂)重悬,然后再进行一轮洗涤。
5.从新鲜和冷冻组织制备细胞核悬浮液
将冷冻或新鲜组织宏观解剖成多个块,在PBS中冲洗并转移到12孔培养板中,在那里,每个块的原始空间位置被注释。宏观解剖由摄像机记录以确保空间区没有错位。在冰上用11号手术刀在具有0.1U/μl RNase抑制剂的1ml冷的DAPI/NST裂解缓冲液中将每个解剖块切碎,并通过36μm尼龙网过滤器(SEFAR NITEX,03-36/28,批号0474301-00)。洗涤细胞核并重悬总共两次。
6.宏观解剖区的转座体条形码编码
将来自每个细胞系或宏观解剖组织块的大约30K至40K细胞核与具有空间条形码的组装转座体一起在以下缓冲液(25μl 2×TD缓冲液、1μl RNase抑制剂、1μl组装的带条形码的Tn5转座体、24μl具有细胞的洗涤缓冲液)中孵育。反应在37℃下孵育15至18分钟,同时在550至850rpm下混合,暂停15秒,混合15秒。然后用500μl重悬缓冲液(1×PBS、BSA(1%)、0.2U/μl RNase抑制剂)或DAPI/NST缓冲液轻轻洗涤细胞,接着在冰上孵育10至15分钟。细胞核在4℃下以500g离心5分钟并将细胞核沉淀重悬在重悬缓冲液中。将来自不同细胞系或组织块的细胞核汇集在一起,过滤并使用CountessTMII自动细胞计数器(LifeTechnologies,AMQAX1000)计数。将细胞核负载到10X Genomics系统中以根据制造商的说明使用V2化学进行单细胞RNA 3’测序。
7.单细胞核RNA-seq文库制备
按照10X Genomics单细胞RNA 3’V2操作规程制备测序文库,直至cDNA扩增步骤。然后,发明人将1μl 2.5μM的条形码引物(5’-CCTTGGCACCCGAGAATTCCA-3’)添加到cDNA扩增反应混合物中。cDNA PCR扩增循环比推荐数量增加1至3个额外的循环,因为与整个细胞相比,细胞核的转录本较少。扩增的cDNA用0.6×Ampure XP珠子纯化。在此比率下,cDNA与珠子结合而扩增的条形码保留在上清液中。根据制造商的建议纯化珠子结合的cDNA并然后用于制备测序文库。然后用额外的1.2×Ampure XP珠子(最终1.8×)纯化含有条形码的上清液。使用以下PCR反应制备经纯化条形码的测序文库:25μl 2x KAPA HiFi HotStartReadyMix、22μl经纯化条形码和H20、1.5μl TruSeq RPIX引物(5’-CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA-3’)和1.5μl TruSeq P5衔接子(5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’)。PCR在98℃下运行30秒,4至8个循环(98℃15秒、60℃30秒、72℃30秒),72℃1分钟,并4℃保持。PCR产物用1.5×Ampure XP珠子进一步纯化。然后以8:2的比率混合cDNA与条形码文库并在IlluminaNextSeq 500仪器上使用以下读段长度进行测序:读段1:26bp,读段2:58bp,索引读段(I7):8bp。
8.数据预处理
使用10X Genomics CellRanger(v2.2.0)mkfastq来通过样本索引拆分文库并将条形码和表达数据转换为FASTQ文件。使用10X CellRanger计数管道进一步处理表达文库的FASTQ文件。将读段与人类GRCh38 premrna参考(v1.2.0)对齐。用Seurat R包(v2.3.4)对CellRanger输出的基因矩阵进行归一化和分析(61)。从最终数据集过滤掉基因数少(N<200)的单细胞核。使用CITE-seq-Count(63)将空间条形码文库的FASTQ文件转换为样本条形码矩阵,使用以下引数:-cbf 1 -cbl 16 -umif 17 -umil 26 -hd 2,并使用CellRanger称之为白名单的细胞。
9.细胞系数据分析
对于细胞系混合物实验,发明人过滤了基因计数(N>12000)的细胞核和线粒体基因百分数高于0.02的细胞核。使用由CITE-seq-Count生成的样本条形码矩阵,使用Seurat内置的“HTOdemux”功能对样本条形码进行拆分,截断值高于正分位数0.99。从最终数据集去除多细胞和阴性细胞的检测,用比例因子(N=10000)进一步对单细胞数据进行对数归一化,并通过UMI计数和线粒体百分数进一步缩放。对缩放后的数据进一步进行PCA,然后进行非线性降维(t-SNE)。进行Wilcoxon秩和检验以鉴定每个簇的特征基因。
10.组织数据分析
对于新鲜和冷冻的人类乳腺组织,发明人使用deMULTIplex R包56代替SeuratHTOdemux函数来拆分空间/样本条形码,因为HTOdemux无法处理大量样本条形码。从最终数据集去除检测到的具有多个条形码的多细胞和没有分派条形码的阴性细胞,再将单细胞数据导入到Seurat R包中。进一步过滤具有高基因计数(N>9000)和高线粒体基因百分数(M>4%)的单细胞核。对于冷冻组织样本,核糖体蛋白超过10%的细胞也从最终数据集过滤掉。用比例因子(S=10000)进一步对过滤后的单细胞数据进行对数归一化,并通过UMI计数和线粒体百分数进一步缩放。缩放后的数据用于PCA和t-SNE进行高维分析。执行Wilcoxon秩和检验或DEseq2(63)方法来鉴定差异表达基因。
11.从单细胞RNA数据推断拷贝数
为了从单细胞核RNA-seq数据推断拷贝数异常(CNA),发明人使用了我们实验室先前公布的方法(16),该方法使用“移动平均”手段从对数转换的基因矩阵计算CNA。简言之,将表达量化为log(count+1),并去除所有细胞中平均表达<0.3的所有基因。通过去除正常细胞的平均表达来计算每个细胞的相对表达,如果值大于或小于2则进一步修正为2或-2。每个基因的拷贝数值定义为滑动平均值,窗口大小为50并以每个基因为中心。
12.基因签名和通路分析
为了进行基因签名和通路富集分析,发明人首先使用DESeq2(63)(v1.22.2)对两种不同的肿瘤亚群进行DE分析,使用以下引数:test="LRT",sfType="poscounts",Reduce=~1,useT=T,minReplicatesForReplace=Inf,minmu=1e-6,fitType='local',并使用lfcShrink函数进一步收缩。用来自Bioconductor R包FGSEA(v1.8.0)(64)的函数‘fgsea’进一步使用log2倍数变化排序基因列表来运行GSEA,使用癌症标志通路(h.all.v6.2.symbols.gmt)(65,66)与默认参数。选择具有调整p值>0.05的通路和签名作为显著富集的通路。
D.补充表1-空间条形码接头序列。
Figure BDA0003393927830000741
Figure BDA0003393927830000751
Figure BDA0003393927830000761
四种细胞系混合物实验中使用条形码接头1和16至18,正常乳腺组织实验中使用条形码接头1至36,冷冻乳腺肿瘤实验中使用条形码接头1至15。
E.实施例4的参考文献:
以下参考文献和整个说明书中提及的出版物,在它们提供示例性程序或对本文阐述的内容的其他细节补充的程度上,通过引用明确并入本文。
1.Wang,M.et al.Role of tumor microenvironment in tumorigenesis.JCancer8,761–773(2017).
2.Javed,A.&Lteif,A.Development of the Human Breast.Seminars inPlastic Surgery 27,005–012(2013).
3.Macias,H.&Hinck,L.Mammary gland development.Wiley InterdisciplinaryReviews:DevelopmentalBiology 1,533–557(2012).
4.Nguyen,Q.H.et al.Profiling human breast epithelial cells usingsingle cell RNA sequencing identifies cell diversity.Nature Communications 9,2028(2018).
5.Chung,W.et al.Single-cell RNA-seq enables comprehensive tumour andimmune cell profiling in primary breast cancer.Nature Communications 8,15081(2017).
6.Yin,J.et al.Comprehensive analysis of immune evasion in breastcancer by single-cell RNA-seq.bioRxiv 368605(2018).doi:10.1101/368605
7.Murrow,L.M.et al.Mapping the complex paracrine response to hormonesin the human breast at single-cell resolution.bioRxiv 430611(2018).doi:10.1101/430611
8.Kobayashi,H.et al.Cancer-associated fibroblasts in gastrointestinalcancer.Nature Reviews Gastroenterology&Hepatology 1(2019).doi:10.1038/s41575-019-0115-0
9.Hendry,S.et al.Assessing tumor infiltrating lymphocytes in solidtumors:a practical review for pathologists and proposal for a standardizedmethod from the International Immuno-Oncology Biomarkers Working Group.AdvAnat Pathol 24,235–251(2017).
10.Noy,R.&Pollard,J.W.Tumor-associated macrophages:from mechanisms totherapy.Immunity 41,49–61(2014).
11.Dudley,A.C.Tumor Endothelial Cells.Cold Spring Harb Perspect Med2,(2012).
12.Gierahn,T.M.et al.Seq-Well:portable,low-cost RNA sequencing ofsingle cells at high throughput.Nat.Methods 14,395–398(2017).
13.Macosko,E.Z.et al.Highly Parallel Genome-wide Expression Profilingof Individual Cells Using Nanoliter Droplets.Cell 161,1202–1214(2015).
14.Han,X.et al.Mapping the Mouse Cell Atlas by Microwell-Seq.Cell172,1091-1107.e17(2018).
15.Klein,A.M.et al.Droplet Barcoding for Single-Cell TranscriptomicsApplied to Embryonic Stem Cells.Cell 161,1187–1201(2015).
16.Gao,R.et al.Nanogrid single-nucleus RNA sequencing revealsphenotypic diversity in breast cancer.Nature Communications 8,228(2017).
17.Habib,N.et al.Massively parallel single-nucleus RNA-seq withDroNc-seq.Nat.Methods 14,955–958(2017).
18.
Figure BDA0003393927830000781
P.L.et al.Visualization and analysis of gene expression intissue sections by spatial transcriptomics.Science 353,78–82(2016).
19.Vickovic,S.et al.High-density spatial transcriptomics arrays forin situ tissue profiling.bioRxiv 563338(2019).doi:10.1101/563338
20.Rodriques,S.G.et al.Slide-seq:A scalable technology for measuringgenome-wide expression at high spatial resolution.Science 363,1463–1467(2019).
21.Lee,J.H.et al.Fluorescent in situ sequencing(FISSEQ)of RNA forgene expression profiling in intact cells and tissues.Nature Protocols 10,442–458(2015).
22.Raj,A.,van den Bogaard,P.,Rifkin,S.A.,van Oudenaarden,A.&Tyagi,S.Imaging individual mRNA molecules using multiple singly labeledprobes.Nature Methods 5,877–879(2008).
23.Shah,S.,Lubeck,E.,Zhou,W.&Cai,L.seqFISH Accurately DetectsTranscripts in Single Cells and Reveals Robust Spatial Organization in theHippocampus.Neuron 94,752-758.e1(2017).
24.Moffitt,J.R.et al.Molecular,spatial,and functional single-cellprofiling of the hypothalamic preoptic region.Science 362,eaau5324(2018).
25.Eng,C.-H.L.et al.Transcriptome-scale super-resolved imaging intissues by RNA seqFISH+.Nature 568,235(2019).
26.Haghverdi,L.,Lun,A.T.L.,Morgan,M.D.&Marioni,J.C.Batch effects insingle-cell RNA-sequencing data are corrected by matching mutual nearestneighbors.Nature Biotechnology 36,421–427(2018).
27.Stegle,O.,Teichmann,S.A.&Marioni,J.C.Computational and analyticalchallenges in single-cell transcriptomics.Nature Reviews Genetics 16,133–145(2015).
28.Lun,A.T.L.,McCarthy,D.J.&Marioni,J.C.A step-by-step workflow forlow-level analysis of single-cell RNA-seq data with Bioconductor.F1000Res 5,2122(2016).
29.Wolock,S.L.,Lopez,R.&Klein,A.M.Scrublet:ComputationalIdentification of Cell Doublets in Single-Cell Transcriptomic Data.CellSystems 8,281-291.e9(2019).
30.Moritani,S.et al.Immunohistochemical expression of myoepithelialmarkers in adenomyoepithelioma of the breast:a unique paradoxical stainingpattern of high-molecular weight cytokeratins.Virchows Arch.466,191–198(2015).
31.Stingl,J.,Eaves,C.J.,Zandieh,I.&Emerman,J.T.Characterization ofbipotent mammary epithelial progenitor cells in normal adult human breasttissue.Breast Cancer Res.Treat.67,93–109(2001).
32.Uhlén,M.et al.Proteomics.Tissue-based map of the humanproteome.Science 347,1260419(2015).
33.Tirosh,I.et al.Dissecting the multicellular ecosystem ofmetastatic melanoma by single-cell RNA-seq.Science 352,189–196(2016).
34.Inoue,H.,Ichinose,M.,Miura,M.,Katsumata,U.&Takishima,T.Sensoryreceptors and reflex pathways of nonadrenergic inhibitory nervous system infeline airways.Am.Rev.Respir.Dis.139,1175–1178(1989).
35.Ceredig,R.&Rolink,T.A positive look at double-negativethymocytes.Nat.Rev.Immunol.2,888–897(2002).
36.Chung,S.,Sawyer,J.K.,Gebre,A.K.,Maeda,N.&Parks,J.S.Adipose tissueATP binding cassette transporter A1 contributes to high-density lipoproteinbiogenesis in vivo.Circulation 124,1663–1672(2011).
37.Schmitz,G.&Langmann,T.Structure,function and regulation of theABC1 gene product.Curr.Opin.Lipidol.12,129–140(2001).
38.Phillips,M.C.Molecular mechanisms of cellular cholesterolefflux.J.Biol.Chem.289,24020–24029(2014).
39.Rundhaug,J.E.Matrix metalloproteinases andangiogenesis.J.Cell.Mol.Med.9,267–285(2005).
40.Krock,B.L.,Skuli,N.&Simon,M.C.Hypoxia-induced angiogenesis:goodand evil.Genes Cancer 2,1117–1133(2011).
41.Fantin,A.et al.NRP1 acts cell autonomously in endothelium topromote tip cell function during sprouting angiogenesis.Blood 121,2352–2362(2013).
42.Coffelt,S.B.et al.Angiopoietin-2 regulates gene expression inTIE2-expressing monocytes and augments their inherent proangiogenicfunctions.Cancer Res.70,5270–5280(2010).
43.Naldini,A.et al.Cutting edge:IL-1beta mediates the proangiogenicactivity of osteopontin-activated human monocytes.J.Immunol.177,4267–4270(2006).
44.Medina,R.J.et al.Myeloid angiogenic cells act as alternativeM2macrophages and modulate angiogenesis through interleukin-8.Mol.Med.17,1045–1055(2011).
45.Kzhyshkowska,J.et al.Role of tumor associated macrophages in tumorangiogenesis and lymphangiogenesis.Front.Physiol.5,(2014).
46.Murdoch,C.,Muthana,M.,Coffelt,S.B.&Lewis,C.E.The role of myeloidcells in the promotion of tumour angiogenesis.Nat.Rev.Cancer 8,618–631(2008).
47.Elliott,L.A.,Doherty,G.A.,Sheahan,K.&Ryan,E.J.Human Tumor-Infiltrating Myeloid Cells:Phenotypic and Functional Diversity.Front Immunol8,86(2017).
48.Collin,M.&Bigley,V.Human dendritic cell subsets:anupdate.Immunology 154,3–20(2018).
49.Gudjonsson,T.,Adriance,M.C.,Sternlicht,M.D.,Petersen,O.W.&Bissell,M.J.Myoepithelial cells:their origin and function in breast morphogenesis andneoplasia.J Mammary Gland Biol Neoplasia 10,261–272(2005).
50.Betterman,K.L.et al.Remodeling of the lymphatic vasculature duringmouse mammary gland morphogenesis is mediated via epithelial-derivedlymphangiogenic stimuli.Am.J.Pathol.181,2225–2238(2012).
51.Costa,A.et al.Fibroblast Heterogeneity and ImmunosuppressiveEnvironment in Human Breast Cancer.Cancer Cell 33,463-479.e10(2018).
52.Kaur,H.et al.Next-generation sequencing:a powerful tool for thediscovery of molecular markers in breast ductal carcinoma in situ.ExpertRev.Mol.Diagn.13,151–165(2013).
53.Bastien,R.R.L.et al.PAM50 breast cancer subtyping by RT-qPCR andconcordance with standard clinical molecular markers.BMC Med Genomics 5,44(2012).
54.Liberzon,A.et al.The Molecular Signatures Database Hallmark GeneSet Collection.cels 1,417–425(2015).
55.Stoeckius,M.et al.Cell‘hashing’with barcoded antibodies enablesmultiplexing and doublet detection for single cell genomics.bioRxiv(2017).doi:10.1101/237693
56.McGinnis,C.S.et al.MULTI-seq:sample multiplexing for single-cellRNA sequencing using lipid-tagged indices.Nature Methods 16,619(2019).
57.Wolfe,J.&Bryant,G.Freezing,drying,and/or vitrification ofmembrane-solute-water systems.Cryobiology 39,103–129(1999).
58.Wu,H.,Kirita,Y.,Donnelly,E.L.&Humphreys,B.D.Advantages of Single-Nucleus over Single-Cell RNA Sequencing of Adult Kidney:Rare Cell Types andNovel Cell States Revealed in Fibrosis.J.Am.Soc.Nephrol.30,23–32(2019).
59.Lake,B.B.et al.Neuronal subtypes and diversity revealed by single-nucleus RNA sequencing of the human brain.Science 352,1586–1590(2016).
60.Leung,M.L.et al.Highly multiplexed targeted DNA sequencing fromsingle nuclei.Nature Protocols 11,214–235(2016).
61.Butler,A.,Hoffman,P.,Smibert,P.,Papalexi,E.&Satija,R.Integratingsingle-cell transcriptomic data across different conditions,technologies,andspecies.Nature Biotechnology 36,411–420(2018).
62.Patrick Roelli,bbimber,Bill Flynn,santiagorevale&Gege Gui.Hoohm/CITE-seq-Count:1.4.2.(Zenodo,2019).doi:10.5281/zenodo.2590196
63.Love,M.I.,Huber,W.&Anders,S.Moderated estimation of fold changeand dispersion for RNA-seq data with DESeq2.Genome Biology 15,550(2014).
64.Sergushichev,A.A.An algorithm for fast preranked gene setenrichment analysis using cumulative statistic calculation.bioRxiv 060012(2016).doi:10.1101/060012
65.Subramanian,A.et al.Gene set enrichment analysis:A knowledge-basedapproach for interpreting genome-wide expression profiles.PNAS 102,15545–15550(2005).
66.Mootha,V.K.et al.PGC-1α-responsive genes involved in oxidativephosphorylation are coordinately downregulated in human diabetes.NatureGenetics 34,267–273(2003).
实施例5:在组织中进行原位空间条形码编码
A.基于垫片的SnuBar。
为了表明SNUBAR也可应用于对组织切片中的单细胞核进行条形码编码,发明人使用3.5mm×3.5mm/孔垫片测试了转座体条形码编码系统对4种不同的组织类型(小鼠肺、小鼠组织、人类乳腺癌样本和正常人类乳腺组织)进行条形码编码以分离同一切片的不同空间组织区。首先将组织冷冻切片成25μm厚的切片并安装在玻璃载玻片之上,然后用裂解缓冲液裂解并用PBS/BSA缓冲液洗涤两次。将垫片组装到载玻片之上。然后发明人加入14ul洗涤缓冲液、15ul 2×TD缓冲液和1ul带条形码的转座体并在37℃下孵育20分钟。用NST缓冲液灭活转座体,从载玻片刮下组织并收集为带条形码的细胞核悬浮液,然后通过40um过滤器,并在4℃下以800g离心5分钟。使用过滤后的细胞核在10X Genomics 3’RNA平台上制备高通量单细胞RNA测序文库。
B.基于微阵列的SNuBar
为了以高的空间分辨率原位对单细胞核进行人工条形码编码,发明人设计了一种定制的8×15k高密度DNA微阵列(Aglient),在点(spot)中打印空间条形码,其中每个特征的直径为65um并可覆盖约5至20个单细胞,然后将微阵列与桥接寡核苷酸和转座体杂交。将来自导管原位癌(DCIS)患者的人体组织样本切成20um厚并安装在玻璃载玻片上,然后用100ul(DAPI/NST+0.2U/ul RNase抑制剂)缓冲液在冰上裂解15分钟。去除裂解缓冲液,用洗涤缓冲液(PBS、0.04%BSA、0.2U/ul RNase抑制剂、DAPI)洗涤三次并在EVOSII上成像(DAPI染色和明场)。发明人然后去除洗涤缓冲液并向每个阵列添加10ul反应混合物(T4 DNA连接酶缓冲液:1ul,BamHI(100U/ul):1.5ul,RNase抑制剂,小鼠源(40U/ul),最终(1U/ul):0.25ul,H2O:7.5ul)。然后,覆盖组装好的带条形码的DNA微阵列并密封载玻片,接着于37℃孵育30分钟。接下来,我们将组织刮入管中并使其通过40um过滤器,然后使用EVOS和Countness II对细胞进行QC分析,接着在4℃下以500g离心5分钟。然后,发明人用移液器取出上清液(留下50ul),用900ul PBS+BSA(1%)+0.2U/ul RNase抑制剂缓冲液洗涤两次,并用~10-20ul PBS/1%BSA缓冲液重悬细胞。接下来,我们用Countness II对细胞计数(~5x105/ml),取15ul进行3'RNA-seq(10X Genomics)并在Nextseq500系统(Illumina Inc.)上对1个泳道进行测序。发明人总共对~4000个单细胞进行了测序,每个细胞88078个读段并且每个细胞1296个基因。我们鉴定出了6种不同的主要细胞类型,包括上皮细胞、成纤维细胞、免疫细胞(T细胞、巨噬细胞、B细胞)、内皮和平滑肌细胞(图43A-B)。因为我们可以解析每个单细胞的空间条形码,故我们能够根据它们的空间条形码将所有单细胞映射到它们的X-Y组织坐标(图44A)。大多数细胞映射到微阵列的底部部分,这对应于我们在微阵列上放置组织切片的区(图44B-C),并且正如预期的那样,显示具有导管的区有更多的细胞。这些数据表明,使用SNUBAR手段,此定制的微阵列递送方法可有效地原位对单细胞进行条形码编码。
***
根据本公开,可在没有过度实验的情况下实现和执行本文公开和要求保护的所有方法。虽然本发明的组合物和方法已用优选实施方案进行了描述,但对于本领域技术人员来说显而易见的是,可对本文描述的方法和方法的步骤或方法的步骤的顺序加以改变而不偏离本发明的构思、精神和范围。更特别地,很明显,某些既化学相关又生理学相关的药剂可替代本文所述的药剂而同时获得相同或相似的结果。所有这样的对本领域技术人员来说显而易见的类似替代和修改都被认为在附随的权利要求书所限定的本发明的精神、范围和构思之内。
参考文献
以下参考文献和整个说明书中提及的出版物,在它们提供示例性程序或对本文阐述的内容的其他细节补充的程度上,通过引用明确并入本文。
1.Hwang,B.,J.H.Lee,and D.Bang,Single-cell RNA sequencing technologiesand bioinformatics pipelines.Experimental&Molecular Medicine,2018.50(8):p.96.
2.Macosko,Evan Z.,et al.,Highly Parallel Genome-wide ExpressionProfiling of Individual Cells Using Nanoliter Droplets.Cell,2015.161(5):p.1202-1214.
3.Klein,Allon M.,et al.,Droplet Barcoding for Single-CellTranscriptomics Applied to Embryonic Stem Cells.Cell,2015.161(5):p.1187-1201.
4.Gierahn,T.M.,et al.,Seq-Well:portable,low-cost RNA sequencing ofsingle cells at high throughput.Nature Methods,2017.14:p.395.
5.Han,X.,et al.,Mapping the Mouse Cell Atlas by Microwell-Seq.Cell,2018.172(5):p.1091-1107.e17.
6.Gao,R.,et al.,Nanogrid single-nucleus RNA sequencing revealsphenotypic diversity in breast cancer.Nature Communications,2017.8(1):p.228.
7.Zheng,G.X.Y.,et al.,Massively parallel digital transcriptionalprofiling of single cells.Nature Communications,2017.8:p.14049.
8.
Figure BDA0003393927830000851
D.,et al.,Full-length mRNA-Seq from single-cell levels ofRNA and individual circulating tumor cells.Nature Biotechnology,2012.30:p.777.
9.Picelli,S.,et al.,Full-length RNA-seq from single cells usingSmart-seq2.Nature Protocols,2014.9:p.171.
10.Hashimshony,T.,et al.,CEL-Seq:Single-Cell RNA-Seq by MultiplexedLinear Amplification.Cell Reports,2012.2(3):p.666-673.
11.Hashimshony,T.,et al.,CEL-Seq2:sensitive highly-multiplexedsingle-cell RNA-Seq.Genome Biology,2016.17(1):p.77.
12.Vitak,S.A.,et al.,Sequencing thousands of single-cell genomes withcombinatorial indexing.Nature Methods,2017.14:p.302.
13.Zahn,H.,et al.,Scalable whole-genome single-cell librarypreparation without preamplification.Nature Methods,2017.14:p.167.
14.Cusanovich,D.A.,et al.,Multiplex single-cell profiling ofchromatin accessibility by combinatorial cellular indexing.Science,2015.348(6237):p.910.
15.Mezger,A.,et al.,High-throughput chromatin accessibility profilingat single-cell resolution.bioRxiv,2018.

Claims (52)

1.一种用于对真核细胞细胞核进行条形码编码的方法,所述方法包括:将多个寡核苷酸转移到多个细胞的细胞核中并进行单细胞分析以鉴定条形码的序列;其中每个寡核苷酸包含条形码区和靶标区。
2.根据权利要求1所述的方法,其中通过转座体复合物将所述寡核苷酸转移到细胞的细胞核中。
3.根据权利要求2所述的方法,其中所述寡核苷酸还包含转座体衔接子区。
4.根据权利要求1至3中任一项所述的方法,其中所述条形码对应于细胞特征,其中所述特征包括细胞在组织中的位置、细胞类型、细胞的克隆群体、患者样本或处理条件。
5.根据权利要求4所述的方法,其中所述细胞的克隆群体包括癌细胞的克隆群体。
6.根据权利要求4所述的方法,其中所述细胞在组织内,并且所述细胞特征包括所述细胞在组织内的位置。
7.根据权利要求6所述的方法,其中至少两个在组织中不同位置处的细胞各自用对应于每个所述细胞的相应组织位置的不同条形码进行条形码编码。
8.根据权利要求4所述的方法,其中所述细胞特征为细胞类型,并且其中第一条形码对应于来自第一细胞类型的细胞而第二条形码对应于来自第二细胞类型的细胞。
9.根据权利要求4所述的方法,其中所述细胞特征为患者样本,并且其中第一条形码对应于来自第一患者样本的细胞而第二条形码对应于来自第二患者样本的细胞。
10.根据权利要求4所述的方法,其中所述细胞特征为所述细胞在组织内的位置,并且其中第一条形码对应于第一位置而第二条形码对应于第二位置。
11.根据权利要求10所述的方法,其中所述组织内带条形码的细胞的总面积大于1mm2
12.根据权利要求4所述的方法,其中所述细胞特征为处理条件,并且其中第一条形码对应于第一处理条件而第二条形码对应于第二处理条件。
13.根据权利要求1至12中任一项所述的方法,其中所述方法还包括在悬浮液中合并所述带条形码的细胞核并且其中所述带条形码的细胞核的核被膜在所述悬浮液中是完整的。
14.根据权利要求1至13中任一项所述的方法,其中所述方法还包括进行来自所述细胞核的核酸的单细胞分析。
15.根据权利要求14所述的方法,其中所述单细胞分析包括对核酸测序以确定所述条形码的序列。
16.根据权利要求14或15所述的方法,其中所述单细胞分析包括对细胞核酸测序以确定所述单细胞的转录或基因组谱。
17.根据权利要求16所述的方法,其中所述转录或基因组谱包含单细胞的至少1000个基因的谱。
18.根据权利要求15至17中任一项所述的方法,其中对至少2000个不同的条形码测序。
19.根据权利要求1至18中任一项所述的方法,其中每个细胞含有确切地一个或两个外源添加的条形码。
20.根据权利要求19所述的方法,其中每个细胞含有两个外源添加的条形码并且其中所述两个条形码的序列的组合对应于每个细胞的细胞特征。
21.根据权利要求2至19中任一项所述的方法,其中每个转座体复合物包含一个或两个寡核苷酸。
22.根据权利要求21所述的方法,其中所述转座体复合物包含至少两个寡核苷酸。
23.根据权利要求22所述的方法,其中所述转座体复合物包含至少第一寡核苷酸和第二寡核苷酸,所述第一寡核苷酸包含第一条形码,所述第二寡核苷酸包含第二条形码,并且其中所述第一和第二条形码不同。
24.根据权利要求14至20中任一项所述的方法,其中所述单细胞分析包括确定所述单细胞的蛋白质组谱。
25.根据权利要求14至24中任一项所述的方法,其中所述单细胞分析包括对所述核酸测序。
26.根据权利要求14至25中任一项所述的方法,其中所述核酸包括RNA。
27.根据权利要求14至26中任一项所述的方法,其中所述单细胞分析涉及单细胞RNA测序以确定、定量或鉴定RNA剪接、RNA-蛋白质相互作用、RNA修饰、RNA结构、或lincRNA、microRNA、mRNA、tRNA和circRNA分析中的一种或多于一种。
28.根据权利要求26或27所述的方法,其中所述分析包括drop-seq、InDrop、seq-well、fluidigm、BD biosciences、illumina bio-rad microdroplets、sci-seq microwell-seq、nanogrid-seq、10x genomics RNA测序平台、SMART-seq、SMART-seq2、CEL-seq、CEL-seq2中的一种或多于一种。
29.根据权利要求14或25所述的方法,其中所述核酸包括DNA。
30.根据权利要求29所述的方法,其中所述单细胞分析包括单细胞DNA拷贝数分析、单细胞突变检测、单细胞结构变异检测、DNA和蛋白质相互作用的检测、DNA染色质分析、DNA-DNA相互作用的检测和DNA表观遗传修饰的检测中的一种或多于一种。
31.根据权利要求29所述的方法,其中所述单细胞分析包括10x genomics CNV测序平台、mission bio、fluidigm、sci-seq、直接标签化、sciATAC-seq、纳米孔scATAC-seq、MDA、DOP-PCR、MALBAC和LIANTI中的一种或多于一种。
32.根据权利要求1至31中任一项所述的方法,其中所述细胞核源自大于50微米的真核细胞或在大于50微米的真核细胞内。
33.根据权利要求1至32中任一项所述的方法,其中所述细胞核源自包含不规则形态的真核细胞或在包含不规则形态的真核细胞内。
34.根据权利要求1至33中任一项所述的方法,其中所述细胞核源自先前已冷冻的真核细胞或在先前已冷冻的真核细胞内。
35.根据权利要求1至34中任一项所述的方法,其中所述条形码序列与内源性DNA或RNA序列不邻接。
36.根据权利要求14至35中任一项所述的方法,其中所述方法还包括从所述细胞分离出核酸。
37.根据权利要求2至36中任一项所述的方法,其中所述转座体衔接子区包含转座酶识别序列。
38.根据权利要求2至37中任一项所述的方法,其中所述转座体衔接子区包含能够与转座体核酸组分碱基配对的互补序列。
39.根据权利要求1至38中任一项所述的方法,其中所述多个寡核苷酸包含至少一个包含转座酶识别序列的寡核苷酸和至少一个包含能够与转座体核酸组分碱基配对的互补序列的寡核苷酸。
40.根据权利要求1至39中任一项所述的方法,其中所述方法还包括所述细胞内源性的核酸的片段化。
41.根据权利要求40所述的方法,其中在将所述多个寡核苷酸转移到所述多个细胞中之前进行所述片段化。
42.根据权利要求1至41中任一项所述的方法,其中所述靶标区包含一个或多于一个引物结合位点。
43.根据权利要求1至42中任一项所述的方法,其中所述靶标区包含聚腺嘌呤区,所述聚腺嘌呤区包含至少4个连续的腺嘌呤核酸。
44.根据权利要求1至43中任一项所述的方法,其中所述靶标区包含通用引物结合区和随机引物结合区。
45.根据权利要求1至44中任一项所述的方法,其中将所述寡核苷酸转移到所述细胞中包括将寡核苷酸微量移液到每个细胞核中或每个细胞核之上;将寡核苷酸打印到每个细胞核中或每个细胞核之上;从基底释放寡核苷酸,细胞沉积在所述寡核苷酸和基底之上;和将寡核苷酸声学液体转移到每个细胞核。
46.根据权利要求45所述的方法,其中所述寡核苷酸还包含切割位点。
47.根据权利要求45或46所述的方法,其中释放寡核苷酸包括所述寡核苷酸的限制酶切割、切口酶切割、UV光切割或化学切割。
48.根据权利要求45至47中任一项所述的方法,其中所述基底包含微阵列。
49.根据权利要求1至45中任一项所述的方法,其中将所述寡核苷酸转移到所述细胞核,并且其中所述细胞在组织切片内的内源性位置中。
50.根据权利要求25至49中任一项所述的方法,其中所述包含所述条形码的序列不包含来自所述细胞核酸的序列。
51.根据权利要求1至50中任一项所述的方法,其中所述转座体包含Tn5、SleepingBeauty、PiggyBac、Tn7或MuA。
52.一种对真核细胞细胞核进行条形码编码的方法,所述方法包括:
i)将寡核苷酸转移到所述细胞的细胞核中;其中所述寡核苷酸包含条形码区和靶标区;
ii)在悬浮液中合并所述带条形码的细胞核并且其中所述带条形码的细胞核的核被膜在所述悬浮液中是完整的;和
iii)进行所述悬浮液的单细胞分析以鉴定所述条形码的序列和所述细胞的转录组谱、蛋白质组谱和/或基因组谱;
其中所述条形码序列与内源性DNA或RNA序列不邻接,并且其中所述条形码对应于细胞在组织切片内的内源性位置。
CN202080041751.1A 2019-04-05 2020-04-03 细胞条形码编码的方法和应用 Pending CN114174532A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962829773P 2019-04-05 2019-04-05
US62/829,773 2019-04-05
PCT/US2020/026619 WO2020206285A1 (en) 2019-04-05 2020-04-03 Methods and applications for cell barcoding

Publications (1)

Publication Number Publication Date
CN114174532A true CN114174532A (zh) 2022-03-11

Family

ID=72666969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080041751.1A Pending CN114174532A (zh) 2019-04-05 2020-04-03 细胞条形码编码的方法和应用

Country Status (4)

Country Link
US (1) US20220205035A1 (zh)
EP (1) EP3947727A4 (zh)
CN (1) CN114174532A (zh)
WO (1) WO2020206285A1 (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11519033B2 (en) 2018-08-28 2022-12-06 10X Genomics, Inc. Method for transposase-mediated spatial tagging and analyzing genomic DNA in a biological sample
US11649485B2 (en) 2019-01-06 2023-05-16 10X Genomics, Inc. Generating capture probes for spatial analysis
US11926867B2 (en) 2019-01-06 2024-03-12 10X Genomics, Inc. Generating capture probes for spatial analysis
EP3976820A1 (en) 2019-05-30 2022-04-06 10X Genomics, Inc. Methods of detecting spatial heterogeneity of a biological sample
CN114630906A (zh) * 2019-11-04 2022-06-14 生物辐射实验室股份有限公司 用于单细胞测序的细胞条码化
WO2021091611A1 (en) 2019-11-08 2021-05-14 10X Genomics, Inc. Spatially-tagged analyte capture agents for analyte multiplexing
WO2021092433A2 (en) 2019-11-08 2021-05-14 10X Genomics, Inc. Enhancing specificity of analyte binding
CN115605606A (zh) 2019-11-25 2023-01-13 加州理工学院(Us) 通过鉴定和定量分离(duet)对单细胞蛋白质进行定量分析
SG11202106899SA (en) 2019-12-23 2021-09-29 10X Genomics Inc Methods for spatial analysis using rna-templated ligation
US11732299B2 (en) 2020-01-21 2023-08-22 10X Genomics, Inc. Spatial assays with perturbed cells
US11702693B2 (en) 2020-01-21 2023-07-18 10X Genomics, Inc. Methods for printing cells and generating arrays of barcoded cells
US11821035B1 (en) 2020-01-29 2023-11-21 10X Genomics, Inc. Compositions and methods of making gene expression libraries
US11898205B2 (en) 2020-02-03 2024-02-13 10X Genomics, Inc. Increasing capture efficiency of spatial assays
US11732300B2 (en) 2020-02-05 2023-08-22 10X Genomics, Inc. Increasing efficiency of spatial analysis in a biological sample
US11835462B2 (en) 2020-02-11 2023-12-05 10X Genomics, Inc. Methods and compositions for partitioning a biological sample
US11891654B2 (en) 2020-02-24 2024-02-06 10X Genomics, Inc. Methods of making gene expression libraries
US11926863B1 (en) 2020-02-27 2024-03-12 10X Genomics, Inc. Solid state single cell method for analyzing fixed biological cells
US11768175B1 (en) 2020-03-04 2023-09-26 10X Genomics, Inc. Electrophoretic methods for spatial analysis
EP4242325A3 (en) 2020-04-22 2023-10-04 10X Genomics, Inc. Methods for spatial analysis using targeted rna depletion
WO2021237087A1 (en) 2020-05-22 2021-11-25 10X Genomics, Inc. Spatial analysis to detect sequence variants
WO2021236929A1 (en) 2020-05-22 2021-11-25 10X Genomics, Inc. Simultaneous spatio-temporal measurement of gene expression and cellular activity
WO2021242834A1 (en) 2020-05-26 2021-12-02 10X Genomics, Inc. Method for resetting an array
WO2021247543A2 (en) 2020-06-02 2021-12-09 10X Genomics, Inc. Nucleic acid library methods
EP4158054A1 (en) 2020-06-02 2023-04-05 10X Genomics, Inc. Spatial transcriptomics for antigen-receptors
WO2021252499A1 (en) 2020-06-08 2021-12-16 10X Genomics, Inc. Methods of determining a surgical margin and methods of use thereof
WO2021252591A1 (en) 2020-06-10 2021-12-16 10X Genomics, Inc. Methods for determining a location of an analyte in a biological sample
CN116034166A (zh) 2020-06-25 2023-04-28 10X基因组学有限公司 Dna甲基化的空间分析
US11761038B1 (en) 2020-07-06 2023-09-19 10X Genomics, Inc. Methods for identifying a location of an RNA in a biological sample
US11926822B1 (en) 2020-09-23 2024-03-12 10X Genomics, Inc. Three-dimensional spatial analysis
US11827935B1 (en) 2020-11-19 2023-11-28 10X Genomics, Inc. Methods for spatial analysis using rolling circle amplification and detection probes
AU2021409136A1 (en) 2020-12-21 2023-06-29 10X Genomics, Inc. Methods, compositions, and systems for capturing probes and/or barcodes
EP4284942A1 (en) * 2021-01-29 2023-12-06 10X Genomics, Inc. Method for transposase mediated spatial tagging and analyzing genomic dna in a biological sample
EP4301870A1 (en) 2021-03-18 2024-01-10 10X Genomics, Inc. Multiplex capture of gene and protein expression from a biological sample
WO2023034489A1 (en) 2021-09-01 2023-03-09 10X Genomics, Inc. Methods, compositions, and kits for blocking a capture probe on a spatial array
WO2023102313A1 (en) * 2021-11-30 2023-06-08 10X Genomics, Inc. Systems and methods for identifying regions of aneuploidy in a tissue
CN116259360B (zh) * 2023-03-16 2024-02-09 中国人民解放军空军军医大学 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140066318A1 (en) * 2011-04-13 2014-03-06 Spatial Transcriptomics Ab Method and product for localized or spatial detection of nucleic acid in a tissue sample
CN107075543A (zh) * 2014-04-21 2017-08-18 哈佛学院院长及董事 用于条形码化核酸的系统和方法
CN107873054A (zh) * 2014-09-09 2018-04-03 博德研究所 用于复合单细胞核酸分析的基于微滴的方法和设备
WO2018144813A1 (en) * 2017-02-02 2018-08-09 New York Genome Center Methods and compositions for identifying or quantifying targets in a biological sample

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180057873A1 (en) * 2015-04-17 2018-03-01 Centrillion Technology Holdings Corporation Methods for performing spatial profiling of biological materials
KR102475710B1 (ko) * 2016-07-22 2022-12-08 오레곤 헬스 앤드 사이언스 유니버시티 단일 세포 전체 게놈 라이브러리 및 이의 제조를 위한 조합 인덱싱 방법
US11180804B2 (en) * 2017-07-25 2021-11-23 Massachusetts Institute Of Technology In situ ATAC sequencing
WO2019113506A1 (en) * 2017-12-07 2019-06-13 The Broad Institute, Inc. Methods and compositions for multiplexing single cell and single nuclei sequencing
WO2020180778A1 (en) * 2019-03-01 2020-09-10 Illumina, Inc. High-throughput single-nuclei and single-cell libraries and methods of making and of using

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140066318A1 (en) * 2011-04-13 2014-03-06 Spatial Transcriptomics Ab Method and product for localized or spatial detection of nucleic acid in a tissue sample
CN108796058A (zh) * 2011-04-13 2018-11-13 空间转录公司 用于组织样本中核酸的局部或空间检测的方法和产品
CN107075543A (zh) * 2014-04-21 2017-08-18 哈佛学院院长及董事 用于条形码化核酸的系统和方法
CN107873054A (zh) * 2014-09-09 2018-04-03 博德研究所 用于复合单细胞核酸分析的基于微滴的方法和设备
WO2018144813A1 (en) * 2017-02-02 2018-08-09 New York Genome Center Methods and compositions for identifying or quantifying targets in a biological sample

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BETHAN PSAILA ET AL.: ""Single-cell profiling of human megakaryocyte-erythroid progenitors identifies distinct megakaryocyte and erythroid differentiation pathways"", 《GENOME BIOLOGY》, vol. 17, no. 83, 3 May 2016 (2016-05-03), pages 1 - 19 *
DARREN A. CUSANOVICH ET AL.: ""Multiplex single-cell profiling of chromatin accessibility by combinatorial cellular indexing"", 《SCIENCE》, vol. 348, no. 6237, 22 May 2015 (2015-05-22), pages 910 - 914, XP093127880, DOI: 10.1126/science.aab1601 *

Also Published As

Publication number Publication date
US20220205035A1 (en) 2022-06-30
EP3947727A4 (en) 2023-01-04
WO2020206285A1 (en) 2020-10-08
EP3947727A1 (en) 2022-02-09

Similar Documents

Publication Publication Date Title
US20220205035A1 (en) Methods and applications for cell barcoding
US20230295609A1 (en) Methods for cell label classification
Chen et al. Alternative polyadenylation: methods, findings, and impacts
KR102475710B1 (ko) 단일 세포 전체 게놈 라이브러리 및 이의 제조를 위한 조합 인덱싱 방법
EP4159871A1 (en) Synthetic multiplets for multiplets determination
WO2018222548A1 (en) A method of amplifying single cell transcriptome
CN116438316A (zh) 用于肿瘤学诊断的无细胞核酸和单细胞组合分析
CN115516109A (zh) 条码化核酸用于检测和测序的方法
AU2017359048B2 (en) Methods for expression profile classification
US20200123538A1 (en) Compositions and methods for library construction and sequence analysis
CN115461473A (zh) 空间分辨单细胞rna测序方法
CN114107459B (zh) 一种基于寡核苷酸链杂交标记的高通量单细胞测序方法
US20230383336A1 (en) Method for nucleic acid detection by oligo hybridization and pcr-based amplification
WO2020167830A1 (en) Determining expressions of transcript variants and polyadenylation sites
CN111492068A (zh) 与寡核苷酸相关联的颗粒
Mirzazadeh et al. Genome-wide profiling of DNA double-strand breaks by the BLESS and BLISS methods
US10870879B2 (en) Method for the preparation of bar-coded primer sets
AU2018367394A1 (en) Method for making a cDNA library
US20210381007A1 (en) Methods and compositions for crispr editing of cells and correlating the edits to a resulting cellular nucleic acid profile
CN114875118A (zh) 确定细胞谱系的方法、试剂盒和装置
Salama The complexity of the mammalian transcriptome
Simonetti Developing Methods for Mapping Genetic Heterogeneity in Tumors: from Bulk to Single-Cell Resolution
WO2024073510A2 (en) Methods and compositions for fixed sample analysis
CN117089597A (zh) 一种单细胞文库构建测序方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination