CN113439117A - 基因型解析装置及方法 - Google Patents

基因型解析装置及方法 Download PDF

Info

Publication number
CN113439117A
CN113439117A CN202080013245.1A CN202080013245A CN113439117A CN 113439117 A CN113439117 A CN 113439117A CN 202080013245 A CN202080013245 A CN 202080013245A CN 113439117 A CN113439117 A CN 113439117A
Authority
CN
China
Prior art keywords
prediction
electrophoresis
base length
allele
genotype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080013245.1A
Other languages
English (en)
Other versions
CN113439117B (zh
Inventor
横山彻
藤冈满
奥野惠佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi High Tech Corp
Original Assignee
Hitachi High Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi High Technologies Corp filed Critical Hitachi High Technologies Corp
Publication of CN113439117A publication Critical patent/CN113439117A/zh
Application granted granted Critical
Publication of CN113439117B publication Critical patent/CN113439117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • C12M1/34Measuring or testing with condition measuring or sensing means, e.g. colony counters
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Abstract

为了实现基因解析的成本降低,降低等位基因分型标准物的使用频率。基因型解析装置,其由电泳装置105和数据解析装置构成,在数据解析装置的STR解析部109内设置包含环境信息接收部124、预测模型存储部125、和迁移率预测部126的迁移率模型管理部122,基于环境信息接收部124接收的电泳时的环境条件、和等位基因分型标准物的电泳结果,在迁移率预测部126中生成用于预测等位基因的标准碱基长度的修正量的预测模型。然后,使用该预测模型,在不使用等位基因分型标准物的情况下,由环境条件修正等位基因的碱基长度。

Description

基因型解析装置及方法
技术领域
本发明涉及使用了电泳的基因型解析装置及其方法。
背景技术
通过脱氧核糖核酸(DNA)多型的解析进行的DNA鉴定目前为了刑事侦察、血缘关系的判定等而广泛地进行。同种生物的DNA具有大体上相似的碱基序列,但在一部分的部位具有不同的碱基序列。因而,将个体间在DNA上的碱基序列上发现多样性称为DNA多型,与基因水平上的个体差异的形成有关。
作为DNA多型的形态之一,有Short Tandem Repeat(STR,短串联重复序列)、或微卫星。所谓STR,是2个碱基至7个碱基长度左右的短序列重复数次至数十次的特征的排列模式,已知该重复次数根据个体而异。将对特定的基因座位处的STR的重复次数的组合进行解析称为STR解析。
在以刑事侦察等为目的的DNA鉴定中,使用了STR解析,其利用了STR的重复次数的组合在个体间不同的性质。在FBI(美国联邦调查局)、国际刑事警察机构中,将用于DNA鉴定的STR的座位(基因位点)作为DNA标记物,定义10~十几个,对这些STR的序列的重复次数的模式进行解析。该STR的重复次数的不同由于等位基因(对立基因、Allele)的不同而出现,因此以下将各个DNA标记物中的STR的重复次数记为等位基因。
为了提取一定量的用作DNA标记物的STR的部位的DNA,进行PCR(聚合酶链式反应(Polymerase Chain Reaction))。PCR是通过在靶DNA的两端指定称为引物序列的一定的碱基序列,只使夹持在引物序列之间的DNA片段反复扩增,从而取得一定量的靶DNA的样品的技术。
为了计量采用该PCR得到的靶DNA片段的片段长,进行电泳。所谓电泳,根据DNA片段的长度,带电的泳动路中的泳动速度不同,是利用了DNA片段越长则泳动速度越变小的DNA片段的分离方法。作为电泳的手法,近年来多使用作为泳动路使用了毛细管的毛细管电泳。
在毛细管电泳中,将凝胶等泳动介质填充于称为毛细管的细管中,在该毛细管内使样品的DNA片段泳动。然后,通过计量直至样品泳动完一定距离、通常从毛细管的一端至另一端所需的时间,从而考察DNA片段长。将各样品、即各DNA片段用荧光色素标记,采用置于毛细管终端部的光学检测器,检测泳动的样品的荧光信号。
已知DNA片段的泳动速度根据泳动介质、试剂性能、装置温度、泳动电压值等环境而变动。如果泳动速度变化,则所计量的DNA片段尺寸不同,不能正确地鉴定等位基因。因此,对于泳动速度的变动,为了正确地鉴定等位基因,一般使用称为等位基因分型标准物的标准试剂。所谓等位基因分型标准物,如后所述,为大量地包含DNA标记物中一般有可能含有的等位基因的人工样品,能够吸收泳动速度的变动,对等位基因与DNA片段长的对应关系进行微调。
通常,该等位基因分型标准物作为DNA鉴定用的试剂盒由试剂制造商提供。随着时间经过,环境变化引起的泳动速度的变动蓄积,因此在STR解析中,推荐以一定的频率使用等位基因分型标准物。
现有技术文献
专利文献
专利文献1:日本专利第6087128号
专利文献2:US2009/0228245A1
发明内容
发明要解决的课题
但是,在泳动速度的变动比在以往的推荐的频率下设想的变动大的情况下,存在不能吸收泳动速度的变动、不能正确地计量DNA片段尺寸的课题。
相反,即使经过了推荐频率的期间,在泳动速度的变动小的情况下,也存在没有必要地消耗等位基因分型标准物、使运行成本增加的课题。特别地,对于毛细管只有1根的基因检查装置而言,不能用不同的毛细管同时使计量对象样品和等位基因分型标准物电泳。要在这样的装置中使用等位基因分型标准物,需要进行2次电泳,因此解析变得烦杂。
本发明鉴于这样的状况而完成,提供降低使用等位基因分型标准物的频率、可实现STR解析的解析成本降低的基因型解析装置及方法。
用于解决课题的手段
为了实现上述课题,在本发明中,提供如下构成的基因型解析装置,其包括:通过电泳得到图谱的电泳装置,和基于图谱求出DNA的碱基长度、参照标准碱基长度以解析基因型的数据解析装置;数据解析装置包含基于电泳中的环境信息来预测标准碱基长度与实测碱基长度的对应的迁移率模型管理部。
另外,为了实现上述课题,本发明中,提供基因型解析方法,是采用数据解析装置的基因型解析方法,其中,数据解析装置基于电泳中的环境信息,预测标准碱基长度与基于通过电泳得到的图谱求出的DNA的实测碱基长度的对应。
发明的效果
根据本发明,能够减少等位基因分型标准物的使用频率,因此能够以低成本实现STR解析。
附图说明
图1为表示根据实施例1的基因型解析装置的概略构成的图。
图2为表示根据实施例1的电泳装置的概略构成的图。
图3为表示根据实施例1的基因型解析装置的处理流程的图。
图4为表示根据实施例1的电泳处理流程的图。
图5为表示实际样品的荧光强度波形的例子的图。
图6为用于说明高斯拟合的概要的图。
图7为用于说明根据实施例1的尺寸调用的概要的图。
图8为表示根据实施例1的STR解析部的概略构成的图。
图9为表示根据实施例1的等位基因调用的处理流程的图。
图10为表示根据实施例1的对应关系表(Look Up Table:LUT)的图。
图11为表示等位基因分型标准物的荧光强度波形的例子的图。
图12为表示根据实施例1的LUT更新的第一例的图。
图13为用于说明根据实施例1的预测模型的概念的图。
图14为用于说明根据实施例1的决策树的概念的图。
图15为用于说明根据实施例1的等位基因碱基长度修正的概念的图。
图16为表示根据实施例1的LUT更新的第二例的图。
图17为用于说明根据实施例1的等位基因鉴定的概念的图。
图18为表示根据实施例2的STR解析部的概略构成的图。
图19为表示根据实施例2的基因型解析装置的处理流程的图。
图20为表示根据实施例2的预测模型学习的处理流程的图。
图21为表示根据实施例2的学习数据组的概念的图。
图22为表示根据实施例3的等位基因调用的处理流程的图。
图23为表示根据实施例3的阳性对照信息的例子的图。
具体实施方式
以下参照附图,对于基于环境信息的实际样品的电泳时预测DNA的碱基长度的修正量的基因型解析装置及方法的各种实施例依次进行说明。不过,各实施例只不过是用于实现本发明的一例,应注意地是,并不限定本发明的技术范围。另外,各图中对于共同的构成,标注了同一附图标记。
实施例1
实施例1为基因型解析装置的实施例,所述基因型解析装置包括:通过电泳得到图谱的电泳装置,和基于图谱求出DNA的碱基长度,参照标准碱基长度以解析基因型的数据解析装置;数据解析装置包含基于电泳中的环境信息来预测标准碱基长度与实测碱基长度的对应的迁移率模型管理部。另外,本实施例为基因型解析方法的实施例,所述基因型解析方法是采用数据解析装置的基因型解析方法,数据解析装置基于电泳中的环境信息,预测标准碱基长度与基于通过电泳得到的图谱求出的DNA的实测碱基长度的对应。
在图1中示出实施例1的基因型解析装置的构成。基因型解析装置101由数据解析装置112和电泳装置105构成。数据解析装置112由进行电泳的控制、数据处理等的中央控制部102;使用显示部将后面说明的可应用的预测模型的一览等向用户进行信息提示、使用输入部进行从用户的信息输入的用户界面部103;和存储数据、装置的设定信息的存储部104构成。另外,数据解析装置112如果经由网络与外部服务器111连接,则可在两者间接收和发送预测模型数据等各种的数据。
中央控制部102由样品信息设定部106、电泳装置控制部108、荧光强度计算部110、峰检测部107、和STR解析部109构成。将STR解析部109内的方块构成示于图8中。STR解析部109由尺寸调用部121、迁移率模型管理部122、和等位基因调用部123构成。进而,迁移率模型管理部122由环境信息接收部124、预测模型存储部125和迁移率预测部126构成。对于各自的功能将后述。
图2为电泳装置105的概略图。参照图2对电泳装置105的构成进行说明。
电泳装置105由用于光学上检测样品的检测部216、用于将毛细管保持恒温的恒温槽218、用于将各种容器搬运至毛细管阴极端的搬运机225、用于对毛细管施加高电压的高压电源204、用于检测从高压电源发出的电流的第一电流计205、用于检测流入阳极侧电极211的电流的第二电流计212、由单根或多根毛细管202构成的毛细管阵列217、和用于将聚合物注入毛细管的泵机构203构成。
毛细管阵列217是包含多根(例如8根)毛细管的更换构件,包含加载端板229、检测部216和毛细管头233。另外,在毛细管中发现破损、品质的劣化时,更换为新品的毛细管阵列。
毛细管由内径数十~数百微米、外形数百微米的玻璃管构成,为了提高强度,将表面用聚酰亚胺涂覆。不过,照射激光的光照射部成为为了将聚酰亚胺被膜除去以使内部的发光容易泄漏到外部的结构。在毛细管202的内部填充电泳时用于给予泳动速度差的分离介质。分离介质存在流动性和非流动性这两者,在本实施例中使用流动性的聚合物。
检测部216为取得依赖于样品的信息的构件。如果从光源214将激发光照射检测部216,则从样品产生作为信息光的、具有依赖于样品的波长的荧光,向外部放出。将该信息光用衍射格栅232在波长方向上分光,将分光的信息光采用光学检测器215检测,对样品进行分析。
毛细管阴极侧端227分别通过金属制的中空电极226而固定,成为毛细管前端从中空电极226突出0.5mm左右的状态。另外,装备于每个毛细管的中空电极全部成为一体,安装于加载端板229。进而,全部的中空电极226与搭载于装置主体的高压电源204导通,在电泳、样品引入等需要施加电压时作为阴极电极工作。
与毛细管阴极端侧227相反侧的毛细管端部(另一端部)被毛细管头233捆绑成一个。毛细管头233能够耐压气密地与方块207连接。将高电压电源204产生的高电压施加于加载端板229和毛细管头233之间。而且,采用注射器206从另一端部将新型聚合物填充到毛细管内。为了提高测定的性能,在每次测定实施毛细管中的聚合物重装。
泵机构203由注射器206和用于对该注射器加压的机构系构成。
另外,方块207为用于将注射器206、毛细管阵列217、阳极缓冲容器210和聚合物容器209分别连通的连接部。
检测来自样品的信息光的光学检测部由用于照射上述的检测部216的光源214、用于检测检测部216内的发光的光学检测器215、和衍射格栅232构成。检测通过电泳分离的毛细管中的样品时,用光源214照射毛细管的检测部216,用衍射格栅232将来自检测部216的发光分光,用光学检测器215检测。
就恒温槽218而言,为了将恒温槽内保持在一定的温度,用绝热材料覆盖,采用加热冷却机构220控制温度。另外,风扇219使恒温槽内的空气循环和搅拌,将毛细管阵列217的温度在位置上保持均匀且恒定。
搬运机225具备3个电动马达和线性执行器,可在上下、左右和纵深方向这3轴上移动。另外,能够将至少一个以上的容器放置于搬运机225的移动平台230。进而,在移动平台230具备电动的把手231,能够抓取、释放各容器。因此,能够根据需要将缓冲容器221、洗净容器222、废液容器223和样品容器224搬运到毛细管阴极端227。再有,将不需要的容器在装置内的规定收容所保管。
将电泳装置105在与数据解析装置112用通信电缆连接的状态下使用。操作员采用数据解析装置112,控制装置保有的功能,能够授受用装置内的检测器检测的数据。
另外,在电泳装置105可存在用于取得可影响电泳的环境信息的传感器。作为例子,将装置内传感器240、聚合物传感器部241、缓冲液传感器242示于图2内。装置内传感器部240为用于取得装置内的环境信息的传感器组,作为例子,为装置内的温度、湿度、气压等。聚合物传感器部241为用于取得与聚合物的品质有关的信息的传感器组,作为例子,为PH传感器、电导率传感器等。在图2中示出了聚合物传感器部241设置于聚合物容器209内的例子,但并不限定于该位置。缓冲液传感器部242为用于取得与缓冲液的品质有关的信息的传感器组,作为例子,有温度传感器。在图2中示出了缓冲液传感器部242设置于阳极缓冲容器210内的例子,但并不限定于该位置。另外,也可设定在缓冲容器221内。
使用图3,对本实施例的基因型解析装置和方法的处理流程的概要进行说明。
首先,进行解析对象的实际样品的电泳处理(步骤,以下记为S301)。其次,在S302中,由通过电泳得到的图谱波形数据计算各荧光色素的荧光强度。然后,在S303中,由荧光强度的波形检测峰。其次,在S304中,通过进行得到的峰时刻与尺寸标准的已知的DNA片段长的信息的映射,从而得到时刻与DNA片段长的对应关系。将该处理称为尺寸调用。然后,在S305中,由得到的各个DNA片段长鉴定等位基因。将该处理称为等位基因调用。
以下参照附图,对上述的各个步骤中的处理的详细情况进行说明。
图4表示S301中的实际样品的电泳处理的流程。电泳的基本步骤能够大致分为样品准备(S401)、分析开始事件(S402)、泳动介质填充(S403)、预备泳动(S404)、样品导入(S405)和泳动分析(S406)。
本装置的操作员将样品、试剂设置于本装置中作为分析开始前的样品准备(S401)。更具体地,首先,在缓冲容器221和阳极缓冲容器210中充满形成通电路的一部分的缓冲液。缓冲液例如为由各公司作为电泳用缓冲液已市售的电解质液。另外,在样品板224的孔内分注作为分析对象的样品。样品例如为DNA的PCR产物。另外,在洗净容器222中分注用于洗净毛细管阴极端227的洗净溶液。洗净溶液例如为纯水。另外,在注射器206内注入用于使样品电泳的泳动介质。泳动介质例如为从各公司作为电泳用泳动介质已市售的聚丙烯酰胺系分离凝胶、聚合物等。进而,在设想毛细管202的劣化的情形、改变毛细管202的长度的情形下,更换毛细管阵列217。
此时,作为设置于样品板224的样品,除了作为解析的对象的DNA的实际样品以外,有阳性对照、阴性对照、等位基因分型标准物,在彼此不同的毛细管中使其电泳。阳性对照例如为包含已知的DNA的PCR产物,是用于确认采用PCR将DNA正确扩增的对照实验用的样品。阴性对照为不含DNA的PCR产物,是用于确认在PCR的扩增物中没有产生操作员的DNA、灰尘等污染的对照实验用的样品。
所谓等位基因分型标准物,是大量包含在DNA标记物中一般有可能含有的等位基因的人工样品,通常作为DNA鉴定用的试剂盒由试剂制造商提供。为了对各个DNA标记物的DNA片段长与等位基因的对应关系进行微调而使用等位基因分型标准物。对于等位基因分型标准物将后述。
另外,对于上述的实际样品、阳性对照、阴性对照和等位基因分型标准物的全部样品混合称为尺寸标准的、用特定的荧光色素标记的已知的DNA片段。根据使用的试剂盒,分配给尺寸标准的荧光色素的种类不同。例如,对于图7的(a)中例示的尺寸标准试剂而言,长度为80bp至480bp之间的已知的DNA片段已用荧光色素LIZ标记。就尺寸标准而言,在后述的尺寸调用中,为了得到扫描时刻与DNA片段长的对应关系,对于全部的毛细管的样品进行混合。
操作员指定等位基因分型标准物的种类、尺寸标准的种类、荧光试剂的种类、在与各个毛细管对应的样品板224上的孔中设置的样品的种类等。在本实施例中,作为样品的种类,指定实际样品、阳性对照、阴性对照和等位基因分型标准物中的任一个的种类。就这些信息的设定而言,在数据解析装置112上,经由用户界面部103,设定于样品信息设定部106。
然后,在上述的样品准备(S401)完成后,操作员在数据解析装置112上,操作用户界面部103,指示分析开始。该分析开始的指示传到电泳装置控制部108。通过电泳装置控制部108将分析开始的信号发送至电泳装置105,从而开始分析(S402)。
其次,在电泳装置105中,开始泳动介质填充(S403)。该步骤可在分析开始后自动地进行,也可通过逐次从电泳装置控制部108发送控制信号而进行。所谓泳动介质填充,是向毛细管202内填充新的泳动介质、形成泳动路的步骤。
在本实施例中的泳动介质填充(S403)中,首先,采用搬运机225将废液容器223搬运到加载端板229的正下方,关闭电磁阀213,使得可接受从毛细管阴极端227排出的使用完的泳动介质。然后,驱动注射器203,向毛细管202填充新的泳动介质,将使用完的泳动介质废弃。最后,使毛细管阴极端227浸入洗净容器222内的洗净溶液中,将被泳动介质污染的毛细管阴极端227洗净。
其次,进行预备泳动(S404)。该步骤可自动地进行,也可通过逐次从电泳装置控制部108发送控制信号而进行。所谓预备泳动,是对泳动介质施加规定的电压、使泳动介质成为适于电泳的状态的步骤。在本实施例中的预备泳动(S404)中,首先,采用搬运机225将毛细管阴极端227浸入缓冲容器221内的缓冲液,形成通电路。然后,采用高压电源204,对泳动介质施加数分钟~数十分钟的数千伏~数十千伏左右的电压,使泳动介质成为适于电泳的状态。最后,将毛细管阴极端227浸入洗净容器222内的洗净溶液中,将被缓冲液污染的毛细管阴极端227洗净。
其次进行样品导入(S405)。该步骤可自动地进行,也可通过逐次从电泳装置控制部108发送控制信号而进行。
在样品导入(S405)中,将样品成分导入泳动路。在本实施例中的样品导入(S405)中,首先,采用搬运机225,将毛细管阴极端227浸入在样品板224的孔内保持的样品,然后打开电磁阀213。由此,形成通电路,成为将样品成分导入泳动路的状态。然后,采用高压电源204将脉冲电压施加于通电路,将样品成分导入泳动路。最后,将毛细管阴极端227浸入洗净容器222内的洗净溶液,将被样品污染的毛细管阴极端227洗净。
其次,进行泳动分析(S406)。该步骤可自动地进行,也可通过逐次从电泳装置控制部108发送控制信号而进行。在泳动分析(S406)中,通过电泳,将样品中所含的各样品成分分离分析。在本实施例中的泳动分析(S406)中,首先,采用搬运机225,将毛细管阴极端227浸入缓冲容器221内的缓冲液,形成通电路。其次,采用高压电源204,对通电路施加15kV左右的高电压,在泳动路产生电场。利用产生的电场,泳动路内的各样品成分以依赖于各样品成分的性质的速度向检测部216移动。即,利用其移动速度之差将样品成分分离。然后,从到达检测部216的样品成分起依次检测。例如,在样品包含大量碱基长度不同的DNA的情况下,根据其碱基长度,在移动速度上产生差异,从碱基长度短的DNA起依次到达检测部216。在各DNA中安装了依赖于其末端碱基排列的荧光色素。如果从光源214将激发光照射检测部216,则从样品产生信息光、即具有依赖于样品的波长的荧光,向外部放出。采用光学检测器215检测该信息光。在泳动分析中,在光学检测器215中,以一定的时间间隔检测该信息光,将图像数据发送至数据解析装置112。或者,为了减少发送的信息量,可不是图像数据,而是只发送图像数据中的一部分的区域的亮度。例如,可发送对于每个毛细管只在一定间隔的波长位置取样的亮度值。该亮度值数据表示各毛细管的图谱波形。将该图谱波形存储于存储部104。
最后,在取得完预定的图像数据后,停止电压施加,结束泳动分析(S407)。以上为图3中的电泳处理(S301)的处理的一例。
其次,由在上述的图3的电泳处理(S301)中得到的图像数据,计算各荧光色素的强度(S302)。该荧光强度计算处理在图1中的荧光强度计算部110进行。在荧光强度计算处理(S302)中,如果将S301中存储于存储部104的图谱波形数据设为λ(0)~λ(19),即,在20个波长位置取样,各色素的荧光强度通过乘以各个波长处的、各荧光色素的强度比率并相加而计算。如果将其用矩阵表示,则如(式1)所示。
[数1]
c=Mf
c=cF cV cN cV cLt…(式1)
f=f0 f1…f18 f19t
(式1)中,向量c为荧光强度向量,其要素cF、cV、cN、cP和cL分别表示6FAM、VIC、NED、PET和LIZ的荧光强度。
向量f为计量的图谱向量,其要素f0至f19分别表示波长λ(0)至λ(19)处的信号强度(亮度值)。或者,要素f0至f19也可分别为波长λ(0)至λ(19)的附近的信号强度的加权平均等。应予说明,在用光学检测器215所检测的、各个波长入(0)至λ(19)的计量信号中,除了荧光色素产生的信号以外,也包含来自在毛细管内填充的聚合物的拉曼散射光作为基线信号。因此,在向量f的计算时,需要预先将该基线信号除去。
作为该基线信号的除去方法的一例,可通过对于λ(0)至λ(19)的各个波长的计量信号施加将低频成分除去的高通滤波器,从而将基线信号除去。或者,可将各时刻附近的最小值作为此时刻的基线信号值。
矩阵M为将计量图谱f变换为荧光强度向量的矩阵,其要素相当于各个波长处的各个荧光色素的强度比率。该强度比率的值越高,意味着在该波长处其对荧光色素的强度的贡献越高。
矩阵M原本根据荧光色素的种类和泳动路的条件,一元地限定,实际上,可根据毛细管和检测器的位置关系而变动,因此在毛细管的更换等时需要计算。求取该矩阵M的一连串的处理为光谱校准。光谱校准一般通过对称为矩阵标准的样品进行电泳而进行。所谓矩阵标准,是为了取得荧光图谱、得到上述的矩阵而用于进行电泳的试剂。
此外,可如专利文献1那样,不使用上述的矩阵标准,而基于计量对象的实际样品的泳动数据来算出矩阵。在本实施例中,并不限定于光谱校准,假定预先得到了上述的矩阵。
使用该矩阵M的初期值,根据(式1)由计量图谱计算各荧光色素的荧光强度。通过对各时刻的各毛细管的图谱进行该处理,从而能够得到各毛细管的荧光强度的时间数列数据。以下将该荧光强度的时间数列数据记为荧光强度波形。
在图5中表示电泳(S301)后在S302中得到的实际样品的荧光强度波形的例子。各个荧光强度的峰立起的时刻相当于各个用荧光色素标记的DNA片段的长度,该长度的不同相当于等位基因的不同。在图5的荧光强度波形中,对于各个DNA标记物,包含1个或2个峰,在峰为一个的情况下,可知其峰的荧光强度变得比峰为2个的标记物的荧光强度要高。在峰为1个的情况下意指纯合子(来自父亲的等位基因与来自母亲的等位基因相同),在峰为2个的情况下意指杂合子(来自父亲的等位基因与来自母亲的等位基因不同)。再有,在图5中,为对于样品的DNA、一人贡献的例子,假如为多人的DNA混合的混合样品的情况下,根据该多人的贡献率,有时对于一个DNA标记物,存在3个以上的峰。
其次,对于通过图3中的荧光强度计算处理(S302)得到的、上述的荧光强度波形,进行峰检测(S303)。在峰检测中,主要地,峰的中心位置(峰时刻)、峰的高度和峰的宽度是重要的。峰的中心位置对应于DNA片段长,对于识别等位基因最为重要。另外,峰的高度用于纯合子·杂合子的识别、样品中的DNA浓度的大小等品质评价。峰的宽度在评价样品、电泳结果的品质上也重要。作为推定这样的实际数据的峰参数的手法之一,能够使用作为已知技术的高斯拟合。
在图6中示出高斯拟合的概念。如该图中所示那样,所谓高斯拟合,是对于一定区间的实际数据计算高斯函数g最好地近似实际数据的参数(平均值μ、标准偏差σ和最大振幅值A)的处理。作为表示实际数据的近似的程度的指标,多使用实际数据与高斯函数值的最小二乘误差。作为使该最小二乘误差最小的数值计算手法,能够使用高斯牛顿法等现有的手法来使参数最优化。此外,也可应用专利文献2中公开的、提高2个以上的峰波形混合的情形、峰周边的数据为非对称的情形等的精度的手法。而且,如果确定高斯函数g的分散σ,则其半峰全宽(FWHM:Ful lWidth at Half Maximum)用图6中所示的式得到。能够将该值作为峰宽。
这样对于全部的荧光色素的荧光强度波形,求出峰参数。此时,在峰宽、峰的高度不满足预先确定的阈值条件的情况下,可从该峰排除。
其次,进行图3中的尺寸调用处理(S304)。所谓尺寸调用,是进行直至采用电泳检测DNA片段所需的时间与DNA片段的碱基长度(以下记为DNA碱基长度)的对应的处理,在本实施例中,在数据解析装置112中的图8中所示的STR解析部109内的尺寸调用部121进行。具体地,如上所述,对于称为尺寸标准的、包含已知长度的DNA片段并且将它们用特定的荧光色素标记的试剂,进行电泳。例如就图7的(a)中例示的尺寸标准试剂而言,对于长度为80bp至480bp之间的已知的DNA片段,用荧光色素LIZ标记。对于通过上述的峰检测(S303)得到的峰的中心位置、即峰时刻,使已知的DNA片段长度对应。在该对应中使用公知的动态规划法等。由这些峰时刻与已知的DNA碱基长度的组合,能够得到电泳时间与DNA碱基长度的对应式。
图7的(b)为表示求出该DNA泳动时间(t)与DNA碱基长度(y)的关系式“y=f(t)”的样子的图。绘制尺寸标准已知的DNA碱基长度和与其对应的峰时刻,求出最好地近似该图的关系式y=f(t)。作为f(t),可使用二次式或三次式等,进行使其二乘误差成为最小的近似。另外,用户经由用户界面部103向STR解析部109指定使用哪个近似式。对于全部的毛细管求出这样得到的、DNA泳动时间(t)与DNA碱基长度(y)的关系式“y=f(t)”并保持。能够使用该关系式,由采用各毛细管所计量的荧光强度波形的峰时刻求出此时的DNA碱基长度。
其次,进行图3中的等位基因调用处理(S305)。如上所述,所谓等位基因调用,是由通过尺寸调用处理得到的各峰的DNA碱基长度鉴定等位基因的处理,在本实施例中在数据解析装置112中的图8中所示的STR解析部109内的迁移率模型管理部122和等位基因调用部123进行。
图9为表示等位基因调用处理(S305)的处理流程的流程图。本实施例中的等位基因调用处理的特征在于,在与以往相同的LUT更新(S903)之前,进行环境信息取得(S901)、修正长度预测(S902)。
<现有的采用等位基因分型标准物的LUT更新>
为了显示本实施例的等位基因调用处理的特征,先对不进行上述S901和S902的处理的现有的LUT更新处理(S903)进行说明。现有的LUT更新处理基于等位基因分型标准物的电泳结果进行。
在图10中示出一例的LUT113作为等位基因分型标准物的基本信息,具有各荧光色素(Dye)标记的基因位点名(Locus)、该基因位点中所含的等位基因名(Al lele)、与该等位基因对应的DNA碱基长度(Length)和从各等位基因的中心位置的容许碱基长度幅度(Min/Max)的信息。例如,在该图中DNA标记物(基因位点)D10S1248用6FAM标记,作为其等位基因,包含8、9、10、11、12、13、14、15、16、17、18,其标准的DNA碱基长度(单位为bp)分别为77、81、85、89、93、97、101、109、113、117。全部的等位基因表示具有+0.5bp、-0.5bp的容许宽度。因而,以等位基因调用部123预先在内部具有各个各等位基因和其标准的DNA碱基长度的LUT为前提。
但是,该LUT113中所含的标准的DNA碱基长度顶多是标准的碱基长度,与实际上使样品电泳、计量而得到的等位基因的碱基长度一般是不同的。
因此,通常计量使等位基因分型标准物试剂电泳所计量的各个等位基因长度。
在图11中示出采用等位基因分型标准物的电泳得到的荧光强度波形的例子。在该波形中,各荧光色素中的DNA标记物的各等位基因作为峰出现。通过对于该峰进行上述的峰检测、尺寸调用处理,从而能够得到各个等位基因的碱基长度。
对这样得到的各等位基因的碱基长度与图10的LUT113的标准碱基长度进行匹配,作为对于标准碱基长度的修正长度,在上述LUT基础上,在内部保持。将追加了该修正长度的LUT的例子示于图12中。在该图的LUT114中,表示等位基因8、9、10、11、12、13、14、15、16、17、18的标准的碱基长度分别为77、81、85、89、93、97、101、109、113、117,分别加上1、1、1、1、1.1、1.1、1.1、1.1、1.1、1.2、1.2的修正长度(该图Offset列)的碱基长度为实际计量的各个等位基因的碱基长度。
再有,在上述的匹配中,与上述的尺寸调用同样地,可使用公知的动态规划法等进行。另外,在上述的检测的峰中有时包含干扰峰,可发生峰检测的失败等。可使用考虑了这样的峰的插入、欠缺的匹配算法。另外,作为用于得到最佳的匹配的评价函数,可使用标准碱基长度与各个峰的碱基长度的距离、峰间隔等,进行各峰与等位基因分型标准物的各等位基因的对应。
这样,通过使等位基因分型标准物试剂电泳,从而能够对于图10的标准的碱基长度,如图12的LUT114那样在实际的计量时得到修正的长度。
在图15中示出等位基因的碱基长度的修正的概念。如该图中所示那样,通过对于各个等位基因的标准碱基长度p(i),加上得到的修正长度d(i),从而得到实际所计量的等位基因的碱基长度(修正后的碱基长度)q(i)。
以上为现有的使用了等位基因分型标准物的等位基因碱基长度的修正方法。而在本实施例中的等位基因调用处理中,通过减少等位基因分型标准物的使用频率,从而实现用于基因型解析的运行成本降低,因此特征在于,不使用等位基因分型标准物来预测样品计量时的各等位基因的碱基长度的修正长度。以下参照图9,对本实施例中的等位基因调用处理进行说明。
<环境信息>
在本实施方式中的等位基因调用处理(步骤305)中,进行环境信息取得(步骤901)。该处理在环境信息取得部124进行。环境信息取得部124从电泳装置105接收与泳动条件有关的环境信息。其中,所谓环境信息,是用装置可观测的、与电泳关联的各种信息。作为环境信息的具体例,可列举出用装置内传感器部420取得的装置内温度、湿度、压力、用缓冲液传感器422计量的缓冲液的温度、用聚合物传感器部421计量的聚合物的电导率、PH、高电压源204的电压、用第一电流计205、第二电流计212计量的电流值等以及聚合物、缓冲液的使用频率、经过天数、批号、毛细管的使用次数等与消耗品有关的信息等。
这些环境信息优选为与电泳的特性关联的信息。环境信息优选在实验上观测到有助于后述的碱基修正长度的预测精度的提高后选择。不过,也有可能装置的特性变动,对预测有效的环境信息变化。因此,作为保存于装置的数据,优选取得、保存推测与电泳关联的、尽可能多的环境信息。其中,将何种环境信息用于预测,如后所述,优选在预测模型的生成时能够改变。
在以下的说明中,作为环境信息的例子,设为环境温度和采用第二电流计212所计量的电流的时间数列数据。不过,根据本发明的公开技术未必限定于这些环境信息,可由装置获得的所有的环境信息都可适用。另外,可将这样的环境信息与通过电泳得到的图谱波形的数据一起存储于数据文件内,存储于存储部104。
<修正长度预测处理>
其次,本实施例中的迁移率模型管理部122的迁移率预测部126进行修正长度预测(S902)。所谓修正长度预测,如上所述,是预测对于等位基因分型标准物中的各等位基因的标准的碱基长度的修正长度的处理。在本实施例的修正长度预测处理中,与现有技术不同,以上述的环境信息为基础,预测各等位基因的修正长度。迁移率预测部126使用存储于预测模型存储部125的预测模型进行上述的预测。
在图13中示出基于迁移率预测部126中的预测模型的修正长度预测的概念。预测模型是以环境信息的值的向量v和任意的碱基长度p的组作为输入、输出碱基长度p的修正长度d的模型。就电泳而言,一般已知如下倾向:温度越升高,另外电流值越高,泳动速度越加速。另外,已知在碱基长度短的情形和长的情形下,泳动速度的变化的特性不同。
在本实施例中,以基于实际数据的计量而预先制作反映这样的倾向的预测模型、存储于预测模型存储部125中为前提。就该预测模型而言,在基因型解析装置的出货前预先由装置制造商计量,或者在装置的设置时由维修工程师计量,存储在装置内。另外,与试剂的追加、版本升级等对应,可从外部追加预测模型信息。另外,该预测模型优选如实施例2中所述那样,基于实际上使等位基因分型标准物电泳而得到的各等位基因的DNA片段长学习后制作。
该预测模型在表示为d=f(p,v)时,可以是能够用特定的函数的形状表示f的参数模型,也可以是不能用函数的形状表示的非参数模型。
<参数模型>
作为参数模型的简易的例子,可列举出式2中所示的线性回归模型。
[数2]
d=f(p,t,c)=θ01p+θ2t+θ3c…(式2)
在式2中,作为环境信息v,将某碱基长度x下的环境温度设为t,将电流值设为c,采用参数θ表示模型。如果将上述的输入值的组(p,t,c)一并设为输入向量x,则式2如下所示表示。
[数3]
d=f(x)=θ01x12x23x3…(式3)
另外,通过概括式3,适当地定义基底函数φk(x),如式4那样进行定义,从而可提高预测模型的表现力。
[数4]
d=f(x)=θ01φ1(x)+θ2φ2(x)+θ3φ3(x)…(式4)
式2至式4是以输入向量x和参数θ作为三维的输入,为了提高预测的精度而增加环境信息的要素数的情况下,也可增加上述的输入向量x和参数θ的维度。
<非参数模型>
在对于上述的参数模型而言不能进行适合的预测的情况下,也可采用非参数模型。作为非参数模型的例子,可列举出公知的决策树。即,使用树结构的推理规则,决定对于输入向量的预测值。在图14中示出根据决策树的预测的概念图。如该图中所示那样,在决策树中,对于作为输入数据的碱基长度p、环境温度t、电流c,从根节点出发,采用是否满足位于各节点的条件的规则的组合来决定最终的预测值d。
此外,也可使用将上述的决策树组合的随机森林、相关向量机(RVM)、神经网络等已知的机械学习算法来模型化。
<多个预测模型的选择>
应予说明,上述的预测模型并不唯一,另外,制作多个预测模型,迁移率预测部126可根据条件来适当地选择预测模型。以下列举出优选使用多个预测模型的项目。
优选对每个荧光色素制作预测模型。这是因为,对于每个荧光色素,DNA的迁移率的特性不同。
优选对每个基因解析的套餐的种类制作预测模型。这是因为,根据试剂,等位基因分型标准物的基因位点的种类、DNA的迁移率的特性不同。
优选对每个聚合物的种类制作预测模型。这是因为,根据聚合物的种类,DNA的迁移率的特性不同。
此外,为了提高预测模型的精度,可根据环境条件,按条件分别制作预测模型。以下列举出实例。
可准备环境温度为低温时适用的预测模型、为高温时适用的预测模型等区分温度条件的预测模型。
可根据电压准备高电压用的预测模型、低电压用的预测模型等。
可根据缓冲液的使用频率,根据使用次数,准备使用次数多时的预测模型、使用次数少时的预测模型等。
可准备根据毛细管等消耗品的使用次数、经过天数等的预测模型。
在迁移率预测部126中,可如上所述从多个预测模型中,根据其预测模型的适用条件,选择适当的预测模型。
或者,对于操作员,可经由用户界面103,提示可适用的预测模型的一览,使得操作员能够从其中设定适用的预测模型的优先顺序位次。或者,对于操作员,可经由用户界面103,提示可适用的预测模型的一览,使得操作员能够从其中设定适用的预测模型的优先顺序位次。
或者,对于操作员,可经由用户界面103,提示可适用的预测模型的一览,使得操作员能够从其中选择适用的模型。
<LUT更新>
其次,进行LUT更新处理(S903)(图9)。LUT更新处理将S902中得到的、LUT内的全部等位基因的碱基长度的修正长度存储在LUT内。作为LUT的数据结构,如图12中所示那样,可将现存的修正长度(该图中为Offset列)覆盖。或者,如图16的LUT115中所示那样,没有将现存的修正长度覆盖,可使现存的修正长度残留,并重新追加更新修正长度。
如上所述,在现有的LUT更新处理中基于实测等位基因分型标准物而得到的修正长度对LUT进行更新,而在本实施例中,基于环境信息和各等位基因的碱基长度,使用预测模型预测对于各等位基因的碱基长度的修正长度,基于该预测结果对LUT进行更新。由此,在不使用等位基因分型标准物的情况下可得到与实际样品计量时接近的LUT的信息。
<等位基因鉴定处理>
其次进行等位基因鉴定处理(S904)。等位基因鉴定处理是参照如上所述确定了修正长度的LUT,由计量的实际样品的峰的DNA碱基长度,鉴定与各峰对应的等位基因。即,相当于鉴定图5中所示的、解析对象的实际样品的荧光强度波形的各个峰相当于图11中所示的等位基因分型标准物中所含的等位基因中的哪个等位基因。
参照图17,示出等位基因鉴定处理的例子。在该图中,示出了鉴定用荧光色素6FAM标记的基因位点“D10S1248”的等位基因的例子。在该图上,示出了LUT内的同基因位点所含的等位基因8~18的碱基长度。该碱基长度是进行了上述的修正后的碱基长度,在该图中作为例子记载了基于图12中所示的修正长度的数值。
在该图的下方,记载了在作为解析对象的实际样品中在D10S1248的范围所观测的2个等位基因峰。2个等位基因峰分别通过上述的尺寸调用处理,碱基长度分别计算为85.7[bp]、102.3[bp]。
在等位基因调用部123中,判别上述的碱基长度与LUT内的各等位基因碱基长度中的哪个对应,鉴定对应的等位基因。在该图中将等位基因分别鉴定为8、14。等位基因调用部123通过对于全部的荧光色素的全部的基因位点进行该图那样的处理,从而鉴定各基因位点的等位基因。该等位基因的组合图案成为用于个人识别的基因型的信息。
再有,如上所述,在图12的LUT中存储各等位基因的碱基长度的容许范围(在该图中为+0.5bp、-0.5bp),鉴定容许该范围内的误差而对应的等位基因。
<等位基因鉴定失败时的修正值预测的再执行>
在S905中,进行等位基因鉴定处理是否没有问题的判定。如果将全部的等位基因在上述的容许误差范围内检测,则判断为没有问题,结束等位基因调用处理。在有即使容许上述的误差也不存在对应的等位基因的DNA标记物的情况下,作为原因之一,可列举出上述的S902中得到的修正长度的预测值不适当的可能性。在这样的情况下,在存在多个预测模型的情况下,可使用另外的预测模型从修正值预测(S902)重新开始。
对于这样等位基因鉴定失败的情形,可自动地确定成为候补的多个模型和其优先顺序位次,也可经由用户界面部103,使得操作员能够设定各模型的优先顺序位次。
如果用全部的候补的预测模型,预测都失败的情况下,可应用用最近的等位基因分型标准物算出的修正值,也可应用最近地等位基因鉴定处理成功时的修正值。
应予说明,在本实施方式的说明中所述的预测模型中,将等位基因的标准碱基长度作为输入,将在该等位基因的标准碱基长度上相加的修正长度定义为输出。因此,在上述的等位基因鉴定处理中,在LUT内的标准碱基长度上将修正长度相加,进行了与实测的等位基因碱基长度的对应。不过,也可通过从实测的等位基因的碱基长度减去本修正长度,从而进行与LUT内的标准碱基长度对应。即,所谓本发明中的修正长度,本质上为标准碱基长度与实测的碱基长度之差,因此使用了该差的修正方法可以是前者,也可以是后者。
进而,本实施方式中所述的预测模型的本质上的目的是获得等位基因的标准碱基长度与实测的各等位基因的碱基长度的对应。因此,用于获得该对应的预测模型的输出并不限定于在上述的LUT内的标准碱基长度上相加的修正长度。例如,预测模型的输出可不为上述的修正长度,而是实测的碱基长度的直接的值。另外,作为其他的预测模型的例子,可以是将实测的碱基长度作为输入、将用于推测LUT内的标准碱基长度的修正长度输出的模型,也可以是不直接输出修正值而直接输出LUT内的标准碱基长度的模型。上述的鉴定处理根据上述的预测模型的输出的内容,容易获得标准碱基长度与实测碱基长度的对应。
如上所述,在实施例1中,以装置使用时的环境信息为基础,预测等位基因分型标准物中所含的标准碱基长度的修正长度,对各等位基因的碱基长度进行微修正,采用这样的方法,不必使用等位基因分型标准物来进行电泳,能够与实际样品的电泳同时地对各等位基因的碱基长度进行微修正,从而减少等位基因分型标准物的使用频率,从而可降低解析成本。
实施例2
对于根据实施例2的基因型解析装置进行说明。本实施例是迁移率模型管理部为将包含标准碱基长度已知的DNA的样品的电泳结果作为数据组、从该数据组学习并制作用于预测的预测模型的基因型解析装置等的实施例。
在根据实施例1的基因型解析装置中,从预先存储于预测模型存储部125的预测模型中,选择适于解析环境的条件的预测模型,进行了各等位基因的碱基长度的修正。在实施例1中,就该预测模型而言,假设了如下形态:在基因型解析装置的发货前预先由装置制造商计量,或者在装置的设置时由维修工程师们计量,存储在装置内。
但是,在装置的电泳特性超出预期地变动的情形、追加新的试剂等解析环境改变的情形等,认为如果是预先存储的预测模型,则不能追随这样的环境的变化,无法高精度地顺利地进行等位基因的修正长度预测。
在这样的情况下,如实施例1中所述那样,需要进行使用了等位基因分型标准物的现有的LUT更新,存在等位基因分型标准物的使用频率增多的课题。
因此,在实施例2中,存储计量等位基因分型标准物时的电泳结果,将它们作为训练数据,更新预测模型。以下对于本发明的实施例2,参照附图对详细情况进行说明。
在图18中示出根据实施例2的基因型解析装置的构成。在图18中,除了图1中所示的实施例1的构成以外,加入了预测模型学习部127。图18的其他构成与实施例1相同。
图19为表示实施例2中的、学习预测模型的处理的处理流程的图。
在预测模型的学习中,进行等位基因分型标准物的电泳处理(S1901)。与图3的电泳处理(S301)的不同只是作为计量对象的样品的不同,处理相同,因此省略说明。应予说明,等位基因分型标准物的电泳处理(S1901)与图3中所示的实际样品的电泳处理(S301)可通过使用不同的毛细管而同时地进行。
然后,进行荧光强度计算(S1902)、峰检测(S1903)、尺寸调用(S1904)。这些处理与图3中的荧光强度计算(S302)、峰检测(S303)、尺寸调用(S304)分别相同,因此省略说明。
其次,进行与等位基因分型标准物的对应(步骤1905)。该对应处理是进行尺寸调用(1904)中得到的各峰的碱基长度的数列与等位基因分型标准物的标准碱基长度的数列之间的对应。与上述的尺寸调用同样地,能够使用公知的动态规划法等进行。在检测的峰中包含干扰峰的情形、可发生峰检测的失败等,因此可使用考虑了这样的峰的插入、欠缺的匹配算法。另外,作为用于获得最佳的匹配的评价函数,可使用标准碱基长度与各峰的碱基长度之间的距离、峰间隔等,进行各峰与等位基因分型标准物的各等位基因的对应。这样进行各峰与等位基因分型标准物的各等位基因的对应。
这样,由等位基因分型标准物的荧光波形得到全部等位基因的碱基长度的实际计量值。其次,进行预测模型学习(S1906)。在图20中示出预测模型学习的处理流程。以下参照该图,对本实施例中的预测模型学习进行说明。
环境信息取得(S2001)与图9的S901相同。是采用使等位基因分型标准物电泳时的装置可观测的、与电泳性能关联的各种信息。将这些作为以后的预测模型的输入数据使用。
其次,确定学习中使用的数据组(S2002)。在学习中使用等位基因分型标准物的电泳结果。在本实施例中,在存储部104中将过去的等位基因分型标准物的电泳中得到的数据与环境信息成组地存储。在图21中示出存储的等位基因分型标准物的数据组118的概念。将数据组118存储于存储部104,每次进行等位基因分型标准物的电泳时,追加数据。不过,可根据存储部104的容量将旧的数据删除。
在数据组118中至少包含计量日时的信息、和各等位基因的标准碱基长度(Length)、由各等位基因的计量结果得到的修正长度(Offset)、用于预测的输入的环境信息。在该图中作为环境信息的例子,记录了环境温度(Temp.)和电流值(Current)。由这些数据组中,确定用于预测模型的学习的数据组。
在学习的数据组的确定中,基于制作适于哪种条件的预测模型,考虑各种选择条件。作为例子,示出上述的多个模型的选择条件。
<用于预测模型学习的数据组的选择条件>
优选对每个荧光色素划分数据组。这是因为,对于每个荧光色素,DNA的迁移率的特性不同。
优选对每个基因解析的套餐的种类划分数据组。这是因为,根据试剂,等位基因分型标准物的基因位点的种类、DNA的迁移率的特性不同。
优选对每个聚合物的种类划分数据组。这是因为,根据聚合物的种类,DNA的迁移率的特性不同。
环境温度为低温的数据组、为高温时的数据组等,可根据温度条件来划分数据组。
高电压用时的数据组、低电压用的数据组等,可根据电压条件来划分数据组。
可根据缓冲液的使用频率、使用次数等来划分数据组。
可根据毛细管等消耗品的使用次数、经过天数来划分数据组。
对于如上所述选择的各个数据组,分割为预测模型的训练数据和用于预测精度的评价的测试数据。
其次,进行预测模型更新处理(S2003)。预测模型的更新是使用上述的训练数据组将预测模型的参数最优化。
预测模型更新处理根据使用何种预测模型而异。例如,作为参数模型的例子,对于式4中所示的线性回归模型,能够应用已知的最小二乘法、采用脊回归的参数推定。
另外,作为非参数模型,作为学习图14中所示的决策树的树结构的算法,广泛使用了已知的CART(Classification And Regression Trees)算法。此外,能够应用随机森林、相关向量机、神经网络等已知的机械学习算法,进行预测模型参数的最优化。
其次,使用S2003中得到的预测模型进行修正长度预测(S2004)。在该修正长度预测中,对于S2002中确定的测试数据组进行。即,将测试数据组中的输入向量(在图21的例子中为标准碱基长度、温度、电流值)作为输入,预测修正值。预测处理的方法与实施例1的图9中所述的修正长度预测(S902)相同,因此省略说明。
其次,进行S2004中得到的预测值的评价(S2005)。对于预测值的评价,对与测试数据组中的实测的修正值(图21的Offset列)之差进行比较。作为该差的指标,一般使用平均二乘误差等。此外,可追加差的最大值、最小值、中央值、分散等作为指标。
其次,在S2006中,进行是否进行预测模型更新的判定。以S2005中得到的评价指标为基础,在不满足预先确定的判定条件的情况下,改变S2003中的学习参数,对于同一数据组进行学习。作为学习参数,为进行收敛计算时的学习系数、对参数的制约条件、学习的结束条件、学习评价时的损失函数的定义等与S2003的学习的动作有关的参数。可从预先确定的学习参数组中,选择评价指标最好的学习参数和预测模型参数。
其次,在S2007中,进行是否改变数据组以重新学习的判定。
如果评价指标满足预先确定的合格水平,则作为预测模型采用。如果不满足合格水平,则返回S2002,可重新进行训练数据组和测试数据组的分割,再次重新学习。另外,可从S2002中确定的数据组中将特定的条件的数据删除。另外,可从数据组118将新的条件的数据向数据组追加。
将以上得到的新的预测模型存储于预测模型存储部125,如实施例1中所述那样,能够在对于实际样品的等位基因调用(S305)中利用。
再有,在本实施例中,在图19中,对于通过在重新使等位基因分型标准物电泳时进行预测模型的学习从而反映最新的电泳的特性的例子进行了表示。不过,进行预测模型的学习的时机未必是需要进行等位基因分型标准物的电泳时。在存储部104中存在对于预测模型的学习足够的量的数据组的情况下,能够根据某事件,以任意的时机执行预测模型的重新学习。作为这样的事件的一例,在实施例1的等位基因调用处理中,在即使使用现存的预测模型也不能进行等位基因鉴定的情况下,可进行自动地重新制作预测模型的处理。或者,操作员可经由用户界面部103进行操作,以致制作基于新的条件的预测模型。
使用这样得到的预测模型进行等位基因调用(S1907)。本处理与实施例1的等位基因调用(S305)相同,因此省略说明。
如上所述,在根据本发明的实施例2的基因型解析装置中,能够使用等位基因分型标准物的电泳结果来适宜地学习用于预测等位基因的碱基修正长度的预测模型。由此,通过反映新的等位基因分型标准物的泳动特性以将预测模型更新而维持并提高等位基因的碱基长度的预测精度,从而可减少其后的等位基因分型标准物的使用频率,实现解析成本的降低。
实施例3
对于根据实施例3的基因型解析装置,使用图22、图23进行说明。本实施例是迁移率模型管理部为预测对应时通过参照经常包含标准碱基长度已知的DNA的实际样品的通过电泳得到的碱基长度从而评价预测的精度的基因型解析装置等的实施例。
在根据实施例1和实施例2的基因型解析装置中,采用使用等位基因分型标准物的泳动结果制作的预测模型,在实际样品的电泳时预测各等位基因的碱基长度的修正长度,进行了等位基因的碱基长度的微调。而且,在等位基因鉴定失败的情况下,能够使用另外的预测模型、在新的条件下生成预测模型。
但是,在实施例1和实施例2中,在不能检测等位基因鉴定的失败的情况下,不能检测预测的失败,不能进行上述的预测模型的改变、新的追加等。如果预测模型显著地不适合,有可能鉴定错误的等位基因,不能检测等位基因鉴定的失败。因此,在实施例3中,其特征在于,参照实际样品中所含的已知的碱基长度的标记物,评价预测模型的精度。
以下参照附图对根据实施例3的基因型解析装置的详细情况进行说明。根据实施例3的基因型解析装置的构成与图1中所示的构成相同。另外,STR解析部109的构成与图8或图18中的任一个相同。
在实施例3中,在实际样品计量时包含已知的碱基长度的标记物的情况下,通过参照该已知标记物的碱基长度来评价预测精度。作为这样的已知标记物,可列举出阳性对照。如上所述,在实际样品的解析时,除了作为解析的对象的DNA样品以外,多在不同的毛细管中使阳性对照进行电泳。阳性对照为包含已知的碱基长度的DNA的PCR产物,是用于确认正确地进行了PCR的对照实验用的样品。因此,通过确认是否能够正确地计量该阳性对照的已知的DNA标记物的碱基长度,从而能够评价是否正确地进行了修正长度的预测。
在实施例3中,预先将用于修正长度的预测评价的阳性对照的碱基长度信息在电泳前存储于迁移率预测部126。将该阳性对照的信息的例子示于图23中。
作为阳性对照的信息,如图23的(a)中所示那样,至少包含荧光色素(Dye)、标准碱基长度(Length)。可进一步包含误差的容许范围(Min/Max)。这些信息可通过用户界面部103由操作员输入,也可作为按照指定格式的设定文件传给STR解析部109。另外,一旦设定的阳性对照信息可作为设定信息命名而存储于存储部104。而且,在操作员利用该阳性对照时,可以使得能够指定和调用存储在存储部104中的设定信息。
图22为实施例3中的、对于对实际样品进行的电泳结果的等位基因调用(S305)的处理的流程图。环境信息取得(S2201)与实施例1中的环境信息取得(S901)相同,因此省略说明。
修正长度预测(S2202)除了实施例1中的修正长度预测(S902)以外,如图23的(a)的阳性对照信息116中所示那样,由预先设定的阳性对照的信息,将电泳时的环境信息和各已知标记物的标准碱基长度作为输入,预测已知标记物的标准碱基长度的修正长度。该修正长度预测的处理与S2202、S902相同。
得到的各已知标记物的修正长度如图23的(b)的阳性对照信息117中所示那样,对于阳性对照信息的各标记物保持(阳性对照信息117的Offset)。即,在实施例3中的修正长度预测(S2202)中,除了实施例1中所述的LUT中所存储的全部等位基因的碱基长度的修正长度的预测(S902)以外,也进行阳性对照的已知标记物的碱基长度的修正长度的预测。
其次,进行预测精度评价(S2203)。在该处理中,进行采用阳性对照的电泳所实测的各标记物的碱基长度与S2202中得到的修正后的已知标记物的碱基长度的对应,计算它们的差。在上述的对应中,可设为相互最接近的碱基长度之间,也可使用公知的动态规划法等匹配技术。
在S2204中,如果对于全部的已知标记物的上述差为预先设定的容许范围以下,则判断为在预测的精度上没有问题,进入后段的LUT更新(S2205)、等位基因鉴定(S2206)。LUT更新(S2204)、等位基因鉴定(S2205)与实施例1中的图9中所示的处理相同,因此省略说明。
在S2204中,如果全部已知标记物中的任一个的上述差为预先设定的容许范围以上,则判断为在预测的精度上有问题,进入S2207。在S2207中,可如实施例1中所述那样改变预测模型,也可如实施例2中所述那样在新的条件下制作预测模型。在S2207之后,从修正长度预测(S2202)重新开始。
如以上所述那样,在根据本发明的实施例3的基因型解析装置中,通过参照与实际样品同时计量的、碱基长度已知的DNA标记物,从而能够评价碱基长度的修正量的预测精度。由此,即使不使用等位基因分型标准物,在实际样品的计量时也能够评价碱基长度的预测精度,因此能够降低减少等位基因分型标准物的使用频率时的等位基因误判定的风险。
以上对用于实施本发明的最佳方式进行了说明,但本发明并不限定于上述实施例,在本发明的主旨的范围内容许适当地改变。例如,可使用在内部形成了样品的流路的微芯片式的电泳装置。在这种情况下,可将本说明书中的毛细管改写为流路。另外,也同样地能够将本发明应用于使用了平板凝胶的电泳装置。
另外,本发明也能够采用实现实施例的功能的软件的程序代码来实现。这种情况下,将记录了程序代码的存储介质提供给系统或装置,该系统或装置的计算机(或CPU、MPU)读出在存储介质中存储的程序代码。这种情况下,由存储介质读出的程序代码自身实现上述的实施例的功能,该程序代码自身以及将其存储的存储介质构成本发明。作为用于供给这样的程序代码的存储介质,例如使用软盘、CD-ROM、DVD-ROM、硬盘、光盘、光磁盘、CD-R、磁带、非易失性存储卡、ROM等。
另外,可基于程序代码的指示,在计算机上工作的OS(操作系统)等进行实际的处理的一部分或全部,通过该处理,从而实现上述的实施方式的功能。进而,由存储介质读出的程序代码写入计算机上的存储器后,可基于该程序代码的指示,计算机的CPU等进行实际的处理的一部分或全部,通过该处理,从而实现上述的实施方式的功能。
另外,可通过经由网络传送实现实施方式的功能的软件的程序代码,从而将其存储于系统或装置的硬盘、存储器等存储手段或CD-RW、CD-R等存储介质,在使用时该系统或装置的计算机(或CPU、MPU)读出该存储手段、该存储介质中存储的程序代码并执行。
附图标记的说明
101 基因型解析装置
102 中央控制部
103 用户界面部
104 存储部
105 电泳装置
106 样品信息设定部
107 峰检测部
108 电泳装置控制部
109 STR解析部
110 荧光强度计算部
111 外部服务器
112 数据解析装置
113、114、115 LUT
116、117 阳性对照信息
118 数据组
121 尺寸调用部
122 迁移率模型管理部
123 等位基因调用部
124 环境信息接收部
125 预测模型存储部
126 迁移率预测部
127 预测模型学习部

Claims (15)

1.基因型解析装置,其特征在于,包括:通过电泳得到图谱的电泳装置,和
基于所述图谱求出DNA的碱基长度、参照标准碱基长度以解析基因型的数据解析装置;
所述数据解析装置包含基于所述电泳中的环境信息来预测所述标准碱基长度与其实测碱基长度的对应的迁移率模型管理部。
2.根据权利要求1所述的基因型解析装置,其特征在于,所述迁移率模型管理部存储多个用于所述预测的预测模型,在预测所述对应时,根据基于所述环境信息的环境条件来选择所述预测模型。
3.根据权利要求1所述的基因型解析装置,其特征在于,所述迁移率模型管理部存储多个用于所述预测的预测模型,在预测所述对应时,按照预先确定的优先顺序来应用所述预测模型。
4.根据权利要求2或3所述的基因型解析装置,其特征在于,所述数据解析装置包含用户界面部,在所述用户界面部显示可应用的所述预测模型的一览。
5.根据权利要求1所述的基因型解析装置,其特征在于,所述迁移率模型管理部使包含所述标准碱基长度已知的DNA的样品的电泳结果成为数据组,从该数据组学习以作成用于所述预测的预测模型。
6.根据权利要求5所述的基因型解析装置,其特征在于,所述迁移率模型管理部根据基于所述环境信息的环境条件来选择所述数据组,从选择的所述数据组学习以作成所述预测模型。
7.根据权利要求2至6中任一项所述的基因型解析装置,其特征在于,所述迁移率模型管理部在预测所述对应时,通过参照根据经常包含所述标准碱基长度已知的DNA的实际样品的电泳得到的碱基长度,从而评价所述预测的精度。
8.根据权利要求7所述的基因型解析装置,其特征在于,所述迁移率模型管理部根据所述预测的精度的评价结果来改变所述预测模型或者重新学习预测模型。
9.基因型解析方法,是采用数据解析装置的基因型解析方法,其特征在于,所述数据解析装置基于电泳中的环境信息,预测标准碱基长度与基于通过所述电泳得到的图谱求出的DNA的实测碱基长度的对应。
10.根据权利要求9所述的基因型解析方法,其特征在于,所述数据解析装置在预测所述对应时,根据基于所述环境信息的环境条件,选择用于所述预测的预测模型。
11.根据权利要求9所述的基因型解析方法,其特征在于,所述数据解析装置在预测所述对应时,按照预先确定的优先顺序,应用用于所述预测的预测模型。
12.根据权利要求9所述的基因型解析方法,其特征在于,所述数据解析装置使包含所述标准碱基长度已知的DNA的样品的电泳结果作为数据组,从该数据组学习以作成用于所述预测的预测模型。
13.根据权利要求12所述的基因型解析方法,其特征在于,所述数据解析装置根据基于所述环境信息的环境条件来选择所述数据组,从选择的所述数据组学习以作成所述预测模型。
14.根据权利要求10至13中任一项所述的基因型解析方法,其特征在于,所述数据解析装置在预测所述对应时,通过参照根据经常包含所述标准碱基长度已知的DNA的实际样品的电泳得到的碱基长度,从而评价所述预测的精度。
15.根据权利要求14所述的基因型解析方法,其特征在于,所述数据解析装置根据所述预测的精度的评价结果来改变所述预测模型或者重新学习预测模型。
CN202080013245.1A 2019-03-05 2020-02-14 基因型解析装置及方法 Active CN113439117B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019039262A JP7224207B2 (ja) 2019-03-05 2019-03-05 遺伝子型解析装置及び方法
JP2019-039262 2019-03-05
PCT/JP2020/005718 WO2020179405A1 (ja) 2019-03-05 2020-02-14 遺伝子型解析装置及び方法

Publications (2)

Publication Number Publication Date
CN113439117A true CN113439117A (zh) 2021-09-24
CN113439117B CN113439117B (zh) 2023-12-22

Family

ID=72338297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080013245.1A Active CN113439117B (zh) 2019-03-05 2020-02-14 基因型解析装置及方法

Country Status (7)

Country Link
US (1) US20220189577A1 (zh)
JP (1) JP7224207B2 (zh)
CN (1) CN113439117B (zh)
DE (1) DE112020000650T5 (zh)
GB (1) GB2595605B (zh)
SG (1) SG11202108969VA (zh)
WO (1) WO2020179405A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022244058A1 (ja) * 2021-05-17 2022-11-24 株式会社日立ハイテク 塩基配列の解析方法及び遺伝子解析装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236944B1 (en) * 1998-04-16 2001-05-22 Northeastern University Expert system for analysis of DNA sequencing electropherograms
JP2002005886A (ja) * 2000-06-20 2002-01-09 Japan Science & Technology Corp 電気泳動分析方法
JP2002350401A (ja) * 2000-10-26 2002-12-04 Inst Of Physical & Chemical Res ゲノムdnaの解析プログラム
JP2004325191A (ja) * 2003-04-23 2004-11-18 Japan Science & Technology Agency キャピラリー電気泳動方法、キャピラリー電気泳動プログラム、そのプログラムを記憶した記録媒体及びキャピラリー電気泳動装置
JP2006064472A (ja) * 2004-08-25 2006-03-09 Human Metabolome Technologies Inc 電気泳動測定によるイオン性化合物の移動時間予測方法
CN1898374A (zh) * 2003-10-24 2007-01-17 埃格尼股份有限公司 集成的生物-分析和样品制备系统
CN101467032A (zh) * 2006-04-14 2009-06-24 日本电气株式会社 个体识别方法及设备
CN104870980A (zh) * 2012-12-17 2015-08-26 株式会社日立高新技术 基因型解析装置以及基因型解析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK666988A (da) 1987-11-30 1989-05-31 Du Pont Fotografisk film med antistatisk bagsidelag
JPH0687128A (ja) 1992-09-08 1994-03-29 Iseki & Co Ltd レジンインジェクション成形法
US8645073B2 (en) 2005-08-19 2014-02-04 University Of Tennessee Research Foundation Method and apparatus for allele peak fitting and attribute extraction from DNA sample data
US11860094B2 (en) * 2017-02-20 2024-01-02 Hitachi High-Tech Corporation Analysis system and analysis method

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236944B1 (en) * 1998-04-16 2001-05-22 Northeastern University Expert system for analysis of DNA sequencing electropherograms
JP2002005886A (ja) * 2000-06-20 2002-01-09 Japan Science & Technology Corp 電気泳動分析方法
JP2002350401A (ja) * 2000-10-26 2002-12-04 Inst Of Physical & Chemical Res ゲノムdnaの解析プログラム
JP2004325191A (ja) * 2003-04-23 2004-11-18 Japan Science & Technology Agency キャピラリー電気泳動方法、キャピラリー電気泳動プログラム、そのプログラムを記憶した記録媒体及びキャピラリー電気泳動装置
CN1898374A (zh) * 2003-10-24 2007-01-17 埃格尼股份有限公司 集成的生物-分析和样品制备系统
JP2006064472A (ja) * 2004-08-25 2006-03-09 Human Metabolome Technologies Inc 電気泳動測定によるイオン性化合物の移動時間予測方法
CN101467032A (zh) * 2006-04-14 2009-06-24 日本电气株式会社 个体识别方法及设备
CN104870980A (zh) * 2012-12-17 2015-08-26 株式会社日立高新技术 基因型解析装置以及基因型解析方法

Also Published As

Publication number Publication date
GB202112209D0 (en) 2021-10-13
SG11202108969VA (en) 2021-09-29
DE112020000650T5 (de) 2021-12-09
US20220189577A1 (en) 2022-06-16
JP2020141578A (ja) 2020-09-10
GB2595605B (en) 2023-05-17
WO2020179405A1 (ja) 2020-09-10
JP7224207B2 (ja) 2023-02-17
CN113439117B (zh) 2023-12-22
GB2595605A (en) 2021-12-01

Similar Documents

Publication Publication Date Title
JP6087128B2 (ja) 遺伝子型解析装置及び遺伝子型解析方法
JP2020510822A (ja) サンプル分析機器の自動品質管理およびスペクトル誤差補正
JP2020510822A5 (zh)
JP4991252B2 (ja) 電気泳動装置、及び電気泳動分析方法
JP6158318B2 (ja) 核酸分析装置及びそれを用いた核酸分析方法
CN113439117B (zh) 基因型解析装置及方法
WO2019005907A1 (en) PULSED FIELD MULTIPLEX CAPILLARY ELECTROPHORESIS SYSTEM
US11016057B2 (en) Pulse-field multiplex capillary electrophoresis system
JP7253066B2 (ja) 生体試料分析装置、生体試料分析方法
WO2023195077A1 (ja) 塩基配列の解析方法及び遺伝子解析装置
US20240132951A1 (en) Analysis method of base sequence and gene analyzer
WO2022244058A1 (ja) 塩基配列の解析方法及び遺伝子解析装置
US20070178517A1 (en) Microarray analysis
JP6845256B2 (ja) 生物学的サンプルを分類する方法
CN115902227A (zh) 一种免疫荧光试剂盒的检测评估方法及系统
CN115380208A (zh) 电泳装置以及分析方法
WO2022040053A1 (en) Dna analyzer with synthetic allelic ladder library
KR20210076413A (ko) 유전체 분자 진단용 휴대용 램프 pcr 장치
CN117995333A (zh) 流式血液肿瘤细胞的复检方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant