CN112136144B - 通过dna计算进行机器学习(ml)建模 - Google Patents
通过dna计算进行机器学习(ml)建模 Download PDFInfo
- Publication number
- CN112136144B CN112136144B CN201980033644.1A CN201980033644A CN112136144B CN 112136144 B CN112136144 B CN 112136144B CN 201980033644 A CN201980033644 A CN 201980033644A CN 112136144 B CN112136144 B CN 112136144B
- Authority
- CN
- China
- Prior art keywords
- dna
- regularization
- processors
- computer
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 218
- 238000012549 training Methods 0.000 claims abstract description 77
- 230000010354 integration Effects 0.000 claims abstract description 75
- 239000013598 vector Substances 0.000 claims abstract description 23
- 238000004590 computer program Methods 0.000 claims abstract description 22
- 108020004414 DNA Proteins 0.000 claims description 297
- 102000053602 DNA Human genes 0.000 claims description 278
- 238000003860 storage Methods 0.000 claims description 38
- 239000002773 nucleotide Substances 0.000 claims description 24
- 125000003729 nucleotide group Chemical group 0.000 claims description 24
- 230000000712 assembly Effects 0.000 claims description 8
- 238000000429 assembly Methods 0.000 claims description 8
- 230000007423 decrease Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 115
- 230000006870 function Effects 0.000 description 25
- 238000012545 processing Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000009396 hybridization Methods 0.000 description 8
- 108091028043 Nucleic acid sequence Proteins 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 238000000018 DNA microarray Methods 0.000 description 6
- 102000039446 nucleic acids Human genes 0.000 description 6
- 108020004707 nucleic acids Proteins 0.000 description 6
- 150000007523 nucleic acids Chemical class 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000001502 gel electrophoresis Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000003752 polymerase chain reaction Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 229920002477 rna polymer Polymers 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000005669 field effect Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 244000025254 Cannabis sativa Species 0.000 description 2
- 108020004635 Complementary DNA Proteins 0.000 description 2
- 108020005031 Concatenated DNA Proteins 0.000 description 2
- 108091034117 Oligonucleotide Proteins 0.000 description 2
- 239000004480 active ingredient Substances 0.000 description 2
- 238000010804 cDNA synthesis Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 229920002521 macromolecule Polymers 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 108020004999 messenger RNA Proteins 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 229910052710 silicon Inorganic materials 0.000 description 2
- 239000010703 silicon Substances 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009946 DNA mutation Effects 0.000 description 1
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 1
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 239000004677 Nylon Substances 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 239000003124 biologic agent Substances 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 230000033077 cellular process Effects 0.000 description 1
- 239000004927 clay Substances 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003472 neutralizing effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 229920001778 nylon Polymers 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 235000012431 wafers Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/123—DNA computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
介绍了方法、计算机程序产品和系统。所述方法包括例如:识别训练数据集合并为初始β值定义一个窗口,该窗口表示在对来自训练数据集合的每个特征向量形成条件的期望中可以容忍的偏差。通过使用DNA计算机并行调整条件期望值。在候选模型的众多组合中,产生了最合适的集成作为机器学习模型,用于基于除训练数据集合以外的输入来预测目标结果。
Description
技术领域
本公开涉及机器学习技术,并且更具体地涉及用于生成由DNA计算并行正则化的机器学习模型的方法、计算机程序产品和系统。
背景技术
在传统的机器学习(ML)技术中,经常对训练数据进行正则化,以解决ML模型对训练数据的过度拟合问题,从而使ML模型对不同于训练数据的输入数据有用。然而,训练数据的这种正则化是计算密集的过程。同样,由于当今可用的许多正则化方法在正则化ML模型方面提供了明显的好处,因此众所周知,高度正则化的训练数据对于使ML模型健壮可靠以用于各种输入数据是必不可少的。
发明内容
通过一方面提供一种方法,克服了现有技术的缺点,并提供了其他优点。用于生成机器学习模型的方法包括,例如:由两个或多个处理器识别训练数据集合;由所述两个或者多个处理器为初始β值定义窗口,其中所述初始β值表示在各个条件期望中所述识别的训练数据集的偏差;由所述两个或者多个处理器对与来自所述训练数据集合的每个特征向量相对应的所述各个条件期望进行正则化,其中,对每个特征向量并行执行两种或更多种对所述条件期望正则化的方法;由所述两个或多个处理器从正则化产生的所述条件期望中创建多个模型集成;以及由所述两个或多个处理器在所述创建的集成中生成最合适的集成作为所述机器学习模型,其中所述机器学习模型基于所述训练数据集合的不同输入来预测目标结果,其中所述两个或多个处理器包括一个或多个数字处理器和一个或多个DNA处理器。
从第一方面来看,本发明提供了一种用于生成机器学习模型的计算机实现的方法,该方法包括:由两个或多个处理器识别训练数据集合;由所述两个或者多个处理器为初始β值定义窗口,其中所述初始β值表示在各个条件期望中所述识别的训练数据集的偏差;由所述两个或者多个处理器对与来自所述训练数据集合的每个特征向量相对应的所述各个条件期望进行正则化,其中,对每个特征向量并行执行两种或更多种对所述条件期望正则化的方法;由所述两个或多个处理器从正则化产生的所述条件期望中创建多个模型集成;以及由所述两个或多个处理器在所述创建的集成中生成最合适的集成作为所述机器学习模型,其中所述机器学习模型基于所述训练数据集合的不同输入来预测目标结果,其中所述两个或多个处理器包括一个或多个数字处理器和一个或多个DNA处理器。
优选地,本发明提供一种计算机实现的方法,其中所述正则化包括:由所述一个或多个数字处理器,将正则化度量加到各自的条件期望中,其中/> 表示残差平方和,/>是根据正则化方法得出的正则化幅度的等级
优选地,本发明提供一种计算机实现的方法,用于所述正则化的所述正则化方法是最小绝对收缩和选择算子LASSO,并且其中
优选地,本发明提供一种计算机实现的方法,其中用于所述正则化的正则化方法是Ridge回归(RR),并且其中,
优选地,本发明提供一种计算机实现的方法,该方法还包括:由所述一个或多个DNA处理器将来自所述正则化的条件期望编码为相应的DNA链,其中所述编码和所述正则化在所述相应的DNA链上彼此相互作用。
优选地,本发明提供了一种计算机实现的编码方法,包括:由所述一个或多个DNA处理器基于所述定义的窗口中相应的β值扩增核苷酸;将所述扩增的核苷酸编码为各自的核碱基;将所述编码的核碱基添加到当前的DNA链上;以及将来自所述正则化的DNA链串联到来自所述添加的当前DNA链。
优选地,本发明提供了一种计算机实现的方法,该方法还包括:通过改变所述各个条件期望中的β值,由所述两个或者多个处理器将外部影响包括进所述正则化的条件期望,其中所述改变的β值增加或减小各个外部影响的权重。
从另一方面来看,本发明提供一种计算机程序产品,包括:计算机可读存储介质,该计算机可读存储介质可由两个或者多个处理器读取,并且存储用于由所述两个或者多个处理器执行以执行用于生成机器学习模型的方法的指令,所述方法包括:识别训练数据集合;为初始β值定义窗口,其中所述初始β值表示在各个条件期望中所述识别的训练数据集合的偏差;对与来自所述训练数据集合的每个特征向量相对应的所述各个条件期望进行正则化,其中,对每个特征向量并行执行两种或更多种对所述条件期望正则化的方法;从正则化产生的所述条件期望中创建多个模型集成;以及在所述创建的集成中生成最合适的集成作为所述机器学习模型,其中所述机器学习模型基于所述训练数据集合的不同输入来预测目标结果,其中所述两个或多个处理器包括一个或多个数字处理器和一个或多个DNA处理器。
优选地,本发明提供一种计算机程序产品,其中所述正则化包括:由所述一个或多个数字处理器,将正则化度量加到各自的条件期望中,其中/> 表示残差平方和,/>是根据正则化方法得出的正则化幅度的等级。
优选地,本发明提供一种计算机程序产品,其中用于所述正则化的所述正则化方法是最小绝对收缩和选择算子LASSO,并且其中
优选地,本发明提供一种计算机程序产品,其中用于所述正则化的正则化方法是Ridge回归(RR),并且其中,
优选地,本发明提供一种计算机程序产品,进一步包括:由所述一个或多个DNA处理器将来自所述正则化的条件期望编码为相应的DNA链,其中所述编码和所述正则化在相应的DNA链上彼此相互作用。
优选地,本发明提供一种计算机程序产品,其中,所述编码包括:由所述一个或多个DNA处理器基于所述定义的窗口中相应的β值扩增核苷酸;将所述扩增的核苷酸编码为各自的核碱基;将所述编码的核碱基添加到当前的DNA链上;以及将来自所述正则化的DNA链串联到来自所述添加的当前DNA链。
优选地,本发明提供一种计算机程序产品,进一步包括:通过改变所述各个条件期望中的β值,由所述两个或者多个处理器将外部影响包括进所述正则化的条件期望,其中所述改变的β值增加或减小各个外部影响的权重。
从另一个角度看,本发明提供一种系统,包括:存储器;以及存储器。一个或者多个与内存通信的处理器;所述程序指令可由所述两个或者多个处理器经由所述存储器执行以执行用于生成机器学习模型的方法,所述方法包括:识别训练数据集合;为初始β值定义窗口,其中所述初始β值表示在各个条件期望中所述识别的训练数据集合的偏差;对与来自所述训练数据集合的每个特征向量相对应的所述各个条件期望进行正则化,其中,对每个特征向量并行执行两种或更多种对所述条件期望正则化的方法;从正则化产生的所述条件期望中创建多个模型集成;以及在所述创建的集成中生成最合适的集成作为所述机器学习模型,其中所述机器学习模型基于所述训练数据集合的不同输入来预测目标结果,其中所述两个或多个处理器包括一个或多个数字处理器和一个或多个DNA处理器。
优选地,本发明提供一种系统,其中,所述正则化包括:由所述一个或多个数字处理器,将正则化度量加到各自的条件期望中,其中/> 表示残差平方和,/>是根据正则化方法得出的正则化幅度的等级。
优选地,本发明提供一种系统,其中用于所述正则化的所述正则化方法是从最小绝对收缩和选择算子(LASSO),Ridge回归(RR)和非正则化中选择的,并且其中如果正则化方法是LASSO,则如果正则化方法是RR,则/>如果正则化方法是非正则化,则Rn=0,表示未应用正则化。
优选地,本发明提供一种系统,进一步包括:由所述一个或多个DNA处理器将来自所述正则化的条件期望编码为相应的DNA链,其中所述编码和所述正则化在相应的DNA链上彼此相互作用。
优选地,本发明提供一种系统,其中,所述编码包括:由所述一个或多个DNA处理器基于所述定义的窗口中相应的β值扩增核苷酸;将所述扩增的核苷酸编码为各自的核碱基;将所述编码的核碱基添加到当前的DNA链上;以及将来自所述正则化的DNA链串联到来自所述添加的当前DNA链。
优选地,本发明提供一种系统,该系统进一步包括:通过改变所述各个条件期望中的β值,由所述两个或者多个处理器将外部影响包括进所述正则化的条件期望,其中所述改变的β值增加或减小各个外部影响的权重。
从另一方面来看,本发明提供了一种用于生成机器学习模型的计算机实现的方法,该方法包括:由一个或多个DNA处理器构建与条件期望相对应的DNA链,其中所述条件期望与来自训练数据集合的特征向量相对应;由所述一个或多个DNA处理器基于来自所述构建的所述条件期望的β值扩增核苷酸;由所述一个或多个DNA处理器将所述扩增的核苷酸编码为核碱基;以及由所述一个或多个DNA处理器将所述编码的核碱基从构建添加至所述DNA链。
优选地,本发明提供一种计算机实现的方法,该方法还包括:由两个或多个处理器将来自所述添加的所述DNA链转换为数字模型;由所述两个或者多个处理器创建包括来自所述转换的所述数字模型的多个数字模型集成;以及由所述两个或多个处理器在所述创建的集成中生成最合适的集成作为所述机器学习模型,其中所述机器学习模型根据所述训练数据集合的不同输入来预测目标结果,其中所述两个或多个处理器包括一个或多个数字处理器和一个或多个DNA处理器。
从另一方面来看,本发明提供了一种用于生成机器学习模型的计算机实现的方法,包括:由一个或多个DNA处理器获得具有正则化度量的条件期望;由所述一个或多个DNA处理器构建与来自所述获得的所述条件期望相对应的DNA链,其中所述条件期望与来自训练数据集合的特征向量相对应;由所述一个或多个DNA处理器基于来自所述构建的所述条件期望的β值核扩增苷酸;由所述一个或多个DNA处理器将所述扩增的核苷酸编码为核碱基;由所述一个或多个DNA处理器将所述编码的核碱基添加到来自所述构建的所述DNA链;由所述一个或多个DNA处理器接收基于规则化方法的具有核酸编号的规则化DNA链;以及由所述一个或多个DNA处理器将来自所述接收的所述正则化的DNA连接至来自所述添加的所述DNA链。
优选地,本发明提供了一种计算机实现的方法,该方法还包括:由两个或多个处理器将连接的DNA链转换为数字模型;由所述两个或者多个处理器创建包括来自所述转换的数字模型的多个数字模型集成;以及由所述两个或多个处理器在所述创建的集成中生成最合适的集成作为所述机器学习模型,其中所述机器学习模型基于所述训练数据集合的不同输入来预测目标结果,其中所述两个或多个处理器包括一个或多个数字处理器和一个或多个DNA处理器。
优选地,本发明提供一种计算机实现的方法,所述正则化度量是其中,/>表示残差平方和,/>是根据正则化方法进行的正则化幅度的等级,其中如果正则化方法是LASSO,则/>如果正则化方法是RR,则/>
通过本文阐述的技术来实现附加特征。本文中详细描述了包括但不限于计算机程序产品和系统的其他实施例和方面,并且被认为是所要求保护的发明的一部分。
附图说明
在说明书的结论处,特别指出并明确要求保护本发明的一个或多个方面作为权利要求中的实例。通过以下结合附图的详细描述,本发明的前述和其他目的、特征和优点将变得显而易见,其中:
图1描绘了根据本文阐述的一个或多个实施例的用于通过DNA计算进行机器学习建模的系统;
图2描绘了根据本文阐述的一个或多个实施例的,由系统的DNA机器学习引擎执行的操作的流程图;
图3描绘了根据本文阐述的一个或多个实施例的,由系统的正则化过程和β编码过程执行的各个操作的流程图;
图4描绘了根据本文阐述的一个或多个实施例的,由系统的DNA整体建模过程执行的操作的流程图;
图5描绘了根据本文阐述的一个或多个实施例的在系统的正则化过程和β编码过程中使用的等式;
图6描绘了根据本发明一个或多个实施例的基于DNA的计算系统;
图7描绘了根据本发明一个或多个实施例的云计算节点;
图8描绘了根据本发明一个或多个实施例的云计算环境;以及
图9描绘了根据本发明的一个或多个实施例的抽象模型层。
具体实施方式
图1描绘了根据本文阐述的一个或多个实施例的用于通过DNA计算进行机器学习(ML)建模的系统100。
DNA计算是使用脱氧核糖核酸(DNA)的计算的一个分支,而脱氧核糖核酸是一条带核苷酸的线状链,带有遗传指令,用于所有已知生物和许多病毒的生长、发育、功能和繁殖。因此,DNA计算还利用生物化学、DNA纳米技术和/或分子生物学硬件来描述和解决传统上由基于硅的常规计算机技术处理的问题。DNA计算可与常规数字计算机技术结合使用。关于高并行性、高速计算,DNA计算特别有利,因为DNA计算利用了DNA的方面,即DNA的许多不同分子同时形成许多DNA链,对应于所提出问题的许多不同可能性和/或解决方案。
在通过机器学习(ML)进行建模的上下文中,过度拟合是指建模问题,该问题通过学习训练数据中的细节和噪声而对训练数据建模得太好,以至于应用新输入数据时,这些细节和噪声会对模型性能产生负面影响。为了解决ML模型的过拟合问题,应对训练数据进行正则化,以使训练数据中的噪声和随机波动不会被建模到ML模型。在本说明书中,术语“正则化”表示解决不适当地机器学习模型的问题(例如过度拟合和类不平衡),以及以减少用于特征选择和特征提取的随机变量的数量的维数减少的过程。在本说明书中,术语“过度拟合”用于表示对机器学习模型使用正则化的目的。
系统100包括DNA机器学习引擎120,该DNA机器学习引擎120基于对训练数据105的学习来生成DNA集成模型195。到DNA机器学习引擎120的训练数据105是用于训练机器学习模型的一组数据,该机器学习模型被称为DNA集成模型195。如上所述,DNA机器学习引擎120被设计为对训练数据105进行正则化,以防止和/或最小化DNA集成模型195中上述不适的问题。
机器学习引擎120过度学习机器学习(ML)建模的上下文是指建模问题,该问题通过学习训练数据中的细节和噪声的程度过高而对训练数据进行建模,以至于当应用新输入数据时,这些细节和噪声会模型性能产生负面影响。为了解决ML模型的过拟合问题,应对训练数据进行正则化,以使训练数据中的噪声和随机波动不会被建模为ML模型。
DNA机器学习引擎120包括β值编码过程130、DNA集成建模过程140,随机数生成器150以及一个或多个正则化过程160。
β值编码过程130将包括偏差值的正则化等式编码为DNA链。在本说明书中,术语“β值”、“β幅度”、“偏差”和“偏差值”可互换使用。在图2和3以及相应的描述中示出β值编码处理130相对于其他处理140、150和160的详细操作。在本说明书中,术语“DNA链”和“DNA序列”可互换使用以表示称为核苷酸的一系列单体单元,其是具有两个DNA链的DNA分子的双螺旋结构的一半。每个核苷酸包括胞嘧啶(C)、鸟嘌呤(G)、腺嘌呤(A)或胸腺嘧啶(T)的四(4)个核碱基之一。DNA计算利用以下特性:因为A总是与T配对,C总是与G配对,所以一条DNA链是同一DNA分子中另一条DNA链的互补图像。
DNA集成建模过程140基于由β值编码过程130编码的β值和由一个或多个正则化过程160正则化的训练数据105来生成DNA集成模型195。在图2和相应的描述中示出DNA集成建模过程140相对于其他过程130、150和160的详细操作。在图4和相应的描述中示出DNA集成建模过程140的详细操作。
一个或多个正则化过程160对于训练数据105的各个实例添加正则化项(在图5中称为λ)以便通过解决过度拟合来使机器学习模型更普遍地适用。在图2和3以及相应的描述中示出一个或多个正则化过程160相对于其他过程130、140和150的详细操作。
在本发明的某些实施例中,一个或多个正则化过程160被实施为分别利用最小绝对收缩和选择算子(LASSO或L1)正则化方法和Ridge回归(RR或L2)正则化方法的两(2)个正则化过程。LASSO(L1)正则化和Ridge回归(L2)正则化都向建模等式添加了各自的正则项,以防止对训练数据105过度拟合系数。LASSO(L1)正则化的正则项是权重之和,而Ridge回归(L2)正则化的正则化项是权重平方之和。在图5及相应的描述中示出L1和L2正则化的各个等式的示例。
为了并行处理的目的,DNA机器学习引擎120耦合到DNA计算机170。在本发明的一个实施例中,DNA计算机170具有各种组件,包括但不限于聚合酶链反应(PCR)组件、凝胶电泳组件、DNA编码器和DNA解码器。在图6以及相应的描述中示出DNA计算机170的一个例子。为了常规数据和/或用户界面的目的,DNA机器学习引擎120也耦合到数字计算机180。
在本发明的某些实施例中,DNA机器学习引擎120是利用DNA计算机170和数字计算机180两者的混合过程。在同一实施例中,DNA机器学习引擎120利用数字计算机180以便与基于数字技术的常规数据处理基础设施接口的同时,利用DNA计算机170来处理编码为DNA链的数字数据以实现高并行度和高速操作。
系统100将正则化的原理扩展到DNA机器学习中,指示机器学习并行使用DNA学习提供的多种类型的正则化。系统100产生DNA集成模型195,该DNA集成模型195由于受益于各种类型的正则化而做出准确的预测。系统100通过利用用于DNA机器学习的正则化和非正则化训练数据,以指数方式增加了DNA集成模型195的候选模型组合的数量。因为系统100将候选模型的最合适的组合确定为DNA集成模型195,所以系统100通过扩展组合数量显着提高了基于机器学习的预测准确性。
图2描绘了根据本文阐述的一个或多个实施例由图1的DNA机器学习引擎120执行的操作的流程图。
在框210中,DNA机器学习引擎120识别训练数据集合105以训练DNA集成模型195。然后,DNA机器学习引擎120继续进行到框220。
在本发明的一个实施例中,DNA机器学习引擎120利用图5的简单线性回归等式EQLR将输出函数f(x)公式化为初始偏差(β0),以及与n个训练数据实例的各个偏差与训练数据实例(βjxj)的乘积之和,其中1≤j≤n
f(x)=β0+β1x1+...+βnxn
在框220中,DNA机器学习引擎120选择初始β值(β0…βn)并在每个初始β值(βmn)周围定义窗口。然后DNA机器学习引擎120进行到框230。
如前所述,β值表示机器学习模型的偏差。本发明的实施例认识到,在统计和机器学习中,高偏差或偏差周围的窗口太大会导致机器学习模型错过输入特征和目标结果之间的相关关系,这是与过度拟合的错误相反的类型。因此,对训练数据进行正则化以解决过度拟合问题,应与相应的β值窗口(通常称为偏差-方差权衡)相平衡。
在本发明的一个实施例中,DNA机器学习引擎120通过使用随机数生成器150生成随机数并随后将生成的随机数缩放到预定范围来选择各个β值。每个β值周围的窗口表示每个β值要设置的范围,因为β值不是固定数字。
在图5的期望等式式EQ EXP中,项表示作为变量/>的函数(Y)的条件期望,其中项β0j是初始偏差值,项βmnxt表示偏差值在窗口mn(βmn)和训练数据105的实例(xt)的乘积。每个训练数据实例(xt)也称为特征向量。
例如,线性回归等式为
f(x)=β0+β1x1+β2x2
其中来自图5的EQ LR n=2。DNA机器学习引擎120随机选择初始β值β0,β1,和β2,并通过具有常数a,c,d,和e的相同公式按比例缩小。DNA机器学习引擎120还为第一β值(β0)定义的窗口6,对于第二β值(β1)定义的窗口3,并且对于第三β值(β2)定义的窗口5。
结果产生相应β值的窗口:
β0:β01=30,β02=42
β1:β11=12,β12=18
β2:β21=28,β22=38
其中两个数据点β01和β02表示第一个β值(β0)的范围,该范围是第一个β值的窗口6大小的两倍。第二和第三β值分别用具有两个数据点的相应范围表示。
下面的等式EQ1至EQ8示出了从训练数据105给定特征向量(x1)的β值的概率。在等式EQ1至EQ8中,仅示出了第一β值(β0),因为其他β值和相应的线性组合可以类似于第一β值(β0)的情况来制定。DNA机器学习引擎120探索等式EQ1到EQ8,以在预定次数的尝试中获得使概率最大化的选项:
DNA机器学习引擎120通过使用DNA计算机170并行执行框230、240和250。在本发明的某些实施例中,除RR和LASSO之外的正则化方法被可选地配置并与框230、240和250并行运行。因为框230、240和250并行运行,各个框的许多线程将彼此交互。图3及相关描述中示出了框230、240和250的详细操作。
在框230中,DNA机器学习引擎120通过Ridge回归(RR或L2)正则化来对来自框210的训练数据集合进行正则化,如结合框240的β值编码过程进行操作。学习引擎120进行到框260。
在框240的一个线程中,DNA机器学习引擎120将来自框230的RR正则化过程的β值和正则化度量编码为相应的DNA链,然后将连接的DNA链返回至RR正则化过程以进行进一步处理。在框240的另一线程中,DNA机器学习引擎120将来自框250的LASSO正则化过程的β值和正则化度量编码为相应的DNA链,然后将连接的DNA链返回至LASSO正则化过程以进行进一步处理。
在框250中,类似于框230,DNA机器学习引擎120通过最小绝对收缩和选择算子(LASSO或L1)正则化来对来自框210的训练数据集合正则化,并结合框240的β值编码过程进行操作。然后,DNA机器学习引擎120进行到框260。
在框260中,DNA机器学习引擎120基于来自框230、240或250的结果,基于DNA链组生成集成模型。然后,DNA机器学习引擎120继续进行框270。图4和相应的描述中示出了框260的详细操作。
在框270中,DNA机器学习引擎120确定来自框260产生的集成模型是否满足DNA集成模型195的预配置条件。如果DNA机器学习引擎120确定来自框260的集成模型满足DNA集成模型195的预配置条件,则DNA机器学习引擎120继续执行框280。如果DNA机器学习引擎120确定来自框260的集成模型不满足DNA集成模型195的预先配置条件,则DNA机器学习引擎120循环回到框230、240和250中的并行处理单元。
在本发明的某些实施例中,DNA集成模型195的预先配置的条件将是该集合做出的预测的预先配置的准确性,因为该集合基于事件的历史数据以及事件的实时数据馈送等,在事件进行期间预测某个结果。
在框280中,DNA机器学习引擎120从框270生成作为DNA集成模型195的集成,因为集成模型已经满足了DNA集成模型195的预配置条件。在一个以上的集合通过框270的测试的情况下,DNA机器学习引擎120产生最合适的集成作为DNA集成模型195,使得DNA集成模型195基于来自训练数据集合的特定的输入以一定的准确度预测目标结果。然后,DNA机器学习引擎120终止对从框210识别出的训练数据集合的处理。
图3描绘了根据本文阐述的一个或多个实施例由图2的正则化过程230、250和β编码过程240执行的各个操作的流程图。
在每个线程中,代替框230或框250,将框310、320和330作为用于正则化的单元来执行。在图2的框230中进行的RR正则化以及在图2的框250中进行的LASSO正则化具有由DNA计算机170执行的用于框310、320和330的相应线程。每个正则化线程将与图2的β值编码过程240交互,图2的β值编码过程240的细节在框350、360、370和380中给出。
在框310中,RR正则化过程230或LASSO正则化过程250将正则化度量添加到公式化图5的EQ EXP中呈现的条件期望值的每个等式/>
结果,RR正则化过程230或LASSO正则化过程250在图5的EQ REG中产生正则化的条件期望值,
通过使用数据传输、在共享存储空间上进行记录以及数字计算机180常规上可用的任何其他方法,可以将上式在框350中用于β值编码过程240。然后进行RR正则化过程230或LASSO正则化处理250进行到框320。
与期望等式式EQ EXP相似,在图5的正则化期望等式EQ REG中,项E表示Y作为变量/>函数的条件期望,其中项β0j是初始偏差值,项βmnxt表示窗口偏差值mn(βmn)和训练数据105的实例(xt)的乘积,而项/>是分别对应于RR正则化过程230或LASSO正则化过程250的正则化度量。Y是在DNA集成模型195中的一个集成。
在图5的EQ RT中表示了作为RSS和Rn的总和的正则化度量其中RSS是残差平方和,Rn是正则化幅度的等级,或者简称为幅度。
其中
在RSS项中,yi是表示DNA集成模型195中的每个集成的标签,xij是表示训练数据105中的每个实例的特征向量,并且β0是初始β值。在Rn的项中,参数λ是表示偏差的容许范围的预定的正则化器,通常在[0.01、10]的范围内,并且R(βi)是通过正则化方法设置的正则化项。在图5的EQ RR中也示出了用于Ridge回归(RR)正则化的正则化项是权重的平方之和因此,RR正则化230中的正则化度量/>被公式化为:
如图5的EQ LASSO所示,LASSO正则化过程250的正则项是权重之和R(βj)=|βj|。因此,LASSO正则化250中的正则化度量公式化为:
本发明的实施例认识到,传统上使用最小二乘法来估计β值,其中RSS最小化。将正则化幅度Rn添加到最小化的RSS中,以避免过度拟合类不平衡,并通过惩罚非常大的β值来执行特征选择。
在框320中,RR正则化过程230或LASSO正则化过程250通过对正则化幅度Rn进行排序来确定要添加多少核酸。相应的正则化过程230或250在框380中使所确定的数目指示可用于β值编码过程240的核酸。作为响应,RR正则化过程230或LASSO正则化过程250随后从β值编码过程240的框380接收串联的DNA链。然后,RR正则化过程230或LASSO正则化过程250进行到框330。
在框330中,RR正则化过程230或LASSO正则化过程250通过在氢键合位点来中和从β编码过程240的框380接收的DNA链,来减少β值的潜在获胜组合的数量。
已被中和的每条DNA链会导致液体中的运动减弱,从而导致更少的DNA链与溶液中相应的其他预存在的DNA链结合。减少的与溶液结合的DNA链,将减少潜在获胜的β值溶液的数量。当检索到图5的EQ REG编码的DNA链时,当将所有β值结合在一起时,每个后续溶液的相对数就作为权重。在框330的结尾,RR正则化过程230或LASSO正则化过程250完成以DNA的形式图5的EQ REG编码/>
如在框310中所指出的,如在各个正则化度量中所表示的,各个正则化过程影响在氢键合位点被中和的核酸如何链在一起。RR正则化过程230利用平方等级以确定中和的核酸数目。LASSO正则化过程250利用各个等级。在使用绝对值的任何其他正则化方法中,采用等级来确定要中和的核酸数量。
如上所述,β值编码过程240的多个线程分别与其他正则化线程(或者是RR正则化过程230或者是LASSO正则化过程250)交互。
在框350中,β值编码过程240构建与从框310接收的正则化等式相对应或与直接从框220接收的非正则等式相对应的多个DNA链。如上所述,框310是作为一个单元执行RR正则化过程230或LASSO正则化过程250的线程的一部分。在本发明的一个实施例中,β值编码过程240利用聚合酶链反应(PCR)来复制DNA链以进行平行处理。然后,β值编码过程240进行到框360。
在框360中,β值编码过程240基于在框220中定义的窗口内的β值的相应幅度来扩增核苷酸,并且随后在核碱基水平上编码扩增的核苷酸。本发明的实施方案认识到核苷酸构建DNA链的块。然后,β值编码过程240进行到框370。
在框370中,β值编码过程240将来自框360的编码核碱基添加到构建在框350中的当前DNA链。然后,β值编码过程240进行到框380。
在框380中,β值编码过程240将从框320正则化的DNA链串联到当前DNA链,并使该串联的DNA链可用于RR正则化过程230或LASSO正则化过程250的框320。或者,β值编码过程240产生当前DNA链,其中在框350中建立的当前DNA链对应于非正则化等式。然后,β值编码过程240终止对从框350构建的当前DNA链的编码。
图4描绘了根据本文阐述的一个或多个实施例由图2的DNA集成建模过程260执行的操作的流程图。
在框410中,DNA集成建模过程260通过利用诸如热和/或压力的外部影响来改变β值,从而从正则化过程230、250的框330的结果中产生新的结果。通过增加β值,DNA集成建模过程260减小了与对条件期望的外部影响相对应的权重。通过降低β值,可以增加条件期望中外部影响的权重,并且可以更紧密地对外部影响与目标结果之间的关系建模。然后DNA集成建模过程260进行到框420。
在框420中,DNA集成建模过程260通过对新结果施加凝胶电泳来分离从框410产生的新结果。然后,DNA集成建模过程260进行到框430。
凝胶电泳是一种基于所分析的大分子的大小和电荷来分离和分析诸如DNA和/或核糖核酸(RNA)的大分子及其片段的方法。已经确定,在生物化学和分子生物学中,凝胶电泳用于按长度分离DNA/RNA片段的混合群体,以估计DNA/RNA片段的大小或通过电荷分离蛋白质。
在框430中,DNA集成建模过程260将由框420得到的DNA链按长度分成预定数量的组。DNA链的长度或大小表示已被编码和更改的相应β值。然后DNA集成建模过程260进行到框440。
在框440中,DNA集成建模过程260基于正则化类型从框430的每个组创建采样。因此,在采用RR正则化过程230和LASSO正则化过程250的实施例中,DNA集成建模过程260针对由RR正则化过程230正则化的一组DNA链和由LASSO正则化过程250进行了正则化的另一组DNA链,以不同的长度创建多个样本。然后,DNA集成建模过程260进行到框450。
在框450中,DNA集成建模过程260将从框440中采样的每个长度,每个正则化方法的DNA样本转换为数字模型。DNA链到数字数据形式的转换也称为DNA解码,或简称为解码。然后DNA集成建模过程260进行到框460。
在框460中,DNA集成建模过程260从与每个长度正则化组相对应的数字模型中创建一个或多个DNA集成。然后DNA集成建模过程260进行到框470。
在本发明的某些实施例中,DNA集成建模过程260可以分别使用未被正则化的DNA输入以及被正则化的DNA输入。在本发明的相同实施例中,DNA集成建模过程260创建DNA集成,该DNA集成分别包括从尚未被正则化的样本、已经由RR进行正则化的另一样本以及已经由LASSO进行正则化的又一样本的三(3)种组合。因此,DNA集成建模过程260基于正则化输入,然后通过将非正则化编码核碱基添加至正则化编码DNA链,产生九(9)种潜在组合,如图3的框370所示,DNA集成建模过程260产生二十七(27)个候选组合,从这些候选组合中待确定最合适的DNA集成模型195。候选组合的数量计算为(n!/(k!(n-k)!),其中n表示元素数量,k表示要一起选择的元素数量。
在框470中,DNA集成建模过程260根据预先配置的标准,例如基于DNA集成的预测中的一定百分比的准确性,测试从框460创建的一个或多个DNA集成。然后DNA集成建模过程260进行到图2的框270。
根据图2-4中呈现的操作,在本发明的一个实施例中,DNA机器学习引擎120产生DNA集成模型,用于预测比赛期间任何时间的网球比赛的结果。输入数据可以包括初始历史数据、实时数据馈送和社交数据。初始历史数据包括但不限于各个球员的当前记录、各个球员的当前官方排名、各个球员之间的先前比赛结果、先前各场比赛的天气情况(包括温度、湿度)、各比赛地点/国家的记录(包括澳大利亚、法国、美国),以及各种场地类型记录(包括硬地、粘土、草皮)。实时数据馈送包括但不限于当前设定分数、当前比赛分数、非强制性错误的数量以及首次发球百分比。社交数据包括但不限于在各个社交网络中的流行度、各个球员的搜索排名/命中。
各个数据项的每个实例是将在图2的框220在生成用于预测网球比赛结果的DNA集成模型的过程中被选择作为初始β值的独立变量。DNA机器学习引擎120使用两(2)种不同类型的正则化以便惩罚不适用于当前比赛的权重。例如,如果当前比赛在草地上,则DNA机器学习引擎120将不会对球员在红土场上的比赛的记录和在草地上的比赛的记录加权重。
在图1的框210中,DNA机器学习引擎120根据上述模型的目的,最初获得用于训练模型集合的训练数据集合。DNA机器学习引擎120针对来自上述示例的每个数据项启动模型集合中的每个模型。DNA机器学习引擎120分别在框230和250处启动两种类型的正则化,即RR和LASSO,同时在框240中基于线性回归和用于将每个模型转换成DNA链的正则化度量来共享相同的构造。学习引擎120在β值编码过程240中通过PCR放大正则项的罚分。在框410,框260中的DNA机器学习引擎120添加外部因素以改变串联的正则化DNA链对的模型的影响,在框420和430中,通过凝胶电泳基于链的链长,对DNA进行排序,在框450中将DNA链解码为数字模型,然后在框460中创建多个集成模型。DNA机器学习引擎120使用测试数据集合来测试每个集成模型。如果整成模型不满足特定标准,则DNA机器学习引擎120以单元为单位重复编码和正则化,然后改变和创建集成。
集成模型用于使用历史数据以及实时数据馈送来在比赛的任何点预测当前网球比赛的得分。
图5描绘了根据本文阐述的一个或多个实施例的在正则化过程230、250和β编码过程240中使用的等式。
等式EQ LR是线性回归等式的广义形式。在图3的框210和220的描述中给出DNA机器学习引擎120的上下文中的等式EQ LR的细节。
等式EQ EXP是以特征向量为条件的期望等式。在图2的框220和图3的框310的描述中给出DNA机器学习引擎120的上下文中的等式EQ EXP的细节。
等式EQ REG是具有正则化度量的正则化条件期望等式。在图3的框310和330的描述中给出DNA机器学习引擎120的上下文中的等式EQ EXP的细节。
等式EQ RT是正则化期望等式的正则化度量。在图3的框310的描述中给出DNA机器学习引擎120的上下文中的等式EQ RT的细节。
等式EQ RR是Ridge回归(RR)正则化过程230的正则化项。在图3的框310的描述中给出了DNA机器学习引擎120上下文中等式EQ RR的细节。
等式EQ LASSO是用于最小绝对收缩和选择算子(LASSO)正则化过程250的正则化项。在图3的框310的描述中给出了在DNA机器学习引擎120的上下文中的等式EQ LASSO的细节。
本发明的某些实施例可以提供各种技术计算优势,包括扩展用于候选模型组合的数量以产生机器学习模型,并且因此提高由机器学习模型做出的预测的准确性。本发明的某些实施例通过利用DNA计算,利用各种预选方法并行地使训练数据正则化。本发明的某些实施例通过利用非正则化的训练数据和正则化的训练数据,并行地利用DNA计算机,以指数方式增加了用于机器学习模型的候选模型的组合的数量。本发明的某些实施例可以通过使用各种类型的云平台/数据中心来实现,包括软件即服务(SaaS)、平台即服务(PaaS)、数据库即服务(DBaaS)及其基于预订调度服务类型的上述各种的组合。因此,可以从世界上的任何位置为需要的任何类型的实体提供用于组中的协作的调度服务。
图6描绘了根据本发明的一个或多个实施方式的基于DNA的计算系统600。
如所指出的,本发明的实施例认识到DNA计算的已建立的计算阶段包括:1)通过使用基于DNA的源输入605形成问题的参数树;2)将问题编码为特定的DNA序列;3)通过利用包括设计池和方法池的DNA池中的预先选择的杂交方法在各种DNA序列之间杂交并对其重组;4)涉及某些特定DNA序列的提取的DNA突变;5)以图形方式将提取的DNA序列解码回参数问题上下文;6)代码优化,试图改善DNA池中DNA计算程序的时间和空间要求。在上述计算阶段结束时,产生了DNA目标输出695。本发明的实施例还认识到,DAN目标输出695在利用DNA计算和常规数字计算的混合计算系统中被转换成可计算的数字输出。
用于基于DNA的计算机610的整个DNA链分为两部分:主动部分和被动部分。
活性成分参与杂交(阶段3)。此组件代表体系结构详细信息以及指令集详细信息。活性成分在编码阶段(第2阶段)创建,并在杂交阶段(第3阶段)扩展,这表明在编码阶段将基本架构细节添加到DNA字符串,而在重组阶段(第3阶段)将更细微的方面添加到DNA字符串。基本架构细节的示例包括但不限于128位指令长度。较优方面的示例包括但不限于使用进位保存加法器(CSA)。
在突变阶段(阶段4)中形成被动组件。被动组件包括有限状态机(FSM)描述、基于DNA的计算机610的网表和基本放置细节。“网表”定义了电子设计各个组件之间的连通性,而“放置”是在基于DNA的计算机610的核心区域中,指定各个组件在杂交阶段(第3阶段)的确切位置的过程。各种基于DNA的计算机的主动组件在杂交阶段(第3阶段)相互反应,而在突变阶段(第4阶段)则形成无源组件。被动组件在杂交阶段不会主动参与,但是后代会根据各自的指令集继承两个交互的基于DNA的计算机的FSM详细信息。然后,将继承的FSM用作指导以形成后代的实际FSM。
基于DNA的计算机610包括基于DNA的场效应晶体管(DNAFET)620、基于DNA的存储系统630和DNA微阵列640。
DNAFET 620是场效应晶体管,其使用由于DNA分子的部分电荷而产生的场效应来充当生物传感器。生物传感器用作检测分析物的分析装置。分析物将生物成分与物理化学检测器结合在一起。生物传感器通常包括生物识别组件、生物换能器组件以及包括信号放大器、处理器和显示器的电子系统。传感器和电子系统可以像基于互补金属-氧化物-半导体(CMOS)的微传感器系统一样组合使用。当晶体管控制电子在电子设备中沿电路的流动时,基于DNA的晶体管(称为转录子)将控制特定蛋白质RNA聚合酶的流动,因为转录子沿DNA链在生物制剂中传播。
基于DNA的存储系统630在基于DNA的计算机610中以DNA的基本序列存储数字数据。基于DNA的存储系统630将用于在活细胞中记录数据,而不是如在电子产品中使用硅芯片。因此,基于DNA的存储系统630能够跟踪细胞分裂以研究细胞过程,例如癌症中发生的发育、衰老和变化。基于DNA的存储系统630使用人工DNA,该人工DNA是使用可商购的寡核苷酸合成机进行存储而利用DNA测序机进行检索而制成的。已经使用了映射到位和相应的DNA碱基的简单代码,但是已知会导致相同碱基的长期运行,因此,这种长DNA碱基的测序容易出错。基于DNA的存储系统630实现各种类型的存储介质,诸如硬盘驱动器和磁带。
DNA微阵列640是小的固体支持物,来自数千种不同基因的DNA序列被固定或附着在其上的固定位置。支撑物的实例包括但不限于玻璃显微镜载玻片、硅片和尼龙膜。将正在处理的DNA链直接印刷、点样或合成到支持物上。结果,DNA微阵列640中的每个斑点将是DNA、互补DNA(cDNA)或寡核苷酸。借助数字计算机,可以精确测量与微阵列上每个点结合的信使RNA(mRNA)的量,从而生成细胞中基因表达的概况。微阵列中的基因序列以有序或固定的方式串联到其支持物上,以便通过使用DNA微阵列640中的斑点来识别特定的基因序列和/或基因突变。同样,DNA微阵列640也用于确定样本中基因的表达水平,表明样本中基因的丰富程度,或比较两种或多种不同类型细胞中的基因转录。
基于DNA的计算机610包括DNA池620,作为具有相应目的的各种DNA池的集合,这些目的对应于相应的DNAFET或处理器620、基于DNA的存储系统630和DNA微阵列640的各自功能。DNA池包括彼此相互作用的设计池和方法池。如在DNAFET 620中一样,已知设计池存储各种处理组件的相应完整设计以及几个不同的功能单元。微处理器的体系结构细节、指令集和FSM设计作为DNA序列存储在设计池中。如在DNAFET 620中一样,处理器字符串以索引阵列格式存储,以便于检索。如在DNAFET 620中一样,每个处理器与效能因子相关联,该效能因子指示处理器产生具有特定特性(度量)的后代的能力。方法池存储了杂交阶段(阶段3)中使用的各种启发式方法及其各自的有效性值。
图7-9描绘了根据本文阐述的一个或多个方面的包括云计算系统的计算的各个方面。
首先应当理解,尽管本公开包括关于云计算的详细描述,但其中记载的技术方案的实现却不限于云计算环境,而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。
云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
特征包括:
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作系统、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。
公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。
混合云:云基础架构由一个或者多个部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。
现在参考图7,其中显示了云计算节点的一个例子。图7显示的云计算节点10仅仅是适合的云计算节点的一个示例,不应对本发明实施例的功能和使用范围带来任何限制。总之,云计算节点10能够被用来实现和/或执行以上所述的任何功能。
云计算节点10具有计算机系统/服务器12或可移动电子装置(例如通讯装置),其可与众多其它通用或专用计算系统环境或配置一起操作。众所周知,适于与计算机系统/服务器12一起操作的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任意系统的分布式云计算技术环境,等等。
计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器12可以在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
如图7所示,云计算节点10中的计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是能够被计算机系统/服务器12访问的任意可获得的介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,其它硬件和/或软件模块可以与计算机系统/服务器12一起操作,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
现在参考图8,其中显示了示例性的云计算环境50。如图所示,云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10,本地计算设备例如可以是个人数字助理(PDA)或移动电话54A,台式电脑54B、笔记本电脑54C和/或汽车计算机系统54N。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样,云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解,图8显示的各类计算设备54A-N仅仅是示意性的,云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。
现在参考图9,其中显示了云计算环境50(图8)提供的一组功能抽象层。首先应当理解,图9所示的组件、层以及功能都仅仅是示意性的,本发明的实施例不限于此。如图所示,提供下列层和对应功能:
硬件和软件层60包括硬件和软件组件。硬件组件的例子包括:主机61;基于RISC(精简指令集计算机)体系结构的服务器62;服务器63;刀片服务器64;存储设备65;网络和网络组件66。软件组件的例子包括:网络应用服务器软件67以及数据库软件68。
虚拟层70提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟私有网络)、虚拟应用和操作系统74,以及虚拟客户端75。
在一个示例中,管理层80可以提供下述功能:资源供应功能81:提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能82:在云计算环境内对资源的使用进行成本跟踪,并为此提供帐单和发票。在一个例子中,该资源可以包括应用软件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能83:为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84:提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能85:为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层90提供云计算环境可能实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括:地图绘制与导航91;软件开发及生命周期管理92;虚拟教室的教学提供93;数据分析处理94;交易处理95;以及如本文所述,由DNA机器学习引擎120提供的用于协作调度服务的处理组件。
在任何可能的技术细节结合层面,本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个框以及流程图和/或框图中各框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文所使用的术语仅出于描述特定实施例的目的,而并非旨在进行限制。如本文所使用的,单数形式“一”、“一个”和“该”也意图包括复数形式,除非上下文另外明确指出。还将理解的是,术语“包含”(以及任何形式的包含,例如“包含(单数第三人称)”和“包含(进行时)”)、“具有”(以及任何形式的包含,例如“具有(单数第三人称)”和“具有(进行时)”),“包括”(以及任何形式的包括,例如“包括(单数第三人称)”和“包括(进行时)”)和“含有”(以及任何形式的含有,例如“含有(单数第三人称)”和“含有(进行时)”)是开放式链接动词。导致“包含”、“具有”、“包括”或“含有”一个或多个步骤或元素的方法或设备拥有那些一个或多个步骤或元素,但不限于仅拥有那些一个或多个步骤或元素。同样,方法的步骤或者设备的元件“包含”,“具有”,“包括”或“含有”一个或多个具有这些一个或多个特征,但不限于仅具有那些一个或者多个特征。此外,以某种方式配置的设备或结构至少以这种方式配置,但是也可以以未列出的方式配置。
所附权利要求中的所有装置或步骤加上功能元件的相应结构、材料、动作和等同物(如果有)旨在包括任何结构,材料或动作以与特别要求保护的其他要求保护的元素组合地执行功能。已经出于说明和描述的目的呈现了本文阐述的描述,但是其并不旨在是详尽的或限于所公开的形式。在不脱离本公开的范围的情况下,许多修改和变化对于本领域普通技术人员将是显而易见的。选择和描述实施例是为了最好地解释本文阐述的一个或多个方面的原理和实际应用,并使本领域的其他普通技术人员能够理解本文所述的各个实施例的一个或多个方面,该多种实施例具有适合于预期的特定用途的各种修改。
Claims (25)
1.一种用于生成机器学习模型的计算机实现的方法,包括:
由两个或更多个处理器识别训练数据集合;
由所述两个或更多个处理器为初始β值定义窗口,其中所述初始β值表示在各个条件期望中的识别的训练数据集合的偏差;
由所述两个或更多个处理器对与来自所述训练数据集合的每个特征向量相对应的所述各个条件期望进行正则化,其中,对每个特征向量并行执行两种或更多种对条件期望正则化的方法;
由所述两个或更多个处理器创建从由所述正则化产生的条件期望中导出的多个模型集成;以及
由所述两个或更多个处理器在创建的集成中生成最合适的集成作为所述机器学习模型,其中所述机器学习模型基于与所述训练数据集合不同的输入来预测目标结果,
其中所述两个或更多个处理器包括一个或多个数字处理器和一个或多个DNA处理器。
2.如权利要求1所述的计算机实现的方法,所述正则化包括:
由所述一个或多个数字处理器,将正则化度量加到各个条件期望中,其中/>表示残差平方和,/>是根据正则化方法得出的正则化幅度的等级。
3.如权利要求2所述的计算机实现的方法,其中,用于所述正则化的正则化方法是最小绝对收缩和选择算子LASSO,并且其中
4.如权利要求2所述的计算机实现的方法,其中,用于所述正则化的正则化方法是Ridge回归RR,并且其中,
5.如权利要求1所述的计算机实现的方法,还包括:
由所述一个或多个DNA处理器将来自所述正则化的条件期望编码为相应的DNA链,其中所述编码和所述正则化在所述相应的DNA链上彼此相互作用。
6.如权利要求5所述的计算机实现的方法,所述编码包括:
由所述一个或多个DNA处理器基于定义的窗口中相应的β值扩增核苷酸;
将扩增的核苷酸编码为各自的核碱基;
将编码的核碱基添加到当前的DNA链上;以及
将来自所述正则化的DNA链串联到来自所述添加的当前DNA链。
7.如权利要求1所述的计算机实现的方法,还包括:
通过改变所述各个条件期望中的β值,由所述两个或更多个处理器将外部影响包括进正则化的条件期望,其中所述改变的β值增加或减小各个外部影响的权重。
8.一种计算机程序产品,包括:
一种计算机可读存储介质,该计算机可读存储介质可由两个或更多个处理器读取,并且存储用于由所述两个或更多个处理器执行以执行用于生成机器学习模型的方法的指令,所述方法包括:
识别训练数据集合;
为初始β值定义窗口,其中所述初始β值表示在各个条件期望中的识别的训练数据集合的偏差;
对与来自所述训练数据集合的每个特征向量相对应的所述各个条件期望进行正则化,其中,对每个特征向量并行执行两种或更多种对条件期望正则化的方法;
创建从由所述正则化产生的条件期望中导出的多个模型集成;以及
在创建的集成中生成最合适的集成作为所述机器学习模型,其中所述机器学习模型基于与所述训练数据集合不同的输入来预测目标结果,
其中所述两个或更多个处理器包括一个或多个数字处理器和一个或多个DNA处理器。
9.如权利要求8所述的计算机程序产品,所述正则化包括:
由所述一个或多个数字处理器,将正则化度量加到各个条件期望中,其中/>表示残差平方和,/>是根据正则化方法得出的正则化幅度的等级。
10.如权利要求9所述的计算机程序产品,其中,用于所述正则化的正则化方法是最小绝对收缩和选择算子LASSO,并且其中
11.如权利要求9所述的计算机程序产品,其中,用于所述正则化的正则化方法是Ridge回归RR,并且其中,
12.如权利要求8所述的计算机程序产品,还包括:由所述一个或多个DNA处理器将来自所述正则化的条件期望编码为相应的DNA链,其中所述编码和所述正则化在相应的DNA链上彼此相互作用。
13.如权利要求12所述的计算机程序产品,所述编码包括:
由所述一个或多个DNA处理器基于定义的窗口中相应的β值扩增核苷酸;
将扩增的核苷酸编码为各自的核碱基;
将编码的核碱基添加到当前的DNA链上;以及
将来自所述正则化的DNA链串联到来自所述添加的当前DNA链。
14.如权利要求8所述的计算机程序产品,还包括:
通过改变所述各个条件期望中的β值,由所述两个或更多个处理器将外部影响包括进正则化的条件期望,其中改变的β值增加或减小各个外部影响的权重。
15.一种系统,包括:
存储器;
两个或更多个与所述存储器通信的处理器;以及
程序指令,可由所述两个或更多个处理器通过所述存储器执行以执行用于生成机器学习模型的方法,所述方法包括:
识别训练数据集合;
为初始β值定义窗口,其中所述初始β值表示在各个条件期望中的识别的训练数据集合的偏差;
对与来自所述训练数据集合的每个特征向量相对应的所述各个条件期望进行正则化,其中,对每个特征向量并行执行两种或更多种对条件期望正则化的方法;
创建从由所述正则化产生的条件期望中导出的多个模型集成;以及
在创建的集成中生成最合适的集成作为所述机器学习模型,其中所述机器学习模型基于与所述训练数据集合不同的输入来预测目标结果,
其中所述两个或更多个处理器包括一个或多个数字处理器和一个或多个DNA处理器。
16.如权利要求15所述的系统,所述正则化包括:
由所述一个或多个数字处理器,将正则化度量加到各个条件期望中,其中/>表示残差平方和,/>是根据正则化方法得出的正则化幅度的等级。
17.如权利要求16所述的系统,其中,用于所述正则化的正则化方法是从最小绝对收缩和选择算子LASSO,Ridge回归RR和非正则化中选择的,并且其中如果正则化方法是LASSO,则如果正则化方法是RR,则/>如果正则化方法是非正则化,则Rn=0,表示未应用正则化。
18.如权利要求15所述的系统,还包括:
由所述一个或多个DNA处理器将来自所述正则化的条件期望编码为相应的DNA链,其中所述编码和所述正则化在相应的DNA链上彼此相互作用。
19.如权利要求18所述的系统,所述编码包括:
由所述一个或多个DNA处理器基于定义的窗口中相应的β值扩增核苷酸;
将扩增的核苷酸编码为各自的核碱基;
将编码的核碱基添加到当前的DNA链上;以及
将来自所述正则化的DNA链串联到来自所述添加的当前DNA链。
20.如权利要求15所述的系统,还包括:
通过改变所述各个条件期望中的β值,由所述两个或更多个处理器将外部影响包括进正则化的条件期望,其中改变的β值增加或减小各个外部影响的权重。
21.一种用于生成机器学习模型的计算机实现的方法,包括:
识别训练数据集合;
为初始β值定义窗口,其中所述初始β值表示在各个条件期望中的识别的训练数据集合的偏差;
对与来自所述训练数据集合的每个特征向量相对应的所述各个条件期望进行正则化,其中,对每个特征向量并行执行两种或更多种对条件期望正则化的方法;
创建从由所述正则化产生的条件期望中导出的多个模型集成;以及
在创建的集成中生成最合适的集成作为所述机器学习模型,其中所述机器学习模型基于与所述训练数据集合不同的输入来预测目标结果。
22.如权利要求21所述的计算机实现的方法,所述正则化包括:
将正则化度量加到各个条件期望中,其中/> 表示残差平方和,/>是根据正则化方法得出的正则化幅度的等级。
23.如权利要求21所述的计算机实现的方法,还包括:
由一个或多个DNA处理器将来自所述正则化的条件期望编码为相应的DNA链,其中所述编码和所述正则化在所述相应的DNA链上彼此相互作用。
24.如权利要求23所述的计算机实现的方法,所述编码包括:
由所述一个或多个DNA处理器基于定义的窗口中相应的β值扩增核苷酸;
将扩增的核苷酸编码为各自的核碱基;
将编码的核碱基添加到当前的DNA链上;以及
将来自所述正则化的DNA链串联到来自所述添加的当前DNA链。
25.如权利要求21所述的计算机实现的方法,还包括:
通过改变所述各个条件期望中的β值,将外部影响包括进正则化的条件期望,其中改变的β值增加或减小各个外部影响的权重。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/994,145 | 2018-05-31 | ||
US15/994,145 US11531934B2 (en) | 2018-05-31 | 2018-05-31 | Machine learning (ML) modeling by DNA computing |
PCT/IB2019/054334 WO2019229607A1 (en) | 2018-05-31 | 2019-05-24 | Machine learning (ml) modeling by dna computing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112136144A CN112136144A (zh) | 2020-12-25 |
CN112136144B true CN112136144B (zh) | 2024-05-31 |
Family
ID=68693942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980033644.1A Active CN112136144B (zh) | 2018-05-31 | 2019-05-24 | 通过dna计算进行机器学习(ml)建模 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11531934B2 (zh) |
JP (1) | JP7232260B2 (zh) |
CN (1) | CN112136144B (zh) |
DE (1) | DE112019001636T5 (zh) |
GB (1) | GB2589237B (zh) |
WO (1) | WO2019229607A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11531934B2 (en) | 2018-05-31 | 2022-12-20 | Kyndryl, Inc. | Machine learning (ML) modeling by DNA computing |
KR102200809B1 (ko) * | 2019-04-01 | 2021-01-12 | 주식회사 엘렉시 | 학습기반 데이터 처리 시스템 및 모델 갱신 방법 |
US11823066B2 (en) * | 2021-05-28 | 2023-11-21 | Bank Of America Corporation | Enterprise market volatility predictions through synthetic DNA and mutant nucleotides |
US11823065B2 (en) * | 2021-05-28 | 2023-11-21 | Bank Of America Corporation | Enterprise market volatility predictions through synthetic DNA and mutant nucleotides |
US11823064B2 (en) * | 2021-05-28 | 2023-11-21 | Bank Of America Corporation | Enterprise market volatility prediction through synthetic DNA and mutant nucleotides |
CN116844642B (zh) * | 2023-07-03 | 2024-03-29 | 燕山大学 | 基于dna杂交反应技术的新型线性机器学习方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8775341B1 (en) * | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
CN105378764A (zh) * | 2013-07-12 | 2016-03-02 | 微软技术许可有限责任公司 | 计算机-人交互式学习中的交互式概念编辑 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002095534A2 (en) | 2001-05-18 | 2002-11-28 | Biowulf Technologies, Llc | Methods for feature selection in a learning machine |
GB0719527D0 (en) | 2007-10-08 | 2007-11-14 | Univ York | Value determination |
US8296177B2 (en) | 2008-02-20 | 2012-10-23 | Yahoo! Inc. | Method for generating forecasting landscapes |
WO2009134820A2 (en) | 2008-04-28 | 2009-11-05 | Cornell University | Tool for accurate quantification in molecular mri |
BRPI1015129A2 (pt) | 2009-06-30 | 2016-07-12 | Dow Agrosciences Llc | aplicação de métodos em aprendizagem de máquina para regras de associação na mineração de conjuntos de dados contendo marcadores genéticos moleculares de plantas e de animais, seguida pela classificação ou predição utilizando atributos criados a partir destas regras de associação |
EP2875458A2 (en) * | 2012-07-19 | 2015-05-27 | President and Fellows of Harvard College | Methods of storing information using nucleic acids |
US9477906B2 (en) | 2013-09-16 | 2016-10-25 | Biodesix, Inc. | Classification generation method using combination of mini-classifiers with regularization and uses thereof |
US10388404B2 (en) * | 2015-10-27 | 2019-08-20 | International Business Machines Corporation | Using machine-learning to perform linear regression on a DNA-computing platform |
US10432622B2 (en) * | 2016-05-05 | 2019-10-01 | International Business Machines Corporation | Securing biometric data through template distribution |
US11531934B2 (en) | 2018-05-31 | 2022-12-20 | Kyndryl, Inc. | Machine learning (ML) modeling by DNA computing |
-
2018
- 2018-05-31 US US15/994,145 patent/US11531934B2/en active Active
-
2019
- 2019-05-24 CN CN201980033644.1A patent/CN112136144B/zh active Active
- 2019-05-24 GB GB2019481.7A patent/GB2589237B/en active Active
- 2019-05-24 JP JP2020555042A patent/JP7232260B2/ja active Active
- 2019-05-24 DE DE112019001636.9T patent/DE112019001636T5/de active Pending
- 2019-05-24 WO PCT/IB2019/054334 patent/WO2019229607A1/en active Application Filing
-
2022
- 2022-10-31 US US18/051,308 patent/US11928603B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8775341B1 (en) * | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
CN105378764A (zh) * | 2013-07-12 | 2016-03-02 | 微软技术许可有限责任公司 | 计算机-人交互式学习中的交互式概念编辑 |
Also Published As
Publication number | Publication date |
---|---|
JP2021525405A (ja) | 2021-09-24 |
GB2589237B (en) | 2023-02-08 |
GB2589237A (en) | 2021-05-26 |
DE112019001636T5 (de) | 2021-01-07 |
US20230089824A1 (en) | 2023-03-23 |
WO2019229607A1 (en) | 2019-12-05 |
GB202019481D0 (en) | 2021-01-27 |
CN112136144A (zh) | 2020-12-25 |
US11531934B2 (en) | 2022-12-20 |
US20190370694A1 (en) | 2019-12-05 |
JP7232260B2 (ja) | 2023-03-02 |
US11928603B2 (en) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112136144B (zh) | 通过dna计算进行机器学习(ml)建模 | |
Hruska et al. | Quantitative comparison of adaptive sampling methods for protein dynamics | |
Roshan et al. | Probalign: multiple sequence alignment using partition function posterior probabilities | |
Boussau et al. | Efficient likelihood computations with nonreversible models of evolution | |
Beerli et al. | Unified framework to evaluate panmixia and migration direction among multiple sampling locations | |
König et al. | Simultaneous gene finding in multiple genomes | |
Gillis et al. | The role of indirect connections in gene networks in predicting function | |
Rizk et al. | GASSST: global alignment short sequence search tool | |
Berger et al. | Aligning short reads to reference alignments and trees | |
Baele et al. | Bayesian evolutionary model testing in the phylogenomics era: matching model complexity with computational efficiency | |
Hutchinson et al. | Fine-mapping genetic associations | |
Wit et al. | Near-optimal designs for dual channel microarray studies | |
Thompson et al. | The Gibbs centroid sampler | |
US8001001B2 (en) | System and method using sampling for allocating web page placements in online publishing of content | |
Shih et al. | A single source k-shortest paths algorithm to infer regulatory pathways in a gene network | |
Boucher et al. | Inferring bounded evolution in phenotypic characters from phylogenetic comparative data | |
US20190385706A1 (en) | Associating gene expression data with a disease name | |
Corus et al. | On easiest functions for mutation operators in bio-inspired optimisation | |
Munch et al. | Automatic generation of gene finders for eukaryotic species | |
Si et al. | Improved protein contact prediction using dimensional hybrid residual networks and singularity enhanced loss function | |
Yang et al. | Accelerating the discovery of anticancer peptides targeting lung and breast cancers with the Wasserstein autoencoder model and PSO algorithm | |
Lupo et al. | Pairing interacting protein sequences using masked language modeling | |
Liu et al. | Simulating the electrostatic guidance of the vectorial translocations in hexameric helicases and translocases | |
Harada et al. | Efficient conformational sampling of proteins based on a multi-dimensional TaBoo SeArch algorithm: An application to folding of chignolin in explicit solvent | |
Baralla et al. | Inferring gene networks: dream or nightmare? Part 1: Challenges 1 and 3 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220215 Address after: New York, United States Applicant after: Qindarui Co. Address before: New York grams of Armand Applicant before: International Business Machines Corp. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |