CN117980080A - 分选紫罗兰属种子的方法 - Google Patents
分选紫罗兰属种子的方法 Download PDFInfo
- Publication number
- CN117980080A CN117980080A CN202280055260.1A CN202280055260A CN117980080A CN 117980080 A CN117980080 A CN 117980080A CN 202280055260 A CN202280055260 A CN 202280055260A CN 117980080 A CN117980080 A CN 117980080A
- Authority
- CN
- China
- Prior art keywords
- seeds
- seed
- image
- violet
- ionophora
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 96
- 238000013528 artificial neural network Methods 0.000 claims description 177
- 244000172533 Viola sororia Species 0.000 claims description 148
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 claims description 116
- 230000000007 visual effect Effects 0.000 claims description 115
- 238000012549 training Methods 0.000 claims description 109
- 229910052742 iron Inorganic materials 0.000 claims description 56
- 241000196324 Embryophyta Species 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 27
- 238000003384 imaging method Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 23
- 239000005433 ionosphere Substances 0.000 claims description 21
- 230000012010 growth Effects 0.000 claims description 10
- 244000088413 Matthiola incana Species 0.000 claims description 9
- 235000011378 Matthiola incana Nutrition 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000002950 deficient Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 9
- 239000003550 marker Substances 0.000 claims description 8
- 239000002555 ionophore Substances 0.000 claims description 7
- 230000000236 ionophoric effect Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 150000002505 iron Chemical class 0.000 claims description 5
- 238000011179 visual inspection Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000009331 sowing Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000001066 destructive effect Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 31
- 238000003860 storage Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 19
- 230000015654 memory Effects 0.000 description 19
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 241000220317 Rosa Species 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000013500 data storage Methods 0.000 description 10
- 239000000843 powder Substances 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 108700028369 Alleles Proteins 0.000 description 6
- 241000885593 Geisha Species 0.000 description 6
- 239000003086 colorant Substances 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000010369 molecular cloning Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 241000218922 Magnoliophyta Species 0.000 description 5
- 244000018633 Prunus armeniaca Species 0.000 description 5
- 235000009827 Prunus armeniaca Nutrition 0.000 description 5
- 108020004414 DNA Proteins 0.000 description 4
- 244000178870 Lavandula angustifolia Species 0.000 description 4
- 235000010663 Lavandula angustifolia Nutrition 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000009395 breeding Methods 0.000 description 4
- 230000001488 breeding effect Effects 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 239000006071 cream Substances 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 4
- 230000035784 germination Effects 0.000 description 4
- 239000001102 lavandula vera Substances 0.000 description 4
- 235000018219 lavender Nutrition 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000000704 physical effect Effects 0.000 description 4
- 241000167854 Bourreria succulenta Species 0.000 description 3
- 108020004511 Recombinant DNA Proteins 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 235000019693 cherries Nutrition 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000012297 crystallization seed Substances 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000001850 reproductive effect Effects 0.000 description 3
- 230000035040 seed growth Effects 0.000 description 3
- 244000105975 Antidesma platyphyllum Species 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- UQSXHKLRYXJYBZ-UHFFFAOYSA-N Iron oxide Chemical compound [Fe]=O UQSXHKLRYXJYBZ-UHFFFAOYSA-N 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 210000004102 animal cell Anatomy 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 210000002257 embryonic structure Anatomy 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 235000009424 haa Nutrition 0.000 description 2
- 210000001822 immobilized cell Anatomy 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000007899 nucleic acid hybridization Methods 0.000 description 2
- 238000002515 oligonucleotide synthesis Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012514 protein characterization Methods 0.000 description 2
- 238000001742 protein purification Methods 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- -1 steps Substances 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- MCSXGCZMEPXKIW-UHFFFAOYSA-N 3-hydroxy-4-[(4-methyl-2-nitrophenyl)diazenyl]-N-(3-nitrophenyl)naphthalene-2-carboxamide Chemical compound Cc1ccc(N=Nc2c(O)c(cc3ccccc23)C(=O)Nc2cccc(c2)[N+]([O-])=O)c(c1)[N+]([O-])=O MCSXGCZMEPXKIW-UHFFFAOYSA-N 0.000 description 1
- 241000219193 Brassicaceae Species 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 108700005090 Lethal Genes Proteins 0.000 description 1
- 241000220257 Matthiola Species 0.000 description 1
- 244000062730 Melissa officinalis Species 0.000 description 1
- 235000010654 Melissa officinalis Nutrition 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 244000242564 Osmanthus fragrans Species 0.000 description 1
- 235000019083 Osmanthus fragrans Nutrition 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000009658 destructive testing Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000009661 flower growth Effects 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 238000003018 immunoassay Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- YOBAEOGBNPPUQV-UHFFFAOYSA-N iron;trihydrate Chemical compound O.O.O.[Fe].[Fe] YOBAEOGBNPPUQV-UHFFFAOYSA-N 0.000 description 1
- 239000000865 liniment Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 238000003976 plant breeding Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000007226 seed germination Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
基于单花/双花表型,公开了用于分选紫罗兰属种子的系统。还公开了分选种子的集合。
Description
相关申请
本申请要求于2021年6月16日提交的美国专利申请第63/211,029号的优先权和于2021年6月16日提交的荷兰专利申请第2028466号的优先权,其内容通过引用整体并入本文。
发明技术领域和背景
本发明,在其一些实施方式中,涉及区分紫罗兰属(Matthiola)种子的单花表型和双花表型的方法,更具体地,但不排他地,涉及紫罗兰(Matthiola incana)种子。
紫罗兰属于十字花科,是紫罗兰属的一种开花植物。常见名称包括布朗普顿紫罗兰(Brompton stock)、普通紫罗兰(common stock)、紫罗兰(hoary stock)、十周紫罗兰(ten-week stock)和草桂花(gilly-flower)。
紫罗兰花在夏季被广泛用作观赏植物,并且在全年被用作切花或芳香植物。花可以是简单的或饱满的、中等的或大的。有许多不同花色的紫罗兰品种,包括白色、黄色、粉色、玫瑰色、红色、海洋色、蓝色、紫色。
紫罗兰种子有两种花表型:双花和单花。双花品种是一种重要的观赏植物,在商业上比单花品种更有优势,但是是不育的。由于没有生殖器官,这些双花不产生种子,因为生殖器官已经被花瓣替代。
因此,它们必须由单花植物的种子产生。双花形式是由纯合条件下的隐性基因变异(等位基因)引起的。因此,根据孟德尔遗传规律,杂合的单花紫罗兰在其后代中应产生四分之一的双花,而三分之一单花应是无法投双花的纯育种单花。
几个世纪以来的选育大大提高了这些比率,产生了所谓的“单瓣常芽变的(ever-sporting)”紫罗兰,其中没有纯育种单花,双花的比例为二分之一或更多。在这些品种中,单一等位基因(singleness allele)与花粉致死基因密切相关。因此,花粉(雄性)对种子的贡献总是双重等位基因(doubleness allele),而雌性贡献是双重或单一等位基因。这种连锁(linkage)的结果是,如果假设不发生染色体交叉/重组,则以50:50的比率产生双花和单花,并且不存在纯育种单花。然而,通常已知交叉/重组以1%或更低的频率发生。
此外,许多现代菌株产生甚至更高比例的双花:60%或甚至92%。这是由于进一步连锁(linked)的生存力效应的世代选择,相对于纯合的双花,产生了更高死亡率的杂合的单花。
紫罗兰的双花性状(trait)对应于s位点。负责双花的基因已经被鉴定出来,DNA标记也已经被开发出。然而,使用这些DNA标记在种子或幼苗中选择单花或双花个体是极其劳动密集型和昂贵的,并且没有提供任何机会为单花或双花植物选择更大量的种子或幼苗。
在紫罗兰(其表现出双花植物)中,不同的品种组可以根据其遗传背景和形态特征彼此区分开来。这些品种中有许多具有特定的形态特征,可用于选择双花植物。为了获得双花植物,育种者和繁殖者依赖于双花与形态性状(例如子叶形状、子叶颜色、锯齿叶、发芽速度、种子颜色和叶颜色)的相关性。然而,这种形式的选择可能是极度劳动密集型的,并且在某些情况下确实需要高技能的劳动力。
背景技术包括WO 2019/106641、WO 2019/106638和WO 2019/106639。
发明内容
根据本发明的一个方面,提供了一种用于分选(sort)紫罗兰属种子的系统,包括:
至少一硬件处理器,执行代码用于:
将至少一图像输入(feed)到至少一神经网络中,所述至少一图像描绘具有统计上相似的可提取的至少一视觉特征的多个紫罗兰属种子,所述至少一图像由至少一成像传感器捕获,
其中,从所述多个紫罗兰属种子中的一个种子的图像提取的所述至少一视觉特征在统计学上类似于从所述多个紫罗兰属种子中的另一个紫罗兰属种子的另一图像提取的对应的至少一视觉特征,
由所述至少一神经网络,对于选自由单花和双花所组成的群组的所述多个紫罗兰属种子中的每一个种子,计算未明确定义视觉特征的一个分类类别的指示(indication),
其中,所述至少一个分类类别的指示至少根据所述至少一个神经网络的权重来计算,
其中,所述至少一神经网络将具有相似的可提取的至少一视觉特征的所述多个紫罗兰属种子分类为选自由以下所组成的群组的一个分类类别:未明确定义视觉特征的单花和双花,
其中,使用训练数据集训练所述至少一神经网络,所述训练数据集包括由所述至少一成像传感器捕获的、具有统计上相似的可提取的至少一个视觉特征的多个种子的多个训练图像,每个训练图像的每个紫罗兰属种子标记有相应的分类类别,所述分类类别的视觉特征未被明确定义,所述分类类别选自由以下所组成的群组:单花和双花;和
根据选自由单花和双花所组成的群组中的至少一分类类别的指示,生成用于由自动分选装置的分选控制器执行的指令,用于对紫罗兰属种子进行自动分选。
根据本发明的一个方面,提供了一种用于对紫罗兰属种子进行分类的系统,包括:
至少一硬件处理器,执行代码用于:
将至少一图像输入到至少一神经网络中,所述至少一图像描绘具有统计上相似的可提取的至少一视觉特征的多个紫罗兰属种子,所述至少一图像由至少一成像传感器捕获,
其中,从所述多个紫罗兰属种子中的一个种子的图像提取的至少一视觉特征,在统计学上类似于从所述多个紫罗兰属种子中的另一个紫罗兰属种子的另一图像提取的对应的至少一视觉特征;和
由所述至少一神经网络为选自由单花和双花所组成的群组的所述多个紫罗兰属种子中的每一个计算未明确定义视觉特征的一个分类类别的指示,
其中,至少根据所述至少一神经网络的权重来计算至少一个分类类别的指示,
其中,所述至少一神经网络将具有相似的可提取的至少一视觉特征的所述多个紫罗兰属种子分类为选自由以下所组成的群组的一个分类类别:未明确定义视觉特征的单花和双花,和
其中,使用训练数据集训练所述至少一神经网络,所述训练数据集包括由所述至少一成像传感器捕获的多个紫罗兰属种子的多个训练图像,所述多个紫罗兰属种子具有统计上相似的可提取的至少一视觉特征,每个训练图像的每个紫罗兰属种子标记有相应的分类类别,所述分类类别的视觉特征未被明确地定义,所述分类类别选自由以下所组成的群组:单花和双花。
根据本发明的一个方面,提供了一种用于训练至少一个神经网络以用于对其分选的紫罗兰属种子进行分类的装置,包括:
至少一硬件处理器,执行代码用于:
访问多个紫罗兰属种子的多个训练图像,所述多个紫罗兰属种子具有由至少一个成像传感器捕获的统计上相似的可提取的至少一视觉特征,
其中,从所述多个紫罗兰属种子中的一个种子的图像提取的所述至少一视觉特征,在统计学上类似于从所述多个紫罗兰属种子中的另一个紫罗兰属种子的另一图像提取的对应的至少一视觉特征;
通过用相应的分类类别来标记每个训练图像的每个紫罗兰属种子来创建训练数据集,所述分类类别的视觉特征未被明确定义,所述未被明确定义的视觉特征选自由以下所组成的群组:单花和双花,
其中每个标记是通过在所述至少一成像传感器捕获所述紫罗兰属种子的所述相应训练图像之后种植(growing)所述相应紫罗兰属种子直到所述单花或双花在视觉上存在后来确定;和
使用训练数据集训练至少一神经网络,所述至少一神经网络被训练用于生成响应于由至少一成像传感器捕获的描绘至少一种子的至少一目标图像的输入来生成一个分类类别的指示的结果,所述分类类别视觉特征未被明确定义,选自由以下所组成的群组:单花和双花,
其中,所述至少一个目标图像的至少一个分类类别的所述指示至少根据所述至少一经训练的神经网络的权重计算,
其中,所述至少一神经网络将具有相似的可提取的至少一视觉特征的所述多个紫罗兰属种子分类为一个分类类别,所述分类类别选自由以下所组成的群组:单花和双花,所述分类类别的视觉特征未被明确定义。
根据本发明的一个方面,提供了一种包含多个紫罗兰属种子的容器,其中,至少90%的种子是双花种子,并且其中所述多个紫罗兰属种子包含超过100种子。
根据本发明的一个方面,提供了一种包含多个紫罗兰属种子的容器,其中,至少90%的种子是单花种子,并且其中所述多个紫罗兰属种子包含超过100种子。
根据本发明的一个方面,提供了一种种植作物的方法,包括播种(seeding)本文所述的容器的种子,从而种植所述作物。
根据本发明的一个方面,提供了一种对紫罗兰属种子进行分类的方法,包括:种植未分类的紫罗兰属种子;捕获所述紫罗兰属种子的至少一图像;并根据输入有所述至少一图像的经训练的神经网络模型的结果,将相应的紫罗兰属种子分类为从多个分类类别中选择的特定分类类别。
根据本发明的另一方面,提供了一种对紫罗兰属种子进行分类的方法,包括:
捕获所述紫罗兰属种子的至少一个图像;和
根据输入有至少一个图像的经训练的神经网络模型的结果,将相应的紫罗兰属种子分类为从多个分类类别中选择的特定分类类别。
根据本发明的实施方式,从所述至少一个图像中描绘的所述多个紫罗兰属种子提取的视觉特征包括仅统计上相似的可提取的特征,并且排除非统计上相似的可提取的视觉特征。
根据本发明的实施方式,从所述至少一图像中描绘的所述多个紫罗兰属种子中提取的非统计上相似的视觉特征,与从由单花和双花所组成的群组中选择的所述至少一神经网络的所述分类类别结果不相关。
根据本发明的实施方式,从所述至少一图像中描绘的所述多个紫罗兰属种子中提取的所述非统计上相似的视觉特征包括分段视觉标记(segmented visual marker),所述分段视觉标记与从由单花和双花所组成的群组中选择的所述分类类别不相关。
根据本发明的实施方式,所述相似的可提取的至少一视觉特征选自由以下所组成的群组:手工制作的特征、所述至少一种子的至少一尺寸维度、所述至少一种子的颜色、所述至少一种子的形状、所述至少一种子的纹理(texture)、所述至少一种子的估计测量值和分段视觉标记。
根据本发明的实施方式,所述至少一个分类类别包括不能基于视觉检查所述至少一种子而手动确定的非视觉类别。
根据本发明的实施方式,所述紫罗兰属种子属于Matthiola incana。
根据本发明的实施方式,所述紫罗兰种子属于Iron系列。
根据本发明的实施方式,所述至少一个分类类别是通过破坏性测试来确定的,所述破坏性测试是在所述至少一成像传感器捕获所述紫罗兰属种子的相应训练图像之后破坏所述相应的紫罗兰属种子。
根据本发明的实施方式,所述标记至少一个分类类别是通过在所述至少一成像传感器捕获所述紫罗兰属种子的所述相应训练图像之后种植所述相应种子直到所述单花或双花在视觉上存在来确定。
根据本发明的实施方式,所述成像传感器选自由以下所组成的群组:RGB、多光谱(multispectral)、高光谱(hyperspectral)、可见光频率范围、近红外(NIR)频率范围、红外(IR)频率范围和上述的组合。
根据本发明的实施方式,所述包括至少一紫罗兰属种子的所述至少一图像包括从包括多个紫罗兰属种子的图像中分割(segmented)出来的单个紫罗兰属种子的单个图像。
根据本发明的实施方式,所述至少一神经网络计算所述至少一图像的嵌入(embedding),并且其中根据来自存储训练图像的嵌入的所述训练数据集中识别的至少一相似嵌入图像的注释来确定所述至少一个分类类别,根据所述至少一图像的嵌入和所述训练图像的嵌入之间的相似性距离的要求来识别所述至少一相似嵌入图像。并且至少一成员(member)选自由以下所组成的群组:(i)其中所述嵌入由经训练的至少一个被选为嵌入层的神经网络的内层来计算,(ii)其中将所述嵌入存储为预定长度的向量(vector),其中将所述相似性距离计算为存储所述至少一图像的所述嵌入的向量与多个向量之间的距离,所述多个向量中的每一个向量存储相应训练图像的嵌入,和(iii)其中,计算所述至少一图像的所述嵌入和多个训练图像的嵌入聚类(cluster)之间的所述相似性距离,所述多个训练图像中的每一个训练图像与相同的至少一个分类类别相关联。
根据本发明的实施方式,所述至少一个图像包括多个紫罗兰属种子的多个图像,并且还包括用于根据相应的分类类别对所述多个图像进行聚类(clustering)的代码,其中,由所述分选控制器执行的所述指令包括用于根据相应的分类类别对与所述多个图像相对应的所述紫罗兰属种子进行分选的指令,其中,根据分类类别的目标比率和/或目标统计分布来执行所述聚类,其中,所述聚类的成员根据所述目标比率排列,根据所述紫罗兰属种子的样品的DNA分析或根据所述紫罗兰属种子的所述样品的种植和生长的生长结果来计算分类类别的所述目标比率。
根据本发明的实施方式,不同分类类别的所述聚类是为选自由以下所组成的群组的至少一个成员创建的:(i)紫罗兰属种子生长在相同的环境条件下,(ii)紫罗兰属种子生长在相同的生长季节,(iii)紫罗兰属种子生长在相同的地理位置,和(iv)在容差范围(tolerance range)内具有相同物理参数的紫罗兰属种子。
根据本发明的实施方式,为提取所述至少一视觉特征而训练的基于非神经网络的统计分类器将具有相似的可提取的至少一视觉特征的所述多个紫罗兰属种子分类为视觉特征被明确定义的相同分类类别中。
根据本发明的实施方式,所述至少一个图像包括不同分类类别的多个紫罗兰属种子的多个图像,其中,所述至少一神经网络为所述多个图像中的每一个图像计算嵌入,其中,所述多个图像的所述嵌入通过聚类代码进行聚类,并且其中,由所述分选控制器执行的所述指令包括用于根据相应的聚类对所述紫罗兰属种子进行分选的指令。
根据本发明的实施方式,根据从由以下所组成的群组中选择的至少一个成员来计算所述聚类:
(i)使得每个相应聚类的每个嵌入的图像成员与另一个聚类相距至少阈值距离,和
(ii)其中,计算所述聚类,使得每个相应聚类的每个嵌入的图像成员与同一相应聚类的每个其它成员的距离小于阈值距离。
根据本发明的实施方式,在同一聚类的嵌入之间计算的聚类内距离小于在不同聚类的嵌入之间计算的聚类间距离。
根据本发明的实施方式,对应于来自以下至少之一的距离阈值之上的嵌入的紫罗兰属种子:另一嵌入、聚类以及在所述聚类的中心内,这些对应的该紫罗兰属种子被表示为具有某种颜色,并且被聚类到某种颜色聚类,其中,根据分配给表示为具有某种颜色的所述紫罗兰属种子的嵌入邻近的至少两个聚类和/或至少两个图像嵌入的分类类别聚类,将表示为具有某种颜色的紫罗兰属种子分配给新的分类类别,或者分配给现有类别的新的子分类类别,其中根据到所述被表示为具有某种颜色的所述紫罗兰属种子的所述嵌入邻近的至少两个聚类和/或至少两个图像嵌入的相对距离来计算新的分类类别或现有类别的新的子分类。
根据本发明的实施方式,为每个聚类计算至少一统计值,并且其中,当某个种子的图像的嵌入在统计上不同于所有其它聚类时,将某个紫罗兰属种子表示为有缺陷的。
根据本发明的实施方式,为每个聚类计算至少一统计值,并且其中,当所述某个种子的所述图像的所述嵌入在统计上与所述某个聚类的至少一统计值相似时,将某个种子分配给某个聚类的某个分类类别。
根据本发明的实施方式,所述系统还包括代码,用于以下操作:
提供目标紫罗兰属种子的图像,通过所述至少一神经网络计算所述目标紫罗兰属种子的嵌入,和
根据位于距离所述目标紫罗兰属种子的所述嵌入小于目标距离阈值的图像嵌入来选择多个图像嵌入的子集,其中由所述分选控制器执行的所述指令包括用于选择与所述多个图像嵌入的所述子集相对应的紫罗兰属种子的指令。
根据本发明的实施方式,所述系统还包括代码,用于以下操作:
提供目标紫罗兰属种子的图像,通过所述至少一神经网络计算所述目标紫罗兰属种子的嵌入,和
对所述多个图像嵌入和所述目标紫罗兰属种子的所述嵌入进行聚类,并且选择包括所述目标紫罗兰属种子的所述嵌入的聚类,其中由所述分选控制器执行的所述指令包括用于选择与所选择的聚类相对应的紫罗兰属种子的指令。
根据本发明的实施方式,对紫罗兰属种子的所述自动分选包括丢弃(discarding)所述单花紫罗兰属种子。
根据本发明的实施方式,所述多个种子的重量超过10克。
根据本发明的实施方式,所述紫罗兰属种子属于紫罗兰种类(Matthiolaincana)。
根据本发明的实施方式,所述紫罗兰种子属于铁系列(Iron series)。
根据本发明的实施方式,提供了一种通过种植被分类为特定分类类别的紫罗兰属种子来生成紫罗兰属幼苗(seedling)的方法。
根据本发明的实施方式,提供了一种通过种植被分类为所述特定分类类别的所述紫罗兰属种子来生成植株(plant generation)的方法。
根据本发明的实施方式,提供了一种通过种植被分类为特定分类类别的所述紫罗兰属种子并在种植时切割植株来种植紫罗兰属植株的切段的方法。
根据本发明的实施方式,提供了一种通过种植被分类为所述特定分类类别的所述紫罗兰属种子来生产紫罗兰属幼苗的方法。
根据本发明的实施方式,提供了一种包含多个紫罗兰属幼苗的容器,其中至少目标百分比的幼苗是特定分类类别的。
根据本发明的实施方式,提供了一种生产多个紫罗兰属幼苗的容器的方法,包括种植被分类为所述特定分类类别的所述紫罗兰属种子,并将所述紫罗兰属幼苗放入所述容器中。
除非另有限定,否则本文中使用的所有技术和/或科学术语具有与本发明所属领域的普通技术人员通常理解的含义相同的含义。尽管可以在本发明的实施方式的实践或测试中使用与本文描述的那些类似或等同的方法和材料,但是下面描述了示例性方法和/或材料。如有冲突,以专利说明书(包括限定)为准。此外,这些材料、方法和实施例仅是说明性的,并不意味着必须是限制性的。
附图的几个视图的简要说明
本文仅通过示例的方式参考附图描述了本发明的一些实施方式。现在详细地具体参考附图,需要强调的是,所示的细节是示例性的,并且是为了说明性地讨论本发明的实施方式。在这点上,结合附图所作的描述使得本领域技术人员清楚如何实施本发明的实施方式。
在附图中:
图1是根据本发明的一些实施方式,用于根据种子的图像对种子进行分选的过程的流程图;
图2是根据本发明的一些实施方式,用于根据种子的图像对种子进行分类(classifying)和/或聚类(clustering),和/或用于对种子的图像进行分类和/或聚类训练神经网络的系统的组件的方框图;
图3是根据本发明的一些实施方式,用于根据种子的图像对计算分类类别和/或嵌入训练一个或多个神经网络的过程的流程图;
图4A-4E是根据本发明的一些实施方式,基于参照图1和/或3描述的方法,参照图2描述的系统200的组件执行的示例性数据流的数据流图;
图5是根据本发明的一些实施方式,产生将紫罗兰属种子描绘为单花或双花的图像的神经网络的高级过程的流程图;和
图6包括根据本发明的一些实施方式,单花和双花类型的紫罗兰属种子和相应的生长植物的图像。
具体实施方式
本发明,在其一些实施方式中,涉及区分紫罗兰属种子的单花表型和双花表型的方法,更具体地,但不排他地,涉及紫罗兰种子。
在详细解释本发明的至少一个实施方式之前,应当理解的是,本发明在其应用中不一定局限于在下面的描述中阐述的和/或附图和/或实施例中所示的组件和/或方法的构造和布置的细节。本发明能够有其他实施方式,或者能够以各种方式实践或执行。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或介质)。
计算机可读存储介质可以是能够保留和存储指令以供指令执行设备使用的的有形设备。计算机可读存储介质可以是,例如,但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备,或前述设备的任何合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括:便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)、记忆棒、软盘和上述各项的任何合适的组合。本文使用的计算机可读存储介质本身不应被解释为瞬变信号,例如无线电波或其它自由传播的电磁波、通过波导或其它传输介质传播的电磁波(例如,通过光纤电缆的光脉冲),或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络(例如因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并将计算机可读程序指令转发到相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集体系结构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据,或者是用一种或多种编程语言的任意组合编写的源代码或目标代码,包括面向对象的编程语言,例如Smalltalk、C++等,以及常规的编程语言,例如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全在用户计算机上执行,部分在用户的计算机上执行,作为独立的软件包,部分在用户计算机上执行,部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者连接到外部计算机(例如,通过使用因特网服务提供商的因特网)。在一些实施方式中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来个性化电子电路来执行计算机可读程序指令,以便执行本发明的各方面。
本文参考根据本发明实施方式的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述本发明的各个方面。应当理解,流程图和/或方框图的每个框以及流程图和/或方框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器,使得经由计算机或其它可编程数据处理设备的处理器执行的指令创建用于实现流程图和/或方框图块中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,所述计算机可读存储介质可以引导计算机、可编程数据处理设备和/或其它设备以特定方式运行,使得其中存储有指令的计算机可读存储介质包括制品,所述制品包括实现在流程图和/或方框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其它可编程数据处理装置或其它设备上,以使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤,从而产生计算机实现的过程,使得在计算机、其它可编程装置或其它设备上执行的指令实现在流程图和/或方框图的一个或多个框中指定的功能/动作。
附图中的流程图和方框图示出了根据本发明的各种实施方式的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。在这点上,流程图或方框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定逻辑功能的一个或多个可执行指令。在一些替换实现方式中,在框中所标注的功能可以不按图中所标注的顺序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还应注意,方框图和/或流程图图示的每个框,以及方框图和/或流程图图示中的框的组合,可以由基于专用硬件的系统来实现,该系统执行指定的功能或动作或者执行专用硬件和计算机指令的组合。
传统的植物育种和选择技术已经鉴定出紫罗兰属品种(variety),其中双花表型和单花表型比例为50:50。此外,许多现代菌株产生双花(doubles)的比例甚至更高-高达约92%。
在将本发明付诸实践的同时,本发明人现在已经发现,可以使用机器学习算法根据单花/双花表型对紫罗兰种子进行分选。
如下文和以下实施例部分所示,本发明人展示了代表不同遗传背景和不同花色的不同品种的紫罗兰种子,可以根据它们的开花表型以非常高的准确度进行分选。
本发明的一些实施方式的一个方面涉及用于将紫罗兰属种子自动分类成单花分类类别或双花分类类别,并且可选地根据分类自动分选紫罗兰种子的系统、方法、设备和/或代码指令。种子的分类可以指将紫罗兰属种子的图像嵌入(例如,从神经网络的隐藏层提取)聚类成单花和双花的簇。将包括一个或多个种子的每一图像输入一个或多个神经网络。可选地,对图像进行分割,使得每一图像包括单一种子。神经网络至少根据训练的神经网络的权重和/或结构,为图像中描绘的每个紫罗兰属种子计算分类的指示,即,单花或双花。在一些方式中,传统特征(例如基于种子的一或多个物理特性的视觉特征)没有被明确地定义以用于由本文所述的神经网络进行提取。这种传统(例如视觉的)特征可以在训练期间由神经网络以隐含方式自动识别,例如,由神经网络的权值和/或架构所隐含。但是,神经网络没有被明确地编程以用来明确提取定义的视觉特征。相比之下,这些传统特征被明确地定义并通过非神经网络统计分类器(例如,线性分类器、支持向量机、K-近邻算法和决策树)从图像中提取出来的。即使当在现有方法中使用神经网络时,用于训练神经网络的种子的图像和输入神经网络中用于推断的种子的图像在其中具有不同的视觉指示,例如,由于插入种子中的DNA标记,种子的不同区域被着色。基于由非神经网络统计分类器从种子的图像中提取的种子的一或多个物理特性的视觉特征的示例,包括手工制作的特征、种子的尺寸维度、种子的颜色、种子的形状、种子的纹理、上述特征的组合等。当种子在视觉上相似和/或具有相似的物理特征时,训练后的非神经网络统计分类器不能单独根据提取的明确定义的视觉特征计算具有统计显著性的种子的分类类别(即,单花或双花)(即,非神经网络计算具有统计不显著性的分类类别,例如,指示由非神经网络统计分类器执行的分类结果的准确度的概率低于预定阈值(例如,低于约20%、或50%、或70%、或90%,或其他值),例如,由于分类的不准确性,实际上与种子的物理分选不相关)。例如,当图像包括两个或更多个在视觉和/或物理上彼此非常相似的种子时,本文描述的经训练的神经网络能够根据经训练的神经网络的神经元的权重将种子的图像分类(具有统计显著性,例如,高于阈值)到不同的分类类别(即,单花/双花)中。相反,经过训练的非神经网络统计分类器不能基于所提取的视觉特征将种子的图像分类到这两个具有统计显著性的不同分类类别中。例如,非神经网络统计分类器可以根据提取的多个视觉特征将种子的图像分类为相同的分类类别。当种子在视觉和/或物理上相似时,从一种子的一图像中提取的视觉特征与从另一种子的另一图像中提取的相应的视觉特征在统计上相似(例如,在容差阈值内)。例如,种子具有相同的大小和/或相同的颜色和/或相同的纹理。由本文描述的经训练的神经网络执行的分类至少是根据单花和双花这两个分类类别来进行的,所述分类类别表示未明确定义其视觉特征的种子之间的差异。值得注意的是,在一些实现方式中,神经网络可以提取和使用这些传统视觉特征以及非传统的甚至是未解释的特殊特征。这样的非传统和未解释的特殊特征是由神经网络自动学习的,但是不能由非神经网络统计分类器学习和/或提取。可以根据计算的分类类别的指示来创建用于由自动分选装置的分选控制器执行的指令。例如,根据分类类别单花和双花对紫罗兰属种子进行分选,以使相同分选聚类的种子具有相同的分类类别。
与提取明确定义的视觉特征的非神经网络统计分类器相比,本文描述的神经网络以相对较高的精度和/或较高的统计确定性来计算单花和双花的分类类别。
与基于提取明确定义的视觉特征的非神经网络统计分类器相比,根据基于本文描述的神经网络的输出的聚类和/或嵌入对种子进行分选,具有相对更高的准确性和/或更高的统计确定性。
发明人发现,在对人类和/或提取明确定义的视觉特征(例如大小、形状、颜色、纹理)的非神经网络统计分类器在视觉和/或物理上无法区分的种子图像上训练的神经网络,能够根据预测的分类类别,即单花和双花,区分种子图像(例如,计算其分类类别和/或创建聚类)。发明人发现,在训练期间,神经网络自动计算其权重,这使神经网络能够自动学习和/或发现先前未知的特征和/或不一定与种子的视觉和/或物理特性直接相关的特征。这种非神经网络统计分类器所无法达成的自动发现的特征使神经网络能够区分视觉上和/或物理上相似的种子图像。下面的“实施例”部分提供了发明人发现的实验支持。
可选地,图像包括在容差范围内彼此不同的多个种子,所述单一特征不是由种子在视觉和/或物理上明确表达的单一特征,即,单花或双花的预测表型。单一特征不能仅根据非神经网络统计分类器提取的视觉特征进行提取。对于在视觉和/或物理上相似的种子,非神经网络统计分类器将多个种子的图像分类到同一个分类类别中,和/或者无法将种子的图像分类(例如,输出误差或统计上不重要的类别,因为不能仅通过至少一视觉特征来提取单一特征)。根据神经网络输出的分类类别和/或嵌入,对多个种子图像进行聚类(clustered)。根据聚类生成用于分选的指令,以根据聚类对种子进行分选。
可选地,从描绘紫罗兰属种子的图像中提取(或可提取)的视觉特征仅包括统计学上相似的可提取特征,例如,紫罗兰属种子具有统计学上相似的形状、颜色和大小。可选地,从描绘紫罗兰属种子的图像中提取(或可提取)的视觉特征排除非统计学上相似的可提取视觉特征,例如,紫罗兰属种子在诸如大小、形状和颜色的特征方面彼此之间没有显著差异。
可选地,从多个所描绘的紫罗兰属种子图像中提取的非统计上相似的视觉特征(即,统计上不同的视觉特征)与单花和双花的分类类别不相关。非统计上相似的视觉特征可以包括与单花和双花不相关的分段视觉标记。例如,紫罗兰属种子可以具有不同的颜色、形状和/或大小,其中颜色、形状和/或大小与种子是单花还是双花表型不相关。在另一个示例中,紫罗兰属种子没有经遗传工程处理,以显示与单花或双花表型连锁的可分割的视觉标记,从而能够在视觉上区分单花或双花。例如,紫罗兰属种子没有经遗传工程化处理,以显示一彩色区域(其在视觉上可从图像中分割)用于单花,而另一彩色区域具有不同的颜色用于双花。由于没有使用与单花或双花表型相关的这种视觉标记,因此不能从图像中提取这种视觉标记并将其用于分类。
可选地,种子不能根据人工视觉观察和/或基于视觉特征(如大小和颜色)来区分。
根据特定实施方式,从多个紫罗兰属种子提取的视觉特征不是基于种子的颜色(例如,在不计算色调和/或不使用不同颜色通道的情况下提取)。因此,例如,进行提取时,两个不同批次的种子的颜色在统计学上相似。
可选地,通过种植种子,等待生长充分地发生,以区分单花或双花生长的可见特征,从而将种子彼此区分开来。
可选地,这些种子不能由非神经网络统计分类器仅根据基于物理特征的提取的视觉特征来区分种子,例如,大小、颜色、纹理、手绘特征、形状,以及可分割的视觉标记,例如由于在单花和双花种子中触发不同视觉标记的基因工程DNA序列。可选地,这些种子在相同(或类似)的环境条件下生长,例如在相同的生长季节、在相同的地理位置(例如相同的田地、相同的温室)和/或相同的温度下生长。
可选地,对应于这些种子的图像根据分类类别分类,该分类类别是在训练神经网络的训练阶段中确定的。训练是使用完整的(最好是可行的)训练种子的图像进行的。种植种子,直到有足够的生长以能够区分单花和双花。种子(即,在种植之前)的图像随后被标记上单花或双花的指示。在单花和双花标记的紫罗兰属种子图像上训练神经网络。通过在训练种子的图像上训练的训练神经网络,种子的新图像被分类为单花和双花,这允许从图像确定单花和双花,而无需事先规划种子。
本文描述的系统、方法、设备和/或代码指令中的至少一些解决了将紫罗兰属种子分选成双花表型或单花表型的技术问题。通常,双花表型是理想的,而单花则是不理想的。根据双花和单花表型分离日本和欧洲紫罗兰品种的紫罗兰属种子的当前实践是在苗圃种子发芽后手动进行的,这是容易出错的,或者在田间通过种植种子直到达到开花期。这样的现有方法是耗时的、劳动密集型的,并且不是成本有效的任务。本文描述的系统、方法、设备和/或代码指令中的至少一些解决了上述技术问题,和/或通过在种子发芽之前和开花期之前使用紫罗兰属种子的图像,并且在不种植种子的情况下,改进了基于开花期的发芽种子和/或种植种子的现有手动分选过程。将紫罗兰属种子的图像输入在紫罗兰属种子的标记图像上训练的神经网络中,其单花或双花表型未知,并且不能使用现有方法确定,因为种子尚未发芽、尚未种植,且未达到开花期。神经网络推断图像中描述的种子的单花或双花的分类类别,可选地仅从图像中推断,而不需要种子发芽和/或种植种子以达到开花期。发明人发现,在紫罗兰属种子的标记图像上训练的神经网络能够在紫罗兰属种子的新图像上准确地推断单花或双开表型,对于这些新图像,单花或双花表型是未知的,并且不能使用手动方法确定(即,当种子发芽前且未种植时,并且不表示开花期)。
本文描述的系统、方法、设备和/或代码指令中的至少一些改进了种子自动分选的技术领域。传统的种子分选机器是根据种子的物理性质来分类的,例如,根据重量对种子进行分选的重力台。基于光学方法的分选机器仍然依赖于基于物理特性的种子的视觉特性,例如,大小、颜色、形状和纹理。传统的分选机器可以通过去除污垢、异物、破碎的种子和畸形的种子,间接地确保种子的物理性质(如大小、形状、颜色)均匀。传统的分选机器都不会分析种子以将其分类为单花或双花。
本文描述的系统、方法、设备和/或代码指令中的至少一些改进了种子的自动分类和/或自动分选的技术领域。自动分类和/或自动分选不是基于将现有的手动过程简单编码到计算器上。进一步地,本文描述的系统、方法、设备和/或代码指令中的至少一些基于本文描述的经训练的神经网络代码将主观方法转变为客观的、可再现的方法。发明人开发了新的步骤,这些步骤以前在手动过程中不存在,并且在手动过程中没有对应的步骤,即训练神经网络代码和/或执行经训练的神经网络代码以自动分类和/或聚类种子的图像。至少本文描述的经训练的神经网络代码提供了客观的、可再现的分类和/或聚类结果,这是使用标准手动过程无法获得的。此外,如本文所述,如果种子在视觉上无法由用户区分的情况下,本文描述的自动化过程能够执行不能手动进行的分类和/或聚类。
术语“种子”是指紫罗兰属开花植物的种子,它是完全独立的繁殖单元(reproductive unit)。种子通常由来自有性受精或通过无性种子繁殖(无融合生殖)产生的合子胚胎、营养物质贮存储备(称为子叶、胚乳或大配子体的结构中),以及包含贮存储备和胚胎的保护性种皮组成。
进行根据本发明的实施方式进行分类的紫罗兰属种子通常是有存活能力的-即能够发芽,尽管在一些情况下也考虑了无存活能力种子的分类,如下文进一步描述的。
根据一个具体的实施方式,种子是紫罗兰种类的种子。
紫罗兰种子可以具有任何品种和任何遗传背景,例如铁系列(Iron series);品种铁玫瑰粉(variety Iron Rose Pink)、铁蓝(Iron Blue)、铁深粉(Iron Deep Pink)、铁玫瑰(Iron Rose)、铁白(Iron White)、铁海洋(Iron Marine)、铁紫(Iron Purple)、铁粉(Iron Pink)、铁杏(Iron Apricot)、铁黄(Iron Yellow)、铁樱花(Iron Cherry Blossom);铁早系列(Iron early series);铁早深黄(Iron early Deep Yellow)、铁早玫瑰粉(Ironearly Rose Pink)、铁早粉红(Iron early Pink)、铁早海(Iron early Marine)、铁早白(Iron early White);四重奏系列(Quartet series);四重杏改良(Quartet Apricotimproved)、四重樱花(Quartet Cherry Blossom)、四重紫(Quartet Purple)、四重蓝(Quartet Blue)、四重白(Quartet White)、四重海洋(Quartet Marine)、四重玫瑰(Quartet Rose)、四重红II(Quartet Red II);Centum系列;Centum深蓝(Centum DeepBlue)、Centum奶油(Centum Cream);新歌舞伎系列(New Kabuki series);新歌舞伎深薰衣草(New Kabuki Dark Lavender)、新歌舞伎玫瑰粉(New Kabuki Rose Pink);凯斯系列(Katz series);凯斯白(Katz White)、凯斯深红(Katz Crimson)、凯斯蓝(Katz Blue);艾达系列(Aida series);艾达白(Aida White)、艾达蓝(Aida Blue);Revolution II白、欢快黄(Cheerful Yellow)和箭头白(Arrow White)。
根据一个具体的实施方式,紫罗兰属是干燥的种子。干燥过程的合适条件(温度、相对湿度和时间)将根据种子而变化,并且可以凭经验确定(例如参见,Jeller等人,2003年,同上)。
本发明的紫罗兰属也可以是发芽的种子(primed seed)。
应当理解,本文描述的系统能够将异质群体或种子批次分类,其中一部分具有单花表型,另一部分具有双花表型。神经网络可以计算分类类别,和/或嵌入,和/或执行聚类,用于基于一个或多个以下异质指示对异质群体或种子批次(batch)进行分选,如本文所述。
如本文所用,术语“双花”是指与野生型简单花卉物种的花瓣数量相比,每朵花的花瓣数量增加的特征。在一个具体的实施方式中,术语“双花”是指在花中具有花的特性。双花通常是由雄蕊和心皮转变成花瓣和萼片(septals)而形成的。
如本文所用,术语种子分类有时可以与术语种子聚类互换,例如,当分析多个种子图像时,可以对每一个图像进行分类并用于创建聚类,和/或种子图像可以被嵌入并且可以对嵌入物进行聚类。术语分类类别有时可以与术语嵌入互换,例如,响应于种子的图像,经训练的神经网络的输出可以是一个或多个分类类别,或者是存储计算的嵌入的向量。需要注意的是,分类类别和嵌入可以由同一经训练的神经网络输出,例如,分类类别由神经网络的最后一层输出,嵌入由神经网络的隐藏嵌入层输出。
现在参照图1,图1是根据本发明的一些实施方式,用于根据种子的图像对种子进行分选的过程的流程图。还参考图2,图2是根据本发明的一些实施方式,用于根据种子的图像对种子进行分类和/或聚类,和/或用于对种子的图像进行分类和/或聚类训练神经网络的系统200的组件的方框图。系统200可以基于经训练的神经网络的输出,根据自动分类和/或聚类生成代码指令,在由分选装置控制器201A执行时,使得分选装置210自动对种子进行分选。再参考图3,图3是根据本发明的一些实施方式,用于根据种子的图像对计算分类类别和/或嵌入训练一个或多个神经网络的过程的流程图。系统200可以执行如图1和/或图3所示描述的方法的动作。例如,通过计算装置204的硬件处理器202执行存储在储存器206中的代码206A。
分选装置201被设计为自动、手动和/或半自动地分选种子。分选装置201例如可以被实现为被分选为多个不同桶(bucket)中的单个种子或种子的群组的组装线。在另一个实现方式中,分选装置201可以包括用于存储种子的平台,以及用于选择单个种子进行分选的机械臂。分选装置201可包括用于去除和/或处置某些种子例如不纯种子的机构。
分选装置控制器201A可以实现为例如,集成(integrated)在分选装置201内的硬件处理器、与分选装置201通信的外部计算装置和/或为用户手动和/或半自动操作分选装置201呈现手动指令的外部显示器。
图像传感器212可以安装在分选装置201内和/或与分选装置201一体成型(integrated),例如,通过分选装置201捕获用于分选的种子的图像。图像传感器212可位于外部和/或独立于分选装置201,例如,用于捕获种子的图像以创建用于训练本文描述神经网络的训练图像216。
示例性图像传感器212包括:RGB(红、绿、蓝)、多光谱、高光谱、可见光频率范围、近红外(NIR)频率范围、红外(IR)频率范围和上述组合。
计算装置204可以实现为,例如,客户端终端、虚拟机、服务器、虚拟服务器、计算云、移动设备、台式计算机、瘦客户端、信息亭和移动设备(例如,智能手机、平板电脑、笔记本电脑、可穿戴式电脑、眼镜计算机和手表计算机)。
可以实现基于计算装置204的系统200的多种架构(architecture)。例如:
*计算装置204可以与分选装置201一体成型(即,由控制器201A控制),例如,作为控制台和/或控制单元和/或存储在分选装置201内的指令代码,以供分选装置201的硬件处理器执行(例如,由控制器201A执行)。
*计算装置204可以被实现为包括本地储存的代码指令206A的独立装置(例如,信息亭、客户终端、智能手机、服务器),所述代码指令206A实现参照图1描述的一个或多个动作。计算装置204在分选装置201的外部,并且例如通过网络和/或通过在数据存储装置上储存指令来与分选装置201通信,然后由控制器201A对其进行访问。本地储存的指令可以从另一服务器获得,例如通过在网络上下载代码和/或从便携式储存设备上传代码。
*执行储存代码指令206A的计算装置204可以实现为通过网络210向一个或多个客户端终端218提供服务(例如,参考图1描述的一个或多个动作)的一个或多个服务器(例如,网络服务器、web服务器、计算云、虚拟服务器)。例如,向客户端终端218提供软件即服务(SaaS)、提供使用软件接口(例如,应用程序编程接口(API)、软件开发工具包(SDK))可访问的软件服务、向客户端终端218提供用于本地下载的应用程序、向在客户端终端218上运行的web浏览器提供附加组件,和/或使用远程访问会话向客户端终端218提供功能,例如通过由客户端终端218执行的web浏览器访问由计算装置204托管的网站。每个客户端终端208可以与相应的分选装置和/或分选装置控制器和/或图像传感器212相关联,使得计算装置204根据远程获取的图像集中生成用于在相应远程分选装置处对种子进行分选的指令。
需要注意的是,神经网络的训练和种子图像经训练的神经网络的推断可以由相同的计算装置和/或不同的计算装置来实现,例如,一个计算装置训练神经网络,并将经训练的神经网络传送到充当服务器的另一个计算装置和/或提供经训练的神经网络用于图像推断的本地安装和执行。
计算装置204接收由图像传感器212捕获的种子的图像(本文也称为种子图像)。由图像传感器212捕获的种子图像可以存储在图像存储库214中,例如,计算装置204的数据储存装置222、储存服务器、数据储存装置、计算云、虚拟存储器和硬盘。训练图像216可以基于捕获的种子图像创建,如本文所述。
训练图像216用于训练神经网络,如本文所述。需要注意的是,如本文所述,训练图像216可以由服务器218储存,可以由计算装置204在网络210上访问,例如,为训练神经网络而创建的定制训练数据集。如本文所述,服务器218可以通过执行训练代码206B和使用训练图像216来创建经训练的神经网络。
计算装置204可以使用一或多个成像接口220从图像装置212和/或图像存储库214接收训练图像216和/或种子图像,例如,有线连接(例如,物理端口)、无线连接(例如,天线)、本地总线、用于连接数据储存装置的端口、网络接口卡,其他物理接口实现方式和/或虚拟接口(例如,软件接口、虚拟专用网络(VPN)连接、应用程序编程接口(API)、软件开发工具包(SDK))。
硬件处理器202可以实现为例如中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)和专用集成电路(ASIC)。处理器202可以包括一或多个处理器(同质或异构),其可以被配置为并行处理,作为聚类和/或作为一或多个多核处理单元。
存储器206(本文也称为程序存储器和/或数据存储装置)储存由硬件处理器202执行的代码指令,例如,随机存取存储器(RAM)、只读存储器(ROM)和/或存储装置,例如非易失性存储器、磁介质、半导体存储器装置、硬盘驱动器、可移动存储器和光学介质(如DVD、CD-ROM)。存储器206存储用于实现经训练的神经网络222A的代码指令。存储器206存储实现参照图1描述的方法的一或多个动作和/或特征的图像处理代码206A,和/或执行参照图3描述的方法的一或多个动作的训练代码206B。
计算装置204可以包括用于储存数据的数据储存装置222,例如,一或多个经训练的神经网络222A(如本文所述),和/或训练图像216和/或包括训练图像的训练数据集(如本文所述)。数据存储装置222可以实现为例如存储器、本地硬盘驱动器、可移动存储装置、光盘、存储装置和/或远程服务器和/或计算云(例如,通过网络210访问)。需要注意的是,经训练的神经网络222A和/或训练图像216可以存储在数据存储装置222中,执行部分被加载到存储器206中以由处理器202执行。
计算装置204可以包括用于连接到网络210的数据接口224,可选地为网络接口,例如网络接口卡、连接到无线网络的无线接口、用于连接到用于网络连接的电缆的物理接口、以软件实现的虚拟接口、提供更高层次网络连接的网络通信软件和/或其他实现方式中的一或多个。计算装置204可以使用网络210访问一或多个远程服务器218,例如,下载更新的训练图像216和/或下载图像处理代码206A、训练代码206B和/或经训练的神经网络222A的更新版本。
计算装置204可以使用网络210(或另一通信信道,例如通过直接链路(例如,有线、无线)和/或间接链路(例如,经由中间计算装置,例如服务器、和/或经由存储装置)与以下一或多个进行通信:
*分选装置201和/或控制器201A,用于提供用于分选和/或聚类种子的生成指令。这些指令可以是当由控制器201A执行时用于自动操作分选装置201的代码指令,和/或用于分选装置201和/或控制器201A的手动操作的手动指令,和/或用于编程分选装置201和/或控制器201A的手动指令。
*客户端终端208,例如,当计算装置204充当向远程分选装置提供图像分析服务(例如SaaS)的服务器时。
*服务器218,例如,存储训练图像和/或获得经训练的神经网络。
*图像存储库214,存储由图像传感器212输出的训练图像216和/或种子图像。
需要注意的是,成像接口220和数据接口224可以作为两个独立的接口(例如,两个网络端口)、作为公共物理接口上的两个虚拟接口(例如,公共网络端口上的虚拟网络)和/或集成到单个接口(例如,网络接口)上。
计算装置204包括或用于与用户界面226通信,所述用户界面226包括设计用于用户输入数据(例如,选择目标分选参数,例如所需种子纯度水平、指定比较种子)和/或查看计算的分析(例如,种子分类类别、用于分选装置201的手动操作的基于文本的指令)。示例性用户界面226包括例如触摸屏、显示器、键盘、鼠标和使用扬声器和麦克风的语音激活软件中的一或多个。
可选地,GUI(图形用户界面)222B(例如,由计算装置204的数据存储装置222和/或存储器206存储)呈现在用户界面226的显示实现方式上。GUI 222B可用于选择分选目标和/或查看所选种子的图像和/或查看用于分选装置的手动操作的指令。
现在回到图1,在102处,训练一或多个神经网络和/或提供经训练的神经网络用于将每个紫罗兰属种子的图像分类为单花或双花类别。
经训练的神经网络可以从多个可用的经训练的神经网络选择。该选择可以由用户手动执行(例如,经由GUI,例如,经由可用神经网络的菜单和/或图标)。该选择可由代码自动执行,该代码分析例如种子图像、种子图像的元数据、获得成像传感器的硬件类型的指示,和/或获得正在成像的种子类型的指示(例如,来自数据库、来自分选机器、来自手动用户输入)。该选择可以根据参照动作104描述的分选目标。
需要注意的是,动作(act)102和104可以被集成并作为单个特征执行,并行执行,和/或动作104可以在动作102之前执行。
神经网络的架构可以被实现为例如卷积层(convolutional)、池化层、非线性层、局部连接层、全连接层和/或上述层的组合。
根据训练图像的训练数据集对神经网络进行训练。训练图像描绘了单花和双花紫罗兰属种子的类别混合。每个训练图像与分类类别的指示以及可选地与是否缺少分类类别的指示相关联,例如,通过标记、与训练图像相关联地存储的元数据和/或作为存储在数据库中的值相关联。
参照图1来描述训练神经网络的示例性方法。
在104处,提供一或多个分选目标。分选目标可以由用户手动输入(例如,经由GUI,例如,从可用的分选目标列表中选择),作为存储在数据存储装置中的预定义值获得,和/或自动计算。
示例性分选目标包括:
*未提供分选目标。在这种情况下,根据神经网络的嵌入层计算出的嵌入量对种子进行聚类。这些聚类包括彼此最相似的种子。根据单花和双花指示创建聚类。
*目标种子的图像。目标种子可以是被分析的种子的混合的亲本。被确定为类似于目标种子的其它种子(例如,根据其图像的嵌入,具有小于阈值的统计距离,如参照动作110所描述)可以聚类在一起。提供种子的图像使得能够选择预期具有其他相似分类类别的其他相似种子,而不必知道所需植物如何获得其性状。目标种子可以是双花的。为目标种子识别其他双花种子,或者为目标种子识别其他单花种子。
*分类类别的目标统计分布。例如,单花和双花的分类类别的比率为1:3。例如,可以通过种植种子并根据所产生的生长确定分布来获得目标统计分布。可以根据一个或多个提供的目标分析值来计算目标统计分布,例如,目标真阳性、目标真阴性、目标假阳性和目标假阴性。
在106处,由图像传感器捕获种子的图像。
如本文所用,术语目标种子和目标图像(或目标种子图像)是指当前正在被分析和处理的种子和图像。
示例性图像传感器包括:RGB(红、绿、蓝)、多光谱、高光谱、可见光频率范围、近红外(NIR)频率范围、红外(IR)频率范围和上述组合。
可以捕捉种子的一个或多个图像,例如,可以使用不同的图像传感器和/或以不同的频率捕获每个图像。在另一个实现方式中,图像包括多个信道,对应于不同的频率。
单个图像可以包括多个种子,或者单个图像可以包含单个种子。可选地,当图像包括多个种子时,执行分割代码以例如基于种子相对于背景的颜色、基于计算二元制图和/或基于边缘检测来分割图像中的每个种子。可以创建子图像,每个子图像包括一个种子,其中每个子图像按照本文所述参照种子图像进行处理。
在108处,将种子的目标图像输入到经训练的神经网络中。可选地,单个种子的单个图像例如按顺序处理。在一些实现方式中,并行处理多个图像,每个图像都是单个种子。
神经网络计算图像中描绘的物理种子的单花或双花分类类别的指示。分类类别的指示可以例如通过神经网络的最后一层(例如完全连接的层)来输出。
神经网络至少根据训练后的神经网络的权重和/或架构来计算分类类别。在一些实现方式中,除了根据训练的神经网络的权重自动提取的特征之外,还可以提取和分析明确定义的特征(例如,基于种子的视觉和/或物理特性,例如颜色、大小、形状、纹理)。与至少提取指示种子的视觉和/或物理特性的明确定义的特征的非神经网络统计分类器不同,经训练的神经网络不一定提取这种明确定义的特征。虽然神经网络可以在训练过程中隐含地学习这些特征,但是与非神经网络统计分类器的训练不同,这种视觉和/或物理特征没有为神经网络明确定义。例如,非神经网络统计分类器基于种子的一个或多个物理特性来提取视觉特征,例如,手工制作的特征、种子的大小尺寸、种子的颜色、种子的形状、种子的纹理、上述特征的组合等等。对于在视觉和/或物理上彼此相似,但在单花和双花性状上有所不同的种子,经训练的非神经网络统计分类器无法根据明确定义的视觉和/或物理特征计算具有统计意义的种子的分类类别(即,计算统计意义不显著的分类类别)。例如,由于种子具有相同的视觉和/或物理特征(在容差要求内,例如阈值),将种子分类到同一分类类别中。从一个种子的一个图像中提取的视觉特征与从另一个种子的另一个图像中提取的相应视觉特征在统计上相似(例如,在容差阈值内)。相比之下,本文所述的神经网络能够区分视觉上和/或物理上相似的种子,以根据差异性状对种子进行分类。
由训练的神经网络输出的分类类别的指示可以是绝对分类类别,和/或落入一个或多个分类类别的概率。
神经网络可以计算种子图像的嵌入。嵌入可以被存储为预定长度的向量。该嵌入可以由神经网络的嵌入层输出,该神经网络可以是被训练来输出分类类别的同一神经网络。嵌入层可以是训练以输出分类类别的神经网络的中间层和/或隐藏层。嵌入层之后的层可以从神经网络中移除,使得嵌入值由作为最终层的嵌入层输出。
可选地,根据所识别的嵌入图像的注释来确定分类类别,该注释类似于为所分析的目标种子图像计算的嵌入。可以从训练数据集获得嵌入图像,该训练数据集存储由经训练的神经网络的嵌入层计算出的训练图像的嵌入。可以根据目标图像的嵌入与训练图像的嵌入之间的相似距离的要求来识别相似的嵌入图像。可以将相似距离计算为存储目标图像的嵌入的向量和每个存储各个训练图像的嵌入的每个向量之间的距离。可替代地,在目标图像的嵌入和训练图像的嵌入聚类之间计算相似性距离,每个训练图像的嵌入聚类与相同的分类类别相关联。可以计算到聚类中心和/或聚类边缘的距离。
可以将相似距离计算为L2范数距离。例如,找到与目标种子图像的嵌入的向量表示最接近(即,最小距离)的训练图像的嵌入的向量表示。提取最接近的嵌入训练图像的分类类别,并作为目标种子的分类类别输出。
在110处,可以对不同分类类别(和/或不同嵌入)的多个种子的多个图像(和/或其嵌入)进行聚类。
当接收到多个图像时,根据图像创建各个分类类别的单个种子中的每一个的聚类,其中分类到相同分类类别的图像位于同一个聚类中。替代地或附加地,根据为每个种子图像计算的嵌入对种子的图像进行聚类。嵌入的向量表示可以通过聚类代码进行聚类,例如,在N维空间(其中N是预定义的向量长度)内最接近的向量被聚类在一起。聚类的图像之间的距离可以被计算为由经训练的神经网络的嵌入层计算的图像的嵌入之间的统计距离,可选地为嵌入的向量表示之间的统计距离,例如,嵌入的向量表示之间的L2范数距离。种子可以由分选机器根据所生成的指令根据所创建的聚类进行物理聚类,所述指令用于对与聚类相对应的种子进行分选(例如,参照步骤112所描述的)。
可选地,计算聚类,使得每个相应聚类的每个嵌入图像成员与另一个聚类至少相距阈值距离。替代地或附加地,计算聚类,使得每个相应聚类的每个嵌入图像成员与同一相应聚类的每个其他成员的距离小于阈值距离。例如,选择阈值距离以定义聚类的成员之间的相似性容限量,和/或定义不同聚类的成员之间的差异容差量。替代地或附加地,在相同聚类的嵌入之间计算的聚类间距离小于在不同聚类的嵌入之间计算的集群间距离。同一聚类的嵌入之间的距离小于一个聚类与另一聚类之间的距离(例如,一个聚类的任何嵌入与另一聚类的任何嵌入之间的距离),以防止聚类之间的重叠,和/或确保同一个聚类的成员彼此之间比另一个集群的成员更相似。
可选地,根据分类类别的目标比例进行聚类。聚类的成员根据目标比率进行排列。可以参照步骤104来提供目标比率。例如,目标比率可以是针对95%的双花种子。执行聚类,使得95%被鉴定为单花或双花的种子在聚类内,其余的被排除。例如,95%的最接近的种子图像的嵌入被选为聚类。在另一个示例中,分类类别的目标比率是根据种子样品的生长分析来计算的。例如,将大量种子的样品送去种植和生长,以确定单花和/或双花的百分比,其结果是样品为94%双花。将其余种子库聚类的目标比率设置为94%。其余的种子根据它们各自的图像与目标比率进行聚类,而无需进行额外的破坏性测试。
可选地,当各个分类类别是单花和双花时,图像被聚集到表示被分类为单花的种子的种子聚类中,或者聚集到表示被分类为双花的种子的种子聚类中。可选地,根据目标统计分布来执行到单花或双花的聚类,该目标统计分布可例如如参照动作104所述来提供。可以根据以下一项或多项(例如,参照动作104所述来提供)来计算目标统计分布:目标真阳性、目标真阴性、目标假阳性、目标假阴性、手动输入的分布、以及根据对种子样本执行的生长测试(其中种子被种植和生长)来测量的分布。根据目标统计分布来设置用于聚类的阈值(例如,图像的编码,和/或与分类类别相关联的概率值)。
可选地,根据训练数据集存储的训练图像来计算分类类别的比率的指示。
可选地,对彼此相似的种子,例如,在本文所述的容差范围内在视觉和/或物理上彼此相似的种子进行聚类。替代地或另外地,创建单花和双花类别的聚类以用于在相同环境条件下生长的种子。替代地或另外地,创建单花和双花类别的聚类以用于在相同生长季节生长的种子。替代地或另外地,创建单花和双花类别的聚类以用于在相同地理位置生长的种子。替代地或附加地,创建单花和双花类别的聚类以用于在容差范围(tolerancerange)内具有相同物理参数的种子。示例性的物理参数包括以下一项或其组合:颜色、纹理、大小、面积、长度、圆度、宽度、千粒重(thousand seed weight)以及上述参数的组合。
可选地,当嵌入位于距对应于双花表型的另一个嵌入和/或距对应于双花表型的嵌入聚类的中心的距离阈值以上时,嵌入被聚类成新的聚类。新的聚类存储指示单花表型种子的嵌入。可以根据产生的分选指令(例如,如参照步骤112所描述的),由分选机器从种子批次中选择性地去除单花种子。
可替代地,当嵌入位于距对应于单花表型的另一个嵌入和/或距对应于单花表型的嵌入聚类的中心的距离阈值以上时,嵌入被聚类成新的聚类。新的聚类存储指示双花表型种子的嵌入。可以根据产生的分选指令(例如,如参照步骤112所描述的),由分选机器从种子批次(lot)中选择性地去除双花种子。
可选地,对应于位于距离另一个嵌入的距离阈值和/或聚类中心的嵌入的种子被表示为属于新的子分类类别,被分配新的子分类类别,例如颜色。新的子分类类别的种子可以进一步被分选到子类类别中,例如,种子被分选到单花和不同颜色的组合,和/或双花和不同颜色的组合。距离阈值可以包括两个阈值。第一阈值指示可能有缺陷并且生长的完全异常的种子。位于远离另一个嵌入和/或聚类的嵌入,高于第一距离阈值,表示例如要被丢弃的异常种子。位于相对较近,但仍然远离另一个嵌入(即,表示正常和/或非异常种子,例如指示单花和/或双花)和/或聚类的嵌入,高于第二距离阈值,但低于第一距离阈值,表示为具有新的子分类类别(例如,颜色)的种子,其将根据颜色进行分选。被识别为与新的子分类类别相关联的图像和/或嵌入可以被添加到训练数据集中,以用于更新经训练的神经网络。例如,可以在GUI上呈现新的种子类型的指示,并且在视觉检查种植的种子的结果生长之后,要求用户手动输入子分类类别,例如颜色。替代地或另外地,根据分配给两个或多个图像嵌入和/或最接近被表示为指示新的子分类类别的种子嵌入的两个或更多聚类的分类类别,自动计算新的子分类类别。可以基于到最近的图像嵌入和/或聚类的相对距离来计算新的分类类别。例如,当距离被分割为距离最近的双花种子聚类的75%和距离最近的单花种子聚类的距离25%时,新的图像和/或嵌入与双花表型的特定颜色的子分类类别相关联。
可选地,当特定种子的图像嵌入在统计上与所有其他聚类不同时,该种子被表示为有缺陷的(或以其他方式异常的)。有缺陷的种子可以是完全异常的种子,无法确定其单花/双花分类,或者有缺陷的种子可以是有缺陷的单花或双花种子。统计差异可以根据相对于为每个聚类计算的统计值的嵌入值。替代地或另外地,当特定种子的图像的嵌入在统计上类似于该聚类时,可选地当为嵌入计算的一个或多个值与为该聚类计算的统计值相似时,将该种子分配给该特定聚类的特定分类类别。为该聚类计算的示例性统计值包括:各聚类嵌入的元素平均值(例如,平均向量表示法,其中向量的每个元素是聚类的嵌入向量的对应值的平均值)、各聚类的嵌入的方差(例如,各聚类的不同向量的元素方差)以及各聚类嵌入的高阶矩。例如,当嵌入的向量表示不同于所有聚类的99%的向量时,所述嵌入(和对应的种子)被表示为有缺陷的。
可选地,当除了提供大量混合种子之外还提供目标种子的图像时(例如,如参考动作104所描述的),从该批次中选择与目标种子相似的种子。例如,当目标种子是双花时,从该批次中选择双花种子。目标种子图像由神经网络嵌入。选择距离目标种子的嵌入小于目标距离阈值的图像嵌入的子集。所生成的用于由分选控制器执行的指令包括用于选择与图像嵌入的所选子集相对应的种子的指令。在另一实现方式中,图像嵌入和目标种子的嵌入被聚类。选择包含目标种子的聚类。用于由分选控制器执行的指令包括用于从种子混合物中选择与所选聚类相对应的种子的指令。
在112处,根据分类类别(或多个类别)的指示和/或根据所创建的聚类(例如,嵌入和/或图像的),生成用于分选种子的分选装置的分选控制器执行的指令。这些指令用于对与所分析的种子图像相对应的物理种子进行分选。这些指令用于将种子物理分选为单花和双花类别。可选地,指令包括丢弃某些种子的指令,例如,被分类为有缺陷的种子(和/或没有为其创建新的子分类类别)的指令。
所述指令可以是,例如,用于从混合种子中选择某些种子,例如,选择双花并且留下单花,或选择单花并且留下双花。种子可以放置在托盘和/或平台的表面上。平台上每个种子的物理位置被映射到种子的图像,例如,映射到包括平台上的多个种子的图像的分割的子部分。当计算每个种子的每个图像以确定其各自的分类类别和/或聚类时,机械臂可以根据映射到图像的物理位置来选择种子。然后,机械臂可将每个种子放入对应于适当分类类别和/或聚类的容器中。
在另一种实现方式中,所述指令可以用于将种子单独送达到达输送带上。每个种子可以被成像。放置对应于分类类别和/或对应于种子的图像聚类的适当的容器,使得种子进入适当的容器。例如,将传送带移至接收器,或将适当的接收器放置在传送带的端部。
指令可以表示为控制器自动执行的代码,例如,二进制代码、脚本、人类可读文件、源代码、编译代码和/或函数调用。替代地或附加地,可以格式化指令以供用户手动执行,例如,用户基于指令手动编程分选机器。例如,指令被呈现在显示器上(例如,作为文本、影片和/或图形说明)及/或被打印。
可选地,指令实时生成,例如,由动态分选机器执行,种子被实时送入(例如,连续或周期性地)、成像和动态分选。
在114处,根据计算的分类类别和/或聚类对种子进行分选。分选可以由执行生成的分选指令的分选控制器所指示的分选装置自动执行。
在116处,重复参考方框104至114描述的一个或多个步骤。例如,可以对每个图像执行重复。独立分析每个种子的每个图像以确定相应的分类类别,然后根据分类类别对种子进行分选。在另一个示例中,可以对多个种子(例如一批混合的种子)的多个图像重复执行。一起分析单个种子的图像(例如,并行地或顺序地,并存储中间结果),以对图像进行聚类(例如,图像的嵌入)。这批种子是按聚类分选的。
现在参考图3,在302处,提供不同种子的多个训练图像。可选地,对图像进行分割,使得每个分割的图像包括单个种子。图像可由不同类型的图像传感器获取。这些图像包括不同分类类别的种子,包括单花和双花表型。
图像是处于未发芽(即发芽前)阶段的种子的图像,和/或未种植(即尚未种植)的种子的图像,和/或处于非开花期(即尚未生长到开花期)的种子的图像。
在304处,种植每个种子以获得单花或双花的相应地面实况标签(respectiveground truth label)。种植是以有序的方式进行的,使得每个种植的种子和种植前的种子图像之间的映射是已知的。例如,每个图像都标有唯一的代码,而播种的地点也标有相同的唯一代码。
当种子已经生长到苗期和/或种子的生长已经开花时,进行视觉检查以鉴定表型是单花还是双花。视觉检查可以手动和/或自动进行(例如,使用分类器,该分类器使用描绘指示单花或双花的视觉特征的开花植物的图像训练,用相应的表型标记)。
在306处,每个紫罗兰属种子的每个训练图像都用根据相应训练图像中描绘的生长的幼苗和/或种植的种子的开花生长确定的单花和双花分类类别的地面实况标签来注释。注释可由用户手动执行(例如,经由GUI,其呈现种子图像的唯一代码并接受分类类别作为来自用户的输入,例如,通过点击单花图标或双花图标),和/或由代码自动获得,例如,从执行种子的自动分析的装置(例如,分析种植后生长的种子的图像,其中单花与双花使用视觉特征在视觉上可辨别)自动获得。
在308处,基于训练图像和和指示单花或双花的分类类别的相关地面实况标签,创建一个或多个训练数据集。训练数据集可以根据目标神经网络来定义,例如,根据成像传感器的类型来定义。
在310处,根据训练数据集训练一个或多个神经网络。所述神经网络被训练用于根据图像传感器捕获的种子的目标图像来计算分类类别的指示。
可选地,例如当检测到新的变体类型时,根据附加注释的训练图像来重新训练和/或更新现有的神经网络。
可以根据损失函数来训练神经网络。可以为种子图像上的神经网络输出测量损失函数,以估计网络输出与种子图像的真实标签之间的一致性度量。损失函数的一个示例是Softmax函数损失。可以使用优化过程(例如,随机梯度下降)来最小化损失函数。可以重复优化过程,直到满足停止条件为止。
在312处,可以基于经训练的神经网络来创建一个或多个嵌入神经网络。通过选择经训练的神经网络的内部隐藏层作为嵌入层,去除嵌入层后的层,来创建嵌入神经网络。
可选地,例如当检测到新的变体类型时,根据附加注释的训练图像来重新训练和/或更新现有的嵌入神经网络。
在314处,经训练的神经网络和/或嵌入神经网络被提供,例如,由计算装置存储和/或提供给远程计算装置以用于本地实现方式。可选地,提供神经网络的权重。
现在参考图4A至图4E,是基于参照图1和/或图3描述方法的示例性数据流的数据流程示意图。根据本发明的一些实施方式,可由参照图2描述的系统200的多个组件执行。
图4A描绘了根据本发明一些实施方式,用于根据训练种子图像404来训练嵌入神经网络402以计算种子图像的嵌入406的数据流图。
图4B描绘了用于确定两个种子是否属于同一类别(即,都是双花,或者都是单花)的数据流图。将两个种子的种子图像410A-B输入到神经元412中,以计算各自的嵌入414A-B。例如,计算嵌入414A-B之间的距离416,作为嵌入的向量表示之间的L2范数距离。例如,根据距离416来确定种子是属于同一类别418还是不同类别420,例如,当距离低于阈值时,种子属于相同类别418,当距离高于阈值时,种子属于不同类别420。
图4C描绘了根据种子生长来提高种子批纯度结果的数据流图,其中种子被种植并生长到幼苗和/或开花期,以确定种子是单花还是双花表型。种子图像430被输入到经训练的神经网络432,所述神经网络将分类指示和/或嵌入输出到决策单元434中。决策单元434接收由种子生长过程产生的种子样本的种子生长结果436作为输入,在种子生长过程中,种子被种植并生长到幼苗和/或开花期,以确定种子是单花还是双花表型。决策单元434基于已知的统计配置440计算用于对种子图像进行分选的分选阈值438。决策单元434向分选单元442提供指令,指示丢弃哪些种子和/或应该保留哪些种子以获得预定的纯度水平。分选单元442可以接收用于分选的种子和由神经网络432处理的相应种子图像430之间的映射,用于确定要除去哪些种子和/或留下哪些种子。
图4D描绘了用于定义目标种子单花或双花类别的统计的数据流图。多个目标种子类别450中的每一个的多个图像被输入到神经网络452中,神经网络计算每个图像的嵌入量454。如本文所述,计算嵌入的统计量456。
图4E描绘用于确定目标种子是否与图4D的种子属于相同类别的数据流图。将新目标种子的图像460输入神经网络452(图4D),以计算嵌入量462。使用类别统计量456(如参照图4D描述的那样计算)来评估嵌入,以确定新的目标种子是否与图4D的类别样本450属于相同类别464,还是属于不同类别466。
现在参照图5,其是根据本发明的一些实施方式,描述生成神经网络的高级过程的流程图,所述神经网络将描述紫罗兰属种子的图像分类为单花或双花。图5的特征可对应于参照图3描述的特征和/或与参照图3描述的特征结合。在502处,使用图像传感器(可选地,使用相机)来捕获紫罗兰属种子的图像。在504处,播种紫罗兰属种子。将每个种植的紫罗兰属种子的位置映射到种植的种子的相应图像。在506处,从播种的紫罗兰属种子的幼苗和/或开花确定单花或双花的表型。在508处,神经网络分类器在训练数据集上被训练,该训练数据集是通过用播种种子发育成的单花或双花表型的地面真实指示来标记紫罗兰属种子的图像而创建的。神经网络分类器为描述目标紫罗兰属种子的目标图像生成单花或双花的结果,该目标图像的表型是未知的,即紫罗兰属种子是新的并且没有在训练数据集中使用。
应当理解,在根据本发明的教导对种子进行分类和分选之后,可以获得同质的(homogeneous)种子群体(即,种子仅具有单花表型,而种子仅具有双花表型)。神经网络可以计算分类类别,和/或嵌入,和/或执行聚类,用于根据单花/双花的类别来分选种子,如本文所述。
神经网络可以计算分类类别,和/或嵌入,和/或执行聚类,用于对统计上相似的种子进行分选,如本文所述,与非神经网络统计分类器相比,具有相对提高的准确性和/或提高的统计确定性。
种子的同质群体可以使得至少90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、99.9%、99.91%、99.92%、99.93%、99.94%、99.95%、99.96%、99.97%、99.98%、99.99%、99.991%、99.992%、99.993%、99.994%、99.995%、99.996%、99.997%、99.998%、99.999%、99.9991%、99.9992%、99.9993%、99.9994%、99.9995%、99.9996%、99.9997%、99.9998%、99.9999%的种子为双花种子。
种子的同质群体可以使得至少90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、99.9%、99.91%、99.92%、99.93%、99.94%、99.95%、99.96%、99.97%、99.98%、99.99%、99.991%、99.992%、99.993%、99.994%、99.995%、99.996%、99.997%、99.998%、99.999%、99.9991%、99.9992%、99.9993%、99.9994%、99.9995%、99.9996%、99.9997%、99.9998%、99.9999%的种子为单花种子。
因此,根据本发明的另一个方面,提供了包含多个紫罗兰属种子的容器或容器组,其中至少90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、99.9%、99.91%、99.92%、99.93%、99.94%、99.95%、99.96%、99.97%、99.98%、99.99%、99.991%、99.992%、99.993%、99.994%、99.995%、99.996%、99.997%、99.998%、99.999%、99.9991%、99.9992%、99.9993%、99.9994%、99.9995%、99.9996%、99.9997%、99.9998%、99.9999%的种子为紫罗兰属种子。
因此,根据本发明的另一个方面,提供了包含多个紫罗兰属种子的容器或容器组,其中至少90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、99.9%、99.91%、99.92%、99.93%、99.94%、99.95%、99.96%、99.97%、99.98%、99.99%、99.991%、99.992%、99.993%、99.994%、99.995%、99.996%、99.997%、99.998%、99.999%、99.9991%、99.9992%、99.9993%、99.9994%、99.9995%、99.9996%、99.9997%、99.9998%、99.9999%的种子为单花紫罗兰属种子。
容器可以是能够容纳种子的任何媒介物,例如袋子、盒子、麻袋(sack)或板条箱。
容器可以贴上合适的标签,指示种子的来源和/或批次的纯度(如根据本发明的实施方式测量的)。
容器或容器组中通常包含100多粒种子、1000多粒种子、10,000多粒种子、100,000多粒种子、1,000,000多粒种子、10,000,000多粒种子,甚至100,000,000多粒种子。
容器可以包含来自单个植物或优选多于一种植物的种子。
容器或容器组中的同质种子群体的重量可以为10克、50克、100克、500克、1kg、10kg、20kg、50kg、100kg、1吨或更多不等。
本发明还包括在容器中种植种子。
现在参考图6,其包括根据本发明的一些实施方式的单和双类型的紫罗兰属种子和相应生长植物的图像。元素602描绘了种子602A的图像和单花类型的开花植物602B-C的图像。元素604描绘了种子604A的图像和双花类型的开花植物604B-C的图像。图像602B-C和604B-C描绘了铁系列的紫罗兰植物,其中图像602B描绘了铁白色单花,图像604B描绘了铁白色双花,图像602C描绘了铁海洋单花,并且图像604C描绘了铁海洋双花。当视觉上比较产生单花植物602B-C的种子602A与产生双花植物604B-C的种子604A时,显然种子602A和604A在统计学上视觉上相似,没有视觉上不同的标记(例如,没有可提取的视觉特征,没有可分割的和/或可区分的标记)能够区分两种类型的种子。本文描述的经过训练的神经网络能够将图像602A和604A准确地分类为单花或双花分类类别,相应的单花和双花植物从这些类别中生长。
因此,根据本发明的一些实施方式的一个方面,提供了一种种植紫罗兰属作物的方法,包括播种本发明的种子的同质群体,从而种植作物。
如本文所用,术语“约(about)”是指±10%。
术语“包括(comprises、comprising、includes、including)”、“具有(having)”及其同源词意为“包括但不限于”。
术语“由……组成(consisting of)”是为“包括并限于”。
术语“基本上由……组成(consisting essentially of)”意为组合物、方法或结构可包括另外的成分、步骤和/或部件,但前提是另外的成分、步骤和/或部件不会实质性地改变所要求保护的组合物、方法或结构的基本和新颖特性。
如本文所使用的,单数形式“一个(a、an)”和“所述(the)”包括复数,除非上下文另有明确的指示。例如,术语“化合物(a compound)”或“至少一种化合物(at least onecompound)”可以包括多种化合物,包括其混合物。
在整个申请中,本发明的各个实施方式可以以范围的形式呈现。应当理解,范围形式的描述仅仅是为了方便和简洁,不应当被解释为对本发明的范围的不可改变的限制。因此,范围的描述应当被认为已经具体公开了所有可能的子范围以及该范围内的单个数值。例如,对诸如1至6的范围的描述应当被认为已经具体公开了子范围,诸如1至3、1至4、1至5、2至4、2至6、3至6等,以及该范围内的单个数字,例如1、2、3、4、5和6。不管范围的宽度如何,都适用。
每当本文指出数值范围时,意为包括在所指出的范围内的任何引用的数字(分数或整数)。表述“第一指示数和第二指示数之间的范围”和“从第一指示数到第二指示数的范围”在本文中可互换使用,意为包括第一指示数字和第二指示数字以及它们之间的所有数和整数。
如本文所用,术语“方法(method)”是指用于完成给定任务的方式、手段、技术和程序,包括但不限于化学、药理学、生物学、生物化学和医学领域的从业人员已知的或者容易从已知的方式、手段、技术和程序开发的那些方式、手段、技术和程序。
应当理解,为了清楚起见,在单独实施方式的上下文中描述的本发明的某些特征也可以在单个实施方式中组合地提供。相反,为了简洁起见,在单个实施方式的上下文中描述的本发明的各个特征也可以单独提供,或者以任何合适的子组合提供,或者以本发明的任何其它描述的实施方式中的合适的方式提供。在各个实施方式的上下文中描述的某些特征不应被认为是这些实施方式的必要特征,除非该实施方式在没有这些元件的情况下不起作用。
如上文所述和如以下权利要求部分所述的本发明的各种实施方式和方面在以下实施例中找到实验支持。
实施例
现在参考下面的实施例,这些实施例与上面的描述一起以非限制性的方式说明了本发明的一些实施方式。
通常,本文使用的命名和本发明中使用的实验室方法包括分子、生物化学、微生物和重组DNA技术。这些技术在文献中有详尽的解释。参见,例如:“分子克隆:实验室手册(Molecular Cloning:Alaboratory Manual)”Sambrook等人,(1989);“当前分子生物学协议(Current Protocols in Molecular Biology)”,第I-III卷,Ausubel,R.M.编(1994);Ausubel等人,“当前分子生物学协议(Current Protocols in Molecular Biology)”,约翰威立国际出版公司(John Wiley and Sons,Baltimore,Md.),巴尔的摩,马里兰州(1989);Perbal,“分子克隆实用指南(A Practical Guide to Molecular Cloning)”,约翰威立国际出版公司,纽约(1988);Watson等人,“重组DNA(Recombinant DNA)”,科学美国人书籍(Scientific American Books),纽约;Birren等人(编辑),“基因组分析:实验室手册系列(Genome Analysis:A Laboratory Manual Series)”,第1-4卷,冷泉港实验室出版社(ColdSpring Harbor Press),纽约(1998);如以下美国专利中所述的方法US4,666,828、US4,683,202、US4,801,531、US5,192,659和US5,272,057;“细胞生物学:实验室手册(CellBiology:A Laboratory Handbook)”,第I-III卷,Cellis,J.E.编辑(1994);Freshney的“动物细胞的培养-基本技术手册(Culture of Animal Cells-AManual of BasicTechnique)”,Wiley-Liss,N.Y.(1994),第三版;“免疫学当代方案”,第I-III卷,ColiganJ.E.编辑(1994);Stites等人,(编辑),“基础和临床免疫学(Basic and ClinicalImmunology)”(第8版),Appleton&Lange,诺沃克(Norwalk),CT(1994);Mishell和Shiigi(编辑),“细胞免疫学中的选定方法(Selected Methods in Cellular Immunology)”,曼出版公司,纽约(1980);可用的免疫测定在专利和科学文献中被广泛描述,参见,例如:US3,791,932、US3,839,153、US3,850,752、US3,850,578、US3,853,987、US3,867,517、US3,879,262、US3,901,654、US3,935,074、US3,984,533、US3,996,345、US4,034,074、US4,098,876、US4,879,219、US5,011,771和US5,281,521;“寡核苷酸合成(OligonucleotideSynthesis)”,Gait,M.J.编辑(1984);“核酸杂交(Nucleic Acid Hybridization)”,Hames,B.D.和Higgins S.J.编辑(1985);“转录与翻译(Transcription and Translation)”,Hames,B.D.,和Higgins S.J.编辑(1984);“动物细胞培养(Animal Cell Culture)”,Freshney,R.I.编辑(1986);“固定化细胞和酶(Immobilized Cells and Enzymes)”,IRL出版社(1986);“分子克隆实用指南(APractical Guide to Molecular Cloning)”,Perbal,B.(1984)和“酶学方法”,第1-317卷,美国学术出版社;“PCR方案:方法和应用指南(PCRProtocols:AGuide To Methods And Applications)”,美国学术出版社,圣地亚哥,CA(1990);Marshak等人,“蛋白质纯化和表征策略-实验室课程手册(Strategies forProtein Purification and Characterization-ALaboratory Course Manual)”,CSHL出版社(1996);所有这些都通过引用的方式并入本文,如同在本文中完全阐述一样。在本文中还提供了其它的一般参考资料。其中的过程被认为是本领域公知的,是为了方便读者而提供的。其中包含的所有信息通过引用并入本文。
双花检测
材料和方法
种子样品:铁系列的紫罗兰属种子品种的样品;品种铁玫瑰粉、铁蓝、铁深粉、铁玫瑰、铁白、铁海洋、铁紫、铁粉、铁杏、铁黄、铁樱花、四重奏系列、四重蓝、四重白、Centum系列;Centum深蓝、Centum奶油;新歌舞伎系列;新歌舞伎深薰衣草、新歌舞伎玫瑰粉;凯斯系列;凯斯白、凯斯深红、凯斯蓝;艾达系列;艾达白、艾达蓝;Revolution II白、欢快黄和箭头白。每个样品由特定品种的1-4个不同的种子批次组成。
图像采集和分析:使用不同的成像传感器捕获来自每个样品的数以千计的种子。播种并培育种子直到完全开花,或者使用区分单花个体和双花个体的PCR标记在叶子样品上分析幼苗,或者使用区分单花个体和双花个体的PCR标记在种子上分析幼苗,并加载表型数据以训练系统(图5)。
对于每个样品,将图像随机分成三组:训练(80%)、验证(10%)和测试(10%)。对每条线重复该过程10次。使用训练集训练卷积神经网络。经训练的神经网络用于预测验证和测试集图像的种子表型。对于这些集合的每个种子图像,神经网络输出种子属于经训练的双花或单花组的概率。选择概率最高的组。存储每个组的正确预测的百分比。用不同的随机分裂重复该过程10次。
结果
使用从不同的成像传感器获得的数据,获得了代表不同花颜色的不同品种的紫罗兰属种子的正确双花或单花。
对于Centum深蓝,双花由0.45提高到0.73。对于Centum奶油,双花由0.47提高到0.93。对于艾达白,双花从0.49提高到0.94,对于艾达蓝,双花从0.59提高到0.93,对于凯斯白,双花从0.59提高到0.90,对于凯斯深红,双花从0.50提高到0.90,对于四重白,双花从0.57提高到0.95,对于四重蓝,双花从0.53提高到0.95,对于Revolution II白,双花从0.96提高到0.99,对于新歌舞伎玫瑰粉,双花从0.54提高到0.85,对于新歌舞伎深薰衣草,双花从0.50提高到0.85。
利用Seed-X分选平台进行图像采集,并使用开花表型或PCR标记对表型进行验证,开发了一套分选器,并为每个品种选择了最佳分选器。分类器A用于对铁黄进行分选,双花由0.55提高到0.93。分类器B用于对铁粉进行分选,双花由0.55提高到0.94。对于铁玫瑰,双花由0.50提高到0.93。分类器C用于对铁白粉进行分选,双花由0.52提高到0.92。分类器D用于对铁深粉进行分选,双花由0.54提高到0.92。分类器E用于对铁紫花进行分选,双花由0.52提高到0.92。对于铁蓝,双花从0.53提高到0.86。分类器F用于对铁樱花进行分选,双花由0.60提高到0.99。分类器G用于对铁海洋进行分选,双花由0.47提高到0.94。
为铁白和铁海洋生产而开发的分类器分别用于对每个品种的一批和两批种子进行分选。将分选的种子在专门的植物苗圃中培育成幼苗,而不进行任何选择,然后由专门的种植者移植到田间。在整个作物周期中没有发生选择。对于铁白,批次(Lot)56027-D3;种植了2.300株植株,其中6.22%(143)植株被分类为单花,93.78%(2,157)植株被分类为双花。对于铁海洋批次D1(分类器是在此基础上开发的);种植了871株植株,其中5.86%(51)植株被分类为单花,94.14%(820)植株被分类为双花。对于批次D2(与开发分类器的批次不同的批次);种植了591株植株,其中5.58%(33)植株被分类为单花,94.42%(558)植株被分类为双花。
在另一个实验中,取两批次铁白紫罗兰属种子。对第一批次进行训练,而对第二批次进行预测。双花由0.50提高到0.90。
对铁品种进行的实验结果总结在表1和2中。
表1-花表型
表2-经由PCR标记的种子表型
尽管已经结合本发明的具体实施方式描述了本发明,但是显然,对于本领域技术人员来说,许多替代、修改和变化将是显而易见的。因此,旨在包含落入所附权利要求的精神和广泛范围内的所有这些替换、修改和变化。
申请人的意图在于,本说明书中提及的所有出版物、专利和专利申请通过引用全部并入本说明书中,结合程度如同每个单独的出版物、专利或专利申请都通过引用具体和单独地结合到本说明书中。此外,本申请中任何参考的引用或标识不应解释为承认此类参考可作为本发明的现有技术。就所使用的章节标题而言,它们不应被理解为必要的限制。
此外,本发明的任何优先权文件的全部内容过引用的方式整体并入本文。
Claims (40)
1.一种用于分选紫罗兰属种子的系统,包括:
至少一硬件处理器,执行代码用于:
将至少一图像输入到至少一神经网络中,所述至少一图像描绘具有统计上相似的可提取的至少一视觉特征的多个紫罗兰属种子,所述至少一图像由至少一成像传感器捕获,
其中,从所述多个紫罗兰属种子中的一个种子的图像提取的至少一视觉特征在统计学上类似于从所述多个紫罗兰属种子中的另一个紫罗兰属种子的另一图像提取的对应的至少一视觉特征,
由所述至少一神经网络为选自由单花和双花所组成的群组的所述多个紫罗兰属种子中的每一个种子,计算未明确定义视觉特征的一分类类别的指示,
其中,所述至少一个分类类别的指示至少根据所述至少一神经网络的权重来计算,
其中,所述至少一神经网络将具有相似的可提取的至少一视觉特征的所述多个紫罗兰属种子分类为选自由以下所组成的群组的一分类类别:未明确定义视觉特征的单花和双花,
其中,使用训练数据集训练所述至少一神经网络,所述训练数据集包括由所述至少一成像传感器捕获的、具有统计上相似的可提取的至少一视觉特征的多个紫罗兰属种子的多个训练图像,每个训练图像的每个紫罗兰属种子标记有相应的分类类别,所述分类类别的视觉特征未被明确定义,所述分类类别选自由以下所组成的群组:单花和双花;和
根据选自由单花和双花所组成的群组中的至少一分类类别的指示,生成用于由自动分选装置的分选控制器执行的指令,用于对紫罗兰属种子进行自动分选。
2.根据权利要求1所述的系统,其中,从所述至少一图像中描绘的所述多个紫罗兰属种子提取的视觉特征包括仅统计上相似的可提取的特征,并且排除非统计上相似的可提取的视觉特征。
3.根据权利要求1所述的系统,其中,从所述至少一图像中描绘的所述多个紫罗兰属种子中提取的非统计上相似的视觉特征与从由单花和双花所组成的群组中选择的所述至少一神经网络的所述分类类别结果不相关。
4.根据权利要求3所述的系统,其中,从所述至少一图像中描绘的所述多个紫罗兰属种子中提取的所述非统计上相似的视觉特征包括分段视觉标记,所述分段视觉标记与从由单花和双花所组成的群组中选择的所述分类类别不相关。
5.根据权利要求1所述的系统,其中,所述相似的可提取的至少一视觉特征选自由以下所组成的群组:手工制作的特征、所述至少一种子的至少一尺寸维度、所述至少一种子的颜色、所述至少一种子的形状、所述至少一种子的纹理、所述至少一种子的估计测量值和分段视觉标记。
6.根据权利要求1所述的系统,其中,所述至少一个分类类别包括不能基于视觉检查所述至少一种子而手动确定的非视觉类别。
7.根据权利要求1所述的系统,其中,所述紫罗兰属种子属于Matthiola incana。
8.根据权利要求7所述的系统,其中,所述紫罗兰种子属于铁系列。
9.根据权利要求1所述的系统,其中,所述至少一个分类类别是通过破坏性测试来确定的,所述破坏性测试是在所述至少一成像传感器捕获所述紫罗兰属种子的相应训练图像之后破坏所述相应的紫罗兰属种子。
10.根据权利要求1所述的系统,其中,所述标记至少一个分类类别是通过在所述至少一成像传感器捕获所述紫罗兰属种子的所述相应训练图像之后种植所述相应种子直到所述单花或双花在视觉上存在来确定。
11.根据权利要求1所述的系统,其中,所述成像传感器选自由以下所组成的群组:RGB、多光谱、高光谱、可见光频率范围、近红外(NIR)频率范围、红外(IR)频率范围和上述的组合。
12.根据权利要求1所述的系统,其中,包括至少一紫罗兰属种子的所述至少一图像包括从包括多个紫罗兰属种子的图像中分割出来的单个紫罗兰属种子的单个图像。
13.根据权利要求1所述的系统,其中,所述至少一神经网络计算所述至少一图像的嵌入,并且其中根据来自存储训练图像的嵌入的所述训练数据集中识别的至少一相似嵌入图像的注释来确定所述至少一个分类类别,根据所述至少一图像的嵌入和所述训练图像的嵌入之间的相似性距离的要求来识别所述至少一相似嵌入图像,并且至少一成员选自由以下所组成的群组:(i)其中所述嵌入由经训练的至少一个被选为嵌入层的神经网络的内层来计算,(ii)其中将所述嵌入存储为预定长度的向量,其中将所述相似性距离计算为存储所述至少一图像的所述嵌入的向量与多个向量之间的距离,所述多个向量中的每一个向量存储相应训练图像的嵌入,和(iii)其中,计算所述至少一图像的所述嵌入和多个训练图像的嵌入聚类之间的所述相似性距离,所述多个训练图像中的每一个训练图像与相同的至少一个分类类别相关联。
14.根据权利要求1所述的系统,其中,所述至少一图像包括多个紫罗兰属种子的多个图像,并且还包括用于根据相应的分类类别对所述多个图像进行聚类的代码,其中,由所述分选控制器执行的所述指令包括用于根据相应的分类类别对与所述多个图像相对应的所述紫罗兰属种子进行分选的指令,其中,根据分类类别的目标比率和/或目标统计分布来执行所述聚类,其中,所述聚类的成员根据所述目标比率排列,根据所述紫罗兰属和/或种子的样品的DNA分析或根据所述紫罗兰属种子的所述样品的种植和生长的生长结果来计算分类类别的所述目标比率。
15.根据权利要求14所述的系统,其中,不同分类类别的所述聚类是为选自由以下所组成的群组的至少一个成员创建的:(i)紫罗兰属种子生长在相同的环境条件下,(ii)紫罗兰属种子生长在相同的生长季节,(iii)紫罗兰属种子生长在相同的地理位置,和(iv)在容差范围内具有相同物理参数的紫罗兰属种子。
16.根据权利要求1所述的系统,其中,为提取所述至少一视觉特征而训练的基于非神经网络的统计分类器将具有相似的可提取的至少一视觉特征的所述多个紫罗兰属种子分类为视觉特征被明确定义的相同分类类别中。
17.根据权利要求1所述的系统,其中,所述至少一图像包括不同分类类别的多个紫罗兰属种子的多个图像,其中,所述至少一神经网络为所述多个图像中的每一个图像计算嵌入,其中,所述多个图像的所述嵌入通过聚类代码进行聚类,并且其中,由所述分选控制器执行的所述指令包括用于根据相应的聚类对所述紫罗兰属种子进行分选的指令。
18.根据权利要求17所述的系统,其中,根据从由以下所组成的群组中选择的至少一成员来计算所述聚类:
(i)使得每个相应聚类的每个嵌入的图像成员与另一个聚类相距至少阈值距离,和
(ii)其中,计算所述聚类,使得每个相应聚类的每个嵌入的图像成员与同一相应聚类的每个其它成员的距离小于阈值距离。
19.根据权利要求17所述的系统,其中,在同一聚类的嵌入之间计算的聚类内距离小于在不同聚类的嵌入之间计算的聚类间距离。
20.根据权利要求17所述的系统,其中,对应于位于至少一个选自另一嵌入、聚类以及在所述聚类的中心内的距离阈值之上的嵌入聚类聚类的紫罗兰属种子,被表示为具有某种颜色,并且被聚类到某种颜色聚类,其中,根据分配给表示为具有某种颜色的所述紫罗兰属种子的嵌入邻近的至少两个聚类和/或至少两个图像嵌入的分类类别聚类,将表示为具有某种颜色的紫罗兰属种子分配给新的分类类别,或者分配给现有类别的新的子分类类别,其中根据被表示为具有某种颜色的所述紫罗兰属种子的所述嵌入邻近的至少两个聚类和/或至少两个图像嵌入的相对距离来计算新的分类类别或现有类别的新的子分类。
21.根据权利要求17所述的系统,其中,为每个聚类计算至少一统计值,并且其中,当某个种子的图像的嵌入在统计上不同于所有其它聚类时,将某个紫罗兰属种子表示为有缺陷的。
22.根据权利要求17所述的系统,其中,为每个聚类计算至少一统计值,并且其中,当所述某个种子的所述图像的所述嵌入在统计上与所述某个聚类的至少一统计值相似时,将某个种子分配给某个聚类的某个分类类别。
23.根据权利要求15所述的系统,还包括代码,用于以下操作:
提供目标紫罗兰属种子的图像,通过所述至少一神经网络计算所述目标紫罗兰属种子的嵌入,和
根据位于距离所述目标紫罗兰属种子的所述嵌入小于目标距离阈值的图像嵌入来选择多个图像嵌入的子集,其中由所述分选控制器执行的所述指令包括用于选择与所述多个图像嵌入的所述子集相对应的紫罗兰属种子的指令。
24.根据权利要求15所述的系统,还包括代码,用于以下操作:
提供目标紫罗兰属种子的图像,通过所述至少一神经网络计算所述目标紫罗兰属种子的嵌入,和
对所述多个图像嵌入和所述目标紫罗兰属种子的所述嵌入进行聚类,并且选择包括所述目标紫罗兰属种子的所述嵌入的聚类,其中由所述分选控制器执行的所述指令包括用于选择与所选择的聚类相对应的紫罗兰属种子的指令。
25.根据权利要求1所述的系统,其中,对紫罗兰属种子的所述自动分选包括丢弃所述单花紫罗兰属种子。
26.一种用于对紫罗兰属种子进行分类的系统,包括:
至少一硬件处理器执行代码,用于:
将至少一图像输入到至少一神经网络中,所述至少一图像描绘具有统计上相似的可提取的至少一视觉特征的多个紫罗兰属种子,所述至少一图像由至少一成像传感器捕获,
其中,从所述多个紫罗兰属种子中的一种子的图像提取的至少一视觉特征在统计学上类似于从所述多个紫罗兰属种子中的另一个紫罗兰属种子的另一图像提取的对应的至少一视觉特征;和
由所述至少一神经网络为选自由单花和双花所组成的群组的所述多个紫罗兰属种子中的每一个计算未明确定义视觉特征的一个分类类别的指示,
其中,至少根据所述至少一神经网络的权重来计算至少一个分类类别的指示,
其中,所述至少一神经网络将具有相似的可提取的至少一视觉特征的所述多个紫罗兰属种子分类为选自由以下所组成的群组的一个分类类别:未明确定义视觉特征的单花和双花,和
其中,使用训练数据集训练所述至少一神经网络,所述训练数据集包括由所述至少一成像传感器捕获的多个紫罗兰属种子的多个训练图像,所述多个紫罗兰属种子具有统计上相似的可提取的至少一视觉特征,每个训练图像的每个紫罗兰属种子标记有相应的分类类别,所述分类类别的视觉特征未被明确地定义,所述分类类别选自由以下所组成的群组:单花和双花。
27.一种用于训练至少一神经网络以用于对其分选的紫罗兰属种子进行分类的装置,包括:
至少一硬件处理器,执行代码,用于:
访问多个紫罗兰属种子的多个训练图像,所述多个紫罗兰属种子具有由至少一个成像传感器捕获的统计上相似的可提取的至少一视觉特征,
其中,从所述多个紫罗兰属种子中的一个种子的图像提取的所述至少一视觉特征在统计学上类似于从所述多个紫罗兰属种子中的另一个紫罗兰属种子的另一图像提取的对应的至少一个视觉特征;
通过用相应的分类类别来标记每个训练图像的每个紫罗兰属种子来创建训练数据集,所述分类类别的视觉特征未被明确定义,所述分类类别选自由以下所组成的群组:单花和双花,
其中每个标记是通过在所述至少一成像传感器捕获所述紫罗兰属种子的所述相应训练图像之后种植所述相应紫罗兰属种子直到所述单花或双花在视觉上存在后来确定;和
使用训练数据集训练至少一神经网络,所述至少一神经网络被训练用于生成响应于由至少一成像传感器捕获的描绘至少一种子的至少一目标图像的输入来生成一个分类类别的指示的结果,所述分类类别的视觉特征未被明确定义,所述分类类别选自由以下所组成的群组:单花和双花,
其中,所述至少一个目标图像的至少一个分类类别的所述指示至少根据所述至少一经训练的神经网络的权重计算,
其中,所述至少一神经网络将具有相似的可提取的至少一视觉特征的所述多个紫罗兰属种子分类为一个分类类别,所述分类类别选自由以下所组成的群组:单花和双花,所述分类类别的视觉特征未被明确定义。
28.一种包含多个紫罗兰属种子的容器,其中,至少90%的种子是双花种子,并且其中所述多个紫罗兰属种子包含超过100个种子。
29.一种包含多个紫罗兰属种子的容器,其中,至少90%的种子是单花种子,并且其中所述多个紫罗兰属种子包含超过100个种子。
30.根据权利要求28或29所述的容器,其中,所述多个种子的重量超过10克。
31.根据权利要求28至30中任一项所述的容器,其中,所述紫罗兰属种子属于Matthiola incana。
32.根据权利要求28至31中任一项所述的容器,其中,所述紫罗兰种子属于铁系列。
33.一种种植作物的方法,包括播种根据权利要求28至32中任一项所述的容器的种子,从而种植所述作物。
34.一种对紫罗兰属种子进行分类的方法,包括:
种植未分类的紫罗兰属种子;
捕获所述紫罗兰属种子的至少一图像;和
根据输入有所述至少一图像的经训练的神经网络模型的结果,将相应的紫罗兰属种子分类为从多个分类类别中选择的特定分类类别。
35.一种通过根据权利要求34所述的方法种植被分类为特定分类类别的紫罗兰属种子来生成紫罗兰属幼苗的方法。
36.一种通过根据权利要求34所述的方法种植被分类为所述特定分类类别的所述紫罗兰属种子来生成植株的方法。
37.一种通过根据权利要求34所述的方法种植被分类为特定分类类别的所述紫罗兰属种子并在种植时切割植株来种植紫罗兰属植株的切段的方法。
38.一种通过根据权利要求34所述的方法种植被分类为所述特定分类类别的所述紫罗兰属种子来生产紫罗兰属幼苗的方法。
39.一种包含多个紫罗兰属幼苗的容器,其中至少目标百分比的所述幼苗是使用权利要求34所述的方法分类的特定分类类别。
40.一种生产多个紫罗兰属幼苗的容器的方法,包括根据权利要求34所述的方法种植被分类为所述特定分类类别的所述紫罗兰属种子,并将所述紫罗兰属幼苗放入所述容器中。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163211029P | 2021-06-16 | 2021-06-16 | |
US63/211,029 | 2021-06-16 | ||
NL2028466 | 2021-06-16 | ||
PCT/IB2022/055573 WO2022264076A1 (en) | 2021-06-16 | 2022-06-16 | Methods of sorting matthiola seeds |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117980080A true CN117980080A (zh) | 2024-05-03 |
Family
ID=90850052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280055260.1A Pending CN117980080A (zh) | 2021-06-16 | 2022-06-16 | 分选紫罗兰属种子的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117980080A (zh) |
-
2022
- 2022-06-16 CN CN202280055260.1A patent/CN117980080A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240116083A1 (en) | Methods of sorting matthiola seeds | |
Miao et al. | Semantic segmentation of sorghum using hyperspectral data identifies genetic associations | |
Feldmann et al. | Multi-dimensional machine learning approaches for fruit shape phenotyping in strawberry | |
Sakoda et al. | Genetic diversity in stomatal density among soybeans elucidated using high-throughput technique based on an algorithm for object detection | |
Liu et al. | Deep learning for image-based large-flowered chrysanthemum cultivar recognition | |
Miao et al. | Automation of leaf counting in maize and sorghum using deep learning | |
Otyama et al. | Genotypic characterization of the US peanut core collection | |
Kenchanmane Raju et al. | Leaf Angle eXtractor: A high‐throughput image processing framework for leaf angle measurements in maize and sorghum | |
CN111291686B (zh) | 农作物根果表型参数的提取与根果表型判别方法及系统 | |
Li et al. | Defining strawberry shape uniformity using 3D imaging and genetic mapping | |
Xu et al. | Objective phenotyping of root system architecture using image augmentation and machine learning in alfalfa (Medicago sativa L.) | |
CN113011221A (zh) | 作物分布信息的获取方法、装置及测量系统 | |
Blanco‐Pastor et al. | Bees explain floral variation in a recent radiation of Linaria | |
Rolland et al. | HairNet: a deep learning model to score leaf hairiness, a key phenotype for cotton fibre yield, value and insect resistance | |
Mursyidin et al. | Genetic evaluation of tidal swamp rice from South Kalimantan, Indonesia based on the agro-morphological markers | |
Deng et al. | Image features and DUS testing traits for peanut pod variety identification and pedigree analysis | |
Tross et al. | 3D reconstruction identifies loci linked to variation in angle of individual sorghum leaves | |
Naeem et al. | Early gender identification of date palm using machine learning | |
Chacón et al. | A quantitative framework for flower phenotyping in cultivated carnation (Dianthus caryophyllus L.) | |
CN118216422B (zh) | 一种基于深度学习的表型辅助柠檬育种方法 | |
Zhu et al. | Exploring soybean flower and pod variation patterns during reproductive period based on fusion deep learning | |
CN117980080A (zh) | 分选紫罗兰属种子的方法 | |
Spanoghe et al. | Genetic patterns recognition in crop species using self-organizing map: The example of the highly heterozygous autotetraploid potato (Solanum tuberosum L.) | |
NL2028466B1 (en) | Methods of sorting matthiola seeds | |
Leiva et al. | ScabyNet, a user-friendly application for detecting common scab in potato tubers using deep learning and morphological traits |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |