CN112906821B

CN112906821B - 一种淀粉粒的种属识别方法、装置及电子设备

Info

Publication number: CN112906821B
Application number: CN202110314903.7A
Authority: CN
Inventors: 关莹
Original assignee: Institute Of Vertebrate Paleontology And Paleoanthropology
Current assignee: Institute Of Vertebrate Paleontology And Paleoanthropology
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2023-09-01
Anticipated expiration: 2041-03-24
Also published as: CN112906821A

Abstract

本发明提供了一种淀粉粒的种属识别方法、装置及电子设备，本发明中的种属识别模型基于包括淀粉粒样本的特征信息以及种属的训练样本训练得到，则该种属识别模型能够识别出淀粉粒的种属。进一步，该集合包括多个顺序排列的种属识别模型，能够在一个种属识别模型不能识别出淀粉粒的种属时，调用下一个种属识别模型进行种属识别，保证可靠性。此外，种属识别模型的训练样本为与种属识别模型相邻的上一种属识别模型的训练样本中，种属识别准确度低于预设阈值的种属对应的训练数据，则顺序排列的种属识别模型依次进行种属识别时，能够从数量越来越少的种属中来确定目标淀粉粒的种属，能够更精准的识别出淀粉粒的种属，提高了种属确定的准确度。

Description

一种淀粉粒的种属识别方法、装置及电子设备

技术领域

本发明涉及种类识别领域，更具体的说，涉及一种淀粉粒的种属识别方法、装置及电子设备。

背景技术

随着考古、古环境研究的不断发展，能够基于地层中出土的植物淀粉粒的种属，来推测古人类、古生物的生活情况。

具体的，在确定淀粉粒的种属时，一般是研究者们从考古遗址出土的土壤、人工制品表面、人类牙齿表面、动物牙齿表面提取出淀粉粒物质，然后通过人工识别淀粉粒的种属的方式对淀粉粒的种属进行鉴定，但是这种方式，容易受到人工经验的影响，淀粉粒种属确定的准确度较低。

发明内容

有鉴于此，本发明提供一种淀粉粒的种属识别方法、装置及电子设备，以解决淀粉粒种属确定的准确度较低的问题。

为解决上述技术问题，本发明采用了如下技术方案：

一种淀粉粒的种属识别方法，包括：

获取目标淀粉粒的特征信息；所述特征信息包括所述目标淀粉粒的生物特征点在预设坐标系中的坐标点；

获取预先生成的种属识别模型集合；所述种属识别模型集合包括多个顺序排列的种属识别模型；所述种属识别模型基于训练样本训练得到；所述训练样本包括淀粉粒样本的特征信息以及种属；种属识别模型的训练样本，为与所述种属识别模型相邻的上一种属识别模型的训练样本中，种属识别准确度低于预设阈值的种属对应的训练数据；

按照所述种属识别模型的排列顺序，依次调用所述种属识别模型集合中的种属识别模型对所述特征信息进行处理，直至所述种属识别模型确定的所述目标淀粉粒的种属的种属识别准确度大于所述预设阈值时停止；

将所述种属识别模型确定的所述目标淀粉粒的种属，确定为所述目标淀粉粒的种属。

可选地，获取目标淀粉粒的特征信息，包括：

识别出按照预设摆放位置摆放的目标淀粉粒的指定区域；所述指定区域包括脐点、外轮廓以及消光十字臂；

按照预设特征点选取规则，在所述指定区域选取出生物特征点。

可选地，按照预设特征点选取规则，在所述指定区域选取出生物特征点，包括：

确定识别出的消光十字臂的位置关系；

选取与所述位置关系对应的预设消光十字臂序号确定规则；

依据预设消光十字臂序号确定规则，确定识别出的消光十字臂的序号；

按照所述序号对所述消光十字臂进行排序；

依据预设特征点选取规则，依次在所述脐点、所述外轮廓、以及排序后的所述消光十字臂上选取出生物特征点。

可选地，所述种属识别模型集合的生成过程包括：

获取训练样本集合；所述训练样本集合包括淀粉粒样本的特征信息以及种属；

将所述训练样本集合拆分成训练样本和测试样本；

使用所述训练样本对初始模型进行训练，直至满足预设训练停止条件时停止，以及使用所述测试样本对所述初始模型进行测试，得到各个种属的种属识别准确度；

若存在至少一个种属识别准确度大于预设阈值，则将训练得到的初始模型作为一个种属识别模型；

使用种属识别准确度小于预设阈值的目标种属对应的训练样本和测试样本，对所述初始模型进行模型训练操作，得到至少一个种属识别模型。

可选地，使用种属识别准确度小于预设阈值的目标种属对应的训练样本和测试样本，对所述初始模型进行模型训练操作，得到至少一个种属识别模型，包括：

筛选出种属识别准确度小于预设阈值的目标种属，并从所述训练样本中筛选出与所述目标种属对应的训练数据，并作为新的训练样本；

从所述测试样本中筛选出的与所述目标种属对应的测试数据，并作为新的测试样本；

返回执行使用所述训练样本对初始模型进行训练，直至满足预设训练停止条件时停止，以及使用所述测试样本对所述初始模型进行测试，得到各个种属的种属识别准确度这一步骤，直至得到每一种属对应的种属识别模型时停止。

可选地，在得到每一种属对应的种属识别模型之后，还包括：

对所述种属识别模型进行优化操作，得到新的种属识别模型。

可选地，对所述种属识别模型进行优化操作，得到新的种属识别模型，包括：

确定所述种属识别模型能够识别的种属，并作为指定种属；

将所述种属识别模型的训练样本中，除所述指定种属之外的其他种属对应的测试数据中的种属修改为同一预设标识，得到修改后的训练样本；

使用修改后的训练样本对所述种属识别模型进行训练，得到新的种属识别模型。

一种淀粉粒的种属识别装置，包括：

信息获取模块，用于获取目标淀粉粒的特征信息；所述特征信息包括所述目标淀粉粒的生物特征点在预设坐标系中的坐标点；

模型获取模块，用于获取预先生成的种属识别模型集合；所述种属识别模型集合包括多个顺序排列的种属识别模型；所述种属识别模型基于训练样本训练得到；所述训练样本包括淀粉粒样本的特征信息以及种属；种属识别模型的训练样本，为与所述种属识别模型相邻的上一种属识别模型的训练样本中，种属识别准确度低于预设阈值的种属对应的训练数据；

模型处理模块，用于按照所述种属识别模型的排列顺序，依次调用所述种属识别模型集合中的种属识别模型对所述特征信息进行处理，直至所述种属识别模型确定的所述目标淀粉粒的种属的种属识别准确度大于所述预设阈值时停止；

种属确定模块，用于将所述种属识别模型确定的所述目标淀粉粒的种属，确定为所述目标淀粉粒的种属。

可选地，所述信息获取模块包括：

识别子模块，用于识别出按照预设摆放位置摆放的目标淀粉粒的指定区域；所述指定区域包括脐点、外轮廓以及消光十字臂；

特征确定子模块，用于按照预设特征点选取规则，在所述指定区域选取出生物特征点。

一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

相较于现有技术，本发明具有以下有益效果：

本发明提供了一种淀粉粒的种属识别方法、装置及电子设备，本发明中，获取目标淀粉粒的特征信息，然后按照种属识别模型的排列顺序，依次调用种属识别模型集合中的种属识别模型对特征信息进行处理，直至种属识别模型确定的目标淀粉粒的种属的准确度大于预设阈值时停止，并将种属识别模型确定的目标淀粉粒的种属，确定为目标淀粉粒的种属。由于本发明中的种属识别模型基于训练样本训练得到，训练样本包括淀粉粒样本的特征信息以及种属，则通过种属识别模型能够识别出淀粉粒的种属。进一步，本发明中，种属识别模型集合包括多个顺序排列的种属识别模型，能够在一个种属识别模型不能识别出淀粉粒的种属时，调用下一个种属识别模型进行种属识别，保证了种属确定的可靠性。此外，种属识别模型的训练样本为与所述种属识别模型相邻的上一种属识别模型的训练样本中，种属识别准确度低于预设阈值的种属对应的训练数据，则顺序排列的种属识别模型依次进行种属识别时，能够从数量越来越少的种属中来确定目标淀粉粒的种属，能够更精准的识别出淀粉粒的种属，提高了种属确定的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种淀粉粒的种属识别方法的方法流程图；

图2为本发明实施例提供的一种淀粉粒摆放的场景示意图；

图3为本发明实施例提供的另一种淀粉粒的种属识别方法的方法流程图；

图4为本发明实施例提供的一种淀粉粒的结构示意图；

图5为本发明实施例提供的一种淀粉粒的结构示意图；

图6为本发明实施例提供的又一种淀粉粒的种属识别方法的方法流程图；

图7为本发明实施例提供的再一种淀粉粒的种属识别方法的方法流程图；

图8为本发明实施例提供的一种淀粉粒的种属识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

上世纪90年代，考古学领域出现了以地层中出土植物淀粉粒论证古人类生存问题的新研究方向。研究者们从考古遗址出土的土壤、人工制品表面、人类牙齿表面、动物牙齿表面提取出淀粉粒物质，通过对其植物种属的鉴定，讨论古人类遗址中发生的古人类植物资源利用，以及生态环境等问题。

发明人发现，可以通过形态对照方法进行淀粉粒种属的确定，具体的，采集现代种属明确的植物，用于制备淀粉粒，建立好囊括了一定种类数量的已知淀粉粒图像库后，根据图像库中的不同种类淀粉特征，对未知淀粉粒进行对照鉴定。形态上的对照要点包括了淀粉粒二维及三维形态、尺寸、淀粉体表面特征等。

然而，发明人发现，淀粉粒属于植物体的衍生物质，不同于植物花粉等生殖细胞，淀粉粒带有遗传信息十分有限，因此在三维形态上，同种植物同一器官中淀粉粒的形态变异较大，在很多情况下对种属未知淀粉粒的鉴定只能根据其可测量形态参数的分布范围，给出人工主观判断，但是人工主观判断容易受到人工经验的影响，判断准确度较低。此外，对于很多古代遗址中出土的淀粉粒遗存，由于颗粒数量有限，远远低于有统计意义数据量，因此这种鉴定的准确率无法客观评估；另外，用于种属鉴定的现生植物淀粉粒对比数据库建立并不完善，并且进展相对缓慢，也大大地限制了植物淀粉粒鉴定工作的进展，从而阻碍了对古遗址出土淀粉粒数据的解读，极大地限制了该领域的发展。

为了解决上述的人工确定淀粉粒种属的准确度较低的技术问题，发明人经过研究发现，可以通过机器学习的方式进行模型训练，训练得到能够识别淀粉粒种属的模型，然后将未知种属的淀粉粒的特征输入，即可得到该淀粉粒的种属。

进一步的，为了避免在已知的种属数量较多，导致模型识别准确度较低的问题，发明人发现，可以训练多个模型，多个模型顺序排列，顺序往后的模型识别的种属的数量逐渐减少，这样能够未知的淀粉粒在输入前后的模型后，淀粉粒与前边模型能够识别出来的种属的特征差异较大时，说明前边模型能够识别的种属不是该淀粉粒的种属，此时，使用后边的模型以此识别，直至遇到能够准确识别该种属的模型，并将该模型识别出的种属确定为该淀粉粒的种属。

具体的，本发明中，获取目标淀粉粒的特征信息，然后按照种属识别模型的排列顺序，依次调用种属识别模型集合中的种属识别模型对特征信息进行处理，直至种属识别模型确定的目标淀粉粒的种属的准确度大于预设阈值时停止，并将种属识别模型确定的目标淀粉粒的种属，确定为目标淀粉粒的种属。由于本发明中的种属识别模型基于训练样本训练得到，训练样本包括淀粉粒样本的特征信息以及种属，则通过种属识别模型能够识别出淀粉粒的种属。进一步，本发明中，种属识别模型集合包括多个顺序排列的种属识别模型，能够在一个种属识别模型不能识别出淀粉粒的种属时，调用下一个种属识别模型进行种属识别，保证了种属确定的可靠性。此外，种属识别模型的训练样本为与所述种属识别模型相邻的上一种属识别模型的训练样本中，种属识别准确度低于预设阈值的种属对应的训练数据，则顺序排列的种属识别模型依次进行种属识别时，能够从数量越来越少的种属中来确定目标淀粉粒的种属，能够更精准的识别出淀粉粒的种属，提高了种属确定的准确度。

在上述内容的基础上，本发明实施例提供了一种淀粉粒的种属识别方法，参照图1，可以包括：

S11、获取目标淀粉粒的特征信息。

所述特征信息包括所述目标淀粉粒的生物特征点在预设坐标系中的坐标点。所述生物特征点为按照预设特征点选取规则，在所述目标淀粉粒的脐点、外轮廓以及消光十字臂上选取的点。

在实际应用中，目标淀粉粒是需要进行种属识别的淀粉粒，由于只有在对不同形态的淀粉粒进行标准摆位后，后期才能够获得统一的形态学特征，也能够避免在进行模型训练时，随意摆位提取的特征信息无规律性，导致训练的模型的准确度较低的问题。因此，为了使显微镜下观测到的方位杂乱的淀粉粒具有统一的摆放方向和位置，体现出标准的解剖学方位，以进行标准化的形态学标记，本发明中，在对目标淀粉粒提取特征信息之前，需要对目标淀粉粒进行标准摆位，摆位操作是本发明中的重要一步。

发明人对目前所发现的所有形状淀粉粒的标准形态进行了研究，得到了摆位原则，具体摆位原则如下：

1)淀粉粒长轴置于90°；

2)满足1)的条件下检查淀粉粒脐点是否位于极坐标系135°-35°范围之间，此时如果淀粉粒位于该区域，则标准摆位完成。如不在该范围内则进行3)的操作；

3)将淀粉粒在极坐标中旋转90°。此时如果淀粉粒位于该区域，则标准摆位完成。如不在该范围内则继续进行3)的操作，直至淀粉粒长轴位于0°或90°，同时其脐点位于极坐标系135°-35°范围之间；

4)如果淀粉粒不能通过步骤1)、2)和3)达到同时满足“长轴位于0°或90°，同时其脐点位于极坐标系135°-35°范围之间”，则需要将该图像依长轴镜像翻转，然后执行步骤1)、2)和3)，直至满足“长轴位于0°或90°，同时其脐点位于极坐标系135°-35°范围之间”；

5)三角形淀粉粒应不考虑长轴方向，始终以脐点向上方向摆放。

目前世界范围内研究者所发现的植物淀粉粒大致分为16个二维形态，以其中的两个淀粉粒进行举例说明，其标准摆位示例见图2。

通过上述的摆位原则进行摆位，得到了按照预设摆放位置摆放的目标淀粉粒，然后识别出按照预设摆放位置摆放的目标淀粉粒的指定区域；所述指定区域包括脐点、外轮廓以及消光十字臂；并按照预设特征点选取规则，在指定区域，即脐点、所述外轮廓以及所述消光十字臂上选取出生物特征点。

本发明的另一实施例中，给出了“按照预设特征点选取规则，在所述指定区域选取出生物特征点”，具体的，参照图3，可以包括：

S21、确定识别出的消光十字臂的位置关系。

获得了经过标准摆位的淀粉粒图像后，将每颗淀粉粒置入极坐标系中，淀粉粒几何中心点位置与极坐标系中心点重合，使得淀粉粒边缘获得了16个依据极坐标系角度定义的坐标点(landmark)。发明人在整个淀粉粒形态上规定了35个具有形态特征代表性的坐标点，也即上述的特征信息中的生物特征点，现对生物特征点的确定过程进行详细介绍。

1)定义脐点的坐标点Landmark

将淀粉粒脐点中心定义为Landmark01，简称LM01；脐点长轴方向上部边缘点定义为LM02；脐点长轴方向下部边缘点定义为LM03；

2)定义淀粉粒轮廓上的坐标点Landmark

参照图4，图4a中的淀粉粒消光十字臂为无曲折直臂；图4b中的淀粉粒消光十字臂存在一处曲折，图4c中的淀粉粒消光十字臂存在两处曲折，图4d中的淀粉粒消光十字臂存在三处曲折。

确定极坐标系中的虚线(0°-337.5°)与淀粉粒轮廓的交叉点，从90°方向开始按顺时针排序定义为LM04-LM19。

3)定义淀粉粒消光十字臂顺序：

a.消光十字臂在极坐标参照系中，呈水平垂直交叉状态时(参照图5右侧的图)：

90°十字臂定义为第1条消光十字臂；

0°十字臂定义为第2条消光十字臂；

270°十字臂定义为第3条消光十字臂；

180°十字臂定义为第4条消光十字臂。

b.消光十字臂在极坐标参照系中，呈非水平垂直状态时(参照图5左侧的图)：

极坐标系中180°～90°区域内定义为第1条消光十字臂；

极坐标系中90°～0°区域内定义为第2条消光十字臂；

极坐标系中0°～270°区域内定义为第3条消光十字臂；

极坐标系中270°～180°区域内定义为第4条消光十字臂。

根据上述论述，四个消光十字臂呈现水平垂直交叉状态和呈非水平垂直状态时，消光十字臂的序号(第几条)的定义不同，所以本实施例中，在确定消光十字臂的序号之前，需要确定消光十字臂的位置关系。

S22、选取与所述位置关系对应的预设消光十字臂序号确定规则。

在确定出位置关系之后，从上述的定义淀粉粒消光十字臂顺序中的ab定义中，选择出适合该位置关系的定义，如a，该定义即为本实施例中的预设消光十字臂序号确定规则。

S23、依据预设消光十字臂序号确定规则，确定识别出的消光十字臂的序号。

具体的，直接根据预设消光十字臂序号确定规则，确定识别出的消光十字臂的序号，得到第1-4条消光十字臂。

S24、按照所述序号对所述消光十字臂进行排序。

具体的，序号为第1条的排在前边，后边依次是2、3、4条。

S25、依据预设特征点选取规则，依次在所述脐点、所述外轮廓、以及排序后的所述消光十字臂上选取出生物特征点。

在所述脐点以及所述外轮廓上选取的生物特征点如上述的LM01-19。

另外，定义淀粉粒消光十字臂上的生物特征点Landmark的过程如下：

不同类型的十字臂landmark定义如下，请注意：在实际工作中，存在两个甚至多个landmark位置重合的情况，该情况下按实际位置标记即可，标记重合并不影响后期信息提取与计算。Landmark标记的数量和顺序必须按照说明进行，否则相关软件无法识别。

a.当消光十字臂无曲折时：

消光十字臂1中间点定义为LM20，十字臂1与淀粉粒轮廓交叉点定义为LM21，LM20与LM21线段中心点定义为LM22，LM21与LM22组成线段中心点定义为LM23；

消光十字臂2中间点定义为LM24，十字臂2与淀粉粒轮廓交叉点定义为LM25，LM24与LM25线段中心点定义为LM26，LM25与LM26组成线段中心点定义为LM27；

消光十字臂3中间点定义为LM28，十字臂3与淀粉粒轮廓交叉点定义为LM29，LM28与LM29线段中心点定义为LM30，LM29与LM30组成线段中心点定义为LM31；

消光十字臂4中间点定义为LM32，十字臂4与淀粉粒轮廓交叉点定义为LM33，LM32与LM33线段中心点定义为LM34，LM33与LM34组成线段中心点定义为LM35；

b.当消光十字臂存在1处曲折时:

消光十字臂1曲折点定义为LM20，十字臂1与淀粉粒轮廓交叉点定义为LM21，LM20与LM21线段中心点定义为LM22，LM21与LM22组成线段中心点定义为LM23；

消光十字臂2曲折点定义为LM24，十字臂2与淀粉粒轮廓交叉点定义为LM25，LM24与LM25线段中心点定义为LM26，LM25与LM26组成线段中心点定义为LM27；

消光十字臂3曲折点定义为LM28，十字臂3与淀粉粒轮廓交叉点定义为LM29，LM28与LM29线段中心点定义为LM30，LM29与LM30组成线段中心点定义为LM31；

消光十字臂4曲折点定义为LM32，十字臂4与淀粉粒轮廓交叉点定义为LM33，LM32与LM33线段中心点定义为LM34，LM33与LM34组成线段中心点定义为LM35；

c.当消光十字臂存在2处曲折时：

消光十字臂1距离脐点较近处的曲折点定义为LM20，十字臂1与淀粉粒轮廓交叉点定义为LM21，第二处曲折点定义为LM22，LM21与LM22组成线段中心点定义为LM23；

消光十字臂2距离脐点较近处的曲折点定义为LM24，十字臂2与淀粉粒轮廓交叉点定义为LM25，第二处曲折点定义为LM26，LM25与LM26组成线段中心点定义为LM27；

消光十字臂3距离脐点较近处的曲折点定义为LM28，十字臂3与淀粉粒轮廓交叉点定义为LM29，第二处曲折点定义为LM30，LM29与LM30组成线段中心点定义为LM31；

消光十字臂4距离脐点较近处的曲折点定义为LM32，十字臂4与淀粉粒轮廓交叉点定义为LM33，第二处曲折点定义为LM34，LM33与LM34组成线段中心点定义为LM35；

d.当消光十字臂存在3处曲折时：

消光十字臂1距离脐点较近处的曲折点定义为LM20，十字臂1与淀粉粒轮廓交叉点定义为LM21，与LM20相邻曲折点定义为LM22，第三处曲折点定义为LM23；

消光十字臂2距离脐点较近处的曲折点定义为LM24，十字臂2与淀粉粒轮廓交叉点定义为LM25，与LM24相邻曲折点定义为LM26，第三处曲折点定义为LM27；

消光十字臂3距离脐点较近处的曲折点定义为LM28，十字臂3与淀粉粒轮廓交叉点定义为LM29，与LM28相邻曲折点定义为LM30，第三处曲折点定义为LM31；

消光十字臂4距离脐点较近处的曲折点定义为LM32，十字臂4与淀粉粒轮廓交叉点定义为LM33，与LM32相邻曲折点定义为LM34，第三处曲折点定义为LM35。

通过上述方法，即可得到LM01-LM35这35个生物特征点，这35个生物特征点在极坐标系下的坐标点，组成了本实施例中的目标淀粉粒的特征信息。在确定坐标点时，可以采用tpsUtil和tpsDig软件、R语言、MorphoJ、SHAPE、PAST等工具对所定义的坐标点进行提取，提取和几何形态学坐标点的软件不限于本方案中所列举，其他可实现的软件也是本发明的保护范围。

需要说明的是，上述的LM20-LM35这35个生物特征点的简单介绍也可以参照表1，具体如下：

表1

标记点	十字臂无曲折	十字臂有1处曲折	十字臂有2处曲折	十字臂有3处曲折
					LM20	十字臂1中间点	十字臂1曲折点	十字臂1距离脐点较近处的曲折点	十字臂1距离脐点较近处的曲折点
LM21	十字臂1与淀粉粒轮廓交叉点	十字臂1与淀粉粒轮廓交叉点	十字臂1与淀粉粒轮廓交叉点	十字臂1与淀粉粒轮廓交叉点
					LM22	LM20与LM21线段中心点	LM20与LM21线段中心点	十字臂1另一处曲折点	十字臂1距离LM20较近处的曲折点
LM23	LM21与LM22线段中心点	LM21与LM22线段中心点	LM21与LM22线段中心点	十字臂1最后一处曲折点
					LM24	十字臂2中间点	十字臂2曲折点	十字臂2距离脐点较近处的曲折点	十字臂2距离脐点较近处的曲折点
LM25	十字臂2与淀粉粒轮廓交叉点	十字臂2与淀粉粒轮廓交叉点	十字臂2与淀粉粒轮廓交叉点	十字臂2与淀粉粒轮廓交叉点
					LM26	LM24与LM25线段中心点	LM24与LM25线段中心点	十字臂2另一处曲折点	十字臂2距离LM24较近处的曲折点
LM27	LM25与LM26线段中心点	LM25与LM26线段中心点	LM26与LM25线段中心点	十字臂2最后一处曲折点
					LM28	十字臂3中间点	十字臂3曲折点	十字臂3距离脐点较近处的曲折点	十字臂3距离脐点较近处的曲折点
LM29	十字臂3与淀粉粒轮廓交叉点	十字臂3与淀粉粒轮廓交叉点	十字臂3与淀粉粒轮廓交叉点	十字臂3与淀粉粒轮廓交叉点
					LM30	LM28与LM29线段中心点	LM28与LM29线段中心点	十字臂3另一处曲折点	十字臂3距离LM28较近处的曲折点
LM31	LM29与LM30线段中心点	LM29与LM30线段中心点	LM30与LM29线段中心点	十字臂3最后一处曲折点
					LM32	十字臂4中间点	十字臂4曲折点	十字臂4距离脐点较近处的曲折点	十字臂4距离脐点较近处的曲折点
LM33	十字臂4与淀粉粒轮廓交叉点	十字臂4与淀粉粒轮廓交叉点	十字臂4与淀粉粒轮廓交叉点	十字臂4与淀粉粒轮廓交叉点
					LM34	LM32与LM33线段中心点	LM32与LM33线段中心点	十字臂4另一处曲折点	十字臂4距离LM32较近处的曲折点
LM35	LM33与LM34线段中心点	LM33与LM34线段中心点	LM34与LM33线段中心点	十字臂4最后一处曲折点

另外，在本方案中，采用了35个几何形态学坐标点的参数，但在可操作的情况下，几何形态学坐标点数可任意增减，这种增减会影响判别模型的准确性。在有上述35个坐标点时，可以满足判别模型产生有效准确率，若更多地增加坐标点可能会不同程度提高模型准确率。

S12、获取预先生成的种属识别模型集合。

所述种属识别模型集合包括多个顺序排列的种属识别模型。

在实际应用中，种属识别模型是通过机器学习，如支持向量机算法(SupportingVector Machine)训练得到的。

在训练时，所述种属识别模型基于训练样本训练得到；所述训练样本包括淀粉粒样本的特征信息以及种属。其中，本实施例中的淀粉粒样本可以是能够收集到的所有种属对应的淀粉粒，然后通过上述的方法得到淀粉粒样本的特征信息，并且人工对淀粉粒样本的种属进行标定，即可得到训练样本。本实施例中的训练样本的数量越多越好，种属种类越多越好，同一种属的淀粉粒的数量也是越多越好。

对于一种属识别模型的训练样本，为与所述种属识别模型相邻的上一种属识别模型的训练样本中，种属识别准确度低于预设阈值的种属对应的训练数据，即顺序排列的种属识别模型的训练样本对应的种属总数量依次减少，进而使得顺序排列在之后的种属识别模型中的种属的识别准确度，高于顺序排列在之前的种属识别模型中对应的种属的识别准确度。

举例来说，多个顺序排列的种属识别模型为A-Z，那么A的训练样本中的种属总类型多于B，B的训练样本中的种属总类型多于C，依次类推。

假设A在进行训练时，识别到刀豆的准确度较高，大于预设阈值，如70％(此阈值可以是技术人员根据实际应用场景而定)，则说明A能够识别刀豆的淀粉粒，若种属识别准确度仅有刀豆大于70％，则从A的训练样本中，筛选出除刀豆之外的其他种属的训练数据，并使用该训练数据对模型进行训练，得到B模型，假设B在进行训练时，识别到“穿龙薯蓣”的准确度较高，大于预设阈值，如70％，则说明B能够识别出“穿龙薯蓣”这一种属，若种属识别准确度仅有“穿龙薯蓣”大于70％，则从B的训练样本中，筛选出除“穿龙薯蓣”之外的其他种属的训练数据，继续训练新的模型在，直至得到的所有模型中，有一个模型，对一个种属的识别准确度大于70％。

上述实施例仅以一个模型能够识别一个种属作为举例，在实际应用中，一个模型可以识别多个种属，如A模型能够识别出刀豆、滇南芋兰、百合三种，B模型能够识别出穿龙薯蓣、慈菇、菱、香蒲这四种，每个模型识别出的种属的数量可以不一致。

需要说明的是，以上述A模型得到的种属识别准确度中，仅有刀豆大于70％，则说明A模型在训练时，其余种属的淀粉粒的特征信息在刀豆的影响下，不能充分表现，所以需要将刀豆的数据剔除，重新训练新的模型，以使其他种属的淀粉粒的特征能够充分表现。

S13、按照所述种属识别模型的排列顺序，依次调用所述种属识别模型集合中的种属识别模型对所述特征信息进行处理，直至所述种属识别模型确定的所述目标淀粉粒的种属的种属识别准确度大于所述预设阈值时停止。

具体的，仍以上述模型A-Z为例，首先使用A模型对特征信息进行处理，得到识别结果，若该识别结果中，每一种属对应的种属识别准确度均小于预设阈值，如70％，此时，则调用B模型对特征信息进行处理，得到识别结果，若该识别结果中，刀豆对应的种属识别准确度大于预设阈值，如70％，则说明目标淀粉粒的种属为刀豆，若是该识别结果中，每一种属对应的种属识别准确度均小于预设阈值，如70％，则继续调用C继续处理，直至种属识别模型确定的所述目标淀粉粒的种属的准确度大于所述预设阈值时停止。

S14、将所述种属识别模型确定的所述目标淀粉粒的种属，确定为所述目标淀粉粒的种属。

在确定出所述目标淀粉粒的种属之后，后续可以有数据常规分析，包括各种类、流派的数据挖掘以及数据可视化展示等操作。

本实施例中，获取目标淀粉粒的特征信息，然后按照种属识别模型的排列顺序，依次调用种属识别模型集合中的种属识别模型对特征信息进行处理，直至种属识别模型确定的目标淀粉粒的种属的准确度大于预设阈值时停止，并将种属识别模型确定的目标淀粉粒的种属，确定为目标淀粉粒的种属。由于本发明中的种属识别模型基于训练样本训练得到，训练样本包括淀粉粒样本的特征信息以及种属，则通过种属识别模型能够识别出淀粉粒的种属。进一步，本发明中，种属识别模型集合包括多个顺序排列的种属识别模型，能够在一个种属识别模型不能识别出淀粉粒的种属时，调用下一个种属识别模型进行种属识别，保证了种属确定的可靠性。此外，种属识别模型的训练样本为与所述种属识别模型相邻的上一种属识别模型的训练样本中，种属识别准确度低于预设阈值的种属对应的训练数据，则顺序排列的种属识别模型依次进行种属识别时，能够从数量越来越少的种属中来确定目标淀粉粒的种属，能够更精准的识别出淀粉粒的种属，提高了种属确定的准确度。

上述实施例提及了使用种属识别模型对特征信息进行处理得到目标淀粉粒的种属的技术方案，本发明的另一实施例中，给出了“种属识别模型”的生成过程，参照图6，具体包括：

S31、获取训练样本集合；所述训练样本集合包括淀粉粒样本的特征信息以及种属。

具体的，淀粉粒样本的特征信息以及种属已经在上述内容中进行了介绍。

S32、将所述训练样本集合拆分成训练样本和测试样本。

具体的，可以按比例进行拆分，比例可以是：

训练样本：测试样本＝7:3。

S33、使用所述训练样本对初始模型进行训练，直至满足预设训练停止条件时停止，以及使用所述测试样本对所述初始模型进行测试，得到各个种属的种属识别准确度。

S34、若存在至少一个种属识别准确度大于预设阈值，则将训练得到的初始模型作为一个种属识别模型。

其中，训练和测试可以采用支持向量机算法(Supporting Vector Machine)。

更具体的，获得了淀粉粒样本的几何形态学数据，即特征信息之后。针对现生淀粉粒，采用计算机编程语言，自主编写脚本，将数据分为训练数据集和测试数据集，建立种属识别模型，并对模型进行验证和优化，最终得到种属识别模型。种属识别模型集合包括具有多个层次的套嵌结构的种属识别模型，其结构说明如下：

1)将所有种类淀粉粒的特征信息，即坐标点数据进行第一次分类建模，实验发现，支持向量机算法能够得到比其他算法更高的整体准确率，所以模型采用支持向量机算法(Supporting Vector Machine)对初始模型(本实施例中的初始模型为一个支持向量机模型)进行训练。但就不同种类淀粉粒而言，其准确率高低不等，在对模型进行训练后，将种属识别准确率较高(>70％)的淀粉粒种类归入第一级别种属，余下准确率欠佳(＜70％)的数据归入下一级别训练数据集，依次类推，直至每一种属都有对应的种属识别模型。

以10种淀粉粒数据为例，第一次建模准确率表格如表2：

表2

以表2中的刀豆为例进行说明，刀豆的淀粉粒总数量为28个，有25个被识别为刀豆，有2个被识别为菱，有1个被识别为赤小豆，识别准确度为89.3％，大于上述的预设阈值，70％，则说明该模型能够识别出刀豆，将该模型作为一个种属识别模型，从表2中可以看出，除了可以识别出刀豆，还可以识别出穿龙薯蓣、百合、慈菇这三种。

S35、是否得到每一种属对应的种属识别模型；若否，则执行步骤S36；若是，则结束。

具体的，对于每一种属，确定是否有对应的种属识别模型。其中，一个种属识别模型能够识别至少一个种属。

S36、筛选出种属识别准确度小于预设阈值的目标种属，并从所述训练样本中筛选出与所述目标种属对应的训练数据，并作为新的训练样本。

S37、从所述测试样本中筛选出的与所述目标种属对应的测试数据，并作为新的测试样本。

具体的，从表2中可以看出，不同种类淀粉粒识别准确率为36.7％-89.3％。将种属识别准确率低于70％的种属对应的训练数据(Other Group01)整体合为一组，测试数据整合为一组，对另一新模型，本实施例中称为初始模型进行训练，得到新的模型，该模型使用测试样本进行测试，得到的种属识别准确率如表3：

表3

需要说明的是，执行完步骤S37之后，返回执行步骤S33，不断迭代，最后形成套嵌式识别，使每个种类模型中均持有较高的准确率。

需要说明的是，本实施例中，将总体数据集不断建模并拆分，将每个层级得到较高准确率的模型保留，剩余数据集继续拆分建模，直至每种类型淀粉粒均得到较高识别准确率。

参照表4，表4给出了不同种属在现有的一次建模下的识别准确率和本实施例中的嵌式多层建模对应的识别准确率的比对，从表4中可以看出，本实施例中的，嵌式多层建模方法对淀粉粒数据识别准确率的提升幅度较大：

表4

/>

本实施例中，通过嵌式多层建模方法，得到包括多个种属识别模型的种属识别模型集合，使用种属识别模型集合中的种属识别模型能够提高淀粉粒的种属识别准确度。

需要说明的是，在本实施例中，模型采用了多层套嵌结构，该套嵌结构也可根据具体情况、技术使用者的不同诉求而增加或减少层级，如调整预设阈值可以改变模型的数量。

在上述实施例的基础上，本发明的另一实施例中，在得到每一种属对应的种属识别模型之后，还可以对所述种属识别模型进行优化操作，得到新的种属识别模型，具体的，优化过程参照图7，可以包括：

S41、确定所述种属识别模型能够识别的种属，并作为指定种属。

本实施例中，对于每一种属识别模型做相同的优化操作。

以上述的第一个模型为例(对应表2)，该模型可以识别出刀豆、穿龙薯蓣、百合、慈菇这四种，本实施例中，将这四种设定为指定种属。

S42、将所述种属识别模型的训练样本中，除所述指定种属之外的其他种属对应的测试数据中的种属修改为同一预设标识，得到修改后的训练样本。

具体的，获取训练得到该种属识别模型时的训练样本，确定出除了上述的刀豆、穿龙薯蓣、百合、慈菇这四种之外的其他种属，将该种属对应的淀粉粒样本对应的种属修改成同一预设标识，如NextGroup，即将种属识别准确率低于预设阈值的种属归为一类种属。

S43、使用修改后的训练样本对所述种属识别模型进行训练，得到新的种属识别模型。

训练完成后，对该种属识别模型的测试数据做与训练数据同样的处理，然后使用该测试数据进行测试，得到的测试结果如表5。

表5

由表5可以看出，通过对分类难度较大的分散类别整合成同一预设标识，实现了看了识别出的种属的种属识别准确率的提升，在实例中，刀豆的淀粉粒识别准确率由89.3％增至92.86％，穿龙薯蓣淀粉粒识别的准确率由76.7％增至83.33％，百合淀粉粒的识别准确率由76.7％增至80％。

可选地，在上述淀粉粒的种属识别方法的实施例的基础上，本发明的另一实施例提供了一种淀粉粒的种属识别装置，参照图8，可以包括：

信息获取模块11，用于获取目标淀粉粒的特征信息；所述特征信息包括所述目标淀粉粒的生物特征点在预设坐标系中的坐标点；

模型获取模块12，用于获取预先生成的种属识别模型集合；所述种属识别模型集合包括多个顺序排列的种属识别模型；所述种属识别模型基于训练样本训练得到；所述训练样本包括淀粉粒样本的特征信息以及种属；种属识别模型的训练样本，为与所述种属识别模型相邻的上一种属识别模型的训练样本中，种属识别准确度低于预设阈值的种属对应的训练数据；

模型处理模块13，用于按照所述种属识别模型的排列顺序，依次调用所述种属识别模型集合中的种属识别模型对所述特征信息进行处理，直至所述种属识别模型确定的所述目标淀粉粒的种属的种属识别准确度大于所述预设阈值时停止；

种属确定模块14，用于将所述种属识别模型确定的所述目标淀粉粒的种属，确定为所述目标淀粉粒的种属。

进一步，所述信息获取模块包括：

进一步，特征确定子模块包括：

关系确定单元，用于确定识别出的消光十字臂的位置关系；

规则选取单元，用于选取与所述位置关系对应的预设消光十字臂序号确定规则；

序号确定单元，用于依据预设消光十字臂序号确定规则，确定识别出的消光十字臂的序号；

排序单元，用于按照所述序号对所述消光十字臂进行排序；

特征选取单元，用于依据预设特征点选取规则，依次在所述脐点、所述外轮廓、以及排序后的所述消光十字臂上选取出生物特征点。

进一步，还包括：

模型生成模块；

模型生成模块，包括：

样本获取子模块，用于获取训练样本集合；所述训练样本集合包括淀粉粒样本的特征信息以及种属；

样本拆分子模块，用于将所述训练样本集合拆分成训练样本和测试样本；

训练子模块，用于使用所述训练样本对初始模型进行训练，直至满足预设训练停止条件时停止，以及使用所述测试样本对所述初始模型进行测试，得到各个种属的种属识别准确度；

第一模型确定子模块，用于若存在至少一个种属识别准确度大于预设阈值，则将训练得到的初始模型作为一个种属识别模型；

第二模型确定子模块，用于使用种属识别准确度小于预设阈值的目标种属对应的训练样本和测试样本，对所述初始模型进行模型训练操作，得到至少一个种属识别模型。

进一步，第二模型确定子模块具体用于：

进一步，还包括：

模型优化子模块，用于在得到每一种属对应的种属识别模型之后，对所述种属识别模型进行优化操作，得到新的种属识别模型。

进一步，模型优化子模块包括：

种属确定单元，用于确定所述种属识别模型能够识别的种属，并作为指定种属；

样本调整单元，用于将所述种属识别模型的训练样本中，除所述指定种属之外的其他种属对应的测试数据中的种属修改为同一预设标识，得到修改后的训练样本；

模型修正单元，用于使用修改后的训练样本对所述种属识别模型进行训练，得到新的种属识别模型。

需要说明的是，本实施例中的各个模块、子模块和单元的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选地，在上述淀粉粒的种属识别方法及装置的实施例的基础上，本发明的另一实施例提供了一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

进一步，获取目标淀粉粒的特征信息，包括：

进一步，按照预设特征点选取规则，在所述指定区域选取出生物特征点，包括：

确定识别出的消光十字臂的位置关系；

选取与所述位置关系对应的预设消光十字臂序号确定规则；

按照所述序号对所述消光十字臂进行排序；

进一步，所述种属识别模型集合的生成过程包括：

将所述训练样本集合拆分成训练样本和测试样本；

进一步，使用种属识别准确度小于预设阈值的目标种属对应的训练样本和测试样本，对所述初始模型进行模型训练操作，得到至少一个种属识别模型，包括：

进一步，在得到每一种属对应的种属识别模型之后，还包括：

进一步，对所述种属识别模型进行优化操作，得到新的种属识别模型，包括：

确定所述种属识别模型能够识别的种属，并作为指定种属；

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种淀粉粒的种属识别方法，其特征在于，包括：

2.根据权利要求1所述的种属识别方法，其特征在于，获取目标淀粉粒的特征信息，包括：

3.根据权利要求2所述的种属识别方法，其特征在于，按照预设特征点选取规则，在所述指定区域选取出生物特征点，包括：

确定识别出的消光十字臂的位置关系；

选取与所述位置关系对应的预设消光十字臂序号确定规则；

按照所述序号对所述消光十字臂进行排序；

4.根据权利要求2所述的种属识别方法，其特征在于，所述种属识别模型集合的生成过程包括：

将所述训练样本集合拆分成训练样本和测试样本；

5.根据权利要求4所述的种属识别方法，其特征在于，使用种属识别准确度小于预设阈值的目标种属对应的训练样本和测试样本，对所述初始模型进行模型训练操作，得到至少一个种属识别模型，包括：

6.根据权利要求5所述的种属识别方法，其特征在于，在得到每一种属对应的种属识别模型之后，还包括：

7.根据权利要求6所述的种属识别方法，其特征在于，对所述种属识别模型进行优化操作，得到新的种属识别模型，包括：

确定所述种属识别模型能够识别的种属，并作为指定种属；

8.一种淀粉粒的种属识别装置，其特征在于，包括：

9.根据权利要求8所述的种属识别装置，其特征在于，所述信息获取模块包括：

10.一种电子设备，其特征在于，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：