CN110852376B

CN110852376B - 用于识别生物种类的方法及系统

Info

Publication number: CN110852376B
Application number: CN201911092049.3A
Authority: CN
Inventors: 徐青松; 李青
Original assignee: Hangzhou Glority Software Ltd
Current assignee: Hangzhou Glority Software Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2023-05-26
Anticipated expiration: 2039-11-11
Also published as: CN110852376A

Abstract

本公开涉及一种用于识别生物种类的方法，包括：基于第一样本集建立用于识别生物种类的第一识别模型，其中，第一样本集中对生物的每个种类的样本个数基本相同；基于第一识别模型向用户提供识别生物种类的服务，并记录用户使用第一识别模型识别的生物的每个种类的各自的次数；建立第二样本集，其中，根据所记录的各自的次数，来设置第二样本集中针对生物的每个种类的样本个数，从而建立第二样本集；基于第二样本集对第一识别模型进行训练，以建立用于识别生物种类的第二识别模型；以及基于第二识别模型向目标用户提供识别生物种类的服务。本公开还涉及用于识别生物种类的系统、以及建立用于识别生物种类的模型的方法及系统。

Description

用于识别生物种类的方法及系统

技术领域

本公开涉及计算机技术领域，尤其涉及用于识别生物种类的方法及系统、以及建立用于识别生物种类的模型的方法及系统。

背景技术

计算机技术领域中，存在多种对生物种类进行识别的应用，例如，对动物、植物或微生物的种类(包括门、亚门、总纲、纲、亚纲、总目、目、亚目、总科、科、亚科、总属、属、亚属、总种、种、亚种等)进行识别的应用。这些应用通常接收来自用户的包含被识别生物的至少一部分的影像(包括静态图像、动态图像、以及视频等)，基于预先训练的生物种类识别模型来识别影像中的生物的种类。

发明内容

本公开的一个目的是提供用于识别生物种类的方法及系统、以及建立用于识别生物种类的模型的方法及系统。

根据本公开的第一方面，提供了一种用于识别生物种类的方法，包括：基于第一样本集建立用于识别生物种类的第一识别模型，其中，所述第一样本集中对生物的每个种类的样本个数基本相同；基于所述第一识别模型向用户提供识别生物种类的服务，并记录所述用户使用所述第一识别模型识别的生物的每个种类的各自的次数；建立第二样本集，其中，根据所记录的所述各自的次数，来设置所述第二样本集中针对生物的每个种类的样本个数，从而建立所述第二样本集；基于所述第二样本集对所述第一识别模型进行训练，以建立用于识别生物种类的第二识别模型；以及基于所述第二识别模型向目标用户提供识别生物种类的服务。

根据本公开的第二方面，提供了一种建立用于识别生物种类的模型的方法，包括：使用第一样本集对神经网络进行第一训练，得到能够识别生物种类的第一识别模型，其中，所述第一样本集中对生物的每个种类的样本个数基本相同；根据所述第一识别模型被用来识别生物种类的情况，使用相对于所述第一样本集新增的样本来建立第二样本集，所述第二样本集中至少包括用于生物的第一种类的样本，其中，所述第一识别模型被用来识别所述第一种类的次数大于第一阈值；以及使用所述第二样本集对所述第一识别模型进行第二训练，以建立用于识别生物种类的所述模型。

根据本公开的第三方面，提供了一种建立用于识别生物种类的模型的方法，包括：使用第一样本集对初始神经网络进行第一训练，得到能够识别生物种类的第一识别模型；根据用户使用所述第一识别模型识别的生物的每个种类的各自的次数，来设置第二样本集中针对生物的每个种类的样本个数，从而建立所述第二样本集；以及使用所述第二样本集对所述初始神经网络进行第二训练，以建立用于识别生物种类的所述模型。

根据本公开的第四方面，提供了一种建立用于识别生物种类的模型的方法，包括：基于第一样本集建立用于识别生物种类的第一识别模型，其中，所述第一样本集中对生物的每个种类的样本个数基本相同；基于所述第一识别模型向用户提供识别生物种类的服务，并记录所述用户使用所述第一识别模型识别的生物的每个种类的各自的次数；建立第二样本集，其中，根据所记录的所述各自的次数，来设置所述第二样本集中针对生物的每个种类的样本个数，从而建立所述第二样本集；以及基于所述第二样本集对所述第一识别模型进行训练，以建立用于识别生物种类的第二识别模型。

根据本公开的第五方面，提供了一种用于识别生物种类的系统，包括：一个或多个处理器；以及一个或多个存储器，所述一个或多个存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据，其中，当所述一系列计算机可执行的指令被所述一个或多个处理器执行时，使得所述一个或多个处理器进行如上所述的用于识别生物种类的方法。

根据本公开的第六方面，提供了一种建立用于识别生物种类的模型的系统，包括：一个或多个处理器；以及一个或多个存储器，所述一个或多个存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据，其中，当所述一系列计算机可执行的指令被所述一个或多个处理器执行时，使得所述一个或多个处理器进行如上所述的建立用于识别生物种类的模型的方法。

根据本公开的第七方面，提供了一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令，当所述一系列计算机可执行的指令被一个或多个计算装置执行时，使得所述一个或多个计算装置进行如上所述的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示意性地示出根据本公开的实施例的用于识别生物种类的方法的至少一部分的流程图。

图2是示意性地示出根据本公开的实施例的建立用于识别生物种类的模型的方法的至少一部分的示意图。

图3是示意性地示出根据本公开的实施例的建立用于识别生物种类的模型的方法的至少一部分的示意图。

图4是示意性地示出根据本公开的实施例的用于识别生物种类的系统或建立用于识别生物种类的模型的系统的至少一部分的结构图。

图5是示意性地示出根据本公开的实施例的用于识别生物种类的系统或建立用于识别生物种类的模型的系统的至少一部分的结构图。

图6A至6C是分别示意性地示出根据本公开的方法中第一样本集和第二样本集中的样本的关系的示意图。

注意，在以下说明的实施方式中，有时在不同的附图之间共同使用同一附图标记来表示相同部分或具有相同功能的部分，而省略其重复说明。在本说明书中，使用相似的标号和字母表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

具体实施方式

以下将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。在下面描述中，为了更好地解释本公开，阐述了许多细节，然而可以理解的是，在没有这些细节的情况下也可以实践本公开。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

参照图1，为根据本公开实施例的用于识别生物种类的方法100。方法100所包括的步骤110～160描述如下。

步骤110：基于第一样本集建立用于识别生物种类的第一识别模型。第一识别模型所针对的生物，可以是生物学分类中的一个或多个较上层的类别。第一识别模型所识别的该生物的种类，可以是待识别对象在该一个或多个较上层的类别中的较下层的类别。例如，第一识别模型可以是针对植物的识别模型，其可以用于识别待识别对象的植物种类。再例如，第一识别模型可以是针对植物中的蕨类植物的识别模型，其可以用于识别待识别对象属于蕨类植物的哪个类别(例如，可以是属于蕨类植物门中的较下层的类别)。本领域技术人员应理解，所针对的生物、以及所识别的该生物的种类，还可以包括除生物学分类中的类别之外的非正式类别。

第一样本集中包括第一识别模型所针对的生物的影像样本，每个影像样本可以包括呈现所针对的生物的至少一部分的影像、以及标注的该影像的对应信息。影像可以包括任何形式的视觉呈现，例如静态图像、动态图像、以及视频等。例如所针对的生物为植物时，影像可以包括待识别对象的根、茎、叶、花、果实、以及种子等各项的至少一部分中的任意一项或多项的组合。在第一样本集中，对该生物的每个种类的影像样本的个数基本相同。以所针对的生物为植物为例，可以为植物的每个种类获取一定数量(例如一千个左右)的标注有对应信息的影像样本。

为植物的每个种类获取的影像样本可以尽可能地包括该种类的植物在不同观察角度、不同光照条件、不同季节(因为例如在不同季节的同一种类的植物，其形态可能是不同的)、不同天气(因为例如在下雪天和晴天的同一种类的植物，其形态可能是不同的)、一天内的不同时间(因为例如在每天的早晨和夜晚的同一种类的植物，其形态可能是不同的)、不同生长环境(因为例如生长在室内和室外的同一种类的植物，其形态可能是不同的)、不同地理区域(因为例如在生长在某一山脉的南侧与北侧的同一种类的植物，其形态可能是不同的)的影像。为每个影像样本所标注的对应信息可以包括影像样本中所包括的植物的种类(对于经过训练的识别模型，植物的种类是模型的输出)，也可以包括在该影像样本中待识别对象的观察角度、光照条件、季节、天气、一天内的时间、生长环境、地理区域等信息(对于经过训练的识别模型，这些信息可以是模型的输入)。

可以使用任何已知的方法来基于第一样本集建立第一识别模型。例如，一个可实现的基于第一样本集建立第一识别模型的过程可以是利用第一样本集对神经网络进行训练以建立第一识别模型。神经网络例如可以包括深度卷积神经网络(CNN)或者深度残差网络(Resnet)。其中，深度卷积神经网络为深度前馈神经网络，其利用卷积核扫描生物影像，提取出生物影像中待识别的特征，进而对生物待识别的特征进行识别。另外，在对生物影像进行识别的过程中，可以直接将原始生物影像输入深度卷积神经网络模型，而无需对生物影像进行预处理。深度卷积神经网络模型相比于其他的识别模型，具备更高的识别准确率以及识别效率。而深度残差网络模型相比于深度卷积神经网络模型增加了恒等映射层，可以避免随着网络深度(网络中叠层的数量)的增加，卷积神经网络造成的准确率饱和、甚至下降的现象。残差网络模型中恒等映射层的恒等映射函数需要满足：恒等映射函数与残差网络模型的输入之和等于残差网络模型的输出。引入恒等映射以后，残差网络模型对输出的变化更加明显，因此可以明显提高生物识别的识别准确率和识别效率，进而提高生物的识别准确率和识别效率。

还可以利用一个测试样本集对经过训练的神经网络的输出准确率进行测试。若输出准确率不满足要求，则增加用于训练的第一样本集中的影像样本的数量，并利用更新的第一样本集重新对神经网络进行训练；或者建立一个新增样本集，利用新增样本集对经过训练的神经网络进行新增的训练，直到使得最终训练的神经网络的输出准确率满足要求为止。若输出准确率满足要求，则训练结束。如此，输出准确率满足要求的经过训练的神经网络即为基于第一样本集建立的第一识别模型。

步骤120：基于第一识别模型向用户提供识别生物种类的服务。例如，可以向用户提供基于第一识别模型的用于识别生物种类的应用(APP)。用户将包括待识别对象的至少一部分的影像(该影像可以是用户先前存储的、实时拍摄的、或者从网络上下载的)输入到该应用，该应用可以将该影像或者经过预处理过的该影像输入到第一识别模型，并将第一识别模型识别出的该影像中的待识别对象的生物种类输出给用户。在步骤120中，向其提供服务的用户可以与根据本实施例的方法所针对的用户(本文称为“目标用户”)相同、部分相同、或不同。

步骤130：记录用户使用第一识别模型识别的生物的每个种类的各自的次数。例如，可以记录用户使用上述应用在统计时间内所识别的生物的每个种类的各自的次数。例如所针对的生物为植物时，所记录的在统计时间内每个种类的各自被识别的次数可以为：玫瑰66666次、樱花55555次、郁金香44444次、昙花333次等。在一个例子里，该记录可以由能够读取第一识别模型的输出的计算装置(例如，用于上述应用的服务器)来完成。计算装置可以将第一识别模型输出的识别结果进行记录：每输出一个种类，就将记录的该种类的次数加一。从而可以统计出用户使用第一识别模型识别的生物的每个种类的各自的次数。在另一个例子里，该记录可以由上述应用本身来完成，例如，应用可以将输出给用户的识别结果进行记录。由于应用通常被安装在用户的电子设备上以便使用，因此，由应用本身完成的记录可以是针对某一电子设备的、针对某些相关的电子设备的、或者针对某个注册用户的。因此，在用于该应用的服务器处，只要统计出每个被安装以使用的应用的记录结果，即可得到用户使用第一识别模型识别的生物的每个种类的各自的次数。

步骤130中的记录还可以针对不同的条件分别记录。在一些实施例中，可以针对不同的地理区域中的每个地理区域，分别记录用户使用第一识别模型识别的生物的每个种类的各自的次数。地理区域是对地理位置的划分，本公开对划分的方法不做限定。例如，可以按照北美、东亚、欧洲等较大的面积，按照长三角地区、珠三角地区、西北地区等较小的面积，按照热带、亚热带、温带、寒带等气候特征，和/或按照公园、风景区、自然保护区等基础设施来划分地理区域。在一个例子里，地理区域可以是影像被建立(例如被拍摄、被绘制)时的地理区域。例如，可以通过影像的记载其属性的元数据中的地理位置、或IP地址等信息来确定影像的地理区域。在另一个例子里，地理区域可以是影像被输入到上述应用以便识别时的地理区域。例如，可以通过在该应用被输入影像时，其安装到的电子设备的地理位置、或IP地址等信息来确定该影像的地理区域。

在一些实施例中，可以针对不同的用户群体中的每个用户群体，分别记录用户使用第一识别模型识别的生物的每个种类的各自的次数。用户群体是对用户的划分，本公开对划分的方法不做限定。例如，可以按照教师、学生、研究员等职业特征，按照青少年、中年、老年等年龄特征来划分用户群体。例如，可以通过用户直接提供给上述应用的用户信息(例如，用户注册时填写的信息、或用户在应用的调查问卷中填写的信息)、或者应用读取与用户有关的共享信息(例如，应用读取其安装到的电子设备的操作系统或其他应用共享的信息)来得到使用应用的用户的信息。

此外，对于识别结果的记录，还可以排除不确定性高于某一阈值的识别结果，以使得记录的结果更准确。虽然本文在说明书和附图的描述中将步骤120向用户提供服务和步骤130记录使用次数的先后顺序安排为先步骤120再步骤130，但本领域技术人员应理解，也可以先步骤130再步骤120(即先记录使用次数再向用户提供服务)，还可以步骤120和130同时进行。

步骤140：根据在步骤130中所记录的用户使用第一识别模型识别的生物的每个种类的各自的次数，来设置第二样本集中针对生物的每个种类的样本个数，从而建立第二样本集。在一些实施例中，设置第二样本集中针对生物的每个种类的样本个数，以使得第二样本集中针对生物的各个种类之间的样本个数之比，与所记录的使用第一识别模型识别的生物的各个种类之间的次数之比基本相等。例如，步骤130中所记录的用户使用第一识别模型识别玫瑰66666次、樱花55555次、郁金香44444次、以及昙花333次，则将第二样本集中玫瑰、樱花、郁金香和昙花的样本个数之比设置为基本等于66666:55555:44444:333，例如可以将第二样本集中玫瑰、樱花、郁金香和昙花的样本个数分别设置为4004个、3337个、2669个和20个。在这些实施例中，按照用户的使用习惯来设置第二样本集(将在步骤150中用于训练模型)中各个种类的样本的个数，这有助于提高经常被识别的种类(例如，记录的识别次数不小于第一阈值的种类，下文简称“常见种类”)的识别的准确度。

在一些实施例中，可以设置第一阈值和第一数值，若所记录的使用第一识别模型识别的生物的第一种类的次数小于第一阈值，则可以将第二样本集中第一种类的样本个数设置为第一数值。例如，可以将第一阈值设置为1000、第一数值设置为50。由于步骤130中记录的识别昙花的次数为333次，小于第一阈值1000，则可以将第二样本集中昙花的样本个数设置为第一数值50个。在这些实施例中，第一数值的设置可以保证第二样本集中非常见种类的样本个数，从而保证非常见种类的识别的准确度。在一些实施例中，可以将第一数值设置为0，则在第二样本集中非常见种类的样本个数设置为0个，例如第二样本集中不包括昙花的样本。在这些实施例中，可以使得第二样本集中非常见种类的样本个数为0个，从而使得步骤150中的训练仅针对常见种类，以提高常见种类的识别的准确度。此外，对于设置了第一阈值和第一数值的情况，对于记录的识别次数不小于第一阈值的常见种类，在第二样本集中这些种类之间的样本个数之比与所记录的各种类之间的次数之比基本相等。例如，可以将第一阈值设置为1000，则可以将第二样本集中常见种类玫瑰、樱花、郁金香和昙花的样本个数之比设置为基本等于66666:55555:44444，例如分别设置为667个、556个和444个，而非常见种类昙花的样本个数可以设置为第一数值个。

第二样本集中包括第一识别模型所针对的生物的影像样本，每个影像样本可以包括呈现所针对的生物的至少一部分的影像、以及标注的该影像的对应信息。影像和对应信息的描述与步骤110中对第一样本集的描述部分所描述的类似，此处不再重复描述。此处需要注意的是第二样本集中的影像样本与第一样本集中的影像样本之间的关系。在一些实施例中，第二样本集B中的样本可以为相对于第一样本集A新增的样本，即第一样本集A和第二样本集B无交集，如图6A所示。在一些实施例中，第二样本集B中的一部分样本可以与第一样本集A中的一部分样本相同，而第二样本集B中的另一部分样本可以是相对于第一样本集A新增的样本，即第一样本集A和第二样本集B有交集，如图6B所示。在一些实施例中，第二样本集B中的一部分样本可以与第一样本集A中的全部样本相同，而第二样本集B中的另一部分样本可以是相对于第一样本集A新增的样本，即第一样本集A是第二样本集B的一个真子集，如图6C所示。

在上述一些实施例中，步骤130中针对不同的地理区域中的每个地理区域，分别记录用户使用第一识别模型识别的生物的每个种类的各自的次数，则在步骤140中，根据针对不同的地理区域分别记录的每个种类的各自的次数，来针对每个地理区域分别建立各自的第二样本集。

在上述一些实施例中，步骤130中针对不同的用户群体中的每个用户群体，分别记录用户使用第一识别模型识别的生物的每个种类的各自的次数，则在步骤140中，根据针对不同的用户群体分别记录的每个种类的各自的次数，来针对每个用户群体分别建立各自的第二样本集。

步骤150：基于第二样本集对第一识别模型(即已经基于第一样本集训练过的神经网络)进行训练，以建立用于识别生物种类的第二识别模型。步骤160：基于第二识别模型向目标用户提供识别生物种类的服务。例如，可以向用户提供基于第二识别模型的用于识别生物种类的应用。如此，向目标用户提供的基于第二识别模型的服务对于常见种类的识别准确度，会高于在步骤120中提供的基于第一识别模型的服务对于常见种类的识别准确度。

在上述一些实施例中，步骤140中针对每个地理区域分别建立各自的第二样本集，则在步骤150中基于针对每个地理区域的各自的第二样本集，分别对第一识别模型进行训练，以分别建立针对每个地理区域的各自的第二识别模型，并在步骤160中提供与地理区域有关的识别生物种类的服务。例如，对X地理区域向用户提供基于针对X地理区域的第二识别模型的服务，对Y地理区域向用户提供基于针对Y地理区域的第二识别模型的服务等。在上述一些实施例中，步骤140中针对每个用户群体分别建立各自的第二样本集，则在步骤150中基于针对每个用户群体的各自的第二样本集，分别对第一识别模型进行训练，以分别建立针对每个用户群体的各自的第二识别模型，并在步骤160中提供与用户群体有关的识别生物种类的服务。例如，对M用户群体提供基于针对M用户群体的第二识别模型的服务，对N用户群体提供基于针对N用户群体的第二识别模型的服务等。

在上述方法100中，在开始(步骤120中)提供给用户的服务是基于第一识别模型，其使用第一样本集进行训练。由于第一样本集中对生物的每个种类的样本个数基本相同，因此训练出的第一识别模型对生物的每个种类的识别能力是基本均衡的。后来(步骤160中)提供给用户的服务是基于第二识别模型，其使用第二样本集进行补充训练。由于第二样本集中对生物的每个种类的样本个数是按照用户的使用习惯来设置的，其中对常见种类增加了一定数量的样本，因此这种补充训练会强化对常见种类的识别效果，从而提升第二识别模型对常见种类的识别的准确度。

参照图2，为根据本公开实施例的建立用于识别生物种类的模型的方法200。方法200所包括的步骤210～230描述如下，其中对与上述方法100中相同或相近的部分的描述被省略。步骤210：使用第一样本集对神经网络进行训练，得到能够识别生物种类的第一识别模型。第一样本集中对生物的每个种类的样本个数可以基本相同。步骤220：根据第一识别模型被用来识别生物种类的情况，使用相对于第一样本集新增的样本来建立第二样本集，以使得第二样本集中至少包括用于生物的常见种类的样本。常见种类是指其被第一识别模型识别的次数大于第一阈值。步骤230：使用第二样本集对在步骤210中训练过的第一识别模型进行训练，以建立用于识别生物种类的模型。

参照图3，为根据本公开实施例的建立用于识别生物种类的模型的方法300。方法300所包括的步骤310～330描述如下，其中对与上述方法100中相同或相近的部分的描述被省略。步骤310：使用第一样本集对初始神经网络进行训练，得到能够识别生物种类的第一识别模型。第一样本集的建立可以是基于历史数据，例如由数据服务商提供的针对某一用户群体在某一或某些历史时段的历史数据。历史数据可以体现出用户对生物种类识别的偏好，因此，基于历史数据建立的第一样本集中，对生物的各个种类的样本的个数可以是不同的。当然，本领域技术人员应理解，也可以与上述实施例类似地，将第一样本集中对生物的每个种类的样本个数设置为基本相同。步骤320：根据用户使用第一识别模型识别的生物的每个种类的各自的次数，来设置第二样本集中针对生物的每个种类的样本个数，从而建立第二样本集。步骤330：使用第二样本集对初始神经网络进行训练，以建立用于识别生物种类的模型。本领域技术人员应理解，在步骤320中建立的第二样本集与第一样本集的关系，当然可以如图6A至6C中任一图所示的情况。但由于第二样本集是用于在步骤330中对初始神经网络(而不是与以上实施例类似地对第一识别模型)进行训练，因此，较佳地，方法300可以采用图6C所示的情况，即将第二样本集设置为包括第一样本集中的全部样本、以及除此之外的相对于第一样本集新增的样本。

图4是示意性地示出根据本公开的实施例的用于识别生物种类的系统400(或建立用于识别生物种类的模型的系统400)的至少一部分的结构图。本领域技术人员可以理解，系统400只是一个示例，不应将其视为限制本公开的范围或本文所描述的特征。在该示例中，系统400可以包括一个或多个存储装置410、一个或多个电子设备420、以及一个或多个计算装置430，其可以通过网络或总线440互相连接。一个或多个存储装置410可以被配置为存储上述一个或多个样本集、神经网络、识别模型、影像样本、影像的元数据、与影像相应的信息、应用的程序文件、应用所接收、读取、收集的信息、地理区域信息、用户群体信息、识别结果、记录的识别次数、阈值、数值、历史数据等。一个或多个计算装置430可以被配置为执行上述方法100～300中的任意一个或多个，和/或一个或多个方法100～300中的任意一个或多个步骤。一个或多个电子设备420可以被配置为为用户提供识别生物种类的服务，例如以应用的形式。

其中网络或总线440可以是任何有线或无线的网络，也可以包括线缆。网络或总线440可以是互联网、万维网、特定内联网、广域网或局域网的一部分。网络或总线440可以利用诸如以太网、WiFi和HTTP等标准通信协议、对于一个或多个公司来说是专有的协议、以及前述协议的各种组合。网络或总线440还可以包括但不限于工业标准体系结构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线、和外围部件互连(PCI)总线。

一个或多个电子设备420以及一个或多个计算装置430中的每一个可以位于网络或总线440的不同节点处，并且能够直接地或间接地与网络或总线440的其他节点通信。本领域技术人员可以理解，系统400还可以包括图4未示出的其他装置，其中每个不同的装置均位于网络或总线440的不同节点处。此外，虽然一个或多个存储装置410在系统400中以独立于一个或多个电子设备420、以及一个或多个计算装置430之外的单独的框示出，应当理解，一个或多个存储装置410可以实际存储在系统400所包括的其他实体420、430中的任何一个上。

一个或多个电子设备420和一个或多个计算装置430中的每一个可以被配置为与图5所示的系统500类似，即具有一个或多个处理器510、一个或多个存储器520、以及指令和数据。一个或多个电子设备420和一个或多个计算装置430中的每一个可以是意在由用户使用的个人计算装置或者由企业使用的商业计算机装置，并且具有通常与个人计算装置或商业计算机装置结合使用的所有组件，诸如中央处理单元(CPU)、存储数据和指令的存储器(例如，RAM和内部硬盘驱动器)、诸如显示器(例如，具有屏幕的监视器、触摸屏、投影仪、电视或可操作来显示信息的其他装置)、鼠标、键盘、触摸屏、麦克风、扬声器、和/或网络接口装置等的一个或多个I/O设备。一个或多个电子设备420还可以包括用于捕获静态图像或记录视频流的一个或多个相机、以及用于将这些元件彼此连接的所有组件。

虽然一个或多个电子设备420可以各自包括全尺寸的个人计算装置，但是它们可能可选地包括能够通过诸如互联网等网络与服务器无线地交换数据的移动计算装置。举例来说，一个或多个电子设备420可以是移动电话，或者是诸如带无线支持的PDA、平板PC或能够经由互联网获得信息的上网本等装置。在另一个示例中，一个或多个电子设备420可以是可穿戴式计算系统。

图5是示意性地示出根据本公开的一个实施例的用于识别生物种类的系统500(或建立用于识别生物种类的模型的系统500)的至少一部分的结构图。系统500包括一个或多个处理器510、一个或多个存储器520、以及通常存在于计算机等装置中的其他组件(未示出)。一个或多个存储器520中的每一个可以存储可由一个或多个处理器510访问的内容，包括可以由一个或多个处理器510执行的指令521、以及可以由一个或多个处理器510来检索、操纵或存储的数据522。

指令521可以是将由一个或多个处理器510直接地执行的任何指令集，诸如机器代码，或者间接地执行的任何指令集，诸如脚本。本文中的术语“指令”、“应用”、“过程”、“步骤”和“程序”在本文中可以互换使用。指令521可以存储为目标代码格式以便由一个或多个处理器510直接处理，或者存储为任何其他计算机语言，包括按需解释或提前编译的独立源代码模块的脚本或集合。指令521可以包括引起诸如一个或多个处理器510来充当本文中的各神经网络的指令。本文其他部分更加详细地解释了指令521的功能、方法和例程。

一个或多个存储器520可以是能够存储可由一个或多个处理器510访问的内容的任何临时性或非临时性计算机可读存储介质，诸如硬盘驱动器、存储卡、ROM、RAM、DVD、CD、USB存储器、能写存储器和只读存储器等。一个或多个存储器520中的一个或多个可以包括分布式存储系统，其中指令521和/或数据522可以存储在可以物理地位于相同或不同的地理位置处的多个不同的存储装置上。一个或多个存储器520中的一个或多个可以经由网络连接至一个或多个第一装置510，和/或可以直接地连接至或并入一个或多个处理器510中的任何一个中。

一个或多个处理器510可以根据指令521来检索、存储或修改数据522。存储在一个或多个存储器520中的数据522可以包括上文所述的一个或多个存储装置410中存储的各项中一项或多项的至少部分。举例来说，虽然本文所描述的主题不受任何特定数据结构限制，但是数据522还可能存储在计算机寄存器(未示出)中，作为具有许多不同的字段和记录的表格或XML文档存储在关系型数据库中。数据522可以被格式化为任何计算装置可读格式，诸如但不限于二进制值、ASCII或统一代码。此外，数据522可以包括足以识别相关信息的任何信息，诸如编号、描述性文本、专有代码、指针、对存储在诸如其他网络位置处等其他存储器中的数据的引用或者被函数用于计算相关数据的信息。

一个或多个处理器510可以是任何常规处理器，诸如市场上可购得的中央处理单元(CPU)、图形处理单元(GPU)等。可替换地，一个或多个处理器510还可以是专用组件，诸如专用集成电路(ASIC)或其他基于硬件的处理器。虽然不是必需的，但是一个或多个处理器510可以包括专门的硬件组件来更快或更有效地执行特定的计算过程，诸如对影像进行图像处理等。

虽然图5中示意性地将一个或多个处理器510以及一个或多个存储器520示出在同一个框内，但是系统500可以实际上包括可能存在于同一个物理壳体内或不同的多个物理壳体内的多个处理器或存储器。例如，一个或多个存储器520中的一个可以是位于与与上文所述的一个或多个计算装置(未示出)中的每一个的壳体不同的壳体中的硬盘驱动器或其他存储介质。因此，引用处理器、计算机、计算装置或存储器应被理解成包括引用可能并行操作或可能非并行操作的处理器、计算机、计算装置或存储器的集合。

在说明书及权利要求中的词语“A或B”包括“A和B”以及“A或B”，而不是排他地仅包括“A”或者仅包括“B”，除非另有特别说明。

在本公开中，对“一个实施例”、“一些实施例”的提及意味着结合该实施例描述的特征、结构或特性包含在本公开的至少一个实施例、至少一些实施例中。因此，短语“在一个实施例中”、“在一些实施例中”在本公开的各处的出现未必是指同一个或同一些实施例。此外，在一个或多个实施例中，可以任何合适的组合和/或子组合来组合特征、结构或特性。

如在此所使用的，词语“示例性的”意指“用作示例、实例或说明”，而不是作为将被精确复制的“模型”。在此示例性描述的任意实现方式并不一定要被解释为比其它实现方式优选的或有利的。而且，本公开不受在上述技术领域、背景技术、发明内容或具体实施方式中所给出的任何所表述的或所暗示的理论所限定。

如在此所使用的，词语“基本上”意指包含由设计或制造的缺陷、器件或元件的容差、环境影响和/或其它因素所致的任意微小的变化。词语“基本上”还允许由寄生效应、噪音以及可能存在于实际的实现方式中的其它实际考虑因素所致的与完美的或理想的情形之间的差异。

上述描述可以指示被“连接”或“耦合”在一起的元件或节点或特征。如在此所使用的，除非另外明确说明，“连接”意指一个元件/节点/特征与另一种元件/节点/特征在电学上、机械上、逻辑上或以其它方式直接地连接(或者直接通信)。类似地，除非另外明确说明，“耦合”意指一个元件/节点/特征可以与另一元件/节点/特征以直接的或间接的方式在机械上、电学上、逻辑上或以其它方式连结以允许相互作用，即使这两个特征可能并没有直接连接也是如此。也就是说，“耦合”意图包含元件或其它特征的直接连结和间接连结，包括利用一个或多个中间元件的连接。

另外，仅仅为了参考的目的，还可以在下面描述中使用某种术语，并且因而并非意图限定。例如，除非上下文明确指出，否则涉及结构或元件的词语“第一”、“第二”和其它此类数字词语并没有暗示顺序或次序。还应理解，“包括/包含”一词在本文中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件以及/或者它们的组合。

在本公开中，术语“部件”和“系统”意图是涉及一个与计算机有关的实体，或者硬件、硬件和软件的组合、软件、或执行中的软件。例如，一个部件可以是，但是不局限于，在处理器上运行的进程、对象、可执行态、执行线程、和/或程序等。通过举例说明，在一个服务器上运行的应用程序和所述服务器两者都可以是一个部件。一个或多个部件可以存在于一个执行的进程和/或线程的内部，并且一个部件可以被定位于一台计算机上和/或被分布在两台或更多计算机之间。

本领域技术人员应当意识到，在上述操作之间的边界仅仅是说明性的。多个操作可以结合成单个操作，单个操作可以分布于附加的操作中，并且操作可以在时间上至少部分重叠地执行。而且，另选的实施例可以包括特定操作的多个实例，并且在其他各种实施例中可以改变操作顺序。但是，其它的修改、变化和替换同样是可能的。因此，本说明书和附图应当被看作是说明性的，而非限制性的。

另外，本公开的实施方式还可以包括以下示例：

1.一种用于识别生物种类的方法，包括：

基于第一样本集建立用于识别生物种类的第一识别模型，其中，所述第一样本集中对生物的每个种类的样本个数基本相同；

基于所述第一识别模型向用户提供识别生物种类的服务，并记录所述用户使用所述第一识别模型识别的生物的每个种类的各自的次数；

建立第二样本集，其中，根据所记录的所述各自的次数，来设置所述第二样本集中针对生物的每个种类的样本个数，从而建立所述第二样本集；

基于所述第二样本集对所述第一识别模型进行训练，以建立用于识别生物种类的第二识别模型；以及

基于所述第二识别模型向目标用户提供识别生物种类的服务。

2.根据1所述的方法，其特征在于，建立所述第二样本集包括：设置所述第二样本集中针对生物的每个种类的样本个数，以使得所述第二样本集中针对生物的各个种类之间的样本个数之比，与所记录的使用所述第一识别模型识别的生物的各个种类之间的次数之比基本相等。

3.根据1所述的方法，其特征在于，建立所述第二样本集包括：若所记录的使用所述第一识别模型识别的生物的第一种类的次数小于第一阈值，则将所述第二样本集中所述第一种类的样本个数设置为第一数值。

4.根据3所述的方法，其特征在于，所述第一数值为零。

5.根据3所述的方法，其特征在于，建立所述第二样本集还包括：设置所述第二样本集中针对生物的除所述第一种类之外的第二种类的样本个数，以使得所述第二样本集中针对各所述第二种类之间的样本个数之比，与所记录的使用所述第一识别模型识别的各所述第二种类之间的次数之比基本相等。

6.根据1所述的方法，其特征在于，所述第二样本集包括相对于所述第一样本集新增的样本。

7.根据1所述的方法，其特征在于，还包括：

针对不同的地理区域分别记录所述用户使用所述第一识别模型识别的生物的每个种类的各自的次数，并根据针对不同的地理区域分别记录的所述各自的次数，来针对每个地理区域建立各自的所述第二样本集；以及

基于针对每个地理区域所建立的各自的所述第二样本集，分别对所述第一识别模型进行训练，以建立针对每个地理区域的各自的第二识别模型，来提供与地理区域有关的识别生物种类的服务。

8.根据1所述的方法，其特征在于，还包括：

针对不同的用户群体分别记录所述用户使用所述第一识别模型识别的生物的每个种类的各自的次数，并根据针对不同的用户群体分别记录的所述各自的次数，来针对每个用户群体建立各自的所述第二样本集；以及

基于针对每个用户群体所建立的各自的所述第二样本集，分别对所述第一识别模型进行训练，以建立针对每个用户群体的各自的第二识别模型，来提供与用户群体有关的识别生物种类的服务。

9.一种建立用于识别生物种类的模型的方法，包括：

使用第一样本集对神经网络进行第一训练，得到能够识别生物种类的第一识别模型，其中，所述第一样本集中对生物的每个种类的样本个数基本相同；

根据所述第一识别模型被用来识别生物种类的情况，使用相对于所述第一样本集新增的样本来建立第二样本集，所述第二样本集中至少包括用于生物的第一种类的样本，其中，所述第一识别模型被用来识别所述第一种类的次数大于第一阈值；以及

使用所述第二样本集对所述第一识别模型进行第二训练，以建立用于识别生物种类的所述模型。

10.根据9所述的方法，其特征在于，建立所述第二样本集包括：设置所述第二样本集中针对每个所述第一种类的样本个数，以使得所述第二样本集中针对各所述第一种类之间的样本个数之比，与所述第一识别模型被用来识别各所述第一种类之间的次数之比基本相等。

11.根据10所述的方法，其特征在于，建立所述第二样本集还包括：将所述第二样本集中针对生物的除所述第一种类之外的第二种类的样本个数设置为第一数值。

12.根据9所述的方法，其特征在于，还包括：

针对每个地理区域分别建立各自的所述第二样本集；以及

使用针对每个地理区域所建立的各自的所述第二样本集，分别对所述第一识别模型进行第二训练，以建立针对每个地理区域的各自的用于识别生物种类的所述模型。

13.根据9所述的方法，其特征在于，还包括：

针对每个用户群体分别建立各自的所述第二样本集；以及

使用针对每个用户群体所建立的各自的所述第二样本集，分别对所述第一识别模型进行第二训练，以建立针对每个用户群体的各自的用于识别生物种类的所述模型。

14.一种建立用于识别生物种类的模型的方法，包括：

使用第一样本集对初始神经网络进行第一训练，得到能够识别生物种类的第一识别模型；

根据用户使用所述第一识别模型识别的生物的每个种类的各自的次数，来设置第二样本集中针对生物的每个种类的样本个数，从而建立所述第二样本集；以及

使用所述第二样本集对所述初始神经网络进行第二训练，以建立用于识别生物种类的所述模型。

15.根据14所述的方法，其特征在于，还包括：基于历史数据建立所述第一样本集。

16.根据14所述的方法，其特征在于，还包括：将所述第一样本集中针对生物的每个种类的样本个数设置为基本相同，以建立所述第一样本集。

17.一种建立用于识别生物种类的模型的方法，包括：

建立第二样本集，其中，根据所记录的所述各自的次数，来设置所述第二样本集中针对生物的每个种类的样本个数，从而建立所述第二样本集；以及

基于所述第二样本集对所述第一识别模型进行训练，以建立用于识别生物种类的第二识别模型。

18.一种用于识别生物种类的系统，包括：

一个或多个处理器；以及

一个或多个存储器，所述一个或多个存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据，

其中，当所述一系列计算机可执行的指令被所述一个或多个处理器执行时，使得所述一个或多个处理器进行如1-8中任一项所述的方法。

19.一种建立用于识别生物种类的模型的系统，包括：

一个或多个处理器；以及

其中，当所述一系列计算机可执行的指令被所述一个或多个处理器执行时，使得所述一个或多个处理器进行如9-17中任一项所述的方法。

20.一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令，当所述一系列计算机可执行的指令被一个或多个计算装置执行时，使得所述一个或多个计算装置进行如1-17中任一项所述的方法。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。在此公开的各实施例可以任意组合，而不脱离本公开的精神和范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本公开的范围和精神。本公开的范围由所附权利要求来限定。

Claims

1.一种用于识别生物种类的方法，包括：

基于第一样本集建立用于识别生物种类的第一识别模型，其中，所述第一样本集中针对生物的每个种类的样本个数基本相同；

2.根据权利要求1所述的方法，其特征在于，建立所述第二样本集包括：设置所述第二样本集中针对生物的每个种类的样本个数，以使得所述第二样本集中针对生物的各个种类之间的样本个数之比，与所记录的使用所述第一识别模型识别的生物的各个种类之间的次数之比基本相等。

3.根据权利要求1所述的方法，其特征在于，建立所述第二样本集包括：若所记录的使用所述第一识别模型识别的生物的第一种类的次数小于第一阈值，则将所述第二样本集中所述第一种类的样本个数设置为第一数值。

4.根据权利要求3所述的方法，其特征在于，所述第一数值为零。

5.根据权利要求3所述的方法，其特征在于，建立所述第二样本集还包括：设置所述第二样本集中针对生物的除所述第一种类之外的第二种类的样本个数，以使得所述第二样本集中针对各所述第二种类之间的样本个数之比，与所记录的使用所述第一识别模型识别的各所述第二种类之间的次数之比基本相等。

6.根据权利要求1所述的方法，其特征在于，所述第二样本集包括相对于所述第一样本集新增的样本。

7.根据权利要求1所述的方法，其特征在于，还包括：

8.根据权利要求1所述的方法，其特征在于，还包括：

9.一种建立用于识别生物种类的模型的方法，包括：

使用第一样本集对神经网络进行第一训练，得到能够识别生物种类的第一识别模型，其中，所述第一样本集中针对生物的每个种类的样本个数基本相同；

10.根据权利要求9所述的方法，其特征在于，建立所述第二样本集包括：设置所述第二样本集中针对每个所述第一种类的样本个数，以使得所述第二样本集中针对各所述第一种类之间的样本个数之比，与所述第一识别模型被用来识别各所述第一种类之间的次数之比基本相等。

11.根据权利要求10所述的方法，其特征在于，建立所述第二样本集还包括：将所述第二样本集中针对生物的除所述第一种类之外的第二种类的样本个数设置为第一数值。

12.根据权利要求9所述的方法，其特征在于，还包括：

针对每个地理区域分别建立各自的所述第二样本集；以及

13.根据权利要求9所述的方法，其特征在于，还包括：

针对每个用户群体分别建立各自的所述第二样本集；以及

14.一种建立用于识别生物种类的模型的方法，包括：

15.根据权利要求14所述的方法，其特征在于，还包括：基于历史数据建立所述第一样本集。

16.根据权利要求14所述的方法，其特征在于，还包括：将所述第一样本集中针对生物的每个种类的样本个数设置为基本相同，以建立所述第一样本集。

17.一种建立用于识别生物种类的模型的方法，包括：

18.一种用于识别生物种类的系统，包括：

一个或多个处理器；以及

其中，当所述一系列计算机可执行的指令被所述一个或多个处理器执行时，使得所述一个或多个处理器进行如权利要求1-8中任一项所述的方法。

19.一种建立用于识别生物种类的模型的系统，包括：

一个或多个处理器；以及

其中，当所述一系列计算机可执行的指令被所述一个或多个处理器执行时，使得所述一个或多个处理器进行如权利要求9-17中任一项所述的方法。

20.一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令，当所述一系列计算机可执行的指令被一个或多个计算装置执行时，使得所述一个或多个计算装置进行如权利要求1-17中任一项所述的方法。