CN109711545A

CN109711545A - 网络模型的创建方法、装置、系统和计算机可读介质

Info

Publication number: CN109711545A
Application number: CN201811525092.XA
Authority: CN
Inventors: 李广; 龙灏天; 刘致远
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-05-03

Abstract

本发明提供了一种网络模型的创建方法、装置、系统和计算机可读介质，该方法包括：获取用户输入的标签和包括目标对象的训练数据；利用第一网络模型检测所述训练数据中的目标对象，并生成检测结果；以及将所述标签和所述检测结果输入到神经网络中，以训练得到第二网络模型。本发明的网络模型的创建方法、装置、系统和计算机可读介质在获取用户输入的标签和训练数据之后，无需进行人工标注就能够快速完成网络模型的创建，节省了大量时间和人力，极大地降低了深度学习的门槛和成本。

Description

网络模型的创建方法、装置、系统和计算机可读介质

技术领域

本发明涉及深度学习技术领域，更具体地涉及一种网络模型的创建方法、装置、系统和计算机可读介质。

背景技术

当前，深度学习网络模型越来越多的运用在各种场景中，例如面部识别、物体识别、图像处理、物体检测等。在深度学习的实际应用过程中，网络模型伴随着数据的采集、标注、训练、输出的流程。因此，为了得到效果较好的网络模型，深度学习研究者需要采集大量的数据，并花费大量的时间去标注。也就是说，如何降低深度学习的数据来源难度，是所有研究者们重点关注的对象。

对于现在的深度学习研究流程来说，数据的标注占据了半数以上的时间。在用户采集完所需的数据以后，这些数据往往还未经处理，需要标注才能投入网络模型中进行训练。由于数据标注工作机械性强、重复度高，深度学习研究者往往通过外包的形式解决生产力不足的问题。然而这种解决方案却带来了高昂的经济成本和时间成本。有一些研究者采取网络爬虫的方式获取标注数据，但是网络上数据复杂，往往需要多次人工的清洗，可用性不高。除此以外，这些工作需要用户有一定的深度学习知识，对于普通用户来说，这些技术门槛高，难以掌握运用。

除此之外，各种深度学习框架发展迅速，但是各种框架实现的标准不尽相同。于是，用户往往在网络模型数据转换方面需要花费很多精力。这种转换操作，对于没有编程知识的用户来说，也是难以实现的。

发明内容

为了解决网络模型训练过程中，数据标注难度大、耗费时间和精力过多的问题，本发明提出了一种免标注的网络模型的创建方案，其在获取用户输入的标签和训练数据之后，通过现有网络模型生成初步的预测结果以用于训练预训练的网络模型，无需进行人工标注，降低了训练难度和成本。下面简要描述本发明提出的关于网络模型的创建方案，更多细节将在后续结合附图在具体实施方式中加以描述。

根据本发明一方面，提供了一种网络模型的创建方法，所述方法包括：获取用户输入的标签和包括目标对象的训练数据；利用第一网络模型检测所述训练数据中的目标对象，并生成检测结果；以及将所述标签和所述检测结果输入到神经网络中，以训练得到第二网络模型。

在一个实施例中，获取所述包括目标对象的训练数据包括：采集包括所述目标对象的图像；以及将所述包括所述目标对象的图像转换成通用数据格式的训练数据。

在一个实施例中，当所述训练数据为视频时，所述采集包括所述目标对象的图像包括：采集针对所述目标对象的视频；将所述视频处理为多帧所述包括所述目标对象的图像。

在一个实施例中，在所述训练得到第二网络模型的步骤之后，还包括：接收待预测数据；将所述待预测数据输入到所述第二网络模型，并获得所述第二网络模型输出的预测结果，以使用户基于所述预测结果对所述第二网络模型的预测效果进行测试。

在一个实施例中，若所述测试不合格，则获取新的所述训练数据并继续进行训练；若所述测试合格，则结束训练，并为所述第二网络模型提供可用的应用程序接口。

在一个实施例中，在所述生成检测结果的步骤之后、训练得到第二网络模型的步骤之前，还包括：提供用户审核接口，接收用户对所述第一网络模型生成的检测结果的筛选操作，以得到筛选后的检测结果。

在一个实施例中，所述第一网络模型为预先存储的通用网络模型或用户上传的网络模型。

根据本发明另一方面，提供了一种网络模型的创建装置，所述网络模型的创建装置包括：获取模块，用于获取用户输入的标签以及包括目标对象的训练数据；基础推断模块，用于利用第一网络模型检测所述训练数据中的目标对象，并生成检测结果；以及网络模型训练模块，用于将所述标签和所述检测结果输入到神经网络中，以训练得到第二网络模型。

根据本发明再一方面，提供了一种网络模型的创建系统，所述网络模型的创建系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行上述任一项所述的网络模型的创建方法。

根据本发明又一方面，提供了一种计算机可读介质，所述计算机可读介质上存储有计算机程序，所述计算机程序在运行时执行上述任一项所述的网络模型的创建方法。

根据本发明实施例的网络模型创建方法、装置、系统和计算机可读介质在获取用户输入的标签和训练数据之后，能够快速完成网络模型的创建，无需进行人工标注，节省了大量时间和人力，极大地降低了深度学习的门槛和成本。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的网络模型的创建方法、装置、系统和计算机可读介质的示例电子设备的示意性框图；

图2示出根据本发明实施例的网络模型的创建方法的示意性流程图；

图3示出图2所述的网络模型的创建方法中用户交互界面的示意图；

图4示出根据本发明实施例的网络模型的创建装置的示意性框图；以及

图5示出根据本发明实施例的网络模型的创建系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的网络模型创建方法、装置、系统和计算机可读介质的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像传感器110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的网络模型的创建方法、装置、系统和计算机可读介质的示例电子设备可以被实现为诸如智能手机、平板电脑等。

下面，将参考图2描述根据本发明实施例的网络模型的创建方法200。

首先，在步骤S210，获取用户输入的标签和包括目标对象的训练数据；

在步骤S220，利用第一网络模型检测所述训练数据中的目标对象，并生成检测结果；以及

最后，在步骤S230，将所述标签和所述检测结果输入到神经网络中，以训练得到第二网络模型。

示例性地，根据本发明实施例的网络模型创建方法200可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的网络模型创建方法200可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。

替代地，根据本发明实施例的网络模型创建方法200还可以分布地部署在服务器端(或云端)和个人终端处。例如，在个人终端获取标签和训练数据，将所述标签和所述训练数据传递至服务器端(或云端)，可以在服务器端(或云端)生成检测结果，服务器端(或云端)将所生成的检测结果传递给个人终端，个人终端根据所接收的检测结果进行网络模型训练。再例如，在个人终端获取标签和训练数据，将所述标签和所述训练数据传递至服务器端(或云端)，在服务器端(或云端)生成检测结果，并在服务器端(或云端)进行网络模型训练，服务器端(或云端)将训练得到的第二网络模型传递给个人终端。

根据本发明实施例的网络模型的创建方法，在获取用户输入的标签和训练数据之后，通过现有网络模型生成初步的检测结果以用于训练待创建的网络模型，无需进行人工标注，训练难度大大降低，并且节省了大量时间和人力。

在发明实施例中，第一网络模型指的是已经训练好的网络模型，或者可以利用现有的数据库(或称为现有的训练数据集)训练得到的网络模型。第二网络模型指的是待创建的网络模型。将已经训练好的网络模型称为第一网络模型，将待创建的网络模型称为第二网络模型，其目的在于将已经训练好的网络模型与待创建的网络模型区分开来，而非限制的目的。

示例性地，在步骤S210中，在获取用户输入的标签之前，还包括确定步骤S220中使用的第一网络模型。所述第一网络模型可以是预先存储的通用网络模型或用户上传的网络模型。

具体地，在一个实施例中，所述第一网络模型是预选存储在客户端或云端的具有通用认知识别能力的具有较高泛化度的基础网络模型，该网络模型的认知能力适合于通用场景，例如通用物体检测网络模型或通用文字检测网络模型等等，并且能够输出置信度较高的结果。

在另一实施例中，所述第一网络模型可以是用户上传的网络模型。例如，当用户对于第一网络模型有更个性化的需求时，可以上传自定义的网络模型作为第一网络模型。

所述第一网络模型的选择是基于待创建的第二网络模型所要检测的目标对象的类型来确定的。例如，如果对待创建的第二网络模型的需求是该第二网络模型能够检测人脸属性，则选择人脸检测网络模型作为第一网络模型；如果对待创建的第二网络模型的需求时该第二网络模型能够检测物体属性，则选择物体检测网络模型作为第一网络模型，等等。

在确定所述第一网络模型之后，获取用户输入的标签，该标签将用于标注后续获得的目标对象。示例性地，该标签的长度可以在2-10个字之间。

接着，获取包括目标对象的训练数据。在一个实施例中，获取所述包括目标对象的训练数据包括：采集包括所述目标对象的图像；以及将所述包括所述目标对象的图像转换成通用数据格式的训练数据。

示例性地，可以调用图像采集装置采集包括目标对象(例如人脸、物体、动物、车辆、文字等)的图像。其中，所述图像采集装置可以是例如智能手机、平板电脑等移动终端上的摄像头，也可以是数码相机等单独的摄像装置。图像采集装置也可以是其他任何合适的、能够采集包括目标对象的图像的装置。在采集过程中，用户需要保证图像的主体为待采集的对象，并确保没有过多的干扰物。

示例性地，所述图像采集装置所采集的图像是包括目标对象的视频，或者，也可以是包括目标对象的静态图像，例如以一定频率持续采集的多张静态图像。为了获得目标对象各个角度的图像，所述训练数据优选为包括目标对象的视频。

在本实施例中，首先确定用户选择或上传的第一网络模型，接着接收用户输入的标签，最后获取用户采集的训练数据。然而，上述三个步骤的顺序仅是示例性的，在其他实施例中，也可以要求用户以其他顺序选择第一网络模型、输入标签和采集训练数据。

采集到包括所述目标对象的图像之后，将所述包括所述目标对象的图像转换成通用数据格式的训练数据，所述通用数据格式为所述第一网络模型可用的数据格式。通过将包括目标对象的图像整合成具有一定结构的、可以重复利用和转换的通用数据格式的训练数据，可以无需人工手动编写脚本进行转换，解决了网络模型训练过程中的数据转换问题。

除此之外，当所述训练数据为视频时，所述采集包括所述目标对象的图像包括：采集针对所述目标对象的视频；以及将所述视频处理为多帧所述包括所述目标对象的图像。例如，可以采用FFmpeg等工具逐帧解码视频，以预设周期为单位，切割视频流中各帧的画面并保存。预设周期可以为每秒25帧，当然也可以设定其它数值。可以理解，当所述训练数据为图片时，可以省略将视频处理为多帧包括目标对象的图像的步骤。

在步骤S220，利用第一网络模型检测所述训练数据中的目标对象，并生成检测结果。例如，采用物体检测网络模型作为第一网络模型，并检测出所述训练数据中的物体；采用文字检测网络模型作为第一网络模型，并检测出所述训练数据中的文字；采用人脸检测网络模型作为第一网络模型，并检测出所述训练数据中的人脸等等。

在一个实施例中，所述第一网络模型输出的检测结果为目标对象的边界框。目标对象的边界框用于给出该目标对象在图像中的位置信息，例如将目标对象框定在边界框内部。可选地，每个边界框内包括一个目标。边界框可以是矩形的，其位置可以用矩形的对顶角的位置坐标来表示。针对同一个目标对象，所检测到的边界框可能不止一个，当对于同一个目标对象检测到的边界框有多个时，可以使用非最大抑制等方法将各个边界框合并，以消除多余的边界框，使得对于同一个检测目标输出一个精确到边界框。

在一个实施例中，当所述训练数据为视频时，所述视频被处理为多帧包括目标对象的图像，第一网络模型针对所述多帧包括目标对象的图像进行检测并输出一批检测结果。对于所述检测结果，可以向用户提供审核接口，接收用户对所述检测结果的筛选操作，对其中不符合要求的检测结果进行剔除，以得到筛选后的检测结果。具体地，由于第一网络模型的检测结果有存在错误的可能性，例如，对于图像中目标对象的检测可能有误，因此向用户提供审核接口以使用户再次确认，将错误的检测结果剔除或修正，从而保证用于训练第二网络模型的训练数据的准确性。

在步骤S230，将所述标签和所述检测结果输入到神经网络中，以训练得到第二网络模型。所述神经网络可以采用现有的公开网络，例如可以是ResNet、DenseNet、MobileNet、ShuffleNet、Inception等中的任一种网络结构。上述神经网络仅是示例性的，本发明实施例对所使用的神经网络的网络结构不作限定。较佳地，选择泛化能力强、层数多的神经网络进行训练。该神经网络将被训练到收敛，并输出为通用的网络模型格式。

在一个实施例中，在训练得到所述第二网络模型的步骤之后，由用户对所述第二网络模型进行效果测试。具体地，接收待预测数据；将所述待预测数据输入到所述第二网络模型，并获得所述第二网络模型输出的预测结果，以使用户基于所述预测结果对所述第二网络模型的预测效果进行测试。若所述测试合格，即用户判断所述预测效果满足要求，则可停止对第二网络模型的训练，即第二网络模型训练完成，并为测试合格的所述第二网络模型提供可用的应用程序接口；若所述测试不合格，即用户判断所述预测效果不满足要求，则返回到步骤S210，获取新的训练数据，继续对第二网络模型进行训练，直到第二网络模型的预测效果满足用户的要求。

图3示出了采用本发明实施例的网络模型的创建方法进行网络模型创建的过程中用户交互界面的示意图。所述用户交互界面例如实现在手机上，用于在网络模型创建过程中进行界面显示与人机交互。该界面使用了Web App的技术，从而用户可以随时随地使用本实施例的网络模型创建方法，并进行网络模型创建。

如图3所示，首先向用户显示开始界面，在用户点击开始之后，要求用户选择现有的通用网络模型或上传自定义的网络模型；接着，要求用户输入任务名称以创建网络模型训练任务；接着，要求用户输入被标注物体的标签，并调用摄像头采集图像(以视频为主)，此时在后台将所述视频处理为通用数据格式的训练数据，使用第一网络模型检测所述训练数据中的目标对象，并在用户交互界面上显示检测的结果，同时提供审核接口，以接收用户对检测结果进行的筛选操作，剔除不符合要求的检测结果，以获得筛选后的检测结果，并与用户输入的标签一同输入到神经网络中进行第二网络模型的训练。最后，在网络模型训练结束之后，通过用户交互界面接收用户输入的待预测数据并显示第二网络模型的预测结果，如果预测结果达到用户的标准，则用户选择接受，训练完成；如果预测结果未达到用户的标准，则用户选择增补数据，并继续录入训练数据。

基于上面的描述，根据本发明实施例的网络模型的创建方法在获取用户输入的标签和训练数据之后，能够快速完成网络模型的创建，无需进行人工标注，节省了大量时间和人力，极大地降低了深度学习的门槛和成本。

示例性地，根据本发明实施例的网络模型的创建方法可以在具有存储器和处理器的设备、装置或者系统中实现。

示例性地，根据本发明实施例的网络模型的创建方法可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。替代地，根据本发明实施例的网络模型的创建方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的网络模型的创建方法还可以分布地部署在服务器端(或云端)和个人终端处。替代地，根据本发明实施例的网络模型的创建方法还可以分布地部署在不同的个人终端处。

以上示例性地描述了根据本发明实施例的网络模型的创建方法所包括的示例性步骤流程。

下面结合图4描述本发明另一方面提供的网络模型的创建装置。

图4示出了根据本发明实施例的网络模型的创建装置400的示意性框图。

如图4所示，根据本发明实施例的网络模型的创建装置400包括获取模块410、基础推断模块420以及网络模型训练模块430。所述各个模块可分别执行上文中结合图2描述的网络模型的创建方法的各个步骤/功能。

获取模块410用于获取用户输入的标签和包括目标对象的训练数据。基础推断模块420用于利用第一网络模型检测所述训练数据中的目标对象，并生成检测结果。网络模型训练模块430用于将所述标签和所述检测结果输入到神经网络中，以训练得到第二网络模型。示例性地，上述各个模块是通过通过RESTFul应用程序接口对接的。

示例性地，获取模块410在获取用户输入的标签之前，还包括确定第一网络模型。所述第一网络模型可以是预先存储的通用网络模型或用户上传的网络模型。

在确定所述第一网络模型之后，获取模块410获取用户输入的标签，该标签将用于标注后续获得的目标对象。示例性地，该标签的长度可以在2-10个字之间。

接着，获取模块410获取包括目标对象的训练数据。在一个实施例中，获取所述包括目标对象的训练数据包括：采集包括所述目标对象的图像；以及将所述包括所述目标对象的图像转换成通用数据格式的训练数据。

示例性地，可以调用图像采集装置获取包括目标对象(例如人脸、物体、动物、车辆、文字等)的图像。其中，所述图像采集装置可以是例如智能手机、平板电脑等移动终端上的摄像头，也可以是数码相机等单独的摄像装置。图像采集装置也可以是其他任何合适的、能够采集包括目标对象的图像的装置。在采集过程中，用户需要保证图像的主体为待采集的对象，并确保没有过多的干扰物。

示例性地，所述图像采集装置所采集的图像是包括目标对象的视频，或者，也可以是包括目标对象的静态图像，例如一定频率持续采集的多张静态图像。为了获得目标对象各个角度的图像，所述训练数据优选为包括目标对象的视频。

除此之外，当所述训练数据为视频时，所述采集包括所述目标对象的图像包括：采集针对所述目标对象的视频；以及将所述视频处理为多帧所述包括所述目标对象的图像。例如，可以采用FFmpeg等工具逐帧解码视频，以预设周期为单位，切割视频流中各帧的画面并保存。预设周期可以为每秒25帧，当然也可以设定其它数值。可以理解，当所述训练数据为图片时，可以省略该步骤。

基础推断模块420利用第一网络模型检测所述训练数据中的目标对象，并生成检测结果。例如，采用物体检测网络模型作为第一网络模型，并检测出所述训练数据中的物体；采用文字检测网络模型作为第一网络模型，并检测出所述训练数据中的文字；采用人脸检测网络模型作为第一网络模型，并检测出所述训练数据中的人脸等等。

在一个实施例中，所述第一网络模型输出的检测结果为目标对象的边界框。目标对象的边界框用于给出该目标对象在图像中的位置信息，例如将目标对象框定在边界框内部。可选地，每个边界框内包括一个目标对象。边界框可以是矩形的，其位置可以用矩形的对顶角的位置坐标来表示。针对同一个目标对象，所检测到的边界框可能不止一个，当对于同一个目标对象检测到的边界框有多个时，可以使用非最大抑制等方法将各个边界框合并，以消除多余的边界框，使得对于同一个检测目标输出一个精确到边界框。

在一个实施例中，当所述训练数据为视频时，所述视频被处理为多帧包括目标对象的图像，基础推断模块420针对所述多帧包括目标对象的图像进行检测并输出一批检测结果。对于所述检测结果，可以向用户提供审核接口，接收用户对所述检测结果的筛选操作，对其中不符合要求的检测结果进行剔除，以得到筛选后的检测结果。具体地，由于第一网络模型的检测结果有存在错误的可能性，例如，对于图像中目标对象的识别可能有误，因此向用户提供审核接口以使用户再次确认，将错误的检测结果剔除或修正，从而保证用于训练第二网络模型的训练数据的准确性。

网络模型训练模块430将所述标签和所述检测结果输入到神经网络中，以训练得到第二网络模型。所述神经网络可以采用现有的公开网络，例如可以是ResNet、DenseNet、MobileNet、ShuffleNet、Inception等中的任一种网络结构。上述神经网络仅是示例性的，本发明实施例对所使用的神经网络的网络结构不作限定。较佳地，选择泛化能力强、层数多的神经网络进行训练。该神经网络将被训练到收敛，并输出为通用的网络模型格式。

在一个实施例中，所述装置400还包括网络模型预测模块，配置为：接收待预测数据，将所述待预测数据输入到所述第二网络模型，并获得所述第二网络模型输出的预测结果，以使用户基于所述预测结果对所述第二网络模型的预测效果进行测试。若所述测试合格，即用户判断所述预测效果满足要求，则可停止对第二网络模型的训练，即第二网络模型训练完成，在此之后，所述网络模型预测模块还配置为为测试合格的所述第二网络模型提供可用的应用程序接口。若所述测试不合格，即用户判断所述预测效果不满足要求，则由获取模块410获取新的训练数据，继续对第二网络模型进行训练。

基于上面的描述，根据本发明实施例的网络模型的创建装置在获取用户输入的标签和训练数据之后，能够快速完成网络模型的创建，无需进行人工标注，节省了大量时间和人力，极大地降低了深度学习的门槛和成本。

图5示出了根据本发明实施例的网络模型的创建系统500的示意性框图。网络模型的创建系统500包括存储装置510以及处理器520。

其中，存储装置510存储用于实现根据本发明实施例的网络模型的创建方法中的相应步骤的程序代码。处理器520用于运行存储装置510中存储的程序代码，以执行根据本发明实施例的网络模型的创建方法的相应步骤，并且用于实现根据本发明实施例的网络模型的创建装置中的相应模块。

在一个实施例中，在所述程序代码被处理器520运行时使得网络模型训练系统500执行以下步骤：获取用户输入的标签和包括目标对象的训练数据；利用第一网络模型检测所述训练数据中的目标对象，并生成检测结果；以及将所述标签和所述检测结果输入到神经网络中，以训练得到第二网络模型。

在一个实施例中，在所述生成检测结果的步骤之后、训练得到第二网络模型的步骤之前，还包括：提供用户审核接口，接收用户对所述第一网络模型生成的检测结果的筛选操作，得到筛选后的检测结果。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的网络模型的创建方法的相应步骤，并且用于实现根据本发明实施例的网络模型的创建装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的网络模型的创建装置的各个功能模块，并且/或者可以执行根据本发明实施例的网络模型的创建方法。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：获取用户输入的标签和包括目标对象的训练数据；利用第一网络模型检测所述训练数据中的目标对象，并生成检测结果；以及将所述标签和所述检测结果输入到神经网络中，以训练得到第二网络模型。

在一个实施例中，在所述生成检测结果的步骤之后、训练得到第二网络模型的步骤之前，还包括：提供用户审核接口，接收用户对所述第一网络模型生成的检测结果的筛选操作，得到筛选后的检测结果。在一个实施例中，所述第一网络模型为预先存储的通用网络模型或用户上传的网络模型。

根据本发明实施例的网络模型的创建方法、装置、系统以及计算机可读介质在获取用户输入的标签和训练数据之后，能够快速完成网络模型的创建，无需进行人工标注，节省了大量时间和人力，极大地降低了深度学习的门槛和成本。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者其他合适的处理器来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种网络模型的创建方法，其特征在于，所述网络模型的创建方法包括：

获取用户输入的标签和包括目标对象的训练数据；

利用第一网络模型检测所述训练数据中的目标对象，并生成检测结果；以及

将所述标签和所述检测结果输入到神经网络中，以训练得到第二网络模型。

2.根据权利要求1所述的网络模型的创建方法，其特征在于，获取所述包括目标对象的训练数据包括：

采集包括所述目标对象的图像；以及

将所述包括所述目标对象的图像转换成通用数据格式的训练数据。

3.根据权利要求2所述的网络模型的创建方法，其特征在于，当所述训练数据为视频时，所述采集包括所述目标对象的图像包括：

采集针对所述目标对象的视频；

将所述视频处理为多帧所述包括所述目标对象的图像。

4.根据权利要求1所述的网络模型的创建方法，其特征在于，在所述训练得到第二网络模型的步骤之后，还包括：

接收待预测数据；

将所述待预测数据输入到所述第二网络模型，并获得所述第二网络模型输出的预测结果，以使用户基于所述预测结果对所述第二网络模型的预测效果进行测试。

5.根据权利要求4所述的网络模型的创建方法，其特征在于，若所述测试不合格，则获取新的所述训练数据并继续进行训练；若所述测试合格，则结束训练，并为所述第二网络模型提供可用的应用程序接口。

6.根据权利要求1所述的网络模型的创建方法，其特征在于，在所述生成检测结果的步骤之后、训练得到第二网络模型的步骤之前，还包括：提供用户审核接口，接收用户对所述第一网络模型生成的检测结果的筛选操作，得到筛选后的检测结果。

7.根据权利要求1所述的网络模型的创建方法，其特征在于，所述第一网络模型为预先存储的通用网络模型或用户上传的网络模型。

8.一种网络模型的创建装置，其特征在于，所述网络模型的创建装置包括：

获取模块，用于获取用户输入的标签以及包括目标对象的训练数据；

基础推断模块，用于利用第一网络模型检测所述训练数据中的目标对象，并生成检测结果；以及

网络模型训练模块，用于将所述标签和所述检测结果输入到神经网络中，以训练得到第二网络模型。

9.一种网络模型的创建系统，其特征在于，所述网络模型的创建系统包括存储方法和处理器，所述存储方法上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1-7中的任一项所述的网络模型的创建方法。

10.一种计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机程序，所述计算机程序在运行时执行如权利要求1-7中的任一项所述的网络模型的创建方法。