CN111881187A - 一种自动建立数据处理模型的方法及相关产品 - Google Patents

一种自动建立数据处理模型的方法及相关产品 Download PDF

Info

Publication number
CN111881187A
CN111881187A CN202010764967.2A CN202010764967A CN111881187A CN 111881187 A CN111881187 A CN 111881187A CN 202010764967 A CN202010764967 A CN 202010764967A CN 111881187 A CN111881187 A CN 111881187A
Authority
CN
China
Prior art keywords
data
cloud service
service provider
training
object recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010764967.2A
Other languages
English (en)
Inventor
熊萍
杨向强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sincere Letter Science And Technology Ltd
Original Assignee
Sincere Letter Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sincere Letter Science And Technology Ltd filed Critical Sincere Letter Science And Technology Ltd
Priority to CN202010764967.2A priority Critical patent/CN111881187A/zh
Publication of CN111881187A publication Critical patent/CN111881187A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种自动建立数据处理模型的方法及相关产品,其中方法包括:获取训练数据,所述训练数据包括训练样本数据和目标对象的标签信息;对所述训练数据进行预处理,得到所述训练样本数据的数据类型;将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述数据类型确定机器学习算法,并使用上述机器学习算法对所述样本数据和所述标签信息进行训练,得到对象识别模型;以及接收来自所述云端服务供应商的所述对象识别模型。本申请实施例,通过获取少量的训练数据,并将训练数据上传至云端服务供应商来对训练数据进行训练,从而可以快速得到对象识别模型,大幅缩短开发时间。

Description

一种自动建立数据处理模型的方法及相关产品
技术领域
本申请涉及极其学习技术领域,尤其涉及一种自动建立数据处理模型的方法及相关产品。
背景技术
随着海量数据的出现,人工智能技术迅速发展,而机器学习是人工智能发展到一定阶段的必然产物,其致力于通过计算的手段,从大量数据中挖掘有价值的潜在信息。
在机器学习领域,往往通过将经验数据提供给机器学习算法来训练机器学习模型以确定构成机器学习模型的理想参数,而训练好的机器学习模型可被应用于在面对新的预测数据时提供相应的预测结果。
可以通过机器学习来识别待识别数据中特定的业务需求的对象和场景。例如,可以在社交媒体文章中查找徽标,在商店货架上识别产品,在装配线上对机器部件进行分类,区分运行状况良好的工厂和受感染的工厂,或在视频中检测动画角色。
然而,开发用于分析数据的自定义模型是一项繁重工作,需要时间、专业知识和资源,并且通常需要几个月才能完成。另外,通常需要数千或数万张已人工标记的数据才能为模型提供足够的数据以便准确地做出决策。生成这些数据可能需要花费数月的时间,并且需要庞大的标记团队来进行数据准备,以便将数据用于机器学习。因此,需要耗费大量的人力成本。
发明内容
本申请实施例提供一种+方法,可以自动根据少量的原始数据建立数据处理模型。
第一方面,本申请实施例提供了一种自动建立数据处理模型的方法,该方法包括:
获取训练数据,所述训练数据包括训练样本数据和目标对象的标签信息,所述训练样本数据中的每个数据均包含所述目标对象对应的数据信息;
对所述训练数据进行预处理,得到所述训练样本数据的数据类型,所述数据类型包括图像数据、音频数据、文本数据中的一种;
将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述数据类型确定机器学习算法,并使用上述机器学习算法对所述样本数据和所述标签信息进行训练,得到对象识别模型;
接收来自所述云端服务供应商的所述对象识别模型。
可选的,所述方法包括:
获取待识别数据,使用所述对象识别模型对所述待识别数据进行识别,以确认所述待识别数据中是否包含所述目标对象对应的数据。
可选的,所述方法还包括:
获取测试数据,所述测试数据包括正测试样本数据和逆测试样本数据,所述正测试样本数据中的每个数据均包含所述目标对象对应的数据信息,所述逆测试样本数据中的每个数据均不包含所述目标对象对应的数据信息;
使用所述对象识别模型对所述测试数据进行对象识别,得到识别结果;
基于所述识别结果确定识别的准确率;
在所述准确率小于设定值的情况下,上传所述识别结果和所述数据至所述云端,以使所述云端服务供应商基于所述对象识别模型进行再训练,以得到更新后的对象识别模型;
接收来自所述云端服务供应商的更新后的对象识别模型。
可选的,所述方法包括:
获取待识别数据,使用所述更新后的对象识别模型对所述待识别数据进行识别,以确认所述待识别数据中是否包含所述目标对象对应的数据。
可选的,在所述将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述样本数据和所述标签信息进行训练之前,所述方法还包括:
基于供应商选择操作从多个云端服务供应商中选择目标云端服务供应商;
所述将所述训练数据上传至云端服务供应商包括:
将所述样本数据和所述标签上传至所述目标云端服务供应商。
可选的,所述多个云端服务供应商包括Microsoft Azure Custom VisionService及Google Cloud AutoML Vision。
可选的,所述接收来自所述云端服务供应商的所述对象识别模型包括:
接收来自所云端服务器的对象辨识模型的深度学习套件,所述深度学习套件为Caffe、TensorFlow、CoreML、CNTK或ONNX。
第二方面,本申请实施例提供一种自动建立数据处理模型的装置,
包括处理单元和通信单元,其中,
所述处理单元,用于通过所述通信单元获取训练数据,所述训练数据包括训练样本数据和目标对象的标签信息,所述训练样本数据中的每个数据均包含所述目标对象对应的数据信息;以及将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述样本数据和所述标签信息进行训练,得到对象识别模型;以及接收来自所述云端服务供应商的所述对象识别模型。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,在本申请实施例中,通过获取训练数据,所述训练数据包括训练样本数据和目标对象的标签信息,所述训练样本数据中的每个数据均包含所述目标对象对应的数据信息;以及将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述样本数据和所述标签信息进行训练,得到对象识别模型;以及接收来自所述云端服务供应商的所述对象识别模型。本申请实施例,通过获取少量的训练数据,并将训练数据上传至云端服务供应商来对训练数据进行训练,从而可以快速得到对象识别模型,大幅缩短开发时间。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种自动建立数据处理模型的系统的示意图;
图2是本申请实施例提供的一种自动建立数据处理模型的方法的流程示意图;
图3本申请实施例提供的一种电子设备的结构示意图;
图4本申请实施例提供的一种自动建立数据处理模型的装置的功能单元组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。根据本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明主要是提供一自动建立数据处理模型的技术,可供使用者通过少量的包含目标对象对应的数据的训练数据,使用云端服务供应商所提供的机器学习服务来对指定的目标对象进行训练以生成能够识别该目标对象的对象辨识模型。接着,使用者可以将获取到的对象识别模型部署到相应的应用上对目标对象进行识别。
如图1所示,图1为一个自动建立数据处理模型系统100的示意图,该自动建立数据处理模型系统100包括数据获取装置110、数据处理装置120以及通信装置,所述数据处理装置120连接所述数据获取装置110和所述通信装置130,所述处理装置120用于控制所述数据获取装置110获取训练数据,所述训练数据包括训练样本数据和目标对象的标签信息,所述训练样本数据中的每个数据均包含所述目标对象对应的数据信息;以及用于控制所述将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述样本数据和所述标签信息进行训练,得到对象识别模型;以及控制所述通信装置接收来自所述云端服务供应商的所述对象识别模型。
该自动建立数据处理模型系统100可以包括集成式单体设备或者多设备,为方便描述,本申请将自动建立数据处理模型系统100统称为电子设备。显然该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(MobileStation,MS),终端设备(terminal device)等等。
请参阅图2,图2是本申请实施例提供的一种自动建立数据处理模型的方法的流程示意图,应用于如图1所示的电子设备,如图2所示,该方法包括:
201:获取训练数据,所述训练数据包括训练样本数据和目标对象的标签信息,所述训练样本数据中的每个数据均包含所述目标对象对应的数据信息。
本申请实施例中的自动建立数据处理模型的方法的执行主体可以是电子设备,例如,上述自动建立数据处理模型的方法可以由终端设备或服务器或其它处理设备执行,其中,电子设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该自动建立数据处理模型的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
其中,所述训练样本数据可以是多个图像或视频数据、多个音频数据或多个文本数据等中的一个,所述标签信息是用于描述所述目标对象的信息。
例如,设定所述目标对象是猫咪,所述训练样本数据则是包含有猫咪图像的多个图片或多个视频,所述标签则是对目标对象进行描述的信息,例如可以就是“猫”“橘猫”等文本数据,也可以是其他描述信息。
又例如,设定所述目标对象为小明的语音,所述训练样本数据则为多个包含小明语音的音频数据,所述标签信息可以是“小明的声音”、“小明的语音”等。
在具体实现中,所述可以通过数据采集装置对训练样本数据进行采集,然后对采集到的训练样本数据进行整理标记生成训练样本数据集和对应的标签信息,并将训练样本数据集转换为预设格式的数据,例如CSV 文件的格式,从而得到上述训练数据。
在具体实现中,对于上述标签信息而言,使用者可经由人机界面(如触控屏幕、键盘、按键组、显示器、其他输入/输出装置或上述装置任意组合),来输入用以描述当前目标对象的标签信息(如商品名称、颜色、规格、型号、识别码等等)
其中,所述通过数据采集装置对训练样本数据进行采集,可以是通过外接设备例如摄像设备或录音设备或可以联网的电子设备,去对训练样本数据进行采集。例如通过具有拍摄功能的电子设备对目标对象(如小轿车、猫咪、篮球、冰箱等各种实体)进行拍摄得到目标对象的图像或视频数据;又例如通过录音笔对小明进行多次录音得到小明的语音数据,还可以是直接通过联网设备在网络上获取包含目标对象的数据作为训练样本数据。
可以理解的是在本申请实施例中,上述举例只作为示意性的实现方式,不对具体实现方式做限定。
202:对所述训练数据进行预处理,得到所述训练样本数据的数据类型,所述数据类型包括图像数据、音频数据、文本数据中的一种。
在本申请实施例中,当获取到上述训练数据之后,可以对上述训练数据进行预处理,从而得到上述训练数据的数据类型。
具体的,对上述训练数据进行预处理可以是在电子设备中通过对所述训练数据的数据特征进行提取,然后根据提取的数据特征判断上述训练数据属于电子设备中已存储的数据类型的哪一类,并输出该数据类型对应的数据类型标签。
203:将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述样本数据和所述标签信息进行训练,得到对象识别模型。
在本申请实施例中,上述云端服务供应商为可以提供训练机器学习模型的服务器或平台。
具体的,云端服务供应商可包括Microsoft Azure Custom VisionService(微软公司的自订视觉服务)及/或Google CloudAutoMLVision(谷歌公司的云端自动机器学习视觉服务)
例如,Google CloudAutoMLVision提供的Rekognition 自定义标签基于 Rekognition的现有功能构建,这些功能已使用涵盖多种类别的数千万张图像进行了训练。只需将一小组特定于您的使用案例的训练图像(通常最多只需要几百张图像)上传到易于使用的控制台中,无需上传数千张图像。如果图像已进行过标记处理,那么只需训练操作命令即可开始Rekognition 训练。如果没有进行过标记处理,可以在 Rekognition 的标记界面中直接为图像添加标签,或者使用 Amazon SageMaker Ground Truth 为图像添加标签。Rekognition 使用您的图像集开始训练后,可以在短短数小时内为您生成自定义图像分析模型。Rekognition 自定义标签会在后台自动加载并检查训练数据,选择适当的机器学习算法,训练对象识别模型并提供模型性能指标。然后,可以通过 Rekognition 自定义标签API 使用自定义模型,并将其集成到应用程序中。
作为一种可选的实施方式,上述语段服务供应商在接收到上述训练数据之后,上述云端服务供应商(即云端服务器)基于所述训练样本数据的数据类型对上述训练数据进行特征提取,得到上述训练数据的初始特征数据,然后基于所述初始特征数据从上述训练数据的数据类型对应功能模块集中提取多个功能模块,接着对上述功能模块进行组合得到至少一个初始对象识别模型,并基于所述训练数据的标签信息和上述训练数据对所述至少一个初始对象识别模型对进行训练,输出训练结果。然后根据输出的训练结果确定上述所述对象识别模型。
其中,上述功能模块是指上述云端服务器的数据库中存储的用于搭建神经网络的功能单元,例如上述功能模块可以是用于图像识别的功能模块,这些模块可以包括:identity、1x7 then 7xl convolution、3x3 average pooling、5x5 max pooling、1x1convolution、3x3 depthwise-separable conv、7×7 depthwise-separable conv、1x3then 3x1 convolution、3x3 dilated convolution、3x3 max pooling、7×7 maxpooling、3x3 convolution、5x5 depthwise-seperable conv等等。
其中所述,所述训练结果中可以包括该初始对象识别模型的各个功能模块中的所有权重、超参数以及评估参数等。
具体的,上述云端服务器可以Auto Model Search 的算法来实现对上述训练数据的功能模块的搜索匹配。Auto Model Search 是指对于同一方向的定制能力,也就是说它会采用多个经典模型以及不同的超参数配置,并分别进行训练。然后再按一些策略挑选出比较好的结果,并完成模型的上线。其中系统可调的超参数包含神经网络类型的选择,例如对于图像分类可以选择 Inception、ResNet 或者其他。而对于每一个模型,可选的超参数包含批量大小、迭代数量和卷积核大小等。在确定模型架构,并配置完超参数后,每一个单独的模型都会并行的训练,并按一定策略选择效果最好的模型。
Auto Model Search 是针对特定用户数据的,在接收到上述训练数据后的数据后,上述云端服务器会抽取多个已训练深度网络,并采用迁移学习和不同的超参配置精调这些深度网络。例如,在接收到上述训练数据后,云端服务器可能会选择 Inception v3/v4和 ResNet 等,在固定这几个网络前面层级的权重后,系统会根据用户数据以及不同的批量大小和学习率训练网络。
云端服务器可以采用迁移学习技术,各种基础模型会在百度大规模数据集上进行预训练,并将从中学习到的知识(Knowledge)运用到小规模训练数据集上,从而实现出色的模型效果和快速的模型训练。迁移学习的主干是非常大的网络,而一般我们每一类只需要使用 20 到 100 多张图像就能完成对后面层级的训练,且也会采用 Early Stopping 等正则化手段降低模型过拟合的风险。
图像的迁移学习可能比较好处理,声音分类并不需要太关注序列上的长期依赖关系,因此它也能使用迁移学习。声音分类的迁移主要会采用 MFCC 或加上快速傅立叶变换将音频的时域数据转换为频域的图,然后再利用与计算机视觉相类似的迁移方法传递与音频相关的知识。而以后在处理语音识别等存在长期依赖性的数据时,主体模型可能会继续用到其它迁移知识的技术。
为了提升模型迁移效果,上述云端服务器会执行一些特别的数据增强操作,即增加一些图像以加强模型的迁移效果。例如假定用户希望系统能识别两个类别,并为这两个类别提供了特定的数据,那么系统会自动增加其它一些数据,并作为第三个类别。在训练中,系统不仅需要识别用户的数据,同时还需要识别自动添加的数据为第三类别。
204:接收来自所述云端服务供应商的所述对象识别模型。
在本申请实施例中,当所述云端服务供应商基于上传的训练数据通过训练得到上述对象识别模型后,则可以通过下载上述对象识别模型,以便对上述对象识别模型进行应用。然后将得到的对象识别模型部署到应用程序中进行应用。
可以看出,在本申请实施例中,通过获取训练数据,所述训练数据包括训练样本数据和目标对象的标签信息,所述训练样本数据中的每个数据均包含所述目标对象对应的数据信息;以及将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述样本数据和所述标签信息进行训练,得到对象识别模型;以及接收来自所述云端服务供应商的所述对象识别模型。本申请实施例,通过获取少量的训练数据,并将训练数据上传至云端服务供应商来对训练数据进行训练,从而可以快速得到对象识别模型,大幅缩短开发时间。
在一个可能的示例中,在所述接收来自所述云端服务供应商的所述对象识别模型之后,还包括以下步骤:获取待识别数据,使用所述对象识别模型对所述待识别数据进行识别,以确认所述待识别数据中是否包含所述目标对象对应的数据。
具体的,当所述云端服务供应商基于上传的训练数据通过训练得到上述对象识别模型后,则可以通过下载上述对象识别模型,然后将得到的对象识别模型部署到应用程序中,并使用所述应用程序对待识别的数据进行目标对象识别。
例如,可以通过本申请实施例提供的方法实现准确衡量品牌覆盖率。市场营销机构需要对其客户在各种媒体上的品牌覆盖率做出准确报告。通常,这些机构用人工方式在社交媒体图像、电视节目和体育视频中跟踪客户的徽标和产品出现的次数。通过本方案的方法可以创建自定义对象识别模型,用于检测其客户的徽标和产品。然后将其部署到应用程序中,通过自定义对象识别模型处理图像和视频帧并统计出现次数,不必再费力地尝试用人工方式跟踪传统媒体和社交媒体。
又例如,可以通过本申请实施例提供的方法实现发现有待联合的内容。具体的,内容制作者通常需要搜索成千上万的图像和视频才能找到制作节目所需的相关内容。例如,体育电视节目公司经常需要为其附属公司汇总有关比赛、球队和球员的精彩影片,而用人工方式从存档中完成资料汇总可能需要花费数小时。通过本方案的方法可以创建自定义对象识别模型,以实现根据球衣和号码识别球队和球员,并识别常见的比赛事件(例如进球、罚球和受伤),如此一来,公司可以快速获得与影片主题相匹配的图像和视频片段列表。
可以通过本申请实施例提供的方法实现提高运营效率。如,农业公司需要在包装产品之前对产品质量进行评估。例如,番茄生产商需要根据成熟度人工将番茄分成 6 组(成熟为绿色,不成熟为红色),并相应地进行分组包装,从而确保尽可能延长上架时间。通过本方案的方法可以创建自定义对象识别模型以根据成熟度标准对西红柿进行分类,生产商不用再对每个西红柿进行人工检查。通过将模型与生产商制造系统相集成,生产商可以自动对西红柿进行分类并据此进行包装。
在一个可能的示例中,在所述接收来自所述云端服务供应商的所述对象识别模型之后,还包括以下步骤:获取测试数据,所述测试数据包括正测试样本数据和逆测试样本数据,所述正测试样本数据中的每个数据均包含所述目标对象对应的数据信息,所述逆测试样本数据中的每个数据均不包含所述目标对象对应的数据信息;使用所述对象识别模型对所述测试数据进行对象识别,得到识别结果;基于所述识别结果确定识别的准确率;在所述准确率小于设定值的情况下,上传所述识别结果和所述数据至所述云端,以使所述云端服务供应商基于所述对象识别模型进行再训练,以得到更新后的对象识别模型;接收来自所述云端服务供应商的更新后的对象识别模型。
其中,所述测试样本数据可以是多个图像或视频数据、多个音频数据或多个文本数据等中的一个,所述标签信息是用于描述所述目标对象的信息,所述逆测试样本数据可以是与所述正测试样本数据对应的多个图像或视频数据、多个音频数据或多个文本数据等中的一个。例如上述正测试数据为包含猫咪的图片,所述逆测试数据为不包含猫咪的其他图片。
具体的,接收来自所述云端服务供应商的所述对象识别模型之后,可以对于测试数据中的每个数据进行测试,从而得到预测结果与实际分配的标签的并排比较结果。还可以查看详细的性能指标,例如精度/召回指标、F 得分和置信度得分。可以立即使用对象识别模型进行数据处理分析,也可以使用更多的训练数据进行迭代并重新训练新版本,从而提高对象识别模型性能。开始使用对象识别模型后,可以跟踪预测、更正错误,以及使用反馈数据重新训练新的模型版本并提高性能。
在所述接收来自所述云端服务供应商的更新后的对象识别模型之后,还包括以下步骤:获取待识别数据,使用所述更新后的对象识别模型对所述待识别数据进行识别,以确认所述待识别数据中是否包含所述目标对象对应的数据。
在一个可能的示例中,在所述将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述样本数据和所述标签信息进行训练之前,还包括以下步骤:基于供应商选择操作从多个云端服务供应商中选择目标云端服务供应商;然后,将所述样本数据和所述标签上传至所述目标云端服务供应商。
具体的,可以由人机界面接受使用者的供应商选择操作,并依据供应商选择操作选择多个云端服务供应商的其中之一。
在一具体实施方式中,可经由人机界面(如显示器)提供可选择的云端服务供应商的选项以供使用者依据需求进行选择(如选择使用者已完成注册的云端服务供应商、服务质量较佳的云端服务供应商、费用较低廉的云端服务供应商等等)。
在一具体实施例中,于使用者选择云端服务供应商后,可进一步经由人机界面来接受使用者输入的所选择的云端服务供应商的注册数据(如使用者账号及密码)
在一个可能的示例中,所述接收来自所述云端服务供应商的所述对象识别模型包括:接收来自所云端服务器的对象辨识模型的深度学习套件,所述深度学习套件为Caffe、TensorFlow、CoreML、CNTK或ONNX。
在一个可能的示例中,所述训练数据还包括所述训练样本数据的数据类型,所述数据类型包括图像数据、音频数据、文本数据中的一种;所述将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述样本数据和所述标签信息进行训练包括:将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述数据类型确定机器学习算法,并使用上述机器学习算法对所述样本数据和所述标签信息进行训练。
与上述图2所示的实施例一致的,请参阅图3,图3是本申请实施例提供的一种电子设备300的结构示意图,如图所示,所述电子设备300包括应用处理器310、存储器320、通信接口330以及一个或多个程序321,其中,所述一个或多个程序321被存储在上述存储器320中,并且被配置由上述应用处理器310执行,所述一个或多个程序321包括用于执行以下步骤的指令;
获取训练数据,所述训练数据包括训练样本数据和目标对象的标签信息,所述训练样本数据中的每个数据均包含所述目标对象对应的数据信息;将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述样本数据和所述标签信息进行训练,得到对象识别模型;接收来自所述云端服务供应商的所述对象识别模型。
可以看出,在本申请实施例中,通过获取训练数据,所述训练数据包括训练样本数据和目标对象的标签信息,所述训练样本数据中的每个数据均包含所述目标对象对应的数据信息;以及将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述样本数据和所述标签信息进行训练,得到对象识别模型;以及接收来自所述云端服务供应商的所述对象识别模型。本申请实施例,通过获取少量的训练数据,并将训练数据上传至云端服务供应商来对训练数据进行训练,从而可以快速得到对象识别模型,大幅缩短开发时间。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图4是本申请实施例中所涉及的自动建立数据处理模型的装置400的功能单元组成框图。该自动建立数据处理模型的装置400应用于电子设备,所述电子设备包括处理单元401和通信单元402,其中,
所述处理单元,用于通过所述通信单元获取训练数据,所述训练数据包括训练样本数据和目标对象的标签信息,所述训练样本数据中的每个数据均包含所述目标对象对应的数据信息;以及将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述样本数据和所述标签信息进行训练,得到对象识别模型;以及接收来自所述云端服务供应商的所述对象识别模型。
其中,所述自动建立数据处理模型的装置400还可以包括存储单元403,用于存储电子设备的程序代码和数据。所述处理单元401可以是处理器,所述通信单元402可以是内部通信接口,存储单元403可以是存储器。
可以看出,在本申请实施例中,通过获取训练数据,所述训练数据包括训练样本数据和目标对象的标签信息,所述训练样本数据中的每个数据均包含所述目标对象对应的数据信息;以及将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述样本数据和所述标签信息进行训练,得到对象识别模型;以及接收来自所述云端服务供应商的所述对象识别模型。本申请实施例,通过获取少量的训练数据,并将训练数据上传至云端服务供应商来对训练数据进行训练,从而可以快速得到对象识别模型,大幅缩短开发时间。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory ,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种自动建立数据处理模型的方法,其特征在于,包括:
获取训练数据,所述训练数据包括训练样本数据和目标对象的标签信息,所述训练样本数据中的每个数据均包含所述目标对象对应的数据信息;
对所述训练数据进行预处理,得到所述训练样本数据的数据类型,所述数据类型包括图像数据、音频数据、文本数据中的一种;
将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述数据类型确定机器学习算法,并使用上述机器学习算法对所述样本数据和所述标签信息进行训练,得到对象识别模型;
接收来自所述云端服务供应商的所述对象识别模型。
2.根据权利要求1所述的方法,其特征在于,在所述接收来自所述云端服务供应商的所述对象识别模型之后,所述方法包括:
获取待识别数据,使用所述对象识别模型对所述待识别数据进行识别,以确认所述待识别数据中是否包含所述目标对象对应的数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取测试数据,所述测试数据包括正测试样本数据和逆测试样本数据,所述正测试样本数据中的每个数据均包含所述目标对象对应的数据信息,所述逆测试样本数据中的每个数据均不包含所述目标对象对应的数据信息;
使用所述对象识别模型对所述测试数据进行对象识别,得到识别结果;
基于所述识别结果确定识别的准确率;
在所述准确率小于设定值的情况下,上传所述识别结果和所述数据至所述云端,以使所述云端服务供应商基于所述对象识别模型进行再训练,以得到更新后的对象识别模型;
接收来自所述云端服务供应商的更新后的对象识别模型。
4.根据权利要求3所述的方法,其特征在于,在所述接收来自所述云端服务供应商的更新后的对象识别模型之后,所述方法包括:
获取待识别数据,使用所述更新后的对象识别模型对所述待识别数据进行识别,以确认所述待识别数据中是否包含所述目标对象对应的数据。
5.根据权利要求1-4任一项所述的方法,其特征在于,在所述将所述训练数据上传至云端服务供应商,以使所述云端服务供应商基于所述数据类型确定机器学习算法,并使用上述机器学习算法对所述样本数据和所述标签信息进行训练之前,所述方法还包括:
基于供应商选择操作从多个云端服务供应商中选择目标云端服务供应商;
所述将所述训练数据上传至云端服务供应商包括:
将所述样本数据和所述标签上传至所述目标云端服务供应商。
6.根据权利要求5所述的方法,其特征在于,所述多个云端服务供应商包括MicrosoftAzure Custom Vision Service及Google Cloud AutoML Vision。
7.根据权利要求6所述的方法,其特征在于,所述接收来自所述云端服务供应商的所述对象识别模型包括:
接收来自所云端服务器的对象辨识模型的深度学习套件,所述深度学习套件为Caffe、TensorFlow、CoreML、CNTK或ONNX。
8.一种电子设备,其特征在于,包括处理器、存储器,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。
9.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-7任一项所述的方法。
CN202010764967.2A 2020-08-03 2020-08-03 一种自动建立数据处理模型的方法及相关产品 Pending CN111881187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010764967.2A CN111881187A (zh) 2020-08-03 2020-08-03 一种自动建立数据处理模型的方法及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010764967.2A CN111881187A (zh) 2020-08-03 2020-08-03 一种自动建立数据处理模型的方法及相关产品

Publications (1)

Publication Number Publication Date
CN111881187A true CN111881187A (zh) 2020-11-03

Family

ID=73206009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010764967.2A Pending CN111881187A (zh) 2020-08-03 2020-08-03 一种自动建立数据处理模型的方法及相关产品

Country Status (1)

Country Link
CN (1) CN111881187A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699949A (zh) * 2021-01-05 2021-04-23 百威投资(中国)有限公司 一种基于社交平台数据的潜在用户识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125942A1 (en) * 2018-10-17 2020-04-23 Capital One Services, Llc Synthesizing a singular ensemble machine learning model from an ensemble of models
CN111062404A (zh) * 2018-10-17 2020-04-24 新汉智能系统股份有限公司 自动建立物件辨识模型的方法
CN111209856A (zh) * 2020-01-06 2020-05-29 泰康保险集团股份有限公司 发票信息的识别方法、装置、电子设备及存储介质
CN111461345A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 深度学习模型训练方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125942A1 (en) * 2018-10-17 2020-04-23 Capital One Services, Llc Synthesizing a singular ensemble machine learning model from an ensemble of models
CN111062404A (zh) * 2018-10-17 2020-04-24 新汉智能系统股份有限公司 自动建立物件辨识模型的方法
CN111209856A (zh) * 2020-01-06 2020-05-29 泰康保险集团股份有限公司 发票信息的识别方法、装置、电子设备及存储介质
CN111461345A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 深度学习模型训练方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699949A (zh) * 2021-01-05 2021-04-23 百威投资(中国)有限公司 一种基于社交平台数据的潜在用户识别方法及装置
CN112699949B (zh) * 2021-01-05 2023-05-26 百威投资(中国)有限公司 一种基于社交平台数据的潜在用户识别方法及装置

Similar Documents

Publication Publication Date Title
CN109344908B (zh) 用于生成模型的方法和装置
CN110267119B (zh) 视频精彩度的评价方法及相关设备
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
US11335087B2 (en) Method and system for object identification
US20220172476A1 (en) Video similarity detection method, apparatus, and device
CN109447156B (zh) 用于生成模型的方法和装置
CN110363220B (zh) 行为类别检测方法、装置、电子设备和计算机可读介质
CN110096938B (zh) 一种视频中的动作行为的处理方法和装置
CN111709816A (zh) 基于图像识别的服务推荐方法、装置、设备及存储介质
CN105787133B (zh) 广告信息过滤方法及装置
CN111061898A (zh) 图像处理方法、装置、计算机设备及存储介质
CN110363084A (zh) 一种上课状态检测方法、装置、存储介质及电子
CN111931859B (zh) 一种多标签图像识别方法和装置
CN109919252A (zh) 利用少数标注图像生成分类器的方法
CN107133629B (zh) 图片分类方法、装置和移动终端
CN115713715B (zh) 一种基于深度学习的人体行为识别方法及识别系统
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
CN114419363A (zh) 基于无标注样本数据的目标分类模型训练方法及装置
CN110059212A (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN117036843A (zh) 目标检测模型训练方法、目标检测方法和装置
CN112995690A (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN113255766B (zh) 一种图像分类方法、装置、设备和存储介质
CN112200862B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN110427998A (zh) 模型训练、目标检测方法及装置、电子设备、存储介质
CN111881187A (zh) 一种自动建立数据处理模型的方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201103