CN111008706B

CN111008706B - 一种自动标注、训练、预测海量数据的处理方法

Info

Publication number: CN111008706B
Application number: CN201911248223.9A
Authority: CN
Inventors: 李波; 张少卓; 李旭; 孙洪鑫; 安天博
Original assignee: Changchun Jiacheng Information Technology Co ltd
Current assignee: Changchun Jiacheng Information Technology Co ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2023-05-05
Anticipated expiration: 2039-12-09
Also published as: CN111008706A

Abstract

本发明公开了一种自动标注、训练、预测海量数据的处理方法，包括步骤一、采集数据、步骤二、模型训练、步骤三、更新预测模型、步骤四、迭代更新。通过不断地重复本发明进行机器学习，可以减少人工标注数据的成本，提高数据识别的准确率。本发明所描述的方法是在人工标注与模型训练采集之间交替增长，减轻了工作量，模型更新周期短，耗时短，见效快。

Description

一种自动标注、训练、预测海量数据的处理方法

技术领域

本发明涉及一种处理方法，尤其涉及一种自动标注、训练、预测海量数据的处理方法。

背景技术

在解决大规模机器学习过程中，需要前期进行投入数据标注，先进行少量的数据标注，然后后续过程中利用机器学习的特性进行辅助监督学习，进行纠偏机器学习标注的结果，再反馈到下一轮的学习过程中，重复上述过程不断地加强机器学习的准确率。因此基于大规格数据进行机器学习时，需要投入大量的人工进行数据标注，然后进行模型训练，存在着互联网海量数据在进行机器学习时前期投入人工较多，耗时较长，模型更新周期长，工作量较大、见效成果慢的问题。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种自动标注、训练、预测海量数据的处理方法。

为了解决以上技术问题，本发明采用的技术方案是：一种自动标注、训练、预测海量数据的处理方法，包括以下步骤：

步骤一、采集数据：

I、使用Python技术框架scrapyd编写爬虫，设定采集关键词，指定关键词之间的组合关系，在新闻、贴吧、论坛网站抓取符合关键词的数据，将新闻标题、正文、回复数据进行结构化保存，保存至数据管理平台；

II、在采集的数据中做文本特征提取，进行自动分类，将采集的数据进行特征打标；

III、在数据管理平台中浏览保存的数据，结合特征标签，进行人工标注、审核；

步骤二、模型训练：

I、数据标注完成后，数据管理平台自动将该数据推送到模型训练平台，模型训练平台自动将数据按照以竖线分隔的文本进行处理，生成训练集；

II、训练平台在数据量达到预计的阀值时自动触发模型训练；

步骤三、更新预测模型：

I、在模型训练时根据预设的比例将训练集的数据分出一部分数据，用于模型的验证，计算出模型的正确率、召回率；

II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比，取测试结果高者更新到预测平台，得到新模型；

步骤四、迭代更新：

不断采集的数据进入预测平台，对新数据进行预测标注、自动标注，然后在数据管理平台中进行人工审核，对自动标注的结果进行验证统计，回馈到训练过程；人工审核验证后的数据重复执行步骤二至步骤四，达到半监督的自动机器学习。

进一步地，模型训练的过程为：用一组数据乘以表示的权重随机数，生成随机的结果，根据这个结果与标注的结果进行比较，用梯度下降的方法让生成的结果与标注的结果无限接近，反复重复此过程，直到取得理想的结果为止。

本发明可以在初期只有少量基础训练集的情况下，通过不断采集、识别新数据，根据识别结果进行自动标注，并将标注结果纳入新的训练集中进行下一轮训练。通过不断地重复本发明进行机器学习，可以减少人工标注数据的成本，提高数据识别的准确率。本发明所描述的方法是在人工标注与模型训练采集之间交替增长，减轻了工作量，模型更新周期短，耗时短，见效快。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示的一种自动标注、训练、预测海量数据的处理方法，包括以下步骤：

步骤一、采集数据：

I、使用Python技术框架scrapyd编写爬虫，设定采集关键词，指定关键词之间的组合关系，在新闻、贴吧、论坛等网站抓取符合关键词的数据，将新闻标题、正文、回复等数据进行结构化保存，保存至数据管理平台；

Python(计算机程序设计语言)是一种跨平台的计算机程序设计语言，是一种面向对象的动态类型语言，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。Python具有简单、易学、速度快、免费、开源、高层语言、可移植性、解释性、可扩展性、可嵌入性、丰富的库、规范的代码等优点。Scrapyd是一个服务器端，用来运行scrapy爬虫的。

其中，数据管理平台是本方法中使用的一种数据管理工具。

步骤二、模型训练：

模型训练的过程为：用一组数据乘以表示的权重随机数，生成随机的结果，根据这个结果与标注的结果进行比较，用梯度下降的方法让生成的结果与标注的结果无限接近，反复重复此过程，直到取得理想的结果为止。

步骤三、更新预测模型：

步骤四、迭代更新：

图中上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种自动标注、训练、预测海量数据的处理方法，其特征在于：包括以下步骤：

步骤一、采集数据：

步骤二、模型训练：

II、训练平台在数据量达到预计的阈值时自动触发模型训练；

模型训练的过程为：用一组数据乘以表示的权重随机数，生成随机的结果，根据这个结果与标注的结果进行比较，用梯度下降的方法让生成的结果与标注的结果无限接近，反复重复此过程，直到取得理想的结果为止；

步骤三、更新预测模型：

步骤四、迭代更新：