CN111008706B - 一种自动标注、训练、预测海量数据的处理方法 - Google Patents
一种自动标注、训练、预测海量数据的处理方法 Download PDFInfo
- Publication number
- CN111008706B CN111008706B CN201911248223.9A CN201911248223A CN111008706B CN 111008706 B CN111008706 B CN 111008706B CN 201911248223 A CN201911248223 A CN 201911248223A CN 111008706 B CN111008706 B CN 111008706B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- training
- result
- automatically
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种自动标注、训练、预测海量数据的处理方法,包括步骤一、采集数据、步骤二、模型训练、步骤三、更新预测模型、步骤四、迭代更新。通过不断地重复本发明进行机器学习,可以减少人工标注数据的成本,提高数据识别的准确率。本发明所描述的方法是在人工标注与模型训练采集之间交替增长,减轻了工作量,模型更新周期短,耗时短,见效快。
Description
技术领域
本发明涉及一种处理方法,尤其涉及一种自动标注、训练、预测海量数据的处理方法。
背景技术
在解决大规模机器学习过程中,需要前期进行投入数据标注,先进行少量的数据标注,然后后续过程中利用机器学习的特性进行辅助监督学习,进行纠偏机器学习标注的结果,再反馈到下一轮的学习过程中,重复上述过程不断地加强机器学习的准确率。因此基于大规格数据进行机器学习时,需要投入大量的人工进行数据标注,然后进行模型训练,存在着互联网海量数据在进行机器学习时前期投入人工较多,耗时较长,模型更新周期长,工作量较大、见效成果慢的问题。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种自动标注、训练、预测海量数据的处理方法。
为了解决以上技术问题,本发明采用的技术方案是:一种自动标注、训练、预测海量数据的处理方法,包括以下步骤:
步骤一、采集数据:
I、使用Python技术框架scrapyd编写爬虫,设定采集关键词,指定关键词之间的组合关系,在新闻、贴吧、论坛网站抓取符合关键词的数据,将新闻标题、正文、回复数据进行结构化保存,保存至数据管理平台;
II、在采集的数据中做文本特征提取,进行自动分类,将采集的数据进行特征打标;
III、在数据管理平台中浏览保存的数据,结合特征标签,进行人工标注、审核;
步骤二、模型训练:
I、数据标注完成后,数据管理平台自动将该数据推送到模型训练平台,模型训练平台自动将数据按照以竖线分隔的文本进行处理,生成训练集;
II、训练平台在数据量达到预计的阀值时自动触发模型训练;
步骤三、更新预测模型:
I、在模型训练时根据预设的比例将训练集的数据分出一部分数据,用于模型的验证,计算出模型的正确率、召回率;
II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比,取测试结果高者更新到预测平台,得到新模型;
步骤四、迭代更新:
不断采集的数据进入预测平台,对新数据进行预测标注、自动标注,然后在数据管理平台中进行人工审核,对自动标注的结果进行验证统计,回馈到训练过程;人工审核验证后的数据重复执行步骤二至步骤四,达到半监督的自动机器学习。
进一步地,模型训练的过程为:用一组数据乘以表示的权重随机数,生成随机的结果,根据这个结果与标注的结果进行比较,用梯度下降的方法让生成的结果与标注的结果无限接近,反复重复此过程,直到取得理想的结果为止。
本发明可以在初期只有少量基础训练集的情况下,通过不断采集、识别新数据,根据识别结果进行自动标注,并将标注结果纳入新的训练集中进行下一轮训练。通过不断地重复本发明进行机器学习,可以减少人工标注数据的成本,提高数据识别的准确率。本发明所描述的方法是在人工标注与模型训练采集之间交替增长,减轻了工作量,模型更新周期短,耗时短,见效快。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示的一种自动标注、训练、预测海量数据的处理方法,包括以下步骤:
步骤一、采集数据:
I、使用Python技术框架scrapyd编写爬虫,设定采集关键词,指定关键词之间的组合关系,在新闻、贴吧、论坛等网站抓取符合关键词的数据,将新闻标题、正文、回复等数据进行结构化保存,保存至数据管理平台;
Python(计算机程序设计语言)是一种跨平台的计算机程序设计语言,是一种面向对象的动态类型语言,随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。Python具有简单、易学、速度快、免费、开源、高层语言、可移植性、解释性、可扩展性、可嵌入性、丰富的库、规范的代码等优点。Scrapyd是一个服务器端,用来运行scrapy爬虫的。
II、在采集的数据中做文本特征提取,进行自动分类,将采集的数据进行特征打标;
III、在数据管理平台中浏览保存的数据,结合特征标签,进行人工标注、审核;
其中,数据管理平台是本方法中使用的一种数据管理工具。
步骤二、模型训练:
I、数据标注完成后,数据管理平台自动将该数据推送到模型训练平台,模型训练平台自动将数据按照以竖线分隔的文本进行处理,生成训练集;
II、训练平台在数据量达到预计的阀值时自动触发模型训练;
模型训练的过程为:用一组数据乘以表示的权重随机数,生成随机的结果,根据这个结果与标注的结果进行比较,用梯度下降的方法让生成的结果与标注的结果无限接近,反复重复此过程,直到取得理想的结果为止。
步骤三、更新预测模型:
I、在模型训练时根据预设的比例将训练集的数据分出一部分数据,用于模型的验证,计算出模型的正确率、召回率;
II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比,取测试结果高者更新到预测平台,得到新模型;
步骤四、迭代更新:
不断采集的数据进入预测平台,对新数据进行预测标注、自动标注,然后在数据管理平台中进行人工审核,对自动标注的结果进行验证统计,回馈到训练过程;人工审核验证后的数据重复执行步骤二至步骤四,达到半监督的自动机器学习。
图中上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。
Claims (1)
1.一种自动标注、训练、预测海量数据的处理方法,其特征在于:包括以下步骤:
步骤一、采集数据:
I、使用Python技术框架scrapyd编写爬虫,设定采集关键词,指定关键词之间的组合关系,在新闻、贴吧、论坛网站抓取符合关键词的数据,将新闻标题、正文、回复数据进行结构化保存,保存至数据管理平台;
II、在采集的数据中做文本特征提取,进行自动分类,将采集的数据进行特征打标;
III、在数据管理平台中浏览保存的数据,结合特征标签,进行人工标注、审核;
步骤二、模型训练:
I、数据标注完成后,数据管理平台自动将该数据推送到模型训练平台,模型训练平台自动将数据按照以竖线分隔的文本进行处理,生成训练集;
II、训练平台在数据量达到预计的阈值时自动触发模型训练;
模型训练的过程为:用一组数据乘以表示的权重随机数,生成随机的结果,根据这个结果与标注的结果进行比较,用梯度下降的方法让生成的结果与标注的结果无限接近,反复重复此过程,直到取得理想的结果为止;
步骤三、更新预测模型:
I、在模型训练时根据预设的比例将训练集的数据分出一部分数据,用于模型的验证,计算出模型的正确率、召回率;
II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比,取测试结果高者更新到预测平台,得到新模型;
步骤四、迭代更新:
不断采集的数据进入预测平台,对新数据进行预测标注、自动标注,然后在数据管理平台中进行人工审核,对自动标注的结果进行验证统计,回馈到训练过程;人工审核验证后的数据重复执行步骤二至步骤四,达到半监督的自动机器学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911248223.9A CN111008706B (zh) | 2019-12-09 | 2019-12-09 | 一种自动标注、训练、预测海量数据的处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911248223.9A CN111008706B (zh) | 2019-12-09 | 2019-12-09 | 一种自动标注、训练、预测海量数据的处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111008706A CN111008706A (zh) | 2020-04-14 |
CN111008706B true CN111008706B (zh) | 2023-05-05 |
Family
ID=70114092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911248223.9A Active CN111008706B (zh) | 2019-12-09 | 2019-12-09 | 一种自动标注、训练、预测海量数据的处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111008706B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916192B (zh) * | 2020-07-22 | 2023-01-13 | 复旦大学 | 一种医疗行为多模态数据标注方法和系统 |
CN114282586A (zh) * | 2020-09-27 | 2022-04-05 | 中兴通讯股份有限公司 | 一种数据标注方法、系统和电子设备 |
CN112598326A (zh) * | 2020-12-31 | 2021-04-02 | 五八有限公司 | 模型迭代方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291708A (zh) * | 2016-03-30 | 2017-10-24 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于文本的自动识别文献研究的方法 |
CN107844836A (zh) * | 2017-10-24 | 2018-03-27 | 信雅达系统工程股份有限公司 | 一种基于机器学习的系统及学习方法 |
WO2018170512A1 (en) * | 2017-03-17 | 2018-09-20 | Neurala, Inc. | Online, incremental real-time learning for tagging and labeling data streams for deep neural networks and neural network applications |
CN108875963A (zh) * | 2018-06-28 | 2018-11-23 | 北京字节跳动网络技术有限公司 | 机器学习模型的优化方法、装置、终端设备和存储介质 |
CN109255044A (zh) * | 2018-08-31 | 2019-01-22 | 江苏大学 | 一种基于YOLOv3深度学习网络的图像智能标注方法 |
CN109635110A (zh) * | 2018-11-30 | 2019-04-16 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备以及计算机可读存储介质 |
CN110287482A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 半自动化分词语料标注训练装置 |
JP2019182412A (ja) * | 2018-04-13 | 2019-10-24 | バイドゥ ユーエスエイ エルエルシーBaidu USA LLC | 自動運転車に用いられる自動データラベリング |
CN110457675A (zh) * | 2019-06-26 | 2019-11-15 | 平安科技(深圳)有限公司 | 预测模型训练方法、装置、存储介质及计算机设备 |
CN110533086A (zh) * | 2019-08-13 | 2019-12-03 | 天津大学 | 图像数据半自动标注方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3533004B1 (en) * | 2016-10-26 | 2020-07-29 | Swiss Reinsurance Company Ltd. | Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof |
-
2019
- 2019-12-09 CN CN201911248223.9A patent/CN111008706B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291708A (zh) * | 2016-03-30 | 2017-10-24 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于文本的自动识别文献研究的方法 |
WO2018170512A1 (en) * | 2017-03-17 | 2018-09-20 | Neurala, Inc. | Online, incremental real-time learning for tagging and labeling data streams for deep neural networks and neural network applications |
CN107844836A (zh) * | 2017-10-24 | 2018-03-27 | 信雅达系统工程股份有限公司 | 一种基于机器学习的系统及学习方法 |
JP2019182412A (ja) * | 2018-04-13 | 2019-10-24 | バイドゥ ユーエスエイ エルエルシーBaidu USA LLC | 自動運転車に用いられる自動データラベリング |
CN108875963A (zh) * | 2018-06-28 | 2018-11-23 | 北京字节跳动网络技术有限公司 | 机器学习模型的优化方法、装置、终端设备和存储介质 |
CN109255044A (zh) * | 2018-08-31 | 2019-01-22 | 江苏大学 | 一种基于YOLOv3深度学习网络的图像智能标注方法 |
CN109635110A (zh) * | 2018-11-30 | 2019-04-16 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备以及计算机可读存储介质 |
CN110287482A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 半自动化分词语料标注训练装置 |
CN110457675A (zh) * | 2019-06-26 | 2019-11-15 | 平安科技(深圳)有限公司 | 预测模型训练方法、装置、存储介质及计算机设备 |
CN110533086A (zh) * | 2019-08-13 | 2019-12-03 | 天津大学 | 图像数据半自动标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111008706A (zh) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111008706B (zh) | 一种自动标注、训练、预测海量数据的处理方法 | |
CN107122375B (zh) | 基于图像特征的图像主体的识别方法 | |
CN107506389B (zh) | 一种提取职位技能需求的方法和装置 | |
CN108182175B (zh) | 一种文本质量指标获取方法及装置 | |
CN104899298A (zh) | 一种基于大规模语料特征学习的微博情感分析方法 | |
CN108664269A (zh) | 一种基于深度学习的特征依恋代码异味检测方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN109254959B (zh) | 一种数据评价方法、装置、终端设备及可读存储介质 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN104881458A (zh) | 一种网页主题的标注方法和装置 | |
CN110705272A (zh) | 一种面向汽车发动机故障诊断的命名实体识别方法 | |
CN111914159A (zh) | 一种信息推荐方法及终端 | |
CN113434685A (zh) | 一种资讯分类处理的方法及系统 | |
CN110008473A (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN110019827B (zh) | 一种语料库生成方法、装置、设备和计算机存储介质 | |
CN115510180A (zh) | 一种面向多领域的复杂事件要素抽取方法 | |
CN106547803A (zh) | 爬取网站增量资源的方法和装置 | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN106484913A (zh) | 一种目标图片确定的方法以及服务器 | |
CN117093260B (zh) | 一种基于决策树分类算法的融合模型网站结构解析方法 | |
CN103279581A (zh) | 一种利用紧凑视频主题描述子进行视频检索的方法 | |
CN115438645A (zh) | 一种序列标注任务的文本数据增强方法及系统 | |
CN110162629B (zh) | 一种基于多基模型框架的文本分类方法 | |
CN110413909B (zh) | 基于机器学习的大规模嵌入式设备在线固件智能识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |