CN111008706B - 一种自动标注、训练、预测海量数据的处理方法 - Google Patents

一种自动标注、训练、预测海量数据的处理方法 Download PDF

Info

Publication number
CN111008706B
CN111008706B CN201911248223.9A CN201911248223A CN111008706B CN 111008706 B CN111008706 B CN 111008706B CN 201911248223 A CN201911248223 A CN 201911248223A CN 111008706 B CN111008706 B CN 111008706B
Authority
CN
China
Prior art keywords
data
model
training
result
automatically
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911248223.9A
Other languages
English (en)
Other versions
CN111008706A (zh
Inventor
李波
张少卓
李旭
孙洪鑫
安天博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Jiacheng Information Technology Co ltd
Original Assignee
Changchun Jiacheng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Jiacheng Information Technology Co ltd filed Critical Changchun Jiacheng Information Technology Co ltd
Priority to CN201911248223.9A priority Critical patent/CN111008706B/zh
Publication of CN111008706A publication Critical patent/CN111008706A/zh
Application granted granted Critical
Publication of CN111008706B publication Critical patent/CN111008706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自动标注、训练、预测海量数据的处理方法,包括步骤一、采集数据、步骤二、模型训练、步骤三、更新预测模型、步骤四、迭代更新。通过不断地重复本发明进行机器学习,可以减少人工标注数据的成本,提高数据识别的准确率。本发明所描述的方法是在人工标注与模型训练采集之间交替增长,减轻了工作量,模型更新周期短,耗时短,见效快。

Description

一种自动标注、训练、预测海量数据的处理方法
技术领域
本发明涉及一种处理方法,尤其涉及一种自动标注、训练、预测海量数据的处理方法。
背景技术
在解决大规模机器学习过程中,需要前期进行投入数据标注,先进行少量的数据标注,然后后续过程中利用机器学习的特性进行辅助监督学习,进行纠偏机器学习标注的结果,再反馈到下一轮的学习过程中,重复上述过程不断地加强机器学习的准确率。因此基于大规格数据进行机器学习时,需要投入大量的人工进行数据标注,然后进行模型训练,存在着互联网海量数据在进行机器学习时前期投入人工较多,耗时较长,模型更新周期长,工作量较大、见效成果慢的问题。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种自动标注、训练、预测海量数据的处理方法。
为了解决以上技术问题,本发明采用的技术方案是:一种自动标注、训练、预测海量数据的处理方法,包括以下步骤:
步骤一、采集数据:
I、使用Python技术框架scrapyd编写爬虫,设定采集关键词,指定关键词之间的组合关系,在新闻、贴吧、论坛网站抓取符合关键词的数据,将新闻标题、正文、回复数据进行结构化保存,保存至数据管理平台;
II、在采集的数据中做文本特征提取,进行自动分类,将采集的数据进行特征打标;
III、在数据管理平台中浏览保存的数据,结合特征标签,进行人工标注、审核;
步骤二、模型训练:
I、数据标注完成后,数据管理平台自动将该数据推送到模型训练平台,模型训练平台自动将数据按照以竖线分隔的文本进行处理,生成训练集;
II、训练平台在数据量达到预计的阀值时自动触发模型训练;
步骤三、更新预测模型:
I、在模型训练时根据预设的比例将训练集的数据分出一部分数据,用于模型的验证,计算出模型的正确率、召回率;
II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比,取测试结果高者更新到预测平台,得到新模型;
步骤四、迭代更新:
不断采集的数据进入预测平台,对新数据进行预测标注、自动标注,然后在数据管理平台中进行人工审核,对自动标注的结果进行验证统计,回馈到训练过程;人工审核验证后的数据重复执行步骤二至步骤四,达到半监督的自动机器学习。
进一步地,模型训练的过程为:用一组数据乘以表示的权重随机数,生成随机的结果,根据这个结果与标注的结果进行比较,用梯度下降的方法让生成的结果与标注的结果无限接近,反复重复此过程,直到取得理想的结果为止。
本发明可以在初期只有少量基础训练集的情况下,通过不断采集、识别新数据,根据识别结果进行自动标注,并将标注结果纳入新的训练集中进行下一轮训练。通过不断地重复本发明进行机器学习,可以减少人工标注数据的成本,提高数据识别的准确率。本发明所描述的方法是在人工标注与模型训练采集之间交替增长,减轻了工作量,模型更新周期短,耗时短,见效快。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示的一种自动标注、训练、预测海量数据的处理方法,包括以下步骤:
步骤一、采集数据:
I、使用Python技术框架scrapyd编写爬虫,设定采集关键词,指定关键词之间的组合关系,在新闻、贴吧、论坛等网站抓取符合关键词的数据,将新闻标题、正文、回复等数据进行结构化保存,保存至数据管理平台;
Python(计算机程序设计语言)是一种跨平台的计算机程序设计语言,是一种面向对象的动态类型语言,随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。Python具有简单、易学、速度快、免费、开源、高层语言、可移植性、解释性、可扩展性、可嵌入性、丰富的库、规范的代码等优点。Scrapyd是一个服务器端,用来运行scrapy爬虫的。
II、在采集的数据中做文本特征提取,进行自动分类,将采集的数据进行特征打标;
III、在数据管理平台中浏览保存的数据,结合特征标签,进行人工标注、审核;
其中,数据管理平台是本方法中使用的一种数据管理工具。
步骤二、模型训练:
I、数据标注完成后,数据管理平台自动将该数据推送到模型训练平台,模型训练平台自动将数据按照以竖线分隔的文本进行处理,生成训练集;
II、训练平台在数据量达到预计的阀值时自动触发模型训练;
模型训练的过程为:用一组数据乘以表示的权重随机数,生成随机的结果,根据这个结果与标注的结果进行比较,用梯度下降的方法让生成的结果与标注的结果无限接近,反复重复此过程,直到取得理想的结果为止。
步骤三、更新预测模型:
I、在模型训练时根据预设的比例将训练集的数据分出一部分数据,用于模型的验证,计算出模型的正确率、召回率;
II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比,取测试结果高者更新到预测平台,得到新模型;
步骤四、迭代更新:
不断采集的数据进入预测平台,对新数据进行预测标注、自动标注,然后在数据管理平台中进行人工审核,对自动标注的结果进行验证统计,回馈到训练过程;人工审核验证后的数据重复执行步骤二至步骤四,达到半监督的自动机器学习。
图中上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

Claims (1)

1.一种自动标注、训练、预测海量数据的处理方法,其特征在于:包括以下步骤:
步骤一、采集数据:
I、使用Python技术框架scrapyd编写爬虫,设定采集关键词,指定关键词之间的组合关系,在新闻、贴吧、论坛网站抓取符合关键词的数据,将新闻标题、正文、回复数据进行结构化保存,保存至数据管理平台;
II、在采集的数据中做文本特征提取,进行自动分类,将采集的数据进行特征打标;
III、在数据管理平台中浏览保存的数据,结合特征标签,进行人工标注、审核;
步骤二、模型训练:
I、数据标注完成后,数据管理平台自动将该数据推送到模型训练平台,模型训练平台自动将数据按照以竖线分隔的文本进行处理,生成训练集;
II、训练平台在数据量达到预计的阈值时自动触发模型训练;
模型训练的过程为:用一组数据乘以表示的权重随机数,生成随机的结果,根据这个结果与标注的结果进行比较,用梯度下降的方法让生成的结果与标注的结果无限接近,反复重复此过程,直到取得理想的结果为止;
步骤三、更新预测模型:
I、在模型训练时根据预设的比例将训练集的数据分出一部分数据,用于模型的验证,计算出模型的正确率、召回率;
II、将上述计算的正确率、召回率与以前迭代生成的模型进行对比,取测试结果高者更新到预测平台,得到新模型;
步骤四、迭代更新:
不断采集的数据进入预测平台,对新数据进行预测标注、自动标注,然后在数据管理平台中进行人工审核,对自动标注的结果进行验证统计,回馈到训练过程;人工审核验证后的数据重复执行步骤二至步骤四,达到半监督的自动机器学习。
CN201911248223.9A 2019-12-09 2019-12-09 一种自动标注、训练、预测海量数据的处理方法 Active CN111008706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911248223.9A CN111008706B (zh) 2019-12-09 2019-12-09 一种自动标注、训练、预测海量数据的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911248223.9A CN111008706B (zh) 2019-12-09 2019-12-09 一种自动标注、训练、预测海量数据的处理方法

Publications (2)

Publication Number Publication Date
CN111008706A CN111008706A (zh) 2020-04-14
CN111008706B true CN111008706B (zh) 2023-05-05

Family

ID=70114092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911248223.9A Active CN111008706B (zh) 2019-12-09 2019-12-09 一种自动标注、训练、预测海量数据的处理方法

Country Status (1)

Country Link
CN (1) CN111008706B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916192B (zh) * 2020-07-22 2023-01-13 复旦大学 一种医疗行为多模态数据标注方法和系统
CN114282586A (zh) * 2020-09-27 2022-04-05 中兴通讯股份有限公司 一种数据标注方法、系统和电子设备
CN112598326A (zh) * 2020-12-31 2021-04-02 五八有限公司 模型迭代方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291708A (zh) * 2016-03-30 2017-10-24 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于文本的自动识别文献研究的方法
CN107844836A (zh) * 2017-10-24 2018-03-27 信雅达系统工程股份有限公司 一种基于机器学习的系统及学习方法
WO2018170512A1 (en) * 2017-03-17 2018-09-20 Neurala, Inc. Online, incremental real-time learning for tagging and labeling data streams for deep neural networks and neural network applications
CN108875963A (zh) * 2018-06-28 2018-11-23 北京字节跳动网络技术有限公司 机器学习模型的优化方法、装置、终端设备和存储介质
CN109255044A (zh) * 2018-08-31 2019-01-22 江苏大学 一种基于YOLOv3深度学习网络的图像智能标注方法
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN110287482A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 半自动化分词语料标注训练装置
JP2019182412A (ja) * 2018-04-13 2019-10-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC 自動運転車に用いられる自動データラベリング
CN110457675A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 预测模型训练方法、装置、存储介质及计算机设备
CN110533086A (zh) * 2019-08-13 2019-12-03 天津大学 图像数据半自动标注方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3533004B1 (en) * 2016-10-26 2020-07-29 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291708A (zh) * 2016-03-30 2017-10-24 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于文本的自动识别文献研究的方法
WO2018170512A1 (en) * 2017-03-17 2018-09-20 Neurala, Inc. Online, incremental real-time learning for tagging and labeling data streams for deep neural networks and neural network applications
CN107844836A (zh) * 2017-10-24 2018-03-27 信雅达系统工程股份有限公司 一种基于机器学习的系统及学习方法
JP2019182412A (ja) * 2018-04-13 2019-10-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC 自動運転車に用いられる自動データラベリング
CN108875963A (zh) * 2018-06-28 2018-11-23 北京字节跳动网络技术有限公司 机器学习模型的优化方法、装置、终端设备和存储介质
CN109255044A (zh) * 2018-08-31 2019-01-22 江苏大学 一种基于YOLOv3深度学习网络的图像智能标注方法
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN110287482A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 半自动化分词语料标注训练装置
CN110457675A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 预测模型训练方法、装置、存储介质及计算机设备
CN110533086A (zh) * 2019-08-13 2019-12-03 天津大学 图像数据半自动标注方法

Also Published As

Publication number Publication date
CN111008706A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN111008706B (zh) 一种自动标注、训练、预测海量数据的处理方法
CN107122375B (zh) 基于图像特征的图像主体的识别方法
CN107506389B (zh) 一种提取职位技能需求的方法和装置
CN108182175B (zh) 一种文本质量指标获取方法及装置
CN104899298A (zh) 一种基于大规模语料特征学习的微博情感分析方法
CN108664269A (zh) 一种基于深度学习的特征依恋代码异味检测方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN109254959B (zh) 一种数据评价方法、装置、终端设备及可读存储介质
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN111309910A (zh) 文本信息挖掘方法及装置
CN104881458A (zh) 一种网页主题的标注方法和装置
CN110705272A (zh) 一种面向汽车发动机故障诊断的命名实体识别方法
CN111914159A (zh) 一种信息推荐方法及终端
CN113434685A (zh) 一种资讯分类处理的方法及系统
CN110008473A (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN110019827B (zh) 一种语料库生成方法、装置、设备和计算机存储介质
CN115510180A (zh) 一种面向多领域的复杂事件要素抽取方法
CN106547803A (zh) 爬取网站增量资源的方法和装置
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN106484913A (zh) 一种目标图片确定的方法以及服务器
CN117093260B (zh) 一种基于决策树分类算法的融合模型网站结构解析方法
CN103279581A (zh) 一种利用紧凑视频主题描述子进行视频检索的方法
CN115438645A (zh) 一种序列标注任务的文本数据增强方法及系统
CN110162629B (zh) 一种基于多基模型框架的文本分类方法
CN110413909B (zh) 基于机器学习的大规模嵌入式设备在线固件智能识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant