CN111177238A - 一种基于用户自定义的数据集生成方法 - Google Patents

一种基于用户自定义的数据集生成方法 Download PDF

Info

Publication number
CN111177238A
CN111177238A CN201911280856.8A CN201911280856A CN111177238A CN 111177238 A CN111177238 A CN 111177238A CN 201911280856 A CN201911280856 A CN 201911280856A CN 111177238 A CN111177238 A CN 111177238A
Authority
CN
China
Prior art keywords
data
data set
parameters
user
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911280856.8A
Other languages
English (en)
Other versions
CN111177238B (zh
Inventor
徐汕
张晶亮
梁炬
谢水庚
郝志强
滕源
刘澜涛
姜桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Casicloud Co ltd
Original Assignee
Beijing Casicloud Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Casicloud Co ltd filed Critical Beijing Casicloud Co ltd
Priority to CN201911280856.8A priority Critical patent/CN111177238B/zh
Publication of CN111177238A publication Critical patent/CN111177238A/zh
Application granted granted Critical
Publication of CN111177238B publication Critical patent/CN111177238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户自定义的数据集生成方法,该方法包括以下步骤:用户设定数据集参数,系统自动生成对应的数据集;依据数据需要审核参数、数据源参数,从消息队列中获取符合要求的数据;调用接口,处理并获取处理后的数据;写入数据到服务器的文件中,判断数据处理情况,完成数据的处理;压缩所述文件;依据实际的数据条数,更新并存储数据库中的数据集信息;发送完成创建数据集信息到应用层。通过采用版本参数和数据类型参数创建的数据集,对用户来说具有更强的针对性与专业性。因为数据集是面向特定的应用领域的,如图像描述、实体识别、关系抽取等,使用户不需再进行额外的数据处理,做到了“拿来即用”。

Description

一种基于用户自定义的数据集生成方法
技术领域
本发明涉及数据标注技术领域,具体来说,涉及一种基于用户自定义的数据集生成方法。
背景技术
海量数据,是人工智能的血液,是深度学习的饲料。在人工智能技术飞速发展的今天,需要大量的、带有标签的数据为深度模型的训练提供持续的数据支撑,用于训练的数据越多、数据质量越好,深度学习的计算结果越准确。
目前,国内市场越来越多的头部公司开始组建自己的数据标注部门,京东(京东众智)、百度(百度众测)、腾讯、阿里(阿里数据标注)都已经拥有自己的标注平台和工具,提供标注以及数据服务,客户可提供数据给平台进行标注,也可直接在数据商店中购买已标注好的数据。
通过对标注市场的调研发现,市场上缺乏高质量的工业领域数据,因此无法满足市场对于工业领域标注数据日益增长的需求。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于用户自定义的数据集生成方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于用户自定义的数据集生成方法,该方法包括
S1:用户设定数据集参数,系统自动生成对应的数据集;
S2:依据数据需要审核参数、数据源参数,从消息队列中获取符合要求的数据;
S3:调用接口,处理并获取处理后的数据;
S4:写入数据到服务器的文件中,判断数据处理情况,完成数据的处理;
S5:压缩所述文件;
S6:依据实际的数据条数,更新并存储数据库中的数据集信息;
S7:发送完成创建数据集信息到应用层。
进一步的,所述步骤S1中系统自动生成对应的数据集的步骤包括以下步骤:
S11:获取创建数据集的请求信息和数据集参数;
S12:依据数据集参数,插入并存储数据集的初始信息到数据库。
进一步的,所述步骤S3包括以下步骤:
S31:依据版本参数,系统自动识别数据集版本号,调用对应接口;
S32:发送数据信息到所述对应接口;
S33:所述对应接口获取数据信息,批处理数据,返回处理后的数据。
进一步的,所述用户设定数据集参数的步骤中,用户设定应用类别参数、数据类别参数、数据源参数、数据需要审核参数、版本参数、条数参数,其中,用户依据开发环境设定应用类别,用户依据数据的应用场景设定数据类别,不同版本数据集的数据格式不尽相同,每一个数据集支持一个特定的算法模型。
进一步的,所述数据源参数中的数据必须已经过人工标注。
本发明的有益效果:通过采用版本参数和数据类型参数创建的数据集,对用户来说具有更强的针对性与专业性。因为数据集是面向特定的应用领域的,如图像描述、实体识别、关系抽取等,使用户不需再进行额外的数据处理,做到了“拿来即用”。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的一种基于用户自定义的数据集生成方法的流程框图;
图2是创建数据集所需的参数图;
图3是根据本发明实施例所述的一种基于用户自定义的数据集生成方法的模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例所述的一种基于用户自定义的数据集生成方法,包括以下步骤:
S1:用户设定数据集参数,系统自动生成对应的数据集;
S2:依据数据需要审核参数、数据源参数,从消息队列中获取符合要求的数据;
S3:调用接口,处理并获取处理后的数据;
S4:写入数据到服务器的文件中,判断数据处理情况,完成数据的处理;
S5:压缩所述文件;
S6:依据实际的数据条数,更新并存储数据库中的数据集信息;
S7:发送完成创建数据集信息到应用层。
步骤S1中系统自动生成对应的数据集的步骤包括以下步骤:
S11:获取创建数据集的请求信息和数据集参数;
S12:依据数据集参数,插入并存储数据集的初始信息到数据库。
步骤S3包括以下步骤:
S31:依据版本参数,系统自动识别数据集版本号,调用对应接口;
S32:发送数据信息到所述对应接口;
S33:所述对应接口获取数据信息,批处理数据,返回处理后的数据。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,该产品的配比及原料或者该方法的步骤(工艺流程)如下:
1.用户定制数据集
如图1所示,用户设置数据集参数,从而创建对应的数据集。
1.1 应用类别。应用类别根据用户的开发环境,分为“开发”、“测试”、“训练”、“验证”四类。“开发”和“测试”即为软件开发中传统意义上的开发和测试,用于对软件或应用进行开发、调试和测试;“训练”和“验证”,即为深度学习或机器学习模型,所需的训练集和测试集。
1.2 数据类别。根据数据的应用场景,定义了两类数据,分别是“知识自动化抽取”和“图片描述”。“知识自动化抽取”用于从文本中抽取出包含{实体A-关系-实体B}这样的三元组数据;“图片描述”针对给定图片生成对图片的描述信息。
1.3 数据源。“知识自动化抽取”所需数据为文本数据,如“百度百科”数据;“图像描述”所需数据为图片数据。 这些数据都已经过人工标注这一步骤。
1.4 数据需要审核。数据源中的数据,均是已标注数据,其中有一部分数据数据“已审核”数据, 这些数据在经过人工标注后,又经过一道人工审核标注结果的程序,在标注质量上相比“未审核”数据更高。
1.5 版本。不同版本数据集的数据格式不尽相同,每一个数据集支持一个特定的算法模型。
1.6 条数。根据上述条件的指定,为用户评估数据集数据量的一个大致范围。在数据处理的过程中,会舍弃掉一些不符合数据规范的数据,因此这里的值并不是精确值。
2.后台生成数据集
2.1 当接收到创建数据集的请求后,在数据库中创建该数据集的初始信息,数据集的数据条数以传过来的参数为准;
2.2 根据“数据需要审核”、“数据源”,从消息队列中获取一批符合要求的数据;
2.2 根据“版本”参数,调用指定版本的接口,完成数据的批处理,获取处理后的数据;
2.3 将数据写入到位于服务器的文件中,若尚有数据未处理,则返回至步骤<2.1>,持续从消息队列中拉取数据,完成数据的处理与存储操作;
2.4 待全部数据处理完毕后,将文件进行压缩处理;
2.5 根据实际的数据条数,更新数据库中的数据集状态;
2.6 通知前端完成数据集的创建。
3.数据集内容的简要说明
提出三种数据类别的数据。
3.1 知识自动化抽取。该类数据用于信息抽取模型的训练,用于识别实体、抽取实体之间的关系。进一步通过版本划分有三个版本的数据。
3.1.1 用于“实体识别”的符合“BIOES标注规范”数据。实体的标注信息除了“BIOES”,还有实体所属类别的标签,这些标签如下:工业实体(INDUSTRY)、类别(CATEGORY)、特性(CHARACTER)、应用领域(APPLY)和作用(FUNCTION)。在一条数据中,是由“实体A B-INDUSTRY”、“实体B E-CATEGORY”这样的一个个标注语句构成的工业文本;
3.1.2 用于“关系抽取”的数据。数据由{实体A}{实体B}{关系}{句子}组成,中间用空格分割。关系定义了6种,分别是“别称”、“类别”、“特性”、“应用”、“组成”、“作用”;
3.1.3 “实体关系联合抽取”的数据。将前两种数据糅合在了一起,可用于联合抽取模型的训练,即同时抽取出{实体A}-{关系}-{实体B}这样的三元组数据。数据格式为json,通过相应关键字即可取出“句子”、“实体”、“关系”数据。
3.2 图像描述。每一条数据包含一张图片的URL链接以及若干对图片的描述内容,描述内容细分为一条主要描述以及若干的补充描述。
注:
1.必须至少公开一种制备方法或者实施方法,并且该方法应当具体说明原料物质、工艺步骤和条件(如温度要求、时间要求)、专用设备等,使所属领域的技术人员能够实施。
2.当涉及较宽的数值范围时,请给出两端值以及至少一个中间值。
3.如果原料物质不能从现有技术中得到,应当公开其制备方法,如果是天然物质,请公开产地以及其基本化学成分或能确认该物质的基本参数。
综上所述,借助于本发明的上述技术方案,通过采用版本参数和数据类型参数创建的数据集,对用户来说具有更强的针对性与专业性。因为数据集是面向特定的应用领域的,如图像描述、实体识别、关系抽取等,使用户不需再进行额外的数据处理,做到了“拿来即用”。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于用户自定义的数据集生成方法,其特征在于,包括以下步骤:
S1:用户设定数据集参数,系统自动生成对应的数据集;
S2:依据数据需要审核参数、数据源参数,从消息队列中获取符合要求的数据;
S3:调用接口,处理并获取处理后的数据;
S4:写入数据到服务器的文件中,判断数据处理情况,完成数据的处理;
S5:压缩所述文件;
S6:依据实际的数据条数,更新并存储数据库中的数据集信息;
S7:发送完成创建数据集信息到应用层。
2.根据权利要求1所述的一种基于用户自定义的数据集生成方法,其特征在于,所述步骤S1中系统自动生成对应的数据集的步骤包括以下步骤:
S11:获取创建数据集的请求信息和数据集参数;
S12:依据数据集参数,插入并存储数据集的初始信息到数据库。
3.根据权利要求1所述的一种基于用户自定义的数据集生成方法,其特征在于,所述步骤S3包括以下步骤:
S31:依据版本参数,系统自动识别数据集版本号,调用对应接口;
S32:发送数据信息到所述对应接口;
S33:所述对应接口获取数据信息,批处理数据,返回处理后的数据。
4.根据权利要求1所述的一种基于用户自定义的数据集生成方法,其特征在于,所述用户设定数据集参数的步骤中,用户设定应用类别参数、数据类别参数、数据源参数、数据需要审核参数、版本参数、条数参数,其中,用户依据开发环境设定应用类别,用户依据数据的应用场景设定数据类别,不同版本数据集的数据格式不尽相同,每一个数据集支持一个特定的算法模型。
5.根据权利要求4所述的一种基于用户自定义的数据集生成方法,其特征在于,所述数据源参数中的数据必须已经过人工标注。
CN201911280856.8A 2019-12-13 2019-12-13 一种基于用户自定义的数据集生成方法 Active CN111177238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911280856.8A CN111177238B (zh) 2019-12-13 2019-12-13 一种基于用户自定义的数据集生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911280856.8A CN111177238B (zh) 2019-12-13 2019-12-13 一种基于用户自定义的数据集生成方法

Publications (2)

Publication Number Publication Date
CN111177238A true CN111177238A (zh) 2020-05-19
CN111177238B CN111177238B (zh) 2023-12-08

Family

ID=70646244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911280856.8A Active CN111177238B (zh) 2019-12-13 2019-12-13 一种基于用户自定义的数据集生成方法

Country Status (1)

Country Link
CN (1) CN111177238B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878418A (en) * 1997-08-12 1999-03-02 Intervoice Limited Partnership Auto definition of data sets and provisioning interfaces for call automation
CN104573068A (zh) * 2015-01-23 2015-04-29 四川中科腾信科技有限公司 一种基于大数据的信息处理方法
CN109284298A (zh) * 2018-11-09 2019-01-29 上海晏鼠计算机技术股份有限公司 一种基于机器学习和大数据处理的内容生产系统
US10296848B1 (en) * 2018-03-05 2019-05-21 Clinc, Inc. Systems and method for automatically configuring machine learning models
CN109871859A (zh) * 2018-09-28 2019-06-11 北京矩视智能科技有限公司 一种自动生成图像训练集系统
CN110533489A (zh) * 2019-09-05 2019-12-03 腾讯科技(深圳)有限公司 应用于模型训练的样本获取方法及装置、设备、存储介质
CN110532447A (zh) * 2019-08-29 2019-12-03 上海云从汇临人工智能科技有限公司 一种业务数据处理方法、装置、介质和设备
CN110554995A (zh) * 2019-08-13 2019-12-10 武汉中海庭数据技术有限公司 一种深度学习模型的管理方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878418A (en) * 1997-08-12 1999-03-02 Intervoice Limited Partnership Auto definition of data sets and provisioning interfaces for call automation
CN104573068A (zh) * 2015-01-23 2015-04-29 四川中科腾信科技有限公司 一种基于大数据的信息处理方法
US10296848B1 (en) * 2018-03-05 2019-05-21 Clinc, Inc. Systems and method for automatically configuring machine learning models
CN109871859A (zh) * 2018-09-28 2019-06-11 北京矩视智能科技有限公司 一种自动生成图像训练集系统
CN109284298A (zh) * 2018-11-09 2019-01-29 上海晏鼠计算机技术股份有限公司 一种基于机器学习和大数据处理的内容生产系统
CN110554995A (zh) * 2019-08-13 2019-12-10 武汉中海庭数据技术有限公司 一种深度学习模型的管理方法及系统
CN110532447A (zh) * 2019-08-29 2019-12-03 上海云从汇临人工智能科技有限公司 一种业务数据处理方法、装置、介质和设备
CN110533489A (zh) * 2019-09-05 2019-12-03 腾讯科技(深圳)有限公司 应用于模型训练的样本获取方法及装置、设备、存储介质

Also Published As

Publication number Publication date
CN111177238B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN111159494B (zh) 一种多用户并发处理的数据标注方法
US5870745A (en) Automated system and method for processing and tracking requests and responses required for repetitive tasks
CN107783950A (zh) 药品说明书处理方法及装置
CN109191158B (zh) 用户画像标签数据的处理方法及处理设备
CN112699645B (zh) 语料标注方法、装置及设备
CN113312260B (zh) 一种接口测试方法、装置、设备及存储介质
CN112950170A (zh) 审核方法以及装置
US20230334072A1 (en) Automatic question answering system and question-answer pair data generation method
CN114549241A (zh) 合同审查方法、装置、系统与计算机可读存储介质
CN107515866A (zh) 一种数据操作方法、装置和系统
CN115455148A (zh) 一种合同的智能审查方法及装置
CN111782117A (zh) 界面的展示方法和装置、存储介质、电子装置
CN113342921B (zh) 资源编目方法及装置
CN112256943B (zh) 门店基于自然语言处理结合知识图谱的画像提取方法
CN113342692A (zh) 测试用例自动生成方法、装置、电子设备及存储介质
CN111177238A (zh) 一种基于用户自定义的数据集生成方法
CN108549722B (zh) 多平台数据发布方法、系统及介质
CN110347686A (zh) 记录工程图修改信息的方法和系统
CN114171166A (zh) 可视化数字病理人工智能的模型的管理系统
JP2001184273A (ja) アンケートシステム及びアンケート作業自動化方法
CN114444447A (zh) 一种卡片的处理方法及装置
CN110308931A (zh) 一种数据处理方法及相关装置
JP2004110378A (ja) オブジェクト指向開発支援方法および装置
CN115659182B (zh) 一种模型更新方法、装置及设备
CN113821441B (zh) 基于cucumber测试案例的执行方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant