CN111881105A - 业务数据的标注模型及其模型训练方法 - Google Patents
业务数据的标注模型及其模型训练方法 Download PDFInfo
- Publication number
- CN111881105A CN111881105A CN202010749182.8A CN202010749182A CN111881105A CN 111881105 A CN111881105 A CN 111881105A CN 202010749182 A CN202010749182 A CN 202010749182A CN 111881105 A CN111881105 A CN 111881105A
- Authority
- CN
- China
- Prior art keywords
- data
- annotation
- model
- labeling
- marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 title claims abstract description 22
- 238000012360 testing method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 abstract description 7
- 238000012795 verification Methods 0.000 abstract description 3
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- Educational Administration (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出业务数据的标注模型及其模型训练方法。所述标注系统包括至少一个标注模型,所述标注模型包括数据标注AI检验模型。所述标注系统包括分布式文件系统(hdfs)、数据仓库工具(hive)、对象‑关系型数据库管理系统(postgresql)以及远程字典服务模块(redis)。所述模型训练方法用于训练所述的业务数据的标注系统中所述的数据标注AI检验模型,该方法包括将判定数据标注有效的数据用json的格式发送到kafka中,通过kafka中的数据,重新自动训练所述数据标注AI检验模型。本发明的技术方案能够确保数据标注的准确性以及实现大规模数据准确标注。
Description
技术领域
本发明属于人工智能技术领域,尤其涉及一种业务数据的标注模型及其模型训练方法。
背景技术
数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的性能就越好。人工智能是机器产生的智能,在计算机领域是指根据对环境的感知,做出合理的行动并获得最大收益的计算机程序。.也就是说,要想实现人工智能,需要把人类理解和判断事物的能力教给计算机,让计算机拥有类似人类的识别能力。人类在认识一个新事物时,首先要形成对该事物的初步印象.例如,要识别出飞机,就需要看到相应的图片或者真实物体。
数据标注可视为模仿人类学习过程中的经验学习,相当于人类从书本中获取已有知识的认知行为.具体操作时,数据标注把需要计算机识别和分辨的图片事先打上标签,让计算机不断地识别这些图片的特征,最终实现计算机能够自主识别.数据标注为人工智能企业提供了大量带标签的数据,供机器训练和学习,保证了算法模型的有效性。
最初,由于数据标注的需求量不是太多,基本是由公司内部的工程师或者算法团队自己完成。但随着人工智能的广泛应用和普及,机器学习的不断深入,对数据的需求与日俱增,海量的数据标注工作需要专门的人员使用专门的标注工具来进行。数据量是机器学习的重要因素,由此公司需要一套集标注数据(图像)、审核标注和存储数据等功能的系统,来为学习和训练过程提供服务。
申请号为CN202010131205.9的中国发明专利申请提出了一种数据标注的方法及装置,在该方法中可以获取到待标注图像,并将待标注图像输入到预先训练的第一识别模型以及第二识别模型中,确定第一识别模型针对待标注图像的第一识别结果、第二识别模型针对待标注图像的第二识别结果。通过预先训练的判别模型,判断在第二识别模型输出第二识别结果的条件下,第一识别模型得到的第一识别结果是否正确,若确定第一识别结果正确,根据第一识别结果对待标注图像进行标注。本方法可以通过第一识别模型以及第二识别模型识别出待标注图像中的文本,再通过判别模型来判别第一识别模型得到的识别结果正确与否,实现对待标注图像的自动标注。因此本方法能够提高数据标注的效率,节约人工成本。
申请号为CN201911359418.0的中国发明专利申请提出了一种语音数据标注方法及装置、一种电子设备以及一种计算机可读介质。其中,所述方法包括:接收待标注的语音数据,对所述语音数据进行语音识别,得到识别文本;获取用户对所述识别文本确认后的用户确认文本;从所述识别文本和所述用户确认文本中提取自动标注特征;根据所述自动标注特征及预先构建的自动标注模型,对所述语音数据进行标注。由于是通过提取自动标注特征,并根据自动标注特征和自动标注模型,对语音数据进行标注,可以实现语音数据的自动标注,不需要人工进行标注,从而可以解决人工标注存在的问题,提高语音数据标注的效率并降低成本。
然而,现有技术并未考虑标注数据的结果有效性,同时也未处理可能存在的重复标注问题;此外,现有技术提供的标注手段单一,无法实现大规模的标注任务分配。
发明内容
为解决上述技术问题,本发明提出业务数据的标注模型及其模型训练方法。所述标注系统包括至少一个标注模型,所述标注模型包括数据标注AI检验模型。所述标注系统包括分布式文件系统(hdfs)、数据仓库工具(hive)、对象-关系型数据库管理系统(postgresql)以及远程字典服务模块(redis)。所述模型训练方法用于训练所述的业务数据的标注系统中所述的数据标注AI检验模型,该方法包括将判定数据标注有效的数据用json的格式发送到kafka中,通过kafka中的数据,重新自动训练所述数据标注AI检验模型。本发明的技术方案能够确保数据标注的准确性以及实现大规模数据准确标注。
在本发明的第一个方面,提供一种业务数据的标注系统,所述标注系统包括至少一个标注模型,所述标注模型包括数据标注AI检验模型。
作为本发明第一个优点,所述标注系统包括分布式文件系统(hdfs)、数据仓库工具(hive)、对象-关系型数据库管理系统(postg resql)以及远程字典服务模块(redis);
具体而言,所述标注系统使用hdfs存储实际业务产生的待标注数据;通过hive来进行数据分析统计;通过postgresql存储标注系统的数据和用户标注好的数据;通过redis来进行数据队列分配;其中,所述待标注数据通过API接口发送至所述标注系统。
显然,相对于现有技术,本发明综合使用hdfs、hive、postgresql、redis构成整体来存储业务数据和分配标注数据;
其中,底层使用hdfs(分布式文件系统)存储业务和标注产生的大量数据。
通过hive来进行数据分析统计。
通过postgresql存储标注系统的数据和用户标注好的数据。
通过redis来进行数据队列分配、防止数据重复分配。
更具体的,作为体现上述优点的关键技术手段,
所述标注系统使用hdfs存储实际业务产生的待标注数据,具体包括:
所述待标注数据由APP或者PC端网站执行实际业务产生,所述待标注数据包括文本、图片、音频、视频。
所述通过redis来进行数据队列分配,具体包括:
通过微信小程序、h5网页、APP、PC网页分配不同的数据队列。
所述待标注数据通过API接口发送至所述标注系统,具体包括:
将APP或者PC网站执行实际业务产生产生的数据,发送到消息队列kafka中,标注系统消费kafka数据。
通过postgresql存储标注系统的数据和用户标注好的数据,具体包括:
根据用户标注的准确率来计算用户的信用值,用户的标注信用值越高并且分配的任务越多;
其中所述准确率基于所述用户提交的有效数据标注的数量与数据标注总量确定。
在本发明的第二个方面,提供一种模型训练方法,所述模型训练方法用于训练所述的业务数据的标注系统中所述的数据标注AI检验模型。
具体来说,所述方法包括如下步骤:
将判定数据标注有效的数据用json的格式发送到kafka中,通过kafka中的数据,重新自动训练所述数据标注AI检验模型。
而在初始状态下,首先通过标注样例数据,训练所述数据标注AI检验模型。
本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的一种业务数据的标注系统的主要模块结构图
图2是图1所述系统的部分具体实现原理图
图3是基于图1所述系统实现的模型训练方法原理图
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述。
参见图1,本发明一个实施例的一种业务数据的标注系统的主要模块结构图。
图所述标注系统包括至少一个标注模型,所述标注模型包括数据标注AI检验模型。
其中,所述标注系统包括分布式文件系统(hdfs)、数据仓库工具(hive)、对象-关系型数据库管理系统(postgresql)以及远程字典服务模块(redis);
所述标注系统使用hdfs存储实际业务产生的待标注数据;
通过h ive来进行数据分析统计;通过postgresql存储标注系统的数据和用户标注好的数据;通过redis来进行数据队列分配;
其中,所述待标注数据通过API接口发送至所述标注系统。
在图1中,HadOOp分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。
hive是基于HadOOp的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在HadOOp中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive是十分适合数据仓库的统计分析和Windows注册表文件。
PostgreSQL是一种特性非常齐全的自由软件的对象-关系型数据库管理系统(ORDBMS),是以加州大学计算机系开发的POSTGRES 4.2版本为基础的对象关系型数据库管理系统。POSTGRES的许多领先概念只是在比较迟的时候才出现在商业网站数据库中。PostgreSQL支持大部分的SQL标准并且提供了很多其他现代特性,如复杂查询、外键、触发器、视图、事务完整性、多版本并发控制等。同样,PostgreSQL也可以用许多方法扩展,例如通过增加新的数据类型、函数、操作符、聚集函数、索引方法、过程语言等。另外,因为许可证的灵活,任何人都可以以任何目的免费使用、修改和分发PostgreSQL。
Redis(Remote Dictionary Server),即远程字典服务,是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。
正是基于综合使用hdfs、hive、postgresql、redis构成整体来存储业务数据和分配标注数据,在本实施例中,APP、网站等实际业务产生的数据,可以通过:
1.发送到消息队列kafka中,标注系统消费kafka数据,存储到系统中。
2.通过API接口,把数据发送到标注系统。
3.通过内网链接、查询数据库,直接保存到标注系统。
所述标注系统使用hdfs存储实际业务产生的待标注数据,具体包括:
所述待标注数据由APP或者PC端网站执行实际业务产生,所述待标注数据包括文本、图片、音频、视频。
在图1基础上参见图2。
标注之前,标注系统会对标注任务进行处理和清洗,把不适合标注的文本、图片、音频、视频过滤掉,并且还会对标注的任务去重,确保重复数据只标注一次,还确保多个用户同时标注时,不会分配重复的任务。
因此,所述标注系统还包括过滤和去重模块;
所述过滤模块对标注任务进行处理和清洗,把不适合标注的文本、图片、音频、视频过滤掉;
所述去重模块对标注的任务去重,确保重复数据只标注一次。
所述通过redis来进行数据队列分配,具体包括:
通过微信小程序、h5网页、APP、PC网页分配不同的数据队列。
所述待标注数据通过API接口发送至所述标注系统,具体包括:
将APP或者PC网站执行实际业务产生产生的数据,发送到消息队列kafka中,标注系统消费kafka数据。
通过postgresql存储标注系统的数据和用户标注好的数据,具体包括:
根据用户标注的准确率来计算用户的信用值,用户的标注信用值越高并且分配的任务越多;
其中所述准确率基于所述用户提交的有效数据标注的数量与数据标注总量确定。
在上述实施例中,标注人员可以用过微信小程序、h5网页、APP、PC网页等多种渠道来标注,手机端可以把标注人员的碎片时间利用起来,提高标注的效率和自己每天的标注收益。
一个标注任务同时分配给多个人进行标注,对比多个标注任务结果,选取一样的标注结果为最终结果,如此可提高标注的准确性。
在图1-图2基础上,参见图3。
图3给出了一种模型训练方法,所述模型训练方法用于训练前述的业务数据的标注系统中所述的数据标注AI检验模型,其特征在于,所述方法包括如下步骤:
将判定数据标注有效的数据用json的格式发送到kafka中,通过kafka中的数据,重新自动训练所述数据标注AI检验模型。
在初始状态下,通过标注样例数据,训练所述数据标注AI检验模型。
此时,使用AI模型,对标注数据进行预测,得到一个结果,与标注的人标注的结果对比,选择结果一样的为最终结果。可确定人工标注的准确性,减少标注任务分配的人数,降低企业成本。
对比用户标注的数据是否与模型一样,如果和模型一样,判定该标注是正确可用的,如果不一样,把该任务分配给其他人进行标注,直到有2个以上的人一样即判定为标注是正确的。这样可以把一些比较难标注和没有标准答案的任务,更好的确定一个结果。
每个标注任务都会给用户奖金,根据用户标注的准确率来计算用户的信用值,用户的标注信用值越高分配的任务越多,标注的奖励也越多。信用值低的用户会让用户进入学习期,通过不断学习,来提高用户的标注水平。
标注好的数据自动训练优化AI模型,再用会到业务中去验证模型效果,具体包括:
标注的数据用json的格式发送到kafka中,通过kafka中的数据,可以自动训练新的模型,通过标注好的数据,可以提升训练AI模型的准确率,模型训练好之后可以发布成服务接入到业务中验证模型效果,通过AI模型来提升业务指标。
在本发明的各个实施例中中,待标注的数据标注任务包括分类标注、标框标注、区域标注、描点标注和其他标注等。
1)分类标注.分类标注是从给定的标签集中选择合适的标签分配给被标注的对象.通常,一张图可以有很多分类/标签,如运动、读书、购物、旅行等.对于文字,又可以标注出主语、谓语、宾语,名词和动词等.此项任务适用于文本、图像、语音、视频等不同的标注对象.
2)标框标注.标框标注就是从图像中选出要检测的对象,此方法仅适用于图像标注.标框标注可细分为多边形拉框和四边形拉框两种形式.多边形拉框是将被标注元素的轮廓以多边型的方式勾勒出来,不同的被标注元素有不同的轮廓,除了同样需要添加单级或多级标签以外,多边型标注还有可能会涉及到物体遮挡的逻辑关系,从而实现细线条的种类识别.四边形拉框主要是用特定软件对图像中需要处理的元素(比如人、车、动物等)进行一个拉框处理,同时,用1个或多个独立的标签来代表1个或多个需要处理的元素.框标注.
3)区域标注.与标框标注相比,区域标注的要求更加精确,而且边缘可以是柔性的,并仅限于图像标注,其主要的应用场景包括自动驾驶中的道路识别和地图识别等。,区域标注的任务是在地图上用曲线将城市中不同行政区域的轮廓形式勾勒出来,并用不同的颜色(浅蓝、浅棕、紫色和粉色)加以区分.
4)描点标注.描点标注是指将需要标注的元素(比如人脸、肢体)按照需求位置进行点位标识,从而实现特定部位关键点的识别.
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种业务数据的标注系统,所述标注系统包括至少一个标注模型,所述标注模型包括数据标注AI检验模型,其特征在于:
所述标注系统包括分布式文件系统(hdfs)、数据仓库工具(hive)、对象-关系型数据库管理系统(postgresql)以及远程字典服务模块(redis);
所述标注系统使用hdfs存储实际业务产生的待标注数据;
通过hive来进行数据分析统计;通过postgresql存储标注系统的数据和用户标注好的数据;通过redis来进行数据队列分配;
其中,所述待标注数据通过API接口发送至所述标注系统。
2.如权利要求1所述的标注系统,其特征在于:
所述标注系统使用hdfs存储实际业务产生的待标注数据,具体包括:
所述待标注数据由APP或者PC端网站执行实际业务产生,所述待标注数据包括文本、图片、音频、视频。
3.如权利要求1所述的标注系统,其特征在于:
所述标注系统还包括过滤和去重模块;
所述过滤模块对标注任务进行处理和清洗,把不适合标注的文本、图片、音频、视频过滤掉;
所述去重模块对标注的任务去重,确保重复数据只标注一次。
4.如权利要求1所述的标注系统,其特征在于:
所述数据标注AI检验模型用于检验数据标注的有效性,具体包括:
对比用户标注的数据是否与数据标注AI检验模型一致,如果一致,判定数据标注有效。
5.如权利要求1所述的标注系统,其特征在于:
所述通过redis来进行数据队列分配,具体包括:
通过微信小程序、h5网页、APP、PC网页分配不同的数据队列。
6.如权利要求1所述的标注系统,其特征在于:
所述待标注数据通过API接口发送至所述标注系统,具体包括:
将APP或者PC网站执行实际业务产生产生的数据,发送到消息队列kafka中,标注系统消费kafka数据。
7.如权利要求4所述的标注系统,其特征在于:
通过postgresql存储标注系统的数据和用户标注好的数据,具体包括:
根据用户标注的准确率来计算用户的信用值,用户的标注信用值越高并且分配的任务越多;
其中所述准确率基于所述用户提交的有效数据标注的数量与数据标注总量确定。
8.一种模型训练方法,所述模型训练方法用于训练权利要求1-7任一项所述的业务数据的标注系统中所述的数据标注AI检验模型,其特征在于,所述方法包括如下步骤:
将判定数据标注有效的数据用json的格式发送到kafka中,通过kafka中的数据,重新自动训练所述数据标注AI检验模型。
9.如权利要求8所述的方法,其特征在于:
在初始状态下,通过标注样例数据,训练所述数据标注AI检验模型。
10.一种计算机可读存储介质,其上存储有计算机可执行程序指令,通过处理器和存储器执行所述可执行程序指令,用于实现权利要求8-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010749182.8A CN111881105B (zh) | 2020-07-30 | 2020-07-30 | 业务数据的标注模型及其模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010749182.8A CN111881105B (zh) | 2020-07-30 | 2020-07-30 | 业务数据的标注模型及其模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881105A true CN111881105A (zh) | 2020-11-03 |
CN111881105B CN111881105B (zh) | 2024-02-09 |
Family
ID=73204282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010749182.8A Active CN111881105B (zh) | 2020-07-30 | 2020-07-30 | 业务数据的标注模型及其模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881105B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191252A (zh) * | 2021-04-28 | 2021-07-30 | 北京东方国信科技股份有限公司 | 一种用于生产管控的视觉识别系统及生产管控方法 |
CN113380378A (zh) * | 2021-05-25 | 2021-09-10 | 复旦大学附属中山医院 | 在线协同的医学影像标注方法、装置及存储介质 |
CN114546365A (zh) * | 2022-04-27 | 2022-05-27 | 北京寄云鼎城科技有限公司 | 一种流程可视化的建模方法、服务器、计算机系统及介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933588A (zh) * | 2015-07-01 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 用于拓展商品品类的数据标注平台及方法 |
EP3040886A1 (en) * | 2015-01-05 | 2016-07-06 | Iguazio Systems Ltd. | Service oriented data management and architecture |
CN107908794A (zh) * | 2017-12-15 | 2018-04-13 | 广东工业大学 | 一种数据挖掘的方法、系统、设备及计算机可读存储介质 |
CN108985293A (zh) * | 2018-06-22 | 2018-12-11 | 深源恒际科技有限公司 | 一种基于深度学习的图像自动化标注方法及系统 |
CN109492698A (zh) * | 2018-11-20 | 2019-03-19 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、对象检测的方法以及相关装置 |
CN110022226A (zh) * | 2019-01-04 | 2019-07-16 | 国网浙江省电力有限公司 | 一种基于面向对象的数据采集系统及采集方法 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110298032A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练系统 |
US20200004905A1 (en) * | 2015-10-28 | 2020-01-02 | Fractal Industries, Inc. | System and methods for complex it process annotation, tracing, analysis, and simulation |
CN111126138A (zh) * | 2019-11-18 | 2020-05-08 | 施博凯 | 垃圾分类ai图像识别方法 |
CN111159494A (zh) * | 2019-12-30 | 2020-05-15 | 北京航天云路有限公司 | 一种多用户并发处理的数据标注方法 |
CN111198935A (zh) * | 2018-11-16 | 2020-05-26 | 北京京东尚科信息技术有限公司 | 模型处理方法、装置、存储介质及电子设备 |
US20200193591A1 (en) * | 2018-12-17 | 2020-06-18 | Bodygram, Inc. | Methods and systems for generating 3d datasets to train deep learning networks for measurements estimation |
CN111464485A (zh) * | 2019-01-22 | 2020-07-28 | 北京金睛云华科技有限公司 | 一种加密代理流量检测方法和装置 |
-
2020
- 2020-07-30 CN CN202010749182.8A patent/CN111881105B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3040886A1 (en) * | 2015-01-05 | 2016-07-06 | Iguazio Systems Ltd. | Service oriented data management and architecture |
CN104933588A (zh) * | 2015-07-01 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 用于拓展商品品类的数据标注平台及方法 |
US20200004905A1 (en) * | 2015-10-28 | 2020-01-02 | Fractal Industries, Inc. | System and methods for complex it process annotation, tracing, analysis, and simulation |
CN107908794A (zh) * | 2017-12-15 | 2018-04-13 | 广东工业大学 | 一种数据挖掘的方法、系统、设备及计算机可读存储介质 |
CN108985293A (zh) * | 2018-06-22 | 2018-12-11 | 深源恒际科技有限公司 | 一种基于深度学习的图像自动化标注方法及系统 |
CN111198935A (zh) * | 2018-11-16 | 2020-05-26 | 北京京东尚科信息技术有限公司 | 模型处理方法、装置、存储介质及电子设备 |
CN109492698A (zh) * | 2018-11-20 | 2019-03-19 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、对象检测的方法以及相关装置 |
US20200193591A1 (en) * | 2018-12-17 | 2020-06-18 | Bodygram, Inc. | Methods and systems for generating 3d datasets to train deep learning networks for measurements estimation |
CN110022226A (zh) * | 2019-01-04 | 2019-07-16 | 国网浙江省电力有限公司 | 一种基于面向对象的数据采集系统及采集方法 |
CN111464485A (zh) * | 2019-01-22 | 2020-07-28 | 北京金睛云华科技有限公司 | 一种加密代理流量检测方法和装置 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110298032A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练系统 |
CN111126138A (zh) * | 2019-11-18 | 2020-05-08 | 施博凯 | 垃圾分类ai图像识别方法 |
CN111159494A (zh) * | 2019-12-30 | 2020-05-15 | 北京航天云路有限公司 | 一种多用户并发处理的数据标注方法 |
Non-Patent Citations (3)
Title |
---|
孙素芬;赵继春;郭建鑫;乔珠峰;陈会娜;王敏;: "农民远程教育大数据分析平台设计与实现", 农业大数据学报, no. 01, pages 7 - 14 * |
张公涛: "中文电子病历信息抽取系统的设计与实现", 中国优秀硕士学位论文全文数据库信息科技辑, no. 9, pages 138 - 580 * |
王昊;康晓凤;卢志科;施润杰;黄成鑫;: "基于深度学习的验证码识别Web应用平台", 软件工程, no. 04, pages 44 - 47 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191252A (zh) * | 2021-04-28 | 2021-07-30 | 北京东方国信科技股份有限公司 | 一种用于生产管控的视觉识别系统及生产管控方法 |
CN113380378A (zh) * | 2021-05-25 | 2021-09-10 | 复旦大学附属中山医院 | 在线协同的医学影像标注方法、装置及存储介质 |
CN114546365A (zh) * | 2022-04-27 | 2022-05-27 | 北京寄云鼎城科技有限公司 | 一种流程可视化的建模方法、服务器、计算机系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111881105B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Prana et al. | Categorizing the content of github readme files | |
CN111881105B (zh) | 业务数据的标注模型及其模型训练方法 | |
US10248689B2 (en) | Supplementing candidate answers | |
US9646077B2 (en) | Time-series analysis based on world event derived from unstructured content | |
US11741384B2 (en) | Adaptable systems and methods for discovering intent from enterprise data | |
CN110598075A (zh) | 一种基于人工智能的互联网媒体内容安全监测系统及方法 | |
CN109522312A (zh) | 一种数据处理方法、装置、服务器和存储介质 | |
AU2019208146B2 (en) | Information transition management platform | |
CN106991090B (zh) | 舆情事件实体的分析方法及装置 | |
CN113919336A (zh) | 基于深度学习的文章生成方法、装置及相关设备 | |
CN110389941A (zh) | 数据库校验方法、装置、设备及存储介质 | |
CN116976321A (zh) | 文本处理方法、装置、计算机设备、存储介质和程序产品 | |
CN106682206A (zh) | 一种大数据处理方法及系统 | |
CN116881395A (zh) | 一种舆情信息检测方法和装置 | |
US20110289086A1 (en) | System, method and apparatus for data analysis | |
CN110889717A (zh) | 文本中的广告内容过滤方法、装置、电子设备及存储介质 | |
Rulff et al. | Urban Rhapsody: Large‐scale exploration of urban soundscapes | |
CN118013963A (zh) | 敏感词的识别和替换方法及其装置 | |
CN110852082B (zh) | 同义词的确定方法及装置 | |
CN111881106B (zh) | 基于ai检验的数据标注和处理方法 | |
CA3104292A1 (en) | Systems and methods for identifying and linking events in structured proceedings | |
CN114841124A (zh) | 一种基于问答模型的第三方组件文档细粒度自动化提取方法及系统 | |
KR20230059364A (ko) | 언어 모델을 이용한 여론조사 시스템 및 운영 방법 | |
CN115357656A (zh) | 基于大数据的信息处理方法、设备和存储介质 | |
CN117669759A (zh) | 数据处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |