CN111881106B - 基于ai检验的数据标注和处理方法 - Google Patents
基于ai检验的数据标注和处理方法 Download PDFInfo
- Publication number
- CN111881106B CN111881106B CN202010749184.7A CN202010749184A CN111881106B CN 111881106 B CN111881106 B CN 111881106B CN 202010749184 A CN202010749184 A CN 202010749184A CN 111881106 B CN111881106 B CN 111881106B
- Authority
- CN
- China
- Prior art keywords
- data
- labeling
- service data
- marked
- kafka
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 96
- 238000012360 testing method Methods 0.000 title claims abstract description 10
- 238000005516 engineering process Methods 0.000 title claims abstract description 9
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000013500 data storage Methods 0.000 claims abstract description 19
- 238000007689 inspection Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000007405 data analysis Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 239000012634 fragment Substances 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 6
- 239000010410 layer Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- Educational Administration (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出基于AI检验的数据标注和处理方法。所述方法包括获取待标注数据、将所述业务数据存储至业务数据存储系统中、所述业务数据存储系统广播所述业务数据并基于反馈结果进行标注任务分配、接收标注后的数据并进行AI检验处理等步骤。本发明的技术方案能基于AI模型确定人工标注的准确性,减少标注任务分配的人数,降低企业成本;同时标注人员可以用过微信小程序、h5网页、APP、PC网页等多种渠道来标注,手机端可以把标注人员的碎片时间利用起来,提高标注的效率。本发明还公开实现所述方法的计算机可读存储介质。
Description
技术领域
本发明属于人工智能技术领域,尤其涉及一种基于AI检验的数据标注和处理方法。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的″容器″。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。
数据标注是大部分人工智能算法得以有效运行的关键环节。人工智能算法是数据驱动型算法,也就是说,如果想实现人工智能,首先需要把人类理解和判断事物的能力教给计算机,让计算机学习到这种识别能力。数据标注的过程是通过人工贴标的方式,为机器系统可供学习的样本。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。
数据标注的高质量体现在两个方面:一个标注的数量多,二是标注的质量高。
图像标注的质量标准:图像标注的质量好坏取决于像素点的判定准确性。标注像素点越接近被标注物的边缘像素,标注的质量就越高,标注的难度也越大。如果图像标注要求的准确率为100%,标注像素点与被标注物的边缘像素点的误差应该在1个像素以内。
语音标注的质量标准:语音标注时,语音数据发音的时间轴与标注区域的音标需保持同步。标注于发音时间轴的误差要控制在1个语音帧以内。若误差大于1个语音帧,很容易标注到下一个发音,造成噪声数据。
文本标注的质量标准:文本标注涉及到的任务较多,不同任务的质量标准不同。例如:分词标注的质量标准是标注好的分词与词典的词语一致,不存在歧义;情感标注的标注质量标准是对标注句子的情感分类级别正确。
申请号为CN201711297044.5的中国发明专利申请提出基于人工智能的数据分析方法,将数据通过神经网络进行连接,并对连接赋予权重,同时根据连接产生的结果调整权重值,使得数据分析从单一层面扩展到整个数据库,使得所有数据通过数据之间的连接成为一个有机体,提高了数据分析结果的可靠性。
申请号为CN202010245380.0的中国发明专利申请提出一种图像标注方法及装置,其中,该方法包括:接收图像显示指令并根据该图像显示指令获取待标注图像;将所述待标注图像在目标浏览器中的canvas画布内显示;实时监测所述canvas画布内的鼠标点击事件,若监测到所述实时监听鼠标点击事件,则根据该实时监测鼠标点击事件获得所述待标注图像中的待标注位置,并应用预设的标注元素对该待标注位置进行标注得到标注图像,能够提高图像标注质量和效率,进而能够提高应用图像标注结果实现的交易凭证图像分类或智能驾驶图像检测的准确性和效率。
然而,现有技术并未考虑标注数据的结果有效性,同时也未处理可能存在的重复标注问题;此外,现有技术提供的标注手段单一,无法实现大规模的标注任务分配。
发明内容
为解决上述技术问题,本发明提出基于AI检验的数据标注和处理方法。所述方法包括获取待标注数据、将所述业务数据存储至业务数据存储系统中、所述业务数据存储系统广播所述业务数据并基于反馈结果进行标注任务分配、接收标注后的数据并进行AI检验处理等步骤。本发明的技术方案能基于AI模型确定人工标注的准确性,减少标注任务分配的人数,降低企业成本;同时标注人员可以用过微信小程序、h5网页、APP、PC网页等多种渠道来标注,手机端可以把标注人员的碎片时间利用起来,提高标注的效率。本发明还公开实现所述方法的计算机可读存储介质。。
本发明上述方法可以通过计算机程序指令自动化实现,因此,本发明还提出一种计算机可读存储介质,其上存储有计算机程序指令,通过处理器和存储器执行所述程序指令,用于实现所述的方法。
本发明所述的基于AI检验的数据标注和处理方法,包括如下步骤:
S1:获取待标注数据,所述待标注数据为APP或者网站执行实际业务产生的业务数据;
S2:将所述业务数据存储至业务数据存储系统中;
S3:所述业务数据存储系统广播所述业务数据,并基于反馈结果进行标注任务分配;
S4:接收标注后的数据,并进行AI检验处理。
作为本发明的第一个优点,所述步骤S2将所述业务数据存储至业务数据存储系统中,具体包括:
将所述业务数据发送到消息队列kafka中,标注系统消费kafka数据,存储至业务数据存储系统。
作为本发明的第二个优点,所述步骤S3所述数据存储系统广播所述业务数据,并基于反馈结果进行标注任务分配,具体包括:
使用hdfs、hive、postgresql、redis广播所述业务数据、分配标注任务以及接收反馈。
作为体现上述优点的关键性技术手段,在本发明的技术方案中,底层使用hdfs存储业务数据;通过hive进行数据分析统计后广播所述业务数据。
通过postgresql存储标注系统消费的kafka数据并接受标注后的数据。
通过redis来进行数据队列分配、防止数据重复分配。
作为本发明的再一个优点,在本发明中,通过标注样例数据,训练AI模型,来识别要标注的任务结果。
所述AI检验处理具体包括:
对比用户反馈的标注数据是否与所述AI模型一致;
如果是,判定该标注是正确可用的;
否则,将该任务分配给其他人进行标注,直到有2个以上的人反馈的标注数据一致,则判定该标注是正确可用的。
将标注是正确可用的数据用json的格式发送到kafka中,通过kafka中的数据,重新自动训练所述AI模型。
在具体实现上,本发明的优点还包括:
(1)通过微信小程序、h5和APP来进行数据标注任务的发布和提交,这样可以找到更多的标注人员,降低标注成本,利用碎片化时间来提升标注效率;
(2)同一个标注任务在特定条件下同时分配给多个人进行标注,对比多个标注任务结果,选取一样的标注结果为最终结果,可以提高标注的准确性;
(3)使用AI模型对标注数据进行预测,得到一个结果,与标注的人标注的结果对比,选择结果一样的为最终结果,此方法可以确定人工标注的准确性,减少标注任务分配的人数,降低企业成本。
本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的基于AI检验的数据标注和处理方法的主要流程图
图2是图1所述方法的部分具体实现原理图
图3是基于图1所述方法实现的AI检验的主要流程图
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述。
参见图1,本发明一个实施例的基于AI检验的数据标注和处理方法的主要流程图。
图1所述方法包括步骤S1-S4。
各个步骤具体实现如下:
S1:获取待标注数据,所述待标注数据为APP或者网站执行实际业务产生的业务数据;
S2:将所述业务数据存储至业务数据存储系统中;
S3:所述业务数据存储系统广播所述业务数据,并基于反馈结果进行标注任务分配;
S4:接收标注后的数据,并进行AI检验处理。
更具体的,在本实施例中,业务产生的数据可以通过多种形式与标注系统打通。
APP、网站等实际业务产生的数据,可以通过:
1.发送到消息队列kafka中,标注系统消费kafka数据,存储到系统中。
2.通过API接口,把数据发送到标注系统。
3.通过内网链接、查询数据库,直接保存到标注系统。
在图1基础上,参见图2,作为本发明的创造性体现,所述步骤S2将所述业务数据存储至业务数据存储系统中,具体包括:
将所述业务数据发送到消息队列kafka中,标注系统消费kafka数据,存储至业务数据存储系统;
所述步骤S3所述数据存储系统广播所述业务数据,并基于反馈结果进行标注任务分配,具体包括:
使用hdfs、hive、postgresql、redis广播所述业务数据、分配标注任务以及接收反馈。
在图2中,底层使用hdfs存储业务数据;通过hive进行数据分析统计后广播所述业务数据。
通过postgresql存储标注系统消费的kafka数据并接受标注后的数据。
通过redis来进行数据队列分配、防止数据重复分配。
需要指出的是,本实施例中使用hdfs、hive、postgresql、redis存储业务数据和分配标注数据。
底层使用hdfs(分布式文件系统)存储业务和标注产生的大量数据。
通过hive来进行数据分析统计。
通过postgresql存储标注系统的数据和用户标注好的数据。
通过redis来进行数据队列分配、防止数据重复分配。
其中,Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
PostgreSQL是一个免费的对象-关系数据库服务器(ORDBMS),在灵活的BSD许可证下发行。
PostgreSQL的Slogan是世界上最先进的开源关系型数据库。
REmote DIctionary Server(Redis)是一个由Salvatore Sanfilippo写的key-value存储系统。Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。它通常被称为数据结构服务器,因为值(Value)可以是字符串(String),哈希(Hash),列表(list),集合(sets)和有序集合(sorted sets)等类型。
底层使用hdfs存储业务数据,具体包括:
对业务数据进行处理和清洗,把不适合标注的文本、图片、音频、视频过滤掉,并且对标注的任务去重,确保重复数据只标注一次。
在上述实施例中,通过标注样例数据,训练AI模型,来识别要标注的任务结果。
参见图3,所述AI检验处理具体包括:
对比用户反馈的标注数据是否与所述AI模型一致;
如果是,判定该标注是正确可用的;
否则,将该任务分配给其他人进行标注,直到有2个以上的人反馈的标注数据一致,则判定该标注是正确可用的。
进一步的,将标注是正确可用的数据用json的格式发送到kafka中,通过kafka中的数据,重新自动训练所述AI模型。
所述步骤S3中所述基于反馈结果进行标注任务分配,具体包括:
所述反馈结果包括用户接收所述标注任务的方式,所述方式包括微信小程序、h5网页、APP、PC网页中的至少一种或者其组合。
在实际视线中,本发明的创新性还包括:
标注人员可以用过微信小程序、h5网页、APP、PC网页等多种渠道来标注,手机端可以把标注人员的碎片时间利用起来,提高标注的效率和自己每天的标注收益
标注之前,标注系统会对标注任务进行处理和清洗,把不适合标注的文本、图片、音频、视频过滤掉,并且还会对标注的任务去重,确保重复数据只标注一次,还确保多个用户同时标注时,不会分配重复的任务。
通过标注样例数据,训练AI模型,来识别要标注的任务结果,模型可以自动训练,标注的任务越多模型效果越好。
对比用户标注的数据是否与模型一样,如果和模型一样,判定改标注是正确可用的,如果不一样,把该任务分配给其他人进行标注,直到有2个以上的人一样即判定为标注是正确的。这样可以把一些比较难标注和没有标准答案的任务,更好的确定一个结果
每个标注任务都会给用户奖金,根据用户标注的准确率来计算用户的信用值,用户的标注信用值越高分配的任务越多,标注的奖励也越多。信用值低的用户会让用户进入学习期,通过不断学习,来提高用户的标注水平。
8.标注好的数据自动训练优化AI模型,再用会到业务中去验证模型效果。
标注的数据用json的格式发送到kafka中,通过kafka中的数据,可以自动训练新的模型,通过标注好的数据,可以提升训练AI模型的准确率,模型训练好之后可以发布成服务接入到业务中验证模型效果,通过AI模型来提升业务指标。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (2)
1.一种基于AI检验的数据标注和处理方法,其特征在于:
所述方法包括如下步骤:
S1:获取待标注数据,所述待标注数据为APP或者网站执行实际业务产生的业务数据;
S2:将所述业务数据存储至业务数据存储系统中;
S3:所述业务数据存储系统广播所述业务数据,并基于反馈结果进行标注任务分配;
S4:接收标注后的数据,并进行AI检验处理;
其中,所述步骤S2将所述业务数据存储至业务数据存储系统中,具体包括:
将所述业务数据发送到消息队列kafka中,标注系统消费kafka数据,存储至业务数据存储系统;
所述步骤S3所述数据存储系统广播所述业务数据,并基于反馈结果进行标注任务分配,具体包括:
使用hdfs、hive、postgresql、redis广播所述业务数据、分配标注任务以及接收反馈;
底层使用hdfs存储业务数据和标注产生的大量数据;
通过hive进行数据分析统计后广播所述业务数据;
通过postgresql存储标注系统消费的kafka数据并接受标注后的数据;
通过redis来进行数据队列分配,防止数据重复分配;
底层使用hdfs存储业务数据,具体包括:
对业务数据进行处理和清洗,把不适合标注的文本、图片、音频、视频过滤掉,并且对标注的任务去重,确保重复数据只标注一次;
所述步骤S3中所述基于反馈结果进行标注任务分配,具体包括:
所述反馈结果包括用户接收所述标注任务的方式,所述方式包括微信小程序、h5网页、APP、PC网页中的至少一种或者其组合;
通过标注样例数据,训练AI模型,来识别要标注的任务结果;
步骤S4中,所述AI检验处理具体包括:
对比用户反馈的标注数据是否与所述AI模型一致;
如果是,判定该标注是正确可用的;
否则,将该任务分配给其他人进行标注,直到有2个以上的人反馈的标注数据一致,则判定该标注是正确可用的;
将标注是正确可用的数据用json的格式发送到kafka中,通过kafka中的数据,重新自动训练所述AI模型。
2.一种计算机可读存储介质,其上存储有计算机可执行程序指令,通过处理器和存储器执行所述可执行程序指令,用于实现权利要求1所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010749184.7A CN111881106B (zh) | 2020-07-30 | 2020-07-30 | 基于ai检验的数据标注和处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010749184.7A CN111881106B (zh) | 2020-07-30 | 2020-07-30 | 基于ai检验的数据标注和处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881106A CN111881106A (zh) | 2020-11-03 |
CN111881106B true CN111881106B (zh) | 2024-03-29 |
Family
ID=73204281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010749184.7A Active CN111881106B (zh) | 2020-07-30 | 2020-07-30 | 基于ai检验的数据标注和处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881106B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139109A (zh) * | 2021-04-20 | 2021-07-20 | Oppo广东移动通信有限公司 | 数据标注方法、装置、服务器及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2779729A1 (en) * | 2009-11-07 | 2011-05-12 | Fluc Pty Ltd | System and method of advertising for objects displayed on a webpage |
CN104933588A (zh) * | 2015-07-01 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 用于拓展商品品类的数据标注平台及方法 |
WO2016107274A1 (zh) * | 2014-12-29 | 2016-07-07 | 北京奇虎科技有限公司 | 一种电话号码标注的方法及装置 |
CN106156025A (zh) * | 2015-03-25 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种数据标注的管理方法及装置 |
US9936066B1 (en) * | 2016-03-16 | 2018-04-03 | Noble Systems Corporation | Reviewing portions of telephone call recordings in a contact center using topic meta-data records |
CN109241427A (zh) * | 2018-09-04 | 2019-01-18 | 中国平安人寿保险股份有限公司 | 信息推送方法、装置、计算机设备和存储介质 |
CN109409896A (zh) * | 2018-10-17 | 2019-03-01 | 北京芯盾时代科技有限公司 | 银行欺诈识别模型训练方法、银行欺诈识别方法和装置 |
CN109684309A (zh) * | 2018-08-03 | 2019-04-26 | 全球能源互联网研究院有限公司 | 一种数据质量评测方法及装置、计算机设备和存储介质 |
CN109784381A (zh) * | 2018-12-27 | 2019-05-21 | 广州华多网络科技有限公司 | 标注信息处理方法、装置及电子设备 |
CN109978356A (zh) * | 2019-03-15 | 2019-07-05 | 平安普惠企业管理有限公司 | 标注任务分配方法、装置、介质和计算机设备 |
CN110647985A (zh) * | 2019-08-02 | 2020-01-03 | 杭州电子科技大学 | 一种基于人工智能模型库的众包数据标注方法 |
CN110750523A (zh) * | 2019-09-12 | 2020-02-04 | 苏宁云计算有限公司 | 数据标注方法、系统、计算机设备和存储介质 |
CN111126138A (zh) * | 2019-11-18 | 2020-05-08 | 施博凯 | 垃圾分类ai图像识别方法 |
-
2020
- 2020-07-30 CN CN202010749184.7A patent/CN111881106B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2779729A1 (en) * | 2009-11-07 | 2011-05-12 | Fluc Pty Ltd | System and method of advertising for objects displayed on a webpage |
WO2016107274A1 (zh) * | 2014-12-29 | 2016-07-07 | 北京奇虎科技有限公司 | 一种电话号码标注的方法及装置 |
CN106156025A (zh) * | 2015-03-25 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种数据标注的管理方法及装置 |
CN104933588A (zh) * | 2015-07-01 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 用于拓展商品品类的数据标注平台及方法 |
US9936066B1 (en) * | 2016-03-16 | 2018-04-03 | Noble Systems Corporation | Reviewing portions of telephone call recordings in a contact center using topic meta-data records |
CN109684309A (zh) * | 2018-08-03 | 2019-04-26 | 全球能源互联网研究院有限公司 | 一种数据质量评测方法及装置、计算机设备和存储介质 |
CN109241427A (zh) * | 2018-09-04 | 2019-01-18 | 中国平安人寿保险股份有限公司 | 信息推送方法、装置、计算机设备和存储介质 |
CN109409896A (zh) * | 2018-10-17 | 2019-03-01 | 北京芯盾时代科技有限公司 | 银行欺诈识别模型训练方法、银行欺诈识别方法和装置 |
CN109784381A (zh) * | 2018-12-27 | 2019-05-21 | 广州华多网络科技有限公司 | 标注信息处理方法、装置及电子设备 |
CN109978356A (zh) * | 2019-03-15 | 2019-07-05 | 平安普惠企业管理有限公司 | 标注任务分配方法、装置、介质和计算机设备 |
CN110647985A (zh) * | 2019-08-02 | 2020-01-03 | 杭州电子科技大学 | 一种基于人工智能模型库的众包数据标注方法 |
CN110750523A (zh) * | 2019-09-12 | 2020-02-04 | 苏宁云计算有限公司 | 数据标注方法、系统、计算机设备和存储介质 |
CN111126138A (zh) * | 2019-11-18 | 2020-05-08 | 施博凯 | 垃圾分类ai图像识别方法 |
Non-Patent Citations (2)
Title |
---|
Noise Improves Noise: Verification of Pre-Training Effect with Weakly Labeled Data on Social Media NER;Y. Kim等;IEEE International Conference on Big Data and Smart Computing (BigComp);20200420;第2020卷;225-228 * |
基于MVC架构的智能认知系统的设计与实现;宋彦京;中国优秀硕士学位论文全文数据库 (信息科技辑);20190415;第2019卷(第4期);I138-388 * |
Also Published As
Publication number | Publication date |
---|---|
CN111881106A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110581898B (zh) | 基于5g和边缘计算的物联网数据终端系统 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN112417158A (zh) | 文本数据分类模型的训练方法、分类方法、装置和设备 | |
CN112188311B (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN112749556B (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 | |
CN111651497A (zh) | 用户标签挖掘方法、装置、存储介质及电子设备 | |
US20230004830A1 (en) | AI-Based Cognitive Cloud Service | |
CN111881105B (zh) | 业务数据的标注模型及其模型训练方法 | |
CN110414837A (zh) | 基于错因分析的人机交互系统 | |
CN112380868A (zh) | 一种基于事件三元组的信访目的多分类装置及其方法 | |
CN117332789A (zh) | 一种面向对话场景的语义分析方法及系统 | |
CN111881106B (zh) | 基于ai检验的数据标注和处理方法 | |
CN115640386A (zh) | 用于基于推荐话术进行对话的方法和设备 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN114925206A (zh) | 人工智能体、语音信息识别方法、存储介质和程序产品 | |
Tan et al. | Does informativeness matter? Active learning for educational dialogue act classification | |
CN113553431A (zh) | 用户标签提取方法、装置、设备及介质 | |
CN109033378A (zh) | 一种Zero-shot Learning在智能客服系统中的应用方法 | |
CN117275466A (zh) | 一种业务意图识别方法、装置、设备及其存储介质 | |
CN116881395A (zh) | 一种舆情信息检测方法和装置 | |
CN116976321A (zh) | 文本处理方法、装置、计算机设备、存储介质和程序产品 | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN110851572A (zh) | 会话标注方法、装置、存储介质及电子设备 | |
CN112131378B (zh) | 用于识别民生问题类别的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |