CN108241662A - 数据标注的优化方法及装置 - Google Patents
数据标注的优化方法及装置 Download PDFInfo
- Publication number
- CN108241662A CN108241662A CN201611213937.2A CN201611213937A CN108241662A CN 108241662 A CN108241662 A CN 108241662A CN 201611213937 A CN201611213937 A CN 201611213937A CN 108241662 A CN108241662 A CN 108241662A
- Authority
- CN
- China
- Prior art keywords
- data
- mark
- marked
- interim
- labeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据标注的优化方法及装置,涉及数据分析技术领域,解决了数据标注准确性较低的问题,所述方法包括:首先选取待标注数据进行特征向量化处理;然后对特征向量化处理后的待标注数据进行聚类;根据聚类结果,对待标注数据进行临时标注;将临时标注后的数据进行分类;根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注。本发明适用于数据的标注。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种数据标注的优化方法及装置。
背景技术
近些年来,随着互联网的快速发展,数据训练模型的应用越来越广泛,数据标注是很多监督机器学习技术的基础,用户根据标注的数据,选取一定数量适合的数据对模型进行训练,得到可以使用的模型。对于有标注的数据,用户可以根据实际需要从互联网上抓取、收集,并在对抓取的数据进行整理标注后得到。
目前在对数据进行整理标注时,主要是通过人工方式进行整理标注,数据编辑师人工的对全部需要标注的数据一一进行标注,然而当存在大量的数据时,需要耗费巨大的人力和物力资源进行标注,并且人工标注后的数据中会存在部分数据质量较低、在训练模型的过程中属于无使用价值的数据,导致数据标注的准确性较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据标注的优化方法及装置。
为了达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供了一种数据标注的优化方法,该方法包括:
选取待标注数据进行特征向量化处理;
对特征向量化处理后的待标注数据进行聚类;
根据聚类结果,对待标注数据进行临时标注;
将临时标注后的数据进行分类;
根据分类结果和预设条件确定所述临时标注后的数据中用于模型训练的数据并进行相应标注。
另一方面,本发明提供了一种数据标注的优化装置,该装置包括:
选取单元,用于选取待标注数据进行特征向量化处理;
聚类单元,用于对特征向量化处理后的待标注数据进行聚类;
标注单元,用于根据聚类结果,对待标注数据进行临时标注;
分类单元,用于将临时标注后的数据进行分类;
确定单元,用于根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注。
借由上述技术方案,本发明提供的一种数据标注的优化方法及装置,首先选取待标注数据进行特征向量化处理;对特征向量化处理后的待标注数据进行聚类;然后根据聚类结果,对待标注数据进行临时标注;将临时标注后的数据进行分类;再根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注。与现有技术相比,本发明通过对待标注数据进行筛选,从中获取数据质量较高的数据再进行标注,从而避免了通过人工方式进行标注时无法判断数据质量,而导致标注的数据中存在部分数据质量较低的问题,进而提高了数据标注的准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据标注的优化方法流程示意图;
图2示出了本发明实施例提供的另一种数据标注的优化方法流程示意图;
图3示出了本发明实施例提供的一种数据筛选实例示意图;
图4示出了本发明实施例提供的一种数据标注的优化装置结构示意图;
图5示出了本发明实施例提供的另一种数据标注的优化装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供的一种数据标注的优化方法,如图1所示,该方法包括:
101、选取待标注数据进行特征向量化处理。
具体地,所述选取待标注数据可以为从待标注数据集中选取部分待标注数据,而所述特征向量化处理可以为根据待标注数据集对应的属性特征对待标注数据进行特征向量化处理。
102、对特征向量化处理后的待标注数据进行聚类。
其中,所述聚类可以为将待标注数据分成由类似的数据组成的多个类的过程,具体地,可以通过聚类算法对待标注数据进行聚类,例如,通过分层聚类算法(hierarchicalclustering)对待标注数据进行聚类。
103、根据聚类结果,对待标注数据进行临时标注。
具体地,将聚类中的部分数据进行标注,并根据标注的部分数据对待标注数据进行临时标注。
104、将临时标注后的数据进行分类。
具体地,所述分类可以为根据所述步骤101中的待标注数据集对应的属性特征,通过机器学习分类算法进行分类。
105、根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注。
其中,所述预设条件可以为根据预设阈值、预设阈值范围等设定的条件等,例如可以为“≤75”的条件、“在80-90之间”的条件、“≥60”的条件等条件,可以根据具体情况进行设定,本发明实施例不做限定。
具体地,所述步骤105可以为分别根据各个分类和分类对应的预设条件,对临时标注数据进行筛选,将符合各个分类对应的预设条件的临时标注数据,确定为用于模型训练的数据并进行相应标注。
本发明实施例提供的一种数据标注的优化方法,与现有通过人工方式对数据进行标注的技术相比,本发明实施例通过对选取的数据进行特征向量化处理后进行聚类,根据聚类结果对数据进行临时标注,然后将临时标注的数据进行分类,并根据分类结果和预设条件,从临时标注数据中确定用于模型训练的数据,从而避免了通过人工方式进行标注时无法判断数据质量,而导致标注的数据中存在部分数据质量较低的问题,进而提高了数据标注的准确性。
具体的,本发明实施例提供了另一种数据标注的优化方法,如图2所示,该方法包括:
201、选取待标注数据进行特征向量化处理。
例如,待标注数据集对应的属性特征为{特征1,特征2},则对待标注数据进行特征向量化处理,得到数据1对应的向量为[数据1对应的特征值1,数据1对应的特征值2]。
对于本发明实施例,通过对待标注的数据进行特征向量化处理,使得待标注数据转化为数据格式统一的向量,以便于后续对待标注数据进行整理、使用,从而提高了数据标注的效率。
202、对特征向量化处理后的待标注数据进行聚类。
具体地,可以利用分层聚类算法对待标注数据进行聚类。
例如,特征向量化处理后的待标注数据有:数据1、数据2、数据3、数据4、数据5,利用分层聚类算法对数据进行聚类,得到聚类1{数据1、数据3}、聚类2{数据2、数据4、数据5},其中数据1和数据3为类似的数据,数据2、数据4、数据5为类似的数据。
对于本发明实施例,通过对待标注数据进行分类,可以使得类似的数据划分在一个聚类中,由于各个聚类中的数据对应的属性特征类似,从而在对同一聚类的数据进行处理时,可以避免直接对全量待标注数据进行处理造成的准确性较低的问题,从而提高了数据标注的准确性。
203、从每个聚类中分别提取预定数量的待标注数据。
其中,所述预定数量的待标注数据中包含有多个类的待标注数据,而所述预定数量可以为5、10、30等,可以根据具体情况进行设定。
204、对所述预定数量的待标注数据进行标注,得到与所述每个聚类分别对应的数据标注样本。
例如,从聚类a中提取4个待标注数据进行标注,得到已标注的数据1、数据2、数据3、数据4,这四个已标注的数据即为聚类a的数据标注样本。
205、从所述数据标注样本中获取数据标注数量最多的类,并根据所述数据标注数量最多的类的数据标注,对所述待标注数据进行临时标注。
具体地,所述步骤205可以为:根据数据标注数量最多的类,对聚类中其他无标注的数据,进行相同的标注处理。
例如,对选取的待标注数据进行聚类后得到其中一个聚类m,在聚类m中包含有三个类分别为类1、类2、类3,类1中的数据为{数据a、数据b、数据c},类2中的数据分别为{数据x、数据y},类3中的数据分别为{数据h、数据i、数据j、数据k},从中提取四个待标注数据{数据a、数据x、数据j、数据k}进行标注,由于类3中有两个数据,为数据标注数量最多的类,所以按照类3的数据标注对聚类m中无标注的数据,即数据b、数据c、数据y、数据h、数据i,进行相同的标注。
对于本发明实施例,通过按照聚类中数据标注数量最多的类得标注,对其他的数据进行临时标注,可以快速且较为准确的对待标注数据进行临时标注,再对临时标注的数据进行使用,无需对数据一一标注后再进行使用,从而提高了数据标注的效率。
206、将临时标注后的数据进行分类。
对于本发明实施例,所述步骤206具体可以包括:根据所述属性特征,利用预置分类算法对所述临时标注后的数据进行分类。其中,所述属性特征可以为长度、学历、密度等,本发明实施例不做限定。所述预置分类学习算法可以为决策树机器学习分类算法。
207、根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注。
所述步骤207具体包括:依次根据各个分类分别对应的预设条件对所述临时标注数据进行筛选;将通过筛选的所述临时标注后的数据确定为用于模型训练的数据并进行相应标注。例如,对于本发明实施例,可以利用机器学习分类算法中的决策树机器学习算法,对临时标注后的数据进行分类,并根据得到的分类器及预设条件,选择处在决策边界附近的样本点如图3所示,然后再进行标注。
例如,分类结果为包含两个分类,分别为“月收入”和“是否具有偿还能力”,其中“月收入”对应的预设条件为“≥5000”,“是否具有偿还能力”对应的预设条件为“是”,当根据这两个分类和对应的预设条件进行筛选获取代表具有偿还能力的数据时,对数据[7500,具有偿还能力]进行筛选,由于7500≥5000满足“≥5000”的条件,且“具有偿还能力”满足“是”的条件,则确定数据[7500,具有偿还能力]为用于模型训练的数据并进行相应的标注。
为了提高数据标注的效率,所述步骤207之后所述方法还包括:检测已标注数据的数量是否大于或等于预设阈值;若是,则停止提取并输出提示信息。其中,所述预设阈值可以为1000、2000、5000等,可以根据具体情况进行设定,例如可以根据训练模型需要的数据量进行设定。所述提示信息可以为文本提示信息、图片提示信息、音频提示信息、视频提示信息等。对于本发明实施例,通过统计获取到的已标注的高质量数据,并在达到需求数量之后及时发出提示信息,以使得用户进行使用,从而提高了数据标注的效率,且提高了用户体验。
本发明实施例提供的另一种数据标注的优化方法,与现有通过人工方式对数据进行标注的技术相比,本发明实施例通过对提取的待标注数据进行特征向量化处理,然后对数据进行聚类,并从每个聚类中提取部分数据进行标注,得到与每个聚类分别对应的数据标注样本,并根据数据标注样本中数据标注数量最多的类的数据标注,对每个聚类的数据进行临时标注,将临时标注后的数据进行分类,并根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注,从而避免了通过人工方式进行标注时无法判断数据质量,而导致标注的数据中存在部分数据质量较低的问题,进而提高了数据标注的准确性。
进一步地,作为图1所示方法的具体实现,本发明实施例提供了一种数据标注的优化装置,如图4所示,所述装置包括:选取单元31、聚类单元32、标注单元33、分类单元34、确定单元35。
所述选取单元31,可以用于选取待标注数据进行特征向量化处理。
所述聚类单元32,可以用于对特征向量化处理后的待标注数据进行聚类。
所述标注单元33,可以用于根据聚类结果,对待标注数据进行临时标注。
所述分类单元34,可以用于将临时标注后的数据进行分类。
所述确定单元35,可以用于根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注。
需要说明的是,本发明实施例提供的一种数据标注的优化装置所涉及各功能单元的其他相应描述,可以参考图1的对应描述,在此不再赘述。
本发明实施例提供的一种数据标注的优化装置,与现有通过人工方式对数据进行标注的技术相比,本发明实施例通过对选取的数据进行特征向量化处理后进行聚类,根据聚类结果对数据进行临时标注,然后将临时标注的数据进行分类,并根据分类结果和预设条件,从临时标注数据中确定用于模型训练的数据,从而避免了通过人工方式进行标注时无法判断数据质量,而导致标注的数据中存在部分数据质量较低的问题,进而提高了数据标注的准确性。
进一步地,作为图2所示方法的具体实现,本发明实施例提供了另一种数据标注的优化装置,如图5所示,所述装置包括:选取单元41、聚类单元42、标注单元43、分类单元44、确定单元45。
所述选取单元41,可以用于选取待标注数据进行特征向量化处理。
所述聚类单元42,可以用于对特征向量化处理后的待标注数据进行聚类。
所述标注单元43,可以用于根据聚类结果,对待标注数据进行临时标注。
所述分类单元44,可以用于将临时标注后的数据进行分类。
所述确定单元45,可以用于根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注。
进一步地,所述装置还包括:提取单元46。
所述提取单元46,可以用于从每个聚类中分别提取预定数量的待标注数据。
所述标注单元43,还可以用于对所述预定数量的待标注数据进行标注,得到与所述每个聚类分别对应的数据标注样本。
进一步地,所述装置还包括:获取单元47。
所述获取单元47,可以用于从所述数据标注样本中获取数据标注数量最多的类。
所述标注单元43,还可以用于根据所述数据标注数量最多的类的数据标注,对所述待标注数据进行临时标注。
进一步地,所述分类单元44,具体可以用于根据所述属性特征,利用预置分类算法对所述临时标注后的数据进行分类。
所述确定单元45包括:筛选模块451、确定模块452。
所述筛选模块451,可以用于依次根据各个分类分别对应的预设条件对所述临时标注数据进行筛选。
所述确定模块452,可以用于将通过筛选的所述临时标注后的数据确定为用于模型训练的数据并进行相应标注。
需要说明的是,本发明实施例提供的另一种数据标注的优化装置所涉及各功能单元的其他相应描述,可以参考图2的对应描述,在此不再赘述。
本发明实施例提供的另一种数据标注的优化装置,与现有通过人工方式对数据进行标注的技术相比,本发明实施例通过对提取的待标注数据进行特征向量化处理,然后对数据进行聚类,并从每个聚类中提取部分数据进行标注,得到与每个聚类分别对应的数据标注样本,并根据数据标注样本中数据标注数量最多的类的数据标注,对每个聚类的数据进行临时标注,将临时标注后的数据进行分类,并根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注,从而避免了通过人工方式进行标注时无法判断数据质量,而导致标注的数据中存在部分数据质量较低的问题,进而提高了数据标注的准确性。
所述数据标注的优化装置包括处理器和存储器,上述选取单元、聚类单元、标注单元、分类单元、确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决现有技术中数据标注准确性较低的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:选取待标注数据进行特征向量化处理;对特征向量化处理后的待标注数据进行聚类;根据聚类结果,对待标注数据进行临时标注;将临时标注后的数据进行分类;根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种数据标注的优化方法,其特征在于,包括:
选取待标注数据进行特征向量化处理;
对特征向量化处理后的待标注数据进行聚类;
根据聚类结果,对待标注数据进行临时标注;
将临时标注后的数据进行分类;
根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注。
2.根据权利要求1所述的数据标注的优化方法,其特征在于,所述根据聚类结果,对待标注数据进行临时标注,具体包括:
从每个聚类中分别提取预定数量的待标注数据,所述预定数量的待标注数据中包含有多个类的待标注数据;
对所述预定数量的待标注数据进行标注,得到与所述每个聚类分别对应的数据标注样本;
从所述数据标注样本中获取数据标注数量最多的类,并根据所述数据标注数量最多的类的数据标注,对所述待标注数据进行临时标注。
3.根据权利要求1所述的数据标注的优化方法,其特征在于,所述根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注,具体包括:
依次根据各个分类分别对应的预设条件对所述临时标注数据进行筛选;
将通过筛选的所述临时标注后的数据确定为用于模型训练的数据并进行相应标注。
4.根据权利要求1所述的数据标注优化方法,其特征在于,所述特征向量化后的数据中携带有与所述数据对应的属性特征,所述将临时标注后的数据进行分类,具体包括:
根据所述属性特征,利用预置分类算法对所述临时标注后的数据进行分类。
5.根据权利要求1所述的数据标注的优化方法,其特征在于,所述根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注之后,所述方法还包括:
检测所述已标注数据的数量是否大于或等于预设阈值;
若是,则停止提取并输出提示信息。
6.一种数据标注的优化装置,其特征在于,包括:
选取单元,用于选取待标注数据进行特征向量化处理;
聚类单元,用于对特征向量化处理后的待标注数据进行聚类;
标注单元,用于根据聚类结果,对待标注数据进行临时标注;
分类单元,用于将临时标注后的数据进行分类;
确定单元,用于根据分类结果和预设条件,确定所述临时标注后的数据中用于模型训练的数据并进行相应标注。
7.根据权利要求6所述的数据标注的优化装置,其特征在于,所述标注单元包括:
提取模块,用于从每个聚类中分别提取预定数量的待标注数据;
标注模块,用于对所述预定数量的待标注数据进行标注,得到与所述每个聚类分别对应的数据标注样本;
获取模块,用于从所述数据标注样本中获取数据标注数量最多的类;
所述标注模块,还用于根据所述数据标注数量最多的类的数据标注,对所述待标注数据进行临时标注。
8.根据权利要求6所述的数据标注的优化装置,其特征在于,所述确定单元包括:
筛选模块,用于依次根据各个分类分别对应的预设条件对所述临时标注数据进行筛选;
确定模块,用于将通过筛选的所述临时标注后的数据确定为用于模型训练的数据;
标注模块,用于将确定为用于模型训练的数据进行标注。
9.根据权利要求6所述的数据标注的优化装置,其特征在于,
所述分类单元,具体用于根据所述属性特征,利用预置分类算法对所述临时标注后的数据进行分类。
10.根据权利要求6所述的数据标注的优化装置,其特征在于,所述装置还包括:
检测单元,用于检测所述已标注数据的数量是否大于或等于预设阈值;
停止单元,用于若所述已标注数据的数量大于或等于预设阈值,则停止提取;
输出单元,用于输出提示信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611213937.2A CN108241662B (zh) | 2016-12-23 | 2016-12-23 | 数据标注的优化方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611213937.2A CN108241662B (zh) | 2016-12-23 | 2016-12-23 | 数据标注的优化方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108241662A true CN108241662A (zh) | 2018-07-03 |
CN108241662B CN108241662B (zh) | 2021-12-28 |
Family
ID=62703881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611213937.2A Active CN108241662B (zh) | 2016-12-23 | 2016-12-23 | 数据标注的优化方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108241662B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080150A (zh) * | 2019-12-23 | 2020-04-28 | 杭州雷数科技有限公司 | 生产数据分析方法、装置、设备及介质 |
CN111414907A (zh) * | 2020-03-12 | 2020-07-14 | 深圳中兴网信科技有限公司 | 数据集标注方法、数据集标注装置和计算机可读存储介质 |
CN112632179A (zh) * | 2019-09-24 | 2021-04-09 | 北京国双科技有限公司 | 模型构建方法、装置、存储介质及设备 |
CN112699908A (zh) * | 2019-10-23 | 2021-04-23 | 武汉斗鱼鱼乐网络科技有限公司 | 标注图片的方法、电子终端、计算机可读存储介质及设备 |
CN115964634A (zh) * | 2022-12-10 | 2023-04-14 | 北京自动化控制设备研究所 | 一种数据标注优化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010250814A (ja) * | 2009-04-14 | 2010-11-04 | Nec (China) Co Ltd | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 |
CN102254192A (zh) * | 2011-07-13 | 2011-11-23 | 北京交通大学 | 基于模糊k近邻的三维模型半自动标注方法及系统 |
CN104881458A (zh) * | 2015-05-22 | 2015-09-02 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
CN106095928A (zh) * | 2016-06-12 | 2016-11-09 | 国家计算机网络与信息安全管理中心 | 一种事件类型识别方法及装置 |
-
2016
- 2016-12-23 CN CN201611213937.2A patent/CN108241662B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010250814A (ja) * | 2009-04-14 | 2010-11-04 | Nec (China) Co Ltd | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 |
CN102254192A (zh) * | 2011-07-13 | 2011-11-23 | 北京交通大学 | 基于模糊k近邻的三维模型半自动标注方法及系统 |
CN104881458A (zh) * | 2015-05-22 | 2015-09-02 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
CN106095928A (zh) * | 2016-06-12 | 2016-11-09 | 国家计算机网络与信息安全管理中心 | 一种事件类型识别方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632179A (zh) * | 2019-09-24 | 2021-04-09 | 北京国双科技有限公司 | 模型构建方法、装置、存储介质及设备 |
CN112699908A (zh) * | 2019-10-23 | 2021-04-23 | 武汉斗鱼鱼乐网络科技有限公司 | 标注图片的方法、电子终端、计算机可读存储介质及设备 |
CN111080150A (zh) * | 2019-12-23 | 2020-04-28 | 杭州雷数科技有限公司 | 生产数据分析方法、装置、设备及介质 |
CN111414907A (zh) * | 2020-03-12 | 2020-07-14 | 深圳中兴网信科技有限公司 | 数据集标注方法、数据集标注装置和计算机可读存储介质 |
CN115964634A (zh) * | 2022-12-10 | 2023-04-14 | 北京自动化控制设备研究所 | 一种数据标注优化方法 |
CN115964634B (zh) * | 2022-12-10 | 2024-04-02 | 北京自动化控制设备研究所 | 一种数据标注优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108241662B (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108241662A (zh) | 数据标注的优化方法及装置 | |
CN110348580B (zh) | 构建gbdt模型的方法、装置及预测方法、装置 | |
CN108399431A (zh) | 分类模型训练方法以及分类方法 | |
CN108197668A (zh) | 模型数据集的建立方法及云系统 | |
CN104346406B (zh) | 训练语料扩充装置和训练语料扩充方法 | |
CN109741332A (zh) | 一种人机协同的图像分割与标注方法 | |
CN103116766B (zh) | 一种基于增量神经网络和子图编码的图像分类方法 | |
CN108090508A (zh) | 一种分类训练方法、装置及存储介质 | |
CN106445919A (zh) | 一种情感分类方法及装置 | |
CN109816032A (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN108241892A (zh) | 一种数据建模方法和装置 | |
CN103839078B (zh) | 一种基于主动学习的高光谱图像分类方法 | |
CN107545038B (zh) | 一种文本分类方法与设备 | |
CN107004141A (zh) | 对大样本组的高效标注 | |
CN107506775A (zh) | 模型训练方法及装置 | |
CN103927510A (zh) | 图像识别装置和图像识别方法 | |
CN109344869A (zh) | 一种分类模型优化方法、装置及存储设备、程序产品 | |
CN104933420A (zh) | 一种场景图像识别方法和场景图像识别设备 | |
CN108140133A (zh) | 程序生成装置、程序生成方法及生成程序 | |
CN108062302A (zh) | 一种特定文本信息的识别方法及装置 | |
CN104796300B (zh) | 一种数据包特征提取方法及装置 | |
CN108764322A (zh) | 一种基于概念漂移的流数据集成分类方法和装置 | |
CN111709468B (zh) | 一种定向人工智能的训练方法、装置及存储介质 | |
CN109376061A (zh) | 一种信息处理方法及系统 | |
CN110097096A (zh) | 一种基于tf-idf矩阵和胶囊网络的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |