CN112528610A - 一种数据标注方法、装置、电子设备及存储介质 - Google Patents
一种数据标注方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112528610A CN112528610A CN202011449187.5A CN202011449187A CN112528610A CN 112528610 A CN112528610 A CN 112528610A CN 202011449187 A CN202011449187 A CN 202011449187A CN 112528610 A CN112528610 A CN 112528610A
- Authority
- CN
- China
- Prior art keywords
- data
- elements
- labeling
- column
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 270
- 239000011159 matrix material Substances 0.000 claims abstract description 117
- 238000000034 method Methods 0.000 claims description 67
- 238000013075 data extraction Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 230000007717 exclusion Effects 0.000 claims description 6
- 238000012423 maintenance Methods 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000004140 cleaning Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Image Analysis (AREA)
- Facsimiles In General (AREA)
Abstract
本申请公开了一种数据标注方法、装置、电子设备以及存储介质,涉及人工智能技术领域,进一步涉及数据标注技术,包括:确定数据标注因子,其中,所述数据标注因子包括数据标注元素和标注操作矩阵;根据所述数据标注元素获取待标注数据;根据所述标注操作矩阵对所述待标注数据进行标注。本申请实施例能够降低数据标注的维护和使用成本,提高数据标注的通用性和高效性。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及人工智能技术中的数据标注技术。
背景技术
随着人工智能技术的发展,以及其在越来越多的业务场景下的应用,经常会需要训练特定场景下的模型,相应地,则需要标注大量该场景下的样本数据,以便训练得到精度高且泛化能力强的模型,因此,数据标注需求日益旺盛。通常情况下,为了满足各种垂类场景数据的标注需求,往往需要对应的标注工具来标注对应类型的数据。
发明内容
本申请实施例提供了一种数据标注方法、装置、电子设备以及存储介质,以降低数据标注的维护和使用成本,从而提高数据标注的通用性和高效性。
第一方面,本申请实施例提供了一种数据标注方法,包括:
确定数据标注因子,其中,所述数据标注因子包括数据标注元素和标注操作矩阵;
根据所述数据标注元素获取待标注数据;
根据所述标注操作矩阵对所述待标注数据进行标注。
第二方面,本申请实施例提供了一种数据标注装置,包括:
数据标注因子确定模块,用于确定数据标注因子,其中,所述数据标注因子包括数据标注元素和标注操作矩阵;
待标注数据获取模块,用于根据所述数据标注元素获取待标注数据;
待标注数据标注模块,用于根据所述标注操作矩阵对所述待标注数据进行标注。
第三方面,本申请实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面实施例所提供的数据标注方法。
第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面实施例所提供的数据标注方法。
第五方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面实施例所提供的数据标注方法。
本申请实施例通过在确定数据标注元素和标注操作矩阵等数据标注因子后,根据数据标注元素获取待标注数据,并根据标注操作矩阵对待标注数据进行标注,解决现有数据标注方法存在的维护和使用成本高、通用性差以及效率低等问题,从而降低数据标注的维护和使用成本,提高数据标注的通用性和高效性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例提供的一种数据标注方法的流程图;
图2是本申请实施例提供的一种数据标注方法的流程图;
图3是本申请实施例提供的一种数据标注因子的配置界面效果示意图;
图4是本申请实施例提供的一种适用于文本提取应用场景的数据标注界面效果示意图;
图5是本申请实施例提供的一种对标注操作矩阵进行配置的界面效果示意图;
图6是本申请实施例提供的一种数据识别场景中对音频数据进行标注的界面效果示意图;
图7是本申请实施例提供的一种数据标注装置的结构图;
图8是用来实现本申请实施例的数据标注方法的电子设备的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
现有的各类数据标注工具通常为定制化标注工具,只能满足单一场景的标注需求。例如,针对语音、视频以及文本类数据的标注需求主要通过各种垂类标注工具语音转写工具实现,常见的垂类标注工具有:语音转写工具、图像标注工具、视频标注工具以及文本提取工具。其中,语音转写工具主要适用于长短语音的切分与转写,所谓转写也即将非文本数据识别为文本数据。图像标注工具主要适用于对图像中某些具体物体对象进行标注,如标注图像中的障碍物等。视频标注工具主要适用于视频重要片段的提取、视频内容转写等。文本提取工具主要适用于NLP(Neuro-Linguistic Programming,神经语言程序学)的关键词提取等。
现有的各类标注工具种类繁多,其维护和使用成本都较大。且单一的标注工具对于稍微复杂的混合标注场景不能做到很好的支持,必须对待标注的数据进行拆分,并对拆分的数据进行串行标注后再进行结果合并。由此可见,现有的标注工具中的数据标注方法通用性较差,其无疑会延长了标注流程,导致标注效率降低。
在一个示例中,图1是本申请实施例提供的一种数据标注方法的流程图,本实施例可适用于对各类型的数据采用统一的数据标注方法进行标注的情况,该方法可以由数据标注装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在电子设备中。该电子设备可以是计算机设备等。相应的,如图1所示,该方法包括如下操作:
S110、确定数据标注因子,其中,所述数据标注因子包括数据标注元素和标注操作矩阵。
其中,数据标注因子可以为对待标注的数据进行标注的关联因子。可选的,数据标注因子可以包括但不限于数据标注元素和标注操作矩阵。其中,数据标注元素可以用于限定可以进行标注的数据类型,进而根据数据类型确定待标注的数据。标注操作矩阵可以用于对待标注的数据进行标注。
在本申请实施例中,在对数据进行标注之前,首先需要确定数据标注元素和标注操作矩阵等数据标注因子。
S120、根据所述数据标注元素获取待标注数据。
其中,待标注数据可以是需要进行标注的数据。可选的,待标注数据的数据类型可以包括但不限于音频数据、视频数据、图片数据、文本数据及网页数据等,也即可以是存在标注需求的任何数据类型,本申请实施例并不对待标注数据的具体数据类型进行限定。
相应的,在确定数据标注元素后,可以根据数据标注元素获取待标注数据。示例性的,可以根据待标注数据的数据类型从数据标注元素的元素类型中确定匹配的元素类型,进而根据匹配的元素类型获取对应的待标注数据。
S130、根据所述标注操作矩阵对所述待标注数据进行标注。
在本申请实施例中,当获取到待标注数据后,即可根据标注操作矩阵对所述待标注数据进行标注。需要说明的是,标注操作矩阵可以限定待标待标注数据具体的标注属性,示例性的,通过标注操作矩阵的行元素确定待标注数据中的每一条标注数据,并通过标注矩阵的列元素确定每条标注数据具体的标注属性。例如,可以通过列元素确定每条标注数据对应的标注序号和数据的起止位置等。
由此可见,通过标注操作矩阵可以实现对所有存在标注需求的数据类型设置对应的标注属性以满足其标注需求。需要说明的是,本申请实施例所提供的数据标注方法可以应用于一套标注工具中,也即利用本申请实施例所提供的数据标注方法,通过一套标注工具即可实现对所有数据类型的数据标注任务,通用性更强,且降低了数据标注的维护和使用成本,无需对待标注数据进行拆分后利用不同的标注工具分别对拆分的数据进行串行标注后再进行结果合并,因此还同时能够极大地提高数据标注的效率。
本申请实施例通过在确定数据标注元素和标注操作矩阵等数据标注因子后,根据数据标注元素获取待标注数据,并根据标注操作矩阵对待标注数据进行标注,解决现有数据标注方法存在的维护和使用成本高、通用性差以及效率低等问题,从而降低数据标注的维护和使用成本,提高数据标注的通用性和高效性。
在一个示例中,图2是本申请实施例提供的一种数据标注方法的流程图,本申请实施例在上述各实施例的技术方案的基础上,进行了优化改进,给出了确定数据标注因子、根据所述数据标注元素获取待标注数据,以及,根据所述标注操作矩阵对所述待标注数据进行标注的多种具体可选的实现方式。
如图2所示的一种数据标注方法,包括:
S210、确定所述数据标注元素的元素类型。
其中,所述元素类型可以包括但不限于音频数据元素、视频数据元素、图片数据元素、文本数据元素及网页数据元素等。
其中,音频数据元素可以代表音频数据类型,视频数据元素可以代表视频数据类型,图片数据元素可以代表图片数据类型,文本数据元素可以代表文本数据类型,网页数据元素可以代表网页数据类型,除上述类型外,数据标注元素的元素类型还可以是其他有标注需求的数据类型,本申请实施例对此并不进行限制。
在本申请实施例中,确定数据标注元素时,具体可以确定数据标注元素对应的元素类型。考虑到数据标注工具的通用性,可以考虑所有存在标注需求的数据类型作为元素类型。且元素类型可以根据实际需求更新,也即,当有新的数据类型具有标注需求时,可以将该数据类型对应的元素类型对数据标注元素进行更新。由此可见,通过确定数据标注元素可以提高数据标注方法的通用性。
S220、确定所述标注操作矩阵的行元素的行数量和列元素的列数量。
其中,所述标注操作矩阵的行元素用于确定所述待标注数据,所述标注操作矩阵的列元素用于确定所述待标注数据匹配的标注属性。标注属性也即对待标注数据的具体标注内容,如噪音判断、数据标题或数据起止位置等,任何标注需求均可以形成对应的标注属性,本申请实施例并不对标注属性的具体内容进行限定。
可以理解的是,标注操作矩阵可以包括行元素和列元素。因此,在确定标注操作矩阵时,可以确定标注操作矩阵的行元素的行数量和列元素的列数量。通过设置行数量可以限定待标注数据的数据数量,通过设置列数量可以限定待标注数据的标注属性的数量。
图3是本申请实施例提供的一种数据标注因子的配置界面效果示意图。在一个示例性的例子中,如图3所示,可以通过数据标注因子配置界面对数据标注元素和标注操作矩阵进行配置,以确定数据标注因子。例如,可以确定数据标注元素的元素类型为音频数据元素、视频数据元素、图片数据元素、文本数据元素及网页数据元素,并可以对标注操作矩阵的行数量、列数量以及行列内容等进行设置。除此之外,还可以设置标注操作矩阵的行列之间的关系,以在确定标注操作矩阵的阶段约束行列之间的制约关系。
S230、根据所述数据标注元素的元素类型确定目标元素类型。
其中,目标元素类型可以是待标注数据对应的元素类型。
在确定数据标注因子包括数据标注元素和标注操作矩阵之后,即可根据数据标注元素的元素类型确定目标元素类型。示例性的,假设待标注数据为文本数据,则目标元素类型为文本数据元素。相应的,如图2所示,可以选择“文本”作为目标元素类型。
S240、根据所述目标元素类型获取所述待标注数据。
相应的,在确定了目标元素类型之后,即可根据目标元素类型获取待标注数据。示例性的,可以通过数据文件导入的方式获取待标注数据,或者,也还可以通过直接输入数据等方式获取待标注数据,只要能够获取到待标注数据即可,本申请实施例并不对待标注数据的获取方式进行限定。
上述技术方案中,通过从所有元素类型中确定目标元素类型,以根据目标元素类型确定需要进行标注的待标注数据,可以满足任意类型数据的标注需求。
S250、根据所述待标注数据确定所述标注操作矩阵中每个行元素对应的子待标注数据以及每个列元素对应的标注属性。
其中,子待标注数据可以是待标注数据中的部分标注数据。示例性的,假设待标注数据为5张图片,则每张图片可以作为一个子待标注数据。驾驶待标注数据为10句短文本构成的一段文本段落,则每句短文本可以作为一个子待标注数据。本申请实施例并不对子待标注数据的具体数据内容进行限定。
S260、建立所述标注操作矩阵的行元素与各所述子待标注数据之间的映射关系。
在本申请实施例中,根据标注操作矩阵对待标注数据进行标注时,可以首先根据待标注数据确定标注操作矩阵中每个行元素对应的子待标注数据以及每个列元素对应的标注属性。同时,在确定每个行元素对应的子待标注数据之后,即可建立行元素与各子待标注数据之间的映射关系,可以理解的是,该映射关系可以是默认的对应关系。
示例性的,待标注数据为5句短文本构成的本文段落,则可以确定5个行元素,且每个行元素对应一句短文本,作为一个子待标注数据,相应的,每个子待标注数据与每个行元素之间存在映射关系。同时,还可以确定多个列元素,每个列元素可以确定对应的标注属性。例如,第一个列元素的标注属性为序号,即为对各短文本进行排序编号,第二个列元素的标注属性为数据截取内容,即为对短文本中截取的重要的文本数据内容等。
S270、建立行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系。
可选的,所述属性制约关系包括默认对应关系、包含关系、被包含关系、互斥关系以及联动关系。其中,默认对应关系也即矩阵中行元素与列元素的对应关系,该对应关系具体体现为具体的矩阵元素,如第一行第二列的矩阵元素,则对应的是第一行行元素与第二列列元素之间的默认对应关系。包含关系可以是其中一个元素包含另外一个元素,例如,第二列列元素与第一列列元素之间存在第一列列元素包含第二列列元素的包含关系,表示第一列列元素中的数据需要包含第二列列元素的数据。示例性的,第一列列元素对应的标注属性为障碍物,第二列列元素对应的标注属性为路灯,表示障碍物包含路灯。相应的,被包含关系可以是其中一个元素被另外一个元素包含,例如,第二列列元素与第一列列元素之间存在第一列列元素被第二列列元素包含的被包含关系,表示第二列列元素中的数据需要包含第一列列元素的数据。互斥关系可以是其中一个元素与另外一个元素互斥。例如,第二列列元素与第一列列元素之间存在互斥关系,表示第一列列元素的数据与第二列列元素的数据之间是互斥的。示例性的,第一列列元素对应的标注属性为黑色,第二列列元素对应的标注属性为白色,显然黑色与白色之间是相互斥的不同颜色。联动关系可以是各元素之间相关联的关系。例如,第二列列元素与第一列列元素和第三列列元素之间存在联动关系,表示第一列列元素的数据与第二列列元素的数据之间是相互联系的,且第一列列元素的数据与第三列列元素的数据之间是相互联系的。示例性的,第一列列元素对应的标注属性为功效,第二列列元素对应的标注属性为颜色,第二列列元素对应的标注属性为类别,表明颜色与功效之间,以及颜色与类别之间均存在关联关系。
在本申请实施例中,确定标注操作矩阵之后,还可以进一步建立标注操作矩阵中行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系,以通过属性制约关系对元素之间的关系进行配置,以进一步满足多样化的数据标注需求。需要说明的是,各元素之间可以存在属性制约关系,也可以不存在属性制约关系,具体可以根据实际需求设定,本申请实施例对此并不进行限制。可以理解的是,通常情况下属性制约关系不宜设置得过于复杂,以避免数据标注难度提升或降低数据标注质量。
S280、根据各所述列元素对应的标注属性以及所述属性制约关系对各所述子待标注数据进行标注。
相应的,在确定每个行元素对应的子待标注数据、每个列元素对应的标注属性以及各元素之间的属性制约关系后,即可根据各列元素对应的标注属性以及属性制约关系对各行元素对应的子待标注数据进行标注。
由此可见,上述技术方案通过确定每个行元素对应的子待标注数据、每个列元素对应的标注属性以及各元素之间的属性制约关系,以根据各列元素对应的标注属性以及属性制约关系对各行元素对应的子待标注数据进行标注,可以进一步满足多样化的数据标注需求。
在本申请的一个可选实施例中,所述数据标注方法应用于数据清洗场景;所述标注操作矩阵的行数量为第一数量,所述标注操作矩阵的列数量为第二数量;所述确定所述标注操作矩阵中每个列元素对应的标注属性,可以包括:确定第一列元素的标注属性为数据筛选;确定第二列元素的标注属性为筛选类型;所述建立行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系,可以包括:建立所述行元素和所述列元素之间的默认对应关系。
其中,第一数量可以为1,第二数量可以为n,n代表数量可以随机设置,一般情况下,n需要大于或等于1。第一列元素可以是第一列列元素,第二列元素可以是第二列列元素。
可选的,本申请实施例所提供的数据标注方法可以应用于数据清洗场景中。数据清洗也即对数据进行清洗处理。可以理解的是,任何类型的数据都存在数据清洗的需求,例如噪音清洗、高清视频清洗、文本内容合规清洗等数据清洗操作。所谓噪音清洗也即删除带噪音的数据,高清视频清洗也即删除非高清视频数据,文本内容合规清洗例如可以是删除敏感词汇或异常词汇等。本申请实施例并不对数据清洗的具体清洗方式和清洗内容进行限定。
针对数据清洗场景,可以设置标注操作矩阵的行数量为1,列数量为n。可选的,还可以进一步设置列标题为判断依据,行元素对应一个子待标注数据,可以针对子待标注数据进行数据清洗,以完成数据标注操作。各列元素对应的标注属性可以是根据清洗需求定义的待清洗的选项内容。示例性的,可以确定第一列元素的标注属性为数据筛选,如噪音筛选等,还可以进一步设置数据筛选的标注属性的选择方式。如针对噪音筛选的标注属性设置为单选形式,选项具体包括无噪音和有噪音。选择无噪音代表清洗无噪音的数据,选择有噪音代表清洗有噪音的数据。另外还可以进一步确定第二列元素的标注属性为筛选类型,如噪声类型等。可选的,噪声类型可以包括但不限于男声类型、女声类型以及混合声类型等。相应的,如果没有特殊属性制约关系需求,则可以仅建立行元素和列元素之间的默认对应关系。由此可见,通过确定数据筛选和筛选类型等标注属性,可以满足多种数据清洗场景的数据标注需求。
在本申请的一个可选实施例中,所述数据标注方法应用于数据截取场景;所述标注操作矩阵的行数量为第三数量,所述标注操作矩阵的列数量为第二数量;所述确定所述标注操作矩阵中每个列元素对应的标注属性,可以包括:确定第一列元素的标注属性为数据序号;确定第二列元素的标注属性为数据目标片段;确定第三列元素的标注属性为数据标题;确定第四列元素的标注属性为数据片段时长;确定第五列元素的标注属性为数据审核意见;所述建立行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系,可以包括:建立所述行元素和所述列元素之间的默认对应关系。
其中,第三数量可以为0,代表行数量可以无限制增加。数据序号可以代表子待标注数据的标注序号,数据目标片段可以是子待标注数据中的其中某些片段,如精彩片段等。数据标题则可以为子待标注数据对应的数据标题,如视频标题或音频标题等。数据片段时长可以是子待标注数据对应的片段时长,如视频片段时长或音频片段时长等。数据审核意见即为子待标注数据对应的审核意见等。第三列元素可以是第三列列元素,第四列元素可以是第四列列元素,第五列元素可以是第五列列元素。
可选的,本申请实施例所提供的数据标注方法可以应用于数据截取场景中。数据截取也即对数据进行截取处理。可以理解的是,任何类型的数据都存在数据截取的需求,例如截取音频、文本、视频或选择图片等数据截取操作。本申请实施例并不对数据截取的具体截取方式和截取内容进行限定。
针对数据截取场景,可以设置标注操作矩阵的行数量为0,列数量为n。可选的,各行元素对应一个子待标注数据,可以针对每个子待标注数据进行数据截取,以完成数据标注操作。各列元素对应的标注属性可以是根据截取需求定义的待截取的选项内容。示例性的,可以确定第一列元素的标注属性为数据序号,如可以按照从1递增的方式对各子待标注数据进行排序。还可以确定第二列元素的标注属性为数据目标片段,也即可以对各子待标注数据截取需求的数据片段,如截取视频中的精彩片段等。还可以确定第三列元素的标注属性为数据标题,也即对个子待标注数据的数据标注进行命名标注。还可以确定第四列元素的标注属性为数据片段时长,也即标注各数据目标片段对应的片段时长。还可以确定第五列元素的标注属性为数据审核意见,也即标注用户对各数据目标片段提出的审核意见。相应的,如果没有特殊属性制约关系需求,则可以仅建立行元素和列元素之间的默认对应关系。由此可见,通过确定数据序号、数据目标片段、数据标题、数据片段时长以及数据审核意见等标注属性,可以满足多种数据截取场景的数据标注需求。
在本申请的一个可选实施例中,所述数据标注方法应用于数据提取场景;所述标注操作矩阵的行数量为第三数量,所述标注操作矩阵的列数量为第二数量;所述确定所述标注操作矩阵中每个列元素对应的标注属性,可以包括:确定第一列元素的标注属性为数据序号;确定第二列元素的标注属性为数据起止位置;确定第三列元素的标注属性为数据提取内容;确定第四列元素的标注属性为数据提取分类;确定第五列元素的标注属性为数据提取颜色;所述建立行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系,可以包括:建立所述行元素和所述列元素之间的默认对应关系;建立目标列元素之间的联动关系。
其中,数据起止位置可以表示子待标注数据在待标注数据中的起止位置。数据提取内容可以是从子待标注数据中提取的数据内容。数据提取分类可以是各数据提取内容对应的分类。可选的,数据提取分类可以包括多种分类类型,本申请实施例对此并不进行限制。数据提取颜色可以是数据对应的颜色,如数据的自身颜色或背景颜色等,本申请实施例并不对数据提取颜色的具体颜色类型和内容进行限定。目标列元素可以是需要建立联动关系的列元素,本申请实施例并不对目标列元素在标注操作矩阵中的具体位置进行限定。
可选的,本申请实施例所提供的数据标注方法可以应用于数据提取场景中。数据提取也即对数据进行提取处理。可以理解的是,任何类型的数据都存在数据提取的需求,例如提取音频、文本、视频或选择图片等数据提取操作。本申请实施例并不对数据提取的具体提取方式和提取内容进行限定。
针对数据提取场景,可以设置标注操作矩阵的行数量为0,列数量为n。可选的,各行元素对应一个子待标注数据,可以针对每个子待标注数据进行数据提取,以完成数据标注操作。各列元素对应的标注属性可以是根据提取需求定义的待提取的选项内容。图4是本申请实施例提供的一种适用于文本提取应用场景的数据标注界面效果示意图。示例性的,可以确定第一列元素的标注属性为数据序号,如图4所示的“X提取1”和“X提取2”等形式的数据序号。还可以确定第二列元素的标注属性为数据起止位置,如图4所示,起止位置(也即数据起止位置)可以以数字形式命名,也可以是具体的数据内容等。还可以确定第三列元素的标注属性为数据提取内容,如图4所示的截取内容,可以对子待标注数据中的特定数据进行提取。还可以确定第四列元素的标注属性为数据提取分类,如图4所示,数据提取分类可以包括品牌、类别和工效等子类别。还可以确定第五列元素的标注属性为数据提取颜色,如图4所示,对截取内容的背景颜色进行提取。相应的,还可以根据特殊属性制约关系需求,建立行元素和列元素之间的属性制约关系。如图4所示,可以建立行元素和列元素之间的默认对应关系,并将第四列列元素和第五列列元素作为目标列元素,以建立第四列列元素和第五列列元素之间的联动关系。由此可见,通过确定数据序号、数据起止位置、数据提取内容、数据提取分类以及数据提取颜色等标注属性,可以满足多种数据提取场景的数据标注需求。
在本申请的一个可选实施例中,所述数据标注方法应用于数据识别场景;所述标注操作矩阵的行数量为第三数量,所述标注操作矩阵的列数量为第二数量;所述确定所述标注操作矩阵中每个列元素对应的标注属性,可以包括:确定第一列元素的标注属性为元素序号;确定第二列元素的标注属性为元素起止时间;确定第三列元素的标注属性为元素识别内容;确定第四列元素的标注属性为元素片段时长;确定第五列元素的标注属性为元素角色;所述建立行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系,可以包括:建立所述行元素和所述列元素之间的默认对应关系。
其中,数据起止时间可以表示子待标注数据在待标注数据中的起止时间。数据识别内容可以是对子待标注数据识别后得到的内容,如对视频、音频或图像等识别后得到的识别内容等。数据角色可以是子待标注数据中包括的角色内容。例如,如果子待标注数据为音频数据,则数据角色可以包括男、女等角色。
可选的,本申请实施例所提供的数据标注方法可以应用于数据识别场景中。数据识别也即对数据进行识别处理。可以理解的是,部分类型的数据可以存在数据识别的需求,例如针对音频、文本、视频或选择图片等数据识别操作。其中,音频主要为语音转换为文字的识别标注需求,文本主要为具体文字标注需求,如词性标注或分词处理等。视频主要为视频中的图像或音频的识别标注需求。图片主要为对图片中的对象进行识别标注的需求。本申请实施例并不对数据识别的具体识别方式和识别内容进行限定。
针对数据识别场景,可以设置标注操作矩阵的行数量为0,列数量为n。可选的,标注操作矩阵中各行元素对应一个子待标注数据,可以针对每个子待标注数据进行数据识别,以完成数据标注操作。各列元素对应的标注属性可以是根据识别需求定义的待识别的选项内容。图5是本申请实施例提供的一种对标注操作矩阵进行配置的界面效果示意图。如图5所示,“序号、起止时间、转写内容、分段时长以及角色”等列元素代表对标注操作矩阵中各列元素对应的标注属性。除此之外,还可以针对各标注属性设置其他信息,如设置选项为单选或多行,设置角色可以选择男或女等。示例性的,可以确定第一列元素的标注属性为数据序号,如图5所示数据序号可以设置为“sequence”形式(即序列)。还可以确定第二列元素的标注属性为数据起止时间,如图5所示,如果待标注数据为音频数据,则起止时间主要用于对待标注的音频数据进行语音分段操作。还可以确定第三列元素的标注属性为数据识别内容,如图5所示的转写内容,可以是对子待标注数据识别为多行文本。还可以确定第四列元素的标注属性为数据片段时长,如图5所示,数据片段时长可以对间隔秒数进行设置。还可以确定第五列元素的标注属性为数据角色,如图5所示,如果待标注数据为音频数据,则数据角色可以设置为对男角色或女角色进行单选。相应的,如果没有特殊属性制约关系需求,则可以仅建立行元素和列元素之间的默认对应关系。图6是本申请实施例提供的一种数据识别场景中对音频数据进行标注的界面效果示意图,其中,图6所示的数据标注结果是采用图5所示的标注操作矩阵对一段音频数据进行标注的最终结果。如图6所示,根据标注操作矩阵,通过确定数据序号、数据起止时间、数据识别内容、数据片段时长以及数据角色等标注属性,可以满足数据提取场景的多样化数据标注需求。
上述技术方案,通过在不同的数据标注场景中,利用确定的数据标注元素获取待标注数据,并利用确定的标注操作矩阵对待标注数据进行标注,实现了利用统一的标注工具对各种类型的数据进行标注,降低了数据标注的维护和使用成本,提高了数据标注的通用性和高效性。
在一个示例中,图7是本申请实施例提供的一种数据标注装置的结构图,本申请实施例可适用于对各类型的数据采用统一的数据标注方法进行标注的情况,该装置通过软件和/或硬件实现,并具体配置于电子设备中。该电子设备可以是计算机设备等。
如图7所示的一种数据标注装置300,包括:数据标注因子确定模块310、待标注数据获取模块320和待标注数据标注模块330。其中,
数据标注因子确定模块310,用于确定数据标注因子,其中,所述数据标注因子包括数据标注元素和标注操作矩阵;
待标注数据获取模块320,用于根据所述数据标注元素获取待标注数据;
待标注数据标注模块330,用于根据所述标注操作矩阵对所述待标注数据进行标注。
可选的,数据标注因子确定模块310具体用于:确定所述数据标注元素的元素类型,其中,所述元素类型包括音频数据元素、视频数据元素、图片数据元素、文本数据元素及网页数据元素;确定所述标注操作矩阵的行元素的行数量和列元素的列数量;其中,所述标注操作矩阵的行元素用于确定所述待标注数据,所述标注操作矩阵的列元素用于确定所述待标注数据匹配的标注属性。
可选的,待标注数据获取模块320具体用于:根据所述数据标注元素的元素类型确定目标元素类型;根据所述目标元素类型获取所述待标注数据。
可选的,待标注数据标注模块330具体用于:根据所述待标注数据确定所述标注操作矩阵中每个行元素对应的子待标注数据以及每个列元素对应的标注属性;建立所述标注操作矩阵的行元素与各所述子待标注数据之间的映射关系;建立行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系;所述属性制约关系包括默认对应关系、包含关系、被包含关系、互斥关系以及联动关系;根据各所述列元素对应的标注属性以及所述属性制约关系对各所述子待标注数据进行标注。
可选的,所述数据标注方法应用于数据清洗场景;所述标注操作矩阵的行数量为第一数量,所述标注操作矩阵的列数量为第二数量;待标注数据标注模块330具体用于:确定第一列元素的标注属性为数据筛选;确定第二列元素的标注属性为筛选类型;建立所述行元素和所述列元素之间的默认对应关系。
可选的,所述数据标注方法应用于数据截取场景;所述标注操作矩阵的行数量为第三数量,所述标注操作矩阵的列数量为第二数量;待标注数据标注模块330具体用于:确定第一列元素的标注属性为数据序号;确定第二列元素的标注属性为数据目标片段;确定第三列元素的标注属性为数据标题;确定第四列元素的标注属性为数据片段时长;确定第五列元素的标注属性为数据审核意见;建立所述行元素和所述列元素之间的默认对应关系。
可选的,所述数据标注方法应用于数据提取场景;所述标注操作矩阵的行数量为第三数量,所述标注操作矩阵的列数量为第二数量;待标注数据标注模块具体用于:确定第一列元素的标注属性为数据序号;确定第二列元素的标注属性为数据起止位置;确定第三列元素的标注属性为数据提取内容;确定第四列元素的标注属性为数据提取分类;确定第五列元素的标注属性为数据提取颜色;建立所述行元素和所述列元素之间的默认对应关系;建立目标列元素之间的联动关系。
可选的,所述数据标注方法应用于数据识别场景;所述标注操作矩阵的行数量为第三数量,所述标注操作矩阵的列数量为第二数量;待标注数据标注模块330具体用于:确定第一列元素的标注属性为数据序号;确定第二列元素的标注属性为数据起止时间;确定第三列元素的标注属性为数据识别内容;确定第四列元素的标注属性为数据片段时长;确定第五列元素的标注属性为数据角色;建立所述行元素和所述列元素之间的默认对应关系。
上述数据标注装置可执行本申请任意实施例所提供的数据标注方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请任意实施例提供的数据标注方法。
由于上述所介绍的数据标注装置为可以执行本申请实施例中的数据标注方法的装置,故而基于本申请实施例中所介绍的数据标注方法,本领域所属技术人员能够了解本实施例的数据标注装置的具体实施方式以及其各种变化形式,所以在此对于该数据标注装置如何实现本申请实施例中的数据标注方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中数据标注方法所采用的装置,都属于本申请所欲保护的范围。
在一个示例中,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如数据标注方法。例如,在一些实施例中,数据标注方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的数据标注方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据标注方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
本申请实施例通过在确定数据标注元素和标注操作矩阵等数据标注因子后,根据数据标注元素获取待标注数据,并根据标注操作矩阵对待标注数据进行标注,解决现有数据标注方法存在的维护和使用成本高、通用性差以及效率低等问题,从而降低数据标注的维护和使用成本,提高数据标注的通用性和高效性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (19)
1.一种数据标注方法,包括:
确定数据标注因子,其中,所述数据标注因子包括数据标注元素和标注操作矩阵;
根据所述数据标注元素获取待标注数据;
根据所述标注操作矩阵对所述待标注数据进行标注。
2.根据权利要求1所述的方法,其中,所述确定数据标注因子,包括:
确定所述数据标注元素的元素类型,其中,所述元素类型包括音频数据元素、视频数据元素、图片数据元素、文本数据元素及网页数据元素;
确定所述标注操作矩阵的行元素的行数量和列元素的列数量;
其中,所述标注操作矩阵的行元素用于确定所述待标注数据,所述标注操作矩阵的列元素用于确定所述待标注数据匹配的标注属性。
3.根据权利要求1所述的方法,所述根据所述数据标注元素获取待标注数据,包括:
根据所述数据标注元素的元素类型确定目标元素类型;
根据所述目标元素类型获取所述待标注数据。
4.根据权利要求1所述的方法,其中,所述根据所述标注操作矩阵对所述待标注数据进行标注,包括:
根据所述待标注数据确定所述标注操作矩阵中每个行元素对应的子待标注数据以及每个列元素对应的标注属性;
建立所述标注操作矩阵的行元素与各所述子待标注数据之间的映射关系;
建立行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系;所述属性制约关系包括默认对应关系、包含关系、被包含关系、互斥关系以及联动关系;
根据各所述列元素对应的标注属性以及所述属性制约关系对各所述子待标注数据进行标注。
5.根据权利要求4所述的方法,其中,所述数据标注方法应用于数据清洗场景;所述标注操作矩阵的行数量为第一数量,所述标注操作矩阵的列数量为第二数量;
所述确定所述标注操作矩阵中每个列元素对应的标注属性,包括:
确定第一列元素的标注属性为数据筛选;
确定第二列元素的标注属性为筛选类型;
所述建立行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系,包括:
建立所述行元素和所述列元素之间的默认对应关系。
6.根据权利要求4所述的方法,其中,所述数据标注方法应用于数据截取场景;所述标注操作矩阵的行数量为第三数量,所述标注操作矩阵的列数量为第二数量;
所述确定所述标注操作矩阵中每个列元素对应的标注属性,包括:
确定第一列元素的标注属性为数据序号;
确定第二列元素的标注属性为数据目标片段;
确定第三列元素的标注属性为数据标题;
确定第四列元素的标注属性为数据片段时长;
确定第五列元素的标注属性为数据审核意见;
所述建立行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系,包括:
建立所述行元素和所述列元素之间的默认对应关系。
7.根据权利要求4所述的方法,其中,所述数据标注方法应用于数据提取场景;所述标注操作矩阵的行数量为第三数量,所述标注操作矩阵的列数量为第二数量;
所述确定所述标注操作矩阵中每个列元素对应的标注属性,包括:
确定第一列元素的标注属性为数据序号;
确定第二列元素的标注属性为数据起止位置;
确定第三列元素的标注属性为数据提取内容;
确定第四列元素的标注属性为数据提取分类;
确定第五列元素的标注属性为数据提取颜色;
所述建立行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系,包括:
建立所述行元素和所述列元素之间的默认对应关系;
建立目标列元素之间的联动关系。
8.根据权利要求4所述的方法,其中,所述数据标注方法应用于数据识别场景;所述标注操作矩阵的行数量为第三数量,所述标注操作矩阵的列数量为第二数量;
所述确定所述标注操作矩阵中每个列元素对应的标注属性,包括:
确定第一列元素的标注属性为数据序号;
确定第二列元素的标注属性为数据起止时间;
确定第三列元素的标注属性为数据识别内容;
确定第四列元素的标注属性为数据片段时长;
确定第五列元素的标注属性为数据角色;
所述建立行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系,包括:
建立所述行元素和所述列元素之间的默认对应关系。
9.一种数据标注装置,包括:
数据标注因子确定模块,用于确定数据标注因子,其中,所述数据标注因子包括数据标注元素和标注操作矩阵;
待标注数据获取模块,用于根据所述数据标注元素获取待标注数据;
待标注数据标注模块,用于根据所述标注操作矩阵对所述待标注数据进行标注。
10.根据权利要求9所述的装置,其中,所述数据标注因子确定模块具体用于:
确定所述数据标注元素的元素类型,其中,所述元素类型包括音频数据元素、视频数据元素、图片数据元素、文本数据元素及网页数据元素;
确定所述标注操作矩阵的行元素的行数量和列元素的列数量;
其中,所述标注操作矩阵的行元素用于确定所述待标注数据,所述标注操作矩阵的列元素用于确定所述待标注数据匹配的标注属性。
11.根据权利要求9所述的装置,其中,所述待标注数据获取模块具体用于:
根据所述数据标注元素的元素类型确定目标元素类型;
根据所述目标元素类型获取所述待标注数据。
12.根据权利要求9所述的装置,其中,所述待标注数据标注模块具体用于:
根据所述待标注数据确定所述标注操作矩阵中每个行元素对应的子待标注数据以及每个列元素对应的标注属性;
建立所述标注操作矩阵的行元素与各所述子待标注数据之间的映射关系;
建立行元素和列元素之间、行元素与行元素之间,或列元素与列元素之间的属性制约关系;所述属性制约关系包括默认对应关系、包含关系、被包含关系、互斥关系以及联动关系;
根据各所述列元素对应的标注属性以及所述属性制约关系对各所述子待标注数据进行标注。
13.根据权利要求12所述的装置,其中,所述数据标注方法应用于数据清洗场景;所述标注操作矩阵的行数量为第一数量,所述标注操作矩阵的列数量为第二数量;
所述待标注数据标注模块具体用于:
确定第一列元素的标注属性为数据筛选;
确定第二列元素的标注属性为筛选类型;
建立所述行元素和所述列元素之间的默认对应关系。
14.根据权利要求12所述的装置,其中,所述数据标注方法应用于数据截取场景;所述标注操作矩阵的行数量为第三数量,所述标注操作矩阵的列数量为第二数量;
所述待标注数据标注模块具体用于:
确定第一列元素的标注属性为数据序号;
确定第二列元素的标注属性为数据目标片段;
确定第三列元素的标注属性为数据标题;
确定第四列元素的标注属性为数据片段时长;
确定第五列元素的标注属性为数据审核意见;
建立所述行元素和所述列元素之间的默认对应关系。
15.根据权利要求12所述的装置,其中,所述数据标注方法应用于数据提取场景;所述标注操作矩阵的行数量为第三数量,所述标注操作矩阵的列数量为第二数量;
所述待标注数据标注模块具体用于:
确定第一列元素的标注属性为数据序号;
确定第二列元素的标注属性为数据起止位置;
确定第三列元素的标注属性为数据提取内容;
确定第四列元素的标注属性为数据提取分类;
确定第五列元素的标注属性为数据提取颜色;
建立所述行元素和所述列元素之间的默认对应关系;
建立目标列元素之间的联动关系。
16.根据权利要求12所述的装置,其中,所述数据标注方法应用于数据识别场景;所述标注操作矩阵的行数量为第三数量,所述标注操作矩阵的列数量为第二数量;
所述待标注数据标注模块具体用于:
确定第一列元素的标注属性为数据序号;
确定第二列元素的标注属性为数据起止时间;
确定第三列元素的标注属性为数据识别内容;
确定第四列元素的标注属性为数据片段时长;
确定第五列元素的标注属性为数据角色;
建立所述行元素和所述列元素之间的默认对应关系。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的数据标注方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的数据标注方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的数据标注方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011449187.5A CN112528610B (zh) | 2020-12-09 | 2020-12-09 | 一种数据标注方法、装置、电子设备及存储介质 |
KR1020210127081A KR20210125448A (ko) | 2020-12-09 | 2021-09-27 | 데이터 어노테이션 방법, 장치, 전자 설비 및 저장매체 |
EP21200298.4A EP3961433A3 (en) | 2020-12-09 | 2021-09-30 | Data annotation method and apparatus, electronic device and storage medium |
US17/449,752 US20220019592A1 (en) | 2020-12-09 | 2021-10-01 | Data annotation method and apparatus, electronic device and storage medium |
JP2021181414A JP7309811B2 (ja) | 2020-12-09 | 2021-11-05 | データ注釈方法、装置、電子機器および記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011449187.5A CN112528610B (zh) | 2020-12-09 | 2020-12-09 | 一种数据标注方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528610A true CN112528610A (zh) | 2021-03-19 |
CN112528610B CN112528610B (zh) | 2023-11-14 |
Family
ID=74998711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011449187.5A Active CN112528610B (zh) | 2020-12-09 | 2020-12-09 | 一种数据标注方法、装置、电子设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220019592A1 (zh) |
EP (1) | EP3961433A3 (zh) |
JP (1) | JP7309811B2 (zh) |
KR (1) | KR20210125448A (zh) |
CN (1) | CN112528610B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157170A (zh) * | 2021-03-25 | 2021-07-23 | 北京百度网讯科技有限公司 | 数据的标注方法和装置 |
CN113449142A (zh) * | 2021-06-30 | 2021-09-28 | 北京百度网讯科技有限公司 | 信息处理方法及装置、电子设备、存储介质及产品 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020019837A1 (en) * | 2000-08-11 | 2002-02-14 | Balnaves James A. | Method for annotating statistics onto hypertext documents |
US20020029220A1 (en) * | 2000-09-07 | 2002-03-07 | Shigeru Oyanagi | Data extracting method, information processing apparatus, and recording medium |
US20040260717A1 (en) * | 2003-06-20 | 2004-12-23 | International Business Machines Corporation | Universal annotation server and interface |
US20150033109A1 (en) * | 2013-07-26 | 2015-01-29 | Alex Marek | Presenting mutlimedia objects with annotations |
US20180107694A1 (en) * | 2016-10-17 | 2018-04-19 | Sap Se | Performing data quality functions using annotations |
US20190050452A1 (en) * | 2017-08-14 | 2019-02-14 | Engility Corporation | System and method for computerized data processing, analysis and display |
CN109785942A (zh) * | 2019-01-24 | 2019-05-21 | 邃蓝智能科技(上海)有限公司 | 一种医疗影像数据的快速辅助标注及存储方法和系统 |
US20190325344A1 (en) * | 2018-04-20 | 2019-10-24 | Sas Institute Inc. | Machine learning predictive labeling system |
US20190347324A1 (en) * | 2018-05-11 | 2019-11-14 | International Business Machines Corporation | Processing entity groups to generate analytics |
CN110598743A (zh) * | 2019-08-12 | 2019-12-20 | 北京三快在线科技有限公司 | 一种目标对象的标注方法和装置 |
CN110750965A (zh) * | 2019-09-16 | 2020-02-04 | 平安科技(深圳)有限公司 | 英文文本序列标注方法、系统及计算机设备 |
CN110866936A (zh) * | 2018-08-07 | 2020-03-06 | 阿里巴巴集团控股有限公司 | 视频标注方法、跟踪方法、装置、计算机设备及存储介质 |
CN111488925A (zh) * | 2020-04-07 | 2020-08-04 | 北京百度网讯科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN111524503A (zh) * | 2020-04-15 | 2020-08-11 | 上海明略人工智能(集团)有限公司 | 音频数据的处理方法、装置、音频识别设备和存储介质 |
CN111598120A (zh) * | 2020-03-31 | 2020-08-28 | 宁波吉利汽车研究开发有限公司 | 数据标注方法、设备及装置 |
CN111695053A (zh) * | 2020-06-12 | 2020-09-22 | 上海智臻智能网络科技股份有限公司 | 序列标注方法、数据处理设备、可读存储介质 |
CN111754978A (zh) * | 2020-06-15 | 2020-10-09 | 北京百度网讯科技有限公司 | 韵律层级标注方法、装置、设备和存储介质 |
CN111860304A (zh) * | 2020-07-17 | 2020-10-30 | 北京百度网讯科技有限公司 | 一种图像标注方法、电子装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006048286A (ja) * | 2004-08-03 | 2006-02-16 | Sony Corp | 情報処理装置および方法、並びにプログラム |
JP6582530B2 (ja) * | 2015-05-11 | 2019-10-02 | 富士通株式会社 | 支援プログラム、支援方法および支援装置 |
US10346400B2 (en) * | 2017-01-24 | 2019-07-09 | Visa International Service Association | Database conditional field access |
JP7006031B2 (ja) * | 2017-08-31 | 2022-01-24 | 大日本印刷株式会社 | 管理装置、制御方法及びプログラム |
JP6989485B2 (ja) * | 2018-12-21 | 2022-01-05 | 株式会社 日立産業制御ソリューションズ | マルチラベルデータ学習支援装置、マルチラベルデータ学習支援方法およびマルチラベルデータ学習支援プログラム |
US20220405308A1 (en) * | 2021-06-17 | 2022-12-22 | Sap Se | Automatic configuration of data invocation from one or more sources based on metadata mappings |
-
2020
- 2020-12-09 CN CN202011449187.5A patent/CN112528610B/zh active Active
-
2021
- 2021-09-27 KR KR1020210127081A patent/KR20210125448A/ko not_active Application Discontinuation
- 2021-09-30 EP EP21200298.4A patent/EP3961433A3/en not_active Withdrawn
- 2021-10-01 US US17/449,752 patent/US20220019592A1/en not_active Abandoned
- 2021-11-05 JP JP2021181414A patent/JP7309811B2/ja active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020019837A1 (en) * | 2000-08-11 | 2002-02-14 | Balnaves James A. | Method for annotating statistics onto hypertext documents |
US20020029220A1 (en) * | 2000-09-07 | 2002-03-07 | Shigeru Oyanagi | Data extracting method, information processing apparatus, and recording medium |
US20040260717A1 (en) * | 2003-06-20 | 2004-12-23 | International Business Machines Corporation | Universal annotation server and interface |
US20150033109A1 (en) * | 2013-07-26 | 2015-01-29 | Alex Marek | Presenting mutlimedia objects with annotations |
US20180107694A1 (en) * | 2016-10-17 | 2018-04-19 | Sap Se | Performing data quality functions using annotations |
US20190050452A1 (en) * | 2017-08-14 | 2019-02-14 | Engility Corporation | System and method for computerized data processing, analysis and display |
US20190325344A1 (en) * | 2018-04-20 | 2019-10-24 | Sas Institute Inc. | Machine learning predictive labeling system |
US20190347324A1 (en) * | 2018-05-11 | 2019-11-14 | International Business Machines Corporation | Processing entity groups to generate analytics |
CN110866936A (zh) * | 2018-08-07 | 2020-03-06 | 阿里巴巴集团控股有限公司 | 视频标注方法、跟踪方法、装置、计算机设备及存储介质 |
CN109785942A (zh) * | 2019-01-24 | 2019-05-21 | 邃蓝智能科技(上海)有限公司 | 一种医疗影像数据的快速辅助标注及存储方法和系统 |
CN110598743A (zh) * | 2019-08-12 | 2019-12-20 | 北京三快在线科技有限公司 | 一种目标对象的标注方法和装置 |
CN110750965A (zh) * | 2019-09-16 | 2020-02-04 | 平安科技(深圳)有限公司 | 英文文本序列标注方法、系统及计算机设备 |
CN111598120A (zh) * | 2020-03-31 | 2020-08-28 | 宁波吉利汽车研究开发有限公司 | 数据标注方法、设备及装置 |
CN111488925A (zh) * | 2020-04-07 | 2020-08-04 | 北京百度网讯科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN111524503A (zh) * | 2020-04-15 | 2020-08-11 | 上海明略人工智能(集团)有限公司 | 音频数据的处理方法、装置、音频识别设备和存储介质 |
CN111695053A (zh) * | 2020-06-12 | 2020-09-22 | 上海智臻智能网络科技股份有限公司 | 序列标注方法、数据处理设备、可读存储介质 |
CN111754978A (zh) * | 2020-06-15 | 2020-10-09 | 北京百度网讯科技有限公司 | 韵律层级标注方法、装置、设备和存储介质 |
CN111860304A (zh) * | 2020-07-17 | 2020-10-30 | 北京百度网讯科技有限公司 | 一种图像标注方法、电子装置、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157170A (zh) * | 2021-03-25 | 2021-07-23 | 北京百度网讯科技有限公司 | 数据的标注方法和装置 |
CN113157170B (zh) * | 2021-03-25 | 2022-09-20 | 北京百度网讯科技有限公司 | 数据的标注方法和装置 |
CN113449142A (zh) * | 2021-06-30 | 2021-09-28 | 北京百度网讯科技有限公司 | 信息处理方法及装置、电子设备、存储介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
JP7309811B2 (ja) | 2023-07-18 |
EP3961433A2 (en) | 2022-03-02 |
KR20210125448A (ko) | 2021-10-18 |
JP2022091686A (ja) | 2022-06-21 |
EP3961433A3 (en) | 2022-03-30 |
US20220019592A1 (en) | 2022-01-20 |
CN112528610B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4053802A1 (en) | Video classification method and apparatus, device and storage medium | |
US11475588B2 (en) | Image processing method and device for processing image, server and storage medium | |
US20210374195A1 (en) | Information processing method, electronic device and storage medium | |
CN112528610B (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
JP2022185143A (ja) | テキスト検出方法、テキスト認識方法及び装置 | |
CN115099239A (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
CN114429633A (zh) | 文本识别方法、模型的训练方法、装置、电子设备及介质 | |
CN115358392A (zh) | 深度学习网络的训练方法、文本检测方法及装置 | |
CN113837194B (zh) | 图像处理方法、图像处理装置、电子设备以及存储介质 | |
CN113360693B (zh) | 确定图像标签的方法及其装置、电子设备以及存储介质 | |
EP3564833B1 (en) | Method and device for identifying main picture in web page | |
CN113360685A (zh) | 笔记内容处理方法、装置、设备和介质 | |
CN114880498B (zh) | 事件信息展示方法及装置、设备和介质 | |
CN115934928A (zh) | 一种信息抽取方法、装置、设备及存储介质 | |
CN113032251B (zh) | 应用程序服务质量的确定方法、设备和存储介质 | |
CN114187448A (zh) | 文档图像识别方法和装置、电子设备、计算机可读介质 | |
CN115116080A (zh) | 表格解析方法、装置、电子设备和存储介质 | |
CN114627343A (zh) | 深度学习模型的训练方法、图像处理方法、装置及设备 | |
CN113313196A (zh) | 标注数据处理方法、相关装置及计算机程序产品 | |
CN113742501A (zh) | 一种信息提取方法、装置、设备、及介质 | |
CN113961672A (zh) | 信息标注方法、装置、电子设备和存储介质 | |
CN110796137A (zh) | 一种识别图像的方法和装置 | |
CN114359904B (zh) | 图像识别方法、装置、电子设备以及存储介质 | |
CN113657230B (zh) | 训练新闻视频识别模型的方法、检测视频的方法及其装置 | |
CN113591972B (zh) | 图像处理方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |