CN115203472A - 一种基于数据标注的数据管理方法和系统 - Google Patents

一种基于数据标注的数据管理方法和系统 Download PDF

Info

Publication number
CN115203472A
CN115203472A CN202210892364.XA CN202210892364A CN115203472A CN 115203472 A CN115203472 A CN 115203472A CN 202210892364 A CN202210892364 A CN 202210892364A CN 115203472 A CN115203472 A CN 115203472A
Authority
CN
China
Prior art keywords
data
video
information
marked
personnel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210892364.XA
Other languages
English (en)
Inventor
刘凯
郑德欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiding Intelligent Technology Co ltd
Original Assignee
Shanghai Xiding Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xiding Intelligent Technology Co ltd filed Critical Shanghai Xiding Intelligent Technology Co ltd
Priority to CN202210892364.XA priority Critical patent/CN115203472A/zh
Publication of CN115203472A publication Critical patent/CN115203472A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于数据标注的数据管理方法,包括:发布视频数据采集任务,录入视频来源、视频中的行为内容和客观事物、发布人员和视频采集人员信息,并规定视频采集次数、操作要求、采集终端信息、数据背景信息;对采集的视频数据进行审核,删除无效的视频数据后,将有效的视频数据分为标注视频和测试视频,并将测试视频存储到数据库;对标注视频进行抽帧处理,得到待标注图像;根据视频中的行为内容和客观事物,对待标注图像进行标注得到已标注数据;对已标注数据进行验收,并对验收后的数据进行数据整合,将数据整合后的已验收数据存储到数据库;根据项目内容从已验收数据中选取训练数据并输入模型中进行训练,得到训练好的模型。

Description

一种基于数据标注的数据管理方法和系统
技术领域
本发明涉及数据标注技术领域,具体涉及一种基于数据标注的数据管理方法、系统、计算设备及存储介质。
背景技术
随着机器学习及人工智能的发展,数据标注已成为监督学习领域不可避免且需要耗费大量人力的工作,并且随着互联网技术的快速发展,数据网络平台的数据交互越来越多,进而导致处理数据的数据中心需要处理的数据量也越来越大。海量的数据大都以无标签的形式存在,而监督学习网络模型需要大量的标注好的数据作为训练样本,以便从中学习出有效的模型,从而对未知的样本进行预测。目前人工智能在教育行业可应用在教学、实验、考试、管理等教学流程的各个场景,其核心是算法和数据两个方面,而现有技术中无法对教育行业中的海量数据进行统一有效的标注。对于大量的教学资源数据,现有的数据管理方法中项目之间的数据流动性和使用灵活性较差,无法充分利用已有项目中的标注数据,大量的数据会导致管理混乱、资源利用率不高、占据存储空间较大、数据比例不协调等问题。
因此,需要提供一种基于数据标注的数据管理方法和系统,能够应用于需要大量数据支持的教学场景中,以解决数据管理混乱、资源利用率低、占用存储空间大、数据比例不协调、数据标注在项目周期中占比过多等问题。
发明内容
鉴于上述问题,本发明提出一种克服上述问题或者至少部分地解决上述问题的一种基于数据标注的数据管理方法、系统、计算设备及存储介质。
根据本发明的一个方面,提供一种基于数据标注的数据管理方法,在该方法中,首先发布视频数据采集任务,录入视频来源、视频中的行为内容和客观事物、发布人员信息和视频采集人员信息,并规定视频采集次数、操作要求、采集终端信息、数据背景信息,视频采集完成后通知发布人员;
对采集的视频数据进行审核,删除无效的视频数据后,将有效的视频数据分为标注视频和测试视频,并将测试视频存储到数据库;对所述标注视频进行抽帧处理,得到待标注图像;根据录入视频中的行为内容和客观事物,通过标注人员或者自动标注模块对待标注图像进行标注得到已标注数据;
对所述已标注数据进行验收,并对验收后的已标注数据进行数据整合,将数据整合后的已验收数据存储到数据库;根据项目内容从已验收数据中选取训练数据,将训练数据输入模型中进行训练,得到训练好的模型。
该方法能够对不同来源采集的视频数据进行抽帧、标注、验收和数据整合,每一个数据处理过程都可以继承上一个过程处理后的信息,最终得到已有项目的标注数据,对于新的项目可以直接根据项目所需的内容从已验收数据中选取所需的训练数据,提高新项目的开发效率。
可选地,在根据本发明的方法中,录入抽帧人员信息、标注负责人信息、算法负责人信息和预设的抽帧标准;将标注视频分配给不同的抽帧人员,并将数据的状态更新为抽帧中;基于所述预设的抽帧标准对标注视频进行抽帧,得到待标注图像,删除预定数量的完成抽帧后的标注视频,将数据的状态更新为抽帧结束,并将抽帧结束的信息发送给标注负责人和算法负责人。
通过对标注视频进行抽帧处理可以节省存储空间,可较长时间保留关键帧。通过逐步删除非关键帧,可以减少存储容量,有效延长视频数据的保存时间。
可选地,在根据本发明的方法中,录入标注人员信息,将数据的状态更新为标注中;将待标注图像中的行为内容继承标注视频的行为内容,将待标注图像中的客观事物继承标注视频的客观事物,将所述待标注图像分配给不同的标注人员或者自动标注模块进行标注得到已标注数据,并将数据的状态更新为标注结束,并通知标注负责人。
通过将待标注数据分配给不同的标注人员或系统自带的自动标注模块,标注人员返回该待标注数据的标签,可以低成本、高效率的获取标签数据。
可选地,在根据本发明的方法中,录入验收人员信息,将数据的状态更新为验收中;将已标注数据分配给不同的验收人员进行验收,验收过程中继承采集视频过程、抽帧过程、标注过程的信息,得到已验收数据;将数据的状态更新为验收结束,并将验收结束的信息发送给标注负责人和算法负责人,对不同批次标注的已验收数据根据行为内容、客观事物、标注内容分别存储;对已验收数据中的标签进行数据整合和标签分类,将多个不同存储位置的标签文件合并为一个标签文件。
可选地,在根据本发明的方法中,当同一标注目标标注不同的标签或者不同标注目标标注为同一标签时,向数据整合人员发出提示信息,由数据整合人员做出具体操作判断;对已验收数据的标签进行分类,将标签划分为客观标签和主观标签、单个标签和组合标签、行为内容标签、客观事物标签和遮盖部位标签。
可选地,在进行数据处理任务分配时,可以基于数据的状态,分配视频审核人员、抽帧人员、标注人员、验收人员、数据整合人员的数量。这样有利于提高数据管理的效率。
可选地,在根据本发明的方法中,根据项目所需的实验器材、标签、视频采集设备的视角,从已验收的数据中选取用于该项目的训练数据;将属于项目所需标签集合的数据作为正样本数据,将不属于项目所需标签集合的数据作为负样本数据,输入模型中进行训练,得到训练好的模型。
可选地,在根据本发明的方法中,为了实时显示数据流动中的数据信息,记录已标注数据中包含总的标注框数量、标签数量、单个标签的标注框数量、标签比例的标签信息以及包含标注次数、标注人员、标注质量、标注人员效率的标注信息以及包括中文名称、英文名称、示例图和标注要点的标签内容;响应于权限用户对数据的查看或导出请求,显示或导出数据信息、标签信息、标注信息、标签内容和测试结果,所述数据信息包括数据的数量、数据的来源、数据的状态、数据标注次数、数据使用次数、操作人员信息、负责人信息。
该方法可以使用户实时了解数据的状态,通过对已标注数据的标签进行数据整合,便于通过智能推荐算法或数据库索引标签查找项目所需的训练数据。
可选地,在根据本发明的方法中,选取项目所需的测试视频数据,将测试视频数据输入训练好的模型中进行测试,得到测试结果。
根据本发明的另一个方面,提供一种基于数据标注的数据管理系统,包括:采集模块,适于发布视频数据采集任务,录入视频来源、视频中的行为内容和客观事物、发布人员信息和视频采集人员信息,并规定视频采集次数、操作要求、采集终端信息、数据背景信息,视频采集完成后通知发布人员;审核模块,适于对采集的视频数据进行审核,删除无效的视频数据后,将有效的视频数据分为标注视频和测试视频,并将测试视频存储到数据库;抽帧模块,适于对所述标注视频进行抽帧处理,得到待标注图像;标注模块,适于根据录入视频中的行为内容和客观事物,通过标注人员或者自动标注模块对待标注图像进行标注得到已标注数据;验收模块,适于对所述已标注数据进行验收,并对验收后的已标注数据进行数据整合,将数据整合后的已验收数据存储到数据库;训练模块,适于根据项目内容从已验收数据中选取训练数据,将训练数据输入模型中进行训练,得到训练好的模型。
该数据管理系统可以从项目开发所需大量的标注数据出发,对数据的获取、流动、标注进行管理和统计,可以实现数据获取到模型训练、模型测试结果输出的一体化管理。
根据本发明的又一个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行上述基于数据标注的数据管理方法的指令。
根据本发明的又一个方面,提供一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得计算设备执行上述基于数据标注的数据管理方法。
根据本发明的方案,通过对从不同来源采集的视频数据进行审核、抽帧、标注、验收、整合等一体化管理,并将数据管理任务基于众包分配模式分配各不同的人员处理,在数据流动过程中使相关人员实时了解数据情况,及时对数据管理任务进行适应性调整,能够提高数据管理的效率;每一步数据处理过程都可以继承前序处理过程中的信息,能够提高数据的利用效率;通过对验收后的标注数据进行数据整合,可以规范标签内容,便于精简模型;对于新项目的实验内容、所需实验器材、视频采集的设备的拍摄角度等,可以从已有项目中的已验收数据中选取所需的数据,可以提高数据标注的效率,提高新项目的开发效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的基于数据标注的数据管理方法100的流程示意图;
图2示出了根据本发明一个实施例的计算设备200的结构图;
图3示出了根据本发明一个实施例基于数据标注的数据管理系统300的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
深度学习神经网络的训练需要大量数据支持,而大量的数据会导致管理混乱、资源利用率不高、占据存储空间和数据比例不协调等问题。为了实现数据采集到模型训练的一体化管理,提高数据流动性、数据标注效率和模型训练效果,对于新项目的开发,从已有数据中选取所需的数据提高项目开发效率,本发明提供了一种基于数据标注的数据管理方法,能够对数据进行标注、标签管理和统计,实现从数据获取到模型训练的一体化管理,提高项目开发效率,缩短项目开发周期。
图1示出了根据本发明一个实施例的基于数据标注的数据管理方法100的流程示意图。如图1所示,该方法始于步骤S110,发布视频数据采集任务,录入视频来源、视频中的行为内容和客观事物、发布人员信息和视频采集人员信息,并规定视频采集次数、操作要求、采集终端信息、数据背景信息,视频采集完成后通知发布人员。
任务发布人员可以向多个不同来源的终端发送视频数据采集指令,为了保证视频数据传输的安全性和保密性,可以对原始视频数据进行加密,视频数据的播放、标注和处理只有通过内部提供的数据管理平台才能进行,确保数据传输和存档中的保密性。获取加密后的视频数据后,将数据的状态设置为“待审核”,在获取视频数据的同时,录入视频来源信息、视频中的行为内容和客观事物、发布人员信息和视频采集人员信息。其中,视频数据是一组连续的图像序列,是随时间变化的图像流,所传递的信息远远大于文本或静态的图像。例如,在课堂上讲述实验操作过程时,用一段视频表现就远比课本中的文字或图像表现效果更直观。又例如,在中学理化生实验考试过程中通过摄像头实时采集学生实验操作视频数据,以便后续对实验操作数据进行智能评分。在本发明的一个实施例中,视频来源信息可以是实验的科目,如物理、化学、生物,终端设备的编号,例如学生操作实验台的终端设备的IP地址,终端设备的视角,例如视频采集设备的正面拍摄角度、侧面拍摄角度等,视频中的行为内容可以包括实验内容,例如生物实验、物理实验、化学实验,更具体的可以是某个实验的操作步骤,如测量、搅拌等,视频中的客观事物可以是不同的实验器材,如烧杯、试管、导线等,更具体的可以是试管尾部、试管开口处、液面高度等。在视频采集过程中可以规定视频采集的次数、采集终端的视角、清晰度信息、实验数据、考试数据等数据背景信息。
随后执行步骤S120,对采集的视频数据进行审核,删除无效的视频数据后,将有效的视频数据分为标注视频和测试视频,并将测试视频存储到数据库。在本发明的一个实施例中,为了保证获取的视频数据的有效性,需要对视频数据进行审核,将无效的视频数据删除。通过对原始视频数据进行审核,可以减少视频数据的数据量,去除模糊的或视角偏差的无效视频数据,将视频数据中存在的问题及时反馈给相关人员,能够及时调整视频采集设备的视角和清晰度。为了将视频数据用于智能评分算法等机器学习模型,需要将有效的视频数据划分为标注视频数据和测试视频数据,并将审核视频数据的过程中数据存在的问题反馈给相关人员,并将数据的状态更新为“审核结束”。例如当需要对视频中人脸进行识别时,不包含人脸的视频帧或者角度偏差大或模糊的视频帧可以被归为无效视频数据。例如当需要对视频中的实验操作步骤进行智能评分时,将不包含实验器材或实验操作动作的视频帧归为无效视频数据。
随后执行步骤S130,对标注视频进行抽帧处理,得到待标注图像。由于视频数据数据量较大,为了在减少数据量的同时,充分利用视频中的有效信息,可以对标注视频数据进行抽帧处理。其中,抽帧就是在标注视频数据中通过间隔一定帧抽取若干帧,模拟每隔一段时间拍摄一张照片并接合起来形成视频的过程。对历史数据进行抽帧可较长时间保留关键帧。先全量存储所有视频数据,当保存时间超过全量存储留存期后,逐步删除非关键帧,减少存储容量,有效延长视频信息的保存时间,抽帧之后画面清晰度不变。在本发明的一个实施例中,可以首先录入抽帧人员信息、标注负责人信息、算法负责人信息和预设的抽帧标准,然后将标注视频数据分配给不同的抽帧人员,并将数据的状态更新为“抽帧中”。接着,基于预设的抽帧标准对标注视频数据进行抽帧,得到待标注数据,其中抽帧标准可以是间隔一定帧抽取若干帧图像,例如可以根据实际需求每3秒抽一帧或每15秒抽一帧。抽取若干数量的帧图像之后,删除预定数量的标注视频数据,并将数据的状态更新为“抽帧结束”。最后将抽帧结束的消息发送给标注负责人和算法负责人。
接着执行步骤S140,根据录入视频中的行为内容和客观事物,通过标注人员或者自动标注模块对待标注图像进行标注得到已标注数据。
数据标注是人工智能的重要组成部分,为了实现高精度的视频分析,需要对大量数据进行标注,用于训练不同的模型算法。数据标注是为数据打上标签作为对应的标注信息,标签通常为该项数据的特征或属性,能够被用来了解数据。例如,可以为人脸标注性别、年龄等数据,也可对不同的人脸部位标注定位框,可以对实验器材进行标注,对实验操作步骤进行标注,对实验操作步骤的准确度标注评分或评语等。在本发明的一个实施例中,可以首先录入标注人员信息,并将数据的状态更新为“标注中”,然后,将待标注图像中的行为内容继承标注视频的行为内容,将待标注图像中的客观事物继承标注视频的客观事物,将所述待标注图像分配给不同的标注人员或者自动标注模块进行标注得到已标注数据,并将数据的状态更新为标注结束,并通知标注负责人。其中录入的行为内容可以包括实验操作具体操作步骤,如拿取、搅拌、连接等操作步骤)、录入的客观事物可以包括烧杯、试管、导线等实验器材、遮盖部位标签,例如需要遮盖的区域、点、直线、框、圆、折线、不规则图形等,对待标注图像中对应的部位进行覆盖,并将覆盖后的图像替代覆盖前的图像。在本发明的一个实施例中,可以先对待标注数据通过系统自带的自动标注模块进行自动标注,再对自动标注后的数据以及对应的标注结果进行人工复核,得到最终的标注结果。在数据标注的过程中,还可以记录已标注数据中包含总的注框数量、标签数量、单个标签的标注框数量、标签比例等的标签信息以及包含标注次数、标注人员、标注质量、标注人员效率等的标注信息以及包括中文名称、英文名称、示例图和标注要点的标签内容。本方案提供的数据管理平台提供数据显示、导出、上传等功能,响应于权限用户对数据的查看或导出请求,可以显示或导出数据信息、标签信息、标注信息、标签内容和测试结果,其中数据信息包括数据的数量、数据的来源、数据的状态、数据标注次数、数据使用次数、操作人员信息、负责人信息等。
随后执行步骤S150,对已标注数据进行验收,并将验收后的已标注数据进行数据整合,将数据整合后的已验收数据存储到数据库。在本发明的一个实施例中,首先录入验收人员信息,将数据的状态更新为“验收中”。然后,将已标注数据分配给不同的验收人员进行验收,验收过程中继承采集视频过程、抽帧过程、标注过程的信息,得到已验收数据;将数据的状态更新为验收结束,并将验收结束的信息发送给标注负责人和算法负责人,对不同批次标注的已验收数据根据行为内容、客观事物、标注内容分别存储;对已验收数据中的标签进行数据整合和标签分类,将多个不同存储位置的标签文件合并为一个标签文件。在本发明的一个实施例中,当同一标注目标标注不同的标签或者不同标注目标标注为同一标签时,向数据整合人员发出提示信息,由数据整合人员做出具体操作判断。例如,当同一烧杯中液体的颜色,有的标注人员标注为褐色,有的标注人员标注为紫色,可以对该标注信息进行备注,以便进一步确认该液体的颜色,对于同一个实验器材,有人标注为量杯,有的标注为烧杯,可以根据实验精度选择不同的标签,如果实验中需要对液体进行精确测量,可以将该实验器材标注为量杯,如果实验中无需对液体进行精确测量,可以将该实验器材标注为烧杯。为了便于查找新项目所需的标签,可以对已验收数据的标签进行分类,将标签划分为客观标签和主观标签、单个标签和组合标签、行为内容标签、客观事物标签和遮盖部位标签。
为了提高资源利用率和任务处理效率,本方案可以基于数据的状态,分配视频审核人员、抽帧人员、标注人员、验收人员、数据整合人员的数量。例如,当需要标注的数据较多时,需要增加标注人员的数量。合适的任务分配使得众包平台的资源得到有效使用。
随后执行步骤S160,根据项目内容从已验收数据中选取训练数据,将训练数据输入模型中进行训练,得到训练好的模型。
在本发明的一个实施例中,可以根据项目所需的实验器材、标签、视频采集设备的视角,从已验收的数据中选取用于该项目的训练数据;将属于项目所需标签集合的数据作为正样本数据,将不属于项目所需标签集合的数据作为负样本数据,输入模型中进行训练,得到训练好的模型。还可以通过数据库索引从数据库中选取项目所需的测试视频数据或者从推荐的项目所需的测试数据中选取所需的测试视频数据,将测试视频数据输入训练好的模型中进行测试,得到测试结果。
为了便于实时了解数据的情况,在上述数据管理方法中,还可以响应于用户对数据的查看或导出请求,显示或导出数据信息、标签信息、标注信息、标注文档和测试结果。其中,数据信息包括数据的数量、数据的来源、数据的状态、标注次数、使用次数、操作人员、负责人信息等,标签信息包括总的标注框数量、单个标签的标注框数量、标签数量和标签比例等,标注信息包括标注人员信息、标注质量、标注数量、标注人员效率等。
通过上述基于数据标注的数据管理方法,可以使相关人员实时了解数据情况,通过对获取的视频数据进行审核、抽帧、标注、验收等一体化管理,并将数据管理任务基于众包分配模式分配各不同的人员处理,在数据流动过程中使相关人员实时了解数据情况,及时对数据管理任务进行适应性调整,能够提高数据管理的效率;通过对已标注数据的标签进行数据整合,可以规范标签内容,便于精简模型;对于新加入的待标注数据可以基于已标注数据的标签内容进行推荐,可以提高数据标注的效率。
图2示出了根据本发明一个实施例的计算设备200的结构图。如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(µP)、微控制器(µC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。计算设备中的物理内存通常指的是易失性存储器RAM,磁盘中的数据需要加载至物理内存中才能够被处理器204读取。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。应用222实际上是多条程序指令,其用于指示处理器204执行相应的操作。在一些实施方式中,在一些实施方式中,应用222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。操作系统220例如可以是Linux、Windows等,其包括用于处理基本系统服务以及执行依赖于硬件的任务的程序指令。应用222包括用于实现各种用户期望的功能的程序指令,应用222例如可以是浏览器、即时通讯软件、软件开发工具(例如集成开发环境IDE、编译器等)等,但不限于此。当应用222被安装到计算设备200中时,可以向操作系统220添加驱动模块。
在计算设备200启动运行时,处理器204会从存储器206中读取操作系统220的程序指令并执行。应用222运行在操作系统220之上,利用操作系统220以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用222时,应用222会加载至存储器206中,处理器204从存储器206中读取并执行应用222的程序指令。
计算设备200还包括储存设备232,储存设备232包括可移除储存器236和不可移除储存器238,可移除储存器236和不可移除储存器238均与储存接口总线234连接。
计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备200还包括与总线/接口控制器230相连的储存接口总线234。储存接口总线234与储存设备232相连,储存设备232适于进行数据存储。示例的储存设备232可以包括可移除储存器236(例如CD、DVD、U盘、可移动硬盘等)和不可移除储存器238(例如硬盘驱动器HDD等)。在根据本发明的计算设备200中,应用222包括执行上述基于数据标注的数据管理方法100的多条程序指令。
图3示出了根据本发明一个实施例的基于数据标注的数据管理系统300的结构示意图。如图3所示,该系统300包括采集模块310、审核模块320、抽帧模块330、标注模块340、验收模块350、训练模块360。其中,采集模块310可以发布视频数据采集任务,录入视频来源、视频中的行为内容和客观事物、发布人员信息和视频采集人员信息,并规定视频采集次数、操作要求、采集终端信息、数据背景信息,视频采集完成后通知发布人员;审核模块320可以对采集的视频数据进行审核,删除无效的视频数据后,将有效的视频数据分为标注视频和测试视频,并将测试视频存储到数据库;抽帧模块330可以对所述标注视频进行抽帧处理,得到待标注图像;标注模块340可以根据录入视频中的行为内容和客观事物,通过标注人员或者自动标注模块对待标注图像进行标注得到已标注数据;验收模块350可以对所述已标注数据进行验收,并对验收后的已标注数据进行数据整合,将数据整合后的已验收数据存储到数据库;训练模块360可以根据项目内容从已验收数据中选取训练数据,将训练数据输入模型中进行训练,得到训练好的模型。
在本发明的一个实施例中,上述数据管理系统还可以包括账户管理模块和显示模块,账户管理模块用于管理抽帧人员、标注人员、验收人员、标注负责人、算法负责人等的用户对应的权限。显示模块可以响应于用户对数据的查看请求,显示或导出数据信息、标签信息、标注信息、标注文档和测试结果。其中,数据信息包括数据的数量、数据的来源、数据的状态、标注次数、使用次数、操作人员、负责人信息等,标签信息包括总的标注框数量、单个标签的标注框数量、标签数量和标签比例等,标注信息包括标注人员信息、标注质量、标注数量、标注人员效率等。
通过上述方案,通过对从不同来源采集的视频数据进行审核、抽帧、标注、验收、整合等一体化管理,并将数据管理任务基于众包分配模式分配各不同的人员处理,在数据流动过程中使相关人员实时了解数据情况,及时对数据管理任务进行适应性调整,能够提高数据管理的效率;每一步数据处理过程都可以继承前序处理过程中的信息,能够提高数据的利用效率;通过对验收后的标注数据进行数据整合,可以规范标签内容,便于精简模型;对于新项目的实验内容、所需实验器材、视频采集的设备的拍摄角度等,可以从已有项目中的已验收数据中选取所需的数据,可以提高数据标注的效率,提高新项目的开发效率。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实施例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种基于数据标注的数据管理方法,其特征在于,所述方法包括:
发布视频数据采集任务,录入视频来源、视频中的行为内容和客观事物、发布人员信息和视频采集人员信息,并规定视频采集次数、操作要求、采集终端信息、数据背景信息,视频采集完成后通知发布人员;
对采集的视频数据进行审核,删除无效的视频数据后,将有效的视频数据分为标注视频和测试视频,并将测试视频存储到数据库;
对所述标注视频进行抽帧处理,得到待标注图像;
根据录入视频中的行为内容和客观事物,通过标注人员或者自动标注模块对待标注图像进行标注得到已标注数据;
对所述已标注数据进行验收,并对验收后的已标注数据进行数据整合,将数据整合后的已验收数据存储到数据库;
根据项目内容从已验收数据中选取训练数据,将训练数据输入模型中进行训练,得到训练好的模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述标注视频进行抽帧处理,得到待标注图像的步骤包括:
录入抽帧人员信息、标注负责人信息、算法负责人信息和预设的抽帧标准;
将标注视频分配给不同的抽帧人员,并将数据的状态更新为抽帧中;
基于所述预设的抽帧标准对标注视频进行抽帧,得到待标注图像,删除抽帧完成后的标注视频,将数据的状态更新为抽帧结束,并将抽帧结束的信息发送给标注负责人和算法负责人。
3.根据权利要求2所述的方法,其特征在于,所述根据录入视频中的行为内容和客观事物,通过标注人员或者自动标注模块对待标注图像进行标注得到已标注数据的步骤包括:
录入标注人员信息,将数据的状态更新为标注中;
将待标注图像中的行为内容继承标注视频的行为内容,将待标注图像中的客观事物继承标注视频的客观事物,将所述待标注图像分配给不同的标注人员或者自动标注模块进行标注得到已标注数据,并将数据的状态更新为标注结束,并通知标注负责人。
4.根据权利要求3所述的方法,其特征在于,所述对所述已标注数据进行验收,并对验收后的已标注数据进行数据整合的步骤包括:
录入验收人员信息,将数据的状态更新为验收中;
将已标注数据分配给不同的验收人员进行验收,验收过程中继承采集视频过程、抽帧过程、标注过程的信息,得到已验收数据;
将数据的状态更新为验收结束,并将验收结束的信息发送给标注负责人和算法负责人,对不同批次标注的已验收数据根据行为内容、客观事物、标注内容分别存储;
对已验收数据中的标签进行数据整合和标签分类,将多个不同存储位置的标签文件合并为一个标签文件。
5.根据权利要求4所述的方法,其特征在于,所述对已验收数据中的标签进行数据整合和标签分类的步骤包括:
当同一标注目标标注不同的标签或者不同标注目标标注为同一标签时,向数据整合人员发出提示信息,由数据整合人员做出具体操作判断;
对已验收数据的标签进行分类,将标签划分为客观标签和主观标签、单个标签和组合标签、行为内容标签、客观事物标签和遮盖部位标签。
6.根据权利要求1-5任意一项中所述的方法,其特征在于,所述方法包括:
基于数据的状态,分配视频审核人员、抽帧人员、标注人员、验收人员、数据整合人员的数量。
7.根据权利要求1所述的方法,其特征在于,所述根据项目内容从已验收数据中选取训练数据,将训练数据输入模型中进行训练,得到训练好的模型的步骤包括:
根据项目所需的实验器材、标签、视频采集设备的视角,从已验收的数据中选取用于该项目的训练数据;
将属于项目所需标签集合的数据作为正样本数据,将不属于项目所需标签集合的数据作为负样本数据,输入模型中进行训练,得到训练好的模型。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
记录已标注数据的包含总的标注框数量、标签数量、单个标签的标注框数量、标签比例的标签信息以及包含标注次数、标注人员、标注质量、标注人员效率的标注信息以及包括中文名称、英文名称、示例图和标注要点的标签内容;
响应于权限用户对数据的查看或导出请求,显示或导出数据信息、标签信息、标注信息、标签内容和测试结果,所述数据信息包括数据的数量、数据的来源、数据的状态、数据标注次数、数据使用次数、操作人员信息、负责人信息。
9.根据权利要求1所述的方法,其特征在于,所述方法包括:
选取项目所需的测试视频数据,将测试视频数据输入训练好的模型中进行测试,得到测试结果。
10.一种基于数据标注的数据管理系统,其特征在于,所述系统包括:
采集模块,适于发布视频数据采集任务,录入视频来源、视频中的行为内容和客观事物、发布人员信息和视频采集人员信息,并规定视频采集次数、操作要求、采集终端信息、数据背景信息,视频采集完成后通知发布人员;
审核模块,适于对采集的视频数据进行审核,删除无效的视频数据后,将有效的视频数据分为标注视频和测试视频,并将测试视频存储到数据库;
抽帧模块,适于对所述标注视频进行抽帧处理,得到待标注图像;
标注模块,适于根据录入视频中的行为内容和客观事物,通过标注人员或者自动标注模块对待标注图像进行标注得到已标注数据;
验收模块,适于对所述已标注数据进行验收,并对验收后的已标注数据进行数据整合,将数据整合后的已验收数据存储到数据库;
训练模块,适于根据项目内容从已验收数据中选取训练数据,将训练数据输入模型中进行训练,得到训练好的模型。
CN202210892364.XA 2022-07-27 2022-07-27 一种基于数据标注的数据管理方法和系统 Pending CN115203472A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210892364.XA CN115203472A (zh) 2022-07-27 2022-07-27 一种基于数据标注的数据管理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210892364.XA CN115203472A (zh) 2022-07-27 2022-07-27 一种基于数据标注的数据管理方法和系统

Publications (1)

Publication Number Publication Date
CN115203472A true CN115203472A (zh) 2022-10-18

Family

ID=83583457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210892364.XA Pending CN115203472A (zh) 2022-07-27 2022-07-27 一种基于数据标注的数据管理方法和系统

Country Status (1)

Country Link
CN (1) CN115203472A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830518A (zh) * 2023-02-15 2023-03-21 南京瀚元科技有限公司 一种红外场景下电力巡检视频智能抽帧的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830518A (zh) * 2023-02-15 2023-03-21 南京瀚元科技有限公司 一种红外场景下电力巡检视频智能抽帧的方法

Similar Documents

Publication Publication Date Title
CN107239666B (zh) 一种对医疗影像数据进行脱敏处理的方法及系统
CN108416003B (zh) 一种图片分类方法和装置、终端、存储介质
Nelson et al. Five task clusters that enable efficient and effective digitization of biological collections
CN110443552B (zh) 一种产品主数据信息自动传输的方法及装置
CN109086814B (zh) 一种数据处理方法、装置及网络设备
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及系统
TW202009681A (zh) 樣本標註方法及裝置、損傷類別的識別方法及裝置
Chordia et al. Current status and future trends in telepathology and digital pathology
CN115758451A (zh) 基于人工智能的数据标注方法、装置、设备及存储介质
CN112331348A (zh) 集标注、数据、项目管理和无编程化建模的分析方法和系统
CN111709941A (zh) 一种面向病理图像的轻量级自动化深度学习系统及方法
CN115203472A (zh) 一种基于数据标注的数据管理方法和系统
CN113806170A (zh) 工程行业监理日志自动生成的方法、系统、介质及终端
CN114730486A (zh) 生成用于对象检测的训练数据
CN110851630A (zh) 一种深度学习标注样本的管理系统及方法
CN113779261B (zh) 知识图谱的质量评价方法、装置、计算机设备及存储介质
CN112839185B (zh) 用于处理图像的方法、装置、设备和介质
CN112364145A (zh) 一种工单处理方法、装置、电子设备及存储介质
EP3306540A1 (en) System and method for content affinity analytics
US20200233000A1 (en) Apparatus and Methods for Processing and Cataloging of Samples
CN112131379A (zh) 用于识别问题类别的方法、装置、电子设备及存储介质
CN111104894B (zh) 一种精子标注方法、装置、电子设备及存储介质
WO2023029436A1 (zh) 数据标注的方法、装置、设备和存储介质
CN115659182B (zh) 一种模型更新方法、装置及设备
CN116204670B (zh) 车辆目标检测数据的管理方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination