CN112732949B - 一种业务数据的标注方法、装置、计算机设备和存储介质 - Google Patents

一种业务数据的标注方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112732949B
CN112732949B CN202110069112.2A CN202110069112A CN112732949B CN 112732949 B CN112732949 B CN 112732949B CN 202110069112 A CN202110069112 A CN 202110069112A CN 112732949 B CN112732949 B CN 112732949B
Authority
CN
China
Prior art keywords
data
metadata
plug
service data
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110069112.2A
Other languages
English (en)
Other versions
CN112732949A (zh
Inventor
冯中俊
谭安林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Technology Co Ltd
Original Assignee
Guangzhou Huya Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Technology Co Ltd filed Critical Guangzhou Huya Technology Co Ltd
Priority to CN202110069112.2A priority Critical patent/CN112732949B/zh
Publication of CN112732949A publication Critical patent/CN112732949A/zh
Application granted granted Critical
Publication of CN112732949B publication Critical patent/CN112732949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种业务数据的标注方法、装置、计算机设备和存储介质,该方法包括:接收针对学习模型发送的数据标注请求,响应于数据标注请求,从数据库中依据元数据读取格式统一、且用于训练学习模型的业务数据,查找为学习模型配置的一个或多个插件,调用一个或多个插件对业务数据标注用于训练学习模型的目标标签,本实施例通过在同一个平台上提供存储业务数据、读取业务数据、标注业务数据的规范化流程,使得不同学习模型可以共用业务数据、共同标注,用户无需关心底层存储业务数据的形式,降低训练学习模型的成本,通过插件标注标签,实现了预标注,可以降低后续人工标注业务数据的工作量,降低人工标注业务数据的成本,从而提高了标注效率。

Description

一种业务数据的标注方法、装置、计算机设备和存储介质
技术领域
本发明实施例涉及数据学习的技术领域,尤其涉及一种业务数据的标注方法、装置、计算机设备和存储介质。
背景技术
在教育、医疗、无人驾驶、内容审核等应用场景中,往往使用不同类型学习模型进行辅助决策。
在同一个平台上,往往针对相同或相似的应用场景开发不同类型的学习模型,这些学习模型依赖大量的样本进行训练、以提高其性能,不同的学习模型所需的样本独立采集、并对其独立标注标签,因此,不同学习模型的训练过程存在较多的重复,导致训练效率较低。
发明内容
本发明实施例提出了一种业务数据的标注方法、装置、计算机设备和存储介质,以解决训练学习模型的效率较低的问题。
第一方面,本发明实施例提供了一种业务数据的标注方法,包括:
接收针对学习模型发送的数据标注请求;
响应于所述数据标注请求,从数据库中依据元数据读取格式统一、且用于训练所述学习模型的业务数据;
查找为所述学习模型配置的一个或多个插件;
调用一个或多个所述插件对所述业务数据标注用于训练所述学习模型的目标标签。
第二方面,本发明实施例还提供了一种业务数据的标注装置,包括:
数据标注请求接收模块,用于接收针对学习模型发送的数据标注请求;
业务数据读取模块,用于响应于所述数据标注请求,从数据库中依据元数据读取格式统一、且用于训练所述学习模型的业务数据;
插件查找模块,用于查找为所述学习模型配置的一个或多个插件;
目标标签标记模块,用于调用一个或多个所述插件对所述业务数据标注用于训练所述学习模型的目标标签。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的业务数据的标注方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方所述的业务数据的标注方法。
在本实施例中,接收针对学习模型发送的数据标注请求,响应于数据标注请求,从数据库中依据元数据读取格式统一、且用于训练学习模型的业务数据,查找为学习模型配置的一个或多个插件,调用一个或多个插件对业务数据标注用于训练学习模型的目标标签,本实施例通过在同一个平台上提供存储业务数据、读取业务数据、标注业务数据的规范化流程,使得不同学习模型可以共用业务数据、共同标注,用户无需关心底层存储业务数据的形式,降低训练学习模型的成本,通过插件标注标签,实现了预标注,可以降低后续人工标注业务数据的工作量,降低人工标注业务数据的成本,从而提高了标注效率。
附图说明
图1为本发明实施例一提供的一种业务数据的标注方法的流程图;
图2为本发明实施例一提供的一种非结构化数据管理系统的结构示意图;
图3是本发明实施例二提供的一种业务数据的标注方法的流程图;
图4为本发明实施例三提供的一种业务数据的标注装置的结构示意图;
图5为本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种业务数据的标注方法的流程图,本实施例可适用于统一管理业务数据、根据学习模型的需求对业务数据进行预的情况,该方法可以由业务数据的标注装置来执行,该业务数据的标注装置可以由软件和/或硬件实现,可配置在非结构化数据管理系统的计算机设备中,例如,服务器、工作站,等等,具体包括如下步骤:
步骤101、接收针对学习模型发送的数据标注请求。
非结构化数据管理系统可用于管理非结构化的业务数据,在非结构化数据管理系统的应用层中,向用户提供API(Application Programming Interface,应用程序接口),作为操作接口。
如图2所示,非结构化数据管理系统对接下游的外部应用平台(如标注平台(用于人工标注业务数据)、工程平台(用于训练学习模型)),用户可以调用该操作接口、针对所需的学习模型向非结构化数据管理系统发送数据标注请求,请求非结构化数据管理系统提供可用于学习模型的业务数据,并对该业务数据按照该学习模型的业务需求标注标签(Tag),以便于使用该业务数据与该标签对学习模型进行有监督的训练。
其中,学习模型可以基于机器学习的模型,例如,决策树模型、聚类模型、贝叶斯分类模型、支持向量机模型、EM(Expectation Maximization,期望最大化)模型、Adaboost模型等等,可应用于指纹识别、基于Haar的人脸检测、基于HoG特征的物体检测等业务场景。
学习模型也可以基于深度学习的模型,例如,CNN(Convolutional NeuralNetworks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络),等等,典型为LeNet、Alexnet、VGG、DRL、ResNet等等,可应用于无人驾驶汽车、预防性医疗保健、动作识别等业务场景。
此外,该学习模型可以为非结构化数据管理系统所在的平台内部的学习模型,也可以为第三方的学习模型,本实施例对此不加以限制。
步骤102、响应于数据标注请求,从数据库中依据元数据读取格式统一、且用于训练学习模型的业务数据。
在数据存储的环节中,在非结构化数据管理系统中设置有数据库,如分布式数据库,可统一存储格式统一的业务数据,因此,当业务数据被外部应用平台(如标注系统、人工智能平台等)使用时,无需重复下载和上传,大大提高了效率。
对于业务数据,可配置元数据(Metadata),元数据又称中介数据、中继数据,为描述业务数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
在本实施例中,每一条结构化的元数据会对应数据库中的非结构化数据(即业务数据局)本身,因此,下游应用平台将通过元数据可获取所需的非结构化数据(即业务数据局)。
响应用户的数据标注请求,通过元数据的指示,可从该数据库中依据元数据读取可用于训练该学习模型的业务数据。
在具体实现中,可从数据标注请求中读取用于筛选业务数据的条件,该条件与元数据的类型匹配,例如,时间、数据类型、从而从数据库中查找满足条件的元数据,从数据库中查找元数据指示的、格式统一的业务数据,以用于训练学习模型。
例如,通过技术标签来筛选人脸图像数据来研发图像内容理解领域的学习模型。
又例如,通过业务标签来筛选游戏直播场景的图像数据来研发游戏领域的学习模型。
如图2所示,在数据管理的环节中,元数据包括如下的至少一种:
1、技术元数据
技术元数据为与产生业务数据的技术属性相关的元数据,例如,数据类型(图像数据、视频数据、音频数据、文本数据等)、创建的时间、存储地址、失效的时间,等等。
2、业务元数据
业务元数据与业务数据所应用的业务场景相关的元数据。
进一步地,业务元数据包括模型标签、业务标签。
模型标签是指业务数据所带有的模型信息,来源于平台内部的学习模型回流的标签信息、第三方的学习模型回流的标签信息、第三方的数据集带有的标签信息、人工已标注的标签信息,等等,具体可以包括人脸检测、人体关键点,等等。
业务标签指的是业务数据所带有的业务相关的信息,例如,主播信息、开播信息,等等。
3、质量元数据
质量元数据与业务数据的数据质量相关的元数据,例如,清晰度、一批业务数据中的异常值比例、人工标注的业务数据的质检比例等,质量元数据有助于帮助工程人员筛选学习模型所需的业务数据。
4、管理元数据
管理元数据与管理业务数据相关的元数据,例如,负责人、创建者、安全等级,等等。
在本示例中,可从数据标注请求中读取当前用户的用户权限。
如图2所示,在数据应用的环节中,可筛选非结构化数据,即,从数据库中查找技术元数据、业务元数据、质量元数据中至少一者指示的、格式统一的业务数据。
完整的元数据将帮助提高业务数据的质量,以及为下游应用平台提供可被理解、更易用的业务数据。
若用户权限满足业务数据的管理元数据中的安全等级,则读取业务数据,以用于训练学习模型,从而提高业务数据的安全性。
步骤103、查找为学习模型配置的一个或多个插件。
在本实施例中,非结构化数据管理系统提供了开发插件的规范,插件为对训练指定的学习模型所需的业务数据标注部分或全部标签的功能的抽象。
在非结构化数据管理系统中设置有插件库,该插件库可用于存储该插件。
用户在按照该规范针对指定的学习模型开发标注业务数据的功能模块,以插件的形式注册到非结构化数据管理系统中,在注册成功时,该功能模块为合法的插件,可存储在插件库中,并建立该插件与指定的学习模型之间的关联关系(即该插件标注用于训练该学习模型的业务数据)。
在某些情况下,部分学习模型之间的功能较为接近,使得不同学习模型关联的标签相同或相似,针对此情况,为减少插件的开发工作量,本实施例可以复用在先注册的插件,建立该插件与学习模型之间的关联关系,此时,一个学习模型可以配置一个插件。
例如,学习模型A用于内容审核,可在视频数据中检测出现的动作、学习模型B用于内容推荐,可按照动作对视频数据进行分类,学习模型A关联的标签为动作,学习模型B关联的标签为动作,若学习模型A已配置插件I,插件I可对视频数据(业务数据)标注标签“动作”,则学习模型B可复用插件I。
若复用的插件无法完整标注标签,则针对复用插件无法标注的部分标签开发新的插件,并将新的插件注册到非结构化数据管理系统、存储在插件库中,建立该插件与学习模型之间的关联关系,此时,一个学习模型可以配置多个(即两个或两个以上)插件。
例如,学习模型C可用于在视频数据中检测跳舞这个目标动作、学习模型D可用于在视频数据中检测两个人跳舞这个目标动作,学习模型C关联的标签为跳舞,学习模型D关联的标签为两个人跳舞,两者均存在跳舞这个标签,若学习模型C已配置插件J,插件J可对视频数据(业务数据)标注标签“跳舞”,则学习模型D可复用插件K,在插件J的基础上开发插件K,插件K可对视频数据(业务数据)标注标签“两个人”。
当然,若当前的学习模型与在先任一学习模型之间的功能差距较大,使得不同学习模型关联的标签不同,无法复用在先注册的插件,此时,可为当前的学习模型开发新的插件,并将新的插件注册到非结构化数据管理系统、存储在插件库中,建立该插件与学习模型之间的关联关系,此时,一个学习模型可以配置一个插件。
在数据应用的环节中,在确定当前用户训练的学习模型时,可以在插件库中查找该学习模型关联的插件。
步骤104、调用一个或多个插件对业务数据标注用于训练学习模型的目标标签。
如图2所示,在数据应用的环节中,可将一个或多个插件加载至内存中等待调用,在调用某个插件时,将业务数据输入该插件中按照其功能进行处理,输出用于训练学习模型的标签,为便于区分,该标签记为目标标签。
对于一个插件的情况,调用该插件对业务数据标注相应的标签即可。
对于多个插件的情况,可将目标标签划分为多个子标签,每个子标签为每个插件所标记的标签,例如,学习模型D可用于在视频数据中检测两个人跳舞这个目标动作,目标标签为“两个人跳舞”,其关联插件J、插件K,插件J可对视频数据(业务数据)标注标签“跳舞”,插件K可对视频数据(业务数据)标注标签“两个人”,即子标签分别为“跳舞”、“两个人”。
此时,步骤104可以包括如下步骤:
步骤1041、确定多个插件之间的调用顺序。
针对多个插件的情况,插件之间可配置调用顺序,即调用插件对业务数据进行标注标签的顺序,对于标注的标签无关联时,该调用关系可以为同步调用(即并行调用),从而提高标注标签的效率,此时,业务数据标注的标签按照业务数据的ID进行汇总,对于标注的标签有关联或无关联时,均可以为异步调用(即串行调用),此时,同一个业务数据累积标签,本实施例对此不加以限制。
在本实施例中,该调用顺序的设置可以考虑如下两个因素:
一、标注操作的复杂度
标注操作可以指插件对业务数据标注标签的操作,其复杂度与占用的系统资源(Central Processing Unit,中央处理器)、内存等)、标注的耗时均正相关,即,标注操作的复杂度越高,占用的系统资源越多、标注的耗时越长,反之,标注操作的复杂度越低,占用的系统资源越少、标注的耗时越短。
针对该因素,可按照插件执行标注操作时的复杂度设置多个插件之间的调用顺序,其中,插件执行标注操作时的复杂度与插件的调用顺序正相关,即,标注标签的操作的复杂度越低,其越先调用,反之,标注标签的操作的复杂度越高,其越后调用,从而形成层级的标注标签的过程,在保持精确度的情况下,逐级减少标注的数据量,减少标注操作整体占用的系统资源,降低标注操作的耗时,从而提高标注操作的效率。
例如,学习模型D可用于在视频数据中检测两个人跳舞这个目标动作,其关联插件J、插件K,插件J可对视频数据(业务数据)标注标签“跳舞”,插件K可对视频数据(业务数据)标注标签“两个人”,由于标注标签“跳舞”包含动作识别、一般会对视频数据进行空间、时间的建模,而标注标签“两个人”包含人脸检测、一般检测人脸关键点即可,即动作识别的复杂度大于人脸检测的复杂度,因此,插件J与插件K之间的调用顺序为先调用插件K标注“两个人”、再调用插件J标注“跳舞”。
二、标注操作的依赖性
所谓依赖性,可以指某些插件的标注操作依赖其他插件标注的标签而实现,针对该因素,可按照插件执行标注操作时的依赖性设置多个插件之间的调用顺序,其中,调用顺序在后的插件依赖调用顺序在前的插件,即调用顺序在后的插件依赖调用顺序在前的插件所标注的标签进行标注,从而保证调用顺序在后的插件的标注操作可正常执行。
例如,学习模型E可用于在图像数据中识别人的表情,其关联插件M、插件N,插件M可对图像数据(业务数据)标注标签“人”,插件N可对图像数据(业务数据)标注标签“表情”,由于标注标签“人”包含人脸检测、一般为检测人脸关键点,而标注标签“表情”为在人脸关键点的基础上识别五官的状态、从而映射为表情,因此,插件N依赖于插件M,插件M与插件N之间的调用顺序为先调用插件M标注“人”(包含人脸关键点)、再调用插件N标注“表情”。
当然,上述确定调用顺序之间的方式只是作为示例,在实施本发明实施例时,可以根据实际情况设置其它确定调用顺序之间的方式,本发明实施例对此不加以限制。另外,除了上述确定调用顺序之间的方式外,本领域技术人员还可以根据实际需要采用其它确定调用顺序之间的方式,本发明实施例对此也不加以限制。
步骤1042、按照调用顺序依次调用多个插件对业务数据标注多个子标签,以组成用于训练学习模型的目标标签。
在本实施例中,可按照调用顺序依次调用每个插件对业务数据标注标签,记为子标签,这些子标签可组成用于训练学习模型的目标标签。
在具体实现中,从首个插件开始遍历,按照调用顺序确定在本次标注调用的插件,本次标注调用的插件初始为首个插件。
调用该插件对当前待标注的业务数据标注标签,为标语区分,该标签记为原始标签。
滤除原始标签并非子标签的业务数据、保留原始标签为子标签的业务数据。
例如,某个插件对视频数据(业务数据)标注动作,假设子标签为“跳舞”,而该插件标记的原始标签包括“静止”、“打篮球”、“踢足球”、“跳舞”等,则可以滤除原始标签为“静止”、“打篮球”、“踢足球”的业务数据,保留原始标签为“跳舞”的业务数据。
判断是否已完成调用所有插件。
若是,则确定本次标注剩余的业务数据已标注用于训练学习模型的目标标签。
若否,则返回执行按照调用顺序确定在本次标注调用的插件,即提取下一个插件继续进行对剩余的业务数据标注标签,直至所有插件均标注完标签,每次过滤部分业务数据,可以降低后续插件处理业务数据的数量,提高整体标注的效率。
在本实施例中,接收针对学习模型发送的数据标注请求,响应于数据标注请求,从数据库中依据元数据读取格式统一、且用于训练学习模型的业务数据,查找为学习模型配置的一个或多个插件,调用一个或多个插件对业务数据标注用于训练学习模型的目标标签,本实施例通过在同一个平台上提供存储业务数据、读取业务数据、标注业务数据的规范化流程,使得不同学习模型可以共用业务数据、共同标注,用户无需关心底层存储业务数据的形式,降低训练学习模型的成本,通过插件标注标签,实现了预标注,可以降低后续人工标注业务数据的工作量,降低人工标注业务数据的成本,从而提高了标注效率。
实施例二
图3为本发明实施例二提供的一种业务数据的标注方法的流程图,本实施例以前述实施例为基础,进一步增加采集业务数据、清洗业务数据、存储业务数据的操作,该方法具体包括如下步骤:
步骤301、从多个渠道采集业务数据。
如图2所示,在数据生产的环节中,非结构化数据管理系统可用于管理非结构化的业务数据,在非结构化数据管理系统的底层中,向用户提供了API接口,作为数据接口。
用户可以调用该数据接口、向非结构化数据管理系统发送数据存储请求,请求非结构化数据管理系统存储不同渠道(即不同来源)的业务数据,这些业务数据分布在非结构化数据管理系统外的存储系统中,且缺乏统一的格式、统一的元数据。
在一个示例中,该渠道为爬虫数据,即,使用爬虫客户端在网络中爬取指定网站的数据,作为业务数据。
在另一个示例中,该渠道为用户数据,即,用户通过客户端上传以不同方式采集的业务数据,例如,对图像数据(业务数据)进行缩放、裁剪、多次读写等方式变换的新的图像数据。
在又一个示例中,该渠道为平台数据,即,非结构化数据管理系统所在的平台提供的服务(如直播、短视频等)所生成的业务数据等等。
需要说明的是,在标注系统对业务数据标注标签之后形成新的业务数据,可以回流到数据清洗,以提高高价值的业务数据的利用率。
当然,上述渠道只是作为示例,在实施本发明实施例时,可以根据实际情况设置其它渠道,例如,公开的数据集,等等,本发明实施例对此不加以限制。另外,除了上述渠道外,本领域技术人员还可以根据实际需要采用其它渠道,本发明实施例对此也不加以限制。
步骤302、将业务数据整理为统一的格式及配置统一的元数据。
如图2所示,在数据汇聚的环节中,非结构化数据管理系统对不同渠道的业务数据进行清洗,滤除价值较低的业务数据,将价值较高的业务数据按照既定的格式沉淀下来,同时,在清洗的过程中,对其标记结构化的元数据,将业务数据变得可理解。
在具体实现中,非结构化数据管理系统可通过数据接口接收用户通过客户端发送的清洗指令,该清洗指令具有指定统一的字段,即用户按照指定业务数据中的某些字段符合统一的规范,从而保留指定字段的数据,形成统一的、结构化的业务数据。
因此,响应于清洗指令,提取字段所指示的业务数据、滤除除字段之外的业务数据,以及,对提取的业务数据分析属性,从而标记统一的元数据。
在具体实现中,元数据包括如下的至少一种:
技术元数据、业务元数据、质量元数据、管理元数据;
在标记元数据时,可以执行如下至少一种操作:
对产生业务数据的技术属性相关的业务数据标记技术元数据;
对与业务数据所应用的业务场景相关的业务数据标记业务元数据;
对与业务数据的数据质量相关的业务数据标记质量元数据;
对与管理业务数据相关的业务数据标记管理元数据。
示例性地,针对管理元数据,可识别业务数据的类型,若业务数据为直播数据,则查询主持业务数据的主播用户(以用户ID标识),并查询对该主播用户配置的主播等级,在管理元数据中设置与主播等级匹配的安全等级,一般情况下,安全等级与主播等级正相关,即主播等级越高,主播用户的重要性越高,则安全等级越高,反之,主播等级越低,主播用户的重要性越低,则安全等级越低,从而防止一些重要的主播用户的信息外泄,保证主播用户的信息安全。
步骤303、在数据库中存储业务数据与元数据。
如图2所示,在数据存储的环节中,若业务数据整理格式完成、配置元数据完成,则可以在非结构化数据管理系统的数据库中统一持久化存储业务数据与元数据,等待训练学习模型、批注标签时调用。
步骤304、接收针对学习模型发送的数据标注请求。
步骤305、响应于数据标注请求,从数据库中依据元数据读取格式统一、且用于训练学习模型的业务数据。
步骤306、查找为学习模型配置的一个或多个插件。
步骤307、调用一个或多个插件对业务数据标注用于训练学习模型的目标标签。
学习模型的研发离不开大量样本的供给,尤其对于在音视频领域存在大量应用场景的直播平台来说,如何更高效、低成本地为不同团队提供图像数据、视频数据、音频数据、文本数据等非结构化数据,已经成为了一个亟待解决的问题。
学习模型(尤其为音视频文本等领域的学习模型)研发的过程历经获取业务数据、清洗业务数据、标注业务数据、使用业务数据训练学习模型、使用业务数据测试学习模型、上线学习模型等环节。
上述环节中需求大量的非结构化数据,在实际生产中,面临着非结构化数据获取困难、存储成本高、传输不方便、标注成本高、管理混乱、使用难度大、复用率低等问题。
在学习模型的研发过程中,除了标注时投入大量人力资源,以及训练时投入大量的计算资源之外,非结构化数据本身的生产、存储、清洗、传输、应用等环节的管理是制约学习工程效率和效果的关键因素。
具体而言,目前在如下环节可能面临各种问题:
a.生产环节。
非结构化数据的生产或供给方式一般有两种,一是利用网络爬虫技术抓取外部公开的业务数据;二是来源于平台内部的业务所生成并沉淀下来的业务数据。
对于第一种方式,由用户利用本地个人服务器按需研发,效率低,成本高,而且往往由于缺乏专业的爬虫技能,无法抓取特定站点的业务数据。
对于第二种方式,用户往往并不熟悉平台内部的业务数据的处理逻辑和存储方式,需多方咨询,耗时耗力。
b.存储环节。
用户自行将获取的业务数据存放于本地服务器中,在标注或训练时再次上传,效率低,也不利于共享复用。
而由平台内部业务生成的业务数据暂存于多种类型的存储中,由于成本问题,会被不定期或定期清理,使得业务数据需要用时方知没有。
c.清洗环节。
获取业务数据后,对业务数据进行清洗后得到用户想要的数据。而对于内部的业务数据来说,由于用户并不熟悉或不理解业务数据的内容含意,使得清洗无从下手。
d.传输环节。
如上文所述,业务数据被用户存储于个人服务器或平台某存储中,而在实际使用时,将业务数据传输到特定的系统中,反复的上传下载使得学习工程效率变得非常低。
e.应用环节。
业务数据被使用才会产生价值,由于上述存在的各种问题,导致应用门槛过高,无法实现业务数据的所见即所得,限制了学习模型的研发效能。
f.管理环节。
对业务数据进行更好地管理是保证数据能够持续地高质量生产和被高效应用的关键,当前平台对非结构化数据的管理基本是空白的。
本实施例将提出一种系统化的解决方案,在非结构化数据的生产、存储、清洗、管理、应用等环节进行切入,其核心部分包含4个部分:数据汇聚、数据存储、数据管理、数据应用。外部相关联的部分主要是上游的数据生产的环节,以及下游的外部应用平台。由于业务数据得到了很好的管理,大量业务生产的非结构化数据不再是存储成本,而是可以随时转化为价值的数据资产。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三
图4为本发明实施例三提供的一种业务数据的标注装置的结构框图,具体可以包括如下模块:
数据标注请求接收模块401,用于接收针对学习模型发送的数据标注请求;
业务数据读取模块402,用于响应于所述数据标注请求,从数据库中依据元数据读取格式统一、且用于训练所述学习模型的业务数据;
插件查找模块403,用于查找为所述学习模型配置的一个或多个插件;
目标标签标记模块404,用于调用一个或多个所述插件对所述业务数据标注用于训练所述学习模型的目标标签。
在本发明的一个实施例中,所述业务数据读取模块402包括:
条件读取模块,用于从所述数据标注请求中读取用于筛选业务数据的条件;
元数据读取模块,用于从数据库中查找满足所述条件的元数据;
业务数据读取模块,用于从所述数据库中查找所述元数据指示的、格式统一的业务数据,以用于训练所述学习模型。
在本发明的一个实施例中,所述元数据包括如下的至少一种:
技术元数据、业务元数据、质量元数据、管理元数据;
其中,所述技术元数据为与产生所述业务数据的技术属性相关的元数据;
所述业务元数据与所述业务数据所应用的业务场景相关的元数据;
所述质量元数据与所述业务数据的数据质量相关的元数据;
所述管理元数据与管理所述业务数据相关的元数据。
在本发明的一个实施例中,所述业务数据读取模块402包括:
从所述数据标注请求中读取用户权限;
元数据指示模块,用于从所述数据库中查找所述技术元数据、所述业务元数据、所述质量元数据中至少一者指示的、格式统一的业务数据;
权限校验模块,用于若所述用户权限满足所述业务数据的所述管理元数据中的安全等级,则读取所述业务数据,以用于训练所述学习模型。
在本发明的一个实施例中,所述目标标签划分为多个子标签;所述目标标签标记模块404包括:
调用顺序确定模块,用于确定多个所述插件之间的调用顺序;
子标签标记模块,用于按照所述调用顺序依次调用多个所述插件对所述业务数据标注多个所述子标签,以组成用于训练所述学习模型的目标标签。
在本发明的一个实施例中,所述调用顺序确定模块包括:
复杂度设置模块,用于按照所述插件执行标注操作时的复杂度设置多个所述插件之间的调用顺序;
其中,所述插件执行标注操作时的复杂度与所述插件的调用顺序正相关;
和/或,
依赖性设置模块,用于按照所述插件执行标注操作时的依赖性设置多个所述插件之间的调用顺序;
其中,调用顺序在后的所述插件依赖调用顺序在前的所述插件。
在本发明的一个实施例中,所述子标签标记模块包括:
插件确定模块,用于按照所述调用顺序确定在本次标注调用的插件;
插件调用模块,用于调用所述插件对当前待标注的所述业务数据标注原始标签;
业务数据过滤模块,用于滤除所述原始标签并非所述子标签的所述业务数据、保留所述原始标签为所述子标签的所述业务数据;
插件判断模块,用于判断是否已完成调用所有所述插件;若是,则调用目标标签确定模块,若否,则返回调用所述插件确定模块;
目标标签确定模块,用于确定本次标注剩余的所述业务数据已标注用于训练所述学习模型的目标标签。
在本发明的一个实施例中,还包括:
业务数据采集模块,用于从多个渠道采集业务数据;
业务数据汇聚模块,用于将所述业务数据整理为统一的格式及配置统一的元数据;
业务数据存储模块,用于在数据库中存储所述业务数据与所述元数据。
在本发明的一个实施例中,所述业务数据汇聚模块包括:
清洗指令接收模块,用于接收清洗指令,所述清洗指令具有指定统一的字段;
业务数据清洗模块,用于响应于所述清洗指令,提取所述字段所指示的所述业务数据、滤除除所述字段之外的所述业务数据;
元数据标记模块,用于对所述业务数据标记统一的元数据。
在本发明的一个实施例中,所述元数据包括如下的至少一种:
技术元数据、业务元数据、质量元数据、管理元数据;
所述元数据标记模块包括:
技术元数据标记模块,用于对产生所述业务数据的技术属性相关的业务数据标记技术元数据;
业务元数据标记模块,用于对与所述业务数据所应用的业务场景相关的业务数,标记业务元数据;
质量元数据标记模块,用于对与所述业务数据的数据质量相关的业务数据标记质量元数据;
管理元数据标记模块,用于对与管理所述业务数据相关的业务数据标记管理元数据。
在本发明的一个实施例中,所述管理元数据标记模块包括:
主播用户查询模块,用于若所述业务数据为直播数据,则查询主持所述业务数据的主播用户;
主播等级查询模块,用于查询对所述主播用户配置的主播等级;
安全等级设置模块,用于在管理元数据中设置与所述主播等级匹配的安全等级。
本发明实施例所提供的业务数据的标注装置可执行本发明任意实施例所提供的业务数据的标注方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5为本发明实施例四提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的业务数据的标注方法。
实施例五
本发明实施例五还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述业务数据的标注方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (13)

1.一种业务数据的标注方法,其特征在于,包括:
接收针对学习模型发送的数据标注请求;
响应于所述数据标注请求,从数据库中依据元数据读取格式统一、且用于训练所述学习模型的业务数据;
查找为所述学习模型配置的一个或多个插件;
调用一个或多个所述插件对所述业务数据标注用于训练所述学习模型的目标标签;
所述目标标签划分为多个子标签;所述调用一个或多个所述插件对所述业务数据标注用于训练所述学习模型的目标标签,包括:
确定多个所述插件之间的调用顺序;
按照所述调用顺序依次调用多个所述插件对所述业务数据标注多个所述子标签,以组成用于训练所述学习模型的目标标签。
2.根据权利要求1所述的方法,其特征在于,所述响应于所述数据标注请求,从数据库中依据元数据读取格式统一、且用于训练所述学习模型的业务数据,包括:
从所述数据标注请求中读取用于筛选业务数据的条件;
从数据库中查找满足所述条件的元数据;
从所述数据库中查找所述元数据指示的、格式统一的业务数据,以用于训练所述学习模型。
3.根据权利要求2所述的方法,其特征在于,所述元数据包括如下的至少一种:
技术元数据、业务元数据、质量元数据、管理元数据;
其中,所述技术元数据为与产生所述业务数据的技术属性相关的元数据;
所述业务元数据与所述业务数据所应用的业务场景相关的元数据;
所述质量元数据与所述业务数据的数据质量相关的元数据;
所述管理元数据与管理所述业务数据相关的元数据。
4.根据权利要求3所述的方法,其特征在于,所述从所述数据库中查找所述元数据指示的、格式统一的业务数据,以用于训练所述学习模型,包括:
从所述数据标注请求中读取用户权限;
从所述数据库中查找所述技术元数据、所述业务元数据、所述质量元数据中至少一者指示的、格式统一的业务数据;
若所述用户权限满足所述业务数据的所述管理元数据中的安全等级,则读取所述业务数据,以用于训练所述学习模型。
5.根据权利要求1所述的方法,其特征在于,所述确定多个所述插件之间的调用顺序,包括:
按照所述插件执行标注操作时的复杂度设置多个所述插件之间的调用顺序;
其中,所述插件执行标注操作时的复杂度与所述插件的调用顺序正相关;
和/或,
按照所述插件执行标注操作时的依赖性设置多个所述插件之间的调用顺序;
其中,调用顺序在后的所述插件依赖调用顺序在前的所述插件。
6.根据权利要求1所述的方法,其特征在于,所述按照所述调用顺序依次调用多个所述插件对所述业务数据标注多个所述子标签,以组成用于训练所述学习模型的目标标签,包括:
按照所述调用顺序确定在本次标注调用的插件;
调用所述插件对当前待标注的所述业务数据标注原始标签;
滤除所述原始标签并非所述子标签的所述业务数据、保留所述原始标签为所述子标签的所述业务数据;
判断是否已完成调用所有所述插件;
若是,则确定本次标注剩余的所述业务数据已标注用于训练所述学习模型的目标标签;
若否,则返回执行所述按照所述调用顺序确定在本次标注调用的插件。
7.根据权利要求1-6任一项所述的方法,其特征在于,还包括:
从多个渠道采集业务数据;
将所述业务数据整理为统一的格式及配置统一的元数据;
在数据库中存储所述业务数据与所述元数据。
8.根据权利要求7所述的方法,其特征在于,所述将所述业务数据整理为统一的格式及配置统一的元数据,包括:
接收清洗指令,所述清洗指令具有指定统一的字段;
响应于所述清洗指令,提取所述字段所指示的所述业务数据、滤除除所述字段之外的所述业务数据;
对所述业务数据标记统一的元数据。
9.根据权利要求8所述的方法,其特征在于,所述元数据包括如下的至少一种:
技术元数据、业务元数据、质量元数据、管理元数据;
所述对所述业务数据标记统一的元数据,包括:
对产生所述业务数据的技术属性相关的业务数据标记技术元数据;
对与所述业务数据所应用的业务场景相关的业务数,标记业务元数据;
对与所述业务数据的数据质量相关的业务数据标记质量元数据;
对与管理所述业务数据相关的业务数据标记管理元数据。
10.根据权利要求9所述的方法,其特征在于,所述对与管理所述业务数据相关的业务数据标记管理元数据,包括:
若所述业务数据为直播数据,则查询主持所述业务数据的主播用户;
查询对所述主播用户配置的主播等级;
在管理元数据中设置与所述主播等级匹配的安全等级。
11.一种业务数据的标注装置,其特征在于,包括:
数据标注请求接收模块,用于接收针对学习模型发送的数据标注请求;
业务数据读取模块,用于响应于所述数据标注请求,从数据库中依据元数据读取格式统一、且用于训练所述学习模型的业务数据;
插件查找模块,用于查找为所述学习模型配置的一个或多个插件;
目标标签标记模块,用于调用一个或多个所述插件对所述业务数据标注用于训练所述学习模型的目标标签;
所述目标标签划分为多个子标签;
所述目标标签标记模块包括:
调用顺序确定模块,用于确定多个所述插件之间的调用顺序;
子标签标记模块,用于按照所述调用顺序依次调用多个所述插件对所述业务数据标注多个所述子标签,以组成用于训练所述学习模型的目标标签。
12.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一项所述的业务数据的标注方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-10中任一项所述的业务数据的标注方法。
CN202110069112.2A 2021-01-19 2021-01-19 一种业务数据的标注方法、装置、计算机设备和存储介质 Active CN112732949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110069112.2A CN112732949B (zh) 2021-01-19 2021-01-19 一种业务数据的标注方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110069112.2A CN112732949B (zh) 2021-01-19 2021-01-19 一种业务数据的标注方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112732949A CN112732949A (zh) 2021-04-30
CN112732949B true CN112732949B (zh) 2023-10-17

Family

ID=75592484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110069112.2A Active CN112732949B (zh) 2021-01-19 2021-01-19 一种业务数据的标注方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112732949B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312131B (zh) * 2021-06-11 2023-04-18 北京百度网讯科技有限公司 标注工具的生成、运行方法和装置
CN114363640B (zh) * 2022-01-05 2023-11-21 上海哔哩哔哩科技有限公司 数据存储方法、装置及系统
CN114491168B (zh) * 2022-01-27 2022-12-13 中国电力科学研究院有限公司 调控云样本数据共享方法、系统、计算机设备及存储介质
CN115099352A (zh) * 2022-07-05 2022-09-23 北京火山引擎科技有限公司 模型训练系统、模型训练方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180253735A1 (en) * 2017-03-06 2018-09-06 International Business Machines Corporation Program identifier response to unstructured input
CN111309995A (zh) * 2020-01-19 2020-06-19 北京市商汤科技开发有限公司 标注方法及装置、电子设备和存储介质
CN111414907A (zh) * 2020-03-12 2020-07-14 深圳中兴网信科技有限公司 数据集标注方法、数据集标注装置和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180253735A1 (en) * 2017-03-06 2018-09-06 International Business Machines Corporation Program identifier response to unstructured input
CN111309995A (zh) * 2020-01-19 2020-06-19 北京市商汤科技开发有限公司 标注方法及装置、电子设备和存储介质
CN111414907A (zh) * 2020-03-12 2020-07-14 深圳中兴网信科技有限公司 数据集标注方法、数据集标注装置和计算机可读存储介质

Also Published As

Publication number Publication date
CN112732949A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112732949B (zh) 一种业务数据的标注方法、装置、计算机设备和存储介质
CN111753198B (zh) 信息推荐方法和装置、以及电子设备和可读存储介质
US10970334B2 (en) Navigating video scenes using cognitive insights
US9778817B2 (en) Tagging of images based on social network tags or comments
US20200401621A1 (en) Cognitive video and audio search aggregation
US10878020B2 (en) Automated extraction tools and their use in social content tagging systems
US11615250B2 (en) Information handling system and method for automatically generating a meeting summary
CN111860377A (zh) 基于人工智能的直播方法、装置、电子设备及存储介质
CN111507405A (zh) 图片标注方法、装置、电子设备及计算机可读存储介质
WO2024120245A1 (zh) 视频信息摘要生成方法、装置、存储介质及计算机设备
CN116863116A (zh) 基于人工智能的图像识别方法、装置、设备及介质
US11804245B2 (en) Video data size reduction
CN116978028A (zh) 视频处理方法、装置、电子设备及存储介质
US11714637B1 (en) User support content generation
CN111078984B (zh) 网络模型发布方法、装置、计算机设备和存储介质
CN112417259A (zh) 媒体资源的处理方法、装置、设备及存储介质
US11657216B2 (en) Input text management
CN113706209B (zh) 运营数据处理方法及相关装置
US11275716B2 (en) Cognitive disparate log association
US20190012360A1 (en) Searching and tagging media storage with a knowledge database
US20230214357A1 (en) Context aware file naming conventions
KR102023687B1 (ko) 서버의 이미지 공유 방법, 그리고 이를 구현한 시스템 및 어플리케이션
Minev Amplifying Human Content Expertise with Real-World Machine-Learning Workflows
KR101866634B1 (ko) 사물인터넷을 이용한 지능형 스마트 에이징 서비스 시스템 및 방법
Lebib et al. Knowledge Discovery from Log Data Analysis in a Multi-source Search System based on Deep Cleaning.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant