CN111143724B - 一种数据处理方法、装置、设备及介质 - Google Patents

一种数据处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN111143724B
CN111143724B CN201911400060.1A CN201911400060A CN111143724B CN 111143724 B CN111143724 B CN 111143724B CN 201911400060 A CN201911400060 A CN 201911400060A CN 111143724 B CN111143724 B CN 111143724B
Authority
CN
China
Prior art keywords
data
media
link
labeling
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911400060.1A
Other languages
English (en)
Other versions
CN111143724A (zh
Inventor
朱沐勋
卢江虎
刘振强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Baiguoyuan Information Technology Co Ltd
Original Assignee
Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baiguoyuan Information Technology Co Ltd filed Critical Guangzhou Baiguoyuan Information Technology Co Ltd
Priority to CN201911400060.1A priority Critical patent/CN111143724B/zh
Publication of CN111143724A publication Critical patent/CN111143724A/zh
Application granted granted Critical
Publication of CN111143724B publication Critical patent/CN111143724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种数据处理方法、装置、设备及介质,涉及数据处理技术领域,该方法包括:依据数据库查询语句获取链接数据,所述数据库查询语句为依据业务需求确定的;依据所述链接数据生成媒体链接列表信息;依据所述媒体链接列表信息确定待标注任务对应的媒体链接数据;基于所述待标注任务获取所述媒体链接数据对应的审核主题数据;依据所述审核主题数据对应的选择操作,确定媒体数据的标注结果,所述标注结果用于训练所述媒体数据对应的审核模型。本发明实现了标注数据的自动化提交,解决了现有技术中因人工误操作引入误差的问题,减少算法人员的工作负担,降低人工成本。

Description

一种数据处理方法、装置、设备及介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术
目前,诸如音视频社交类等应用程序中的图片、音视频的审核主要是依靠人工审核和人工智能机器审核。其中,对于人工智能机器审核而言,由于各个时间段内热点不同,违规图片、违规音频、违规视频的类型和方式可能会出现较大变化,由此导致的数据分布变化,会导致同样的审核模型在不同时间段的表现出现较大的波动。因此,需要根据新产生的数据,重新进行标注,并且需要根据重新标注后的数据离线训练新的审核模型,以及对新的模型进行评估并上线。
随着音视频社交类等应用程序的增多,相应的审核模型也逐渐增多,如色情违规审核模型、暴力血腥违规审核模型、涉政违规审核模型等违规审核模型逐渐增多,算法人员需要同时承担多个不同审核模型的标注数据提交,增加算法人员的工作负担。具体而言,现有各个审核模型均有自己的训练数据和测试数据,且通常按照自己的需求和设计分散存储各个位置中,即不同审核模型的训练数据和测试数据分散存储在不同的位置中,不利于数据维护;算法人员需要采用人工操作的方式,在不同存储位置来获取这些审核模型的训练数据和测试数据,并对获取到的这些测试数据和测试数据进行标注,操作繁琐。此外,采用人工操作方式可能会因误操作引入误差,影响审核模型的审核结果的准确性。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法、装置、设备及介质,以实现标注数据的自动化提交,解决了现有技术中因人工误操作引入误差的问题,减少算法人员的工作负担,降低人工成本。
第一方面,本发明实施例提供了一种数据处理方法,包括:
依据数据库查询语句获取链接数据,所述数据库查询语句为依据业务需求确定的;
依据所述链接数据生成媒体链接列表信息;
依据所述媒体链接列表信息确定待标注任务对应的媒体链接数据;
基于所述待标注任务获取所述媒体链接数据对应的审核主题数据;
依据所述审核主题数据对应的选择操作,确定媒体数据的标注结果,所述标注结果用于训练所述媒体数据对应的审核模型。
第二方面,本发明实施例还提供了一种数据处理装置,包括:
链接数据获取模块,用于依据数据库查询语句获取链接数据,所述数据库查询语句为依据业务需求确定的;
媒体链接列表生成模块,用于依据所述链接数据生成媒体链接列表信息;
媒体链接数据确定模块,用于依据所述媒体链接列表信息确定待标注任务对应的媒体链接数据;
审核主题数据获取模块,用于基于所述待标注任务获取所述媒体链接数据对应的审核主题数据;
标注结果确定模块,用于依据所述审核主题数据对应的选择操作,确定媒体数据的标注结果,所述标注结果用于训练所述媒体数据对应的审核模型。
第三方面,本发明实施例还提供了一种设备,包括:处理器和存储器;所述存储器中存储有至少一条指令,所述指令由所述处理器执行,使得所述设备执行如第一方面所述的数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质中的指令由设备的处理器执行时,使得设备能够执行如第一方面所述的数据处理方法。
本发明实施例在依据数据库查询语句获取链接数据后,可以依据获取到的链接数据生成对应的媒体链接列表信息,以依据该媒体链接列表信息确定出待标注任务对应的媒体链接数据,实现了待标注数据的自动化提交,随后可基于待标注任务获取媒体链接数据对应的审核主题数据,以依据该审核主题数据对应的选择操作确定出媒体数据的标注结果,完成对媒体数据的标注,且该标注结果可用于训练媒体数据的审核模型,实现了审核模型的标注数据的自动化获取,减轻了算法人员的工作负担,使得算法人员可以从重复机械性工作中解脱出来,降低了人工成本,能够有效避免人工误操作引入误差而导致审核模型的审核结果准确性低的问题,提高审核模型的审核准确性。
附图说明
图1是本发明的一种数据处理方法实施例的步骤流程示意图;
图2是本发明一个可选示例中的媒体链接数据提交给标注系统的示意图;
图3是本发明一个可选实施例中的一种数据处理方法的步骤流程示意图;
图4是本发明另一个可选实施例中的一种数据处理方法的步骤流程示意图;
图5是本发明实施例中的一种数据处理装置实施例的结构方框示意图;
图6是本发明一个示例中的一种设备的结构方框示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构或组成。
现有人工智能内容审核主要由算法人员维护各自的审核模型,即需要算法人员手动进行标注数据提交,获取标注数据、训练模型,评估测试等一系列机械重复性工作,技术含量低,操作繁琐,增加了算法人员的工作负担。
为了减轻算法人员负担,本发明实施例关注算法本身,提出了一种数据处理方法,装置、设备机介质,自动化进行待标注数据的提交,有效地减少人工误操作引入的误差,以及降低人工成本。
参照图1,示出了本发明的一种数据处理方法实施例的步骤流程示意图,具体可以包括如下步骤:
步骤110,依据数据库查询语句获取链接数据,所述数据库查询语句为依据业务需求确定的。
为了获取数据,本实施例可以根据具体的业务需求生成数据库查询语句,以通过该数据库查询语句从数据库中获取相应的链接数据。例如,在音视频社交类应用程序的图片、视频内容审核过程中,可以将审核图片、视频内容的需求作为业务需求,并可根据审核图片、视频内容的业务需求生成对应的数据库查询语句,随后可根据生成的数据库查询相应图片、视频的链接数据。其中,链接数据可以表示媒体数据的链接,具体可以用于获取媒体数据,例如,链接数据可以是图片、音视频的统一资源定位符(Uniform ResourceLocator,URL),通过URL可以获取图片、音视频等。媒体数据可以包括以下至少一种:图片数据、视频数据和音频数据等,本实施例对此不作具体限制。
步骤120,依据所述链接数据生成媒体链接列表信息。
具体而言,本实施例在获取到链接数据后,可以根据获取到的链接数据产生相应的媒体链接列表信息,随后可以按照各个业务将媒体链接列表信息存储到约定的目录下面。该媒体链接列表信息可以表示依据链接数据产生的媒体链接列表,其在存储目录中的命名可以包含存储的起始时间和终止时间等,本实施例对此不作具体限制。
在实际处理中,本实施例中的媒体链接列表信息可以包含两个数据,一个是链接数据,另一个可以是该链接数据对应的媒体数据在磁盘上的绝对路径。可选的,媒体链接列表信息包含所述链接数据对应的媒体路径数据。进一步而言,上述依据所述链接数据生成媒体链接列表信息,具体可以包括:下载所述链接数据对应的媒体数据,并对下载到的媒体数据进行保存,得到媒体路径数据;依据所述媒体路径数据和所述链接数据生成所述媒体链接列表信息。其中,媒体路径数据可以表示媒体数据在磁盘上的绝对路径,如媒体数据在磁盘上的保存路径。
具体的,本实施例在获取到链接数据后,可以基于该链接数据,将链接数据将对应的媒体数据下载下来并保存,得到相应的媒体路径数据,随后可采用该媒体路径数据和链接数据生成相应的媒体链接列表。例如,在获取图片的URL以后,可以同步通过该URL将实际的图片数据下载下来进行保存,并将保存的路径添加到的URL列表中,形成媒体链接列表,使得媒体链接列表中的每一行都会有两个数据,一个是URL,另一个是该URL对应的图片数据在磁盘上的绝对路径。
步骤130,依据所述媒体链接列表信息确定待标注任务对应的媒体链接数据。
在实际处理中,本实施例可以通过脚本检测媒体链接列表信息,以确定有没有新的待标注数据出现。若有新的待标注数据出现,则可以将新的待标注数据对应的链接和/或保存路径作为待标注任务对应的媒体链接数据,并提交给标注系统提供的上传接口,使得标注系统可以依据该媒体链接数据为待标注数据分配对应的审核主题数据,即执行步骤140。
例如,如图2所示,可以通过一个脚本对存储系统中放置了媒体链接列表信息的文件夹进行扫描,并可以基于扫描到的媒体链接列表信息所携带的任务标签,确定该媒体链接列表信息中的各行链接数据和/或媒体路径数据对应的媒体数据是否为新任务对应的媒体数据。若媒体链接列表信息中某一行链接数据和/或媒体路径数据对应的媒体数据为新任务对应的媒体数据,则可以将该行链接数据和/或媒体路径数据确定为待标注任务对应的媒体链接数据,随后可通过上接口,将该媒体链接数据提交给标注系统。
在一种可选实施方式中,本发明实施例的链接列表信息可以携带有媒体数据对应的任务标签,该任务标签可以用于确定媒体数据所对应的任务是否为新的任务。进一步而言,上述依据所述媒体链接列表信息确定待标注任务对应的媒体数据,具体可以包括:分别依据所述媒体链接列表信息中各媒体数据对应的任务标签,确定各媒体数据的任务是否为待标注任务;若所述媒体数据的任务为待标注任务,则从所述媒体链接列表信息中提取所述媒体数据对应的媒体路径数据,并将提取到的媒体路径数据确定为所述待标注任务对应的媒体链接数据。其中,待标注任务可以表示新的标注任务;待标注任务对应的媒体链接数据可以用于获取新的待标注数据,如可以用于获取新的待标注任务所需要标注的图片数据、视频数据、音频数据等。若所述媒体数据的任务为历史标注任务,则可以确定该媒体数据为已经被标注的媒体数据,进而可以忽略该媒体数据对应的媒体链接数据,继续检测该媒体链接列表信息中的下一个媒体链接数据。
步骤140,基于所述待标注任务获取所述媒体链接数据对应的审核主题数据。
具体而言,本实施例在确定出待标注任务对应的媒体链接数据后,可以针对该待标注任务,从服务器中获取相应预设的审核主题数据,以作为媒体链接数据对应的审核主题数据,提供给审核人员,使得审核人员可以基于提供的审核主题数据提交对应的选择操作,完成数据标注。其中,选择操作可以包括用户选中审核主题数据中一个或多个标注标签的操作,如可以是用户在标注系统的显示页面上点击其所需要选择的标注标签的操作等,本实施例对此不作具体限制。审核主题数据可以表示审核主题(Topic),具体可以包含一个或多个标注标签,如可以包含一个队列kafka中的一个主题下的各个标注标签;各个标注标签可以用于对媒体数据进行标注,产生对应的标注结果。
在本发明的一个可选实施例中,上述基于所述待标注任务获取所述媒体链接数据对应的审核主题数据,具体可以包括:针对所述待标注任务,将所述媒体链接数据发送给标注系统;获取所述标注系统针对媒体链接数据反馈的审核主题数据。在实际处理中,标注系统可以给审核组中的审核人员提供一个审核Topic,该审核主题可以包括多个不同的标注标签。本实施例可以针对该待标注任务,将其对应的媒体链接数据插入到标注系统提供的接口,以将该媒体链接数据发送到标注系统中,从而可以获取到该标注系统针对该媒体链接数据反馈的审核主题数据,随后可以将该审核主题数据中所包含的待选择的标注标签显示在页面上,如显示在Web页面上,使得审核人员可以在该页面上提交选中某一个标注标签的选择操作,以完成对该媒体链接数据对应的媒体数据的标注。进一步的,本实施例在获取所述标注系统针对媒体链接数据反馈的审核主题数据之后,还可以包括:依据所述审核主题数据显示标注页面。该标注页面上可以显示该审核主题数据中所包含的各个标注标签,以供审核人员选择。
步骤150,依据所述审核主题数据对应的选择操作,确定媒体数据的标注结果,所述标注结果用于训练所述媒体数据对应的审核模型。
本实施例中,审核主题数据对应的选择操作可以包括针对该审核主题数据提交的各种操作,如可以是用户点击或选中该审核主题数据中某一个标注标签的操作等,具体可以用于确定选中的媒体标签,以完成对媒体数据的标注。
具体的,本实施例在接收到审核主题数据对应的选择操作后,可以基于该选择操作,确定出选中的标注标签,随后可将选中的标注标签作为媒体数据对应的标注结果,以完成对该媒体数据的标注,且该标注结果可以用于训练媒体数据对应的审核模型,避免了现有技术中需要算法人员承担不同审核模型的标注数据提交工作的麻烦,即简化用户操作,解决了现有技术中需要算法人员手动提交标注数据导致的操作繁琐的问题。
进一步而言,本实施例依据所述审核主题数据对应的选择操作,确定媒体数据的标注结果,具体可以包括:基于在所述标注页面接收到的选择操作,从所述标注页面的标注标签中提取选中标注标签,并基于选中标注标签确定所述媒体数据的标注结果。其中,标注页面可以包括至少一个标注标签,以供用户选择;媒体数据具体可以包括以下至少一种:图片数据、视频数据和音频数据等,本实施例对此不作具体限制。
可见,本发明实施例在依据数据库查询语句获取链接数据后,可以依据获取到的链接数据生成对应的媒体链接列表信息,以依据该媒体链接列表信息确定出待标注任务对应的媒体链接数据,实现了待标注数据的自动化提交,随后可基于待标注任务获取媒体链接数据对应的审核主题数据,以依据该审核主题数据对应的选择操作确定出媒体数据的标注结果,完成对媒体数据的标注,且该标注结果可用于训练媒体数据的审核模型,实现了审核模型的标注数据的自动化获取,减轻了算法人员的工作负担,使得算法人员可以从重复机械性工作中解脱出来,降低了人工成本,并且能够有效避免人工误操作引入误差而导致审核模型的审核结果准确性低的问题,提高审核模型的审核准确性。
在实际处理中,业务需求中所需要获取的媒体数据可能存储在不同数据库中,本实施例可以依据数据库查询语句可以从不同数据库中获取到业务需求所需要的媒体数据的链接数据,形成对应的媒体链接列表信息,以便后续可以依据该媒体链接列表信息从不同数据库获取业务需求所需要的媒体数据进行标注,解决了现有技术中不同媒体数据分散存储在不同位置导致数据维护不方便的问题。
可选的,上述依据数据库查询语句获取链接数据具体可以包括:依据所述数据库查询语句从数据库中获取所述业务需求对应的链接数据。具体而言,本实施例中的数据库查询语句可以是依据业务需求确定的,从而在数据获取时可以依据该数据库语句,从不同数据库中获取业务需求对应的链接数据,形成相应的媒体链接列表信息,解决了现有技术中需要算法人员在不同数据库中手动操作来查找业务需求所需要的媒体数据的麻烦,减轻算法人员的工作负担。
参照图3,示出了本发明的一种数据处理方法可选实施例的步骤流程示意图,具体可以包括如下步骤:
步骤310,依据数据库查询语句从数据库中获取业务需求对应的链接数据。
其中,数据库查询语句为依据业务需求确定的。
在具体实现中,诸如图片数据、视频数据、音频数据等媒体数据通常是存储在数据库中。本实施例可以根据具体的业务需求,如音视频审核业务需求、图片审核业务需求等,编写数据库查询语句SQL,以通过执行该数据库查询语句从数据库中获取到相应的数据,即获取业务需求所需要的媒体数据的链接数据,如获取图片、视频的URL。其中,音视频审核业务需求可以包含音频审核业务需求和/或视频审核业务需求等,如可以包含审核音频是否是违规音频,审核视频是否为违规视频等,本实施例对此不作具体限制。
步骤320,下载所述链接数据对应的媒体数据,并对下载到的媒体数据进行保存,得到媒体路径数据。
具体而言,本实施例在获取业务需求对应的链接数据后,可以同步将该链接数据对应的媒体数据下载来进行保存,随后可基于媒体数据的保存位置确定出对应的媒体路径数据,以依据该媒体路径数据和获取到的链接数据生成媒体链接列表信息,即执行步骤330。其中,媒体数据可以包括以下至少一种:图片数据、视频数据和音频数据等,本实施例对此不作具体限制。
步骤330,依据所述媒体路径数据和所述链接数据生成媒体链接列表信息。
例如,在获取图片的URL后,可以通过URL列表同步将URL实际对应的图片数据下载下来进行保存,并可基于该将图片数据保存的路径确定出对应的媒体路径数据。该媒体路径数据可以表示图片数据保存的路径。
步骤340,分别依据所述媒体链接列表信息中各媒体数据对应的任务标签,确定各媒体数据的任务是否为待标注任务。
本实施例中,链接列表信息可以携带有媒体数据对应的任务标签。
步骤350,从所述媒体链接列表信息中提取所述媒体数据对应的媒体路径数据,并将提取到的媒体路径数据确定为所述待标注任务对应的媒体链接数据。
具体的,本实施例可以检测媒体链接列表信息每一行链接数据和/或媒体路径数据所携带的任务标签,以确定每一行链接数据和/或媒体路径数据对应的媒体数据的任务是否为新任务。若某一行链接数据和/或媒体路径数据所携带的任务标签为新任务的任务标签,即在某一行链接数据和/或媒体路径数据对应的媒体数据的任务为新任务时,则可以确定该行链接数据和/或媒体路径数据对应的媒体数据为待标注数据,并可将该行链接数据和/或媒体路径数据对应的媒体数据的任务确定为待标注任务,随后可将该行的媒体路径数据从媒体链接列表信息中提取出来,以作为该待标注任务对应的媒体路径数据,然后执行步骤360。
可选的,当链接列表信息中某一行链接数据和/或媒体路径数据所携带的任务标签为历史任务的任务标签时,即在某一行链接数据和/或媒体路径数据对应的媒体数据的任务为历史任务,可以确定该行链接数据和/或媒体路径数据对应的媒体数据为已经标注好的媒体数据,进而可以忽略该行链接数据和/或媒体路径数据对应的媒体数据,继续检测该链接列表信息中下一行链接数据和/或媒体路径数据所携带的任务标签,以加快待标注数据的提交效率。
步骤360,针对所述待标注任务,将所述媒体链接数据发送给标注系统,以获取所述标注系统针对媒体链接数据反馈的审核主题数据。
步骤370,依据所述审核主题数据显示标注页面。
具体的,本实施例在将待标注任务对应的媒体链接数据发送给标注系统后,可以触发该标注系统为该媒体链接数据分配对应的审核主题数据。具体而言,标注系统在获取到待标注任务对应的媒体链接数据后,可以下载作为该媒体链接数据的媒体路径数据对应的媒体数据,并可针对该媒体数据获取对应预设的审核主题数据,以依据该媒体数据获取对应预设的审核主题数据显示标注页面,使得用户可以在该标注页面提交标注标签的选择操作,以完成媒体数据的标注。其中,所述标注页面可以包含至少一个标注标签。
例如,在标注系统给审核组提供一个审核主题,关于音视频社交类的媒体数据均可以在该审核主题的情况下,标注系统可以以生产者的形式将预先设置好的标注标签插入到服务器中,从而使得作为消费者的音视频社交类的应用程序可以通过发送媒体链接数据不断地从该标注系统的服务器中拉取审核主题下的标注标签,并显示媒体数据的标注页面上,以供用户选择。
步骤380,基于在所述标注页面接收到的选择操作,从所述标注页面的标注标签中提取选中标注标签,并基于选中标注标签确定所述媒体数据的标注结果。
具体的,本实施例在显示媒体数据的标注页面后,可以根据用户在该标注页面上提交的选择操作,确定其针对该媒体数据所需要选择的标注标签,即从标注页面的标注标签中提取选中标注标签,以根据选中标注标签生成该媒体数据的标注结果,完成媒体数据的标注。
在实际处理中,媒体数据的标注结果可以用于训练媒体数据的审核模型。具体而言,对于同一个标注任务而言,待标注的媒体数据的数量与标注结果的数量应该一致。本实施例在确定媒体数据的标注结果后,将标注结果的数量和需要标注的媒体数据的数量进行比对,以确定是否完成所有媒体数据的标注,并可在完成所有媒体数据的标注后基于媒体数据和媒体数据的标注结果自动生成审核模型训练和测试所需要的数据集,以采用自动生成的数据集进行模型训练和评估测试,从而实现了已标注数据提交、离线模型训练、测试等一系列工作自动化,进一步减轻算法人员工作负担,将其从重复机械性的工作解脱出来,能够避免现有技术中需要算法人员手动获取审核模型的标注数据的麻烦,以及能够减少由于人为操作所带来的误差,极大提高模型产出的效率和效果。
可选的,在上述实施例的基础上,本实施例在确定所述媒体数据的标注结果之后,如图4所示,还可以包括如下步骤:
步骤410,对所述标注结果进行统计,得到标注数量。
在实际处理中,可以将该媒体数据的标注结果存放在指定的标注结果目录中,如可以按照日期将媒体数据存放在标注结果文件中。本实施例可以通过对该标注结果目录进行扫描,确定存放在该标注结果目录中的标注结果的数量,即得到标注数量。标注数量可以表示标注结果的数量。
例如,可以预先设置的数据集脚本,以通过该数据集脚本分别扫描存放待标注数据的文件夹和标注结果的文件夹,得到各个任务的待标注媒体数据的数量和标注结果的数量。如果同一个任务的待标注数据的数量与标注结果的数量一致,则可以确定该任务标注以完成,可以使用该任务对应的标注结果进行模型训练,即执行步骤420。如果同一个任务的待标注数据的数量与标注结果的数量不一致,如在同一个任务的待标注数据的数量比标注结果的数量多时,则可以确定该任务的标注未完成,可以继续对该任务中待标注的媒体数据进行标注,以在完成任务标注后执行步骤420。
步骤420,当所述标注数量与待标注任务对应的待标注数量一致时,依据所述标注结果和所述标注结果对应的媒体数据确定训练数据集和基准数据集。
其中,待标注数量可以表示待标注的媒体数据的数量。本实施例在完成一个待标注任务的标注后,即完成一个任务的所有媒体数据的标注后,可以基于标注后得到的标注结果和标注结果对应的媒体数据,主动生成训练数据集和基准数据集。其中,训练数据集可以包括用于训练审核模型的数据,具体可以包括用于训练的媒体数据和媒体数据对应的标注结果等;基准数据即可以包括用于进行测试评估的数据,具体可以包括用于测试评估的媒体数据和用于测试评估的标注结果等。
进一步的,本实施例依据所述媒体链接数据和所述标注结果确定训练数据集和基准数据集,具体可以包括:将所述标注结果分为训练标注结果和基准标注结果;将所述训练标注结果和所述训练标注结果对应的媒体数据构成的数据集确定为训练数据集;将所述准标注结果和所述基准标注结果对应的媒体数据构成的数据集确定为基准数据集。其中,训练标注结果可以表示用于模型训练的标注结果,具体可以包括存放在训练数据集中的各个标注结果;基准标注结果可以表示用于测试评估的标注结果,具体可以包括存放在基准数据集中的各个标注结果。
例如,在完成一个任务的标注后,可以先对该任务的标注结果进行去重和乱序操作,随后可抽取该任务95%的标注结果作为训练数据集中的训练标注结果,将剩下的5%的标注结果作为基准(Benchmark)数据集中的基准标注结果,然后可采用训练标注结果和该训练标注结果对应的媒体数据构成训练数据集,以及采用基准标注结果和基准标注结果对应的媒体数据构成Benchmark数据集。
步骤430,依据所述训练数据集训练出所述媒体数据对应的审核模型。
具体而言,本实施例可以采用训练数据即中的训练标注结果和训练标注结果对应的媒体数据进行模型训练,得到用于审核媒体数据的模型,即训练出媒体数据对应的审核模型,以便后续可以使用该审核模型确定出输入到该审核模型的媒体数据的标注结果。
在实际处理中,可以基于不同时间确定出不同学习率,以按照学习率进行模型训练,使得模型在稍早的时候可以更新得相对比较激进,而晚些时候慢慢平缓下来,即审核模型在训练前期更新得比较快,而训练后期更新得比较慢,直到得到最佳的审核模型时,将这个最佳审核模型固化下来。可选的,本实施例依据所述训练数据集训练出所述媒体数据对应的审核模型,可以包括:基于获取到的系统时间确定模型学习率;按照所述模型学习率,采用所述训练数据集中的训练标注结果和所述训练标注结果对应的媒体数据进行模型训练,得到所述审核模型。其中,模型学习率可以表示训练过程中模型的更新速度。
作为本发明的一个示例,可以以天为单位,在一天的不同时间内给与不同的模型学习率,使得训练出的审核模型在稍早的时候更新的相对比较激进,而到晚些时候慢慢平缓下来。具体的,在模型训练阶段,可以通过程序代码获取当前的系统时间,以根据当前的系统数据确定出对应的模型学习率,并可按照确定出的模型学习率进行模型训练,即采用训练数据集中的训练标注结果和训练标注结果对应的媒体数据进行模型训练,直到模型收敛。可见,本示例可以根据系统时间调整模型学习效率,使得模型在稍早的时候更新得比较激进,即更新速度比较快,而晚些时候根据系统时间调低模型效率,使得模型更新速度慢慢平缓下来,直到模型在鞍点得到收敛。需要说明的是,在鞍点时,训练出的审核模型的损失函数值达到最小值。
此外,本示例在积累基准数据集后,可以通过自动化系统挑选出表现最佳的模型,以作为媒体数据对应的审核模型。具体的,在每个模型被训练出来后,可以通过预设的评估脚本自动地在基准数据即上评估该模型,并且可给出在每个基准数据上的模型表现,从而可以根据模型表现条形出最好的模型,然后与线上模型在最新的推送数据以及所有基准数据集上比较模型表现,最终可将这个最佳模型固化下来。如果需要发版,可以直接使用该模型去做测试,如做A/B测试(Abtest),本示例对此不作限制。
需要说明的是,在一个最佳的审核模型固化后,通过对基准数据集进行评估,即可得到审核模型的模型表现。由于最佳的审核模型已经固化,不再更新,可以根据该审核模型在最新的基准数据集上的表现,将数据图表化,即可以直观地了解线上数据的分布是否发送变化,从而可以确定新的最佳审核模型相对于旧的最佳审核模型及线上审核模型是否更好。
在实际处理中,由于在标注的时候或多或少会存在一些标注的误差,误差比较大的时候会严重干扰线上的模型训练和模型能力的评估。因此,本实施例媒体生成训练数据集和基准数据集后,可以使用最新训练出的审核模型对新的数据集(如基准数据集)进行评估,以将有问题的数据清洗掉,即执行步骤440。其中,最新训练出的审核模型可以是指使用训练数据集中的训练标注结果和该训练标注结果对应的媒体数据训练出的模型。
步骤440,依据审核模型和所述基准数据集进行数据清洗,得到数据清洗信息。
其中,数据清洗信息可以表示待清洗的数据,如可以包含标注有误的媒体数据和标注结果等,本实施例对此不作具体限制。具体而言,本实施例可以将基准数据集中的媒体数据输入到审核模型中进行审核、标注,随后可将该审核模型输出的标注结果与该媒体数据对应的基准标注结果进行比较。若审核模型输出的标注结果与媒体数据对应的基准标注结果一致,则可以确定该媒体数据标注正确,可以忽略该标注数据。若审核模型输出的标注结果与媒体数据对应的基准标注结果不一致,则可以将该媒体数据及其对应的基准标注结果、模型输出标注结果确定为待清洗信息。
进一步的,本实施例依据审核模型和所述基准数据集进行数据清洗,得到数据清洗信息,具体可以包括:将所述基准数据集中的每一基准媒体数据输入到的审核模型中,得到每一基准媒体数据对应的模型输出标注结果;当同一基准媒体数据对应的模型输出标注结果与所述基准标注结果不一致时,将所述基准媒体数据确定为待清洗数据,并基于所述待清洗数据确定数据清洗信息,其中,所述数据清洗信息可以包含所述待清洗数据对应的基准标注结果和/或模型输出标注结果,所述基准标注结果为所述基准媒体数据在所述基准数据集中对应的标注结果。基准媒体数据可以表示在基准数据集中的媒体数据。
具体而言,本实施例可以针对基准数据集中的每一媒体数据,判断模型输出标注结果是否与其在基准数据集中对应的基准标注结果是否一致;若模型输出标注结果与基准标注结果不一致,则可以确定该基准媒体数据有误,随后可以将该基准媒体数据确定为待清洗数据,并可将该基准媒体数据对应的基准标注结果和/或模型输出标注结果作为数据清洗信息,以及显示在用户页面,使得用户可以获取到该数据清洗信息,如可以在用户页面查看到该数据清洗信息中所包含的各个媒体数据以及各个媒体数据对应的基准标注结果和模型输出标注结果。
步骤450,依据所述数据清洗信息对应的用户操作,对所述媒体链接数据对应的标签结果进行更新。
其中,数据清洗信息对应的用户操作可以保证用户针对数据清洗信息提交的各种操作,如可以是用户针对该数据清洗信息中某一个媒体数据提交的删除操作;也可以是用户针对媒体数据提交的标注结果删除操作,以删除该媒体数据对应的模型输出标注结果和/或基准标注结果;还可以是用户针对媒体数据提交的标注结果选择操作,以选中该媒体数据对应的模型输出标注结果或基准标注结果,作为该媒体数据最终的标注结果等,本实施例对此不作具体限制。
具体的,本实施例在接收针对数据清洗信息提交的用户操作后,可以基于该用户操作确定出用户所需要选择或删除的标注结果,从而可以确定出媒体数据最终的标签结果,进而可以基于媒体数据最终的标注结果更新媒体链接数据对应的标签结果,实现了标注结果的更新,从而解决了标注系统标注媒体数据错误导致的问题,提高媒体数据的标注准确性。
综上,本实施例通过数据库查询语句获取业务需求相应的链接数据,并生成对应媒体链接列表信息,从而可以依据该媒体链接列表信息确定出待标注任务对应的媒体链接数据,实现了待标注数据的自动化提交,随后可基于待标注任务获取媒体链接数据对应的审核主题数据,以依据该审核主题数据对应的选择操作确定出媒体数据的标注结果,完成对媒体数据的标注,以及,依据媒体数据的标注结果进行模型训练,实现了标注数据的自动获取和模型离线自动化训练。
此外,本实施例可以利用训练好的审核模型对基准数据集中的数据进行评估,以将有问题的数据清洗掉,即采用最新训练出的审核模型进行数据清洗,从而可以减少标注错误带来的误差,实现了数据存储、模型训练、模型评估测试以及效果展示的自动化流转,极大地解放了算法人员,并提高模型产出的效率和效果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。
参照图5,示出了本发明实施例中的一种数据处理装置实施例的结构框图,该数据处理装置具体可以包括如下模块:
链接数据获取模块510,用于依据数据库查询语句获取链接数据,所述数据库查询语句为依据业务需求确定的;
媒体链接列表生成模块520,用于依据所述链接数据生成媒体链接列表信息;
媒体链接数据确定模块530,用于依据所述媒体链接列表信息确定待标注任务对应的媒体链接数据;
审核主题数据获取模块540,用于基于所述待标注任务获取所述媒体链接数据对应的审核主题数据;
标注结果确定模块550,用于依据所述审核主题数据对应的选择操作,确定媒体数据的标注结果,所述标注结果用于训练所述媒体数据对应的审核模型。
在上述实施例的基础上,可选的,链接数据获取模块510具体可以用于依据所述数据库查询语句从数据库中获取所述业务需求对应的链接数据。本实施例中的媒体链接列表信息可以包含所述链接数据对应的媒体路径数据;上述媒体链接列表生成模块520可以包括如下子模块:
下载子模块,用于下载所述链接数据对应的媒体数据,并对下载到的媒体数据进行保存,得到媒体路径数据;
列表生成子模块,用于依据所述媒体路径数据和所述链接数据生成所述媒体链接列表信息。
在本发明的一个可选实施例中,所述链接列表信息携带有媒体数据对应的任务标签,所述媒体链接数据确定模块530可以包括如下子模块:
待标注任务确定子模块,用于分别依据所述媒体链接列表信息中各媒体数据对应的任务标签,确定各媒体数据的任务是否为待标注任务;
媒体链接数据确定子模块,用于在所述媒体数据的任务为待标注任务时,从所述媒体链接列表信息中提取所述媒体数据对应的媒体路径数据,并将提取到的媒体路径数据确定为所述待标注任务对应的媒体链接数据。
本发明实施例中,可选的,审核主题数据获取模块540可以包括如下子模块:
数据发送子模块,用于针对所述待标注任务,将所述媒体链接数据发送给标注系统;
数据获取子模块,用于获取所述标注系统针对媒体链接数据反馈的审核主题数据。
在上述实施例的基础上,可选的,数据处理装置还可以包括:页面显示模块。该页面显示模块用于依据所述审核主题数据显示标注页面,如在数据获取子模块获取所述标注系统针对媒体链接数据反馈的审核主题数据之后,依据所述审核主题数据显示标注页面。其中,所述标注页面包含至少一个标注标签;
可选的,标注结果确定模块550可以包括如下子模块:
选中标注标签提取子模块,用于基于在所述标注页面接收到的选择操作,从所述标注页面的标注标签中提取选中标注标签;
标注结果确定子模块,用于基于选中标注标签确定所述媒体数据的标注结果,所述媒体数据包括以下至少一种:图片数据、视频数据和音频数据。
在上述实施例的基础上,可选的,数据处理装置还可以包括如下模块:标注结果统计模块、数据集确定模块、模型训练模块、数据清洗模块以及标签结果更新模块。
其中,标注结果统计模块,用于对所述标注结果进行统计,得到标注数量,如在标注结果确定模块550确定媒体数据的标注结果之后,对所述标注结果进行统计,得到标注数量;
数据集确定模块,用于在所述标注数量与所述待标注任务对应的待标注数量一致时,依据所述标注结果和所述标注结果对应的媒体数据确定训练数据集和基准数据集。
模型训练模块,用于依据所述训练数据集训练出所述媒体数据对应的审核模型;
数据清洗模块,用于依据所述审核模型和所述基准数据集进行数据清洗,得到数据清洗信息;
标签结果更新模块,用于依据所述数据清洗信息对应的用户操作,对所述媒体链接数据对应的标签结果进行更新。
可选的,所述模型训练模块可以包括如下子模块:
学习率确定子模块,用于基于获取到的系统时间确定模型学习率;
模型训练子模块,用于按照所述模型学习率,采用所述训练数据集中的训练标注结果和所述训练标注结果对应的媒体数据进行模型训练,得到所述审核模型。
可选的,所述数据清洗模块可以包括如下子模块:
输入子模块,用于将所述基准数据集中的每一基准媒体数据输入到的审核模型中,得到每一基准媒体数据对应的模型输出标注结果;
确定子模块,用于当同一基准媒体数据对应的模型输出标注结果与所述基准标注结果不一致时,将所述基准媒体数据确定为待清洗数据,并基于所述待清洗数据确定数据清洗信息,其中,所述数据清洗信息包含所述待清洗数据对应的基准标注结果和/或模型输出标注结果,所述基准标注结果为所述基准媒体数据在所述基准数据集中对应的标注结果。
可选的,数据集确定模块可以包括如下子模块:
结果区分子模块,用于将所述标注结果分为训练标注结果和基准标注结果;
训练集确定子模块,用于将所述训练标注结果和所述训练标注结果对应的媒体数据构成的数据集确定为训练数据集;
基准集确定子模块,用于将所述准标注结果和所述基准标注结果对应的媒体数据构成的数据集确定为基准数据集。
需要说明的是,上述提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法,具备执行方法相应的功能和有益效果。
在具体实现中,上述数据处理装置可以集成在设备中。该设备可以是两个或多个物理实体构成,也可以是一个物理实体构成,如设备可以是个人计算机(PersonalComputer,PC)、电脑、手机、平板设备、个人数字助理、服务器、游戏控制台等,本实施例对此不作具体限制。
进一步的,本发明实施例还提供一种设备,包括:处理器和存储器。存储器中存储有至少一条指令,且指令由所述处理器执行,使得所述设备执行如上述方法实施例中所述的数据处理方法。
参照图6,示出了本发明一个示例中的一种设备的结构示意图。如图6所示,该设备具体可以包括:处理器60、存储器61、具有触摸功能的显示屏62、输入装置63、输出装置64以及通信装置65。该设备中处理器60的数量可以是一个或者多个,图6中以一个处理器60为例。该设备中存储器61的数量可以是一个或者多个,图6中以一个存储器61为例。该设备的处理器60、存储器61、显示屏62、输入装置63、输出装置64以及通信装置65可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器61作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明任意实施例所述的任务处理方法对应的程序指令/模块(例如,上述数据处理装置中的链接数据获取模块510、媒体链接列表生成模块520、媒体链接数据确定模块530、审核主题数据获取模块540以及标注结果确定模块550等)。存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器61可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器61可进一步包括相对于处理器60远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
显示屏62为具有触摸功能的显示屏62,其可以是电容屏、电磁屏或者红外屏。一般而言,显示屏62用于根据处理器60的指示显示数据,还用于接收作用于显示屏62的触摸操作,并将相应的信号发送至处理器60或其他装置。可选的,当显示屏62为红外屏时,其还包括红外触摸框,该红外触摸框设置在显示屏62的四周,其还可以用于接收红外信号,并将该红外信号发送至处理器60或者其他设备。
通信装置65,用于与其他设备建立通信连接,其可以是有线通信装置和/或无线通信装置。
输入装置63可用于接收输入的数字或者字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置64可以包括扬声器等音频设备。需要说明的是,输入装置63和输出装置64的具体组成可以根据实际情况设定。
处理器60通过运行存储在存储器61中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述数据处理方法。
具体的,实施例中,处理器60执行存储器61中存储的一个或多个程序时,具体实现如下操作:依据数据库查询语句获取链接数据,所述数据库查询语句为依据业务需求确定的;依据所述链接数据生成媒体链接列表信息;依据所述媒体链接列表信息确定待标注任务对应的媒体链接数据;基于所述待标注任务获取所述媒体链接数据对应的审核主题数据;依据所述审核主题数据对应的选择操作,确定媒体数据的标注结果,所述标注结果用于训练所述媒体数据对应的审核模型。
本发明实施例还提供一种计算机可读存储介质,所述存储介质中的指令由设备的处理器执行时,使得设备能够执行如上述方法实施例所述的数据处理方法。示例性的,该数据处理方法包括:依据数据库查询语句获取链接数据,所述数据库查询语句为依据业务需求确定的;依据所述链接数据生成媒体链接列表信息;依据所述媒体链接列表信息确定待标注任务对应的媒体链接数据;基于所述待标注任务获取所述媒体链接数据对应的审核主题数据;依据所述审核主题数据对应的选择操作,确定媒体数据的标注结果,所述标注结果用于训练所述媒体数据对应的审核模型。
需要说明的是,对于装置、设备、存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明任意实施例所述的数据处理方法。
值得注意的是,上述数据处理装置中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由权利要求范围决定。

Claims (12)

1.一种数据处理方法,其特征在于,包括:
依据数据库查询语句获取链接数据,所述数据库查询语句为依据业务需求确定的,所述链接数据为媒体数据的链接;
依据所述链接数据生成媒体链接列表信息;
依据所述媒体链接列表信息确定待标注任务对应的媒体链接数据;
基于所述待标注任务获取所述媒体链接数据对应的审核主题数据;
依据所述审核主题数据对应的选择操作,确定媒体数据的标注结果,所述标注结果用于训练所述媒体数据对应的审核模型。
2.根据权利要求1所述的数据处理方法,其特征在于,
所述依据数据库查询语句获取链接数据,包括:依据所述数据库查询语句从数据库中获取所述业务需求对应的链接数据;
所述依据所述链接数据生成媒体链接列表信息,包括:下载所述链接数据对应的媒体数据,并对下载到的媒体数据进行保存,得到媒体路径数据;依据所述媒体路径数据和所述链接数据生成所述媒体链接列表信息。
3.根据权利要求2所述的数据处理方法,其特征在于,所述链接列表信息携带有媒体数据对应的任务标签,所述依据所述媒体链接列表信息确定待标注任务对应的媒体链接数据,包括:
分别依据所述媒体链接列表信息中各媒体数据对应的任务标签,确定各媒体数据的任务是否为待标注任务;
若所述媒体数据的任务为待标注任务,则从所述媒体链接列表信息中提取所述媒体数据对应的媒体路径数据,并将提取到的媒体路径数据确定为所述待标注任务对应的媒体链接数据。
4.根据权利要求1至3任一所述的数据处理方法,其特征在于,基于所述待标注任务获取所述媒体链接数据对应的审核主题数据,包括:
针对所述待标注任务,将所述媒体链接数据发送给标注系统;
获取所述标注系统针对媒体链接数据反馈的审核主题数据。
5.根据权利要求4所述的数据处理方法,其特征在于,在获取所述标注系统针对媒体链接数据反馈的审核主题数据之后,还包括:
依据所述审核主题数据显示标注页面,所述标注页面包含至少一个标注标签;
其中,依据所述审核主题数据对应的选择操作,确定媒体数据的标注结果,包括:基于在所述标注页面接收到的选择操作,从所述标注页面的标注标签中提取选中标注标签,并基于选中标注标签确定所述媒体数据的标注结果,所述媒体数据包括以下至少一种:图片数据、视频数据和音频数据。
6.根据权利要求5所述的数据处理方法,其特征在于,在确定媒体数据的标注结果之后,还包括:
对所述标注结果进行统计,得到标注数量;
当所述标注数量与所述待标注任务对应的待标注数量一致时,依据所述标注结果和所述标注结果对应的媒体数据确定训练数据集和基准数据集;
依据所述训练数据集训练出所述媒体数据对应的审核模型;
依据所述审核模型和所述基准数据集进行数据清洗,得到数据清洗信息;
依据所述数据清洗信息对应的用户操作,对所述媒体链接数据对应的标签结果进行更新。
7.根据权利要求6所述的数据处理方法,其特征在于,所述依据所述训练数据集训练出所述媒体数据对应的审核模型,包括:
基于获取到的系统时间确定模型学习率;
按照所述模型学习率,采用所述训练数据集中的训练标注结果和所述训练标注结果对应的媒体数据进行模型训练,得到所述审核模型。
8.根据权利要求6所述的数据处理方法,其特征在于,所述依据所述审核模型和所述基准数据集进行数据清洗,得到数据清洗信息,包括:
将所述基准数据集中的每一基准媒体数据输入到的审核模型中,得到每一基准媒体数据对应的模型输出标注结果;
当同一基准媒体数据对应的模型输出标注结果与基准标注结果不一致时,将所述基准媒体数据确定为待清洗数据,并基于所述待清洗数据确定数据清洗信息,其中,所述数据清洗信息包含所述待清洗数据对应的基准标注结果和/或模型输出标注结果,所述基准标注结果为所述基准媒体数据在所述基准数据集中对应的标注结果。
9.根据权利要求6所述的数据处理方法,其特征在于,依据所述媒体链接数据和所述标注结果确定训练数据集和基准数据集,包括:
将所述标注结果分为训练标注结果和基准标注结果;
将所述训练标注结果和所述训练标注结果对应的媒体数据构成的数据集确定为训练数据集;
将所述准标注结果和所述基准标注结果对应的媒体数据构成的数据集确定为基准数据集。
10.一种数据处理装置,其特征在于,包括:
链接数据获取模块,用于依据数据库查询语句获取链接数据,所述数据库查询语句为依据业务需求确定的,所述链接数据为媒体数据的链接;
媒体链接列表生成模块,用于依据所述链接数据生成媒体链接列表信息;
媒体链接数据确定模块,用于依据所述媒体链接列表信息确定待标注任务对应的媒体链接数据;
审核主题数据获取模块,用于基于所述待标注任务获取所述媒体链接数据对应的审核主题数据;
标注结果确定模块,用于依据所述审核主题数据对应的选择操作,确定媒体数据的标注结果,所述标注结果用于训练所述媒体数据对应的审核模型。
11.一种数据处理设备,其特征在于,包括:处理器和存储器;
所述存储器中存储有至少一条指令,所述指令由所述处理器执行,使得所述设备执行如权利要求1至9任一所述的数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质中的指令由设备的处理器执行时,使得设备能够执行如权利要求1至9任一所述的数据处理方法。
CN201911400060.1A 2019-12-30 2019-12-30 一种数据处理方法、装置、设备及介质 Active CN111143724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911400060.1A CN111143724B (zh) 2019-12-30 2019-12-30 一种数据处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911400060.1A CN111143724B (zh) 2019-12-30 2019-12-30 一种数据处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111143724A CN111143724A (zh) 2020-05-12
CN111143724B true CN111143724B (zh) 2023-07-04

Family

ID=70522123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911400060.1A Active CN111143724B (zh) 2019-12-30 2019-12-30 一种数据处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111143724B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667834A (zh) * 2020-12-23 2021-04-16 深圳开立生物医疗科技股份有限公司 一种图像标注方法及相关装置
CN113434790B (zh) * 2021-06-16 2023-07-25 北京百度网讯科技有限公司 重复链接的识别方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960782A (zh) * 2018-07-10 2018-12-07 北京木瓜移动科技股份有限公司 内容审核方法以及装置
CN110149529A (zh) * 2018-11-01 2019-08-20 腾讯科技(深圳)有限公司 媒体信息的处理方法、服务器及存储介质
CN110457494A (zh) * 2019-08-01 2019-11-15 新华智云科技有限公司 数据标注方法、装置、电子设备及存储介质
CN110457475A (zh) * 2019-07-25 2019-11-15 阿里巴巴集团控股有限公司 一种用于文本分类体系构建和标注语料扩充的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960782A (zh) * 2018-07-10 2018-12-07 北京木瓜移动科技股份有限公司 内容审核方法以及装置
CN110149529A (zh) * 2018-11-01 2019-08-20 腾讯科技(深圳)有限公司 媒体信息的处理方法、服务器及存储介质
CN110457475A (zh) * 2019-07-25 2019-11-15 阿里巴巴集团控股有限公司 一种用于文本分类体系构建和标注语料扩充的方法和系统
CN110457494A (zh) * 2019-08-01 2019-11-15 新华智云科技有限公司 数据标注方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111143724A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN108628741B (zh) 网页页面测试方法、装置、电子设备和介质
US20210042170A9 (en) Automatic registration of empty pointers
WO2021088724A1 (zh) 一种测试方法及装置
CN109101425B (zh) 一种动态化的页面ab测试的指标埋点方法和装置
CN110851308A (zh) 一种测试方法、装置、电子设备及存储介质
CN104661093B (zh) 用于确定视频教程的更新的方法和系统
CN109284102B (zh) 信息采集方法及装置
CN105893259A (zh) 代码检测系统、方法及装置
CN106021449A (zh) 用于移动终端的搜索方法、装置以及移动终端
CN111143724B (zh) 一种数据处理方法、装置、设备及介质
CN110245069A (zh) 页面版本的测试方法和装置、页面的展示方法和装置
CN111782635B (zh) 数据处理方法和装置、存储介质和电子装置
CN110598095B (zh) 一种识别包含指定信息文章的方法、装置及存储介质
CN111949607B (zh) 一种udt文件的监控方法、系统和装置
CN103390067B (zh) 用于互联网实体分析的数据处理方法和装置
CN111352969B (zh) 一种埋点数据分析方法、装置及电子设备
CN109033188A (zh) 一种元数据采集方法、装置、服务器和计算机可读介质
CN114629929B (zh) 一种日志记录方法、装置及系统
CN109062799A (zh) 广告场景的回归测试方法、装置及系统
CN103475532A (zh) 硬件检测方法和系统
CN110460876A (zh) 直播日志的处理方法、装置及电子设备
CN116823464B (zh) 数据资产管理平台、电子设备及计算机可读存储介质
JP6295577B2 (ja) サーバ装置、プログラム、及び、情報提供方法
KR100835905B1 (ko) 웹사이트 방문자의 웹페이지 내부 클릭분포를 시각화하는장치 및 그를 이용하여 시각화하는 방법
CN112364185A (zh) 多媒体资源的特征确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant