CN110555117A - 一种数据处理方法、装置及电子设备 - Google Patents

一种数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN110555117A
CN110555117A CN201910852560.2A CN201910852560A CN110555117A CN 110555117 A CN110555117 A CN 110555117A CN 201910852560 A CN201910852560 A CN 201910852560A CN 110555117 A CN110555117 A CN 110555117A
Authority
CN
China
Prior art keywords
data
subdata
target
dimensions
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910852560.2A
Other languages
English (en)
Other versions
CN110555117B (zh
Inventor
张冠南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201910852560.2A priority Critical patent/CN110555117B/zh
Publication of CN110555117A publication Critical patent/CN110555117A/zh
Application granted granted Critical
Publication of CN110555117B publication Critical patent/CN110555117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置及电子设备,该方法包括:获取目标数据;获取目标数据在至少两个维度上的子数据;获取至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息;将目标子数据的标注信息设置为与目标子数据对应的其他维度上的子数据的标注信息。本申请可以经过一次标注得到多个具有标注的训练数据,这就极大提高了标注效率。

Description

一种数据处理方法、装置及电子设备
技术领域
本申请涉及机器学习技术领域,尤其涉及一种数据处理方法、装置及电子设备。
背景技术
在机器学习领域,为了让算法模型达到一定的准确率,需要大量标注好的训练数据,比如,人脸识别模型需要几十万张人脸图像。
对于训练数据,目前依靠人工分别对每条训练数据进行标注,而人工标注往往会使得标注效率较低。
因此,如何提高标注效率成为亟需解决的问题。
发明内容
有鉴于此,本申请提供如下技术方案:
一种数据处理方法,包括:
获取目标数据;
获取所述目标数据在至少两个维度上的子数据;
获取所述至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息;
将所述目标子数据的标注信息设置为与所述目标子数据对应的其他维度上的子数据的标注信息。
优选的,所述至少两个维度上的子数据是所述目标数据中具有相同数据属性的子数据。
优选的,所述获取所述目标数据在至少两个维度上的子数据,包括:
确定所述目标数据的数据特征;
基于所述数据特征确定所述目标数据的目标数据属性;
获取所述目标数据在所述目标数据属性上对应的在至少两个维度上的子数据。
优选的,所述数据特征包括音频特征,所述基于所述数据特征确定所述目标数据的目标数据属性,包括:
基于所述音频特征确定所述目标数据的时间属性。
优选的,所述基于所述音频特征确定所述目标数据的时间属性,包括:
利用第一音频特征预处理所述目标数据;
利用第二音频特征确定预处理后的所述目标数据的时间属性。
优选的,所述数据特征还包括字幕特征,还包括:
根据所述字幕特征修正所述时间属性。
优选的,还包括:
在所述目标子数据的标注信息中存在至少两种标注信息的情况下,确定目标标注信息。
优选的,还包括:
输出所述至少两个维度上的子数据的标注信息。
一种数据处理装置,包括:
数据获取模块,用于获取目标数据;
子数据获取模块,用于获取所述目标数据在至少两个维度上的子数据;
标注获取模块,用于获取所述至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息;
标注设置模块,用于将所述目标子数据的标注信息设置为与所述目标子数据对应的其他维度上的子数据的标注信息。
一种电子设备,包括:
存储器,用于存储应用程序及所述应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现功能:获取目标数据;获取所述目标数据在至少两个维度上的子数据;获取所述至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息;将所述目标子数据的标注信息设置为与所述目标子数据对应的其他维度上的子数据的标注信息。
经由上述的技术方案可知,本申请实施例提供了一种数据处理方法,通过获取目标数据在至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息,将目标子数据的标注信息设置为与目标子数据对应的其他维度上的子数据的标注信息。由此可见,本申请可以经过一次标注得到多个具有标注的训练数据,这就极大提高了标注效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一公开的一种数据处理方法的方法流程图;
图2为本申请实施例提供的子数据示例;
图3为本申请实施例提供的情绪标注界面;
图4为本申请实施例二公开的一种数据处理方法的方法流程图;
图5为本申请实施例提供的另一子数据示例;
图6为本申请实施例提供的再一子数据示例;
图7为本申请实施例三公开的一种数据处理方法的方法流程图;
图8为本申请实施例四公开的一种数据处理方法的方法流程图;
图9为本申请实施例五公开的一种数据处理方法的方法流程图;
图10为本申请实施例公开的一种数据处理装置的结构示意图;
图11为本申请实施例公开的一种数据处理方法的场景示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的一种数据处理方法,可以应用于用户侧的电子设备,比如智能手机、电脑和笔记本等终端。在本申请实施例中,电子设备具有网络页面浏览和交互功能,可以通过嵌入的客户端的功能组件,还可以通过web网页浏览器,本申请实施例对此不做限定。
本申请公开的一种数据处理方法实施例一中,如图1所示,该方法包括以下步骤:
步骤101:获取目标数据。
本申请实施例中,可以从指定的数据源处理获得目标数据。该目标数据可以是流媒体,还可以是其他多媒体,本申请实施例对此不做限定。
步骤102:获取目标数据在至少两个维度上的子数据。
本申请实施例中,可以利用web技术对目标数据进行数据分轨,从目标数据中提取至少两个维度上的子数据,该至少两个维度可以是视频、音频、字幕、单帧图像中的任意多种。当然,可以理解的是,上述仅为维度的举例,对于其他未列举到的维度,也在本申请的保护范围内。
图2为本申请实施例提供的子数据示例。参见图2,对一个媒体流做数据分轨获得视频、音频、字幕和单帧图像三个维度上的子数据。
步骤103:获取至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息。
本申请实施例中,用户侧的电子设备可以通过H5技术与用户进行交互,由用户对至少两个维度上的子数据中一个或多个维度上的目标子数据添加标注。比如情绪标注的场景下,添加诸如开心、愤怒、惊讶等情绪标注。
为方便理解,继续以图2所示的子数据进行说明:
用户侧的电子设备可以基于用户点播输出多媒体流,而在输出多媒体流的过程中,针对视频、音频、字幕和单帧图像四个维度中任意一个或多个维度上的子数据与用户进行交互。
参见图3所示的情绪标注界面。用户侧的电子设备针对视频维度的子数据与用户进行交互。用户侧的电子设备可以在视频显示界面的指定区域内显示针对视频维度的子数据中目标人物的多个待选择的情绪标注,由用户来选择目标人物的目标情绪标注,用户侧的电子设备通过响应用户的触控操作来确定用户的选择、并将目标情绪标注作为该视频维度的子数据的标注。
当然,用户在选择目标情绪标注时,由于多媒体流同时输出音频维度上的子数据和字幕维度上的子数据,因此用户在选择目标情绪标注时不但可以参考视频中人物的表情,还可以参考音频中人物的声音以及字幕中人物的语言。
步骤104:将目标子数据的标注信息设置为与目标子数据对应的其他维度上的子数据的标注信息。
为方便理解,继续以图2所示的子数据进行说明:
假设用户选择的目标人物的目标情绪标注为“惊讶”,则可以确定视频维度的子数据的标注信息为“惊讶”。此时,可以将音频、字幕和单帧图像三个维度上的子数据的标注信息也设置为“惊讶”。
本申请实施例提供的数据处理方法,可以应用在各类异构平台,例如windows、Linux、Android、Ios等等。在web网页浏览器或者客户端上,用户无感知的情况下,通过web技术下发算法和worker技术,在后台线程静默运行算法,只需用户在全过程中进行一次点击交互即可获得供人工智能训练用的各类训练数据。
本申请可以协助相关公司以趋近于零成本的方式,解决业内私有数据获取人力成本高的问题。流媒体提供商可以依托自己海量的用户点播,通过实施适当的激励措施,以微弱的虚拟激励政策,在极短的时间内获得海量昂贵的训练数据。
此外,由于一个目标子数据很可能被多个用户标注,也就是说,目标子数据的标注信息可以有多个,此时为了处理标注分歧,本申请实施例还可以在目标子数据的标注信息中存在至少两种标注信息的情况下,确定目标标注信息。
具体可以将目标子数据的标注信息上传至本地或者云端服务器,由服务器将其转发至管理侧的电子设备,由管理者确定最终的目标标注信息,具体可以从标注信息中确定一个目标标注信息,还可以重新设置一个与任何标注信息均不同的目标标注信息。进一步将该目标标注信息设置为与目标子数据对应的其他维度上的子数据的标注信息。
另外,用户侧的电子设备还可以输出至少两个维度上的子数据的标注信息。具体可以将至少两个维度上的子数据的标注信息发送至(本地和/或云端)服务器,由服务器持久化保存。而为了减少存储资源耗费量,用户侧的电子设备可以以文本格式将至少两个维度上的子数据的标签(比如子数据编号,再比如子数据对应的起止时间)和标注信息发送至服务器。
当然,为防止目标数据的处理任务被重复计算,可以通过服务器将至少两个维度上的子数据的标注信息同步给全网的其他用户,后续任何用户侧的电子设备均不再对目标数据做处理。
本申请实施例提供的数据处理方法,可以经过一次标注得到多个具有标注的训练数据,这就极大提高了标注效率。
作为至少两个维度上的子数据的一种实现方式,本申请实施例二公开了一种数据处理方法,如图4所示,该方法包括以下步骤:
步骤201:获取目标数据。
步骤202:获取目标数据在至少两个维度上的子数据,至少两个维度上的子数据是目标数据中具有相同数据属性的子数据。
本申请实施例中,目标数据在至少两个维度上的子数据具有同一数据属性,比如空间属性,再比如时间属性。
为方便理解,以下分别以空间属性和时间属性为例说明具有相同数据属性的子数据。
1)图5为本申请实施例提供的另一子数据示例。参见图5,一个媒体流进行数据分轨获得视频、音频、字幕和单帧图像四个维度上的作为数据片段的子数据。
视频维度上的子数据1-1、音频维度上的子数据2-1、字幕维度上的子数据3-1和单帧图像上的子数据4-1均属于空间场景1(比如建筑物a);视频维度上的子数据1-2、音频维度上的子数据2-2、字幕维度上的子数据3-2和单帧图像上的子数据4-2均属于空间场景2(比如建筑物b);视频维度上的子数据1-3、音频维度上的子数据2-3、字幕维度上的子数据3-3和单帧图像上的子数据4-3均属于空间场景3(比如建筑物c)。
因此,在按照空间属性划分时,将同属于空间场景1的子数据1-1、2-1、3-1和4-1作为第一组子数据,将同属于空间场景2的子数据1-2、2-2、3-2和4-2作为第二组子数据,将同属于空间场景3的子数据1-3、2-3、3-3和4-3作为第三组子数据。
2)图6为本申请实施例提供的再一子数据示例。参见图6,一个媒体流进行数据分轨获得视频、音频、字幕和单帧图像四个维度上的作为数据片段的子数据。
视频维度上的子数据A-1、音频维度上的子数据B-1、字幕维度上的子数据C-1和单帧图像上的子数据D-1均属于时间窗口1;视频维度上的子数据A-2、音频维度上的子数据B-2、字幕维度上的子数据C-2和单帧图像上的子数据D-2均属于时间窗口2;视频维度上的子数据A-3、音频维度上的子数据B-3、字幕维度上的子数据C-3和单帧图像上的子数据D-3均属于时间窗口3。
因此,在按照时间属性划分时,将同属于时间窗口1的子数据A-1、B-1、C-1和D-1作为第一组子数据,将同属于时间窗口2的子数据A-2、B-2、C-2和D-2作为第二组子数据,将同属于时间窗口3的子数据A-3、B-3、C-3和D-3作为第三组子数据。
步骤203:获取至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息。
为方便理解,继续以图6所示的子数据示例进行说明:
对于时间窗口1、时间窗口2和时间窗口3中的每个时间窗口来说,该时间窗口对应的一组子数据中一个或多个子数据需要首先被标注。比如对于时间窗口2来说,需要首先获得子数据A-2、B-2、C-2和D-2中的一个或多个子数据的标注信息。
步骤204:将目标子数据的标注信息设置为与目标子数据对应的其他维度上的子数据的标注信息。
为方便理解,继续以图6所示的子数据示例进行说明:
假设对于时间窗口2来说,做情绪标注时,子数据A-2的标注信息为“惊讶”,则子数据B-2、C-2和D-2的标注信息也分别设置为“惊讶”。
本申请实施例提供的数据处理方法,经过一次标注可以获得多个具有相同数据属性的具有标注的训练数据,在极大提高标注效率的基础上增加的场景适应性。
作为获取目标数据在至少两个维度上的子数据的一种实现方式,本申请实施例三公开了一种数据处理方法,如图7所示,该方法包括以下步骤:
步骤301:获取目标数据。
步骤302:确定目标数据的数据特征。
本申请实施例中,针对不同的标注场景设置不同的数据特征提取策略。比如对于空间属性,可以提取字幕特征,具体可以识别字幕流中用于标识空间场景的关键词;再比如对于时间属性,可以提取音频特征,具体可以识别音频流中标识时间窗口的子特征(频率、振幅和/或波形),还可以提取字幕特征,具体可以识别字幕流中的时间戳。
步骤303:基于数据特征确定目标数据的目标数据属性。
为方便理解,继续以空间属性和时间属性为例进行说明:
如果目标数据属性是空间属性,则可以基于字幕特征一个或多个空间场景。如果目标数据属性是时间属性,则可以基于音频特征和/或字幕特征确定一个或多个时间窗口。
步骤304:获取目标数据在目标数据属性上对应的在至少两个维度上的子数据。
步骤305:获取至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息。
步骤306:将目标子数据的标注信息设置为与目标子数据对应的其他维度上的子数据的标注信息。
本申请实施例提供的数据处理方法,经过一次标注可以获得多个具有相同数据属性的具有标注的训练数据,在极大提高标注效率的基础上增加的场景适应性。
如果数据特征包括音频特征,作为基于数据特征确定目标数据的目标数据属性的一种实现方式,本申请实施例四公开了一种数据处理方法,如图8所示,该方法包括以下步骤:
步骤401:获取目标数据。
步骤402:确定目标数据的数据特征。
步骤403:基于音频特征确定目标数据的时间属性。
本申请实施例中,音频特征包括频率、振幅和波形,其中频率表征音调、振幅表征响度、波形则表征音色。而在确定时间属性的过程中,可以基于预先设置的标注场景条件确定目标数据的至少一个时间窗口。
比如,一个标注场景是对目标人物做标注,可以根据目标人物的音色确定媒体流中目标人物出现的每个时间窗口,具体可以将音频流中波形与目标人物的波形相匹配的一个时间窗口作为媒体流的一个时间窗口。
再比如,另一个标注场景是目标性别做标注,可以根据目标性别的音调确定媒体流中目标性别出现的每个时间窗口,具体可以将音频流中频率与目标性别的频率相匹配的一个时间窗口作为媒体流的一个时间窗口。
再比如,再一个标注场景是对对话做标注,可以根据响度确定媒体流中每个对话的时间窗口,具体可以将音频流中振幅与对话的振幅相匹配的一个时间窗口作为媒体流的一个时间窗口。
步骤404:获取目标数据在时间属性上对应的在至少两个维度上的子数据。
步骤405:获取至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息。
步骤406:将目标子数据的标注信息设置为与目标子数据对应的其他维度上的子数据的标注信息。
本申请实施例提供的数据处理方法,经过一次标注可以获得多个具有时间属性的具有标注的训练数据,在极大提高标注效率的基础上增加的场景适应性。
作为基于音频特征确定目标数据的时间属性的一种实现方式,本申请实施例五公开了一种数据处理方法,如图9所示,该方法包括以下步骤:
步骤501:获取目标数据。
步骤502:确定目标数据的数据特征。
步骤503:利用第一音频特征预处理目标数据。
本申请实施例中,针对不同的标注场景可以设置不同的预处理策略。比如,标注场景是对对话做标注时,可以根据人声音调所在的目标频段剔除媒体流中的非人声的媒体流,具体可以先确定音频流中频率不在目标频段的各个非人声的时间窗口,再将媒体流中与各个非人声的时间窗口对应的非人声的媒体流剔除。这就可以降低后续的数据处理量,减少资源开销。
步骤504:利用第二音频特征确定预处理后的目标数据的时间属性。
本申请实施例中,第一音频特征和第二音频特征可以完全相同,也可以完全不同,还可以部分相同。
继续以标注场景是对对话做标注为例进行说明:
在剔除非人声的媒体流后,可以根据响度确定媒体流中剩余的人声的媒体流片段中每个对话的对话窗口,具体可以将音频流中振幅接近零的位置确定为对话边界,两个对话边界或者一个对话边界与人声的媒体流片段的边界或者两个人声的媒体流片段的边界都可以构成一个时间窗口。
此外,为精度划分时间窗口,在数据特征还包括字幕特征的情况下,还可以根据字幕特征修正时间属性。
继续以标注场景是对对话做标注为例进行说明:
本申请实施例中,结合字幕与音频视频同步的特性,利用字幕流中对对话标注的时间戳,对音频特征确定的时间窗口进一步修正。
步骤505:获取目标数据在时间属性上对应的在至少两个维度上的子数据。
步骤506:获取至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息。
步骤507:将目标子数据的标注信息设置为与目标子数据对应的其他维度上的子数据的标注信息。
本申请实施例提供的数据处理方法,经过一次标注可以获得多个具有时间属性的具有标注的训练数据,在极大提高标注效率的基础上增加的场景适应性。
与上述数据处理方法相对应的,本申请实施例还公开一种数据处理装置,如图10所示,该装置包括:
数据获取模块10,用于获取目标数据。
子数据获取模块20,用于获取目标数据在至少两个维度上的子数据。
标注获取模块30,用于获取至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息。
标注设置模块40,用于将目标子数据的标注信息设置为与目标子数据对应的其他维度上的子数据的标注信息。
可选的,至少两个维度上的子数据是目标数据中具有相同数据属性的子数据。
可选的,子数据获取模块20获取目标数据在至少两个维度上的子数据,包括:
确定目标数据的数据特征;基于数据特征确定目标数据的目标数据属性;获取目标数据在目标数据属性上对应的在至少两个维度上的子数据。
可选的,数据特征包括音频特征,子数据获取模块20基于数据特征确定目标数据的目标数据属性,包括:
基于音频特征确定目标数据的时间属性。
可选的,子数据获取模块20基于音频特征确定目标数据的时间属性,包括:
利用第一音频特征预处理目标数据;利用第二音频特征确定预处理后的目标数据的时间属性。
可选的,数据特征还包括字幕特征,子数据获取模块20还用于:
根据字幕特征修正时间属性。
可选的,标注获取模块30还用于:
在目标子数据的标注信息中存在至少两种标注信息的情况下,确定目标标注信息。
可选的,标注设置模块40还用于:
输出至少两个维度上的子数据的标注信息。
本申请实施例提供的数据处理装置,可以经过一次标注得到多个具有标注的训练数据,这就极大提高了标注效率。
与上述数据处理方法相对应的,本申请实施例还公开一种电子设备,该电子设备包括:
存储器,用于存储应用程序及应用程序运行所产生的数据;
处理器,用于执行应用程序,以实现功能:获取目标数据;获取目标数据在至少两个维度上的子数据;获取至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息;将目标子数据的标注信息设置为与目标子数据对应的其他维度上的子数据的标注信息。
为方便理解,以下以流媒体的数据处理方案为例详细说明本申请:
在机器学习领域,例如计算机视觉,自然语言处理,为了让算法模型得到良好的训练达到一定的准确率,需要大量的标注好的训练数据。例如,人脸识别,需要几十万张人脸图像。训练数据的数量与质量,对人工智能,尤其是深度学习模型具有决定性的影响。
当前训练数据的标注主要靠人工劳动,业内相关公司投入巨大的开销在人力工时,授权费,或者设备运行成本上,训练数据对企业如同奢侈品。
针对以上行业痛点,我们提出了一种基于流媒体与web跨平台技术,通过1次标注,可以生成供人工智能训练用的视频数据、文本数据、语音数据与图片数据。通过该技术,流媒体提供商可以依托自己的海量用户点播,通过实施适当的激励措施,以微弱的开销,在极短时间内,获得海量昂贵的标注好的训练数据。
图11为本申请实施例公开的一种数据处理方法的场景示意图。参见图11,云端服务器中存储有海量的媒体流,可以提供基于web的流媒体点播服务,支持用户侧各类异构平台,例如Windows、Linux、Android和iOS,无需安装任何软件。在web网页浏览器或者客户端上,用户无感知的情况下,通过web技术下发算法和worker技术,在后台线程静默运行算法,只需用户在全过程中进行一次点击交互即可获得供人工智能训练用的各类训练数据。
用户侧的电子设备通过流媒体点播从云端服务器处获得媒体流,采用H5技术进行播放。在播放媒体流的过程中,用户侧的电子设备通过web worker线程对媒体流进行数据分轨(即轨道拆分)获得视频流、音频流、字幕流和单帧图像。
进一步,用户侧的电子设备在浏览器的JS引擎中构建算法运行环境,可跨平台,无需任何依赖安装,用户也无感知。
更进一步,用户侧的电子设备对音频流选取人声频段、剔除非人声频段。并且通过音频特征中的振幅判断对话边界,结合字幕与音频视频同步的特性,利用字幕流中对对话标注的时间戳精确切分一个对话标注场景的时间窗口。最终提取出不同对话场景下的视频片段、以及与之对应的音频片段、字幕片段和单帧图像。
再进一步,通过H5技术与用户进行交互,让用户对当前对话场景下的视频片段选择目标情绪标注,比如开心、愤怒、惊讶等。
最后,将目标情绪标注应用到当前对话场景下音频片段、字幕片段和单帧图像中,并且通过Rest API回传到云端服务器持久化。从而为后续的数据再加工或者算法训练提供基础。
此外,云端服务器还可以维度数据结构来同步至全网用户,防止处理任务的重复计算。
本申请一次标注,即可获取用于训练NLP自然语言处理,CV计算机视觉以及视频理解算法等几大场景的4种标注数据:视频、音频,文本(字幕)和图片。
此外,本申请可以协助相关公司以趋近于零成本的方式,解决业内私有数据集获取人力成本高的问题。大型的视频网站日均点击量过亿,通过微弱的虚拟激励政策,用户在点播期间,互动1次即可获得上亿数据标注。
另外,本申请还解决了数据标注速度慢,获取周期长的问题。在计算机视觉领域,一个熟练的标注工人,每天只能标注几百张图片。对于一个复杂的算法而言,需要的标注工时可能会超过几万小时,数据收集过程持续多年。而通过本申请,1天内就可以获取亿万数据。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,包括:
获取目标数据;
获取所述目标数据在至少两个维度上的子数据;
获取所述至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息;
将所述目标子数据的标注信息设置为与所述目标子数据对应的其他维度上的子数据的标注信息。
2.根据权利要求1所述的方法,其中,所述至少两个维度上的子数据是所述目标数据中具有相同数据属性的子数据。
3.根据权利要求2所述的方法,其中,所述获取所述目标数据在至少两个维度上的子数据,包括:
确定所述目标数据的数据特征;
基于所述数据特征确定所述目标数据的目标数据属性;
获取所述目标数据在所述目标数据属性上对应的在至少两个维度上的子数据。
4.根据权利要求3所述的方法,其中,所述数据特征包括音频特征,所述基于所述数据特征确定所述目标数据的目标数据属性,包括:
基于所述音频特征确定所述目标数据的时间属性。
5.根据权利要求4所述的方法,其中,所述基于所述音频特征确定所述目标数据的时间属性,包括:
利用第一音频特征预处理所述目标数据;
利用第二音频特征确定预处理后的所述目标数据的时间属性。
6.根据权利要求4所述的方法,所述数据特征还包括字幕特征,还包括:
根据所述字幕特征修正所述时间属性。
7.根据权利要求1所述的方法,还包括:
在所述目标子数据的标注信息中存在至少两种标注信息的情况下,确定目标标注信息。
8.根据权利要求1所述的方法,还包括:
输出所述至少两个维度上的子数据的标注信息。
9.一种数据处理装置,包括:
数据获取模块,用于获取目标数据;
子数据获取模块,用于获取所述目标数据在至少两个维度上的子数据;
标注获取模块,用于获取所述至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息;
标注设置模块,用于将所述目标子数据的标注信息设置为与所述目标子数据对应的其他维度上的子数据的标注信息。
10.一种电子设备,包括:
存储器,用于存储应用程序及所述应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现功能:获取目标数据;获取所述目标数据在至少两个维度上的子数据;获取所述至少两个维度上的子数据中一个或多个维度上的目标子数据的标注信息;将所述目标子数据的标注信息设置为与所述目标子数据对应的其他维度上的子数据的标注信息。
CN201910852560.2A 2019-09-10 2019-09-10 一种数据处理方法、装置及电子设备 Active CN110555117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910852560.2A CN110555117B (zh) 2019-09-10 2019-09-10 一种数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910852560.2A CN110555117B (zh) 2019-09-10 2019-09-10 一种数据处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110555117A true CN110555117A (zh) 2019-12-10
CN110555117B CN110555117B (zh) 2022-05-31

Family

ID=68739628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910852560.2A Active CN110555117B (zh) 2019-09-10 2019-09-10 一种数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110555117B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526405A (zh) * 2020-04-30 2020-08-11 网易(杭州)网络有限公司 媒体素材处理方法、装置、设备、服务器及存储介质
CN112487238A (zh) * 2020-10-27 2021-03-12 百果园技术(新加坡)有限公司 一种音频处理方法、装置、终端及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984738A (zh) * 2014-05-22 2014-08-13 中国科学院自动化研究所 一种基于搜索匹配的角色标注方法
CN104317894A (zh) * 2014-10-23 2015-01-28 北京百度网讯科技有限公司 样本标注的确定方法和装置
CN105138953A (zh) * 2015-07-09 2015-12-09 浙江大学 一种基于连续的多实例学习的视频中动作识别的方法
CN107004141A (zh) * 2017-03-03 2017-08-01 香港应用科技研究院有限公司 对大样本组的高效标注
CN108806668A (zh) * 2018-06-08 2018-11-13 国家计算机网络与信息安全管理中心 一种音视频多维度标注与模型优化方法
CN109977255A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、音频处理方法、装置、终端及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984738A (zh) * 2014-05-22 2014-08-13 中国科学院自动化研究所 一种基于搜索匹配的角色标注方法
CN104317894A (zh) * 2014-10-23 2015-01-28 北京百度网讯科技有限公司 样本标注的确定方法和装置
CN105138953A (zh) * 2015-07-09 2015-12-09 浙江大学 一种基于连续的多实例学习的视频中动作识别的方法
CN107004141A (zh) * 2017-03-03 2017-08-01 香港应用科技研究院有限公司 对大样本组的高效标注
CN108806668A (zh) * 2018-06-08 2018-11-13 国家计算机网络与信息安全管理中心 一种音视频多维度标注与模型优化方法
CN109977255A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、音频处理方法、装置、终端及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526405A (zh) * 2020-04-30 2020-08-11 网易(杭州)网络有限公司 媒体素材处理方法、装置、设备、服务器及存储介质
CN114025216A (zh) * 2020-04-30 2022-02-08 网易(杭州)网络有限公司 媒体素材处理方法、装置、服务器及存储介质
CN114025216B (zh) * 2020-04-30 2023-11-17 网易(杭州)网络有限公司 媒体素材处理方法、装置、服务器及存储介质
CN112487238A (zh) * 2020-10-27 2021-03-12 百果园技术(新加坡)有限公司 一种音频处理方法、装置、终端及介质
CN112487238B (zh) * 2020-10-27 2024-05-17 百果园技术(新加坡)有限公司 一种音频处理方法、装置、终端及介质

Also Published As

Publication number Publication date
CN110555117B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
US11321667B2 (en) System and method to extract and enrich slide presentations from multimodal content through cognitive computing
CN112511854B (zh) 一种直播视频精彩片段生成方法、装置、介质和设备
CN105391730B (zh) 一种信息反馈方法、装置及系统
US20180130496A1 (en) Method and system for auto-generation of sketch notes-based visual summary of multimedia content
US20160065891A1 (en) Determining importance of scenes based upon closed captioning data
US20100070860A1 (en) Animated cloud tags derived from deep tagging
US10929909B2 (en) Media enhancement with customized add-on content
US9953451B2 (en) Audio media mood visualization
CN112929744A (zh) 用于分割视频剪辑的方法、装置、设备、介质和程序产品
CN104038473A (zh) 用于插播音频广告的方法、装置、设备和系统
US11749255B2 (en) Voice question and answer method and device, computer readable storage medium and electronic device
CN110555117B (zh) 一种数据处理方法、装置及电子设备
CN109286848B (zh) 一种终端视频信息的交互方法、装置及存储介质
CN104918060A (zh) 一种视频广告中插点位置的选择方法和装置
CN110750996A (zh) 多媒体信息的生成方法、装置及可读存储介质
CN113411674A (zh) 视频的播放控制方法、装置、电子设备及存储介质
CN111723235B (zh) 音乐内容识别方法、装置及设备
CN110248235B (zh) 软件教学方法、装置、终端设备及介质
US20200226208A1 (en) Electronic presentation reference marker insertion
CN111695670A (zh) 神经网络模型训练方法及装置
CN114513706B (zh) 视频生成方法和装置、计算机设备、存储介质
CN113411517B (zh) 视频模板的生成方法、装置、电子设备及存储介质
CN112601129B (zh) 视频交互系统、方法和接收端
US20240062545A1 (en) Information processing device, information processing method, and recording medium
CN113762056A (zh) 演唱视频识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant