CN111291618B - 标注方法、装置、服务器和存储介质 - Google Patents

标注方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN111291618B
CN111291618B CN202010033662.4A CN202010033662A CN111291618B CN 111291618 B CN111291618 B CN 111291618B CN 202010033662 A CN202010033662 A CN 202010033662A CN 111291618 B CN111291618 B CN 111291618B
Authority
CN
China
Prior art keywords
prediction model
marked
labeled
features
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010033662.4A
Other languages
English (en)
Other versions
CN111291618A (zh
Inventor
李玉洁
刘才良
陈世哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010033662.4A priority Critical patent/CN111291618B/zh
Publication of CN111291618A publication Critical patent/CN111291618A/zh
Application granted granted Critical
Publication of CN111291618B publication Critical patent/CN111291618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种标注方法、装置、服务器和存储介质;本发明可以获取待标注对象、上一时刻的标注后对象、上一时刻的预测模型;基于上一时刻的标注后对象,对上一时刻的预测模型进行更新处理,得到当前时刻的预测模型;采用当前时刻的预测模型,对待标注对象进行关联类型预测处理,得到待标注对象所关联的多个类型之间的关系;根据待标注对象所关联的多个类型之间的关系标注待标注对象,得到当前时刻的标注后对象,从而实现对待标注对象的标注。本发明每进行一次分类之前,就能根据上一次分类结果更新预测模型,以便预测模型自我迭代优化,从而使得预测模型对当前待标注对象的预测效果准确,故本方案能提升标注的准确度。

Description

标注方法、装置、服务器和存储介质
技术领域
本发明涉及计算机领域,具体涉及一种标注方法、装置、服务器和存储介质。
背景技术
机器认识一个事物,需要通过这个事物的数据标注来进行认知,其中,数据标注是该事物的标示注记。比如,标注可以分为分类标注、描点标注、区域标注,等等。比如,常见的数据标注可以包括标签,例如,某个用户具有多个数据标注,即,多个标签,这些标签可以作为及其来认知该用户的材料。
然而,随着事物的数据体积膨胀,以及事物的个数增加,目前通过人工标注事物的方式往往会消耗大量的时间以及人力成本,而目前机器自动标注的方式虽然可以节省人力成本,但却无法像人工标注一样准确,因此,目前的标注方法准确度低下。
发明内容
本发明实施例提供一种标注方法、装置、服务器和存储介质,可以提升标注方法的准确度。
本发明实施例提供一种标注方法,包括:
获取待标注对象、上一时刻的标注后对象、上一时刻的预测模型;
基于所述上一时刻的标注后对象,对所述上一时刻的预测模型进行更新处理,得到当前时刻的预测模型;
采用所述当前时刻的预测模型,对所述待标注对象进行关联类型预测处理,得到所述待标注对象所关联的多个类型之间的关系;
根据所述待标注对象所关联的多个类型之间的关系标注所述待标注对象,得到当前时刻的标注后对象,从而实现对所述待标注对象的标注。
本发明实施例还提供一种标注装置,包括:
获取单元,用于获取待标注对象、上一时刻的标注后对象、上一时刻的预测模型;
更新单元,用于基于所述上一时刻的标注后对象,对所述上一时刻的预测模型进行更新处理,得到当前时刻的预测模型;
预测单元,用于采用所述当前时刻的预测模型,对所述待标注对象进行关联类型预测处理,得到待标注对象所关联的多个类型之间的关系;
标注单元,用于根据所述待标注对象所关联的多个类型之间的关系标注所述待标注对象,得到当前时刻的标注后对象,从而实现对所述待标注对象的标注。
在一些实施例中,所述预测模型包括特征提取网络和关联类型预测网络,所述预测单元包括:
混合子单元,用于采用所述当前时刻的预测模型的特征提取网络,提取述待标注对象的混合特征;
预测子单元,用于采用所述当前时刻的预测模型的关联类型预测网络,根据所述混合特征对所述待标注对象所关联的多个预测类型进行预测,得到所述待标注对象所关联的多个类型之间的关系。
在一些实施例中,所述待标注对象所关联的多个类型之间的关系包括类型关联拓扑图,所述预测子单元用于:
采用所述当前时刻的预测模型的关联类型预测网络,根据所述混合特征构建所述待标注对象的类型关联拓扑图,所述类型关联拓扑图包括多个类型节点,以及类型节点之间的关系权重;
在一些实施例中,标注单元具体用于:
确定所述待标注对象的类型关联拓扑图中的类型节点所对应的类型,并根据所述类型标注所述待标注对象,得到当前时刻的标注后对象,从而实现对所述待标注对象的标注。
在一些实施例中,所述待标注对象包括视频内容、声音内容、文字内容,所述特征提取网络包括视频特征提取子网络、声音特征提取子网、文字特征提取子网,所述混合子单元,包括:
视频子模块,用于采用所述当前时刻的预测模型的视频特征提取子网络对所述待标注对象的视频内容进行特征提取,得到视频特征;
声音子模块,用于采用所述当前时刻的预测模型的声音特征提取子网络对所述待标注对象的声音内容进行特征提取,得到声音特征;
文字子模块,用于采用所述当前时刻的预测模型的文字特征提取子网络对所述待标注对象的文字内容进行特征提取,得到文字特征;
混合子模块,用于基于所述视频特征、声音特征、文字特征确定所述待标注对象的混合特征。
在一些实施例中,所述视频特征提取子网络包括图像帧抽取器和图像特征提取器,所述视频特征包括图像特征,所述视频子模块,用于:
采用所述当前时刻的预测模型的图像帧抽取器对所述待标注对象的视频内容进行图像帧抽取处理,得到所述视频内容所对应的图像序列,所述图像序列中包括多帧图像;
采用所述当前时刻的预测模型的图像特征提取器对所述图像序列中的图像进行特征提取,得到图像序列中每帧图像的图像特征。
在一些实施例中,所述视频特征包括图像特征,所述混合子模块,用于:
采用所述当前时刻的预测模型的特征融合网络对所述图像特征、声音特征、文字特征进行特征融合处理,得到所述待标注对象的融合特征;
采用所述当前时刻的预测模型的注意力网络,对所述融合特征进行注意力加权处理,得到所述待标注对象的混合特征。
在一些实施例中,所述声音特征包括多个声音片段特征,所述文字特征包括多个文字片段特征,所述混合子模块在采用所述上一时刻的预测模型的特征融合网络对所述图像特征、声音特征、文字特征进行特征融合处理,得到所述待标注对象的融合特征时,具体用于:
根据所述图像特征计算图像局部特征,并根据所述的图像特征以及图像局部特征计算视频全局特征;
根据所述声音片段特征计算声音局部特征,并根据所述的声音片段特征以及声音局部特征计算声音全局特征;
根据所述文字片段特征计算文字局部特征,并根据所述的文字片段特征以及文字局部特征计算文字全局特征;
根据所述视频全局特征、声音全局特征、文字全局特征进行特征拼接融合处理,得到融合特征。
在一些实施例中,所述更新单元,包括:
验证子单元,用于对所述上一时刻的标注后对象进行预期验证处理,得到所述上一时刻的标注后对象的预期标注信息;
重训练子单元,用于当所述上一时刻的标注后对象不符合所述预期标注信息时,根据所述上一时刻的标注后对象重新训练所述上一时刻的预测模型,得到当前时刻的预测模型。
在一些实施例中,所述验证子单元,用于:
将所述上一时刻的标注后对象发送到人工验证平台,以便人工验证所述上一时刻的标注后对象的预期标注信息;
通过所述人工验证平台获取所述上一时刻的标注后对象的预期标注信息。
在一些实施例中,所述重训练子单元,包括:
获取子模块,用于获取再训练数据集;
添加子模块,用于将所述上一时刻的标注后对象添加到再训练数据集中,得到更新后再训练数据集;
再训练子模块,用于采用所述更新后再训练数据集训练所述上一时刻的预测模型,得到当前时刻的预测模型。
在一些实施例中,所述再训练子模块,用于:
获取预设的训练学习率;
采用所述预设的训练学习率,根据更新后再训练数据集对所述上一时刻的预测模型进行初次训练,得到初次训练的训练损失信息;
基于所述训练损失信息在所述更新后再训练数据集中确定噪声数据;
剔除所述更新后再训练数据集中的噪声数据,得到纯净训练数据集;
采用所述纯净训练数据集训练所述上一时刻的预测模型,直至所述上一时刻的预测模型收敛,得到当前时刻的预测模型。
在一些实施例中,所述标注单元,用于:
显示所述待标注对象所关联的多个类型之间的关系,以作为参考来辅助人工标注;
获取用户选取指令;
基于所述用户选取指令,在所述待标注对象所关联的多个类型之间的关系中确定目标关系;
根据所述目标关系标注所述待标注对象,得到当前时刻的标注后对象,从而实现对所述待标注对象的标注。
本发明实施例还提供一种服务器,包括存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本发明实施例所提供的任一种标注方法中的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种标注方法中的步骤。
本发明实施例可以获取待标注对象、上一时刻的标注后对象、上一时刻的预测模型;基于上一时刻的标注后对象,对上一时刻的预测模型进行更新处理,得到当前时刻的预测模型;采用当前时刻的预测模型,对待标注对象进行关联类型预测处理,得到待标注对象所关联的多个类型之间的关系;根据待标注对象所关联的多个类型之间的关系标注待标注对象,得到当前时刻的标注后对象,从而实现对待标注对象的标注。
在本发明中,每采用预测模型进行一次分类之前,就可以根据上一次分类结果来重新更新该预测模型,以便预测模型自我迭代优化,从而使得预测模型对当前待标注的预测效果更加准确;此外,在本发明中,通过对待标注对象所关联的多个预测类型之间的关系进行预测,可以更加多元、多角度地对考虑待标注对象的类型,最终使得分类更加准确,由此,本方案可以提升对象分类的准确度。由此,提升了标注方法的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的标注方法的场景示意图;
图1b是本发明实施例提供的标注方法的第一种流程示意图;
图1c是本发明实施例提供的多个分类类型及其之间的关系示意图;
图1d是本发明实施例提供的特征提取的流程示意图;
图2a是本发明实施例提供的标注方法的标注流程示意图;
图2b是本发明实施例提供的标注方法的第二种流程示意图;
图2c是本发明实施例提供的噪声数据检测的学习率与损失值之间的关系示意图;
图2d是本发明实施例提供的关联标签生成网络的结构示意图;
图3是本发明实施例提供的标注装置的结构示意图;
图4是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种标注方法、装置、服务器和存储介质。
其中,该标注装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;其中,服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该标注装置还可以集成在多个电子设备中,比如,标注装置可以集成在多个服务器中,由多个服务器构成的服务器集群来实现本发明的标注方法。
在一些实施例中,服务器也可以以终端的形式来实现。
例如,参考图1a,该标注装置可以集成在终端中,该终端可以获取待标注对象、上一时刻的标注后对象、上一时刻的预测模型;基于上一时刻的标注后对象,对上一时刻的预测模型进行更新处理,得到当前时刻的预测模型;采用当前时刻的预测模型,对待标注对象进行关联类型预测处理,得到待标注对象所关联的多个类型之间的关系;根据待标注对象所关联的多个类型之间的关系标注待标注对象,得到当前时刻的标注后对象,从而实现对待标注对象的标注。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
人工智能(Artificial Intelligence,AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是基于对数据的初步认识以及学习目的所进行的一系列分析,对数学模型中的参数进行训练,最后运用训练后的模型对数据进行分析预测的方法。机器学习的方法通常包括深度学习、决策树算法、贝叶斯算法、支持向量机算法、随机森林算法、人工神经网络算法、关联规则算法以及期望最大化算法,等等。
在本实施例中,提供了一种基于机器学习的标注方法,如图1b所示,该标注方法的具体流程可以如下:
101、获取待标注对象、上一时刻的标注后对象、上一时刻的预测模型。
数据标注是通过数据加工人员借助标记工具,对机器学习的训练数据进行加工的一种行为。通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。
机器认识一个事物,需要通过这个事物标注的数据来对其进行认知,例如,某个用户数据具有多个数据标注,比如,标签“宅”、“VIP用户”、“日平均在线时长2小时”,等等,通过这些标注,机器可以认知该用户的消费习惯以及生活习惯等信息。
待标注对象是指等待被标注的数据对象,该数据对象可以包含多种表现形式的内容,比如,文字内容、图像内容、视频内容、声音内容,等等。
例如,待标注对象可以是待标注的视频、待标注的小说文本、待标注的用户对象,等等。
预测模型可以用于预测待标注对象的标注信息,该预测模型可以为人工神经网络(Artificial Neural Network,ANN),比如,递归神经网络(recursive neural network,RNN)、卷积神经网络(Convolutional Neural Network,CNN)、前馈神经网络(Feed-ForwardNeural Network,FNN),等等。
在本实施例中,每进行一次标注,就可以对预测模型进行更新迭代,故每次需要获取上一时刻(或上一次)的预测模型来进行标注,每当标注完成后再对该上一时刻(或上一次)的预测模型进行更新迭代,得到当前时刻(或上一次)的预测模型。
上一时刻的标注后对象是指在上一时刻,上一时刻的预测模型对上一时刻的待标注对象进行标注,所得到的标注后对象。
获取待标注对象、上一时刻的标注后对象、上一时刻的预测模型的方式可以相同也可以不同,比如,可以通过网络从数据库中获取待标注对象、上一时刻的预测模型;比如,可以由人工输入待标注对象,并在本地内存中获取上一时刻的预测模型,等等。
102、基于标注后对象,对上一时刻的预测模型进行更新处理,得到当前时刻的预测模型。
在一些实施例中,预测模型可以通过自我迭代的方式提高其预测的准确性,从而进一步提高标注的准确度,步骤104包括以下步骤:
对上一时刻的标注后对象进行预期验证处理,得到上一时刻的标注后对象的预期标注信息;
当上一时刻的标注后对象不符合预期标注信息时,根据上一时刻的标注后对象重新训练上一时刻的预测模型,得到当前时刻的预测模型。
其中,对上一时刻的标注后对象进行预期验证处理,得到上一时刻的标注后对象的预期标注信息的方式具有多种,比如,可以通过人工的方式对上一时刻的标注后对象进行预期验证处理,得到上一时刻的标注后对象的预期标注信息;也可以通过机器自动的方式对上一时刻的标注后对象进行预期验证处理,得到上一时刻的标注后对象的预期标注信息,等等。
例如,在一些实施例中,由于人工验证相较于机器正确率更高,故可以利用人的经验来辅助预测模型的自我迭代,故步骤“对上一时刻的标注后对象进行预期验证处理,得到上一时刻的标注后对象的预期标注信息”可以包括如下步骤:
将上一时刻的标注后对象发送到人工验证平台,以便人工验证上一时刻的标注后对象的预期标注信息;
通过人工验证平台获取上一时刻的标注后对象的预期标注信息。
在一些实施例中,可以将每次得到的上一时刻的标注后对象保存在再训练数据集中,每过一段时间采用该再训练数据集进行预测模型的自我迭代,从而周期性地完成预测模型的更新,从而优化迭代所消耗的计算资源在时间上的分布、提高自我迭代的效率,步骤“根据上一时刻的标注后对象重新训练上一时刻的预测模型,得到当前时刻的预测模型”包括如下具体步骤:
获取再训练数据集;
将上一时刻的标注后对象添加到再训练数据集中,得到更新后再训练数据集;
采用更新后再训练数据集训练上一时刻的预测模型,得到当前时刻的预测模型。
在一些实施例中,为了去除再训练数据集中的无效数据、噪音数据、瑕疵数据、错误数据等,可以对再训练数据集进行数据预处理。数据预处理的方式具有多种,比如,去除噪声数据,等等。
在一次训练中,随着迭代轮次增加,预测模型可以逐渐从欠拟合过渡到过拟合状态,如果训练的次数足够多,预测模型可以记住几乎所有的训练样本,因此过拟合训练数据中的噪声数据常常会让模型的表现变差。
噪声数据通常是在训练后期才被学会,因而在训练早期,噪声数据的平均损失值是远大于干净样本的,而在训练的后期,由于网络逐渐学会了所有样本,故两类样本的损失值区别不大。纵观整个训练过程,从欠拟合到过拟合,噪声样本损失值的均值和方差都比干净样本要大。故本实施例可以根据调整学习率来在再训练数据集中确定噪声数据。
例如,在一些实施例中,为了提高算法的鲁棒性,可以剔除再训练数据集中的噪音数据,故步骤“采用更新后再训练数据集训练上一时刻的预测模型,得到当前时刻的预测模型”具体可以包括如下步骤:
获取预设的训练学习率;
采用预设的训练学习率,根据更新后再训练数据集对上一时刻的预测模型进行初次训练,得到初次训练的训练损失信息;
基于训练损失信息在更新后再训练数据集中确定噪声数据;
剔除更新后再训练数据集中的噪声数据,得到纯净训练数据集;
采用纯净训练数据集训练上一时刻的预测模型,直至上一时刻的预测模型收敛,得到当前时刻的预测模型。
具体地,可以在模型训练过程中,通过设置周期锯齿形变化的学习率,使得模型训练在过拟合与欠拟合之间震荡,在此期间,噪声样本的训练损失远远大于正确样本的训练损失,通过对训练损失排序,可以在再训练数据集中确定噪声数据并剔除这些噪声数据,得到纯净训练数据集,最后使用纯净训练数据集训练整个网络模型,从而实现模型的优化。
103、采用当前时刻的预测模型,对待标注对象进行关联类型预测处理,得到待标注对象所关联的多个类型之间的关系。
其中,待标注对象所关联的多个类型之间的关系是与指待标注对象内容相关的多个分类类型以及这些分类类型之间的相关关系。
例如,参考图1c,假设待标注视频的视频内容是美食介绍,采用当前时刻的预测模型,对该美食介绍视频进行关联类型预测处理,可以得到美食介绍视频所属的多个分类类型分别为美食、小吃、辣、川菜,等等,以及这些分类类型之间的关系(图中箭头方向)。
需要注意的是,该美食介绍视频所关联的多个分类类型与图1c右半部分的游戏分类之间没有相关关系。
在一些实施例中,预测模型可以包括特征提取网络和关联类型预测网络,步骤102包括如下步骤:
采用当前时刻的预测模型的特征提取网络,提取述待标注对象的混合特征;
采用当前时刻的预测模型的关联类型预测网络,根据混合特征对待标注对象所关联的多个预测类型进行预测,得到待标注对象所关联的多个类型之间的关系。
具体地,在一些实施例中,待标注对象所关联的多个类型之间的关系可以包括类型关联拓扑图,步骤“采用当前时刻的预测模型的关联类型预测网络,根据混合特征对待标注对象所关联的多个预测类型进行预测,得到待标注对象所关联的多个类型之间的关系”包括如下具体步骤:
采用当前时刻的预测模型的关联类型预测网络,根据混合特征构建待标注对象的类型关联拓扑图,类型关联拓扑图包括多个类型节点,以及类型节点之间的关系权重;
根据待标注对象所关联的多个类型之间的关系标注待标注对象,得到标注后对象,从而实现对待标注对象的标注,包括:
确定待标注对象的类型关联拓扑图中的类型节点所对应的类型,并根据类型标注待标注对象,得到标注后对象,从而实现对待标注对象的标注。
其中,类型关联拓扑图可以参考图1c的左图中与待标注对象具有直接相关以及间接相关的标签(类型节点),以及标签之间的依赖关系(类型节点之间的关系权重,即,图1c中节点之间的指向线),其中,该类型关联拓扑图是多标签分类算法中用于关联分类(Relational Classifier)的材料,该类型关联拓扑图可以表现将要标注的标签之间的依赖性,从而可以从多角度、多维度地提升关联类型预测网络的性能。
对于多种表现形式的媒体,本方案可以进一步提升标注的准确度,例如,在一些实施例中,待标注对象可以包括视频内容、声音内容、文字内容中至少一种(比如,视频、流媒体、有声小说,等等),特征提取网络可以包括视频特征提取子网络、声音特征提取子网、文字特征提取子网,步骤“采用当前时刻的预测模型的特征提取网络,提取待标注对象的混合特征”包括如下步骤:
采用当前时刻的预测模型的视频特征提取子网络对待标注对象的视频内容进行特征提取,得到视频特征;
采用当前时刻的预测模型的声音特征提取子网络对待标注对象的声音内容进行特征提取,得到声音特征;
采用当前时刻的预测模型的文字特征提取子网络对待标注对象的文字内容进行特征提取,得到文字特征;
基于视频特征、声音特征、文字特征确定待标注对象的混合特征。
其中,视频特征提取子网络、声音特征提取子网、文字特征提取子网可以是相同的ANN,也可以是不同的ANN;例如,视频特征提取子网络可以是P3D ResNet(Pseudo-3DResidual Networks),文字特征提取子网可以是长短时记忆网络(Long Short TermMemory Network,LSTM),等等。
在一些实施例中,为了提高所提取到的视频特征的信息有效性、全局性,同时考虑到视频中每一帧图片的细节,从而提高标注的准确度,本方案的视频特征提取子网络可以包括图像帧抽取器和图像特征提取器,视频特征可以包括图像特征,步骤“采用当前时刻的预测模型的视频特征提取子网络对待标注对象的视频内容进行特征提取,得到视频特征”具体可以包括以下步骤:
采用当前时刻的预测模型的图像帧抽取器对待标注对象的视频内容进行图像帧抽取处理,得到视频内容所对应的图像序列,图像序列中包括多帧图像;
采用当前时刻的预测模型的图像特征提取器对图像序列中的图像进行特征提取,得到图像序列中每帧图像的图像特征。
其中,图像帧抽取器和图像特征提取器可以是任意一种图像特征提取网络,比如,任意一种卷积神经网络,其网络结构可以相同也可以不同。
比如,在一些实施例中,为了提高特征提取网络的特征筛选能力以及特征整合能力,进一步提高标注的准确度,视频特征可以包括图像特征,特征提取网络还可以包括特征融合网络和注意力网络,步骤“基于视频特征、声音特征、文字特征确定待标注对象的混合特征”可以包括以下步骤:
采用当前时刻的预测模型的特征融合网络对图像特征、声音特征、文字特征进行特征融合处理,得到待标注对象的融合特征;
采用当前时刻的预测模型的注意力网络,对融合特征进行注意力加权处理,得到待标注对象的混合特征。
例如,参考图1d,在一些实施例中,声音内容是由多段音律组成,文字内容是由多段字句组成,为了在提取声音特征以及文字特征时,同时考虑到这些音律和字句的完整性、细节以及前后承接关系,故可以针对声音内容中每一段音律以及文字内容中每一段字句进行特征提取,故声音特征可以包括多个声音片段特征,文字特征可以包括多个文字片段特征,步骤“采用当前时刻的预测模型的特征融合网络对图像特征、声音特征、文字特征进行特征融合处理,得到待标注对象的融合特征”可以包括以下具体步骤:
根据图像特征计算图像局部特征,并根据的图像特征以及图像局部特征计算视频全局特征;
根据声音片段特征计算声音局部特征,并根据的声音片段特征以及声音局部特征计算声音全局特征;
根据文字片段特征计算文字局部特征,并根据的文字片段特征以及文字局部特征计算文字全局特征;
根据视频全局特征、声音全局特征、文字全局特征进行特征拼接融合处理,得到融合特征。
其中,可以根据每个声音片段特征计算该声音片段对应的声音局部特征,并对的这些声音片段特征进行特征融合,并根据声音局部特征计算声音全局特征。
类似于对声音片段的处理,也可以对文字片段进行相同的处理,得到文字全局特征。
104、根据待标注对象所关联的多个类型之间的关系标注待标注对象,得到当前时刻的标注后对象,从而实现对待标注对象的标注。
通过机器学习的方法,计算机可以预先产生该待标注对象对应的多个当前时刻的标注后对象,并向人工展示这些当前时刻的标注后对象,当前时刻的标注后对象可以作为辅助信息辅助人工进行标注、筛选,等等。
在一些实施例中,为了向人工提供辅助信息以便进行人工标注,使得标注效率以及标注质量提高,步骤103具体可以包括以下步骤:
显示待标注对象所关联的多个类型之间的关系,以作为参考来辅助人工标注;
获取用户选取指令;
基于用户选取指令,在待标注对象所关联的多个类型之间的关系中确定目标关系;
根据目标关系标注待标注对象,得到当前时刻的标注后对象,从而实现对待标注对象的标注。
由上可知,本发明实施例可以获取待标注对象、上一时刻的标注后对象、上一时刻的预测模型;基于上一时刻的标注后对象,对上一时刻的预测模型进行更新处理,得到当前时刻的预测模型;采用当前时刻的预测模型,对待标注对象进行关联类型预测处理,得到待标注对象所关联的多个类型之间的关系;根据待标注对象所关联的多个类型之间的关系标注待标注对象,得到当前时刻的标注后对象,从而实现对待标注对象的标注。
在本发明中,每采用预测模型进行一次分类之前,就可以根据上一次的分类结果来重新更新上一次的预测模型,以便预测模型自我迭代优化,从而使得预测模型对当前待标注对象的预测效果更加准确;此外,在本发明中,通过对待标注对象所关联的多个预测类型之间的关系进行预测,可以更加多元、多角度地对考虑待标注对象的类型,最终使得分类效果更加准确,由此,本方案提升了标注方法的准确度。
根据上述实施例所描述的方法,以下将作进一步详细说明。
本发明实施例提供的标注方案可以应用在各种数据标注场景中,比如,以图2a所示的视频数据标注为例,标注装置可以获取待标注视频,并采用特征提取网络提取该待标注视频的视频特征,再采用关联标签生成网络生成该待标注视频的多个关联标签,采用这些关联标签标注该待标注视频,得到标注后视频;然后,将该标注后视频送入人工标注系统以便人工验证该标注后视频是否符合真实的视频内容预期,若不符合真实的视频内容预期,则将该标注后视频加入再训练数据集,周期性地采用该再训练数据集训练预测模型,从而完成训练模型的自动迭代过程。
以下对本发明实施例的方法进行详细说明。
如图2b所示,一种标注方法具体流程如下:
201、获取训练数据集、待训练预测模型,该训练数据集中包括噪声数据,该待训练模型包括待训练特征提取网络和待训练关联标签生成网络。
其中,训练数据集可以是技术人员搜集的视频数据,该训练数据集中可以包括一部分的噪声数据。
该待训练模型包括待训练特征提取网络和待训练关联标签生成网络,其中,待训练特征提取网络和待训练关联标签生成网络可以为网络结构不同的ANN,比如,待训练特征提取网络可以是CNN,待训练关联标签生成网络可以是深度神经网络(Deep NeuralNetwork,DNN),等等。具体网络结构在此不做限定。
202、采用待训练模型对该训练数据集中的噪声数据进行剔除处理,得到处理后的训练数据集。
在首次进行模型训练时,可以O2U-net方法(一种噪声数据检测方法)来对数据进行筛选。
具体地,参考图2c,在模型训练过程中,可以通过设置锯齿形变化的学习率(图2c上半部分),使得模型训练在过拟合与欠拟合之间震荡。
参考图2c下半部分,由于噪声数据的训练损失值远远大于正确样本数据的训练损失值,通过对训练损失值排序,可以将数据训练集中损失值大于预设数值的训练数据确定为噪声数据,比如,将数据训练集中损失值大于0.5的训练数据确定为噪声数据;再比如,将数据训练集中数据训练集的损失值进行由大到小排序,将前40%的训练数据确定为噪声数据,等等。
然后,剔除该训练数据集中的噪声数据,得到处理后的训练数据集。
203、采用处理后的训练数据集训练该待训练模型,直至该待训练模型收敛,得到预测模型,该预测模型包括特征提取网络和标签生成网络。
在本实施例中,可以直接使用步骤202得到的处理后的训练数据集来调整该待训练模型的模型参数,直至该待训练模型收敛,得到处理后的训练数据集。
在步骤201~203中完成了预测模型的训练,以下将介绍视频标注以及预测模型自我迭代:
204、获取待标注视频、再训练数据集,该再训练数据集中包括噪声数据,该待标注视频包括图像、音频和视频标题。
在本实施例中,可以从数据库中获取待标注视频,在本地内存中读取再训练数据集;也可以从本地数据库中获取待标注视频,在数据库中读取再训练数据集,等等,在此不对待标注视频和再训练数据集的来源方式进行限定。
该再训练数据集中包括噪声数据,该待标注视频可以包括一系列时序图像、音频和该待训练视频的视频标题。
205、采用上一时刻预测模型的特征提取网络,对待标注视频进行多特征提取,得到待标注视频的图像特征、声音特征和文字特征。
步骤205具体可以参考步骤102,在此不做赘述。
206、采用上一时刻预测模型的关联标签生成网络,根据待标注视频的图像特征、声音特征和文字特征预测待标注视频所关联的多个关联标签。
其中,关联标签及其之间的关系可以以拓扑图的形式表现,故关联标签生成网络可以采用图卷积网络(Graph Convolutional Network,GCN)。
比如,参考图2d,可以采用GCN以及全连接层作为关联标签生成网络。
步骤206具体可以参考步骤102,在此不做赘述。
207、采用多个关联标签标注该待标注视频,得到标注后视频,从而实现对该待标注视频的标注。
在本实施例中,可以采用步骤206得到的多个关联标签标注该待标注视频,得到标注后视频。
例如,假设在步骤206得到的多个关联标签分别为“美食”、“川菜”、“小吃”和“吃播”,则可以采用“美食”、“川菜”、“小吃”和“吃播”作为该待标注视频的标签。
208、当标注后视频不符合预设预期时,将该标注后视频加入到再训练数据集中,得到更新后的在训练数据集。
在本实施例中,可以将标注后视频发送给人工标注系统,由人工进行校验、调整。
例如,将标注有“美食”、“川菜”、“小吃”和“吃播”标签的视频发送给人工标注系统,在人工标注系统中,技术人员可以根据自身经验判断该视频的标签是否符合该视频,若当标注后视频不符合该技术人员的预设预期时,则将该标注后视频加入到再训练数据集中,得到更新后的在训练数据集。
209、采用上一时刻预测模型的对该更新后的再训练数据集进行噪声剔除处理,得到处理后的再训练数据集。
类似于步骤202,在本实施例中,可以周期性地采用上一时刻预测模型的对该更新后的再训练数据集进行噪声剔除处理,得到处理后的再训练数据集。
比如,每过一天进行一次噪声剔除处理。
具体地,可以采用再训练数据集再次训练上一时刻预测模型,在模型训练过程中,可以通过设置锯齿形变化的学习率,使得模型训练在过拟合与欠拟合之间震荡,通过训练过程中产生的训练损失值进行排序,可以将数据训练集中损失值大于预设数值的训练数据确定为噪声数据。
剔除这些噪声数据,可以得到处理后的再训练数据集。
210、采用处理后的再训练数据集训练上一时刻预测模型,直至上一时刻预测模型收敛,得到当前时刻预测模型。
最后,采用处理后的再训练数据集训练上一时刻预测模型,直至上一时刻预测模型收敛,得到当前时刻预测模型。
具体训练过程在此不做赘述。
由上可知,本发明实施例可以获取训练数据集、待训练预测模型,该训练数据集中包括噪声数据,该待训练模型包括待训练特征提取网络和待训练关联标签生成网络;采用待训练模型对该训练数据集中的噪声数据进行剔除处理,得到处理后的训练数据集;采用处理后的训练数据集训练该待训练模型,直至该待训练模型收敛,得到预测模型,该预测模型包括特征提取网络和标签生成网络;获取待标注视频、再训练数据集,该再训练数据集中包括噪声数据,该待标注视频包括图像、音频和视频标题;采用上一时刻预测模型的特征提取网络,对待标注视频进行多特征提取,得到待标注视频的图像特征、声音特征和文字特征;采用上一时刻预测模型的关联标签生成网络,根据待标注视频的图像特征、声音特征和文字特征预测待标注视频所关联的多个关联标签;采用多个关联标签标注该待标注视频,得到标注后视频,从而实现对该待标注视频的分类;当标注后视频不符合预设预期时,将该标注后视频加入到再训练数据集中,得到更新后的在训练数据集;采用上一时刻预测模型的对该更新后的再训练数据集进行噪声剔除处理,得到处理后的再训练数据集;采用处理后的再训练数据集训练上一时刻预测模型,直至上一时刻预测模型收敛,得到当前时刻预测模型。
目前通过机器进行标注常常会产生错误标注,且随着时间推移,机器标注的质量会急剧下降,故静态的机器标注方法标注效果差,而动态的业务数据可能会导致标注数据的分布偏移,从而使得标注的质量变差。
而本方案可以根据预测结果来对预测模型进行反馈,从而使得预测模型可以周期性的自我迭代,进而使得预测模型的预测效果准确、稳定;此外,本方案可以结合视频的图像、声音、标题文字等信息提取该视频完整、富含细节的全局特征,又由于相邻的关联标签之间具有强相关性,故根据该全局特征可以预测该视频的多个关联标签均与该待标注视频具有强相关的关系,由此,本方案提升了标注方法的准确度。
为了更好地实施以上方法,本发明实施例还提供一种标注装置,该标注装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以标注装置具体集成在服务器中为例,对本发明实施例的方法进行详细说明。
例如,如图3所示,该标注装置可以包括获取单元301、预测单元302、标注单元303、更新单元304以及返回单元305,如下:
(一)获取单元301:
获取单元301可以用于获取待标注对象、上一时刻的预测模型。
(二)预测单元302:
预测单元302可以用于采用上一时刻的预测模型,对待标注对象进行关联类型预测处理,得到待标注对象所关联的多个类型之间的关系。
在一些实施例中,预测模型可以包括特征提取网络和关联类型预测网络,预测单元302可以包括混合子单元、预测子单元,如下:
(1)混合子单元:
混合子单元可以用于采用上一时刻的预测模型的特征提取网络,提取述待标注对象的混合特征。
(2)预测子单元:
预测子单元可以用于采用上一时刻的预测模型的关联类型预测网络,根据混合特征对待标注对象所关联的多个预测类型进行预测,得到待标注对象所关联的多个类型之间的关系。
在一些实施例中,待标注对象所关联的多个类型之间的关系可以包括类型关联拓扑图,预测子单元具体可以用于:
采用上一时刻的预测模型的关联类型预测网络,根据混合特征构建待标注对象的类型关联拓扑图,类型关联拓扑图包括多个类型节点,以及类型节点之间的关系权重;
根据待标注对象所关联的多个类型之间的关系标注待标注对象,得到标注后对象,从而实现对待标注对象的标注,包括:
确定待标注对象的类型关联拓扑图中的类型节点所对应的类型,并根据类型标注待标注对象,得到标注后对象,从而实现对待标注对象的标注。
在一些实施例中,待标注对象可以包括视频内容、声音内容、文字内容,特征提取网络可以包括视频特征提取子网络、声音特征提取子网、文字特征提取子网,混合子单元可以包括视频子模块、声音子模块、文字子模块、混合子模块,如下:
(1.1)视频子模块:
视频子模块可以用于采用上一时刻的预测模型的视频特征提取子网络对待标注对象的视频内容进行特征提取,得到视频特征。
(1.2)声音子模块:
声音子模块可以用于采用上一时刻的预测模型的声音特征提取子网络对待标注对象的声音内容进行特征提取,得到声音特征。
(1.3)文字子模块:
文字子模块可以用于采用上一时刻的预测模型的文字特征提取子网络对待标注对象的文字内容进行特征提取,得到文字特征。
(1.4)混合子模块:
混合子模块可以用于基于视频特征、声音特征、文字特征确定待标注对象的混合特征。
在一些实施例中,视频特征提取子网络可以包括图像帧抽取器和图像特征提取器,视频特征可以包括图像特征,视频子模块具体可以用于:
采用上一时刻的预测模型的图像帧抽取器对待标注对象的视频内容进行图像帧抽取处理,得到视频内容所对应的图像序列,图像序列中包括多帧图像;
采用上一时刻的预测模型的图像特征提取器对图像序列中的图像进行特征提取,得到图像序列中每帧图像的图像特征。
在一些实施例中,视频特征可以包括图像特征,混合子模块,具体可以用于:
采用上一时刻的预测模型的特征融合网络对图像特征、声音特征、文字特征进行特征融合处理,得到待标注对象的融合特征;
采用上一时刻的预测模型的注意力网络,对融合特征进行注意力加权处理,得到待标注对象的混合特征。
在一些实施例中,声音特征可以包括多个声音片段特征,文字特征可以包括多个文字片段特征,混合子模块在采用上一时刻的预测模型的特征融合网络对图像特征、声音特征、文字特征进行特征融合处理,得到待标注对象的融合特征时,具体可以用于:
根据图像特征计算图像局部特征,并根据的图像特征以及图像局部特征计算视频全局特征;
根据声音片段特征计算声音局部特征,并根据的声音片段特征以及声音局部特征计算声音全局特征;
根据文字片段特征计算文字局部特征,并根据的文字片段特征以及文字局部特征计算文字全局特征;
根据视频全局特征、声音全局特征、文字全局特征进行特征拼接融合处理,得到融合特征。
(三)标注单元303。
标注单元303可以用于根据待标注对象所关联的多个类型之间的关系标注待标注对象,得到标注后对象,从而实现对待标注对象的标注。
在一些实施例中,标注单元,具体可以用于:
显示待标注对象所关联的多个类型之间的关系,以作为参考来辅助人工标注;
获取用户选取指令;
基于用户选取指令,在待标注对象所关联的多个类型之间的关系中确定目标关系;
根据目标关系标注待标注对象,得到标注后对象,从而实现对待标注对象的标注。
(四)更新单元304。
更新单元304可以用于基于标注后对象,对上一时刻的预测模型进行更新处理,得到当前时刻的预测模型。
在一些实施例中,更新单元,可以包括验证子单元、重训练子单元,如下:
(1)验证子单元:
验证子单元可以用于对标注后对象进行预期验证处理,得到标注后对象的预期标注信息。
(2)重训练子单元:
重训练子单元可以用于当标注后对象不符合预期标注信息时,根据标注后对象重新训练上一时刻的预测模型,得到当前时刻的预测模型。
在一些实施例中,验证子单元,具体可以用于:
将标注后对象发送到人工验证平台,以便人工验证标注后对象的预期标注信息;
通过人工验证平台获取标注后对象的预期标注信息。
在一些实施例中,重训练子单元可以包括获取子模块、添加子模块、再训练子模块,如下:
(2.1)获取子模块:
获取子模块可以用于获取再训练数据集。
(2.2)添加子模块:
添加子模块可以用于将标注后对象添加到再训练数据集中,得到更新后再训练数据集。
(2.3)再训练子模块:
再训练子模块用于采用更新后再训练数据集训练上一时刻的预测模型,得到当前时刻的预测模型。
在一些实施例中,再训练子模块,具体可以用于:
获取预设的训练学习率;
采用预设的训练学习率,根据更新后再训练数据集对上一时刻的预测模型进行初次训练,得到初次训练的训练损失信息;
基于训练损失信息在更新后再训练数据集中确定噪声数据;
剔除更新后再训练数据集中的噪声数据,得到纯净训练数据集;
采用纯净训练数据集训练上一时刻的预测模型,直至上一时刻的预测模型收敛,得到当前时刻的预测模型。
(五)返回单元305。
返回单元305可以用于返回并执行步骤获取待标注对象、上一时刻的预测模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的标注装置由获取单元,用于获取待标注对象、上一时刻的预测模型;预测单元,用于采用上一时刻的预测模型,对待标注对象进行关联类型预测处理,得到待标注对象所关联的多个类型之间的关系;标注单元,用于根据待标注对象所关联的多个类型之间的关系标注待标注对象,得到标注后对象,从而实现对待标注对象的标注;更新单元,用于基于标注后对象,对上一时刻的预测模型进行更新处理,得到当前时刻的预测模型;返回单元,用于返回并执行步骤获取待标注对象、上一时刻的预测模型。由此,本发明实施例可以提升了标注方法的准确度。
本发明实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该标注装置还可以集成在多个电子设备中,比如,标注装置可以集成在多个服务器中,由多个服务器来实现本发明的标注方法。在一些实施例中,xx服务器和xx服务器也可以由一台服务器来实现。
在本实施例中,将以本实施例的电子设备是服务器为例进行详细描述,比如,如图4所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。在一些实施例中,处理器401可包括一个或多个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括通信模块405,在一些实施例中通信模块405可以包括无线模块,服务器可以通过该通信模块405的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待标注对象、上一时刻的预测模型;
采用上一时刻的预测模型,对待标注对象进行关联类型预测处理,得到待标注对象所关联的多个类型之间的关系;
根据待标注对象所关联的多个类型之间的关系标注待标注对象,得到标注后对象,从而实现对待标注对象的标注;
基于标注后对象,对上一时刻的预测模型进行更新处理,得到当前时刻的预测模型;
返回并执行步骤获取待标注对象、上一时刻的预测模型。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例可以提高标注方法的准确度。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种标注方法中的步骤。例如,该指令可以执行如下步骤:
获取待标注对象、上一时刻的预测模型;
采用上一时刻的预测模型,对待标注对象进行关联类型预测处理,得到待标注对象所关联的多个类型之间的关系;
根据待标注对象所关联的多个类型之间的关系标注待标注对象,得到标注后对象,从而实现对待标注对象的标注;
基于标注后对象,对上一时刻的预测模型进行更新处理,得到当前时刻的预测模型;
返回并执行步骤获取待标注对象、上一时刻的预测模型。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种标注方法中的步骤,因此,可以实现本发明实施例所提供的任一种标注方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种标注方法、装置、服务器和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种标注方法,其特征在于,包括:
获取待标注对象、上一时刻的标注后对象、上一时刻的预测模型,所述待标注对象包括视频内容、声音内容、文字内容;
基于所述上一时刻的标注后对象,对所述上一时刻的预测模型进行更新处理,得到当前时刻的预测模型;
采用所述当前时刻的预测模型,对所述待标注对象进行关联类型预测处理,得到所述待标注对象所关联的多个类型之间的关系;
根据所述待标注对象所关联的多个类型之间的关系标注所述待标注对象,得到当前时刻的标注后对象,从而实现对所述待标注对象的标注
所述基于所述上一时刻的标注后对象,对所述上一时刻的预测模型进行更新处理,得到当前时刻的预测模型,包括:
对所述上一时刻的标注后对象进行预期验证处理,得到所述上一时刻的标注后对象的预期标注信息;
当所述上一时刻的标注后对象不符合所述预期标注信息时,获取再训练数据集;
将所述上一时刻的标注后对象添加到再训练数据集中,得到更新后再训练数据集;
获取预设的训练学习率,所述预设的训练学习率处于周期性锯齿形变化,用于使得模型训练在过拟合与欠拟合之间震荡;
采用所述预设的训练学习率,根据更新后再训练数据集对所述上一时刻的预测模型进行初次训练,得到初次训练的训练损失信息;
基于所述训练损失信息在所述更新后再训练数据集中确定噪声数据;
剔除所述更新后再训练数据集中的噪声数据,得到纯净训练数据集;
采用所述纯净训练数据集训练所述上一时刻的预测模型,直至所述上一时刻的预测模型收敛,得到当前时刻的预测模型。
2.如权利要求1所述的标注方法,其特征在于,所述预测模型包括特征提取网络和关联类型预测网络,采用所述当前时刻的预测模型,对所述待标注对象进行关联类型预测处理,得到所述待标注对象所关联的多个类型之间的关系,包括:
采用所述当前时刻的预测模型的特征提取网络,提取待标注对象的混合特征;
采用所述当前时刻的预测模型的关联类型预测网络,根据所述混合特征对所述待标注对象所关联的多个预测类型进行预测,得到所述待标注对象所关联的多个类型之间的关系。
3.如权利要求2所述的标注方法,其特征在于,所述待标注对象所关联的多个类型之间的关系包括类型关联拓扑图,采用所述当前时刻的预测模型的关联类型预测网络,根据所述混合特征对所述待标注对象所关联的多个预测类型进行预测,得到所述待标注对象所关联的多个类型之间的关系,包括:
采用所述当前时刻的预测模型的关联类型预测网络,根据所述混合特征构建所述待标注对象的类型关联拓扑图,所述类型关联拓扑图包括多个类型节点,以及类型节点之间的关系权重;
根据所述待标注对象所关联的多个类型之间的关系标注所述待标注对象,得到当前时刻的标注后对象,从而实现对所述待标注对象的标注,包括:
确定所述待标注对象的类型关联拓扑图中的类型节点所对应的类型,并根据所述类型标注所述待标注对象,得到当前时刻的标注后对象,从而实现对所述待标注对象的标注。
4.如权利要求2所述的标注方法,其特征在于,所述待标注对象包括视频内容、声音内容、文字内容,所述特征提取网络包括视频特征提取子网络、声音特征提取子网、文字特征提取子网,采用所述当前时刻的预测模型的特征提取网络,提取所述待标注对象的混合特征,包括:
采用所述当前时刻的预测模型的视频特征提取子网络对所述待标注对象的视频内容进行特征提取,得到视频特征;
采用所述当前时刻的预测模型的声音特征提取子网络对所述待标注对象的声音内容进行特征提取,得到声音特征;
采用所述当前时刻的预测模型的文字特征提取子网络对所述待标注对象的文字内容进行特征提取,得到文字特征;
基于所述视频特征、声音特征、文字特征确定所述待标注对象的混合特征。
5.如权利要求4所述的标注方法,其特征在于,所述视频特征提取子网络包括图像帧抽取器和图像特征提取器,所述视频特征包括图像特征,采用所述当前时刻的预测模型的视频特征提取子网络对所述待标注对象的视频内容进行特征提取,得到视频特征,包括:
采用所述当前时刻的预测模型的图像帧抽取器对所述待标注对象的视频内容进行图像帧抽取处理,得到所述视频内容所对应的图像序列,所述图像序列中包括多帧图像;
采用所述当前时刻的预测模型的图像特征提取器对所述图像序列中的图像进行特征提取,得到图像序列中每帧图像的图像特征。
6.如权利要求4所述的标注方法,其特征在于,所述视频特征包括图像特征,所述特征提取网络还包括特征融合网络和注意力网络,基于所述视频特征、声音特征、文字特征确定所述待标注对象的混合特征,包括:
采用所述当前时刻的预测模型的特征融合网络对所述图像特征、声音特征、文字特征进行特征融合处理,得到所述待标注对象的融合特征;
采用所述当前时刻的预测模型的注意力网络,对所述融合特征进行注意力加权处理,得到所述待标注对象的混合特征。
7.如权利要求6所述的标注方法,其特征在于,所述声音特征包括多个声音片段特征,所述文字特征包括多个文字片段特征,采用所述当前时刻的预测模型的特征融合网络对所述图像特征、声音特征、文字特征进行特征融合处理,得到所述待标注对象的融合特征,包括:
根据所述图像特征计算图像局部特征,并根据所述的图像特征以及图像局部特征计算视频全局特征;
根据所述声音片段特征计算声音局部特征,并根据所述的声音片段特征以及声音局部特征计算声音全局特征;
根据所述文字片段特征计算文字局部特征,并根据所述的文字片段特征以及文字局部特征计算文字全局特征;
根据所述视频全局特征、声音全局特征、文字全局特征进行特征拼接融合处理,得到融合特征。
8.如权利要求1所述的标注方法,其特征在于,对所述上一时刻的标注后对象进行预期验证处理,得到所述上一时刻的标注后对象的预期标注信息,包括:
将所述上一时刻的标注后对象发送到人工验证平台,以便人工验证所述上一时刻的标注后对象的预期标注信息;
通过所述人工验证平台获取所述上一时刻的标注后对象的预期标注信息。
9.一种标注装置,其特征在于,包括:
获取单元,用于获取待标注对象、上一时刻的标注后对象、上一时刻的预测模型,所述待标注对象包括视频内容、声音内容、文字内容;
更新单元,用于基于所述上一时刻的标注后对象,对所述上一时刻的预测模型进行更新处理,得到当前时刻的预测模型;
预测单元,用于采用所述当前时刻的预测模型,对所述待标注对象进行关联类型预测处理,得到待标注对象所关联的多个类型之间的关系;
标注单元,用于根据所述待标注对象所关联的多个类型之间的关系标注所述待标注对象,得到当前时刻的标注后对象,从而实现对所述待标注对象的标注;
所述基于所述上一时刻的标注后对象,对所述上一时刻的预测模型进行更新处理,得到当前时刻的预测模型,包括:
对所述上一时刻的标注后对象进行预期验证处理,得到所述上一时刻的标注后对象的预期标注信息;
当所述上一时刻的标注后对象不符合所述预期标注信息时,获取再训练数据集;
将所述上一时刻的标注后对象添加到再训练数据集中,得到更新后再训练数据集;
获取预设的训练学习率,所述预设的训练学习率处于周期性锯齿形变化,用于使得模型训练在过拟合与欠拟合之间震荡;
采用所述预设的训练学习率,根据更新后再训练数据集对所述上一时刻的预测模型进行初次训练,得到初次训练的训练损失信息;
基于所述训练损失信息在所述更新后再训练数据集中确定噪声数据;
剔除所述更新后再训练数据集中的噪声数据,得到纯净训练数据集;
采用所述纯净训练数据集训练所述上一时刻的预测模型,直至所述上一时刻的预测模型收敛,得到当前时刻的预测模型。
10.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~8任一项所述的标注方法中的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~8任一项所述的标注方法中的步骤。
CN202010033662.4A 2020-01-13 2020-01-13 标注方法、装置、服务器和存储介质 Active CN111291618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010033662.4A CN111291618B (zh) 2020-01-13 2020-01-13 标注方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010033662.4A CN111291618B (zh) 2020-01-13 2020-01-13 标注方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN111291618A CN111291618A (zh) 2020-06-16
CN111291618B true CN111291618B (zh) 2024-01-09

Family

ID=71029094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010033662.4A Active CN111291618B (zh) 2020-01-13 2020-01-13 标注方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN111291618B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11599746B2 (en) * 2020-06-30 2023-03-07 Microsoft Technology Licensing, Llc Label shift detection and adjustment in predictive modeling
CN112016613A (zh) * 2020-08-26 2020-12-01 广州市百果园信息技术有限公司 视频内容分类模型的训练方法、装置、计算机设备及介质
CN112347150B (zh) * 2020-11-23 2021-08-31 北京智谱华章科技有限公司 一种学者学术标签标注方法、装置和电子设备
CN113408539A (zh) * 2020-11-26 2021-09-17 腾讯科技(深圳)有限公司 数据识别方法、装置、电子设备及存储介质
CN113240125B (zh) * 2021-01-13 2024-05-28 深延科技(北京)有限公司 模型训练方法及装置、标注方法及装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968797A (zh) * 2010-09-10 2011-02-09 北京大学 一种基于镜头间上下文的视频概念标注方法
CN105446988A (zh) * 2014-06-30 2016-03-30 华为技术有限公司 预测类别的方法和装置
CN106934364A (zh) * 2017-03-09 2017-07-07 腾讯科技(上海)有限公司 人脸图片的识别方法及装置
CN108806668A (zh) * 2018-06-08 2018-11-13 国家计算机网络与信息安全管理中心 一种音视频多维度标注与模型优化方法
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN109816009A (zh) * 2019-01-18 2019-05-28 南京旷云科技有限公司 基于图卷积的多标签图像分类方法、装置及设备
WO2019100724A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN109934261A (zh) * 2019-01-31 2019-06-25 中山大学 一种知识驱动参数传播模型及其少样本学习方法
CN109993197A (zh) * 2018-12-07 2019-07-09 天津大学 一种基于深度端对端示例差异化的零样本多标签分类方法
CN110110811A (zh) * 2019-05-17 2019-08-09 北京字节跳动网络技术有限公司 用于训练模型的方法和装置、用于预测信息的方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968797A (zh) * 2010-09-10 2011-02-09 北京大学 一种基于镜头间上下文的视频概念标注方法
CN105446988A (zh) * 2014-06-30 2016-03-30 华为技术有限公司 预测类别的方法和装置
CN106934364A (zh) * 2017-03-09 2017-07-07 腾讯科技(上海)有限公司 人脸图片的识别方法及装置
WO2019100724A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN108806668A (zh) * 2018-06-08 2018-11-13 国家计算机网络与信息安全管理中心 一种音视频多维度标注与模型优化方法
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN109993197A (zh) * 2018-12-07 2019-07-09 天津大学 一种基于深度端对端示例差异化的零样本多标签分类方法
CN109816009A (zh) * 2019-01-18 2019-05-28 南京旷云科技有限公司 基于图卷积的多标签图像分类方法、装置及设备
CN109934261A (zh) * 2019-01-31 2019-06-25 中山大学 一种知识驱动参数传播模型及其少样本学习方法
CN110110811A (zh) * 2019-05-17 2019-08-09 北京字节跳动网络技术有限公司 用于训练模型的方法和装置、用于预测信息的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
O2U-Net: A Simple Noisy Label Detection Approach for Deep Neural Networks;Jinchi Huang等;《2019 IEEE/CVF International Conference on Computer Vision (ICCV)》;第1-9页 *

Also Published As

Publication number Publication date
CN111291618A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111291618B (zh) 标注方法、装置、服务器和存储介质
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN109344884B (zh) 媒体信息分类方法、训练图片分类模型的方法及装置
US11741711B2 (en) Video classification method and server
CN112948708B (zh) 一种短视频推荐方法
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN111382190B (zh) 一种基于智能的对象推荐方法、装置和存储介质
US10902209B2 (en) Method for content search and electronic device therefor
CN113590928A (zh) 内容推荐方法、装置及计算机可读存储介质
CN111506820A (zh) 推荐模型、方法、装置、设备及存储介质
CN111859872A (zh) 一种文本标注方法和装置
CN112199600A (zh) 目标对象识别方法和装置
CN112165639B (zh) 内容分发方法、装置、电子设备以及存储介质
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN110929119A (zh) 数据标注方法、装置、设备及计算机存储介质
CN110909768B (zh) 一种标注数据获取方法及装置
US11948387B2 (en) Optimized policy-based active learning for content detection
CN113010635B (zh) 一种文本纠错方法及装置
CN111291564B (zh) 一种用于词向量获取的模型训练方法、装置和存储介质
CN111966885B (zh) 一种用户画像的构建方法和装置
JP7398944B2 (ja) 電子アルバム生成装置、電子アルバム生成方法及びプログラム
CN113392249A (zh) 图文信息分类方法、图文分类模型训练方法、介质及设备
CN114996435A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN111177493A (zh) 数据处理方法、装置、服务器和存储介质
CN111460169B (zh) 语义表达式生成方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024329

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant