CN113010705B - 标签预测方法、装置、设备及存储介质 - Google Patents
标签预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113010705B CN113010705B CN202110150871.1A CN202110150871A CN113010705B CN 113010705 B CN113010705 B CN 113010705B CN 202110150871 A CN202110150871 A CN 202110150871A CN 113010705 B CN113010705 B CN 113010705B
- Authority
- CN
- China
- Prior art keywords
- label
- prediction
- multimedia data
- tag
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000002372 labelling Methods 0.000 claims abstract description 134
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 40
- 238000012937 correction Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 14
- 238000013508 migration Methods 0.000 description 13
- 230000005012 migration Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 241000283973 Oryctolagus cuniculus Species 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 241000009328 Perro Species 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 241000555745 Sciuridae Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000005686 eating Nutrition 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种标签预测方法、装置、设备及存储介质,其中方法包括:对目标多媒体数据进行标签预测处理,得到所述目标多媒体数据的标签预测集,所述标签预测集包括所述目标多媒体数据的N个预测标签,以及每个预测标签的预测准确度,N为大于等于1的整数;从所述标签预测集中筛选出满足标签层级关系的M个参考标签,M为大于1,且小于N的整数;根据所述标签层级关系对每个参考标签的预测准确度进行修正,并采用修正后的预测准确度更新所述标签预测集;从更新后的标签预测集中选取所述目标多媒体数据的标注标签,可提升预测得到的多媒体数据的标注标签的准确度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种标签预测方法、装置、设备及存储介质。
背景技术
随着计算机网络技术的不断深入发展,各种各样的多媒体数据充斥着用户的生产和生活,随着多媒体数据的数量的不断扩大,需要对多媒体数据进行分类存储,从而减轻对多媒体数据的查找压力,而当前在对多媒体数据进行分类存储时,多是参考多媒体数据的标注标签进行分类处理的。而当前确定多媒体数据的标注标签的方式,多是通过将多媒体数据输入到一个标签预测模型中,进而获取该标签预测模型输的的预测标签作为该多媒体数据的标注标签,经实践表明,基于当前确定多媒体数据的标注标签的方式,对多媒体数据的标注标签进行预测的准确度较低,由此可见,如何提升预测得到的多媒体数据的标注标签的准确度成为了当前的研究热点问题。
发明内容
本发明实施例提供了一种标签预测方法、装置、设备及存储介质,可提升预测得到的多媒体数据的标注标签的准确度。
一方面,本发明实施例提供了一种标签预测方法,包括:
对目标多媒体数据进行标签预测处理,得到所述目标多媒体数据的标签预测集,所述标签预测集包括所述目标多媒体数据的N个预测标签,以及每个预测标签的预测准确度,N为大于等于1的整数;
从所述标签预测集中筛选出满足标签层级关系的M个参考标签,M为大于1,且小于N的整数;
根据所述标签层级关系对每个参考标签的预测准确度进行修正,并采用修正后的预测准确度更新所述标签预测集;
从更新后的标签预测集中选取所述目标多媒体数据的标注标签。
再一方面,本发明实施例提供了一种标签预测装置,包括:
预测单元,用于对目标多媒体数据进行标签预测处理,得到所述目标多媒体数据的标签预测集,所述标签预测集包括所述目标多媒体数据的N个预测标签,以及每个预测标签的预测准确度,N为大于等于1的整数;
筛选单元,用于从所述标签预测集中筛选出满足标签层级关系的M个参考标签,M为大于1,且小于N的整数;
修正单元,用于根据所述标签层级关系对每个参考标签的预测准确度进行修正,并采用修正后的预测准确度更新所述标签预测集;
选取单元,用于从更新后的标签预测集中选取所述目标多媒体数据的标注标签。
再一方面,本发明实施例提供了一种标签预测设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持标签预测设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如下步骤:
对目标多媒体数据进行标签预测处理,得到所述目标多媒体数据的标签预测集,所述标签预测集包括所述目标多媒体数据的N个预测标签,以及每个预测标签的预测准确度,N为大于等于1的整数;
从所述标签预测集中筛选出满足标签层级关系的M个参考标签,M为大于1,且小于N的整数;
根据所述标签层级关系对每个参考标签的预测准确度进行修正,并采用修正后的预测准确度更新所述标签预测集;
从更新后的标签预测集中选取所述目标多媒体数据的标注标签。
再一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,所述程序指令被处理器执行时,所述程序指令被处理器执行时,用于执行所述标签预测方法。
在本发明实施例中,标签预测设备可对获取到的目标多媒体数据进行标签预测处理,从而得到该目标多媒体数据的标签预测集,并可在得到该目标多媒体数据的标签预测集后,获取标签层级关系,并根据该标签层级关系从该标签预测集中满足标签层级关系的参考标签,以及根据该标签层级关系对筛选得到的参考标签的预测准确度进行修正处理,在该标签预测设备根据该标签层级关系对筛选得到的参考标签的预测准确度进行修正处理后,则可根据修正后的预测准确度确定该目标多媒体数据的标注标签,基于标签层级关系对预测标签的预测准确度进行修正,可提升该预测准确度的预测精度,那么使得标签预测设备根据修正后的预测准确度进行标注标签的预测,则可有效提升目标多媒体数据确定出标注标签的准确度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的一种标签预测模型的结构示意图;
图1b是本发明实施例提供的一种标签预测模型的结构示意图;
图2是本发明实施例提供的一种标签预测方法的示意流程图;
图3a是本发明实施例提供的一种时序汇合网络的结构的示意图;
图3b是本发明实施例提供的一种目标多媒体数据的示意图;
图4是本发明实施例提供的一种标签预测方法的示意流程图;
图5是本发明实施例提供的一种标签预测方法的示意流程图;
图6是本发明实施例提供的一种标签迁移的示意图;
图7是本发明实施例提供的一种标签预测装置的示意性框图;
图8是本发明实施例提供的一种标签预测设备的示意性框图。
具体实施方式
本发明实施例提出了一种标签预测方法,标签预测设备可在得到该目标多媒体数据的多个预测标签之后,进一步基于得到的预测标签之间的标签层级关系,对预测得到每个预测标签时的预测准确度进行修正,从而可参考修正后的预测准确度确定该目标多媒体数据的标注标签,经研究表明,基于修正后的预测准确度进行目标多媒体数据的标注标签的确定,可有效提升预测得到该目标多媒体数据的标注标签的准确度。其中,基于修正后的预测准确度确定出的目标多媒体数据的标注标签的准确度,相比于基于修正前的预测准确度确定出的标注标签的准确度提高0.8%。在一个实施例中,该目标多媒体数据可以是图像数据,也可以是视频数据,或者,该目标多媒体数据还可以是文本数据等,该标签预测设备配置有标签预测模型,使得该标签预测设备在获取到目标多媒体数据后,可调用该标签预测模型对该目标多媒体数据的标注标签进行预测,在具体实现中,如果该目标多媒体数据为图像数据(或文本数据),该标签预测设备可直接调用标签预测模型对该图像数据进行特征提取,从而得到该图像数据的特征数据,其中,对该目标多媒体数据进行特征提取得到的特征数据可采用特征向量的形式进行表示,在标签预测设备得到该图像数据的特征数据后,则可根据得到的特征数据进行标签预测,从而确定出该图像数据的预测标签。其中,该标签预测模型是一个多标签的预测模型,也就是说,采用本发明实施例的标签预测模型对目标多媒体数据进行预测得到的预测标签的数量为一个或者多个。
在另一实施例中,如果该标签预测设备获取到的目标多媒体数据为视频数据,在该标签预测设备获取得到该视频数据后,则可先确定组成该视频数据的多个图像帧,从而使得该标签预测模型在得到该视频数据对应的多个图像帧后,可对每个图像帧分别进行特征分析,得到每个图像帧的特征数据。在标签预测设备得到每个图像帧的特征数据后,则可根据每个图像帧的特征数据得到该视频数据对应的目标特征数据,进而可基于该目标特征数据确定出该视频数据的预测标签。或者,在标签预测设备调用标签预测模型得到每个图像帧的特征数据后,该标签预测模型还可分别基于每个图像帧的特征数据确定出每个图像帧分别对应的预测标签,进而可基于每个图像帧的预测标签确定出该视频数据(即目标多媒体数据)的预测标签。
在标签预测设备调用标签预测模型确定出该目标多媒体数据的预测标签时,还将得到该标签预测模型预测得到每个预测标签时的预测准确度,基于确定出的预测标签之间的标签层级关系,该表现预测设备还可对每个预测标签的预测准确度进行修正,并根据修正后的预测准确度确定出该目标多媒体数据的标注标签。其中,该标签预测模型的模型结构可如图1a所示,该标签预测模型包括骨干网络,时序汇合网络,分类器和准确度修正网络,其中,该骨干网络用于提取目标多媒体数据的一个或多个目标特征数据,该时序汇合网络用于对骨干网络提取得到的多个目标特征数据进行特征压缩处理,从而得到用于该目标多媒体数据的一个目标特征数据,其中,该时序汇合网络可以是采用NetVLAD(一种时序汇合方法)方法,或者,该时序汇合网络也可以采用NextVLAD(一种时序汇合方法)方法进行时序汇合。此外,该分类器可基于时序汇合网络得到的目标特征数据,确定出该目标多媒体数据的N个预测标签,以及每个预测标签对应的预测准确度,该准确度修正网络则可对由该分类器得到的预测标签的预测准确度进行修正处理,从而实现对预测准确度进行调整,进一步地,该标签预测设备则可基于修正后的预测准确度,确定出该目标多媒体数据的标注标签。其中,N为大于等于1的整数。
将目标多媒体数据分别通过该标签预测模型的骨干网络,时序汇合网络和分类器后,将得到该目标多媒体数据的N个预测标签,在一个实施例中,也可采用如图1b所示的模型结构得到目标多媒体数据的N个预测标签,其中,如图1b所示的模型结构为一个深度卷积神经网络结构,该模型包含快帧率(high fram rate)的网络结构和慢帧率(low framrate)两个网络结构,慢通道(即慢帧率的网络通道)主要做空间的语义处理,采用大的骨干网络获取更精细的特征数据(如图像特征),慢通道只关注图像特征因此抽帧少,快通道(即快帧率的网络通道)主要是做时序的信息处理,采用更小的骨干网络,不需要获取复杂的特征,更密集的抽帧以考虑动作连续性,该模型为一个单一的端到端深度学习的多媒体数据分类模型。其中,慢通道网络所使用的卷积核的尺寸可为{T,S2,C},T、S和C分别表示时序,空间和channel(通道)的尺寸,快通道网络所使用的卷积核的尺寸可为{αT,S2,βC},α表示速度比率(跳帧率),β表示通道比率,其中,α和β的具体取值可根据经验值设置。
在得到目标多媒体数据的N个预测标签,则可通过准确度修正网络对每个预测标签的预测准确度进行修正处理,从而可确定出该目标多媒体数据的标注标签。在一个实施例中,该标签预测设备可以是终端设备,在该标签预测设备为终端设备时,该终端设备可对获取到的目标多媒体数据直接进行标签预测处理,进而得到该目标多媒体数据的标注标签,其中,该终端设备可以是智能手机,平板电脑,笔记本电脑,台式计算机以及智能电视等等,且该终端设备中可运行各式各样的客户端(application,APP),如进行视频播放的客户端,进行社交的客户端,进行资讯浏览的客户端,以及提供教育业务的客户端等等。或者,该标签预测设备也可以是服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。在该标签预测设备为服务器时,该终端设备将在获取到目标多媒体数据后,先将该目标多媒体数据发送给服务器,由服务器预测得到该目标多媒体数据的标注标签。
在终端设备确定出目标多媒体数据的标注标签后,可基于该目标多媒体数据的标注标签,对该目标多媒体数据进行分类显示,如该目标多媒体数据的标注标签包括小狗,则可将该目标多媒体数据显示在儿童类的显示区域中,基于标注标签对目标多媒体数据进行分类显示,可提升对多媒体数据的存储的有序性,从而可提升用户的数据查询效率。在存储多媒体数据时,可将该多媒体数据存储到区块链网络中,以保证该多媒体数据不被篡改其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
请参见图2,是本发明实施例提出的一种标签预测方法的示意流程图,该方法可由上述的标签预测设备执行,如图2所示,该方法可包括:
S201,对目标多媒体数据进行标签预测处理,得到目标多媒体数据的标签预测集,标签预测集包括目标多媒体数据的N个预测标签,以及每个预测标签的预测准确度,N为大于等于1的整数。
标签预测设备可在获取到目标多媒体数据后,采用标签预测模型对该目标多媒体数据进行标签预测处理,从而得到该目标多媒体数据的标签预测集,其中,在该标签预测设备调用标签预测模型对该目标多媒体数据进行标签预测处理,得到该目标多媒体数据的标签预测集时,该标签预测设备需要先得到该目标多媒体数据的图像帧,可以理解的是,如果该目标多媒体数据为图像数据,则该目标多媒体数据即为一个图像帧,而如果该目标多媒体数据为视频数据,则该标签预测设备需要先进行图像帧的获取,得到该目标多媒体数据的多个图像帧。在该标签预测设备获取得到该目标多媒体数据的图像帧后,可通过该标签预测模型的骨干网络,得到该目标多媒体数据的特征数据,其中,通过骨干网络得到的一个特征数据和一个图像帧相对应,也就是说,如果该目标多媒体数据包括的图像帧的数量为多个,那么通过骨干网络得到的特征数据的数量也为多个。在一个实施例中,标签预测模型中的骨干网络可以是卷积神经网络结构,该卷积神经网络结构例如可以是ResNet50(一种残差网络),ResNet50是在学术界和工业界均有广泛应用的网络结构,其引入的恒等近路连接结构有效解决了深层网络模型难以训练的问题,也就是说,采用ResNet50在大大增加网络深度的同时获得高精准度,其中,该骨干网络的提取能力是采用百万级别的样本数据进行训练后得到的,在训练完成后,骨干网络的网络参数将被固定,那么在应用时,则可直接调用该骨干网络获取该图像帧的特征数据。可以理解,在该目标多媒体数据包括多个图像帧时,通过骨干网络则可得到该目标多媒体数据的多个特征数据。
在一个实施例中,在得到该目标多媒体数据的特征数据后,如果得到的该目标多媒体数据的特征数据有多个,则可以将该目标多媒体数据的多个特征数据通过时序池化层,从而得到该目标多媒体数据的目标特征数据,其中,该时序池化层采用的时序汇合网络,在将多个特征数据通过该时序汇合网络后,则可得到目标特征数据,其中,该时序汇合网络可采用NextVLAD结构,NextVLAD结构的时序汇合网络是采用千万级的样本数据进行NextVLAD时序学习得到的,学习得到的NextVLAD结构的时序汇合网络的参数,可将多个特征数据组成一个单独表达(如上述的目标特征数据)。NextVLAD结构是一种效果优异的单模型结构,在参数量较小的情况下能得到最先进的效果。该模型提供了一种将图像帧级别的特征数据转化并压缩成一个特征向量,其基本出发点是在NetVLAD模型的基础上,将高维度的特征先进行分组,通过引入注意力机制聚合提取时间维度的信息,这样既可以获得较高的准确率,又可以使用更少的参数量,且其是使用特征数据进行训练收敛的,使得训练收敛的速度较快,可应用到大规模的标签预测过程。其中,NextVLAD结构中的时序聚合模块可如图3a所示,其中,x为多媒体数据的特征数据(如视频数据的视频帧特征),FC为全连接层,c为聚类个数的参数,波浪表示重塑(reshape)操作,G是群组数。具体地,基于该NextVLAD结构中的时序聚合模块,基于该目标多媒体数据的多个特征数据计算得到目标特征数据的过程可步骤s11~s13:
s11,对每个特征数据x进行升维分组处理。具体地,可将特征数据x通过一个全连接层FC,从而可将该特征数据升维到λ倍,进一步地,在将特征数据升维到λ倍后,可将每个特征数据分为G组,其中,λ和G是两个超参数,且λ/G<1。
s12,对分组得到的每组特征数据进行处理,其中,对每组的特征数据的处理过程和NetVLAD方法相似;
s13,确定每组特征数据对应的特征权重,并对处理后的每组特征数据进行加权处理,得到该目标多媒体数据的目标特征数据。
在标签预测设备得到目标多媒体数据的目标特征数据后,则可基于该目标特征数据对该目标多媒体数据进行标签预测处理,从而得到该目标多媒体数据的标签预测集,其中,在该标签预测设备根据该目标多媒体数据的目标特征数据确定该目标多媒体数据对应的标签预测集时,可采用该标签预测模型中的分类器根据该目标特征数据确定该目标多媒体数据对应的标签预测集,在一个实施例中,分类器是通过分类函数对数据进行分类的模型,该分类函数可将数据库中的数据映射到给定类别的某一个(或多个)类别中,从而实现对数据的预测,对应地,该分类器在根据目标多媒体数据的目标特征数据确定该目标多媒体数据的标签预测集时,可获取已有的标签词汇集,从而可确定该目标多媒体数据的目标特征数据能被映射到该标签词汇集的一个或多个标签词汇上,那么,该被映射到的一个或多个标签词汇,则为预测得到的该标签预测设备的预测标签。其中,分类器在得到该目标多媒体数据的每个预测标签时,还将得到每个预测标签对应的预测准确度,可以理解的是,某个预测标签对应的预测准确度越高,则将该预测标签作为该目标多媒体数据的标注标签的可能性也就越大,即是基于预测准确度高的预测标签对该目标多媒体数据进行描述时的准确性也就越大。在标签预测设备得到目标多媒体数据的多个预测标签,以及每个预测标签的预测准确度后,为了提升对目标多媒体数据进行标签预测后得到的标注标签的准确性,标签预测设备可先基于该标签预测集中各预测标签的准确度对预测得到的预测标签进行筛选,从而可基于筛选后的标签进行标注标签的确定,具体的,该标签预测设备可先转而执行步骤S202。
S202,从标签预测集中筛选出满足标签层级关系的M个参考标签,M为大于1,且小于N的整数。
标签预测设备在对标签预测集中的预测标签进行筛选时,可基于标签之间的层级依赖关系(即标签层级关系)进行,具体地,该标签预测设备可先将该标签预测集中具有标签层级关系的预测标签梳理为多组k级标签,并筛除不满足标签层级关系的预测标签,其中,k用于指示一个标签组中包括的标签级数,k为大于等于2的整数,其中,梳理得到的一个标签组可采用“A-B-...-X”的表示形式,其中,A为该一个标签组中属于第一层级的预测标签,B和X为该一个标签组中该第一层级的预测标签A的从属标签,可以理解的是,如果一个标签组为的k取值为2,则说明该一个标签组包括2个预测标签,可采用“A-B”的形式进行表示。举例来说,若该标签预测集包括的预测标签为:{小孩,动物,兔子,猫,狗}等,由于动物-兔子,动物-猫,动物-狗都是满足两级标签层级关系的,该动物为一级标签,兔子,猫,狗均是一级标签从属的二级标签,所以,该标签预测设备可将该标签预测集中不具备标签层级关系的标签(“小孩”标签)删除,并将其余具备标签层级关系的标签(包括动物,兔子,猫,狗等)梳理为3组二级标签,即为{动物-兔子,动物-猫,动物-狗}。
在一个实施例中,在该标签预测设备将该标签预测集合中具备标签层级关系的预测标签梳理为多组k级标签时,梳理得到的各个标签组中标签的级数可以是不同的,如梳理得到的多个标签组中,可能包括包含二级关系的标签组,即采用“A-B”的形式进行表示的标签组,也可能包括包括三级关系的标签组,即采用“A-B-C”的形式进行表示的标签组,也可能包括包含其他标签层级关系的标签组;或者,梳理得到的各个标签组中标签的级数也可以是相同的,如上述的梳理得到的标签集均是二级关系的标签组。
在该标签预测设备得到多个标签组后,则可得到的多个标签组中确定出M个参考标签,在具体实现中,标签预测设备可先确定得到的多个标签组中,每个标签组的一级标签对应的预测准确度,基于每个标签组中一级标签对应的预测准确度,可进一步确定对应预测准确度超过第一准确度阈值的一级标签,从而可将准确度超过该第一准确度阈值的一级标签的从属标签作为参考标签,并根据确定出的参考标签确定出该目标多媒体数据的标注标签。在一个实施例中,在标签预测设备将准确度超过第一准确度阈值的一级标签的从属标签作为参考标签后,该标签预测设备可直接将该准确度超过第一准确度阈值的一级标签作为该目标多媒体数据的一个标注标签,并根据筛选得到的参考标签确定出该目标多媒体数据的其他标注标签;或者,该标签预测设备也可直接丢弃该准确度超过第一准确度阈值的一级标签,仅将根据筛选的得到的参考标签确定该目标多媒体数据的标注标签。
S203,根据标签层级关系对每个参考标签的预测准确度进行修正,并采用修正后的预测准确度更新标签预测集。
S204,从更新后的标签预测集中选取目标多媒体数据的标注标签。
在步骤S203和步骤S204中,标签预测设备在根据筛选得到的参考标签,确定出该目标多媒体数据的标注标签时,可先根据该标签层级关系对每个参考标签的预测准确度进行修正,从而可基于修正后的预测准确度更新标签预测集,其中,由于每个参考标签均对应有一个一级标签,那么,在标签预测设备根据标签层级关系对每个参考标签的预测准确度进行修正处理时,该标签预测设备可将对应的一级标签的预测准确度较高的参考标签的预测准确度的大小,调整为大于对应一级标签的预测准确度较低的参考标签的预测准确度的大小,举例来说,若两个参考标签分别为a和b,其中,参考标签a对应的一级标签的预测准确度为70%,参考标签b对应的一级标签的预测准确度为80%,那么,该标签预测设备在调整参考标签a和b的预测准确度的大小时,将保持参考标签a调整后的预测准确度小于参考标签b调整后得到预测准确度。
在一个实施例中,标签预测设备在根据标签层级关系对每个参考标签的预测准确度进行修正处理后,在基于修正后的预测准确度更新标签预测集时,该标签预测设备可将修正后的预测准确度大于第二准确度阈值的参考标签,以及相应的修正后的预测准确度作为更新后的标签预测集,其中,该第二准确度阈值则例如可以是80%或者90%等。基于更新后的标签预测集,标签预测设备则可从该更新后的标签预测集中选取出该目标多媒体数据的标注标签,其中,该标签预测设备可根据更新后的标签预测集合中的各个参考标签对应的修正后的准确度,对该更新后的标签预测集合中的各个参考标签进行降序排序,从而可根据该顺序,并按照从前往后的顺序选取的一个或多个参考标签作为该目标多媒体数据的标注标签。
在一个实施例中,基于标签预测设备得到该目标多媒体数据的标注标签后,则可基于该标注标签对该目标多媒体数据进行分类存储,以方便用户可基于该目标多媒体数据的类别对该目标多媒体数据进行快速查找,进而达到提升用户的数据查找效率的效果。其中,基于该标注标签对目标多媒体数据进行分类存储的结果,即是该目标多媒体数据对应的类别,在基于标注标签对目标多媒体数据进行分类存储时,可采用分级存储的方式,如图3b所示的目标多媒体数据包括的标注标签包括“热气球,大象,兔子,松鼠”,基于该标注标签对该目标多媒体数据进行分类确定,该目标多媒体数据的一级分类为少儿,二级分类为动画片。或者,在另一实施例中,如果一个多媒体数据的标注标签包括“肉片,辣椒,吃货,北京探店”则可确定该多媒体数据对应的以及分类为美食,二级分类为探店。
在本发明实施例中,标签预测设备可对获取到的目标多媒体数据进行标签预测处理,从而得到该目标多媒体数据的标签预测集,并可在得到该目标多媒体数据的标签预测集后,获取标签层级关系,并根据该标签层级关系从该标签预测集中满足标签层级关系的参考标签,以及根据该标签层级关系对筛选得到的参考标签的预测准确度进行修正处理,在该标签预测设备根据该标签层级关系对筛选得到的参考标签的预测准确度进行修正处理后,则可根据修正后的预测准确度确定该目标多媒体数据的标注标签,基于标签层级关系对预测标签的预测准确度进行修正,可提升该预测准确度的预测精度,那么使得标签预测设备根据修正后的预测准确度进行标注标签的预测,则可有效提升目标多媒体数据确定出标注标签的准确度。
请参见图4,是本发明实施例提供的一种标签预测方法的示意流程图,该方法可由上述的标签预测设备执行,如图4所示,该方法可包括:
S401,对目标多媒体数据进行标签预测处理,得到目标多媒体数据的标签预测集,标签预测集包括目标多媒体数据的N个预测标签,以及每个预测标签的预测准确度,N为大于等于1的整数。
标签预测设备在获取到目标多媒体数据后,可调用训练完成的标签预测模型对该目标多媒体数据进行标签预测处理,进而得到该目标多媒体数据的标签预测集,其中,该目标多媒体数据对应的目标特征数据可以是该目标多媒体数据的一个目标特征向量。在一个实施例中,在调用训练完成的标签预测模型对该目标多媒体数据进行标签预测处理之前,可先确定标签词汇集,进而可在训练完成的标签预测模型获取到该标签词汇集后,根据目标多媒体数据的目标特征数据,从标签词汇集中获取与目标特征数据匹配的N个标签词汇,并将选取出的N个标签词汇作为目标多媒体数据的N个预测标签。其中,该标签词汇集是从标签训练集包括的样本多媒体数据的标注标签选取出的,该样本多媒体数据的标注标签可采用人工标注的方式进行添加,在训练完成的标签预测模型获取到添加了标注标签的样本多媒体数据后,则可将对应出现频次高于预设频次阈值的标注标签添加到备选词汇集,举例来说,如果该训练完成的标签预测模型获取到的样本多媒体数据有500个,但为该500个样本多媒体数据添加的标注标签的总数有1000个,但该1000个标注标签中只有300个标注标签的出现频率高于预设频率阈值,则该训练完成的标签预测模型将从该1000个标注标签中选取出该300个高频出现的标签添加到备选词汇集。
在训练完成的标签预测模型确定出备选词汇集后,该训练完成的标签预测模型则可根据备选词汇集中各标注标签的标签类别,对备选词汇集中的标注标签进行筛选处理,并将筛选后的词汇集作为标签词汇集。在一个实施例中,标注标签的标签类别可根据对多媒体数据的识别维度进行确定,如一个标注标签是通过视觉识别维度确定的,则该一个标注标签的标签类别为视觉类标签,或者,若另一标注标签是通过听觉识别维度确定的,则该一个标注标签的标签类别为听觉类标签,举例来说,若一个多媒体数据为一个图像,且该一个多媒体数据中呈现由一条狗,一个小孩,一棵树,且该一个多媒体数据进行显示时伴随着A音乐的播放,在该一个多媒体数据的标注标签为{小孩,狗,A音乐}时,由于小孩,狗是标注人员基于视觉看到的多媒体数据的呈现为该一个多媒体数据添加的标注标签,而A音乐则是标注人员基于听觉听到的A音乐为该一个多媒体数据添加的标注标签,那么该一个多媒体数据的标注标签中的小孩标签,以及狗标签则为视觉类标签,A音乐则为听觉类标签。在训练完成的标签预测模型确定备选词汇集中各标注标签的的标签类别后,则可基于确定出的标签类别对备选词汇集进行筛选,其中,由于该训练完成的标签预测模型提取的目标特征数据仅能反应目标多媒体数据在视觉呈现上的特性,所以,在该训练完成的标签预测模型对该备选词汇集进行筛选时,训练完成的标签预测模型将只保留标签类别为视觉类的标签,并删除其他类别的标签,进而可将基于备选词汇集筛选得到的词汇集作为标签词汇集。
在一个实施例中,该标签预测设备在对该标签预测模型进行训练时,该标签预测设备可先获取训练数据集,在一个实施例中,该训练数据集包括多个样本多媒体数据,该训练数据集包括的样本多媒体数据中包括已添加标注标签的数据,以及未添加标注标签的数据,其中,该训练数据集包括的样本数据集中已添加标注标签的数据可以是采用上述的标签词汇集确定出的,也可以是人工标注的,在本发明实施例中不做限定。在该标签预测设备获取到训练数据集后,则可调用标签预测模型对训练数据集中的任一样本多媒体数据进行标签预测处理,得到任一样本多媒体数据的一个预测样本标签,以及预测样本标签对应的预测分值,从而可确定出该训练数据集中每个样本多媒体数据的预测样本标签,以及对应的准确度。进一步的,该标签预测设备可根据每个样本多媒体数据的预测样本标签,对应的准确度以及目标损失函数对标签预测模型进行调整,得到训练完成的标签预测模型。
在一个实施例中,该标签预测设备在训练标签预测模型时,可采用二分类交叉熵损失函数(binary cross-entropy loss,bce)作为目标损失函数进行训练,其中,该二分类交叉熵损失函数可标记为lossBCE,具体可如式(1)所示:
其中,i表示预测得到的预测样本标签的样本类别,一个预测样本标签对应一个样本类别i,其中,i的取值为-1,0或1,yi表示当前样本类别为的i真实标签,那么,yi=1则表示已知当前样本类别为i的真实标签,yi=0则表示不确定当前样本类别为i的真实标签是否已知,yi=-1则表示不知当前样本类别为i的真实标签。此外,表示当前样本类别为i的预测准确度。那么,在采用二分类交叉熵损失函数作为目标损失函数进行训练对标签预测模型进行训练时,可采用训练数据集中的任一样本多媒体数据输入标签预测模型,该标签预测模型将得到该任一样本多媒体数据的预测样本标签,以及相应的预测准确度,在一个实施例中,该标签预测模型将得到的任一样本多媒体数据的预测样本标签作为当前样本类别,那么,则可将标签预测模型预测得到的任一样本多媒体数据的预测样本标签,以及对应的预测准确度代入上式(1)中,并不断调整损失值lossBCE的大小,并在损失值取得最小值时,得到训练完成的标签预测模型。
由于在基于bce损失函数进行模型训练时,会使用预测得到的标签数量对损失值lossBCE进行归一化处理,所以,为了减少模型的训练难度,该标签预测设备也可采用不完备多标签损失函数(Partial Multilabel Loss,PML)作为目标损失函数对该标签预测模型进行训练。在一个实施例中,在该标签预测设备采用不完备多标签损失函数对标签预测模型进行训练时,将利用该训练数据集中已知的添加了标注标签的比例来对损失值lossPML进行归一化,而忽略该训练数据集中未知标注标签的类别带来的损失值,可大大降低对标签预测模型的训练难度;由于不完备多标签损失函数与每个样本的已知的标签类别数量无关,因此,对每个样本多媒体数据的预测样本标签的预测准确度给与的权重,使得不完备多标签损失函数可适应不同样本多媒体数据的已知标签类别数量不均衡的情况,其中,该不完备多标签损失函数可标记为lossPML,具体可如式(2)所示:
同样的,i表示预测得到的预测样本标签的样本类别,一个预测样本标签对应一个样本类别i,其中,i的取值为-1,0或1,yi表示当前样本类别为的i真实标签,那么,yi=1则表示已知当前样本类别为i的真实标签,yi=0则表示不确定当前样本类别为i的真实标签是否已知,yi=-1则表示不知当前样本类别为i的真实标签。此外,表示当前样本类别为i的预测准确度,py表示当前样本已知标签的比例,/>的取值范围为0~1。其中,该标签预测设备在采用不完备多标签损失函数标签预测模型进行训练时,可先判断任一预测样本标签对应的样本多媒体数据是否添加有标注标签,从而可根据判断结果确定每个预测样本标签的预测分值对应的权重θ,进一步地,该标签预测设备可调整权重和对应的预测准确度,以使目标损失函数的函数取值lossPML取得最小值,并在目标损失函数取得最小值时停止对权重和对应的预测分值的调整,从而得到训练完成的标签预测模型。经实践表明,针对弱标注的多媒体数据设计的损失函数使得标签预测模型模型在同样的数据上验证集准确率提升1.2%,召回率提升2%。
在标签预测设备得到训练完成的标签预测模型后,标签预测设备可在获取到目标多媒体数据时,调用该训练完成的标签预测模型确定该目标多媒体数据对应的目标特征数据。在一个实施例中,训练完成的标签预测模型在确定出目标多媒体数据的目标特征数据时,如果该目标多媒体数据是包括多帧图像的视频数据,可先提取目标多媒体数据的每帧图像的特征数据,得到目标多媒体数据的多个特征数据,进一步地,训练完成的标签预测模型可对提取得到的多个特征数据进行下采样处理,得到目标多媒体数据对应的目标特征数据,其中,训练完成的标签预测模型对提取得到的多个特征数据进行下采样处理,并得到该目标多媒体数据对应的目标特征数据时,可将提取得到的多个特征数据通过时序池化层,从而实现在保持目标多媒体数据的特征特性的基础上,对该目标多媒体数据的特征数据的数量进行压缩,从而得到最能反映目标多媒体数据的特征的一个目标特征数据。其中,该时序池化层即可采用上述的NextVLAD网络结构。
在训练完成的标签预测模型得到该目标多媒体数据的目标特征数据后,则可根据该目标特征数据对目标多媒体数据进行标签预测处理,得到目标多媒体数据的标签预测集,并从获取到的标签预测集中筛选出M个参考标签,即转而执行步骤S402。
S402,从标签预测集中筛选出满足标签层级关系的M个参考标签,M为大于1,且小于N的整数。
S403,根据标签层级关系对每个参考标签的预测准确度进行修正,并采用修正后的预测准确度更新标签预测集。
S404,从更新后的标签预测集中选取目标多媒体数据的标注标签。
在步骤S402~步骤S404中,预测准确度包括预测分值,该标签预测设备在得到标签预测集后,则可从该标签预测集中确定出所属层级为第一层级的预测标签的参考预测分值,其中,满足标签层级关系的预测标签的所属层级从第一层级开始依次递减,也就是说,属于第一层级的预测标签是属于第二层级的预测标签的上级标签,而第二层级的预测标签则是第一层级的预测标签的从属标签(或下级标签)。在该标签预测设备确定出所属层级为第一层级的预测标签的参考预测分值后,则可从确定的参考预测分值中筛选出超过分数阈值的分值,并确定每个超过分数阈值的分值的参考预测标签,进一步地,该标签预测设备可将每个超过分数阈值的分值的参考预测标签的M个下级标签作为参考标签。在一个实施例中,在该标签预测设备确定出超过分数阈值的分值所对应的参考预测标签后,可直接将该超过分数阈值的分值所对应的参考预测标签可直接作为该目标多媒体数据的标注标签,或者,也可直接丢弃该超过分数阈值的分值所对应的参考预测标签。
在一个实施例中,标签预测设备在确定出参考标签后,则可根据标签层级关系对每个参考标签的预测准确度进行修正处理,由于该标签预测设备确定出的参考标签为某个一级标签的下级标签,则该标签预测设备在根据标签层级关系对每个参考标签的预测准确度进行修正处理时,可先获取每个参考标签的上级标签的预测分值,其中,该预测分值是采用第一打分函数对相应参考标签进行打分处理得到的;进一步地,该标签预测设备可调用第二打分函数根据每个参考标签的上级标签的预测分值,对相应参考标签的预测分值进行修正,其中,上级标签的预测分值高的参考标签修正后的预测分值,高于上级标签的预测分值低的参考标签的预测分值。在标签预测设备获取得到M个参考标签,以及每个参考标签对应的修正后的预测分值后,该标签预测设备可采用修正后的预测分值(即预测准确度)对原始的标签预测集进行更新处理,从而得到更新后的标签预测集,并从该更新后的标签预测集中选取出该目标多媒体数据的标注标签,在一个实施例中,该标签预测设备从更新后的标签预测集中选取出的目标多媒体数据的标注标签时,可将更新后的预测分值大于某个分数阈值的参考标签作为该目标多媒体数据的标注标签,基于对预测得到的预测标签的预测准确度的修正处理,并根据修正后的预测准确度进行标注标签的选择,可提升该标签预测设备确定的标注标签对目标多媒体数据进行特征描述的准确性。
在一个实施例中,训练完成的标签预测模型的网络结构图可具体如图5所示,那么,该标签预测设备在调用该训练完成的标签预测模型确定目标多媒体数据时,可先获取该目标多媒体数据包括的多帧图像,并将该多帧图像通过该训练完成的标签预测模型的骨干网络,从而得到每帧图像的特征数据,在得到每帧图像的特征数据后,训练完成的标签预测模型可将得到的特征数据通过NextVLAD结构的时序池化层,从而得到该目标多媒体数据的一个目标特征数据,进而可将该目标特征数据输入到分类器中,得到该目标多媒体数据的N个预测标签,以及每个预测标签的预测分值,其中,每个预测标签的预测分值是通过与分类器连接的sigmoid层包括的sigmoid函数(一种神经网络的激活函数,即第一打分函数)进行打分处理得到的。此外,基于分类器得到的N个预测标签,该标签预测设备可根据标签层级关系,从该N个预测标签从筛选出M个参考标签,从而可采用softmax层(平滑层)的第二打分函数(如层次平滑层(Hierarchical Softmax)中的打分函数)对筛选出的M各参考标签的预测分值进行修正,并基于修正后的预测分数确定该目标多媒体数据的标注标签。在该标签预测设备基于对目标多媒体数据的标签预测确定出该目标多媒体数据的标注标签后,该标签预测设备还可基于标签迁移确定该目标多媒体数据的其他标注标签,其中,标签迁移是一种自动预测标签的方法,通过从特征检索数据库中检索与目标多媒体数据最相似的多媒体数据,从而可将相似的多媒体数据的标注标签迁移作为当前目标多媒体数据的标注标签,具体地,该标签预测设备可转而执行步骤S405~步骤S407。
S405,对目标多媒体数据进行特征提取处理,得到目标多媒体数据的特征数据。
S406,根据目标多媒体数据的特征数据,从多媒体知识库中获取与目标多媒体数据的相似度满足相似度阈值的参考多媒体数据,以及参考多媒体数据的标注标签。
S407,根据参考多媒体数据的标注标签,确定目标多媒体数据的标注标签。
在步骤S405~步骤S407中,如果采用标签预测的方式得到的目标多媒体数据的标注标签的数量较少,或者,为了对得到的目标多媒体数据的标注标签进行优化,该标签预测设备还可利用目标多媒体数据的特征数据进行标签迁移,实现对该目标多媒体数据的标注标签的预测。在具体实现中,该标签预测设备需要先根据多媒体数据,以及该多媒体数据的特征数据和相应的标注标签构建多媒体知识库,该多媒体知识库会将一个多媒体数据的特征数据,以及相应的标注标签进行关联存储,也就是说,该标签预测设备在构建多媒体知识库时,需要先确定任一多媒体数据对应的特征数据,以及该任一多媒体数据对应的标注标签,从而可将该特征数据和对应的标注标签进行关联存储,基于对不同多媒体数据的特征数据和标注标签的关联存储,则可构建得到该多媒体知识库。
在标签预测设备构建该多媒体知识库完成后,则可提取需要确定标注标签的目标多媒体数据的特征数据,从而可根据该目标多媒体数据的特征数据,从多媒体知识库中获取与目标多媒体数据的相似度满足相似度阈值的参考多媒体数据,在该标签预测设备获取得到参考多媒体数据后,则可进一步获取到与该参考多媒体数据关联存储的标注标签,在一个实施例中,如果与目标多媒体数据的相似度满足相似度阈值的参考多媒体数据的数量为多个,且任一参考多媒体数据的标注标签的数量为一个或多个,该标签预测设备在获取到与该参考多媒体数据关联存储的标注标签后,则可统计任一参考多媒体数据的任一标签,在多个参考多媒体数据对应的标注标签中的出现次数,从而可按照出现次数,对参考多媒体数据的标注标签进行排序,并将对应顺序大于等于预设顺序阈值的标注标签作为目标多媒体数据的标注标签。举例来说,如果与目标多媒体数据的特征数据之间的相似度满足相似度阈值的参考多媒体数据包括:参考多媒体数据x和参考多媒体数据y,而参考多媒体数据x对应的标注标签包括:标签1,标签2和标签3;参考多媒体数据y对应的标注标签包括:标签1,标签2和标签4,那么统计可得每个标签的出现次数,即标签1出现2次,标签2出现2次,标签3和标签4分别出现1次,则该标签预测设备排序得到的标签为:标签1(并列标签2),以及标签3(并列标签4),基于排序的标签顺序,该标签预测设备可将标签1和标签2作为该目标多媒体数据的标注标签。
在另一个实施例中,如果与目标多媒体数据的相似度满足相似度阈值的参考多媒体数据的数量为多个,且任一参考多媒体数据的标注标签的数量为一个或多个,该标签预测设备在获取到与该参考多媒体数据关联存储的标注标签后,也可基于参考多媒体数据的标注标签的出现次数,将出现次数大于预设次数阈值的标签作为该目标多媒体数据的标注标签,如上述的示例中,若根据目标多媒体数据的特征数据确定出的参考多媒体数据包括:参考多媒体数据x和参考多媒体数据y,且根据参考多媒体数据x和参考多媒体数据y确定出的标注标签中,标签1出现2次,标签2出现2次,标签3和标签4分别出现1次,如果预设次数阈值为1次,则该标签预设设备可将标签1,标签2,标签3以及标签4均作为该目标多媒体数据的标注标签。
下面结合图6对标签预测设备基于目标多媒体数据的特征数据进行标签迁移预测得到该目标多媒体数据的标注标签的过程进行详细说明,首先,该标签预测设备可先根据某些已添加了标注的多媒体数据的标注标签,构建多媒体知识库,具体地,该标签预测设备可将任一添加了标注的多媒体数据输入到embedding model(一种针对多媒体数据的特征提取模型),从而可获取到该多媒体数据相应的嵌入(embedding)向量,其中,采用embedding model转换后的不同特征数据(embedding向量)的远近程度,用于描述相应特征的差异程度,即如果两个embedding向量离得越远,那么这两个embedding向量对应的特征的差异也就越大。在得到每个多媒体数据的特征数据(embedding向量)后,则可将为相应多媒体数据添加的标注标签,和该特征数据进行关联存储,从而得到多媒体知识库。
在得到多媒体知识库后,则可基于该多媒体知识库中记录的特征数据,以及特征数据关联的标注标签,对目标多媒体数据的标注标签进行预测,同样的,该标签预测设备可在获取到目标多媒体数据(任一测试(query)数据)后,通过同一embedding model得到目标多媒体数据的特征数据(embedding向量),进而可将目标多媒体数据的embedding向量和多媒体知识库中记录的特征数据进行匹配。在一个实施例中,基于embedding向量之间的远近差异特性,将目标多媒体数据的embedding向量和多媒体知识库中记录的特征数据进行匹配的过程,即是基于目标多媒体数据的embedding向量在多媒体知识库中记录的特征数据中进行最近邻检索的过程,以从多媒体知识库中确定出一个或多个与目标多媒体数据的embedding向量相近的参考特征数据,进而可根据该参考特征数据对应的参考多媒体数据的标注标签确定该目标多媒体数据的标注标签,其中,与参考特征数据对应的参考多媒体数据即是该目标多媒体数据的相似多媒体数据,进而也就可基于相似多媒体数据的标注标签确定该目标多媒体数据的标注标签。在一个实施例中,标签预测设备可对基于相似多媒体数据的标注标签进行投票,如采用上述的排序机制或者设置阈值的机制实现对相似多媒体数据的标注标签的投票,进而也就可以根据投票结果确定出该目标多媒体数据的标注标签,如将最大票数对应的标注标签作为目标多媒体数据的标注标签等等。
在标签预测设备分别调用训练完成的标签预测模型得到该目标多媒体数据的标注标签,以及基于目标多媒体数据的特征数据进行标签迁移,得到该目标多媒体数据的标注标签后,可分别将得到的标注标签作并集处理,并将做并集处理后的标注标签作为该目标多媒体数据的标注标签,且通过深度学习的标签预测模型,以及通过标签预测进行标签迁移来进行多媒体数据的标注标签的预测,分别具有开发流程简明、模型识别精度高和标签覆盖面广、更新周期短的优点。采用多媒体数据库根据目标多媒体数据的特征数据进行标签迁移,实现对该目标多媒体数据的标注标签的预测,基于千万数据量级的特征数据库,以及对应的标注标签的数据库可以构造出覆盖面广的多媒体知识库,而且,基于标签迁移进行标注标签的确定可有效利用重复相似的多媒体数据,而且采用相似多媒体数据的投票机制,可提升最终确定的标注标签的准确性。此外,如果采用标签迁移还可更快地适应新标签的扩展,可有效补充采用标签预测模型对该目标多媒体数据进行标签预测时带来的标签数量具备一定的局限性的问题。在一个实施例中,互联网生活的不断丰富发展,多媒体数据的数据内容更新快,且流行期短,所以,为了提升对多媒体数据的标注标签进行预测的能力,可将新产生的多媒体数据的特征数据,以及该新产生的多媒体数据的标注标签关联存储到多媒体知识库中,以实现对多媒体知识库的持续更新,那么在后续对多媒体数据进行标注标签的预测时,基于更新后的多媒体知识库实现对新的标注标签的识别预测,提高对多媒体数据的新产生的标注标签进行预测的扩展能力。
在本发明实施例中,标签预测设备在获取到目标多媒体数据后,可对该目标多媒体数据进行标签预测处理,从而得到该目标多媒体数据的多个预测标签集,并进而可基于标签层级关系进行参考标签的筛选,以及对每个参考标签的预测准确度进行修正,从而可采用修正后的预测准确度确定新的标签预测集,并从更新后的标签预测集中确定出目标多媒体数据的标注标签,基于标签层级关系对预测准确度的修正,提高了预测得到的标注标签的准确率。同时,该标签预测设备还可在采用目标多媒体数据预测该目标多媒体数据的标签预测集的同时,从多媒体知识库中获取与该目标多媒体数据的相似度满足相似度阈值的参考多媒体数据,以及该参考多媒体数据对应的标注标签,进而可将参考多媒体数据的标注标签作为该目标多媒体数据的标注标签,通过标签迁移得到的目标多媒体数据的标注标签,可实现对采用模型预测得到的标注标签的有效补充,而且,经实践表明,采用标签迁移进行标注标签的预测,可将标签预测设备可预测的标签数量从一万个增加到30万个,且对于新增的标签,只需要将该新增的标签对应的5个多媒体数据的特征数据添加到多媒体知识库即可,可有效节省将新增标签添加到模型进行训练的时间,提升了标签预测设备的标签扩展预测的能力。
基于上述标签预测方法实施例的描述,本发明实施例还提出了一种标签预测装置,请参见图7,该标签预测装置包括:预测单元701,筛选单元702,修正单元703和选取单元704。
预测单元701,用于对目标多媒体数据进行标签预测处理,得到所述目标多媒体数据的标签预测集,所述标签预测集包括所述目标多媒体数据的N个预测标签,以及每个预测标签的预测准确度,N为大于等于1的整数;
筛选单元702,用于从所述标签预测集中筛选出满足标签层级关系的M个参考标签,M为大于1,且小于N的整数;
修正单元703,用于根据所述标签层级关系对每个参考标签的预测准确度进行修正,并采用修正后的预测准确度更新所述标签预测集;
选取单元704,用于从更新后的标签预测集中选取所述目标多媒体数据的标注标签。
在一个实施例中,所述预测准确度包括预测分值,所述筛选单元702,具体用于:
从所述标签预测集中确定出所属层级为第一层级的预测标签的参考预测分值,满足所述标签层级关系的预测标签的所属层级从第一层级开始依次递减;
从确定的参考预测分值中筛选出超过分数阈值的分值,并确定每个超过所述分数阈值的分值的参考预测标签;
将每个超过所述分数阈值的分值的参考预测标签的M个下级标签作为参考标签。
在一个实施例,所述预测准确度包括预测分值;所述修正单元703,具体用于:
获取每个参考标签的上级标签的预测分值,所述预测分值是采用第一打分函数对相应参考标签进行打分处理得到的;
调用第二打分函数根据每个参考标签的上级标签的预测分值,对相应参考标签的预测分值进行修正,其中,对应上级标签的预测分值高的参考标签修正后的预测分值,高于对应上级标签的预测分值低的参考标签修正后的预测分值。
在一个实施例中,所述装置还包括:提取单元705,获取单元706和确定单元707。
提取单元705,用于对所述目标多媒体数据进行特征提取处理,得到所述目标多媒体数据的特征数据;
获取单元706,用于根据所述目标多媒体数据的特征数据,从多媒体知识库中获取与所述目标多媒体数据的相似度满足相似度阈值的参考多媒体数据,以及所述参考多媒体数据的标注标签;
确定单元707,用于根据所述参考多媒体数据的标注标签,确定所述目标多媒体数据的标注标签。
在一个实施例中,所述参考多媒体数据的数量为多个,任一参考多媒体数据的标注标签的数量为一个或多个;所述确定单元707,具体用于:
统计任一参考多媒体数据的任一标签,在多个参考多媒体数据对应的标注标签中的出现次数;
按照所述出现次数,对所述参考多媒体数据的标注标签进行排序,并将对应顺序大于等于预设顺序阈值的标注标签作为所述目标多媒体数据的标注标签。
在一个实施例中,所述目标多媒体数据包括一帧或多帧图像;所述预测单元701,具体用于:
提取目标多媒体数据的每帧图像的特征数据,得到所述目标多媒体数据的多个特征数据;
对提取得到的多个特征数据进行下采样处理,得到所述目标多媒体数据对应的目标特征数据;
根据所述目标特征数据对所述目标多媒体数据进行标签预测处理,得到所述目标多媒体数据的标签预测集。
在一个实施例中,所述预测单元701,具体用于:
获取标签词汇集,所述标签词汇集是从标签训练集包括的样本多媒体数据的标注标签选取出的;
根据所述目标特征数据,从所述标签词汇集中获取与所述目标特征数据匹配的N个标签词汇,并将所述N个标签词汇添加到所述目标多媒体数据的标签预测集。
在一个实施例中,所述预测单元701,具体用于:
获取标签训练集,所述标签训练集包括多个样本多媒体数据,以及每个样本多媒体数据的标注标签;
统计所述标签训练集中各标注标签的出现频次,并将对应出现频次高于预设频次阈值的标注标签添加到备选词汇集;
根据所述备选词汇集中各标注标签的标签类别,对所述备选词汇集中的标注标签进行筛选处理,并将筛选后的词汇集作为标签词汇集。
在一个实施例中,所述目标多媒体数据的预测标签,是通过调用训练完成的标签预测模型对所述目标多媒体数据进行预测处理得到的;所述装置还包括:调整单元708。
所述获取单元706,还用于获取训练数据集,所述训练数据集包括多个样本多媒体数据,所述样本多媒体数据包括已添加标注标签的数据,以及未添加标注标签的数据;
所述预测单元701,还用于调用标签预测模型对所述训练数据集中的任一样本多媒体数据进行标签预测处理,得到所述任一样本多媒体数据的预测样本标签,以及所述预测样本标签对应的预测准确度;
所述确定单元707,还用于根据所述训练数据集确定所述训练数据集中每个样本多媒体数据的预测样本标签,以及每个预测样本标签对应的预测准确度;
调整单元708,用于根据每个样本多媒体数据的预测样本标签,所述每个预测样本标签对应的预测准确度,以及目标损失函数对所述标签预测模型进行调整,得到训练完成的标签预测模型。
在一个实施例中,所述调整单元708,具体用于:
判断每个预测样本标签对应的样本多媒体数据是否添加有标注标签,并根据判断结果确定每个预测样本标签的预测准确度对应的权重;
调整所述权重和对应的预测准确度,以使目标损失函数取得最小值,并在所述目标损失函数取得最小值时,得到训练完成的标签预测模型。
在本发明实施例中,预测单元701可对获取到的目标多媒体数据进行标签预测处理,从而得到该目标多媒体数据的标签预测集,筛选单元702则可在得到该目标多媒体数据的标签预测集后,获取标签层级关系,并根据该标签层级关系从该标签预测集中满足标签层级关系的参考标签,从而使得修正单元703根据该标签层级关系对筛选得到的参考标签的预测准确度进行修正处理,在修正单元703根据该标签层级关系对筛选得到的参考标签的预测准确度进行修正处理后,选取单元704则可根据修正后的预测准确度确定该目标多媒体数据的标注标签,基于标签层级关系对预测标签的预测准确度进行修正,可提升该预测准确度的预测精度,那么使得标签预测设备根据修正后的预测准确度进行标注标签的预测,则可有效提升目标多媒体数据确定出标注标签的准确度。
请参见图8,是本发明实施例提供的一种标签预测设备的结构示意性框图。如图8所示的本实施例中的标签预测设备可包括:一个或多个处理器801;一个或多个输入设备802,一个或多个输出设备803和存储器804。上述处理器801、输入设备802、输出设备803和存储器804通过总线805连接。存储器804用于存储计算机程序,所述计算机程序包括程序指令,处理器801用于执行所述存储器804存储的程序指令。
所述存储器804可以包括易失性存储器(volatile memory),如随机存取存储器(random-access memory,RAM);存储器804也可以包括非易失性存储器(non-volatilememory),如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储器804还可以包括上述种类的存储器的组合。
所述处理器801可以是中央处理器(central processing unit,CPU)。所述处理器801还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)等。该PLD可以是现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)等。所述处理器801也可以为上述结构的组合。
本发明实施例中,所述存储器804用于存储计算机程序,所述计算机程序包括程序指令,处理器801用于执行存储器804存储的程序指令,用来实现上述如图2和图4中相应方法的步骤。
在一个实施例中,所述处理器801被配置调用所述程序指令,用于执行如上述的标签预测方法。
本发明实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述如图2或图4所示的方法实施例。其中,所述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的局部实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或局部流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (12)
1.一种标签预测方法,其特征在于,包括:
对目标多媒体数据进行标签预测处理,得到所述目标多媒体数据的标签预测集,所述标签预测集包括所述目标多媒体数据的N个预测标签,以及每个预测标签的预测准确度,所述预测准确度包括预测分值;N为大于等于1的整数;
从所述标签预测集中筛选出满足标签层级关系的M个参考标签,M为大于1,且小于N的整数;
获取每个参考标签的上级标签的预测分值,所述预测分值是采用第一打分函数对相应参考标签进行打分处理得到的;
调用第二打分函数根据每个参考标签的上级标签的预测分值,对相应参考标签的预测分值进行修正,其中,对应上级标签的预测分值高的参考标签修正后的预测分值,高于对应上级标签的预测分值低的参考标签修正后的预测分值;
采用修正后的预测分值更新所述标签预测集;
从更新后的标签预测集中选取所述目标多媒体数据的标注标签。
2.根据权利要求1所述的方法,其特征在于,所述从所述标签预测集中筛选出满足标签层级关系的M个参考标签,包括:
从所述标签预测集中确定出所属层级为第一层级的预测标签的参考预测分值,满足所述标签层级关系的预测标签的所属层级从第一层级开始依次递减;
从确定的参考预测分值中筛选出超过分数阈值的分值,并确定每个超过所述分数阈值的分值的参考预测标签;
将每个超过所述分数阈值的分值的参考预测标签的M个下级标签作为参考标签。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述目标多媒体数据进行特征提取处理,得到所述目标多媒体数据的特征数据;
根据所述目标多媒体数据的特征数据,从多媒体知识库中获取与所述目标多媒体数据的相似度满足相似度阈值的参考多媒体数据,以及所述参考多媒体数据的标注标签;
根据所述参考多媒体数据的标注标签,确定所述目标多媒体数据的标注标签。
4.根据权利要求3所述的方法,其特征在于,所述参考多媒体数据的数量为多个,任一参考多媒体数据的标注标签的数量为一个或多个;所述根据所述参考多媒体数据的标注标签,确定所述目标多媒体数据的标注标签,包括:
统计任一参考多媒体数据的任一标签,在多个参考多媒体数据对应的标注标签中的出现次数;
按照所述出现次数,对所述参考多媒体数据的标注标签进行排序,并将对应顺序大于等于预设顺序阈值的标注标签作为所述目标多媒体数据的标注标签。
5.根据权利要求1所述的方法,其特征在于,所述目标多媒体数据包括一帧或多帧图像;所述对目标多媒体数据进行标签预测处理,得到所述目标多媒体数据的标签预测集,包括:
提取目标多媒体数据的每帧图像的特征数据,得到所述目标多媒体数据的多个特征数据;
对提取得到的多个特征数据进行下采样处理,得到所述目标多媒体数据对应的目标特征数据;
根据所述目标特征数据对所述目标多媒体数据进行标签预测处理,得到所述目标多媒体数据的标签预测集。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标特征数据对所述目标多媒体数据进行标签预测处理,得到所述目标多媒体数据的标签预测集,包括:
获取标签词汇集,所述标签词汇集是从标签训练集包括的样本多媒体数据的标注标签选取出的;
根据所述目标特征数据,从所述标签词汇集中获取与所述目标特征数据匹配的N个标签词汇,并将所述N个标签词汇添加到所述目标多媒体数据的标签预测集。
7.根据权利要求6所述的方法,其特征在于,所述获取标签词汇集,包括:
获取标签训练集,所述标签训练集包括多个样本多媒体数据,以及每个样本多媒体数据的标注标签;
统计所述标签训练集中各标注标签的出现频次,并将对应出现频次高于预设频次阈值的标注标签添加到备选词汇集;
根据所述备选词汇集中各标注标签的标签类别,对所述备选词汇集中的标注标签进行筛选处理,并将筛选后的词汇集作为标签词汇集。
8.根据权利要求1所述的方法,其特征在于,所述目标多媒体数据的预测标签,是通过调用训练完成的标签预测模型对所述目标多媒体数据进行预测处理得到的;对所述标签预测模型的训练过程包括:
获取训练数据集,所述训练数据集包括多个样本多媒体数据,所述样本多媒体数据包括已添加标注标签的数据,以及未添加标注标签的数据;
调用标签预测模型对所述训练数据集中的任一样本多媒体数据进行标签预测处理,得到所述任一样本多媒体数据的预测样本标签,以及所述预测样本标签对应的预测准确度;
根据所述训练数据集确定所述训练数据集中每个样本多媒体数据的预测样本标签,以及每个预测样本标签对应的预测准确度;
根据每个样本多媒体数据的预测样本标签,所述每个预测样本标签对应的预测准确度,以及目标损失函数对所述标签预测模型进行调整,得到训练完成的标签预测模型。
9.根据权利要求8所述的方法,其特征在于,所述根据每个样本多媒体数据的预测样本标签,所述每个预测样本标签对应的预测准确度,以及目标损失函数对所述标签预测模型进行调整,得到训练完成的标签预测模型,包括:
判断每个预测样本标签对应的样本多媒体数据是否添加有标注标签,并根据判断结果确定每个预测样本标签的预测准确度对应的权重;
调整所述权重和对应的预测准确度,以使目标损失函数取得最小值,并在所述目标损失函数取得最小值时,得到训练完成的标签预测模型。
10.一种标签预测装置,其特征在于,包括:
预测单元,用于对目标多媒体数据进行标签预测处理,得到所述目标多媒体数据的标签预测集,所述标签预测集包括所述目标多媒体数据的N个预测标签,以及每个预测标签的预测准确度,所述预测准确度包括预测分值;N为大于等于1的整数;
筛选单元,用于从所述标签预测集中筛选出满足标签层级关系的M个参考标签,M为大于1,且小于N的整数;
修正单元,用于获取每个参考标签的上级标签的预测分值,所述预测分值是采用第一打分函数对相应参考标签进行打分处理得到的;调用第二打分函数根据每个参考标签的上级标签的预测分值,对相应参考标签的预测分值进行修正,其中,对应上级标签的预测分值高的参考标签修正后的预测分值,高于对应上级标签的预测分值低的参考标签修正后的预测分值,并采用修正后的预测分值更新所述标签预测集;
选取单元,用于从更新后的标签预测集中选取所述目标多媒体数据的标注标签。
11.一种标签预测设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、所述输入设备、所述输出设备和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1~9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110150871.1A CN113010705B (zh) | 2021-02-03 | 2021-02-03 | 标签预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110150871.1A CN113010705B (zh) | 2021-02-03 | 2021-02-03 | 标签预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113010705A CN113010705A (zh) | 2021-06-22 |
CN113010705B true CN113010705B (zh) | 2023-12-12 |
Family
ID=76385037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110150871.1A Active CN113010705B (zh) | 2021-02-03 | 2021-02-03 | 标签预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010705B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114037007A (zh) * | 2021-11-04 | 2022-02-11 | 北京市商汤科技开发有限公司 | 数据集的构建方法、装置、计算机设备及存储介质 |
CN117349257A (zh) * | 2022-06-28 | 2024-01-05 | 教育科技加私人有限公司 | 乐谱训练数据库的构建和应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171254A (zh) * | 2017-11-22 | 2018-06-15 | 北京达佳互联信息技术有限公司 | 图像标签确定方法、装置及终端 |
CN109961094A (zh) * | 2019-03-07 | 2019-07-02 | 北京达佳互联信息技术有限公司 | 样本获取方法、装置、电子设备及可读存储介质 |
WO2019233297A1 (zh) * | 2018-06-08 | 2019-12-12 | Oppo广东移动通信有限公司 | 数据集的构建方法、移动终端、可读存储介质 |
CN111104436A (zh) * | 2019-12-27 | 2020-05-05 | 苏宁云计算有限公司 | 一种标签维值自调整方法及系统 |
-
2021
- 2021-02-03 CN CN202110150871.1A patent/CN113010705B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171254A (zh) * | 2017-11-22 | 2018-06-15 | 北京达佳互联信息技术有限公司 | 图像标签确定方法、装置及终端 |
WO2019233297A1 (zh) * | 2018-06-08 | 2019-12-12 | Oppo广东移动通信有限公司 | 数据集的构建方法、移动终端、可读存储介质 |
CN109961094A (zh) * | 2019-03-07 | 2019-07-02 | 北京达佳互联信息技术有限公司 | 样本获取方法、装置、电子设备及可读存储介质 |
CN111104436A (zh) * | 2019-12-27 | 2020-05-05 | 苏宁云计算有限公司 | 一种标签维值自调整方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113010705A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
US20210271975A1 (en) | User tag generation method and apparatus, storage medium, and computer device | |
CN104834729B (zh) | 题目推荐方法和题目推荐装置 | |
CN110909182B (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN108984642B (zh) | 一种基于哈希编码的印花织物图像检索方法 | |
CN110351301A (zh) | 一种http请求双层递进式异常检测方法 | |
CN105095187A (zh) | 一种搜索意图识别方法及装置 | |
CN112052387B (zh) | 一种内容推荐方法、装置和计算机可读存储介质 | |
CN106055661B (zh) | 基于多Markov链模型的多兴趣资源推荐方法 | |
CN111506773B (zh) | 一种基于无监督深度孪生网络的视频去重方法 | |
CN107943792B (zh) | 一种语句分析方法、装置及终端设备、存储介质 | |
CN113010705B (zh) | 标签预测方法、装置、设备及存储介质 | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN103810162A (zh) | 推荐网络信息的方法和系统 | |
CN110990676A (zh) | 一种社交媒体热点主题提取方法与系统 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
CN111368529B (zh) | 基于边缘计算的移动终端敏感词识别方法、装置及系统 | |
Zhang et al. | OMCBIR: Offline mobile content-based image retrieval with lightweight CNN optimization | |
CN113051462A (zh) | 一种多分类模型训练方法、系统及装置 | |
CN106204053A (zh) | 信息类目错放识别方法和装置 | |
CN112464106B (zh) | 对象推荐方法及装置 | |
CN113837266A (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
TW201243627A (en) | Multi-label text categorization based on fuzzy similarity and k nearest neighbors | |
CN116881462A (zh) | 文本数据处理、文本表示、文本聚类的方法及设备 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40046486 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |