CN113392317A - 一种标签配置方法、装置、设备及存储介质 - Google Patents

一种标签配置方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113392317A
CN113392317A CN202110019037.9A CN202110019037A CN113392317A CN 113392317 A CN113392317 A CN 113392317A CN 202110019037 A CN202110019037 A CN 202110019037A CN 113392317 A CN113392317 A CN 113392317A
Authority
CN
China
Prior art keywords
target
feature
training
text
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110019037.9A
Other languages
English (en)
Inventor
叶振旭
杨伟东
岑杰鹏
曹圣明
王珩
陈宇
车翔
徐孩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110019037.9A priority Critical patent/CN113392317A/zh
Publication of CN113392317A publication Critical patent/CN113392317A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请实施例公开了一种人工智能领域的标签配置方法、装置、设备及存储介质,其中该方法包括:获取待配置标签的目标资源;通过特征提取模型,对目标资源的目标参考数据进行特征提取处理,得到目标参考数据对应的特征向量;通过标签分类模型,根据目标参考数据对应的特征向量,确定目标资源所属于各候选分类标签的概率,标签分类模型与特征提取模型互相独立;根据目标资源所属于各候选分类标签的概率,确定目标资源对应的目标分类标签。该方法可以使用大规模的训练样本对所使用的模型进行训练,并且所耗费的迭代训练时间较短,能够满足网络平台的实际应用需求。

Description

一种标签配置方法、装置、设备及存储介质
技术领域
本申请涉及人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种标签配置方法、装置、设备及存储介质。
背景技术
在互联网大数据时代,很多网络平台需要针对自身所能提供的资源配置对应的标签,以便基于资源对应的标签为用户提供资源推荐等个性化服务。以视频网络平台为例,其需要针对自身的视频资源配置对应的标签,从而依据视频资源对应的标签为用户进行个性化的视频资源推荐。
现阶段,一种主流的标签配置方法是利用通过端到端(End2End)的方式训练得到的标签配置模型,针对待配置标签的资源确定对应的标签。然而,这种标签配置方法通常难以满足实际产品应用中的业务需求,其原因在于,通过End2End的方式训练的标签配置模型通常比较复杂,其中包含耦合的特征提取结构和分类结构,对于此类复杂的模型进行端到端全链路地学习,通常无法使用大规模的训练样本,因为大规模的训练样本会使模型的迭代训练时间变得很长;而在实际产品应用中,只有使用大规模的训练样本对模型进行迭代训练,才能使模型具有较好的泛化能力。由此可见,上述标签配置方法目前难以满足网络平台的实际应用需求。
发明内容
本申请实施例提供了一种标签配置方法、装置、设备及存储介质,可以使用大规模的训练样本对所使用的模型进行训练,并且所耗费的迭代训练时间较短,能够满足网络平台的实际应用需求。
有鉴于此,本申请第一方面提供了一种标签配置方法,所述方法包括:
获取待配置标签的目标资源;
通过特征提取模型,对所述目标资源的目标参考数据进行特征提取处理,得到所述目标参考数据对应的特征向量;
通过标签分类模型,根据所述目标参考数据对应的特征向量,确定所述目标资源所属于各候选分类标签的概率;所述标签分类模型与所述特征提取模型互相独立;
根据所述目标资源所属于各候选分类标签的概率,确定所述目标资源对应的目标分类标签。
本申请第二方面提供了一种标签配置装置,所述装置包括:
资源获取模块,用于获取待配置标签的目标资源;
特征提取模块,用于通过特征提取模型,对所述目标资源的目标参考数据进行特征提取处理,得到所述目标参考数据对应的特征向量;
标签分类模块,用于通过标签分类模型,根据所述目标参考数据对应的特征向量,确定所述目标资源所属于各候选分类标签的概率;所述标签分类模型与所述特征提取模型互相独立;
标签确定模块,用于根据所述目标资源所属于各候选分类标签的概率,确定所述目标资源对应的目标分类标签。
本申请第三方面提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序,执行如上述第一方面所述的标签配置方法的步骤。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的标签配置方法的步骤。
本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的标签配置方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种标签配置方法,该方法创新性地通过两个独立的阶段执行针对目标资源的标签配置任务。具体的,在第一阶段,先通过特征提取模型对目标资源的目标参考数据进行特征提取处理,得到目标参考数据对应的特征向量;在第二阶段,再通过标签分类模型,根据目标参考数据对应的特征向量,确定目标资源所属于各候选分类标签的概率;最终,根据目标资源所属于各候选分类标签的概率,确定目标资源对应的目标分类标签。上述方法将执行标签配置任务时所需利用的特征提取结构和标签分类结构解耦开来,利用互相独立的特征提取模型和标签分类模型分别执行特征提取操作和标签分类分类。相应地,对执行标签配置任务时使用的模型进行迭代训练时,可以对特征提取模型和标签分类模型分别进行独立地训练;对于参数量较大的特征提取模型,其通常比较固定,迭代频次较低;对于参数量较小的标签分类模型,迭代频次较高,但是使用大规模的训练样本对其进行迭代训练,无需耗费较长的迭代训练时间。如此,将迭代频次不同的两种结构解耦开来,在实际应用中主要迭代在第二阶段使用的标签分类模型,可以使用大规模的训练样本在较短的迭代训练时间内完成对于模型的迭代训练,满足了网络平台在实际产品应用中的业务需求。
附图说明
图1为本申请实施例提供的标签配置方法的应用场景示意图;
图2为本申请实施例提供的标签配置方法的流程示意图;
图3为本申请实施例提供的对抗扰动设计的原理示意图;
图4为本申请实施例提供的基于门机制聚合多模态特征的原理示意图;
图5为本申请实施例提供的标签分类模型的训练方法的流程示意图;
图6为本申请实施例提供的标签分类模型的训练原理示意图;
图7为本申请实施例提供的一种示例性的多层级标签结构示意图;
图8为本申请实施例提供的综合考虑全局分类标签和局部分类标签时的训练原理示意图;
图9为本申请实施例提供的标签配置模型的结构示意图;
图10为本申请实施例提供的分类模型训练模块的结构示意图;
图11为本申请实施例提供的终端设备的结构示意图;
图12为本申请实施例提供的服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如,常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习技术,具体通过如下实施例进行说明:
相关技术中,执行标签配置任务时使用的模型通常都是通过End2End的方式迭代训练的模型,此类模型的结构比较复杂,其中包含耦合的特征提取结构和标签分类结构,采用End2End的方式迭代训练此类模型时,需要对其中耦合的特征提取结构和标签分类结构一同进行训练。若使用大规模的训练样本对上述模型进行训练,将耗费较长的迭代训练时间,这将难以满足网络平台在实际产品应用中的业务需求。
针对上述相关技术存在的问题,本申请实施例提供了一种标签配置方法,可以使用大规模的训练样本对该方法中使用的模型进行迭代训练,并且所耗费的迭代训练时间较短,能够满足网络平台在实际产品应用中的业务需求。
具体的,在本申请实施例提供的标签配置方法中,先获取待配置标签的目标资源;然后,通过特征提取模型对目标资源的目标参考数据进行特征提取处理,得到该目标参考数据对应的特征向量;进而,通过标签分类模型,根据目标参考数据对应的特征向量,确定目标资源所属于各候选分类标签的概率;最终,根据目标资源所属于各候选分类标签的概率,确定该目标资源对应的目标分类标签。
上述标签配置方法创新性地通过两个独立的阶段执行针对目标资源的标签配置任务,在第一阶段,先通过特征提取模型对目标资源的目标参考数据进行特征提取处理,得到目标参考数据对应的特征向量,在第二阶段,再通过标签分类模型,根据目标参考数据对应的特征向量确定目标资源所属于各候选分类标签的概率。相比相关技术中通过End2End的方式训练得到的模型,上述方法将执行标签配置任务时所需利用的特征提取结构和标签分类结构解耦开来,利用互相独立的特征提取模型和标签分类模型分别执行特征提取操作和标签分类分类;相应地,对执行标签配置任务时使用的模型进行迭代训练时,可以对特征提取模型和标签分类模型分别进行独立地训练;对于参数量较大的特征提取模型,其通常比较固定,迭代频次较低;对于参数量较小的标签分类模型,迭代频次较高,但是使用大规模的训练样本对其进行迭代训练,无需耗费较长的迭代训练时间。如此,将迭代频次不同的两种结构解耦开来,在实际应用中主要迭代在第二阶段使用的标签分类模型,可以使用大规模的训练样本在较短的迭代训练时间内完成对于模型的迭代训练,满足了网络平台在实际产品应用中的业务需求。
经实验研究证明,采用End2End的方式对视频多标签分类模型(即用于针对视频资源进行多层级标签配置的模型)进行训练时,使用百万级别的视频训练样本需要耗费1周以上的迭代训练时间,并且对于图形处理器(Graphics Processing Unit,GPU)的显存要求较高,批训练(Batch_size)的大小也不能过大,很难超过100。采用本申请实施例提供的标签配置方法中的两阶段设计后,对其中的标签分类模型进行训练时,使用百万级别的视频训练样本在两天之内就可以使模型迭代收敛,并且可以支持千万级别的训练样本,Batch_size可以并行200以上。
应理解,本申请实施例提供的标签配置方法可以应用于支持模型运行的设备,如终端设备或服务器。其中,终端设备具体可以为计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assitant,PDA)等;服务器具体可以为应用服务器或Web服务器,在实际部署时,可以为独立服务器,也可以为集群服务器或云服务器。
为了便于理解本申请实施例提供的标签配置方法,下面以该标签配置方法的执行主体为服务器,且该标签配置方法用于针对视频资源配置标签为例,对该标签配置方法适用的应用场景进行示例性介绍。
参见图1,图1为本申请实施例提供的标签配置方法的应用场景示意图。如图1所示,该应用场景中包括服务器110和终端设备120,服务器110与终端设备120之间可以通过网络进行通信。服务器110用于执行本申请实施例提供的标签配置方法,其中运行有互相独立的特征提取模型111和标签分类模型112;终端设备120用于向服务器110上传待配置标签的目标资源。
在实际应用中,用户可以通过终端设备120中运行的与视频网络平台对应的应用程序客户端,上传目标视频资源给服务器110。
服务器110接收到目标视频资源后,可以先通过特征提取模型111对目标视频资源的目标参考数据进行特征提取处理,以得到目标参考数据对应的特征向量。示例性的,特征提取模型111可以对与目标视频资源相关的多种模态的目标参考数据分别进行特征提取处理,例如,可以对目标视频资源中的视频帧、音频以及目标视频资源的参考文本(如标题文本、内容介绍文本等)这三种模态的目标参考数据分别进行特征提取处理,得到这三种模态的目标参考数据各自对应的特征向量。
进而,服务器110可以通过标签分类模型112,根据目标参考数据对应的特征向量,确定该目标视频资源所属于各候选分类标签的概率。示例性的,如若服务器110通过特征提取模型111提取出了多种模态的目标参考数据各自对应的特征向量,则标签分类模型112需要对这多种模态的目标参考数据各自对应的特征向量进行聚合处理,进而根据聚合后的特征向量确定目标视频资源所属于各候选分类标签的概率;此处的候选分类标签可以包括多个层级下的分类标签,标签分类模型112需要相应地确定目标视频资源所属于各个层级下各个分类标签的概率。
最终,服务器110可以根据目标视频资源所属于各候选分类标签的概率,确定该目标视频资源对应的目标分类标签。此后,相关业务服务器可以基于服务器110针对各视频资源确定的分类标签积累用户画像,以进行个性化的视频资源推荐;此外,还可以利用分类标签执行扩增召回队列、多样性打散、推荐资源排序等任务,本申请在此不对分类标签的后续用途做任何限定。
应理解,图1所示的应用场景仅为示例,在实际应用中,除了可以获取终端设备120上传的视频资源作为待配置标签的目标视频资源外,还可以从数据库或其它服务器处获取待配置标签的目标视频资源,本申请在此不对目标视频资源的获取方式做任何限定。此外,本申请实施例提供的标签配置方法除了可以用于对视频资源配置分类标签外,还可以用于对其它类型的资源配置分类标签,例如,对音频资源、文本资源等配置分类标签,在此不对本申请实施例提供的标签配置方法的处理对象做任何限定。
下面通过方法实施例对本申请提供的标签配置方法进行详细介绍。
参见图2,图2为本申请实施例提供的标签配置方法的流程示意图。为了便于描述,下述实施例仍以该标签配置方法的执行主体为服务器为例进行介绍。如图2所示,该标签配置方法包括以下步骤:
步骤201:获取待配置标签的目标资源。
在实际应用中,服务器可以接收用户通过终端设备上传的资源,作为待配置标签的目标资源,也可以从数据库或其它服务器处获取未配置标签的资源,作为待配置标签的目标资源,本申请在此不对服务器获取目标资源的实现方式做任何限定。
需要说明的是,本申请实施例提供的标签配置方法可以应用于不同的应用场景,为不同类型的资源配置标签,例如,可以用于针对视频网络平台上的视频资源配置标签,也可以用于针对音频网络平台上的音频资源配置标签,还可以用于针对新闻网络平台上的新闻资源配置标签,在此不对本申请实施例提供的标签配置方法适用的应用场景、以及待配置标签的目标资源的类型做任何限定。
步骤202:通过特征提取模型,对所述目标资源的目标参考数据进行特征提取处理,得到所述目标参考数据对应的特征向量。
服务器获取到待配置标签的目标资源后,可以利用特征提取模型对目标资源的目标参考数据进行特征提取处理,从而得到目标参考数据对应的特征向量。此处的目标参考数据是与目标资源相关且能够为配置标签提供有效参考信息的数据,示例性地,目标资源自身的内容数据、属性数据以及与目标资源具有关联关系的数据均可作为目标资源的目标参考数据,本申请在此不对目标参考数据的类型做任何限定。
需要说明的是,特征提取模型是专用于挖掘数据自身特征的模型,其中包括的参数量庞大,通常是千万至亿级别的,但是特征提取模型比较固定,无需频繁地对其进行迭代训练,通常情况下,一旦完成特征提取模型的训练,很长时间内无需再对该特征提取模型进行迭代训练。
应理解,对于不同类型的目标参考数据,所使用的特征提取模型也会有所区别。示例性地,对于图像形式的目标参考数据,可以采用残差网络(Residual Network,ResNet)模型或者高效(Efficient)网络模型作为特征提取模型,对于音频形式的目标参考数据,可以采用VGG(Visual Geometry Group)模型或者卷积神经网络(Convolutional NeuralNetworks,CNN)模型作为特征提取模型,对于文本形式的目标参考数据,可以采用BERT(Bidirectional Encoder Representations from Transformer)模型或者文本卷积神经网络(Text Convolutional Neural Networks,TextCNN)模型作为特征提取模型,本申请在此不对所使用的特征提取模型做具体限定。
下面以目标资源为目标视频资源为例,对服务器利用特征提取模型对目标资源的目标参考数据进行特征提取处理的实现过程进行详细介绍。
当服务器获取的目标资源为目标视频资源时,目标视频资源的目标参考数据可以包括以下至少一种:该目标视频资源中的多个目标视频帧、目标视频资源中的目标音频、目标视频资源的目标参考文本,该目标参考文本可以包括标题文本和内容介绍文本中的至少一种。相应地,当目标视频资源的目标参考数据包括该目标视频资源中的多个目标视频帧时,服务器可以通过图像特征提取模型,对多个目标视频帧分别进行特征提取处理,得到多个目标视频帧各自对应的特征向量;当目标视频资源的目标参考数据包括该目标视频资源中的目标音频时,服务器可以通过音频特征提取模型,对目标音频对应的多段梅尔频谱分别进行特征提取处理,得到多段梅尔频谱各自对应的特征向量;当目标视频资源的目标参考数据包括该目标视频资源的目标参考文本时,服务器可以通过文本特征提取模型,对目标参考文本中的文本分词进行特征提取处理,得到文本分词对应的特征向量。
具体的,服务器可以从目标视频资源中提取出若干关键视频帧作为目标视频帧,或者服务器也可以按照固定频率从目标视频资源中采集目标视频帧,进而,采用预先训练的图像特征提取模型,如ResNet模型或Efficient模型,对各目标视频帧分别进行特征提取处理,得到各目标视频帧各自对应的特征向量。服务器可以将目标视频资源中的目标音频转换为多段梅尔频谱,进而,采用预先训练的音频特征提取模型,如VGGish模型或堆叠的CNN模型,对各段梅尔频谱进行特征提取处理,得到各段梅尔频谱各自对应的特征向量。服务器可以对目标视频资源的标题文本和/或内容介绍文本进行分词处理,得到其中的文本分词,进而,采用预先训练的文本特征提取模型,如BERT模型或TextCNN模型,对文本分词进行特征提取处理,得到文本分词对应的特征向量。
应理解,在实际应用中,当目标参考数据同时包括目标视频资源中的多个目标视频帧、目标视频资源中的目标音频、和目标视频资源的目标参考文本时,服务器可以按照预设的顺序,对多个目标视频帧、目标音频对应的多段梅尔频谱以及目标参考文本中的文本分词逐一进行特征提取处理,也可以并行地对多个目标视频帧、目标音频对应的多段梅尔频谱以及目标参考文本中的文本分词进行特征提取处理,本申请在此不对针对各种目标参考数据进行特征提取的顺序做任何限定。
此外,当目标资源为目标视频资源时,目标视频资源的目标参考数据也可以仅包括目标视频帧、目标音频和目标参考文本中的任意一种或两种,当然,还可以包括除目标视频帧、目标音频和目标参考文本外的其它类型的数据,如目标视频资源的属性数据等,本申请在此不对针对目标视频资源配置标签时使用的目标参考数据做任何限定。
需要说明的是,在本申请实施例提供的方法中,服务器获取的目标资源除了可以为目标视频资源外,还可以为目标音频资源等其它类型的资源。当服务器获取的目标资源为目标音频资源时,可以将目标音频资源本身的音频、目标音频资源的歌词文本和/或歌名文本作为目标参考数据,通过音频特征提取模型对目标音频资源本身的音频对应的多段梅尔频谱分别进行特征提取处理,得到多段梅尔频谱各自对应的特征向量,通过文本特征提取模型对目标音频资源的歌词文本和/或歌名文本中的文本分词进行特征提取处理,得到文本分词对应的特征向量。本申请在此不对目标资源的类型、以及对于目标资源采用的特征提取处理方式做任何限定。
步骤203:通过标签分类模型,根据所述目标参考数据对应的特征向量,确定所述目标资源所属于各候选分类标签的概率;所述标签分类模型与所述特征提取模型互相独立。
服务器通过特征提取模型完成对于目标资源的目标参考数据的特征提取处理,得到目标参考数据对应的特征向量后,可以进一步将目标参考数据对应的特征向量输入预先训练的标签分类模型,以通过该标签分类模型对目标参考数据对应的特征向量进行分析处理,确定目标资源所属于各候选分类标签的概率。
需要说明的是,步骤203中使用的标签分类模型与步骤202中使用的特征提取模型是两个独立的模型结构,针对这两个模型可以分开进行迭代训练。标签分类模型中包括的参数量较少,通常需要频繁地对其进行迭代训练,但是由于标签分类模型中包括的参数量较少,因此,即使采用大规模的训练样本对其进行训练,也不会耗费较长的迭代训练时间。
此外,经本申请发明人研究发现,对于过拟合的神经网络模型,针对其输入添加一定的扰动,模型的输出结果将会出现极大的差别。示例性的,如图3所示,模型基于输入特征a的预测结果为熊猫,在该输入特征a上添加微小的扰动,模型基于添加了扰动的输入特征的预测结果变成了长臂猿。由此可见,目前训练标签分类模型时容易使标签分类模型过拟合,训练得到的标签分类模型泛化能力较低。针对此问题,本申请实施例提供的方法在训练标签分类模型的过程中增加了对抗扰动的设计,以提升该标签分类模型的抗干扰能力,缓解标签分类模型的过拟合现象,提高标签分类模型的泛化能力。下文将通过另一方法实施例对该标签分类模型的训练过程进行详细介绍。
下面以目标资源为目标视频资源,目标参考数据包括目标视频资源中的多个目标视频帧、目标视频资源中的目标音频以及目标视频资源的目标参考文本为例,对服务器利用标签分类模型根据目标参考数据对应的特征向量,确定目标资源所属于各候选分类标签的概率的实现方式进行详细介绍。
本申请实施例中的标签分类模型可以包括单模态特征聚合模块、多模态特征聚合模块和标签分类模型,其中,单模态特征聚合模块包括视频特征聚合层、音频特征聚合层和文本特征聚合层。相应地,服务器可以通过视频特征聚合层聚合多个目标视频帧各自对应的特征向量,得到视频聚合特征向量,通过音频特征聚合层聚合多段梅尔频谱各自对应的特征向量,得到音频聚合特征向量,通过文本特征聚合层聚合各文本分词各自对应的特征向量,得到文本聚合特征向量;然后,通过多模态特征聚合模块聚合视频聚合特征向量、音频聚合特征向量和文本聚合特征向量,得到目标特征向量;进而,通过标签分类模块,根据目标特征向量确定目标资源所属于各候选分类标签的概率。
示例性的,假设服务器通过图像特征提取模型对N1(N1为大于1的整数)个目标视频帧进行特征提取处理,得到N1*1536(1536为每个目标视频帧经图像特征提取模型的处理后得到的稠密向量的维度)的特征向量,通过音频特征提取模型对N2(N2为大于1的整数)段梅尔频谱进行特征提取处理,得到N2*128(128为每段梅尔频谱经音频特征提取模型的处理后得到的稠密向量的维度)的特征向量,通过文本特征提取模型对N3(N3为正整数)个文本分词进行文本特征提取处理后,得到N3*256(256为每个文本分词经文本特征提取模型的处理后得到的稠密向量的维度)的特征向量。
标签分类模型可以利用视频特征聚合层,如Netvlad或Nextvlad结构,对N1*1536的特征向量进行特征聚合处理,从而得到视频聚合特征向量;服务器可以利用音频特征聚合层,如Netvlad或Nextvlad结构,对N2*128的特征向量进行特征聚合处理,得到音频聚合特征向量;服务器可以利用TextCNN结构对N3*256的特征向量进行特征聚合处理,得到文本聚合特征向量。然后,标签分类模型可以利用多模态特征聚合模块,将视频聚合特征向量、音频聚合特征向量和文本聚合特征向量均映射至固定维度,并对该固定维度的视频聚合特征向量、音频聚合特征向量和文本聚合特征向量进行聚合处理,得到目标特征向量。进而,标签分类模型可以利用标签分类模块,如Softmax结构,对目标特征向量进行处理,以输出目标资源所属于各候选分类标签的概率;此处的候选分类标签可以包括所属于不同层级的各个分类标签,例如,假设对于视频资源的分类标签包括三个层级,则此处的候选分类标签包括这三个层级下的各个分类标签。
需要说明的是,相关技术中,对多模态的特征向量进行聚合时普遍是通过拼接特征向量的方式实现的,然而,考虑到某些模态的特征向量可能具有一定比例的缺失项,而具有缺失项的特征向量的参考价值会有所降低,并且不同类别的分类标签对于不同模态的特征向量的关注程度也有所差别,例如,体育类的分类标签应更关注视频帧特征,生活类的分类标签应综合参考音频帧特征、音频特征和文本特征。基于此,本申请实施例提供的标签配置方法提出了基于门机制的多模态特征聚合模式和基于注意力(Attention)机制的多模态特征聚合方式,下面对这两种多模态特征的聚合方式分别进行介绍。
基于门机制对多模态特征进行聚合时,标签分类模型需要先通过多模态特征聚合模块中的全连接层,将视频聚合特征向量、音频聚合特征向量和文本聚合特征向量映射至目标维度,得到目标视频特征向量、目标音频特征向量和目标文本特征向量;并且,对视频聚合特征向量、音频特征聚合向量和文本特征聚合向量分别进行线性映射处理,并根据线性映射处理后的视频聚合特征向量、音频聚合特征向量和文本聚合特征向量,确定目标视频特征向量、目标音频特征向量和目标文本特征向量各自对应的门单元;进而,基于目标视频特征向量、目标音频特征向量和目标文本特征向量各自对应的门单元,对目标视频特征向量、目标音频特征向量和目标文本特征向量进行加权聚合处理,得到目标特征向量。
图4为本申请实施例提供的基于门机制聚合多模态特征的实现原理示意图。如图4所示,标签分类模型可以先利用多模态特征聚合模块中的全连接层,将视频聚合特征向量、音频聚合特征向量和文本聚合特征向量均映射至目标维度,得到目标视频特征向量、目标音频特征向量和目标文本特征向量,此处的全连接层可以包括非线性映射层、批归一化(Batch Normalization)层和残差连接层。并且,分别对视频聚合特征向量、音频聚合特征向量和文本聚合特征向量进行线性映射处理,在sigmoid函数的作用下将视频聚合特征向量、音频聚合特征向量和文本聚合特征向量分别映射至区间[0,1],得到三个分别对应于目标视频特征向量、目标音频特征向量和目标文本特征向量的门单元(gate)。进而,利用目标视频特征向量、目标音频特征向量和目标文本特征向量各自对应的门单元,对目标视频特征向量、目标音频特征向量和目标文本特征向量进行加权聚合处理,得到聚合多模态特征后的高级特征向量,即目标特征向量。
基于Attention机制对多模态特征进行聚合时,标签分类模型需要先通过多模态特征聚合模块中的全连接层,将视频聚合特征向量、音频聚合特征向量和文本聚合特征向量映射至目标维度,得到目标视频特征向量、目标音频特征向量和目标文本特征向量;然后,确定目标视频特征向量与目标隐向量之间的相似度作为目标视频特征向量对应的权重,确定目标音频特征向量与目标隐向量之间的相似度作为目标音频特征向量对应的权重,确定目标文本特征向量与目标隐向量之间的相似度,作为目标文本特征向量对应的权重;进而,基于目标视频特征向量、目标音频特征向量和目标文本特征向量各自对应的权重,对目标视频特征向量、目标音频特征向量和目标文本特征向量进行加权聚合处理,得到目标特征向量。
具体的,先利用多模态特征聚合模块中的全连接层,将视频聚合特征向量、音频聚合特征向量和文本聚合特征向量均映射至目标维度,得到目标视频特征向量、目标音频特征向量和目标文本特征向量,此处的全连接层可以包括非线性映射层、BatchNormalization层和残差连接层。然后,确定目标维度的目标隐向量,计算目标视频特征向量与该目标隐向量之间的相似度作为目标视频特征向量对应的权重,计算目标音频特征向量与该目标隐向量之间的相似度作为目标音频特征向量对应的权重,计算目标文本特征向量与该目标隐向量之间的相似度作为目标文本特征向量对应的权重。进而,利用目标视频特征向量、目标音频特征向量和目标文本特征向量,分别乘以其各自对应的权重,得到聚合多模态特征后的高级特征向量,即目标特征向量。
应理解,在实际应用中,标签分类模型也可以采取其它方式对多模态的特征向量进行聚合处理,例如直接将多模态的特征向量拼接起来,本申请在此不对标签分类模型聚合多模态的特征向量的实现方式做任何限定。
应理解,当服务器获取的目标资源为目标音频资源时,标签分类模型根据目标参考数据对应的特征向量确定目标音频资源所属于各候选分类标签的概率的实现方式,与上文中标签分类模型确定目标视频资源所属于各候选分类标签的概率的实现方式相类似;区别仅在于,标签分类模型中的单模态特征聚合模块包括音频特征聚合层和文本特征聚合层,分别用于聚合目标音频资源的多段梅尔频谱各自对应的特征向量和各文本分词各自对应的特征向量,以及标签分类模型中的多模态特征聚合模块,仅需对音频聚合特征向量和文本聚合特征向量进行聚合处理。
步骤204:根据所述目标资源所属于各候选分类标签的概率,确定所述目标资源对应的目标分类标签。
服务器通过标签分类模型确定出目标资源所属于各候选分类标签的概率后,可以进一步根据目标资源所属于各候选分类标签的概率,确定该目标资源对应的目标分类标签。
示例性的,服务器可以预先设置目标阈值如0.5,然后,针对每个候选分类标签,判断目标资源所属于该候选分类标签的概率是否超过目标阈值,若是,则可以将该候选分类标签作为目标资源对应的目标分类标签。或者,服务器也可以针对每个层级的候选标签,对目标资源所属于该层级下的各个候选标签的概率按照从大到小的顺序排序,最终将排序靠前的预设数目个候选标签作为目标资源在该层级下的目标分类标签。当然,在实际应用中,服务器也可以采取其它方式,根据目标资源所属于各候选分类标签的概率确定该目标资源对应的目标分类标签,本申请在此不对确定目标资源对应的目标分类标签的实现方式做任何限定。
上述标签配置方法创新性地通过两个独立的阶段执行针对目标资源的标签配置任务,在第一阶段,先通过特征提取模型对目标资源的目标参考数据进行特征提取处理,得到目标参考数据对应的特征向量,在第二阶段,再通过标签分类模型,根据目标参考数据对应的特征向量确定目标资源所属于各候选分类标签的概率。相比相关技术中通过End2End的方式训练得到的模型,上述方法将执行标签配置任务时所需利用的特征提取结构和标签分类结构解耦开来,利用互相独立的特征提取模型和标签分类模型分别执行特征提取操作和标签分类分类;相应地,对执行标签配置任务时使用的模型进行迭代训练时,可以对特征提取模型和标签分类模型分别进行独立地训练;对于参数量较大的特征提取模型,其通常比较固定,迭代频次较低;对于参数量较小的标签分类模型,迭代频次较高,但是使用大规模的训练样本对其进行迭代训练,无需耗费较长的迭代训练时间。如此,将迭代频次不同的两种结构解耦开来,在实际应用中主要迭代在第二阶段使用的标签分类模型,可以使用大规模的训练样本在较短的迭代训练时间内完成对于模型的迭代训练,满足了网络平台在实际产品应用中的业务需求。
正如上文所提及的,本申请实施例提供的方法为了缓解标签分类模型的过拟合现象,使标签分类模型具有更好的泛化能力,在训练标签分类模型的过程中引入了对抗扰动的设计,下面通过方法实施例对本申请实施例提供的标签分类模型的训练方法进行详细介绍。
参见图5,图5为本申请实施例提供的标签分类模型的训练方法的流程示意图。为了便于描述,下述实施例以该标签分类模型的训练方法的执行主体为服务器为例进行介绍。如图5所示,该标签分类模型的训练方法包括以下步骤:
步骤501:获取训练样本;所述训练样本包括训练资源及其对应的标注分类标签。
服务器训练标签分类模型之前,通常需要获取大量的训练样本,每个训练样本中包括训练资源以及该训练资源对应的标注分类标签。
应理解,训练样本中包括的训练资源的类型取决于所要训练的标签分类模型的应用场景,若标签分类模型用于针对视频资源配置标签,则训练样本中包括的训练资源应当为训练视频资源,若标签分类模型用于针对音频资源配置标签,则训练样本中包括的训练资源应当为训练音频资源。本申请在此不对标签分类模型的应用场景、以及训练样本中包括的训练资源的类型做任何限定。
步骤502:通过所述特征提取模型,对所述训练资源的训练参考数据进行特征提取处理,得到所述训练参考数据对应的第一特征向量。
获取到训练样本后,可以利用已经训练好的特征提取模型对训练资源的训练参考数据进行特征提取处理,从而得到训练参考数据对应的第一特征向量。此处的训练参考数据是与训练资源相关且能够为配置标签提供有效参考信息的数据,示例性的,训练资源自身的内容数据、属性数据以及与训练资源具有关联关系的数据均可作为训练资源的训练参考数据,本申请在此不对训练参考数据的类型做任何限定。
应理解,对于不同类型的训练参考数据,所使用的特征提取模型也会有所区别。示例性的,对于图像形式的训练参考数据,可以使用ResNet模型或者Efficient网络模型作为特征提取模型;对于音频形式的训练参考数据,可以使用VGGish模型或者CNN模型作为特征提取模型;对于文本形式的训练参考数据,可以采用BERT模型或者TextCNN模型作为特征提取模型,本申请在此不对所使用的特征提取模型做具体限定。
下面以训练资源为训练视频资源为例,对服务器利用特征提取模型对训练资源的训练参考数据进行特征提取处理的实现过程进行详细介绍。
当训练样本中包括的训练资源为训练视频资源时,训练视频资源的训练参考数据可以包括以下至少一种:该训练视频资源中的多个训练视频帧、该训练视频资源中的训练音频、该训练视频资源的训练参考文本,该训练参考文本可以包括标题文本和内容介绍文本中的至少一种。相应地,当训练参考数据包括训练视频资源中的多个训练视频帧时,服务器可以通过图像特征提取模型,对多个训练视频帧分别进行特征提取处理,得到这多个训练视频帧各自对应的第一特征向量;当训练参考数据包括训练视频资源中的训练音频时,服务器可以通过音频特征提取模型,对训练音频对应的多段梅尔频谱分别进行特征提取处理,得到多段梅尔频谱各自对应的第一特征向量;当训练参考数据包括训练视频资源的训练参考文本时,服务器可以通过文本特征提取模型,对训练参考文本中的文本分词进行特征提取处理,得到文本分词对应的第一特征向量。
具体的,服务器可以从训练视频资源中提取出若干关键视频帧作为训练视频帧,或者服务器也可以按照固定频率从训练视频资源中采集训练视频帧,进而,采用预先训练的图像特征提取模型,如ResNet模型或Efficient模型,对各训练视频帧分别进行特征提取处理,得到各训练视频帧各自对应的第一特征向量。服务器可以将训练视频资源中的训练音频转换为多段梅尔频谱,进而,采用预先训练的音频特征提取模型,如VGGish模型或堆叠的CNN模型,对各段梅尔频谱进行特征提取处理,得到各段梅尔频谱各自对应的第一特征向量。服务器可以对训练视频资源的标题文本和/或内容介绍文本进行分词处理,得到其中的文本分词,进而,采用预先训练的文本特征提取模型,如BERT模型或TextCNN模型,对文本分词进行特征提取处理,得到文本分词对应的第一特征向量。
应理解,在实际应用中,训练视频资源的训练参考数据也可以仅包括训练视频帧、训练音频和训练参考文本中的任意一种或两种,当然,还可以包括除训练视频帧、训练音频和训练参考文本外的其它类型的数据,如训练视频资源的属性数据等,本申请在此不对训练视频资源的训练参考数据做任何限定。
应理解,当所要训练的标签分类模型用于对其它类型的资源配置标签时,服务器可以获取包含有其它类型的训练资源的训练样本,进而利用特征提取模型对此类训练资源的训练参考数据进行特征提取处理。以训练样本包括的训练资源为训练音频资源为例,可以将训练音频资源本身的音频、训练音频资源的歌词文本和/或歌名文本作为训练参考数据,通过音频特征提取模型对训练音频资源本身的音频对应的多段梅尔频谱分别进行特征提取处理,得到多段梅尔频谱各自对应的第一特征向量,通过文本特征提取模型对训练音频资源的歌词文本和/或歌名文本中的文本分词进行特征提取处理,得到文本分词对应的第一特征向量。本申请在此不对训练资源的类型、以及对于训练资源的训练参考数据采用的特征提取处理方式做任何限定。
步骤503:通过待训练的基础标签分类模型,根据所述训练参考数据对应的第一特征向量,确定所述训练资源所属于各所述候选分类标签的第一预测概率;根据所述第一预测概率和所述标注分类标签,确定第一损失函数。
服务器利用特征提取模型对训练样本中训练资源的训练参考数据进行特征提取处理,得到训练参考数据对应的第一特征向量后,可以进一步将训练参考数据对应的第一特征向量输入当前待训练的基础标签分类模型,以使该基础标签分类模型对训练参考数据对应的第一特征向量进行分析处理,输出该训练资源所属于各候选分类标签的第一预测概率。进而,服务器可以基于该训练资源所属于各候选分类标签的第一预测概率以及训练样本中包括的该训练资源对应的标注分类标签,构建第一损失函数。
下面以训练资源为训练视频资源,训练参考数据包括训练视频资源中的多个训练视频帧、训练视频资源中的训练音频以及训练视频资源的训练参考文本为例,结合图6所示的标签分类模型的训练原理示意图,对服务器利用基础标签分类模型根据训练参考数据对应的第一特征向量,确定训练资源所属于各候选分类标签的第一预测概率的实现方式进行示例性介绍。
如图6所示,服务器可以利用图像特征提取模型、音频特征提取模型和文本特征提取模型,相应地对训练视频资源中的多个训练视频帧、训练音频中的多段梅尔频谱以及训练参考文本中的文本分词进行特征提取处理,得到多个训练视频帧各自对应的第一特征向量、多段梅尔频谱各自对应的第一特征向量以及文本分词对应的第一特征向量。
进而,服务器可以利用基础标签分类模型,对各种模态的训练参考数据各自对应的第一特征向量进行处理。图6中白色方块对应的流程即为基础标签分类模型对于第一特征向量的处理流程。如图6所示,可以通过视频特征聚合层如Nextvlad结构,对各训练视频帧各自对应的第一特征向量进行聚合处理,得到训练视频第一聚合特征向量,可以利用音频特征聚合层如Nextvlad结构,对各梅尔频谱各自对应的第一特征向量进行聚合处理,得到训练音频第一聚合特征向量,可以利用文本特征聚合层如TextCNN结构,对各文本分词各自对应的第一特征向量进行聚合处理,得到训练文本第一聚合特征向量。然后,通过基础标签分类模型中的多模态特征聚合模块,对训练视频第一聚合特征向量、训练音频第一聚合特征向量和训练文本第一聚合特征向量进行聚合处理,得到第一训练特征向量。进而,通过基础标签分类模型中的标签分类模块,根据第一训练特征向量确定该训练视频资源所属于各候选分类标签的第一预测概率。最终,根据该训练视频资源所属于各候选分类标签的第一预测概率以及该训练视频资源对应的标注分类标签,确定第一损失函数。
假设输入基础标签分类模型的第一特征向量为x,经过该基础标签分类模型一系列线性和非线性地映射处理,得到训练资源所属于各候选分类标签的第一预测概率。接着,通过式(1)最小化sigmoid交叉熵作为第一损失函数,记为Normal_loss。
Normal_loss=-min log p(y|x,θ) (1)
其中,y为基础标签分类模型输出的训练资源所属于各候选分类标签的第一预测概率,x为输入基础标签分类模型的第一特征向量,θ为基础标签分类模型中的模型参数。
在实际应用中,分类标签普遍具有层级结构,图7所示即为一种示例性的包括三个层级的标签结构,基于此,可以在训练基础标签分类模型的过程中,综合考虑全局分类标签和局部分类标签,以提高训练得到的标签分类模型的准确性。
即,服务器可以通过基础标签分类模型,根据训练参考数据对应的第一特征向量,确定训练资源所属于各全局分类标签的第三预测概率、以及训练资源所属于各局部分类标签的第四预测概率;此处的全局分类标签是组合不同层级的局部分类标签得到的。然后,可以根据第三预测概率和训练资源对应的标注分类标签确定第三损失函数,根据第四预测概率和训练资源对应的标注分类标签确定第四损失函数。进而,根据该第三损失函数和第四损失函数确定上述第一损失函数。
下面以三层级的标签结构为例,结合图8所示的实现原理示意图,对上述实现方式进行示例性介绍。如图8所示,基础标签分类模型可以通过分支801,针对输入的第一特征向量x确定训练资源所属于各全局分类标签的概率TagG,此处的全局分类标签是组合一级标签、二级标签和三级标签得到的整体;基础标签分类模型可以通过分支802、分支803和分支804,针对输入的第一特征向量x分别确定训练资源所属于各一级标签的概率TagL 1、所属于各二级标签的概率TagL 2和所属于各三级标签的概率TagL 3。进而,基于训练资源对应的标注分类标签和概率TagG构建第三损失函数,基于训练资源对应的标注分类标签以及概率TagL 1、TagL 2和TagL 3构建第四损失函数。为第三损失函数分配权重β,为第四损失函数分配权重1-β,基于第三损失函数和第四损失函数各自对应的权重,对第三损失函数和第四损失函数进行加权求和处理,得到第一损失函数。
应理解,在实际应用中,标签分类模型不仅可以用于执行三个层级的标签分类任务,还可以用于执行更多层级或更少层级的标签分类任务,本申请在此不对标签的层级结构做任何限定。
步骤504:在所述训练参考数据对应的第一特征向量上添加扰动向量,得到所述训练参考数据对应的第二特征向量。
在标签分类模型的训练过程中增加对抗扰动设计,实质上就是在待训练的基础标签分类模型的输入数据中添加扰动向量,即在训练参考数据对应的第一特征向量上添加扰动向量,从而得到训练参考数据对应的第二特征向量。
之所以在标签分类模型的训练过程中引入对抗扰动设计,是因为在训练标签分类模型的过程中确认标签分类模型已收敛后,利用与训练样本集合同源分布的测试样本集合对已收敛的标签分类模型进行测试时,发现测试样本集合的F1指标比训练样本集合的F1指标低5到10个点。由此可见,训练得到的标签分类模型过拟合,泛化能力较差。针对此情况,本申请实施例提供的方法在标签分类模型的训练过程中引入了对抗扰动设计,以提升标签分类模型的抗干扰能力,起到类似于正则化的效果,从而缓解标签分类模型的过拟合现象,提高模型的泛化能力。
在实际应用中,服务器可以通过以下任意一种方式确定在第一特征向量上添加的扰动向量:第一种方式,基于通过步骤503确定的第一损失函数梯度向上的方向确定扰动向量,对于基础标签分类模型来说,其训练过程中最害怕的扰动向量即为沿着第一损失函数梯度向上的方向添加的扰动向量,因为基础标签分类模型的训练目标是使第一损失函数沿着梯度下降的方向,沿着第一损失函数梯度向上的方向添加扰动向量将影响训练过程中的模型收敛。第二种方式,基于通过步骤503确定的第一损失函数梯度下降的方向确定扰动向量,对于基础标签分类模型来说,最简单的扰动向量即为沿着第一损失函数梯度下降的方向添加的扰动向量。第三种方式,随机生成符合正态分布的噪声向量,作为扰动向量。
应理解,无论通过上述哪种方式确定扰动向量,均需要将所添加的扰动向量限制在一定的幅值内,以防止所添加的扰动向量过大,对模型训练产生负面影响。
经实验研究发现,通过上述第一种方式添加扰动向量,即沿着第一损失函数梯度向上的方向添加扰动向量,会使最终训练得到的标签分类模型的收敛效果最佳。具体通过该种方式确定扰动向量时,可以计算第一损失函数对于第一特征向量的偏导,并对偏导后的梯度进行归一化处理,进而通过预设的扰动系数修正归一化处理后的结果,得到扰动向量。
具体的,可以通过式(2)计算需要添加至第一特征向量上的扰动向量r:
Figure BDA0002887760030000211
其中,γ为扰动系数,用于控制扰动向量的幅值,在实际应用中,可以根据实际需求设置该扰动系数,例如可以将其设置为0.5。
Figure BDA0002887760030000221
表示第一损失函数loss对于第一特征向量x的偏导。L2为归一化函数,其用于对偏导后的梯度进行归一化处理,以实现对于梯度值的缩放,防止梯度值波动太大,从而避免将波动太大的扰动向量添加至第一特征向量上,使得到的训练参考数据对应的第二特征向量的波动幅度太大。
需要说明的是,在实际应用中,针对连续值添加扰动向量才有意义,基于此,服务器可以在多处添加扰动向量,例如,在输入的第一特征向量上添加扰动向量,在经过单模态特征聚合模块中的特征聚合层Nextvlad聚合处理后得到的稠密向量上添加扰动向量,在经过多模态特征聚合模块聚合处理后得到的稠密向量上添加扰动向量,等等。通过实验研究发现,在原始输入的第一特征向量上添加扰动向量,所取得的模型训练效果往往最好,其原因在于,单模态特征聚合模块中的特征聚合层如Nextvlad中包含的参数量相对较多,是导致模型容易过拟合的主要原因,若在单模态特征聚合模块的输入上添加扰动向量,可以提供该单模态特征聚合模块的泛化性。
下面以训练资源为训练视频资源,训练参考数据包括训练视频资源中的多个训练视频帧、训练视频资源中的训练音频以及训练视频资源的训练参考文本,经特征提取模块处理后得到多个训练视频帧各自对应的第一特征向量、多段梅尔频谱各自对应的第一特征向量以及文本分词对应的第一特征向量为例,结合图6所示的标签分类模型的训练原理示意图,对服务器在第一特征向量上添加扰动向量的实现方式进行示例性介绍。
具体的,服务器可以在多个训练视频帧各自对应的第一特征向量上添加视频扰动向量,得到多个训练视频帧各自对应的第二特征向量;可以在多段梅尔频谱各自对应的第一特征向量上添加音频扰动向量,得到多段梅尔频谱各自对应的第二特征向量;可以在文本分词对应的第一特征向量上添加文本扰动向量,得到文本分词对应的第二特征向量。
如图6所示,可以基于第一损失函数梯度向上的方向分别确定视频扰动向量、音频扰动向量和文本扰动向量,进而,在多个训练视频帧各自对应的第一特征向量、多段梅尔频谱各自对应的第一特征向量以及文本分词对应的第一特征向量上,分别添加视频扰动向量、音频扰动向量和文本扰动向量,从而,得到多个训练视频帧各自对应的第二特征向量、多段梅尔频谱各自对应的第二特征向量以及文本分词对应的第二特征向量。
应理解,在实际应用中,服务器也可以仅在多个训练视频帧各自对应的第一特征向量、多段梅尔频谱各自对应的第一特征向量以及文本分词对应的第一特征向量中的任意一种或两种第一特征向量上,添加对应的扰动向量,得到对应的第二特征向量,本申请在此不对扰动向量的添加对象做任何限定。
步骤505:通过所述基础标签分类模型,根据所述训练参考数据对应的第二特征向量,确定所述训练资源所属于各所述候选分类标签的第二预测概率;根据所述第二预测概率和所述标注分类标签,确定第二损失函数。
服务器在训练参考数据对应的第一特征向量上添加扰动向量,得到训练参考数据对应的第二特征向量后,可以进一步将训练参考数据对应的第二特征向量输入当前待训练的基础标签分类模型,以使该基础标签分类模型对训练参考数据对应的第二特征向量进行分析处理,输出训练资源所属于各候选分类标签的第二预测概率。进而,服务器可以基于该训练资源所属于各候选分类标签的第二预测概率以及训练样本中包括的该训练资源对应的标注分类标签,构建第二损失函数。
下面以训练资源为训练视频资源,在该训练视频资源中的多个训练视频帧各自对应的第一特征向量、训练视频资源中的训练音频对应的多段梅尔频谱各自对应的第一特征向量以及训练视频资源的训练参考文本中的文本分词对应的第一特征向量上均添加了扰动向量为例,结合图6所示的标签分类模型的训练原理示意图,对服务器利用基础标签分类模型根据训练参考数据对应的第二特征向量,确定训练资源所属于各候选分类标签的第二预测概率的实现方式进行示例性介绍。
如图6所示,服务器可以利用基础标签分类模型,对多个训练视频帧各自对应的第二特征向量、多段梅尔频谱各自对应的第二特征向量以及文本分词对应的第二特征向量进行处理。图6中灰色方块对应的流程即为对于第二特征向量的处理流程。如图6所示,可以通过视频特征聚合层如Nextvlad结构,对各训练视频帧各自对应的第二特征向量进行聚合处理,得到训练视频第二聚合特征向量,可以利用音频特征聚合层如Nextvlad结构,对各梅尔频谱各自对应的第二特征向量进行聚合处理,得到训练音频第二聚合特征向量,可以利用文本特征聚合层如TextCNN结构,对各文本分词各自对应的第二特征向量进行聚合处理,得到训练文本第二聚合特征向量。然后,通过基础标签分类模型中的模态特征聚合模块,对训练视频第二聚合特征向量、训练音频第二聚合特征向量和训练文本第二聚合特征向量进行聚合处理,得到第二训练特征向量。进而,通过基础标签分类模型中的标签分类模块,根据第二训练特征向量确定该训练视频资源所属于各候选分类标签的第二预测概率。最终,根据该训练视频资源所属于各候选分类标签的第二预测概率以及该训练视频资源对应的标注分类标签,确定第二损失函数。
假设第一特征向量为x,在第一特征向量x上添加扰动向量r,得到输入基础标签分类模型的第二特征向量x+r,将第二特征向量x+r输入基础标签分类模型,经过该基础标签分类模型一系列线性和非线性地映射处理,得到训练资源所属于各候选分类标签的第二预测概率。接着,通过式(3)最小化sigmoid交叉熵作为第二损失函数,记为Adv_loss。
Adv_loss=-min log p(y|x+r,θ) (3)
其中,y为基础标签分类模型输出的训练资源所属于各候选分类标签的第二预测概率,x+r为输入基础标签分类模型的第二特征向量,θ为基础标签分类模型中的模型参数。
相类似地,在基于第二特征向量训练基础标签分类模型的过程中,也可以综合考虑全局分类标签和局部分类标签,以提高训练得到的标签分类模型的准确性。
即,服务器可以通过基础标签分类模型,根据训练参考数据对应的第二特征向量,确定训练资源所属于各全局分类标签的第五预测概率、以及训练资源所属于各局部分类标签的第六预测概率;此处的全局分类标签是组合不同层级的局部分类标签得到的。然后,可以根据第五预测概率和训练资源对应的标注分类标签确定第五损失函数,根据第六预测概率和训练资源对应的标注分类标签确定第六损失函数。进而,根据该第五损失函数和第六损失函数确定上述第二损失函数。
下面以三层级的标签结构为例,对上述实现方式进行示例性介绍。基础标签分类模型可以通过第一分支,针对输入的第二特征向量x+r确定训练资源所属于各全局分类标签的概率,此处的全局分类标签是组合一级标签、二级标签和三级标签得到的整体;基础标签分类模型可以通过第二分支、第三分支和第四分支,针对输入的第二特征向量x+r分别确定训练资源所属于各一级标签的概率、所属于各二级标签的概率和所属于各三级标签的概率。进而,基于训练资源对应的标注分类标签和训练资源所属于各全局分类标签的概率构建第五损失函数,基于训练资源对应的标注分类标签以及训练资源所属于各局部分类标签的概率构建第六损失函数。为第五损失函数分配权重β,为第六损失函数分配权重1-β,基于第五损失函数和第六损失函数各自对应的权重,对第五损失函数和第六损失函数进行加权求和处理,得到第二损失函数。
应理解,在实际应用中,标签分类模型不仅可以用于执行三个层级的标签分类任务,还可以用于执行更多层级或更少层级的标签分类任务,本申请在此不对标签的层级结构做任何限定。
步骤506:根据所述第一损失函数和所述第二损失函数,确定目标损失函数。
服务器通过步骤503得到第一损失函数、通过步骤505得到第二损失函数后,可以进一步根据第一损失函数和第二损失函数,确定用于训练该基础标签分类模型的目标损失函数。
示例性的,服务器可以将第一损失函数Normal_loss与第二损失函数Adv_loss相加,得到目标损失函数;或者,服务器也可以针对第一损失函数Normal_loss和第二损失函数Adv_loss分别配置对应的权重,基于第一损失函数Normal_loss和第二损失函数Adv_loss各自对应的权重,对第一损失函数Normal_loss和第二损失函数Adv_loss进行加权求和处理,得到目标损失函数。本申请在此不对根据第一损失函数和第二损失函数确定目标损失函数的实现方式做任何限定。
步骤507:基于所述目标损失函数,对所述基础标签分类模型进行训练。
服务器得到目标损失函数后,即可基于该目标损失函数训练基础标签分类模型,目标损失函数能够收敛,第一损失函数和第二损失函数相应地也能够收敛,如此使得训练得到的标签分类模型具备一定的冗余能力,网络模型的泛化能力有所提高。
应理解,在实际应用中,可以在对于基础标签分类模型的迭代训练次数达到预设迭代次数阈值时,认为已完成对于基础标签分类模型的训练,将此时的基础标签分类模型作为可投入实际应用的标签分类模型。或者,也可以在测试所训练的基础标签分类模型的性能满足预设要求时,认为已完成对于基础标签分类模型的训练,将此时的基础标签分类模型作为可投入实际应用的标签分类模型。本申请在此不对基础标签分类模型的训练结束条件做任何限定。
上述标签分类模型的训练方法,在对标签分类模型进行训练的过程中引入了对抗扰动设计,从而缓解了标签分类模型的过拟合现象,使标签分类模型具有更好的泛化能力。
经实验证明,将特征提取处理和标签分类处理通过两阶段实现的视频资源标签分类模型的基础线(Baseline)指标如下:
p=79.6%,R=65.4%,F1-score=71.8%
在标签分类模型的训练过程中引入对抗扰动设计后,训练得到的标签分类模型的收益如下:
p=81.4%,R=66.7%,F1-score=73.3%
在标签分类模型的多模态特征聚合阶段引入门机制后,标签分类模型的收益如下:
p=81.9%,R=67.0%,F1-score=73.7%
在标签分类模型的训练过程中综合考虑全局分类标签和局部分类标签后,训练得到的标签分类模型的收益如下:
p=82.9%,R=67.7%,F1-score=74.5%
其中,p为precision,即准确率;r为recall,即召回率;F1是统计学中用于衡量分类模型精确度的一种指标,其同时兼顾了模型的准确率和召回率。
针对上文描述的标签配置方法,本申请还提供了对应的标签配置装置,以使上述标签配置方法在实际中的应用以及实现。
参见图9,图9是上文图2所示的标签配置方法对应的标签配置装置900的结构示意图。如图9所示,该标签配置装置900包括:
资源获取模块901,用于获取待配置标签的目标资源;
特征提取模块902,用于通过特征提取模型,对所述目标资源的目标参考数据进行特征提取处理,得到所述目标参考数据对应的特征向量;
标签分类模块903,用于通过标签分类模型,根据所述目标参考数据对应的特征向量,确定所述目标资源所属于各候选分类标签的概率;所述标签分类模型与所述特征提取模型互相独立;
标签确定模块904,用于根据所述目标资源所属于各候选分类标签的概率,确定所述目标资源对应的目标分类标签。
可选的,在图9所示的标签配置装置的基础上,所述目标资源为目标视频资源,所述目标参考数据包括以下至少一种:所述目标视频资源中的多个目标视频帧、所述目标视频资源中的目标音频、所述目标视频资源的目标参考文本,所述目标参考文本包括标题文本和内容介绍文本中的至少一种;
则所述特征提取模块902具体用于:
当所述目标参考数据包括所述目标视频资源中的多个目标视频帧时,通过图像特征提取模型,对所述多个目标视频帧分别进行特征提取处理,得到所述多个目标视频帧各自对应的特征向量;
当所述目标参考数据包括所述目标视频资源中的目标音频时,通过音频特征提取模型,对所述目标音频对应的多段梅尔频谱分别进行特征提取处理,得到所述多段梅尔频谱各自对应的特征向量;
当所述目标参考数据包括所述目标视频资源的目标参考文本时,通过文本特征提取模型,对所述目标参考文本中的文本分词进行特征提取处理,得到所述文本分词对应的特征向量。
可选的,在图9所示的标签配置装置的基础上,当所述目标参考数据包括所述目标视频资源中的多个目标视频帧、所述目标视频资源中的目标音频、以及所述目标视频资源的目标参考文本时,所述标签分类模型包括单模态特征聚合模块、多模态特征聚合模块和标签分类模块,所述单模态特征聚合模块包括视频特征聚合层、音频特征聚合层和文本特征聚合层;
则所述标签分类模块903具体用于:
通过所述视频特征聚合层,聚合所述多个目标视频帧各自对应的特征向量,得到视频聚合特征向量;通过所述音频特征聚合层,聚合所述多段梅尔频谱各自对应的特征向量,得到音频聚合特征向量;通过所述文本特征聚合层,聚合所述文本分词对应的特征向量,得到文本聚合特征向量;
通过所述多模态特征聚合模块,聚合所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量,得到目标特征向量;
通过所述标签分类模块,根据所述目标特征向量,确定所述目标资源所属于各所述候选分类标签的概率。
可选的,所述标签分类模块903具体通过以下方式聚合所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量,得到目标特征向量:
通过所述多模态特征聚合模块中的全连接层,将所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量映射至目标维度,得到目标视频特征向量、目标音频特征向量和目标文本特征向量;
对所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量分别进行线性映射处理,根据线性映射处理后的所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量,确定所述目标视频特征向量、所述目标音频特征向量和所述目标文本特征向量各自对应的门单元;
基于所述目标视频特征向量、所述目标音频特征向量和所述目标文本特征向量各自对应的门单元,对所述目标视频特征向量、所述目标音频特征向量和所述目标文本特征向量进行加权聚合处理,得到所述目标特征向量。
可选的,所述标签分类模块903具体通过以下方式聚合所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量,得到目标特征向量:
通过所述多模态特征聚合模块中的全连接层,将所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量映射至目标维度,得到目标视频特征向量、目标音频特征向量和目标文本特征向量;
确定所述目标视频特征向量与目标隐向量之间的相似度,作为所述目标视频特征向量对应的权重;确定所述目标音频特征向量与所述目标隐向量之间的相似度,作为所述目标音频特征向量对应的权重;确定所述目标文本特征向量与所述目标隐向量之间的相似度,作为所述目标文本特征向量对应的权重;
基于所述目标视频特征向量、所述目标音频特征向量和所述目标文本特征向量各自对应的权重,对所述目标视频特征向量、所述目标音频特征向量和所述目标文本特征向量进行加权聚合处理,得到所述目标特征向量。
可选的,在图9所示标签配置装置的基础上,所述标签配置装置900还包括:分类模型训练模块1000。图10为本申请实施例提供的分类模型训练模块1000的结构示意图。如图10所示,该分类模型训练模块1000包括:
训练样本获取子模块1001,用于获取训练样本;所述训练样本包括训练资源及其对应的标注分类标签;
特征提取子模块1002,用于通过所述特征提取模型,对所述训练资源的训练参考数据进行特征提取处理,得到所述训练参考数据对应的第一特征向量;
第一损失函数确定子模块1003,用于通过待训练的基础标签分类模型,根据所述训练参考数据对应的第一特征向量,确定所述训练资源所属于各所述候选分类标签的第一预测概率;根据所述第一预测概率和所述标注分类标签,确定第一损失函数;
扰动向量添加子模块1004,用于在所述训练参考数据对应的第一特征向量上添加扰动向量,得到所述训练参考数据对应的第二特征向量;
第二损失函数确定子模块1005,用于通过所述基础标签分类模型,根据所述训练参考数据对应的第二特征向量,确定所述训练资源所属于各所述候选分类标签的第二预测概率;根据所述第二预测概率和所述标注分类标签,确定第二损失函数;
目标损失函数确定子模块1006,用于根据所述第一损失函数和所述第二损失函数,确定目标损失函数;
模训训练子模块1007,用于基于所述目标损失函数,对所述基础标签分类模型进行训练。
可选的,在图10所示的分类模型训练模块的基础上,所述训练资源为训练视频资源,所述训练参考数据包括以下至少一种:所述训练视频资源中的多个训练视频帧、所述训练视频资源中的训练音频、所述训练视频资源的训练参考文本;所述训练参考文本包括标题文本和内容介绍文本中的至少一种;
则所述特征提取子模块1002和所述扰动向量添加子模块1004具体用于:
当所述训练参考数据包括所述训练视频资源中的多个训练视频帧时,通过图像特征提取模型,对所述多个训练视频帧分别进行特征提取处理,得到所述多个训练视频帧各自对应的第一特征向量;在所述多个训练视频帧各自对应的第一特征向量上添加视频扰动向量,得到所述多个训练视频帧各自对应的第二特征向量;
当所述训练参考数据包括所述训练视频资源中的训练音频时,通过音频特征提取模型,对所述训练音频对应的多段梅尔频谱分别进行特征提取处理,得到所述多段梅尔频谱各自对应的第一特征向量;在所述多段梅尔频谱各自对应的第一特征向量上添加音频扰动向量,得到所述多段梅尔频谱各自对应的第二特征向量;
当所述训练参考数据包括所述训练视频资源的训练参考文本时,通过文本特征提取模型,对所述训练参考文本中的文本分词进行特征提取处理,得到所述文本分词对应的第一特征向量;在所述文本分词对应的第一特征向量上添加文本扰动向量,得到所述文本分词对应的第二特征向量。
可选的,在图10所示的分类模型训练模块的基础上,所述扰动向量添加子模块1004具体用于通过以下任一种方式确定所述扰动向量:
基于所述第一损失函数梯度向上的方向,确定所述扰动向量;
基于所述第一损失函数梯度向下的方向,确定所述扰动向量;
生成符合正态分布的噪声向量,作为所述扰动向量。
可选的,在图10所示的分类模型训练模块的基础上,所述扰动向量添加子模块1004具体通过以下方式基于所述第一损失函数梯度向上的方向,确定所述扰动向量:
计算所述第一损失函数对所述第一特征向量的偏导;
对偏导后的梯度进行归一化处理;
通过预设的扰动系数修正归一化处理后的结果,得到所述扰动向量。
可选的,在图10所示的分类模型训练模块的基础上,所述第一损失函数确定子模块1003具体用于:
通过所述基础标签分类模型,根据所述训练参考数据对应的第一特征向量,确定所述训练资源所属于各全局分类标签的第三预测概率、以及所述训练资源所属于各局部分类标签的第四预测概率;所述全局分类标签是组合不同层级的所述局部分类标签得到的;
根据所述第三预测概率和所述标注分类标签,确定第三损失函数;根据所述第四预测概率和所述标注分类标签,确定第四损失函数;
根据所述第三损失函数和所述第四损失函数,确定所述第一损失函数;
所述第二损失函数确定子模块1005具体用于:
通过所述基础标签分类模型,根据所述训练参考数据对应的第二特征向量,确定所述训练资源所属于各所述全局分类标签的第五预测概率、以及所述训练资源所属于各所述局部分类标签的第六预测概率;
根据所述第五预测概率和所述标注分类标签,确定第五损失函数;根据所述第六预测概率和所述标注分类标签,确定第六损失函数;
根据所述第五损失函数和所述第六损失函数,确定所述第二损失函数。
上述标签配置装置创新性地通过两个独立的阶段执行针对目标资源的标签配置任务,在第一阶段,先通过特征提取模型对目标资源的目标参考数据进行特征提取处理,得到目标参考数据对应的特征向量,在第二阶段,再通过标签分类模型,根据目标参考数据对应的特征向量确定目标资源所属于各候选分类标签的概率。相比相关技术中通过End2End的方式训练得到的模型,上述装置将执行标签配置任务时所需利用的特征提取结构和标签分类结构解耦开来,利用互相独立的特征提取模型和标签分类模型分别执行特征提取操作和标签分类分类;相应地,对执行标签配置任务时使用的模型进行迭代训练时,可以对特征提取模型和标签分类模型分别进行独立地训练;对于参数量较大的特征提取模型,其通常比较固定,迭代频次较低;对于参数量较小的标签分类模型,迭代频次较高,但是使用大规模的训练样本对其进行迭代训练,无需耗费较长的迭代训练时间。如此,将迭代频次不同的两种结构解耦开来,在实际应用中主要迭代在第二阶段使用的标签分类模型,可以使用大规模的训练样本在较短的迭代训练时间内完成对于模型的迭代训练,满足了网络平台在实际产品应用中的业务需求。
本申请实施例还提供了一种用于配置标签的设备,该设备具体可以是终端设备或者服务器,下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。
参见图11,图11是本申请实施例提供的终端设备的结构示意图。如图11所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称:PersonalDigital Assistant,英文缩写:PDA)、销售终端(英文全称:Point of Sales,英文缩写:POS)、车载电脑等任意终端设备,以终端为计算机为例:
图11示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图11,计算机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(英文全称:wireless fidelity,英文缩写:WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图11中示出的计算机结构并不构成对计算机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行计算机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1180是计算机的控制中心,利用各种接口和线路连接整个计算机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行计算机的各种功能和处理数据,从而对计算机进行整体监控。可选的,处理器1180可包括一个或多个处理单元;优选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
在本申请实施例中,该终端所包括的处理器1180还具有以下功能:
获取待配置标签的目标资源;
通过特征提取模型,对所述目标资源的目标参考数据进行特征提取处理,得到所述目标参考数据对应的特征向量;
通过标签分类模型,根据所述目标参考数据对应的特征向量,确定所述目标资源所属于各候选分类标签的概率;所述标签分类模型与所述特征提取模型互相独立;
根据所述目标资源所属于各候选分类标签的概率,确定所述目标资源对应的目标分类标签。
可选的,所述处理器1180还用于执行本申请实施例提供的标签配置方法的任意一种实现方式的步骤。
参见图12,图12为本申请实施例提供的一种服务器1200的结构示意图。该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1222(例如,一个或一个以上处理器)和存储器1232,一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中,存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1222可以设置为与存储介质1230通信,在服务器1200上执行存储介质1230中的一系列指令操作。
服务器1200还可以包括一个或一个以上电源1226,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1258,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。
其中,CPU 1222用于执行如下步骤:
获取待配置标签的目标资源;
通过特征提取模型,对所述目标资源的目标参考数据进行特征提取处理,得到所述目标参考数据对应的特征向量;
通过标签分类模型,根据所述目标参考数据对应的特征向量,确定所述目标资源所属于各候选分类标签的概率;所述标签分类模型与所述特征提取模型互相独立;
根据所述目标资源所属于各候选分类标签的概率,确定所述目标资源对应的目标分类标签。
可选的,CPU 1222还可以用于执行本申请实施例提供的标签配置方法的任意一种实现方式的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的一种标签配置方法中的任意一种实施方式。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述各个实施例所述的一种标签配置方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种标签配置方法,其特征在于,所述方法包括:
获取待配置标签的目标资源;
通过特征提取模型,对所述目标资源的目标参考数据进行特征提取处理,得到所述目标参考数据对应的特征向量;
通过标签分类模型,根据所述目标参考数据对应的特征向量,确定所述目标资源所属于各候选分类标签的概率;所述标签分类模型与所述特征提取模型互相独立;
根据所述目标资源所属于各候选分类标签的概率,确定所述目标资源对应的目标分类标签。
2.根据权利要求1所述的方法,其特征在于,所述目标资源为目标视频资源,所述目标参考数据包括以下至少一种:所述目标视频资源中的多个目标视频帧、所述目标视频资源中的目标音频、所述目标视频资源的目标参考文本,所述目标参考文本包括标题文本和内容介绍文本中的至少一种;
所述通过特征提取模型,对所述目标资源的目标参考数据进行特征提取处理,得到所述目标参考数据对应的特征向量,包括:
当所述目标参考数据包括所述目标视频资源中的多个目标视频帧时,通过图像特征提取模型,对所述多个目标视频帧分别进行特征提取处理,得到所述多个目标视频帧各自对应的特征向量;
当所述目标参考数据包括所述目标视频资源中的目标音频时,通过音频特征提取模型,对所述目标音频对应的多段梅尔频谱分别进行特征提取处理,得到所述多段梅尔频谱各自对应的特征向量;
当所述目标参考数据包括所述目标视频资源的目标参考文本时,通过文本特征提取模型,对所述目标参考文本中的文本分词进行特征提取处理,得到所述文本分词对应的特征向量。
3.根据权利要求2所述的方法,其特征在于,当所述目标参考数据包括所述目标视频资源中的多个目标视频帧、所述目标视频资源中的目标音频、以及所述目标视频资源的目标参考文本时,所述标签分类模型包括单模态特征聚合模块、多模态特征聚合模块和标签分类模块,所述单模态特征聚合模块包括视频特征聚合层、音频特征聚合层和文本特征聚合层;
所述通过标签分类模型,根据所述目标参考数据对应的特征向量,确定所述目标资源所属于各候选分类标签的概率,包括:
通过所述视频特征聚合层,聚合所述多个目标视频帧各自对应的特征向量,得到视频聚合特征向量;通过所述音频特征聚合层,聚合所述多段梅尔频谱各自对应的特征向量,得到音频聚合特征向量;通过所述文本特征聚合层,聚合所述文本分词对应的特征向量,得到文本聚合特征向量;
通过所述多模态特征聚合模块,聚合所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量,得到目标特征向量;
通过所述标签分类模块,根据所述目标特征向量,确定所述目标资源所属于各所述候选分类标签的概率。
4.根据权利要求3所述的方法,其特征在于,所述通过所述多模态特征聚合模块,聚合所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量,得到目标特征向量,包括:
通过所述多模态特征聚合模块中的全连接层,将所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量映射至目标维度,得到目标视频特征向量、目标音频特征向量和目标文本特征向量;
对所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量分别进行线性映射处理,根据线性映射处理后的所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量,确定所述目标视频特征向量、所述目标音频特征向量和所述目标文本特征向量各自对应的门单元;
基于所述目标视频特征向量、所述目标音频特征向量和所述目标文本特征向量各自对应的门单元,对所述目标视频特征向量、所述目标音频特征向量和所述目标文本特征向量进行加权聚合处理,得到所述目标特征向量。
5.根据权利要求3所述的方法,其特征在于,所述通过所述多模态特征聚合模块,聚合所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量,得到目标特征向量,包括:
通过所述多模态特征聚合模块中的全连接层,将所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量映射至目标维度,得到目标视频特征向量、目标音频特征向量和目标文本特征向量;
确定所述目标视频特征向量与目标隐向量之间的相似度,作为所述目标视频特征向量对应的权重;确定所述目标音频特征向量与所述目标隐向量之间的相似度,作为所述目标音频特征向量对应的权重;确定所述目标文本特征向量与所述目标隐向量之间的相似度,作为所述目标文本特征向量对应的权重;
基于所述目标视频特征向量、所述目标音频特征向量和所述目标文本特征向量各自对应的权重,对所述目标视频特征向量、所述目标音频特征向量和所述目标文本特征向量进行加权聚合处理,得到所述目标特征向量。
6.根据权利要求1所述的方法,其特征在于,通过以下方式训练所述标签分类模型:
获取训练样本,所述训练样本包括训练资源及其对应的标注分类标签;
通过所述特征提取模型,对所述训练资源的训练参考数据进行特征提取处理,得到所述训练参考数据对应的第一特征向量;
通过待训练的基础标签分类模型,根据所述训练参考数据对应的第一特征向量,确定所述训练资源所属于各所述候选分类标签的第一预测概率;根据所述第一预测概率和所述标注分类标签,确定第一损失函数;
在所述训练参考数据对应的第一特征向量上添加扰动向量,得到所述训练参考数据对应的第二特征向量;
通过所述基础标签分类模型,根据所述训练参考数据对应的第二特征向量,确定所述训练资源所属于各所述候选分类标签的第二预测概率;根据所述第二预测概率和所述标注分类标签,确定第二损失函数;
根据所述第一损失函数和所述第二损失函数,确定目标损失函数;
基于所述目标损失函数,对所述基础标签分类模型进行训练。
7.根据权利要求6所述的方法,其特征在于,所述训练资源为训练视频资源,所述训练参考数据包括以下至少一种:所述训练视频资源中的多个训练视频帧、所述训练视频资源中的训练音频、所述训练视频资源的训练参考文本;所述训练参考文本包括标题文本和内容介绍文本中的至少一种;
所述通过所述特征提取模型,对所述训练资源的训练参考数据进行特征提取处理,得到所述训练参考数据对应的第一特征向量,以及,所述在所述训练参考数据对应的第一特征向量上添加扰动向量,得到所述训练参考数据对应的第二特征向量,包括:
当所述训练参考数据包括所述训练视频资源中的多个训练视频帧时,通过图像特征提取模型,对所述多个训练视频帧分别进行特征提取处理,得到所述多个训练视频帧各自对应的第一特征向量;在所述多个训练视频帧各自对应的第一特征向量上添加视频扰动向量,得到所述多个训练视频帧各自对应的第二特征向量;
当所述训练参考数据包括所述训练视频资源中的训练音频时,通过音频特征提取模型,对所述训练音频对应的多段梅尔频谱分别进行特征提取处理,得到所述多段梅尔频谱各自对应的第一特征向量;在所述多段梅尔频谱各自对应的第一特征向量上添加音频扰动向量,得到所述多段梅尔频谱各自对应的第二特征向量;
当所述训练参考数据包括所述训练视频资源的训练参考文本时,通过文本特征提取模型,对所述训练参考文本中的文本分词进行特征提取处理,得到所述文本分词对应的第一特征向量;在所述文本分词对应的第一特征向量上添加文本扰动向量,得到所述文本分词对应的第二特征向量。
8.根据权利要求6所述的方法,其特征在于,通过以下任一种方式确定所述扰动向量:
基于所述第一损失函数梯度向上的方向,确定所述扰动向量;
基于所述第一损失函数梯度向下的方向,确定所述扰动向量;
生成符合正态分布的噪声向量,作为所述扰动向量。
9.根据权利要求8所述的方法,其特征在于,所述基于所述第一损失函数梯度向上的方向,确定所述扰动向量,包括:
计算所述第一损失函数对所述第一特征向量的偏导;
对偏导后的梯度进行归一化处理;
通过预设的扰动系数修正归一化处理后的结果,得到所述扰动向量。
10.根据权利要求6所述的方法,其特征在于,所述通过待训练的基础标签分类模型,根据所述训练参考数据对应的第一特征向量,确定所述训练资源所属于各所述候选分类标签的第一预测概率;根据所述第一预测概率和所述标注分类标签,确定第一损失函数,包括:
通过所述基础标签分类模型,根据所述训练参考数据对应的第一特征向量,确定所述训练资源所属于各全局分类标签的第三预测概率、以及所述训练资源所属于各局部分类标签的第四预测概率;所述全局分类标签是组合不同层级的所述局部分类标签得到的;
根据所述第三预测概率和所述标注分类标签,确定第三损失函数;根据所述第四预测概率和所述标注分类标签,确定第四损失函数;
根据所述第三损失函数和所述第四损失函数,确定所述第一损失函数;
所述通过所述基础标签分类模型,根据所述训练参考数据对应的第二特征向量,确定所述训练资源所属于各所述候选分类标签的第二预测概率;根据所述第二预测概率和所述标注分类标签,确定第二损失函数,包括:
通过所述基础标签分类模型,根据所述训练参考数据对应的第二特征向量,确定所述训练资源所属于各所述全局分类标签的第五预测概率、以及所述训练资源所属于各所述局部分类标签的第六预测概率;
根据所述第五预测概率和所述标注分类标签,确定第五损失函数;根据所述第六预测概率和所述标注分类标签,确定第六损失函数;
根据所述第五损失函数和所述第六损失函数,确定所述第二损失函数。
11.一种标签配置装置,其特征在于,所述装置包括:
资源获取模块,用于获取待配置标签的目标资源;
特征提取模块,用于通过特征提取模型,对所述目标资源的目标参考数据进行特征提取处理,得到所述目标参考数据对应的特征向量;
标签分类模块,用于通过标签分类模型,根据所述目标参考数据对应的特征向量,确定所述目标资源所属于各候选分类标签的概率;所述标签分类模型与所述特征提取模型互相独立;
标签确定模块,用于根据所述目标资源所属于各候选分类标签的概率,确定所述目标资源对应的目标分类标签。
12.根据权利要求11所述的装置,其特征在于,所述目标资源为目标视频资源,所述目标参考数据包括以下至少一种:所述目标视频资源中的多个目标视频帧、所述目标视频资源中的目标音频、所述目标视频资源的目标参考文本,所述目标参考文本包括标题文本和内容介绍文本中的至少一种;
所述特征提取模块具体用于:
当所述目标参考数据包括所述目标视频资源中的多个目标视频帧时,通过图像特征提取模型,对所述多个目标视频帧分别进行特征提取处理,得到所述多个目标视频帧各自对应的特征向量;
当所述目标参考数据包括所述目标视频资源中的目标音频时,通过音频特征提取模型,对所述目标音频对应的多段梅尔频谱分别进行特征提取处理,得到所述多段梅尔频谱各自对应的特征向量;
当所述目标参考数据包括所述目标视频资源的目标参考文本时,通过文本特征提取模型,对所述目标参考文本中的文本分词进行特征提取处理,得到所述文本分词对应的特征向量。
13.根据权利要求12所述的装置,其特征在于,当所述目标参考数据包括所述目标视频资源中的多个目标视频帧、所述目标视频资源中的目标音频、以及所述目标视频资源的目标参考文本时,所述标签分类模型包括单模态特征聚合模块、多模态特征聚合模块和标签分类模块,所述单模态特征聚合模块包括视频特征聚合层、音频特征聚合层和文本特征聚合层;
所述标签分类模块具体用于:
通过所述视频特征聚合层,聚合所述多个目标视频帧各自对应的特征向量,得到视频聚合特征向量;通过所述音频特征聚合层,聚合所述多段梅尔频谱各自对应的特征向量,得到音频聚合特征向量;通过所述文本特征聚合层,聚合所述文本分词对应的特征向量,得到文本聚合特征向量;
通过所述多模态特征聚合模块,聚合所述视频聚合特征向量、所述音频聚合特征向量和所述文本聚合特征向量,得到目标特征向量;
通过所述标签分类模块,根据所述目标特征向量,确定所述目标资源所属于各所述候选分类标签的概率。
14.一种设备,其特征在于,所述设备包括处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1至10中任一项所述的标签配置方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1至10中任一项所述的标签配置方法。
CN202110019037.9A 2021-01-07 2021-01-07 一种标签配置方法、装置、设备及存储介质 Pending CN113392317A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110019037.9A CN113392317A (zh) 2021-01-07 2021-01-07 一种标签配置方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110019037.9A CN113392317A (zh) 2021-01-07 2021-01-07 一种标签配置方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113392317A true CN113392317A (zh) 2021-09-14

Family

ID=77616669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110019037.9A Pending CN113392317A (zh) 2021-01-07 2021-01-07 一种标签配置方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113392317A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935407A (zh) * 2021-09-29 2022-01-14 光大科技有限公司 一种异常行为识别模型确定方法及装置
CN114139031A (zh) * 2021-10-28 2022-03-04 马上消费金融股份有限公司 数据分类方法、装置、电子设备及存储介质
CN114358007A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 多标签识别方法、装置、电子设备及存储介质
CN114610905A (zh) * 2022-03-23 2022-06-10 腾讯科技(深圳)有限公司 一种数据处理方法及相关装置
CN116340552A (zh) * 2023-01-06 2023-06-27 北京达佳互联信息技术有限公司 一种标签排序方法、装置、设备及存储介质
CN117371533A (zh) * 2023-11-01 2024-01-09 深圳市马博士网络科技有限公司 一种生成数据标签规则的方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935407A (zh) * 2021-09-29 2022-01-14 光大科技有限公司 一种异常行为识别模型确定方法及装置
CN114139031A (zh) * 2021-10-28 2022-03-04 马上消费金融股份有限公司 数据分类方法、装置、电子设备及存储介质
CN114139031B (zh) * 2021-10-28 2024-03-19 马上消费金融股份有限公司 数据分类方法、装置、电子设备及存储介质
CN114358007A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 多标签识别方法、装置、电子设备及存储介质
CN114610905A (zh) * 2022-03-23 2022-06-10 腾讯科技(深圳)有限公司 一种数据处理方法及相关装置
CN114610905B (zh) * 2022-03-23 2024-04-26 腾讯科技(深圳)有限公司 一种数据处理方法及相关装置
CN116340552A (zh) * 2023-01-06 2023-06-27 北京达佳互联信息技术有限公司 一种标签排序方法、装置、设备及存储介质
CN117371533A (zh) * 2023-11-01 2024-01-09 深圳市马博士网络科技有限公司 一种生成数据标签规则的方法及装置

Similar Documents

Publication Publication Date Title
CN113392317A (zh) 一种标签配置方法、装置、设备及存储介质
US10769532B2 (en) Network rating prediction engine
CN105210064B (zh) 使用深度网络将资源分类
Zhou et al. Dense teacher: Dense pseudo-labels for semi-supervised object detection
CN110532417B (zh) 基于深度哈希的图像检索方法、装置及终端设备
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN111507768B (zh) 一种潜在用户的确定方法及相关装置
CN111966914B (zh) 基于人工智能的内容推荐方法、装置和计算机设备
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN109471978B (zh) 一种电子资源推荐方法及装置
CN112380453B (zh) 物品推荐方法、装置、存储介质及设备
CN112131430A (zh) 视频聚类方法、装置、存储介质和电子设备
CN113158554A (zh) 模型优化方法、装置、计算机设备及存储介质
CN115131698A (zh) 视频属性确定方法、装置、设备及存储介质
CN114462425B (zh) 社交媒体文本处理方法、装置、设备及存储介质
CN113657087B (zh) 信息的匹配方法及装置
US20230351473A1 (en) Apparatus and method for providing user's interior style analysis model on basis of sns text
CN116910357A (zh) 一种数据处理方法及相关装置
CN111325578A (zh) 预测模型的样本确定方法及装置、介质和设备
US10311361B1 (en) Media theme propagation using decretization of continuous variables
CN116957128A (zh) 业务指标预测方法、装置、设备和存储介质
CN114092162B (zh) 推荐质量确定方法、推荐质量确定模型的训练方法及装置
CN111444335A (zh) 中心词的提取方法及装置
CN115359296A (zh) 图像识别方法、装置、电子设备及存储介质
CN115344794A (zh) 一种基于知识图谱语义嵌入的旅游景点推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40053144

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination