CN113378784B - 视频标签推荐模型的训练方法和确定视频标签的方法 - Google Patents

视频标签推荐模型的训练方法和确定视频标签的方法 Download PDF

Info

Publication number
CN113378784B
CN113378784B CN202110754370.4A CN202110754370A CN113378784B CN 113378784 B CN113378784 B CN 113378784B CN 202110754370 A CN202110754370 A CN 202110754370A CN 113378784 B CN113378784 B CN 113378784B
Authority
CN
China
Prior art keywords
video
feature
tag
label
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110754370.4A
Other languages
English (en)
Other versions
CN113378784A (zh
Inventor
叶芷
唐鑫
王贺伟
葛利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110754370.4A priority Critical patent/CN113378784B/zh
Publication of CN113378784A publication Critical patent/CN113378784A/zh
Priority to EP22789452.4A priority patent/EP4134921A4/en
Priority to KR1020227037066A priority patent/KR20220153088A/ko
Priority to JP2022564826A priority patent/JP2023535108A/ja
Priority to PCT/CN2022/096229 priority patent/WO2023273769A1/zh
Application granted granted Critical
Publication of CN113378784B publication Critical patent/CN113378784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本公开提供了一种视频标签推荐模型的训练方法和确定视频标签的方法、装置、电子设备和存储介质,应用于人工智能技术领域,具体应用于语音识别、自然语言处理、计算机视觉和智能推荐技术领域。其中,视频标签推荐模型包括视频提取网络和标签特征提取网络。该视频标签推荐模型的训练方法包括:采用视频特征提取网络,获得视频样本的第一视频特征;以作为正样本的第一标签作为标签特征提取网络的输入,获得第一标签的第一特征;以作为负样本的第二标签作为标签特征提取网络的输入,获得第二标签的第二特征;以及基于第一视频特征、第一特征、第二特征和预定损失函数,对视频标签推荐模型进行训练。

Description

视频标签推荐模型的训练方法和确定视频标签的方法
技术领域
本公开涉及人工智能技术领域,具体涉及语音识别、自然语言处理、计算机视觉和智能推荐技术领域,更具体地涉及一种视频标签推荐模型的训练方法和确定视频标签的方法、装置、电子设备和存储介质。
背景技术
随着计算机技术和网络技术的发展,视频作为信息的传播载体得到充分发展。为了向用户提供高效的视频搜索和视频推荐等服务,通常需要对视频添加标签。
相关技术中,主要依赖于监督学习来对视频进行分类。监督学习通常依赖于大量标注的数据。通过对视频进行分类来确定标签的技术方案中,通常需要预先定义好标签体系。若标签体系根据实时需求进行了调整,则需要对分类模型进行重新训练。
发明内容
本公开提供了一种提高模型灵活性的视频标签推荐模型的训练方法和确定视频标签的方法、装置、设备和存储介质。
根据本公开的一个方面,提供了一种视频标签推荐模型的训练方法,其中视频标签推荐模型包括视频特征提取网络和标签特征提取网络;该方法包括:采用视频特征提取网络,获得视频样本的第一视频特征;以作为正样本的第一标签作为标签特征提取网络的输入,获得第一标签的第一特征;以作为负样本的第二标签作为标签特征提取网络的输入,获得第二标签的第二特征;以及基于第一视频特征、第一特征、第二特征和预定损失函数,对视频标签推荐模型进行训练。
根据本公开的另一方面,提供了一种确定视频标签的方法,包括:采用视频标签推荐模型中的视频特征提取网络,获得待处理视频的第二视频特征;以预定标签库中的每个标签作为视频标签推荐模型中的标签特征提取网络的输入,获得每个标签的标签特征;以及基于每个标签的标签特征与第二视频特征之间的距离,确定预定标签库中的目标标签,作为针对待处理视频的标签,其中,视频标签推荐模型是采用前文描述的针对视频的视频标签推荐模型的训练方法训练得到的。
根据本公开的另一方面,提供了一种视频标签推荐模型的训练装置,其中,该视频标签推荐模型包括视频特征提取网络和标签特征提取网络;该装置包括:第一视频特征获得模块,用于采用视频特征提取网络,获得视频样本的第一视频特征;第一特征获得模块,用于以作为正样本的第一标签作为标签特征提取网络的输入,获得第一标签的第一特征;第二特征获得模块,用于以作为负样本的第二标签作为标签特征提取网络的输入,获得第二标签的第二特征;以及模型训练模块,用于基于第一视频特征、第一特征、第二特征和预定损失函数,对视频标签推荐模型进行训练。
根据本公开的另一方面,提供了一种确定视频标签的装置,包括:第二视频特征获得模块,用于采用视频标签推荐模型中的视频特征提取网络,获得待处理视频的第二视频特征;标签特征获得模块,用于以预定标签库中的每个标签作为视频标签推荐模型中的标签特征提取网络的输入,获得每个标签的标签特征;以及标签确定模块,用于基于每个标签的标签特征与第二视频特征之间的距离,确定预定标签库中的目标标签,作为针对待处理视频的标签,其中,视频标签推荐模型是采用前述的视频标签推荐模型的训练装置训练得到的。
根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的视频标签推荐模型的训练方法和/或确定视频标签的方法。
根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的视频标签推荐模型的训练方法和/或确定视频标签的方法。
根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的视频标签推荐模型的训练方法和/或确定视频标签的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的视频标签推荐模型的训练方法和确定视频标签的方法、装置的应用场景示意图;
图2是根据本公开实施例的视频标签推荐模型的训练方法的流程示意图;
图3是根据本公开实施例的获得视频样本的第一视频特征的原理示意图;
图4是根据本公开实施例的确定视频模态的特征向量的原理示意图;
图5是根据本公开实施例的确定音频模态的特征向量的原理示意图;
图6是根据本公开实施例的视频标签推荐模型的训练方法的原理示意图;
图7是根据本公开实施例的确定视频标签的方法的流程示意图;
图8是根据本公开实施例的视频标签推荐模型的训练装置的结构框图;
图9是根据本公开实施例的确定视频标签的装置的结构框图;以及
图10是用来实施本公开实施例的视频标签推荐模型的训练方法和/或确定视频标签的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种视频标签推荐模型的训练方法,其中,视频标签推荐模型包括视频特征提取网络和标签特征提取网络。训练方法包括融合特征获得阶段、标签特征获得阶段和模型训练阶段。在融合特征获得阶段中,采用视频特征提取网络,获得视频样本的第一视频特征。在标签特征获得阶段中,以作为正样本的第一标签作为标签特征提取网络的输入,获得第一标签的第一特征;并以作为负样本的第二标签作为标签特征提取网络的输入,获得第二标签的第二特征。在模型训练阶段中,基于第一视频特征、第一特征、第二特征和预定损失函数,对视频标签推荐模型进行训练。
以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
图1是根据本公开实施例的视频标签推荐模型的训练方法和确定视频标签的方法、装置的应用场景示意图。
如图1所示,该实施例的场景100包括服务器110、第一数据库120和第二数据库130。服务器110例如可以通过网络访问第一数据库120和第二数据库130,网络可以包括有线或无线通信链路。
第一数据库120中例如可以为标签库,该标签库中维护有多个标签。该标签库中的标签例如可以根据实际需求动态调整。例如,该多个标签可以指示从实时资讯热点中提取的多个关键词等。服务器110可以通过访问该第一数据库120,以从第一数据库120中获取标签140。
第二数据库130中例如可以为视频库,该视频库中维护有多个视频,该多个视频中可以包括有已标注视频和未标注视频。其中,已标注视频是指具有标签的视频。服务器110例如可以从第二数据库130中读取未标注视频150,并基于该未标注视频150从第一数据库120中挑选匹配的标签,以该匹配的标签标注该未标注视频150,得到标注后视频160。该服务器110还可以将标注后视频160存入第二数据库130中。
在一实施例中,第一数据库120和第二数据库130例如可以为同一数据库中的不同存储分区。第二数据库130中例如可以具有至少两个相互独立的存储空间,以用于分别存储未标注视频和已标注视频。
在一实施例中,如图1所示,该应用场景100还可以包括终端设备170,该终端设备170可以通过网络与服务器110交互,该终端设备170例如还可以通过网络访问第二数据库130,以将生成的视频作为未标注视频存储至第二数据库130中。
根据本公开的实施例,终端设备170通过与服务器110的交互,例如可以向服务器110发送视频获取请求。服务器110例如可以响应于该视频获取请求从第二数据库130中的已标注视频中获取匹配的视频,并将该匹配的视频反馈给终端设备170,以供终端设备170进行展示和播放。
示例性地,终端设备170例如可以为具有显示屏的台式计算机、膝上型便携计算机、平板电脑、智能手机、智能手表等电子设备,该终端设备170上可以安装有各种客户端应用。服务器110例如可以为支持视频播放类应用运行的任意服务器,例如可以为分布式系统的服务器,或者是结合了区块链的服务器。
需要说明的是,本公开实施例所提供的视频标签推荐模型的训练方法和/或确定视频标签的方法一般可以由服务器110执行,或者也可以由与服务器110通信连接的其他服务器执行。本公开实施例所提供的视频标签推荐模型的训练装置和/或确定视频标签的装置可以设置于服务器110中,或者也可以设置于与服务器110通信连接的其他服务器中。
应该理解,图1中的服务器、数据库和终端设备的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数据和类型的服务器、数据库和终端设备。
以下将结合图1,通过以下图2~图6对本公开提供的视频标签推荐模型的训练方法进行详细描述。
如图2所示,该实施例的视频标签推荐模型的训练方法200可以包括操作S210~操作S240。
根据本公开的实施例,该视频标签推荐模型可以具有视频特征提取网络和标签特征提取网络。其中,视频特征提取网络可以采用图像特征提取模型、音频特征提取模型和文本特征提取模型的中的至少一个来提取视频的特征,标签特征提取网络可以采用文本特征提取模型提取标签的特征。
在操作S210,采用视频特征提取网络,获得视频样本的第一视频特征。
根据本公开的实施例,视频特征提取网络可以设置有前述图像特征提取模型、音频特征提取模型和文本特征提取模型中的至少一个模型,以用于提取视频样本的特征。
在一实施例中,视频特征提取网络可以设置有至少两个特征提取层,该至少两个特征提取层分别设置有不同模态的特征提取模型。则在获得视频样本的第一视频特征时,可以先采用该至少两个特征提取层,分别获得视频样本的至少两个模态的特征向量。随后对该至少两个模态的特征进行融合,得到第一视频特征,即该第一视频特征为多模态特征融合得到的融合特征。
其中,视频样本中可以包括多个视频帧、与每个视频帧对应的音频数据、与每个视频帧对应的字幕文本数据和视频的标题文本数据等。图像特征提取模型可以基于多个视频帧提取特征,音频特征提取模型可以基于音频数据提取特征,文本特征提取模型可以基于字幕文本数据和/或标题文本数据等提取特征。
其中,图像特征提取模型例如可以为卷积神经网络模型、马尔科夫随机场模型等,提取的特征可以包括以下特征中的至少之一:颜色特征、形状特征和纹理特征等。音频特征提取模型例如可以对音频进行以下变换中的至少一种:短时傅里叶变换、离散余弦变换、离散小波变换、梅尔频谱和梅尔倒谱、恒Q变换等,以提取得到音频特征。文本特征提取模型例如可以为词袋模型、TF-IDF模型或深度学习模型等。其中,深度学习模型可以为卷积神经网络、循环神经网络等。可以理解的是,上述图像特征提取模型、音频特征提取模型和文本特征提取模型仅作为示例以利于理解本公开,本公开对此不做限定。
视频特征提取网络例如可以包括特征融合层,在得到至少两个模态的特征后,该特征融合层可以对该至少两个模态的特征执行拼接、相加或相乘等操作,以实现对该至少两个模态的特征的融合。
根据本公开的实施例,为了便于融合,该实施例中的视频特征提取网络例如还包括与至少两个特征提取层一一对应的全连接层,该全连接层夹设于特征提取层与特征融合层之间,以将至少两个模态的特征的尺寸进行转换。相应地,特征融合层用于对经由全连接层转换后的特征进行融合。
在操作S220,以作为正样本的第一标签作为标签特征提取网络的输入,获得第一标签的第一特征。
根据本公开的实施例,标签特征提取网络例如可以设置有文本特征提取模型,用于提取文本形式的标签的特征。该文本特征提取模型与前述视频特征提取网络中的文本特征提取模型类似。或者,该标签特征提取网络中的文本特征提取模型可以为用于提取短文本特征的模型(例如LSTM模型、BERT模型等),而视频特征提取网络中的文本特征提取模型可以为用于提取长文本特征的模型(例如BERT+LSTM模型、TF-IDF模型等)。
该实施例可以将第一标签输入该标签特征提取网络中,经由该标签特征提取网络处理后输出该第一特征。
其中,作为正样本的第一标签可以是与视频样本匹配的标签。例如,若该视频样本为体育比赛视频,则该第一标签可以为“体育”。该第一标签可以根据经验设定,也可以根据与视频的标题之间的相似度等来设定。例如可以选择与视频的标题之间的相似度大于0.9的标签作为正样本。可以理解的是,前述0.9仅作为示例以利于理解本公开,本公开对此不做限定。
在操作S230,以作为负样本的第二标签作为标签特征提取网络的输入,获得第二标签的第二特征。
该操作S230与前述操作S220类似,可以将第二标签输入该标签特征提取网络中,经由该标签特征提取网络处理后输出该第二特征。其中,作为负样本的第一标签可以是与视频样本不匹配的标签。例如,若该视频样本为体育比赛视频,则该第二标签可以为“综艺”等。该第二标签可以根据经验设定,也可以根据与视频的标题之间的相似度等来设定。例如可以选择与视频的标题之间的相似度小于0.5的标签作为负样本。可以理解的是,前述0.5仅作为示例以利于理解本公开,本公开对此不做限定。
可以理解的是,操作S230例如可以在操作S220之后执行,也可以在操作S230之前执行。或者,为了提高训练效率,在训练时,还可以为视频标签推荐模型设置两个参数共享的标签特征提取网络,该两个网络分别用于获得第一标签的第一特征和第二标签的第二特征。在训练完成后,仅保留该两个网络中的一个网络用于预测。
在操作S240,基于第一视频特征、第一特征、第二特征和预定损失函数,对视频标签推荐模型进行训练。
根据本公开的实施例,可以先根据第一视频特征、第一特征和第二特征来确定预定损失函数的取值。随后基于该预定损失函数的取值,反向传播算法或梯度下降算法来调整视频标签推荐模型中各网络模型的参数。通过对该视频标签推荐模型的训练,可以使得第一视频特征更为接近第一特征,同时更为偏移第二特征。如此在预测时,通过训练好的视频标签推荐模型,可以从标签库中挑选出与视频更为匹配的标签。
根据本公开的实施例,视频样本、正样本和负样本可以构成三元组样本对,预定损失函数可以为三重态损失(Triplet loss)函数。相应地,可以采用后文描述的方法来确定损失函数的取值,在此不再详述。可以理解的是,该预定损失函数的类型仅作为示例以利于理解本公开,只要该预定损失函数的取值与第一视频特征和第一特征之间的距离正相关,与第一视频特征和第二特征之间的距离负相关即可。
综上分析,本公开实施例通过设置具有视频特征提取网络和标签特征提取网络的视频标签推荐模型,并基于正样本的特征和负样本的特征来对视频标签推荐模型进行训练,可以学习到视频特征与标签特征之间的关联关系。在训练时,无需依赖于对视频样本的标注准确性,无需对标签进行清晰可分的定义、也无需关注标签之间的描述粒度等。再者,通过构建提取视频样本的多模态融合特征的视频标签推荐模型,可以使得提取的视频特征的泛化能力更强,能够更为准确的表达视频。整体而言,通过该实施例的训练方法训练得到的视频标签推荐模型,具有更高的灵活性和准确性,尤其适用于主题关注点变换较快的场景,能够高效的确定视频标签。
图3是根据本公开实施例的获得视频样本的第一视频特征的原理示意图。
根据本公开的实施例,前述视频特征提取网络可以具有至少两个子网络以及连接该至少两个子网络的特征融合层,每个子网络设置有一个特征提取层。在获得第一视频特征时,可以采用至少两个子网络中设置的至少两个特征提取层,分别获得视频样本的至少两个模态的特征向量。具体可以将视频样本作为至少两个特征提取层中每个层的输入,经由该至少两个特征提取层处理后,分别输出一个特征向量。随后采用特征融合层对至少两个模态的特征向量进行加权融合,获得第一视频特征。具体可以将该至少两个特征提取层输出的特征向量作为特征融合层的输入,根据特征融合层中学习到的权重值对至少两个模态的特征向量进行加权求和。
示例性地,在加权融合之前,该实施例可以先将至少两个特征向量转换为相同大小的向量。相应地,该视频特征提取网络可以在至少两个特征提取层之后分别添加全连接层,各特征提取层输出的特征向量作为与该各特征提取层连接的全连接层的输入,该全连接层的输出作为特征融合层的输入。
示例性地,特征融合层例如可以采用混合专家系统(Mixture of Experts,MoE)来对至少两个模态的特征向量进行加权融合。具体实现过程为:先将至少两个特征向量的维度压缩成统一维度,随后基于注意力机制(attention)来分配至少两个特征向量各自的权重,最后基于分配的权重,进行加权求和。在对视频标签推荐模型进行训练时,可以同时调整该混合专家系统中注意力机制的参数。通过该方式,可以灵活调整各模态特征的比重,使得得到的视频特征能够更好地表达视频。
其中,至少两个模态例如可以为两个模态或更多个模态。如图3所示,该实施例300中,至少两个模态可以包括图像模态、音频模态和文本模态。具体地,可以将作为锚点样本的视频310中的图像311、音频312和文本313分别作为图像特征提取模型321、音频特征提取模型322和文本特征提取模型323的输入。图像特征提取模型321对图像311进行处理后,可以输出图像特征331。音频特征提取模型322对音频312进行处理后,可以输出音频特征332。文本特征提取模型323对文本313进行处理后,可以输出文本特征333。该图像特征331、音频特征332和文本特征333作为特征融合层340的输入。特征融合层340采用的混合专家系统可以将图像特征提取模型321、音频特征提取模型322和文本特征提取模型323中的每一个模型称作一个专家模型(Expert model),然后针对每个专家模型产生的结果进行加权综合,也就是基于Gate机制,给每个专家模型学习出不同的权重。该Gate机制用于选择使用哪个专家模型,该特征融合层340的实际输出为各个模型的输出与Gate机制学习的权重的组合,该组合即为第一视频特征350。其中,在训练视频标签推荐模型时,不同专家模型参数优化的损失是通过gate机制控制的,即不同目标对不同专家模型的损失是不一样的。
根据本公开的实施例,在提取文本模态的特征向量时,可以将视频样本中的文本数据作为至少两个特征提取层中第二特征提取层的输入,由该第二特征提取层输出文本模态的特征向量。其中,第二特征提取层即为设置有文本特征提取模型的子网络。
示例性地,可以采用BERT模型或者ERNIE模型来作为文本特征提取模型。该实施例可以将文本数据转换为有[cls]token对应特征的句向量。通过将该句向量输入BERT模型或者ERNIE模型,经由该BERT模型或者ERNIE模型处理后可以输出得到文本特征。
示例性地,可以将视频样本中的标题文本作为第二特征提取层的输出来获得文本模态的特征向量。这是由于基于字幕数据获取的特征噪声较多,数据高度冗余。通过该实施例的方法,可以提高特征建模效果,提高提取的文本特征的准确性。
以下将结合图4~图5分别对图像特征提取模型321得到图像模态的特征向量的原理和音频特征提取模型322得到音频模态的特征向量的原理进行详细描述。
图4是根据本公开实施例的确定图像模态的特征向量的原理示意图。
根据本公开的实施例,在采用图像特征提取模型得到图像模态的特征向量时,可以将视频样本中的各个视频帧基于时间排列顺序依次输入至少两个特征提取层中的第一特征提取层。该第一特征提取层即为设置有图像特征提取模型的子网络。经由该图像特征提取模型依次输出各个视频帧的特征向量。最后,将该各个视频帧的特征向量基于时间排列顺序依次拼接,得到图像模态的特征向量。
根据本公开的实施例,考虑到相邻视频帧中通常会具有相同的特征,为了在保证准确性的基础上提高特征提取效率,可以从视频帧中抽取一部分视频帧,基于该一部分视频帧提取图像模态的特征向量。如图4所示,该实施例400可以对视频样本420包括的m帧视频图像进行密集采样,得到由n帧视频图像构成的视频帧序列430。随后将该视频帧序列430中的各个视频帧依次输入图像特征提取模型中。经由该图像特征提取模型依次输出各个视频帧的特征向量,最后,将该各个视频帧的特征向量基于时间排列顺序依次拼接,得到图像模态的特征向量。其中,m与n均为大于1的自然数,且n小于等于m。
在一实施例中,图像特征提取模型可以采用残差网络(Residual NeuralNetwork,ResNet)提取图像特征。具体地,可以采用残差网络440提取视频帧序列430中各视频帧的特征向量,获得特征向量序列450。若视频帧序列430中有n帧视频图像,则得到的特征向量序列450中包括与该n帧视频图像一一对应的n个特征向量。通过融合该特征向量序列中的各特征向量,可以得到图像模态的特征向量460。例如,该图像特征提取模型可以采用RNN模型或者时序上的池化对各个视频帧的特征向量进行融合。
示例性地,可以采用预定采样算法410来从视频样本420中抽取视频帧。预定采样算法例如可以采用稀疏采样算法,该稀疏采样算法例如可以将视频均匀切分为O个时序片段,每个片段随机截取一帧视频图像,最后将从O个时序片段截取的视频图像组合形成视频帧序列。将该视频帧序列中的视频帧按时间顺序依次拼接后输入残差网络。最后将残差网络输出的特征向量在拼接方向进行全局池化,得到图像模态的特征向量。通过采用该预定采样算法抽取视频帧,可以避免因视频时长变化导致计算消耗随之增加的问题。再者,考虑到视频语义特征并不需要细节特征的提取而采用稀疏采样算法。采用该方法,由于视频分段的数量是固定的,因此不论视频长短,图像模态的特征提取的计算量是固定值,从而可以解决计算量随视频时长增长的问题,且该全局特征对于视频理解而言信息量也是足够的。其中,O为大于1的自然数。
根据本公开的实施例,可以采用深度行为识别架构来实现采用预定算法抽取视频帧,采用残差网络提取特征,并采用RNN模型或者时序上的池化对各个视频帧的特征向量进行融合的整体流程。其中,深度行为识别架构例如可以为时间段网络(Temporal SegmentNetworks,TSN)或者时间转移模块(Temporal Shift Module,TSM),本公开对此不做限定。
根据本公开的实施例,在视频时长较长的情况下,例如还可以预先将视频样本切分为多个视频片段。随后采用预定采样算法从多个视频片段中的每个视频片段中抽取至少一个视频帧。例如,预定采样算法可以将每个视频片段均匀切分为O个子片段,并从O个子片段中的每个子片段中随机截取一帧视频图像。若预先将视频样本均匀切分为了P个视频片段,则最终可以采样得到P×O个视频帧。通过该方式,可以避免因采样的视频帧过少导致无法完整表达视频的情况。其中,P为大于1的自然数。
图5是根据本公开实施例的确定音频模态的特征向量的原理示意图。
根据本公开的实施例,提取的音频模态的特征向量例如可以为梅尔频率倒谱系数。在提取音频模态的特征向量时,可以将视频样本的音频数据作为至少两个特征提取层中的第三特征提取层的输入。该第三特征提取层为设置有音频特征提取模型的子网络,从而获得音频数据的梅尔频率倒谱系数,将该梅尔频率倒谱系数作为音频模态的特征向量。
如图5所示,该实施例500中,第三特征提取层提取梅尔频率倒谱系数的流程可以包括操作S510~操作S550。
在操作S510,对视频样本的音频数据501进行音频分帧和预加重操作。其中,考虑到音频数据变化缓慢,可以将其切片,也就是分帧操作。分帧后的音频数据可以看作一个近似的平稳随机过程。一般分帧的时间间隔可以为10~30ms。预加重的过程是为了增强高频分量的幅度,同时突出高频的共振峰。
在操作S520,对分帧、预加重后的音频数据进行窗函数处理。具体可以为对分帧得到的多帧音频数据进行加窗处理。例如可以将音频数据乘以汉明窗,实现对窗函数处理。在进行窗函数处理后,例如还可以对音频数据进行短时傅里叶变换,以将音频数据映射到线性频率上。考虑到短时傅里叶变换后的结果是复数,该实施例还可以对映射到线性频率上的音频数据取绝对值或平方值,得到线性频率谱。
在操作S530,对得到的线性频率谱进行梅尔(Mel)滤波。可以预先设计一组Mel滤波器来对线性频率谱进行滤波,计算每个Mel滤波器的能量。
在操作S540,对计算得到的Mel滤波器的能量进行log变换,得到近似于同态变换的结果。
在操作S550,对近似于同态变换的结果进行离散余弦(Discrete CosineTransform,DCT)变换,获得梅尔频率倒谱系数502。这是由于通过将时域信号变换到频域,取对数后再变换到时域,可以得到倒谱。
本公开实施例通过将梅尔频率倒谱系数作为音频模态的特征向量,可以更好的表示音频数据。这是由于梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,比用于正常的对数倒频谱中的线性间隔的频带更能近似听觉系统。
图6是根据本公开实施例的视频标签推荐模型的训练方法的原理示意图。
根据本公开的实施例,如图6所示,该实施例600中,在对视频标签推荐模型进行训练时,可以为该模型设置参数共享的两个标签特征提取网络(即第一标签特征提取网络622和第二标签特征提取网络623)。
在对视频标签推荐模型进行训练时,可以先将视频样本611输入视频标签推荐模型的视频特征提取网络621中,得到第一视频特征631。类似地,可以将作为正样本612的第一标签输入第一标签特征提取网络622中,经由该网络处理后得到第一特征632。将作为负样本613的第一标签输入第二标签特征提取网络623中,经由该网络处理后得到第二特征633。
随后,确定第一特征632与第一视频特征631之间的距离,得到第一距离641,并确定第二特征633与第一视频特征631之间的距离,得到第二距离642。其中,第一距离和第二距离例如可以通过余弦距离、汉明距离、欧式距离等任意距离来表示。随后可以基于该第一距离641和第二距离642,确定预定损失函数的取值650。最后通过反向传播算法或梯度下降算法,来基于预定损失函数的取值650,来对视频标签推荐模型进行训练。
根据本公开的实施例,以预定损失函数为三重态损失函数为例,该预定损失函数可以采用以下公式表示:
Loss(x)=max(0,d(a,p)-d(a,n)+m)。
其中,Loss(x)为损失函数的取值,d(a,p)为第一视频特征a与第一特征p之间的距离,d(a,n)为第一视频特征a与第二特征n之间的距离,m为距离阈值。其中,m可以根据实际需求进行设定,通常,该m的取值可以为大于0的任意值,设置该距离阈值的目的是为了在训练时对表征好(特征与第一视频特征的距离足够远)的负样本不作考虑,以此使得训练更为关注更难区分的样本对,提高训练效率。
根据本公开的实施例,在训练过程中,关键点在于如何选取负样本。若随机选择一个负样本进行训练效果不一定好,会造成梯度过大或梯度过小的情况,这给模型的训练效率和稳定性都会带来较大的挑战。该实施例在训练视频标签推荐模型时,可以先确定作为正样本的第一标签的第一特征与第一视频特征之间的第一距离。将该第一距离与预定值的和作为目标距离。随后基于该目标距离从预定标签库中获取标签,使得该标签的特征与第一视频特征之间的距离大于该目标距离,从而得到第二标签。其中,预定值为大于0的值,在一实施例中,该预定值可以为前述的m值,本公开对此不做限定。通过该负样本的选择,可以提高模型的训练效率,提高训练得到的模型的稳定性。
如此,在训练视频标签推荐模型的过程中,可以在每轮迭代模型和权重后,采用新模型遍历训练样本,采用上述方法从预定标签库中为每个锚点样本找到合适的一组负样本,然后从该一组负样本中随机选择一个作为与正样本配对的负样本。
示例性地,预定标签库例如可以根据实时热点信息进行动态调整更新,如此,可以使得为视频确定的标签更够更为准确地反映实时热点,便于提高向用户推荐的视频的准确性,提高用户体验。
在完成训练后,通过去除第一标签特征提取网络622和第二标签特征提取网络623中的任一个,可以得到视频标签推荐模型。
基于上述的视频标签推荐模型的训练方法,本公开还提供了一种确定视频标签的方法。以下将结合图7对该方法进行详细描述。
图7是根据本公开实施例的确定视频标签的方法的流程示意图。
如图7所示,该实施例的确定视频标签的方法700可以包括操作S710~操作S730。
在操作S710,采用视频标签推荐模型中的视频特征提取网络,获得待处理视频的第二视频特征。
根据本公开的实施例,待处理视频可以为未添加标签的视频,即前文描述的未标注视频。该操作S710与前文描述的操作S210类似,视频标签推荐模型为采用前文描述的视频标签推荐模型的训练方法训练得到,在此不再赘述。
在操作S720,以预定标签库中的每个标签作为视频标签推荐模型中的标签特征提取网络的输入,获得每个标签的标签特征。
根据本公开的实施例,预定标签库与前文描述的预定标签库类似,可以将预定标签库中的标签以序列形式依次输入标签特征提取网络,以得到标签特征序列。该操作S720得到标签特征的方法与前文描述的操作S220得到第一特征的方法类似,在此不再赘述。
在操作S730,基于每个标签的标签特征与第二视频特征之间的距离,确定预定标签库中的目标标签,作为针对待处理视频的标签。
该实施例可以计算标签特征序列中各标签特征与第二视频特征之间的距离。将距离最小的标签特征所对应的标签作为目标标签。或者,可以将距离较小的若干个标签特征所对应的标签作为目标标签。
在一实施例中,可以将预定标签库中的标签和待处理视频同时输入视频标签推荐模型,视频标签推荐模型在得到各标签特征和第二视频特征后,可以计算各标签特征与第二视频特征之间的距离,并对距离排序。根据排序结果,直接输出目标标签。或者,该视频标签推荐模型可以输出距离序列,以便于基于距离序列来确定目标标签。
综上可知,本公开实施例的确定视频标签的方法,通过采用前文描述的方法而训练得到的视频标签推荐模型,可以从预定标签库中召回与视频匹配的标签。相较于相关技术中由分类模型得到标签分类结果的技术方案,可以便于动态地灵活设置预定标签库,并因此便于对视频标签进行扩展,提高确定的标签的实时性和准确性。
基于本公开提供的视频标签推荐模型的训练方法,本公开还提供了一种视频标签推荐模型的训练装置。以下将结合图8对该装置进行详细描述。
图8是根据本公开实施例的视频标签推荐模型的训练装置的结构框图。
如图8所示,该实施例的视频标签推荐模型的训练装置800可以包括第一视频特征获得模块810、第一特征获得模块820、第二特征获得模块830和模型训练模块840。其中,视频标签推荐模型包括视频特征提取网络和标签特征提取网络。
第一视频特征获得模块810用于采用视频特征提取网络,获得视频样本的第一视频特征。在一实施例中,第一视频特征获得模块810可以用于执行前文描述的操作S210,在此不再赘述。
第一特征获得模块820用于以作为正样本的第一标签作为标签特征提取网络的输入,获得第一标签的第一特征。在一实施例中,第一特征获得模块820可以用于执行前文描述的操作S220,在此不再赘述。
第二特征获得模块830用于以作为负样本的第二标签作为标签特征提取网络的输入,获得第二标签的第二特征。在一实施例中,第二特征获得模块830可以用于执行前文描述的操作S230,在此不再赘述。
模型训练模块840用于基于第一视频特征、第一特征、第二特征和预定损失函数,对视频标签推荐模型进行训练。在一实施例中,模型训练模块840可以用于执行前文描述的操作S240,在此不再赘述。
根据本公开的实施例,视频特征提取网络包括至少两个特征提取层和特征融合层。上述第一视频特征获得模块810可以包括向量获得子模块和特征获得子模块。向量获得子模块用于采用至少两个特征提取层,分别获得视频样本的至少两个模态的特征向量。特征获得子模块用于采用特征融合层对至少两个模态的特征向量进行加权融合,获得第一视频特征。
根据本公开的实施例,上述特征获得子模块可以包括向量转换单元、权重确定单元和加权和确定单元。向量转换单元用于将至少两个模态的特征向量转换为相同维度的至少两个向量。权重确定单元用于基于注意力机制确定为至少两个模态的特征向量分配的权重。加权和确定单元用于基于为至少两个模态的特征向量分配的权重,确定至少两个向量的加权和。其中,在视频推荐模型的训练过程中,注意力机制的参数基于预定损失函数动态调整。
根据本公开的实施例,向量获得子模块可以包括图像向量获得单元,用于采用至少两个特征提取层中的第一特征提取层,获得图像模态的特征向量。该图像向量获得单元可以包括帧序列获得子单元、向量序列获得子单元和特征向量融合子单元。帧序列获得子单元用于采用预定采样算法从视频样本中抽取至少两个视频帧,获得视频帧序列。向量序列获得子单元用于采用残差网络提取视频帧序列中各视频帧的特征向量,获得特征向量序列。特征向量融合子单元用于融合特征向量序列中的各特征向量,得到图像模态的特征向量。
根据本公开的实施例,帧序列获得子单元用于通过以下方式抽取至少两个视频帧:将视频样本切分为多个视频片段;以及采用预定采样算法从多个视频片段中的每个视频片段中抽取视频帧,获得至少两个视频帧。
根据本公开的实施例,向量获得子模块包括文本向量获得单元,用于通过以下方式获得文本模态的特征向量:以视频样本的标题文本作为至少两个特征提取层中的第二特征提取层的输入,获得文本模态的特征向量。
根据本公开的实施例,向量获得子模块包括音频向量获得单元,用于通过以下方式获得音频模态的特征向量:以视频样本的音频数据作为至少两个特征提取层中的第三特征提取层的输入,获得音频数据的梅尔频率倒谱系数,作为音频模态的特征向量。
根据本公开的实施例,模型训练模块840可以包括距离确定子模块、取值确定子模块和模型训练子模块。距离确定子模块用于确定第一特征和第二特征分别与第一多模态视频特征之间的距离,得到第一距离和第二距离。取值确定子模块用于基于第一距离和第二距离,确定预定损失函数的取值。模型训练子模块用于基于预定损失函数的取值,对视频标签推荐模型进行训练。
根据本公开的实施例,上述视频标签推荐模型的训练装置800还可以包括距离确定模块和标签获取模块。距离确定模块用于确定第一特征与第一视频特征之间的第一距离与预定值的和,得到目标距离。标签获取模块用于基于目标距离,从预定标签库中获取第二标签。其中,第二标签的第二特征与第一视频特征之间的第二距离大于该目标距离。
基于本公开提供的确定视频标签的方法,本公开还提供了一种确定视频标签的装置。以下将结合图9该装置进行详细描述。
图9是根据本公开实施例的确定视频标签的装置的结构框图。
如图9所示,该实施例的确定视频标签的装置900可以包括第二视频特征获得模块910、标签特征获得模块920和标签确定模块930。
第二视频特征获得模块910用于采用视频标签推荐模型中的视频特征提取网络,获得待处理视频的第二视频特征。其中,视频标签推荐模型是采用前述的视频标签推荐模型的训练装置训练得到的。在一实施例中,第二视频特征获得模块910可以用于执行前文描述的操作S710在此不再赘述。
标签特征获得模块920用于以预定标签库中的每个标签作为视频标签推荐模型中的标签特征提取网络的输入,获得每个标签的标签特征。在一实施例中,标签特征获得模块920可以用于执行前文描述的操作S720,在此不再赘述。
标签确定模块930用于基于每个标签的标签特征与第二视频特征之间的距离,确定预定标签库中的目标标签,作为针对待处理视频的标签。在一实施例中,标签确定模块930可以用于执行前文描述的操作S730,在此不再赘述。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开实施例的视频标签推荐模型的训练方法和确定视频标签的方法的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如视频标签推荐模型的训练方法和确定视频标签的方法。例如,在一些实施例中,视频标签推荐模型的训练方法和确定视频标签的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的视频标签推荐模型的训练方法和确定视频标签的方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行视频标签推荐模型的训练方法和确定视频标签的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中,服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual Private Server″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (23)

1.一种视频标签推荐模型的训练方法,其中,视频标签推荐模型包括视频特征提取网络和标签特征提取网络;所述方法包括:
采用所述视频特征提取网络,获得视频样本的第一视频特征;
以作为正样本的第一标签作为所述标签特征提取网络的输入,获得所述第一标签的第一特征;
以作为负样本的第二标签作为所述标签特征提取网络的输入,获得所述第二标签的第二特征;以及
基于所述第一视频特征、所述第一特征、所述第二特征和预定损失函数,对所述视频标签推荐模型进行训练。
2.根据权利要求1所述的方法,其中,所述视频特征提取网络包括至少两个特征提取层和特征融合层;所述采用所述视频特征提取网络,获得视频样本的第一视频特征包括:
采用所述至少两个特征提取层,分别获得视频样本的至少两个模态的特征向量;以及
采用所述特征融合层对所述至少两个模态的特征向量进行加权融合,获得所述第一视频特征。
3.根据权利要求2所述的方法,其中,采用所述特征融合层对所述至少两个模态的特征向量进行加权融合,包括:
将所述至少两个模态的特征向量转换为相同维度的至少两个向量;
基于注意力机制确定为所述至少两个模态的特征向量分配的权重;以及
基于为所述至少两个模态的特征向量分配的权重,确定所述至少两个向量的加权和,
其中,在所述视频标签推荐模型的训练过程中,所述注意力机制的参数基于所述预定损失函数动态调整。
4.根据权利要求2所述的方法,其中,分别获得视频样本的至少两个模态的特征向量,包括:
采用所述至少两个特征提取层中的第一特征提取层,通过以下方式获得图像模态的特征向量:
采用预定采样算法从所述视频样本中抽取至少两个视频帧,获得视频帧序列;
采用残差网络提取所述视频帧序列中各视频帧的特征向量,获得特征向量序列;以及
融合所述特征向量序列中的各特征向量,得到所述图像模态的特征向量。
5.根据权利要求4所述的方法,其中,采用预定采样算法从所述视频样本中抽取至少两个视频帧包括:
将所述视频样本切分为多个视频片段;以及
采用所述预定采样算法从所述多个视频片段中的每个视频片段中抽取视频帧,获得所述至少两个视频帧。
6.根据权利要求2~5中任一项所述的方法,其中,分别获得视频样本的至少两个模态的特征向量包括:
通过以下方式获得文本模态的特征向量:
以所述视频样本的标题文本作为所述至少两个特征提取层中的第二特征提取层的输入,获得所述文本模态的特征向量。
7.根据权利要求2~5中任一项所述的方法,其中,分别获得视频样本的至少两个模态的特征向量包括:
通过以下方式获得音频模态的特征向量:
以所述视频样本的音频数据作为所述至少两个特征提取层中的第三特征提取层的输入,获得所述音频数据的梅尔频率倒谱系数,作为所述音频模态的特征向量。
8.根据权利要求1所述的方法,其中,所述基于所述第一视频特征、所述第一特征、所述第二特征和预定损失函数,对所述视频标签推荐模型进行训练包括:
确定所述第一特征和所述第二特征分别与所述第一视频特征之间的距离,得到第一距离和第二距离;
基于所述第一距离和所述第二距离,确定所述预定损失函数的取值;以及
基于所述预定损失函数的取值,对所述视频标签推荐模型进行训练。
9.根据权利要求1所述的方法,还包括:
确定所述第一特征与所述第一视频特征之间的第一距离与预定值的和,得到目标距离;以及
基于所述目标距离,从预定标签库中获取所述第二标签,
其中,所述第二标签的第二特征与所述第一视频特征之间的第二距离大于所述目标距离。
10.一种确定视频标签的方法,包括:
采用视频标签推荐模型中的视频特征提取网络,获得待处理视频的第二视频特征;
以预定标签库中的每个标签作为所述视频标签推荐模型中的标签特征提取网络的输入,获得所述每个标签的标签特征;以及
基于所述每个标签的标签特征与所述第二视频特征之间的距离,确定所述预定标签库中的目标标签,作为对应所述待处理视频的标签,
其中,所述视频标签推荐模型是采用权利要求1~9中任一项所述的方法训练得到的。
11.一种视频标签推荐模型的训练装置,其中,所述视频标签推荐模型包括视频特征提取网络和标签特征提取网络;所述装置包括:
第一视频特征获得模块,用于采用所述视频特征提取网络,获得视频样本的第一视频特征;
第一特征获得模块,用于以作为正样本的第一标签作为所述标签特征提取网络的输入,获得所述第一标签的第一特征;
第二特征获得模块,用于以作为负样本的第二标签作为所述标签特征提取网络的输入,获得所述第二标签的第二特征;以及
模型训练模块,用于基于所述第一视频特征、所述第一特征、所述第二特征和预定损失函数,对所述视频标签推荐模型进行训练。
12.根据权利要求11所述的装置,其中,所述视频特征提取网络包括至少两个特征提取层和特征融合层;所述第一视频特征获得模块包括:
向量获得子模块,用于采用所述至少两个特征提取层,分别获得视频样本的至少两个模态的特征向量;以及
特征获得子模块,用于采用所述特征融合层对所述至少两个模态的特征向量进行加权融合,获得所述第一视频特征。
13.根据权利要求12所述的装置,其中,所述特征获得子模块包括:
向量转换单元,用于将所述至少两个模态的特征向量转换为相同维度的至少两个向量;
权重确定单元,用于基于注意力机制确定为所述至少两个模态的特征向量分配的权重;以及
加权和确定单元,用于基于为所述至少两个模态的特征向量分配的权重,确定所述至少两个向量的加权和,
其中,在所述视频标签推荐模型的训练过程中,所述注意力机制的参数基于所述预定损失函数动态调整。
14.根据权利要求12所述的装置,其中,所述向量获得子模块包括:
图像向量获得单元,用于采用所述至少两个特征提取层中的第一特征提取层,获得图像模态的特征向量;所述图像向量获得单元包括:
帧序列获得子单元,用于采用预定采样算法从所述视频样本中抽取至少两个视频帧,获得视频帧序列;
向量序列获得子单元,用于采用残差网络提取所述视频帧序列中各视频帧的特征向量,获得特征向量序列;以及
特征向量融合子单元,用于融合所述特征向量序列中的各特征向量,得到所述图像模态的特征向量。
15.根据权利要求14所述的装置,其中,所述帧序列获得子单元用于通过以下方式抽取所述至少两个视频帧:
将所述视频样本切分为多个视频片段;以及
采用所述预定采样算法从所述多个视频片段中的每个视频片段中抽取视频帧,获得所述至少两个视频帧。
16.根据权利要求12~15中任一项所述的装置,其中,所述向量获得子模块包括:
文本向量获得单元,用于通过以下方式获得文本模态的特征向量:
以所述视频样本的标题文本作为所述至少两个特征提取层中的第二特征提取层的输入,获得所述文本模态的特征向量。
17.根据权利要求12~15中任一项所述的装置,其中,所述向量获得子模块包括:
音频向量获得单元,用于通过以下方式获得音频模态的特征向量:
以所述视频样本的音频数据作为所述至少两个特征提取层中的第三特征提取层的输入,获得所述音频数据的梅尔频率倒谱系数,作为所述音频模态的特征向量。
18.根据权利要求11所述的装置,其中,所述模型训练模块包括:
距离确定子模块,用于确定所述第一特征和所述第二特征分别与所述第一视频特征之间的距离,得到第一距离和第二距离;
取值确定子模块,用于基于所述第一距离和所述第二距离,确定所述预定损失函数的取值;以及
模型训练子模块,用于基于所述预定损失函数的取值,对所述视频标签推荐模型进行训练。
19.根据权利要求11所述的装置,还包括:
距离确定模块,用于确定所述第一特征与所述第一视频特征之间的第一距离与预定值的和,得到目标距离;以及
标签获取模块,用于基于所述目标距离,从预定标签库中获取所述第二标签,
其中,所述第二标签的第二特征与所述第一视频特征之间的第二距离大于所述目标距离。
20.一种确定视频标签的装置,包括:
第二视频特征获得模块,用于采用视频标签推荐模型中的视频特征提取网络,获得待处理视频的第二视频特征;
标签特征获得模块,用于以预定标签库中的每个标签作为所述视频标签推荐模型中的标签特征提取网络的输入,获得所述每个标签的标签特征;以及
标签确定模块,用于基于所述每个标签的标签特征与所述第二视频特征之间的距离,确定所述预定标签库中的目标标签,作为对应所述待处理视频的标签,
其中,所述视频标签推荐模型是采用权利要求11~19中任一项所述的装置训练得到的。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~10中任一项所述的方法。
23.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1~10中任一项所述的方法。
CN202110754370.4A 2021-07-01 2021-07-01 视频标签推荐模型的训练方法和确定视频标签的方法 Active CN113378784B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202110754370.4A CN113378784B (zh) 2021-07-01 2021-07-01 视频标签推荐模型的训练方法和确定视频标签的方法
EP22789452.4A EP4134921A4 (en) 2021-07-01 2022-05-31 METHOD FOR TRAINING VIDEO LABEL RECOMMENDATION MODEL, AND METHOD FOR DETERMINING VIDEO LABEL
KR1020227037066A KR20220153088A (ko) 2021-07-01 2022-05-31 비디오 태그 추천 모델의 트레이닝 방법 및 비디오 태그 확정 방법
JP2022564826A JP2023535108A (ja) 2021-07-01 2022-05-31 ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム
PCT/CN2022/096229 WO2023273769A1 (zh) 2021-07-01 2022-05-31 视频标签推荐模型的训练方法和确定视频标签的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110754370.4A CN113378784B (zh) 2021-07-01 2021-07-01 视频标签推荐模型的训练方法和确定视频标签的方法

Publications (2)

Publication Number Publication Date
CN113378784A CN113378784A (zh) 2021-09-10
CN113378784B true CN113378784B (zh) 2022-06-07

Family

ID=77580810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110754370.4A Active CN113378784B (zh) 2021-07-01 2021-07-01 视频标签推荐模型的训练方法和确定视频标签的方法

Country Status (2)

Country Link
CN (1) CN113378784B (zh)
WO (1) WO2023273769A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378784B (zh) * 2021-07-01 2022-06-07 北京百度网讯科技有限公司 视频标签推荐模型的训练方法和确定视频标签的方法
CN114283350A (zh) * 2021-09-17 2022-04-05 腾讯科技(深圳)有限公司 视觉模型训练和视频处理方法、装置、设备及存储介质
CN113627447B (zh) * 2021-10-13 2022-02-08 腾讯科技(深圳)有限公司 标签识别方法、装置、计算机设备、存储介质及程序产品
CN114913187B (zh) * 2022-05-25 2023-04-07 北京百度网讯科技有限公司 图像分割方法、训练方法、装置、电子设备以及存储介质
CN115935008B (zh) * 2023-02-16 2023-05-30 杭州网之易创新科技有限公司 视频的标签生成方法、装置、介质和计算设备
CN116486195B (zh) * 2023-03-22 2024-04-16 北京百度网讯科技有限公司 视频推荐模型的训练方法、视频推荐方法和装置
CN117574160A (zh) * 2024-01-16 2024-02-20 腾讯科技(深圳)有限公司 媒体信息的标签识别方法、装置和存储介质及电子设备
CN117708375A (zh) * 2024-02-05 2024-03-15 北京搜狐新媒体信息技术有限公司 一种视频处理方法、装置及相关产品

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694217B (zh) * 2017-04-12 2020-07-14 阿里巴巴(中国)有限公司 视频的标签确定方法及装置
CN109740018B (zh) * 2019-01-29 2021-03-02 北京字节跳动网络技术有限公司 用于生成视频标签模型的方法和装置
US20200288204A1 (en) * 2019-03-05 2020-09-10 Adobe Inc. Generating and providing personalized digital content in real time based on live user context
CN110232340B (zh) * 2019-05-30 2021-01-22 北京百度网讯科技有限公司 建立视频分类模型以及视频分类的方法、装置
CN112749723A (zh) * 2019-10-31 2021-05-04 顺丰科技有限公司 样本标注方法、装置、计算机设备和存储介质
CN111107435B (zh) * 2019-12-17 2022-03-25 腾讯科技(深圳)有限公司 视频推荐方法及装置
CN111523575B (zh) * 2020-04-13 2023-12-12 中南大学 基于短视频多模态特征的短视频推荐方法
CN112487300A (zh) * 2020-12-18 2021-03-12 上海众源网络有限公司 一种视频推荐方法、装置、电子设备及存储介质
CN112712005B (zh) * 2020-12-25 2023-12-15 深圳市优必选科技股份有限公司 识别模型的训练方法、目标识别方法及终端设备
CN112749300B (zh) * 2021-01-22 2024-03-01 北京百度网讯科技有限公司 用于视频分类的方法、装置、设备、存储介质和程序产品
CN113378784B (zh) * 2021-07-01 2022-06-07 北京百度网讯科技有限公司 视频标签推荐模型的训练方法和确定视频标签的方法

Also Published As

Publication number Publication date
CN113378784A (zh) 2021-09-10
WO2023273769A1 (zh) 2023-01-05

Similar Documents

Publication Publication Date Title
CN113378784B (zh) 视频标签推荐模型的训练方法和确定视频标签的方法
JP7331171B2 (ja) 画像認識モデルをトレーニングするための方法および装置、画像を認識するための方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN107481717B (zh) 一种声学模型训练方法及系统
US10885344B2 (en) Method and apparatus for generating video
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
EP4134921A1 (en) Method for training video label recommendation model, and method for determining video label
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
CN109582825B (zh) 用于生成信息的方法和装置
CN114445831A (zh) 一种图文预训练方法、装置、设备以及存储介质
CN113379627B (zh) 图像增强模型的训练方法和对图像进行增强的方法
CN111046757A (zh) 人脸画像生成模型的训练方法、装置及相关设备
JP2023550211A (ja) テキストを生成するための方法および装置
CN114693934B (zh) 语义分割模型的训练方法、视频语义分割方法及装置
CN116343233B (zh) 文本识别方法和文本识别模型的训练方法、装置
WO2023197749A1 (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN117056728A (zh) 一种时间序列生成方法、装置、设备和存储介质
CN116229095A (zh) 一种模型训练方法、视觉任务处理方法、装置及设备
CN112784600B (zh) 信息排序方法、装置、电子设备和存储介质
CN114724144A (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
CN113239215A (zh) 多媒体资源的分类方法、装置、电子设备及存储介质
CN113688938A (zh) 确定对象情感的方法、训练情感分类模型的方法及装置
CN113076932A (zh) 训练音频语种识别模型的方法、视频检测方法及其装置
CN114821801B (zh) 动作识别方法、模型训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant