CN113822382B - 基于多模态特征表示的课程分类方法、装置、设备及介质 - Google Patents

基于多模态特征表示的课程分类方法、装置、设备及介质 Download PDF

Info

Publication number
CN113822382B
CN113822382B CN202111386191.6A CN202111386191A CN113822382B CN 113822382 B CN113822382 B CN 113822382B CN 202111386191 A CN202111386191 A CN 202111386191A CN 113822382 B CN113822382 B CN 113822382B
Authority
CN
China
Prior art keywords
sample
video
audio
text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111386191.6A
Other languages
English (en)
Other versions
CN113822382A (zh
Inventor
乔延柯
栾雅理
吴志成
张茜
李婧源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111386191.6A priority Critical patent/CN113822382B/zh
Publication of CN113822382A publication Critical patent/CN113822382A/zh
Application granted granted Critical
Publication of CN113822382B publication Critical patent/CN113822382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Abstract

本发明涉及人工智能领域,提供一种基于多模态特征表示的课程分类方法、装置、设备及介质,能够在增强弱模态语义特征的同时,保留弱模态语义特征的特性,有效避免特征丢失,根据模态的语义强弱进行不同模态权重的自适应学习,在视频、音频、文本多个维度上根据权重对特征进行融合,使得到的特征同时具有三个维度的信息,优化了视频课程的特征表示方式,进而提升了课程类别预测的精度,利用每个样本的融合特征训练预设分类网络,得到视频课程分类模型,利用视频课程分类模型对待分类视频课程进行分类,得到分类结果,实现对课程的准确分类。本发明还涉及区块链技术,训练得到的模型可以存储于区块链节点上。

Description

基于多模态特征表示的课程分类方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于多模态特征表示的课程分类方法、装置、设备及介质。
背景技术
随着互联网技术的迅速发展,在线教育得以打破时间和空间的界限,备受广大消费者欢迎。因此,为了方便用户检索感兴趣的课程,对视频课程进行准确分类则越来越重要。
大多数视频的视频模态特征传达的信息量高于音频和文本,则需要重点关注视频模态,此时,对音频模态和文本模态特征要进行增强。但是,仍然有少部分视频课程中每一帧传达的信息有限,用户需要结合音频和文本评论来获得更多的知识,此时,音频、文本特征则对视频特征起到互补作用。
但是,在现有技术方案中,在对视频特征进行提取时,重点关注的是视频模态特征,对音频和文本信息的利用不足,不能对需要重点关注的特征进行动态调整,且没有考虑到视频模态、音频模态及文本模态特征之间高级语义的互相增强和互补的特性。
发明内容
本发明实施例提供了一种基于多模态特征表示的课程分类方法、装置、设备及介质,旨在解决视频课程分类信息利用不足导致的不准确问题。
第一方面,本发明实施例提供了一种基于多模态特征表示的课程分类方法,其包括:
采集视频课程构建带有标签的训练样本集;
利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络;
根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征;
根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重;
根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征;
获取预设分类网络,并构建所述预设分类网络的损失函数;
基于所述损失函数,利用每个样本的融合特征训练所述预设分类网络,得到视频课程分类模型;
获取待分类视频课程,并利用所述视频课程分类模型对所述待分类视频课程进行分类,得到分类结果。
第二方面,本发明实施例提供了一种基于多模态特征表示的课程分类装置,其包括:
构建单元,用于采集视频课程构建带有标签的训练样本集;
训练单元,用于利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络;
增强单元,用于根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征;
生成单元,用于根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重;
融合单元,用于根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征;
所述构建单元,还用于获取预设分类网络,并构建所述预设分类网络的损失函数;
所述训练单元,还用于基于所述损失函数,利用每个样本的融合特征训练所述预设分类网络,得到视频课程分类模型;
分类单元,用于获取待分类视频课程,并利用所述视频课程分类模型对所述待分类视频课程进行分类,得到分类结果。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于多模态特征表示的课程分类方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于多模态特征表示的课程分类方法。
本发明实施例提供了一种基于多模态特征表示的课程分类方法、装置、设备及介质,能够采集视频课程构建带有标签的训练样本集,利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络,根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征,能够在增强弱模态语义特征(即音频模态及文本模态)的同时,保留弱模态语义特征的特性,有效避免特征丢失,根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重,根据模态的语义强弱进行不同模态权重的自适应学习,根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征,能够在视频、音频、文本多个维度上对特征进行融合,使得到的特征同时具有三个维度的信息,优化了视频课程的特征表示方式,进而提升了课程类别预测的精度,获取预设分类网络,并构建所述预设分类网络的损失函数,基于所述损失函数,利用每个样本的融合特征训练所述预设分类网络,得到视频课程分类模型,获取待分类视频课程,并利用所述视频课程分类模型对所述待分类视频课程进行分类,得到分类结果,实现对课程的准确分类。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于多模态特征表示的课程分类方法的流程示意图;
图2为本发明实施例提供的基于多模态特征表示的课程分类装置的示意性框图;
图3为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,为本发明实施例提供的基于多模态特征表示的课程分类方法的流程示意图。
S10,采集视频课程构建带有标签的训练样本集。
在本实施例中,所述视频课程可以为任意线上培训平台的视频课程,本发明不限制。
进一步地,所述视频课程的标签标志着每个视频课程的课程类别,如:英语培训类课程、销售培训类课程等。
例如:假设所述训练样本集中共有
Figure 433828DEST_PATH_IMAGE001
个视频课程的样本,记为
Figure 796063DEST_PATH_IMAGE002
,其中,
Figure 325002DEST_PATH_IMAGE003
为第
Figure 936854DEST_PATH_IMAGE001
个视频课程样本的特征。
具体地,
Figure 361888DEST_PATH_IMAGE004
Figure 398371DEST_PATH_IMAGE005
为视频特征分量,
Figure 544050DEST_PATH_IMAGE006
为音频特征分量,
Figure 467531DEST_PATH_IMAGE007
为文本特征分量。
其中,
Figure 469991DEST_PATH_IMAGE001
个视频课程样本的标签为
Figure 475993DEST_PATH_IMAGE008
,且课程类别数为C,即
Figure 225031DEST_PATH_IMAGE009
为C维的向量。
具体地,可以采用one-hot算法计算标签的C维向量,本发明不限制。
S11,利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络。
在本发明的至少一个实施例中,所述利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络包括:
确定所述训练样本集中每个样本的标签;
构建所述视频模态特征网络对应的视频判别损失,构建所述音频模态特征网络对应的音频判别损失,构建所述文本模态特征网络对应的文本判别损失,及构建语义距离函数;
随机抽取每个样本的预设帧,得到每个样本的视频帧;
采用VGG(Visual Geometry Group,超分辨率测试序列)网络对每个样本的视频帧进行特征提取,得到每个视频帧的特征表示;
计算每个样本的视频帧的特征表示的平均值,得到每个样本的视频特征表示;
采用PCA(Principal Component Analysis,主成分分析)算法对每个样本的视频特征表示进行降维处理,得到每个样本的视频特征分量;
将每个样本的视频特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述视频判别损失训练第一全连接神经网络;
采用去噪自编码器(Denoising Auto-encoder)提取每个样本的音频特征分量;
将每个样本的音频特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述音频判别损失训练第二全连接神经网络;
采用Sentence2vector提取每个样本的文本特征分量;
将每个样本的文本特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述文本判别损失训练第三全连接神经网络;
当所述视频判别损失、所述音频判别损失、所述文本判别损失及所述语义距离函数都不再减小时,停止训练;
将当前的第一全连接神经网络确定为所述视频模态特征网络,将当前的第二全连接神经网络确定为所述音频模态特征网络,及将当前的第三全连接神经网络确定为所述文本模态特征网络。
例如:对样本
Figure 89DEST_PATH_IMAGE010
抽取
Figure 642292DEST_PATH_IMAGE011
个帧,记为
Figure 985856DEST_PATH_IMAGE012
,每一帧特征利用VGG网络进行特征提取,该网络的全连接层作为特征表示,得到的视频帧的特征表示共有4096维。将每个样本的
Figure 145442DEST_PATH_IMAGE011
个视频帧的特征表示的平均值确定为每个样本的视频特征表示
Figure 368481DEST_PATH_IMAGE013
,并通过PCA降维,转化为128维特征
Figure 981253DEST_PATH_IMAGE014
,并作为样本
Figure 352060DEST_PATH_IMAGE010
的视频特征分量。将每个样本的视频特征分量
Figure 426589DEST_PATH_IMAGE015
作为输入数据,将每个样本的标签
Figure 366119DEST_PATH_IMAGE016
作为输出数据,训练
Figure 146862DEST_PATH_IMAGE017
层的第一全连接神经网络,预测输出概率为
Figure 285194DEST_PATH_IMAGE018
,得到所述视频模态特征网络。
进一步地,对样本
Figure 911216DEST_PATH_IMAGE010
,由去噪自编码器提取200维特征作为音频特征分量,记为
Figure 705253DEST_PATH_IMAGE019
。将每个样本的音频特征分量
Figure 594580DEST_PATH_IMAGE020
作为输入数据,将每个样本的标签
Figure 457756DEST_PATH_IMAGE016
作为输出数据,训练
Figure 421558DEST_PATH_IMAGE021
层的第二全连接神经网络,预测输出概率为
Figure 129488DEST_PATH_IMAGE022
,得到所述音频模态特征网络。
进一步地,对样本
Figure 492513DEST_PATH_IMAGE010
,由Sentence2vector提取100维特征作为文本特征分量,记为
Figure 265821DEST_PATH_IMAGE023
。将每个样本的文本特征分量
Figure 951755DEST_PATH_IMAGE024
作为输入数据,将每个样本的标签
Figure 579439DEST_PATH_IMAGE016
作为输出数据,训练
Figure 734870DEST_PATH_IMAGE025
层的第三全连接神经网络,预测输出概率为
Figure 131827DEST_PATH_IMAGE026
,得到所述文本模态特征网络。
具体地,所述视频判别损失、所述音频判别损失、所述文本判别损失,及所述语义距离函数的表示如下:
Figure 637764DEST_PATH_IMAGE027
其中,
Figure 726811DEST_PATH_IMAGE028
表示所述视频判别损失,
Figure 849882DEST_PATH_IMAGE011
表示所述预设帧的数量,C表示样本标签类别的数量,
Figure 253574DEST_PATH_IMAGE029
表示样本i的标签,
Figure 297623DEST_PATH_IMAGE030
表示样本i在所述视频模态特征网络中输出类别j的概率;
Figure 650631DEST_PATH_IMAGE031
其中,
Figure 82618DEST_PATH_IMAGE032
表示所述音频判别损失,
Figure 837255DEST_PATH_IMAGE033
表示样本i在所述音频模态特征网络中输出类别j的概率;
Figure 12890DEST_PATH_IMAGE034
其中,
Figure 469673DEST_PATH_IMAGE035
表示所述文本判别损失,
Figure 341070DEST_PATH_IMAGE036
表示样本i在所述文本模态特征网络中输出类别j的概率;
Figure 60633DEST_PATH_IMAGE037
其中,
Figure 105206DEST_PATH_IMAGE038
表示所述语义距离函数,
Figure 880744DEST_PATH_IMAGE039
表示网络权重,b表示网络偏置,α和β为平衡因子。
在本实施例中,所述判别损失可以为交叉熵损失,所述语义距离可以为欧氏距离,本发明不限制。
需要说明的是,所述视频模态特征网络、所述音频模态特征网络及所述文本模态特征网络的网络权重、网络偏置及平衡因子相同。
在网络训练的过程中,通过所述视频判别损失、所述音频判别损失、所述文本判别损失,及所述语义距离函数不断最小化弱语义模态(即音频及文本)与强语义模态(即视频)之间的语义距离和各个模态的判别损失,使训练得到的各个网络更佳,加强了各个模态间调整的关联性。
S12,根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征。
可以理解的是,由于大部分视频课程在视觉模态上包含更丰富的语义信息,因此,初始定义其为强语义模态,理论上其权重较大,而音频和文本为弱语义模态,理论上其权重较小。
但是,每种模态都会包括其特有的信息,需要充分挖掘和利用弱语义模态的信息,避免弱语义模态由于语义太弱而失去作用,因此,需要利用强语义模态增强弱语义模态。
在本发明的至少一个实施例中,所述根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征包括:
将每个样本的视频特征分量输入至所述视频模态特征网络后,获取所述视频模态特征网络中最后一层隐藏层的输出数据作为每个样本的第一数据,并将每个样本的第一数据确定为每个样本的视频模态特征;
将每个样本的音频特征分量输入至所述音频模态特征网络后,获取所述音频模态特征网络中最后一层隐藏层的输出数据作为每个样本的第二数据,拼接每个样本的第二数据与对应的音频特征分量,得到每个样本的音频模态增强特征;
将每个样本的文本特征分量输入至所述文本模态特征网络后,获取所述文本模态特征网络中最后一层隐藏层的输出数据作为每个样本的第三数据,拼接每个样本的第三数据与对应的文本特征分量,得到每个样本的文本模态增强特征。
例如:
Figure 188622DEST_PATH_IMAGE040
Figure 113590DEST_PATH_IMAGE041
其中,
Figure 40482DEST_PATH_IMAGE042
表示拼接操作,最终得到三个模态的新特征分别为:
样本i的音频模态增强特征
Figure 219660DEST_PATH_IMAGE043
:由音频模态原始特征(即音频特征分量)
Figure 901701DEST_PATH_IMAGE019
,与最后一层隐藏层输出的特征(即第二数据)拼接而得到;
样本i的视频模态特征
Figure 64698DEST_PATH_IMAGE044
:最后一层隐藏层输出的特征,即第一数据;
样本i的文本模态增强特征
Figure 526772DEST_PATH_IMAGE045
:由文本模态原始特征(即文本特征分量)
Figure 410722DEST_PATH_IMAGE023
,与最后一层隐藏层输出的特征(即第三数据)
Figure 260735DEST_PATH_IMAGE046
拼接而得到。
通过上述实施方式,能够在增强弱模态语义特征(即音频模态及文本模态)的同时,保留弱模态语义特征的特性,有效避免特征丢失。
S13,根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重。
可以理解的是,在某些情况下,由于视频模态特征不能鲜明地传达出课程内容,语义较弱,对分类的贡献小,其权重应减小;而文本和音频模态特征的贡献相对较大,语义较强,此时音频和文本特征对视频特征起到了互补的作用,其权重应增大。因此,需要根据模态的语义强弱进行不同模态权重的自适应学习。
在本发明的至少一个实施例中,所述根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重包括:
获取视频映射权重、音频映射权重、文本映射权重,及获取视频转化权重、音频转化权重、文本转化权重;
计算所述视频映射权重与每个样本的视频模态特征的乘积,得到每个样本的视频映射特征,利用sigmoid激活函数对每个样本的视频映射特征进行激活处理,得到每个样本的视频激活特征,计算每个样本的视频激活特征与所述视频转化权重的乘积,得到每个样本的视频转化特征,利用sigmoid激活函数对每个样本的视频转化特征进行激活处理,得到每个样本的视频权重;
计算所述音频映射权重与每个样本的音频模态增强特征的乘积,得到每个样本的音频映射特征,利用sigmoid激活函数对每个样本的音频映射特征进行激活处理,得到每个样本的音频激活特征,计算每个样本的音频激活特征与所述音频转化权重的乘积,得到每个样本的音频转化特征,利用sigmoid激活函数对每个样本的音频转化特征进行激活处理,得到每个样本的音频权重;
计算所述文本映射权重与每个样本的文本模态增强特征的乘积,得到每个样本的文本映射特征,利用sigmoid激活函数对每个样本的文本映射特征进行激活处理,得到每个样本的文本激活特征,计算每个样本的文本激活特征与所述文本转化权重的乘积,得到每个样本的文本转化特征,利用sigmoid激活函数对每个样本的文本转化特征进行激活处理,得到每个样本的文本权重。
承接上面的例子,样本i的视频权重、音频权重及文本权重可以分别表示如下:
Figure 507433DEST_PATH_IMAGE047
Figure 773198DEST_PATH_IMAGE048
Figure 726635DEST_PATH_IMAGE049
其中,
Figure 154075DEST_PATH_IMAGE050
表示样本i的视频权重,
Figure 747123DEST_PATH_IMAGE051
表示样本i的音频权重、
Figure 551000DEST_PATH_IMAGE052
表示样本i的文本权重,
Figure 621593DEST_PATH_IMAGE053
表示sigmoid激活函数,
Figure 969003DEST_PATH_IMAGE054
表示所述视频映射权重,
Figure 187363DEST_PATH_IMAGE055
表示所述音频映射权重,
Figure 797861DEST_PATH_IMAGE056
表示所述文本映射权重,
Figure 129485DEST_PATH_IMAGE057
表示所述视频转化权重,
Figure 757781DEST_PATH_IMAGE058
表示所述音频转化权重,
Figure 544996DEST_PATH_IMAGE059
表示所述文本转化权重。
Figure 284151DEST_PATH_IMAGE060
用于将
Figure 204703DEST_PATH_IMAGE044
,
Figure 272409DEST_PATH_IMAGE061
映射成同维度的特征,从而控制变量,保证三大类特征在输入模型前在特征维度上一致,使最终得到的视频权重、音频权重及文本权重仅取决于此三大类特征的语义强弱。
Figure 871887DEST_PATH_IMAGE062
用于将三个模态的特征转化为1维权重
Figure 78047DEST_PATH_IMAGE063
S14,根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征。
可以理解的是,由于视频课程的视频、音频和文本模态特征均有各自独特的价值,因此,需要充分利用视频课程的三种模态的语义信息。
具体地,所述根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征包括:
计算每个样本的视频激活特征与每个样本的视频权重的乘积,得到每个样本的第一特征;
计算每个样本的音频激活特征与每个样本的音频权重的乘积,得到每个样本的第二特征;
计算每个样本的文本激活特征与每个样本的文本权重的乘积,得到每个样本的第三特征;
拼接每个样本的第一特征、第二特征及第三特征,得到每个样本的融合特征。
承接上面的例子,样本i的第一特征为:
Figure 446580DEST_PATH_IMAGE064
;样本i的第二特征为:
Figure 823204DEST_PATH_IMAGE065
;样本i的第三特征为:
Figure 912907DEST_PATH_IMAGE066
进一步地,样本i的融合特征为:
Figure 869231DEST_PATH_IMAGE067
通过上述实施方式,能够在视频、音频、文本多个维度上对特征进行融合,使得到的特征同时具有三个维度的信息,优化了视频课程的特征表示方式,进而提升了课程类别预测的精度。
S15,获取预设分类网络,并构建所述预设分类网络的损失函数。
其中,所述预设分类网络可以为任意分类网络,如采用softmax函数进行分类。
则所述预设分类网络输出的样本i属于类别j的概率可以表示为:
Figure 954255DEST_PATH_IMAGE068
,其中,
Figure 970621DEST_PATH_IMAGE069
表示自定义的超参数。
具体地,所述构建所述预设分类网络的损失函数包括:
采用下述公式构建预测损失:
Figure 810270DEST_PATH_IMAGE070
其中,
Figure 697848DEST_PATH_IMAGE071
表示所述预测损失,
Figure 509815DEST_PATH_IMAGE072
表示样本i实际属于类别j的概率,
Figure 242890DEST_PATH_IMAGE073
表示所述预设分类网络输出的样本i属于类别j的概率;
获取所述视频判别损失的第一权重、所述音频判别损失的第二权重、所述文本判别损失的第三权重、所述语义距离函数的第四权重及所述预测损失的第五权重;
根据所述第一权重、所述视频判别损失,所述第二权重、所述音频判别损失,所述第三权重、所述文本判别损失,所述第四权重、所述语义距离函数,所述第五权重、所述预测损失,计算累加和,得到所述损失函数。
在本实施例中,
Figure 694469DEST_PATH_IMAGE072
的取值可以为0和1,其中,0代表样本i实际不属于类别j,1代表样本i实际属于类别j。
承接上面的例子,所述损失函数可以表示为:
Figure 448054DEST_PATH_IMAGE074
其中,
Figure 848949DEST_PATH_IMAGE075
表示所述损失函数,
Figure 272364DEST_PATH_IMAGE076
表示所述第一权重,
Figure 289868DEST_PATH_IMAGE077
表示所述第二权重,
Figure 719581DEST_PATH_IMAGE078
表示所述第三权重,
Figure 40228DEST_PATH_IMAGE079
表示所述第四权重,
Figure 366036DEST_PATH_IMAGE080
表示所述第五权重。
可以理解的是,大部分视频课程的视频模态特征会传达更多的语义信息,因此,通过最小化视频模态特征与音频和文本模态特征的距离,能够对音频和文本模态特征进行特征增强;而部分视频模态会存在语义缺失的情况,自动学习不同模态之间的融合权重,实现自适应权重的多模态信息互补融合,进而能够更好地表达多模态信息,进而达到更好的分类效果。
通过上述实施方式,同时兼顾各个模态的损失、弱语义模态与强语义模态间的距离,以及预测损失,使训练的模型分类的准确率更高。
S16,基于所述损失函数,利用每个样本的融合特征训练所述预设分类网络,得到视频课程分类模型。
具体地,可以采用随机梯度下降的方式对所述预设分类网络进行优化训练,当所述损失函数达到收敛时,停止训练,得到所述视频课程分类模型。
S17,获取待分类视频课程,并利用所述视频课程分类模型对所述待分类视频课程进行分类,得到分类结果。
在本实施例中,所述待分类视频课程可以为任意用户上传的视频,如相关工作人员。
进一步地,将所述待分类视频课程输入至所述视频课程分类模型,并从所述视频课程分类模型的输出中获取预测的类别及所述预测的类别的概率,作为所述分类结果。
需要说明的是,为了进一步确保数据的安全性,避免数据被恶意篡改,训练得到的模型可以存储于区块链节点上。
由以上技术方案可以看出,本发明能够采集视频课程构建带有标签的训练样本集,利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络,根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征,能够在增强弱模态语义特征(即音频模态及文本模态)的同时,保留弱模态语义特征的特性,有效避免特征丢失,根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重,根据模态的语义强弱进行不同模态权重的自适应学习,根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征,能够在视频、音频、文本多个维度上对特征进行融合,使得到的特征同时具有三个维度的信息,优化了视频课程的特征表示方式,进而提升了课程类别预测的精度,获取预设分类网络,并构建所述预设分类网络的损失函数,基于所述损失函数,利用每个样本的融合特征训练所述预设分类网络,得到视频课程分类模型,获取待分类视频课程,并利用所述视频课程分类模型对所述待分类视频课程进行分类,得到分类结果,实现对课程的准确分类。
本发明实施例还提供一种基于多模态特征表示的课程分类装置,该基于多模态特征表示的课程分类装置用于执行前述基于多模态特征表示的课程分类方法的任一实施例。具体地,请参阅图2,图2是本发明实施例提供的基于多模态特征表示的课程分类装置的示意性框图。
如图2所示,基于多模态特征表示的课程分类装置100包括:构建单元101、训练单元102、增强单元103、生成单元104、融合单元105、分类单元106。
构建单元101采集视频课程构建带有标签的训练样本集。
在本实施例中,所述视频课程可以为任意线上培训平台的视频课程,本发明不限制。
进一步地,所述视频课程的标签标志着每个视频课程的课程类别,如:英语培训类课程、销售培训类课程等。
例如:假设所述训练样本集中共有
Figure 596468DEST_PATH_IMAGE001
个视频课程的样本,记为
Figure 626609DEST_PATH_IMAGE002
,其中,
Figure 533254DEST_PATH_IMAGE003
为第
Figure 767314DEST_PATH_IMAGE001
个视频课程样本的特征。
具体地,
Figure 352885DEST_PATH_IMAGE004
Figure 596172DEST_PATH_IMAGE005
为视频特征分量,
Figure 950799DEST_PATH_IMAGE006
为音频特征分量,
Figure 90181DEST_PATH_IMAGE007
为文本特征分量。
其中,
Figure 631889DEST_PATH_IMAGE001
个视频课程样本的标签为,且课程类别数为C,即
Figure 675938DEST_PATH_IMAGE009
为C维的向量。
具体地,可以采用one-hot算法计算标签的C维向量,本发明不限制。
训练单元102利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络。
在本发明的至少一个实施例中,所述训练单元102利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络包括:
确定所述训练样本集中每个样本的标签;
构建所述视频模态特征网络对应的视频判别损失,构建所述音频模态特征网络对应的音频判别损失,构建所述文本模态特征网络对应的文本判别损失,及构建语义距离函数;
随机抽取每个样本的预设帧,得到每个样本的视频帧;
采用VGG(Visual Geometry Group,超分辨率测试序列)网络对每个样本的视频帧进行特征提取,得到每个视频帧的特征表示;
计算每个样本的视频帧的特征表示的平均值,得到每个样本的视频特征表示;
采用PCA(Principal Component Analysis,主成分分析)算法对每个样本的视频特征表示进行降维处理,得到每个样本的视频特征分量;
将每个样本的视频特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述视频判别损失训练第一全连接神经网络;
采用去噪自编码器(Denoising Auto-encoder)提取每个样本的音频特征分量;
将每个样本的音频特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述音频判别损失训练第二全连接神经网络;
采用Sentence2vector提取每个样本的文本特征分量;
将每个样本的文本特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述文本判别损失训练第三全连接神经网络;
当所述视频判别损失、所述音频判别损失、所述文本判别损失及所述语义距离函数都不再减小时,停止训练;
将当前的第一全连接神经网络确定为所述视频模态特征网络,将当前的第二全连接神经网络确定为所述音频模态特征网络,及将当前的第三全连接神经网络确定为所述文本模态特征网络。
例如:对样本
Figure 884323DEST_PATH_IMAGE010
抽取
Figure 316311DEST_PATH_IMAGE011
个帧,记为
Figure 285928DEST_PATH_IMAGE012
,每一帧特征利用VGG网络进行特征提取,该网络的全连接层作为特征表示,得到的视频帧的特征表示共有4096维。将每个样本的
Figure 336930DEST_PATH_IMAGE011
个视频帧的特征表示的平均值确定为每个样本的视频特征表示
Figure 338252DEST_PATH_IMAGE013
,并通过PCA降维,转化为128维特征
Figure 616175DEST_PATH_IMAGE014
,并作为样本
Figure 70159DEST_PATH_IMAGE010
的视频特征分量。将每个样本的视频特征分量作为输入数据,将每个样本的标签
Figure 458939DEST_PATH_IMAGE016
作为输出数据,训练
Figure 49189DEST_PATH_IMAGE017
层的第一全连接神经网络,预测输出概率为
Figure 26241DEST_PATH_IMAGE018
,得到所述视频模态特征网络。
进一步地,对样本
Figure 161995DEST_PATH_IMAGE010
,由去噪自编码器提取200维特征作为音频特征分量,记为
Figure 351537DEST_PATH_IMAGE019
。将每个样本的音频特征分量
Figure 593031DEST_PATH_IMAGE020
作为输入数据,将每个样本的标签
Figure 212756DEST_PATH_IMAGE016
作为输出数据,训练
Figure 579015DEST_PATH_IMAGE021
层的第二全连接神经网络,预测输出概率为
Figure 575177DEST_PATH_IMAGE022
,得到所述音频模态特征网络。
进一步地,对样本
Figure 999074DEST_PATH_IMAGE010
,由Sentence2vector提取100维特征作为文本特征分量,记为
Figure 521191DEST_PATH_IMAGE023
。将每个样本的文本特征分量
Figure 908835DEST_PATH_IMAGE024
作为输入数据,将每个样本的标签
Figure 174600DEST_PATH_IMAGE016
作为输出数据,训练
Figure 202073DEST_PATH_IMAGE025
层的第三全连接神经网络,预测输出概率为
Figure 895091DEST_PATH_IMAGE026
,得到所述文本模态特征网络。
具体地,所述视频判别损失、所述音频判别损失、所述文本判别损失,及所述语义距离函数的表示如下:
Figure 563839DEST_PATH_IMAGE027
其中,
Figure 901803DEST_PATH_IMAGE028
表示所述视频判别损失,
Figure 237976DEST_PATH_IMAGE011
表示所述预设帧的数量,C表示样本标签类别的数量,
Figure 573667DEST_PATH_IMAGE029
表示样本i的标签,
Figure 995290DEST_PATH_IMAGE030
表示样本i在所述视频模态特征网络中输出类别j的概率;
Figure 337278DEST_PATH_IMAGE031
其中,
Figure 265307DEST_PATH_IMAGE032
表示所述音频判别损失,
Figure 768970DEST_PATH_IMAGE033
表示样本i在所述音频模态特征网络中输出类别j的概率;
Figure 403521DEST_PATH_IMAGE034
其中,
Figure 283621DEST_PATH_IMAGE035
表示所述文本判别损失,
Figure 797648DEST_PATH_IMAGE036
表示样本i在所述文本模态特征网络中输出类别j的概率;
Figure 271879DEST_PATH_IMAGE037
其中,
Figure 464832DEST_PATH_IMAGE038
表示所述语义距离函数,
Figure 885973DEST_PATH_IMAGE039
表示网络权重,b表示网络偏置,α和β为平衡因子。
在本实施例中,所述判别损失可以为交叉熵损失,所述语义距离可以为欧氏距离,本发明不限制。
需要说明的是,所述视频模态特征网络、所述音频模态特征网络及所述文本模态特征网络的网络权重、网络偏置及平衡因子相同。
在网络训练的过程中,通过所述视频判别损失、所述音频判别损失、所述文本判别损失,及所述语义距离函数不断最小化弱语义模态(即音频及文本)与强语义模态(即视频)之间的语义距离和各个模态的判别损失,使训练得到的各个网络更佳,加强了各个模态间调整的关联性。
增强单元103根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征。
可以理解的是,由于大部分视频课程在视觉模态上包含更丰富的语义信息,因此,初始定义其为强语义模态,理论上其权重较大,而音频和文本为弱语义模态,理论上其权重较小。
但是,每种模态都会包括其特有的信息,需要充分挖掘和利用弱语义模态的信息,避免弱语义模态由于语义太弱而失去作用,因此,需要利用强语义模态增强弱语义模态。
在本发明的至少一个实施例中,所述增强单元103根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征包括:
将每个样本的视频特征分量输入至所述视频模态特征网络后,获取所述视频模态特征网络中最后一层隐藏层的输出数据作为每个样本的第一数据,并将每个样本的第一数据确定为每个样本的视频模态特征;
将每个样本的音频特征分量输入至所述音频模态特征网络后,获取所述音频模态特征网络中最后一层隐藏层的输出数据作为每个样本的第二数据,拼接每个样本的第二数据与对应的音频特征分量,得到每个样本的音频模态增强特征;
将每个样本的文本特征分量输入至所述文本模态特征网络后,获取所述文本模态特征网络中最后一层隐藏层的输出数据作为每个样本的第三数据,拼接每个样本的第三数据与对应的文本特征分量,得到每个样本的文本模态增强特征。
例如:
Figure 254507DEST_PATH_IMAGE040
Figure 224605DEST_PATH_IMAGE041
其中,
Figure 32418DEST_PATH_IMAGE042
表示拼接操作,最终得到三个模态的新特征分别为:
样本i的音频模态增强特征
Figure 642870DEST_PATH_IMAGE043
:由音频模态原始特征(即音频特征分量)
Figure 446004DEST_PATH_IMAGE019
,与最后一层隐藏层输出的特征(即第二数据)
Figure 793196DEST_PATH_IMAGE081
拼接而得到;
样本i的视频模态特征
Figure 71993DEST_PATH_IMAGE044
:最后一层隐藏层输出的特征,即第一数据;
样本i的文本模态增强特征
Figure 363166DEST_PATH_IMAGE045
:由文本模态原始特征(即文本特征分量)
Figure 822136DEST_PATH_IMAGE023
,与最后一层隐藏层输出的特征(即第三数据)
Figure 386235DEST_PATH_IMAGE046
拼接而得到。
通过上述实施方式,能够在增强弱模态语义特征(即音频模态及文本模态)的同时,保留弱模态语义特征的特性,有效避免特征丢失。
生成单元104根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重。
可以理解的是,在某些情况下,由于视频模态特征不能鲜明地传达出课程内容,语义较弱,对分类的贡献小,其权重应减小;而文本和音频模态特征的贡献相对较大,语义较强,此时音频和文本特征对视频特征起到了互补的作用,其权重应增大。因此,需要根据模态的语义强弱进行不同模态权重的自适应学习。
在本发明的至少一个实施例中,所述生成单元104根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重包括:
获取视频映射权重、音频映射权重、文本映射权重,及获取视频转化权重、音频转化权重、文本转化权重;
计算所述视频映射权重与每个样本的视频模态特征的乘积,得到每个样本的视频映射特征,利用sigmoid激活函数对每个样本的视频映射特征进行激活处理,得到每个样本的视频激活特征,计算每个样本的视频激活特征与所述视频转化权重的乘积,得到每个样本的视频转化特征,利用sigmoid激活函数对每个样本的视频转化特征进行激活处理,得到每个样本的视频权重;
计算所述音频映射权重与每个样本的音频模态增强特征的乘积,得到每个样本的音频映射特征,利用sigmoid激活函数对每个样本的音频映射特征进行激活处理,得到每个样本的音频激活特征,计算每个样本的音频激活特征与所述音频转化权重的乘积,得到每个样本的音频转化特征,利用sigmoid激活函数对每个样本的音频转化特征进行激活处理,得到每个样本的音频权重;
计算所述文本映射权重与每个样本的文本模态增强特征的乘积,得到每个样本的文本映射特征,利用sigmoid激活函数对每个样本的文本映射特征进行激活处理,得到每个样本的文本激活特征,计算每个样本的文本激活特征与所述文本转化权重的乘积,得到每个样本的文本转化特征,利用sigmoid激活函数对每个样本的文本转化特征进行激活处理,得到每个样本的文本权重。
承接上面的例子,样本i的视频权重、音频权重及文本权重可以分别表示如下:
Figure 182021DEST_PATH_IMAGE082
Figure 997924DEST_PATH_IMAGE083
Figure 854278DEST_PATH_IMAGE084
其中,
Figure 538680DEST_PATH_IMAGE050
表示样本i的视频权重,
Figure 25025DEST_PATH_IMAGE051
表示样本i的音频权重、
Figure 379039DEST_PATH_IMAGE052
表示样本i的文本权重,
Figure 89899DEST_PATH_IMAGE053
表示sigmoid激活函数,
Figure 212445DEST_PATH_IMAGE054
表示所述视频映射权重,
Figure 451665DEST_PATH_IMAGE055
表示所述音频映射权重,
Figure 812633DEST_PATH_IMAGE056
表示所述文本映射权重,
Figure 453699DEST_PATH_IMAGE057
表示所述视频转化权重,
Figure 115188DEST_PATH_IMAGE058
表示所述音频转化权重,
Figure 372863DEST_PATH_IMAGE059
表示所述文本转化权重。
Figure 521209DEST_PATH_IMAGE060
用于将
Figure 550870DEST_PATH_IMAGE044
,
Figure 280797DEST_PATH_IMAGE061
映射成同维度的特征,从而控制变量,保证三大类特征在输入模型前在特征维度上一致,使最终得到的视频权重、音频权重及文本权重仅取决于此三大类特征的语义强弱。
Figure 509258DEST_PATH_IMAGE062
用于将三个模态的特征转化为1维权重
Figure 212029DEST_PATH_IMAGE063
融合单元105根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征。
可以理解的是,由于视频课程的视频、音频和文本模态特征均有各自独特的价值,因此,需要充分利用视频课程的三种模态的语义信息。
具体地,所述融合单元105根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征包括:
计算每个样本的视频激活特征与每个样本的视频权重的乘积,得到每个样本的第一特征;
计算每个样本的音频激活特征与每个样本的音频权重的乘积,得到每个样本的第二特征;
计算每个样本的文本激活特征与每个样本的文本权重的乘积,得到每个样本的第三特征;
拼接每个样本的第一特征、第二特征及第三特征,得到每个样本的融合特征。
承接上面的例子,样本i的第一特征为:
Figure 296528DEST_PATH_IMAGE064
;样本i的第二特征为:
Figure 59341DEST_PATH_IMAGE065
;样本i的第三特征为:
Figure 407453DEST_PATH_IMAGE066
进一步地,样本i的融合特征为:
Figure 786350DEST_PATH_IMAGE067
通过上述实施方式,能够在视频、音频、文本多个维度上对特征进行融合,使得到的特征同时具有三个维度的信息,优化了视频课程的特征表示方式,进而提升了课程类别预测的精度。
所述构建单元101获取预设分类网络,并构建所述预设分类网络的损失函数。
其中,所述预设分类网络可以为任意分类网络,如采用softmax函数进行分类。
则所述预设分类网络输出的样本i属于类别j的概率可以表示为:
Figure 587341DEST_PATH_IMAGE068
,其中,
Figure 924650DEST_PATH_IMAGE069
表示自定义的超参数。
具体地,所述构建单元101构建所述预设分类网络的损失函数包括:
采用下述公式构建预测损失:
Figure 381564DEST_PATH_IMAGE070
其中,
Figure 970677DEST_PATH_IMAGE071
表示所述预测损失,
Figure 623244DEST_PATH_IMAGE072
表示样本i实际属于类别j的概率,
Figure 72067DEST_PATH_IMAGE073
表示所述预设分类网络输出的样本i属于类别j的概率;
获取所述视频判别损失的第一权重、所述音频判别损失的第二权重、所述文本判别损失的第三权重、所述语义距离函数的第四权重及所述预测损失的第五权重;
根据所述第一权重、所述视频判别损失,所述第二权重、所述音频判别损失,所述第三权重、所述文本判别损失,所述第四权重、所述语义距离函数,所述第五权重、所述预测损失,计算累加和,得到所述损失函数。
在本实施例中,
Figure 951031DEST_PATH_IMAGE072
的取值可以为0和1,其中,0代表样本i实际不属于类别j,1代表样本i实际属于类别j。
承接上面的例子,所述损失函数可以表示为:
Figure 76592DEST_PATH_IMAGE074
其中,
Figure 193453DEST_PATH_IMAGE075
表示所述损失函数,
Figure 606985DEST_PATH_IMAGE076
表示所述第一权重,
Figure 959863DEST_PATH_IMAGE077
表示所述第二权重,
Figure 549500DEST_PATH_IMAGE078
表示所述第三权重,
Figure 317605DEST_PATH_IMAGE079
表示所述第四权重,
Figure 902039DEST_PATH_IMAGE080
表示所述第五权重。
可以理解的是,大部分视频课程的视频模态特征会传达更多的语义信息,因此,通过最小化视频模态特征与音频和文本模态特征的距离,能够对音频和文本模态特征进行特征增强;而部分视频模态会存在语义缺失的情况,自动学习不同模态之间的融合权重,实现自适应权重的多模态信息互补融合,进而能够更好地表达多模态信息,进而达到更好的分类效果。
通过上述实施方式,同时兼顾各个模态的损失、弱语义模态与强语义模态间的距离,以及预测损失,使训练的模型分类的准确率更高。
所述训练单元102基于所述损失函数,利用每个样本的融合特征训练所述预设分类网络,得到视频课程分类模型。
具体地,可以采用随机梯度下降的方式对所述预设分类网络进行优化训练,当所述损失函数达到收敛时,停止训练,得到所述视频课程分类模型。
分类单元106获取待分类视频课程,并利用所述视频课程分类模型对所述待分类视频课程进行分类,得到分类结果。
在本实施例中,所述待分类视频课程可以为任意用户上传的视频,如相关工作人员。
进一步地,将所述待分类视频课程输入至所述视频课程分类模型,并从所述视频课程分类模型的输出中获取预测的类别及所述预测的类别的概率,作为所述分类结果。
需要说明的是,为了进一步确保数据的安全性,避免数据被恶意篡改,训练得到的模型可以存储于区块链节点上。
由以上技术方案可以看出,本发明能够采集视频课程构建带有标签的训练样本集,利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络,根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征,能够在增强弱模态语义特征(即音频模态及文本模态)的同时,保留弱模态语义特征的特性,有效避免特征丢失,根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重,根据模态的语义强弱进行不同模态权重的自适应学习,根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征,能够在视频、音频、文本多个维度上对特征进行融合,使得到的特征同时具有三个维度的信息,优化了视频课程的特征表示方式,进而提升了课程类别预测的精度,获取预设分类网络,并构建所述预设分类网络的损失函数,基于所述损失函数,利用每个样本的融合特征训练所述预设分类网络,得到视频课程分类模型,获取待分类视频课程,并利用所述视频课程分类模型对所述待分类视频课程进行分类,得到分类结果,实现对课程的准确分类。
上述基于多模态特征表示的课程分类装置可以实现为计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。
请参阅图3,图3是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
参阅图3,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于多模态特征表示的课程分类方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于多模态特征表示的课程分类方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于多模态特征表示的课程分类方法。
本领域技术人员可以理解,图3中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图3所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于多模态特征表示的课程分类方法。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
本发明可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种基于多模态特征表示的课程分类方法,其特征在于,包括:
采集视频课程构建带有标签的训练样本集;
利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络,包括:确定所述训练样本集中每个样本的标签;构建所述视频模态特征网络对应的视频判别损失,构建所述音频模态特征网络对应的音频判别损失,构建所述文本模态特征网络对应的文本判别损失,及构建语义距离函数;随机抽取每个样本的预设帧,得到每个样本的视频帧;采用VGG网络对每个样本的视频帧进行特征提取,得到每个视频帧的特征表示;计算每个样本的视频帧的特征表示的平均值,得到每个样本的视频特征表示;采用PCA算法对每个样本的视频特征表示进行降维处理,得到每个样本的视频特征分量;将每个样本的视频特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述视频判别损失训练第一全连接神经网络;采用去噪自编码器提取每个样本的音频特征分量;将每个样本的音频特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述音频判别损失训练第二全连接神经网络;采用Sentence2vector提取每个样本的文本特征分量;将每个样本的文本特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述文本判别损失训练第三全连接神经网络;当所述视频判别损失、所述音频判别损失、所述文本判别损失及所述语义距离函数都不再减小时,停止训练;将当前的第一全连接神经网络确定为所述视频模态特征网络,将当前的第二全连接神经网络确定为所述音频模态特征网络,及将当前的第三全连接神经网络确定为所述文本模态特征网络;
根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征;
根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重;
根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征;
获取预设分类网络,并构建所述预设分类网络的损失函数;
基于所述损失函数,利用每个样本的融合特征训练所述预设分类网络,得到视频课程分类模型;
获取待分类视频课程,并利用所述视频课程分类模型对所述待分类视频课程进行分类,得到分类结果;
其中,所述视频判别损失、所述音频判别损失、所述文本判别损失,及所述语义距离函数的表示如下:
Figure 839546DEST_PATH_IMAGE001
其中,
Figure 114538DEST_PATH_IMAGE002
表示所述视频判别损失,
Figure 53675DEST_PATH_IMAGE003
表示所述预设帧的数量,C表示样本标签类别的数量,
Figure 783734DEST_PATH_IMAGE004
表示样本i的标签,
Figure 403678DEST_PATH_IMAGE005
表示样本i在所述视频模态特征网络中输出类别j的概率;
Figure 537987DEST_PATH_IMAGE006
其中,
Figure 823475DEST_PATH_IMAGE007
表示所述音频判别损失,
Figure 13016DEST_PATH_IMAGE008
表示样本i在所述音频模态特征网络中输出类别j的概率;
Figure 208506DEST_PATH_IMAGE009
其中,
Figure 795607DEST_PATH_IMAGE010
表示所述文本判别损失,
Figure 240495DEST_PATH_IMAGE011
表示样本i在所述文本模态特征网络中输出类别j的概率;
Figure 781198DEST_PATH_IMAGE012
其中,
Figure 80461DEST_PATH_IMAGE013
表示所述语义距离函数,
Figure 150048DEST_PATH_IMAGE014
表示网络权重,b表示网络偏置,α和β为平衡因子;
其中,所述构建所述预设分类网络的损失函数包括:采用下述公式构建预测损失:
Figure 773577DEST_PATH_IMAGE015
其中,
Figure 383550DEST_PATH_IMAGE016
表示所述预测损失,
Figure 84790DEST_PATH_IMAGE017
表示样本i实际属于类别j的概率,
Figure 512229DEST_PATH_IMAGE018
表示所述预设分类网络输出的样本i属于类别j的概率;
获取所述视频判别损失的第一权重、所述音频判别损失的第二权重、所述文本判别损失的第三权重、所述语义距离函数的第四权重及所述预测损失的第五权重;
根据所述第一权重、所述视频判别损失,所述第二权重、所述音频判别损失,所述第三权重、所述文本判别损失,所述第四权重、所述语义距离函数,所述第五权重、所述预测损失,计算累加和,得到所述损失函数。
2.根据权利要求1所述的基于多模态特征表示的课程分类方法,其特征在于,所述根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征包括:
将每个样本的视频特征分量输入至所述视频模态特征网络后,获取所述视频模态特征网络中最后一层隐藏层的输出数据作为每个样本的第一数据,并将每个样本的第一数据确定为每个样本的视频模态特征;
将每个样本的音频特征分量输入至所述音频模态特征网络后,获取所述音频模态特征网络中最后一层隐藏层的输出数据作为每个样本的第二数据,拼接每个样本的第二数据与对应的音频特征分量,得到每个样本的音频模态增强特征;
将每个样本的文本特征分量输入至所述文本模态特征网络后,获取所述文本模态特征网络中最后一层隐藏层的输出数据作为每个样本的第三数据,拼接每个样本的第三数据与对应的文本特征分量,得到每个样本的文本模态增强特征。
3.根据权利要求1所述的基于多模态特征表示的课程分类方法,其特征在于,所述根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重包括:
获取视频映射权重、音频映射权重、文本映射权重,及获取视频转化权重、音频转化权重、文本转化权重;
计算所述视频映射权重与每个样本的视频模态特征的乘积,得到每个样本的视频映射特征,利用sigmoid激活函数对每个样本的视频映射特征进行激活处理,得到每个样本的视频激活特征,计算每个样本的视频激活特征与所述视频转化权重的乘积,得到每个样本的视频转化特征,利用sigmoid激活函数对每个样本的视频转化特征进行激活处理,得到每个样本的视频权重;
计算所述音频映射权重与每个样本的音频模态增强特征的乘积,得到每个样本的音频映射特征,利用sigmoid激活函数对每个样本的音频映射特征进行激活处理,得到每个样本的音频激活特征,计算每个样本的音频激活特征与所述音频转化权重的乘积,得到每个样本的音频转化特征,利用sigmoid激活函数对每个样本的音频转化特征进行激活处理,得到每个样本的音频权重;
计算所述文本映射权重与每个样本的文本模态增强特征的乘积,得到每个样本的文本映射特征,利用sigmoid激活函数对每个样本的文本映射特征进行激活处理,得到每个样本的文本激活特征,计算每个样本的文本激活特征与所述文本转化权重的乘积,得到每个样本的文本转化特征,利用sigmoid激活函数对每个样本的文本转化特征进行激活处理,得到每个样本的文本权重。
4.根据权利要求3所述的基于多模态特征表示的课程分类方法,其特征在于,所述根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征包括:
计算每个样本的视频激活特征与每个样本的视频权重的乘积,得到每个样本的第一特征;
计算每个样本的音频激活特征与每个样本的音频权重的乘积,得到每个样本的第二特征;
计算每个样本的文本激活特征与每个样本的文本权重的乘积,得到每个样本的第三特征;
拼接每个样本的第一特征、第二特征及第三特征,得到每个样本的融合特征。
5.一种基于多模态特征表示的课程分类装置,其特征在于,包括:
构建单元,用于采集视频课程构建带有标签的训练样本集;
训练单元,用于利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络,包括:确定所述训练样本集中每个样本的标签;构建所述视频模态特征网络对应的视频判别损失,构建所述音频模态特征网络对应的音频判别损失,构建所述文本模态特征网络对应的文本判别损失,及构建语义距离函数;随机抽取每个样本的预设帧,得到每个样本的视频帧;采用VGG网络对每个样本的视频帧进行特征提取,得到每个视频帧的特征表示;计算每个样本的视频帧的特征表示的平均值,得到每个样本的视频特征表示;采用PCA算法对每个样本的视频特征表示进行降维处理,得到每个样本的视频特征分量;将每个样本的视频特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述视频判别损失训练第一全连接神经网络;采用去噪自编码器提取每个样本的音频特征分量;将每个样本的音频特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述音频判别损失训练第二全连接神经网络;采用Sentence2vector提取每个样本的文本特征分量;将每个样本的文本特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述文本判别损失训练第三全连接神经网络;当所述视频判别损失、所述音频判别损失、所述文本判别损失及所述语义距离函数都不再减小时,停止训练;将当前的第一全连接神经网络确定为所述视频模态特征网络,将当前的第二全连接神经网络确定为所述音频模态特征网络,及将当前的第三全连接神经网络确定为所述文本模态特征网络;
增强单元,用于根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征;
生成单元,用于根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重;
融合单元,用于根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征;
所述构建单元,还用于获取预设分类网络,并构建所述预设分类网络的损失函数;
所述训练单元,还用于基于所述损失函数,利用每个样本的融合特征训练所述预设分类网络,得到视频课程分类模型;
分类单元,用于获取待分类视频课程,并利用所述视频课程分类模型对所述待分类视频课程进行分类,得到分类结果;
其中,所述视频判别损失、所述音频判别损失、所述文本判别损失,及所述语义距离函数的表示如下:
Figure 931709DEST_PATH_IMAGE001
其中,
Figure 971471DEST_PATH_IMAGE002
表示所述视频判别损失,
Figure 589534DEST_PATH_IMAGE003
表示所述预设帧的数量,C表示样本标签类别的数量,表示样本i的标签,
Figure 938607DEST_PATH_IMAGE005
表示样本i在所述视频模态特征网络中输出类别j的概率;
Figure 360230DEST_PATH_IMAGE006
其中,
Figure 921793DEST_PATH_IMAGE007
表示所述音频判别损失,
Figure 925521DEST_PATH_IMAGE008
表示样本i在所述音频模态特征网络中输出类别j的概率;
Figure 990035DEST_PATH_IMAGE009
其中,
Figure 56212DEST_PATH_IMAGE010
表示所述文本判别损失,
Figure 264208DEST_PATH_IMAGE011
表示样本i在所述文本模态特征网络中输出类别j的概率;
Figure 732229DEST_PATH_IMAGE012
其中,
Figure 282159DEST_PATH_IMAGE013
表示所述语义距离函数,
Figure 851943DEST_PATH_IMAGE014
表示网络权重,b表示网络偏置,α和β为平衡因子;
其中,所述构建单元构建所述预设分类网络的损失函数包括:采用下述公式构建预测损失:
Figure 348784DEST_PATH_IMAGE015
其中,
Figure 186159DEST_PATH_IMAGE016
表示所述预测损失,
Figure 579094DEST_PATH_IMAGE017
表示样本i实际属于类别j的概率,
Figure 10075DEST_PATH_IMAGE018
表示所述预设分类网络输出的样本i属于类别j的概率;
获取所述视频判别损失的第一权重、所述音频判别损失的第二权重、所述文本判别损失的第三权重、所述语义距离函数的第四权重及所述预测损失的第五权重;
根据所述第一权重、所述视频判别损失,所述第二权重、所述音频判别损失,所述第三权重、所述文本判别损失,所述第四权重、所述语义距离函数,所述第五权重、所述预测损失,计算累加和,得到所述损失函数。
6.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的基于多模态特征表示的课程分类方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至4任一项所述的基于多模态特征表示的课程分类方法。
CN202111386191.6A 2021-11-22 2021-11-22 基于多模态特征表示的课程分类方法、装置、设备及介质 Active CN113822382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111386191.6A CN113822382B (zh) 2021-11-22 2021-11-22 基于多模态特征表示的课程分类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111386191.6A CN113822382B (zh) 2021-11-22 2021-11-22 基于多模态特征表示的课程分类方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113822382A CN113822382A (zh) 2021-12-21
CN113822382B true CN113822382B (zh) 2022-02-15

Family

ID=78918064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111386191.6A Active CN113822382B (zh) 2021-11-22 2021-11-22 基于多模态特征表示的课程分类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113822382B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399934A (zh) * 2019-07-31 2019-11-01 北京达佳互联信息技术有限公司 一种视频分类方法、装置及电子设备
WO2021208722A1 (zh) * 2020-11-26 2021-10-21 平安科技(深圳)有限公司 分类模型训练方法、装置、终端及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070067B (zh) * 2019-04-29 2021-11-12 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备
CN110334689B (zh) * 2019-07-16 2022-02-15 北京百度网讯科技有限公司 视频分类方法和装置
CN112686193B (zh) * 2021-01-06 2024-02-06 东北大学 基于压缩视频的动作识别方法、装置及计算机设备
CN112749300B (zh) * 2021-01-22 2024-03-01 北京百度网讯科技有限公司 用于视频分类的方法、装置、设备、存储介质和程序产品
CN113408385B (zh) * 2021-06-10 2022-06-14 华南理工大学 一种音视频多模态情感分类方法及系统
CN113094549A (zh) * 2021-06-10 2021-07-09 智者四海(北京)技术有限公司 一种视频分类方法、装置、电子设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399934A (zh) * 2019-07-31 2019-11-01 北京达佳互联信息技术有限公司 一种视频分类方法、装置及电子设备
WO2021208722A1 (zh) * 2020-11-26 2021-10-21 平安科技(深圳)有限公司 分类模型训练方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN113822382A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
Berryhill et al. Hello, World: Artificial intelligence and its use in the public sector
KR102222451B1 (ko) 텍스트 기반 사용자심리상태예측 및 콘텐츠추천 장치 및 그 방법
Das et al. Applications of artificial intelligence in machine learning: review and prospect
Brooks et al. FeatureInsight: Visual support for error-driven feature ideation in text classification
Sampath et al. Data set creation and empirical analysis for detecting signs of depression from social media postings
CN113095415B (zh) 一种基于多模态注意力机制的跨模态哈希方法及系统
CN112231485B (zh) 文本推荐方法、装置、计算机设备及存储介质
CN114648392B (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
CN111985243A (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
Moreno-Garcia et al. A novel application of machine learning and zero-shot classification methods for automated abstract screening in systematic reviews
Joshi Python machine learning cookbook
Wagle et al. Explainable ai for multimodal credibility analysis: Case study of online beauty health (mis)-information
Beltzung et al. Deep learning for studying drawing behavior: A review
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
Lotfi et al. Storytelling with image data: A systematic review and comparative analysis of methods and tools
Bhasin Machine Learning for Beginners: Build and deploy Machine Learning systems using Python
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及系统
Kumar et al. Analysis of machine learning algorithms for facial expression recognition
CN113822382B (zh) 基于多模态特征表示的课程分类方法、装置、设备及介质
Chatterjee et al. Class-biased sarcasm detection using BiLSTM variational autoencoder-based synthetic oversampling
Biswas et al. A new ontology-based multimodal classification system for social media images of personality traits
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Malhotra et al. An efficient fake news identification system using A-SQUARE CNN algorithm
CN117011737A (zh) 一种视频分类方法、装置、电子设备和存储介质
Newnham Machine Learning with Core ML: An iOS developer's guide to implementing machine learning in mobile apps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant