CN115129930A - 一种视频的信息处理方法、装置、计算机设备和存储介质 - Google Patents
一种视频的信息处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115129930A CN115129930A CN202210735510.8A CN202210735510A CN115129930A CN 115129930 A CN115129930 A CN 115129930A CN 202210735510 A CN202210735510 A CN 202210735510A CN 115129930 A CN115129930 A CN 115129930A
- Authority
- CN
- China
- Prior art keywords
- information
- video
- content
- sample
- content unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种视频的信息处理方法、装置、计算机设备和存储介质;本申请实施例可以获取视频信息处理模型和视频样本的内容描述信息样本;利用视频信息处理模型对内容描述信息样本进行特征提取,得到内容描述信息特征和内容单元样本特征;将内容描述信息特征和每个内容单元样本特征进行融合处理,得到融合特征;根据融合特征,计算信息标注概率;对内容描述信息特征进行类型预测,得到预测视频类型概率;基于信息标注概率和预测视频类型概率进行损失计算,得到信息损失信息和类型损失信息;根据信息损失信息和类型损失信息对视频信息处理模型进行训练,得到目标视频信息处理模型,可以提高生成关键描述信息和视频类型的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种视频的信息处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,多媒体的应用越来越广泛,人们自己可以拍摄视频或剪辑视频上传到多媒体应用中以供其他用户欣赏,这会视频数量也急剧增长。为了方便用户从海量的视频中快速获取想要观看的视频,很多视频网站和视频应用程序通常会为视频生成内容描述信息,从而使得可以根据内容描述信息搜索相关的视频。此外,为了更进一步地提高为用户推荐视频的效率,可以从内容描述信息中确定视频的关键描述信息和视频类型,然后,基于关键描述信息和视频类型召回用户感兴趣的视频。
发明内容
本申请实施例提出了一种视频的信息处理方法、装置、计算机设备和存储介质,可以提高从视频的内容描述信息中生成视频的关键描述信息和视频类型的准确性。
本申请实施例提供了一种视频的信息处理方法,包括:
获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,所述内容描述信息样本包括至少一个内容单元样本;
利用所述视频信息处理模型对所述内容描述信息样本进行特征提取,得到所述内容描述信息样本对应的内容描述信息特征,以及所述内容单元样本对应的内容单元样本特征;
利用所述视频信息处理模型将所述内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征;
利用所述视频信息处理模型根据每个内容单元样本对应的融合特征,计算所述每个内容单元样本对应的信息标注概率;
利用所述视频信息处理模型对所述内容描述信息特征进行类型预测,得到所述视频样本对应的预测视频类型概率;
基于所述每个内容单元样本对应的信息标注概率和所述视频样本对应的预测视频类型概率进行损失计算,得到所述视频样本对应的信息损失信息和类型损失信息;
根据所述信息损失信息和所述类型损失信息对所述视频信息处理模型进行训练,得到目标视频信息处理模型。
相应的,本申请实施例还提供了一种视频的信息处理装置,包括:
获取单元,用于获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,所述内容描述信息样本包括至少一个内容单元样本;
特征提取单元,用于利用所述视频信息处理模型对所述内容描述信息样本进行特征提取,得到所述内容描述信息样本对应的内容描述信息特征,以及所述内容单元样本对应的内容单元样本特征;
融合单元,用于利用所述视频信息处理模型将所述内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征;
计算单元,用于利用所述视频信息处理模型根据每个内容单元样本对应的融合特征,计算所述每个内容单元样本对应的信息标注概率;
类型预测单元,用于利用所述视频信息处理模型对所述内容描述信息特征进行类型预测,得到所述视频样本对应的预测视频类型概率;
损失计算单元,用于基于所述每个内容单元样本对应的信息标注概率和所述视频样本对应的预测视频类型概率进行损失计算,得到所述视频样本对应的信息损失信息和类型损失信息;
训练单元,拥有根据所述信息损失信息和所述类型损失信息对所述视频信息处理模型进行训练,得到目标视频信息处理模型。
在一实施例中,所述特征提取单元,可以包括:
注意力信息提取子单元,用于利用所述视频信息处理模型对所述内容描述信息样本的内容单元样本进行注意力信息提取,得到每个内容单元样本对应的注意力信息;
映射子单元,用于利用所述视频信息处理模型将每个内容单元样本对应的注意力信息映射至预设特征空间中,得到所述内容单元样本在所述预设特征空间中对应的内容单元样本特征;
全连接子单元,用于利用所述视频信息处理模型对将每个内容单元样本对应的内容单元样本特征进行全连接处理,得到所述内容描述信息样本对应的初始内容描述信息特征;
特征挖掘子单元,用于利用所述视频信息处理模型对所述初始内容描述信息特征进行特征挖掘,得到所述内容描述信息样本对应的内容描述信息特征。
在一实施例中,所述注意力信息提取子单元,可以包括:
向量转换模块,用于利用所述视频信息处理模型对所述内容单元样本进行向量转换,得到所述内容单元样本对应的内容单元样本表征向量;
算术运算模块,用于利用所述视频信息处理模型中的注意力权重信息和所述内容单元样本表征向量进行算术运算,得到运算后内容单元样本表征向量;
逻辑回归模块,用于利用所述视频信息处理模型中的激活函数对所述运算后内容单元样本表征向量进行逻辑回归处理,得到所述每个内容单元样本对应的注意力信息。
在一实施例中,所述特征挖掘子单元,可以包括:
卷积运算模块,用于利用所述视频信息处理模型对所述初始内容描述信息特征进行卷积运算,得到卷积运算后特征;
前向传播模块,用于利用所述视频信息处理模型对所述卷积运算后特征进行前向传播,得到传播后特征;
利用所述视频信息处理模型对所述传播后特征进行非线性转换,得到所述内容描述信息特征。
在一实施例中,所述融合单元,可以包括:
转置子单元,用于利用所述视频信息处理模型对所述每个内容单元样本特征进行转置处理,得到转置后内容单元样本特征;
第一乘法运算子单元,用于将所述视频信息处理模型中的融合权重信息和所述内容描述信息特征进行乘法运算,得到运算后融合特征;
第二乘法运算子单元,用于利用所述视频信息处理模型将所述运算后融合特征和每个转置后内容单元特征进行乘法运算,得到所述每个内容单元样本对应的融合特征。
在一实施例中,所述损失计算单元,可以包括:
获取子单元,用于获取内容描述信息样本中每个内容单元样本的参考信息标注和针对视频样本的参考类型;
第一损失计算子单元,用于根据所述每个内容单元样本对应的参考信息标注和信息标注概率计算所述视频样本对应的信息损失信息;
第二损失计算子单元,用于根据所述参考类型和所述视频样本对应的预测视频类型概率计算所述视频样本对应的类型损失信息。
在一实施例中,所述第一损失计算子单元,可以包括:
第一参数生成模块,用于根据所述内容单元样本对应的参考信息标注,生成所述内容单元样本和预设信息标注之间对应的信息损失计算参数;
第一概率确定模块,用于确定内容单元样本和预设信息标注之间对应的信息标注概率;
对数似然运算模块,用于将内容单元样本和预设信息标注之间的信息损失参数和信息标注概率进行对数似然运算,得到内容单元样本对应的内容单元样本损失信息;
整合模块,用于根据所述内容描述信息样本中内容单元样本的数量和所述预设信息标注的数量将内容单元样本对应的内容单元样本损失信息进行整合,得到所述信息损失信息。
在一实施例中,所述第二损失计算子单元,可以包括:
第二参数生成模块,用于根据所述视频样本对应的参考类型,生成所述视频样本和预设视频类型之间的类型损失计算参数;
第二概率确定模块,用于确定视频样本和所述预设视频类型之间的预测视频类型概率;
算术运算模块,用于将视频样本和所述预设视频类型之间的类型损失计算参数和预测视频类型概率进行算术运算,得到视频样本对应的类型损失信息。
在一实施例中,所述信息处理装置可以包括:
信息获取单元,用于获取视频的内容描述信息,所述内容描述信息包括至少一个内容单元;
信息特征提取单元,用于利用所述目标视频信息处理模型对所述内容描述信息进行特征提取,得到所述内容描述信息对应的内容描述信息特征,以及所述内容单元对应的内容单元特征;
信息融合单元,用于利用所述目标视频信息处理模型将所述内容描述信息对应的内容描述信息特征和每个内容单元特征进行融合处理,得到每个内容单元对应的融合特征;
筛选单元,用于利用所述目标视频信息处理模型根据所述每个内容单元的融合特征,在所述内容单元中筛选出所述视频对应的关键描述信息;
类型预测单元,用于利用所述目标视频信息处理模型对所述内容描述信息特征进行类型预测,得到所述视频对应的视频类型。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面的各种可选方式中提供的方法。
相应的,本申请实施例还提供一种存储介质,所述存储介质存储有指令,所述指令被处理器执行时实现本申请实施例任一提供的视频的信息处理方法。
本申请实施例可以获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,所述内容描述信息样本包括至少一个内容单元样本;利用视频信息处理模型对内容描述信息样本进行特征提取,得到内容描述信息样本对应的内容描述信息特征,以及内容单元样本对应的内容单元样本特征;利用视频信息处理模型将内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征;利用视频信息处理模型根据每个内容单元样本对应的融合特征,计算每个内容单元样本对应的信息标注概率;利用视频信息处理模型对内容描述信息特征进行类型预测,得到视频样本对应的预测视频类型概率;基于每个内容单元样本对应的信息标注概率和视频样本对应的预测视频类型概率进行损失计算,得到视频样本对应的信息损失信息和类型损失信息;根据信息损失信息和类型损失信息对视频信息处理模型进行训练,得到目标视频信息处理模型,可以提高从视频的内容描述信息中确定视频的关键描述信息和视频类型的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的视频的信息处理方法的场景示意图;
图2是本申请实施例提供的视频的信息处理方法的流程示意图;
图3是本申请实施例提供的视频的信息处理方法的又一场景示意图;
图4是本申请实施例提供的视频的信息处理方法的又一场景示意图;
图5是本申请实施例提供的视频的信息处理方法的又一场景示意图;
图6是本申请实施例提供的视频的信息处理方法的又一流程示意图;
图7是本申请实施例提供的视频的信息处理装置的结构示意图;
图8是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,然而,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提出了一种视频的信息处理方法,该视频的信息处理方法可以由视频的信息处理装置执行,该视频的信息处理装置可以集成在计算机设备中。其中,该计算机设备可以包括终端以及服务器等中的至少一个。即,本申请实施例提出的视频的信息处理方法即可以由终端执行,还可以由服务器执行,还可以由能够进行互相通信的终端和服务器共同执行。
其中,终端可以包括但不限于智能手机、平板电脑、笔记本电脑、个人电脑(Personal Computer,PC)、智能家电、可穿戴电子设备、VR/AR设备、车载终端、智能语音交互设备等等。
服务器可以为多个异构系统之间的互通服务器或者后台服务器,还可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器等等。
需要说明的是,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
在一实施例中,如图1所述,视频的信息处理装置可以集成在终端或服务器等计算机设备上,以实施本申请实施例提出的视频的信息处理方法。具体地,服务器11可以获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,内容描述信息样本包括至少一个内容单元样本;利用视频信息处理模型对内容描述信息样本进行特征提取,得到内容描述信息样本对应的内容描述信息特征,以及内容单元样本对应的内容单元样本特征;利用视频信息处理模型将内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征;利用视频信息处理模型根据每个内容单元样本对应的融合特征,计算每个内容单元样本对应的信息标注概率;利用视频信息处理模型对内容描述信息特征进行类型预测,得到视频样本对应的预测视频类型概率;基于每个内容单元样本对应的信息标注概率和视频样本对应的预测视频类型概率进行损失计算,得到视频样本对应的信息损失信息和类型损失信息;根据信息损失信息和类型损失信息对视频信息处理模型进行训练,得到目标视频信息处理模型。然后,终端10可以利用利用目标视频信息处理模型对用户输入的信息进行处理。
以下分别进行详细说明,需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例将从视频的信息处理装置的角度进行描述,该视频的信息处理装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
如图2所述,提供了一种视频的信息处理方法,具体流程包括:
101、获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,内容描述信息样本包括至少一个内容单元样本。
其中,视频信息处理模型可以是一个需要进行训练,性能未达到要求的人工智能模型。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。其中,强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。深度强化学习是将深度学习和强化学习相结合,将深度学习的技术来求解强化学习的问题。
例如,视频信息处理模型可以是卷积神经网络(Convolutional NeuralNetworks,CNN)、反卷积神经网络(De-Convolutional Networks,DN)、深度神经网络(DeepNeural Networks,DNN)、深度卷积逆向图网络(Deep Convolutional Inverse GraphicsNetworks,DCIGN)、基于区域的卷积网络(Region-based Convolutional Networks,RCNN)、基于注意力机制的序列推荐模型(Self-Attentive Sequential Recommendation,SASRec)、基于区域的快速卷积网络(Faster Region-based Convolutional Networks,Faster RCNN)和双向编解码(Bidirectional Encoder Representations fromTransformers,BERT)模型、条件随机场(Conditional Random Field,CRF)模型等中的至少一种。
在一实施例中,视频信息处理模型可以是一个还需要进行训练的模型。例如,视频信息处理模型可以是一个未经过训练的模型。又例如,视频信息处理模型可以是一个经过训练,但模型的指标仍未达到要求的模型。
在一实施例中,通过对视频信息处理模型进行训练,可以得到目标视频信息处理模型。其中,目标视频信息处理模型可以用于根据视频的内容描述信息,生成视频对应的关键描述信息和预测视频类型。
其中,视频的关键描述信息可以包括对视频内容的主题进行说明的关键词。例如,如图3所示,当视频的内容描述信息是“广场舞跳一跳更健康”时,其关键描述信息可以是“广场舞”和“健康”,即说明视频的内容和“广场舞”以及“健康”相关。其中,预测视频类型可以说明视频的内容所属的类型。例如,如图3所示,当视频的内容描述信息是“广场舞跳一跳更健康”时,其预测视频类型可以是广场舞。又例如,如图3所示,当视频的内容描述信息是“手机迭代速度是其被称为消耗品的主要原因”时,其预测视频类型可以是数码。
在一实施例中,目标视频信息处理模型可以包括多个模块,其中,不同的模块具有不同的功能。
例如,目标视频信息处理模型可以包括特征提取模块、融合模块、关键描述信息生成模块和类型预测模块。
其中,特征提取模块可以用于对内容描述信息进行特征提取,得到内容描述信息对应的内容描述信息特征,以及内容单元对应的内容单元特征。例如,特征提取模块可以包括DNN模型、BERT模型、LSTM模型或TextCNN模型,等等。例如,该特征提取模块可以是BERT模型和DNN模型。可以利用BERT模型对内容描述信息进行特征提取,得到内容描述信息对应的初始内容描述信息以及内容单元对应的内容单元特征。然后,可以利用DNN模型对初始内容描述信息进行特征挖掘,得到内容描述信息对应的内容描述信息特征。
其中,融合模块可以用于将内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征。
其中,关键描述信息生成模块可以用于根据每个内容单元的融合特征,在内容单元中筛选出视频对应的关键描述信息。此外,关键描述信息生成模块还可以用于根据每个内容单元样本对应的融合特征,计算每个内容单元样本对应的信息标注概率。例如,该关键信息生成模块可以是CRF模型。
其中,类型预测模块可以用于对内容描述信息特征进行类型预测,得到视频样本对应的视频类型。此外,类型预测模块还可以用于对内容描述信息特征进行类型预测,得到视频样本对应的预测视频类型概率。例如,类型预测模型可以是一个softmax函数,等等。
其中,视频的内容描述信息可以包括对视频的主题进行说明的信息。例如,视频的内容描述信息可以是视频的标题。例如,视频的内容描述信息可以是“广场舞跳一跳更健康”。又例如,视频的内容描述信息可以是“手机迭代速度是其被称为消耗品的主要原因”。
其中,视频样本和内容描述信息样本可以是对视频信息处理模型进行训练时需要用到的数据。
其中,内容描述信息样本的内容单元样本可以包括内容描述信息样本中的至少一个字符。例如,内容描述信息样本中的每个字符可以是一个内容单元样本。例如,在内容描述信息样本“广场舞跳一跳更健康”中,“广”可以是一个内容单元样本,“场”也可以是一个内容单元样本,等等。又例如,内容描述信息样本中的词语可以是一个内容单元样本。例如,在内容描述信息样本“广场舞跳一跳更健康”中,“广场舞”可以是一个内容单元样本,“健康”也可以是一个内容单元样本。
在一实施例中,可以对内容描述信息样本进行预处理。例如,可以生成预设信息标注,并根据预设信息标注对内容单元样本进行标注处理,使得每个内容单元样本都有对应的参考信息标注。
例如,预设信息标注可以包括4类,分别是O、B、E、M。其中,O可以表示无意义字,B可以表示有意义的词语的起始字,E可以表示有意义的词语的结束字,M可以表示有意义的词语的中间字。然后,可以根据预设信息标注对内容单元样本进行标注处理,使得每个内容单元样本都有对应的参考信息标注。例如,如图4所示,对于内容描述信息样本“广场舞跳一跳更健康”,内容单元样本“广”的参考信息标注可以是B,内容单元样本“场”的参考信息标注可以是M,等等。
在一实施例中,可以利用具有参考信息备注的内容描述信息样本对视频信息处理模型进行训练,得到目标视频信息处理模型。
102、利用视频信息处理模型对内容描述信息样本进行特征提取,得到内容描述信息样本对应的内容描述信息特征,以及内容单元样本对应的内容单元样本特征。
在一实施例中,利用内容描述信息样本对视频信息处理模型进行训练的训练过程可以如图5所示。首先,可以利用视频信息处理模型对内容描述信息样本进行特征提取,得到内容描述信息样本对应的内容描述信息特征,以及内容单元样本对应的内容单元样本特征。
其中,内容描述信息特征可以是一个全局特征,即从全局的角度说明内容描述信息样本在数学空间上有什么特点。而内容单元样本特征可以是一个局部特征,通过内容单元样本特征可以说明每个内容单元之间具有什么关系,内容单元在内容描述信息中的重要程度,等等。
在一实施例中,视频信息处理模型中可以包括特征提取模块,其中,该特征提取模块可以包括DNN模型、BERT模型、LSTM模型或TextCNN模型,等等。例如,特征提取模块可以包括DNN模型和BERT模型。可以首先利用BERT模型对内容描述信息样本进行特征提取,得到内容描述信息样本对应的初始内容描述信息特征,以及内容单元样本对应的内容单元样本特征。然后,可以利用DNN模型对初始内容描述信息特征进行特征挖掘,得到内容描述信息特征。
例如,如图5所示,假设视频样本的内容描述信息样本是视频样本的标题“广场舞跳一跳更健康”,内容单元样本是标题中的每个字。可以将内容描述信息样本输入到BERT编码模型中,编码得到内容描述信息样本的初始内容描述信息特征CLS_token和各个内容单元样本对应的内容单元样本特征Ti(i∈[0,n],n为标题中的字符的数量)。其中,内容单元样本特征可以是编码语义向量。然后利用DNN对内容描述信息样本的初始内容描述信息特征CLS_token进行特征挖掘,得到内容描述信息样本的内容描述信息特征X。
更具体的,将内容描述信息样本表示为title,则有:
CLS_token,Ti=BERT(title)
然后,如图5所示,可以利用DNN将CLS_token映射得到内容描述信息样本的内容描述信息特征,公式表达如下:
X=DNN(CLS_token)
其中,X可以表示内容描述信息样本的内容描述信息特征。
在一实施例中,步骤“利用视频信息处理模型对内容描述信息样本进行特征提取,得到内容描述信息样本对应的内容描述信息特征,以及内容单元样本对应的内容单元样本特征”,可以包括:
利用视频信息处理模型对内容描述信息样本的内容单元样本进行注意力信息提取,得到每个内容单元样本对应的注意力信息;
利用视频信息处理模型将每个内容单元样本对应的注意力信息映射至预设特征空间中,得到内容单元样本在预设特征空间中对应的内容单元样本特征;
利用视频信息处理模型对将每个内容单元样本对应的内容单元样本特征进行全连接处理,得到内容描述信息样本对应的初始内容描述信息特征;
利用视频信息处理模型对初始内容描述信息特征进行特征挖掘,得到内容描述信息样本对应的内容描述信息特征。
在一实施例中,为了提高特征提取的准确度,在对视频信息处理模型进行训练时,可以利用视频信息处理模型对内容描述信息样本的内容单元样本进行注意力信息提取,得到每个内容单元样本对应的注意力信息。
具体的,步骤“利用视频信息处理模型对内容描述信息样本的内容单元样本进行注意力信息提取,得到每个内容单元样本对应的注意力信息”,可以包括:
利用视频信息处理模型对内容单元样本进行向量转换,得到内容单元样本对应的内容单元样本表征向量;
利用视频信息处理模型中的注意力权重信息和内容单元样本表征向量进行算术运算,得到运算后内容单元样本表征向量;
利用视频信息处理模型中的激活函数对运算后内容单元样本表征向量进行逻辑回归处理,得到每个内容单元样本对应的注意力信息。
在一实施例中,可以利用视频信息处理模型对内容单元样本进行向量转换,得到内容单元样本对应的内容单元样本表征向量。例如,视频信息处理模型中可以包括词嵌入功能,通过词嵌入功能可以将内容单元样本转换成向量的形式。例如,视频信息处理模型中可以包括word2vec等词嵌入功能。例如,视频的内容描述信息可以是“广场舞跳一跳更健康”。视频信息处理模型通过利用word2vec可以将每个内容单元样本都转换为内容单元样本表征向量。例如,可以将“广”、“场”、“舞”等内容单元样本都转换为向量。
在一实施例中,可以利用视频信息处理模型中的注意力权重信息和内容单元表征向量进行算术运算,得到运算后内容单元样本表征向量。
例如,视频信息处理模型中可以包括多个注意力权重信息。然后,可以将内容单元表征向量分别和每个注意力权重信息进行相乘,得到相乘后的注意力信息。然后,可以根据相乘后的注意力信息计算注意力得分。例如,可以将相乘后的注意力信息进行交叉点乘运算,得到注意力得分。然后,可以将注意力得分除以一个特定的数值,从而使得梯度更加稳定。然后,可以将上述结果进行Softmax运算。Softmax运算的作用是将注意力得分标准化,使得所有的注意力得分都是正数,且相加起来的和为1。然后,可以将运算后的注意力分数再乘以内容单元表征向量对应的相乘后的注意力信息,得到目标注意力信息。然后,将每个目标注意力信息进行相加,得到运算后内容单元样本表征向量。
在一实施例中,可以利用视频信息处理模型中的激活函数对运算后内容单元样本表征向量进行逻辑回归处理,得到每个内容单元样本对应的注意力信息。
例如,可以利用Sigmoid、Tanh或ReLU等激活函数对运算后内容单元样本表征向量进行逻辑回归处理,得到每个内容单元样本对应的注意力信息。
在一实施例中,可以利用视频信息处理模型将每个内容单元样本对应的注意力信息映射至预设特征空间中,得到内容单元样本在预设特征空间中对应的内容单元样本特征。例如,可以将个内容单元样本对应的注意力信息乘以至少一个视频信息处理模型中的映射矩阵,得到内容单元样本在预设特征空间中对应的内容单元样本特征。
在一实施例中,可以利用视频信息处理模型对将每个内容单元样本对应的内容单元样本特征进行全连接处理,得到内容描述信息样本对应的初始内容描述信息特征。例如,可以将每个内容单元样本对应的内容单元样本特征进行拼接,得到拼接后内容单元样本特征。然后,可以对拼接后内容单元样本特征进行全连接处理,得到内容描述信息样本对应的初始内容描述信息特征。
在一实施例中,为了深度地挖掘内容描述信息样本的特征,从而提高目标视频信息处理模型的性能,可以利用视频信息处理模型对初始内容描述信息特征进行特征挖掘,得到内容描述信息样本对应的内容描述信息特征。
具体的,步骤“利用视频信息处理模型对初始内容描述信息特征进行特征挖掘,得到内容描述信息样本对应的内容描述信息特征”,可以包括:
利用视频信息处理模型对初始内容描述信息特征进行卷积运算,得到卷积运算后特征;
利用视频信息处理模型对卷积运算后特征进行前向传播,得到传播后特征;
利用视频信息处理模型对传播后特征进行非线性转换,得到内容描述信息特征。
例如,视频信息处理模型中可以包括多个卷积核,每个卷积核的维度都可以不同。然后,可以利用当前的卷积核对初始内容描述信息进行卷积运算,得到卷积运算后特征。然后,将卷积运算后特征输入到下一个卷积核中,从而实现对卷积运算后特征进行前向传播,得到传播后特征。然后,可以利用视频信息处理模型对传播后特征进行非线性转换,得到内容描述信息特征。例如,可以利用Sigmoid、Tanh或ReLU等函数对传播后特征进行非线性转换,得到内容描述信息特征。
103、利用视频信息处理模型将内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征。
在一实施例中,为了强化目标视频信息处理模型对内容描述信息的语义理解,在对视频信息处理模型进行训练时,可以利用视频信息处理模型将内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征。
由于同一个内容单元在不同的内容描述信息中的含义可能会不同。为此,可以将内容描述信息特征和每个内容单元样本特征进行融合,得到每个内容单元样本对应的融合特征,使得视频信息处理模型可以通过融合特征学习到同一词语在不同语句中的表现差异化。此外,通过将内容描述信息特征和每个内容单元样本特征进行融合,还可以使得全局特征和局部特征进行信息共享,达到信息互补的目的。
此外,本申请实施例提出的目标视频信息处理模型可以通过视频的内容描述信息识别出视频的关键描述信息和视频类型。即,目标视频信息处理模型中包括了两个任务,一个任务是识别出视频对应的视频类型,另外一个任务是识别出视频的关键描述信息。所以,在对视频信息处理模型时,存在两个训练目的,一个训练目的是令目标视频信息处理模型可以实现准确地识别出视频对应的视频类型,另外一个训练目的是令目标视频信息处理模型可以准确地识别出视频的关键描述信息。为了令目标视频信息处理模型可以达到该性能,可以引入融合模块,通过融合模块来强化联合任务的特征交互,从而强化两个任务的联合性。
在一实施例中,视频信息处理模型中可以包括融合模块。通过融合模块可以将内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征。例如,该融合模块可以是Transformer模型,等等。例如,可以利用Transformer模型内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征。
在一实施例中,步骤“利用视频信息处理模型将内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征”,可以包括:
利用视频信息处理模型对每个内容单元样本特征进行转置处理,得到转置后内容单元样本特征;
将视频信息处理模型中的融合权重信息和内容描述信息特征进行乘法运算,得到运算后融合特征;
利用视频信息处理模型将运算后融合特征和每个转置后内容单元特征进行乘法运算,得到每个内容单元样本对应的融合特征。
譬如,如图5所示,融合模块可以如图5中的001所示。融合模块的输入分别是内容描述信息特征X和内容单元样本特征Ti,每个内容单元对应的融合特征可以如下所示:
Fi=X*W*TiT
其中,X表示内容描述信息特征,其维度可以是1*d。Ti可以表示第i个内容单元的内容单元样本特征,其维度可以是1*q。W可以表示融合权重信息,该融合权重信息可以是矩阵,W的维度可以是d*q*m。Fi可以是第i个内容单元对应的融合特征,其维度可以是1*m。
104、利用视频信息处理模型根据每个内容单元样本对应的融合特征,计算每个内容单元样本对应的信息标注概率。
在一实施例中,为了令目标视频信息处理模型可以准确地识别出视频的关键描述信息,可以利用视频信息处理模型根据每个内容单元样本对应的融合特征,计算每个内容单元样本对应的信息标注概率。然后,可以基于每个内容单元样本对应的信息标注概率,计算视频样本的信息损失信息,并利用信息损失信息对视频信息处理模型进行训练,得到目标视频信息处理模型。
在一实施例中,本申请实施例在利用内容描述信息样本对视频信息处理模型进行训练之前,可以对内容描述信息样本进行预处理。例如,可以生成预设信息标注,并根据预设信息标注对内容单元样本进行标注处理,使得每个内容单元样本都有对应的参考信息标注。例如,预设信息标注可以包括4类,分别是O、B、E、M。其中,O可以表示无意义字,B可以表示有意义的词语的起始字,E可以表示有意义的词语的结束字,M可以表示有意义的词语的中间字。然后,可以根据预设信息标注对内容单元样本进行标注处理,使得每个内容单元样本都有对应的参考信息标注。
其中,信息标注概率可以包括视频信息处理模块根据内容单元样本的融合特征,计算得到内容单元样本和每个预设信息标注对应的概率。
例如,信息标注概率可以包括内容单元样本是O、B、E、M的概率。例如,信息标注概率可以包括内容单元是O的概率为79%,是B的概率是10%,是E的概率是2%,是M的概率是9%,等等。
在一实施例中,可以利用关键描述信息生成模块根据每个内容单元样本对应的融合特征,计算每个内容单元样本对应的信息标注概率。例如,该关键描述信息生成模块可以是CRF模型,等等。
例如,如图5所示,可以将内容单元样本特征F1、F2、…、Fn输入到CRF模块,利用CRF模块对每个内容单元样本的信息标注概率进行计算,最终得到内容单元样本对于预设信息标注的概率。
105、利用视频信息处理模型对内容描述信息特征进行类型预测,得到视频样本对应的预测视频类型概率。
在一实施例中,可以利用视频信息处理模型对内容描述信息进行类别预测,得到视频样本对应的预测视频类型概率。
在一实施例中,本申请实施例可以预先设定好视频的类型。例如,可以将视频的类型划分为44类。然后,可以根据每个视频样本的内容描述信息样本为视频样本添加参考类型,并利用携带了参考类型的视频样本对视频信息处理模型进行训练。
其中,预测视频类型概率可以指视频样本对于每个预设视频类型的预测概率。例如,预测视频类型概率可以包括视频样本是数码类型的概率为80%,是广场舞类型的概率为1%,等等。
在一实施例中,可以利用视频信息处理模块中的类型预测模块对内容描述信息特征进行类型预测,得到视频样本对应的预测视频类型概率。例如,类型预测模型可以是一个softmax函数,等等。例如,可以利用softmax函数对内容描述信息特征进行类型预测,得到视频样本对应的预测视频类型概率。
106、基于每个内容单元样本对应的信息标注概率和视频样本对应的预测视频类型概率进行损失计算,得到视频样本对应的信息损失信息和类型损失信息。
在一实施例中,可以基于每个内容单元样本对应的信息标注概率和视频样本对应的预测视频类型概率进行损失计算,得到视频样本对应的信息损失信息和类型损失信息。
其中,可以根据内容描述信息样本中每个内容单元样本的参考信息标注和针对视频样本的参考类型计算信息损失信息和类型损失信息。具体的,步骤“基于每个内容单元样本对应的信息标注概率和视频样本对应的预测视频类型概率进行损失计算,得到视频样本对应的信息损失信息和类型损失信息”,可以包括:
获取内容描述信息样本中每个内容单元样本的参考信息标注和针对视频样本的参考类型;
根据每个内容单元样本对应的参考信息标注和信息标注概率计算视频样本对应的信息损失信息;
根据参考类型和视频样本对应的预测视频类型概率计算视频样本对应的类型损失信息。
在一实施例中,可以有多种方式根据每个内容单元样本对应的参考信息标注和信息标注概率计算视频样本对应的信息损失信息。
例如,可以利用交叉熵或相对熵计算信息损失信息,等等。
在一实施例中,步骤“根据每个内容单元样本对应的参考信息标注和信息标注概率计算视频样本对应的信息损失信息”,可以包括:
根据内容单元样本对应的参考信息标注,生成内容单元样本和预设信息标注之间对应的信息损失计算参数;
确定内容单元样本和预设信息标注之间对应的信息标注概率;
将内容单元样本和预设信息标注之间的信息损失参数和信息标注概率进行对数似然运算,得到内容单元样本对应的内容单元样本损失信息;
根据内容描述信息样本中内容单元样本的数量和预设信息标注的数量将内容单元样本对应的内容单元样本损失信息进行整合,得到信息损失信息。
具体的,信息损失信息的计算过程可以如下所示:
其中,losscrf可以表示信息损失信息。n可以表示内容单元样本的数量。例如,一句话中有10个字,则n为10。其中,k可以表示预设信息标注的数量。例如,预设信息标注包括O、K、M、E,所以k为4。aij可以表示第i个内容单元样本预测为第j个预设信息标注的概率。yij可以信息计算参数,yij可以说明第i个内容单元样本是否属于第j个预设信息标注。
在一实施例中,可以根据内容单元样本对应的参考信息标注,生成内容单元样本和预设信息标注之间对应的信息损失计算参数。例如,当第i个内容单元样本属于第j个预设信息标注时,yij可以是1,否则,yij可以是0。
在一实施例中,可以将内容单元样本和预设信息标注之间的信息损失参数和信息标注概率进行对数似然运算,得到内容单元样本对应的内容单元样本损失信息。例如,可以对信息标注概率aij进行对数运算,得到logaij。然后将logaij和信息损失参数yij进行相乘,得到内容单元样本损失信息。
在一实施例中,可以根据内容描述信息样本中内容单元样本的数量和预设信息标注的数量将内容单元样本对应的内容单元样本损失信息进行整合,得到信息损失信息。例如,可以将内容单元样本损失信息进行相加,得到信息损失信息。
在一实施例中,可以有多种方式根据参考类型和视频样本对应的预测视频类型概率计算视频样本对应的类型损失信息。
例如,可以利用交叉熵或相对熵计算类型损失信息,等等。
在一实施例中,步骤“根据参考类型和视频样本对应的预测视频类型概率计算视频样本对应的类型损失信息”,可以包括:
根据视频样本对应的参考类型,生成视频样本和预设视频类型之间的类型损失计算参数;
确定视频样本和预设视频类型之间的预测视频类型概率;
将视频样本和预设视频类型之间的类型损失计算参数和预测视频类型概率进行算术运算,得到视频样本对应的类型损失信息。
具体的,类型损失信息可以如下所示:
其中,losscls可以表示类型损失信息。m可以表示视频的预设类型的数量。例如,视频的预设类型包括44类时,m可以是44。pi可以表示类型损失计算参数。类型损失计算参数pi可以说明视频样本是否属于第i类预设类型。bi可以表示视频样本被预测为第i类预设类型的概率。
在一实施例中,可以根据视频样本对应的参考类型,生成视频样本和预设视频类型之间的类型损失计算参数。例如,当视频样本的参考类型属于第i类预设类型时,pi可以为1,否则,pi可以为0。
在一实施例中,将视频样本和预设视频类型之间的类型损失计算参数和预测视频类型概率进行算术运算,得到视频样本对应的类型损失信息。例如,可以对预测视频类型概率bi进行对数运算,得到logbi。然后将logbi和信息损失参数pi进行相乘,得到类型损失信息。
107、根据信息损失信息和类型损失信息对视频信息处理模型进行训练,得到目标视频信息处理模型。
例如,可以将信息损失信息和类型损失信息进行融合,得到目标损失信息。然后,根据目标损失信息对视频信息处理模型进行训练,得到目标视频信息处理模型。
例如,目标损失信息可以表达如下:
lossall=λ1losscls+λ2losscrf
其中,λ1和λ2均为超参数。
然后,可以将目标损失信息反馈给视频信息处理模型。然后,视频信息处理模型会根据目标损失信息对融合权重信息、注意力权重信息等模型参数进行调整,从而得到目标视频信息模型。
然后,可以利用目标视频信息模型对视频的内容描述信息进行处理,得到视频的关键描述信息和视频类型。具体的,本申请实施例提出的方法还可以包括:
获取视频的内容描述信息,内容描述信息包括至少一个内容单元;
利用目标视频信息处理模型对内容描述信息进行特征提取,得到内容描述信息对应的内容描述信息特征,以及内容单元对应的内容单元特征;
利用目标视频信息处理模型将内容描述信息对应的内容描述信息特征和每个内容单元特征进行融合处理,得到每个内容单元对应的融合特征;
利用目标视频信息处理模型根据每个内容单元的融合特征,在内容单元中筛选出视频对应的关键描述信息;
利用目标视频信息处理模型对内容描述信息特征进行类型预测,得到视频对应的视频类型。
在一实施例中,步骤“利用目标视频信息处理模型根据每个内容单元的融合特征,在内容单元中筛选出视频对应的关键描述信息”,可以包括:
利用目标视频信息处理模型基于每个内容单元对应的融合特征,对每个内容单元进行标注预测,得到每个内容单元的预测标注概率分布;
根据每个内容单元对应的预测标注概率分布,确定每个内容单元对应的信息标注;
根据每个内容单元对应的信息标注,在内容单元中筛选出实体内容单元;
根据每个实体内容单元对应的信息标注,将实体内容单元进行组合,得到所述关键描述信息。
例如,目标视频信息处理模型输出每个内容单元的预测标注概率分布。然后,可以根据每个内容单元对应的预测标注概率分布,确定每个内容单元对应的信息标注。例如,可以将内容单元中概率最高的预设信息标注作为内容单元对应的信息标注。例如,内容单元是O的概率为79%,是B的概率是10%,是E的概率是2%,是M的概率是9%,则可以确定内容单元对应的信息标注是O。
然后,可以根据每个内容单元对应的信息标注,在内容单元中筛选出实体内容单元。例如,当内容单元的信息标注是B、M和E时,说明内容单元是实体内容单元。而当内容单元的信息标注是O时,说明内容单元不是实体内容单元。
然后,可以根据每个实体内容单元对应的信息标注,将实体内容单元进行组合,得到所述关键描述信息。
具体的,步骤“根据每个实体内容单元对应的信息标注,将实体内容单元进行组合,得到关键描述信息”,可以包括:
根据实体内容单元对应的信息标注,将实体内容单元划分成至少一组实体内容单元组;
确认每个实体内容组中的实体内容单元的完整性;
当实体内容组中实体内容单元的完整符合预设条件时,将实体内容单元组按照预设顺序进行排列,得到关键描述信息。
例如,可以以信息标注E为划分界限,将实体内容单元划分成至少一组实体内容单元组。然后,可以确认每个实体内容组中的实体内容单元是否完整。例如,当实体内容组中包括标识信息为B和E的实体内容单元时,说明实体内容单元是完整的。而当实体内容组中缺少标识信息为B或标注信息为E的实体内容单元时,说明实体内容单元是不完整的。
当实体内容组中实体内容单元的完整符合预设条件时,将实体内容单元组按照预设顺序进行排列,得到关键描述信息。例如,如图4所示,可以输出关键描述信息为“关键描述信息:广场舞,健康。”
在一实施例中,目标视频信息处理模型可以输出视频的预测视频类型概率。然后可以将最高概率对应的类型作为视频对应的视频类型。
本申请实施例中,可以获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,内容描述信息样本包括至少一个内容单元样本;利用视频信息处理模型对内容描述信息样本进行特征提取,得到内容描述信息样本对应的内容描述信息特征,以及内容单元样本对应的内容单元样本特征;利用视频信息处理模型将内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征;利用视频信息处理模型根据每个内容单元样本对应的融合特征,计算每个内容单元样本对应的信息标注概率;利用视频信息处理模型对内容描述信息特征进行类型预测,得到视频样本对应的预测视频类型概率;基于每个内容单元样本对应的信息标注概率和视频样本对应的预测视频类型概率进行损失计算,得到视频样本对应的信息损失信息和类型损失信息;根据信息损失信息和类型损失信息对视频信息处理模型进行训练,得到目标视频信息处理模型。本申请实施例联合了视频类型预测任务和关键描述信息识别任务还构建目标视频信息处理模型,可以使得目标视频信息可以共享内容单元特征和内容描述信息特征,从而达到任务间相辅相成的作用,提高了模型信息处理的能力,从而使得目标视频信息处理模型可以生成准确的关键描述信息和视频类型。此外,目标视频信息处理模型还包括了融合模块,通过融合模块可以强化内容单元特征和内容描述信息特征之间的特征交互,从而强化了两个任务的联合性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
本申请实施例将以视频的信息处理方法集成在服务器上为例来介绍本申请实施例方法。
在一实施例中,如图6所示,一种视频的信息处理方法,具体流程如下:
201、服务器获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,内容描述信息样本包括至少一个内容单元样本。
其中,视频信息处理模型可以用于根据视频样本的内容描述信息样本,生成视频样本对应的关键描述信息和预测视频类型。
在一实施例中,视频信息处理模型可以是一个还需要进行训练的模型。例如,视频信息处理模型可以是一个未经过训练的模型。又例如,视频信息处理模型可以是一个经过训练,但模型的指标仍未达到要求的模型。
在一实施例中,该视频信息处理模型可以包括多个模块,其中,不同的模块具有不同的功能。
例如,视频信息处理模型中可以包括特征提取模块、融合模块、关键描述信息生成模块和类型预测模块。
其中,特征提取模块可以用于对内容描述信息样本进行特征提取,得到内容描述信息样本对应的内容描述信息特征,以及内容单元对应的内容单元特征。例如,该特征提取模块可以包括DNN模型和BERT模型。
其中,融合模块可以用于将内容描述信息特征和每个内容单元特征进行融合处理,得到每个内容单元对应的融合特征。例如,该融合模块可以是一个神经网络,等等。
其中,关键描述信息生成模块可以用于根据每个内容单元的融合特征,在内容单元中筛选出视频对应的关键描述信息。此外,关键描述信息生成模块还可以用于根据每个内容单元样本对应的融合特征,计算每个内容单元样本对应的信息标注概率。例如,该关键信息生成模块可以是CRF模型。
其中,类型预测模块可以用于对内容描述信息特征进行类型预测,得到视频样本对应的视频类型。此外,类型预测模块还可以用于对内容描述信息特征进行类型预测,得到视频样本对应的预测视频类型概率。例如,类型预测模型可以是一个softmax函数,等等。
其中,视频样本可以包括训练视频信息处理模型的样本。
其中,视频样本的内容描述信息样本可以包括对视频样本的主题思想进行描述的内容。例如,该内容描述信息样本可以是视频样本的视频标题。例如,视频的内容描述信息样本可以是“广场舞跳一跳更健康”。又例如,视频的内容描述信息样本可以是“手机迭代速度是其被称为消耗品的主要原因”。
其中,内容描述信息样本的内容单元样本可以包括内容描述信息样本中的至少一个字符。例如,内容描述信息样本中的每个字符可以是一个内容单元样本。例如,在内容描述信息样本“广场舞跳一跳更健康”中,“广”可以是一个内容单元样本,“场”也可以是一个内容单元样本,等等。又例如,内容描述信息样本中的词语可以是一个内容单元样本。例如,在内容描述信息样本“广场舞跳一跳更健康”中,“广场舞”可以是一个内容单元样本,“健康”也可以是一个内容单元样本。
在一实施例中,可以对内容描述信息样本进行预处理。例如,可以生成预设信息标注,并根据预设信息标注对内容单元样本进行标注处理,使得每个内容单元样本都有对应的参考信息标注。
例如,预设信息标注可以包括4类,分别是O、B、E、M。其中,O可以表示无意义字,B可以表示有意义的词语的起始字,E可以表示有意义的词语的结束字,M可以表示有意义的词语的中间字。然后,可以根据预设信息标注对内容单元样本进行标注处理,使得每个内容单元样本都有对应的参考信息标注。例如,如图4所示,对于内容描述信息样本“广场舞跳一跳更健康”,内容单元样本“广”的参考信息标注可以是B,内容单元样本“场”的参考信息标注可以是M,等等。
202、服务器利用视频信息处理模型对内容描述信息样本进行特征提取,得到内容描述信息样本对应的内容描述信息特征,以及内容单元样本对应的内容单元样本特征。
例如,服务器可以利用视频信息处理模型中的特征提取模块对内容描述信息样本进行特征提取,得到内容描述信息样本对应的内容描述信息特征,以及内容单元对应的内容单元样本特征。
在一实施例中,特征提取模块可以由BERT和DNN组成。
其中,可以利用BERT对内容描述信息样本进行编码,得到内容描述信息样本对应的内容描述信息初始特征,以及每个内容单元包括的内容单元特征。然后,利用DNN将内容描述信息样本对应的内容描述信息初始特征映射到分类空间中,得到内容描述信息样本对应的内容描述信息特征。
例如,如图5所示,假设视频样本的内容描述信息样本是视频样本的标题“广场舞跳一跳更健康”。可以将标题输入到BERT编码模型中,编码得到标题的初始特征CLS_token和标题中各个字的特征Ti(i∈[0,n],n为标题中的字符的数量)。其中,标题中各个字的特征可以是编码语义向量。更具体的,将标题表示为title,则有:
CLS_token,Ti=BERT(title)
然后,如图5所示,可以利用DNN将CLS_token映射得到标题的特征,公式表达如下:
X=DNN(CLS_token)
其中,X可以表示标题的特征。
203、服务器利用视频信息处理模型将内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征。
例如,服务器可以利用视频信息处理模型中的融合模块将内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元对应的融合特征。
譬如,如图5所示,融合模块可以如图5中的001所示。融合模块的输入分别是内容描述信息特征X和内容单元样本特征Ti,每个内容单元对应的融合特征可以如下所示:
Fi=X*W*TiT
其中,X表示内容描述信息特征,其维度可以是1*d。Ti可以表示第i个内容单元的内容单元样本特征,其维度可以是1*q。W可以表示融合权重信息,该融合权重信息可以是矩阵,W的维度可以是d*q*m。Fi可以是第i个内容单元对应的融合特征,其维度可以是1*m。
204、服务器利用视频信息处理模型根据每个内容单元样本对应的融合特征,计算每个内容单元样本对应的信息标注概率。
例如,服务器可以利用视频信息处理模型中的筛选模块根据每个内容单元样本对应的融合特征,计算每个内容单元样本对应的信息标注概率。其中,该筛选模块可以是CRF模型。
例如,如图5所示,可以将内容单元样本特征F1、F2、…、Fn输入到CRF模块,利用CRF模块对每个内容单元样本的信息标注概率进行计算,最终得到内容单元样本对于预设信息标注的概率。
例如,信息标注概率可以包括内容单元样本是O、B、E、M的概率。例如,信息标注概率可以包括内容单元是O的概率为79%,是B的概率是10%,是E的概率是2%,是M的概率是9%,等等。
205、服务器利用视频信息处理模型对内容描述信息特征进行类型预测,得到视频样本对应的预测视频类型概率。
例如,服务器可以利用视频信息处理模型中的类型预测模块对内容描述信息特征进行类型预测,得到视频样本对应的预测视频类型概率。
例如,如图所示,该类型预测模块可以是一个softmax函数。可以利用该softmax函数对内容描述信息特征进行类型预测,得到视频样本的类型预测概率分布。然后,根据该类型预测概率分布确定视频样本对应的预测视频类型。譬如,如图5所示,根据内容描述信息样本“广场舞跳一跳更健康”,可以得到视频样本对应的预测视频类型是广场舞。
206、服务器基于每个内容单元样本对应的信息标注概率和视频样本对应的预测视频类型概率进行损失计算,得到视频样本对应的信息损失信息和类型损失信息。
例如,对于类型损失信息,可以按照下列公式计算类型损失信息:
其中,losscls可以表示类型损失信息。m可以表示视频的预设类型的数量。例如,视频的预设类型包括44类时,m可以是44。pi可以表示类型损失计算参数。类型损失计算参数pi可以说明视频样本是否属于第i类预设类型。bi可以表示视频样本被预测为第i类预设类型的概率。
例如,对于关键描述信息,可以按照下列公式计算信息损失信息:
其中,losscrf可以表示信息损失信息。n可以表示内容单元样本的数量。例如,一句话中有10个字,则n为10。其中,k可以表示预设信息标注的数量。例如,预设信息标注包括O、K、M、E,所以k为4。aij可以表示第i个内容单元样本预测为第j个预设信息标注的概率。yij可以信息计算参数,yij可以说明第i个内容单元样本是否属于第j个预设信息标注。
207、服务器根据信息损失信息和类型损失信息对视频信息处理模型进行训练,得到目标视频信息处理模型。
例如,可以将信息损失信息和类型损失信息进行融合,得到目标损失信息。然后,利用目标损失信息对视频信息处理模型进行训练,得到目标视频信息处理模型。
例如,目标损失信息可以表达如下:
lossall=λ1losscls+λ2losscrf
其中,λ1和λ2均为超参数。
本申请实施例中,服务器获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,内容描述信息样本包括至少一个内容单元;服务器利用视频信息处理模型对内容描述信息样本进行特征提取,得到内容描述信息样本对应的内容描述信息特征,以及内容单元对应的内容单元特征;服务器利用视频信息处理模型将内容描述信息特征和每个内容单元特征进行融合处理,得到每个内容单元对应的融合特征;服务器利用视频信息处理模型根据每个内容单元对应的融合特征,在内容单元中筛选出视频样本对应的关键描述信息;服务器利用视频信息处理模型对内容描述信息特征进行类型预测,得到视频样本对应的预测视频类型;服务器根据视频样本的关键描述信息和预测视频类型分别进行损失计算,得到关键描述信息对应的信息损失信息和预测视频类型对应的类型损失信息;服务器根据信息损失信息和类型损失信息对视频信息处理模型进行训练,得到目标视频信息处理模型,可以提高从视频的内容描述信息中生成视频的关键描述信息和视频类型的准确性,从而提高为用户推荐视频的准确度。
为了更好地实施本申请实施例提供的视频的信息处理方法,在一实施例中还提供了一种视频的信息处理装置,该视频的信息处理装置可以集成于计算机设备中。其中名词的含义与上述视频的信息处理方法中相同,具体实现细节可以参考方法实施例中的说明。
在一实施例中,提供了一种视频的信息处理装置,该视频的信息处理装置具体可以集成在计算机设备中,如图7所示,该视频的信息处理装置包括:获取单元301、特征提取单元302、融合单元303、计算单元304、类型预测单元305、损失计算单元306和训练单元307,具体如下:
获取单元301,用于获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,所述内容描述信息样本包括至少一个内容单元样本;
特征提取单元302,用于利用所述视频信息处理模型对所述内容描述信息样本进行特征提取,得到所述内容描述信息样本对应的内容描述信息特征,以及所述内容单元样本对应的内容单元样本特征;
融合单元303,用于利用所述视频信息处理模型将所述内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征;
计算单元304,用于利用所述视频信息处理模型根据每个内容单元样本对应的融合特征,计算所述每个内容单元样本对应的信息标注概率;
类型预测单元305,用于利用所述视频信息处理模型对所述内容描述信息特征进行类型预测,得到所述视频样本对应的预测视频类型概率;
损失计算单元306,用于基于所述每个内容单元样本对应的信息标注概率和所述视频样本对应的预测视频类型概率进行损失计算,得到所述视频样本对应的信息损失信息和类型损失信息;
训练单元307,拥有根据所述信息损失信息和所述类型损失信息对所述视频信息处理模型进行训练,得到目标视频信息处理模型。
在一实施例中,所述特征提取单元302,可以包括:
注意力信息提取子单元,用于利用所述视频信息处理模型对所述内容描述信息样本的内容单元样本进行注意力信息提取,得到每个内容单元样本对应的注意力信息;
映射子单元,用于利用所述视频信息处理模型将每个内容单元样本对应的注意力信息映射至预设特征空间中,得到所述内容单元样本在所述预设特征空间中对应的内容单元样本特征;
全连接子单元,用于利用所述视频信息处理模型对将每个内容单元样本对应的内容单元样本特征进行全连接处理,得到所述内容描述信息样本对应的初始内容描述信息特征;
特征挖掘子单元,用于利用所述视频信息处理模型对所述初始内容描述信息特征进行特征挖掘,得到所述内容描述信息样本对应的内容描述信息特征。
在一实施例中,所述注意力信息提取子单元,可以包括:
向量转换模块,用于利用所述视频信息处理模型对所述内容单元样本进行向量转换,得到所述内容单元样本对应的内容单元样本表征向量;
算术运算模块,用于利用所述视频信息处理模型中的注意力权重信息和所述内容单元样本表征向量进行算术运算,得到运算后内容单元样本表征向量;
逻辑回归模块,用于利用所述视频信息处理模型中的激活函数对所述运算后内容单元样本表征向量进行逻辑回归处理,得到所述每个内容单元样本对应的注意力信息。
在一实施例中,所述特征挖掘子单元,可以包括:
卷积运算模块,用于利用所述视频信息处理模型对所述初始内容描述信息特征进行卷积运算,得到卷积运算后特征;
前向传播模块,用于利用所述视频信息处理模型对所述卷积运算后特征进行前向传播,得到传播后特征;
利用所述视频信息处理模型对所述传播后特征进行非线性转换,得到所述内容描述信息特征。
在一实施例中,所述融合单元303,可以包括:
转置子单元,用于利用所述视频信息处理模型对所述每个内容单元样本特征进行转置处理,得到转置后内容单元样本特征;
第一乘法运算子单元,用于将所述视频信息处理模型中的融合权重信息和所述内容描述信息特征进行乘法运算,得到运算后融合特征;
第二乘法运算子单元,用于利用所述视频信息处理模型将所述运算后融合特征和每个转置后内容单元特征进行乘法运算,得到所述每个内容单元样本对应的融合特征。
在一实施例中,所述损失计算单元306,可以包括:
获取子单元,用于获取内容描述信息样本中每个内容单元样本的参考信息标注和针对视频样本的参考类型;
第一损失计算子单元,用于根据所述每个内容单元样本对应的参考信息标注和信息标注概率计算所述视频样本对应的信息损失信息;
第二损失计算子单元,用于根据所述参考类型和所述视频样本对应的预测视频类型概率计算所述视频样本对应的类型损失信息。
在一实施例中,所述第一损失计算子单元,可以包括:
第一参数生成模块,用于根据所述内容单元样本对应的参考信息标注,生成所述内容单元样本和预设信息标注之间对应的信息损失计算参数;
第一概率确定模块,用于确定内容单元样本和预设信息标注之间对应的信息标注概率;
对数似然运算模块,用于将内容单元样本和预设信息标注之间的信息损失参数和信息标注概率进行对数似然运算,得到内容单元样本对应的内容单元样本损失信息;
整合模块,用于根据所述内容描述信息样本中内容单元样本的数量和所述预设信息标注的数量将内容单元样本对应的内容单元样本损失信息进行整合,得到所述信息损失信息。
在一实施例中,所述第二损失计算子单元,可以包括:
第二参数生成模块,用于根据所述视频样本对应的参考类型,生成所述视频样本和预设视频类型之间的类型损失计算参数;
第二概率确定模块,用于确定视频样本和所述预设视频类型之间的预测视频类型概率;
算术运算模块,用于将视频样本和所述预设视频类型之间的类型损失计算参数和预测视频类型概率进行算术运算,得到视频样本对应的类型损失信息。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
通过上述的视频的信息处理装置可以提高从视频的内容描述信息中确定视频的关键描述信息和视频类型的准确性。
本申请实施例还提供一种计算机设备,该计算机设备可以包括终端或服务器,比如,计算机设备可以作为视频的信息处理终端,该终端可以为手机、平板电脑等等;又比如计算机设备可以为服务器,如视频的信息处理服务器等。如图8所示,其示出了本申请实施例所涉及的终端的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图8中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,所述内容描述信息样本包括至少一个内容单元样本;
利用所述视频信息处理模型对所述内容描述信息样本进行特征提取,得到所述内容描述信息样本对应的内容描述信息特征,以及所述内容单元样本对应的内容单元样本特征;
利用所述视频信息处理模型将所述内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征;
利用所述视频信息处理模型根据每个内容单元样本对应的融合特征,计算所述每个内容单元样本对应的信息标注概率;
利用所述视频信息处理模型对所述内容描述信息特征进行类型预测,得到所述视频样本对应的预测视频类型概率;
基于所述每个内容单元样本对应的信息标注概率和所述视频样本对应的预测视频类型概率进行损失计算,得到所述视频样本对应的信息损失信息和类型损失信息;
根据所述信息损失信息和所述类型损失信息对所述视频信息处理模型进行训练,得到目标视频信息处理模型。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种视频的信息处理方法中的步骤。例如,该计算机程序可以执行如下步骤:
获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,所述内容描述信息样本包括至少一个内容单元样本;
利用所述视频信息处理模型对所述内容描述信息样本进行特征提取,得到所述内容描述信息样本对应的内容描述信息特征,以及所述内容单元样本对应的内容单元样本特征;
利用所述视频信息处理模型将所述内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征;
利用所述视频信息处理模型根据每个内容单元样本对应的融合特征,计算所述每个内容单元样本对应的信息标注概率;
利用所述视频信息处理模型对所述内容描述信息特征进行类型预测,得到所述视频样本对应的预测视频类型概率;
基于所述每个内容单元样本对应的信息标注概率和所述视频样本对应的预测视频类型概率进行损失计算,得到所述视频样本对应的信息损失信息和类型损失信息;
根据所述信息损失信息和所述类型损失信息对所述视频信息处理模型进行训练,得到目标视频信息处理模型。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种视频的信息处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种视频的信息处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种视频的信息处理方法、装置、计算机设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (15)
1.一种视频的信息处理方法,其特征在于,包括:
获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,所述内容描述信息样本包括至少一个内容单元样本;
利用所述视频信息处理模型对所述内容描述信息样本进行特征提取,得到所述内容描述信息样本对应的内容描述信息特征,以及所述内容单元样本对应的内容单元样本特征;
利用所述视频信息处理模型将所述内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征;
利用所述视频信息处理模型根据每个内容单元样本对应的融合特征,计算所述每个内容单元样本对应的信息标注概率;
利用所述视频信息处理模型对所述内容描述信息特征进行类型预测,得到所述视频样本对应的预测视频类型概率;
基于所述每个内容单元样本对应的信息标注概率和所述视频样本对应的预测视频类型概率进行损失计算,得到所述视频样本对应的信息损失信息和类型损失信息;
根据所述信息损失信息和所述类型损失信息对所述视频信息处理模型进行训练,得到目标视频信息处理模型。
2.根据权利要求1所述的方法,其特征在于,所述利用所述视频信息处理模型对所述内容描述信息样本进行特征提取,得到所述内容描述信息样本对应的内容描述信息特征,以及所述内容单元样本对应的内容单元样本特征,包括:
利用所述视频信息处理模型对所述内容描述信息样本的内容单元样本进行注意力信息提取,得到每个内容单元样本对应的注意力信息;
利用所述视频信息处理模型将每个内容单元样本对应的注意力信息映射至预设特征空间中,得到所述内容单元样本在所述预设特征空间中对应的内容单元样本特征;
利用所述视频信息处理模型对将每个内容单元样本对应的内容单元样本特征进行全连接处理,得到所述内容描述信息样本对应的初始内容描述信息特征;
利用所述视频信息处理模型对所述初始内容描述信息特征进行特征挖掘,得到所述内容描述信息样本对应的内容描述信息特征。
3.根据权利要求2所述的方法,其特征在于,所述利用所述视频信息处理模型对所述内容描述信息样本的内容单元样本进行注意力信息提取,得到每个内容单元样本对应的注意力信息,包括:
利用所述视频信息处理模型对所述内容单元样本进行向量转换,得到所述内容单元样本对应的内容单元样本表征向量;
利用所述视频信息处理模型中的注意力权重信息和所述内容单元样本表征向量进行算术运算,得到运算后内容单元样本表征向量;
利用所述视频信息处理模型中的激活函数对所述运算后内容单元样本表征向量进行逻辑回归处理,得到所述每个内容单元样本对应的注意力信息。
4.根据权利要求2所述的方法,其特征在于,所述利用所述视频信息处理模型对所述初始内容描述信息特征进行特征挖掘,得到所述内容描述信息样本对应的内容描述信息特征,包括:
利用所述视频信息处理模型对所述初始内容描述信息特征进行卷积运算,得到卷积运算后特征;
利用所述视频信息处理模型对所述卷积运算后特征进行前向传播,得到传播后特征;
利用所述视频信息处理模型对所述传播后特征进行非线性转换,得到所述内容描述信息特征。
5.根据权利要求1所述的方法,其特征在于,所述利用所述视频信息处理模型将所述内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征,包括:
利用所述视频信息处理模型对所述每个内容单元样本特征进行转置处理,得到转置后内容单元样本特征;
将所述视频信息处理模型中的融合权重信息和所述内容描述信息特征进行乘法运算,得到运算后融合特征;
利用所述视频信息处理模型将所述运算后融合特征和每个转置后内容单元特征进行乘法运算,得到所述每个内容单元样本对应的融合特征。
6.根据权利要求1所述的方法,其特征在于,所述基于所述每个内容单元样本对应的信息标注概率和所述视频样本对应的预测视频类型概率进行损失计算,得到所述视频样本对应的信息损失信息和类型损失信息,包括:
获取内容描述信息样本中每个内容单元样本的参考信息标注和针对视频样本的参考类型;
根据所述每个内容单元样本对应的参考信息标注和信息标注概率计算所述视频样本对应的信息损失信息;
根据所述参考类型和所述视频样本对应的预测视频类型概率计算所述视频样本对应的类型损失信息。
7.根据权利要求6所述的方法,其特征在于,所述根据所述每个内容单元样本对应的参考信息标注和信息标注概率计算所述视频样本对应的信息损失信息,包括:
根据所述内容单元样本对应的参考信息标注,生成所述内容单元样本和预设信息标注之间对应的信息损失计算参数;
确定内容单元样本和预设信息标注之间对应的信息标注概率;
将内容单元样本和预设信息标注之间的信息损失参数和信息标注概率进行对数似然运算,得到内容单元样本对应的内容单元样本损失信息;
根据所述内容描述信息样本中内容单元样本的数量和所述预设信息标注的数量将内容单元样本对应的内容单元样本损失信息进行整合,得到所述信息损失信息。
8.根据权利要求6所述的方法,其特征在于,所述根据所述参考类型和所述视频样本对应的预测视频类型概率计算所述视频样本对应的类型损失信息,包括:
根据所述视频样本对应的参考类型,生成所述视频样本和预设视频类型之间的类型损失计算参数;
确定视频样本和所述预设视频类型之间的预测视频类型概率;
将视频样本和所述预设视频类型之间的类型损失计算参数和预测视频类型概率进行算术运算,得到视频样本对应的类型损失信息。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取视频的内容描述信息,所述内容描述信息包括至少一个内容单元;
利用所述目标视频信息处理模型对所述内容描述信息进行特征提取,得到所述内容描述信息对应的内容描述信息特征,以及所述内容单元对应的内容单元特征;
利用所述目标视频信息处理模型将所述内容描述信息对应的内容描述信息特征和每个内容单元特征进行融合处理,得到每个内容单元对应的融合特征;
利用所述目标视频信息处理模型根据所述每个内容单元的融合特征,在所述内容单元中筛选出所述视频对应的关键描述信息;
利用所述目标视频信息处理模型对所述内容描述信息特征进行类型预测,得到所述视频对应的视频类型。
10.根据权利要求9所述的方法,其特征在于,所述利用所述目标视频信息处理模型根据所述每个内容单元的融合特征,在所述内容单元中筛选出所述视频对应的关键描述信息,包括:
利用所述目标视频信息处理模型基于每个内容单元对应的融合特征,对每个内容单元进行标注预测,得到每个内容单元的预测标注概率分布;
根据每个内容单元对应的预测标注概率分布,确定每个内容单元对应的信息标注;
根据每个内容单元对应的信息标注,在所述内容单元中筛选出实体内容单元;
根据每个实体内容单元对应的信息标注,将所述实体内容单元进行组合,得到所述关键描述信息。
11.根据权利要求10所述的方法,其特征在于,所述根据每个实体内容单元对应的信息标注,将所述实体内容单元进行组合,得到所述关键描述信息,包括:
根据实体内容单元对应的信息标注,将实体内容单元划分成至少一组实体内容单元组;
确认每个实体内容组中的实体内容单元的完整性;
当所述实体内容组中实体内容单元的完整符合预设条件时,将实体内容单元组按照预设顺序进行排列,得到关键描述信息。
12.一种视频的信息处理装置,其特征在于,包括:
获取单元,用于获取视频信息处理模型,以及视频样本的内容描述信息样本,其中,所述内容描述信息样本包括至少一个内容单元样本;
特征提取单元,用于利用所述视频信息处理模型对所述内容描述信息样本进行特征提取,得到所述内容描述信息样本对应的内容描述信息特征,以及所述内容单元样本对应的内容单元样本特征;
融合单元,用于利用所述视频信息处理模型将所述内容描述信息特征和每个内容单元样本特征进行融合处理,得到每个内容单元样本对应的融合特征;
计算单元,用于利用所述视频信息处理模型根据每个内容单元样本对应的融合特征,计算所述每个内容单元样本对应的信息标注概率;
类型预测单元,用于利用所述视频信息处理模型对所述内容描述信息特征进行类型预测,得到所述视频样本对应的预测视频类型概率;
损失计算单元,用于基于所述每个内容单元样本对应的信息标注概率和所述视频样本对应的预测视频类型概率进行损失计算,得到所述视频样本对应的信息损失信息和类型损失信息;
训练单元,拥有根据所述信息损失信息和所述类型损失信息对所述视频信息处理模型进行训练,得到目标视频信息处理模型。
13.一种计算机设备,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至11任一项所述的视频的信息处理方法中的操作。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至11任一项所述的视频的信息处理方法中的步骤。
15.一种计算机程序产品,包括计算机程序或指令,其特征在于,该计算机程序或指令被处理器执行时实现权利要求1至11任一项所述的视频的信息处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210735510.8A CN115129930A (zh) | 2022-06-27 | 2022-06-27 | 一种视频的信息处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210735510.8A CN115129930A (zh) | 2022-06-27 | 2022-06-27 | 一种视频的信息处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115129930A true CN115129930A (zh) | 2022-09-30 |
Family
ID=83379470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210735510.8A Pending CN115129930A (zh) | 2022-06-27 | 2022-06-27 | 一种视频的信息处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115129930A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024104068A1 (zh) * | 2022-11-15 | 2024-05-23 | 腾讯科技(深圳)有限公司 | 视频检测方法、装置、设备、存储介质及产品 |
-
2022
- 2022-06-27 CN CN202210735510.8A patent/CN115129930A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024104068A1 (zh) * | 2022-11-15 | 2024-05-23 | 腾讯科技(深圳)有限公司 | 视频检测方法、装置、设备、存储介质及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796160B (zh) | 一种文本分类方法、装置和存储介质 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
CN111078836A (zh) | 基于外部知识增强的机器阅读理解方法、系统、装置 | |
CN110795944A (zh) | 推荐内容处理方法及装置、情感属性确定方法及装置 | |
CN110234018A (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN110750998B (zh) | 一种文本输出方法、装置、计算机设备和存储介质 | |
CN111563158A (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
CN112989024B (zh) | 文本内容的关系提取方法、装置、设备及存储介质 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111723295A (zh) | 一种内容分发方法、装置和存储介质 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN110852047A (zh) | 一种文本配乐方法、装置、以及计算机存储介质 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN111522926A (zh) | 文本匹配方法、装置、服务器和存储介质 | |
CN115114974A (zh) | 一种模型蒸馏方法、装置、计算机设备和存储介质 | |
CN113741759B (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN115129930A (zh) | 一种视频的信息处理方法、装置、计算机设备和存储介质 | |
CN113392220B (zh) | 一种知识图谱生成方法、装置、计算机设备及存储介质 | |
Krishna et al. | A Deep Parallel Hybrid Fusion Model for disaster tweet classification on Twitter data | |
Long et al. | Cross-domain personalized image captioning | |
Li et al. | Evaluating BERT on cloud-edge time series forecasting and sentiment analysis via prompt learning | |
CN117216255A (zh) | 分类模型训练方法以及相关设备 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |