CN111741330A

CN111741330A - 一种视频内容评估方法、装置、存储介质及计算机设备

Info

Publication number: CN111741330A
Application number: CN202010690182.5A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-02
Anticipated expiration: 2040-07-17
Also published as: CN111741330B

Abstract

本申请实施例公开了一种视频内容评估方法、装置、存储介质及计算机设备；本申请实施例与大数据领域以及人工智能的机器学习领域相关，通过获取待评估视频的文本信息和图像信息，以及获取待评估视频对应的关联对象的评估信息；对文本信息进行向量转化，得到文本向量；将图像信息输入训练后的第一神经网络模型，得到图像向量，训练后的第一神经网络模型的网络参数基于样本图像信息、及其对应的关联对象的样本评估信息和标签训练得到；将文本向量、图像向量和评估信息输入训练后的第二神经网络模型，得到待评估视频的内容评估结果，可以提高视频内容评估的效率。

Description

一种视频内容评估方法、装置、存储介质及计算机设备

技术领域

本申请涉及人工智能领域，具体涉及一种视频内容评估方法、装置、存储介质及计算机设备。

背景技术

随着互联网和通信技术的高速发展，信息传播的媒介更多地转变为视频，为了向用户提供更加优质的视频，如何对视频内容进行评估成为了关键步骤，现有技术在对视频内容进行评估时，先通过文本模型对短视频标题进行初筛，再通过人工对标题质量较高的视频进行审核，并最终得到视频的内容评估结果。

在对现有技术的研究和实践过程中，本申请的发明人发现，占用大量人力进行人工操作，会导致视频内容评估的效率较低。

发明内容

本申请实施例提供一种视频内容评估方法、装置、存储介质及计算机设备，可以提高视频内容评估的效率。

本申请实施例提供一种视频内容评估方法，包括：

获取待评估视频的文本信息和图像信息，以及获取所述待评估视频对应的关联对象的评估信息；

对所述文本信息进行向量转化，得到文本向量；

将所述图像信息输入训练后的第一神经网络模型，得到图像向量，所述训练后的第一神经网络模型的网络参数基于样本图像信息、及其对应的关联对象的样本评估信息和标签训练得到；

将所述文本向量、所述图像向量和所述评估信息输入训练后的第二神经网络模型，得到所述待评估视频的内容评估结果。

相应地，本申请实施例提供一种视频内容评估装置，包括：

获取模块，用于获取待评估视频的文本信息和图像信息，以及获取所述待评估视频对应的关联对象的评估信息；

转化模块，用于对所述文本信息进行向量转化，得到文本向量；

第一输入模块，用于将所述图像信息输入训练后的第一神经网络模型，得到图像向量，所述训练后的第一神经网络模型的网络参数基于样本图像信息、及其对应的关联对象的样本评估信息和标签训练得到；

第二输入模块，用于将所述文本向量、所述图像向量和所述评估信息输入训练后的第二神经网络模型，得到所述待评估视频的内容评估结果。

在一些实施例中，视频内容评估装置还包括：

样本获取模块，用于获取样本图像信息、及其对应的关联对象的样本评估信息和标签；

向量提取模块，用于提取所述样本图像信息对应的初始样本图像向量；

模型输入模块，用于将所述初始样本图像向量输入第一神经网络模型，得到模型输出结果；

参数调整模块，用于根据所述样本评估信息、所述模型输出结果以及所述标签对所述第一神经网络模型的网络参数进行调整，以得到训练后的第一神经网络模型。

在一些实施例中，参数调整模块可以包括计算子模块和迭代调整子模块，其中，

计算子模块，用于基于所述样本评估信息、所述模型输出结果以及所述标签进行计算，得到所述第一神经网络模型的损失值；

迭代调整子模块，用于基于所述损失值，对所述第一神经网络模型的网络参数进行迭代调整，以得到训练后的第一神经网络模型。

在一些实施例中，第一输入模块可以包括提取子模块和输入子模块，其中，

提取子模块，用于对所述图像信息进行特征提取，得到所述图像信息对应的初始图像向量；

输入子模块，用于将所述初始图像向量输入训练后的第一神经网络模型，得到所述图像信息对应的图像向量。

在一些实施例中，所述训练后的第二神经网络模型包括训练后的文本网络参数和图像网络参数，第二输入模块可以包括融合子模块和计算子模块，其中，

融合子模块，用于将所述图像向量和所述评估信息进行融合，得到目标图像向量；

计算子模块，用于基于训练后的文本网络参数和图像网络参数分别对所述文本向量和所述目标图像向量进行卷积计算，以得到所述待评估视频的内容评估结果。

在一些实施例中，计算子模块可以具体用于：

基于训练后的文本网络参数对所述文本向量进行卷积计算，得到第一特征向量，以及基于训练后的图像网络参数对所述目标图像向量进行卷积计算，得到第二特征向量；

合并所述第一特征向量和所述第二特征向量，得到内容特征向量；

将所述内容特征向量输入预设函数，得到所述待评估视频的内容评估结果。

在一些实施例中，视频内容评估装置还包括：

信息获取模块，用于获取样本视频的标签、文本样本信息、图像样本信息、以及其对应的关联对象的样本评估信息；

模型调整模块，用于基于所述样本视频的文本样本信息、图像样本信息、样本评估信息以及标签，对第二神经网络模型的网络参数进行调整，以得到训练后的第二神经网络模型。

在一些实施例中，模型调整模块可以具体用于：

对所述文本样本信息进行向量转化，得到文本样本向量；

将所述图像样本信息输入训练后的第一神经网络模型，得到图像样本向量；

将所述文本样本向量、所述图像样本向量以及所述样本评估信息输入第二神经网络，得到所述样本视频的模型输出值；

基于所述样本视频的模型输出值和标签，对所述第二神经网络模型的网络参数进行调整，以得到训练后的第二神经网络模型。

在一些实施例中，获取模块可以包括第一获取子模块和第二获取子模块，其中，

第一获取子模块，用于获取待评估视频的文本信息和图像信息；

第二获取子模块，用于获取所述待评估视频对应的关联对象的评估信息。

其中，第二获取子模块可以具体用于：

确定所述待评估视频对应的关联对象；

获取所述关联对象的关注数量和内容认同度；

基于所述关注数量和所述内容认同度，计算得到所述关联对象的评估信息。

在一些实施例中，转化模块可以包括输入子模块、筛选子模块和扩充子模块，其中，

输入子模块，用于将所述目标词序列输入预设词向量模型，得到多个词向量，其中，每一词向量对应词序列中的一个词语；

筛选子模块，用于当词序列中词语的数量大于预设阈值时，对词向量进行筛选处理，以得到所述文本信息对应的文本向量；

扩充子模块，用于当词序列中词语的数量小于预设阈值时，基于每一词语对应的词向量，对文本向量进行扩充处理，以得到所述文本信息对应的文本向量。

相应的，本申请实施例还提供了一种存储介质，存储介质存储有计算机程序，计算机程序适于处理器进行加载，以执行本申请实施例提供的任一种视频内容评估方法。

相应的，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现本申请实施例提供的任一种视频内容评估方法。

本申请实施例中，首先可以获取待评估视频的文本信息和图像信息，以及获取待评估视频对应的关联对象的评估信息，然后对文本信息进行向量转化，得到文本向量，再将图像信息输入训练后的第一神经网络模型，得到图像向量，训练后的第一神经网络模型的网络参数基于样本图像信息、及其对应的关联对象的样本评估信息和标签训练得到，最后将文本向量、图像向量和评估信息输入训练后的第二神经网络模型，得到待评估视频的内容评估结果。

本申请可以获取待评估视频的文本信息和图像信息，并分别将文本信息和图像信息转化为文本向量和图像向量，再将文本向量、图像向量以及评估信息输入训练后的第二神经网络模型进行视频内容评估，得到待评估视频的内容评估结果，不需要大量的人力对视频内容进行评判，极大提升了视频内容评估的效率，此外，本申请引入了与待评估视频对应的关联对象的评估信息，使得第二神经网络模型和第一神经网络模型，区别于仅仅基于待评估视频进行视频内容评估的方式，从而确保了视频内容评估结果的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频内容评估系统的场景示意图；

图2是本申请实施例提供的视频内容评估方法的流程示意图；

图3是本申请实施例提供的视频内容评估方法的另一流程示意图；

图4是本申请实施例提供的视频内容评估方法的第二神经网络结构图；

图5是本申请实施例提供的视频内容评估装置的结构示意图；

图6是本申请实施例提供的视频内容评估装置的另一结构示意图；

图7是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，本申请所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例的视频内容评估方法涉及人工智能的机器学习领域，比如，第一神经网络模型以及第二神经网络模型等基于深度学习的相关知识进行构建、训练和应用，具体将通过下述实施例进行详细说明。

本申请实施例提供一种视频内容评估方法、装置、存储介质及计算机设备。具体地，本申请实施例可以集成在视频内容评估系统中。

视频内容评估系统可以集成在计算机设备中，该计算机设备可以包括终端或服务器等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

如图1所示，图1为视频内容评估系统的一个场景示意图，视频内容评估系统可以集成在服务器以及终端上，服务器可以获取待评估视频的文本信息和图像信息，以及获取待评估视频对应的关联对象的评估信息，然后对文本信息进行向量转化，得到文本向量，接着将图像信息输入训练后的第一神经网络模型，得到图像向量，训练后的第一神经网络模型的网络参数基于样本图像信息、及其对应的关联对象的样本评估信息和标签训练得到，最后将文本向量、图像向量和评估信息输入训练后的第二神经网络模型，得到待评估视频的内容评估结果。终端可以将待评估视频上传至服务器，服务器在完成对待评估视频的视频内容评估后，可以将得到的内容评估结果返回至终端。

此外，视频内容评估系统也可以仅集成在终端上，终端可以获取待评估视频的文本信息和图像信息，以及获取待评估视频对应的关联对象的评估信息，然后对文本信息进行向量转化，得到文本向量，接着将图像信息输入训练后的第一神经网络模型，得到图像向量，训练后的第一神经网络模型的网络参数基于样本图像信息、及其对应的关联对象的样本评估信息和标签训练得到，最后将文本向量、图像向量和评估信息输入训练后的第二神经网络模型，得到待评估视频的内容评估结果。

需要说明的是，图1所示的视频内容评估系统的场景示意图仅仅是一个示例，本申请实施例描述的视频内容评估系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着视频内容评估装置的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。在本实施例中，将对视频内容评估方法进行详细描述，该视频内容评估方法可以集成在视频内容评估服务器上，如图2所示，图2是本申请实施例提供的视频内容评估方法的流程示意图。该视频内容评估方法可以包括：

101、获取待评估视频的文本信息和图像信息，以及获取待评估视频对应的关联对象的评估信息。

其中，待评估视频可以包括任意需要进行内容评估的视频，待评估视频的时长、题材不受限制，在本申请实施例中，可以提取待评估视频中能够传递视频内容的信息，对提取到的内容进行评估，并将评估结果为作为待评估视频的内容评估结果。

在一实施方式中，文本信息可以包括从待评估视频中提取到的文本，比如，待评估视频的标题信息、标签信息、简介信息、或字幕信息等，此外，文本信息也可以包括对待评估视频的相关评价，如，弹幕、评论等。

在一实施方式中，图像信息可以包括从待评估中提取到的图像，比如，视频封面图、视频图像帧等，如果图像信息为视频图像帧，具体地，可以根据实际需求对待评估视频进行采样，得到用于进行视频内容评估的目标视频图像帧，比如，可以通过设定采样频率对视频图像帧进行采样；又比如，可以对待评估视频的所有视频图像帧进行识别或处理等相关操作，再根据操作结果对视频图像帧进行采样，等等。此外，图像信息也可以包括对待评估视频的相关评论，如，表情包、动图等。

在一实施方式中，关联对象可以包括与待评估视频存在关联关系的对象，比如，关联对象可以为待评估视频的创作者、发行方、编剧、主要演员、所有者等。

在一实施方式中，评估信息可以包括与关联对象相关的历史多媒体内容的质量信息，多媒体内容可以包括视频、音频、文本等，基于关联对象的历史多媒体内容的质量信息，可以一定程度上代表此关联对象的质量信息(即评估信息)。

获取待评估视频的文本信息和图像信息的方式可以包括多种，如，可以向存储了文本信息或图像信息的数据库发送数据请求，并接收此数据库基于此数据请求返回的文本信息或图像信息；又比如，可以根据实际需求直接对待评估视频进行提取，以得到需要的文本信息或图像信息，等。

在获取待评估视频的关联对象的评估信息时，可以首先根据视频与关联对象的映射关系，确定待评估视频对应的关联对象，再基于关联对象与评估信息的映射关系，确定关联对象的评估信息。此外，关联对象的数量可以为一个或者多个，当关联对象的数量为多个时，可以获取每一个关联对象的初始评估信息，再将获取到的初始评估信息进行融合，得到关联对象的评估信息。

为了进行视频内容评估，需要获取可以体现待评估视频内容的关键信息，并对关键信息进行处理或评估，得到关键信息的评估结果，再将关键信息的评估结果作为待评估视频的内容评估结果，本申请实施例中，待评估视频内容的关键信息可以包括文本信息、图像信息以关联对象的评估信息等。

比如，需要对一微电影W进行视频内容评估，可以获取微电影W的文本信息1和图像信息2，并获取微电影W的出品方C的评估信息。

在一些实施例中，步骤“获取待评估视频对应的关联对象的评估信息”可以包括：

(1)确定待评估视频对应的关联对象；

(2)获取关联对象的关注数量和内容认同度；

(3)基于关注数量和内容认同度，计算得到关联对象的评估信息。

具体地，确定待评估视频对应的关联对象后，可以获取关联对象的关注数量和内容认同度，其中，关注数量可以是关注关联对象的账户数量，平台可以是单个平台，也可以是多个平台，平台可以包括网络平台或线下真实平台等，内容认同度可以包括平台中的账户对关联对象的历史多媒体内容的认同程度，历史多媒体内容可以包括文本、图像、音视频等，认同程度可以基于账号针对关联对象的相关操作确定，比如，相关操作可以是点赞、评论、赞同、屏蔽或举报等，

最后，可以基于关注数量和内容认同度进行计算，得到关联对象的评估信息，具体地计算方式可以根据实际应用场景灵活设置，如，评估信息的计算公式可以是：

f＝log(a)*(g₁/g)

其中，f为评估信息，a为关注关联对象的账户数量，g₁为关联对象的历史点赞数量，g为关联对象的历史阅读数量。

需要注意的是，评估信息的表现形式可以有多种，如分数(可以是十分制或百分制等)、或级别(可以分两个级别或多个级别等)等，实际应用时以根据需求灵活选择。

评估信息与关联对象的历史多媒体内容质量相关，为了提升视频内容评估的准确率，本申请除了基于待评估视频本身(即文本信息和图像信息)，还将评估信息作为一个关键信息，进行视频内容评估，从而有效提升了视频内容评估的评估结果的准确率。

比如，可以先确定微电影W的关联对象为出品方C，接着获取出品方C的关注数量2000和内容认同度0.7，接着通过预设的评估信息计算方式，计算得到出品方C的评估信息0.62。

102、对文本信息进行向量转化，得到文本向量。

其中，文本向量为一个在向量空间唯一表示文本信息的向量，为了实现自动进行视频内容评估，需要将文本信息进行向量转化，得到计算机设备可以识别和处理的文本向量。

在一实施方式中，进行向量转化的方式可以有多种，如可以基于训练后的神经网络模型，只需要将文本信息输入训练后的神经网络模型，即可得到文本向量，神经网络模型可以基于实际需求和应用场景进行调整和优化，更加灵活；此外，也可以基于统计方法进行向量转化，其中的关键原理可以包括共现矩阵、奇异值分解等，具体的向量转化方式可以根据实际需求灵活确定。

比如，可以通过词向量模型对文本信息1进行向量转化，得到文本向量T，该文本向量可以为256维度的向量，可根据实际需求进行设置。

在一些实施例中，步骤“对文本信息进行向量转化，得到文本向量”可以包括：

(1)对文本信息进行分词，得到初始词序列；

(2)基于预设停用词集，对初始词序列进行去停用词处理，得到目标词序列；

(3)将目标词序列输入预设词向量模型，得到文本信息对应的文本向量。

其中，初始词序列可以包括若干包含顺序信息的词语，由于文本信息的形式没有具体限制，可以为词语、句子等，为了便于后续操作，当文本信息为句子时，需要通过计算机设备对文本信息进行分词，得到若干包含顺序信息的词语，分词可以通过分词工具(如结巴分词)进行。

得到初始词序列后，为了提高后续操作效率，节省内存资源，可以去除对初始词序列中停用词，其中，停用词通常可以包括没有实际含义或实际含义范围过大的词语，在具体应用时，也可以基于实际情况确定特定的停用词，停用词集可以预先设置好，去停用词处理即将初始词序列中的词语与预设停用词集进行对比，当初始词序列中存在与预设停用词集相同的词语时，可将此词语从初始词序列中删除，当初始词序列中的所有词语都与预设停用词集对比过后，得到的即目标词序列。

最后，将目标词序列输入预设词向量模型，以得到文本信息对应的文本向量，其中，预设词向量模型可以为预先训练后的神经网络模型，此神经网络模型在训练时，可以对样本数据依次进行分词、去停用词的操作，得到目标样本数据，再将目标样本数据输入神经网络模型，以训练神经网络模型；预设词向量模型也可以是公开的词向量模型，如，词袋模型(CBOW，Continuous Bag-of-Word)、跳字模型(skip-gram)等。

比如，微电影W的文本信息1可以为“一些重要决定改变一些重要走向和若干概念”，可以对文本信息1进行分词，得到初始词序列为“一些”、“重要”、 “决定”、“改变”、“一些”、“重要”、“走向”、“和”、“若干”、“概念”，接着，通过预设停用词集对初始词序列进行去停用词处理，得到目标词序列为“重要”、 “决定”、“改变”、“重要”、“走向”、“概念”，再将目标词序列输入预设词向量模型，以得到文本向量T。

在一些实施例中，步骤“将目标词序列输入预设词向量模型，得到文本信息对应的文本向量”可以包括：

(1)将目标词序列输入预设词向量模型，得到多个词向量，其中，每一词向量对应词序列中的一个词语；

(2)当词序列中词语的数量大于预设阈值时，对词向量进行筛选处理，以得到文本信息对应的文本向量；

(3)当词序列中词语的数量小于预设阈值时，基于每一词语对应的词向量，对文本向量进行扩充处理，以得到文本信息对应的文本向量。

其中，将目标词序列输入预设词向量模型后，可以得到目标词序列中每一个词语对应的词向量，接着，为了保持文本向量数据规模的一致性，需要将词向量的数量与预设阈值进行对比，当词向量的数量大于预设阈值时，需要对词向量进行筛选，并将保留下来的词向量整合为文本向量，其中，筛选的标准可以有多种，如词向量对应的词语在目标词序列中的位置信息、词向量的特性等，可以基于实际需求灵活设置。

当词向量的数量小于预设阈值时，除了将每一词向量作为文本向量的一部分以外，还需要对文本向量进行扩充处理，扩充的内容可以包括多种，可以通过已有的词向量进行扩充，也可以通过预设词向量进行扩充，等等。

比如，筛选和扩充可以根据已有的词向量进行，当词向量的数量大于预设阈值时，可以基于目标词序列中前预设阈值个词语对应的词向量得到文本向量；当词向量的数量小于预设阈值时，可以将从已有的词向量中选定目标词向量，并基于所有已有词向量和目标词向量得到文本向量，比如，目标词向量可以是目标词序列中最后一个词语对应的词向量。

此过程也可以直接基于目标词序列进行，当目标词序列中词语数量大于预设阈值时，对目标词序列进行筛选，当目标词序列中词语数量小于预设阈值时，对目标词序列进行扩充，并将处理后的目标词序列输入预设词向量模型，可以直接将得到的若干词序列作为文本向量。

比如，可以将目标词序列“重要”、“决定”、“改变”、“重要”、“走向”、 “概念”输入预设词向量模型，得到每一个词语对应的词向量t1、t2、t3、t4、 t5、以及t6。接着可以基于词序列的数量6大于预设阈值5的比较结果，可以确定词向量t1、t2、t3、t4和t5构成文本向量。

103、将图像信息输入训练后的第一神经网络模型，得到图像向量，训练后的第一神经网络模型的网络参数基于样本图像信息、及其对应的关联对象的样本评估信息和标签训练得到。

其中，第一神经网络模型为本申请为了提高待评估视频的内容评估结果的准确性而构建和训练的神经网络模型，第一神经网络模型可以包括对图像信息进行若干操作，提取图像信息的特征，得到图像信息对应的图像向量。

该样本图像信息及其对应的关联对象的样本评估信息和标签可以为训练第一神经网络模型的样本数据，由于训练过程中引入样本评估信息，使得本申请可以基于待评估视频对应的关联对象的相关历史质量信息(如历史多媒体内容的质量信息)对待评估视频进行视频内容评估，从而有效提升视频内容评估结果的准确率。

比如，可以将图像信息2输入训练后的第一神经网络模型D1，得到图像向量I，该第一神经网络模型D1可以包含若干网络参数，网络参数可以基于样本数据(样本图像信息及其对应的关联对象的样本评估信息和标签)确定。

在一些实施例中，视频内容评估方法还可以包括步骤：

(1)获取样本图像信息、及其对应的关联对象的样本评估信息和标签；

(2)提取样本图像信息对应的初始样本图像向量；

(3)将初始样本图像向量输入第一神经网络模型，得到模型输出结果；

(4)根据样本评估信息、模型输出结果以及标签对第一神经网络模型的网络参数进行调整，以得到训练后的第一神经网络模型。

其中，在对第一神经网络进行训练时，需要大量样本数据，样本数据可以包括样本图像信息及其对应的关联对象的样本评估信息和标签，其中，样本图像信息与图像信息特性类似，样本评估信息与评估信息特性类似，不同的是，样本图像信息和样本评估信息是第一神经网络模型训练过程中需要的数据，而图像信息和评估信息是应用训练后的第一神经网络模型时需要的数据，标签是基于样本图像信息的特征确定的，其中，特征可以包括可以体现样本图像信息质量的内容，如图像清晰度、图像信息是否低俗、是否恶趣味、是否为广告等。标签反映样本图像信息的质量。

提取样本图像信息对应的初始样本图像向量的方式可以有多种，可以将样本图像信息转化为计算机设备可识别和处理的向量，如可以基于样本图像信息中像素点的颜色确定初始样本图像向量；也可以通过模型对样本图像信息进行一定程度的特征提取，得到可以表征样本图像信息的特征的初始样本图像向量，其中，模型可以包括神经网络模型，如公开的预训练模型(Pre-trained Model)，具体地，可以如AlexNet(一种预训练模型)、VGG(一种预训练模型，全称为 Visual Geometry Group Network)等，也可以结合实际需求自行构建和训练神经网络模型，等。

得到初始样本图像向量后，可以将其输入第一神经网络模型，第一神经网络模型可以包括若干层，如卷积层、池化层、全连接层等，每一层可以包括至少一个网络参数，初始样本图像向量依次与第一神经网络模型的每一层的网络参数进行运算，最终得到模型输出结果，接着可以根据样本评估信息、模型输出结果以及标签对第一神经网络模型的网络参数进行调整，以得到训练后的第一神经网络模型。

在一些实施例中，步骤“根据样本评估信息、模型输出结果以及标签对第一神经网络模型的网络参数进行调整，以得到训练后的第一神经网络模型”可以包括：

(1)基于样本评估信息、模型输出结果以及标签进行计算，得到第一神经网络模型的损失值；

(2)基于损失值，对第一神经网络模型的网络参数进行迭代调整，以得到训练后的第一神经网络模型。

其中，第一神经网络模型在训练前，包含若干层和初始网络参数，训练第一神经网络的过程即不断调整初始网络参数的过程，模型输出结果为第一神经网络模型对样本图像信息的质量的判定，标签为样本图像信息的正确质量水平，则可以基于模型输出结果和标签，量化第一神经网络模型在解决判断样本图像信息质量的问题上的表现(即神经网络模型的损失值)，而本申请除此之外，还引入了评估信息，即参考了待评估视频对应的关联对象的历史质量信息，从而提高视频内容评估的准确率。比如，第一神经网络模型的损失函数L_cover可以为：

其中，N为样本图像信息的数量，f_cnn为第一神经网络模型，x_i为第i个样本图像信息，y_i为第i个样本图像信息的softmax(一种损失函数)函数值， f_{mp_auth}(x_i)为第i个样本图像信息的评估信息。

通过损失函数计算得到第一神经网络完成一次训练的损失值后，可以根据损失值更新第一神经网络模型中的网络参数，其中，参数更新的方法可以如随机梯度下降法、动量更新法(Momentum)等，更新参数后再次通过样本数据得到模型输出结果，再次计算损失，再次更新网络参数，直至得到符合期望的第一神经网络模型。

在一些实施例中，步骤“将图像信息输入训练后的第一神经网络模型，得到图像向量”可以包括：

对图像信息进行特征提取，得到图像信息对应的初始图像向量；将初始图像向量输入训练后的第一神经网络模型，得到图像信息对应的图像向量。

由于在步骤103中需要的是图像向量，故在应用第一神经网络模型时，可以将全连接层的前一层(如卷积层或池化层)输出的向量作为图像向量。

比如，可以通过预训练模型VGG对图像信息2进行特征提取，得到图像信息2对应的初始图像向量i，接着将初始图像向量i输入训练后的第一神经网络模型D1，得到图像信息2对应的图像向量I。

104、将文本向量、图像向量和评估信息输入训练后的第二神经网络模型，得到待评估视频的内容评估结果。

其中，第二神经网络模型可以进行视频内容评估，得到待评估视频的内容评估结果。第二神经网络模型可以通过训练得到，第二神经网络模型可以结合待评估视频的文本信息、图像信息以及待评估视频对应的关联对象的评估信息，具体地，结合的时机可以有多个，如，结合可以在输入第二神经网络模型之前进行，如将文本向量、图像向量和评估信息合为一个待评估向量，将此待评估向量输入第二神经网络模型，得到内容评估结果。

结合还可以分段进行，如，第二神经网络可以包括两个子网络，在输入第二神经网络之前，可以将评估信息与图像向量合为一个目标向量(同理，也可将评估信息与文本信息合为一个目标向量)，再将目标向量输入其中一个子模型，将文本向量输入另一个子模型，并将每一子模型的输出向量结合在一起，通过分类器进行分类，最终得到内容评估结果。

实际设计第二神经网络模型时，可以进行灵活调整，以更好的匹配实际情况，使得第二神经网络模型在进行视频内容评估时，可以有较佳的准确率。

本申请在应用第二神经网络模型进行视频内容评估时，除了基于待评估视频的内容本身(即待评估视频的文本信息和图像信息分别对应的文本向量和图像向量)，还结合待评估视频对应的关联对象的评估信息进行，有效提升了视频内容评估的准确性。

比如，将文本向量T、图像向量I和评估信息0.62输入训练后的第二神经网络模型，得到微电影W的内容评估结果N。

在一些实施例中，训练后的第二神经网络模型包括训练后的文本网络参数和图像网络参数，步骤“将文本向量、图像向量和评估信息输入训练后的第二神经网络模型，得到待评估视频的内容评估结果”可以包括：

(1)将图像向量和评估信息进行融合，得到目标图像向量；

(2)基于训练后的文本网络参数和图像网络参数分别对文本向量和目标图像向量进行卷积计算，以得到待评估视频的内容评估结果。

将图像向量和评估信息进行融合，得到目标图像向量，通常评估信息较图像向量而言较为简单，因此，可以将评估信息融入图像向量中，得到目标图像向量，比如，可以为某二维图像向量增加一列(或行)，并将评估信息记录在增加的列(或行)中，接着，可以通过文本网络参数对文本向量进行特征提取，通过图像网络参数对目标图像向量进行特征提取，特征提取的过程可以包括卷积计算等过程，以得到待评估视频的内容评估结果。

比如，可以将图像向量I和评估信息0.62进行融合，得到目标图像向量II，基于训练后的文本网络参数W1和图像网络参数W2分别对文本向量T和目标图像向量II进行卷积计算，以得到待评估视频的内容评估结果。

在一些实施例中，步骤“基于训练后的文本网络参数和图像网络参数分别对文本向量和目标图像向量进行卷积计算，以得到待评估视频的内容评估结果” 可以包括：

(1)基于训练后的文本网络参数对文本向量进行卷积计算，得到第一特征向量，以及基于训练后的图像网络参数对目标图像向量进行卷积计算，得到第二特征向量；

(2)合并第一特征向量和第二特征向量，得到内容特征向量；

(3)将内容特征向量输入预设函数，得到待评估视频的内容评估结果。

为了得到更加准确的内容评估结果，第二神经网络模型可以包括第一子模型和第二子模型，第一子模型可以包含若干文本网络参数，第二子模型可以包括若干图像网络参数，其中，为了更准确地通过文本向量对待评估视频的进行评估，第一子模型和第二子模型可以为卷积神经网络(CNN，Conventional Neural Network),其中，第一子模型可以具体为循环神经网络(RNN，Recurrent Neural Network)，如双向长短期记忆网络(BLSTM，Bidirectional Long Short Term Memory network)等。

具体地，为了得到待评估视频的内容评估结果，需要将文本信息和图像信息进行结合，将文本向量输入第一子模型可以得到第一特征向量，将目标图像向量输入第二子模型可以得到第二特征向量，第一特征向量可以量化表达待评估视频的文本信息的质量，第二特征向量可以图像信息和评估信息对待评估视频的质量进行量化表达，将二者合并起来，即得到用于量化表达待评估视频内容质量的内容特征向量。

最后基于内容特征向量进行预测，得到待评估视频的内容评估结果，比如，可以通过softmax函数(一种分类器)得到待评估视频内容评估结果。

比如，可以基于训练后的文本网络参数W1对文本向量T进行卷积计算，得到第一特征向量H1，以及基于训练后的图像网络参数W2对目标图像向量II进行卷积计算，得到第二特征向量H2，接着可以合并第一特征向量H1和第二特征向量H2，得到内容特征向量H，最后可以将内容特征向量H输入预设函数 softmax，得到待评估视频的内容评估结果。

在一些实施例中，视频内容评估方法还可以包括：

(1)获取样本视频的标签、文本样本信息、图像样本信息、以及其对应的关联对象的样本评估信息；

(2)基于样本视频的文本样本信息、图像样本信息、样本评估信息以及标签，对第二神经网络模型的网络参数进行调整，以得到训练后的第二神经网络模型。

在应用训练后的第二神经网络之前，需要通过样本数据对第二神经网络进行训练，样本数据可以为样本视频，样本视频可以包括样本数据的标签、文本样本信息、图像样本信息、以及其对应的关联对象的样本评估信息。

训练主要是对第二神经网络中的网络参数进行调整，网络参数在进行训练之前，需要进行初始化，初始化的方式可以有多种，如小随机数初始化、稀疏初始化(Sparseinitialization)等，初始化完成后，可以将本样本信息、图像样本信息以及样本评估信息输入第二神经网络模型，并基于输出结果和标签进行网络参数调整，直至得到满足预设要求的第二神经网络模型，预设要求可以根据实际需求灵活设置，如模型训练次数达到预设要求、或测试数据的评估准确率达到预设要求等。

在一些实施例中，步骤“基于样本视频的文本样本信息、图像样本信息、样本评估信息以及标签，对第二神经网络模型的网络参数进行调整，以得到训练后的第二神经网络模型”可以包括：

(1)对文本样本信息进行向量转化，得到文本样本向量；

(2)将图像样本信息输入训练后的第一神经网络模型，得到图像样本向量；

(3)将文本样本向量、图像样本向量以及样本评估信息输入第二神经网络，得到样本视频的模型输出值；

(4)基于样本视频的模型输出值和标签，对第二神经网络模型的网络参数进行调整，以得到训练后的第二神经网络模型。

在基于样本数据对第二神经网络模型进行训练之前，需要先对样本数据进行处理，具体地，为了保证视频内容评估的准确率，需要对文本样本信息以及图像样本信息进行向量转化，需要注意的是，此时进行向量转化使用的模型需要与对实际的待评估视频进行向量转化使用的模型相一致，即预设词向量模型和训练后的第一神经网络模型。

得到文本样本向量和图像样本向量后，类似的，需要将样本评估信息与图像样本向量进行融合，得到目标图像样本向量，并将目标图像样本向量和文本样本向量输入第二神经网络模型，得到模型输出结果，再基于预设损失函数计算模型输出结果与真实值(即标签)之间的差异，即损失值，再通过损失值对第二神经网络模型的网络参数进行调整，以得到训练后的第二神经网络模型。

本申请实施例中，首先可以获取待评估视频的文本信息和图像信息，以及获取待评估视频对应的关联对象的评估信息，然后对文本信息进行向量转化，得到文本向量，再将图像信息输入训练后的第一神经网络模型，得到图像向量，训练后的第一神经网络模型的网络参数基于样本图像信息、及其对应的关联对象的样本评估信息和标签训练得到，最后将文本向量、图像向量和评估信息输入训练后的第二神经网络模型，得到待评估视频的内容评估结果。比如，第二神经网络模型的损失函数L_tvq可以是：

其中，N为样本图像信息的数量，y_i为第i个样本图像信息的标签，f_tvq为 softmax(一种损失函数)函数值，V_textV_img为第二神经网络模型的输出结果。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

本实施例将以集成在服务器上的视频内容评估方法为例进行详细介绍，本实施例中，待评估视频可以为短视频，关联对象可以为发布该短视频的自媒体账号，文本信息可以包括短视频的标题和关键词、图像信息可以包括短视频的封面图和短视频内容截图、评估信息可以自媒体账号的权威度。如图3所示，图3是本申请实施例提供的视频内容评估方法的流程示意图。该视频内容评估方法可以包括：

201、服务器获取待评估视频的文本信息和图像信息，以及获取待评估视频对应的关联对象的评估信息。

关联对象即为自媒体账号，评估信息即为权威度，自媒体账号的权威度可以通过该自媒体账号的相关数据计算得到，如该自媒体账号的粉丝数、该自媒体账号发布的历史多媒体内容(如文章、音视频、图片等)的历史查看数、以及历史点赞数。

比如，服务器接收自媒体账号1上传的短视频1，并获取短视频1的文本信息：“这大概就是好运和实力的区别”和图像信息：该短视频的封面图，此外获取自媒体账号1的粉丝数、历史查看数和历史点赞数，通过预设计算公式计算得到自媒体账号1的权威度为S级(权威度从高到低可以依次为S、A、B、C 级)。

202、服务器通过预设词向量模型对文本信息进行向量转化，得到文本向量。

比如，服务器通过结巴分词将文本信息：“这大概就是好运和实力的区别” 进行分词，得到词序列“这”、“大概”、“就是”、“好运”、“和”、“实力”、“的”、 “区别”，再基于预设停用词集，对该词序列进行去停用词处理，得到目标词序列“大概”、“就是”、“好运”、“和”、“实力”、“区别”，最后将目标词序列输入预设词向量模型进行向量转化，得到目标词序列中的每一词语对应的词向量，再获取文本向量的预测词向量数量12，已知已有的词序列数量为6，则将这6个词序列作为文本向量的一部分，并词语“区别”对应的词向量补6次，得到一个包含12个词语的文本向量T。

203、服务器将图像信息输入预训练模型进行特征提取，得到初始图像向量。

比如，服务器可以将图像信息输入预训练模型VGG中进行特征提取，得到初始图像向量a1。

204、服务器基于样本图像信息、及其对应的关联对象的样本评估信息和标签，对第一神经网络模型进行训练，得到训练后的第一神经网络模型。

比如，标签可以是对样本图像信息的质量划分(从高到低可以依次为1档、 2档、3档)，样本评估信息也可以是从高到低依次为S、A级、B级、C级。

第一神经网络模型的作用是提取图像信息的进一步提取图像信息的特征，第一神经网络模型在计算损失值时引入自媒体账号的权威度(即关联对象的评估信息)，可以有效提高提取准确率进而提高视频内容评估的准确率。

205、服务器将初始图像向量输入训练后的第一神经网络模型，得到图像向量。

比如，训练后的第一神经网络模型可以为微调模型，将初始图像向量a1 输入该微调模型，得到图像向量A。

206、服务器融合图像向量和评估信息，得到目标图像向量。

207、服务器对基于样本视频的文本样本信息、图像样本信息、样本评估信息以及标签，对第二神经网络模型进行训练，得到训练后的第二神经网络模型。

208、服务器将文本向量和目标图像向量输入训练后的第二神经网络模型，得到待评估视频的内容评估结果。

比如，参见图4，训练后的神经网络模型可以包括子网络U和子网络V，将文本向量Text X输入子模型U后，可以得到输出H_x，将图像向量和评估信息融合得到的Image Y输入子模型V后，可以得到输出H_y，最后基于H_x和H_y得到待评估视频的内容评估结果。

为了进一步提高视频内容评估的准确率，可以将评估信息与图像向量进行融合，得到目标图像向量，再与文本向量一起输入训练后的第二神经网络，得到待评估视频的内容评估结果。

比如，可以将图像向量A与权威度进行融合，融合可以是将为图像向量A 增加一个维度，并将权威度输入作为此新增维度的数值，由于权威度可以表征该自媒体账号发布的历史多媒体内容的质量，使得本申请实施例在对短视频1 进行视频内容评估时，除了参考短视频1自身的特性(文本信息和图像信息) 以外，还考虑了短视频1所属的自媒体账号发布内容的质量，从而得到更加准确的视频内容评估结果。此外，本申请可以使得视频内容评估结果可以融合自媒体账号的权威度进行评估，使得优秀的自媒体账号具有一定的优势，使得评估更贴合实际的运营场景。

此外，得到评估结果后，可以基于此评估结果做相关操作，比如，服务器对该短视频1完成视频内容评估后，可以根据得到的内容评估结果对短视频1 进行相关操作，内容评估结果显示短视频1的视频质量较佳，则可以对该短视频1进行如首页推荐、精选等操作。

需要说明的是，本实施例中的步骤204和步骤207在整个流程中的实施顺序并不受限定，只需保证在执行步骤207时，步骤204已经执行完成，即训练第二神经网络模型时，第一神经网络模型已经训练完成。

为便于更好的实本申请实施例提供的视频内容评估方法，本申请实施例还提供一种基于上述视频内容评估方法的装置。其中名词的含义与上述视频内容评估方法中相同，具体实现细节可以参考方法实施例中的说明。

如图5所示，图5本申请一实施例提供的视频内容评估装置的结构示意图，其中该视频内容评估装置可以包括获取模块301、转化模块302、第一输入模块 303和第二输入模块304，其中，

获取模块301，用于获取待评估视频的文本信息和图像信息，以及获取待评估视频对应的关联对象的评估信息；

转化模块302，用于对文本信息进行向量转化，得到文本向量；

第一输入模块303，用于将图像信息输入训练后的第一神经网络模型，得到图像向量，训练后的第一神经网络模型的网络参数基于样本图像信息、及其对应的关联对象的样本评估信息和标签训练得到；

第二输入模块304，用于将文本向量、图像向量和评估信息输入训练后的第二神经网络模型，得到待评估视频的内容评估结果。

在一些实施例中，视频内容评估装置还包括：

向量提取模块，用于提取样本图像信息对应的初始样本图像向量；

模型输入模块，用于将初始样本图像向量输入第一神经网络模型，得到模型输出结果；

参数调整模块，用于根据样本评估信息、模型输出结果以及标签对第一神经网络模型的网络参数进行调整，以得到训练后的第一神经网络模型。

计算子模块，用于基于样本评估信息、模型输出结果以及标签进行计算，得到第一神经网络模型的损失值；

迭代调整子模块，用于基于损失值，对第一神经网络模型的网络参数进行迭代调整，以得到训练后的第一神经网络模型。

提取子模块，用于对图像信息进行特征提取，得到图像信息对应的初始图像向量；

输入子模块，用于将初始图像向量输入训练后的第一神经网络模型，得到图像信息对应的图像向量。

在一些实施例中，训练后的第二神经网络模型包括训练后的文本网络参数和图像网络参数，如图6，第二输入模块304可以包括融合子模块3041和计算子模块3042，其中，

融合子模块3041，用于将图像向量和评估信息进行融合，得到目标图像向量；

计算子模块3042，用于基于训练后的文本网络参数和图像网络参数分别对文本向量和目标图像向量进行卷积计算，以得到待评估视频的内容评估结果。

在一些实施例中，计算子模块可以具体用于：

基于训练后的文本网络参数对文本向量进行卷积计算，得到第一特征向量，以及基于训练后的图像网络参数对目标图像向量进行卷积计算，得到第二特征向量；

合并第一特征向量和第二特征向量，得到内容特征向量；

将内容特征向量输入预设函数，得到待评估视频的内容评估结果。

在一些实施例中，视频内容评估装置还包括：

模型调整模块，用于基于样本视频的文本样本信息、图像样本信息、样本评估信息以及标签，对第二神经网络模型的网络参数进行调整，以得到训练后的第二神经网络模型。

在一些实施例中，模型调整模块可以具体用于：

对文本样本信息进行向量转化，得到文本样本向量；

将图像样本信息输入训练后的第一神经网络模型，得到图像样本向量；

将文本样本向量、图像样本向量以及样本评估信息输入第二神经网络，得到样本视频的模型输出值；

基于样本视频的模型输出值和标签，对第二神经网络模型的网络参数进行调整，以得到训练后的第二神经网络模型。

第二获取子模块，用于获取待评估视频对应的关联对象的评估信息。

其中，第二获取子模块可以具体用于：

确定待评估视频对应的关联对象；

获取关联对象的关注数量和内容认同度；

基于关注数量和内容认同度，计算得到关联对象的评估信息。

输入子模块，用于将目标词序列输入预设词向量模型，得到多个词向量，其中，每一词向量对应词序列中的一个词语；

筛选子模块，用于当词序列中词语的数量大于预设阈值时，对词向量进行筛选处理，以得到文本信息对应的文本向量；

扩充子模块，用于当词序列中词语的数量小于预设阈值时，基于每一词语对应的词向量，对文本向量进行扩充处理，以得到文本信息对应的文本向量。

本申请实施例中，获取模块301首先获取待评估视频的文本信息和图像信息，以及获取待评估视频对应的关联对象的评估信息，然后转化模块302对文本信息进行向量转化，得到文本向量，第一输入模块303再将图像信息输入训练后的第一神经网络模型，得到图像向量，训练后的第一神经网络模型的网络参数基于样本图像信息、及其对应的关联对象的样本评估信息和标签训练得到，最后，第二输入模块304将文本向量、图像向量和评估信息输入训练后的第二神经网络模型，得到待评估视频的内容评估结果.

此外，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图7所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图7中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器 402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402 可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402 还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401 来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待评估视频的文本信息和图像信息，以及获取待评估视频对应的关联对象的评估信息；对文本信息进行向量转化，得到文本向量；将图像信息输入训练后的第一神经网络模型，得到图像向量，训练后的第一神经网络模型的网络参数基于样本图像信息、及其对应的关联对象的样本评估信息和标签训练得到；将文本向量、图像向量和评估信息输入训练后的第二神经网络模型，得到待评估视频的内容评估结果。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种视频内容评估方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种视频内容评估方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频内容评估方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频内容评估方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频内容评估方法，其特征在于，包括：

对所述文本信息进行向量转化，得到文本向量；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取样本图像信息、及其对应的关联对象的样本评估信息和标签；

提取所述样本图像信息对应的初始样本图像向量；

将所述初始样本图像向量输入第一神经网络模型，得到模型输出结果；

根据所述样本评估信息、所述模型输出结果以及所述标签对所述第一神经网络模型的网络参数进行调整，以得到训练后的第一神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本评估信息、所述模型输出结果以及所述标签对所述第一神经网络模型的网络参数进行调整，以得到训练后的第一神经网络模型，包括：

基于所述样本评估信息、所述模型输出结果以及所述标签进行计算，得到所述第一神经网络模型的损失值；

基于所述损失值，对所述第一神经网络模型的网络参数进行迭代调整，以得到训练后的第一神经网络模型。

4.根据权利要求3所述的方法，其特征在于，所述将所述图像信息输入训练后的第一神经网络模型，得到图像向量，包括：

对所述图像信息进行特征提取，得到所述图像信息对应的初始图像向量；

将所述初始图像向量输入训练后的第一神经网络模型，得到所述图像信息对应的图像向量。

5.根据权利要求1所述的方法，其特征在于，所述训练后的第二神经网络模型包括训练后的文本网络参数和图像网络参数，所述将所述文本向量、所述图像向量和所述评估信息输入训练后的第二神经网络模型，得到所述待评估视频的内容评估结果，包括：

将所述图像向量和所述评估信息进行融合，得到目标图像向量；

基于训练后的文本网络参数和图像网络参数分别对所述文本向量和所述目标图像向量进行卷积计算，以得到所述待评估视频的内容评估结果。

6.根据权利要求5所述的方法，其特征在于，所述基于训练后的文本网络参数和图像网络参数分别对所述文本向量和所述目标图像向量进行卷积计算，以得到所述待评估视频的内容评估结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取样本视频的标签、文本样本信息、图像样本信息、以及其对应的关联对象的样本评估信息；

基于所述样本视频的文本样本信息、图像样本信息、样本评估信息以及标签，对第二神经网络模型的网络参数进行调整，以得到训练后的第二神经网络模型。

8.根据权利要求7所述的方法，其特征在于，所述基于所述样本视频的文本样本信息、图像样本信息、样本评估信息以及标签，对第二神经网络模型的网络参数进行调整，以得到训练后的第二神经网络模型，包括：

对所述文本样本信息进行向量转化，得到文本样本向量；

9.根据权利要求1所述的方法，其特征在于，所述获取所述待评估视频对应的关联对象的评估信息，包括：

确定所述待评估视频对应的关联对象；

获取所述关联对象的关注数量和内容认同度；

10.根据权利要求1所述的方法，其特征在于，所述对所述文本信息进行向量转化，得到文本向量，包括：

对所述文本信息进行分词，得到初始词序列；

基于预设停用词集，对所述初始词序列进行去停用词处理，得到目标词序列；

将所述目标词序列输入预设词向量模型，得到所述文本信息对应的文本向量。

11.根据权利要求10所述的方法，其特征在于，所述将所述目标词序列输入预设词向量模型，得到所述文本信息对应的文本向量，包括：

将所述目标词序列输入预设词向量模型，得到多个词向量，其中，每一词向量对应词序列中的一个词语；

当词序列中词语的数量大于预设阈值时，对词向量进行筛选处理，以得到所述文本信息对应的文本向量；

当词序列中词语的数量小于预设阈值时，基于每一词语对应的词向量，对文本向量进行扩充处理，以得到所述文本信息对应的文本向量。

12.一种视频内容评估装置，其特征在于，包括：

13.一种存储介质，其特征在于，所述存储介质存储有多条计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1至11任一项方法中的步骤。

14.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至11任一项所述方法的步骤。