CN110532431A

CN110532431A - 短视频关键词提取方法、装置及存储介质

Info

Publication number: CN110532431A
Application number: CN201910664967.2A
Authority: CN
Inventors: 许剑勇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-12-03
Anticipated expiration: 2039-07-23
Also published as: WO2021012493A1; CN110532431B

Abstract

本发明涉及一种人工智能技术，揭露了一种短视频关键词提取方法，包括：获取短视频集，通过定时截图得到所述短视频集不同帧图像，对所述不同帧图像进行预处理操作，得到目标图像集和标签集，利用差分法和光流法对所述目标图像集分别进行目标检测和姿态跟踪，得到差分图像集和光流图集；利用所述差分图像集、光流图集和标签集对预先构建的短视频关键词提取模型进行训练，得到训练好的短视频关键词提取模型；接收短视频，利用所述训练好的短视频关键词提取模型得到所述短视频的关联词，对所述关联词进行关键词提取，得到所述短视频的关键词。本发明还提出一种短视频关键词提取装置以及一种计算机可读存储介质。本发明实现了短视频关键词的精准提取。

Description

短视频关键词提取方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种从短视频中提取关联词的方法、装置及计算机可读存储介质。

背景技术

随着数字媒体技术、电子技术、通信技术及互联网络的飞速发展，数据资源如雨后春笋般随之急剧膨胀。在这些海量的数据资源中，短视频数据是一类语义丰富、结构复杂、发展迅猛、数据量庞大的多媒体数据，也是一类长度较短的视频数据。在基于互联网的视频检索系统中，人们习惯于通过人机界面以文本为关联词实现视频检索，从分布在互联网的各站点，搜索所需的视频数据。依据现有的视频检索系统，人们很难从浩如烟海的视频数据中有效地搜索到自己需要的视频数据。究其原因，当前市场并未有基于短视频的关联词提取技术。

发明内容

本发明提供一种短视频关键词提取方法、装置及计算机可读存储介质，其主要目的在于当用户在短视频中进行关键词提取时，给用户呈现出精准的提取结果。

为实现上述目的，本发明提供的一种短视频关键词提取方法，包括：

获取短视频集，通过定时截图得到所述短视频集的不同帧图像，对所述不同帧图像进行预处理操作，得到目标图像集和标签集，存入数据库中；

利用差分法对所述目标图像集进行目标检测，得到差分图像集，根据光流法对所述目标图像集进行姿态跟踪，得到光流图集；

将所述差分图像集和所述光流图集作为训练集输入至预先构建的短视频关键词提取模型中，利用所述训练集对所述短视频关键词提取模型进行训练，通过所述短视频关键词提取模型的激活函数输出所述差分图像集中的图片内容集和光流图集中的时序信息集，得到所述差分图像集和光流图集的关联词集，并将所述关联词集和所述标签集输入至所述短视频关键词提取模型的损失函数中，计算出损失函数值，直至所述损失函数值小于阈值时，所述短视频关键词提取模型退出训练；

接收输入的短视频，利用所述短视频关键词提取模型得到所述短视频的关联词，并对所述关联词进行关键词提取，得到所述短视频的关键词。

可选地，所述对所述不同帧图像进行预处理操作，得到目标图像集，包括：

利用图像灰度化将所述不同帧图像转化为灰度图像，根据OTSU算法对所述灰度图像进行阈值化操作，得到二值化图像；

通过中值滤波消除所述二值化图像中孤立的噪声点，利用尺度归一化消除短视频中的分辨率对所述二值化图像的影响，从而得到目标图像集。

可选地，所述利用所述训练集对所述短视频关键词提取模型进行训练，通过所述短视频关键词提取模型的激活函数输出所述差分图像集中的图片内容集和光流图集中的时序信息集，得到所述差分图像集和光流图集的关联词集，包括：

利用双流法构建两个分支的卷积神经网络模型，其中一个分支模型为空间卷积神经网络模型，另一个分支模型为时间卷积神经网络模型；

将所述差分图像集输入至所述空间卷积神经网络模型中，及将所述光流图集输入至所述时间卷积神经网络模型中；

利用所述空间卷积神经网络模型及时间卷积神经网络模型分别对所述差分图像集及光流图集提取出特征向量、进行池化操作后通过激活函数对所述特征向量进行归一化处理和计算后，输出所述差分图像集中的图片内容集和光流图集中时序信息集，得到所述差分图像集和光流图集的关联词集。

可选地，所述激活函数为Softmax函数，所述损失函数为最小二乘函数：

其中，所述softmax函数为：

其中，O_j表示所述卷积神经网络输出层第j个神经元的图片内容和时序信息输出值，I_j表示所述卷积神经网络输出层第j个神经元的输入值，t表示所述输出层神经元的总量，e为无限不循环小数；

所述最小二乘法为：

其中，s为输出的图片内容及时序信息与差分图像及光流图的误差值，k为所述图像集的数量，y_i为所述差分图像及光流图，y′_i为所述输出的图片内容及时序信息。

可选地，所述关键词提取，包括：

计算所述关联词集中的任意两个词语W_i和W_j的依存关联度：

其中，len(W_i，W_j)表示词语W_i和W_j之间的依存路径长度，b是超参数；

计算词语W_i和W_j的引力：

其中，tfidf(W)是词语W的TF-IDF值，TF表示词频，IDF表示逆文档频率指数，d是词语W_i和W_j的词向量之间的欧式距离；

得到词语W_i和W_j之间的关联度为：

weight(W_i，W_j)＝Dep(W_i，W_j)*f_grav(W_i，W_j)

建立无向图G＝(V，E)，其中V是顶点的集合，E是边的集合；

计算出词语W_i的重要度得分：

其中，是与顶点W_i有关的集合，η为阻尼系数；

根据所述重要度得分，对所有词语进行排序，根据所述排序从所述词语中选择预设数量的关键词，并对所述提取的关键词进行符号语法的拼接，得到短视频的关键词。

此外，为实现上述目的，本发明还提供一种短视频关键词提取装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的短视频关键词提取程序，所述短视频关键词提取程序被所述处理器执行时实现如下步骤：

可选地，利用所述训练集对所述短视频关键词提取模型进行训练，通过所述短视频关键词提取模型的激活函数输出所述差分图像集中的图片内容集和光流图集中的时序信息集，得到所述差分图像集和光流图集的关联词集，包括：

可选地，所述关键词提取，包括：

计算所述关联词集中的任意两个词语W_i和W_j的依存关联度：

计算词语W_i和W_j的引力：

得到词语W_i和W_j之间的关联度为：

weight(W_i，W_j)＝Dep(W_i，W_j)*f_grav(W_i，W_j)

建立无向图G＝(V，E)，其中V是顶点的集合，E是边的集合；

计算出词语W_i的重要度得分：

其中，是与顶点W_i有关的集合，η为阻尼系数；

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有短视频关键词提取程序，所述短视频关键词提取程序可被一个或者多个处理器执行，以实现如上所述的短视频关键词提取方法的步骤。

本发明提出的短视频关键词提取方法、装置及计算机可读存储介质，获短视频集，对所述短视频集进行预处理操作，得到训练集和标签集，对预先构建的短视频关键词提取模型进行训练，得到完整的模型，根据所述训练好的模型接收用户输入的短视频进行关键词提取，给所述用户呈现出精准的短视频关键词提取结果。

附图说明

图1为本发明一实施例提供的短视频关键词提取方法的流程示意图；

图2为本发明一实施例提供的短视频关键词提取装置的内部结构示意图；

图3为本发明一实施例提供的短视频关键词提取装置中短视频关键词提取程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种短视频关键词提取方法。参照图1所示，为本发明一实施例提供的短视频关键词提取方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，短视频关键词提取方法包括：

S1、获取短视频集，通过定时截图得到所述短视频集的不同帧图像，对所述不同帧图像进行预处理操作，得到目标图像集和标签集，存入数据库中。

本发明较佳实施例中，所述短视频集通过搜索网络视频库得到。所述定时截图是根据设置的截图的间隔时间，对所述短视频定时进行截屏操作，得到所述短视频的不同帧图像。

本发明较佳实施例中，所述预处理操作包含：对图像进行灰度化、阈值化、中值滤波以及尺度归一化操作。所述预处理操作具体实施步骤如下所示：

_a、图像灰度化处理：

所述图像灰度化处理是将彩色图像转换为灰度图像。灰度图像的亮度信息完全能够表达图像的整体和局部的特征，并且对图像进行灰度化处理之后可以大大降低后续工作的计算量。

本发明较佳实施例中，所述图像灰度化处理的方法是将图像像素点的R、G、B分量转换为YUV的颜色空间的Y分量，即亮度值，所述Y分量的计算方法如下式所示：

Y＝0.3R+0.59G+0.11B

其中R、G、B分别是RGB色彩模式中图像像素点的R、G、B值。

b、图像阈值化处理：

所述图像阈值化处理通过OTSU算法对所述灰度图像进行二值化的高效算法，以得到二值化图像。本发明较佳实施例预设灰度t为灰度图像的前景与背景的分割阈值，并假设前景点数占图像比例为w₀，平均灰度为u₀；背景点数占图像比例为w₁，平均灰度为u₁，则灰度图像的总平均灰度为：

u＝w₀*u₀+w₁*u₁，

灰度图像的前景和背景图象的方差为：

g＝w₀*(u₀-u)*(u₀-u)+w₁*(u₁-u)*(u₁-u)＝w₀*w₁*(u₀-u₁)*(u₀-u₁)，

其中，当方差g最大时，则此时前景和背景差异最大，此时的灰度t为最佳阈值，并将所述灰度图像中大于所述灰度t的灰度值设置为255，小于所述灰度t的灰度值设置为0，得到所述灰度图像的二值化图像。

c、中值滤波处理：

所述中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术。本发明较佳实施例通过对所述二值化图像中的数字图像或数字序列中一点的值用该点的一个邻域中各点值的中值代替，用于接近周围的像素值，从而消除孤立的噪声点。

d、图像尺度归一化处理：

本发明较佳实施例通过对所述消噪的二值化图像点进行尺度归一化处理，以消除短视频的分辨率对图像的影响。其中，在进行尺度归一化时，本发明较佳实施例需要保留姿态序列在时间和空间维度的相对位置关系，因此，需要保证同一视频中姿态的平移和缩放尺度是一致的，并且坐标分量缩放比例也是一致的。

预设所述消噪的二值化图像中任意一点的原始坐标为(x₀，y₀)，归一化后坐标为(x，y)，即：

其中，d＝max{w，h}，w和h分别为视频的宽和高，归一化后，x，y∈(-1，1)。

S2、利用差分法对所述目标图像集进行目标检测，得到差分图像集，根据光流法对所述目标图像集进行姿态跟踪，得到光流图集。

本发明较佳实施例通过相邻帧间差分法对所述目标图像集进行目标检测，得到差分图像集。所述相邻帧间差分法通过将视频序列中相邻两帧图像进行差分，当背景变化不大且没有运动目标出现时，得到的像素差值会很小，如果像素差值比较大，则认为是进入运动目标引起的。具体的描述公式如下：

其中，I_k(x，y)和I_k-1(x，y)分别为视频的当前帧图像和上一帧图像，D_k(x，y)为差分后的二值化图像，T为设定的差分分割阈值。当得到的差分图像中像素值小于等于预设的差分分割阈值时，认为所述差分图像是背景，将其值设为0；当得到的差分图像中像素大于预设的差分分割阈值时，设定所述差分图像是前景像素，将其值设为1，从而获取前景运动目标，得到差分图像集，实现目标检测。

进一步地，本发明较佳实施例根据光流法对所述目标图像集进行姿态跟踪，得到光流图集。所述光流法评估了2幅相邻帧图像的之间的变形，计算出所述2幅相邻帧图像在时间T到T+t之间每个像素点位置的移动。具体计算公式如下所示：

根据图像约束方程计算出所述目标图像集的空间和时间坐标偏导数：

其中，I(x，y)表示两帧图像x和y，I表示坐标的偏导数，t表示两帧图像的时间差。

利用灰度守恒假设，对所述图像约束方程进行变换得到：

所述灰度守恒假设是指图像序列中的相邻两幅图像在进行相应点的最佳匹配时，其灰度模式保持不变。

进一步地，本发明较佳实施例通过Horn-Schunck光流算法计算出所述图像约束方程的孔径问题：

其中，E表示所述图像约束方程的孔径，和分别表示u邻域和v邻域中的均值。所述Horn-Schunck光流算法指的是将光流求解归结成求解极值，并利用迭代法进行求解，迭代方程如下所示：

其中，λ为平滑控制因子。所述λ的值受图像中存在的噪声的影响，当存在噪声较强，说明图像数据本身的置信度较低，需要更多的依赖光流约束，表明此时λ为较大的值。本发明较佳实施例中通过预设λ为较小的值，对所述目标图像集进行姿态跟踪，得到光流图集。

S3、将所述差分图像集和所述光流图集作为训练集输入至预先构建的短视频关键词提取模型中，利用所述训练集所述短视频关键词提取模型进行训练，通过所述短视频关键词提取模型的激活函数输出所述差分图像集中的图片内容集和光流图集中的时序信息集，得到所述差分图像集和光流图集的关联词集，并将所述关联词集和所述标签集输入至所述短视频关键词提取模型的损失函数中，计算出损失函数值，直至所述损失函数值小于阈值时，所述短视频关键词提取模型退出训练。

本发明较佳实施例中，所述短视频关键词提取模型包括利用双流法构建的两个分支的卷积神经网络模型，其中所述两个分支的卷积神经网络模型中的其中一个分支模型为空间卷积神经网络模型，另一个分支模型为时间卷积神经网络模型。所述双流法字面意思指的是两条小溪流各自流动最后汇聚到了一起，本发明实施例中其中一条小溪流的名称为差分图像的信息，另一条小溪流的名称是光流图的信息。

所述卷积神经网络是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，其基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。

本发明较佳实施例中，所述卷积神经网络模型包含输入层、卷积层、池化层以及输出层。本发明较佳实施例将所述差分图像输入至所述空间卷积神经网络模型的输入层中，将所述光流图输入至所述时间卷积神经网络模型的输入层中，并在各自的卷积层中通过预设一组过滤器对所述差分图像和光流图分别进行卷积操作，提取出特征向量，并利用池化层对所述特征向量进行池化操作并输入至全连接层，通过激活函数对所述特征向量进行归一化处理和计算，并将计算结果输入至输出层，所述输出层输出所述差分图像集中的图片内容集和光流图集中时序信息集，得到所述差分图像集和光流图集的关联词集。所述归一化处理是将一个含任意实数的K维向量“压缩”到另一个K维实向量，使得每一个元素的范围都在(0，1)之间，并且所有元素的和为1。

本发明实施例中所述激活函数为softmax函数，计算公式如下所示：

其中，O_j表示所述卷积神经网络输出层第j个神经元的图片内容和时序信息输出值，I_j表示所述卷积神经网络输出层第j个神经元的输入值，t表示所述输出层神经元的总量，e为无限不循环小数

本发明较佳实施例中所述损失函数为最小二乘法：

S4、接收输入的短视频，利用所述短视频关键词提取模型得到所述短视频的关联词，并对所述关联词进行关键词提取，得到所述短视频的关键词。

本发明较佳实施例通过关键词提取算法对所述关联词集进行关键词抽取。所述关键词提取算法是利用统计信息、词向量信息以及词语间的依存句法信息，通过构建依存关系图来计算词语之间的关联强度，利用TextRank算法迭代算出词语的重要度得分，并根据句子的依存句法分析结果对所有非停用词构造无向图，利用词语之间的引力值以及依存关联度计算求得边的权重。

详细地，所述TextRank算法包括：

计算所述关联词集中的任意两个词语W_i和W_j的依存关联度：

计算词语W_i和W_j的引力：

得到词语W_i和W_j之间的关联度为：

weight(W_i，W_j)＝Dep(W_i，W_j)*f_grav(W_i，W_j)

建立无向图G＝(V，E)，其中V是顶点的集合，E是边的集合；

计算出词语W_i的重要度得分：

其中，是与顶点W_i有关的集合，η为阻尼系数；

根据所述重要度得分，对所有词语进行排序，根据所述排序从所述词语中选择预设数量的关键词，并对所述提取的关键词进行符号语法的拼接，得到短视频关联词。

发明还提供一种短视频关键词提取装置。参照图2所示，为本发明一实施例提供的短视频关键词提取装置的内部结构示意图。

在本实施例中，所述短视频关键词提取装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该短视频关键词提取装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是短视频关键词提取装置1的内部存储单元，例如该短视频关键词提取装置1的硬盘。存储器11在另一些实施例中也可以是短视频关键词提取装置1的外部存储设备，例如短视频关键词提取装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括短视频关键词提取装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于短视频关键词提取装置1的应用软件及各类数据，例如短视频关键词提取程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行短视频关键词提取程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在短视频关键词提取装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及短视频关键词提取程序01的短视频关键词提取装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对短视频关键词提取装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有短视频关键词提取程序01；处理器12执行存储器11中存储的短视频关键词提取程序01时实现如下步骤：

步骤一、获取短视频集，通过定时截图得到所述短视频集的不同帧图像，对所述不同帧图像进行预处理操作，得到目标图像集和标签集，存入数据库中。

本发明较佳实施例中，所述短视频通过搜索网络视频库得到。所述定时截图是根据设置的截图的间隔时间，对所述短视频定时进行截屏操作，得到所述短视频的不同帧图像。

a、图像灰度化处理：

Y＝0.3R+0.59G+0.11B

其中R、G、B分别是RGB色彩模式中图像像素点的R、G、B值。

b、图像阈值化处理：

u＝w₀*u₀+w₁*u₁，

灰度图像的前景和背景图象的方差为：

c、中值滤波处理：

d、图像尺度归一化处理：

步骤二、利用差分法对所述目标图像集进行目标检测，得到差分图像集，根据光流法对所述目标图像集进行姿态跟踪，得到光流图集。

利用灰度守恒假设，对所述图像约束方程进行变换得到：

其中，λ为平滑控制因子。所述入的值受图像中存在的噪声的影响，当存在噪声较强，说明图像数据本身的置信度较低，需要更多的依赖光流约束，表明此时λ为较大的值。本发明较佳实施例中通过预设λ为较小的值，对所述目标图像集进行姿态跟踪，得到光流图集。

步骤三、将所述差分图像集和所述光流图集作为训练集输入至预先构建的短视频关键词提取模型中，利用所述训练集所述短视频关键词提取模型进行训练，通过所述短视频关键词提取模型的激活函数输出所述差分图像集中的图片内容集和光流图集中的时序信息集，得到所述差分图像集和光流图集的关联词集，并将所述关联词集和所述标签集输入至所述短视频关键词提取模型的损失函数中，计算出损失函数值，直至所述损失函数值小于阈值时，所述短视频关键词提取模型退出训练。

本发明较佳实施例中所述损失函数为最小二乘法：

步骤四、接收输入的短视频，利用所述短视频关键词提取模型得到所述短视频的关联词，并对所述关联词进行关键词提取，得到所述短视频的关键词。

详细地，所述TextRank算法包括：

计算所述关联词集中的任意两个词语W_i和W_j的依存关联度：

计算词语W_i和W_j的引力：

得到词语W_i和W_j之间的关联度为：

weight(W_i，W_j)＝Dep(W_i，W_j)*f_grav(W_i，W_j)

建立无向图G＝(V，E)，其中V是顶点的集合，E是边的集合；

计算出词语W_i的重要度得分：

其中，是与顶点W_i有关的集合，η为阻尼系数；

可选地，在其他实施例中，短视频关键词提取程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述短视频关键词提取程序在短视频关键词提取装置中的执行过程。

例如，参照图3所示，为本发明短视频关键词提取装置一实施例中的短视频关键词提取程序的程序模块示意图，该实施例中，所述短视频关键词提取程序可以被分割为短视频获取模块10、图像预处理模块20、模型训练模块30以及关键词提取模块40，示例性地：

所述短视频获取模块10用于：通过搜索网络视频库获取短视频集，并对所述短视频集执行定时截图操作。

所述图像预处理模块20用于：利用差分法对所述目标图像集进行目标检测，得到差分图像集，根据光流法对所述目标图像集进行姿态跟踪，得到光流图集。

所述模型训练模块30用于：将所述差分图像集和所述光流图集作为训练集输入至预先构建的短视频关键词提取模型中，利用所述训练集对所述短视频关键词提取模型进行训练，通过所述短视频关键词提取模型的激活函数输出所述差分图像集中的图片内容集和光流图集中的时序信息集，得到所述差分图像集和光流图集的关联词集，并将所述关联词集和所述标签集输入至所述短视频关键词提取模型的损失函数中，计算出损失函数值，直至所述损失函数值小于阈值时，所述短视频关键词提取模型退出训练。

所述关键词提取模块40用于：接收输入的短视频，利用所述短视频关键词提取模型得到所述短视频的关联词，并对所述关联词进行关键词提取，得到所述短视频的关键词。

上述短视频获取模块10、图像预处理模块20、模型训练模块30以及关键词提取模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有短视频关键词提取程序，所述短视频关键词提取程序可被一个或多个处理器执行，以实现如下操作：

本发明计算机可读存储介质具体实施方式与上述短视频关键词提取装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种短视频关键词提取方法，其特征在于，所述方法包括：

2.如权利要求1所述的短视频关键词提取方法，其特征在于，所述对所述不同帧图像进行预处理操作，得到目标图像集，包括：

3.如权利要求1所述的短视频关键词提取方法，其特征在于，所述利用所述训练集对所述短视频关键词提取模型进行训练，通过所述短视频关键词提取模型的激活函数输出所述差分图像集中的图片内容集和光流图集中的时序信息集，得到所述差分图像集和光流图集的关联词集，包括：

4.如权利要求1至3中任意一项所述的短视频关键词提取方法，其特征在于，所述激活函数为Softmax函数，所述损失函数为最小二乘函数：

其中，所述softmax函数为：

所述最小二乘法为：

5.如权利要求1所述的短视频关键词提取方法，其特征在于，所述关键词提取包括：

计算所述关联词集中的任意两个词语W_i和W_j的依存关联度：

计算词语W_i和W_j的引力：

得到词语W_i和W_j之间的关联度为：

weight(W_i，W_j)＝Dep(W_i，W_j)*f_grav(W_i，W_j)

建立无向图G＝(V，E)，其中V是顶点的集合，E是边的集合；

计算出词语W_i的重要度得分：

其中，是与顶点W_i有关的集合，η为阻尼系数；

6.一种短视频关键词提取装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的短视频关键词提取程序，所述短视频关键词提取程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的短视频关键词提取装置，其特征在于，所述对所述不同帧图像进行预处理操作，得到目标图像集，包括：

8.如权利要求6所述的短视频关键词提取装置，其特征在于，利用所述训练集对所述短视频关键词提取模型进行训练，通过所述短视频关键词提取模型的激活函数输出所述差分图像集中的图片内容集和光流图集中的时序信息集，得到所述差分图像集和光流图集的关联词集，包括：

9.如权利要求6所述的短视频关键词提取装置，其特征在于，所述关键词提取，包括：

计算所述关联词集中的任意两个词语W_i和W_j的依存关联度：

计算词语W_i和W_j的引力：

得到词语W_i和W_j之间的关联度为：

weight(W_i，W_j)＝Dep(W_i，W_j)*f_grav(W_i，W_j)

建立无向图G＝(V，E)，其中V是顶点的集合，E是边的集合；

计算出词语W_i的重要度得分：

其中，是与顶点W_i有关的集合，η为阻尼系数；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有短视频关键词提取程序，所述短视频关键词提取程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的短视频关键词提取方法的步骤。