CN106779073A

CN106779073A - 基于深度神经网络的媒体信息分类方法及装置

Info

Publication number: CN106779073A
Application number: CN201611224895.2A
Authority: CN
Inventors: 张仙伟; 左玲; 梁锦锦; 王宏; 侯珂
Original assignee: Xian Shiyou University
Current assignee: Xian Shiyou University
Priority date: 2016-12-27
Filing date: 2016-12-27
Publication date: 2017-05-31
Anticipated expiration: 2036-12-27
Also published as: CN106779073B

Abstract

本发明公开了一种基于深度神经网络的媒体信息分类方法及装置，属于神经网络领域。所述基于深度神经网络的媒体信息分类方法包括：获取待分类的媒体信息，所述媒体信息为视频；从所述视频中选取帧图像，组成目标图像集；将所述目标图像集输入媒体信息分类深度神经网络模型；根据所述媒体信息分类深度神经网络模型的输出结果，确定所述媒体信息的关系类型，包括：该模型对目标图像集中的帧图像进行分类，统计数量最多的分类结果作为视频的分类结果。本发明通过深度神经网络技术，对视频媒体信息进行自动分类，有效提高视频媒体的有效专向投放推送。

Description

基于深度神经网络的媒体信息分类方法及装置

技术领域

本发明涉及神经网络领域，特别涉及一种基于深度神经网络的媒体信息分类方法及装置。

背景技术

随着互联网科技的迅猛发展，网络媒体信息如雨后春笋，以网络分类广告的发展最为鼎盛，其充分利用计算机网络的优势，对大规模的生活实用信息，按主题进行科学分类，并提供快速检索。近来，网络分类广告已成为一种新的网络广告形式，为广大网民提供实用、丰富、真实的消费和商务信息资源，网络分类表现形式多样化，现有量和新增速率都十分惊人。

广告的投放理念越来越向着按需投放的方向发展，向匹配人群用户投放广告，不仅能提高广告的投放实效，也可以避免非匹配用户人群对不感兴趣的广告产生厌恶情绪。

随着无线网络的普及，视频广告逐渐取代网页广告，成为广告媒体信息的主流，较网页广告而言，视频广告更为直接形象，因此，网络视频广告资源铺天盖地，目前广告的分类技术主要是针对文本网页广告进行分类，而缺乏对视频广告的分类，对于如此巨量的视频广告，仅凭借人力对视频进行分类费时费力，造成视频广告的有效投放率过低。

发明内容

为了解决现有技术的问题，本发明提供了一种基于深度神经网络的媒体信息分类方法及装置，根据媒体信息分类深度神经网络模型即可识别媒体信息类型。所述技术方案如下：

一方面，本发明提供了一种基于深度神经网络的媒体信息分类方法，所述方法包括：

获取待分类的媒体信息，所述媒体信息为视频；

从所述视频中选取帧图像，组成目标图像集；

将所述目标图像集输入媒体信息分类深度神经网络模型；

根据所述媒体信息分类深度神经网络模型的输出结果，确定所述媒体信息的关系类型，包括：该模型对目标图像集中的帧图像进行分类，统计数量最多的分类结果作为视频的分类结果。

可选地，所述从所述视频中选取帧图像包括选取视频的所有帧图像或者从所有帧图像中选取目标帧图像。

优选地，所述选取目标帧图像包括：对所有帧图像计算权重值，选取符合预设的权重标准的帧图像作为目标帧图像，所述权重标准包括权重标准值和权重标准排名。

可选地，所述选取目标帧图像包括：对所有帧图像进行聚类，得到多个帧聚类，选取离所述帧聚类中心最近的帧图像作为目标帧图像。

进一步地，所述媒体信息分类方法还包括预先训练媒体信息分类深度神经网络，包括：

获取图像集样本数据，所述图像集样本数据标记有分类类型；

采用随机梯度下降法最小化损失函数；

通过图像集样本数据及完成最小化的损失函数，对所述媒体信息分类深度神经网络进行训练，得到模型。

具体地，所述采用随机梯度下降法最小化损失函数包括：

根据神经网络的所有权重和损失函数，采用反向传播法得到损失函数的梯度；

根据所述梯度，采用随机梯度下降法，更新神经网络的权重；

将更新的权重进行预设次数的迭代，以最小化损失函数。

另一方面，本发明提供了一种基于深度神经网络的媒体信息分类装置，所述装置包括：

信息获取模块，用于获取待分类的媒体信息，所述媒体信息为视频；

图像集模块，用于从所述视频中选取帧图像，组成目标图像集；

输入模块，用于将所述目标图像集输入媒体信息分类深度神经网络模型；

分类模块，用于根据所述媒体信息分类深度神经网络模型的输出结果，确定所述媒体信息的关系类型，包括：该模型对目标图像集中的帧图像进行分类，统计数量最多的分类结果作为视频的分类结果。

可选地，所述图像集模块从所述视频中选取视频的所有帧图像或者从所有帧图像中选取目标帧图像；

所述图像集模块从所有帧图像中选取目标帧图像有以下两种形式：

第一、所述图像集模块包括权重子模块，所述权重子模块用于对所有帧图像计算权重值，选取符合预设的权重标准的帧图像作为目标帧图像，所述权重标准包括权重标准值和权重标准排名；

第二、所述图像集模块包括聚类模块，所述聚类模块用于对所有帧图像进行聚类，得到多个帧聚类，选取离所述帧聚类中心最近的帧图像作为目标帧图像。

进一步地，所述媒体信息分类装置还包括网络预训练模块，所述网络预训练模块包括：

样本子模块，用于获取图像集样本数据，所述图像集样本数据标记有分类类型；

最小化损失子模块，采用随机梯度下降法最小化损失函数；

模型生成子模块，用于通过图像集样本数据及完成最小化的损失函数，对所述媒体信息分类深度神经网络进行训练，得到模型。

优选地，所述最小化损失子模块包括：

梯度单元，用于根据神经网络的所有权重和损失函数，采用反向传播法得到损失函数的梯度；

权重更新单元，用于根据所述梯度，采用随机梯度下降法，更新神经网络的权重；

迭代单元，用于将更新的权重进行预设次数的迭代，以最小化损失函数。

除此，本发明还提供了一种媒体信息推送方法，包括：

获取待分类的媒体信息，所述媒体信息为视频；

从所述视频中选取帧图像，组成目标图像集；

将所述目标图像集输入媒体信息分类深度神经网络模型；

根据所述媒体信息分类深度神经网络模型的输出结果，确定所述媒体信息的关系类型，包括：该模型对目标图像集中的帧图像进行分类，统计数量最多的分类结果作为视频的分类结果；

根据视频的分类结果，将所述视频媒体信息推送给匹配用户。

本发明提供的技术方案带来的有益效果如下：

1)获取样本方式简便，样本源丰富，训练得到的模型可以于不同的应用场合重复使用；

2)训练方式简单，利用随机梯度下降法对模型的损失函数进行最小化处理，有效提高模型的分类精准性；

3)对广告视频进行自动分类，提高广告投放的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于深度神经网络的媒体信息分类方法的流程图；

图2是本发明实施例提供的广告视频分类方法的流程图；

图3是本发明实施例提供的媒体信息分类深度神经网络的训练方法流程图；

图4是本发明实施例提供的获取待训练的图像集样本数据的第一方法流程图；

图5是本发明实施例提供的获取待训练的图像集样本数据的第二方法流程图；

图6是本发明实施例提供的模型损失函数最小化方法流程图；

图7是本发明实施例提供的基于深度神经网络的媒体信息分类装置的模块框图；

图8是本发明实施例提供的利用基于深度神经网络的媒体信息分类方法进行消息推送的方法流程图；

图9是本发明实施例提供的CNN网络模型中神经元的结构示意图；

图10是本发明实施例提供的RNN网络模型中LSTM记忆单元的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明的一个实施例中，提供了一种基于深度神经网络的媒体信息分类方法，参见图1，方法流程包括：

S101、获取待分类的媒体信息。

具体地，所述媒体信息为视频信息，连续的图像变化每秒超过24帧(frame)画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面；看上去是平滑连续的视觉效果，这样连续的画面叫做视频，视频的最小单位为帧。

S102、获取目标图像集。

具体地，目标图像集中的图像为视频中的图像，有以下两种方式：方式一、将视频中的所有帧图像都纳入所述目标图像集；方式二、从视频中提取部分帧图像纳入所述目标图像集。

S103、将目标图像集输入神经网络模型。

具体地，所述神经网络模型为媒体信息分类深度神经网络模型，本实施例中，所述媒体信息分类深度神经网络模型为多分类神经网络模型，输出的分类结果的数量为多种，所述神经网络模型对每一帧图像的所属分类输出一个类型结果。

S104、模型对帧图像进行分类。

对输入模型的目标图像集中的每一帧图像，模型会对其判定所属分类。

S105、模型输出分类结果。

具体地，按照训练结果，所述媒体信息分类深度神经网络模型输出最终分类结果，所述分类结果根据每帧图像所属分类的统计结果得到。

S106、确定视频的分类类型。

具体地，在训练媒体信息分类深度神经网络模型时，首先设定模型输出结果与媒体信息的分类类型的对应规则，按照规则，根据模型输出的分类结果，对应得到视频的分类类型。

通过本发明实施例的技术方案，利用媒体信息分类深度神经网络实现对海量更新的媒体视频进行自动分类，节约了大量的人力资源，视频以帧图像为单位输入神经网络模型进行识别，最后得到的分类结果准确。

在本发明的一个实施例中，提供了一种网络群的类型识别方法，参见图2，方法流程包括：

S21、训练媒体信息分类神经网络。

具体的训练方法流程如图3所示，所述方法流程包括：

S211、获取待训练的图像集样本数据。所述图像集样本数据由一个个图像集组成，每一个图像集是从一个视频媒体中提取得到的，或者将整个视频媒体的所有帧图像组成一个图像集。相对地，从视频媒体中提取目标图像组成目标图像集为获取图像集的优选方案，通过提取具有代表性和重要性的目标图像，有效剔除了无益于判定整体视频分类类型的帧图像，不仅减轻了神经网络模型的处理负担，加快了神经网络模型的处理速度，且去除干扰性选项，使得提高视频分类结果的准确性，提取目标帧图像的方式有两种，参见图4，第一种获取单个图像集样本的方法流程如下：

S2111、获取待训练的视频；

S2112、将视频分割为帧图像；

S2113、计算帧图像的权重；

S2114、根据权重标准，选取目标帧图像；

S2115、目标帧图像组成图像集，纳入样本。

具体地，通过建立权重模型来计算权重，建立权重模型，首先要选择权重参数，所述权重参数为体现视频分类的特征参数，比如人体特征占比(以牙齿为特写镜头的，为牙膏广告的概率大)、相机运动方向(相机运动幅度大的以户外使用产品的概率大、静止的以室内产品的概率大)、相机摇摆动态、相机焦距(广告目标一般都需要给特写近距离，比如牙膏产品本体)、字符显示(视频中出现的文字或符号都极大程度给出了广告分类的提示)等参数，为每个参数配置相应的权重系数，得到权重模型，计算每个帧图像的权重值；根据帧图像的权重值，选取权重值大于某一标准值或者权重排名前N的帧图像作为目标帧图像。

参见图5，第二种获取单个图像集样本的方法流程如下：

S2111、获取待训练的视频，所述视频标记有分类类型，所述分类类型标记跟随从视频中提取得到的图像集一起纳入样本；

S2112、将视频分割为帧图像；

S2116、聚类帧图像；

S2117、得到多个帧聚类；

S2118、选取距离帧聚类中心最近的帧图像作为目标帧图像；

S2119、目标帧图像组成图像集，纳入样本。

具体地，所述聚类方法包括均值漂移(Mean Shift)算法、模糊C均值聚类算法、层次聚类算法等等。所述均值漂移(Mean Shift)算法的算法原理是，在样本中随机选择一圆心为o，半径为h的区域，得出这个区域中所有样本点的平均值，圆心处的样本密度必然比均值处的样本密度小或者相等，将均值定为新的圆心重复以上步骤，直到收敛到密度极大值点；所述模糊C均值聚类算法的工作原理是，算法将n个样本分为c个组，得到各个组的聚类中心，最终让非相似性指标的目标函数达到最小，算法给各个样本点赋予0～1之间的隶属度，通过隶属度的值来判断样本归属于各个分类的程度；本实施例采用K-均值聚类算法对待聚类的帧图像进行聚类，对于帧图像集X＝{x1,x2,…,xn}，n为帧图像个数，设拟划分为k个聚类V＝{v1,v2,…,vk}，先随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类，一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算，这个过程将不断重复，直至聚类中心不再变化，算法终止，聚类得到k个差异比较大的帧类，相应地，每个帧类中离聚类中心最近的一个或多个帧图像即作为目标帧图像(如果聚类中心本身就是帧图像，则聚类中心的帧图像即为目标帧图像)。

S212、对神经网络的损失函数的梯度进行学习，以最小化损失函数。

S213、训练网络，最终得到媒体信息分类深度神经网络模型。

所述S212中的损失函数为深度神经网络的损失函数，损失函数与神经网络模型分类结果的准确性有着密切关系，为了提高媒体信息分类深度神经网络模型的分类准确性，需要极小化损失函数，具体方法如图6所示，所述极小化损失函数的方法流程包括：

S2121、反向传播法计算损失函数的梯度：反向传播法(Backpropagation,BP)是一种与最优化方法结合使用的算法，反向传播法对网络中所有权重计算损失函数的梯度，在向量微积分中，标量场中某一点的梯度指向在这点标量场增长最快的方向，是方向导数参量；

S2122、将梯度反馈给随机梯度下降法：此处最优化方法不限定于随机梯度下降法，也可以为梯度下降法，或者随机并行梯度下降法；

S2123、更新权重；

S2124、判断是否达到设定的迭代次数，若达到，则执行S2125，若未达到，则将权重迭代到反向传播法，即以更新的权重继续执行S2121-S2124；

S2125、完成最小化损失函数，当前的损失函数即为最小化的结果。

人工指定的迭代次数是通过多次的试验和经验得出的，比如测试的时候设置迭代次数为1000次，测试中发现迭代到200次以后损失函数的值就不再下降了，则下一次测试时可将迭代次数设定为300次，以节约测试时间。

S22、上传视频，触发分类请求。

具体地，本实施例中，所述分类请求的触发时机为视频的上传时机，一旦视频上传成功，就向后台服务器发送对该视频媒体的类型进行分类的请求。

S23、获取视频的帧图像信息。

具体地，后台根据请求，找到视频ip，相应地获取该视频的资源，并将其分割为帧图像。

S24、获取目标图像集。

可选地，将视频分割得到的所有帧图像组成为目标图像集，优选地，通过计算权重或聚类的方法从视频中提取较有利于确定视频分类类型的目标帧图像，由目标帧图像组成目标图像集。

S25、目标图像集输入媒体信息分类深度神经网络模型中。

S26、网络模型输出分类结果。

S27、根据分类结果，确定媒体信息的分类结果。

具体地，模型的输出结果可以为一个数字标量，输出数字标量与网络群的关系类型之间预设有配对规则，比如，输出0001代表家用电器广告类型，输出0010为美妆服饰广告类型，输出0100代表家居用品广告类型，输出1000代表运动户外用品广告类型，等等。

在本发明的一个实施例中，使用CNN(卷积神经网络)模型架构得到媒体信息分类深度神经网络模型，CNN模型的输入数据处理流程包括：

第一、定义视频中帧图像的提取条件；

第二、对待分类的视频提取符合上述提取条件的帧图像；

第三、对于每个帧图像组成的图像集，将其帧图像按分类归属度降序排列，所述分类归属度定义为：

分类归属度＝(节点圈子内的度/节点在原图中的度)*(节点圈子内的度/圈子子图最大度)。

将样本数据拼接成三维数组，三个维度从外到内分别为圈子、图像成员和数据通道，这个三维数组中每个圈子的成员数量必须相等，将此数量定为M，成员数量超过K的圈子截取排名最前的M名成员的成员数据，数量不足M的圈子用0补足。

所述CNN模型的架构设计如下：包含两个2D卷积层(convolution2d_1、convolution2d_2)，两个全连接层(dense_1、dense_2)，利用convolution2d_input对神经网络进行输入，convolution2d_input_1(InputLayer)是神经网络的输入层，在这一层中无任何运算，仅仅定义了输入数据的大小和类型，因此，output输出量不发生变化。

Convolution2D是2维的卷积层，卷积层通过参数共享，来简少模型参数和数据运算，卷积层的主要参数包括：a.卷积核数量，每个卷积核对应一个feature map，卷积核的数量可以通过feature map的数量来显示，本实施例中feature map的数量为64；b.卷积核长、宽，所述卷积核是一个长方形，需要指定长宽，本实施例中卷积核的体积为3x3；c.步长，指卷积核在平移时的步长，因为卷积核是2维数据，所以相应地，步长是一个长度为2的数组，比如(1，1)，卷积层的神经元使用权重(weights)共享，每个神经元weights数量＝卷积核长x卷积核宽。

Activation为神经元的激活函数，在神经网络中，除了最后一层output外，其余任何一个神经元都有激活函数，每一层所有的神经元的激活函数相同，不同层的神经元会有不同的激活函数。神经元的每个输入边都有一个weight，每个神经元都有一个偏置(bias)，本实施例中，使用激活函数ReLu，函数定义为g(z)＝max{0,z}。

MaxPooling2D是一个二维数据的操作，具体为取一个长方形内的最大数值输出，所述MaxPooling2D的主要参数包括：a.Pool大小，指一个长方形，比如3x3；b.步长，指每次移动的长度，比如(3，3)。

Dropout的目的是为了防止过拟合，过拟合是机器学习最常见的问题之一，用来描述模型在训练集上的表现远远好于在测试集上的表现。也就是说，如果一个模型过拟合，那么它在训练时表现不错，但用新的数据做实际预测时效果差得多，所述Dropout的主要参数包括：参数p：一个0到1之间的值，表示概率，在训练模型的时候，随机将该层的输入(也就是前面一层的输出)按照p概率设成0，比如p＝0.2，那就随机将20％的输入节点数据设成0，但在预测阶段时，该层不做任何操作。

Flatten作用于将二维数组展平成一维，比如将[[1,2],[3,4]]转变为[1,2,3,4]。

Dense为全连接层，一般来说，Hidden layer就是全连接层，若神经元如图9所示，运算公式如下：

Output＝g(z)，其中，所述g(z)为激活函数，具体定义如上，在此不再赘述；

z＝∑_jw_jx_j+b，其中，x_i为第i个输入，w_i为第i个输入的权重，b为偏置阈值。

因为是多分类问题，每个视频圈子属于一个类别，输出层为softmax，损失函数(Loss function)选用类别交叉熵(categorical cross entropy)，并使用随机梯度下降法(SGD)学习模型参数，学习过程如上训练媒体信息分类神经网络的步骤所述。

在本发明的一个实施例中，使用RNN(循环神经网络)模型架构得到媒体信息分类深度神经网络模型，与CNN相同的是，同样根据分类归属度对每个圈子的成员进行降序排列，与CNN不同的是，RNN中，排列得到关于成员数据的一个序列，序列中每个项对应于一个用户的个人数据，每个圈子对应的序列允许有不同的长度，也就是说，圈子成员的数量可以不一致。

所述RNN模型的架构设计如下：包含三个LSTM层(lstm_1、lstm_2、lstm_3)和两个全连接层(dense_1、dense_2)。

RNN神经网络利用lstm_input对神经网络进行输入，lstm_input_1(InputLayer)是RNN神经网络的输入层，在这一层中无任何运算，仅仅定义了输入数据的大小和类型，因此，output输出量不发生变化，图10中示出了LSTM记忆单元的结构。

RNN神经网络中的全连接层和防止过拟合层分别与CNN神经网络的全连接层和防止过拟合层定义相同，在此不再赘述。

在本发明的一个实施例中，提供了一种基于深度神经网络的媒体信息分类装置，所述装置的模块架构参见图7，所述装置包括以下模块：

信息获取模块710，用于获取待分类的媒体信息，所述媒体信息为视频；

图像集模块720，用于从所述视频中选取帧图像，组成目标图像集；

输入模块730，用于将所述目标图像集输入媒体信息分类深度神经网络模型；

分类模块740，用于根据所述媒体信息分类深度神经网络模型的输出结果，确定所述媒体信息的关系类型，包括：该模型对目标图像集中的帧图像进行分类，统计数量最多的分类结果作为视频的分类结果。

可选地，所述图像集模块720从所述视频中选取视频的所有帧图像或者从所有帧图像中选取目标帧图像；

所述图像集模块720包括权重子模块721，所述权重子模块721用于对所有帧图像计算权重值，选取符合预设的权重标准的帧图像作为目标帧图像，所述权重标准包括权重标准值和权重标准排名；

或者，

所述图像集模块720包括聚类模块722，所述聚类模块用于对所有帧图像进行聚类，得到多个帧聚类，选取离所述帧聚类中心最近的帧图像作为目标帧图像。

本发明实施例提供的分类装置还包括网络预训练模块750，所述网络预训练模块750包括：

样本子模块751，用于获取图像集样本数据，所述图像集样本数据标记有分类类型；

最小化损失子模块752，采用随机梯度下降法最小化损失函数；

模型生成子模块753，用于通过图像集样本数据及完成最小化的损失函数，对所述媒体信息分类深度神经网络进行训练，得到模型，

其中，所述最小化损失子模块752包括：

梯度单元7521，用于根据神经网络的所有权重和损失函数，采用反向传播法得到损失函数的梯度；

权重更新单元7522，用于根据所述梯度，采用随机梯度下降法，更新神经网络的权重；

迭代单元7523，用于将更新的权重进行预设次数的迭代，以最小化损失函数。

需要说明的是：上述实施例提供的物联网控制装置在进行统一管理控制时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将物联网控制装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，本实施例提供的物联网控制装置实施例与上述实施例提供物联网控制方法属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本发明的一个实施例中，提供了一种消息推送方法，参见图8，方法流程包括：

S801、获取待分类的媒体信息。

S802、获取目标图像集。

S803、将目标图像集输入神经网络模型。

S804、模型对帧图像进行分类。

S805、模型输出分类结果。

S806、确定视频的分类类型。

S807、根据视频的分类类型，推送给匹配用户。

具体地，利用媒体信息类型的识别结果，对媒体信息推送给与之匹配的用户，具体的推送方法形式有很多，比如，某个群体为妈妈群，可以向该群体成员推送母婴广告信息，或者反之，先确定待推送的目标人群为老年人，则指定推送保健品等相关匹配产品的广告；或者根据用户的阅读历史，向其推送匹配的广告消息。本发明对于推送的消息类型和将消息推送到的群体类型，以及推送消息的方式不作具体限定，所有利用本发明基于深度神经网络的媒体信息分类方法进行消息推送的技术方案都属于本发明的保护范围。

本发明实施例提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行，在本发明的一个实施例中，以运行在计算机终端上为例，所述终端可以包括RF(Radio Frequency，射频)电路、包括有一个或一个以上计算机可读存储介质的存储器、输入单元、显示单元、传感器、音频电路、WiFi(wireless fidelity，无线保真)模块、包括有一个或者一个以上处理核心的处理器、以及电源等部件。其中：

RF电路可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器处理；另外，将涉及上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System ofMobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code DivisionMultiple Access，码分多址)、WCDMA(Wideband Code Division Multiple Access，宽带码分多址)、LTE(Long Term Evolution，长期演进)、电子邮件、SMS(Short MessagingService，短消息服务)等。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器和输入单元对存储器的访问。

输入单元可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器，并能接收处理器发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器以确定触摸事件的类型，随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然本实施例中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路、扬声器，传声器可提供用户与终端之间的音频接口。音频电路可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路接收后转换为音频数据，再将音频数据输出处理器处理后，经RF电路以发送给比如另一终端，或者将音频数据输出至存储器以便进一步处理。音频电路还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。可以理解的是，WiFi模块并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器是终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器可包括一个或多个处理核心；优选地，处理器可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器中。

终端还包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理系统与处理器逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端的显示单元是触摸屏显示器，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令：

获取待分类的媒体信息，所述媒体信息为视频；

从所述视频中选取帧图像，组成目标图像集；

将所述目标图像集输入媒体信息分类深度神经网络模型；

具体地，终端的处理器还用于执行以下操作的指令：选取视频的所有帧图像或者从所有帧图像中选取目标帧图像。

具体地，终端的处理器还用于执行以下操作的指令：对所有帧图像计算权重值，选取符合预设的权重标准的帧图像作为目标帧图像，所述权重标准包括权重标准值和权重标准排名。

具体地，终端的处理器还用于执行以下操作的指令：对所有帧图像进行聚类，得到多个帧聚类，选取离所述帧聚类中心最近的帧图像作为目标帧图像。

具体地，终端的处理器还用于执行以下操作的指令：

采用随机梯度下降法最小化损失函数；

具体地，终端的处理器还用于执行以下操作的指令：

将更新的权重进行预设次数的迭代，以最小化损失函数。

在本发明的一个实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，一个或者一个以上程序被一个或者一个以上的处理器用来执行媒体信息分类的方法指令，所述方法指令包括：

获取待分类的媒体信息，所述媒体信息为视频；

从所述视频中选取帧图像，组成目标图像集；

将所述目标图像集输入媒体信息分类深度神经网络模型；

采用随机梯度下降法最小化损失函数；

具体地，所述采用随机梯度下降法最小化损失函数包括：

将更新的权重进行预设次数的迭代，以最小化损失函数。

进一步地，还包括在识别得到媒体信息的分类类型后，将所述媒体信息推送给匹配用户。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的媒体信息分类方法，其特征在于，所述方法包括：

获取待分类的媒体信息，所述媒体信息为视频；

从所述视频中选取帧图像，组成目标图像集；

将所述目标图像集输入媒体信息分类深度神经网络模型；

2.根据权利要求1所述的方法，其特征在于，所述从所述视频中选取帧图像包括选取视频的所有帧图像或者从所有帧图像中选取目标帧图像。

3.根据权利要求2所述的方法，其特征在于，所述选取目标帧图像包括：对所有帧图像计算权重值，选取符合预设的权重标准的帧图像作为目标帧图像，所述权重标准包括权重标准值和权重标准排名。

4.根据权利要求2所述的方法，其特征在于，所述选取目标帧图像包括：对所有帧图像进行聚类，得到多个帧聚类，选取离所述帧聚类中心最近的帧图像作为目标帧图像。

5.根据权利要求1所述的方法，其特征在于，还包括预先训练媒体信息分类深度神经网络，包括：

采用随机梯度下降法最小化损失函数；

6.根据权利要求5所述的方法，其特征在于，所述采用随机梯度下降法最小化损失函数包括：

将更新的权重进行预设次数的迭代，以最小化损失函数。

7.一种基于深度神经网络的媒体信息分类装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述图像集模块从所述视频中选取视频的所有帧图像或者从所有帧图像中选取目标帧图像；

所述图像集模块包括权重子模块，所述权重子模块用于对所有帧图像计算权重值，选取符合预设的权重标准的帧图像作为目标帧图像，所述权重标准包括权重标准值和权重标准排名；

或者，

所述图像集模块包括聚类模块，所述聚类模块用于对所有帧图像进行聚类，得到多个帧聚类，选取离所述帧聚类中心最近的帧图像作为目标帧图像。

9.根据权利要求7所述的装置，其特征在于，还包括网络预训练模块，所述网络预训练模块包括：

最小化损失子模块，采用随机梯度下降法最小化损失函数；

模型生成子模块，用于通过图像集样本数据及完成最小化的损失函数，对所述媒体信息分类深度神经网络进行训练，得到模型，

其中，所述最小化损失子模块包括：

10.一种媒体信息推送方法，其特征在于，包括：

获取待分类的媒体信息，所述媒体信息为视频；

从所述视频中选取帧图像，组成目标图像集；

将所述目标图像集输入媒体信息分类深度神经网络模型；