CN108334861A

CN108334861A - 一种基于机器学习的视频内容识别方法及装置

Info

Publication number: CN108334861A
Application number: CN201810174048.2A
Authority: CN
Inventors: 陈长伟; 杨晓亮; 田丹
Original assignee: Beijing Future Media Polytron Technologies Inc
Current assignee: Beijing Future Media Polytron Technologies Inc
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2018-07-27

Abstract

本发明提出一种基于机器学习的视频内容识别方法及装置。一种基于机器学习的视频内容识别方法，包括：将待识别的视频资源解析为多个视频帧；通过经过训练的深度机器学习模型对所述多个视频帧进行内容识别处理，分别确认每个视频帧所包含的视频内容；根据所述每个视频帧所包含的视频内容，确定所述视频资源所包含的视频内容。将上述技术方案应用到对互联网视频内容进行识别的场景，可以有效识别互联网视频内容。

Description

一种基于机器学习的视频内容识别方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于机器学习的视频内容识别方法及装置。

背景技术

随着互联网技术的发展，互联网视频流量在近几年大幅增加，短视频、视频直播等各种新型用户原创内容(User Generated Content，UGC)促使互联网视频越来越丰富。丰富多彩的互联网视频应用牢牢抓住了用户的消费心理，成为互联网吸金的又一利器。

互联网视频推送应当以用户喜好为主，提供个性化的视频资源，提升视频点播率及用户活跃度。基于以上需求，对视频内容进行识别，进而对视频进行筛选成为互联网视频应用的必要功能。其中，对互联网视频内容进行识别成为实现上述功能的基础，如何对互联网视频内容进行有效识别已经成为互联网视频应用向用户推送符合用户喜好的视频资源的研究热点。

发明内容

基于上述技术现状，本发明提出一种基于机器学习的视频内容识别方法及装置，能够对互联网视频内容进行有效识别。

为了达到上述目的，本发明提出如下技术方案：

一种基于机器学习的视频内容识别方法，包括：

将待识别的视频资源解析为多个视频帧；

通过经过训练的深度机器学习模型对所述多个视频帧进行内容识别处理，分别确认每个视频帧所包含的视频内容；

根据所述每个视频帧所包含的视频内容，确定所述视频资源所包含的视频内容。

优选地，所述根据所述每个视频帧所包含的视频内容，确定所述视频资源所包含的视频内容，包括：

汇总所述每个视频帧所包含的视频内容得到所述视频资源所包含的视频内容，以及分别确认每项视频内容在所述视频资源中的时间位置。

优选地，对所述深度机器学习模型的训练过程，包括：

循环执行以下操作，直到计算得到的代价值小于设定阈值；

将已标注图像内容的图像输入深度机器学习模型，使所述深度机器学习模型按照预设的参数对所述图像进行图像内容识别；

将所述深度机器学习模型识别的图像内容，与标注的图像内容进行对比，得到所述深度机器学习模型进行图像内容识别的代价值；

判断得到的代价值是否小于设定阈值；

如果得到的代价值不小于设定阈值，则根据计算得到的代价值，调整所述深度机器学习模型进行图像内容识别的参数。

优选地，对所述深度机器学习模型的训练过程还包括：

建立包含不同类型图像内容，并且已经标注图像内容的图像资源数据库。

优选地，所述深度机器学习模型包括卷积神经网络。

一种基于机器学习的视频内容识别装置，包括：

视频解析单元，用于将待识别的视频资源解析为多个视频帧；

视频帧识别单元，用于通过经过训练的深度机器学习模型对所述多个视频帧进行内容识别处理，分别确认每个视频帧所包含的视频内容；

视频内容确定单元，用于根据所述每个视频帧所包含的视频内容，确定所述视频资源所包含的视频内容。

优选地，所述视频内容确定单元根据所述每个视频帧所包含的视频内容，确定所述视频资源所包含的视频内容时，具体用于：

优选地，所述视频帧识别单元还用于对所述深度机器学习模型进行训练；

所述视频帧识别单元对所述深度机器学习模型进行训练时，具体用于：

循环执行以下操作，直到计算得到的代价值小于设定阈值；

判断得到的代价值是否小于设定阈值；

优选地，所述视频帧识别单元还用于：

优选地，所述深度机器学习模型包括卷积神经网络。

本发明技术方案将深度机器学习模型应用到视频内容识别中，利用经过训练的深度机器学习模型对视频资源的每个视频帧内容进行识别，进而确定整个视频资源所包含的视频内容。将上述技术方案应用到对互联网视频内容进行识别的场景，可以有效识别互联网视频内容。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例提供的一种基于机器学习的视频内容识别方法的流程示意图；

图2是本发明实施例提供的对深度机器学习模型进行训练和测试的示意图；

图3是本发明实施例提供的对深度机器学习模型进行训练的流程示意图；

图4是本发明实施例提供的一种基于机器学习的视频内容识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于机器学习的视频内容识别方法，参见图1所示，该方法包括：

S101、将待识别的视频资源解析为多个视频帧；

具体的，上述待识别的视频资源，是指本发明实施例获取的需要识别其视频内容的视频资源。该视频资源可以是用户上传至互联网的自制视频，也可以是用户从服务器请求的视频资源。

视频资源本质上是由一系列的视频帧组合而成。本发明在获取待识别的视频资源后，对视频资源进行解码解析，得到组成该视频资源的多个视频帧。

S102、通过经过训练的深度机器学习模型对所述多个视频帧进行内容识别处理，分别确认每个视频帧所包含的视频内容；

具体的，机器学习的目标就是在一定的网络结构基础上构建数学模型，选择相应的学习方式和训练方法，使数学模型学习输入数据的数据结构和内在模式，不断调整网络参数，通过数学工具求解模型最优化的预测反馈，提高泛化能力、防止过拟合，以提高学习的效率和识别结果的可信度。可以确定，本发明实施例上述深度机器学习模型，就是基于机器学习搭建的数学模型，该数学模型具有学习能力，能够在学习过程中不断调整自身网络参数，使求解结果更接近正确结果，具体在本发明实施例中即通过不断调整自身网络参数，提高识别视频内容的准确率。

本发明实施例上述深度机器学习模型中的算法使用卷积神经网络，卷积神经网络在多层神经网络的基础上，加入了特征学习部分，这部分可模仿人脑对信号处理上的分级。具体操作就是在多层神经网络的全连接的层前面加入了不同的卷积层与池化层，构成输入层-卷积层-池化层-卷积层-池化层-…-隐藏层-输出层。简单来说，多层神经网络所做的工作是特征映射到值，特征是人工挑选的。而深度机器学习模型的卷积神经网络所做的工作是信号映射到特征再由特征映射到值，特征是由网络自己选择。

卷积神经网络本质是一个多层的神经网络，其基本运算依次包括：卷积运算、池化运算、全连接运算和识别运算。

卷积运算：前一层的特征图与一个可学习的卷积核进行卷积运算，卷积的结果经过激活函数后的输出形成后一层的神经元，从而构成该层特征图，也称特征提取层，每个神经元的输入与前一层的局部感受相连接，并提取该局部的特征，一旦该局部特征被提取，它与其它特征之间的位置关系就被确定。

池化运算：它把输入信号分割成不重叠的区域，对于每个区域通过池化(下采样)运算来降低网络的空间分辨率，比如最大值池化是选择区域内的最大值，均值池化是计算区域内的平均值。通过该运算来消除信号的偏移和扭曲。

全连接运算：输入信号经过多次卷积核池化运算后，输出为多组信号，经过全连接运算，将多组信号依次组合为一组信号。

识别运算：上述运算过程为特征学习运算，需在上述运算基础上根据业务需求(分类或回归问题)增加一层网络用于分类或回归计算。

卷积神经网络在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确的数学表达式，只要用已知的模式对卷积网络加以训练，网络就具有输入输出对之间的映射能力。卷积神经网络执行的是有监督训练，所以其样本集是由形如：(输入信号，标签值)的向量对构成的。

如图2所示，在利用上述卷积神经网络搭建深度机器学习模型后，初始化所有神经元的权值和偏置，然后输入训练数据，计算模型预测值与真实数据的代价来调整神经元参数，经过多次反复训练提高深度机器学习模型的预测准确性。训练好的模型通过输入数据集进行测试，根据测试结果判断神经元参数的合理性。

按照上述模型搭建和训练方法，搭建能够识别视频帧内容的深度机器学习模型并进行训练，得到可用于对视频帧内容进行识别的深度机器学习模型。然后将步骤S101中得到的多个视频帧依次输入该经过训练的深度机器学习模型，对上述多个视频帧进行内容识别处理，分别确认每个视频帧所包含的视频内容。

S103、根据所述每个视频帧所包含的视频内容，确定所述视频资源所包含的视频内容。

具体的，在通过步骤S102分别确认待识别的视频资源的每个视频帧所包含的视频内容后，对每个视频帧所包含的视频内容进行汇总，即可确定整个视频资源所包含的视频内容。

例如假设上述视频资源是关于人物的视频，则经过训练的深度机器学习模型可以分别识别视频资源的每个视频帧中所包含的人物信息，汇总每个视频帧所包含的人物信息，就可以确定整个视频资源所包含的人物信息。

同样，可以同时识别视频资源的每个视频帧中包含的物品、场景等信息，进而确定整个视频资源所包含的物品、场景信息。

通过上述介绍可见，本发明实施例技术方案将深度机器学习模型应用到视频内容识别中，利用经过训练的深度机器学习模型对视频资源的每个视频帧内容进行识别，进而确定整个视频资源所包含的视频内容。将上述技术方案应用到对互联网视频内容进行识别的场景，可以有效识别互联网视频内容。

可选的，在本发明的另一个实施例中，在根据每个视频帧所包含的视频内容确定视频资源所包含的视频内容时，具体包括：

汇总每个视频帧所包含的视频内容得到上述视频资源所包含的视频内容，以及分别确认每项视频内容在上述视频资源中的时间位置。

具体的，当通过识别上述视频资源的每个视频帧所包含的视频内容后，对每个视频帧所包含的视频内容进行汇总，即可得到整个视频资源所包含的视频内容。

同时，由于上述视频资源是由一系列按照时间先后顺序排列的视频帧组成的，因此，根据视频资源时长可以确定每个视频帧的时间位置。进一步的，在对每个视频帧所包含的视频内容进行识别后，可以根据识别出的视频内容所在的视频帧的时间位置，确定该视频内容在上述视频资源中的时间位置。可以理解，视频内容在视频资源中的时间位置，就是视频内容所在的视频帧在其所在的视频资源中的时间位置。

根据上述原理，在汇总每个视频帧所包含的视频内容得到上述视频资源所包含的视频内容后，本发明实施例还进一步确认每项视频内容在上述视频资源中的时间位置，从而为筛选视频资源中的视频内容提供便利。

可选的，在本发明的另一个实施例中，参见图3所示，对深度机器学习模型进行训练的过程，具体包括：

S301、将已标注图像内容的图像输入深度机器学习模型，使所述深度机器学习模型按照预设的参数对所述图像进行图像内容识别；

具体的，上述已标注图像内容的图像，是指事先由人工准确标注图像所包含的图像内容的图像。

在搭建好深度机器学习模型后，对模型运算参数进行初始化，然后将上述已经标注图像内容的图像输入该模型，使该模型按照初始化的参数进行运算，对输入的图像的图像内容进行识别，得到识别的图像内容。

S302、将所述深度机器学习模型识别的图像内容，与标注的图像内容进行对比，得到所述深度机器学习模型进行图像内容识别的代价值；

具体的，上述深度机器学习模型进行图像内容识别的代价值，可以简单理解为深度机器学习模型识别的图像内容，与标注的图像内容的差值。该代价值表示了深度机器学习模型对输入的图像进行图像内容识别的误差。

本发明实施例可通过计算上述深度机器学习模型对图像进行识别得到的图像内容与标注的图像内容的距离，作为上述深度机器学习模型进行图像内容识别的代价值。

S303、判断得到的代价值是否小于设定阈值；

具体的，只有当上述深度机器学习模型进行图像内容识别的误差，也就是代价值足够小时，才说明上述深度机器学习模型进行图像内容识别的精度达到设定要求。

在本发明实施例中，通过判断上述深度机器学习模型进行图像内容识别的代价值是否小于设定阈值，来判断上述深度机器学习模型进行图像内容识别的精度是否达到要求。

如果上述深度机器学习模型进行图像内容识别的代价值小于设定阈值，则说明上述深度机器学习模型进行图像内容识别的精度达到要求，可以用于对图像内容进行识别。如果上述深度机器学习模型进行图像内容识别的代价值不小于设定阈值，则说明上述深度机器学习模型进行图像内容识别的精度还未达到要求。

如果得到的代价值不小于设定阈值，则执行步骤S304、根据计算得到的代价值，调整所述深度机器学习模型进行图像内容识别的参数；

具体的，如果上述深度机器学习模型进行图像内容识别的精度还未达到要求，即上述深度机器学习模型进行图像内容识别的代价值不小于上述设定阈值，则根据该代价值，对上述深度机器学习模型进行图像内容识别的参数进行调整，即调整深度机器学习模型的网络参数，以使深度机器学习模型对图像内容进行识别的精度更高。

在调整深度机器学习模型进行图像内容识别的参数后，返回步骤S301重新将已标注图像内容的图像输入深度机器学习模型，使所述深度机器学习模型按照调整后的参数对输入的图像进行图像内容识别，并根据识别结果对深度机器学习模型的参数进行调整。也就是，循环执行上述步骤S301～S304，直到计算得到的代价值小于设定阈值，此时对上述深度机器学习模型的训练完成。

可选的，在本发明的另一个实施例中，在对深度机器学习模型进行训练时，还包括：

具体的，在本发明实施例中，对于训练所用的图像进行分类，构建图像资源数据库。例如，基于爬虫数据和视频内容库资料数据建立内容资源数据中心，创造不同的场景如人物(明星、名人、政治人物等)、物品(品牌、日用品、食物、商品等)、场景(地点、场所、情景等)等类型图像，建立不同的数据模型和数据属性。

建立包含不同类型图像内容，并且已经标注图像内容的图像资源数据库，可以使对模型的训练更具有针对性。例如，假设模型只用于识别视频资源中的人物信息，则可以只使用数据库中的人物图像对模型进行训练，使训练更具有针对性。

本发明实施例还公开了一种基于机器学习的视频内容识别装置，参见图4所示，该装置包括：

视频解析单元100，用于将待识别的视频资源解析为多个视频帧；

视频帧识别单元110，用于通过经过训练的深度机器学习模型对所述多个视频帧进行内容识别处理，分别确认每个视频帧所包含的视频内容；

视频内容确定单元120，用于根据所述每个视频帧所包含的视频内容，确定所述视频资源所包含的视频内容。

可选的，在本发明的另一个实施例中，所述视频内容确定单元120根据所述每个视频帧所包含的视频内容，确定所述视频资源所包含的视频内容时，具体用于：

可选的，在本发明的另一个实施例中，所述视频帧识别单元110还用于对所述深度机器学习模型进行训练；

所述视频帧识别单元110对所述深度机器学习模型进行训练时，具体用于：

循环执行以下操作，直到计算得到的代价值小于设定阈值；

判断得到的代价值是否小于设定阈值；

可选的，在本发明的另一个实施例中，所述视频帧识别单元110还用于：

可选的，在本发明的另一个实施例中，所述深度机器学习模型包括卷积神经网络。

上述基于机器学习的视频内容识别装置的各实施例中的各个单元的具体工作内容，请参见上述方法实施例的内容，此处不再赘述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于机器学习的视频内容识别方法，其特征在于，包括：

将待识别的视频资源解析为多个视频帧；

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个视频帧所包含的视频内容，确定所述视频资源所包含的视频内容，包括：

3.根据权利要求1或2所述的方法，其特征在于，对所述深度机器学习模型的训练过程，包括：

循环执行以下操作，直到计算得到的代价值小于设定阈值；

判断得到的代价值是否小于设定阈值；

4.根据权利要求3所述的方法，其特征在于，对所述深度机器学习模型的训练过程还包括：

5.根据权利要求3所述的方法，其特征在于，所述深度机器学习模型包括卷积神经网络。

6.一种基于机器学习的视频内容识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述视频内容确定单元根据所述每个视频帧所包含的视频内容，确定所述视频资源所包含的视频内容时，具体用于：

8.根据权利要求6或7所述的装置，其特征在于，所述视频帧识别单元还用于对所述深度机器学习模型进行训练；

循环执行以下操作，直到计算得到的代价值小于设定阈值；

判断得到的代价值是否小于设定阈值；

9.根据权利要求8所述的装置，其特征在于，所述视频帧识别单元还用于：

10.根据权利要求8所述的装置，其特征在于，所述深度机器学习模型包括卷积神经网络。