CN109862421A

CN109862421A - 一种视频信息识别方法、装置、电子设备及存储介质

Info

Publication number: CN109862421A
Application number: CN201811482919.3A
Authority: CN
Inventors: 刘京鑫; 常超; 陈祯扬; 肖战勇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2019-06-07

Abstract

本申请是关于一种视频信息识别方法、装置、电子设备及存储介质，所述方法包括：获取待识别的目标视频；提取所述目标视频的背景音乐的目标特征，其中，所述目标特征是与所述背景音乐的音频和/或文本有关的特征；将所述目标特征输入预先训练的神经网络模型，得到所述目标视频的音乐类别信息；其中，所述神经网络模型是根据样本视频和预先标定的所述样本视频的音乐类别信息训练得到的、用于识别所述目标视频的音乐类别的模型。本申请可以更高效地识别视频的音乐类别。

Description

一种视频信息识别方法、装置、电子设备及存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频信息识别方法、装置、电子设备及存储介质。

背景技术

随着科技的日益进步和互联网的普及，越来越多的人通过视频来传输信息和分享生活，个性化的视频推荐显得日益重要。由于视频的背景音乐蕴含着大量信息，因此，可以基于视频的背景音乐识别视频的音乐类别；进一步可以利用视频的音乐类别进行更加精准的视频推荐。其中，视频的音乐类别是：从演奏、演唱或曲风等角度，根据预定的分类标准对视频进行分类所得的类别信息。具体的，视频的音乐类别可以包括两种类别：第一类别和第二类别。例如，将专业的演奏或演唱方式视为第一类别，而将非专业的演奏或演唱方式视为第二类别，等等。

目前，基于视频的背景音乐识别视频的音乐类别的方式为：人工聆听视频的背景音乐，进而基于经验确定视频的音乐类别。虽然人工方式可以确定视频的音乐类别，但很耗时、耗力，效率非常低。

发明内容

为克服相关技术中存在的问题，本申请提供一种视频信息识别方法、装置、电子设备及存储介质，以更高效地识别视频的音乐类别。

根据本申请实施例的第一方面，提供一种视频信息识别方法，包括：

获取待识别的目标视频；

提取所述目标视频的背景音乐的目标特征，其中，所述目标特征是与所述背景音乐的音频和/或文本有关的特征；

将所述目标特征输入预先训练的神经网络模型，得到所述目标视频的音乐类别信息；其中，所述神经网络模型是根据样本视频和预先标定的所述样本视频的音乐类别信息训练得到的、用于识别所述目标视频的音乐类别的模型。

可选地，所述神经网络模型的训练过程，包括：

获取所述样本视频以及预先标定的所述样本视频的音乐类别；

提取所述样本视频的样本背景音乐的样本特征，其中，所述样本特征是与所述样本背景音乐的音频和/或文本有关的特征；

利用所述样本特征和预先标定的所述样本视频的音乐类别，训练初始的神经网络模型，得到训练完成的神经网络模型。

可选地，所述音乐类别信息包括：第一类别和第二类别；

所述将所述目标特征输入预先训练的神经网络模型，得到所述目标视频的音乐类别信息，包括：

将所述目标特征输入预先训练的神经网络模型，得到所述目标视频对应的第一概率值和第二概率值；其中，所述第一概率值为：所述目标视频的音乐类别为所述第一类别的概率，所述第二概率值为：所述目标视频的音乐类别为所述第二类别的概率；

若所述第一概率值大于所述第二概率值，判定所述目标视频的音乐类别为所述第一类别；

若所述第一概率值小于所述第二概率值，判定所述目标视频的音乐类别为所述第二类别。

可选地，所述目标特征包括：音频特征和/或文本特征。

可选地，所述音频特征包括：对所述背景音乐的音频进行傅里叶变换所得的特征。

可选地，所述文本特征包括：对所述背景音乐的文本进行关键词提取所得到的关键词，和/或，所述关键词对应的词频。

可选地，所述目标视频的背景音乐的文本特征的提取方式，包括：

判断所述目标视频的背景音乐是否存在文本信息；

如果存在，对所述文本信息进行特征分析，得到所述背景音乐的文本特征；

如果不存在，将预设文本特征作为所述背景音乐的文本特征。

根据本申请实施例的第二方面，提供一种视频信息识别装置，包括：

第一获取模块，被配置为获取待识别的目标视频；

第一提取模块，被配置为提取所述目标视频的背景音乐的目标特征，其中，所述目标特征是与所述背景音乐的音频和/或文本有关的特征；

输入模块，被配置为将所述目标特征输入预先训练的神经网络模型，得到所述目标视频的音乐类别信息；其中，所述神经网络模型是根据样本视频和预先标定的所述样本视频的音乐类别信息训练得到的、用于识别所述目标视频的音乐类别的模型。

可选地，所述装置还包括：

第二获取模块，被配置为获取所述样本视频以及预先标定的所述样本视频的音乐类别；

第二提取模块，被配置为提取所述样本视频的样本背景音乐的样本特征，其中，所述样本特征是与所述样本背景音乐的音频和/或文本有关的特征；

训练模块，被配置为利用所述样本特征和预先标定的所述样本视频的音乐类别，训练初始的神经网络模型，得到训练完成的神经网络模型。

可选地，所述音乐类别信息包括：第一类别和第二类别；所述输入模块，包括：

输入单元，被配置为将所述目标特征输入预先训练的神经网络模型，得到所述目标视频对应的第一概率值和第二概率值；其中，所述第一概率值为：所述目标视频的音乐类别为所述第一类别的概率，所述第二概率值为：所述目标视频的音乐类别为所述第二类别的概率；

第一判定单元，被配置为在所述第一概率值大于所述第二概率值时，判定所述目标视频的音乐类别为所述第一类别；

第二判定单元，被配置为在所述第一概率值小于所述第二概率值时，判定所述目标视频的音乐类别为所述第二类别。

可选地，所述目标特征包括：音频特征和/或文本特征。

可选地，所述第一提取模块，包括：

执行单元，被配置为执行确定所述目标视频的背景音乐是否存在文本信息；

第一处理单元，被配置为在所述目标视频的背景音乐存在文本信息时，对所述文本信息进行特征分析，得到所述背景音乐的文本特征；

第二处理单元，被配置为在所述目标视频的背景音乐不存在文本信息时，将预设文本特征作为所述背景音乐的文本特征。

根据本申请实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行所述存储器上所存放的指令时，实现如上第一方面所述的视频信息识别方法。

根据本申请实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上第一方面所述的视频信息识别方法。

根据本申请实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行如上第一方面所述的视频信息识别方法。

本申请的实施例提供的技术方案可以包括以下有益效果：本申请预先根据样本视频和标定的样本视频的音乐类别信息训练神经网络模型。进而，在识别目标视频的音乐类别时，提取目标视频的目标特征，将目标特征输入预先训练的神经网络模型，得到目标视频的音乐类别信息。因此，相对于人工识别，本申请可以更高效地识别视频的音乐类别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种视频信息识别方法的流程图。

图2是根据一示例性实施例示出的一种视频信息识别装置的框图。

图3是根据一示例性实施例示出的一种电子设备的框图；

图4是根据一示例性实施例示出的一种用于视频信息识别的装置的框图。

图5是根据一示例性实施例示出的另一种用于视频信息识别的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

为用户进行个性化的视频推荐时，由于视频的背景音乐蕴含这大量信息，因此，可以基于视频的背景音乐识别视频的音乐类别，进一步可以利用视频的音乐类别进行更加精准的视频推荐。

其中，视频的音乐类别是：从演奏、演唱或曲风等角度，根据预定的分类标准对视频进行分类所得的类别信息。具体的，视频的音乐类别可以包括两种类别：第一类别和第二类别。例如，从演奏或演唱的角度，将专业的演奏或演唱方式视为第一类别，而将非专业的演奏或演唱方式视为第二类别。又例如，从曲风的角度，将交响乐曲或民乐曲视为第一类别，而将网络歌曲视为第二类别。再例如，从演奏或演唱的角度，将完整的或音效效果好视为第一类别，而将不完整的或音效效果差为第二类别。也就是说，根据预定的分类标准所识别的视频的第一类别和第二类别，这两种类别可以具有一定的相对性。在具体应用中，预定的分类标准可以有多种，也可以根据用户的需求来确定分类标准，本申请对预定的分类标准的形式并不限定。

目前，基于视频的背景音乐识别视频的音乐类别的方式为：人工聆听视频的背景音乐，进而基于经验确定视频的音乐类别，但人工方式很耗时、耗力，效率非常低。

为了解决现有技术的问题，本申请实施例提供了一种视频信息识别方法、装置、电子设备及存储介质。

下面，首先对本申请实施例所提供的一种视频信息识别方法进行介绍。

需要说明的是，本申请实施例所提供的一种视频信息识别方法的执行主体可以为电子设备。在具体应用中，该电子设备可以为终端设备或服务器。示例性的，该终端设备可以为：智能手机、平板电脑和台式计算机等。

图1是根据一示例性实施例示出的一种视频信息识别方法的流程图，如图1所示，一种视频信息识别方法可以包括以下步骤：

S101，获取待识别的目标视频。

当电子设备需要识别某一视频的音乐类别时，可以将该视频作为待识别的目标视频。该目标视频可以是时长较短的短视频，也可以是时长较长的普通视频。在本申请中，目标视频是含有背景音乐的视频。其中，背景音乐的形式可以有多种，例如，背景音乐可以是由一种或多种乐器演奏形成的纯器乐音乐，也可以是由一个或多个人演唱形成的声乐音乐，还可以是由一种或多种乐器演奏，以及由一个或多个人演唱形成的组合音乐。如果背景音乐包含人演唱形成的声乐音乐，可选地，背景音乐还可以对应有人演唱的歌词等文本信息。

S102，提取目标视频的背景音乐的目标特征，其中，目标特征是与背景音乐的音频和/或文本有关的特征。

为了识别目标视频的音乐类别，电子设备可以提取目标视频的背景音乐的目标特征。由于该目标特征是与背景音乐的音频和/或文本有关的特征，因此该目标特征包含了背景音乐的大量信息，进而电子设备可以利用该目标特征识别目标视频的音乐类别。

可选地，该目标特征可以包括：音频特征和/或文本特征。也就是说，该目标特征可以仅仅包括音频特征，或者，仅仅包括文本特征，也可以同时包括音频特征和文本特征。

其中，音频特征可以是背景音乐的音频对应的音频特征。音频特征的提取方式存在多种。示例性的，该音频特征可以是对背景音乐的音频进行傅里叶变换所得的特征。也就是说，提取目标视频的背景音乐的音频特征的方式可以是：对背景音乐的音频进行傅里叶变换，从而得到音频特征。傅里叶变换表示能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。在音频领域，对音频进行傅里叶变换，可以分析音频的频域特性，得到例如短时功率谱密度等特征参数。

其中，文本特征可以是：背景音乐的文本对应的特征。示例性的，该文本特征可以包括：对背景音乐的文本进行关键词提取所得到的关键词，和/或，关键词对应的词频。其中，背景音乐的文本可以是背景音乐的歌词。需要说明的是，任一种能够对背景音乐的文本进行关键词提取的实现方式均可以应用于本申请，示例性的，通过TF-IDF(termfrequency-inverse document frequency，词频-逆文件频率指数)方法，或TextRank(文本排序)算法等提取背景音乐的文本的关键词。

需要说明的是，考虑到背景音乐可能对应有文本，可能未对应有文本。为了同时适用于存在文本和未存在文本的各种背景音乐的文本的提取，可选地，在一种实现方式中，目标视频的背景音乐的文本特征的提取方式，可以包括如下步骤A1-A3：

步骤A1，判断目标视频的背景音乐是否存在文本信息。

在提取背景音乐的文本特征时，电子设备可以先判断目标视频的背景音乐是否存在文本信息，然后，根据判断结果的不同，相应地确定背景音乐的文本特征。具体的，电子设备可以通过人工智能等技术识别目标视频的背景音乐中，是否存在文本信息。当然，其他的可以判断目标视频的背景音乐的方法也可以应用于本申请。

本实施例中，上述文本信息可以是背景音乐的文本，该文本可以是背景音乐的歌词。

步骤A2，如果存在，对文本信息进行特征分析，得到背景音乐的文本特征。

如果目标视频的背景音乐存在文本信息，电子设备可以对该文本信息进行特征分析，得到背景音乐的文本特征。示例性地，电子设备可以提取背景音乐的歌词中的关键词，并统计每一关键词在歌词中的词频，进而将关键词以及关键词的词频作为背景音乐的文本特征。

步骤A3，如果不存在，将预设文本特征作为背景音乐的文本特征。

如果目标视频的背景音乐中不存在文本信息，为了保证目标特征的完整性，可以将预设文本特征作为背景音乐的文本特征。这里的保证目标特征的完整性是针对目标特征仅包括文本特征这一情形，或者针对目标特征包括音频特征和文本特征这一情形，由于背景音乐中不存在文本信息，那么为了保证目标特征的完整性，可以将预设文本特征作为背景音乐的文本特征。

其中，预设文本特征可以是预先设置的固定的文本特征，也可以是在每次提取背景音乐的文本特征而背景音乐中不存在文本信息时，随机生成的文本特征。

S103，将目标特征输入预先训练的神经网络模型，得到目标视频的音乐类别信息；其中，神经网络模型是根据样本视频和预先标定的样本视频的音乐类别信息训练得到的、用于识别目标视频的音乐类别的模型。

为了识别目标特征的音乐类别，可以预先根据样本视频和预先标定的样本视频的音乐类别信息训练神经网络模型。进而，在训练好神经网络模型后，可以将目标特征输入训练好的神经网络模型，使得训练好的神经网络模型输出目标视频的音乐类别。本实施例中，目标视频的音乐类别信息可以包括：第一类别和第二类别，那么，训练好的神经网络模型可以输出目标视频为第一类别或第二类别的类别结果。

可选地，神经网络模型的训练过程，可以包括如下步骤B1-B3：

步骤B1，获取样本视频以及预先标定的样本视频的音乐类别。

其中，样本视频和预先标定的样本视频的音乐类别是训练神经网络模型的训练样本。训练样本的个数可以根据经验或实际需要进行设定。本实施例中，可以通过人工标定的方式预先标定样本视频的音乐类别，即通过人工标定的方式预先标定出每一样本视频为第一类别或第二类别。样本视频可以在预先构建的样本视频库中获取。由于对每一样本视频的标定结果为第一类别或第二类别，所以，从这一角度样本视频可以包括：正样本视频和负样本视频。其中，正样本视频的音乐类别可以为第一类别，负样本视频的音乐类别可以为第二类别。

步骤B2，提取样本视频的样本背景音乐的样本特征，其中，样本特征是与样本背景音乐的音频和/或文本有关的特征。

在获取样本视频以及预先标定的样本视频的音乐类别之后，可以进一步提取样本视频的样本背景音乐的样本特征，利用样本特征和预先标定的样本视频的音乐类别，训练神经网络模型。

提取样本视频的样本背景音乐的样本特征的方式可以参考S102中提取目标视频的背景音乐的目标特征的方式，这里不再赘述。

需要说明的是，训练神经网络模型的所利用的样本特征的具体形式，和目标特征的具体形式具有一致性。即如果目标特征仅包括目标视频的背景音乐的音频特征，则样本特征也可以仅包括样本视频的样本背景音乐的音频特征；如果目标特征仅包括目标视频的背景音乐的文本特征，则样本特征也可以仅包括样本视频的样本背景音乐的文本特征；如果目标特征包括目标视频的背景音乐的音频特征和文本特征，则样本特征也可以包括样本视频的样本背景音乐的音频特征和文本特征。

步骤B3，利用样本特征和预先标定的样本视频的音乐类别，训练初始的神经网络模型，得到训练完成的神经网络模型。

其中，初始的神经网络模型可以是现有的任一种神经网络模型。示例性地，初始的神经网络模型的结构可以是：第一层为输入层，第二层为嵌入层，第三、第四层为全连接层，最后一层为输出层。

利用样本特征和预先标定的样本视频的音乐类别，训练初始的神经网络模型的过程为：不断地调整模型中的参数，使得模型不断收敛到设定的收敛条件，则模型训练完成。当训练好神经网络模型后，就可以利用该训练好的神经网络模型识别目标视频的音乐类别。

其中，神经网络模型的输出可以为二分类的概率值，即属于第一类别的概率值和属于第二类别的概率值。那么，可选地，在一种实现方式中，目标视频的音乐类别信息可以包括：第一类别和第二类别；将目标特征输入预先训练的神经网络模型，得到目标视频的音乐类别信息的步骤，可以包括如下步骤C1-C3：

步骤C1：将目标特征输入预先训练的神经网络模型，得到目标视频对应的第一概率值和第二概率值；其中，第一概率值为：目标视频的音乐类别为第一类别的概率，第二概率值为：目标视频的音乐类别为第二类别的概率。

其中，神经网络模型中包括一个分类器，在将目标特征输入预先训练的神经网络模型后，该分类器可以输出目标视频的音乐类别为第一类别的第一概率值，同时，也可以输出目标视频的音乐类别为第二类别的第二概率值。需要说明的是，第一概率值和第二概率值之和为1。

步骤C2：若第一概率值大于第二概率值，判定目标视频的音乐类别为第一类别。

若第一概率值大于第二概率值，说明：目标视频的音乐类别为第一类别的可能性更大，则可以判定目标视频的音乐类别为第一类别。

步骤C3：若第一概率值小于第二概率值，判定目标视频的音乐类别为第二类别。

若第一概率值小于第二概率值，说明：目标视频的音乐类别为第二类别的可能性更大，则可以判定目标视频的音乐类别为第二类别。

需要说明的是，在具体应用中，神经网络模型的输出结果也可以类别结果，即第一类别或第二类别，这也是合理的。

本申请的实施例提供的技术方案可以包括以下有益效果：本申请预先根据样本视频和标定的样本视频的音乐类别信息训练神经网络模型。进而，在识别目标视频的音乐类别时，提取目标视频的目标特征，将目标特征输入预先训练的神经网络模型，得到目标视频的音乐类别信息。因此，本申请可以更高效地识别视频的音乐类别。

图2是根据一示例性实施例示出的一种视频信息识别装置的框图。参照图2，该装置包括：第一获取模块201、第一提取模块202和输入模块203。其中，

第一获取模块201，被配置为获取待识别的目标视频；

第一提取模块202，被配置为提取所述目标视频的背景音乐的目标特征，其中，所述目标特征是与所述背景音乐的音频和/或文本有关的特征；

输入模块203，被配置为将所述目标特征输入预先训练的神经网络模型，得到所述目标视频的音乐类别信息；其中，所述神经网络模型是根据样本视频和预先标定的所述样本视频的音乐类别信息训练得到的、用于识别所述目标视频的音乐类别的模型。

可选地，所述装置还包括：

可选地，所述音乐类别信息包括：第一类别和第二类别；所述输入模块203，包括：

可选地，所述目标特征包括：音频特征和/或文本特征。

可选地，所述第一提取模块202，包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

另外，相应于上述实施例所提供的一种视频信息识别方法，本申请实施例还提供了一种电子设备，如图3所示，该电子设备可以包括：

处理器310；

用于存储处理器可执行指令的存储器320；

其中，所述处理器310被配置为：执行所述存储器320上所存放的指令时，实现本申请实施例所提供的一种视频信息识别方法的步骤。

可以理解的是，该电子设备可以是服务器或是终端设备，在具体应用中，该终端设备可以为移动电话、计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

图4是根据一示例性实施例示出的一种用于视频信息识别的装置400的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电力组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件404和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是根据一示例性实施例示出的一种用于视频信息识别的装置500的框图。例如，装置500可以被提供为一服务器。参照图5，装置500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述方法。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

另外，本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本申请实施例所提供的一种视频信息识别方法的步骤。

另外，本申请实施例还提供一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行本申请实施例所提供的一种视频信息识别方法的步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频信息识别方法，其特征在于，包括：

获取待识别的目标视频；

2.根据权利要求1所述的视频信息识别方法，其特征在于，所述神经网络模型的训练过程，包括：

3.根据权利要求1或2所述的视频信息识别方法，其特征在于，所述音乐类别信息包括：第一类别和第二类别；

4.根据权利要求1或2所述的视频信息识别方法，其特征在于，所述目标特征包括：音频特征和/或文本特征。

5.根据权利要求4所述的视频信息识别方法，其特征在于，所述音频特征包括：对所述背景音乐的音频进行傅里叶变换所得的特征。

6.根据权利要求4所述的视频信息识别方法，其特征在于，所述文本特征包括：对所述背景音乐的文本进行关键词提取所得到的关键词，和/或，所述关键词对应的词频。

7.根据权利要求4所述的视频信息识别方法，其特征在于，所述目标视频的背景音乐的文本特征的提取方式，包括：

判断所述目标视频的背景音乐是否存在文本信息；

8.一种视频信息识别装置，其特征在于，包括：

第一获取模块，被配置为获取待识别的目标视频；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行所述存储器上所存放的指令时，实现权利要求1-7任一所述的视频信息识别方法。

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1-7任一所述的视频信息识别方法。