CN109117777B

CN109117777B - 生成信息的方法和装置

Info

Publication number: CN109117777B
Application number: CN201810877553.3A
Authority: CN
Inventors: 李甫; 何栋梁; 文石磊; 孙昊
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2022-07-01
Anticipated expiration: 2038-08-03
Also published as: CN109117777A

Abstract

本申请实施例公开了生成信息的方法和装置。该生成信息的方法的一具体实施方式包括：获取待识别视频；提取待识别视频的图像特征序列和语音特征序列；基于图像特征序列和语音特征序列，确定待识别视频对应各个标签的概率值；将概率值大于阈值的标签确定为待识别视频的标签。该实施方式中的图像特征序列和语音特征序列利用了视频的时序结构，可将视频作为一个完整的事件进行考虑，也同时考虑了图像和语音的双流特征，使得为视频确定的标签更加精准和丰富。

Description

生成信息的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及计算机网络技术领域，尤其涉及生成信息的方法和装置。

背景技术

视频大规模自动标签技术，即通过分析、理解视频的内容、语义，自动输出该视频相关的实体标签，描述视频内容，用于视频的推荐。近年来短视频内容与日俱增，人工审核速度已远远跟不上视频增长的速度，导致大量视频不能在线上展示，浪费资源。因此亟需一种视频自动打标签的技术，来辅助编辑自动对视频内容分析打标签，提高人工审核效率。

视频标签技术是对视频中出现的物体，明星，行为等作识别，输出一些具体的实体名词，例如名牌车辆，明星姓名，亲吻等。这些实体名词与视频分类的类别相比，粒度较小，能更细致的描述视频的内容，从多维度，多方面刻画视频的语义，从而达到更有效的推荐效果。因此，我们需要构建一个庞大的体系结构来覆盖尽可能多的实体名词。

目前，对视频打标签一般采用的方案为：首先从视频中抽取图像帧，然后利用图像分类或检测的技术来识别图中物体，达到对视频打标签的目的。主要有以下几种方案：(1)图像分类、检测。利用当前最佳的图像识别CNN模型来对单帧图像进行分类或检测其中的物体。(2)视频标题、图像OCR。若视频有对应的标题或周边描述文本信息，也可以作为视频描述的手段的补充。此外，也可以利用基于图像的OCR技术，来识别单帧图像中出现的文字，再利用NLP的技术提取出关键词汇。(3)语音ASR。将视频中的语音片段单独提取出来，使用ASR的技术将语音翻译成文本，识别出关键实体词汇。

发明内容

本申请实施例提供了生成信息的方法和装置。

第一方面，本申请实施例提供了一种生成信息的方法，包括：一种生成信息的方法，包括：获取待识别视频；提取待识别视频的图像特征序列和语音特征序列；基于图像特征序列和语音特征序列，确定待识别视频对应各个标签的概率值；将概率值大于阈值的标签确定为待识别视频的标签。

在一些实施例中，提取待识别视频的图像特征序列包括：均匀抽取待识别视频的视频帧，得到待识别视频帧序列；采用图像分类网络对待识别视频帧序列进行特征提取，得到待识别视频的图像特征序列。

在一些实施例中，提取待识别视频的语音特征序列包括：抽取待识别视频的音频信号；将待识别视频的音频信号输入语音分类的卷积神经网络，对每秒的语音进行特征提取，得到待识别视频的语音特征序列。

在一些实施例中，基于图像特征序列和语音特征序列，确定待识别视频对应各个标签的概率值包括：将图像特征序列和语音特征序列输入预先训练的双流长短期记忆网络，得到待识别视频对应各个标签的概率值。

在一些实施例中，预先训练的双流长短期记忆网络经由以下步骤确定：获取附有视频标签的视频样本；均匀抽取视频样本的视频帧；采用图像分类网络对所抽取的视频帧进行特征提取，得到视频样本的图像特征序列；抽取视频样本中的音频信号；将视频样本中的音频信号输入语音分类的卷积神经网络，对每秒的语音进行特征提取，得到视频样本的语音特征序列；将视频样本的图像特征序列、视频样本的语音特征序列作为输入，将视频样本的视频标签作为输出，训练双流长短期记忆网络。

在一些实施例中，图像分类网络基于采用时序分段网络所建模的视频样本的视频帧的特征和视频样本对应的标签训练得到。

在一些实施例中，语音分类的卷积神经网络基于以下步骤确定：提取视频样本的音频信号中的梅尔标度滤波器组特征；基于梅尔标度滤波器组特征和视频样本的音频信号对应的标签，训练语音分类的卷积神经网络。

在一些实施例中，视频样本基于以下步骤确定：获取信息流数据库中所有视频的已标注标签集合；根据出现频率从高到低排序已标注标签；从排序后的已标注标签中提取预设数量的标签作为候选标签集合；对候选标签集合进行筛选，过滤掉符合过滤规则的词语；向量化过滤后的候选标签集合中的候选标签，计算两两候选标签之间的相似度；合并相似度大于预定阈值的两个候选标签；判断合并后的候选标签中各标签下的视频是否具有外观一致性和语义相似性，过滤掉具有歧义的标签，得到选中的标签；基于选中的标签，构建视频样本。

在一些实施例中，生成信息的方法还包括：提取双流长短期记忆网络的全连接层输出的特征向量；比对特征向量与待推荐视频的特征向量，得到视频相似度；基于视频相似度，从待推荐视频中确定向用户推荐的视频。

第二方面，本申请实施例提供了一种生成信息的装置，包括：视频获取单元，被配置成获取待识别视频；序列提取单元，被配置成提取待识别视频的图像特征序列和语音特征序列；概率值确定单元，被配置成基于图像特征序列和语音特征序列，确定待识别视频对应各个标签的概率值；标签确定单元，被配置成将概率值大于阈值的标签确定为待识别视频的标签。

在一些实施例中，序列提取单元包括：视频帧抽取子单元，被配置成均匀抽取待识别视频的视频帧，得到待识别视频帧序列；图像特征提取子弹元，被配置成采用图像分类网络对待识别视频帧序列进行特征提取，得到待识别视频的图像特征序列。

在一些实施例中，序列提取单元包括：音频抽取子单元，被配置成抽取待识别视频的音频信号；语音特征提取子单元，被配置成将待识别视频的音频信号输入语音分类的卷积神经网络，对每秒的语音进行特征提取，得到待识别视频的语音特征序列。

在一些实施例中，概率值确定单元进一步被配置成：将图像特征序列和语音特征序列输入预先训练的双流长短期记忆网络，得到待识别视频对应各个标签的概率值。

在一些实施例中，概率值确定单元中的预先训练的双流长短期记忆网络经由以下步骤确定：获取附有视频标签的视频样本；均匀抽取视频样本的视频帧；采用图像分类网络对所抽取的视频帧进行特征提取，得到视频样本的图像特征序列；抽取视频样本中的音频信号；将视频样本中的音频信号输入语音分类的卷积神经网络，对每秒的语音进行特征提取，得到视频样本的语音特征序列；将视频样本的图像特征序列、视频样本的语音特征序列作为输入，将视频样本的视频标签作为输出，训练双流长短期记忆网络。

在一些实施例中，概率值确定单元中的图像分类网络基于采用时序分段网络所建模的视频样本的视频帧的特征和视频样本对应的标签训练得到。

在一些实施例中，概率值确定单元中的语音分类的卷积神经网络基于以下步骤确定：提取视频样本的音频信号中的梅尔标度滤波器组特征；基于梅尔标度滤波器组特征和视频样本的音频信号对应的标签，训练语音分类的卷积神经网络。

在一些实施例中，概率值确定单元中的视频样本基于以下步骤确定：获取信息流数据库中所有视频的已标注标签集合；根据出现频率从高到低排序已标注标签；从排序后的已标注标签中提取预设数量的标签作为候选标签集合；对候选标签集合进行筛选，过滤掉符合过滤规则的词语；向量化过滤后的候选标签集合中的候选标签，计算两两候选标签之间的相似度；合并相似度大于预定阈值的两个候选标签；判断合并后的候选标签中各标签下的视频是否具有外观一致性和语义相似性，过滤掉具有歧义的标签，得到选中的标签；基于选中的标签，构建视频样本。

在一些实施例中，生成信息的装置还包括：向量提取单元，被配置成提取双流长短期记忆网络的全连接层输出的特征向量；相似度确定单元，被配置成比对特征向量与待推荐视频的特征向量，得到视频相似度；视频确定单元，被配置成基于视频相似度，从待推荐视频中确定向用户推荐的视频。

第三方面，本申请实施例提供了一种设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任一的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一的方法。

本申请实施例提供的生成信息的方法和装置，首先，获取待识别视频；之后，提取待识别视频的图像特征序列和语音特征序列；之后，基于图像特征序列和语音特征序列，确定待识别视频对应各个标签的概率值；最后，将概率值大于阈值的标签确定为待识别视频的标签。在这一过程中，由于图像特征序列和语音特征序列利用了视频的时序结构，可将视频作为一个完整的事件进行考虑，也同时考虑了图像和语音的双流特征，使得为视频确定的标签更加精准和丰富。

附图说明

通过阅读参照以下附图所作的对非限制性实施例详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的生成信息的方法的一个实施例的流程示意图；

图3是根据本申请实施例的生成信息的方法的一个应用场景示意图；

图4a是根据本申请的生成信息的方法的又一个实施例的流程示意图；

图4b是图4a中的双流长短期记忆网络的一个实施例的示例性结构图；

图5是本申请的生成信息的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105、106。网络104用以在终端设备101、102、103和服务器105、106之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102、103通过网络104与服务器105、106交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如搜索引擎类应用、购物类应用、即时通信工具、邮箱客户端、社交平台软件、视频播放类应用等。

终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105、106可以是提供各种服务的服务器，例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对终端提交的数据进行分析、存储或计算等处理，并将分析、存储或计算结果推送给终端设备。

需要说明的是，在实践中，本申请实施例所提供的生成信息的方法一般由服务器105、106执行，相应地，生成信息的装置一般设置于服务器105、106中。然而，当终端设备的性能可以满足该方法的执行条件或该设备的设置条件时，本申请实施例所提供的生成信息的方法也可以由终端设备101、102、103执行，生成信息的装置也可以设置于终端设备101、102、103中。

应该理解，图1中的终端车辆、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端车辆、网络和服务器。

继续参考图2，示出了根据本申请的生成信息的方法的一个实施例的流程200。该生成信息的方法，包括以下步骤：

步骤201，获取待识别视频。

在本实施例中，上述生成信息的方法运行于其上的电子设备(例如图1所示的服务器或终端)可以从视频库或其它终端获取待识别的视频。

步骤202，提取待识别视频的图像特征序列和语音特征序列。

在本实施例中，对待识别视频，可以分别进行获取图像特征序列和获取语音特征序列的处理。

在获取图像特征序列时，可以获取待识别视频的视频帧，并对视频帧提取图像特征，从而得到对应待识别视频的视频帧序列。

在获取语音特征序列时，可以抽取待识别视频的音频信号，再对待识别视频的音频信号分段，提取各段音频信号的语音特征，从而得到待识别视频的语音特征序列。

在这里，提取图像特征的方法，可以为现有技术或未来发展的技术中提取图像特征的方法，本申请对此不作限定。例如，提取图像特征的方法可以为方向梯度直方图特征提取算法、LBP(局部二值模式)特征提取算法、Haar特征(包括边缘特征、线性特征、中心特征和对角线特征，组合成特征模板)提取算法等。

在一个具体的示例中，获取图像特征序列可以包括如下步骤：获取待识别视频的视频帧，得到视频帧序列，之后采用图像分类网络对视频帧序列进行特征提取，得到图像特征序列。

这里的图像分类网络，是训练后具有图像分类能力的卷积神经网络，用于根据各个输入图像的特征得到图像分类结果。卷积神经网络可以采用AlexNet、VGG、GoogLeNet、Resnet等作为核心网络结构。

在这里，提取语音特征的方法，可以为现有技术或未来发展的技术中提取语音特征的方法，本申请对此不作限定。例如，提取语音特征的方法可以为动态时间弯折算法(DTW)、隐形马尔科夫模型(HMM)和人工神经网络(ANN)等。

在一个具体的示例中，获取语音特征序列可以包括如下步骤：抽取视频样本中的音频信号，将音频信号输入语音分类的卷积神经网络，对每秒的语音进行特征提取，得到语音特征序列。

这里的语音分类的卷积神经网络，是训练后具有语音分类能力的卷积神经网络，用于根据各个输入音频的特征得到音频分类结果。卷积神经网络可以采用AlexNet、VGG、GoogLeNet、Resnet等作为核心网络结构。

步骤203，基于图像特征序列和语音特征序列，确定待识别视频对应各个标签的概率值。

在本实施例中，在基于图像分类网络和语音分类的卷积神经网络分别获取到图像特征序列和语音特征序列之后，可以分别根据这两个特征序列确定图像分类标签和语音分类标签，最后按照图像分类标签和语音分类标签中各个标签的预设权重和预设分值得到各个标签的评分，从而确定待识别视频对应各个标签的概率值。这里的预设权重和预设分值，可以基于NLP(自然语言处理)技术来确定。

在基于图像分类网络和语音分类的卷积神经网络分别获取到图像特征序列和语音特征序列之后，也可以将这两个特征序列作为双流长短期记忆网络的输入，从而在特征序列阶段进行合并，根据合并后的特征，得到最终的待识别视频对应各个标签的概率值。

步骤204，将概率值大于阈值的标签确定为待识别视频的标签。

在本实施例中，在步骤203确定待识别视频对应各个标签的概率之后，可以将概率值大于阈值的标签作为有价值的标签，确定为待识别视频的标签。

以下结合图3，描述本申请的生成信息的方法的示例性应用场景。

如图3所示，图3示出了根据本申请的生成信息的方法的一个应用场景的示意性流程图。

如图3所示，生成信息的方法300运行于电子设备310中，可以包括：

首先，获取待识别视频301；

之后，提取待识别视频301的图像特征序列302和语音特征序列303；

之后，基于图像特征序列302和语音特征序列303，确定待识别视频对应各个标签的概率值304；

之后，将概率值大于阈值的标签305确定为待识别视频的标签306。

应当理解，上述图3中所示出的生成信息的方法的应用场景，仅为对于生成信息的方法的示例性描述，并不代表对该方法的限定。例如，上述图3中示出的各个步骤，可以进一步采用更为细节的实现方法。

本申请上述实施例的生成信息的方法，可以获取待识别视频；提取待识别视频的图像特征序列和语音特征序列；基于图像特征序列和语音特征序列，确定待识别视频对应各个标签的概率值；将概率值大于阈值的标签确定为待识别视频的标签。在这一过程中，可以利用了视频的时序结构建模一个完整的事件，也同时考虑了图像和语音的双流特征，使得输出的标签更加精准丰富。

请参考图4，其示出了根据本申请的生成信息的方法的又一个实施例的流程图。

如图4所示，本实施例的生成信息的方法的流程400，可以包括以下步骤：

在步骤401中，获取待识别视频。

在本实施例中，上述生成信息的方法运行于其上的电子设备(例如图1所示的服务器或终端)可以从图像采集装置(例如摄像头或相机等)获取待识别视频。

在步骤402中，均匀抽取待识别视频的视频帧，得到待识别视频帧序列。

在本实施例中，通过均匀抽取视频帧，可以显著减小待识别视频的数据量，从而加速获得最终结果的效率。

在步骤403中，采用图像分类网络对待识别视频帧序列进行特征提取，得到待识别视频的图像特征序列。

在本实施例中，图像分类网络是训练后具有图像分类能力的卷积神经网络，用于根据各个输入图像的特征得到图像分类结果。卷积神经网络可以采用AlexNet、VGG、GoogLeNet、Resnet等作为核心网络结构。

在本实施例的一些可选实现方式中，图像分类网络基于采用时序分段网络(Temporal Segment Networks，缩写为TSN)所建模的视频帧的特征和视频样本对应的标签训练得到。

在本实现方式中，TSN网络由双路CNN组成，包括时间卷积神经网络和空间卷积神经网络。在从视频样本的视频帧中抽取视频片段之后，每个视频片段包含一帧图像，可以将视频片段序列分别输入TSN的双路CNN，每一片段得到片段特征，再将各片段输入片段分布式一致性网络(segmental consesus)，得到输出的视频的特征。基于该输出的特征和视频样本对应的标签，可以训练图像分类网络。

在步骤404中，抽取待识别视频的音频信号。

在本实施例中，可以采用现有技术中的抽取视频音频的方法来抽取待识别视频的音频信号，本申请对此不作限定。例如，可以获取视频的音频文件或采用工具将视频格式转换为音频格式，从而得到音频信号。

在步骤405中，将待识别视频的音频信号输入语音分类的卷积神经网络，对每秒的语音进行特征提取，得到待识别视频的语音特征序列。

在本实施例中，语音分类的卷积神经网络，是训练后具有语音分类能力的卷积神经网络，用于根据各个输入音频的特征得到音频分类结果。卷积神经网络可以采用AlexNet、VGG、GoogLeNet、Resnet等作为核心网络结构。

在本实施例的一些可选实现方式中，语音分类的卷积神经网络基于以下步骤确定：提取视频样本的音频信号中的梅尔标度滤波器组特征；基于梅尔标度滤波器组特征和音频信号对应的标签，训练语音分类的卷积神经网络。

在本实现方式中，语音分类的卷积神经网络所提取的特征为音频信号中的梅尔标度滤波器组(Fbank)特征，采用该特征和视频样本的音频信号对应的标签，可以训练语音分类的卷积神经网络。

在步骤406中，将图像特征序列和语音特征序列输入预先训练的双流长短期记忆网络，得到待识别视频对应各个标签的概率值。

在本实施例中，预先训练的双流长短期记忆网络可以输入图像特征序列和语音特征序列，之后对于图像特征序列和语音特征序列，分别考虑不同时间研究对象的特征，再次进行特征序列的提取，并分别采用注意力将图像特征序列提取后的特征合并在一起形成更长的向量，将语音特征序列合并在一起形成更长的向量，并对两个合并后的向量再次合并在一起形成更长的向量，最后采用全连接层将学到的“分布式特征表示”映射到样本标记空间，最后采用分类器确定待识别视频对应各个标签的概率值。

在一个具体的示例中，预先训练的双流长短期记忆网络可以参考图4b来说明。如图4b所示，双流长短期记忆网络可以包括双向序列模型、注意力模型、全连接层和sigmoid分类器，双向序列模型对于输入待识别视频的RGB图像特征序列和语音特征序列分别进行递归处理，并采用注意力模型分别将递归处理后的图像特征序列合并在一起形成更长的向量、将语音特征序列合并在一起形成更长的向量，并将两个合并后的向量再次合并在一起形成更长的向量，最后采用两个全连接层将学到的“分布式特征表示”映射到样本标记空间，以提高最终分类结果的准确性，最后采用sigmoid分类器确定待识别视频对应各个标签的概率值。由于sigmoid分类器具有比较好的抗干扰性，因此，用sigmoid单元组建起来的人工神经网络也有很好的健壮性。

返回图4a，在本实施例的一些可选实现方式中，预先训练的双流长短期记忆网络经由以下步骤确定：获取附有视频标签的视频样本；均匀抽取视频样本的视频帧；采用图像分类网络对所抽取的视频帧进行特征提取，得到视频样本的图像特征序列；抽取视频样本中的音频信号；将视频样本中的音频信号输入语音分类的卷积神经网络，对每秒的语音进行特征提取，得到视频样本的语音特征序列；将视频样本的图像特征序列、视频样本的语音特征序列作为输入，将视频样本的视频标签作为输出，训练双流长短期记忆网络。

在本实现方式中，可以通过以图像特征序列、语音特征序列为输入，以视频样本的视频标签为输出，训练双流长短期记忆网络，从而分别考虑不同时间研究对象的特征来得到输出结果，提高了双流长短期记忆网络的分类结果的准确性。

上述的视频样本，可以从信息流库中直接获取已标注标签集合，也可以对从信息流库中获取的已标注标签集合进行进一步的数据清洗，得到用于训练的视频样本。

在本实施例的一些可选实现方式中，视频样本基于以下步骤确定：获取信息流数据库中所有视频的已标注标签集合；根据出现频率从高到低排序已标注标签；从排序后的已标注标签中提取预设数量的标签作为候选标签集合；对候选标签集合进行筛选，过滤掉符合过滤规则的词语；向量化过滤后的候选标签集合中的候选标签，计算两两候选标签之间的相似度；合并相似度大于预定阈值的两个候选标签；判断合并后的候选标签中各标签下的视频是否具有外观一致性和语义相似性，过滤掉具有歧义的标签，得到选中的标签；基于选中的标签，构建视频样本。

在本实现方式中，选中的标签还可以按照标签的大类和子分类，构成多级标签，以便根据子分类标签的概率的大小，调整最后采用的标签。如果某个子分类标签的概率比较高，则认为比较可信，同时可以输出其对应的二级标签和一级标签，增加标签个数，和标签粒度；如果某个子分类标签的概率比较低，则认为不可信，可以将该标签向二级或者一级标签映射，在粗粒度的标签上，一般准确率会更高一些。

在本实现方式的一个具体的示例中，由于Feed(信息流)库中的视频具有百万级别的外包标注结果，在拿到所有标签结果后，可以按标签出现频率从高到低排序，取出前1万个标签作为候选标签集合。

之后，可以采用人工直接观看这1万个实体标签词语，过滤掉符合过滤规则的词语，例如过滤掉形容词、动词、不能视觉可分(例如绕口令)、明星人名(可通过人脸识别技术识别，因此不加入视频标签集合)等不符合视频标签要求的词语。

然后，对每个标签，观看其对应的视频内容，判断同一标签下的视频是否具有外观一致性和语义相似性。例如标签“考拉”，既是一种动物，也是某明星的女儿的小名，具有歧义性，就直接过滤掉。

最后，经过上述步骤，可以得到3000个标签，并将每个标签都构建成三级的体系，如体育->球类运动->足球。同时把这些标签对应的所有视频数据保留，共计1千万左右个视频，这些数据可用于后续的模型训练。例如，可以直接采用第三级标签进行训练：如果某个标签概率比较高，则认为比较可信，同时可以输出其对应的二级标签和一级标签，增加标签个数，和标签粒度；如果某个标签概率比较低，则认为不可信，可以将该标签向二级或者一级标签映射，在粗粒度的标签上，一般准确率会更高一些。

在步骤407中，将概率值大于阈值的标签确定为待识别视频的标签。

在本实施例中，在确定待识别视频对应各个标签的概率之后，可以将概率值大于阈值的标签作为有价值的标签，确定为待识别视频的标签。

在本实施例的一些可选实现方式中，生成信息的方法在上述图2-图4中所述的生成信息的方法的实施例的基础上，还包括以下步骤：提取双流长短期记忆网络的全连接层输出的特征向量；比对特征向量与待推荐视频的特征向量，得到视频相似度；基于视频相似度，从待推荐视频中确定向用户推荐的视频。该实现方式可以提高向用户推荐的视频的精准度。

本申请上述实施例的生成信息的方法，可以采用LSTM递归神经网络来利用视频的时序结构建模一个完整的事件，也同时考虑了图像和语音的双流特征，使得输出的标签更加精准丰富。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种生成信息的装置的一个实施例，该装置实施例与图2-图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的生成信息的装置500可以包括：视频获取单元510，被配置成获取待识别视频；序列提取单元520，被配置成提取待识别视频的图像特征序列和语音特征序列；概率值确定单元530，被配置成基于图像特征序列和语音特征序列，确定待识别视频对应各个标签的概率值；标签确定单元540，被配置成将概率值大于阈值的标签确定为待识别视频的标签。

在本实施例的一些可选实现方式中，序列提取单元520包括：视频帧抽取子单元521，被配置成均匀抽取待识别视频的视频帧，得到待识别视频帧序列；图像特征提取子弹元522，被配置成采用图像分类网络对待识别视频帧序列进行特征提取，得到待识别视频的图像特征序列。

在本实施例的一些可选实现方式中，序列提取单元520包括：音频抽取子单元523，被配置成抽取待识别视频的音频信号；语音特征提取子单元524，被配置成将待识别视频的音频信号输入语音分类的卷积神经网络，对每秒的语音进行特征提取，得到待识别视频的语音特征序列。

在本实施例的一些可选实现方式中，概率值确定单元进一步被配置成：将图像特征序列和语音特征序列输入预先训练的双流长短期记忆网络，得到待识别视频对应各个标签的概率值。

在本实施例的一些可选实现方式中，概率值确定单元中的预先训练的双流长短期记忆网络经由以下步骤确定：获取附有视频标签的视频样本；均匀抽取视频样本的视频帧；采用图像分类网络对所抽取的视频帧进行特征提取，得到视频样本的图像特征序列；抽取视频样本中的音频信号；将视频样本中的音频信号输入语音分类的卷积神经网络，对每秒的语音进行特征提取，得到视频样本的语音特征序列；将视频样本的图像特征序列、视频样本的语音特征序列作为输入，将视频样本的视频标签作为输出，训练双流长短期记忆网络。

在本实施例的一些可选实现方式中，概率值确定单元中的图像分类网络基于采用时序分段网络所建模的视频样本的视频帧的特征和视频样本对应的标签训练得到。

在本实施例的一些可选实现方式中，概率值确定单元中的语音分类的卷积神经网络基于以下步骤确定：提取视频样本的音频信号中的梅尔标度滤波器组特征；基于梅尔标度滤波器组特征和视频样本的音频信号对应的标签，训练语音分类的卷积神经网络。

在本实施例的一些可选实现方式中，概率值确定单元中的视频样本基于以下步骤确定：获取信息流数据库中所有视频的已标注标签集合；根据出现频率从高到低排序已标注标签；从排序后的已标注标签中提取预设数量的标签作为候选标签集合；对候选标签集合进行筛选，过滤掉符合过滤规则的词语；向量化过滤后的候选标签集合中的候选标签，计算两两候选标签之间的相似度；合并相似度大于预定阈值的两个候选标签；判断合并后的候选标签中各标签下的视频是否具有外观一致性和语义相似性，过滤掉具有歧义的标签，得到选中的标签；基于选中的标签，构建视频样本。

在本实施例的一些可选实现方式中，生成信息的装置还包括：向量提取单元，被配置成提取双流长短期记忆网络的全连接层输出的特征向量；相似度确定单元，被配置成比对特征向量与待推荐视频的特征向量，得到视频相似度；视频确定单元，被配置成基于视频相似度，从待推荐视频中确定向用户推荐的视频。

应当理解，装置500中记载的诸单元可以与参考图2-图4描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。

下面参考图6，其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。图6示出的终端设备或服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括视频获取单元、序列提取单元、概率值确定单元和标签确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，视频获取单元还可以被描述为“获取待识别视频的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取待识别视频；提取待识别视频的图像特征序列和语音特征序列；基于图像特征序列和语音特征序列，确定待识别视频对应各个标签的概率值；将概率值大于阈值的标签确定为待识别视频的标签。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种生成信息的方法，包括：

获取待识别视频；

提取所述待识别视频的图像特征序列和语音特征序列；

基于所述图像特征序列和所述语音特征序列以及预先训练的双流长短期记忆网络，确定待识别视频对应各个标签的概率值，所述双流长短期记忆网络基于附有视频标签的视频样本训练得到，以及在所述训练过程中，基于所述视频样本的最低级的子分类标签进行训练，并根据该子分类标签对应的概率的大小，调整输出的标签级数，其中，所述视频标签为多级标签，所述多级标签按照标签的大类和子分类生成；

将概率值大于阈值的标签确定为所述待识别视频的标签。

2.根据权利要求1所述的方法，其中，所述提取所述待识别视频的图像特征序列包括：

均匀抽取所述待识别视频的视频帧，得到待识别视频帧序列；

采用图像分类网络对待识别视频帧序列进行特征提取，得到所述待识别视频的图像特征序列。

3.根据权利要求1所述的方法，其中，所述提取所述待识别视频的语音特征序列包括：

抽取所述待识别视频的音频信号；

将所述待识别视频的音频信号输入语音分类的卷积神经网络，对每秒的语音进行特征提取，得到所述待识别视频的语音特征序列。

4.根据权利要求1所述的方法，其中，所述基于所述图像特征序列和所述语音特征序列，确定待识别视频对应各个标签的概率值包括：

将所述图像特征序列和所述语音特征序列输入预先训练的双流长短期记忆网络，得到所述待识别视频对应各个标签的概率值。

5.根据权利要求4所述的方法，其中，所述预先训练的双流长短期记忆网络经由以下步骤确定：

获取附有视频标签的视频样本；

均匀抽取所述视频样本的视频帧；

采用图像分类网络对所抽取的视频帧进行特征提取，得到所述视频样本的图像特征序列；

抽取所述视频样本中的音频信号；

将所述视频样本中的音频信号输入语音分类的卷积神经网络，对每秒的语音进行特征提取，得到所述视频样本的语音特征序列；

将所述视频样本的图像特征序列、所述视频样本的语音特征序列作为输入，将所述视频样本的视频标签作为输出，训练双流长短期记忆网络。

6.根据权利要求5所述的方法，其中，所述图像分类网络基于采用时序分段网络所建模的所述视频样本的视频帧的特征和所述视频样本对应的标签训练得到。

7.根据权利要求5所述的方法，其中，所述语音分类的卷积神经网络基于以下步骤确定：

提取视频样本的音频信号中的梅尔标度滤波器组特征；

基于所述梅尔标度滤波器组特征和所述视频样本的音频信号对应的标签，训练语音分类的卷积神经网络。

8.根据权利要求5所述的方法，其中，所述视频样本基于以下步骤确定：

获取信息流数据库中所有视频的已标注标签集合；

根据出现频率从高到低排序所述已标注标签；

从排序后的已标注标签中提取预设数量的标签作为候选标签集合；

对所述候选标签集合进行筛选，过滤掉符合过滤规则的词语；

向量化过滤后的候选标签集合中的候选标签，计算两两候选标签之间的相似度；

合并相似度大于预定阈值的两个候选标签；

判断合并后的候选标签中各标签下的视频是否具有外观一致性和语义相似性，过滤掉具有歧义的标签，得到选中的标签；

基于所述选中的标签，构建视频样本。

9.根据权利要求1所述的方法，其中，所述生成信息的方法还包括：

提取所述双流长短期记忆网络的全连接层输出的特征向量；

比对所述特征向量与待推荐视频的特征向量，得到视频相似度；

基于所述视频相似度，从所述待推荐视频中确定向用户推荐的视频。

10.一种生成信息的装置，包括：

视频获取单元，被配置成获取待识别视频；

序列提取单元，被配置成提取所述待识别视频的图像特征序列和语音特征序列；

概率值确定单元，被配置成基于所述图像特征序列和所述语音特征序列以及预先训练的双流长短期记忆网络，确定待识别视频对应各个标签的概率值，所述双流长短期记忆网络基于附有视频标签的视频样本训练得到，以及在所述训练过程中，基于所述视频样本的最低级的子分类标签进行训练，并根据该子分类标签对应的概率的大小，调整输出的标签级数，其中，所述视频标签为多级标签，所述多级标签按照标签的大类和子分类生成；

标签确定单元，被配置成将概率值大于阈值的标签确定为所述待识别视频的标签。

11.根据权利要求10所述的装置，其中，所述序列提取单元包括：

视频帧抽取子单元，被配置成均匀抽取所述待识别视频的视频帧，得到待识别视频帧序列；

图像特征提取子弹元，被配置成采用图像分类网络对待识别视频帧序列进行特征提取，得到所述待识别视频的图像特征序列。

12.根据权利要求10所述的装置，其中，所述序列提取单元包括：

音频抽取子单元，被配置成抽取所述待识别视频的音频信号；

语音特征提取子单元，被配置成将所述待识别视频的音频信号输入语音分类的卷积神经网络，对每秒的语音进行特征提取，得到所述待识别视频的语音特征序列。

13.根据权利要求10所述的装置，其中，所述概率值确定单元进一步被配置成：

14.根据权利要求13所述的装置，其中，所述概率值确定单元中的预先训练的双流长短期记忆网络经由以下步骤确定：

获取附有视频标签的视频样本；

均匀抽取所述视频样本的视频帧；

抽取所述视频样本中的音频信号；

15.根据权利要求14所述的装置，其中，所述概率值确定单元中的图像分类网络基于采用时序分段网络所建模的所述视频样本的视频帧的特征和所述视频样本对应的标签训练得到。

16.根据权利要求14所述的装置，其中，所述概率值确定单元中的语音分类的卷积神经网络基于以下步骤确定：

提取视频样本的音频信号中的梅尔标度滤波器组特征；

17.根据权利要求14所述的装置，其中，所述概率值确定单元中的视频样本基于以下步骤确定：

获取信息流数据库中所有视频的已标注标签集合；

根据出现频率从高到低排序所述已标注标签；

合并相似度大于预定阈值的两个候选标签；

基于所述选中的标签，构建视频样本。

18.根据权利要求10所述的装置，其中，所述生成信息的装置还包括：

向量提取单元，被配置成提取所述双流长短期记忆网络的全连接层输出的特征向量；

相似度确定单元，被配置成比对所述特征向量与待推荐视频的特征向量，得到视频相似度；

视频确定单元，被配置成基于所述视频相似度，从所述待推荐视频中确定向用户推荐的视频。

19.一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。