CN113762571A

CN113762571A - 一种短视频类别预测方法、系统、电子设备及存储介质

Info

Publication number: CN113762571A
Application number: CN202011167164.5A
Authority: CN
Inventors: 张金晖
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-12-07

Abstract

本公开提供了一种短视频类别预测方法，包括：获取同一短视频内的多条弹幕；将所述弹幕按时间顺序排列生成弹幕内容序列；将所述弹幕内容序列输入预设的LSTM网络中，利用所述LSTM网络输出所述弹幕内容序列的内容特征向量；根据所述内容特征向量，预测所述短视频的类别。

Description

一种短视频类别预测方法、系统、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，更具体地，涉及一种短视频类别预测方法、系统、电子设备及计算机存储介质。

背景技术

随着互联网智能时代的开启，互联网用户获取资讯的方式越来越多样化，其中，短视频凭借其占用内存小、内容种类繁杂、制作形式多样灵活等特点，短视频成为了用户获取资讯的一个重要途径。因此，对短视频的内容基本审查就显得非常必要。

目前，对短视频进行内容审查的方式主要包括人工审查，由于人工审查的效率低下，需要寻求更加有效的方式提升对短视频的审查效率。

发明内容

有鉴于此，本公开提供了一种短视频类别预测方法、系统、计算机系统及计算机存储介质。

本公开的一个方面提供了一种短视频类别预测方法，包括：获取同一短视频内的多条弹幕；将所述弹幕按时间顺序排列生成弹幕内容序列；将所述弹幕内容序列输入预设的LSTM网络中，利用所述LSTM网络获取所述弹幕内容序列的内容特征；根据所述内容特征，预测所述短视频的类别。

根据本公开的实施例，还包括：在获取所述短视频内的多条弹幕后，去除内容重复的弹幕，保留所述内容重复的弹幕中出现时间最早的弹幕。

根据本公开的实施例，其中，所述将所述弹幕内容序列输入预设的LSTM网络中，利用所述LSTM网络得到所述弹幕内容序列的内容特征包括：利用所述LSTM网络获取所述弹幕内容序列包含的各条弹幕的弹幕特征；利用所述LSTM网络对各所述弹幕特征进行特征学习，获得所述弹幕内容序列的内容特征。

根据本公开的实施例，其中，所述利用所述LSTM网络获取所述弹幕内容序列包含的各条弹幕的弹幕特征包括：依次读取所述弹幕内容序列中的各条弹幕；对所述弹幕中包含的字和各个所述字在所述弹幕中的位置进行嵌入化处理，得到各个所述字的字向量；基于各个所述字的字向量进行特征学习，获得各所述字的字特征向量；将各所述字的字特征向量进行聚焦，获得所述弹幕的弹幕特征向量，所述弹幕特征向量表示所述弹幕特征。

根据本公开的实施例，其中，所述利用所述LSTM网络对各所述弹幕特征进行特征学习，获得所述弹幕内容序列的内容特征包括：将各所述弹幕的弹幕特征及各所述弹幕的位置进行嵌入化处理，得到各所述弹幕的特征输入向量；基于各所述弹幕的特征输入向量进行特征学习，获得各所述弹幕的语义特征向量；将各所述语义特征向量进行聚焦，获得所述弹幕内容序列的内容特征向量，所述内容特征向量表示所述弹幕内容。

根据本公开的实施例，其中，所述LSTM网络通过预设的多种类别的短视频包含的多条弹幕训练得到。

根据本公开的实施例，获取所述内容特征向量后，将所述内容特征向量进行矩阵变换，使所述内容特征向量映射到预设的短视频类别编码上，根据所述短视频类别编码，预测所述短视频的类别。

本公开另一方面提供了一种短视频类别预测系统，包括：弹幕获取模块，用于获取同一短视频内的多条弹幕；排序模块，用于将所述弹幕按时间顺序排列生成弹幕内容序列；内容特征提取模块，用于将所述弹幕内容序列输入预设的LSTM网络中，利用所述LSTM网络获取所述弹幕内容序列的内容特征；类别预测模块，用于根据所述内容特征，预测所述短视频的类别。

根据本公开的实施例，还包括：弹幕去重模块，用于在获取所述短视频内的多条弹幕后，去除内容重复的弹幕，保留所述内容重复的弹幕中出现时间最早的弹幕。

根据本公开的实施例，其中，所述内容特征提取模块包括：弹幕特征获取单元，用于利用所述LSTM网络获取所述弹幕内容序列包含的各条弹幕的弹幕特征；

弹幕内容特征获取单元，用于利用所述LSTM网络对各所述弹幕特征进行特征学习，获得所述弹幕内容序列的内容特征。

根据本公开的实施例，其中，所述弹幕特征获取单元利用所述LSTM网络获取所述弹幕内容序列包含的各条弹幕的弹幕特征包括：依次读取所述弹幕内容序列中的各条弹幕；对所述弹幕中包含的字和各个所述字在所述弹幕中的位置进行嵌入化处理，得到各个所述字的字向量；基于各个所述字的字向量进行特征学习，获得各所述字的字特征向量；将各所述字的字特征向量进行聚焦，获得所述弹幕的弹幕特征向量，所述弹幕特征向量表示所述弹幕特征。

根据本公开的实施例，其中，所述弹幕内容特征获取单元利用所述LSTM网络对各所述弹幕特征进行特征学习，获得所述弹幕内容序列的内容特征包括：将各所述弹幕的弹幕特征及各所述弹幕的位置进行嵌入化处理，得到各所述弹幕的特征输入向量；基于各所述弹幕的特征输入向量进行特征学习，获得各所述弹幕的语义特征向量；将各所述语义特征向量进行聚焦，获得所述弹幕内容序列的内容特征向量，所述内容特征向量表示所述弹幕内容。

根据本公开的实施例，所述类别预测模块获取所述内容特征向量后，将所述内容特征向量进行矩阵变换，使所述内容特征向量映射到预设的短视频类别编码上，根据所述短视频类别编码，预测所述短视频的类别。

本公开的另一个方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的方法。

本公开的另一个方面提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现如上所述的方法。

根据本公开的实施例，通过弹幕内容预测短视频类别，所以至少部分地克服了由于短视频数量大导致的人工审查效率低下的技术问题，可以实现短视频内容的类别自动预测的技术效果。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的短视频类别预测方法的应用场景；

图2示意性示出了本公开实施例提供的短视频类别预测方法的流程图；

图3示意性示出了根据本公开实施例的生成弹幕序列的示意图；

图4示意性示出了本公开实施例提供的利用LSTM网络获取弹幕内容序列的内容特征向量的流程图；

图5示意性示出了根据本公开实施例提供的LSTM网络的示意图；

图6示意性示出了根据本公开实施例提供的操作S231的流程图；

图7示意性示出了根据本公开实施例提供的操作S232的流程图；

图8示意性示出了本公开另一实施例提供的短视频类别预测方法的流程图；

图9示意性示出了根据本公开实施例的短视频类别预测系统的结构框图；

图10示意性示出了根据本公开实施例的内容特征提取模块的结构框图；

图11示意性示出了本公开另一实施例提供的短视频类别预测系统的结构框图；

图12示意性示出了根据本公开实施例的电子设备的计算机系统的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种短视频类别预测方法、系统。该方法包括：获取短视频内的多条弹幕；将弹幕按时间顺序排列生成弹幕内容序列；将所述弹幕内容序列输入预设的LSTM网络中，利用所述LSTM网络得到所述弹幕内容序列的内容特征向量；根据所述内容特征向量，预测所述短视频的类别。通过对短视频内容的类别进行预测，可以进一步实现对该短视频内容的审查，以提高短视频内容的审查效率。

图1示意性示出了本公开实施例提供的短视频类别预测方法的流程图。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的短视频类别预测方法一般可以由服务器105执行。相应地，本公开实施例所提供的短视频类别预测系统一般可以设置于服务器105中。本公开实施例所提供的短视频类别预测方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的短视频类别预测系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者，本公开实施例所提供的短视频类别预测方法也可以由终端设备101、102、或103执行，或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地，本公开实施例所提供的短视频类别预测系统也可以设置于终端设备101、102、或103中，或设置于不同于终端设备101、102、或103的其他终端设备中。

例如，被预测类型的短视频可以原本存储在终端设备101、102、或103中的任意一个(例如，终端设备101，但不限于此)之中，或者存储在外部存储设备上并可以导入到终端设备101中。然后，终端设备101可以在本地执行本公开实施例所提供的短视频类别预测方法，或者将待被预测类型的短视频发送到其他终端设备、服务器、或服务器集群，并由接收该待被预测类型的短视频的其他终端设备、服务器、或服务器集群来执行本公开实施例所提供的短视频类别预测方法。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的短视频类别预测方法的流程图。

如图2所示，该方法包括操作S210～S240。

在操作S210，获取同一短视频内的多条弹幕。

在操作S220，将所述弹幕按时间顺序排列生成弹幕内容序列。

在操作S230，将所述弹幕内容序列输入预设的LSTM网络中，利用所述LSTM网络获取所述弹幕内容序列的内容特征。

在操作S240，根据所述内容特征，预测所述短视频的类别。

在日常生活中，当用户通过弹幕评价短视频时，弹幕内容一般与短视频内容强相关。例如，当一则短视频中的内容为推荐某品牌牙膏时，该短视频的弹幕中包括“这款牙膏气味特别清新”、“我用某品牌好多年了”、“这款牙膏防蛀牙的效果特别好”、“这个牌子的牙膏在哪里可以买到”、“广告创意不错”等，这些弹幕中包含了内容的主体“牙膏”和该主体的品牌，通过这些弹幕内容，可以推断这则短视频的内容是“某品牌牙膏”，进而可以推断这则短视频的内容类别属于“牙膏广告”，甚至可以更加简单的将这则短视频的内容归纳为“广告”。因此，弹幕内容可以作为预测短视频内容类别的一个有力途径。

根据本公开的实施例，当预测短视频的类别时，采集短视频中多条弹幕，弹幕越多，包含的信息越全面，越能准确反应短视频的内容；在采集弹幕后，将弹幕按照时间顺序生成弹幕内容序列，由于弹幕内容序列中的弹幕是按时间顺序排列的，可以按时间顺序反应短视频中不同时间段内的内容；利用预设的LSTM网络将弹幕内容序列中的弹幕按时间顺序相互关联，提取弹幕内容序列的内容特征，该内容特征反映了弹幕内容序列中的弹幕内容，同时，表征了短视频的内容；以此内容特征为依据，即可预测该短视频的类别。该方法可实现短视频内容类别的自动预测，进而加快了短视频内容审查的进度。

图3示意性示出了根据本公开实施例的生成弹幕序列的示意图。

如图3所示，图示的短视频截图中显示了多条弹幕，按照用户从左至右的阅读习惯，一般弹幕从视频右侧向左侧移动，越靠近视频左侧边框的弹幕发出的时间越早，图中用线条将各条弹幕的最左侧的位置标示出来，通过线条示意各弹幕出现的先后顺序。按照时间顺序将各条弹幕进行排列，生成的弹幕内容序列为：①“大叔高光”；②“泰坦尼克？”③“怎么剧场版不是飞机就是船的”；④“排面”；⑤“这个画质好棒哦”；⑥“烟里杀出个威尼斯”。

图4示意性示出了本公开实施例提供的利用LSTM网络获取弹幕内容序列的内容特征向量的流程图。

如图4所示，操作S230利用LSTM网络获取弹幕内容序列的内容特征包括操作S231～S232。

S231，利用所述LSTM网络获取所述弹幕内容序列包含的各条弹幕的弹幕特征。

S232，利用所述LSTM网络对各所述弹幕特征进行特征学习，获得所述弹幕内容序列的内容特征。

根据本公开的实施例，弹幕内容序列中的弹幕是具有时序性的，弹幕本身包含的字也是具有先后顺序的，因此，利用LSTM网络获取弹幕内容序列的内容特征分为S231～S232两层操作，第一层操作利用弹幕包含的字的顺序性，通过关联前后的字，理解弹幕的语义，从而提取每条弹幕的弹幕特征，再利用各条弹幕出现的时序性，将各弹幕的弹幕特征融合，得到弹幕内容序列的内容特征，内容特征向量表征了该短视频中的弹幕内容，同时可以反应短视频中包含了什么内容，可用于预测该短视频的内容的类别。

根据本公开的实施例，所述LSTM网络通过预设的多种类别的短视频包含的多条弹幕训练得到。本公开的实施例的LSTM网络模型包括嵌入化处理模块、LSTM/GRU时间序列处理模块、聚焦模块，其中，嵌入化处理模块用于将输入向量化，LSTM/GRU时间序列处理模块用于使向量化的输入不断进行特征学习，得到输入的特征向量，聚焦模块用于将特征向量聚焦，得到包含各数据之间的序列关系的特征。弹幕包含的字和同一短视频中的各条弹幕均可视为时间序列数据，例如，弹幕“景色真美”包含的字有：“景”、“色”、“真”、“美”，这几个字的出现具有时间的先后顺序，因此，可将弹幕包含的字作为LSTM网络模型的输入，用于训练LSTM网络模型，利用该LSTM网络提取弹幕特征，同样的，短视频中的弹幕是具有时间顺序的，将各类型的短视频包含弹幕的特征作为LSTM网络模型的输入训练LSTM网络模型，可使该LSTM网络模型能根据弹幕特征得到弹幕所属短视频的特征，进而可通过该特征，判定短视频类别。

图5示意性示出了本公开实施例提供的LSTM网络的示意图。

LSTM网络是一种时间循环神经网络，常被用于解决时间序列数据的问题，常被应用于分类问题中。

如图5所示，令[W1，W2，...，Wn]为一个时间序列，W1、W2、...、Wn表示LSTM网络的输入，W1、W2、...、Wn输入LSTM网络后，通过Embedding方法进行嵌入化处理，得到W1、W2、...、Wn的向量表示，然后通过Position Embedding方法，将W1、W2、...、Wn在时间序列中的位置关系融合到W1、W2、...、Wn的向量表示中，得到包含了W1、W2、...、Wn的数据信息和位置信息的特征向量，再将W1、W2、...、Wn的特征向量输入到LSTM网络的LSTM/GRU单元中，使W1、W2、...、Wn的特征向量之间循环的学习，根据相互之间的位置关系和彼此的内容，得到W1、W2、...、Wn在该时间序列中表现出的特征的向量表示，最后，通过Attention聚焦的方式，将W1、W2、...、Wn在该时间序列中表现出的特征的向量表示融合，得到该时间序列的特征向量。

图6示意性示出了根据本公开实施例提供的操作S231的流程图。

如图6所示，参考图5所示的LSTM网络的原理，操作S231包括了步骤S2311～S2314。

S2311，依次读取所述弹幕内容序列中的各条弹幕。

S2312，对所述弹幕中包含的字和各个所述字在所述弹幕中的位置进行嵌入化处理，得到各个所述字的字向量。

S2313，基于各个所述字的字向量进行特征学习，获得各所述字的字特征向量。

S2314，将各所述字的字特征向量进行聚焦，获得所述弹幕的弹幕特征向量，所述弹幕特征向量表示所述弹幕特征。

根据本公开的实施例，参照图5所示的LSTM网络，由于弹幕本身包含的字具有先后顺序，每条弹幕均可视为一个时间序列，将一条弹幕包含的每个字均作为LSTM网络的一个输入，通过Embedding方法进行嵌入化处理，得到每个字的向量表示，然后通过PositionEmbedding方法，将每个字在弹幕中的位置的向量表示融合到对应的字的向量表示中，例如，将位置的向量表示和字的向量表示相加或求平均，得到各个字的字向量，字向量包含了字和字位置信息，再将字向量输入到LSTM网络的LSTM/GRU单元中，使各字向量之间循环的学习，根据相互之间的位置关系和彼此的内容，得到各个字在该弹幕中表示的语义的向量表示，即字特征向量，最后，通过Attention聚焦的方式，将各个字的字特征向量融合，得到该弹幕的弹幕特征向量，该弹幕特征向量用于表示所述弹幕特征。

图7示意性示出了根据本公开实施例提供的操作S232的流程图。

如图7所示，参考图5所示的LSTM网络的原理，操作S232包括了步骤S2321～S2323。

S2321，将各所述弹幕的弹幕特征及各所述弹幕的位置进行嵌入化处理，得到各所述弹幕的特征输入向量。

S2322，基于各所述弹幕的特征输入向量进行特征学习，获得各所述弹幕的语义特征向量。

S2323，将各所述语义特征向量进行聚焦，获得所述弹幕内容序列的内容特征向量，所述内容特征向量表示所述弹幕内容。

根据本公开的实施例，参照图5所示的LSTM网络，弹幕内容序列为时间序列，按照该时间序列，将弹幕内容序列中的弹幕对应的弹幕特征向量作为LSTM网络的输入，通过Position Embedding方法，将每个弹幕在弹幕内容序列中的位置的向量表示融合到对应的弹幕特征向量中，例如，将弹幕在弹幕内容序列中的位置的向量表示和弹幕特征向量相加或求平均，得到各个弹幕的特征输入向量，再将特征输入向量输入到LSTM网络的LSTM/GRU单元中，使各特征输入向量之间循环的学习，根据相互之间的位置关系和彼此的内容，得到各个弹幕的语义特征向量，最后，通过Attention聚焦的方式，将各个弹幕的语义特征向量融合，得到所述弹幕内容序列的内容特征向量。

根据本公开的实施例，获取所述内容特征向量后，将所述内容特征向量进行矩阵变换，使所述内容特征向量映射到预设的短视频类别编码上，根据所述短视频类别编码，预测所述短视频的类别。可预设多种短视频的类别矩阵，将内容特征向量经过矩阵变换后，计算内容特征向量的变换矩阵与各短视频类别矩阵的相似度，则与内容特征向量的变换矩阵相似度最高的短视频类别矩阵对应的类别即短视频的预测类别。需要说明的是，将特征向量映射到具体类别上的方法有很多，并不仅限于此。

图8示意性示出了本公开另一实施例提供的利用LSTM网络获取弹幕内容序列的内容特征向量的流程图。

如图8所示，除了参考图2所示的操作S210～S240，本公开实施例的方法还包括操作S410。

在操作S210，获取同一短视频内的多条弹幕。

在操作S410，在获取所述短视频内的多条弹幕后，去除内容重复的弹幕，保留所述内容重复的弹幕中出现时间最早的弹幕。

在操作S220，将所述弹幕按时间顺序排列生成弹幕内容序列。

在操作S240，根据所述内容特征，预测所述短视频的类别。

根据本公开的实施例，由于短视频中的弹幕比较杂乱，需要对其进行清洗，去除内容一致的弹幕并保留首次出现的弹幕，可减少数据量，提升LSTM网络的计算效率。例如，一则短视频中的弹幕包括：①“这个分析条理清晰”，②“分析很透彻”，③“这个产品质量不错”，④“讲的很清楚”，⑤“新品还有什么惊喜呢”，通过语义分析，将其中语义相近的弹幕“这个分析条理清晰”、“分析很透彻”、“讲的很清楚”去重，仅保留最先出现的弹幕“这个分析条理清晰”，留下的弹幕为：①“这个分析条理清晰”，②“这个产品质量不错”，③“新品还有什么惊喜呢”。此外，对弹幕的清洗还可以包括将同一时间点出现的多条弹幕拼接成一条等基本操作，例如，在12点13分04秒，同时出现了弹幕“好厉害！”、“加油！”，那么，将这两条弹幕拼接为一条弹幕“好厉害！加油！”，通过将弹幕进行拼接，可进一步减少弹幕数量，但保留了各弹幕内容和各弹幕之间原有的时间顺序。

图9示意性示出了根据本公开实施例的短视频类别预测系统900的结构框图。

如图9所示，系统900包括弹幕获取模块910、排序模块920、内容特征提取模块930、类别预测模块940。

弹幕获取模块910，用于获取同一短视频内的多条弹幕。

排序模块920，用于将所述弹幕按时间顺序排列生成弹幕内容序列。

内容特征提取模块930，用于将所述弹幕内容序列输入预设的LSTM网络中，利用所述LSTM网络获取所述弹幕内容序列的内容特征。

类别预测模块940，用于根据所述内容特征，预测所述短视频的类别。

根据本公开的实施例，弹幕获取模块910、排序模块920、内容特征提取模块930、类别预测模块940的具体实施过程与上述图2～图8的方法的实施过程相同或相似，在这里不再重复。

图10示意性示出了根据本公开实施例的内容特征提取模块930的框图。

如图10所示，内容特征提取模块930包括弹幕特征获取单元931、弹幕内容特征获取单元932。

弹幕特征获取单元931，用于利用所述LSTM网络获取所述弹幕内容序列包含的各条弹幕的弹幕特征；

弹幕内容特征获取单元932，用于利用所述LSTM网络对各所述弹幕特征进行特征学习，获得所述弹幕内容序列的内容特征。

根据本公开实施例，弹幕特征获取单元931具体实施过程与上述图6所示的方法的实施过程相同或相似，弹幕内容特征获取单元932具体实施过程与上述图7所示的方法的实施过程相同或相似，在这里不再重复。

根据本公开的实施例，所述LSTM网络通过预设的多种类别的短视频包含的多条弹幕训练得到。本公开的实施例的LSTM网络模型可以包括嵌入化处理模块、LSTM/GRU时间序列处理模块、聚焦模块，其中，嵌入化处理模块用于将弹幕包含的字向量化，LSTM/GRU时间序列处理模块用于使字向量不断进行特征学习，得到字的字特征向量，聚焦模块用于将字特征向量聚焦，得到弹幕特征向量；嵌入化处理模块还用于将弹幕特征向量与表示弹幕在弹幕内容序列中的位置的位置向量融合，得到特征输入向量，LSTM/GRU时间序列处理模块用于使特征输入向量不断进行特征学习，得到弹幕的语义特征向量，聚焦模块用于将语义特征向量聚焦，得到内容特征向量，所述内容特征向量表示所述弹幕内容。

根据本公开的实施例，LSTM网络输出的内容特征为向量表示，所述类别预测模块940获取所述内容特征向量后，将所述内容特征向量进行矩阵变换，使所述内容特征向量映射到预设的短视频类别编码上，根据所述短视频类别编码，预测所述短视频的类别。具体实施过程可选为预设多种短视频的类别矩阵，将内容特征向量经过矩阵变换后，计算内容特征向量的变换矩阵与各短视频类别矩阵的相似度，则与内容特征向量的变换矩阵相似度最高的短视频类别矩阵对应的类别即短视频的预测类别。需要说明的是，将特征向量映射到具体类别上的方法有很多，并不仅限于此。

图11示意性示出了根据本公开另一实施例的短视频类别预测系统1100的结构框图。

如图11所示，除了参考图9所描述的弹幕获取模块910、排序模块920、内容特征提取模块930、类别预测模块940之外，根据本公开实施例的系统1100还包括弹幕去重模块1110。

弹幕去重模块1110，用于在获取所述短视频内的多条弹幕后，去除内容重复的弹幕，保留所述内容重复的弹幕中出现时间最早的弹幕。

根据本公开的实施例，由于短视频中的弹幕比较杂乱，需要对其进行清洗，弹幕去重模块1110去除内容一致的弹幕并保留首次出现的弹幕，可减少数据量，提升LSTM网络的计算效率，此外，对弹幕的清洗还可以包括将同一时间点(例如，以秒为时间点)出现的多条弹幕拼接成一条等基本操作。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，弹幕获取模块910、排序模块920、内容特征提取模块930、类别预测模块940以及弹幕去重模块中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，弹幕获取模块910、排序模块920、内容特征提取模块930、类别预测模块940以及弹幕去重模块1110中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，弹幕获取模块910、排序模块920、内容特征提取模块930、类别预测模块940以及弹幕去重模块1110中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图12示意性示出了根据本公开实施例的适于实现电子设备的计算机系统的方框图。图12示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，根据本公开实施例的计算机系统1200包括处理器1201，其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。处理器1201例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1210还可以包括用于缓存用途的板载存储器。处理器1210可以包括用于执行参考图2～图8描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1203中，存储有系统1200操作所需的各种程序和数据。处理器1201、ROM1202以及RAM 1203通过总线1204彼此相连。处理器1201通过执行ROM 1202和/或RAM 1203中的程序来执行以上参考图2～图8描述的处理用户的搜索操作的方法的各种操作。需要注意，所述程序也可以存储在除ROM 1202和RAM 1203以外的一个或多个存储器中。处理器1201也可以通过执行存储在所述一个或多个存储器中的程序来执行以上参考图2～图8描述的处理用户的搜索操作的方法的各种操作。

根据本公开的实施例，系统1200还可以包括输入/输出(I/O)接口1205，输入/输出(I/O)接口1205也连接至总线1204。系统1200还可以包括连接至I/O接口1205的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分809经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

根据本公开的实施例，上文参考流程图描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被处理器1201执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。根据本公开的实施例，计算机可读介质可以包括上文描述的ROM 1202和/或RAM 1203和/或ROM 1202和RAM 1203以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备执行：获取用户输入的一个或多个搜索参数；当上述一个或多个搜索参数满足预定条件时，根据上述一个或多个搜索参数发送搜索请求；接收与上述搜索请求相对应的搜索结果；以及响应于用户的确认操作，展示上述搜索结果。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种短视频类别预测方法，包括：

获取同一短视频内的多条弹幕；

将所述弹幕按时间顺序排列生成弹幕内容序列；

将所述弹幕内容序列输入预设的LSTM网络中，利用所述LSTM网络获取所述弹幕内容序列的内容特征；

根据所述内容特征，预测所述短视频的类别。

2.根据权利要求1所述的方法，还包括：

在获取所述短视频内的多条弹幕后，去除内容重复的弹幕，保留所述内容重复的弹幕中出现时间最早的弹幕。

3.根据权利要求1所述的方法，其中，所述将所述弹幕内容序列输入预设的LSTM网络中，利用所述LSTM网络得到所述弹幕内容序列的内容特征包括：

利用所述LSTM网络获取所述弹幕内容序列包含的各条弹幕的弹幕特征；

利用所述LSTM网络对各所述弹幕特征进行特征学习，获得所述弹幕内容序列的内容特征。

4.根据权利要求3所述的方法，其中，所述利用所述LSTM网络获取所述弹幕内容序列包含的各条弹幕的弹幕特征包括：

依次读取所述弹幕内容序列中的各条弹幕；

对所述弹幕中包含的字和各个所述字在所述弹幕中的位置进行嵌入化处理，得到各个所述字的字向量；

基于各个所述字的字向量进行特征学习，获得各所述字的字特征向量；

将各所述字的字特征向量进行聚焦，获得所述弹幕的弹幕特征向量，所述弹幕特征向量表示所述弹幕特征。

5.根据权利要求3所述的方法，其中，所述利用所述LSTM网络对各所述弹幕特征进行特征学习，获得所述弹幕内容序列的内容特征包括：

将各所述弹幕的弹幕特征及各所述弹幕的位置进行嵌入化处理，得到各所述弹幕的特征输入向量；

基于各所述弹幕的特征输入向量进行特征学习，获得各所述弹幕的语义特征向量；

将各所述语义特征向量进行聚焦，获得所述弹幕内容序列的内容特征向量，所述内容特征向量表示所述弹幕内容。

6.根据权利要求1所述的方法，其中，所述LSTM网络通过预设的多种类别的短视频包含的多条弹幕训练得到。

7.根据权利要求5所述的方法，获取所述内容特征向量后，将所述内容特征向量进行矩阵变换，使所述内容特征向量映射到预设的短视频类别编码上，根据所述短视频类别编码，预测所述短视频的类别。

8.一种短视频类别预测系统，包括：

弹幕获取模块，用于获取同一短视频内的多条弹幕；

排序模块，用于将所述弹幕按时间顺序排列生成弹幕内容序列；

内容特征提取模块，用于将所述弹幕内容序列输入预设的LSTM网络中，利用所述LSTM网络获取所述弹幕内容序列的内容特征；

类别预测模块，用于根据所述内容特征，预测所述短视频的类别。

9.根据权利要求8所述的系统，还包括：

弹幕去重模块，用于在获取所述短视频内的多条弹幕后，去除内容重复的弹幕，保留所述内容重复的弹幕中出现时间最早的弹幕。

10.根据权利要求8所述的系统，其中，所述内容特征提取模块包括：

弹幕特征获取单元，用于利用所述LSTM网络获取所述弹幕内容序列包含的各条弹幕的弹幕特征；

11.根据权利要求10所述的系统，其中，所述弹幕特征获取单元利用所述LSTM网络获取所述弹幕内容序列包含的各条弹幕的弹幕特征包括：

依次读取所述弹幕内容序列中的各条弹幕；

12.根据权利要求10所述的系统，其中，所述弹幕内容特征获取单元利用所述LSTM网络对各所述弹幕特征进行特征学习，获得所述弹幕内容序列的内容特征包括：

13.根据权利要求8所述的系统，其中，所述LSTM网络通过预设的多种类别的短视频包含的多条弹幕训练得到。

14.根据权利要求12所述的系统，所述类别预测模块获取所述内容特征向量后，将所述内容特征向量进行矩阵变换，使所述内容特征向量映射到预设的短视频类别编码上，根据所述短视频类别编码，预测所述短视频的类别。

15.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至7中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1至7中任一项所述的方法。