CN114157906A

CN114157906A - 视频检测方法、装置、电子设备及存储介质

Info

Publication number: CN114157906A
Application number: CN202010928458.9A
Authority: CN
Inventors: 张水发
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2022-03-08
Anticipated expiration: 2040-09-07
Also published as: CN114157906B

Abstract

本公开提供了一种视频检测方法、装置、电子设备及存储介质，属于多媒体技术领域。方法包括：获取待检测视频的文字特征、图像特征以及用户行为特征；对文字特征、图像特征以及用户行为特征进行拼接，得到拼接特征；基于深度神经网络对拼接特征进行检测，响应于深度神经网络输出的检测结果指示待检测视频为目标类型视频的概率大于预设概率阈值，确定待检测视频为目标类型视频。上述技术方案，通过对获取到的待检测视频的文字特征、图像特征以及用户行为特征进行拼接，对得到的拼接特征进行检测，使得能够从多个维度对待检测视频进行检测，能够有效地确定待检测视频是否为目标类型视频，相较于人工处理，提高了效率和准确率。

Description

视频检测方法、装置、电子设备及存储介质

技术领域

本公开涉及多媒体技术领域，特别涉及一种视频检测方法、装置、电子设备及存储介质。

背景技术

随着多媒体技术的发展，越来越多的用户参与到视频制作的行列中，称为作者用户，使得观众用户，也即观众用户能够观看到丰富多彩的视频内容。由于高热度的视频会给作者用户带来一定的经济效益，而视频的热度受到观众用户的点击、关注、转发等行为的影响。因此，恶意用户会通过一些不正当手段，如设置与视频内容不相关的虚假标题或者虚假封面等，来骗取观众用户点击其发布的视频，来提高其发布的视频的热度，这严重影响了观众用户的观看体验。

目前，针对于这些骗取观众用户点击的虚假视频，通常是在收到大量观众用户的举报后，由人工进行复核，然后进行封禁处理。由于视频基数较大，且存在恶意举报的情况，导致人工处理效率低下，无法有效的对骗取观众用户点击的虚假视频进行有效的检测和处理。

发明内容

本公开提供一种视频检测方法、装置、电子设备及存储介质，通过对获取到的待检测视频的文字特征、图像特征以及用户行为特征进行拼接，得到拼接特征，再基于该拼接特征进行检测，使得能够从多个维度对待检测视频进行检测，能够有效地确定待检测视频是否为目标类型视频，如骗取视频观众点击的虚假视频，相较于人工处理，提高了效率和准确率。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频检测方法，包括：

获取待检测视频的文字特征、图像特征以及用户行为特征，所述用户行为特征是用户对所述待检测视频的反馈行为的特征；

对所述文字特征、所述图像特征以及所述用户行为特征进行拼接，得到拼接特征；

基于深度神经网络对所述拼接特征进行检测，响应于所述深度神经网络输出的检测结果指示所述待检测视频为目标类型视频的概率大于预设概率阈值，确定所述待检测视频为目标类型视频。

在一种可选的实现方式中，所述获取待检测视频的文字特征、图像特征以及用户行为特征，包括：

获取待检测视频的封面图像和用户行为信息，所述用户行为信息用于指示用户对所述待检测视频的反馈行为；

根据所述封面图像，确定所述待检测视频的文字特征和图像特征；

根据所述用户行为信息，确定所述待检测视频的用户行为特征。

在一种可选的实现方式中，所述根据所述封面图像，确定所述待检测视频的文字特征和图像特征，包括：

将所述待检测视频的封面图像输入第一分类模型，得到所述待检测视频的文字特征，所述第一分类模型用于检测所述封面图像是否包括目标类型文字；

将所述待检测视频的封面图像输入第二分类模型，得到所述待检测视频的图像特征，所述第二分类模型用于检测所述封面图像是否引导用户点击。

在一种可选的实现方式中，所述用户行为信息包括对所述待检测视频的支持行为和反对行为；所述根据所述用户行为信息，确定所述待检测视频的用户行为特征，包括：

根据所述用户行为信息中的支持行为，获取所述支持行为的第一特征和反馈所述支持行为的观众用户的第二特征；

根据所述用户行为信息中的反对行为，获取所述反对行为的第三特征和反馈所述反对行为的观众用户的第四特征；

将所述第一特征、所述第二特征、所述第三特征以及所述第四特征进行拼接，得到所述待检测视频的用户行为特征。

在一种可选的实现方式中，所述确定所述待检测视频为目标类型视频之后，所述方法还包括：

降低所述待检测视频的展示权重，所述展示权重用于指示所述待检测视频在搜索结果中的排序。

在一种可选的实现方式中，所述方法还包括：

响应于视频搜索请求，获取至少一个待展示视频；

从所述至少一个待展示视频中，获取展示权重大于预设权重阈值的至少一个待展示视频进行展示。

在一种可选的实现方式中，所述方法还包括：

响应于所述深度神经网络输出的检测结果指示所述待检测视频为目标类型视频的概率不大于所述预设概率阈值，确定所述待检测视频不为目标类型视频。

根据本公开实施例的第二方面，提供一种视频检测装置，包括：

特征获取单元，被配置为执行获取待检测视频的文字特征、图像特征以及用户行为特征，所述用户行为特征是用户对所述待检测视频的反馈行为的特征；

特征拼接单元，被配置为执行对所述文字特征、所述图像特征以及所述用户行为特征进行拼接，得到拼接特征；

确定单元，被配置为执行基于深度神经网络对所述拼接特征进行检测，响应于所述深度神经网络输出的检测结果指示所述待检测视频为目标类型视频的概率大于预设概率阈值，确定所述待检测视频为目标类型视频。

在一种可选的实现方式中，所述特征获取单元，包括：

获取子单元，被配置为执行获取待检测视频的封面图像和用户行为信息，所述用户行为信息用于指示用户对所述待检测视频的反馈行为；

第一确定子单元，被配置为执行根据所述封面图像，确定所述待检测视频的文字特征和图像特征；

第二确定子单元，被配置为执行根据所述用户行为信息，确定所述待检测视频的用户行为特征。

在一种可选的实现方式中，所述第一确定子单元，被配置为执行将所述待检测视频的封面图像输入第一分类模型，得到所述待检测视频的文字特征，所述第一分类模型用于检测所述封面图像是否包括目标类型文字；将所述待检测视频的封面图像输入第二分类模型，得到所述待检测视频的图像特征，所述第二分类模型用于检测所述封面图像是否引导用户点击。

在一种可选的实现方式中，所述第二确定子单元，被配置为执行根据所述用户行为信息中的支持行为，获取所述支持行为的第一特征和反馈所述支持行为的观众用户的第二特征；根据所述用户行为信息中的反对行为，获取所述反对行为的第三特征和反馈所述反对行为的观众用户的第四特征；将所述第一特征、所述第二特征、所述第三特征以及所述第四特征进行拼接，得到所述待检测视频的用户行为特征。

在一种可选的实现方式中，所述装置还包括：

权重调整单元，被配置为执行降低所述待检测视频的展示权重，所述展示权重用于指示所述待检测视频在搜索结果中的排序。

在一种可选的实现方式中，所述装置还包括：

视频获取单元，被配置为执行响应于视频搜索请求，获取至少一个待展示视频；

视频展示单元，还被配置为执行从所述至少一个待展示视频中，获取展示权重大于预设权重阈值的至少一个待展示视频进行展示。

在一种可选的实现方式中，所述确定单元，被配置为执行响应于所述深度神经网络输出的检测结果指示所述待检测视频为目标类型视频的概率不大于所述预设概率阈值，确定所述待检测视频不为目标类型视频。

根据本公开实施例的第三方面，提供一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述视频检测方法。

根据本公开实施例的第四方面，提供一种存储介质，当该存储介质中的程序代码由电子设备的处理器执行时，使得电子设备能够执行上述方法视频检测方法。

根据本公开实施例的第五方面，提供了一种计算机应用程序产品或计算机应用程序，该计算机应用程序产品或计算机应用程序包括计算机应用程序代码，该计算机应用程序代码存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机应用程序代码，处理器执行该计算机应用程序代码，使得该电子设备执行上述第一方面或者第一方面的各种可选实现方式。

本公开实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供的视频检测方法，通过对获取到的待检测视频的文字特征、图像特征以及用户行为特征进行拼接，得到拼接特征，来综合多个维度的特征，再基于该拼接特征进行检测，使得能够从多个维度对待检测视频进行检测，能够有效地确定待检测视频是否为目标类型视频，如骗取视频观众点击的虚假视频，相较于人工处理，提高了效率和准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频检测方法的实施环境示意图。

图2是根据一示例性实施例示出的一种视频检测方法的流程图。

图3是根据一示例性实施例示出的另一种视频检测方法的流程图。

图4是根据一示例性实施例示出的一种视频检测装置框图。

图5是根据一示例性实施例示出的一种终端的框图。

图6是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

下面介绍一下本公开实施例提供的视频检测方法的实施环境。图1是根据一示例性实施例示出的一种视频检测方法的实施环境示意图。以电子设备被提供为服务器，终端与服务器通过交互实现为例，参见图1，该实施环境具体包括：终端101和服务器102。

终端101能够为智能手机、智能手表、台式电脑、手提电脑、MP3播放器、MP4播放器和膝上型便携计算机等设备中的至少一种。终端101上可以安装并运行有应用程序，用户能够通过终端101登录该应用程序来获取该应用程序提供的服务。终端101能够通过无线网络或有线网络与服务器102相连，进而能够通过上述应用程序与服务器102进行交互，如终端101向服务器102发送视频搜索请求，服务器102向终端101反馈搜索结果。

可选的，终端101泛指多个终端中的一个，本实施例以终端101来举例说明。本领域技术人员能够知晓，上述终端的数量能够更多或更少。比如上述终端能够为几个，或者上述终端能够为几十个或几百个，或者更多数量，本公开实施例对终端的数量和设备类型均不加以限定。

服务器102能够为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器102能够通过无线网络或有线网络与终端101以及其他终端相连，服务器102能够接收终端101发送的视频搜索请求，然后将其他用户上传的视频返回给终端101，以便用户能够通过终端101来搜索其他用户发布的视频。可选地，上述服务器的数量能够更多或更少，本公开实施例对此不加以限定。当然，服务器102还能够包括其他功能服务器，以便提供更全面且多样化的服务。

图2是根据一示例性实施例示出的一种视频检测方法的流程图，参见图2，应用于电子设备，该方法具体步骤包括：

在步骤S201中，电子设备获取待检测视频的文字特征、图像特征以及用户行为特征，该用户行为特征是用户对该待检测视频的反馈行为的特征。

在本公开实施例中，电子设备能够根据待检测视频的视频标识，获取该待检测视频已存储的文字特征、图像特征以及用户行为特征。可选的，电子设备能够每隔一段时间更新一次待检测视频的文字特征、图像特征以及用户行为特征。可选的，电子设备能够在对待检测视频进行检测时，实时的确定该待检测视频的文字特征、图像特征以及用户行为特征。其中，用户对待检测视频的反馈行为包括但不限于点击、点赞、关注、转发、点踩、拉黑以及举报等反馈行为，本公开实施例对此不进行限制。

在步骤S202中，电子设备对该文字特征、该图像特征以及该用户行为特征进行拼接，得到拼接特征。

在本公开实施例中，电子设备能够将获取到的文字特征、图像特征以及用户行为特征进行拼接，得到一个一维的特征向量，将该一维的特征向量作为拼接特征。

在步骤S203中，电子设备基于深度神经网络对该拼接特征进行检测，响应于该深度神经网络输出的检测结果指示该待检测视频为目标类型视频的概率大于预设概率阈值，确定该待检测视频为目标类型视频。

在本公开实施例中，电子设备能够将拼接特征输入到深度神经网络中，获取深度神经网络输出的检测结果。若检测结果指示该待检测视频为目标类型视频的概率大于预设概率阈值，则确定该待检测视频为目标类型视频；若检测结果指示该待检测视频为目标类型视频的概率不大于预设概率阈值，则确定该待检测视频不为目标类型视频。其中，目标类型视频为骗取观众点击的虚假视频、包含限制性内容的视频或者包含有益内容的视频等，本公开实施例对此不进行限制。

在一种可选的实现方式中，该获取待检测视频的文字特征、图像特征以及用户行为特征，包括：

获取待检测视频的封面图像和用户行为信息，该用户行为信息用于指示用户对该待检测视频的反馈行为；

根据该封面图像，确定该待检测视频的文字特征和图像特征；

根据该用户行为信息，确定该待检测视频的用户行为特征。

在一种可选的实现方式中，该根据该封面图像，确定该待检测视频的文字特征和图像特征，包括：

将该待检测视频的封面图像输入第一分类模型，得到该待检测视频的文字特征，该第一分类模型用于检测该封面图像是否包括目标类型文字；

将该待检测视频的封面图像输入第二分类模型，得到该待检测视频的图像特征，该第二分类模型用于检测该封面图像是否引导用户点击。

在一种可选的实现方式中，该用户行为信息包括对该待检测视频的支持行为和反对行为；该根据该用户行为信息，确定该待检测视频的用户行为特征，包括：

根据该用户行为信息中的支持行为，获取该支持行为的第一特征和反馈该支持行为的观众用户的第二特征；

根据该用户行为信息中的反对行为，获取该反对行为的第三特征和反馈该反对行为的观众用户的第四特征；

将该第一特征、该第二特征、该第三特征以及该第四特征进行拼接，得到该待检测视频的用户行为特征。

在一种可选的实现方式中，该确定该待检测视频为目标类型视频之后，该方法还包括：

降低该待检测视频的展示权重，该展示权重用于指示该待检测视频在搜索结果中的排序。

在一种可选的实现方式中，该方法还包括：

响应于视频搜索请求，获取至少一个待展示视频；

从该至少一个待展示视频中，获取展示权重大于预设权重阈值的至少一个待展示视频进行展示。

在一种可选的实现方式中，该方法还包括：

响应于该深度神经网络输出的检测结果指示该待检测视频为目标类型视频的概率不大于该预设概率阈值，确定该待检测视频不为目标类型视频。

上述图2所示仅为本公开的基本流程，下面基于一种具体实现方式，来对本公开提供的方案进行进一步阐述，图3是根据一示例性实施例示出的另一种视频检测方法的流程图。以电子设备被提供为服务器为例，参见图3，该方法包括：

在步骤S301中，服务器获取待检测视频的文字特征、图像特征以及用户行为特征，该用户行为特征是用户对该待检测视频的反馈行为的特征。

在本公开实施例中，服务器在对待检测视频进行检测时，能够获取与待检测视频相关的特征，如文字特征、图像特征以及用户行为特征。其中，文字特征能够表示待检测视频的封面图像是否包括目标类型文字，如敏感词等。图像特征能够表示待检测视频的封面图像是否引导用户点击，如使用动漫封面会引导喜爱动漫的用户点击、使用动物封面会引导喜爱动物的用户点击等。用户行为特征能够表示用户对待检测视频的反馈行为的特征，该反馈行为包括但不限于点击、点赞、关注、转发、点踩、拉黑以及举报等反馈行为，本公开实施例对此不进行限制。

可选的，服务器能够通过以下步骤3011至步骤3014来获取待检测视频的文字特征、图像特征以及用户行为特征。

在步骤3011中，服务器获取待检测视频的封面图像和用户行为信息，该用户行为信息用于指示用户对该待检测视频的反馈行为。

服务器在对待检测视频进行检测时，能够从该待检测视频的属性信息中获取该待检测视频的封面图像，或者从该待检测视频中提取封面图像。服务器存储有各视频对应的用户行为信息，即服务器存储有观看各视频的用户对该视频的反馈行为的信息。服务器能够根据待检测视频的视频标识，根据视频标识和用户行为信息的对应关系，获取该待检测视频对应的用户行为信息。

在步骤3012中，服务器根据封面图像，确定待检测视频的文字特征和图像特征。

服务器能够通过不同的分类模型，分别对封面图像进行处理，得到文字特征和图像特征。可选的，服务器将待检测视频的封面图像输入第一分类模型，得到该待检测视频的文字特征，其中，该第一分类模型用于检测封面图像是否包括目标类型文字，如敏感词、专有名词、广告用语以及公司名称等。服务器将待检测视频的封面图像输入第二分类模型，得到该待检测视频的图像特征，其中，该第二分类模型用于检测封面图像是否引导用户点击。

在一种可选的实现方式中，目标类型文字为骗取用户点击的文字时，第一分类模型能够称为文字骗点击分类网络，用于检测封面图像是否包括骗取用户点击的文字，如“美女”、“互关”、“震惊！”以及与新闻热点相关的文字。相应的，服务器训练得到该文字骗点击分类网络的步骤为：服务器从样本视频的封面图像中提取文字信息，获取每个文字信息对应的文字标签，该文字标签用于表示该文字信息是否为骗点击文字。服务器能够基于该文字信息和文字信息对应的文字标签进行训练，得到文字骗点击分类网络。可选的，服务器还能够通过人工标注的训练集训练得到上述文字骗点击分类网络。通过文字骗点击分类网络来确定视频的封面图像是否包括骗点击文字，能够避免由于封面图像中的文字排列不规则，直接进行文字识别准确率低的问题，从而提高了识别效率。

例如，服务器能够通过OCR(Optical Character Recognition，光学字符识别)技术，从样本视频的封面图像中提取OCR文字信息。然后获取技术人员对各OCR文字信息标注的文字标签，

在一种可选的实现方式中，由于第二分类模型用于检测封面图像是否引导用户点击，因此，第二分类模型也能够称为图像骗点击分类网络，用于检测封面图像是否会引导用户进行点击。相应的，服务器训练得到该图像骗点击分类网络的步骤为：服务器获取样本视频的封面图像以及各封面图像的图像标签，该图像标签用于表示用户是否对样本视频点击。服务器能够基于该封面图像和图像标签进行训练，得到图像骗点击分类网络。通过图像骗点击分类网络来确定视频的封面图像是否引导用户点击，能够在视频的封面图像包括与视频内容无关的夸张内容、敏感内容、误导内容时，确定该封面图像引导了用户进行点击。

例如，服务器能够将已标注的封面图像输入CNN特征提取网络，以用户是否点击样本视频为训练目标来进行训练，得到图像骗点击分类网络。

需要说明的是，上述文字特征和图像特征为服务器将待检测视频的封面图像分别输入第一分类网络和第二分类网络后，从该第一分类网络和第二分类网络中提取的特征。

在步骤3013中，服务器根据用户行为信息，确定待检测视频的用户行为特征。

服务器获取的用户行为信息包括用户对待检测视频的支持行为，如点击、点赞、关注、转发，还包括反对行为，如点踩、拉黑以及举报等反馈行为，本公开实施例对此不进行限制。

在一种可选的实现方式中，服务器根据上述用户行为信息后，能够基于上述行为信息，确定的该待检测视频的用户行为特征的步骤为：服务器能够根据用户行为信息中的支持行为，获取该支持行为的第一特征和反馈该支持行为的观众用户的第二特征。服务器能够根据用户行为信息中的反对行为，获取该反对行为的第三特征和反馈该反对行为的观众用户的第四特征。服务器能够将该第一特征、第二特征、第三特征以及第四特征进行拼接，得到待检测视频的用户行为特征。通过从对用户行为进行挖掘的角度出发，获取点击、点赞、关注、转发、点踩、拉黑以及举报等多个维度的特征，从而能够基于该用户行为特征较为准确的将正常视频和骗点击的虚假视频区分开来。

其中，服务器能够根据用户的点击行为，获取待检测视频的CTR(Click-Through-Rate，点击通过率)特征；根据用户的点赞行为，获取点赞率特征；根据用户的关注行为，获取关注率特征；根据用户的转发行为，获取转发率特征。服务器将上述根据支持行为得到的特征，作为第一特征。同理，服务器能够根据用户对待检测视频的反对行为得到的特征，作为第三特征，不再一一列举。另外，服务器还能够通过线性回归算法，确定反馈上述支持行为的用户的加权特征，得到第二特征。同理，服务器还能够通过线性回归算法，确定反馈上述反对行为的用户的加权特征，得到第四特征。将该第一特征、第二特征、第三特征以及第四特征进行拼接，得到待检测视频的用户行为特征。当然，服务器还能够通过对支持行为进行加权求和的方式，确定上述第二特征；通过对反对行为进行加权求和的方式，确定上述第四特征，本申请实施例对确定第二特征和第四特征的方式不进行限制。

需要说明的是，上述用户的加权特征，还能够与用户的用户质量相关，用户质量越高的用户，获取其加权特征时的权重越高；用户质量越低的用户，获取其加权特征时的权重越低。其中，用户质量能够由用户的等级、使用时长、有效反馈次数以及消费总值等参数确定，本公开实施例对此不进行限制。

在步骤S302中，服务器对该文字特征、该图像特征以及该用户行为特征进行拼接，得到拼接特征。

服务器能够获取文字特征、该图像特征以及该用户行为特征的向量表示，得到三个特征向量，然后对三个特征向量进行拼接，将得到的拼接向量作为拼接特征。

需要说明的是，服务器还能够获取其他特征，如待检测视频的作者的用户画像embedding(嵌入)特征以及视频的图像帧特征。可选的，该图像帧特征通过从待检测视频中抽取关键帧的方式，抽取至少一个关键帧图像，通过特征提取网络，由avgpooling(池化层)输出一个固定长度的一维图像帧特征。即图像帧特征与上述图像特征的获取方式不同。

在步骤S303中，服务器基于深度神经网络对该拼接特征进行检测。

服务器能够将上述拼接特征输入基于注意力机制构造的深度神经网络中，由该基于注意力机制构造的深度神经网络对该拼接特征进行处理，输出检测结果。

需要说明的是，上述第一分类网络、第二分类网络能够与该深度神经网络，采用end2end(端到端)的方式进行训练。

在步骤S304中，响应于该深度神经网络输出的检测结果指示该待检测视频为目标类型视频的概率大于预设概率阈值，服务器确定该待检测视频为目标类型视频。

在本公开实施例中，可选的目标类型视频为骗取观众点击的虚假视频、包含限制性内容的视频或者包含有益内容的视频等，本公开实施例对此不进行限制。

在步骤S305中，响应于该深度神经网络输出的检测结果指示该待检测视频为目标类型视频的概率不大于该预设概率阈值，服务器确定该待检测视频不为目标类型视频。

需要说明的是，服务器能够每隔预设的时间对已存储的视频进行一次检测，也可以在接收到用户发送的视频搜索请求后，对满足该视频搜索请求的至少一个待展示视频进行检测。也即服务器能够响应于视频搜索请求，获取至少一个待展示视频，响应于任一待展示视频被确定为目标类型视频，如虚假视频，服务器能够降低该待展示视频的展示权重，该展示权重用于指示待检测视频，也即上述待展示视频，在搜索结果中的排序。服务器能够从该至少一个待展示视频中，获取展示权重大于预设权重阈值的至少一个待展示视频进行展示。可选的，响应于任一待展示视频被确定为目标类型视频，如优质视频，服务器能够提高该待展示视频的展示权重。

例如，目标类型视频为虚拟视频，服务器能够将被确定为虚假视频的待展示视频的展示权重设置为0，即不展示这些视频。服务器也能够根据待展示视频被确定为虚假视频的次数，设置该待展示视频的展示权重，该展示权重与被确定为虚假视频的次数成反比。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图4是根据一示例性实施例示出的一种视频检测装置框图。参照图4，该装置包括：特征获取单元401、特征拼接单元402以及确定单元403。

特征获取单元401，被配置为执行获取待检测视频的文字特征、图像特征以及用户行为特征，所述用户行为特征是用户对所述待检测视频的反馈行为的特征；

特征拼接单元402，被配置为执行对所述文字特征、所述图像特征以及所述用户行为特征进行拼接，得到拼接特征；

确定单元403，被配置为执行基于深度神经网络对所述拼接特征进行检测，响应于所述深度神经网络输出的检测结果指示所述待检测视频为目标类型视频的概率大于预设概率阈值，确定所述待检测视频为目标类型视频。

本公开实施例提供的装置，通过对获取到的待检测视频的文字特征、图像特征以及用户行为特征进行拼接，得到拼接特征，来综合多个维度的特征，再基于该拼接特征进行检测，使得能够从多个维度对待检测视频进行检测，能够有效地确定待检测视频是否为目标类型视频，如骗取视频观众点击的虚假视频，相较于人工处理，提高了效率和准确率。

在一种可选的实现方式中，所述特征获取单元401，包括：

在一种可选的实现方式中，所述装置还包括：

在一种可选的实现方式中，所述确定单元403，被配置为执行响应于所述深度神经网络输出的检测结果指示所述待检测视频为目标类型视频的概率不大于所述预设概率阈值，确定所述待检测视频不为目标类型视频。

需要说明的是，上述实施例提供视频检测装置在确定待检测视频是否为目标类型视频时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将电子设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频检测装置与视频检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在本公开实施例中，电子设备可以被提供为终端或者服务器，当电子设备被提供为终端时，可以由该终端实现视频检测方法所执行的操作；当被提供为服务器时，可以由该服务器实现视频检测方法所执行的操作；也可以由该服务器和终端交互来实现视频检测方法所执行的操作，如由终端向服务器发送视频搜索请求，由服务器对搜索结果中的至少一个待展示视频进行检测，然后根据检测结果向终端反馈待展示视频，由终端进行展示。

电子设备被提供为终端时，图5是根据一示例性实施例示出的一种终端500的框图。该终端500可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器501所执行以实现本公开中方法实施例提供的视频检测方法。

在一些实施例中，终端500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

电子设备被提供为服务器时，图6是根据一示例性实施例示出的一种服务器600的框图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)601和一个或一个以上的存储器602，其中，该存储器602中存储有至少一条程序代码，该至少一条程序代码由该处理器601加载并执行以实现上述各个方法实施例提供的视频检测方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器600还可以包括其他用于实现设备功能的部件，在此不做赘述。

本公开实施例中，还提供了一种包括程序代码的存储介质，例如包括程序代码的存储器502或者存储器602，上述程序代码可由终端500的处理器501或者服务器600的处理器601执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例中，还提供了一种计算机应用程序产品或计算机应用程序，该计算机应用程序产品或计算机应用程序包括计算机应用程序代码，该计算机应用程序代码存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机应用程序代码，处理器执行该计算机应用程序代码，使得该电子设备执行上述视频检测方法，或者视频检测方法的各种可选实现方式。

本领域技术人员在考虑说明书及实践这里公开的方案后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的视频检测方法，其特征在于，所述获取待检测视频的文字特征、图像特征以及用户行为特征，包括：

3.根据权利要求2所述的视频检测方法，其特征在于，所述根据所述封面图像，确定所述待检测视频的文字特征和图像特征，包括：

4.根据权利要求2所述的视频检测方法，其特征在于，所述用户行为信息包括对所述待检测视频的支持行为和反对行为；所述根据所述用户行为信息，确定所述待检测视频的用户行为特征，包括：

5.根据权利要求1所述的视频检测方法，其特征在于，所述确定所述待检测视频为目标类型视频之后，所述方法还包括：

6.根据权利要求5所述的视频检测方法，其特征在于，所述方法还包括：

响应于视频搜索请求，获取至少一个待展示视频；

7.根据权利要求1所述的视频检测方法，其特征在于，所述方法还包括：

8.一种视频检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至7任一项所述的视频检测方法。

10.一种存储介质，其特征在于，当所述存储介质中的程序代码由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7任一项所述的视频检测方法。