CN111369299B

CN111369299B - 识别的方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111369299B
Application number: CN202010167922.7A
Authority: CN
Inventors: 张�浩; 王思聪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-06-23
Anticipated expiration: 2040-03-11
Also published as: CN111369299A

Abstract

本申请实施例提供了一种识别的方法、装置、设备及可读存储介质，该方法包括：获取待识别视频包括的第一信息；将第一信息输入至训练后的视觉模型，确定第一预测广告概率，并将第一信息输入至训练后的文本特征模型，确定第二预测广告概率；将待识别视频对应的视频发布者在预设第一时间范围内所发布的各视频进行分类，确定为广告视频类型的视频的第一数量，以及确定为非广告视频类型的视频的第二数量；将第一预测广告概率、第二预测广告概率、第一数量和第二数量输入至训练后的融合模型，确定第三预测广告概率；当第三预测广告概率大于预设第一阈值，确定待识别视频为广告视频。该方法提升了识别广告视频的准确率，降低了误拦截非广告视频的几率。

Description

识别的方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种识别的方法、装置、设备及计算机可读存储介质。

背景技术

随着互联网技术的发展，某些微商等非正常用户，频繁发布恶意推广的销售相关的广告视频，但是现有技术中推荐系统使用建库的方式，收集广告视频关键特征入库，对于新的备选样本，使用撞库的方式进行判断，建库撞库的方式容易受建库的完整性的影响，若建库不够全面，则未在库里的目标样本容易被漏识别，降低了推荐系统识别广告视频的准确率，且推荐系统未采取措施避免拦截普通用户的分享视频，容易导致对普通用户视频的误拦截。现有技术中推荐系统使用深度学习的方式，但是使用的模态信息有限，同样会导致推荐系统识别广告视频的准确度低，一方面导致普通用户经常刷到这些广告视频，另一方面推荐系统还误拦截普通用户的生活分享视频，从而使普通用户的体验度下降。

发明内容

本申请针对现有的方式的缺点，提出一种识别的方法、装置、电子设备及计算机可读存储介质，用以解决如何提升识别广告视频的准确率的问题。

第一方面，本申请提供了一种识别的方法，包括：

获取待识别视频包括的第一信息；

将第一信息输入至训练后的视觉模型，确定第一预测广告概率，并将第一信息输入至训练后的文本特征模型，确定第二预测广告概率，第一预测广告概率用于表征通过训练后的视觉模型将待识别视频识别为广告视频的预测概率，第二预测广告概率用于表征通过训练后的文本特征模型将待识别视频识别为广告视频的预测概率；

将待识别视频对应的视频发布者在预设第一时间范围内所发布的各视频进行分类，确定为广告视频类型的视频的第一数量，以及确定为非广告视频类型的视频的第二数量；

将第一预测广告概率、第二预测广告概率、第一数量和第二数量输入至训练后的融合模型，确定第三预测广告概率；

当第三预测广告概率大于预设第一阈值，确定待识别视频为广告视频。

可选地，第一信息，包括以下至少一项：

关键帧、待识别视频对应的视频发布者的标识信息、视频文本描述信息、语音文本信息、视频帧图像文本信息、关键帧图像集。

可选地，视觉模型包括时间段网络TSN、时间位移模型TSM、深度残差网络ResNet50中的至少一项；文本特征模型包括双向长短期记忆的循环神经网络Bi-LSTM、自注意力机制self-attention中的至少一项；融合模型包括提升树可扩展的机器学习系统xgboost。

可选地，确定训练后的视觉模型的方式包括：

将第一训练视频包括的图像帧集合输入至预设的视觉模型，对预设的视觉模型的第一参数的进行调整，当达到第一预定训练收敛条件时，得到训练后的视觉模型，第一预定训练收敛条件包括将预设的视觉模型进行训练，直至将第一训练视频识别为广告视频的预测准确度大于预设第二阈值，第一参数包括网络的层数、每层节点数、学习率中至少一项。

可选地，确定训练后的文本特征模型的方式包括：

将第二训练视频包括的待识别视频对应的视频发布者的标识信息、视频描述、语音文本信息、视频帧图像文本信息中至少一项输入至预设的文本特征模型，通过注意力机制attention对所述预设的文本特征模型进行训练，当达到第二预定训练收敛条件时，得到训练后的文本特征模型，第二预定训练收敛条件包括将预设的文本特征模型进行训练，直至将第二训练视频识别为广告视频的预测准确度大于预设第三阈值。

可选地，确定训练后的融合模型的方式包括：

将第三训练视频输入至训练后的视觉模型，得到第一训练预测概率，第一训练预测概率用于表征通过训练后的视觉模型将第三训练视频识别为广告视频的预测概率；

将第三训练视频输入至训练后的文本特征模型，得到第二训练预测概率，第二训练预测概率用于表征通过训练后的文本特征模型将第三训练视频识别为广告视频的预测概率；

将第一训练预测概率、第二训练预测概率和视频发布者的历史广告先验信息输入至预设的融合模型，通过网格搜索方式对预设的融合模型进行训练，当达到第三预定训练收敛条件时，得到训练后的融合模型，历史广告先验信息包括视频发布者在预设第二时间范围内发布的广告视频数量、视频发布者在第二预设时间段内发布的非广告视频数量中的至少一项，第三预定训练收敛条件包括将预设的融合模型进行训练，直至将第三训练视频识别为广告视频的预测准确度大于预设第四阈值。

第二方面，本申请提供了一种识别的装置，包括：

第一处理模块，用于获取待识别视频包括的第一信息；

第二处理模块，用于将所述第一信息输入至训练后的视觉模型，确定第一预测广告概率，并将所述第一信息输入至训练后的文本特征模型，确定第二预测广告概率，所述第一预测广告概率用于表征通过所述训练后的视觉模型将所述待识别视频识别为广告视频的预测概率，所述第二预测广告概率用于表征通过所述训练后的文本特征模型将所述待识别视频识别为广告视频的预测概率；

第三处理模块，用于将所述待识别视频对应的视频发布者在预设第一时间范围内所发布的各视频进行分类，确定为广告视频类型的视频的第一数量，以及确定为非广告视频类型的视频的第二数量；

第四处理模块，用于将所述第一预测广告概率、所述第二预测广告概率、所述第一数量和所述第二数量输入至训练后的融合模型，确定第三预测广告概率；

第五处理模块，用于当所述第三预测广告概率大于预设第一阈值，确定所述待识别视频为广告视频。

可选地，第一信息，包括以下至少一项：

可选地，确定训练后的视觉模型的方式包括：

可选地，确定训练后的文本特征模型的方式包括：

可选地，确定训练后的融合模型的方式包括：

第三方面，本申请提供了一种电子设备，包括：处理器、存储器和总线；

总线，用于连接处理器和存储器；

存储器，用于存储操作指令；

处理器，用于通过调用操作指令，执行本申请第一方面的识别的方法。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被用于执行本申请第一方面的识别的方法。

本申请实施例提供的技术方案，至少具有如下有益效果：

获取待识别视频包括的第一信息；将第一信息输入至训练后的视觉模型，确定第一预测广告概率，并将第一信息输入至训练后的文本特征模型，确定第二预测广告概率；将待识别视频对应的视频发布者在预设第一时间范围内所发布的各视频进行分类，确定为广告视频类型的视频的第一数量，以及确定为非广告视频类型的视频的第二数量；将第一预测广告概率、第二预测广告概率、第一数量和第二数量输入至训练后的融合模型，确定第三预测广告概率；当第三预测广告概率大于预设第一阈值，确定待识别视频为广告视频。该方法通过互补性强的三种模型，即训练后的视觉模型、训练后的文本特征模型和训练后的融合模型，训练后的视觉模型从计算机视觉方面，以及训练后的文本特征模型从自然语言理解方面，分别对待识别视频进行预测，分别确定第一预测广告概率和第二预测广告概率，基于机器学习框架的融合模型对第一预测广告概率和第二预测广告概率进一步处理，从而实现了对待识别视频进行自动化的识别，提升了识别广告视频的准确率，降低了误拦截非广告视频的几率，即降低了误拦截普通用户的生活分享视频，提高了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种识别的方法的流程示意图；

图2为本申请实施例提供的另一种识别的方法的流程示意图；

图3为本申请实施例提供的一种识别的装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面详细描述本申请的实施例，该实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习或深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为了更好的理解及说明本申请实施例的方案，下面对本申请实施例中所涉及到的一些技术用语进行简单说明。

TSN：TSN(Temporal Segment Networks，时间段网络)最大的贡献是其提出的视频采样方式，在实验中显著优于随机采样、循环采样等其他采样方法；该方法从整个视频中稀疏地采样一系列短片段，每个片段都将给出其本身对于行为类别的初步预测，从这些片段的共识来得到视频级的预测结果。

TSM：TSM(Temporal Shift Module，时间位移模型)是视频时域信息融合方法，该方法通过时间维度特征位移的方式，在不新增参数的情况下做到了不同帧间的特征融合。

ResNet50：ResNet50是ResNet(Deep residual network，深度残差网络)系列网络中性能和资源消耗较为平衡的选择。

Bi-LSTM：LSTM(Long Short-Term Memory，长短期记忆的循环神经网络)非常适合用于对时序数据的建模，例如文本数据，BiLSTM(Bi-directional Long Short-TermMemory，双向长短期记忆的循环神经网络)是由前向LSTM与后向LSTM组合而成。

self-attention：self-attention(自注意力机制)的特点在于无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构，实现也较为简单并且可以并行计算。

xgboost：xgboost是提升树可扩展的机器学习系统，开源的模型工具。

finetune：finetune(微调)具体是使用已训练好的模型，加入少量新数据，来训练新的模型；相当于使用别人的模型的前几层，来提取浅层特征，然后在最后再落入自己的分类中；finetune的好处在于不用完全重新训练模型，从而提高效率，因为一般新训练模型准确率都会从很低的值开始慢慢上升，但是fine tune能够在比较少的迭代次数之后得到一个比较好的效果。

本申请实施例提供的技术方案涉及人工智能的机器学习，下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

实施例一

本申请实施例中提供了一种识别的方法，该方法的流程示意图如图1所示，该方法包括：

S101，获取待识别视频包括的第一信息。

可选地，第一信息，包括以下至少一项：

可选地，关键帧是角色或者物体运动或变化中的关键动作所处的那一帧；关键帧包括普通关键帧、动作脚本关键帧中的至少一项；其中，普通关键帧用于处理图形图像和动画，动作脚本关键帧用于存放动作脚本。

可选地，待识别视频对应的视频发布者的标识信息包括待识别视频对应的视频发布者的昵称。

可选地，视频文本描述信息包括视频的标题。语音文本信息包括语音转文字的语音内容。视频帧图像文本信息包括视频帧内的文本识别信息、视频动作信息，视频画面信息中的至少一项。

S102，将第一信息输入至训练后的视觉模型，确定第一预测广告概率，并将第一信息输入至训练后的文本特征模型，确定第二预测广告概率，第一预测广告概率用于表征通过训练后的视觉模型将待识别视频识别为广告视频的预测概率，第二预测广告概率用于表征通过训练后的文本特征模型将待识别视频识别为广告视频的预测概率。

可选地，视觉模型包括时间段网络TSN、时间位移模型TSM、深度残差网络ResNet50中的至少一项；文本特征模型包括双向长短期记忆的循环神经网络Bi-LSTM、自注意力机制self-attention中的至少一项。

S103，将待识别视频对应的视频发布者在预设第一时间范围内所发布的各视频进行分类，确定为广告视频类型的视频的第一数量，以及确定为非广告视频类型的视频的第二数量。

可选地，将待识别视频对应的视频发布者在过去一个月内所发布的多个视频进行分类，确定为广告视频类型的视频的第一数量pos，以及确定为非广告视频类型的视频的第二数量neg，其中，预设第一时间范围为过去一个月。

S104，将第一预测广告概率、第二预测广告概率、第一数量和第二数量输入至训练后的融合模型，确定第三预测广告概率。

可选地，融合模型包括提升树可扩展的机器学习系统xgboost。

可选地，xgboost中可指定的参数包括通用参数、集成(增强)参数、任务参数中的至少一项。

S105，当第三预测广告概率大于预设第一阈值，确定待识别视频为广告视频。

可选地，当第三预测广告概率小于等于预设第一阈值，确定待识别视频为非广告视频。

本申请实施例中，获取待识别视频包括的第一信息；将第一信息输入至训练后的视觉模型，确定第一预测广告概率，并将第一信息输入至训练后的文本特征模型，确定第二预测广告概率；将待识别视频对应的视频发布者在预设第一时间范围内所发布的各视频进行分类，确定为广告视频类型的视频的第一数量，以及确定为非广告视频类型的视频的第二数量；将第一预测广告概率、第二预测广告概率、第一数量和第二数量输入至训练后的融合模型，确定第三预测广告概率；当第三预测广告概率大于预设第一阈值，确定待识别视频为广告视频。该方法通过互补性强的三种模型，即训练后的视觉模型、训练后的文本特征模型和训练后的融合模型，对待识别视频进行自动化的识别，提升了识别广告视频的准确率，降低了误拦截非广告视频的几率，即降低了误拦截普通用户的生活分享视频，提高了用户体验。

可选地，确定训练后的视觉模型的方式包括：

可选地，预设的视觉模型包括ResNet50，ResNet50包括50层的参差网络，ResNet50包括恒等块和卷积块2种结构。

可选地，学习率是监督学习以及深度学习中的参数，学习率决定着目标函数能否收敛到局部最小值以及何时收敛到最小值；采用合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。

可选地，在业务数据上随机抽样10000个视频，设为A1，A2，A3，...，A10000，Ax表示10000个视频中标号为x的视频，其中，x为1到10000的正整数，把Ax的全部图像输入至训练后的视觉模型，训练后的视觉模型预测Ax是广告的概率，例如，训练后的视觉模型预测Ax是广告的概率为0.88。

可选地，确定训练后的文本特征模型的方式包括：

可选地，将Ax的标题、语音文本等文本信息输入至训练后的文本特征模型，训练后的文本特征模型预测Ax是广告的概率，例如，训练后的文本特征模型预测Ax是广告的概率为0.75。

可选地，确定训练后的融合模型的方式包括：

可选地，在业务数据上随机抽样20000个视频，设为B1，B2，B3，...，B20000，By表示20000个视频中标号为y的视频，其中，y为1到20000的正整数，把By的全部图像输入至训练后的视觉模型，训练后的视觉模型预测By是广告的概率，例如，训练后的视觉模型预测By是广告的概率为0.89；将By的标题、语音文本等文本信息输入至训练后的文本特征模型，训练后的文本特征模型预测By是广告的概率，例如，训练后的文本特征模型预测By是广告的概率为0.79，得到识别By为广告的概率组合(0.89，0.79)；将20000个概率组合作为训练预设的融合模型的输入，其中融合模型为xgboost。

可选地，历史广告先验信息包括过去一个月视频发布者发表的广告视频数量，以及过去一个月视频发布者发表的非广告视频数量。例如，视频发布者在过去一个月累计发表的视频里，被判定为广告视频的数量为23条，被判定为非广告视频的数量为16条。

可选地，训练后的视觉模型预测By是广告的概率为0.89，训练后的文本特征模型预测By是广告的概率为0.79，视频发布者在过去一个月累计发表的视频里，被判定为广告视频的数量为23条，被判定为非广告视频的数量为16条；将(0.89，0.79，23，16)作为训练预设的融合模型的输入，By的标注结果是广告，广告就是训练预设的融合模型的输出。例如，使用20000个视频来训练融合模型，用2000个另外的视频来作为融合模型的验证集，那么融合模型的收敛条件是验证集上的准确率达到最高并开始下降时，选择验证集上准确率最高的融合模型，其中融合模型为xgboost。

可选地，每个视频除了由机器判定是否是广告，人工也会定期抽查并给出人工的判定结果。随着时间的积累，人工定期抽查的人工判定结果就会积累相当的数量，例如，积累了两个月后，系统自动收集这两个月人工判定的结果作为训练样本，训练样本包括相关视频的全部图像、视频标题、语音文本、数据内容等，训练过程使用之前现成的训练代码，自动监控验证集上的准确率并在验证集上准确率停止上升，且开始下降时自动停止训练。

可选地，由于线上用户数据的分布可能会发生变化，模型要保持对最新数据的适应，对模型进行定期更新，每隔一个月，脚本会下载过去一个月的相关全部数据信息，然后调用相关脚本执行训练调优finetune模型，脚本自动监测准确度等性能指标，得到测试数据集上效果最好的模型后，保存效果最好的模型，并将效果最好的模型更新到线上。

本申请实施例中，通过互补性强的三种模型，即训练后的视觉模型、训练后的文本特征模型和训练后的融合模型，对待识别视频进行自动化的识别，提升了识别广告视频的准确率，降低了误拦截非广告视频的几率，即降低了误拦截普通用户的生活分享视频，提高了用户体验。

本申请实施例中提供了另一种识别的方法，该方法的流程示意图如图2所示，该方法包括：

S201，将预设的视觉模型进行训练，得到训练后的视觉模型；并将预设的文本特征模型进行训练，得到训练后的文本特征模型。

可选地，预设的视觉模型包括时间段网络TSN、时间位移模型TSM和深度残差网络ResNet50，将第一训练视频包括的图像帧集合输入至时间段网络TSN、时间位移模型TSM和深度残差网络ResNet50，得到训练后的视觉模型。可选地，文本特征模型包括双向长短期记忆的循环神经网络Bi-LSTM和自注意力机制self-attention，将第二训练视频包括的待识别视频对应的视频发布者的标识信息、视频描述、语音文本信息和视频帧图像文本信息输入至双向长短期记忆的循环神经网络Bi-LSTM和自注意力机制self-attention，得到训练后的文本特征模型。

可选地，预设的训练集包括第一训练视频和第二训练视频。

S202，将第三训练视频输入至训练后的视觉模型，得到第一训练预测概率。

可选地，第一训练预测概率用于表征通过训练后的视觉模型将第三训练视频识别为广告视频的预测概率。

可选地，预设的训练集包括第三训练视频。

S203，将第三训练视频输入至训练后的文本特征模型，得到第二训练预测概率。

可选地，第二训练预测概率用于表征通过训练后的文本特征模型将第三训练视频识别为广告视频的预测概率。

S204，将第一训练预测概率、第二训练预测概率和视频发布者的历史广告先验信息输入至预设的融合模型，将预设的融合模型进行训练，得到训练后的融合模型。

可选地，融合模型为提升树可扩展的机器学习系统xgboost。

S205，将待识别视频包括的第一信息输入至训练后的视觉模型，确定第一预测广告概率，并将第一信息输入至训练后的文本特征模型，确定第二预测广告概率。

可选地，第一预测广告概率用于表征通过训练后的视觉模型将待识别视频识别为广告视频的预测概率，第二预测广告概率用于表征通过训练后的文本特征模型将待识别视频识别为广告视频的预测概率。

可选地，第一信息，包括以下至少一项：

S206，将待识别视频对应的视频发布者在预设第一时间范围内所发布的各视频进行分类，确定为广告视频类型的视频的第一数量，以及确定为非广告视频类型的视频的第二数量。

可选地，预设第一时间范围为过去一个月。

S207，将第一预测广告概率、第二预测广告概率、第一数量和第二数量输入至训练后的融合模型，确定第三预测广告概率。

S208，当第三预测广告概率大于预设第一阈值，确定待识别视频为广告视频；当第三预测广告概率小于等于预设第一阈值，确定待识别视频为非广告视频。

为了更好的理解本申请实施例所提供的方法，下面结合具体应用场景的示例对本申请实施例的方案进行进一步说明。

本申请实施例所提供的方法应用在微视app产品。用户上传视频后会经过机器审查以及人工审查的串行流程，首先机器审查对视频识别是否是低质，例如视频是广告视频，然后剩余的(机器人审非低质)的视频还会走人工审查再次确认；其中，人工审查是需要支付大量人工费用雇佣审核人员人工校对。微视app产品上线后，机器审查的识别数量大幅增加，从而减少人审的工作量，节省了人力成本。

本申请实施例所提供的方法应用在微视等短小视频平台的恶意广告自动审核打击上。将拦截广告的准确率从77％提升到了90％，同时广告召回率从46％提升到了90％。实现了自动化的识别广告视频，同时尽量少的误拦截普通用户的生活分享视频，使得进入推荐池的视频均为反应人民群众生活日常的优质视频，提高了用户体验。

实施例二

基于相同的发明构思，本申请实施例还提供了一种识别的装置，该装置的结构示意图如图3所示，识别的装置30，包括第一处理模块301、第二处理模块302、第三处理模块303、第四处理模块304和第五处理模块305。

第一处理模块301，用于获取待识别视频包括的第一信息；

第二处理模块302，用于将所述第一信息输入至训练后的视觉模型，确定第一预测广告概率，并将所述第一信息输入至训练后的文本特征模型，确定第二预测广告概率，所述第一预测广告概率用于表征通过所述训练后的视觉模型将所述待识别视频识别为广告视频的预测概率，所述第二预测广告概率用于表征通过所述训练后的文本特征模型将所述待识别视频识别为广告视频的预测概率；

第三处理模块303，用于将所述待识别视频对应的视频发布者在预设第一时间范围内所发布的各视频进行分类，确定为广告视频类型的视频的第一数量，以及确定为非广告视频类型的视频的第二数量；

第四处理模块304，用于将所述第一预测广告概率、所述第二预测广告概率、所述第一数量和所述第二数量输入至训练后的融合模型，确定第三预测广告概率；

第五处理模块305，用于当所述第三预测广告概率大于预设第一阈值，确定所述待识别视频为广告视频。

可选地，第一信息，包括以下至少一项：

可选地，确定训练后的视觉模型的方式包括：

可选地，确定训练后的文本特征模型的方式包括：

可选地，确定训练后的融合模型的方式包括：

本申请实施例提供的识别的装置中未详述的内容，可参照上述实施例一提供的识别的方法，本申请实施例提供的识别的装置能够达到的有益效果与上述实施例一提供的识别的方法相同，在此不再赘述。

应用本申请实施例，至少具有如下有益效果：

获取待识别视频包括的第一信息；将第一信息输入至训练后的视觉模型，确定第一预测广告概率，并将第一信息输入至训练后的文本特征模型，确定第二预测广告概率；将待识别视频对应的视频发布者在预设第一时间范围内所发布的各视频进行分类，确定为广告视频类型的视频的第一数量，以及确定为非广告视频类型的视频的第二数量；将第一预测广告概率、第二预测广告概率、第一数量和第二数量输入至训练后的融合模型，确定第三预测广告概率；当第三预测广告概率大于预设第一阈值，确定待识别视频为广告视频。该方法通过互补性强的三种模型，即训练后的视觉模型、训练后的文本特征模型和训练后的融合模型，对待识别视频进行自动化的识别，提升了识别广告视频的准确率，降低了误拦截非广告视频的几率，即降低了误拦截普通用户的生活分享视频，提高了用户体验。

实施例三

基于相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备的结构示意图如图4所示，该电子设备6000包括至少一个处理器6001、存储器6002和总线6003，至少一个处理器6001均与存储6002电连接；存储器6002被配置用于存储有至少一个计算机可执行指令，处理器6001被配置用于执行该至少一个计算机可执行指令，从而执行如本申请实施例一中任意一个实施例或任意一种可选实施方式提供的任意一种识别的方法的步骤。

进一步，处理器6001可以是FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其它具有逻辑处理能力的器件，如MCU(Microcontroller Unit，微控制单元)、CPU(Central Process Unit，中央处理器)。

应用本申请实施例，至少具有如下有益效果：

实施例四

基于相同的发明构思，本申请实施例还提供了另一种计算机可读存储介质，存储有计算机程序，该计算机程序用于被处理器执行时实现本申请实施例一中任意一个实施例或任意一种可选实施方式提供的任意一种识别的方法的步骤。

本申请实施例提供的计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(RandomAccess Memory，随即存储器)、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读存储介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

应用本申请实施例，至少具有如下有益效果：

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种识别的方法，其特征在于，包括：

获取待识别视频包括的第一信息；

将所述第一信息输入至训练后的视觉模型，确定第一预测广告概率，并将所述第一信息输入至训练后的文本特征模型，确定第二预测广告概率，所述第一预测广告概率用于表征通过所述训练后的视觉模型将所述待识别视频识别为广告视频的预测概率，所述第二预测广告概率用于表征通过所述训练后的文本特征模型将所述待识别视频识别为广告视频的预测概率；

将所述待识别视频对应的视频发布者在预设第一时间范围内所发布的各视频进行分类，确定为广告视频类型的视频的第一数量，以及确定为非广告视频类型的视频的第二数量；

将所述第一预测广告概率、所述第二预测广告概率、所述第一数量和所述第二数量输入至训练后的融合模型，确定第三预测广告概率；

当所述第三预测广告概率大于预设第一阈值，确定所述待识别视频为广告视频。

2.根据权利要求1所述的方法，其特征在于，所述第一信息，包括以下至少一项：

关键帧、所述待识别视频对应的视频发布者的标识信息、视频文本描述信息、语音文本信息、视频帧图像文本信息、关键帧图像集。

3.根据权利要求1所述的方法，其特征在于，所述视觉模型包括时间段网络TSN、时间位移模型TSM、深度残差网络ResNet50中的至少一项；所述文本特征模型包括双向长短期记忆的循环神经网络Bi-LSTM、自注意力机制self-attention中的至少一项；所述融合模型包括提升树可扩展的机器学习系统xgboost。

4.根据权利要求1所述的方法，其特征在于，确定所述训练后的视觉模型的方式包括：

将第一训练视频包括的图像帧集合输入至预设的视觉模型，对所述预设的视觉模型的第一参数的进行调整，当达到第一预定训练收敛条件时，得到所述训练后的视觉模型，所述第一预定训练收敛条件包括将所述预设的视觉模型进行训练，直至将所述第一训练视频识别为广告视频的预测准确度大于预设第二阈值，所述第一参数包括网络的层数、每层节点数、学习率中至少一项。

5.根据权利要求1所述的方法，其特征在于，确定所述训练后的文本特征模型的方式包括：

将第二训练视频包括的所述待识别视频对应的视频发布者的标识信息、视频描述、语音文本信息、视频帧图像文本信息中至少一项输入至预设的文本特征模型，通过注意力机制attention对所述预设的文本特征模型进行训练，当达到第二预定训练收敛条件时，得到所述训练后的文本特征模型，所述第二预定训练收敛条件包括将所述预设的文本特征模型进行训练，直至将所述第二训练视频识别为广告视频的预测准确度大于预设第三阈值。

6.根据权利要求1所述的方法，其特征在于，确定所述训练后的融合模型的方式包括：

将第三训练视频输入至所述训练后的视觉模型，得到第一训练预测概率，所述第一训练预测概率用于表征通过所述训练后的视觉模型将所述第三训练视频识别为广告视频的预测概率；

将所述第三训练视频输入至所述训练后的文本特征模型，得到第二训练预测概率，所述第二训练预测概率用于表征通过所述训练后的文本特征模型将所述第三训练视频识别为广告视频的预测概率；

将所述第一训练预测概率、所述第二训练预测概率和所述视频发布者的历史广告先验信息输入至预设的融合模型，通过网格搜索方式对所述预设的融合模型进行训练，当达到第三预定训练收敛条件时，得到所述训练后的融合模型，所述历史广告先验信息包括所述视频发布者在预设第二时间范围内发布的广告视频数量、所述视频发布者在所述预设第二时间范围内发布的非广告视频数量中的至少一项，所述第三预定训练收敛条件包括将所述预设的融合模型进行训练，直至将所述第三训练视频识别为广告视频的预测准确度大于预设第四阈值。

7.一种识别的装置，其特征在于，包括：

第一处理模块，用于获取待识别视频包括的第一信息；

8.根据权利要求7所述的装置，其特征在于，包括：

所述视觉模型包括时间段网络TSN、时间位移模型TSM、深度残差网络ResNet50中的至少一项；所述文本特征模型包括双向长短期记忆的循环神经网络Bi-LSTM、自注意力机制self-attention中的至少一项；所述融合模型包括提升树可扩展的机器学习系统xgboost。

9.一种电子设备，其特征在于，包括：处理器、存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于通过调用所述计算机程序，执行如权利要求1-6中任一项所述的识别的方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序用于被处理器执行时实现如权利要求1-6中任一项所述的识别的方法。