CN111491180B - 关键帧的确定方法和装置 - Google Patents

关键帧的确定方法和装置 Download PDF

Info

Publication number
CN111491180B
CN111491180B CN202010589150.6A CN202010589150A CN111491180B CN 111491180 B CN111491180 B CN 111491180B CN 202010589150 A CN202010589150 A CN 202010589150A CN 111491180 B CN111491180 B CN 111491180B
Authority
CN
China
Prior art keywords
video frame
video
frame
feature
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010589150.6A
Other languages
English (en)
Other versions
CN111491180A (zh
Inventor
彭健腾
王兴华
康斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010589150.6A priority Critical patent/CN111491180B/zh
Publication of CN111491180A publication Critical patent/CN111491180A/zh
Application granted granted Critical
Publication of CN111491180B publication Critical patent/CN111491180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种关键帧的确定方法和装置,涉及人工智能领域;方法包括:对视频进行抽帧处理,得到多个视频帧;对多个视频帧中的第一视频帧进行对象特征提取处理,得到第一视频帧的对象特征,并对第一视频帧之后的第二视频帧进行对象特征提取处理,得到第二视频帧的对象特征;对第一视频帧的对象特征以及第二视频帧的对象特征进行比对;当比对结果表征第一视频帧中的对象与第二视频帧中的对象不同时,将第二视频帧确定为视频的对象关键帧。通过本发明,能够准确地抽取视频中的对象关键帧。

Description

关键帧的确定方法和装置
技术领域
发明涉及人工智能技术,尤其涉及一种关键帧的确定方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
视频对象识别是人工智能领域的重要应用之一,视频对象识别是指从视频中识别出对象的过程。视频对象识别在文字识别系统、人脸识别系统等中都有广泛的应用,即视频对象识别是这些复杂系统的基础组件。
但是,相关技术中的视频对象识别需要对视频中的每一视频帧进行识别,使得识别过程计算量大、效率低。
发明内容
本发明实施例提供一种关键帧的确定方法、装置、电子设备及计算机可读存储介质,能够准确地抽取视频中的对象关键帧,以提高后续对象识别的效率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种关键帧的确定方法,包括:
对视频进行抽帧处理,得到多个视频帧;
对所述多个视频帧中的第一视频帧进行对象特征提取处理,得到所述第一视频帧的对象特征,并对所述第一视频帧之后的第二视频帧进行对象特征提取处理,得到所述第二视频帧的对象特征;
对所述第一视频帧的对象特征以及所述第二视频帧的对象特征进行比对;
当比对结果表征所述第一视频帧中的对象与所述第二视频帧中的对象不同时,将所述第二视频帧确定为所述视频的对象关键帧。
上述技术方案中,所述方法还包括:
当所述第一视频帧是所述多个视频帧中播放次序在首位的视频帧时,将所述第一视频帧确定为对象关键帧。
上述技术方案中,所述对视频进行抽帧处理,得到多个视频帧之后,还包括:
对所述多个视频帧进行尺寸缩放,得到缩放后的多个视频帧;
对所述缩放后的多个视频帧进行对比度调整,得到待处理的多个视频帧。
本发明实施例提供一种关键帧的确定装置,包括:
抽帧模块,用于对视频进行抽帧处理,得到多个视频帧;
提取模块,用于对所述多个视频帧中的第一视频帧进行对象特征提取处理,得到所述第一视频帧的对象特征,并对所述第一视频帧之后的第二视频帧进行对象特征提取处理,得到所述第二视频帧的对象特征;
处理模块,用于对所述第一视频帧的对象特征以及所述第二视频帧的对象特征进行比对;当比对结果表征所述第一视频帧中的对象与所述第二视频帧中的对象不同时,将所述第二视频帧确定为所述视频的对象关键帧。
上述技术方案中,所述第一视频帧和所述第二视频帧为所述多个视频帧中任意相邻的两个视频帧,或者,
所述第一视频帧与所述第二视频帧是所述多个视频帧中间隔的视频帧,且所述第一视频帧是距离所述第二视频帧最近的对象关键帧。
上述技术方案中,所述装置还包括:
确定模块,用于当所述第一视频帧是所述多个视频帧中播放次序在首位的视频帧时,将所述第一视频帧确定为对象关键帧。
上述技术方案中,当所述对象为所述视频中处于动态位置的内容时,所述提取模块还用于对所述第一视频帧进行特征提取处理,得到所述第一视频帧的位置特征和内容特征;
对所述第一视频帧的位置特征以及内容特征进行融合处理,得到所述第一视频帧的对象特征;
对所述第二视频帧进行特征提取处理,得到所述第二视频帧的位置特征和内容特征;
对所述第二视频帧的位置特征以及内容特征进行融合处理,得到所述第二视频帧的对象特征。
上述技术方案中,当所述对象为所述视频中处于静态位置的内容时,所述提取模块还用于对所述第一视频帧进行特征提取处理,得到所述第一视频帧的位置特征和内容特征;
根据所述第一视频帧的对象位置掩码信息,对所述第一视频帧的位置特征以及内容特征进行融合处理,得到所述第一视频帧的对象特征;
对所述第二视频帧进行特征提取处理,得到所述第二视频帧的位置特征和内容特征;
根据所述第二视频帧的对象位置掩码信息,对所述第二视频帧的位置特征以及内容特征进行融合处理,得到所述第二视频帧的对象特征。
上述技术方案中,所述提取模块还用于对所述第一视频帧进行内容特征提取处理,得到包含所述第一视频帧的对象的轮廓信息的内容特征;
对所述第一视频帧进行位置特征提取处理,得到包含所述第一视频帧的对象的内容信息的位置特征。
上述技术方案中,所述提取模块还用于对所述第一视频帧的位置特征进行通道压缩处理,得到压缩后的位置特征;
对所述压缩后的位置特征进行非线性映射处理,得到所述第一视频帧的对象位置掩码信息;
其中,所述对象位置掩码信息用于表征所述第一视频帧中的各区域是否存在对象。
上述技术方案中,所述提取模块还用于对所述第一视频帧的对象位置掩码信息以及所述第一视频帧的位置特征进行融合处理,得到所述第一视频帧的对象位置特征;
对所述第一视频帧的对象位置掩码信息以及所述第一视频帧的内容特征进行融合处理,得到所述第一视频帧的对象内容特征;
对所述第一视频帧的对象位置特征以及所述第一视频帧的对象内容特征进行拼接处理,得到所述第一视频帧的对象特征。
上述技术方案中,所述提取模块还用于针对所述第一视频帧的位置特征中的各区域的特征执行以下处理:
将所述第一视频帧的对象位置掩码信息中对应所述区域的位置掩码信息、与所述区域的特征相乘,以得到所述区域的对象位置特征;
对所述第一视频帧的各区域的对象位置特征进行组合处理,得到所述第一视频帧的对象位置特征。
上述技术方案中,所述处理模块还用于对所述第一视频帧的对象特征以及所述第二视频帧的对象特征进行融合处理,得到对象融合特征;
将所述对象融合特征映射为所述第一视频帧中的对象与所述第二视频帧中的对象是不同对象的概率;
当所述概率大于概率阈值时,确定所述第一视频帧中的对象与所述第二视频帧中的对象不同。
上述技术方案中,所述处理模块还用于针对所述第一视频帧的对象特征中的各区域的特征执行以下处理:
将所述第二视频帧的对象特征中对应所述区域的特征、与所述区域的特征相减,以得到所述区域的差异特征;
对各区域的差异特征进行组合处理,得到所述对象融合特征;
对所述对象融合特征进行卷积处理,得到对应所述第一视频帧与所述第二视频帧的对象融合概率图;
对所述对象融合概率图进行非线性映射处理,得到所述第一视频帧中的对象与所述第二视频帧中的对象是不同对象的概率。
上述技术方案中,所述抽帧模块还用于通过以下任一方式对视频进行抽帧处理,以得到多个视频帧:
对所述视频进行第一尺度抽帧处理,得到第一视频帧序列,并对所述视频进行第二尺度抽帧处理,得到第二视频帧序列,其中,所述第一尺度大于所述第二尺度;
对所述视频进行第一尺度抽帧处理,得到第一视频帧序列,并对所述第一视频帧序列进行第二尺度抽帧处理,得到第二视频帧序列,其中,所述第一尺度大于所述第二尺度。
上述技术方案中,所述处理模块还用于当比对结果表征所述第一视频帧序列中的所述第一视频帧中的对象与所述第二视频帧中的对象不同时,将所述第一视频帧序列中的所述第二视频帧确定为所述第一视频帧序列中的对象关键帧;
当比对结果表征所述第二视频帧序列中的所述第一视频帧中的对象与所述第二视频帧的对象不同时,将所述第二视频帧序列中所述第二视频帧确定为所述第二视频帧序列中的对象关键帧;
所述装置还包括:合并模块,用于对多个所述第一视频帧序列中的对象关键帧、以及多个所述第二视频帧序列中的对象关键帧进行合并处理,得到合并的对象关键帧,并
对所述合并的对象关键帧进行去重处理,得到多个所述视频的对象关键帧。
上述技术方案中,所述装置还包括:
预处理模块,用于对所述多个视频帧进行尺寸缩放,得到缩放后的多个视频帧;
对所述缩放后的多个视频帧进行对比度调整,得到待处理的多个视频帧。
上述技术方案中,所述装置还包括:
训练模块,用于通过神经网络模型,对视频帧样本对中的第一视频帧样本进行对象特征提取处理,得到所述第一视频帧样本的对象特征,并对所述视频帧样本对中的第二视频帧样本进行对象特征提取处理,得到所述第二视频帧样本的对象特征;
对所述第一视频帧样本的对象特征以及所述第二视频帧样本的对象特征进行预测处理,以得到所述视频帧样本对的对象预测结果;其中,所述对象预测结果表征所述第一视频帧样本中的对象与所述第二视频帧样本中的对象是否相同;
根据所述视频帧样本对的对象预测结果、以及所述视频帧样本对的对象标注,构建所述神经网络模型的损失函数;
更新所述神经网络模型的参数直至所述损失函数收敛,将所述损失函数收敛时所述神经网络模型的更新的参数,作为训练后的所述神经网络模型的参数。
上述技术方案中,所述训练模块还用于根据得到的第一视频帧样本的对象位置掩码信息、以及所述第一视频帧样本的对象位置掩码信息标注,构建所述第一视频帧样本的对象位置的损失函数;
根据得到的第二视频帧样本的对象位置掩码信息、以及所述第二视频帧样本的对象位置掩码信息标注,构建所述第二视频帧样本的对象位置的损失函数;
根据所述视频帧样本对的对象预测结果、以及所述视频帧样本对的对象标注,构建所述视频帧样本对的损失函数;
对所述第一视频帧样本的对象位置的损失函数、所述第二视频帧样本的对象位置的损失函数以及所述视频帧样本对的损失函数进行加权求和,以得到所述神经网络模型的损失函数。
本发明实施例提供一种用于确定对象关键帧的电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的关键帧的确定方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的关键帧的确定方法。
本发明实施例具有以下有益效果:
通过提取视频中第一视频帧的对象特征以及第二视频帧的对象,并通过第一视频帧的对象特征以及第二视频帧的对象特征,确定第一视频帧中的对象与第二视频帧中的对象不同时,则确定第二视频帧为视频的对象关键帧,从而准确且高效地从视频中确定出对象关键帧。
附图说明
图1是本发明实施例提供的视频对象识别系统的应用场景示意图;
图2是本发明实施例提供的用于确定对象关键帧的电子设备的结构示意图;
图3、图4、图5和图6是本发明实施例提供的关键帧的确定方法的流程示意图;
图7是本发明实施例提供的一种基于深度学习的视频文字关键帧的获取方法的流程示意图;
图8是本发明实施例提供的孪生网络结构的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)深度学习(Deep Learning,DL):机器学习(Machine Learning,ML)领域中一个新的研究方向。学习样本数据的内在规律和表示层次,以获得对文字、图像和声音等数据的解释。最终让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据,模仿视听和思考等人类的活动。
本发明实施例提供了一种关键帧的确定方法、装置、电子设备及计算机可读存储介质,准确地抽取视频中的对象关键帧,在确定出视频中的对象关键帧后,对对象关键帧进行对象识别,以实现视频对象识别,无需对视频中所有的视频帧进行对象识别,从而提高对象识别的效率。
下面说明本发明实施例提供的用于确定对象关键帧的电子设备的示例性应用。
本发明实施例提供的用于确定对象关键帧的电子设备可以是各种类型的终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器;终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明在此不做限制。以服务器为例,例如可以是部署在云端的服务器集群,向运维人员或者用户开放人工智能云服务(AIas a Service,AIaaS),AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务,这种服务模式类似于一个AI主题商城,所有的运维人员都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。例如,其中的一个服务为对象关键帧确定服务,即云端的服务器封装有对象关键帧确定的程序。运维人员或者用户通过终端调用云服务中的对象关键帧确定服务,以使部署在云端的服务器调用封装的对象关键帧确定的程序,从视频中确定出对象关键帧,并对该对象关键帧进行对象识别,以识别出视频中的对象,后续根据识别出的对象进行视频应用,例如,该对象为处于静态位置的文字时,即识别出整段视频中的字幕,并剔除字幕中的敏感词汇(例如不文明词汇、暴力词汇等)以及错误词汇,以修正视频的字幕,以便用户可以观看健康、准确的字幕。
参见图1,图1是本发明实施例提供的视频对象识别系统10的应用场景示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
终端200可以被用来获取视频,例如,运维人员通过终端打开某视频,终端自动获取该视频。
在一些实施例中,终端200本地执行本发明实施例提供的关键帧的确定方法,从视频中确定出对象关键帧,例如,在终端200上安装视频对象识别应用(Application,APP),用户在视频对象识别APP打开某视频后,终端200对视频中的第一视频帧的对象特征以及第二视频帧的对象特征进行比对,当比对结果表征第一视频帧中的对象与第二视频帧中的对象不同时,将第二视频帧确定为视频的对象关键帧,并对对象关键帧进行对象识别,以识别出视频中的对象,后续根据识别出的对象进行视频购物应用,例如,该对象为处于静态位置的商品(例如服饰、电器等)时,即识别出整段购物视频中的所有商品,并为视频中的所有商品加上对应的标签(例如价格、促销活动等),以调整购物视频,以便用户可以通过标签了解视频中商品的相关信息。
在一些实施例中,终端200也可以通过网络300向云端的服务器100发送用户在终端200上打开的视频,并调用服务器100提供的确定对象关键帧的功能(封装的确定对象关键帧的程序),服务器100通过本发明实施例提供的关键帧的确定方法,从视频中确定出对象关键帧,例如,在终端200上安装视频对象识别应用,用户在视频对象识别应用中打开某视频,终端200通过网络300向服务器100发送该视频,服务器100接收到该视频后,调用封装的确定对象关键帧的程序,对视频中的第一视频帧的对象特征以及第二视频帧的对象特征进行比对,当比对结果表征第一视频帧中的对象与第二视频帧中的对象不同时,将第二视频帧确定为视频的对象关键帧,并对对象关键帧进行对象识别,以识别出视频中的对象,并将识别出的视频中的对象返回至视频对象识别应用,终端根据识别出的对象进行视频应用,例如,该对象为处于静态位置的文字时,即识别出整段视频中的字幕,并剔除字幕中的敏感词汇(例如不文明词汇、暴力词汇等)以及错误词汇,以修正视频的字幕,并将修正后的字幕显示在终端200的显示界面210上,以便用户可以观看健康、准确的字幕。
下面说明本发明实施例提供的用于确定对象关键帧的电子设备的结构,用于确定对象关键帧的电子设备可以是各种终端,例如手机、电脑等,也可以是如图1示出的服务器100。
参见图2,图2是本发明实施例提供的用于确定对象关键帧的电子设备500的结构示意图,以电子设备500是服务器为例说明,图2所示的用于确定对象关键帧的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本发明实施例提供的关键帧的确定装置可以采用软件方式实现,图2示出了存储在存储器550中的关键帧的确定装置555,其可以是程序和插件等形式的软件,并包括一系列的模块,包括抽帧模块5551、提取模块5552、处理模块5553、确定模块5554、合并模块5555、预处理模块5556以及训练模块5557;其中,抽帧模块5551、提取模块5552、处理模块5553、确定模块5554、合并模块5555以及预处理模块5556用于实现本发明实施例提供的提取对象关键帧的功能,训练模块5557用于实现对神经网络模型的训练。
根据上文可以理解,本发明实施例提供的关键帧的确定方法可以由各种类型的用于确定对象关键帧的电子设备实施,例如智能终端和服务器等。
下面结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的关键帧的确定方法。参见图3,图3是本发明实施例提供的关键帧的确定方法(基于深度学习的视频文字关键帧的获取方法)的流程示意图,结合图3示出的步骤进行说明。
在步骤101中,对视频进行抽帧处理,得到多个视频帧。
作为获取视频的示例,用户可以在终端打开某视频,则终端可以将该视频转发至服务器,以使服务器从该视频中抽取对象关键帧。其中,对象可以是字幕等在视频中处于静态位置(固定位置)的内容、即字幕等对象在视频中的位置是固定的,还可以是人脸、行人等在视频中处于动态位置的内容、即行人等对象在视频中是在不断变化的。
作为确定对象关键帧的前序环节,可以对视频进行抽帧,以得到多个视频帧,以便后续从多个视频帧中确定出对象关键帧。
在一些实施例中,为了更好地对多个视频帧进行后续特征提取,在对视频进行抽帧处理,得到多个视频帧之后,还可以对多个视频帧进行尺寸缩放,得到缩放后的多个视频帧;对缩放后的多个视频帧进行对比度调整,得到待处理的多个视频帧。
作为示例,在服务器获得了多个视频帧后,还可以对多个视频帧进行预处理,例如对多个视频帧进行尺寸缩放,以使缩放后的多个视频帧的尺寸相同,并与神经网络模型的输出尺寸相匹配;对多个视频帧进行对比度调整,以调节视频帧的明暗程度,使得对比度调整后的视频帧的内容更加清晰、易于辨认,有利于进行后续特征提取,能够提取到清晰的特征。其中,本发明实施例中的预处理并不限于尺寸缩放、对比度调整,且并不限定尺寸缩放、对比度调整的先后顺序。
在步骤102中,对多个视频帧中的第一视频帧进行对象特征提取处理,得到第一视频帧的对象特征,并对第一视频帧之后的第二视频帧进行对象特征提取处理,得到第二视频帧的对象特征。
其中,第一视频帧的播放解码顺序在第二视频帧的播放解码顺序之前、即第一视频帧的时间戳小于第二视频帧的时间戳。
例如,服务器在获得了多个视频帧后,通过神经网络模型提取第一视频帧的对象特征(例如文字特征)以及第二视频帧的对象特征,后续根据第一视频帧的对象特征以及第二视频帧的对象特征,确定第一视频帧的对象与第二视频帧的对象是否相同。
在一些实施例中,第一视频帧和第二视频帧为多个视频帧中任意相邻的两个视频帧。
作为示例,第一视频帧和第二视频帧为多个视频帧中任意相邻的两个视频帧,即将多个视频帧中相邻的视频帧进行两两组合,形成视频帧对,第一视频帧和第二视频帧为视频帧对的两个视频帧,后续对视频帧对中的两个视频帧进行比对,例如多个视频帧的播放解码顺序为视频帧1、视频帧2以及视频帧3,则将视频帧1和视频帧2组合为组合1(视频帧1为组合1中的第一视频帧、视频帧2为组合1中的第二视频帧)、将视频帧2和视频帧3组合为组合2(视频帧2为组合2中的第一视频帧、视频帧3为组合2中的第二视频帧)。
在一些实施例中,第一视频帧与第二视频帧是多个视频帧中间隔的视频帧,且第一视频帧是距离第二视频帧最近的对象关键帧。
作为示例,第一视频帧与第二视频帧是多个视频帧中间隔的视频帧,且第一视频帧是距离第二视频帧最近的对象关键帧。例如,多个视频帧的播放解码顺序为视频帧1、视频帧2以及视频帧3,并将视频帧1(多个视频帧中的第一个视频帧)确定为对象关键帧,首先将视频帧1与视频帧2进行比对,当确定视频帧2中的对象与视频帧1中的对象相同,则确定视频帧2不是对象关键帧,然后将视频帧3与视频帧1进行比对,即将视频帧3确定为第二视频帧、视频帧1确定为第一视频帧,视频帧1与视频帧3是多个视频帧中间隔的视频帧,且视频帧1是距离视频帧3最近的对象关键帧。
在一些实施例中,当对象为视频中处于动态位置的内容时,对多个视频帧中的第一视频帧进行对象特征提取处理,得到第一视频帧的对象特征,包括:对第一视频帧进行特征提取处理,得到第一视频帧的位置特征和内容特征;对第一视频帧的位置特征以及内容特征进行融合处理,得到第一视频帧的对象特征;相应地,对第一视频帧之后的第二视频帧进行对象特征提取处理,得到第二视频帧的对象特征,包括:对第二视频帧进行特征提取处理,得到第二视频帧的位置特征和内容特征;对第二视频帧的位置特征以及内容特征进行融合处理,得到第二视频帧的对象特征。
作为示例,当对象是人脸、行人等在视频中处于动态位置的内容时,即行人等对象在视频中是在不断变化的,则无法根据视频中对象的位置确定两个视频帧中的对象是否相同,例如,当第一视频帧和第二视频帧中包含同一个行人,但是行人的位置不同,若通过检测行人的位置判断第一视频帧和第二视频帧中的行人是否相同时,则容易出现判断错误。因此,在提取视频帧的对象特征时,无需引入对象的位置信息。对于多个视频帧中的第一视频帧,通过神经网络模型提取第一视频帧的位置特征(即顶层特征)和内容特征(即底层特征),并融合第一视频帧的位置特征和内容特征,以得到第一视频帧的对象特征;相应地,对于多个视频帧中的第二视频帧,通过神经网络模型提取第二视频帧的位置特征和内容特征,并融合第二视频帧的位置特征和内容特征,以得到第二视频帧的对象特征,即对于第一视频帧和第二视频帧的特征提取过程是相同的。
参见图4,图4是本发明实施例提供的关键帧的确定方法的一个可选的流程示意图,当对象为视频中处于静态位置的内容时,步骤102包括步骤1021、步骤1022、步骤1023和步骤1024:在步骤1021中,对第一视频帧进行特征提取处理,得到第一视频帧的位置特征和内容特征;在步骤1022中,根据第一视频帧的对象位置掩码信息,对第一视频帧的位置特征以及内容特征进行融合处理,得到第一视频帧的对象特征;在步骤1023中,对第二视频帧进行特征提取处理,得到第二视频帧的位置特征和内容特征;在步骤1024,根据第二视频帧的对象位置掩码信息,对第二视频帧的位置特征以及内容特征进行融合处理,得到第二视频帧的对象特征。
作为示例,当对象为字幕等在视频中处于静态位置(固定位置)的内容时,即字幕等对象在视频中的位置是固定的,则可以先确定视频中对象的位置,以根据对象的位置,确定处于该位置中的对象的内容是否相同,从而准确地提取视频帧的对象特征,以便后续准确比对两个视频帧的对象特征。因此,在提取视频帧的对象特征时,可以引入对象的位置信息(对象位置掩码信息)。对于多个视频帧中的第一视频帧,通过神经网络模型提取第一视频帧的位置特征和内容特征,并根据第一视频帧的对象位置掩码信息,融合第一视频帧的位置特征和内容特征,以得到第一视频帧的对象特征;相应地,对于多个视频帧中的第二视频帧,通过神经网络模型提取第二视频帧的位置特征和内容特征,并根据第二视频帧的对象位置掩码信息,融合第二视频帧的位置特征和内容特征,以得到第二视频帧的对象特征,即对于第一视频帧和第二视频帧的特征提取过程是相同的。
在一些实施例中,对第一视频帧进行特征提取处理,得到第一视频帧的位置特征和内容特征,包括:对第一视频帧进行内容特征提取处理,得到包含第一视频帧的对象的轮廓信息的内容特征;对第一视频帧进行位置特征提取处理,得到包含第一视频帧的对象的内容信息的位置特征。
承接上述示例,通过神经网络模型,例如残差网络(ResNet)、密集卷积网络(DenseNet)、衍生残差网络(SEResNet)等,提取包含第一视频帧的对象的轮廓信息的内容特征以及包含第一视频帧的对象的内容信息的位置特征,并通过神经网络模型提取包含第二视频帧的对象的轮廓信息的内容特征以及包含第二视频帧的对象的内容信息的位置特征。
在一些实施例中,对第一视频帧的位置特征以及内容特征进行融合处理之前,还包括:对第一视频帧的位置特征进行通道压缩处理,得到压缩后的位置特征;对压缩后的位置特征进行非线性映射处理,得到第一视频帧的对象位置掩码信息;其中,对象位置掩码信息用于表征第一视频帧中的各区域是否存在对象。
承接上述示例,当对象为视频中处于静态位置的内容时,可以提取视频帧的位置信息,并根据位置信息获取准确的视频帧的对象特征。对于提取视频帧(第一视频帧和第二视频帧)的位置信息,可以通过神经网络模型对包含丰富的视频帧的信息的位置特征进行通道压缩,以减小位置特征的通道数,并通过激活函数(例如,sigmoid函数)对压缩后的位置特征进行非线性映射,以得到视频帧的对象位置掩码,其中,对象位置掩码是一个N*N的{0,1}矩阵,N为自然数,矩阵中某个区域为1,则表示这个区域存在对象;矩阵中该区域为0,则表示这个区域不存在对象。
在一些实施例中,根据第一视频帧的对象位置掩码信息,对第一视频帧的位置特征以及内容特征进行融合处理,得到第一视频帧的对象特征,包括:对第一视频帧的对象位置掩码信息以及第一视频帧的位置特征进行融合处理,得到第一视频帧的对象位置特征(例如,顶层文字特征);对第一视频帧的对象位置掩码信息以及第一视频帧的内容特征进行融合处理,得到第一视频帧的对象内容特征(例如,底层文字特征);对第一视频帧的对象位置特征以及第一视频帧的对象内容特征进行拼接处理,得到第一视频帧的对象特征。
承接上述示例,在服务器获得视频帧的对象位置掩码信息后,可以根据第一视频帧的对象位置掩码信息,融合第一视频帧的位置特征以及内容特征。例如,对于第一视频帧,先融合第一视频帧的对象位置掩码信息以及第一视频帧的位置特征,以得到第一视频帧的对象位置特征,再融合第一视频帧的对象位置掩码信息以及第一视频帧的内容特征,以得到第一视频帧的对象内容特征,最后融合第一视频帧的对象位置特征以及第一视频帧的对象内容特征,以得到第一视频帧的对象特征,使得第一视频帧的对象特征引入包含对象的轮廓信息的内容特征、包含对象的内容信息的位置特征以及对象位置掩码信息。
在一些实施例中,对第一视频帧的对象位置掩码信息以及第一视频帧的位置特征进行融合处理,得到第一视频帧的对象位置特征,包括:针对第一视频帧的位置特征中的各区域的特征执行以下处理:将第一视频帧的对象位置掩码信息中对应区域的位置掩码信息、与区域的特征相乘,以得到区域的对象位置特征;对第一视频帧的各区域的对象位置特征进行组合处理,得到第一视频帧的对象位置特征。
例如,将视频帧(第一视频帧和第二视频帧)的位置特征划分为N*N的特征矩阵,即存在N*N个区域,视频帧的对象位置掩码信息为N*N的{0,1}矩阵,则将N*N的特征矩阵中的某区域的特征与N*N的{0,1}矩阵中对应该区域的值(0或1)相乘,得到该区域的对象位置特征,组合N*N个区域的对象位置特征,以形成视频帧的对象位置特征。
在步骤103中,对第一视频帧的对象特征以及第二视频帧的对象特征进行比对。
在服务器提取到第一视频帧的对象特征以及第二视频帧的对象特征后,可以比对第一视频帧的对象特征以及第二视频帧的对象特征,以确定第一视频帧中的对象与第二视频帧中的对象是否相同。
参见图5,图5是本发明实施例提供的关键帧的确定方法的一个可选的流程示意图,图5示出步骤103包括步骤1031、步骤1032和步骤1033:在步骤1031中,对第一视频帧的对象特征以及第二视频帧的对象特征进行融合处理,得到对象融合特征;在步骤1032中,将对象融合特征映射为第一视频帧中的对象与第二视频帧中的对象是不同对象的概率;在步骤1033中,当概率大于概率阈值时,确定第一视频帧中的对象与第二视频帧中的对象不同。
作为示例,在服务器获得第一视频帧的对象特征以及第二视频帧的对象特征后,可以融合第一视频帧的对象特征以及第二视频帧的对象特征,以得到对象融合特征,即对象融合特征包含第一视频帧的对象特征以及第二视频帧的对象特征,并通过神经网络模型对对象融合特征进行预测,即对对象融合特征进行映射,以得到第一视频帧中的对象与第二视频帧中的对象是不同对象的概率,当概率大于概率阈值时,则确定比对结果为第一视频帧中的对象与第二视频帧中的对象不同,其中,概率阈值可以是根据实际需求设置的。
在一些实施例中,对第一视频帧的对象特征以及第二视频帧的对象特征进行融合处理,得到对象融合特征,包括:针对第一视频帧的对象特征中的各区域的特征执行以下处理:将第二视频帧的对象特征中对应区域的特征、与区域的特征相减,以得到区域的差异特征;对各区域的差异特征进行组合处理,得到对象融合特征;将对象融合特征映射为第一视频帧中的对象与第二视频帧中的对象是不同对象的概率,包括:对对象融合特征进行卷积处理,得到对应第一视频帧与第二视频帧的对象融合概率图;对对象融合概率图进行非线性映射处理,得到第一视频帧中的对象与第二视频帧中的对象是不同对象的概率。
承接上述示例,第一视频帧和第二视频帧的对象特征都包含N*N个区域的的特征,则将第一视频帧的对象特征中某区域的特征与第二视频帧的对象特征中对应该区域的特征相减,则得到该区域的差异特征,并组合N*N个区域的差异特征,以得到对象融合特征。在得到对象融合特征后,通过神经网络模型的卷积层对对象融合特征进行卷积处理,得到对应第一视频帧与第二视频帧的对象融合概率图,该融合概率图为N*N的矩阵,该矩阵包含表征第一视频帧中各区域的对象与第二视频帧中对应区域的对象相同的数值,最后,通过神经网络模型的全连接层对对象融合概率图进行非线性映射处理,得到第一视频帧中的对象与第二视频帧中的对象是不同对象的概率。
在步骤104中,当比对结果表征第一视频帧中的对象与第二视频帧中的对象不同时,将第二视频帧确定为视频的对象关键帧。
其中,当第一视频帧是多个视频帧中播放次序在首位的视频帧时,将第一视频帧确定为对象关键帧。在确定出多个视频帧中的对象关键帧后,对对象关键帧进行对象识别,以确定出视频中的对象。
在本发明实施例中发现,当视频中的对象变化很缓慢,且多个视频帧为稠密的视频序列时,很难确定连续的两个视频帧的对象是否发生改变。为了解决上述问题,因此,本发明实施例可以采用多尺度抽帧的方法,得到多个尺度的视频帧序列,并通过多个尺度的视频帧序列确定多个尺度的对象关键帧,从而结合多个尺度的对象关键帧,避免遗漏对象关键帧,以提高对象关键帧的准确性。
在一些实施例中,对视频进行抽帧处理,得到多个视频帧,包括:对视频进行第一尺度抽帧处理,得到第一视频帧序列,并对视频进行第二尺度抽帧处理,得到第二视频帧序列,其中,第一尺度大于第二尺度。
例如,对视频分别进行两种尺度的抽帧处理,以得到稀疏的第一视频帧序列(即稀疏视频帧序列)以及稠密的第二视频帧序列(稠密视频帧序列)。其中,尺度是指对视频采样的间隔大小,例如视频有视频帧1、视频帧2、视频帧3、视频帧4、视频帧5、视频帧6、视频帧7、视频帧8以及视频9,第一尺度可以是间隔4个视频帧,即通过第一尺度抽帧后得到的第一视频帧序列为视频帧1、视频帧5以及视频9;第二尺度可以是间隔2个视频帧,即通过第二尺度抽帧后得到的第二视频帧序列为视频帧1、视频帧3、视频帧5、视频帧7以及视频9。
在一些实施例中,对视频进行抽帧处理,得到多个视频帧,包括:对视频进行第一尺度抽帧处理,得到第一视频帧序列,并对第一视频帧序列进行第二尺度抽帧处理,得到第二视频帧序列。
例如,先对视频进行第一尺度抽帧处理,得到第一视频帧序列(即稠密视频帧序列)后,再对第一视频帧序列进行第二尺度抽帧处理,得到第二视频帧序列(即稀疏视频帧序列),其中,第一尺度可以与第二尺度相同,也可以不同。
在一些实施例中,当比对结果表征第一视频帧中的对象与第二视频帧中的对象不同时,将第二视频帧确定为视频的对象关键帧,包括:当比对结果表征第一视频帧序列中的第一视频帧中的对象与第二视频帧中的对象不同时,将第一视频帧序列中的第二视频帧确定为第一视频帧序列中的对象关键帧;当比对结果表征第二视频帧序列中的第一视频帧中的对象与第二视频帧的对象不同时,将第二视频帧序列中第二视频帧确定为第二视频帧序列中的对象关键帧。
承接上述示例,当得到第一视频帧序列以及第二视频帧序列后,可以提取第一视频帧序列中的第一视频帧的对象特征以及第二视频帧的对象特征,并对第一视频帧序列中的第一视频帧的对象特征以及第二视频帧的对象特征进行比对,当比对结果表征第一视频帧序列中的第一视频帧中的对象与第二视频帧中的对象不同时,将第一视频帧序列中的第二视频帧确定为第一视频帧序列中的对象关键帧。还可以提取第二视频帧序列中的第一视频帧的对象特征以及第二视频帧的对象特征,并对第二视频帧序列中的第一视频帧的对象特征以及第二视频帧的对象特征进行比对,当比对结果表征第二视频帧序列中的第一视频帧中的对象与第二视频帧中的对象不同时,将第二视频帧序列中的第二视频帧确定为第一视频帧序列中的对象关键帧。
其中,在服务器得到多个第一视频帧序列中的对象关键帧以及多个第二视频帧序列中的对象关键帧后,合并多个第一视频帧序列中的对象关键帧、以及多个第二视频帧序列中的对象关键帧,以得到合并的对象关键帧,并对合并的对象关键帧进行去重,以得到多个视频的对象关键帧。
参见图6,图6是本发明实施例提供的关键帧的确定方法的一个可选的流程示意图,为了通过训练后的神经网络模型,从视频中确定出对象关键帧,需要对神经网络模型进行训练,图6示出图4还包括步骤105、步骤106、步骤107和步骤108:在步骤105中,通过神经网络模型,对视频帧样本对中的第一视频帧样本进行对象特征提取处理,得到第一视频帧样本的对象特征,并对视频帧样本对中的第二视频帧样本进行对象特征提取处理,得到第二视频帧样本的对象特征;在步骤106中,对第一视频帧样本的对象特征以及第二视频帧样本的对象特征进行预测处理,以得到视频帧样本对的对象预测结果;其中,对象预测结果表征第一视频帧样本中的对象与第二视频帧样本中的对象是否相同;在步骤107中,根据视频帧样本对的对象预测结果、以及视频帧样本对的对象标注,构建神经网络模型的损失函数;在步骤108中,更新神经网络模型的参数直至损失函数收敛,将损失函数收敛时神经网络模型的更新的参数,作为训练后的神经网络模型的参数。
其中,步骤105至步骤108与步骤101至步骤104并无明显的先后顺序。对象预测结果表征第一视频帧样本中的对象与第二视频帧样本中的对象是否相同,当对象预测结果为二值数时,对象预测结果为1,则表征第一视频帧样本中的对象与第二视频帧样本中的对象相同,对象预测结果为0,则表征第一视频帧样本中的对象与第二视频帧样本中的对象相同;当对象预测结果为概率数值时,表征第一视频帧样本中的对象与第二视频帧样本中的对象相同的概率越大,则说明表征第一视频帧样本中的对象与第二视频帧样本中的对象很可能相同,表征第一视频帧样本中的对象与第二视频帧样本中的对象不相同的概率越大,则说明表征第一视频帧样本中的对象与第二视频帧样本中的对象很可能不相同。其中,视频帧样本对的对象标注为二值数时,对象标注为1,则表征第一视频帧样本中的对象与第二视频帧样本中的对象相同,对象标注为0,则表征第一视频帧样本中的对象与第二视频帧样本中的对象相同。
其中,对第一视频帧样本的对象特征以及第二视频帧样本的对象特征进行预测处理,以得到视频帧样本对的对象预测结果,包括:对第一视频帧样本的对象特征以及第二视频帧样本的对象特征进行融合处理,得到对象融合特征;将对象融合特征映射为第一视频帧样本中的对象与第二视频帧样本中的对象是不同对象的概率。其中,第一视频帧样本中的对象与第二视频帧样本中的对象是不同对象的概率还可以是二值数。
例如,根据视频帧样本对的对象预测结果、以及视频帧样本对的对象标注,确定神经网络模型的损失函数的值后,可以判断损失函数的值是否超出预设阈值,当损失函数的值超出预设阈值时,基于损失函数确定神经网络模型的误差信号,将误差信息在神经网络模型中反向传播,并在传播的过程中更新各个层的模型参数。
这里,对反向传播进行说明,将训练样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛。
在一些实施例中,根据视频帧样本对的对象预测结果、以及视频帧样本对的对象标注,构建神经网络模型的损失函数,包括:根据得到的第一视频帧样本的对象位置掩码信息、以及第一视频帧样本的对象位置掩码信息标注,构建第一视频帧样本的对象位置的损失函数;根据得到的第二视频帧样本的对象位置掩码信息、以及第二视频帧样本的对象位置掩码信息标注,构建第二视频帧样本的对象位置的损失函数;根据视频帧样本对的对象预测结果、以及视频帧样本对的对象标注,构建视频帧样本对的损失函数;对第一视频帧样本的对象位置的损失函数、第二视频帧样本的对象位置的损失函数以及视频帧样本对的损失函数进行加权求和,以得到神经网络模型的损失函数。
为了准确地训练神经网络模型,可以构建第一视频帧样本的对象位置的损失函数、构建第二视频帧样本的对象位置的损失函数以及构建视频帧样本对的损失函数,从而结合三种损失函数,构建神经网络模型的损失函数。进而,通过对第一视频帧样本的对象位置的损失函数、第二视频帧样本的对象位置的损失函数以及视频帧样本对的损失函数进行加权,使得神经网络模型学习到权重大的部分,例如视频帧样本对的损失函数的权重大,则神经网络模型学习到对视频帧的预测的能力越强。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
本发明实施例可以应用于视频的应用场景中,例如,如图1所示,终端200通过网络300连接部署在云端的服务器100,在终端200上安装视频对象识别应用,用户在视频对象识别应用中打开某视频后,终端200通过网络300向服务器100发送该视频,服务器100接收到该视频后,从视频中识别出对象关键帧、即视频文字关键帧(在视频中,文字内容出现变化的帧,视频文字关键帧的文字覆盖整段视频的文字内容,相邻文字关键帧的文字内容各不相同),并识别出视频文字关键帧中的文字,并将识别出文字返回至视频对象识别应用,终端200根据识别出的文字进行视频应用,即识别出的整段视频中的文字(字幕)后,并剔除字幕中的敏感词汇(例如不文明词汇、暴力词汇等)以及错误词汇,以修正视频的字幕,并将修正后的字幕显示在终端200的显示界面210上,以便用户可以观看健康、准确的字幕。
相关技术中,视频关键帧的识别方法是通过计算相邻帧的特征,再根据相邻帧的特征确定相邻帧的相似度,从而根据相似度判断这两帧的内容是否相似,进而找出不相似的帧作为视频的关键帧。其中,计算帧的特征采用非深度的方法,例如各种算子;计算特征的相似性采用各种距离度量的方法。
其中,视频文字识别(Optical Character Recognition,OCR)方法是一种判断帧中出现文字位置以及判断其文字内容的技术。该技术采用比较复杂的深度学习网络以提取帧的特征,之后判断文字位置;为了获得文字的内容,需要在得到之前的帧的特征之后,通过长短期记忆网络(Long Short-Term Memory,LSTM)等复杂的带有时序信息的网络,输出文字内容以及置信度。
然而,采用视频关键帧的识别方法去识别文字关键帧时,具有很大的局限性。很多视频会出现相邻两帧内容相似,但文字不同的情况,而视频关键帧的识别方法在检测文字内容是否相同时,效果不太好。采用视频文字识别方法检测整段视频文字内容,且判断相邻两帧文字内容是否相同时,需要遍历所有的视频帧,而文字识别方法比较耗时,使得视频文字识别方法去判断文字关键帧非常耗时、效率低。
为了解决上述问题,本发明实施例通过采用深度学习的方法去学习视频的文字内容,在采用深度学习的方法获得视频帧中文字的大致位置后,直接判断相邻两帧文字内容是否相同,进而可以更加准确且快速地提取出整段视频的文字关键帧。当需要检测整段视频的文字内容时,可以先提取视频的文字关键帧,再通过OCR方法对文字关键帧进行识别,即可快速得到整段视频的文字内容。
本发明实施例在提取视频中的文字关键帧后,可以提醒审核人员重点审核文字关键帧的文字内容,这样就可快速拦截需要过滤的文字内容;也可在得到文字关键帧之后,识别文字关键帧的文字内容,从而快速的进行整段视频的文字内容判断。本发明实施例可以应用到视频审核系统、视频文本识别系统以及视频文字内容的先行过滤判断等应用中。
如图7所示,本发明实施例提供一种基于深度学习的视频文字关键帧的获取方法,该方法主要包括四个步骤:步骤11,视频高密度抽帧;步骤12,帧前处理;步骤13,基于深度卷积网络的判断相邻两帧文字内容是否相同;步骤14,获得文字关键帧。下面介绍四个步骤的处理过程:
步骤11,视频高密度抽帧
视频高密度抽帧是将目标视频按照一定的时间间隔进行抽帧,形成按时间顺序排列的图像序列(视频帧序列)。基于线上视频的文字内容的复杂性,本发明实施例可以采用高密度的抽帧方式,这样可以更加精确的定位关键帧的时间位置。其中,抽帧方式可以是1秒抽1帧。本发明实施例可以采用全抽帧的方式,即每秒抽24帧或者25帧(具体帧值与视频的帧率相关),或者作为折中,可以采用每秒抽5帧的方式,或者,可以采用多种抽帧方式。
步骤12,帧前处理
所有经过抽帧得到的帧可以进行前处理(预处理)。这些前处理包括帧的大小缩放(resize)以及调整帧的对比度(明暗)等操作。大小缩放操作的目的是使得所有的帧大小相同,且与深度卷积网络的输出尺寸相匹配;调整帧的对比度操作的目的是使得文字更加清晰、易于辨认。
步骤13,基于深度卷积网络,判断两帧文字内容是否相同
将经过抽帧后的结果(多个视频帧),以相邻两帧作为一个帧对(frame pair),输入到训练好的深度卷积神经网络中,以判断这两帧的文字内容是否相同。例如,当一段视频抽取了N帧,这样需要将N-1个帧对输入至深度卷积神经网络中。深度卷积神经网络的网络结构为孪生网络结构(Siamese Structure),训练与测试所用的网络结构相同。
如图8所示,孪生网络结构包括两个参数完全相同的特征提取器,每个特征提取器为一个分支,分别输入帧对中的前一帧或后一帧。其中,构成孪生网络结构的每一个分支可以为ResNet、DenseNet、SeresNet等,还可以是SeresNet与Inception相结合的形式。图像经过特征提取器之后,分别得到一个底层特征(包含文字轮廓信息)和一个顶层特征(包含文字内容的本身信息)。顶层特征经过特征通道压缩和sigmoid的处理之后,可以获得一个文字位置掩码信息。文字位置掩码信息是一个N*N的{0,1}矩阵(作为经验值,N=14),矩阵中某个位置(区域)为1,则表示这个位置存在文字;矩阵中该位置为0,则表示这个位置没有文字。之后,将顶层特征与文字位置掩码信息相乘,得到顶层文字特征,将底层特征与文字位置掩码信息相乘,得到底层文字特征。然后,将顶层文字特征与底层文字特征融合(即根据通道方向进行拼接),得到每一个分支的文字特征。再次,两个分支的文字特征经过融合(即特征相减),再经过一个卷积网络,得到表征两帧图片中对应区域存在相同文字的概率图,并通过全连接网络,即可得到这两帧图片是否具有相同的文字:当孪生网络的输出为1时,则表示这两张输入的图片具有相同的文字,或都不包含文字;当孪生网络的输出为0时,则表示这两张图片具有不同的文字。
训练的孪生网络与上述的网络结构相同。其中,本发明实施例包含3个损失函数,分别表征:输入图像1的文字位置;输入图像2的文字位置;输入图像1和2的文字内容是否相同。孪生网络的训练过程如下:首先,获得训练图像的集合,用一个长度为N*N的{0,1}真值向量表示图像中文字的位置(经验值,N=14);然后,将训练图像调整尺寸为一个正方形,并将该正方形分成N*N的网格(区域),当在某一个网格中存在文字,则在真值向量的对应位置标注为1,否则,标注为0。之后,将训练图像两两组合成为帧对,若帧对的两张图像具有相同的文字内容,则标注为1,否则,标注为0。在获得两张图像的真值向量以及两张图像是否具有相同文字内容的标注之后,即可以训练孪生网络。将上述的三个损失函数,分别应用到网络的三个地方,其中,表示图1的文字位置的损失函数应用于获得图1的文字位置掩码信息之后,该表示图1的文字位置的损失函数采用交叉熵损失(cross-entropy loss)函数,或者权重交叉熵损失(weighted cross-entropy loss)函数,以强调不同位置出现文字的重要性;表示图2的文字位置的损失函数应用于获得图2的文字位置掩码信息之后,该表示图2的文字位置的损失函数采用cross-entropy loss函数,或者weighted cross-entropy loss函数,以强调不同位置出现文字的重要性;表示两张图像的文字内容是否相同的损失函数,应用于孪生网络的最顶层(即判断文字是否相同)之后,该表示两张图像的文字内容是否相同的损失函数采用softmax loss函数,或者weighted softmax loss函数、dice loss函数等。
其中,文字位置掩码信息还可以采用热力图的表现方式,文字位置掩码信息的值不是{0,1},而是0~1的置信度的值,值越大,则表示此处存在文字的概率就越大。文字位置也可以采用不同的表达方式,例如,文字框的四角坐标、文字框的长宽、中心点坐标以及旋转角度等。
步骤14,获得文字关键帧
在得到视频中相邻两帧的文字内容是否相同后,如果这两帧文字不同,则表示第二帧是文字关键帧。其中,排列在视频中的第一个帧也是文字关键帧。这样就可以得到一段视频中所有的文字关键帧。例如,当一段视频有10帧(f0,f1,…,f9),分别将第i帧与第i+1帧组成帧对,则会得到9个帧对:{(fi,fi+1)| i=0,1,2,…,8},将所有帧对输入孪生网络后,孪生网络输出的结果为{1,1,0,0,1,1,1,1,0},则文字关键帧为f0、f3、f4、f9。如果需要得到整段视频的文字内容,则只需要将文字关键帧(上述的4帧f0、f3、f4、f9)输入至文字识别算法中,即可得到整段视频的文字内容。
在本发明实施例中发现,视频中存在一部分文字内容缓慢变化的帧,这样的视频在稠密抽帧的情况下,很难判断连续的两帧文字内容是否发生变化。因此,在步骤11中可以采用多尺度的抽帧方式。例如,采用每秒一帧的抽帧方式以及每秒25帧的抽帧方式。通过上述步骤11、步骤12、步骤13之后,可以得到2部分的文字关键帧。最后将这两部分的文字关键帧做一次合并,并去除重复的帧,则这两个集合的并集就是视频中最终的文字关键帧。
综上,本发明实施例采用孪生网络,直接判断文字的特征是否相同,有效地提高判断文字关键帧的准确度。同时,通过抽取顶层特征(包括位置信息)与底层特征(包括内容信息),兼顾了文字的位置信息和文字的内容信息。另外,在文字关键帧的抽取上,有着较高的准确率和召回率,还大大缩短整段视频文字识别的计算量和计算耗时。
至此已经结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的关键帧的确定方法,下面继续说明本发明实施例提供的关键帧的确定装置555中各个模块配合实现确定对象关键帧的方案。
抽帧模块5551,用于对视频进行抽帧处理,得到多个视频帧;提取模块5552,用于对所述多个视频帧中的第一视频帧进行对象特征提取处理,得到所述第一视频帧的对象特征,并对所述第一视频帧之后的第二视频帧进行对象特征提取处理,得到所述第二视频帧的对象特征;处理模块5553,用于对所述第一视频帧的对象特征以及所述第二视频帧的对象特征进行比对;当比对结果表征所述第一视频帧中的对象与所述第二视频帧中的对象不同时,将所述第二视频帧确定为所述视频的对象关键帧。
在一些实施例中,所述第一视频帧和所述第二视频帧为所述多个视频帧中任意相邻的两个视频帧,或者,所述第一视频帧与所述第二视频帧是所述多个视频帧中间隔的视频帧,且所述第一视频帧是距离所述第二视频帧最近的对象关键帧。
在一些实施例中,所述关键帧的确定装置555还包括:确定模块5554,用于当所述第一视频帧是所述多个视频帧中播放次序在首位的视频帧时,将所述第一视频帧确定为对象关键帧。
在一些实施例中,当所述对象为所述视频中处于动态位置的内容时,所述提取模块5552还用于对所述第一视频帧进行特征提取处理,得到所述第一视频帧的位置特征和内容特征;对所述第一视频帧的位置特征以及内容特征进行融合处理,得到所述第一视频帧的对象特征;对所述第二视频帧进行特征提取处理,得到所述第二视频帧的位置特征和内容特征;对所述第二视频帧的位置特征以及内容特征进行融合处理,得到所述第二视频帧的对象特征。
在一些实施例中,当所述对象为所述视频中处于静态位置的内容时,所述提取模块5552还用于对所述第一视频帧进行特征提取处理,得到所述第一视频帧的位置特征和内容特征;根据所述第一视频帧的对象位置掩码信息,对所述第一视频帧的位置特征以及内容特征进行融合处理,得到所述第一视频帧的对象特征;对所述第二视频帧进行特征提取处理,得到所述第二视频帧的位置特征和内容特征;根据所述第二视频帧的对象位置掩码信息,对所述第二视频帧的位置特征以及内容特征进行融合处理,得到所述第二视频帧的对象特征。
在一些实施例中,所述提取模块5552还用于对所述第一视频帧进行内容特征提取处理,得到包含所述第一视频帧的对象的轮廓信息的内容特征;对所述第一视频帧进行位置特征提取处理,得到包含所述第一视频帧的对象的内容信息的位置特征。
在一些实施例中,所述提取模块5552还用于对所述第一视频帧的位置特征进行通道压缩处理,得到压缩后的位置特征;对所述压缩后的位置特征进行非线性映射处理,得到所述第一视频帧的对象位置掩码信息;其中,所述对象位置掩码信息用于表征所述第一视频帧中的各区域是否存在对象。
在一些实施例中,所述提取模块5552还用于对所述第一视频帧的对象位置掩码信息以及所述第一视频帧的位置特征进行融合处理,得到所述第一视频帧的对象位置特征;对所述第一视频帧的对象位置掩码信息以及所述第一视频帧的内容特征进行融合处理,得到所述第一视频帧的对象内容特征;对所述第一视频帧的对象位置特征以及所述第一视频帧的对象内容特征进行拼接处理,得到所述第一视频帧的对象特征。
在一些实施例中,所述提取模块5552还用于针对所述第一视频帧的位置特征中的各区域的特征执行以下处理:将所述第一视频帧的对象位置掩码信息中对应所述区域的位置掩码信息、与所述区域的特征相乘,以得到所述区域的对象位置特征;对所述第一视频帧的各区域的对象位置特征进行组合处理,得到所述第一视频帧的对象位置特征。
在一些实施例中,所述处理模块5553还用于对所述第一视频帧的对象特征以及所述第二视频帧的对象特征进行融合处理,得到对象融合特征;将所述对象融合特征映射为所述第一视频帧中的对象与所述第二视频帧中的对象是不同对象的概率;当所述概率大于概率阈值时,确定所述第一视频帧中的对象与所述第二视频帧中的对象不同。
在一些实施例中,所述处理模块5553还用于针对所述第一视频帧的对象特征中的各区域的特征执行以下处理:将所述第二视频帧的对象特征中对应所述区域的特征、与所述区域的特征相减,以得到所述区域的差异特征;对各区域的差异特征进行组合处理,得到所述对象融合特征;对所述对象融合特征进行卷积处理,得到对应所述第一视频帧与所述第二视频帧的对象融合概率图;对所述对象融合概率图进行非线性映射处理,得到所述第一视频帧中的对象与所述第二视频帧中的对象是不同对象的概率。
在一些实施例中,所述抽帧模块5551还用于通过以下任一方式对视频进行抽帧处理,以得到多个视频帧:对所述视频进行第一尺度抽帧处理,得到第一视频帧序列,并对所述视频进行第二尺度抽帧处理,得到第二视频帧序列,其中,所述第一尺度大于所述第二尺度;对所述视频进行第一尺度抽帧处理,得到第一视频帧序列,并对所述第一视频帧序列进行第二尺度抽帧处理,得到第二视频帧序列,其中,所述第一尺度大于所述第二尺度。
在一些实施例中,所述处理模块5553还用于当比对结果表征所述第一视频帧序列中的所述第一视频帧中的对象与所述第二视频帧中的对象不同时,将所述第一视频帧序列中的所述第二视频帧确定为所述第一视频帧序列中的对象关键帧;当比对结果表征所述第二视频帧序列中的所述第一视频帧中的对象与所述第二视频帧的对象不同时,将所述第二视频帧序列中所述第二视频帧确定为所述第二视频帧序列中的对象关键帧;
相应地,所述关键帧的确定装置555还包括:合并模块5555,用于对多个所述第一视频帧序列中的对象关键帧、以及多个所述第二视频帧序列中的对象关键帧进行合并处理,得到合并的对象关键帧,并对所述合并的对象关键帧进行去重处理,得到多个所述视频的对象关键帧。
在一些实施例中,所述关键帧的确定装置555还包括:预处理模块5556,用于对所述多个视频帧进行尺寸缩放,得到缩放后的多个视频帧;对所述缩放后的多个视频帧进行对比度调整,得到待处理的多个视频帧。
在一些实施例中,所述关键帧的确定装置555还包括:训练模块5557,用于通过神经网络模型,对视频帧样本对中的第一视频帧样本进行对象特征提取处理,得到所述第一视频帧样本的对象特征,并对所述视频帧样本对中的第二视频帧样本进行对象特征提取处理,得到所述第二视频帧样本的对象特征;对所述第一视频帧样本的对象特征以及所述第二视频帧样本的对象特征进行预测处理,以得到所述视频帧样本对的对象预测结果;其中,所述对象预测结果表征所述第一视频帧样本中的对象与所述第二视频帧样本中的对象是否相同;根据所述视频帧样本对的对象预测结果、以及所述视频帧样本对的对象标注,构建所述神经网络模型的损失函数;更新所述神经网络模型的参数直至所述损失函数收敛,将所述损失函数收敛时所述神经网络模型的更新的参数,作为训练后的所述神经网络模型的参数。
在一些实施例中,所述训练模块5557还用于根据得到的第一视频帧样本的对象位置掩码信息、以及所述第一视频帧样本的对象位置掩码信息标注,构建所述第一视频帧样本的对象位置的损失函数;根据得到的第二视频帧样本的对象位置掩码信息、以及所述第二视频帧样本的对象位置掩码信息标注,构建所述第二视频帧样本的对象位置的损失函数;根据所述视频帧样本对的对象预测结果、以及所述视频帧样本对的对象标注,构建所述视频帧样本对的损失函数;对所述第一视频帧样本的对象位置的损失函数、所述第二视频帧样本的对象位置的损失函数以及所述视频帧样本对的损失函数进行加权求和,以得到所述神经网络模型的损失函数。
本发明实施例还提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的关键帧的确定方法,例如,如图3-6示出的关键帧的确定方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备(包括智能终端和服务器在内的设备)上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (14)

1.一种关键帧的确定方法,其特征在于,包括:
对视频进行抽帧处理,得到多个视频帧;
当对象为所述视频中处于静态位置的内容时,通过孪生网络中的第一特征提取器对所述多个视频帧中的第一视频帧进行特征提取处理,得到所述第一视频帧的位置特征和内容特征;其中,所述第一视频帧的位置特征表示包含所述第一视频帧的对象的顶层特征,所述第一视频帧的内容特征表示包含所述第一视频帧的对象的轮廓信息的底层特征;
对所述第一视频帧的位置特征进行通道压缩处理,得到压缩后的位置特征;
对所述压缩后的位置特征进行非线性映射处理,得到所述第一视频帧的对象位置掩码信息;其中,所述第一视频帧的对象位置掩码信息用于表征所述第一视频帧中的各区域是否存在对象;
对所述第一视频帧的对象位置掩码信息以及所述第一视频帧的位置特征进行融合处理,得到所述第一视频帧的对象位置特征;
对所述第一视频帧的对象位置掩码信息以及所述第一视频帧的内容特征进行融合处理,得到所述第一视频帧的对象内容特征;
对所述第一视频帧的对象位置特征以及所述第一视频帧的对象内容特征进行拼接处理,得到所述第一视频帧的对象特征;
通过所述孪生网络中的第二特征提取器对所述第一视频帧之后的第二视频帧进行特征提取处理,得到所述第二视频帧的位置特征和内容特征;其中,所述第二视频帧的位置特征表示包含所述第二视频帧的对象的顶层特征,所述第二视频帧的内容特征表示包含所述第二视频帧的对象的轮廓信息的底层特征,所述第一特征提取器的参数与所述第二特征提取器的参数相同;
对所述第二视频帧的位置特征进行通道压缩处理,得到压缩后的位置特征;
对所述压缩后的位置特征进行非线性映射处理,得到所述第二视频帧的对象位置掩码信息;其中,所述第二视频帧的对象位置掩码信息用于表征所述第二视频帧中的各区域是否存在对象;
对所述第二视频帧的对象位置掩码信息以及所述第二视频帧的位置特征进行融合处理,得到所述第二视频帧的对象位置特征;
对所述第二视频帧的对象位置掩码信息以及所述第二视频帧的内容特征进行融合处理,得到所述第二视频帧的对象内容特征;
对所述第二视频帧的对象位置特征以及所述第二视频帧的对象内容特征进行拼接处理,得到所述第二视频帧的对象特征;
对所述第一视频帧的对象特征以及所述第二视频帧的对象特征进行比对;
当比对结果表征所述第一视频帧的对象特征以及所述第二视频帧的对象特征中的对象不同时,将所述第二视频帧确定为所述视频的对象关键帧。
2.根据权利要求1所述的方法,其特征在于,
所述第一视频帧和所述第二视频帧为所述多个视频帧中任意相邻的两个视频帧,或者,
所述第一视频帧与所述第二视频帧是所述多个视频帧中间隔的视频帧,且所述第一视频帧是距离所述第二视频帧最近的对象关键帧。
3.根据权利要求1所述的方法,其特征在于,
当所述对象为所述视频中处于动态位置的内容时,所述方法还包括:
对所述第一视频帧进行特征提取处理,得到所述第一视频帧的位置特征和内容特征;
对所述第一视频帧的位置特征以及内容特征进行融合处理,得到所述第一视频帧的对象特征;
对所述第二视频帧进行特征提取处理,得到所述第二视频帧的位置特征和内容特征;
对所述第二视频帧的位置特征以及内容特征进行融合处理,得到所述第二视频帧的对象特征。
4.根据权利要求1所述的方法,其特征在于,所述通过孪生网络中的第一特征提取器对所述多个视频帧中的第一视频帧进行特征提取处理,得到所述第一视频帧的位置特征和内容特征,包括:
通过孪生网络中的第一特征提取器对所述第一视频帧进行内容特征提取处理,得到包含所述第一视频帧的对象的轮廓信息的内容特征;
对所述第一视频帧进行位置特征提取处理,得到包含所述第一视频帧的对象的内容信息的位置特征。
5.根据权利要求1所述的方法,其特征在于,所述对所述第一视频帧的对象位置掩码信息以及所述第一视频帧的位置特征进行融合处理,得到所述第一视频帧的对象位置特征,包括:
针对所述第一视频帧的位置特征中的各区域的特征执行以下处理:
将所述第一视频帧的对象位置掩码信息中对应所述区域的位置掩码信息、与所述区域的特征相乘,以得到所述区域的对象位置特征;
对所述第一视频帧的各区域的对象位置特征进行组合处理,得到所述第一视频帧的对象位置特征。
6.根据权利要求1所述的方法,其特征在于,所述对所述第一视频帧的对象特征以及所述第二视频帧的对象特征进行比对,包括:
对所述第一视频帧的对象特征以及所述第二视频帧的对象特征进行融合处理,得到对象融合特征;
将所述对象融合特征映射为所述第一视频帧中的对象与所述第二视频帧中的对象是不同对象的概率;
当所述概率大于概率阈值时,确定所述第一视频帧中的对象与所述第二视频帧中的对象不同。
7.根据权利要求6所述的方法,其特征在于,所述对所述第一视频帧的对象特征以及所述第二视频帧的对象特征进行融合处理,得到对象融合特征,包括:
针对所述第一视频帧的对象特征中的各区域的特征执行以下处理:
将所述第二视频帧的对象特征中对应所述区域的特征、与所述区域的特征相减,以得到所述区域的差异特征;
对各区域的差异特征进行组合处理,得到所述对象融合特征;
所述将所述对象融合特征映射为所述第一视频帧中的对象与所述第二视频帧中的对象是不同对象的概率,包括:
对所述对象融合特征进行卷积处理,得到对应所述第一视频帧与所述第二视频帧的对象融合概率图;
对所述对象融合概率图进行非线性映射处理,得到所述第一视频帧中的对象与所述第二视频帧中的对象是不同对象的概率。
8.根据权利要求1所述的方法,其特征在于,所述对视频进行抽帧处理,得到多个视频帧,包括:
通过以下任一方式对视频进行抽帧处理,以得到多个视频帧:
对所述视频进行第一尺度抽帧处理,得到第一视频帧序列,并对所述视频进行第二尺度抽帧处理,得到第二视频帧序列,其中,所述第一尺度大于所述第二尺度;
对所述视频进行第一尺度抽帧处理,得到第一视频帧序列,并对所述第一视频帧序列进行第二尺度抽帧处理,得到第二视频帧序列,其中,所述第一尺度大于所述第二尺度。
9.根据权利要求8所述的方法,其特征在于,
所述当比对结果表征所述第一视频帧中的对象与所述第二视频帧中的对象不同时,将所述第二视频帧确定为所述视频的对象关键帧,包括:
当比对结果表征所述第一视频帧序列中的所述第一视频帧中的对象与所述第二视频帧中的对象不同时,将所述第一视频帧序列中的所述第二视频帧确定为所述第一视频帧序列中的对象关键帧;
当比对结果表征所述第二视频帧序列中的所述第一视频帧中的对象与所述第二视频帧的对象不同时,将所述第二视频帧序列中所述第二视频帧确定为所述第二视频帧序列中的对象关键帧;
所述方法还包括:
对多个所述第一视频帧序列中的对象关键帧、以及多个所述第二视频帧序列中的对象关键帧进行合并处理,得到合并的对象关键帧,并
对所述合并的对象关键帧进行去重处理,得到多个所述视频的对象关键帧。
10.根据权利要求1-9任一所述的方法,其特征在于,所述方法还包括:
通过神经网络模型,对视频帧样本对中的第一视频帧样本进行对象特征提取处理,得到所述第一视频帧样本的对象特征,并对所述视频帧样本对中的第二视频帧样本进行对象特征提取处理,得到所述第二视频帧样本的对象特征;
对所述第一视频帧样本的对象特征以及所述第二视频帧样本的对象特征进行预测处理,以得到所述视频帧样本对的对象预测结果;其中,所述对象预测结果表征所述第一视频帧样本中的对象与所述第二视频帧样本中的对象是否相同;
根据所述视频帧样本对的对象预测结果、以及所述视频帧样本对的对象标注,构建所述神经网络模型的损失函数;
更新所述神经网络模型的参数直至所述损失函数收敛,将所述损失函数收敛时所述神经网络模型的更新的参数,作为训练后的所述神经网络模型的参数。
11.根据权利要求10所述的方法,其特征在于,所述根据所述视频帧样本对的对象预测结果、以及所述视频帧样本对的对象标注,构建所述神经网络模型的损失函数,包括:
根据得到的第一视频帧样本的对象位置掩码信息、以及所述第一视频帧样本的对象位置掩码信息标注,构建所述第一视频帧样本的对象位置的损失函数;
根据得到的第二视频帧样本的对象位置掩码信息、以及所述第二视频帧样本的对象位置掩码信息标注,构建所述第二视频帧样本的对象位置的损失函数;
根据所述视频帧样本对的对象预测结果、以及所述视频帧样本对的对象标注,构建所述视频帧样本对的损失函数;
对所述第一视频帧样本的对象位置的损失函数、所述第二视频帧样本的对象位置的损失函数以及所述视频帧样本对的损失函数进行加权求和,以得到所述神经网络模型的损失函数。
12.一种关键帧的确定装置,其特征在于,所述装置包括:
抽帧模块,用于对视频进行抽帧处理,得到多个视频帧;
提取模块,用于当对象为所述视频中处于静态位置的内容时,通过孪生网络中的第一特征提取器对所述多个视频帧中的第一视频帧进行特征提取处理,得到所述第一视频帧的位置特征和内容特征;其中,所述第一视频帧的位置特征表示包含所述第一视频帧的对象的顶层特征,所述第一视频帧的内容特征表示包含所述第一视频帧的对象的轮廓信息的底层特征;对所述第一视频帧的位置特征进行通道压缩处理,得到压缩后的位置特征;对所述压缩后的位置特征进行非线性映射处理,得到所述第一视频帧的对象位置掩码信息;其中,所述对象位置掩码信息用于表征所述第一视频帧中的各区域是否存在对象;对所述第一视频帧的对象位置掩码信息以及所述第一视频帧的位置特征进行融合处理,得到所述第一视频帧的对象位置特征;对所述第一视频帧的对象位置掩码信息以及所述第一视频帧的内容特征进行融合处理,得到所述第一视频帧的对象内容特征;对所述第一视频帧的对象位置特征以及所述第一视频帧的对象内容特征进行拼接处理,得到所述第一视频帧的对象特征;通过所述孪生网络中的第二特征提取器对所述第一视频帧之后的第二视频帧进行特征提取处理,得到所述第二视频帧的位置特征和内容特征;其中,所述第二视频帧的位置特征表示包含所述第二视频帧的对象的顶层特征,所述第二视频帧的内容特征表示包含所述第二视频帧的对象的轮廓信息的底层特征,所述第一特征提取器的参数与所述第二特征提取器的参数相同;对所述第二视频帧的位置特征进行通道压缩处理,得到压缩后的位置特征;对所述压缩后的位置特征进行非线性映射处理,得到所述第二视频帧的对象位置掩码信息;其中,所述第二视频帧的对象位置掩码信息用于表征所述第二视频帧中的各区域是否存在对象;对所述第二视频帧的对象位置掩码信息以及所述第二视频帧的位置特征进行融合处理,得到所述第二视频帧的对象位置特征;对所述第二视频帧的对象位置掩码信息以及所述第二视频帧的内容特征进行融合处理,得到所述第二视频帧的对象内容特征;对所述第二视频帧的对象位置特征以及所述第二视频帧的对象内容特征进行拼接处理,得到所述第二视频帧的对象特征;
处理模块,用于对所述第一视频帧的对象特征以及所述第二视频帧的对象特征进行比对;当比对结果表征所述第一视频帧的对象特征以及所述第二视频帧的对象特征中的对象不同时,将所述第二视频帧确定为所述视频的对象关键帧。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的关键帧的确定方法。
14.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至11任一项所述的关键帧的确定方法。
CN202010589150.6A 2020-06-24 2020-06-24 关键帧的确定方法和装置 Active CN111491180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010589150.6A CN111491180B (zh) 2020-06-24 2020-06-24 关键帧的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010589150.6A CN111491180B (zh) 2020-06-24 2020-06-24 关键帧的确定方法和装置

Publications (2)

Publication Number Publication Date
CN111491180A CN111491180A (zh) 2020-08-04
CN111491180B true CN111491180B (zh) 2021-07-09

Family

ID=71812083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010589150.6A Active CN111491180B (zh) 2020-06-24 2020-06-24 关键帧的确定方法和装置

Country Status (1)

Country Link
CN (1) CN111491180B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051236B (zh) * 2021-03-09 2022-06-07 北京沃东天骏信息技术有限公司 审核视频的方法、装置及计算机可读存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7339992B2 (en) * 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
US9436876B1 (en) * 2014-12-19 2016-09-06 Amazon Technologies, Inc. Video segmentation techniques
CN106937114B (zh) * 2015-12-30 2020-09-25 株式会社日立制作所 用于对视频场景切换进行检测的方法和装置
CN107578011A (zh) * 2017-09-05 2018-01-12 中国科学院寒区旱区环境与工程研究所 视频关键帧的判定方法及装置
CN109784243B (zh) * 2018-12-29 2021-07-09 网易(杭州)网络有限公司 身份确定方法及装置、神经网络训练方法及装置、介质
CN109947886B (zh) * 2019-03-19 2023-01-10 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN109903339B (zh) * 2019-03-26 2021-03-05 南京邮电大学 一种基于多维融合特征的视频群体人物定位检测方法
CN110097000A (zh) * 2019-04-29 2019-08-06 东南大学 基于局部特征聚合描述符和时序关系网络的视频行为识别方法
CN110378264B (zh) * 2019-07-08 2023-04-18 Oppo广东移动通信有限公司 目标跟踪方法及装置
CN111027504A (zh) * 2019-12-18 2020-04-17 上海眼控科技股份有限公司 人脸关键点检测方法、装置、设备及存储介质
CN111294646B (zh) * 2020-02-17 2022-08-30 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111491180A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
US10936919B2 (en) Method and apparatus for detecting human face
US20220198800A1 (en) Video processing method, apparatus and device, and computerreadable storage medium
CN111222500B (zh) 一种标签提取方法及装置
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN110188829B (zh) 神经网络的训练方法、目标识别的方法及相关产品
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN111353544B (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN111291863B (zh) 换脸鉴别模型的训练方法、换脸鉴别方法、装置和设备
JP2022177232A (ja) 画像処理方法、テキスト認識方法及び装置
CN113313215B (zh) 图像数据处理方法、装置、计算机设备和存储介质
CN109784243B (zh) 身份确定方法及装置、神经网络训练方法及装置、介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN111652181B (zh) 目标跟踪方法、装置及电子设备
KR20210037632A (ko) 생체 검출 방법 및 장치
CN114663957A (zh) 人脸检测方法、人脸检测模型的训练方法及装置
CN114943937A (zh) 行人重识别方法、装置、存储介质及电子设备
CN111491180B (zh) 关键帧的确定方法和装置
CN115577768A (zh) 半监督模型训练方法和装置
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN113011320A (zh) 视频处理方法、装置、电子设备及存储介质
CN116994188A (zh) 一种动作识别方法、装置、电子设备及存储介质
CN112801960B (zh) 图像处理方法及装置、存储介质、电子设备
CN115223157A (zh) 一种基于循环神经网络的电网设备铭牌光学字符识别方法
CN114419480A (zh) 一种多人身份和动作关联识别方法、装置及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40029150

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant