CN107977645B - 一种视频新闻海报图的生成方法及装置 - Google Patents

一种视频新闻海报图的生成方法及装置 Download PDF

Info

Publication number
CN107977645B
CN107977645B CN201711371745.9A CN201711371745A CN107977645B CN 107977645 B CN107977645 B CN 107977645B CN 201711371745 A CN201711371745 A CN 201711371745A CN 107977645 B CN107977645 B CN 107977645B
Authority
CN
China
Prior art keywords
news
time point
video
frames
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711371745.9A
Other languages
English (en)
Other versions
CN107977645A (zh
Inventor
刘楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201711371745.9A priority Critical patent/CN107977645B/zh
Publication of CN107977645A publication Critical patent/CN107977645A/zh
Application granted granted Critical
Publication of CN107977645B publication Critical patent/CN107977645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/43Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of news video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种新闻视频海报图的生成方法及装置,通过将目标新闻视频分解为至少一个镜头;按照预设时间间隔抽取出镜头的m帧关键帧;分别对每一关键帧进行处理,生成关键帧的主持人标记信息;对目标新闻视频进行新闻标题检测,基于新闻标题的起始时间点以及结束时间点和关键帧在目标新闻视频中的开始时间点以及结束时间点,生成对关键帧进行标记的新闻标题标记信息;基于所有关键帧的主持人标记信息以及新闻标题标记信息,生成目标新闻视频的海报图。本发明能够基于视频新闻中的主持人信息以及新闻标题信息自动生成能够表征视频新闻内容的海报图,有效解决的现有技术中视频新闻海报图生成形式单一、用户体验差的问题。

Description

一种视频新闻海报图的生成方法及装置
技术领域
本发明涉及视频处理技术领域,更具体地说,涉及一种视频新闻海报图的生成方法及装置。
背景技术
视频网站需要每天为待上线的视频,生成代表这些视频内容的海报图,以便在网页或者客户端中代表视频的内容进行展示,海报图生成质量的好坏直接影响用户在浏览时的用户体验。
由于新闻类的视频大多数是以主持人播报的镜头作为开始,如果不作区分直接将第一帧作为视频的海报图,会导致视频新闻网页满屏的海报都是主持人的情况,用户在浏览过程中无法直观区分每条视频新闻的内容,仍需借助周边文字的描述,使得视频海报图失去了其本来的意义,不具有区分性。因此,如何解决现有技术中视频新闻海报图生成形式单一、用户体验差的问题,是一项亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种视频新闻海报图的生成方法,能够基于视频新闻中的主持人信息以及新闻标题信息自动生成能够表征视频新闻内容的海报图,有效解决的现有技术中视频新闻海报图生成形式单一、用户体验差的问题。
为实现上述目的,本发明提供如下技术方案:一种新闻视频海报图的生成方法,所述方法包括以下步骤:
通过对目标新闻视频中的视频帧进行聚类,将所述目标新闻视频分解为至少一个镜头;
记录每一所述镜头在所述目标新闻视频中的开始时间点以及结束时间点;
基于所述镜头的开始时间点以及结束时间点计算出的所述镜头的长度,按照预设时间间隔抽取出所述镜头的m帧关键帧;
记录每一所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点;
分别对每一所述关键帧进行处理,生成所述关键帧的主持人标记信息;
对所述目标新闻视频进行新闻标题检测,当所述目标新闻视频中包含新闻标题时,记录所述新闻标题的起始时间点以及结束时间点;
基于所述新闻标题的起始时间点以及结束时间点和所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点,生成对所述关键帧进行标记的新闻标题标记信息;
基于所有所述关键帧的主持人标记信息以及新闻标题标记信息,生成所述目标新闻视频的海报图。
优选地,所述分别对每一所述关键帧进行处理,生成所述关键帧的主持人标记信息包括:
将每一所述关键帧分别输入预先训练的分类器,生成每一所述关键帧对应的主持人类别;
判断所述主持人类别是否为非主持人类,若是,则生成第一主持人标记信息,若否,则:
生成第二主持人标记信息。
优选地,所述对所述目标新闻视频进行新闻标题检测,当所述目标新闻视频中包含新闻标题时,记录所述新闻标题的起始时间点以及结束时间点包括:
确定所述目标新闻视频的视频帧的预设区域为候选区域;
对所述候选区域中的图像进行跟踪处理,生成跟踪处理结果;
基于所述跟踪处理结果判断所述候选区域是否为新闻标题区域,若是,则将所述新闻标题区域的出现时间点确定为新闻标题的起始时间点,将所述新闻标题区域的消失时间点确定为新闻标题的结束时间点。
优选地,所述基于所述新闻标题的起始时间点以及结束时间点和所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点,生成对所述关键帧进行标记的新闻标题标记信息包括:
将所述新闻标题的起始时间点以及结束时间点与所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点进行比对;
当所述新闻标题的起始时间点以及结束时间点包含在所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点构成的时间段内时,生成第一新闻标题标记信息;
当所述新闻标题的起始时间点以及结束时间点未包含在所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点构成的时间段内时,生成第二新闻标题标记信息。
优选地,所述基于所有所述关键帧的主持人标记信息以及新闻标题标记信息,生成所述目标新闻视频的海报图包括:
将具有所述第一主持人标记信息以及所述第一新闻标题标记信息的所有关键帧作为海报图候选视频帧;
合并所述候选视频帧中属于同一镜头的关键帧;
从所述候选视频帧构成的所有镜头中分别选取其中一个关键帧,所述选取的关键帧构成候选关键帧集合;
从所述候选关键帧集合中提取出满足预设条件的关键帧作为所述目标新闻视频的海报图。
一种新闻视频海报图的生成装置,包括:
分解模块,用于通过对目标新闻视频中的视频帧进行聚类,将所述目标新闻视频分解为至少一个镜头;
第一记录模块,用于记录每一所述镜头在所述目标新闻视频中的开始时间点以及结束时间点;
抽取模块,用于基于所述镜头的开始时间点以及结束时间点计算出的所述镜头的长度,按照预设时间间隔抽取出所述镜头的m帧关键帧;
第二记录模块,用于记录每一所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点;
第一生成模块,用于分别对每一所述关键帧进行处理,生成所述关键帧的主持人标记信息;
第三记录模块,用于对所述目标新闻视频进行新闻标题检测,当所述目标新闻视频中包含新闻标题时,记录所述新闻标题的起始时间点以及结束时间点;
第二生成模块,用于基于所述新闻标题的起始时间点以及结束时间点和所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点,生成对所述关键帧进行标记的新闻标题标记信息;
第三生成模块,用于基于所有所述关键帧的主持人标记信息以及新闻标题标记信息,生成所述目标新闻视频的海报图。
优选地,所述第一生成模块具体用于:
将每一所述关键帧分别输入预先训练的分类器,生成每一所述关键帧对应的主持人类别;
判断所述主持人类别是否为非主持人类,若是,则生成第一主持人标记信息,若否,则:
生成第二主持人标记信息。
优选地,所述第三记录模块具体用于:
确定所述目标新闻视频的视频帧的预设区域为候选区域;
对所述候选区域中的图像进行跟踪处理,生成跟踪处理结果;
基于所述跟踪处理结果判断所述候选区域是否为新闻标题区域,若是,则将所述新闻标题区域的出现时间点确定为新闻标题的起始时间点,将所述新闻标题区域的消失时间点确定为新闻标题的结束时间点。
优选地,所述第二生成模块具体用于:
将所述新闻标题的起始时间点以及结束时间点与所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点进行比对;
当所述新闻标题的起始时间点以及结束时间点包含在所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点构成的时间段内时,生成第一新闻标题标记信息;
当所述新闻标题的起始时间点以及结束时间点未包含在所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点构成的时间段内时,生成第二新闻标题标记信息。
优选地,所述第三生成模块具体用于:
将具有所述第一主持人标记信息以及所述第一新闻标题标记信息的所有关键帧作为海报图候选视频帧;
合并所述候选视频帧中属于同一镜头的关键帧;
从所述候选视频帧构成的所有镜头中分别选取其中一个关键帧,所述选取的关键帧构成候选关键帧集合;
从所述候选关键帧集合中提取出满足预设条件的关键帧作为所述目标新闻视频的海报图。
从上述技术方案可以看出,本发明公开了一种新闻视频海报图的生成方法,当需要生成新闻视频的海报图时,首先通过对目标新闻视频中的视频帧进行聚类,将目标新闻视频分解为至少一个镜头,然后记录每一镜头在所述目标新闻视频中的开始时间点以及结束时间点;基于镜头的开始时间点以及结束时间点计算出的镜头的长度,按照预设时间间隔抽取出镜头的m帧关键帧,记录每一关键帧在目标新闻视频中的开始时间点以及结束时间点,分别对每一关键帧进行处理,生成关键帧的主持人标记信息,同时对目标新闻视频进行新闻标题检测,当目标新闻视频中包含新闻标题时,记录新闻标题的起始时间点以及结束时间点,基于新闻标题的起始时间点以及结束时间点和关键帧在目标新闻视频中的开始时间点以及结束时间点,生成对关键帧进行标记的新闻标题标记信息,最后基于所有关键帧的主持人标记信息以及新闻标题标记信息,生成目标新闻视频的海报图,能够基于视频新闻中的主持人信息以及新闻标题信息自动生成能够表征视频新闻内容的海报图,有效解决的现有技术中视频新闻海报图生成形式单一、用户体验差的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例1公开的一种新闻视频海报图的生成方法的流程图;
图2为本发明实施例1公开的一种新闻视频海报图的生成装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种新闻视频海报图的生成方法实施例1的流程图,方法包括以下步骤:
S101、通过对目标新闻视频中的视频帧进行聚类,将目标新闻视频分解为至少一个镜头;
当需要生成新闻视频的海报图时,首先将目标新闻视频中相似的视频帧进行聚类、合并为一个镜头。将视频分解为镜头时,通过计算目标新闻视频的每一个视频帧的RGB空间的颜色直方图H[i],计算时域相邻的视频帧的颜色直方图H[i]之间的欧式距离,如果此欧式距离大于预先设定的阈值Th1,则认为镜头发生了切变,记录开始位置和结束位置之间的所有视频帧为一个镜头;计算当前视频帧同其之前的n帧的视频帧之间的颜色直方图H[i]的距离,如果此距离大于预先设定的阈值Th2,则认为在此处发生了镜头渐变,记录开始位置和结束位置之间的所有视频帧为一个镜头;如果镜头既没有发生切变也没有发生渐变,则认为仍然在一个镜头内部。
S102、记录每一镜头在目标新闻视频中的开始时间点以及结束时间点;
当将目标新闻视频分解为至少一个镜头后,对每一镜头在目标新闻视频中的开始时间点以及结束时间点进行记录。
S103、基于镜头的开始时间点以及结束时间点计算出的镜头的长度,按照预设时间间隔抽取出镜头的m帧关键帧;
根据记录的镜头的开始时间点以及结束时间点计算出的镜头的长度,设定需要抽取的关键帧的帧数m,设置的规则可以描述为:当镜头长度小于2s时,m=1,当镜头长度小于4s时,m=2,当镜头长度小于10s时,m=3,当镜头长度大于10s时,m=4(此处的参数均可进行调整)。在镜头中抽取m帧作为代表帧,计算抽取关键帧的间隔gap=(结束位置-开始位置)/(m+1),从镜头开始以gap为间隔抽取视频帧,作为关键帧。
S104、记录每一关键帧在目标新闻视频中的开始时间点以及结束时间点;
当抽取出镜头的m帧关键帧后,对每一关键帧在目标新闻视频中的开始时间点以及结束时间点进行记录。
S105、分别对每一关键帧进行处理,生成关键帧的主持人标记信息;
然后,对分别每一关键帧进行处理,通过对关键帧的分析处理生成关键帧的主持人标记信息。
S106、对目标新闻视频进行新闻标题检测,当目标新闻视频中包含新闻标题时,记录新闻标题的起始时间点以及结束时间点;
同时,对目标新闻视频进行新闻标题检测分析,判断目标新闻视频中是否包含新闻标题,当目标新闻视频中包含新闻标题时,对新闻标题的起始时间点以及结束时间点进行记录。
S107、基于新闻标题的起始时间点以及结束时间点和关键帧在目标新闻视频中的开始时间点以及结束时间点,生成对关键帧进行标记的新闻标题标记信息;
然后根据记录的新闻标题的起始时间点以及结束时间点和关键帧在目标新闻视频中的开始时间点以及结束时间点,生成对关键帧进行标记的新闻标题标记信息,即标记关键帧中是否包含新闻标题。
S108、基于所有关键帧的主持人标记信息以及新闻标题标记信息,生成目标新闻视频的海报图。
最后,根据所有关键帧的主持人标记信息以及新闻标题标记信息,生成目标新闻视频的海报图。
综上所述,在上述实施例中,当需要生成新闻视频的海报图时,首先通过对目标新闻视频中的视频帧进行聚类,将目标新闻视频分解为至少一个镜头,然后记录每一镜头在所述目标新闻视频中的开始时间点以及结束时间点;基于镜头的开始时间点以及结束时间点计算出的镜头的长度,按照预设时间间隔抽取出镜头的m帧关键帧,记录每一关键帧在目标新闻视频中的开始时间点以及结束时间点,分别对每一关键帧进行处理,生成关键帧的主持人标记信息,同时对目标新闻视频进行新闻标题检测,当目标新闻视频中包含新闻标题时,记录新闻标题的起始时间点以及结束时间点,基于新闻标题的起始时间点以及结束时间点和关键帧在目标新闻视频中的开始时间点以及结束时间点,生成对关键帧进行标记的新闻标题标记信息,最后基于所有关键帧的主持人标记信息以及新闻标题标记信息,生成目标新闻视频的海报图,能够基于视频新闻中的主持人信息以及新闻标题信息自动生成能够表征视频新闻内容的海报图,有效解决的现有技术中视频新闻海报图生成形式单一、用户体验差的问题。
具体的,在上述实施例中,步骤S105分别对每一关键帧进行处理,生成关键帧的主持人标记信息的其中一种实现方式可以是:
将每一关键帧分别输入预先训练的分类器,生成每一关键帧对应的主持人类别,判断主持人类别是否为非主持人类,若是,则生成第一主持人标记信息,若否,则:生成第二主持人标记信息。
即,对于之前选择出来的所有关键帧,将其中的每一关键帧输入到预先训练的分类器进行主持人类别分类,标记关键帧为主持人帧或者非主持人帧。
其中,分类器的训练过程为:在不同频道、不同新闻节目的视频中抽取一定数量的视频帧,人工将这些视频帧,分类为双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类四个类别(本处以四类进行举例,并不限于这四类),利用深度学习方法训练对应的分类器,训练模块是指根据开源的深度学习网络训练方法以及模型结构,训练网络模型的过程。
训练过程:利用caffe开源的深度学习框架进行模型重训(也可使用其他开源深度学习框架进行训练)具体训练过程为BP神经算法,即前向传递时,一层一层输出,若输出层得到的结果与期望值有差别则进行反向传递,根据其误差运用梯度下降法来更新其权重及阀值,重复若干次,直到误差函数到达全局最小值,具体算法复杂,且不是原创算法,属于一般通用方法,不再赘述详细过程。通过上述训练过程,可获得用于分类的网络模型。
分类过程:对于镜头检测后每一个镜头获得的每一个关键帧输入到训练好的模型中,按照同样的模型结构以及训练好的参数,依次进行图像的卷积,pooling,RELU操作,直至最终获得给图像属于双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类的每个类别的置信度概率输出P1,P2,P3,P4,选择其中的最大值对应的类别作为这个未知图像的分类类别。即例如:P1是(P1,P2,P3,P4)中的最大值,那这个图像属于双人主持人坐姿类。如果这个关键帧是被分类到前三类的任意一类,则分类这个关键帧为主持人帧,否则分类为非主持人帧。
具体的,在上述实施例中,步骤S106对目标新闻视频进行新闻标题检测,当目标新闻视频中包含新闻标题时,记录新闻标题的起始时间点以及结束时间点的其中一种实现方式可以是:
确定目标新闻视频的视频帧的预设区域为候选区域,对候选区域中的图像进行跟踪处理,生成跟踪处理结果,基于跟踪处理结果判断候选区域是否为新闻标题区域,若是,则将新闻标题区域的出现时间点确定为新闻标题的起始时间点,将新闻标题区域的消失时间点确定为新闻标题的结束时间点。
即,标题检测算法的思路是对于输入的新闻视频的每一视频帧,进行基于时域稳定性的新闻标题检测,获取新闻标题在整个新闻中出现的起始和结束帧的帧号。将模块A中获得的每一个关键帧的在视频中的时间位置同新闻标题的出现位置进行比对,如果在标题出现的范围内,则认为此关键帧是具有标题的,否则认为此关键帧没有标题的。
本处采用此方式进行判断,而没有利用单张图像中寻找标题的方式进行,是为了区分可能存在的滚动字幕,新闻中出现的滚动字幕一般采取同新闻标题极其近似的样式进行展示,如果仅对一张图像判断其是否为新闻标题,则会出现错误,影响海报图的生成质量。
具体算法为:
1、选择潜在的候选区域:
(1)可选取关键帧底部区域(底部区域为大部分新闻新闻标题出现的位置。进行区域选取的目的是为了减少计算量,提升检测精度)内的图像,作为待检测图像,底部区域的选取方法为:
假设关键帧的宽高为W、H,则底部区域Rect(rect.x,rect.y,rect.w,rect.h)(矩形区域在关键帧中的起点坐标与该区域的宽、高)在关键帧的图像中的位置为:
rect.x=0;
rect.y=H*cut_ratio;
rect.w=W;
rect.h=H*(1-cut_ratio);
其中cut_ratio是一个预设的系数。
(2)将选取的待检测图像由RGB色彩空间转化为灰度/或者任意亮度色彩分离空间(如YUV,HSV,HSL,LAB),对于灰度空间换公式为:
Gray=R*0.299+G*0.587+B*0.114
对于亮度色彩分离空间,以HSL举例,亮度L(Lightness)的转化公式为:
L=(max(R,G,B)+min(R,G,B))/2
(3)对于灰度或者亮度图像,提取图像的边缘特征,提取边缘的方法有多种,如Sobel算子,Canny算子等,本实施例以Sobel算子为例说明:
利用水平方向边缘梯度算子和垂直方向边缘梯度算子,同灰度/亮度图像的进行卷积,获得水平边缘图Eh和垂直边缘图Ev,最终计算边缘强度图Eall,即对于边缘图上任意一点Eall(x,y),Eall(x,y)=sqrt(Ev(x,y)2+Eh(x,y)2)
水平方向和垂直方向的边缘梯度算子以Sobel算子为例,其他算子同样适用:
Figure BDA0001513867090000111
(4)对于Eall与预先设定的阈值The1进行对比,将边缘图二值化即,ifEall(x,y)>The1E(x,y)=1,else E(x,y)=0。
(5)对于待检测图像的RGB每个通道,分别执行3的操作,得到三个通道分别的边缘强度图Er,Eg,Eb。
(6)对于Er,Eg,Eb与预先设定的阈值The2进行对比,将边缘图二值化,即(以某个通道举例)ifEr(x,y)>The2Er(x,y)=1,else Er(x,y)=0。The2和The1可以相同也可以不同,若新闻标题框底是渐变方式的类型,用较高的阈值无法检测到新闻标题框的边缘,需要用较低阈值检测到的边缘进行加强,因此,一般The2<The1
(7)对于得到的边缘图像E进行边缘加强,E(x,y)=E(x,y)|Er(x,y)|Eg(x,y)|Eb(x,y),得到最终的边缘图。(5)~(7)为加强步骤,可根据需要选择使用或不使用。可对一个通道进行加强,也可对三个通道均进行加强,其目的是防止字幕区域出现渐变时导致检测失败。
(8)对于最终的边缘图进行水平方向的投影,统计每一行i中符合下述条件的像素的数量Numedge,如果Numedge>Thnum,则直方图H[i]=1,否则直方图H[i]=0。下述条件为:该像素以及上下相邻像素中存在至少一个像素为1的值,就认为该像素的边缘值为1,同时统计该像素左右连续的像素边缘值为1,且连续的长度大于阈值Thlen的像素的总个数。(目的保证有连续的直线)
(9)对于直方图H[i],进行遍历,H[i]==1之间的行间距,如果间距大于阈值Throw,则将这两行之间的边缘图像区域作为第一阶段候选区域,如果没有,继续处理下一关键帧。
(10)对于每一个第一阶段候选区域,统计垂直方向的边缘投影直方图V,对于任意一列的i,如果这一列的边缘像素为1的数量大于Thv,则V[i]=1,否则V[i]=0,强制设置V[0]=1&&V[W-1]=1。寻找V中,V[i]==1&&V[j]==1&&V[k]k∈(i,j)==0&&argmax(i-j)的区域作为字幕区域的左右边界。选择这个区域内的原始图像,作为第二阶段的候选区域。求列的边缘像素的方法与求行的边缘像素的方法相同。
(11)精细寻找第二阶段候选区域的左右边界,以一定长度(可为32*32)的滑动窗口扫描第二阶段候选区域的原图,计算每一个窗口内的颜色直方图,同时统计该窗口内颜色直方图中非0位的个数numcolor,寻找单色区域或者颜色复杂的背景区域的位置,即numcolor<Thcolor1||numcolor>Thcolor2将符合该条件的窗口的中心位置,作为新的垂直方向边界。
(12)对于上述方法确定的矩形区域CandidateRect,利用约束条件进行判断,约束条件包括但不限于,CandidateRect的起点的位置信息需在一定的图像范围中,CandidateRect的高度需要在一定的范围中等等,如果符合条件则认为是一个新闻标题的候选区域。如果该候选区域没有处在跟踪中,则进行跟踪转模块B。
2、对于找到的候选区域进行跟踪:
(1)判断是否为第一次跟踪这个区域,即通过上一时刻经过本实施例处理后会知道有没有一个区域或多个区域处于跟踪中或跟踪完成或跟踪失败,若有处于跟踪中的区域,将其同现在的候选区域,进行位置的比较,如果两个区域在位置上有较高的重合度,即可知这个区域处于跟踪中,否则则确定这个区域是第一次跟踪到,其中所谓第一次跟踪这个区域,可以指首次跟踪这个区域,也可以指上一次跟踪结束后,再次跟踪这个区域。如果是首次跟踪则进行(2),若不是首次跟踪则退出本实施例的方法步骤。
(2)对于第一次跟踪的区域,设定关键帧中的一个跟踪范围(由于输入的关键帧候选区域中可能包含额外的背景区域,即不包含新闻标题的区域,为了提升跟踪的准确性,需要设置跟踪区域)。设置方法为:设关键帧的新闻标题的候选区域的位置为CandidateRect(x,y,w,h)(关键帧中的起始点x,y以及对应的宽高w,h),设定跟踪区域track(x,y,w,h)为:
track.x=CandidateRect.x+CandidateRect.w*Xratio1;
track.y=CandidateRect.y+CandidateRect.h*Yratio1;
track.w=CandidateRect.w*Xratio2;
track.h=CandidateRect.h*Yratio2;
Xratio1,Xratio2,Yratio1,Yratio2均为预先设定的参数。
(3)选取关键帧跟踪区域中图像,将图像由RGB色彩空间转化为灰度/或者任意亮度色彩分离空间(如YUV,HSV,HSL,LAB),对于灰度空间换公式为:
Gray=R*0.299+G*0.587+B*0.114
对于亮度色彩分离空间,以HSL举例,亮度L(Lightness)的转化公式为:
L=(max(R,G,B)+min(R,G,B))/2
(4)计算分割阈值,对于灰度或者亮度图像,利用OTSU方法计算灰度分割阈值,OTSU方法的描述为:假设灰度图像I可以分割为N个灰度(N<=256),对于这N个灰度可以提取图像的N阶灰度直方图H。对于直方图中的每一位t(0<=t<N),计算如下公式:
Figure BDA0001513867090000131
Figure BDA0001513867090000132
Figure BDA0001513867090000133
x(i)=i*256/N
获得使
Figure BDA0001513867090000134
最大的t对应的x(t)作为分割阈值Thtrack。
(5)将图像二值化,即对于图像I中的像素(x,y)其对应的参考二值化图像Bref的像素为,IfI(x,y)<Thtrack,Bref(x,y)=0;ifI(x,y)>=Thtrack,Bref(x,y)=255。
(6)计算跟踪区域中图像的颜色直方图Href。
(7)对于输入的关键帧,将其由RGB色彩空间转化为灰度/或者任意亮度色彩分离空间(如YUV,HSV,HSL,LAB),对于灰度空间换公式为:
Gray=R*0.299+G*0.587+B*0.114
对于亮度色彩分离空间,以HSL举例,亮度L(Lightness)的转化公式为:
L=(max(R,G,B)+min(R,G,B))/2
(8)选取关键帧中跟踪区域中的灰度图像,进行二值化,即对于图像I中的像素(x,y)其对应的二值化图像B的像素为,IfI(x,y)<Thtrack,Bcur(x,y)=0;ifI(x,y)>=Thtrack,Bcur(x,y)=255。Thtrack为首次跟踪时步骤4得到的结果。
(9)将当前帧的二值化图像Bcur同参考二值化图像Bref,进行逐点差分,并计算差分的平均值Diffbinary:
Figure BDA0001513867090000141
其中W和H是跟踪区域图像的宽,高。
(10)计算跟踪区域中当前图像的颜色直方图Hcur,并同Href求距离Diffcolor。
(11)对于获得的Diffbinary和Diffcolor,同预先设定的阈值进行比较,如果Diffbinary<Thbinary&&Diffcolor<Thcolor则返回状态跟踪中,将跟踪计数器tracking_num++,否则将lost_num++;需要注意的是,基于颜色直方图和二值化的跟踪方式,可以只用其中之一,也可以组合使用。
(12)如果lost_num>Thlost则返回跟踪结束状态,同时返回当前关键帧的帧号(记录了这一帧为新闻标题消失的时间点),否则返回跟踪中。设立lost_num的目的是为了避免个别视频信号受到干扰,引起图像出现失真,导致匹配失败,通过lost_num的设立,允许算法有个别数量的关键帧跟踪失败。
3、判断这个跟踪区域是不是一个标题区域:
如果对候选区跟踪结束,则比较tracking_num与预先设定的阈值Thtracking_num的大小,如果tracking_num>=Thtracking_num则判断这个图像为新闻标题区域,否则为非新闻标题区域。
具体的,在上述实施例中,步骤S107基于新闻标题的起始时间点以及结束时间点和关键帧在目标新闻视频中的开始时间点以及结束时间点,生成对关键帧进行标记的新闻标题标记信息的其中一种实现方式可以是:
将新闻标题的起始时间点以及结束时间点与关键帧在目标新闻视频中的开始时间点以及结束时间点进行比对,当新闻标题的起始时间点以及结束时间点包含在关键帧在目标新闻视频中的开始时间点以及结束时间点构成的时间段内时,生成第一新闻标题标记信息,当新闻标题的起始时间点以及结束时间点未包含在关键帧在目标新闻视频中的开始时间点以及结束时间点构成的时间段内时,生成第二新闻标题标记信息。
具体的,在上述实施例中,步骤S108基于所有关键帧的主持人标记信息以及新闻标题标记信息,生成目标新闻视频的海报图的其中一种实现方式可以是:
将具有第一主持人标记信息以及第一新闻标题标记信息的所有关键帧作为海报图候选视频帧,合并候选视频帧中属于同一镜头的关键帧,从候选视频帧构成的所有镜头中分别选取其中一个关键帧,选取的关键帧构成候选关键帧集合,从候选关键帧集合中提取出满足预设条件的关键帧作为目标新闻视频的海报图。
即,选择获得的关键帧被标注为有/无主持人信息以及有无新闻标题信息,从中选择具有有标题信息且无主持人信息的视频帧,作为海报图候选视频帧,符合条件的视频帧可能存在若干帧。
对于候选帧,合并出自一个镜头的关键帧,即如果符合条件的关键帧出自同一个镜头,则任意选择其中的一个关键帧,其他关键帧进行抛弃。
对于来自不同镜头的关键帧,可以通过评价图像质量或者美感的方式,从中择优选择最好的视频帧,作为海报图,图像质量以及美感评价的方式很多,本例选择最简单的一个实施例予以说明:
选择颜色最为丰富的视频帧:
(1)将每个视频帧转换到HSV颜色色彩空间;
(2)计算图像每个像素的V通道的平均亮度V’,如果V’在一定的亮度范围内(预先设定的阈值),即选择该关键帧;否则抛弃此关键帧(目的选择亮度适中的关键帧)。
(3)对于图像的HS通道建立,颜色直方图,计算直方图中不为0的直方图的位数,在所有候选视频帧中选择位数最多的一帧,作为新闻海报图(选择颜色信息丰富的,具有区分性的作为海报图)。
如图2所示,为本发明公开的一种新闻视频海报图的生成装置实施例1的结构示意图,所述装置包括:
分解模块201,用于通过对目标新闻视频中的视频帧进行聚类,将目标新闻视频分解为至少一个镜头;
当需要生成新闻视频的海报图时,首先将目标新闻视频中相似的视频帧进行聚类、合并为一个镜头。将视频分解为镜头时,通过计算目标新闻视频的每一个视频帧的RGB空间的颜色直方图H[i],计算时域相邻的视频帧的颜色直方图H[i]之间的欧式距离,如果此欧式距离大于预先设定的阈值Th1,则认为镜头发生了切变,记录开始位置和结束位置之间的所有视频帧为一个镜头;计算当前视频帧同其之前的n帧的视频帧之间的颜色直方图H[i]的距离,如果此距离大于预先设定的阈值Th2,则认为在此处发生了镜头渐变,记录开始位置和结束位置之间的所有视频帧为一个镜头;如果镜头既没有发生切变也没有发生渐变,则认为仍然在一个镜头内部。
第一记录模块202,用于记录每一镜头在目标新闻视频中的开始时间点以及结束时间点;
当将目标新闻视频分解为至少一个镜头后,对每一镜头在目标新闻视频中的开始时间点以及结束时间点进行记录。
抽取模块203,用于基于镜头的开始时间点以及结束时间点计算出的镜头的长度,按照预设时间间隔抽取出镜头的m帧关键帧;
根据记录的镜头的开始时间点以及结束时间点计算出的镜头的长度,设定需要抽取的关键帧的帧数m,设置的规则可以描述为:当镜头长度小于2s时,m=1,当镜头长度小于4s时,m=2,当镜头长度小于10s时,m=3,当镜头长度大于10s时,m=4(此处的参数均可进行调整)。在镜头中抽取m帧作为代表帧,计算抽取关键帧的间隔gap=(结束位置-开始位置)/(m+1),从镜头开始以gap为间隔抽取视频帧,作为关键帧。
第二记录模块204,用于记录每一关键帧在目标新闻视频中的开始时间点以及结束时间点;
当抽取出镜头的m帧关键帧后,对每一关键帧在目标新闻视频中的开始时间点以及结束时间点进行记录。
第一生成模块205,用于分别对每一关键帧进行处理,生成关键帧的主持人标记信息;
然后,对分别每一关键帧进行处理,通过对关键帧的分析处理生成关键帧的主持人标记信息。
第三记录模块206,用于对目标新闻视频进行新闻标题检测,当目标新闻视频中包含新闻标题时,记录新闻标题的起始时间点以及结束时间点;
同时,对目标新闻视频进行新闻标题检测分析,判断目标新闻视频中是否包含新闻标题,当目标新闻视频中包含新闻标题时,对新闻标题的起始时间点以及结束时间点进行记录。
第二生成模块207,用于基于新闻标题的起始时间点以及结束时间点和关键帧在目标新闻视频中的开始时间点以及结束时间点,生成对关键帧进行标记的新闻标题标记信息;
然后根据记录的新闻标题的起始时间点以及结束时间点和关键帧在目标新闻视频中的开始时间点以及结束时间点,生成对关键帧进行标记的新闻标题标记信息,即标记关键帧中是否包含新闻标题。
第三生成模块208,用于基于所有关键帧的主持人标记信息以及新闻标题标记信息,生成目标新闻视频的海报图。
最后,根据所有关键帧的主持人标记信息以及新闻标题标记信息,生成目标新闻视频的海报图。
综上所述,在上述实施例中,当需要生成新闻视频的海报图时,首先通过对目标新闻视频中的视频帧进行聚类,将目标新闻视频分解为至少一个镜头,然后记录每一镜头在所述目标新闻视频中的开始时间点以及结束时间点;基于镜头的开始时间点以及结束时间点计算出的镜头的长度,按照预设时间间隔抽取出镜头的m帧关键帧,记录每一关键帧在目标新闻视频中的开始时间点以及结束时间点,分别对每一关键帧进行处理,生成关键帧的主持人标记信息,同时对目标新闻视频进行新闻标题检测,当目标新闻视频中包含新闻标题时,记录新闻标题的起始时间点以及结束时间点,基于新闻标题的起始时间点以及结束时间点和关键帧在目标新闻视频中的开始时间点以及结束时间点,生成对关键帧进行标记的新闻标题标记信息,最后基于所有关键帧的主持人标记信息以及新闻标题标记信息,生成目标新闻视频的海报图,能够基于视频新闻中的主持人信息以及新闻标题信息自动生成能够表征视频新闻内容的海报图,有效解决的现有技术中视频新闻海报图生成形式单一、用户体验差的问题。
具体的,在上述实施例中,第一生成模块具体可以用于:
将每一关键帧分别输入预先训练的分类器,生成每一关键帧对应的主持人类别,判断主持人类别是否为非主持人类,若是,则生成第一主持人标记信息,若否,则:生成第二主持人标记信息。
即,对于之前选择出来的所有关键帧,将其中的每一关键帧输入到预先训练的分类器进行主持人类别分类,标记关键帧为主持人帧或者非主持人帧。
其中,分类器的训练过程为:在不同频道、不同新闻节目的视频中抽取一定数量的视频帧,人工将这些视频帧,分类为双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类四个类别(本处以四类进行举例,并不限于这四类),利用深度学习方法训练对应的分类器,训练模块是指根据开源的深度学习网络训练方法以及模型结构,训练网络模型的过程。
训练过程:利用caffe开源的深度学习框架进行模型重训(也可使用其他开源深度学习框架进行训练)具体训练过程为BP神经算法,即前向传递时,一层一层输出,若输出层得到的结果与期望值有差别则进行反向传递,根据其误差运用梯度下降法来更新其权重及阀值,重复若干次,直到误差函数到达全局最小值,具体算法复杂,且不是原创算法,属于一般通用方法,不再赘述详细过程。通过上述训练过程,可获得用于分类的网络模型。
分类过程:对于镜头检测后每一个镜头获得的每一个关键帧输入到训练好的模型中,按照同样的模型结构以及训练好的参数,依次进行图像的卷积,pooling,RELU操作,直至最终获得给图像属于双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类的每个类别的置信度概率输出P1,P2,P3,P4,选择其中的最大值对应的类别作为这个未知图像的分类类别。即例如:P1是(P1,P2,P3,P4)中的最大值,那这个图像属于双人主持人坐姿类。如果这个关键帧是被分类到前三类的任意一类,则分类这个关键帧为主持人帧,否则分类为非主持人帧。
具体的,在上述实施例中,第三记录模块具体可以用于:
确定目标新闻视频的视频帧的预设区域为候选区域,对候选区域中的图像进行跟踪处理,生成跟踪处理结果,基于跟踪处理结果判断候选区域是否为新闻标题区域,若是,则将新闻标题区域的出现时间点确定为新闻标题的起始时间点,将新闻标题区域的消失时间点确定为新闻标题的结束时间点。
即,标题检测算法的思路是对于输入的新闻视频的每一视频帧,进行基于时域稳定性的新闻标题检测,获取新闻标题在整个新闻中出现的起始和结束帧的帧号。将模块A中获得的每一个关键帧的在视频中的时间位置同新闻标题的出现位置进行比对,如果在标题出现的范围内,则认为此关键帧是具有标题的,否则认为此关键帧没有标题的。
本处采用此方式进行判断,而没有利用单张图像中寻找标题的方式进行,是为了区分可能存在的滚动字幕,新闻中出现的滚动字幕一般采取同新闻标题极其近似的样式进行展示,如果仅对一张图像判断其是否为新闻标题,则会出现错误,影响海报图的生成质量。
具体算法为:
1、选择潜在的候选区域:
(1)可选取关键帧底部区域(底部区域为大部分新闻新闻标题出现的位置。进行区域选取的目的是为了减少计算量,提升检测精度)内的图像,作为待检测图像,底部区域的选取方法为:
假设关键帧的宽高为W、H,则底部区域Rect(rect.x,rect.y,rect.w,rect.h)(矩形区域在关键帧中的起点坐标与该区域的宽、高)在关键帧的图像中的位置为:
rect.x=0;
rect.y=H*cut_ratio;
rect.w=W;
rect.h=H*(1-cut_ratio);
其中cut_ratio是一个预设的系数。
(2)将选取的待检测图像由RGB色彩空间转化为灰度/或者任意亮度色彩分离空间(如YUV,HSV,HSL,LAB),对于灰度空间换公式为:
Gray=R*0.299+G*0.587+B*0.114
对于亮度色彩分离空间,以HSL举例,亮度L(Lightness)的转化公式为:
L=(max(R,G,B)+min(R,G,B))/2
(3)对于灰度或者亮度图像,提取图像的边缘特征,提取边缘的方法有多种,如Sobel算子,Canny算子等,本实施例以Sobel算子为例说明:
利用水平方向边缘梯度算子和垂直方向边缘梯度算子,同灰度/亮度图像的进行卷积,获得水平边缘图Eh和垂直边缘图Ev,最终计算边缘强度图Eall,即对于边缘图上任意一点Eall(x,y),Eall(x,y)=sqrt(Ev(x,y)2+Eh(x,y)2)
水平方向和垂直方向的边缘梯度算子以Sobel算子为例,其他算子同样适用:
Figure BDA0001513867090000211
(4)对于Eall与预先设定的阈值The1进行对比,将边缘图二值化即,ifEall(x,y)>The1E(x,y)=1,else E(x,y)=0。
(5)对于待检测图像的RGB每个通道,分别执行3的操作,得到三个通道分别的边缘强度图Er,Eg,Eb。
(6)对于Er,Eg,Eb与预先设定的阈值The2进行对比,将边缘图二值化,即(以某个通道举例)ifEr(x,y)>The2Er(x,y)=1,else Er(x,y)=0。The2和The1可以相同也可以不同,若新闻标题框底是渐变方式的类型,用较高的阈值无法检测到新闻标题框的边缘,需要用较低阈值检测到的边缘进行加强,因此,一般The2<The1
(7)对于得到的边缘图像E进行边缘加强,E(x,y)=E(x,y)|Er(x,y)|Eg(x,y)|Eb(x,y),得到最终的边缘图。(5)~(7)为加强步骤,可根据需要选择使用或不使用。可对一个通道进行加强,也可对三个通道均进行加强,其目的是防止字幕区域出现渐变时导致检测失败。
(8)对于最终的边缘图进行水平方向的投影,统计每一行i中符合下述条件的像素的数量Numedge,如果Numedge>Thnum,则直方图H[i]=1,否则直方图H[i]=0。下述条件为:该像素以及上下相邻像素中存在至少一个像素为1的值,就认为该像素的边缘值为1,同时统计该像素左右连续的像素边缘值为1,且连续的长度大于阈值Thlen的像素的总个数。(目的保证有连续的直线)
(9)对于直方图H[i],进行遍历,H[i]==1之间的行间距,如果间距大于阈值Throw,则将这两行之间的边缘图像区域作为第一阶段候选区域,如果没有,继续处理下一关键帧。
(10)对于每一个第一阶段候选区域,统计垂直方向的边缘投影直方图V,对于任意一列的i,如果这一列的边缘像素为1的数量大于Thv,则V[i]=1,否则V[i]=0,强制设置V[0]=1&&V[W-1]=1。寻找V中,V[i]==1&&V[j]==1&&V[k]k∈(i,j)==0&&argmax(i-j)的区域作为字幕区域的左右边界。选择这个区域内的原始图像,作为第二阶段的候选区域。求列的边缘像素的方法与求行的边缘像素的方法相同。
(11)精细寻找第二阶段候选区域的左右边界,以一定长度(可为32*32)的滑动窗口扫描第二阶段候选区域的原图,计算每一个窗口内的颜色直方图,同时统计该窗口内颜色直方图中非0位的个数numcolor,寻找单色区域或者颜色复杂的背景区域的位置,即numcolor<Thcolor1||numcolor>Thcolor2将符合该条件的窗口的中心位置,作为新的垂直方向边界。
(12)对于上述方法确定的矩形区域CandidateRect,利用约束条件进行判断,约束条件包括但不限于,CandidateRect的起点的位置信息需在一定的图像范围中,CandidateRect的高度需要在一定的范围中等等,如果符合条件则认为是一个新闻标题的候选区域。如果该候选区域没有处在跟踪中,则进行跟踪转模块B。
2、对于找到的候选区域进行跟踪:
(1)判断是否为第一次跟踪这个区域,即通过上一时刻经过本实施例处理后会知道有没有一个区域或多个区域处于跟踪中或跟踪完成或跟踪失败,若有处于跟踪中的区域,将其同现在的候选区域,进行位置的比较,如果两个区域在位置上有较高的重合度,即可知这个区域处于跟踪中,否则则确定这个区域是第一次跟踪到,其中所谓第一次跟踪这个区域,可以指首次跟踪这个区域,也可以指上一次跟踪结束后,再次跟踪这个区域。如果是首次跟踪则进行(2),若不是首次跟踪则退出本实施例的方法步骤。
(2)对于第一次跟踪的区域,设定关键帧中的一个跟踪范围(由于输入的关键帧候选区域中可能包含额外的背景区域,即不包含新闻标题的区域,为了提升跟踪的准确性,需要设置跟踪区域)。设置方法为:设关键帧的新闻标题的候选区域的位置为CandidateRect(x,y,w,h)(关键帧中的起始点x,y以及对应的宽高w,h),设定跟踪区域track(x,y,w,h)为:
track.x=CandidateRect.x+CandidateRect.w*Xratio1;
track.y=CandidateRect.y+CandidateRect.h*Yratio1;
track.w=CandidateRect.w*Xratio2;
track.h=CandidateRect.h*Yratio2;
Xratio1,Xratio2,Yratio1,Yratio2均为预先设定的参数。
(3)选取关键帧跟踪区域中图像,将图像由RGB色彩空间转化为灰度/或者任意亮度色彩分离空间(如YUV,HSV,HSL,LAB),对于灰度空间换公式为:
Gray=R*0.299+G*0.587+B*0.114
对于亮度色彩分离空间,以HSL举例,亮度L(Lightness)的转化公式为:
L=(max(R,G,B)+min(R,G,B))/2
(4)计算分割阈值,对于灰度或者亮度图像,利用OTSU方法计算灰度分割阈值,OTSU方法的描述为:假设灰度图像I可以分割为N个灰度(N<=256),对于这N个灰度可以提取图像的N阶灰度直方图H。对于直方图中的每一位t(0<=t<N),计算如下公式:
Figure BDA0001513867090000231
Figure BDA0001513867090000232
Figure BDA0001513867090000233
x(i)=i*256/N
获得使
Figure BDA0001513867090000234
最大的t对应的x(t)作为分割阈值Thtrack。
(5)将图像二值化,即对于图像I中的像素(x,y)其对应的参考二值化图像Bref的像素为,IfI(x,y)<Thtrack,Bref(x,y)=0;ifI(x,y)>=Thtrack,Bref(x,y)=255。
(6)计算跟踪区域中图像的颜色直方图Href。
(7)对于输入的关键帧,将其由RGB色彩空间转化为灰度/或者任意亮度色彩分离空间(如YUV,HSV,HSL,LAB),对于灰度空间换公式为:
Gray=R*0.299+G*0.587+B*0.114
对于亮度色彩分离空间,以HSL举例,亮度L(Lightness)的转化公式为:
L=(max(R,G,B)+min(R,G,B))/2
(8)选取关键帧中跟踪区域中的灰度图像,进行二值化,即对于图像I中的像素(x,y)其对应的二值化图像B的像素为,IfI(x,y)<Thtrack,Bcur(x,y)=0;ifI(x,y)>=Thtrack,Bcur(x,y)=255。Thtrack为首次跟踪时步骤4得到的结果。
(9)将当前帧的二值化图像Bcur同参考二值化图像Bref,进行逐点差分,并计算差分的平均值Diffbinary:
Figure BDA0001513867090000241
其中W和H是跟踪区域图像的宽,高。
(10)计算跟踪区域中当前图像的颜色直方图Hcur,并同Href求距离Diffcolor。
(11)对于获得的Diffbinary和Diffcolor,同预先设定的阈值进行比较,如果Diffbinary<Thbinary&&Diffcolor<Thcolor则返回状态跟踪中,将跟踪计数器tracking_num++,否则将lost_num++;需要注意的是,基于颜色直方图和二值化的跟踪方式,可以只用其中之一,也可以组合使用。
(12)如果lost_num>Thlost则返回跟踪结束状态,同时返回当前关键帧的帧号(记录了这一帧为新闻标题消失的时间点),否则返回跟踪中。设立lost_num的目的是为了避免个别视频信号受到干扰,引起图像出现失真,导致匹配失败,通过lost_num的设立,允许算法有个别数量的关键帧跟踪失败。
3、判断这个跟踪区域是不是一个标题区域:
如果对候选区跟踪结束,则比较tracking_num与预先设定的阈值Thtracking_num的大小,如果tracking_num>=Thtracking_num则判断这个图像为新闻标题区域,否则为非新闻标题区域。
具体的,在上述实施例中,第二生成模具体可以用于:
将新闻标题的起始时间点以及结束时间点与关键帧在目标新闻视频中的开始时间点以及结束时间点进行比对,当新闻标题的起始时间点以及结束时间点包含在关键帧在目标新闻视频中的开始时间点以及结束时间点构成的时间段内时,生成第一新闻标题标记信息,当新闻标题的起始时间点以及结束时间点未包含在关键帧在目标新闻视频中的开始时间点以及结束时间点构成的时间段内时,生成第二新闻标题标记信息。
具体的,在上述实施例中,第三生成模块具体可以用于:
将具有第一主持人标记信息以及第一新闻标题标记信息的所有关键帧作为海报图候选视频帧,合并候选视频帧中属于同一镜头的关键帧,从候选视频帧构成的所有镜头中分别选取其中一个关键帧,选取的关键帧构成候选关键帧集合,从候选关键帧集合中提取出满足预设条件的关键帧作为目标新闻视频的海报图。
即,选择获得的关键帧被标注为有/无主持人信息以及有无新闻标题信息,从中选择具有有标题信息且无主持人信息的视频帧,作为海报图候选视频帧,符合条件的视频帧可能存在若干帧。
对于候选帧,合并出自一个镜头的关键帧,即如果符合条件的关键帧出自同一个镜头,则任意选择其中的一个关键帧,其他关键帧进行抛弃。
对于来自不同镜头的关键帧,可以通过评价图像质量或者美感的方式,从中择优选择最好的视频帧,作为海报图,图像质量以及美感评价的方式很多,本例选择最简单的一个实施例予以说明:
选择颜色最为丰富的视频帧:
(1)将每个视频帧转换到HSV颜色色彩空间;
(2)计算图像每个像素的V通道的平均亮度V’,如果V’在一定的亮度范围内(预先设定的阈值),即选择该关键帧;否则抛弃此关键帧(目的选择亮度适中的关键帧)。
(3)对于图像的HS通道建立,颜色直方图,计算直方图中不为0的直方图的位数,在所有候选视频帧中选择位数最多的一帧,作为新闻海报图(选择颜色信息丰富的,具有区分性的作为海报图)。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种新闻视频海报图的生成方法,其特征在于,所述方法包括以下步骤:
通过对目标新闻视频中的视频帧进行聚类,将所述目标新闻视频分解为至少一个镜头;
记录每一所述镜头在所述目标新闻视频中的开始时间点以及结束时间点;
基于所述镜头的开始时间点以及结束时间点计算出的所述镜头的长度,按照预设时间间隔抽取出所述镜头的m帧关键帧;
记录每一所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点;
分别对每一所述关键帧进行处理,生成所述关键帧的主持人标记信息;
对所述目标新闻视频进行新闻标题检测,当所述目标新闻视频中包含新闻标题时,记录所述新闻标题的起始时间点以及结束时间点;
基于所述新闻标题的起始时间点以及结束时间点和所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点,生成对所述关键帧进行标记的新闻标题标记信息;
基于所有所述关键帧的主持人标记信息以及新闻标题标记信息,生成所述目标新闻视频的海报图,具体包括:选择具有新闻标题且无主持人信息的视频帧,作为海报图候选视频帧,从候选视频帧中确定所述目标新闻视频的海报图。
2.根据权利要求1所述的方法,其特征在于,所述分别对每一所述关键帧进行处理,生成所述关键帧的主持人标记信息包括:
将每一所述关键帧分别输入预先训练的分类器,生成每一所述关键帧对应的主持人类别;
判断所述主持人类别是否为非主持人类别,若是,则生成第一主持人标记信息,若否,则:
生成第二主持人标记信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标新闻视频进行新闻标题检测,当所述目标新闻视频中包含新闻标题时,记录所述新闻标题的起始时间点以及结束时间点包括:
确定所述目标新闻视频的视频帧的预设区域为候选区域;
对所述候选区域中的图像进行跟踪处理,生成跟踪处理结果;
基于所述跟踪处理结果判断所述候选区域是否为新闻标题区域,若是,则将所述新闻标题区域的出现时间点确定为新闻标题的起始时间点,将所述新闻标题区域的消失时间点确定为新闻标题的结束时间点。
4.根据权利要求3所述的方法,其特征在于,所述基于所述新闻标题的起始时间点以及结束时间点和所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点,生成对所述关键帧进行标记的新闻标题标记信息包括:
将所述新闻标题的起始时间点以及结束时间点与所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点进行比对;
当所述新闻标题的起始时间点以及结束时间点包含在所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点构成的时间段内时,生成第一新闻标题标记信息;
当所述新闻标题的起始时间点以及结束时间点未包含在所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点构成的时间段内时,生成第二新闻标题标记信息。
5.根据权利要求4所述的方法,其特征在于,所述基于所有所述关键帧的主持人标记信息以及新闻标题标记信息,生成所述目标新闻视频的海报图包括:
将具有所述第一主持人标记信息以及所述第一新闻标题标记信息的所有关键帧作为海报图候选视频帧;
合并所述候选视频帧中属于同一镜头的关键帧;
从所述候选视频帧构成的所有镜头中分别选取其中一个关键帧,所述选取的关键帧构成候选关键帧集合;
从所述候选关键帧集合中提取出满足预设条件的关键帧作为所述目标新闻视频的海报图。
6.一种新闻视频海报图的生成装置,其特征在于,包括:
分解模块,用于通过对目标新闻视频中的视频帧进行聚类,将所述目标新闻视频分解为至少一个镜头;
第一记录模块,用于记录每一所述镜头在所述目标新闻视频中的开始时间点以及结束时间点;
抽取模块,用于基于所述镜头的开始时间点以及结束时间点计算出的所述镜头的长度,按照预设时间间隔抽取出所述镜头的m帧关键帧;
第二记录模块,用于记录每一所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点;
第一生成模块,用于分别对每一所述关键帧进行处理,生成所述关键帧的主持人标记信息;
第三记录模块,用于对所述目标新闻视频进行新闻标题检测,当所述目标新闻视频中包含新闻标题时,记录所述新闻标题的起始时间点以及结束时间点;
第二生成模块,用于基于所述新闻标题的起始时间点以及结束时间点和所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点,生成对所述关键帧进行标记的新闻标题标记信息;
第三生成模块,用于基于所有所述关键帧的主持人标记信息以及新闻标题标记信息,生成所述目标新闻视频的海报图,具体包括:选择具有新闻标题且无主持人信息的视频帧,作为海报图候选视频帧,从候选视频帧中确定所述目标新闻视频的海报图。
7.根据权利要求6所述的装置,其特征在于,所述第一生成模块具体用于:
将每一所述关键帧分别输入预先训练的分类器,生成每一所述关键帧对应的主持人类别;
判断所述主持人类别是否为非主持人类别,若是,则生成第一主持人标记信息,若否,则:
生成第二主持人标记信息。
8.根据权利要求7所述的装置,其特征在于,所述第三记录模块具体用于:
确定所述目标新闻视频的视频帧的预设区域为候选区域;
对所述候选区域中的图像进行跟踪处理,生成跟踪处理结果;
基于所述跟踪处理结果判断所述候选区域是否为新闻标题区域,若是,则将所述新闻标题区域的出现时间点确定为新闻标题的起始时间点,将所述新闻标题区域的消失时间点确定为新闻标题的结束时间点。
9.根据权利要求8所述的装置,其特征在于,所述第二生成模块具体用于:
将所述新闻标题的起始时间点以及结束时间点与所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点进行比对;
当所述新闻标题的起始时间点以及结束时间点包含在所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点构成的时间段内时,生成第一新闻标题标记信息;
当所述新闻标题的起始时间点以及结束时间点未包含在所述关键帧在所述目标新闻视频中的开始时间点以及结束时间点构成的时间段内时,生成第二新闻标题标记信息。
10.根据权利要求9所述的装置,其特征在于,所述第三生成模块具体用于:
将具有所述第一主持人标记信息以及所述第一新闻标题标记信息的所有关键帧作为海报图候选视频帧;
合并所述候选视频帧中属于同一镜头的关键帧;
从所述候选视频帧构成的所有镜头中分别选取其中一个关键帧,所述选取的关键帧构成候选关键帧集合;
从所述候选关键帧集合中提取出满足预设条件的关键帧作为所述目标新闻视频的海报图。
CN201711371745.9A 2017-12-19 2017-12-19 一种视频新闻海报图的生成方法及装置 Active CN107977645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711371745.9A CN107977645B (zh) 2017-12-19 2017-12-19 一种视频新闻海报图的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711371745.9A CN107977645B (zh) 2017-12-19 2017-12-19 一种视频新闻海报图的生成方法及装置

Publications (2)

Publication Number Publication Date
CN107977645A CN107977645A (zh) 2018-05-01
CN107977645B true CN107977645B (zh) 2021-01-22

Family

ID=62006868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711371745.9A Active CN107977645B (zh) 2017-12-19 2017-12-19 一种视频新闻海报图的生成方法及装置

Country Status (1)

Country Link
CN (1) CN107977645B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108769731B (zh) * 2018-05-25 2021-09-24 北京奇艺世纪科技有限公司 一种检测视频中目标视频片段的方法、装置及电子设备
CN108881744A (zh) * 2018-07-31 2018-11-23 成都华栖云科技有限公司 一种视频新闻演播室自动识别方法
CN110069664B (zh) * 2019-04-24 2021-04-06 北京博视未来科技有限公司 动漫作品封面图提取方法及其系统
CN111090778B (zh) * 2019-12-26 2023-06-27 北京百度网讯科技有限公司 一种图片生成方法、装置、设备及存储介质
CN111275097B (zh) * 2020-01-17 2021-06-18 北京世纪好未来教育科技有限公司 视频处理方法及系统、图片处理方法及系统、设备、介质
CN112004164B (zh) * 2020-07-02 2023-02-21 中山大学 一种视频海报自动生成方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101102419B (zh) * 2007-07-10 2010-06-09 北京大学 一种定位视频字幕区域的方法
CN101315631B (zh) * 2008-06-25 2010-06-02 中国人民解放军国防科学技术大学 一种新闻视频故事单元关联方法
CN101790049A (zh) * 2010-02-25 2010-07-28 深圳市茁壮网络股份有限公司 一种新闻节目视频分段方法及系统
CN102331990B (zh) * 2010-12-22 2013-06-19 四川大学 一种基于字幕提取的新闻视频检索方法
CN105516802B (zh) * 2015-11-19 2018-10-23 上海交通大学 多特征融合的新闻视频摘要提取方法
CN107087211B (zh) * 2017-03-30 2020-12-11 北京奇艺世纪科技有限公司 一种主持人镜头检测方法及装置

Also Published As

Publication number Publication date
CN107977645A (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
CN107977645B (zh) 一种视频新闻海报图的生成方法及装置
CN108093314B (zh) 一种视频新闻拆分方法及装置
CN105046196B (zh) 基于级联卷积神经网络的前车车辆信息结构化输出方法
CN102332096B (zh) 一种视频字幕文本提取和识别的方法
CN106845513B (zh) 基于条件随机森林的人手检测器及方法
CN102750540A (zh) 基于形态滤波增强的最稳定极值区视频文本检测方法
MX2011002293A (es) Localizacion de texto para ocr de imagenes y video.
CN102426647A (zh) 一种台标识别的方法、装置
CN104123529A (zh) 人手检测方法及系统
CN110032932B (zh) 一种基于视频处理和决策树设定阈值的人体姿态识别方法
CN102880865A (zh) 基于肤色与形态特征的动态手势识别方法
EP2259207A1 (en) Method of detection and recognition of logos in a video data stream
CN109255326A (zh) 一种基于多维信息特征融合的交通场景烟雾智能检测方法
WO2017166597A1 (zh) 一种卡通视频识别方法、装置和电子设备
CN106570885A (zh) 基于亮度和纹理融合阈值的背景建模方法
CN103336961A (zh) 一种交互式的自然场景文本检测方法
CN108256508B (zh) 一种新闻主副标题检测方法及装置
CN105426816A (zh) 一种处理人脸图像的方法及装置
CN110334631B (zh) 一种基于人脸检测与二值运算的坐姿检测方法
CN108108733A (zh) 一种新闻字幕检测方法及装置
CN108446603B (zh) 一种新闻标题检测方法及装置
CN104866826A (zh) 一种基于knn和像素比梯度特征的静态手语识别方法
CN110659616A (zh) 一种从视频自动生成gif的方法
CN107798355A (zh) 一种基于文档图像版式自动分析与判断的方法
CN108229476B (zh) 标题区域检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant