CN117221646A - 一种新闻拆条方法、系统、电子设备和可读存储介质 - Google Patents

一种新闻拆条方法、系统、电子设备和可读存储介质 Download PDF

Info

Publication number
CN117221646A
CN117221646A CN202310911988.6A CN202310911988A CN117221646A CN 117221646 A CN117221646 A CN 117221646A CN 202310911988 A CN202310911988 A CN 202310911988A CN 117221646 A CN117221646 A CN 117221646A
Authority
CN
China
Prior art keywords
news
splitting
result
frame
splitting result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310911988.6A
Other languages
English (en)
Inventor
周凯文
胥杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202310911988.6A priority Critical patent/CN117221646A/zh
Publication of CN117221646A publication Critical patent/CN117221646A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

本申请提供一种新闻拆条方法、系统、电子设备和可读存储介质,该新闻拆条方法包括:获取待拆分的新闻视频中的图像信息、音频信息和各镜头切换帧节点;基于图像信息中各导播台画面拆分新闻视频,获得第一拆分结果;基于音频信息拆分新闻视频,获得第二拆分结果;第一拆分结果和第二拆分结果进行合并获得第三拆分结果;基于标题检测对第三拆分结果中的各新闻片段或各新闻片段帧号进行合并,获得第四拆分结果,其中,所有的拆分结果均包括多个新闻片段或多个新闻片段帧号。本申请通过获取待拆分的新闻视频中的不同信息进行拆分,实现自动化的拆分过程,降低人工成且提高了拆分效率,能够保证新闻视频拆分过程中的稳定性、正确性、效率及保真性。

Description

一种新闻拆条方法、系统、电子设备和可读存储介质
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种新闻拆条方法、系统、电子设备和可读存储介质。
背景技术
当前大多数采用文字识别+人工审核、人脸识别+人工审核或者端对端的视频理解技术方案对新闻视频进行拆分,但文字识别+人工审核和人脸识别+人工审核这种半人工半自动的方法导致新闻视频拆分的效率低下并且人工成本高,而端对端的视频理解技术方案并不成熟,存在许多未解决的难点,导致无法稳定的进行新闻视频的拆分。
发明内容
本申请实施例提供一种新闻拆条方法、系统、电子设备和可读存储介质,以解决现有的如何全自动高效率地拆分新闻视频的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种新闻拆条方法,包括:
获取待拆分的新闻视频中的图像信息、音频信息和各镜头切换帧节点;
基于所述图像信息中各导播台画面拆分所述新闻视频,获得第一拆分结果,其中,所述第一拆分结果包括多个新闻片段或多个新闻片段帧号;
基于所述音频信息拆分所述新闻视频,获得第二拆分结果,其中,所述第二拆分结果包括多个新闻片段或多个新闻片段帧号;
对所述第一拆分结果和所述第二拆分结果进行合并获得第三拆分结果,其中,所述第三拆分结果包括多个新闻片段或多个新闻片段帧号;
基于标题检测对第三拆分结果中的各新闻片段或各新闻片段帧号进行合并,获得第四拆分结果,其中,所述第四拆分结果包括多个新闻片段或多个新闻片段帧号。
可选的,所述获取待拆分的新闻视频中的图像信息包括:
对所述新闻视频进行抽帧,得到帧图片;
检测所述帧图片,获取图像信息。
可选的,所述基于所述图像信息中各导播台画面拆分所述新闻视频,获得第一拆分结果包括:
对所述各导播台画面进行人脸数量检测;
根据所述各导播台画面中的人脸数量确定导播台画面类型,其中所述导播台画面类型包括单人导播台画面;
删除所述新闻视频中指定导播台画面类型对应的导播台画面;
对所述新闻视频中单人导播台画面的帧图片进行聚合,将每段所述单人导播台画面的首帧号作为拆分帧号;
基于所述拆分帧号将新闻视频拆分成多个新闻片段或多个新闻片段帧号,获得第一拆分结果。
可选的,所述基于所述音频信息拆分所述新闻视频,获得第二拆分结果包括:
对所述音频信息中的人声音频信息进行检测,获取音频检测结果;
获取所述音频检测结果中语音时间间隔在预设时长内的帧节点位置;
基于所述帧节点位置将新闻视频拆分成多个新闻片段或多个新闻片段帧号,获得第二拆分结果。
可选的,所述对所述第一拆分结果和所述第二拆分结果进行合并获得第三拆分结果包括:
获取所述第一拆分结果中所述各新闻片段的第一首帧帧数;
获取所述第二拆分结果中所述各新闻片段的第二首帧帧数;
根据所述第一首帧帧数和所述第二首帧帧数的帧数差对所述第一拆分结果和所述第二拆分结果进行合并,获取第三拆分结果。
可选的,所述基于标题检测对第三拆分结果中的各新闻片段或各新闻片段帧号进行合并,获得第四拆分结果包括:
获取所述第三拆分结果中的多个新闻片段或各新闻片段帧号;
对所述待拆分的新闻视频中的图像信息,或,第三拆分结果中的图像信息进行标题检测获取所述各新闻片段的标题;
获取第三拆分结果中的各相邻新闻片段的标题之间的标题相似度;
当所述标题相似度满足预设条件时对所述各相邻新闻片段或新闻片段帧号进行合并,获取第四拆分结果。
可选的,还包括:
根据所述各镜头切换帧节点对第四拆分结果中的各新闻片段帧号进行调整获得第五拆分结果;
包括:
将所述各镜头切换帧节点与第四拆分结果中的各新闻片段的首帧帧数进行对比;
基于对比结果将第四拆分结果中的各新闻片段的首帧帧数替换为最接近的镜头切换帧号,生成第五拆分结果。
第二方面,本申请实施例提供了一种新闻拆条系统,包括:
数据模块,用于获取待拆分的新闻视频中的图像信息、音频信息和各镜头切换帧节点;
第一拆分模块,用于基于所述图像信息中各导播台画面拆分所述新闻视频,获得第一拆分结果,其中,所述第一拆分结果包括多个新闻片段或多个新闻片段帧号;
第二拆分模块,用于基于所述音频信息拆分所述新闻视频,获得第二拆分结果,其中,所述第二拆分结果包括多个新闻片段或多个新闻片段帧号;
第三拆分模块,用于对所述第一拆分结果和所述第二拆分结果进行合并获得第三拆分结果,其中,所述第三拆分结果包括多个新闻片段或多个新闻片段帧号;
第四拆分模块,用于基于标题检测对第三拆分结果中的各新闻片段或各新闻片段帧号进行合并,获得第四拆分结果,其中,所述第四拆分结果包括多个新闻片段或多个新闻片段帧号。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上述第一方面所述的新闻拆条方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的新闻拆条方法的步骤。
在本申请中,在获取待拆分的新闻视频中的图像信息、音频信息和各镜头切换帧节点的基础上;基于图像信息中各导播台画面拆分新闻视频,获得第一拆分结果;基于音频信息拆分新闻视频,获得第二拆分结果;通过将第一拆分结果和第二拆分结果进行合并获得第三拆分结果,能够提高拆分结果的准确率,进一步,通过标题检测对第三拆分结果中的各新闻片段或各新闻片段帧号进行合并,获得第四拆分结果,能过减少拆分过程中的误拆片段,自动化的拆分过程能够降低人工成且提高了拆分效率,能够保证新闻视频拆分过程中的稳定性、正确性、效率及保真性,并且,过程中所有的拆分结果均包括多个新闻片段或多个新闻片段帧号,拆分过程中以帧号为拆分结果,可以有效避免硬件资源和浪费,节省拆分时间,并且最后输出的视频片段的画质、音质和码率都能提高保真效果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本申请实施例提供的一种新闻拆条方法的流程图;
图2是本申请实施例提供的一种新闻拆条方法的总体流程图;
图3是本申请实施例提供的一种新闻拆条系统的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1和图2,本申请实施例提供了一种新闻拆条方法,包括:
步骤11:获取待拆分的新闻视频中的图像信息、音频信息和各镜头切换帧节点;
步骤12:基于所述图像信息中各导播台画面拆分所述新闻视频,获得第一拆分结果,其中,所述第一拆分结果包括多个新闻片段或多个新闻片段帧号;
步骤13:基于所述音频信息拆分所述新闻视频,获得第二拆分结果,其中,所述第二拆分结果包括多个新闻片段或多个新闻片段帧号;
步骤14:对所述第一拆分结果和所述第二拆分结果进行合并获得第三拆分结果,其中,所述第三拆分结果包括多个新闻片段或多个新闻片段帧号;
步骤15:基于标题检测对第三拆分结果中的各新闻片段或各新闻片段帧号进行合并,获得第四拆分结果,其中,所述第四拆分结果包括多个新闻片段或多个新闻片段帧号。
在本申请实施例中,在输出最终结果前,均可以记录新闻片段帧号的方式记录新闻视频的拆分和合并结果。举例来说,可以以list序列的形式记录视频每个片段的起始和截止帧号。通过记录帧号的方式避免直接将视频进行物理拆分,这样可以有效避免硬件资源和浪费,节省拆分时间,并且最后输出的视频片段的画质、音质和码率都能提高保真效果。
在本申请中,在获取待拆分的新闻视频中的图像信息、音频信息和各镜头切换帧节点的基础上;基于图像信息中各导播台画面拆分新闻视频,获得第一拆分结果;基于音频信息拆分新闻视频,获得第二拆分结果;通过将第一拆分结果和第二拆分结果进行合并获得第三拆分结果,能够提高拆分结果的准确率,进一步,通过标题检测对第三拆分结果中的各新闻片段或各新闻片段帧号进行合并,获得第四拆分结果,能过减少拆分过程中的误拆片段,自动化的拆分过程能够降低人工成且提高了拆分效率,能够保证新闻视频拆分过程中的稳定性、正确性、效率及保真性,并且,过程中所有的拆分结果均包括多个新闻片段或多个新闻片段帧号,拆分过程中以帧号为拆分结果,可以有效避免硬件资源和浪费,节省拆分时间,并且最后输出的视频片段的画质、音质和码率都能提高保真效果。
请参考图2,本申请实施例中,可选的,所述获取待拆分的新闻视频中的图像信息包括:
对所述新闻视频进行抽帧,得到帧图片;
检测所述帧图片,获取图像信息。
在本申请实施例中,由于正常视频1秒钟有25-30帧,如果每帧图片都检测,不仅耗时长,而且会产生大量的冗余。故本申请实施例在抽帧前设置1秒钟只抽取1帧,通过减少抽取帧图片的数量,一方面减少抽取时间,另一方面还能减少检测时间。
同时考虑到内存占用问题,本申请实施例还可以设置一个临时文件夹,将抽取的帧图片进行落盘保存在硬盘上,以帧号进行命名,从而能够节省硬件资源的内存消耗。
进一步的,在本申请实施例中,从获取的图像信息中挑选出导播台画面,本申请实施例中导播台画面包含两种情况,一是主持人坐在演播厅进行播报的画面,举例来说,两个主持人或单个主持人坐在演播厅进行播报。二是转场画面,举例来说,不包含主持人的转场等。转场画面是一类需要剔除掉的画面。但为了提高AI模型检测效率,节省总体拆分时间,因此将此类画面归入导播台画面中,一起识别出来,在后续步骤中再区分使用。
在本申请实施例中,使用一个基于resnet50的二分类AI模型,检测所有抽帧得到的图片,并记录下属于导播台画面的图片帧号。
请参考图2,本申请实施例中,可选的,所述基于所述图像信息中各导播台画面拆分所述新闻视频,获得第一拆分结果包括:
对所述各导播台画面进行人脸数量检测;
根据所述各导播台画面中的人脸数量确定导播台画面类型,其中所述导播台画面类型包括单人导播台画面;
删除所述新闻视频中指定导播台画面类型对应的导播台画面;
对所述新闻视频中单人导播台画面的帧图片进行聚合,将每段所述单人导播台画面的首帧号作为拆分帧号;
基于所述拆分帧号将新闻视频拆分成多个新闻片段或多个新闻片段帧号,获得第一拆分结果。
在本申请实施例中,可以将导播台画面中的人脸数量分为0、1和2三种情况,这三种人脸数量可以用于确认导播台画面类型。具体来说:当人脸数量为0时,表示该画面为不包含主持人的转场;当人脸数量为1时,表示为单人导播台画面;当人脸数量为2时,表示为双人导播台画面。
在本申请实施例中,可以使用retinaface模型来进行人脸检测,对获得的导播台画面进行检测,检测出导播台画面中人脸数量,
根据这三种人脸数量的帧图片,可以完成片头、开场语、转场、结束语和片尾等的过滤,具体过滤策略如下:
过滤1:片头、开场语:这2类片段出现在第一次双人导播台画面之前,即,第一次出现双人导播台的连续画面的最后一帧之前包含了所有的片头和开场语。
过滤2:转场:所有导播台画面中人脸数量为0均为转场画面。
过滤3:结束语、片尾:这2类片段出现在最后一次双人导播台画面之后,同理,最后一次出现双人导播台的连续画面的第一帧之后包含了所有的结束语和片尾。
根据上述3条策略,本申请实施例可以定位到新闻视频中的片头、开场语、转场、结束语和片尾这几类不属于新闻片段的部分。
以新闻节目为参考,大部分情况下每一个单人导播台画面的出现,都对应着一条新的新闻片段内容的开始,在本申请实施例中,还可以根据单人导播台画面对新闻视频进行第一次粗略拆分,具体来说:
步骤21:对获取的帧图片进行逐帧检查,删除指定导播台画面类型对应的导播台画面,其中,本申请实施例中指定导播台画面类型为上述步骤中定位到的新闻视频中的片头、开场语、转场、结束语和片尾这几类不属于新闻片段的导播台画面类型。
步骤22:对新闻视频中单人导播台画面的帧图片进行聚合,将每段单人导播台画面的首帧号作为拆分帧号。举例来说,若100帧-200帧为单人导播台画面,则将100帧-200帧的帧图片聚合起来,构成帧图片集合,100帧则为拆分帧号。
步骤23:基于拆分帧号将新闻视频拆分成多个新闻片段或多个新闻片段帧号,获得第一拆分结果。
本申请实施例根据规律选择导播台画面中人脸数量作为过滤和拆分的依据,过滤掉不属于新闻片段指定导播台画面类型,并且以单人导播台画面为第一次拆分的依据将新闻视频进行第一次粗略拆分,得到第一拆分结果。
本申请实施例中的拆分,可以以list序列的形式记录视频每个片段的起始和截止帧号,即第一拆分结果为多个新闻片段帧号,而非直接将视频进行物理拆分。举例来说,对所有帧图片进行检测,若100帧-200帧和300帧-500帧的帧图片为单人导播台画面,则将100帧-200帧的帧图片聚合起来,300帧-500帧的帧图片聚合起来,第100帧和第300帧为两段单人导播台画面的首帧号,即为拆分帧号,记录第100帧的帧号和第300帧的帧号作为第一拆分结果。
请参考图2,本申请实施例中,可选的,所述基于所述音频信息拆分所述新闻视频,获得第二拆分结果包括:
对所述音频信息中的人声音频信息进行检测,获取音频检测结果;
获取所述音频检测结果中语音时间间隔在预设时长内的帧节点位置;
基于所述帧节点位置将新闻视频拆分成多个新闻片段或多个新闻片段帧号,获得第二拆分结果。
本申请实施例中基于音频信息获得第二拆分结果的过程与基于图像信息获得第一拆分结果的过程可以并行处理,增加拆分新闻视频的处理效率。
以新闻节目为参考,不同新闻片段之间,会有一个较长的语音间隔,值得注意的是,这里的语音间隔仅指播音员说话的语音间隔,这个间隔时间大概在2秒左右。在本申请实施例中,根据语音间隔对新闻视频进行第二次拆分,具体来说:
步骤3A:将新闻中的音频提取出来。
步骤3B:使用语音活动检测(Voice Activity Detection,VAD)算法对音频进行检测,筛选出人声音频信息。通过VAD算法可以只检测人说话的声音,排除掉背景杂音的干扰。
步骤3C:对VAD检测得到的人声音频信息进行筛选,挑选出人声音频信息中语音时间间隔在预设时长内的帧节点位置,在本申请实施例中预设时长可以为1.6s。
步骤3D:根据步骤3C中得到的帧节点位置,对新闻视频进行拆分得到第二拆分结果;或将步骤3C中得到的帧节点位置作为第二拆分结果。
请参考图2,本申请实施例中,可选的,所述对所述第一拆分结果和所述第二拆分结果进行合并获得第三拆分结果包括:
获取所述第一拆分结果中所述各新闻片段的第一首帧帧数;
获取所述第二拆分结果中所述各新闻片段的第二首帧帧数;
根据所述第一首帧帧数和所述第二首帧帧数的帧数差对所述第一拆分结果和所述第二拆分结果进行合并,获取第三拆分结果。
本申请实施例中,第一拆分结果是基于图像信息的拆分,第二拆分结果是基于音频信息的拆分,将第一拆分结果和第二拆分结果进行合并,获取第三拆分结果,而本申请实施例中的合并是指对同一新闻视频的两种拆分结果进行合并,区别于现有技术中对同一拆分结果的各个视频片段进行合并,通过本申请实施例的合并,能够进一步优化拆分结果,通过两种拆分结果的比对合并,进一步提高新闻视频拆分的正确率。
值得说明的是,由于第一拆分结果基于的图像信息是一秒钟一帧,而第二拆分结果基于的音频信息则在一秒钟内存在多帧,故存在某些新闻片段的第一拆分结果的拆分点和第二拆分的拆分点实际是同一个拆分点,但由于每一秒含有的信息量不同,故记录的帧号可能不同。为解决此类问题,本申请实施例将第一拆分结果和第二拆分结果的拆分点帧数相差一定值以内的拆分结果进行合并,拆分点帧数相差值可以为30,具体合并时,以拆分1的拆分帧为准。
基于上述实施例的第三拆分结果,可以保证所有的新闻片段一定被拆开,但是可能存在“误拆”的情况,具体如下:
1、第二拆分结果中包含非播报员说话的场景下的拆分片段,例如采访、会议演讲等场景,由于受访人或是演讲人员的语速不可控,存在由于停顿间隔时间较长而导致误拆。
2、第二拆分结果中存在包含导播台片段+新闻片段情况下的拆分片段,例如,播报员首先播报了新闻主题,紧接着播报了该新闻主题的新闻内容,这种情况下,也可能会因为衔接处有较长的语音停顿而导致误拆。
3、第二拆分结果中存在包含新闻片段+导播台片段情况下的拆分片段,例如,前面一段为新闻内容,而后接着一段导播台画面,其中导播台画面中有播报员的总结、评价之类的内容,这种情况下,也可能会导致误拆。
为了解决上述问题,本申请实施例对画面文字进行进一步检测,来对第三拆分结果进行合并修复。但是由于画面文字可能有很多干扰,比如背景画面的文字、字幕的文字以及台标和图标里的文字,这些文字都可能对文字识别造成干扰。因此本申请实施例只对新闻标题的文字进行检测。具体过程如下:
请参考图2,本申请实施例中,可选的,所述基于标题检测对第三拆分结果中的各新闻片段或各新闻片段帧号进行合并,获得第四拆分结果包括:
获取所述第三拆分结果中的多个新闻片段或各新闻片段帧号;
对所述待拆分的新闻视频中的图像信息,或,第三拆分结果中的图像信息进行标题检测获取所述各新闻片段的标题;
获取第三拆分结果中的各相邻新闻片段的标题之间的标题相似度;
当所述标题相似度满足预设条件时对所述各相邻新闻片段或新闻片段帧号进行合并,获取第四拆分结果。
本申请实施例,选择标题检测作为进一步合并的相邻新闻片段和新闻片段帧号的依据,一方面实现性较强,一方面能够进一步提高拆分结果的可靠性。当然,标题检测也可以通过并行处理的方式提高处理过程中的效率,即对待拆分的新闻视频中的图像信息进行标题检测获取所述各新闻片段的标题,再将标题检测结果与第三拆分结果中的图像进行比对,通过标题相似度检测获取第四拆分结果。具体来说:
步骤41:对第三拆分结果中的每一个新闻片段图像进行标题检测,或,对待拆分的新闻视频中的图像信息的图像均进行标题检测。本申请实施例中使用依然使用一个基于resnet50的分类AI模型,将抽帧图片分为“有标题”和“无标题”两类。
步骤42:将图像的指定区域进行裁剪,作为新闻标题的文字识别区域。由于新闻标题都是在画面底部,故为了排除其他文字干扰,本申请实施例通过直接裁剪画面中固定区域内画面内容,作为新闻标题的文字识别区域。在本申请实施例中,这个固定区域为[0.75*h~0.94*h,0.17*w~w]的矩形区域,其中h是画面高度,w是画面宽度,裁剪出图像中此固定区域的图像,作为文本识别的输入图像。
步骤43:对步骤42中得到的图像进行文字识别。在第三拆分结果的基础上,使用OCR模型对被拆分过的每一个片段的图像进行文字识别。本申请实施例中,为了节省时间成本,每一个片段中第一次识别到置信度高于0.7的文字内容,就作为该段片段的“标题信息”。
步骤44:对相邻的拆分片段进行“标题信息”相似度匹配。实践发现,光学字符识别(Optical Character Recognition,OCR)可能会有误识别,导致标题文字的识别不完全正确,因此相似度匹配不能直接使用文字对照的方式来强行匹配。所以本申请实施例还可以使用一个text2vec的Similarity模型来计算相邻片段标题的相似度。
步骤45:当标题相似度满足预设条件时对各相邻新闻片段或新闻片段帧号进行合并,获取第四拆分结果。在本申请实施例中,可以为,如果相邻片段标题的相似度大于0.6,则认为相邻的两个片段属于同一段新闻片段,可以合并;反之,则不合并。
经过上述步骤后,关于新闻片段的拆分就已完成,通过合并两个并行处理得到的第一拆分结果和第二拆分结果,获得第三拆分结果,针对第三拆分结果进行标题检测或将第三拆分结果与标题检测结果相结合,将符合条件的相邻新闻片段或新闻片段帧号进行合并,能够进一步完善拆分结果,增强拆分结果的保真性。
进一步的,在经过拆分后,由于图像方面是在每秒1帧的基础上进行拆分的,音频方面由于声音存在停顿,与图像转场的时刻并不重合,故第二拆分结果和第一拆分结果的拆分节点会出现不一致,导致拆分点会有秒级的误差。针对此问题,本申请实施例进一步对拆分后的新闻片段进行调整,具体来说:
请参考图2,本申请实施例中,可选的,还包括:
根据所述各镜头切换帧节点对第四拆分结果中的各新闻片段帧号进行调整获得第五拆分结果;
包括:
将所述各镜头切换帧节点与第四拆分结果中的各新闻片段的首帧帧数进行对比;
基于对比结果将第四拆分结果中的各新闻片段的首帧帧数替换为最接近的镜头切换帧号,生成第五拆分结果。
在本申请实施例中,可以采用镜头拆分检测(Shot Boundary Detection,SBD)算法,对原视频的所有图像进行检测,来对拆分节点进行微调,值得说明的是在本申请实施例中不是抽帧后的帧图像进行检测,而是基于原视频对原视频的所有图像进行检测。具体过程如下:
步骤51:使用SBD算法,通过时间序列度量距离和镜头切换对原视频的所有图像逐帧进行处理,找到视频中所有镜头切换帧节点。请参考图2,由于此过程比较耗时,且与之前拆分视频的过程没有联系,因此本申请实施例的图像检测过程可以在开始前与其他的拆分过程并行处理。
步骤52:将第四拆分结果中记录的帧号与上述步骤51中的检测结果进行对比。
步骤53:把每一个拆分帧号替换为与其最近的步骤51中处理后的镜头切换帧节点。
通过上述步骤51-53,可以保证所有的拆分节点都是精确到帧的画面切换点,即精确到帧级别的新闻片段拆分节点,基于此,生成第五拆分结果。
在本申请实施例中,并没有对新闻视频进行进一步拆分,而是通过逐帧比对,将新闻视频拆分的节点精确到帧级别,能够使得新闻视频的拆分结果更加流畅,且拆分结果的稳定性更高。
在本申请实施例中,上述各实施例中获得的拆分结果,均可以以list形式保存的拆分帧号,最终的拆分以保存的拆分帧号进行拆分。因此,在本申请实施例中,将每一个新闻片段的起始和截止帧号,对应原视频的每秒传输帧数(Frames Per Second,fps),将帧号换算成具体的拆分时间,本申请实施例中拆分时间可以精确到小数点后3位。
最后,可以根据上述拆分时间,使用视频处理工具将新闻片段,将新闻片段拆分出来,并且输出拆分后的各新闻片段,实现全自动的新闻拆条。本申请实施例中,可以使用多媒体视频处理工具(Fast Forward Mpeg,ffmpeg)进行拆分。
当然,上述各实施例中获得的拆分也可以直接以新闻片段的形式处理和保存。
本申请通过对待拆分视频的并行拆分处理、合并处理、合并以及精确帧号等处理,最后输出拆分后的各新闻片段。能够实现输出结果的稳定性、正确性、准确性和保真性的效果,并且提高处理过程的效率,具体来说:
输出结果的稳定性:本申请是基于规则的拆分,因此输出结果会比较稳定,不会出现“视频理解”类AI模型的不确定性。输出结果的正确性:本申请的部分处理依据自研AI模型(resnet50模型),并且拆分过程基于经验分析,且对可能出现的误拆进行的进一步处理,使得新闻视频自动拆分结果的正确率得到极大提升。目前本申请的拆分结果在新闻节目拆条任务中,拆条正确率能够达到96.7%。输出结果的准确性:本申请拆分的新闻片段,拆分时间节点能够精确帧,因此能够保证每一个片段的准确度达到毫秒级别,拆分的准确性大大提高。提高处理过程的效率高:本申请将互不干扰的多个操作进行了归并和并行处理,因此效率得到极大提高,在实际处理过程中,本申请处理一段30分钟的新闻视频,仅需要6分钟就可以完成全自动新闻拆条。输出结果的保真性:本申请在拆条过程中,可以通过记录帧号来仅对list中间结果进行处理,最终只需要对原视频进行一次拆分,而不是在拆条过程中对原视频进行多次操作,因此对视频的画面、音质、码率等有极高的保真效果。
请参考图3,本申请还提供一种新闻拆条系统30,其特征在于,包括:
数据模块31,用于获取待拆分的新闻视频中的图像信息、音频信息和各镜头切换帧节点;
第一拆分模块32,用于基于所述图像信息中各导播台画面拆分所述新闻视频,获得第一拆分结果,其中,所述第一拆分结果包括多个新闻片段或多个新闻片段帧号;
第二拆分模块33,用于基于所述音频信息拆分所述新闻视频,获得第二拆分结果,其中,所述第二拆分结果包括多个新闻片段或多个新闻片段帧号;
第三拆分模块34,用于对所述第一拆分结果和所述第二拆分结果进行合并获得第三拆分结果,其中,所述第三拆分结果包括多个新闻片段或多个新闻片段帧号;
第四拆分模块35,用于基于标题检测对第三拆分结果中的各新闻片段或各新闻片段帧号进行合并,获得第四拆分结果,其中,所述第四拆分结果包括多个新闻片段或多个新闻片段帧号。
可选的,数据模块31包括:
图像模块,用于对所述新闻视频进行抽帧,得到帧图片;
检测所述帧图片,获取图像信息。
可选的,第一拆分模块32包括:
第一拆分子模块,用于对所述各导播台画面进行人脸数量检测;
根据所述各导播台画面中的人脸数量确定导播台画面类型,其中所述导播台画面类型包括单人导播台画面;
删除所述新闻视频中指定导播台画面类型对应的导播台画面;
对所述新闻视频中单人导播台画面的帧图片进行聚合,将每段所述单人导播台画面的首帧号作为拆分帧号;
基于所述拆分帧号将新闻视频拆分成多个新闻片段或多个新闻片段帧号,获得第一拆分结果。
可选的,第二拆分模块33包括:
第二拆分子模块,用于包括对所述音频信息中的人声音频信息进行检测,获取音频检测结果;
获取所述音频检测结果中语音时间间隔在预设时长内的帧节点位置;
基于所述帧节点位置将新闻视频拆分成多个新闻片段或多个新闻片段帧号,获得第二拆分结果。
可选的,第三拆分模块34包括:
第三拆分子模块,用于获取所述第一拆分结果中所述各新闻片段的第一首帧帧数;
获取所述第二拆分结果中所述各新闻片段的第二首帧帧数;
根据所述第一首帧帧数和所述第二首帧帧数的帧数差对所述第一拆分结果和所述第二拆分结果进行合并,获取第三拆分结果。
可选的,第四拆分模块35包括:
第四拆分子模块,用于获取所述第三拆分结果中的多个新闻片段或各新闻片段帧号;
对所述待拆分的新闻视频中的图像信息,或,第三拆分结果中的图像信息进行标题检测获取所述各新闻片段的标题;
获取第三拆分结果中的各相邻新闻片段的标题之间的标题相似度;
当所述标题相似度满足预设条件时对所述各相邻新闻片段或新闻片段帧号进行合并,获取第四拆分结果。
可选的,新闻拆条系统30包括:
第五拆分模块,用于根据所述各镜头切换帧节点对第四拆分结果中的各新闻片段帧号进行调整获得第五拆分结果;
包括:
将所述各镜头切换帧节点与第四拆分结果中的各新闻片段的首帧帧数进行对比;
基于对比结果将第四拆分结果中的各新闻片段的首帧帧数替换为最接近的镜头切换帧号,生成第五拆分结果。
本申请实施例提供的新闻拆条系统30能够实现图1至图2的方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例提供了一种电子设备60,参见图4所示,图4为本申请实施例电子设备60的原理框图,包括处理器61,存储器62及存储在存储器62上并可在处理器61上运行的程序或指令,程序或指令被处理器执行时实现本申请的任一项新闻拆条方法中的步骤。
本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如上述任一项的新闻拆条方法的实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台服务分类设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种新闻拆条方法,其特征在于,包括:
获取待拆分的新闻视频中的图像信息、音频信息和各镜头切换帧节点;
基于所述图像信息中各导播台画面拆分所述新闻视频,获得第一拆分结果,其中,所述第一拆分结果包括多个新闻片段或多个新闻片段帧号;
基于所述音频信息拆分所述新闻视频,获得第二拆分结果,其中,所述第二拆分结果包括多个新闻片段或多个新闻片段帧号;
对所述第一拆分结果和所述第二拆分结果进行合并获得第三拆分结果,其中,所述第三拆分结果包括多个新闻片段或多个新闻片段帧号;
基于标题检测对第三拆分结果中的各新闻片段或各新闻片段帧号进行合并,获得第四拆分结果,其中,所述第四拆分结果包括多个新闻片段或多个新闻片段帧号。
2.根据权利要求1所述的方法,其特征在于,所述获取待拆分的新闻视频中的图像信息包括:
对所述新闻视频进行抽帧,得到帧图片;
检测所述帧图片,获取图像信息。
3.根据权利要求1所述的方法,其特征在于,所述基于所述图像信息中各导播台画面拆分所述新闻视频,获得第一拆分结果包括:
对所述各导播台画面进行人脸数量检测;
根据所述各导播台画面中的人脸数量确定导播台画面类型,其中所述导播台画面类型包括单人导播台画面;
删除所述新闻视频中指定导播台画面类型对应的导播台画面;
对所述新闻视频中单人导播台画面的帧图片进行聚合,将每段所述单人导播台画面的首帧号作为拆分帧号;
基于所述拆分帧号将新闻视频拆分成多个新闻片段或多个新闻片段帧号,获得第一拆分结果。
4.根据权利要求1所述的方法,其特征在于,所述基于所述音频信息拆分所述新闻视频,获得第二拆分结果包括:
对所述音频信息中的人声音频信息进行检测,获取音频检测结果;
获取所述音频检测结果中语音时间间隔在预设时长内的帧节点位置;
基于所述帧节点位置将新闻视频拆分成多个新闻片段或多个新闻片段帧号,获得第二拆分结果。
5.根据权利要求1所述的方法,其特征在于,所述对所述第一拆分结果和所述第二拆分结果进行合并获得第三拆分结果包括:
获取所述第一拆分结果中所述各新闻片段的第一首帧帧数;
获取所述第二拆分结果中所述各新闻片段的第二首帧帧数;
根据所述第一首帧帧数和所述第二首帧帧数的帧数差对所述第一拆分结果和所述第二拆分结果进行合并,获取第三拆分结果。
6.根据权利要求1所述的方法,其特征在于,所述基于标题检测对第三拆分结果中的各新闻片段或各新闻片段帧号进行合并,获得第四拆分结果包括:
获取所述第三拆分结果中的多个新闻片段或各新闻片段帧号;
对所述待拆分的新闻视频中的图像信息,或,第三拆分结果中的图像信息进行标题检测获取所述各新闻片段的标题;
获取第三拆分结果中的各相邻新闻片段的标题之间的标题相似度;
当所述标题相似度满足预设条件时对所述各相邻新闻片段或新闻片段帧号进行合并,获取第四拆分结果。
7.根据权利要求1所述的方法,其特征在于,还包括:
根据所述各镜头切换帧节点对第四拆分结果中的各新闻片段帧号进行调整获得第五拆分结果;
包括:
将所述各镜头切换帧节点与第四拆分结果中的各新闻片段的首帧帧数进行对比;
基于对比结果将第四拆分结果中的各新闻片段的首帧帧数替换为最接近的镜头切换帧号,生成第五拆分结果。
8.一种新闻拆条系统,其特征在于,包括:
数据模块,用于获取待拆分的新闻视频中的图像信息、音频信息和各镜头切换帧节点;
第一拆分模块,用于基于所述图像信息中各导播台画面拆分所述新闻视频,获得第一拆分结果,其中,所述第一拆分结果包括多个新闻片段或多个新闻片段帧号;
第二拆分模块,用于基于所述音频信息拆分所述新闻视频,获得第二拆分结果,其中,所述第二拆分结果包括多个新闻片段或多个新闻片段帧号;
第三拆分模块,用于对所述第一拆分结果和所述第二拆分结果进行合并获得第三拆分结果,其中,所述第三拆分结果包括多个新闻片段或多个新闻片段帧号;
第四拆分模块,用于基于标题检测对第三拆分结果中的各新闻片段或各新闻片段帧号进行合并,获得第四拆分结果,其中,所述第四拆分结果包括多个新闻片段或多个新闻片段帧号。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的新闻拆条方法的步骤。
10.一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的新闻拆条方法的步骤。
CN202310911988.6A 2023-07-24 2023-07-24 一种新闻拆条方法、系统、电子设备和可读存储介质 Pending CN117221646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310911988.6A CN117221646A (zh) 2023-07-24 2023-07-24 一种新闻拆条方法、系统、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310911988.6A CN117221646A (zh) 2023-07-24 2023-07-24 一种新闻拆条方法、系统、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN117221646A true CN117221646A (zh) 2023-12-12

Family

ID=89041391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310911988.6A Pending CN117221646A (zh) 2023-07-24 2023-07-24 一种新闻拆条方法、系统、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN117221646A (zh)

Similar Documents

Publication Publication Date Title
CN111460219B (zh) 视频处理方法及装置、短视频平台
CN109889882B (zh) 一种视频剪辑合成方法和系统
CA2924065C (en) Content based video content segmentation
KR100707189B1 (ko) 동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체
US8855796B2 (en) Method and device for detecting music segment, and method and device for recording data
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
US7336890B2 (en) Automatic detection and segmentation of music videos in an audio/video stream
US7555149B2 (en) Method and system for segmenting videos using face detection
US20030123850A1 (en) Intelligent news video browsing system and method thereof
US8682132B2 (en) Method and device for detecting music segment, and method and device for recording data
US8515258B2 (en) Device and method for automatically recreating a content preserving and compression efficient lecture video
JP4332700B2 (ja) マルチメディアの手掛かりを利用したテレビ番組をセグメント化及びインデクス化する方法及び装置
KR20060116335A (ko) 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체
WO2007004110A2 (en) System and method for the alignment of intrinsic and extrinsic audio-visual information
US11621792B2 (en) Real-time automated classification system
WO2019128724A1 (zh) 数据处理方法及装置
CN113225618A (zh) 一种视频剪辑方法及装置
CN114339451A (zh) 视频剪辑方法、装置、计算设备及存储介质
CN112749299A (zh) 确定视频类型的方法、装置、电子设备及可读存储介质
JP5257356B2 (ja) コンテンツ分割位置判定装置、コンテンツ視聴制御装置及びプログラム
CN117221646A (zh) 一种新闻拆条方法、系统、电子设备和可读存储介质
US20140307968A1 (en) Method and apparatus for automatic genre identification and classification
JP4840325B2 (ja) 映像音声記録装置
KR101783872B1 (ko) 동영상 검색 시스템 및 방법
US10178415B2 (en) Chapter detection in multimedia streams via alignment of multiple airings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination