CN113343986A - 字幕时间区间确定方法、装置、电子设备及可读存储介质 - Google Patents

字幕时间区间确定方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113343986A
CN113343986A CN202110732697.1A CN202110732697A CN113343986A CN 113343986 A CN113343986 A CN 113343986A CN 202110732697 A CN202110732697 A CN 202110732697A CN 113343986 A CN113343986 A CN 113343986A
Authority
CN
China
Prior art keywords
image frame
frame
caption
subtitle
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110732697.1A
Other languages
English (en)
Other versions
CN113343986B (zh
Inventor
李冠楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202110732697.1A priority Critical patent/CN113343986B/zh
Publication of CN113343986A publication Critical patent/CN113343986A/zh
Application granted granted Critical
Publication of CN113343986B publication Critical patent/CN113343986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Abstract

本发明实施例提供了一种字幕时间区间确定方法、装置、电子设备及可读存储介质,方法包括:从目标视频中确定参考帧;根据参考帧的第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定参考帧对应的第一字幕的起始图像帧和/或根据第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定参考帧对应的第一字幕的结束图像帧,根据起始图像帧对应的时间点、参考帧对应的时间点、以及结束图像帧对应的时间点中的任意两项,确定参考帧对应的第一字幕的时间区间。从而能够确定出字符区域在视频中出现的开始时间和结束时间,提高了字幕的时间点位的准确性。

Description

字幕时间区间确定方法、装置、电子设备及可读存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种字幕时间区间确定方法、装置、电子设备及可读存储介质。
背景技术
视频图像上的字符作为一种高级语义特征,对于理解视频内容、对视频的字幕进行翻译等具有重要作用。
目前对视频图像进行抽取关键帧,并基于深度学习的文字识别技术识别关键帧中的字符区域,并将关键帧对应的时间点作为字符区域对应的时间点,该时间点是秒级的,也即只能确定字符区域对应的秒级时间点,但是无法确定字符区域在视频中出现的开始时间和结束时间,导致识别到的字符区域的字幕的时间点位准确性较低。因此,如何确定字符区域在视频中出现的开始时间和结束时间,提高字幕的时间点位的准确性成为亟待解决问题。
发明内容
本发明实施例的目的在于提供一种字幕时间区间确定方法、装置、电子设备及可读存储介质,以解决目前识别到的字幕的时间点位准确性较低的问题。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种字幕时间区间确定方法,包括:
从目标视频中确定参考帧;
从所述目标视频中确定位于参考帧之前的第一图像帧和/或位于所述参考帧之后的第二图像帧;
根据所述参考帧的第一字符区域边缘与所述第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定所述参考帧对应的第一字幕的起始图像帧;和/或,根据所述第一字符区域边缘与所述第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定所述参考帧对应的第一字幕的结束图像帧;
根据所述起始图像帧对应的时间点、所述参考帧对应的时间点、以及所述结束图像帧对应的时间点中的任意两项,确定所述参考帧对应的第一字幕的时间区间。
在本发明实施的第二方面,还提供了一种字幕时间区间确定装置,包括:
第一确定模块,用于从目标视频中确定参考帧;
第二确定模块,用于从所述目标视频中确定位于参考帧之前的第一图像帧和/或位于所述参考帧之后的第二图像帧;
第三确定模块,用于根据所述参考帧的第一字符区域边缘与所述第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定所述参考帧对应的第一字幕的起始图像帧;和/或,根据所述第一字符区域边缘与所述第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定所述参考帧对应的第一字幕的结束图像帧;
第四确定模块,用于根据所述起始图像帧对应的时间点、所述参考帧对应的时间点、以及所述结束图像帧对应的时间点中的任意两项,确定所述参考帧对应的第一字幕的时间区间。
在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述所述的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述的方法。
本实施例提供的字幕的时间区间确定方法,通过从目标视频中确定参考帧,根据参考帧的第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定参考帧对应的第一字幕的起始图像帧和/或根据第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定参考帧对应的第一字幕的结束图像帧,根据起始图像帧对应的时间点、参考帧对应的时间点、以及结束图像帧对应的时间点中的任意两项,确定参考帧对应的第一字幕的时间区间。从而能够确定出字符区域在视频中出现的开始时间和结束时间,提高了字幕的时间点位的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中提供的一种字幕时间区间确定方法的步骤流程图;
图2是本发明实施例提供的一种起始图像帧确定方法的步骤流程图;
图3是本发明实施例提供的一种结束图像帧确定方法的步骤流程图;
图4为本发明实施例中提供的另一种字幕时间区间确定方法的步骤流程图;
图5为本发明实施例提供的一种字幕时间区间确定装置的结构示意图;
图6为本发明实施例中提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
现有技术中采用文字识别技术识别目标视频的关键帧的字符区域、文字内容。字符区域指字符的笔画区域。目标视频的帧率例如为10,即1秒可以显示10帧图像。若时间点与帧率的乘积为关键帧的帧序号,则第1秒对应的关键帧为第10帧,第2秒对应的关键帧为第20帧以此类推。例如识别第10帧图像帧的字符区域和文字内容,以得到第10帧图像帧对应的字幕1,字幕1对应的时间点1为第1秒。同样识别第20帧图像帧的字符区域和文字内容,以得到第20帧图像帧对应的字幕2,字幕2对应的时间点2为第2秒。依次类推,可以得到目标视频的每帧关键帧的字幕对应的时间点,且该时间点为秒级时间点,也即只能确定在该时间点对应的字幕的文字内容,但是并不能确定在哪个时刻开始出现该文字内容,且在哪个时刻结束该文字内容。
本发明实施例中通过确定字幕对应的起始时间点和结束时间点,提高了字幕对应的时间点位的准确性,实现基于原来的字幕与秒级之间的对应关系,确定字幕与毫秒级的时间点位信息之间的对应关系,从而提高字幕对应的时间点位的准确性。
参照图1,图1为本发明实施例中提供的一种字幕时间区间确定方法的步骤流程图。该方法可由计算机、服务器等设备执行。该方法可以包括如下步骤:
步骤101、从目标视频中确定参考帧。
其中,可以将目标视频中的任意帧作为参考帧,也可以将目标视频的关键帧作为参考帧。
本实施例中,在已知目标视频的所有字幕、以及字幕对应的秒级时间点,但是不确定秒级时间点所对应的关键帧的情况下,可以根据目标视频的帧率信息,确定字幕对应的秒级时间点与关键帧的映射关系,也即确定字幕对应的秒级时间点与关键帧标识的映射关系,关键帧标识可以为关键帧的帧号。例如可以确定时间点1与目标视频的第10帧图像帧对应,第10帧图像帧的帧号为10;确定时间点2与目标视频的第20帧图像帧对应,第20帧图像帧的帧号为20,同样,可以确定出每个字幕对应的图像帧。其中,确定的图像帧为目标视频的关键帧,且图像帧的帧号为关键帧的关键帧标识,可将确定的关键帧作为参考帧。
本发明实施例中,为了加速确定出每个参考帧的字幕对应的毫秒级的时间点位信息,可以将目标视频的所有字幕分为多个字幕集合,同时确定每个字幕集合中的一个字幕对应的时间区间。例如目标视频共有100个字幕,第1秒对应的字幕为第1个字幕,可以将第1个字幕至第25个字幕作为字幕集合1,将第26个字幕至第50个字幕作为字幕集合2,将第51个字幕至第75个字幕作为字幕集合3,将第76个字幕至第100个字幕作为字幕集合4,从该4个字幕集合中各取出一个字幕,从而可以同时确定4个字幕对应的时间区间。
例如,若共有4个字幕集合,可以同时确定4个字幕集合中取出的4个字幕的时间区间,该4个字幕均为第一字幕。4个第一字幕例如包括字幕集合1中的第1个字幕(也即100个字幕中的第1个字幕)、字幕集合2中的第1个字幕(也即100个字幕中的第26个字幕)、字幕集合3中的第1个字幕(也即100个字幕中的第51个字幕)、字幕集合4中的第1个字幕(也即100个字幕中的第76个字幕)。由于100个字幕中的第1个字幕对应第1秒,第26个字幕对应第26秒,第51个字幕对应第51秒,第76个字幕对应第76秒,因此,4个目标时间点包括第1秒、第26秒、第51秒、第76秒。第1秒对应的参考帧为目标视频的第10帧图像帧,第26秒对应的参考帧为目标视频的第260帧图像帧,第51秒对应的参考帧为目标视频的第510帧图像帧,第76秒对应的参考帧为目标视频的第760帧图像帧,可同时确定该4个参考帧的第一字幕的时间区间。
需要说明的是,也可以不将目标视频的所有字幕分为多个字幕集合,而是将目标视频的所有字幕作为一个字幕集合,从该字幕集合中的第1秒对应的字幕开始,依次确定该字幕集合中的每个字幕对应的时间区间。
步骤102、从目标视频中确定位于参考帧之前的第一图像帧和/或位于参考帧之后的第二图像帧。
在步骤101中确定出参考帧之后,即可以参考帧之前的第一图像帧和参考帧之后的第二图像帧,基于第一图像帧,可以对参考帧对应的字幕进行前向跟踪。基于第二图像帧,可以对参考帧对应的字幕进行后向跟踪。以第260帧图像帧为参考帧进行举例说明,需确定位于第260帧图像帧之前的m帧第一图像帧和位于第260帧图像帧之后的n帧第二图像帧。
例如可以将从位于第260帧图像帧之前,且与第260帧图像帧相邻的第一图像帧开始,依次确定m帧第一图像帧,以及从位于第260帧图像帧之后,且与第260帧图像帧相邻的第二图像帧开始,依次确定n帧第二图像帧,m和n的值可以相同也可以不同。若第一图像帧对应的时间点为t,则t0-Tmax<t<t0,Tmax为预设值,t0为参考帧对应的时间点,例如可以将Tmax设置为10秒,参考帧为第260帧图像时,t0为第260帧图像帧对应的时间点,即t0等于26,26-10≤t<26,m帧第一图像帧包括时间上大于等于16秒且小于26秒之间的图像帧,也即m帧第一图像帧包括第151帧图像帧、152帧图像帧、153帧图像帧、……、直至第259帧图像帧。n帧第二图像帧对应的时间点为t,则t0<t<t0+Tmax,t0为第260帧图像帧对应的时间点,即26<t≤26+10,n帧第二图像帧包括时间上大于26秒且小于等于36秒之间的图像帧,也即n帧第二图像帧包括第261帧图像帧、262帧图像帧、263帧图像帧、……、直至第360帧图像帧。
步骤103、根据参考帧的第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定参考帧对应的第一字幕的起始图像帧;和/或,根据第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定参考帧对应的第一字幕的结束图像帧。
其中,步骤103根据参考帧的第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定参考帧对应的第一字幕的起始图像帧;和/或,根据第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定参考帧对应的第一字幕的结束图像帧,可以通过如下步骤实现:
从与参考帧相邻的第一图像帧开始,依次判断参考帧的第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度是否小于第一阈值;在第一区域边缘相似度小于第一阈值的情况下,将第一区域边缘相似度对应的第一图像帧作为第一中断帧,并将第一中断帧与参考帧之间的任一帧作为起始图像帧;和/或;
从与参考帧相邻的第二图像帧开始,依次判断参考帧的第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域边缘相似度是否小于第一阈值;在第二区域边缘相似度小于第一阈值的情况下,将第二区域边缘相似度对应的第二图像帧作为第二中断帧,并将参考帧与第二中断帧之间的任一帧作为结束图像帧。
例如,若第260帧图像帧的第一字符区域边缘与第259帧图像帧的第二字符区域边缘的第一区域边缘相似度大于第一阈值,接着判断第260帧图像帧的第一字符区域边缘与第258帧图像帧的第二字符区域边缘的第一区域边缘相似度是否小于第一阈值,若第260帧图像帧的第一字符区域边缘与第258帧图像帧的第二字符区域边缘的第一区域边缘相似度小于第一阈值,则将第258帧图像帧作为第一中断帧,并将第258帧图像帧至第260帧图像帧中的任意一帧作为起始图像帧,例如,将确定的第一个第一中断帧作为起始图像帧,由于此时确定的第一个第一中断帧为第258帧图像帧,则将第258帧图像帧作为起始图像帧。需要说明的是,也可以将位于确定的第一个第一中断帧之后、且第一图像帧对应的第一区域边缘相似度大于第一阈值的任意一帧第一图像帧作为起始图像帧,例如,结合上述举例说明,例如,由于第259帧图像帧位于第一个第一中断帧之后、且第259帧图像帧对应的第一区域边缘相似度大于第一阈值,则可以将第259帧图像帧作为起始图像帧。
下面介绍确定结束图像帧的步骤:例如,若第260帧图像帧的第一字符区域边缘与第261帧图像帧的第三字符区域边缘的第二区域边缘相似度大于第一阈值,接着判断第260帧图像帧的第一字符区域边缘与第262帧图像帧的第三字符区域边缘的第二区域边缘相似度是否小于第一阈值,若第260帧图像帧的第一字符区域边缘与第262帧图像帧的第三字符区域边缘的第二区域边缘相似度小于第一阈值,则将第262帧图像帧作为第二中断帧,并将第260帧图像帧至262帧图像帧中的任意一帧作为结束图像帧,例如,将确定的第一个第二中断帧作为结束图像帧,由于此时确定的第一个第二中断帧为第262帧图像帧,则将第262帧图像帧作为结束图像帧。需要说明的是,也可以将位于确定的第一个第二中断帧之前、且第二图像帧对应的第二区域边缘相似度大于第一阈值的任意一帧第二图像帧作为结束图像帧,例如,结合上述举例说明,例如,由于第261帧图像帧位于第一个第二中断帧之前、第261帧图像帧对应的第一区域边缘相似度大于第一阈值,则可以将第261帧图像帧作为结束图像帧。
可选的,还包括:
在第一区域边缘相似度小于第一阈值的情况下,将第一区域边缘相似度对应的第一图像帧作为第一中断帧;在第一中断帧的总数目大于等于第二阈值的情况下,将距离参考帧最远的第一中断帧与参考帧之间的任意一帧作为起始图像帧;和/或;
在第二区域边缘相似度小于第一阈值的情况下,将第二区域边缘相似度对应的第二图像帧作为第二中断帧;在第二中断帧的总数目大于等于第二阈值的情况下,将参考帧与距离参考帧最远的第二中断帧之间的任意一帧作为结束图像帧。
可选的,还包括:
在第一区域边缘相似度大于等于第一阈值的情况下,确定第一区域边缘相似度对应的第一图像帧包括第一字幕,并更新第一图像帧,并重复执行判断参考帧的第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度是否小于第一阈值的步骤;和/或;
在第二区域边缘相似度大于等于第一阈值的情况下,确定第二区域边缘相似度对应的第二图像帧包括第一字幕,并更新第二图像帧,并重复执行判断参考帧的第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域边缘相似度是否小于第一阈值的步骤。
下面结合图2介绍起始图像帧确定方法的步骤,如图2所示,图2是本发明实施例提供的一种起始图像帧确定方法的步骤流程图。
步骤201、从与参考帧相邻的第一图像帧开始,依次计算参考帧的第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度;
步骤202、判断参考帧的第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度是否小于第一阈值。
在第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度小于第一阈值的情况下,执行步骤203;在第一字符区域边缘与第一图像帧中第二字符区域边缘的第一区域像素度大于等于第一阈值的情况下,执行步骤206。
步骤203、将第一区域边缘相似度对应的第一图像帧作为第一中断帧,并将第一中断帧的总数目累加1。
步骤203执行完后,继续执行步骤204。
步骤204、判断第一中断帧的总数目是否大于等于第二阈值。
在第一中断帧的总数目大于等于第二阈值的情况下,执行步骤205;在第一中断帧的总数目小于第二阈值的情况下,执行步骤206。
步骤205、将距离参考帧最远的第一中断帧与参考帧之间的任意一帧作为起始图像帧。
步骤206、更新第一图像帧。
步骤206执行完成后,重复执行步骤202。其中,更新第一图像帧具体包括:将第一图像帧的后一个第一图像帧作为更新后的第一图像帧。
结合上述举例介绍,前向跟踪时,先计算第260帧图像帧的第一字符区域边缘与第259帧图像帧的第二字符区域边缘的第一区域边缘相似度,在第260帧图像帧的第一字符区域边缘与第259帧图像帧的第二字符区域边缘的第一区域边缘相似度小于第一阈值的情况下,将第一中断帧的总数目累加1,其中,第一中断帧的总数目的初始值等于0。
第二阈值若等于2,则此时第一中断帧的总数目小于第二阈值,此种情况下,计算第260帧图像帧的第一字符区域边缘与第258帧图像帧的第二字符区域边缘的第一区域边缘相似度,若第260帧图像帧的第一字符区域边缘与第258帧图像帧的第二字符区域边缘的第一区域边缘相似度大于等于第一阈值,则计算第260帧图像帧的第一字符区域边缘与第257帧图像帧的第二字符区域边缘的第一区域边缘相似度,若第260帧图像帧的第一字符区域边缘与第257帧图像帧的第二字符区域边缘的第一区域边缘相似度小于第一阈值,则当前的第一中断帧数目累加1后等于2,满足第一中断帧的总数目等于第二阈值的条件(此时停止继续向前跟踪,即不再计算第260帧图像帧的第一字符区域边缘与第256帧图像帧的第二字符区域边缘的第一区域边缘相似度),且第257帧图像帧为已计算出的最后一个小于第一阈值的第一区域边缘相似度所对应的第一图像帧,同时由于距离参考帧也即第260帧图像最远的第一中断帧为第257帧图像帧,因此,可以将第257帧图像帧与第260帧图像帧之间的任意一帧作为起始图像帧,例如,可以将第258帧图像帧、或将第259帧图像帧作为第260帧图像帧对应的第一字幕的起始图像帧。
需要说明的是,在第一中断帧的总数目大于等于第二阈值的情况下,也可以将已计算出的第一区域边缘相似度中大于等于第一阈值的第一区域边缘相似度所对应的第一图像帧中,距离参考帧最远的第一图像帧作为起始图像帧。例如,若第260帧图像帧的第一字符区域边缘与第259帧图像帧的第二字符区域边缘的第一区域边缘相似度小于第一阈值,第260帧图像帧的第一字符区域边缘与第258帧图像帧的第二字符区域边缘的第一区域边缘相似度大于第一阈值,第260帧图像帧的第一字符区域边缘与第257帧图像帧的第二字符区域边缘的第一区域边缘相似度大于第一阈值,第260帧图像帧的第一字符区域边缘与第256帧图像帧的第二字符区域边缘的第一区域边缘相似度小于第一阈值,则将第257帧图像帧作为起始图像帧。
需要说明的是,特殊情况下,若前向计算中,已计算出的第一区域边缘相似度均小于第一阈值,且当前第一中断帧的总数目大于等于第二阈值,则将参考帧作为起始图像帧。例如,已计算出的第一区域边缘相似度均小于第一阈值,且第一中断帧的总数目大于等于第二阈值,则将参考帧作为该参考帧的第一字幕的起始图像帧,也即第260帧图像帧的第一字幕对应的起始图像帧为第260帧图像帧。
本实施例中,在第二阈值大于1的情况下,可以继续进行前向跟踪,避免由于第一区域边缘相似度的计算误差,导致某一帧第一图像帧对应的第一区域边缘相似度小于第一阈值即停止向前跟踪,导致计算出的起始图像帧的准确性降低的问题。
下面结合图3介绍结束图像帧确定方法的步骤,如图3所示,图3是本发明实施例提供的一种结束图像帧确定方法的步骤流程图。
步骤301、从与参考帧相邻的第二图像帧开始,依次计算参考帧的第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域边缘相似度。
步骤302、判断第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域边缘相似度是否小于第一阈值。
在第一字符区域边缘与第二图像帧中第三字符区域边缘的第二区域边缘相似度小于第一阈值的情况下,执行步骤303;在第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域像素度大于等于第一阈值的情况下,执行步骤306。
步骤303、将第二区域边缘相似度对应的第二图像帧作为第二中断帧,并将第二中断帧的总数目累加1。
步骤304、判断第二中断帧的总数目是否大于等于第二阈值。
在新的第二中断帧的总数目大于等于第二阈值的情况下,执行步骤305;在第二中断帧的总数目小于第二阈值的情况下,执行步骤306。
步骤305、将参考帧至距离参考帧最远的第二中断帧的任意一帧作为结束图像帧。
步骤306、更新第二图像帧。
步骤306执行完成后,重复执行步骤302。其中,更新第二图像帧具体包括:将第二图像帧的后一个第二图像帧作为更新后的第二图像帧。
结合上述举例介绍,后向跟踪时,先计算第260帧图像帧的第一字符区域边缘与第261帧图像帧的第三字符区域边缘的第二区域边缘相似度,在第260帧图像帧的第一字符区域边缘与第261帧图像帧的第三字符区域边缘的第二区域边缘相似度小于第一阈值的情况下,将当前的第二中断帧的总数目累加1,得到新的第二中断帧的总数目,第二中断帧的总数目等于1。需要说明的是,第二中断帧的总数目的初始值为0。
第二阈值若等于2,则此时第二中断帧的总数目小于第二阈值,此种情况下,计算第260帧图像帧的第一字符区域边缘与第262帧图像帧的第三字符区域边缘的第二区域边缘相似度,若第260帧图像帧的第一字符区域边缘与第262帧图像帧的第三字符区域边缘的第二区域边缘相似度大于等于第一阈值,则计算第260帧图像帧的第一字符区域边缘与第263帧图像帧的第二字符区域边缘的第二区域边缘相似度,若第260帧图像帧的第一字符区域边缘与第263帧图像帧的第二字符区域边缘的第二区域边缘相似度小于第一阈值,则第二中断帧的总数目累加1,第二中断帧的总数目此时等于2,满足第二中断帧的总数目等于第二阈值的条件(此时停止继续向后跟踪,即不再计算第260帧图像帧的第一字符区域边缘与第264帧图像帧的第三字符区域边缘的第二区域边缘相似度),由于第264帧图像帧距离第260帧图像帧最远,则将第260帧图像帧与第264帧图像帧之间的任意一帧作为第260帧图像帧对应的第一字幕的结束图像帧,例如将第261帧图像帧、或262帧图像帧、或第263帧图像帧作为第260帧图像帧对应的第一字幕的结束图像帧。
需要说明的是,在第二中断帧的总数目大于等于第二阈值的情况下,也可以将已计算出的第二区域边缘相似度中大于等于第一阈值的第二区域边缘相似度所对应的第二图像帧中,距离参考帧最远的二图像帧作为结束图像帧。例如,若第260帧图像帧的第一字符区域边缘与第261帧图像帧的第三字符区域边缘的第二区域边缘相似度小于第一阈值,第260帧图像帧的第一字符区域边缘与第262帧图像帧的第三字符区域边缘的第二区域边缘相似度大于第一阈值,第260帧图像帧的第一字符区域边缘与第263帧图像帧的第三字符区域边缘的第二区域边缘相似度大于第一阈值,第260帧图像帧的第一字符区域边缘与第264帧图像帧的第三字符区域边缘的第二区域边缘相似度小于第一阈值,由于263帧图像帧为已计算出的第二区域边缘相似度中大于等于第一阈值的第二区域边缘相似度所对应的第二图像帧中,距离第260帧图像帧最远的第二图像帧,因此则将第263帧图像帧作为结束图像帧。
需要说明的是,特殊情况下,若后向跟踪计算中,已计算出的第二区域边缘相似度均小于第一阈值,且当前第二中断帧的总数目大于等于第二阈值,则停止继续后向跟踪计算,此种情况下,可将参考帧作为结束图像帧。例如,已计算出的第二区域边缘相似度均小于第一阈值,且第二中断帧的总数目大于等于第二阈值,则将参考帧作为该参考帧的第一字幕的结束图像帧,也即第260帧图像帧的第一字幕对应的结束图像帧为第260帧图像帧。
步骤104、根据起始图像帧对应的时间点、参考帧对应的时间点、以及结束图像帧对应的时间点中的任意两项,确定参考帧对应的第一字幕的时间区间。
本实施例中,在确定出起始图像帧后,即可以确定出起始图像帧对应的时间点;在确定出结束图像帧后,即可以确定出结束图像帧对应的时间点。下面举例介绍根据起始图像帧对应的时间点、参考帧对应的时间点、以及结束图像帧对应的时间点中的任意两项,确定参考帧对应的第一字幕的时间区间:
其中,根据起始图像帧对应的时间点和参考帧对应的时间点,确定参考帧对应的第一字幕的时间区间具体包括:若在前向跟踪计算中,已确定出起始图像帧,则将该起始图像帧对应的时间点作为参考帧对应的第一字幕的起始时间点,并在后向跟踪计算过程中,若没有第二图像帧对应的第二区域边缘相似度大于第一阈值,此时将参考帧对应的时间点作为参考帧对应的第一字幕的结束时间点;根据该起始时间点和结束时间点,确定参考帧对应的第一字幕的时间区间。例如,若第260帧图像帧的第一字符区域边缘与第259帧图像帧的第二字符区域边缘的第一区域边缘相似度小于第一阈值,第260帧图像帧的第一字符区域边缘与第258帧图像帧的第二字符区域边缘的第一区域边缘相似度大于第一阈值,第260帧图像帧的第一字符区域边缘与第257帧图像帧的第二字符区域边缘的第一区域边缘相似度大于第一阈值,第260帧图像帧的第一字符区域边缘与第256帧图像帧的第二字符区域边缘的第一区域边缘相似度小于第一阈值,将第257帧图像帧作为起始图像帧的情况下,由于第257帧图像帧对应的时间点为25.7秒,因此可以确定第260帧图像帧作为参考帧时,第260帧图像帧的第一字幕对应的起始时间点为25.7秒。同时在后向跟踪计算中,已计算出的第二区域边缘相似度均小于第一阈值,且当前第二中断帧的总数目大于等于第二阈值,则停止继续后向跟踪计算,将参考帧对应的时间点作为参考帧对应的第一字幕的结束时间点,也即第260帧图像帧的第一字幕对应的结束时间点为26秒。综上可知,第260帧图像帧的第一字幕的时间区间为25.7秒至26秒。
根据起始图像帧对应的时间点、以及结束图像帧对应的时间点,确定参考帧对应的第一字幕的时间区间具体包括:在前向跟踪计算中,确定了一个起始图像帧,并在后向跟踪计算过程中,确定了一个结束图像帧,则将该起始图像帧对应的时间点作为参考帧的第一字幕的起始时间点,将结束图像帧对应的时间点作为参考帧的第一字幕的结束时间点;根据该起始时间点和结束时间点,确定参考帧对应的第一字幕的时间区间。例如,在前向跟踪计算中,若第260帧图像帧的第一字符区域边缘与第259帧图像帧的第二字符区域边缘的第一区域边缘相似度小于第一阈值,第260帧图像帧的第一字符区域边缘与第258帧图像帧的第二字符区域边缘的第一区域边缘相似度大于第一阈值,第260帧图像帧的第一字符区域边缘与第257帧图像帧的第二字符区域边缘的第一区域边缘相似度大于第一阈值,第260帧图像帧的第一字符区域边缘与第256帧图像帧的第二字符区域边缘的第一区域边缘相似度小于第一阈值,将第257帧图像帧作为起始图像帧的情况下,由于第257帧图像帧对应的时间点为25.7秒,因此可以确定第260帧图像帧作为参考帧时,第260帧图像帧的第一字幕对应的起始时间点为25.7秒。同时在后向跟踪计算中,若第260帧图像帧的第一字符区域边缘与第261帧图像帧的第三字符区域边缘的第二区域边缘相似度小于第一阈值,第260帧图像帧的第一字符区域边缘与第262帧图像帧的第三字符区域边缘的第二区域边缘相似度大于第一阈值,第260帧图像帧的第一字符区域边缘与第263帧图像帧的第三字符区域边缘的第二区域边缘相似度大于第一阈值,第260帧图像帧的第一字符区域边缘与第264帧图像帧的第三字符区域边缘的第二区域边缘相似度小于第一阈值,由于263帧图像帧为已计算出的第二区域边缘相似度中大于等于第一阈值的第二区域边缘相似度所对应的第二图像帧中,距离第260帧图像帧最远的第二图像帧,将第263帧图像帧作为结束图像帧的情况下,则260帧图像帧的第一字幕对应的结束时间点为第263帧图像帧对应的时间点,该结束时间点为26.3秒,则260帧图像帧的第一字幕的时间区间为25.7秒至26.3秒。
根据参考帧对应的时间点、以及结束图像帧对应的时间点,确定参考帧对应的第一字幕的时间区间具体包括:若在前向跟踪计算过程中,若没有第一图像帧对应的第一区域边缘相似度大于第一阈值,此时将参考帧对应的时间点作为参考帧对应的第一字幕的起始时间点,并在后向跟踪计算中,已确定出结束图像帧,则将该结束图像帧对应的时间点作为参考帧对应的第一字幕的结束时间点;根据该起始时间点和结束时间点,确定参考帧对应的第一字幕的时间区间。例如,在前向跟踪计算过程中,已计算出的第一区域边缘相似度均小于第一阈值,且当前第一中断帧的总数目大于等于第二阈值,则将参考帧对应的时间点作为参考帧的第一字幕对应的起始时间点,也即将第260帧图像帧对应的时间点作为第260帧图像帧的第一字幕的起始时间点。同时,在后向跟踪计算过程中,在将第263帧图像帧作为结束图像帧的情况下,由于第263帧图像帧对应的时间点为26.3秒,因此可以确定第260帧图像帧的第一字幕的结束时间点为26.3秒。最终可以确定第2个第一字幕对应的时间区间为26秒至26.3秒。
结合上述举例介绍,可知采用本发明实施例,可以确定出参考帧的第一字幕的毫秒级精度的时间区间,相对于现有技术中的字幕对应秒级精度的时间点而言,提高了时间点位的精度,并且提高了字幕对应的时间点位的准确性。
本实施例提供的字幕时间区间确定方法,通过从目标视频中确定参考帧,根据参考帧的第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定参考帧对应的第一字幕的起始图像帧和/或根据第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定参考帧对应的第一字幕的结束图像帧,根据起始图像帧对应的时间点、参考帧对应的时间点、以及结束图像帧对应的时间点中的任意两项,确定参考帧对应的第一字幕的时间区间。从而能够确定出字符区域在视频中出现的开始时间和结束时间,提高了字幕的时间点位的准确性。
参照图4,图4为本发明实施例中提供的另一种字幕时间区间确定方法的步骤流程图。
步骤401、在当前字幕的字符区域与第二字幕的字符区域的第一交并比小于第三阈值的情况下,或者,在第一交并比大于等于第三阈值且当前字幕对应的时间点未位于第二字幕对应的时间区间的情况下,将当前字幕确定为第一字幕;
其中,第二字幕为已确定出时间区间的第一字幕。
相应的,从目标视频中确定参考帧,包括:
根据确定的第一字幕与第一字幕对应的时间点,从目标视频中确定参考帧。
可选的,在第一交并比大于等于第三阈值,且当前字幕对应的时间点位于第二字幕对应的时间区间的情况下,则跳过当前字幕,并计算当前字幕的下一个字幕的字符区域与第二字幕的字符区域的第一交并比。
需要说明的是,在当前字幕的字符区域与第二字幕的字符区域的第一交并比大于等于第三阈值的情况下,且当前字幕对应的时间点位于第二字幕对应的时间区间的情况下,则意味着当前字幕与第二字幕为同一条字幕,此种情况下,无需处理该当前字幕,无需判断当前字幕的时间区间,直接跳过当前字幕,并处理位于当前字幕之后的下一条字幕,即开始判断位于当前字幕之后的下一条字幕是否为需要处理的字幕。其中,当前字幕为位于已确定出时间区间的第一字幕之后的未处理字幕。
例如,若目标视频共包括100个字幕,已确定出时间区间的字幕为第一条字幕,第一条字幕为字幕1,未确定出时间区间的字幕依次为字幕2、字幕3、...、字幕100,即还未对字幕2、字幕3、...、字幕100进行处理,在当前字幕为字幕2时,若字幕2的字符区域与字幕1的字符区域的第一交并比大于等于第三阈值,且字幕2对应的时间点位于字幕1对应的时间区间,则不处理字幕2,也即跳过字幕2,转为判断字幕3的字符区域与字幕1的字符区域的第一交并比是否大于等于第三阈值,字幕3为时序上位于字幕2之后的下一条字幕。
在字幕2的字符区域与字幕1的字符区域的第一交并比小于第三阈值的情况下,或者,在该第一交并比大于等于第三阈值且当前字幕对应的时间点未位于字幕1对应的时间区间的情况下,将字幕2作为第一字幕,即需对字幕2进行处理,确定字幕2对应的时间区间。
可选的,在将当前字幕作为第p个第一字幕之前,还可以包括如下步骤:
提取参考帧的字符区域的第一灰度边缘信息;
对第一灰度边缘信息进行加强处理,得到第二灰度边缘信息;
对第二灰度边缘信息进行二值化处理,得到第二灰度边缘信息的二值化掩膜;
将当前字幕确定为第一字幕,包括:
在二值化掩膜中连通区域的连通像素的像素个数大于等于预设像素个数、连通像素的第一占比大于等于第四阈值、且连通像素的第二占比大于等于第五阈值的情况下,将当前字幕作为第p个第一字幕;
其中,第一占比为第一差值与当前字幕的字符区域的高度的比值,第二占比为第二差值与当前字幕的字符区域的长度的比值,第一差值为连通像素的最大纵坐标与最小纵坐标的差值,第二差值为连通像素的最大横坐标与最小横坐标的差值。
需要说明的是,也即在满足当前字幕的字符区域与每个第二字幕的字符区域的第一交并比小于第三阈值,且二值化掩膜中连通区域的连通像素的像素个数大于等于预设像素个数、连通像素的第一占比大于等于第四阈值、且连通像素的第二占比大于等于第五阈值的情况下,将当前字幕确定为第一字幕。或者,在满足第一交并比大于等于第三阈值且当前字幕对应的时间点未位于第二字幕对应的时间区间,且二值化掩膜中连通区域的连通像素的像素个数大于等于预设像素个数、连通像素的第一占比大于等于第四阈值、且连通像素的第二占比大于等于第五阈值的情况下,将当前字幕确定为第一字幕。
本实施例中,可以采用边缘提取算子例如索贝尔算子sobel或者canny提取字符区域的灰度边缘信息,并采用RGB三通道的插值图像的边缘信息对提取的灰度边缘信息进行加强处理。现有技术中用深度学习提取图像里的特征,计算量大,需通过GPU资源计算,且字符笔画受到背景像素的干扰。而本发明实施例中采用边缘提取算子提取图像帧中的字符区域的灰度边缘信息,从而可以降低计算量,通过CPU资源计算即可实现。其中,R表示红色、G表示绿色、B表示蓝色三种颜色。Sobel算子是离散微分算子(discrete differentiationoperator),用来计算图像灰度的近似梯度,梯度越大越有可能是边缘。canny算子是一个多级边缘检测算法。
例如采用边缘提取算子提取参考帧的字符区域的第一灰度边缘信息,并采用RGB三通道的插值图像的边缘信息对第一灰度边缘信息进行加强处理,加强处理后得到的第二灰度边缘信息用edge_img表示,edge_gray表示提取的参考帧的字符区域的第一灰度边缘信息,edge_rb表示字符区域的R通道的图像与B通道的图像的插值图像的边缘信息,edge_rg表示字符区域的R通道的图像与G通道的图像的插值图像的边缘信息,edge_bg表示字符区域的B通道的图像与G通道的图像的插值图像的边缘信息。
edge_img=w0×edge_gray+w1×edge_rb+w2×edge_rg+w3×edge_bg (1)
其中,w0、w1、w2、w3为权重系数,可以取w0=1.0,w1=w2=w3=0.05;
edge_rb=edge(diff_image_rb),diff_image_rb=(255+image_r–image_b)/2,同样的,可以计算edge_rg和edge_bg。
得到第二灰度边缘信息后,可以对第二灰度边缘信息进行二值化处理,得到第二灰度边缘信息的二值化掩膜edge_mask_t0。在二值化掩膜中连通区域的连通像素的像素个数大于等于预设像素个数、连通像素的第一占比大于等于第四阈值、且连通像素的第二占比大于等于第五阈值的情况下,将当前字幕作为第一字幕。
需要说明的是,若二值化掩膜中连通区域的连通像素的像素个数小于预设像素个数,则认为当前字幕为误识别结果,不再进行后续的前后向跟踪计算。第四阈值例如可以设置为0.1,第五阈值例如可以设置为0.1。或者,在二值化掩膜中连通区域的连通像素的像素个数大于等于预设像素个数在,但是连通像素的第一占比小于第四阈值或者第二占比小于第五阈值,也认为当前字幕为误识别结果,不再进行后续的前后向跟踪计算。
本实施例中,在二值化掩膜中连通区域的连通像素的像素个数大于等于预设像素个数、连通像素的第一占比大于等于第四阈值、且连通像素的第二占比大于等于第五阈值的情况下,将当前字幕确定为第一字幕,其他情况下,不再进行后续的前后向跟踪计算,从而可以过滤掉一些误识别的字幕,降低后续前后向计算的计算量。
步骤402、根据确定的第一字幕与所述第一字幕对应的时间点,从所述目标视频中确定所述参考帧。
步骤403、从目标视频中确定位于参考帧之前的第一图像帧和/或位于参考帧之后的第二图像帧。
步骤404、根据参考帧的第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定参考帧对应的第一字幕的起始图像帧;和/或,根据第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定参考帧对应的第一字幕的结束图像帧。
区域边缘相似度以edge_simi_t表示:
Figure BDA0003139629210000161
也即两个图像帧的字符区域的区域边缘相似度edge_simi_t等于字符区域中坐标为(i,j)的像素的灰度边缘相似度的和与f的比值。
if edge_img_t(i,j)×edge_mask_t0(i,j)>th8,simi_image_t(i,j)=1
else simi_image_t(i,j)=0
其中,f的值可以设置为等于2。simi_image_t(i,j)表示t时刻的图像帧的字符区域中坐标为(i,j)的像素的灰度边缘相似度,t时刻的图像帧可以为第一图像帧或第二图像帧。edge_mask_t0(i,j)表示t0时刻的参考帧的字符区域中坐标为(i,j)的像素的灰度边缘信息的二值化掩膜。需要说明的是,edge_mask_t0(i,j)的值等于1时,坐标为(i,j)的像素为连通区域中的一个连通像素。
根据上述的公式(1)和公式(2)可以计算t时刻图像帧的字符区域与t0时刻的字符区域的区域边缘相似度。进而根据区域边缘相似度,确定第一字幕对应的起始图像帧。
与步骤404中确定第一区域边缘相似度的方法类似,根据上述的公式(1)和公式(2)可以计算t时刻图像帧的字符区域与t0时刻的字符区域的区域边缘相似度。进而根据区域边缘相似度,确定第一字幕对应的结束图像帧。
步骤405、根据起始图像帧对应的时间点、参考帧对应的时间点、以及结束图像帧对应的时间点中的任意两项,确定参考帧对应的第一字幕的时间区间。
可选的,在确定出目标视频中的参考帧的时间区间之后,还可以包括如下步骤:
在参考字幕的第一时间区间与比较字幕的第二时间区间满足预设合并条件的情况下,确定参考字幕与比较字幕相同,并将第一时间区间和第二时间区间的并集作为参考字幕或比较字幕的时间区间;
其中,预设合并条件包括:满足参考字幕的第一字符区域与比较字幕的第二字符区域的第二交并比大于等于第六阈值、第一字符区域的字符个数和第二字符区域的字符个数均大于等于第七阈值、第二字幕与比较字幕的时间间隔小于等于第八阈值中的至少一项;
参考字幕和比较字幕为已确定出时间区间的两个第一字幕。该两个字幕可以为相邻的两个字幕,也可以为不相邻的两个字幕。
例如,参考字幕和比较字幕为已确定出时间区间的字幕1和字幕2,字幕1的第一时间区间为1.2秒至2.3秒,字幕2的第二时间区间为2.2秒至4秒,若满足预设合并条件,则认为字幕1和字幕2为同一个字幕,则第一时间区间和第二时间区间的并集为1.2秒至4秒,参考字幕或比较字幕的时间区间为1.2秒至4秒。
可选的,还可以包括如下步骤:
在参考字幕的第一时间区间与比较字幕的第二时间区间满足预设拆分条件的情况下,从第一时间区间和第二时间区间中确定最小时长的时间区间,并从参考字幕和比较字幕中,确定最小时长的时间区间对应的字幕;
从最小时长的时间区间拆分出第一时间区间与第二时间区间的重合时间区间,并将拆分出重合时间区间后剩余的时间区间,作为最小时长的时间区间对应的字幕的时间区间;
其中,预设拆分条件包括:满足第一字符区域与第二字符区域的第二交并比大于等于第六阈值、第一字符区域的字符个数和第二字符区域的字符个数均大于等于第七阈值、参考字幕与比较字幕的时间间隔小于等于第八阈值中的至少一项。
例如,若字幕1对应的第一时间区间为1.5秒至3.5秒,字幕2对应的第二时间区间为2.5秒至4.1秒,则第一时间区间和第二时间区间中的最小时长的时间区间为第二时间区间,最小时长的时间区间对应的字幕为字幕2,第一时间区间与第二时间区间的重合时间区间为2.5秒至3.5秒,将2.5秒至4.1秒中的重合时间区间2.5秒至3.5秒拆分出来,剩余的时间区间为3.5秒至4.1秒,则字幕2的时间区间变更为3.5秒至4.1秒。字幕1的第一时间区间仍然为1.5秒至3.5秒。由于采用现有技术中的文字识别技术识别到的文字可能识别不准确,例如,现有技术中识别到的目标视频的字幕1为“电影字号”,识别到目标视频的字幕2为“电影宇号”,“电影宇号”中的“宇”为误识别结果,且字幕1对应的第一时间区间为1.5秒至3.5秒,字幕2对应的第二时间区间为2.5秒至4.1秒,由于正常情况下,不应该出现在相同的时间出现不同的识别结果,因此,此种情况下,需要对时间区间进行拆分,以得到字幕的更加准确的时间区间。
本发明实施例中,通过合并或拆分处理,可以进一步提高字幕对应的时间点位的准确性。
可选的,在确定参考帧对应的第一字幕的时间区间之后,还可以包括如下步骤:
在参考帧对应的第一字幕包括多个语种字幕的情况下,确定多个语种字幕各自的时间区间的并集或交集,将时间区间的并集或交集确定为参考帧对应的第一字幕的时间区间。
例如,第一字幕包括中文字幕和英文字幕,在确定出中文字幕对应的时间区间和英文字幕对应的时间区间后,可取该两个时间区间的并集或交集作为中文字幕和英文字幕的时间区间。需要说明的是,也可以不取该两个时间的并集或交集,各种语种字幕对应各自的时间区间。确定出多种语种字幕的时间区间后,便于后续执行去除其中一种语种字幕或多种语种字幕的工作,仅保留一种语种字幕,根据保留的一种语种字幕,翻译为符合需求的其他语种的字幕。
参照图5,图5为本发明实施例提供的一种字幕时间区间确定装置的结构示意图,该装置500设置于计算机、服务器等设备,包括:
第一确定模块510,用于从目标视频中确定参考帧;
第二确定模块520,用于从所述目标视频中确定位于参考帧之前的第一图像帧和/或位于所述参考帧之后的第二图像帧;
第三确定模块530,用于根据所述参考帧的第一字符区域边缘与所述第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定所述参考帧对应的第一字幕的起始图像帧;和/或,根据所述第一字符区域边缘与所述第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定所述参考帧对应的第一字幕的结束图像帧;
第四确定模块540,用于根据所述起始图像帧对应的时间点、所述参考帧对应的时间点、以及所述结束图像帧对应的时间点中的任意两项,确定所述参考帧对应的第一字幕的时间区间。
可选的,所述第三确定模块530,具体用于从与所述参考帧相邻的第一图像帧开始,依次判断所述参考帧的第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度是否小于第一阈值;在所述第一区域边缘相似度小于所述第一阈值的情况下,将所述第一区域边缘相似度对应的第一图像帧作为第一中断帧,并将所述第一中断帧预所述参考帧之间的任一帧作为起始图像帧;和/或;
从与所述参考帧相邻的第二图像帧开始,依次判断所述参考帧的第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域边缘相似度是否小于所述第一阈值;在所述第二区域边缘相似度小于所述第一阈值的情况下,将所述第二区域边缘相似度对应的第二图像帧作为第二中断帧,并将所述参考帧与所述第二中断帧之间的任一帧作为结束图像帧。
可选的,所述第三确定模块530,还用于在所述第一区域边缘相似度小于所述第一阈值的情况下,将所述第一区域边缘相似度对应的第一图像帧作为第一中断帧;在第一中断帧的总数目大于等于第二阈值的情况下,将距离所述参考帧最远的第一中断帧与所述参考帧之间的任意一帧作为所述起始图像帧;和/或;
在所述第二区域边缘相似度小于所述第一阈值的情况下,将所述第二区域边缘相似度对应的第二图像帧作为第二中断帧;在第二中断帧的总数目大于等于所述第二阈值的情况下,将所述参考帧与距离所述参考帧最远的第二中断帧之间的任意一帧作为所述结束图像帧。
可选的,还包括:
第五确定模块,用于在当前字幕的字符区域与第二字幕的字符区域的第一交并比小于第三阈值的情况下,或者,在所述第一交并比大于等于所述第三阈值且所述当前字幕对应的时间点未位于所述第二字幕对应的时间区间的情况下,将所述当前字幕作为所述第p个第一字幕;
其中,所述第二字幕为已确定出时间区间的第一字幕;
第一确定模块,具体用于根据确定的第一字幕与所述第一字幕对应的时间点,从所述目标视频中确定所述参考帧。
可选的,所述第五确定模块,还用于提取所述参考帧的字符区域的第一灰度边缘信息;
对所述第一灰度边缘信息进行加强处理,得到第二灰度边缘信息;
对所述第二灰度边缘信息进行二值化处理,得到所述第二灰度边缘信息的二值化掩膜;
所述将所述当前字幕作为所述第一字幕,包括:
在所述二值化掩膜中连通区域的连通像素的像素个数大于等于预设像素个数、所述连通像素的第一占比大于等于第四阈值、且所述连通像素的第二占比大于等于第五阈值的情况下,将所述当前字幕作为所述第p个第一字幕;
其中,所述第一占比为第一差值与所述当前字幕的字符区域的高度的比值,所述第二占比为第二差值与当前字幕的字符区域的长度的比值,所述第一差值为所述连通像素的最大纵坐标与最小纵坐标的差值,所述第二差值为所述连通像素的最大横坐标与最小横坐标的差值。
可选的,所述第五确定模块,还用于在所述第一交并比大于等于所述第三阈值,且所述当前字幕对应的时间点位于所述第二字幕对应的时间区间的情况下,则跳过所述当前字幕,并计算所述当前字幕的下一个字幕的字符区域与第二字幕的字符区域的第一交并比。
可选的,还包括:
合并模块,用于在参考字幕的第一时间区间与比较字幕的第二时间区间满足预设合并条件的情况下,确定所述参考字幕与所述比较字幕相同,并将所述第一时间区间和所述第二时间区间的并集作为所述参考字幕或所述比较字幕的时间区间;
其中,满足所述预设合并条件包括:满足所述参考字幕的第一字符区域与所述比较字幕的第二字符区域的第二交并比大于等于第六阈值、所述第一字符区域的字符个数和所述第二字符区域的字符个数均大于等于第七阈值、所述第二字幕与所述比较字幕的时间间隔小于等于第八阈值中的至少一项;
所述参考字幕和所述比较字幕为已确定出时间区间的两个第一字幕;
可选的,还包括:
在所述参考字幕的第一时间区间与所述比较字幕的第二时间区间满足预设拆分条件的情况下,从所述第一时间区间和所述第二时间区间中确定最小时长的时间区间,并从所述参考字幕和所述比较字幕中,确定所述最小时长的时间区间对应的字幕;
从所述最小时长的时间区间拆分出所述第一时间区间与所述第二时间区间的重合时间区间,并将拆分出所述重合时间区间后剩余的时间区间,作为所述最小时长的时间区间对应的字幕的时间区间;
其中,满足所述预设拆分条件包括:满足所述第一字符区域与所述第二字符区域的第二交并比大于等于所述第六阈值、所述第一字符区域的字符个数和所述第二字符区域的字符个数均大于等于所述第七阈值、所述参考字幕与所述比较字幕的时间间隔小于等于所述第八阈值中的至少一项。
本发明实施例还提供了一种电子设备,如图6所示,图6为本发明实施例中提供的一种电子设备的结构示意图。包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
从目标视频中确定参考帧;
从所述目标视频中确定位于参考帧之前的第一图像帧和/或位于所述参考帧之后的第二图像帧;
根据所述参考帧的第一字符区域边缘与所述第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定所述参考帧对应的第一字幕的起始图像帧;和/或,根据所述第一字符区域边缘与所述第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定所述参考帧对应的第一字幕的结束图像帧;
根据所述起始图像帧对应的时间点、所述参考帧对应的时间点、以及所述结束图像帧对应的时间点中的任意两项,确定所述参考帧对应的第一字幕的时间区间。
上述终端提到的通信总线可以是外设部件互连标准(PerIPheral ComponentJnterconnect,简称PCJ)总线或扩展工业标准结构(Extended Jndustry StandardArchJtecture,简称EJSA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatJle memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central ProcessJngUnJt,简称CPU)、网络处理器(NetworK Processor,简称NP)等;还可以是数字信号处理器(DJgJtalSJgnalProcessJng,简称DSP)、专用集成电路(ApplJcatJonSpecJfJcJntegratedCJrcuJt,简称ASJC)、现场可编程门阵列(FJeld-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的字幕时间区间确定方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的字幕时间区间确定方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolJd State DJsK(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种字幕时间区间确定方法,其在于,包括:
从目标视频中确定参考帧;
从所述目标视频中确定位于参考帧之前的第一图像帧和/或位于所述参考帧之后的第二图像帧;
根据所述参考帧的第一字符区域边缘与所述第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定所述参考帧对应的第一字幕的起始图像帧;和/或,根据所述第一字符区域边缘与所述第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定所述参考帧对应的第一字幕的结束图像帧;
根据所述起始图像帧对应的时间点、所述参考帧对应的时间点、以及所述结束图像帧对应的时间点中的任意两项,确定所述参考帧对应的第一字幕的时间区间。
2.根据权利要求1所述的方法,其特征在于,所述根据所述参考帧的第一字符区域边缘与所述第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定所述参考帧对应的第一字幕的起始图像帧;和/或,根据所述第一字符区域边缘与所述第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定所述参考帧对应的第一字幕的结束图像帧,包括:
从与所述参考帧相邻的第一图像帧开始,依次判断所述参考帧的第一字符区域边缘与第一图像帧的第二字符区域边缘的第一区域边缘相似度是否小于第一阈值;在所述第一区域边缘相似度小于所述第一阈值的情况下,将所述第一区域边缘相似度对应的第一图像帧作为第一中断帧,并将所述第一中断帧预所述参考帧之间的任一帧作为起始图像帧;和/或;
从与所述参考帧相邻的第二图像帧开始,依次判断所述参考帧的第一字符区域边缘与第二图像帧的第三字符区域边缘的第二区域边缘相似度是否小于所述第一阈值;在所述第二区域边缘相似度小于所述第一阈值的情况下,将所述第二区域边缘相似度对应的第二图像帧作为第二中断帧,并将所述参考帧与所述第二中断帧之间的任一帧作为结束图像帧。
3.根据权利要求2所述的方法,其特征在于,还包括:
在所述第一区域边缘相似度小于所述第一阈值的情况下,将所述第一区域边缘相似度对应的第一图像帧作为第一中断帧;在第一中断帧的总数目大于等于第二阈值的情况下,将距离所述参考帧最远的第一中断帧与所述参考帧之间的任意一帧作为所述起始图像帧;和/或;
在所述第二区域边缘相似度小于所述第一阈值的情况下,将所述第二区域边缘相似度对应的第二图像帧作为第二中断帧;在第二中断帧的总数目大于等于所述第二阈值的情况下,将所述参考帧与距离所述参考帧最远的第二中断帧之间的任意一帧作为所述结束图像帧。
4.根据权利要求1所述的方法,其特征在于,在所述从目标视频中确定参考帧之前,还包括:
在当前字幕的字符区域与第二字幕的字符区域的第一交并比小于第三阈值的情况下,或者,在所述第一交并比大于等于所述第三阈值且所述当前字幕对应的时间点未位于所述第二字幕对应的时间区间的情况下,将所述当前字幕确定为所述第一字幕;
其中,所述第二字幕为已确定出时间区间的第一字幕;
所述从目标视频中确定参考帧,包括:
根据确定的第一字幕与所述第一字幕对应的时间点,从所述目标视频中确定所述参考帧。
5.根据权利要求4所述的方法,其特征在于,在所述将所述当前字幕确定为所述第一字幕之前,还包括:
提取所述参考帧的字符区域的第一灰度边缘信息;
对所述第一灰度边缘信息进行加强处理,得到第二灰度边缘信息;
对所述第二灰度边缘信息进行二值化处理,得到所述第二灰度边缘信息的二值化掩膜;
所述将所述当前字幕确定为所述第一字幕,包括:
在所述二值化掩膜中连通区域的连通像素的像素个数大于等于预设像素个数、所述连通像素的第一占比大于等于第四阈值、且所述连通像素的第二占比大于等于第五阈值的情况下,将所述当前字幕作为所述第一字幕;
其中,所述第一占比为第一差值与所述当前字幕的字符区域的高度的比值,所述第二占比为第二差值与当前字幕的字符区域的长度的比值,所述第一差值为所述连通像素的最大纵坐标与最小纵坐标的差值,所述第二差值为所述连通像素的最大横坐标与最小横坐标的差值。
6.根据权利要求4所述的方法,其特征在于,还包括:
在所述第一交并比大于等于所述第三阈值,且所述当前字幕对应的时间点位于所述第二字幕对应的时间区间的情况下,则跳过所述当前字幕,并计算所述当前字幕的下一个字幕的字符区域与第二字幕的字符区域的第一交并比。
7.根据权利要求1所述的方法,其特征在于,还包括:
在参考字幕的第一时间区间与比较字幕的第二时间区间满足预设合并条件的情况下,确定所述参考字幕与所述比较字幕相同,并将所述第一时间区间和所述第二时间区间的并集作为所述参考字幕或所述比较字幕的时间区间;
其中,满足所述预设合并条件包括:满足所述参考字幕的第一字符区域与所述比较字幕的第二字符区域的第二交并比大于等于第六阈值、所述第一字符区域的字符个数和所述第二字符区域的字符个数均大于等于第七阈值、所述第二字幕与所述比较字幕的时间间隔小于等于第八阈值中的至少一项;
所述参考字幕和所述比较字幕为已确定出时间区间的两个第一字幕。
8.根据权利要求7所述的方法,其特征在于,还包括:
在所述参考字幕的第一时间区间与所述比较字幕的第二时间区间满足预设拆分条件的情况下,从所述第一时间区间和所述第二时间区间中确定最小时长的时间区间,并从所述参考字幕和所述比较字幕中,确定所述最小时长的时间区间对应的字幕;
从所述最小时长的时间区间拆分出所述第一时间区间与所述第二时间区间的重合时间区间,并将拆分出所述重合时间区间后剩余的时间区间,作为所述最小时长的时间区间对应的字幕的时间区间;
其中,满足所述预设拆分条件包括:满足所述第一字符区域与所述第二字符区域的第二交并比大于等于所述第六阈值、所述第一字符区域的字符个数和所述第二字符区域的字符个数均大于等于所述第七阈值、所述参考字幕与所述比较字幕的时间间隔小于等于所述第八阈值中的至少一项。
9.根据权利要求1-8任一项所述的方法,其特征在于,在所述确定所述参考帧对应的第一字幕的时间区间之后,还包括:
在所述参考帧对应的第一字幕包括多个语种字幕的情况下,确定所述多个语种字幕各自的时间区间的并集或交集,将所述时间区间的并集或交集确定为所述参考帧对应的第一字幕的时间区间。
10.一种字幕时间区间确定装置,其特征在于,包括:
第一确定模块,用于从目标视频中确定参考帧;
第二确定模块,用于从所述目标视频中确定位于参考帧之前的第一图像帧和/或位于所述参考帧之后的第二图像帧;
第三确定模块,用于根据所述参考帧的第一字符区域边缘与所述第一图像帧的第二字符区域边缘的第一区域边缘相似度,确定所述参考帧对应的第一字幕的起始图像帧;和/或,根据所述第一字符区域边缘与所述第二图像帧的第三字符区域边缘的第二区域边缘相似度,确定所述参考帧对应的第一字幕的结束图像帧;
第四确定模块,用于根据所述起始图像帧对应的时间点、所述参考帧对应的时间点、以及所述结束图像帧对应的时间点中的任意两项,确定所述参考帧对应的第一字幕的时间区间。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-9任一所述的方法步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
CN202110732697.1A 2021-06-29 2021-06-29 字幕时间区间确定方法、装置、电子设备及可读存储介质 Active CN113343986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110732697.1A CN113343986B (zh) 2021-06-29 2021-06-29 字幕时间区间确定方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110732697.1A CN113343986B (zh) 2021-06-29 2021-06-29 字幕时间区间确定方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113343986A true CN113343986A (zh) 2021-09-03
CN113343986B CN113343986B (zh) 2023-08-25

Family

ID=77481733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110732697.1A Active CN113343986B (zh) 2021-06-29 2021-06-29 字幕时间区间确定方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113343986B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920507A (zh) * 2021-12-13 2022-01-11 成都索贝数码科技股份有限公司 一种针对新闻场景的滚动字幕提取方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212231A (ja) * 1995-02-02 1996-08-20 Hitachi Ltd 字幕検出方法および動画像の代表画像抽出装置
CN101510260A (zh) * 2008-02-14 2009-08-19 富士通株式会社 字幕存在时间确定装置和方法
US20100328529A1 (en) * 2009-06-30 2010-12-30 Kabushiki Kaisha Toshiba Still subtitle detection apparatus, visual display equipment, and image processing method
CN103986981A (zh) * 2014-04-14 2014-08-13 百度在线网络技术(北京)有限公司 多媒体文件的情节片段的识别方法及装置
CN104244065A (zh) * 2014-09-04 2014-12-24 无锡天脉聚源传媒科技有限公司 一种字幕处理的方法及装置
CN108769776A (zh) * 2018-05-31 2018-11-06 北京奇艺世纪科技有限公司 标题字幕检测方法、装置及电子设备
CN109413475A (zh) * 2017-05-09 2019-03-01 北京嘀嘀无限科技发展有限公司 一种视频中字幕的调整方法、装置和服务器
CN111539427A (zh) * 2020-04-29 2020-08-14 武汉译满天下科技有限公司 一种视频字幕的提取方法及系统
WO2020215988A1 (zh) * 2019-04-22 2020-10-29 腾讯科技(深圳)有限公司 视频描述生成方法、装置、设备及存储介质
CN112218142A (zh) * 2020-08-27 2021-01-12 厦门快商通科技股份有限公司 带字幕视频人声分离方法、装置、存储介质及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212231A (ja) * 1995-02-02 1996-08-20 Hitachi Ltd 字幕検出方法および動画像の代表画像抽出装置
CN101510260A (zh) * 2008-02-14 2009-08-19 富士通株式会社 字幕存在时间确定装置和方法
US20100328529A1 (en) * 2009-06-30 2010-12-30 Kabushiki Kaisha Toshiba Still subtitle detection apparatus, visual display equipment, and image processing method
CN103986981A (zh) * 2014-04-14 2014-08-13 百度在线网络技术(北京)有限公司 多媒体文件的情节片段的识别方法及装置
CN104244065A (zh) * 2014-09-04 2014-12-24 无锡天脉聚源传媒科技有限公司 一种字幕处理的方法及装置
CN109413475A (zh) * 2017-05-09 2019-03-01 北京嘀嘀无限科技发展有限公司 一种视频中字幕的调整方法、装置和服务器
CN108769776A (zh) * 2018-05-31 2018-11-06 北京奇艺世纪科技有限公司 标题字幕检测方法、装置及电子设备
WO2020215988A1 (zh) * 2019-04-22 2020-10-29 腾讯科技(深圳)有限公司 视频描述生成方法、装置、设备及存储介质
CN111539427A (zh) * 2020-04-29 2020-08-14 武汉译满天下科技有限公司 一种视频字幕的提取方法及系统
CN112218142A (zh) * 2020-08-27 2021-01-12 厦门快商通科技股份有限公司 带字幕视频人声分离方法、装置、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920507A (zh) * 2021-12-13 2022-01-11 成都索贝数码科技股份有限公司 一种针对新闻场景的滚动字幕提取方法
CN113920507B (zh) * 2021-12-13 2022-04-12 成都索贝数码科技股份有限公司 一种针对新闻场景的滚动字幕提取方法

Also Published As

Publication number Publication date
CN113343986B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
US10896349B2 (en) Text detection method and apparatus, and storage medium
CN109308463B (zh) 一种视频目标识别方法、装置及设备
US20180053048A1 (en) Text image processing method and apparatus
US9613299B2 (en) Method of identifying pattern training need during verification of recognized text
CN104298982A (zh) 一种文字识别方法及装置
CN110399842B (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
US20220207889A1 (en) Method for recognizing vehicle license plate, electronic device and computer readable storage medium
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
CN111814746A (zh) 一种识别车道线的方法、装置、设备及存储介质
WO2019041442A1 (zh) 图表数据结构化提取方法、系统、电子设备及计算机可读存储介质
CN107203763B (zh) 文字识别方法和装置
CN113642584A (zh) 文字识别方法、装置、设备、存储介质和智能词典笔
CN112215236A (zh) 文本识别方法、装置、电子设备及存储介质
CN110287361B (zh) 一种人物图片筛选方法及装置
CN113343986A (zh) 字幕时间区间确定方法、装置、电子设备及可读存储介质
CN114724133A (zh) 文字检测和模型训练方法、装置、设备及存储介质
CN114022865A (zh) 基于车道线识别模型的图像处理方法、装置、设备和介质
CN110533020B (zh) 一种文字信息的识别方法、装置及存储介质
CN112270356A (zh) 一种图像识别方法、装置及电子设备
CN116524503A (zh) 多行文本行提取方法、装置、设备及可读存储介质
JP4849883B2 (ja) 行方向判定プログラム、方法及び装置
CN107330470B (zh) 识别图片的方法和装置
CN108288060B (zh) 一种视频中的标题检测方法、装置及电子设备
CN113159193A (zh) 模型训练方法、图像识别方法、存储介质及程序产品
CN113139629A (zh) 一种字体识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant