CN114615520A

CN114615520A - 字幕定位方法、装置、计算机设备及介质

Info

Publication number: CN114615520A
Application number: CN202210220457.8A
Authority: CN
Inventors: 吴明达; 李昌临; 陶鑫; 戴宇荣
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-06-10
Anticipated expiration: 2042-03-08
Also published as: CN114615520B

Abstract

本公开关于一种字幕定位方法、装置、计算机设备及介质，属于视频处理技术领域。本公开实施例中，每间隔N帧图像，获取对应图像的字幕位置，得到多帧图像的字幕位置，无需对每一帧图像进行检测，降低了对图像进行检测的频率，无需耗费大量的时间，提高了字幕定位的效率，进而针对该多帧图像中相邻的两帧图像，确定这两帧图像中后一帧图像中新增的字幕，再确定该新增字幕的起始图像和终止图像，以实现时序维度上对该新增字幕的定位，从而提升了字幕定位的精确性。

Description

字幕定位方法、装置、计算机设备及介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种字幕定位方法、装置、计算机设备及介质。

背景技术

随着移动互联网的飞速发展，视频作为一种信息载体逐渐取代文字、图像成为主流，在视频的创作过程中，通常会加入字幕以便用户理解。在视频内容分析的场景下中，需要对视频中的字幕进行像素级别的定位，以对该视频中的字幕进行内容分析或者基于字幕进行如增、删、改等二次创作。

目前，字幕定位方法通常是将视频转换为图片序列，再逐帧进行字幕的检测，而采用逐帧检测的方式，需要耗费大量的时间，字幕定位的效率较低。

发明内容

本公开提供一种字幕定位方法、装置、计算机设备及介质，在提升字幕定位的效率的同时，还提升了字幕定位的精确性。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种字幕定位方法，该方法包括：

获取视频中多帧图像的字幕位置，每两帧图像之间间隔N帧，该N为大于1的正整数；

对于该多帧图像中相邻的两帧图像，基于该两帧图像的字幕位置，确定该两帧图像中后一帧图像中的新增字幕，该新增字幕为该两帧图像的前一帧图像中未显示而后一帧图像中显示的字幕；

基于该多帧图像中的该新增字幕，确定该新增字幕的起始图像和终止图像，该起始图像表示第一次出现该新增字幕的图像，该终止图像表示最后一次出现该新增字幕的图像。

本公开实施例中，每间隔N帧图像，获取对应图像的字幕位置，得到多帧图像的字幕位置，无需对每一帧图像进行检测，降低了对图像进行检测的频率，无需耗费大量的时间，提高了字幕定位的效率，进而针对该多帧图像中相邻的两帧图像，确定这两帧图像中后一帧图像中新增的字幕，再确定该新增字幕的起始图像和终止图像，以实现时序维度上对该新增字幕的定位，从而提升了字幕定位的精确性。

在一些实施例中，获取视频中多帧图像的字幕位置包括下述至少一项：

将该多帧图像分别输入第一字幕检测模型，通过该第一字幕检测模型，基于字幕检测框对该多帧图像的字幕位置进行检测，该字幕检测框用于指示对应图像的字幕位置，该第一字幕检测模型基于至少一帧图像以及该至少一帧图像的字幕位置训练得到；

将该多帧图像分别输入第二字幕检测模型，通过该第二字幕检测模型对该多帧图像的字幕位置进行检测，得到该多帧图像的蒙版，该蒙版用于指示对应图像的字幕位置，该第二字幕检测模型基于至少一帧图像以及该至少一帧图像对应的蒙版训练得到。

本公开实施例中，通过设置第一字幕检测模型，能够利用字幕检测框快速确定出图像的字幕位置，提高了确定字幕位置的效率；或者，通过设置第二字幕检测模型，能够快速确定出图像的蒙版，基于该图像的蒙版，同样能够快速确定出图像的字幕位置，提高了确定字幕位置的效率。

在一些实施例中，基于该两帧图像的字幕位置，确定该两帧图像中后一帧图像中的新增字幕包括下述至少一项：

获取该两帧图像的字幕检测框之间的重合度，若该重合度未达到第一阈值，确定该两帧图像中后一帧图像中的字幕为该新增字幕，该重合度表示该两帧图像的字幕检测框之间的重合程度；

基于该两帧图像的蒙版，确定该两帧图像中对应位置上的像素点之间的像素差值，在该两帧图像中后一帧图像中，确定该像素差值大于第二阈值的像素点在该后一帧图像中的比例，若该比例达到第三阈值，确定该后一帧图像中的字幕为该新增字幕。

本公开实施例中，通过判断两帧图像的字幕检测框之间的重合度是否达到第一阈值，来确定后一帧图像中是否存在新增字幕，能够快速确定出后一帧图像中的新增字幕，提高了确定新增字幕的效率；或者，通过判断两帧图像中对应位置上像素值变化大的像素点的比例是否达到第三阈值，来确定后一帧图像中是否存在新增字幕，能够快速确定出后一帧图像中的新增字幕，提高了确定新增字幕的效率。

在一些实施例中，确定该两帧图像中对应位置上的像素点之间的像素差值之前，该方法还包括：

基于该后一帧图像的字幕检测框，对该两帧图像进行裁剪，得到裁剪后的该两帧图像；

基于裁剪后的该两帧图像，执行该确定该两帧图像中对应位置上的像素点之间的像素差值的步骤。

本公开实施例中，利用后一帧图像的字幕检测框对两帧图像进行裁剪，进而基于裁剪后的两帧图像来确定像素差值，能够大大地降低运算量，从而能够提升了像素差值的运算效率。

在一些实施例中，基于该两帧图像的蒙版，确定该两帧图像中对应位置上的像素点之间的像素差值包括：

基于该后一帧图像的蒙版，对该两帧图像进行掩码处理，得到掩码处理后的该两帧图像；

基于掩码处理后的该两帧图像，确定该两帧图像中对应位置上的像素点之间的像素差值。

本公开实施例中，利用后一帧图像的蒙版对两帧图像进行掩码处理，能够过滤图像的背景画面对像素差值所产生的影响，使像素差值聚焦于字幕所在位置的像素点，提高了确定像素差值的精确性，从而提升了字幕定位的精确性。

在一些实施例中，基于该多帧图像中的该新增字幕，确定该新增字幕的起始图像和终止图像包括：

对于该视频中在该新增字幕所在图像之前的任一帧图像，确定该任一帧图像与该新增字幕所在图像中对应位置上的像素点之间的像素差值，确定该像素差值大于第二阈值的像素点在该新增字幕所在图像中的比例，若该比例达到第三阈值，确定该任一帧图像的后一帧图像为该起始图像；

对于该视频中在该新增字幕所在图像之后的任一帧图像，确定该任一帧图像与该新增字幕所在图像中对应位置上的像素点之间的像素差值，确定该像素差值大于第二阈值的像素点在该新增字幕所在图像中的比例，若该比例达到第三阈值，确定该任一帧图像的前一帧图像为该终止图像。

本公开实施例中，通过判断两帧图像中对应位置上像素值变化大的像素点的比例是否达到第三阈值，来确定各个新增字幕的起始图像和终止图像，提高了确定新增字幕的起始图像和终止图像的效率，实现了时序维度上对该新增字幕的定位，从而提升了字幕定位的精确性。

在一些实施例中，该方法还包括：

在确定该多帧图像中第i帧图像中的新增字幕时，基于第i-N帧图像与该第i帧图像的字幕位置，确定该第i帧图像中的新增字幕，该i为大于或等于N的正整数；

在该视频的第i-N帧图像至第i-1帧图像中，确定该第i帧图像中的新增字幕的起始图像，在该视频的第i+1帧图像至第i+N帧图像中，确定该第i帧图像中的新增字幕的终止图像；

若该视频的第i+1帧图像至第i+N帧图像中不存在该新增字幕的终止图像，则基于该第i帧图像，确定第i+N帧图像中的新增字幕；

基于该第i+N帧图像中的新增字幕，重复执行上述确定新增字幕、判断是否存在该新增字幕的终止帧图像的步骤，直至获取到该多帧图像中的该新增字幕的终止帧图像；

其中，执行一次确定新增字幕、判断是否存在该新增字幕的终止帧图像的步骤的间隔帧数为N。

本公开实施例中，利用视频中一定范围内的图像，来确定多帧图像的新增字幕的起始图像和终止图像，通过判断该一定范围内的图像中是否存在该新增字幕的终止图像，在该一定范围内的图像中不存在该新增字幕的终止图像时，利用该新增字幕所在的图像，来确定多帧图像中下一相邻图像的新增字幕，如此，针对已确定出终止图像的新增字幕，则无需再次执行后续确定下一相邻图像的新增字幕的过程，只需参考未确定终止图像的新增字幕，来确定下一相邻图像的新增字幕，极大地降低了字幕匹配的运算量，提高了字幕定位的效率。

在一些实施例中，确定该第i帧图像中的新增字幕之后，该方法还包括：

将该第i帧图像中的新增字幕添加至字幕队列，该字幕队列用于存储未确定终止图像的新增字幕；

若该视频的第i+1帧图像至第i+N帧图像中存在该新增字幕的终止图像，则在该字幕队列中删除该第i帧图像中的新增字幕；

基于该字幕队列中的新增字幕，执行该确定该第i+N帧图像中的新增字幕的步骤。

本公开实施例中，通过设置字幕队列，以便后续基于字幕队列来执行后续确定新增字幕的过程，在提高字幕定位的效率的同时，还提高了字幕定位的灵活性。

在一些实施例中，该N小于或等于目标数值，该目标数值基于字幕最小持续时长确定。

本公开实施例中，基于字幕最小持续时长来设置间隔帧数N，以确保所筛选的多帧图像中包括了视频中的全部字幕，以便后续利用字幕匹配的方式确定出新增字幕进而实现对全部字幕的定位。

根据本公开实施例的第二方面，提供一种字幕定位装置，该装置包括：

获取单元，被配置为执行获取视频中多帧图像的字幕位置，每两帧图像之间间隔N帧，该N为大于1的正整数；

字幕确定单元，被配置为执行对于该多帧图像中相邻的两帧图像，基于该两帧图像的字幕位置，确定该两帧图像中后一帧图像中的新增字幕，该新增字幕为该两帧图像的前一帧图像中未显示而后一帧图像中显示的字幕；

图像确定单元，被配置为执行基于该多帧图像中的该新增字幕，确定该新增字幕的起始图像和终止图像，该起始图像表示第一次出现该新增字幕的图像，该终止图像表示最后一次出现该新增字幕的图像。

在一些实施例中，该获取单元，被配置为执行下述至少一项：

在一些实施例中，该字幕确定单元，包括下述至少一项：

第一字幕确定子单元，被配置为执行获取该两帧图像的字幕检测框之间的重合度，若该重合度未达到第一阈值，确定该两帧图像中后一帧图像中的字幕为该新增字幕，该重合度表示该两帧图像的字幕检测框之间的重合程度；

第二字幕确定子单元，被配置为执行基于该两帧图像的蒙版，确定该两帧图像中对应位置上的像素点之间的像素差值，在该两帧图像中后一帧图像中，确定该像素差值大于第二阈值的像素点在该后一帧图像中的比例，若该比例达到第三阈值，确定该后一帧图像中的字幕为该新增字幕。

在一些实施例中，该装置还包括裁剪单元，被配置为执行基于该后一帧图像的字幕检测框，对该两帧图像进行裁剪，得到裁剪后的该两帧图像；

该第二字幕确定子单元，还被配置为执行基于裁剪后的该两帧图像，执行该确定该两帧图像中对应位置上的像素点之间的像素差值的步骤。

在一些实施例中，该第二字幕确定子单元，被配置为执行：

在一些实施例中，该图像确定单元，被配置为执行：

在一些实施例中，该字幕确定单元，还被配置为执行在确定该多帧图像中第i帧图像中的新增字幕时，基于第i-N帧图像与该第i帧图像的字幕位置，确定该第i帧图像中的新增字幕，该i为大于或等于N的正整数；

该图像确定单元，还被配置为执行在该视频的第i-N帧图像至第i-1帧图像中，确定该第i帧图像中的新增字幕的起始图像，在该视频的第i+1帧图像至第i+N帧图像中，确定该第i帧图像中的新增字幕的终止图像；

该字幕确定单元，还被配置为执行若该视频的第i+1帧图像至第i+N帧图像中不存在该新增字幕的终止图像，则基于该第i帧图像，确定第i+N帧图像中的新增字幕；

该装置还包括重复单元，被配置为执行基于该第i+N帧图像中的新增字幕，重复执行上述确定新增字幕、判断是否存在该新增字幕的终止帧图像的步骤，直至获取到该多帧图像中的该新增字幕的终止帧图像；

在一些实施例中，该装置还包括：

添加单元，被配置为执行将该第i帧图像中的新增字幕添加至字幕队列，该字幕队列用于存储未确定终止图像的新增字幕；

删除单元，被配置为执行若该视频的第i+1帧图像至第i+N帧图像中存在该新增字幕的终止图像，则在该字幕队列中删除该第i帧图像中的新增字幕；

该字幕确定单元，还被配置为执行基于该字幕队列中的新增字幕，执行该确定该第i+N帧图像中的新增字幕的步骤。

根据本公开实施例的第三方面，提供一种计算机设备，该计算机设备包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述的字幕定位方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，该计算机可读存储介质包括：当该计算机可读存储介质中的程序代码由计算机设备的处理器执行时，使得计算机设备能够执行上述的字幕定位方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的字幕定位方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种字幕定位方法的实施环境示意图；

图2是根据一示例性实施例示出的一种字幕定位方法的流程图；

图3是根据一示例性实施例示出的一种字幕定位方法的流程图；

图4是根据一示例性实施例示出的一种字幕位置的示意图；

图5是根据一示例性实施例示出的一种字幕位置的示意图；

图6是根据一示例性实施例示出的一种新增字幕的示意图；

图7是根据一示例性实施例示出的一种新增字幕的起始图像和终止图像的示意图；

图8是根据一示例性实施例示出的一种字幕定位装置的框图；

图9是根据一示例性实施例示出的一种终端的框图；

图10是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本公开实施例所涉及到的字幕位置、新增字幕等信息都是在充分授权的情况下获取的。在一些实施例中，本公开实施例中提供有权限询问页面，该权限询问页面用于询问是否授予上述信息的获取权限，在该权限询问页面中，显示同意授权控件和拒绝授权控件，在检测到对该同意授权控件的触发操作的情况下，利用本公开实施例所提供的字幕定位方法来获取上述信息，从而实现对视频中字幕的精确定位。

图1是根据一示例性实施例示出的一种字幕定位方法的实施环境示意图，参见图1，该实施环境中包括：终端101和服务器102。

终端101可以为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种。终端101具有通信功能，可以接入有线网络或无线网络。终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式文件系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实施例中，服务器102与终端101通过有线或无线通信方式进行直接或间接的连接，本公开实施例对此不作限定。可选地，上述服务器102的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

在一些实施例中，本公开实施例提供的字幕定位方法由终端101执行，例如，终端101响应于对视频的字幕定位操作，利用本公开实施例所提供的字幕定位方法，对该视频中的字幕进行定位；或者，在另一些实施例中，本公开实施例提供的字幕定位方法由服务器102执行，例如，服务器102响应于接收到对视频的字幕定位请求，利用本公开实施例所提供的字幕定位方法，对该视频中的字幕进行定位。本公开实施例后续以计算机设备为执行主体，来对该字幕定位方法进行说明。

图2是根据一示例性实施例示出的一种字幕定位方法的流程图，如图2所示，该方法由计算机设备执行，该计算机设备可提供为上述图1所示出的终端或服务器，示意性地，该方法包括以下步骤：

在步骤201中，计算机设备获取视频中多帧图像的字幕位置，每两帧图像之间间隔N帧，该N为大于1的正整数。

在步骤202中，计算机设备对于该多帧图像中相邻的两帧图像，基于该两帧图像的字幕位置，确定该两帧图像中后一帧图像中的新增字幕，该新增字幕为该两帧图像的前一帧图像中未显示而后一帧图像中显示的字幕。

在步骤203中，计算机设备基于该多帧图像中的该新增字幕，确定该新增字幕的起始图像和终止图像，该起始图像表示第一次出现该新增字幕的图像，该终止图像表示最后一次出现该新增字幕的图像。

本公开实施例提供的技术方案，每间隔N帧图像，获取对应图像的字幕位置，得到多帧图像的字幕位置，无需对每一帧图像进行检测，降低了对图像进行检测的频率，无需耗费大量的时间，提高了字幕定位的效率，进而针对该多帧图像中相邻的两帧图像，确定这两帧图像中后一帧图像中新增的字幕，再确定该新增字幕的起始图像和终止图像，以实现时序维度上对该新增字幕的定位，从而提升了字幕定位的精确性。

在一些实施例中，该方法还包括：

上述图2所示仅为本公开的基本流程，下面基于一种具体实施方式，来对本公开提供的方案进行进一步阐述，图3是根据一示例性实施例示出的一种字幕定位方法的流程图，参见图3，该方法包括：

在步骤301中，计算机设备将视频的多帧图像分别输入第一字幕检测模型，通过该第一字幕检测模型，基于字幕检测框对该多帧图像的字幕位置进行检测，该字幕检测框用于指示对应图像的字幕位置，每两帧图像之间间隔N帧，该N为大于1的正整数。

其中，计算机设备可提供为终端或服务器。视频是指待进行字幕定位的视频，在一些实施例中，视频为终端本地所存储的视频，或者，视频为服务器所存储的视频，或者，视频为服务器所关联的视频库所存储的视频，等等。本公开实施例对此不加以限定。

在本公开实施例中，多帧图像为该视频中待进行字幕检测的图像，该多帧图像中每两帧图像之间间隔N帧。在一些实施例中，计算机设备在该视频所包括的图像中，每间隔N帧，触发执行上述步骤301中的字幕检测过程，如此，基于该多帧图像进行后续的字幕定位方法，无需对每一帧图像进行检测，降低了对图像进行检测的频率，无需耗费大量的时间，提高了字幕定位的效率。在一些实施例中，图像采用图像标识来表示，例如，该图像标识可以是图像编号。

在一些实施例中，该N小于或等于目标数值，该目标数值基于字幕最小持续时长确定。示例地，目标数值可以是字幕最小持续帧数，以字幕最小持续时长为0.5s为例，对于帧率为30的视频，字幕最小持续帧数也即是15帧，该N可设置为小于或等于15的任意数值，如14或15。应理解地，为了确保用户完整阅读字幕，字幕内容在时序上的变化相对不会太过频繁，因此基于字幕最小持续时间来设置间隔帧数N，能够确保所筛选的多帧图像中包括了视频中的全部字幕，以便后续利用字幕匹配的方式确定出新增字幕进而实现对全部字幕的定位。

本公开实施例中，第一字幕检测模型用于基于字幕检测框对图像的字幕位置进行检测。在该实施例中，通过设置第一字幕检测模型，能够利用字幕检测框快速确定出图像的字幕位置，提高了确定字幕位置的效率。

在一些实施例中，字幕检测框提供为用于指示对应图像的字幕位置的矩形框。示例地，图4是根据一示例性实施例示出的一种字幕位置的示意图，参见图4，在图4左侧示出了第一字幕检测模型的输入图像，在图4右侧示出了第一字幕检测模型的输出图像，在图4右侧所示出的输出图像中，显示有用于标志字幕位置的矩形框。

在一些实施例中，第一字幕检测模型基于至少一帧图像以及该至少一帧图像的字幕位置训练得到。相应地，第一字幕检测模型的确定过程包括：计算机设备基于该至少一帧图像以及该至少一帧图像的字幕位置，进行模型训练，得到第一字幕检测模型。具体地，在一些实施例中，服务器在训练的第m次迭代过程中，将该至少一帧图像输入第m-1次迭代过程所确定的第一字幕检测模型，得到该第m次迭代过程的检测训练结果，其中，m为大于1的正整数；基于该第m次迭代过程的检测训练结果和该至少一帧图像的字幕位置，对该第m-1次迭代过程所确定的第一字幕检测模型的模型参数进行调整，基于调整后的该模型参数进行第m+1次迭代过程，重复上述训练的迭代过程，直至训练满足目标条件。

在一些实施例中，训练满足的目标条件为模型的训练迭代次数达到目标次数，该目标次数为预先设定的训练迭代次数，如1000次；或者，训练满足的目标条件为损失值满足目标阈值条件，如损失值小于0.00001。本公开实施例对目标条件的设置不加以限定。

如此，通过迭代训练的方式，将模型参数较优的网络模型获取为第一字幕检测模型，以获取到检测能力较优的第一字幕检测模型，从而提升了第一字幕检测模型的检测精准性。

在一些实施例中，第一字幕检测模型基于深度卷积神经网络训练得到，相应地，计算机设备基于该至少一帧图像以及该至少一帧图像的字幕位置，对深度卷积神经网络进行模型训练，得到第一字幕检测模型。在一些实施例中，深度卷积神经网络为卷积神经网络或其他神经网络。

其中，深度卷积神经网络是一种基于包含复杂结构或由多重非线性变换构成的多个处理层，逐步从原始输入中提取更高级别的特征的网络。在一些实施例中，深度卷积神经网络包括输入层、多个隐藏层和输出层。输入层用于将该至少一帧图像输入深度卷积神经网络，将所输入的信息转化为数字矩阵，以便该深度卷积神经网络进行后续运算过程。隐藏层可以包括卷积层、池化层或全连接层，其中，卷积层用于对输入层所生成的数字矩阵进行卷积运算，基于该卷积运算的结果提取局部特征，该深度卷积神经网络可以包括一个或多个卷积层；池化层用于将卷积层获得的特征提取值进行量化，来获得维度较小的矩阵，以便对特征进一步提取，该深度卷积神经网络可以包括一个或多个池化层；全连接层用于将提取到的局部特征通过权值矩阵，整合为完整的特征，基于该完整的特征检测对应图像的字幕位置。输出层用于获取最后一层隐藏层所输出的字幕位置，输出该字幕位置。

在一些实施例中，计算机设备提供有图像字幕区域检测模块，该图像字幕区域检测模块提供有利用字幕检测框来确定字幕位置的功能，相应地，计算机设备利用该图像字幕区域检测模块，来执行上述步骤301中基于字幕检测框对该多帧图像的字幕位置进行检测的过程。

在步骤302中，计算机设备将该视频的多帧图像分别输入第二字幕检测模型，通过该第二字幕检测模型对该多帧图像的字幕位置进行检测，得到该多帧图像的蒙版，该蒙版用于指示对应图像的字幕位置。

本公开实施例中，第二字幕检测模型用于对图像的字幕位置进行检测，以输出该图像的蒙版。在该实施例中，通过设置第二字幕检测模型，能够快速确定出图像的蒙版，基于该图像的蒙版，同样能够快速确定出图像的字幕位置，提高了确定字幕位置的效率。

在一些实施例中，蒙版用于指示对应图像在像素级别上的字幕位置。其中，蒙版是指在图像上添加一层使图像中某一部分变透明的灰度板，例如，使图像中的背景部分变透明。示例地，图5是根据一示例性实施例示出的一种字幕位置的示意图，参见图5，在图5左侧示出了第二字幕检测模型的输入图像，在图5右侧示出了第二字幕检测模型的输出图像，图5右侧所示出的输出图像也即是该图像的蒙版，此时，图像中黑色的部分(也即是图像的背景部分)为透明部分，白色的部分(也即是图像的字幕部分)为不透明部分，如此，能够直观地指示字幕的具体位置。在一些实施例中，该图像的蒙版与输入图像的分辨率相同。

在一些实施例中，第二字幕检测模型基于至少一帧图像以及该至少一帧图像对应的蒙版训练得到。相应地，第二字幕检测模型的确定过程包括：计算机设备基于该至少一帧图像以及该至少一帧图像的蒙版，进行模型训练，得到第二字幕检测模型。具体地，在一些实施例中，服务器在训练的第m次迭代过程中，将该至少一帧图像输入第m-1次迭代过程所确定的第二字幕检测模型，得到该第m次迭代过程的蒙版训练结果，其中，m为大于1的正整数；基于该第m次迭代过程的蒙版训练结果和该至少一帧图像的蒙版，对该第m-1次迭代过程所确定的第二字幕检测模型的模型参数进行调整，基于调整后的该模型参数进行第m+1次迭代过程，重复上述训练的迭代过程，直至训练满足目标条件。

如此，通过迭代训练的方式，将模型参数较优的网络模型获取为第二字幕检测模型，以获取到检测能力较优的第二字幕检测模型，从而提升了第二字幕检测模型的检测精准性。

在一些实施例中，第二字幕检测模型基于深度卷积神经网络训练得到，相应地，计算机设备基于该至少一帧图像以及该至少一帧图像的蒙版，对深度卷积神经网络进行模型训练，得到第二字幕检测模型。在一些实施例中，深度卷积神经网络为卷积神经网络或深度神经网络或其他神经网络。

在一些实施例中，计算机设备提供有图像字幕蒙版检测模块，该图像字幕蒙版检测模块提供有确定图像的蒙版的功能，相应地，计算机设备利用该图像字幕蒙版检测模块，来执行上述步骤302中对该多帧图像的字幕位置进行检测，得到该多帧图像的蒙版的过程。

需要说明的是，本公开实施例基于上述步骤301至步骤302，来获取视频中多帧图像的字幕位置，而在另一些实施例中，计算机设备基于上述步骤301和步骤302中的任一项，来获取视频中多帧图像的字幕位置。还需要说明的是，上述步骤以计算机设备先基于第一字幕检测模型来获取该多帧图像的字幕位置，再基于第二字幕检测模型来获取该多帧图像的字幕位置为例，对获取该多帧图像的字幕位置的过程进行了说明；在又一些实施例中，计算机设备先基于第二字幕检测模型来获取该多帧图像的字幕位置，再基于第一字幕检测模型来获取该多帧图像的字幕位置；在另一些实施例中，计算机设备在基于第一字幕检测模型来获取该多帧图像的字幕位置的同时，还基于第二字幕检测模型来获取该多帧图像的字幕位置。本公开实施例对上述步骤301和步骤302的执行次序不作限定。

在步骤303中，计算机设备对于该多帧图像中相邻的两帧图像，基于该两帧图像的字幕位置，确定该两帧图像中后一帧图像中的新增字幕，该新增字幕为该两帧图像的前一帧图像中未显示而后一帧图像中显示的字幕。

在一些实施例中，对于该多帧图像中相邻的两帧图像，计算机设备基于上述步骤301所提供的字幕检测框以及上述302所确定的蒙版，来确定该两帧图像中后一帧图像的新增字幕，相应过程为：计算机设备获取该两帧图像的字幕检测框之间的重合度，判断该两帧图像的字幕检测框之间的重合度是否达到第一阈值，若该重合度未达到第一阈值，则确定该两帧图像中后一帧图像中的字幕为该新增字幕；若该重合度达到第一阈值，则基于该两帧图像的蒙版，确定该两帧图像中对应位置上的像素点之间的像素差值，在该两帧图像中后一帧图像中，确定该像素差值大于第二阈值的像素点在该后一帧图像中的比例，判断该比例是否达到第三阈值，若该比例达到第三阈值，确定该后一帧图像中的字幕为该新增字幕。

其中，重合度表示该两帧图像的字幕检测框之间的重合程度。第一阈值为预先设定的阈值，如85％。在一些实施例中，重合度达到第一阈值是指重合度大于第一阈值，重合度未达到第一阈值是指重合度小于或等于第一阈值，相应地，重合度达到第一阈值表示两帧图像的字幕检测框匹配，重合度未达到第一阈值表示两帧图像的字幕检测框不匹配。

第二阈值为图像自适应阈值，该第二阈值基于两帧图像的背景部分的像素值均值与字幕部分的像素值均值确定，例如，将该背景部分的像素值均值与字幕部分的像素值均值的差值确定为该第二阈值，或者，将该背景部分的像素值均值与字幕部分的像素值均值的差值的一半确定为该第二阈值。相应地，像素差值大于第二阈值表示两帧图像中对应位置上的像素点的变化较大，像素差值小于或等于第二阈值表示两帧图像中对应位置上的像素点的变化较小。

第三阈值为预先设定的阈值，如75％。在一些实施例中，比例达到第三阈值是指比例大于第三阈值，比例未达到第三阈值是指比例小于或等于第三阈值，相应地，比例达到第三阈值表示变化大的像素点的占比较多，比例未达到第三阈值表示变化大的像素点的占比较少。

在一些实施例中，计算机设备基于该两帧图像的蒙版，确定该两帧图像中对应位置上的像素点之间的像素差值包括：基于该后一帧图像的蒙版，对该两帧图像进行掩码处理，得到掩码处理后的该两帧图像，基于掩码处理后的该两帧图像，确定该两帧图像中对应位置上的像素点之间的像素差值。在该实施例中，利用后一帧图像的蒙版对两帧图像进行掩码处理，能够过滤图像的背景画面对像素差值所产生的影响，使像素差值聚焦于字幕所在位置的像素点，提高了确定像素差值的精确性，从而提升了字幕定位的精确性。

在一些实施例中，确定该两帧图像中对应位置上的像素点之间的像素差值之前，该计算机设备还基于该后一帧图像的字幕检测框，对该两帧图像进行裁剪，得到裁剪后的该两帧图像，基于裁剪后的该两帧图像，确定该两帧图像中对应位置上的像素点之间的像素差值。在该实施例中，利用后一帧图像的字幕检测框对两帧图像进行裁剪，进而基于裁剪后的两帧图像来确定像素差值，能够大大地降低运算量，从而能够提升了像素差值的运算效率。

在上述实施例中，计算机设备基于上述步骤301所提供的字幕检测框进行初筛，基于上述302所确定的蒙版进行精筛，以筛选得到多帧图像中的新增字幕，在另一些实施例中，在基于上述步骤301和步骤302中的任一项，来获取视频中多帧图像的字幕位置的情况下，计算机设备基于上述初筛和精筛中的任一项，来确定相邻的两帧图像中的新增字幕，相应地，计算机设备基于字幕检测框确定两帧图像中的新增字幕的过程为：计算机设备获取该两帧图像的字幕检测框之间的重合度，若该重合度未达到第一阈值，确定该两帧图像中后一帧图像中的字幕为该新增字幕，若该重合度达到第一阈值，确定该两帧图像中的字幕为同一字幕。计算机设备基于蒙版确定两帧图像中的新增字幕的过程为：计算机设备基于该两帧图像的蒙版，确定该两帧图像中对应位置上的像素点之间的像素差值，在该两帧图像中后一帧图像中，确定该像素差值大于第二阈值的像素点在该后一帧图像中的比例，若该比例达到第三阈值，确定该后一帧图像中的字幕为该新增字幕，若该比例未达到第三阈值，确定该两帧图像中的字幕为同一字幕。在本公开实施例中，通过判断两帧图像的字幕检测框之间的重合度是否达到第一阈值，来确定后一帧图像中是否存在新增字幕，能够快速确定出后一帧图像中的新增字幕，提高了确定新增字幕的效率；或者，通过判断两帧图像中对应位置上像素值变化大的像素点的比例是否达到第三阈值，来确定后一帧图像中是否存在新增字幕，能够快速确定出后一帧图像中的新增字幕，提高了确定新增字幕的效率。

示例地，图6是根据一示例性实施例示出的一种新增字幕的示意图，参见图6，图6示出了相邻的两帧图像，其中图6左侧所示出的图像为该两帧图像中前一帧图像，图6右侧所示出的图像为该两帧图像中后一帧图像，可以发现，在图6所示出的前一帧图像和后一帧图像中，字幕A1与字幕A2为匹配成功的同一字幕，字幕B1与字幕B2为匹配成功的同一字幕，而后一帧图像中的字幕B3为匹配失败的字幕，也即是新增字幕。在一些实施例中，若后一帧图像中字幕的数量为多个，则确定后一帧图像中的新增字幕时，基于该后一帧图像中的新增字幕，分别与前一帧图像中的字幕逐一匹配，参见图6，对于后一帧图像中的字幕B1、B2、B3，分别与前一帧图像中的A1和A2逐一匹配，以判断该后一帧图像中是否存在新增字幕。

在一些实施例中，计算机设备提供有字幕匹配模块，该字幕匹配模块提供有判断两帧图像中的字幕是否匹配的功能，相应地，计算机设备利用该字幕匹配模块，来执行上述步骤303中基于该两帧图像的字幕位置，确定该两帧图像中后一帧图像中的新增字幕的过程。

在步骤304中，计算机设备基于该多帧图像中的该新增字幕，确定该新增字幕的起始图像和终止图像，该起始图像表示第一次出现该新增字幕的图像，该终止图像表示最后一次出现该新增字幕的图像。

在一些实施例中，计算机设备确定新增字幕的起始图像的过程为：对于该视频中在该新增字幕所在图像之前的任一帧图像，确定该任一帧图像与该新增字幕所在图像中对应位置上的像素点之间的像素差值，确定该像素差值大于第二阈值的像素点在该新增字幕所在图像中的比例，若该比例达到第三阈值，确定该任一帧图像的后一帧图像为该起始图像。

在一种可选的实施例中，对于该视频中在该新增字幕所在图像之前的图像中，计算机设备按照由后至前的次序，依次确定对应图像与该新增字幕所在图像中对应位置上的像素点之间的像素差值，进而基于该像素差值执行后续确定比例以及判断比例的过程。

在一些实施例中，计算机设备确定新增字幕的起始图像的过程为：对于该视频中在该新增字幕所在图像之后的任一帧图像，确定该任一帧图像与该新增字幕所在图像中对应位置上的像素点之间的像素差值，确定该像素差值大于第二阈值的像素点在该新增字幕所在图像中的比例，若该比例达到第三阈值，确定该任一帧图像的前一帧图像为该终止图像。

在一种可选的实施例中，对于该视频中在该新增字幕所在图像之后的图像中，计算机设备按照由前至后的次序，依次确定对应图像与该新增字幕所在图像中对应位置上的像素点之间的像素差值，进而基于该像素差值执行后续确定比例以及判断比例的过程。

在上述实施例中，通过判断两帧图像中对应位置上像素值变化大的像素点的比例是否达到第三阈值，来确定各个新增字幕的起始图像和终止图像，提高了确定新增字幕的起始图像和终止图像的效率，实现了时序维度上对该新增字幕的定位，从而提升了字幕定位的精确性。

示例地，图7是根据一示例性实施例示出的一种新增字幕的起始图像和终止图像的示意图，参见图7，以图7中包括新增字幕的第t帧为参考帧，在[t-2，t+2]帧图像内，该新增字幕的起始图像为第t-1帧图像，该新增字幕的终止图像为第t+2帧图像，其中，t表示上述帧数区间[t-2，t+2]的中间帧，在该实施例中，该t为大于2的正整数。

在一些实施例中，计算机设备提供有字幕跳变检测模块，该字幕跳变检测模块提供有确定图像中字幕的起始图像和终止图像的功能，相应地，计算机设备利用该字幕跳变检测模块，来执行上述步骤304中确定该新增字幕的起始图像和终止图像的过程。

上述步骤303至步骤304是确定多帧图像中的新增字幕后，再确定各个新增字幕的起始图像和终止图像，在另一些实施例中，计算机设备还能够依次确定该多帧图像中的新增字幕以及确定新增字幕的起始图像和终止图像，在未确定出新增字幕的终止图像的情况下，基于该新增字幕，来确定多帧图像中下一相邻图像的新增字幕。下面以第i帧图像为例，来对该过程进行说明，其中，i表示该多帧图像中的任一帧图像，i为大于或等于N的正整数，相应地，计算机设备在确定该多帧图像中第i帧图像中的新增字幕时，基于第i-N帧图像与该第i帧图像的字幕位置，确定该第i帧图像中的新增字幕；在该视频的第i-N帧图像至第i-1帧图像中，确定该第i帧图像中的新增字幕的起始图像，在该视频的第i+1帧图像至第i+N帧图像中，确定该第i帧图像中的新增字幕的终止图像；若该视频的第i+1帧图像至第i+N帧图像中不存在该新增字幕的终止图像，则基于该第i帧图像，确定第i+N帧图像中的新增字幕；基于该第i+N帧图像中的新增字幕，重复执行上述确定新增字幕、判断是否存在该新增字幕的终止帧图像的步骤，直至获取到该多帧图像中的该新增字幕的终止帧图像。其中，执行一次确定新增字幕、判断是否存在该新增字幕的终止帧图像的步骤的间隔帧数为N。

在上述实施例中，利用视频中一定范围内的图像，来确定多帧图像的新增字幕的起始图像和终止图像，通过判断该一定范围内的图像中是否存在该新增字幕的终止图像，在该一定范围内的图像中不存在该新增字幕的终止图像时，利用该新增字幕所在的图像，来确定多帧图像中下一相邻图像的新增字幕，如此，针对已确定出终止图像的新增字幕，则无需再次执行后续确定下一相邻图像的新增字幕的过程，只需参考未确定终止图像的新增字幕，来确定下一相邻图像的新增字幕，极大地降低了字幕匹配的运算量，提高了字幕定位的效率。

在一些实施例中，计算机设备还设置有字幕队列，用于存储未确定终止图像的新增字幕，以便后续基于字幕队列来执行后续确定新增字幕的过程，相应地，计算机设备在确定该第i帧图像中的新增字幕之后，将该第i帧图像中的新增字幕添加至字幕队列，若该视频的第i+1帧图像至第i+N帧图像中存在该新增字幕的终止图像，则在该字幕队列中删除该第i帧图像中的新增字幕，基于该字幕队列中的新增字幕，执行该确定该第i+N帧图像中的新增字幕的步骤。在该实施例中，通过设置字幕队列，以便后续基于字幕队列来执行后续确定新增字幕的过程，在提高字幕定位的效率的同时，还提高了字幕定位的灵活性。

下面基于一个具体实现流程，来对本公开实施例提供的字幕定位方法进行说明，参见下述步骤(1)至步骤(6)：

(1)在帧数区间[0，2N]内，输入该视频的第0帧图像至第2N帧图像，共计(2N+1)帧图像，利用上述步骤301至步骤302，分别对该视频的第0帧图像和第N帧图像进行字幕位置检测，得到第0帧图像的字幕检测框和蒙版以及第N帧图像的字幕检测框和蒙版，利用上述步骤303基于第0帧图像的字幕检测框和蒙版以及第N帧图像的字幕检测框和蒙版，对第0帧图像和第N帧图像进行字幕匹配，以确定该第N帧图像中的新增字幕，将第0帧图像的字幕和第N帧图像中的新增字幕添加至字幕队列；

(2)对于第0帧图像中的字幕，在该帧数区间中第0帧图像之后的图像中，也即是第1帧图像至第2N帧图像中，确定该字幕的终止图像，若第1帧图像至第2N帧图像中存在该字幕的终止图像，则在该字幕队列中删除该字幕，同时将该字幕输出至结果队列，该结果队列用于存储已确定起始图像和终止图像的字幕，如此，也就完成了针对第0帧图像中字幕的定位；

(3)对于第N帧图像中的新增字幕，在该帧数区间中第N帧图像之前的图像中，也即是第0帧图像至第N-1帧图像中，确定该新增字幕的起始图像，在该帧数区间中第N帧图像之后的图像中，也即是第N+1帧图像至第2N帧图像中，确定该新增字幕的终止图像，若第N+1帧图像至第2N帧图像中存在该新增字幕的终止图像，则在该字幕队列中删除该新增字幕，同时将该新增字幕输出至结果队列，如此，也就完成了针对第N帧图像中新增字幕的定位；

(4)将该帧数区间[0，2N]内的前N帧图像移出，此时该帧数区间内剩余[N，2N]共计N+1帧图像，再将视频接下来的N帧图像输入该帧数区间得到[N，3N]，确保该帧数区间的大小为2N+1，此时，以t来表示该帧数区间的中间帧，[t-N，t)帧图像均已执行过上述确定起始图像和终止图像的过程，对第t帧图像进行字幕位置检测，得到第t帧图像的字幕检测框和蒙版，基于字幕队列内所存储的字幕与第t帧图像进行字幕匹配，以确定该第t帧图像中的新增字幕，将所确定的新增字幕添加至字幕队列，在该实施例中，该t为大于N的正整数；

(5)对于第t帧图像中的新增字幕，在该帧数区间中第t帧图像之前的图像中，确定该新增字幕的起始图像，在该帧数区间中第t帧图像之后的图像中，确定该新增字幕的终止图像，若确定出该新增字幕的终止图像，则在该字幕队列中删除该新增字幕，同时将该新增字幕输出至结果队列，如此，也就完成了针对第t帧图像中新增字幕的定位；对于字幕队列中的字幕(也即是未确定出终止图像的字幕)，在该帧数区间中对应图像之后的图像中，确定该字幕的终止图像，若确定出该字幕的终止图像，则在该字幕队列中删除该字幕，同时将该字幕输出至结果队列；

(6)重复执行上述步骤(4)至(5)，直至该视频遍历完成。

在上述实施例中，提供了一种针对视频中字幕的定位算法，实现了图像算法到视频算法的过渡，在以N帧作为间隔进行检测的基础上，还结合字幕变化不频繁的特点，通过前后帧信息变化来捕获字幕跳变，提供了一种轻量级的匹配算法和跳变检测算法，在提升字幕定位的效率的同时，还提升了的字幕定位的鲁棒性。

图8是根据一示例性实施例示出的一种字幕定位装置的框图。参见图8，该装置包括获取单元801，字幕确定单元802和图像确定单元803。

获取单元801，被配置为执行获取视频中多帧图像的字幕位置，每两帧图像之间间隔N帧，该N为大于1的正整数；

字幕确定单元802，被配置为执行对于该多帧图像中相邻的两帧图像，基于该两帧图像的字幕位置，确定该两帧图像中后一帧图像中的新增字幕，该新增字幕为该两帧图像的前一帧图像中未显示而后一帧图像中显示的字幕；

图像确定单元803，被配置为执行基于该多帧图像中的该新增字幕，确定该新增字幕的起始图像和终止图像，该起始图像表示第一次出现该新增字幕的图像，该终止图像表示最后一次出现该新增字幕的图像。

在一些实施例中，该获取单元801，被配置为执行下述至少一项：

在一些实施例中，该字幕确定单元802，包括下述至少一项：

在一些实施例中，该第二字幕确定子单元，被配置为执行：

在一些实施例中，该图像确定单元803，被配置为执行：

在一些实施例中，该字幕确定单元802，还被配置为执行在确定该多帧图像中第i帧图像中的新增字幕时，基于第i-N帧图像与该第i帧图像的字幕位置，确定该第i帧图像中的新增字幕，该i为大于或等于N的正整数；

该图像确定单元803，还被配置为执行在该视频的第i-N帧图像至第i-1帧图像中，确定该第i帧图像中的新增字幕的起始图像，在该视频的第i+1帧图像至第i+N帧图像中，确定该第i帧图像中的新增字幕的终止图像；

该字幕确定单元802，还被配置为执行若该视频的第i+1帧图像至第i+N帧图像中不存在该新增字幕的终止图像，则基于该第i帧图像，确定第i+N帧图像中的新增字幕；

在一些实施例中，该装置还包括：

该字幕确定单元802，还被配置为执行基于该字幕队列中的新增字幕，执行该确定该第i+N帧图像中的新增字幕的步骤。

需要说明的是：上述实施例提供的字幕定位装置在字幕定位时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的字幕定位装置与字幕定位方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本公开实施例所提到的计算机设备可提供为一种终端。图9是根据一示例性实施例示出的一种终端900的框图。该终端900可以是：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器901所执行以实现本公开中方法实施例提供的字幕定位方法中终端执行的过程。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置在终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在另一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置在终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例所提到的计算机设备可提供为一种服务器。图10是根据一示例性实施例示出的一种服务器的框图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1001和一个或多个的存储器1002，其中，该一个或多个存储器1002中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的字幕定位方法中服务器执行的过程。当然，该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1000还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括程序代码的计算机可读存储介质，例如包括程序代码的存储器902或存储器1002，上述程序代码可由终端900的处理器901或服务器1000的处理器1001执行以完成上述字幕定位方法。在一些实施例中，计算机可读存储介质可以是ROM(Read-Only Memory，只读内存)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact-Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的字幕定位方法。

在一些实施例中，本公开实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种字幕定位方法，其特征在于，所述方法包括：

获取视频中多帧图像的字幕位置，每两帧图像之间间隔N帧，所述N为大于1的正整数；

对于所述多帧图像中相邻的两帧图像，基于所述两帧图像的字幕位置，确定所述两帧图像中后一帧图像中的新增字幕，所述新增字幕为所述两帧图像的前一帧图像中未显示而后一帧图像中显示的字幕；

基于所述多帧图像中的所述新增字幕，确定所述新增字幕的起始图像和终止图像，所述起始图像表示第一次出现所述新增字幕的图像，所述终止图像表示最后一次出现所述新增字幕的图像。

2.根据权利要求1所述的字幕定位方法，其特征在于，所述获取视频中多帧图像的字幕位置包括下述至少一项：

将所述多帧图像分别输入第一字幕检测模型，通过所述第一字幕检测模型，基于字幕检测框对所述多帧图像的字幕位置进行检测，所述字幕检测框用于指示对应图像的字幕位置，所述第一字幕检测模型基于至少一帧图像以及所述至少一帧图像的字幕位置训练得到；

将所述多帧图像分别输入第二字幕检测模型，通过所述第二字幕检测模型对所述多帧图像的字幕位置进行检测，得到所述多帧图像的蒙版，所述蒙版用于指示对应图像的字幕位置，所述第二字幕检测模型基于至少一帧图像以及所述至少一帧图像对应的蒙版训练得到。

3.根据权利要求2所述的字幕定位方法，其特征在于，所述基于所述两帧图像的字幕位置，确定所述两帧图像中后一帧图像中的新增字幕包括下述至少一项：

获取所述两帧图像的字幕检测框之间的重合度，若所述重合度未达到第一阈值，确定所述两帧图像中后一帧图像中的字幕为所述新增字幕，所述重合度表示所述两帧图像的字幕检测框之间的重合程度；

基于所述两帧图像的蒙版，确定所述两帧图像中对应位置上的像素点之间的像素差值，在所述两帧图像中后一帧图像中，确定所述像素差值大于第二阈值的像素点在所述后一帧图像中的比例，若所述比例达到第三阈值，确定所述后一帧图像中的字幕为所述新增字幕。

4.根据权利要求3所述的字幕定位方法，其特征在于，所述确定所述两帧图像中对应位置上的像素点之间的像素差值之前，所述方法还包括：

基于所述后一帧图像的字幕检测框，对所述两帧图像进行裁剪，得到裁剪后的所述两帧图像；

基于裁剪后的所述两帧图像，执行所述确定所述两帧图像中对应位置上的像素点之间的像素差值的步骤。

5.根据权利要求3所述的字幕定位方法，其特征在于，所述基于所述两帧图像的蒙版，确定所述两帧图像中对应位置上的像素点之间的像素差值包括：

基于所述后一帧图像的蒙版，对所述两帧图像进行掩码处理，得到掩码处理后的所述两帧图像；

基于掩码处理后的所述两帧图像，确定所述两帧图像中对应位置上的像素点之间的像素差值。

6.根据权利要求1所述的字幕定位方法，其特征在于，所述基于所述多帧图像中的所述新增字幕，确定所述新增字幕的起始图像和终止图像包括：

对于所述视频中在所述新增字幕所在图像之前的任一帧图像，确定所述任一帧图像与所述新增字幕所在图像中对应位置上的像素点之间的像素差值，确定所述像素差值大于第二阈值的像素点在所述新增字幕所在图像中的比例，若所述比例达到第三阈值，确定所述任一帧图像的后一帧图像为所述起始图像；

对于所述视频中在所述新增字幕所在图像之后的任一帧图像，确定所述任一帧图像与所述新增字幕所在图像中对应位置上的像素点之间的像素差值，确定所述像素差值大于第二阈值的像素点在所述新增字幕所在图像中的比例，若所述比例达到第三阈值，确定所述任一帧图像的前一帧图像为所述终止图像。

7.一种字幕定位装置，其特征在于，所述装置包括：

获取单元，被配置为执行获取视频中多帧图像的字幕位置，每两帧图像之间间隔N帧，所述N为大于1的正整数；

字幕确定单元，被配置为执行对于所述多帧图像中相邻的两帧图像，基于所述两帧图像的字幕位置，确定所述两帧图像中后一帧图像中的新增字幕，所述新增字幕为所述两帧图像的前一帧图像中未显示而后一帧图像中显示的字幕；

图像确定单元，被配置为执行基于所述多帧图像中的所述新增字幕，确定所述新增字幕的起始图像和终止图像，所述起始图像表示第一次出现所述新增字幕的图像，所述终止图像表示最后一次出现所述新增字幕的图像。

8.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至6中任一项所述的字幕定位方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的程序代码由计算机设备的处理器执行时，使得计算机设备能够执行如权利要求1至6中任一项所述的字幕定位方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的字幕定位方法。