CN107862315B

CN107862315B - 字幕提取方法、视频搜索方法、字幕分享方法及装置

Info

Publication number: CN107862315B
Application number: CN201711064954.9A
Authority: CN
Inventors: 王星星
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2019-09-17
Anticipated expiration: 2037-11-02
Also published as: CN107862315A

Abstract

本申请提供一种字幕提取方法、视频搜索方法、字幕分享方法及装置、存储介质，该方法包括：获取待处理图像；检测所述待处理图像中的字幕区域，并将所述字幕区域的图像提取出来作为第一字幕图像；去除所述第一字幕图像中的背景，得到第二字幕图像；采用预先训练的卷积自编码器模型对所述第二字幕图像进行去噪，得到第三字幕图像；对所述第三字幕图像进行字符识别，得到字幕文本。

Description

字幕提取方法、视频搜索方法、字幕分享方法及装置

技术领域

本申请涉及媒体内容处理技术领域，尤其是涉及一种字幕提取方法、视频搜索方法、字幕分享方法及装置、存储介质。

背景技术

目前，安装在手机、电脑或者智能电视等终端设备上的视频客户端已经成为人们观看视频的重要工具。人们在观看视频的过程中看到比较一些比较喜欢或者特别的台词，想要将其保存下来或者分享给好友，在此场景下或者其他有需要提取字幕的场景下，有必要提供一种能够在视频画面中提取出字幕的方案。

发明内容

本申请实例提供一种字幕提取方法、视频搜索方法、字幕分享方法及装置、存储介质，以解决如何提高字幕提取中的字符识别准确度的问题。

本申请实例提供的字幕提取方法包括：

获取待处理图像；

检测所述待处理图像中的字幕区域，并将所述字幕区域的图像提取出来作为第一字幕图像；

去除所述第一字幕图像中的背景，得到第二字幕图像；

采用预先训练的卷积自编码器模型对所述第二字幕图像进行去噪，得到第三字幕图像；

对所述第三字幕图像进行字符识别，得到字幕文本。

在一些实施例中，对所述第一字幕图像进行锐化处理，包括：

确定所述第一字幕图像的清晰度和字符面积；

根据所述第一字幕图像的清晰度和字符面积，确定用于对所述第一字幕图像中的字符进行锐化处理的强度参数；

根据所述强度参数，对所述第一字幕图像进行锐化处理。

在一些实施例中，对所述第一字幕图像进行亮度调整，包括：

确定所述第一字幕图像的平均亮度；

根据所述平均亮度，对所述第一字幕图像的亮度进行调整。

在一些实施例中，对所述第一字幕图像进行对比度调整，包括：

统计所述第一字幕图像的亮度分布情况；

根据所述亮度分布情况，对所述第一字幕图像的对比度进行调整。

在一些实施例中，所述网络结构为第一网络结构，所述卷积自编码器模型还包括至少一个第二网络结构，所述至少一个第二网络结构设置在任意两个第一网络结构之间；每一个第二网络结构包括至少一个网络单元，还包括与所述至少一个网络单元连接的第二下采样层；每一个网络单元包括第五卷积层和第二上采样层，第二下采样层的输入信息为所连接的网络单元的输出信息和各个网络单元的输入信息的加权求和；除了第一个网络单元之外的每一个网络单元的输入信息为该网络单元的上一个网络单元的输出信息以及该网络单元之前的各个网络单元的输入信息的加权求和。

在一些实施例中，所述第一网络结构和所述第二网络结构的数量均为两个，第一个第二网络结构中第一个网络单元的输入信息为该网络单元所连接的第一个第一网络结构的输出信息和第一卷积层的输出信息的加权求和；第一个第一网络结构中第四卷积层的输出信息为第一卷积层的输出信息和第一下采样层的输出信息的加权求和。

对应的，本申请实例提供的字幕提取装置包括：

获取模块，用于获取待处理图像；

检测模块，用于检测所述待处理图像中的字幕区域，并将所述字幕区域的图像提取出来作为第一字幕图像；

去背景模块，用于去除所述第一字幕图像中的背景，得到第二字幕图像；

去噪模块，用于采用预先训练的卷积自编码器模型对所述第二字幕图像进行去噪，得到第三字幕图像；

识别模块，用于对所述第三字幕图像进行字符识别，得到字幕文本。

在一些实例中，检测模块具体用于：采用预先训练的目标检测模型检测所述待处理图像中的字幕区域；其中，所述目标检测模型包括依次连接的输入层、多个隐含层以及输出层；所述多个隐含层包括初始层和融合层，所述初始层能够将所述待处理图像处理成不同分辨率和尺寸的特征图，所述融合层为对每一初始层进行上采样，并对每两个相邻的上采样层进行均值处理后得到。

在一些实施例中，所述卷积自编码器模型包括依次连接的输入层、第一卷积层、至少一个网络结构、第二卷积层和输出层；其中，每一个网络结构包括依次连接的第三卷积层、下采样层、第四卷积层和上采样层。

在一些实施例中，去背景模块具体用于：提取所述第一字幕图像中的字符轮廓；对所述第一字幕图像进行二值化处理，得到对应的二值图像；将所述字符轮廓和所述二值图像进行对比，确定所述第一字幕图像的背景区域，并将所述背景区域内像素的颜色值修改为预设值，得到所述第二字幕图像；其中，所述预设值不同于字符区域内像素的颜色值。

在一些实施例中，去背景模块用于提取所述第一字幕图像中的字符轮廓的过程包括：采用至少两种不同的边缘检测算法分别从所述第一字幕图像中提取候选字符轮廓；将采用所述至少两种不同的字符边缘检测算法提取出的所述候选字符轮廓进行融合，得到目标字符轮廓。

在一些实施例中，去背景模块用于对所述第一字幕图像进行二值化处理的过程包括：确定所述第一字幕图像中每个像素的平均颜色值；根据所述平均颜色值，确定用于进行二值化处理的二值化阈值；根据所述二值化阈值，对所述第一字幕图像进行二值化处理。

在一些实施例中，去背景模块用于对所述第一字幕图像进行二值化处理之前，还包括：对所述第一字幕图像进行预处理，所述预处理包括锐化处理、亮度调整和对比度调整中的至少一种。

在一些实施例中，去背景模块用于对所述第一字幕图像进行锐化处理的过程包括：确定所述第一字幕图像的清晰度和字符面积；根据所述第一字幕图像的清晰度和字符面积，确定用于对所述第一字幕图像中的字符进行锐化处理的强度参数；根据所述强度参数，对所述第一字幕图像进行锐化处理。

在一些实施例中，去背景模块用于对所述第一字幕图像进行亮度调整的过程包括：确定所述第一字幕图像的平均亮度；根据所述平均亮度，对所述第一字幕图像的亮度进行调整。

在一些实施例中，去背景模块用于对所述第一字幕图像进行对比度调整，包括：统计所述第一字幕图像的亮度分布情况；根据所述亮度分布情况，对所述第一字幕图像的对比度进行调整。

本申请实例提供的字幕提取方法，由客户端设备执行，该方法具体包括：

获取待处理图像；

去除所述第一字幕图像中的背景，得到第二字幕图像；

对所述第三字幕图像进行字符识别，得到字幕文本。

本申请实例提供的视频搜索方法包括：

采用上述字幕提取方法提取视频的多帧图像中每一帧图像中的字幕文本；

将每一帧图像对应的字幕文本及其所属视频的标识和在所属视频中的播放时间发送至服务器，以便所述服务器将每一帧图像对应的字幕文本与其所属视频的视频标识和在所属视频中的播放时间相关联；

响应于利用字幕文本进行视频搜索的操作，向所述服务器发送视频搜索请求，以使所述服务器根据该字幕文本关联的视频标识和播放时间确定该字幕文本对应的播放信息；

接收所述服务器发送的该字幕文本对应的播放信息；

展示该字幕文本对应的播放信息。

在一些实施例中，该字幕文本关联的视频标识对应的视频有多个；该字幕文本对应的播放信息有多条，该字幕文本关联的视频标识对应的视频和该字幕文本对应的播放信息一一对应；

所述响应于对该字幕文本对应的播放信息所对应的视频的播放操作，向所述服务器发送针对所述视频的视频播放请求，包括：

响应于对该字幕文本对应的任一条播放信息所对应的视频的播放操作，向所述服务器发送针对该条播放信息对应的视频的视频播放请求。

对应的，本申请实例提供的视频搜索装置包括：

第一提取模块，用于预先采用上述字幕提取装置提取视频的多帧图像中每一帧图像中的字幕文本；以及将每一帧图像对应的字幕文本及其所属视频的标识和在所属视频中的播放时间发送至服务器，以便所述服务器将每一帧图像对应的字幕文本与其所属视频的视频标识和在所属视频中的播放时间相关联；

请求模块，用于响应于利用字幕文本进行视频搜索的操作，向所述服务器发送视频搜索请求，以使所述服务器根据该字幕文本关联的视频标识和播放时间确定该字幕文本对应的播放信息；

接收模块，用于接收所述服务器发送的该字幕文本对应的播放信息；

展示模块，用于展示该字幕文本对应的播放信息。

本申请实例提供的视频搜索方法，由客户端设备执行，该方法具体包括：

接收所述服务器发送的该字幕文本对应的播放信息；

展示该字幕文本对应的播放信息。

本申请实例提供的字幕分享方法包括：

响应于对视频播放界面中字幕分享控件的操作，采用上述字幕提取方法对所述视频播放界面中的字幕文本进行提取，并将提取的字幕文本发布在选定的社交平台上。

在一些实施例中，所述将提取的字幕文本发布在选定的社交平台上包括：

展示社交平台的选择界面，响应于在该选择界面中对社交平台的选择操作，将提取的字幕文本发布在所选定的社交平台上。

对应的，本申请实例提供的字幕分享装置包括：

第二提取模块，用于响应于对视频播放界面中字幕分享控件的操作，采用上述字幕提取装置对所述视频播放界面中的字幕文本进行提取；

发布模块，用于将提取的字幕文本发布在选定的社交平台上。

本申请实例提供的字幕分享方法，由客户端设备执行，该方法具体包括：

本申请实例提供的存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

基于上述技术方案，首先去除字幕图像中的背景，在去除背景后，再利用卷积自编码器对字幕图像进行去噪，可以将去除背景后的字幕图像中剩余的较细微的噪声去除，从而得到干净的字幕图像，进而对干净的字幕图像进行字符识别，得到字幕文本。由于在字符识别之前对字幕图像进行了去背景和去噪的处理，可以提高字符识别的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实例涉及的系统架构图；

图2是本申请一个实例中字幕提取方法的流程示意图；

图3a是本申请一个实例中一种SSD模型的结构示意图；

图3b是本申请一个实例中采用的多个候选框的示意图；

图4a是本申请一个实例中一张第一字幕图像的示意图；

图4b是与图4a对应的第二字幕图像的示意图；

图5是对图4a进行二值化处理后的二值图像；

图6a是本申请一个实例中卷积自编码器模型的结构示意图；

图6b是图6a中的一个第一网络结构的结构示意图；

图6c是本申请一个实例中卷积自编码器模型的结构示意图；

图6d是图6c中的一个第二网络结构的结构示意图；

图6e是图6c中第一个第一网路结构的结构示意图；

图7是本申请一个实例中视频搜索方法的流程示意图；

图8是本申请一个实施例中采用字幕文本进行视频搜索的示意图；

图9是图8的一种搜索结果的示意图；

图10是图8的另一种搜索结构的示意图；

图11是本申请一个实施例中设置有字幕分享控件的视频播放界面的示意图；

图12是本申请一个实施例中背景图片选择的界面示意图；

图13是本申请一个实施例中分享平台的界面示意图；

图14是本申请一个实施例中字幕提取装置的结构示意图；

图15是本申请一个实施例中视频搜索装置的结构示意图；

图16是本申请一个实施例中字幕分享装置的结构示意图；

图17是本申请一个实施例中计算机设备的结构示意图。

具体实施方式

本申请提出了一种字幕提取方法，该方法适用的系统架构如图1所示。该系统架构包括：客户端设备101和服务器102，客户端设备101和服务器102之间通过通信网络103连接，其中：

上述客户端设备101可以是用户的智能手机、电脑、智能电视或者与传统电视连接的电视盒子，其上安装有各种应用软件的客户端软件，用户可以通过上述客户端设备登录并使用各种应用软件的客户端，该应用软件的客户端可以为多媒体软件的客户端，例如，视频客户端。

上述服务器102可以是一台服务器，也可以是服务器集群，与客户端设备101上安装的客户端相对应，可以为客户端设备提供相应的媒体内容服务。例如，服务器102可以是为视频客户端提供视频服务的视频服务器。

上述通信网络103可以局域网(Local Area Network，LAN)、城域网(MetropolitanArea Network，MAN)、广域网(Wide Area Network，WAN)、移动网络、有线网络或者无线网络、专用网络等。

本申请实例提供一种字幕提取方法，该方法可以由客户端设备101执行，如图2所示，该方法包括：

S201、获取待处理图像；

上述待处理图像，为对其进行字幕(或台词)提取的图像。举例来说，一用户正在观看某视频，当观看到某一画面时，用户很喜欢画面中的台词，想要将其保存下来或者发到朋友圈，这时该画面为待处理图像。

S202、检测所述待处理图像中的字幕区域，并将所述字幕区域的图像提取出来作为第一字幕图像；

上述字幕区域检测的过程，也可以称为字幕区域定位的过程，该过程可以采用目标检测模型来实现，例如，SSD模型。

下面对可以采用的一种SSD模型进行简单介绍：

如图3a所示，目标检测模型包括依次连接的输入层301、多个隐含层302和输出层304，其中输入层301用于输入待处理图像，不同的隐含层302可以将待处理图像处理成不同分辨率和尺寸的特征图303，隐含层302和特征图303一一对应，一个隐含层302可以得到一个对应的特征图303。输出层304用于输出字幕区域。在每一个隐含层上采用不同长宽比的候选框进行检测，可以得到不同的候选字幕区域；然后采用分类器对候选字幕区域进行分类，即可得到字幕区域。如果通过分类器得到的字幕区域有多种，还可以采用某种方式选择其中一个字幕区域作为最终的字幕区域用于后续的处理。例如，在分类器得到的多个字幕区域中选择某个长宽比的字幕区域，再例如，在分类器得到的多个字幕区域中选择某个面积在某个范围内的字幕区域，当然还可以采用其他的方式选择一个字幕区域。

下面对还可以采用的另一种SSD模型进行简单介绍：

目标检测模型包括依次连接的输入层、多个隐含层和输出层，所述多个隐含层包括初始层和融合层，所述初始层由所述待处理图像生成且具有不同分辨率和尺寸，所述融合层为对每一初始层进行上采样，并对每两个相邻的上采样层进行均值处理后得到。这种SSD模型中的初始层与上一种SSD模型中的隐含层相同，在这种SSD模型的隐含层中增加了融合层，融合层是对相邻的初始层进行上采样之后求均值得到的，相当于这两个相邻的初始层之间的过渡层。当进行字幕区域检测时，在初始层和融合层上均采用不同长宽比的候选框进行检测，因此相对于上一SSD模型，这种SSD模型能够选择出更加合适的字幕区域。同样的，这种SSD模型也可采用分类器对检测得到的候选字幕区域进行识别，甚至可以进一步采用某种方式从分类器得到的多个字幕区域中选择某个字幕区域最为最终的字幕区域。

其中，。如图3b所示，在上述两种SSD模型中的候选框的比例可以为1：1、1:3、1：5、1:7、1:9等。由于字幕区域一般相较于其他区域的长宽相差较大，因此其中1：5、1:7、1:9这种长宽相差较大的比例更适合字幕区域的检测，当然还可以采用其他长宽相差较大的候选框。

可理解的是，这里只介绍了两种SSD模型作为目标检测模型，当然还可以采用其他的目标检测模型进行字幕区域检测。

S203、去除所述第一字幕图像中的背景，得到第二字幕图像；

在第一字幕图像中字符之外的区域为背景区域，将其去掉，可以避免对字符的干扰，有利于后续字符的识别。图4a为一张第一字幕图像，图4b为对图4a去除背景后得到的第二字幕图像，可以看出去除背景后，背景非常干净，非常有利于后续的字符识别。

在该步骤中，去掉背景的方式有多种，例如，可以通过对第一字幕图像进行二值化处理，得到对应的二值图像，可以将二值图像作为去掉背景后的第二字幕图像。再例如，可以提取第一字幕图像中的字符轮廓，将字符轮廓之外的区域作为背景区域，将背景区域中像素的颜色值修改为不同于字符轮廓中像素的颜色值，实现去掉背景。当然，还可以将上述两种方式结合，实现背景去除，具体包括：

S2031、提取所述第一字幕图像中的字符轮廓；

在该步骤中，提取字符轮廓的方式有多种，例如，Roberts边缘提取算法，Sobel边缘提取算法。在实际中，还可以采用至少两种不同的边缘检测算法分别从所述第一字幕图像中提取候选字符轮廓，这样可以得到至少两个候选字符轮廓；然后将这至少两个候选字符轮廓进行融合，得到目标字符轮廓。也就是说，将这至少两个候选字符轮廓的共同部分作为目标字符轮廓。举例来说，分别采用Roberts和Sobel边缘提取算法对第一字幕图像进行字符轮廓提取，然后将得到的两个候选字符轮廓的共同部分作为目标字符轮廓。

S2032、对所述第一字幕图像进行二值化处理，得到对应的二值图像；

在该步骤中，二值化处理的过程可以参考以下过程：

S20321、确定所述第一字幕图像中每个像素的平均颜色值；

该步骤可以具体：对第一字幕图像中的各个像素的颜色值进行求和，然后再除以像素的个数，即可得到每个像素的平均颜色值。

S20322、根据所述平均颜色值，确定用于进行二值化处理的二值化阈值；

可理解的是，平均颜色值约到，二值化阈值越大。

S20323、根据所述二值化阈值，对所述第一字幕图像进行二值化处理。

这里根据第一字幕图像中每个像素的平均颜色值确定二值化阈值，即二值化阈值的确定是一个动态且自适应的过程，不同的第一字幕图像可以确定出不同的二值化阈值，该二值化阈值是适合该第一字幕图像的二值化参数。

图5为对图4a进行二值化处理后的二值图像，这样处理后有利于分析哪些区域为背景区域，哪些区域为字符区域。但是从图5中可以看出，由于部分背景的干扰，二值图像并不理想，所以如果仅根据二值图像去除背景可能会影响后续字符识别的准确度，因此本申请实例中还结合了字符轮廓综合确定背景区域，以便获得更准确的背景区域。

S2033、将所述字符轮廓和所述二值图像进行对比，确定所述第一字幕图像的背景区域，并将所述背景区域内像素的颜色值修改为预设值，得到所述第二字幕图像；其中，所述预设值不同于字符区域内像素的颜色值。

在该步骤中，将字符轮廓和二值图像进行对比的过程，实际上是求交集，即通过字符轮廓可以确定背景区域，通过二值图像也可以确定背景区域，这两个背景区域共同的部分作为最终的背景区域。

在上述过程中步骤S2031和S2032之间没有先后顺序关系。

为了使二值化处理之后的字幕图像更加理想，可以在进行二值化处理之前，对第一字幕图像进行一定的预处理，例如，锐化处理、亮度调整和对比度调整等中的至少一种。

其中，锐化处理的过程大致可以包括以下步骤：

确定所述第一字幕图像的清晰度和字符面积；根据所述第一字幕图像的清晰度和字符面积，确定用于对所述第一字幕图像中的字符进行锐化处理的强度参数；根据所述强度参数，对所述第一字幕图像进行锐化处理。这里，在进行锐化处理的过程，不但要考虑字符面积，还可以清晰度，可以快速调整字符边缘细节的对比度，使得画面整体更加清晰。

当然，锐化的过程还可以仅考虑字符面积，例如，采用分割算法，将第一字幕图像分隔为单个字体，然后计算字体的面积大小，预先设置一个曲线函数，该函数的输入为字体的大小，输出为进行锐化处理的强度参数，也就是说，采用该曲线函数可以确定适合对该字体进行锐化处理的强度参数。

其中，亮度调整的过程大致可以包括以下步骤：

确定所述第一字幕图像的平均亮度；根据所述平均亮度，对所述第一字幕图像的亮度进行调整。

在根据平均亮度对第一字幕图像的亮度进行调整的过程，例如，平均亮度较低，可以将第一字幕图像的亮度进行整体提高。再例如，平均亮度较高，可以将第一字幕图像的亮度进行整体降低。这里，根据平均亮度对第一字幕图像的亮度进行调整，使其亮度适中，便于后续的处理。

其中，对比度调整的过程大致可以包括以下步骤：

统计所述第一字幕图像的亮度分布情况；根据所述亮度分布情况，对所述第一字幕图像的对比度进行调整。亮度分布情况可以采用直方图的形式表现。这里，采用亮度分布情况对其对比度进行调整，例如，可以增加对比度，这样便于后续的二值化处理。

即便在去除背景之后，图像中还可以存在一些噪点，因此可以采用步骤S204进行去噪。

S204、采用预先训练的卷积自编码器模型对所述第二字幕图像进行去噪，得到第三字幕图像；

上述卷积自编码器模型有多种，其中一种包括：依次连接的输入层、第一卷积层、至少一个第一网络结构、第二卷积层和输出层；其中，每一个第一网络结构包括依次连接的第三卷积层、第一下采样层、第四卷积层和第一上采样层。

举例来说，如图6a和图6b所述，为上述卷积自编码器的一种具体结构：在第一卷积层和第二卷积层之间有设置两个第一网络结构，每一个第一网络结构包括第三卷积层、第一下采样层、第四卷积层和第一上采样层。

在实际应用时，将第二字幕图像输入卷积自编码器，卷积自编码器对第二字幕图像进行处理，采用各层结构筛选第二字幕图像中的主要图像特征，从而将比较细微的噪声去除。

当然，卷积自编码器不止以上一种结构，例如，还可以包括至少一个第二网络结构，该至少一个第二网络结构可以设置在上述任意两个相邻的第一网络结构之间。例如，如图6c所示，在两个第一网络结构之间设置有两个第二网络结构。

其中，每一个第二网络结构包括依次连接的至少一个网络单元，还包括与所述至少一个网络单元连接的第二下采样层；每一个网络单元包括第五卷积层和第二上采样层，第二下采样层的输入信息为所连接的网络单元的输出信息和各个网络单元的输入信息的加权求和；除了第一个网络单元之外的每一个网络单元的输入信息为该网络单元的上一个网络单元的输出信息以及该网络单元之前的各个网络单元的输入信息的加权求和。如图6d所示，每一个第二网络结构包括设置了两个网络单元。至于其中的权重，可以预先设置。

在设置两个第一网络结构和两个第二网络结构，且两个第二网络结构设置在两个第一网络结构之间的情况下，如图6c所示，第一个第二网络结构中第一个网络单元的输入信息为该网络单元所连接的第一个第一网络结构的输出信息和第一卷积层的输出信息的加权求和；另外，如图6e所示，第一个第一网络结构中第四卷积层的输出信息为第一卷积层的输出信息和第一下采样层的输出信息的加权求和。

这种结构的卷积自编码器的特点在于利用多层feature map做了叠加运算，叠加运算优点在于：上层网络层的图像特征向下层网络层传递时，图像主要特征能够更好的得以保留，图像主要特征不会在神经网络层之间传递时衰减，在输出层才会更好的保留主要特征，仅去除细微的噪点。

可理解的是，上述第一个第二网络结构是指从数据流方向第一个出现的第二网络结构，第一个第一网路结构也是从数据流方向第一个出现的第一网络结构。同理，第一个网络单元也是如此。

S205、对所述第三字幕图像进行字符识别，得到字幕文本。

在步骤S205中，可以采用多种字符识别方法进行识别，具体的识别过程这里不再举例。

本申请实例提供的字幕提取方法，首先去除字幕图像中的背景，在去除背景后，再利用卷积自编码器对字幕图像进行去噪，可以将去除背景后的字幕图像中剩余的较细微的噪声去除，从而得到干净的字幕图像，进而对干净的字幕图像进行字符识别，得到字幕文本。由于在字符识别之前对字幕图像进行了去背景和去噪的处理，可以提高字符识别的准确度。

在一些实例中，由于识别算法始终不能做到100％的准确度，因此还可以在视频客户端上提供反馈功能，以供用户能够将识别错误的字幕文本进行反馈，视频客户端在接收到用户的反馈之后，可以将反馈信息发送至后台的服务器，这样服务器可以将错误的字词加入错误字典库，这样视频客户端在进行字符识别时可以从后台服务器拉取错误字典库，以对识别出的字幕文本中的错误字词进行替换。举例来说，视频客户端识别出的字幕文本为“你门也许并不是好哥门但他很喜欢你”，通过拉取后台的错误字典库并进行替换后，可以得到字幕文本“你们也许不是好哥们但他很喜欢你”。

在一些实施例中，由于对字幕图像进行去背景、去噪之后可能会造成字符出现缺损的情况，因此在对去噪后的字幕图像进行字符识别之前还可以对其进行缺损修复，具体可以采用文字修复网络模型，具体采用哪种字体修复网络模型，本申请实例不做限定。

上述字幕提取方法可以应用在视频搜索、字幕分享等应用场景中，例如，基于上述字幕提取方法，本申请实例还提供一种视频搜索方法，该方法也可以由客户端设备101执行，如图7所示，该方法具体可以包括：

S701、采用上述任一字幕提取方法提取视频的多帧图像中每一帧图像中的字幕文本；

可理解的是，针对每一帧图像，可以采用上述步骤S201～S204提取其中的字幕文本，其有关内容的解释、举例等内容可以参考步骤S201～S204中的相关内容，此处不再赘述。

S702、将每一帧图像对应的字幕文本及其所属视频的视频标识和在所属视频中的播放时间发送至服务器，以便所述服务器将每一帧图像对应的字幕文本与其所属视频的视频标识和在所属视频中的播放时间相关联；

上述视频标识为视频的ID，作为视频的属性信息，不同的视频具有不同的视频标识，因此可以用来对不同的视频加以区分。

上述播放时间是指字幕文本在视频中出现的时间，该时间可以用帧号表示，例如，在第x帧图像上出现了这样的字幕文本。播放时间也可以由时间表示，例如。在播放到第x分第y秒时出现了这样的字幕文本。

这里将字幕文本、字幕文本所属视频的视频标识、字幕文本的播放时间发送给服务器，这样服务器在接收到这些信息时可以对字幕文本、视频标识和播放时间进行关联，并存储，以便于后续的查询。

S703、响应于利用字幕文本进行视频搜索的操作，向所述服务器发送视频搜索请求，以使所述服务器根据该字幕文本关联的视频标识和播放时间确定该字幕文本对应的播放信息；

举例来说，如图8所示，当用户在视频客户端的搜索框中输入文本“花谢花飞花满天”，当用户输入文本之后点击搜索，视频客户端响应于这一操作，便向视频服务器发送视频搜索请求，在视频搜索请求中携带有“花谢花飞花满天”这一字幕文本。当视频服务器在接收到这一字幕文本时，在存储的字幕文本中进行搜索，查找到“花谢花飞花满天”这一字幕文本及其关联的视频标识和播放时间，并根据这些视频标识、播放时间等信息生成相应的播放信息发送给视频客户端。

上述播放信息，可以包括视频名称和字幕文本所在视频的集数，例如，“花谢花飞花满天”这一字幕文本所属视频的名称《红楼梦》、且在第12集中黛玉葬花的部分出现的，因此播放信息会有《红楼梦》、第12集以及第12集的具体出现时间等。当然，播放信息还可以包括视频链接，例如，字符串形式的链接地址、视频海报形式的链接。当用户点击这一链接时，可以直接跳转到“花谢花飞花满天”这一字幕文本出现的那一帧图像并开始播放。当然，播放信息还可以包括视频的导演姓名、主演姓名、开播时间等相关信息。

S704、接收所述服务器发送的该字幕文本对应的播放信息；

S705、展示该字幕文本对应的播放信息。

当视频客户端接收到服务器发送来的播放信息之后，会在界面中展示这些播放信息，这些播放信息形成搜索结果，以供用户进行选择或者播放。

以图8中的搜索内容为例，搜索结果的展示界面如图9所示，从图9的搜索结果可以看出，“花谢花飞花满天”出自《红楼梦》第12集中的字幕，当点击海报上的播放控件后即可跳转到出现“花谢花飞花满天”的那一帧图像上并开始播放。

至此实现了根据字幕文本进行视频的搜索，这样可以在用户不记得或不知道片名的前提下，搜索到想要看的视频。

当用户想要观看视频时，点击作为播放信息的视频连接，直接跳转到字幕文本对应的播放界面，或者，根据搜索到的视频名称、所在集数等再次进行搜索，然后在播放界面中将进度条调整到对应的播放时间即可。针对前者，具体的播放过程可以包括：

响应于对该字幕文本对应的播放信息所对应的视频的播放操作，向所述服务器发送针对所述视频的视频播放请求，以便所述服务器根据该字幕文本对应的播放信息确定该字幕文本关联的视频标识和播放时间，并提供该视频标识对应的视频中该播放时间之后的视频流；接收所述视频流并播放。

也就是说，服务器在接收到播放请求后，会将播放时间之后的视频流发送给视频客户端，以供客户端进行播放，从而用户可以端看所搜索的字幕文本出现的那一帧图像开始观看视频。

当然，还可能存在一种情况：用户输入搜索框的字幕文本可能属于多个视频中的字幕文本，也就是说，字幕文本关联的视频标识对应的视频有多个，这样可以搜素结果包括多条播放信息。其中，字幕文本关联的视频标识对应的视频和该字幕文本对应的播放信息一一对应。在这种情况下，由于搜索结果中有多条播放信息，用户可以自行选择，当用户选择其中任一条播放信息时，视频客户端响应于用户对该字幕文本对应的上述任一条播放信息所对应的视频的播放操作，向所述服务器发送针对该条播放信息对应的视频的视频播放请求。视频服务器则会向视频客户端提供用户所选择的视频。

举例来说，如图10所示，当输入“花谢花飞花满天”进行搜索之后，还搜索到电视剧《花谢花飞花满天》。用户看到该搜索结果可以在其中选择一个进行播放。例如，用户点击了电视剧《花谢花飞花满天》海报上的播放控件，则会向视频服务器发送播放《花谢花飞花满天》的请求，服务器便会提供该电视剧中开始出现“花谢花飞花满天”这一字幕的播放时间以及以后的视频流。当在同一个视频中有两个播放时间均出现了所搜索的字幕文本，则会在搜索界面上显示出这两个播放时间的相关信息，例如，在《花谢花飞花满天》的第1集和第5集中均出现了“花谢花飞花满天”的字幕文本，则会在搜索结果中展示第1集和第5集的视频链接。

以上提供了一种字幕提取方法应用的具体场景，当然还可以应用在其他场景中。基于上述字幕提取方法，本申请实例还提供一种字幕分享方法，该方法也可以由客户端设备101执行，具体可以包括：

举例来说，在图11中，在视频的播放界面的右上角有一个字幕分享控件110，当用户点击该控件110后，视频客户端响应于用户的操作，会采用上述字幕提取方法对当前视频播放界面中的字幕文本进行提取，进而将提取到的字幕文本发布在微博、朋友圈、qq空间等社交平台上。

当然，用户在发布字幕文本之前，还可以选择一种背景图片，例如，选择当前视频播放界面中的这一图像作为背景图像，还可以通过相机拍摄或者从本地相册中选择一张作为背景图像，因此在发布字幕文本之前，视频客户端还可以展示背景图片的选择界面，当用户选择好背景图片后，视频客户端响应于对背景图片的选择操作，将提取出来的字幕文本设置在所选定的背景图片上，例如，将字幕文本印在所选定的背景图片上，然后再将设置有字幕文本的背景图片发布在社交平台上。

举例来说，如图12所示，用户可以通过界面中的选项选择背景图片的来源，进而在所选定的来源中选择一张图片，例如，从本地相册中选择一种作为背景图片。

由于社交平台是非常多的，有qq空间、朋友圈、微博等，因此在对字幕文本进行发布时，视频客户端可以展示社交平台的选择界面，当用户在选择界面中选择一社交平台后，视频客户端响应于在选择界面上的选择操作，将提取的字幕文本或者设置有字幕文本的背景图片发布在所选定的社交平台上。

举例来说，图13为一个社交平台选择界面，在界面中，用户可以选择想要分享的社交平台。例如，用户选择了微信朋友圈进行分享。

本申请实例还提供一种字幕提取装置，如图14所示，该装置1400包括：

获取模块1401，用于获取待处理图像；

检测模块1402，用于检测所述待处理图像中的字幕区域，并将所述字幕区域的图像提取出来作为第一字幕图像；

去背景模块1403，用于去除所述第一字幕图像中的背景，得到第二字幕图像；

去噪模块1404，用于采用预先训练的卷积自编码器模型对所述第二字幕图像进行去噪，得到第三字幕图像；

识别模块1405，用于对所述第三字幕图像进行字符识别，得到字幕文本。

在一些实例中，检测模块1402具体用于：采用预先训练的目标检测模型检测所述待处理图像中的字幕区域；其中，所述目标检测模型包括依次连接的输入层、多个隐含层以及输出层；所述多个隐含层包括初始层和融合层，所述初始层能够将所述待处理图像处理成不同分辨率和尺寸的特征图，所述融合层为对每一初始层进行上采样，并对每两个相邻的上采样层进行均值处理后得到。

在一些实施例中，去背景模块1403具体用于：提取所述第一字幕图像中的字符轮廓；对所述第一字幕图像进行二值化处理，得到对应的二值图像；将所述字符轮廓和所述二值图像进行对比，确定所述第一字幕图像的背景区域，并将所述背景区域内像素的颜色值修改为预设值，得到所述第二字幕图像；其中，所述预设值不同于字符区域内像素的颜色值。

在一些实施例中，去背景模块1403用于提取所述第一字幕图像中的字符轮廓，的过程包括：采用至少两种不同的边缘检测算法分别从所述第一字幕图像中提取候选字符轮廓；将采用所述至少两种不同的字符边缘检测算法提取出的所述候选字符轮廓进行融合，得到目标字符轮廓。

在一些实施例中，去背景模块1403用于对所述第一字幕图像进行二值化处理的过程包括：确定所述第一字幕图像中每个像素的平均颜色值；根据所述平均颜色值，确定用于进行二值化处理的二值化阈值；根据所述二值化阈值，对所述第一字幕图像进行二值化处理。

在一些实施例中，去背景模块1403用于对所述第一字幕图像进行二值化处理之前，还包括：对所述第一字幕图像进行预处理，所述预处理包括锐化处理、亮度调整和对比度调整中的至少一种。

在一些实施例中，去背景模块1403用于对所述第一字幕图像进行锐化处理的过程包括：确定所述第一字幕图像的清晰度和字符面积；根据所述第一字幕图像的清晰度和字符面积，确定用于对所述第一字幕图像中的字符进行锐化处理的强度参数；根据所述强度参数，对所述第一字幕图像进行锐化处理。

在一些实施例中，去背景模块1403用于对所述第一字幕图像进行亮度调整的过程包括：确定所述第一字幕图像的平均亮度；根据所述平均亮度，对所述第一字幕图像的亮度进行调整。

在一些实施例中，去背景模块1403用于对所述第一字幕图像进行对比度调整，包括：统计所述第一字幕图像的亮度分布情况；根据所述亮度分布情况，对所述第一字幕图像的对比度进行调整。

可理解的是，本申请实例中提供的字幕提取装置为上述字幕提取方法相对应，其有关内容的解释、说明和举例请参考上述字幕提取方法中的相应部分，此处不再赘述。

本申请实例还提供一种视频搜索装置，如图15所示，该装置1500包括：

第一提取模块1501，用于预先采用上述字幕提取装置提取视频的多帧图像中每一帧图像中的字幕文本；以及将每一帧图像对应的字幕文本及其所属视频的标识和在所属视频中的播放时间发送至服务器，以便所述服务器将每一帧图像对应的字幕文本与其所属视频的视频标识和在所属视频中的播放时间相关联；

请求模块1502，用于响应于利用字幕文本进行视频搜索的操作，向所述服务器发送视频搜索请求，以使所述服务器根据该字幕文本关联的视频标识和播放时间确定该字幕文本对应的播放信息；

接收模块1503，用于接收所述服务器发送的该字幕文本对应的播放信息；

展示模块1504，用于展示该字幕文本对应的播放信息。

在一些实例中，视频搜索装置还包括：

播放模块，用于响应于对该字幕文本对应的播放信息所对应的视频的播放操作，向所述服务器发送针对所述视频的视频播放请求，以便所述服务器根据该字幕文本对应的播放信息确定该字幕文本关联的视频标识和播放时间，并提供该视频标识对应的视频中该播放时间之后的视频流；接收所述视频流并播放。

在一些实施例中，该字幕文本关联的视频标识对应的视频有多个；该字幕文本对应的播放信息有多条，该字幕文本关联的视频标识对应的视频和该字幕文本对应的播放信息一一对应；播放模块具体：响应于对该字幕文本对应的任一条播放信息所对应的视频的播放操作，向所述服务器发送针对该条播放信息对应的视频的视频播放请求。

可理解的是，本申请实例中提供的视频搜索装置为上述视频搜索方法相对应，其有关内容的解释、说明和举例请参考上述视频搜索方法中的相应部分，此处不再赘述。

本申请实例还提供一种字幕分享装置，如图16所示，该装置1600包括：

第二提取模块1601，用于响应于对视频播放界面中字幕分享控件的操作，采用上述字幕提取装置对所述视频播放界面中的字幕文本进行提取；

发布模块1602，用于用于将提取的字幕文本发布在选定的社交平台上。

在一些实例中，字幕分享装置还包括：

第一选择模块，用于展示背景图片的选择界面，响应于在该选择界面中对背景图片的选择操作，将提取出的字幕文本设置在所选定的背景图片上；

其中，发布模块1602用于将设置有字幕文本的背景图片发布在预设社交平台上。

在一些实施例中，发布模块1602具体用于：展示社交平台的选择界面，响应于在该选择界面中对社交平台的选择操作，将提取的字幕文本发布在所选定的社交平台上。

可理解的是，本申请实例中提供的字幕分享装置为上述字幕分享方法相对应，其有关内容的解释、说明和举例请参考上述字幕分享方法中的相应部分，此处不再赘述。

本申请实例还提供一种存储介质，例如，非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述方法的步骤，例如，字幕提取方法、视频搜索方法、字幕分享方法等。

本申请实例还提供一种计算机设备，该设备可以为服务器，如图17所示，该计算机设备包括一个或者多个处理器(CPU)1702、通信模块1704、存储器1706、用户接口1710，以及用于互联这些组件的通信总线1708，其中：

处理器1702可通过通信模块1704接收和发送数据以实现网络通信和/或本地通信。

用户接口1710包括一个或多个输出设备1712，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口1710也包括一个或多个输入设备1714，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器1706可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器1706存储处理器1702可执行的指令集，包括：

操作系统1716，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用1718，包括用于字幕提取、视频搜索和/或字幕分享等的各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括字幕提取装置、视频搜索装置和/或字幕分享装置中的部分或者全部指令模块或单元。处理器1702通过执行存储器1706中各单元中至少一个单元中的机器可执行指令，进而能够实现上述各单元或模块中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实例也可以体现为软件产品。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和/或内存)中执行。因此，这样的存储介质也构成了本申请，本申请还提供了一种非易失性存储介质，其中存储有数据处理程序，这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。

图17模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

以上所述仅为本申请的较佳实例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种字幕提取方法，其特征在于，包括：

获取待处理图像；

去除所述第一字幕图像中的背景，得到第二字幕图像；

对所述第三字幕图像进行字符识别，得到字幕文本；

其中，所述检测所述待处理图像中的字幕区域，包括：

采用预先训练的目标检测模型检测所述待处理图像中的字幕区域；

其中，所述目标检测模型包括依次连接的输入层、多个隐含层以及输出层；所述多个隐含层包括初始层和融合层，所述初始层能够将所述待处理图像处理成不同分辨率和尺寸的特征图，所述融合层为对每一初始层进行上采样，并对每两个相邻的上采样层进行均值处理后得到；

其中，所述卷积自编码器模型包括依次连接的输入层、第一卷积层、至少一个网络结构、第二卷积层和输出层；其中，每一个网络结构包括依次连接的第三卷积层、下采样层、第四卷积层和上采样层；所述卷积自编码器模型还包括至少一个第二网络结构，所述至少一个第二网络结构设置在任意两个相邻的第一网络结构之间；每一个第二网络结构包括依次连接的至少一个网络单元以及与所述至少一个网络单元连接的一个第二下采样层；每一个网络单元包括第五卷积层和第二上采样层，所述第二下采样层的输入信息为所连接的网络单元的输出信息和各个网络单元的输入信息的加权求和；每一个第二网络结构中除了第一个网络单元之外的每一个网络单元的输入信息为该网络单元的上一个网络单元的输出信息以及该网络单元之前的各个网络单元的输入信息的加权求和；第一个第二网络结构中第一个网络单元的输入信息为该网络单元所连接的第一个第一网络结构的输出信息和第一卷积层的输出信息的加权求和；第一个第一网络结构中第四卷积层的输入信息为第一卷积层的输出信息和第一下采样层的输出信息的加权求和。

2.根据权利要求1所述的方法，其特征在于，所述去除所述第一字幕图像中的背景，包括：

提取所述第一字幕图像中的字符轮廓；

对所述第一字幕图像进行二值化处理，得到对应的二值图像；

将所述字符轮廓和所述二值图像进行对比，确定所述第一字幕图像的背景区域，并将所述背景区域内像素的颜色值修改为预设值，得到所述第二字幕图像；其中，所述预设值不同于字符区域内像素的颜色值。

3.根据权利要求2所述的方法，其特征在于，所述提取所述第一字幕图像中的字符轮廓，包括：

采用至少两种不同的边缘检测算法分别从所述第一字幕图像中提取候选字符轮廓；

将采用所述至少两种不同的字符边缘检测算法提取出的所述候选字符轮廓进行融合，得到目标字符轮廓。

4.根据权利要求2所述的方法，其特征在于，所述对所述第一字幕图像进行二值化处理，包括：

确定所述第一字幕图像中每个像素的平均颜色值；

根据所述平均颜色值，确定用于进行二值化处理的二值化阈值；

根据所述二值化阈值，对所述第一字幕图像进行二值化处理。

5.根据权利要求2所述的方法，其特征在于，所述对所述第一字幕图像进行二值化处理之前，所述方法还包括：

对所述第一字幕图像进行预处理，所述预处理包括锐化处理、亮度调整和对比度调整中的至少一种。

6.一种视频搜索方法，其特征在于，包括：

预先采用权利要求1～5任一项所述的方法提取视频的多帧图像中每一帧图像中的字幕文本；以及将每一帧图像对应的字幕文本及其所属视频的标识和在所属视频中的播放时间发送至服务器，以便所述服务器将每一帧图像对应的字幕文本与其所属视频的视频标识和在所属视频中的播放时间相关联；

接收所述服务器发送的该字幕文本对应的播放信息；

展示该字幕文本对应的播放信息。

7.根据权利要求6所述的方法，其特征在于，还包括：

响应于对该字幕文本对应的播放信息所对应的视频的播放操作，向所述服务器发送针对所述视频的视频播放请求，以便所述服务器根据该字幕文本对应的播放信息确定该字幕文本关联的视频标识和播放时间，并提供该视频标识对应的视频中该播放时间之后的视频流；

接收所述视频流并播放。

8.一种字幕分享方法，其特征在于，包括：

响应于对视频播放界面中字幕分享控件的操作，采用权利要求1～7任一所述的字幕提取方法对所述视频播放界面中的字幕文本进行提取，并将提取的字幕文本发布在选定的社交平台上。

9.根据权利要求8所述的方法，其特征在于，所述将提取的字幕文本发布在选定的社交平台上之前，还包括：

展示背景图片的选择界面，响应于在该选择界面中对背景图片的选择操作，将提取出的字幕文本设置在所选定的背景图片上；

其中，所述将提取的字幕文本发布在选定的社交平台上，包括：

将设置有字幕文本的背景图片发布在预设社交平台上。

10.一种字幕提取装置，其特征在于，包括：

获取模块，用于获取待处理图像；

识别模块，用于对所述第三字幕图像进行字符识别，得到字幕文本；

其中，所述检测模块具体用于：采用预先训练的目标检测模型检测所述待处理图像中的字幕区域；

11.一种视频搜索装置，其特征在于，包括：

第一提取模块，用于预先采用权利要求10所述的字幕提取装置提取视频的多帧图像中每一帧图像中的字幕文本；以及将每一帧图像对应的字幕文本及其所属视频的标识和在所属视频中的播放时间发送至服务器，以便所述服务器将每一帧图像对应的字幕文本与其所属视频的视频标识和在所属视频中的播放时间相关联；

展示模块，用于展示该字幕文本对应的播放信息。

12.一种字幕分享装置，其特征在于，包括：

第二提取模块，用于响应于对视频播放界面中字幕分享控件的操作，采用权利要求10所述的字幕提取装置对所述视频播放界面中的字幕文本进行提取；

13.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～9任一所述方法的步骤。