CN111832529A

CN111832529A - 视频文本转换方法、移动终端和计算机可读存储介质

Info

Publication number: CN111832529A
Application number: CN202010721682.0A
Authority: CN
Inventors: 黄任
Original assignee: Shenzhen Microphone Holdings Co Ltd
Current assignee: Shenzhen Microphone Holdings Co Ltd; Shenzhen Transsion Holdings Co Ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-10-27

Abstract

本申请公开了一种视频文本转换方法，包括以下步骤：对待转换视频的当前关键帧的内容进行识别；确定所述当前关键帧具有文本内容，将所述当前关键帧作为目标关键帧；将所述目标关键帧的文本内容转换为文本文档。本申请还公开了一种终端设备和计算机可读存储介质。本申请可以节省文档转换时间，进而提高视频转文档的转换效率。

Description

视频文本转换方法、移动终端和计算机可读存储介质

技术领域

本申请涉及文字识别域，尤其涉及一种视频文本转换方法、移动终端和计算机可读存储介质。

背景技术

随着科技的进步，人们获取和记录信息的方式越来越多，例如通过录制视频、拍照等方式来获取信息。在一些场景中，人们更喜欢采用录制视频的方式来获取和记录信息，如在PPT演示场景下，用户为了方便，一般采用录制视频的方式实时记录PPT内容。然后采用视频记录PPT内容存在后续复习不方便的问题，如用户需要点开视频进行播放，视频播放过程中需要不断的暂停来获得PPT当前播放页面的内容，因此用户往往希望能够直接获取到视频内的文本文档。

因此出现了视频文本转换技术，然而示例性视频文本转换技术中，一般将视频的所有视频帧转换成文本文档，得到文本文档后，由用户人工手动删去一些无效的文档，这种视频转换文档的过程需要对所有视频帧进行文本转换处理，耗时长，效率低。

上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

发明内容

本申请的主要目的在于提供一种视频文本转换方法、移动终端和计算机可读存储介质，旨在解决现有视频文本转换的过程耗时长，效率低的技术问题。

为实现上述目的，本申请提供一种视频文本转换方法，所述视频文本转换方法包括以下步骤：

对待转换视频的当前关键帧的内容进行识别；

确定所述当前关键帧具有文本内容，将所述当前关键帧作为目标关键帧；

将所述目标关键帧的文本内容转换为文本文档。

可选地，所述对所述待转换视频的当前关键帧的内容进行识别的步骤包括：

识别所述待转换视频的当前关键帧的内容中是否存在文本标识；

若是，则判定所述当前关键帧具有文本内容。

可选地，所述文本标识包括文本边框。

可选地，所述确定所述当前关键帧具有文本内容，将所述当前关键帧作为目标关键帧的步骤包括：

确定所述当前关键帧具有文本内容，识别所述文本内容中的文字信息；

确定识别到所述文本内容中的文字信息，将所述当前关键帧作为目标关键帧。

确定所述当前关键帧具有文本内容，获取文本区域；

根据所述文本区域裁剪所述当前关键帧，形成以所述文本区域作为画面的裁剪关键帧；

将所述裁剪关键帧作为所述目标关键帧。

可选地，所述将所述裁剪关键帧作为所述目标关键帧步骤包括：

识别所述裁剪关键帧的形状；

若所述裁剪关键帧的形状与预设形状不匹配，根据所述预设形状调整所述裁剪关键帧，以调整后的所述裁剪关键帧作为所述目标关键帧。

可选地，所述预设形状包括矩形和正方形中的一种。

可选地，所述文本区域为文本边框所包围的区域。

可选地，所述获取文本区域的步骤包括：

若所述当前关键帧的内容中包含至少两个所述文本边框，获取满足预设条件的文本边框；

以所述满足预设条件的文本边框所包围的区域作为所述文本区域。

若所述当前关键帧具有文本内容，获取所述当前关键帧的三原色分布比例；

获取所述当前关键帧的三原色分布比例与上一关键帧的三原色分布比例的误差；

若所述误差在预设误差范围之外，则将所述当前关键帧作为所述目标关键帧。

可选地，所述视频文本转换方法的步骤还包括：

若所述误差在预设误差范围之内，则将所述当前关键帧删除。

可选地，执行保存所述目标关键帧的步骤同时，还执行：

保存所述目标关键帧的三原色分布比例。

可选地，同一文本内容对应的三原色分布比例相同。

可选地，所述将所述目标关键帧的文本内容转换为文本文档的步骤之后，还包括：

获取所述文本文档的文字内容与前一目标关键帧的文本文档的文字内容的匹配度；

若所述匹配度大于预设阈值，获取文字内容多的目标文本文档；

保存所述目标文本文档。

为了实现上述目的，本申请还提供一种移动终端，所述移动终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频文本转换程序，所述视频文本转换程序被所述处理器执行时实现如上所述的视频文本转换方法的各个步骤。

为了实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有视频文本转换程序，所述视频文本转换程序被处理器执行时实现如上所述的视频文本转换方法的各个步骤。

本申请实施例提出的一种视频文本转换方法、移动终端和计算机可读存储介质，通过识别待转换视频的当前关键帧的内容，确定所述当前关键帧具有文本内容后，再对所述当前关键帧进行文本文档转换，而对于不具有文本内容的关键帧，不进行文本文档转换处理，可以节省文档转换时间，进而提高视频转文档的转换效率。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图；

图2是本申请提供的视频文本转换方法第一实施例的流程示意图；

图3是本申请提供的视频文本转换方法第二实施例中S20的一实施例细化流程示意图；

图4是本申请提供的视频文本转换方法第三实施例中S20的另一实施例细化流程示意图；

图5是图4中S25的细化流程示意图；

图6是本申请提供的视频文本转换方法第四实施例中S23的细化流程示意图；

图7是本申请提供的视频文本转换方法第五实施例中S20的又一实施例细化流程示意图；

图8是本申请提供的视频文本转换方法第六实施例的流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例的主要解决方案是：对待转换视频的当前关键帧的内容进行识别；确定所述当前关键帧具有文本内容，将所述当前关键帧作为目标关键帧；将所述目标关键帧的文本内容转换为文本文档。

如图1所示，图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。

本申请实施例终端可以是PC，也可以是智能手机、平板电脑等具有拍照和显示功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、传感器、音频电路、WiFi模块等等。其中。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频文本转换程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的视频文本转换程序，并执行以下操作：

对待转换视频的当前关键帧的内容进行识别；

将所述目标关键帧的文本内容转换为文本文档。

进一步地，处理器1001可以调用存储器1005中存储的视频文本转换程序，还执行以下操作：

若是，则判定所述当前关键帧具有文本内容。

确定所述当前关键帧具有文本内容，获取文本区域；

将所述裁剪关键帧作为所述目标关键帧。

识别所述裁剪关键帧的形状；

进一步地，处理器1001可以调用存储器1005中存储的视频文本转换程序，还可以执行以下操作：

若所述当前关键帧内的容中包含至少两个所述文本边框，获取满足预设条件的文本边框；

保存所述目标关键帧的三原色分布比例。

保存所述目标文本文档。

参照图2，本申请提供一种视频文本转换方法第一实施例，所述视频文本转换方法包括：

步骤S10，对待转换视频的当前关键帧的内容进行识别；

步骤S20，确定所述当前关键帧具有文本内容，将所述当前关键帧作为目标关键帧；

步骤S30，将所述目标关键帧的文本内容转换为文本文档。

本实施例执行主体可以为可移动的终端设备，如手机、平板电脑或相机等，所述手机、平板电话和相机均具有拍照功能。或者，本实施例执行主体还可以为服务器等终端设备，该服务器与手机、平板电脑或相机连接，所述手机、平板电话和相机均具有拍照功能。

若执行主体为上述具有拍照功能的终端设备，则所述终端设备实时录取的视频，或者终端设备中保存的视频为所述待转换视频。可以在视频录取结束后，触发视频转换指令，对待转换视频进行文本转换；也可以在录取结束后，由用户手动触发视频转换指令，对待转换视频进行文本转换。若执行主体为上述与具有拍照功能的终端设备连接的服务器，则所述终端设备上传给服务器的视频为所述待转换视频，当接收到终端设备上传的视频后，对所述待转换视频进行文本转换。

所述待转换视频以录制课程的视频为主，如讲师在播放PPT讲义进行课程讲解时，学生采用终端设备在录制PPT讲义，如此不需要边听课边记录，后续可以通过录制的视频记录PPT的内容。本实施例对所述待转换视频进行文本文档转换，可以节省用户通过播放录制的视频来做笔记的时间。

本实施例以终端设备作为执行主体说明视频转文本的具体过程：

本实施例终端设备具有文本内容识别功能，所述终端设备从待转换视频的初始关键帧开始，识别每个关键帧的内容，当识别到关键帧具有文本内容时，则将所述关键帧的文本内容转换为文本文档。通过对视频的关键帧的内容进行识别，仅对具有文本内容的关键帧进行转文本处理，基于文本识别的速度远快于提取文档的速度，本实施例相对于示例性技术中，先提取视频所有关键帧的内容形成文档，然后再舍去文档中无效部分的方式，本实施例可以减少视频文本转换的时间，提高视频转文本的效率。

具体地，本实施例通过预设文本标识来识别关键帧中是否包含文本内容。所述文本标识可以为文本边框。具体对待转换视频的当前关键帧的内容进行识别的步骤包括：

若是，则判定所述当前关键帧具有文本内容。和/或，

若否，则判定所述当前关键帧不具有文本内容，则终端设备获取所述待转换视频的下一关键帧，识别所述下一关键帧的内容。

终端设备获取到所述待转换视频的当前关键帧后，识别所述当前关键帧的内容中是否存在预设的文本边框，若存在，则说明当前关键帧具有文本内容；若不存在，则说明当前关键帧不具有文本内容，此时，不对所述当前关键帧进行文档转换处理，以节省文档转换时间。

需要说明书的是，本实施例中的内容识别技术可以采用图像识别技术，直接识别所述当前关键帧中是否包含所述文本标识。

确定所述当前关键帧具有文本内容，将所述当前关键帧作为目标关键帧；然后将所述目标关键帧的文本内容转换为文本文档，并保存所述文本文档，如此实现对当前关键帧的内容的文本提取。

终端设备对所述待转换视频的所有关键帧进行识别后，并对具有文本内容的关键帧进行文档转换后，得到文本文档集，该文本文档集包含所述待转档视频的所有文本内容。

在本实施例中，通过识别待转换视频的当前关键帧的内容，确定所述当前关键帧具有文本内容后，再对所述当前关键帧进行文本文档转换，而对于不具有文本内容的关键帧，不进行文本文档转换处理，可以节省文档转换时间，进而提高视频转文档的转换效率。

进一步的，基于上述第一实施例，为了进一步提高文本文档的转换效率，请参照图3，本申请提供的视频文本转换方法的第二实施例，所述S20包括：

S21，确定所述当前关键帧具有文本内容，识别所述文本内容的文字信息；

S22，确定识别到所述文本内容中的文字信息，将所述当前关键帧作为目标关键帧。

确定识别到所述文本内容中不具有文字信息时，删除所述当前关键帧。

对待转换视频的当前关键帧的内容进行识别后，确定所述当前关键帧具有文本内容时，由于文本内容是通过文本标识确定的，具有文本标识的当前关键帧也有可能存在文本内容模糊不清楚的情况，在文本内容模糊不清楚的情况下进行文本文档转换时，可能会出现转换的文档为乱码的情况，文本文档转接效果不佳，且还增加文本文档转换时间。

因此，在本实施例中，确定所述当前关键帧具有文本内容时，识别所述文本内容的文字信息；确定识别到所述文本内容中的文字信息时，再对所述当前关键帧进行文本文档转换处理，和/或，若确定识别不到所述文本内容中有文字信息时，则说明当前关键帧中的文本内容模糊不清楚，若对所述当前关键帧进行强行转换，则出现乱码的情况，此时，删除所述当前关键帧，终端设备对下一关键帧的内容进行识别，以省去对所述当前关键帧进行文本文档转换的处理，提高视频转文档的转换效率。

再进一步的，基于上述第一实施例或第二实施例，为了防止终端设备对目标的文本内容以外的文本进行提取，降低文本文档的转换效率，本实施例提出视频文本转换方法的第三实施例，具体请参照图4，所述步骤S20包括：

S23，确定所述当前关键帧具有文本内容，获取文本区域；

S24，根据所述文本区域裁剪所述当前关键帧，形成以所述文本区域作为画面的裁剪关键帧；

S25，将所述裁剪关键帧作为所述目标关键帧。

可以理解的是，终端设备在录制视频过程中，基于录制过程的任何可能性，视频中不会仅包括文本内容，可能还会包括其它内容，为了减少文本内容的识别量，减少文本文档的转换时间，本实施例设置只对目标的文本内容进行提取转换，目标的文本内容之外的其它内容不进行识别和提取，较少文本内容的识别量，降低文本文档的转换效率。

具体地，所述文本区域为文本边框所包围的区域。基于所述文本边框为预设的文本标识。终端设备识别到所述当前关键帧具有所述文本标识后，也即所述当前关键帧具有所述文本边框后，获取所述文本边框，以所述文本边框作为边界，沿所述边界裁剪所述当前关键帧，形成以所述文本区域作为画面的裁剪关键帧。通过裁剪的方式，将所述文本区域之外的其它区域删除，使得所述当前关键帧为所述裁剪关键帧，如此，在文本文档转换过程中，只对所述文本区域内的文本内容进行转换，省去对其它文本内容的提取和转换，提高文本文档的转换效率。其中，本实施例所述裁剪关键帧为所述当前关键帧按照所述文本区域裁剪后保存的关键帧。

本实施例设置所述文本区域为目标文本内容所在的区域，所述文本区域之外的其它内容不属于目标文本内容，通过裁剪所述文本区域的方式，可以删除除目标文本内容之外的内容，仅对所述文本区域的内容进行提取和转换，可以节省提取和转换数量，减少文本文档的转换时间。

进一步地，为了提高识别准确度，进而提高文本文档的转换效率，请参照图5，所述S25包括：

S251，识别所述裁剪关键帧的形状；

S252，判断所述裁剪关键帧的形状与预设形状是否匹配；

S253，若不匹配，则根据所述预设形状调整所述裁剪关键帧，以调整后的所述裁剪关键帧作为所述目标关键帧。

和/或，若匹配，则以所述裁剪关键帧作为所述目标关键帧。

其中，所述预设形状包括矩形和正方形中的一种。

视频录制过程中，可能基于终端设备晃动，或者人为移动终端设备时，可能会出现文本区域倾斜的情况，因此，本实施例中在截取到所述裁剪关键帧后，识别所述裁剪关键帧的形状，识别所述裁剪关键帧是否倾斜，若倾斜，则调正后再进行文档转换，使得文字识别更准确。

具体地，预设目标关键帧的形状，如预设形状为矩形或正方形等，识别出所述裁剪关键帧的形状后，将所述裁剪关键帧与预设形状进行匹配，若所述裁剪关键帧与所述预设形状匹配，则判定所述裁剪关键没有倾斜，和/或，若所述裁剪关键帧与所述预设形状不匹配，则判定所述裁剪关键帧倾斜。

在所述裁剪关键帧的形状与预设形状不匹配时，根据所述预设形状调整所述裁剪关键帧，其中，调整方式包括旋转和/或拉伸，以使所述裁剪关键帧与所述预设形状匹配。

基于上述第三实施例，本申请提供的视频文本转换方法的第四实施例，请参照图6，所述获取文本区域的步骤包括：

S231，若所述当前关键帧的内容中包括至少两个所述文本边框，获取满足预设条件的文本边框；

S232，以所述满足预设条件的文本边框所包围的区域作为所述文本区域。

其中，所述文本边框与预设文本边框匹配时，判定所述文本边框满足预设条件；

或者，获取所有文本边框中尺寸最大的文本边框，判定所述尺寸最大的文本边框满足预设条件。

本实施例基于上述第三实施例，基于上述第三实施例为了减少文本内容的识别量，减少文本文档的转换时间，设置只对目标文本内容进行提取转换，目标文本内容之外的其它内容不进行识别和提取，减少文本内容的识别量，降低文本文档的转换效率，具体获取文本区域，通过文本区域确定目标文本内容。然而，实际视频录制场景中，有可能存在同一视频帧中具有多个文本区域(具有多个文本边框)，然而多个文本区域中，一般只有PPT对应的文本区域的内容才是目标文本内容。

在第三实施例中，终端设备会对所有文本区域内的内容进行提取和文档转换。然而部分文本区域内的内容不是用户想要的，若此时将所有文本区域的内容均转换成文档，不仅还需用户手动删除，而且还增加了文本文档的转换时间。

本实施例基于此提出若所述当前关键帧的内容中包括至少两个所述文本边框时，也即终端设备识别到所述当前关键帧中具有至少两个文本区域时，根据程序设定规则获取满足预设条件的文本边框，以所述满足预设条件的文本边框所包围的区域作为目标的文本区域，然后根据目标的所述文本区域裁剪所述当前关键帧，只保留目标的所述文本区域。

其中，程序设定规则可以为预设文本边框，将多个文本边框依次与所述预设文本边框进行比对，获取与所述预设文本边框匹配的文本边框，将所述与预设文本边框匹配的文本边框所围合的区域为所述文本区域，然后对所述文本区域进行裁剪，只对裁剪后的所述文本区域进行文本文档识别和转换。其中，与所述预设文本边框匹配可以包括形状匹配，和/或尺寸匹配，所述预设文本边框可以通过用户手动设置，或者可以将第一关键帧中的文本区边框作为所述预设文本边框，或者将只有一个文本边框的关键帧中的文本边框作为所述预设文本边框。

或者程序设定规则可以为将所有所述文本边框进行一一比对，获取尺寸最大的文本边框，以尺寸最大的文本边框所包围的区域作为所述文本区域，然后对所述文本区域进行裁剪，只对裁剪后的所述文本区域进行文本文档识别和转换。由于在视频录制过程中，主要以PPT所呈现的文本边框作为录制的主要边框，因此一般来而言，PPT所呈现的文本边框的尺寸一般都比较大，因此通过比对文本边框的尺寸的方式，可以获取PPT的文本边框，实现对目标文本内容的截取。

本实施例中，若所述当前关键帧的内容中包括至少两个所述文本边框，只对满足预设条件的文本边框进行裁剪，进而只对该文本边框对应的内容进行文本文档的提取和转换，可以省去对所述文本边框之外的其它内容进行识别和转档，用户可以免去对文档的删减，还可以更进一步提高文本文档的转换效率。

参照图7，本申请提供的视频文本转换方法的第五实施例，基于上述所有实施例，所述确定所述当前关键帧具有文本内容，将所述当前关键帧作为目标关键帧的步骤包括：

S26，若所述当前关键帧具有文本内容，获取所述当前关键帧的三原色分布比例；

S27，获取所述当前关键帧的三原色分布比例与上一关键帧的三原色分布比例的误差；

S28，若所述误差在预设误差范围之外，则将所述当前关键帧作为所述目标关键帧。和/或，

S29，若所述误差在预设误差范围之内，则将所述当前关键帧删除。

其中，在所述将所述目标关键帧的文本内容转换为文本文档的步骤之后，还包括：保存所述目标关键帧的三原色分布比例。故而在获取到所述当前关键帧的三原色分布比例后，可以与预先存储的上一关键帧的三原色分布比例进行比较。

基于同一文本内容对应的三原色分布比例相同，若当前关键帧与上一关键帧的三原色比例相同或相差不大，则说明当前关键帧与上一关键帧中的文本内容为同一文本内容，为了避免文本文档重复转换，增加文本文档的转换量，增加转换时间，本实施例在视频文本转换过程中，通过与上一关键帧的三原色分布比例进行比对，删除文本文档相同的关键帧，避免重读转档。

需要说明的是，三原色指红色、绿色和蓝色，图像是通过三原色组合形成不同的图案或文字，终端设备在录制视频过程中，同一文本内容对应的图案和文字相同，因此同一文本内容对应的关键帧的三原色分布比例均相同，其中，所述三原色分布比例是文本内容中所有字体的总的三原色分布比例。

本实施例在确定所述当前关键帧具有文本内容时，获取所述当前关键帧的三原色分布比例，将所述当前关键帧的三原色比例和上一关键帧的三原色比例进行比对，若所述当前关键帧的三原色分布比例与上一关键帧的三原色分布比例的误差在预设误差范围之内，则判定所述当前关键帧与上一关键帧为同一文本内容对应的关键帧，为了避免重读转换，删除所述当前关键帧，终端设备执行S10对下一关键帧的内容进行识别。和/或，若所述误差在所述预设误差范围之外，则说明当前关键帧对应的文本内容与上一关键帧对应的文本内容不同，为下一页文本内容，此时终端设备执行S30对所述当前关键帧的文本内容进行文本文档转换。

可以理解的是，所述预设误差范围可以在0～30％之间。

本实施例视频文本转换过程可以有效的避免同一文本内容重复进行文档转换，减少文档转换量，更进一步提高文档转换效率。

进一步地，参照图8，本申请提供的视频文本转换方法的第六实施例，基于上述所有实施例，所述将所述目标关键帧的文本内容转换为文本文档的步骤之后，还包括：

S40，获取所述文本文档的文字内容与前一目标关键帧的文本文档的文字内容的匹配度；

S50，判断所述匹配度是否大于或等于预设阈值；

S60，若是，获取文字内容多的目标文本文档；

S70，保存所述目标文本文档。和/或，

S80，若否，则保存所述文本文档。

其中，所述目标文本文档可以是上一关键帧对应的文本文档，也可以是所述当前关键帧对应的文本文档。若所述目标文本文档为前一目标关键帧的文本文档，则删除当前关键帧对应的文本文档；和/或，若目标文本文档为当前关键帧的文本文档，则删除前一目标关键帧的文本文档。

本实施例基于第一至五实施例，由于视频录制过程中，同一文本内容具有多个关键帧，终端设备在视频文本转换过程中，同一文本内容对应的关键帧文本文档转换后，文档的重复率较高，为了避免需要用户手动删除重复文档，在将所述目标关键帧的文本内容转换为文本文档之后，获取所述文本文档的文字内容，对比所述当前关键帧的文本文档的内容与上一关键帧的文本文档的内容，以获取匹配度，当所述匹配度大于或等于预设阈值时，说明所述当前关键帧对应的文本文档与所述上一关键帧的文本文档相同，只保存其中一文本文档即可，其余文本文档删除。具体本实施例根据文字内容多少确定需要保存的目标文本文档，使得当关键帧中部分内容被遮挡没有录制到时，文本文档的文字内容提取不全的情况下，仍能保存最全的文本文档。若所述匹配度小于所述预设阈值，则说明所述当前关键帧对应的文本文档与所述上一关键帧的文本文档不相同，则需要保存所述当前关键帧对应的文本文档。

本实施例基于上述第四实施例时，在视频文本转换过程中，通过当前关键帧的三原色分布比例与上一关键帧的三原色分布比例的误差确定当前关键帧与上一关键帧是否为同一文本内容对应的关键帧，若是，则删除所述当前关键帧，无需重复进行文档转换，因此，在第四实施例中，文本文档的重复率较低。然而，在视频录制过程中，可能会出现文本内容被遮挡的情况，如讲师走动时遮挡PPT内容。此时，当前关键帧的三原色分布比例与上一关键帧的三原色分布比例的误差可能在预设误差范围之外，终端设备对所述当前关键帧的内容进行识别和提取，得到文本文档，然而当前关键帧的文本文档与上一关键帧的文本文档仍有可能是同一页的文本内容转换得到的，因此为了避免在这种场景下转换得到的文本文档出现重复，本实施例将所述目标关键帧的文本内容转换为文本文档之后，获取所述文本文档的文字内容与前一目标关键帧的文本文档的文字内容的匹配度；判断所述匹配度是否大于或等于预设阈值，若是，获取文字内容多的目标文本文档，保存所述目标文本文档，删除其他文本文档。和/或，若否，则保存所述文本文档。其中，保存文本内容多的目标文本文档，可以确保转换的文本文档的内容最全，提高文本转换效果。

所述预设阈值可以为70％～100％，所述匹配度是根据两个文本文档的字数和/或文字的匹配度确定的。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如上各种可能的实施方式中所述的方法。

本申请实施例还提供一种芯片，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序，使得安装有所述芯片的设备执行如上各种可能的实施方式中所述的方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语"如果"可以被解释成为"在……时"或"当……时"或"响应于确定"。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

需要说明的是，在本文中，采用了诸如S10、S20等步骤代号，其目的是为了更清楚简要地表述相应内容，不构成顺序上的实质性限制，本领域技术人员在具体实施时，可能会先执行S20后执行S10等，但这些均应在本申请的保护范围之内。

应该理解的是，虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种视频文本转换方法，其特征在于，所述视频文本转换方法包括以下步骤：

对待转换视频的当前关键帧的内容进行识别；

将所述目标关键帧的文本内容转换为文本文档。

2.如权利要求1所述的视频文本转换方法，其特征在于，所述对所述待转换视频的当前关键帧的内容进行识别的步骤包括：

若是，则判定所述当前关键帧具有文本内容。

3.如权利要求2所述的视频文本转换方法，其特征在于，所述文本标识包括文本边框，所述文本区域为文本边框所包围的区域。

4.如权利要求3所述的视频文本转换方法，其特征在于，所述确定所述当前关键帧具有文本内容，将所述当前关键帧作为目标关键帧的步骤包括：

5.如权利要求1所述的视频文本转换方法，其特征在于，所述确定所述当前关键帧具有文本内容，将所述当前关键帧作为目标关键帧的步骤包括：

确定所述当前关键帧具有文本内容，获取文本区域；

将所述裁剪关键帧作为所述目标关键帧。

6.如权利要求5所述的视频文本转换方法，其特征在于，所述将所述裁剪关键帧作为所述目标关键帧步骤包括：

识别所述裁剪关键帧的形状；

7.如权利要求3所述的视频文本转换方法，其特征在于，所述获取文本区域的步骤包括：

8.如权利要求1至7中任一项所述的视频文本转换方法，其特征在于，所述确定所述当前关键帧具有文本内容，将所述当前关键帧作为目标关键帧的步骤包括：

9.如权利要求8所述的视频文本转换方法，其特征在于，所述视频文本转换方法的步骤还包括：

10.如权利要求8所述的视频文本转换方法，其特征在于，所述将所述目标关键帧的文本内容转换为文本文档的步骤之后，还包括：

保存所述目标关键帧的三原色分布比例。

11.如权利要求1所述的视频文本转换方法，其特征在于，所述将所述目标关键帧的文本内容转换为文本文档的步骤之后，还包括：

保存所述目标文本文档。

12.一种移动终端，其特征在于，所述移动终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频文本转换程序，所述视频文本转换程序被所述处理器执行时实现如权利要求1至11中任一项所述的视频文本转换方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频文本转换程序，所述视频文本转换程序被处理器执行时实现如权利要求1至11中任一项所述的视频文本转换方法的步骤。