CN118196803A

CN118196803A - 图文处理方法、装置、电子设备以及存储介质

Info

Publication number: CN118196803A
Application number: CN202211610567.1A
Authority: CN
Inventors: 马茂斐
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2024-06-14

Abstract

本申请公开了一种图文处理方法、装置、电子设备以及存储介质，涉及电子设备技术领域。该方法包括：对待识别对象进行预览扫描，获得预览流，对预览流进行关键帧抽取，获得多帧关键帧图像，对多帧关键帧图像进行图像拼接，获得拼接图像，对拼接图像进行文本识别，获得文本识别结果。本申请实施例通过预览流拼接方式成像，可以有效提升成像效果，进而提升文本识别的准召率。

Description

图文处理方法、装置、电子设备以及存储介质

技术领域

本申请涉及电子设备技术领域，更具体地，涉及一种图文处理方法、装置、电子设备以及存储介质。

背景技术

随着科学技术的发展，电子设备的使用越来越广泛，功能越来越多，已经成为人们日常生活中的必备之一。目前，电子设备可以用于进行图文识别，但是，电子设备进行图文识别的准召率较低。

发明内容

鉴于上述问题，本申请提出了一种图文处理方法、装置、电子设备以及存储介质，以解决上述问题。

第一方面，本申请实施例提供了一种图文处理方法，所述方法包括：对待识别对象进行预览扫描，获得预览流；对所述预览流进行关键帧抽取，获得多帧关键帧图像；对所述多帧关键帧图像进行图像拼接，获得拼接图像；对所述拼接图像进行文本识别，获得文本识别结果。

第二方面，本申请实施例提供了一种图文处理装置，所述装置包括：预览流获得模块，用于对待识别对象进行预览扫描，获得预览流；多帧关键帧图像获得模块，用于对所述预览流进行关键帧抽取，获得多帧关键帧图像；拼接图像获得模块，用于对所述多帧关键帧图像进行图像拼接，获得拼接图像；文本识别结果获得模块，用于对所述拼接图像进行文本识别，获得文本识别结果。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

本申请实施例提供的图文处理方法、装置、电子设备以及存储介质，对待识别对象进行预览扫描，获得预览流，对预览流进行关键帧抽取，获得多帧关键帧图像，对多帧关键帧图像进行图像拼接，获得拼接图像，对拼接图像进行文本识别，获得文本识别结果，从而通过预览流拼接方式成像，可以有效提升成像效果，进而提升文本识别的准召率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请一实施例提供的图文处理方法的流程示意图；

图2示出了本申请一实施例提供的图文处理方法的流程示意图；

图3示出了本申请的图2所示的图文处理方法的步骤S220的流程示意图；

图4示出了本申请一实施例提供的图文处理方法的流程示意图；

图5示出了本申请一实施例提供的图文处理方法的流程示意图；

图6示出了本申请一实施例提供的图文处理方法的流程示意图；

图7示出了本申请一实施例提供的图文处理方法的流程示意图；

图8示出了本申请一实施例提供的图文处理装置的模块框图；

图9示出了本申请实施例用于执行根据本申请实施例的图文处理方法的电子设备的框图；

图10示出了本申请实施例的用于保存或者携带实现根据本申请实施例的图文处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

目前，电子设备在进行图文识别时，都需要要求用户拍摄的图像足够清晰，并且拍摄的图像页面完整，才能较好的完成图像拼接，进而实现拼接图像的识别来获取相关的图片文本信息。但是，对于目前的电子设备来说，由于电子设备的能力和预览尺寸的限制，很难完全保证所拍摄到的图像完整清晰，需要用户进行多次变焦、调整等操作，提高了从现实环境中提取有用信息的成本，另外，对于调整距离等方式实现完整的图像获取，势必影响图像元素的成像颗粒度，进而影响后续文本识别的精度。

针对上述问题，发明人经过长期的研究发现，并提出了本申请实施例提供的图文处理方法、装置、电子设备以及存储介质，通过预览流拼接方式成像，可以有效提升成像效果，进而提升文本识别的准召率，可以理解的是，准召率包括召回率和准确率，通过召回率和准确率能够衡量成像的优劣。其中，召回率(Recall)＝系统检索到的相关内容/系统所有相关的内容总数；准确率(Precision)＝系统检索到的相关内容/系统所有检索到的内容总数。其中，具体的图文处理方法在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一实施例提供的图文处理方法的流程示意图。该方法用于通过预览流拼接方式成像，可以有效提升成像效果，进而提升文本识别的准召率。在具体的实施例中，该图文处理方法应用于如图8所示的图文处理装置200以及配置有图文处理装置200的电子设备100(图9)。下面将以电子设备为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的电子设备可以包括智能手机、平板电脑、穿戴式电子设备等，在此不做限定。下面将针对图1所示的流程进行详细的阐述，所述图文处理方法具体可以包括以下步骤：

步骤S110：对待识别对象进行预览扫描，获得预览流。

在本实施例中，电子设备可以包括摄像头，电子设备可以通过摄像头对待识别对象进行预览扫描，获得预览流。其中，该预览流可以为电子设备的摄像头通过预览功能采集到，由多帧图像组成的具有时间长度的视频。

作为一种方式，该摄像头可以包括前置摄像头、后置摄像头、滑动摄像头、转动摄像头等，在此不做限定。

作为一种方式，该待识别对象可以包括试卷、报纸、板报等具有较大篇幅文本的对象，其中，电子设备通过一次拍摄无法或者较难清晰完整的获得整个待识别对象。

在一些实施方式中，电子设备可以启动摄像头打开相机预览，并通过相机预览对待识别对象进行预览扫描，获得预览流。作为一种方式，电子设备可以在接收到摄像头启动指令时，响应于该摄像头启动指令启动该摄像头并打开相机预览，通过相机预览对待识别对象进行预览扫描，获得预览流。作为又一种方式，电子设备可以在接收到摄像头启动指令时，响应于该摄像头启动指令启动该摄像头并打开相机预览，然后在相机预览界面启动文本扫描功能，在文本扫描功能开启的情况下对待识别对象预览扫描，获得预览流。

作为一种可实施的方式，电子设备可以在接收到目标语音信息的情况下，确定接收到摄像头启动指令；可以在接收到作用于目标实体按键的第一触控操作的情况下，确定接收到摄像头启动指令；可以在接收到作用于目标虚拟按键的第二触控操作的情况下，确定接收到摄像头启动指令等，在此不做限定。以在接收到作用于目标虚拟按键的第二触控操作的情况下，确定接收到摄像头启动指令为例，电子设备可以显示有相机图标，那么，在检测到作用于该相机图标的触控操作的情况下，可以确定接收到摄像头启动指令。

在一些实施方式中，在通过电子设备对待识别对象进行预览扫描的过程中，可以保持待识别对象不动且移动电子设备进行预览扫描，可以保持电子设备不动且移动待识别对象进行预览扫描，也可以移动待识别对象且移动电子设备进行预览扫描等，在此不做限定。

步骤S120：对所述预览流进行关键帧抽取，获得多帧关键帧图像。

在本实施例中，在获得预览流的情况下，则可以对该预览流进行关键帧抽取，获得多帧关键帧图像。其中，多帧关键帧图像中的每帧关键帧图像不包括完整的图像信息(不包括完整的待识别对象)，只包括部分内容(待识别对象中的部分对象)，多帧关键帧图像中的相邻帧关键帧图像存在图像信息重叠。

在一些实施方式中，从预览流中抽取的图像帧的数量可以根据需求进行设置，例如，若期望获得更加准确详尽的图像信息，则可以从预览流中抽取尽可能多的图像帧(数量尽量多)，若期望提升关键帧抽取的效率以及降低电子设备的功耗，则可以从预览流中抽取尽可能少的图像帧(数量尽量少)，在此不做限定。

在一些实施方式中，在获得预览流的情况下，可以从预览流中确定某帧图像，并从某帧图像中检测特征点，并基于检测出的特征点对预览流进行关键帧抽取，获得多帧关键帧图像。

步骤S130：对所述多帧关键帧图像进行图像拼接，获得拼接图像。

在本实施例中，在抽取到多帧关键帧图像的情况下，则可以对多帧关键帧图像进行图像拼接，获得拼接图像。

在一些实施方式中，在抽取到多帧关键帧图像的情况下，则可以将多帧关键帧图像按顺序进行拼接，获得拼接图像。其中，在抽取到多帧关键帧图像的情况下，则可以按照多帧关键帧图像的顺序将相邻帧的图像进行拼接，获得拼接图像，作为一种方式，多帧关键帧图像中的相邻帧图像之间存在重叠的图像信息，因此，在对多帧关键帧图像进行图像拼接时，则可以将相邻图像帧中重叠的图像信息进行重叠拼接，以获得拼接图像。

作为一种可实施的方式，假设对预览流进行关键帧抽取获得五帧关键帧关键帧图像，且五帧关键帧图像按照顺序依次包括第一帧关键帧图像、第二帧关键帧图像、第三帧关键帧图像、第四帧关键帧图像以及第五帧关键帧图像。则可以将第一帧关键帧图像和第二帧关键帧图像进行拼接获得第一关键帧图像，之后将第一关键帧图像与第三帧关键帧图像进行拼接获得第二关键帧图像，之后将第二关键帧图像与第四帧关键帧图像进行拼接获得第三关键帧图像，之后将第三关键帧图像与第五帧关键帧图像进行拼接获得拼接关键帧图像。

作为又一种可实施的方式，假设对预览流进行关键帧抽取获得五帧关键帧图像，且五帧关键帧图像按照顺序依次包括第一帧关键帧图像、第二帧关键帧图像、第三帧关键帧图像、第四帧关键帧图像以及第五帧关键帧图像。则可以将第一帧关键帧图像和第二帧关键帧图像进行拼接获得第四关键帧图像，将第四帧关键帧图像和第五帧关键帧图像进行拼接获得第五关键帧图像，之后，将第四关键帧图像和第三帧关键帧图像进行拼接获得第六关键帧图像，之后，将第六关键帧图像和第五关键帧图像进行拼接获得拼接关键帧图像。

在一些实施方式中，在获得预览流的情况下，则可以对预览流进行筛选，获得目标预览流，并从目标预览流中确定首帧图像。作为一种可实施的方式，在获得预览流的情况下，则可以删除预览流中的前N1帧图像以及删除预览流中的后N2帧图像，获得目标预览流，其中，N1可以N2相同，也可以不相同，N1大于1，N2大于1。可以理解的是，通过电子设备对待识别对象进行预览扫描时，一般在开始和结束时会有较为明显的拍摄抖动，从而导致获得的预览流的开始部分的图像和结束部分的图像不够清晰或者不够有代表性，因此，可以删除预览流中的开始部分的图像以及删除预览流中的结束部分的图像，获得目标预览流，其中，目标预览流中的开始部分的图像和结束部分的图像不存在拍摄抖动的问题，可以使得其包含的图像大概率足够清晰，可以提升后续的图文识别的效果。

步骤S140：对所述拼接图像进行文本识别，获得文本识别结果。

在本实施例中，在获得拼接图像的情况下，则可以对拼接图像进行文本识别，获得文本识别结果。基于此，可以结合自由识文的界面UI渲染和交互能力，能够让用户像操作文本一样操作预览流拼接图像，能够快捷的触达到图像文本信息，降低现实环境中提取有用信息的成本。

在一些实施方式中，在获得文本识别结果的情况下，可以拼接图像中保持文本的初始显示参数，例如，在拼接图像中保持文本的初始显示颜色、初始显示大小等。或者，在获得文本识别结果的情况下，可以在拼接图像中更新文本的初始显示参数获得当前显示参数，并在拼接图像中以当前显示参数对文本进行显示，例如，在拼接图像中改变文本的显示颜色、改变文本的显示大小等。其中，当前显示参数相比于初始显示参数，其对于拼接图像中的文本可以具有突出显示的效果，例如，对文本增大显示、对文本高亮显示、对文本加粗显示等，在此不做限定。

本申请一实施例提供的图文处理方法，对待识别对象进行预览扫描，获得预览流，对预览流进行关键帧抽取，获得多帧关键帧图像，对多帧关键帧图像进行图像拼接，获得拼接图像，对拼接图像进行文本识别，获得文本识别结果，从而通过预览流拼接方式成像，可以有效提升成像效果，进而提升文本识别的准召率。

请参阅图2，图2示出了本申请一实施例提供的图文处理方法的流程示意图。下面将针对图2所示的流程进行详细的阐述，所述图文处理方法具体可以包括以下步骤：

步骤S210：对待识别对象进行预览扫描，获得预览流。

其中，步骤S210的具体描述请参阅步骤S110，在此不再赘述。

步骤S220：从所述预览流中确定首帧图像。

在本实施例中，在获得预览流的情况下，则可以从预览流中确定首帧图像。其中，该首帧图像可以理解为用于选做参考的图像，该首帧图像可以为预览流中的第一帧图像，也可以不是预览流中的第一帧图像(如第二帧图像、第三帧图像……)。

在一些实施方式中，电子设备可以预先设置并存储有预设图像条件，该预设图像条件用于作为该预览流中包括的图像的判断依据。因此，在本实施例中，在获得预览流的情况下，则可以从预览流中抽取满足预设图像条件的一帧图像作为该首帧图像。

作为一种可实施的方式，在获得预览流的情况下，则可以从预览流中抽取第一帧图像，并将该第一帧图像与预设图像条件进行比较，以判断该第一帧图像是否满足预设图像条件。其中，若确定该第一帧图像满足预设图像条件，则可以将该第一帧图像确定为首帧图像；若确定该第一帧图像不满足预设图像条件，则可以从预览流中抽取第二帧图像，并将该第二帧图像与预设图像条件进行比较，以判断该第二帧图像是否满足预设图像条件。其中，若确定该第二帧图像满足预设图像条件，则可以将该第二帧图像确定为首帧图像；若确定该第二帧图像不满足预设图像条件，则可以从预览流中抽取第三帧图像，以此类推，在此不再赘述。

请参阅图3，图3示出了本申请的图2所示的图文处理方法的步骤S220的流程示意图。下面将针对图3所示的流程进行详细的阐述，所述方法具体可以包括以下步骤：

步骤S221：从所述预览流中抽取第一帧图像作为当前帧图像，并对所述当前帧图像进行清晰度检测。

在一些实施方式中，在获得预览流的情况下，则可以从预览流中抽取第一帧图像，将抽取到的第一帧图像作为当前帧图像，并对当前帧图像进行清晰度检测。

作为一种可实施的方式，在获得预览流的情况下，可以根据预览流的时间顺序，从预览流中抽取第一帧图像，并将抽取到的第一帧图像作为当前帧图像。可选的，在从预览流中抽取到的第一帧图像的情况下，可以对第一帧图像的图像内容进行解析，以获得该第一帧图像的图像内容，若第一帧图像的图像内容满足预设图像内容，则可以将第一帧图像确定为当前帧图像，若第一帧图像的图像内容不满足预设图像内容，则可以不将第一帧图像确定为当前帧图像以及从预览流中抽取第二帧图像。其中，预设图像内容可以包括存在文本内容。

作为一种可实施的方式，在获得当前帧图像的情况下，可以对当前帧图像进行清晰度检测，可选地，可以通过Tenengrad梯度方法、Laplacian梯度方法或者方差方法对当前帧图像进行清晰度检测，在此不做限定。

步骤S222：若检测到所述当前帧图像的清晰度大于清晰度阈值，则将所述当前帧图像确定为所述首帧图像。

在一些实施方式中，电子设备可以预先设置并存储有清晰度阈值，该清晰度阈值用于作为当前帧图像的清晰度的判断依据。因此，在本实施例中，在检测到当前帧图像的清晰度的情况下，可以将当前帧图像的清晰度与清晰度阈值进行比较，以判断该当前帧图像的清晰度是否大于清晰度阈值。

可选的，若检测到该当前帧图像的清晰度大于清晰度阈值，则可以认为该当前帧图像的清晰度满足要求，其清晰度通过检测，则可以将当前帧图像确定为首帧图像。

步骤S223：若检测到所述当前帧图像的清晰度小于或等于所述清晰度阈值，则从所述预览流中抽取第二帧图像作为所述当前帧图像，直到检测到所述当前帧图像的清晰度大于所述清晰度阈值时，将所述当前帧图像确定为所述首帧图像。

可选的，若检测到该当前帧图像的清晰度小于或等于清晰度阈值，则可以认为当前帧图像的清晰度不满足要求，其清晰度没有通过检测，则可以从预览流中抽取第二帧图像作为当前帧图像，直到检测到当前帧图像的清晰度大于清晰度阈值时，将当前帧图像确定为首帧图像。

作为一种可实施的方式，若检测到当前帧图像的清晰度小于或等于清晰度阈值，则可以从预览流中抽取第二帧图像作为当前帧图像，并对当前帧图像进行清晰度检测，若检测到当前帧图像的清晰度大于清晰度阈值，则将当前帧图像确定为首帧图像，若检测到当前帧图像的清晰度小于或等于清晰度阈值，则从预览流中抽取第三帧图像作为当前帧图像，并对当前帧图像进行清晰度检测，若检测到当前帧图像的清晰度大于清晰度阈值，则将当前帧图像确定为首帧图像，若检测到当前帧图像的清晰度小于或等于清晰度阈值，则从预览流中抽取第四帧图像……，以此类推，在此不再赘述。

作为又一种可实施的方式，若检测到当前帧图像的清晰度小于或等于清晰度阈值，则可以从预览流中抽取第二帧图像作为当前帧图像，并对当前帧图像进行清晰度检测，若检测到当前帧图像的清晰度小于或等于清晰度阈值，则从预览流中抽取第三帧图像作为当前帧图像……，以此类推，直到从预览流中抽取的图像的数量达到数量阈值时，若抽取到的该数量阈值的图像的清晰度均小于或等于清晰度阈值，则可以输出选择信息，其中，该选择信息用于提示选择是否重新对待识别对象进行预览扫描。可选的，若检测到基于该选择信息输入的确认信息，则可以对待识别对象重新进行预览扫描；若检测到基于该选择信息输入的拒绝信息，则可以将当前抽取到的图像确定为首帧图像。

步骤S230：对所述首帧图像进行特征点检测，获得所述首帧图像中的至少一个特征点。

在本实施例中，在获得首帧图像的情况下，则可以对首帧图像进行特征点检测，获得该首帧图像中的至少一个特征点。

在一些实施方式中，在获得首帧图像的情况下，则可以利用角点检测算法对首帧图像进行特征点检测，获得该首帧图像中的至少一个特征点。作为一种可实施的方式，在获得首帧图像的情况下，则可以利用跨平台的计算机视觉库OPENCV提供的SHI-TOMASI角点检测能力获取首帧图像中的至少一个特征点。可选的，从首帧图像中获取到的特征点的数量可以为3个。

步骤S240：在所述预览流中对所述至少一个特征点进行特征点追踪，从所述预览流中抽取所述多帧关键帧图像，其中，所述首帧图像为多帧所述关键帧图像中的一帧。

在本实施例中，在从首帧图像中获取到至少一个特征点的情况下，则可以在预览流中对该至少一个特征点进行特征点追踪，从预览流中抽取包括该首帧图像的多帧关键帧图像。

在一些实施方式中，在从首帧图像中获取到至少一个特征点的情况下，则可以在预览流中利用光流法对该至少一个特征点进行特征点追踪，从预览流中抽取包括该首帧图像的多帧关键帧图像。其中，光流法是指利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

作为一种可实施的方式，在从首帧图像中获取到至少一个特征点的情况下，则可以从预览流中对至少一个特征点进行特征点追踪，并基于预设时间间隔从预览流中抽取多帧关键帧图像。可选的，电子设备可以预先设置并存储有预设时间间隔，该预设时间间隔用于作为从预览流中抽取图像的依据，因此，在本实施例中，在从首帧图像中获取到至少一个特征点的情况下，则可以按照该预设时间间隔从预览流中抽取多帧关键帧图像。

作为又一种可实施的方式，在从首帧图像中获取到至少一个特征点的情况下，则可以从预览流中对至少一个特征点进行特征点追踪，并基于预设移动距离从预览流中抽取多帧关键帧图像。可以理解的，通过基于预设移动距离从预览流中抽取多帧关键帧图像的方式，可以避免用户在对待识别对象进行预览扫描过程中无法保证匀速移动电子设备或者匀速移动待识别对象的问题。可选的，电子设备可以预先设置并存储有预设移动距离，该预设移动距离用于作为从预览流中抽取图像的依据，因此，在本实施例中，在从首帧图像中获取到至少一个特征点的情况下，则可以按照该预设移动距离从预览流中抽取多帧关键帧图像。可选的，该移动距离可以包括移动像素距离。

在一些实施方式中，在预览流中对至少一个特征点进行特征点追踪，从预览流中抽取多帧关键帧图像的过程中，可以判断所抽取的图像的清晰度是否大于清晰度阈值，若确定所抽取的图像的清晰度小于或等于清晰度阈值，则可以抽取该图像的相邻帧图像，若该图像的相邻帧图像的清晰度大于清晰度阈值，则可以由该图像的相邻帧图像替换该图像。

步骤S250：对所述多帧关键帧图像进行图像拼接，获得拼接图像。

步骤S260：对所述拼接图像进行文本识别，获得文本识别结果。

其中，步骤S250-步骤S260的具体描述请参阅步骤S130-步骤S140，在此不再赘述。

本申请一实施例提供的图文处理方法，对待识别对象进行预览扫描，获得预览流，从预览流中确定首帧图像，对首帧图像进行特征点检测，获得首帧图像中的至少一个特征点，在预览流中对至少一个特征点进行特征点追踪，从预览流中抽取多帧关键帧图像，其中，首帧图像为多帧关键帧图像中的一帧，对多帧关键帧图像进行图像拼接，获得拼接图像，对拼接图像进行文本识别，获得文本识别结果。相较于图1所示的图文处理方法，本实施例还从预览流中确定首帧图像，并对首帧图像进行特征点检测和追踪，以获得包括首帧图像的多帧关键帧图像，从而可以提升所提取的关键帧图像的准确性。

请参阅图4，图4示出了本申请一实施例提供的图文处理方法的流程示意图。下面将针对图4所示的流程进行详细的阐述，所述图文处理方法具体可以包括以下步骤：

步骤S310：对待识别对象进行预览扫描，获得预览流。

步骤S320：对所述预览流进行关键帧抽取，获得多帧关键帧图像。

其中，步骤S310-步骤S320的具体描述请参阅步骤S110-步骤S120，在此不再赘述。

步骤S330：确定基准平面。

在本实施例中，可以确定基准平面。可选的，可以确定水平面作为基准平面，可以确定垂直于水平面的屏幕作为基准平面，可以确定与水平面成目标夹角的屏幕作为基准平面等，在此不做限定

在一些实施方式中，在获得多帧关键帧图像的情况下，则可以从多帧关键帧图像中确定一帧图像作为目标图像，并将该目标图像所在的平面确定为基准平面。可选的，在获得多帧关键帧图像的情况下，则可以从多帧关键帧图像中随机确定一帧图像作为目标图像，并将该目标图像所在的平面确定为基准平面。在获得多帧关键帧图像的情况下，则可以从多帧关键帧图像中确定第一帧图像作为目标图像，并将该目标图像所在的平面确定为基准平面。在获得多帧关键帧图像的情况下，则可以从多帧关键帧图像中确定中间的一帧图像作为目标图像，并将该目标图像所在的平面确定为基准平面。在获得多帧关键帧图像的情况下，则可以从多帧关键帧图像中确定最后一帧图像作为目标图像，并将该目标图像所在的平面确定为基准平面，在此不做限定。

作为一种可实施的方式，在获得多帧关键帧图像的情况下，则可以从多帧关键帧图像中确定一帧图像作为目标图像，并获取该目标图像所在的平面，判断该目标图像所在的平面是否为二维平面。其中，若确定该目标图像所在的平面为二维平面，则可以将该目标图像所在的平面确定为基准平面，若确定该目标图像所在的平面不是二维平面(如三维平面)，则可以确定水平面作为基准平面，可以确定垂直于水平面的屏幕作为基准平面，可以确定与水平面成目标夹角的屏幕作为基准平面等，在此不做限定。

步骤S340：将所述多帧关键帧图像分别投影到所述基准平面，获得所述多帧关键帧图像各自对应的图像序列。

在本实施例中，在确定基准平面的情况下，则可以将多帧关键帧图像分别投影到该基准平面，以获得多帧关键帧图像各自对应的图像序列。

在一些实施方式中，在确定基准平面的情况下，则可以将多帧关键帧图像生成透视变换矩阵，并基于该基准平面将多帧关键帧图像进行透视变换获得多帧关键帧图像各自对应的变换后的图像序列，之后，将多帧关键帧图像各自对应的变换后的图像序列拷贝到基准平面中。可选的，在确定基准平面以及确定多帧关键帧图像中的每个图像中的至少一个特征点的情况下，则可以根据多帧关键帧图像中的每帧图像中的至少一个特征点，将多帧关键帧图像生成透视变换矩阵，并基于该基准平面将多帧关键帧图像进行透视变换获得多帧关键帧图像各自对应的变换后的图像序列，之后，将多帧关键帧图像各自对应的变换后的图像序列拷贝到基准平面中。

作为一种可实施的方式，在确定基准平面的情况下，则可以同时将多帧关键帧图像生成透视变换矩阵，并基于该基准平面将多帧关键帧图像进行透视变换获得多帧关键帧图像各自对应的变换后的图像序列，之后，将多帧关键帧图像各自对应的变换后的图像序列同时拷贝到基准平面中。

作为又一种可实施的方式，在确定基准平面的情况下，则可以依次将多帧关键帧图像生成透视变换矩阵，并基于该基准平面将多帧关键帧图像进行透视变换获得多帧关键帧图像各自对应的变换后的图像序列，之后，将多帧关键帧图像各自对应的变换后的图像序列依次拷贝到基准平面中。

步骤S350：对所述多帧关键帧图像各自对应的图像序列进行拼接，获得所述拼接图像。

在本实施例中，在获得多帧关键帧图像各自对应的图像序列的情况下，可以对多帧关键帧图像各自对应的图像序列进行拼接，获得拼接图像。在一些实施方式中，在获得多帧关键帧图像各自对应的图像序列的情况下，可以按多帧关键帧图像的图像排列顺序，对多帧关键帧图像各自对应的图像序列进行拼接，获得拼接图像。

作为一种可实施的方式，在获得多帧关键帧图像各自对应的图像序列的情况下，可以按多帧关键帧图像的图像排列顺序，依次对多帧关键帧图像各自对应的图像序列进行拼接，获得拼接图像。例如，假设多帧关键帧图像各自对应的图像序列按顺序依次包括第一图像序列、第二图像序列、第三图像序列、第四图像序列以及第五图像序列。则可以将第一图像序列和第二图像序列进行拼接获得第一图像，之后将第一图像与第三图像序列进行拼接获得第二图像，之后将第二图像与第四图像序列进行拼接获得第三图像，之后将第三图像与第五图像序列进行拼接获得拼接图像。

作为又一种可实施的方式，在获得多帧关键帧图像各自对应的图像序列的情况下，可以并行对多帧关键帧图像各自对应的图像序列进行拼接，获得拼接图像。例如，假设多帧关键帧图像各自对应的图像序列按顺序依次包括第一图像序列、第二图像序列、第三图像序列、第四图像序列以及第五图像序列。则可以将第一图像序列和第二图像序列进行拼接获得第四图像，将第四图像序列和第五图像序列进行拼接获得第五图像，之后，将第四图像和第三图像序列进行拼接获得第六图像，之后，将第六图像和第五图像进行拼接获得拼接图像。

步骤S360：对所述拼接图像进行文本识别，获得文本识别结果。

其中，步骤S360的具体描述请参阅步骤S140，在此不再赘述。

本申请一实施例提供的图文处理方法，对待识别图像进行预览扫描，获得预览流，对预览流进行关键帧抽取，获得多帧关键帧图像，确定基准平面，将多帧关键帧图像分别投影到基准平面，获得多帧关键帧图像各自对应的图像序列，对多帧关键帧图像各自对应的图像序列进行拼接，获得拼接图像，对拼接图像进行文本识别，获得文本识别结果。相较于图1所示的图文处理方法，本实施例还将多帧关键帧图像投影到同一基准平面后进行拼接，可以提升多帧关键帧图像的拼接效果，以提升后续的文本识别效果。

请参阅图5，图5示出了本申请一实施例提供的图文处理方法的流程示意图。下面将针对图5所示的流程进行详细的阐述，所述图文处理方法具体可以包括以下步骤：

步骤S410：对待识别对象进行预览扫描，获得预览流。

步骤S420：对所述预览流进行关键帧抽取，获得多帧关键帧图像。

其中，步骤S410-步骤S420的具体描述请参阅步骤S110-步骤S120，在此不再赘述。

步骤S430：对所述多帧关键帧图像进行图像拼接，获得待确定图像。

在本实施例中，在抽取到多帧关键帧图像的情况下，则可以对多帧关键帧图像进行图像拼接，获得待确定图像。可以理解的，由于光照等原因，在对多帧关键帧图像进行图像拼接时，拼接交界处的过渡可能并不自然，存在明显的“缝合线”，因此，可以先将对多帧关键帧图像进行图像拼接所获得的图像作为待确定图像，并对待确定图像进行去裂缝处理。

步骤S440：通过加权融合对所述待确定图像中的重叠区域进行平滑处理，获得所述拼接图像。

在本实施例中，在获得待确定图像的情况下，则可以通过加权融合对待确定图像中的重叠区域进行平滑处理，获得拼接图像。可以理解的，由于光照等原因，在对多帧关键帧图像进行图像拼接时，拼接交界处的过渡可能并不自然，存在明显的“缝合线”，则可以使用图像融合的方式实现去裂缝处理。可选的，可以对待确定图像中的重叠区域使用加权融合进行平滑，在重叠部分由前一幅图像慢慢过渡到下一幅图像，即将图像的重叠区域的像素值按一定的权值相加合成新的图像，即获得拼接图像。

步骤S450：对所述拼接图像进行文本识别，获得文本识别结果。

其中，步骤S450的具体描述请参阅步骤S140，在此不再赘述。

本申请一实施例提供的图文处理方法，对待识别对象进行预览扫描，获得预览流，对预览流进行关键帧抽取，获得多帧关键帧图像，对多帧关键帧图像进行图像拼接，获得待确定图像，通过加权融合对待确定图像中的重叠区域进行平滑处理，获得拼接图像，对拼接图像进行文本识别，获得文本识别结果。相较于图1所示的图文处理方法，本实施例还通过加权融合的方式对拼接的重叠区域进行平滑处理，可以提升所获得的拼接图像的效果。

请参阅图6，图6示出了本申请一实施例提供的图文处理方法的流程示意图。下面将针对图6所示的流程进行详细的阐述，所述图文处理方法具体可以包括以下步骤：

步骤S510：对待识别对象进行预览扫描，获得预览流。

步骤S520：对所述预览流进行关键帧抽取，获得多帧关键帧图像。

步骤S530：对所述多帧关键帧图像进行图像拼接，获得拼接图像。

其中，步骤S510-步骤S530的具体描述请参阅步骤S110-步骤S130，在此不再赘述。

步骤S540：对所述拼接图像进行光学字符识别和版面分析，获得所述文本识别结果。

在本实施例中，在获得拼接图像的情况下，则可以对拼接图像进行光学字符识别(optical character recognition，OCR)和版面分析，获得文本识别结果。可以理解的，在获得拼接图像的情况下，可以获取到待识别对象的图像信息，基于该待识别对象的图像信息进行OCR识别和版面分析(将图片分段落、分行的过程)，可以得到该预览流的图片文本信息，基于此，结合自由识文的界面UI渲染和交互能力，能够让用户像操作文本一样操作预览流拼接图像，能够快捷的触达到图片文本信息，降低现实环境中提取有用信息的成本。

本申请一实施例提供的图文处理方法，对待识别对象进行预览扫描，获得预览流，对预览流进行关键帧抽取，获得多帧关键帧图像，对多帧关键帧图像进行图像拼接，获得拼接图像，对拼接图像进行光学字符识别和版面分析，获得文本识别结果。相较于图1所示的图文处理方法，本实施例还对拼接图像进行光学字符识别和版面分析，提升所获得的文本识别结果的准确性。

请参阅图7，图7示出了本申请一实施例提供的图文处理方法的流程示意图。下面将针对图7所示的流程进行详细的阐述，所述图文处理方法具体可以包括以下步骤：

步骤S610：对待识别对象进行预览扫描，获得预览流。

其中，步骤S610的具体描述请参阅步骤S110，在此不再赘述。

步骤S620：若确定所述预览流中不包括所述待识别对象的完整图像，则确定所述预览流中所述待识别对象的缺失对象对应的缺失方向。

在本实施例中，在获得预览流的情况下，可以判断该预览流中是否包括待识别对象的完整图像。其中，若确定该预览流中不包括待识别对象的完整图像，则可以认为对待识别对象的预览扫描不完整，则可以确定预览流中该待识别对象的缺失对象对应的缺失方向。若确定该预览流中包括待识别对象的完整图像，则可以认为对待识别对象的预览扫描完整，则可以对预览流进行关键帧抽取获得多帧关键帧图像。

在一些实施方式中，在获得预览流的情况下，可以对预览流中包括的图像进行图像完整性分类。可选的，图像完整性分类可以包括完整图像和非完整图像，其中，非完整图像可以包括左上缺失、上缺失、右上缺失、右缺失、右下缺失、下缺失、左下缺失、左缺失等。该完整图像可以对应标签0、左上缺失可以对应标签1、上缺失可以对应标签2、右上缺失可以对应标签3、右缺失可以对应标签4、右下缺失可以对应标签5、下缺失可以对应标签6、左下缺失可以对应标签7、左缺失可以对应标签8。

作为一种可实施的方式，在获得预览流的情况下，可以采用深度残差网络(deepresidual network，ResNet)等卷积神经网络(convolutional neural networks，CNN)对预览流进行图像完整性分类，确定预览流中待识别对象的缺失对象对应的缺失方向。

步骤S630：基于所述缺失方向输出提示信息，其中，所述提示信息用于提示向所述缺失方向移动扫描。

在本实施例中，在确定缺失方向的情况下，则可以基于该缺失方向输出提示信息，以提示向缺失方向移动扫描，以预览扫描到待识别对象的完整图像。

在一些实施方式中，在确定缺失方向的情况下，则可以结合电子设备的传感器输出提示信息，以提示向缺失方向移动扫描。可选的，电子设备可以包括陀螺仪，则在确定缺失方向的情况下，可以结合陀螺仪引导用户向缺失方向移动扫描；电子设备可以包括加速度传感器，则在确定缺失方向的情况下，可以结合加速度传感器引导用户向缺失方向移动扫描等，在此不做限定。

在一些实施方式中，该提示信息可以包括文本提示信息、语音提示信息、震动提示信息等，在此不做限定。

步骤S640：对所述预览流进行关键帧抽取，获得多帧关键帧图像。

步骤S650：对所述多帧关键帧图像进行图像拼接，获得拼接图像。

步骤S660：对所述拼接图像进行文本识别，获得文本识别结果。

其中，步骤S640-步骤S660的具体描述请参阅步骤S120-步骤S140，在此不再赘述。

本申请一实施例提供的图文处理方法，对待识别对象进行预览扫描，获得预览流，若确定预览流中不包括待识别对象的完整图像，则确定预览流中待识别对象的缺失对象的缺失方向，基于该缺失方向输出提示信息，其中，该提示信息用于提示向缺失方向移动扫描，对预览流进行关键帧抽取，获得多帧关键帧图像，对多帧关键帧图像进行图像拼接，获得拼接图像，对拼接图像进行文本识别，获得文本识别结果。相较于图1所示的图文处理方法，本实施例还在预览流中扫描的待识别对象不完整时，确定缺失方向并提示移动扫描，从而提升可以扫描预览流的效果。

请参阅图8，图8示出了本申请一实施例提供的图文处理装置的模块框图。下面将针对图8所示的框图进行阐述，所述图文处理装置200包括：预览流获得模块210、多帧关键帧图像获得模块220、拼接图像获得模块230以及文本识别结果获得模块240，其中：

预览流获得模块210，用于对待识别对象进行预览扫描，获得预览流。

多帧关键帧图像获得模块220，用于对所述预览流进行关键帧抽取，获得多帧关键帧图像。

进一步地，所述多帧关键帧图像获得模块220：首帧图像确定子模块、特征点获得子模块以及多帧关键帧图像获得子模块，其中：

首帧图像确定子模块，用于从所述预览流中确定首帧图像。

进一步地，所述首帧图像确定子模块包括：清晰度检测单元、第一首帧图像确定单元以及第二首帧图像确定单元，其中：

清晰度检测单元，用于从所述预览流中抽取第一帧图像作为当前帧图像，并对所述当前帧图像进行清晰度检测。

第一首帧图像确定单元，用于若检测到所述当前帧图像的清晰度大于清晰度阈值，则将所述当前帧图像确定为所述首帧图像。

第二首帧图像确定单元，用于若检测到所述当前帧图像的清晰度小于或等于所述清晰度阈值，则从所述预览流中抽取第二帧图像作为所述当前帧图像，直到检测到所述当前帧图像的清晰度大于所述清晰度阈值时，将所述当前帧图像确定为所述首帧图像。

特征点获得子模块，用于对所述首帧图像进行特征点检测，获得所述首帧图像中的至少一个特征点。

进一步地，所述特征点获得子模块包括：

特征点获得单元，用于利用角点检测算法对所述首帧图像进行特征点检测，获得所述首帧图像中的至少一个特征点。

多帧关键帧图像获得子模块，用于在所述预览流中对所述至少一个特征点进行特征点追踪，从所述预览流中抽取所述多帧关键帧图像，其中，所述首帧图像为多帧所述关键帧图像中的一帧。

进一步地，所述多帧关键帧图像获得子模块包括：第一多帧关键帧图像获得单元和第二多帧关键帧图像获得单元，其中：

第一多帧关键帧图像获得单元，用于在所述预览流中对所述至少一个特征点进行特征点追踪，并基于预设移动像素距离从所述预览流中抽取所述多帧关键帧图像。

第二多帧关键帧图像获得单元，用于在所述预览流中对所述至少一个特征点进行特征点追踪，并基于预设时间间隔从所述预览流中抽取所述多帧关键帧图像。

拼接图像获得模块230，用于对所述多帧关键帧图像进行图像拼接，获得拼接图像。

进一步地，所述拼接图像获得模块230包括：基准平面确定子模块、图像序列获得子模块以及第一拼接图像获得子模块，其中：

基准平面确定子模块，用于确定基准平面。

图像序列获得子模块，用于将所述多帧关键帧图像分别投影到所述基准平面，获得所述多帧关键帧图像各自对应的图像序列。

第一拼接图像获得子模块，用于对所述多帧关键帧图像各自对应的图像序列进行拼接，获得所述拼接图像。

进一步地，所述拼接图像获得模块230包括：待确定图像获得子模块和第二拼接图像获得子模块，其中：

待确定图像获得子模块，用于对所述多帧关键帧图像进行图像拼接，获得待确定图像。

第二拼接图像获得子模块，用于通过加权融合对所述待确定图像中的重叠区域进行平滑处理，获得所述拼接图像。

文本识别结果获得模块240，用于对所述拼接图像进行文本识别，获得文本识别结果。

进一步地，所述文本识别结果获得模块240包括：文本识别结果获得子模块，其中：

文本识别结果获得子模块，用于对所述拼接图像进行光学字符识别和版面分析，获得所述文本识别结果。

进一步地，所述文本识别装置200还包括：缺失方向确定模块和提示信息输出模块，其中：

缺失方向确定模块，用于若确定所述预览流中不包括所述待识别对象的完整图像，则确定所述预览流中所述待识别对象的缺失对象对应的缺失方向。

提示信息输出模块，用于基于所述缺失方向输出提示信息，其中，所述提示信息用于提示向所述缺失方向移动扫描。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图9，其示出了本申请实施例提供的一种电子设备100的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

其中，处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责待显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图10，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质300中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的图文处理方法、装置、电子设备以及存储介质，对待识别对象进行预览扫描，获得预览流，对预览流进行关键帧抽取，获得多帧关键帧图像，对多帧关键帧图像进行图像拼接，获得拼接图像，对拼接图像进行文本识别，获得文本识别结果，从而通过预览流拼接方式成像，可以有效提升成像效果，进而提升文本识别的准召率。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图文处理方法，其特征在于，所述方法包括：

对待识别对象进行预览扫描，获得预览流；

对所述预览流进行关键帧抽取，获得多帧关键帧图像；

对所述多帧关键帧图像进行图像拼接，获得拼接图像；

对所述拼接图像进行文本识别，获得文本识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述预览流进行关键帧抽取，获得多帧关键帧图像，包括：

从所述预览流中确定首帧图像；

对所述首帧图像进行特征点检测，获得所述首帧图像中的至少一个特征点；

在所述预览流中对所述至少一个特征点进行特征点追踪，从所述预览流中抽取所述多帧关键帧图像，其中，所述首帧图像为多帧所述关键帧图像中的一帧。

3.根据权利要求2所述的方法，其特征在于，所述从所述预览流中确定首帧图像，包括：

从所述预览流中抽取第一帧图像作为当前帧图像，并对所述当前帧图像进行清晰度检测；

若检测到所述当前帧图像的清晰度大于清晰度阈值，则将所述当前帧图像确定为所述首帧图像；

若检测到所述当前帧图像的清晰度小于或等于所述清晰度阈值，则从所述预览流中抽取第二帧图像作为所述当前帧图像，直到检测到所述当前帧图像的清晰度大于所述清晰度阈值时，将所述当前帧图像确定为所述首帧图像。

4.根据权利要求2所述的方法，其特征在于，所述对所述首帧图像进行特征点检测，获得所述首帧图像中的至少一个特征点，包括：

利用角点检测算法对所述首帧图像进行特征点检测，获得所述首帧图像中的至少一个特征点。

5.根据权利要求2所述的方法，其特征在于，所述在所述预览流中对所述至少一个特征点进行特征点追踪，从所述预览流中抽取所述多帧关键帧图像，包括：

在所述预览流中对所述至少一个特征点进行特征点追踪，并基于预设移动距离从所述预览流中抽取所述多帧关键帧图像；或者

在所述预览流中对所述至少一个特征点进行特征点追踪，并基于预设时间间隔从所述预览流中抽取所述多帧关键帧图像。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述对所述多帧关键帧图像进行图像拼接，获得拼接图像，包括：

确定基准平面；

将所述多帧关键帧图像分别投影到所述基准平面，获得所述多帧关键帧图像各自对应的图像序列；

对所述多帧关键帧图像各自对应的图像序列进行拼接，获得所述拼接图像。

7.根据权利要求1-5任一项所述的方法，其特征在于，所述对所述多帧关键帧图像进行图像拼接，获得拼接图像，包括：

对所述多帧关键帧图像进行图像拼接，获得待确定图像；

通过加权融合对所述待确定图像中的重叠区域进行平滑处理，获得所述拼接图像。

8.根据权利要求1-5任一项所述的方法，其特征在于，所述对所述拼接图像进行文本识别，获得文本识别结果，包括：

对所述拼接图像进行光学字符识别和版面分析，获得所述文本识别结果。

9.根据权利要求1-5任一项所述的方法，其特征在于，在所述对待识别对象进行预览扫描，获得预览流之后，还包括：

若确定所述预览流中不包括所述待识别对象的完整图像，则确定所述预览流中所述待识别对象的缺失对象对应的缺失方向；

基于所述缺失方向输出提示信息，其中，所述提示信息用于提示向所述缺失方向移动扫描。

10.一种图文处理装置，其特征在于，所述装置包括：

预览流获得模块，用于对待识别对象进行预览扫描，获得预览流；

多帧关键帧图像获得模块，用于对所述预览流进行关键帧抽取，获得多帧关键帧图像；

拼接图像获得模块，用于对所述多帧关键帧图像进行图像拼接，获得拼接图像；

文本识别结果获得模块，用于对所述拼接图像进行文本识别，获得文本识别结果。

11.一种电子设备，其特征在于，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行如权利要求1-9任一项所述的方法。

12.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-9任一项所述的方法。