CN113870325A

CN113870325A - 图像处理方法、装置和介质

Info

Publication number: CN113870325A
Application number: CN202010615687.5A
Authority: CN
Inventors: 韦涛; 饶旭东; 李丹丹
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2021-12-31

Abstract

本发明实施例提供了一种图像处理方法和装置、一种用于图像处理的装置，其中的方法具体包括：接收图像获取装置采集的序列帧图像；依据图像特征的方法，对所述序列帧图像进行第一图像配准，以得到对应的配准结果；若所述配准结果为配准失败，则依据图像模板的方法，对所述序列帧图像进行第二图像配准。本发明实施例能够提高图像配准的准确率。

Description

图像处理方法、装置和介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像处理方法和装置、一种机器可读介质。

背景技术

词典笔作为一款可实现自助查词、翻译、学口语的学习工具，近年来逐渐应用于学习场景中，可以在手机受限制的学习场景中提供快速查词的体验。

词典笔首先使用笔尖摄像头扫描文本，然后输出一行拼接好的文本图像以备图像识别。由于笔尖摄像头的视野范围较窄，扫描得到的文本图像通常为序列帧图像；因此，为了得到完整的行文本图像，需要用到图像拼接技术。

目前的图像拼接技术为了获得较好的拼接效果，通常首先对序列帧图像进行图像预处理，然后针对预处理后的序列帧图像进行拼接。上述图像预处理利用二值化、膨胀等操作，预估序列帧图像中文本的倾斜角度，利用预估结果对序列帧图像进行矫正；这样，上述矫正可以克服序列帧图像中的文本扭曲问题，将矫正后的序列帧图像送至图像拼接流程，能够提高拼接图像的平直度。

发明人在实施本发明实施例的过程中发现，目前的图像拼接技术在白底黑字或黑底白字等背景下，文本和背景区分明显，能够得到较好的预处理效果和图像拼接效果；但在例如绘本的复杂背景下，文本和背景区分不明显，得到的预处理结效果和图像拼接效果均较差。

并且，目前的拼接技术通常包括：图像配准和图像融合。常用的图像配准方法通常为图像特征的方法。然而，该方法依赖于图像的纹理信息，如果图像的纹理信息丰富，则能够提取出较多的图像特征；如果图像空白较多、或纹理信息较少，则提取的图像特征点很少，则图像配准的准确率较低。例如，在文本图像中出现较大空白、或者较多结构简单的字符(如“一”字)的情况下，图像特征的方法将得到较差的图像配准结果。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的图像处理方法、图像处理装置及用于图像处理的装置，本发明实施例可以提高图像配准的准确率。

为了解决上述问题，本发明公开了一种图像处理方法，包括：

接收图像获取装置采集的序列帧图像；

依据图像特征的方法，对所述序列帧图像进行第一图像配准，以得到对应的配准结果；

若所述配准结果为配准失败，则依据图像模板的方法，对所述序列帧图像进行第二图像配准。

另一方面，本发明实施例公开了一种图像处理装置，包括：

接收模块，用于接收图像获取装置采集的序列帧图像；

第一图像配准模块，用于依据图像特征的方法，对所述序列帧图像进行第一图像配准，以得到对应的配准结果；

第二图像配准模块，用于若所述配准结果为配准失败，则依据图像模板的方法，对所述序列帧图像进行第二图像配准。

再一方面，本发明实施例公开了一种用于图像处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收图像获取装置采集的序列帧图像；

本发明实施例还公开了一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的方法。

本发明实施例包括以下优点：

本发明实施例直接针对图像获取装置采集的序列帧图像进行图像配准。由于本发明实施例在图像配准之前未针对序列帧图像进行二值化、膨胀等预处理操作，因此，在例如绘本的复杂背景下，本发明实施例能够克服不准确的预处理效果导致的图像配准不准确的问题，提高图像配准的准确率。

并且，本申请实施例结合图像特征的方法和图像模板的方法，对帧图像进行图像配准。具体地，首先依据图像特征的方法，对所述序列帧图像进行第一图像配准，以得到对应的配准结果；然后，在所述配准结果为配准失败的情况下，依据图像模板的方法，对所述序列帧图像进行第二图像配准。

由于在文本图像中出现较大空白、或者较多结构简单的字符的情况下，可以得到配准失败的配准结果，故本发明实施例在此种情况下，依据图像模板的方法，对所述序列帧图像进行第二图像配准，能够提高图像配准的准确率。

附图说明

图1是本发明的一种图像处理方法实施例一的步骤流程图；

图2是本发明实施例的一种文本图像的矫正方法实施例的步骤流程图；

图3是本发明实施例的一种文本图像对应的上下关键点配对的示意；

图4是本发明实施例的一种矫正图像的示意；

图5是本发明实施例的一种文本图像、矫正图像、以及源点与目标点之间的映射关系的示意；

图6是本发明的一种图像处理方法实施例三的步骤流程图；

图7是本发明实施例的一种首尾上下关键点配对的预测过程的示意；

图8是本发明的一种图像处理装置的结构框图；

图9是本发明的一种用于图像处理的装置1300的框图；及

图10是本发明的一种服务端的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例可用于对序列帧图像进行处理。本发明实施例可以对序列帧图像进行准确地配准，以得到准确的配准参数。并且，本发明实施例可以将准确的配置参数应用于序列帧图像的拼接，以提高序列帧图像的拼接精度。

图像拼接技术具体包括：图像配准和图像融合。图像配准是将不同时间、不同传感器(成像设备)或不同条件下(天候、照度、摄像位置和角度等)获取的至少两帧图像进行匹配、叠加的过程，图像配准的结果可以包括：两个相邻的帧图像之间的运动变换参数。图像融合是根据图像之间的运动变换参数，将至少两帧图像进行合成，得到一帧完整的图像。

本发明实施例对序列帧图像对应的应用场景不加以限制。该应用场景可以为任意的能够产生序列帧图像的场景，如词典笔的学习辅助场景、或者手机的拍照翻译场景等。以词典笔为例，用户使用词典笔对文本扫一扫，即可得到该文本的读音、释义以及翻译等信息。

本发明实施例提供了一种图像处理方案，该方案具体包括：接收图像获取装置采集的序列帧图像；依据图像特征的方法，对上述序列帧图像进行第一图像配准，以得到对应的配准结果；若上述配准结果为配准失败，则依据图像模板的方法，对上述序列帧图像进行第二图像配准。

并且，针对在文本图像中出现较大空白、或者较多结构简单的字符的情况下、图像特征的方法将得到较差的图像配准结果的技术问题，本申请实施例结合图像特征的方法和图像模板的方法，对帧图像进行图像配准。具体地，首先依据图像特征的方法，对所述序列帧图像进行第一图像配准，以得到对应的配准结果；然后，在所述配准结果为配准失败的情况下，依据图像模板的方法，对所述序列帧图像进行第二图像配准。

本发明实施例提供的图像处理方法可应用于客户端与服务端对应的应用环境中，客户端与服务端位于有线或无线网络中，通过该有线或无线网络，客户端与服务端进行数据交互。

可选地，客户端可以运行在终端上，上述终端具体包括但不限于：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备、例如词典笔的学习终端等等。客户端可以对应于网站、或者APP(应用程序，Application)。

根据一种实施例，客户端可以接收图像获取装置采集的序列帧图像；依据图像特征的方法，对上述序列帧图像进行第一图像配准，以得到对应的配准结果；以及，若上述配准结果为配准失败，则依据图像模板的方法，对上述序列帧图像进行第二图像配准。

根据另一种实施例，服务端可以从客户端接收图像获取装置采集的序列帧图像；依据图像特征的方法，对上述序列帧图像进行第一图像配准，以得到对应的配准结果；以及，若上述配准结果为配准失败，则依据图像模板的方法，对上述序列帧图像进行第二图像配准。

方法实施例一

参照图1，示出了本发明的一种图像处理方法实施例一的步骤流程图，该方法具体可以包括如下步骤：

步骤101、接收图像获取装置采集的序列帧图像；

步骤102、依据图像特征的方法，对上述序列帧图像进行第一图像配准，以得到对应的配准结果；

步骤103、若上述配准结果为配准失败，则依据图像模板的方法，对上述序列帧图像进行第二图像配准。

图1所示方法实施例可由客户端和/或服务端执行，可以理解，本发明实施例对于方法实施例的具体执行主体不加以限制。

步骤101中，终端可以内置或外置有图像获取装置，并经由该图像获取装置采集序列帧图像。序列帧图像可以包括：至少两帧图像。可以理解，本发明实施例对于序列帧图像的具体采集方式不加以限制。

为了提高序列帧图像的图像配准的准确率，本发明实施例结合步骤102和步骤103，对序列帧图像进行图像配准。

图像特征的方法首先提取图像特征，再生成特征描述子，最后根据特征描述子的相似程度对两帧图像的特征进行匹配。图像特征可以包括但不限于：点、线(边缘)、区域(面)等特征，也可以包括但不限于：局部特征和全局特征。

图像特征可以包括：纹理特征。在文本图像中出现较大空白、或者较多结构简单的字符的情况下，图像特征的方法容易得到较差的图像配准结果。因此，本申请实施例首先依据图像特征的方法，对所述序列帧图像进行第一图像配准，以得到对应的配准结果；然后，在所述配准结果为配准失败的情况下，依据图像模板的方法，对所述序列帧图像进行第二图像配准，以克服图像特征的方法的问题，进而提高图像配准的准确率。

根据一种实施例，可以依据图像特征之间的匹配度，确定配准结果。例如，两个相邻的帧图像的图像特征之间的匹配度均小于第一阈值，则配准结果为配准失败。或者，所有相邻的帧图像的图像特征之间的匹配度均值小于第二阈值，则配准结果为配准失败等。

根据另一种实施例，上述对所述序列帧图像进行第一图像配准，具体包括：对所述序列帧图像中两个相邻的帧图像进行特征匹配，以得到特征匹配对；对所述特征匹配对进行聚类，以得到对应的聚类结果；若所述聚类结果不符合预设条件，则得到的配准结果包括配准失败。

本发明实施例依据特征匹配对的聚类结果，确定配准结果。聚类结果可以表征序列帧图像在图像特征方面的整体匹配情况，因此可以作为配准结果的确定依据。

可选地，上述预设条件具体包括：任一聚类类别包含的特征匹配对的数量大于数量阈值。在不符合预设条件的情况下，所有聚类类别包含的特征匹配对的数量均不大于数量阈值，可以表明序列帧图像在图像特征方面的整体匹配情况达不到预期，此种情况下进行图像配准，将得到较低的准确率，因此此种情况下可以将配准结果置为配准失败，以使用另一种配准方法进行配准。

在实际应用中，可以将所有聚类类别包含的特征匹配对的数量分别与数量阈值进行比较。或者，可以首先确定包含的特征匹配对的数量最多的目标聚类类别，然后将目标聚类类别包含的特征匹配对的数量与数量阈值进行比较。

在本发明的一种可选实施例中，上述对所述序列帧图像进行第一图像配准，还可以包括：若所述聚类结果符合预设条件，则可以得到配置成功的配准结果。此种情况下，可以依据所述序列帧图像包含的多个特征匹配对对应的运动变换参数的统计结果，确定单个特征匹配对对应的运动变换参数；上述运动变换参数可用于进一步的图像融合。

若所述聚类结果符合预设条件，可以表明序列帧图像在图像特征方面的整体匹配情况能够达到预期，此种情况下进行图像配准，将得到较高的准确率。本发明实施例可以利用图像特征的方法进行第一图像配准，以得到对应的运动变换参数。

多个特征匹配对对应的运动变换参数的统计结果，可以包括：多个特征匹配对对应的运动变换参数的均值等。将统计结果作为单个特征匹配对对应的运动变换参数，以依据单个特征匹配对对应的运动变换参数、对单个特征匹配对对应的两帧图像进行融合。

在本发明的一种应用示例中，假设图像帧序列为{I₁,I₂,…,I_n}，上述依据图像特征的方法，对上述序列帧图像进行第一图像配准，具体可以包括如下步骤：

步骤A1、对上述序列帧图像进行特征提取，以得到图像I_i的图像特征；i可以为大于0的自然数，n可以为大于1的自然数；

步骤A2、对图像I_i-1和图像I_i的图像特征进行特征匹配，得到特征匹配对；

特征匹配对可以用位移向量p_j＝(dx_j,dy_j)来表示，特征匹配对对应的距离用d(p_i,p_j)＝|dx_i-dx_j|+|dy_i-dy_j|来表示。

步骤A3、对所有特征匹配对进行聚类，以得到多个聚类类别；

步骤A4、针对包含特征匹配对最多的目标聚类类别，对目标聚类类别包含的特征匹配对的数量m与数量阈值T进行比较，若m＜T，则认为配准失败，反之认为配准成功。

如果配准成功，则依据所有特征匹配对的位移向量的均值，确定图像I_i-1和图像I_i的相对位移(x_i，y_i)，可用公式(1)表示：

步骤103中，若上述配准结果为配准失败，则依据图像模板的方法，对上述序列帧图像进行第二图像配准。

图像模板的方法，可以采用相关运算等方式计算相关值来寻求最佳匹配位置。模板匹配(Template Matching)是根据已知模板图像到另一帧图像中寻找与模板图像相匹配的子图像。

具体到本发明实施例，可以将图像I_i作为模板图像，在图像I_i-1总寻找与图像I_i相匹配的子图像。

在本发明的一种可选实施例中，上述对所述序列帧图像进行第二图像配准，具体包括：确定所述序列帧图像中两个相邻的帧图像对应重叠部分的匹配度；依据所述匹配度对应的运动变换参数，确定两个相邻的帧图像对应的运动变换参数。

可选地，可以将图像I_i在图像I_i-1上进行滑动，在实时的位移向量的情况下，确定两帧图像的重叠部分的匹配度，记录下匹配度最大的情况下的位移向量(x_i,y_i)，作为图像I_i-1和图像I_i的相对位移。

可以理解，上述位移向量只是作为运动变换参数的示例，实际上本领域技术人员可以根据实际应用需求，采用其他运动变换参数，如图像旋转参数、图像缩放参数等，可以理解，本发明实施例对于具体的运动变换参数不加以限制。

本发明实施例可以将步骤102或步骤103得到的运动变换参数输出，或者，可以将步骤102或步骤103得到的运动变换参数用于图像融合等图像处理场景。

在本发明的一种可选实施例中，上述方法还可以包括：依据所述第一图像配准或所述第二图像配准得到的运动变换参数，对所述序列帧图像进行图像融合，以得到文本图像。

图像融合是根据图像之间的运动变换参数，将至少两帧图像进行合成，得到一帧完整的图像。

在本发明的一种可选实施例中，在图像融合过程中，可以将序列帧图像中的第一帧图像作为参考帧，并将序列帧图像中除了第一帧图像之外的其他帧图像变换到第一帧图像的坐标系中，图像I_i相对于图像I₁的平移向量可以通过公式(2)表示为：

可选地，在对相邻的两帧图像进行图像融合的过程中，两帧图像的重叠部分取两者的像素均值。

综上，本发明实施例的图像处理方法，直接针对图像获取装置采集的序列帧图像进行图像配准。由于本发明实施例在图像配准之前未针对序列帧图像进行二值化、膨胀等预处理操作，因此，在例如绘本的复杂背景下，本发明实施例能够克服不准确的预处理效果导致的图像配准不准确的问题，提高图像配准的准确率。

方法实施例二

本发明实施例在图像配准之前未针对序列帧图像进行二值化、膨胀等预处理操作，直接针对图像获取装置采集的序列帧图像进行图像配准；可能导致图像融合得到的文本图像中存在扭曲文本等问题。

方法实施例二依据上下关键点配对，对文本图像进行矫正，可以在一定程度上克服文本图像中存在扭曲文本等问题。在此基础上，将矫正图像用于文本识别，可以提高文本识别的准确率。

参照图2，示出了本发明的一种文本图像的矫正方法的步骤流程图，该方法具体可以包括如下步骤：

步骤201、确定文本图像中文本行对应的上下关键点配对；上述上下关键点配对具体包括：位于文本行上方的上关键点、以及位于文本行下方的下关键点；上述上关键点和上述下关键点之间的连线垂直于预设方向；

步骤202、依据上述上下关键点配对，对上述文本图像进行分段，以得到分段文本图像；

步骤203、依据上述上下关键点配对，确定上述分段文本图像对应的源点与目标点之间的映射关系；

步骤204、依据上述映射关系，对上述分段文本图像进行映射，以得到对应的分段矫正图像。

图2所示方法实施例可由客户端和/或服务端执行，可以理解，本发明实施例对于方法实施例的具体执行主体不加以限制。

步骤201中，文本图像中文本行可以为对文本图像进行文本检测得到。文本检测可用于检测文本图像中的文本，可以得到文本图像中文本所在的位置，如文本在文本图像中的区域。

上述上下关键点配对具体包括：位于文本行上方的上关键点、以及位于文本行下方的下关键点，其可以反映文本行的走势。

参照图3，示出了本发明实施例的一种文本图像对应的上下关键点配对的示意。其中，可以在文本图像中文本行的上下方分别设置上关键点和下关键点。

可选地，所述上关键点和所述下关键点之间的连线垂直于预设方向。上述预设方向可以为矫正的目标方向，以依据该预设方向对文本图像进行矫正，对应的矫正目标可以为：使得到的矫正图像与该预设方向相匹配。例如，预设方向可以为文本图像对应的水平方向、或者文本行中首个字符对应的水平方向，当然本发明实施例对于具体的预设方向不加以限制。假设依据预设方向建立XOY坐标系，预设方向对应X轴方向，则上关键点和下关键点可以对应相同的X坐标。

本发明实施例中，可选的是，两个相邻的上下关键点配对(简称为相邻配对)之间的间隔为预设间隔。具体地，两个相邻的上关键点之间的间隔为预设间隔，以及，两个相邻的下关键点之间的间隔为预设间隔。其中，不同的相邻配对可以对应相同或不同的预设间隔。

在本发明的一种可选实施例中，上述确定文本图像中文本行对应的上下关键点配对，具体包括：依据检测模型，确定文本图像中文本行对应的上下关键点配对的检测结果；所述检测模型可以为依据文本图像样本及其对应的标注上下关键点配对训练得到。

上述检测结果可以包括：文本行对应的上下关键点配对的数量及位置等信息；其中，不同的相邻配对可以对应相同的预设间隔。

在本申请的一个可选实施例中，可基于训练数据对数学模型进行训练，以得到数据分析器检测模型。上述训练可以本发明实施例可以将获得排版前后的网页内容样本分别对应的排版信息、以及排版变化信息大量文本的实际扫描数据作为训练数据，并对训练数据进行训练，以使得数据分析器检测模型具有预设网页类别的网页的排版上下关键点配对的识别能力。数据分析器检测模型可表征输入数据(原始内容文本图像)和输出数据(排版内容上下关键点配对的信息)之间的映射关系。

本发明实施例中，检测模型得到的上下关键点配对的位置准确且分布紧密，能够与文本行的走势相匹配。并且，检测模型可以不受文本图像的背景或文本内容的种类的限制，因此上述检测模型在复杂背景或中英文混合场景下，也具有较好的鲁棒性，能够提高检测结果的准确率。

数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型。数学模型是针对参照某种事物系统的特征或数量依存关系，采用数学语言，概括地或近似地表述出的一种数学结构，这种数学结构是借助于数学符号刻画出来的关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合，通过这些方程定量地或定性地描述系统各变量之间的相互关系或因果关系。除了用方程描述的数学模型外，还有用其他数学工具，如代数、几何、拓扑、数理逻辑等描述的模型。其中，数学模型描述的是系统的行为和特征而不是系统的实际结构。其中，可采用机器学习、深度学习方法等方法进行数学模型的训练，机器学习方法可包括：线性回归、决策树、随机森林等，深度学习方法可包括：卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(LongShort-Term Memory，LSTM)、门控循环单元(Gated Recurrent Unit，GRU)等。

在本发明的一种可选实施例中，针对检测结果中首尾上下关键点配对可能出现偏差的问题，可以去除所述检测结果中的首尾上下关键点配对，以提高检测结果中上下关键点配对的准确率。

进一步可选地，若直接去除检测结果中的首尾上下关键点配对，可能导致上下关键点配对无法覆盖文本图像中的首尾文本，导致上下关键点配对对于文本的覆盖率不高。为了提高上下关键点配对对于文本的覆盖率，本发明实施例可以依据所述检测结果中的非首尾上下关键点配对，确定首尾上下关键点配对的预测结果，并依据所述检测结果中的非首尾上下关键点配对、以及所述预测结果，确定文本图像中文本行对应的上下关键点配对。

本发明实施例可以依据首尾上下关键点配对的邻近非首尾上下关键点配对的位置信息，推算出首尾上下关键点配对的位置，作为预测结果。

根据一种实施例，可以依据首尾上下关键点配对的两个邻近非首尾上下关键点配对之间直线的斜率、以及两个邻近非首尾上下关键点配对之间的间隔，确定首尾上下关键点配对的位置。

以图2所示文本图像为例，参照图7，示出了本发明实施例的一种首尾上下关键点配对的预测过程的示意。

假设文本图像包括n(n为大于1的自然数)个上下关键点配对，则末尾的几个上下关键点配对分别表示为：第(n-2)个上下关键点配对、第(n-1)个上下关键点配对、第n个上下关键点配对。假设去除了第n个上下关键点配对，则可以依据第(n-1)个上下关键点配对的位置与第(n-2)个上下关键点配对之间直线的斜率和间隔，预测出第n个上下关键点配对的位置，如图7中的701所示。

根据另一种实施例，可以依据首尾上下关键点配对的两个邻近非首尾上下关键点配对之间直线的斜率、以及图像边界，确定首尾上下关键点配对的位置。该实施例可以适用于两个邻近非首尾上下关键点配对之间的间隔超出图像边界的情况。

以图7为例，假设按照从前到后的顺序对上下关键点配对进行编号，以得到第1个上下关键点配对、第2个上下关键点配对、第3个上下关键点配对等。假设去除了第1个上下关键点配对，则首先依据第2个上下关键点配对与第3个上下关键点配对之间直线的斜率和间隔，预测出第1个上下关键点配对的位置。可以看出，预测结果超出了图像边界，故此种情况下，可以依据上述斜率和图像边界，预测出第1个上下关键点配对的位置，如图7中的702所示。

步骤202中，可以依据上述上下关键点配对，对上述文本图像进行分段，以得到分段文本图像。在图像获取装置的视野范围较窄以至于无法直接拍摄得到完整的文本图像的情况下，通常需要对图像获取装置的序列帧图像进行拼接，以得到完整的文本图像。本发明实施例的分段，可以使分段矫正图像与图像获取装置采集的帧图像更为适配，在此基础上，可以进一步提高文本图像的矫正的准确率。

根据一种实施例，分段文本图像的数量可以为预设值。本领域技术人员可以依据先验知识，确定上述预设值。

根据另一种实施例，所述分段文本图像的数量可以为依据所述文本图像的宽度和图像获取装置的视野宽度得到；这样，可以实现基于图像获取装置的视野宽度进行自适应分段，进而可以提高分段文本图像与图像获取装置的帧图像之间的匹配度。

在本发明的一种可选实施例中，公式(3)示出了分段文本图像的数量的确定过程、以及分段文本图像包括的上下关键点配对的数量的确定过程。

其中，w表征文本图像的宽度，block_thres表征图像获取装置的视野宽度，加上了分段文本图像的数量至少为2的限制，team_num可以表征分段文本图像的数量。

num_p表征文本图像包括的上下关键点配对的数量，point_num表征分段文本图像包括的上下关键点配对的数量。

本发明的该实施例设置分段文本图像的数量至少为2、以及分段文本图像包括的上下关键点配对的数量至少为2的限制，可以提高文本图像的矫正速度和矫正准确率。当然，在本发明的其他实施例中，分段文本图像的数量可以小于2，以及分段文本图像包括的上下关键点配对的数量可以小于2。

步骤203中，依据上述上下关键点配对，对上述分段文本图像进行矫正，以得到对应的分段矫正图像。

本发明实施例依据该预设方向对文本图像进行矫正，对应的矫正目标可以为：使得到的矫正图像与该预设方向相匹配。

在本发明的一种可选实施例中，上述方法还可以包括：对所述分段矫正图像进行拼接，以得到矫正图像。本发明实施例可以按照分段矫正图像对应分段文本图像的位置顺序，对分段矫正图像进行拼接，以得到矫正图像。参照图4，示出了本发明实施例的一种矫正图像的示意，其可以为对图3所示文本图像进行矫正得到。

在本发明的一种可选实施例中，上述对所述分段文本图像进行矫正，具体包括：依据所述上下关键点配对，确定所述分段文本图像对应的源点与目标点之间的映射关系；依据所述映射关系，对所述分段文本图像进行映射，以得到对应的分段矫正图像。

源点可以表征分段文本图像中的像素点。目标点可以表征分段矫正图像中的像素点。

在本发明的一种可选实施例中，上述确定所述分段文本图像对应的源点与目标点之间的映射关系，具体可以包括：依据首上下关键点配对之间的高度、预设方向、以及分段文本图像包括的上下关键点配对，确定所述分段文本图像对应的目标区域；依据所述目标区域对应的上下关键点配对、以及所述分段文本图像对应的上下关键点配对，确定所述分段文本图像对应的源点与目标点之间的映射关系。

参照图5，示出了本发明实施例的一种文本图像、矫正图像、以及源点与目标点之间的映射关系的示意。

其中，矫正图像的宽度可以为首尾上下关键点配对的宽度差，矫正图像的高度可以为首个上下关键点配对的高度差。当然，本发明实施例对于矫正图像的宽度、以及矫正图像的高度不加以限制。例如，矫正图像的宽度可以等于文本图像的宽度。或者，矫正图像的高度可以为所有上下关键点配对的高度差的均值等。

本发明实施例可以针对分段文本图像，将其包括的首个上下关键点配对作为源点。并且，可以对分段文本图像的源点的Y坐标进行调整，以得到目标点。其中，对于一个分段文本图像而言，其对应的分段矫正图像中，上关键点对应相同的Y坐标，以及下关键点对应相同的Y坐标。

目标区域的高度可以为矫正图像的高度，目标区域的宽度可以为依据分段文本图像包括的上下关键点配对的宽度差得到。目标区域对应的上下关键点配对可以对应目标点，分段文本图像对应的上下关键点配对可以对应源点。

在确定分段文本图像对应的源点和目标点后，可以依据分段文本图像对应的源点和目标点的位置，确定源点与目标点之间的映射关系。

可选地，源点与目标点之间的映射关系可以通过映射矩阵来表示。映射矩阵的参数可以包括：旋转参数、缩放参数和位移参数中的至少一种。

例如，公式(4)示出了映射矩阵的一种示例。

其中(b_x，b_y)表示位移参数，参数a_ij分别表示旋转参数和缩放参数。

可选地，上述对所述分段文本图像进行映射，具体包括：利用映射矩阵，对分段文本图像进行映射变换，映射变换的过程可以通过公式(3)表示。

其中，(x，y)表征目标点的坐标，(X，Y)表征源点的坐标。

在得到分段矫正图像后，可以按照分段矫正图像对应分段文本图像的位置顺序，将分段矫正图像依次拼接到例如图5的矫正图像之上，以得到例如图4所示的矫正图像。通过图4可以得到，应用本发明实施例的技术方案，可以将原本扭曲的文本矫正为接近水平的文本。

本发明实施例可以将步骤203得到的矫正图像用于文本识别，以得到矫正图像中的文本信息。文本识别的方法可以包括：OCR(光学字符识别，Optical CharacterRecognition)方法等，可以理解，本发明实施例对于具体的文本识别方法不加以限制。

综上，本发明实施例的图像处理方法，依据上下关键点配对，对文本图像进行矫正。其中，上述上下关键点配对具体包括：位于文本行上方的上关键点、以及位于文本行下方的下关键点。由于上述上下关键点配对可以表征文本行的走势，因此，本发明实施例可以基于文本行的走势对文本图像进行矫正，而可以不局限于文本图像的背景或文本内容的种类，因此本发明实施例对例如绘本的复杂背景或中英文混合场景具有较好的适用性，进而本发明实施例在例如绘本的复杂背景或中英文混合场景下，能够提高文本图像的矫正的准确率。

并且，本发明实施例对文本图像进行分段，并依据上下关键点配对，对得到的分段文本图像进行矫正。上述基于分段的图像矫正，能够提高文本图像的矫正的精度。

另外，在图像获取装置的视野范围较窄以至于无法直接拍摄得到完整的文本图像的情况下，通常需要对图像获取装置的序列帧图像进行拼接，以得到完整的文本图像。本发明实施例的分段，可以使分段矫正图像与图像获取装置采集的帧图像更为适配，在此基础上，可以进一步提高文本图像的矫正的准确率。

方法实施例三

参照图6，示出了本发明的一种图像处理方法实施例三的步骤流程图，具体可以包括如下步骤：

步骤601、接收图像获取装置采集的序列帧图像；

步骤602、依据图像特征的方法，对上述序列帧图像进行第一图像配准，以得到对应的配准结果；

步骤603、若上述配准结果为配准失败，则依据图像模板的方法，对上述序列帧图像进行第二图像配准；

步骤604、依据上述第一图像配准或上述第二图像配准得到的运动变换参数，对上述序列帧图像进行图像融合，以得到文本图像；

步骤605、确定文本图像中文本行对应的上下关键点配对；

上述上下关键点配对具体包括：位于文本行上方的上关键点、以及位于文本行下方的下关键点；上述上关键点和上述下关键点之间的连线垂直于预设方向；

步骤606、依据上述上下关键点配对，对上述文本图像进行分段，以得到分段文本图像；

步骤607、依据上述上下关键点配对，对上述分段文本图像进行矫正，以得到对应的分段矫正图像；

步骤608、对上述分段矫正图像进行拼接，以得到矫正图像；

步骤609、对上述矫正图像进行文本识别，以得到对应的文本信息。

本发明实施例的图像处理方法可以适用于词典笔等场景，以对词典笔采集的序列帧图像进行处理，最终得到帧图像对应的文本信息，由此可以基于文本信息提供查词、翻译等功能。

该图像处理方法可以包括：图像拼接流程、图像矫正流程和文本识别流程，以得到源图像中的文本信息。

其中，步骤601至步骤604对应图像拼接流程，步骤605至步骤608对应图像矫正流程，步骤609对应文本识别流程。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图8，示出了本发明的一种图像处理装置实施例的结构框图，具体可以包括：

接收模块801，用于接收图像获取装置采集的序列帧图像；

第一图像配准模块802，用于依据图像特征的方法，对上述序列帧图像进行第一图像配准，以得到对应的配准结果；

第二图像配准模块803，用于若上述配准结果为配准失败，则依据图像模板的方法，对上述序列帧图像进行第二图像配准。

可选地，第一图像配准模块801可以包括：

特征匹配模块，用于对上述序列帧图像中两个相邻的帧图像进行特征匹配，以得到特征匹配对；

聚类模块，用于对上述特征匹配对进行聚类，以得到对应的聚类结果；

配准结果确定模块，用于若上述聚类结果不符合预设条件，则得到的配准结果可以包括配准失败；

上述预设条件可以包括：

任一聚类类别包含的特征匹配对的数量大于数量阈值。

可选地，第一图像配准模块801还可以包括：

第一运动变换参数确定模块，用于若上述聚类结果符合预设条件，则依据上述序列帧图像包含的多个特征匹配对对应的运动变换参数的统计结果，确定单个特征匹配对对应的运动变换参数。

可选地，第二图像配准模块802可以包括：

匹配度确定模块，用于确定上述序列帧图像中两个相邻的帧图像对应重叠部分的匹配度；

第二运动变换参数确定模块，用于依据上述匹配度对应的运动变换参数，确定两个相邻的帧图像对应的运动变换参数。

可选地，上述装置还可以包括：

图像融合模块，用于依据上述第一图像配准或上述第二图像配准得到的运动变换参数，对上述序列帧图像进行图像融合，以得到文本图像。

可选地，上述装置还可以包括：

上下关键点配对确定模块，用于确定文本图像中文本行对应的上下关键点配对；上述上下关键点配对可以包括：位于文本行上方的上关键点、以及位于文本行下方的下关键点；上述上关键点和上述下关键点之间的连线垂直于预设方向；

分段模块，用于依据上述上下关键点配对，对上述文本图像进行分段，以得到分段文本图像；

映射确定模块，用于依据上述上下关键点配对，确定上述分段文本图像对应的源点与目标点之间的映射关系；

映射模块，用于依据上述映射关系，对上述分段文本图像进行映射，以得到对应的分段矫正图像。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种用于图像处理的装置1300的框图。例如，装置1300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，装置1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出(I/O)的接口1312，传感器组件1314，以及通信组件1316。

处理组件1302通常控制装置1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1302可以包括一个或多个处理器1320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理组件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在装置1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1306为装置1300的各种组件提供电力。电源组件1306可以包括电源管理系统，一个或多个电源，及其他与为装置1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述装置1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头和/或后置摄像头。当设备1300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(MIC)，当装置1300处于操作模式，如呼叫模式、记录模式和语音数据处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1312为处理组件1302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器，用于为装置1300提供各个方面的状态评估。例如，传感器组件1314可以检测到设备1300的打开/关闭状态，组件的相对定位，例如所述组件为装置1300的显示器和小键盘，传感器组件1314还可以检测装置1300或装置1300一个组件的位置改变，用户与装置1300接触的存在或不存在，装置1300方位或加速/减速和装置1300的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1316被配置为便于装置1300和其他设备之间有线或无线方式的通信。装置1300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频数据处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由装置1300的处理器1320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种图像处理方法，所述方法包括：接收图像获取装置采集的序列帧图像；依据图像特征的方法，对所述序列帧图像进行第一图像配准，以得到对应的配准结果；若所述配准结果为配准失败，则依据图像模板的方法，对所述序列帧图像进行第二图像配准。

图10是本发明实施例中服务端的结构示意图。该服务端1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务端中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务端1900上执行存储介质1930中的一系列指令操作。

服务端1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明实施例公开了A1、一种图像处理方法，包括：

接收图像获取装置采集的序列帧图像；

A2、根据A1所述的方法，所述对所述序列帧图像进行第一图像配准，包括：

对所述序列帧图像中两个相邻的帧图像进行特征匹配，以得到特征匹配对；

对所述特征匹配对进行聚类，以得到对应的聚类结果；

若所述聚类结果不符合预设条件，则得到的配准结果包括配准失败；

所述预设条件包括：

任一聚类类别包含的特征匹配对的数量大于数量阈值。

A3、根据A2所述的方法，所述对所述序列帧图像进行第一图像配准，还包括：

若所述聚类结果符合预设条件，则依据所述序列帧图像包含的多个特征匹配对对应的运动变换参数的统计结果，确定单个特征匹配对对应的运动变换参数。

A4、根据A1所述的方法，所述对所述序列帧图像进行第二图像配准，包括：

确定所述序列帧图像中两个相邻的帧图像对应重叠部分的匹配度；

依据所述匹配度对应的运动变换参数，确定两个相邻的帧图像对应的运动变换参数。

A5、根据A1至A4中任一所述的方法，所述方法还包括：

依据所述第一图像配准或所述第二图像配准得到的运动变换参数，对所述序列帧图像进行图像融合，以得到文本图像。

A6、根据A5所述的方法，所述方法还包括：

确定文本图像中文本行对应的上下关键点配对；所述上下关键点配对包括：位于文本行上方的上关键点、以及位于文本行下方的下关键点；所述上关键点和所述下关键点之间的连线垂直于预设方向；

依据所述上下关键点配对，对所述文本图像进行分段，以得到分段文本图像；

依据所述上下关键点配对，确定所述分段文本图像对应的源点与目标点之间的映射关系；

依据所述映射关系，对所述分段文本图像进行映射，以得到对应的分段矫正图像。

本发明实施例公开了B7、一种图像处理装置，包括：

接收模块，用于接收图像获取装置采集的序列帧图像；

B8、根据B7所述的装置，所述第一图像配准模块包括：

特征匹配模块，用于对所述序列帧图像中两个相邻的帧图像进行特征匹配，以得到特征匹配对；

聚类模块，用于对所述特征匹配对进行聚类，以得到对应的聚类结果；

配准结果确定模块，用于若所述聚类结果不符合预设条件，则得到的配准结果包括配准失败；

所述预设条件包括：

任一聚类类别包含的特征匹配对的数量大于数量阈值。

B9、根据B8所述的装置，所述第一图像配准模块还包括：

第一运动变换参数确定模块，用于若所述聚类结果符合预设条件，则依据所述序列帧图像包含的多个特征匹配对对应的运动变换参数的统计结果，确定单个特征匹配对对应的运动变换参数。

B10、根据B7所述的装置，所述第二图像配准模块包括：

匹配度确定模块，用于确定所述序列帧图像中两个相邻的帧图像对应重叠部分的匹配度；

第二运动变换参数确定模块，用于依据所述匹配度对应的运动变换参数，确定两个相邻的帧图像对应的运动变换参数。

B11、根据B7至B10中任一所述的装置，所述装置还包括：

图像融合模块，用于依据所述第一图像配准或所述第二图像配准得到的运动变换参数，对所述序列帧图像进行图像融合，以得到文本图像。

B12、根据B11所述的装置，所述装置还包括：

上下关键点配对确定模块，用于确定文本图像中文本行对应的上下关键点配对；所述上下关键点配对包括：位于文本行上方的上关键点、以及位于文本行下方的下关键点；所述上关键点和所述下关键点之间的连线垂直于预设方向；

分段模块，用于依据所述上下关键点配对，对所述文本图像进行分段，以得到分段文本图像；

映射确定模块，用于依据所述上下关键点配对，确定所述分段文本图像对应的源点与目标点之间的映射关系；

映射模块，用于依据所述映射关系，对所述分段文本图像进行映射，以得到对应的分段矫正图像。

本发明实施例公开了C13、一种用于图像处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收图像获取装置采集的序列帧图像；

C14、根据C13所述的装置，所述对所述序列帧图像进行第一图像配准，包括：

对所述特征匹配对进行聚类，以得到对应的聚类结果；

所述预设条件包括：

任一聚类类别包含的特征匹配对的数量大于数量阈值。

C15、根据C14所述的装置，所述对所述序列帧图像进行第一图像配准，还包括：

C16、根据C13所述的装置，所述对所述序列帧图像进行第二图像配准，包括：

C17、根据C13至C16中任一所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C18、根据C17所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本发明实施例公开了D19、一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A6中一个或多个所述的方法。

以上对本发明所提供的一种图像处理方法、一种图像处理装置和一种用于图像处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

接收图像获取装置采集的序列帧图像；

2.根据权利要求1所述的方法，其特征在于，所述对所述序列帧图像进行第一图像配准，包括：

对所述特征匹配对进行聚类，以得到对应的聚类结果；

所述预设条件包括：

任一聚类类别包含的特征匹配对的数量大于数量阈值。

3.根据权利要求2所述的方法，其特征在于，所述对所述序列帧图像进行第一图像配准，还包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述序列帧图像进行第二图像配准，包括：

5.根据权利要求1至4中任一所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种图像处理装置，其特征在于，包括：

接收模块，用于接收图像获取装置采集的序列帧图像；

8.根据权利要求7所述的装置，其特征在于，所述第一图像配准模块包括：

所述预设条件包括：

任一聚类类别包含的特征匹配对的数量大于数量阈值。

9.一种用于图像处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

接收图像获取装置采集的序列帧图像；

10.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至6中一个或多个所述的方法。