CN112749691A

CN112749691A - 图像处理方法及相关设备

Info

Publication number: CN112749691A
Application number: CN202010549492.5A
Authority: CN
Inventors: 聂佩芸; 吴飞; 彭艺
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2021-05-04

Abstract

本公开实施例提供了一种图像处理方法及装置、电子设备和存储介质。该方法包括：获取待处理图像；检测所述待处理图像中的目标轮廓线；根据所述目标轮廓线旋转所述待处理图像，使所述待处理图像处于预设方向；对旋转后的所述待处理图像进行分类处理，获得旋转后的所述待处理图像的目标方向类别信息。本公开实施例提供的方法可以减少图片分类的类别数量，提升分类效果。

Description

图像处理方法及相关设备

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种图像处理方法及装置、电子设备和计算机可读存储介质。

背景技术

在对名片的OCR(Optical Character Recognition，光学字符识别)识别场景中，由于拍摄的图片中的名片存在旋转的情况，可能会导致无法识别出图片中的文字，因此，需要在图片预处理中对存在旋转情况的图片进行调整。

在图片预处理中可以根据图片旋转角度对旋转的图片进行分类，图片的旋转角度可以从0到360°，将图片分为360类工作量大，且分类效果差。

因此，需要一种新的图像处理方法及装置、电子设备和计算机可读存储介质。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

发明内容

本公开实施例提供一种图像处理方法及装置、电子设备和计算机可读存储介质，该方法可以减少图片分类的类别数量，提升分类效果。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

本公开实施例提供一种图像处理方法，该方法包括：获取待处理图像；检测待处理图像中的目标轮廓线；根据目标轮廓线旋转待处理图像，使待处理图像处于预设方向；对旋转后的待处理图像进行分类处理，获得旋转后的待处理图像的预设方向的目标方向类别信息，其中，目标方向类别信息是根据待处理图像的内容方向确定的。

本公开实施例提供一种图像处理装置，该装置包括：图像获取模块，用于获取待处理图像；轮廓线检测模块，用于检测待处理图像中的目标轮廓线；图像旋转模块，用于根据目标轮廓线旋转待处理图像，使待处理图像处于预设方向；图像处理模块，用于对旋转后的待处理图像进行分类处理，获得旋转后的待处理图像的目标方向类别信息，其中，目标方向类别信息是根据待处理图像的内容方向确定的。

在本公开的一些示例性实施例中，图像旋转模块包括：夹角获取单元，用于分别获取第一夹角及第二夹角，其中，第一夹角为目标轮廓线与第一方向的夹角，第二夹角为目标轮廓线与第二方向的夹角，第一夹角与第二夹角均为锐角；方向确定单元，用于根据第一夹角及第二夹角，确定第一方向或者第二方向为目标方向；图像旋转单元，用于旋转待处理图像至预设方向，以使目标轮廓线与目标方向平行。

在本公开的一些示例性实施例中，图像处理装置还包括：训练集获取单元，用于获取训练集，训练集包括训练图像及其方向类别标签，训练图像中包含第一语言名片、第二语言名片及双语名片，训练图像处于预设方向；图像处理单元，用于通过神经网络模型对训练图像进行处理，获得训练图像的预测方向类别信息；模型训练单元，用于根据方向类别标签及预测方向类别信息，训练神经网络模型，确定神经网络模型的目标网络参数，将包括目标网络参数的神经网络模型确定为图片分类模型；其中，图片分类模型用于对旋转后的待处理图像进行分类处理，获得旋转后的待处理图像的目标方向类别信息。

在本公开的一些示例性实施例中，图像处理装置还包括：自然图像获取单元，用于获取目标数据库中的自然图像及标签信息；自然图像处理单元，用于通过初始神经网络模型对所述自然图像进行处理，获得初始预测信息；模型获得单元，用于根据所述标签信息及所述初始预测信息训练所述初始神经网络模型，以获得所述神经网络模型。

在本公开的一些示例性实施例中，训练集获取单元包括：初始图像获取单元，用于获取初始图像，初始图像的初始方向属于预设方向；初始图像旋转单元，用于旋转初始图像，使初始图像处于除初始方向外的其他预设方向；训练图像确定单元，用于将初始图像及旋转后的初始图像确定为训练集中的训练图像。

在本公开的一些示例性实施例中，训练集获取单元包括：文本图像获取单元，用于获取初始文本图像；文字处理单元，用于对初始文本图像进行文字处理；文本图像加入单元，用于将初始文本图像及文字处理后的初始文本图像加入训练集，作为训练集中的训练图像。

在本公开的一些示例性实施例中，轮廓线检测模块包括：图像转化单元，用于将待处理图像转化为灰度图像；边缘检测单元，用于对灰度图像进行边缘检测，获得待处理图像中目标对象的轮廓；轮廓线获得单元，用于通过霍夫变换对目标对象的轮廓进行检测，获得待处理图像中的目标轮廓线。

根据本公开实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的图像处理方法。

根据本公开实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的图像处理方法。

本公开实施方式提供的图像处理方法，根据目标轮廓线旋转待处理图像，可以使待处理图像处于预设方向，通过对旋转后的待处理图像进行分类处理，可以获得旋转后的待处理图像的目标方向类别信息；在对待处理图像进行分类处理之前，根据目标轮廓线旋转待处理图像，一方面，可以减少图片分类的类别数量，提高图片分类的速度，占用较少的计算资源及存储资源；另一方面，可以提升分类效果，提高图片分类的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的图像处理方法或图像处理装置的示例性系统架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本公开的一实施例的图像处理方法的流程图；

图4示意性示出了根据本公开的一实施例的待处理图像的示意图；

图5示意性示出了图像空间与参数空间的示意图；

图6示意性示出了根据本公开的一实施例的待处理图像的示意图；

图7示意性示出了根据本公开的一实施例的待处理图像的示意图；

图8示意性示出了根据本公开的一实施例的VGG16模型的结构示意图；

图9示出了图3中所示的步骤S320在一实施例中的处理过程示意图；

图10示出了图3中所示的步骤S330在一实施例中的处理过程示意图；

图11示意性示出了根据本公开的一实施例的待处理图像的示意图；

图12示意性示出了根据本公开的一实施例的待处理图像的示意图；

图13示意性示出了根据本公开的一实施例的图像处理方法的流程图；

图14示出了图13中所示的步骤S1310在一实施例中的处理过程示意图；

图15示出了图13中所示的步骤S1310在一实施例中的处理过程示意图；

图16示意性示出了根据本公开的一实施例的图像识别方法的流程图；

图17示意性示出了根据本公开的一实施例的图像处理装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本公开实施例的图像处理方法或图像处理装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102通过网络103与服务器104交互，用户可以使用终端设备101、102进行拍照，将照片发送至服务器104。其中，终端设备101、102可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。

服务器104可以是提供各种服务的服务器，例如对用户利用终端设备101、102所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理，并将处理结果反馈给终端设备。

服务器104可例如获取待处理图像；服务器104可例如检测待处理图像中的目标轮廓线；服务器104可例如根据目标轮廓线旋转待处理图像，使待处理图像处于预设方向；服务器104可例如通过图片分类模型对旋转后的待处理图像进行处理，获得旋转后的待处理图像的预设方向的目标方向类别信息。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的，服务器104可以是一个实体的服务器，还可以为多个服务器组成的服务器集群，还可以是云端服务器，根据实际需要，可以具有任意数目的终端设备、网络和服务器。

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU，Central Processing Unit)201，其可以根据存储在只读存储器(ROM，Read-Only Memory)202中的程序或者从储存部分208加载到随机访问存储器(RAM，Random Access Memory)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU 201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(input/output，I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，Liquid Crystal Display)等以及扬声器等的输出部分207；包括硬盘等的储存部分208；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入储存部分208。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的方法和/或装置中限定的各种功能。

需要说明的是，本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF(RadioFrequency，射频)等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3或图9或图10或图13或图14或图15或图16所示的各个步骤。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本公开实施例提供的技术方案涉及人工智能技术及机器学习技术等方面，下面通过具体的实施例进行举例说明。

图3示意性示出了根据本公开的一实施例的图像处理方法的流程图。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行，例如如图1中的终端设备103和/或服务器101。

如图3所示，本公开实施例提供的图像处理方法可以包括以下步骤。

在步骤S310中，获取待处理图像。

本公开实施例中，待处理图像包括但不限于用户拍摄的图像、网站上下载的图像，其中，待处理图像例如可以包含名片，名片可以为中文名片、外语名片、双语名片或多种语言的名片。在下面的举例说明中，均以待处理图像为用户拍摄的名片图像进行举例说明，但本公开的保护范围并不限定于此。

图4示意性示出了根据本公开的一实施例的待处理图像的示意图。

如图4所示，用户拍摄的名片图像是倾斜的。

一般情况下，用户使用终端设备拍摄的名片会有一定的倾斜角度，因此在OCR检测识别之前，可以对待处理图像进行处理，以提高OCR识别的准确率。

在步骤S320中，检测待处理图像中的目标轮廓线。

本公开实施例中，可以使用霍夫变换，检测待处理图像中的目标轮廓线。目标轮廓线可以是名片图像的轮廓线。通过检测出待处理图像的目标轮廓线，便于后续对待处理图像的旋转。

下面对霍夫变换的原理进行说明。

霍夫变换是一种特征检测方法，用于辨别找出物件中的特征，例如：线条。当线条被识别出来时，图片的方向，也基本确定。霍夫变换的算法流程如下：给定一个物件、要辨别的形状的种类，算法会在参数空间中执行投票来决定物体的形状，而这是由累加空间里的局部最大值来决定。经典的霍夫变换可以侦测图片中的直线，之后，霍夫变换不仅能识别直线，也能够识别其他形状，常见的有圆形、椭圆形。

霍夫变换进行直线检测中，直线的方程表示可以用极坐标表示，如下所示：

r＝x cosθ+y sinθ (1)

其中r是原点到直线上最近点的距离，θ是x轴与连接原点和最近点直线之间的夹角。因此，可以将图像的每一条直线与一对参数(r,θ)相关联，这个参数(r,θ)平面被称为霍夫空间或者叫参数空间，为二维直线的集合。

图5示意性示出了图像空间与参数空间的示意图。

如图5所示，左侧是图像空间，右侧是参数空间，一条直线由两个点决定，图中两点的坐标分别是(x₁，y₁)和(x₂，y₂)，将这两个点投射到参数空间中，保证通过这两个点，随意变换r和θ，形成了右图的两条正弦曲线。在参数空间中，这两条正弦曲线都经过同一个点(r’，θ’)。

在本公开实施例中，可以通过霍夫变换把在图像空间中检测直线的问题转化为在极坐标参数空间中找通过点(r,θ)的最多正弦曲线数的问题，可以获取待处理图像中的像素点(坐标值)，将待处理图像中的各像素点通过坐标变换，转化为极坐标参数空间中的多条正弦曲线，通过在极坐标参数空间中检测经过正弦曲线数量最多的点，或经过正弦曲线数量大于预设值的点，可以确定出待处理图像中的目标轮廓线。例如可以将经过正弦曲线数量最多的点通过坐标变换，转化为图像空间中对应的直线，可以将该直线确定为待处理图像中的目标轮廓线。

本公开实施例的霍夫空间包括但不限于极坐标参数空间，本领域技术人员也可以使用其他参数空间；本公开实施例可以将图像空间中的点转化为正弦曲线，也可以转化为余弦曲线，也可以转化为其他形式的曲线或直线，本公开对此不做限制。

图6示意性示出了根据本公开的一实施例的待处理图像的示意图。

如图6所示，通过霍夫变换检测出名片图像的目标轮廓线L，目标轮廓线也可以为与名片宽边重合的直线，本公开对此不做限制。

在步骤S330中，根据目标轮廓线旋转待处理图像，使待处理图像处于预设方向。

本公开实施例中，预设方向可以根据实际情况设置，例如，预设方向可以设置为0°、90°、180°、270°四个方向。可以根据名片图像的轮廓线，对名片图像进行旋转，使名片的轮廓线处于预设方向中的其中一个方向，例如，可以对名片图像进行旋转，使名片的轮廓线处于90°方向。

图7示意性示出了根据本公开的一实施例的待处理图像的示意图。

如图7所示，预设方向可以设置为0°、90°、180°、270°四个方向，其中，0°可以表示待处理图像中的文字处于水平且正向的方向，90°可以表示在0°方向逆时针旋转90°后的方向，180°可以表示在0°方向逆时针旋转180°后的方向，270°可以表示在0°方向逆时针旋转270°后的方向。

在示例性实施例中，可以根据目标轮廓线与各预设方向的夹角，将离目标轮廓线最近的预设方向作为目标方向，对待处理图像进行旋转，使待处理图像处于目标方向。

在图片分类模型对待处理图像进行处理之前，对待处理图像进行旋转，使旋转后的待处理图像处于预设方向，可以不需要设置360个方向类别，减少图片分类的类别数量，提高分类效果。

在步骤S340中，对旋转后的待处理图像进行分类处理，获得旋转后的待处理图像目标方向类别信息。

其中，目标方向类别信息是根据待处理图像的内容方向确定的。

待处理图像的内容方向例如可以为待处理图像的文字方向，也可以为待处理图像的图片方向。

例如，预设方向可以设置为0°、90°、180°、270°四个方向，目标方向类别信息可以确定为0°、90°、180°、270°四个方向类别。

本公开实施例中，图片分类模型可以为VGG16(Visual Geometry Group，视觉几何组)模型、VGG19模型，也可以为其他神经网络模型，本公开对此不做限制。

图片分类模型以VGG16模型为例，下面对VGG16的结构进行说明。

图8示意性示出了根据本公开的一实施例的VGG16模型的结构示意图。

VGG16是一种图片分类模型，该模型结构相对简单，分类性能好；同时，VGG16的网络结构规整，修改起来相对容易。如图8所示，VGG模型包含卷积层810、池化层820、全连接层830及Softmax(逻辑回归)层840。VGG模型中共有有13个卷积层810和3个全连接层830，其连接方式为：卷积-卷积-池化-卷积-卷积-池化-卷积-卷积-卷积-池化-卷积-卷积-卷积-池化-卷积-卷积-卷积-池化-全连接-全连接-全连接。VGG模型中通道数可以分别为64，128，512，512，512，4096，4096，1000，卷积层810通道数翻倍，直到512时不再增加，通道数的增加，可以使更多的信息被提取出来，全连接层830的通道数4096是根据经验设置的，也可以根据实际情况设置，一般不小于最后的类别，1000可以表示要分类的类别数。VGG16模型中的各激活单元都可以为Relu(Rectified Linear Unit，线性整流函数)。VGG16模型中可以用池化层820作为分界，将VGG16分为6个块结构，每个块结构中的通道数可以相同。卷积层810和全连接层830都有权重系数，也可以被称为权重层，其中卷积层810有13层，全连接830有3层，即权重层共有16层。VGG16模型中，13层卷积层810和5层池化层820可以进行特征的提取，3层全连接层830可以完成分类任务。

本公开实施例中，可以通过VGG16图片分类模型的卷积层及池化层对旋转后的待处理图像进行特征提取，获得旋转后的待处理图像的特征向量，将该特征向量输入到VGG16图片分类模型的全连接层进行分类，可以获得旋转后的待处理图像的目标方向类别。

例如，旋转后的名片图像中名片的轮廓线处于90°方向，通过VGG16图片分类模型对该旋转后的名片图像进行处理，可以得到该旋转后的名片图像的目标方向类别信息为90°。

通过图片分类模型对旋转后的待处理图像进行处理，可以获得各旋转后的待处理图像的目标方向类别信息，即可以将各旋转后的待处理图像分类到0°、90°、180°、270°四个方向，便于后续OCR检测识别。

通过本公开实施例提供的图像处理方法，对500张图像进行了处理，获得旋转后的500张图像的目标方向类别的准确率如表1所示，平均准确率达到95.15％，准确率高于90％，可以满足线上需求。

表1

图9示出了图3中所示的步骤S320在一实施例中的处理过程示意图。

如图9所示，本公开实施例中，上述步骤S320可以进一步包括以下步骤。

在步骤S321中，将待处理图像转化为灰度图像。

待处理图像可以为彩色图像，可以通过将待处理图像二值化，将待处理图像转化为灰度图像。

如图4所示，待处理图像可以为用户拍摄的名片图像，其中，名片图像是倾斜的。一般情况下，用户拍摄的名片图像为彩色图像，在边缘检测之前，可以先将彩色图像转化为灰度图像。

在步骤S322中，对灰度图像进行边缘检测，获得待处理图像中目标对象的轮廓。

边缘检测是图像处理与计算机视觉中的一种分析图像的方法。边缘检测可以找到图像中亮度变化剧烈的像素点构成的集合，如图像的轮廓。

目标对象例如可以为名片。

对灰度图像进行边缘检测，可以获得名片图像中名片的轮廓。

边缘检测可以使用差分边缘检测、Reborts(罗伯茨)边缘检测、Sobel(索贝尔)边缘检测、Prewitt(普利维特)边缘检测等，本公开对此不做限制。

在步骤S323中，通过霍夫变换对目标对象的轮廓进行检测，获得待处理图像中的目标轮廓线。

通过霍夫变换对待处理图像中目标对象的轮廓进行处理，可以获得该待处理图像的目标轮廓线。

例如，可以将边缘检测中获得的目标对象的轮廓图像输入到霍夫变换中，获取目标对象的轮廓图像中的边缘点，将各边缘点从轮廓图像映射到参数空间，获得多条正弦曲线，通过霍夫变换算法，可以找到经过正弦曲线数量最多的点，或经过正弦曲线数量大于预设值的点，将找到的点映射到图像空间，可以获得该点对应的直线，可以将该直线确定为待处理图像的目标轮廓线。

如图6所示，将名片图像中名片的轮廓图像输入到霍夫变换中，可以获得该名片图像的目标轮廓线L，目标轮廓线也可以为与名片宽边重合的直线，本公开对此不做限制。

本公开实施例中，通过霍夫变换获得待处理图像中的目标轮廓线，便于后续旋转待处理图像，使待处理图像可以处于预设方向。

图10示出了图3中所示的步骤S330在一实施例中的处理过程示意图。如图10所示，本公开实施例中，上述步骤S330可以进一步包括以下步骤。

在步骤S331中，分别获取第一夹角及第二夹角，其中，第一夹角为目标轮廓线与第一方向的夹角，第二夹角为目标轮廓线与第二方向的夹角，第一夹角与第二夹角均为锐角。

图11示意性示出了根据本公开的一实施例的待处理图像的示意图。

如图11所示，第一方向可以为竖直方向，第二方向可以为水平方向，第一夹角a可以为目标轮廓线L与竖直方向的夹角，第二夹角b可以为目标轮廓线L与水平方向的夹角，第一夹角a与第二夹角b均为锐角，第一夹角a与第二夹角b之和可以为90°。

在步骤S332中，根据第一夹角及第二夹角，确定第一方向或者第二方向为目标方向。

可以根据第一夹角a及第二夹角b的大小，将第一夹角a及第二夹角b中较小的夹角对应的第一方向或第二方向作为目标方向，即可以将第一夹角a及第二夹角b中小于或等于45°的夹角对应的第一方向或第二方向作为目标方向。

例如，第一夹角a为30°，第二夹角b为60°，第一夹角a与第二夹角b相比，第一夹角a较小，可以将第一夹角a对应的竖直方向作为目标方向，也可以将第一夹角a和第二夹角b分别与45°比较，将小于45°的第一夹角a对应的竖直方向作为目标方向。

用户在拍摄照片时，一般情况下不会故意对照片进行旋转倾斜，将小于或等于45°的夹角作为待处理图像旋转的角度，适用性更广泛。

在步骤S333中，旋转待处理图像至预设方向，以使目标轮廓线与目标方向平行。

图12示意性示出了根据本公开的一实施例的待处理图像的示意图。

仍以上述待处理图像为例，如图12所示，可以将待处理图像逆时针旋转a，使目标轮廓线L与竖直方向平行。

如图4所示，用户拍摄的待处理图像中文字是倾斜的，可能会影响后续的OCR识别，通过本公开实施例中的图像处理方法处理后，待处理图像中的文字呈竖直方向或水平方向，待处理图像处于预设方向，例如，图12所示的旋转后的待处理图像中的文字呈竖直方向，待处理图像处于90°方向。

本公开实施例中，在对待处理图像进行分类处理之前，将待处理图像旋转至预设方向，可以减少分类的类别数量，提高图像分类的准确率。

图13示意性示出了根据本公开的一实施例的图像处理方法的流程图。

如图13所示，与上述实施例的不同之处，本公开实施例提供的方法还可以进一步包括以下步骤。

在步骤S1310中，获取训练集，训练集包括训练图像及其方向类别标签，训练图像中包含第一语言名片、第二语言名片及双语名片，训练图像处于预设方向。

第一语言、第二语言可以为中文、英文或其他语言中的任意两种名片，双语名片可以为包含简体、繁体中文的名片，也可以为包含中文、英文或其他语言中的任意两种语言的名片，本公开对此不做限制。

本公开实施例的训练集中包含外语名片及双语名片，可以提高由此训练得到的图片分类模型对外语名片及双语名片的识别率。

训练集包括训练图像及其方向类别标签，训练图像处于预设方向，训练图像的方向类别标签为该训练图像所处的预设方向。以预设方向为0°、90°、180°、270°四个方向为例，处于0°方向的训练图像的方向类别标签可以为0，处于90°方向的训练图像的方向类别标签可以为90，以此类推。

在步骤S1320中，通过神经网络模型对训练图像进行处理，获得训练图像的预测方向类别信息。

例如可以通过VGG16模型对训练图像进行处理，可以获得训练图像的预测方向类别信息。

在步骤S1330中，根据方向类别标签及预测方向类别信息，训练神经网络模型，确定神经网络模型的目标网络参数，将包括目标网络参数的神经网络模型确定为图片分类模型。

其中，图片分类模型用于对旋转后的待处理图像进行分类处理，获得旋转后的待处理图像的目标方向类别信息。

可以根据方向类别标签及预测方向类别信息确定损失函数，根据损失函数，调节神经网络模型的参数，确定神经网络模型的目标网络参数，将包括目标网络参数的神经网络模型确定为图片分类模型。

在示例性实施例中，该方法还可以包括：获取目标数据库中的自然图像及标签信息；通过初始神经网络模型对自然图像进行处理，获得初始预测信息；根据标签信息及初始预测信息训练初始神经网络模型，以获得神经网络模型。

目标数据库例如可以为ImageNet(图像网络)数据库。

ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库，ImageNet中包含大量自然图像及标签。

例如可以利用ImageNet中的自然图像对初始神经网络模型进行预训练。

例如可以获取ImageNet数据库中的自然图像及标签信息，标签信息例如可以为类别标签。

例如通过初始神经网络模型对自然图像进行分类处理，获得初始预测信息，其中，初始神经网络模型例如可以为VGG16模型或其他神经网络模型。

例如可以根据标签信息及初始预测信息确定损失函数，根据该损失函数调整初始神经网络模型的模型参数，获得初始神经网络模型的目标模型参数，将包括目标模型参数的初始神经网络模型作为神经网络模型。

利用自然图像对初始神经网络进行预训练，可以减少数据收集的数量和难度。

可以根据训练集对预训练后的神经网络模型进行Finetuning(微调)，以获得神经网络模型的目标网络参数。

在对神经网络模型进行训练之后，可以对该模型进行测试。可以使用含有中文名片和英文名片的数据集对该模型进行测试，也可以使用含有不同地区、不同风格的名片的数据集对该模型测试。

图14示出了图13中所示的步骤S1310在一实施例中的处理过程示意图。

如图14所示，本公开实施例中，上述步骤S1310可以进一步包括以下步骤。

在步骤S1311中，获取初始图像，初始图像的初始方向属于预设方向。

初始图像例如可以是名片图像，其中，名片图像的初始方向属于预设方向。

在步骤S1312中，旋转初始图像，使初始图像处于除初始方向外的其他预设方向。

仍以预设方向为0°、90°、180°、270°四个方向为例，例如，初始图像的方向为0°，旋转初始图像，使该初始图像分别处于90°、180°、270°，获得分别处于90°、180°、270°的旋转后的初始图像。

通过旋转初始图像，可以扩大数据量，提高图片分类模型分类的准确性。

本领域技术人员还可以通过平移、缩放初始图像，以扩大数据量，本公开对此不做限制。

在步骤S1313中，将初始图像及旋转后的初始图像确定为训练集中的训练图像。

例如，将处于0°的初始图像及分别处于90°、180°、270°旋转后的初始图像确定为训练集中的训练图像。

图15示出了图13中所示的步骤S1310在一实施例中的处理过程示意图。

如图15所示，本公开实施例中，上述步骤S1310可以进一步包括以下步骤。

在步骤S1314中，获取初始文本图像。

初始文本图像可以为包含纯文本的图像。

通过文本图像对神经网络模型进行训练，可以增强文字在图像学习中的比重。

在步骤S1315中，对初始文本图像进行数据增强处理，获得目标文本图像。

对初始文本图像进行数据增强处理，可以包括对初始文本图像进行缩小或放大处理、倒置处理。

对初始文本图像进行倒置处理，通过倒置后的初始文本图像对神经网络模型进行训练，可以解决由于图像中文字倒置而导致无法识别的问题。

在步骤S1316中，将初始文本图像及目标文本图像加入训练集，作为训练集中的训练图像。

将初始文本图像及目标文本图像加入训练集，对神经网络模型进行训练，得到的图片分类模型，可以更好地对含有文本的图像进行分类。

图16示意性示出了根据本公开的一实施例的图像识别方法的流程图。

如图16所示，本公开实施例提供的图像识别方法可以包括以下步骤。

在步骤S1610中，获取名片图像。

名片图像可以是用户拍摄的名片的照片，其中，名片图像中的名片可以是倾斜的，名片图像中的文本可以是倒置的。

在步骤S1620中，对名片图像进行图像预处理。

可以使用图4所示的图像处理方法，对名片图像进行图像预处理。图4所示的图像处理方法，可以将名片图像中的名片旋转至预设方向，并对旋转后的名片图像分类。

在步骤S1630中，对图像预处理后的名片图像进行检测，获得检测结果。

可以使用文本检测模型对对图像预处理后的名片图像进行检测。文本检测模型例如可以为CTPN(Connectionist Text Proposal Network，连接文本提议网络)、EAST(AnEfficient and Accurate Scene Text Detector，高效准确的场景文字检测器)、YOLO(YouOnly Look Once Real-Time Object Detection，只需一次运算的实时对象检测)。

在步骤S1640中，对检测结果进行识别，获得识别结果。

可以使用神经网络模型对检测结果进行识别，神经网络模型例如可以为CTC(Connectionist Temporal Classification，联结主义时间分类)、CRNN(ConvolutionalRecurrent Neural Network，卷积递归神经网络)DenseNet(密集卷积网络)。

识别结果例如可以为目标名片。

在步骤S1650中，对识别结果进行文本后处理。

文本后处理例如可以为大小写转换，通过文本后处理，可以获得更准确的识别结果。

本公开实施例中，在对图像进行检测和识别之前，使用图3所示的图像处理方法对图像进行处理，提高了图像识别的准确率。

图17示意性示出了根据本公开的一实施例的图像处理装置的框图。如图17所示，本公开实施方式提供的图像处理装置1700可以包括：图像获取模块1710、轮廓线检测模块1720、图像旋转模块1730及图像处理模块1740。

其中，图像获取模块1710可以用于获取待处理图像。轮廓线检测模块1720可以用于检测待处理图像中的目标轮廓线。图像旋转模块1730可以用于根据目标轮廓线旋转待处理图像，使待处理图像处于预设方向。图像处理模块1740可以用于对旋转后的待处理图像进行分类处理，获得旋转后的待处理图像的预设方向的目标方向类别信息，其中，目标方向类别信息是根据待处理图像的内容方向确定的。

在示例性实施例中，图像旋转模块1730可以包括：夹角获取单元，可以用于分别获取第一夹角及第二夹角，其中，第一夹角为目标轮廓线与第一方向的夹角，第二夹角为目标轮廓线与第二方向的夹角，第一夹角与第二夹角均为锐角；方向确定单元，可以用于根据第一夹角及第二夹角，确定第一方向或者第二方向为目标方向；图像旋转单元，可以用于旋转待处理图像至预设方向，以使目标轮廓线与目标方向平行。

在示例性实施例中，图像处理装置1700还可以包括：训练集获取单元，可以用于获取训练集，训练集包括训练图像及其方向类别标签，训练图像中包含第一语言名片、第二语言名片及双语名片，训练图像处于预设方向；图像处理单元，可以用于通过神经网络模型对训练图像进行处理，获得训练图像的预测方向类别信息；模型训练单元，可以用于根据方向类别标签及预测方向类别信息，训练神经网络模型，确定神经网络模型的目标网络参数，将包括目标网络参数的神经网络模型确定为图片分类模型；其中，图片分类模型用于对旋转后的待处理图像进行分类处理，获得旋转后的待处理图像的目标方向类别信息。

在示例性实施例中，图像处理装置1700还可以包括：自然图像获取单元，可以用于获取目标数据库中的自然图像及标签信息；自然图像处理单元，可以用于通过初始神经网络模型对所述自然图像进行处理，获得初始预测信息；模型获得单元，可以用于根据所述标签信息及所述初始预测信息训练所述初始神经网络模型，以获得所述神经网络模型。

在示例性实施例中，训练集获取单元可以包括：初始图像获取单元，可以用于获取初始图像，初始图像的初始方向属于预设方向；初始图像旋转单元，可以用于旋转初始图像，使初始图像处于除初始方向外的其他预设方向；训练图像确定单元，可以用于将初始图像及旋转后的初始图像确定为训练集中的训练图像。

在示例性实施例中，训练集获取单元可以包括：文本图像获取单元，可以用于获取初始文本图像；文字处理单元，可以用于对初始文本图像进行文字处理；文本图像加入单元，可以用于将初始文本图像及文字处理后的初始文本图像加入训练集，作为训练集中的训练图像。

在示例性实施例中，轮廓线检测模块可以包括：图像转化单元，可以用于将待处理图像转化为灰度图像；边缘检测单元，可以用于对灰度图像进行边缘检测，获得待处理图像中目标对象的轮廓；轮廓线获得单元，可以用于通过霍夫变换对目标对象的轮廓进行检测，获得待处理图像中的目标轮廓线。

本公开实施例提供的图像处理装置中的各个单元的具体实现可以参照上述图像处理方法中的内容，在此不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理图像；

检测所述待处理图像中的目标轮廓线；

根据所述目标轮廓线旋转所述待处理图像，使所述待处理图像处于预设方向；

对旋转后的所述待处理图像进行分类处理，获得旋转后的所述待处理图像的目标方向类别信息，其中，所述目标方向类别信息是根据所述待处理图像的内容方向确定的。

2.根据权利要求1所述的方法，其特征在于，根据所述目标轮廓线旋转所述待处理图像，使所述待处理图像处于预设方向，包括：

分别获取第一夹角及第二夹角，其中，所述第一夹角为所述目标轮廓线与第一方向的夹角，所述第二夹角为所述目标轮廓线与第二方向的夹角，所述第一夹角与第二夹角均为锐角；

根据所述第一夹角及所述第二夹角，确定所述第一方向或者所述第二方向为目标方向；

旋转所述待处理图像至所述预设方向，以使所述目标轮廓线与所述目标方向平行。

3.根据权利要求1所述的方法，其特征在于，还包括：

获取训练集，所述训练集包括训练图像及其方向类别标签，所述训练图像中包含第一语言名片、第二语言名片及双语名片，所述训练图像处于所述预设方向；

通过神经网络模型对所述训练图像进行处理，获得所述训练图像的预测方向类别信息；

根据所述方向类别标签及所述预测方向类别信息，训练所述神经网络模型，确定所述神经网络模型的目标网络参数，将包括所述目标网络参数的神经网络模型确定为图片分类模型；

其中，所述图片分类模型用于对旋转后的所述待处理图像进行分类处理，获得旋转后的所述待处理图像的目标方向类别信息。

4.根据权利要求3所述的方法，其特征在于，还包括：

获取目标数据库中的自然图像及标签信息；

通过初始神经网络模型对所述自然图像进行处理，获得初始预测信息；

根据所述标签信息及所述初始预测信息训练所述初始神经网络模型，以获得所述神经网络模型。

5.根据权利要求3所述的方法，其特征在于，所述获取训练集具体包括：

获取初始图像，所述初始图像的初始方向属于所述预设方向；

旋转所述初始图像，使所述初始图像处于除所述初始方向外的其他所述预设方向；

将所述初始图像及旋转后的所述初始图像确定为所述训练集中的训练图像。

6.根据权利要求3所述的方法，其特征在于，所述获取训练集具体包括：

获取初始文本图像；

对所述初始文本图像进行数据增强处理，获得目标文本图像；

将所述初始文本图像及所述目标文本图像加入所述训练集，作为所述训练集中的训练图像。

7.根据权利要求1所述的方法，其特征在于，检测所述待处理图像中的目标轮廓线，包括：

将所述待处理图像转化为灰度图像；

对所述灰度图像进行边缘检测，获得所述待处理图像中目标对象的轮廓；

通过霍夫变换对所述目标对象的轮廓进行检测，获得待处理图像中的目标轮廓线。

8.一种图像处理装置，其特征在于，包括：

图像获取模块，用于获取待处理图像；

轮廓线检测模块，用于检测所述待处理图像中的目标轮廓线；

图像旋转模块，用于根据所述目标轮廓线旋转所述待处理图像，使所述待处理图像处于预设方向；

图像处理模块，用于对旋转后的所述待处理图像进行分类处理，获得旋转后的所述待处理图像的目标方向类别信息，其中，所述目标方向类别信息是根据所述预设方向确定的。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，包括：

至少一个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现如权利要求1至7中任一项所述的方法。