CN113705559B

CN113705559B - 基于人工智能的文字识别方法及装置、电子设备

Info

Publication number: CN113705559B
Application number: CN202111017840.5A
Authority: CN
Inventors: 谢勇
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2024-05-10
Anticipated expiration: 2041-08-31
Also published as: CN113705559A

Abstract

本申请涉及人工智能技术，具体揭示了一种基于人工智能的文字识别方法及装置、电子设备，该方法包括：检测图像中含有的目标区域，目标区域中含有第一字符串和第二字符串，第一字符串与第二字符串之间具有间隔距离，且第一字符串和第二字符串共同构成完整的文字识别结果；若未检测到目标区域，则获取图像对应的区域检测结果集合；在区域检测结果集合中获取处于同一横向位置的至少两个识别区域，若至少两个识别区域之间的横向最短距离小于预设的距离阈值，则将至少两个识别区域合并为同一识别区域；针对合并得到的识别区域进行文字提取，得到图像对应的文本识别结果。本申请实施例的技术方案能够从图像中准确识别得到文字内容。

Description

基于人工智能的文字识别方法及装置、电子设备

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种基于人工智能的文字识别方法及装置。

背景技术

文字识别是指提取图像中含有的文字的一个过程，例如在政府部门进行官文审查时，为了提取其中的重要信息，往往需要对官文图像中的文字进行自动识别。目前，文字识别的准确度与图像质量有很大关系，若图像存在色差或者图像清晰度较低，则会导致在一些自动识别并录入文字信息的应用场景中，将原本应识别得到的一段文字识别为两段甚至多段拆分开来的文字，这种情况下会导致后续基于识别结果的应用过程出现错误。

发明内容

为解决上述技术问题，本申请的实施例提供了一种基于人工智能的文字识别方法及装置、电子设备、计算机可读存储介质，用以从图像中更加准确地提取出需要提取的文字内容。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种基于人工智能的文字识别方法，包括：检测图像中含有的目标区域，所述目标区域中含有第一字符串和第二字符串，所述第一字符串与所述第二字符串之间具有间隔距离，且所述第一字符串和所述第二字符串共同构成完整的文字识别结果；若未检测到所述目标区域，则获取所述图像对应的区域检测结果集合，所述区域检测结果集合中含有多个识别区域，且每个识别区域中含有至少一个字符；在所述区域检测结果集合中获取处于同一横向位置的至少两个识别区域，若所述至少两个识别区域之间的横向最短距离小于预设的距离阈值，则将所述至少两个识别区域合并为同一识别区域；针对合并得到的识别区域进行文字提取，得到所述图像对应的文本识别结果。

在另一示例性的实施例中，所述检测图像中含有的目标区域，包括：提取所述图像对应的图像特征；针对所述图像特征进行全连接处理，得到所述图像对应的全连接特征；根据所述全连接特征进行图像区域检测，得到所述图像对应的区域检测结果集合。

在另一示例性的实施例中，所述提取所述图像对应的图像特征，包括：对所述图像对应的图像数据进行卷积处理得到卷积特征，并对所述卷积特征进行滑窗操作，得到所述图像对应的初始图像特征；通过循环神经网络对所述初始图像特征进行特征提取，以得到所述图像对应的图像特征。

在另一示例性的实施例中，所述通过循环神经网络对所述初始图像特征进行特征提取，以得到所述图像对应的图像特征，包括：将所述图像特征中的每一行特征数据分别作为所述图像对应的数据流，通过所述循环神经网络提取所述每一行特征数据对应的序列特征；将每一行特征数据对应的序列特征依次拼接，将所得到得图像特征矩阵作为所述图像对应的图像特征。

在另一示例性的实施例中，所述在所述区域检测结果集合中获取处于同一横向位置的至少两个识别区域，若所述至少两个识别区域之间的横向最短距离小于预设的距离阈值，则将所述至少两个识别区域合并为同一识别区域，包括：在相邻的两个识别区域中分别定位目标顶点，所述目标顶点之间的距离用于构成所述相邻的两个识别区域之间的横向最短距离；根据所述目标顶点对应的顶点坐标，计算所述相邻的两个识别区域之间的横向最短距离，若所述横向最短距离小于预设的距离阈值，则将所述相邻的两个识别区域进行合并。

在另一示例性的实施例中，在所述根据所述目标顶点对应的顶点坐标，计算所述相邻的两个识别区域之间的横向最短距离之前，所述方法还包括：提取所述图像中含有的文本信息，并对所述文本信息进行关键字提取，得到所述图像中含有的关键信息；根据所述关键信息确定所述图像所属的图像类型，将与所述图像类型相匹配的阈值作为所述距离阈值。

在另一示例性的实施例中，所述针对合并得到的识别区域进行文字提取，得到所述图像对应的文本识别结果，包括：根据合并得到的识别区域中含有的各个字符的位置，确定相邻字符之间的间隔距离；将位于最大的间隔距离之前的字符串识别为第一文本，将所述第一文本赋值为指定字段的字段名称，以及将位于所述最大的间隔距离之后的字符串识别为第二文本，将所述第二文本赋值为所述指定字段对应的值；根据赋值得到的指定字段自动生成配置信息，以将所述配置信息作为所述图像对应的文本识别结果。

根据本申请实施例的一个方面，提供了一种基于人工智能的文字识别装置，包括：图像区域检测模块，配置为检测图像中含有的目标区域，所述目标区域中含有第一字符串和第二字符串，所述第一字符串与所述第二字符串之间具有间隔距离，且所述第一字符串和所述第二字符串共同构成完整的文字识别结果；检测区域获取模块，配置为若未检测到所述目标区域，则获取所述图像对应的区域检测结果集合，所述区域检测结果集合中含有多个识别区域，且每个识别区域中含有至少一个字符；图像区域合并模块，配置为在所述区域检测结果集合中获取处于同一横向位置的至少两个识别区域，若所述至少两个识别区域之间的横向最短距离小于预设的距离阈值，则将所述至少两个识别区域合并为同一识别区域；识别结果获取模块，配置为针对合并得到的识别区域进行文字提取，得到所述图像对应的文本识别结果。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如前所述的基于人工智能的文字识别方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的基于人工智能的文字识别方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施例中提供的基于人工智能的文字识别方法。

在本申请的实施例所提供的技术方案中，在没有识别到图像中含有的目标区域的情况下，通过将同一横向位置的至少两个识别区域合并为同一识别区域，然后从合并得到的识别区域中进行文字提取，使得所得到的文字中包含了由目标区域中含有的第一字符串和第二字符串共同构成的完整的文字识别结果，由此解决了由于图像存在色差或者图像清洗度较低的情况下将原本应识别得到的一段文字识别为拆分开来的文字，导致后续基于识别结果的应用过程出现错误的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请涉及的一种实施环境的示意图；

图2是本申请的一示例性实施例示出的基于人工智能的文字识别方法的流程图；

图3是图2所示示例中的步骤S110在一个实施例的流程图；

图4是图2所示示例中的步骤S150在一个实施例的流程图；

图5是图2所示示例中的步骤S170在一个实施例的流程图；

图6是本申请的一示例性实施例示出的一种基于人工智能的文字识别装置的框图；

图7示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

首先说明的是，人工智能(Artificia lIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请的实施例提出的基于人工智能的文字识别方法以及装置、电子设备、计算机可读存储介质主要涉及人工智能技术中包括的计算机视觉技术和自然语言处理技术，以下将对这些实施例进行详细说明。

首先请参阅图1，图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端10和服务器20，终端10和服务器20之间通过有线或者无线网络进行通信。

终端10用于向服务器20发送待提取文字的图像。服务器20用于检测终端10所传入的图像中含有的目标区域，目标区域中含有第一字符串和第二字符串，第一字符串与第二字符串之间具有间隔距离，且所述第一字符串和所述第二字符串共同构成完整的文字识别结果。若由于图像存在色彩或者图像清晰度较低等问题导致服务器20未检测到目标区域，则进一步图像对应的区域检测结果集合，该区域检测结果集合是通过检测图像中含有的目标区域所得到的。服务器20通过在区域检测结果集合中获取处于同一横向位置的至少两个识别区域，并将至少两个识别区域合并为同一识别区域，然后针对合并得到的识别区域进行文字提取，即可得到图像对应的文本识别结果。

其中，终端10可以是智能手机、平板、笔记本电脑、计算机等任意的电子设备；服务器20服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，本处不进行限制。

图2是本申请的一示例性实施例示出的基于人工智能的文字识别方法的流程图。该方法可以应用于图1所示的实施环境，并由图1所示实施例环境中的服务器20具体执行。而在其它的实施环境中，该方法可以由其它实施环境中的设备执行，本实施例不对此进行限制。

如图2所示，在一示例性实施例中，该基于人工智能的文字识别方法可以包括步骤S110至步骤S170，详细介绍如下：

步骤S110，检测图像中含有的目标区域，其中，目标区域中含有第一字符串和第二字符串，第一字符串与第二字符串之间具有间隔距离，且第一字符串和第二字符串共同构成完整的文字识别结果。

首先需要说明的是，本申请是特意为解决由于图像存在色差、或者图像清晰度较低等原因，导致在一些自动识别并录入文字信息的应用场景中，将原本应识别得到的一段文字识别为两段拆分开来的文字，后续基于识别结果的应用过程出现错误的问题所提出的解决方案。例如，如果将“身份证号1521031983XXXX5712”识别为“身份证号”和“1521031983XXXX5712”两段文字，在实际应用场景中由于无法基于文字识别结果去分别定位字段“身份证号”以及具体的号码“1521031983XXXX5712”，则会导致自动录入身份证号码文字失败。

本实施例特殊地设置图像中需要检测的目标区域中含有第一字符串和第二字符串，其中第一字符串与第二字符串之间具有的间隔距离用于将第一字符串和第二字符串在图像中区分开来，第一字符串和所述第二字符串共同构成完整的文字识别结果则用于关联上述特殊的应用场景。

示例性的，检测图像中含有的目标区域的过程可以包括图3所示的步骤S111至步骤S115，详细介绍如下：

步骤S111，提取图像对应的图像特征。

由于本实施例是基于人工智能技术进行图像中含有文字的识别，因此首先需要针对待识别文字的图像进行图像特征提取。通常而言，人工智能领域进行特征提提取是基于卷积网络实现的，通过对图像进行卷积处理，则能够相应获得图像特征。

在一示例性的实施例中，还可通过先对图像进行卷积处理得到卷积特征，再通过对卷积特征进行滑窗操作，来得到图像对应的初始图像特征，再通过神经网络对初始图像特征进行特征提取，则可得到图像对应的图像特征。

卷积处理的过程用于提取图像的初始特征，例如得到大小为C＊H＊W的初始特征，其中C表示初始特征的维度，H和W分别表示初始特征的高和宽。滑窗操作具体可采用3＊3大小的滑窗在初始特征上进行窗口滑动，每一次滑窗操作都会得到一个大小为3＊3＊C的特征向量，最终得到的图像对应的初始图像特征则可表示为9C＊H＊W。如此处理，能够快速地增加特征向量的维度，使得最终得到的初始图像特征能够包含更加丰富的图像信息。

用于提取图像特征的循环神经网络具体可以是Bi－LSTM(Bi－LongShort－TermMemory，双向长短时记忆循环网络)网络。示例性的，可将图像特征中的每一行特征数据分别作为图像对应的数据流，通过循环神经网络提取每一行特征数据对应的序列特征，将每一行特征数据对应的序列特征依次拼接，即可将拼接得到的图像特征矩阵作为图像对应的图像特征。在拼接得到的图像特征矩阵中，不仅包含空间特征，还包含了序列特征，基于空间特征和序列特征则可以将具备相同空间特征的区域识别为同一图像区域。

当循环神经网络采用Bi－LSTM网络的情况下，在提取每一行特征数据对应的序列特征的过程中都会参考其它各行特征数据对应的图像信息，由此进一步使得提取得到的图像特征中含有丰富的图像信息。当然，在一些示例性的实施例中也可以采用其它类型的循环神经网络，例如RNN(Recurrent Neural Network)、LSTM等网络，本实施例不对此进行限制。

步骤S113，针对图像特征进行全连接处理，得到图像对应的全连接特征。

本实施例针对图像特征进行全连接处理的过程也即是使用全连接网络对图像数据进行处理的过程。通过对图像特征进行全连接处理，用以图像特征中含有的分布式特征表示映射至样本标记空间，以便于后续检测图像中含有的图像区域。

步骤S115，根据全连接特征进行图像区域检测，得到图像对应的区域检测结果集合。

本实施例中根据全连接特征进行图像区域检测是通过将全连接特征输入至RPN(Region Proposa lNetwork，区域生成网络)网络中实现的。RPN网络具有两个分支，在此称为第一分支和第二分支，其中第一分支用于边界框回归处理，第二分支用于分类处理。第一分支中，为图像特征中的每一特征位点配置多个边界框，这些边界框覆盖原图像且不相互重叠，用于覆盖不同高度的文本目标；第二分支中，针对边界框进行分类，以判断每个边界框中是否包含文本。通过将分类概率大于设定概率值的边界框合并为文本线，即可得到文本检测框。

由此，本实施例针对图像中的目标区域进行检测过程也即使对图像进行文本区域检测的过程，能够得到图像对应的区域检测结果集合。该区域检测结果集合中含有多个识别区域，且每个识别区域中含有至少一个字符。

由上述检测过程可以看出，在图像存在色差或者图像的清晰度较低时，由于空间特征和序列特征更少，导致原本应整体识别为文本检测框的图像区域容易被识别成多个图像区域，从而无法检测到满足要求的目标区域，因此区域检测集合中并不含有目标区域。

步骤S130，若未检测到目标区域，则获取图像对应的区域检测结果集合，该区域检测结果集合中含有多个识别区域，且每个识别区域中含有至少一个字符。

在未检测到目标区域的情况下，则无法从图像中直接获取由目标区域中的第一字符串和第二字符串共同构成的完整的文字识别结果，因此需要进一步的处理，以得到完整的文字识别结果。由于区域检测结果集合包含了步骤S110中检测得到的所有文本检测框对应的识别区域，完整的文字识别结果所对应的文字应分散在多个识别区域中，因此可通过对这些识别区域进行处理来得到完整的文字识别结果。

步骤S150，在区域检测结果集合中获取处于同一横向位置的至少两个识别区域，若至少两个识别区域之间的横向最短距离小于预设的距离阈值，则将至少两个识别区域合并为同一识别区域。

考虑到本申请涉及的应用场景通常包括针对一些证件的自动识别，例如驾驶证、律师证等，应作为目标区域的图像区域被划分为了多个单独的识别区域，而这些图像区域应处于同一横向位置上。基于此特点，本实施例则在区域检测结果集合中获取处于同一横向位置的至少两个识别区域，后续通过对这至少两个识别区域进行合并，即可将合并后得到的识别区域作为原本应检测得到的目标区域。

示例性的，可通过图4所示的步骤S151至步骤S153来进行至少两个识别区域的合并处理，详细介绍如下：

步骤S151，在相邻的两个识别区域中分别定位目标顶点，目标顶点之间的距离用于构成相邻的两个识别区域之间的横向最短距离。

若将相邻的两个识别区域分别称为第一识别区域和第二识别区域，在第一识别区域中定位的目标顶点应是位于第一识别区域的最右侧顶点，在第二识别区域中定位的目标顶点应是位于第二识别区域的最左侧点，二者目标顶点也应处于同一横向位置，基于此方式定位得到的目标顶点则能够构成相应的横向最短距离。

步骤S153，根据目标顶点对应的顶点坐标，计算相邻的两个识别区域之间的横向最短距离，若横向最短距离小于预设的距离阈值，则将相邻的两个识别区域进行合并。

在本实施例中，可根据目标顶点对应的顶点坐标来计算对应两个识别区域之间的横向最短距离，顶点坐标用于标识对应的识别区域在图像中的位置，可根据图像对应的图像数据生成。

预设的距离阈值用于表征判断二者识别区域属于同一目标区域的距离临界值，若二者识别区域之间的横向最短距离小于预设的距离阈值，则表示二者识别区域属于同一目标区域，因此需对二者目标区域进行合并。需要说明的是，当目标区域被识别为数量大于两个的识别区域时，可通过多次进行相邻两个识别区域的合并来得到目标区域。而对于并非处于同一目标区域的相邻两个识别区域而言，在本实施例涉及的场景下，由于不属于同一类型的字符通常不会相距很近，因此不会针对二者识别区域进行合并，因此合并得到的识别区域通常是准确的目标区域。

对于识别区域的合并，可以直接将两个图像区域进行拼合，以得到一个新的图像区域；也可以连通这两个图像区域，即将原先的两个识别区域对应的文本检测框合并为一个文本检测框，相比于前者方式，采用后者方式对于图像区域所作处理所需的资源更少。

对于预设的距离阈值，可以针对不同的图像类型分别进行设置。例如，若图像对应于驾驶证类别，可将距离阈值对应设置为A；若图像对应于身份证类别，则可将距离阈值对应设置为B。这些距离阈值可以通过对应的图像类别中的共性来得到。由此，在针对图像进行文字识别的过程中可通过获取图像所属的图像类型，将与此图像类型相匹配的阈值获取为与横向最短距离进行对比的距离阈值，以通过提升距离阈值的精确性来提升识别区域合并的准确性，进而提升文字识别结果的准确性。

示例性的，通过先提取图像中含有的文本信息，然后对文本信息进行关键字提取，得到图像中含有的关键信息，从而通过关键信息来确定图像所属的图像类型。提取图像中含有的文本信息以及对文本信息进行关键字提取的过程均可以通过合适的神经网络实现，本处不进行限制。

步骤S170，针对合并得到的识别区域进行文字提取，得到图像对应的文本识别结果。

本实施例针对合并得到的识别区域进行文字提取可以通过文字识别算法模型实现，例如文字识别算法模型可以是由DenseNet(一种分类网络)网络和CTC(ConnectionistTemporal Classification，基于神经网络的时序类分类)网络组成，或者由LSTM网络和CTC网络组成，可以根据实际需求进行选择，本实施例不进行限制。

由于目标区域完整的文字识别结果包括第一字符串和第二字符串，本实施例则可以基于此思路针对合并得到的识别区域进行文字提取。示例性的，针对合并得到的识别区域进行文字提取可包括图5所示的步骤S171至步骤S175，详细介绍如下：

步骤S171，根据合并得到的识别区域中含有的各个字符的位置，确定相邻字符之间的间隔距离。

步骤S173，将位于最大的间隔距离之前的字符串识别为第一文本，将第一文本赋值为指定字段的字段名称，以及将位于最大的间隔距离之后的字符串识别为第二文本，将第二文本赋值为指定字段对应的值。

步骤S175，根据赋值得到的指定字段自动生成配置信息，以将配置信息作为图像对应的文本识别结果。

在此示例性的实施例中，由于合并得到的识别区域对应于原本想要检测的目标区域，因此只需从合并得到的识别区域中相应识别得到第一字符串对应的第一文本和第二字符串对应第二文本，即可由第一文本和第二文本来得到完整的文字识别结果。

并且由于第一字符串和第二字符串在目标区域中通常具有较大的间隔，本实施例通过识别最大的间隔距离来确定第一文本和第二字文本之间的分界位置，将位于最大的间隔距离之前的字符串识别为第一文本，将位于最大的间隔距离之后的字符串识别为第二文本，可以得到第一文本应位于第二文本之前。

本实施例将第一文本赋值为指定字段的字段名称，以及将第二文本赋值为指定字段对应的值，即可通过赋值得到的指定字段自动生成配置信息，以快速地得到文本识别结果。示例来说，如果识别到第一文本为“身份证号”，识别到第二文本为“1521031983XXXX5712”，通过将“身份证号”赋值为指定字段的字段名称，以及将“1521031983XXXX5712”赋值为指定字段对应的值，即可得到指定字段为“身份证号1521031983XXXX5712”，因此可将其作为完整的文字识别结果。在实际的应用场景下，例如身份证号码自动录入，则可以根据文本识别结果快速执行相应过程。

在另一示例性实施例中，还可以通过如下过程识别得到第一文本和第二文本：

首先识别出合并得到的识别区域中的所有字符，然后基于每个字符所属的字符类型来确定第一文本和第二文本。例如，预设的字符类型包括汉字、数字、字母等，可将字符类型相同的连续字符串依次识别为第一文本和第二文本。

由上可知，本申请的实施例所提出的方法在没有识别到图像中含有的目标区域的情况下，通过将同一横向位置的至少两个识别区域合并为同一识别区域，然后从合并得到的识别区域中进行文字提取，使得所得到的文字中包含了由目标区域中含有的第一字符串和第二字符串共同构成的完整的文字识别结果，由此解决了由于图像存在色差或者图像清洗度较低的情况下将原本应识别得到的一段文字识别为拆分开来的文字，导致后续基于识别结果的应用过程出现错误的问题。

图6是本申请的一示例性实施例示出的一种基于人工智能的文字识别装置的框图。如图6所示，该装置包括：

图像区域检测模块210，配置为检测图像中含有的目标区域，目标区域中含有第一字符串和第二字符串，第一字符串与第二字符串之间具有间隔距离，且第一字符串和第二字符串共同构成完整的文字识别结果；检测区域获取模块230，配置为若未检测到目标区域，则获取图像对应的区域检测结果集合，区域检测结果集合中含有多个识别区域，且每个识别区域中含有至少一个字符；图像区域合并模块250，配置为在区域检测结果集合中获取处于同一横向位置的至少两个识别区域，若至少两个识别区域之间的横向最短距离小于预设的距离阈值，则将至少两个识别区域合并为同一识别区域；识别结果获取模块270，配置为针对合并得到的识别区域进行文字提取，得到图像对应的文本识别结果。

在另一示例性的实施例中，图像区域检测模块210包括：

图像特征提取单元，配置为提取图像对应的图像特征；全连接单元，配置为针对图像特征进行全连接处理，得到图像对应的全连接特征；区域检测单元，配置为根据全连接特征进行图像区域检测，得到图像对应的区域检测结果集合。

在另一示例性的实施例中，图像特征提取单元包括：

第一特征提取子单元，配置为对图像对应的图像数据进行卷积处理得到初始特征，并对初始特征进行滑窗操作，得到图像对应的初始图像特征；第二特征提取子单元，配置为通过循环神经网络对初始图像特征进行特征提取，以得到图像对应的图像特征。

在另一示例性的实施例中，第二特征提取子单元包括：

序列特征提取子单元，配置为将图像特征中的每一行特征数据分别作为图像对应的数据流，通过循环神经网络提取每一行特征数据对应的序列特征；序列特征拼接子单元，配置为将每一行特征数据对应的序列特征依次拼接，将拼接得到的图像特征矩阵作为图像对应的图像特征。

在另一示例性的实施例中，图像区域合并模块250包括：

顶点定位单元，配置为在相邻的两个识别区域中分别定位目标顶点，目标顶点之间的距离用于构成相邻的两个识别区域之间的横向最短距离；区域合并单元，配置为根据目标顶点对应的顶点坐标，计算相邻的两个识别区域之间的横向最短距离，若横向最短距离小于预设的距离阈值，则将相邻的两个识别区域进行合并。

在另一示例性的实施例中，图像区域合并模块250还包括：

图像类型确定单元，配置为提取图像中含有的文本信息，并对文本信息进行关键字提取，得到图像中含有的关键信息；距离阈值获取单元，配置为根据关键信息确定图像所属的图像类型，将与图像类型相匹配的阈值作为距离阈值。

在另一示例性的实施例中，识别结果获取模块270包括：

字符间距确定单元，配置为根据合并得到的识别区域中含有的各个字符的位置，确定相邻字符之间的间隔距离；文本区分识别单元，配置为将位于最大的间隔距离之前的字符串识别为第一文本，将第一文本赋值为指定字段的字段名称，以及将位于最大的间隔距离之后的字符串识别为第二文本，将第二文本赋值为指定字段对应的值；配置信息生成单元，配置为根据赋值得到的指定字段自动生成配置信息，以将配置信息作为图像对应的文本识别结果。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

本申请的实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得电子设备实现前述各项实施例中所记载的基于人工智能的文字识别方法。

需要说明的是，图7示出的电子设备的计算机系统1600仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统1600包括中央处理单元(Centra lProcessing Unit，CPU)1601，其可以根据存储在只读存储器(Read－Only Memory，ROM)1602中的程序或者从储存部分1608加载到随机访问存储器(Random Access Memory，RAM)1603中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1603中，还存储有系统操作所需的各种程序和数据。CPU1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(Input/Output，I/O)接口1605也连接至总线1604。

以下部件连接至I/O接口1605：包括键盘、鼠标等的输入部分1606；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crysta lDisplay，LCD)等以及扬声器等的输出部分1607；包括硬盘等的储存部分1608；以及包括诸如LAN(Loca lAreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1610上，以便于从其上读出的计算机程序根据需要被安装入储存部分1608。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1609从网络上被下载和安装，和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(CPU)1601执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的基于人工智能的文字识别方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的基于人工智能的文字识别方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种基于人工智能的文字识别方法，其特征在于，包括：

检测图像中含有的目标区域，所述目标区域中含有第一字符串和第二字符串，所述第一字符串与所述第二字符串之间具有间隔距离，且所述第一字符串和所述第二字符串共同构成完整的文字识别结果；

若未检测到所述目标区域，则获取所述图像对应的区域检测结果集合，所述区域检测结果集合中含有多个识别区域，且每个识别区域中含有至少一个字符；

在所述区域检测结果集合中获取处于同一横向位置的至少两个识别区域，若所述至少两个识别区域之间的横向最短距离小于预设的距离阈值，则将所述至少两个识别区域合并为同一识别区域；

针对合并得到的识别区域进行文字提取，得到所述图像对应的文本识别结果；

所述在所述区域检测结果集合中获取处于同一横向位置的至少两个识别区域，若所述至少两个识别区域之间的横向最短距离小于预设的距离阈值，则将所述至少两个识别区域合并为同一识别区域，包括：

在相邻的两个识别区域中分别定位目标顶点，所述目标顶点之间的距离用于构成所述相邻的两个识别区域之间的横向最短距离；

根据所述目标顶点对应的顶点坐标，计算所述相邻的两个识别区域之间的横向最短距离，若所述横向最短距离小于预设的距离阈值，则将所述相邻的两个识别区域进行合并；

在所述根据所述目标顶点对应的顶点坐标，计算所述相邻的两个识别区域之间的横向最短距离之前，所述方法还包括：

提取所述图像中含有的文本信息，并对所述文本信息进行关键字提取，得到所述图像中含有的关键信息；

根据所述关键信息确定所述图像所属的图像类型，将与所述图像类型相匹配的阈值作为所述距离阈值。

2.根据权利要求1所述的方法，其特征在于，所述检测图像中含有的目标区域，包括：

提取所述图像对应的图像特征；

针对所述图像特征进行全连接处理，得到所述图像对应的全连接特征；

根据所述全连接特征进行图像区域检测，得到所述图像对应的区域检测结果集合。

3.根据权利要求2所述的方法，其特征在于，所述提取所述图像对应的图像特征，包括：

对所述图像对应的图像数据进行卷积处理得到初始特征，并对所述初始特征进行滑窗操作，得到所述图像对应的初始图像特征；

通过循环神经网络对所述初始图像特征进行特征提取，以得到所述图像对应的图像特征。

4.根据权利要求3所述的方法，其特征在于，所述通过循环神经网络对所述初始图像特征进行特征提取，以得到所述图像对应的图像特征，包括：

将所述图像特征中的每一行特征数据分别作为所述图像对应的数据流，通过所述循环神经网络提取所述每一行特征数据对应的序列特征；

将每一行特征数据对应的序列特征依次拼接，将拼接得到的图像特征矩阵作为所述图像对应的图像特征。

5.根据权利要求1所述的方法，其特征在于，所述针对合并得到的识别区域进行文字提取，得到所述图像对应的文本识别结果，包括：

根据合并得到的识别区域中含有的各个字符的位置，确定相邻字符之间的间隔距离；

将位于最大的间隔距离之前的字符串识别为第一文本，将所述第一文本赋值为指定字段的字段名称，以及将位于所述最大的间隔距离之后的字符串识别为第二文本，将所述第二文本赋值为所述指定字段对应的值；

根据赋值得到的指定字段自动生成配置信息，以将所述配置信息作为所述图像对应的文本识别结果。

6.一种基于人工智能的文字识别装置，其特征在于，包括：

图像区域检测模块，配置为检测图像中含有的目标区域，所述目标区域中含有第一字符串和第二字符串，所述第一字符串与所述第二字符串之间具有间隔距离，且所述第一字符串和所述第二字符串共同构成完整的文字识别结果；

检测区域获取模块，配置为若未检测到所述目标区域，则获取所述图像对应的区域检测结果集合，所述区域检测结果集合中含有多个识别区域，且每个识别区域中含有至少一个字符；

图像区域合并模块，配置为在所述区域检测结果集合中获取处于同一横向位置的至少两个识别区域，若所述至少两个识别区域之间的横向最短距离小于预设的距离阈值，则将所述至少两个识别区域合并为同一识别区域；

识别结果获取模块，配置为针对合并得到的识别区域进行文字提取，得到所述图像对应的文本识别结果；

所述图像区域合并模块在所述区域检测结果集合中获取处于同一横向位置的至少两个识别区域，若所述至少两个识别区域之间的横向最短距离小于预设的距离阈值，则将所述至少两个识别区域合并为同一识别区域时，配置为在相邻的两个识别区域中分别定位目标顶点，所述目标顶点之间的距离用于构成所述相邻的两个识别区域之间的横向最短距离；根据所述目标顶点对应的顶点坐标，计算所述相邻的两个识别区域之间的横向最短距离，若所述横向最短距离小于预设的距离阈值，则将所述相邻的两个识别区域进行合并；

所述图像区域合并模块在根据所述目标顶点对应的顶点坐标，计算所述相邻的两个识别区域之间的横向最短距离之前，还配置为提取所述图像中含有的文本信息，并对所述文本信息进行关键字提取，得到所述图像中含有的关键信息；根据所述关键信息确定所述图像所属的图像类型，将与所述图像类型相匹配的阈值作为所述距离阈值。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至5中任一项所述的基于人工智能的文字识别方法。

8.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1至5中的任一项所述的基于人工智能的文字识别方法。