CN111444905B

CN111444905B - 基于人工智能的图像识别方法和相关装置

Info

Publication number: CN111444905B
Application number: CN202010212302.0A
Authority: CN
Inventors: 康健; 黄珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-09-22
Anticipated expiration: 2040-03-24
Also published as: CN111444905A

Abstract

本申请实施例公开了基于人工智能的图像识别方法和相关装置，在该方法中，待识别图像中包括的文本可以在目标区域中，在进行字形识别时，可以针对该目标区域识别出多个候选字，并确定多个候选字之间的语义连贯性参数。根据语义连贯性参数，从多个候选字中筛选目标字，将目标字组合成目标区域的文本所对应的文本识别结果。由于语义连贯性参数可以体现出多个候选字之间在语义上是否通顺，故虽然该多个候选字均具有作为该目标区域文本识别结果的可能，但是通过进一步结合候选字的语义通顺程度，由于出现形近字词识别错误的候选字对应的语义通顺程度一般较低，使得语义通顺程度更好的对应的候选字被确定为目标字的可能性提高，提高了文本识别精度。

Description

基于人工智能的图像识别方法和相关装置

技术领域

本申请涉及图像处理领域，特别是涉及基于人工智能的图像识别方法和相关装置。

背景技术

随着人工智能技术的发展，可以通过字形识别模型识别出图像内容中包含的文字。

然而，由于存在的形状、结构相近文字，在识别时容易出现识别错误。为此，相关技术中多采用的方式是针对相近文字构建并标注大量的训练样本，根据这些训练样本来训练、优化字形识别模型。

然而这种方式中，样本的构建、标注成本很高，且一旦有些文字形近情况没有被训练样本覆盖到的话，文字识别精度将会陡然下降。

发明内容

为了解决上述技术问题，本申请提供了基于人工智能的图像识别方法和相关装置，提高了文本识别精度。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种图像识别方法，所述方法包括：

获取待识别图像；

对所述待识别图像中目标区域的文本进行字形识别，得到多个候选字；

确定所述多个候选字之间的语义连贯性参数；

基于所述语义连贯性参数，从所述多个候选字中筛选目标字，将所述目标字组合成所述目标区域的文本所对应的文本识别结果。

另一方面，本申请实施例提供了一种图像识别装置，所述装置包括获取单元、识别单元、确定单元和筛选单元：

所述获取单元，用于获取待识别图像；

所述识别单元，用于对所述待识别图像中目标区域的文本进行字形识别，得到多个候选字；

所述确定单元，用于确定所述多个候选字之间的语义连贯性参数；

所述筛选单元，用于基于所述语义连贯性参数，从所述多个候选字中筛选目标字，将所述目标字组合成所述目标区域的文本所对应的文本识别结果。

另一方面，本申请实施例提供了一种用于图像识别设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

由上述技术方案可以看出，待识别图像中包括的文本可以在目标区域中，在进行字形识别时，可以针对该目标区域识别出多个候选字，并确定多个候选字之间的语义连贯性参数。根据语义连贯性参数，从多个候选字中筛选目标字，将目标字组合成目标区域的文本所对应的文本识别结果。由于语义连贯性参数可以体现出多个候选字之间在语义上是否通顺，故虽然该多个候选字均具有作为该目标区域文本识别结果的可能，但是通过进一步结合候选字的语义通顺程度，由于出现形近字词识别错误的候选字对应的语义通顺程度一般较低，使得语义通顺程度更好的对应的候选字被确定为目标字的可能性提高，提高了文本识别精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像识别方法的应用场景示意图；

图2为本申请实施例提供的一种图像识别方法的流程示意图；

图3为本申请实施例提供的另一种图像识别方法的应用场景示意图；

图4为本申请实施例提供的另一种图像识别方法的流程示意图；

图5为本申请实施例提供的另一种图像识别方法的流程示意图；

图6为本申请实施例提供的一种确定识别可信度的流程示意图；

图7为本申请实施例提供的另一种图像识别方法的流程示意图；

图8为本申请实施例提供的一种针对不同识别引擎识别性能的测试结果示意图；

图9为本申请实施例提供的一种图像识别装置的结构示意图；

图10为本申请实施例提供的服务器的结构示意图；

图11为本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

为了提高文本识别精度，本申请提供了一种图像识别方法，该方法在确定待识别图像中目标区域的文本识别结果时，考虑了候选字之间的语义连贯性参数这一特征，提高了语义通顺程度更好候选字被确定为目标字的可能性，从而提高了文本识别精度。

本申请实施例提供的图像识别方法是基于人工智能实现的，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述计算机视觉技术、机器学习/深度学习等方向。

例如可以涉及计算机视觉(Computer Vision)中的图像处理(ImageProcessing)、图像语义理解(Image Semantic Understanding，ISU)、视频处理(videoprocessing)、视频语义理解(video semantic understanding，VSU)等。还可以涉及机器学习(Machine learning，ML)中的深度学习(Deep Learning)，包括各类人工神经网络(Artificial Neural Network,ANN)。

为了便于理解本申请的技术方案，下面结合实际应用场景对本申请实施例提供的图像识别方法进行介绍。

本申请提供的图像识别方法可以应用于具有数据处理能力的图像识别设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、计算机、个人数字助理(PersonalDigital Assistant，PDA)、平板电脑等；服务器具体可以为独立服务器，也可以为集群服务器。该数据处理设备可以具备实施计算机视觉技术的能力，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、文字识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在本申请实施例中，数据处理设备可以通过计算机视觉技术对图像中的文本进行识别。该数据处理设备可以具备ML能力。ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

本申请实施例提供的图像识别方法主要涉及对各类人工神经网络的应用，通过人工神经网络实现计算机视觉技术，从而识别出图像中的文本。

可以理解的是，本申请实施例提供的图像识别方法可以对图像中任意一种形式的文本进行识别，例如，中文、英语、数字、符号等。为了便于理解，下面结合图1，以识别图像中的中文作为示例，对本申请实施例提供的图像识别方法的应用场景进行介绍。在图1所示的应用场景中，以终端设备101作为执行主体。

用户可以利用终端设备101上的摄像头拍摄一张图像作为待识别图像，然后，用户可以通过终端设备101的显示屏进行触发操作，将该待识别图像传至终端设备101中的处理器，利用终端设备101中的处理器对待识别图像进行识别，从而识别出该待识别图像中目标区域内的文本，并将文本识别结果通过终端设备101的显示屏展示给用户。

由于现有文本的形式具有多样性和复杂性，其中，存在大量形状、结构相近文本，就中文而言，就存在很多形状结构相似的文字，例如，“己”、“已”和“巳”，这就导致在利用人工智能中的图像识别技术对待识别图像中同一个目标区域内的文本进行字形识别时，对于形状结构相近的文本的识别不确定性，可能出现多个候选字。其中，目标区域用于标识在待识别图像中进行文本识别的区域。候选字可以用于标识单个文本，例如，单个汉字、单个数字等。

在图1所示的场景中，对待识别图像同一个目标区域进行识别，该目标区域包括两个汉字“深圳”。由于该目标区域内的第二个汉字“圳”与“训”在形状、结构上相近，因此，利用人工智能中的图像识别技术对该目标区域进行字形识别后，对第一个汉字“深“进行字形识别可以得到一个候选字”深“，而对第二个汉字“圳”进行字形识别可以得到两个候选字“圳”和“训”。

由于文本形状、结构等原因，导致利用人工智能对待识别图像中的目标区域进行字形识别时，无法准确识别出目标区域中的文本，从而可能识别出多个候选字，其中，每个候选字都可能是待识别图像中的目标区域内的文本，且多个候选字中包括形近字识别错误的候选字。

由于在对图像的文本进行字形识别时，主要根据图像中文本的外在特征，例如，形状、结构这些特征进行识别，因此，在识别出的候选字中存在由于形近字识别错误的候选字。若错误的候选字的识别概率相较于正确的候选字更高，根据该候选字识别概率确定目标字，并根据目标字组合得到待识别图像目标区域的文本识别结果错误的可能性较大。

可以理解的是，本申请实施例提供的图像识别方法可以应用于不同的场景，例如，识别一张图像中的文本信息；识别一段广告中的广告语等等。在图像识别方法的多种应用场景中，由于待识别图像中的文本起到了传播信息的作用，具有一定实际的含义，因此，待识别图像中的文本具有一定的语义连贯性。例如，一张海报中的宣传标语包括“您的光临是我们最大的荣幸”，或者，一段新闻报道中报告语包括“我国的现代化建设取得了举世瞩目的成就”，这两段文本在语义上都具有一定的连贯性。另外，对于存在形近字识别错误的候选字，其对应的语义通顺程度较低，因此，从多个候选字中确定目标字时，可以进一步结合候选字之间的语义通顺程度这一特征。

对于多个候选字，可以确定出候选字之间的语义连贯性参数。其中，语义连贯性参数用于标识候选字之间的语义连贯性。语义连贯性参数的大小体现了候选字之间的语义通顺程度。语义连贯性参数越大，表明候选字之间的语义通顺程度越大；语义连贯性参数越小，表明候选字之间的语义通顺程度越小。

在图1所示的场景中，针对目标区域中的第一文本“深“，其对应的候选字为”深“。针对目标区域中的第二文本“圳”，其对应的候选字包括“圳”和“训“。因此，可以通过确定候选字“圳”与候选字“深”之间的语义连贯性参数为M₁，以及候选字“训”与候选字“深”之间的语义连贯性参数为M′₁。由于候选字“深”与候选字“圳”之间的语义连贯性程度相较于候选字“深”与候选字“训”更大，因此，语义连贯性参数M₁大于语义连贯性参数M′₁。

由于语义连贯性参数体现了候选字之间在语义上是否通顺，对于出现形近字识别错误的候选字对应的语义通顺程度一般较低，因此，可以结合候选字之间的语义连贯性参数这一特征从多个候选字中确定出目标字，通过将筛选出的目标字进行组合得到针对目标区域文本所对应的文本识别结果。

进而，可以根据上述语义连贯性参数，从多个候选字中筛选出目标字，并将目标字组合成目标区域的所对应的文本识别结果。对于语义连贯性参数较大的候选字，其在多个候选字之间的语义通顺程度较大，因此，可以将多个候选字中语义连贯性参数较大的候选字筛选出来作为目标字，通过将目标字进行组合得到目标区域的文本所对应的文本识别结果。在图1所示的场景中，根据语义连贯性参数M₁和M′₁，将语义连贯性参数较大的M₁对应的候选字“圳”作为目标字，并与目标字“深”进行组合得到待识别图像目标区域的文本所对应的文本识别结果“深圳”。

在对待识别图像中目标区域的文本进行字形识别时，由于出现形近字词识别错误的候选字所对应的语义通顺程度一般较低，其对应的语义连贯性参数较小，因此，若结合候选字之间的语义连贯性参数，将语义连贯性参数较大的候选字筛选出来作为目标字，通过将目标字进行组合得到目标区域的文本所对应的文本识别结果，提高了语义通顺程度更好的候选字被确定为目标字的可能性，从而提高了文本识别精度。

下面结合具体的应用场景，对图2所示的图像识别方法进行介绍。为了便于描述，以终端设备作为执行主体。在图2中，该图像识别方法包括以下步骤：

S201：获取待识别图像。

终端设备可以通过不同的方式获取待识别图像，例如，用户可以通过终端设备上的摄像头拍摄一张照片作为待识别图像，或者，用户可以通过终端设备的显示屏进行触发操作，从终端设备的存储器中选择一张预先存储的照片作为待识别图像。获取待识别图像的方式可以根据具体应用场景确定，在此不作任何限定。

S202：对所述待识别图像中目标区域的文本进行字形识别，得到多个候选字。

由于文本的多样性和复杂性，对于同一个文本可能存在形状、结构相近的其他文本。因此，在对待识别图像中的文本进行字形识别时，可能针对同一文本识别出多个候选字。其中，目标区域用于标识在待识别图像中进行文本识别的区域。文本可以是各种形式的文本，例如，不同语言对应的文字、数字、特殊符号等。一个文本可以包括一个汉字、一个数字或者一个特殊符号。待识别图像中文本的呈现形式可以是手写体、扫描体等。在此不作任何限定。

在图3所示的待识别图像中，可以设定将待识别图像中的中间区域设定为目标区域(如图3中虚线框所在区域)，从而可以针对该目标区域包括的汉字文本“举世瞩目”进行字形识别。

在一种可能的实现方式中，可以通过字形识别模型对待识别图像中的目标区域中文本进行字形识别，确定多个候选字，每个候选字具有对应的识别概率。其中，字形识别模型是通过使用大量有标注文本的图像对预先构建的初始网络模型进行训练得到的。字形识别模型可以是各种人工神经网络，例如，卷积神经网络(Convolutional Neural Network，CNN)等，在此不作任何限定。

上述识别概率可以是字形识别模型针对目标区域中的文本进行字形识别后得到的候选字对应的归一化概率，可以用数学表达式表示为：

e_i＝W_i·f_i+b_i

其中，α_i表示字形识别模型针对目标区域中同一个位置的文本进行字形识别得到的候选字的识别概率，其中，i取值为1，2，...，j。参数j表示字形识别模型针对目标区域中同一个位置的文本识别得到的候选字的个数。W_i和b_i为字形识别模型可学习的参数，f_i表示字形识别模型的输入，e_i表示字形识别模型的输出。

在实际应用中，通过字形识别模型对目标区域中同一个位置的文本进行识别，可以识别出多个候选字以及各自对应的识别概率。然后，可以根据多个候选字的识别概率，对多个候选字进行筛选，选出识别概率较大的候选字作为字形识别模型的识别结果。

在图3所示的应用场景中，针对第一文本“举”进行字形识别，得到4个候选字，分别为“举”、“誉”、“榉”“举”，其各自对应的识别概率为0.99、0.005、0.003、0.002。根据该识别概率标识的4个候选字，可以将识别概率较大的“举”作为字形识别模型针对目标区域中第一文本“举”对应的候选字。

在图4所示的应用场景中，针对图3所示的待识别图像中目标区域包括的4个文本“举世瞩目”分别进行字形识别，，可以得到6个候选字“举”、“世”、“也”、“瞩”、“属“以及“目”。其中，从左到右每一列分别对应目标区域中的4个文本，例如，对第二文本“世”进行字形识别，可以确定出两个对应的候选字“世”和“也”，对应图4中的第二列。

S203：确定所述多个候选字之间的语义连贯性参数。

由于在多数应用场景中，待识别图像中的文本具有传递信息的作用，因此，相邻文本间具有一定的语义连贯性，即相邻文本间的语义是通顺的。对于上述识别得到的多个候选字，其中，正确的候选字之间的语义通顺程度一般较高，而错误的候选字之间的语义通顺程度一般较低，因此，可以进一步结合候选字之间的语义通顺程度这一维度的特征确定目标区域的文本所对应的目标字。

在实际应用中，可以通过确定多个候选字之间的语义连贯性参数，从而确定目标区域的文本所对应的目标字。其中，语义连贯性参数的大小体现了多个候选字之间的语义通顺程度。语义连贯性参数越大多个候选字之间在语义上越通顺。

在一种可能的实现方式中，可以通过语义识别模型确定多个候选字之间的语义连贯性参数。其中，语义识别模型是通过第一训练样本训练得到的，该第一训练样本是根据训练上述字形识别模型的第二训练样本中所提取的文本内容得到的。语义识别模型可以是各种人工神经网络，例如，卷积神经网络(Convolutional Neural Network,CNN)等，在此不作任何限定。

可以理解的是，由于上述字形识别模型的第二训练样本为具有标签的图像，其标签标注出了图像中包括的文本，因此，在对语义识别模型的训练过程中，可以采用将第二训练样本中的文本提取出来作为语义识别模型的第一训练样本，从而减少对于图像进行标注获取训练样本的工作量。

针对一段具有语义的文本，其上下文在语义上具有一定的相关性。针对确定语义连贯性参数的过程，在一种可能的实施方式中，可以从多个候选字中选取一个候选字作为目标字，确定该目标文字与多个候选字中至少一个上文字之间的语义连贯性参数，直至得到多个候选字之间的语义连贯性参数。

在实际应用中，上述语义识别模型可以为N元文法语义识别模型(Ngram语义识别模型，N为自然数)，该模型可以根据目标文字至少一个上文词出现的概率，计算目标文字出现的概率，目标文字出现的概率可以作为目标文字与多个候选字中至少一个上文字之间的语义连贯性参数，用数学表达式表示如下：

P(ω_i|ω₁，...，ω_i-1)＝P(ω_i|ω_i-m+1，...，ω_i-1)

其中，ω_i表示待识别图像目标区域中的第i个候选字，P(ω_i|ω₁，...，ω_i-1)表示第i个候选字与i-1个上文字之间的语义连贯性参数，P(ω_i|ω_i-m+1，...，ω_i-1)表示第i个候选字与m个上文字之间的语义连贯性参数。

在图4所示的应用场景中，若将上述m取为1，则可以确定出目标文字与一个上文字之间的语义连贯性参数，即ω_i-1：ω_iP表示目标文字与一个上文字之间的语义连贯性参数为P。例如，“举：世-1.70”表示目标文字“世”与上文字“举”之间的语义连贯性为-1.70。语义连贯性参数越接近0，表示候选字之间的语义通顺程度越大。

由于语义连贯性参数体现了目标文字与多个候选字之间在语义上是否通顺，因此进一步结合语义连贯性参数从多个候选字中筛选目标字，可以使得语义通顺程度更好的候选字被确定为目标字的可能性提高，从而提高了文本识别精度。

S204：基于所述语义连贯性参数，从所述多个候选字中筛选目标字，将所述目标字组合成所述目标区域的文本所对应的文本识别结果。

在实际应用中，针对目标区域中同一文本所对应的不同候选字，可以将语义连贯性参数较大的候选字作为该文本所对应的目标字。

如图1所示的应用场景中，针对目标区域中的第二个汉字进行字形识别，得到的候选字包括“圳”和“训”。因此，根据候选字“圳”与候选字“深”之间的语义连贯性参数M₁，以及候选字“训”与候选字“深”之间的语义连贯性参数M′₁，将语义连贯性参数M₁对应的候选字“圳”确定为针对该目标区域第二个汉字的目标字。因此，可以将目标字“深”与目标字“圳”组合成针对该目标区域的文本所对应的文本识别结果“深圳”。

在图4所示的应用场景中，目标区域的多个文本存在多个候选字的情况。因此，在一种可能的实现方式中，可以根据多个候选字的语义连贯性参数，确定不同候选文本组合的识别可信度，然后，可以根据识别可信度，从多个候选字中筛选目标字，将目标字组合成目标区域的文本所对应的文本识别结果。

其中，识别可信度的大小体现了不同的候选字组合在一起作为目标区域文本所对应的文本识别结果的可信程度，即候选文本组合与目标区域的文本的吻合程度。识别可信度从整体上标识了候选文本组合作为目标区域的文本所对应的文本识别结果的可能性。

在实际应用中，针对一个候选文本组合，可以对其中每个候选字对应的语义连贯性参数求均值作为该候选文本组合的识别可信度。

在图4所示的应用场景中，针对第一候选文本组合“举世瞩目”，其包括4个候选字“举”、“世”、“瞩”以及“目”。根据候选字“举:世”、“世:瞩”和“瞩:目”之间的语义连贯性参数，确定出该第一候选文本组合的识别可信度C1＝(-1.70-1.04-0.60)/3＝-1.113。对于其他候选文本组合，确定其对应的识别可信度与第一候选文本组合一致，在此不再赘述。经过计算可知，第一候选文本组合的识别可信度C1最大，因此，可以将候选字“举”、“世”、“瞩”和“目”选为目标字，并组合成“举世瞩目”作为目标区域的文本所对应的文本识别结果。

可以理解的是，字形识别模型利用一个文本的外在特征，通过识别概率体现了一个候选字的可信程度。而语义识别模型利用多个候选字之间的语义通顺程度，通过语义连贯性参数体现了一个候选字的可信程度。在对待识别图像中的文本进行识别时，可以结合单个文本的外在特征以及文本间的语义通顺程度这两个维度的特征，从多个候选字中确定出目标字，并将目标字组合成目标区域的文本所对应的文本识别结果。

在一种可能的实现方式中，可以根据多个候选字的语义连贯性参数，以及多个候选字的识别概率确定候选文本组合的识别可信度。

在实际应用中，针对一个候选文本组合，可以对其中每个候选字对应的识别概率和语义连贯性参数分别求均值再相加作为该候选文本组合的识别可信度。

在图4所示的应用场景中，针对第一候选文本组合“举世瞩目”，计算其中每个候选字的识别概率的均值P1＝(0.99+0.38+0.002+0.92)/4＝0.573，则第一候选文本组合的识别可信度C1＝0.573-1.113＝-0.54。对于其他候选文本组合，确定其对应的识别可信度与第一候选文本组合一致，在此不再赘述。经过计算可知，第一候选文本组合的识别可信度C1最大，因此，可以将第一候选文本组合中的4个候选字选为目标字，并组合为目标区域的文本所对应的文本识别结果“举世瞩目”。

上述实施例提供的图像识别方法，待识别图像中包括的文本可以在目标区域中，在进行字形识别时，可以针对该目标区域识别出多个候选字，并确定多个候选字之间的语义连贯性参数。根据语义连贯性参数，从多个候选字中筛洗目标字，将目标字组合成目标区域的文本所对应的文本识别结果。由于语义连贯性参数可以体现出多个候选字之间在语义上是否通顺，故虽然该多个候选字均具有作为该目标区域文本识别结果的可能，但是通过进一步结合候选字的语义通顺程度，由于出现形近字词识别错误的候选字对应的语义通顺程度一般较低，使得语义通顺程度更好的对应的候选字被确定为目标字的可能性提高，提高了文本识别精度。

为了更好地理解上述图像识别方法，下面结合图5，对本申请实施例提供的图像识别方法进行介绍。在图5所示的流程示意图中，包括识别引擎模块、字形识别模型模块和语义识别模型模块。

其中，识别引擎模块综合使用字形识别模型模块和语义识别模型模块。针对输入的待识别图像，识别引擎模块根据字形识别模型模块输出的识别概率和语义识别模型模块输出的语义连贯性参数确定出候选文本组合的识别可行度，从而根据该识别可信度从多个候选字中筛选出目标字，并组合目标区域的文本所对应的文本识别结果。该文本识别结果，既考虑了文本的外在的形状、结构特征，也考虑了文本间的语义通顺程度。

针对如何在识别引擎中使用语义识别模型的问题，在一种可能的实现方式，可以静态使用语义识别模型。静态使用语义识别模型，可以将语义识别模型的分数提前计算好存储起来。在使用过程中，在出现候选字的地方，只需要将字形识别模型的识别概率加入识别可信度的计算过程中即可。识别引擎采用该方式对待识别图像中的文本进行识别，延时小、引擎设计简单。同时，影响静态语义识别模型识别性能的参数更少，相对更容易调优。例如，静态语义识别模型可以采用加权有限状态机(Weighted Finite State Transducer,WFST)来构建。静态使用语义识别模型识别文本的速度可以达到15ms/行左右。同时，影响静态语义识别模型识别性能的参数更少，相对更容易调优。以识别待识别图像中的手写文本为例，动态使用3gram语义识别模型(上述N＝3)，最终的字错误率有13.1，而静态使用相同的3gram语义识别模型得到的字错误率只有10.9，低于动态使用语义识别模型。其中，字错误率(Character Error Rate,CER)是一种图像文本识别的评判指标，确定方式可以为：字错误率＝测试集中识别错误的文本个数/测试集中所有的文本个数。

可以理解的是，在实际的图像文本识别使用过程中，存在图像中文本间的语义是较弱的情况，比如数字串或者电话号码。由于电话号码中的数字之间的语义是很弱的，甚至是随机的。如果直接使用语义识别模型，候选字之间的上下文联系不充分，可能会出现偏差。针对这类情况，通过语义连贯性参数确定文本识别结果的方法会带来一定程度的负面影响。

为了进一步提高图像中文本识别精确，针对上述实施例提供的识别可信度方法，本申请实施例提供了另一种确定识别可信度方法。该识别可信度确定方法包括以下步骤：

S601：根据所述多个候选字的识别概率确定不同候选字组合的整体识别概率。

S602：对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合，以所述第一候选字组合的整体识别概率，以及所述第一候选字组合中候选字的语义连贯性参数得到所述第一候选字组合的识别可信度。

S603：对于不满足预设识别概率条件的整体识别概率所对应的第二候选字组合，根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整；

S604：根据调整后的整体识别概率，以及所述第二候选字组合中候选字的语义连贯性参数得到所述第二候选字组合的识别可信度。

在多种不同形式的文本中，由于数字的形状、结构较为简单，因此，数字形式的文本的识别难度较低。因此，在对待识别图像中的数字进行识别时，对其识别得到的候选字较为自信。

在实际应用中，针对一个候选文本组合，可以对其中每个候选字对应的识别概率求均值作为该候选文本组合的整体识别概率。其中，候选文本组合的整体识别概率的大小体现了对该候选文本组合整体识别的自信度。若候选文本组合的整体识别概率较大，表明对该候选文本组合整体识别较为自信。若候选文本组合的整体识别概率较小，表明该候选文本组合的整体识别较为不自信。

在实际应用中，可以将候选文本组合的整体识别概率与阈值进行比较，从而确定出识别较为自信的候选文本组合和识别较为不自信的候选文本组合。其中，阈值可以预先设定。

可以理解的是，为了减弱上述实施例提供的图像识别方法中，语义识别模型在对语义较弱的数字串的负面影响，可以通过阈值比较的方式，将由数字组成的候选文本组合识别出来。由于由数字串组成的候选文本组合，其对应的整体识别概率较高，因此，可以将阈值取为较大的数值，例如，将阈值设定为0.95。

在实际应用中，若在多个候选文本组合中存在第一候选文本组合，其整体识别概率大于阈值，则可以将第一候选文本组合确定是识别自信的。因此，可以将该第一候选文本组合中多个候选字的的语义连贯性参数，以及该第一候选文本组合的整体识别概率确定出该第一候选文本组合的识别可信度。即对应于图7所示的途径1。

例如，针对候选文本组合“02784”，其包括的候选字“0”、“2”、“8”、“7”和“5”的识别概率分别为0.99、0.99、0.98、0.99、0.97，则该候选文本组合的整体识别概率为(0.99+0.99+0.98+0.99+0.97)/5＝0.984大于阈值0.95，因此，可以根据该整体识别概率直接用于确定候选文本组合的识别可信度。

由于数字的形状、结构较为简单，因此，数字形式的文本的识别难度较低。因此，在对待识别图像中的数字进行字形识别时，对其识别得到的候选字较为自信。对于由数字组成的候选文本组合，其对应的整体识别概率较高。因此，上述第一候选文本组合中的多个候选字可能为数字。

在实际应用中，若在多个候选文本组合中存在第二候选文本组合，其整体识别概率不大于阈值，则可以将第二候选文本组合确定是识别不自信的。因此，可以根据第二候选文本组合中多个候选字的识别概率分别减去对应的分布比例，得到调整后的识别概率。即对应于图7所示的途径2。

在图4所述的应用场景中，针对候选文本组合“举世瞩目”，可以确定出其整体识别概率为P1＝(0.99+0.38+0.002+0.92)/4＝0.573小于阈值0.95，因此，可以确定出该候选文本组合的识别不自信的。因此，需要根据候选字“举”、“世”、“瞩”和“目”分别对应的分布比例，调整各自对应的识别概率。

上述分布比例标识了候选字常用生僻程度。可以理解的是，在文本的使用过程中，有些文本是经常使用的，例如，汉字中的“我”、“是”。对于这类文本，其常用程度较高，即生僻程度较低，其对应的分布比例较高。对应的，有些文本是不经常使用的，例如，汉字中的“垚”、“堃”。对于这类文本，其常用长度较低，即生僻程度较高，其对应的分布比例较低。

在一种可能的实现方式中，若目标文本为第二候选文本组合中的一个候选字，则该目标候选字的分布比例为在训练上述字形识别模型所采用训练样本涉及的文字中，该目标候选字所占的比例。

在图4所述的应用场景中，在字形识别模型进行训练的过程中，训练样本包括10000个文字，其中，文字“举”、“世”、“瞩”和“目”分别有200个、100个、“10”和“300”，则文字“举”、“世”、“瞩”和“目”在训练样本中所占的比例分别为0.02、0.01、0.001和0.03，因此，在文字“举”、“世”、“瞩”和“目”的识别概率的基础上，减去各自对应的分布比例，得到调整后的识别概率分别为0.99-0.02＝0.97、0.38-0.01＝0.37、0.002-0.001＝0.001和0.92-0.03＝0.89。

由于在对字形识别模型进行训练时，不同文本的分布比例各异。因此，识别模型对于不同文本的学习程度各异，故字形识别模型在识别不同的文本时，识别得到的不同候选字对应的识别概率存在一定的差异。对于分布比例较大的候选字，字形识别模型学习的次数较多，这就导致字形识别模型将目标区域的文本识别为分布比例较大的候选字可能性较大。因此，通过分布比例对候选字的识别概率进行调整，可以降低了字形识别模型较容易识别得到的候选字的识别概率，提高了字形识别模型较难识别得到的候选字的识别概率，相当于平衡了字形识别模型对于分布比例较大的候选字和分布比例较小的候选字的识别概率，从而缩小了候选字间识别概率的差距，减小了字形识别模型对于文本识别的影响。

对于识别不自信的第二候选文本组合，将其包括的多个候选字的识别概率进行调整后，可以根据第二候选文本组合中多个候选字的语义连贯性参数，以及调整后的识别概率确定该第二候选文本组合的识别可信度。

上述候选字“举”、“世”、“瞩”和“目”调整后的识别概率分别为0.97、0.37、0.001和0.89，根据该调整后的识别概率可以求出该候选文本组合的识别概率均值P1’＝(0.97+0.37+0.001+0.89)/4＝0.558，从而结合语义连贯性参数-1.113，可以确定出该候选文本组合的识别可信度C1’＝0.558-1.113＝-0.555。

由于利用分布比例对候选字的识别概率进行调整后，减弱了字形识别模型对整体识别不自信的候选文本组合进行文本识别的影响，进一步结合语义识别模型对候选文本组合确定出的语义连贯性参数这一特征确定文本识别结果，相当于加强了语义识别模型对于整体识别不自信的候选文本组合进行文本识别的影响。因此，提高了对于语义较强的候选文本组合的识别准确度。

整体识别自信的候选文本组合相较于整体识别不自信的候选文本组合而言，由于不需要对其中的多个候选字的识别概率进行调整，相当于加强了字形识别模型对整体识别自信的候选文本组合进行文本识别的影响，进一步结合语义模型对候选文本组合确定出的语义连贯性参数这一特征确定文本识别结果，相当于减弱了语义识别模型对于整体识别不自信的候选文本组合进行文本识别的影响。因此，提高了对于语义较弱的候选文本组合的识别准确度。

另外，由于识别可信度用于从多个候选字中确定筛选目标字，而针对第一候选文本组合的识别可信度确定时，减少了第二候选文本组合所需执行的数据处理环节，提高了文本识别的识别效率和降低资源占用。

为了验证本申请实施例提供的图像识别方法的有效性，下面在不同的图像文字测试集上给出两种方法的识别结果，其中，方法1为：仅利用字形识别模型对图像进行识别的方法，方法2为：本申请实施例提供的图像识别方法。在测试过程中，采用上述字错误率作为评判指标。因此，采用上述两种方法对不同的测试集进行识别，得到的测试数据如下表：

表1针对不同测试集采用两种方法对应的文本错误率

数据集	方法1字错误率	方法2字错误率
			手写体测试集	19.29	10.9
印刷体简单测试集	1.67	2.35
			印刷体复杂测试集	4.47	3.59
艺术字测试集	8.07	7.1

根据上表数据可以发现，采用本申请提供的图像识别方法相较于仅采用字形识别模型对图像进行识别的方法的准确率有较大的提升，提升幅度达到28％～32％，该结果充分体现了本申请实施例提供的图像识别方法的有效性。

选取上述手写体测试集，端到端的测试(检测+识别)不同的开源手写体识别引擎。为了尽可能的在端到端测试中反映出字形识别模型的性能，可以在原识别图像周围进行留白，尽可能的保证检测性能不影响最终的识别结果。

在图8中，识别引擎4加入了本申请上述实施例提供的语义识别模型以及字形识别模型，而识别引擎1、2和3为加入了不同字形识别模型的引擎。在测试过程中，利用5k手写体测试集进行测试，将字错误率和整句错误率作为评判标准，评判4个识别引擎的识别性能。从图8所示的测试结果可以看到，识别引擎4对应的字错误率和整句错误率低于其他3个识别引擎，该结果体现了识别引擎4的识别手写体的能力显著优于测试的另外三个手写体识别引擎，即采用本申请实施例提供的图像识别方法，具有较好的文本识别精度。

针对上文描述的图像识别方法，本申请实施例还提供了对应的图像识别装置。

参见图9，图9为本申请实施例提供的一种图像识别装置的结构示意图。如图9所示，该图像识别装置900包括获取单元901、识别单元902、确定单元903和筛选单元904：

所述获取单元901，用于获取待识别图像；

所述识别单元902，用于对所述待识别图像中目标区域的文本进行字形识别，得到多个候选字；

所述确定单元903，用于确定所述多个候选字之间的语义连贯性参数；

所述筛选单元904，用于基于所述语义连贯性参数，从所述多个候选字中筛选目标字，将所述目标字组合成所述目标区域的文本所对应的文本识别结果。

其中，所述确定单元903，还用于：

从所述多个候选字中的选取一个候选字作为目标文字；

确定所述目标文字与所述多个候选字中至少一个上文字之间的语义连贯性参数，直至得到所述多个候选字之间的语义连贯性参数。

其中，所述筛选单元904，还用于：

根据所述多个候选字的语义连贯性参数，确定不同候选文本组合的识别可信度；

根据所述识别可信度，从所述多个候选字中筛选目标字，将所述目标字组合成所述目标区域的文本所对应的文本识别结果。

其中，所述筛选单元904，还用于：

根据所述多个候选字的语义连贯性参数，以及所述多个候选字的识别概率确定不同候选字组合的识别可信度。

其中，所述识别单元902，还用于：

通过字形识别模型对所述目标区域中文本进行字形识别，确定多个候选字，所述候选字具有对应的识别概率。

其中，所述确定单元903，还用于：

通过语义识别模型确定所述多个候选字之间的语义连贯性参数；所述语义识别模型是通过第一训练样本训练得到的，所述第一训练样本是根据训练所述字形识别模型的第二训练样本中所提取的文本内容确定的。

其中，所述筛选单元904，还用于：

根据所述多个候选字的识别概率确定不同候选字组合的整体识别概率；

对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合，以所述第一候选字组合的整体识别概率，以及所述第一候选字组合中候选字的语义连贯性参数得到所述第一候选字组合的识别可信度；

对于不满足预设识别概率条件的整体识别概率所对应的第二候选字组合，根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整；根据调整后的整体识别概率，以及所述第二候选字组合中候选字的语义连贯性参数得到所述第二候选字组合的识别可信度。

其中，目标候选字为所述第二候选字组合中的一个候选字，所述目标候选字的分布比例为在训练所述字形识别模型所采用训练样本涉及的文字中，所述目标候选字所占的比例。

上述实施例提供的图像识别装置，待识别图像中包括的文本可以在目标区域中，在进行字形识别时，可以针对该目标区域识别出多个候选字，并确定多个候选字之间的语义连贯性参数。根据语义连贯性参数，从多个候选字中筛选目标字，将目标字组合成目标区域的文本所对应的文本识别结果。由于语义连贯性参数可以体现出多个候选字之间在语义上是否通顺，故虽然该多个候选字均具有作为该目标区域文本识别结果的可能，但是通过进一步结合候选字的语义通顺程度，由于出现形近字词识别错误的候选字对应的语义通顺程度一般较低，使得语义通顺程度更好的对应的候选字被确定为目标字的可能性提高，提高了文本识别精度。

本申请实施例还提供了一种用于图像识别的服务器和终端设备，下面将从硬件实体化的角度对本申请实施例提供的用于图像识别的服务器和终端设备进行介绍。

参见图10，图10是本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

获取待识别图像；

确定所述多个候选字之间的语义连贯性参数；

可选的，CPU 1422还可以执行本申请实施例中图像识别方法任一具体实现方式的方法步骤。

针对上文描述的图像识别方法，本申请实施例还提供了一种用于图像识别的终端设备，以使上述图像识别的方法在实际中实现以及应用。

参见图11，图11为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括平板电脑、个人数字助理(英文全称：Personal DigitalAssistant，英文缩写：PDA)等任意终端设备：

图11示出的是与本申请实施例提供的终端相关的部分结构的框图。参考图11，该终端包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图11中示出的平板电脑结构并不构成对平板电脑的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对平板电脑的各个构成部件进行具体的介绍：

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现终端的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1580是终端的控制中心，利用各种接口和线路连接整个平板电脑的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行平板电脑的各种功能和处理数据。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1580中。

在本申请实施例中，该终端所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。

该终端所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的图像识别方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的图像识别方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取待识别图像；

确定所述多个候选字之间的语义连贯性参数；

对于不满足预设识别概率条件的整体识别概率所对应的第二候选字组合，根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整；根据调整后的整体识别概率，以及所述第二候选字组合中候选字的语义连贯性参数得到所述第二候选字组合的识别可信度；

根据所述识别可信度，从所述多个候选字中筛选目标字，将所述目标字组合成所述目标区域的文本所对应的文本识别结果；所述识别可信度的大小用于指示不同的候选字组合作为所述目标区域的文本所对应的文本识别结果的可信程度。

2.根据权利要求1所述的方法，其特征在于，所述确定所述多个候选字之间的语义连贯性参数，包括：

从所述多个候选字中的选取一个候选字作为目标文字；

3.根据权利要求1所述的方法，其特征在于，所述对所述待识别图像中目标区域的文本进行字形识别，得到多个候选字，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定所述多个候选字之间的语义连贯性参数，包括：

5.根据权利要求3所述的方法，其特征在于，目标候选字为所述第二候选字组合中的一个候选字，所述目标候选字的分布比例为在训练所述字形识别模型所采用训练样本涉及的文字中，所述目标候选字所占的比例。

6.一种图像识别装置，其特征在于，所述装置包括获取单元、识别单元、确定单元和筛选单元：

所述获取单元，用于获取待识别图像；

所述筛选单元，用于根据所述多个候选字的语义连贯性参数，确定不同候选文本组合的识别可信度；根据所述识别可信度，从所述多个候选字中筛选目标字，将所述目标字组合成所述目标区域的文本所对应的文本识别结果；所述识别可信度的大小用于指示不同的候选字组合作为所述目标区域的文本所对应的文本识别结果的可信程度；

所述筛选单元，具体用于：

7.根据权利要求6所述的装置，其特征在于，所述确定单元，还用于：

从所述多个候选字中的选取一个候选字作为目标文字；

8.根据权利要求6所述的装置，其特征在于，所述筛选单元，还用于：

9.一种图像识别设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-5任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-5任意一项所述的方法。