CN111783760B

CN111783760B - 文字识别的方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111783760B
Application number: CN202010616043.8A
Authority: CN
Inventors: 张晓强; 章成全; 刘珊珊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-08-08
Anticipated expiration: 2040-06-30
Also published as: US11775845B2; JP2021103573A; CN111783760A; JP7142121B2; EP3816858A3; US20210209401A1; KR20210040306A; EP3816858A2

Abstract

本申请公开了文字识别的方法、装置、电子设备及计算机可读存储介质，涉及人工智能、深度学习、计算机视觉技术领域。具体实现方案为：确定从图像中识别出的每个单字的语义信息和第一位置信息；根据每个单字的语义信息和第一位置信息，构建图网络；根据图网络计算的每个单字的特征，确定图像的文字识别结果。本申请实施例的图网络由于对每个单字的语义信息和第一位置信息进行解码计算，因此通过两个维度的信息可以更加准确的识别出图像中的文字。

Description

文字识别的方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能、深度学习、计算机视觉技术领域。

背景技术

自然场景下的端到端文字检测识别技术可以被广泛应用于社会的各行各业，如教育、医疗、金融等领域。由文字检测识别技术派生的常见卡证票据的识别、文档的自动化录入、拍照搜题等技术极大地提升了传统行业的智能化程度和生产效率，方便了人们的日常学习与生活。虽然自然场景下的端到端文字检测识别技术得到了快速发展，但其依然存在一定的问题，例如无法实现对图像中文字的准确识别，出现文字识别错误或未识别的情况。

发明内容

本申请提供了一种文字识别的方法、装置、电子设备及计算机可读存储介质。

根据本申请的一方面，提供了一种文字识别的方法，包括：

确定从图像中识别出的每个单字的语义信息和第一位置信息；

根据每个单字的语义信息和第一位置信息，构建图网络；

根据图网络计算的每个单字的特征，确定图像的文字识别结果。

根据本申请的另一方面，提供了一种文字识别的装置，包括：

第一确定模块，用于确定从图像中识别出的每个单字的语义信息和第一位置信息；

构建模块，用于根据每个单字的语义信息和第一位置信息，构建图网络；

第二确定模块，用于根据图网络计算的每个单字的特征，确定图像的文字识别结果。

根据本申请的另一方面，提供了一种电子设备，电子设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，电子设备的结构中包括处理器和存储器，存储器用于存储支持电子设备执行上述文字识别的方法的程序，处理器被配置为用于执行存储器中存储的程序。电子设备还可以包括通信接口，用于与其他设备或通信网络通信。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，用于存储电子设备及电子设备所用的计算机软件指令，其包括用于执行上述文字识别的方法所涉及的程序。

根据本申请实施例的图网络由于对每个单字的语义信息和第一位置信息进行解码计算，因此通过两个维度的信息可以更加准确的识别出图像中的文字。技术解决了图像中的文字识别不准确的问题，提高了对图像中文字识别的准确度。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一实施例的文字识别方法的示意图；

图2是根据本申请另一实施例的文字识别方法的示意图；

图3是根据本申请另一实施例的文字识别方法的示意图；

图4是根据本申请另一实施例的文字识别方法的示意图；

图5是根据本申请另一实施例的文字识别方法的示意图；

图6是根据本申请另一实施例的文字识别方法的示意图；

图7是根据本申请一实施例的文字识别装置的示意图；

图8是根据本申请另一实施例的文字识别装置的示意图；

图9是根据本申请另一实施例的文字识别装置的示意图；

图10是根据本申请另一实施例的文字识别装置的示意图；

图11是根据本申请另一实施例的文字识别装置的示意图；

图12是用来实现本申请实施例的文字识别的方法的电子设备的框图。

实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本申请的实施例，如图1所示，本申请提供了一种文字识别的方法，包括步骤：

S10：确定从图像中识别出的每个单字的语义信息和第一位置信息。

图像可以包括视频中的帧图像、拍摄的照片、绘制的图像、扫描的图像等。图像中可以包括一个或多个单字。单字可以包括各种语言的文字、字符、数字以及符号等。例如，一个汉字可以为一个单字，一个字母可以为一个单字，一个数字可以为一个单字，一个逗号也可以为一个单字。从图像中识别出的每个单字，可以是图像中实际显示的单字，也可以不是图像中实际显示的单字。也即是说，识别出的单字可能是正确的识别结果，也可能是错误的识别结果。

语义信息可以包括与识别出的单字的含义有关的任意信息。例如，能够表示该单字具体是哪一个字的相关特征信息。每个单字的语义信息可以包括该单字在图像中对应的各像素点的语义信息，也可以包括该单字对应的每个特征点的语义信息，还可以包括该单字周围一定图像区域内所包含的特征点或像素点的语义信息。需要获取的每个单字的语义信息中具体包含的信息，可以根据需要进行选择和调整，不做具体限定。

第一位置信息可以包括与识别出的单字在图像中所处位置有关的任意信息。例如，能够表示该单字与相邻单字之间的距离、距离图像边界的距离、距离图像中心距离的相关特征信息。每个单字的第一位置信息可以包括该单字在图像中对应的各像素点的第一位置信息，也可以包括该单字对应的每个特征点的第一位置信息，还可以包括该单字周围一定图像区域内所包含的特征点或像素点的第一位置信息。需要获取的每个单字的第一位置信息中具体包含的信息，可以根据需要进行选择和调整，不做具体限定。

需要说明的是，本申请中所提及的特征点和像素点之间具有转换关系，可以进行相互转换。也即是说，根据本申请中所提及的特征点的语义信息和/或第一位置信息，可以获取到对应的像素点的语义信息和/或第一位置信息。根据本申请中所提及的像素点的语义信息和/或第一位置信息，也可以获取到对应的特征点的语义信息和/或第一位置信息。

例如，识别出的单字为“一”，“一”在原图像中对应10个像素点。当原图像输入神经网络模型处理后，原图像变为特征图像，特征图像中的各点为特征点。由于特征点是由原图像中的像素点经过运算得到的，因此特征点和像素点之间存在转换关系，可以根据需要进行相应的转换。

S20：根据识别出的每个单字以及每个单字的语义信息和第一位置信息，构建图网络。

图网络的网络结构可以采用现有技术中的任意图网络的结构。具体的网络结构可以根据需要进行选择和调整。图网络可以包括图神经网络或图卷积神经网络等。

根据识别出的每个单字以及每个单字的语义信息和第一位置信息，构建图网络，具体可以包括：将每个单字作为图网络的节点，并利用每个单字的语义信息和/或位置信息确定图网络中的各节点之间的边关系，边关系用于确认任意两个节点是否具有关联关系，即是否需要进行连接。也即是说，图网络中可以包括基于每个单字的语义信息构建的图网络，以及包括基于每个单字的位置信息构建的图网络。

例如，识别出单字包括a、b、c。a、b、c则分别作为语义图网络的三个节点，通过a、b、c各自的语义信息，确定出a、b、c之间的边关系。即确定a、b、c三个节点之间应如何连线。若，a和b具有边关系，则将a和b连接。若不确定b和c之间是否具有边关系，则将b和c通过虚线连接。若确定a和c之间不具有边关系，则不将a和c连接。

图网络用于对每个单字的语义信息和/或第一位置信息进行解码，从而计算每个节点（每个单字）的特征，计算出的特征用于表示节点对应的单字的相关内容，每个节点的特征可以包括与该节点关联的若干特征。图网络中每个节点的特征和/或节点之间的边关系，会在计算中按时间步（time-step）更新。更新方式可以包括同步和异步两种，同步更新时，一个时间步内所有节点的特征都进行更新。异步更新时，一个时间步内只有部分节点的特征得到更新。不论在图网络的计算过程中采用哪种更新方式，最终图网络中的每个节点的特征及边关系都会得到更新。

S30：根据图网络计算的每个单字的特征，确定图像的文字识别结果。

图像的文字识别结果可以包括图像中单字级别的识别结果、词级别的识别结果、或是文本行级别的识别结果。单字级别的识别结果可以理解为最终识别出图像中都包含有哪些文字，文字可以包括中文字、阿拉伯数字、英文字母或标点符号等。词级别的识别结果可以理解为最终识别出图像中包含有哪些词语，词语可以包括中文词组、英文单词等。文本行级别的识别结果可以包括位于一行中的单词、词组。或是位于一行中的一句话。

本实施例的图网络由于对每个单字的语义信息和第一位置信息进行解码计算，因此通过两个维度的信息可以更加准确的识别出图像中的文字。

在一种实施方式中，如图2所示，文字识别的方法，包括上述实施例所述的步骤S10至S30，各步骤的具体内容可以参考上述实施例的描述，在本实施例中不做赘述。其中，步骤S20根据识别出的每个单字以及每个单字的语义信息和第一位置信息，构建图网络，可以进一步包括：

S21：根据每个单字的第一位置信息，确定由每个单字构成的各第一节点之间的边关系。

各第一节点之间的边关系，可以利用各单字的第一位置信息进行距离计算得到。具体的，可以根据各单字的第一位置信息中包含的特征向量计算。

S22：根据各第一节点之间的边关系，构建视觉图网络。

需要说明的是，该步骤中确定的各第一节点之间的边关系可以是初始边关系。也即是说，各个第一节点之间的边关系可能是正确的，也可能是错误的。视觉图网络在初始构建好后，视觉图网络利用每个单字的第一位置信息进行计算时，还会对各第一节点之间的边关系进行优化调整。同时，在视觉图网络的计算过程中，还会对各个第一节点对应的单字的特征向量进行调整。各个第一节点的特征向量用于表示对应单字的位置相关的信息。

S23：根据每个单字的语义信息，确定由每个单字构成的各第二节点之间的边关系。

各第二节点之间的边关系，可以利用各单字的语义信息进行距离计算得到。具体的，可以根据各单字的第一位置信息中包含的特征向量计算。

S24：根据各第二节点之间的边关系，构建语义图网络。

需要说明的是，该步骤中确定的各第二节点之间的边关系可以是初始边关系。也即是说，各个第二节点之间的边关系可能是正确的，也可能是错误的。语义图网络在初始构建好后，语义图网络利用每个单字的语义信息进行计算时，还会对各第二节点之间的边关系进行优化调整。同时，在语义图网络的计算过程中，还会对各个第二节点对应的单字的特征向量进行调整。各个第二节点的特征向量用于表示对应单字的语义相关的信息。

以及，步骤S30根据图网络计算的每个单字的特征，确定图像的文字识别结果，可以进一步包括：

S31：根据每个单字的第一位置信息，以及语义图网络中任一层的输出结果，通过视觉图网络计算每个单字的第一特征。

视觉图网络在计算每个单字的第一特征时，可以把语义图网络中任意一层的输出结果作为视觉图网络中任意一层的输入，这样使得视觉图网络在计算时能够得到每个单字更加准确的第一特征。

S32：根据每个单字的语义信息，以及视觉图网络中任一层的输出结果，通过语义图网络计算每个单字的第二特征。

语义图网络在计算每个单字的第二特征时，可以把视觉图网络中任意一层的输出结果作为语义图网络中任意一层的输入，这样使得语义图网络在计算时能够得到每个单字更加准确的第二特征。

S33：根据每个单字的第一特征和第二特征，确定图像的文字识别结果。

将每个单字的第一特征和第二特征结合，可以得到每个单字在图像中不同维度的特征。从而可以使得利用每个单字的第一特征和第二特征，从图像中得到更加准确的文字识别结果。

需要说明的是，本实施例中的步骤S21和步骤S22无先后执行顺序，应当理解的是步骤序号并非是对步骤的执行逻辑顺序进行限定。也即是说，在本实施例中可以先执行步骤S21，再执行步骤S22。可以先执行步骤S22，再执行步骤S21，也可以同时执行步骤S21和S22。

在本实施例中，由于利用了可以有效地处理结构化数据，提取结构化的特征的图网络技术，因此，构建的视觉图网络和语义图网络可以有效地对由单字构成的节点的特征和节点之间的边关系进行准确预测。

在一种实施方式中，如图3所示，文字识别的方法，包括上述实施例所述的步骤S10至S30，各步骤的具体内容可以参考上述实施例的描述，在本实施例中不做赘述。其中，步骤S10：确定从图像中识别出的每个单字的语义信息和第一位置信息，可以进一步包括：

S11：根据图像的卷积特征和每个单字的文字类别信息，确定每个单字的语义信息。

每个单字的语义信息中至少可以包含有每个单字的文字类别信息，以及识别出的每个单字周围一定图像区域内的卷积特征。每个单字周围一定图像区域内的卷积特征可以利用区域特征提取技术获取。

S12：根据图像的卷积特征和每个单字的第二位置信息，确定每个单字的第一位置信息。

每个单字的第一位置信息中至少可以包含有每个单字的第二位置信息，以及识别出的每个单字周围一定图像区域内的卷积特征。每个单字周围一定图像区域内的卷积特征可以利用区域特征提取技术获取。第二位置信息中可以包含每个单字对应的像素点或特征点的坐标信息（x，y，w，h）和角度信息(θ)。

需要说明的是，本实施例中的步骤S11和步骤S12无先后执行顺序，应当理解的是步骤序号并非是对步骤的执行逻辑顺序进行限定。也即是说，在本实施例中可以先执行步骤S11，再执行步骤S12。可以先执行步骤S12，再执行步骤S11，也可以同时执行步骤S11和S12。

在本实施方式中，利用图像的卷积特征和每个单字的文字类别信息，能够通过多维度的特征向量获取到每个单字更加准确且关联度更高的语义信息。利用图像的卷积特征和每个单字的第二位置信息，能够通过多维度的特征向量获取到每个单字更加准确且关联度更高的第一位置信息。

在一种实施方式中，如图4所示，文字识别的方法包括上述各实施例所述的步骤S11、S12、S20以及S30，各步骤的具体内容可以参考上述实施例的描述，在本实施例中不做赘述。在此基础上，在执行步骤S11：根据图像的卷积特征和每个单字的文字类别信息，确定每个单字的语义信息之前，还包括步骤：

S40：利用第一预设神经网络和图像的卷积特征，确定每个单字的文字类别信息。文字类别信息包括每个单字对应的各特征点属于哪类文字的概率。

文字类别信息包括每个单字对应的各特征点属于哪类文字的概率可以理解为，该特征点是汉字的概率是90%，是字母的概率是5%，是标点符号的概率是5%。又如，该特征点是字母a的概率是95%，是字母o的概率是5%。

图像的卷积特征可以包括通过卷积神经网络对图像进行计算所得到的特征。具体采用的卷积神经网络可以根据需要进行选择和调整。例如，可以采用AlexNet、GoogleNet、ResNet等。图像的卷积特征可以包括表示颜色、纹理、形状、空间关系等的特征向量，也可以包括基于表示颜色、纹理、形状、空间关系等的特征向量进行卷积后所得到的更高阶的特征向量。

第一预设神经网络可以包括由多个卷积层组成的神经网络。第一预设神经网络的输入可以包括图像的卷积特征。第一预设神经网络通过对图像的卷积特征进行计算，输出图像的特征图。特征图中的各个特征点至少包含其是某一类文字的概率信息。

在本实施例中，通过第一预设神经网络对图像的卷积特征进行计算，可以有效地获取到与每个单字相关联的文字类别信息。

在一个示例中，输出的特征图中至少包含表示文字类别数的通道和表示图像背景类的通道。

在一个示例中，提取图像的卷积特征的网络和第一预设神经网络可以包含在一个全卷积神经网络中。也即是说，提取目标特征图像的卷积特征的网络和第一预设神经网络是全卷积神经网络中的两个层结构。

在一种实施方式中，如图5所示，文字识别的方法包括上述各实施例所述的步骤S11、S12、S20以及S30，各步骤的具体内容可以参考上述实施例的描述，在本实施例中不做赘述。在此基础上，在执行步骤S12：根据图像的卷积特征和每个单字的第二位置信息，确定每个单字的第一位置信息之前，还包括步骤：

S50：利用第二预设神经网络和图像的卷积特征，确定每个单字的第二位置信息。第二位置信息至少包含每个单字对应的各特征点的坐标信息和角度信息。

图像的卷积特征可以包括通过卷积神经网络对图像进行计算所得到的特征。具体采用的卷积神经网络可以根据需要进行选择和调整。例如，可以采用AlexNet、GoogleNet、ResNet等卷积神经网络。图像的卷积特征可以包括表示颜色、纹理、形状、空间关系等的特征向量，也可以包括基于表示颜色、纹理、形状、空间关系等的特征向量进行卷积后所得到的更高阶的特征向量。

第二预设神经网络可以包括由多个卷积层组成的神经网络。第二预设神经网络的输入可以包括图像的卷积特征。第二预设神经网络通过对图像的卷积特征进行计算，确定出每个单字在图像中的大体位置区域，并基于确定的大体位置区域，确定在大体位置区域中每个单字对应的各特征点的坐标信息和角度信息。

在本实施例中，通过第二预设神经网络对图像的卷积特征进行计算，可以有效地获取到与每个单字相关联的第二位置信息。

在一个示例中，第二预设神经网络根据输入的图像的卷积特征，输出两部分计算结果。一部分计算结果是单通道的0/1分割图，用于表征图像的前景和背景(前景为1，背景为0)的分割。另一部分计算结果是包含单字对应的特征点或像素点的坐标信息（x，y，w，h）和角度信息(θ)。两部分计算结果可以在融合后的一张特征图中显示。

在一个示例中，第一预设神经网络、第二预设神经网络以及提取图像的卷积特征的神经网络，三者可以组成一个全卷积神经网络，也即是说三者分别为全卷积神经网络的三个层结构。

在一个示例中，上述步骤S40和S50可以通过单字检测识别模块执行。该模块完成文字的单字位置检测与识别。单字检测识别模块的输入为图像。首先通过一个基础网络（例如Resnet50）来提取图像的卷积特征。然后通过并行的检测和识别分支来输出单字位置和分类结果。单字检测识别模块需要单字级别的位置和类别标注，实际训练中可通过大量的包含单字位置标注的合成数据进行预训练，然后通过少量的真实数据进行调优来实现。

其中，检测分支完成单字的第二位置信息的输出。检测分支由若干个卷积层组成。检测分支的输入为基础网络输出的卷积特征，输出包含两部分，一部分是单通道的0/1分割图，用于表征前景和背景(前景为1，背景为0)的分割，检测分支的网络模型通过dice损失函数监督学习。一部分是单字位置的几何信息，包含坐标信息（x，y，w，h）和角度信息(θ)共5个通道。通过smoothl1损失函数监督学习。

识别分支完成单字的分类，同样由若干个卷积层组成。识别分支的输入为基础网络输出的卷积特征，输出包含类别数+1个通道的分割图，类别数为待识别的文字种类数量，1为背景类，这些特征图表征该像素点属于某一个文字类别的概率。通过交叉熵损失函数监督学习。

在一个示例中，上述步骤S10至S30可以通过词级别文字检测识别模块执行。由于单字检测识别模块的输出结果仅仅考虑单个文字的特征信息，位置和分类结果可能出现不准确或者错误，词级别文字检测识别模块目的是以单字信息为输入，综合考虑文字的视觉和语义信息，利用图网络并行解码文字的位置和识别结果，对上一模块出现的错误进行修正，以达到更好的端到端识别效果。

其中，词级别文字检测识别模块需要进行第一位置信息和语义信息的提取。对于每个单字来说，对应的卷积特征可以通过区域特征提取操作来获得，坐标信息（x，y，w，h）和角度信息（θ）作为额外的几何信息和卷积特征合并在一起作为单字的第一位置信息。语义信息通过区域特征提取操作提取单字检测识别模块中识别分支输出层的特征，作为语义编码。

词级别文字检测识别模块还需要基于图网络的第一位置信息和语义信息进行解码，得到单字的融合特征。具体的，该模块以单字为节点，分别构建视觉图网络和语义图网络，图的边的初始化连接关系由单字的第一位置信息和语义信息的距离来决定。通过构建多层的图网络结构来加强特征的学习。同时通过共享连接关系可以保证第一位置信息和语义信息相互流通，相互促进。最后融合第一位置信息和语义信息并行连接检测和识别两个输出分支，检测分支通过节点分类（是否是文字）和预测边的连接关系来得到词级别的实例，使用交叉熵损失函数进行监督学习。识别分支预测词级别的识别结果，在训练阶段使用标注来确定实例，预测阶段使用检测分支的预测结果，使用CTC（Connectionist TemporalClassification）损失函数进行监督学习。

在一个示例中，如图6所示，文字识别方法包括单字检测识别过程和词级别检测识别过程。

单字检测识别过程包括：将图像输入全卷积神经网络，全卷积神经网络首先通过基础网络100获取图像的卷积特征。然后全卷积神经网络的第一预设神经网络200通过输入的图像的卷积特征，确定每个单字的文字类别信息。全卷积神经网络的第二预设神经网络300通过输入的图像的卷积特征，确定每个单字的第二位置信息。基于每个单字的文字类别信息和每个单字的第二位置信息，确定图像中包括的单字为“B”、“I”、“K”、“F”、“S”、“D”、“I”、“B”、“E”、“C”、“T”。

词级别检测识别过程包括：基于每个单字的文字类别信息和第二位置信息，确定每个单字的第一位置信息和语义信息。将每个单字作为视觉图网络的第一节点，基于每个单字的第一位置信息，确定各第一节点之间的边关系，从而完成视觉图网络400的构建。将每个单字作为语义图网络的第二节点，基于每个单字的语义信息，确定各第二节点之间的边关系，从而完成语义图网络500的构建。将视觉图网络的任一层与语义图网络的任一层连接，使得视觉图网络的某一层的输出结果可以作为语义图网络的某一层的输入，使得语义图网络的某一层的输出结果可以作为视觉图网络的某一层的输入。基于共享连接后的视觉图网络和语义图网络，视觉图网络更新各第一节点的边关系，以及计算各第一节点的第一特征，语义图网络更新各第二节点的边关系，以及计算各第二节点的第二特征向量。各节点的第一特征和第二特征融合，计算得到图像中的识别结果为包括单词“BIKES”和“DIRECT”。

通过本实施例可知，利用图网络计算后，有效的对单字检测识别过程中的错误识别结果进行了修正，并且直接输出了词级别的识别结果。

根据本申请的实施例，如图7所示，提供了一种文字识别的装置100，包括：

第一确定模块10，用于确定从图像中识别出的每个单字的语义信息和第一位置信息。

构建模块20，用于根据每个单字的语义信息和第一位置信息，构建图网络。

第二确定模块30，用于根据图网络计算的每个单字的特征，确定图像的文字识别结果。

在一种实施方式中，如图8所示，文字识别的装置100包括上述实施例的第一确定模块10、构建模块20和第二确定模块30，其中，构建模块20进一步包括：

第一确定子模块21，用于根据每个单字的第一位置信息，确定由每个单字构成的各第一节点之间的边关系。

第一构建子模块22，用于根据各第一节点之间的边关系，构建视觉图网络。

第二确定子模块23，用于根据每个单字的语义信息，确定由每个单字构成的各第二节点之间的边关系。

第二构建子模块24，用于根据各第二节点之间的边关系，构建语义图网络。

以及，第二确定模块30进一步包括：

第一计算子模块31，用于根据每个单字的第一位置信息，以及语义图网络中任一层的输出结果，通过视觉图网络计算每个单字的第一特征。

第二计算子模块32，用于根据每个单字的语义信息，以及视觉图网络中任一层的输出结果，通过语义图网络计算每个单字的第二特征。

第三确定子模块33，用于根据每个单字的第一特征和第二特征，确定图像的文字识别结果。

在一种实施方式中，如图9所示，文字识别的装置100包括上述实施例的第一确定模块10、构建模块20和第二确定模块30，其中，第一确定模块10进一步包括：

语义确定子模块11，用于根据图像的卷积特征和每个单字的文字类别信息，确定每个单字的语义信息。

位置确定子模块12，用于根据图像的卷积特征和每个单字的第二位置信息，确定每个单字的第一位置信息。

在一种实施方式中，如图10所示，文字识别的装置100包括上述实施例的第一确定模块10、构建模块20和第二确定模块30。文字识别的装置100还包括：

第三确定模块40，用于利用第一预设神经网络和图像的卷积特征，确定每个单字的文字类别信息，文字类别信息包括每个单字对应的各特征点属于哪类文字的概率。

在一种实施方式中，如图11所示，文字识别的装置100包括上述实施例的第一确定模块10、构建模块20和第二确定模块30。文字识别的装置100还包括：

第四确定模块50，用于利用第二预设神经网络和图像的卷积特征，确定每个单字的第二位置信息，第二位置信息至少包含每个单字对应的各特征点的坐标信息和角度信息。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图12所示，是根据本申请实施例的文字识别的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示，该电子设备包括：一个或多个处理器1201、存储器1202，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图12中以一个处理器1201为例。

存储器1202即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的文字识别的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的文字识别的方法。

存储器1202作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的文字识别的方法对应的程序指令/模块（例如，附图7所示的第一确定模块10、构建模块20和第二确定模块30）。处理器1201通过运行存储在存储器1202中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的文字识别的方法。

存储器1202可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据文字识别的电子设备的使用所创建的数据等。此外，存储器1202可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1202可选包括相对于处理器1201远程设置的存储器，这些远程存储器可以通过网络连接至文字识别的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

文字识别的方法的电子设备还可以包括：输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接，图12中以通过总线连接为例。

输入装置1203可接收输入的数字或字符信息，以及产生与文字识别的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1204可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，至少具有以下技术效果：

1、由于将基于第一位置信息构建的视觉图网络和基于语义信息构建的语义图网络建立连接关系，因此可以充分发挥不同维度信息之间的互补性，使得在视觉图网络计算中能够利用语义图网路的中间数据进行辅助计算，在语义图网络计算中能够利用视觉图网络的中间数据进行辅助计算。从而提高语义图网络和视觉图网络对单字的特征挖掘效果，使得最终计算出的单字的特征更加准确。

2、由于利用了单字的第一位置信息和语义信息进行计算，因此可以适应更多场景的文字识别。本方法使得文字识别的应用具有更好的扩展性，可以应用于卡证票据的识别、文档的自动化录入、拍照搜题，甚至文档的结构化解析任务重。

3、通过深入结合视觉信息（位置信息）和语义信息，可以更好地解决端到端检测识别问题。在众多OCR（Optical Character Recognition，光学字符识别）任务中，能够更加快速准确地定位文字位置、识别文字内容。能够革新OCR技术，方便高阶任务扩展，能够在云端和移动端的OCR应用中带来更多流量与更好的用户体验。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种文字识别的方法，包括：

确定从图像中识别出的每个单字的语义信息和第一位置信息，其中，所述语义信息为用于识别对应的所述单字的含义的信息，所述第一位置信息为用于识别对应的所述单字在所述图像中的所处位置的信息；

根据所述每个单字的语义信息和第一位置信息，构建图网络；

根据所述图网络计算的所述每个单字的特征，确定所述图像的文字识别结果；

其中，所述根据所述每个单字的语义信息和第一位置信息，构建图网络，包括：

根据所述每个单字的第一位置信息，确定由所述每个单字构成的各第一节点之间的边关系；

根据所述各第一节点之间的边关系，构建视觉图网络；

根据所述每个单字的语义信息，确定由所述每个单字构成的各第二节点之间的边关系；

根据所述各第二节点之间的边关系，构建语义图网络；

所述根据所述图网络计算的所述每个单字的特征，确定所述图像的文字识别结果，包括：

根据所述每个单字的第一位置信息，以及所述语义图网络中任一层的输出结果，通过所述视觉图网络计算所述每个单字的第一特征；

根据所述每个单字的语义信息，以及所述视觉图网络中任一层的输出结果，通过所述语义图网络计算所述每个单字的第二特征；

根据所述每个单字的第一特征和第二特征，确定所述图像的文字识别结果。

2.根据权利要求1所述的方法，其中，所述确定从图像中识别出的每个单字的语义信息和第一位置信息，包括：

根据所述图像的卷积特征和所述每个单字的文字类别信息，确定所述每个单字的语义信息；

根据所述图像的卷积特征和所述每个单字的第二位置信息，确定所述每个单字的第一位置信息；

其中，在所述根据所述图像的卷积特征和所述每个单字的第二位置信息，确定所述每个单字的第一位置信息之前，还包括：

利用第二预设神经网络和所述图像的卷积特征，确定所述每个单字的第二位置信息，所述第二位置信息至少包含所述每个单字对应的各特征点的坐标信息和角度信息。

3.根据权利要求2所述的方法，在所述根据所述图像的卷积特征和所述每个单字的文字类别信息，确定所述每个单字的语义信息之前，还包括：

利用第一预设神经网络和所述图像的卷积特征，确定所述每个单字的文字类别信息，所述文字类别信息包括所述每个单字对应的各特征点属于哪类文字的概率。

4.一种文字识别的装置，包括：

第一确定模块，用于确定从图像中识别出的每个单字的语义信息和第一位置信息，其中，所述语义信息为用于识别对应的所述单字的含义的信息，所述第一位置信息为用于识别对应的所述单字在所述图像中的所处位置的信息；

构建模块，用于根据所述每个单字的语义信息和第一位置信息，构建图网络；

第二确定模块，用于根据所述图网络计算的所述每个单字的特征，确定所述图像的文字识别结果；

其中，所述构建模块包括：

第一确定子模块，用于根据所述每个单字的第一位置信息，确定由所述每个单字构成的各第一节点之间的边关系；

第一构建子模块，用于根据所述各第一节点之间的边关系，构建视觉图网络；

第二确定子模块，用于根据所述每个单字的语义信息，确定由所述每个单字构成的各第二节点之间的边关系；

第二构建子模块，用于根据所述各第二节点之间的边关系，构建语义图网络；

所述第二确定模块包括：

第一计算子模块，用于根据所述每个单字的第一位置信息，以及语义图网络中任一层的输出结果，通过视觉图网络计算所述每个单字的第一特征；

第二计算子模块，用于根据所述每个单字的语义信息，以及所述视觉图网络中任一层的输出结果，通过所述语义图网络计算所述每个单字的第二特征；

第三确定子模块，用于根据所述每个单字的第一特征和第二特征，确定所述图像的文字识别结果。

5.根据权利要求4所述的装置，其中，所述第一确定模块包括：

语义确定子模块，用于根据所述图像的卷积特征和所述每个单字的文字类别信息，确定所述每个单字的语义信息；

位置确定子模块，用于根据所述图像的卷积特征和所述每个单字的第二位置信息，确定所述每个单字的第一位置信息;

其中，所述文字识别的装置还包括：

第四确定模块，用于利用第二预设神经网络和所述图像的卷积特征，确定所述每个单字的第二位置信息，所述第二位置信息至少包含所述每个单字对应的各特征点的坐标信息和角度信息。

6.根据权利要求5所述的装置，还包括：

第三确定模块，用于利用第一预设神经网络和所述图像的卷积特征，确定所述每个单字的文字类别信息，所述文字类别信息包括所述每个单字对应的各特征点属于哪类文字的概率。

7. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至3中任一项所述的方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1至3中任一项所述的方法。