CN108021918A

CN108021918A - 文字识别方法及装置

Info

Publication number: CN108021918A
Application number: CN201711332707.2A
Authority: CN
Inventors: 张水发
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2018-05-11
Anticipated expiration: 2037-12-13
Also published as: CN108021918B

Abstract

本公开是关于文字识别方法及装置。该方法包括：获取字块序列，字块序列中包括多个字块；根据预设神经网络，识别出字块序列中每个字块对应的至少一个文字及每个文字的识别概率；根据至少一个文字和预设散列表，将字块序列按语义分割为多个子序列，并确定每个子序列对应的至少一个文字组合；其中，文字组合包括对应子序列的每个字块所对应的一个文字；根据每个子序列对应的至少一个文字组合和每个文字的识别概率，确定字块序列的文字。该技术方案在识别出每个字块对应的文字之后，在对字块序列按照语义分割，最终结果是根据语义对单独字块识别出的文字进行再一次进行语义识别得到的，这样，即使字形相近，也可以通过语义区分，提高了文字识别的准确性。

Description

文字识别方法及装置

技术领域

本公开涉及图像识别领域，尤其涉及文字识别方法及装置。

背景技术

随着科技的发展，图像识别的应用范围越来越广，文字识别作为图像识别的一个部分，其使用范围也越来越广。文字识别可以逐字识别每个文字，但是在识别过程中，每个文字都有与自己非常相似的文字，例如，人和入，这样，检测效果不准确。

发明内容

本公开实施例提供文字识别方法及装置。所述技术方案如下：

根据本公开实施例的第一方面，提供一种文字识别方法，包括：

获取字块序列，所述字块序列中包括多个字块；

根据预设神经网络，识别出字块序列中每个字块对应的至少一个文字及每个文字的识别概率；

根据所述至少一个文字和预设散列表，将所述字块序列按语义分割为多个子序列，并确定每个子序列对应的至少一个文字组合；其中，所述文字组合包括对应子序列的每个字块所对应的一个文字，所述预设散列表包括文字的各个词组；

根据所述每个子序列对应的至少一个文字组合和所述每个文字的识别概率，确定所述字块序列的文字。

在一个实施例中，所述根据所述至少一个文字和预设散列表，将所述字块序列按语义分割为多个子序列，并确定每个子序列对应的至少一个文字组合包括：

获取未分割字块中前i个字块的m个组合；所述i和m是正整数；所述字块序列包括未分割字块和已分割字块，所述已分割字块已被分为k个子序列；所述k是子序列的序列号；

获取所述字块序列中第j个字块对应的n个文字；所述第j个字块是所述未分割字块中第i+1个字块；所述j是小于或等于字块序列的字块个数的正整数；

将所述n个文字与所述m个组合一一组合，得到所述未分割字块中前i+1个字块的m*n个新组合；其中，所述第i+1个字块的文字作为每个新组合中的最后一个文字；

判断所述预设散列表中的词组是否包括所述m*n个新组合中任一个新组合；

当所述预设散列表中的词组包括w个新组合时，将所述w个新组合作为所述前i+1个字块的w个组合；所述w是正整数；

当所述预设散列表中的词组不包括任一新组合时，将所述前i个字块分为第k+1个子序列，将所述前i个字块的m个组合作为所述第k+1个子序列对应的至少一个文字组合；更新所述字块序列中已分割字块和未分割字块；其中，更新后的已分割字块包括所述前i个字块，所述第j个字块作为更新后的未分割字块的第1个字块。

在一个实施例中，所述根据所述每个子序列对应的至少一个文字组合和所述每个文字的识别概率，确定所述字块序列的文字包括：

从所述每个文字的识别概率中，获取所述第k+1个子序列对应的每个文字组合中文字的识别概率；

根据所述第k+1个子序列对应的每个文字组合中文字的识别概率，计算所述第k+1个子序列对应的每个文字组合的概率；

将概率最高的文字组合的文字作为所述第k+1个子序列的文字。

在一个实施例中，所述获取字块序列，所述字块序列中包括多个字块包括：

获取文字图片；

将所述文字图片中的文本按字块进行分割，得到所述字块序列。

在一个实施例中，所述根据预设神经网络，识别出字块序列中每个字块对应的至少一个文字及每个文字的识别概率之后，所述方法还包括：

对于每个字块，获取识别概率最高的n个文字作为相应字块对应的n个文字，所述n是正整数。

根据本公开实施例的第二方面，提供一种文字识别装置，包括：

第一获取模块，用于获取字块序列，所述字块序列中包括多个字块；

识别模块，用于根据预设神经网络，识别出字块序列中每个字块对应的至少一个文字及每个文字的识别概率；

分割模块，用于根据所述至少一个文字和预设散列表，将所述字块序列按语义分割为多个子序列，并确定每个子序列对应的至少一个文字组合；其中，所述文字组合包括对应子序列的每个字块所对应的一个文字，所述预设散列表包括文字的各个词组；

确定模块，用于根据所述每个子序列对应的至少一个文字组合和所述每个文字的识别概率，确定所述字块序列的文字。

在一个实施例中，所述分割模块包括：

第一获取子模块，用于获取未分割字块中前i个字块的m个组合；所述i和m是正整数；所述字块序列包括未分割字块和已分割字块，所述已分割字块已被分为k个子序列；所述k是子序列的序列号；

第二获取子模块，用于获取所述字块序列中第j个字块对应的n个文字；所述第j个字块是所述未分割字块中第i+1个字块；所述j是小于或等于字块序列的字块个数的正整数；

组合子模块，用于将所述n个文字与所述m个组合一一组合，得到所述未分割字块中前i+1个字块的m*n个新组合；其中，所述第i+1个字块的文字作为每个新组合中的最后一个文字；

判断子模块，用于判断所述预设散列表中的词组是否包括所述m*n个新组合中任一个新组合；

处理子模块，用于当所述预设散列表中的词组包括w个新组合时，将所述w个新组合作为所述前i+1个字块的w个组合；所述w是正整数；当所述预设散列表中的词组不包括任一新组合时，将所述前i个字块分为第k+1个子序列，将所述前i个字块的m个组合作为所述第k+1个子序列对应的至少一个文字组合；更新所述字块序列中已分割字块和未分割字块；其中，更新后的已分割字块包括所述前i个字块，所述第j个字块作为更新后的未分割字块的第1个字块。

在一个实施例中，所述确定模块包括：

第三获取子模块，用于从所述每个文字的识别概率中，获取所述第k+1个子序列对应的每个文字组合中文字的识别概率；

计算子模块，用于根据所述第k+1个子序列对应的每个文字组合中文字的识别概率，计算所述第k+1个子序列对应的每个文字组合的概率；

作为子模块，用于将概率最高的文字组合的文字作为所述第k+1个子序列的文字。

在一个实施例中，所述第一获取模块包括：

第四获取子模块，用于获取文字图片；

分割子模块，用于将所述文字图片中的文本按字块进行分割，得到所述字块序列。

在一个实施例中，所述装置还包括：

第二获取模块，用于对于每个字块，获取识别概率最高的n个文字作为相应字块对应的n个文字，所述n是正整数。

根据本公开实施例的第三方面，提供一种文字识别装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取字块序列，所述字块序列中包括多个字块；

本公开的实施例提供的技术方案可以包括以下有益效果：在识别出每个字块对应的文字之后，在对字块序列按照语义分割，最终结果是根据语义对单独字块识别出的文字进行再一次进行语义识别得到的，这样，即使字形相近，也可以通过语义区分，提高了文字识别的准确性

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的文字识别方法的流程图。

图2是根据一示例性实施例示出的分割后的字块序列的示意图。

图3是根据一示例性实施例示出的文字识别方法的流程图。

图4是根据一示例性实施例示出的文字识别方法的流程图。

图5是根据一示例性实施例示出的文字识别方法的流程图。

图6是根据一示例性实施例示出的文字识别方法的流程图。

图7是根据一示例性实施例示出的文字识别装置的框图。

图8是根据一示例性实施例示出的文字识别装置的框图。

图9是根据一示例性实施例示出的文字识别装置的框图。

图10是根据一示例性实施例示出的文字识别装置的框图。

图11是根据一示例性实施例示出的文字识别装置的框图。

图12是根据一示例性实施例示出的文字识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种文字识别方法的流程图，如图1所示，文字识别方法用于文字识别装置中，该装置应用于处理器中，该方法包括以下步骤101-104：

在步骤101中，获取字块序列，字块序列中包括多个字块。

该字块序列是从文字图像中按照读写顺序提取到的，每个字块都有相应的序号。该字块所显示的字符可能是用户手写的文字，也可能是各种字体的文字。

在步骤102中，根据预设神经网络，识别出字块序列中每个字块对应的至少一个文字及每个文字的识别概率。

预设神经网络是可以是LeNet、AlexNet、VggNet、GoogleNet、ResNet、Resnet、MobileNet、ShuffleNet等分类网络，其中该预设神经网络需要先对其进行训练参数才能实现正确分类，因此，需要根据大量的文字样本和对应的字块样本对预设神经网络进行训练。

示例的，假设识别出一个字块显示的文字可能是人、大、太、A中的一个，概率分别为50％、28％、20％和2％。这里，字块对应的至少一个文字包括人、大、太、A，相应的人字的识别概率是50％，大字的识别概率是28％，太字的识别概率是20％，A的识别概率是2％。

在步骤103中，根据至少一个文字和预设散列表，将字块序列按语义分割为多个子序列，并确定每个子序列对应的至少一个文字组合。

其中，文字组合包括对应子序列的每个字块所对应的一个文字，预设散列表包括文字的各个词组。预设散列表可以包括所有文字的散列，散列包括以同一个文字为词组首个字的所有词组，词组包含常见的词语、成语、语句、网络用语、专业词语等。

本实施例中，词语是由文字组合的，文字的组合方式不同，那么，词语的语义不同，例如，正反和反正这两组词的文字相同，但是语义是不同的。因此，在子序列的文字识别过程中，文字的顺序不能发生变化。

每个字块在字块序列中有一个第一序号，如图2所示，假设将一个由12个字块组成的字块序列分割成了五个子序列，其中序号1和2的字块分为第一子序列，序号3到5的字块分为第二子序列，序号6和7的字块分为第三子序列，序号8到11的字块分为第四子序列，序号为12的字块分为第五子序列。

在步骤104中，根据每个子序列对应的至少一个文字组合和每个文字的识别概率，确定字块序列的文字。

可以从至少一组文字组合中选取置信度最高的组合作为该子序列的文字，将这些文字按子序列的顺序连接起来，就得到了字块序列的文字。

在一个实施例中，如图3所示，图1所示的步骤103，即根据至少一个文字和预设散列表，将字块序列按语义分割为多个子序列，并确定每个子序列对应的至少一个文字组合，可以包括：

在步骤1031中，获取未分割字块中前i个字块的m个组合。

这里，i和m是正整数；字块序列包括未分割字块和已分割字块，已分割字块已被分为k个子序列；k是子序列的序列号。

在步骤1032中，获取字块序列中第j个字块对应的n个文字。

第j个字块是未分割字块中第i+1个字块；j是小于或等于字块序列的字块个数的正整数。

在步骤1033中，将n个文字与m个组合一一组合，得到未分割字块中前i+1个字块的m*n个新组合。

其中，第i+1个字块的文字作为每个新组合中的最后一个文字。

假设m是3，n是3，第j个字块对应的文字包括A、B和C，M个组合包括XYZ、EFG和WOP。9个新组合分别为：XYZA、XYZB、XYZC、EFGA、EFGB、EFGC、WOPA、WOPB、WOPC。

在步骤1034中，判断预设散列表中的词组是否包括m*n个新组合中任一个新组合。

本实施例中，如果对于未分割字块中的第1个字块，那么可以找到第1个字块对应的每个文字的散列，在判断第2个字块以及之后的文字时，就可以在相应的散列表中查找，例如，WOPC的第一个字块对应的一个文字是W，那么就查找到W的散列，之后就可以在W的三列表中查找是否存在WO、WOP、WOPC等。

在步骤1035中，当预设散列表中的词组包括w个新组合时，将w个新组合作为前i+1个字块的w个组合。

这里，w是正整数；w个新组合可以分别包括在不同的词组中，比如包括在w个词组中，而不一定要包括在同一个词组中。

假设新组合是QWG，那么就在Q的散列中查找QWG，如果Q的散列中包括QWGE这样的一个词组，很显然，QWGE包括QWG，QWG就是w个组合中的一个，QWG就可以和第4个未分割字块的文字进行继续组合。

此时，词组中不包括组合QU与第三个未分割字块对应的任一文字组成的新组合，即组成组合QU将会被丢弃。

在步骤1036中，当预设散列表中的词组不包括任一新组合时，将前i个字块分为第k+1个子序列，将前i个字块的m个组合作为第k+1个子序列对应的至少一个文字组合。

示例的，假设前2个未分割字块的组合是QP、QR，第3个未分割字块对应的一个文字是E、F，两者的新组合是QPE、QPF、QRE、QRF，以QPE新组合为例，在Q的三列中查找QPE，如果Q的散列中并没有QPE，那么QPE不能作为一个组合，如果两者的所有新组合都不包括在Q散列中，那么将前两个未分割字块作为一个子序列，其对应的文字组合就是QP、QR。

在步骤1037中，更新字块序列中已分割字块和未分割字块；其中，更新后的已分割字块包括前i个字块。

第j个字块作为更新后的未分割字块的第1个字块。如果组成新的子序列，说明又有字块被分割，因此被分割的字块更新为已分割字块。

在一个实施例中，如图4所示，图1中的步骤104，即根据每个子序列对应的至少一个文字组合和每个文字的识别概率，确定字块序列的文字，可以包括：

在步骤1041中，从每个文字的识别概率中，获取第k+1个子序列对应的每个文字组合中文字的识别概率。

每个字块都对应着至少一个文字，每个文字都有其的识别概率。

在步骤1042中，根据第k+1个子序列对应的每个文字组合中文字的识别概率，计算第k+1个子序列对应的每个文字组合的概率。

假设第k+1个子序列的一个组合包括2个字块，第一个字块对应的文字包括H(a％)、I(b％)，第二个字块对应的文字包括：O(c％)、P(d％)、Q(e％)，括号内是文字的识别概率。组合的第一个文字字是I，第二个文字是Q，那么该组合的概率是b％*e％。

在步骤1043中，将概率最高的文字组合的文字作为第k+1个子序列的文字。

本实施例中第k组对应的每个文字组合包括的文字个数是相同的。文字组合的概率是通过该文字组合中的文字的识别概率相乘得到的。

本实施例中，如果第k+1个子序列只有一个字块，那么将该字块对应的最高识别概率的文字作为该字块识别出的文字。

在一个实施例中，如图5所示，图1中的步骤101，即获取字块序列，字块序列中包括多个字块，可以包括：

在步骤1011中，获取文字图片。

在步骤1012中，将文字图片中的文本按字块进行分割，得到字块序列。

本实施例可以将文字图像二值化，具体的，当文字图像的像素的灰度值小于一定阈值的像素置为1，否则为0；根据二值化后的文字图像，计算文字图像的直方图，根据直方图确定文字的宽度和文字之间存在空白，从而将文本分割成独立的字块。

在一个实施例中，如图6所示，图1中的步骤102，即根据预设神经网络，识别出字块序列中每个字块对应的至少一个文字及每个文字的识别概率之后，方法还包括：

在步骤105中，对于每个字块，获取识别概率最高的n个文字作为相应字块对应的n个文字。

这里，述n是正整数，n可以是5。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图7是根据一示例性实施例示出的一种文字识别装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图7所示，该文字识别装置包括：

第一获取模块201，用于获取字块序列，所述字块序列中包括多个字块；

识别模块202，用于根据预设神经网络，识别出字块序列中每个字块对应的至少一个文字及每个文字的识别概率；

分割模块203，用于根据所述至少一个文字和预设散列表，将所述字块序列按语义分割为多个子序列，并确定每个子序列对应的至少一个文字组合；其中，所述文字组合包括对应子序列的每个字块所对应的一个文字，所述预设散列表包括文字的各个词组；

确定模块204，用于根据所述每个子序列对应的至少一个文字组合和所述每个文字的识别概率，确定所述字块序列的文字。

在一个实施例中，如图8所示，所述分割模块203包括：

第一获取子模块2031，用于获取未分割字块中前i个字块的m个组合；所述i和m是正整数；所述字块序列包括未分割字块和已分割字块，所述已分割字块已被分为k个子序列；所述k是子序列的序列号；

第二获取子模块2032，用于获取所述字块序列中第j个字块对应的n个文字；所述第j个字块是所述未分割字块中第i+1个字块；所述j是小于或等于字块序列的字块个数的正整数；

组合子模块2033，用于将所述n个文字与所述m个组合一一组合，得到所述未分割字块中前i+1个字块的m*n个新组合；其中，所述第i+1个字块的文字作为每个新组合中的最后一个文字；

判断子模块2034，用于判断所述预设散列表中的词组是否包括所述m*n个新组合中任一个新组合；

处理子模块2035，用于当所述预设散列表中的词组包括w个新组合时，将所述w个新组合作为所述前i+1个字块的w个组合；所述w是正整数；当所述预设散列表中的词组不包括任一新组合时，将所述前i个字块分为第k+1个子序列，将所述前i个字块的m个组合作为所述第k+1个子序列对应的至少一个文字组合；更新所述字块序列中已分割字块和未分割字块；其中，更新后的已分割字块包括所述前i个字块，所述第j个字块作为更新后的未分割字块的第1个字块。

在一个实施例中，如图9所示，所述确定模块204包括：

第三获取子模块2041，用于从所述每个文字的识别概率中，获取所述第k+1个子序列对应的每个文字组合中文字的识别概率；

计算子模块2042，用于根据所述第k+1个子序列对应的每个文字组合中文字的识别概率，计算所述第k+1个子序列对应的每个文字组合的概率；

作为子模块2043，用于将概率最高的文字组合的文字作为所述第k+1个子序列的文字。

在一个实施例中，如图10所示，所述第一获取模块201包括：

第四获取子模块2011，用于获取文字图片；

分割子模块2012，用于将所述文字图片中的文本按字块进行分割，得到所述字块序列。

在一个实施例中，如图11所示，所述装置还包括：

第二获取模块205，用于对于每个字块，获取识别概率最高的n个文字作为相应字块对应的n个文字，所述n是正整数。

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

获取字块序列，所述字块序列中包括多个字块；

上述处理器还可被配置为：

所述根据所述至少一个文字和预设散列表，将所述字块序列按语义分割为多个子序列，并确定每个子序列对应的至少一个文字组合包括：

所述根据所述每个子序列对应的至少一个文字组合和所述每个文字的识别概率，确定所述字块序列的文字包括：

所述获取字块序列，所述字块序列中包括多个字块包括：

获取文字图片；

所述根据预设神经网络，识别出字块序列中每个字块对应的至少一个文字及每个文字的识别概率之后，所述方法还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种用于文字识别装置的框图。例如，装置1900可以被提供为一服务器。装置1900包括处理序列件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理序列件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一序列指令的模块。此外，处理序列件1922被配置为执行指令，以执行上述方法。

装置1900还可以包括一个电源序列件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置1900的处理器执行时，使得装置1900能够执行上述文字识别方法，所述方法包括：

获取字块序列，所述字块序列中包括多个字块；

所述获取字块序列，所述字块序列中包括多个字块包括：

获取文字图片；

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文字识别方法，其特征在于，包括：

获取字块序列，所述字块序列中包括多个字块；

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个文字和预设散列表，将所述字块序列按语义分割为多个子序列，并确定每个子序列对应的至少一个文字组合包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个子序列对应的至少一个文字组合和所述每个文字的识别概率，确定所述字块序列的文字包括：

4.根据权利要求1所述的方法，其特征在于，所述获取字块序列，所述字块序列中包括多个字块包括：

获取文字图片；

5.根据权利要求1所述的方法，其特征在于，所述根据预设神经网络，识别出字块序列中每个字块对应的至少一个文字及每个文字的识别概率之后，所述方法还包括：

6.一种文字识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述分割模块包括：

8.根据权利要求7所述的装置，其特征在于，所述确定模块包括：

9.根据权利要求6所述的装置，其特征在于，所述第一获取模块包括：

第四获取子模块，用于获取文字图片；

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

11.一种文字识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取字块序列，所述字块序列中包括多个字块；

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。