CN114612912A

CN114612912A - 基于智能语料库的图像文字识别方法、系统及设备

Info

Publication number: CN114612912A
Application number: CN202210225509.0A
Authority: CN
Inventors: 张婷; 曲笑辰; 王方
Original assignee: Glabal Tone Communication Technology Co ltd
Current assignee: Glabal Tone Communication Technology Co ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-06-10

Abstract

本发明属于图像文字识别领域，具体涉及了一种基于智能语料库的图像文字识别方法、系统及设备，旨在解决现有技术忽略图像文字之外的源语言、场景、语义关联等信息，导致存在字迹模糊、遮挡等的待识别图像的文字识别准确性低的问题。本发明包括：进行多种源语言对照语料信息的语义提取及对齐，构建多源语言语料库；训练获取多种源语言对应的图像文字识别模型；进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别；提取待识别图像的源语言种类，结合OCR文字识别结果，获取待识别图像的推荐识别结果和各识别结果的置信度；以高于设定阈值的推荐识别结果和对应的置信度为识别结果。本发明可结合场景进行多种源语言的图像文字识别，准确性高。

Description

基于智能语料库的图像文字识别方法、系统及设备

技术领域

本发明属于图像文字识别领域，具体涉及了一种基于智能语料库的图像文字识别方法、系统及设备。

背景技术

图像文字识别是利用光学技术对图像中的文字和字符进行扫描识别，最终将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。它是计算机视觉研究领域的分支之一，归属于模式识别和人工智能，是计算机科学的重要组成部分。

目前图片识别应用非常广泛，例如各类印刷和手写文档图像文字识别，身份证、银行卡、营业执照、户口本、护照等常用卡片及证件照的文字识别，交通场景中车牌、车辆合格证等的文字识别，以及财务票据、医疗票据、教育场景中试卷、作业的文字识别等等。

然而，由于一些待识别图像存在字迹模糊、遮挡等原因，导致部分文字无法识别，给用户带来不好体验。而一些图像中的场景也未能得到利用，从而未能有效提升识别准确性和用户体验。此外，不同的源语言(指图片中的语言种类)也带来了文字识别的困难。

发明内容

为了解决现有技术中的上述问题，即现有技术忽略图像文字之外的源语言、场景、语义关联等信息，导致存在字迹模糊、遮挡等的待识别图像的文字识别准确性低的问题，本发明提供了一种基于智能语料库的图像文字识别方法，该图像文字识别方法包括：

步骤S10，获取多种源语言对照的语料信息，进行所述语料信息的语义提取及对齐，构建多源语言语料库；

步骤S20，构建图像文字识别模型，并基于所述多源语言语料库进行模型训练，获得多种源语言对应的图像文字识别模型；

步骤S30，进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别，获得初步识别结果；

步骤S40，提取存在文字模糊和文字遮挡的待识别图像的源语言种类，并结合所述初步识别结果，通过当前待识别图像的源语言对应的图像文字识别模型，获取待识别图像的推荐识别结果和各识别结果的置信度；

步骤S50，输出置信度高于设定阈值的推荐识别结果和对应的置信度，作为待识别图像的识别结果。

在一些优选的实施例中，所述图像文字识别模型基于深度神经网络构建。

在一些优选的实施例中，所述多种源语言对照的语料信息，其获取方法为：

通过网络爬虫进行在线数据抓取，获得多种源语言对照的语料信息；

或者通过语料生成器生成数据，获得多种源语言对照的语料信息；

或者结合网络爬虫进行在线数据抓取和通过语料生成器生成数据，获得多种源语言对照的语料信息。

在一些优选的实施例中，所述通过语料生成器生成数据，其方法为：

输入多种源语言对应的语句并进行实体词语识别；

若所述输入语句多个实体词语，则获取预设的词槽组合列表，所述词槽组合列表中包含有多个词槽组合，每一词槽组合包括一个或一个以上的词槽；

基于所述词槽组合，针对多种源语言对应的所述输入语句所包含的多个实体词语，分别进行各源语言对应的匹配及替换；

对替换后的语句进行匹配和对齐，获得多种源语言对照的语料信息。

在一些优选的实施例中，所述图像文字识别方法还包括知识图谱模型的构建，其方法为：

提取所述多源语言语料库中的实体语料和语料关联关系；

基于所述实体语料和语料关联关系，构建多种源语言对应的知识图谱模型。

在一些优选的实施例中，步骤S40中提取存在文字模糊和文字遮挡的待识别图像的源语言种类之后，还包括：

通过当前待识别图像的源语言对应的知识图谱模型，获取待识别图像的推荐识别结果和各识别结果的置信度。

在一些优选的实施例中，步骤S20之前还包括：

获取所述多源语言语料库的语料场景；

构建基于场景的图像文字识别模型，并基于所述多源语言语料库结合对应的语料场景进行模型训练，获得多种源语言对应的基于场景的图像文字识别模型。

本发明的另一方面，提出了一种基于智能语料库的图像文字识别系统，该图像文字识别系统包括以下模块：

语料库构建模块，配置为获取多种源语言对照的语料信息，进行所述语料信息的语义提取及对齐，构建多源语言语料库；

模型构建及训练模块，配置为构建图像文字识别模型，并基于所述多源语言语料库进行模型训练，获得多种源语言对应的图像文字识别模型；

初步文字识别模块，配置为进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别，获得初步识别结果；

模糊及遮挡文字识别模块，配置为提取存在文字模糊和文字遮挡的待识别图像的源语言种类，并结合所述初步识别结果，通过当前待识别图像的源语言对应的图像文字识别模型，获取待识别图像的推荐识别结果和各识别结果的置信度；

识别结果输出模块，配置为输出置信度高于设定阈值的推荐识别结果和对应的置信度，作为待识别图像的识别结果。

本发明的第三方面，提出了一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的基于智能语料库的图像文字识别方法。

本发明的第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于智能语料库的图像文字识别方法。

本发明的有益效果：

(1)本发明基于智能语料库的图像文字识别方法，可以通过获取用户所在区域智能感知用户需要识别的目标语言，也可以根据用户终端或者其他应用信息确定用户需要进行识别的目标语言，并可以在不同语言之间快速切换，识别准确性高、精度高。

(2)本发明基于智能语料库的图像文字识别方法，可以首先对图像进行场景识别，然后结合场景识别结果和无遮挡文字的OCR文字识别结果，获取最终的图像文字识别结果，进一步提升了图像文字识别结果的准确性。

(3)本发明基于智能语料库的图像文字识别方法，不但可以单独对图像进行识别，还可以对上传的批量图像进行批处理，同步输出批处理的多个图像的文字识别结果，并可以在不同的图像识别结果中快速切换。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于智能语料库的图像文字识别方法的流程示意图；

图2是本发明一种实施例的基于智能语料库的遮挡图像文字识别示意图；

图3是本发明一种实施例的基于知识图谱模型的遮挡图像文字识别示意图；

图4是本发明一种实施例的基于场景的图像文字识别模型的遮挡图像文字识别示意图；

图5是本发明一种实施例的基于地理位置的图像文字识别示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合各个实施例来详细说明本申请。

本发明第一实施例的基于智能语料库的图像文字识别方法，包括步骤S10-步骤S40，结合附图1，各步骤详细描述如下：

步骤S10，获取多种源语言对照的语料信息，进行所述语料信息的语义提取及对齐，构建多源语言语料库。

语料库包含多种类别语料，例如歌曲、影视、科技等信息。为了可以针对不同源语言的图像文字进行识别，语料库中的语料为多源语言语料，例如若源语言种类包括中文、英文，则语料“冬天”的多源语言格式为“<冬天><winter>”。

多种源语言对照的语料信息，其获取方法为：

通过语料生成器生成数据，其方法为：

输入多种源语言对应的语句并进行实体词语识别；

由于不同源语言的语句结构的特征不同，需要对多种源语言对照的语料信息进行语义提取及对齐，例如将“<我们一起去河岸散步><We went for a walk along the riverbank together>”提取语义并对齐后获得“<我们><we>”，“<一起><together>”，“<河岸><river bank>”和“<散步><went for a walk>”。

步骤S20，基于深度神经网络构建图像文字识别模型，并基于所述多源语言语料库进行模型训练，获得多种源语言对应的图像文字识别模型。

目前现有技术中训练模型采用的数据集普遍是“图片-图片中文字”这种单一映射样式，即通过CNN等神经网络提取图像特征，再将输出结果与真值(即图片中文字、坐标位置)进行训练，通过提升准确率、召回率、等提升模型识别效果，但是这种模型缺乏对图片语义理解，即神经网络在训练过程中受到传统数据集大小影响，缺少智能理解图片之后再输出识别结果的能力。

步骤S30，进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别，获得初步识别结果。

文字模糊指人眼不能明显判断该文字或者识别清楚该文字，或者系统判断该文字准确率值低于30％，比如一个“好”字，该字迹可能模糊，系统判断该文字25％概率为“子”，25％概率为“女”，25％概率为“仔”，25％概率为“女子”。而文字遮挡，指文字完全模糊，人眼无法识别或者系统识别该文字的准确率低于5％。

步骤S40，提取存在文字模糊和文字遮挡的待识别图像的源语言种类，并结合所述初步识别结果，通过当前待识别图像的源语言对应的图像文字识别模型，获取待识别图像的推荐识别结果和各识别结果的置信度。

本发明方法可以提供特殊事件对应的识别语言功能，例如如果方法配置在是手机或者pad端，可以设置在图片框手指在图片中左滑对应识别语言为中文，右滑对应识别语言为英文，这些设置可以在图片翻译装置或者系统的设置功能里面提供。这样当用户常用某种语言时，便可以通过在原图片往不同方向滑动达到快速切换识别语言目的；如果是电脑端，可以设置鼠标在原图片位置快速连续点击2次对应识别语言为俄语，连续点击3次对应识别语言为西班牙语，这样通过鼠标的快速点击，便能够迅速切换识别语言，达到智能识别用户识别语言的目的。还可以通过语音识别功能进行模板语言的切换，例如语音为“英文”，识别语音后便切换为英文，最后将原图片以英文方式识别。

上述语言识别和切换方法仅是实现本发明多源语言切换的一种优选的实施例，在实际应用中还可以设置其他切换方式，本发明在此不一一详述。

如图2所示，为本发明一种实施例的基于智能语料库的遮挡图像文字识别示意图，未遮挡部分的OCR文字识别结果为“大约在季”，将该结果输入中文的图像文字识别模型，对于图2中(a)的遮挡情况，模型输出结果“大约在冬季”、置信度(即概率)80％，“大约在夏季”、置信度20％；对于图2中(b)的遮挡情况，模型输出结果“大约在夏季”、置信度(即概率)80％，“大约在复季”、置信度20％。

本发明第二实施例的基于知识图谱模型的图像文字识别方法，在第一实施例的多源语言语料库基础上进行知识图谱模型的构建：

提取所述多源语言语料库中的实体语料和语料关联关系；

例如歌曲类信息“周杰伦---》给我一首歌的时间”，“刘德华---》恭喜发财”。

进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别，获得初步识别结果，提取存在文字模糊和文字遮挡的待识别图像的源语言种类，并结合所述初步识别结果，通过当前待识别图像的源语言对应的知识图谱模型，获取待识别图像的推荐识别结果和各识别结果的置信度，输出置信度高于设定阈值的推荐识别结果和对应的置信度，作为待识别图像的识别结果。

如图3所示，为本发明一种实施例的基于知识图谱模型的遮挡图像文字识别示意图，未遮挡部分的OCR文字识别结果为“周杰给我一首歌的时间”，将该结果输入中文的知识图谱模型，模型输出结果“周杰伦给我一首歌的时间”、置信度(即概率)80％，“周杰给我一首歌的时间”、置信度20％。

本发明第三实施例的基于场景的图像文字识别模型的图像文字识别方法，在第一实施例的多源语言语料库基础上：

例如银行场景中，如果有文字“ban”，那么“ban”以及场景信息输入场景识别模型，便输出“bank”。

进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别，获得初步识别结果，提取存在文字模糊和文字遮挡的待识别图像的源语言种类，并结合所述初步识别结果，通过当前待识别图像的源语言对应的基于场景的图像文字识别模型，获取待识别图像的推荐识别结果和各识别结果的置信度，输出置信度高于设定阈值的推荐识别结果和对应的置信度，作为待识别图像的识别结果。

如图4所示，为本发明一种实施例的基于场景的图像文字识别模型的遮挡图像文字识别示意图，未遮挡部分的OCR文字识别结果为“ban”，根据图片场景识别模型，确定图片处在河流或者湖泊的场景中，将该场景和“ban”输入英文的基于场景的图像文字识别模型，模型输出结果“bank河岸”、置信度(即概率)80％，“ban河岸”、置信度20％。

本发明第四实施例的多种源语言的图像文字识别方法，其源语言不仅仅包括中文、英文等，还包括中文/英文的分支语种等等，例如中文的分支语种西藏语。

如图5所示，为本发明一种实施例的基于地理位置的图像文字识别示意图，首先识别用户地理位置信息为西藏地区，则对原图片以藏语为源语言进行识别，这样达到智能选择语言识别的目的，输出识别结果“周杰伦给我一首歌的时间”。

上述的几个方法实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

此外，本发明方法不仅可以实现单张图像的文字识别，还可以上传多张图像，进行图像批识别，显示多张图像的文字识别结果。

本发明第二实施例的基于智能语料库的图像文字识别系统，该图像文字识别系统包括以下模块：

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于智能语料库的图像文字识别系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

本发明第四实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于智能语料库的图像文字识别方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于智能语料库的图像文字识别方法，其特征在于，该图像文字识别方法包括：

2.根据权利要求1所述的基于智能语料库的图像文字识别方法，其特征在于，所述图像文字识别模型基于深度神经网络构建。

3.根据权利要求1所述的基于智能语料库的图像文字识别方法，其特征在于，所述多种源语言对照的语料信息，其获取方法为：

4.根据权利要求3所述的基于智能语料库的图像文字识别方法，其特征在于，所述通过语料生成器生成数据，其方法为：

输入多种源语言对应的语句并进行实体词语识别；

5.根据权利要求1所述的基于智能语料库的图像文字识别方法，其特征在于，所述图像文字识别方法还包括知识图谱模型的构建，其方法为：

提取所述多源语言语料库中的实体语料和语料关联关系；

6.根据权利要求5所述的基于智能语料库的图像文字识别方法，其特征在于，步骤S40中提取存在文字模糊和文字遮挡的待识别图像的源语言种类之后，还包括：

7.根据权利要求1所述的基于智能语料库的图像文字识别方法，其特征在于，步骤S20之前还包括：

获取所述多源语言语料库的语料场景；

8.一种基于智能语料库的图像文字识别系统，其特征在于，该图像文字识别系统包括以下模块：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1-7任一项所述的基于智能语料库的图像文字识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求1-7任一项所述的基于智能语料库的图像文字识别方法。