CN113642584B

CN113642584B - 文字识别方法、装置、设备、存储介质和智能词典笔

Info

Publication number: CN113642584B
Application number: CN202110934110.5A
Authority: CN
Inventors: 刘珊珊; 乔美娜; 吴亮; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2023-11-28
Anticipated expiration: 2041-08-13
Also published as: EP4080469A2; JP2022160662A; CN113642584A; EP4080469A3; US20230020022A1

Abstract

本公开公开了一种文字识别方法，涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于光学字符识别OCR等场景。具体实现方案为：获取针对文档连续扫描得到的多个图像序列；基于多个图像序列进行图像拼接，得到对应的多个连续拼接图像帧，其中，两两连续拼接图像帧之间存在重叠区域；基于多个连续拼接图像帧进行文字识别，得到对应的多个识别结果；以及基于多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对多个识别结果进行去重处理，得到针对文档的文字识别结果。

Description

文字识别方法、装置、设备、存储介质和智能词典笔

技术领域

本公开涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于光学字符识别(Optical Character Recognition，简称OCR)等场景。具体涉及一种文字识别方法、装置、设备、存储介质、智能词典笔和计算机程序产品。

背景技术

近些年来，搭载着OCR功能的智能硬件产品在教育市场应运而生，比如智能词典笔、智能平板等。其中智能词典笔得到了各大企业的关注和布局，比如很多企业都已有自有品牌的智能词典笔。

搭载着OCR功能的智能硬件产品，通常需要具有文字唤醒功能和文字识别功能。并且，这种智能硬件产品通常具有基于高速相机捕捉的文字片段进行处理并展示对应原文、译文、以及相关搜索内容和推荐内容的基本功能。这些基本功能要求智能硬件产品能够在连续视频帧场景下对大量文字片段进行精准识别。

发明内容

本公开提供了一种文字识别方法、装置、设备、存储介质、智能词典笔和计算机程序产品。

根据本公开的一方面，提供了一种文字识别方法，包括：获取针对文档连续扫描得到的多个图像序列；基于所述多个图像序列进行图像拼接，得到对应的多个连续拼接图像帧，其中，两两连续拼接图像帧之间存在重叠区域；基于所述多个连续拼接图像帧进行文字识别，得到对应的多个识别结果；以及基于所述多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对所述多个识别结果进行去重处理，得到针对所述文档的文字识别结果。

根据本公开的另一方面，提供了一种文字识别装置，包括：图像获取模块，用于获取针对文档连续扫描得到的多个图像序列；图像拼接模块，用于基于所述多个图像序列进行图像拼接，得到对应的多个连续拼接图像帧，其中，两两连续拼接图像帧之间存在重叠区域；初始识别模块，用于基于所述多个连续拼接图像帧进行文字识别，得到对应的多个识别结果；以及去重识别模板，用于基于所述多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对所述多个识别结果进行去重处理，得到针对所述文档的文字识别结果。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开实施例所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开实施例所述的方法。

根据本公开的另一方面，提供了一种智能词典笔，包括：根据本公开实施例所述的装置。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1A示例性示出了适于本公开实施例的系统架构；

图1B示例性示出了可以实现本公开实施例的场景图；

图2示例性示出了根据本公开实施例的文字识别方法的流程图；

图3示例性示出了根据本公开实施例的用于连续视频帧场景的文字识别原理图；

图4示例性示出了根据本公开实施例的用于连续视频帧场景的文字识别效果图；

图5示例性示出了根据本公开实施例的文字识别装置的框图；以及

图6示例性示出了用来实现本公开实施例的文字识别方法和装置的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

应该理解，传统的文本识别方案有以下两种。方案1，包括文本检测和文本识别两个阶段。其中，在文本检测阶段，主要应用east和db等算法进行文本检测；在文本识别阶段，主要应用CRNN、ATTENTION、SRN等算法对文本检测阶段获得的检测结果进行文本识别。方案2，是端到端的文本识别方案，主要应用text net和PGNET等算法进行文本识别。

上述两个方案都能够针对单帧图像进行精准的文字区域检测和文字内容识别，但无法在连续视频帧场景下对大量的文字片段进行去重处理。

还应该理解，在连续视频帧场景下，可以先采用图像全景拼接手段，将大量连续视频帧拼接成一张完整的拼接图像，然后将该拼接图像输出给下游OCR模块进行文字识别。但是，将所有文字片段拼接在一起后再进行文字识别，一方面无法满足实时性要求，另一方面会导致内存消耗较大，影响设备性能。

此外，考虑到OCR模型中输入的图像尺寸越小，文字识别越快的原理，还可以在连续扫描文档的过程中，获取一个个图像序列，并将一个个图像序列拼接成连续的拼接图像帧，然后依次对每个拼接图像帧进行文字识别，并返回对应的文字识别结果。这种方案整体上可以减少耗时，带来实时性收益。但是，这种图像拼接方案可能会因为拼接图像边缘文字残缺或断裂而导致无法识别部分文本内容。虽然OCR模型自带的语义纠错功能也许会正确识别其中的一部分文本内容，但是通常会实现所见即所得的识别，导致文本识别效果变差。

对此，本公开实施例提供了一种可用于连续视频帧场景的文字识别方案。该方案中，也是在连续扫描文档的过程中，获取一个个图像序列，并将一个个图像序列拼接成对应的连续拼接图像帧，然后依次对每个拼接图像帧进行文字识别，并返回对应的文字识别结果。与前述方案不同的是，本方案中，两两连续拼接图像帧间存在重叠区域，并且，在返回对应的文字识别结果之前，可以基于其中的两两连续拼接图像帧间存在的重叠区域。对由相邻拼接图像帧得到的文字识别结果进行去重处理。基于此，本方案不仅能够获得实时性收益，同时由于前后拼接图像帧间存在重叠区域，因而可以对各拼接图像边缘残缺或断裂的文字进行补救，即可以通过重叠区域中的文字内容识别拼接图像边缘残缺或断裂的文字，由此可以提升文本识别效果。

以下将结合附图和具体实施例详细阐述本公开。

适于本公开实施例的文字识别方法和装置的系统架构介绍如下。

图1A示例性示出了适于本公开实施例的系统架构。需要注意的是，图1A所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他环境或场景。

如图1A所示，系统架构100可以包括：图像采集模块101、图像拼接模块102、初始识别模块103、去重识别模块104和屏显模块105(即屏幕显示模块)。

应该理解，图像采集模块101可以是高速相机。比如，高速相机可以连续扫描文档中的文字信息，得到大量的连续视频帧。

在本公开实施例中，图像采集模块101采集的大量连续视频帧输入图像拼接模块102后，图像拼接模块102可以按照预定帧速率(如40FPS、120FPS等)截取连续视频帧中的一个个图像序列，并将每个图像序列拼接成一个对应的拼接图像帧，同时使得两两连续拼接图像帧间存在一定的重叠区域，即使得两两相邻拼接图像帧间存在一定的重叠区域。

在本公开实施例中，初始识别模块103(OCR模块)可以对图像拼接模块102输出的连续拼接图像帧中的每个图像帧单独进行文字识别，并基于每个拼接图像帧得到一个对应的字符串。

去重识别模块104可以基于图像拼接模块102输出的连续拼接图像帧中，两两连续拼接图像帧间存在的重叠区域，对初始识别模块103输出的两个对应的字符串进行去重、串联处理，最终得到并向屏显模块105返回正确的字符串识别结果。

应该理解，在本公开实施例中，可以在智能词典笔和智能平板等智能硬件产品中搭载上述系统架构100，以实现用于大量连续视频帧场景的文字识别功能。即上述的系统架构100可以由智能硬件产品通过端上算力实现。

适于本公开实施例的文字识别方法和装置的应用场景介绍如下。

如图1B所示，针对图中示出的连续视频帧(这些视频帧具有连续性、数量较多、包含的文字片段因其中个别单字存在残缺或断裂而存在不确定的特性)，可以应用本公开实施例提供的高效动态文本识别、去重方案进行文本识别。本方案中，文档扫描、图像拼接和文本识别是并行执行的，因而可以减少耗时，能够满足用户对文本识别的实时性要求。并且，本方案中，针对每个拼接图像得到的文本识别结果都是实时返回的，因而可以降低内存耗低，提升智能硬件产品的性能。

根据本公开的实施例，本公开提供了一种文字识别方法。

图2示例性示出了根据本公开实施例的文字识别方法的流程图。

如图2所示，文字识别方法200可以包括操作S210～S240。

在操作S210，获取针对文档连续扫描得到的多个图像序列。

在操作S220，基于多个图像序列进行图像拼接，得到对应的多个连续拼接图像帧，其中，两两连续拼接图像帧之间存在重叠区域。

在操作S230，基于多个连续拼接图像帧进行文字识别，得到对应的多个识别结果。

在操作S240，基于多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对多个识别结果进行去重处理，得到针对文档的文字识别结果。

在操作S210中，在对文档连续扫描的过程中，对于输入的连续图像帧，可以按照预定帧速率(如40FPS、120FPS等)截取其中的一个个图像序列。

在本公开的一个实施例中，通过操作S210获得的两两相邻图像序列间即前后图像序列间可以存在预定数目的重复图像帧，以便在操作S220中，对通过操作S210获得的多个图像序列进行图像拼接时，可以使两两连续拼接图像帧之间存在重叠区域。应该理解，在操作S220中，对每个图像序列单独进行图像拼接，都可以得到一个对应的拼接图像帧。对多个连续的图像序列分别进行图像拼接，则可以得到对应的连续拼接图像帧。

在操作S230中，对于多个连续拼接图像帧中的每个依次单独进行文本识别，可以获得对应的多个前后相接的识别结果。

在本公开实施例中，由于两两连续拼接图像帧(即前后拼接图像帧)之间是存在重叠区域的，因而在操作S240，可以基于连续拼接图像帧中两两相邻拼接图像帧间的重叠区域，对由操作S230得到的多个识别结果进行去重、串联处理，从而最终得到针对目标文档的精准的文字识别结果。

示例性的，如图3所示，在对文档30进行连续扫描的过程中，可以获得包含大量文字片段的连续视频帧，按照一定的帧速率可以从该连续视频帧中依次截取出......，图像序列31、32、33，......。对图像序列31进行图像拼接可以获得拼接图像310；对图像序列32进行图像拼接可以获得拼接图像320；对图像序列33进行图像拼接可以获得拼接图像330；......。拼接图像310、拼接图像320、拼接图像330、......依次构成连续的拼接图像帧。其中，对拼接图像310进行OCR识别，可以获得字符串n，对拼接图像320进行OCR识别，可以获得字符串n+1，对拼接图像330进行OCR识别，可以获得字符串n+2。由于拼接图像310的后端与拼接图像320的前端存在重叠区域，拼接图像320的后端与拼接图像330的前端也存在重叠区域，因此字符串n和字符串n+1需要基于拼接图像310的后端与拼接图像320的前端存在的重叠区域进行去重处理。同理，字符串n+1和字符串n+2需要基于拼接图像320的后端与拼接图像330的前端存在的重叠区域进行去重处理。最后，将去重后的字符串按前后顺序串联即可得到精准的字符串。

示例性的，如图4所示，通过本公开实施例提供的文字识别方案，由图中左侧上下两个连续拼接图像帧，可以输出文本“略略发蓝的，折来很好插瓶”。

需要说明的是，在本公开的一个实施例中，可以控制每帧拼接图像的前端图像部分包含上一帧拼接图像的后端图像部分(如包含后端20-30cm宽的图像部分)。

此外，在本公开的一个实施例中，还可以进一步控制每帧拼接图像的分辨率宽度在500pixel以内。在这种情况下，OCR模块每次可以识别分辨率宽度在500pixel以内的拼接图像，因而可以提高文本识别速率，进一步提升实时性收益。并且，在本公开实施例中，OCR模块可以通过模型轻量化和系统级别的性能调整，实现和拼接并驾齐驱的识别速度。

通过本公开实施例，由于图像拼接和文本识别可以并行执行，因而可以获得实时性收益。同时由于前后拼接图像帧间存在重叠区域，因而可以对各拼接图像边缘残缺或断裂的文字进行补救，即可以通过重叠区域中的文字内容识别拼接图像边缘残缺或断裂的文字，由此可以提升文本识别效果。

作为一种可选的实施例，基于多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对多个识别结果进行去重处理，可以包括对于两两连续拼接图像帧，执行以下操作。

遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性。

基于两帧图像中标注的各单字的重叠字属性，对由两帧图像得到的两个识别结果进行去重处理。

示例性的，如图4所示，图中左侧上下两个图像为连续的拼接图像帧，且上面的一帧为前帧图像，下面的一帧为后帧图像，同时分别遍历这两帧图像中的各个单字，可以将前帧图像中后端的“折”字与后帧图像中前端的“折”字标注上对应的重叠字属性。这样，由前帧图像识别得到的字符串“略略发蓝的，折”和由后帧图像识别得到的字符串“折来很好插瓶”，在基于前述标注的重叠字属性进行字符串去重和串联拼接后可以输出字符串“略略发蓝的，折来很好插瓶”。该字符串即为最终的精准识别结果。

在本公开的一个实施例中，在进行全图字符串组合输出时，可以设定一个空字符串str，然后遍历前帧拼接图像中的每个单字wordi，在当前单字不具有重叠字属性的情况下，赋值str+＝wordi；在当前单字具有重叠字属性的情况下，判断前帧拼接图像中当前单字的单字置信度和后帧拼接图像中当前单字的单字置信度，取单字置信度高的字符，并赋值str+＝wordi。前帧拼接图像遍历结束后，从后帧拼接图像中不具备重叠字属性的单字开始累加str+＝wordi，最后得到一个去除重叠区域的字符串。

示例性的，如果前帧拼接图像识别得到的字符串为“略略发蓝的，折”，且后帧拼接图像识别得到的字符串为“斤来很好插瓶”，且字符串“略略发蓝的，折”中“折”的置信度为0.7，字符串“斤来很好插瓶”中“斤”的置信度为0.2，则在基于“折”和“斤”对应的重叠区域去重时，取“折”，而不取“斤”。

通过本公开实施例，对于任意连续的两帧拼接图像，可以标注前后帧拼接图像中的重叠字属性，并基于标注的重叠字进行去重处理，可以达到高效、精准提取文本信息的目的。

并且，在本公开实施例中，每帧的文本识别内容可以实时返回给上游模块，实现全图识别内容的实时返回，用于在翻译、检索、推荐、屏显等应用场景下提高用户体验。换言之，在本公开实施例中，图像拼接和OCR识别可以并行执行，每帧拼接图像的识别结果可以实时返回，由此可以输出当前扫描到的位置的完整字符串，保证产品实时性。

此外，在本公开实施例中，为了减少全图识别带来的耗时，可以对前面所有的拼接片段OCR识别结果进行了缓存，每两帧拼接图像的识别结果去除重叠区域内容后，可以把去重后的字符串进行串联，即得到全图识别内容，由此可以有效减少全图识别的性能损失。

通过本公开实施例，可以提升文本识别的准确率。

进一步，作为一种可选的实施例，基于两帧图像中标注的各单字的重叠字属性，对由两帧图像得到的两个识别结果进行去重处理，可以包括：对于两帧图像中具有相同重叠字属性的两个单字，在对两个识别结果进行去重处理过程中，保留两个单字中置信度高的单字识别结果。

通过本公开实施例，可以提升文本识别的准确率。

并且，在本公开实施例中，使前后两帧拼接图像间保留适当的重叠区域，可以有效减少因图像边缘文字断裂或者文字残缺等情况而导致某些文字无法识别的问题，保证文本识别的准确率。

作为一种可选的实施例，遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性，可以包括如下操作。

自后往前遍历前帧拼接图像中各单字，并自前往后遍历后帧拼接图像中各单字，以标注两帧图像中各单字的重叠字属性。

在本次遍历过程中，响应于针对前帧拼接图像遍历到首个不存在重叠字属性的单字，停止本次遍历。

应该理解，对于任意前后相邻的两帧拼接图像而言，前帧拼接图像的后端图像部分会与后帧拼接图像的前端图像部分存在重叠区域，两帧图像的其他部分则不会存在重叠区域。换言之，对于任意前后相邻的两帧拼接图像而言，重叠区域一定位于前帧图像的后段，和后帧图像的前段。

因此，采用本公开实施例的遍历方式，即，自后往前遍历前帧拼接图像中各单字，并自前往后遍历后帧拼接图像中各单字，以标注两帧图像中各单字的重叠字属性，且在本次遍历过程中，响应于针对前帧拼接图像遍历到首个不存在重叠字属性的单字，停止本次遍历，可以只遍历重叠可能出现的区域，因而可以在遍历时减少了一些计算量，进而提升OCR性能。

作为一种可选的实施例，遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性，可以包括：对于前帧拼接图像中已标注有重叠字属性的至少一个单字，在本次遍历过程中跳过至少一个单字，并继续遍历其他尚未标注重叠字属性的单字。

在本公开实施例中，还可以自前往后遍历前帧拼接图像中各单字，并自前往后遍历后帧拼接图像中各单字。在遍历过程中，遇到前帧拼接图像中已标注有重叠字属性的至少一个单字，在本次遍历过程中可以跳过至少一个单字，并继续遍历其他尚未标注重叠字属性的单字。

通过本公开实施例，可以跳过当前拼接图像帧中已确定与上一帧拼接图像中出现重叠的区域，只遍历当前拼接图像帧中可能与下一帧拼接图像出现重叠的区域，因而也可以在遍历时减少了一些计算量，进而提升OCR性能。

或者，作为一种可选的实施例，遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性，可以包括如下操作。

遍历前帧拼接图像中各单字，以确定当前遍历到的目标单字的位置信息。

基于单应矩阵和目标单字的位置信息，确定目标单字在后帧拼接图像中的预测位置信息。

遍历后帧拼接图像中各单字，以确定目标单字在后帧拼接图像中的真实位置信息。

响应于预测位置信息表征的区域和真实位置信息表征的区域是重叠区域，分别为前帧拼接图像和后帧拼接图像中的目标单字标注上对应的重叠字属性。

应该理解，将当前拼接图像帧中的目标单字的位置信息与对应的单应矩阵相乘，可以得到该位置信息在下一帧拼接图像帧中的预测位置信息。

进一步，对预测位置信息表征的区域和真实位置信息表征的区域求IoU(Intersection over Union，简称交并比)。应该理解，IoU实际计算的是“预测的单字边框”和“真实的单字边框”的交集和并集的比值。当IoU大于预设阈值时，认为预测位置信息表征的区域和真实位置信息表征的区域是重叠区域，前后两帧图像中这个区域内的单字可以标注对应的重叠字属性。按照上述操作，遍历结束后，可以得到每个单字的重叠字属性。

在本公开实施例中，OCR模块可以通过CTC(Connectionist TemporalClassification)算法对每个拼接图像帧进行解码。CTC算法用于对时序数据进行分类处理。

应该理解，通过上述的OCR模块，可以获得每个时刻文本行中每个字符的预测概率矩阵M。基于矩阵M，能够得到该文本行输出多少个时刻数N，通过解码过滤，可以获取每个字符在这个矩阵中占多少个时刻数Ni。根据网络结构可以近似得到每个时刻的宽度w。基于这些信息，可以推导单字的位置。其中，每个字符的左上点都是起始时刻数和每个时刻的宽度w的乘积，此宽度是指该字符所占时刻总数Ni和每个时刻的宽度w的乘积近似。最后，针对不同的字符属性，比如中文、英文、数字、标点等对坐标点进行调整。该调整通常是指基于一些经验阈值对左上点和宽度进行调整。单字的位置可以通过四点框表示。比如，左上点和宽度确定后，可以顺时针表示出单字的四点包围框。同时，每个时刻通过字符编码表可以映射得到预测字符输出和对应的单字置信度。至此，可以通过OCR识别得到每帧拼接图中各个单字的位置、单字内容和单字的置信度。

通过本公开实施例，基于单字位置和单应矩阵可以确定是否相邻前后帧拼接图像间存在重叠区域，进而可以确定各单字的重叠字属性，以利后续去重处理。

需要说明的是，本公开实施例中，仅仅涉及对坐标变量和字符串的简单操作，因而内存消耗少。

此外，本公开实施例中，去重模块的输入是每帧拼接图像通过OCR模块后得到的识别预测结果、以及表征本帧拼接图像与上一帧拼接图像之间的映射关系的单应矩阵H(该矩阵由图像拼接模块输出)。上述的识别预测结果包含文本行位置和文本解码信息输出。本方案中，去重模块可以用于执行单字信息提取、基于单字位置和单应矩阵的去重处理、全图字符串组合输出三个步骤。

此外，本公开实施例中，能够在高速相机捕捉大量文字片段的识别场景下，实现快速去除若干文字片段中的重叠文字信息，实现实时有效文字提取，满足智能硬件产品的实时上屏需求。

根据本公开的实施例，本公开还提供了一种文字识别装置。

图5示例性示出了根据本公开实施例的文字识别装置的框图。

如5图所示，文字识别装置500可以包括：

图像获取模块510，用于获取针对文档连续扫描得到的多个图像序列。

图像拼接模块520，用于基于上述多个图像序列进行图像拼接，得到对应的多个连续拼接图像帧，其中，两两连续拼接图像帧之间存在重叠区域。

初始识别模块530，用于基于上述多个连续拼接图像帧进行文字识别，得到对应的多个识别结果。

去重识别模板540，用于基于上述多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对上述多个识别结果进行去重处理，得到针对上述文档的文字识别结果。

作为一种可选的实施例，上述去重识别模板可以包括：属性标注单元，用于对于两两连续拼接图像帧，遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性；以及去重处理单元，用于基于上述两帧图像中标注的各单字的重叠字属性，对由上述两帧图像得到的两个识别结果进行去重处理。

作为一种可选的实施例，上述去重处理单元还用于：对于上述两帧图像中具有相同重叠字属性的两个单字，在对上述两个识别结果进行去重处理过程中，保留上述两个单字中置信度高的单字识别结果。

作为一种可选的实施例，上述属性标注单元还用于：自后往前遍历上述前帧拼接图像中各单字，并自前往后遍历上述后帧拼接图像中各单字，以标注两帧图像中各单字的重叠字属性；以及在本次遍历过程中，响应于针对上述前帧拼接图像遍历到首个不存在重叠字属性的单字，停止本次遍历。

作为一种可选的实施例，上述属性标注单元还用于：对于上述前帧拼接图像中已标注有重叠字属性的至少一个单字，在本次遍历过程中跳过上述至少一个单字，并继续遍历其他尚未标注重叠字属性的单字。

作为一种可选的实施例，上述属性标注单元还用于：遍历上述前帧拼接图像中各单字，以确定当前遍历到的目标单字的位置信息；基于单应矩阵和上述目标单字的位置信息，确定上述目标单字在上述后帧拼接图像中的预测位置信息；遍历上述后帧拼接图像中各单字，以确定上述目标单字在上述后帧拼接图像中的真实位置信息；以及响应于上述预测位置信息表征的区域和上述真实位置信息表征的区域是重叠区域，分别为上述前帧拼接图像和上述后帧拼接图像中的上述目标单字标注上对应的重叠字属性。

应该理解，本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似，所解决的技术问题和所达到的技术效果也对应相同或类似，本公开在此不再赘述。

根据本公开的实施例，本公开还提供了一种智能词典笔。该智能词典笔包括上述任一实施例中的文本识别装置，本公开在此不再赘述。

本公开实施例提供了一种针对连续视频帧文字片段识别场景的高效动态文本去重解决方案。可以适用于智能硬件产品或者移动端产品，能够为文本扫描识别的实时性提供相应的解决方案。同时能够对企业内部的智能硬件产品布局贡献技术路线，为企业生态布局提供可能。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如文字识别方法。例如，在一些实施例中，文字识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的文字识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文字识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本公开的技术方案中，所涉及的图像数据的记录，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文字识别方法，包括：

获取针对文档连续扫描得到的多个图像序列；

对每个图像序列进行图像拼接，得到对应的拼接图像，根据多个图像序列各自的拼接图像，得到对应的多个连续拼接图像帧，其中，两两连续拼接图像帧之间存在重叠区域；

基于所述多个连续拼接图像帧分别进行文字识别，得到对应的多个识别结果；以及

基于所述多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对所述多个识别结果进行去重处理，得到针对所述文档的文字识别结果；

其中，所述两两连续拼接图像帧包括前帧拼接图像和后帧拼接图像；所述得到针对所述文档的文字识别结果包括：

遍历前帧拼接图像中各单字，以确定当前遍历到的目标单字的位置信息；

基于单应矩阵和所述目标单字的位置信息，确定所述目标单字在所述后帧拼接图像中的预测位置信息，其中，所述单应矩阵表征所述前帧拼接图像与后帧拼接图像之间的映射关系，所述预测位置信息包括预测的单字边框；

遍历所述后帧拼接图像中各单字，以确定所述目标单字在所述后帧拼接图像中的真实位置信息，所述真实位置信息包括真实的单字边框；

响应于所述预测的单字边框和所述真实的单字边框之间的交并比IoU大于预设阈值，确定所述预测位置信息表征的区域和真实位置信息表征的区域是重叠区域；

分别为所述重叠区域中的所述前帧拼接图像的目标单字和重叠区域中的所述后帧拼接图像中的目标单字标注上对应的重叠字属性；

基于前后两帧拼接图像中标注的各单字的重叠字属性，对由所述前后两帧拼接图像得到的两个识别结果进行去重处理。

2.根据权利要求1所述的方法，还包括：对于两两连续的拼接图像，遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性。

3.根据权利要求2所述的方法，其中，基于前后两帧拼接图像中标注的各单字的重叠字属性，对由所述前后两帧拼接图像得到的两个识别结果进行去重处理包括：

对于所述两帧图像中具有相同重叠字属性的两个单字，在对所述两个识别结果进行去重处理过程中，保留所述两个单字中置信度高的单字识别结果。

4. 根据权利要求2或3所述的方法，其中，遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性，包括：

自后往前遍历所述前帧拼接图像中各单字，并自前往后遍历所述后帧拼接图像中各单字，以标注两帧图像中各单字的重叠字属性；以及

在本次遍历过程中，响应于针对所述前帧拼接图像遍历到首个不存在重叠字属性的单字，停止本次遍历。

5.根据权利要求2或3所述的方法，其中，遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性，包括：

对于所述前帧拼接图像中已标注有重叠字属性的至少一个单字，在本次遍历过程中跳过所述至少一个单字，并继续遍历其他尚未标注重叠字属性的单字。

6.一种文字识别装置，包括：

图像获取模块，用于获取针对文档连续扫描得到的多个图像序列；

图像拼接模块，用于对每个图像序列进行图像拼接，得到对应的拼接图像，根据多个图像序列各自的拼接图像，得到对应的多个连续拼接图像帧，其中，两两连续拼接图像帧之间存在重叠区域；

初始识别模块，用于基于所述多个连续拼接图像帧分别进行文字识别，得到对应的多个识别结果；以及

去重识别模块，用于基于所述多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域，对所述多个识别结果进行去重处理，得到针对所述文档的文字识别结果；

其中，所述两两连续拼接图像帧包括前帧拼接图像和后帧拼接图像；

所述去重识别模块，还用于遍历前帧拼接图像中各单字，以确定当前遍历到的目标单字的位置信息；基于单应矩阵和所述目标单字的位置信息，确定所述目标单字在所述后帧拼接图像中的预测位置信息，其中，所述单应矩阵表征所述前帧拼接图像与后帧拼接图像之间的映射关系，所述预测位置信息包括预测的单字边框；遍历所述后帧拼接图像中各单字，以确定所述目标单字在所述后帧拼接图像中的真实位置信息，所述真实位置信息包括真实的单字边框；响应于所述预测的单字边框和所述真实的单字边框之间的交并比IoU大于预设阈值，确定所述预测位置信息表征的区域和真实位置信息表征的区域是重叠区域；分别为所述重叠区域中的所述前帧拼接图像的目标单字和重叠区域中的所述后帧拼接图像中的目标单字标注上对应的重叠字属性；基于前后两帧拼接图像中标注的各单字的重叠字属性，对由所述前后两帧拼接图像得到的两个识别结果进行去重处理。

7.根据权利要求6所述的装置，其中，所述去重识别模块，包括：

属性标注单元，用于对于两两连续的拼接图像，遍历前帧拼接图像中各单字以及后帧拼接图像中各单字，并标注两帧图像中各单字的重叠字属性。

8.根据权利要求7所述的装置，其中，所述去重处理单元还用于：

9. 根据权利要求7或8所述的装置，其中，所述属性标注单元还用于：

10.根据权利要求7或8所述的装置，其中，所述属性标注单元还用于：

11. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。

13.一种智能词典笔，包括：权利要求6-10中任一项所述的装置。