CN113313111B

CN113313111B - 文本识别方法、装置、设备和介质

Info

Publication number: CN113313111B
Application number: CN202110594748.9A
Authority: CN
Inventors: 王晓燕; 吕鹏原; 张文明; 常丽君; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2024-02-13
Anticipated expiration: 2041-05-28
Also published as: CN113313111A

Abstract

本公开提供了一种文本识别方法、装置、设备和介质，涉及人工智能领域，具体涉及计算机视觉和深度学习技术，可应用于OCR场景下。该文本识别方法包括：获取待检测图像；将待检测图像输入训练好的文本检测网络模型，获取文本检测网络模型输出的一个或多个检测框，一个或多个检测框中的每一个检测框包围待检测图像中符合预设规则的目标文本；以及对待检测图像中的位于一个或多个检测框内的目标文本进行识别。

Description

文本识别方法、装置、设备和介质

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉和深度学习技术，可应用于OCR场景下，特别涉及一种文本识别方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

随着互联网的普及，网络购物的优点更加突出，日益成为一种重要的购物形式。与此同时，快递逐渐成为一种主流的货物运输方式，成为供应链末端的重要环节。在面对日益增长的快递需求，平均每个快递员每日派送成数百件快递，并通过手动录入的方式，将快递运单号、收件人电话号码、收件人姓名等信息录入到物流公司内部的信息管理系统中，实时更新物流状态，为用户提供及时、可靠的物流服务。而由于信息数量多、信息繁杂，快递员人工录入的方式需要耗费大量的人力成本和时间成本，并且很容易发生录入错误，严重影响物流服务的质量，甚至引起用户的投诉。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种文本识别方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种文本识别方法，包括：获取待检测图像；将待检测图像输入训练好的文本检测网络模型，获取文本检测网络模型输出的一个或多个检测框，一个或多个检测框中的每一个检测框包围待检测图像中符合预设规则的目标文本；以及对待检测图像中的位于一个或多个检测框内的目标文本进行识别。

根据本公开的另一方面，提供了一种文本检测网络模型的训练方法，包括：获取样本图像，并在样本图像中标记包围符合预设规则的目标文本的真实边界框；将样本图像输入文本检测网络模型，获取文本检测网络模型输出的一个或多个预测边界框；基于真实边界框和预测边界框，计算损失值；以及基于损失值，调整文本检测网络模型的参数。

根据本公开的另一方面，提供了一种文本识别装置，包括：获取单元，被配置用于获取待检测图像；检测单元，被配置用于将待检测图像输入训练好的文本检测网络模型，获取文本检测网络模型输出的一个或多个检测框，一个或多个检测框中的每一个检测框包围待检测图像中符合预设规则的目标文本；以及识别单元，被配置用于对待检测图像中的位于一个或多个检测框内的目标文本进行识别。

根据本公开的另一方面，文本检测网络模型的训练装置，包括：获取单元，被配置用于获取样本图像，并在样本图像中标记包围符合预设规则的目标文本的真实边界框；检测单元，被配置用于将样本图像输入文本检测网络模型，获取文本检测网络模型输出的一个或多个预测边界框；计算单元，被配置用于基于真实边界框和预测边界框，计算损失值；以及调参单元，被配置用于基于损失值，调整文本检测网络模型的参数。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，这些指令被至少一个处理器执行，以使至少一个处理器能够执行上述文本识别方法或文本检测网络模型的训练方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述文本识别方法或文本检测网络模型的训练方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现上述文本识别方法或文本检测网络模型的训练方法。

根据本公开的一个或多个实施例，通过使用训练好的对符合预设规则的目标文本进行检测的文本检测网络模型，能够得到在待检测图像中包围符合预设规则的相应目标文本的一个或多个检测框，进而再对这些检测框内的目标文本进行识别，提取出待检测图像中的关键信息。由此，通过使用上述方法，能够实现对待检测图像中的目标文本的自动化检测与识别，减少甚至消除了在文本信息提取过程中对人工的需求与依赖，并且能够显著降低对计算资源的消耗，提升了处理效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开示例性实施例的文本识别方法的流程图；

图2示出了根据本公开示例性实施例的获取待检测图像的流程图；

图3示出了根据本公开示例性实施例的包括快递运单整体的待检测图像的示意图；

图4示出了根据本公开示例性实施例的包括快递运单局部的待检测图像的示意图；

图5示出了根据本公开示例性实施例的文本识别方法的流程图；

图6示出了根据本公开示例性实施例的在待检测图像的外围填充像素的示意图；

图7示出了根据本公开示例性实施例的文本检测网络模型的训练方法的流程图；

图8示出了根据本公开示例性实施例的获取样本图像的流程图；

图9示出了根据本公开示例性实施例的文本检测网络模型的训练方法的流程图；

图10示出了根据本公开示例性实施例的文本识别装置的结构框图；

图11示出了根据本公开示例性实施例的文本检测网络模型的训练装置的结构框图；以及

图12示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

相关技术中，使用人工录入方式以获取快递运单的快递单号、收件人电话号码、寄件人电话号码等信息时，需要快递员手动录入大量繁杂的信息，消耗大量的人力成本和时间成本，并且很容易发生录入错误。而使用通用文本识别方法对快递运单的整体图像或局部图像进行文本识别时，需要在识别结果中提取出关键字段，而由于不同快递公司的版式存在差别，因此很容易发生位置错位导致录入信息失败，后期需要引入人力进行更正。此外，通用文本识别方法通常会消耗大量的计算资源，效率低下。

为解决上述问题，通过使用训练好的对符合预设规则的目标文本进行检测的文本检测网络模型，能够得到在待检测图像中包围符合预设规则的相应目标文本的一个或多个检测框，进而再对这些检测框内的目标文本进行识别，提取出待检测图像中的关键信息。由此，通过使用上述方法，能够实现对待检测图像中的目标文本的自动化检测与识别，减少甚至消除了在文本信息提取过程中对人工的需求与依赖，并且能够显著降低对计算资源的消耗，提升了处理效率。

下面将结合附图详细描述本公开的实施例。

根据本公开的一方面，提供了一种文本识别方法。如图1所示，文本识别方法可以包括：步骤S101、获取待检测图像；步骤S102、将待检测图像输入训练好的文本检测网络模型，获取文本检测网络模型输出的一个或多个检测框，其中，一个或多个检测框中的每一个检测框包围待检测图像中符合预设规则的目标文本；以及步骤S103、对待检测图像中的位于一个或多个检测框内的目标文本进行识别。由此，通过使用训练好的对符合预设规则的目标文本进行检测的文本检测网络模型，能够得到在待检测图像中包围符合预设规则的相应目标文本的一个或多个检测框，进而再对这些检测框内的目标文本进行识别，提取出待检测图像中的关键信息。由此，通过使用上述方法，能够实现对待检测图像中的目标文本的自动化检测与识别，减少甚至消除了在文本信息提取过程中对人工的需求与依赖，并且能够显著降低对计算资源的消耗，提升了处理效率。

根据一些实施例，如图2所示，步骤S101、获取待检测图像可以包括：步骤S1011、获取包括待检测对象的初始图像；步骤S1012、对初始图像进行目标检测，以得到在初始图像中包围待检测对象的边框；以及步骤S1013、基于边框，对初始图像进行预处理，以得到与待检测对象相关联的待检测图像。

根据一些实施例，初始图像中的待检测对象例如可以为快递运单。快递运单的拍摄场景复杂，运单的形式也多种多样。初始图像中可能包括运单的整体或仅包括局部，并且很可能存在倾斜、破损、涂抹、光照不均匀等情况。因此，直接对初始图像进行文字检测与识别的精度较低。由此，通过先在初始图像中检测快递运单的外边界框，或内部的包围收件人信息、寄件人信息等关键信息的局部的边框，并根据边框对初始图像进行预处理，从而能够得到处理后的更容易进行文本检测与识别的待检测图像，进而提升后续对目标文本进行检测和识别的准确率。可以理解的，本公开实施例中的待检测图像不限于为快递运单，可以为包括文本的任何类型的对象，例如，证件、读物封面或背面、发票等等。

示例性地，可以根据通过例如基于EAST算法的边框检测模型而得到的边框对初始图像进行裁剪，以得到冗余信息更少的包括待检测对象的图像，再对裁剪后的图像进行仿射变换，将快递运单区域变换到接近满画幅的中间区域，以得到待检测图像。可以理解的是，还可以对初始图像进行灰度化、二值化、图像增强等其他预处理，在此不做限定。

根据一些实施例，待检测图像可以包括待检测对象，待检测对象例如可以为快递运单的整体或局部。如图3和图4所示，图3示出了包括快递运单300整体的待检测图像3000，图4示出了包括快递运单400局部的待检测图像4000。在一些示例性实施例中，目标文本例如可以包括快递运单的运单号、收件人电话号码、寄件人电话号码或上述三项的任意组合。图3中的待检测对象即快递运单300中包括三个目标文本301-303。其中，目标文本301为运单号、目标文本302为收件人电话号码，目标文本303为寄件人电话号码。图4中的待检测对象(相当于快递运单400在待检测图像4000中所示出的部分)中仅包括一个目标文本401，为收件人电话号码。

相应地，在这些实施例中，符合预设规则的目标文本例如可以是只包含数字的字符串，也可以是包含数字和少量特定英文字符的字符串，还可以是包含数字、英文字符和部分特殊符号(例如，短横线、斜杠、下划线等)的字符串，在此不做限定。通过使用上述方法，能够实现对快递运单图像中的运单号、收件人电话号码和寄件人电话号码等最核心的关键信息字段的快速识别。

根据一些实施例，预设规则可以包括以下多个中的至少一个：包围目标文本的检测框的长度位于预设区间内；目标文本所包括的每一个字符的尺寸位于预设范围内；以及目标文本与待检测图像中的预设对象之间的相对位置关系符合预设条件。由此，目标检测网络模型只检测符合预设规则的目标文本，从而避免了检测乃至识别不需要的信息。

下面以快速运单为例来说明如何基于预设规则来筛选得到目标文本。

在一个示例性实施例中，如图3所示，快递运单300中还包括字符数量少于目标文本301-303的收件人门牌号307。虽然门牌号同样由数字、字母和特殊符号等字符构成，但由于收件人门牌号并非需要识别和提取的信息，因此在文本检测网络模型的训练阶段可以使用包围目标文本的长度位于预设区间内的真实检测框作为训练样本，使得文本检测网络模型在预测阶段输出的检测框的长度位于预设区间内，从而将门牌号等其他文本排除在目标文本之外，避免其在预测阶段被文本检测网络模型检测为目标文本。

在一个示例性实施例中，如图3所示，快递运单300中还包括字符尺寸远大于目标文本301-303的字符尺寸的快递分拣三段码304。虽然快递分拣三段码同样由数字、字母和特殊符号等字符构成，但由于快递分拣三段码并非需要识别和提取的信息，因此在文本检测网络模型的训练阶段可以使用字符尺寸位于预设范围内的目标文本作为训练样本，使得文本检测网络模型在预测阶段输出的检测框所包围的目标文本中的每一个字符的尺寸位于预设范围内，从而将快递分拣三段码等其他文本排除在目标文本之外，避免其在预测阶段被文本检测网络模型检测为目标文本。

在一个示例性实施例中，如图3所示，快递运单300中还包括与条形码305、收件人地址信息和寄件人地址信息等预设对象的相对位置均较远的快递运单打印时间308。虽然快递运单打印时间同样由数字、字母和特殊符号等字符构成，但由于快递运单打印时间并非需要识别和提取的信息，因此在文本检测网络模型的训练阶段可以使用与预设对象之间的相对位置关系符合预设条件的目标文本(例如，位于条形码305下方并与条形码305相邻的运单号301，位于收件人地址上方并与收件人地址相邻的收件人电话号码302，以及位于寄件人地址上方并与寄件人地址相邻的寄件人电话号码303)作为训练样本，使得文本检测网络模型在预测阶段输出的检测框所包围的目标文本与预设对象之间的相对位置关系均符合预设条件，从而将快递运单打印时间等其他文本排除在目标文本之外，避免其在预测阶段被文本检测网络模型检测为目标文本。

可以理解的是，以上仅为几种示例性的预设规则，本领域技术人员可以根据需求更自由地设置预设规则，以使得目标检测网络模型只检测符合预设规则的目标文本，在此不做限定。

根据一些实施例，例如可以通过字符宽度与待检测图像的宽度的比例来设置字符尺寸的预设范围，也可以通过字符的面积与待检测图像的面积的比例来设置字符尺寸的预设范围，还可以通过其他方式进行设置，在此不做现定。

根据一些实施例，如图4所示，快递运单的局部图像的宽边仅占快递运单外边框的宽边的一部分，使得快递运单的局部图像和快递运单的整体图像的缩放比例差别较大，二者各自的目标文本的字符尺寸与画幅的比例也有明显差别。因此，可以对快递运单局部图像的外围填充像素，以降低其缩放比例至与快递运单的整体图像的缩放比例相近或相同。

根据一些实施例，如图5所示，文本识别方法还可以包括：步骤S502、在将待检测图像输入训练好的文本检测网络模型之前，响应于确定待检测图像的尺寸不满足预设标准，在待检测图像的外围填充像素值为预设值的多个像素。图5中的步骤S501、步骤S503-步骤S504分别与图1中的步骤S101-步骤S103类似，在此不做赘述。由此，通过在输入神经网络前，先对不满足预设标准的待检测图像(例如，快递运单的局部的图像)进行填充，从而使得快递运单局部的图像在填充后与快递运单整体的图像的缩放比例相近或相同，进而使得不同的待检测图像中的目标文本所包括的字符在由同一个文本检测网络模型处理时的感受野大小相同，提升了模型的检测精度。此外，使用上述方法避免了使用多个文本检测网络模型以分别处理快递运单整体图像和快递运单局部图像，从而降低了计算量。

根据一些实施例，预设标准可以包括待检测图像的宽高比小于预设阈值。在一些实施例中，如图3和图4所示，通常运单整体的高度大于宽度，或与宽度相仿，而运单局部图像的宽度大于高度。由此，通过为宽高比设置预设阈值，能够判断待检测图像属于运单整体图像或运单局部图像。示例性地，预设阈值例如可以为2:1、3:1、4:1或其他比例，在此不做限制。

根据一些实施例，在待检测图像的外围填充像素值为预设值的多个像素可以包括：确定填充后的图像的宽度和高度；以及基于所确定的宽度和高度，在待检测图像的外围填充像素值为预设值的多个像素。

根据一些实施例，可以基于待检测图像的宽度和高度，以固定比例设置填充后图像的宽度和高度。示例性地，可以将待检测图像的宽度和高度各扩展一倍，并相应进行像素填充。根据另一些实施例，也可以基于待检测图像的宽高比，动态地设置填充后图像的宽度和高度。示例性地，针对宽高比较高的待检测图像，可以推断其宽度与运单的原始宽度更接近，因此可以相应减少其在宽度上的填充幅度；而针对宽高比较低的待检测图像，可以推断其宽度与运单的原始宽度相比更窄，因此可以相应增加其在宽度上的填充幅度。此外，针对填充后图像的高度的设置，还可以考虑文本检测网络模型所允许的输入图像尺寸和比例。可以理解的是，本领域技术人员可以以更自由、更丰富的方式对填充后的图像的宽度、高度、尺寸、宽高比等进行设置，以提升文本检测网络模型的检测精度，在此不做限定。

根据一些实施例，待检测图像的外围例如可以是在待检测图像的某一个方向(例如，待检测图像的右方或下方)，也可以是待检测图像的某两个方向(例如，待检测图像的右方和下方)，还可以是待检测图像的四周，或者其他的不同于待检测图像内部的位置，在此不做限定。示例性地，如图6所示，待检测图像601的宽度为W，高度为H。可以在待检测图像601的右方和下方各扩展一倍并进行填充，即填充后的待检测图像602的宽度为2W，高度为2H。

根据一些实施例，可以为填充的像素设置预设的像素值。示例性地，预设值可以为与黑色相对应的像素值、也可以为与白色相对应的像素值、还可以为基于待检测图像中部分或全部像素的像素值所确定的预设值，在此不做限定。

根据一些实施例，在将待检测图像输入文本检测网络之前，还可以对待检测图像进行进一步预处理，例如可以对待检测图像进行尺寸调整，以满足文本检测网络模型的输入要求。示例性地，可以将待检测图像进行缩放，使其宽度等于512，再将其高度拉伸或裁剪为32的倍数。可以理解的是，本领以技术人员可以根据神经网络的输入要求适应性调整待检测图像的尺寸，也可以进一步对待检测图像进行填充、图像增强等操作，以提高文本检测的准确率，在此不做限定。

根据一些实施例，文本检测网络模型例如可以使用现有的如Fast-RCNN、YOLO、SSD等目标检测网络模型，也可以是自行搭建的神经网络，在此不做限定。

根据一些实施例，在得到待检测图像中的一个或多个检测框后，可以对这些检测框中的目标文本进行识别。由于目标文本均符合预设规则，因此可以针对相应的预设规则设计文本识别神经网络。示例性地，在目标文本只包括由数字、少量特定字母和部分特殊符号所组成的字符串的情况下，可以使用只包括相应的字符的字符串的图像作为训练样本对神经网络进行训练；而在神经网络的结构上，由于识别任务相对简单，因此可以设计浅层识别神经网络。在一些示例性实施例中，可以选择轻量化的MobileNet作为执行文本识别任务的神经网络，也可以在MobileNet的基础上删除部分层，还可以自行设计神经网络，在此不做限制。

根据一些实施例，还可以在对目标文本进行识别前对其进行预处理。示例性地，可以对待检测图像中的检测框进行裁剪、仿射变换、图像增强等预处理，以得到矫正并增强后的目标文本，进而再对其进行文本识别，从而进一步提升文本识别的精度。

根据一些实施例，在对目标文本进行识别后，可以根据识别后的目标文本的位置、字符数量或数字位数等信息判断该目标文本的类型。在一个示例性实施例中，在待检测图像中检测并识别出了两个11位数字的目标文本和一个12位数字的目标文本，则靠近上方的11位数字可以视为收件人电话号码，靠近下方的11为数字可以视为寄件人电话号码，12位数字可以视为运单号。在另一个示例性实施例中，在待检测图像中仅检测并识别出了一个11位数字的目标文本，则可以将其视为收件人电话号码。可以理解的是，可以根据场景的不同，以不同的方式对目标文本的识别结果进行分析和关键信息提取，在此不做限定。

根据一些实施例，在对目标文本进行识别后，还可以根据识别后的结果进行纠错处理。在一个示例性实施例中，针对每一检测框，可以根据识别所得到的目标文本所包括的字符数量，确定该目标文本为真实目标文本或冗余目标文本。仍以快递运单为例，在某一检测框内的目标文本所包括的字符数量少于预设数量(例如8)的情况下，则可以确定该目标文本不是电话号码或运单号，为冗余目标文本，从而将该冗余目标文本的识别结果舍弃。而在另一检测框内的目标文本所包括的字符数量不少于预设数量(例如8)的情况下，则可以确定该目标文本是电话号码或运单号，为真实目标文本。需要说明的是，上述仅是举例来说明如何进行识别结果的纠错，并不限定只能采用上述方法来进行识别结果的纠错，例如，针对每一检测框，也可以根据识别所得到的目标文本的格式，确定该目标文本为真实目标文本或冗余目标文本，例如，对于某一检测框，如果识别所得到的目标文本的格式为20XX-XX-XX，则可以该目标文本为不是电话号码或运单号，为冗余目标文本，从而将该冗余目标文本的识别结果舍弃。可以理解的是，本领域技术人员可以以更丰富的方式设置纠错规则，从而提高本公开的文本识别方法的鲁棒性。

根据一些实施例，预设对象还可以包括条形码。如图5所示，文本识别方法还可以包括：步骤S505、对条形码进行识别，得到条形码所包括的相关信息；以及步骤S506、基于目标文本的识别结果和相关信息，确定待检测图像的识别结果。示例性地，如图3所示，快递运单300还包括两个条形码305、306，其中，条形码305为一维条形码，条形码306为二维条形码(即，二维码)。

如前所述，快递运单图像很可能出现倾斜、破损、涂抹、光照不均匀等情况，并且用户可能希望部分个人信息不直接出现在快递运单中。考虑到条形码具有鲁棒性、隐私性等特点，部分快递运单中增加了条形码作为信息载体的补充甚至替代。由此，通过对待检测图像中的条形码进行识别，能够进一步的提升对快递运单的关键信息进行识别和提取的效率。此外，条形码识别到的相关信息能够与文本检测和识别结果进行交叉校验，或使用两种方式协同以更好的提取运单中的相关信息。

根据一些实施例，快递运单中的条形码例如可以为一维条形码，也可以为二维条形码，还可以为其他能够实现数据存储和快速解码的信息载体，在此不做限制。示例性地，可以采用zxing算法对条形码进行解码，以得到条形码中所包括的相关信息。

可以理解的是，步骤S505与步骤S502-步骤S504之间并无严格先后关系，例如可以先执行步骤S502-步骤S504以得到文本识别结果，再执行步骤S505以识别条形码所包括的相关信息；也可以先执行步骤S505再执行步骤S502-步骤S504，在此不做限制。

根据本公开的另一方面，还提供了一种文本检测网络模型的训练方法。如图7所示，训练方法可以包括：步骤S701、获取样本图像，并在样本图像中标记包围符合预设规则的目标文本的真实边界框；步骤S702、将样本图像输入文本检测网络模型，获取文本检测网络模型输出的一个或多个预测边界框；步骤S703、基于真实边界框和预测边界框，计算损失值；以及步骤S704、基于损失值，调整文本检测网络模型的参数。由此，通过使用标注包围符合预设规则的目标文本的样本图像对文本检测网络模型进行训练，使得目标检测网络模型在预测时可以仅检测出待检测图像中符合预设规则的目标文本对应的区域，而不是全部包含文本的区域，实现了对待检测图像中的目标文本的自动化检测与识别，同时降低了文本检测网络模型进行文本检测时所需的计算资源，大幅提升了模型的处理速度和性能。

根据一些实施例，如图8所示，步骤S701、获取样本图像可以包括：步骤S7011、获取包括样本对象的初始图像；步骤S7012、对初始图像进行目标检测，以得到包围样本对象的边框；以及步骤S7013、基于边框，对初始图像进行预处理，以得到与样本对象相关联的样本图像。

根据一些实施例，初始图像中的样本对象例如可以为快递运单。快递运单的拍摄场景复杂，运单的形式也多种多样。初始图像中可能包括运单的整体或仅包括局部，并且很可能存在倾斜、破损、涂抹、光照不均匀等情况。因此，直接使用初始图像对文本检测网络模型进行训练可能会导致模型的文字检测与识别的精度较低。由此，通过先在初始图像中检测快递运单的外边界框或内部的包围收件人信息、寄件人信息等关键信息的局部的边框，并根据边框对初始图像进行预处理，从而能够得到处理后的样本图像，进而提升对模型的训练效果。

示例性地，可以根据通过例如基于EAST算法的边框检测模型而得到的边框对初始图像进行裁剪，以得到冗余信息更少的包括样本对象的图像，再对裁剪后的图像进行仿射变换，将快递运单区域变换到接近满画幅的中间区域，以得到样本图像。可以理解的是，还可以对初始图像进行灰度化、二值化、图像增强等其他预处理，在此不做限定。

根据一些实施例，样本图像可以包括样本对象，样本对象例如可以为快递运单的整体或局部。在一些示例性实施例中，目标文本例如可以包括快递运单的运单号、收件人电话号码、寄件人电话号码或上述三项的任意组合。

相应地，在这些实施例中，符合预设规则的目标文本例如可以是只包含数字的字符串，也可以是包含数字和少量特定英文字符的字符串，还可以是包含数字、英文字符和部分特殊符号(例如，短横线、斜杠、下划线等)的字符串，在此不做限定。预设规则也可以对字符串的长度进行一定程度的限制，从而避免训练好的文本检测网络模型对其他非关键字段(例如，地址中的门牌号等)进行检测。由此，通过使用上述训练方法，能够使训练好的文本检测网络模型实现对快递运单图像中的运单号、收件人电话号码和寄件人电话号码等最核心的关键信息字段的快速识别。

根据一些实施例，预设规则可以包括以下多个中的至少一个：包围目标文本的检测框的长度可以位于预设区间内；目标文本所包括的每一个字符的尺寸可以位于预设范围内；以及目标文本与待检测图像中的预设对象之间的相对位置关系可以符合预设条件。由此，使用只标注字符尺寸位于预设范围内的目标文本的样本图像训练目标检测网络模型，使得模型只检测符合预设规则的目标文本，从而避免了检测乃至识别不需要的信息。

根据一些实施例，例如可以通过字符宽度与样本图像的宽度的比例来设置字符尺寸的预设范围，也可以通过字符的面积与样本图像的面积的比例来设置字符尺寸的预设范围，还可以通过其他方式进行设置，在此不做现定。

根据一些实施例，快递运单的局部图像的宽边仅占快递运单外边框的宽边的一部分，使得快递运单的局部图像和快递运单的整体图像的缩放比例差别较大，二者各自的目标文本的字符尺寸与画幅的比例也有明显差别。因此，可以对快递运单局部图像的外围填充像素，以降低其缩放比例至与快递运单的整体图像相近或相同。

根据一些实施例，如图9所示，训练方法还可以包括：步骤S902、在将样本图像输入文本检测网络模型之前，响应于确定样本图像的尺寸不满足预设标准，在样本图像的外围填充像素值为预设值的多个像素。图9中的步骤S901、步骤S903-步骤S905分别与图7中的步骤S701-步骤S704类似，在此不做赘述。由此，通过对训练样本中的对不满足预设标准的样本图像(例如，快递运单的局部的图像)进行填充，从而使得快递运单局部的图像在填充后与快递运单整体的图像的缩放比例相近或相同，进而使得不同的样本图像中的目标文本所包括的字符在由同一个文本检测网络模型处理时的感受野大小相同，提升了由这些样本图像训练的模型的检测精度。

根据一些实施例，预设标准可以包括样本图像的宽高比小于预设阈值。由此，通过为宽高比设置预设阈值，能够判断样本图像属于运单整体图像或运单局部图像。示例性地，预设阈值例如可以为2:1、3:1、4:1或其他比例，在此不做限制。

根据一些实施例，在样本图像的外围填充像素值为预设值的多个像素可以包括：确定填充后的图像的宽度和高度；以及基于所确定的宽度和高度，在样本图像的外围填充像素值为预设值的多个像素。

根据一些实施例，可以基于样本图像的宽度和高度，以固定比例设置填充后图像的宽度和高度。示例性地，可以将样本图像的宽度和高度各扩展一倍，并相应进行像素填充。根据另一些实施例，也可以基于样本图像的宽高比，动态地设置填充后图像的宽度和高度。示例性地，针对宽高比较高的样本图像，可以假设其宽度与运单的原始宽度更接近，因此可以相应减少其在宽度上的填充幅度；而针对宽高比较低的样本图像，可以假设其宽度与运单的原始宽度相比更窄，因此可以相应增加其在宽度上的填充幅度。此外，针对填充后图像的高度的设置，还可以考虑文本检测网络模型所允许的输入图像尺寸和比例。可以理解的是，本领域技术人员还可以以更自由、更丰富的方式对填充后的图像的宽度、高度、尺寸、宽高比等进行设置，以提升使用这项样本图像进行训练后的文本检测网络模型的检测精度，在此不做限定。

根据一些实施例，样本图像的外围例如可以是在样本图像的某一个方向(例如，样本图像的右方或下方)，也可以是样本图像的某两个方向(例如，样本图像的右方和下方)，还可以是样本图像的四周，或者其他的不同于样本图像内部的位置，在此不做限定。

根据一些实施例，可以为填充的像素设置预设的像素值。示例性地，预设值可以为与黑色相对应的像素值、也可以为与白色相对应的像素值、还可以为基于样本图像中部分或全部像素的像素值所确定的预设值，在此不做限定。

根据一些实施例，在使用样本图像训练文本检测网络之前，还可以对原本图像进行进一步预处理，例如可以对样本图像进行尺寸调整，以满足文本检测网络模型的输入要求。示例性地，可以将样本图像进行缩放，使其宽度等于512，再将其高度拉伸或裁剪为32的倍数。可以理解的是，本领以技术人员可以根据神经网络的输入要求适应性调整样本图像的尺寸，也可以进一步对样本图像进行填充、图像增强等操作，以提高使用这些样本图像训练的文本检测网络模型的准确率，在此不做限定。

根据一些实施例，文本检测网络模型例如可以使用现有的如Fast-RCNN、YOLO、SSD等目标检测网络模型，也可以是自行搭建的神经网络，在此不做限定。在一些实施例中，可以使用上述样本图像对预训练后的具有一定文本检测能力的神经网络模型进行微调，从而能够得到仅关注符合预设规则的目标文本的文本检测网络模型。

根据一些实施例，例如可以基于真实边界框和预测边界框的交并比计算损失值，也可以基于真实边界框和预测边界框的中心距离计算损失值，还可以通过其他方式计算损失值，以调整文本检测网络模型的参数，在此不做限定。

根据本公开的另一方面，还提供了一种文本识别装置1000。如图10所示，文本识别装置1000包括：获取单元1001，被配置用于获取待检测图像；检测单元1002，被配置用于将待检测图像输入训练好的文本检测网络模型，获取文本检测网络模型输出的一个或多个检测框，其中，一个或多个检测框中的每一个检测框包围待检测图像中符合预设规则的目标文本；以及识别单元1003，被配置用于对待检测图像中的位于一个或多个检测框内的目标文本进行识别。

文本识别装置1000的单元1001至单元1003的操作和前面描述的步骤S101至步骤S103的操作类似，在此不做赘述。

根据本公开的另一方面，还提供了一种文本检测网络模型的训练装置1100。如图11所示，训练装置1100包括：获取单元1101，被配置用于获取样本图像，并在样本图像中标记包围符合预设规则的目标文本的真实边界框；检测单元1102，被配置用于将样本图像输入文本检测网络模型，获取文本检测网络模型输出的一个或多个预测边界框；计算单元1103，被配置用于基于真实边界框和预测边界框，计算损失值；以及调参单元1104，被配置用于基于损失值，调整文本检测网络模型的参数。

训练装置1100的单元1101至单元1104的操作和前面描述的步骤S701至步骤S703的操作类似，在此不做赘述。

根据本公开的实施例，还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

参考图12，现将描述可以作为本公开的服务器或客户端的电子设备1200的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206、输出单元1207、存储单元1208以及通信单元1209。输入单元1206可以是能向设备1200输入信息的任何类型的设备，输入单元1206可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元1207可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1208可以包括但不限于磁盘、光盘。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如文本识别方法和文本检测网络模型的训练方法。例如，在一些实施例中，文本识别方法和文本检测网络模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM1203并由计算单元1201执行时，可以执行上文描述的文本识别方法和文本检测网络模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别方法和文本检测网络模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种文本识别方法，包括：

获取待检测图像；

响应于确定所述待检测图像的尺寸不满足预设标准，在所述待检测图像的外围填充像素值为预设值的多个像素，其中，所述预设标准包括所述待检测图像的宽高比小于预设阈值，填充后的待检测图像的宽度是根据所述待检测图像的宽度确定的，并且大于所述待检测图像的宽度；

对填充后的待检测图像进行预处理，以使得预处理后的待检测图像满足训练好的文本检测网络模型的输入要求，其中，所述预处理包括缩放；

将预处理后的待检测图像输入所述文本检测网络模型，获取所述文本检测网络模型输出的一个或多个检测框，所述一个或多个检测框中的每一个检测框包围所述待检测图像中符合预设规则的目标文本；以及

对所述待检测图像中的位于所述一个或多个检测框内的目标文本进行识别，其中，所述待检测图像包括待检测对象，所述待检测对象为快递运单的整体或局部，所述目标文本包括运单号、收件人电话号码和寄件人电话号码中的至少一者，所述预设规则包括所述目标文本所包括的每一个字符在所述预处理后的待检测图像中的尺寸位于预设范围内。

2.如权利要求1所述的方法，其中，在所述待检测图像的外围填充像素值为预设值的多个像素包括：

确定填充后的图像的宽度和高度；以及

基于所确定的所述宽度和所述高度，在所述待检测图像的外围填充像素值为所述预设值的多个像素。

3.如权利要求1所述的方法，其中，所述预设规则包括以下多项中的至少一个：

包围所述目标文本的检测框的长度位于预设区间内；以及

所述目标文本与所述待检测图像中的预设对象之间的相对位置关系符合预设条件。

4.如权利要求3所述的方法，其中，所述预设对象包括条形码，并且所述方法还包括：

对所述条形码进行识别，得到所述条形码所包括的相关信息；以及

基于所述目标文本的识别结果和所述相关信息，确定所述待检测图像的识别结果。

5.如权利要求1所述的方法，其中，获取待检测图像包括：

获取包括待检测对象的初始图像；

对所述初始图像进行目标检测，以得到在所述初始图像中包围所述待检测对象的边框；以及

基于所述边框，对所述初始图像进行预处理，以得到与所述待检测对象相关联的所述待检测图像，

其中，所述预处理包括裁剪和仿射变换中的至少一者。

6.一种文本检测网络模型的训练方法，包括：

获取样本图像，并在所述样本图像中标记包围符合预设规则的目标文本的真实边界框；

响应于确定所述样本图像的尺寸不满足预设标准，在所述样本图像的外围填充像素值为预设值的多个像素，其中，所述预设标准包括所述样本图像的宽高比小于预设阈值，填充后的样本图像的宽度是根据所述样本图像的宽度确定的，并且大于所述样本图像的宽度；

对填充后的样本图像进行预处理，以使得预处理后的样本图像满足文本检测网络模型的输入要求，其中，所述预处理包括缩放；

将预处理后的样本图像输入所述文本检测网络模型，获取所述文本检测网络模型输出的一个或多个预测边界框，其中，所述样本图像包括样本对象，所述样本对象为快递运单的整体或局部，所述目标文本包括运单号、收件人电话号码和寄件人电话号码中的至少一者，所述预设规则包括所述目标文本所包括的每一个字符的尺寸位于预设范围内；

基于所述真实边界框和所述预测边界框，计算损失值；以及

基于所述损失值，调整文本检测网络模型的参数。

7.如权利要求6所述的方法，其中，在所述样本图像的外围填充像素值为预设值的多个像素包括：

确定填充后的图像的宽度和高度；以及

基于所确定的所述宽度和所述高度，在所述样本图像的外围填充像素值为所述预设值的多个像素。

8.如权利要求6所述的方法，其中，所述预设规则包括以下多项中的至少一个：

所述目标文本的长度位于预设区间内；以及

所述目标文本与所述样本图像中的其他对象之间符合预设相对位置关系。

9.如权利要求6所述的方法，其中，获取样本图像包括：

获取包括样本对象的初始图像；

对所述初始图像进行目标检测，以得到包围所述样本对象的边框；以及

基于所述边框，对所述初始图像进行预处理，以得到与所述样本对象相关联的所述样本图像，

其中，所述预处理包括裁剪和仿射变换中的至少一者。

10.一种文本识别装置，包括：

获取单元，被配置用于获取待检测图像；

填充单元，被配置为响应于确定所述待检测图像的尺寸不满足预设标准，在所述待检测图像的外围填充像素值为预设值的多个像素，其中，所述预设标准包括所述待检测图像的宽高比小于预设阈值，填充后的待检测图像的宽度是根据所述待检测图像的宽度确定的，并且大于所述待检测图像的宽度；

预处理单元，被配置为对填充后的待检测图像进行预处理，以使得预处理后的待检测图像满足训练好的文本检测网络模型的输入要求，其中，所述预处理包括缩放；

检测单元，被配置用于将预处理后的待检测图像输入所述文本检测网络模型，获取所述文本检测网络模型输出的一个或多个检测框，所述一个或多个检测框中的每一个检测框包围所述待检测图像中符合预设规则的目标文本；以及

识别单元，被配置用于对所述待检测图像中的位于所述一个或多个检测框内的目标文本进行识别，其中，所述待检测图像包括待检测对象，所述待检测对象为快递运单的整体或局部，所述目标文本包括运单号、收件人电话号码和寄件人电话号码中的至少一者，所述预设规则包括所述目标文本所包括的每一个字符在所述预处理后的待检测图像中的尺寸位于预设范围内。

11.一种文本检测网络模型的训练装置，包括：

获取单元，被配置用于获取样本图像，并在所述样本图像中标记包围符合预设规则的目标文本的真实边界框；

填充单元，被配置为响应于确定所述样本图像的尺寸不满足预设标准，在所述样本图像的外围填充像素值为预设值的多个像素，其中，所述预设标准包括所述样本图像的宽高比小于预设阈值，填充后的样本图像的宽度是根据所述样本图像的宽度确定的，并且大于所述样本图像的宽度；

预处理单元，被配置为对填充后的样本图像进行预处理，以使得预处理后的样本图像满足文本检测网络模型的输入要求，其中，所述预处理包括缩放；

检测单元，被配置用于将预处理后的样本图像输入所述文本检测网络模型，获取所述文本检测网络模型输出的一个或多个预测边界框，其中，所述样本图像包括样本对象，所述样本对象为快递运单的整体或局部，所述目标文本包括运单号、收件人电话号码和寄件人电话号码中的至少一者，所述预设规则包括所述目标文本所包括的每一个字符的尺寸位于预设范围内；

计算单元，被配置用于基于所述真实边界框和所述预测边界框，计算损失值；以及

调参单元，被配置用于基于所述损失值，调整文本检测网络模型的参数。

12.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-9中任一项所述的方法。