CN115862040A

CN115862040A - 文本纠错方法、装置、计算机设备及可读存储介质

Info

Publication number: CN115862040A
Application number: CN202211596781.6A
Authority: CN
Inventors: 丁雪纯; 孙勇; 于业达; 林雅; 陈连鑫
Original assignee: Shanghai Hengsheng Juyuan Data Service Co ltd; Hangzhou Hengsheng Juyuan Information Technology Co ltd
Current assignee: Shanghai Hengsheng Juyuan Data Service Co ltd; Hangzhou Hengsheng Juyuan Information Technology Co ltd
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-03-28

Abstract

本发明提供的文本纠错方法、装置、计算机设备及可读存储介质，包括：获取待纠错文本对应的文字序列、文字序列中各个文字的置信度以及各个文字的图像组成的图像序列；通过纠错模型根据文字序列得到待纠错文本对应的语义信息特征，并根据图像序列得到图像信息特征；纠错模型还包括依次连接的第一全连接层、transformer层和第二全连接层；将语义信息特征和图像信息特征进行融合后预测每个文字位置上的候选字集合；对文字序列中置信度小于预设置信度阈值的目标文字，基于目标文字所在文字位置上的候选字集合进行纠错。本发明充分考虑了语义信息和字形信息，根据融合的特征信息确定了候选字，信息利用更充分，可以帮助提高纠错准确率。

Description

文本纠错方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及图像识别技术领域，具体而言，涉及一种文本纠错方法、装置、计算机设备及可读存储介质。

背景技术

OCR(Optical Character Recognition)，全称光学字符识别，即将图像中的文本转换为计算机可以直接处理的格式，该技术在各个业务领域中有着广泛的应用。如在金融领域，可以通过OCR技术对大量的财务报告中的语句和数据进行自动化提取，以高效、低成本的方式迅速获取信息，帮助数据使用者根据信息做出投资决策。但是OCR技术在识别过程中可能会出现某些文字的识别错误，因此针对识别结果的纠错工作变得必不可少。

现有技术现有的纠错方法主要是从预先获取的混淆集中进行选择从而找到正确文字进行对错字的替换以完成纠错，该方法要求对语料库前期的进行大量得训练，费时费力且无法确保精确度。此外，只通过语义通顺程度对字符进行纠错，指标单一，纠错效率低。因此，目前相关技术在对图像文本中识别的错误字符进行纠正处理时，存在的效率低、精确度低的问题。

发明内容

本发明的目的之一在于提供一种文本纠错方法、装置、计算机设备及可读存储介质，用于提高文本纠错的效率和准确度，本发明可以这样实现：

第一方面，本发明提供一种文本纠错方法，所述方法包括：获取待纠错文本对应的文字序列、所述文字序列中各个文字的置信度、以及各个所述文字的图像组成的图像序列；根据所述文字序列，得到所述待纠错文本对应的语义信息特征，并根据所述图像序列，得到所述待纠错文本对应的图像信息特征；其中，所述语义信息特征和所述图像信息特征分别是通过预训练的纠错模型的语义信息提取器和图像特征提取器得到；所述纠错模型还包括依次连接的第一全连接层、transformer层和第二全连接层；所述第一全连接层用于对所述语义信息特征和所述图像信息特征进行线性变换以获得所述语义信息特征和所述图像信息特征各自的权重信息；将所述语义信息特征和所述图像信息特征进行融合，并基于融合后的特征，预测所述待纠错文本的每个文字位置上的候选字集合；所述transformer层用于将所述语义信息特征和所述图像信息特征进行句子层面的理解和融合，得到所述融合后的特征；所述融合后的特征通过所述第二全连接层处理后被用来得到每个文字位置属于某个字符的概率分布；对所述文字序列中置信度小于预设置信度阈值的目标文字，基于所述目标文字所在文字位置上的候选字集合进行纠错。

第二方面，本发明提供一种文本纠错装置，包括：获取模块，用于：获取待纠错文本对应的文字序列、所述文字序列中各个文字的置信度、以及所述各个文字的图像组成的图像序列；确定模块，用于：根据所述文字序列，得到所述待纠错文本对应的语义信息特征，并根据所述图像序列，得到所述待纠错文本对应的图像信息特征；其中，所述语义信息特征和所述图像信息特征分别是通过预训练的纠错模型的语义信息提取器和图像特征提取器得到；所述纠错模型还包括依次连接的第一全连接层、transformer层和第二全连接层；所述第一全连接层用于对所述语义信息特征和所述图像信息特征进行线性变换以获得所述语义信息特征和所述图像信息特征各自的权重信息；预测模块，用于将所述语义信息特征和所述图像信息特征进行融合，并基于融合后的特征，预测所述待纠错文本的每个文字位置上的候选字集合；所述transformer层用于将所述语义信息特征和所述图像信息特征进行句子层面的理解和融合，得到所述融合后的特征；所述融合后的特征通过所述第二全连接层处理后被用来得到每个文字位置属于某个字符的概率分布；纠错模块，用于对所述文字序列中置信度小于预设置信度阈值的目标文字，基于所述目标文字所在文字位置上的候选字集合进行纠错。

第三方面，本发明提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现第一方面所述的方法。

第四方面，本发明提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

本发明提供的文本纠错方法、装置、计算机设备及可读存储介质，方法包括：获取待纠错文本对应的文字序列、所述文字序列中各个文字的置信度、以及所述各个文字的图像组成的图像序列；根据所述文字序列，得到所述待纠错文本对应的语义信息特征，并根据所述图像序列，得到所述待纠错文本对应的图像信息特征；将所述语义信息特征和所述图像信息特征进行融合，并基于融合后的特征，预测所述待纠错文本的每个文字位置上的候选字集合；对所述文字序列中置信度小于预设置信度阈值的目标文字，基于所述目标文字所在文字位置上的候选字集合进行纠错。整个过程充分考虑了语义信息和字形信息，根据融合的特征信息确定了候选字，信息利用更充分，可以帮助提高纠错准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种应用场景示意图；

图2为本发明实施例提供的纠错模型的结构示意图；

图3为本发明实施例提供的文本纠错方法的示意性流程图；

图4为本发明实施例提供的步骤304的示意性流程图；

图5为本发明实施例提供的步骤306的示意性流程图；

图6为本发明实施例提供的文本纠错装置的功能模块图；

图7为本发明实施例提供的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

请参见图1，图1为本申请实施例提供的一种应用场景示意图，该场景包括：用户10、终端设备11和服务器12。其中，终端设备11中可安装有各种客户端。终端设备11的客户端和服务器12之间通过通信网络建立通信连接后，终端设备11的客户端可以将要识别、纠错的内容发送给服务器12，由服务器12进行识别并纠错，得到纠错结果，再将纠错结果发送给终端设备11的客户端。

其中，终端设备11可以但不限于是扫描仪、数码相机、各种具有图像信息采集功能的个人计算机、笔记本电脑、智能手机、平板电脑、智能穿戴设备等计算机设备。

服务器12可以用独立的服务器或者是多个服务器组成的服务器集群或者分布式系统来实现，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备11以及服务器12可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

终端设备11和服务器12可通过通信网络进行通信连接，通信网络可以是无线保真(wireless fidelity，wifi)热点网络、蓝牙(bluetooth，BT)网络或近距离无线通信技术(near field communication，NFC)网络等近距离通信网络、还可以是第三代移动通信技术(3rd-generation wireless telephonetechnology，3G)网络、第四代移动通信技术(the4th generation mobile communicationtechnology，4G)网络、第五代移动通信技术(5th-generation mobile communicationtechnology，5G)网络、未来演进的公共陆地移动网络(public land mobile network，PLMN)或因特网等。

继续参见图1，目前，对文本进行纠错的过程如下：输入待识别的图像，然后利用OCR技术对图像进行识别，得到识别结果。接着将识别结果中的文本作为待纠错的文本，针对待纠错的文本，目前存在三种主要的纠错方法，经过研究发现，这些纠错方法均存在缺陷：

第一种：基于混淆集纠错。

根据自定义的校验规则或者统计学上概率计算等方式检测出哪个文字是错误的；再从混淆集中进行选择从而找到正确文字进行对错字的替换以完成纠错，混淆集是基于积累的业务语料库或者预设的按照某些规则(比如形近字音近字)预先生成的。选择正确文字的过程就是纠错的过程，这个过程可能包括多个子方法，主要子方法包括：计算混淆集库中的字与错字的相似度、计算包含错字的短文本与用语料库中的字替换掉错字之后得到的新的短文本之间的相似度或者编辑距离、根据自定义的规则计算相似度得分等。

然而，在OCR识别的场景下，混淆集可能无法覆盖所有的候选字，纠错结果更倾向于预测为混淆集里的字或者只能为其中的字，从而影响纠错能力；而且它无法覆盖所有的相似关系，也无法区分相似当中的差异性，所以在对OCR结果进行纠错的时候也可能无法充分的利用汉字在字音字形字义上的相似与差异特点，影响纠错能力。

第二种：基于模型纠错。

从OCR的输出中获得备选字符和对应的置信度，根据置信度将备选字符组合，模型最终作为一个检验字符组合通顺度或者语义的工具选择合适的字符组合；或者模型为预设的概率统计模型，选取概率最大的字符组合。

然而，从模型角度来进行纠错，只把模型当成最终检验通顺度的工具，那只考虑到了汉字语义和序列的性质；相应的，使用语言模型的时候如果只借助其生成候选字也只是考虑到了语义信息，而汉字本身的特征没有考虑，比如字形结构，而忽略掉的字形信息可能也会影响纠错能力。

第三种：混淆集和模型结合的纠错方法。

通过模型进行错误的检测，纠错时先用混淆集初步筛选得到候选字集合，再利用模型进行进一步的筛选，通过判断语义或者句子通顺度选择最优的结果；或者通过模型对混淆集中字的特征信息进行学习再对输入的文本进行纠错。

这种结合方法虽然能够改善纠错的效果，但是在纠错过程中仍然只通过语义通顺程度对字符进行纠错，指标单一，精确度不能满足用户需求。

通过对上述对现有技术的概括和局限性的分析，本申请实施例提供了一种文本纠错方法，能够在纠错过程中，不使用上述提到的混淆集，尽可能避免其短板。并且，考虑到现有部分方法未使用到文字字形信息的问题，本申请实施例增加了字形信息的使用，为纠错模型提供更多特征信息，使得文字图像信息特征和文字语义信息特征对齐，信息利用更充分，可以帮助提高纠错准确率。

在介绍本发明实施例提供的文本纠错方法之前，先对本发明实施例涉及的纠错模型进行介绍。

请参见图2，图2为本发明实施例提供的纠错模型的结构示意图，该纠错模型可以包括：语义信息提取器、图像特征提取器、第一全连接层、transformer层、第二全连接层，各个模型结构的连接顺序如图2所示。

语义信息提取器用于接收输入的文字序列，输出语义信息特征，语义信息提取器可以利用与业务场景有关的语料进行训练，训练方法可以采用现有的模型训练方法，此处不作过多说明。图像特征提取器用于接收输入的图像序列，输出图像信息特征。

作为一种可选的实施方式，语义信息提取器可以但不限于是bert模型，图像特征提取器可以但不限于是堆叠的n层resnet残差网络。

第一全连接层用于将语义信息提取器提取的语义信息特征和图像特征提取器提取的图像信息特征进行线性变换，并将线性变换的结果输入到sigmoid函数中，得到语义信息特征和图像信息特征各自的权重信息。

transformer层用于将语义信息特征和图像信息特征进行句子层面的理解和融合，得到语义信息和图像信息的融合特征，transformer层的层数可以根据实际需求进行设置，例如，可以设置3-6层的transformer结构。

transformer层得到的融合特征通过第二全连接层进行处理，然后将处理后的融合特征进行层归一化(layer normalization)，将归一化后的融合特征输入到softmax函对数中进行求解，得到每个文字位置属于某个字符的概率分布。

可以理解的是，从模型结构上来看，本申请中的纠错模型与现有的文本纠错模型在结构上完全不同，从功能上看，本申请中的纠错模型的各个组成部分分工不同，所述第一全连接层用于对所述语义信息特征和所述图像信息特征进行线性变换；所述transformer层用于将所述语义信息特征和所述图像信息特征进行句子层面的理解和融合，得到所述融合后的特征；所述融合后的特征通过所述第二全连接层用于处理后被用来得到每个文字位置属于某个字符的概率分布，上述纠错模型的各个组成部分以及对应的技术特征在功能上彼此相互支持、存在相互作用关系，从而实现准确纠错的效果。

作为一种可选的实施方式，本申请实施例中的纠错模型也可以不集成语义信息提取器、以及图像特征提取器，纠错模型、语义信息提取器以及图像特征提取器作为独立的功能模块协同的实现文本纠错方法。

下面将结合相关附图以及图2中提供的纠错模型，对本申请实施例提供的文本纠错方法进行详细介绍。

请参见图3，图3为本发明实施例提供的文本纠错方法的示意性流程图，该方法的执行主体可以图1中的服务器12，方法包括：

S300、获取待纠错文本对应的文字序列、文字序列中各个文字的置信度、以及各个文字的图像组成的图像序列。

S302、根据文字序列，得到待纠错文本对应的语义信息特征，并根据图像序列，得到待纠错文本对应的图像信息特征；其中，所述语义信息特征和所述图像信息特征分别是通过预训练的纠错模型的语义信息提取器和图像特征提取器得到；所述纠错模型还包括依次连接的第一全连接层、transformer层和第二全连接层；所述第一全连接层用于对所述语义信息特征和所述图像信息特征进行线性变换以获得所述语义信息特征和所述图像信息特征各自的权重信息；

S304、将语义信息特征和图像信息特征进行融合，并基于融合后的特征，预测待纠错文本的每个文字位置上的候选字集合；所述transformer层用于将所述语义信息特征和所述图像信息特征进行句子层面的理解和融合，得到所述融合后的特征；所述融合后的特征通过所述第二全连接层处理后被用来得到每个文字位置属于某个字符的概率分布；

S306、对文字序列中置信度小于预设置信度阈值的目标文字，基于目标文字所在文字位置上的候选字集合进行纠错。

在上述文本纠错方法中，首先得到待纠错文本对应的文字序列、以文字序列对应的图像序列，通过纠错模型的语义信息提取器和图像特征提取器得到语义信息特征和图像信息特征，然后通过纠错模型的第一全连接层用于对语义信息特征和图像信息特征进行线性变换，然后通过transformer层用于将语义信息特征和图像信息特征进行句子层面的理解和融合，最后融合后的特征通过第二全连接层用于处理后被用来得到每个文字位置属于某个字符的概率分布，可以看出，上述纠错模型的各个组成部分以及对应的技术特征在功能上彼此相互支持、存在相互作用关系，融合语义信息特征和图像信息特征，然后基于融合后的特征预测每个文字位置上的候选字集合，进而对需要纠错的目标文件，基于该目标文字所在文字位置上的候选字集合进行纠错，整个过程充分考虑了语义信息和字形信息，根据融合的特征信息确定了候选字，信息利用更充分，可以帮助提高纠错准确率。

下面对上述步骤S300至步骤S306进行详细介绍。

在步骤S300中、获取待纠错文本对应的文字序列、文字序列中各个文字的置信度、以及各个文字的图像组成的图像序列。

上述待纠错文本是基于现有的文字识别技术，从待识别图像中识别出来的文本。待识别的图像可以是便携式文件格式(portable document format，PDF)文件中的某一页图片，或者也可以是广告单、海报等，本申请对此不作限定。

作为一种可选的实施方式，服务器12可以先获取待识别的图像，然后利用OCR技术对待识别的图像进行识别，得到OCR识别文本，作为本申请实施例中的待纠错文本，例如，将图像上的字符转换为可编码的文本格式，此处可参阅现有技术的具体实现，在此不作过多说明。

因此，针对上述步骤S300，本发明实施例给出了一种可能的实施方式，即步骤S300可以包括如下步骤：

a1：对待识别文本图像基于光学字符识别模型进行识别,输出文字序列、文字序列中各个文字的置信度、以及各个文字的坐标值；

a2：基于各个文字的坐标值，对待识别文本图像进行切割，得到图像序列。

例如，待识别文本图像中的文本内容为“合并储备”，通过光学字符识别模型识别结果为：合、并、储、备，每个文字对应的置信度值为[l1,l2,l3,l4]，每个文字在待识别图像所在图像坐标系中的作为[[x1,y],[x2,y],[x3,y].[x4,y]]。

置信度可以用来确定哪些文字需要进行后续的纠错流程。

坐标可以用于指示从待识别文本图像中准确裁剪出每个文字对应的图像。例如，可以对待识别文本图片计算垂直投影、合并投影计算分割框、根据分割框裁剪，目的是把原图片中的文字序列依次切割成多个仅包含单字的图片，每个单字图片都与解析后的单个文字相对应。

需要说明的是，上述待识别文本图像仅仅是待识别图像中其中一行文字对应的图像，具体的，可以从待识别图像中进行裁剪，得到的每一行文本对应的图像作为待识别文本图像，这样一来可以避免对整个待识别图像进行文本识别出现的文本顺序对齐的问题。

还需要说明的是，为了满足后续纠错模型的数据格式，得到文字序列之后，还控制序列长度在最大长度小于或等于预设长度阈值，例如125，如果得到的序列长度大于预设长度阈值，则将原文字序列进行分割，保证每个子文字序列长度小于预设长度阈值。

在获得文字序列和图像序列之后，即可执行步骤S302。

在步骤S302中、根据文字序列，得到待纠错文本对应的语义信息特征，并根据图像序列，得到待纠错文本对应的图像信息特征；

本申请实施例中，语义信息特征是通过图2所示的纠错模型的语义信息提取器获得的。

作为一种可选的实施方式，语义信息提取器可以但不限于是预训练的bert模型，该bert模型可以基于不同业务场景下的语料进行训练，相应业务场景下语义的理解会有增强，从而实现不同业务场景中的文本纠错效果。业务场景可以但不限于是：金融、社交、直播、游戏等等，本申请实施例对此不作限定。

为了准确提取语义信息，本申请实施例中的语义信息提取器的结构可以是多层的transformer结构，该结构作为自然语言理解领域的一个基础架构，可以在整个结构的最后一层输出文字在语义信息上的表征,对于transformer结构的具体细节，本申请在此不作过多说明。

本申请实施例中，语义信息特征通过一个矩阵进行表示，记作H^s＝(h₁ ^s,h₂ ^s,…h_N ^s)，H^s为语义(semantic)信息特征矩阵的符号表示,h₁ ^s,h₂ ^s,…h_N ^s为每个文字的语义信息表征，其中，N为预编码后的文字序列的长度。

因此，本申请实施例还给出了一种提取语义信息特征的实施方式，如下b1至b2所示:

b1:对文字序列进行预编码；

b2将预编码后的文字序列输入到预训练的纠错模型的语义信息提取器中，得到语义信息特征。

可以理解的是，对文字序列预编码的目的是将文字序列转换成语义信息提取器能够处理的数据格式，以语义信息提取器为bert模型为例，在将文字序列输入到bert模型之前，需要先将文字序列进行转换即将文字序列预编码成一串数据，数据的长度，也就是上述内容中的N，可以根据实际需求进行设置，此处不做限定。

需要注意的是，N可以基于语义信息提取器本申请的数据格式要求进行取值，这里不作限制。

在提取语义信息特征的同时，还可以基于图像序列提取每个文字对应的图像信息特征，这里所说的图像信息特征也可以理解为文字的字形结构特征，可想而知，结合语义信息和字形信息进行文本纠错，可以提升纠错结果的准确性。

在本申请实施例中，图像信息特征可以通过图2所示的图像特征提取器进行提取。

作为一种可选的实施方式，图像特征提取器可以但不限于是堆叠的n层的resnet残差网络。

本申请实施例还给出了一种提取图像信息特征的实施方式，如下c1至c2所示：

c1:将图像序列中的每张图像转换成预设尺寸的矩阵；

c2:按照图像序列中各个图像的顺序，对得到的各个矩阵进行拼接，并将拼接后的矩阵输入预训练的纠错模型的图像特征提取器中，得到图像信息特征。

为了提升运算速度，可以以灰度模式将图像序列中的每张图像，将每张图像转换成预设尺寸的矩阵，需要注意的是，这里设置的预设尺寸需要和图像特征提取器的层数相匹配，即图像特征提取器的层数为n,每张图像转为m*m*1的矩阵，那么n与m之间需要满足关系式：2ⁿ＝m,也就是说，如果resnet网络是4层，那么每张图像加载后都被转为16*16*1的矩阵。

将上述转换后得到的矩阵依次输入图像特征提取器，通过图像特征提取器提取的图像信息特征可以记作H^g＝(h₁ ^g,h₂ ^g,…h_N ^g)，H^g为图像(graphic)信息特征的符号表示,h₁ ^g,h₂ ^g,…h_N ^g为每个图像对应的图片信息表征。

获得待纠错文本对应的语义信息特征和图像信息特征之后，即可执行步骤S304。

在步骤S304中、将语义信息特征和图像信息特征进行融合，并基于融合后的特征，预测待纠错文本的每个文字位置上的候选字集合。

本实施例中，将得到的语义信息特征H^s和图像信息特征H^g在特征的维度上进行拼接,相当于语义信息的特征和字形一起做了特征的扩充，得到矩阵H^a＝(h₁ ^s,g,h₂ ^s,g,…h_N ^s ^,g)，其中H^a可以看作是融合后的特征的表征。

上述“融合”相当于对每一个位置上的语义信息特征和图像信息特征进行了聚合。比如H^s为维度为(2，128，768)的矩阵，H^g为维度为(2，128，768)的矩阵，2为句子个数，128为每个句子字符数，H^a为两者在最后一个维度拼接后的矩阵，维度为(2，128，768*2)。

需要注意的是，上述例子中H^s维度为(2，128，768)，其中的2是句子数，在训练阶段，为了提升训练效率，句子数相当于一个训练批次(batch size)中句子的训练语句的个数，但在模型的应用阶段，H^s维度中的句子数通常设置为1，为一个待纠错文本。

得到融合后的特征之后，即可预测每个文字位置上的候选字集合。

本申请实施例中，候选字来自预先建立的字典，本申请实施例可以基于融合后的特征，预测字典中的候选字属于待纠错文本中每个文字位置上的概率，进而可以基于概率确定出候选字集合。候选字集合可以用来对某些需要进行纠错的文字位置上的文字进行纠错。

因此，本申请实施例还给了一种步骤S304的实施方式，请参见图4，图4为本申请实施例提供的步骤S304的示意性流程图，步骤S304可以包括如下步骤：

S304-1,基于语义信息权重和图像信息权重，对语义信息特征和图像信息特征进行加权求和，得到融合后的特征。

作为一种可选的实施方式，上述语义信息权重和图像信息权重可以根据实际需求预先设置，语义信息权重和图像信息权重的大小关系不作限定。

作为一种较佳的实施方式，可以基于本申请提供的实施方式确定，如下d1至d2：

d1：对语义信息特征和图像信息特征进行特征拼接，并基于拼接后的特征和预设权重参数，构建权重矩阵。

本申请实施例中，对语义信息特征和图像信息特征进行特征拼接，即对上述H^s和H^g进行特征拼接，得到H^a,将得到的H^a输入到图2所示的第一全连接层做线性变换，目的是为了将语义信息和图像信息通过加权求和的方式融合在一起,显现变换的结果为：W·H^a+b，其中，W为初始权重矩阵，参数可以学习，b为常数向量。

d2：利用激活函数对权重矩阵进行求解，输出语义信息权重和图像信息权重。

针对线性变换的结果，使用激活函数进行求解，得到最终的权重矩阵G＝sigmoid(W·H^a+b)，sigmoid为激活函数，然后将G在输出特征的维度上变为2，分别得到两个权重矩阵分量：w^s＝G[:,:,0]和w^g＝G[:,:,1]，其中，w^s为语义信息权重，w^g为图像信息权重。

利用得到的w^s和w^g，将语义信息特征H^s和图像信息特征H^g进行加权求和得到w_s·H^s+w_g·H^g，即为H,即H＝w_s·H^s+w_g·H^g。

将上述步骤中得到特征H作为图2中的transformer结构中进行句子层面的理解和融合之后的特征表征。

作为一种可选的实施方式，transformer的层数可以设置为3-6层，此处不作限制。

S304-2,将融合后的特征输入归一化指数函数中，预测预建立的字典中每个候选字属于每个文字位置的概率。

本实施例中，字典是语义提取器本身预设的，在将H输入归一化指数函数之前，为了满足归一化指数函数所处理的数据格式，还可以先对H进行归一化，即将H依次通过图2所示的第二全连接层和归一化层，然后将归一化后的H输入归一化指数函数中,这里的归一化指数函数为softmax函数，归一化指数函数的求解结果为一个概率矩阵，概率矩阵中每个向量即为每个文字位置对应的概率向量，一个概率向量中每个向量位置代表字典中候选字的索引，向量位置上的概率即该索引对应的候选字的概率，从而得到了每个文字位置属于某个文字的概率分布。

S304-3,针对每个文字位置，按照概率值从大到小的顺序，从预建立字典中确定出多个候选字，组成候选字集合。

针对每个文字位置，按照概率值从大到小的顺序从它对应的概率向量中取前K个概率值对应的候选字，组成候选字组合。

例如，K为4，概率向量为[p₁,p₂,p₃,p₄,…p_n],其中，p₁>p₂>p₃>p₄>…>p_n,那么取前p₁、p₂、p₃、p₄各自对应的候选字，组成候选字集合。

得到每个文字位置上的候选字集合，即可执行本发明实施例中的纠错流程。参见步骤S306。

在步骤S306中、对文字序列中置信度小于预设置信度阈值的目标文字，基于目标文字所在文字位置上的候选字集合进行纠错。

本实施例中，得到文字序列的同时可以得到每个文字对应的置信度，该置信度表征文字识别正确的置信度，因此，对于每个字都进行置信度的判断。事先设定阈值，如果置信度高于阈值则认为解析结果与原图片对应内容相符，解析正确，不需要进行纠错；对于置信度小于预设置信度阈值的文字，则需要进行纠错。因此，在得到置信度小于预设置信度阈值的目标文字之后，即可基于该目标文字对应的候选字集合，进行纠错。

本发明实施例给出了一种基于候选字集合进行纠错的实施方式，请参见图5，图5为本申请实施例提供的步骤S306的示意性流程图，步骤S306可以包括：

S306-1，将候选字集合中概率最大值对应的候选字确定为待确认字；

S306-2，若待确认字满足预设条件，则确定目标文字为正确的文字。

预设条件为：待确认字与目标文字相同，且概率最大值大于预设概率阈值。

设置上述预设条件的原因是：由于目标文字识别过程中也可能出现错误，即将正确的文字识别为错误的文字，而本申请通过融合了图像信息和语义信息的特征所预测出来的所属某个文字位置上的概率分布正好可以作为正确文字的参考依据，因此，假设待确认字与目标文字相同，但是概率大于预设概率阈值，则表明前期识别出来的目标文字以及后续基于目标文字预测到的待确认字均是正确的，一旦不满足这种预设条件，则表明前期的目标文字以及基于目标文字预测到的待确认字可能本身就是错误的。

若待确认字满足上述预设条件，则认为该文字位置上的目标文字是正确的，不需要进行纠错，否则执行步骤S306-3。

S306-3，若待确认字不满足预设条件，则将目标文字替换成待确认字，或者，基于目标文字和候选字集合中每个候选字的笔画相似度以及每个候选字的概率，确定出目标候选字，并将目标文字替换成目标候选字。

若待确认字不满足上述预设条件，则表明目标文字是错误的，此时，可以按照如下任意一种方式对目标文字进行纠错。

作为一种可选的实施方式，将目标文字替换成待确认字，即完成对目标文字的纠错。

作为另一种可选的实施方式，基于目标文字和候选字集合中每个候选字的笔画相似度以及每个候选字的概率，确定出目标候选字，并将目标文字替换成目标候选字，即完成对目标文字的纠错。

具体为：对目标文字和候选字集合中的候选字分别进行拆解，拆解成按笔画顺序排列的笔画序列，然后对候选字和目标文字求相似度，以相似度和候选字的概率的加权求和值为依据，取最大值对应的候选字作为目标候选字，其中，相似度和概率各自的权重可能根据多次的实验经验或者根据统计结果而选择。

需要说明的是，本申请实施例只对中文文本进行纠正，如果待纠错文本某个文字位置上的值是除汉字之外的数字、字母或符号，则不予以纠正，直接使用到对应位置的值；同理，如果候选字集中存在数字、字母或符号的候选词，则这些候选词也可以予以排除在候选字集合外，在剩下的候选字集合进行选择。

还需要说明的是，对于地名和组织等词，可能模型本身而言可能会造成一定的误纠，为了进一步提高模型的准确性，如果有可使用的关于地名、组织名、专有词等词库，可以引入NER模型。先将OCR的结果放入NER中识别出可能的地名、组织名和专有词等，根据上述纠错模型对于有错误的位置，可以把包括错误位置的从NER识别出来的实体与词库中的名称进行比对，将词库中的词作为候选词，最终以编辑距离或者相似度等指标为依据，选择合适的替换词。

基于上述实施例，本申请实施例还提供一种文本纠错装置，该装置的结构如图6所示，图6为本发明实施例提供的文本纠错装置的功能模块图，该文本纠错装置400可包括：获取模块401、确定模块402、预测模块403和纠错模块404。

获取模块401，用于：获取待纠错文本对应的文字序列、文字序列中各个文字的置信度、以及各个文字的图像组成的图像序列；

确定模块402，用于：根据文字序列，得到待纠错文本对应的语义信息特征，并根据图像序列，得到待纠错文本对应的图像信息特征；其中，所述语义信息特征和所述图像信息特征分别是通过预训练的纠错模型的语义信息提取器和图像特征提取器得到；所述纠错模型还包括依次连接的第一全连接层、transformer层和第二全连接层；所述第一全连接层用于对所述语义信息特征和所述图像信息特征进行线性变换以获得所述语义信息特征和所述图像信息特征各自的权重信息；

预测模块403，用于将语义信息特征和图像信息特征进行融合，并基于融合后的特征，预测待纠错文本的每个文字位置上的候选字集合；所述transformer层用于将所述语义信息特征和所述图像信息特征进行句子层面的理解和融合，得到所述融合后的特征；所述融合后的特征通过所述第二全连接层处理后被用来得到每个文字位置属于某个字符的概率分布；

纠错模块404，用于对文字序列中置信度小于预设置信度阈值的目标文字，基于目标文字所在文字位置上的候选字集合进行纠错。

可以理解的是，获取模块401、确定模块402、预测模块403和纠错模块404可以协同的执行图3中的各个步骤以实现相应的技术效果。

在可选的实施方式中，获取模块401，具体用于：对待识别文本图像基于光学字符识别模型进行识别,输出文字序列、文字序列中各个文字的置信度、以及各个文字的坐标值；基于各个文字的坐标值，对待识别文本图像进行切割，得到图像序列。

在可选的实施方式中，确定模块402，具体用于：对文字序列进行预编码；将预编码后的文字序列输入到预训练的纠错模型的语义信息提取器中，得到语义信息特征。将图像序列中的每张图像转换成预设尺寸的矩阵；按照图像序列中各个图像的顺序，对得到的各个矩阵进行拼接，并将拼接后的矩阵输入预训练的纠错模型的图像特征提取器中，得到图像信息特征。

在可选的实施方式中，预测模块403，具体用于：基于语义信息权重和图像信息权重，对语义信息特征和图像信息特征进行加权求和，得到融合后的特征；将融合后的特征输入归一化指数函数中，预测预建立的字典中每个候选字属于每个文字位置的概率；针对每个文字位置，按照概率值从大到小的顺序，从预建立字典中确定出多个候选字，组成候选字集合。

在可选的实施方式中，预测模块403，具体用于：对语义信息特征和图像信息特征进行特征拼接，并基于拼接后的特征和预设权重参数，构建权重矩阵；利用激活函数对权重矩阵进行求解，输出语义信息权重和图像信息权重。

在可选的实施方式中，纠错模块404，具体用于：将候选字集合中概率最大值对应的候选字确定为待确认字；若待确认字满足预设条件，则确定目标文字为正确的文字；预设条件为：待确认字与目标文字相同，且概率最大值大于预设概率阈值；若待确认字不满足预设条件，则将目标文字替换成待确认字；或者，基于目标文字和候选字集合中每个候选字的笔画相似度以及每个候选字的概率，确定出目标候选字，并将目标文字替换成目标候选字。

需要说明的是，本申请以上实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

基于上述实施例，本申请实施例还提供一种计算机设备的示意图，该计算机设备用于实现上述实施例中的文本纠错方法。参阅图7所示，计算机设备500包括：存储器501、处理器502、通信接口503、和总线504，该存储器501、处理器502和通信接口503相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

可选的，总线504可以是外设部件互连标准(peripheral componentinterconnect，PCI)总线或扩展工业标准结构(extended industry standardarchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本申请实施例中，处理器502可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储器501中，处理器502读取存储器501中的程序指令，结合其硬件完成上述方法的步骤。

在本申请实施例中，存储器501可以是非易失性存储器，比如硬盘(harddiskdrive，HDD)或固态硬盘(solid-state drive，SSD)等，还可以是易失性存储器(volatilememory)，例如RAM。存储器还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置，用于存储指令和/或数据。

存储器501可用于存储软件程序及模块，如本发明实施例提供的文本纠错装置400的指令/模块，可以软件或固件(firmware)的形式存储于存储器501中或固化在计算机设备500的操作系统(operating system，OS)中，处理器502通过执行存储在存储器501内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口503可用于与其他节点设备进行信令或数据的通信。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

可以理解，图7所示的结构仅为示意，计算机设备500还可以包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。图7所示的各组件可以采用硬件、软件或其组合实现。

基于以上实施例，本申请还提供了一种存储介质，存储介质中存储有计算机程序，计算机程序被计算机执行时，使得计算机执行以上实施例提供的文本纠错方法。

基于以上实施例，本申请实施例还提供了一种计算机程序，当计算机程序在计算机上运行时，使得计算机执行以上实施例提供的文本纠错方法。

基于以上实施例，本申请实施例还提供了一种芯片，芯片用于读取存储器中存储的计算机程序，用于执行以上实施例提供的文本纠错方法。

本申请实施例中还提供一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行以上实施例提供的文本纠错方法。

本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本纠错方法，其特征在于，所述方法包括：

获取待纠错文本对应的文字序列、所述文字序列中各个文字的置信度、以及各个所述文字的图像组成的图像序列；

根据所述文字序列，得到所述待纠错文本对应的语义信息特征，并根据所述图像序列，得到所述待纠错文本对应的图像信息特征；

其中，所述语义信息特征和所述图像信息特征分别是通过预训练的纠错模型的语义信息提取器和图像特征提取器得到；所述纠错模型还包括依次连接的第一全连接层、transformer层和第二全连接层；所述第一全连接层用于对所述语义信息特征和所述图像信息特征进行线性变换以获得所述语义信息特征和所述图像信息特征各自的权重信息；

将所述语义信息特征和所述图像信息特征进行融合，并基于融合后的特征，预测所述待纠错文本的每个文字位置上的候选字集合；所述transformer层用于将所述语义信息特征和所述图像信息特征进行句子层面的理解和融合，得到所述融合后的特征；所述融合后的特征通过所述第二全连接层处理后被用来得到每个文字位置属于某个字符的概率分布；

对所述文字序列中置信度小于预设置信度阈值的目标文字，基于所述目标文字所在文字位置上的候选字集合进行纠错。

2.根据权利要求1所述的文本纠错方法，其特征在于，获取待纠错文本对应的文字序列、所述文字序列中各个文字的置信度、以及各个所述文字的图像组成的图像序列，包括：

对待识别文本图像基于光学字符识别模型进行识别,输出所述文字序列、所述文字序列中各个所述文字的置信度、以及各个所述文字的坐标值；

基于各个所述文字的坐标值，对所述待识别文本图像进行切割，得到所述图像序列。

3.根据权利要求1所述的文本纠错方法，其特征在于，根据所述文字序列，得到所述待纠错文本对应的语义信息特征，包括：

对所述文字序列进行预编码；

将预编码后的所述文字序列输入到所述预训练的纠错模型的所述语义信息提取器中，得到所述语义信息特征。

4.根据权利要求1所述的文本纠错方法，其特征在于，根据所述图像序列，得到所述待纠错文本对应的图像信息特征,包括：

将所述图像序列中的每张图像转换成预设尺寸的矩阵；

按照所述图像序列中各个所述图像的顺序，对各个所述矩阵进行拼接，并将拼接后的所述矩阵输入所述预训练的纠错模型的所述图像特征提取器中，得到所述图像信息特征。

5.根据权利要求1所述的文本纠错方法，其特征在于，将所述语义信息特征和所述图像信息特征进行融合，并基于融合后的特征，预测所述待纠错文本的每个文字位置上的候选字集合，包括：

基于语义信息权重和图像信息权重，对所述语义信息特征和所述图像信息特征进行加权求和，得到所述融合后的特征；

将所述融合后的特征输入归一化指数函数中，预测预建立的字典中每个候选字属于每个所述文字位置的概率；

针对每个所述文字位置，按照概率值从大到小的顺序，从所述预建立字典中确定出多个所述候选字，组成所述候选字集合。

6.根据权利要求5所述的文本纠错方法，其特征在于，在基于语义信息权重和图像信息权重，对所述语义信息特征和所述图像信息特征进行加权求和，得到所述融合后的特征之前，所述方法还包括：

对所述语义信息特征和所述图像信息特征进行特征拼接，并基于拼接后的特征和预设权重参数，构建权重矩阵；

利用激活函数对所述权重矩阵进行求解，输出所述语义信息权重和所述图像信息权重。

7.根据权利要求1所述的文本纠错方法，其特征在于，对所述文字序列中置信度小于预设置信度阈值的目标文字，基于所述目标文字所在文字位置上的候选字集合进行纠错，包括：

将所述候选字集合中概率最大值对应的候选字确定为待确认字；

若所述待确认字满足预设条件，则确定目标文字为正确的文字；所述预设条件为：所述待确认字与所述目标文字相同，且所述概率最大值大于预设概率阈值；

若所述待确认字不满足预设条件，则将所述目标文字替换成所述待确认字；或者，

基于所述目标文字和所述候选字集合中每个所述候选字的笔画相似度以及每个所述候选字的概率，确定出目标候选字，并将所述目标文字替换成所述目标候选字。

8.一种文本纠错装置，其特征在于，包括：

获取模块，用于：获取待纠错文本对应的文字序列、所述文字序列中各个文字的置信度、以及各个所述文字的图像组成的图像序列；

确定模块，用于：根据所述文字序列，得到所述待纠错文本对应的语义信息特征，并根据所述图像序列，得到所述待纠错文本对应的图像信息特征；

预测模块，用于将所述语义信息特征和所述图像信息特征进行融合，并基于融合后的特征，预测所述待纠错文本的每个文字位置上的候选字集合；所述transformer层用于将所述语义信息特征和所述图像信息特征进行句子层面的理解和融合，得到所述融合后的特征；所述融合后的特征通过所述第二全连接层处理后被用来得到每个文字位置属于某个字符的概率分布；

纠错模块，用于对所述文字序列中置信度小于预设置信度阈值的目标文字，基于所述目标文字所在文字位置上的候选字集合进行纠错。

9.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现权利要求1至7任一项所述的方法。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。