CN113903048A

CN113903048A - 一种用于快递领域票据识别文本纠错方法

Info

Publication number: CN113903048A
Application number: CN202111207447.2A
Authority: CN
Inventors: 薛鹏; 于红建; 邸岩兴
Original assignee: Beijing Tongcheng Biying Technology Co Ltd
Current assignee: Beijing Tongcheng Biying Technology Co Ltd
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-01-07

Abstract

文字识别是利用OCR技术将图片上的文字智能识别成可编辑的文字，可极大提高信息处理的效率。由于复杂的背景、各种字体、成像条件(图像拍摄光线、角度等)，经常存在文字识别错误的问题。识别错误会逐级传递放大，并累积至后续链路。因此，有必要对OCR之后的文字进行进一步纠错处理。本专利针对快递领域票据识别场景，提出了一种文本纠错处理方法。采用基于字形混合语言模型进行错误检测，然后替换错原句子中错误字符，通过计算句子得分获取纠正后的句子。该方法在实际应用中能获取较高的准确率和误纠率。从而提升后续NLP任务的性能，提升用户体验。

Description

一种用于快递领域票据识别文本纠错方法

技术领域

本发明发明属于自然语言处理邻域，尤其涉及到一种快递领域票据文字识别后文本纠错方法。

背景技术

快递领域票据识别是利用OCR技术将图片上的文字智能识别成可编辑的文字，可极大提高信息处理的效率。现阶段OCR技术已经比较成熟，由于复杂的背景、各种字体、成像条件(图像拍摄光线、角度等)，经常存在文字识别错误的问题。识别错误会逐级传递放大，并累积至后续链路。因此，有必要对OCR之后的文字进行进一步纠错处理。中文纠错系统主要有基于pipeline串联和联合模型两种方法。前者把系统分为检错和纠错环节，每个模型解决具体的特定问题，然后串联起来得到最后结果。此方法便于问题分析，能够针对各个问题进行重点突破，但也存在错误级联传递的问题。第二种方法采用端到端联合学习的方式，单个模型就能完成纠错任务。但在真实应用环境中，经常存在语料缺失，标注成本高，训练代价大的问题。本专利针对快递领域票据识别场景，提出了一种文本纠错处理方法。采用基于字形混合语言模型进行错误检测，然后替换错原句子中错误字符，通过计算句子得分获取纠正后的句子。该方法在实际应用中能获取较高的准确率和误纠率。

发明内容

本发明提供的一种多轮对话系统的指代消解方法，包括以下步骤：

Step1：输入OCR识别字符置信度和每个字词的n-gram检测概率值做加权，求得概率，根据阈值进行检错。

Step2：利用领域语料进行候选集构建和字向量训练，获得字形相似度候选集和字向量。

Step3：根据错误字候选集，对候选字做句子流畅度检测和词向量距离计算，获得新句子的得分。

Step4：重复步骤Step3，使句子得分最大的替换结果作为最终结果，纠错完成。

进一步，步骤Step1中，根据如下方法进行错误字符检测：

检错部分我们采用OCR识别的置信度，即预测是哪个汉字时softmax输出的概率值，我们只处理置信度低的字符，即汉字的置信度越低，错误的概率越大。除此之外，我们还利用n-gram信息进行检错。利用两部分的加权我们获得字符的最终出错的概率。我们用加权值P_char来衡量，如下：

P_char＝α*P_ocr+β*P_gram

其中P_char为文字识别模型中softmax输出的概率值，P_gram为n-gram检测概率值。理论上使用神经网络训练出的语言模型效果将会更好一些，但是考虑训练效率成本等因素，我们选择使用n-gram模型。α，β为权重，且二者加和为1。

对文本字符串按字符进行切分，切分结果保存为word_list。获取字符char左3-gram字符串(left 3-gram string，l3gs)，即target_text中位于字符char左边且紧挨着字符的长度为3的字符串，并判断l3gs是否包含在字符char的l3gs列表(记为list_l3gs)中。如果包含，则字符char的l3gs的匹配状态(记为state_l3gs)为ture，否则为false。接着，获取字符char右3-gram字符串(right 3-gram string，r3gs)，即target_text中位于字符char右边且紧挨word的长度为3的字符串，并判断r3gs是否包含在字符char的r3gs列表(记为list_r3gs)中。如果包含，则字符char的r3gs的匹配状态(记为state_r3gs)为ture，否则为false。如果字符char的l3gs的匹配状态state_l3gs和r3gs的匹配状态state_r3gs均为false，则字符char被判定为异常词P_gram值记为1，反之则为0。

当P_char小于阈值T时，我们认为该字符出现错误。T为人工设定值。

进一步，步骤Step2中，根据如下方法进行候选集构建：

我们采用机器加人工的方式构建垂直领域候选集。候选集包括形似字候选集和组合字候选集。OCR识别错误通常为字形错误，其中包括单字错误和组合体错误。单字错误表现为单个汉字误识别为单个错误汉字。组合体错误表现为单个汉字识别为多个汉字或多个汉字识别为一个汉字。这里的组合主要为左右组合，如”圳“可以拆分为”土“和”川“的组合，或者二者形近字的组合。“日”“月”可以被误识别成“明”字。上下组合类型在本文中暂不考虑。

候选集构建，我们考虑偏旁部首、汉字结构、笔画数、全码表等特征，其映射值分别为v1，v2，v3，v4，进而获得每汉字的特征向量[v1，v2，v3，v4]，通过两两计算获得汉字之间的相似度，然后排序取top10，经过人工校正，最终获取每个汉字的形似字候选集D1。对于左右组合字，我们选定基础部件，采用全自动随机组合的方式进行检索，获得左右组合可替换候选集D2。

进一步，步骤Step3、Step4中，根据如下方法进行文本纠错：

检测出错误字符后，我们开始对错误字符进行纠正。字符纠错部分我们采用候选集替换的方式。

从字形相似度候选集中挑选字符进行替换并计算替换后句子的合理程度。一般而言，语言模型可以很好的衡量句子的流畅度，保证语法上的合理性。但还存在语法合理性的基础上，哪个字或词在语境上更合理的问题。因此我们加入候选字与上下文语境相似度的计算来衡量句子的合理度。

句子合理度我们用得分Score_sen来计算，如下公式所示：

Score_sen＝Score_ngram+Score_vector

其中，Score_ngram为错字进行候选字替换后句子的流畅度。句子流畅度检测是扫描整个句子，计算每个字/词的概率，然后概率做乘积运算。由于字词概率都会远小于1，导致乘起来后值过小，一般语言模型都会采用log概率，即计算出概率后再对其取对数，将乘出来的数称为句子流畅度。

通过领域语料训练获得字向量，Score_vector为候选字符与文本字符串之间的语义距离，其为候选字符向量与上下文向量的余弦相似度。

假设待纠错文本由n个字符组成，第i个字的字向量用表示，则待纠错文本的句向量表示为

候选字向量用v_j表示，则候选字的向量表示为V_cdt，则待纠错文本与候选字之间的语义相似度为V_sen*V_cdt/(|V_sen|*|V_cdt|)：

Score_vector＝V_sen*V_cdt/(|V_sen|*|V_cdt|)

最终选取能使Score_sen值最大的字符作为最终的替换字符。其中，替换包括单字替换和组合字替换，单字替换直接将错误字符替换为候选字符，组合替换将左右组合的双字替换为单字。

本发明的有益效果：通过本发明，能够对快递领域票据识别进行文本纠错，有益于后续链路的自然语言处理子任务，在实际应用中提升票据识别信息提取的准确率，提升用户体验。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明的流程图。

具体实施方式

以下对本发明做出进一步详细说明：

本发明提供的一种快递领域票据文字识别后文本纠错方法，包括以下步骤：

进一步，步骤Step1中，根据如下方法进行错误字符检测：

P_char＝α*P_ocr+β*P_gram

进一步，步骤Step2中，根据如下方法进行候选集构建：

进一步，步骤Step3、Step4中，根据如下方法进行文本纠错：

句子合理度我们用得分Score_sen来计算，如下公式所示：

Score_sen＝Score_ngram+Score_vector

Score_vector＝V_sen*V_cdt/(|V_sen|*|V_cdt|)

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳的实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种用于快递领域票据识别文本纠错方法，其特征在于包括以下步骤：

2.根据权利要求1所述用于快递领域票据识别文本纠错方法，其特征在于：

P_char＝α*P_ocr+β*P_gram

3.根据权利要求1所述用于快递领域票据识别文本纠错方法，其特征在于：

4.根据权利要求1所述用于快递领域票据识别文本纠错方法，其特征在于：

句子合理度我们用得分Score_sen来计算，如下公式所示：

Score_sen＝Score_ngram+Score_vector

Score_vector＝V_sen*V_cdt/(|V_sen|*|V_cdt|)