CN109598265A

CN109598265A - 一种文字识别方法、系统、设备、计算机可读存储介质

Info

Publication number: CN109598265A
Application number: CN201710945021.4A
Authority: CN
Inventors: 王志成; 王宇; 高磊; 邝展豪; 王亮; 刘志欣
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2019-04-09
Anticipated expiration: 2037-09-30
Also published as: CN109598265B

Abstract

本发明涉及一种文字识别方法、系统、设备、计算机可读存储介质。该文字识别方法，包括：获取待识别信息图片；对待识别信息图片进行文字识别；对文字识别的结果进行纠偏，得到最终识别结果。通过综合运用文字识别和朴素贝叶斯算法，大大提升文字识别的准确度。本发明的文字识别方法，待识别信息图片为运单图片，通过运单图片识别结果获取匹配通讯信息；根据该信息筛选出与其相对应的联系人信息，得到联系人信息可选集合。根据概率值对可选集合中个体进行筛选，获取最终识别结果，该纠偏结果不仅可以准确识别原始订单数据，还可以对联系人信息纠错补全，经该朴素贝叶斯的关系数据纠偏算法后，手写运单的识别准确度得到了极大的提高。

Description

一种文字识别方法、系统、设备、计算机可读存储介质

技术领域

本发明属于文字识别领域，尤其涉及一种文字识别方法、系统、设备、计算机可读存储介质。

背景技术

近年来，随着机器学习的迅猛发展，各种光学字符识别算法层出不穷。OCR识别文字算法是一种常用的光学字符识别算法，但是OCR识别文字算法精度受图像光照、角度等影响，若识别对象没有模糊、飞白、噪声等的理想状态，则识别精度高，否则则识别精度下降，无法达到使用者的期望。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种文字识别方法、系统、设备、计算机可读存储介质。

根据本发明的一个方面，提供了一种文字识别方法，包括以下步骤：

获取待识别信息图片；

对待识别信息图片进行文字识别；

对文字识别的结果进行纠偏，得到最终识别结果。

进一步的，对文字识别的结果进行纠偏，包括：

根据文字识别结果中的匹配识别信息从数据库中筛选出与该匹配识别信息相对应的目标识别信息的可选集合；

基于该可选集合的概率分布筛选出该可选集合中概率值超过阈值的个体，即为最终识别结果。

进一步的，筛选出该可选集合中概率值超过阈值的个体之前，包括：

通过朴素贝叶斯的关系数据纠偏算法获取所述可选集合的概率分布。

进一步的，待识别信息图片为运单图片。

进一步的，根据文字识别结果中的匹配识别信息从数据库中筛选出与该匹配识别信息相对应的目标识别信息的可选集合，包括：

基于运单图片文字识别的结果获取联系人匹配通讯信息；

根据该匹配通讯信息从数据库中筛选出与其相对应的联系人信息，得到联系人信息可选集合。

进一步的，筛选出该可选集合中概率值超过阈值的个体，包括：

根据联系人信息可选集合计算概率值；

根据概率值对联系人信息可选集合中个体进行筛选，获取最终识别结果。

具体的，筛选出该可选集合中概率值超过阈值的个体，包括：

将联系人信息可选集合输入下述公式计算概率值Pr(C_candidate)，

计算公式为：

其中，C_candidate为联系人信息，confidence_i是文字识别OCR针对每个结果给出的可信度；n为C_OCR的数目；

根据Pr(C_candidate)值对联系人信息可选集合中个体进行筛选，获取最终识别结果。

概率值计算公式，即概率值Pr(C_candidate)计算公式为：

进一步的，联系人信息包括姓名、电话、地址。

进一步的，联系人匹配通讯信息为电话。

进一步的，根据概率值对联系人信息可选集合中个体进行筛选之前，还包括：

将联系人信息及文字识别出的联系人信息输入概率值计算公式，得到概率值新计算公式；

基于朴素贝叶斯公式，获取联系人信息及文字识别出的联系人信息的关联关系；

将联系人信息及文字识别出的联系人信息的关联关系输入概率值新计算公式，得到概率值最终计算公式；

基于编辑距离计算公式、多项式经所述概率值最终计算公式得到联系人信息可选集合的概率分布。

具体的，所述的文字识别方法，根据Pr(C_candidate)值对联系人信息可选集合中个体进行筛选之前，还包括：

将联系人信息及文字识别出的联系人信息输入概率值Pr(C_candidate)计算公式；

基于朴素贝叶斯公式，获取Pr(C_candidate)最终计算公式：

其中N、P、A分别表示联系人信息中的姓名、电话、地址,

N'_i、P_i'、A'_i分别表示经由文字识别出来的联系人信息中的姓名、电话、地址；

基于编辑距离计算公式、多项式经Pr(C_candidate)最终计算公式得到联系人信息可选集合的概率分布。

进一步的，将联系人信息及文字识别出的联系人信息输入概率值Pr(C_candidate)计算公式，包括：

根据P(N,P,A)＝P(C_candidate)，得到Pr(C_candidate)新计算公式：

进一步的，基于朴素贝叶斯公式，获取Pr(C_candidate)最终计算公式，包括：

基于朴素贝叶斯公式可知：

P(N,P,A,N'_i,P_i',A'_i)＝P(N,P,A|N'_i,P_i',A'_i)·P(N,P,A)

P(N’,P,A,N'_i,P_i',A'_i)＝P(N'|N)·P(P'|P)·P(A'|A)·P(N,P,A)

将其输入Pr(C_candidate)新计算公式，得到Pr(C_candidate)最终计算公式。

进一步的，基于编辑距离计算公式、多项式经所述概率值最终计算公式得到联系人信息可选集合的概率分布，包括：

基于联系人信息与相应文字识别出的联系人信息匹配发生的匹配相符处理、添加处理、删除处理、替换处理的关联关系生成多项式；

基于联系人信息与相应文字识别出的联系人信息比对所进行的匹配相符处理、添加处理、删除处理、替换处理的关联关系生成编辑距离计算公式；

当编辑距离取值最小时，得到所发生的匹配相符处理、添加处理、删除处理、替换处理的次数；

将所发生的匹配相符处理、添加处理、删除处理、替换处理的次数输入多项式，得到文字识别出的联系人信息与相应联系人信息对应的概率；

将所述文字识别出的联系人信息与联系人信息对应的概率输入所述概率值最终计算公式得到联系人信息可选集合的概率分布。

匹配相符处理、添加处理、删除处理、替换处理即正确事件、insert事件、delete和replace事件在编辑距离计算公式分别用c,d,i,r表示。

具体的，基于编辑距离计算公式、多项式经Pr(C_candidate)最终计算公式得到联系人信息可选集合的概率分布，包括：

(1)生成编辑距离计算公式

其中，{c,d,i,r}的和为姓名的长度，p_correct、p_delete、p_insert、p_replace是随机设定的一个初始概率值，c表示发生正确事件(correct)的次数，i表示发生insert事件的次数，d，r分别表示发生delete和replace事件的次数；

(2)在cost值最小时，计算得到{c,d,i,r}；

(3)将{c,d,i,r}输入到多项式，计算得到{姓名，电话，地址}各自的条件概率P(N'_i|N)、P(P’_i|P)、P(A'_i|A)，

其中，多项式为：

P＝exp(c·log(p_correct)+d·log(p_delete)+

i·log(p_insert)+r·log(p_replace))；

(4)将步骤(3)得到的{姓名，电话，地址}各自的条件概率P(N'_i|N)、P(P'_i|P)、P(A'_i|A)输入Pr(C_candidate)最终计算公式得到概率分布。

进一步的，根据概率值对联系人信息可选集合中个体进行筛选，获取最终识别结果,包括：

选取概率分布中最大概率值对应的结果，即为最终识别结果。

具体的，根据Pr(C_candidate)值对联系人信息可选集合中个体进行筛选，获取最终识别结果,包括：

进一步的，将联系人信息可选集合输入公式计算概率值Pr(C_candidate)，包括：

(1)根据P(N,P,A)＝P(C_candidate)，将其代入概率值Pr(C_candidate)计算公式，得到Pr(C_candidate)新计算公式：

其中{N,P,A}分别代表{姓名，电话，地址}；

(2)由朴素贝叶斯公式可知：

P(N,P,A,N'_i,P'_i,A'_i)＝P(N,P,A|N'_i,P'_i,A'_i)·P(N,P,A)，

P(N,P,A,N'_i,P'_i,A'_i)＝P(N'|N)·P(P'|P)·P(A'|A)·P(N,P,A)，

将其输入Pr(C_candidate)新计算公式，得到Pr(C_candidate)最终计算公式：

(3)生成编辑距离计算公式

其中，{c,d,i,r}的和为姓名的长度，p_correct、p_delete、p_insert、p_replace是随机设定的一个初始概率值；

(4)在cost值最小时，计算得到{c,d,i,r}；

(5)将{c,d,i,r}输入到多项式，计算得到{姓名，电话，地址}各自的条件概率P(N'_i|N)、P(P'_i|P)、P(A'_i|A)，

其中，多项式为：

P＝exp(c·log(p_correct)+d·log(p_delete)+

i·log(p_insert)+r·log(p_replace))；

(6)将步骤(5)得到的{姓名，电话，地址}各自的条件概率P(N'_i|N)、P(P'_i|P)、P(A'_i|A)输入Pr(C_candidate)最终计算公式得到概率分布。

N、P、A表示根据电话号码匹配到数据库的name,phone,address；Ni’、Pi’、Ai’表示经由OCR出来的name,phone,address。

根据本发明的另一个方面，提供了一种文字识别系统，包括：

采集单元，获取待识别信息图片；

文字识别单元，对待识别信息图片进行文字识别；

纠偏单元，对文字识别的结果进行纠偏，得到最终识别结果。

进一步的，对文字识别的结果进行纠偏，包括：

进一步的，待识别信息图片为运单图片。

该系统为基于上述任一一种文字识别方法的系统，其对待识别信息图片进行文字识别；对文字识别的结果进行纠偏，得到最终识别结果等详细步骤如文字识别方法部分所述。

根据本发明的另一个方面，提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上任一项所述的方法。

根据本发明的另一个方面，提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上任一项所述的方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明示例的文字识别方法，对待识别信息图片进行文字识别；突破性的对文字识别结果进行纠偏后，得到最终识别结果，通过综合运用文字识别和朴素贝叶斯算法，大大提升文字识别的准确度。

2、本发明示例的文字识别方法，待识别信息图片为运单图片，通过基于运单图片文字识别的结果获取联系人匹配通讯信息；根据该匹配通讯信息从数据库中筛选出与其相对应的联系人信息，得到联系人信息可选集合。将联系人信息可选集合输入公式计算概率值；根据概率值对联系人信息可选集合中个体进行筛选，获取最终识别结果，该纠偏结果不仅可以准确识别原始订单数据，而且还可以对联系人信息，如地址进行纠错补全，经该朴素贝叶斯的关系数据纠偏算法后，手写运单的识别准确度得到了极大的提高。

3、本发明示例的文字识别系统，通过采集单元获取待识别信息图片；通过文字识别单元对待识别信息图片进行文字识别；通过纠偏单元，对文字识别的结果进行纠偏，得到最终识别结果。上述单元相互配合，实现对文字识别结果的纠偏，以便提高识别精度。

4、本发明示例的文字识别设备，通过存储有计算机程序的计算机可读介质,所述程序被运行用于对待识别信息图片进行文字识别；对文字识别的结果进行纠偏，得到最终识别结果。通过对文字识别的结果进行纠偏，大大提升文字识别的准确度。

5、本发明示例的存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上的方法，通过综合运用文字识别和朴素贝叶斯算法，大大提升文字识别的准确度，同时可以对识别结果纠偏。

附图说明

图1为实施例一运单的真实联系人信息框图；

图2为实施例一联系人信息可选值范例框图；

图3为实施例一最终结果框图；

图4为实施例一的流程图。

具体实施方式

为了更好的了解本发明的技术方案，下面结合具体实施例、说明书附图对本发明作进一步说明。

实施例一：

本实施例的文字识别方法，包括：

获取待识别信息图片。

对待识别信息图片进行文字识别。

对文字识别的结果进行纠偏，得到最终识别结果。

其中，对文字识别的结果进行纠偏，包括：

筛选出该可选集合中概率值超过阈值的个体之前，包括：

进一步，待识别信息图片为运单图片。本实施例的总体架构是综合运用人工智能等前沿技术，对输入的手写运单图像信息进行文字识别OCR技术预处理后，再利用基于朴素贝叶斯的关系数据纠偏算法对OCR识别的结果进行纠偏，实现了手写运单的实时处理和准确率的极大提升。

为了改善OCR技术识别文字序列精度准确率较低(实验统计数据为29.65％)的弊端，本算法选取基于朴素贝叶斯的关系数据纠偏算法作为纠偏模型。该文字识别方法，步骤包括：

S1、获取运单图片。

S2、对运单图片进行文字识别。

S3、对文字识别的结果进行纠偏，得到最终识别结果。

该步骤包括：

S31、根据文字识别结果中的匹配识别信息从数据库中筛选出与该匹配识别信息相对应的目标识别信息的可选集合。

具体包括：

S311、基于运单图片文字识别的结果获取联系人匹配通讯信息；

S312、根据该匹配通讯信息从数据库中筛选出与其相对应的联系人信息，得到联系人信息可选集合。联系人信息包括姓名、电话、地址，联系人匹配通讯信息为电话。

S32、基于该可选集合的概率分布筛选出该可选集合中概率值超过阈值的个体，即为最终识别结果。筛选出该可选集合中概率值超过阈值的个体之前，包括：

具体包括：

S321、将联系人信息可选集合输入下述公式计算概率值Pr(C_candidate)，

计算公式为：

其中，C_candidate为联系人信息，confidence_i是文字识别OCR针对每个结果给出的可信度；n为C_OCR的数目。

S322、根据Pr(C_candidate)值对联系人信息可选集合中个体进行筛选，获取最终识别结果。

所述朴素贝叶斯的关系数据纠偏算法原理如下：

步骤(1)、根据OCR识别结果的电话C_OCR，从海量地址数据库中匹配该电话对应的数据库联系人信息C_candidate(包含姓名、电话、地址)，作为联系人信息可选集合，定义C_candidate为实际输入的概率如下，其中n是C_OCR的数目，confidence_i是OCR针对每个结果给出的可信度。

接着，根据P(N,P,A)＝P(C_candidate)，代入到公式(1)，得到如下公式(2)，其中{N,P,A}分别代表{Name,Phone,Address}，即{姓名，电话，地址}

步骤(2)、根据朴素贝叶斯公式，存在如下公式：

P(N,P,A,N'_i,P'_i,A'_i)＝P(N,P,A|N'_i,P'_i,A'_i)·P(N,P,A) (3)

P(N,P,A,N'_i,P'_i,A'_i)＝P(N'|N)·P(P'|P)·P(A'|A)·P(N,P,A) (4)

将公式(2)代入到公式(4)，得到公式(5)：

步骤(3)、根据多项式分布，分别计算Step2中P(N'_i|N)、P(P'_i|P)、P(A'_i|A)的取值。P(N'_i|N)的计算公式如下公式(6)，P(P'_i|P)、P(A'_i|A)的计算公式类似。其中，{c,d,i,r}的和为Name的长度，p_correct、p_delete、p_insert、p_replace是随机设定的一个初始概率值。

P(N'|N)＝exp(c·log(p_correct)+d·log(p_delete)+

i·log(p_insert)+r·log(p_replace)) (6)

步骤(4)、根据编辑距离来计算Step3中{c,d,i,r}的值。

根据上述步骤1-4计算得到Pr(C_candidate)，即为最高概率的期望识别结果，也就是最终识别结果。

进一步的，将上述基于OCR和朴素贝叶斯的关系数据纠偏算法模型运用到实际的手写运单识别中，对上述文字识别方法做进一步的描述，操作如下：

(1)获取一张纸质快递运单，该运单的真实联系人信息如下图1。

(2)该运单经由OCR处理后，得到如下图2所示的联系人信息可选值范例，其中右侧的数字表征该结果的confidence，即可信度。

(3)将OCR文字识别返回的结果，输入到上述关系数据纠偏算法模型中，具体步骤如下：

Step1，根据OCR识别结果中的电话，来逐一匹配海量地址数据库中该电话对应的地址可选集合。

Step2，将Step2选取出的地址集合根据编辑距离公式(7)，在cost最小的时候，可以计算得到{c,d,i,r}。

Step3，将{c,d,i,r}输入到多项式分布(6)中，计算得到{name,phone,address}各自的条件概率P(N'_i|N)、P(P'_i|P)、P(A'_i|A)。

Step4，再根据贝叶斯公式，以及已知的先验概率P(N,P,A)、OCR给出的confidence,可以计算得到概率分布，如图3所示，选取最大概率值对应的结果(图3中的第一条)，即为地址纠偏的结果，也就是最终识别结果。

可以看到，该纠偏结果不仅可以准确识别原始订单数据，而且还可以对地址进行纠错补全。经过实验证明，经过该朴素贝叶斯的关系数据纠偏算法后，手写运单的识别准确度得到了极大的提高。

本实施例提供了一种文字识别系统，包括：

采集单元，获取待识别信息图片；

文字识别单元，对待识别信息图片进行文字识别；

进一步的，对文字识别的结果进行纠偏，包括：

进一步的，待识别信息图片为运单图片。

本实施例提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

本实施例提供了提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上任一项所述的方法。

实施例二

本实施例与实施例一相同的特征不再赘述，本实施例与实施例一不同的特征在于：

本实施例的文字识别方法，包括：

获取待识别信息图片。

对待识别信息图片进行文字识别。

对文字识别的结果进行纠偏，得到最终识别结果。

其中，对文字识别的结果进行纠偏，包括：

本实施例的文字识别系统，包括：

采集单元，获取待识别信息图片；

文字识别单元，对待识别信息图片进行文字识别；

进一步的，对文字识别的结果进行纠偏，包括：

本实施例提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能。

Claims

1.一种文字识别方法，其特征是，包括以下步骤：

获取待识别信息图片；

对待识别信息图片进行文字识别；

对文字识别的结果进行纠偏，得到最终识别结果。

2.根据权利要求1所述的文字识别方法，其特征是，对文字识别的结果进行纠偏，包括：

3.根据权利要求2所述的文字识别方法，其特征是，筛选出该可选集合中概率值超过阈值的个体之前，包括：

4.根据权利要求1-3任一所述的文字识别方法，其特征是，待识别信息图片为运单图片。

5.根据权利要求4所述的文字识别方法，其特征是，根据文字识别结果中的匹配识别信息从数据库中筛选出与该匹配识别信息相对应的目标识别信息的可选集合，包括：

基于运单图片文字识别的结果获取联系人匹配通讯信息；

6.根据权利要求2所述的文字识别方法，其特征是，筛选出该可选集合中概率值超过阈值的个体，包括：

根据联系人信息可选集合计算概率值；

7.根据权利要求5所述的文字识别方法，其特征是，联系人信息包括姓名、电话、地址。

8.根据权利要求7所述的文字识别方法，其特征是，联系人匹配通讯信息为电话。

9.根据权利要求6所述的文字识别方法，其特征是，根据概率值对联系人信息可选集合中个体进行筛选之前，还包括：

10.根据权利要求9所述的文字识别方法，其特征是，基于编辑距离计算公式、多项式经所述概率值最终计算公式得到联系人信息可选集合的概率分布，包括：

11.根据权利要求6所述的文字识别方法，其特征是，根据概率值对联系人信息可选集合中个体进行筛选，获取最终识别结果,包括：

12.一种文字识别系统，其特征是，包括：

采集单元，获取待识别信息图片；

文字识别单元，对待识别信息图片进行文字识别；

13.根据权利要求12所述的文字识别系统，其特征是，基于朴素贝叶斯的关系数据纠偏算法对文字识别的结果进行纠偏，包括：

14.根据权利要求12或13所述的文字识别系统，其特征是，待识别信息图片为运单图片。

15.一种设备，其特征是，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-11中任一项所述的方法。

16.一种存储有计算机程序的计算机可读存储介质，其特征是，该程序被处理器执行时实现如权利要求1-11中任一项所述的方法。