CN114519856B - 航空发动机叶片字符明码识别结果的后处理判断校正方法 - Google Patents
航空发动机叶片字符明码识别结果的后处理判断校正方法 Download PDFInfo
- Publication number
- CN114519856B CN114519856B CN202210096262.7A CN202210096262A CN114519856B CN 114519856 B CN114519856 B CN 114519856B CN 202210096262 A CN202210096262 A CN 202210096262A CN 114519856 B CN114519856 B CN 114519856B
- Authority
- CN
- China
- Prior art keywords
- character
- sample library
- library
- result
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012805 post-processing Methods 0.000 title claims abstract description 40
- 239000000463 material Substances 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 11
- 238000003860 storage Methods 0.000 abstract description 2
- 230000009191 jumping Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种航空发动机叶片字符明码识别结果的后处理判断校正方法,首先输入叶片明码OCR识别字符结果,参考已有的包含所有明码字符的样本库和已识别输出字符的历史库,通过后处理判断校正方法判断OCR识别字符结果,若正确,则输出原字符为正确结果,不做校正处理;若不正确,则根据本发明所提出的判断校正方法对输入的OCR识别字符结果进行校正处理,最终输出所属于样本库的正确字符结果。通过本发明的应用,可以实现叶片明码字符自动OCR识别结果的判断校正,提高OCR明码字符识别的准确率,减少大批量叶片物料的人工查找核对过程,进而在此基础上打通叶片物料在仓储、物流和装配现场的信息化和自动化管理。
Description
技术领域
本发明属于字符识别技术领域,具体涉及一种字符明码识别结果的后处理判断校正方法。
背景技术
航空发动机叶片物料作为大批量、外形高度相似的零件,选配装配过程只能通过刻印在叶片榫头上的唯一凹陷字符明码人工识别挑选,不仅费事费力,而且难以实现发动机装配自动化和智能化。在人工智能领域,OCR字符识别技术被广泛应用于文字识别领域,通过采集包含字符的图像进而识别出有效字符。但是航空发动机叶片表面的凹陷刻印字符识别容易受到金属反光和环境干扰的影响,导致出现误识别情况,继而造成装配后部件平衡检测不合格,多次返工拖缓生产周期。叶片明码OCR识别结果必须要满足高可靠性要求,因此,需要对识别结果进行判断校正处理。针对以上问题,需要探究航空发动机叶片刻制凹陷字符明码识别结果后处理判断校正方法,在减少人工干涉的情况下,参考包含所有叶片编码信息的样本库,自动判断OCR识别出的字符结果是否与实际叶片编码字符一致,如果不一致则进行纠错处理,输出正确的字符。
中国专利公开CN105654082A公开了一种字符识别后处理的方法和装置,字符识别后处理方法是通过对获取的光学字符进行第一迭代减字分解处理,构造包含第一树状结构各节点的第一字符串集合,根据计算字符的后验概率,进行第一字符串的去错处理,得到第二字符串。该发明只针对包含汉字字符(如:胃食服液)进行了迭代删减字符处理,再进行后处理操作,一是面向的字符对象单一是不能覆盖字母和数字组合的输入字符情况,二是只进行删减字符的处理缩小了结果范围,容易陷入局部寻解。
现有技术的字符后处理方法没有充分利用已有数据资源的优点,将数据处理范围限制在已有数据样本库之内,因此,本发明专利通过引入样本库的约束规则,采用字符拆分和自适应概率计算的判断纠错方法,保证后处理结果准确可靠。
发明内容
为了克服现有技术的不足,本发明提供了一种航空发动机叶片字符明码识别结果的后处理判断校正方法,首先输入叶片明码OCR识别字符结果,参考已有的包含所有明码字符的样本库和已识别输出字符的历史库,通过后处理判断校正方法判断OCR识别字符结果,若正确,则输出原字符为正确结果,不做校正处理;若不正确,则根据本发明所提出的判断校正方法对输入的OCR识别字符结果进行校正处理,最终输出所属于样本库的正确字符结果。通过本发明的应用,可以实现叶片明码字符自动OCR识别结果的判断校正,提高OCR明码字符识别的准确率,减少大批量叶片物料的人工查找核对过程,进而在此基础上打通叶片物料在仓储、物流和装配现场的信息化和自动化管理。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:每个航空发动机叶片采用唯一的明码字符串进行表示;采用OCR字符识别方法识别叶片明码字符串,得到明码字符串识别结果S;
步骤2:定义样本库E,初始样本库为所有航空发动机叶片物料明码字符串识别结果集合;
定义历史库H,历史库为已经被识别航空发动机叶片物料明码字符串识别结果集合,初始历史库为空;满足
定义不规范字符库T为不符合航空发动机叶片明码字符串编码规范的字母字符集合,取值如下:
T={C,M,O,P,U,X}
定义符号函数F(z)对无法进行后处理判断校正的符号字符进行处理,z表示无法进行后处理判断校正的符号字符集合,符号函数F(z)取值表示如下:
F(z)=y1,当z={’.’,’。′,’yn’}时
其中,yn中y表示空格符号,n表示空格符号个数,n≥2且为整数,y1表示1个空格;
定义相似字符映射关系K(s)如下:
其中s为属于S的单字符;
步骤3:输入航空发动机叶片的明码字符串识别结果S;根据航空发动机叶片明码字符串编码规范将S拆成α行,第i行定义为字符单位Si;根据航空发动机叶片明码字符串编码规范将字符单位Si拆成βi个字符单元,定义第i行第j个字符单元为Sij;
S的结构如下:
Si的结构如下:
其中i=1,2,...,α,j=1,2,...,βi;
定义样本库E删除运算表达式如下:
E(S)=E-{S}
定义历史库H添加运算表达式如下:
H(S)=H+{S}
步骤3:对明码字符串识别结果S直接进行判断;
步骤3-1:对S进行规范化;
遍历S中的字符内容z′,字符内容z′是指S中的单个字符或连续多个字符:
如果则说明S符合航空发动机叶片明码字符串编码规范,转到步骤3-2;
如果则说明S包含不符合航空发动机叶片明码字符串编码规范的符号,将z′带进符号函数F(z)计算,将不合规范的符号替换更新,再转到步骤3-2;
步骤3-2:判断S和样本库E的从属关系:
如果则说明在样本库E中查找到了S,即输出S为正确结果;并执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;结束后处理判断校正的全部步骤;
如果则说明在样本库E中不存在输入字符S,则转到步骤3-3;
步骤3-3:对于S中每个单字符s执行相似字符映射关系K(s),再判断S和样本库E的从属关系:
如果则说明在样本库E中查找到了S,即输出S为正确结果;并执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;结束后处理判断校正的全部步骤;
如果则说明在样本库E中不存在输入字符S,则转到步骤4;
步骤4:根据航空发动机叶片明码字符串编码规范将S根据拆成α行字符单位Si;对字符单位Si进行判断;令i=1,集合集合/>
步骤4-1:判断字符单位Si和样本库E的从属关系:
如果则说明在样本库E中查找到了字符单位Si,将样本库中字符单位Si所属明码字符串识别结果作为候选结果,所有候选结果组成集合Ri;令p=i,将p加入集合α1,相应地将Ri表示为Rp;
如果则说明在样本库E中不存在字符单位Si,令q=i,将q加入集合α2,相应地将不属于E的Si表示为Sq;
步骤4-2:令i加1,重复执行步骤4-1,当i=α+1时进入步骤5;
步骤5:根据航空发动机叶片明码字符串编码规范将Sq拆分为βq个字符单元Sqr,r∈{1,2,...,βq};令r=1,集合集合/>
步骤5-1:判断字符单元Sqr和样本库E的从属关系:
如果则说明在样本库E中查找到了字符单元Sqr,将样本库中字符单元Sqr所属明码字符串识别结果作为候选结果,所有候选结果组成集合Rqr;令t=r,将qt加入集合α3,相应地将Rqr表示为Rqt;
如果则说明在样本库E中不存在字符单位Sqr,令u=r,将qu加入集合α4,相应地将不属于E的Sqr表示为Squ;
步骤5-2:令r加1,重复执行步骤5-1,当r=βq+1时进入步骤6;
步骤6:遍历集合α2中的所有q,重复执行步骤5;
步骤7:对字符单元Squ进行贝叶斯纠错操作;
步骤7-1:设样本库E中有Be种不同的规范字符单元;计算样本库的每种规范字符单元的词频,即先验概率:
其中Se表示样本库中不同的规范字符单元,e∈{1,2,...,Be};
步骤7-2:计算字符单元Squ的长度lqu和根据航空发动机叶片明码字符串编码规范中字符单元Squ所在位置的规范字符单元长度Lqu的编辑距离dqu,即dqu=lqu-Lqu:
步骤7-3:若dqu=-1或dqu=-2,则判定字符单元Squ包含的字符个数和规范相比少一个或两个字符,则执行贝叶斯纠错操作中的插入操作,形成新字符单元Squ′;转入步骤7-4;
若d21=0,则判定字符单元Squ包含的字符个数和规范一致,则执行贝叶斯纠错操作中的调换和替换操作,形成新字符单元Squ′;转入步骤7-4;
若d21=1或d21=2,则判定字符单元Squ包含的字符个数和规范相比多一个或两个字符,则执行贝叶斯纠错操作中的删除操作,形成新字符单元Squ′;转入步骤7-4;
若|dqu|>2,则判定字符单元Squ错误,通过人工核对更正S,使执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;结束后处理判断校正的全部步骤;
步骤7-4:计算字符单元Squ查找到正确的规范字符单元Se的概率:
令Se=Squ′;计算:
其中,P(Squ|Se)为编辑距离dqu;P(Squ)为采用贝叶斯纠错操作方法得到的概率值,为一个固定数值;
由于在贝叶斯纠错操作方法中得到的Squ′有多个,因此会得到多个P(Se|Squ),将P(Se|Squ)的值从大到小排列,取前D个值,在样本库中找到这D个值对应的Squ′所属明码字符串识别结果作为候选结果,所有候选结果组成集合Rqu;
步骤8:遍历集合α4中的所有qu,重复执行步骤7;
步骤9:计算其中/>表示对于集合α1中的所有的元素p对应的集合Rp求交集;/>表示对于集合α3中的所有的元素qt对应的集合Rqt求交集;/>表示对于集合α4中的所有的元素qu对应的集合Rqu求交集;
如果即输出Rs为正确结果;并执行运算E(Rs)和H(Rs),在样本库E中删除已输出字符Rs,历史库中H添加已输出字符Rs;结束后处理判断校正的全部步骤;
如果则转到步骤10;
步骤10:通过人工核对更正S,使执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;结束后处理判断校正的全部步骤。
优选地,所述OCR字符识别方法为百度OCR或Tesseract-OCR。
本发明的有益效果如下:
本发明通过制定叶片明码OCR识别结果后处理判断校正方法,对OCR识别的明码字符进行正误检查,判断识别结果是否存在有误的情况;通过字符明码后处理判断校正方法对输入的不正确OCR识别字符进行判断校正,提高了特定场景下OCR识别字符不正确情况的校正效率。本发明可以对OCR识别字符结果实现自动判断校正的功能,进而实现叶片的自动识别和信息追踪,减轻操作人员多次核对负担,并保证后处理判断校正后的字符结果满足高准确率的要求。
附图说明
图1为本发明方法流程图.
图2为本发明方法贝叶斯纠错处理流程图;
图3为本发明实施例处理判断校正方法输入的OCR识别字符、规范化字符及其拆分的字符单位和字符单元示例图。
图4为本发明实施例贝叶斯纠错算法的示例图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明对实现航空发动机叶片标识明码的识别与自动判断纠错,使操作人员能够快速认知叶片所属装配信息,并依据叶片编码信息进行信息化管理,进而在此基础上实现装配过程的零件自动识别和规划有着重要的现实意义和应用价值。通过引入样本库的约束规则,采用字符拆分和自适应概率计算的判断纠错方法,保证后处理结果准确可靠。旨在解决叶片物料在自动化OCR识别中,存在字符识别出错的情况,避免操作工人多次核对,减少人为因素干扰。
给定叶片明码OCR识别字符结果为本发明方法的输入,首先对输入字符进行字符间分割符号规范化,然后参考包含所有明码字符的样本库和已识别输出字符的历史库,进行字符匹配,判断输入字符是否为样本库和历史库中的元素;若属于样本库且不属于历史库,则输出为正确结果,并从样本库中剔除,录入到已识别输出的历史库中;反之,则根据不规范字符库进行相似字符处理,并进行上述字符匹配相同判断,若属于样本库且不属于历史库,则输出为正确结果;反之,则跳转到下一步;
将输入的整体字符按行拆分为多个字符单位,对每个字符单位进行样本库匹配,判断字符单位是否为样本库中的所属元素,若满足,输出该字符单位对应样本库中的原始明码字符为正确结果集合,对多个字符单位输出的多个正确结果集合进行求交集运算,输出同时满足的结果明码字符。判断该结果明码字符是否属于历史库,若不属于,即为正确结果,并从样本库中剔除,录入到已识别输出的历史库中;若属于,说明识别有误,则跳转到下一步;
将每个字符单位按叶片明码编码规则所包含的最小单元体拆分为多个字符单元,对每个字符单元进行样本库匹配,判断字符单元是否为样本库中的所属元素,若满足,输出该字符单元对应样本库中的原始明码字符为正确结果集合,对多个字符单元输出的多个正确结果集合进行求交集运算,输出同时满足的结果明码字符。判断该结果明码字符是否属于历史库,若不属于,即为正确结果,并从样本库中剔除,录入到已识别输出的历史库中;若属于,说明识别有误,则跳转到下一步;
以样本库作为训练集生成包含字符词频的词典,对字符单元进行自适应贝叶斯纠错,遍历样本库,查找字符单元纠错后对应样本库中的原始明码字符候选集合;对多个字符单元纠错后输出的多个原始明码字符候选集合进行求交集运算,输出同时满足的结果明码字符。判断该结果明码字符是否属于历史库,若不属于,即为正确结果,并从样本库中剔除,录入到已识别输出的历史库中;若属于,说明识别有误,人工核对无误后录入历史库中,从样本库中剔除,并赋予该明码最高优先权作为后续的比对判断依据。
一种航空发动机叶片字符明码识别结果的后处理判断校正方法,包括如下步骤:
步骤1:每个航空发动机叶片采用唯一的明码字符串进行表示;采用OCR字符识别方法,如百度OCR或Tesseract-OCR识别叶片明码字符串,得到明码字符串识别结果;
步骤2:定义样本库E,初始样本库为所有航空发动机叶片物料明码字符串识别结果集合;
定义历史库H,历史库为已经被识别航空发动机叶片物料明码字符串识别结果集合,初始历史库为空;满足
定义不规范字符库T为不符合航空发动机叶片明码字符串编码规范的字母字符集合,取值如下:
T={C,M,O,P,U,X}
定义符号函数F(z)对无法进行后处理判断校正的符号字符进行处理,z表示无法进行后处理判断校正的符号字符集合,符号函数F(z)取值表示如下:
F(z)=y1,当z={’.’,’。′,’yn’}时
其中,yn中y表示空格符号,n表示空格符号个数,n之2且为整数,y1表示1个空格;
定义相似字符映射关系K(s)如下:
其中s为属于S的单字符;
步骤3:输入航空发动机叶片的明码字符串识别结果S;根据航空发动机叶片明码字符串编码规范将S拆成α行,第i行定义为字符单位Si;根据航空发动机叶片明码字符串编码规范将字符单位Si拆成βi个字符单元,定义第i行第j个字符单元为Sij;
S的结构如下:
Si的结构如下:
其中i=1,2,...,α,j=1,2,...,βi;
定义样本库E删除运算表达式如下:
E(S)=E-{S}
定义历史库H添加运算表达式如下:
H(S)=H+{S}
步骤3:对明码字符串识别结果S直接进行判断;
步骤3-1:对S进行规范化;
遍历S中的字符内容z′,字符内容z′是指S中的单个字符或连续多个字符:
如果则说明S符合航空发动机叶片明码字符串编码规范,转到步骤3-2;
如果则说明S包含不符合航空发动机叶片明码字符串编码规范的符号,将z′带进符号函数F(z)计算,将不合规范的符号替换更新,再转到步骤3-2;
步骤3-2:判断S和样本库E的从属关系:
如果则说明在样本库E中查找到了S,即输出S为正确结果;并执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;结束后处理判断校正的全部步骤;
如果则说明在样本库E中不存在输入字符S,则转到步骤3-3;
步骤3-3:对于S中每个单字符s执行相似字符映射关系K(s),再判断S和样本库E的从属关系:
如果则说明在样本库E中查找到了S,即输出S为正确结果;并执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;结束后处理判断校正的全部步骤;
如果则说明在样本库E中不存在输入字符S,则转到步骤4;
步骤4:根据航空发动机叶片明码字符串编码规范将S根据拆成α行字符单位Si;对字符单位Si进行判断;令i=1,集合集合/>
步骤4-1:判断字符单位Si和样本库E的从属关系:
如果则说明在样本库E中查找到了字符单位Si,将样本库中字符单位Si所属明码字符串识别结果作为候选结果,所有候选结果组成集合Ri;令p=i,将p加入集合α1,相应地将Ri表示为Rp;
如果则说明在样本库E中不存在字符单位Si,令q=i,将q加入集合α2,相应地将不属于E的Si表示为Sq;
步骤4-2:令i加1,重复执行步骤4-1,当i=α+1时进入步骤5;
步骤5:根据航空发动机叶片明码字符串编码规范将Sq拆分为βq个字符单元Sqr,r∈{1,2,...,βq};令r=1,集合集合/>
步骤5-1:判断字符单元Sqr和样本库E的从属关系:
如果则说明在样本库E中查找到了字符单元Sqr,将样本库中字符单元Sqr所属明码字符串识别结果作为候选结果,所有候选结果组成集合Rqr;令t=r,将qt加入集合α3,相应地将Rqr表示为Rqt;
如果则说明在样本库E中不存在字符单位Sqr,令u=r,将qu加入集合α4,相应地将不属于E的Sqr表示为Squ;
步骤5-2:令r加1,重复执行步骤5-1,当r=βq+1时进入步骤6;
步骤6:遍历集合α2中的所有q,重复执行步骤5;
步骤7:对字符单元Squ进行贝叶斯纠错操作;
步骤7-1:设样本库E中有Be种不同的规范字符单元;计算样本库的每种规范字符单元的词频,即先验概率:
其中Se表示样本库中不同的规范字符单元,e∈{1,2,...,Be};
步骤7-2:计算字符单元Squ的长度lqu和根据航空发动机叶片明码字符串编码规范中字符单元Squ所在位置的规范字符单元长度Lqu的编辑距离dqu,即dqu=lqu-Lqu:
步骤7-3:若dqu=-1或dqu=-2,则判定字符单元Squ包含的字符个数和规范相比少一个或两个字符,则执行贝叶斯纠错操作中的插入操作,形成新字符单元Squ′;转入步骤7-4;
若d21=0,则判定字符单元Squ包含的字符个数和规范一致,则执行贝叶斯纠错操作中的调换和替换操作,形成新字符单元Squ′;转入步骤7-4;
若d21=1或d21=2,则判定字符单元Squ包含的字符个数和规范相比多一个或两个字符,则执行贝叶斯纠错操作中的删除操作,形成新字符单元Squ′;转入步骤7-4;
若|dqu|>2,则判定字符单元Squ包含的字符个数和规范相比相差太多,属于有问题的识别字符,需要人工核对录入样本库E,通过人工核对更正S,使执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;结束后处理判断校正的全部步骤;
步骤7-4:计算字符单元Squ查找到正确的规范字符单元Se的概率:
令Se=Squ′;计算:
其中,P(Squ|Se)为编辑距离dqu;P(Squ)为采用贝叶斯纠错操作方法得到的概率值,为一个固定数值;
由于在贝叶斯纠错操作方法中得到的Squ′有多个,因此会得到多个P(Se|Squ),将P(Se|Squ)的值从大到小排列,取前D个值,在样本库中找到这D个值对应的Squ′所属明码字符串识别结果作为候选结果,所有候选结果组成集合Rqu;
步骤8:遍历集合α4中的所有qu,重复执行步骤7;
步骤9:计算其中/>表示对于集合α1中的所有的元素p对应的集合Rp求交集;/>表示对于集合α3中的所有的元素qt对应的集合Rqt求交集;/>表示对于集合α4中的所有的元素qu对应的集合Rqu求交集;
如果即输出Rs为正确结果;并执行运算E(Rs)和H(Rs),在样本库E中删除已输出字符Rs,历史库中H添加已输出字符Rs;结束后处理判断校正的全部步骤;
如果则转到步骤10;
步骤10:通过人工核对更正S,使执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;结束后处理判断校正的全部步骤。
具体实施例:
选用任何一种OCR字符识别方法,例如百度OCR、Tesseract-OCR等识别叶片明码字符,并以此作为本发明后处理判断校正方法的输入;
输入用于匹配的参考数据信息包括样本库、历史库、不规范字符库、符号库和相似字符映射关系;
(1)输入OCR明码字符结果S,如图3示例中的一种叶片明码字符识别结果,进行以下判断:
遍历S中的字符内容z′,字符内容z′是指S中的单个字符或连续多个字符:
·如果则说明S符合航空发动机叶片明码字符串编码规范,跳转到第(2)步继续进行判断;
·如果z′∈z,则说明S包含不符合航空发动机叶片明码字符串编码规范的符号,将z′带进符号函数F(z)计算,将不符合航空发动机叶片明码字符串编码规范的符号替换更新,跳转到第(2)步继续进行判断;
(2)对规范化后的S,如图3示例中的第一步操作后的规范化字符,进行以下判断:
计算S和样本库E的所属关系:
·得到则说明在样本库E中查找到了S,即输出S为正确结果;并执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;
·反之,则说明在样本库E中不存在S,跳转到第(3)步继续进行判断;
(3)对样本库E中不存在的S,进行以下判断:
执行相似字符纠错运算K(s),重新计算纠错后S和样本库E的所属关系:
·得到则说明在样本库E中查找到了S,即输出S为正确结果;并执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;
·反之,则说明在样本库E中不存在S,跳转到第(4)步继续进行判断;
(4)对不存在的S,按行拆分为S1和S2两个字符单位,如图3示例中的第二步操作后的字符单位,对S1和S2进行同第(2)步的判断操作:
①计算字符单位S2和样本库E的所属关系:
·得到则说明在样本库E中查找到了字符单位S2,但是由于字符单位S2可能存在对应多个候选字符的情况,即输出S2对应的多个候选字符的集合R2;
·得到则说明在样本库E中不存在字符单位S2,跳转到第(5)步继续进行判断;
②同上,计算字符单位S1和样本库E的所属关系:
·得到输出S2对应的多个候选字符的集合R2;
·得到跳转到第(5)步继续进行判断;
(5)对不存在的字符单位S1或S2,以S2为例,按间隔符拆分为S21、S22和S23三个字符单元,如图3示例中的第三步操作后的字符单元,对S21、S22和S23进行同第(2)步的判断操作,下面以S21判断过程为例,S22和S23判断过程同理:
①计算字符单元S21和样本库E的所属关系:
·得到则说明在样本库E中查找到了字符单元S21,但是由于字符单元S21可能存在对应多个候选字符的情况,即输出S21对应的多个候选字符的集合R21;
·得到则说明在样本库E中不存在字符单元S21,跳转到第(6)步继续进行判断;
②同上,计算字符单元S22和样本库E的所属关系:
·得到输出S12对应的多个候选字符的集合R22;
·得到跳转到第(6)步继续进行判断;
③同上,计算字符单元S23和样本库E的所属关系:
·得到输出S23对应的多个候选字符的集合R23;
·得到跳转到第(6)步继续进行判断;
(6)对不存在的字符单元S21或S22或S23,以S21为例,进行贝叶斯纠错操作,S22和S23的操作过程同理:
①计算样本库的所有字符的词频,即先验概率:
②计算字符单元长度l21和规范字符长度L21的编辑距离d21,即d21=l21-L21:
·若d21=-1或d21=-2,则认为字符单元包含的字符个数和规范相比少一个或两个字符,执行贝叶斯操作中的插入操作,跳转到第(6)大步中的第③小步继续进行纠错;
·若d21=0,则认为字符单元包含的字符个数和规范一致,执行贝叶斯操作中的调换和替换操作,跳转到第(6)大步中的第③小步继续进行纠错;
·若d21=1或d21=2,则认为字符单元包含的字符个数和规范相比多一个或两个字符,执行贝叶斯操作中的删除操作,跳转到第(6)大步中的第③小步继续进行纠错;
·若|d21|>2,则认为字符单元包含的字符个数和规范相比相差太多,属于有问题的识别字符,需要人工核对录入样本库E;
③对字符单元S21进行贝叶斯纠错,计算在给定字符单元S21的情况下查找到正确字符单元Se的概率:
其中,P(S21|Se)为编辑距离d21;
由于P(S21)为固定值,则上式可简写为:
P(Se|S21)∝P(S21|Se)*P(Se)
将P(Se|S21)的值从大到小排列,取前5个值,如图4示例中的第一步操作后的字符单元,在样本库E中查找对应字符并组成集合R21,如图4示例中的第二步和第三步操作后的字符集合;
④同上,对字符单元S22进行贝叶斯纠错操作:
·若|d22|≤2,对S22进行贝叶斯纠错,在样本库E中查找对应字符并组成集合R22;
·若|d22|>2,需要人工核对录入样本库E;
⑤同上,对字符单元S23进行贝叶斯纠错操作:
·若|d23|≤2,对S23进行贝叶斯纠错,在样本库E中查找对应字符并组成集合R23;
·若|d23|>2,需要人工核对录入样本库E;
(7)同第(5)步和第(6)步中针对S2的操作过程,对S1进行相同操作,得到字符单元S21、S22和S23的集合R11、R12和R13,
①计算R11∩R12∩R13∩R21∩R22∩R23:
·得到即输出候选字符Rs为正确结果;并执行运算E(Rs)和H(Rs),在样本库E中删除已输出字符Rs,历史库中H添加已输出字符Rs;
·得到则说明在样本库E中不存在字符Rs,跳转到第(8)步继续进行;
(8)经过判断矫正的字符结果Rs仍然有误,需要人工核对录入字符S,并执行运算E(S)和H(S),在样本库E中删除已输出字符S,历史库H中添加已输出字符S;并将此人工输入的字符S赋予历史库H中的准确率最高优先权,优化数据结构。
Claims (2)
1.一种航空发动机叶片字符明码识别结果的后处理判断校正方法,其特征在于,包括如下步骤:
步骤1:每个航空发动机叶片采用唯一的明码字符串进行表示;采用OCR字符识别方法识别叶片明码字符串,得到明码字符串识别结果S;
步骤2:定义样本库E,初始样本库为所有航空发动机叶片物料明码字符串识别结果集合;
定义历史库H,历史库为已经被识别航空发动机叶片物料明码字符串识别结果集合,初始历史库为空;满足
定义不规范字符库T为不符合航空发动机叶片明码字符串编码规范的字母字符集合,取信如下:
T={C,M,O,P,U,X}
定义符号函数F(z)对无法进行后处理判断校正的符号字符进行处理,z表示无法进行后处理判断校正的符号字符集合,符号函数F(z)取值表示如下:
F(z)=y1,当时
其中,yn中y表示空格符号,n表示空格符号个数,n≥2且为整数,y1表示1个空格;
定义相似字符映射关系K(s)如下:
其中s为属于S的单字符;
步骤3:输入航空发动机叶片的明码字符串识别结果S;根据航空发动机叶片明码字符串编码规范将S拆成α行,第i行定义为字符单位Si;根据航空发动机叶片明码字符串编码规范将字符单位Si拆成βi个字符单元,定义第i行第j个字符单元为Sij;
S的结构如下:
Si的结构如下:
其中i=1,2,...,α,j=1,2,...,βi;
定义样本库E删除运算表达式如下:
E(S)=E-{S}
定义历史库H添加运算表达式如下:
H(S)=H+{S}
步骤3:对明码字符串识别结果S直接进行判断;
步骤3-1:对S进行规范化;
遍历S中的字符内容z′,字符内容z′是指S中的单个字符或连续多个字符:
如果则说明S符合航空发动机叶片明码字符串编码规范,转到步骤3-2;
如果z′∈z,则说明S包含不符合航空发动机叶片明码字符串编码规范的符号,将z′带进符号函数F(z)计算,将不合规范的符号替换更新,再转到步骤3-2;
步骤3-2:判断S和样本库E的从属关系:
如果则说明在样本库E中查找到了S,即输出S为正确结果;并执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;结束后处理判断校正的全部步骤;
如果则说明在样本库E中不存在输入字符S,则转到步骤3-3;
步骤3-3:对于S中每个单字符s执行相似字符映射关系K(s),再判断S和样本库E的从属关系:
如果则说明在样本库E中查找到了S,即输出S为正确结果;并执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;结束后处理判断校正的全部步骤;
如果则说明在样本库E中不存在输入字符S,则转到步骤4;
步骤4:根据航空发动机叶片明码字符串编码规范将S根据拆成α行字符单位Si;对字符单位Si进行判断;令i=1,集合集合/>
步骤4-1:判断字符单位Si和样本库E的从属关系:
如果则说明在样本库E中查找到了字符单位Si,将样本库中字符单位Si所属明码字符串识别结果作为候选结果,所有候选结果组成集合Ri;令p=i,将p加入集合α1,相应地将Ri表示为Rp;
如果则说明在样本库E中不存在字符单位Si,令q=i,将q加入集合α2,相应地将不属于E的Si表示为Sq;
步骤4-2:令i加1,重复执行步骤4-1,当i=α+1时进入步骤5;
步骤5:根据航空发动机叶片明码字符串编码规范将Sq拆分为βq个字符单元Sqr,r∈{1,2,...,βq};令r=1,集合集合/>
步骤5-1:判断字符单元Sqr和样本库E的从属关系:
如果则说明在样本库E中查找到了字符单元Sqr,将样本库中字符单元Sqr所属明码字符串识别结果作为候选结果,所有候选结果组成集合Rqr;令t=r,将qt加入集合α3,相应地将Rqr表示为Rqt;
如果则说明在样本库E中不存在字符单位Sqr,令u=r,将qu加入集合α4,相应地将不属于E的Sqr表示为Squ;
步骤5-2:令r加1,重复执行步骤5-1,当r=βq+1时进入步骤6;
步骤6:遍历集合α2中的所有q,重复执行步骤5;
步骤7:对字符单元Squ进行贝叶斯纠错操作;
步骤7-1:设样本库E中有Be种不同的规范字符单元;计算样本库的每种规范字符单元的词频,即先验概率:
其中Se表示样本库中不同的规范字符单元,e∈{1,2,...,Be};
步骤7-2:计算字符单元Squ的长度lqu和根据航空发动机叶片明码字符串编码规范中字符单元Squ所在位置的规范字符单元长度Lqu的编辑距离dqu,即dqu=lqu-Lqu:
步骤7-3:若dqu=-1或dqu=-2,则判定字符单元Squ包含的字符个数和规范相比少一个或两个字符,则执行贝叶斯纠错操作中的插入操作,形成新字符单元Squ′;转入步骤7-4;
若d21=0,则判定字符单元Squ包含的字符个数和规范一致,则执行贝叶斯纠错操作中的调换和替换操作,形成新字符单元Squ′;转入步骤7-4;
若d21=1或d21=2,则判定字符单元Squ包含的字符个数和规范相比多一个或两个字符,则执行贝叶斯纠错操作中的删除操作,形成新字符单元Squ′;转入步骤7-4;
若|dqu|>2,则判定字符单元Squ错误,通过人工核对更正S,使执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;结束后处理判断校正的全部步骤;
步骤7-4:计算字符单元Squ查找到正确的规范字符单元Se的概率:
令Se=Squ′;计算:
其中,P(Squ|Se)为编辑距离dqu;P(Squ)为采用贝叶斯纠错操作方法得到的概率值,为一个固定数值;
由于在贝叶斯纠错操作方法中得到的Squ′有多个,因此会得到多个P(Se|Squ),将P(Se|Squ)的值从大到小排列,取前D个值,在样本库中找到这D个值对应的Squ′所属明码字符串识别结果作为候选结果,所有候选结果组成集合Rqu;
步骤8:遍历集合α4中的所有qu,重复执行步骤7;
步骤9:计算其中/>表示对于集合α1中的所有的元素p对应的集合Rp求交集;/>表示对于集合α3中的所有的元素qt对应的集合Rqt求交集;/>表示对于集合α4中的所有的元素qu对应的集合Rqu求交集;
如果即输出Rs为正确结果;并执行运算E(Rs)和H(Rs),在样本库E中删除已输出字符Rs,历史库中H添加已输出字符Rs;结束后处理判断校正的全部步骤;
如果则转到步骤10;
步骤10:通过人工核对更正S,使执行运算E(S)和H(S),在样本库E中删除S,历史库H中添加S;结束后处理判断校正的全部步骤。
2.根据权利要求1所述的一种航空发动机叶片字符明码识别结果的后处理判断校正方法,所述OCR字符识别方法为百度OCR或Tesseract-OCR。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210096262.7A CN114519856B (zh) | 2022-01-26 | 2022-01-26 | 航空发动机叶片字符明码识别结果的后处理判断校正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210096262.7A CN114519856B (zh) | 2022-01-26 | 2022-01-26 | 航空发动机叶片字符明码识别结果的后处理判断校正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114519856A CN114519856A (zh) | 2022-05-20 |
CN114519856B true CN114519856B (zh) | 2024-02-09 |
Family
ID=81596079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210096262.7A Active CN114519856B (zh) | 2022-01-26 | 2022-01-26 | 航空发动机叶片字符明码识别结果的后处理判断校正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114519856B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016206446A1 (zh) * | 2015-06-26 | 2016-12-29 | 信码互通(北京)科技有限公司 | 具有纠错功能的字符编码方法、字符解码方法及其产品 |
CN110414524A (zh) * | 2019-07-29 | 2019-11-05 | 北京航空航天大学 | 一种航空线缆编码的字符识别结果推理纠错方法 |
US10963717B1 (en) * | 2018-12-21 | 2021-03-30 | Automation Anywhere, Inc. | Auto-correction of pattern defined strings |
CN113128504A (zh) * | 2021-04-25 | 2021-07-16 | 福州符号信息科技有限公司 | 一种基于校验规则的ocr识别结果纠错方法、设备 |
-
2022
- 2022-01-26 CN CN202210096262.7A patent/CN114519856B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016206446A1 (zh) * | 2015-06-26 | 2016-12-29 | 信码互通(北京)科技有限公司 | 具有纠错功能的字符编码方法、字符解码方法及其产品 |
US10963717B1 (en) * | 2018-12-21 | 2021-03-30 | Automation Anywhere, Inc. | Auto-correction of pattern defined strings |
CN110414524A (zh) * | 2019-07-29 | 2019-11-05 | 北京航空航天大学 | 一种航空线缆编码的字符识别结果推理纠错方法 |
CN113128504A (zh) * | 2021-04-25 | 2021-07-16 | 福州符号信息科技有限公司 | 一种基于校验规则的ocr识别结果纠错方法、设备 |
Non-Patent Citations (2)
Title |
---|
基于OCR的拼写校正系统;赵莉;;兵工自动化(09);全文 * |
基于贝叶斯纠错的AR辅助飞机装配数据纠错方法;肖文磊;邹捷;冯江伟;赵罡;;航空制造技术(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114519856A (zh) | 2022-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614614B (zh) | 一种基于自注意力的bilstm-crf产品名称识别方法 | |
Scheidl et al. | Word beam search: A connectionist temporal classification decoding algorithm | |
CN114492363B (zh) | 一种小样本微调方法、系统及相关装置 | |
CN1107283C (zh) | 手写体输入字符识别的方法和设备 | |
CN111860981B (zh) | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 | |
US20070162445A1 (en) | System and method for searching and matching data having ideogrammatic content | |
CN100356392C (zh) | 一种字符识别的后处理方法 | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
CN116737967B (zh) | 一种基于自然语言的知识图谱构建和完善系统及方法 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN114580392B (zh) | 一种识别实体的数据处理系统 | |
WO2003012685A2 (en) | A data quality system | |
CN109344387B (zh) | 形近字字典的生成方法、装置和形近字纠错方法、装置 | |
CN110059705B (zh) | 一种基于建模的ocr识别结果判决方法和设备 | |
CN115293138B (zh) | 一种文本纠错方法及计算机设备 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
US20200226325A1 (en) | Converting unstructured technical reports to structured technical reports using machine learning | |
CN114612921A (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
US20110229036A1 (en) | Method and apparatus for text and error profiling of historical documents | |
CN114519856B (zh) | 航空发动机叶片字符明码识别结果的后处理判断校正方法 | |
CN114677689B (zh) | 一种文字图像识别纠错方法和电子设备 | |
CN112651590B (zh) | 一种指令处理流程推荐的方法 | |
CN111898623B (zh) | 一种字符识别方法、装置及电子设备 | |
Mohapatra et al. | Spell checker for OCR | |
JP7512630B2 (ja) | くずし字認識システム、くずし字認識方法、データセットの作成方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |