CN113903048A - 一种用于快递领域票据识别文本纠错方法 - Google Patents
一种用于快递领域票据识别文本纠错方法 Download PDFInfo
- Publication number
- CN113903048A CN113903048A CN202111207447.2A CN202111207447A CN113903048A CN 113903048 A CN113903048 A CN 113903048A CN 202111207447 A CN202111207447 A CN 202111207447A CN 113903048 A CN113903048 A CN 113903048A
- Authority
- CN
- China
- Prior art keywords
- character
- word
- characters
- char
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
Abstract
文字识别是利用OCR技术将图片上的文字智能识别成可编辑的文字,可极大提高信息处理的效率。由于复杂的背景、各种字体、成像条件(图像拍摄光线、角度等),经常存在文字识别错误的问题。识别错误会逐级传递放大,并累积至后续链路。因此,有必要对OCR之后的文字进行进一步纠错处理。本专利针对快递领域票据识别场景,提出了一种文本纠错处理方法。采用基于字形混合语言模型进行错误检测,然后替换错原句子中错误字符,通过计算句子得分获取纠正后的句子。该方法在实际应用中能获取较高的准确率和误纠率。从而提升后续NLP任务的性能,提升用户体验。
Description
技术领域
本发明发明属于自然语言处理邻域,尤其涉及到一种快递领域票据文字识别后文本纠错方法。
背景技术
快递领域票据识别是利用OCR技术将图片上的文字智能识别成可编辑的文字,可极大提高信息处理的效率。现阶段OCR技术已经比较成熟,由于复杂的背景、各种字体、成像条件(图像拍摄光线、角度等),经常存在文字识别错误的问题。识别错误会逐级传递放大,并累积至后续链路。因此,有必要对OCR之后的文字进行进一步纠错处理。中文纠错系统主要有基于pipeline串联和联合模型两种方法。前者把系统分为检错和纠错环节,每个模型解决具体的特定问题,然后串联起来得到最后结果。此方法便于问题分析,能够针对各个问题进行重点突破,但也存在错误级联传递的问题。第二种方法采用端到端联合学习的方式,单个模型就能完成纠错任务。但在真实应用环境中,经常存在语料缺失,标注成本高,训练代价大的问题。本专利针对快递领域票据识别场景,提出了一种文本纠错处理方法。采用基于字形混合语言模型进行错误检测,然后替换错原句子中错误字符,通过计算句子得分获取纠正后的句子。该方法在实际应用中能获取较高的准确率和误纠率。
发明内容
本发明提供的一种多轮对话系统的指代消解方法,包括以下步骤:
Step1:输入OCR识别字符置信度和每个字词的n-gram检测概率值做加权,求得概率,根据阈值进行检错。
Step2:利用领域语料进行候选集构建和字向量训练,获得字形相似度候选集和字向量。
Step3:根据错误字候选集,对候选字做句子流畅度检测和词向量距离计算,获得新句子的得分。
Step4:重复步骤Step3,使句子得分最大的替换结果作为最终结果,纠错完成。
进一步,步骤Step1中,根据如下方法进行错误字符检测:
检错部分我们采用OCR识别的置信度,即预测是哪个汉字时softmax输出的概率值,我们只处理置信度低的字符,即汉字的置信度越低,错误的概率越大。除此之外,我们还利用n-gram信息进行检错。利用两部分的加权我们获得字符的最终出错的概率。我们用加权值Pchar来衡量,如下:
Pchar=α*Pocr+β*Pgram
其中Pchar为文字识别模型中softmax输出的概率值,Pgram为n-gram检测概率值。理论上使用神经网络训练出的语言模型效果将会更好一些,但是考虑训练效率成本等因素,我们选择使用n-gram模型。α,β为权重,且二者加和为1。
对文本字符串按字符进行切分,切分结果保存为word_list。获取字符char左3-gram字符串(left 3-gram string,l3gs),即target_text中位于字符char左边且紧挨着字符的长度为3的字符串,并判断l3gs是否包含在字符char的l3gs列表(记为list_l3gs)中。如果包含,则字符char的l3gs的匹配状态(记为state_l3gs)为ture,否则为false。接着,获取字符char右3-gram字符串(right 3-gram string,r3gs),即target_text中位于字符char右边且紧挨word的长度为3的字符串,并判断r3gs是否包含在字符char的r3gs列表(记为list_r3gs)中。如果包含,则字符char的r3gs的匹配状态(记为state_r3gs)为ture,否则为false。如果字符char的l3gs的匹配状态state_l3gs和r3gs的匹配状态state_r3gs均为false,则字符char被判定为异常词Pgram值记为1,反之则为0。
当Pchar小于阈值T时,我们认为该字符出现错误。T为人工设定值。
进一步,步骤Step2中,根据如下方法进行候选集构建:
我们采用机器加人工的方式构建垂直领域候选集。候选集包括形似字候选集和组合字候选集。OCR识别错误通常为字形错误,其中包括单字错误和组合体错误。单字错误表现为单个汉字误识别为单个错误汉字。组合体错误表现为单个汉字识别为多个汉字或多个汉字识别为一个汉字。这里的组合主要为左右组合,如”圳“可以拆分为”土“和”川“的组合,或者二者形近字的组合。“日”“月”可以被误识别成“明”字。上下组合类型在本文中暂不考虑。
候选集构建,我们考虑偏旁部首、汉字结构、笔画数、全码表等特征,其映射值分别为v1,v2,v3,v4,进而获得每汉字的特征向量[v1,v2,v3,v4],通过两两计算获得汉字之间的相似度,然后排序取top10,经过人工校正,最终获取每个汉字的形似字候选集D1。对于左右组合字,我们选定基础部件,采用全自动随机组合的方式进行检索,获得左右组合可替换候选集D2。
进一步,步骤Step3、Step4中,根据如下方法进行文本纠错:
检测出错误字符后,我们开始对错误字符进行纠正。字符纠错部分我们采用候选集替换的方式。
从字形相似度候选集中挑选字符进行替换并计算替换后句子的合理程度。一般而言,语言模型可以很好的衡量句子的流畅度,保证语法上的合理性。但还存在语法合理性的基础上,哪个字或词在语境上更合理的问题。因此我们加入候选字与上下文语境相似度的计算来衡量句子的合理度。
句子合理度我们用得分Score_sen来计算,如下公式所示:
Score_sen=Score_ngram+Score_vector
其中,Score_ngram为错字进行候选字替换后句子的流畅度。句子流畅度检测是扫描整个句子,计算每个字/词的概率,然后概率做乘积运算。由于字词概率都会远小于1,导致乘起来后值过小,一般语言模型都会采用log概率,即计算出概率后再对其取对数,将乘出来的数称为句子流畅度。
通过领域语料训练获得字向量,Score_vector为候选字符与文本字符串之间的语义距离,其为候选字符向量与上下文向量的余弦相似度。
假设待纠错文本由n个字符组成,第i个字的字向量用表示,则待纠错文本的句向量表示为候选字向量用vj表示,则候选字的向量表示为Vcdt,则待纠错文本与候选字之间的语义相似度为Vsen*Vcdt/(|Vsen|*|Vcdt|):
Score_vector=Vsen*Vcdt/(|Vsen|*|Vcdt|)
最终选取能使Score_sen值最大的字符作为最终的替换字符。其中,替换包括单字替换和组合字替换,单字替换直接将错误字符替换为候选字符,组合替换将左右组合的双字替换为单字。
本发明的有益效果:通过本发明,能够对快递领域票据识别进行文本纠错,有益于后续链路的自然语言处理子任务,在实际应用中提升票据识别信息提取的准确率,提升用户体验。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的流程图。
具体实施方式
以下对本发明做出进一步详细说明:
本发明提供的一种快递领域票据文字识别后文本纠错方法,包括以下步骤:
Step1:输入OCR识别字符置信度和每个字词的n-gram检测概率值做加权,求得概率,根据阈值进行检错。
Step2:利用领域语料进行候选集构建和字向量训练,获得字形相似度候选集和字向量。
Step3:根据错误字候选集,对候选字做句子流畅度检测和词向量距离计算,获得新句子的得分。
Step4:重复步骤Step3,使句子得分最大的替换结果作为最终结果,纠错完成。
进一步,步骤Step1中,根据如下方法进行错误字符检测:
检错部分我们采用OCR识别的置信度,即预测是哪个汉字时softmax输出的概率值,我们只处理置信度低的字符,即汉字的置信度越低,错误的概率越大。除此之外,我们还利用n-gram信息进行检错。利用两部分的加权我们获得字符的最终出错的概率。我们用加权值Pchar来衡量,如下:
Pchar=α*Pocr+β*Pgram
其中Pchar为文字识别模型中softmax输出的概率值,Pgram为n-gram检测概率值。理论上使用神经网络训练出的语言模型效果将会更好一些,但是考虑训练效率成本等因素,我们选择使用n-gram模型。α,β为权重,且二者加和为1。
对文本字符串按字符进行切分,切分结果保存为word_list。获取字符char左3-gram字符串(left 3-gram string,l3gs),即target_text中位于字符char左边且紧挨着字符的长度为3的字符串,并判断l3gs是否包含在字符char的l3gs列表(记为list_l3gs)中。如果包含,则字符char的l3gs的匹配状态(记为state_l3gs)为ture,否则为false。接着,获取字符char右3-gram字符串(right 3-gram string,r3gs),即target_text中位于字符char右边且紧挨word的长度为3的字符串,并判断r3gs是否包含在字符char的r3gs列表(记为list_r3gs)中。如果包含,则字符char的r3gs的匹配状态(记为state_r3gs)为ture,否则为false。如果字符char的l3gs的匹配状态state_l3gs和r3gs的匹配状态state_r3gs均为false,则字符char被判定为异常词Pgram值记为1,反之则为0。
当Pchar小于阈值T时,我们认为该字符出现错误。T为人工设定值。
进一步,步骤Step2中,根据如下方法进行候选集构建:
我们采用机器加人工的方式构建垂直领域候选集。候选集包括形似字候选集和组合字候选集。OCR识别错误通常为字形错误,其中包括单字错误和组合体错误。单字错误表现为单个汉字误识别为单个错误汉字。组合体错误表现为单个汉字识别为多个汉字或多个汉字识别为一个汉字。这里的组合主要为左右组合,如”圳“可以拆分为”土“和”川“的组合,或者二者形近字的组合。“日”“月”可以被误识别成“明”字。上下组合类型在本文中暂不考虑。
候选集构建,我们考虑偏旁部首、汉字结构、笔画数、全码表等特征,其映射值分别为v1,v2,v3,v4,进而获得每汉字的特征向量[v1,v2,v3,v4],通过两两计算获得汉字之间的相似度,然后排序取top10,经过人工校正,最终获取每个汉字的形似字候选集D1。对于左右组合字,我们选定基础部件,采用全自动随机组合的方式进行检索,获得左右组合可替换候选集D2。
进一步,步骤Step3、Step4中,根据如下方法进行文本纠错:
检测出错误字符后,我们开始对错误字符进行纠正。字符纠错部分我们采用候选集替换的方式。
从字形相似度候选集中挑选字符进行替换并计算替换后句子的合理程度。一般而言,语言模型可以很好的衡量句子的流畅度,保证语法上的合理性。但还存在语法合理性的基础上,哪个字或词在语境上更合理的问题。因此我们加入候选字与上下文语境相似度的计算来衡量句子的合理度。
句子合理度我们用得分Score_sen来计算,如下公式所示:
Score_sen=Score_ngram+Score_vector
其中,Score_ngram为错字进行候选字替换后句子的流畅度。句子流畅度检测是扫描整个句子,计算每个字/词的概率,然后概率做乘积运算。由于字词概率都会远小于1,导致乘起来后值过小,一般语言模型都会采用log概率,即计算出概率后再对其取对数,将乘出来的数称为句子流畅度。
通过领域语料训练获得字向量,Score_vector为候选字符与文本字符串之间的语义距离,其为候选字符向量与上下文向量的余弦相似度。
假设待纠错文本由n个字符组成,第i个字的字向量用表示,则待纠错文本的句向量表示为候选字向量用vj表示,则候选字的向量表示为Vcdt,则待纠错文本与候选字之间的语义相似度为Vsen*Vcdt/(|Vsen|*|Vcdt|):
Score_vector=Vsen*Vcdt/(|Vsen|*|Vcdt|)
最终选取能使Score_sen值最大的字符作为最终的替换字符。其中,替换包括单字替换和组合字替换,单字替换直接将错误字符替换为候选字符,组合替换将左右组合的双字替换为单字。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳的实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种用于快递领域票据识别文本纠错方法,其特征在于包括以下步骤:
Step1:输入OCR识别字符置信度和每个字词的n-gram检测概率值做加权,求得概率,根据阈值进行检错。
Step2:利用领域语料进行候选集构建和字向量训练,获得字形相似度候选集和字向量。
Step3:根据错误字候选集,对候选字做句子流畅度检测和词向量距离计算,获得新句子的得分。
Step4:重复步骤Step3,使句子得分最大的替换结果作为最终结果,纠错完成。
2.根据权利要求1所述用于快递领域票据识别文本纠错方法,其特征在于:
检错部分我们采用OCR识别的置信度,即预测是哪个汉字时softmax输出的概率值,我们只处理置信度低的字符,即汉字的置信度越低,错误的概率越大。除此之外,我们还利用n-gram信息进行检错。利用两部分的加权我们获得字符的最终出错的概率。我们用加权值Pchar来衡量,如下:
Pchar=α*Pocr+β*Pgram
其中Pchar为文字识别模型中softmax输出的概率值,Pgram为n-gram检测概率值。理论上使用神经网络训练出的语言模型效果将会更好一些,但是考虑训练效率成本等因素,我们选择使用n-gram模型。α,β为权重,且二者加和为1。
对文本字符串按字符进行切分,切分结果保存为word_list。获取字符char左3-gram字符串(left 3-gram string,l3gs),即target_text中位于字符char左边且紧挨着字符的长度为3的字符串,并判断l3gs是否包含在字符char的l3gs列表(记为list_l3gs)中。如果包含,则字符char的l3gs的匹配状态(记为state_l3gs)为ture,否则为false。接着,获取字符char右3-gram字符串(right 3-gram string,r3gs),即target_text中位于字符char右边且紧挨word的长度为3的字符串,并判断r3gs是否包含在字符char的r3gs列表(记为list_r3gs)中。如果包含,则字符char的r3gs的匹配状态(记为state_r3gs)为ture,否则为false。如果字符char的l3gs的匹配状态state_l3gs和r3gs的匹配状态state_r3gs均为false,则字符char被判定为异常词Pgram值记为1,反之则为0。
当Pchar小于阈值T时,我们认为该字符出现错误。T为人工设定值。
3.根据权利要求1所述用于快递领域票据识别文本纠错方法,其特征在于:
我们采用机器加人工的方式构建垂直领域候选集。候选集包括形似字候选集和组合字候选集。OCR识别错误通常为字形错误,其中包括单字错误和组合体错误。单字错误表现为单个汉字误识别为单个错误汉字。组合体错误表现为单个汉字识别为多个汉字或多个汉字识别为一个汉字。这里的组合主要为左右组合,如”圳“可以拆分为”土“和”川“的组合,或者二者形近字的组合。“日”“月”可以被误识别成“明”字。上下组合类型在本文中暂不考虑。
候选集构建,我们考虑偏旁部首、汉字结构、笔画数、全码表等特征,其映射值分别为v1,v2,v3,v4,进而获得每汉字的特征向量[v1,v2,v3,v4],通过两两计算获得汉字之间的相似度,然后排序取top10,经过人工校正,最终获取每个汉字的形似字候选集D1。对于左右组合字,我们选定基础部件,采用全自动随机组合的方式进行检索,获得左右组合可替换候选集D2。
4.根据权利要求1所述用于快递领域票据识别文本纠错方法,其特征在于:
句子合理度我们用得分Score_sen来计算,如下公式所示:
Score_sen=Score_ngram+Score_vector
其中,Score_ngram为错字进行候选字替换后句子的流畅度。句子流畅度检测是扫描整个句子,计算每个字/词的概率,然后概率做乘积运算。由于字词概率都会远小于1,导致乘起来后值过小,一般语言模型都会采用log概率,即计算出概率后再对其取对数,将乘出来的数称为句子流畅度。
通过领域语料训练获得字向量,Score_vector为候选字符与文本字符串之间的语义距离,其为候选字符向量与上下文向量的余弦相似度。
假设待纠错文本由n个字符组成,第i个字的字向量用表示,则待纠错文本的句向量表示为候选字向量用vj表示,则候选字的向量表示为Vcdt,则待纠错文本与候选字之间的语义相似度为Vsen*Vcdt/(|Vsen|*|Vcdt|):
Score_vector=Vsen*Vcdt/(|Vsen|*|Vcdt|)
最终选取能使Score_sen值最大的字符作为最终的替换字符。其中,替换包括单字替换和组合字替换,单字替换直接将错误字符替换为候选字符,组合替换将左右组合的双字替换为单字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111207447.2A CN113903048A (zh) | 2021-10-15 | 2021-10-15 | 一种用于快递领域票据识别文本纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111207447.2A CN113903048A (zh) | 2021-10-15 | 2021-10-15 | 一种用于快递领域票据识别文本纠错方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113903048A true CN113903048A (zh) | 2022-01-07 |
Family
ID=79192439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111207447.2A Pending CN113903048A (zh) | 2021-10-15 | 2021-10-15 | 一种用于快递领域票据识别文本纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113903048A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677689A (zh) * | 2022-03-29 | 2022-06-28 | 上海弘玑信息技术有限公司 | 一种文字图像识别纠错方法和电子设备 |
CN114970554A (zh) * | 2022-08-02 | 2022-08-30 | 国网浙江省电力有限公司宁波供电公司 | 一种基于自然语言处理的文档校验方法 |
-
2021
- 2021-10-15 CN CN202111207447.2A patent/CN113903048A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677689A (zh) * | 2022-03-29 | 2022-06-28 | 上海弘玑信息技术有限公司 | 一种文字图像识别纠错方法和电子设备 |
CN114970554A (zh) * | 2022-08-02 | 2022-08-30 | 国网浙江省电力有限公司宁波供电公司 | 一种基于自然语言处理的文档校验方法 |
CN114970554B (zh) * | 2022-08-02 | 2022-10-21 | 国网浙江省电力有限公司宁波供电公司 | 一种基于自然语言处理的文档校验方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149406B (zh) | 一种中文文本纠错方法及系统 | |
CN111310443B (zh) | 一种文本纠错方法和系统 | |
CN109800414B (zh) | 语病修正推荐方法及系统 | |
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
Truong et al. | Improvement of end-to-end offline handwritten mathematical expression recognition by weakly supervised learning | |
CN110866399B (zh) | 一种基于增强字符向量的中文短文本实体识别与消歧方法 | |
CN111062376A (zh) | 基于光学字符识别与纠错紧耦合处理的文本识别方法 | |
CN116127953B (zh) | 一种基于对比学习的中文拼写纠错方法、装置和介质 | |
CN113903048A (zh) | 一种用于快递领域票据识别文本纠错方法 | |
CN111062397A (zh) | 一种智能票据处理系统 | |
CN114818668B (zh) | 一种语音转写文本的人名纠错方法、装置和计算机设备 | |
CN109145287B (zh) | 印尼语单词检错纠错方法及系统 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN109684928B (zh) | 基于互联网检索的中文文档识别方法 | |
CN114495910B (zh) | 文本纠错方法、系统、设备及存储介质 | |
CN110134950B (zh) | 一种字词结合的文本自动校对方法 | |
CN105068997A (zh) | 平行语料的构建方法及装置 | |
CN115293138B (zh) | 一种文本纠错方法及计算机设备 | |
CN113627158A (zh) | 基于多表征和多预训练模型的中文拼写纠错方法及装置 | |
CN115293139A (zh) | 一种语音转写文本纠错模型的训练方法和计算机设备 | |
CN114818669B (zh) | 一种人名纠错模型的构建方法和计算机设备 | |
CN115017890A (zh) | 基于字音字形相似的文本纠错方法和装置 | |
CN112686030B (zh) | 语法纠错方法、装置、电子设备和存储介质 | |
CN111507103B (zh) | 一种利用部分标注集的自训练神经网络分词模型 | |
CN114896966B (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |