CN102637180B - 基于正则表达式的文字后处理方法和装置 - Google Patents

基于正则表达式的文字后处理方法和装置 Download PDF

Info

Publication number
CN102637180B
CN102637180B CN201110037584.6A CN201110037584A CN102637180B CN 102637180 B CN102637180 B CN 102637180B CN 201110037584 A CN201110037584 A CN 201110037584A CN 102637180 B CN102637180 B CN 102637180B
Authority
CN
China
Prior art keywords
character
aftertreatment
candidate
criterion
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110037584.6A
Other languages
English (en)
Other versions
CN102637180A (zh
Inventor
王晓健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN201110037584.6A priority Critical patent/CN102637180B/zh
Publication of CN102637180A publication Critical patent/CN102637180A/zh
Application granted granted Critical
Publication of CN102637180B publication Critical patent/CN102637180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开一种基于正则表达式的文字后处理方法和装置,属于文字识别领域。针对现有文字后处理方法存在的复用性和可扩展性较差等缺陷而设计。本发明所述方法包括:依据后处理准则语法设置当前识别区域的后处理准则表达式;解析该后处理准则表达式,得出树状数据结构;匹配识别结果;得出匹配值最高的文字后处理结果。本发明所述方法借鉴了正则表达式的语法元素,来描述具有不同后处理需求的文字识别结果的后处理准则,具有很好的通用性、扩展性和表述能力,使得对后处理准则的设置灵活便捷。

Description

基于正则表达式的文字后处理方法和装置
技术领域
本发明属于文字识别领域,尤其涉及一种基于正则表达式的文字后处理方法和装置。
背景技术
文字后处理是指在得到识别结果候选项后,根据预设的后处理准则,筛选出最符合准则要求的识别结果字符串的过程。在以往的后处理方法中,后处理准则的设置和相应的准则匹配方法大多是根据实际需求设计的。例如,基于光学字符识别技术(OCR,Optical Character Recognition)的文字后处理方法,其实质就是将文字图像转化为文字识别结果后,若文字内容具有某种特定语义,则可运用后处理准则来校正识别结果:若文字为身份证号码,则后处理可将识别结果校正为18位数字;若文字内容为性别,则识别结果只能为男女,其他结果均为错误;类似地,若文字为其他类型的内容,则需要根据实际的需求再进行设计。因此,目前的文字后处理方法的复用性和可扩展性较差,不能灵活推广到新的需求中。
正则表达式,以其具有较强的描述能力,扩展性强等特点,被广泛的用在文本编辑器或其他类似的文字处理工具中,通常被用来检索和/或替换那些符合某个模式的文本内容,其匹配准则属于完全匹配。若将其运用到文字后处理中,当候选字符中没有完全匹配的字符时,就无法得出识别结果。
另外,目前的文字后处理方法,都没能很好的解决错误的文字切分引起的文字识别结果首尾字符缺失的问题。
发明内容
针对上述问题,本发明提出一种通用性和扩展性较强的,且具有较强的表述能力的基于正则表达式的文字后处理方法和装置。
为了达到上述目的,本发明所述基于正则表达式的文字后处理方法,包括以下步骤:
依据后处理准则语法设置当前识别区域的后处理准则表达式;
解析该后处理准则表达式,得出树状数据结构;
根据得出的树状数据结构匹配识别结果;
将匹配值最高的识别结果作为后处理结果。
其中,所述后处理准则语法,用于描述后处理准则,其包括:正则表达式语法元素以及用于修饰有候选答案的识别区域的修饰符,其中,
所述正则表达式语法元素包括:普通字符、字符集合、匹配次数限定符、分组表达式、选择表达式、转义字符和修饰符;所述普通字符包括:字母、数字、汉字、下划线,以及没有被定义特殊意义的标点符号;所述匹配次数限定符包括:不定次数限定符和固定次数限定符。
进一步地,解析该后处理准则表达式,得出树状数据结构,包括:
对后处理准则表达式中的普通字符和字符集合进行解析,分别将其解析为基本匹配单元,各基本匹配单元构成了树状数据结构中的各个节点;
对后处理准则表达式中的匹配次数限定符进行解析,其中,将不定次数限定符解析为几个固定次数限定符相并联,将固定次数限定符解析为基本匹配单元相串联; 
对后处理准则表达式中的选择表达式进行解析,将其解析为基本匹配单元相并联。
进一步地,根据得出的树状数据结构匹配识别结果,包括:
依据匹配准则,分别对树状数据结构中的各节点进行匹配打分;
选取出匹配分值最高的字符串。
进一步地,所述的匹配准则包括:单个普通字符匹配准则、字符集合的匹配准则和字符数目不等时的匹配准则,其中,
所述单个普通字符匹配准则,包括:
对于每一单个字符,遍历与该单个字符位置对应的候选项,若有候选项和该单个字符相同,则确定该候选项为最终的识别结果,且根据其候选位置打分;否则,打最低分,强制将识别结果修改为该单个字符;
所述的字符集合的匹配准则,包括:
遍历所有候选识别结果,若有候选项处于后处理准则表达式中字符集合所规定的范围内,则确定其为该字符的最终识别结果,并依据其候选位置打分;若没有一个候选项处于后处理准则表达式中字符集合所规定的范围内,则打最低分,且输出拒绝识别符号;
所述字符数目不等时的匹配准则,包括:
对于识别结果的字符数目不等于后处理准则表达式的字符数目时,相差的字符数目乘以最低分,作为罚分加入最终的分值中。
其中,打分时的标准为:所有的候选识别结果依据其可信度分为第一候选,第二候选,……第N候选;分数分为N个等级,分别依次对应第一候选,第二候选,……第N候选。
进一步地,在所述根据得出的树状数据结构匹配识别结果步骤之后,还包括:移位匹配,以进一步提高文字识别的正确率。
进一步地,所述移位匹配,包括:
将识别结果中的各字符分别对应的从所述树状结构数据中的根节点后的第1个节点开始向下对应的进行匹配打分;和/或
从识别结果中的第2个字符开始从所述树状结构数据中的根节点开始向下对应的进行匹配打分;
选取分值最大的匹配结果。
进一步地,在所述将匹配值最高的识别结果作为后处理结果之后,还包括:标记不可信的识别结果。
本发明还公开了一种基于正则表达式的文字后处理装置,包括以下模块:
设置模块,依据后处理准则语法设置当前识别区域的后处理准则表达式;
解析模块,解析该后处理准则表达式,得出树状数据结构;
匹配模块,根据得出的树状数据结构匹配识别结果;
筛选模块,将匹配值最高的识别结果作为后处理结果。
本发明一种基于正则表达式的文字后处理方法和装置的优点在于:
(1)本发明所述方法借鉴了正则表达式的语法元素,来描述具有不同后处理需求的文字识别结果的后处理准则,具有很好的通用性、扩展性和表述能力,使得对后处理准则的设置灵活便捷。
(2)本发明所述方法根据文字识别的特点,修改了正则表达式的匹配准则,将“完全匹配”修改为“最优匹配”,来实现从候选字符中挑选最优识别结果的目的。
(3)本发明还采用了移位匹配的方法,用于避免出现识别结果首尾字符切分错误的问题。
附图说明
图1为本发明所述基于正则表达式的文字后处理方法的流程图;
图2本发明一实施例经解析后得出的树状数据结构示意图; 
图3本发明一实施例的文字识别结果的候选项及各候选项对应的打分分数的示意图;
图4为本发明一实施例的对树状数据结构中各节点进行匹配打分后的示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式做详细描述。
本发明所述的方法是基于正则表达式制定了一套描述后处理准则的语法,该语法可满足大部分文字后处理的需求。同时,为上述语法中的各语法元素设计相应的后处理匹配方法,对文字识别结果进行匹配打分,提取出最符合后处理准则的文字识别结果,达到校正文字识别结果,提高文字识别正确率的目的。
如图1所示,本发明所述基于正则表达式的文字后处理方法,具体流程描述如下:
步骤1、依据后处理准则语法设置当前识别区域的后处理准则表达式。
其中,所述的后处理准则语法,用于描述后处理准则,其包括:正则表达式语法元素以及用于修饰有候选答案的识别区域的修饰符;其中,
所述正则表达式语法元素包括如下6种语法元素: 
(1)普通字符
字母、数字、汉字、下划线,以及没有被定义特殊意义的标点符号,都是“普通字符”。“普通字符”在匹配时,匹配与之相同的一个字符。
(2)字符集合
用中括号[ ]包含多个字符,可以匹配所包含的字符中的任意一个。同样,每次只能匹配其中一个。
[m-n] —— 如[1-5],说明待匹配的字符需在1至5的范围内;
[n1 n2…n3] —— 如[1 3 5],说明待匹配的字符需为1或3或5。
(3)匹配次数限定符
用花括号{ }包含重复次数,使被修饰的表达式可多次重复匹配。
{n}   —— 表达式固定重复n次;如A{2},表明需要匹配到连续的2个字母A;
{m, n} —— 表达式最少重复m次,最多重复n次;
{m, }  —— 表达式最少重复m次,最多重复次数不限。
(4)分组表达式
用小括号( )包含其他表达式,使被包含的表达式组成一个整体,在被修饰匹配次数时,可作为整体被修饰。
(5)选择表达式
使用竖线“|”分隔多段表达式,左右两边表达式之间为“或”的关系,如010 | 021,则表达式只能匹配010或者匹配021。
(6)转义字符
?—— 修饰匹配次数为0次或 1 次;如为了匹配日期的月份:1-12月,可设定正则表达式为:0?[1-9]|1[0-2];
+ —— 修饰匹配次数至少为1次;
* —— 修饰匹配次数为0次或任意次;
上述三个符号被定义了特殊的意义,因此需要在前面加“\”进行转义后,才可匹配该字符本身。
(7)修饰符
!—— 用于修饰有候选答案的识别区域,如证件类型,候选项有:身份证、护照、军人证、出生证等。若设置后处理准则为:身份证|护照|军人证|出生证,这个准则表示识别结果只能是这四个候选项中之一,则若识别结果为“少儿证”,后处理方法会将其校正为具有最高优先级的候选项“身份证”。若加入本修饰符!后,即后处理准则为:!(身份证|护照|军人证|出生证),则由于识别结果“少儿证”不能很好的匹配所有候选项,该方法将不进行校正,直接输出原始的识别结果。
通过将上7种语法元素进行组合构造后处理准则,可满足多种格式字符串匹配准则的制定需求,如数字、字符、日期、金额及较复杂的Email地址、电话号码、Internet URL字符串的描述等。
本发明之所以采用正则表达式的语法元素,一是由于正则表达式具有较强的描述能力,扩展性强,通过组合各语法元素,即可得到满足需求的后处理准则;二是由于正则表达式已成为一种通用的语法规则,使用本发明公开的方法时,可较快的熟悉本方法所支持的语法元素,制定出正确的后处理准则。
步骤2、解析该后处理准则表达式,得出树状数据结构,具体实现如下:
对后处理准则表达式中的普通字符和字符集合进行解析,分别将其解析为基本匹配单元,各基本匹配单元构成了树状数据结构中的各个节点;
对后处理准则表达式中的匹配次数限定符进行解析,所述匹配次数限定符包括:不定次数限定符和固定次数限定符。其中,将不定次数限定符解析为几个固定次数限定符相并联,将固定次数限定符解析为基本匹配单元相串联; 
对后处理准则表达式中的选择表达式进行解析,将其解析为基本匹配单元相并联。
步骤3、根据得出的树状数据结构匹配识别结果,具体实现如下:
3.1依据匹配准则,分别对树状数据结构中的各节点进行匹配打分;
如步骤2中所述,后处理准则最终解析为只包含“普通字符”和“字符集合”这两种基本匹配单元的树状结构。这两种语法元素的匹配方法均根据识别结果候选项的前后顺序来评估其可信度,为该项打分。分数共分N个等级,分别为S1, S2, ……Sn;分值从S1到Sn依次递减。其中能够和元素相匹配的候选项为第一候选时打最高分S1,为第2候选时打分S2……为第n-1候选时打分Sn-1,若所有候选项均不能匹配,则打最低分Sn。
其中,所述的匹配准则包括:单个普通字符匹配准则、字符集合的匹配准则和字符数目不等时的匹配准则;其中,
所述单个普通字符匹配准则,具体表现为:
对于每一单个字符,遍历与该单个字符位置对应的候选项,若有候选项和该单个字符相同,则确定该候选项为最终的识别结果,且根据其候选位置打分;否则,打最低分,不输出拒绝识别符号,且强制将识别结果修改为该单个字符。
所述的字符集合的匹配准则,具体表现为:
遍历所有候选识别结果,若有候选项处于规则所规定的范围内,则确定其为该字符的最终识别结果,并依据其候选位置打分;若没有一个候选项处于规则所规定的范围内,则打最低分,且输出拒绝识别符号;
所述字符数目不等时的匹配准则,具体表现为:
对于识别结果的字符数目不等于后处理准则表达式的字符数目时,相差的字符数目乘以最低分,作为罚分加入最终的分值中。
3.2、选取出匹配分值最高的字符串,即从所述树状数据结构的根节点遍历到每一个基本匹配单元节点计算各路径的分数和,选取出分数最高的一条路径。
步骤4、遍历分数最高的路径,得出匹配值最高的文字后处理结果。
作为本发明的进一步地实施例,在步骤3之后,本发明所述的处理方法还包括移位匹配,以进一步提高文字识别的正确率。其具体实现如下:
将识别结果中的各字符分别对应的从所述树状结构数据中的根节点后的第1个节点开始向下对应的进行匹配打分,相当于将原始的识别结果中的字符串向右移1位;和/或
从识别结果中的第2个字符开始从所述树状结构数据中的根节点开始向下对应的进行匹配打分,相当于将原始的识别结果中的字符串向左移1位;
选取分数最高的一条路径。
加入该移位匹配的目的是,避免因文字在识别中可能出现的切分错误,进而导致字符串的首尾处多字符或者少字符等现象的出现。
进一步地,本发明所述的后处理方法,在所述步骤4之后,还包括:标记不可信的识别结果。经前几步骤得到与后处理准则匹配度最高的结果字符串。若该字符串仍存有不符合规则的部分,如某个字符的所有候选项均不能匹配相应的准则,或者结果字符串的字符数目与后处理准则表达式的字符数目不相等,则说明该结果字符串虽然为最优结果,但仍不符合预设的后处理准则表达式,标记该结果为不可信的识别结果。不可信识别结果的标记对于银行数据录入等业务有着重要意义,可提示该字符串需要高度注意,必须进行人工校对操作。
下面将结合一个具体文字识别实例对本发明所述的基于正则表达式的文字后处理方法作进一步地说明。
设一个金额类识别区域的待识别字符串为:72.89USD。
步骤1、依据后处理准则语法设置当前识别区域的后处理准则表达式。
该后处理准则表达式为:[0-9]{1,3}.[0-9]{2}(RMB|USD)。这个准则表示该区域的识别结果的格式为:小数点前有1至3位数字,小数点后有两位小数,最后为金额的币种,可为人民币RMB或者美元USD。
步骤2、解析该后处理准则表达式,得出树状数据结构。
对后处理准则表达式 [0-9]{1,3}.[0-9]{2}(RMB|USD)解析,得到的树状数据结构如图2所示。图2中树的各个节点均为基本的匹配单元。基本的匹配单元包括两种:一为普通字符,如后处理准则表达式中的小数点和币种中的英文字母;二为字符集合,如后处理准则表达式中的[0-9]。
其他语法元素即{1,3}、{2}和(RMB|USD)解析为基本匹配单元之间的串联或并联结构关系。如不定次数限定符{1,3}先解析为固定次数限定符相并联结构关系,即[0-9]{1,3}解析为[0-9]或者[0-9]{2}或者[0-9]{3};然后固定次数限定符[0-9]{2}再解析为两个基本匹配单元[0-9]相串联的结构关系,固定次数限定符[0-9]{3}再解析为三个基本匹配单元[0-9]相串联的结构关系;选择表达式(RMB|USD)解析为基本匹配单元RMB和基本匹配单元USD相并联的结构关系,构成如图2所示的该树状数据结构中的各分支。
步骤3、根据得出的树状数据结构匹配识别结果。
文字识别结果由一串字符组成,每个字符又有10个候选项。后处理的目的就是从每个字符的候选项中,选取最符合预设准则的候选项,最终得到与准则匹配度最高的结果字符串。具体包括如下步骤:
3.1、依据匹配准则,分别对树状数据结构中的各节点打分;
如图3所示,该文字识别结果字符串的正确内容为72.89USD。经OCR识别方法得到的识别结果列于下方,每个字符均有10个候选项。若不进行后处理校对,则取每个字符的第一候选组成识别结果字符串:T2.8qU5D,显然识别的准确率较低。
依据发明所述的匹配准则,基本匹配单元的匹配方法均根据识别结果候选项的前后顺序来评估其可信度,为该项打分。本实施例中的分数共分11级,分别为100, 70, 50, 35, 25, 20, 15, 10, 5, 3, -30;其中能够和元素相匹配的候选项为第一候选时打分100,为第2候选时打分70……为第10候选时打分3,如图3所示。若10个候选项均不能匹配,则打分-30。
如图4所示,对树状数据结构中的各节点打分,例如图中最右侧的一条路径,第一个字符与根节点1进行匹配,在第一个字符的10个候选项中,第二候选数字7位于字符集合[0-9]内,匹配成功,打分为第二候选对应的分数70分,如图所示在根节点处标识为(7,70分)。
第二个字符与节点2进行匹配,在第二个字符的10个选项中,第一候选数字2位于字符集合[0-9]内,匹配成功,打分为第一候选对应的分数100分,如图所示在该节点处标识为(2,100分)。
第三个字符与节点3进行匹配,在第三个字符的10个选项中,第十候选数字1位于字符集合[0-9]内,匹配成功,打分为第十候选对应的分数3分,如图中所示在该节点处标识为(1,3分)。
第四个字符与节点4进行匹配,在第四个字符的10个选项中均为数字,没有一个与标点“·”相匹配,匹配失败,打分-30,如图中所示在该节点处标识为(·,-30分)。
同理,分别将第五个、第六个、第七个和第八个字符与节点5、6、7和8进行匹配得出如图所示的对应节点处标识的(9,70分)、(0,3分)、(U,-30)和(S,-30)。
识别结果字符串只有8个字符,而树状数据结构中该路径有9个节点,识别结果字符数与后处理准则表达式的字符数目不相等,相差的字符数目为1乘以最低分-30,如图所示节点9处标识为(少字符,-30)。
同理,对其他路径的各节点进行匹配并打分,最后得出如图4所示的打分结果。
3.2、选取出匹配分值最高的字符串,即从所述树状数据结构的根节点遍历到每一个基本匹配单元节点计算各路径的分数和,选取出分数最高的一条路径。
从图4中可以看出,依次从左向右计算各条路径的分数:
路径L1:70+(-30)+3+100+(-30)+(-30)+(-30)+(-30)=23;
路径L2:70+(-30)+3+100++(-30)+(-30)+(-30)=23;
路径L3:70+100+100+100+70+(-30)+(-30)+(-30)=350;
路径L4:70+100+100+100+70+100+70+100=710;
路径L5:70+100+3+(-30)+70+3+(-30)+(-30)+(-30)=126;
路径L6:70+100+3+(-30)+70+3+(-30)+(-30)+(-30)=126;
从上述的分数可以看出,则最优匹配路径为第四条路径,经校正后的识别结果字符串为72.89USD。
步骤4、移位匹配;
将上述步骤得出的识别结果72.89USD和后处理准则表达式中的普通字符的对应关系进行左右平移,来计算不同对应关系下的识别结果分数。左右平移是由于文字在识别中可能因为切分错误,导致字符串的首尾处多字符或者少字符,进行移位匹配可消除这种问题。
若将图3所示的识别结果右移1位,与图2所示的树状数据结构进行匹配,则识别结果不再从规则树的根节点进行匹配,而是从各路径的第二个节点进行匹配打分。若将识别结果左移1位,则指从识别结果字符串的第二个字符,即数字2所对应的位置开始从树状数据结构的根节点开始进行匹配打分。其中匹配准则和打分方式同步骤3,在此不再赘述。在各分数中挑选出分数最大时的路径。
步骤5、遍历步骤4得出的分数最大路径,得出最优的识别后处理结果;
步骤6、标记不可信的识别结果。
本实施例中得出的识别结果为可信的识别结果,因此不用标记不可信的识别结果。
评估本发明所述的后处理方法的性能。
本发明所述基于正则表达式的文字后处理方法的性能,可分为正作用和负作用两个方面来评估。
正作用是指是否有助于提高文字识别正确率。如表1所示,统计了本发明所述的后处理方法对识别率在不同区域类型中的正作用。分别为:纯数字区域类型,如邮政编码区域;英文数字混合区域类型,如身份证号码;具有候选项的区域类型,如性别(有男女候选)、证件类型(有身份证、出生证、军官证等候选)。通过下表可见经过后处理方法的处理,各文字类型的识别率均有所提高,起到了后处理的效果。
表1不同区域类型中识别率对照表
区域类型 无后处理识别率 有后处理识别率 字符数目增加 识别率增加
纯数字区域 8264/10076=82% 9013/10076=89.4% 749 7.4%
英文数字混合区域 141/198=71.2% 180/198=90.9% 39 19.6%
具有候选项的区域 1647/2572=64% 1992/2572=77.4% 345 13.4%
负作用是指经过后处理方法,原本正确的识别结果却被校正错误。本发明所述的后处理方法并没有将正确的识别结果校正错误,即后处理方法没有负作用,符合设计预期。
本发明还公开了一种基于正则表达式的文字后处理装置,包括以下模块:
设置模块,依据后处理准则语法设置当前识别区域的后处理准则表达式;
解析模块,解析该后处理准则表达式,得出树状数据结构;
匹配模块,根据得出的树状数据结构匹配识别结果;
筛选模块,将匹配值最高的识别结果作为后处理结果。
本发明所述的基于正则表达式的文字后处理方法和装置借鉴了正则表达式的语法元素,根据文字后处理的实际需求,制定了一套描述后处理准则的语法。这套语法具有通用性和可扩展性,表述能力强,可满足大部分文字后处理的需求。在准则匹配方面,为上述语法中的各元素设计相应的匹配方法,对文字识别结果进行匹配打分,提取出最优的文字识别结果。
以上,仅为本发明的较佳实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求所界定的保护范围为准。

Claims (6)

1.一种基于正则表达式的文字后处理方法,其特征在于,包括以下步骤:
依据后处理准则语法设置当前识别区域的后处理准则表达式;
解析该后处理准则表达式,得出树状数据结构;
根据得出的树状数据结构匹配识别结果;
将匹配值最高的识别结果作为后处理结果;其中,
所述后处理准则语法,用于描述后处理准则,其包括:正则表达式语法元素以及用于修饰有候选答案的识别区域的修饰符,所述正则表达式语法元素包括:普通字符、字符集合、匹配次数限定符、分组表达式、选择表达式、转义字符和修饰符;所述普通字符包括:字母、数字、汉字、下划线,以及没有被定义特殊意义的标点符号,所述匹配次数限定符包括:不定次数限定符和固定次数限定符;
所述根据得出的树状数据结构匹配识别结果包括:依据匹配准则,分别对树状数据结构中的各节点进行匹配打分;选取出匹配分值最高的字符串;其中,所述匹配准则包括:单个普通字符匹配准则、字符集合的匹配准则和字符数目不等时的匹配准则;打分时的标准为:所有的候选识别结果依据其可信度分为第一候选,第二候选,……第N候选;分数分为N个等级,分别依次对应第一候选,第二候选,……第N候选;进一步,
所述单个普通字符匹配准则,包括:对于每一单个字符,遍历与该单个字符位置对应的候选项,若有候选项和该单个字符相同,则确定该候选项为最终的识别结果,且根据其候选位置打分;否则,打最低分,强制将识别结果修改为该单个字符;
所述字符集合的匹配准则,包括:遍历所有候选识别结果,若有候选项处于后处理准则表达式中字符集合所规定的范围内,则确定其为该字符的最终识别结果,并依据其候选位置打分;若没有一个候选项处于后处理准则表达式中字符集合所规定的范围内,则打最低分,且输出拒绝识别符号;
所述字符数目不等时的匹配准则,包括:对于识别结果的字符数目不等于后处理准则表达式的字符数目时,相差的字符数目乘以最低分,作为罚分加入最终的分值中。
2.根据权利要求1所述基于正则表达式的文字后处理方法,其特征在于,解析该后处理准则表达式,得出树状数据结构,包括:
对后处理准则表达式中的普通字符和字符集合进行解析,分别将其解析为基本匹配单元,各基本匹配单元构成了树状数据结构中的各个节点;
对后处理准则表达式中的匹配次数限定符进行解析,其中,将不定次数限定符解析为几个固定次数限定符相并联,将固定次数限定符解析为基本匹配单元相串联;
对后处理准则表达式中的选择表达式进行解析,将其解析为基本匹配单元相并联。
3.根据权利要求1所述基于正则表达式的文字后处理方法,其特征在于,在所述根据得出的树状数据结构匹配识别结果步骤之后,还包括:移位匹配,以进一步提高文字识别的正确率。
4.根据权利要求3所述基于正则表达式的文字后处理方法,其特征在于,所述移位匹配,包括:
将识别结果中的各字符分别对应的从所述树状数据结构中的根节点后的第1个节点开始向下对应的进行匹配打分;和/或
从识别结果中的第2个字符开始从所述树状数据结构中的根节点开始向下对应的进行匹配打分;
选取分值最大的匹配结果。
5.根据权利要求1所述基于正则表达式的文字后处理方法,其特征在于,在所述将匹配值最高的识别结果作为后处理结果之后,还包括:标记不可信的识别结果。
6.一种基于正则表达式的文字后处理装置,其特征在于,包括以下模块:
设置模块,依据后处理准则语法设置当前识别区域的后处理准则表达式;
解析模块,解析该后处理准则表达式,得出树状数据结构;
匹配模块,根据得出的树状数据结构匹配识别结果;
筛选模块,将匹配值最高的识别结果作为后处理结果;其中,
所述后处理准则语法,用于描述后处理准则,其包括:正则表达式语法元素以及用于修饰有候选答案的识别区域的修饰符,所述正则表达式语法元素包括:普通字符、字符集合、匹配次数限定符、分组表达式、选择表达式、转义字符和修饰符;所述普通字符包括:字母、数字、汉字、下划线,以及没有被定义特殊意义的标点符号,所述匹配次数限定符包括:不定次数限定符和固定次数限定符;
所述匹配模块用于:依据匹配准则,分别对树状数据结构中的各节点进行匹配打分;选取出匹配分值最高的字符串;其中,所述匹配准则包括:单个普通字符匹配准则、字符集合的匹配准则和字符数目不等时的匹配准则;打分时的标准为:所有的候选识别结果依据其可信度分为第一候选,第二候选,……第N候选;分数分为N个等级,分别依次对应第一候选,第二候选,……第N候选;进一步,
所述单个普通字符匹配准则,包括:对于每一单个字符,遍历与该单个字符位置对应的候选项,若有候选项和该单个字符相同,则确定该候选项为最终的识别结果,且根据其候选位置打分;否则,打最低分,强制将识别结果修改为该单个字符;
所述字符集合的匹配准则,包括:遍历所有候选识别结果,若有候选项处于后处理准则表达式中字符集合所规定的范围内,则确定其为该字符的最终识别结果,并依据其候选位置打分;若没有一个候选项处于后处理准则表达式中字符集合所规定的范围内,则打最低分,且输出拒绝识别符号;
所述字符数目不等时的匹配准则,包括:对于识别结果的字符数目不等于后处理准则表达式的字符数目时,相差的字符数目乘以最低分,作为罚分加入最终的分值中。
CN201110037584.6A 2011-02-14 2011-02-14 基于正则表达式的文字后处理方法和装置 Active CN102637180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110037584.6A CN102637180B (zh) 2011-02-14 2011-02-14 基于正则表达式的文字后处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110037584.6A CN102637180B (zh) 2011-02-14 2011-02-14 基于正则表达式的文字后处理方法和装置

Publications (2)

Publication Number Publication Date
CN102637180A CN102637180A (zh) 2012-08-15
CN102637180B true CN102637180B (zh) 2014-06-18

Family

ID=46621577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110037584.6A Active CN102637180B (zh) 2011-02-14 2011-02-14 基于正则表达式的文字后处理方法和装置

Country Status (1)

Country Link
CN (1) CN102637180B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502995B (zh) * 2016-11-30 2019-10-15 福建榕基软件股份有限公司 一种层级信息智能识别方法及装置
CN106897447B (zh) * 2017-03-02 2018-02-16 广州算易软件科技有限公司 一种基于规则电气图纸箱号的自动化查找方法
CN110019829B (zh) * 2017-09-19 2021-05-07 绿湾网络科技有限公司 数据属性确定方法、装置
CN108229299B (zh) * 2017-10-31 2021-02-26 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
CN108469913B (zh) * 2018-02-28 2021-03-09 北京小米移动软件有限公司 修改输入信息的方法、装置和存储介质
CN108831476A (zh) * 2018-05-31 2018-11-16 平安科技(深圳)有限公司 语音采集方法、装置、计算机设备及存储介质
US11263247B2 (en) * 2018-06-13 2022-03-01 Oracle International Corporation Regular expression generation using longest common subsequence algorithm on spans
CN112149654B (zh) * 2020-09-23 2022-08-02 四川长虹电器股份有限公司 基于深度学习的发票文本信息识别方法
CN114492399A (zh) * 2021-12-29 2022-05-13 国网天津市电力公司 一种基于正则表达式的合同信息提取系统及方法
CN115576535B (zh) * 2022-11-10 2023-03-31 商飞软件有限公司 一种表达式解析器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236574A (zh) * 2007-01-30 2008-08-06 国际商业机器公司 数据处理系统中模拟处理的方法以及所述数据处理系统
CN101765840A (zh) * 2006-09-15 2010-06-30 埃克斯比布里奥公司 纸质与电子文档中的注释的捕获及显示
CN101814065A (zh) * 2009-02-23 2010-08-25 富士通株式会社 句法分析装置及句法分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09212589A (ja) * 1996-01-31 1997-08-15 Hitachi Ltd 住所照合辞書作成支援装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101765840A (zh) * 2006-09-15 2010-06-30 埃克斯比布里奥公司 纸质与电子文档中的注释的捕获及显示
CN101236574A (zh) * 2007-01-30 2008-08-06 国际商业机器公司 数据处理系统中模拟处理的方法以及所述数据处理系统
CN101814065A (zh) * 2009-02-23 2010-08-25 富士通株式会社 句法分析装置及句法分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开平9-212589A 1997.08.15

Also Published As

Publication number Publication date
CN102637180A (zh) 2012-08-15

Similar Documents

Publication Publication Date Title
CN102637180B (zh) 基于正则表达式的文字后处理方法和装置
CN106649597B (zh) 一种基于图书内容的图书书后索引自动构建方法
CN106528532B (zh) 文本纠错方法、装置及终端
CN101655837B (zh) 一种对语音识别后文本进行检错并纠错的方法
US7743327B2 (en) Table of contents extraction with improved robustness
CN102254014B (zh) 一种网页特征自适应的信息抽取方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN106326303A (zh) 一种口语语义解析系统及方法
CN102135814A (zh) 一种字词输入方法及系统
CN103440252B (zh) 一种中文句子中并列信息提取方法及装置
CN101002198A (zh) 用于非罗马字符和字的拼写校正系统和方法
CN102455845A (zh) 一种文字输入方法和装置
CN105574173A (zh) 基于语音识别的商品搜索方法及商品搜索装置
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
CN102214166A (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN109086266A (zh) 一种文本形近字的检错与校对方法
CN109657114B (zh) 一种抽取网页半结构化数据的方法
CN103049458A (zh) 一种修正用户词库的方法和系统
CN104050255A (zh) 基于联合图模型的纠错方法及系统
CN107153469B (zh) 为输入数据搜索匹配候选项的方法、数据库创建方法、装置及计算机程序产品
Perez-Cortes et al. Stochastic error-correcting parsing for OCR post-processing
CN108536724A (zh) 一种基于双层哈希索引的地铁设计规范中主体识别方法
Pal et al. OCR error correction of an inflectional indian language using morphological parsing
US20150199582A1 (en) Character recognition apparatus and method
CN104573055B (zh) 一种网络账号快速检索的分词方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant