CN107392260A - 一种字符识别结果的错误标定方法和装置 - Google Patents
一种字符识别结果的错误标定方法和装置 Download PDFInfo
- Publication number
- CN107392260A CN107392260A CN201710429140.4A CN201710429140A CN107392260A CN 107392260 A CN107392260 A CN 107392260A CN 201710429140 A CN201710429140 A CN 201710429140A CN 107392260 A CN107392260 A CN 107392260A
- Authority
- CN
- China
- Prior art keywords
- confidence level
- digital
- continuous
- word
- digital element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实施例提供了一种字符识别结果的错误标定方法和装置,具体为获取对原始财务报表经过光学字符识别得到的电子财务报表,从电子报表中截取连续文字作为字段元素;计算每个字段元素的连续可信度,从文字集合中选取所有连续可信度为预设值的文字集合,构成数字集合;计算数字集合中每个数字元素的数长可信度、数位可信度和上下文可信度;根据预设的计算规则对数长可信度、数位可信度和上下文可信度计算联合可信度;将得到的联合可信度进行排序,根据排序结果选取符合预设选取规则的数字元素作为待提示元素,以预设方式向用户提示待提示元素对应的连续文字。这样一来,用户可以仅对上述标定的错误点进行检查即可,从而降低了人工负荷的工作量。
Description
技术领域
本发明涉及字符识别技术领域,特别是涉及一种字符识别结果的错误标定方法和装置。
背景技术
目前,在许多领域需要经纸质的文件进行电子化录入,即将纸质文件上手写或打印的字符通过光学字符识别方式进行转化,从而得到相应的电子文档,以便于后续的存档和利用,如电子阅卷、图书录入、财务报表录入等。
对于财务报表来说,由于其要求特别准确,特别其中的数字不允许有任何的差错。但是,受限于财务报表格式的多样性、财务报表图像文件的质量以及数字之间易混淆等问题,导致在得到字符识别识别结果后,仍然需要人工进行逐项复核,工作量较人工全文录入方式基本没有减轻,导致工作效率较低,无法适应当前快速发展的社会经济活动的需要。
发明内容
有鉴于此,本发明提供一种字符识别结果的错误标定方法和装置,用于在字符识别结果上出现的错误进行标定,以降低人工复核的工作量,从而提高工作效率。
为了实现上述目的,本发明公开了一种字符识别结果的错误标定方法,具体包括如下步骤:
获取对原始财务报表经过光学字符识别得到的电子财务报表,从所述电子报表中截取连续文字,将截取到的连续文字作为文字集合的字段元素;
计算每个字段元素的连续可信度,从所述文字集合中选取所有连续可信度为预设值的文字集合,构成数字集合;
计算所述数字集合中每个数字元素的数长可信度、数位可信度和上下文可信度;
根据预设的计算规则对所述数长可信度、所述数位可信度和所述上下文可信度进行计算,得到联合可信度;
将得到的联合可信度进行排序,根据排序结果选取符合预设选取规则的数字元素作为待提示元素,以预设方式向用户提示所述待提示元素对应的连续文字。
可选的,所述数长可信度的计算步骤为:
记录每个所述数字元素的最高位在所述数字集合中出现的频数;
确定所述数字集合中所述最大频数对应的最高位数;
以预设公式对所述频数和所述最高位数进行计算,得到所述数长可信度。
可选的,所述数位可信度的计算步骤为:
以预设公式对所述数字集合中数字元素的历史概率和历史频数进行计算,得到所述数字元素的数位可信度。
可选的,所述上下文可信度的计算步骤为:
以预设公式对所述数字元素的后续数字的历史概率进行计算,得到所述数字元素的上下文可信度。
可选的,所述根据排序结果选取符合预设选取规则的数字元素,包括:
选取联合可信度超出预设阈值的数字元素,作为所述待提示元素;
或,选取排名在预设位数之前的数字元素,作为所述待提示元素。
可选的,还包括步骤:
将所述待提示元素对应的连续文字存入数据库中。
相应的,为了保证上述方法的实施,本发明还提供了一种字符识别结果的错误标定装置,具体包括:
连续文字获取模块,用于获取对原始财务报表经过光学字符识别得到的电子财务报表,从所述电子报表中截取连续文字,将截取到的连续文字作为文字集合的字段元素;
第一计算模块,用于计算每个字段元素的连续可信度,从所述文字集合中选取所有连续可信度为预设值的文字集合,构成数字集合;
第二计算模块,用于计算所述数字集合中每个数字元素的数长可信度、数位可信度和上下文可信度;
第三计算模块,用于根据预设的计算规则对所述数长可信度、所述数位可信度和所述上下文可信度进行计算,得到联合可信度;
待提示确定模块,用于将得到的联合可信度进行排序,根据排序结果选取符合预设选取规则的数字元素作为待提示元素,以预设方式向用户提示所述待提示元素对应的连续文字。
可选的,所述第二计算模块包括:
频数记录单元,用于记录每个所述数字元素的最高位在所述数字集合中出现的频数;
位数确定单元,用于确定所述数字集合中所述最大频数对应的最高位数;
第一计算单元,用于以预设公式对所述频数和所述最高位数进行计算,得到所述数长可信度。
可选的,所述第二计算模块包括:
第二计算单元,用于以预设公式对所述数字集合中数字元素的历史概率和历史频数进行计算,得到所述数字元素的数位可信度。
可选的,所述第二计算模块包括:
第三计算单元,用于以预设公式对所述数字元素的后续数字的历史概率进行计算,得到所述数字元素的上下文可信度。
可选的,所述待提示确定模块包括:
第一选取单元,用于选取联合可信度超出预设阈值的数字元素,作为所述待提示元素;
第二选取单元,用于选取排名在预设位数之前的数字元素,作为所述待提示元素。
可选的,还包括:
数据上传模块,用于将所述待提示元素对应的连续文字存入数据库中。
从上述技术方案可以看出,本发明提供了一种字符识别结果的错误标定方法和装置,具体为获取对原始财务报表经过光学字符识别得到的电子财务报表,从电子报表中截取连续文字,将截取到的连续文字作为文字集合的字段元素;计算每个字段元素的连续可信度,从文字集合中选取所有连续可信度为预设值的文字集合,构成数字集合;计算数字集合中每个数字元素的数长可信度、数位可信度和上下文可信度;根据预设的计算规则对数长可信度、数位可信度和上下文可信度进行计算,得到联合可信度;将得到的联合可信度进行排序,根据排序结果选取符合预设选取规则的数字元素作为待提示元素,以预设方式向用户提示待提示元素对应的连续文字。这样一来,用户可以仅对上述标定的错误点进行检查即可,无需全文检查,从而降低了人工负荷的工作量,提高了工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种字符识别结果的错误标定方法实施例的步骤流程图;
图2为本发明提供的另一种字符识别结果的错误标定方法实施例的步骤流程图;
图3为本发明提供的一种字符识别结果的错误标定装置实施例的结构框图;
图4为本发明提供的另一种字符识别结果的错误标定装置实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明提供的一种字符识别结果的错误标定方法实施例的步骤流程图。
本实施例的执行主体为对财务报表进行光学字符识别的的电子计算装置,该电子计算装置可以为本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,本发明实施例对此不进行特别限定。
可以理解的是,应用可以是安装在终端上的应用程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本发明实施例对此不进行限定。
如图1所示,本实施例提供的错误标定方法用于对电子财务报表上的可能的错误进行标定,具体包括如下步骤:
S101:截取电子财务报表中的连续文字,构成文字集合。
其中的电子财务报表是通过对原始财务报表进行光学字符识别得到的,一般为word、excel或wps等电子文档格式,在得到电子财务报表后,从其中将所有连续文字予以提取,并将提取出的所有的连续文字作为文字集合O。
对已经人工复核过财务报表数字库进行加载。该库中存储了历史上经人工复核过的财务报表数字,并对属于同一份财务报表的数字进行了分组。
S102:计算文字集合中的字段元素的连续可信度。
对属于集合O的连续文字o,其连续可信度R1计算方式如下:
若连续文字o符合以下任意一个条件,则连续可信度R1为0%:
1)连续文字o中包含除逗号(,)、点号(.)、数字(0至9)、正负号(+-)以外的其他字符;
2)连续文字o中包含多个点号(.);
3)连续文字o中逗号(,)在点号(.)之后;
4)连续文字o中正负号(+-)不在首位;
若不存在以上任意一个条件,则每一字段元素的连续可信度R1为100%。
将文字集合中可信度R1为100%的连续文字o记为数字元素m,并构成数字集合M,数字集合M中数字元素的总数为Nmax,数字元素m按照以下公式进行表达:
其中,b为数字元素m的小数部分;as为数字元素m整数部分自右向左第s位上的数字,如:a1为数字元素m个位上的数字,a2为数字元素m十位上的数字,以此类推;smax为数字元素m的最高位数。
S103:计算数字元素的数长可信度、数位可信度和上下文可信度。
在得到上述数字集合M后,对其中每一数字元素按预设公式进行计算,得到每一数字元素的数长可信度、数位可信度和上下文可信度。
在计算数字元素的数长可信度时,对于任意一个属于数字集合M的数字元素m,首先记录最高位数为smax的数字元素在数字集合M中出现的次数的记为频数h(smax),然后,确定数字集合M中该频数h最大值Hmax对应的最高位数记Smax;最后,以预设公式对频数和最高位数进行计算,得到上述数长可信度。
对于任意一个属于数字集合M的数字元素m,其数长可信度计算方式如下:
上式中,Δs=|smax-Smax|,p2(Δs)为位数差率,
为对所有历史财务报表的p2(Δs)的均值,η2为数长可信度系数,一般取0.5。
举例而言,数字集合M中有元素100个,其中数字元素m为123.45,其最高位数smax为3,在其所属的财报中,最高位数对应的频数最大时,最高位数Smax为4;最高位数为5时频数为10,最高位数为3时,频数为20,则其位数差率计算如下:
若对全部历史财务报表分别进行计算,其p2(1)的均值则数字元素m的数长可信度计算如下:
在计算数位可信度时,对于任意一个属于数字集合M的数字元素m,其数位可信度计算方式如下:
上式中,p3(as,s)为s位为i的历史概率,
上式中,N3(i,s)为s位为i的历史频数,当s≠smax时,N3(i,s)即为在历史财报中数字的第s位为i的数字出现的次数,如:N3(1,4)为历史财报中数字的千位数为1的数字的个数。
当s=smax时,N3(i,s)即为在历史财报中数字的最高位为i的数字出现的次数,最高位依据不同的数字的长度不同而不同。
上式中,η3为数位可信度系数,一般取0.1。
举例而言,数字元素m为123.45,其最高位数smax为3,个位为3的历史概率为0.07,十位为2为0.09,最高位为1的历史概率为0.21,则其数位可信度计算如下:
在计算上下文可信度时,对于任意一个属于数字集合M的数字元素m,其数位可信度计算方式如下:
上式中,p4(as,as-1)为数字元素as之后紧跟的数字元素为as-1的历史概率,
上式中,N4(j,i)为数字j之后紧跟的数字为i的历史频数,即为在历史财报中数字j之后紧跟的数字为i的出现次数,如:N3(1,4)为历史财报中数字1之后紧跟数字4的数字个数(即一个数字中存在连续的14的数字的个数,且一个数字中出现两个以上连续的14的话,仅算一个)。
上式中,η4为上下文可信度系数,一般取0.5。
举例而言,数字元素m为123.45,其最高位数smax为3,12的历史概率为0.3,23的历史概率为0.2,则其上下文可信度计算如下:
S104:计算数字集合中数字元素的联合可信度。
对于任意一个属于数字集合M的数字元素m,确定其联合可信度为数长可信度、数位可信度和上下文可信度的乘积,即:
S105:根据联合可信度确定带提示的连续文字。
在得到上述联合可信度后,将数字元素按其联合可信度进行排序,并根据排序结果选取符合预设规则的数字元素作为待提示元素;然后在最终显示界面上,通过高亮、特殊字体(如:加粗、斜体)等方式向用户提示待提示元素所对应的连续文字,并要求人工校验。
具体来说,可以将联合可信度小于预设数值的数字元素作为待提示元素,例如将R(m)<0.3的数字元素m作为待提示元素;或者,将数字集合M中数字元素m按照联合可信度R(m)从低到高排序,取前20%的数字元素m,其识别结果出现错误的可能性较大,将其作为待提示元素。
从上述技术方案可以看出,本实施例提供了一种字符识别结果的错误标定方法,具体为获取对原始财务报表经过光学字符识别得到的电子财务报表,从电子报表中截取连续文字,将截取到的连续文字作为文字集合的字段元素;计算每个字段元素的连续可信度,从文字集合中选取所有连续可信度为预设值的文字集合,构成数字集合;计算数字集合中每个数字元素的数长可信度、数位可信度和上下文可信度;根据预设的计算规则对数长可信度、数位可信度和上下文可信度进行计算,得到联合可信度;将得到的联合可信度进行排序,根据排序结果选取符合预设选取规则的数字元素作为待提示元素,以预设方式向用户提示待提示元素对应的连续文字。这样一来,用户可以仅对上述标定的错误点进行检查即可,无需全文检查,从而降低了人工负荷的工作量,提高了工作效率。
实施例二
图2为本发明提供的另一种字符识别结果的错误标定方法实施例的步骤流程图。
如图2所示,本实施例提供的错误标定方法用于对电子财务报表上的可能的错误进行标定,具体包括如下步骤:
S201:截取电子财务报表中的连续文字,构成文字集合。
其中的电子财务报表是通过对原始财务报表进行光学字符识别得到的,一般为word、excel或wps等电子文档格式,在得到电子财务报表后,从其中将所有连续文字予以提取,并将提取出的所有的连续文字作为文字集合O。
对已经人工复核过财务报表数字库进行加载。该库中存储了历史上经人工复核过的财务报表数字,并对属于同一份财务报表的数字进行了分组。
S202:计算文字集合中的字段元素的连续可信度。
对属于集合O的连续文字o,其连续可信度R1计算方式如下:
若连续文字o符合以下任意一个条件,则连续可信度R1为0%:
1)连续文字o中包含除逗号(,)、点号(.)、数字(0至9)、正负号(+-)以外的其他字符;
2)连续文字o中包含多个点号(.);
3)连续文字o中逗号(,)在点号(.)之后;
4)连续文字o中正负号(+-)不在首位;
若不存在以上任意一个条件,则每一字段元素的连续可信度R1为100%。
将文字集合中可信度R1为100%的连续文字o记为数字元素m,并构成数字集合M,数字集合M中数字元素的总数为Nmax,数字元素m按照以下公式进行表达:
其中,b为数字元素m的小数部分;as为数字元素m整数部分自右向左第s位上的数字,如:a1为数字元素m个位上的数字,a2为数字元素m十位上的数字,以此类推;smax为数字元素m的最高位数。
S203:计算数字元素的数长可信度、数位可信度和上下文可信度。
在得到上述数字集合M后,对其中每一数字元素按预设公式进行计算,得到每一数字元素的数长可信度、数位可信度和上下文可信度。
在计算数字元素的数长可信度时,对于任意一个属于数字集合M的数字元素m,首先记录最高位数为smax的数字元素在数字集合M中出现的次数的记为频数h(smax),然后,确定数字集合M中该频数h最大值Hmax对应的最高位数记Smax;最后,以预设公式对频数和最高位数进行计算,得到上述数长可信度。
对于任意一个属于数字集合M的数字元素m,其数长可信度计算方式如下:
上式中,Δs=|smax-Smax|,p2(Δs)为位数差率,
为对所有历史财务报表的p2(Δs)的均值,η2为数长可信度系数,一般取0.5。
举例而言,数字集合M中有元素100个,其中数字元素m为123.45,其最高位数smax为3,在其所属的财报中,最高位数对应的频数最大时,最高位数Smax为4;最高位数为5时频数为10,最高位数为3时,频数为20,则其位数差率计算如下:
若对全部历史财务报表分别进行计算,其p2(1)的均值则数字元素m的数长可信度计算如下:
在计算数位可信度时,对于任意一个属于数字集合M的数字元素m,其数位可信度计算方式如下:
上式中,p3(as,s)为s位为i的历史概率,
上式中,N3(i,s)为s位为i的历史频数,当s≠smax时,N3(i,s)即为在历史财报中数字的第s位为i的数字出现的次数,如:N3(1,4)为历史财报中数字的千位数为1的数字的个数。
当s=smax时,N3(i,s)即为在历史财报中数字的最高位为i的数字出现的次数,最高位依据不同的数字的长度不同而不同。
上式中,η3为数位可信度系数,一般取0.1。
举例而言,数字元素m为123.45,其最高位数smax为3,个位为3的历史概率为0.07,十位为2为0.09,最高位为1的历史概率为0.21,则其数位可信度计算如下:
在计算上下文可信度时,对于任意一个属于数字集合M的数字元素m,其数位可信度计算方式如下:
上式中,p4(as,as-1)为数字元素as之后紧跟的数字元素为as-1的历史概率,
上式中,N4(j,i)为数字j之后紧跟的数字为i的历史频数,即为在历史财报中数字j之后紧跟的数字为i的出现次数,如:N3(1,4)为历史财报中数字1之后紧跟数字4的数字个数(即一个数字中存在连续的14的数字的个数,且一个数字中出现两个以上连续的14的话,仅算一个)。
上式中,η4为上下文可信度系数,一般取0.5。
举例而言,数字元素m为123.45,其最高位数smax为3,12的历史概率为0.3,23的历史概率为0.2,则其上下文可信度计算如下:
S204:计算数字集合中数字元素的联合可信度。
对于任意一个属于数字集合M的数字元素m,确定其联合可信度为数长可信度、数位可信度和上下文可信度的乘积,即:
S205:根据联合可信度确定待提示的连续文字。
在得到上述联合可信度后,将数字元素按其联合可信度进行排序,并根据排序结果选取符合预设规则的数字元素作为待提示元素;然后在最终显示界面上,通过高亮、特殊字体(如:加粗、斜体)等方式向用户提示待提示元素所对应的连续文字,并要求人工校验。
具体来说,可以将联合可信度小于预设数值的数字元素作为待提示元素,例如将R(m)<0.3的数字元素m作为待提示元素;或者,将数字集合M中数字元素m按照联合可信度R(m)从低到高排序,取前20%的数字元素m,其识别结果出现错误的可能性较大,将其作为待提示元素。
S206:将待提示元素对应的连续文字存入数据库中。
在得到上述待提示元素后,将待提示元素对应的数字元素及其最终对应的连续文字存入数据库中,并将人工最终确认结果一并存入数据库中,以作为相应的历史数据提高后续校核的成功率。
从上述技术方案可以看出,本实施例提供了一种字符识别结果的错误标定方法,具体为获取对原始财务报表经过光学字符识别得到的电子财务报表,从电子报表中截取连续文字,将截取到的连续文字作为文字集合的字段元素;计算每个字段元素的连续可信度,从文字集合中选取所有连续可信度为预设值的文字集合,构成数字集合;计算数字集合中每个数字元素的数长可信度、数位可信度和上下文可信度;根据预设的计算规则对数长可信度、数位可信度和上下文可信度进行计算,得到联合可信度;将得到的联合可信度进行排序,根据排序结果选取符合预设选取规则的数字元素作为待提示元素,以预设方式向用户提示待提示元素对应的连续文字。这样一来,用户可以仅对上述标定的错误点进行检查即可,无需全文检查,从而降低了人工负荷的工作量,提高了工作效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三
图3为本发明提供的一种字符识别结果的错误标定最终实施例的结构框图。
本实施例的装置应用于对财物报表进行光学字符识别的的电子计算装置,该电子计算装置可以为本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,本发明实施例对此不进行特别限定。
可以理解的是,应用可以是安装在终端上的应用程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本发明实施例对此不进行限定。
如图3所示,本实施例提供的错误标定装置用于对电子财务报表上的可能的错误进行标定,具体包括连续文字获取模块10、第一计算模块20、第二计算模块30、第三计算模块40和待提示确定模块50。
连续文字截取模块用于截取电子财务报表中的连续文字,构成文字集合。
其中的电子财务报表是通过对原始财务报表进行光学字符识别得到的,一般为word、excel或wps等电子文档格式,在得到电子财务报表后,从其中将所有连续文字予以提取,并将提取出的所有的连续文字作为文字集合O。
对已经人工复核过财务报表数字库进行加载。该库中存储了历史上经人工复核过的财务报表数字,并对属于同一份财务报表的数字进行了分组。
第一计算模块用于计算文字集合中的字段元素的连续可信度。
对属于集合O的连续文字o,其连续可信度R1计算方式如下:
若连续文字o符合以下任意一个条件,则连续可信度R1为0%:
1)连续文字o中包含除逗号(,)、点号(.)、数字(0至9)、正负号(+-)以外的其他字符;
2)连续文字o中包含多个点号(.);
3)连续文字o中逗号(,)在点号(.)之后;
4)连续文字o中正负号(+-)不在首位;
若不存在以上任意一个条件,则每一字段元素的连续可信度R1为100%。
将文字集合中可信度R1为100%的连续文字o记为数字元素m,并构成数字集合M,数字集合M中数字元素的总数为Nmax,数字元素m按照以下公式进行表达:
其中,b为数字元素m的小数部分;as为数字元素m整数部分自右向左第s位上的数字,如:a1为数字元素m个位上的数字,a2为数字元素m十位上的数字,以此类推;smax为数字元素m的最高位数。
第二计算模块用于计算数字元素的数长可信度、数位可信度和上下文可信度。
在得到上述数字集合M后,对其中每一数字元素按预设公式进行计算,得到每一数字元素的数长可信度、数位可信度和上下文可信度。
该模块包括频数记录单元31、位数确定单元32和第一计算单元33,在计算数字元素的数长可信度时,对于任意一个属于数字集合M的数字元素m,频数记录单元用于记录最高位数为smax的数字元素在数字集合M中出现的次数的记为频数h(smax),位数确定单元用于确定数字集合M中该频数h最大值Hmax对应的最高位数记Smax;第一计算单元则用于以预设公式对频数和最高位数进行计算,得到上述数长可信度。
对于任意一个属于数字集合M的数字元素m,其数长可信度计算方式如下:
上式中,Δs=|smax-Smax|,p2(Δs)为位数差率,
为对所有历史财务报表的p2(Δs)的均值,η2为数长可信度系数,一般取0.5。
举例而言,数字集合M中有元素100个,其中数字元素m为123.45,其最高位数smax为3,在其所属的财报中,最高位数对应的频数最大时,最高位数Smax为4;最高位数为5时频数为10,最高位数为3时,频数为20,则其位数差率计算如下:
若对全部历史财务报表分别进行计算,其p2(1)的均值则数字元素m的数长可信度计算如下:
该模块还包括用于计算数位可信度的第二计算单元34,对于任意一个属于数字集合M的数字元素m,该单元利用如下方式计算其数位可信度:
上式中,p3(as,s)为s位为i的历史概率,
上式中,N3(i,s)为s位为i的历史频数,当s≠smax时,N3(i,s)即为在历史财报中数字的第s位为i的数字出现的次数,如:N3(1,4)为历史财报中数字的千位数为1的数字的个数。
当s=smax时,N3(i,s)即为在历史财报中数字的最高位为i的数字出现的次数,最高位依据不同的数字的长度不同而不同。
上式中,η3为数位可信度系数,一般取0.1。
举例而言,数字元素m为123.45,其最高位数smax为3,个位为3的历史概率为0.07,十位为2为0.09,最高位为1的历史概率为0.21,则其数位可信度计算如下:
该模块还包括第三计算单元35,该单元用于在计算上下文可信度时,对于任意一个属于数字集合M的数字元素m,利用如下计算公式对其数位可信度进行计算:
上式中,p4(as,as-1)为数字as之后紧跟的数字为as-1的历史概率,
上式中,N4(j,i)为数字j之后紧跟的数字为i的历史频数,即为在历史财报中数字j之后紧跟的数字为i的出现次数,如:N3(1,4)为历史财报中数字1之后紧跟数字4的数字个数(即一个数字中存在连续的14的数字的个数,且一个数字中出现两个以上连续的14的话,仅算一个)。
上式中,η4为上下文可信度系数,一般取0.5。
举例而言,数字元素m为123.45,其最高位数smax为3,12的历史概率为0.3,23的历史概率为0.2,则其上下文可信度计算如下:
第三计算模块用于计算数字集合中数字元素的联合可信度。
对于任意一个属于数字集合M的数字元素m,确定其联合可信度为数长可信度、数位可信度和上下文可信度的乘积,即:
待提示确定模块用于在得到上述联合可信度后,将数字元素按其联合可信度进行排序,并根据排序结果选取符合预设规则的数字元素作为待提示元素;然后在最终显示界面上,通过高亮、特殊字体(如:加粗、斜体)等方式向用户提示待提示元素所对应的连续文字,并要求人工校验。
该模块包括第一选取单元51和第二选取单元52中的部分或全部,具体来说,第一选取单元用于将联合可信度小于预设数值的数字元素作为待提示元素,例如将R(m)<0.3的数字元素m作为待提示元素;第二选取单元用于将数字集合M中数字元素m按照联合可信度R(m)从低到高排序,取前20%的数字元素m,其识别结果出现错误的可能性较大,将其作为待提示元素。
从上述技术方案可以看出,本实施例提供了一种字符识别结果的错误标定装置,具体为获取对原始财务报表经过光学字符识别得到的电子财务报表,从电子报表中截取连续文字,将截取到的连续文字作为文字集合的字段元素;计算每个字段元素的连续可信度,从文字集合中选取所有连续可信度为预设值的文字集合,构成数字集合;计算数字集合中每个数字元素的数长可信度、数位可信度和上下文可信度;根据预设的计算规则对数长可信度、数位可信度和上下文可信度进行计算,得到联合可信度;将得到的联合可信度进行排序,根据排序结果选取符合预设选取规则的数字元素作为待提示元素,以预设方式向用户提示待提示元素对应的连续文字。这样一来,用户可以仅对上述标定的错误点进行检查即可,无需全文检查,从而降低了人工负荷的工作量,提高了工作效率。
实施例四
图4为本发明提供的另一种字符识别结果的错误标定方法实施例的步骤流程图。
如图1所示,本实施例提供的错误标定装置是在上一实施例的基础上增设了数据上传模块60
数据上传墨用于将待提示元素对应的连续文字存入数据库中
在得到上述待提示元素后,将待提示元素对应的数字元素及其最终对应的连续文字存入数据库中,并将人工最终确认结果一并存入数据库中,以作为相应的历史数据提高后续校核的成功率。
从上述技术方案可以看出,本实施例提供了一种字符识别结果的错误标定装置,具体为获取对原始财务报表经过光学字符识别得到的电子财务报表,从电子报表中截取连续文字,将截取到的连续文字作为文字集合的字段元素;计算每个字段元素的连续可信度,从文字集合中选取所有连续可信度为预设值的文字集合,构成数字集合;计算数字集合中每个数字元素的数长可信度、数位可信度和上下文可信度;根据预设的计算规则对数长可信度、数位可信度和上下文可信度进行计算,得到联合可信度;将得到的联合可信度进行排序,根据排序结果选取符合预设选取规则的数字元素作为待提示元素,以预设方式向用户提示待提示元素对应的连续文字。这样一来,用户可以仅对上述标定的错误点进行检查即可,无需全文检查,从而降低了人工负荷的工作量,提高了工作效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (12)
1.一种字符识别结果的错误标定方法,其特征在于,具体包括如下步骤:
获取对原始财务报表经过光学字符识别得到的电子财务报表,从所述电子报表中截取连续文字,将截取到的连续文字作为文字集合的字段元素;
计算每个字段元素的连续可信度,从所述文字集合中选取所有连续可信度为预设值的文字集合,构成数字集合;
计算所述数字集合中每个数字元素的数长可信度、数位可信度和上下文可信度;
根据预设的计算规则对所述数长可信度、所述数位可信度和所述上下文可信度进行计算,得到联合可信度;
将得到的联合可信度进行排序,根据排序结果选取符合预设选取规则的数字元素作为待提示元素,以预设方式向用户提示所述待提示元素对应的连续文字。
2.如权利要求1所述的错误标定方法,其特征在于,所述数长可信度的计算步骤为:
记录每个所述数字元素的最高位在所述数字集合中出现的频数;
确定所述数字集合中所述最大频数对应的最高位数;
以预设公式对所述频数和所述最高位数进行计算,得到所述数长可信度。
3.如权利要求1所述的错误标定方法,其特征在于,所述数位可信度的计算步骤为:
以预设公式对所述数字集合中数字元素的历史概率和历史频数进行计算,得到所述数字元素的数位可信度。
4.如权利要求1所述的错误标定方法,其特征在于,所述上下文可信度的计算步骤为:
以预设公式对所述数字元素的后续数字的历史概率进行计算,得到所述数字元素的上下文可信度。
5.如权利要求1所述的错误标定方法,其特征在于,所述根据排序结果选取符合预设选取规则的数字元素,包括:
选取联合可信度超出预设阈值的数字元素,作为所述待提示元素;
或,选取排名在预设位数之前的数字元素,作为所述待提示元素。
6.如权利要求1~5任一项所述的错误标定方法,其特征在于,还包括步骤:
将所述待提示元素对应的连续文字存入数据库中。
7.一种字符识别结果的错误标定装置,其特征在于,具体包括:
连续文字获取模块,用于获取对原始财务报表经过光学字符识别得到的电子财务报表,从所述电子报表中截取连续文字,将截取到的连续文字作为文字集合的字段元素;
第一计算模块,用于计算每个字段元素的连续可信度,从所述文字集合中选取所有连续可信度为预设值的文字集合,构成数字集合;
第二计算模块,用于计算所述数字集合中每个数字元素的数长可信度、数位可信度和上下文可信度;
第三计算模块,用于根据预设的计算规则对所述数长可信度、所述数位可信度和所述上下文可信度进行计算,得到联合可信度;
待提示确定模块,用于将得到的联合可信度进行排序,根据排序结果选取符合预设选取规则的数字元素作为待提示元素,以预设方式向用户提示所述待提示元素对应的连续文字。
8.如权利要求1所述的错误标定装置,其特征在于,所述第二计算模块包括:
频数记录单元,用于记录每个所述数字元素的最高位在所述数字集合中出现的频数;
位数确定单元,用于确定所述数字集合中所述最大频数对应的最高位数;
第一计算单元,用于以预设公式对所述频数和所述最高位数进行计算,得到所述数长可信度。
9.如权利要求1所述的错误标定装置,其特征在于,所述第二计算模块包括:
第二计算单元,用于以预设公式对所述数字集合中数字元素的历史概率和历史频数进行计算,得到所述数字元素的数位可信度。
10.如权利要求1所述的错误标定装置,其特征在于,所述第二计算模块包括:
第三计算单元,用于以预设公式对所述数字元素的后续数字的历史概率进行计算,得到所述数字元素的上下文可信度。
11.如权利要求1所述的错误标定装置,其特征在于,所述待提示确定模块包括:
第一选取单元,用于选取联合可信度超出预设阈值的数字元素,作为所述待提示元素;
第二选取单元,用于选取排名在预设位数之前的数字元素,作为所述待提示元素。
12.如权利要求7~11任一项所述的错误标定装置,其特征在于,还包括:
数据上传模块,用于将所述待提示元素对应的连续文字存入数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710429140.4A CN107392260B (zh) | 2017-06-08 | 2017-06-08 | 一种字符识别结果的错误标定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710429140.4A CN107392260B (zh) | 2017-06-08 | 2017-06-08 | 一种字符识别结果的错误标定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107392260A true CN107392260A (zh) | 2017-11-24 |
CN107392260B CN107392260B (zh) | 2020-03-17 |
Family
ID=60332076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710429140.4A Active CN107392260B (zh) | 2017-06-08 | 2017-06-08 | 一种字符识别结果的错误标定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107392260B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344730A (zh) * | 2018-09-06 | 2019-02-15 | 康美健康云服务有限公司 | 数据提取方法、装置及计算机可读存储介质 |
CN110109918A (zh) * | 2018-02-02 | 2019-08-09 | 兴业数字金融服务(上海)股份有限公司 | 用于校验表格数据的方法、装置、设备和计算机存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110274354A1 (en) * | 2010-05-10 | 2011-11-10 | Microsoft Corporation | Segmentation of a word bitmap into individual characters or glyphs during an ocr process |
CN103488983A (zh) * | 2013-09-13 | 2014-01-01 | 复旦大学 | 一种基于知识库的名片ocr数据修正方法和系统 |
CN103646197A (zh) * | 2013-12-12 | 2014-03-19 | 中国石油大学(华东) | 基于用户行为的用户可信度认证系统及方法 |
CN104112109A (zh) * | 2013-04-19 | 2014-10-22 | 深圳市乐彩智能卡科技有限公司 | 一种磁卡自动识别系统及方法 |
CN105528604A (zh) * | 2016-01-31 | 2016-04-27 | 华南理工大学 | 一种基于ocr的票据自动识别与处理系统 |
CN106485243A (zh) * | 2016-10-31 | 2017-03-08 | 用友网络科技股份有限公司 | 一种票据识别纠错方法及装置 |
CN107195069A (zh) * | 2017-06-28 | 2017-09-22 | 浙江大学 | 一种人民币冠字号自动识别方法 |
-
2017
- 2017-06-08 CN CN201710429140.4A patent/CN107392260B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110274354A1 (en) * | 2010-05-10 | 2011-11-10 | Microsoft Corporation | Segmentation of a word bitmap into individual characters or glyphs during an ocr process |
CN104112109A (zh) * | 2013-04-19 | 2014-10-22 | 深圳市乐彩智能卡科技有限公司 | 一种磁卡自动识别系统及方法 |
CN103488983A (zh) * | 2013-09-13 | 2014-01-01 | 复旦大学 | 一种基于知识库的名片ocr数据修正方法和系统 |
CN103646197A (zh) * | 2013-12-12 | 2014-03-19 | 中国石油大学(华东) | 基于用户行为的用户可信度认证系统及方法 |
CN105528604A (zh) * | 2016-01-31 | 2016-04-27 | 华南理工大学 | 一种基于ocr的票据自动识别与处理系统 |
CN106485243A (zh) * | 2016-10-31 | 2017-03-08 | 用友网络科技股份有限公司 | 一种票据识别纠错方法及装置 |
CN107195069A (zh) * | 2017-06-28 | 2017-09-22 | 浙江大学 | 一种人民币冠字号自动识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110109918A (zh) * | 2018-02-02 | 2019-08-09 | 兴业数字金融服务(上海)股份有限公司 | 用于校验表格数据的方法、装置、设备和计算机存储介质 |
CN109344730A (zh) * | 2018-09-06 | 2019-02-15 | 康美健康云服务有限公司 | 数据提取方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107392260B (zh) | 2020-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | On the equivalence between non-negative matrix factorization and probabilistic latent semantic indexing | |
CN107967575A (zh) | 一种人工智能保险咨询服务人工智能平台系统 | |
CN112085565A (zh) | 基于深度学习的信息推荐方法、装置、设备及存储介质 | |
CN112862092B (zh) | 一种异构图卷积网络的训练方法、装置、设备和介质 | |
CN112668323B (zh) | 基于自然语言处理的文本要素提取方法及其文本审查系统 | |
CN108509407A (zh) | 文本语义相似度计算方法、装置及用户终端 | |
US20220261591A1 (en) | Data processing method and apparatus | |
CN106815226A (zh) | 文本匹配方法和装置 | |
CN104834651A (zh) | 一种提供高频问题回答的方法和装置 | |
CN113283222B (zh) | 自动化报表生成方法、装置、计算机设备及存储介质 | |
CN109272402A (zh) | 评分卡的建模方法、装置、计算机设备及存储介质 | |
CN110347789A (zh) | 文本意图智能分类方法、装置及计算机可读存储介质 | |
CN105159927B (zh) | 目标文本主题词的选取方法、装置及终端 | |
CN115577701A (zh) | 针对大数据安全的风险行为识别方法、装置、设备及介质 | |
CN107392260A (zh) | 一种字符识别结果的错误标定方法和装置 | |
US9141686B2 (en) | Risk analysis using unstructured data | |
CN106776641A (zh) | 一种数据处理方法及装置 | |
CN111415196A (zh) | 一种广告召回方法、装置、服务器及存储介质 | |
CN114265835A (zh) | 基于图挖掘的数据分析方法、装置及相关设备 | |
CN107122367A (zh) | 基于用户浏览行为的用户属性值计算方法和计算装置 | |
CN109450963A (zh) | 消息推送方法及终端设备 | |
CN107025214A (zh) | 数据处理方法和装置 | |
CN106571909A (zh) | 数据加密方法及装置 | |
CN108846023A (zh) | 文本的非常规特性挖掘方法及装置 | |
CN108052595A (zh) | 一种数据查询的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |