CN110245576A - Ocr识别准确率的检测方法、装置、设备及存储介质 - Google Patents
Ocr识别准确率的检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110245576A CN110245576A CN201910426697.1A CN201910426697A CN110245576A CN 110245576 A CN110245576 A CN 110245576A CN 201910426697 A CN201910426697 A CN 201910426697A CN 110245576 A CN110245576 A CN 110245576A
- Authority
- CN
- China
- Prior art keywords
- ocr
- recognition accuracy
- sample
- result
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 83
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000012937 correction Methods 0.000 claims description 13
- 230000003287 optical effect Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000012015 optical character recognition Methods 0.000 description 163
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 241000887125 Chaptalia nutans Species 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013215 result calculation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种OCR识别准确率的检测方法,涉及OCR识别技术领域,该方法包括:在接收到OCR识别准确率检测请求时,根据所述OCR识别准确率检测请求获取目标样本信息;从预设样本数据库中随机抽取预设数量的与所述目标样本信息对应的样本文件,并调用预设OCR接口对所述样本文件进行识别,得到预设输出格式的识别结果文档;获取与所述样本文件关联保存的样本文档,并将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果。本发明还提供一种OCR识别准确率的检测装置、设备及存储介质。本发明能实现OCR识别准确率的智能检测,可降低人力成本,提高检测效率。
Description
技术领域
本发明涉及OCR识别技术领域,尤其涉及一种OCR识别准确率的检测方法、装置、设备及存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。由于项目需要,很多项目都会接入OCR识别,以进行文字识别。为保证最终识别结果的准确性,通常会测试OCR识别软件的识别准确率,目前一般是通过人工比对识别结果和原文内容,进而得到OCR识别准确率结果,该方法较为耗费人力,同时存在工作量较大,检测效率较低等缺陷。
发明内容
本发明的主要目的在于提供一种OCR识别准确率的检测方法、装置、设备及存储介质,旨在实现OCR识别准确率的智能检测,可降低人力成本,提高检测效率。
为实现上述目的,本发明提供一种OCR识别准确率的检测方法,所述OCR识别准确率的检测方法包括:
在接收到光学字符识别OCR识别准确率检测请求时,根据所述OCR识别准确率检测请求获取目标样本信息;
从预设样本数据库中随机抽取预设数量的与所述目标样本信息对应的样本文件,并调用预设OCR接口对所述样本文件进行识别,得到预设输出格式的识别结果文档;
获取与所述样本文件关联保存的样本文档,并将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果。
可选地,所述将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果的步骤包括:
将所述识别结果文档与所述样本文档输入预设文档比对软件中,并控制所述预设文档比对软件执行比对功能,得到比对结果文档;
根据所述比对结果文档得到比对批注数,并控制所述预设文档比对软件对所述样本文档执行字数统计功能,得到所述样本文档的总字数;
基于所述比对批注数、所述总字数和第一预设计算公式计算得到OCR识别准确率结果。
可选地,所述OCR识别准确率结果包括OCR全文识别准确率,所述第一预设计算公式为:
其中,R1为所述OCR全文识别准确率,ai为第i个样本文件对应的识别结果文档与所述样本文档之间的比对批注数,b为所述样本文档的总字数,n为所述预设数量。
可选地,所述将所述识别结果文档与所述样本文档输入预设文档比对软件中,并控制所述预设文档比对软件执行比对功能,得到比对结果文档的步骤之后,所述方法还包括:
根据所述比对结果文档获取识别错误的字符位置,并根据所述识别错误的字符位置删除所述识别结果文档中的识别错误的字符,得到识别结果校正文档;
将所述识别结果校正文档和所述样本文档输入预设字符统计软件,并控制所述预设字符统计软件执行字符统计功能,得到字符统计结果;
根据所述字符统计结果按第二预设计算公式计算得到OCR识别准确率结果。
可选地,所述字符统计结果包括所述识别结果校正文档和所述样本文档的中文字符数量、英文字符数量、数字字符数量和标点数量,所述OCR识别准确率结果还包括OCR字符识别准确率和OCR符号识别准确率,所述第二预设计算公式包括:
其中,R1为所述OCR全文识别准确率,R2为所述OCR字符识别准确率,R3为所述OCR符号识别准确率,ci1、di1、ei1、fi1分别为第i个样本文件对应的识别结果校正文档的中文字符数量、英文字符数量、数字字符数量和标点数量,c2、d2、e2、f2分别为所述样本文档的中文字符数量、英文字符数量、数字字符数量和标点数量,n为所述预设数量。
可选地,其特征在于,所述目标样本信息包括样本类别、样本内容、样本语言、样本背景、样本样式和样本输入格式中的一种或多种。
可选地,所述OCR识别准确率的检测方法还包括:
对预设周期内接收到的OCR识别准确率检测请求及其对应的OCR识别准确率结果进行统计,并生成对应的统计报告;
将所述统计报告发送至预设管理端,以供管理者对所述统计报告进行查看分析。
此外,为实现上述目的,本发明还提供一种OCR识别准确率的检测装置,所述OCR识别准确率的检测装置包括:
获取模块,用于在接收到光学字符识别OCR识别准确率检测请求时,根据所述OCR识别准确率检测请求获取目标样本信息;
识别模块,用于从预设样本数据库中随机抽取预设数量的与所述目标样本信息对应的样本文件,并调用预设OCR接口对所述样本文件进行识别,得到预设输出格式的识别结果文档;
计算模块,用于获取与所述样本文件关联保存的样本文档,并将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果。
此外,为实现上述目的,本发明还提供一种OCR识别准确率的检测设备,所述OCR识别准确率的检测设备包括存储器、处理器以及存储在所述存储器上并可被所述处理器执行的OCR识别准确率的检测程序,其中所述OCR识别准确率的检测程序被所述处理器执行时,实现如上所述的OCR识别准确率的检测方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有OCR识别准确率的检测程序,其中所述OCR识别准确率的检测程序被处理器执行时,实现如上所述的OCR识别准确率的检测方法的步骤。
本发明提供一种OCR识别准确率的检测方法、装置、设备及存储介质,通过在接收到OCR识别准确率检测请求时,根据该OCR识别准确率检测请求确定获取目标样本信息;从预设样本数据库中随机抽取预设数量的与该目标样本信息对应的样本文件,然后调用预设OCR接口对该样本文件进行识别,得到预设输出格式的识别结果文档;获取与该样本文件关联保存的样本文档,然后将识别结果文档与样本文档进行比对,进而根据比对结果得到OCR识别准确率结果。通过上述方式,本发明可实现OCR识别准确率的智能检测,无需人工进行比对计算,从而可降低人力成本,提高OCR识别准确率的检测效率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明OCR识别准确率的检测方法第一实施例的流程示意图;
图3为本发明实施例中将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果的第一细化流程示意图;
图4为本发明实施例中将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果的第二细化流程示意图;
图5为本发明OCR识别准确率的检测装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例涉及的OCR识别准确率的检测设备可以是PC(personal computer,个人计算机)、笔记本电脑、服务器等具有显示和处理功能的终端设备。
如图1所示,该OCR识别准确率的检测设备可以包括:处理器1001,例如CPU(Central Processing Unit,中央处理器),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真Wireless-Fidelity,Wi-Fi接口);存储器1005可以是高速随机存取存储器(randomaccess memory,RAM),也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的OCR识别准确率的检测设备结构并不构成对OCR识别准确率的检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及OCR识别准确率的检测程序。在图1中,网络通信模块可用于连接服务器,与服务器进行数据通信;而处理器1001可以用于调用存储器1005中存储的OCR识别准确率的检测程序,并执行本发明实施例提供的OCR识别准确率的检测方法。
基于上述硬件结构,提出本发明OCR识别准确率的检测方法的各个实施例。
本发明提供一种OCR识别准确率的检测方法。
请参照图2,图2为本发明OCR识别准确率的检测方法第一实施例的流程示意图。
在本实施例中,该OCR识别准确率的检测方法包括:
步骤S10,在接收到光学字符识别OCR识别准确率检测请求时,根据所述OCR识别准确率检测请求获取目标样本信息;
目前,在测试OCR识别软件的识别准确率时,一般是通过人工比对识别结果和原文内容,进而得到OCR识别准确率结果,该方法较为耗费人力,同时存在工作量较大,检测效率较低等缺陷。对此,本实施例提出一种OCR识别准确率的检测方法,通过获取目标样本信息,并从预设样本数据库中获取对应的样本文件,然后调用OCR接口对样本文件进行识别,得到识别结果文档,进而通过将识别结果文档与对应的样本文档进行比对,根据比对结果可计算得到OCR识别准确率,从而可实现OCR识别准确率的智能检测,无需人工进行比对计算,从而可降低人力成本,提高OCR识别准确率的检测效率。
在本实施例中,该OCR识别准确率的检测方法由OCR识别准确率的检测设备实现,该OCR识别准确率的检测设备可以是PC、笔记本电脑、服务器等设备,该OCR识别准确率的检测设备以服务器为例进行说明。
在本实施例中,工作人员需要对某一项目进行OCR(Optical CharacterRecognition,光学字符识别)识别准确率的测试时,可通过工作终端(如PC)登录对应的软件,选择OCR识别准确率测试选项,此时终端会弹出对应的窗口,以供工作人员填写对应的样本类别、样本内容、样本语言、样本背景、样本样式和样本输入格式等目标样本信息(当然,也可以选择部分进行填写),在填写完成确认后即可触发该OCR识别准确率测试请求。当然,本方法还适用于定时检测场景,工作人员可设定好目标样本信息和测试时间,然后定时发送OCR识别准确率检测请求。
服务器在接收到OCR识别准确率检测请求时,根据该OCR识别准确率检测请求确定获取目标样本信息,目标样本信息可以包括样本类别、样本内容、样本语言、样本背景、样本样式和样本输入格式中的一种或多种。为方便说明,下述实施例中,以目标样本信息可以包括样本类别、样本内容、样本语言、样本背景、样本样式和样本输入格式为例进行说明。
步骤S20,从预设样本数据库中随机抽取预设数量的与所述目标样本信息对应的样本文件,并调用预设OCR接口对所述样本文件进行识别,得到预设输出格式的识别结果文档;
在得到目标样本信息之后,从预设样本数据库中随机抽取预设数量的与该目标样本信息对应的样本文件,然后调用预设OCR接口对该样本文件进行识别,得到预设输出格式的识别结果文档。其中,该预设数量可以为预先设置的,可以为一个或多个,当然,可以理解的是,对多个样本文件进行识别,可提高后续准确率计算结果的准确性。该预设输出格式可以为doc(document,文档)格式或docx(一种文档格式)格式。
需要说明的是,为满足不同类型项目的需求,该预设样本数据库中可预先存储有各种类型的样本,如不同的样本类别、样本内容、样本语言、样本背景、样本样式和样本输入格式的样本,其中,样本类别可以包括但不限于证件类和文字类等,样本内容可以包括但不限于新闻资讯类、小说故事类、衣食住行类、国家地理类和法律法规类等,样本语言可以包括但不限于简体文字、繁体文字、英文、日文和韩文等,样本背景可以包括但不限于白色背景文本、纯色背景文本、非纯色背景文本和图片中包含文字等,样本样式可以包括但不限于电子文本、手写文本、横向文本和纵向文本等,样本输入格式可以包括但不限于PDF(Portable Document Format,便携式文档格式)格式、PNG(Portable Network Graphics,便携式网络图形)图片格式和JPG(Joint Picture Group,一种图像压缩格式)图片格式等。每一样本分别有对应的样本类别、样本内容、样本语言、样本背景和样本样式,每一样本可均有PDF格式、PNG图片格式和JPG图片格式等多种输入格式。此外,为后续与识别结果进行比对,每一样本还关联保存有doc格式或docx格式的样本文档,该样本文档即为正确的识别结果。
当然,需要说明的是,该样本数据库中还可以只包括各种类型(包括样本类别、样本内容、样本语言、样本背景和样本样式中的一种或多种类型)的doc格式或docx格式的样本文档,在接收到OCR识别准确率检测请求时,可先选择对应类型的样本文档,然后按目标样本信息中的样本输入格式对该样本文档进行格式转换,进而再调用预设OCR接口对经格式转换后的样本文档进行识别,得到预设输出格式的识别结果文档。
步骤S30,获取与所述样本文件关联保存的样本文档,并将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果。
在得到识别结果文档之后,获取与该样本文件关联保存的样本文档,然后将识别结果文档与样本文档进行比对,进而根据比对结果得到OCR识别准确率结果。其中,OCR识别准确率结果可以包括OCR全文识别准确率、OCR字符识别准确率和OCR符号识别准确率。识别结果文档与样本文档的比对方法和对应的OCR识别准确率的计算方法可以包括但不限于以下两种:1)先将所识别结果文档与样本文档输入分别预设文档比对软件中,然后控制该预设文档比对软件执行比对功能,得到比对结果文档;根据比对结果文档得到比对批注数,并控制该预设文档比对软件对样本文档执行字数统计功能,得到该样本文档的总字数;基于所述比对批注数、所述总字数和第一预设计算公式计算得到OCR识别准确率结果。2)先将所识别结果文档与样本文档输入分别预设文档比对软件中,然后控制该预设文档比对软件执行比对功能,得到比对结果文档;根据该比对结果文档获取识别错误的字符位置,并根据获取到的识别错误的字符位置删除识别结果文档中的识别错误的字符,得到识别结果校正文档;将识别结果校正文档和样本文档输入预设字符统计软件,并控制该预设字符统计软件执行字符统计功能,得到字符统计结果;根据字符统计结果按第二预设计算公式计算得到OCR识别准确率结果。具体的比对和计算过程可参照下述实施方式,此处不作赘述。
本发明提供一种OCR识别准确率的检测方法,通过在接收到OCR识别准确率检测请求时,根据该OCR识别准确率检测请求确定获取目标样本信息;从预设样本数据库中随机抽取预设数量的与该目标样本信息对应的样本文件,然后调用预设OCR接口对该样本文件进行识别,得到预设输出格式的识别结果文档;获取与该样本文件关联保存的样本文档,然后将识别结果文档与样本文档进行比对,进而根据比对结果得到OCR识别准确率结果。通过上述方式,本发明可实现OCR识别准确率的智能检测,无需人工进行比对计算,从而可降低人力成本,提高OCR识别准确率的检测效率。
进一步的,参照图3,图3为本发明实施例中将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果的第一细化流程示意图,具体的,步骤“将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果”包括:
步骤S31,将所述识别结果文档与所述样本文档输入预设文档比对软件中,并控制所述预设文档比对软件执行比对功能,得到比对结果文档;
作为一种文档比对方法和OCR识别准确率结果的计算方式,在本实施例中,可以先将所识别结果文档与样本文档输入分别预设文档比对软件中,然后控制该预设文档比对软件执行比对功能,得到比对结果文档。其中,该预设文档比对软件可以为Microsoftoffice。
步骤S32,根据所述比对结果文档得到比对批注数,并控制所述预设文档比对软件对所述样本文档执行字数统计功能,得到所述样本文档的比对批注数;
然后,根据比对结果文档得到比对批注数,并控制该预设文档比对软件对样本文档执行字数统计功能,得到该样本文档的总字数。具体的,可通过调用Microsoft office的批注API(Application Programming Interface,应用程序编程接口)获取得到比对批注数。
步骤S33,基于所述比对批注数、所述总字数和第一预设计算公式计算得到OCR识别准确率结果。
在得到比对批注数和样本文档的总字数之后,基于该比对批注数、总字数和第一预设计算公式计算得到OCR识别准确率结果。其中,该OCR识别准确率结果包括OCR全文识别准确率,第一预设计算公式为:
其中,R1为所述OCR全文识别准确率,ai为第i个样本文件对应的识别结果文档与所述样本文档之间的比对批注数,b为所述样本文档的总字数,n为所述预设数量。
进一步的,基于图3所示的步骤“将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果”的第一细化流程示意图,参照图4,在步骤S31之后,还可以包括以下步骤:
步骤S34,根据所述比对结果文档获取识别错误的字符位置,并根据所述识别错误的字符位置删除所述识别结果文档中的识别错误的字符,得到识别结果校正文档;
作为另一种文档比对方法和OCR识别准确率结果的计算方式,在本实施例中,服务器在将所识别结果文档与样本文档输入分别预设文档比对软件中,并控制该预设文档比对软件执行比对功能,得到比对结果文档之后,可以根据该比对结果文档获取识别错误的字符位置,并根据获取到的识别错误的字符位置删除识别结果文档中的识别错误的字符,得到识别结果校正文档。
步骤S35,将所述识别结果校正文档和所述样本文档输入预设字符统计软件,并控制所述预设字符统计软件执行字符统计功能,得到字符统计结果;
然后,将识别结果校正文档和样本文档输入预设字符统计软件,并控制该预设字符统计软件执行字符统计功能,得到字符统计结果。其中,字符统计结果包括识别结果校正文档和样本文档的中文字符数量、英文字符数量、数字字符数量和标点数量。
步骤S36,根据所述字符统计结果按第二预设计算公式计算得到OCR识别准确率结果。
在得到字符统计结果之后,根据字符统计结果按第二预设计算公式计算得到OCR识别准确率结果。其中,OCR识别准确率结果除包括OCR全文识别准确率外,还包括OCR字符识别准确率和OCR符号识别准确率,第二预设计算公式包括:
其中,R1为所述OCR全文识别准确率,R2为所述OCR字符识别准确率,R3为所述OCR符号识别准确率,ci1、di1、ei1、fi1分别为第i个样本文件对应的识别结果校正文档的中文字符数量、英文字符数量、数字字符数量和标点数量,c2、d2、e2、f2分别为所述样本文档的中文字符数量、英文字符数量、数字字符数量和标点数量,n为所述预设数量。
当然,还可以根据字符统计结果计算得到中文字符的识别准确率、英文字符的识别准确率、数字字符的识别准确率、中文字符+标点的识别准确率、中文字符+数字的识别准确率等,从而得到更多OCR识别准确率的指标值,更有助于后续的分析统计。
进一步的,基于上述各实施方式,提出本发明OCR识别准确率的检测方法的第二实施例。
基于图2所示的第一实施例,在步骤S30之后,该OCR识别准确率的检测方法还可以包括以下步骤:
步骤A,对预设周期内接收到的OCR识别准确率检测请求及其对应的OCR识别准确率结果进行统计,并生成对应的统计报告;
在本实施例中,为方便管理人员了解OCR接口针对各类型样本文件的识别准确率,可对预设周期内接收到的OCR识别准确率检测请求及其对应的OCR识别准确率结果进行统计,并生成对应的统计报告。其中,预设周期可以设为一周、一个月等,可根据实际情况进行设定,此处不作限定。统计时间可根据预设周期来定,例如,预设周期为一个月时,则每隔一个月进行一次统计。在统计时,可以根据OCR识别准确率检测请求所对应的目标样本信息来进行统计,例如,以样本类别中的证件类和文字类为维度,进行统计。
步骤B,将所述统计报告发送至预设管理端,以供管理者对所述统计报告进行查看分析。
然后,将统计报告发送至预设管理端,以供管理者对该统计报告进行查看分析。其中,发送方式可以为将统计报告发送至预设的管理者邮箱,当然,也可以为其他方式,此处不作限定。
本发明还提供一种OCR识别准确率的检测装置。
参照图5,图5为本发明OCR识别准确率的检测装置第一实施例的功能模块示意图。
在本实施例中,所述OCR识别准确率的检测装置包括:
获取模块10,用于在接收到光学字符识别OCR识别准确率检测请求时,根据所述OCR识别准确率检测请求获取目标样本信息;
识别模块20,用于从预设样本数据库中随机抽取预设数量的与所述目标样本信息对应的样本文件,并调用预设OCR接口对所述样本文件进行识别,得到预设输出格式的识别结果文档;
计算模块30,用于获取与所述样本文件关联保存的样本文档,并将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果。
其中,上述OCR识别准确率的检测装置的各虚拟功能模块存储于图1所示OCR识别准确率的检测设备的存储器1005中,用于实现OCR识别准确率的检测程序的所有功能;各模块被处理器1001执行时,可实现智能检测OCR识别准确率的功能。
进一步的,所述计算模块30包括:
比对单元,用于将所述识别结果文档与所述样本文档输入预设文档比对软件中,并控制所述预设文档比对软件执行比对功能,得到比对结果文档;
第一统计单元,用于根据所述比对结果文档得到比对批注数,并控制所述预设文档比对软件对所述样本文档执行字数统计功能,得到所述样本文档的总字数;
第一计算单元,用于基于所述比对批注数、所述总字数和第一预设计算公式计算得到OCR识别准确率结果。
进一步的,所述OCR识别准确率结果包括OCR全文识别准确率,所述第一预设计算公式为:
其中,R1为所述OCR全文识别准确率,ai为第i个样本文件对应的识别结果文档与所述样本文档之间的比对批注数,b为所述样本文档的总字数,n为所述预设数量。
进一步的,所述计算模块30还包括:
删除单元,用于根据所述比对结果文档获取识别错误的字符位置,并根据所述识别错误的字符位置删除所述识别结果文档中的识别错误的字符,得到识别结果校正文档;
第二统计单元,用于将所述识别结果校正文档和所述样本文档输入预设字符统计软件,并控制所述预设字符统计软件执行字符统计功能,得到字符统计结果;
第二计算单元,用于根据所述字符统计结果按第二预设计算公式计算得到OCR识别准确率结果。
进一步的,所述字符统计结果包括所述识别结果校正文档和所述样本文档的中文字符数量、英文字符数量、数字字符数量和标点数量,所述OCR识别准确率结果还包括OCR字符识别准确率和OCR符号识别准确率,所述第二预设计算公式包括:
其中,R1为所述OCR全文识别准确率,R2为所述OCR字符识别准确率,R3为所述OCR符号识别准确率,ci1、di1、ei1、fi1分别为第i个样本文件对应的识别结果校正文档的中文字符数量、英文字符数量、数字字符数量和标点数量,c2、d2、e2、f2分别为所述样本文档的中文字符数量、英文字符数量、数字字符数量和标点数量,n为所述预设数量。
进一步的,所述目标样本信息包括样本类别、样本内容、样本语言、样本背景、样本样式和样本输入格式中的一种或多种。
进一步的,所述OCR识别准确率的检测装置还包括:
生成模块,用于对预设周期内接收到的OCR识别准确率检测请求及其对应的OCR识别准确率结果进行统计,并生成对应的统计报告;
发送模块,用于将所述统计报告发送至预设管理端,以供管理者对所述统计报告进行查看分析。
其中,上述OCR识别准确率的检测装置中各个模块的功能实现与上述OCR识别准确率的检测方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明还提供一种存储介质,该存储介质上存储有OCR识别准确率的检测程序,所述OCR识别准确率的检测程序被处理器执行时实现如以上任一项实施例所述的OCR识别准确率的检测方法的步骤。
本发明存储介质的具体实施例与上述OCR识别准确率的检测方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种OCR识别准确率的检测方法,其特征在于,所述OCR识别准确率的检测方法包括以下步骤:
在接收到光学字符识别OCR识别准确率检测请求时,根据所述OCR识别准确率检测请求获取目标样本信息;
从预设样本数据库中随机抽取预设数量的与所述目标样本信息对应的样本文件,并调用预设OCR接口对所述样本文件进行识别,得到预设输出格式的识别结果文档;
获取与所述样本文件关联保存的样本文档,并将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果。
2.如权利要求1所述的OCR识别准确率的检测方法,其特征在于,所述将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果的步骤包括:
将所述识别结果文档与所述样本文档输入预设文档比对软件中,并控制所述预设文档比对软件执行比对功能,得到比对结果文档;
根据所述比对结果文档得到比对批注数,并控制所述预设文档比对软件对所述样本文档执行字数统计功能,得到所述样本文档的总字数;
基于所述比对批注数、所述总字数和第一预设计算公式计算得到OCR识别准确率结果。
3.如权利要求2所述的OCR识别准确率的检测方法,其特征在于,所述OCR识别准确率结果包括OCR全文识别准确率,所述第一预设计算公式为:
其中,R1为所述OCR全文识别准确率,ai为第i个样本文件对应的识别结果文档与所述样本文档之间的比对批注数,b为所述样本文档的总字数,n为所述预设数量。
4.如权利要求3所述的OCR识别准确率的检测方法,其特征在于,所述将所述识别结果文档与所述样本文档输入预设文档比对软件中,并控制所述预设文档比对软件执行比对功能,得到比对结果文档的步骤之后,所述方法还包括:
根据所述比对结果文档获取识别错误的字符位置,并根据所述识别错误的字符位置删除所述识别结果文档中的识别错误的字符,得到识别结果校正文档;
将所述识别结果校正文档和所述样本文档输入预设字符统计软件,并控制所述预设字符统计软件执行字符统计功能,得到字符统计结果;
根据所述字符统计结果按第二预设计算公式计算得到OCR识别准确率结果。
5.如权利要求4所述的OCR识别准确率的检测方法,其特征在于,所述字符统计结果包括所述识别结果校正文档和所述样本文档的中文字符数量、英文字符数量、数字字符数量和标点数量,所述OCR识别准确率结果还包括OCR字符识别准确率和OCR符号识别准确率,所述第二预设计算公式包括:
其中,R1为所述OCR全文识别准确率,R2为所述OCR字符识别准确率,R3为所述OCR符号识别准确率,ci1、di1、ei1、fi1分别为第i个样本文件对应的识别结果校正文档的中文字符数量、英文字符数量、数字字符数量和标点数量,c2、d2、e2、f2分别为所述样本文档的中文字符数量、英文字符数量、数字字符数量和标点数量,n为所述预设数量。
6.如权利要求1至5中任一项所述的OCR识别准确率的检测方法,其特征在于,所述目标样本信息包括样本类别、样本内容、样本语言、样本背景、样本样式和样本输入格式中的一种或多种。
7.如权利要求1至5中任一项所述的OCR识别准确率的检测方法,其特征在于,所述OCR识别准确率的检测方法还包括:
对预设周期内接收到的OCR识别准确率检测请求及其对应的OCR识别准确率结果进行统计,并生成对应的统计报告;
将所述统计报告发送至预设管理端,以供管理者对所述统计报告进行查看分析。
8.一种OCR识别准确率的检测装置,其特征在于,所述OCR识别准确率的检测装置包括:
获取模块,用于在接收到光学字符识别OCR识别准确率检测请求时,根据所述OCR识别准确率检测请求获取目标样本信息;
识别模块,用于从预设样本数据库中随机抽取预设数量的与所述目标样本信息对应的样本文件,并调用预设OCR接口对所述样本文件进行识别,得到预设输出格式的识别结果文档;
计算模块,用于获取与所述样本文件关联保存的样本文档,并将所述识别结果文档与所述样本文档进行比对,根据比对结果计算得到OCR识别准确率结果。
9.一种OCR识别准确率的检测设备,其特征在于,所述OCR识别准确率的检测设备包括存储器、处理器以及存储在所述存储器上并可被所述处理器执行的OCR识别准确率的检测程序,其中所述OCR识别准确率的检测程序被所述处理器执行时,实现如权利要求1至7中任一项所述的OCR识别准确率的检测方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有OCR识别准确率的检测程序,其中所述OCR识别准确率的检测程序被处理器执行时,实现如权利要求1至7中任一项所述的OCR识别准确率的检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910426697.1A CN110245576A (zh) | 2019-05-21 | 2019-05-21 | Ocr识别准确率的检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910426697.1A CN110245576A (zh) | 2019-05-21 | 2019-05-21 | Ocr识别准确率的检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110245576A true CN110245576A (zh) | 2019-09-17 |
Family
ID=67884685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910426697.1A Pending CN110245576A (zh) | 2019-05-21 | 2019-05-21 | Ocr识别准确率的检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245576A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078569A (zh) * | 2019-12-20 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 光学字符识别应用的测试方法、装置及存储介质 |
CN111144402A (zh) * | 2019-11-27 | 2020-05-12 | 深圳壹账通智能科技有限公司 | Ocr识别准确率的计算方法、装置、设备以及存储介质 |
CN111178350A (zh) * | 2019-12-26 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 文本检测算法的性能测试方法、装置、设备及存储介质 |
CN112287936A (zh) * | 2020-09-24 | 2021-01-29 | 深圳市智影医疗科技有限公司 | 光学字符识别测试方法、装置、可读存储介质及终端设备 |
CN114637845A (zh) * | 2022-03-11 | 2022-06-17 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
CN114663878A (zh) * | 2022-05-25 | 2022-06-24 | 成都飞机工业(集团)有限责任公司 | 一种成品软件版本检查方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106356053A (zh) * | 2016-08-09 | 2017-01-25 | 北京金山安全软件有限公司 | 语音输入法的识别准确率测试方法、装置和电子设备 |
CN106682698A (zh) * | 2016-12-29 | 2017-05-17 | 成都数联铭品科技有限公司 | 基于模板匹配的ocr识别方法 |
CN109389109A (zh) * | 2018-09-11 | 2019-02-26 | 厦门商集网络科技有限责任公司 | 一种ocr全文本识别正确率的自动化测试方法及设备 |
CN109408807A (zh) * | 2018-09-11 | 2019-03-01 | 厦门商集网络科技有限责任公司 | Ocr识别正确率的自动化测试方法及测试设备 |
CN109543614A (zh) * | 2018-11-22 | 2019-03-29 | 厦门商集网络科技有限责任公司 | 一种全文本差异比对方法及设备 |
-
2019
- 2019-05-21 CN CN201910426697.1A patent/CN110245576A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106356053A (zh) * | 2016-08-09 | 2017-01-25 | 北京金山安全软件有限公司 | 语音输入法的识别准确率测试方法、装置和电子设备 |
CN106682698A (zh) * | 2016-12-29 | 2017-05-17 | 成都数联铭品科技有限公司 | 基于模板匹配的ocr识别方法 |
CN109389109A (zh) * | 2018-09-11 | 2019-02-26 | 厦门商集网络科技有限责任公司 | 一种ocr全文本识别正确率的自动化测试方法及设备 |
CN109408807A (zh) * | 2018-09-11 | 2019-03-01 | 厦门商集网络科技有限责任公司 | Ocr识别正确率的自动化测试方法及测试设备 |
CN109543614A (zh) * | 2018-11-22 | 2019-03-29 | 厦门商集网络科技有限责任公司 | 一种全文本差异比对方法及设备 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144402A (zh) * | 2019-11-27 | 2020-05-12 | 深圳壹账通智能科技有限公司 | Ocr识别准确率的计算方法、装置、设备以及存储介质 |
CN111078569A (zh) * | 2019-12-20 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 光学字符识别应用的测试方法、装置及存储介质 |
CN111078569B (zh) * | 2019-12-20 | 2022-01-18 | 腾讯科技(深圳)有限公司 | 光学字符识别应用的测试方法、装置及存储介质 |
CN111178350A (zh) * | 2019-12-26 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 文本检测算法的性能测试方法、装置、设备及存储介质 |
CN111178350B (zh) * | 2019-12-26 | 2024-09-13 | 腾讯科技(深圳)有限公司 | 文本检测算法的性能测试方法、装置、设备及存储介质 |
CN112287936A (zh) * | 2020-09-24 | 2021-01-29 | 深圳市智影医疗科技有限公司 | 光学字符识别测试方法、装置、可读存储介质及终端设备 |
CN114637845A (zh) * | 2022-03-11 | 2022-06-17 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
CN114663878A (zh) * | 2022-05-25 | 2022-06-24 | 成都飞机工业(集团)有限责任公司 | 一种成品软件版本检查方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245576A (zh) | Ocr识别准确率的检测方法、装置、设备及存储介质 | |
WO2020077824A1 (zh) | 异常问题的定位方法、装置、设备及存储介质 | |
US20200004815A1 (en) | Text entity detection and recognition from images | |
CN109784235A (zh) | 纸质表单的自动录入方法、装置、计算机设备和存储介质 | |
CN110288755A (zh) | 基于文本识别的发票检验方法、服务器及存储介质 | |
CN110147981A (zh) | 基于文本分析的合同风险审核方法、装置及终端设备 | |
WO2022100452A1 (zh) | Ocr系统的评估方法、装置、设备及可读存储介质 | |
US20130298025A1 (en) | Interactive Oral Presentation Display System | |
US8032505B2 (en) | Relative document representing system, relative document representing method, and computer readable medium | |
CN107453978A (zh) | 基于群组的数据统计方法、移动终端、服务器及存储介质 | |
CN107728892A (zh) | 图片展示方法、装置、终端和存储介质 | |
CN113762303B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN109194689A (zh) | 异常行为识别方法、装置、服务器及存储介质 | |
US20070158403A1 (en) | Business card information exchange device and method | |
CN111652073B (zh) | 视频分类方法、装置、系统、服务器和存储介质 | |
US20090083284A1 (en) | Delivery server for delivering documents to be browsed to mobile terminal, mobile terminal, and delivery system for delivering documents to be browsed to mobile terminal | |
CN112995690A (zh) | 直播内容品类识别方法、装置、电子设备和可读存储介质 | |
US20170171462A1 (en) | Image Collection Method, Information Push Method and Electronic Device, and Mobile Phone | |
CN109753535A (zh) | 案件数据的录入方法、设备及计算机可读存储介质 | |
CN111104542B (zh) | 零件识别管理方法及装置 | |
CN109460365A (zh) | 一种系统性能测试方法、装置、设备及存储介质 | |
CN105975554A (zh) | 基于移动终端的大数据搜索方法及装置 | |
CN114612905A (zh) | 基于rpa和ai的发票处理方法、装置、设备和介质 | |
CN114511697A (zh) | 图像检测方法、装置及系统 | |
CN109670497A (zh) | 图片上传方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190917 |
|
WD01 | Invention patent application deemed withdrawn after publication |