CN107992484B - 一种评测ocr系统的性能的方法、设备及存储介质 - Google Patents

一种评测ocr系统的性能的方法、设备及存储介质 Download PDF

Info

Publication number
CN107992484B
CN107992484B CN201711183057.XA CN201711183057A CN107992484B CN 107992484 B CN107992484 B CN 107992484B CN 201711183057 A CN201711183057 A CN 201711183057A CN 107992484 B CN107992484 B CN 107992484B
Authority
CN
China
Prior art keywords
test
database
character
result
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711183057.XA
Other languages
English (en)
Other versions
CN107992484A (zh
Inventor
刘哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Youdao Hangzhou Intelligent Technology Co ltd
Original Assignee
Netease Youdao Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Youdao Information Technology Beijing Co Ltd filed Critical Netease Youdao Information Technology Beijing Co Ltd
Priority to CN201711183057.XA priority Critical patent/CN107992484B/zh
Publication of CN107992484A publication Critical patent/CN107992484A/zh
Application granted granted Critical
Publication of CN107992484B publication Critical patent/CN107992484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明实施例提供一种评测OCR系统的性能的方法、设备及计算机存储介质,所述方法包括:采集包括有文字的测试集;通过所述OCR系统对所述测试集中的文字进行识别,以获得测试结果;以及借助第三方数据库对所述测试结果进行评测,以获得用于表征OCR系统的性能的评测结果。

Description

一种评测OCR系统的性能的方法、设备及存储介质
技术领域
本发明涉及系统性能测试技术,尤其涉及一种评测OCR系统的性能的方法、设备及计算机存储介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此次的描述不因为包括在本部分中就承认是现有技术。
常见的OCR系统包括日常用到的拍照翻译、名片拍照识别、路牌拍照识别、图书扫描等。
目前,OCR系统的性能评测主要包括如下几个衡量指标:识别率、识别速度及其产品稳定性等。针对OCR系统的性能评测问题,当前主流的手动评测方案包括以下步骤:首先,人工收集一批测试样本数据(也称作测试集),如100张带有文字的图片;其次,手动识别出所述100张图片中的所有文字信息,即标准结果;再次,将该测试样本数据输入OCR系统,收集生成的测试结果;最后,将所述测试结果与标准结果进行人工对比,得出所述测试结果与标准结果的比值,即OCR系统的识别准确率。
但是,现有的基于OCR系统的性能的手动评测方案存在若干问题:1、需要人工干预,无论是生成测试结果,还是对比得出识别准确率的过程都有人为参与;2、评测人员质量参差不齐,对评测结果产生一定的影响;3、测试集固定,一旦想要引入新的测试集,则需要重新人工选取测试样本,测试结果,以及进行结果对比,整个过程非常复杂;4、测试时间长,获取较多数据的结果时时间很难预期;5、如果测试集为非中文(例如俄语、西班牙语等),则需要专业人员对结果进行准确性判断。
因此在现有技术中,基于OCR系统的性能的手动评测方案需要人工干预,测试过程繁琐且测试结果的准确性不足,导致整个OCR系统的性能评测效率低下、可靠性差。
发明内容
为此,非常需要一种改进的评测OCR系统的性能的方法、设备及计算机存储介质,以实现整个评测过程的完全无人值守,且评测效率高、可靠性好,尤其在批量测试集的测试中更能发挥其优势。
在本上下文中,本发明的实施方式期望提供一种评测OCR系统的性能的方法、设备及计算机存储介质。
在本发明实施方式的第一方面中,提供了一种评测OCR系统的性能的方法,包括:采集包括有文字的测试集;通过所述OCR系统对所述测试集中的文字进行识别,以获得测试结果;以及借助第三方数据库对所述测试结果进行评测,以获得用于表征OCR系统的性能的评测结果。
在本发明实施方式的第二方面中,提供了一种评测OCR系统的性能的设备,包括:采集装置,用于采集包括有文字的测试集;识别装置,用于通过所述OCR系统对所述测试集中的文字进行识别,以获得测试结果;以及评测装置,用于借助第三方数据库对所述测试结果进行评测,以获得用于表征OCR系统的性能的评测结果。
在本发明实施方式的第三方面中,提供了一种评测OCR系统的性能的设备,包括:一个或者多个处理器;存储器;存储在所述存储器中的程序,当被所述一个或者多个处理器执行时,所述程序使所述处理器执行如上述第一方面所述评测OCR系统的性能的方法。
在本发明实施方式的第四方面中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行如上述第一方面所述评测OCR系统的性能的方法。
根据本发明实施方式的评测OCR系统的性能的方法、设备及计算机存储介质,可以自动通过OCR系统来对任意不固定的测试集中的文字进行识别,并借助第三方数据库自动对测试结果进行评测,从而实现整个评测过程的完全无人值守,且评测效率高、可靠性好,尤其在批量测试集的测试中更能发挥其优势。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示意性地示出了本发明的实施方式的一个示例性应用场景的框架示意图;
图2示意性地示出了本发明的实施方式中评测OCR系统的性能的方法的一实施例的流程图;
图3示意性地示出了本发明的实施方式中评测OCR系统的性能的方法中的对所述测试结果进行评测操作的一实施例的流程图;
图4示意性地示出了本发明的实施方式中评测OCR系统的性能的方法中的对所述测试结果进行评测操作的一实施例的流程图;
图5示意性地示出了本发明的实施方式中评测OCR系统的性能的方法中的对所述测试结果进行评测操作的一实施例的流程图;
图6示意性地示出了本发明的实施方式中评测OCR系统的性能的方法中的对所述测试结果进行评测操作的一实施例的流程图;
图7结合图1、图2及其图5示意性地示出了本发明一应用示例中评测OCR系统的性能的方法的具体实现流程图;
图8示意性地示出了根据本发明实施方式的评测OCR系统的性能的设备的示意图;
图9示出了根据本发明实施方式的评测OCR系统的性能的设备的示意图;
图10示出了根据本发明实施方式的评测OCR系统的性能的计算机可读存储介质的示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
下面结合附图对本发明的具体实施方式进行详细描述。
图1示意性地示出了本发明的实施方式的一个示例性应用场景的框架示意图。
参考图1,为了测试OCR系统的性能,该评测OCR系统的性能的场景10可以自动将任意不固定的批量测试集输入到OCR系统,经OCR系统对所述测试集中的文字进行识别后得到测试结果;接着,进一步自动将测试结果输入到评测系统,以使评测系统借助于第三方数据库对所述测试结果进行评测,以获得用于表征OCR系统的性能的评测结果。这里,所述第三方数据库可以包括字典、搜索引擎数据库、翻译数据库等的部分或全部。
本领域技术人员可以理解,图1所示的框架示意图仅是本发明的实施方式可以在其中得以实现的一个应用于单机的示例。本发明实施方式的适用范围不受到该框架任何方面的限制。例如,本发明的实施方式同样可以应用于多机应用场景中,也就是,OCR系统和评测系统及其后续的不同类型的第三方数据库均可分别或以任意组合形式部署在不同的设备上,以通过不同设备之间进行交互的方式完成对OCR系统的性能的自动评测。
需要注意的是,此处的评测OCR系统的性能的设备10可以是现有的、正在研发的或将来研发的电子设备,包括但不限于:现有的、正在研发的或将来研发的、台式计算机、膝上型计算机、移动终端(包括智能手机、非智能手机、各种平板电脑)等。
图2示意性地示出了本发明的实施方式中评测OCR系统的性能的方法的一实施例的流程图。
如图2所示,本发明实施例评测OCR系统的性能的方法包括:操作201,采集包括有文字的测试集;操作202,通过所述OCR系统对所述测试集中的文字进行识别,以获得测试结果;以及操作203,借助第三方数据库对所述测试结果进行评测,以获得用于表征OCR系统的性能的评测结果。
这里,常见的OCR系统包括日常用到的拍照翻译、名片拍照识别、路牌拍照识别、图书扫描等。相应的,所述包括有文字的测试集可以是应用于拍照翻译中的翻译类型的图片,或者应用于名片拍照识别中的名片类型的图片,或者应用于路牌拍照识别中的路标类型的图片,以及应用于图书扫描中的封面类型的图片等等。
在操作201中,所述测试集可以为一个或多个,且每个测试集的样本类型、样本数量均可以不固定,即根据测试需求可以采集用户预先设置的任意形式的测试集。举例来说,如采集100张路标类型的图片或采集50张名片类型的图片,又如采集30张路标类型的图片和60张封面类型的图片。
这里,操作201可以包括以直接从本地已存储的图片数据库中读取的方式来采集包括有文字的测试集;还可以包括通过外连图片数据库进行在线下载或离线下载的方式来采集包括有文字的测试集。
在操作203中,所述第三方数据库可以包括字典、搜索引擎数据库、翻译数据库等的部分或全部。当然,由于测试集中所包括的文字的类别不同,会相应的借助不同的第三方数据库;相应地,因借助的第三方数据库的不同,使得对所述测试结果进行评测的具体实现也会不同。关于对所述测试结果进行评测的具体实现将在后文中进行详细描述。
本发明实施例可以自动通过OCR系统来对任意不固定的测试集中的文字进行识别,并借助第三方数据库自动对测试结果进行评测,从而实现整个评测过程的完全无人值守,且评测效率高、可靠性好,尤其在批量测试集的测试中更能发挥其优势。
根据本发明一实施方式,若操作201中采集的测试集为多个,则在操作203中将会获得与所述多个测试集相对应的多个评测结果;所述方法进一步包括:操作204,对所述多个评测结果进行统计分析,以得到所述OCR系统的性能。
在一示例中,操作204可以通过对所述多个评测结果进行算术平均的方式来完成所述多个评测结果的统计分析。
在又一示例中,操作204可以通过对所述多个评测结果进行加权平均的方式来完成所述多个评测结果的统计分析。
具体地,所述对所述多个评测结果进行加权平均可以包括:步骤1)确定每个测试集的样本占比,所述样本占比为所述每个测试集所包含的测试样本相对于所述多个测试集组成的总测试样本的占比;步骤2)将所述每个测试集的样本占比作为对应评测结果的加权因子;步骤3)利用所述加权因子对所述多个评测结果进行加权平均。
具体地,所述对所述多个评测结果进行加权平均还可以包括:步骤A,获取每个测试集的样本类型;步骤B,基于样本类型与系统性能之间的关联关系,确定每个测试集对应评测结果的加权因子;步骤C,利用所述加权因子对所述多个评测结果进行加权平均。
这样,整个评测过程中测试集不需要固定,一旦想要引入新的测试集,将自动生成新的测试标准,并且测试时间短,使得在批量测试集的测试中评测效率高、灵活性强。
图3示意性地示出了本发明的实施方式中评测OCR系统的性能的方法中的对所述测试结果进行评测操作的一实施例的流程图。
如图3所示,本发明实施例中所述第三方数据库包括字典;相应的,所述借助第三方数据库对所述测试结果进行评测,包括:操作301,对所述测试结果中的文字进行单字切分处理,得到单字的切分结果;操作302,检测字典中是否存在有所述单字;操作303,若存在,则确定所述文字为准确识别的文字。
根据本发明一实施方式,其中,所述第三方数据库还包括翻译数据库;在操作302之后,所述借助第三方数据库对所述测试结果进行评测还包括:操作304,若不存在,则进一步检测所述测试结果中的文字是否为中文;操作305,若所述文字为非中文,则利用翻译数据库将所述文字翻译为对应的中文。这样,即使测试集为非中文,也可以借助翻译数据库(即对应的翻译系统,如神经网络机器翻译(Neural Machine Translation,NMT))自动翻译成中文,使得整个评测过程不再依赖于专门语言的人员,实现完全无人值守的系统评测,从而有效降低评测成本,提升评测效率。
根据本发明一实施方式,其中,所述第三方数据库还包括搜索引擎数据库;所述借助第三方数据库对所述测试结果进行评测,进一步包括:操作306,检测所述搜索引擎数据库中是否存在所述中文;操作307,若存在,则确定所述文字为准确识别的文字;操作308,若不存在,则确定所述文字为错误识别的文字。
图4示意性地示出了本发明的实施方式中评测OCR系统的性能的方法中的对所述测试结果进行评测操作的一实施例的流程图。
如图4所示,本发明实施例中所述第三方数据库包括字典;相应的,所述借助第三方数据库对所述测试结果进行评测,包括:操作401,对所述测试结果中的文字进行词组切分处理,得到词组的切分结果;操作402,检测字典中是否存在有所述词组;操作403,若存在,则确定所述文字为准确识别的文字。
根据本发明一实施方式,其中,所述第三方数据库还包括翻译数据库;在操作402之后,所述借助第三方数据库对所述测试结果进行评测还包括:操作404,若不存在,则进一步检测所述测试结果中的文字是否为中文;操作405,若所述文字为非中文,则利用翻译数据库将所述文字翻译为对应的中文。这样,即使测试集为非中文,也可以借助翻译数据库(即对应的翻译系统,如NMT)自动翻译成中文,使得整个评测过程不再依赖于专门语言的人员,实现完全无人值守的系统评测,从而有效降低评测成本,提升评测效率。
根据本发明一实施方式,其中,所述第三方数据库还包括搜索引擎数据库;所述借助第三方数据库对所述测试结果进行评测,进一步包括:操作406,检测所述搜索引擎数据库中是否存在所述中文;操作407,若存在,则确定所述文字为准确识别的文字;操作408,若不存在,则确定所述文字为错误识别的文字。
图5示意性地示出了本发明的实施方式中评测OCR系统的性能的方法中的对所述测试结果进行评测操作的一实施例的流程图。
如图5所示,本发明实施例中所述第三方数据库包括字典;相应的,所述借助第三方数据库对所述测试结果进行评测,包括:操作501,对所述测试结果中的文字进行单字切分处理,得到单字的切分结果;操作502,检测字典中是否存在有所述单字;操作503,若存在,进一步对所述测试结果中的文字进行词组切分处理,得到词组的切分结果;操作504,检测字典中是否存在有所述词组;操作505,若存在,则确定所述文字为准确识别的文字。
根据本发明一实施方式,其中,所述第三方数据库还包括翻译数据库;在操作502或者504之后,所述借助第三方数据库对所述测试结果进行评测还包括:操作506,若不存在,则进一步检测所述测试结果中的文字是否为中文;操作507,若所述文字为非中文,则利用翻译数据库将所述文字翻译为对应的中文。这样,即使测试集为非中文,也可以借助翻译数据库(即对应的翻译系统,如NMT)自动翻译成中文,使得整个评测过程不再依赖于专门语言的人员,实现完全无人值守的系统评测,从而有效降低评测成本,提升评测效率。
根据本发明一实施方式,其中,所述第三方数据库还包括搜索引擎数据库;所述借助第三方数据库对所述测试结果进行评测,进一步包括:操作508,检测所述搜索引擎数据库中是否存在所述中文;操作509,若存在,则确定所述文字为准确识别的文字;操作510,若不存在,则确定所述文字为错误识别的文字。
图6示意性地示出了本发明的实施方式中评测OCR系统的性能的方法中的对所述测试结果进行评测操作的一实施例的流程图。
如图6所示,本发明实施例中所述第三方数据库包括搜索引擎数据库;相应的,所述借助第三方数据库对所述测试结果进行评测,包括:操作601,检测所述搜索引擎数据库中是否存在所述测试结果中的文字;操作602,若存在,则确定所述文字为准确识别的文字。
当然,若操作601的检测结果为不存在,则可以确定所述文字为错误失败的文字。
图7结合图1、图2及其图5示意性地示出了本发明一应用示例中评测OCR系统的性能的方法的具体实现流程图。
如图7所示,本发明应用示例中的搜索引擎数据库和翻译数据库分别对应于搜索引擎系统和NMT翻译系统。本发明应用示例的评测OCR系统的性能的方法包括如下操作流程:
测试集a输入OCR系统b中;
得到测试结果c,进入评测系统中;
首先进行单字切分d,切分后的结果对比字典e,判断是否存在f;
如果不存在,则进入语言判断j;
如果存在,则进入词组切分g,通过字典e再次进行判断h;
如果在此判断h存在通过i,则认定识别准确,否则进入语言判断j;
如果不是中文,则进入NMT翻译系统k,将字或词翻译成中文,进入搜索引擎系统l;或者如果是中文则进入搜索引擎系统l,判断搜索结果m;
如果存在结果,则认定识别结果通过n,否则失败o;
将通过i和n及其失败o的评测结果加以统计分析p,以获得OCR系统的性能。
需要说明的是,在本应用示例中,两个判断依据,即第三方数据库字典和搜索引擎数据库,属于依次递进的关系。虽然字典中的内容非常权威,但是未必能紧跟时代,故搜索引擎数据库是一个很好的补充。举例来说,若识别结果为“蓝瘦香菇”,字典可能会不存在这个词语,但是网络上可以搜索得到,同样可以评测得出该文字的识别是准确的。而且,该应用示例中通过引入NMT翻译系统,当遇到文字为外语时,能够实现自动翻译,不再需要专业语言人员,从而实现完全无人值守的系统评测,从而有效降低评测成本,提升评测效率。
示例性设备
在介绍了本发明示例性实施方式的评测OCR系统的性能的方法之后,接下来,介绍根据本发明的另一示例性实施方式的评测OCR系统的性能的设备。
图8示意性地示出了根据本发明实施方式的评测OCR系统的性能的设备的示意图。
如图8所示,本发明实施例评测OCR系统的性能的设备800可以包括:采集装置801,用于采集包括有文字的测试集;识别装置802,用于通过所述OCR系统对所述测试集中的文字进行识别,以获得测试结果;以及评测装置803,用于借助第三方数据库对所述测试结果进行评测,以获得用于表征OCR系统的性能的评测结果。
根据本发明一实施方式,如图8所示,所述第三方数据库包括字典;所述评测装置803包括:单字切分子装置8031,对所述测试结果中的文字进行单字切分处理,得到单字的切分结果;检测子装置8032,用于检测字典中是否存在有所述单字;第一确定子装置8033,用于若存在,则确定所述文字为准确识别的文字。
根据本发明一实施方式,如图8所示,所述第三方数据库包括字典;所述评测装置803包括:词组切分子装置8034,用于对所述测试结果中的文字进行词组切分处理,得到词组的切分结果;检测子装置8032,用于检测字典中是否存在有所述词组;第一确定子装置8033,用于若存在,则确定所述文字为准确识别的文字。
根据本发明一实施方式,如图8所示,所述第三方数据库包括字典;所述评测装置803包括:单字切分子装置8031,对所述测试结果中的文字进行单字切分处理,得到单字的切分结果;检测子装置8032,用于检测字典中是否存在有所述单字;词组切分子装置8034,用于若存在,进一步对所述测试结果中的文字进行词组切分处理,得到词组的切分结果;所述检测子装置8032,用于检测字典中是否存在有所述词组;所述第一确定子装置8033,还用于若存在,则确定所述文字为准确识别的文字。
根据本发明一实施方式,如图8所示,所述第三方数据库还包括翻译数据库;所述评测装置803还包括:检测子装置8032,还用于若不存在,进一步检测所述测试结果中的文字是否为中文;翻译系统8035,用于若所述文字为非中文,则利用翻译数据库将所述文字翻译为对应的中文。
根据本发明一实施方式,如图8所示,所述第三方数据库还包括搜索引擎数据库;所述评测装置803还包括:搜索引擎系统8036,用于检测所述搜索引擎数据库中是否存在所述中文;所述第一确定子装置8033,还用于若存在,则确定所述文字为准确识别的文字。
根据本发明一实施方式,如图8所示,所述第三方数据库还包括搜索引擎数据库;所述评测装置803还包括:搜索引擎系统8036,用于检测所述搜索引擎数据库中是否存在所述中文;所述第一确定子装置8033,还用于若不存在,则确定所述文字为错误识别的文字。
根据本发明一实施方式,如图8所示,所述第三方数据库包括搜索引擎数据库;所述评测装置803包括:搜索引擎系统8036,用于检测所述搜索引擎数据库中是否存在所述测试结果中的文字;第一确定子装置8033,用于若存在,则确定所述文字为准确识别的文字。
根据本发明一实施方式,如图8所示,所述测试集为多个,从而获得与所述多个测试集相对应的多个评测结果;所述设备80还包括:统计分析装置804,用于对所述多个评测结果进行统计分析,以得到所述OCR系统的性能。
根据本发明一实施方式,所述统计分析装置804,还用于对所述多个评测结果进行算术平均;或者,还用于对所述多个评测结果进行加权平均。
根据本发明一实施方式,如图8所示,所述统计分析装置804包括:第二确定子装置8041,用于确定每个测试集的样本占比,所述样本占比为所述每个测试集所包含的测试样本相对于所述多个测试集组成的总测试样本的占比;还用于将所述每个测试集的样本占比作为对应评测结果的加权因子;加权平均子装置8042,用于利用所述加权因子对所述多个评测结果进行加权平均。
根据本发明一实施方式,如图8所示,所述统计分析装置804包括:获取子装置8043,用于获取每个测试集的样本类型;第二确定子装置8041,用于基于样本类型与系统性能之间的关联关系,确定每个测试集对应评测结果的加权因子;加权平均子装置8042,用于利用所述加权因子对所述多个评测结果进行加权平均。
根据本申请实施例的所述评测OCR系统的性能的设备80中的各个装置及其子装置的具体配置和操作已经在上面参考图1到图7描述的评测OCR系统的性能的方法中详细介绍,并因此,将省略其重复描述。
在介绍了本发明示例性实施方式的方法和设备之后,接下来,介绍根据本发明的另一示例性实施方式的评测OCR系统的性能的设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,本发明的评测OCR系统的性能的设备可以至少包括一个或多个处理器、以及至少一个存储器。其中,所述存储器存储有程序,当所述程序被所述处理器执行时,使得所述处理器执行本说明书中描述各个步骤,例如,所述处理器可以执行如图2中所示的操作201,采集包括有文字的测试集;操作202,通过所述OCR系统对所述测试集中的文字进行识别,以获得测试结果;以及操作203,借助第三方数据库对所述测试结果进行评测,以获得用于表征OCR系统的性能的评测结果。
图9示出了根据本发明实施方式的评测OCR系统的性能的设备的示意图。
下面参照图9来描述根据本发明的这种实施方式的评测OCR系统的性能的设备。图9显示的设备900仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,设备900以通用计算设备的形式表现,包括但不限于:上述至少一个处理器910、上述至少一个存储器920、连接不同系统组件(包括存储器920和处理器910)的总线960。
总线960包括地址总线,控制总线和数据总线。
存储器920可以包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器920还可以包括一组(至少一个)程序模块924,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
设备900还可以与一个或多个外部设备90(例如键盘、指向设备、蓝牙设备等)通信。这种通信可以通过输入/输出(I/O)接口940进行,并在显示单元930上进行显示。并且,设备900还可以通过网络适配器950与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器950通过总线960与设备900中的其它模块通信。应当明白,尽管图中未示出,但可以结合设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
示例性程序产品
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序代码在被处理器执行时,所述程序代码用于使所述处理器执行上面描述的方法的各个步骤,例如,所述处理器可以执行如图2中所示的操作201,采集包括有文字的测试集;操作202,通过所述OCR系统对所述测试集中的文字进行识别,以获得测试结果;以及操作203,借助第三方数据库对所述测试结果进行评测,以获得用于表征OCR系统的性能的评测结果。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
图10示出了根据本发明实施方式的评测OCR系统的性能的计算机可读存储介质的示意图。
如图10所示,描述了根据本发明的实施方式的程序产品1000,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端或服务器上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
应当注意,尽管在上文详细描述中提及了用于评测OCR系统的性能的若干装置及子装置,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (20)

1.一种评测OCR系统的性能的方法,该方法包括:
自动将任意不固定的批量测试集输入到OCR系统,OCR系统自动采集包括有文字的测试集;
通过所述OCR系统对所述测试集中的文字进行识别,以获得测试结果;以及自动将测试结果输入到评测系统,借助第三方数据库对所述测试结果进行评测,以获得用于表征OCR系统的性能的评测结果;
其中,所述第三方数据库包括字典、搜索引擎数据库、翻译数据库的部分或全部;
其中,所述测试集为多个,从而获得与多个测试集相对应的多个评测结果;所述方法进一步包括:对所述多个评测结果进行统计分析,以得到所述OCR系统的性能;
其中,对所述多个评测结果进行统计分析,包括:对所述多个评测结果进行加权平均;
其中,所述对所述多个评测结果进行加权平均,包括:确定每个测试集的样本占比,所述样本占比为所述每个测试集所包含的测试样本相对于所述多个测试集组成的总测试样本的占比;将所述每个测试集的样本占比作为对应评测结果的加权因子;利用所述加权因子对所述多个评测结果进行加权平均;或者,所述对所述多个评测结果进行加权平均,包括:获取每个测试集的样本类型;基于样本类型与系统性能之间的关联关系,确定每个测试集对应评测结果的加权因子;利用所述加权因子对所述多个评测结果进行加权平均;使得整个评测过程中测试集不需要固定,一旦想要引入新的测试集,将自动生成新的测试标准。
2.根据权利要求1所述的方法,其中,所述第三方数据库包括字典;
所述借助第三方数据库对所述测试结果进行评测,包括:
对所述测试结果中的文字进行单字切分处理,得到单字的切分结果;
检测字典中是否存在有所述单字;
若存在,则确定所述文字为准确识别的文字。
3.根据权利要求1所述的方法,其中,所述第三方数据库包括字典;
所述借助第三方数据库对所述测试结果进行评测,包括:
对所述测试结果中的文字进行词组切分处理,得到词组的切分结果;
检测字典中是否存在有所述词组;
若存在,则确定所述文字为准确识别的文字。
4.根据权利要求1所述的方法,其中,所述第三方数据库包括字典;
所述借助第三方数据库对所述测试结果进行评测,包括:
对所述测试结果中的文字进行单字切分处理,得到单字的切分结果;
检测字典中是否存在有所述单字;
若存在,进一步对所述测试结果中的文字进行词组切分处理,得到词组的切分结果;
检测字典中是否存在有所述词组;
若存在,则确定所述文字为准确识别的文字。
5.根据权利要求2至4中任意一项的方法,其中,所述第三方数据库还包括翻译数据库;所述借助第三方数据库对所述测试结果进行评测还包括:
若不存在,则进一步检测所述测试结果中的文字是否为中文;
若所述文字为非中文,则利用翻译数据库将所述文字翻译为对应的中文。
6.根据权利要求5所述的方法,其中,所述第三方数据库还包括搜索引擎数据库;所述借助第三方数据库对所述测试结果进行评测,进一步包括:
检测所述搜索引擎数据库中是否存在所述中文;
若存在,则确定所述文字为准确识别的文字。
7.根据权利要求5所述的方法,其中,所述第三方数据库还包括搜索引擎数据库;所述借助第三方数据库对所述测试结果进行评测,进一步包括:
检测所述搜索引擎数据库中是否存在所述中文;
若不存在,则确定所述文字为错误识别的文字。
8.根据权利要求1所述的方法,其中,所述第三方数据库包括搜索引擎数据库;所述借助第三方数据库对所述测试结果进行评测,包括:
检测所述搜索引擎数据库中是否存在所述测试结果中的文字;
若存在,则确定所述文字为准确识别的文字。
9.根据权利要求1所述的方法,其中,对所述多个评测结果进行统计分析,包括:
对所述多个评测结果进行算术平均。
10.一种评测OCR系统的性能的设备,该设备包括:
采集装置,用于自动将任意不固定的批量测试集输入到OCR系统,自动采集包括有文字的测试集;
识别装置,用于通过所述OCR系统对所述测试集中的文字进行识别,以获得测试结果;以及
评测装置,用于自动将测试结果输入到评测系统,借助第三方数据库对所述测试结果进行评测,以获得用于表征OCR系统的性能的评测结果;
其中,所述第三方数据库包括字典、搜索引擎数据库、翻译数据库的部分或全部;
其中,所述测试集为多个,从而获得与多个测试集相对应的多个评测结果;所述设备还包括:统计分析装置,用于对所述多个评测结果进行统计分析,以得到所述OCR系统的性能;
其中,所述统计分析装置,还用于对所述多个评测结果进行加权平均;
其中,所述统计分析装置包括:第二确定子装置,用于确定每个测试集的样本占比,所述样本占比为所述每个测试集所包含的测试样本相对于所述多个测试集组成的总测试样本的占比;还用于将所述每个测试集的样本占比作为对应评测结果的加权因子;加权平均子装置,用于利用所述加权因子对所述多个评测结果进行加权平均;或者,所述统计分析装置包括:获取子装置,用于获取每个测试集的样本类型;第二确定子装置,用于基于样本类型与系统性能之间的关联关系,确定每个测试集对应评测结果的加权因子;加权平均子装置,用于利用所述加权因子对所述多个评测结果进行加权平均;使得整个评测过程中测试集不需要固定,一旦想要引入新的测试集,将自动生成新的测试标准。
11.根据权利要求10所述的设备,其中,所述第三方数据库包括字典;所述评测装置包括:
单字切分子装置,对所述测试结果中的文字进行单字切分处理,得到单字的切分结果;
检测子装置,用于检测字典中是否存在有所述单字;
第一确定子装置,用于若存在,则确定所述文字为准确识别的文字。
12.根据权利要求10所述的设备,其中,所述第三方数据库包括字典;所述评测装置包括:
词组切分子装置,用于对所述测试结果中的文字进行词组切分处理,得到词组的切分结果;
检测子装置,用于检测字典中是否存在有所述词组;
第一确定子装置,用于若存在,则确定所述文字为准确识别的文字。
13.根据权利要求10所述的设备,其中,所述第三方数据库包括字典;所述评测装置包括:
单字切分子装置,对所述测试结果中的文字进行单字切分处理,得到单字的切分结果;
检测子装置,用于检测字典中是否存在有所述单字;
词组切分子装置,用于若存在,进一步对所述测试结果中的文字进行词组切分处理,得到词组的切分结果;
所述检测子装置,用于检测字典中是否存在有所述词组;
第一确定子装置,用于若存在,则确定所述文字为准确识别的文字。
14.根据权利要求11至13中任意一项的设备,其中,所述第三方数据库还包括翻译数据库;所述评测装置还包括:
所述检测子装置,还用于若不存在,进一步检测所述测试结果中的文字是否为中文;
翻译系统,用于若所述文字为非中文,则利用翻译数据库将所述文字翻译为对应的中文。
15.根据权利要求14所述的设备,其中,所述第三方数据库还包括搜索引擎数据库;所述评测装置还包括:
搜索引擎系统,用于检测所述搜索引擎数据库中是否存在所述中文;
所述第一确定子装置,还用于若存在,则确定所述文字为准确识别的文字。
16.根据权利要求14所述的设备,其中,所述第三方数据库还包括搜索引擎数据库;所述评测装置还包括:
搜索引擎系统,用于检测所述搜索引擎数据库中是否存在所述中文;
所述第一确定子装置,还用于若不存在,则确定所述文字为错误识别的文字。
17.根据权利要求10所述的设备,其中,所述第三方数据库包括搜索引擎数据库;所述评测装置包括:
搜索引擎系统,用于检测所述搜索引擎数据库中是否存在所述测试结果中的文字;
第一确定子装置,用于若存在,则确定所述文字为准确识别的文字。
18.根据权利要求10所述的设备,其中,
所述统计分析装置,还用于对所述多个评测结果进行算术平均。
19.一种评测OCR系统的性能的设备,包括:
一个或者多个处理器;
存储器;
存储在所述存储器中的程序,当被所述一个或者多个处理器执行时,所述程序使所述处理器执行如权利要求1-9中任意一项所述的方法。
20.一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行如权利要求1-9中任意一项所述的方法。
CN201711183057.XA 2017-11-23 2017-11-23 一种评测ocr系统的性能的方法、设备及存储介质 Active CN107992484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711183057.XA CN107992484B (zh) 2017-11-23 2017-11-23 一种评测ocr系统的性能的方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711183057.XA CN107992484B (zh) 2017-11-23 2017-11-23 一种评测ocr系统的性能的方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN107992484A CN107992484A (zh) 2018-05-04
CN107992484B true CN107992484B (zh) 2022-01-21

Family

ID=62032875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711183057.XA Active CN107992484B (zh) 2017-11-23 2017-11-23 一种评测ocr系统的性能的方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN107992484B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408807A (zh) * 2018-09-11 2019-03-01 厦门商集网络科技有限责任公司 Ocr识别正确率的自动化测试方法及测试设备
CN110929967A (zh) * 2018-09-19 2020-03-27 百度在线网络技术(北京)有限公司 模型评测方法、装置、设备及计算机可读介质
CN110059705B (zh) * 2019-04-22 2021-11-09 厦门商集网络科技有限责任公司 一种基于建模的ocr识别结果判决方法和设备
CN110674396B (zh) * 2019-08-28 2021-04-27 北京三快在线科技有限公司 文本信息处理方法、装置、电子设备及可读存储介质
CN111598099B (zh) * 2020-05-18 2023-10-24 腾讯科技(深圳)有限公司 图像文本识别性能的测试方法、装置、测试设备及介质
CN113959493B (zh) * 2021-10-22 2024-03-08 网易有道(杭州)智能科技有限公司 一种指读设备测试系统及测试方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902993A (zh) * 2012-12-28 2014-07-02 佳能株式会社 文档图像识别方法和设备
CN107239547A (zh) * 2017-06-05 2017-10-10 北京智能管家科技有限公司 用于语音点歌的语音纠错方法、终端及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055659B2 (en) * 2015-05-04 2018-08-21 King Fahd University Of Petroleum And Minerals Systems and associated methods for arabic handwriting using synthetic extension concatenation and synthesis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902993A (zh) * 2012-12-28 2014-07-02 佳能株式会社 文档图像识别方法和设备
CN107239547A (zh) * 2017-06-05 2017-10-10 北京智能管家科技有限公司 用于语音点歌的语音纠错方法、终端及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
OCR性能测试的分布式软件测试系统;许静 等;《计算机工程》;20060430;第32卷(第8期);第79-81页 *
仝玲.多引擎OCR性能评测系统的研究与实现.《万方学位论文全文数据库》.2011,第1-72页. *
多引擎OCR性能评测系统的研究与实现;仝玲;《万方学位论文全文数据库》;20110215;第1-72页 *

Also Published As

Publication number Publication date
CN107992484A (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN107992484B (zh) 一种评测ocr系统的性能的方法、设备及存储介质
CN110135411B (zh) 名片识别方法和装置
CN109815147B (zh) 测试案例生成方法、装置、服务器和介质
CN109637000B (zh) 发票检验方法及装置、存储介质、电子终端
CN110647523B (zh) 数据质量的分析方法及装置、存储介质、电子设备
CN109885597B (zh) 基于机器学习的用户分群处理方法、装置及电子终端
CN110826494A (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
CN109872230B (zh) 金融数据分析系统的测试方法、装置、介质、电子设备
CN111598122B (zh) 数据校验方法、装置、电子设备和存储介质
US10049108B2 (en) Identification and translation of idioms
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
US11423219B2 (en) Generation and population of new application document utilizing historical application documents
CN112037819A (zh) 一种基于语义的语音质检方法和装置
US10354013B2 (en) Dynamic translation of idioms
US20170124202A1 (en) Foreign organization name matching
CN114048740B (zh) 敏感词检测方法、装置及计算机可读存储介质
CN109710523B (zh) 视觉稿的测试用例生成方法及装置、存储介质、电子设备
CN113778875A (zh) 一种系统测试缺陷分类方法、装置、设备及存储介质
CN110688558B (zh) 网页搜索的方法、装置、电子设备和存储介质
CN108399128A (zh) 一种用户数据的生成方法、装置、服务器及存储介质
CN113722203A (zh) 程序测试方法及装置、电子设备和计算机可读存储介质
CN114757186B (zh) 用户意图分析方法和装置、计算机存储介质、电子设备
CN116185393A (zh) 接口文档的生成方法、装置、设备、介质及产品
CN110827261B (zh) 图像质量检测方法及装置、存储介质及电子设备
CN110083807B (zh) 合同的修改影响自动预测方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220606

Address after: 310052 room 509, building 3, No. 399, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Netease Youdao (Hangzhou) Intelligent Technology Co.,Ltd.

Address before: 100084 1st floor, block a, building 7, West Zhongguancun Software Park, No.10 yard, northwest Wangdong Road, Haidian District, Beijing

Patentee before: NETEASE YOUDAO INFORMATION TECHNOLOGY (BEIJING) Co.,Ltd.