CN113343816A - 一种针对ocr简历识别算法的自动化测试方法和系统 - Google Patents
一种针对ocr简历识别算法的自动化测试方法和系统 Download PDFInfo
- Publication number
- CN113343816A CN113343816A CN202110598969.3A CN202110598969A CN113343816A CN 113343816 A CN113343816 A CN 113343816A CN 202110598969 A CN202110598969 A CN 202110598969A CN 113343816 A CN113343816 A CN 113343816A
- Authority
- CN
- China
- Prior art keywords
- resume
- content
- ocr
- algorithm
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 37
- 238000012360 testing method Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000008676 import Effects 0.000 claims abstract description 10
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract 1
- 230000006798 recombination Effects 0.000 description 3
- 238000005215 recombination Methods 0.000 description 3
- 230000002688 persistence Effects 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种针对OCR简历识别算法的自动化测试方法,包括以下步骤:(1)导入简历相关信息;(2)随机生成简历;(3)文字内容比对;(4)输出测试报告。本发明还公开了一种针对OCR简历识别算法的自动化测试系统,包括导入模块、生成模块、内容比对模块和输出模块。本发明高效生成简历,人工干预阶段仅需完成搜集输入工作,减轻了测试人员的负担,提升了测试效率,且通过本测试方法可以对有限的数据重组出多种形式的简历,也减少了所需要的数据量;本发明高效对比简历内容,无需自主对比分析OCR算法的结果,大大降低了测试人员的门槛,也减少了因人为原因而产生的误判,测试结果的可靠性有所提升,为算法的进一步优化提供了良好的指导效果。
Description
技术领域
本发明涉及简历识别,特别是一种针对OCR简历识别算法的自动化测试方法,以及使用该方法的系统。
背景技术
传统OCR主要指对输入扫描的文档图形进行分析和处理,检测并识别出图像中的文字信息,并将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如今的OCR技术则更多用于自然场景下文字识别,例如招聘网站在接收到求职者各类排版的简历时,需要将其转化为标准格式的简历以方便招聘者查阅,在简历识别过程中如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,也成为衡量一个OCR简历识别系统性能好坏的主要指标。
然而长期以来对于OCR简历识别算法的测试却很难实现,更多的测试活动是停留在前期的白盒测试,例如代码走读、静态检查等,而黑盒测试则依赖于人工的导入识别。很多测试活动又因人力资源的限制,无法开展大规模的测试,很难评估一个OCR简历识别系统的识别正确率,只能匆忙上线交由实际用户去评估,造成了该系统风险的存在。
发明内容
发明目的:本发明的目的是提供一种识别率高的针对OCR简历识别算法的自动化测试方法,本发明的另一目的是提供一种可用性强的针对OCR简历识别算法的自动化测试系统。
技术方案:本发明所述的一种针对OCR简历识别算法的自动化测试方法,包括以下步骤:
(1)导入简历相关信息;
(2)随机生成简历:将导入的文字内容打乱重排以模拟生成新的简历内容,并且随机填充至之前导入的简历模板中;
(3)文字内容比对;
(4)输出测试报告。
所述步骤(1)具体为:
(1.1)导入简历版式:提供一个或多个标准A4尺寸页面,在此页面上支持以手动方式绘制添加文字框,也支持自动生成简历版式,自动生成的逻辑为随机生成不同大小的文字框直到布局满整个页面,随后参考实际简历版式对每个文字框进行板块的人工或自动标注;
(1.2)导入简历内容:仅支持手工输入,所述简历内容包括必填内容和可选内容,所述必填内容包括个人资料、教育背景、工作经历,所述可选内容包括掌握技能、个人评估、联系方式、项目经历、获奖情况。
所述步骤(3)中的内容比对包括整段落的标题识别和段落内文字匹配率识别。
所述步骤(4)中的报告为图形化HTML格式的报告,报告的主要参数包括识别的简历数量、识别的段落数量、匹配成功的段落数量、段落匹配成功率、匹配总文字数量、文字识别正确。
一种针对OCR简历识别算法的自动化测试系统,包括以下模块:
导入模块:包括简历版式导入和简历内容导入;
生成模块:将导入的文字内容打乱重排以模拟生成新的简历内容,并且随机填充至之前导入的简历模板中;
内容比对模块:包括整段落的标题识别和段落内文字匹配率识别;
输出模块:将内容比对模块中计算出的结果进行加权平均,最后计算出总体的比对正确率,再结合计算的总数量输出图形化HTML格式的报告。
所述简历版式导入具体为提供一个或多个标准A4尺寸页面,在此页面上支持以手动方式绘制添加文字框,也支持自动生成简历版式,自动生成的逻辑为随机生成不同大小的文字框直到布局满整个页面,随后参考实际简历版式对每个文字框进行板块的人工或自动标注。
所述简历内容导入仅支持手工输入,所述简历内容包括必填内容和可选内容,所述必填内容包括个人资料、教育背景、工作经历,所述可选内容包括掌握技能、个人评估、联系方式、项目经历、获奖情况。
所述文字匹配率识别采用DIFF算法。
所述报告的主要参数包括识别的简历数量、识别的段落数量、匹配成功的段落数量、段落匹配成功率、匹配总文字数量、文字识别正确率。
有益效果:与现有技术相比,本发明具有如下优点:
1、本发明覆盖了各种类型的简历版式,一方面采用手动绘制来模仿现有的简历版式,方便测试人员对一些经典版式的识别率计算,另一方面自动生成简历版式,能够模拟一些小众的简历版式,提高识别率;
2、在有限的数据下尽可能地模拟生成了大量简历数据,实际测试中基于小数据量计算而得到的匹配成功率没有太多实际意义,而重组后大数据量的输入可以有效测试算法的识别成功率;
3、整体系统的匹配性能较高,实际测试耗时时间极短,极大地提高了工作效率;
4、友好的报告模板,可以让测试人员快速评估OCR算法的可用性。
附图说明
图1为测试方法的步骤流程图;
图2为测试系统的结构示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,一种针对OCR简历识别算法的自动化测试方法,包括以下步骤:
(1)导入简历相关信息;
(1.1)导入简历版式:提供一个或多个标准A4尺寸页面,在此页面上支持以手动方式绘制添加文字框,也可以选择直接自动生成简历版式,自动生成的逻辑为随机生成不同大小的文字框直到布局满整个页面,随后可参考实际简历版式对每个文字框进行板块人工或自动标注,这里的标注要对应上述简历内容库的子板块来实行,即最少要标注必填的几个板块;
(1.2)导入简历内容:需要人工分板块导入简历内容,其中分为必填和可选两类,默认情况下必填的内容为个人资料、教育背景、工作经历;选填的内容为掌握技能、个人评估、联系方式、项目经历、获奖情况,另外可根据测试需求自行增加内容库模块,填写内容时需要人工将简历内容分成基本的段落,以便于后续的重组;
(2)随机生成简历:将简历内容进行重组并填充,对于输入的同一板块的简历文字内容会被系统按段落进行随机的组合以拼接成一份全新的内容块并按照标注的名字填充到一个确定的简历模板中,这样系统就生成了一份新的简历,此时还需要对当前简历的模块名以及内容做本地持久化操作,用于后续比对系统,如此反复即可批量生成简历;
(3)文字内容比对,包括整段落的标题识别和段落内文字匹配率识别,在测试系统将简历导入算法接口后,根据算法的接口文档可以明确知晓算法对简历识别后返回的参数格式,依据算法参数格式我们仅需要将之前存储的简历的模块名与算法返回参数的关键字做对比,如果标题与关键字无法对应则整段判断为识别错误,如果两者匹配则将模块内容与接口关键字返回值对比,此处对比算法会引入市面上开源的算法DIFF,此处不对算法做过多介绍,据此即可获取两段文字的匹配比率;
(4)输出测试报告,报告为图形化HTML格式的报告,报告的主要参数包括识别的简历数量、识别的段落数量、匹配成功的段落数量、段落匹配成功率、匹配总文字数量、文字识别正确率;其中,对于整段落匹配率可以根据以下公式计算:
对于文字部分匹配的成功率直接采用算法的返回值,另外需要根据文字的总数量对该成功率做加权平均值,最终得到总的文字识别正确率。
如图2所示,一种针对OCR简历识别算法的自动化测试系统,包括以下模块:
导入模块:包括简历版式导入和简历内容导入;
所述简历版式导入主要功能是提供一个或多个标准A4尺寸页面,在此页面上支持以手动方式绘制添加文字框,也可以选择直接自动生成简历版式,自动生成的逻辑为随机生成不同大小的文字框直到布局满整个页面,随后可参考实际简历版式对每个文字框进行板块人工或自动标注,这里的标注要对应上述简历内容库的子板块来实行,即最少要标注必填的几个板块。
所述简历内容导入需要人工分板块导入简历内容,其中分为必填和可选两类,默认情况下必填的内容为个人资料、教育背景、工作经历;选填的内容为掌握技能、个人评估、联系方式、项目经历、获奖情况,另外可根据测试需求自行增加内容库模块,填写内容时需要人工将简历内容分成基本的段落,以便于后续的重组。
生成模块:为本系统的核心模块,主要是将简历内容进行重组并填充,对于输入的同一板块的简历文字内容会被系统按段落进行随机的组合以拼接成一份全新的内容块并按照标注的名字填充到一个确定的简历模板中,这样系统就生成了一份新的简历,此时还需要对当前简历的模块名以及内容做本地持久化操作,用于后续比对系统,如此反复即可批量生成简历;
内容比对模块:包括整段落的标题识别和段落内文字匹配率识别,在测试系统将简历导入算法接口后,根据算法的接口文档可以明确知晓算法对简历识别后返回的参数格式,依据算法参数格式我们仅需要将之前存储的简历的模块名与算法返回参数的关键字做对比,如果标题与关键字无法对应则整段判断为识别错误,如果两者匹配则将模块内容与接口关键字返回值对比,此处对比算法会引入市面上开源的算法DIFF,此处不对算法做过多介绍,据此即可获取两段文字的匹配比率;
输出模块:将内容比对模块中计算出的结果进行加权平均,最后计算出总体的比对正确率,再结合计算的总数量输出图形化HTML格式的报告;
对于整段落匹配率可以根据以下公式计算:
对于文字部分匹配的成功率直接采用算法的返回值,另外需要根据文字的总数量对该成功率做加权平均值,最终得到总的文字识别正确率。
报告输出使用HTML格式,主要参数包括识别的简历数量、识别的段落数量、匹配成功的段落数量、段落匹配成功率、匹配总文字数量、文字识别正确率,且以饼状图的形式标明其百分比。
Claims (9)
1.一种针对OCR简历识别算法的自动化测试方法,其特征在于,包括以下步骤:
(1)导入简历相关信息;
(2)随机生成简历:将导入的文字内容打乱重排以模拟生成新的简历内容,并且随机填充至之前导入的简历模板中;
(3)文字内容比对;
(4)输出测试报告。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)具体为:
(1.1)导入简历版式:提供一个或多个标准A4尺寸页面,在此页面上支持以手动方式绘制添加文字框,也支持自动生成简历版式,自动生成的逻辑为随机生成不同大小的文字框直到布局满整个页面,随后参考实际简历版式对每个文字框进行板块的人工或自动标注;
(1.2)导入简历内容:仅支持手工输入,所述简历内容包括必填内容和可选内容,所述必填内容包括个人资料、教育背景、工作经历,所述可选内容包括掌握技能、个人评估、联系方式、项目经历、获奖情况。
3.根据权利要求1所述的方法,其特征在于,所述步骤(3)中的内容比对包括整段落的标题识别和段落内文字匹配率识别。
4.根据权利要求1所述的方法,其特征在于,所述步骤(4)中的报告为图形化HTML格式的报告,报告的主要参数包括识别的简历数量、识别的段落数量、匹配成功的段落数量、段落匹配成功率、匹配总文字数量、文字识别正确。
5.一种使用如权利要求1所述方法的自动化测试系统,其特征在于,包括以下模块:
导入模块:包括简历版式导入和简历内容导入;
生成模块:将导入的文字内容打乱重排以模拟生成新的简历内容,并且随机填充至之前导入的简历模板中;
内容比对模块:包括整段落的标题识别和段落内文字匹配率识别;
输出模块:将内容比对模块中计算出的结果进行加权平均,最后计算出总体的比对正确率,再结合计算的总数量输出图形化HTML格式的报告。
6.根据权利要求5所述的系统,其特征在于,所述简历版式导入具体为提供一个或多个标准A4尺寸页面,在此页面上支持以手动方式绘制添加文字框,也支持自动生成简历版式,自动生成的逻辑为随机生成不同大小的文字框直到布局满整个页面,随后参考实际简历版式对每个文字框进行板块的人工或自动标注。
7.根据权利要求5所述的系统,其特征在于,所述简历内容导入仅支持手工输入,所述简历内容包括必填内容和可选内容,所述必填内容包括个人资料、教育背景、工作经历,所述可选内容包括掌握技能、个人评估、联系方式、项目经历、获奖情况。
8.根据权利要求5所述的系统,其特征在于,所述文字匹配率识别采用DIFF算法。
9.根据权利要求5所述的系统,其特征在于,所述报告的主要参数包括识别的简历数量、识别的段落数量、匹配成功的段落数量、段落匹配成功率、匹配总文字数量、文字识别正确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110598969.3A CN113343816A (zh) | 2021-05-31 | 2021-05-31 | 一种针对ocr简历识别算法的自动化测试方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110598969.3A CN113343816A (zh) | 2021-05-31 | 2021-05-31 | 一种针对ocr简历识别算法的自动化测试方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113343816A true CN113343816A (zh) | 2021-09-03 |
Family
ID=77472437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110598969.3A Pending CN113343816A (zh) | 2021-05-31 | 2021-05-31 | 一种针对ocr简历识别算法的自动化测试方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343816A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100215272A1 (en) * | 2008-09-23 | 2010-08-26 | Andrey Isaev | Automatic file name generation in ocr systems |
US20130182182A1 (en) * | 2012-01-18 | 2013-07-18 | Eldon Technology Limited | Apparatus, systems and methods for presenting text identified in a video image |
CN107870976A (zh) * | 2017-09-25 | 2018-04-03 | 平安科技(深圳)有限公司 | 简历识别装置、方法及计算机可读存储介质 |
CN109389109A (zh) * | 2018-09-11 | 2019-02-26 | 厦门商集网络科技有限责任公司 | 一种ocr全文本识别正确率的自动化测试方法及设备 |
CN109408807A (zh) * | 2018-09-11 | 2019-03-01 | 厦门商集网络科技有限责任公司 | Ocr识别正确率的自动化测试方法及测试设备 |
CN110020327A (zh) * | 2019-04-16 | 2019-07-16 | 上海大易云计算股份有限公司 | 一种基于垂直搜索引擎的简历解析系统 |
CN110321875A (zh) * | 2019-07-19 | 2019-10-11 | 东莞理工学院 | 一种基于深度学习的简历识别和智能分类筛选系统 |
CN110390086A (zh) * | 2018-04-19 | 2019-10-29 | 北京搜狗科技发展有限公司 | 一种生成文本的方法、装置和存储介质 |
-
2021
- 2021-05-31 CN CN202110598969.3A patent/CN113343816A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100215272A1 (en) * | 2008-09-23 | 2010-08-26 | Andrey Isaev | Automatic file name generation in ocr systems |
US20130182182A1 (en) * | 2012-01-18 | 2013-07-18 | Eldon Technology Limited | Apparatus, systems and methods for presenting text identified in a video image |
CN107870976A (zh) * | 2017-09-25 | 2018-04-03 | 平安科技(深圳)有限公司 | 简历识别装置、方法及计算机可读存储介质 |
CN110390086A (zh) * | 2018-04-19 | 2019-10-29 | 北京搜狗科技发展有限公司 | 一种生成文本的方法、装置和存储介质 |
CN109389109A (zh) * | 2018-09-11 | 2019-02-26 | 厦门商集网络科技有限责任公司 | 一种ocr全文本识别正确率的自动化测试方法及设备 |
CN109408807A (zh) * | 2018-09-11 | 2019-03-01 | 厦门商集网络科技有限责任公司 | Ocr识别正确率的自动化测试方法及测试设备 |
CN110020327A (zh) * | 2019-04-16 | 2019-07-16 | 上海大易云计算股份有限公司 | 一种基于垂直搜索引擎的简历解析系统 |
CN110321875A (zh) * | 2019-07-19 | 2019-10-11 | 东莞理工学院 | 一种基于深度学习的简历识别和智能分类筛选系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
CN111046784A (zh) | 文档版面分析识别方法、装置、电子设备和存储介质 | |
CN107220648A (zh) | 理赔单据的字符识别方法及服务器 | |
CN107862327B (zh) | 一种基于多特征的安全缺陷识别系统和方法 | |
CN111597356B (zh) | 智能化教育知识图谱构建系统与方法 | |
CN108170468A (zh) | 一种自动检测注释和代码一致性的方法及其系统 | |
CN113312899B (zh) | 文本分类方法、装置和电子设备 | |
Yu | Crowdsourced report generation via bug screenshot understanding | |
CN112445897A (zh) | 文本类数据大规模分类标注方法、系统、装置及存储介质 | |
CN113836894B (zh) | 多维度英语作文评分方法、装置及可读存储介质 | |
CN114218379A (zh) | 一种面向智能问答系统的无法回答问题的归因方法 | |
CN109388804A (zh) | 利用深度学习模型的证券研报核心观点提取方法及装置 | |
CN116934278A (zh) | 一种建筑施工方案审核方法与装置 | |
CN113343816A (zh) | 一种针对ocr简历识别算法的自动化测试方法和系统 | |
CN113111869B (zh) | 提取文字图片及其描述的方法和系统 | |
CN115454841A (zh) | 基于程序测试和分析的多维度代码质量综合评价方法及系统 | |
CN108875060A (zh) | 一种网站识别方法及识别系统 | |
CN114118098A (zh) | 基于要素抽取的合同评审方法、设备及存储介质 | |
CN109684615B (zh) | 一种行人碰撞试验报告生成方法及装置 | |
CN113722421A (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN112765307A (zh) | 一种基于机器学习算法的试卷试题拆分工具及其拆分提取方法 | |
TWI736250B (zh) | 資料標註系統及資料標註方法 | |
CN117151096B (zh) | 智能合同审查方法、装置、电子设备及存储介质 | |
CN117421226A (zh) | 一种基于生成式大语言模型的缺陷报告重构的方法及系统 | |
CN114548825B (zh) | 投诉工单失真检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |