CN109933627A - 基于ocr云识别的信息系统监理知识采集和归档方法 - Google Patents

基于ocr云识别的信息系统监理知识采集和归档方法 Download PDF

Info

Publication number
CN109933627A
CN109933627A CN201910114999.5A CN201910114999A CN109933627A CN 109933627 A CN109933627 A CN 109933627A CN 201910114999 A CN201910114999 A CN 201910114999A CN 109933627 A CN109933627 A CN 109933627A
Authority
CN
China
Prior art keywords
ocr
project
identification
cloud
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910114999.5A
Other languages
English (en)
Inventor
邱全兵
胡宇辉
陈进才
张冉
刘沛鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Institute Of Computing Technology Application
Original Assignee
Guangdong Institute Of Computing Technology Application
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Institute Of Computing Technology Application filed Critical Guangdong Institute Of Computing Technology Application
Priority to CN201910114999.5A priority Critical patent/CN109933627A/zh
Publication of CN109933627A publication Critical patent/CN109933627A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于OCR云识别的信息系统监理知识采集和归档方法,包括如下步骤:A)OCR转换服务从项目资料库中提取项目信息;B)将所述项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件;C)所述OCR转换服务将所述项目原文件和OCR转换文件按照一定的分类规则上传到监理知识库系统,按照监理知识体系结构存放到相应的位置,并为上传的所述项目原文件和OCR转换文件添加对应的项目的属性信息。实施本发明的基于OCR云识别的信息系统监理知识采集和归档方法,具有以下有益效果:能准确找到需要的项目资料、检索效率较高、OCR识别能力不受限制。

Description

基于OCR云识别的信息系统监理知识采集和归档方法
技术领域
本发明涉及项目监理领域,特别涉及一种基于OCR云识别的信息系统监理知识采集和归档方法。
背景技术
信息系统监理在项目监理过程中会积累一定的项目资料,包括招、投标文件、合同、技术文档等。这些资料常规管理的方式包括以下几种:共享目录访问、监理业务系统、文控管理系统。监理工作人员在项目监理过程中常常需要查询历史项目资料作为参考以提高监理效率、服务水平和质量。但是常规的方式在资料访问时存在一些缺点,监理项目资料通常是扫描件,无法进行文本搜索,难以准确找出所需要的资料。当一个单位积累的项目越来越多时,检索效率也就越来越低下。在此基础上的一种改进的方式是,在项目资料入库前,人工将扫描件通过OCR软件进行转换成可识别文件的文件类型或者资料管理系统在上传过程中通过OCR SDK自动转换。
现有技术存在如下缺点:(1)无法准确找到需要的项目资料。未作OCR转换的扫描件无法进行文件搜索,不能对资料的内容进行检索过滤,找不到需要的资料。(2)检索效率低。对于未作OCR转换的扫描件只能通过人工浏览来选择项目资料,在大量的项目资料面前找出想到的资料需要花费大量的时间。即使项目资料做了OCR转换,支持全文检索,但当面对海量的资料,若不能对结果进行有效的过滤,也难以检索出需要的资料。(3)OCR识别能力限制。一款 OCR软件的识别水平在某个时间点是一定的,随着技术水平的,为获取更高的识别能力,则需要重新购买新版的软件,同时可能会由于接口的变化,引起资料管理系统的同步更新升级。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能准确找到需要的项目资料、检索效率较高、OCR识别能力不受限制的基于OCR云识别的信息系统监理知识采集和归档方法。
本发明解决其技术问题所采用的技术方案是:构造一种基于OCR云识别的信息系统监理知识采集和归档方法,包括如下步骤:
A)OCR转换服务从项目资料库中提取项目信息;
B)将所述项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件;
C)所述OCR转换服务将所述项目原文件和OCR转换文件按照一定的分类规则上传到监理知识库系统,按照监理知识体系结构存放到相应的位置,并为上传的所述项目原文件和OCR转换文件添加对应的项目的属性信息。
在本发明所述的基于OCR云识别的信息系统监理知识采集和归档方法中,所述步骤B)进一步包括:
B1)设置OCR云识别服务的访问地址、应用标识和访问密码;
B2)所述OCR转换服务提取监理项目资料;所述监理项目资料包括项目信息和项目附件列表;
B3)判断项目附件类型是否是要转换的文件,添加到转换队列;
B4)判断所述转换队列是否不为空,如是,执行步骤B5);否则,执行步骤C);
B5)设置转换参数并上传项目附件至所述OCR云识别服务;所述转换参数包括文本类型、源文件类型、目标类型和转换语言;
B6)每隔设定时间查询所述OCR云识别服务的转换任务的状态;
B7)判断OCR云识别服务的转换任务是否完成或出错,如果完成,则执行步骤B8);如果未完成,则返回步骤B6);如果出错,则执行步骤B9);
B8)从所述OCR云识别服务下载转换后的OCR转换文件,执行步骤B9);
B9)所述OCR转换服务从所述转换队列中移除所述要转换的文件,返回步骤B4)。
在本发明所述的基于OCR云识别的信息系统监理知识采集和归档方法中,所述要转换的文件为图片类型或PDF类型,所述图片类型至少包括BMP格式、 JPG格式、TIFF格式和PNG格式。
在本发明所述的基于OCR云识别的信息系统监理知识采集和归档方法中,所述OCR云识别服务支持从图片中提取打印文本和手写文本,支持将图片或 PDF文件转换成能搜索的PDF格式、Word格式、Excel格式或PPT格式。
在本发明所述的基于OCR云识别的信息系统监理知识采集和归档方法中,所述属性信息至少包括项目名称、项目编号、项目类别、项目领域、建设方、承建方和项目规模。
在本发明所述的基于OCR云识别的信息系统监理知识采集和归档方法中,所述监理知识体系结构至少包括产品与案例知识、业务模板和流程知识、工具与方法知识以及政策与规范标准知识。
在本发明所述的基于OCR云识别的信息系统监理知识采集和归档方法中,所述设定时间为5秒。
实施本发明的基于OCR云识别的信息系统监理知识采集和归档方法,具有以下有益效果:由于本发明在信息系统监理业务的管理过程中,自动提取项目资料并应用OCR云识别技术将各类扫描资料进行自动转换成可进行文本搜索的文件类型。OCR云识别基于云计算和先进的深度学习算法可提供无限扩展计算能力和识别各种内容能力,大大提高OCR识别效率和识别精度。发明定义了信息系统监理知识库结构构建的一种方法,按照本发明的所述方法进行知识资料的分层次,分类别存放。在进行知识检索过程中,使用知识库文件采集和归档时附加的项目属性,对全文检索的结果进行过滤可大大提供知识的检索效率、提高知识的共享水平;因此本发明能准确找到需要的项目资料、检索效率较高、 OCR识别能力不受限制。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于OCR云识别的信息系统监理知识采集和归档方法一个实施例中的流程图;
图2为所述实施例中基于OCR云识别的信息系统的架构图;
图3为所述实施例中将项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件的具体流程图;
图4为所述实施例中OCR转换服务工作的流程图;
图5为所述实施例中监理知识体系结构图;
图6为所述实施例中监理业务产品与案例结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明基于OCR云识别的信息系统监理知识采集和归档方法实施例中,该基于OCR云识别的信息系统监理知识采集和归档方法的流程图如图1所示。图1中,该基于OCR云识别的信息系统监理知识采集和归档方法包括如下步骤:
步骤S01OCR转换服务从项目资料库中提取项目信息:项目资料库中存放单位原始的监理项目基本信息和监理过程文件。本步骤中,OCR转换服务从项目资料库中提取项目信息。
步骤S02将项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件:本步骤中,将项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件。OCR云识别服提供开放的、高性能、高识别能力和高安全性的OCR转换服务。
步骤S03OCR转换服务将项目原文件和OCR转换文件按照一定的分类规则上传到监理知识库系统,按照监理知识体系结构存放到相应的位置,并为上传的项目原文件和OCR转换文件添加对应的项目的属性信息:本步骤中,OCR 转换服务将项目原文件和OCR转换文件按照一定的分类规则上传到监理知识库系统,按照监理知识体系结构存放到相应的位置,并为上传的项目原文件和OCR 转换文件添加对应的项目的属性信息。该属性信息至少包括项目名称、项目编号、项目类别、项目领域、建设方、承建方和项目规模。监理知识库系统提供开放的文档上传接口,具有合理、便于检索的目录分类结构和全文检索引擎。图5为本实施例中监理知识体系结构图。
由此可见,OCR转换服务的作用是提取项目资料库中的项目信息,并实现将不能文本识别的扫描件通过OCR云识别服务转换成可识别文件的PDF文件。将转换后的文件和原始文件按照一定的分类规则上传到监理知识库系统,并将上传的文件添加相对应的项目的属性信息。
本发明在信息系统监理领域,应用OCR云识别技术对监理过程文件扫描件实现自动的可搜索文件格式的转换,并按照监理知识体系结构分层次、分类别存放,创建可动态更新监理知识库。在监理知识采集与归档的过程中,实现对知识自动添加项目信息作为属性,对知识进行全文检索中可以通过项目属性进行知识的过滤,提高检索知识效率。本发明能准确找到需要的项目资料、检索效率较高、OCR识别能力不受限制。
本实施例中,项目资料库、OCR转换服务、OCR云识别服务和监理知识库系统构成基于OCR云识别的信息系统,图2为本实施例中该基于OCR云识别的信息系统的架构图。
对于本实施例而言,上述步骤S02还可进一步细化,其细化后的流程图如图3所示。图4为本实施例中OCR转换服务工作的流程图。图3中,该步骤S02 进一步包括如下步骤:
步骤S21设置OCR云识别服务的访问地址、应用标识和访问密码:本步骤中,OCR云识别服务需要支持从图片中提取打印文本和手写文本,支持将图片或PDF文件转换成可搜索的PDF格式、Word格式、Excel格式或PPT格式。在 OCR云识别服务上创建专属的应用服务和访问密码。在本地OCR转换服务上设置OCR云识别服务的访问地址、应用标识和访问密码。
步骤S22OCR转换服务提取监理项目资料:本步骤中,OCR转换服务提取监理项目资料,该监理项目资料包括项目信息和项目附件列表。
步骤S23判断项目附件类型是否是要转换的文件,添加到转换队列:本步骤中,OCR转换服务选择需要上传到监理知识库系统的项目,提取项目信息和项目过程的相关附件。判断附件文件的类型,确定是否是需要转换的图片类型 (BMP格式、JPG格式、TIFF格式和PNG格式等)和PDF类型,将其放入待转换队列。
步骤S24判断转换队列是否不为空:本步骤中,判断转换队列是否不为空,如果判断的结果为是,则执行步骤S25;否则,执行步骤S03。
步骤S25设置转换参数并上传项目附件至OCR云识别服务:本步骤中,从转换队列中取出待转换文件文件类型,设置转换参数,上传项目附件并提交转换任务至OCR云识别服务。转换参数包括文本类型、源文件类型、目标类型和转换语言。执行完本步骤,执行步骤S26。
步骤S26每隔设定时间查询OCR云识别服务的转换任务的状态:本步骤中,每隔设定时间查询OCR云识别服务的转换任务的状态,本实施例中,该设定时间为5秒,也就是每隔5秒定时查询OCR云识别服务的转换任务的状态。执行完本步骤,执行步骤S27。
步骤S27判断OCR云识别服务的转换任务是否完成或出错:本步骤中,判断OCR云识别服务的转换任务是否完成或出错,如果完成,则执行步骤S28;如果未完成,则返回步骤S26;如果出错,则执行步骤S29,根据出错原因调整转换参数,重新进行转换,直到转换完成或者出错次数超过设定值。
步骤S28从OCR云识别服务下载转换后的OCR转换文件:本步骤中,状态结果中包含OCR转换文件的下载路径的URL,则从该URL中下载OCR转换文件并存储在本地。执行完本步骤,执行步骤S29。
步骤S29OCR转换服务从转换队列中移除要转换的文件:当转换任务完成或出错,则OCR转换服务从转换队列中移除该要转换的文件。
本实施例中,待转换队列中的文件全部处理完毕,则将本地存储的已完成 OCR转换的文件(即OCR转换文件)和原始文件(即项目原文件)上传到监理知识库系统。同时上传原始文件和转换文件用以解决当OCR转换结果不理想时,可通过对转换文件的定位,查看对应的原始文件。在上传监理知识库时,按照监理知识体系结构,存放到相应的位置。通过文件的名称的命名规则,将文件放入图5对应的位置。图5中,监理知识体系结构至少包括产品与案例知识、业务模板和流程知识、工具与方法知识以及政策与规范标准知识,该监理知识体系结构还可以包括其它知识。
图6为本实施例中监理业务产品与案例结构图,监理项目的过程知识存放于产品与案例知识部分,其存放需要满足图6的要求,按照电子公务、医疗、服务平台、政法等项目所属领域存放于对应的空间。在各业务领域,则按照年份、区域、项目名称分层次存放,对于每个项目,其过程知识按照可行性研究报告、立项建议书、招投标文件、建设合同、验收报告、技术文档进行分类保存。
同时在文件上传到监理知识库系统后,每个文件需要添加其所属项目的信息作为文件属性。文件属性包括:项目名称、项目编号、项目类别、项目领域、建设方、承建方、项目规模等。文件属性的作用在于可以将其作为额外的检索选项,对全文检索引擎的搜索结果进行更进一步的过滤,减少搜索结果,提高检索的效率。
总之,本发明提供一种利用监理业务管理系统中信息系统监理项目信息、使用OCR云识别技术的信息系统监理业务知识采集和归档方法。实现信息系统监理服务全过程项目资料管理,提供高效率的资料检索能力。
本发明依靠信息系统监理项目的信息,可以对确定资料归属的系统类别、领域、规模、时间、建设单位、承建单位、地域等项目属性,将监理知识库系统中各个项目上传的资料附属相应的项目属性,方便对资料检索结果的筛选。
使用OCR云识别技术,在上传资料过程中自动进行识别转换,使用OCR 云识别技术降低终端要求、基于云计算和先进的深度学习算法可提供无限扩展计算能力和识别各种内容能力。
结合监理业务流程按照项目启动阶段、项目实施阶段、项目验收阶段及项目维护阶段工作,将其过程结果在知识库中分层、分类保存以便于检索。基于监理业务项目管理的流程,实现自动的资料转换、自动推送资料进监理知识库系统,按照知识库体系结构分类存放,再通过知识库的全文检索引擎创建索引。创建具有高检索效率的信息系统监理知识库。本发明能准确找到需要的项目资料、检索效率较高、OCR识别能力不受限制。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于OCR云识别的信息系统监理知识采集和归档方法,其特征在于,包括如下步骤:
A)OCR转换服务从项目资料库中提取项目信息;
B)将所述项目信息中不能文本识别的项目原文件通过OCR云识别服务转换成可识别的OCR转换文件;
C)所述OCR转换服务将所述项目原文件和OCR转换文件按照一定的分类规则上传到监理知识库系统,按照监理知识体系结构存放到相应的位置,并为上传的所述项目原文件和OCR转换文件添加对应的项目的属性信息。
2.根据权利要求1所述的基于OCR云识别的信息系统监理知识采集和归档方法,其特征在于,所述步骤B)进一步包括:
B1)设置OCR云识别服务的访问地址、应用标识和访问密码;
B2)所述OCR转换服务提取监理项目资料;所述监理项目资料包括项目信息和项目附件列表;
B3)判断项目附件类型是否是要转换的文件,添加到转换队列;
B4)判断所述转换队列是否不为空,如是,执行步骤B5);否则,执行步骤C);
B5)设置转换参数并上传项目附件至所述OCR云识别服务;所述转换参数包括文本类型、源文件类型、目标类型和转换语言;
B6)每隔设定时间查询所述OCR云识别服务的转换任务的状态;
B7)判断OCR云识别服务的转换任务是否完成或出错,如果完成,则执行步骤B8);如果未完成,则返回步骤B6);如果出错,则执行步骤B9);
B8)从所述OCR云识别服务下载转换后的OCR转换文件,执行步骤B9);
B9)所述OCR转换服务从所述转换队列中移除所述要转换的文件,返回步骤B4)。
3.根据权利要求2所述的基于OCR云识别的信息系统监理知识采集和归档方法,其特征在于,所述要转换的文件为图片类型或PDF类型,所述图片类型至少包括BMP格式、JPG格式、TIFF格式和PNG格式。
4.根据权利要求3所述的基于OCR云识别的信息系统监理知识采集和归档方法,其特征在于,所述OCR云识别服务支持从图片中提取打印文本和手写文本,支持将图片或PDF文件转换成能搜索的PDF格式、Word格式、Excel格式或PPT格式。
5.根据权利要求1至4任意一项所述的基于OCR云识别的信息系统监理知识采集和归档方法,其特征在于,所述属性信息至少包括项目名称、项目编号、项目类别、项目领域、建设方、承建方和项目规模。
6.根据权利要求1至4任意一项所述的基于OCR云识别的信息系统监理知识采集和归档方法,其特征在于,所述监理知识体系结构至少包括产品与案例知识、业务模板和流程知识、工具与方法知识以及政策与规范标准知识。
7.根据权利要求2所述的基于OCR云识别的信息系统监理知识采集和归档方法,其特征在于,所述设定时间为5秒。
CN201910114999.5A 2019-02-14 2019-02-14 基于ocr云识别的信息系统监理知识采集和归档方法 Pending CN109933627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910114999.5A CN109933627A (zh) 2019-02-14 2019-02-14 基于ocr云识别的信息系统监理知识采集和归档方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910114999.5A CN109933627A (zh) 2019-02-14 2019-02-14 基于ocr云识别的信息系统监理知识采集和归档方法

Publications (1)

Publication Number Publication Date
CN109933627A true CN109933627A (zh) 2019-06-25

Family

ID=66985553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910114999.5A Pending CN109933627A (zh) 2019-02-14 2019-02-14 基于ocr云识别的信息系统监理知识采集和归档方法

Country Status (1)

Country Link
CN (1) CN109933627A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100124A (zh) * 2020-09-17 2020-12-18 上海箱云物流科技有限公司 一种基于ocr识别的集装箱信息自动归档方法
TWI751855B (zh) * 2020-03-20 2022-01-01 南韓商韓領有限公司 使用群眾外包知識資料庫以收集、管理與分配資料之電腦實行系統以及電腦實行方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI751855B (zh) * 2020-03-20 2022-01-01 南韓商韓領有限公司 使用群眾外包知識資料庫以收集、管理與分配資料之電腦實行系統以及電腦實行方法
US11481414B2 (en) 2020-03-20 2022-10-25 Coupang Corp. Systems and methods for collection, management, and distribution of data using a crowdsourced knowledge database
CN112100124A (zh) * 2020-09-17 2020-12-18 上海箱云物流科技有限公司 一种基于ocr识别的集装箱信息自动归档方法

Similar Documents

Publication Publication Date Title
US9576014B2 (en) Computer readable electronic records automated classification system
TWI223171B (en) System for classifying files of non-textual subject data, method for categorizing files of non-textual data and method for identifying a class for data file at a classification node
CN102741803B (zh) 用于促进数据发现的系统和方法
CN111666259B (zh) 文档管理方法、管理系统、可读存储介质及电子装置
US20180144426A1 (en) Digital evidence management
JP6308708B1 (ja) 特許要件適否予測装置および特許要件適否予測プログラム
US20160127599A1 (en) Computer implemented system and method for managing a stack containing a plurality of documents
CN103455896B (zh) 基于物联网的无纸化装配质量控制方法
CN109933627A (zh) 基于ocr云识别的信息系统监理知识采集和归档方法
JP2017146720A (ja) 特許要件適否予測装置および特許要件適否予測プログラム
CN110427404A (zh) 一种区块链跨链数据检索系统
CN115982429B (zh) 一种基于流程控制的知识管理方法及系统
Kalmukov et al. Design and development of an automated web crawler used for building image databases
CN115935042B (zh) 一种基于融合模型的质押资产智能查重方法及系统
Adjetey et al. Content-based image retrieval using Tesseract OCR engine and levenshtein algorithm
JP2006099268A (ja) 画像検索装置、画像検索支援装置、画像検索システム、画像検索方法および画像検索プログラム
KR20020008096A (ko) 네트워크 기반의 유사어 검색기술 응용시스템 및 방법
JP2000231560A (ja) 文書自動分類方式
CN117112872B (zh) 一种基于半监督学习的政务文本归档方法及系统
CN118035519B (zh) 一种分类查找方法、电子设备及存储介质
CN115775391A (zh) 一种企业财务信息处理方法、系统及计算机储存介质
KR20000049544A (ko) 인터넷 개인검색 서비스방법 및 시스템
Brilakis et al. Comparison of manual and user-guided methodologies for the classification and retrieval of construction site images
CN115617865A (zh) 一种基于b/s架构的企业文档知识平台
Sirotenko Image Classification as a Service

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination