CN108132993B - 一种标准图像资源加工标准化处理方法 - Google Patents

一种标准图像资源加工标准化处理方法 Download PDF

Info

Publication number
CN108132993B
CN108132993B CN201711384449.2A CN201711384449A CN108132993B CN 108132993 B CN108132993 B CN 108132993B CN 201711384449 A CN201711384449 A CN 201711384449A CN 108132993 B CN108132993 B CN 108132993B
Authority
CN
China
Prior art keywords
standard
unit
page
image
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711384449.2A
Other languages
English (en)
Other versions
CN108132993A (zh
Inventor
陈银龙
金志刚
伍薇
魏雪艳
赵华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Institute Of Quality And Standardization
Original Assignee
Jiangsu Institute Of Quality And Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Institute Of Quality And Standardization filed Critical Jiangsu Institute Of Quality And Standardization
Priority to CN201711384449.2A priority Critical patent/CN108132993B/zh
Publication of CN108132993A publication Critical patent/CN108132993A/zh
Application granted granted Critical
Publication of CN108132993B publication Critical patent/CN108132993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种标准图像资源加工标准化处理方法,属于图像资源处理技术领域,建立图像接收处理单元、图像数据存储单元、人工模拟盖章单元、文字获取单元和标准搜索查询单元,通过人工模拟盖章技术,准确定位和标记标准文献图像中具有特殊意义的内容,根据标记确定的内容,极大的缩减了特征值提取的范围,提高了特征值提取的准确性和效率,改变了现有的人工寻找纸质文本,扫描特殊标识页,再上传服务器的繁琐过程。本发明极大的缩减了特征值提取的范围,提高了特征值提取的准确性和效率,减轻人员工作量,提高了标准资源加工的工作效率。

Description

一种标准图像资源加工标准化处理方法
技术领域
本发明涉及一种图像资源处理方法,特别是涉及一种标准图像资源加工标准化处理方法,属于图像资源处理技术领域。
背景技术
标准图像资源加工处理的标准化手段及其方法和普通的文档图像处理方法有类似的地方,现有的文档图像处理方法大多是通过识别文档图像的特殊文字、特殊字符或者特殊图像来确定图像的分类和图像信息。
在申请号为CN201410563687.X的中国专利中,其公开了一种文档图像识别方法,将单个文字看作是文档图像上的一个小区域,基于聚类的思想识别图像上的连通区域,抽取每个区域上的形状特征、颜色特征,设计概率模型,实现文档图像的识别。此专利虽然可以实现文档图像中文字和图像的识别,但在运用到标准图像资源加工处理时,就会出现如下不适合的方面:标准基本全部都是文字描述,并没有文字和图像的区分,所以识别出来也基本上全是文字,在我们标记特殊页时没有任何的帮助。由于前言和首页在文字上的特殊字样就只有‘前言’和‘首页’,而这两个词在每一个标准文本中出现的频次是很多的,所以此专利不适用于标准图像资源的加工处理。
发明内容
本发明的主要目的是为了提供一种标准图像资源加工标准化处理方法,解决了现有技术中前言、首页不能定位的问题,题录字段因提取范围过大而提取不准确导致的特征值提取效率低的问题,解决了标准的前言和首页需要人工找到标准文本,然后扫描获取图像,再把图像上传到服务器的繁琐过程。
本发明的目的可以通过采用如下技术方案达到:
一种标准图像资源加工标准化处理方法,包括如下步骤:
步骤1:建立图像接收处理单元、图像数据存储单元、人工模拟盖章单元、文字获取单元和标准搜索查询单元;
步骤2:图像接收处理单元获取上传的标准文献图像资源,对标准文献图像进行清晰化处理,然后拆分成每一页的切图,通过对文字识别技术的封装使用生成标准文本电子书文件;
步骤3:图像数据存储单元根据图像接收处理单元的产出物,设计建造数据存储系统,将每个标准对应的标准基础信息、标准文献图像、标准文献切页图像和电子书文件通过唯一识别标识存储到图像数据存储系统中;
步骤4:人工模拟盖章单元通过人工模拟盖章技术,从众多的标准文献切页图像中识别出前言和首页,并通过对应标准的唯一标识将前言和首页图像与标准号关联存储到存储单元;
步骤5:文字获取单元根据标准文献图像录入标准特征字段,通过获取该标准对应的前言和首页,缩短特征值的提取范围;
步骤6:标准搜索查询单元面向公众标准查询检索,检索到标准文献图像后,通过人工模拟盖章单元标记的首页和前言,从存储系统中提取出首页图像。
进一步的,步骤1中,所述图像接收处理单元用于接收标准文献的图像,对文献图像进行清晰化处理,对标准文献资源进行切割,生成分页图像。
进一步的,步骤1中,所述图像数据存储单元将图像接收处理单元产出的标准文献切图,清洗处理的标准文献和文字可识别的双层PDF进行存储,并通过唯一标识将一个标准的所有数据和文本资源关联。
进一步的,步骤1中,所述人工模拟盖章单元首先按标准文献顺序展示标准文献的切图,然后通过人工模拟盖章技术对标准的前言和首页进行标记处理,并将结果存储到图像数据存储系统中。
进一步的,步骤1中,所述文字获取单元是通过获取人工模拟盖章单元标记的前言和首页两处的文字信息,快速准确的筛选标准的特征值区域,并通过文字解析技术来准确定位特征值域。
进一步的,步骤1中,所述标准搜索查询单元是建立面向公共的标准查询系统,查询标准并展示标准的首页图像。
进一步的,步骤1中,所述图像接收处理单元、所述图像数据存储单元、所述人工模拟盖章单元、所述文字获取单元和所述标准搜索查询单元之间均通过互联网通信。
进一步的,步骤4中,所述人工模拟盖章单元从所述图像数据存储单元中提取出标准文献切页图像并按序排列,通过人工模拟盖章单元实现前言和首页的标记工作。
进一步的,所述人工模拟盖章单元实现前言和首页的标记工作按以下步骤进行:
步骤41:从图像数据存储单元中取出标准资源图片,在页面上经过图片的宽与高的尺寸各放大不同的倍数;
步骤42:用鼠标点击右侧的图章,通过页面元素鼠标浮动实现图章随鼠标一起移动,实现模拟人工盖章的效果,设定鼠标当前位置为(X,Y),设定图章的宽度为W,图章的高度为H,则图章的位置为(X-W,Y-H);
步骤43:将鼠标移动到标准文献区域,点击鼠标右键,图章便会自动定位到先前预设的位置,此位置可以任意设置或直接设置相对于显示区域的高度X和宽度Y;
步骤44:图章定位之后,如果定位的页面不是所需要的页面,可以取消,然后重新盖章,在确定之后,会形成一个标记,当再次显示的时候,图章的位置标记也会出现,以此确认上一次所盖图章的位置;
步骤45:将标记的前言和首页的图像及数据通过唯一标识和标准号关联保存到图像数据存储单元中。
进一步的,步骤41中,还动态的创建显示区域,显示区域分两部分,左边是内容区域,右边是章显示区域。
本发明的有益技术效果:按照本发明的标准图像资源加工标准化处理方法,本发明提供的标准图像资源加工标准化处理方法,通过自主研发的人工模拟盖章技术,准确定位和标记标准文献图像中具有特殊意义的内容,根据标记确定的内容,极大的缩减了特征值提取的范围,提高了特征值提取的准确性和效率,改变了现有的人工寻找纸质文本,扫描特殊标识页,再上传服务器的繁琐过程,减轻人员工作量,提高了标准资源加工的工作效率。
附图说明
图1为按照本发明的标准图像资源加工标准化处理方法的一优选实施例的流程图;
图2为按照本发明的标准图像资源加工标准化处理方法的一优选实施例的人工模拟盖章的流程图。
具体实施方式
为使本领域技术人员更加清楚和明确本发明的技术方案,下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例提供的一种标准图像资源加工标准化处理方法,包括如下步骤:
步骤1:建立图像接收处理单元、图像数据存储单元、人工模拟盖章单元、文字获取单元和标准搜索查询单元;图像接收处理单元用于接收标准文献的图像,对文献图像进行清晰化处理,对标准文献资源进行切割,生成分页图像;图像数据存储单元将图像接收处理单元产出的标准文献切图,清洗处理的标准文献和文字可识别的双层PDF进行存储,并通过唯一标识将一个标准的所有数据和文本资源关联;人工模拟盖章单元首先按标准文献顺序展示标准文献的切图,然后通过人工模拟盖章技术对标准的前言和首页进行标记处理,并将结果存储到图像数据存储系统中;文字获取单元是通过获取人工模拟盖章单元标记的前言和首页两处的文字信息,快速准确的筛选标准的特征值区域,并通过文字解析技术来准确定位特征值域;标准搜索查询单元是建立面向公共的标准查询系统,查询标准并展示标准的首页图像;
步骤2:图像接收处理单元获取上传的标准文献图像资源,对标准文献图像进行清晰化处理,然后拆分成每一页的切图,通过对文字识别技术的封装使用生成标准文本电子书文件;
步骤3:图像数据存储单元根据图像接收处理单元的产出物,设计建造数据存储系统,将每个标准对应的标准基础信息、标准文献图像、标准文献切页图像和电子书文件通过唯一识别标识存储到图像数据存储系统中;
步骤4:人工模拟盖章单元通过自主研发的人工模拟盖章技术,从众多的标准文献切页图像中识别出前言和首页,并通过对应标准的唯一标识将前言和首页图像与标准号关联存储到存储单元;
步骤5:文字获取单元是题录人员根据标准文献图像录入标准特征字段,通过获取该标准对应的前言和首页,缩短特征值的提取范围,更快更准的通过文字比对技术实现特征值的提取;
步骤6:标准搜索查询单元是面向公众的标准查询检索系统,检索到标准后,通常是需要预览首页来了解标准的基础信息和作用范围,通过人工模拟盖章单元标记的首页和前言,能够准确无误的从存储系统中提取出首页图像。
进一步的,在本实施例中,所述图像接收处理单元、所述图像数据存储单元、所述人工模拟盖章单元、文字获取单元和所述标准搜索查询单元均为服务器,上述服务器均是建立在现有技术基础上进行设置的,或者可以直接选用现有服务器,所述图像接收处理单元、所述图像数据存储单元、所述人工模拟盖章单元、文字获取单元和所述标准搜索查询单元均通过互联网通信。
进一步的,在本实施例中,如图2所示,执行步骤4时,人工模拟盖章单元从存储系统中提取出标准文献切页图像并按序排列,通过人工模拟盖章技术实现前言和首页的标记工作,其中人工模拟盖章技术按以下步骤进行:
步骤S1:从图像数据存储单元中取出标准资源图片,在页面上经过图片的宽与高的尺寸各放大不同的倍数,例如:宽的尺寸*1.5,高的尺寸*2.0,并且动态的创建显示区域,这个会随着滚动条下拉来显示更多,显示区域分两部分左边是内容,右边是章显示;
步骤S2:用鼠标点击右侧的图章,通过页面元素鼠标浮动实现图章随鼠标一起移动,实现模拟人工盖章的效果,设定鼠标当前位置为(X,Y),设定图章的宽度为W,图章的高度为H,则图章的位置为(X-W,Y-H);
步骤S3:将鼠标移动到标准文献区域,点击鼠标右键,图章便会自动定位到先前预设的位置,此位置可以随意设置,是相对于标准资源显示区域而定的,直接设置相对于显示区域的高度X和宽度Y;
步骤S4:图章定位之后,如果定位的页面不是我们所需要的页面,我们可以取消,然后重新盖章,在确定之后,其内部原理会形成一个标记,当再次显示的时候,图章的位置标记也会出现,这样就知道先前我们所盖图章的位置了;
步骤S5:将标记的前言和首页的图像和数据通过唯一标识和标准号关联保存到存储系统中。
进一步的,在本实施例中,本实施例提出的技术方案通过预先将标准文献图像拆分和识别成不同类型的电子资源,通过自主研发的人工模拟盖章技术标记出标准的前言和首页,改变了现有的人工查找确定特殊页模式:人工手动在标准文本中找到前言和首页,然后将两页扫描成图像,最后把扫描的图像上传到服务器,改善了标准资源加工流程,做到了在特征值提取前就确定好前言和首页,缩减了也正值提取的范围,提高了特征值提取的准确度。
综上所述,在本实施例中,按照本实施例的标准图像资源加工标准化处理方法,本实施例提供的标准图像资源加工标准化处理方法,通过自主研发的人工模拟盖章技术,准确定位和标记标准文献图像中具有特殊意义的内容,根据标记确定的内容,极大的缩减了特征值提取的范围,提高了特征值提取的准确性和效率,改变了现有的人工寻找纸质文本,扫描特殊标识页,再上传服务器的繁琐过程,减轻人员工作量,提高了标准资源加工的工作效率。
以上所述,仅为本发明进一步的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其构思加以等同替换或改变,都属于本发明的保护范围。

Claims (8)

1.一种标准图像资源加工标准化处理方法,其特征在于,包括如下步骤:
步骤1:建立图像接收处理单元、图像数据存储单元、人工模拟盖章单元、文字获取单元和标准搜索查询单元;
步骤2:图像接收处理单元获取上传的标准文献图像资源,对标准文献图像进行清晰化处理,然后拆分成每一页的切图,通过对文字识别技术的封装使用生成标准文本电子书文件;
步骤3:图像数据存储单元根据图像接收处理单元的产出物,设计建造数据存储系统,将每个标准对应的标准基础信息、标准文献图像、标准文献切页图像和电子书文件通过唯一识别标识存储到图像数据存储系统中;
步骤4:人工模拟盖章单元通过人工模拟盖章技术,从众多的标准文献切页图像中识别出前言和首页,并通过对应标准的唯一标识将前言和首页图像与标准号关联存储到存储单元;
步骤5:文字获取单元根据标准文献图像录入标准特征字段,通过获取该标准对应的前言和首页,缩短特征值的提取范围;
步骤6:标准搜索查询单元面向公众标准查询检索,检索到标准文献图像后,通过人工模拟盖章单元标记的首页和前言,从存储系统中提取出首页图像;
步骤4中,所述人工模拟盖章单元从所述图像数据存储单元中提取出标准文献切页图像并按序排列,通过人工模拟盖章单元实现前言和首页的标记工作;
所述人工模拟盖章单元实现前言和首页的标记工作按以下步骤进行:
步骤41:从图像数据存储单元中取出标准资源图片,在页面上经过图片的宽与高的尺寸各放大不同的倍数;
步骤42:用鼠标点击右侧的图章,通过页面元素鼠标浮动实现图章随鼠标一起移动,实现模拟人工盖章的效果,设定鼠标当前位置为(X,Y),设定图章的宽度为W,图章的高度为H,则图章的位置为(X-W,Y-H);
步骤43:将鼠标移动到标准文献区域,点击鼠标右键,图章便会自动定位到先前预设的位置,此位置可以任意设置或直接设置相对于显示区域的高度X和宽度Y;
步骤44:图章定位之后,如果定位的页面不是所需要的页面,可以取消,然后重新盖章,在确定之后,会形成一个标记,当再次显示的时候,图章的位置标记也会出现,以此确认上一次所盖图章的位置;
步骤45:将标记的前言和首页的图像及数据通过唯一标识和标准号关联保存到图像数据存储单元中。
2.根据权利要求1所述的一种标准图像资源加工标准化处理方法,其特征在于,步骤1中,所述图像接收处理单元用于接收标准文献的图像,对文献图像进行清晰化处理,对标准文献资源进行切割,生成分页图像。
3.根据权利要求1所述的一种标准图像资源加工标准化处理方法,其特征在于,步骤1中,所述图像数据存储单元将图像接收处理单元产出的标准文献切图,清洗处理的标准文献和文字可识别的双层PDF进行存储,并通过唯一标识将一个标准的所有数据和文本资源关联。
4.根据权利要求1所述的一种标准图像资源加工标准化处理方法,其特征在于,步骤1中,所述人工模拟盖章单元首先按标准文献顺序展示标准文献的切图,然后通过人工模拟盖章技术对标准的前言和首页进行标记处理,并将结果存储到图像数据存储系统中。
5.根据权利要求1所述的一种标准图像资源加工标准化处理方法,其特征在于,步骤1中,所述文字获取单元是通过获取人工模拟盖章单元标记的前言和首页两处的文字信息,快速准确的筛选标准的特征值区域,并通过文字解析技术来准确定位特征值域。
6.根据权利要求1所述的一种标准图像资源加工标准化处理方法,其特征在于,步骤1中,所述标准搜索查询单元是建立面向公共的标准查询系统,查询标准并展示标准的首页图像。
7.根据权利要求1所述的一种标准图像资源加工标准化处理方法,其特征在于,步骤1中,所述图像接收处理单元、所述图像数据存储单元、所述人工模拟盖章单元、所述文字获取单元和所述标准搜索查询单元之间均通过互联网通信。
8.根据权利要求1所述的一种标准图像资源加工标准化处理方法,其特征在于,步骤41中,还动态的创建显示区域,显示区域分两部分,左边是内容区域,右边是章显示区域。
CN201711384449.2A 2017-12-20 2017-12-20 一种标准图像资源加工标准化处理方法 Active CN108132993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711384449.2A CN108132993B (zh) 2017-12-20 2017-12-20 一种标准图像资源加工标准化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711384449.2A CN108132993B (zh) 2017-12-20 2017-12-20 一种标准图像资源加工标准化处理方法

Publications (2)

Publication Number Publication Date
CN108132993A CN108132993A (zh) 2018-06-08
CN108132993B true CN108132993B (zh) 2019-12-06

Family

ID=62391868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711384449.2A Active CN108132993B (zh) 2017-12-20 2017-12-20 一种标准图像资源加工标准化处理方法

Country Status (1)

Country Link
CN (1) CN108132993B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517203A (zh) * 2013-09-26 2015-04-15 天津书生软件技术有限公司 一种电子印章的盖章方法、装置及系统
CN104636700A (zh) * 2013-11-15 2015-05-20 株式会社理光 文档图像管理装置以及文档图像管理系统
CN106649629A (zh) * 2016-12-02 2017-05-10 华中师范大学 一种关联书本与电子资源的系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8234277B2 (en) * 2006-12-29 2012-07-31 Intel Corporation Image-based retrieval for high quality visual or acoustic rendering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517203A (zh) * 2013-09-26 2015-04-15 天津书生软件技术有限公司 一种电子印章的盖章方法、装置及系统
CN104636700A (zh) * 2013-11-15 2015-05-20 株式会社理光 文档图像管理装置以及文档图像管理系统
CN106649629A (zh) * 2016-12-02 2017-05-10 华中师范大学 一种关联书本与电子资源的系统

Also Published As

Publication number Publication date
CN108132993A (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
US10824801B2 (en) Interactively predicting fields in a form
KR101769918B1 (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
US20160055376A1 (en) Method and system for identification and extraction of data from structured documents
CN103020619B (zh) 一种自动切分电子化笔记本中手写条目的方法
CN102855480A (zh) 一种图像文字识别方法和装置
CA2267828A1 (en) Multiple size reductions for image segmentation
CN109271616A (zh) 一种基于标准文献题录特征值的智能提取方法
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN114119949A (zh) 一种增强文本合成图像的生成方法和系统
CN113901933A (zh) 基于人工智能的电子发票信息抽取方法、装置及设备
CN110309754B (zh) 一种习题采集的方法及系统
CN112861861A (zh) 识别数码管文本的方法、装置及电子设备
CN107436931B (zh) 网页正文抽取方法及装置
CN112434568A (zh) 一种画作识别方法、装置、存储介质及计算设备
Sorge et al. Towards generating web-accessible STEM documents from PDF
Karatzas et al. An on-line platform for ground truthing and performance evaluation of text extraction systems
CN108132993B (zh) 一种标准图像资源加工标准化处理方法
KR20180126352A (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
CN111881900A (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN114155547B (zh) 一种图表识别方法、装置、设备及存储介质
CN113779482B (zh) 一种生成前端代码的方法及装置
KR101919073B1 (ko) 모듈화 분석을 이용한 폰트 검색 시스템 및 방법
CN115630636A (zh) 文本识别方法及装置
US9135517B1 (en) Image based document identification based on obtained and stored document characteristics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant