CN102591852A - 专利图像自动排版方法及系统 - Google Patents

专利图像自动排版方法及系统 Download PDF

Info

Publication number
CN102591852A
CN102591852A CN2011100076223A CN201110007622A CN102591852A CN 102591852 A CN102591852 A CN 102591852A CN 2011100076223 A CN2011100076223 A CN 2011100076223A CN 201110007622 A CN201110007622 A CN 201110007622A CN 102591852 A CN102591852 A CN 102591852A
Authority
CN
China
Prior art keywords
image
images
annotation
read
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100076223A
Other languages
English (en)
Inventor
肖伟清
李忠一
叶建发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2011100076223A priority Critical patent/CN102591852A/zh
Priority to US13/337,119 priority patent/US8761547B2/en
Publication of CN102591852A publication Critical patent/CN102591852A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种专利图像自动排版方法,该方法包括步骤:读取专利文件的描述文字部分;提取专利图像的文字注释,并记录其中的关键字;读读取所述专利文件的图像部分;识别每个专利图像的图像注释;比较所述图像注释中是否含有所述关键字;当所述图像注释中不含有关键字时,将该专利图像顺时针旋转90度,再输出旋转后的图像。本发明还提供一种专利图像自动排版系统。本发明可以根据文字注释自动对图像进行旋转。

Description

专利图像自动排版方法及系统
技术领域
本发明涉及一种排版方法及系统,尤其是涉及一种专利图像自动排版方法及系统。
背景技术
通常在撰写专利文件时,会根据专利图像的长宽比例进行排放。如果专利图像宽度比高度大时,可能图像宽度会超过纸张宽度,这时一般会将图像横向排放。这样在阅读专利时,用户需要将图像进行旋转,会造成阅读不方便。另外如果通过图像搜索专利时,由于采用横向排放,很可能找不到相应的专利。
发明内容
鉴于以上内容,有必要提供一种专利图像自动排版方法,可以根据文字注释自动对图像进行旋转。
鉴于以上内容,还有必要提供一种专利图像自动排版系统,可以根据文字注释自动对图像进行旋转。
所述专利图像自动排版方法包括:读取步骤一:读取专利文件的描述文字部分;提取步骤:从所读取的描述文字部分提取专利图像的文字注释,并记录其中的关键字;读取步骤二:读取所述专利文件的图像部分;识别步骤:从所读取的图像部分识别每个专利图像的图像注释;比较步骤:比较识别出的每个专利图像的图像注释与所记录的关键字,判断所述图像注释中是否含有所述关键字;处理步骤:当所述图像注释中不含有所记录的关键字时,将该专利图像顺时针旋转90度,再输出旋转后的图像。
所述专利图像自动排版系统包括:读取模块,用于读取专利文件的描述文字部分;提取模块,用于从所读取的描述文字部分提取专利图像的文字注释,并记录其中的关键字;所述读取模块还用于读取所述专利文件的图像部分;识别模块,用于从所读取的图像部分识别每个专利图像的图像注释;比较模块,用于比较识别出的每个专利图像的图像注释与所记录的关键字,判断所述图像注释中是否含有所述关键字;处理模块,用于当所述图像注释中不含有所记录的关键字时,将该专利图像顺时针旋转90度,再输出旋转后的图像。
相较于现有技术,所述的专利图像自动排版方法及系统,能够通过识别图像部分的注释,与文字部分的注释进行比较,根据文字特征自动对图像进行旋转,以符合用户阅读习惯,并可以提高通过图像搜索专利时的准确度。
附图说明
图1是本发明专利图像自动排版系统较佳实施例的架构图。
图2是本发明专利图像自动排版方法较佳实施例的流程图。
主要元件符号说明
  服务器   1
  专利图像自动排版系统   10
  读取模块   100
  提取模块   200
  识别模块   300
  比较模块   400
  处理模块   500
具体实施方式
如图1所示,是本发明专利图像自动排版系统较佳实施例的架构图。所述专利图像自动排版系统10运行于服务器1中。
所述专利图像自动排版系统10包括读取模块100、提取模块200、识别模块300、比较模块400及处理模块500。
所述读取模块100用于读取专利文件的描述文字部分。
所述提取模块200用于从所读取的描述文字部分提取专利图像的文字注释,并记录其中的关键字。一般情况下,专利图像的文字注释可以通过字符串正则表达式提取。例如美国专利中,专利图像的文字注释一般为类似“FIG.1a shows a side view of a single unitauto rack rail road car;”格式的文字,通常可以设置提取包含“FIG”及数字的一定长度的字符串,来提取该文字注释,并记录关键字为“FIG.1a”或者其简写“FIG”。
所述读取模块100还用于读取所述专利文件的图像部分。
所述识别模块300用于从所读取的图像部分识别每个专利图像的图像注释。所述图像注释一般为专利图像下方的注释文字,如“FIG.1a”。在本实施例中,可以采用OCR(Optical Character Recognition,光学字符识别)技术,识别出所述图像注释。若所述专利图像为横向排放,则不能识别出所述图像注释,识别结果为空。
所述比较模块400用于比较识别出的每个专利图像的图像注释与所记录的关键字,判断所述图像注释中是否含有所述关键字。
所述处理模块500用于当所述图像注释中不含有所记录的关键字,即所述专利图像为横向排放时,将该专利图像顺时针旋转90度,再输出旋转后的图像。
所述处理模块500还用于当所述图像注释中含有所记录的关键字时,直接输出该专利图像。
如图2所示,是本发明专利图像自动排版方法较佳实施例的流程图。
步骤S10,所述读取模块100读取专利文件的描述文字部分。
步骤S12,所述提取模块200从所读取的描述文字部分提取专利图像的文字注释,并记录其中的关键字。一般情况下,专利图像的文字注释可以通过字符串正则表达式提取。例如美国专利中,专利图像的文字注释一般为类似“FIG.1a shows a side view of a singleunit auto rack rail road car;”格式的文字,通常可以设置提取包含“FIG”及数字的一定长度的字符串,来提取该文字注释,并记录关键字为“FIG.1a”或者其简写“FIG”。
步骤S 14,所述读取模块100读取所述专利文件的图像部分。
步骤S 16,所述识别模块300从所读取的图像部分识别每个专利图像的图像注释。所述图像注释一般为专利图像下方的注释文字,如“FIG.1a”。在本实施例中,可以采用OCR(Optical CharacterRecognition,光学字符识别)技术,识别出所述图像注释。若所述专利图像为横向排放,则不能识别出所述图像注释,识别结果为空。
步骤S18,所述比较模块400比较识别出的每个专利图像的图像注释与所记录的关键字,判断所述图像注释中是否含有所述关键字。若所述图像注释中不含有所记录的关键字,即所述专利图像为横向排放,则执行步骤S 20;若所述图像注释中含有所记录的关键字,则执行步骤S 22。
步骤S 20,所述处理模块500将该专利图像顺时针旋转90度,再输出旋转后的图像。
步骤S 22,所述处理模块500直接输出该专利图像。
值得注意的是,本发明专利图像自动排版方法中,步骤S10至步骤S 12与步骤S 14至步骤S 16这两个部分可以交换顺序,而不会影响该方法的结果。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (6)

1.一种专利图像自动排版方法,其特征在于,该方法包括:
读取步骤一:读取专利文件的描述文字部分;
提取步骤:从所读取的描述文字部分提取专利图像的文字注释,并记录其中的关键字;
读取步骤二:读取所述专利文件的图像部分;
识别步骤:从所读取的图像部分识别每个专利图像的图像注释;
比较步骤:比较识别出的每个专利图像的图像注释与所记录的关键字,判断所述图像注释中是否含有所述关键字;
处理步骤:当所述图像注释中不含有所记录的关键字时,将该专利图像顺时针旋转90度,再输出旋转后的图像。
2.如权利要求1所述的专利图像自动排版方法,其特征在于,该方法在所述比较步骤之后还包括步骤:
当所述图像注释中含有所记录的关键字时,直接输出该专利图像。
3.如权利要求1所述的专利图像自动排版方法,其特征在于,在所述识别步骤中,若所述专利图像为横向排放,则不能识别出所述图像注释,识别结果为空。
4.一种专利图像自动排版系统,其特征在于,该系统包括:
读取模块,用于读取专利文件的描述文字部分;
提取模块,用于从所读取的描述文字部分提取专利图像的文字注释,并记录其中的关键字;
所述读取模块还用于读取所述专利文件的图像部分;
识别模块,用于从所读取的图像部分识别每个专利图像的图像注释;
比较模块,用于比较识别出的每个专利图像的图像注释与所记录的关键字,判断所述图像注释中是否含有所述关键字;
处理模块,用于当所述图像注释中不含有所记录的关键字时,将该专利图像顺时针旋转90度,再输出旋转后的图像。
5.如权利要求4所述的专利图像自动排版系统,其特征在于,所述处理模块还用于当所述图像注释中含有所记录的关键字时,直接输出该专利图像。
6.如权利要求4所述的专利图像自动排版系统,其特征在于,所述识别模块在当所述专利图像为横向排放时,不能识别出所述图像注释,识别结果为空。
CN2011100076223A 2011-01-14 2011-01-14 专利图像自动排版方法及系统 Pending CN102591852A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2011100076223A CN102591852A (zh) 2011-01-14 2011-01-14 专利图像自动排版方法及系统
US13/337,119 US8761547B2 (en) 2011-01-14 2011-12-25 Computing device and method for automatically typesetting patent images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100076223A CN102591852A (zh) 2011-01-14 2011-01-14 专利图像自动排版方法及系统

Publications (1)

Publication Number Publication Date
CN102591852A true CN102591852A (zh) 2012-07-18

Family

ID=46480521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100076223A Pending CN102591852A (zh) 2011-01-14 2011-01-14 专利图像自动排版方法及系统

Country Status (2)

Country Link
US (1) US8761547B2 (zh)
CN (1) CN102591852A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103677504A (zh) * 2012-09-19 2014-03-26 鸿富锦精密工业(深圳)有限公司 文件阅读器及文件信息显示方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180107707A (ko) * 2017-03-22 2018-10-02 (주)광개토연구소 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 맵핑 처리하는 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5889884A (en) * 1995-05-23 1999-03-30 Minolta Co., Ltd. Image forming apparatus capable of recognizing top and bottom of document image
CN1542656A (zh) * 2003-04-30 2004-11-03 ������������ʽ���� 信息处理装置、信息处理方法、存储介质及程序
US20090317000A1 (en) * 2008-06-23 2009-12-24 Samsung Electronics Co., Ltd Method of correcting orientation of an image in automatic printing, and an image forming method and image forming apparatus thereof

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754840A (en) * 1996-01-23 1998-05-19 Smartpatents, Inc. System, method, and computer program product for developing and maintaining documents which includes analyzing a patent application with regards to the specification and claims
US6038561A (en) * 1996-10-15 2000-03-14 Manning & Napier Information Services Management and analysis of document information text
US20050210009A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for intellectual property management
US8036493B1 (en) * 2006-03-27 2011-10-11 Neustel Michael S Method for correcting orientation of patent figures
US8160306B1 (en) * 2007-06-06 2012-04-17 Neustel Michael S Patent analyzing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5889884A (en) * 1995-05-23 1999-03-30 Minolta Co., Ltd. Image forming apparatus capable of recognizing top and bottom of document image
CN1542656A (zh) * 2003-04-30 2004-11-03 ������������ʽ���� 信息处理装置、信息处理方法、存储介质及程序
US20090317000A1 (en) * 2008-06-23 2009-12-24 Samsung Electronics Co., Ltd Method of correcting orientation of an image in automatic printing, and an image forming method and image forming apparatus thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103677504A (zh) * 2012-09-19 2014-03-26 鸿富锦精密工业(深圳)有限公司 文件阅读器及文件信息显示方法

Also Published As

Publication number Publication date
US20120183222A1 (en) 2012-07-19
US8761547B2 (en) 2014-06-24

Similar Documents

Publication Publication Date Title
US20030004991A1 (en) Correlating handwritten annotations to a document
US9081412B2 (en) System and method for using paper as an interface to computer applications
US20120259618A1 (en) Computing device and method for comparing text data
US20150095769A1 (en) Layout Analysis Method And System
US20030187886A1 (en) Method and apparatus for simultaneous highlighting of a physical version of a document and an electronic version of a document
US20060018546A1 (en) Gesture recognition
CN102402576A (zh) 信息处理设备、信息处理方法及计算机程序产品
US8208726B2 (en) Method and system for optical character recognition using image clustering
CN102194117B (zh) 文稿页面方向检测方法和装置
JP2014013534A (ja) 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
JP2020042320A (ja) 画像認識装置、画像認識方法、及び画像認識プログラム
CN102591852A (zh) 专利图像自动排版方法及系统
US20100086210A1 (en) Digitizing documents
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
Kumar et al. Line based robust script identification for indianlanguages
CN115203474A (zh) 一种数据库自动分类提取技术
JP6759955B2 (ja) 地名抽出プログラム、地名抽出装置および地名抽出方法
TW201232461A (en) Patent image automatic typesetting method and system
US8923625B2 (en) Original image searching device, original image searching method, and computer readable medium
JP5531493B2 (ja) 文字認識装置、文字認識方法、プログラム及び記録媒体
Reza et al. A high-performance document image layout analysis for invoices
US20240193217A1 (en) Information processing apparatus, method of controlling information processing apparatus, and storage medium
CN114222193B (zh) 一种视频字幕时间对齐模型训练方法及系统
CN104412277A (zh) 比较两个含有图形元素和文本元素的文件的设备和方法
CN116758565B (zh) 一种基于决策树的ocr文本还原方法、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120718