CN102591852A - 专利图像自动排版方法及系统 - Google Patents
专利图像自动排版方法及系统 Download PDFInfo
- Publication number
- CN102591852A CN102591852A CN2011100076223A CN201110007622A CN102591852A CN 102591852 A CN102591852 A CN 102591852A CN 2011100076223 A CN2011100076223 A CN 2011100076223A CN 201110007622 A CN201110007622 A CN 201110007622A CN 102591852 A CN102591852 A CN 102591852A
- Authority
- CN
- China
- Prior art keywords
- image
- images
- annotation
- read
- key word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1448—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Editing Of Facsimile Originals (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种专利图像自动排版方法,该方法包括步骤:读取专利文件的描述文字部分;提取专利图像的文字注释,并记录其中的关键字;读读取所述专利文件的图像部分;识别每个专利图像的图像注释;比较所述图像注释中是否含有所述关键字;当所述图像注释中不含有关键字时,将该专利图像顺时针旋转90度,再输出旋转后的图像。本发明还提供一种专利图像自动排版系统。本发明可以根据文字注释自动对图像进行旋转。
Description
技术领域
本发明涉及一种排版方法及系统,尤其是涉及一种专利图像自动排版方法及系统。
背景技术
通常在撰写专利文件时,会根据专利图像的长宽比例进行排放。如果专利图像宽度比高度大时,可能图像宽度会超过纸张宽度,这时一般会将图像横向排放。这样在阅读专利时,用户需要将图像进行旋转,会造成阅读不方便。另外如果通过图像搜索专利时,由于采用横向排放,很可能找不到相应的专利。
发明内容
鉴于以上内容,有必要提供一种专利图像自动排版方法,可以根据文字注释自动对图像进行旋转。
鉴于以上内容,还有必要提供一种专利图像自动排版系统,可以根据文字注释自动对图像进行旋转。
所述专利图像自动排版方法包括:读取步骤一:读取专利文件的描述文字部分;提取步骤:从所读取的描述文字部分提取专利图像的文字注释,并记录其中的关键字;读取步骤二:读取所述专利文件的图像部分;识别步骤:从所读取的图像部分识别每个专利图像的图像注释;比较步骤:比较识别出的每个专利图像的图像注释与所记录的关键字,判断所述图像注释中是否含有所述关键字;处理步骤:当所述图像注释中不含有所记录的关键字时,将该专利图像顺时针旋转90度,再输出旋转后的图像。
所述专利图像自动排版系统包括:读取模块,用于读取专利文件的描述文字部分;提取模块,用于从所读取的描述文字部分提取专利图像的文字注释,并记录其中的关键字;所述读取模块还用于读取所述专利文件的图像部分;识别模块,用于从所读取的图像部分识别每个专利图像的图像注释;比较模块,用于比较识别出的每个专利图像的图像注释与所记录的关键字,判断所述图像注释中是否含有所述关键字;处理模块,用于当所述图像注释中不含有所记录的关键字时,将该专利图像顺时针旋转90度,再输出旋转后的图像。
相较于现有技术,所述的专利图像自动排版方法及系统,能够通过识别图像部分的注释,与文字部分的注释进行比较,根据文字特征自动对图像进行旋转,以符合用户阅读习惯,并可以提高通过图像搜索专利时的准确度。
附图说明
图1是本发明专利图像自动排版系统较佳实施例的架构图。
图2是本发明专利图像自动排版方法较佳实施例的流程图。
主要元件符号说明
服务器 | 1 |
专利图像自动排版系统 | 10 |
读取模块 | 100 |
提取模块 | 200 |
识别模块 | 300 |
比较模块 | 400 |
处理模块 | 500 |
具体实施方式
如图1所示,是本发明专利图像自动排版系统较佳实施例的架构图。所述专利图像自动排版系统10运行于服务器1中。
所述专利图像自动排版系统10包括读取模块100、提取模块200、识别模块300、比较模块400及处理模块500。
所述读取模块100用于读取专利文件的描述文字部分。
所述提取模块200用于从所读取的描述文字部分提取专利图像的文字注释,并记录其中的关键字。一般情况下,专利图像的文字注释可以通过字符串正则表达式提取。例如美国专利中,专利图像的文字注释一般为类似“FIG.1a shows a side view of a single unitauto rack rail road car;”格式的文字,通常可以设置提取包含“FIG”及数字的一定长度的字符串,来提取该文字注释,并记录关键字为“FIG.1a”或者其简写“FIG”。
所述读取模块100还用于读取所述专利文件的图像部分。
所述识别模块300用于从所读取的图像部分识别每个专利图像的图像注释。所述图像注释一般为专利图像下方的注释文字,如“FIG.1a”。在本实施例中,可以采用OCR(Optical Character Recognition,光学字符识别)技术,识别出所述图像注释。若所述专利图像为横向排放,则不能识别出所述图像注释,识别结果为空。
所述比较模块400用于比较识别出的每个专利图像的图像注释与所记录的关键字,判断所述图像注释中是否含有所述关键字。
所述处理模块500用于当所述图像注释中不含有所记录的关键字,即所述专利图像为横向排放时,将该专利图像顺时针旋转90度,再输出旋转后的图像。
所述处理模块500还用于当所述图像注释中含有所记录的关键字时,直接输出该专利图像。
如图2所示,是本发明专利图像自动排版方法较佳实施例的流程图。
步骤S10,所述读取模块100读取专利文件的描述文字部分。
步骤S12,所述提取模块200从所读取的描述文字部分提取专利图像的文字注释,并记录其中的关键字。一般情况下,专利图像的文字注释可以通过字符串正则表达式提取。例如美国专利中,专利图像的文字注释一般为类似“FIG.1a shows a side view of a singleunit auto rack rail road car;”格式的文字,通常可以设置提取包含“FIG”及数字的一定长度的字符串,来提取该文字注释,并记录关键字为“FIG.1a”或者其简写“FIG”。
步骤S 14,所述读取模块100读取所述专利文件的图像部分。
步骤S 16,所述识别模块300从所读取的图像部分识别每个专利图像的图像注释。所述图像注释一般为专利图像下方的注释文字,如“FIG.1a”。在本实施例中,可以采用OCR(Optical CharacterRecognition,光学字符识别)技术,识别出所述图像注释。若所述专利图像为横向排放,则不能识别出所述图像注释,识别结果为空。
步骤S18,所述比较模块400比较识别出的每个专利图像的图像注释与所记录的关键字,判断所述图像注释中是否含有所述关键字。若所述图像注释中不含有所记录的关键字,即所述专利图像为横向排放,则执行步骤S 20;若所述图像注释中含有所记录的关键字,则执行步骤S 22。
步骤S 20,所述处理模块500将该专利图像顺时针旋转90度,再输出旋转后的图像。
步骤S 22,所述处理模块500直接输出该专利图像。
值得注意的是,本发明专利图像自动排版方法中,步骤S10至步骤S 12与步骤S 14至步骤S 16这两个部分可以交换顺序,而不会影响该方法的结果。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (6)
1.一种专利图像自动排版方法,其特征在于,该方法包括:
读取步骤一:读取专利文件的描述文字部分;
提取步骤:从所读取的描述文字部分提取专利图像的文字注释,并记录其中的关键字;
读取步骤二:读取所述专利文件的图像部分;
识别步骤:从所读取的图像部分识别每个专利图像的图像注释;
比较步骤:比较识别出的每个专利图像的图像注释与所记录的关键字,判断所述图像注释中是否含有所述关键字;
处理步骤:当所述图像注释中不含有所记录的关键字时,将该专利图像顺时针旋转90度,再输出旋转后的图像。
2.如权利要求1所述的专利图像自动排版方法,其特征在于,该方法在所述比较步骤之后还包括步骤:
当所述图像注释中含有所记录的关键字时,直接输出该专利图像。
3.如权利要求1所述的专利图像自动排版方法,其特征在于,在所述识别步骤中,若所述专利图像为横向排放,则不能识别出所述图像注释,识别结果为空。
4.一种专利图像自动排版系统,其特征在于,该系统包括:
读取模块,用于读取专利文件的描述文字部分;
提取模块,用于从所读取的描述文字部分提取专利图像的文字注释,并记录其中的关键字;
所述读取模块还用于读取所述专利文件的图像部分;
识别模块,用于从所读取的图像部分识别每个专利图像的图像注释;
比较模块,用于比较识别出的每个专利图像的图像注释与所记录的关键字,判断所述图像注释中是否含有所述关键字;
处理模块,用于当所述图像注释中不含有所记录的关键字时,将该专利图像顺时针旋转90度,再输出旋转后的图像。
5.如权利要求4所述的专利图像自动排版系统,其特征在于,所述处理模块还用于当所述图像注释中含有所记录的关键字时,直接输出该专利图像。
6.如权利要求4所述的专利图像自动排版系统,其特征在于,所述识别模块在当所述专利图像为横向排放时,不能识别出所述图像注释,识别结果为空。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100076223A CN102591852A (zh) | 2011-01-14 | 2011-01-14 | 专利图像自动排版方法及系统 |
US13/337,119 US8761547B2 (en) | 2011-01-14 | 2011-12-25 | Computing device and method for automatically typesetting patent images |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100076223A CN102591852A (zh) | 2011-01-14 | 2011-01-14 | 专利图像自动排版方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102591852A true CN102591852A (zh) | 2012-07-18 |
Family
ID=46480521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100076223A Pending CN102591852A (zh) | 2011-01-14 | 2011-01-14 | 专利图像自动排版方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8761547B2 (zh) |
CN (1) | CN102591852A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103677504A (zh) * | 2012-09-19 | 2014-03-26 | 鸿富锦精密工业(深圳)有限公司 | 文件阅读器及文件信息显示方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180107707A (ko) * | 2017-03-22 | 2018-10-02 | (주)광개토연구소 | 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 맵핑 처리하는 방법 및 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5889884A (en) * | 1995-05-23 | 1999-03-30 | Minolta Co., Ltd. | Image forming apparatus capable of recognizing top and bottom of document image |
CN1542656A (zh) * | 2003-04-30 | 2004-11-03 | ������������ʽ���� | 信息处理装置、信息处理方法、存储介质及程序 |
US20090317000A1 (en) * | 2008-06-23 | 2009-12-24 | Samsung Electronics Co., Ltd | Method of correcting orientation of an image in automatic printing, and an image forming method and image forming apparatus thereof |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5754840A (en) * | 1996-01-23 | 1998-05-19 | Smartpatents, Inc. | System, method, and computer program product for developing and maintaining documents which includes analyzing a patent application with regards to the specification and claims |
US6038561A (en) * | 1996-10-15 | 2000-03-14 | Manning & Napier Information Services | Management and analysis of document information text |
US20050210009A1 (en) * | 2004-03-18 | 2005-09-22 | Bao Tran | Systems and methods for intellectual property management |
US8036493B1 (en) * | 2006-03-27 | 2011-10-11 | Neustel Michael S | Method for correcting orientation of patent figures |
US8160306B1 (en) * | 2007-06-06 | 2012-04-17 | Neustel Michael S | Patent analyzing system |
-
2011
- 2011-01-14 CN CN2011100076223A patent/CN102591852A/zh active Pending
- 2011-12-25 US US13/337,119 patent/US8761547B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5889884A (en) * | 1995-05-23 | 1999-03-30 | Minolta Co., Ltd. | Image forming apparatus capable of recognizing top and bottom of document image |
CN1542656A (zh) * | 2003-04-30 | 2004-11-03 | ������������ʽ���� | 信息处理装置、信息处理方法、存储介质及程序 |
US20090317000A1 (en) * | 2008-06-23 | 2009-12-24 | Samsung Electronics Co., Ltd | Method of correcting orientation of an image in automatic printing, and an image forming method and image forming apparatus thereof |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103677504A (zh) * | 2012-09-19 | 2014-03-26 | 鸿富锦精密工业(深圳)有限公司 | 文件阅读器及文件信息显示方法 |
Also Published As
Publication number | Publication date |
---|---|
US20120183222A1 (en) | 2012-07-19 |
US8761547B2 (en) | 2014-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20030004991A1 (en) | Correlating handwritten annotations to a document | |
US9081412B2 (en) | System and method for using paper as an interface to computer applications | |
US20120259618A1 (en) | Computing device and method for comparing text data | |
US20150095769A1 (en) | Layout Analysis Method And System | |
US20030187886A1 (en) | Method and apparatus for simultaneous highlighting of a physical version of a document and an electronic version of a document | |
US20060018546A1 (en) | Gesture recognition | |
CN102402576A (zh) | 信息处理设备、信息处理方法及计算机程序产品 | |
US8208726B2 (en) | Method and system for optical character recognition using image clustering | |
CN102194117B (zh) | 文稿页面方向检测方法和装置 | |
JP2014013534A (ja) | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム | |
JP2020042320A (ja) | 画像認識装置、画像認識方法、及び画像認識プログラム | |
CN102591852A (zh) | 专利图像自动排版方法及系统 | |
US20100086210A1 (en) | Digitizing documents | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
Kumar et al. | Line based robust script identification for indianlanguages | |
CN115203474A (zh) | 一种数据库自动分类提取技术 | |
JP6759955B2 (ja) | 地名抽出プログラム、地名抽出装置および地名抽出方法 | |
TW201232461A (en) | Patent image automatic typesetting method and system | |
US8923625B2 (en) | Original image searching device, original image searching method, and computer readable medium | |
JP5531493B2 (ja) | 文字認識装置、文字認識方法、プログラム及び記録媒体 | |
Reza et al. | A high-performance document image layout analysis for invoices | |
US20240193217A1 (en) | Information processing apparatus, method of controlling information processing apparatus, and storage medium | |
CN114222193B (zh) | 一种视频字幕时间对齐模型训练方法及系统 | |
CN104412277A (zh) | 比较两个含有图形元素和文本元素的文件的设备和方法 | |
CN116758565B (zh) | 一种基于决策树的ocr文本还原方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120718 |