CN113269126A - 一种基于坐标转换的关键信息提取方法 - Google Patents
一种基于坐标转换的关键信息提取方法 Download PDFInfo
- Publication number
- CN113269126A CN113269126A CN202110647021.2A CN202110647021A CN113269126A CN 113269126 A CN113269126 A CN 113269126A CN 202110647021 A CN202110647021 A CN 202110647021A CN 113269126 A CN113269126 A CN 113269126A
- Authority
- CN
- China
- Prior art keywords
- field
- key
- information
- character
- anchor point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 17
- 230000009466 transformation Effects 0.000 title claims abstract description 7
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种基于坐标转换的关键信息提取方法包括以下步骤:步骤一、配置提取关键信息的锚点信息;步骤二、对文档做文字检测和识别,获取每个文字块的位置和对应的值;步骤三、匹配关键字段,找到锚点位置;步骤四、以锚点的左上角点作为参考点,切换相对坐标提取,找出匹配的关键字段位置和内容。此种关键信息提取方法,用户操作方便,当需要提取的关键字段有多个时,提取过程快速,且还能大大降低相关软件的开发难度。
Description
技术领域
本发明涉及OCR文字识别技术领域,具体涉及一种基于坐标转换的关键信息提取方法,通过坐标转换来获取关键信息,适用于各种商用文档。
背景技术
目前的OCR技术已经能够顺利的将图像的文字内容识别出来。而用户更多的是需要把结构化信息提取出来,特别是某些重要的字段。
由于文档的类型,排版各不相同,很难通过绝对的位置信息和统一的标准把需要的关键信息提取出来。例如要提取“客户订单号:XXX”这个关键字段,不同的类型的文档,对该字段的排版位置不同,同时对其后续的订单号码“XXX”也不同。有的在其右侧,有的在其下方。
另一方面,用户需求提取的关键字段有多个。提取所需的关键信息,往往需要大量的定制化开发,大大加重了开发的难度。
发明内容
本发明的目的在于提供一种基于坐标转换的关键信息提取方法,以解决上述背景技术问题。
为实现上述目的,本发明提供如下技术方案:一种基于坐标转换的关键信息提取方法包含以下步骤:
步骤一、配置提取关键信息的锚点信息;
1-1、打开需要识别的文档,标注需要识别的锚点字段的位置;
1-2、打开需要识别的文档,标注需要识别的关键字段的位置;
1-3、将相关信息,存储成配置文件;
步骤二、对文档做文字检测和识别,获取每个文字块的位置和对应的值;
2-1、用文字检测模型,检测出每个文字字段的位置信息,以矩形框表示;
2-2、用文字识别模型,识别出每个文字字段的内容信息;
步骤三、匹配关键字段,找到锚点位置;
3-1、读取该文档需要提取的字段的配置文档,该配置文档在第一步中生成;
3-2、遍历第二步识别出的文本字段内容,与配置文件中的锚点字段的内容进行匹配;
3-3、找到匹配项后,记录该字段的文本框位置;
步骤四、以锚点的左上角点作为参考点,切换相对坐标提取,找出匹配的关键字段位置和内容;
4-1、获取配置文件中,锚点的文字字符高度;
4-2、计算配置文件中,关键字段的四个坐标点相对于锚点左上角的相对距离,以h为单位;
4-3、以匹配字段的左上角为参考点,通过相对距离,计算出匹配字段对应的文字区域;
4-4、遍历第二步检测出的文本框,找到与其匹配的文本框,其对应的内容即为关键字段的信息。
与现有技术相比,本发明的有益效果是:此种关键信息提取方法,用户操作方便,当需要提取的关键字段有多个时,提取过程快速,且还能大大降低相关软件的开发难度。
附图说明
图1为实施例中锚点标注和提取区域字段标注图;
图2为实施例中获取锚点位置的过程图;
图3为实施例中获取目标字段值的过程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:参照图1,首先打开一种需要提取字段的文档,在该文档中标注出锚点框和需要提取的目标框。锚点框为不变的自读,具有唯一性。目标框为一个或多个,为单一字段或一个区域。同一文档可以配置多个锚点框和其对应的目标框。最终将标注好的信息,存储成一个json文件,存储其它格式的也可以;
参照图2所示,在OCR文字检测和识别的基础上,获取配置中的锚点框,首先通过对文档进行全文的检测和识别,获取文本的信息(位置和内容)。其次通过读取前面配置好的配置文件,加载锚点内容。最后通过遍历识别出来的结果,找出与锚点内容匹配的文本,该文本的位置(x,y,width,height) 即为找到的锚点框位置,记为(Px,Py);
如图3所示,为获取目标字段的核心流程,首先是加载配置文件,获取锚点框的坐标Anchor_x,Anchor_y(取值为锚点框的左上角)。计算配置文件中,目标框相对于锚点的相对距离d=D/h。其中D为目标矩形框各个点到 (Anchor_x,Anchor_y)的距离。h为锚点框的文字高度。其次基于上一步得到的真实锚点(Px,Py),计算出目标区域位置:Dx=Px+d*h,Dy=Py+d*h。
最后,通过遍历识别出的文本框,找出与计算出的目标区域匹配的文本框,其对应的文本内容即为需要提取的目标字段。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于坐标转换的关键信息提取方法,其特征在于,具体提取方法方法包含以下步骤:
步骤一、配置提取关键信息的锚点信息;
(1-1)、打开需要识别的文档,标注需要识别的锚点字段的位置;
(1-2)、打开需要识别的文档,标注需要识别的关键字段的位置;
(1-3)、将相关信息,存储成配置文件;
步骤二、对文档做文字检测和识别,获取每个文字块的位置和对应的值;
(2-1)、用文字检测模型,检测出每个文字字段的位置信息,以矩形框表示;
(2-2)、用文字识别模型,识别出每个文字字段的内容信息;
步骤三、匹配关键字段,找到锚点位置;
(3-1)、读取该文档需要提取的字段的配置文档,该配置文档在第一步中生成;
(3-2)、遍历第二步识别出的文本字段内容,与配置文件中的锚点字段的内容进行匹配;
(3-3)、找到匹配项后,记录该字段的文本框位置;
步骤四、以锚点的左上角点作为参考点,切换相对坐标提取,找出匹配的关键字段位置和内容;
(4-1)、获取配置文件中,锚点的文字字符高度;
(4-2)、计算配置文件中,关键字段的四个坐标点相对于锚点左上角的相对距离,以h为单位;
(4-3)、以匹配字段的左上角为参考点,通过相对距离,计算出匹配字段对应的文字区域;
(4-4)、遍历第二步检测出的文本框,找到与其匹配的文本框,其对应的内容即为关键字段的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110647021.2A CN113269126A (zh) | 2021-06-10 | 2021-06-10 | 一种基于坐标转换的关键信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110647021.2A CN113269126A (zh) | 2021-06-10 | 2021-06-10 | 一种基于坐标转换的关键信息提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113269126A true CN113269126A (zh) | 2021-08-17 |
Family
ID=77234623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110647021.2A Pending CN113269126A (zh) | 2021-06-10 | 2021-06-10 | 一种基于坐标转换的关键信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269126A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113869313A (zh) * | 2021-10-13 | 2021-12-31 | 广东金赋科技股份有限公司 | 一种图像背景过滤的信息识别方法及系统 |
CN116597446A (zh) * | 2023-07-17 | 2023-08-15 | 亚信科技(南京)有限公司 | 一种基于锚点的文本信息提取方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737224A (zh) * | 2011-04-15 | 2012-10-17 | 株式会社富士通商务系统 | 收据数据识别装置及其方法 |
US9058536B1 (en) * | 2012-09-26 | 2015-06-16 | Amazon Technologies, Inc. | Image-based character recognition |
CN110674396A (zh) * | 2019-08-28 | 2020-01-10 | 北京三快在线科技有限公司 | 文本信息处理方法、装置、电子设备及可读存储介质 |
CN111126125A (zh) * | 2019-10-15 | 2020-05-08 | 平安科技(深圳)有限公司 | 证件中的目标文本提取方法、装置、设备及可读存储介质 |
CN111353492A (zh) * | 2020-03-12 | 2020-06-30 | 上海合合信息科技发展有限公司 | 一种标准化文档的图像识别和信息提取方法及装置 |
CN111476227A (zh) * | 2020-03-17 | 2020-07-31 | 平安科技(深圳)有限公司 | 基于ocr的目标字段识别方法、装置及存储介质 |
CN112381086A (zh) * | 2020-11-06 | 2021-02-19 | 厦门市美亚柏科信息股份有限公司 | 一种结构化输出图像文字识别结果的方法及装置 |
CN112560861A (zh) * | 2020-12-10 | 2021-03-26 | 上海亿保健康管理有限公司 | 票据处理方法、装置、设备及存储介质 |
CN112613506A (zh) * | 2020-12-23 | 2021-04-06 | 金蝶软件(中国)有限公司 | 图像中的文本识别方法、装置、计算机设备和存储介质 |
CN112699234A (zh) * | 2020-12-08 | 2021-04-23 | 上海深杳智能科技有限公司 | 一种通用文档识别方法、系统、终端及存储介质 |
-
2021
- 2021-06-10 CN CN202110647021.2A patent/CN113269126A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737224A (zh) * | 2011-04-15 | 2012-10-17 | 株式会社富士通商务系统 | 收据数据识别装置及其方法 |
US9058536B1 (en) * | 2012-09-26 | 2015-06-16 | Amazon Technologies, Inc. | Image-based character recognition |
CN110674396A (zh) * | 2019-08-28 | 2020-01-10 | 北京三快在线科技有限公司 | 文本信息处理方法、装置、电子设备及可读存储介质 |
CN111126125A (zh) * | 2019-10-15 | 2020-05-08 | 平安科技(深圳)有限公司 | 证件中的目标文本提取方法、装置、设备及可读存储介质 |
CN111353492A (zh) * | 2020-03-12 | 2020-06-30 | 上海合合信息科技发展有限公司 | 一种标准化文档的图像识别和信息提取方法及装置 |
CN111476227A (zh) * | 2020-03-17 | 2020-07-31 | 平安科技(深圳)有限公司 | 基于ocr的目标字段识别方法、装置及存储介质 |
CN112381086A (zh) * | 2020-11-06 | 2021-02-19 | 厦门市美亚柏科信息股份有限公司 | 一种结构化输出图像文字识别结果的方法及装置 |
CN112699234A (zh) * | 2020-12-08 | 2021-04-23 | 上海深杳智能科技有限公司 | 一种通用文档识别方法、系统、终端及存储介质 |
CN112560861A (zh) * | 2020-12-10 | 2021-03-26 | 上海亿保健康管理有限公司 | 票据处理方法、装置、设备及存储介质 |
CN112613506A (zh) * | 2020-12-23 | 2021-04-06 | 金蝶软件(中国)有限公司 | 图像中的文本识别方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
CHENGZHE YAN等: "A New Anchor-Labeling Method For Oriented Text Detection Using Dense Detection Framework", 《IEEE SIGNAL PROCESSING LETTERS》, vol. 25, no. 9, pages 1295 - 1299 * |
宋梦玲等: "基于加权相对距离的自由文本击键特征认证识别方法", 《现代计算机》, pages 7 - 11 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113869313A (zh) * | 2021-10-13 | 2021-12-31 | 广东金赋科技股份有限公司 | 一种图像背景过滤的信息识别方法及系统 |
CN116597446A (zh) * | 2023-07-17 | 2023-08-15 | 亚信科技(南京)有限公司 | 一种基于锚点的文本信息提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476227B (zh) | 基于ocr的目标字段识别方法、装置及存储介质 | |
US8792715B2 (en) | System and method for forms classification by line-art alignment | |
JP6693059B2 (ja) | 商品棚認識装置、商品棚認識方法、プログラム及び画像処理装置 | |
CN110766014A (zh) | 票据信息定位方法、系统及计算机可读存储介质 | |
CN113269126A (zh) | 一种基于坐标转换的关键信息提取方法 | |
JP2004139484A (ja) | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム | |
JP6831951B2 (ja) | 画像認識システム | |
JP6458239B1 (ja) | 画像認識システム | |
CN101763516A (zh) | 一种基于拟合函数的文字识别方法 | |
CN110210470A (zh) | 商品信息图像识别系统 | |
CN101261638B (zh) | 图像搜索的方法及装置 | |
AU2015238872A1 (en) | Method for identifying a sign on a deformed document | |
CN114359553B (zh) | 一种基于物联网的签章定位方法、系统及存储介质 | |
CN111858977B (zh) | 票据信息采集方法、装置、计算机设备和存储介质 | |
CN114529933A (zh) | 一种合同数据差异性的比对方法、装置、设备和介质 | |
Chidiac et al. | A robust algorithm for text extraction from images | |
JP2019185684A (ja) | 陳列状況判定システム | |
JP6885563B2 (ja) | 陳列状況判定システム | |
JP7449505B2 (ja) | 情報処理システム | |
US20020052892A1 (en) | Document format identification apparatus and method | |
CN111079749A (zh) | 一种带姿态校正的端到端商品价签文字识别方法和系统 | |
JPH07168910A (ja) | 文書レイアウト解析装置及び文書フォ−マット識別装置 | |
JP4853313B2 (ja) | 文字認識装置 | |
JP5712415B2 (ja) | 帳票処理システム及び帳票処理方法 | |
CN112287763A (zh) | 图像处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |