CN113723252A - 一种表格型文本图片的识别方法和系统 - Google Patents
一种表格型文本图片的识别方法和系统 Download PDFInfo
- Publication number
- CN113723252A CN113723252A CN202110969330.1A CN202110969330A CN113723252A CN 113723252 A CN113723252 A CN 113723252A CN 202110969330 A CN202110969330 A CN 202110969330A CN 113723252 A CN113723252 A CN 113723252A
- Authority
- CN
- China
- Prior art keywords
- text
- picture
- tabular
- image
- polygon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000001514 detection method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种表格型文本图片的识别方法,首先将表格型文本图片进行灰度化处理得到灰度图,对灰度图运用自动阈值的二值化处理,然后使用霍夫变换提取表格横竖线结构,得到横竖线坐标及单元格;然后对表格型文本图片中的文本内容进行检测并得到具有标签的文本图像,所述标签具有坐标;对文本图像进行字符识别;再将步骤S1的单元格与步骤S2的标签进行自动坐标匹配,并将步骤S2的字符识别结果输出到相应单元格内。该方法用于实现金融资讯扫描文件等内容的识别,能够准备识别表格和其中的文本内容。
Description
技术领域
本发明属于自然语言处理、模式识别、图像处理技术结合领域,涉及一种适合识别金融资讯扫描文件等的表格型文本图片内容的识别方法与系统。
背景技术
随着计算机视觉的飞速发展,作为计算机视觉的经典问题之一的光学字符识别(optical character recognition,OCR)技术迅速突破了传统技术框架的瓶颈,在自然场景文本识别、车牌识别、证件票据识别等诸多领域得到了广泛的应用。传统的光学字符识别技术是一个经典的模式识别问题,包括对图片的预处理、特征提取、利用分类器分类等几个步骤,已经形成了较为完善的技术体系。但随着深度学习的发展,传统光学字符识别框架被打破,基于深度学习的光学字符识别作为新的研究热点展现出更多的活力和更广阔的应用场景。因此,光学字符识别技术目前正面临着巨大的机遇和挑战。现有的文件内容识别方法大多采用传统的扫描匹配算法,缺乏对文件内表格、段落等复杂结构的特殊处理、对检测识别产生的错误内容的二次校准等技术。
发明内容
本发明的目的是提供一种表格型文本图片的识别方法,用于实现金融资讯扫描文件等内容的识别,能够准备识别表格和其中的文本内容,并可以识别版式和页眉页脚,识别精准度高。
为实现上述目的,本发明采取以下技术方案:
一种表格型文本图片的识别方法,包括如下步骤:
S1:将表格型文本图片进行灰度化处理得到灰度图,对灰度图运用自动阈值的二值化处理,然后使用霍夫变换提取表格横竖线结构,得到横竖线坐标及单元格;
S2:对表格型文本图片中的文本内容进行检测并得到具有标签的文本图像,所述标签具有坐标;对文本图像进行字符识别;
S3:将S1的单元格与S2的标签进行自动坐标匹配,并将S2的字符识别结果输出到相应单元格内。
进一步的,还包括如下步骤:
S4:在S2中对文本图像进行字符识别后,利用基于交并比的文本序列相似度的计算函数对相邻两页的表格型文本图片以行为单位计算相似度,遍历所有表格型文本图片得到全局文本相似度;
S5:根据全局文本相似度对所有表格型文本图片进行全局搜索,进而提取出页眉和页脚。
更进一步的,还包括如下步骤:
S6:对步骤S2的文本图像的标签进行全局遍历来确定横坐标的取值范围;
S7:利用自适应阈值来对正文文本内容进行分段,若当前行的两端点横坐标均大于阈值坐标,则该行为标题;若当前行只有一个端点的横坐标大于阈值坐标,则被确定为新的段落,据此进行排版输出。
优选的,所述步骤S2具体通过如下步骤实现:
S21:将所述表格型文本图片输入到特征金字塔网络中,特征金字塔网络按相同比例采样并级联生成特征F;
S22:将所述特征F用于预测概率图P和阈值图T;
其中,P∈RH*W是由分割网络生成的概率图,H代表图片高度,W代表图片宽度,T为网络学习到的自适应阈值图;K表示放大因子,(i,j)表示图中的坐标点;
S24:采用可变形卷积为模型提供灵活的感受野,来助力极端长宽比的文本实例;
S25:为文本图像生成标签:用一组线段描述文本图像区域的每个多边形G:
其中,Sk为一组线段,n是顶点的个数,
然后通过使用Vatti裁剪算法将多边形G缩小为第一多边形Gs来生成正区域,其中缩小的偏移量D是根据原始多边形的周长L和面积A计算得出:
S26:为阈值图T生成标签:以相同的偏移量D到第二多边形Gd扩展所述多边形G,然后通过计算到所述多边形G中最接近的线段的距离来生成阈值图T的标签;
S27:利用CNN提取输入文本图像的卷积特征图,利用深层双向LSTM网络在卷积特征的基础上继续提取文字序列特征,再将输出做softmax后得到字符输出。
优选的,所述步骤S3中,在将S1的单元格与S2的标签进行自动坐标匹配,并将S2的字符识别结果输出到相应单元格内之后,利用重识别技术对检测识别产生的错误内容的二次校准,所述重识别技术为将识别为空的单元格裁剪出来再进行识别。
同时,本发明还提供一种表格型文本图片的识别系统,所述识别系统能够执行上述的表格型文本图片的识别方法。
上述技术方案中,通过识别表格中的横竖线及横竖线的坐标实现了对单元格的识别,并为文本内容添加了具有坐标的标签,通过自动坐标匹配实现了对单元格内文本内容的复原,同时也给出了页眉和页脚以及版式的识别方法。本发明可被应用于大量表格型文本图片如金融资讯扫描文件等的识别场景,在节省人力的同时提高了识别精度。
具体实施方式
下面对本发明做进一步说明:
本发明识别的对象为表格型的文本图片,如果开始扫描得到pdf类型的文件,首先要转换为图片。
S1:针对结构化数据恢复的表格识别技术,具体步骤为:
对表格型文本图片中的文本图像进行灰度化处理,在灰度图的基础上运用自动阈值的二值化处理,然后使用霍夫变换来提取表格的横竖线结构,并确定横竖线的坐标,由此划分出各个单元格。
S2:文本检测及识别,具体步骤为:
将需要检测的表格型文本图片的文本图像输入到特征金字塔网络中,特征金字塔网络包含卷子算子和两个反卷积算子;利用特征金字塔网络按相同比例采样并级联以生成特征F。
将特征F用于预测概率图P和阈值图T。
采用可变形卷积为模型提供灵活的感受野,来助力极端长宽比的文本实例;
为文本图像生成标签:用一组线段描述文本图像区域的每个多边形:
其中,Sk为一组分段,G为文本区域的每个多边形,n是顶点的个数,在不同的数据集中可能不同。
然后通过使用Vatti裁剪算法将多边形G缩小为Gs来生成正区域,其中缩小的偏移量D是根据原始多边形的周长L和面积A计算得出:
其中,D为缩小的偏移量,L为周长,A为面积,r为收缩比,根据经验值设为0.4。
为阈值图T生成标签:以相同的偏移量D扩展文本多边形G到一个新的多边形,记为Gd,然后通过计算到G中最接近的线段的距离来生成阈值图的标签。
然后再进行文本识别,具体步骤为:
利用CNN提取输入图像的卷积特征图,利用深层双向LSTM网络在卷积特征的基础上继续提取文字序列特征,再将输出做softmax后得到字符输出。
然后利用Connectionist Temporal Classification(CTC),通过梯度来调整LSTM的参数,让训练样本无需对齐,通过递推,快速计算梯度,解决训练时字符无法对齐的问题。
S3:将S2中得到的文本标签和S1中得到的表格的单元格进行自动坐标匹配,从而恢复出表格的结构化文本内容。进一步的,利用重识别技术对检测识别产生的错误内容的二次校准,提高表格数据的识别精确度和准确度。
然后,进行页眉页脚的识别,包括:
S4:基于全局文本相似度搜索的页眉页脚处理方案:
设计了基于交并比的文本序列相似度的计算函数,对相邻两页的文本文件以行为单位计算相似度,遍历整个文本后就得到全局文本的相似度。
S5:根据全局文本的相似度对待识别的所有表格型文本图片进行全局搜索,进而提取出整个文本的页眉和页脚。
进一步,进行排版版式识别:
S6:自适应的正文排版分段:对文本图像的检测框进行全局遍历来确定横坐标的取值范围;
S7:利用自适应的阈值来对正文文本内容进行分段,若当前行的两端点横坐标均大于阈值坐标,则被确定为标题部分,若当前行只有一个顶点的横坐标大于阈值坐标,则被确定为新的段落,并据此进行排版输出。
本发明还提供一种实现上述方法的系统,如按照上述程序并具有相应硬件的计算机系统。
本实施例只是对发明构思和实现的说明,并非对其进行限制,在本发明构思下,未经实质变换的技术方案仍然在保护范围内。
Claims (6)
1.一种表格型文本图片的识别方法,其特征在于包括如下步骤:
S1:将表格型文本图片进行灰度化处理得到灰度图,对灰度图运用自动阈值的二值化处理,然后使用霍夫变换提取表格横竖线结构,得到横竖线坐标及单元格;
S2:对表格型文本图片中的文本内容进行检测并得到具有标签的文本图像,所述标签具有坐标;对文本图像进行字符识别;
S3:将步骤S1的单元格与步骤S2的标签进行自动坐标匹配,并将步骤S2的字符识别结果输出到相应单元格内。
2.如权利要求1所述的表格型文本图片的识别方法,其特征在于还包括如下步骤:
S4:在步骤S2中对文本图像进行字符识别后,利用基于交并比的文本序列相似度的计算函数对相邻两页的表格型文本图片以行为单位计算相似度,遍历所有表格型文本图片得到全局文本相似度;
S5:根据全局文本相似度对所有表格型文本图片进行全局搜索,进而提取出页眉和页脚。
3.如权利要求2所述的表格型文本图片的识别方法,其特征在于还包括如下步骤:
S6:对步骤S2的文本图像的标签进行全局遍历来确定横坐标的取值范围;
S7:利用自适应阈值来对正文文本内容进行分段,若当前行的两端点横坐标均大于阈值坐标,则该行为标题;若当前行只有一个端点的横坐标大于阈值坐标,则被确定为新的段落,据此进行排版输出。
4.如权利要求1所述的表格型文本图片的识别方法,其特征在于,所述步骤S2具体通过如下步骤实现:
S21:将所述表格型文本图片输入到特征金字塔网络中,特征金字塔网络按相同比例采样并级联生成特征F;
S22:将所述特征F用于预测概率图P和阈值图T;
其中,P∈RH*W是由分割网络生成的概率图,H代表图片高度,W代表图片宽度,T为网络学习到的自适应阈值图;K表示放大因子,(i,j)表示图中的坐标点;
S24:采用可变形卷积为模型提供灵活的感受野,来助力极端长宽比的文本实例;
S25:为文本图像生成标签:用一组线段描述文本图像区域的每个多边形G:
其中,Sk为一组线段,n是顶点的个数,
然后通过使用Vatti裁剪算法将多边形G缩小为第一多边形Gs来生成正区域,其中缩小的偏移量D是根据原始多边形的周长L和面积A计算得出:
S26:为阈值图T生成标签:以相同的偏移量D到第二多边形Gd扩展所述多边形G,然后通过计算到所述多边形G中最接近的线段的距离来生成阈值图T的标签;
S27:利用CNN提取输入文本图像的卷积特征图,利用深层双向LSTM网络在卷积特征的基础上继续提取文字序列特征,再将输出做softmax后得到字符输出。
5.如权利要求1所述的表格型文本图片的识别方法,其特征在于:
所述步骤S3中,在将步骤S1的单元格与步骤S2的标签进行自动坐标匹配,并将步骤S2的字符识别结果输出到相应单元格内之后,利用重识别技术对检测识别产生的错误内容二次校准,所述重识别技术为将识别为空的单元格裁剪出来再进行识别。
6.一种表格型文本图片的识别系统,其特征在于所述识别系统能够执行如权利要求1至5任一项所述的表格型文本图片的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110969330.1A CN113723252A (zh) | 2021-08-23 | 2021-08-23 | 一种表格型文本图片的识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110969330.1A CN113723252A (zh) | 2021-08-23 | 2021-08-23 | 一种表格型文本图片的识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113723252A true CN113723252A (zh) | 2021-11-30 |
Family
ID=78677404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110969330.1A Pending CN113723252A (zh) | 2021-08-23 | 2021-08-23 | 一种表格型文本图片的识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723252A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989822A (zh) * | 2021-12-24 | 2022-01-28 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
CN115690823A (zh) * | 2022-11-01 | 2023-02-03 | 南京云阶电力科技有限公司 | 电气图纸中带有毛刺特征的表格信息提取方法及装置 |
CN115690806A (zh) * | 2022-10-11 | 2023-02-03 | 杭州瑞成信息技术股份有限公司 | 一种基于图像数据处理的非结构化文档格式识别方法 |
TWI806392B (zh) * | 2022-01-27 | 2023-06-21 | 國立高雄師範大學 | 表格文本的表格辨識方法 |
CN118038478A (zh) * | 2024-04-12 | 2024-05-14 | 江西微博科技有限公司 | 表格智能识别、智能合并、智能提交的方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491789A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表的汉字识别方法及装置 |
CN110378310A (zh) * | 2019-07-25 | 2019-10-25 | 南京红松信息技术有限公司 | 一种基于答案库的手写样本集的自动生成方法 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及系统 |
CN111814598A (zh) * | 2020-06-22 | 2020-10-23 | 吉林省通联信用服务有限公司 | 一种基于深度学习框架的财务报表自动识别方法 |
CN111898402A (zh) * | 2020-06-01 | 2020-11-06 | 王昌龙 | 一种智能排版系统 |
CN112364834A (zh) * | 2020-12-07 | 2021-02-12 | 上海叠念信息科技有限公司 | 一种基于深度学习和图像处理的表格识别的还原方法 |
CN112818949A (zh) * | 2021-03-09 | 2021-05-18 | 浙江天派科技有限公司 | 一种产证文字的识别方法及系统 |
-
2021
- 2021-08-23 CN CN202110969330.1A patent/CN113723252A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491789A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表的汉字识别方法及装置 |
CN110378310A (zh) * | 2019-07-25 | 2019-10-25 | 南京红松信息技术有限公司 | 一种基于答案库的手写样本集的自动生成方法 |
CN110929580A (zh) * | 2019-10-25 | 2020-03-27 | 北京译图智讯科技有限公司 | 一种基于ocr的财务报表信息快速提取方法及系统 |
CN111898402A (zh) * | 2020-06-01 | 2020-11-06 | 王昌龙 | 一种智能排版系统 |
CN111814598A (zh) * | 2020-06-22 | 2020-10-23 | 吉林省通联信用服务有限公司 | 一种基于深度学习框架的财务报表自动识别方法 |
CN112364834A (zh) * | 2020-12-07 | 2021-02-12 | 上海叠念信息科技有限公司 | 一种基于深度学习和图像处理的表格识别的还原方法 |
CN112818949A (zh) * | 2021-03-09 | 2021-05-18 | 浙江天派科技有限公司 | 一种产证文字的识别方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989822A (zh) * | 2021-12-24 | 2022-01-28 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
CN113989822B (zh) * | 2021-12-24 | 2022-03-08 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
TWI806392B (zh) * | 2022-01-27 | 2023-06-21 | 國立高雄師範大學 | 表格文本的表格辨識方法 |
CN115690806A (zh) * | 2022-10-11 | 2023-02-03 | 杭州瑞成信息技术股份有限公司 | 一种基于图像数据处理的非结构化文档格式识别方法 |
CN115690823A (zh) * | 2022-11-01 | 2023-02-03 | 南京云阶电力科技有限公司 | 电气图纸中带有毛刺特征的表格信息提取方法及装置 |
CN115690823B (zh) * | 2022-11-01 | 2023-11-10 | 南京云阶电力科技有限公司 | 电气图纸中带有毛刺特征的表格信息提取方法及装置 |
CN118038478A (zh) * | 2024-04-12 | 2024-05-14 | 江西微博科技有限公司 | 表格智能识别、智能合并、智能提交的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113723252A (zh) | 一种表格型文本图片的识别方法和系统 | |
CN113158808B (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
CN112307919B (zh) | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 | |
CN112580507B (zh) | 一种基于图像矩矫正的深度学习文本字符检测方法 | |
CN113705576B (zh) | 一种文本识别方法、装置、可读存储介质及设备 | |
CN112861865B (zh) | 一种基于ocr技术的辅助审计方法 | |
CN113971792A (zh) | 交通标志牌的字符识别方法、装置、设备和存储介质 | |
CN113139535A (zh) | 一种ocr文档识别方法 | |
CN113688821A (zh) | 一种基于深度学习的ocr文字识别方法 | |
CN114187595A (zh) | 基于视觉特征和语义特征融合的文档布局识别方法及系统 | |
Al-Sheikh et al. | A review of arabic text recognition dataset | |
CN114330247A (zh) | 一种基于图像识别的自动化保险条款解析方法 | |
CN114724133A (zh) | 文字检测和模型训练方法、装置、设备及存储介质 | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
CN114005127A (zh) | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
Ying et al. | License plate detection and localization in complex scenes based on deep learning | |
Sas et al. | Three-stage method of text region extraction from diagram raster images | |
Al Hamad et al. | Improved linear density technique for segmentation in Arabic handwritten text recognition | |
CN115588202B (zh) | 一种基于轮廓检测的电气设计图纸中文字提取方法及系统 | |
CN113468977A (zh) | 文本行语种识别方法、装置、电子设备 | |
CN111553336B (zh) | 基于连体段的印刷体维吾尔文文档图像识别系统及方法 | |
Mosannafat et al. | Farsi text detection and localization in videos and images | |
Tofiq et al. | Kurdish Text Segmentation using projection-based approaches | |
CN115497115B (zh) | 基于深度学习的页眉页脚检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |