CN109460730A - 一种表格换行换页的分析方法及装置 - Google Patents
一种表格换行换页的分析方法及装置 Download PDFInfo
- Publication number
- CN109460730A CN109460730A CN201811304030.6A CN201811304030A CN109460730A CN 109460730 A CN109460730 A CN 109460730A CN 201811304030 A CN201811304030 A CN 201811304030A CN 109460730 A CN109460730 A CN 109460730A
- Authority
- CN
- China
- Prior art keywords
- mark corpus
- skips
- deep learning
- skipping
- situation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种表格换行换页的分析方法,包括:通过专家经验总结规则判断明确的换行换页情况;利用深度学习模型,获取标注语料;根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。实施上述方法的装置,包括:用于通过专家经验总结规则判断明确的换行换页情况的换行换页情况判断模块;标注语料获取模块,用于利用深度学习模型,获取标注语料的标注语料获取模块;用于根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并的单元格合并判断模块。本发明利用深度学习模型以挖掘表格中蕴含的语义信息,换行换页场景中,能够精确分析相邻两个单元格是否能够合并的情况。
Description
技术领域
本发明涉及一种识别方法,尤其是一种表格换行换页的分析方法及装置。
背景技术
近年来,深度学习技术在自然语言处理、图形图像、自动驾驶等多个领域得到大量应用,且表现效果要明显优于传统方法。
在自然语言处理领域,深度学习技术通过在高维空间中编码文本文字,能够捕获深层次的语法和语义信息,从而为进一步从语义出发实现自然语言处理领域的高级应用提供了技术基础。
在文本信息处理中,存在大量不同样式的表格。当前技术对于表格信息的提取仍存在许多问题。如当出现换页换行的时候,单纯通过分隔线或简单的规则难以判断出换行或非换行的情况。对于无表格线的情况,计算机难以对相邻两行是否输出同一单元格做出准确判断。
发明内容
针对上述问题中存在的不足之处,本发明提供一种在换行换页场景中,能够精确分析相邻两个单元格是否能够合并的
为实现上述目的,本发明提供一种表格换行换页的分析方法,包括以下步骤:
步骤1、通过专家经验总结规则判断明确的换行换页情况;
步骤2、利用深度学习模型,获取标注语料;
步骤3、根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。
上述的一种表格换行换页的分析方法,其中,在步骤1中,通过两段文本上面包含的左括号与下面包含的右括号、以及上下两段文本所组合成的整个日期判断明确的换行换页情况。
上述的一种表格换行换页的分析方法,其中,在步骤2中,获取的标注语料包括相邻两行内容的语义信息、以及表格中相关联的单元格信息。
上述的一种表格换行换页的分析方法,其中,还包括步骤4、对合并后的单元格信息进行校验,以提高判断的准确度。
本发明还提供一种表格换行换页的分析装置,包括:换行换页情况判断模块、标注语料获取模块与单元格合并判断模块;
所述换行换页情况判断模块,用于通过专家经验总结规则判断明确的换行换页情况;
所述标注语料获取模块,用于利用深度学习模型,获取标注语料;
所述单元格合并判断模块,用于根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。
上述的装置,其中,所述换行换页情况判断模块通过两段文本上面包含的左括号与下面包含的右括号、以及上下两段文本所组合成的整个日期判断明确的换行换页情况。
上述的装置,其中,所述标注语料获取模块所获取的标注语料包括相邻两行内容的语义信息、以及表格中相关联的单元格信息。
上述的装置,其中,还包括校验模块,用于对合并后的单元格信息进行校验,以提高判断的准确度。
与现有技术相比,本发明具有以下优点:
本发明利用深度学习模型以挖掘表格中蕴含的语义信息,换行换页场景中,能够精确分析相邻两个单元格是否能够合并的情况。
附图说明
图1为本发明中方法部分的流程图;
图2为本发明中装置部分的结构框图。
主要附图标记说明如下:
1-换行换页情况判断模块;2-标注语料获取模块;3-单元格合并判断模块;4-校验模块
具体实施方式
如图1所示,本发明提供一种表格换行换页的分析方法,包括以下步骤:
步骤1、通过专家经验总结规则判断明确的换行换页情况。
在步骤1中,通过两段文本上面包含的左括号与下面包含的右括号、以及上下两段文本所组合成的整个日期判断明确的换行换页情况。
步骤2、利用深度学习模型,获取标注语料。
在步骤2中,获取的标注语料包括相邻两行内容的语义信息、以及表格中相关联的单元格信息。
步骤3、根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。
步骤4、对合并后的单元格信息进行校验,以提高判断的准确度。
如图2所示,本发明提供一种表格换行换页的分析装置,包括:换行换页情况判断模块1、标注语料获取模块2、单元格合并判断模块3与校验模块4。
换行换页情况判断模块1用于通过专家经验总结规则判断明确的换行换页情况。
换行换页情况判断模块通过两段文本上面包含的左括号与下面包含的右括号、以及上下两段文本所组合成的整个日期判断明确的换行换页情况。
标注语料获取模块2用于利用深度学习模型,获取标注语料。
标注语料获取模块所获取的标注语料包括相邻两行内容的语义信息、以及表格中相关联的单元格信息。
单元格合并判断模块3用于根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。
校验模块4用于对合并后的单元格信息进行校验,以提高判断的准确度。
以上仅为本发明的较佳实施例,对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
Claims (8)
1.一种表格换行换页的分析方法,包括以下步骤:
步骤1、通过专家经验总结规则判断明确的换行换页情况;
步骤2、利用深度学习模型,获取标注语料;
步骤3、根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。
2.根据权利要求1所述的一种表格换行换页的分析方法,其特征在于,在步骤1中,通过两段文本上面包含的左括号与下面包含的右括号、以及上下两段文本所组合成的整个日期判断明确的换行换页情况。
3.根据权利要求1所述的一种表格换行换页的分析方法,其特征在于,在步骤2中,获取的标注语料包括相邻两行内容的语义信息、以及表格中相关联的单元格信息。
4.根据权利要求1至3中任一所述的一种表格换行换页的分析方法,其特征在于,还包括步骤4、对合并后的单元格信息进行校验,以提高判断的准确度。
5.一种实施权利要求1中所述的一种表格换行换页的分析方法的装置,其特征在于,包括:换行换页情况判断模块、标注语料获取模块与单元格合并判断模块;
所述换行换页情况判断模块,用于通过专家经验总结规则判断明确的换行换页情况;
所述标注语料获取模块,用于利用深度学习模型,获取标注语料;
所述单元格合并判断模块,用于根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。
6.根据权利要求5所述的装置,其特征在于,所述换行换页情况判断模块通过两段文本上面包含的左括号与下面包含的右括号、以及上下两段文本所组合成的整个日期判断明确的换行换页情况。
7.根据权利要求5所述的装置,其特征在于,所述标注语料获取模块所获取的标注语料包括相邻两行内容的语义信息、以及表格中相关联的单元格信息。
8.根据权利要求5至7所示的所述的装置,其特征在于,还包括校验模块,用于对合并后的单元格信息进行校验,以提高判断的准确度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811304030.6A CN109460730B (zh) | 2018-11-03 | 2018-11-03 | 一种表格换行换页的分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811304030.6A CN109460730B (zh) | 2018-11-03 | 2018-11-03 | 一种表格换行换页的分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109460730A true CN109460730A (zh) | 2019-03-12 |
CN109460730B CN109460730B (zh) | 2022-06-17 |
Family
ID=65609339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811304030.6A Active CN109460730B (zh) | 2018-11-03 | 2018-11-03 | 一种表格换行换页的分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109460730B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632927A (zh) * | 2020-12-30 | 2021-04-09 | 上海犀语科技有限公司 | 一种基于语义处理的表格片段链接复原方法及系统 |
CN113673236A (zh) * | 2021-07-15 | 2021-11-19 | 北京三快在线科技有限公司 | 模型训练、表格识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556606A (zh) * | 2009-05-20 | 2009-10-14 | 同方知网(北京)技术有限公司 | 一种基于Web数值表格抽取的数据挖掘方法 |
CN102782702A (zh) * | 2010-03-10 | 2012-11-14 | 微软公司 | 在光学字符识别(ocr)过程中的段落识别 |
CN103927302A (zh) * | 2013-01-10 | 2014-07-16 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和系统 |
US20140307959A1 (en) * | 2003-03-28 | 2014-10-16 | Abbyy Development Llc | Method and system of pre-analysis and automated classification of documents |
CN106339455A (zh) * | 2016-08-26 | 2017-01-18 | 电子科技大学 | 基于文本标签特征挖掘的网页正文提取方法 |
CN106407883A (zh) * | 2016-08-10 | 2017-02-15 | 北京工业大学 | 一种复杂表格及其内部手写数字识别方法 |
-
2018
- 2018-11-03 CN CN201811304030.6A patent/CN109460730B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140307959A1 (en) * | 2003-03-28 | 2014-10-16 | Abbyy Development Llc | Method and system of pre-analysis and automated classification of documents |
CN101556606A (zh) * | 2009-05-20 | 2009-10-14 | 同方知网(北京)技术有限公司 | 一种基于Web数值表格抽取的数据挖掘方法 |
CN102782702A (zh) * | 2010-03-10 | 2012-11-14 | 微软公司 | 在光学字符识别(ocr)过程中的段落识别 |
CN103927302A (zh) * | 2013-01-10 | 2014-07-16 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和系统 |
CN106407883A (zh) * | 2016-08-10 | 2017-02-15 | 北京工业大学 | 一种复杂表格及其内部手写数字识别方法 |
CN106339455A (zh) * | 2016-08-26 | 2017-01-18 | 电子科技大学 | 基于文本标签特征挖掘的网页正文提取方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632927A (zh) * | 2020-12-30 | 2021-04-09 | 上海犀语科技有限公司 | 一种基于语义处理的表格片段链接复原方法及系统 |
CN113673236A (zh) * | 2021-07-15 | 2021-11-19 | 北京三快在线科技有限公司 | 模型训练、表格识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109460730B (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961008B (zh) | 基于文字定位识别的表格解析方法、介质及计算机设备 | |
CN111582241B (zh) | 视频字幕识别方法、装置、设备及存储介质 | |
CN102663023B (zh) | 一种提取网页内容的实现方法 | |
CN109241894A (zh) | 一种基于表格定位和深度学习的针对性票据内容识别系统和方法 | |
CN108573411A (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
US10049096B2 (en) | System and method of template creation for a data extraction tool | |
CN111709244B (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
CN105022803B (zh) | 一种提取网页正文内容的方法及系统 | |
CN105468468B (zh) | 面向问答系统的数据纠错方法及装置 | |
CN104268134B (zh) | 一种主客观分类器构建方法和系统 | |
CN106055673A (zh) | 一种基于文本特征嵌入的中文短文本情感分类方法 | |
CN110390324A (zh) | 一种融合视觉与文本特征的简历版面分析算法 | |
CN109460730A (zh) | 一种表格换行换页的分析方法及装置 | |
CN105022806B (zh) | 基于翻译模板的互联网网页建构移动页面的方法与系统 | |
CN104915420B (zh) | 知识库数据处理方法及系统 | |
CN107896335A (zh) | 基于大数据技术的视频检测和评级方法 | |
CN107273883A (zh) | 决策树模型训练方法、确定ocr结果中数据属性方法及装置 | |
CN105183742A (zh) | 一种简历识别方法 | |
CN102073678B (zh) | 一种网站信息分析系统及其方法 | |
CN103942211A (zh) | 一种正文页的识别方法及装置 | |
CN107451433B (zh) | 一种基于文本内容的信息源识别方法与装置 | |
CN106372053A (zh) | 句法分析的方法和装置 | |
CN106446139A (zh) | 一种提取网页内容的方法及装置 | |
CN117891940B (zh) | 多模态讽刺检测方法、装置、计算机设备以及存储介质 | |
Wu et al. | RaP: Redundancy-aware video-language pre-training for text-video retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |