CN109460730A - 一种表格换行换页的分析方法及装置 - Google Patents

一种表格换行换页的分析方法及装置 Download PDF

Info

Publication number
CN109460730A
CN109460730A CN201811304030.6A CN201811304030A CN109460730A CN 109460730 A CN109460730 A CN 109460730A CN 201811304030 A CN201811304030 A CN 201811304030A CN 109460730 A CN109460730 A CN 109460730A
Authority
CN
China
Prior art keywords
mark corpus
skips
deep learning
skipping
situation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811304030.6A
Other languages
English (en)
Other versions
CN109460730B (zh
Inventor
李鹏辉
竺晨曦
邱锡鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Alphainsight Technology Co ltd
Original Assignee
Shanghai Alphainsight Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Alphainsight Technology Co ltd filed Critical Shanghai Alphainsight Technology Co ltd
Priority to CN201811304030.6A priority Critical patent/CN109460730B/zh
Publication of CN109460730A publication Critical patent/CN109460730A/zh
Application granted granted Critical
Publication of CN109460730B publication Critical patent/CN109460730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种表格换行换页的分析方法,包括:通过专家经验总结规则判断明确的换行换页情况;利用深度学习模型,获取标注语料;根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。实施上述方法的装置,包括:用于通过专家经验总结规则判断明确的换行换页情况的换行换页情况判断模块;标注语料获取模块,用于利用深度学习模型,获取标注语料的标注语料获取模块;用于根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并的单元格合并判断模块。本发明利用深度学习模型以挖掘表格中蕴含的语义信息,换行换页场景中,能够精确分析相邻两个单元格是否能够合并的情况。

Description

一种表格换行换页的分析方法及装置
技术领域
本发明涉及一种识别方法,尤其是一种表格换行换页的分析方法及装置。
背景技术
近年来,深度学习技术在自然语言处理、图形图像、自动驾驶等多个领域得到大量应用,且表现效果要明显优于传统方法。
在自然语言处理领域,深度学习技术通过在高维空间中编码文本文字,能够捕获深层次的语法和语义信息,从而为进一步从语义出发实现自然语言处理领域的高级应用提供了技术基础。
在文本信息处理中,存在大量不同样式的表格。当前技术对于表格信息的提取仍存在许多问题。如当出现换页换行的时候,单纯通过分隔线或简单的规则难以判断出换行或非换行的情况。对于无表格线的情况,计算机难以对相邻两行是否输出同一单元格做出准确判断。
发明内容
针对上述问题中存在的不足之处,本发明提供一种在换行换页场景中,能够精确分析相邻两个单元格是否能够合并的
为实现上述目的,本发明提供一种表格换行换页的分析方法,包括以下步骤:
步骤1、通过专家经验总结规则判断明确的换行换页情况;
步骤2、利用深度学习模型,获取标注语料;
步骤3、根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。
上述的一种表格换行换页的分析方法,其中,在步骤1中,通过两段文本上面包含的左括号与下面包含的右括号、以及上下两段文本所组合成的整个日期判断明确的换行换页情况。
上述的一种表格换行换页的分析方法,其中,在步骤2中,获取的标注语料包括相邻两行内容的语义信息、以及表格中相关联的单元格信息。
上述的一种表格换行换页的分析方法,其中,还包括步骤4、对合并后的单元格信息进行校验,以提高判断的准确度。
本发明还提供一种表格换行换页的分析装置,包括:换行换页情况判断模块、标注语料获取模块与单元格合并判断模块;
所述换行换页情况判断模块,用于通过专家经验总结规则判断明确的换行换页情况;
所述标注语料获取模块,用于利用深度学习模型,获取标注语料;
所述单元格合并判断模块,用于根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。
上述的装置,其中,所述换行换页情况判断模块通过两段文本上面包含的左括号与下面包含的右括号、以及上下两段文本所组合成的整个日期判断明确的换行换页情况。
上述的装置,其中,所述标注语料获取模块所获取的标注语料包括相邻两行内容的语义信息、以及表格中相关联的单元格信息。
上述的装置,其中,还包括校验模块,用于对合并后的单元格信息进行校验,以提高判断的准确度。
与现有技术相比,本发明具有以下优点:
本发明利用深度学习模型以挖掘表格中蕴含的语义信息,换行换页场景中,能够精确分析相邻两个单元格是否能够合并的情况。
附图说明
图1为本发明中方法部分的流程图;
图2为本发明中装置部分的结构框图。
主要附图标记说明如下:
1-换行换页情况判断模块;2-标注语料获取模块;3-单元格合并判断模块;4-校验模块
具体实施方式
如图1所示,本发明提供一种表格换行换页的分析方法,包括以下步骤:
步骤1、通过专家经验总结规则判断明确的换行换页情况。
在步骤1中,通过两段文本上面包含的左括号与下面包含的右括号、以及上下两段文本所组合成的整个日期判断明确的换行换页情况。
步骤2、利用深度学习模型,获取标注语料。
在步骤2中,获取的标注语料包括相邻两行内容的语义信息、以及表格中相关联的单元格信息。
步骤3、根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。
步骤4、对合并后的单元格信息进行校验,以提高判断的准确度。
如图2所示,本发明提供一种表格换行换页的分析装置,包括:换行换页情况判断模块1、标注语料获取模块2、单元格合并判断模块3与校验模块4。
换行换页情况判断模块1用于通过专家经验总结规则判断明确的换行换页情况。
换行换页情况判断模块通过两段文本上面包含的左括号与下面包含的右括号、以及上下两段文本所组合成的整个日期判断明确的换行换页情况。
标注语料获取模块2用于利用深度学习模型,获取标注语料。
标注语料获取模块所获取的标注语料包括相邻两行内容的语义信息、以及表格中相关联的单元格信息。
单元格合并判断模块3用于根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。
校验模块4用于对合并后的单元格信息进行校验,以提高判断的准确度。
以上仅为本发明的较佳实施例,对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (8)

1.一种表格换行换页的分析方法,包括以下步骤:
步骤1、通过专家经验总结规则判断明确的换行换页情况;
步骤2、利用深度学习模型,获取标注语料;
步骤3、根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。
2.根据权利要求1所述的一种表格换行换页的分析方法,其特征在于,在步骤1中,通过两段文本上面包含的左括号与下面包含的右括号、以及上下两段文本所组合成的整个日期判断明确的换行换页情况。
3.根据权利要求1所述的一种表格换行换页的分析方法,其特征在于,在步骤2中,获取的标注语料包括相邻两行内容的语义信息、以及表格中相关联的单元格信息。
4.根据权利要求1至3中任一所述的一种表格换行换页的分析方法,其特征在于,还包括步骤4、对合并后的单元格信息进行校验,以提高判断的准确度。
5.一种实施权利要求1中所述的一种表格换行换页的分析方法的装置,其特征在于,包括:换行换页情况判断模块、标注语料获取模块与单元格合并判断模块;
所述换行换页情况判断模块,用于通过专家经验总结规则判断明确的换行换页情况;
所述标注语料获取模块,用于利用深度学习模型,获取标注语料;
所述单元格合并判断模块,用于根据标注语料、并通过训练深度学习语言模型判断相邻两个单元格是否能够合并。
6.根据权利要求5所述的装置,其特征在于,所述换行换页情况判断模块通过两段文本上面包含的左括号与下面包含的右括号、以及上下两段文本所组合成的整个日期判断明确的换行换页情况。
7.根据权利要求5所述的装置,其特征在于,所述标注语料获取模块所获取的标注语料包括相邻两行内容的语义信息、以及表格中相关联的单元格信息。
8.根据权利要求5至7所示的所述的装置,其特征在于,还包括校验模块,用于对合并后的单元格信息进行校验,以提高判断的准确度。
CN201811304030.6A 2018-11-03 2018-11-03 一种表格换行换页的分析方法及装置 Active CN109460730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811304030.6A CN109460730B (zh) 2018-11-03 2018-11-03 一种表格换行换页的分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811304030.6A CN109460730B (zh) 2018-11-03 2018-11-03 一种表格换行换页的分析方法及装置

Publications (2)

Publication Number Publication Date
CN109460730A true CN109460730A (zh) 2019-03-12
CN109460730B CN109460730B (zh) 2022-06-17

Family

ID=65609339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811304030.6A Active CN109460730B (zh) 2018-11-03 2018-11-03 一种表格换行换页的分析方法及装置

Country Status (1)

Country Link
CN (1) CN109460730B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632927A (zh) * 2020-12-30 2021-04-09 上海犀语科技有限公司 一种基于语义处理的表格片段链接复原方法及系统
CN113673236A (zh) * 2021-07-15 2021-11-19 北京三快在线科技有限公司 模型训练、表格识别方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556606A (zh) * 2009-05-20 2009-10-14 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
CN102782702A (zh) * 2010-03-10 2012-11-14 微软公司 在光学字符识别(ocr)过程中的段落识别
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统
US20140307959A1 (en) * 2003-03-28 2014-10-16 Abbyy Development Llc Method and system of pre-analysis and automated classification of documents
CN106339455A (zh) * 2016-08-26 2017-01-18 电子科技大学 基于文本标签特征挖掘的网页正文提取方法
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140307959A1 (en) * 2003-03-28 2014-10-16 Abbyy Development Llc Method and system of pre-analysis and automated classification of documents
CN101556606A (zh) * 2009-05-20 2009-10-14 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
CN102782702A (zh) * 2010-03-10 2012-11-14 微软公司 在光学字符识别(ocr)过程中的段落识别
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN106339455A (zh) * 2016-08-26 2017-01-18 电子科技大学 基于文本标签特征挖掘的网页正文提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632927A (zh) * 2020-12-30 2021-04-09 上海犀语科技有限公司 一种基于语义处理的表格片段链接复原方法及系统
CN113673236A (zh) * 2021-07-15 2021-11-19 北京三快在线科技有限公司 模型训练、表格识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109460730B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN109961008B (zh) 基于文字定位识别的表格解析方法、介质及计算机设备
CN111582241B (zh) 视频字幕识别方法、装置、设备及存储介质
CN102663023B (zh) 一种提取网页内容的实现方法
CN109241894A (zh) 一种基于表格定位和深度学习的针对性票据内容识别系统和方法
CN108573411A (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
US10049096B2 (en) System and method of template creation for a data extraction tool
CN111709244B (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN105022803B (zh) 一种提取网页正文内容的方法及系统
CN105468468B (zh) 面向问答系统的数据纠错方法及装置
CN104268134B (zh) 一种主客观分类器构建方法和系统
CN106055673A (zh) 一种基于文本特征嵌入的中文短文本情感分类方法
CN110390324A (zh) 一种融合视觉与文本特征的简历版面分析算法
CN109460730A (zh) 一种表格换行换页的分析方法及装置
CN105022806B (zh) 基于翻译模板的互联网网页建构移动页面的方法与系统
CN104915420B (zh) 知识库数据处理方法及系统
CN107896335A (zh) 基于大数据技术的视频检测和评级方法
CN107273883A (zh) 决策树模型训练方法、确定ocr结果中数据属性方法及装置
CN105183742A (zh) 一种简历识别方法
CN102073678B (zh) 一种网站信息分析系统及其方法
CN103942211A (zh) 一种正文页的识别方法及装置
CN107451433B (zh) 一种基于文本内容的信息源识别方法与装置
CN106372053A (zh) 句法分析的方法和装置
CN106446139A (zh) 一种提取网页内容的方法及装置
CN117891940B (zh) 多模态讽刺检测方法、装置、计算机设备以及存储介质
Wu et al. RaP: Redundancy-aware video-language pre-training for text-video retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant