CN104517106B - 一种列表识别方法与系统 - Google Patents

一种列表识别方法与系统 Download PDF

Info

Publication number
CN104517106B
CN104517106B CN201310455068.4A CN201310455068A CN104517106B CN 104517106 B CN104517106 B CN 104517106B CN 201310455068 A CN201310455068 A CN 201310455068A CN 104517106 B CN104517106 B CN 104517106B
Authority
CN
China
Prior art keywords
list
cutting plate
feature
directed graph
retraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310455068.4A
Other languages
English (en)
Other versions
CN104517106A (zh
Inventor
许灿辉
汤帜
徐剑波
陶欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fangzheng Apapi Technology Co Ltd
New Founder Holdings Development Co ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310455068.4A priority Critical patent/CN104517106B/zh
Priority to US14/096,431 priority patent/US20150095022A1/en
Publication of CN104517106A publication Critical patent/CN104517106A/zh
Application granted granted Critical
Publication of CN104517106B publication Critical patent/CN104517106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Abstract

本发明所述的列表识别方法及系统,对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;针对所述分割片构造出无向图;根据所述基本图元的属性,检测前导符号的缩进特征;根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型;调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。这样以机器学习的方式可以识别列表首行和列表续行的上下文关系,最终实现对版式文档的列表的版面分析及理解,即使列表首行的前导符号变化多样,也能进行识别,提高了版式文档中列表识别的准确性。

Description

一种列表识别方法与系统
技术领域
本发明涉及电子文档格式转换技术领域,具体地说是一种列表识别方法与系统。
背景技术
根据版式文档的生成过程,文档是数据和结构的集合,具体包括内容数据、物理结构和逻辑结构。文档分析是对文档物理结构进行抽取,而文档理解则是在物理结构和逻辑结构之间建立映射关系。在实际应用中,移动设备的可读性需求使物理和逻辑结构的恢复尤为重要。页面内列表的检测及识别是文档理解的重点之一。列表具有其独立的逻辑功能,需要对其进行物理划分和逻辑标签标定。但列表从视觉上与正文文本段的特征十分近似,且列表首行的前导符号变化多样,列表续行不具备明显的可区分性特征,根据规则的方法其识别效果不能满足实际需求。
列表是文档的重要组成部分,如何准确地识别列表及其列表中的内容,对版式文档的分析尤其重要。现有技术中有一些识别并转换版式文档中列表的方法,如使用一组规则来检测基于矢量图形的文档中的至少一个列表。模式检测逻辑标识可能开始列表的各字符、符号、数字、字母和/或图像。另外的模式检测逻辑确定列表是否存在。该系统可以标识和分析标项目符号的列表、标号的或标字母的列表、以及作为两者的任意组合的嵌套列表。该方案的不足在于没有考虑列表的邻域信息,邻域信息包括文本模式、缩进基本、标点、对齐等特征,当文档页面中存在多个列表时,该方案不能识别列表续行和列表首行的上下文关系,文档整体的识别效果不理想。
发明内容
为此,为此,本发明所要解决的技术问题在于现有技术中的列表识别方法不能识别列表续行和列表首行的上下文关系,从而提出一种可以识别列表首行和续行的基于概率图模型的列表识别方法。
为解决上述技术问题,本发明的提供一种列表识别方法与系统。
一种列表识别方法,包括以下步骤:
对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;
对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;
针对所述分割片构造出无向图;
根据所述基本图元的属性,检测前导符号的缩进特征;
根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型;
调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
所述的列表识别方法,所述根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型的过程中,所述学习模型为条件随机场模型,过程包括:
提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数;
根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。
所述的列表识别方法,所述对所述基本图元进行分割,提取页面内分割文本行,并得到分割片的过程中,将文本行中连续的文本分割到一个分割片中。
所述的列表识别方法,所述提取页面内分割文本行时,采用聚类方法。
所述的列表识别方法,在所述针对所述分割片构造出无向图的过程中,根据所述分割片的邻域关系构造无向图。
所述的列表识别方法,在所述构造无向图的过程中,采用最小生成树方法构造无向图。
所述的列表识别方法,所述根据所述基本图元的属性,检测前导符号的缩进特征的过程,包括检测所述前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
所述的列表识别方法,所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。
所述的列表识别方法,所述提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率的过程,包括:通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率。
所述的列表识别方法,所述缩进特征包括前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
一种列表识别系统,包括:
提取单元:对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;
分割单元:对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;
构造单元:针对所述分割片构造出无向图;
检测单元:根据所述基本图元的属性,检测前导符号的缩进特征;
建模单元:根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型;
调用单元:调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
所述的列表识别系统,所述学习模型为条件随机场模型,所述建模单元中,包括:
第一特征提取子单元:提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数;
第二特征提取子单元:根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。
所述的列表识别系统,所述分割单元中,将文本行中连续的文本分割到一个分割片中。
所述的列表识别系统,所述提取页面内分割文本行时,采用聚类方法。
所述的列表识别系统,所述构造单元中,根据所述分割片的邻域关系构造无向图。
所述的列表识别系统,所述构造单元中,在所述构造无向图时,采用最小生成树方法构造无向图。
所述的列表识别系统,所述检测单元中,检测所述前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
所述的列表识别系统,所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。
所述的列表识别系统,所述第一特征提取子单元中,通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率。
所述的列表识别系统,所述缩进特征包括前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
本发明的上述技术方案相比现有技术具有以下优点:
(1)本发明所述的列表识别方法及系统,对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;针对所述分割片构造出无向图;根据所述基本图元的属性,检测前导符号的缩进特征;根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型;调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。这样对列表进行抽取,并根据其逻辑功能进行逻辑标签的标定,以机器学习的方式不仅可以识别列表,还能识别列表首行和列表续行的上下文关系,最终实现对版式文档的列表的版面分析及理解,即使列表首行的前导符号变化多样,也能通过对列表逻辑功能的分析进行识别,提高了版式文档中列表识别的准确性。
(2)本发明所述的列表识别方法,采用条件随机场模型,根据由分割片局部特征获得一元特征函数、分割片之间的邻域关系特征作为二元特征函数,训练条件随机场模型(CRF),多特征设计分为一元局部特征和二元邻域特征。一元特征主要来自分割片本身的特征,二元特征主要来自无向图的邻居分割片的关系特征。CRF模型的目标函数为负对数自然函数。利用多特征以及各种上下文信息可以极大地减少标注分类的不确定性和模糊性对最终标记的负面影响。
(3)本发明所述的列表识别方法,对文本进行分割时,将文本行中连续的文本分割到一个分割片中,根据文本图元、图像图元一级绘制操作图元来进行分割,获得分割片,将有具有较多相关性的图元分在同一个分割片中,为无向图的构造以及分割片特征的提取奠定基础。
(4)本发明所述的列表识别方法,所述无向图构造步骤中,根据所述分割片的邻域关系构造无向图,这样在无向图中可以体现出分割片的相对位置关系,通过其邻居的位置关系来生成无向图,采用最小生成树方法或三角剖分构造无向图,由于无向图可以很好的表示邻域关系特征,为提取分割片的局部特征和邻域关系特征创造了方便,保证了提取特征的准确性和高效性。
(5)本发明所述的列表识别方法,在所述检测步骤中,检测所述前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致,这样获得了所述前导符号的特征,可以更好的训练和识别前导符号,便于更好的识别和提取列表。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明的列表识别方法的一个实施例的流程图;
图2是本发明的列表识别方法的另一个实施例的流程图;
图3是本发明的列表识别方法的另一个实施例的MST最小生成树示意图;
图4是本发明所述的列表识别方法的一个实施例中列表单元和表注的逻辑标签示意图。
具体实施方式
实施例1
本实施例提供一种列表识别方法,如图1所示,包括以下步骤:
(1)对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元。此处采用现有技术中的分析工具可以提取并获得页面内的基本图元。所述基本图元中包括了文本图元、图像图元以及绘制操作信息等。
(2)对所述基本图元进行分割,提取页面内分割文本行,并得到分割片。此步骤中,将文本行中连续的文本分割到一个分割片中。根据各个基本图元的属性基于周围图元的关系进行合理的分割,得到分割片。提取页面内分割文本行时,采用聚类方法通过聚类分析的手段获得页面内分割问本行。
(3)针对所述分割片构造出无向图。此时,利用所述分割片的邻域关系,采用最小生成树方法构造无向图。邻域关系也就是与其周围的分割片的邻居关系,位置关系信息等邻域关系信息。
(4)根据所述基本图元的属性,检测前导符号的缩进特征,即检测所述前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致,得到的缩进特征包括前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
(5)根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型。此处的训练模型可以选择条件随机场模型,也可以选择结构化的支持向量机模型(structural SVM),或者其他可以学习的模型,通过上述特征进行训练,机器通过自学习的方式,建立列表识别模型。该方法采用一种可学习的模型继续训练,提高了模型的可训练程度,从而可以提高建模的效率和精度,保证了列表识别的准确性。
(6)调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
本发明所述的识别方法,以机器学习的方式不仅可以识别列表,还能识别列表首行和列表续行的上下文关系,最终实现对版式文档的列表的版面分析及理解,即使列表首行的前导符号变化多样,也能通过对列表逻辑功能的分析进行识别,提高了版式文档中列表识别的准确性。。
作为其他可以替换的实时方式,在所述步骤(5)建立列表识别模型的过程中,所述学习模型可以选择条件随机场模型,此处建模的过程为:
提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数。本实施例中,所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征,将这些特征通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率,从而获得一元特征函数。
并根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。然后将所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征输入所述条件随机场模型中,然后获得模型参数,并建立了列表识别模型。
实施例2:
本实施例提供一种列表识别系统,包括:
提取单元:对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元。
分割单元:对所述基本图元进行分割,提取页面内分割文本行,并得到分割片。所述提取页面内分割文本行时,采用聚类方法。将文本行中连续的文本分割到一个分割片中。
构造单元:针对所述分割片构造出无向图。根据所述分割片的邻域关系,采用最小生成树方法构造无向图。
检测单元:根据所述基本图元的属性,检测前导符号的缩进特征,即检测所述前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致,得到的缩进特征包括前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。。
建模单元:根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型。
调用单元:调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
作为优选的实施方式,所述建模单元中,所述学习模型为条件随机场模型,所述建模单元还包括:
第一特征提取子单元:提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数。所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。所述分割片的局部特征通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率
第二特征提取子单元:根据无向图邻域关系,提取分割片
之间的邻域关系特征作为二元特征函数。
实施例3:
本实施例所述的列表识别系统对应的列表识别方法流程图如图2所示,包括以下步骤:
(1)提取步骤:通过解析引擎对原始版式文档内的元数据信息进行解析,提取页面内的基本图元,包括文本图元、图像图元以及绘制操作。所述文本图元包括文本编码、字体类型、字体颜色、字体大小等;所述图像图元包括自然图像和合成图像;所述绘制操作图元信息包括绘制线、绘制图形操作信息。
(2)分割步骤:对所述文本图元、图像图元以及绘制操作图元进行聚类,分割页面内容,并得到分割片。此处采用聚类分析的方法提取页面内分割文本行,如采用XY-cut方法。分割片根据其文本图元、图像图元、绘制操作图元的区域类型获得。
(3)无向图构造步骤:针对所述分割片构造出无向图。根据所述分割片的邻域关系构造,所述邻域关系是指分割片与其周围的分割片的邻居关系,在此采用最小生成树的方法构造无向图。
最小生成树(Minimum Spanning Tree,MST)方法及原理具体为:一个有n个结点的连通图的生成树是原图的极小连通子图,且包含原图中的所有n个结点,并且有保持图连通的最少的边。在一给定的无向图G=(V,E)中,(u,v)代表连接顶点u与顶点v的边(即),而w(u,v)代表此边的权重,若存在T为E的子集(即)且为无循环图,使得的w(T)最小,则此T为G的最小生成树。
最小生成树其实是最小权重生成树的简称。
因此采用最小生成树的方法将分割片构造出无向图,图3给出了一个页面内分割片的MST最小生成树示意图。
此外,作为其他可以替换的实施方式,还可以采用Delaunay三角剖分方法来构造无向图。Delaunay三角剖分方法,由于其独特性,关于点集的很多种几何图都和Delaunay三角剖分相关,如Voronoi图,EMST树,Gabriel图等。Delaunay三角剖分有最大化最小角,“最接近于规则化的“的三角网和唯一性(任意四点不能共圆)两个特点。因此,采用现有技术中的Delaunay三角剖分方法可以构造无向图。
(4)单元格检测步骤:根据所述基本图元的属性,检测前导符号的缩进特征,即检测所述前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致,得到的缩进特征包括前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
(5)分类步骤:提取所述无向图中每个分割片的局部特征,通过SVM分类器,选择RBF径向基函数,采用Platt方法将基于局部特征的分类得分转化为伪概率,伪概率作为条件随机场模型(CRF)的一元特征函数。根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。。
支持向量机SVM(Support Vector Machine)是一种可训练的机器学习方法,SVM的主要思想可以概括为两点:⑴它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。在本步骤中,通过SVM进行分类。
所谓径向基函数(Radial Basis Function简称RBF),就是某种沿径向对称的标量函数。通常定义为空间中任一点x到某一中心xc之间欧氏距离的单调函数,可记作k(||x-xc||),其作用往往是局部的,即当x远离xc时函数取值很小。最常用的径向基函数是高斯核函数,形式为k(||x-xc||)=exp{-||x-xc||^2/2*σ^2)}其中xc为核函数中心,σ为函数的宽度参数,控制了函数的径向作用范围。通过选择RBF径向基函数。采用Platt方法将分类得分转化为伪概率。
(6)训练识别步骤:根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型。
概率图模型是一类用图形模式表达基于概率相关关系的模型的总称,它能够以统一概率框架融合利用多特征和上下文信息,本实施例中将页面内分割片的邻域关系表示为无向图结构,将逻辑标注的问题转换为基于无向概率图模型的分割片标记问题。
条件随机域(也称作条件随机场)(conditional random fields,简称CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求得全局的最优解。条件随机场是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。CRF的算法实现目前已经有多个知名的开源项目,并且已经被广泛应用在学术界研究以及工业界应用当中。具体来说,条件随机场(Conditional Random Field,CRF)模型的优势在于可以更好地利用分割片本身的观察信息(observation)和自适应上下文信息(contextual information)。
本实施例所述的列表识别方法利用多特征以及各种上下文信息可以极大地减少标注分类的不确定性和模糊性对最终标记的负面影响。在本实施例中,多特征设计分为一元局部特征和二元邻域特征。一元特征主要来自分割片本身的特征(即分割片之间的邻域关系特征),二元特征主要来自无向图的邻居分割片的关系特征(即分割片之间的邻域关系特征)。CRF模型的目标函数为负对数自然函数。
本步骤具体的过程如下:根据无向图邻域关系,提取文本行之间二元关系特征,主要包括二个分割片是否左对齐、右对齐或中间对齐;是否具有同样是字体和字体尺寸;是否出现重叠;二个分割片宽度比、高度比、面积比等。构造一元和二元的特征函数,训练条件随机场模型得到模型参数,最终得到列表类别的识别结果。
(7)调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。这样对列表进行抽取,并根据其逻辑功能进行逻辑标签的标定,如图4所示,以机器学习的方式不仅可以识别列表,还能识别列表首行和列表续行的上下文关系,最终实现对版式文档的列表的版面分析及理解,即使列表首行的前导符号变化多样,也能通过对列表逻辑功能的分析进行识别,提高了版式文档中列表识别的准确性。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (16)

1.一种列表识别方法,其特征在于,包括以下步骤:
对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;
对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;
针对所述分割片构造出无向图,在所述针对所述分割片构造出无向图的过程中,利用所述分割片的邻域关系构造无向图;根据所述基本图元的属性,检测前导符号的缩进特征,所述根据所述基本图元的属性,检测前导符号的缩进特征的过程,包括检测所述前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致;
根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型,其中所述邻域关系是与其周围的分割片的邻居关系、位置关系信息;
调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
2.根据权利要求1所述的列表识别方法,其特征在于,所述根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型的过程中,所述学习模型为条件随机场模型,过程包括:
提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数;
根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。
3.根据权利要求1或2所述的列表识别方法,其特征在于,所述对所述基本图元进行分割,提取页面内分割文本行,并得到分割片的过程中,将文本行中连续的文本分割到一个分割片中。
4.根据权利要求1所述的列表识别方法,其特征在于,所述提取页面内分割文本行时,采用聚类方法。
5.根据权利要求1所述的列表识别方法,其特征在于,在所述构造无向图的过程中,采用最小生成树方法或三角剖分方法构造无向图。
6.根据权利要求1所述的列表识别方法,其特征在于,所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。
7.根据权利要求2所述的列表识别方法,其特征在于,所述提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率的过程,包括:通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率。
8.根据权利要求1所述的列表识别方法,其特征在于,所述缩进特征包括前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
9.一种列表识别系统,其特征在于,包括:
提取单元:对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;
分割单元:对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;
构造单元:针对所述分割片构造出无向图,所述构造单元中,根据所述分割片的邻域关系构造无向图;
检测单元:根据所述基本图元的属性,检测前导符号的缩进特征,所述检测单元中,检测所述前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致;
建模单元:根据所述缩进特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立列表识别模型,其中所述邻域关系是与其周围的分割片的邻居关系、位置关系信息;
调用单元:调用所述列表识别模型对所需的文档进行列表识别,得到识别结果。
10.根据权利要求9所述的列表识别系统,其特征在于,
所述学习模型为条件随机场模型,所述建模单元中,包括:
第一特征提取子单元:提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数;
第二特征提取子单元:根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。
11.根据权利要求9或10所述的列表识别系统,其特征在于,所述分割单元中,将文本行中连续的文本分割到一个分割片中。
12.根据权利要求9所述的列表识别系统,其特征在于,所述提取页面内分割文本行时,采用聚类方法。
13.根据权利要求9所述的列表识别系统,其特征在于,所述构造单元中,在所述构造无向图时,采用最小生成树方法或三角剖分方法构造无向图。
14.根据权利要求9所述的列表识别系统,其特征在于,所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。
15.根据权利要求10要求所述的列表识别系统,其特征在于,所述第一特征提取子单元中,通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率。
16.根据权利要求9所述的列表识别系统,其特征在于,所述缩进特征包括前导符号缩进级别、缩进量以及与其他前导符号缩进是否一致。
CN201310455068.4A 2013-09-29 2013-09-29 一种列表识别方法与系统 Active CN104517106B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310455068.4A CN104517106B (zh) 2013-09-29 2013-09-29 一种列表识别方法与系统
US14/096,431 US20150095022A1 (en) 2013-09-29 2013-12-04 List recognizing method and list recognizing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310455068.4A CN104517106B (zh) 2013-09-29 2013-09-29 一种列表识别方法与系统

Publications (2)

Publication Number Publication Date
CN104517106A CN104517106A (zh) 2015-04-15
CN104517106B true CN104517106B (zh) 2017-11-28

Family

ID=52740980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310455068.4A Active CN104517106B (zh) 2013-09-29 2013-09-29 一种列表识别方法与系统

Country Status (2)

Country Link
US (1) US20150095022A1 (zh)
CN (1) CN104517106B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966051B (zh) * 2015-06-03 2018-07-17 中国科学院信息工程研究所 一种文档图像的版式识别方法
US9842251B2 (en) 2016-01-29 2017-12-12 Konica Minolta Laboratory U.S.A., Inc. Bulleted lists
US9984471B2 (en) * 2016-07-26 2018-05-29 Intuit Inc. Label and field identification without optical character recognition (OCR)
US10310710B2 (en) * 2016-09-29 2019-06-04 Konica Minolta Laboratory U.S.A., Inc. Determination of indentation levels of a bulleted list
US20180260389A1 (en) * 2017-03-08 2018-09-13 Fujitsu Limited Electronic document segmentation and relation discovery between elements for natural language processing
FI20176151A1 (en) 2017-12-22 2019-06-23 Vuolearning Ltd A heuristic method for analyzing the contents of an electronic document
CN108346107B (zh) * 2017-12-28 2020-11-10 创新先进技术有限公司 一种社交内容风险识别方法、装置以及设备
CN112287654A (zh) * 2019-07-25 2021-01-29 珠海金山办公软件有限公司 一种文档元素对齐方法及装置
CN110956019B (zh) * 2019-11-27 2021-10-26 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN111985542B (zh) * 2020-08-05 2022-07-12 华中科技大学 代表性图结构模型、视觉理解模型的建立方法及应用
CN112733735B (zh) * 2021-01-13 2024-04-09 国网上海市电力公司 一种采用机器学习进行图纸布局分类识别的方法
US11921681B2 (en) 2021-04-22 2024-03-05 Optum Technology, Inc. Machine learning techniques for predictive structural analysis
US11475158B1 (en) * 2021-07-26 2022-10-18 Netskope, Inc. Customized deep learning classifier for detecting organization sensitive data in images on premises
US20230154218A1 (en) * 2021-11-12 2023-05-18 Microsoft Technology Licensing, Llc Sequence labeling task extraction from inked content

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377704B1 (en) * 1998-04-30 2002-04-23 Xerox Corporation Method for inset detection in document layout analysis
CN1770174A (zh) * 2004-10-20 2006-05-10 微软公司 剖析分层列表和大纲
CN101385023A (zh) * 2006-02-09 2009-03-11 微软公司 矢量图形文档中的列表检测

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456738B1 (en) * 1998-07-16 2002-09-24 Ricoh Company, Ltd. Method of and system for extracting predetermined elements from input document based upon model which is adaptively modified according to variable amount in the input document
CA2486528C (en) * 2002-05-20 2010-04-27 Tata Infotech Ltd. Document structure identifier
US7650566B1 (en) * 2002-06-28 2010-01-19 Microsoft Corporation Representing list definitions and instances in a markup language document
US8050906B1 (en) * 2003-06-01 2011-11-01 Sajan, Inc. Systems and methods for translating text
US7877400B1 (en) * 2003-11-18 2011-01-25 Adobe Systems Incorporated Optimizations of XPaths
US7747944B2 (en) * 2005-06-30 2010-06-29 Microsoft Corporation Semantically applying style transformation to objects in a graphic
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
US8145677B2 (en) * 2007-03-27 2012-03-27 Faleh Jassem Al-Shameri Automated generation of metadata for mining image and text data
US8869023B2 (en) * 2007-08-06 2014-10-21 Ricoh Co., Ltd. Conversion of a collection of data to a structured, printable and navigable format
US20100293524A1 (en) * 2009-05-12 2010-11-18 International Business Machines, Corporation Development environment for managing database aware software projects
KR101072100B1 (ko) * 2009-10-23 2011-10-10 포항공과대학교 산학협력단 표현 및 설명 추출을 위한 문서 처리 장치 및 방법
US8627203B2 (en) * 2010-02-25 2014-01-07 Adobe Systems Incorporated Method and apparatus for capturing, analyzing, and converting scripts
US9025876B2 (en) * 2012-03-05 2015-05-05 Thomson Licensing Method and apparatus for multi-label segmentation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377704B1 (en) * 1998-04-30 2002-04-23 Xerox Corporation Method for inset detection in document layout analysis
CN1770174A (zh) * 2004-10-20 2006-05-10 微软公司 剖析分层列表和大纲
CN101385023A (zh) * 2006-02-09 2009-03-11 微软公司 矢量图形文档中的列表检测

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Graph-based layout analysis for PDF documents;Canhui Xu等;《SPIE Proceedings》;20130321;vol.8664,page 866407-1到866407-8 *
Integration of Text Information and Graphic Composite for PDF Document Analysis;Canhui Xu等;《Communications in Computer and Information Science》;20121231;vol.333,page 13-22 *
版式电子文档表格自动检测与性能评估;房婧等;《北京大学学报(自然科学版)》;20130131;第49卷(第1期);45-53 *

Also Published As

Publication number Publication date
US20150095022A1 (en) 2015-04-02
CN104517106A (zh) 2015-04-15

Similar Documents

Publication Publication Date Title
CN104517106B (zh) 一种列表识别方法与系统
CN104517112B (zh) 一种表格识别方法与系统
AU2018247340B2 (en) Dvqa: understanding data visualizations through question answering
US11113518B2 (en) Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal
Harouni et al. Online Persian/Arabic script classification without contextual information
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN107169485A (zh) 一种数学公式识别方法和装置
US11769341B2 (en) System and method to extract information from unstructured image documents
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
Potrus et al. An evolutionary harmony search algorithm with dominant point detection for recognition-based segmentation of online Arabic text recognition
Zhong et al. Improved localization accuracy by locnet for faster r-cnn based text detection
US10402484B2 (en) Aligning annotation of fields of documents
Dutta et al. Cnn based extraction of panels/characters from bengali comic book page images
Tomovic et al. Aligning document layouts extracted with different OCR engines with clustering approach
Vinokurov Tabular information recognition using convolutional neural networks
CN102034102B (zh) 图像显著对象提取方法、互补显著度图学习方法及系统
Mishra et al. Multimodal machine learning for extraction of theorems and proofs in the scientific literature
CN111538813B (zh) 一种分类检测方法、装置、设备及存储介质
Tavoli et al. A Novel Word-Spotting Method for Handwritten Documents Using an Optimization-Based Classifier
Yang et al. Text search: towards fast text localization in scene images
Xu et al. Dynamic character grouping based on four consistency constraints in topographic maps
Guo et al. SignParser: An End-to-End Framework for Traffic Sign Understanding
Lombardi et al. Line recognition for generating accessible line plots
Imran et al. A* Path Finding Algorithms Based Designing the Best Possible Eco-Friendly Structure Spatial Landscape and Natural Setting
Jiang High Precision Deep Learning-Based Tabular Data Extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220621

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Beijing Fangzheng apapi Technology Co., Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Beijing Fangzheng apapi Technology Co., Ltd.

TR01 Transfer of patent right