CN106326842B - 一种文档正文区域识别方法及装置 - Google Patents

一种文档正文区域识别方法及装置 Download PDF

Info

Publication number
CN106326842B
CN106326842B CN201610668677.1A CN201610668677A CN106326842B CN 106326842 B CN106326842 B CN 106326842B CN 201610668677 A CN201610668677 A CN 201610668677A CN 106326842 B CN106326842 B CN 106326842B
Authority
CN
China
Prior art keywords
document
peak
region
transparency
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610668677.1A
Other languages
English (en)
Other versions
CN106326842A (zh
Inventor
徐佳宏
朱吕亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ipanel TV Inc
Original Assignee
Shenzhen Ipanel TV Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ipanel TV Inc filed Critical Shenzhen Ipanel TV Inc
Priority to CN201610668677.1A priority Critical patent/CN106326842B/zh
Publication of CN106326842A publication Critical patent/CN106326842A/zh
Application granted granted Critical
Publication of CN106326842B publication Critical patent/CN106326842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种文档正文区域识别方法及装置,方法包括:确定待识别文档的各页中,内容元素所占区域;将各页中内容元素所占区域的透明度设置为第一透明度值,非内容元素所占区域的透明度设置为第二透明度值;将所述待识别文档的各页对齐叠加,得到叠加后的文档展示页面;根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域。由此可见,本申请对文档内容元素所占区域及非内容元素所占区域进行不同透明度处理,并将文档的各页进行叠加,根据叠加后文档展示页面中各像素点的透明度值分布状态,确定文档正文区域,充分利用正文区域多页叠加后透明度值与其它非正文区域多页叠加后透明度值的不同,正文区域识别准确度高。

Description

一种文档正文区域识别方法及装置
技术领域
本申请涉及文档处理技术领域,更具体地说,涉及一种文档正文区域识别方法及装置。
背景技术
一份文档一般都是分页的,每页除了正文还可以存在页眉、页脚区域,以及左右两侧存在文档注解区域。
文档在不同分辨率的设备上进行显示时,需要根据设备的分辨率对文档进行排版的转换,即将文档按照目标显示设备的分辨率,转换成对应分辨率下的文档。现有文档转换的方式是获取原文档的内容,然后按照目标分辨率重新排版,生成新的文档。现有方法并未考虑文档内容类型的不同,因此重新排版后会出现正文内容与其它内容排版混乱的问题。参见图1a和图1b,图1a中示例了原文档显示界面,图1b为按照现有技术重新排版后的展示页面。对比可以看出,重新排版后正文内容与页眉和页脚内容混乱在一起。
由此可见,准确识别文档正文区域,对文档排版转换的准确度至关重要,现有技术亟需一种文档正文区域识别方案。
发明内容
有鉴于此,本申请提供了一种文档正文区域识别方法及装置,以实现准确识别文档正文区域,为文档排版转换提供基础。
为了实现上述目的,现提出的方案如下:
一种文档正文区域识别方法,包括:
确定待识别文档的各页中,内容元素所占区域;
将各页中内容元素所占区域的透明度设置为第一透明度值,非内容元素所占区域的透明度设置为第二透明度值;
将所述待识别文档的各页对齐叠加,得到叠加后的文档展示页面;
根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域。
优选地,所述将各页中内容元素所占区域的透明度设置为第一透明度值,非内容元素所占区域的透明度设置为第二透明度值,包括:
将表征完全不透明的透明度值,除以所述待识别文档的总页数,得到第一透明度值;
将各页中内容元素所占区域的透明度设置为所述第一透明度值,非内容元素所占区域的透明度设置为第二透明度值,所述第二透明度值为表征完全透明的透明度值。
优选地,所述根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域,包括:
将所述文档展示页面沿竖直方向,以像素点为单位分行,得到多行;
对每一行计算各像素点的透明度值的平均值,得到各行的平均透明度值;
以行高作为横坐标,各行的平均透明度值作为纵坐标,绘制第一曲线图;
根据第一曲线图中波峰分布状态,识别文档正文所处区域的行高范围。
优选地,所述根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域,还包括:
将所述文档展示页面沿水平方向,以像素点为单位分列,得到多列;
对每一列计算各像素点的透明度值的平均值,得到各列的平均透明度值;
以列宽作为横坐标,各列的平均透明度值作为纵坐标,绘制第二曲线图;
根据第二曲线图中波峰的分布状态,识别文档正文所处区域的列宽范围。
优选地,所述根据第一曲线图中波峰分布状态,识别文档正文所处区域的行高范围,包括:
判断所述第一曲线图的两端是否存在偏离中心峰群的离群峰;
若所述第一曲线图两端均存在离群峰,则根据两端的离群峰对应的行高,确定文档正文所处区域的行高范围;
若所述第一曲线图两端均不存在离群峰,则根据所述中心峰群两侧的边缘峰对应的行高,确定文档正文所处区域的行高范围;
若所述第一曲线图仅一端存在离群峰,则根据离群峰对应的行高以及中心峰群的远离离群峰一侧的边缘峰对应的行高,确定文档正文所处区域的行高范围。
优选地,所述根据第二曲线图中波峰的分布状态,识别文档正文所处区域的列宽范围,包括:
判断所述第二曲线图的两端是否存在偏离中心峰群的离群峰;
若所述第二曲线图两端均存在离群峰,则根据两端的离群峰对应的列宽,确定文档正文所处区域的列宽范围;
若所述第二曲线图两端均不存在离群峰,则根据所述中心峰群两侧的边缘峰对应的列宽,确定文档正文所处区域的列宽范围;
若所述第二曲线图仅一端存在离群峰,则根据离群峰对应的列宽以及中心峰群的远离离群峰一侧的边缘峰对应的列宽,确定文档正文所处区域的列宽范围。
一种文档正文区域识别装置,包括:
内容区域确定单元,用于确定待识别文档的各页中,内容元素所占区域;
透明度设置单元,用于将各页中内容元素所占区域的透明度设置为第一透明度值,非内容元素所占区域的透明度设置为第二透明度值;
文档页叠加单元,用于将所述待识别文档的各页对齐叠加,得到叠加后的文档展示页面;
正文区域识别单元,用于根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域。
优选地,所述透明度设置单元包括:
第一透明度设置子单元,用于将表征完全不透明的透明度值,除以所述待识别文档的总页数,得到第一透明度值;
第二透明度设置子单元,用于将各页中内容元素所占区域的透明度设置为所述第一透明度值,非内容元素所占区域的透明度设置为第二透明度值,所述第二透明度值为表征完全透明的透明度值。
优选地,所述正文区域识别单元包括:
文档分行单元,用于将所述文档展示页面沿竖直方向,以像素点为单位分行,得到多行;
行平均透明度确定单元,用于对每一行计算各像素点的透明度值的平均值,得到各行的平均透明度值;
第一曲线图绘制单元,用于以行高作为横坐标,各行的平均透明度值作为纵坐标,绘制第一曲线图;
行高范围识别单元,用于根据第一曲线图中波峰分布状态,识别文档正文所处区域的行高范围。
优选地,所述正文区域识别单元还包括:
文档分列单元,用于将所述文档展示页面沿水平方向,以像素点为单位分列,得到多列;
列平均透明度确定单元,用于对每一列计算各像素点的透明度值的平均值,得到各列的平均透明度值;
第二曲线图绘制单元,用于以列宽作为横坐标,各列的平均透明度值作为纵坐标,绘制第二曲线图;
列宽范围识别单元,用于根据第二曲线图中波峰的分布状态,识别文档正文所处区域的列宽范围。
从上述的技术方案可以看出,本申请实施例提供的文档正文区域识别方法包括:确定待识别文档的各页中,内容元素所占区域;将各页中内容元素所占区域的透明度设置为第一透明度值,非内容元素所占区域的透明度设置为第二透明度值;将所述待识别文档的各页对齐叠加,得到叠加后的文档展示页面;根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域。由此可见,本申请通过对文档内容元素所占区域及非内容元素所占区域进行不同透明度处理,并将文档的各页进行叠加,根据叠加后文档展示页面中各像素点的透明度值分布状态,确定文档正文区域,充分利用正文区域多页叠加后透明度值与其它非正文区域多页叠加后透明度值的不同,正文区域识别准确度高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1a和图1b中分别示例了原文档显示界面及按照现有技术重新排版后的展示界面示意图;
图2为本申请实施例公开的一种文档正文区域识别方法流程图;
图3示例了一种颜色标准内容元素区域及非内容元素区域的示意图;
图4示例了一种透明度设置效果示意图;
图5示例了一种PDF格式文档透明度处理并叠加后的文档展示页面效果示意图;
图6为本申请实施例公开的另一种文档正文区域识别方法流程图;
图7为本申请实施例公开的一种识别文档正文区域的行高范围的方法流程图;
图8示例了第一曲线示意图;
图9为本申请实施例公开的一种根据第一曲线图识别文档正文区域的行高范围的方法流程图;
图10示例了对图8所示第一曲线进行离群峰划分后效果示意图;
图11为本申请实施例公开的一种识别文档正文区域的列宽范围的方法流程图;
图12示例了第二曲线示意图;
图13为本申请实施例公开的一种根据第二曲线图识别文档正文区域的列宽范围的方法流程图;
图14示例了对图12所示第二曲线进行离群峰划分后效果示意图;
图15为本申请实施例公开的一种文档正文区域识别装置结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来介绍本申请方案,参见图2,图2为本申请实施例公开的一种文档正文区域识别方法流程图。
如图2所示,该方法包括:
步骤S100、确定待识别文档的各页中,内容元素所占区域;
具体地,文档页中包含有多种类型的内容元素,如正文、页眉、页脚、批注等。本步骤中,在待识别文档的各页中,确定出内容元素所占区域。
具体实施时,可以是将内容元素所占区域通过特定颜色进行标注。参考图3所示,图3中文档页面中内容元素为黑色区域,非内容元素为白色区域。
步骤S110、将各页中内容元素所占区域的透明度设置为第一透明度值,非内容元素所占区域的透明度设置为第二透明度值;
具体地,第一透明度值不同于第二透明度值。通过将内容元素所占区域及非内容元素所占区域设置不同的透明度值,以便后续文档页叠加后可以根据各像素点透明度值的分布不同,识别文档正文所处区域。
参考上述图3示例的情况,本步骤中可以对黑色区域设置第一透明度值,对白色区域设置第二透明度值。透明度设置之后的显示效果如图4所示。
步骤S120、将所述待识别文档的各页对齐叠加,得到叠加后的文档展示页面;
具体地,待识别文档包含多页,对每一页进行上述透明度值处理之后,将各页对齐叠加,叠加后得到文档展示页面。叠加后文档展示页面中各像素点的透明度值为各叠加前各文档页在该像素点处的透明度值的和值。由于内容元素区域的透明度值与非内容区域的透明度值不同,因此叠加后文档展示页面中各像素点的透明度值也不一定相同。参见图5,其示例了一份PDF格式文档按照前述步骤透明度处理并叠加后的文档展示页面效果示意图。
步骤S130、根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域。
具体地,文档正文区域内容元素密度要大于文档非正文区域内容元素的密度,而前述已经介绍对内容元素所占区域与非内容元素所占区域设置不同的透明度值,因此,文档展示页面中正文区域像素点的透明度值不同于非正文区域像素点的透明度值。本步骤中根据文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域。
本申请实施例提供的文档正文区域识别方法,确定待识别文档的各页中,内容元素所占区域;将各页中内容元素所占区域的透明度设置为第一透明度值,非内容元素所占区域的透明度设置为第二透明度值;将所述待识别文档的各页对齐叠加,得到叠加后的文档展示页面;根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域。由此可见,本申请通过对文档内容元素所占区域及非内容元素所占区域进行不同透明度处理,并将文档的各页进行叠加,根据叠加后文档展示页面中各像素点的透明度值分布状态,确定文档正文区域,充分利用正文区域多页叠加后透明度值与其它非正文区域多页叠加后透明度值的不同,正文区域识别准确度高。
参见图6,图6为本申请实施例公开的另一种文档正文区域识别方法流程图。
如图6所示,该方法包括:
步骤S200、确定待识别文档的各页中,内容元素所占区域;
具体地,文档页中包含有多种类型的内容元素,如正文、页眉、页脚、批注等。本步骤中,在待识别文档的各页中,确定出内容元素所占区域。
步骤S210、将表征完全不透明的透明度值,除以所述待识别文档的总页数,得到第一透明度值;
具体地,透明度取值方式有两种,一种是0-100,另一种是0-255。其中,数值越小代表越透明,数值越大代表越不透明。本申请可以采用上述两种取值方式中的任意一种。
步骤S220、将各页中内容元素所占区域的透明度设置为所述第一透明度值,非内容元素所占区域的透明度设置为第二透明度值,所述第二透明度值为表征完全透明的透明度值;
具体地,本申请将各页中非内容元素所占区域的透明度设置为完全透明,也即透明度值为0。这样多页叠加后非内容元素所占区域的叠加不会对总透明度值产生影响。同时,本申请将各页中内容元素所占区域的透明度设置为所述第一透明度值,该第一透明度值为表征完全不透明的透明度值除以待识别文档的总页数,从而保证待识别文档的各页叠加后不会出现某个像素点的透明度值超过透明度最大值的情况。
步骤S230、将所述待识别文档的各页对齐叠加,得到叠加后的文档展示页面;
具体地,待识别文档包含多页,对每一页进行上述透明度值处理之后,将各页对齐叠加,叠加后得到文档展示页面。由于内容元素区域的透明度值与非内容区域的透明度值不同,因此叠加后文档展示页面中各像素点的透明度值也不一定相同。
步骤S240、根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域。
相比于上一实施例,本实施例中介绍了一种对文档各页内容元素及非内容元素所占区域设置不同透明度值的实施方式。本申请将各页中非内容元素所占区域的透明度设置为完全透明,也即透明度值为0。这样多页叠加后非内容元素所占区域的叠加不会对总透明度值产生影响。同时,本申请将各页中内容元素所占区域的透明度设置为所述第一透明度值,该第一透明度值为表征完全不透明的透明度值除以待识别文档的总页数,从而保证待识别文档的各页叠加后不会出现某个像素点的透明度值超过透明度最大值的情况。
接下来的实施例中,对上述步骤S130,根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域的过程进行介绍。
首先,本申请先介绍识别文档正文所处区域的行高范围的过程,参见图7所示,该过程可以包括:
步骤S300、将所述文档展示页面沿竖直方向,以像素点为单位分行,得到多行;
这里,本申请定义待识别文档的每一页的宽为W个像素点,高为H各像素点。本步骤中,将所述文档展示页面沿竖直方向,以像素点为单位分行,得到多行(H行)。
步骤S310、对每一行计算各像素点的透明度值的平均值,得到各行的平均透明度值;
具体实施方式可以是:对每一行,每个像素点的透明度值ALPHA除以W,得到修改后透明度值ALPHA2=ALPHA/W。进一步,将每一行所有像素点的修改后透明度值求和,得到各行的平均透明度值ALPHA3。
步骤S320、以行高作为横坐标,各行的平均透明度值作为纵坐标,绘制第一曲线图;
具体地,参见图8,图8示例了对图5所示页面进行处理后,绘制得到的第一曲线图。其中,横坐标为行高,纵坐标为透明度值。
步骤S330、根据第一曲线图中波峰分布状态,识别文档正文所处区域的行高范围。
具体地,根据图8可以看出,曲线图中存在很多的波峰,且波峰分布状态与文档内容元素的分布情况存在一定对应关系,据此可以识别文档正文所处区域的行高范围。
本申请的一个实施例中,对上述步骤S330,根据第一曲线图中波峰分布状态,识别文档正文所处区域的行高范围的过程进行介绍,参见图9所示:
该过程可以包括:
步骤S400、判断所述第一曲线图的两端是否存在偏离中心峰群的离群峰;
具体地,待识别文档如果存在页眉和页脚的话,则绘制的第一曲线图可以参照图8示例的情况,其在曲线两端会存在偏离中心峰群的离群峰。离群峰代表的是页眉或页脚。而中心峰群代表的文档正文区域。
步骤S410、若所述第一曲线图两端均存在离群峰,则根据两端的离群峰对应的行高,确定文档正文所处区域的行高范围;
具体地,如果第一曲线图两端均存在离群峰,则代表待识别文档同时存在页眉和页脚。本步骤中根据两端的离群峰对应的行高,确定文档正文所处区域的行高范围。
参见图10,图10为对图8所示的第一曲线图进行离群峰划分后的结果。其中,左侧离群峰与中心峰间的一个波谷,代表正文区域开始行,右侧离群峰与中心峰间的一个波谷,代表正文区域结束行。图10表明,正文区域的行高范围为150-760。
步骤S420、若所述第一曲线图两端均不存在离群峰,则根据所述中心峰群两侧的边缘峰对应的行高,确定文档正文所处区域的行高范围;
可以理解的是,若第一曲线图两端均不存在离群峰,则代表待识别文档不存在页眉和页脚。因此可以根据中心峰群两侧的边缘峰对应的行高,确定文档正文所处区域的行高范围。为便于理解,可以将图10中两侧离群峰去掉,以直线代替,正文区域的开始行和结束行即为中心峰群两侧的边缘峰对应的行高。
步骤S430、若所述第一曲线图仅一端存在离群峰,则根据离群峰对应的行高以及中心峰群的远离离群峰一侧的边缘峰对应的行高,确定文档正文所处区域的行高范围。
具体地,若第一曲线图仅一端存在离群峰,另一端不存在离群峰,则代表待识别文档仅存在页眉或页脚。则文档正文所处区域的行高范围可以根据离群峰对应的行高以及中心峰群的远离离群峰一侧的边缘峰对应的行高确定。
在本申请的又一个实施例中,对识别文档正文所处区域的列宽范围的过程进行介绍,参见图11所示,该过程可以包括:
步骤S500、将所述文档展示页面沿水平方向,以像素点为单位分列,得到多列;
与上述识别行高范围的过程类似,本申请定义待识别文档的每一页的宽为W个像素点,高为H各像素点。本步骤中,将所述文档展示页面沿水平方向,以像素点为单位分列,得到多列(W列)。
步骤S510、对每一列计算各像素点的透明度值的平均值,得到各列的平均透明度值;
具体实施方式可以是:对每一列,每个像素点的透明度值ALPHA除以H,得到修改后透明度值ALPHA4=ALPHA/H。进一步,将每一列所有像素点的修改后透明度值求和,得到各列的平均透明度值ALPHA5。
步骤S520、以列宽作为横坐标,各列的平均透明度值作为纵坐标,绘制第二曲线图;
具体地,参见图12,图12示例了对图5所示页面进行处理后,绘制得到的第二曲线图。其中,横坐标为列宽,纵坐标为透明度值。
步骤S530、根据第二曲线图中波峰的分布状态,识别文档正文所处区域的列宽范围。
具体地,根据图12可以看出,曲线图中存在很多的波峰,且波峰分布状态与文档内容元素的分布情况存在一定对应关系,据此可以识别文档正文所处区域的列宽范围。
本申请的一个实施例中,对上述步骤S530,根据第二曲线图中波峰分布状态,识别文档正文所处区域的列宽范围的过程进行介绍,参见图13所示:
该过程可以包括:
步骤S600、判断所述第二曲线图的两端是否存在偏离中心峰群的离群峰;
具体地,待识别文档如果存在左栏注释和右栏注释的话,则绘制的第二曲线图两端会存在偏离中心峰群的离群峰。离群峰代表的是左栏注释或右栏注释。而中心峰群代表的文档正文区域。
步骤S610、若所述第二曲线图两端均存在离群峰,则根据两端的离群峰对应的列宽,确定文档正文所处区域的列宽范围;
具体地,如果第二曲线图两端均存在离群峰,则代表待识别文档同时存在左栏注释或右栏注释。本步骤中根据两端的离群峰对应的列宽,确定文档正文所处区域的列宽范围。
步骤S620、若所述第二曲线图两端均不存在离群峰,则根据所述中心峰群两侧的边缘峰对应的列宽,确定文档正文所处区域的列宽范围;
可以理解的是,若第二曲线图两端均不存在离群峰,则代表待识别文档不存在左栏注释和右栏注释。因此可以根据中心峰群两侧的边缘峰对应的列宽,确定文档正文所处区域的列宽范围。为便于理解,参照图14,图14为对图12所示的第二曲线图进行离群峰划分后的结果。其中,只存在一个中心峰群,不存在离群峰。因此,中心峰群的左侧边缘峰对应的列宽为正文区域的开始列,右侧边缘峰对应的列宽为正文区域的结束列。图14表明,正文区域的列宽范围为40-560。
步骤S630、若所述第二曲线图仅一端存在离群峰,则根据离群峰对应的列宽以及中心峰群的远离离群峰一侧的边缘峰对应的列宽,确定文档正文所处区域的列宽范围。
具体地,若第二曲线图仅一端存在离群峰,另一端不存在离群峰,则代表待识别文档仅存在左栏注解或右栏注解。则文档正文所处区域的列宽范围可以根据离群峰对应的列宽以及中心峰群的远离离群峰一侧的边缘峰对应的列宽确定。
下面对本申请实施例提供的文档正文区域识别装置进行描述,下文描述的文档正文区域识别装置与上文描述的文档正文区域识别方法可相互对应参照。
参见图15,图15为本申请实施例公开的一种文档正文区域识别装置结构示意图。
如图15所示,该装置包括:
内容区域确定单元11,用于确定待识别文档的各页中,内容元素所占区域;
透明度设置单元12,用于将各页中内容元素所占区域的透明度设置为第一透明度值,非内容元素所占区域的透明度设置为第二透明度值;
文档页叠加单元13,用于将所述待识别文档的各页对齐叠加,得到叠加后的文档展示页面;
正文区域识别单元14,用于根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域。
可选的,所述透明度设置单元可以包括:
第一透明度设置子单元,用于将表征完全不透明的透明度值,除以所述待识别文档的总页数,得到第一透明度值;
第二透明度设置子单元,用于将各页中内容元素所占区域的透明度设置为所述第一透明度值,非内容元素所占区域的透明度设置为第二透明度值,所述第二透明度值为表征完全透明的透明度值。
可选的,所述正文区域识别单元可以包括:
文档分行单元,用于将所述文档展示页面沿竖直方向,以像素点为单位分行,得到多行;
行平均透明度确定单元,用于对每一行计算各像素点的透明度值的平均值,得到各行的平均透明度值;
第一曲线图绘制单元,用于以行高作为横坐标,各行的平均透明度值作为纵坐标,绘制第一曲线图;
行高范围识别单元,用于根据第一曲线图中波峰分布状态,识别文档正文所处区域的行高范围。
可选的,所述正文区域识别单元还可以包括:
文档分列单元,用于将所述文档展示页面沿水平方向,以像素点为单位分列,得到多列;
列平均透明度确定单元,用于对每一列计算各像素点的透明度值的平均值,得到各列的平均透明度值;
第二曲线图绘制单元,用于以列宽作为横坐标,各列的平均透明度值作为纵坐标,绘制第二曲线图;
列宽范围识别单元,用于根据第二曲线图中波峰的分布状态,识别文档正文所处区域的列宽范围。
可选的,所述行高范围识别单元可以包括:
第一行高范围识别子单元,用于判断所述第一曲线图的两端是否存在偏离中心峰群的离群峰;
第二行高范围识别子单元,用于若所述第一曲线图两端均存在离群峰,则根据两端的离群峰对应的行高,确定文档正文所处区域的行高范围;
第三行高范围识别子单元,用于若所述第一曲线图两端均不存在离群峰,则根据所述中心峰群两侧的边缘峰对应的行高,确定文档正文所处区域的行高范围;
第四行高范围识别子单元,用于若所述第一曲线图仅一端存在离群峰,则根据离群峰对应的行高以及中心峰群的远离离群峰一侧的边缘峰对应的行高,确定文档正文所处区域的行高范围。
可选的,所述列宽范围识别单元可以包括:
第一列宽范围识别子单元,用于判断所述第二曲线图的两端是否存在偏离中心峰群的离群峰;
第二列宽范围识别子单元,用于若所述第二曲线图两端均存在离群峰,则根据两端的离群峰对应的列宽,确定文档正文所处区域的列宽范围;
第三列宽范围识别子单元,用于若所述第二曲线图两端均不存在离群峰,则根据所述中心峰群两侧的边缘峰对应的列宽,确定文档正文所处区域的列宽范围;
第四列宽范围识别子单元,用于若所述第二曲线图仅一端存在离群峰,则根据离群峰对应的列宽以及中心峰群的远离离群峰一侧的边缘峰对应的列宽,确定文档正文所处区域的列宽范围。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文档正文区域识别方法,其特征在于,包括:
确定待识别文档的各页中,内容元素所占区域;
将各页中内容元素所占区域的透明度设置为第一透明度值,非内容元素所占区域的透明度设置为第二透明度值;
将所述待识别文档的各页对齐叠加,得到叠加后的文档展示页面;
根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域。
2.根据权利要求1所述的方法,其特征在于,所述将各页中内容元素所占区域的透明度设置为第一透明度值,非内容元素所占区域的透明度设置为第二透明度值,包括:
将表征完全不透明的透明度值,除以所述待识别文档的总页数,得到第一透明度值;
将各页中内容元素所占区域的透明度设置为所述第一透明度值,非内容元素所占区域的透明度设置为第二透明度值,所述第二透明度值为表征完全透明的透明度值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域,包括:
将所述文档展示页面沿竖直方向,以像素点为单位分行,得到多行;
对每一行计算各像素点的透明度值的平均值,得到各行的平均透明度值;
以行高作为横坐标,各行的平均透明度值作为纵坐标,绘制第一曲线图;
根据第一曲线图中波峰分布状态,识别文档正文所处区域的行高范围。
4.根据权利要求3所述的方法,其特征在于,所述根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域,还包括:
将所述文档展示页面沿水平方向,以像素点为单位分列,得到多列;
对每一列计算各像素点的透明度值的平均值,得到各列的平均透明度值;
以列宽作为横坐标,各列的平均透明度值作为纵坐标,绘制第二曲线图;
根据第二曲线图中波峰的分布状态,识别文档正文所处区域的列宽范围。
5.根据权利要求3所述的方法,其特征在于,所述根据第一曲线图中波峰分布状态,识别文档正文所处区域的行高范围,包括:
判断所述第一曲线图的两端是否存在偏离中心峰群的离群峰;
若所述第一曲线图两端均存在离群峰,则根据两端的离群峰对应的行高,确定文档正文所处区域的行高范围;
若所述第一曲线图两端均不存在离群峰,则根据所述中心峰群两侧的边缘峰对应的行高,确定文档正文所处区域的行高范围;
若所述第一曲线图仅一端存在离群峰,则根据离群峰对应的行高以及中心峰群的远离离群峰一侧的边缘峰对应的行高,确定文档正文所处区域的行高范围。
6.根据权利要求4所述的方法,其特征在于,所述根据第二曲线图中波峰的分布状态,识别文档正文所处区域的列宽范围,包括:
判断所述第二曲线图的两端是否存在偏离中心峰群的离群峰;
若所述第二曲线图两端均存在离群峰,则根据两端的离群峰对应的列宽,确定文档正文所处区域的列宽范围;
若所述第二曲线图两端均不存在离群峰,则根据所述中心峰群两侧的边缘峰对应的列宽,确定文档正文所处区域的列宽范围;
若所述第二曲线图仅一端存在离群峰,则根据离群峰对应的列宽以及中心峰群的远离离群峰一侧的边缘峰对应的列宽,确定文档正文所处区域的列宽范围。
7.一种文档正文区域识别装置,其特征在于,包括:
内容区域确定单元,用于确定待识别文档的各页中,内容元素所占区域;
透明度设置单元,用于将各页中内容元素所占区域的透明度设置为第一透明度值,非内容元素所占区域的透明度设置为第二透明度值;
文档页叠加单元,用于将所述待识别文档的各页对齐叠加,得到叠加后的文档展示页面;
正文区域识别单元,用于根据所述文档展示页面中各像素点的透明度值分布状态,识别文档正文所处的区域。
8.根据权利要求7所述的装置,其特征在于,所述透明度设置单元包括:
第一透明度设置子单元,用于将表征完全不透明的透明度值,除以所述待识别文档的总页数,得到第一透明度值;
第二透明度设置子单元,用于将各页中内容元素所占区域的透明度设置为所述第一透明度值,非内容元素所占区域的透明度设置为第二透明度值,所述第二透明度值为表征完全透明的透明度值。
9.根据权利要求7所述的装置,其特征在于,所述正文区域识别单元包括:
文档分行单元,用于将所述文档展示页面沿竖直方向,以像素点为单位分行,得到多行;
行平均透明度确定单元,用于对每一行计算各像素点的透明度值的平均值,得到各行的平均透明度值;
第一曲线图绘制单元,用于以行高作为横坐标,各行的平均透明度值作为纵坐标,绘制第一曲线图;
行高范围识别单元,用于根据第一曲线图中波峰分布状态,识别文档正文所处区域的行高范围。
10.根据权利要求9所述的装置,其特征在于,所述正文区域识别单元还包括:
文档分列单元,用于将所述文档展示页面沿水平方向,以像素点为单位分列,得到多列;
列平均透明度确定单元,用于对每一列计算各像素点的透明度值的平均值,得到各列的平均透明度值;
第二曲线图绘制单元,用于以列宽作为横坐标,各列的平均透明度值作为纵坐标,绘制第二曲线图;
列宽范围识别单元,用于根据第二曲线图中波峰的分布状态,识别文档正文所处区域的列宽范围。
CN201610668677.1A 2016-08-15 2016-08-15 一种文档正文区域识别方法及装置 Active CN106326842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610668677.1A CN106326842B (zh) 2016-08-15 2016-08-15 一种文档正文区域识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610668677.1A CN106326842B (zh) 2016-08-15 2016-08-15 一种文档正文区域识别方法及装置

Publications (2)

Publication Number Publication Date
CN106326842A CN106326842A (zh) 2017-01-11
CN106326842B true CN106326842B (zh) 2019-05-24

Family

ID=57740383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610668677.1A Active CN106326842B (zh) 2016-08-15 2016-08-15 一种文档正文区域识别方法及装置

Country Status (1)

Country Link
CN (1) CN106326842B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097147B (zh) * 2018-01-29 2020-07-14 北大方正集团有限公司 图元绘制属性的设置方法、系统、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539923A (zh) * 2008-03-18 2009-09-23 北京搜狗科技发展有限公司 从文档中提取正文片段的方法及装置
US7961346B1 (en) * 2002-05-21 2011-06-14 Adobe Systems Incorporated Complexity-based transparency flattening
CN103839059A (zh) * 2012-11-22 2014-06-04 富士通株式会社 用于提取文档图像中的文档边界的装置、方法及电子设备
EP2860955A1 (fr) * 2013-10-08 2015-04-15 Sagemcom Documents Sas Procédé de correction de la transparence d'un document dont les deux faces sont numérisées

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7961346B1 (en) * 2002-05-21 2011-06-14 Adobe Systems Incorporated Complexity-based transparency flattening
CN101539923A (zh) * 2008-03-18 2009-09-23 北京搜狗科技发展有限公司 从文档中提取正文片段的方法及装置
CN103839059A (zh) * 2012-11-22 2014-06-04 富士通株式会社 用于提取文档图像中的文档边界的装置、方法及电子设备
EP2860955A1 (fr) * 2013-10-08 2015-04-15 Sagemcom Documents Sas Procédé de correction de la transparence d'un document dont les deux faces sont numérisées

Also Published As

Publication number Publication date
CN106326842A (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
EP1516264B1 (en) Image retrieval by generating a descriptor for each spot of an image the cells of which having visual characteristics within a selected tolerance
CN104657458B (zh) 场景图像中的前景目标的目标信息的展示方法及装置
Tanaka et al. Layout Analysis of Tree-Structured Scene Frames in Comic Images.
US20060214937A1 (en) Method and apparatus to convert bitmapped images for use in a structured text/graphics editor
US20030142112A1 (en) Method and apparatus to convert digital ink images for use in a structured text/graphics editor
CN1343339A (zh) 视频流可分类符号分离的方法与系统
US8112701B2 (en) Reference adding behavior in formula editing mode
US9996516B2 (en) Image processing device for determining a display position of an annotation
US20110228124A1 (en) Character recognition preprocessing method and apparatus
CN102955794A (zh) 一种网页点击情况的显示方法及装置
CN106603838A (zh) 一种图像处理方法及终端
US20100287187A1 (en) Method for query based on layout information
US20050243083A1 (en) Computer-implemented system and method for displaying images
WO1999009543A1 (en) Apparatus and method for facilitating document generation
CN107797784B (zh) 获取拼接处理器的适配分辨率的方法及装置
CN106326842B (zh) 一种文档正文区域识别方法及装置
CN106650720A (zh) 基于文字识别技术的网上评卷方法、装置及系统
US9256592B1 (en) System for detecting and correcting broken words
CN112347742B (zh) 基于深度学习生成文档图像集的方法
KR20210077251A (ko) 표가 삽입된 이미지로부터 지식 데이터베이스의 구축이 가능한 데이터베이스 구축 장치 및 그 동작 방법
WO2014164081A2 (en) Detection and visualization of schema-less data
JP2010003218A (ja) 文書レビュー支援装置及び方法、並びにプログラム及び記憶媒体
US7532216B2 (en) Method of scaling a graphic character
JP3898645B2 (ja) 帳票書式編集装置および帳票書式編集プログラム
JP2001034763A (ja) 文書画像処理装置、その文書タイトル抽出方法及び文書タグ情報付与方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant