CN112287654A - 一种文档元素对齐方法及装置 - Google Patents

一种文档元素对齐方法及装置 Download PDF

Info

Publication number
CN112287654A
CN112287654A CN201910676796.5A CN201910676796A CN112287654A CN 112287654 A CN112287654 A CN 112287654A CN 201910676796 A CN201910676796 A CN 201910676796A CN 112287654 A CN112287654 A CN 112287654A
Authority
CN
China
Prior art keywords
group
elements
document
projection area
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910676796.5A
Other languages
English (en)
Inventor
周泽安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN201910676796.5A priority Critical patent/CN112287654A/zh
Priority to US17/619,167 priority patent/US11934765B2/en
Priority to EP20843058.7A priority patent/EP3971739A4/en
Priority to PCT/CN2020/104090 priority patent/WO2021013241A1/zh
Priority to KR1020217041141A priority patent/KR20220034731A/ko
Priority to JP2021574267A priority patent/JP7350899B2/ja
Publication of CN112287654A publication Critical patent/CN112287654A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)
  • Character Input (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明实施例提供了一种文档元素对齐方法及装置,涉及计算机信息技术领域,其中,上述方法包括:获得文档内包含的元素,对所获得的元素进行分组,获得各个分组之间的组间对齐方式,并获得各个分组内元素的组内对齐方式,按照组间对齐方式对各个分组进行对齐,并按照组内对齐方式对各个分组内元素进行对齐。与现有技术相比,应用本发明实施例提供的方案对文档元素进行对齐时,无需用户经多次重复手动对齐操作实现文档元素对齐,而是基于文档中元素之间的关系,对元素进行分组,并依据现有的组内对齐方式和组间对齐方式,实现对文档内元素的批量对齐操作。由此可见,应用本发明实施例提供的文档元素对齐方案,可以提高对齐文档元素的效率。

Description

一种文档元素对齐方法及装置
技术领域
本发明涉及计算机信息技术领域,特别是涉及一种文档元素对齐方法及装置。
背景技术
用户使用演示文档展示信息时,为增强信息的展示效果,在演示文档的制作与设计中会按照排版结构将演示文档内的元素进行对齐。
现有技术中,对演示文档中各个元素进行对齐时,一般是通过用户手动逐一设置文档内各元素的对齐方式实现的。
可见,应用上述现有技术提供的方式实现文档内元素对齐时,效率低,尤其是在文档中元素多的情况下,这种效率低的情况更加严重。
发明内容
本发明实施例的目的在于提供一种文档元素对齐方法及装置,以提高文档元素对齐的效率。具体技术方案如下:
第一方面,本发明实施例提供了一种文档元素对齐方法,所述方法包括:
获得文档内包含的元素;
对所获得的元素进行分组;
获得各个分组之间的组间对齐方式,并获得各个分组内元素的组内对齐方式;
按照所述组间对齐方式对各个分组进行对齐,并按照所述组内对齐方式对各个分组内元素进行对齐。
本发明的一个实施例中,所述对所获得的元素进行分组,包括:
确定所获得元素在所述文档中的区域;
将所确定区域中存在重叠区域的区域确定为一个区域组;
针对每一区域组,确定包含区域组中各区域的最小区域;
确定最小区域外轮廓一致的区域组,并将所确定的每一区域组中区域对应的元素划分为一个分组。
本发明的一个实施例中,在所述确定最小区域外轮廓一致的区域组之后,还包括:
判断所确定的每一区域组中区域的数量是否一致;
若一致,执行所述将所确定的每一区域组中区域对应的元素划分为一个分组步骤。
本发明的一个实施例中,所述对所获得的元素进行分组,包括:
对所获得的元素沿预设方向进行投影,得到投影区域;
确定所得到投影区域中存在重叠区域的投影区域,得到投影区域组;
针对每一投影区域组,确定包含投影区域组中各投影区域的最小投影区域;
确定各个最小投影区域一致的投影区域组,并将所确定的每一投影区域组中投影区域对应的元素划分为一个分组。
本发明的一个实施例中,在所述确定各个最小投影区域一致的投影区域组之后,还包括:
判断所确定的每一投影区域组中投影区域的数量是否一致;
若一致,执行所述将所确定的每一投影区域组中投影区域对应的元素划分为一个分组步骤。
本发明的一个实施例中,所述对所获得的元素进行分组,包括:
确定每一所获得元素的属性;
按照各个元素在所述文档中的分布,获得所确定属性的分布,并根据所获得的分布确定所述文档中元素的属性分布规律;
按照所述分布规律对所获得元素进行分组。
第二方面,本发明实施例提供了一种文档元素对齐装置,所述装置包括:
元素获得模块,用于获得文档内包含的元素;
元素分组模块,用于对所获得的元素进行分组;
对齐方式获得模块,用于获得各个分组之间的组间对齐方式,并获得各个分组内元素的组内对齐方式;
元素对齐模块,用于按照所获得的组间对齐方式对各个分组进行对齐,并按照所获得的组内对齐方式对各个分组内元素进行对齐。
本发明的一个实施例中,所述元素分组模块,包括:
区域确定单元,用于确定所获得元素在所述文档中的区域;
区域组确定单元,用于将所确定区域中存在重叠区域的区域确定为一个区域组;
最小区域确定单元,用于针对每一区域组,确定包含区域组中各区域的最小区域;
区域组识别单元,用于确定最小区域外轮廓一致的区域组;
第一元素分组单元,用于将所确定的每一区域组中区域对应的元素划分为一个分组。
本发明的一个实施例中,在所述区域组识别单元之后,所述元素分组模块还包括:
区域数量判断单元,用于确定各个最小区域外轮廓一致的区域组中所包含区域的数量是否一致,若一致,触发所述第一元素分组单元。
本发明的一个实施例中,所述元素分组模块,包括:
元素投影单元,用于对所获得的元素沿预设方向进行投影,得到投影区域;
投影区域组获得单元,用于确定所得到投影区域中存在重叠区域的投影区域,得到投影区域组;
最小投影区域确定单元,用于针对每一投影区域组,确定包含投影区域组中各投影区域的最小投影区域;
投影区域组识别单元,用于确定各个最小投影区域一致的投影区域组;
第二元素分组单元,用于将所确定的每一投影区域组中投影区域对应的元素划分为一个分组。
本发明的一个实施例中,在所述投影区域组识别单元之后,所述元素分组模块还包括:
投影区域数量判断单元,用于确定各个最小投影区域一致的投影区域组中所包含投影区域的数量是否一致,若一致,触发第二元素分组单元。
本发明的一个实施例中,所述元素分组模块,具体用于:
确定每一所获得元素的属性;
按照各个元素在所述文档中的分布,获得所确定属性的分布,并根据所获得的分布确定所述文档中元素的属性分布规律;
按照所述分布规律对所获得元素进行分组。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的文档元素对齐方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的文档元素对齐方法步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的文档元素对齐方法。
本发明实施例有益效果:
本发明实施例提供了一种文档元素对齐方案,首先获得文档内包含的元素,对所获得的元素进行分组,获得各个分组之间的组间对齐方式,并获得各个分组内元素的组内对齐方式,按照组间对齐方式对各个分组进行对齐,并按照组内对齐方式对各个分组内元素进行对齐。与现有技术相比,应用本发明实施例提供的方案对文档元素进行对齐时,无需用户经多次重复手动对齐操作实现文档元素对齐,而是基于文档中元素之间的关系,对元素进行分组,并依据现有的组内对齐方式和组间对齐方式,实现对文档内元素的批量对齐操作。
由此可见,应用本发明实施例提供的文档元素对齐方案,可以提高对齐文档元素的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的第一种文档元素对齐方法的流程示意图;
图2为本发明实施例所提供的第二种文档元素对齐方法的流程示意图;
图3为本发明实施例所提供的第一种文档页面示意图;
图4为本发明实施例所提供的第三种文档元素对齐方法的流程示意图;
图5a-图5b为本发明实施例所提供的第二种文档页面示意图;
图6为本发明实施例所提供的第四种文档元素对齐方法的流程示意图;
图7为本发明实施例所提供的第三种文档页面示意图;
图8为本发明实施例所提供的一种文档元素对齐装置的结构示意图;
图9为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种文档元素对齐方法及装置,以高效实现文档元素对齐。
下面首先对本发明实施例所提供的一种文档元素对齐方法进行介绍。
如图1所示,本发明实施例提供了第一种文档元素对齐方法,包括如下步骤101-步骤104:
步骤101:获得文档内包含的元素。
其中,文档内包含的元素可以是图片、文本、图形等,文档可以是文本文档、演示文档等。
本发明的一个实施例中,可以获得文档内包含的全部元素,也可以获得预设区域内的元素,例如,对于演示文稿而言,获得单个页面内的元素,本发明实施例并不对此进行限定。
本发明的一个实施例中,还可以是获得用户选中的元素。
步骤102:对所获得的元素进行分组。
本发明的一个实施例中,可以按照元素所在区域对元素进行分组,也可以按照元素投影区域对元素进行分组,也可以按照元素的属性对元素进行分组。
步骤103:获得各个分组之间的组间对齐方式,并获得各个分组内元素的组内对齐方式。
其中,上述对齐方式可以是左对齐、上对齐、居中对齐、分散对齐等。
对于组间对齐方式,本发明的一个实施例中,可以获得预设的组间对齐方式,也可以获得用户选中的组间对齐方式,还可以是以其中一个分组为基准,获得该分组的对齐方式,也就是,以上述作为基准的分组对齐方式作为上述组间对齐方式。
对于组内对齐方式,本发明的一个实施例中,可以获得预设的组内对齐方式,也可以获得用户选中的组内对齐方式,还可以是以其中一个分组为基准,获得该分组的组内对齐方式,也就是,以上述作为基准的分组的组内对齐方式作为其他分组的组内对齐方式。对于一个分组而言,还可以是获得组内其中一个元素的对齐方式,作为该分组的组内对齐方式。
步骤104:按照所获得的组间对齐方式对各个分组进行对齐,并按照所获得的组内对齐方式,对各个分组内元素进行对齐。
由以上可见,应用上述实施例提供的文档元素对齐方案,首先获得文档内包含的元素,对所获得的元素进行分组,获得各个分组之间的组间对齐方式,并获得各个分组内元素的组内对齐方式,按照组间对齐方式对各个分组进行对齐,并按照组内对齐方式对各个分组内元素进行对齐。与现有技术相比,应用本发明实施例提供的方案对文档元素进行对齐时,无需用户经多次重复手动对齐操作实现文档元素对齐,而是基于文档中元素之间的关系,对元素进行分组,并依据现有的组内对齐方式和组间对齐方式,实现对文档内元素的批量对齐操作。应用上述实施例提供的文档元素对齐方案,可以提高对齐文档元素的效率。
下面通过具体实施例对如何实现元素分组进行说明。
实施例一
参见图2,图2提供了第二种文档元素对齐方法的流程示意图,与前述图1所示实施例相比,本实施例中,上述步骤102对得到的元素进行分组,包括如下步骤102A-步骤102D。
步骤102A:确定所获得元素在上述文档中的区域。
其中,对于每一元素而言,上述区域为元素的外轮廓在文档中所围起的区域。例如,对于包含文本的文本框而言,元素的区域为文本框所占的区域,对于图形而言,元素的区域为图形外轮廓在文档中所围起的区域。
步骤102B:将所确定区域中存在重叠区域的区域确定为一个区域组。
例如,如图3所示,表示文档中一个页面,其中,元素301、302、303表示文本框,元素304、305、306表示图形,由于元素301与元素304在文档中的区域存在重叠区域,因此将元素301与元素304所在的区域作为一个区域组,同理,元素302与元素305所在的区域作为一个区域组,元素303与元素306所在的区域作为一个区域组。
步骤102C:针对每一区域组,确定包含区域组中各区域的最小区域。
本发明的一个实施例中,可以是以包含区域组中各区域的最小外接矩形区域作为最小区域。应用本实施例提供的方案,便于进行数据处理。
本发明的另一个实施例中,可以根据区域组中各区域的外轮廓得到包含所有区域的最小区域,例如,在各区域的外轮廓为圆形和矩形的情况下,最小区域为由圆形曲线和矩形线段所围起来的区域。这样在根据最小区域外轮廓对元素进行分组时,可以提高元素分组的准确率。
步骤102D:确定最小区域外轮廓一致的区域组,并将所确定的每一区域组中区域对应的元素划分为一个分组。
其中,上述外轮廓一致为最小区域形状、大小一致。
对于最小区域外轮廓不一致的区域组中所包含区域对应的元素,不确定为一个分组。
例如,如图3所示,由于元素301与元素304得到的区域组的最小区域和元素302与元素305得到的区域组的最小区域的外轮廓一致,因此元素301与元素304为一个分组,元素302与元素305为一个分组,而元素303与元素306得到的区域组的最小区域的外轮廓与其他最小区域的外轮廓不一致,因此元素303与元素306不为一个分组。
由此可见,应用上述实施例提供的方案,可以依据文档中元素的区域,实现对元素进行分组。
本发明的一个实施例中,在确定最小区域外轮廓一致的区域组步骤之后,还包括:
判断所确定的每一区域组中区域的数量是否一致,若一致,执行将所确定的每一区域组中区域对应的元素划分为一个分组步骤;若不一致,则不将所确定的每一区域组中区域对应的元素划分为一个分组。
例如,如图3所示,由于元素301与元素304得到的区域组中包含2个元素,元素302与元素305得到的区域组中同样包含2个元素,则认为元素301与元素304为一个分组,元素302与元素305为一个分组。
应用上述实施例提供的方案,可以在确定最小区域外轮廓之后,再对各个区域组中区域的数量进行判断,可以提高元素分组的准确率。
实施例二
参见图4,图4提供了第三种文档元素对齐方法的流程示意图,与前述图1所示实施例相比,本实施例中,上述步骤102对得到的元素进行分组,包括如下步骤102E-步骤102H。
步骤E,对所获得的元素沿预设方向进行投影,得到投影区域。
其中,上述预设方向可以为垂直方向,也可以为水平方向。
例如,上述预设方向可以是垂直向下,也可以是水平向右,本发明实施例并不对此进行限定。
如图5a所示,文档中存在多个元素,对各个元素分别水平向右和垂直向下进行投影,由于投影得到区域的是线段,为了便于观察和比较,预先设定投影的宽度,从而得到右侧图所示的投影区域。
步骤F,确定所得到投影区域中存在重叠区域的投影区域,得到投影区域组。
如图5b所示,元素1和元素6在水平向右的投影区域中,存在重叠区域,因此认为元素1和元素6属于同一个投影区域组。
步骤G,针对每一投影区域组,确定包含投影区域组中各投影区域的最小投影区域。
步骤H,确定各个最小投影区域一致的投影区域组,并将所确定的每一投影区域组中投影区域对应的元素划分为一个分组。
其中,可以依据最小投影区域的面积大小来判断各个最小投影区域是否一致。也可以依据沿与投影方向垂直方向的边的长度来判断各个最小投影区域是否一致。例如,在投影方向为水平向右的情况下,依据投影区域的高度来判断各个最小投影区域是否一致。
如图5b所示,由于501、502、503、504、505得到的投影区域组的最小投影区域一致,因此认为501、502、503、504、505分别为一个分组。
由以上可见,应用上述实施例提供的方案,可以依据文档中元素的投影,实现对元素进行分组,这样对于文档中不存在重叠区域的元素,依然可以进行分组。应用上述实施例提供的方案,可以提高文档中进行分组的元素的覆盖率。
本发明的一个实施例中,在上述确定各个最小投影区域一致的投影区域组步骤之后,还包括:
判断所确定的每一投影区域组中投影区域的数量是否一致,若一致,执行上述将所确定的每一投影区域组中投影区域对应的元素划分为一个分组步骤,若不一致,则不将所确定的每一投影区域组中投影区域对应的元素划分为一个分组。
应用上述实施例提供的方案,可以在确定最小投影区域外轮廓之后,再对各个投影区域组中投影区域的数量进行判断,可以提高元素分组的准确率。
实施例三
参见图6,图6提供了第四种文档元素对齐方法的流程示意图,与前述图1所示实施例相比,本实施例中,上述步骤102对得到的元素进行分组,包括如下步骤:
步骤102I,确定每一所获得元素的属性,按照各个元素在上述文档中的分布,获得所确定属性的分布,并根据所获得的分布确定上述文档中元素的属性分布规律,按照上述分布规律对所获得元素进行分组。
其中,上述属性可以是元素的类型,例如,类型包括文本、图形、图片等,上述属性还可以是元素的大小、角度、字体等。上述分布规律为根据元素的预设分布顺序得到的规律,其中预设分布顺序可以是从左到右、从上到下等。
上述分布规律可以是从预先设定的分布规律中查找得到的规律,也可以是根据规律算法对文档中元素的属性分布进行计算得到的分布规律。例如,预先设定的规律可以是“图形、文本”,也可以是“36号字体、14号字体、8号字体”,还可以是“蓝色、红色、黑色”等,将确定出的属性的分布与预先设定的规律进行匹配,得到元素的分布规律。
例如,参见图7,701-709分别表示页面中的元素,按照从左到右、从上到下的顺序遍历页面中的元素,依次得到各个元素的属性为:
星形、箭头、文字、星形、箭头、文字、星形、箭头、文字
由此得到元素的分布规律为“星形、箭头、文字”,根据上述规律,对元素进行分组;由于元素701、702、703符合上述分布规律,元素704、705、706符合上述规律,元素707、708、709符合上述规律,因此可以认为元素701、702、703为一个分组,元素704、705、706为一个分组,元素707、708、709为一个分组。
由以上可见,应用上述实施例提供的方案,可以依据文档中元素的属性,实现对元素进行分组,这样对于文档中在位置上不存在重叠关系的元素,依然可以进行分组。应用上述实施例提供的方案,可以提高文档中进行分组的元素的覆盖率。
对于上述实施例一、上述实施例二、上述实施例三提供的方案,在具体实现元素分组过程中,可以任选其中一种方案,也可以选择多种方案依次执行,例如,选择上述三种方案对文档中的元素进行分组,首先,依据实施例一提供的方案对文档中元素进行分组,如果可以实现对文档中的元素进行分组,则结束,若为否,则执行实施例二提供的方案,如果可以实现对文档中的元素进行分组,则结束,若为否,则执行实施例三提供的方案。对于上述各个实施例提供的方案的执行顺序,本发明并不进行限定。
与上述文档元素对齐方法相对应,本发明实施例还提供了一种文档元素对齐装置。
图8为本发明实施例提供的一种文档元素对齐装置的结构示意图,该装置包括:
元素获得模块801,用于获得文档内包含的元素;
元素分组模块802,用于对所获得的元素进行分组;
对齐方式获得模块803,用于获得各个分组之间的组间对齐方式,并获得各个分组内元素的组内对齐方式;
元素对齐模块804,用于按照所获得的组间对齐方式对各个分组进行对齐,并按照所获得的组内对齐方式,对各个分组内元素进行对齐。
本发明的一个实施例中,上述元素分组模块802,包括:
区域确定单元,用于确定所获得元素在上述文档中的区域;
区域组确定单元,用于将所确定区域中存在重叠区域的区域确定为一个区域组;
最小区域确定单元,用于针对每一区域组,确定包含区域组中各区域的最小区域;
区域组识别单元,用于确定最小区域外轮廓一致的区域组;
第一元素分组单元,用于将所确定的每一区域组中区域对应的元素划分为一个分组。
本发明的一个实施例中,在上述区域组识别单元之后,上述元素分组模块802还包括:
区域数量判断单元,用于确定各个最小区域外轮廓一致的区域组中所包含区域的数量是否一致,若一致,触发上述第一元素分组单元。
本发明的一个实施例中,上述元素分组模块802,包括:
元素投影单元,用于对所获得的元素沿预设方向进行投影,得到投影区域;
投影区域组获得单元,用于确定所得到投影区域中存在重叠区域的投影区域,得到投影区域组;
最小投影区域确定单元,用于针对每一投影区域组,确定包含投影区域组中各投影区域的最小投影区域;
投影区域组识别单元,用于确定各个最小投影区域一致的投影区域组;
第二元素分组单元,用于将所确定的每一投影区域组中投影区域对应的元素划分为一个分组。
本发明的一个实施例中,在上述投影区域识别单元之后,上述元素分组模块802还包括:
投影区域数量判断单元,用于确定各个最小投影区域一致的投影区域组中所包含投影区域的数量是否一致,若一致,触发第二元素分组单元。
本发明的一个实施例中,上述元素分组模块802,具体用于:
确定每一所获得元素的属性;
按照各个元素在上述文档中的分布,获得所确定属性的分布,并根据所获得的分布确定上述文档中元素的属性分布规律;
按照上述分布规律对所获得元素进行分组。
由以上可见,应用上述实施例提供的文档元素对齐方案,首先获得文档内包含的元素,对所获得的元素进行分组,获得各个分组之间的组间对齐方式,并获得各个分组内元素的组内对齐方式,按照组间对齐方式对各个分组进行对齐,并按照组内对齐方式对各个分组内元素进行对齐。与现有技术相比,应用本发明实施例提供的方案对文档元素进行对齐时,无需用户经多次重复手动对齐操作实现文档元素对齐,而是基于文档中元素之间的关系,对元素进行分组,并依据现有的组内对齐方式和组间对齐方式,实现对文档内元素的批量对齐操作。应用上述实施例提供的文档元素对齐方案,可以提高对齐文档元素的效率。
与前述文档元素对齐方法相对应,本发明实施例还提供了一种电子设备。
本发明的一个实施例中,如图9所示,还提供了一种电子设备的结构示意图,该电子设备包括:处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现本发明实施例提供的文档元素对齐方法。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实现文档元素对齐方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一实现文档元素对齐方法。
由以上可见,应用上述实施例提供的文档元素对齐方案,首先获得文档内包含的元素,对所获得的元素进行分组,获得各个分组之间的组间对齐方式,并获得各个分组内元素的组内对齐方式,按照组间对齐方式对各个分组进行对齐,并按照组内对齐方式对各个分组内元素进行对齐。
本发明实施例提供的电子设备、可读存储介质以及计算机程序产品,可以快速准确地实现本发明实施例提供的文档元素对齐方法。与现有技术相比,应用本发明实施例提供的方案对文档元素进行对齐时,无需用户经多次重复手动对齐操作实现文档元素对齐,而是基于文档中元素之间的关系,对元素进行分组,并依据现有的组内对齐方式和组间对齐方式,实现对文档内元素的批量对齐操作。应用上述实施例提供的文档元素对齐方案,可以提高对齐文档元素的效率。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (14)

1.一种文档元素对齐方法,其特征在于,所述方法包括:
获得文档内包含的元素;
对所获得的元素进行分组;
获得各个分组之间的组间对齐方式,并获得各个分组内元素的组内对齐方式;
按照所述组间对齐方式对各个分组进行对齐,并按照所述组内对齐方式对各个分组内元素进行对齐。
2.根据权利要求1所述的方法,其特征在于,所述对所获得的元素进行分组,包括:
确定所获得元素在所述文档中的区域;
将所确定区域中存在重叠区域的区域确定为一个区域组;
针对每一区域组,确定包含区域组中各区域的最小区域;
确定最小区域外轮廓一致的区域组,并将所确定的每一区域组中区域对应的元素划分为一个分组。
3.根据权利要求2所述的方法,其特征在于,在所述确定最小区域外轮廓一致的区域组之后,还包括:
判断所确定的每一区域组中区域的数量是否一致;
若一致,执行所述将所确定的每一区域组中区域对应的元素划分为一个分组步骤。
4.根据权利要求1所述的方法,其特征在于,所述对所获得的元素进行分组,包括:
对所获得的元素沿预设方向进行投影,得到投影区域;
确定所得到投影区域中存在重叠区域的投影区域,得到投影区域组;
针对每一投影区域组,确定包含投影区域组中各投影区域的最小投影区域;
确定各个最小投影区域一致的投影区域组,并将所确定的每一投影区域组中投影区域对应的元素划分为一个分组。
5.根据权利要求4所述的方法,其特征在于,在所述确定各个最小投影区域一致的投影区域组之后,还包括:
判断所确定的每一投影区域组中投影区域的数量是否一致;
若一致,执行所述将所确定的每一投影区域组中投影区域对应的元素划分为一个分组步骤。
6.根据权利要求1所述的方法,其特征在于,所述对所获得的元素进行分组,包括:
确定每一所获得元素的属性;
按照各个元素在所述文档中的分布,获得所确定属性的分布,并根据所获得的分布确定所述文档中元素的属性分布规律;
按照所述分布规律对所获得元素进行分组。
7.一种文档元素对齐装置,其特征在于,所述装置包括:
元素获得模块,用于获得文档内包含的元素;
元素分组模块,用于对所获得的元素进行分组;
对齐方式获得模块,用于获得各个分组之间的组间对齐方式,并获得各个分组内元素的组内对齐方式;
元素对齐模块,用于按照所获得的组间对齐方式对各个分组进行对齐,并按照所获得的组内对齐方式对各个分组内元素进行对齐。
8.根据权利要求7所述的装置,其特征在于,所述元素分组模块,包括:
区域确定单元,用于确定所获得元素在所述文档中的区域;
区域组确定单元,用于将所确定区域中存在重叠区域的区域确定为一个区域组;
最小区域确定单元,用于针对每一区域组,确定包含区域组中各区域的最小区域;
区域组识别单元,用于确定最小区域外轮廓一致的区域组;
第一元素分组单元,用于将所确定的每一区域组中区域对应的元素划分为一个分组。
9.根据权利要求8所述的装置,其特征在于,在所述区域组识别单元之后,所述元素分组模块还包括:
区域数量判断单元,用于确定各个最小区域外轮廓一致的区域组中所包含区域的数量是否一致,若一致,触发所述第一元素分组单元。
10.根据权利要求7所述的装置,其特征在于,所述元素分组模块,包括:
元素投影单元,用于对所获得的元素沿预设方向进行投影,得到投影区域;
投影区域组获得单元,用于确定所得到投影区域中存在重叠区域的投影区域,得到投影区域组;
最小投影区域确定单元,用于针对每一投影区域组,确定包含投影区域组中各投影区域的最小投影区域;
投影区域组识别单元,用于确定各个最小投影区域一致的投影区域组;
第二元素分组单元,用于将所确定的每一投影区域组中投影区域对应的元素划分为一个分组。
11.根据权利要求10所述的装置,其特征在于,在所述投影区域组识别单元之后,所述元素分组模块还包括:
投影区域数量判断单元,用于确定各个最小投影区域一致的投影区域组中所包含投影区域的数量是否一致,若一致,触发第二元素分组单元。
12.根据权利要求7所述的装置,其特征在于,所述元素分组模块,具体用于:
确定每一所获得元素的属性;
按照各个元素在所述文档中的分布,获得所确定属性的分布,并根据所获得的分布确定所述文档中元素的属性分布规律;
按照所述分布规律对所获得元素进行分组。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的文档元素对齐方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的文档元素对齐方法步骤。
CN201910676796.5A 2019-07-25 2019-07-25 一种文档元素对齐方法及装置 Pending CN112287654A (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201910676796.5A CN112287654A (zh) 2019-07-25 2019-07-25 一种文档元素对齐方法及装置
US17/619,167 US11934765B2 (en) 2019-07-25 2020-07-24 Document element alignment method and apparatus, electronic device, and storage medium
EP20843058.7A EP3971739A4 (en) 2019-07-25 2020-07-24 DOCUMENT ELEMENT ALIGNMENT METHOD AND APPARATUS; ELECTRONIC DEVICE AND STORAGE MEDIA
PCT/CN2020/104090 WO2021013241A1 (zh) 2019-07-25 2020-07-24 一种文档元素对齐方法、装置、电子设备及存储介质
KR1020217041141A KR20220034731A (ko) 2019-07-25 2020-07-24 문서 요소 정렬 방법 및 장치
JP2021574267A JP7350899B2 (ja) 2019-07-25 2020-07-24 文書要素整列方法および装置、電子デバイス、ならびに記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910676796.5A CN112287654A (zh) 2019-07-25 2019-07-25 一种文档元素对齐方法及装置

Publications (1)

Publication Number Publication Date
CN112287654A true CN112287654A (zh) 2021-01-29

Family

ID=74193317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910676796.5A Pending CN112287654A (zh) 2019-07-25 2019-07-25 一种文档元素对齐方法及装置

Country Status (6)

Country Link
US (1) US11934765B2 (zh)
EP (1) EP3971739A4 (zh)
JP (1) JP7350899B2 (zh)
KR (1) KR20220034731A (zh)
CN (1) CN112287654A (zh)
WO (1) WO2021013241A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1770174A (zh) * 2004-10-20 2006-05-10 微软公司 剖析分层列表和大纲
JP2014086006A (ja) * 2012-10-26 2014-05-12 Toshiba Corp 電子機器および方法
US8812946B1 (en) * 2011-10-17 2014-08-19 Google Inc. Systems and methods for rendering documents
US20150149893A1 (en) * 2012-07-06 2015-05-28 Microsoft Corporation Multi-level List Detection Engine
CN105393246A (zh) * 2013-06-28 2016-03-09 微软技术许可有限责任公司 用属性组选择和编辑视觉元素
US20180088747A1 (en) * 2016-09-29 2018-03-29 Konica Minolta Laboratory U.S.A., Inc. Determination of indentation levels of a bulleted list
CN109815446A (zh) * 2018-12-28 2019-05-28 东软集团股份有限公司 页边界处理方法、装置、存储介质和电子设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090678B1 (en) * 2003-07-23 2012-01-03 Shopping.Com Systems and methods for extracting information from structured documents
US7295708B2 (en) * 2003-09-24 2007-11-13 Microsoft Corporation System and method for detecting a list in ink input
US8407589B2 (en) * 2007-04-20 2013-03-26 Microsoft Corporation Grouping writing regions of digital ink
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム
US8365072B2 (en) * 2009-01-02 2013-01-29 Apple Inc. Identification of compound graphic elements in an unstructured document
US9135249B2 (en) * 2009-05-29 2015-09-15 Xerox Corporation Number sequences detection systems and methods
CN104517106B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种列表识别方法与系统
CN104881298A (zh) 2014-02-27 2015-09-02 国际商业机器公司 用于在线显示文档的方法和装置
KR20160062565A (ko) * 2014-11-25 2016-06-02 삼성전자주식회사 디바이스 및 디바이스의 필기 컨텐트 제공 방법
US10387034B2 (en) * 2015-09-03 2019-08-20 Microsoft Technology Licensing, Llc Modifying captured stroke information into an actionable form
US9842251B2 (en) * 2016-01-29 2017-12-12 Konica Minolta Laboratory U.S.A., Inc. Bulleted lists
WO2019077405A1 (en) * 2017-10-17 2019-04-25 Handycontract, LLC METHOD, DEVICE AND SYSTEM FOR IDENTIFYING DATA ELEMENTS IN DATA STRUCTURES
US10579707B2 (en) * 2017-12-29 2020-03-03 Konica Minolta Laboratory U.S.A., Inc. Method for inferring blocks of text in electronic documents
US11803706B2 (en) * 2020-01-24 2023-10-31 Thomson Reuters Enterprise Centre Gmbh Systems and methods for structure and header extraction
CN112528813B (zh) * 2020-12-03 2021-07-23 上海云从企业发展有限公司 表格识别方法、装置以及计算机可读存储介质
US20230059494A1 (en) * 2021-08-19 2023-02-23 Digital Asset Capital, Inc. Semantic map generation from natural-language text documents

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1770174A (zh) * 2004-10-20 2006-05-10 微软公司 剖析分层列表和大纲
US8812946B1 (en) * 2011-10-17 2014-08-19 Google Inc. Systems and methods for rendering documents
US20150149893A1 (en) * 2012-07-06 2015-05-28 Microsoft Corporation Multi-level List Detection Engine
JP2014086006A (ja) * 2012-10-26 2014-05-12 Toshiba Corp 電子機器および方法
CN105393246A (zh) * 2013-06-28 2016-03-09 微软技术许可有限责任公司 用属性组选择和编辑视觉元素
US20180088747A1 (en) * 2016-09-29 2018-03-29 Konica Minolta Laboratory U.S.A., Inc. Determination of indentation levels of a bulleted list
CN109815446A (zh) * 2018-12-28 2019-05-28 东软集团股份有限公司 页边界处理方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
KR20220034731A (ko) 2022-03-18
US20220358279A1 (en) 2022-11-10
WO2021013241A1 (zh) 2021-01-28
EP3971739A1 (en) 2022-03-23
US11934765B2 (en) 2024-03-19
JP2022541725A (ja) 2022-09-27
JP7350899B2 (ja) 2023-09-26
EP3971739A4 (en) 2022-07-06

Similar Documents

Publication Publication Date Title
CN111428457B (zh) 数据表的自动格式化
US11880382B2 (en) Systems and methods for generating tables from print-ready digital source documents
CN113190781B (zh) 页面布局方法、装置、设备及存储介质
WO2020118485A1 (en) Method of Detecting User Interface Layout Issues for Web Applications
US20140325345A1 (en) Consistent Scaling of Web-Based Content Across Devices Having Different Screen Metrics
US11176310B2 (en) Facilitating dynamic document layout by determining reading order using document content stream cues
CN109656652B (zh) 网页图表绘制方法、装置、计算机设备和存储介质
CN112417899A (zh) 文字翻译方法、装置、计算机设备和存储介质
CN110309496B (zh) 数据汇总方法、电子装置及计算机可读存储介质
CN111523531A (zh) 文字处理方法、装置、电子设备及计算机可读存储介质
CN108280135B (zh) 实现数据结构可视化的方法、装置和电子设备
CN110688995B (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
CN117725886A (zh) 一种版式文件检查方法及装置
CN112287654A (zh) 一种文档元素对齐方法及装置
CN111914517A (zh) 文档超链接创建方法、装置、电子设备和可读存储介质
US9361719B1 (en) Label placement on a digital map
CN115116084A (zh) 引注识别方法、装置、设备及存储介质
CN111881050B (zh) 一种文本图层的剪裁方法、装置及电子设备
CN115544620A (zh) 图纸中门窗表解析方法、装置、设备及存储介质
CN111783180B (zh) 图纸拆分方法及相关装置
CN110321124B (zh) 一种文本布局优化方法、装置及电子设备
CN114049633A (zh) 图像识别方法、装置、电子设备及存储介质
CN114283436A (zh) 一种表格识别方法、装置、设备及存储介质
US20180365245A1 (en) Method and apparatus for recognizing slide
US20230316604A1 (en) Reuse of infographics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination