CN112784562A - 一种文档中文本内容的排版方法及装置 - Google Patents

一种文档中文本内容的排版方法及装置 Download PDF

Info

Publication number
CN112784562A
CN112784562A CN202010005498.6A CN202010005498A CN112784562A CN 112784562 A CN112784562 A CN 112784562A CN 202010005498 A CN202010005498 A CN 202010005498A CN 112784562 A CN112784562 A CN 112784562A
Authority
CN
China
Prior art keywords
document
typesetting
template
content
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010005498.6A
Other languages
English (en)
Other versions
CN112784562B (zh
Inventor
胡娟
周泽安
刘堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN202010005498.6A priority Critical patent/CN112784562B/zh
Priority claimed from CN202010005498.6A external-priority patent/CN112784562B/zh
Publication of CN112784562A publication Critical patent/CN112784562A/zh
Application granted granted Critical
Publication of CN112784562B publication Critical patent/CN112784562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明实施例提供了一种文档中文本内容的排版方法及装置,涉及计算机软件技术领域,其中,上述方法包括:对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,作为基准逻辑层次结构,文档内容为文档中的文本内容;根据基准逻辑层次结构,在排版模板库存储的排版模板中,查找与文档相匹配的目标排版模板;基于目标排版模板对文档进行排版。应用本发明实施例提供的方案进行文档排版,可以提高文档排版的效率。

Description

一种文档中文本内容的排版方法及装置
技术领域
本发明涉及计算机软件的技术领域,特别是涉及一种文档中文本内容的排版方法及装置。
背景技术
对文档内容进行排版可以增加文档的美观度,并便于用户阅读文档。
现有技术中,对文档进行排版时,一般获得用户手动设置的各项文档内容的样式属性,然后按照所获得的样式属性对文档进行排版。
由于文档内容的样式属性涉及字符的字体、字符的样式、段落格式等多种样式属性,因此,需要用户逐一对这些样式属性进行设置,用户操作繁琐,导致文档排版效率低。当文档中包括多项文档内容时,需要用户针对每一项文档内容逐一设置上述样式属性,用户操作繁琐的情况以及文档排版效率低的情况更加严重。
发明内容
本发明实施例的目的在于提供一种文档中文本内容的排版方法及装置,以提高文档排版效率。具体技术方案如下:
第一方面,本发明实施例提供了一种文档中文本内容的排版方法,所述方法包括:
对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,作为基准逻辑层次结构,所述文档内容为文档中的文本内容;
根据所述基准逻辑层次结构,在排版模板库存储的排版模板中,查找与所述文档相匹配的目标排版模板;
基于所述目标排版模板对所述文档进行排版。
本发明的一个实施例中,所述对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,包括:
统计文档的各项文档内容的字符数量;
获得各项文档内容已设置的样式属性;
分别从各项文档内容中选择用于表示各项文档内容间逻辑层次的字符;
获得各项文档内容在文档中的位置;
对各项文档内容进行语义分析,确定文档内容的语义;
根据统计得到的字符数量、所获得的样式属性、所选择的字符、所获得的位置以及所确定的语义,确定各项文档内容之间的逻辑层次结构。
本发明的一个实施例中,所述根据所述基准逻辑层次结构,在排版模板库存储的排版模板中,查找与所述文档相匹配的目标排版模板,包括:
分别计算所述基准逻辑层次结构与排版模板库中排版模板内各项文档内容的逻辑层次结构的相似度,作为第一相似度;
获得各项文档内容已设置的样式属性,作为基准样式属性;
计算所述基准样式属性与排版模板库中排版模板内各项文档内容的样式属性的相似度,作为第二相似度;
根据所述第一相似度与第二相似度,计算所述排版模板库中各排版模板与所述文档的匹配度;
根据计算得到的匹配度,从所述排版模板库中选择目标排版模板。
本发明的一个实施例中,所述根据计算得到的匹配度,从所述排版模板库中选择目标排版模板,包括:
根据计算得到的匹配度和所述排版模板库中各个排版模板的预设美观度,从所述排版模板库中选择模板排版模板。
第二方面,本发明的一个实施例提供了一种文档中文本内容的排版装置,所述装置包括:
结构确定模块,用于对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,作为基准逻辑层次结构,所述文档内容为文档中的文本内容;
模板查找模块,用于根据所述基准逻辑层次结构,在排版模板库存储的排版模板中,查找与所述文档相匹配的目标排版模板;
文档排版模块,用于基于所述目标排版模板对所述文档进行排版。
本发明的一个实施例中,所述结构确定模块,具体用于:
统计文档的各项文档内容的字符数量;
获得各项文档内容已设置的样式属性;
分别从各项文档内容中选择用于表示各项文档内容间逻辑层次的字符;
获得各项文档内容在文档中的位置;
对各项文档内容进行语义分析,确定文档内容的语义;
根据统计得到的字符数量、所获得的样式属性、所选择的字符、所获得的位置以及所确定的语义,确定各项文档内容之间的逻辑层次结构。
本发明的一个实施例中,所述模板查找模块,包括:
第一相似度计算子模块,用于分别计算所述基准逻辑层次结构与排版模板库中排版模板内各项文档内容的逻辑层次结构的相似度,作为第一相似度;
属性获得子模块,用于获得各项文档内容已设置的样式属性,作为基准样式属性;
第二相似度计算子模块,用于计算所述基准样式属性与排版模板库中排版模板内各项文档内容的样式属性的相似度,作为第二相似度;
匹配度计算子模块,用于根据所述第一相似度与第二相似度,计算所述排版模板库中各排版模板与所述文档的匹配度;
模板选择子模块,用于根据计算得到的匹配度,从所述排版模板库中选择目标排版模板。
本发明的一个实施例中,所述模板选择子模块,具体用于:
根据计算得到的匹配度和所述排版模板库中各个排版模板的预设美观度,从所述排版模板库中选择模板排版模板。
第三方面,本发明的一个实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,本发明的一个实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面任一所述的方法步骤。
本发明实施例有益效果:
应用本发明实施例提供的方案对文档中文本内容进行排版时,对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,作为基准逻辑层次结构,上述文档内容为文档中的文本内容,根据上述基准逻辑层次结构,在排版模板库存储的排版模板中,查找与上述文档相匹配的目标排版模板,基于上述目标排版模板对文档进行排版。本发明实施例提供的方案中,根据文档的逻辑层次结构在排版模板库中查找与文档相匹配的排版模板对文档进行排版,由于上述逻辑层次结构是对文档内容进行分析得到的,因此选择的目标排版模板能够和文档中的各项文档内容相吻合,也更能符合文档的排版需求。同时节省了用户手动为每一项文档内容不同的样式属性进行设置的时间,从而提高了文档排版的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的第一种文档中文本内容的排版方法的流程示意图;
图2A为本发明实施例提供的第二种文档中文本内容的排版方法的流程示意图;
图2B为本发明实施提供的第一种文档中部分文档内容示意图;
图2C为本发明实施例提供的第二种文档中部分文档内容示意图;
图3A为本发明实施例提供的第三种文档中文本内容的排版方法的流程示意图;
图3B为本发明实施例提供的第三种文档中部分文档内容示意图;
图4为本发明实施例提供的一种文档中文本内容的排版装置的结构示意图;
图5为本发明实施例提供的另一种文档中文本内容的排版装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的第一种文档中文本内容的排版方法的流程示意图,该方法包括以下步骤:
S101:对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,作为基准逻辑层次结构。
其中,上述文档可以是任意格式的文档,例如,Word文档、WPS文档、PPT文档、txt文档等等。
具体的,上述文档内容为文档中的文本内容,一项文档内容可以为文档中的一个段落、几个段落或几个句子。例如,一项文档内容可以为位于一个文本框内的多个段落等。
上述逻辑层次结构可以理解为:从文档内容的逻辑角度来看,各项文档内容之间的层级结构。例如,可以以标题、大纲、具体描述内容表示各个层级。其中,可以认为标题的层级高于大纲,大纲的层级高于具体描述内容。在标题中,一级标题的层级最高,其他级别标题的层级按级别增大依次变低。在大纲中,一级大纲的层级最高,其他级别大纲的层级按级别增大依次变低。
本发明的一个实施例中,可以对文档的各项文档内容的字符数量、已有的样式属性、表示各项文档内容间逻辑层次的字符、文档内容在文档中的位置以及文档内容的语义进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,具体可参见图2A,这里暂不详述。
本发明的另一个实施例中,还可以对各项文档内容的语义进行分析,根据文档内容表达的语义之间的逻辑层次,确定文档内容之间的逻辑层次结构。
S102:根据上述基准逻辑层次结构,在排版模板库存储的排版模板中,查找与上述文档相匹配的目标排版模板。
其中,排版模板库中存储的排版模板中定义了各个层级的文档内容的各项样式属性的属性值,或定义一个层级的文档内容的各项样式属性的属性值。
例如,上述样式属性可以包括以下(一)至(二十二)二十二种中的至少一种。
(一)、字体,如,微软雅黑、Arial、黑体、微软雅黑Light等。
(二)、字号,如,小三、五号等。
(三)、字体颜色,如,红色、蓝色等。
(四)、字形,如,常规、加粗、倾斜、加粗并倾斜等。
(五)、下划线类型,如,虚线、波浪线等。
(六)、下划线颜色,如,红色、蓝色等。
(七)、字符阴影,如,灰色阴影、绿色阴影等。
(八)、字体效果,如,删除线、双删除线、上标、下标、小写大写字母、全部大写、等高字符、字符间距等。
(九)、段落属性,如,首行缩进、左缩进、左对齐、居中对齐、右对齐、两端对齐、分散对齐等。
(十)、段落间距,如,段前1行、段后0.5行等。
(十一)、行距,如,1.5倍行距、22磅等。
(十二)、制表位,如,左对齐式制表符、居中对齐式制表符、右对齐式制表符。
(十三)、首尾字符,如,按中文习惯控制首尾字符等。
(十四)、项目编号,如,“1、”、“1)”等。
(十五)、项目符号,如,“●”、“■”等。
(十六)、字体对齐方式,如,顶端对齐、居中、罗马方式对齐、底端对齐等。
(十七)、字符方向,如,横排、竖排、所有字符旋转90度、所有字符旋转270度、堆积等。
(十八)、文本填充,如,渐变填充等。
(十九)、文本轮廓,如,无轮廓、红色轮廓等。
(二十)、文本效果,如,阴影、倒影、发光、三维旋转、转换等。
(二十一)、艺术字,如,各类艺术字样式。
(二十二)、文本框属性,如横向文本框、纵向文本框等。
需要说明的是,本发明仅仅以上述为例进行说明,上述样式属性并不仅限于以上几种。
具体的,可以根据上述文档内容之间的逻辑层次结构与排版模板包含的逻辑层次结构的相似度、文档内容已有样式属性与排版模板包含的样式属性的相似度等信息中的至少一种,查找与上述文档相匹配的目标排版模板。具体过程可以参见图3A,这里暂不详述。
S103:基于上述目标排版模板对上述文档进行排版。
具体的,可以根据目标排版模板中定义的各个层级的文档内容的各个样式属性的属性值,对文档中的各项文档内容的样式属性进行设置,从而对文档进行排版。
本发明的一个实施例中,可以检测用户的输入操作,若输入操作为预设操作则执行上述文档中文本内容的排版方法。具体的,上述预设操作可以为用户自定义的操作,还可以是开发人员在开发阶段预先设定的操作。例如,上述操作可以快捷键被按下的操作、快捷手势或鼠标点击操作。如,上述快捷键可以为Shift+Ctrl+C等组合键。上述快捷手势可以为在触控屏幕上左滑、右滑等手势操作。上述鼠标点击可以为三次快速点击鼠标左键等操作。
也可以以预设时长为周期,执行上述文档中文本内容的排版方法。例如,上述预设时长可以为:1分钟、2分钟等。
还可以检测修改文档的操作,若检测到了文档被修改,则执行上述文档中文本内容的排版方法。从而使用户在对文档进行修改的同时,可以实时获得本方案对文档排版进行的修改。
还可以检测其他程序调用该方案的调用指令,当接收到上述调用指令时执行上述文档中文档内容排版方法。
应用上述实施例提供的方案对文档中文本内容进行排版时,对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,作为基准逻辑层次结构,上述文档内容为文档中的文本内容,根据上述基准逻辑层次结构,在排版模板库存储的排版模板中,查找与上述文档相匹配的目标排版模板,基于上述目标排版模板对文档进行排版。本发明实施例提供的方案中,根据文档的逻辑层次结构在排版模板库中查找与文档相匹配的排版模板对文档进行排版,由于上述逻辑层次结构是对文档内容进行分析得到的,因此选择的目标排版模板能够和文档中的各项文档内容相吻合,也更能符合文档的排版需求。同时节省了用户手动为每一项文档内容不同的样式属性进行设置的时间,从而提高了文档排版的效率。
本发明的一个实施例中,参见图2A,提供了第二种文档中文本内容的排版方法的流程示意图,与上述图1所示实施例相比,本实施例中,上述S101对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,作为基准逻辑层次结构,可以通过以下S101A-S101F实现。
S101A:统计文档的各项文档内容的字符数量。
其中,文档内容中的字符可以包括汉字字符、英文字符、标点字符、数字字符等各种字符。统计各项文档内容的字符数量时,可以理解为统计每一项文档内容中上述各种字符的数量。
具体的,一项文档内容对应一个字符数量。例如,一项文档内容的字符数量可以为20、30等。
本发明的一个实施例中,当一项文档内容为文档中的一个段落时,可以统计每两个换行符之间的字符数量,作为该项文档内容的字符数量。
S101B:获得各项文档内容已设置的样式属性。
本发明的一个实施例中,可以通过获得各项文档内容的样式属性的属性值确定各项文档内容已设置的样式属性。
S101C:分别从各项文档内容中选择用于表示各项文档内容间逻辑层次的字符。
本发明的一个实施例中,可以通过遍历各项文档内容,提取出各项文档内容中包含的预设字符,将所提取的字符确定为表示各项文档内容间逻辑层次的字符。
例如,上述预设字符可以为:数字字符,如“1、”、“2、”、“(1)”等。上述预设字符还可以是汉字字符,如“第一方面”、“第二”等。上述预设字符还可以是符号字符,如“■”等,或其他字符。
S101D:获得各项文档内容在文档中的位置。
本发明的一个实施例中,可以以文档内容在文档中自上至下的顺序号来表示文档内容在文档中的位置。
例如,文档内容A的位置可以为文档中自上至下的顺序号2。
当然,各项文档内容在文档中的位置还可以以文档内容在文档中的行号、列号等信息表示。
S101E:对各项文档内容进行语义分析,确定文档内容的语义。
本发明的一个实施例中,可以通过机器学习模型或神经网络模型对文档内容的语义进行分析。
S101F:根据统计得到的字符数量、所获得的样式属性、所选择的字符、所获得的位置以及所确定的语义,确定各项文档内容之间的逻辑层次结构。
下面通过举例说明如何确定各项文档内容的层级。
第一种情况,可以认为字符数量低于预设数量的文档内容为标题的可能性较高,因此上述文档内容的层级为高层级的可能性较高。例如,预设数量可以为15个字符、25个字符等。若预设数量为15个字符,某一项文档内容的字符数量为10个字符,则可以认为该项文档内容的层级为高层级的可能性较高。
第二种情况,若某几项文档内容已设置的样式属性的属性值相同,则可以认为这几项文档内容的层级相同。例如,若文档中包含10项文档内容,其中7项文档内容的字体为黑色、不加粗,其他3项文档内容的字体为红色、加粗。则认为上述7项文档内容的层级相同,与另外3项文档内容的层级不相同,另外3项文档内容的层级相同。
第三种情况,可以根据文档内容已设置的样式属性中的缩进字符数对文档内容的层级进行判断。具体的,可以认为缩进字符数越少的文档内容层级越高,缩进字符数相同的文档内容层级相同。例如,若文档内容A无缩进,文档内容B缩进2字符,则可以认为文档内容A的层级比文档内容B的层级高。
第四种情况,可以认为包含所选择的字符、且所选择的字符的形式相同的文档内容的层级相同。例如,若文档内容A与文档内容B分别包含所选择的字符“1、”、“2、”,“1、”和“2、”的形式相同,则可以认为文档内容A的层级与文档内容B的层级相同。
第五种情况,可以认为文档中位于前端的文档内容比位于后端的文档内容的层级更高。
第六种情况,可以根据确定的文档内容的语义将同一文档内容中的不同文本内容划分为多个文档内容,或将不同文档内容合并为同一文档内容。
例如,若出现意外换行情况导致本应属于同一文档内容的文本内容被划分为多个文档内容时,可以通过文档内容的语义分析结果将上述多个文档内容合并为同一文档内容,统一进行排版。
当同一文档内容中文本内容可以被划分为不同层级,或被划分为同一层级的不同文档内容,分别进行排版。如,某一文档内容中包含“第一”、“第二”、“第三”等字符,可以将上述“第一”、“第二”、“第三”及与各自相关的文本内容划分为3个不同的文档内容,上述3个文档内容属于同一层级分别进行排版。
本发明的一个实施例中,可以认为字符数量小于预设数量、已设置的样式属性中缩进字符数小于等于预设缩进数的文档内容、已设置的除缩进以外的样式属性的属性值与其他大部分文档内容的样式属性的属性值不同的文档内容属于最高层级,即第一层级。
可以认为字符数量小于预设数量、已设置的样式属性中缩进字符数小于等于预设缩进数、已设置的除缩进以外的样式属性的属性值与其他大部分文档内容的样式属性的属性值相同的文档内容属于次高层级,即第二层级。
可以认为已设置的样式属性中缩进字符数大于预设缩进数、已设置的除缩进以外的样式属性的属性值与其他大部分文档内容的样式属性的属性值不同的文档内容属于第三层级。
可以认为已设置的样式属性中缩进字符数大于预设缩进数、已设置的除缩进以外的样式属性的属性值与其他大部分文档内容的样式属性的属性值相同的文档内容属于第四层级。
可以认为已设置的样式属性的属性值相同、和/或包含所选择的字符、且所选择的字符的形式相同的文档内容所属层级相同。
可以认为已设置的样式属性相同、但所选择的字符的形式不同的文档内容中位置位于文档前端的文档内容的所属层级较高。
例如,上述预设预设数量可以为15个字符,预设缩进数可以为2个字符,某文档中包含10项文档内容,其中7项文档内容的字体颜色为黑色,除字体颜色之外10项文档内容的其他样式属性的属性值相同。
文档内容A字体颜色为红色,缩进字符数为0个字符,字符数量为10个字符,则可以初步认为文档内容A属于第一层级。
文档内容B字体颜色为黑色,缩进字符数为0个字符,字符数量为10个字符,则可以初步认为文档内容B属于第二层级。
文档内容C字体颜色为红色,缩进字符数为4个字符,则可以初步认为文档内容C属于第三层级。
文档内容D字体颜色为黑色,缩进字符数为4个字符,则可以初步认为文档内容D属于第四层级。
文档内容E的字体颜色为红色,缩进字符数为4个字符,则可以初步认为文档内容E与文档内容C同属于第三层级。但文档内容C中包含的上述所选择的字符为“1、”,文档内容E中包含的上述所选择的字符为“一、”,与文档内容C中的所选择的字符形式不同,因此可以认为位置位于前端的文档内容C的层级为第三层级,文档内容E的层级相应的下降一个层级为第四层级,文档内容D的层级同样下降一个层级为第五层级。
另外,也可以先将文档内容划分为多个不同的层级,再根据各个层级中位于文档最前端的文档内容的位置区分不同层级的高低。例如,文档中按照位置前后的顺序具有文档内容1、文档内容2、文档内容3、文档内容4。其中,文档内容1与文档内容4为一个层级,文档内容2与文档内容3为一个层级,由于文档内容1位于文档内容2前方,因此文档内容1与文档内容4的层级高于文档内容2与文档内容3。
还可以先将文档内容划分为标题内容与正文内容,再在标题内容与正文内容中分别进行层级排序。
使用上述方法为各项文档内容的所属层级进行判断,确定各项文档内容的所属层级,从而获得各项文档内容之间的逻辑层次结构。
图2B为本发明实施例提供的第一种文档中部分文档内容示意图。该图示出文档中的部分文档内容。
图2C为本发明实施例提供的第二种文档中部分文档内容示意图。该图示出图2B中文档内容之间的逻辑层次结构。
图中粗线框所框出文档内容的缩进字符数为0个字符、有下划线、字符数量为7个字符,该项文档内容的层级为第一层级。
图中细线框框出的文档内容的缩进字符数为1个字符、没有下划线、字符数量分别为11、14个字符,这两项文档内容的层级为第二层级。由图可见,两项第二层级文档内容中用于表示各项文档内容间逻辑层次的字符形式相同,为“一、”、“二、”。
图中虚线框框出的文档内容的缩进字符数为2个字符、有下划线,这两项文档内容的层级为第三层级。由图可见,两项第三层级文档内容中用于表示各项文档内容间逻辑层次的字符形式相同,为“1、”、“2、”。
图中未被线框框出的文档内容的缩进字符数为2个字符、没有下划线,这两项文档内容的层级为第四层级。因此,图中文档内容之间的逻辑层次结构为粗线框框出的文档内容层级高于细线框框出的文档内容,细线框框出的文档内容层级高于虚线框框出的文档内容,虚线框框出的文档内容层级高于未被线框框出的文档内容。
由以上可见,本实施例提供的方案中,根据各项文本内容的字符数量、样式属性、在文档中的位置以及表示各项文档内容间逻辑层次的字符,确定各项文档内容之间的逻辑层次结构,各个因素相互影响,与使用其中某一或某几个因素确定逻辑层次结构相比,提高了逻辑层次结构分析结果的准确度,从而也提高了后续根据逻辑层次结构在排版模板库中匹配排版模板的准确度。
本发明的一个实施例中,参见图3A,提供了第三种文档中文本内容的排版方法的流程示意图,与上述图1所示实施例相比,本实施例中,上述S102根据上述基准逻辑层次结构,在排版模板库存储的排版模板中,查找与上述文档相匹配的目标排版模板,可以通过以下S102A-S102E实现。
S102A:分别计算上述基准逻辑层次结构与排版模板库中排版模板内各项文档内容的逻辑层次结构的相似度,作为第一相似度。
本发明的一个实施例中,根据基准逻辑层级结构中包括的层级与排版模板库中排版模板中定义的层级,计算文档与排版模板的第一相似度。
具体的,针对排版模板库中的每一排版模板,获得排版模板中定义的排版模板层级,并获得上述基准逻辑层次结构中的文档层级,确定排版模板层级和文档层级中的相同层级,基于相同层级的数量和文档层级的数量,计算文档与排版模板的第一相似度。
例如,可以计算上述相同层级的数量与上述文档层级的数量的比值,作为上述第一相似度。
例如,某文档中包含5个层级,如,第一层级到第五层级,其中有3个层级与排版模板中定义的层级相同,如,第一层级到第三层级,则计算出的第一相似度为60%。
S102B:获得各项文档内容已设置的样式属性,作为基准样式属性。
S102C:计算上述基准样式属性与排版模板库中排版模板内各项文档内容的样式属性的相似度,作为第二相似度。
本发明的一个实施例中,根据基准样式属性与排版模板库中排版模板的样式属性计算第二相似度。
具体的,针对排版模板库中的每一排版模板,获得排版模板中定义的第一样式属性,并获得上述基准样式属性中的第二样式属性,确定第一样式属性和第二样式属性中的相同样式属性,基于相同样式属性的数量和第一样式属性的数量,计算文档和排版模板的第二相似度。
例如,某文档中包含5个样式属性,其中有2个样式属性与排版模板相同,则计算出的第二相似度为40%。
S102D:根据上述第一相似度与第二相似度,计算上述排版模板库中各排版模板与上述文档的匹配度。
本发明的一个实施例中,可以将上述计算得到的第一相似度与第二相似度相加,得到数据和,作为排版模板库中各个排版模板与上述文档的匹配度。
还可以通过加权算法,为第一相似度与第二相似度加权,进行计算得到加权计算结果,作为排版模板库中各个排版模板与上述文档的匹配度。
S102E:根据计算得到的匹配度,从上述排版模板库中选择目标排版模板。
本发明的一个实施例中,可以直接根据上述计算得到的匹配度从上述排版模板库中选择目标排版模板。
具体的,可以选择匹配度最大的第一预设模板数量的排版模板,供用户选择,例如,上述第一预设模板数量可以为10个、15个等。通过接收用户选择排版模板的指令,将用户选择的排版模板确定为目标排版模板。若未接收到用户选择排版模板的指令,则将匹配度最大的一个排版模板确定为目标排版模板。其中,上述选择排版模板的指令可以为:用户通过鼠标或键盘发出的选择排版模板的指令。
本发明的一个实施例中,还可以根据计算得到的匹配度和上述排版模板库中各个排版模板的预设美观度,从上述排版模板库中选择模板排版模板。
其中,上述预设美观度为表示排版模板的美观性的指标。例如,可以以1至10之间的自然数表示,如5、10等,预设美观度的数值越大可以认为排版模板的美观度越高。
具体的,可以将上述匹配度与预设美观度分别乘以不同的数值,统一二者的数量级,计算统一数量级之后的排版模板的上述匹配度与预设美观度的数值和,根据上述计算得到的数值和,选择数值和最大的第二预设模板数量的排版模板,供用户选择。或将统一数量级之后的排版模板的上述匹配度与预设美观度进行加权,计算得到加权计算结果,选择加权计算结果最大的第二预设模板数量的排版模板,供用户选择。例如,上述第二预设模板数量可以为10个、15个等。通过接收用户选择排版模板的指令,将用户选择的排版模板确定为目标排版模板。若未接收到用户选择排版模板的指令,则将数值和最大的一个排版模板确定为目标排版模板。
另外,还可以分别以不同的排版模板为不同层级的文档内容进行排版。
再者,若文档内容中所有或部分文本内容设置了预设样式,则在保留预设样式的基础上对文档内容进行排版。
其中,上述预设样式为不进行修改的样式属性,例如,下划线、加粗、倾斜等。若文档内容中部分文本内容基准样式属性包含下划线,则在对上述文本内容进行排版时保留基准样式属性中的下划线,对其他样式属性进行修改,从而对文档内容进行排版。
图3B为本发明实施例提供的第三种文档中部分文档内容示意图。该图示出使用目标排版模板对图2B中的文档中部分文档内容进行排版的效果。
由图可见,参见图2C中标识出的各个文档内容层级,其中,保留了第一层级文档内容原本已有的下划线,并对其中的字符进行加粗。对第二层级文档内容中的字符进行加粗。保留了第三层级文本内容原本已有的下划线,并对其中的字符进行倾斜。在第四层级文本内容前添加了相同的项目符号“·”。
由以上可见,本实施例提供的方案中,根据基准逻辑层次结构、基准样式属性计算排版模板与文档的匹配度,通过上述方式可以从排版模板库中选出与文档的逻辑层次结构相似的排版模板,为不同层级的文档内容提供不同的样式属性,使文档中各个层级的文档内容样式不同,显示更美观。与此同时,根据基准样式属性从排版模板库中选出与文档已有的样式属性相似的排版模板,从而在保留用户已设置的样式属性的基础上为用户选择排版模板。从而使选择的排版模板既满足文档内容之间的逻辑层次结构,又能保留用户已经设置的样式属性的属性值,使排版模板更能满足排版需求。并且根据上述匹配度与美观度选择目标排版模板,从而为用户提供既与文档相匹配又满足美观度需求的排版模板。
参见图4,提供了一种文档中文本内容的排版装置的结构示意图,该装置包括:
结构确定模块401,用于对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,作为基准逻辑层次结构,所述文档内容为文档中的文本内容;
模板查找模块402,用于根据所述基准逻辑层次结构,在排版模板库存储的排版模板中,查找与所述文档相匹配的目标排版模板;
文档排版模块403,用于基于所述目标排版模板对所述文档进行排版。
本发明的一个实施例中,上述结构确定模块401,具体用于:
统计文档的各项文档内容的字符数量;
获得各项文档内容已设置的样式属性;
分别从各项文档内容中选择用于表示各项文档内容间逻辑层次的字符;
获得各项文档内容在文档中的位置;
对各项文档内容进行语义分析,确定文档内容的语义;
根据统计得到的字符数量、所获得的样式属性、所选择的字符、所获得的位置以及所确定的语义,确定各项文档内容之间的逻辑层次结构。
应用上述实施例提供的方案对文档进行排版时,对每一项文档内容进行分析,确定每一项文档内容之间的逻辑层次结构,根据上述逻辑层次结构,在排版模板库存储的排版模板中,查找与文档相匹配的目标排版模板,基于目标排版模板对文档进行排版。本发明实施例提供的方案中,根据文档的逻辑层次结构在排版模板库中查找与文档相匹配的排版模板对文档进行排版,由于上述逻辑层次结构是对文档内容进行分析得到的,因此选择的目标排版模板能够和文档中的各项文档内容相吻合,也更能符合文档的排版需求。同时节省了用户手动为每一项文档内容不同的样式属性进行设置的时间,从而提高了文档排版的效率。
本发明的一个实施例中,参见图5,提供了另一种文档中文本内容的排版装置的结构示意图,本实施例中,上述模板查找模块402,包括:
第一相似度计算子模块402A,用于分别计算所述基准逻辑层次结构与排版模板库中排版模板内各项文档内容的逻辑层次结构的相似度,作为第一相似度;
属性获得子模块402B,用于获得各项文档内容已设置的样式属性,作为基准样式属性;
第二相似度计算子模块402C,用于计算所述基准样式属性与排版模板库中排版模板内各项文档内容的样式属性的相似度,作为第二相似度;
匹配度计算子模块402D,用于根据所述第一相似度与第二相似度,计算所述排版模板库中各排版模板与所述文档的匹配度;
模板选择子模块402E,用于根据计算得到的匹配度,从所述排版模板库中选择目标排版模板。
本发明的一个实施例中,上述模板选择子模块402E,具体用于:
根据计算得到的匹配度和所述排版模板库中各个排版模板的预设美观度,从所述排版模板库中选择模板排版模板。
由以上可见,本实施例提供的方案中,根据基准逻辑层次结构、基准样式属性计算排版模板与文档的匹配度,通过上述方式可以从排版模板库中选出与文档的逻辑层次结构相似的排版模板,为不同层级的文档内容提供不同的样式属性,使文档中各个层级的文档内容样式不同,显示更美观。与此同时,根据基准样式属性从排版模板库中选出与文档已有的样式属性相似的排版模板,从而在保留用户已设置的样式属性的基础上为用户选择排版模板。从而使选择的排版模板既满足文档内容之间的逻辑层次结构,又能保留用户已经设置的样式属性的属性值,使排版模板更能满足排版需求。并且根据上述匹配度与美观度选择目标排版模板,从而为用户提供既与文档相匹配又满足美观度需求的排版模板。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现上述文档中文本内容的排版方法实施例所述的方法步骤。
本实施例提供的电子设备对文档进行排版时,对每一项文档内容进行分析,确定每一项文档内容之间的逻辑层次结构,根据上述逻辑层次结构,在排版模板库存储的排版模板中,查找与文档相匹配的目标排版模板,基于目标排版模板对文档进行排版。本发明实施例提供的方案中,根据文档的逻辑层次结构在排版模板库中查找与文档相匹配的排版模板对文档进行排版,由于上述逻辑层次结构是对文档内容进行分析得到的,因此选择的目标排版模板能够和文档中的各项文档内容相吻合,也更能符合文档的排版需求。同时节省了用户手动为每一项文档内容不同的样式属性进行设置的时间,从而提高了文档排版的效率。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一文档中文本内容的排版方法的步骤。
执行本实施例提供的计算机可读存储介质中存储的计算机程序对文档进行排版时,对每一项文档内容进行分析,确定每一项文档内容之间的逻辑层次结构,根据上述逻辑层次结构,在排版模板库存储的排版模板中,查找与文档相匹配的目标排版模板,基于目标排版模板对文档进行排版。本发明实施例提供的方案中,根据文档的逻辑层次结构在排版模板库中查找与文档相匹配的排版模板对文档进行排版,由于上述逻辑层次结构是对文档内容进行分析得到的,因此选择的目标排版模板能够和文档中的各项文档内容相吻合,也更能符合文档的排版需求。同时节省了用户手动为每一项文档内容不同的样式属性进行设置的时间,从而提高了文档排版的效率。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一文档中文本内容的排版方法。
执行本实施例提供的计算计算机程序产品对文档进行排版时,对每一项文档内容进行分析,确定每一项文档内容之间的逻辑层次结构,根据上述逻辑层次结构,在排版模板库存储的排版模板中,查找与文档相匹配的目标排版模板,基于目标排版模板对文档进行排版。本发明实施例提供的方案中,根据文档的逻辑层次结构在排版模板库中查找与文档相匹配的排版模板对文档进行排版,由于上述逻辑层次结构是对文档内容进行分析得到的,因此选择的目标排版模板能够和文档中的各项文档内容相吻合,也更能符合文档的排版需求。同时节省了用户手动为每一项文档内容不同的样式属性进行设置的时间,从而提高了文档排版的效率。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种文档中文本内容的排版方法,其特征在于,所述方法包括:
对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,作为基准逻辑层次结构,所述文档内容为文档中的文本内容;
根据所述基准逻辑层次结构,在排版模板库存储的排版模板中,查找与所述文档相匹配的目标排版模板;
基于所述目标排版模板对所述文档进行排版。
2.根据权利要求1所述的方法,其特征在于,所述对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,包括:
统计文档的各项文档内容的字符数量;
获得各项文档内容已设置的样式属性;
分别从各项文档内容中选择用于表示各项文档内容间逻辑层次的字符;
获得各项文档内容在文档中的位置;
对各项文档内容进行语义分析,确定文档内容的语义;
根据统计得到的字符数量、所获得的样式属性、所选择的字符、所获得的位置以及所确定的语义,确定各项文档内容之间的逻辑层次结构。
3.根据权利要求1所述的方法,其特征在于,所述根据所述基准逻辑层次结构,在排版模板库存储的排版模板中,查找与所述文档相匹配的目标排版模板,包括:
分别计算所述基准逻辑层次结构与排版模板库中排版模板内各项文档内容的逻辑层次结构的相似度,作为第一相似度;
获得各项文档内容已设置的样式属性,作为基准样式属性;
计算所述基准样式属性与排版模板库中排版模板内各项文档内容的样式属性的相似度,作为第二相似度;
根据所述第一相似度与第二相似度,计算所述排版模板库中各排版模板与所述文档的匹配度;
根据计算得到的匹配度,从所述排版模板库中选择目标排版模板。
4.根据权利要求3所述的方法,其特征在于,所述根据计算得到的匹配度,从所述排版模板库中选择目标排版模板,包括:
根据计算得到的匹配度和所述排版模板库中各个排版模板的预设美观度,从所述排版模板库中选择模板排版模板。
5.一种文档中文本内容的排版装置,其特征在于,所述装置包括:
结构确定模块,用于对文档的各项文档内容进行分析,根据分析结果确定各项文档内容之间的逻辑层次结构,作为基准逻辑层次结构,所述文档内容为文档中的文本内容;
模板查找模块,用于根据所述基准逻辑层次结构,在排版模板库存储的排版模板中,查找与所述文档相匹配的目标排版模板;
文档排版模块,用于基于所述目标排版模板对所述文档进行排版。
6.根据权利要求5所述的装置,其特征在于,所述结构确定模块,具体用于:
统计文档的各项文档内容的字符数量;
获得各项文档内容已设置的样式属性;
分别从各项文档内容中选择用于表示各项文档内容间逻辑层次的字符;
获得各项文档内容在文档中的位置;
对各项文档内容进行语义分析,确定文档内容的语义;
根据统计得到的字符数量、所获得的样式属性、所选择的字符、所获得的位置以及所确定的语义,确定各项文档内容之间的逻辑层次结构。
7.根据权利要求5所述的装置,其特征在于,所述模板查找模块,包括:
第一相似度计算子模块,用于分别计算所述基准逻辑层次结构与排版模板库中排版模板内各项文档内容的逻辑层次结构的相似度,作为第一相似度;
属性获得子模块,用于获得各项文档内容已设置的样式属性,作为基准样式属性;
第二相似度计算子模块,用于计算所述基准样式属性与排版模板库中排版模板内各项文档内容的样式属性的相似度,作为第二相似度;
匹配度计算子模块,用于根据所述第一相似度与第二相似度,计算所述排版模板库中各排版模板与所述文档的匹配度;
模板选择子模块,用于根据计算得到的匹配度,从所述排版模板库中选择目标排版模板。
8.根据权利要求7所述的装置,其特征在于,所述模板选择子模块,具体用于:
根据计算得到的匹配度和所述排版模板库中各个排版模板的预设美观度,从所述排版模板库中选择模板排版模板。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
CN202010005498.6A 2020-01-03 一种文档中文本内容的排版方法及装置 Active CN112784562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010005498.6A CN112784562B (zh) 2020-01-03 一种文档中文本内容的排版方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010005498.6A CN112784562B (zh) 2020-01-03 一种文档中文本内容的排版方法及装置

Publications (2)

Publication Number Publication Date
CN112784562A true CN112784562A (zh) 2021-05-11
CN112784562B CN112784562B (zh) 2024-06-25

Family

ID=

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901764A (zh) * 2021-09-30 2022-01-07 数坤(北京)网络科技股份有限公司 一种内容排版方法、装置、电子设备和存储介质
JP7217063B1 (ja) 2021-12-14 2023-02-02 株式会社BoostDraft 文書編集支援プログラム、および文書編集システム
CN117436429A (zh) * 2023-12-22 2024-01-23 珠海格力电器股份有限公司 文档导出方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147791A (zh) * 2011-04-02 2011-08-10 数字时代出版设计有限公司 一种图书自动排版方法及系统
US20140195902A1 (en) * 2013-01-09 2014-07-10 Beijing Founder Electronics Co., Ltd. Method for mixedly typesetting multi-language text
US20150019959A1 (en) * 2011-12-31 2015-01-15 Beijing Founder Electronics Co., Ltd Method and apparatus for bidirectional typesetting
CN105701082A (zh) * 2016-01-13 2016-06-22 刘敏 演示文档的自动排版方法及系统
CN107451113A (zh) * 2017-07-06 2017-12-08 广东小天才科技有限公司 一种演示文档自动排版方法及系统
US20180114059A1 (en) * 2016-10-26 2018-04-26 Myscript System and method for managing digital ink typesetting
CN109740139A (zh) * 2018-11-27 2019-05-10 平安科技(深圳)有限公司 文档标题自定义样式控制方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147791A (zh) * 2011-04-02 2011-08-10 数字时代出版设计有限公司 一种图书自动排版方法及系统
US20150019959A1 (en) * 2011-12-31 2015-01-15 Beijing Founder Electronics Co., Ltd Method and apparatus for bidirectional typesetting
US20140195902A1 (en) * 2013-01-09 2014-07-10 Beijing Founder Electronics Co., Ltd. Method for mixedly typesetting multi-language text
CN105701082A (zh) * 2016-01-13 2016-06-22 刘敏 演示文档的自动排版方法及系统
US20180114059A1 (en) * 2016-10-26 2018-04-26 Myscript System and method for managing digital ink typesetting
CN107451113A (zh) * 2017-07-06 2017-12-08 广东小天才科技有限公司 一种演示文档自动排版方法及系统
CN109740139A (zh) * 2018-11-27 2019-05-10 平安科技(深圳)有限公司 文档标题自定义样式控制方法、装置、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901764A (zh) * 2021-09-30 2022-01-07 数坤(北京)网络科技股份有限公司 一种内容排版方法、装置、电子设备和存储介质
JP7217063B1 (ja) 2021-12-14 2023-02-02 株式会社BoostDraft 文書編集支援プログラム、および文書編集システム
JP2023088261A (ja) * 2021-12-14 2023-06-26 株式会社BoostDraft 文書編集支援プログラム、および文書編集システム
CN117436429A (zh) * 2023-12-22 2024-01-23 珠海格力电器股份有限公司 文档导出方法、装置、计算机设备和存储介质
CN117436429B (zh) * 2023-12-22 2024-05-17 珠海格力电器股份有限公司 文档导出方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US10354419B2 (en) Methods and systems for dynamic graph generating
US7231590B2 (en) Method and apparatus for visually emphasizing numerical data contained within an electronic document
US9367523B2 (en) System and method for using design features to search for page layout designs
RU2643467C1 (ru) Сопоставление разметки для похожих документов
US10223344B2 (en) Recognition and population of form fields in an electronic document
US11797607B2 (en) Method and apparatus for constructing quality evaluation model, device and storage medium
US6742162B2 (en) System and method for calculation using formulas in number fields
US11003831B2 (en) Automatically pairing fonts using asymmetric metric learning
Froehlich Corpus analysis with AntConc
US6961898B2 (en) System and method for calculation using vertical parentheses
Zanibbi et al. Math search for the masses: Multimodal search interfaces and appearance-based retrieval
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
US20220237381A1 (en) Visually Correlating Individual Terms in Natural Language Input to Respective Structured Phrases Representing the Natural Language Input
US20020143831A1 (en) System and method for calculation using spreadsheet lines and vertical calculations in a single document
Hoffswell et al. Interactive repair of tables extracted from pdf documents on mobile devices
JP2004110825A (ja) 自由形式注釈を強調するための方法及びシステム
US20020143809A1 (en) System and method for calculation using multi-field columns with hidden fields
CN112784562B (zh) 一种文档中文本内容的排版方法及装置
CN112784562A (zh) 一种文档中文本内容的排版方法及装置
US8910041B1 (en) Font substitution using unsupervised clustering techniques
US20210342531A1 (en) Method, apparatus, and computer-readable medium for transforming a hierarchical document object model to filter non-rendered elements
EP2800014A1 (en) Method for searching curriculum vitae's on a job portal website, server and computer program product therefore
US20040205676A1 (en) System and method for calculation using a subtotal function
WO2009021563A1 (en) A data processing method, computer program product and data processing system
US10101880B2 (en) Tools on-demand

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant