CN103942182B - 一种英文文本格式优化方法及装置 - Google Patents

一种英文文本格式优化方法及装置 Download PDF

Info

Publication number
CN103942182B
CN103942182B CN201410177826.5A CN201410177826A CN103942182B CN 103942182 B CN103942182 B CN 103942182B CN 201410177826 A CN201410177826 A CN 201410177826A CN 103942182 B CN103942182 B CN 103942182B
Authority
CN
China
Prior art keywords
line
text
header line
english
english text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410177826.5A
Other languages
English (en)
Other versions
CN103942182A (zh
Inventor
王云芝
刘水
杨宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410177826.5A priority Critical patent/CN103942182B/zh
Publication of CN103942182A publication Critical patent/CN103942182A/zh
Application granted granted Critical
Publication of CN103942182B publication Critical patent/CN103942182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种英文文本格式优化方法及装置,该方法包括:如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或,如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或,如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。本发明实施例的技术方案能提高对英文阅读资源进行格式优化的效率,能节约成本。

Description

一种英文文本格式优化方法及装置
技术领域
本发明涉及数字文档处理技术领域,尤其涉及一种英文文本格式优化方法及装置。
背景技术
随着信息技术的发展,很多在线阅读和电子阅读产品的使用越来越广泛,用户通过PC上的客户端或者浏览器阅读在线文本,或者通过手机、平板等终端设备随时随地地阅读书或期刊的电子文本,已经成为广泛且普遍的阅读模式。
然而很多阅读资源原本格式不规范,特别是英文文本,经常会出现段落划分上的错误,例如上行标点未结束,下行开头单词未大写等。直接通过电子阅读产品对这些文本进行阅读时受格式影响较大,用户的阅读体验不佳。
现有的解决该问题的方法,多为发布文本阅读资源前人工检查并调整格式。一方面,对于无标记的普通文本而言,人工处理的人力和时间耗费大,效率极低;另一方面,现有的自动格式判断和重排技术,多为针对带标记的文本如xml(Extensible MarkupLanguage,可扩展标记语言)等,或者针对某种固定格式的模板文本,不能普遍适用于没有格式标记的普通文本,整个过程耗时耗力,效率极低。
发明内容
有鉴于此,本发明实施例提供一种英文文本格式优化方法及装置,能提高对英文阅读资源进行格式优化的效率,能节约成本。
第一方面,本发明实施例提供了一种英文文本格式优化方法,包括:
如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或
如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或
如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。
第二方面,本发明实施例还提供了一种英文文本格式优化装置,包括:
行间修正单元,用于如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或
第一标题行确定单元,用于如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或
第二标题行确定单元,用于如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。
本发明实施例提出的技术方案的有益技术效果是:
本发明实施例的技术方案利用了英文文本的特征对行间格式进行修正和标题的确定,能提高对英文阅读资源进行格式优化的效率,能节约成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1是本发明实施例一所述的英文文本格式行间修正方法流程图;
图2是本发明实施例一所述的方式二所述的确定标题行的方法流程图;
图3是本发明实施例二所述的英文文本格式优化装置的结构框图;
图4是本发明实施例二所述的第一标题行确定单元的结构框图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
实施例一
本实施例所述的英文文本格式优化方法,可适用于使用计算机对格式不够规范的英文电子阅读资源自动进行格式优化处理的情况,该方法可以由具有程序运行功能的计算机来执行。该方法包括对英文文本进行行间修正的方法和确定标题行的方法。
需要说明的是,上述行间修正的方法和确定标题行的方法可以单独采用,也可以结合采用,顺序不限。
其中,对英文文本进行行间修正的方法包括:如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正。
图1是本发明实施例一所述的英文文本格式行间修正方法流程图,如图1所示,本实施例所述的英文文本格式优化方法包括:
S101、获取所述英文文本中相邻两行中前一行文本的行尾特征和后一行文本的行首特征。
本领域的技术人员需要明确的是,本实施例中所述的英文文本主要指内容为英文文字的电子阅读资源,包括但不限于英文的电子书、杂志、文章、博客等主要以文字资源为主的阅读资源。英文文本中对内容按行进行存储,每行后以断行符为结尾。当在某终端显示该英文文本时,则根据终端显示屏幕尺寸等因素对存储行进行自动换行显示,即每个存储行可显示为包括一个或多个显示行的段落。因此,本实施例中所称的行即为英文文本的显示段落,一行对应一个段落。
英文文本中行的行首特征,可为多种情况,例如该行行首可能是字符、标点符号或空格。如果为字符,则可以是字母或数字,若为字母,可能是大写字母或小写字母;如果是标点符号,则可以是诸如“.”、“,”、“:”或“-”等。同样,英文文本中行的行尾特征,也可为多种情况,例如,该行尾特征可包括断行符、字符、标点符号或空格,如果为字符,则是字母或数字,若为字母,可以是大写字母或小写字母;如果是标点符号,则可以是诸如“.”、“,”、“:”或“-”等。
S102、判断所述行尾特征与所述行首特征是否满足预设行间修正条件,若是则执行S103,若否,则无需进行行间修正,可返回S101,继续获取下一个相邻行的行间特征。
对于英文文本来说,由于英文文本本身的段落格式有其特殊性,这些特殊格式属性可作为强特征辅助划分及整合段落,例如段首、句首单词必须大写等。对于每行英文文本,若检测到误判的模式则修正之,例如上行标点未结束,下行开头单词未大写等。通过强特征的识别和修正对英文文本进行分段校正。
本实施例主要根据相邻两行中前一行文本的行尾特征和后一行文本的行首特征来辅助段落的修正。具体地如何进行修正,需要预先设置好行间修正条件。
S103、对所述行尾特征与所述行首特征进行修正。
例如,如果前一行文本的末尾字符和断行符,与下一行的首字母大小写特征,满足预设行间修正条件,则将所述相邻两行进行合并或者适应性修正。例如,若上一行由符号“-”、“,”或者“:”结尾,下行首字母小写,则对这两行文本进行行间修正,如可将两个段落进行合并。
又如,如果前一行文本的行尾特征是行尾为符号“.”,而后一行文本的行首特征是行首为小写字母,即行首为单词且未大写,则需要将后一行文本的行首的小写字母修正为大写字母。
本实施例的技术方案利用了英文文本的行间特点,根据行间末尾和初始的相邻特征关系进行判断,能够自动调整行间关系,能提高对英文阅读资源进行格式优化的效率,能节约成本。
为了确定英文文本的标题行,本实施例提出了两种确定标题行的方法,以确定英文文本中所包含的文本行是否为标题行。同样需要说明的是,本实施例所述的两种确定标题行的方法可以单独采用,也可以结合采用来确定标题行,顺序不限。
确定的标题行可单独标记,方便阅读时索引,例如增加前后空行或行距,使用特殊字体字号标记,或者行首使用特殊符号标记等,也可以作为更改标题行样式的依据,例如修改所有确定为标题行的段落的字体、字号、颜色等样式信息,使所述英文文本显示时更有条理。
下面介绍本实施例所述的两种确定标题行的具体方法:
方法一:如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行。
本方式是通过判断关键字上下文,同时利用英文文本格式特点进行判断。其中,所述标题关键字集合包括目录标识词或篇章标识词,例如“Contents”、“Book”、“Part”、“Volume”、“Chapter”、“Section”、“Act”、大写罗马数字系列等。
例如,首先可以根据标题关键字(例如特定单词、数字或大写罗马数字)匹配判断关键上下文,获取目录信息,例如包括“Contents”、“Book”、“Part”、“Volume”、“Chapter”、“Section”、“Act”等目录标识词或篇章标识词,以及大写罗马数字系列“I”、“II”、“III”或“IV”等或数字开头等。可以建立关键字字典,添加入所有可能包含的关键字列表,如果当前行出现大写的关键字,尤其是出现在行首时,作为目录章节标识的强特征来确定是否为标题行。
方式二:如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。
鉴于英文文本的格式特点,标题行有强格式特征可供提取,例如标题行首字母大部分大写、句长较短、标题行间的单词长度差异不会过于大等,根据这些格式特征可以识别当前行是否为标题行。例如可预先设置阈值WN0和UpperPercent0,判断是否满足如下条件来确定文本行是否为标题行:
WordNun当前行≤WN0,且其中,WN0为预先设定的当前行最大单词数阈值;
UpperPercent0为预先设定的单词首字母大写数占全行单词数的比例阈值;
WordNun当前行为当前行单词总数目;
UpperCnt为当前行首字母大写单词数。
上述两种方式可以单独采用,也可以结合采用来确定标题行。
图2是本实施例中方式二所述的确定标题行的方法流程图,如图2所示,本实施例中方式二所述的确定标题行的方法包括:
S201、获取英文文本行所包含的单词总数目N1和所述文本行包含首字母为大字字母的单词的数目N2。
S202、判断N1是否小于或等于预设的最大单词数阈值,若是则执行S204,否则执行S203。
S203、不确定所述文本行为标题行,结束。
S204、判断N2与N1的比值是否大于或等于预设的第一比例阈值,若是则执行S205,否则执行S203。
S205、确定所述文本行为标题行,结束。
有了确定标题行的基础,在确定文本行为标题行之后,本实施例进一步提供了确定英文文本的目录页的方法。
具体包括:如果所述标题行连续出现的行数大于或等于预设目录阈值,则确定连续的所述标题行属于所述英文文本的目录页。
有了确定标题行的基础,在确定所述文本行为标题行之后,本实施例进一步提供了确定标题行的优先级的方法。具体包括:根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级。
例如,根据检测到的标题行中的是否包含预设的关键字,若包含至少一个预指定的关键字,则继续判断各关键字的出现顺序,根据预先建立的关键字优先级表,确定各标题行的优先级。针对本文本中第一个首次出现的可判为标题行的关键字优先级为最高,第二个首次出现的关键字优先级次高,以此类推,预先将优先级次序与关键字列表建立一一对应,对全文做完处理后,可以得到整体的针对该文本的关键字优先级。在后面的关键字判断和标记中,可从该对应关系查找得到对应行的关键字的优先级顺序,标记时也可按照优先级次序将同级标题以类似标准标记,不同级别的标题以不同的标准区分标记。
有了确定标题行的优先级的基础,在确定所述标题行和标题行的优先级之后,本实施例进一步提供了识别相邻标题行之间的正文内容是否为标题简介的方法,具体包括:
如果相邻标题行的优先级相同,且所述相邻标题行中前一标题行包含第一预指定字符,以及所述相邻的标题行中后一标题行不包含所述第一预指定字符且包含首字母为大写字母的单词的数目与所包含的单词总数目的比值大于或等于预设的第二比例阈值,则将所述相邻的标题行合并为一个标题行。
英文文本通过上述标题行合并之后,更能便于读者对所述英文文本的阅读和理解。例如,对于连续两行均为标题行的情况,若前行与后行优先级相同,又如果前行含有关键字上下文(含数字、罗马数字)(即上文所说关键字列表字典),而后行为无关键字的标题行,同时行内大写比例高过某阈值,则判定后行为前行标题的具体内容,此种情况下将后行与前行合并为一行。
如果相邻标题行的优先级级别递减,且相邻标题行之间的正文行数或单词总数小于预设简介阈值,则识别相邻标题行之间的正文内容为标题简介。
具体而言,对于相邻两优先的标题行,若其间正文内容的行数较少或单词总数较少,可能为章节简介的内容而非正文。判断出后,以将该文本行标记为简介。
进一步地,本实施例还提供了对英文文本的文本格式进行归一化处理的方法,若出现不一致格式,如单词间多个空格、全半角空格或标点混用等,判断出对应的编码后统一归一处理。方法包括:去掉所述英文文本中单词之间多余的空格和/或将所述英文文本中所包含的非英文的空格和标点修改为英文的空格和标点。
与实施例一样比,本实施例在实施例一的基础之上,进一步对英文文本的章节段落以标题行为标志进行了识别和划分,能对英文文本的格式进行进一步的优化。
实施例二
图3是本发明实施例二所述的英文文本格式优化装置的结构框图,如图3所示,本实施例所述的英文文本格式优化装置包括:
行间修正单元301,用于如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或
第一标题行确定单元302,用于如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或
第二标题行确定单元303,用于如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。
需要说明的是,上述第一标题行确定单元302和第二标题行确定单元303可以单独采用,也可以结合采用来确定标题行,顺序不限。同时,上述两个确定标题行的单元第一标题行确定单元302和第二标题行确定单元303与上述行间修正单元301可以独立执行,也可以结合执行,顺序不限。
进一步地,所述行间修正单元301具体用于:如果所述英文文本中相邻两行中前一行文本的末尾字符和断行符,与后一行文本的首字母大小写特征,满足预设行间修正条件,则将所述相邻两行进行合并。
进一步地,所述预设行间修正条件包括:所述末尾字符属于预指定字符,且所述后一行的首字母为小写字母;其中,所述预指定字符包括“-”、“,”和“:”。
进一步地,所述装置还包括目录页确定单元304,所述目录页确定单元304用于:如果所述标题行连续出现的行数大于或等于预设目录阈值,则确定连续的所述标题行属于所述英文文本的目录页。
图4是第一标题行确定单元302的结构框图,如图4所示,本实施例所述的第一标题行确定单元302还可包括优先级确定子单元3021、标题行合并子单元3022和/或标题简介确定子单元3023。
所述优先级确定子单元3021用于:如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行之后,根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级。
所述标题行合并子单元3022用于:如果相邻标题行的优先级相同,且所述相邻标题行中前一标题行包含第一预指定字符,以及所述相邻的标题行中后一标题行不包含所述第一预指定字符且包含首字母为大写字母的单词的数目与所包含的单词总数目的比值大于或等于预设的第二比例阈值,则将所述相邻的标题行合并为一个标题行。
英文文本通过上述标题行合并之后,更能便于读者对所述英文文本的阅读和理解。例如,对于连续两行均为标题行的情况,若前行与后行优先级相同,又如果第一行含有关键字上下文(含数字、罗马数字),即关键字列表字典,而后行为无关键字的标题行,同时行内大写比例高过某阈值,则判定后行为前行标题的具体内容,此种情况下将后行与前行合并为一行。
所述标题简介确定子单元3023用于:如果相邻标题行的优先级级别递减,且相邻标题行之间的正文行数或单词总数小于预设简介阈值,则识别相邻标题行之间的正文内容为标题简介。
例如,对于相邻两优先级的标题行,若其间正文内容的行数较少或单词总数较少,则可确定该标题行为章节简介的内容而非正文,若确定标题行为章节简介,则进行标记。
进一步地,所述装置还包括形式统改单元305,用于去掉所述英文文本中单词之间多余的空格和/或将所述英文文本中所包含的非英文的空格和标点修改为英文的空格和标点。
本实施例的技术方案利用了英文文本的特征对行间格式进行修正,对目录进行确定,能提高对英文阅读资源进行格式优化的效率,能节约成本。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新修正和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种英文文本格式优化方法,其特征在于,包括:
如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;
根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级;
如果相邻标题行的优先级相同,且所述相邻标题行中前一标题行包含第一预指定字符,以及所述相邻的标题行中后一标题行不包含所述第一预指定字符且包含首字母为大写字母的单词的数目与所包含的单词总数目的比值大于或等于预设的第二比例阈值,则将所述相邻的标题行合并为一个标题行。
2.根据权利要求1所述的英文文本格式优化方法,其特征在于,还包括:
如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行;和/或如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正。
3.根据权利要求2所述的英文文本格式优化方法,其特征在于,如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正包括:
如果所述英文文本中相邻两行中前一行文本的末尾字符和断行符,与后一行文本的首字母大小写特征,满足预设行间修正条件,则将所述相邻两行进行合并。
4.根据权利要求3所述的英文文本格式优化方法,其特征在于,所述预设行间修正条件包括:所述末尾字符属于预指定字符,且所述后一行的首字母为小写字母;其中,所述预指定字符包括“-”、“,”和“:”。
5.根据权利要求1所述的英文文本格式优化方法,其特征在于,所述方法还包括:
如果所述标题行连续出现的行数大于或等于预设目录阈值,则确定连续的所述标题行属于所述英文文本的目录页。
6.根据权利要求1所述的英文文本格式优化方法,其特征在于,所述方法还包括:去掉所述英文文本中单词之间多余的空格和/或将所述英文文本中所包含的非英文的空格和标点修改为英文的空格和标点。
7.根据权利要求1所述的英文文本格式优化方法,其特征在于,根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级之后,还包括:
如果相邻标题行的优先级级别递减,且相邻标题行之间的正文行数或单词总数小于预设简介阈值,则识别相邻标题行之间的正文内容为标题简介。
8.一种英文文本格式优化装置,其特征在于,包括:
第一标题行确定单元,用于如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;
所述第一标题行确定单元还包括优先级确定子单元,所述优先级确定子单元用于:如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行之后,根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级;
所述第一标题行确定单元还包括标题行合并子单元;
所述标题行合并子单元用于:如果相邻标题行的优先级相同,且所述相邻标题行中前一标题行包含第一预指定字符,以及所述相邻的标题行中后一标题行不包含所述第一预指定字符且包含首字母为大写字母的单词的数目与所包含的单词总数目的比值大于或等于预设的第二比例阈值,则将所述相邻的标题行合并为一个标题行。
9.根据权利要求8所述的英文文本格式优化装置,其特征在于,还包括:
第二标题行确定单元,用于如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行;和/或
行间修正单元,用于如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正。
10.根据权利要求9所述的英文文本格式优化装置,其特征在于,所述行间修正单元具体用于:
如果所述英文文本中相邻两行中前一行文本的末尾字符和断行符,与后一行文本的首字母大小写特征,满足预设行间修正条件,则将所述相邻两行进行合并。
11.根据权利要求10所述的英文文本格式优化装置,其特征在于,所述预设行间修正条件包括:所述末尾字符属于预指定字符,且所述后一行的首字母为小写字母;其中,所述预指定字符包括“-”、“,”和“:”。
12.根据权利要求8所述的英文文本格式优化装置,其特征在于,所述装置还包括目录页确定单元,所述目录页确定单元用于:
如果所述标题行连续出现的行数大于或等于预设目录阈值,则确定连续的所述标题行属于所述英文文本的目录页。
13.根据权利要求8所述的英文文本格式优化装置,其特征在于,所述装置还包括形式统改单元,用于去掉所述英文文本中单词之间多余的空格和/或将所述英文文本中所包含的非英文的空格和标点修改为英文的空格和标点。
14.根据权利要求8所述的英文文本格式优化装置,其特征在于,所述第一标题行确定单元还包括标题简介确定子单元;
所述标题简介确定子单元用于:如果相邻标题行的优先级级别递减,且相邻标题行之间的正文行数或单词总数小于预设简介阈值,则识别相邻标题行之间的正文内容为标题简介。
CN201410177826.5A 2014-04-29 2014-04-29 一种英文文本格式优化方法及装置 Active CN103942182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410177826.5A CN103942182B (zh) 2014-04-29 2014-04-29 一种英文文本格式优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410177826.5A CN103942182B (zh) 2014-04-29 2014-04-29 一种英文文本格式优化方法及装置

Publications (2)

Publication Number Publication Date
CN103942182A CN103942182A (zh) 2014-07-23
CN103942182B true CN103942182B (zh) 2018-04-27

Family

ID=51189852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410177826.5A Active CN103942182B (zh) 2014-04-29 2014-04-29 一种英文文本格式优化方法及装置

Country Status (1)

Country Link
CN (1) CN103942182B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968988A (zh) * 2019-12-06 2020-04-07 歌尔科技有限公司 显示处理方法、装置、电子设备及可读存储介质
CN113283214B (zh) * 2021-06-02 2024-06-04 湖南通远网络股份有限公司 一种基于定性要求的格式自规划系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614585A (zh) * 2003-11-07 2005-05-11 摩托罗拉公司 文本概括
CN102081600A (zh) * 2011-01-25 2011-06-01 珠海全志科技有限公司 电子书排版方法及其系统
CN102375806A (zh) * 2010-08-23 2012-03-14 北大方正集团有限公司 一种文档标题提取方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639772A (zh) * 2008-07-31 2010-02-03 国际商业机器公司 生成视窗标题的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614585A (zh) * 2003-11-07 2005-05-11 摩托罗拉公司 文本概括
CN102375806A (zh) * 2010-08-23 2012-03-14 北大方正集团有限公司 一种文档标题提取方法和装置
CN102081600A (zh) * 2011-01-25 2011-06-01 珠海全志科技有限公司 电子书排版方法及其系统

Also Published As

Publication number Publication date
CN103942182A (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
CN105159877B (zh) 一种跨媒体自动排版系统及其方法
CN108415887A (zh) 一种pdf文件向ofd文件转化的方法
US11615635B2 (en) Heuristic method for analyzing content of an electronic document
US11556703B2 (en) Table detection in spreadsheet
CN104063364A (zh) 一种pdf文档识别方法
CN103914443B (zh) 一种多语种文字的混排方法及装置
CN104598577B (zh) 一种网页正文的提取方法
CN103455475B (zh) 排版方法、设备及系统
KR20150128921A (ko) 고정 서식 문서에서의 동아시아 레이아웃 특징들의 검출 및 재구성
US8773712B2 (en) Repurposing a word processing document to save paper and ink
WO2011000165A1 (en) Apparatus and method for text extraction
CN106326194A (zh) 一种应用于文件格式转换场景下的目录生成方法和装置
CN109492177A (zh) 一种基于网页语义结构的网页分块方法
KR20150099936A (ko) 전자문서의 레이아웃 유지를 위한 대체폰트 적용 방법 및 그 장치
CN104007836A (zh) 一种手写字输入的处理方法及终端设备
CN100552670C (zh) 一种自动识别数字文档版心的方法
CN101008940A (zh) 自动处理字体缺失的方法与装置
CN104331400B (zh) 一种蒙古文编码转换方法和装置
CN103942182B (zh) 一种英文文本格式优化方法及装置
CN109783810A (zh) 一种文本处理方法、装置及计算机可读存储介质
Au et al. Finsbd-2021: the 3rd shared task on structure boundary detection in unstructured text in the financial domain
CN106406560A (zh) 桌面操作系统中机械工程字符矢量字体输出方法和系统
CN117973323A (zh) 一种标准文本数字化转换与管理方法及系统
CN107301180A (zh) 一种文档结构的分析方法和装置
CN104536947A (zh) 版式文档的处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant