CN114492303A - 电子书的排版处理方法、电子设备及存储介质 - Google Patents

电子书的排版处理方法、电子设备及存储介质 Download PDF

Info

Publication number
CN114492303A
CN114492303A CN202210102461.4A CN202210102461A CN114492303A CN 114492303 A CN114492303 A CN 114492303A CN 202210102461 A CN202210102461 A CN 202210102461A CN 114492303 A CN114492303 A CN 114492303A
Authority
CN
China
Prior art keywords
character
character string
target
matching
preset vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210102461.4A
Other languages
English (en)
Inventor
李铭瀚
张恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangyue Technology Co Ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN202210102461.4A priority Critical patent/CN114492303A/zh
Publication of CN114492303A publication Critical patent/CN114492303A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种电子书的排版处理方法、电子设备及存储介质。其中,电子书的排版处理方法包括:对电子书的版式文档中包含的原始文本进行解析,得到原始文本包含的至少一个字符串,针对至少一个字符串中的目标字符串,将目标字符串与预设词汇表进行匹配,在确定目标字符串存在与预设词汇表中的单词匹配成功的第一字符组合时,根据第一字符组合,将目标字符串拆分为多个子字符串,在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到电子书的流式文档。可见,根据本公开实施例,可以将原始文本包含的多个字符拆分为多个单词,便于用户阅读,提高用户的阅读体验。

Description

电子书的排版处理方法、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种电子书的排版处理方法、电子设备及存储介质。
背景技术
版式文档格式是版面呈现效果固定的电子文档格式,版式文档的呈现与设备无关,因此,版式文档主要应用于成文后文件的发布、传播和存档。当想要灵活编辑版式文档中的内容时,需要将版式文档转换为流式文档。
目前,对版式文档进行解析处理后可转换为流式文档,但是,流式文档中由于缺失空格,导致对用户的阅读造成不变,尤其是当版式文档中包括英文时,用户难以区分出各个单词,导致阅读障碍。因此,亟需一种能够添加空格的方法。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种电子书的排版处理方法、电子设备及存储介质。
第一方面,本公开提供了一种电子书的排版处理方法,包括:
对电子书的版式文档中包含的原始文本进行解析,得到原始文本包含的至少一个字符串;
针对至少一个字符串中的目标字符串,将目标字符串与预设词汇表进行匹配;
在确定目标字符串存在与预设词汇表中的单词匹配成功的第一字符组合时,根据第一字符组合,将目标字符串拆分为多个子字符串;
在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到电子书的流式文档。
第二方面,本公开提供了一种电子设备,包括处理器和存储器,存储器用于存储可执行指令,可执行指令使处理器执行以下操作:
对电子书的版式文档中包含的原始文本进行解析,得到原始文本包含的至少一个字符串;
针对至少一个字符串中的目标字符串,将目标字符串与预设词汇表进行匹配;
在确定目标字符串存在与预设词汇表中的单词匹配成功的第一字符组合时,根据第一字符组合,将目标字符串拆分为多个子字符串;
在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到电子书的流式文档。
第三方面,本公开提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现第一方面的电子书的排版处理方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例的电子书的排版处理方法、电子设备及存储介质,能够对电子书的版式文档中包含的原始文本进行解析,得到原始文本包含的至少一个字符串,针对至少一个字符串中的目标字符串,将目标字符串与预设词汇表进行匹配,在确定目标字符串存在与预设词汇表中的单词匹配成功的第一字符组合时,根据第一字符组合,将目标字符串拆分为多个子字符串,在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到电子书的流式文档。可见,根据本公开实施例,可以将至少一个字符串作为目标字符串,并且基于目标字符串与预设词汇表的匹配结果将目标字符串拆分为多个子字符串,并且在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,从而将原始文本包含的多个字符拆分为多个单词,便于用户阅读,提高用户的阅读体验。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1示出了本公开实施例提供的一种电子书的排版处理方法的流程示意图;
图2示出了本公开实施例提供的另一种电子书的排版处理方法的流程示意图;
图3示出了本公开实施例提供的又一种电子书的排版处理方法的流程示意图;
图4示出了本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本公开实施例提供了一种能够将原始文本包含的多个字符拆分为多个单词的电子书的排版处理方法、电子设备及存储介质。
下面首先结合图1-3对本公开实施例提供的电子书的排版处理方法进行说明。
本公开实施例提供的电子书的排版处理方法,可以由能够提供电子书的排版处理功能的电子设备执行。其中,该电子设备可以包括但不限于诸如智能手机、笔记本电脑、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、车载终端(例如车载导航终端)、可穿戴设备等的移动终端,以及诸如数字TV、台式计算机、智能家居设备等的固定终端。
图1示出了本公开实施例提供的一种电子书的排版处理方法的流程示意图。
如图1所示,该电子书的排版处理方法可以包括如下步骤。
S110、对电子书的版式文档中包含的原始文本进行解析,得到原始文本包含的至少一个字符串。
在本公开实施例中,电子设备可以对电子书的版式文档中包含的原始文本进行解析,得到原始文本包含的至少一个字符串,每个字符串中包括至少一个字符。
具体地,电子书可以为任意一本包含单词的电子书。
具体地,版式文档可以包括不具有编辑功能的便携式文档(Portable DocumentFormat,PDF)、图片格式文档等各种格式文档,但并不限于此。
具体地,原始文本指的是电子书的版式文档中的文本。
在一些实施例中,S110可以包括:S111、对原始文本进行解析,得到原始文本包含的多个字符以及各字符的位置信息;S112、基于位置信息,将多个字符划分为至少一个字符串。
具体地,通过对电子书的版式文档中的原始文本进行解析,可以得到原始文字中包含的各个字符以及各字符的位置信息。可以将解析得到的各个字符按照解析顺序依次排列在电子书的流式文档中,在解析结果正确的前提下,电子书的流式文档中的包含的字符的数量以及排列顺序与电子书的版式文档中包含的字符的数量以及排列顺序是一一对应的。
具体地,位置信息可以包括字符在电子书的版式文档的页面中的页面坐标,但并不限于此。
可选地,S112可以包括:基于位置信息,确定每相邻两字符之间的字符间距;将字符间距小于第一字符间距阈值的相邻两字符划分在同一字符串中。
在一些实施例中,第一字符间距阈值可以为本领域技术人员设置的固定值。
在另一些实施例中,电子设备可以根据原始文本的样式信息确定与该样式信息相对应的第一字符间距阈值。即需要针对不同的样式信息分别设置不同的第一字符间距阈值。
其中,样式信息用于描述字符的样式,具体包括:字体、字号、字形和/或颜色等,但并不限于此。
具体地,针对不同的样式信息分别设置不同的第一字符间距阈值的具体实施步骤可以如下:首先,先将电子书的版式文档中包含的字符按照样式信息进行聚类,得到分别对应于各个样式信息的字符集合。然后,针对每个样式信息对应的字符集合,根据该字符集合中的各相邻两字符之间的字符间距的统计分布数据设置与该样式信息相对应的第一字符间距阈值。
在一个示例中,针对每个样式信息对应的字符集合,可以统计该字符集合中的各相邻两字符之间的字符间距以及各字符间距的出现频次;根据各字符间距的出现频次,设置与该样式信息相对应的第一字符间距阈值。通常情况下,字符间距的统计分布应该有两个间距密集区间,一个是同一个单词内相邻两字符之间的字符间距所对应的大致分布区间(即第一间距密集区间),另一个是插入空格的相邻两单词之间的单词间距所对应的大致分布区间(即第二间距密集区间),根据第一间距密集区间和第二间距密集区间可以确定出该样式信息对应的第一字符间距阈值。例如,可以根据位于第一间距密集区间以及第二间距密集区间之间的中间值确定该样式信息对应的第一字符间距阈值,该中间值具体可以为第一间距密集区间的第一区间中心点与第二间距密集区间的第二区间中心点之间的中点的数值,但并不限于此。
可以理解的是,通常情况下,一本电子书的标题、正文、附录、不同章节、不同段落等不同部分所对应的字符的样式各不相同,因此,在本公开实施例中,分别针对不同的样式信息设置不同的第一字符间距阈值,可使最终划分出的字符串与一个单词相匹配的概率更高,进而能够提升将空格恰好添加在两单词之间的准确性。
具体地,将相邻两字符之间的字符间距与其所具有的样式信息对应的第一字符间距阈值进行比较,根据比较结果判断是否将该两字符划分至同一字符串中。例如,若相邻两字符之间的字符间距大于或等于其所具有的样式信息对应的第一字符间距阈值,则确定将该相邻的两字符拆分在不同字符串中;若相邻两字符之间的字符间距小于其所具有的样式信息对应的第一字符间距阈值,则确定将该相邻的两字符划分在同一字符串中。
S120、针对至少一个字符串中的目标字符串,将目标字符串与预设词汇表进行匹配。
在本公开实施例中,针对基于S110得到的字符串,电子设备可以将至少一个字符串作为目标字符串,并将目标字符串与预设词汇表进行匹配。
具体地,预设词汇表中包括多个单词。
在一些实施例中,可以将每个字符串均作为目标字符串。
在另一些实施例中,可以将满足预设条件的字符串作为目标字符串。
可选地,在S120之前,该方法还包括:S101、确定每个字符串的字符总数;S102、将字符总数大于预设数量阈值的字符串作为目标字符串。
具体地,字符总数即字符串中所包含的字符的总数。例如,字符串“love”包括四个字符,则该字符串的字符总数为四。
具体地,预设数量阈值的具体值本领域技术人员可根据实际情况设置,此处不作限定。
可选地,将预设词汇表中包含字符数量最多的单词(即最长单词)的字符总数作为预设数量阈值。
可以理解的是,当字符串的字符总数大于预设词汇表中最长单词的字符总数时,表明该字符串整体无法与预设词汇表中的任意单词匹配成功,后续需要对该字符串进行拆分后再与预设词汇表进行匹配。当字符串的字符总数小于或等于预设词汇表中最长单词的字符总数时,表明该字符串整体与预设词汇表中的某一单词匹配成功的概率较高,即该字符串即为一个单词的概率较高,后续可以直接将该字符串作为一个整体与预设词汇表进行匹配以校验该字符串是否为一个单词,也可以不再校验,直接默认其为一个单词,此处不作限定。
在一个示例中,针对每个字符总数小于或等于预设数量阈值的字符串,将其整体与预设词汇表进行匹配以校验该字符串是否为一个单词,具体匹配方式可以包括如下两种,但并不限于此。
第一种匹配方式具体可以如下,按照预设词汇表的单词排列顺序,将预设词汇表中的单词逐个与字符串进行比对,直至匹配到与字符串完全相同的单词或者遍历完预设词汇表。
具体地,针对正在进行匹配的字符串,将预设词汇表中的第一个单词与其进行比较,若预设词汇表中的第一个单词与该字符串完全相同,则匹配成功;若预设词汇表中的第一个单词与该字符串不完全相同,将预设词汇表中的第二个单词与其进行比较,若预设词汇表中的第二个单词与该字符串完全相同,则匹配成功;若预设词汇表中的第二个单词与该字符串不完全相同,将预设词汇表中的第三个单词与其进行比较,依此类推,直至匹配到与字符串完全相同的单词或者遍历完预设词汇表。
第二种匹配方式具体可以如下,针对正在进行匹配的字符串,在预设词汇表中,按照字符串的字符排列顺序,依次对与每个字符匹配的单词进行筛选,直至匹配到与字符组合完全相同的单词或者不存在可供筛选的单词。
具体地,针对正在进行匹配的字符串,从预设词汇表中,筛选出第一个字符与字符串的第一个字符相同的单词,得到候选单词表;从候选单词表中,筛选出第二个字符与字符串的第二个字符相同的单词,得到新的候选单词表;从新的候选单词表中,筛选出第三个字符与字符串的第三个字符相同的单词,再次得到新的候选单词表;依此类推,直至匹配到与字符组合完全相同的单词或者不存在可供筛选的单词。
可以理解的是,针对每个字符总数小于或等于预设数量阈值的字符串,将其与预设词汇表进行匹配,若匹配成功,表明该字符串即为一个单词,若匹配失败,后续还需要对该字符串进行拆分等操作后再与预设词汇表进行匹配。因此,在S120之前,该方法还可以包括:S103、将字符总数小于或等于预设数量阈值的字符串作为一个整体与预设词汇表进行匹配;S104、将匹配失败的字符串作为目标字符串。
S130、在确定目标字符串存在与预设词汇表中的单词匹配成功的第一字符组合时,根据第一字符组合,将目标字符串拆分为多个子字符串。
具体地,每个第一字符组合与预设词汇表中的一个单词相匹配,即第一字符组合中所包含的字符以及字符的排列顺序和与其匹配的单词中所包含的字符以及字符的排列顺序相同。
在一些实施例中,S130可以包括:将不同第一字符组合拆分为不同子字符串;拆分出第一字符组合后剩余的目标字符串,按照第一字符组合两侧的字符拆分至不同子字符串的方式拆分。
例如,目标字符串为“airplayis”,通过与预设词汇表进行匹配,得到第一字符组合“airplay”以及第一字符组合“is”。如此,可将目标字符串“airplayis”拆分为子字符串“airplay”、以及子字符串“is”。
例如,目标字符串为“earefami”,通过与预设词汇表进行匹配,得到第一字符组合“are”。如此,可拆分出第一字符组合“are”对应的子字符串“are”,剩余的“e”和“fami”分位于第一字符组合“are”两侧,因此,分别拆分至不同子字符串,即将目标字符串“earefami”拆分为子字符串“e”、子字符串“are”以及子字符串“fami”。
S140、在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到所述电子书的流式文档。
在本公开实施例中,电子设备可以在每两个相邻的字符串之间添加空格,并且在每两个相邻的子字符串之间添加空格,即可得到电子书的流式文档。
具体地,流式文档可以包括epub格式文档、word格式文档等各种格式文档,但并不限于此。
具体地,添加的空格所占的具体间距,本领域技术人员可根据实际情况设置,此处不作限定。
本公开实施例的电子书的排版处理方法,能够对电子书的版式文档中包含的原始文本进行解析,得到原始文本包含的至少一个字符串,针对至少一个字符串中的目标字符串,将目标字符串与预设词汇表进行匹配,在确定目标字符串存在与预设词汇表中的单词匹配成功的第一字符组合时,根据第一字符组合,将目标字符串拆分为多个子字符串,在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到电子书的流式文档。可见,根据本公开实施例,可以将至少一个字符串作为目标字符串,并且基于目标字符串与预设词汇表的匹配结果将目标字符串拆分为多个子字符串,并且在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,从而将原始文本包含的多个字符拆分为多个单词,便于用户阅读,提高用户的阅读体验。
图2示出了本公开实施例提供的另一种电子书的排版处理方法的流程示意图。其中,本公开实施例在上述实施例的基础上进行优化,本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。
如图2所示,该电子书的排版处理方法可以包括如下步骤。
S210、对电子书的版式文档中包含的原始文本进行解析,得到原始文本包含的至少一个字符串。
具体地,S210与S110的类似,此处不再赘述。
S220、针对至少一个字符串中的目标字符串,按照预设的拆分方式,将目标字符串拆分为多组字符组合。
其中,每组字符组合包括至少一个字符。
S230、针对每组字符组合,将字符组合与预设词汇表进行匹配。
在本公开实施例中,针对每个目标字符串,电子设备可以按照预设的拆分方式,将目标字符串拆分为多组字符组合,并且针对每组字符组合,电子设备可以将其与预设词汇表进行匹配。
在一些实施例中,S220和S230可以包括:针对每个目标字符串进行如下操作:基于该目标字符串中各字符的位置信息,确定该目标字符串中每相邻两字符之间的字符间距,并从该目标字符串对应的多个字符间距中确定出最大字符间距,按照最大字符间距对应的相邻两字符分别划分至不同字符组合的方式,将目标字符串拆分为两组字符组合;将拆分出的两组字符组合分别与预设词汇表进行匹配;若字符组合与预设词汇表中的一个单词匹配成功,则该字符组合为第一字符组合。若至少一个字符组合与预设词汇表匹配失败,针对每个匹配失败的字符组合,从该字符组合对应的多个字符间距中确定出新的最大字符间距,按照新的最大字符间距值对应的相邻两字符分别划分至不同字符组合的方式,将字符组合拆分为两组新的字符组合;将拆分出的每个新的字符组合分别与预设词汇表进行匹配;若新的字符组合与预设词汇表中的一个单词匹配成功,则该新的字符组合为第一字符组合。若至少一个新的字符组合与预设词汇表匹配失败,返回“针对每个匹配失败的字符组合,从字符组合对应的多个字符间距中确定出新的最大字符间距,按照新的最大字符间距对应的相邻两字符分别划分至不同字符组合的方式,将字符组合拆分为两组新的字符组合;将拆分出的每个新的字符组合均作为包括一个字符组合的字符组合,分别与预设词汇表进行匹配”的步骤,直至目标字符串中每个字符组合均与预设词汇表中的某一单词匹配,或者,匹配失败的字符组合不可再拆分(即字符组合中仅包括两个字符)。
在另一些实施例中,S220可以包括:针对每个目标字符串进行如下操作:基于该目标字符串中各字符的位置信息,确定该目标字符串中每相邻两字符之间的字符间距,将字符间距小于第二字符间距阈值的相邻两字符划分在同一字符组合中。S230可以包括:针对每组字符组合,将其与预设词汇表进行匹配。
具体地,第二字符间距阈值小于第一字符间距阈值,其具体值本领域技术人员可根据实际情况设置,此处不作限定。例如,第二字符间距阈值可以大于位于第一间距密集区间的第一区间中心点的数值,或者,第二字符间距阈值可以大于位于第一间距密集区间的区间上限值,但并不限于此。
在一些实施例中,将字符组合与预设词汇表进行匹配,包括:按照预设词汇表的单词排列顺序,将预设词汇表中的单词逐个与字符组合进行比对,直至匹配到与字符组合完全相同的单词或者遍历完预设词汇表。
具体地,针对正在进行匹配的字符组合,将预设词汇表中的第一个单词与其进行比较,若预设词汇表中的第一个单词与该字符组合完全相同,则匹配成功;若预设词汇表中的第一个单词与该字符组合不完全相同,将预设词汇表中的第二个单词与其进行比较,若预设词汇表中的第二个单词与该字符组合完全相同,则匹配成功;若预设词汇表中的第二个单词与该字符组合不完全相同,将预设词汇表中的第三个单词与其进行比较,依此类推,直至匹配到与字符组合完全相同的单词或者遍历完预设词汇表。
在另一些实施例中,将字符组合与预设词汇表进行匹配,包括:针对字符组合中的每个字符组合,在预设词汇表中,按照字符组合的字符排列顺序,依次对与每个字符匹配的单词进行筛选,直至匹配到与字符组合完全相同的单词或者不存在可供筛选的单词。
具体地,针对正在进行匹配的字符组合,从预设词汇表中,筛选出第一个字符与字符组合的第一个字符相同的单词,得到候选单词表;从候选单词表中,筛选出第二个字符与字符组合的第二个字符相同的单词,得到新的候选单词表;从新的候选单词表中,筛选出第三个字符与字符组合的第三个字符相同的单词,再次得到新的候选单词表;依此类推,直至匹配到与字符组合完全相同的单词或者不存在可供筛选的单词。
S240、在确定目标字符串存在与预设词汇表中的单词匹配成功的第一字符组合时,根据第一字符组合,将目标字符串拆分为多个子字符串。
具体地,针对每个目标字符串中的多个字符组合,若至少一个字符组合与预设词汇表匹配成功,将与预设词汇表匹配成功的每个字符组合(即第一字符组合)拆分为一个子字符串,将与预设词汇表匹配成功失败的每个字符组合(即第二字符组合)拆分为一个子字符串。
具体地,针对每个目标字符串中的多个字符组合,若每个字符组合均与预设词汇表匹配失败,可以不对目标字符串进行拆分,或者,将每个字符组合拆分为一个子字符串,此处不作限定。
S250、在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到电子书的流式文档。
具体地,S250与S140的类似,此处不再赘述。
在本公开实施例中,通过对目标字符串按照预设拆分方式进行拆分后再与预设词汇表进行匹配,可提高目标字符串中各字符组合与预设词汇表匹配成功的概率,从而提高从目标字符串拆分出的每个子字符串恰好为一个单词的概率,有利于提高在相邻两单词之间插入空格的准确率。
图3示出了本公开实施例提供的又一种电子书的排版处理方法的流程示意图。其中,本公开实施例在上述实施例的基础上进行优化,本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。
如图3所示,该电子书的排版处理方法可以包括如下步骤。
S310、对电子书的版式文档中包含的原始文本进行解析,得到原始文本包含的至少一个字符串。
S320、针对至少一个字符串中的目标字符串,按照最大匹配法或者最小匹配法,将目标字符串与预设词汇表进行匹配。
在本公开实施例中,针对每个目标字符串,电子设备可以按照最大匹配法或者最小匹配法,将目标字符串与预设词汇表进行匹配,以确定目标字符串中是否存在与预设词汇表中的单词匹配成功的第一字符组合。
具体地,最大匹配法可以包括正向最大匹配法或者逆向最大匹配法。
其中,正向最大匹配法的过程如下:首先设定一个最大字符长度,该最大字符长度的长度需要不大于待处理的目标字符串的长度。一般来说,该最大字符长度的长度可以根据经验来设定。例如设定的最大字符长度为n,则可以对待处理的目标字符串自左向右取n个字符,与预设词汇表进行匹配,如果预设词汇表中存在该n个字符,则匹配成功,将该n个字符从目标字符串中切分出去,该n个字符即为第一字符组合,继续从剩余的待处理目标字符串中自左至右取n个字符进行匹配,直到将待处理的目标字符串处理完毕为止;如果其中一次n个字符匹配未成功,则从该n个字符中去掉最后一个字符,再与预设词汇表进行匹配,如果匹配还是不成功,则再从该n-1个字符中去掉最后一个字符,再与预设词汇表进行匹配,如此重复处理。其中,假设待处理的目标字符串的长度为m,则n应为大于1且不大于m的自然数。
逆向最大匹配法的基本原理与正向最大匹配法相同,不同的是分词切分的方向与正向最大匹配法相反,可以从待处理的目标字符串的末端开始匹配扫描,每次取最末端的最大字符长度个字符作为待匹配字段,若匹配失败,则去掉待匹配字段最前面的一个字符,继续匹配。
下面举例说明正向最大匹配法。
例如,目标字符串为:“Letusgotohavedinner”。
例如设定最大字符长度为6。则首先自左向右取6个字符,切分出的“Letusg”,将“Letusg”与预设词汇表进行匹配,匹配失败,去掉最后一个字符,得到“Letus”,将“Letus”与预设词汇表进行匹配,匹配失败,再去掉最后一个字符,得到“Letu”,将“Letu”与预设词汇表进行匹配,匹配失败,再去掉最后一个字符,得到“Let”,将“Let”与预设词汇表进行匹配,匹配成功,“Let”即为第一字符组合。将剩余的“usgotohavedinner”继续自左向右取6个字符,切分出“usgoto”,将“usgoto”与预设词汇表进行匹配,匹配失败,去掉最后一个字符,得到“usgoto”,将“usgoto”与预设词汇表进行匹配,匹配失败,去掉最后一个字符,得到“usgot”,将“usgot”与预设词汇表进行匹配,匹配失败,再去掉最后一个字符,得到“usgo”,将“usgo”与预设词汇表进行匹配,匹配失败,再去掉最后一个字符,得到“usg”,将“usg”与预设词汇表进行匹配,匹配失败,再去掉最后一个字符,得到“us”,将“us”与预设词汇表进行匹配,匹配成功,“Let”即为第一字符组合。依此类推,目标字符串存在如下六个与单词匹配成功的第一字符组合“Let”、“us”、“go”、“to”、“have”、“dinner”。
具体地,最小匹配法可以包括正向最小匹配法或者逆向最小匹配法。
其中,正向最小匹配法的过程如下:首先设定一个最小字符长度,该最小字符长度的长度需要不大于待处理的目标字符串的长度。一般来说,该最小字符长度的长度可以根据经验来设定。例如设定的最大字符长度为p,则可以对待处理的目标字符串自左向右取p个字符,与预设词汇表进行匹配,如果预设词汇表中存在该p个字符,则匹配成功,将该p个字符从目标字符串中切分出去,该p个字符即为第一字符组合,继续从剩余的待处理目标字符串中自左至右取p个字符进行匹配,直到将待处理的目标字符串处理完毕为止;如果其中一次p个字符匹配未成功,则从剩余的待处理的目标字符串中取出与该p个字符相邻的一个字符,得到p+1个字符,再与预设词汇表进行匹配,如果匹配还是不成功,则再从剩余的待处理的目标字符串中取出与该p+1个字符相邻的一个字符,得到p+2个字符,如此重复处理。其中,假设待处理的目标字符串的长度为q,则p应为大于1且不大于q的自然数。
逆向最小匹配法的基本原理与正向最小匹配法相同,不同的是分词切分的方向与正向最小匹配法相反,可以从待处理的目标字符串的末端开始匹配扫描,每次取最末端的最小字符长度个字符作为待匹配字段,若匹配失败,则从剩余的待处理的目标字符串的末端取出一个字符加入待匹配字段,继续匹配。
下面举例说明正向最小匹配法。
例如,目标字符串为:“Letusgotohavedinner”。
例如设定最小字符长度为2。则首先自左向右取2个字符,切分出“Le”,将“Le”与预设词汇表进行匹配,匹配失败,从剩余的“tus go to have dinner”中取出“t”加入“Le”,得到“Let”,将“Let”与预设词汇表进行匹配,匹配成功,“Let”即为第一字符组合。将剩余的“usgotohavedinner”自左向右取2个字符,切分出“us”,将“us”与预设词汇表进行匹配,匹配成功,“us”即为第一字符组合。将剩余的“gotohavedinner”自左向右取2个字符,切分出“go”,将“go”与预设词汇表进行匹配,匹配成功,“go”即为第一字符组合。依此类推,目标字符串存在如下六个与单词匹配成功的第一字符组合“Let”、“us”、“go”、“to”、“have”、“dinner”。
S330、在确定目标字符串存在与预设词汇表中的单词匹配成功的第一字符组合时,根据第一字符组合,将目标字符串拆分为多个子字符串。
具体地,S230与S130的类似,此处不再赘述。
S340、在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到电子书的流式文档。
具体地,S240与S140的类似,此处不再赘述。
在本公开实施例中,采用最大匹配法或者最小匹配法,将目标字符串与预设词汇表进行匹配,可使匹配方式简单,易操作。并且,可提高目标字符串中各字符组合与预设词汇表匹配成功的概率,进而提高从目标字符串拆分出的每个字符串恰好为一个单词的概率,有利于提高在相邻两单词之间插入空格的准确率。
在本公开另一种实施方式中,该方法还包括:若目标字符串中存在与预设词汇表中的单词匹配失败的第二字符组合,将第二字符组合与相邻的字符串拼接,得到拼接字符串;将拼接字符串作为新的目标字符串,并返回执行将目标字符串与预设词汇表进行匹配的步骤。
具体地,第二字符组合可以与右相邻和/或左相邻的字符串(子字符串)拼接,得到拼接字符串。将拼接字符串作为新的目标字符串,将其与预设词汇表进行匹配,在确定拼接字符串存在与预设词汇表中的单词匹配成功的第一字符组合时,根据第一字符组合,将拼接字符串拆分为多个子字符串;在拼接字符串的每两个相邻的子字符串之间添加空格。需要说明的是,将拼接字符串与预设词汇表进行匹配的具体实施方式请见前文将目标字符串与预设词汇表进行匹配的具体实施方式,此处不作限定。
可以理解的是,在将原始文本所包含的多个字符拆分为字符串,或者将目标字符串拆分为多组字符组合时,可能存在将同一单词拆分在不同字符组合或者不同字符串的情况,因此,可以尝试将其与相邻的字符串(子字符串)进行拼接后,再与预设词汇表进行匹配,以提高在相邻两单词之间插入空格的准确率。
在本公开再一种实施方式中,该方法还包括:在至少一个字符串均与预设词汇表进行匹配之后,检测拆分得到的子字符串中是否存在与预设词汇表的单词匹配失败的目标子字符串;若存在目标子字符串,将目标子字符串保存至未匹配成功列表中。
具体地,目标子字符串与预设词汇表中的任意单词均不匹配,即预设词汇表中不存在与目标子字符串包含相同字符以及字符的排列顺序相同的单词。
具体地,未匹配成功列表可以为任意形式的列表。例如,未匹配成功列表可以为纵向或横向列表等,但并不限于此。
可以理解的是,将没有匹配成功的目标子字符保存在未匹配成功列表中,便于后续人工对目标子字符串进行检查,以便对目标子字符串进行修改或者对目标子字符串附件的空格进行修改。
在本公开再一种实施方式中,该方法还包括:显示未匹配成功列表和流式文档;响应于针对未匹配成功列表的选择操作,确定选择操作所选择的标记字符串;按照标记字符串的显示位置,更新流式文档的显示内容;按照预设显示方式,显示更新后的显示内容。
具体地,电子设备可以在任意显示区域显示未匹配成功列表和流式文档。例如,在主显示区显示流式文档,在左边栏或者右边栏显示未匹配成功列表,但并不限于此。
具体地,针对未匹配成功列表的选择操作可以包括对未匹配成功列表中任意目标字符串的单击、双击等手势操作等,但并不限于此。
具体地,标记字符串为针对未匹配成功列表的选择操作所选取的目标字符串。
具体地,显示位置为在显示区显示标记字符串时标记字符串在显示页面中的位置。
具体地,预设显示方式可以包括高亮显示标记字符串、或者将标记字符串以不同于其它字符串的样式进行显示,例如加粗、倾斜显示标记字符串等,但并不限于此。
具体地,电子设备响应于针对未匹配成功列表的选择操作,可以确定标记字符串,并且,根据标记字符串的显示位置确定将要显示的包含标记字符串的显示内容,以将当前显示内容替换为包含标记字符串的显示内容,以显示标记字符串。
可选地,该方法还可以包括:显示版式文档。如此,便于用户根据版式文档对流式文档进行校对和修改。
可以理解的是,通过显示未匹配成功列表和流式文档,使得用户可以通过选择操作选中未匹配成功列表中的任意目标字符串(即标记字符串),从而使得电子设备按照预设显示方式显示标记字符串,便于用户快速定位至标记字符串,进而人工在流式文档中直接进行空格或者字符的更改。
图4示出了本公开实施例提供的一种电子设备的结构示意图。
本公开实施例提供的电子设备可以包括支持电子书的排版处理功能的电子设备。该电子设备可以包括但不限于诸如智能手机、笔记本电脑、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、车载终端(例如车载导航终端)、可穿戴设备等的移动终端,以及诸如数字TV、台式计算机、智能家居设备等的固定终端。
需要说明的是,图4示出的电子设备400仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
该电子设备400传统上包括处理器410和以存储器420形式的计算机程序产品或者计算机可读介质。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有用于执行上述电子书的排版处理方法中的任何方法步骤的可执行指令(或程序代码)4211的存储空间421。例如,用于可执行指令的存储空间421可以包括分别用于实现上面的电子书的排版处理方法中的各种步骤的各个可执行指令4211。这些可执行指令可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,光盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为便携式或者固定存储单元。该存储单元可以具有与图4的电子设备400中的存储器420类似布置的存储段或者存储空间等。可执行指令可以例如以适当形式进行压缩。通常,存储单元包括用于执行根据本公开的电子书的排版处理方法步骤的可执行指令,即可以由例如诸如处理器410之类的处理器读取的代码,这些代码当由电子设备400运行时,导致该电子设备400执行上面所描述的电子书的排版处理方法中的各个步骤。
当然,为了简化,图4中仅示出了该电子设备400中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口、输入装置和输出装置等等的组件。除此之外,根据具体应用情况,电子设备400还可以包括任何其他适当的组件。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本公开各实施例所提供的电子书的排版处理方法。
该计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
在本公开实施例中,可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本申请公开了:
1A、一种电子书的排版处理方法,其中,所述方法包括:
对电子书的版式文档中包含的原始文本进行解析,得到所述原始文本包含的至少一个字符串;
针对所述至少一个字符串中的目标字符串,将所述目标字符串与预设词汇表进行匹配;
在确定所述目标字符串存在与所述预设词汇表中的单词匹配成功的第一字符组合时,根据所述第一字符组合,将所述目标字符串拆分为多个子字符串;
在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到所述电子书的流式文档。
2A、根据1A所述的方法,其中,所述对电子书的版式文档中包含的原始文本进行解析,得到所述原始文本包含的至少一个字符串,包括:
对所述原始文本进行解析,得到所述原始文本包含的多个字符以及各所述字符的位置信息;
基于所述位置信息,将所述多个字符划分为所述至少一个字符串。
3A、根据2A所述的方法,其中,所述基于所述位置信息,将所述多个字符划分为所述至少一个字符串,包括:
基于所述位置信息,确定每相邻两字符之间的字符间距;
将字符间距小于第一字符间距阈值的相邻两字符划分在同一所述字符串中。
4A、根据1A所述的方法,其中,在所述针对所述至少一个字符串中的目标字符串,将所述目标字符串与预设词汇表进行匹配之前,所述方法还包括:
确定每个所述字符串的字符总数;
将字符总数大于预设数量阈值的字符串作为所述目标字符串。
5A、根据1A至4A任一项所述的方法,其中,所述将所述目标字符串与预设词汇表进行匹配,包括:
按照预设的拆分方式,将所述目标字符串拆分为多组字符组合;
针对每组所述字符组合,将所述字符组合与所述预设词汇表进行匹配。
6A、根据5A所述的方法,其中,所述将所述字符组合与所述预设词汇表进行匹配,包括:
按照所述预设词汇表的单词排列顺序,将所述预设词汇表中的单词逐个与所述字符组合进行比对,直至匹配到与所述字符组合完全相同的单词或者遍历完所述预设词汇表。
7A、根据5A所述的方法,其中,所述将所述字符组合分别与所述预设词汇表进行匹配,包括:
在所述预设词汇表中,按照所述字符组合的字符排列顺序,依次对与每个字符匹配的单词进行筛选,直至匹配到与所述字符组合完全相同的单词或者不存在可供筛选的单词。
8A、根据5A所述的方法,其中,所述将所述目标字符串与预设词汇表进行匹配,包括:
按照最大匹配法或者最小匹配法,将所述目标字符串与所述预设词汇表进行匹配。
9A、根据1A所述的方法,其中,所述方法还包括:
若所述目标字符串中存在与所述预设词汇表中的单词匹配失败的第二字符组合,将所述第二字符组合与相邻的字符串拼接,得到拼接字符串;
将所述拼接字符串作为新的目标字符串,并返回执行所述将所述目标字符串与预设词汇表进行匹配的步骤。
10A、根据9A所述的方法,其中,所述方法还包括:
在所述至少一个字符串均与所述预设词汇表进行匹配之后,检测拆分得到的子字符串中是否存在与所述预设词汇表的单词匹配失败的目标子字符串;
若存在所述目标子字符串,将所述目标子字符串保存至未匹配成功列表中。
11A、根据10A所述的方法,其中,所述方法还包括:
显示所述未匹配成功列表和所述流式文档;
响应于针对所述未匹配成功列表的选择操作,确定所述选择操作所选择的标记字符串;
按照所述标记字符串的显示位置,更新所述流式文档的显示内容;
按照预设显示方式,显示更新后的所述显示内容。
12B、一种电子设备,其中,包括处理器和存储器,所述存储器用于存储可执行指令,所述可执行指令使所述处理器执行以下操作:
对电子书的版式文档中包含的原始文本进行解析,得到所述原始文本包含的至少一个字符串;
针对所述至少一个字符串中的目标字符串,将所述目标字符串与预设词汇表进行匹配;
在确定所述目标字符串存在与所述预设词汇表中的单词匹配成功的第一字符组合时,根据所述第一字符组合,将所述目标字符串拆分为多个子字符串;
在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到所述电子书的流式文档。
13B、根据12B所述的电子设备,其中,在所述处理器执行所述对电子书的版式文档中包含的原始文本进行解析,得到所述原始文本包含的至少一个字符串时,所述可执行指令具体使所述处理器执行:
对所述原始文本进行解析,得到所述原始文本包含的多个字符以及各所述字符的位置信息;
基于所述位置信息,将所述多个字符划分为所述至少一个字符串。
14B、根据13B所述的方法,其中,在所述处理器执行所述基于所述位置信息,将所述多个字符划分为所述至少一个字符串时,所述可执行指令具体使所述处理器执行:
基于所述位置信息,确定每相邻两字符之间的字符间距;
将字符间距小于第一字符间距阈值的相邻两字符划分在同一所述字符串中。
15B、根据12B所述的电子设备,其中,在所述处理器执行所述针对所述至少一个字符串中的目标字符串,将所述目标字符串与预设词汇表进行匹配之前,所述可执行指令还使所述处理器执行:
确定每个所述字符串的字符总数;
将字符总数大于预设数量阈值的字符串作为所述目标字符串。
16B、根据12B至15B任一项所述的电子设备,其中,在所述处理器执行所述将所述目标字符串与预设词汇表进行匹配时,所述可执行指令具体使所述处理器执行:
按照预设的拆分方式,将所述目标字符串拆分为多组字符组合;
针对每组所述字符组合,将所述字符组合与所述预设词汇表进行匹配。
17B、根据16B所述的电子设备,其中,在所述处理器执行所述将所述字符组合与所述预设词汇表进行匹配时,所述可执行指令具体使所述处理器执行:
按照所述预设词汇表的单词排列顺序,将所述预设词汇表中的单词逐个与所述字符组合进行比对,直至匹配到与所述字符组合完全相同的单词或者遍历完所述预设词汇表。
18B、根据16B所述的电子设备,其中,在所述处理器执行所述将所述字符组合分别与所述预设词汇表进行匹配时,所述可执行指令具体使所述处理器执行:
在所述预设词汇表中,按照所述字符组合的字符排列顺序,依次对与每个字符匹配的单词进行筛选,直至匹配到与所述字符组合完全相同的单词或者不存在可供筛选的单词。
19B、根据16B所述的电子设备,其中,在所述处理器执行所述将所述目标字符串与预设词汇表进行匹配时,所述可执行指令具体使所述处理器执行:
按照最大匹配法或者最小匹配法,将所述目标字符串与所述预设词汇表进行匹配。
20B、根据12B所述的电子设备,其中,所述可执行指令还使所述处理器执行:
若所述目标字符串中存在与所述预设词汇表中的单词匹配失败的第二字符组合,将所述第二字符组合与相邻的字符串拼接,得到拼接字符串;
将所述拼接字符串作为新的目标字符串,并返回执行所述将所述目标字符串与预设词汇表进行匹配的步骤。
21B、根据20B所述的电子设备,其中,所述可执行指令还使所述处理器执行:
在所述至少一个字符串均与所述预设词汇表进行匹配之后,检测拆分得到的子字符串中是否存在与所述预设词汇表的单词匹配失败的目标子字符串;
若存在所述目标子字符串,将所述目标子字符串保存至未匹配成功列表中。
22B、根据21B所述的电子设备,其中,所述可执行指令还使所述处理器执行:
显示所述未匹配成功列表和所述流式文档;
响应于针对所述未匹配成功列表的选择操作,确定所述选择操作所选择的标记字符串;
按照所述标记字符串的显示位置,更新所述流式文档的显示内容;
按照预设显示方式,显示更新后的所述显示内容。
23C、一种计算机可读存储介质,其中,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现用上述1A-11A中任一项所述的电子书的排版处理方法。
本公开的各个部件实施例可以全部或部分步骤以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的电子设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (10)

1.一种电子书的排版处理方法,其特征在于,所述方法包括:
对电子书的版式文档中包含的原始文本进行解析,得到所述原始文本包含的至少一个字符串;
针对所述至少一个字符串中的目标字符串,将所述目标字符串与预设词汇表进行匹配;
在确定所述目标字符串存在与所述预设词汇表中的单词匹配成功的第一字符组合时,根据所述第一字符组合,将所述目标字符串拆分为多个子字符串;
在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到所述电子书的流式文档。
2.根据权利要求1所述的方法,其特征在于,在所述针对所述至少一个字符串中的目标字符串,将所述目标字符串与预设词汇表进行匹配之前,所述方法还包括:
确定每个所述字符串的字符总数;
将字符总数大于预设数量阈值的字符串作为所述目标字符串。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述目标字符串与预设词汇表进行匹配,包括:
按照预设的拆分方式,将所述目标字符串拆分为多组字符组合;
针对每组所述字符组合,将所述字符组合与所述预设词汇表进行匹配。
4.根据权利要求3所述的方法,其特征在于,所述将所述字符组合与所述预设词汇表进行匹配,包括:
按照所述预设词汇表的单词排列顺序,将所述预设词汇表中的单词逐个与所述字符组合进行比对,直至匹配到与所述字符组合完全相同的单词或者遍历完所述预设词汇表。
5.根据权利要求3所述的方法,其特征在于,所述将所述字符组合分别与所述预设词汇表进行匹配,包括:
在所述预设词汇表中,按照所述字符组合的字符排列顺序,依次对与每个字符匹配的单词进行筛选,直至匹配到与所述字符组合完全相同的单词或者不存在可供筛选的单词。
6.根据权利要求3所述的方法,其特征在于,所述将所述目标字符串与预设词汇表进行匹配,包括:
按照最大匹配法或者最小匹配法,将所述目标字符串与所述预设词汇表进行匹配。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述目标字符串中存在与所述预设词汇表中的单词匹配失败的第二字符组合,将所述第二字符组合与相邻的字符串拼接,得到拼接字符串;
将所述拼接字符串作为新的目标字符串,并返回执行所述将所述目标字符串与预设词汇表进行匹配的步骤。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在所述至少一个字符串均与所述预设词汇表进行匹配之后,检测拆分得到的子字符串中是否存在与所述预设词汇表的单词匹配失败的目标子字符串;
若存在所述目标子字符串,将所述目标子字符串保存至未匹配成功列表中。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储可执行指令,所述可执行指令使所述处理器执行以下操作:
对电子书的版式文档中包含的原始文本进行解析,得到所述原始文本包含的至少一个字符串;
针对所述至少一个字符串中的目标字符串,将所述目标字符串与预设词汇表进行匹配;
在确定所述目标字符串存在与所述预设词汇表中的单词匹配成功的第一字符组合时,根据所述第一字符组合,将所述目标字符串拆分为多个子字符串;
在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到所述电子书的流式文档。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现用上述权利要求1-8中任一项所述的电子书的排版处理方法。
CN202210102461.4A 2022-01-27 2022-01-27 电子书的排版处理方法、电子设备及存储介质 Pending CN114492303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210102461.4A CN114492303A (zh) 2022-01-27 2022-01-27 电子书的排版处理方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210102461.4A CN114492303A (zh) 2022-01-27 2022-01-27 电子书的排版处理方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114492303A true CN114492303A (zh) 2022-05-13

Family

ID=81476012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210102461.4A Pending CN114492303A (zh) 2022-01-27 2022-01-27 电子书的排版处理方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114492303A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881405A (zh) * 2023-09-07 2023-10-13 深圳市金政软件技术有限公司 汉字模糊匹配方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881405A (zh) * 2023-09-07 2023-10-13 深圳市金政软件技术有限公司 汉字模糊匹配方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11281852B2 (en) Systems and methods for automatically creating tables using auto-generated templates
CN105677764B (zh) 信息提取方法和装置
US20100067867A1 (en) System and method for searching video scenes
CN111797594B (zh) 基于人工智能的字符串处理方法及相关设备
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
CN104008093A (zh) 用于中文姓名音译的方法和系统
CN110795258A (zh) 字体库匹配方法、装置及设备
CN111339166A (zh) 基于词库的匹配推荐方法、电子装置及存储介质
US9658988B2 (en) Systems and methods to segment text for layout and rendering
CN111159497A (zh) 正则表达式的生成方法及基于正则表达式的数据提取方法
CN114492303A (zh) 电子书的排版处理方法、电子设备及存储介质
CN112579937A (zh) 一种字符的高亮显示方法及装置
US20140136963A1 (en) Intelligent information summarization and display
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN111240962B (zh) 测试方法、装置、计算机设备及计算机存储介质
CN109712613B (zh) 语义分析库更新方法、装置及电子设备
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN110489528B (zh) 基于电子书内容的电子词典重构方法及计算设备
CN116860747A (zh) 训练样本的生成方法、装置、电子设备及存储介质
CN110717323A (zh) 文档分章方法及装置、终端和计算机可读存储介质
CN111507109A (zh) 电子病历的命名实体识别方法及装置
CN114220113A (zh) 一种论文质量检测方法、装置和设备
CN113282209A (zh) 电子书信息展示方法、电子设备及计算机存储介质
CN111723286A (zh) 一种数据处理的方法及装置
CN111737288A (zh) 搜索控制方法、装置、终端设备、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination