CN105302778A - 文章章节生成方法、系统和电子书阅读器 - Google Patents

文章章节生成方法、系统和电子书阅读器 Download PDF

Info

Publication number
CN105302778A
CN105302778A CN201510695601.3A CN201510695601A CN105302778A CN 105302778 A CN105302778 A CN 105302778A CN 201510695601 A CN201510695601 A CN 201510695601A CN 105302778 A CN105302778 A CN 105302778A
Authority
CN
China
Prior art keywords
chapters
sections
article
content
chapter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510695601.3A
Other languages
English (en)
Inventor
孙璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510695601.3A priority Critical patent/CN105302778A/zh
Publication of CN105302778A publication Critical patent/CN105302778A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文章章节生成方法和系统,通过遍历文章的文本数据,提取其中具有章节特征的纲目内容;然后按序组织纲目内容以建立文章的章节列表,并建立章节列表到对应的章节内容之间的索引关系;再推送或显示章节列表。章节的标题通常具有一定的章节特征,例如通常章节的标题都较短,又或者具备数字字符,又或者具备特定字符“第”“章”“节”等等,通过提取具有章节特征的纲目内容,可以迅速而准确的找到文章的各个章节标题,从而形成章节列表,使读者可以通过章节列表更便利的阅读文章,提高了用户体验。还提供一种电子书阅读器。

Description

文章章节生成方法、系统和电子书阅读器
技术领域
本发明涉及信息技术领域,具体而言,本发明涉及一种文章章节生成方法和系统,以及一种电子书阅读器。
背景技术
互联网技术的不断发展,使得电子书十分流行。电子书的格式包括TXT、DOC、PDF、HTM、HTML、EPUB、CHM等等,通常TXT格式的较受欢迎。一些电子书,是通过搜索引擎抓取网页内容进行转码形成书籍内容,生成电子书文件,这类电子书好多无章节结构或章节混乱。在互联网上,无章节结构或章节混乱的这类电子书较多,用户利用电子书阅读器或者在线阅读这类电子书时容易造成阅读困难,用户体验较差。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是阅读困难的技术缺陷。
本发明提供一种文章章节生成方法,包括如下步骤:
遍历所述文章的文本数据,提取其中具有章节特征的纲目内容;
按序组织所述纲目内容以建立所述文章的章节列表,建立章节列表到对应的章节内容之间的索引关系;
推送或显示所述章节列表。
本发明中,所述章节特征为:相邻两个标识符之间的字符数满足预设条件。
本发明中,所述标识符包括段落符和断行符中的一种。
本发明中,所述预设条件包括:字符数大于0且少于预设数值。
本发明中,所述具有章节特征的纲目内容为所述相邻两个标识符之间的字符。
本发明中,所述按序组织所述纲目内容以建立所述文章的章节列表包括步骤:
提取所述相邻两个标识符之间的字符作为候选章节;
得到多个候选章节;
从所述多个候选章节中得到多个章节,并按照预设的排列规则排列所述多个章节以建立章节列表。
本发明中,从所述多个候选章节中按照预设的筛选规则得到多个章节。
本发明中,所述预设的筛选规则包括:保留具有数字字符的候选章节。
本发明中,所述预设的筛选规则包括:保留具有预设字符的候选章节。
本发明中,所述预设的筛选规则包括:删除候选章节为预设字符串的候选章节。
本发明中,所述预设的排列规则包括:文本数据顺序。
本发明中,还包括前置步骤:根据所述文章的用户指定内容而获得所述文章。
本发明中,所述用户指定内容包括所述文章的关键词,通过搜索引擎搜索所述关键词而获取所述文章。
本发明中,所述用户指定内容包括所述文章的存储路径,通过读取所述存储路径所指向的文件而获取所述文章。
本发明中,按照文本数据顺序依次提取文本数据中具有章节特征的纲目内容。
本发明中,推送或显示所述章节列表之后,还包括步骤:
提供所述章节列表给用户确认。
本发明中,推送或显示所述章节列表之后,还包括步骤:
提供所述章节列表给用户修改和确认。
本发明中,保存经用户确认的所述章节列表。
本发明还提供一种文章章节生成系统,包括:
提取模块,用于遍历所述文章的文本数据,提取其中具有章节特征的纲目内容;
生成模块,用于按序组织所述纲目内容以建立所述文章的章节列表,建立章节列表到对应的章节内容之间的索引关系;及
输出模块,用于推送或显示所述章节列表。
本发明中,所述章节特征为:相邻两个标识符之间的字符数满足预设条件。
本发明中,所述标识符包括段落符和断行符中的一种。
本发明中,所述预设条件包括:字符数大于0且少于预设数值。
本发明中,所述具有章节特征的纲目内容为所述相邻两个标识符之间的字符。
本发明中,所述生成模块包括:
提取单元,用于提取所述相邻两个标识符之间的字符作为候选章节,并得到多个候选章节;及
排列单元,用于从所述多个候选章节中得到多个章节,并按照预设的排列规则排列所述多个章节以建立章节列表。
本发明中,从所述多个候选章节中按照预设的筛选规则得到多个章节。
本发明中,所述预设的筛选规则包括:保留具有数字字符的候选章节。
本发明中,所述预设的筛选规则包括:保留具有预设字符的候选章节。
本发明中,所述预设的筛选规则包括:删除候选章节为预设字符串的候选章节。
本发明中,所述预设的排列规则包括:文本数据顺序。
本发明中,所述系统还包括获取模块,用于根据所述文章的用户指定内容而获得所述文章。
本发明中,所述用户指定内容包括所述文章的关键词,通过搜索引擎搜索所述关键词而获取所述文章。
本发明中,所述用户指定内容包括所述文章的存储路径,通过读取所述存储路径所指向的文件而获取所述文章。
本发明中,按照文本数据顺序依次提取文本数据中具有章节特征的纲目内容。
本发明中,所述系统还包括确认模块,用于在输出模块推送或显示所述章节列表之后,提供所述章节列表给用户确认。
本发明中,所述系统还包括确认模块,用于在输出模块推送或显示所述章节列表之后,提供所述章节列表给用户修改和确认。
本发明中,所述系统还包括存储模块,用于保存经用户确认的所述章节列表。
本发明还提供一种电子书阅读器,所述电子书阅读器包括上述的文章章节生成系统。
上述文章章节生成方法和系统,通过遍历文章的文本数据,提取其中具有章节特征的纲目内容;然后按序组织纲目内容以建立文章的章节列表,并建立章节列表到对应的章节内容之间的索引关系;再推送或显示所述章节列表。章节的标题通常具有一定的章节特征,例如通常章节的标题都较短,又或者具备数字字符,又或者具备特定字符“第”“章”“节”等等,通过提取具有章节特征的纲目内容,可以迅速而准确的找到文章的各个章节标题,从而形成章节列表,使读者可以通过章节列表更便利的阅读文章,提高了用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为一个实施例的文章章节生成方法流程图;
图2为一个实施例按序组织纲目内容以建立文章的章节列表流程图;
图3为一个实施例的文章章节生成系统模块示意图;
图4为一个实施例的生成模块示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunicationsService,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(PersonalDigitalAssistant个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(MobileInternetDevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本技术领域技术人员可以理解,这里所使用的远端网络设备,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中,远端网络设备、终端设备与WNS服务器之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
针对传统电子书阅读器或在线阅读电子书存在的缺陷,以下提供一种解决该缺陷的智能车载终端触发系统和方法。
图1为一个实施例的文章章节生成方法流程图。
一种文章章节生成方法,包括如下步骤:
步骤S100:根据文章的用户指定内容而获得文章。
用户指定内容可以包括文章的关键词,通过搜索引擎搜索关键词而获取文章。例如,当应用于在线阅读时,可以提供用户界面给用户进行输入,获取用户输入的内容后,以用户输入的内容作为关键词,通过搜索引擎在互联网搜索关键词,并将搜索的相关的文章链接向用户显示;当用户选择了其中的文章链接后,将与该文章链接相对应的文章获取。
用户指定内容可以包括文章的存储路径,通过读取存储路径所指向的文件而获取文章。例如,当应用于电子书阅读器时,用户可以事先下载好文章存储到存储介质,电子书阅读器可以通过用户操作得到文章的存储路径,然后通过存储路径获取文章。当然,存储介质可以是本地存储介质,也可以是远端存储介质;下载好的文章既可以存储于本地存储介质,也可以存储于远端存储介质,例如云端存储空间。
所述的文章可以理解为文档,是具有载体的。文章的载体可以为TXT、DOC、PDF、HTM、HTML、EPUB、CHM等等格式的文件。获取文章可以理解为获取文件。
步骤S110:遍历文章的文本数据,提取其中具有章节特征的纲目内容。
遍历文章的文本数据的过程,可以按照文本数据顺序依次提取文本数据中具有章节特征的纲目内容。文本数据顺序可以理解为文本数据的前后的排列顺序。将文本数据从头到尾进行搜索,发现符合章节特征的纲目内容时,就将该纲目内容复制提取出来。
章节特征可以设置为:相邻两个标识符之间的字符数满足预设条件。标记符通常是用于区分不同的段落,也即在相邻的两个标记符之间,通常为一段的自然段落。这种标记符,可以是段落符和断行符中的一种。当然,根据不同的电子书文档格式,标记符的表达可能不一样,只要用于区分不同段落的字符都可以理解为所述标记符。互联网上大部分的电子书,通常文章的文本数据中都有文章章节,只是由于很多电子书是直接从网站抓取,然后抓取形成电子书,这类电子书通常是没有文章目录的。然而,这类电子书的文本数据中有文章章节,而通常这些文章章节都具备章节特征,例如这些文章章节通常自起一段,以与文章正文内容区分开。因此,文章章节通常存在于相邻的两个标记符之间,具有章节特征的纲目内容为相邻两个标识符之间的字符。
文章章节通常自起一段,而且具有字数较少的特征。毕竟,如果是文章正文内容,通常一段的文本字数大部分都不会存在字数较少的特征。以文章《三国演义》为例,《三国演义》的第一章的标题(即文章章节)为“第一回宴桃园豪杰三结义斩黄巾英雄首立功”,标题里加上空格字符总共21个字符,然而在《三国演义》通篇文本正文内容中,并没有一个非文章章节的自然段落中的字符数会少于21的。因此,可以通过判断相邻两个标识符之间的字符数满足预设条件来初步判断是否为文章章节。
所述预设条件可以包括:字符数大于0且少于预设数值。预设数值可以通过用户自行设定,毕竟用户了解了文章内容后,可以判断文章章节的字符数范围。继续以文章《三国演义》为例,用户了解文章内容后可以将预设数值设为22。因此,在步骤S100和步骤S110之间,可以包括一个提供用户设置预设数值的步骤。
通过步骤S110后,可以提取到多组纲目内容。
步骤S120:按序组织纲目内容以建立文章的章节列表,建立章节列表到对应的章节内容之间的索引关系。
将提取到的多组纲目内容(相邻两个标识符之间的字符)按预设的排列规则组织排列,并形成由多组纲目内容组成的章节列表。预设的排列规则可以是文章的文本数据顺序。
按序组织纲目内容以建立文章的章节列表可以包括步骤S121~步骤S123。图2为一个实施例按序组织纲目内容以建立文章的章节列表流程图。
步骤S121:提取相邻两个标识符之间的字符作为候选章节。即首先将提取到的具有章节特征的纲目内容(相邻两个标识符之间的字符)都作为候选章节。
步骤S122:得到多个候选章节。具有章节特征的多组纲目内容提取出来后得到多个候选章节。
步骤S123:从多个候选章节中得到多个章节,并按照预设的排列规则排列多个章节以建立章节列表。
在一些电子书中,由于所抓取的网站编辑的原因,通常会在文章中添加一些并非文章本身内容的字符或字符串。例如,可能会添加“TXT下载”、“无弹窗”、“全文阅读”、“免费阅读”等字符或字符串,有些还会添加类似于广告的字符,例如“XX小说网”。
因此,如果电子书的内容中没有这类并非文章本身内容的字符,则通常从候选章节中可以直接得到最后所需的章节,然后按照预设的排列规则排列多个章节以建立章节列表。
然而,如果电子书的内容中存在这类并非文章本身内容的字符,则需要通过从多个候选章节中按照预设的筛选规则得到多个章节。毕竟,仅仅通过上述的章节特征(相邻两个标识符之间的字符数满足预设条件)而提取的纲目内容可能还存在大量的非文章章节的内容。
预设的筛选规则可以是第一筛选规则:保留具有数字字符的候选章节。文章章节通常具有章节序号,例如“第一章”、“第一回”、“第一节”、“第一集”、“第一卷”、“第一篇”等等,通常都具有表征章节序号的数字字符。以文章《三国演义》为例,《三国演义》的第一章的标题(即文章章节)为“第一回宴桃园豪杰三结义斩黄巾英雄首立功”,显然章节序号“第一回”中具有数字字符“一”。因此,当候选章节中具有数字字符的,可以保留下来,然后可以再从具有数字字符的候选章节中得到最后所需的章节。
预设的筛选规则还可以是第二筛选规则:保留具有预设字符的候选章节。文章章节通常具有章节序号,例如“第一章”、“第一回”、“第一节”、“第一集”、“第一卷”、“第一篇”等等,通常都具有表征章节含义的特殊字符“章”、“回”、“节”、“集”、“卷”、“篇”等等。以文章《三国演义》为例,《三国演义》的第一章的标题(即文章章节)为“第一回宴桃园豪杰三结义斩黄巾英雄首立功”,显然章节序号“第一回”中具有特殊字符“回”。因此,预设字符可以设置为“章”、“回”、“节”、“集”、“卷”、“篇”等等字符,当候选章节中具有预设字符的,可以保留下来,然后可以再从具有预设字符的候选章节中得到最后所需的章节。
当然,预设字符也可以通过用户自行设定,毕竟用户了解了文章内容后,可以判断文章章节中的特殊字符。继续以文章《三国演义》为例,用户了解文章内容后可以将预设字符设为“回”。因此,在步骤S100和步骤S110之间,还可以包括一个提供用户设置预设字符的步骤。
预设的筛选规则还可以是第三筛选规则:删除候选章节为预设字符串的候选章节。上面已经分析,在一些电子书中,由于所抓取的网站编辑的原因,通常会在文章中添加一些并非文章本身内容的字符或字符串。例如,可能会添加“TXT下载”、“无弹窗”、“全文阅读”、“免费阅读”等字符,有些还会添加类似于广告的字符或字符串,例如“XX小说网”。因此,如果通过提取具有章节特征的纲目内容仅仅是这些字符或字符串,可以删除之。因此,预设字符串可以设置为“TXT下载”、“无弹窗”、“全文阅读”、“免费阅读”、“XX小说网”等等。
当然,上述预设字符串也可以通过用户自行设定,毕竟用户了解了文章内容后,可以判断文章章节中的并非文章本身内容的字符串。继续以文章《三国演义》为例,假设文章中添加了有“XX小说网”,用户了解文章内容后可以将预设字符串设为“XX小说网”。因此,在步骤S100和步骤S110之间,还可以包括一个提供用户设置预设字符串的步骤。
预设的筛选规则可以是包含上述第一筛选规则、第二筛选规则和第三筛选规则中的至少一种。可以包含第一筛选规则、第二筛选规则和第三筛选规则中的任意组合。例如,预设的筛选规则包含上述第一筛选规则、第二筛选规则和第三筛选规则。首先,将候选章节通过第一筛选规则筛选,保留具有数字字符的候选章节,保留下来的候选章节形成第一候选章节。然后,将第一候选章节通过第二筛选规则筛选,保留具有预设字符的候选章节形成第二候选章节。最后,将第二候选章节通过第三筛选规则筛选,删除第二候选章节中为预设字符串的候选章节,最后留下的第二候选章节就形成最后所需的章节。当然,筛选过程不一定需要按照上述顺序。
经过上述的筛选规则从多个候选章节中得到多个章节后,按照预设的排列规则排列多个章节以建立章节列表。预设的排列规则可以是按照文章的文本数据顺序。
按序组织纲目内容以建立文章的章节列表后,建立章节列表到对应的章节内容之间的索引关系。建立文章的章节列表后,根据每个章节在文章中的位置来确定对应的章节内容。例如建立了的章节列表中,其中相邻两个章节为“第一回”和“第二回”。根据“第一回”在文章中的位置,可以确定“第一回”后紧接着的文本内容为“第一回”所对应的章节内容的起始位置。毕竟对于用户而言,只需知道章节所对应的章节内容起始位置即可以阅读,并不需要知道章节所对应的全部章节内容。
继续文章《三国演义》为例,“第一回”后紧接着的文本内容为:
“滚长江东逝水,浪花淘尽英雄。
是非成败转头空,
青山依旧在,几度夕阳红。
白发渔樵江渚上,惯看秋月春风。
一壶浊酒喜相逢,
古今多少事,都付笑谈中。”
因此,可以建立“第一回”和上述文本内容(位置)的索引关系,用户可以通过章节列表中的文章章节找到对应的章节内容的起始位置,从而方便用户从章节列表直接跳转到相应的章节内容的起始位置。
当然,可以通过章节列表中相邻两个章节的各自位置,来确定相邻两个章节中的第一个章节的章节内容。例如建立了的章节列表中,其中相邻两个章节为“第一回”和“第二回”。根据“第一回”和“第二回”在文章中的位置,可以确定“第一回”之后到“第二回”之前的文本内容即为“第一回”的章节内容。通过这种方法确定的章节内容为相应章节的全部章节内容。
章节列表建立好,且章节列表到对应的章节内容之间的索引关系也建立好后,可以执行步骤S130。
步骤S130:推送或显示章节列表。
此时可以将建立好的章节列表直接推送或显示给用户。推送或显示章节列表之后,还可以包括步骤S140。
步骤S140:提供章节列表给用户确认。
推送或显示章节列表后,可以提供用户界面给用户进行相关的确认或重新建立章节列表等操作。例如可以提供确认按键和重新建立章节列表按键,如果章节列表满足用户的要求,则用户可以通过点击确认按键确认章节列表;如果觉得所建立的章节列表并不符合用户要求,还可以通过点击重新建立章节列表按键来重新建立章节列表。
如果觉得所建立的章节列表并不符合用户要求,用户还可以通过自行修改得到自己想要的章节列表,例如进行删除或修改某些章节。因此,推送或显示章节列表之后,还可以包括步骤S150
步骤S150:提供章节列表给用户修改和确认。
最后执行步骤S160:保存经用户确认的章节列表。保存的章节列表可以保存成TXT、DOC、PDF、HTM、HTML、EPUB、CHM等等格式,也可以直接将章节列表添加保存到文章中,例如文章的起始部分中。
本发明还提供一种文章章节生成系统,包括获取模块100、提取模块110、生成模块120、输出模块130。图3为一个实施例的文章章节生成系统模块示意图。
获取模块100用于根据文章的用户指定内容而获得文章。
用户指定内容可以包括文章的关键词,获取模块100通过搜索引擎搜索关键词而获取文章。例如,当应用于在线阅读时,获取模块100可以提供用户界面给用户进行输入,获取用户输入的内容后,以用户输入的内容作为关键词,通过搜索引擎在互联网搜索关键词,并将搜索的相关的文章链接向用户显示;当用户选择了其中的文章链接后,将与该文章链接相对应的文章获取。
用户指定内容可以包括文章的存储路径,获取模块100通过读取存储路径所指向的文件而获取文章。例如,当应用于电子书阅读器时,用户可以事先下载好文章存储到存储介质,电子书阅读器的获取模块100可以通过用户操作得到文章的存储路径,然后通过存储路径获取文章。当然,存储介质可以是本地存储介质,也可以是远端存储介质;下载好的文章既可以存储于本地存储介质,也可以存储于远端存储介质,例如云端存储空间。
所述的文章可以理解为文档,是具有载体的。文章的载体可以为TXT、DOC、PDF、HTM、HTML、EPUB、CHM等等格式的文件。获取文章可以理解为获取文件。
提取模块110用于遍历文章的文本数据,提取其中具有章节特征的纲目内容。
提取模块110遍历文章的文本数据的过程,可以按照文本数据顺序依次提取文本数据中具有章节特征的纲目内容。文本数据顺序可以理解为文本数据的前后的排列顺序。将文本数据从头到尾进行搜索,发现符合章节特征的纲目内容时,就将该纲目内容复制提取出来。
章节特征可以设置为:相邻两个标识符之间的字符数满足预设条件。标记符通常是用于区分不同的段落,也即在相邻的两个标记符之间,通常为一段的自然段落。这种标记符,可以是段落符和断行符中的一种。当然,根据不同的电子书文档格式,标记符的表达可能不一样,只要用于区分不同段落的字符都可以理解为所述标记符。互联网上大部分的电子书,通常文章的文本数据中都有文章章节,只是由于很多电子书是直接从网站抓取,然后抓取形成电子书,这类电子书通常是没有文章目录的。然而,这类电子书的文本数据中有文章章节,而通常这些文章章节都具备章节特征,例如这些文章章节通常自起一段,以与文章正文内容区分开。因此,文章章节通常存在于相邻的两个标记符之间,具有章节特征的纲目内容为相邻两个标识符之间的字符。
文章章节通常自起一段,而且具有字数较少的特征。毕竟,如果是文章正文内容,通常一段的文本字数大部分都不会存在字数较少的特征。以文章《三国演义》为例,《三国演义》的第一章的标题(即文章章节)为“第一回宴桃园豪杰三结义斩黄巾英雄首立功”,标题里加上空格字符总共21个字符,然而在《三国演义》通篇文本正文内容中,并没有一个非文章章节的自然段落中的字符数会少于21的。因此,可以通过判断相邻两个标识符之间的字符数满足预设条件来初步判断是否为文章章节。
所述预设条件可以包括:字符数大于0且少于预设数值。预设数值可以通过用户自行设定,毕竟用户了解了文章内容后,可以判断文章章节的字符数范围。继续以文章《三国演义》为例,用户了解文章内容后可以将预设数值设为22。因此,文章章节生成系统还可以包括预设模块,在获取模块100获得文章之后、提取模块110提取其中具有章节特征的纲目内容之前,预设模块用于用户设置预设数值。
提取模块110可以提取到多组纲目内容。
生成模块120用于按序组织纲目内容以建立文章的章节列表,建立章节列表到对应的章节内容之间的索引关系。
生成模块120将提取到的多组纲目内容(相邻两个标识符之间的字符)按预设的排列规则组织排列,并形成由多组纲目内容组成的章节列表。预设的排列规则可以是文章的文本数据顺序。
生成模块120包括:提取单元121和排列单元122。图4为一个实施例的生成模块示意图。
提取单元121用于提取相邻两个标识符之间的字符作为候选章节,并得到多个候选章节;排列单元122用于从多个候选章节中得到多个章节,并按照预设的排列规则排列多个章节以建立章节列表。
在一些电子书中,由于所抓取的网站编辑的原因,通常会在文章中添加一些并非文章本身内容的字符或字符串。例如,可能会添加“TXT下载”、“无弹窗”、“全文阅读”、“免费阅读”等字符或字符串,有些还会添加类似于广告的字符,例如“XX小说网”。
因此,如果电子书的内容中没有这类并非文章本身内容的字符,则排列单元122通常从候选章节中可以直接得到最后所需的章节,然后按照预设的排列规则排列多个章节以建立章节列表。
然而,如果电子书的内容中存在这类并非文章本身内容的字符,则需要通过从多个候选章节中按照预设的筛选规则得到多个章节。毕竟,仅仅通过上述的章节特征(相邻两个标识符之间的字符数满足预设条件)而提取的纲目内容可能还存在大量的非文章章节的内容。
预设的筛选规则可以是第一筛选规则:保留具有数字字符的候选章节。文章章节通常具有章节序号,例如“第一章”、“第一回”、“第一节”、“第一集”、“第一卷”、“第一篇”等等,通常都具有表征章节序号的数字字符。以文章《三国演义》为例,《三国演义》的第一章的标题(即文章章节)为“第一回宴桃园豪杰三结义斩黄巾英雄首立功”,显然章节序号“第一回”中具有数字字符“一”。因此,当候选章节中具有数字字符的,可以保留下来,然后可以再从具有数字字符的候选章节中得到最后所需的章节。
预设的筛选规则还可以是第二筛选规则:保留具有预设字符的候选章节。文章章节通常具有章节序号,例如“第一章”、“第一回”、“第一节”、“第一集”、“第一卷”、“第一篇”等等,通常都具有表征章节含义的特殊字符“章”、“回”、“节”、“集”、“卷”、“篇”等等。以文章《三国演义》为例,《三国演义》的第一章的标题(即文章章节)为“第一回宴桃园豪杰三结义斩黄巾英雄首立功”,显然章节序号“第一回”中具有特殊字符“回”。因此,预设字符可以设置为“章”、“回”、“节”、“集”、“卷”、“篇”等等字符,当候选章节中具有预设字符的,可以保留下来,然后可以再从具有预设字符的候选章节中得到最后所需的章节。
当然,预设字符也可以通过用户自行设定,毕竟用户了解了文章内容后,可以判断文章章节中的特殊字符。继续以文章《三国演义》为例,用户了解文章内容后可以将预设字符设为“回”。因此,上述的预设模块还可以用于用户设置预设字符。
预设的筛选规则还可以是第三筛选规则:删除候选章节为预设字符串的候选章节。上面已经分析,在一些电子书中,由于所抓取的网站编辑的原因,通常会在文章中添加一些并非文章本身内容的字符或字符串。例如,可能会添加“TXT下载”、“无弹窗”、“全文阅读”、“免费阅读”等字符,有些还会添加类似于广告的字符或字符串,例如“XX小说网”。因此,如果通过提取具有章节特征的纲目内容仅仅是这些字符或字符串,可以删除之。因此,预设字符串可以设置为“TXT下载”、“无弹窗”、“全文阅读”、“免费阅读”、“XX小说网”等等。
当然,上述预设字符串也可以通过用户自行设定,毕竟用户了解了文章内容后,可以判断文章章节中的并非文章本身内容的字符串。继续以文章《三国演义》为例,假设文章中添加了有“XX小说网”,用户了解文章内容后可以将预设字符串设为“XX小说网”。因此,上述预设模块还可以用于用户设置预设字符串。
预设的筛选规则可以是包含上述第一筛选规则、第二筛选规则和第三筛选规则中的至少一种。可以包含第一筛选规则、第二筛选规则和第三筛选规则中的任意组合。例如,预设的筛选规则包含上述第一筛选规则、第二筛选规则和第三筛选规则。首先,将候选章节通过第一筛选规则筛选,保留具有数字字符的候选章节,保留下来的候选章节形成第一候选章节。然后,将第一候选章节通过第二筛选规则筛选,保留具有预设字符的候选章节形成第二候选章节。最后,将第二候选章节通过第三筛选规则筛选,删除第二候选章节中为预设字符串的候选章节,最后留下的第二候选章节就形成最后所需的章节。当然,筛选过程不一定需要按照上述顺序。
排列单元122经过上述的筛选规则从多个候选章节中得到多个章节后,按照预设的排列规则排列多个章节以建立章节列表。预设的排列规则可以是按照文章的文本数据顺序。
生成模块120按序组织纲目内容以建立文章的章节列表后,建立章节列表到对应的章节内容之间的索引关系。建立文章的章节列表后,根据每个章节在文章中的位置来确定对应的章节内容。例如建立了的章节列表中,其中相邻两个章节为“第一回”和“第二回”。根据“第一回”在文章中的位置,可以确定“第一回”后紧接着的文本内容为“第一回”所对应的章节内容的起始位置。毕竟对于用户而言,只需知道章节所对应的章节内容起始位置即可以阅读,并不需要知道章节所对应的全部章节内容。
继续文章《三国演义》为例,“第一回”后紧接着的文本内容为:
“滚长江东逝水,浪花淘尽英雄。
是非成败转头空,
青山依旧在,几度夕阳红。
白发渔樵江渚上,惯看秋月春风。
一壶浊酒喜相逢,
古今多少事,都付笑谈中。”
因此,可以建立“第一回”和上述文本内容(位置)的索引关系,用户可以通过章节列表中的文章章节找到对应的章节内容的起始位置,从而方便用户从章节列表直接跳转到相应的章节内容的起始位置。
当然,可以通过章节列表中相邻两个章节的各自位置,来确定相邻两个章节中的第一个章节的章节内容。例如建立了的章节列表中,其中相邻两个章节为“第一回”和“第二回”。根据“第一回”和“第二回”在文章中的位置,可以确定“第一回”之后到“第二回”之前的文本内容即为“第一回”的章节内容。通过这种方法确定的章节内容为相应章节的全部章节内容。
生成模块120将章节列表建立好,且章节列表到对应的章节内容之间的索引关系也建立好后,输出模块130推送或显示章节列表,将建立好的章节列表直接推送或显示给用户。
系统还可以包括确认模块,用于在输出模块推送或显示章节列表之后,提供章节列表给用户确认。
输出模块130推送或显示章节列表后,确认模块可以提供用户界面给用户进行相关的确认或重新建立章节列表等操作。例如确认模块可以提供确认按键和重新建立章节列表按键,如果章节列表满足用户的要求,则用户可以通过点击确认按键确认章节列表;如果觉得所建立的章节列表并不符合用户要求,还可以通过点击重新建立章节列表按键来重新建立章节列表。
如果觉得所建立的章节列表并不符合用户要求,用户还可以通过自行修改得到自己想要的章节列表,例如进行删除或修改某些章节。因此,确认模块还可以提供用户界面给用户修改章节列表。
系统还可以包括存储模块,用于保存经用户确认的章节列表。保存的章节列表可以保存成TXT、DOC、PDF、HTM、HTML、EPUB、CHM等等格式,也可以直接将章节列表添加保存到文章中,例如文章的起始部分中。
本发明还提供一种电子书阅读器(e-bookdevice,e-bookreader),电子书阅读器包括上述的文章章节生成系统。电子书阅读器为具有显示装置的电子设备,其可以读取TXT、DOC、PDF、HTM、HTML、EPUB、CHM等等格式的电子书文件。
上述文章章节生成方法和系统,通过遍历文章的文本数据,提取其中具有章节特征的纲目内容;然后按序组织纲目内容以建立文章的章节列表,并建立章节列表到对应的章节内容之间的索引关系;再推送或显示章节列表。章节的标题通常具有一定的章节特征,例如通常章节的标题都较短,又或者具备数字字符,又或者具备特定字符“第”“章”“节”等等,通过提取具有章节特征的纲目内容,可以迅速而准确的找到文章的各个章节标题,从而形成章节列表,使读者可以通过章节列表更便利的阅读文章,提高了用户体验。
应该理解的是,虽然图1、2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图1、2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文章章节生成方法,其特征在于,包括如下步骤:
遍历所述文章的文本数据,提取其中具有章节特征的纲目内容;
按序组织所述纲目内容以建立所述文章的章节列表,建立章节列表到对应的章节内容之间的索引关系;
推送或显示所述章节列表。
2.根据权利要求1所述的文章章节生成方法,其特征在于,所述章节特征为:相邻两个标识符之间的字符数满足预设条件。
3.根据权利要求2所述的文章章节生成方法,其特征在于,所述标识符包括段落符和断行符中的一种。
4.根据权利要求2所述的文章章节生成方法,其特征在于,所述预设条件包括:字符数大于0且少于预设数值。
5.根据权利要求2所述的文章章节生成方法,其特征在于,所述具有章节特征的纲目内容为所述相邻两个标识符之间的字符。
6.根据权利要求5所述的文章章节生成方法,其特征在于,所述按序组织所述纲目内容以建立所述文章的章节列表包括步骤:
提取所述相邻两个标识符之间的字符作为候选章节;
得到多个候选章节;
从所述多个候选章节中得到多个章节,并按照预设的排列规则排列所述多个章节以建立章节列表。
7.根据权利要求6所述的文章章节生成方法,其特征在于,从所述多个候选章节中按照预设的筛选规则得到多个章节。
8.根据权利要求7所述的文章章节生成方法,其特征在于,所述预设的筛选规则包括:保留具有数字字符的候选章节。
9.一种文章章节生成系统,其特征在于,包括:
提取模块,用于遍历所述文章的文本数据,提取其中具有章节特征的纲目内容;
生成模块,用于按序组织所述纲目内容以建立所述文章的章节列表,建立章节列表到对应的章节内容之间的索引关系;及
输出模块,用于推送或显示所述章节列表。
10.一种电子书阅读器,其特征在于,包括权利要求9所述的文章章节生成系统。
CN201510695601.3A 2015-10-23 2015-10-23 文章章节生成方法、系统和电子书阅读器 Pending CN105302778A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510695601.3A CN105302778A (zh) 2015-10-23 2015-10-23 文章章节生成方法、系统和电子书阅读器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510695601.3A CN105302778A (zh) 2015-10-23 2015-10-23 文章章节生成方法、系统和电子书阅读器

Publications (1)

Publication Number Publication Date
CN105302778A true CN105302778A (zh) 2016-02-03

Family

ID=55200057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510695601.3A Pending CN105302778A (zh) 2015-10-23 2015-10-23 文章章节生成方法、系统和电子书阅读器

Country Status (1)

Country Link
CN (1) CN105302778A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179860A (zh) * 2017-03-31 2017-09-19 北京奇艺世纪科技有限公司 一种数据拉取方法及装置
CN107632969A (zh) * 2017-08-17 2018-01-26 珠海云游道科技有限责任公司 用于管理信息系统的文档生成方法及装置
CN108804404A (zh) * 2018-05-29 2018-11-13 周宇 字符文本处理方法及装置
CN110377762A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 基于电子卷宗的信息查询方法、装置和计算机设备
CN111382258A (zh) * 2018-12-27 2020-07-07 阿里巴巴集团控股有限公司 电子阅读对象章节的确定方法及其装置
CN111753534A (zh) * 2019-03-29 2020-10-09 柯尼卡美能达美国商务解决方案有限公司 标识文档中的序列标题
CN113204951A (zh) * 2021-05-27 2021-08-03 广州文石信息科技有限公司 文档处理方法、装置、存储介质及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060129911A1 (en) * 2004-12-14 2006-06-15 Ferguson Mary W Method for automatically cataloging web element data
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN102375806A (zh) * 2010-08-23 2012-03-14 北大方正集团有限公司 一种文档标题提取方法和装置
US20140164915A1 (en) * 2012-12-11 2014-06-12 Microsoft Corporation Conversion of non-book documents for consistency in e-reader experience
CN104428769A (zh) * 2012-07-13 2015-03-18 索尼公司 提供文本阅读器的信息

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060129911A1 (en) * 2004-12-14 2006-06-15 Ferguson Mary W Method for automatically cataloging web element data
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN102375806A (zh) * 2010-08-23 2012-03-14 北大方正集团有限公司 一种文档标题提取方法和装置
CN104428769A (zh) * 2012-07-13 2015-03-18 索尼公司 提供文本阅读器的信息
US20140164915A1 (en) * 2012-12-11 2014-06-12 Microsoft Corporation Conversion of non-book documents for consistency in e-reader experience

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨世伟主编: "《现代教育技术》", 31 August 2012, 湘潭大学出版社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179860A (zh) * 2017-03-31 2017-09-19 北京奇艺世纪科技有限公司 一种数据拉取方法及装置
CN107179860B (zh) * 2017-03-31 2020-01-31 北京奇艺世纪科技有限公司 一种数据拉取方法及装置
CN107632969A (zh) * 2017-08-17 2018-01-26 珠海云游道科技有限责任公司 用于管理信息系统的文档生成方法及装置
CN107632969B (zh) * 2017-08-17 2024-03-29 珠海云游道科技有限责任公司 用于管理信息系统的文档生成方法及装置
CN108804404A (zh) * 2018-05-29 2018-11-13 周宇 字符文本处理方法及装置
CN108804404B (zh) * 2018-05-29 2022-04-15 周宇 字符文本处理方法及装置
CN111382258A (zh) * 2018-12-27 2020-07-07 阿里巴巴集团控股有限公司 电子阅读对象章节的确定方法及其装置
CN111753534A (zh) * 2019-03-29 2020-10-09 柯尼卡美能达美国商务解决方案有限公司 标识文档中的序列标题
CN111753534B (zh) * 2019-03-29 2024-01-26 柯尼卡美能达美国商务解决方案有限公司 标识文档中的序列标题
CN110377762A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 基于电子卷宗的信息查询方法、装置和计算机设备
CN113204951A (zh) * 2021-05-27 2021-08-03 广州文石信息科技有限公司 文档处理方法、装置、存储介质及计算机设备

Similar Documents

Publication Publication Date Title
CN105302778A (zh) 文章章节生成方法、系统和电子书阅读器
CN100476830C (zh) 一种网络资源检索方法及系统
CN104111935B (zh) 一种推送微博的方法及系统、服务器
CN101256596B (zh) 一种站内导航的方法及系统
CN104360994A (zh) 自然语言理解方法及系统
CN101727464B (zh) 获取别称匹配对的方法及装置
CN101299217A (zh) 一种地图信息处理的方法、装置和系统
CN104462590B (zh) 信息搜索方法及装置
CN101777068A (zh) 一种用于移动通讯设备终端的网页页面预读及整合浏览系统及其应用方法
CN102682000A (zh) 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN102262618A (zh) 一种版面信息识别的方法及装置
CN105302876A (zh) 基于正则表达式的url过滤方法
CN101894157A (zh) 网页呈现方法和装置
CN106126713A (zh) 可穿戴设备及其同步应用消息展示方法
KR20150032141A (ko) 스마트 기기 내 시맨틱 검색 시스템 및 검색방법
CN103838792A (zh) 一种网页主题确定的方法
CN105095236A (zh) 广告过滤方法和装置
CN103020263A (zh) 一种网页信息的保存方法、装置及终端
KR101122737B1 (ko) 지식노드 연결구조를 생성하기 위한 검색 데이터베이스 구축 장치 및 방법
CN102194000A (zh) 一种信息处理方法、装置及终端
KR20100117335A (ko) 검색어가 포함된 텍스트를 기초로 검색 사이트를 특정하여 검색 결과를 요청하는 검색 중계 서버 및 그 제어방법
KR101505673B1 (ko) 단어의 의미를 기반으로 하는 다국어 검색 시스템, 다국어 검색 방법 및 이를 이용한 이미지 검색 시스템
CN103365844B (zh) 一种提供搜索路径的方法及装置
CN103544167A (zh) 一种基于中文检索的逆向分词方法及装置
CN102819613A (zh) Rss信息分页抓取系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160203