CN106033405B - 网络书籍目录完整性检测方法和装置 - Google Patents

网络书籍目录完整性检测方法和装置 Download PDF

Info

Publication number
CN106033405B
CN106033405B CN201510105571.6A CN201510105571A CN106033405B CN 106033405 B CN106033405 B CN 106033405B CN 201510105571 A CN201510105571 A CN 201510105571A CN 106033405 B CN106033405 B CN 106033405B
Authority
CN
China
Prior art keywords
chapter
book
catalog
directory
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510105571.6A
Other languages
English (en)
Other versions
CN106033405A (zh
Inventor
芦世先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201510105571.6A priority Critical patent/CN106033405B/zh
Publication of CN106033405A publication Critical patent/CN106033405A/zh
Application granted granted Critical
Publication of CN106033405B publication Critical patent/CN106033405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种网络书籍目录完整性检测方法和装置。所述方法包括以下步骤:抽取网络书籍的目录;获取所述网络书籍的目录中每一章的章节编号;将所述章节编号转化为对应的数字;获取每一章的目录位置序号;将每一章的章节编号与对应的目录位置序号进行比较,若两者相等,则表示网络书籍的目录完整,若所述章节编号大于所述目录位置序号,则表示网络书籍的目录缺失。上述网络书籍目录完整性检测方法和装置,通过将抽取的网络书籍的目录与预存储的网络书籍目录进行比较,若相同,则抽取的网络书籍的目录完整,若不相同,则抽取的网络书籍的目录不完整,检测出抽取的网络书籍的目录的完整性,提高了易读性。

Description

网络书籍目录完整性检测方法和装置
技术领域
本发明涉及网络应用领域,特别是涉及一种网络书籍目录完整性检测方法和装置。
背景技术
随着网络技术的发展,人们习惯通过网络了解各类新闻以及通过网络阅读书籍等。网络书籍相比于与传统的纸质书具有很多优势,例如可存储海量内容的文章、可根据需要修改内容、可根据需要查询某个内容等。网络书籍一般由网络书城签约作者,进行每天更新方式等定期更新方式发表,定期更新可能每次更新一章或多章;或者由用户上传电子版书籍等。其他网站从始发站获取网络书籍目录时,采用拼接的方法将多章聚合在一起,在拼接聚合过程中可能会存在一些缺章的问题,导致目录不完整,从而降低了网络书籍的易读性。
发明内容
基于此,有必要针对传统的网络书籍拼接中可能导致目录不完整降低易读性的问题,提供一种网络书籍目录完整性检测的方法和装置,能检测网络书籍目录的完整性,提高易读性。
一种网络书籍目录完整性检测方法,包括以下步骤:
抽取网络书籍的目录;
获取所述网络书籍的目录中每一章的章节编号;
将所述章节编号转化为对应的数字;
获取每一章的目录位置序号;
将每一章的章节编号与对应的目录位置序号进行比较,若两者相等,则表示网络书籍的目录完整,若所述章节编号大于所述目录位置序号,则表示网络书籍的目录缺失。
一种网络书籍目录完整性检测方法,包括以下步骤:
抽取网络书籍的目录;
获取所述网络书籍的目录中每一章的章节编号;
将所述章节编号与预存储网络书籍的目录的章节编号进行比对,若相同,则表示网络书籍的目录完整,若不相同,则表示网络书籍的目录缺失。
一种网络书籍目录完整性检测装置,包括:
抽取模块,用于抽取网络书籍的目录;
章节编号获取模块,用于获取所述网络书籍的目录中每一章的章节编号;
转化模块,用于将所述章节编号转化为对应的数字;
目录位置序号获取模块,用于获取每一章的目录位置序号;
比较模块,用于将每一章的章节编号与对应的目录位置序号进行比较,若两者相等,则表示网络书籍的目录完整,若所述章节编号大于所述目录位置序号,则表示网络书籍的目录缺失。
一种网络书籍目录完整性检测装置,其特征在于,包括:
提取模块,用于抽取网络书籍的目录;
章节编号提取模块,用于获取所述网络书籍的目录中每一章的章节编号;
对比模块,用于将所述章节编号与预存储网络书籍的目录的章节编号进行比对,若相同,则表示网络书籍的目录完整,若不相同,则表示网络书籍的目录缺失。
上述网络书籍目录完整性检测方法和装置,通过将抽取的网络书籍的目录与预存储的网络书籍目录进行比较,若相同,则抽取的网络书籍的目录完整,若不相同,则抽取的网络书籍的目录不完整,检测出抽取的网络书籍的目录的完整性,提高了易读性。
附图说明
图1为一个实施例中网络书籍目录完整性检测方法的流程图;
图2为一个实施例中抽取网络书籍的目录的具体流程图;
图3为通过网络书籍标识构造的网络书籍页面统一资源定位符示意;
图4为网络书籍的目录片段示意图;
图5为去杂质章节后的网络书籍的目录片段示意图;
图6为另一个实施例中网络书籍目录完整性检测方法的流程图;
图7为一个实施例中网络书籍目录完整性检测装置的结构示意图;
图8为图7中抽取模块的内部结构框图;
图9为另一个实施例中网络书籍目录完整性检测装置的结构框图;
图10为图9中提取模块的内部结构框图;
图11为能实现本发明实施例的一个计算机系统的模块图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中网络书籍目录完整性检测方法的流程图。如图1所示,一种网络书籍目录完整性检测方法,包括以下步骤:
步骤102,抽取网络书籍的目录。
具体的,从聚合网站等抽取网络书籍的目录。聚合网站是指抽取第三方站点的内容,提供给用户搜索查看网络书籍的网站。
图2为一个实施例中抽取网络书籍的目录的具体流程图。如图2所示,该抽取网络书籍的目录包括:
步骤202,通过网络书籍标识构造相应的网络书籍页面统一资源定位符。
网络书籍标识是用于区分网络书籍唯一性的。例如网络书籍标识可为1000298588或10001000等数字编号。
图3为通过网络书籍标识构造的网络书籍页面统一资源定位符示意图。图3中,网络书籍“武侠世界大冒险”的页面统一资源定位符为book.abc.com/catalog/1000298588,在页面统一资源定位符所对应的页面中可包括对网络书籍的简介(王东在玩一款武侠游戏的时候,穿越到古代,变为一个江湖帮派弟子……)、最新章节(如第505章“后宫王”傲公子)、更新时间(如2015年2月6日00时00分)等。
步骤204,对该网络书籍页面统一资源定位符进行分析得到该网络书籍的目录接口。
再参图3,在图3中网络书籍页面统一资源定位符所对应的页面中包含AJAX接口信息。该AJAX接口即为网络书籍的目录接口,如http://bookabc.com/ajax?m=list_charpter&resourceid=1000298588&start=1&serialnum=506&sort=asc&t=1423204680067等,但不限于此。AJAX,即Asynchronous Javascript And XML,是一种用于创建快速动态网页的技术,可以使网页实现异步更新,即可在不重新加载整个网页的前提下,对网页的部分内容进行更新。AJAX在浏览器与Web服务器之间使用异步数据传输。使用Javascript向服务器提出请求并处理响应而不阻塞用户。XML即Extensible MarkupLanguage,可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言。
步骤206,根据该网络书籍的目录接口构造相应的统一资源定位符。
具体的,网络书籍的目录接口即可作为统一资源定位符,可根据该统一资源定位符定位到相应的网页。如将网络书籍的目录接口http://bookabc.com/ajax?m=list_charpter&resourceid=1000298588&start=1&serialnum=506&sort=asc&t=1423204680067作为统一资源定位符。
步骤208,根据该统一资源定位符发送超文本传输协议请求。
步骤210,接收返回的脚本文件。
返回的脚本文件的内容如:
{page_No:1,
Page_count:51,
Resource id:”1000298588”,
Rous:[
{chargetype:0,
Contentlen:0,
Contenttype:0,
Intro:“”,
price:0,
resource id:”1000298588”,
serial id:1,
serialname:“第一章xxx”
},
{chargetype:0,
Contentlen:0,
Contenttype:0,
Intro:“”,
price:0,
resource id:”1000298588”,
serial id:1,
serialname:“第二章xxx”
}
……
在脚本文件中包括网络书籍标识、章节编号、章节名称等。
步骤212,对该脚本文件进行解析得到该网络书籍的目录。
具体的,通过对脚本文件进行解析可得到其中的网络书籍的目录。
通过对构造统一资源定位符,获取目录接口,通过目录接口获取目录,获取方便,操作简单。
步骤104,获取该网络书籍的目录中每一章的章节编号。
在一个实施例中,获取该网络书籍的目录中每一章的章节编号的步骤包括:对该网络书籍的目录进行去杂质章节处理得到该网络书籍的目录中每一章的章节编号。
进一步的,在一个实施例中,对该网络书籍的目录进行去杂质章节处理得到该网络书籍的目录中每一章的章节编号的步骤包括:通过人工筛选或脚本自动化对网络书籍的目录进行去杂质章节处理得到该网络书籍的目录中每一章的章节编号。
具体的,通过人工筛选出网络书籍的目录中杂质,得到网络书籍的目录中的章节编号。或者,通过脚本对网络书籍的目录进行分词分析筛选出其中的章节编号。章节编号是指网络书籍中出现的“第一章xxx”中“第一章”。杂质是指网络书籍中出现的与正文无关的内容。
图4为网络书籍的目录片段示意图。如图4所示,第一章太阳升起;月底到了求月票;第二章他是谁;第三章起风了;对不起大家,今天有事请假;第六章初见。对图4中的网络书籍的目录片段进行去杂质章节处理后得到去杂质后的目录片段。
图5为去杂质章节后的网络书籍的目录片段示意图。如图5所示,章节目录位置序号和章节题目,章节目录位置序号1对应的章节题目“第一章太阳升起”;章节目录位置序号2对应的章节题目“第二章他是谁”;章节目录位置序号3对应的章节题目“第三章起风了”;章节位置序号4对应的章节题目“第六章初见”。章节目录位置序号为各章在目录中的位置序号,即为某章节出现在目录中的位置,如“第xx章xxx”出现在目录第一个位置,则该章节目录位置序号为1。
步骤106,将该章节编号转化为对应的数字。
具体的,脚本检测出章节编号后,对章节编号中的每个文字进行翻译,然后计算得到章节编号所对应的数字。例如“第二百五十三章”,将二转化为2,五转化为5,三转化为3,百转化为100,十转化为10,再计算得到2*100+5*10+3=253。
将图5中的章节编号转化为对应的数字,则“第一章太阳升起”将“第一章”转化为数字,则章节编号N=1,“第二章他是谁”的章节编号N=2,“第三章起风了”的章节编号N=3;“第六章初见”的章节编号N=6。
步骤108,获取每一章的目录位置序号。
具体的,每一章的目录位置序号是指每一章出现在目录中的位置。
再参图5所示,第一章的目录位置序号M=1,第二章的目录位置序号M=2,第三章的目录位置序号M=3,第六章的目录位置序号M=4。
步骤110,将每一章的章节编号与对应的目录位置序号进行比较。
具体的,将第一章的章节编号与对应的目录位置序号进行比较,N=1,M=1,则M=N,说明第一章没有缺失;将第二章的章节编号与对应的目录位置序号进行比较,N=2,M=2,则M=N,说明第二章没有缺失;将第三章的章节编号与对应的目录位置序号进行比较,N=3,M=3,则M=N,说明第三章没有缺失;将第六章的章节编号与对应的目录位置序号进行比较,N=6,M=4,则M<N,说明存在章节缺失,并且缺失的章节为第M章到第N-1章,即缺失第四章和第五章。
步骤112,若两者相等,则表示网络书籍的目录完整。
具体的,满足章节编号与对应的目录位置序号不相等,则表示网络书籍的目录不完整。
步骤114,若该章节编号大于该目录位置序号,则表示网络书籍的目录缺失。
若该章节编号大于该位置序号时,得到目录缺失的章节编号为起始章节编号至终止章节编号,其中,与该位置序号相等的章节编号为起始章节编号,该章节编号减去1所得到的章节编号为终止章节编号。例如章节编号为N,目录位置序号为M,当N>M,则起始章节编号为M,终止章节编号为N-1。可计算得出缺失的章节编号,便于查找到相关数据。
上述网络书籍目录完整性检测方法,通过抽取网络书籍的目录,获取目录中每一章的章节编号和目录位置序号,将每一章的章节编号和目录位置序号进行比较,若相等,则网络书籍的目录完整,若章节编号大于对应的目录位置序号,则网络书籍的目录不完整,可有效的检测出网络书籍的目录的完整性,提高网络书籍的易读性。此外,通过去杂质章节处理,可得到纯净的网络书籍目录。
图6为另一个实施例中网络书籍目录完整性检测方法的流程图。如图6所示,该网络书籍目录完整性检测方法,包括以下步骤:
步骤602,抽取网络书籍的目录。
具体的,从聚合网站等抽取网络书籍的目录。聚合网站是指抽取第三方站点的内容,提供给用户搜索查看网络书籍的网站。
抽取网络书籍的目录的步骤包括(1)至(6):
(1)通过网络书籍标识构造相应的网络书籍页面统一资源定位符。
网络书籍标识是用于区分网络书籍唯一性的。例如网络书籍标识可为1000298588或10001000等数字编号。
(2)对该网络书籍页面统一资源定位符进行分析得到该网络书籍的目录接口。
(3)根据该网络书籍的目录接口构造相应的统一资源定位符;
具体的,网络书籍的目录接口即可作为统一资源定位符,可根据该统一资源定位符定位到相应的网页。如将网络书籍的目录接口http://bookabc.com/ajax?m=list_charpter&resourceid=1000298588&start=1&serialnum=506&sort=asc&t=1423204680067作为统一资源定位符。
(4)根据该统一资源定位符发送超文本传输协议请求;
(5)接收返回的脚本文件;
(6)对该脚本文件进行解析得到该网络书籍的目录。
具体的,通过对脚本文件进行解析可得到其中的网络书籍的目录。
通过对构造统一资源定位符,获取目录接口,通过目录接口获取目录,获取方便,操作简单。
步骤604,获取该网络书籍的目录中每一章的章节编号。
在一个实施例中,获取该网络书籍的目录中每一章的章节编号的步骤包括:对该网络书籍的目录进行去杂质章节处理得到该网络书籍的目录中每一章的章节编号。
进一步的,在一个实施例中,对该网络书籍的目录进行去杂质章节处理得到该网络书籍的目录中每一章的章节编号的步骤包括:通过人工筛选或脚本自动化对网络书籍的目录进行去杂质章节处理得到该网络书籍的目录中每一章的章节编号。
具体的,通过人工筛选出网络书籍的目录中杂质,得到网络书籍的目录中的章节编号。或者,通过脚本对网络书籍的目录进行分词分析筛选出其中的章节编号。章节编号是指网络书籍中出现的“第一章xxx”中“第一章”。杂质是指网络书籍中出现的与正文无关的内容。
步骤606,将该章节编号与预存储网络书籍的目录的章节编号进行比对,若相同,则表示网络书籍的目录完整,若不相同,则表示网络书籍的目录缺失。
具体的,预存储网络书籍的目录可为抽取其他认可的第三方网站上该网络书籍的目录,形成集合A。抽取的自身网站的网络书籍的目录形成集合B。将集合A和B相减,若完全相同,则相减的结果为0,若两个集合存在差异,则相减的结果不为0,结果输出两者不同的目录的章节编号。
上述网络书籍目录完整性检测方法,通过将抽取的网络书籍的目录与预存储的网络书籍目录进行比较,若相同,则抽取的网络书籍的目录完整,若不相同,则抽取的网络书籍的目录不完整,检测出抽取的网络书籍的目录的完整性,提高了易读性。
图7为一个实施例中网络书籍目录完整性检测装置的结构示意图。如图7所示,一种网络书籍目录完整性检测装置,包括抽取模块710、章节编号获取模块720、转化模块730、目录位置序号获取模块740和比较模块75。其中:
抽取模块710用于抽取网络书籍的目录。
具体的,从聚合网站等抽取网络书籍的目录。聚合网站是指抽取第三方站点的内容,提供给用户搜索查看网络书籍的网站。
图8为图7中抽取模块的内部结构框图。如图8所示,抽取模块710包括第一构造单元711、第一分析单元712、第二构造单元713、第一发送单元714、第一接收单元715和第一解析单元716。其中:
第一构造单元711用于通过网络书籍标识构造相应的网络书籍页面统一资源定位符。
网络书籍标识是用于区分网络书籍唯一性的。例如网络书籍标识可为1000298588或10001000等数字编号。
图3为通过网络书籍标识构造的网络书籍页面统一资源定位符示意图。图3中,网络书籍“武侠世界大冒险”的页面统一资源定位符为book.abc.com/catalog/1000298588,在页面统一资源定位符所对应的页面中可包括对网络书籍的简介(王东在玩一款武侠游戏的时候,穿越到古代,变为一个江湖帮派弟子……)、最新章节(如第505章“后宫王”傲公子)、更新时间(如2015年2月6日00时00分)等。
第一分析单元712用于对该网络书籍页面统一资源定位符进行分析得到该网络书籍的目录接口。
再参图3,在图3中网络书籍页面统一资源定位符所对应的页面中包含AJAX接口信息。该AJAX接口即为网络书籍的目录接口,如http://bookabc.com/ajax?m=list_charpter&resourceid=1000298588&start=1&serialnum=506&sort=asc&t=1423204680067等,但不限于此。
第二构造单元713用于根据该网络书籍的目录接口构造相应的统一资源定位符。具体的,网络书籍的目录接口即可作为统一资源定位符,可根据该统一资源定位符定位到相应的网页。如将网络书籍的目录接口http://bookabc.com/ajax?m=list_charpter&resourceid=1000298588&start=1&serialnum=506&sort=asc&t=1423204680067作为统一资源定位符。
第一发送单元714用于根据该统一资源定位符发送超文本传输协议请求。
第一接收单元715用于接收返回的脚本文件。在脚本文件中包括网络书籍标识、章节编号、章节名称等。
第一解析单元716用于对该脚本文件进行解析得到该网络书籍的目录。
具体的,通过对脚本文件进行解析可得到其中的网络书籍的目录。
通过对构造统一资源定位符,获取目录接口,通过目录接口获取目录,获取方便,操作简单。
章节编号获取模块720用于获取该网络书籍的目录中每一章的章节编号。
在一个实施例中,章节编号获取模块720还用于对该网络书籍的目录进行去杂质章节处理得到该网络书籍的目录中每一章的章节编号。
进一步的,在一个实施例中,章节编号获取模块720还用于通过人工筛选或脚本自动化对网络书籍的目录进行去杂质章节处理得到该网络书籍的目录中每一章的章节编号。
具体的,通过人工筛选出网络书籍的目录中杂质,得到网络书籍的目录中的章节编号。或者,通过脚本对网络书籍的目录进行分词分析筛选出其中的章节编号。章节编号是指网络书籍中出现的“第一章xxx”中“第一章”。杂质是指网络书籍中出现的与正文无关的内容。
转化模块730用于将该章节编号转化为对应的数字。具体的,脚本检测出章节编号后,对章节编号中的每个文字进行翻译,然后计算得到章节编号所对应的数字。例如“第二百五十三章”,将二转化为2,五转化为5,三转化为3,百转化为100,十转化为10,再计算得到2*100+5*10+3=253。
目录位置序号获取模块740用于获取每一章的目录位置序号。具体的,每一章的目录位置序号是指每一章出现在目录中的位置。
比较模块750用于将每一章的章节编号与对应的目录位置序号进行比较,若两者相等,则表示网络书籍的目录完整,若该章节编号大于该目录位置序号,则表示网络书籍的目录缺失。
具体的,将第一章的章节编号与对应的目录位置序号进行比较,N=1,M=1,则M=N,说明第一章没有缺失;将第二章的章节编号与对应的目录位置序号进行比较,N=2,M=2,则M=N,说明第二章没有缺失;将第三章的章节编号与对应的目录位置序号进行比较,N=3,M=3,则M=N,说明第三章没有缺失;将第六章的章节编号与对应的目录位置序号进行比较,N=6,M=4,则M<N,说明存在章节缺失,并且缺失的章节为第M章到第N-1章,即缺失第四章和第五章。
若该章节编号大于该位置序号时,得到目录缺失的章节编号为起始章节编号至终止章节编号,其中,与该位置序号相等的章节编号为起始章节编号,该章节编号减去1所得到的章节编号为终止章节编号。例如章节编号为N,目录位置序号为M,当N>M,则起始章节编号为M,终止章节编号为N-1。可计算得出缺失的章节编号,便于查找到相关数据。
上述网络书籍目录完整性检测装置,通过抽取网络书籍的目录,获取目录中每一章的章节编号和目录位置序号,将每一章的章节编号和目录位置序号进行比较,若相等,则网络书籍的目录完整,若章节编号大于对应的目录位置序号,则网络书籍的目录不完整,可有效的检测出网络书籍的目录的完整性,提高网络书籍的易读性。此外,通过去杂质章节处理,可得到纯净的网络书籍目录。
图9为另一个实施例中网络书籍目录完整性检测装置的结构框图。如图9所示,一种网络书籍目录完整性检测装置,包括提取模块910、章节编号提取模块920和对比模块930。其中:
提取模块910用于抽取网络书籍的目录。
图10为图9中提取模块的内部结构框图。如图10所示,提取模块910包括第三构造单元911、第二分析单元912、第四构造单元913、第二发送单元914、第二接收单元915和第二解析单元916。其中:
第三构造单元911用于通过网络书籍标识构造相应的网络书籍页面统一资源定位符。网络书籍标识是用于区分网络书籍唯一性的。例如网络书籍标识可为1000298588或10001000等数字编号。
图3为通过网络书籍标识构造的网络书籍页面统一资源定位符示意图。图3中,网络书籍“武侠世界大冒险”的页面统一资源定位符为book.abc.com/catalog/1000298588,在页面统一资源定位符所对应的页面中可包括对网络书籍的简介(王东在玩一款武侠游戏的时候,穿越到古代,变为一个江湖帮派弟子……)、最新章节(如第505章“后宫王”傲公子)、更新时间(如2015年2月6日00时00分)等。
第二分析单元912用于对该网络书籍页面统一资源定位符进行分析得到该网络书籍的目录接口。再参图3,在图3中网络书籍页面统一资源定位符所对应的页面中包含AJAX接口信息。该AJAX接口即为网络书籍的目录接口,如http://bookabc.com/ajax?m=list_charpter&resourceid=1000298588&start=1&serialnum=506&sort=asc&t=1423204680067等,但不限于此。
第四构造单元913用于根据该网络书籍的目录接口构造相应的统一资源定位符。
具体的,网络书籍的目录接口即可作为统一资源定位符,可根据该统一资源定位符定位到相应的网页。如将网络书籍的目录接口http://bookabc.com/ajax?m=list_charpter&resourceid=1000298588&start=1&serialnum=506&sort=asc&t=1423204680067作为统一资源定位符。
第二发送单元914用于根据该统一资源定位符发送超文本传输协议请求。
第二接收单元915用于接收返回的脚本文件。在脚本文件中包括网络书籍标识、章节编号、章节名称等。
第二解析单元916用于对该脚本文件进行解析得到该网络书籍的目录。
具体的,通过对脚本文件进行解析可得到其中的网络书籍的目录。
通过对构造统一资源定位符,获取目录接口,通过目录接口获取目录,获取方便,操作简单。
章节编号提取模块920用于获取该网络书籍的目录中每一章的章节编号。
对比模块930用于将该章节编号与预存储网络书籍的目录的章节编号进行比对,若相同,则表示网络书籍的目录完整,若不相同,则表示网络书籍的目录缺失。
在一个实施例中,章节编号提取模块920还用于对该网络书籍的目录进行去杂质章节处理得到该网络书籍的目录中每一章的章节编号。
进一步的,在一个实施例中,章节编号提取模块920还用于通过人工筛选或脚本自动化对网络书籍的目录进行去杂质章节处理得到该网络书籍的目录中每一章的章节编号。
具体的,通过人工筛选出网络书籍的目录中杂质,得到网络书籍的目录中的章节编号。或者,通过脚本对网络书籍的目录进行分词分析筛选出其中的章节编号。章节编号是指网络书籍中出现的“第一章xxx”中“第一章”。杂质是指网络书籍中出现的与正文无关的内容。
上述网络书籍目录完整性检测装置,通过抽取网络书籍的目录,获取目录中每一章的章节编号和目录位置序号,将每一章的章节编号和目录位置序号进行比较,若相等,则网络书籍的目录完整,若章节编号大于对应的目录位置序号,则网络书籍的目录不完整,可有效的检测出网络书籍的目录的完整性,提高网络书籍的易读性。此外,通过去杂质章节处理,可得到纯净的网络书籍目录。
图11为能实现本发明实施例的一个计算机系统1000的模块图。该计算机系统1000只是一个适用于本发明的计算机环境的示例,不能认为是提出了对本发明的使用范围的任何限制。计算机系统1000也不能解释为需要依赖于或具有图示的示例性的计算机系统1000中的一个或多个部件的组合。
图11中示出的计算机系统1000是一个适合用于本发明的计算机系统的例子。具有不同子系统配置的其它架构也可以使用。例如有大众所熟知的台式机、笔记本、个人数字助理、智能电话、平板电脑、便携式媒体播放器、机顶盒等类似设备可以适用于本发明的一些实施例。但不限于以上所列举的设备。
如图11所示,计算机系统1000包括处理器1010、存储器1020和系统总线1022。包括存储器1020和处理器1010在内的各种系统组件连接到系统总线1022上。处理器1010是一个用来通过计算机系统中基本的算术和逻辑运算来执行计算机程序指令的硬件。存储器1020是一个用于临时或永久性存储计算程序或数据(例如,程序状态信息)的物理设备。系统总线1020可以为以下几种类型的总线结构中的任意一种,包括存储器总线或存储控制器、外设总线和局部总线。处理器1010和存储器1020可以通过系统总线1022进行数据通信。其中存储器1020包括只读存储器(ROM)或闪存(图中都未示出),以及随机存取存储器(RAM),RAM通常是指加载了操作系统和应用程序的主存储器。
计算机系统1000还包括显示接口1030(例如,图形处理单元)、显示设备1040(例如,液晶显示器)、音频接口1050(例如,声卡)以及音频设备1060(例如,扬声器)。显示设备1040和音频设备1060是用于体验多媒体内容的媒体设备。
计算机系统1000一般包括一个存储设备1070。存储设备1070可以从多种计算机可读介质中选择,计算机可读介质是指可以通过计算机系统1000访问的任何可利用的介质,包括移动的和固定的两种介质。例如,计算机可读介质包括但不限于,闪速存储器(微型SD卡),CD-ROM,数字通用光盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并可由计算机系统1000访问的任何其它介质。
计算机系统1000还包括输入装置1080和输入接口1090(例如,IO控制器)。用户可以通过输入装置1080,如键盘、鼠标、显示装置1040上的触摸面板设备,输入指令和信息到计算机系统1000中。输入装置1080通常是通过输入接口1090连接到系统总线1022上的,但也可以通过其它接口或总线结构相连接,如通用串行总线(USB)。
计算机系统1000可在网络环境中与一个或者多个网络设备进行逻辑连接。网络设备可以是个人电脑、服务器、路由器、智能电话、平板电脑或者其它公共网络节点。计算机系统1000通过局域网(LAN)接口1100或者移动通信单元1110与网络设备相连接。局域网(LAN)是指在有限区域内,例如家庭、学校、计算机实验室、或者使用网络媒体的办公楼,互联组成的计算机网络。WiFi和双绞线布线以太网是最常用的构建局域网的两种技术。WiFi是一种能使计算机系统1000间交换数据或通过无线电波连接到无线网络的技术。移动通信单元1110能在一个广阔的地理区域内移动的同时通过无线电通信线路接听和拨打电话。除了通话以外,移动通信单元1110也支持在提供移动数据服务的2G,3G或4G蜂窝通信系统中进行互联网访问。
应当指出的是,其它包括比计算机系统1000更多或更少的子系统的计算机系统也能适用于发明。例如,计算机系统1000可以包括能在短距离内交换数据的蓝牙单元,用于照相的图像传感器,以及用于测量加速度的加速计。
如上面详细描述的,适用于本发明的计算机系统1000能执行网络书籍目录完整性检测方法的指定操作。计算机系统1000通过处理器1010运行在计算机可读介质中的软件指令的形式来执行这些操作。这些软件指令可以从存储设备1070或者通过局域网接口1100从另一设备读入到存储器1020中。存储在存储器1020中的软件指令使得处理器1010执行上述的网络书籍目录完整性检测方法。此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本发明。因此,实现本发明并不限于任何特定硬件电路和软件的组合。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种网络书籍目录完整性检测方法,包括以下步骤:
抽取网络书籍的目录;
对所述网络书籍的目录进行去杂质章节处理,得到所述网络书籍的目录中每一章的章节编号,所述杂质是指所述网络书籍中出现的与正文无关的内容;
将所述章节编号转化为对应的数字;
获取每一章的目录位置序号,所述目录位置序号为每一章在去杂质章节后的目录中的位置序号;
将每一章的章节编号对应的数字与对应的目录位置序号进行比较,若两者相等,则表示网络书籍的目录完整,若所述章节编号大于所述目录位置序号,则表示网络书籍的目录缺失。
2.根据权利要求1所述的方法,其特征在于,所述对所述网络书籍的目录进行去杂质章节处理得到所述网络书籍的目录中每一章的章节编号的步骤包括:
通过人工筛选或脚本自动化对网络书籍的目录进行去杂质章节处理得到所述网络书籍的目录中每一章的章节编号。
3.根据权利要求1所述的方法,其特征在于,所述抽取网络书籍的目录的步骤包括:
通过网络书籍标识构造相应的网络书籍页面统一资源定位符;
对所述网络书籍页面统一资源定位符进行分析得到所述网络书籍的目录接口;
根据所述网络书籍的目录接口构造相应的统一资源定位符;
根据所述统一资源定位符发送超文本传输协议请求;
接收返回的脚本文件;
对所述脚本文件进行解析得到所述网络书籍的目录。
4.根据权利要求1所述的方法,其特征在于,若所述章节编号大于所述目录位置序号时,得到目录缺失的章节编号为起始章节编号至终止章节编号,其中,与所述目录位置序号相等的章节编号为起始章节编号,所述章节编号减去1所得到的章节编号为终止章节编号。
5.一种网络书籍目录完整性检测装置,其特征在于,包括:
抽取模块,用于抽取网络书籍的目录;
章节编号获取模块,用于对所述网络书籍的目录进行去杂质章节处理得到所述网络书籍的目录中每一章的章节编号,所述杂质是指所述网络书籍中出现的与正文无关的内容;
转化模块,用于将所述章节编号转化为对应的数字;
目录位置序号获取模块,用于获取每一章的目录位置序号,所述目录位置序号为每一章在去杂质章节后的目录中的位置序号;
比较模块,用于将每一章的章节编号对应的数字与对应的目录位置序号进行比较,若两者相等,则表示网络书籍的目录完整,若所述章节编号大于所述目录位置序号,则表示网络书籍的目录缺失。
6.根据权利要求5所述的装置,其特征在于,所述章节编号获取模块还用于通过人工筛选或脚本自动化对网络书籍的目录进行去杂质章节处理得到所述网络书籍的目录中每一章的章节编号。
7.根据权利要求5所述的装置,其特征在于,所述抽取模块包括:
第一构造单元,用于通过网络书籍标识构造相应的网络书籍页面统一资源定位符;
第一分析单元,用于对所述网络书籍页面统一资源定位符进行分析得到所述网络书籍的目录接口;
第二构造单元,用于根据所述网络书籍的目录接口构造相应的统一资源定位符;
第一发送单元,用于根据所述统一资源定位符发送超文本传输协议请求;
第一接收单元,用于接收返回的脚本文件;
第一解析单元,用于对所述脚本文件进行解析得到所述网络书籍的目录。
8.根据权利要求5所述的装置,其特征在于,若所述章节编号大于所述目录位置序号时,得到目录缺失的章节编号为起始章节编号至终止章节编号,其中,与所述目录位置序号相等的章节编号为起始章节编号,所述章节编号减去1所得到的章节编号为终止章节编号。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN201510105571.6A 2015-03-10 2015-03-10 网络书籍目录完整性检测方法和装置 Active CN106033405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510105571.6A CN106033405B (zh) 2015-03-10 2015-03-10 网络书籍目录完整性检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510105571.6A CN106033405B (zh) 2015-03-10 2015-03-10 网络书籍目录完整性检测方法和装置

Publications (2)

Publication Number Publication Date
CN106033405A CN106033405A (zh) 2016-10-19
CN106033405B true CN106033405B (zh) 2020-06-05

Family

ID=57150451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510105571.6A Active CN106033405B (zh) 2015-03-10 2015-03-10 网络书籍目录完整性检测方法和装置

Country Status (1)

Country Link
CN (1) CN106033405B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445967B (zh) * 2015-08-11 2020-12-29 腾讯科技(深圳)有限公司 一种资源目录的管理方法和装置
CN111046629B (zh) * 2019-12-16 2022-03-01 北大方正集团有限公司 大纲显示方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544172A (zh) * 2012-07-13 2014-01-29 深圳市世纪光速信息技术有限公司 一种电子书的章节目录处理方法及装置
CN104317903A (zh) * 2014-10-24 2015-01-28 北京奇虎科技有限公司 章节式文本的章节完整性的识别方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101862222B (zh) * 2010-05-28 2012-05-30 深圳市汇通世纪移动科技有限公司 医用设备取得的图像信息的存储方法及系统
CN102663050B (zh) * 2012-03-29 2015-04-22 北京奇虎科技有限公司 电子书数据处理方法与装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544172A (zh) * 2012-07-13 2014-01-29 深圳市世纪光速信息技术有限公司 一种电子书的章节目录处理方法及装置
CN104317903A (zh) * 2014-10-24 2015-01-28 北京奇虎科技有限公司 章节式文本的章节完整性的识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
骆艳.俄藏未刊布西夏文献《天盛律令》残卷整理研究.《中国硕士学位论文全文数据库哲学与人文科学辑》.2014,(第9期), *

Also Published As

Publication number Publication date
CN106033405A (zh) 2016-10-19

Similar Documents

Publication Publication Date Title
CN112714406B (zh) 一种实现5g消息转换的方法、装置及设备
US8250466B2 (en) Computer and method for converting a web page
US10521474B2 (en) Apparatus and method for web page access
US9934206B2 (en) Method and apparatus for extracting web page content
CN103714115A (zh) 一种网页内容的加载方法和装置
CN108334508B (zh) 网页信息的提取方法和装置
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
WO2018129903A1 (zh) 舆情公关方法、系统、用户终端及计算机可读存储介质
CN103399885A (zh) 兴趣点代表图片的挖掘方法、装置和服务器
CN101751462A (zh) 网络信息的存储、访问方法、设备及终端
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN104462186A (zh) 一种语音搜索方法及装置
CN111597107B (zh) 信息输出方法、装置和电子设备
WO2017211202A1 (zh) 数据的提取方法、装置及终端设备
CN104899203B (zh) 一种网页页面的生成方法、装置及终端设备
CN109657472B (zh) Sql注入漏洞检测方法、装置、设备及可读存储介质
CN111708680A (zh) 报错信息解析方法、装置、电子设备及存储介质
CN106033405B (zh) 网络书籍目录完整性检测方法和装置
KR102151322B1 (ko) 정보 푸시 방법 및 장치
US20130230248A1 (en) Ensuring validity of the bookmark reference in a collaborative bookmarking system
CN115437930B (zh) 网页应用指纹信息的识别方法及相关设备
WO2017074710A1 (en) Search system
JP6188222B2 (ja) トピック抽出装置、及びプログラム
CN111310465B (zh) 平行语料获取方法、装置、电子设备、及存储介质
CN105589870B (zh) 网页广告的过滤方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant