CN104216872B - 一种识别网络小说中垃圾章节的方法及装置 - Google Patents

一种识别网络小说中垃圾章节的方法及装置 Download PDF

Info

Publication number
CN104216872B
CN104216872B CN201310214058.1A CN201310214058A CN104216872B CN 104216872 B CN104216872 B CN 104216872B CN 201310214058 A CN201310214058 A CN 201310214058A CN 104216872 B CN104216872 B CN 104216872B
Authority
CN
China
Prior art keywords
chapters
sections
rubbish
section name
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310214058.1A
Other languages
English (en)
Other versions
CN104216872A (zh
Inventor
高健
牛小彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310214058.1A priority Critical patent/CN104216872B/zh
Publication of CN104216872A publication Critical patent/CN104216872A/zh
Application granted granted Critical
Publication of CN104216872B publication Critical patent/CN104216872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明适用于计算机技术领域,提供了一种识别网络小说中垃圾章节的方法及装置,所述方法包括:抓取网络小说数据;计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说;获取每个ID对应的网络小说数据的章节名称;统计并计算相同章节名称对应的ID数量;识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。本发明实现可以及时、有效识别网络小说中垃圾章节。

Description

一种识别网络小说中垃圾章节的方法及装置
技术领域
本发明属于计算机技术领域,尤其涉及一种识别网络小说中垃圾章节的方法及装置。
背景技术
网络小说是一种新兴的小说体裁,随着网络的快速发展而出现,网络小说以网络为基础平台,网络小说作者在小说网站发布小说,并不断对小说进行更新,以使网络读者进行阅读,其特点为风格自由,文体不限,发表阅读方式较为简单。然而,很多网络小说中包括很多的垃圾章节,这些垃圾章节的内容与小说内容本身并不相干,例如:网站广告、作者广告、新书推荐等,十分影响小说的阅读。
现有技术,通常采用人工查询或者关键字查询的方式,去除网络小说中的垃圾章节,然而,对于人工查询方式,查询速度较慢,当网络小说数量较多的时候,需要花费大量的人工成本,花费很长时间去处理查找垃圾章节,因此,人工查询方式查询速度慢,无法及时有效的发现垃圾章节;而使用关键字进行查询的方式,虽然可以发现包括预设垃圾关键词的网络小说,但由于网络小说更新速度很快,小说中的垃圾关键字也不断更新,因此,关键字查询方式也无法及时发现网络小说中的垃圾章节。综上,现有技术无法及时、有效的去除网络小说中垃圾章节。
发明内容
本发明实施例的目的在于提供一种识别网络小说中垃圾章节的方法,旨在解决现有技术无法及时、有效的去除网络小说中垃圾章节问题。
为了实现上述目的,本发明实施例提供如下技术方案:
本发明第一方面提供了一种识别网络小说中垃圾章节的方法,所述方法包括:
抓取网络小说数据;
计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说;
获取每个ID对应的网络小说数据的章节名称;
统计并计算相同章节名称对应的ID数量;
识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。
本发明第二方面提供了一种识别网络小说中垃圾章节的装置,所述装置包括:
抓取单元,用于抓取网络小说数据;
计算单元,用于计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说;
获取单元,用于获取每个ID对应的网络小说数据的章节名称;
计算单元,用于统计并计算相同章节名称对应的ID数量;
识别单元,用于识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。
本发明实施例与现有技术相比,有益效果在于:抓取网络小说数据,计算每一网络小说数据的ID,所述ID用于唯一标识一本网络小说,获取每个ID对应的网络小说数据的章节名称,统计并计算相同章节名称对应的ID数量,识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。使得不需要人工参与,即可实现可以及时、有效识别网络小说中垃圾章节。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的识别网络小说中垃圾章节的方法的实现的流程图;
图2是本发明实施例二提供的识别网络小说中垃圾章节的方法的实现的流程图;
图3是本发明实施例三提供的识别网络小说中垃圾章节的装置的结构图;
图4是本发明实施例四提供的识别网络小说中垃圾章节的装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例中,通过计算每一网络小说数据的ID,统计并计算相同章节名称对应的ID数量,识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。
以下结合具体实施例对本发明的实现进行详细描述:
实施例一
图1示出了本发明实施例一提供的识别网络小说中垃圾章节的方法的实现的流程图,详述如下:
在S101中,抓取网络小说数据;
在S102中,计算每一网络小说数据的标识(Identify,ID),所述ID用于唯一标识一网络小说;
本实施例中,优选的所述ID为小说名,或者小说名和作者名,其它的可以唯一标识一本小说的数据均可以作为小说的网络数据。
在S103中,获取每个ID对应的网络小说数据的章节名称;
本实施例中,由于同一网络小说数据可能存储在不同的站点,因此,相同ID的网络小说可以认为是相同的小说,为了避免相同ID的小说数据被多次统计,而影响后续统计结果,S103优选的可以采用以下方式实现:获取不同ID对应的网络小说数据的章节名称,具有相同ID对应的网络小说数据可以只获取一次。
本实施例中,所述章节名称可以包括章节名称的文字信息和/或数字信息。
本实施例中,获取后的每个ID对应的章节名称可以采用以下方式表示:{id1,chapterA}、{id1,chapterB}、{id1,chapterC}、{id2,chapterA’}、{id2,chapterB’}、{id2,chapterC’},…,…。
在S104中,统计并计算相同章节名称对应的ID数量;
本实施例中,统计S103中获取的章节名称中的每一章节对应的ID数量如下:{chapterA,{id1,id3,…}}、{chapterB,{id1,id5,…}}、{chapterC,{id2,id3,…}},…;则根据所述统计结果,计算每个章节名对应的ID数量(即相同章节名称出现在多少本小说中)具体为:{chapterA,n1},{chapterB,n2},{chapterC,n3},…。
在S105中,识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。
本实施例中,抓取网络小说数据,计算每一网络小说数据的ID,所述ID用于唯一标识一本网络小说,获取每个ID对应的网络小说数据的章节名称,统计并计算相同章节名称对应的ID数量,识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。使得不需要人工参与,即可实现可以及时、有效识别网络小说中垃圾章节。
实施例二
图2示出了本发明实施例一提供的识别网络小说中垃圾章节的方法的实现的流程图,详述如下:
在S201中,抓取网络小说数据;
在S202中,通过信息摘要算法5(Message Digest Algorithm 5,MD5),计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说;
在S203中,获取每个ID对应的网络小说数据的章节名称;
在S204中,统计并计算相同章节名称对应的ID数量;
在S205中,识别章节名称大于预设长度和/或ID数量大于预设数量的章节为垃圾章节。
其中,可以识别章节名称大于预设长度m和/或ID数量大于预设数量n的章节为垃圾章节,其中,所述m和n为为整数,且根据实际需要进行设定,其中,垃圾章节可以表示为:{chapterD,chapterE,ChapterK,…}。
可选的,为了避免将一些非垃圾章节的小说数据识别为垃圾章节,所述S205优选的为:
S205a、识别符合预设条件的章节名称和/或ID数量的章节为疑似垃圾章节;
S205b、将所述疑似垃圾章节的章节名称在预设白名单中进行匹配,将与所述预设白名单中存储的关键词的匹配度小于预设阈值的章节名称对应的疑似垃圾章节识别为垃圾章节,所述预设白名单存储合法的关键词。
其中,当章节名称与所述预设白名单中存储的关键词的匹配度小于预设阈值时,说明该章节名称为垃圾章节的概率已经很高,所以可以认为该章节为垃圾章,通过白名单进一步对疑似垃圾章节进行处理,可以有效提供高垃圾章节识别的准确率。
通过将所述大于预设阈值的章节名称更新至所述预设白名单,可以不断对白名单进行更新,从而及时与互联网网络数据的更新同步。
可选的,除了预设白名单的实现方式,S205b还可以将所述疑似垃圾章节的章节名称在预设白名单中进行匹配,将与所述预设白名单中存储的关键词的匹配度大于预设阈值的章节名称对应的疑似垃圾章节识别为垃圾章节,所述预设黑名单存储非法的关键词。
进一步,可以将与所述预设黑名单中存储的关键词的匹配度大预设阈值的章节名称更新至所述预设白名单中。
本实施例中,根据同名章节的小说数量的多少,以及章节名称的长短信息,发现小说数据中的垃圾章节,实现及时、有效识别小说中的垃圾章节数据。
实施例三
图3是本发明实施例三提供的识别网络小说中垃圾章节的装置的结构图,为了便于说明,仅示出了与本发明实施例相关的部分,该装置可以是内置于终端设备中的软件单元、硬件单元或者软硬结合单元。
所述装置包括:抓取单元31、计算单元32、获取单元33、计算单元34及识别单元35。
抓取单元31,用于抓取网络小说数据;
计算单元32,用于计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说;
获取单元33,用于获取每个ID对应的网络小说数据的章节名称;
计算单元34,用于统计并计算相同章节名称对应的ID数量;
识别单元35,用于识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。
可选的,所述ID为小说名,或者小说名和作者名。
可选的,所述计算单元34,用于通过MD5,计算每一网络小说数据的ID。
可选的,所述识别单元35,用于识别章节名称大于预设长度和/或ID数量大于预设数量的章节为垃圾章节。
本发明实施例提供的识别网络小说中垃圾章节的装置可以使用在前述对应的方法实施例一中,详情参见上述实施例一的描述,在此不再赘述。
实施例四
图4是本发明实施例三提供的识别网络小说中垃圾章节的装置的结构图,为了便于说明,仅示出了与本发明实施例相关的部分,该装置可以是内置于终端设备中的软件单元、硬件单元或者软硬结合单元。
所述装置包括:抓取单元41、计算单元42、获取单元43、计算单元44及识别单元45。
本实施例与实施例三的区别在于:
所述识别单元45包括:识别模块451和匹配模块452。
识别模块451,用于识别符合预设条件的章节名称和/或ID数量的章节为疑似垃圾章节;
匹配模块452,用于将所述疑似垃圾章节的章节名称在预设白名单中进行匹配,将与所述预设白名单中存储的关键词的匹配度小于预设阈值的章节名称对应的疑似垃圾章节识别为垃圾章节,所述预设白名单存储合法的关键词。
所述匹配模块452,还用于将与所述预设白名单中存储的关键词的匹配度大于预设阈值的章节名称更新至所述预设白名单中。
本发明实施例提供的识别网络小说中垃圾章节的装置可以使用在前述对应的方法实施例二中,详情参见上述实施例二的描述,在此不再赘述。
值得注意的是,上述实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种识别网络小说中垃圾章节的方法,其特征在于,所述方法包括:
抓取网络小说数据;
计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说;
获取每个ID对应的网络小说数据的章节名称,所述章节名称包括章节名称的文字信息和/或数字信息;
统计并计算相同章节名称对应的ID数量;
识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。
2.如权利要求1所述的方法,其特征在于,所述ID包括小说名,或者小说名和作者名。
3.如权利要求1所述的方法,其特征在于,所述计算每一网络小说数据的ID包括:
通过MD5,计算每一网络小说数据的ID。
4.如权利要求1所述的方法,其特征在于,所述识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节包括:
识别章节名称大于预设长度和/或ID数量大于预设数量的章节为垃圾章节。
5.如权利要求1所述的方法,其特征在于,所述识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节包括:
识别符合预设条件的章节名称和/或ID数量的章节为疑似垃圾章节;
将所述疑似垃圾章节的章节名称在预设白名单中进行匹配,将与所述预设白名单中存储的关键词的匹配度小于预设阈值的章节名称对应的疑似垃圾章节识别为垃圾章节,所述预设白名单存储合法的关键词。
6.如权利要求5所述的方法,其特征在于,所述识别符合预设条件的章节名称和/或ID数量的章节为疑似垃圾章节之后,所述方法还包括:
将与所述预设白名单中存储的关键词的匹配度大于预设阈值的章节名称更新至所述预设白名单中。
7.一种识别网络小说中垃圾章节的装置,其特征在于,所述装置包括:
抓取单元,用于抓取网络小说数据;
计算单元,用于计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说;
获取单元,用于获取每个ID对应的网络小说数据的章节名称,所述章节名称包括章节名称的文字信息和/或数字信息;
计算单元,用于统计并计算相同章节名称对应的ID数量;
识别单元,用于识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。
8.如权利要求7所述的装置,其特征在于,所述ID包括小说名,或者小说名和作者名。
9.如权利要求7所述的装置,其特征在于,所述计算单元,用于通过MD5,计算每一网络小说数据的ID。
10.如权利要求7所述的装置,其特征在于,所述识别单元,用于识别章节名称大于预设长度和/或ID数量大于预设数量的章节为垃圾章节。
11.如权利要求7所述的装置,其特征在于,所述识别单元包括:
识别模块,用于识别符合预设条件的章节名称和/或ID数量的章节为疑似垃圾章节;
匹配模块,用于将所述疑似垃圾章节的章节名称在预设白名单中进行匹配,将与所述预设白名单中存储的关键词的匹配度小于预设阈值的章节名称对应的疑似垃圾章节识别为垃圾章节,所述预设白名单存储合法的关键词。
12.如权利要求11所述的装置,其特征在于,所述匹配模块,还用于将与所述预设白名单中存储的关键词的匹配度大于预设阈值的章节名称更新至所述预设白名单中。
CN201310214058.1A 2013-05-31 2013-05-31 一种识别网络小说中垃圾章节的方法及装置 Active CN104216872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310214058.1A CN104216872B (zh) 2013-05-31 2013-05-31 一种识别网络小说中垃圾章节的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310214058.1A CN104216872B (zh) 2013-05-31 2013-05-31 一种识别网络小说中垃圾章节的方法及装置

Publications (2)

Publication Number Publication Date
CN104216872A CN104216872A (zh) 2014-12-17
CN104216872B true CN104216872B (zh) 2017-12-01

Family

ID=52098378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310214058.1A Active CN104216872B (zh) 2013-05-31 2013-05-31 一种识别网络小说中垃圾章节的方法及装置

Country Status (1)

Country Link
CN (1) CN104216872B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615768B (zh) * 2015-02-13 2017-06-16 广州神马移动信息科技有限公司 文档的同本识别方法及装置
CN105302913B (zh) * 2015-11-12 2018-09-18 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
CN110929474B (zh) * 2019-10-28 2023-10-20 维沃移动通信(杭州)有限公司 一种文学作品章节的显示方法、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1366257A (zh) * 2002-01-09 2002-08-28 杜林利 对象唯一标识方法
CN102315953A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 基于帖子的出现规律来检测垃圾帖子的方法及设备
CN102982048A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种用于评估垃圾信息挖掘规则的方法与设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1366257A (zh) * 2002-01-09 2002-08-28 杜林利 对象唯一标识方法
CN102315953A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 基于帖子的出现规律来检测垃圾帖子的方法及设备
CN102982048A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种用于评估垃圾信息挖掘规则的方法与设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Copy detection mechanims ofor digital documents》;Sergey Brin et al;《SIGMOD"95 Proceedings of 1995 ACM SIGMOD international conference on Management of data》;19950522;第24卷(第2期);第398-409页 *
《大连理工大学学报》;金博等;《基于篇章结构相似度的复制检测算法》;20070131;第47卷(第1期);第125-130页 *

Also Published As

Publication number Publication date
CN104216872A (zh) 2014-12-17

Similar Documents

Publication Publication Date Title
US8402021B2 (en) Providing posts to discussion threads in response to a search query
WO2016074492A1 (zh) 基于社交平台的数据挖掘方法及装置
CN103902653B (zh) 一种构建数据仓库表血缘关系图的方法和装置
CN105095211B (zh) 多媒体数据的获取方法和装置
CN101950312B (zh) 一种互联网网页内容解析方法
CN102567407B (zh) 一种论坛回帖增量采集方法及系统
CN105654201B (zh) 一种广告流量预测方法及装置
CN102185762B (zh) 用户数据发送行为的识别与提取方法
CN104869009A (zh) 网站数据统计的系统和方法
US20170046447A1 (en) Information Category Obtaining Method and Apparatus
CN109885656B (zh) 基于量化热度的微博转发预测方法及装置
GB2498762A (en) Computing user traffic at the website based on user actions
CN110008419B (zh) 网页去重方法、装置及设备
CN104216872B (zh) 一种识别网络小说中垃圾章节的方法及装置
CN106874392B (zh) 受众用户信息的索引存储及广告信息投放的方法和装置
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
CN104765882A (zh) 一种基于网页特征字符串的互联网网站统计方法
CN103745383A (zh) 基于运营商数据实现重定向服务的方法和系统
CN104424187A (zh) 一种向客户端用户推荐好友的方法及装置
CN103870541A (zh) 社交网络用户兴趣挖掘方法和系统
CN103309851B (zh) 短文本的垃圾识别方法及系统
CN107239542A (zh) 一种数据统计方法、装置、服务器及存储介质
CN110020134B (zh) 一种知识服务信息的推送方法、系统、存储介质和处理器
CN103853771A (zh) 一种搜索结果的推送方法及系统
CN107818145A (zh) 一种基于动态爬虫的用户行为分类标签提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant