CN105302913A - 网络小说章节列表评估方法及装置 - Google Patents

网络小说章节列表评估方法及装置 Download PDF

Info

Publication number
CN105302913A
CN105302913A CN201510771521.1A CN201510771521A CN105302913A CN 105302913 A CN105302913 A CN 105302913A CN 201510771521 A CN201510771521 A CN 201510771521A CN 105302913 A CN105302913 A CN 105302913A
Authority
CN
China
Prior art keywords
chapter list
list page
page
chapter
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510771521.1A
Other languages
English (en)
Other versions
CN105302913B (zh
Inventor
何建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510771521.1A priority Critical patent/CN105302913B/zh
Publication of CN105302913A publication Critical patent/CN105302913A/zh
Priority to PCT/CN2016/083434 priority patent/WO2017080183A1/zh
Application granted granted Critical
Publication of CN105302913B publication Critical patent/CN105302913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网技术领域,特别涉及一种网络小说章节列表评估方法及装置。所述方法包括有步骤:确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点;获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定;获取第一集合内每个章节列表页的至少一个特征量值;根据预设规则计算每个章节列表页的至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。解决了现有技术中通过人工配置模板进行章节列表页判断导致效率低的问题,能灵活、快速的评估出最符合要求的章节列表页,评估结果准确、客观。

Description

网络小说章节列表评估方法及装置
【技术领域】
本发明涉及互联网技术领域,特别涉及一种网络小说章节列表评估方法及装置。
【背景技术】
随着计算机和计算机网络的日益普及,互联网已经深入到人们工作、学习和生活的各个领域,成为人们发布和获取信息的重要途径。
在互联网中,同一本电子书(例如小说等)通常同时在多个站点存在,因此当搜索电子书时,在检索结果中会展现多个存在该电子书的站点。但是同一本电子书在不同的站点的转载过程中,会存在章节列表名称不规范、章节重复、断章、无效章节等情况,对用户的体验造成了影响。通常,在现有的检索结果中排在最前面的站点是质量最好的一个站点,即存在章节列表名称不规范、章节重复、断章、无效章节等情况最少的站点,但是其章节列表页仍然可能是不完整的,甚至可能存在拼凑得到的虚假章节。
现有技术中,通过对小说站点人工配置模板进行章节列表页的评估,该方法虽然准确率高,但是缺点也很明显:人力能覆盖的网站有限,不够智能。因此,如何灵活、快速以及准确的评估章节列表页成为目前需要解决的技术问题。
【发明内容】
本发明的目的旨在解决上述至少一个问题,提供了一种网络小说章节列表评估方法及装置。
为实现该目的,本发明采用如下技术方案:
本发明提供了一种网络小说章节列表评估方法,包括有如下步骤:
确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点;
获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定;
获取第一集合内每个章节列表页的至少一个特征量值;
根据预设规则计算每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。
进一步的,在所述确定同一主体的多个章节列表页之间的相似度的步骤之前,还包括步骤:
基于同一主体从多个站点获取该主体对应的章节列表页。
具体的,所述确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合的步骤中,还包括步骤:
依据所述章节列表页所对应站点的权威值,确定权威值最高的章节列表页为参照章节列表页;
提取每一章节列表页的文字特征向量;
计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;
当该总数大于预设阈值时,将所述章节列表页与所述参照章节列表页归类为同一集合。
具体的,所述获取第一集合内每个章节列表页的至少一个特征量值的步骤中,包括:
提取第一集合内每一章节列表页的文字特征向量;
计算所述第一集合中每两个章节列表页具有相同文字特征向量的数量的第一平均值;
计算某一章节列表页与多个其他章节列表页的相同文字特征向量的数量的第二平均值;
依据所述第二平均值与所述第一平均值的差值大小,基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值,其中该差值大小与第一特征量值相对应。
进一步的,所述方法还包括有步骤:
依据所述第二平均值与所述第一平均值的差值大小,基于预设的正确性规则设定表征该章节列表页正确性的第二特征量值,其中该差值大小与第二特征量值相对应。
进一步的,所述获取第一集合内每个章节列表页的至少一个特征量值的步骤中,还包括:
获取该第一集合内每个章节列表页对应于相同页码的章节列表中的文字特征向量,其中该页码所对应的数值大于预设的页码阈值;
获取某一个章节列表页与多个其他章节列表页具有相同文字特征向量的总数;
根据所述总数与预设的表征实新性的第二阈值的大小关系,判断该章节列表页是否为虚假章节列表页。
具体的,根据所述总数与预设的表征实新性的第二阈值的大小关系,判断该章节列表页是否为虚假章节列表页的步骤,包括:
当所述总数大于等于所述预设的第二阈值,确定所述章节列表页为有效章节列表页;
当所述总数小于所述预设的第二阈值,确定所述章节列表页为虚假章节列表页。
进一步的,确定所述章节列表页为虚假章节列表页之后,还包括步骤:
过滤掉所述虚假章节列表页。
进一步的,所述根据预设规则计算每个章节列表页的至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页的步骤中,包括:
根据预设规则对同一章节列表页的至少一个特征量值进行加权处理,得到该章节列表页的综合权值;
比较每个章节列表页对应的综合权值的大小;
获取其中综合权值最大的章节列表页。
进一步的,所述根据预设规则对同一章节列表页的至少一个特征量值进行加权处理,得到该章节列表页的综合权值的步骤中,包括:
根据预设的对应于每个特定特征量值的权值,对该权值所对应的特征量值进行加权处理,所得结果为该章节列表页的综合权值,其中特定特征量值表征章节列表页完整性和/或正确性。
具体的,所述确定同一主体的多个章节列表页之间的相似度的步骤中,还包括步骤:
确定同一主体的多个章节列表页中章节列表名称的文本特征向量之间的相似度;和/或
确定同一主体的多个章节列表页中对应于章节列表名称的页码的数值特征向量之间的相似度。
本发明还提供了一种网络小说章节列表评估装置,包括有:
归类模块,用于确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点;
分集模块,用于获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定;
特征量获取模块,用于获取第一集合内每个章节列表页的至少一个特征量值;
目标获取模块,用于根据预设规则计算每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。
进一步的,所述装置还包括有列表页获取模块,
所述列表页获取模块,用于基于同一主体从多个站点获取该主体对应的章节列表页。
具体的,所述归类模块还包括有:
参照页确定单元,用于依据所述章节列表页所对应站点的权威值,确定权威值最高的章节列表页为参照章节列表页;
第一提取单元,用于提取每一章节列表页的文字特征向量;
第一计算单元,用于计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;
第一归类单元,用于当该总数大于预设阈值时,将所述章节列表页与所述参照章节列表页归类为同一集合。
具体的,所述特征量获取模块还包括有:
第二提取单元,用于提取第一集合内每一章节列表页的文字特征向量;
第一平均值计算单元,用于计算所述第一集合中每两个章节列表页具有相同文字特征向量的数量的第一平均值;
第二平均值计算单元,用于计算某一章节列表页与多个其他章节列表页的相同文字特征向量的数量的第二平均值;
第一设定单元,用于依据所述第二平均值与所述第一平均值的差值大小,基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值,其中该差值大小与第一特征量值相对应。
进一步的,本装置还包括有第二设定单元:
所述第二设定单元,用于依据所述第二平均值与所述第一平均值的差值大小,基于预设的正确性规则设定表征该章节列表页正确性的第二特征量值,其中该差值大小与第二特征量值相对应。
具体的,所述特征量获取模块还包括有:
第一获取单元,用于获取该第一集合内每个章节列表页对应于相同页码的章节列表中的文字特征向量,其中该页码所对应的数值大于预设的页码阈值;
总数获取单元,用于获取某一个章节列表页与多个其他章节列表页具有相同文字特征向量的总数;
判断单元,用于根据所述总数与预设的表征实新性的第二阈值的大小关系,判断该章节列表页是否为虚假章节列表页。
进一步的,所述判断单元还用于当所述总数大于等于所述预设的第二阈值,确定所述章节列表页为有效章节列表页;及
当所述总数小于所述预设的第二阈值,确定所述章节列表页为虚假章节列表页。
进一步的,所述特征量获取模块还包括有过滤单元,所述过滤单元,用于所述判断单元确定所述章节列表页为虚假章节列表页之后,过滤掉所述虚假章节列表页。
具体的,所述目标获取模块还包括有:
加权单元,用于根据预设规则对同一章节列表页的至少一个特征量值进行加权处理,得到该章节列表页的综合权值;
比较单元,用于比较每个章节列表页对应的综合权值的大小;
目标获取单元,用于获取其中综合权值最大的章节列表页。
具体的,所述加权单元,还用于根据预设的对应于每个特定特征量值的权值,对该权值所对应的特征量值进行加权处理,所得结果为该章节列表页的综合权值,其中特定特征量值表征章节列表页完整性和/或正确性。
具体的,所述归类模块还包括有相似度判断单元,
所述相似度判断单元,用于确定同一主体的多个章节列表页中章节列表名称的文本特征向量之间的相似度;和/或
用于确定同一主体的多个章节列表页中对应于章节列表名称的页码的数值特征向量之间的相似度。
与现有技术相比,本发明具备如下优点:
1、本发明提供了一种网络小说章节列表评估方法,基于多个章节列表页之间的相似度,将不同站点的多个章节列表页归类为同一集合;再将同一集合内每个站点的权威值的和值最大的集合作为第一集合,再基于预设规则计算该第一集合内每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。即本方案能实现对多个站点的章节列表页的自动获取,通过比较相似度、站点的权威值及获取的特征量值多个参数的比较和综合分析,得到质量相对最高的章节列表页,从而解决了现有技术中通过人工配置模板进行章节列表页判断导致效率低的问题,本发明所述方案能灵活、快速的评估出最符合要求的章节列表页,评估结果准确、客观。
2、进一步的,本发明在获取每个章节列表页至少一个特征量值时,会基于预设规则分别分析得到表征章节列表页正确性、完整性和实新性的多个特征量值,还会过滤掉虚假的章节列表页,再基于预设的规则获取每个章节列表页对应于至少一个特征量值的综合权值,其中综合权值最大的章节列表页即为质量最高的目标章节列表页。即本发明方案能从正确性、完整性和实新性等多方面自动比较和分析章节列表页的质量,评估出最有效的章节列表页,使得评估结果更加准确。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明中网络小说章节列表评估方法的一个实施例的程序流程图;
图2是本发明中网络小说章节列表评估方法的一个实施例的程序流程图;
图3是本发明中网络小说章节列表评估方法的一个实施例的程序流程图;
图4是本发明中网络小说章节列表评估方法的一个实施例的程序流程图;
图5是本发明中网络小说章节列表评估方法的一个实施例的程序流程图;
图6是本发明中网络小说章节列表评估装置的一个实施例的结构框图;
图7是本发明中网络小说章节列表评估装置的一个实施例中归类模块的结构框图;
图8是本发明中网络小说章节列表评估装置的一个实施例中特征量获取模块的结构框图;
图9是本发明中网络小说章节列表评估装置的一个实施例中特征量获取模块的结构框图;
图10是本发明中网络小说章节列表评估装置的一个实施例中目标获取模块的结构框图。
【具体实施方式】
下面结合附图和示例性实施例对本发明作进一步地描述,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。此外,如果已知技术的详细描述对于示出本发明的特征是不必要的,则将其省略。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunicationsService,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(PersonalDigitalAssistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(MobileInternetDevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本技术领域技术人员可以理解,这里所使用的服务器、云端、远端网络设备等概念,具有等同效果,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中,远端网络设备、终端设备与WNS服务器之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
有必要先对本发明的应用场景及其原理进行如下的先导性说明。
互联网中,一般包括用户端(用户移动终端)、网络和服务器(如网站的Web服务器等)。其中用户端可以是用户的互联网移动终端,如台式机(PC)、膝上型计算机(Laptop),带有网页浏览功能的智能型设备,如个人数字助理(PersonalDigitalAssisstant,PDA),以及移动互联网设备(MobileInternetDevice,MID)和智能手机(Phone)等。这些移动终端都可以在互联网环境中,典型的如英特网环境中,请求由另一进程(如服务器提供的进程)提供某项服务。例如,在本发明中,以装载有电子书功能的APP的手机为用户端,例如:Android手机等;在所述APP中带有用户反馈栏目,用户可以通过该栏目向服务器发送问题反馈信息,服务器返回给用户回复信息。
服务器通常是可通过互联网等通信媒介,典型的如英特网访问的远程计算机系统。而且,服务器通常可以为来自互联网的多个用户端提供服务。提供服务过程包括接收用户端发来的请求,收集用户端情报和反馈信息等。实质上,服务器充当计算机网络的信息提供者这一角色。服务器通常位于提供服务的一方,或由服务提供方配置以服务内容,这样的服务提供方可以如互联网服务公司的网站等。
以下将详细说明为了运用上述的原理实现上述的场景而提出的本发明的若干技术方案的具体实施方式。需要说明的是,本发明提供的一种网络小说章节列表评估方法,是从服务器的视角来加以描述的,可以通过编程将网络小说章节列表评估方法实现为计算机程序在远端网络设备上实现,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。
参见附图1,本发明的一种网络小说章节列表评估方法的一个典型实施例,具体包括以下步骤:
S11,确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点。
需要说明的是,本发明所述的网络小说章节列表评估方法中,能够通过网络蜘蛛基于同一主体抓取多个网站的数据,从而获取该主体的章节列表页。其中,所述主体可以是小说的标题或其中的部分关键文本特征。因此在步骤S11之前,还包括步骤:基于同一主体从多个站点获取该主体对应的章节列表页。
具体的,在本发明的一个实施例中,搜索引擎可以接收到带有该主体的关键字的搜索请求,对小说网站域名下的网页进行结构分析,若网页中包括有多个平行的章节列表标签,即可判定该网页为小说章节列表页;其中所述多个平行的章节列表标签的指向链接href(HypertextReference,超文本引用)存在高度类似关系,及其对应的章节列表目录相同但是具体的文件名不同。例如,假定所述多个平行的章节列表标签的href属性包含的目录均为5_5288,而href属性包含的文件名各不同,即由970871至970980。
进一步的,所述小说章节列表页包括的多个平行的章节列表标签包含有章节文本特征向量,其包括有表征章节的关键字和/或章节数,搜索引擎可以基于上述关键字和/或章节数去评估出章节列表页。例如,所述章节列表标签包括有关键字“章”,也可以包括“卷”、“节”、“章节”等等;且还包括表征章节数的关键字“一”、“二”、“一十八”等;当然所述章节数也能够以数字的形式保存“1”、“2”、“18”等等。
进一步的,在从多个站点获取了同一主体对应的章节列表页后,需要执行步骤S11:确定该同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点。本实施例可以是通过提取该同一主体的多个章节列表页中的章节列表名称中的文本特征向量,其中所述文本特征向量可以是章节列表名称中的多个关键字,基于一定相似度判断算法判断所述多个关键字之间的相似度;或者是通过提取该同一主体的多个章节列表页名称所对应的页码中的数值特征向量,其中所述数值特征向量可以是表征页码的数值;本实施例中,可以结合文本特征向量及其对应的数值特征向量来共同计算任意两个章节列表页之间的相似度,也可以单独采用其中一种特征向量来计算章节列表页之间的相似度。
具体的,请参照附图2,在本发明的一个实施例中,所述步骤S11中具体还包括步骤:
S111,依据所述章节列表页所对应站点的权威值,确定权威值最高的章节列表页为参照章节列表页;
S112,提取每一章节列表页的文字特征向量;
S113,计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;
S114,当该总数大于预设阈值时,将所述章节列表页与所述参照章节列表页归类为同一集合。
在评判多个章节列表页之间的相似度时,首先获取一个参照章节列表页,本发明的一个实施例中,可以通过获取不同站点的权威值,确定权威值最高的章节列表页为所述的参照章节列表页,其中站点的权威值是由大量用户通过对该站点的评分得到;然后基于一定算法提取每一章节列表页的文字特征向量,再计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;当该总数大于预存储的阈值时,将所述章节列表页与所述参照章节列表页归类为同一集合,重复上述方法,将其他没在该集合内的章节列表页归类为另一或多个集合。
进一步的,请参见附图1,本发明所述方法,还包括步骤S12:获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定。
前述步骤S11中,依据章节列表页之间的相似度将多个章节列表页归类为不同的集合,在该步骤S12中,计算同一集合内每个章节列表页所在站点的权威值的和值,其中站点的权威值根据多个用户对该站点的评分确定,获取其中权威值的和值最大的集合作为第一集合。
进一步的,请参见附图1,本发明所述方法,还包括步骤S13:获取第一集合内每个章节列表页的至少一个特征量值。需要说明的是,其中所述至少一个特征量值可以是表征章节列表页完整性、或正确性、或实新性的特征量值;下文通过不同的实施例分别介绍获取特征量值的实施方式。
1、具体的,请参见附图3,在本发明的一个实施例中,所述获取第一集合内每个章节列表页的至少一个特征量值的步骤中还包括有:
S131,提取第一集合内每一章节列表页的文字特征向量;
S132,计算所述第一集合中每两个章节列表页具有相同文字特征向量的数量的第一平均值;
S133,计算某一章节列表页与多个其他章节列表页的相同文字特征向量的数量的第二平均值;
S134,依据所述第二平均值与所述第一平均值的差值大小,基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值,其中该差值大小与第一特征量值相对应。
具体的,首先提取第一集合内每一章节列表页的文字特征向量;再计算每两个章节列表页具有相同文字特征向量的数量,对得到的多个数量值求平均得到第一平均值;计算某一个章节列表页与多个其他章节列表页的相同文字特征向量的数量,并求平均得到第二平均数;再计算所述第一平均值与第二平均值的差值大小,再基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值;如果该差值越大,则表明该章节列表页不完整的概率越大,对应的第一特征量值则越小,其中差值大小与第一特征量值预先相关联存储。例如,若差值为15时,对应的第一特征量值为60;差值为5时,对应的第一特征量值为80;当然,该实施例仅是示例性的,并不能构成对本发明的限制。
进一步的,本发明所述方法还包括步骤:依据所述第二平均值与所述第一平均值的差值大小,基于预设的正确性规则设定表征该章节列表页正确性的第二特征量值,其中该差值大小与第二特征量值相对应。即在得到第二平均值与第二平均值的差值大小后,基于预设的表征正确性的规则设定表征章节列表页正确性的第二特征量,同理如果差值越大,则表明该章节列表页不正确的概率越大,对应的第二特征量值则越小,其中差值大小也与第二特征量值预先相关联存储。例如,若差值为15时,对应的第二特征量值为65;差值为5时,对应的第一特征量值为85;当然,该实施例仅是示例性的,并不能构成对本发明的限制。
2、请参见附图4,在本发明的另一个实施例中,所述获取第一集合内每个章节列表页的至少一个特征量值的步骤中还包括有:
S135,获取该第一集合内每个章节列表页对应于相同页码的章节列表中的文字特征向量,其中该页码所对应的数值大于预设的页码阈值;
S136,获取某一个章节列表页与多个其他章节列表页具有相同文字特征向量的总数;
S137,根据所述总数与预设的表征实新性的第二阈值的大小关系,判断该章节列表页是否为虚假章节列表页。
该实施例主要是用于评判章节列表页的实新性。通过获取大于预设的页码阈值的页码所对应的章节列表页的文字特征向量,计算某一章节列表页与多个其他章节列表页具有相同文字特征向量的总数。即获得章节列表页末尾的几个章节列表页对应的文字特征向量,并计算某一章节列表页与多个其他具有相同页码的章节列表页所具有的相同文字特征向量的总数,当所述总数大于等于所述预设的第二阈值时,确定该章节列表页为有效的章节列表页,但是当总数小于所述预设的第二阈值时,表明该章节列表页极可能是错误产生或杜撰的章节列表页,确定所述章节列表页为虚假章节列表页,并过滤该虚假的章节列表页。同理,该实施例中也可以根据所述总数大于所述预设的第二阈值的大小程度,来确定表征其实新性的特征量值,即所述总数与第二阈值的差值越大,表征其准确率越高,越不可能是杜撰或错误的章节列表页,其对应的表征实新性的特征量值越大;反正,对应的表征实新性的特征量值越大。
进一步的,请参见附图1,本发明所述方法还包括步骤S14:根据预设规则计算每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。
具体的,在本发明的一个实施例中,请参见附图5,所述根据预设规则计算每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页的步骤中,还包括步骤:
S151,根据预设规则对同一章节列表页的至少一个特征量值进行加权处理,得到该章节列表页的综合权值;
S152,比较每个章节列表页对应的综合权值的大小;
S153,获取其中综合权值最大的章节列表页。
具体的,根据预设的对应于每个特定特征量值的权值,对该权值所对应的特征量值进行加权处理,所得结果为该章节列表页的综合权值,其中特定特征量值表征章节列表页完整性和/或正确性。例如,在本发明的一个示例性实施例中,根据前述步骤中得到了某一个章节列表页表征完整性的第一特征量值为80,表征正确性的第二特征量值为90,然后预设的对应于第一特征量值的权值为0.5,对应于第二特征量值的权值为0.7,最后经过加权0.5*80+0.7*90=10.30,该结果即为所述某一个章节列表页的综合权值。当然,不难理解,该实施例仅是示例性的,并不能构成对本发明的限制。
进一步,计算出每个章节列表页的综合权值后,比较每个章节列表页的综合权值的大小,获取其中综合权值最大的章节列表页。该综合权值最大的章节列表页即为目标章节列表页。不难理解,本发明中所述方法虽然以小说搜索引擎的数据处理环节作为应用场景,但是实际应用上并不限于此,还可以应用于其他需要获取最佳章节列表页的情况,为其他后续的处理做铺垫,提高用户的产品体检。
终上所述,本发明提供了一种网络小说章节列表评估方法,基于多个章节列表页之间的相似度,将不同站点的多个章节列表页归类为同一集合;再将同一集合内每个站点的权威值的和值最大的集合作为第一集合,再基于预设规则计算该第一集合内每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。即本方案能实现对多个站点的章节列表页的自动获取,通过比较相似度、站点的权威值及获取的特征量值多个参数的比较和综合分析,得到质量最高的章节列表页,从而解决了现有技术中通过人工配置模板进行章节列表页判断导致效率低的问题,本发明所述方案能灵活、快速的评估出最符合要求的章节列表页,评估结果准确、客观。
进一步,依据计算机软件的功能模块化思维,本发明还提供了一种网络小说章节列表评估方法的装置,请参阅图6。所述装置包括归类模块11、分集模块12、特征量获取模块13和目标获取模块14,利用上述各模块来搭建起整个装置的原理框架,从而实现模块化实施方案。以下具体揭示各模块实现的具体功能。
所述归类模块11,用于确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点。
需要说明的是,本发明所述的网络小说章节列表评估方法中,能够通过网络蜘蛛基于同一主体抓取多个网站的数据,从而获取该主体的章节列表页。其中,所述主体可以是小说的标题或其中的部分关键文本特征。因此本发明还包括有页面获取模块,用于基于同一主体从多个站点获取该主体对应的章节列表页。
具体的,在本发明的一个实施例中,所述页面获取模块可以接收到带有该主体的关键字的搜索请求,对小说网站域名下的网页进行结构分析,若网页中包括有多个平行的章节列表标签,即可判定该网页为小说章节列表页;其中所述多个平行的章节列表标签的指向链接href(HypertextReference,超文本引用)存在高度类似关系,及其对应的章节列表目录相同但是具体的文件名不同。例如,假定所述多个平行的章节列表标签的href属性包含的目录均为5_5288,而href属性包含的文件名各不同,即由970871至970980。
进一步的,所述小说章节列表页包括的多个平行的章节列表标签包含有章节文本特征向量,其包括有表征章节的关键字和/或章节数,所述页面获取模块可以基于上述关键字和/或章节数去评估出章节列表页。例如,所述章节列表标签包括有关键字“章”,也可以包括“卷”、“节”、“章节”等等;且还包括表征章节数的关键字“一”、“二”、“一十八”等;当然所述章节数也能够以数字的形式保存“1”、“2”、“18”等等。
进一步的,在所述页面获取模块从多个站点获取了同一主体对应的章节列表页后,需要所述归类模块11确定该同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点。本实施例所述归类模块11可以是通过提取该同一主体的多个章节列表页中的章节列表名称中的文本特征向量,其中所述文本特征向量可以是章节列表名称中的多个关键字,基于一定相似度判断算法判断所述多个关键字之间的相似度;或者所述归类模块11通过提取该同一主体的多个章节列表页名称所对应的页码中的数值特征向量,其中所述数值特征向量可以是表征页码的数值;本实施例中,所述归类模块11可以结合文本特征向量及其对应的数值特征向量来共同计算任意两个章节列表页之间的相似度,也可以单独采用其中一种特征向量来计算章节列表页之间的相似度。
具体的,请参照附图7,在本发明的一个实施例中,所述归类模块11中具体还包括有参照页确定单元111、第一提取单元112、第一计算单元113和第一归类单元114。
其中所述参照页确定单元111,用于依据所述章节列表页所对应站点的权威值,确定权威值最高的章节列表页为参照章节列表页;
所述第一提取单元112,用于提取每一章节列表页的文字特征向量;
所述第一计算单元113,用于计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;
所述第一归类单元114,用于当该总数大于预设阈值时,将所述章节列表页与所述参照章节列表页归类为同一集合。
在评判多个章节列表页之间的相似度时,首先通过所述参照页确定单元111获取一个参照章节列表页,本发明的一个实施例中,可以通过获取不同站点的权威值,确定权威值最高的章节列表页为所述的参照章节列表页,其中站点的权威值是由大量用户通过对该站点的评分得到;然后所述第一提取单元112基于一定算法提取每一章节列表页的文字特征向量,再通过所述第一计算单元113计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;当该总数大于预存储的阈值时,所述第一归类单元114将所述章节列表页与所述参照章节列表页归类为同一集合,重复上述方法,将其他没在该集合内的章节列表页归类为另一或多个集合。
进一步的,请参见附图6,所述分集模块12,用于获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定。
前述归类模快11中,依据章节列表页之间的相似度将多个章节列表页归类为不同的集合,在该分集模块12中,计算同一集合内每个章节列表页所在站点的权威值的和值,其中站点的权威值根据多个用户对该站点的评分确定,获取其中权威值的和值最大的集合作为第一集合。
进一步的,请参见附图6,所述特征量获取模块13,用于获取第一集合内每个章节列表页的至少一个特征量值。需要说明的是,其中所述至少一个特征量值可以是表征章节列表页完整性、或正确性、或实新性的特征量值;下文通过不同的实施例分别介绍特征量获取模块13获取特征量值的实施方式。
1、具体的,请参见附图8,在本发明的一个实施例中,所述特征量获取模块13还包括有第二提取单元131、第一平均值计算单元132、第二平均值计算单元133和第一设定单元134:
所述第二提取单元131,用于提取第一集合内每一章节列表页的文字特征向量;
所述第一平均值计算单元132,用于计算所述第一集合中每两个章节列表页具有相同文字特征向量的数量的第一平均值;
所述第二平均值计算单元133,用于计算某一章节列表页与多个其他章节列表页的相同文字特征向量的数量的第二平均值;
所述第一设定单元134,用于依据所述第二平均值与所述第一平均值的差值大小,基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值,其中该差值大小与第一特征量值相对应。
具体的,首先所述第二提取单元131提取第一集合内每一章节列表页的文字特征向量;所述第一平均值计算单元132再计算每两个章节列表页具有相同文字特征向量的数量,对得到的多个数量值求平均得到第一平均值;所述第二平均值计算单元133计算某一个章节列表页与多个其他章节列表页的相同文字特征向量的数量,并求平均得到第二平均数;所述第一设定单元134再计算所述第一平均值与第二平均值的差值大小,再基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值;如果该差值越大,则表明该章节列表页不完整的概率越大,对应的第一特征量值则越小,其中差值大小与第一特征量值预先相关联存储。例如,若差值为15时,对应的第一特征量值为60;差值为5时,对应的第一特征量值为80;当然,该实施例仅是示例性的,并不能构成对本发明的限制。
进一步的,本发明所述装置还包括有第二设定单元,所述第二设定单元用于依据所述第二平均值与所述第一平均值的差值大小,基于预设的正确性规则设定表征该章节列表页正确性的第二特征量值,其中该差值大小与第二特征量值相对应。即在所述第二设定单元得到第二平均值与第二平均值的差值大小后,基于预设的表征正确性的规则设定表征章节列表页正确性的第二特征量,同理如果差值越大,则表明该章节列表页不正确的概率越大,对应的第二特征量值则越小,其中差值大小也与第二特征量值预先相关联存储。例如,若差值为15时,对应的第二特征量值为65;差值为5时,对应的第一特征量值为85;当然,该实施例仅是示例性的,并不能构成对本发明的限制。
2、请参见附图9,在本发明的另一个实施例中,所述特征量获取模块13还包括有第一获取单元135、总数获取单元136和判断单元137。
所述第一获取单元135,用于获取该第一集合内每个章节列表页对应于相同页码的章节列表中的文字特征向量,其中该页码所对应的数值大于预设的页码阈值;
所述总数获取单元136,用于获取某一个章节列表页与多个其他章节列表页具有相同文字特征向量的总数;
所述判断单元137,用于根据所述总数与预设的表征实新性的第二阈值的大小关系,判断该章节列表页是否为虚假章节列表页。
该实施例主要是用于评判章节列表页的实新性。通过所述第一获取单元135获取大于预设的页码阈值的页码所对应的章节列表页的文字特征向量,再采用所述总数获取单元136计算某一章节列表页与多个其他章节列表页具有相同文字特征向量的总数。即第一获取单元135获得章节列表页末尾的几个章节列表页对应的文字特征向量,所述总数获取单元136计算某一章节列表页与多个其他具有相同页码的章节列表页所具有的相同文字特征向量的总数,当所述判断单元137判断得到所述总数大于等于所述预设的第二阈值时,确定该章节列表页为有效的章节列表页,但是当总数小于所述预设的第二阈值时,表明该章节列表页极可能是错误产生或杜撰的章节列表页,确定所述章节列表页为虚假章节列表页。
进一步的,本发明所述装置还包括有过滤模块,用于用于所述判断单元确定所述章节列表页为虚假章节列表页之后,过滤掉所述虚假章节列表页。同理,该实施例中也可以根据所述总数大于所述预设的第二阈值的大小程度,来确定表征其实新性的特征量值,即所述总数与第二阈值的差值越大,表征其准确率越高,越不可能是杜撰或错误的章节列表页,其对应的表征实新性的特征量值越大;反正,对应的表征实新性的特征量值越大。
进一步的,请参见附图6,本装置所包括的目标获取模块14,用于根据预设规则计算每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。
具体的,在本发明的一个实施例中,请参见附图10,所述目标获取模块14还包括有加权单元141、比较单元142和目标获取单元143。
所述加权单元141,用于根据预设规则对同一章节列表页的至少一个特征量值进行加权处理,得到该章节列表页的综合权值;
所述比较单元142,用于比较每个章节列表页对应的综合权值的大小;
所述目标获取单元143,用于获取其中综合权值最大的章节列表页。
具体的,所述加权单元141根据预设的对应于每个特定特征量值的权值,对该权值所对应的特征量值进行加权处理,所得结果为该章节列表页的综合权值,其中特定特征量值表征章节列表页完整性和/或正确性。例如,在本发明的一个示例性实施例中,所述加权单元141根据前述步骤中得到了某一个章节列表页表征完整性的第一特征量值为80,表征正确性的第二特征量值为90,然后预设的对应于第一特征量值的权值为0.5,对应于第二特征量值的权值为0.7,最后经过加权0.5*80+0.7*90=10.30,该结果即为所述某一个章节列表页的综合权值。当然,不难理解,该实施例仅是示例性的,并不能构成对本发明的限制。
进一步,所述加权单元141计算出每个章节列表页的综合权值后,所述比较单元142比较每个章节列表页的综合权值的大小,目标获取单元143获取其中综合权值最大的章节列表页。该综合权值最大的章节列表页即为目标章节列表页。不难理解,本发明中所述方法虽然以小说搜索引擎的数据处理环节作为应用场景,但是实际应用上并不限于此,还可以应用于其他需要获取最佳章节列表页的情况,为其他后续的处理做铺垫,提高用户的产品体检。
终上所述,本发明提供了一种网络小说章节列表评估方法,所述归类模块11基于多个章节列表页之间的相似度,将不同站点的多个章节列表页归类为同一集合;所述分集模块12再将同一集合内每个站点的权威值的和值最大的集合作为第一集合,所述特征量获取模块13获取第一集合内每个章节列表页的至少一个特征量值;再采用所述目标获取模块14基于预设规则计算该第一集合内每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。即本方案能实现对多个站点的章节列表页的自动获取,通过比较相似度、站点的权威值及获取的特征量值多个参数的比较和综合分析,得到质量最高的章节列表页,从而解决了现有技术中通过人工配置模板进行章节列表页判断导致效率低的问题,本发明所述方案能灵活、快速的评估出最符合要求的章节列表页,评估结果准确、客观。
在此处所提供的说明书中,虽然说明了大量的具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实施例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
虽然上面已经示出了本发明的一些示例性实施例,但是本领域的技术人员将理解,在不脱离本发明的原理或精神的情况下,可以对这些示例性实施例做出改变,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种网络小说章节列表评估方法,其特征在于,包括有步骤:
确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点;
获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定;
获取第一集合内每个章节列表页的至少一个特征量值;
根据预设规则计算每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。
2.根据权利要求1所述的方法,其特征在于,在所述确定同一主体的多个章节列表页之间的相似度的步骤之前,还包括步骤:
基于同一主体从多个站点获取该主体对应的章节列表页。
3.根据权利要求1所述的方法,其特征在于,所述确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合的步骤中,还包括步骤:
依据所述章节列表页所对应站点的权威值,确定权威值最高的章节列表页为参照章节列表页;
提取每一章节列表页的文字特征向量;
计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;
当该总数大于预设阈值时,将所述章节列表页与所述参照章节列表页归类为同一集合。
4.根据权利要求1所述的方法,其特征在于,所述获取第一集合内每个章节列表页的至少一个特征量值的步骤中,包括:
提取第一集合内每一章节列表页的文字特征向量;
计算所述第一集合中每两个章节列表页具有相同文字特征向量的数量的第一平均值;
计算某一章节列表页与多个其他章节列表页的相同文字特征向量的数量的第二平均值;
依据所述第二平均值与所述第一平均值的差值大小,基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值,其中该差值大小与第一特征量值相对应。
5.根据权利要求4所述的方法,其特征在于,还包括有步骤:
依据所述第二平均值与所述第一平均值的差值大小,基于预设的正确性规则设定表征该章节列表页正确性的第二特征量值,其中该差值大小与第二特征量值相对应。
6.根据权利要求1所述的方法,其特征在于,所述获取第一集合内每个章节列表页的至少一个特征量值的步骤中,还包括:
获取该第一集合内每个章节列表页对应于相同页码的章节列表中的文字特征向量,其中该页码所对应的数值大于预设的页码阈值;
获取某一个章节列表页与多个其他章节列表页具有相同文字特征向量的总数;
根据所述总数与预设的表征实新性的第二阈值的大小关系,判断该章节列表页是否为虚假章节列表页。
7.根据权利要求6所述的方法,其特征在于,根据所述总数与预设的表征实新性的第二阈值的大小关系,判断该章节列表页是否为虚假章节列表页的步骤,包括:
当所述总数大于等于所述预设的第二阈值,确定所述章节列表页为有效章节列表页;
当所述总数小于所述预设的第二阈值,确定所述章节列表页为虚假章节列表页。
8.根据权利要求7所述的方法,其特征在于,确定所述章节列表页为虚假章节列表页之后,还包括步骤:
过滤掉所述虚假章节列表页。
9.根据权利要求1所述的方法,其特征在于,所述根据预设规则计算每个章节列表页的至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页的步骤中,包括:
根据预设规则对同一章节列表页的至少一个特征量值进行加权处理,得到该章节列表页的综合权值;
比较每个章节列表页对应的综合权值的大小;
获取其中综合权值最大的章节列表页。
10.一种网络小说章节列表评估装置,其特征在于,包括有:
归类模块,用于确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点;
分集模块,用于获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定;
特征量获取模块,用于获取第一集合内每个章节列表页的至少一个特征量值;
目标获取模块,用于根据预设规则计算每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。
CN201510771521.1A 2015-11-12 2015-11-12 网络小说章节列表评估方法及装置 Active CN105302913B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510771521.1A CN105302913B (zh) 2015-11-12 2015-11-12 网络小说章节列表评估方法及装置
PCT/CN2016/083434 WO2017080183A1 (zh) 2015-11-12 2016-05-26 网络小说章节列表评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510771521.1A CN105302913B (zh) 2015-11-12 2015-11-12 网络小说章节列表评估方法及装置

Publications (2)

Publication Number Publication Date
CN105302913A true CN105302913A (zh) 2016-02-03
CN105302913B CN105302913B (zh) 2018-09-18

Family

ID=55200182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510771521.1A Active CN105302913B (zh) 2015-11-12 2015-11-12 网络小说章节列表评估方法及装置

Country Status (2)

Country Link
CN (1) CN105302913B (zh)
WO (1) WO2017080183A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017080183A1 (zh) * 2015-11-12 2017-05-18 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
CN107153908A (zh) * 2017-03-24 2017-09-12 国家计算机网络与信息安全管理中心 移动新闻App影响力评级方法
CN115017430A (zh) * 2022-06-27 2022-09-06 京东科技控股股份有限公司 列表页面的确定方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8335998B1 (en) * 2006-12-29 2012-12-18 Global Prior Art, Inc. Interactive global map
CN103123640A (zh) * 2012-02-22 2013-05-29 深圳市谷古科技有限公司 一种小说的搜索方法和装置
CN103544172A (zh) * 2012-07-13 2014-01-29 深圳市世纪光速信息技术有限公司 一种电子书的章节目录处理方法及装置
CN103577566A (zh) * 2013-10-25 2014-02-12 北京奇虎科技有限公司 一种网页阅读内容加载方法和装置
CN104216872A (zh) * 2013-05-31 2014-12-17 腾讯科技(深圳)有限公司 一种识别网络小说中垃圾章节的方法及装置
CN104572650A (zh) * 2013-10-11 2015-04-29 中兴通讯股份有限公司 浏览器智能阅读实现方法、装置及其终端
CN104615768A (zh) * 2015-02-13 2015-05-13 广州神马移动信息科技有限公司 文档的同本识别方法及装置
CN104850642A (zh) * 2015-05-26 2015-08-19 广州神马移动信息科技有限公司 网络内容质量评价方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5206296B2 (ja) * 2008-10-03 2013-06-12 富士通株式会社 類似文章抽出プログラム、方法、装置
CN101625693A (zh) * 2009-08-10 2010-01-13 北京精讯云顿数据软件有限公司 一种网文统计的方法及系统
CN101980196A (zh) * 2010-10-25 2011-02-23 中国农业大学 文章比对方法与装置
CN110347931A (zh) * 2013-06-06 2019-10-18 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置
CN104050273B (zh) * 2014-06-24 2018-07-10 北京奇虎科技有限公司 用于记录最新的网络文件、用于修改搜索结果的装置方法
CN105302913B (zh) * 2015-11-12 2018-09-18 北京奇虎科技有限公司 网络小说章节列表评估方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8335998B1 (en) * 2006-12-29 2012-12-18 Global Prior Art, Inc. Interactive global map
CN103123640A (zh) * 2012-02-22 2013-05-29 深圳市谷古科技有限公司 一种小说的搜索方法和装置
CN103544172A (zh) * 2012-07-13 2014-01-29 深圳市世纪光速信息技术有限公司 一种电子书的章节目录处理方法及装置
CN104216872A (zh) * 2013-05-31 2014-12-17 腾讯科技(深圳)有限公司 一种识别网络小说中垃圾章节的方法及装置
CN104572650A (zh) * 2013-10-11 2015-04-29 中兴通讯股份有限公司 浏览器智能阅读实现方法、装置及其终端
CN103577566A (zh) * 2013-10-25 2014-02-12 北京奇虎科技有限公司 一种网页阅读内容加载方法和装置
CN104615768A (zh) * 2015-02-13 2015-05-13 广州神马移动信息科技有限公司 文档的同本识别方法及装置
CN104850642A (zh) * 2015-05-26 2015-08-19 广州神马移动信息科技有限公司 网络内容质量评价方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017080183A1 (zh) * 2015-11-12 2017-05-18 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
CN107153908A (zh) * 2017-03-24 2017-09-12 国家计算机网络与信息安全管理中心 移动新闻App影响力评级方法
CN115017430A (zh) * 2022-06-27 2022-09-06 京东科技控股股份有限公司 列表页面的确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2017080183A1 (zh) 2017-05-18
CN105302913B (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN107862022B (zh) 文化资源推荐系统
CN103605794B (zh) 一种网站分类方法
CN103366121A (zh) 安全检测方法、装置和系统
CN111401416A (zh) 异常网站的识别方法、装置和异常对抗行为的识别方法
CN103605738A (zh) 网页访问数据统计方法及装置
CN106294219A (zh) 一种设备识别、数据处理方法、装置及系统
CN105718533A (zh) 信息推送方法和装置
CN104915399A (zh) 基于新闻标题的推荐数据处理方法及系统
CN103744941A (zh) 一种基于网站属性信息确定网站评测结果的方法和装置
CN112966014A (zh) 查找目标对象的方法和装置
CN109241392A (zh) 目标词的识别方法、装置、系统及存储介质
CN110569804A (zh) 基于文本数据的失效场景判断方法及系统、服务器及介质
CN105302913A (zh) 网络小说章节列表评估方法及装置
CN103577426A (zh) 用于提供搜索建议的附加应用信息的方法、装置与系统
CN106332016A (zh) 一种wifi设备的关联方法和装置
CN104484651A (zh) 人像动态对比方法及系统
CN117221135A (zh) 数据分析方法、装置、设备及计算机可读存储介质
KR20170062910A (ko) 사물 인터넷 시스템에서 외부 데이터를 가상 게이트웨이를 이용해서 입력받는 방법
CN106202297A (zh) 识别用户兴趣的方法及装置
CN110401626B (zh) 一种黑客攻击分级检测方法及装置
CN104391955A (zh) 网页相关性检测方法及装置
CN104899320A (zh) 网页修复方法、终端、服务器及系统
CN105095404A (zh) 网页信息的处理方法、网页信息的推荐方法及装置
CN104580201B (zh) 网站漏洞检测方法和系统
CN104392000B (zh) 确定移动站点抓取配额的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220718

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right