CN104933055A - 网页识别方法及网页识别装置 - Google Patents

网页识别方法及网页识别装置 Download PDF

Info

Publication number
CN104933055A
CN104933055A CN201410100694.6A CN201410100694A CN104933055A CN 104933055 A CN104933055 A CN 104933055A CN 201410100694 A CN201410100694 A CN 201410100694A CN 104933055 A CN104933055 A CN 104933055A
Authority
CN
China
Prior art keywords
webpage
web page
predetermined
page title
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410100694.6A
Other languages
English (en)
Other versions
CN104933055B (zh
Inventor
蔡兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410100694.6A priority Critical patent/CN104933055B/zh
Publication of CN104933055A publication Critical patent/CN104933055A/zh
Application granted granted Critical
Publication of CN104933055B publication Critical patent/CN104933055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网页识别方法及网页识别装置,该网页识别方法包括根据预定词汇数据库,获取网页标题中的预定词汇;根据预定词汇数据库中的预定词汇的加权值,生成网页标题的第一识别值;以及根据预设的第一阈值和网页标题的第一识别值,对网页标题的所属网页进行预定网页的识别。本发明还提供一种网页识别装置。本发明的网页识别方法及网页识别装置通过对网页标题中的预定词汇进行识别,实现了对“作弊”网页的识别。

Description

网页识别方法及网页识别装置
技术领域
本发明涉及互联网领域,特别是涉及一种网页识别方法及网页识别装置。
背景技术
随着互联网的爆炸式增长,各种小型网站层出不穷。这其中也包括大量具有“作弊网页”的垃圾网站,这些“作弊网页”没有实际的内容,仅仅通过吸引用户眼球的标题(如色情标题等不良内容标题),骗取用户的点击流量,以达到商业目的。
目前已有的预定网页(不良网页)计算模型可有效的识别出具有不良内容(如色情内容或欺骗内容等)的垃圾网站,其通过统计机器学习的文本分类算法,利用页面主题内容来估计网页中的不良内容。
然而,部分垃圾网站的“作弊网页”仅仅通过具有不良内容的标题来骗取用户点击,网页中并无实际的不良内容,因为标题的长度远远小于网页内容的实际长度,现有的预定网页计算模型无法对该“作弊网页”进行识别,从而无法对该垃圾网站的“作弊网页”进行过滤。
发明内容
本发明实施例提供一种可对仅仅吸引用户眼球而没有实际内容的“作弊”网页进行识别的网页识别方法;以解决现有的网页识别方法不能对上述“作弊”网页进行过滤的技术问题。
本发明实施例提供一种可对仅仅吸引用户眼球而没有实际内容的“作弊”网页进行识别的网页识别装置;以解决现有的网页识别装置不能对上述“作弊”网页进行过滤的技术问题。
为解决上述问题,本发明提供的技术方案如下:
本发明实施例提供一种网页识别方法,其包括:
根据预定词汇数据库,获取网页标题中的预定词汇,所述预定词汇数据库包括所述预定词汇以及与所述预定词汇对应的加权值;
根据所述预定词汇数据库中的预定词汇的加权值,生成所述网页标题的第一识别值;以及
根据预设的第一阈值和所述网页标题的第一识别值,对所述网页标题的所属网页进行预定网页的识别。
本发明实施例还提供一种网页识别装置,其包括:
词汇获取模块,用于根据预定词汇数据库,获取网页标题中的预定词汇,所述预定词汇数据库包括预定词汇以及与所述预定词汇对应的加权值;
识别值生成模块,用于根据所述预定词汇数据库中的预定词汇的加权值,生成所述网页标题的第一识别值;以及
预定网页确定模块,用于根据预设的第一阈值和所述网页标题的第一识别值,对所述网页标题的所属网页进行预定网页的识别。
相较于现有技术的网页识别方法及网页识别装置,本发明的网页识别方法和网页识别装置通过对网页标题中的预定词汇进行识别,实现了对“作弊”网页的识别,解决了现有的网页识别方法及网页识别装置不能对上述“作弊”网页进行过滤的技术问题。
附图说明
图1为本发明的网页识别方法及网页识别装置所在的电子设备的工作环境结构示意图;
图2为本发明的网页识别装置的第一优选实施例的结构示意图;
图3为本发明的网页识别方法的第一优选实施例的流程图;
图4为本发明的网页识别装置的第二优选实施例的结构示意图;
图5为本发明的网页识别方法的第二优选实施例的流程图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明,除非另有述明。因此,其将可了解到这些步骤及操作,其中有数次提到为由计算机执行,包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存系统中的位置处,其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
如本申请所使用的术语“组件”、“模块”、“系统”、“接口”、“进程”等等一般地旨在指计算机相关实体:硬件、硬件和软件的组合、软件或执行中的软件。例如,组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和/或计算机。通过图示,运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和/或线程内,并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。
而且,要求保护的主题可以被实现为使用标准编程和/或工程技术产生软件、固件、硬件或其任意组合以控制计算机实现所公开的主题的方法、装置或制造品。本文所使用的术语“制造品”旨在包含可从任意计算机可读设备、载体或介质访问的计算机程序。当然,本领域技术人员将认识到可以对该配置进行许多修改,而不脱离要求保护的主题的范围或精神。
图1和随后的讨论提供了对实现本发明所述的网页识别装置所在的电子设备的工作环境的简短、概括的描述。图1的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例电子设备112包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境,等等。
尽管没有要求,但是在“计算机可读指令”被一个或多个电子设备执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布(下文讨论)。计算机可读指令可以实现为程序模块,比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地,该计算机可读指令的功能可以在各种环境中随意组合或分布。
图1图示了包括本发明的网页识别装置的一个或多个实施例的电子设备112的实例。在一种配置中,电子设备112包括至少一个处理单元116和存储器118。根据电子设备的确切配置和类型,存储器118可以是易失性的(比如RAM)、非易失性的(比如ROM、闪存等)或二者的某种组合。该配置在图1中由虚线114图示。
在其他实施例中,电子设备112可以包括附加特征和/或功能。例如,设备112还可以包括附加的存储装置(例如可移除和/或不可移除的),其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图1中由存储装置120图示。在一个实施例中,用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置120中。存储装置120还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器118中由例如处理单元116执行。
本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器118和存储装置120是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被电子设备112访问的任何其他介质。任意这样的计算机存储介质可以是电子设备112的一部分。
电子设备112还可以包括允许电子设备112与其他设备通信的通信连接126。通信连接126可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器/接收器、红外端口、USB连接或用于将电子设备112连接到其他电子设备的其他接口。通信连接126可以包括有线连接或无线连接。通信连接126可以发射和/或接收通信媒体。
术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据,并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号:该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。
电子设备112可以包括输入设备124,比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和/或任何其他输入设备。设备112中也可以包括输出设备122,比如一个或多个显示器、扬声器、打印机和/或任意其他输出设备。输入设备124和输出设备122可以经由有线连接、无线连接或其任意组合连接到电子设备112。在一个实施例中,来自另一个电子设备的输入设备或输出设备可以被用作电子设备112的输入设备124或输出设备122。
电子设备112的组件可以通过各种互连(比如总线)连接。这样的互连可以包括外围组件互连(PCI)(比如快速PCI)、通用串行总线(USB)、火线(IEEE1394)、光学总线结构等等。在另一个实施例中,电子设备112的组件可以通过网络互连。例如,存储器118可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。
本领域技术人员将认识到,用于存储计算机可读指令的存储设备可以跨越网络分布。例如,可经由网络128访问的电子设备130可以存储用于实现本发明所提供的一个或多个实施例的计算机可读指令。电子设备112可以访问电子设备130并且下载计算机可读指令的一部分或所有以供执行。可替代地,电子设备112可以按需要下载多条计算机可读指令,或者一些指令可以在电子设备112处执行并且一些指令可以在电子设备130处执行。
本文提供了实施例的各种操作。在一个实施例中,所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令,其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且,应当理解,不是所有操作必需在本文所提供的每个实施例中存在。
而且,本文所使用的词语“优选的”意指用作实例、示例或例证。奉文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或多个实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
请参照图2,图2为本发明的网页识别装置的第一优选实施例的结构示意图。本优选实施例的网页识别装置20可设置在上述的电子设备112中,该网页识别装置20包括词汇获取模块21、识别值生成模块22以及预定网页确定模块23。词汇获取模块21用于读取预定词汇数据库24,并根据该预定词汇数据库24获取网页标题中的预定词汇;其中该预定词汇数据库24包括预定词汇以及与该预定词汇对应的加权值。识别值生成模块22用于根据预定词汇数据库24中的预定词汇的加权值,生成网页标题的第一识别值。预定网页确定模块23用于根据预设的第一阈值25和网页标题的第一识别值,对网页标题的所属网页进行预定网页的识别。
其中预定词汇数据库24根据用户的需要进行设定,主要用于存储可吸引用户点击的预定词汇以及与预定词汇对应的加权值,上述预定词汇可以是色情词汇等不良内容。加权值则用于描述上述预定词汇吸引用户点击的程度,该预定词汇吸引用户点击的程度越高,则该预定词汇的加权值也就越高;该预定词汇吸引用户点击的程度越低,则该预定词汇的加权值也就越低,具体的加权值高低可人为进行设定调整。
网页标题的第一识别值则用来表示整个网页标题吸引用户点击的程度,由于网页标题主要通过网页标题中的所有的预定词汇吸引用户进行点击,因此该网页标题的第一识别值可以是网页标题中所有预定词汇的加权值之和。第一阈值25为人为预设的一判断网页标题的所属网页为预定网页、即该网站为具有“作弊网页”的垃圾网站的判断阈值,当网页标题的第一识别值大于等于预设的第一阈值25时,则判断该网页标题的所属网页为预定网页;当网页标题的第一识别值小于预设的第一阈值25时,则判断该网页标题的所属网页不是预定网页;该第一阈值25也是人为进行设定调整。
本优选实施例的网页识别装置20使用时,首先词汇获取模块21读取预定词汇数据库24,并根据预定词汇数据库24获取网页26的网页标题中的预定词汇。随后识别值生成模块22根据词汇获取模块21获取的预定词汇以及预定词汇数据库24中存储的上述预定词汇的加权值,生成网页标题的第一识别值;该网页标题的第一识别值可为但不限于通过网页标题中所有预定词汇的加权值之和来获得。最后预定网页确定模块23根据预设的第一阈值25以及识别值生成模块22获取的网页标题的第一识别值,对网页标题的所属网页进行预定网页的识别;如网页标题的第一识别值大于等于预设的第一阈值25,则预定网页确定模块23确定该网页标题的所属网页为预定网页;如网页标题的第一识别值小于预设的第一阈值25,则预定网页确定模块23确定该网页标题的所属网页不是预定网页。
这样即完成了本优选实施例的网页识别装置20的网页识别过程。
本优选实施例的网页识别装置通过网页标题中的预定词汇进行网页识别,实现了对“作弊”网页的识别。
请参照图2和图3,图3为本发明的网页识别方法的第一优选实施例的流程图。本优选实施例的网页识别方法可通过上述的网页识别装置的第一优选实施例进行实施,其包括:
步骤S301,根据预定词汇数据库,获取网页标题中的预定词汇;
步骤S302,根据预定词汇数据库中的预定词汇的加权值,生成网页标题的第一识别值;
步骤S303,根据预设的第一阈值和网页标题的第一识别值,对网页标题的所属网页进行预定网页的识别;
本优选实施例的网页识别方法结束于步骤S303。
其中预定词汇数据库24根据用户的需要进行设定,主要用于存储可吸引用户点击的预定词汇以及与预定词汇对应的加权值,上述预定词汇可以是色情词汇等不良内容。加权值则用于描述上述预定词汇吸引用户点击的程度,该预定词汇吸引用户点击的程度越高,则该预定词汇的加权值也就越高;该预定词汇吸引用户点击的程度越低,则该预定词汇的加权值也就越低,具体的加权值高低可人为进行设定调整。网页标题的第一识别值则用来表示整个网页标题吸引用户点击的程度,用于网页标题主要通过网页标题中的所有的预定词汇吸引用户进行点击,因此该网页标题的第一识别值可以是网页标题中所有预定词汇的加权值之和。第一阈值25为人为预设的一判断网页标题的所属网页为预定网页,即该网站为具有“作弊网页”的垃圾网站的判断阈值,当网页标题的第一识别值大于等于预设的第一阈值25时,则判断该网页标题的所属网页为预定网页;当网页标题的第一识别值小于预设的第一阈值25时,则判断该网页标题的所属网页不是预定网页;该第一阈值25也是人为进行设定调整。
下面详细说明本优选实施例的网页识别方法的各步骤的具体流程。
在步骤S301中,词汇获取模块21读取预定词汇数据库24,并根据预定词汇数据库24获取网页26的网页标题中的预定词汇,随后转到步骤S302。
在步骤S302中,识别值生成模块22根据词汇获取模块获取的预定词汇以及预定词汇数据库24中存储的上述预定词汇的加权值,生成网页标题的第一识别值;该网页标题的第一识别值可为但不限于通过网页标题中所有预定词汇的加权值之和来获得,随后转到步骤S303。
在步骤S303中,预定网页确定模块23根据预设的第一阈值25以及识别值生成模块22获取的网页标题的第一识别值,对网页标题的所属网页进行预定网页的识别;如网页标题的第一识别值大于等于预设的第一阈值25,则预定网页确定模块23确定该网页标题的所属网页为预定网页;如网页标题的第一识别值小于预设的第一阈值25,则预定网页确定模块23确定该网页标题的所属网页不是预定网页。
这样即完成了本优选实施例的网页识别方法的网页识别过程。
本优选实施例的网页识别方法通过网页标题中的预定词汇进行网页识别,实现了对“作弊”网页的识别。
请参照图4,图4为本发明的网页识别装置的第二优选实施例的结构示意图。本优选实施例的网页识别装置40可设置在上述的电子设备112中,该网页识别装置40与第一优选实施例的区别在于,该网页识别装置40还包括修正模块47。该修正模块用于如预定网页确定模块43确定网页标题的所属网页为预定网页,则根据预定网页计算模型48的第二阈值,对网页标题中的预定词汇的加权值进行修正,使修正后的预定网页的第二识别值大于等于预定网页计算模型48的第二阈值;如网页标题的所属网页不是预定网页,则使用预定网页计算模型对网页标题的所属网页的网页内容进行识别。其中预定网页计算模型48根据网页的网页标题和网页内容,生成网页的第二识别值。
网页识别装置40的预定网页确定模块43通过网页标题对预定网页进行识别,但是预定网页确定模块43仅仅可识别出网页标题具有不良内容以及网页标题和网页内容均具有不良内容的预定网页。而对网页标题不具有不良内容而网页内容具有不良内容的预定网页无法进行识别。因此在本优选实施例中,网页识别装置40还会使用预定网页计算模型48对预定网页的网页内容进行识别。为了保证最终预定网页计算模型48可以将所有的预定网页进行识别,即预定网页计算模型48可以识别网页标题具有不良内容和/或网页内容具有不良内容的预定网页。网页识别装置40的修正模块47会对网页标题中的预定词汇的加权值进行修正,使修正后的预定网页的第二识别值大于等于预定网页计算模型48的第二阈值。如网页的网页标题不具有不良内容,则修正模块47直接使用预定网页计算模型48对网页标题的所属网页的网页内容进行识别。
其中网页的第二识别值用于表示网页的网页标题和网页内容中不良内容的多少,如网页的网页标题和网页内容中的不良内容越多,则网页的第二识别值越高;如网页的网页标题和网页内容中的不良内容越少,则网页的第二识别值越低。预定网页计算模型48的第二阈值为人为设定的一判断网页为预定网页的判断阈值,当网页的第二识别值大于等于预定网页计算模型48的第二阈值,则预定网页计算模型48判断该网页为预定网页;当网页的第二识别值小于预定网页计算模型48的第二阈值,则预定网页计算模型48判断该网页不是预定网页。
由于预定网页计算模型48也是通过网页的网页标题和网页内容中的预定词汇和与预定词汇相应的加权值进行网页的第二识别值的计算。因此经过修正模块47对网页标题中的预定词汇的加权值进行修正后,预定网页计算模型48不仅可以识别网页内容中具有不良内容的预定网页,还可识别仅网页标题中具有不良内容的预定网页。
本优选实施例的网页识别装置40使用时,首先词汇获取模块41读取预定词汇数据库44,并根据预定词汇数据库44获取网页46的网页标题中的预定词汇。随后识别值生成模块42根据词汇获取模块41获取的预定词汇以及预定词汇数据库44中存储的上述预定词汇的加权值,生成网页标题的第一识别值;该网页标题的第一识别值可为但不限于通过网页标题中所有预定词汇的加权值之和来获得。然后预定网页确定模块43根据预设的第一阈值45以及识别值生成模块42获取的网页标题的第一识别值,对网页标题的所属网页进行预定网页的识别;如网页标题的第一识别值大于等于预设的第一阈值45,则预定网页确定模块43确定该网页标题的所属网页为预定网页;如网页标题的第一识别值小于预设的第一阈值45,则预定网页确定模块43确定该网页标题的所属网页不是预定网页。最后如预定网页确定模块43确定某个网页标题的所属网页为预定网页,则根据预定网页计算模型48的第二阈值,修正模块47对网页标题中的预定词汇的加权值进行修正,使修正后的预定网页的第二识别值大于等于预定网页计算模型48的第二阈值。如预定网页确定模块43确定某个网页标题的所属网页不是预定网页,则直接使用预定网页计算模型48对网页标题的所属网页的网页内容进行识别。这样预定网页计算模型48可根据网页的网页标题和网页内容,识别所有类型的预定网页。
这样即完成了本优选实施例的网页识别装置40的网页识别过程。
本优选实施例的网页识别装置在第一优选实施例的基础上通过设置修正模块使得现有的预定网页计算模型可以识别所有类型的预定网页,实现了对所有预定网页(包括“作弊”网页)的识别。
请参照图4和图5,图5为本发明的网页识别方法的第二优选实施例的流程图。本优选实施例的网页识别方法可通过上述的网页识别装置的第二优选实施例进行实施,其包括:
步骤S501,根据预定词汇数据库,获取网页标题中的预定词汇;
步骤S502,根据预定词汇数据库中的预定词汇的加权值,生成网页标题的第一识别值;
步骤S503,根据预设的第一阈值和网页标题的第一识别值,对网页标题的所属网页进行预定网页的识别;
步骤S504,如网页标题的所属网页为预定网页,则根据预定网页计算模型的第二阈值,对网页标题中的预定词汇的加权值进行修正,使修正后的预定网页的第二识别值大于等于预定网页计算模型的第二阈值;如网页标题的所属网页不是预定网页,则使用预定网页计算模型对网页标题的所属网页的网页内容进行识别;
本优选实施例的网页识别方法结束于步骤S504。
在第一优选实施例中通过网页标题对预定网页进行识别,但是第一优选实施例中的网页识别方法仅仅可识别出网页标题具有不良内容以及网页标题和网页内容均具有不良内容的预定网页。而对网页标题不具有不良内容而网页内容具有不良内容的预定网页无法进行识别。因此在本优选实施例中,网页识别方法还会使用预定网页计算模型48对预定网页的网页内容进行识别。为了保证最终预定网页计算模型48可以将所有的预定网页进行识别,即预定网页计算模型48可以识别网页标题具有不良内容和/或网页内容具有不良内容的预定网页。本优选实施例的网页识别方法会对网页标题中的预定词汇的加权值进行修正,使修正后的预定网页的第二识别值大于等于预定网页计算模型48的第二阈值。如网页的网页标题不具有不良内容,则直接使用预定网页计算模型48对网页标题的所属网页的网页内容进行识别。
其中网页的第二识别值用于表示网页的网页标题和网页内容中不良内容的多少,如网页的网页标题和网页内容中的不良内容越多,则网页的第二识别值越高;如网页的网页标题和网页内容中的不良内容越少,则网页的第二识别值越低。预定网页计算模型48的第二阈值为人为设定的一判断网页为预定网页的判断阈值,当网页的第二识别值大于等于预定网页计算模型48的第二阈值,则预定网页计算模型48判断该网页为预定网页;当网页的第二识别值小于预定网页计算模型48的第二阈值,则预定网页计算模型48判断该网页不是预定网页。
由于预定网页计算模型48也是通过网页的网页标题和网页内容中的预定词汇和与预定词汇相应的加权值进行网页的第二识别值的计算。因此对网页标题中的预定词汇的加权值进行修正后,预定网页计算模型48不仅可以识别网页内容中具有不良内容的预定网页,还可识别仅网页标题中具有不良内容的预定网页。
下面详细说明本优选实施例的网页识别方法的各步骤的具体流程。
在步骤S501中,词汇获取模块41读取预定词汇数据库44,并根据预定词汇数据库44获取网页46的网页标题中的预定词汇,随后转到步骤S502。
在步骤S502中,识别值生成模块42根据词汇获取模块41获取的预定词汇以及预定词汇数据库中存储的上述预定词汇的加权值,生成网页标题的第一识别值;该网页标题的第一识别值可为但不限于通过网页标题中所有预定词汇的加权值之和来获得,随后转到步骤S503。
在步骤S503中,预定网页确定模块43根据预设的第一阈值45以及识别值生成模块42获取的网页标题的第一识别值,对网页标题的所属网页进行预定网页的识别;如网页标题的第一识别值大于等于预设的第一阈值45,则预定网页确定模块43确定该网页标题的所属网页为预定网页;如网页标题的第一识别值小于预设的第一阈值45,则预定网页确定模块43确定该网页标题的所属网页不是预定网页,随后转到步骤S504。
在步骤S504中,如预定网页确定模块43确定某个网页标题的所属网页为预定网页,则根据预定网页计算模型48的第二阈值,修正模块47对网页标题中的预定词汇的加权值进行修正,使修正后的预定网页的第二识别值大于等于预定网页计算模型48的第二阈值。如预定网页确定模块43确定某个网页标题的所属网页不是预定网页,则直接使用预定网页计算模型48对网页标题的所属网页的网页内容进行识别。这样预定网页计算模型48可根据网页的网页标题和网页内容,识别所有类型的预定网页。
这样即完成了本优选实施例的网页识别方法的网页识别过程。
本优选实施例的网页识别方法在第一优选实施例的基础上通过修正网页标题中的预定词汇的加权值使得现有的预定网页计算模型可以识别所有类型的预定网页,实现了对所有预定网页(包括“作弊”网页)的识别。
下面通过一具体实施例说明本发明的网页识别装置及网页识别方法的具体工作原理。
首先用户通过特征选择(Feature Selection)方法挑选出吸引用户点击的预定词汇(如色情词汇等)存储在预定词汇数据库中,并通过人工经验分为三层,如色情度最高的预定词汇为第一层,色情度较高的预定词汇为第二层,色情度一般的预定词汇为第三层,不同层的预定词汇设定不同的加权值,并将预定词汇的加权值也存储在预定词汇数据库中。
随后网页识别装置的词汇获取模块读取该预定词汇数据库,并根据预定词汇数据库获取网页的网页标题中的预定词汇以及预定词汇的加权值。网页识别装置的识别值生成模块根据预定词汇以及预定词汇的加权值,生成网页标题的第一识别值,如网页标题的第一识别值为网页标题中所有预定词汇的加权值之和。
然后网页识别装置的预定网页确定模块根据预设的第一阈值以及识别值生成模块获取的网页标题的第一识别值,对网页标题的所属网页进行预定网页的识别。如网页标题的第一识别值大于等于预设的第一阈值,则预定网页确定模块确定该网页标题的所属网页为预定网页;如网页标题的第一识别值小于预设的第一阈值,则预定网页确定模块确定该网页标题的所属网页不是预定网页。
如第一层预定词汇的加权值为8,第二层预定词汇的加权值为4,第三层预定词汇的加权值为3,预设的第一阈值为10;则网页标题中包括至少一个第一层预定词汇和至少一个其他层预定词汇,或包括至少一个第二层预定词汇和至少两个第三层预定词汇,或包括至少四个第三层预定词汇,则判断该网页标题的所属网页为预定网页,否则判断该网页标题的所属网页不是预定网页。
最后,在预定网页确定模块确定该网页标题的所属网页为预定网页时,为了不影响现有的预定网页计算模型,网页识别装置的修正模块会对预定网页计算模型中相应的预定词汇进行修正,使修正后的预定网页的第二识别值大于等于预定网页计算模型的第二阈值。如预定网页确定模块确定该网页标题的所属网页不是预定网页,则直接使用预定网页计算模型对网页标题的所属网页的网页内容进行识别。这样预定网页计算模型可根据网页的网页标题和网页内容,识别所有类型的预定网页。
本发明的网页识别方法和网页识别装置通过对网页标题中的预定词汇进行识别,实现了对“作弊”网页的识别,使得现有的预定网页计算模型可识别出95%以上的“作弊”网页。本发明的网页识别方法和网页识别装置可有效识别出“作弊”网页,并将这类低质量网页进行过滤,节省了网页存储资源;解决了现有的网页识别方法及网页识别装置不能对上述“作弊”网页进行过滤的技术问题。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的方法。
综上所述,虽然本发明已以优选实施例揭露如上,但上述优选实施例并非用以限制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润饰,因此本发明的保护范围以权利要求界定的范围为准。

Claims (10)

1.一种网页识别方法,其特征在于,包括:
根据预定词汇数据库,获取网页标题中的预定词汇,所述预定词汇数据库包括所述预定词汇以及与所述预定词汇对应的加权值;
根据所述预定词汇数据库中的预定词汇的加权值,生成所述网页标题的第一识别值;以及
根据预设的第一阈值和所述网页标题的第一识别值,对所述网页标题的所属网页进行预定网页的识别。
2.根据权利要求1所述的网页识别方法,其特征在于,所述网页识别方法还包括:
如所述网页标题的所属网页为所述预定网页,则根据预定网页计算模型的第二阈值,对所述网页标题中的预定词汇的加权值进行修正,使修正后的所述预定网页的第二识别值大于等于所述预定网页计算模型的第二阈值。
3.根据权利要求2所述的网页识别方法,其特征在于,如所述网页标题的所属网页不是所述预定网页,则使用所述预定网页计算模型对所述网页标题的所属网页的网页内容进行识别。
4.根据权利要求1所述的网页识别方法,其特征在于,所述生成所述网页标题的第一识别值的步骤包括:
通过所述网页标题中所有预定词汇的加权值之和,生成所述网页标题的第一识别值。
5.根据权利要求1所述的网页识别方法,其特征在于,所述对所述网页标题的所属网页进行预定网页的识别的步骤包括:
如所述网页标题的第一识别值大于等于所述预设的第一阈值,则确定所述网页标题的所属网页是预定网页;以及
如所述网页标题的第一识别值小于所述预设的第一阈值,则确定所述网页标题的所属网页不是预定网页。
6.一种网页识别装置,其特征在于,包括:
词汇获取模块,用于根据预定词汇数据库,获取网页标题中的预定词汇,所述预定词汇数据库包括预定词汇以及与所述预定词汇对应的加权值;
识别值生成模块,用于根据所述预定词汇数据库中的预定词汇的加权值,生成所述网页标题的第一识别值;以及
预定网页确定模块,用于根据预设的第一阈值和所述网页标题的第一识别值,对所述网页标题的所属网页进行预定网页的识别。
7.根据权利要求6所述的网页识别装置,其特征在于,所述网页识别装置还包括:
修正模块,用于如所述网页标题的所属网页为所述预定网页,则根据预定网页计算模型的第二阈值,对所述网页标题中的预定词汇的加权值进行修正,使修正后的所述预定网页的第二识别值大于等于所述预定网页计算模型的第二阈值。
8.根据权利要求7所述的网页识别装置,其特征在于,
所述修正模块还用于,如所述网页标题的所属网页不是所述预定网页,则使用所述预定网页计算模型对所述网页标题的所属网页的网页内容进行识别。
9.根据权利要求6所述的网页识别装置,其特征在于,所述识别值生成模块通过所述网页标题中所有预定词汇的加权值之和,生成所述网页标题的第一识别值。
10.根据权利要求6所述的网页识别装置,其特征在于,
如所述网页标题的第一识别值大于等于所述预设的第一阈值,则所述预定网页确定模块确定所述网页标题的所属网页是预定网页;以及
如所述网页标题的第一识别值小于所述预设的第一阈值,则所述预定网页确定模块确定所述网页标题的所属网页不是预定网页。
CN201410100694.6A 2014-03-18 2014-03-18 网页识别方法及网页识别装置 Active CN104933055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410100694.6A CN104933055B (zh) 2014-03-18 2014-03-18 网页识别方法及网页识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410100694.6A CN104933055B (zh) 2014-03-18 2014-03-18 网页识别方法及网页识别装置

Publications (2)

Publication Number Publication Date
CN104933055A true CN104933055A (zh) 2015-09-23
CN104933055B CN104933055B (zh) 2020-01-31

Family

ID=54120223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410100694.6A Active CN104933055B (zh) 2014-03-18 2014-03-18 网页识别方法及网页识别装置

Country Status (1)

Country Link
CN (1) CN104933055B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067716A (zh) * 2018-07-18 2018-12-21 杭州安恒信息技术股份有限公司 一种识别暗链的方法与系统
US11475879B2 (en) 2020-03-20 2022-10-18 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and device for evaluating quality of content, electronic equipment, and storage medium

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115024A (zh) * 2006-07-28 2008-01-30 阿里巴巴公司 一种显示网页内容相关信息的方法及系统
US20090119284A1 (en) * 2004-04-30 2009-05-07 Microsoft Corporation Method and system for classifying display pages using summaries
CN101777053A (zh) * 2009-01-08 2010-07-14 北京搜狗科技发展有限公司 一种识别作弊网页的方法及系统
US20100306144A1 (en) * 2009-06-02 2010-12-02 Scholz Martin B System and method for classifying information
CN102170640A (zh) * 2011-06-01 2011-08-31 南通海韵信息技术服务有限公司 基于模式库的智能手机端不良内容网站鉴别方法
CN103064984A (zh) * 2013-01-25 2013-04-24 清华大学 垃圾网页的识别方法及系统
CN103294681A (zh) * 2012-02-23 2013-09-11 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN103530367A (zh) * 2013-10-12 2014-01-22 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN103577430A (zh) * 2012-07-26 2014-02-12 深圳市世纪光速信息技术有限公司 一种信息识别的方法和服务器
CN103617213A (zh) * 2013-11-19 2014-03-05 北京奇虎科技有限公司 识别新闻网页属性特征的方法和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119284A1 (en) * 2004-04-30 2009-05-07 Microsoft Corporation Method and system for classifying display pages using summaries
CN101115024A (zh) * 2006-07-28 2008-01-30 阿里巴巴公司 一种显示网页内容相关信息的方法及系统
CN101777053A (zh) * 2009-01-08 2010-07-14 北京搜狗科技发展有限公司 一种识别作弊网页的方法及系统
US20100306144A1 (en) * 2009-06-02 2010-12-02 Scholz Martin B System and method for classifying information
CN102170640A (zh) * 2011-06-01 2011-08-31 南通海韵信息技术服务有限公司 基于模式库的智能手机端不良内容网站鉴别方法
CN103294681A (zh) * 2012-02-23 2013-09-11 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN103577430A (zh) * 2012-07-26 2014-02-12 深圳市世纪光速信息技术有限公司 一种信息识别的方法和服务器
CN103064984A (zh) * 2013-01-25 2013-04-24 清华大学 垃圾网页的识别方法及系统
CN103530367A (zh) * 2013-10-12 2014-01-22 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN103617213A (zh) * 2013-11-19 2014-03-05 北京奇虎科技有限公司 识别新闻网页属性特征的方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NIANHUA XIE ET AL.: ""Image Set Classification Using Multi-layer Multiple Instance Learning with Application to Cannabis Website Classification"", 《2010 IEEE/WIC/ACM INTERNATIONAL CONFERENCE ON WEB INTELLIGENCE AND INTELLIGENT AGENT TECHNOLOGY》 *
李中原 等: ""基于向量空间模型的网页特征权重计算改进"", 《计算机与现代化》 *
赵环宇 等: ""专利分类中基于主题的特征权重计算方法"", 《沈阳航空工业学院学报》 *
马雯雯 等: ""新的短文本特征权重计算方法"", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067716A (zh) * 2018-07-18 2018-12-21 杭州安恒信息技术股份有限公司 一种识别暗链的方法与系统
CN109067716B (zh) * 2018-07-18 2021-05-28 杭州安恒信息技术股份有限公司 一种识别暗链的方法与系统
US11475879B2 (en) 2020-03-20 2022-10-18 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and device for evaluating quality of content, electronic equipment, and storage medium

Also Published As

Publication number Publication date
CN104933055B (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
US11979433B2 (en) Highly scalable four-dimensional web-rendering geospatial data system for simulated worlds
US11463333B2 (en) Distributed assignment of video analytics tasks in cloud computing environments to reduce bandwidth utilization
Salmela et al. Accurate self-correction of errors in long reads using de Bruijn graphs
CN105046515A (zh) 广告排序方法及装置
CN104090906B (zh) 多媒体推送方法及多媒体推送装置
US11348004B2 (en) Method of managing data representation for deep learning, method of processing data for deep learning and deep learning system performing the same
WO2018170454A2 (en) Using different data sources for a predictive model
CN105005911A (zh) 深度神经网络的运算系统及运算方法
CN110399487B (zh) 一种文本分类方法、装置、电子设备及存储介质
CN104899218A (zh) 数据读写方法及数据读写装置
CN104965826A (zh) 基于浏览器的检索方法及检索装置
CN104301207A (zh) 网络信息处理方法及装置
CN104601529A (zh) 终端账号管理方法及装置
CN105302834A (zh) 一种信息聚合显示的方法及装置
CN104468330A (zh) 分布式消息队列系统的数据处理方法和装置
CN105550217A (zh) 场景音乐搜索方法及场景音乐搜索装置
CN105320669A (zh) 数据存储、读取方法及数据存储、读取装置
US11308029B2 (en) File saving method and electronic device
CN111178039A (zh) 一种模型训练方法、装置、实现文本处理的方法及装置
CN104933055A (zh) 网页识别方法及网页识别装置
CN104980396A (zh) 一种用于社交网络的通信方法及系统
CN111126501A (zh) 一种图像识别方法、终端设备及存储介质
CN107402886B (zh) 堆栈分析方法及相关装置
CN107239557B (zh) 一种网页建立方法、电子设备及存储介质
CN104978318A (zh) 浏览器控制方法及浏览器控制装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221116

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518,101

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right