CN110147478B - 网页主题词获取方法和系统、服务器与用户终端 - Google Patents

网页主题词获取方法和系统、服务器与用户终端 Download PDF

Info

Publication number
CN110147478B
CN110147478B CN201710980860.XA CN201710980860A CN110147478B CN 110147478 B CN110147478 B CN 110147478B CN 201710980860 A CN201710980860 A CN 201710980860A CN 110147478 B CN110147478 B CN 110147478B
Authority
CN
China
Prior art keywords
subject
webpage
word
words
header information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710980860.XA
Other languages
English (en)
Other versions
CN110147478A (zh
Inventor
赵钧
黄磊
邱晨旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201710980860.XA priority Critical patent/CN110147478B/zh
Publication of CN110147478A publication Critical patent/CN110147478A/zh
Application granted granted Critical
Publication of CN110147478B publication Critical patent/CN110147478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种网页主题词获取方法和系统、服务器与用户终端。该方法包括:响应于用户终端发起的网页头信息获取请求,获取网页内容;根据网页内容获取k个主题词,其中,k为大于1的自然数;将所述k个主题词写入网页头信息中;将网页头信息返回给用户终端,以便用户终端从网页头信息中读取所述k个主题词,并向用户显示所述k个主题词。本发明可以通过手机浏览器或APP应用获取和显示网页的主题信息,让用户不用下载和浏览整个网页,就能快速了解网页信息,同时还能为用户节省移动网络流量费用。

Description

网页主题词获取方法和系统、服务器与用户终端
技术领域
本发明涉及移动互联网领域,特别涉及一种网页主题词获取方法和系统、服务器与用户终端。
背景技术
目前浏览器或APP应用采用http/https协议,通过Get或Post方法下载网页全文并显示。对于用户来说,一般只能从网址的标题中了解待访问网页的信息,但点击下载了整个网页后,花了很多时间查看网页内容后,却发现并非是自己想要的,既浪费了时间,也浪费了流量。
发明内容
鉴于以上技术问题,本发明提供了一种网页主题词获取方法和系统、服务器与用户终端,让用户在下载网页前能够先获取网页主题,通过对主题的判断,选择是否浏览网页内容。
根据本发明的一个方面,提供一种网页主题词获取方法,包括:
响应于用户终端发起的网页头信息获取请求,获取网页内容;
根据网页内容获取k个主题词,其中,k为大于1的自然数;
将所述k个主题词写入网页头信息中;
将网页头信息返回给用户终端,以便用户终端从网页头信息中读取所述k个主题词,并向用户显示所述k个主题词。
在本发明的一个实施例中,所述方法还包括:
响应于用户终端发起的网页头信息获取请求,从所述网页头信息获取请求中获取主题词开关参数;
根据主题词开关参数判断是否开启主题词生成功能;
在判定开启主题词生成功能的情况下,执行获取网页内容的步骤。
在本发明的一个实施例中,所述根据网页内容获取k个主题词包括:
对网页内容进行处理获取网页正文;
对网页正文进行处理生成主题词全集,其中所述主题词全集包括n个主题词;
从所述主题词全集中确定目标主题词子集,其中所述目标主题词子集包括k个主题词。
在本发明的一个实施例中,所述从所述主题词全集中确定主题词子集包括:
比对所述主题词全集与数据库中该网页对应的主题词集是否一致;
若所述主题词全集与数据库中该网页对应的主题词集不一致,则判定所述网页为新网页或所述网页有更新,随机选择k个主题词作为目标主题词子集。
在本发明的一个实施例中,所述从所述主题词全集中确定主题词子集还包括:
若所述主题词全集与数据库中该网页对应的主题词集一致,则判定所述网页没有更新,判断主题词获取次数是否大于预定次数;
若主题词获取次数不大于预定次数,则随机选择k个主题词作为目标主题词子集;
若主题词获取次数大于预定次数,则选择全文获取次数最多的主题词子集作为目标主题词子集,其中,所述全文获取次数为用户终端针对一个网页获取主题词后的全文浏览次数。
在本发明的一个实施例中,所述方法还包括:
存储用户终端针对一个网页的主题词获取次数,建立网页地址与主题词获取次数的对应关系;
和/或,
存储用户终端针对一个网页获取主题词后的全文获取次数,建立网页地址与全文获取次数的对应关系。
根据本发明的另一方面,提供一种网页主题词获取方法,包括:
向服务器发起网页头信息获取请求,以便服务器获取网页内容并从网页内容获取k个主题词,其中,k为大于1的自然数,并将所述k个主题词写入网页头信息中;
接收服务器返回的网页头信息;
从网页头信息中读取所述k个主题词;
向用户显示所述k个主题词。
在本发明的一个实施例中,所述网页头信息获取请求中包括主题词开关参数,其中,所述主题词开关参数用于指示服务器是否开启主题词生成功能。
根据本发明的另一方面,提供一种服务器,包括:
网页内容获取模块,用于响应于用户终端发起的网页头信息获取请求,获取网页内容;
主题词获取模块,用于根据网页内容获取k个主题词,其中,k为大于1的自然数;
网页头信息确定模块,用于将所述k个主题词写入网页头信息中;
网页头信息返回模块,将网页头信息返回给用户终端,以便用户终端从网页头信息中读取所述k个主题词,并向用户显示所述k个主题词
在本发明的一个实施例中,所述服务器用于实现上述任一实施例所述的方法步骤。
根据本发明的另一方面,提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述的方法步骤。
根据本发明的另一方面,提供一种用户终端,包括:
网页头信息请求模块,用于向服务器发起网页头信息获取请求,以便服务器获取网页内容并从网页内容获取k个主题词,其中,k为大于1的自然数,并将所述k个主题词写入网页头信息中;
网页头信息接收模块,用于接收服务器返回的网页头信息;
主题词读取模块,用于从网页头信息中读取所述k个主题词;
主题词显示模块,用于向用户显示所述k个主题词。
在本发明的一个实施例中,所述用户终端用于实现上述任一实施例所述的方法步骤。
根据本发明的另一方面,提供一种用户终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述的方法步骤。
根据本发明的另一方面,提供一种网页主题词获取系统,包括如上述任一实施例所述的服务器、以及如上述任一实施例所述的用户终端。
本发明可用于手机浏览器或APP应用获取和显示网页的主题信息,让用户不用下载和浏览整个网页,就能快速了解网页信息,同时还能为用户节省移动网络流量费用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明网页主题词获取系统一个实施例的示意图。
图2为本发明网页主题词获取方法一个实施例的示意图。
图3为本发明服务器一个实施例的示意图。
图4为本发明网页主题词获取方法另一实施例的示意图。
图5为本发明服务器另一实施例的示意图。
图6为本发明用户终端一个实施例的示意图。
图7为本发明网页主题词获取方法又一实施例的示意图。
图8为本发明用户终端另一实施例的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本发明网页主题词获取系统一个实施例的示意图。如图1所示,所述网页主题词获取系统包括用户终端1和和服务器2,其中:
用户终端1,用于在用户获取网页全文前,发起网页头信息获取请求。
在本发明的一个实施例中,网页头信息获取请求为网页头HEAD方法的HTTP(HyperText Transfer Protocol,超文本传输协议)协议请求。
在本发明的一个实施例中,用户终端1可以实现为web客户端,例如手机浏览器。
服务器2,用于响应于用户终端1发起的网页头信息获取请求,获取网页内容;根据网页内容获取k个主题词,其中,k为大于1的自然数;将所述k个主题词写入网页头信息中;将网页头信息返回给用户终端1。
在本发明的一个实施例中,服务器2用于根据网页内容,LDA(潜在狄利克雷分布)文档主题生成模型对网页进行主题词抽取。
在本发明的一个实施例中,服务器2可以实现为web服务端(如Apache、Django等web框架)。
用户终端1还用于从网页头信息中读取所述k个主题词,并向用户显示所述k个主题词,以便用户根据主题词判断是否是自己想访问的网页,如果是,可进一步获取网页内容,如果不是,终止本次访问。
基于本发明上述实施例提供的网页主题词获取系统,在用户终端增加HTTP HEAD方法触发、解析和主题词显示功能,在服务器改变了现有HTTP HEAD方法请求响应方式,增加了调用LDA算法获取主题词并返回给web客户端的功能,从而解决了用户只能通过获取网页全文才能判断是否是自己想要的信息的问题,降低了用户网络流量,减少了用户查找信息的时间。
图2为本发明网页主题词获取方法一个实施例的示意图。优选的,本实施例可由本发明网页主题词获取系统执行。该方法包括以下步骤:
步骤1,在用户获取网页全文前,用户终端(web客户端)发起HEAD方法的HTTP协议请求。
步骤2,服务器(web服务端)接收到HEAD请求,获取网页内容,调用LDA算法提取网页正文的预定义个数的主题词集。
步骤3,服务器(web服务端)根据历史上其他用户看过主题词集的某个子集后进一步选择获取网页全文的次数,筛选出最优的主题词子集并写入到网页head头中,返回给web客户端。
在本发明的一个实施例中,步骤3也可以包括:直接选前k个主题词返回给web客户端,而不进行最优主题词筛选。
在本发明的一个实施例中,步骤3还可以包括:随机选取k个主题词返回给web客户端。
步骤4,web客户端读取网页Head头中的主题词数据,显示在页面上。
步骤5,用户根据主题词判断是否是自己想访问的网页,如果是,可进一步获取网页内容,如果不是,终止本次访问。
基于本发明上述实施例提供的网页主题词获取方法,web客户端以HTTP协议的HEAD方法向web服务端发起请求,在web服务端利用LDA文档主题生成模型对网页进行主题词抽取,并基于其他用户在看过主题词后是否再次选择获取全文的行为,进行主题词筛选,并将筛选后的主题词子集加入到网页头中返回给web客户端,web客户端获取网页头中的主题词,显示给用户。由此,本发明上述实施例提出了一种生成、获取和显示网页主题信息的方法,让用户在下载网页前能够先获取网页主题,通过对主题的判断,选择是否浏览网页内容。
因此本发明上述实施例可以用于手机等用户终端的浏览器或APP应用获取和显示网页的主题信息,让用户不用下载和浏览整个网页,就能快速了解网页信息,减少了用户查找信息的时间;同时还能为用户节省移动网络流量费用。
下面通过具体实施例对本发明上述实施例中服务器和用户终端的结构和功能进行进一步说明。
图3为本发明服务器一个实施例的示意图。如图3所示,图1实施例中的服务器2可以包括网页内容获取模块21、主题词获取模块22、网页头信息确定模块23和网页头信息返回模块24,其中:
网页内容获取模块21,用于响应于用户终端1发起的网页头信息获取请求,获取网页内容。
在本发明的一个实施例中,网页内容获取模块21具体可以用于响应于用户终端1发起的网页头信息获取请求,从所述网页头信息获取请求中获取主题词开关参数;根据主题词开关参数判断是否开启主题词生成功能;在判定开启主题词生成功能的情况下,执行获取网页内容的操作。
主题词获取模块22,用于根据网页内容获取k个主题词,其中,k为大于1的自然数。
在本发明的一个实施例中,主题词获取模块22具体可以用于对网页内容进行处理获取网页正文;对网页正文进行处理生成主题词全集,其中所述主题词全集包括n个主题词;从所述主题词全集中确定目标主题词子集,其中所述目标主题词子集包括k个主题词。
在本发明的一个实施例中,主题词获取模块22在从所述主题词全集中确定目标主题词子集的过程中,具体可以用于比对所述主题词全集与数据库中该网页对应的主题词集是否一致;在所述主题词全集与数据库中该网页对应的主题词集不一致的情况下,判定所述网页为新网页或所述网页有更新,随机选择k个主题词作为目标主题词子集;在所述主题词全集与数据库中该网页对应的主题词集一致的情况下,判定所述网页没有更新,判断主题词获取次数是否大于预定次数;在主题词获取次数不大于预定次数的情况下,随机选择k个主题词作为目标主题词子集;在主题词获取次数大于预定次数的情况下,选择全文获取次数最多的主题词子集作为目标主题词子集,其中,所述全文获取次数为用户终端1针对一个网页获取主题词后的全文浏览次数。
网页头信息确定模块23,用于将所述k个主题词写入网页头信息中。
网页头信息返回模块24,将网页头信息返回给用户终端1,以便用户终端1从网页头信息中读取所述k个主题词,并向用户显示所述k个主题词。
在本发明的一个实施例中,服务器2还可以用于存储用户终端1针对一个网页的主题词获取次数,建立网页地址与主题词获取次数的对应关系;和/或,存储用户终端1针对一个网页获取主题词后的全文获取次数,建立网页地址与全文获取次数的对应关系。
基于本发明上述实施例提供的服务器,根据用户终端发起的HTTP HEAD请求,在服务器改变了现有HTTP HEAD方法请求响应方式,增加了调用LDA算法获取主题词并返回给web客户端的功能,以便用户终端解析并显示所述主题词,让用户在下载网页前能够先获取网页主题,通过对主题的判断,选择是否浏览网页内容,从而解决了用户只能通过获取网页全文才能判断是否是自己想要的信息的问题,降低了用户网络流量,减少了用户查找信息的时间。
图4为本发明网页主题词获取方法另一实施例的示意图。优选的,本实施例可由本发明服务器执行。该方法包括以下步骤:
步骤41,响应于用户终端1发起的网页头信息获取请求,获取网页内容。
在本发明的一个实施例中,网页头信息获取请求为网页头HEAD方法的HTTP协议请求。
在本发明的一个实施例中,所述网页头信息获取请求中包括HEAD method和URL(Uniform Resource Locator,统一资源定位符)网址。
在本发明的一个实施例中,步骤41可以包括:
步骤411,响应于用户终端1发起的网页头信息获取请求,从所述网页头信息获取请求中获取主题词开关参数。
步骤412,根据主题词开关参数判断是否开启主题词生成功能。
步骤413,在判定开启主题词生成功能的情况下,获取URL网页内容。
在本发明的一个具体实施例中,步骤41可以包括:在网页头信息获取请求中加入主题词开关参数,关闭或开启主题词功能。例如:缺省web服务器不开启主题词生成功能,即沿用现有机制;当在HEAD方法请求中加入open=1的参数时,web服务器端针对该开启本发明主题词生成功能。
步骤42,根据网页内容获取k个主题词,其中,k为大于1的自然数。
在本发明的一个实施例中,步骤42可以包括:
步骤421,对网页内容进行处理,剔除html标记、javascipt、css、以及广告等非网页正文,获取网页正文。
步骤422,调用LDA算法对网页正文进行处理生成主题词全集(主题词列表),其中,所述主题词全集包括n个主题词,所述主题词全集包括主题词1、主题词2、…、主题词n。
步骤423,从所述主题词全集中确定目标主题词子集,其中所述目标主题词子集包括k个主题词。
在本发明的一个具体实施例中,n可以为100,k可以为10。
在本发明的一个实施例中,步骤423可以包括:
步骤4231,比对所述主题词全集与数据库中该网页对应的主题词集是否一致。
步骤4232,若所述主题词全集与数据库中该网页对应的主题词集不一致,则判定所述网页为新网页或所述网页有更新,从所述主题词全集中随机选择k个主题词作为目标主题词子集,并在数据库中记录本次选择。
步骤4233,若所述主题词全集与数据库中该网页对应的主题词集一致,则判定所述网页没有更新,判断主题词获取次数是否大于预定次数m。
步骤4234,若主题词获取次数不大于预定次数m,则随机选择k个主题词作为目标主题词子集,并在数据库中记录本次选择。
步骤4235,若主题词获取次数大于预定次数m,则选择全文获取次数最多的主题词子集作为目标主题词子集,并在数据库中记录本次选择,其中,所述全文获取次数为用户终端1针对一个网页获取主题词后的全文浏览次数。
在本发明的一个具体实施例中,m可以为1000。
步骤43,将筛选后的主题词子集(所述k个主题词)写入网页HEAD头信息中。<metaname=“subject”content=“主题词1主题词2…主题词k”>。
步骤44,将网页头信息返回给用户终端1,以便用户终端1从网页头信息中读取所述k个主题词,并向用户显示所述k个主题词。
在本发明的一个实施例中,所述方法还可以包括:存储用户终端1针对一个网页的主题词获取次数,建立网页地址与主题词获取次数的对应关系。具体地,可以在数据库中记录“URL-主题词全集-主题词子集-主题词获取次数”。
在本发明的一个实施例中,在步骤44将网页头信息返回给用户终端1之后,所述方法还可以包括:在预定时间内监测是否同一IP地址的同一用户终端有进一步获取网页全文的行为,存储用户终端1针对一个网页获取主题词后的全文获取次数,建立网页地址与全文获取次数的对应关系。即,在数据库中记录“URL-主题词全集-主题词子集-主题词获取次数-全文获取次数”
本发明上述实施例可用于手机等用户终端的浏览器或APP应用获取和显示网页的主题信息,让用户不用下载和浏览整个网页,就能快速了解网页信息,同时还能为用户节省移动网络流量费用。
现有HTTP HEAD请求web服务器返回的是网页静态的头信息,而本发发明上述实施例动态生成HTTP HEAD的响应内容,是对现有HTTP协议的一种升级改进。
本发发明上述实施例提供了一种基于用户历史行为筛选主题词子集的方法:前m次随机从n个主题词中选k个作为主题词子集,之后根据用户点击量选择最优主题词子集。
本发发明上述实施例利用LDA主题词提取算法,结合历史访问行为生成主题词,能够更精确地反映网页主题。
图5为本发明服务器另一实施例的示意图。如图5所示,图1实施例的服务器2可以包括存储器25、处理器26及存储在存储器25上并可在处理器上运行的计算机程序,所述处理器26执行所述程序时实现上述任一实施例(例如图4实施例)所述的方法步骤。
图6为本发明用户终端一个实施例的示意图。如图6所示,图1实施例中的用户终端1可以包括网页头信息请求模块11、网页头信息接收模块12、主题词读取模块13和主题词显示模块14,其中:
网页头信息请求模块11,用于向服务器2发起网页头信息获取请求,以便服务器2获取网页内容并从网页内容获取k个主题词,其中,k为大于1的自然数,并将所述k个主题词写入网页头信息中。
在本发明的一个实施例中,所述网页头信息获取请求中包括主题词开关参数,其中,所述主题词开关参数用于指示服务器2是否开启主题词生成功能。
网页头信息接收模块12,用于接收服务器2返回的网页头信息。
主题词读取模块13,用于解析网页头信息,解析其中meta subject中的主题词列表,从网页头信息中读取所述k个主题词。
主题词显示模块14,用于向用户显示所述k个主题词。
在本发明的一个实施例中,主题词显示模块14用于对主题词列表进行切分,分别显示每个主题词给用户。
在本发明的一个实施例中,主题词显示模块14可以用于对网页上的网址链接,在web客户端通过本发明方法预先在网页中嵌入主题词或在用户鼠标移动到网址链接上时显示主题词。
基于本发明上述实施例提供的用户终端,增加了HTTP HEAD方法触发、解析和主题词显示功能,并结合服务器增加的调用LDA算法获取主题词并返回给用户终端的功能,让用户在下载网页前能够先获取网页主题,通过对主题的判断,选择是否浏览网页内容,从而解决了用户只能通过获取网页全文才能判断是否是自己想要的信息的问题,降低了用户网络流量,减少了用户查找信息的时间。
图7为本发明网页主题词获取方法又一实施例的示意图。优选的,本实施例可由本发明用户终端执行。该方法包括以下步骤:
步骤71,向服务器2发起网页头信息获取请求,以便服务器2获取网页内容并从网页内容获取k个主题词,其中,k为大于1的自然数,并将所述k个主题词写入网页头信息中。
在本发明的一个实施例中,网页头信息获取请求为网页头HEAD方法的HTTP协议请求。
在本发明的一个实施例中,所述网页头信息获取请求中包括HEAD method和URL(Uniform Resource Locator,统一资源定位符)网址。
在本发明的一个实施例中,所述网页头信息获取请求中可以包括主题词开关参数,其中,所述主题词开关参数用于指示服务器2是否开启主题词生成功能。例如:缺省web服务器不开启主题词生成功能,即沿用现有机制;当在HEAD方法请求中加入open=1的参数时,web服务器端针对该开启本发明主题词生成功能。
步骤72,接收服务器2返回的网页头信息。
步骤73,从网页头信息中读取所述k个主题词。
步骤74,向用户显示所述k个主题词。
基于本发明上述实施例提供的主题词获取方法,在用户终端增加了HTTP HEAD方法触发、解析和主题词显示功能,并在服务器增加了调用LDA算法获取主题词并返回给用户终端的功能,由此让用户在下载网页前能够先获取网页主题,通过对主题的判断,选择是否浏览网页内容,从而解决了用户只能通过获取网页全文才能判断是否是自己想要的信息的问题,降低了用户网络流量,减少了用户查找信息的时间。
图8为本发明用户终端另一实施例的示意图。如图8所示,图1实施例的用户终端1可以包括存储器15、处理器16及存储在存储器15上并可在处理器上运行的计算机程序,所述处理器16执行所述程序时实现上述任一实施例(例如图7实施例)所述的方法步骤。
在上面所描述的服务器和用户终端可以实现为用于执行本申请所描述功能的通用处理器、可编程逻辑控制器(PLC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
至此,已经详细描述了本发明。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (14)

1.一种网页主题词获取方法,其特征在于,包括:
响应于用户终端发起的网页头信息获取请求,获取网页内容;
根据网页内容获取k个主题词,其中,k为大于1的自然数;
将所述k个主题词写入网页头信息中;
将网页头信息返回给用户终端,以便用户终端从网页头信息中读取所述k个主题词,并向用户显示所述k个主题词;
其中,所述根据网页内容获取k个主题词包括:
对网页内容进行处理获取网页正文;
对网页正文进行处理生成主题词全集,其中所述主题词全集包括n个主题词;
从所述主题词全集中确定目标主题词子集,其中所述目标主题词子集包括k个主题词;
其中,所述从所述主题词全集中确定主题词子集包括:
若所述主题词全集与数据库中该网页对应的主题词集一致,则判定所述网页没有更新,判断主题词获取次数是否大于预定次数;
若主题词获取次数大于预定次数,则选择全文获取次数最多的主题词子集作为目标主题词子集,其中,所述全文获取次数为用户终端针对一个网页获取主题词后的全文浏览次数。
2.根据权利要求1所述的方法,其特征在于,还包括:
响应于用户终端发起的网页头信息获取请求,从所述网页头信息获取请求中获取主题词开关参数;
根据主题词开关参数判断是否开启主题词生成功能;
在判定开启主题词生成功能的情况下,执行获取网页内容的步骤。
3.根据权利要求1或2所述的方法,其特征在于,所述从所述主题词全集中确定主题词子集还包括:
比对所述主题词全集与数据库中该网页对应的主题词集是否一致;
若所述主题词全集与数据库中该网页对应的主题词集不一致,则判定所述网页为新网页或所述网页有更新,随机选择k个主题词作为目标主题词子集。
4.根据权利要求1或2所述的方法,其特征在于,所述从所述主题词全集中确定主题词子集还包括:
若主题词获取次数不大于预定次数,则随机选择k个主题词作为目标主题词子集。
5.根据权利要求1或2所述的方法,其特征在于,还包括:
存储用户终端针对一个网页的主题词获取次数,建立网页地址与主题词获取次数的对应关系;
和/或,
存储用户终端针对一个网页获取主题词后的全文获取次数,建立网页地址与全文获取次数的对应关系。
6.一种网页主题词获取方法,其特征在于,包括:
向服务器发起网页头信息获取请求,以便服务器获取网页内容,对网页内容进行处理获取网页正文,对网页正文进行处理生成主题词全集,其中所述主题词全集包括n个主题词,从所述主题词全集中确定目标主题词子集,其中所述目标主题词子集包括k个主题词,其中,k为大于1的自然数,并将所述k个主题词写入网页头信息中,所述从所述主题词全集中确定主题词子集包括:若所述主题词全集与数据库中该网页对应的主题词集一致,则判定所述网页没有更新,判断主题词获取次数是否大于预定次数;若主题词获取次数大于预定次数,则选择全文获取次数最多的主题词子集作为目标主题词子集,其中,所述全文获取次数为用户终端针对一个网页获取主题词后的全文浏览次数;
接收服务器返回的网页头信息;
从网页头信息中读取所述k个主题词;
向用户显示所述k个主题词。
7.根据权利要求6所述的方法,其特征在于,
所述网页头信息获取请求中包括主题词开关参数,其中,所述主题词开关参数用于指示服务器是否开启主题词生成功能。
8.一种服务器,其特征在于,包括:
网页内容获取模块,用于响应于用户终端发起的网页头信息获取请求,获取网页内容;
主题词获取模块,用于根据网页内容获取k个主题词,其中,k为大于1的自然数;
网页头信息确定模块,用于将所述k个主题词写入网页头信息中;
网页头信息返回模块,将网页头信息返回给用户终端,以便用户终端从网页头信息中读取所述k个主题词,并向用户显示所述k个主题词;
其中,主题词获取模块,用于对网页内容进行处理获取网页正文;对网页正文进行处理生成主题词全集,其中所述主题词全集包括n个主题词;从所述主题词全集中确定目标主题词子集,其中所述目标主题词子集包括k个主题词;
其中,主题词获取模块,用于在所述主题词全集与数据库中该网页对应的主题词集一致的情况下,判定所述网页没有更新,判断主题词获取次数是否大于预定次数;在主题词获取次数大于预定次数的情况下,选择全文获取次数最多的主题词子集作为目标主题词子集,其中,所述全文获取次数为用户终端1针对一个网页获取主题词后的全文浏览次数。
9.根据权利要求8所述的服务器,其特征在于,所述服务器用于实现权利要求1-5中任一项所述的方法步骤。
10.一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5中任一项所述的方法步骤。
11.一种用户终端,其特征在于,包括:
网页头信息请求模块,用于向服务器发起网页头信息获取请求,以便服务器获取网页内容,对网页内容进行处理获取网页正文,对网页正文进行处理生成主题词全集,其中所述主题词全集包括n个主题词,从所述主题词全集中确定目标主题词子集,其中所述目标主题词子集包括k个主题词,其中,k为大于1的自然数,并将所述k个主题词写入网页头信息中,所述从所述主题词全集中确定主题词子集包括:若所述主题词全集与数据库中该网页对应的主题词集一致,则判定所述网页没有更新,判断主题词获取次数是否大于预定次数;若主题词获取次数大于预定次数,则选择全文获取次数最多的主题词子集作为目标主题词子集,其中,所述全文获取次数为用户终端针对一个网页获取主题词后的全文浏览次数;
网页头信息接收模块,用于接收服务器返回的网页头信息;
主题词读取模块,用于从网页头信息中读取所述k个主题词;
主题词显示模块,用于向用户显示所述k个主题词。
12.根据权利要求11所述的用户终端,其特征在于,所述用户终端用于实现权利要求6或7所述的方法步骤。
13.一种用户终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求6或7所述的方法步骤。
14.一种网页主题词获取系统,其特征在于,包括如权利要求8-10中任一项所述的服务器、以及如权利要求11-13中任一项所述的用户终端。
CN201710980860.XA 2017-10-20 2017-10-20 网页主题词获取方法和系统、服务器与用户终端 Active CN110147478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710980860.XA CN110147478B (zh) 2017-10-20 2017-10-20 网页主题词获取方法和系统、服务器与用户终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710980860.XA CN110147478B (zh) 2017-10-20 2017-10-20 网页主题词获取方法和系统、服务器与用户终端

Publications (2)

Publication Number Publication Date
CN110147478A CN110147478A (zh) 2019-08-20
CN110147478B true CN110147478B (zh) 2021-06-29

Family

ID=67588004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710980860.XA Active CN110147478B (zh) 2017-10-20 2017-10-20 网页主题词获取方法和系统、服务器与用户终端

Country Status (1)

Country Link
CN (1) CN110147478B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667182A (zh) * 2008-09-05 2010-03-10 华为技术有限公司 一种对网页进行二次操作的方法、系统和装置
CN103473358A (zh) * 2013-09-26 2013-12-25 北京奇虎科技有限公司 一种搜索引擎抓取网页开放式摘要信息的方法及装置
CN103761257A (zh) * 2013-12-30 2014-04-30 优视科技有限公司 基于移动浏览器的网页处理方法及系统
CN103823879A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向在线百科的知识库自动更新方法及系统
US8869271B2 (en) * 2010-02-02 2014-10-21 Mcafee, Inc. System and method for risk rating and detecting redirection activities
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统
CN106708956A (zh) * 2016-11-29 2017-05-24 中国人民解放军国防科学技术大学 一种基于多url规则集的http数据匹配方法
CN107015978A (zh) * 2016-01-27 2017-08-04 广州市动景计算机科技有限公司 一种网页资源处理方法以及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808587B (zh) * 2014-12-31 2019-12-06 中国电信股份有限公司 在网页中嵌入信息的方法、网关设备及系统
US10712961B2 (en) * 2015-02-23 2020-07-14 Barefoot Networks, Inc. Addressing match and action entries in a match-action stage
CN106484726B (zh) * 2015-08-31 2019-10-25 阿里巴巴集团控股有限公司 一种页面展示方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667182A (zh) * 2008-09-05 2010-03-10 华为技术有限公司 一种对网页进行二次操作的方法、系统和装置
US8869271B2 (en) * 2010-02-02 2014-10-21 Mcafee, Inc. System and method for risk rating and detecting redirection activities
CN103473358A (zh) * 2013-09-26 2013-12-25 北京奇虎科技有限公司 一种搜索引擎抓取网页开放式摘要信息的方法及装置
CN103761257A (zh) * 2013-12-30 2014-04-30 优视科技有限公司 基于移动浏览器的网页处理方法及系统
CN103823879A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向在线百科的知识库自动更新方法及系统
CN107015978A (zh) * 2016-01-27 2017-08-04 广州市动景计算机科技有限公司 一种网页资源处理方法以及装置
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统
CN106708956A (zh) * 2016-11-29 2017-05-24 中国人民解放军国防科学技术大学 一种基于多url规则集的http数据匹配方法

Also Published As

Publication number Publication date
CN110147478A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN106294648B (zh) 一种针对页面访问路径的处理方法及装置
CN107729475B (zh) 网页元素采集方法、装置、终端与计算机可读存储介质
CN108363815B (zh) 一种网页页面的预读取方法、装置及智能终端设备
US10515142B2 (en) Method and apparatus for extracting webpage information
US20150193386A1 (en) System and Method of Facilitating Font Selection and Manipulation of Fonts
CN110069683B (zh) 一种基于浏览器爬取数据的方法及装置
CN106844635B (zh) 网页中的元素的编辑方法及装置
CN103500194A (zh) 一种进行网页加载的方法、装置和浏览器
CN104035753A (zh) 一种双WebView展示定制页面的方法及系统
US20170199850A1 (en) Method and system to decrease page load time by leveraging network latency
KR20160024293A (ko) 통신 시스템에서 페이지 로딩 시간 단축 방법 및 장치
CN107294918B (zh) 一种钓鱼网页检测方法及装置
US20110276876A1 (en) Method and system for storing words and their context to a database
CN111090797B (zh) 数据获取方法、装置、计算机设备和存储介质
CN110442286B (zh) 一种页面展示方法、装置及电子设备
CN110401580B (zh) 基于心跳机制的网页状态监听方法及相关设备
CN111339456B (zh) 预加载方法和装置
CN108132950A (zh) 信息展示方法、信息提供方法、装置及系统
US9503551B2 (en) Hybrid native networked applications
CN110737853B (zh) 一种多平台展示静态页面数据同步方法及b2b系统
CN103455492B (zh) 一种搜索网页的方法和装置
CN106446640B (zh) 用户识别的方法及服务器
Bartuskova et al. Loading speed of modern websites and reliability of online speed test services
CN111177623A (zh) 信息处理方法及装置
CN110750958A (zh) 一种文本显示方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant