CN113282817B - 一种网页内容收藏处理方法及处理系统 - Google Patents

一种网页内容收藏处理方法及处理系统 Download PDF

Info

Publication number
CN113282817B
CN113282817B CN202110600910.3A CN202110600910A CN113282817B CN 113282817 B CN113282817 B CN 113282817B CN 202110600910 A CN202110600910 A CN 202110600910A CN 113282817 B CN113282817 B CN 113282817B
Authority
CN
China
Prior art keywords
webpage
collection
collected
target
target webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110600910.3A
Other languages
English (en)
Other versions
CN113282817A (zh
Inventor
谭邦旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kasima Beijing Technology Co ltd
Original Assignee
Kasima Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kasima Beijing Technology Co ltd filed Critical Kasima Beijing Technology Co ltd
Priority to CN202110600910.3A priority Critical patent/CN113282817B/zh
Publication of CN113282817A publication Critical patent/CN113282817A/zh
Application granted granted Critical
Publication of CN113282817B publication Critical patent/CN113282817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种网页内容收藏处理方法及处理系统,通过对需要收藏的目标网页进行收藏预处理,以获取收藏格式,同时对目标网页进行主题关键词提取,以此根据提取的主题关键词分析其对应的收藏标签类别,从而将该目标网页按照其对应的收藏格式收藏在该目标网页对应的收藏标签类别中,实现了对网页内容的智能收藏处理,其中收藏格式的设置和收藏标签类别的设置能够有效弥补当前搜索引擎在网页收藏过程中存在的弊端,一方面提高了用户对收藏网页的查找效率,另一方面能够对收藏网页的内容进行长期收藏、保存,完善了当前搜索引擎的网页收藏功能,进而增强了用户的收藏查看体验感。

Description

一种网页内容收藏处理方法及处理系统
技术领域
本发明属于网页收藏处理技术领域,具体涉及一种网页内容收藏处理方法及处理系统。
背景技术
网页收藏,是指在用户在搜索引擎浏览网页的过程中,根据用户的收藏命令,存储用户比较感兴趣的网页信息,从而便于日后查看。但是当前搜索引擎的网页收藏功能还比较单一、智能化水平低,具体体现在以下方面:
1.当前搜索引擎对收藏的所有网页只是根据收藏时间点的先后顺序进行排列,没有对收藏网页按照网页主题内容的不同进行分类,导致用户在日后需要查看某一个收藏网页时需要花费大量时间进行查找,降低了查找效率;
2.当前搜索引擎在收藏用户感兴趣的网页过程中通常只是将网页的网址链接进行收藏,但是网址链接有自己的生命周期,随着收藏时间的推移,由于网页对应链接路径的调整,很有可能出现收藏网页的网址链接失效的情况,例如网页页面无法打开或即使能够打开,打开的网页页面也不是收藏时候的网页页面,导致无法实现网页内容的长期收藏、保存。
综合以上可以看出,当前搜索引擎的网页收藏功能不完善,降低了用户的收藏查看体验感,难以满足用户对网页收藏的高效率查找和能够长期保存的需求。
发明内容
鉴于上述问题,本发明提出一种网页内容收藏处理方法,通过对需要收藏的目标网页进行收藏预处理获取收藏格式,并对目标网页进行主题关键词提取,以此根据提取的主题关键词分析其对应的收藏标签类别,从而将该目标网页按照其对应的收藏格式收藏在该目标网页对应的收藏标签类别中,能够有效满足用户对网页收藏的高效率查找和能够长期保存的需求。
本发明的目的可以通过以下技术方案来实现:
第一方面,本发明提供基于网页搜索引擎数据分析的网页内容智能收藏处理方法,包括以下步骤:
S1.目标网页收藏指令接收:通过目标网页收藏指令接收模块对用户在搜索引擎浏览网页过程中,接收用户发送的网页收藏指令,并在接收指令后记录此时收藏时间点,同时将当前需要收藏的网页记为目标网页;
S2.目标网页对应网页类型判断:通过目标网页类型判断模块对该目标网页对应的网址链接进行获取,并据此判断该目标网页对应的网页类型;
S3.目标网页收藏预处理:通过目标网页收藏预处理模块根据该目标网页对应的网页类型对该目标网页进行针对性收藏预处理;
S4.目标网页主题关键词提取:通过目标网页主题关键词提取模块根据该目标网页对应的网页类型对该目标网页进行针对性主题关键词提取;
S5.目标网页收藏标签类别分析:通过目标网页收藏标签类别分析模块根据该目标网页对应的主题关键词分析该目标网页对应的收藏标签类别;
S6.目标网页收藏:通过目标网页收藏模块将该目标网页按照该目标网页所属网页类型对应的收藏格式收藏在该目标网页对应的收藏标签类别中;
S7.收藏网页智能排序:通过收藏网页智能显示终端在该目标网页收藏完毕之后,更新对应收藏标签类别中收藏的收藏网页,并对当前各收藏标签类别内收藏的各收藏网页进行智能排序显示。
在本发明第一方面的一种可能的设计中,所述S2中判断该目标网页对应的网页类型,其具体判断方法执行以下步骤:
H1:将该目标网页对应的网址链接进行网址域名特征提取;
H2:将提取的该目标网页对应的网址域名特征与分析数据库中各种网页类型对应的网址域名特征进行匹配,若该目标网页对应的网址域名特征与某种网页类型对应的网址域名特征匹配成功,则该目标网页对应的网页类型即为该网页类型。
在本发明第一方面的一种可能的设计中,所述网页类型包括文本类型、图片类型、视频类型和音频类型。
在本发明第一方面的一种可能的设计中,所述S3中根据该目标网页对应的网页类型对该目标网页进行针对性收藏预处理,其具体预处理步骤如下:
A1:若该目标网页对应的网页类型为文本类型或图片类型,则将该目标网页对应的网页内容形成网页图片;
A2:若该目标网页对应的网页类型为视频类型或音频类型,则将该目标网页对应的网页内容形成网页图片,并记录用户当前浏览结束时该目标网页的视频内容或音频内容对应的当前播放帧,与此同时将该目标网页对应的视频全部内容或音频全部内容进行本地下载,进而将本地下载的视频全部内容或音频全部内容上传在该搜索引擎对应的云端存储空间。
在本发明第一方面的一种可能的设计中,所述S4中根据该目标网页对应的网页类型对该目标网页进行针对性主题关键词提取,其具体提取方法包括以下步骤:
B1:若该目标网页对应的网页类型为文本类型,则从该目标网页形成的网页图片中进行网页内容标题提取,若能够提取到网页内容标题,则从提取的网页内容标题中提取主题关键词,若提取不到网页内容标题,则执行步骤B2;
B2:从该目标网页形成的网页图片中提取所有的文字信息,并将提取的文字信息进行断句、分词和去停用词操作,得到各个词组,此时将得到的各个词组分别进行同义词扩充,得到各个词组对应的同义词,进而将各个词组对应的同义词连同各个词组本身构成词组集合,以此将词组集合中所有词组进行相互对比,分析是否存在重复的词组,若存在重复的词组,则统计重复词组的数量,同时统计各重复词组在词组集合中出现的重复频次,由此从中筛选出重复频次最高的重复词组作为该目标网页对应的主题关键词;
B3:若该目标网页对应的网页类型为图片类型或视频类型或音频类型,则从该目标网页形成的网页图片中提取图片内容标题或视频内容标题或音频内容标题,以此从提取的图片内容标题或视频内容标题或音频内容标题中提取主题关键词。
在本发明第一方面的一种可能的设计中,所述S5中根据该目标网页对应的主题关键词分析该目标网页对应的收藏标签类别,其具体分析方法为将该目标网页对应的主题关键词与分析数据库中各种收藏标签类别对应的类别特征词进行比对,若该目标网页对应的主题关键词与某种收藏标签类别对应的某个类别特征词比对成功,则该目标网页对应的收藏标签类别即为该收藏标签类别。
在本发明第一方面的一种可能的设计中,所述网页类型为文本类型或图片类型对应的目标网页收藏格式为将目标网页对应的网址链接、网址标题名称、收藏时间点和目标网页图片收藏在对应的收藏标签类别中,所述网页类型为视频类型或音频类型对应的目标网页收藏格式为将目标网页对应的网址链接、网址标题名称、收藏时间点、当前播放帧和本地下载的网页内容在该搜索引擎对应云端存储空间的存储位置收藏在对应的收藏标签类别中。
在本发明第一方面的一种可能的设计中,所述S7中对当前各收藏标签类别内收藏的各收藏网页进行智能排序,其具体排序方法执行以下步骤:
D1:对该搜索引擎对应的收藏标签类别数量进行统计,并对各收藏标签类别进行编号,分别标记为1,2,...,i,...,n,同时统计当前各收藏标签类别内收藏的收藏网页数量,进而将收藏的各收藏网页按照收藏时间点的先后顺序进行编号,依次标记为1,2,...,j,...,m;
D2:统计各收藏网页从收藏时间点到当前时间点之间的收藏时长中用户对各收藏网页的浏览次数及每次浏览对应的浏览时间点,并将用户对各收藏网页的每次浏览按照浏览时间点的先后顺序进行编号,分别标记为1,2,...,k,...,l;
D3:获取用户对各收藏标签类别内收藏的各收藏网页在收藏时长中每次浏览对应的浏览时长,并将其构成收藏网页浏览时长集合Tij(tij1,tij2,...,tijk,...,tijl),tijk表示为第i个收藏标签类别内收藏的第j个收藏网页在收藏时长中第k次浏览对应的浏览时长,此时根据收藏网页浏览时长集合计算用户对各收藏标签类别内收藏的各收藏网页在收藏时长对应的平均浏览时长;
D4:根据各收藏标签类别内各收藏网页在收藏时长中对应的浏览次数和平均浏览时长评估各收藏标签类别内各收藏网页对应的收藏推荐系数,其计算公式为
Figure GDA0003649991590000051
ηij表示为第i个收藏标签类别内第j个收藏网页对应的收藏推荐系数,xij表示为第i个收藏标签类别内第j个收藏网页在收藏时长中对应的浏览次数,
Figure GDA0003649991590000052
表示为第i个收藏标签类别内第j个收藏网页在收藏时长中对应的平均浏览时长;
D5:将各收藏标签类别内各收藏网页按照其对应的收藏推荐系数由大到小的顺序进行排序,得到各收藏标签类别内各收藏网页对应的排序结果。
第二方面,本发明提供一种网页内容收藏处理系统,包括目标网页收藏指令接收模块、目标网页类型判断模块、分析数据库、目标网页收藏预处理模块、目标网页主题关键词提取模块、目标网页收藏标签类别分析模块、目标网页收藏模块和收藏网页智能显示终端,其中目标网页收藏指令接收模块与目标网页类型判断模块连接,目标网页类型判断模块分别与目标网页收藏预处理模块和目标网页主题关键词提取模块连接,目标网页收藏预处理模块与目标网页主题关键词提取模块连接,目标网页主题关键词提取模块与目标网页收藏标签类别分析模块连接,目标网页收藏标签类别分析模块和目标网页收藏预处理模块均与目标网页收藏模块连接,目标网页收藏模块与收藏网页智能显示终端连接。
第三方面,本发明提供一种计算机存储介质,所述计算机存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现本发明所述的基于网页搜索引擎数据分析的网页内容智能收藏处理方法。
基于上述任一方面,本发明的有益效果如下:
1.本发明通过在用户在搜索引擎浏览网页过程中,接收用户发送的网页收藏指令,并对需要收藏的目标网页进行收藏预处理,以获取收藏格式,同时对目标网页进行主题关键词提取,以此根据提取的主题关键词分析其对应的收藏标签类别,从而将该目标网页按照其对应的收藏格式收藏在该目标网页对应的收藏标签类别中,实现了对网页内容的智能收藏处理,其中收藏格式的设置能够有效弥补当前搜索引擎在进行网页收藏过程中易出现的收藏网页网址链接失效的弊端,收藏标签类别的设置能够克服当前搜索引擎在进行网页收藏过程中没有对收藏网页按照网页主题内容的不同进行分类的不足,一方面提高了用户对收藏网页的查找效率,另一方面能够对收藏网页的内容进行长期收藏、保存,具有智能化水平高、实用性强的特点,完善了当前搜索引擎的网页收藏功能,进而增强了用户的收藏查看体验感。
2.本发明在对需要收藏的目标网页进行收藏预处理和主题关键词提取过程中,通过对目标网页进行网页类型判断,以此根据目标网页对应的网页类型对其进行针对性收藏预处理和针对性主题关键词提取,避免采用统一的收藏预处理方式和主题关键词提取方式对目标网页进行收藏处理造成的不切合实际的问题,影响收藏效果。
3.本发明在当每次目标网页收藏完毕之后,对当前各收藏标签类别内收藏的各收藏网页进行智能排序显示,使得用户访问频率高且访问时间长的收藏网页能够排在收藏类别的前列,优化了收藏网页的排列,使得排列方式更具人性化,更符合用户对收藏网页的访问方式,提高了用户对收藏网页的访问舒适度。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明的方法实施步骤流程图。
图2为本发明的系统模块连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,第一方面,本发明提供一种网页内容收藏处理方法,包括以下步骤:
S1.目标网页收藏指令接收:通过目标网页收藏指令接收模块对用户在搜索引擎浏览网页过程中,接收用户发送的网页收藏指令,并在接收指令后记录此时收藏时间点,同时将当前需要收藏的网页记为目标网页;
S2.目标网页对应网页类型判断:通过目标网页类型判断模块对该目标网页对应的网址链接进行获取,并据此判断该目标网页对应的网页类型,其具体判断方法执行以下步骤:
H1:将该目标网页对应的网址链接进行网址域名特征提取;
H2:将提取的该目标网页对应的网址域名特征与分析数据库中各种网页类型对应的网址域名特征进行匹配,若该目标网页对应的网址域名特征与某种网页类型对应的网址域名特征匹配成功,则该目标网页对应的网页类型即为该网页类型,其中网页类型包括文本类型、图片类型、视频类型和音频类型;
本实施例通过对该目标网页对应的网页类型进行判断,一方面为目标网页的收藏预处理提供处理依据,另一方面为目标网页的主题关键词提取提供提取依据;
S3.目标网页收藏预处理:通过目标网页收藏预处理模块根据该目标网页对应的网页类型对该目标网页进行针对性收藏预处理,其具体预处理步骤如下:
A1:若该目标网页对应的网页类型为文本类型或图片类型,则将该目标网页对应的网页内容形成网页图片;
A2:若该目标网页对应的网页类型为视频类型或音频类型,则将该目标网页对应的网页内容形成网页图片,并记录用户当前浏览结束时该目标网页的视频内容或音频内容对应的当前播放帧,与此同时将该目标网页对应的视频全部内容或音频全部内容进行本地下载,进而将本地下载的视频全部内容或音频全部内容上传在该搜索引擎对应的云端存储空间;
本实施例通过将网页类型为视频类型或音频类型对应的目标网页本地下载的视频全部内容或音频全部内容上传在该搜索引擎对应的云端存储空间,而不是存储在该搜索引擎对应的存储空间,是由于视频和音频信息通常占用空间比较大,将其存储在该搜索引擎对应的存储空间,必然会占用搜索引擎存储空间,影响搜索引擎的访问速率;
S4.目标网页主题关键词提取:通过目标网页主题关键词提取模块根据该目标网页对应的网页类型对该目标网页进行针对性主题关键词提取,其具体提取方法包括以下步骤:
B1:若该目标网页对应的网页类型为文本类型,则从该目标网页形成的网页图片中进行网页内容标题提取,若能够提取到网页内容标题,则从提取的网页内容标题中提取主题关键词,若提取不到网页内容标题,则执行步骤B2;
B2:从该目标网页形成的网页图片中提取所有的文字信息,并将提取的文字信息进行断句、分词和去停用词操作,得到各个词组,此时将得到的各个词组分别进行同义词扩充,得到各个词组对应的同义词,进而将各个词组对应的同义词连同各个词组本身构成词组集合,以此将词组集合中所有词组进行相互对比,分析是否存在重复的词组,若存在重复的词组,则统计重复词组的数量,同时统计各重复词组在词组集合中出现的重复频次,由此从中筛选出重复频次最高的重复词组作为该目标网页对应的主题关键词;
B3:若该目标网页对应的网页类型为图片类型或视频类型或音频类型,则从该目标网页形成的网页图片中提取图片内容标题或视频内容标题或音频内容标题,以此从提取的图片内容标题或视频内容标题或音频内容标题中提取主题关键词;
本实施例通过对目标网页进行主题关键词提取,为后期进行收藏标签类别分析提供分析依据;
本实施例在对需要收藏的目标网页进行收藏预处理和主题关键词提取过程中,通过对目标网页进行网页类型判断,以此根据目标网页对应的网页类型对其进行针对性收藏预处理和针对性主题关键词提取,避免采用统一的收藏预处理方式和主题关键词提取方式对目标网页进行收藏处理造成的不切合实际的问题,影响收藏效果;
S5.目标网页收藏标签类别分析:通过目标网页收藏标签类别分析模块根据该目标网页对应的主题关键词分析该目标网页对应的收藏标签类别,其具体分析方法为将该目标网页对应的主题关键词与分析数据库中各种收藏标签类别对应的类别特征词进行比对,若该目标网页对应的主题关键词与某种收藏标签类别对应的某个类别特征词比对成功,则该目标网页对应的收藏标签类别即为该收藏标签类别;
本实施例通过设置收藏标签类别,将目标网页按照提取的主题关键词所匹配的收藏标签类别收藏在对应的收藏标签类别中,实现了对目标网页的分类,克服了当前搜索引擎在进行网页收藏过程中没有对收藏网页按照网页主题内容的不同进行分类的不足,提高了用户对收藏网页的查找效率;
S6.目标网页收藏:通过目标网页收藏模块将该目标网页按照该目标网页所属网页类型对应的收藏格式收藏在该目标网页对应的收藏标签类别中,其具体操作方法为若该目标网页对应的网页类型为文本类型或图片类型,则该目标网页的收藏格式为将目标网页对应的网址链接、网址标题名称、收藏时间点和目标网页图片收藏在对应的收藏标签类别中,若该目标网页对应的网页类型为视频类型或音频类型,则该目标网页的收藏格式为将目标网页对应的网址链接、网址标题名称、收藏时间点、当前播放帧和本地下载的视频内容或音频内容在该搜索引擎对应云端存储空间的存储位置收藏在对应的收藏标签类别中;
本实施例通过将视频类型或音频类型对应目标网页的当前播放帧作为收藏格式,是为了方便用户在下次对该目标网页进行访问时了解该目标网页在收藏时当前浏览的位置,以便用户根据当前浏览的位置继续浏览,避免用户需要从头浏览造成的浪费时间和重复浏览的问题;
本实施例通过设置收藏格式,其收藏格式中不仅存储有目标网页对应的网址链接,还存储有目标网页的网页内容,其存放的目标网页的网页内容能够在目标网页对应的网址链接失效或当前无网络状态或访问网络状态不佳情况下,用户随时查看目标网页的内容,实现了对收藏网页内容的长期收藏、保存;
S7.收藏网页智能排序:通过收藏网页智能显示终端在该目标网页收藏完毕之后,更新对应收藏标签类别中收藏的收藏网页,并对当前各收藏标签类别内收藏的各收藏网页进行智能排序显示,其具体排序方法执行以下步骤:
D1:对该搜索引擎对应的收藏标签类别数量进行统计,并对各收藏标签类别进行编号,分别标记为1,2,...,i,...,n,同时统计当前各收藏标签类别内收藏的收藏网页数量,进而将收藏的各收藏网页按照收藏时间点的先后顺序进行编号,依次标记为1,2,...,j,...,m;
D2:统计各收藏网页从收藏时间点到当前时间点之间的收藏时长中用户对各收藏网页的浏览次数及每次浏览对应的浏览时间点,并将用户对各收藏网页的每次浏览按照浏览时间点的先后顺序进行编号,分别标记为1,2,...,k,...,l;
D3:获取用户对各收藏标签类别内收藏的各收藏网页在收藏时长中每次浏览对应的浏览时长,并将其构成收藏网页浏览时长集合Tij(tij1,tij2,...,tijk,...,tijl),tijk表示为第i个收藏标签类别内收藏的第j个收藏网页在收藏时长中第k次浏览对应的浏览时长,此时根据收藏网页浏览时长集合计算用户对各收藏标签类别内收藏的各收藏网页在收藏时长对应的平均浏览时长;
D4:根据各收藏标签类别内各收藏网页在收藏时长中对应的浏览次数和平均浏览时长评估各收藏标签类别内各收藏网页对应的收藏推荐系数,其计算公式为
Figure GDA0003649991590000121
ηij表示为第i个收藏标签类别内第j个收藏网页对应的收藏推荐系数,xij表示为第i个收藏标签类别内第j个收藏网页在收藏时长中对应的浏览次数,
Figure GDA0003649991590000122
表示为第i个收藏标签类别内第j个收藏网页在收藏时长中对应的平均浏览时长;
D5:将各收藏标签类别内各收藏网页按照其对应的收藏推荐系数由大到小的顺序进行排序,得到各收藏标签类别内各收藏网页对应的排序结果。
本实施例评估的收藏网页对应的收藏推荐系数综合了收藏网页在收藏时长内用户对其的浏览次数情况和浏览时长情况,能够全面体现用户对收藏网页的收藏浏览情况,相比较单纯只根据用户对收藏网页的浏览次数状况来评估收藏推荐系数,该评估方式评估指标更加全面,评估结果可靠度更高;
本实施例在当每次目标网页收藏完毕之后,对当前各收藏标签类别内收藏的各收藏网页进行智能排序显示,使得用户访问频率高且访问时间长的收藏网页能够排在收藏类别的前列,优化了收藏网页的排列,使得排列方式更具人性化,更符合用户对收藏网页的访问方式,提高了用户对收藏网页的访问舒适度。
本发明通过需要收藏的目标网页进行收藏预处理,以获取收藏格式,同时对目标网页进行主题关键词提取,以此根据提取的主题关键词分析其对应的收藏标签类别,从而将该目标网页按照其对应的收藏格式收藏在该目标网页对应的收藏标签类别中,实现了对网页内容的智能收藏处理,具有智能化水平高、实用性强的特点,完善了当前搜索引擎的网页收藏功能,进而增强了用户的收藏查看体验感,有效满足了用户对网页收藏的高效率查找和能够长期保存的需求。
参照图2所示,第二方面,本发明提供一种网页内容收藏处理系统,包括目标网页收藏指令接收模块、目标网页类型判断模块、分析数据库、目标网页收藏预处理模块、目标网页主题关键词提取模块、目标网页收藏标签类别分析模块、目标网页收藏模块和收藏网页智能显示终端,所述分析数据库用于存储各种网页类型对应的网址域名特征,并存储各种收藏标签类别对应的类别特征词。
其中目标网页收藏指令接收模块与目标网页类型判断模块连接,目标网页类型判断模块分别与目标网页收藏预处理模块和目标网页主题关键词提取模块连接,目标网页收藏预处理模块与目标网页主题关键词提取模块连接,目标网页主题关键词提取模块与目标网页收藏标签类别分析模块连接,目标网页收藏标签类别分析模块和目标网页收藏预处理模块均与目标网页收藏模块连接,目标网页收藏模块与收藏网页智能显示终端连接。
第三方面,本发明提供一种计算机存储介质,所述计算机存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现本发明所述的基于网页搜索引擎数据分析的网页内容智能收藏处理方法。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (6)

1.一种网页内容收藏处理方法,其特征在于,包括以下步骤:
S1.目标网页收藏指令接收:通过目标网页收藏指令接收模块对用户在搜索引擎浏览网页过程中,接收用户发送的网页收藏指令,并在接收指令后记录此时收藏时间点,同时将当前需要收藏的网页记为目标网页;
S2.目标网页对应网页类型判断:通过目标网页类型判断模块对该目标网页对应的网址链接进行获取,并据此判断该目标网页对应的网页类型;
S3.目标网页收藏预处理:通过目标网页收藏预处理模块根据该目标网页对应的网页类型对该目标网页进行针对性收藏预处理;
所述S3中根据该目标网页对应的网页类型对该目标网页进行针对性收藏预处理,其具体预处理步骤如下:
A1:若该目标网页对应的网页类型为文本类型或图片类型,则将该目标网页对应的网页内容形成网页图片;
A2:若该目标网页对应的网页类型为视频类型或音频类型,则将该目标网页对应的网页内容形成网页图片,并记录用户当前浏览结束时该目标网页的视频内容或音频内容对应的当前播放帧,与此同时将该目标网页对应的视频全部内容或音频全部内容进行本地下载,进而将本地下载的视频全部内容或音频全部内容上传在该搜索引擎对应的云端存储空间;
所述网页类型为文本类型或图片类型对应的目标网页收藏格式为将目标网页对应的网址链接、网址标题名称、收藏时间点和目标网页图片收藏在对应的收藏标签类别中,所述网页类型为视频类型或音频类型对应的目标网页收藏格式为将目标网页对应的网址链接、网址标题名称、收藏时间点、当前播放帧和本地下载的网页内容在该搜索引擎对应云端存储空间的存储位置收藏在对应的收藏标签类别中;
S4.目标网页主题关键词提取:通过目标网页主题关键词提取模块根据该目标网页对应的网页类型对该目标网页进行针对性主题关键词提取;
S5.目标网页收藏标签类别分析:通过目标网页收藏标签类别分析模块根据该目标网页对应的主题关键词分析该目标网页对应的收藏标签类别;
S6.目标网页收藏:通过目标网页收藏模块将该目标网页按照该目标网页所属网页类型对应的收藏格式收藏在该目标网页对应的收藏标签类别中;
S7.收藏网页智能排序:通过收藏网页智能显示终端在该目标网页收藏完毕之后,更新对应收藏标签类别中收藏的收藏网页,并对当前各收藏标签类别内收藏的各收藏网页进行智能排序显示;
所述S7中对当前各收藏标签类别内收藏的各收藏网页进行智能排序,其具体排序方法执行以下步骤:
D1:对该搜索引擎对应的收藏标签类别数量进行统计,并对各收藏标签类别进行编号,分别标记为1,2,...,i,...,n,同时统计当前各收藏标签类别内收藏的收藏网页数量,进而将收藏的各收藏网页按照收藏时间点的先后顺序进行编号,依次标记为1,2,...,j,...,m;
D2:统计各收藏网页从收藏时间点到当前时间点之间的收藏时长中用户对各收藏网页的浏览次数及每次浏览对应的浏览时间点,并将用户对各收藏网页的每次浏览按照浏览时间点的先后顺序进行编号,分别标记为1,2,...,k,...,l;
D3:获取用户对各收藏标签类别内收藏的各收藏网页在收藏时长中每次浏览对应的浏览时长,并将其构成收藏网页浏览时长集合Tij(tij1,tij2,...,tijk,...,tijl),tijk表示为第i个收藏标签类别内收藏的第j个收藏网页在收藏时长中第k次浏览对应的浏览时长,此时根据收藏网页浏览时长集合计算用户对各收藏标签类别内收藏的各收藏网页在收藏时长对应的平均浏览时长;
D4:根据各收藏标签类别内各收藏网页在收藏时长中对应的浏览次数和平均浏览时长评估各收藏标签类别内各收藏网页对应的收藏推荐系数,其计算公式为
Figure FDA0003649991580000031
ηij表示为第i个收藏标签类别内第j个收藏网页对应的收藏推荐系数,xij表示为第i个收藏标签类别内第j个收藏网页在收藏时长中对应的浏览次数,
Figure FDA0003649991580000032
表示为第i个收藏标签类别内第j个收藏网页在收藏时长中对应的平均浏览时长;
D5:将各收藏标签类别内各收藏网页按照其对应的收藏推荐系数由大到小的顺序进行排序,得到各收藏标签类别内各收藏网页对应的排序结果。
2.根据权利要求1所述的一种网页内容收藏处理方法,其特征在于:所述S2中判断该目标网页对应的网页类型,其具体判断方法执行以下步骤:
H1:将该目标网页对应的网址链接进行网址域名特征提取;
H2:将提取的该目标网页对应的网址域名特征与分析数据库中各种网页类型对应的网址域名特征进行匹配,若该目标网页对应的网址域名特征与某种网页类型对应的网址域名特征匹配成功,则该目标网页对应的网页类型即为该网页类型。
3.根据权利要求1所述的一种网页内容收藏处理方法,其特征在于:所述S4中根据该目标网页对应的网页类型对该目标网页进行针对性主题关键词提取,其具体提取方法包括以下步骤:
B1:若该目标网页对应的网页类型为文本类型,则从该目标网页形成的网页图片中进行网页内容标题提取,若能够提取到网页内容标题,则从提取的网页内容标题中提取主题关键词,若提取不到网页内容标题,则执行步骤B2;
B2:从该目标网页形成的网页图片中提取所有的文字信息,并将提取的文字信息进行断句、分词和去停用词操作,得到各个词组,此时将得到的各个词组分别进行同义词扩充,得到各个词组对应的同义词,进而将各个词组对应的同义词连同各个词组本身构成词组集合,以此将词组集合中所有词组进行相互对比,分析是否存在重复的词组,若存在重复的词组,则统计重复词组的数量,同时统计各重复词组在词组集合中出现的重复频次,由此从中筛选出重复频次最高的重复词组作为该目标网页对应的主题关键词;
B3:若该目标网页对应的网页类型为图片类型或视频类型或音频类型,则从该目标网页形成的网页图片中提取图片内容标题或视频内容标题或音频内容标题,以此从提取的图片内容标题或视频内容标题或音频内容标题中提取主题关键词。
4.根据权利要求1所述的一种网页内容收藏处理方法,其特征在于:所述S5中根据该目标网页对应的主题关键词分析该目标网页对应的收藏标签类别,其具体分析方法为将该目标网页对应的主题关键词与分析数据库中各种收藏标签类别对应的类别特征词进行比对,若该目标网页对应的主题关键词与某种收藏标签类别对应的某个类别特征词比对成功,则该目标网页对应的收藏标签类别即为该收藏标签类别。
5.一种网页内容收藏处理系统,用于执行上述权利要求1-4任一项所述的方法,其特征在于:包括目标网页收藏指令接收模块、目标网页类型判断模块、分析数据库、目标网页收藏预处理模块、目标网页主题关键词提取模块、目标网页收藏标签类别分析模块、目标网页收藏模块和收藏网页智能显示终端,其中目标网页收藏指令接收模块与目标网页类型判断模块连接,目标网页类型判断模块分别与目标网页收藏预处理模块和目标网页主题关键词提取模块连接,目标网页收藏预处理模块与目标网页主题关键词提取模块连接,目标网页主题关键词提取模块与目标网页收藏标签类别分析模块连接,目标网页收藏标签类别分析模块和目标网页收藏预处理模块均与目标网页收藏模块连接,目标网页收藏模块与收藏网页智能显示终端连接。
6.一种计算机存储介质,其特征在于:所述计算机存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现上述权利要求1-4任一项所述的方法。
CN202110600910.3A 2021-05-31 2021-05-31 一种网页内容收藏处理方法及处理系统 Active CN113282817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110600910.3A CN113282817B (zh) 2021-05-31 2021-05-31 一种网页内容收藏处理方法及处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110600910.3A CN113282817B (zh) 2021-05-31 2021-05-31 一种网页内容收藏处理方法及处理系统

Publications (2)

Publication Number Publication Date
CN113282817A CN113282817A (zh) 2021-08-20
CN113282817B true CN113282817B (zh) 2022-08-23

Family

ID=77282665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110600910.3A Active CN113282817B (zh) 2021-05-31 2021-05-31 一种网页内容收藏处理方法及处理系统

Country Status (1)

Country Link
CN (1) CN113282817B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780882B (zh) * 2022-03-26 2023-12-05 深圳市安睿信科技有限公司 一种互联网网页显示管理方法、设备及计算机存储介质
CN115147081B (zh) * 2022-07-12 2023-10-27 芜湖中艺科技服务有限公司 基于人工智能的政策匹配方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070027853A (ko) * 2005-08-29 2007-03-12 주식회사 에코마케팅 이메일 발송자 도메인의 카테고리 분류와 이메일 제목을이용한 인터넷 광고 시스템 및 방법
CN102929984A (zh) * 2012-10-18 2013-02-13 北京奇虎科技有限公司 失效网址搜索方法和装置
CN103631796A (zh) * 2012-08-22 2014-03-12 纬创资通股份有限公司 网址分类管理方法及电子装置
CN103699600A (zh) * 2013-12-13 2014-04-02 北京奇虎科技有限公司 网页快照的数据处理方法和浏览器
CN104915422A (zh) * 2015-06-10 2015-09-16 安一恒通(北京)科技有限公司 基于浏览器的网页收藏方法和装置
CN108351899A (zh) * 2015-11-18 2018-07-31 三星电子株式会社 用于在网页中导航的方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180047062A1 (en) * 2016-08-10 2018-02-15 Social Networking Technology, Inc. Systems and methods for delivering relevant content

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070027853A (ko) * 2005-08-29 2007-03-12 주식회사 에코마케팅 이메일 발송자 도메인의 카테고리 분류와 이메일 제목을이용한 인터넷 광고 시스템 및 방법
CN103631796A (zh) * 2012-08-22 2014-03-12 纬创资通股份有限公司 网址分类管理方法及电子装置
CN102929984A (zh) * 2012-10-18 2013-02-13 北京奇虎科技有限公司 失效网址搜索方法和装置
CN103699600A (zh) * 2013-12-13 2014-04-02 北京奇虎科技有限公司 网页快照的数据处理方法和浏览器
CN104915422A (zh) * 2015-06-10 2015-09-16 安一恒通(北京)科技有限公司 基于浏览器的网页收藏方法和装置
CN108351899A (zh) * 2015-11-18 2018-07-31 三星电子株式会社 用于在网页中导航的方法和设备

Also Published As

Publication number Publication date
CN113282817A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
JP4637969B1 (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN102831199B (zh) 建立兴趣模型的方法及装置
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
CN113282817B (zh) 一种网页内容收藏处理方法及处理系统
CN107577759A (zh) 用户评论自动推荐方法
CN102119383A (zh) 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统
CN102890702A (zh) 一种面向网络论坛的意见领袖挖掘方法
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
CN101114284B (zh) 一种显示网页内容相关信息的方法及系统
CN110555154A (zh) 一种面向主题的信息检索方法
CN113312476A (zh) 一种文本自动打标签方法及其装置和终端
CN105117482A (zh) 一种实现网站导航的方法和装置
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法
CN112269906B (zh) 网页正文的自动抽取方法及装置
CN116016365B (zh) 一种加密流量下基于数据包长度信息的网页识别方法
CN114780882B (zh) 一种互联网网页显示管理方法、设备及计算机存储介质
CN112445985A (zh) 一种基于浏览行为优化的相似人群获取方法
CN115640439A (zh) 一种网络舆情监控的方法、系统及存储介质
WO2023048807A1 (en) Hierarchical representation learning of user interest
CN115544342A (zh) 一种基于网站内容搜索引擎的方法及系统
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN113569044A (zh) 一种基于自然语言处理技术的网页文本内容的分类方法
CN114238735A (zh) 一种互联网数据智能采集方法
CN112686042A (zh) 基于主题驱动的专利推荐方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220727

Address after: Room 425, 4th floor, No. 6, South Third Street, Zhongguancun, Haidian District, Beijing 100089

Applicant after: Kasima (Beijing) Technology Co.,Ltd.

Address before: 430061 block B, Zhongnan international city, 442 Wuluo Road, Wuchang District, Wuhan City, Hubei Province

Applicant before: Wuhan Yetu e-commerce Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant