CN115098804A - 一种基于大数据分析的网页搜索历史记录智能管理系统 - Google Patents

一种基于大数据分析的网页搜索历史记录智能管理系统 Download PDF

Info

Publication number
CN115098804A
CN115098804A CN202210728538.9A CN202210728538A CN115098804A CN 115098804 A CN115098804 A CN 115098804A CN 202210728538 A CN202210728538 A CN 202210728538A CN 115098804 A CN115098804 A CN 115098804A
Authority
CN
China
Prior art keywords
search
record
effective
effective record
main body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210728538.9A
Other languages
English (en)
Other versions
CN115098804B (zh
Inventor
刘楷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Office Workers Digital Technology Co ltd
Original Assignee
Wuhan Kaihan Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Kaihan Culture Media Co ltd filed Critical Wuhan Kaihan Culture Media Co ltd
Priority to CN202210728538.9A priority Critical patent/CN115098804B/zh
Publication of CN115098804A publication Critical patent/CN115098804A/zh
Application granted granted Critical
Publication of CN115098804B publication Critical patent/CN115098804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于大数据分析的网页搜索历史记录智能管理系统,包括历史搜索记录预处理模块、有效记录分类模块、有效记录网页布局分析模块、有效记录网页展示效果分析模块、有效记录网页内容关注分析模块、有效记录网页综合价值分析模块、有效记录排序分析模块、有效记录排序显示模块和信息存储库。通过按照网页综合价值进行有效链接排序分析,打破了当前网页搜索历史记录仅按照时间进行排序的不足,且对当前网页搜索历史记录进行分类排序显示后,在很大程度上缩短了历史记录的检索时长,从而大幅度提升了网页搜索历史记录管理的效率和管理效果,进一步满足了用户不同的查询需求,丰富了用户的查询体验感。

Description

一种基于大数据分析的网页搜索历史记录智能管理系统
技术领域
本发明涉及网页搜索历史记录管理技术领域,具体而言,涉及一种基于大数据分析的网页搜索历史记录智能管理系统。
背景技术
随着互联网技术的快速发展,在网页中进行关键词搜索已经成为全民获取信息的重要途径。随着现代互联网上信息越来也多,搜索词条也随之增长,在此大背景下,对网页搜索历史记录进行智能管理变得尤为重要。
当前的网页搜索历史记录主要是依据时间先后进行排序,若当前时间搜索词条过多,则在无形之中放慢了用户对自己需查询搜索记录的查询进度,除此之外,当前网页搜索历史记录管理还存在以下问题:
当前在进行网页搜索历史记录管理时,通常因按照时间先后进行排序而忽略其中可能存在的无效链接,导致人们在找寻自己的需求时,点击无效链接而产生的时间浪费,大大降低了网页搜索历史记录管理的效率和管理效果,同时也降低了用户的查询体验感,无法满足用户不同的查询需求。
当前在进行网页历史记录管理时,往往会忽略对链接的网页布局进行分析,进而导致人们在浏览网页布局不舒适的链接时产生不适感,无法提高用户的浏览效果,进一步降低了网页搜索历史记录管理的智能性。
发明内容
为了克服背景技术中的缺点,本发明实施例提供了一种基于大数据分析的网页搜索历史记录智能管理系统,能够有效解决上述背景技术中涉及的问题。
本发明的目的可以通过以下技术方案来实现:
一种基于大数据分析的网页搜索历史记录智能管理系统,包括:
历史搜索记录预处理模块,用于对网页的历史搜索记录进行筛选,并从中剔除无效链接对应的历史搜索记录,得到各有效历史搜索记录,同时记为有效记录;
有效记录分类模块,用于对各有效记录进行分类,得到各搜索主体对应的各有效记录;
有效记录网页布局分析模块,用于对各搜索主体对应的各有效记录进行网页布局分析,得到各搜索主体中各有效记录对应的网页整体布局规范系数,其中有效记录网页布局分析模块包括有效记录网页段落布局分析单元、有效记录网页字体布局分析单元、有效记录网页颜色布局分析单元和有效记录网页整体布局分析单元;
有效记录网页展示效果分析模块,用于对各搜索主体对应的各有效记录进行网页展示效果分析,得到各搜索主体中各有效记录对应的展示效果评估系数;
有效记录网页内容关注分析模块,用于对各搜索主体对应的各有效记录进行网页内容关注分析,得到各搜索主体中各有效记录对应的内容关注系数;
有效记录网页综合价值分析模块,用于将各搜索主体中各有效记录对应的网页整体布局规范系数、展示效果评估系数和内容关注系数进行综合分析,得到各搜索主体中各有效记录对应的综合价值系数;
有效记录排序分析模块,用于对各搜索主体和各搜索主体对应的各有效记录进行排序分析,得到整体有效记录对应的排序;
有效记录排序显示模块,用于按照整体有效记录的排序进行依次显示;
信息存储库,用于存储各搜索主体对应的各关联词语,存储参考段落间距和参考行间距,存储单位段落对应的参考图片数量,存储各种浏览行为对应的权值因子,存储参考浏览时长,并存储参考阅读次数。
进一步地,所述对各有效记录进行分类,其具体过程如下:
从各有效记录中提取各有效记录的搜索主体,并将各有效记录的搜索主体进行归类,得到各搜索主体对应的各有效记录;
按照预设顺序将各搜索主体编号为1,2,...,i,...,n,并按照预设顺序依次将各有效记录编号为1,2,...,j,...,m。
进一步地,所述有效记录网页段落布局分析单元用于对各搜索主体中各有效记录对应的段落布局规范指数进行分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的段落数量和各段落对应的行数,并获取各搜索主体中各有效记录内各段落之间的距离和各段落中各行之间的距离,同时从中筛选出最大段落间距、最小段落间距、最大行间距和最小行间距;
依据公式
Figure BDA0003711763960000041
计算出各搜索主体中各有效记录对应的段落布局规范指数,
Figure BDA0003711763960000042
表示为第i个搜索主体中第j个有效记录对应的段落布局规范指数,i=1,2.......n,j=1,2......m,
Figure BDA0003711763960000043
分别表示为第i个搜索主体中第j个有效记录对应的段落间距规范指数、行间距规范指数,β1、β2分别表示为预设段落间距规范指数、行间距规范指数对应的影响因子;
上述公式中,
Figure BDA0003711763960000044
分别表示为第i个搜索主体中第j个有效记录对应的最大段落间距、最小段落间距,
Figure BDA0003711763960000045
表示为第i个搜索主体中第j个有效记录对应的平均段落间距,
Figure BDA0003711763960000046
表示为第i个搜索主体中第j个有效记录内第r个段落对应的段落间距,r表示为段落的编号,r=1,2,......s,l′表示为参考段落间距,β3、β4分别表示为预设段落间距均匀度、段落间距差对应的影响因子;
Figure BDA0003711763960000047
分别表示为第i个搜索主体中第j个有效记录对应的最大行间距、最小行间距,
Figure BDA0003711763960000048
表示为第i个搜索主体中第j个有效记录对应的平均行间距,
Figure BDA0003711763960000049
表示为第i个搜索主体中第j个有效记录内第r个段落对应第g行的行间距,g表示为行的编号,g=1,2,......f,h′表示为参考行间距,β5、β6分别表示为预设行间距均匀度、行间距差对应的影响因子。
进一步地,所述有效记录网页字体布局分析单元用于对各搜索主体中各有效记录对应的整体文字规范指数进行分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的标题数量和标题级别,从而获取各搜索主体中各有效记录内各标题级别的字号大小,并将相同标题级别的字号大小进行相互比对,统计各标题级别中字号大小不一致的标题数量;
统计各搜索主体中各有效记录内正文内容存在的文字数量,记为
Figure BDA0003711763960000051
并获取正文内容中各文字对应的字号大小,同时将正文内容中各文字对应的字号大小进行相互比对,统计正文内容中字号大小不一致的文字数量;
对各搜索主体中各有效记录对应各标题级别下字号大小不一致的标题数量和正文内容下字号大小不一致的文字数量进行综合分析,得到各搜索主体中各有效记录对应的整体文字规范指数,并将其标记为
Figure BDA0003711763960000052
进一步地,所述有效记录网页颜色布局分析单元用于对各搜索主体中各有效记录对应的颜色布局规范指数进行分析,其具体分析过程如下:
从各搜索主体中各有效记录内剔除各级标题和重点标记,进而获取各搜索主体中各有效记录内各文字对应的色度值,并从中筛选出最大色度值和最小色度值,同时统计各搜索主体中各有效记录对应的文字颜色种类数量;
对各搜索主体中各有效记录对应的最大色度值、最小色度值和文字颜色种类数量进行综合分析,得到各搜索主体中各有效记录对应的颜色布局规范指数,并记为
Figure BDA0003711763960000061
进一步地,所述有效记录网页整体布局分析单元用于计算各搜索主体中各有效记录对应的网页整体布局规范系数,其具体计算公式为
Figure BDA0003711763960000062
表示为第i个搜索主体中第j个有效记录对应的网页整体布局规范系数,a1、a2、a3分别表示为预设段落布局规范指数、整体文字规范指数、颜色布局规范指数对应的系数因子。
进一步地,所述对各搜索主体对应的各有效记录进行网页展示效果分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的文字总数量,将各搜索主体中各有效记录内的各文字与信息存储库中存储的各搜索主体对应的各关联词语进行匹配,得到各搜索主体中各有效记录对应的匹配关联词语数量;
统计各搜索主体中各有效记录存在的图片总数量和各段落存在的图片数量;
对各搜索主体中各有效记录对应的文字总数量、匹配关联词语数量、图片总数量和各段落图片数量进行综合分析,得到各搜索主体中各有效记录对应的展示效果评估系数
Figure BDA0003711763960000063
进一步地,所述对各搜索主体对应的各有效记录进行网页内容关注分析,其具体分析步骤如下:
统计各搜索主体中各有效记录对应的阅读总次数,并将各次阅读按照预设顺序依次编号为1,2,...,y,...,z,同时获取各搜索主体中各有效记录对应各次阅读的阅读时长;
统计各次阅读中存在的浏览行为数量,并将各次浏览行为按照预设顺序依次编号为1,2,...,d,...,k;
将各搜索主体中各有效记录内各次阅读对应的各次浏览行为与信息存储库中存储的各种浏览行为对应的权值因子进行匹配,得到各搜索主体中各有效记录内各次阅读对应各次浏览行为的权值因子;
对各搜索主体中各有效记录内阅对应阅读总次数、各次阅读的阅读时长和各次阅读对应各次浏览行为的权值因子进行综合分析,得到各搜索主体中各有效记录对应的内容关注系数,记为
Figure BDA0003711763960000071
进一步地,所述各搜索主体中各有效记录对应的综合价值系数,其具体计算公式为
Figure BDA0003711763960000072
表示为第i个搜索主体中第j个有效记录对应的综合价值系数,c1、c2、c3分别表示为预设网页整体布局规范系数、展示效果评估系数、内容关注系数对应的影响因子。
进一步地,所述对各搜索主体和各搜索主体对应的各有效记录进行排序分析,其具体分析如下:
将各搜索主体中各有效记录对应的综合价值系数按照从大到小的顺序依次进行排序,并作为各搜索主体对应各有效记录的排序;
将各搜索主体中各有效记录对应的综合价值系数进行累加,得到各搜索主体对应的整体综合价值系数,并将各搜索主体对应的整体综合价值系数按照从大到小的顺序依次进行排序,由此作为各搜索主体对应的排序;
将各搜索主体对应各有效记录的排序和各搜索主体对应的排序进行整合,将整合后的记录记为整体有效记录,进而对整体有效记录进行综合排序。
相对于现有技术,本发明的实施例至少具有如下优点或有益效果:
本发明通过剔除网页搜索历史记录中的无效链接,并从网页整体布局规范系数、展示效果评估系数和内容关注系数三个维度进行综合分析,得到有效记录对应的网页综合价值,同时按照网页综合价值进行有效链接排序分析,打破了当前网页搜索历史记录仅按照时间进行排序的不足,且对当前网页搜索历史记录进行分类排序显示后,在很大程度上缩短了历史记录的检索时长,从而大幅度提升了网页搜索历史记录管理的效率和管理效果,进一步满足了用户不同的查询需求,丰富了用户的查询体验感。
本发明从有效记录对应的段落布局规范指数、整体文字规范指数、颜色布局规范指数三个维度进行综合分析,得到有效记录对应的网页整体布局规范系数,从一方面来说,弥补了当前网页搜索历史记录忽略对网页布局分析的不足,避免给用户造成在浏览过程中产生烦躁不安的情绪;从另一方面来说,不仅增加了用户在检索过程中检索历史记录时的舒适感,还从根本上提升了网页搜索历史记录管理的智能性。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明系统模块连接示意图。
图2为本发明有效记录网页布局分析模块连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,本发明提供一种基于大数据分析的网页搜索历史记录智能管理系统,包括历史搜索记录预处理模块、有效记录分类模块、有效记录网页布局分析模块、有效记录网页展示效果分析模块、有效记录网页内容关注分析模块、有效记录网页综合价值分析模块、有效记录排序分析模块、有效记录排序显示模块和信息存储库。
所述历史搜索记录预处理模块和有效记录分类模块连接,有效记录分类模块分别与有效记录网页布局分析模块、有效记录网页展示效果分析模块和有效记录网页内容关注分析模块连接,有效记录网页布局分析模块、有效记录网页展示效果分析模块和有效记录网页内容关注分析模块均与有效记录网页综合价值分析模块连接,有效记录网页布局分析模块、有效记录网页展示效果分析模块和有效记录网页内容关注分析模块均与信息存储库连接,有效记录网页综合价值分析模块和有效记录排序分析模块连接,有效记录排序分析模块和有效记录排序显示模块连接。
历史搜索记录预处理模块,用于对网页的历史搜索记录进行筛选,并从中剔除无效链接对应的历史搜索记录,得到各有效历史搜索记录,同时记为有效记录。
有效记录分类模块,用于对各有效记录进行分类,得到各搜索主体对应的各有效记录。
进一步地,所述对各有效记录进行分类,其具体过程如下:
从各有效记录中提取各有效记录的搜索主体,并将各有效记录的搜索主体进行归类,得到各搜索主体对应的各有效记录;
按照预设顺序将各搜索主体编号为1,2,...,i,...,n,,并按照预设顺序依次将各有效记录编号为1,2,...,j,...,m。
参照图2所示,有效记录网页布局分析模块,用于对各搜索主体对应的各有效记录进行网页布局分析,得到各搜索主体中各有效记录对应的网页整体布局规范系数,其中有效记录网页布局分析模块包括有效记录网页段落布局分析单元、有效记录网页字体布局分析单元、有效记录网页颜色布局分析单元和有效记录网页整体布局分析单元。
进一步地,所述有效记录网页段落布局分析单元用于对各搜索主体中各有效记录对应的段落布局规范指数进行分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的段落数量和各段落对应的行数,并获取各搜索主体中各有效记录内各段落之间的距离和各段落中各行之间的距离,同时从中筛选出最大段落间距、最小段落间距、最大行间距和最小行间距;
依据公式
Figure BDA0003711763960000111
计算出各搜索主体中各有效记录对应的段落布局规范指数,
Figure BDA0003711763960000112
表示为第i个搜索主体中第j个有效记录对应的段落布局规范指数,i=1,2.......n,j=1,2......m,
Figure BDA0003711763960000113
分别表示为第i个搜索主体中第j个有效记录对应的段落间距规范指数、行间距规范指数,β1、β2分别表示为预设段落间距规范指数、行间距规范指数对应的影响因子;
上述公式中,
Figure BDA0003711763960000114
分别表示为第i个搜索主体中第j个有效记录对应的最大段落间距、最小段落间距,
Figure BDA0003711763960000115
表示为第i个搜索主体中第j个有效记录对应的平均段落间距,
Figure BDA0003711763960000116
表示为第i个搜索主体中第j个有效记录内第r个段落对应的段落间距,r表示为段落的编号,r=1,2,......s,l′表示为参考段落间距,β3、β4分别表示为预设段落间距均匀度、段落间距差对应的影响因子;
Figure BDA0003711763960000117
分别表示为第i个搜索主体中第j个有效记录对应的最大行间距、最小行间距,
Figure BDA0003711763960000118
表示为第i个搜索主体中第j个有效记录对应的平均行间距,
Figure BDA0003711763960000119
表示为第i个搜索主体中第j个有效记录内第r个段落对应第g行的行间距,g表示为行的编号,g=1,2,......f,h′表示为参考行间距,β5、β6分别表示为预设行间距均匀度、行间距差对应的影响因子。
需要说明的是,在一篇文章中,若段落之间的间距和段落内各行的行间距相差过大,则会影响用户对该文章的阅读兴趣,进而可能造成用户因段落布局不规范而退出文章阅读。
进一步地,所述有效记录网页字体布局分析单元用于对各搜索主体中各有效记录对应的整体文字规范指数进行分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的标题数量和标题级别,从而获取各搜索主体中各有效记录内各标题级别的字号大小,并将相同标题级别的字号大小进行相互比对,统计各标题级别中字号大小不一致的标题数量;
统计各搜索主体中各有效记录内正文内容存在的文字数量,记为
Figure BDA0003711763960000121
并获取正文内容中各文字对应的字号大小,同时将正文内容中各文字对应的字号大小进行相互比对,统计正文内容中字号大小不一致的文字数量;
对各搜索主体中各有效记录对应各标题级别下字号大小不一致的标题数量和正文内容下字号大小不一致的文字数量进行综合分析,得到各搜索主体中各有效记录对应的整体文字规范指数,并将其标记为
Figure BDA0003711763960000122
在一个具体实施例中,各搜索主体中各有效记录对应的整体文字规范指数对应的具体计算公式为
Figure BDA0003711763960000131
表示为第i个搜索主体中第j个有效记录对应的整体文字规范指数,
Figure BDA0003711763960000132
表示为第i个搜索主体中第j个有效记录内第q个标题级别的数量,q表示为标题级别的编号,q=1,2,......,p,bt′ijq表示为第i个搜索主体中第j个有效记录内第q个标题级别对应字号大小不一致的标题数量,
Figure BDA0003711763960000133
表示为第i个搜索主体中第j个有效记录内正文内容对应字号大小不一致的文字数量,λ1、λ2分别表示为设定标题规范、正文字号规范、对应的影响因子。
需要说明的是,若文章中各级标题大小和正文中文字大小不一致的数量过多,会直接影响用户的阅读兴趣,使用户产生烦躁感。
进一步地,所述有效记录网页颜色布局分析单元用于对各搜索主体中各有效记录对应的颜色布局规范指数进行分析,其具体分析过程如下:
从各搜索主体中各有效记录内剔除各级标题和重点标记,进而获取各搜索主体中各有效记录内各文字对应的色度值,并从中筛选出最大色度值和最小色度值,同时统计各搜索主体中各有效记录对应的文字颜色种类数量;
对各搜索主体中各有效记录对应的最大色度值、最小色度值和文字颜色种类数量进行综合分析,得到各搜索主体中各有效记录对应的颜色布局规范指数,并记为
Figure BDA0003711763960000141
在一个具体的实施例中,各搜索主体中各有效记录对应的颜色布局规范指数对应的计算公式为
Figure BDA0003711763960000142
表示为第i个搜索主体中第j个有效记录对应的颜色布局规范指数,
Figure BDA0003711763960000143
分别表示为第i个搜索主体中第j个有效历史搜索记录对应的最大色度值、最小色度值,τ′表示为设定的参考颜色分布均匀指数,
Figure BDA0003711763960000144
表示为第i个搜索主体中第j个有效历史搜索记录对应的平均色度值,
Figure BDA0003711763960000145
表示为第i个搜索主体中第j个有效历史搜索记录对应的文字颜色种类数量,ω′表示为设定的参考文字颜色种类数量,σ1、σ2分别表示为预设颜色分布均匀指数、文字颜色种类对应的权值因子。
需要说明的是,若文章中出现的文字颜色种类过多,会造成用户阅读疲劳,使人眼花缭乱,进而降低用户的阅读体验感。
进一步地,所述有效记录网页整体布局分析单元用于计算各搜索主体中各有效记录对应的网页整体布局规范系数,其具体计算公式为
Figure BDA0003711763960000146
表示为第i个搜索主体中第j个有记录对应的网页整体布局规范系数,a1、a2、a3分别表示为预设段落布局规范指数、整体文字规范指数、颜色布局规范指数对应的系数因子。
本发明从有效记录对应的段落布局规范指数、整体文字规范指数、颜色布局规范指数三个维度进行综合分析,得到有效记录对应的网页整体布局规范系数,从一方面来说,弥补了当前网页搜索历史记录忽略对网页布局分析的不足,避免给用户造成在浏览过程中产生烦躁不安的情绪;从另一方面来说,不仅增加了用户在检索过程中检索历史记录时的舒适感,还从根本上提升了网页搜索历史记录管理的智能性。
有效记录网页展示效果分析模块,用于对各搜索主体对应的各有效记录进行网页展示效果分析,得到各搜索主体中各有效记录对应的展示效果评估系数。
进一步地,所述对各搜索主体对应的各有效记录进行网页展示效果分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的文字总数量,将各搜索主体中各有效记录内的各文字与信息存储库中存储的各搜索主体对应的各关联词语进行匹配,得到各搜索主体中各有效记录对应的匹配关联词语数量;
统计各搜索主体中各有效记录存在的图片总数量和各段落存在的图片数量;
对各搜索主体中各有效记录对应的文字总数量、匹配关联词语数量、图片总数量和各段落图片数量进行综合分析,得到各搜索主体中各有效记录对应的展示效果评估系数
Figure BDA0003711763960000151
在一个具体的实施例中,各搜索主体中各有效记录对应的展示效果评估系数对应的具体计算公式为
Figure BDA0003711763960000161
表示为第i个搜索主体中第j个有效记录对应的展示效果评估系数,
Figure BDA0003711763960000162
表示为第i个搜索主体中第j个有效记录对应的匹配关联词语数量,
Figure BDA0003711763960000163
表示为第i个搜索主体中第j个有效记录对应的文字总数量,
Figure BDA0003711763960000164
表示为第i个搜索主体中第j个有效记录内第r个段落对应的图片数量,tp′表示为单位段落对应的参考图片数量,
Figure BDA0003711763960000165
表示为第i个搜索主体中第j个有效记录对应的图片总数量,
Figure BDA0003711763960000166
表示为第i个搜索主体中第j个有效记录对应的段落数量,b1、b2、b3分别表示为预设关联词语数量、段落图片数量、总图片数量对应的补偿因子。
需要说明的是,在一篇文章中,图文并茂的展示方式会引起用户更多的阅读兴趣,但值得注意的是,图片穿插在各段落之间的效果会更加良好,若某段落中出现的图片过多,则会引起用户的视觉疲劳,使用户阅读体验感大打折扣。
有效记录网页内容关注分析模块,用于对各搜索主体对应的各有效记录进行网页内容关注分析,得到各搜索主体中各有效记录对应的内容关注系数。
进一步地,所述对各搜索主体对应的各有效记录进行网页内容关注分析,其具体分析步骤如下:
统计各搜索主体中各有效记录对应的阅读总次数,并将各次阅读按照预设顺序依次编号为1,2,...,y,...,z,同时获取各搜索主体中各有效记录对应各次阅读的阅读时长;
统计各次阅读中存在的浏览行为数量,并将各次浏览行为按照预设顺序依次编号为1,2,...,d,...,k;
将各搜索主体中各有效记录内各次阅读对应的各次浏览行为与信息存储库中存储的各种浏览行为对应的权值因子进行匹配,得到各搜索主体中各有效记录内各次阅读对应各次浏览行为的权值因子;
在一个具体的实施例中,各种浏览行为包括但不限于:复制、收藏、截图、下载和链接分享。
对各搜索主体中各有效记录内阅对应阅读总次数、各次阅读的阅读时长和各次阅读对应各次浏览行为的权值因子进行综合分析,得到各搜索主体中各有效记录对应的内容关注系数,记为
Figure BDA0003711763960000171
在一个具体的实施例中,各搜索主体中各有效记录对应的内容关注系数对应的具体计算公式为
Figure BDA0003711763960000172
Figure BDA0003711763960000173
表示为第i个搜索主体中第j个有效记录对应的内容关注系数,
Figure BDA0003711763960000174
表示为第i个搜索主体中第j个有效记录内第y次阅读对应的阅读时长,t′表示为参考浏览时长,
Figure BDA0003711763960000175
表示为第i个搜索主体中第j个有效记录内第y次阅读对应第d次浏览行为的权值因子,
Figure BDA0003711763960000176
表示为第i个搜索主体中第j个有效记录对应的阅读总次数,Y′表示为参考阅读次数,
Figure BDA0003711763960000177
分别表示为预设阅读时长、阅读总次数对应的系数因子。
信息存储库,用于存储各搜索主体对应的各关联词语,存储参考段落间距和参考行间距,存储单位段落对应的参考图片数量,存储各种浏览行为对应的权值因子,存储参考浏览时长,并存储参考阅读次数。
有效记录网页综合价值分析模块,用于将各搜索主体中各有效记录对应的网页整体布局规范系数、展示效果评估系数和内容关注系数进行综合分析,得到各搜索主体中各有效记录对应的综合价值系数。
进一步地,所述各搜索主体中各有效记录对应的综合价值系数,其具体计算公式为
Figure BDA0003711763960000181
表示为第i个搜索主体中第j个有效记录对应的综合价值系数,c1、c2、c3分别表示为预设网页整体布局规范系数、展示效果评估系数、内容关注系数对应的影响因子。
本发明通过剔除网页搜索历史记录中的无效链接,并从网页整体布局规范系数、展示效果评估系数和内容关注系数三个维度进行综合分析,得到有效记录对应的网页综合价值,同时按照网页综合价值进行有效链接排序分析,打破了当前网页搜索历史记录仅按照时间进行排序的不足,且对当前网页搜索历史记录进行分类排序显示后,在很大程度上缩短了历史记录的检索时长,从而大幅度提升了网页搜索历史记录管理的效率和管理效果,进一步满足了用户不同的查询需求,丰富了用户的查询体验感。
有效记录排序分析模块,用于对各搜索主体和各搜索主体对应的各有效记录进行排序分析,得到整体有效记录对应的排序。
进一步地,所述对各搜索主体和各搜索主体对应的各有效记录进行排序分析,其具体分析如下:
将各搜索主体中各有效记录对应的综合价值系数按照从大到小的顺序依次进行排序,并作为各搜索主体对应各有效记录的排序;
将各搜索主体中各有效记录对应的综合价值系数进行累加,得到各搜索主体对应的整体综合价值系数,并将各搜索主体对应的整体综合价值系数按照从大到小的顺序依次进行排序,由此作为各搜索主体对应的排序;
将各搜索主体对应各有效记录的排序和各搜索主体对应的排序进行整合,将整合后的记录记为整体有效记录,进而对整体有效记录进行综合排序。
有效记录排序显示模块,用于按照整体有效记录的排序进行依次显示。
需要说明的是,因为整体有效记录的排序方式是下沉式的,综合价值不高的链接排在靠下的位置,所以可以降低用户对综合价值不高链接的点击率,进而提升用户检索历史记录的有效性。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (10)

1.一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于,包括:
历史搜索记录预处理模块,用于对网页的历史搜索记录进行筛选,并从中剔除无效链接对应的历史搜索记录,得到各有效历史搜索记录,同时记为有效记录;
有效记录分类模块,用于对各有效记录进行分类,得到各搜索主体对应的各有效记录;
有效记录网页布局分析模块,用于对各搜索主体对应的各有效记录进行网页布局分析,得到各搜索主体中各有效记录对应的网页整体布局规范系数,其中有效记录网页布局分析模块包括有效记录网页段落布局分析单元、有效记录网页字体布局分析单元、有效记录网页颜色布局分析单元和有效记录网页整体布局分析单元;
有效记录网页展示效果分析模块,用于对各搜索主体对应的各有效记录进行网页展示效果分析,得到各搜索主体中各有效记录对应的展示效果评估系数;
有效记录网页内容关注分析模块,用于对各搜索主体对应的各有效记录进行网页内容关注分析,得到各搜索主体中各有效记录对应的内容关注系数;
有效记录网页综合价值分析模块,用于将各搜索主体中各有效记录对应的网页整体布局规范系数、展示效果评估系数和内容关注系数进行综合分析,得到各搜索主体中各有效记录对应的综合价值系数;
有效记录排序分析模块,用于对各搜索主体和各搜索主体对应的各有效记录进行排序分析,得到整体有效记录对应的排序;
有效记录排序显示模块,用于按照整体有效记录的排序进行依次显示;
信息存储库,用于存储各搜索主体对应的各关联词语,存储参考段落间距和参考行间距,存储单位段落对应的参考图片数量,存储各种浏览行为对应的权值因子,存储参考浏览时长,并存储参考阅读次数。
2.根据权利要求1所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述对各有效记录进行分类,其具体过程如下:
从各有效记录中提取各有效记录的搜索主体,并将各有效记录的搜索主体进行归类,得到各搜索主体对应的各有效记录;
按照预设顺序将各搜索主体编号为1,2,...,i,...,n,并按照预设顺序依次将各有效记录编号为1,2,...,j,...,m。
3.根据权利要求2所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述有效记录网页段落布局分析单元用于对各搜索主体中各有效记录对应的段落布局规范指数进行分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的段落数量和各段落对应的行数,并获取各搜索主体中各有效记录内各段落之间的距离和各段落中各行之间的距离,同时从中筛选出最大段落间距、最小段落间距、最大行间距和最小行间距;
依据公式
Figure FDA0003711763950000031
计算出各搜索主体中各有效记录对应的段落布局规范指数,
Figure FDA0003711763950000032
表示为第i个搜索主体中第j个有效记录对应的段落布局规范指数,i=1,2.......n,j=1,2......m,
Figure FDA0003711763950000033
分别表示为第i个搜索主体中第j个有效记录对应的段落间距规范指数、行间距规范指数,β1、β2分别表示为预设段落间距规范指数、行间距规范指数对应的影响因子;
上述公式中,
Figure FDA0003711763950000034
Figure FDA0003711763950000035
分别表示为第i个搜索主体中第j个有效记录对应的最大段落间距、最小段落间距,
Figure FDA0003711763950000036
表示为第i个搜索主体中第j个有效记录对应的平均段落间距,
Figure FDA0003711763950000037
表示为第i个搜索主体中第j个有效记录内第r个段落对应的段落间距,r表示为段落的编号,r=1,2,......s,l′表示为参考段落间距,β3、β4分别表示为预设段落间距均匀度、段落间距差对应的影响因子;
Figure FDA0003711763950000038
Figure FDA0003711763950000039
分别表示为第i个搜索主体中第j个有效记录对应的最大行间距、最小行间距,
Figure FDA00037117639500000310
表示为第i个搜索主体中第j个有效记录对应的平均行间距,
Figure FDA00037117639500000311
表示为第i个搜索主体中第j个有效记录内第r个段落对应第g行的行间距,g表示为行的编号,g=1,2,......f,h′表示为参考行间距,β5、β6分别表示为预设行间距均匀度、行间距差对应的影响因子。
4.根据权利要求3所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述有效记录网页字体布局分析单元用于对各搜索主体中各有效记录对应的整体文字规范指数进行分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的标题数量和标题级别,从而获取各搜索主体中各有效记录内各标题级别的字号大小,并将相同标题级别的字号大小进行相互比对,统计各标题级别中字号大小不一致的标题数量;
统计各搜索主体中各有效记录内正文内容存在的文字数量,记为
Figure FDA0003711763950000041
并获取正文内容中各文字对应的字号大小,同时将正文内容中各文字对应的字号大小进行相互比对,统计正文内容中字号大小不一致的文字数量;
对各搜索主体中各有效记录对应各标题级别下字号大小不一致的标题数量和正文内容下字号大小不一致的文字数量进行综合分析,得到各搜索主体中各有效记录对应的整体文字规范指数,并将其标记为
Figure FDA0003711763950000042
5.根据权利要求4所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述有效记录网页颜色布局分析单元用于对各搜索主体中各有效记录对应的颜色布局规范指数进行分析,其具体分析过程如下:
从各搜索主体中各有效记录内剔除各级标题和重点标记,进而获取各搜索主体中各有效记录内各文字对应的色度值,并从中筛选出最大色度值和最小色度值,同时统计各搜索主体中各有效记录对应的文字颜色种类数量;
对各搜索主体中各有效记录对应的最大色度值、最小色度值和文字颜色种类数量进行综合分析,得到各搜索主体中各有效记录对应的颜色布局规范指数,并记为
Figure FDA0003711763950000051
6.根据权利要求5所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述有效记录网页整体布局分析单元用于计算各搜索主体中各有效记录对应的网页整体布局规范系数,其具体计算公式为
Figure FDA0003711763950000052
Figure FDA0003711763950000053
表示为第i个搜索主体中第j个有效记录对应的网页整体布局规范系数,a1、a2、a3分别表示为预设段落布局规范指数、整体文字规范指数、颜色布局规范指数对应的系数因子。
7.根据权利要求6所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述对各搜索主体对应的各有效记录进行网页展示效果分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的文字总数量,将各搜索主体中各有效记录内的各文字与信息存储库中存储的各搜索主体对应的各关联词语进行匹配,得到各搜索主体中各有效记录对应的匹配关联词语数量;
统计各搜索主体中各有效记录存在的图片总数量和各段落存在的图片数量;
对各搜索主体中各有效记录对应的文字总数量、匹配关联词语数量、图片总数量和各段落图片数量进行综合分析,得到各搜索主体中各有效记录对应的展示效果评估系数
Figure FDA0003711763950000061
8.根据权利要求7所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述对各搜索主体对应的各有效记录进行网页内容关注分析,其具体分析步骤如下:
统计各搜索主体中各有效记录对应的阅读总次数,并将各次阅读按照预设顺序依次编号为1,2,...,y,...,z,同时获取各搜索主体中各有效记录对应各次阅读的阅读时长;
统计各次阅读中存在的浏览行为数量,并将各次浏览行为按照预设顺序依次编号为1,2,...,d,...,k;
将各搜索主体中各有效记录内各次阅读对应的各次浏览行为与信息存储库中存储的各种浏览行为对应的权值因子进行匹配,得到各搜索主体中各有效记录内各次阅读对应各次浏览行为的权值因子;
对各搜索主体中各有效记录内阅对应阅读总次数、各次阅读的阅读时长和各次阅读对应各次浏览行为的权值因子进行综合分析,得到各搜索主体中各有效记录对应的内容关注系数,记为
Figure FDA0003711763950000062
9.根据权利要求8所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述各搜索主体中各有效记录对应的综合价值系数,其具体计算公式为
Figure FDA0003711763950000063
Figure FDA0003711763950000064
表示为第i个搜索主体中第j个有效记录对应的综合价值系数,c1、c2、c3分别表示为预设网页整体布局规范系数、展示效果评估系数、内容关注系数对应的影响因子。
10.根据权利要求1所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述对各搜索主体和各搜索主体对应的各有效记录进行排序分析,其具体分析如下:
将各搜索主体中各有效记录对应的综合价值系数按照从大到小的顺序依次进行排序,并作为各搜索主体对应各有效记录的排序;
将各搜索主体中各有效记录对应的综合价值系数进行累加,得到各搜索主体对应的整体综合价值系数,并将各搜索主体对应的整体综合价值系数按照从大到小的顺序依次进行排序,由此作为各搜索主体对应的排序;
将各搜索主体对应各有效记录的排序和各搜索主体对应的排序进行整合,将整合后的记录记为整体有效记录,进而对整体有效记录进行综合排序。
CN202210728538.9A 2022-06-24 2022-06-24 一种基于大数据分析的网页搜索历史记录智能管理系统 Active CN115098804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210728538.9A CN115098804B (zh) 2022-06-24 2022-06-24 一种基于大数据分析的网页搜索历史记录智能管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210728538.9A CN115098804B (zh) 2022-06-24 2022-06-24 一种基于大数据分析的网页搜索历史记录智能管理系统

Publications (2)

Publication Number Publication Date
CN115098804A true CN115098804A (zh) 2022-09-23
CN115098804B CN115098804B (zh) 2023-11-03

Family

ID=83293859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210728538.9A Active CN115098804B (zh) 2022-06-24 2022-06-24 一种基于大数据分析的网页搜索历史记录智能管理系统

Country Status (1)

Country Link
CN (1) CN115098804B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169541A (ja) * 2008-01-11 2009-07-30 Yahoo Japan Corp Webページ検索サーバ及びクエリ推薦方法
US20100262615A1 (en) * 2009-04-08 2010-10-14 Bilgehan Uygar Oztekin Generating Improved Document Classification Data Using Historical Search Results
CN102779136A (zh) * 2011-05-13 2012-11-14 北京搜狗科技发展有限公司 一种信息搜索的方法和装置
CN105320734A (zh) * 2015-07-14 2016-02-10 中国互联网络信息中心 一种网页核心内容提取方法
CN106919669A (zh) * 2017-02-20 2017-07-04 浙江大学 一种对网页信息展示位置进行排序的方法
US20170316100A1 (en) * 2016-04-29 2017-11-02 ModeSens Inc Retrieval of Content Using Link-Based Search
US20190391975A1 (en) * 2017-08-11 2019-12-26 Ancestry.Com Dna, Llc Diversity evaluation in genealogy search
CN111782699A (zh) * 2020-07-16 2020-10-16 山东瑞智飞控科技有限公司 一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法
CN113065070A (zh) * 2021-04-23 2021-07-02 武汉瑞通慧行电子商务有限公司 一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质
CN113282834A (zh) * 2021-06-16 2021-08-20 武汉瑞通慧行电子商务有限公司 基于移动互联网数据深度挖掘的网页搜索智能排序方法、系统和计算机存储介质
CN113282641A (zh) * 2021-05-29 2021-08-20 武汉瑞通慧行电子商务有限公司 基于用户行为深度分析的网页搜索数据信息智能分类管理方法、系统及计算机存储介质
CN114519153A (zh) * 2022-02-16 2022-05-20 北京百度网讯科技有限公司 一种网页历史记录显示方法、装置、设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169541A (ja) * 2008-01-11 2009-07-30 Yahoo Japan Corp Webページ検索サーバ及びクエリ推薦方法
US20100262615A1 (en) * 2009-04-08 2010-10-14 Bilgehan Uygar Oztekin Generating Improved Document Classification Data Using Historical Search Results
CN102779136A (zh) * 2011-05-13 2012-11-14 北京搜狗科技发展有限公司 一种信息搜索的方法和装置
CN105320734A (zh) * 2015-07-14 2016-02-10 中国互联网络信息中心 一种网页核心内容提取方法
US20170316100A1 (en) * 2016-04-29 2017-11-02 ModeSens Inc Retrieval of Content Using Link-Based Search
CN106919669A (zh) * 2017-02-20 2017-07-04 浙江大学 一种对网页信息展示位置进行排序的方法
US20190391975A1 (en) * 2017-08-11 2019-12-26 Ancestry.Com Dna, Llc Diversity evaluation in genealogy search
CN111782699A (zh) * 2020-07-16 2020-10-16 山东瑞智飞控科技有限公司 一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法
CN113065070A (zh) * 2021-04-23 2021-07-02 武汉瑞通慧行电子商务有限公司 一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质
CN113282641A (zh) * 2021-05-29 2021-08-20 武汉瑞通慧行电子商务有限公司 基于用户行为深度分析的网页搜索数据信息智能分类管理方法、系统及计算机存储介质
CN113282834A (zh) * 2021-06-16 2021-08-20 武汉瑞通慧行电子商务有限公司 基于移动互联网数据深度挖掘的网页搜索智能排序方法、系统和计算机存储介质
CN114519153A (zh) * 2022-02-16 2022-05-20 北京百度网讯科技有限公司 一种网页历史记录显示方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨雪;靳慧云;: "Chrome浏览器历史记录提取与分析", 计算机应用与软件 *

Also Published As

Publication number Publication date
CN115098804B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
US9817825B2 (en) Multiple index based information retrieval system
Ding et al. Bibliometric cartography of information retrieval research by using co-word analysis
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN101246499B (zh) 网络信息搜索方法及系统
Leydesdorff et al. Journal maps on the basis of Scopus data: A comparison with the Journal Citation Reports of the ISI
US7702618B1 (en) Information retrieval system for archiving multiple document versions
Dong et al. Time is of the essence: improving recency ranking using twitter data
US8082248B2 (en) Method and system for document classification based on document structure and written style
CN102119383A (zh) 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统
CN106663125A (zh) 提问句生成装置以及计算机程序
JP2006048686A (ja) フレーズに基づく文書説明の生成方法
BRPI0203479B1 (pt) Sistema para enriquecer conteúdo de documento
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
CN102119385A (zh) 用于在内容检索服务系统内检索媒体内容的方法和子系统
CN108829652A (zh) 一种基于众包的图片标注系统
CN113282834A (zh) 基于移动互联网数据深度挖掘的网页搜索智能排序方法、系统和计算机存储介质
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
CN111369294B (zh) 软件造价估算方法及装置
CN116775972A (zh) 基于信息技术的远端资源整理服务方法和系统
CA2793570A1 (en) Systems and methods for research database management
CN112184021A (zh) 一种基于相似支持集的答案质量评估方法
CN115098804A (zh) 一种基于大数据分析的网页搜索历史记录智能管理系统
Reid et al. Best entry points for structured document retrieval—Part I: Characteristics
Nielsen Thesaurus construction: Key issues and selected readings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231007

Address after: Room 201, Building 4, No. 328 Kangning Road, Jing'an District, Shanghai, 200000

Applicant after: Shanghai Office Workers Digital Technology Co.,Ltd.

Address before: 430074 No. 308, Guanggu Avenue, East Lake New Technology Development Zone, Wuhan, Hubei Province

Applicant before: Wuhan kaihan culture media Co.,Ltd.

GR01 Patent grant
GR01 Patent grant