CN115098804A - 一种基于大数据分析的网页搜索历史记录智能管理系统 - Google Patents
一种基于大数据分析的网页搜索历史记录智能管理系统 Download PDFInfo
- Publication number
- CN115098804A CN115098804A CN202210728538.9A CN202210728538A CN115098804A CN 115098804 A CN115098804 A CN 115098804A CN 202210728538 A CN202210728538 A CN 202210728538A CN 115098804 A CN115098804 A CN 115098804A
- Authority
- CN
- China
- Prior art keywords
- search
- record
- effective
- effective record
- main body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims abstract description 90
- 238000012163 sequencing technique Methods 0.000 claims abstract description 45
- 230000000694 effects Effects 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000000034 method Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 239000011295 pitch Substances 0.000 claims description 6
- 230000007547 defect Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 2
- 102100037651 AP-2 complex subunit sigma Human genes 0.000 description 1
- 101000806914 Homo sapiens AP-2 complex subunit sigma Proteins 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 208000003464 asthenopia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于大数据分析的网页搜索历史记录智能管理系统,包括历史搜索记录预处理模块、有效记录分类模块、有效记录网页布局分析模块、有效记录网页展示效果分析模块、有效记录网页内容关注分析模块、有效记录网页综合价值分析模块、有效记录排序分析模块、有效记录排序显示模块和信息存储库。通过按照网页综合价值进行有效链接排序分析,打破了当前网页搜索历史记录仅按照时间进行排序的不足,且对当前网页搜索历史记录进行分类排序显示后,在很大程度上缩短了历史记录的检索时长,从而大幅度提升了网页搜索历史记录管理的效率和管理效果,进一步满足了用户不同的查询需求,丰富了用户的查询体验感。
Description
技术领域
本发明涉及网页搜索历史记录管理技术领域,具体而言,涉及一种基于大数据分析的网页搜索历史记录智能管理系统。
背景技术
随着互联网技术的快速发展,在网页中进行关键词搜索已经成为全民获取信息的重要途径。随着现代互联网上信息越来也多,搜索词条也随之增长,在此大背景下,对网页搜索历史记录进行智能管理变得尤为重要。
当前的网页搜索历史记录主要是依据时间先后进行排序,若当前时间搜索词条过多,则在无形之中放慢了用户对自己需查询搜索记录的查询进度,除此之外,当前网页搜索历史记录管理还存在以下问题:
当前在进行网页搜索历史记录管理时,通常因按照时间先后进行排序而忽略其中可能存在的无效链接,导致人们在找寻自己的需求时,点击无效链接而产生的时间浪费,大大降低了网页搜索历史记录管理的效率和管理效果,同时也降低了用户的查询体验感,无法满足用户不同的查询需求。
当前在进行网页历史记录管理时,往往会忽略对链接的网页布局进行分析,进而导致人们在浏览网页布局不舒适的链接时产生不适感,无法提高用户的浏览效果,进一步降低了网页搜索历史记录管理的智能性。
发明内容
为了克服背景技术中的缺点,本发明实施例提供了一种基于大数据分析的网页搜索历史记录智能管理系统,能够有效解决上述背景技术中涉及的问题。
本发明的目的可以通过以下技术方案来实现:
一种基于大数据分析的网页搜索历史记录智能管理系统,包括:
历史搜索记录预处理模块,用于对网页的历史搜索记录进行筛选,并从中剔除无效链接对应的历史搜索记录,得到各有效历史搜索记录,同时记为有效记录;
有效记录分类模块,用于对各有效记录进行分类,得到各搜索主体对应的各有效记录;
有效记录网页布局分析模块,用于对各搜索主体对应的各有效记录进行网页布局分析,得到各搜索主体中各有效记录对应的网页整体布局规范系数,其中有效记录网页布局分析模块包括有效记录网页段落布局分析单元、有效记录网页字体布局分析单元、有效记录网页颜色布局分析单元和有效记录网页整体布局分析单元;
有效记录网页展示效果分析模块,用于对各搜索主体对应的各有效记录进行网页展示效果分析,得到各搜索主体中各有效记录对应的展示效果评估系数;
有效记录网页内容关注分析模块,用于对各搜索主体对应的各有效记录进行网页内容关注分析,得到各搜索主体中各有效记录对应的内容关注系数;
有效记录网页综合价值分析模块,用于将各搜索主体中各有效记录对应的网页整体布局规范系数、展示效果评估系数和内容关注系数进行综合分析,得到各搜索主体中各有效记录对应的综合价值系数;
有效记录排序分析模块,用于对各搜索主体和各搜索主体对应的各有效记录进行排序分析,得到整体有效记录对应的排序;
有效记录排序显示模块,用于按照整体有效记录的排序进行依次显示;
信息存储库,用于存储各搜索主体对应的各关联词语,存储参考段落间距和参考行间距,存储单位段落对应的参考图片数量,存储各种浏览行为对应的权值因子,存储参考浏览时长,并存储参考阅读次数。
进一步地,所述对各有效记录进行分类,其具体过程如下:
从各有效记录中提取各有效记录的搜索主体,并将各有效记录的搜索主体进行归类,得到各搜索主体对应的各有效记录;
按照预设顺序将各搜索主体编号为1,2,...,i,...,n,并按照预设顺序依次将各有效记录编号为1,2,...,j,...,m。
进一步地,所述有效记录网页段落布局分析单元用于对各搜索主体中各有效记录对应的段落布局规范指数进行分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的段落数量和各段落对应的行数,并获取各搜索主体中各有效记录内各段落之间的距离和各段落中各行之间的距离,同时从中筛选出最大段落间距、最小段落间距、最大行间距和最小行间距;
依据公式计算出各搜索主体中各有效记录对应的段落布局规范指数,表示为第i个搜索主体中第j个有效记录对应的段落布局规范指数,i=1,2.......n,j=1,2......m,分别表示为第i个搜索主体中第j个有效记录对应的段落间距规范指数、行间距规范指数,β1、β2分别表示为预设段落间距规范指数、行间距规范指数对应的影响因子;
上述公式中,分别表示为第i个搜索主体中第j个有效记录对应的最大段落间距、最小段落间距,表示为第i个搜索主体中第j个有效记录对应的平均段落间距,表示为第i个搜索主体中第j个有效记录内第r个段落对应的段落间距,r表示为段落的编号,r=1,2,......s,l′表示为参考段落间距,β3、β4分别表示为预设段落间距均匀度、段落间距差对应的影响因子;
分别表示为第i个搜索主体中第j个有效记录对应的最大行间距、最小行间距,表示为第i个搜索主体中第j个有效记录对应的平均行间距,表示为第i个搜索主体中第j个有效记录内第r个段落对应第g行的行间距,g表示为行的编号,g=1,2,......f,h′表示为参考行间距,β5、β6分别表示为预设行间距均匀度、行间距差对应的影响因子。
进一步地,所述有效记录网页字体布局分析单元用于对各搜索主体中各有效记录对应的整体文字规范指数进行分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的标题数量和标题级别,从而获取各搜索主体中各有效记录内各标题级别的字号大小,并将相同标题级别的字号大小进行相互比对,统计各标题级别中字号大小不一致的标题数量;
进一步地,所述有效记录网页颜色布局分析单元用于对各搜索主体中各有效记录对应的颜色布局规范指数进行分析,其具体分析过程如下:
从各搜索主体中各有效记录内剔除各级标题和重点标记,进而获取各搜索主体中各有效记录内各文字对应的色度值,并从中筛选出最大色度值和最小色度值,同时统计各搜索主体中各有效记录对应的文字颜色种类数量;
进一步地,所述有效记录网页整体布局分析单元用于计算各搜索主体中各有效记录对应的网页整体布局规范系数,其具体计算公式为表示为第i个搜索主体中第j个有效记录对应的网页整体布局规范系数,a1、a2、a3分别表示为预设段落布局规范指数、整体文字规范指数、颜色布局规范指数对应的系数因子。
进一步地,所述对各搜索主体对应的各有效记录进行网页展示效果分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的文字总数量,将各搜索主体中各有效记录内的各文字与信息存储库中存储的各搜索主体对应的各关联词语进行匹配,得到各搜索主体中各有效记录对应的匹配关联词语数量;
统计各搜索主体中各有效记录存在的图片总数量和各段落存在的图片数量;
进一步地,所述对各搜索主体对应的各有效记录进行网页内容关注分析,其具体分析步骤如下:
统计各搜索主体中各有效记录对应的阅读总次数,并将各次阅读按照预设顺序依次编号为1,2,...,y,...,z,同时获取各搜索主体中各有效记录对应各次阅读的阅读时长;
统计各次阅读中存在的浏览行为数量,并将各次浏览行为按照预设顺序依次编号为1,2,...,d,...,k;
将各搜索主体中各有效记录内各次阅读对应的各次浏览行为与信息存储库中存储的各种浏览行为对应的权值因子进行匹配,得到各搜索主体中各有效记录内各次阅读对应各次浏览行为的权值因子;
进一步地,所述各搜索主体中各有效记录对应的综合价值系数,其具体计算公式为表示为第i个搜索主体中第j个有效记录对应的综合价值系数,c1、c2、c3分别表示为预设网页整体布局规范系数、展示效果评估系数、内容关注系数对应的影响因子。
进一步地,所述对各搜索主体和各搜索主体对应的各有效记录进行排序分析,其具体分析如下:
将各搜索主体中各有效记录对应的综合价值系数按照从大到小的顺序依次进行排序,并作为各搜索主体对应各有效记录的排序;
将各搜索主体中各有效记录对应的综合价值系数进行累加,得到各搜索主体对应的整体综合价值系数,并将各搜索主体对应的整体综合价值系数按照从大到小的顺序依次进行排序,由此作为各搜索主体对应的排序;
将各搜索主体对应各有效记录的排序和各搜索主体对应的排序进行整合,将整合后的记录记为整体有效记录,进而对整体有效记录进行综合排序。
相对于现有技术,本发明的实施例至少具有如下优点或有益效果:
本发明通过剔除网页搜索历史记录中的无效链接,并从网页整体布局规范系数、展示效果评估系数和内容关注系数三个维度进行综合分析,得到有效记录对应的网页综合价值,同时按照网页综合价值进行有效链接排序分析,打破了当前网页搜索历史记录仅按照时间进行排序的不足,且对当前网页搜索历史记录进行分类排序显示后,在很大程度上缩短了历史记录的检索时长,从而大幅度提升了网页搜索历史记录管理的效率和管理效果,进一步满足了用户不同的查询需求,丰富了用户的查询体验感。
本发明从有效记录对应的段落布局规范指数、整体文字规范指数、颜色布局规范指数三个维度进行综合分析,得到有效记录对应的网页整体布局规范系数,从一方面来说,弥补了当前网页搜索历史记录忽略对网页布局分析的不足,避免给用户造成在浏览过程中产生烦躁不安的情绪;从另一方面来说,不仅增加了用户在检索过程中检索历史记录时的舒适感,还从根本上提升了网页搜索历史记录管理的智能性。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明系统模块连接示意图。
图2为本发明有效记录网页布局分析模块连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,本发明提供一种基于大数据分析的网页搜索历史记录智能管理系统,包括历史搜索记录预处理模块、有效记录分类模块、有效记录网页布局分析模块、有效记录网页展示效果分析模块、有效记录网页内容关注分析模块、有效记录网页综合价值分析模块、有效记录排序分析模块、有效记录排序显示模块和信息存储库。
所述历史搜索记录预处理模块和有效记录分类模块连接,有效记录分类模块分别与有效记录网页布局分析模块、有效记录网页展示效果分析模块和有效记录网页内容关注分析模块连接,有效记录网页布局分析模块、有效记录网页展示效果分析模块和有效记录网页内容关注分析模块均与有效记录网页综合价值分析模块连接,有效记录网页布局分析模块、有效记录网页展示效果分析模块和有效记录网页内容关注分析模块均与信息存储库连接,有效记录网页综合价值分析模块和有效记录排序分析模块连接,有效记录排序分析模块和有效记录排序显示模块连接。
历史搜索记录预处理模块,用于对网页的历史搜索记录进行筛选,并从中剔除无效链接对应的历史搜索记录,得到各有效历史搜索记录,同时记为有效记录。
有效记录分类模块,用于对各有效记录进行分类,得到各搜索主体对应的各有效记录。
进一步地,所述对各有效记录进行分类,其具体过程如下:
从各有效记录中提取各有效记录的搜索主体,并将各有效记录的搜索主体进行归类,得到各搜索主体对应的各有效记录;
按照预设顺序将各搜索主体编号为1,2,...,i,...,n,,并按照预设顺序依次将各有效记录编号为1,2,...,j,...,m。
参照图2所示,有效记录网页布局分析模块,用于对各搜索主体对应的各有效记录进行网页布局分析,得到各搜索主体中各有效记录对应的网页整体布局规范系数,其中有效记录网页布局分析模块包括有效记录网页段落布局分析单元、有效记录网页字体布局分析单元、有效记录网页颜色布局分析单元和有效记录网页整体布局分析单元。
进一步地,所述有效记录网页段落布局分析单元用于对各搜索主体中各有效记录对应的段落布局规范指数进行分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的段落数量和各段落对应的行数,并获取各搜索主体中各有效记录内各段落之间的距离和各段落中各行之间的距离,同时从中筛选出最大段落间距、最小段落间距、最大行间距和最小行间距;
依据公式计算出各搜索主体中各有效记录对应的段落布局规范指数,表示为第i个搜索主体中第j个有效记录对应的段落布局规范指数,i=1,2.......n,j=1,2......m,分别表示为第i个搜索主体中第j个有效记录对应的段落间距规范指数、行间距规范指数,β1、β2分别表示为预设段落间距规范指数、行间距规范指数对应的影响因子;
上述公式中,分别表示为第i个搜索主体中第j个有效记录对应的最大段落间距、最小段落间距,表示为第i个搜索主体中第j个有效记录对应的平均段落间距,表示为第i个搜索主体中第j个有效记录内第r个段落对应的段落间距,r表示为段落的编号,r=1,2,......s,l′表示为参考段落间距,β3、β4分别表示为预设段落间距均匀度、段落间距差对应的影响因子;
分别表示为第i个搜索主体中第j个有效记录对应的最大行间距、最小行间距,表示为第i个搜索主体中第j个有效记录对应的平均行间距,表示为第i个搜索主体中第j个有效记录内第r个段落对应第g行的行间距,g表示为行的编号,g=1,2,......f,h′表示为参考行间距,β5、β6分别表示为预设行间距均匀度、行间距差对应的影响因子。
需要说明的是,在一篇文章中,若段落之间的间距和段落内各行的行间距相差过大,则会影响用户对该文章的阅读兴趣,进而可能造成用户因段落布局不规范而退出文章阅读。
进一步地,所述有效记录网页字体布局分析单元用于对各搜索主体中各有效记录对应的整体文字规范指数进行分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的标题数量和标题级别,从而获取各搜索主体中各有效记录内各标题级别的字号大小,并将相同标题级别的字号大小进行相互比对,统计各标题级别中字号大小不一致的标题数量;
在一个具体实施例中,各搜索主体中各有效记录对应的整体文字规范指数对应的具体计算公式为表示为第i个搜索主体中第j个有效记录对应的整体文字规范指数,表示为第i个搜索主体中第j个有效记录内第q个标题级别的数量,q表示为标题级别的编号,q=1,2,......,p,bt′ijq表示为第i个搜索主体中第j个有效记录内第q个标题级别对应字号大小不一致的标题数量,表示为第i个搜索主体中第j个有效记录内正文内容对应字号大小不一致的文字数量,λ1、λ2分别表示为设定标题规范、正文字号规范、对应的影响因子。
需要说明的是,若文章中各级标题大小和正文中文字大小不一致的数量过多,会直接影响用户的阅读兴趣,使用户产生烦躁感。
进一步地,所述有效记录网页颜色布局分析单元用于对各搜索主体中各有效记录对应的颜色布局规范指数进行分析,其具体分析过程如下:
从各搜索主体中各有效记录内剔除各级标题和重点标记,进而获取各搜索主体中各有效记录内各文字对应的色度值,并从中筛选出最大色度值和最小色度值,同时统计各搜索主体中各有效记录对应的文字颜色种类数量;
在一个具体的实施例中,各搜索主体中各有效记录对应的颜色布局规范指数对应的计算公式为表示为第i个搜索主体中第j个有效记录对应的颜色布局规范指数,分别表示为第i个搜索主体中第j个有效历史搜索记录对应的最大色度值、最小色度值,τ′表示为设定的参考颜色分布均匀指数,表示为第i个搜索主体中第j个有效历史搜索记录对应的平均色度值,表示为第i个搜索主体中第j个有效历史搜索记录对应的文字颜色种类数量,ω′表示为设定的参考文字颜色种类数量,σ1、σ2分别表示为预设颜色分布均匀指数、文字颜色种类对应的权值因子。
需要说明的是,若文章中出现的文字颜色种类过多,会造成用户阅读疲劳,使人眼花缭乱,进而降低用户的阅读体验感。
进一步地,所述有效记录网页整体布局分析单元用于计算各搜索主体中各有效记录对应的网页整体布局规范系数,其具体计算公式为表示为第i个搜索主体中第j个有记录对应的网页整体布局规范系数,a1、a2、a3分别表示为预设段落布局规范指数、整体文字规范指数、颜色布局规范指数对应的系数因子。
本发明从有效记录对应的段落布局规范指数、整体文字规范指数、颜色布局规范指数三个维度进行综合分析,得到有效记录对应的网页整体布局规范系数,从一方面来说,弥补了当前网页搜索历史记录忽略对网页布局分析的不足,避免给用户造成在浏览过程中产生烦躁不安的情绪;从另一方面来说,不仅增加了用户在检索过程中检索历史记录时的舒适感,还从根本上提升了网页搜索历史记录管理的智能性。
有效记录网页展示效果分析模块,用于对各搜索主体对应的各有效记录进行网页展示效果分析,得到各搜索主体中各有效记录对应的展示效果评估系数。
进一步地,所述对各搜索主体对应的各有效记录进行网页展示效果分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的文字总数量,将各搜索主体中各有效记录内的各文字与信息存储库中存储的各搜索主体对应的各关联词语进行匹配,得到各搜索主体中各有效记录对应的匹配关联词语数量;
统计各搜索主体中各有效记录存在的图片总数量和各段落存在的图片数量;
在一个具体的实施例中,各搜索主体中各有效记录对应的展示效果评估系数对应的具体计算公式为表示为第i个搜索主体中第j个有效记录对应的展示效果评估系数,表示为第i个搜索主体中第j个有效记录对应的匹配关联词语数量,表示为第i个搜索主体中第j个有效记录对应的文字总数量,表示为第i个搜索主体中第j个有效记录内第r个段落对应的图片数量,tp′表示为单位段落对应的参考图片数量,表示为第i个搜索主体中第j个有效记录对应的图片总数量,表示为第i个搜索主体中第j个有效记录对应的段落数量,b1、b2、b3分别表示为预设关联词语数量、段落图片数量、总图片数量对应的补偿因子。
需要说明的是,在一篇文章中,图文并茂的展示方式会引起用户更多的阅读兴趣,但值得注意的是,图片穿插在各段落之间的效果会更加良好,若某段落中出现的图片过多,则会引起用户的视觉疲劳,使用户阅读体验感大打折扣。
有效记录网页内容关注分析模块,用于对各搜索主体对应的各有效记录进行网页内容关注分析,得到各搜索主体中各有效记录对应的内容关注系数。
进一步地,所述对各搜索主体对应的各有效记录进行网页内容关注分析,其具体分析步骤如下:
统计各搜索主体中各有效记录对应的阅读总次数,并将各次阅读按照预设顺序依次编号为1,2,...,y,...,z,同时获取各搜索主体中各有效记录对应各次阅读的阅读时长;
统计各次阅读中存在的浏览行为数量,并将各次浏览行为按照预设顺序依次编号为1,2,...,d,...,k;
将各搜索主体中各有效记录内各次阅读对应的各次浏览行为与信息存储库中存储的各种浏览行为对应的权值因子进行匹配,得到各搜索主体中各有效记录内各次阅读对应各次浏览行为的权值因子;
在一个具体的实施例中,各种浏览行为包括但不限于:复制、收藏、截图、下载和链接分享。
在一个具体的实施例中,各搜索主体中各有效记录对应的内容关注系数对应的具体计算公式为 表示为第i个搜索主体中第j个有效记录对应的内容关注系数,表示为第i个搜索主体中第j个有效记录内第y次阅读对应的阅读时长,t′表示为参考浏览时长,表示为第i个搜索主体中第j个有效记录内第y次阅读对应第d次浏览行为的权值因子,表示为第i个搜索主体中第j个有效记录对应的阅读总次数,Y′表示为参考阅读次数,分别表示为预设阅读时长、阅读总次数对应的系数因子。
信息存储库,用于存储各搜索主体对应的各关联词语,存储参考段落间距和参考行间距,存储单位段落对应的参考图片数量,存储各种浏览行为对应的权值因子,存储参考浏览时长,并存储参考阅读次数。
有效记录网页综合价值分析模块,用于将各搜索主体中各有效记录对应的网页整体布局规范系数、展示效果评估系数和内容关注系数进行综合分析,得到各搜索主体中各有效记录对应的综合价值系数。
进一步地,所述各搜索主体中各有效记录对应的综合价值系数,其具体计算公式为表示为第i个搜索主体中第j个有效记录对应的综合价值系数,c1、c2、c3分别表示为预设网页整体布局规范系数、展示效果评估系数、内容关注系数对应的影响因子。
本发明通过剔除网页搜索历史记录中的无效链接,并从网页整体布局规范系数、展示效果评估系数和内容关注系数三个维度进行综合分析,得到有效记录对应的网页综合价值,同时按照网页综合价值进行有效链接排序分析,打破了当前网页搜索历史记录仅按照时间进行排序的不足,且对当前网页搜索历史记录进行分类排序显示后,在很大程度上缩短了历史记录的检索时长,从而大幅度提升了网页搜索历史记录管理的效率和管理效果,进一步满足了用户不同的查询需求,丰富了用户的查询体验感。
有效记录排序分析模块,用于对各搜索主体和各搜索主体对应的各有效记录进行排序分析,得到整体有效记录对应的排序。
进一步地,所述对各搜索主体和各搜索主体对应的各有效记录进行排序分析,其具体分析如下:
将各搜索主体中各有效记录对应的综合价值系数按照从大到小的顺序依次进行排序,并作为各搜索主体对应各有效记录的排序;
将各搜索主体中各有效记录对应的综合价值系数进行累加,得到各搜索主体对应的整体综合价值系数,并将各搜索主体对应的整体综合价值系数按照从大到小的顺序依次进行排序,由此作为各搜索主体对应的排序;
将各搜索主体对应各有效记录的排序和各搜索主体对应的排序进行整合,将整合后的记录记为整体有效记录,进而对整体有效记录进行综合排序。
有效记录排序显示模块,用于按照整体有效记录的排序进行依次显示。
需要说明的是,因为整体有效记录的排序方式是下沉式的,综合价值不高的链接排在靠下的位置,所以可以降低用户对综合价值不高链接的点击率,进而提升用户检索历史记录的有效性。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (10)
1.一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于,包括:
历史搜索记录预处理模块,用于对网页的历史搜索记录进行筛选,并从中剔除无效链接对应的历史搜索记录,得到各有效历史搜索记录,同时记为有效记录;
有效记录分类模块,用于对各有效记录进行分类,得到各搜索主体对应的各有效记录;
有效记录网页布局分析模块,用于对各搜索主体对应的各有效记录进行网页布局分析,得到各搜索主体中各有效记录对应的网页整体布局规范系数,其中有效记录网页布局分析模块包括有效记录网页段落布局分析单元、有效记录网页字体布局分析单元、有效记录网页颜色布局分析单元和有效记录网页整体布局分析单元;
有效记录网页展示效果分析模块,用于对各搜索主体对应的各有效记录进行网页展示效果分析,得到各搜索主体中各有效记录对应的展示效果评估系数;
有效记录网页内容关注分析模块,用于对各搜索主体对应的各有效记录进行网页内容关注分析,得到各搜索主体中各有效记录对应的内容关注系数;
有效记录网页综合价值分析模块,用于将各搜索主体中各有效记录对应的网页整体布局规范系数、展示效果评估系数和内容关注系数进行综合分析,得到各搜索主体中各有效记录对应的综合价值系数;
有效记录排序分析模块,用于对各搜索主体和各搜索主体对应的各有效记录进行排序分析,得到整体有效记录对应的排序;
有效记录排序显示模块,用于按照整体有效记录的排序进行依次显示;
信息存储库,用于存储各搜索主体对应的各关联词语,存储参考段落间距和参考行间距,存储单位段落对应的参考图片数量,存储各种浏览行为对应的权值因子,存储参考浏览时长,并存储参考阅读次数。
2.根据权利要求1所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述对各有效记录进行分类,其具体过程如下:
从各有效记录中提取各有效记录的搜索主体,并将各有效记录的搜索主体进行归类,得到各搜索主体对应的各有效记录;
按照预设顺序将各搜索主体编号为1,2,...,i,...,n,并按照预设顺序依次将各有效记录编号为1,2,...,j,...,m。
3.根据权利要求2所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述有效记录网页段落布局分析单元用于对各搜索主体中各有效记录对应的段落布局规范指数进行分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的段落数量和各段落对应的行数,并获取各搜索主体中各有效记录内各段落之间的距离和各段落中各行之间的距离,同时从中筛选出最大段落间距、最小段落间距、最大行间距和最小行间距;
依据公式计算出各搜索主体中各有效记录对应的段落布局规范指数,表示为第i个搜索主体中第j个有效记录对应的段落布局规范指数,i=1,2.......n,j=1,2......m,分别表示为第i个搜索主体中第j个有效记录对应的段落间距规范指数、行间距规范指数,β1、β2分别表示为预设段落间距规范指数、行间距规范指数对应的影响因子;
上述公式中, 分别表示为第i个搜索主体中第j个有效记录对应的最大段落间距、最小段落间距,表示为第i个搜索主体中第j个有效记录对应的平均段落间距,表示为第i个搜索主体中第j个有效记录内第r个段落对应的段落间距,r表示为段落的编号,r=1,2,......s,l′表示为参考段落间距,β3、β4分别表示为预设段落间距均匀度、段落间距差对应的影响因子;
4.根据权利要求3所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述有效记录网页字体布局分析单元用于对各搜索主体中各有效记录对应的整体文字规范指数进行分析,其具体分析步骤如下:
统计各搜索主体中各有效记录内存在的标题数量和标题级别,从而获取各搜索主体中各有效记录内各标题级别的字号大小,并将相同标题级别的字号大小进行相互比对,统计各标题级别中字号大小不一致的标题数量;
8.根据权利要求7所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述对各搜索主体对应的各有效记录进行网页内容关注分析,其具体分析步骤如下:
统计各搜索主体中各有效记录对应的阅读总次数,并将各次阅读按照预设顺序依次编号为1,2,...,y,...,z,同时获取各搜索主体中各有效记录对应各次阅读的阅读时长;
统计各次阅读中存在的浏览行为数量,并将各次浏览行为按照预设顺序依次编号为1,2,...,d,...,k;
将各搜索主体中各有效记录内各次阅读对应的各次浏览行为与信息存储库中存储的各种浏览行为对应的权值因子进行匹配,得到各搜索主体中各有效记录内各次阅读对应各次浏览行为的权值因子;
10.根据权利要求1所述的一种基于大数据分析的网页搜索历史记录智能管理系统,其特征在于:所述对各搜索主体和各搜索主体对应的各有效记录进行排序分析,其具体分析如下:
将各搜索主体中各有效记录对应的综合价值系数按照从大到小的顺序依次进行排序,并作为各搜索主体对应各有效记录的排序;
将各搜索主体中各有效记录对应的综合价值系数进行累加,得到各搜索主体对应的整体综合价值系数,并将各搜索主体对应的整体综合价值系数按照从大到小的顺序依次进行排序,由此作为各搜索主体对应的排序;
将各搜索主体对应各有效记录的排序和各搜索主体对应的排序进行整合,将整合后的记录记为整体有效记录,进而对整体有效记录进行综合排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210728538.9A CN115098804B (zh) | 2022-06-24 | 2022-06-24 | 一种基于大数据分析的网页搜索历史记录智能管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210728538.9A CN115098804B (zh) | 2022-06-24 | 2022-06-24 | 一种基于大数据分析的网页搜索历史记录智能管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115098804A true CN115098804A (zh) | 2022-09-23 |
CN115098804B CN115098804B (zh) | 2023-11-03 |
Family
ID=83293859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210728538.9A Active CN115098804B (zh) | 2022-06-24 | 2022-06-24 | 一种基于大数据分析的网页搜索历史记录智能管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115098804B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169541A (ja) * | 2008-01-11 | 2009-07-30 | Yahoo Japan Corp | Webページ検索サーバ及びクエリ推薦方法 |
US20100262615A1 (en) * | 2009-04-08 | 2010-10-14 | Bilgehan Uygar Oztekin | Generating Improved Document Classification Data Using Historical Search Results |
CN102779136A (zh) * | 2011-05-13 | 2012-11-14 | 北京搜狗科技发展有限公司 | 一种信息搜索的方法和装置 |
CN105320734A (zh) * | 2015-07-14 | 2016-02-10 | 中国互联网络信息中心 | 一种网页核心内容提取方法 |
CN106919669A (zh) * | 2017-02-20 | 2017-07-04 | 浙江大学 | 一种对网页信息展示位置进行排序的方法 |
US20170316100A1 (en) * | 2016-04-29 | 2017-11-02 | ModeSens Inc | Retrieval of Content Using Link-Based Search |
US20190391975A1 (en) * | 2017-08-11 | 2019-12-26 | Ancestry.Com Dna, Llc | Diversity evaluation in genealogy search |
CN111782699A (zh) * | 2020-07-16 | 2020-10-16 | 山东瑞智飞控科技有限公司 | 一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法 |
CN113065070A (zh) * | 2021-04-23 | 2021-07-02 | 武汉瑞通慧行电子商务有限公司 | 一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质 |
CN113282834A (zh) * | 2021-06-16 | 2021-08-20 | 武汉瑞通慧行电子商务有限公司 | 基于移动互联网数据深度挖掘的网页搜索智能排序方法、系统和计算机存储介质 |
CN113282641A (zh) * | 2021-05-29 | 2021-08-20 | 武汉瑞通慧行电子商务有限公司 | 基于用户行为深度分析的网页搜索数据信息智能分类管理方法、系统及计算机存储介质 |
CN114519153A (zh) * | 2022-02-16 | 2022-05-20 | 北京百度网讯科技有限公司 | 一种网页历史记录显示方法、装置、设备及存储介质 |
-
2022
- 2022-06-24 CN CN202210728538.9A patent/CN115098804B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169541A (ja) * | 2008-01-11 | 2009-07-30 | Yahoo Japan Corp | Webページ検索サーバ及びクエリ推薦方法 |
US20100262615A1 (en) * | 2009-04-08 | 2010-10-14 | Bilgehan Uygar Oztekin | Generating Improved Document Classification Data Using Historical Search Results |
CN102779136A (zh) * | 2011-05-13 | 2012-11-14 | 北京搜狗科技发展有限公司 | 一种信息搜索的方法和装置 |
CN105320734A (zh) * | 2015-07-14 | 2016-02-10 | 中国互联网络信息中心 | 一种网页核心内容提取方法 |
US20170316100A1 (en) * | 2016-04-29 | 2017-11-02 | ModeSens Inc | Retrieval of Content Using Link-Based Search |
CN106919669A (zh) * | 2017-02-20 | 2017-07-04 | 浙江大学 | 一种对网页信息展示位置进行排序的方法 |
US20190391975A1 (en) * | 2017-08-11 | 2019-12-26 | Ancestry.Com Dna, Llc | Diversity evaluation in genealogy search |
CN111782699A (zh) * | 2020-07-16 | 2020-10-16 | 山东瑞智飞控科技有限公司 | 一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法 |
CN113065070A (zh) * | 2021-04-23 | 2021-07-02 | 武汉瑞通慧行电子商务有限公司 | 一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质 |
CN113282641A (zh) * | 2021-05-29 | 2021-08-20 | 武汉瑞通慧行电子商务有限公司 | 基于用户行为深度分析的网页搜索数据信息智能分类管理方法、系统及计算机存储介质 |
CN113282834A (zh) * | 2021-06-16 | 2021-08-20 | 武汉瑞通慧行电子商务有限公司 | 基于移动互联网数据深度挖掘的网页搜索智能排序方法、系统和计算机存储介质 |
CN114519153A (zh) * | 2022-02-16 | 2022-05-20 | 北京百度网讯科技有限公司 | 一种网页历史记录显示方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
杨雪;靳慧云;: "Chrome浏览器历史记录提取与分析", 计算机应用与软件 * |
Also Published As
Publication number | Publication date |
---|---|
CN115098804B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9817825B2 (en) | Multiple index based information retrieval system | |
Ding et al. | Bibliometric cartography of information retrieval research by using co-word analysis | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN103823824B (zh) | 一种借助互联网自动构建文本分类语料库的方法及系统 | |
CN101246499B (zh) | 网络信息搜索方法及系统 | |
Leydesdorff et al. | Journal maps on the basis of Scopus data: A comparison with the Journal Citation Reports of the ISI | |
US7702618B1 (en) | Information retrieval system for archiving multiple document versions | |
Dong et al. | Time is of the essence: improving recency ranking using twitter data | |
US8082248B2 (en) | Method and system for document classification based on document structure and written style | |
CN102119383A (zh) | 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统 | |
CN106663125A (zh) | 提问句生成装置以及计算机程序 | |
JP2006048686A (ja) | フレーズに基づく文書説明の生成方法 | |
BRPI0203479B1 (pt) | Sistema para enriquecer conteúdo de documento | |
CN111506727B (zh) | 文本内容类别获取方法、装置、计算机设备和存储介质 | |
CN102119385A (zh) | 用于在内容检索服务系统内检索媒体内容的方法和子系统 | |
CN108829652A (zh) | 一种基于众包的图片标注系统 | |
CN113282834A (zh) | 基于移动互联网数据深度挖掘的网页搜索智能排序方法、系统和计算机存储介质 | |
CN114443847A (zh) | 文本分类、文本处理方法、装置、计算机设备及存储介质 | |
CN111369294B (zh) | 软件造价估算方法及装置 | |
CN116775972A (zh) | 基于信息技术的远端资源整理服务方法和系统 | |
CA2793570A1 (en) | Systems and methods for research database management | |
CN112184021A (zh) | 一种基于相似支持集的答案质量评估方法 | |
CN115098804A (zh) | 一种基于大数据分析的网页搜索历史记录智能管理系统 | |
Reid et al. | Best entry points for structured document retrieval—Part I: Characteristics | |
Nielsen | Thesaurus construction: Key issues and selected readings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231007 Address after: Room 201, Building 4, No. 328 Kangning Road, Jing'an District, Shanghai, 200000 Applicant after: Shanghai Office Workers Digital Technology Co.,Ltd. Address before: 430074 No. 308, Guanggu Avenue, East Lake New Technology Development Zone, Wuhan, Hubei Province Applicant before: Wuhan kaihan culture media Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |