CN112100530A - 网页分类方法、装置、电子设备及存储介质 - Google Patents

网页分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112100530A
CN112100530A CN202010775199.0A CN202010775199A CN112100530A CN 112100530 A CN112100530 A CN 112100530A CN 202010775199 A CN202010775199 A CN 202010775199A CN 112100530 A CN112100530 A CN 112100530A
Authority
CN
China
Prior art keywords
webpage
content image
page content
belongs
level category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010775199.0A
Other languages
English (en)
Other versions
CN112100530B (zh
Inventor
王群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010775199.0A priority Critical patent/CN112100530B/zh
Publication of CN112100530A publication Critical patent/CN112100530A/zh
Application granted granted Critical
Publication of CN112100530B publication Critical patent/CN112100530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了网页分类方法、装置、电子设备及存储介质,涉及移动互联网、人工智能及深度学习领域,其中的方法可包括:当用户访问任一网页时,确定出所述网页对应的页面内容图像获取方式;按照确定出的页面内容图像获取方式获取页面内容图像;根据获取到的页面内容图像,利用预先训练得到的分类模型,确定出网页所属的类别。应用本申请所述方案,可提高分类结果的准确性等。

Description

网页分类方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机应用技术,特别涉及移动互联网、人工智能及深度学习领域的网页分类方法、装置、电子设备及存储介质。
背景技术
随着移动互联网技术的发展,通过手机等移动设备在浏览器中访问/浏览网页已经是非常广泛流行的用户行为。
如果能够对网页进行合理的分类,势必会方便用户对网页进行查找等。但目前的处理方式中,多基于网页标题内容来进行网页分类,准确性较差。
发明内容
本申请提供了网页分类方法、装置、电子设备及存储介质。
一种网页分类方法,包括:
当用户访问任一网页时,确定出所述网页对应的页面内容图像获取方式;
按照所述页面内容图像获取方式获取页面内容图像;
根据所述页面内容图像,利用预先训练得到的分类模型,确定出所述网页所属的类别。
一种网页分类装置,包括:分类模块;
所述分类模块,用于当用户访问任一网页时,确定出所述网页对应的页面内容图像获取方式,按照所述页面内容图像获取方式获取页面内容图像,根据所述页面内容图像,利用预先训练得到的分类模型,确定出所述网页所属的类别。
一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如以上所述的方法。
上述申请中的一个实施例具有如下优点或有益效果:可按照网页对应的页面内容图像获取方式来获取页面内容图像,并可根据获取到的页面内容图像及分类模型来确定出网页所属的类别,相比于现有仅基于网页标题内容来进行网页分类的方式,提高了分类结果的准确性等。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请所述网页分类方法实施例的流程图;
图2为本申请所述历史浏览界面示意图;
图3为本申请所述历史网页浏览方法实施例的流程图;
图4为本申请所述网页分类装置40实施例的组成结构示意图;
图5为根据本申请实施例所述方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本申请所述网页分类方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,当用户访问任一网页时,确定出网页对应的页面内容图像获取方式。
在102中,按照确定出的页面内容图像获取方式获取页面内容图像。
在103中,根据获取到的页面内容图像,利用预先训练得到的分类模型,确定出网页所属的类别。
可以看出,上述方法实施例中,可按照网页对应的页面内容图像获取方式来获取页面内容图像,并可根据获取到的页面内容图像及分类模型来确定出网页所属的类别,相比于现有仅基于网页标题内容来进行网页分类的方式,提高了分类结果的准确性等。
用户访问任一网页可以是指用户在移动设备(如手机)上等通过使用百度App等应用访问任意网页,可以是主动推送的网页,也可以是搜索到的网页等。
网页所属的类别可包括第一级类别和第二级类别,每个第一级类别下可至少包括两个第二级类别,不同第一级类别下包括的第二级类别可以是相同的。第一级类别和第二级类别具体包括哪些类别均可根据实际需要而定。
如101中所述,当用户访问任一网页时,可确定出网页对应的页面内容图像获取方式。具体地,针对用户访问的网页,可首先确定出网页所属的第一级类别,之后,可将网页所属的第一级类别对应的页面内容图像获取方式作为网页对应的页面内容图像获取方式,其中,可预先建立有不同的第一级类别与页面内容图像获取方式之间的对应关系。相应地,103中确定出网页所属的类别可以是指确定出网页所属的第二级类别。
通过设置第一级类别和第二级类别,可实现对于网页的细粒度分类,从而更加方便用户进行网页的查找等。
比如,当加载网页完成时,可分析网页结构,根据网页的页面布局情况确定出网页所属的第一级类别,具体实现为现有技术。第一级类别可包括:图文、图集、视频、小视频、其它等。
如102中所述,可按照确定出的页面内容图像获取方式获取页面内容图像。具体地,若网页所属的第一级类别为视频或小视频,那么在视频或小视频的播放过程中,当每次符合第一预定条件时,则可获取当前的页面内容图像。获取到的当前的页面内容图像可以是指当前的页面截图等。若网页所属的第一级类别为图集,那么在图集的展示过程中,当每次符合第二预定条件时,则可获取当前的页面内容图像。若网页所属的第一级类别为图文或其它,则可直接获取页面内容图像,即仅获取一次页面内容图像即可。
如103中所述,根据获取到的页面内容图像,可利用预先训练得到的分类模型,确定出网页所属的类别。
其中,当网页所属的第一级类别为视频或小视频或图集时,可根据分类模型分别确定出获取到的各页面内容图像所属的第二级类别,并将出现次数最多的第二级类别作为网页所属的第二级类别。
比如,在视频或小视频的播放过程中,可每间隔预定时长,则获取一次当前的页面内容图像,并可确定出获取到的页面内容图像所属的第二级类别,进而可将出现次数最多的第二级类别作为网页所属的第二级类别。
举例说明:在播放视频a的过程中,截止到视频a播放完毕或用户主动结束视频a的播放,可每隔预定时长,则获取一次当前的页面内容图像,预定时长的具体取值可根据实际需要而定,假设共获取到了10个页面内容图像,所属的第二级类别分别为类别a、类别a、类别b、类别a、类别a、类别c、类别a、类别b、类别a、类别a,由于类别a的出现次数最多,那么则可将类别a作为视频a所在的网页所属的第二级类别。
再比如,在图集的展示过程中,可在当所展示的图片每次发生变化时,则获取当前的页面内容图像,或者,每间隔预定时长,则获取当前的页面内容图像,并可确定出获取到的页面内容图像所属的第二级类别,进而可将出现次数最多的第二级类别作为网页所属的第二级类别。
举例说明:在展示图集a的过程中,截止到图集a展示完毕或用户主动结束图集a的展示,当所展示的图片每次发生变化时,则可获取一次当前的页面内容图像,假设共获取到了10个页面内容图像,所属的第二级类别分别为类别a、类别a、类别b、类别a、类别a、类别c、类别a、类别b、类别a、类别a,由于类别a的出现次数最多,那么则可将类别a作为图集a所在的网页所属的第二级类别。
若网页所属的第一级类别为图文或其它,那么可获取页面内容图像,并根据分类模型确定出获取到的页面内容图像所属的第二级类别,作为网页所属的第二级类别。
可以看出,上述处理方式中,会根据网页的页面布局情况及页面内容图像等对网页进行第一级类别和第二级类别的分类,即会深入网页真实内容进行分析和分类,从而提升了分类结果的准确性,而且,针对网页所属的第一级类别的不同,可采用不同的第二级类别确定方式,从而使得处理更具针对性,进而进一步提升了分类结果的准确性。
针对任一获取到的页面内容图像,在确定其所属的第二级类别时,均可采用以下方式:将页面内容图像转换为标准输入数组表示,将得到的标准输入数组表示输入分类模型,得到页面内容图像所属的第二级类别。
如可将页面内容图像按照图像居中等比压缩的方式调整至预设的宽度和高度,其中,若存在未填满区域,则用0进行补全,之后可根据调整后的页面内容图像中的各像素点的取值生成长度为预设的宽度*预设的高度的标准输入数组表示。
预设的宽度和高度的具体取值均可根据实际需要而定。等比压缩即指保持页面内容图像的宽度和高度的比例(宽高比)不变。由于预设的宽度和高度的比例与页面内容图像的宽度和高度的比例可能不同,那么按照图像居中等比压缩的方式将页面内容图像调整至预设的宽度和高度后,可能会存在未填满区域,可用0进行补全,每个像素可用RGB(0-255,0-255,0-255)表示,相应地,整个调整后的图像可用一个固定长度的标准输入数组表示,如[[222,222,111],[111,222,111],……,[123,121,111]],长度为预设的宽度*预设的高度。
在将页面内容图像转换为标准输入数组表示后,可将标准输入数组表示输入预先训练得到的分类模型,分类模型可通过逐层的神经网络计算,得到分别针对于各不同第二级类别的打分结果,即分别属于各不同第二级类别的概率评估结果,取值可在0-1之间,进而可将打分最高的第二级类别作为页面内容图像所属的第二级类别。
为此,可预先构建多个训练样本,如可包括不同的页面内容图像及分别对应的标签,标签可以是指所属的第二级类别等,进而可通过深度学习或机器学习的方式,利用训练样本训练得到分类模型。
借助于分类模型,可方便准确地确定出页面内容图像所属的第二级类别。
在实际应用中,用户可能在不同的时间访问了多个网页,如果访问过的某一历史网页不知道名称,仅凭“印象”想象来从浏览/访问记录中查找出会是一件十分费时费力甚至不可能完成的事情。
而采用本申请所述方案,当用户需要进行历史网页浏览时,可将不同历史网页按照所属的类别进行分类展示。
也就是说,当用户访问网页时,可确定出网页所属的类别,即可进行网页浏览自动聚类,这样,当用户有历史网页浏览需求时,可将不同历史网页按照所属的类别进行分类展示,从而使得用户可以更为快速方便地查找到自己所需的历史网页,进而提升了用户的信息获取效率等。
在确定出用户访问的网页所属的第二级类别后,还可将网页的预定信息存储到历史记录列表中,预定信息可包括:网页的链接地址(url)、网页的名称(title)、网页的访问时间(lasttime)、网页所属的第一级类别(page)以及网页所属的第二级类别(class)等。相应地,可根据历史记录列表,将不同历史网页按照所属的类别进行分类展示。
另外,当用户访问任一网页时,可确定历史记录列表中是否存储有网页的链接地址,若是,则可将所存储的网页的访问时间更新为当前时间,若否,则可确定出网页对应的页面内容图像获取方式等。即不会对相同的网页进行重复存储,从而节省了存储资源等。
图2为本申请所述历史浏览界面示意图,如图2中左侧图所示,当用户点击“历史”时,可为用户展示相应的历史浏览界面,其中可展示有各不同类别名称,包括各第一级类别名称及各第二级类别名称等,如图2中右侧图所示,假设用户分别点击了第一类级别中的“图集”和第二级类别中的“教育”,那么可进一步将对应的历史网页信息展示在历史浏览界面上。
基于上述介绍,图3为本申请所述历史网页浏览方法实施例的流程图。如图3所示,包括以下具体实现方式。
在301-302中,当确定用户访问任一网页时,确定历史记录列表中是否存储有网页的链接地址,若是,则执行303,若否,则执行304。
在303中,将所存储的网页的访问时间更新为当前时间,之后执行309。
在304中,根据网页的页面布局情况确定出网页所属的第一级类别,若所属的第一级类别为视频或小视频,则执行305,若所属的第一级类别为图集,则执行306,若所属的第一级类别为图文或其它,则执行307。
第一级类别可包括:图文、图集、视频、小视频、其它等,根据所属的第一级类别的不同,后续可采用不同的处理方式。
在305中,在视频或小视频的播放过程中,每间隔预定时长,则获取当前的页面内容图像,根据获取到各页面内容图像确定出网页所属的第二级类别,之后执行308。
如可分别确定出各页面内容图像所属的第二级类别,将出现次数最多的第二级类别作为网页所属的第二级类别。
其中,针对任一页面内容图像,可将页面内容图像转换为标准输入数组表示,并将标准输入数组表示输入预先训练得到的分类模型,得到页面内容图像所属的第二级类别。
在306中,在图集的展示过程中,当所展示的图片每次发生变化时,则获取当前的页面内容图像,根据获取到的各页面内容图像确定出所述网页所属的第二级类别,之后执行308。
如可分别确定出各页面内容图像所属的第二级类别,将出现次数最多的第二级类别作为网页所属的第二级类别。
其中,针对任一页面内容图像,可将页面内容图像转换为标准输入数组表示,并将标准输入数组表示输入预先训练得到的分类模型,得到页面内容图像所属的第二级类别。
在307中,获取页面内容图像,根据获取到的页面内容图像确定出网页所属的第二级类别,之后执行308。
如可直接确定出获取到的页面内容图像所属的第二级类别,作为网页所属的第二级类别。
其中,可将页面内容图像转换为标准输入数组表示,并将标准输入数组表示输入预先训练得到的分类模型,得到页面内容图像所属的第二级类别。
在308中,将网页的预定信息存储到历史记录列表中,预定信息包括:网页的链接地址、网页的名称、网页的访问时间、网页所属的第一级类别以及网页所属的第二级类别。
在309中,当用户需要进行历史网页浏览时,将不同历史网页按照所属的类别进行分类展示。
需要说明的是,对于前述的各方法实施例,为了简单描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。另外,某个实施例中没有详述的部分,可以参见其它实施例中的相关说明。
另外,上述各方法实施例均可在端侧实现,无需与服务端进行交互,从而节省了资源消耗等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。
图4为本申请所述网页分类装置40实施例的组成结构示意图。如图4所示,包括:分类模块401。
分类模块401,用于当用户访问任一网页时,确定出网页对应的页面内容图像获取方式,按照确定出的页面内容图像获取方式获取页面内容图像,根据获取到的页面内容图像,利用预先训练得到的分类模型,确定出网页所属的类别。
其中,分类模块401可确定出网页所属的第一级类别,将网页所属的第一级类别对应的页面内容图像获取方式作为网页对应的页面内容图像获取方式;可预先建立有不同的第一级类别与页面内容图像获取方式之间的对应关系;并可确定出网页所属的第二级类别,每个第一级类别下至少包括两个第二级类别。
具体地,分类模块401可根据网页的页面布局情况确定出网页所属的第一级类别,第一级类别可包括:图文、图集、视频、小视频、其它。
当网页所属的第一级类别为视频或小视频时,分类模块401可在视频或小视频的播放过程中,当每次符合第一预定条件时,则获取当前的页面内容图像。如可每间隔预定时长,则获取当前的页面内容图像。
当网页所属的第一级类别为图集时,分类模块401可在图集的展示过程中,当每次符合第二预定条件时,则获取当前的页面内容图像。如可在所展示的图片每次发生变化时,则获取当前的页面内容图像,或者,每间隔预定时长,则获取当前的页面内容图像。
当网页所属的第一级类别为图文或其它时,分类模块401可直接获取页面内容图像。
当网页所属的第一级类别为视频或小视频或图集时,分类模块401可根据分类模型分别确定出获取到的各页面内容图像所属的第二级类别,将出现次数最多的第二级类别作为网页所属的第二级类别。
当网页所属的第一级类别为图文或其它时,分类模块401可根据分类模型确定出获取到的页面内容图像所属的第二级类别,作为网页所属的第二级类别。
分类模块401针对任一页面内容图像,可首先将页面内容图像转换为标准输入数组表示,然后将获取到的标准输入数组表示输入分类模型,得到页面内容图像所属的第二级类别。
其中,分类模块401可将页面内容图像按照图像居中等比压缩的方式调整至预设的宽度和高度,若存在未填满区域,则用0进行补全,根据调整后的页面内容图像中的各像素点的取值生成长度为预设的宽度*预设的高度的标准输入数组表示。
如图4所示,所述装置中还可进一步包括:展示模块402,用于当用户需要进行历史网页浏览时,将不同历史网页按照所属的类别进行分类展示。
分类模块401还可将网页的预定信息存储到历史记录列表中,预定信息包括:网页的链接地址、网页的名称、网页的访问时间、网页所属的第一级类别以及网页所属的第二级类别。相应地,展示模块402可根据历史记录列表,将不同历史网页按照所属的类别进行分类展示。
当用户访问任一网页时,分类模块401还可在确定历史记录列表中存储有网页的链接地址时,将所存储的网页的访问时间更新为当前时间,否则,确定出网页对应的页面内容图像获取方式等。
图4所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
总之,采用本申请装置实施例所述方案,可按照网页对应的页面内容图像获取方式来获取网页的页面内容图像,并可根据获取到的页面内容图像及分类模型来确定出网页所属的类别,从而相比于现有仅基于网页标题内容来进行网页分类的方式,提高了分类结果的准确性等。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例所述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器Y01、存储器Y02,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器Y01为例。
存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的方法。
存储器Y02作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的方法对应的程序指令/模块。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器Y02可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器Y02可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器Y02可选包括相对于处理器Y01远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、区块链网络、局域网、移动通信网及其组合。
电子设备还可以包括:输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置Y03可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器、发光二极管显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,阴极射线管或者液晶显示器监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网、广域网、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (24)

1.一种网页分类方法,包括:
当用户访问任一网页时,确定出所述网页对应的页面内容图像获取方式;
按照所述页面内容图像获取方式获取页面内容图像;
根据所述页面内容图像,利用预先训练得到的分类模型,确定出所述网页所属的类别。
2.根据权利要求1所述的方法,其中,
所述确定出所述网页对应的页面内容图像获取方式包括:确定出所述网页所属的第一级类别,将所述网页所属的第一级类别对应的页面内容图像获取方式作为所述网页对应的页面内容图像获取方式;其中,预先建立有不同的第一级类别与页面内容图像获取方式之间的对应关系;
所述确定出所述网页所属的类别包括:确定出所述网页所属的第二级类别,每个第一级类别下至少包括两个第二级类别。
3.根据权利要求2所述的方法,其中,所述确定出所述网页所属的第一级类别包括:
根据所述网页的页面布局情况确定出所述网页所属的第一级类别,所述第一级类别包括:图文、图集、视频、小视频、其它。
4.根据权利要求3所述的方法,其中,所述按照所述页面内容图像获取方式获取页面内容图像包括:
若所述网页所属的第一级类别为所述视频或所述小视频,则在所述视频或所述小视频的播放过程中,当每次符合第一预定条件时,则获取当前的页面内容图像;
若所述网页所属的第一级类别为所述图集,则在所述图集的展示过程中,当每次符合第二预定条件时,则获取当前的页面内容图像;
若所述网页所属的第一级类别为所述图文或所述其它,则直接获取页面内容图像。
5.根据权利要求4所述的方法,其中,所述根据所述页面内容图像,利用预先训练得到的分类模型,确定出所述网页所属的类别包括:
当所述网页所属的第一级类别为所述视频或所述小视频或所述图集时,根据所述分类模型分别确定出获取到的各页面内容图像所属的第二级类别,将出现次数最多的第二级类别作为所述网页所属的第二级类别;
当所述网页所属的第一级类别为所述图文或所述其它时,根据所述分类模型确定出获取到的页面内容图像所属的第二级类别,作为所述网页所属的第二级类别。
6.根据权利要求5所述的方法,其中,针对任一页面内容图像,根据所述分类模型确定出所述页面内容图像所属的第二级类别包括:
将所述页面内容图像转换为标准输入数组表示;
将所述标准输入数组表示输入所述分类模型,得到所述页面内容图像所属的第二级类别。
7.根据权利要求6所述的方法,其中,所述将所述页面内容图像转换为标准输入数组表示包括:
将所述页面内容图像按照图像居中等比压缩的方式调整至预设的宽度和高度,其中,若存在未填满区域,则用0进行补全;
根据调整后的页面内容图像中的各像素点的取值生成长度为所述预设的宽度*所述预设的高度的标准输入数组表示。
8.根据权利要求4所述的方法,其中,
所述当每次符合第一预定条件,则获取当前的页面内容图像包括:每间隔预定时长,则获取当前的页面内容图像;
所述当每次符合第二预定条件时,则获取当前的页面内容图像包括:当所展示的图片每次发生变化时,则获取当前的页面内容图像,或者,每间隔预定时长,则获取当前的页面内容图像。
9.根据权利要求2所述的方法,还包括:当用户需要进行历史网页浏览时,将不同历史网页按照所属的类别进行分类展示。
10.根据权利要求9所述的方法,还包括:将所述网页的预定信息存储到历史记录列表中,所述预定信息包括:所述网页的链接地址、所述网页的名称、所述网页的访问时间、所述网页所属的第一级类别以及所述网页所属的第二级类别;
所述将不同历史网页按照所属的类别进行分类展示包括:根据所述历史记录列表,将不同历史网页按照所属的类别进行分类展示。
11.根据权利要求10所述的方法,还包括:当用户访问任一网页时,若确定所述历史记录列表中存储有所述网页的链接地址,则将所存储的所述网页的访问时间更新为当前时间,否则,确定出所述网页对应的页面内容图像获取方式。
12.一种网页分类装置,包括:分类模块;
所述分类模块,用于当用户访问任一网页时,确定出所述网页对应的页面内容图像获取方式,按照所述页面内容图像获取方式获取页面内容图像,根据所述页面内容图像,利用预先训练得到的分类模型,确定出所述网页所属的类别。
13.根据权利要求12所述的装置,其中,
所述分类模块进一步用于,确定出所述网页所属的第一级类别,将所述网页所属的第一级类别对应的页面内容图像获取方式作为所述网页对应的页面内容图像获取方式;预先建立有不同的第一级类别与页面内容图像获取方式之间的对应关系;确定出所述网页所属的第二级类别,每个第一级类别下至少包括两个第二级类别。
14.根据权利要求13所述的装置,其中,所述分类模块根据所述网页的页面布局情况确定出所述网页所属的第一级类别,所述第一级类别包括:图文、图集、视频、小视频、其它。
15.根据权利要求14所述的装置,其中,
当所述网页所属的第一级类别为所述视频或所述小视频时,所述分类模块在所述视频或所述小视频的播放过程中,当每次符合第一预定条件时,则获取当前的页面内容图像;
当所述网页所属的第一级类别为所述图集时,所述分类模块在所述图集的展示过程中,当每次符合第二预定条件时,则获取当前的页面内容图像;
当所述网页所属的第一级类别为所述图文或所述其它时,所述分类模块直接获取页面内容图像。
16.根据权利要求15所述的装置,其中,
当所述网页所属的第一级类别为所述视频或所述小视频或所述图集时,所述分类模块根据所述分类模型分别确定出获取到的各页面内容图像所属的第二级类别,将出现次数最多的第二级类别作为所述网页所属的第二级类别;
当所述网页所属的第一级类别为所述图文或所述其它时,所述分类模块根据所述分类模型确定出获取到的页面内容图像所属的第二级类别,作为所述网页所属的第二级类别。
17.根据权利要求16所述的装置,其中,所述分类模块针对任一页面内容图像,分别将所述页面内容图像转换为标准输入数组表示,将所述标准输入数组表示输入所述分类模型,得到所述页面内容图像所属的第二级类别。
18.根据权利要求17所述的装置,其中,所述分类模块将所述页面内容图像按照图像居中等比压缩的方式调整至预设的宽度和高度,其中,若存在未填满区域,则用0进行补全,根据调整后的页面内容图像中的各像素点的取值生成长度为所述预设的宽度*所述预设的高度的标准输入数组表示。
19.根据权利要求15所述的装置,其中,
当所述网页所属的第一级类别为所述视频或所述小视频时,所述分类模块每间隔预定时长,则获取当前的页面内容图像;
当所述网页所属的第一级类别为所述图集时,所述分类模块当所展示的图片每次发生变化时,则获取当前的页面内容图像,或者,每间隔预定时长,则获取当前的页面内容图像。
20.根据权利要求13所述的装置,还包括:
展示模块,用于当用户需要进行历史网页浏览时,将不同历史网页按照所属的类别进行分类展示。
21.根据权利要求20所述的装置,其中,
所述分类模块进一步用于,将所述网页的预定信息存储到历史记录列表中,所述预定信息包括:所述网页的链接地址、所述网页的名称、所述网页的访问时间、所述网页所属的第一级类别以及所述网页所属的第二级类别;
所述展示模块根据所述历史记录列表,将不同历史网页按照所属的类别进行分类展示。
22.根据权利要求21所述的装置,其中,所述分类模块进一步用于,当用户访问任一网页时,若确定所述历史记录列表中存储有所述网页的链接地址,则将所存储的所述网页的访问时间更新为当前时间,否则,确定出所述网页对应的页面内容图像获取方式。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。
CN202010775199.0A 2020-08-03 2020-08-03 网页分类方法、装置、电子设备及存储介质 Active CN112100530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010775199.0A CN112100530B (zh) 2020-08-03 2020-08-03 网页分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010775199.0A CN112100530B (zh) 2020-08-03 2020-08-03 网页分类方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112100530A true CN112100530A (zh) 2020-12-18
CN112100530B CN112100530B (zh) 2023-12-22

Family

ID=73749605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010775199.0A Active CN112100530B (zh) 2020-08-03 2020-08-03 网页分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112100530B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297525A (zh) * 2021-06-17 2021-08-24 恒安嘉新(北京)科技股份公司 网页分类方法、装置、电子设备、及存储介质
CN113360734A (zh) * 2021-07-07 2021-09-07 脸萌有限公司 网页分类方法、装置、存储介质及电子设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080172362A1 (en) * 2007-01-17 2008-07-17 Google Inc. Providing Relevance-Ordered Categories of Information
CN102819597A (zh) * 2012-08-13 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法及设备
US20130067590A1 (en) * 2011-09-08 2013-03-14 Microsoft Corporation Combining client and server classifiers to achieve better accuracy and performance results in web page classification
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
US8595613B1 (en) * 2012-07-26 2013-11-26 Viasat Inc. Page element identifier pre-classification for user interface behavior in a communications system
CN103544210A (zh) * 2013-09-02 2014-01-29 烟台中科网络技术研究所 一种识别网页类型的系统和方法
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法
CN108256104A (zh) * 2018-02-05 2018-07-06 恒安嘉新(北京)科技股份公司 基于多维特征的互联网网站综合分类方法
US10176500B1 (en) * 2013-05-29 2019-01-08 A9.Com, Inc. Content classification based on data recognition
US20190334947A1 (en) * 2018-04-26 2019-10-31 Wipro Limited Method and device for classifying uniform resource locators based on content in corresponding websites
CN110705290A (zh) * 2019-09-29 2020-01-17 新华三信息安全技术有限公司 一种网页分类方法及装置
CN110781925A (zh) * 2019-09-29 2020-02-11 支付宝(杭州)信息技术有限公司 软件页面的分类方法、装置、电子设备及存储介质
CN111125603A (zh) * 2019-12-27 2020-05-08 百度时代网络技术(北京)有限公司 网页场景识别方法、装置、电子设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080172362A1 (en) * 2007-01-17 2008-07-17 Google Inc. Providing Relevance-Ordered Categories of Information
US20130067590A1 (en) * 2011-09-08 2013-03-14 Microsoft Corporation Combining client and server classifiers to achieve better accuracy and performance results in web page classification
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
US8595613B1 (en) * 2012-07-26 2013-11-26 Viasat Inc. Page element identifier pre-classification for user interface behavior in a communications system
CN102819597A (zh) * 2012-08-13 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法及设备
US10176500B1 (en) * 2013-05-29 2019-01-08 A9.Com, Inc. Content classification based on data recognition
CN103544210A (zh) * 2013-09-02 2014-01-29 烟台中科网络技术研究所 一种识别网页类型的系统和方法
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法
CN108256104A (zh) * 2018-02-05 2018-07-06 恒安嘉新(北京)科技股份公司 基于多维特征的互联网网站综合分类方法
US20190334947A1 (en) * 2018-04-26 2019-10-31 Wipro Limited Method and device for classifying uniform resource locators based on content in corresponding websites
CN110705290A (zh) * 2019-09-29 2020-01-17 新华三信息安全技术有限公司 一种网页分类方法及装置
CN110781925A (zh) * 2019-09-29 2020-02-11 支付宝(杭州)信息技术有限公司 软件页面的分类方法、装置、电子设备及存储介质
CN111125603A (zh) * 2019-12-27 2020-05-08 百度时代网络技术(北京)有限公司 网页场景识别方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297525A (zh) * 2021-06-17 2021-08-24 恒安嘉新(北京)科技股份公司 网页分类方法、装置、电子设备、及存储介质
CN113297525B (zh) * 2021-06-17 2023-12-12 恒安嘉新(北京)科技股份公司 网页分类方法、装置、电子设备、及存储介质
CN113360734A (zh) * 2021-07-07 2021-09-07 脸萌有限公司 网页分类方法、装置、存储介质及电子设备
CN113360734B (zh) * 2021-07-07 2023-05-02 脸萌有限公司 网页分类方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112100530B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN111782977B (zh) 兴趣点处理方法、装置、设备及计算机可读存储介质
CN111143686B (zh) 资源推荐方法及装置
CN111125435B (zh) 视频标签的确定方法、装置和计算机设备
US8489985B2 (en) Automatically adjusting a webpage
CN112650907A (zh) 搜索词的推荐方法、目标模型的训练方法、装置及设备
CN111506803B (zh) 内容推荐方法、装置、电子设备及存储介质
JP2019194884A (ja) 認知ロボット工学アナライザ
US11874884B2 (en) Identifying web elements based on user browsing activity and machine learning
EP3852007A2 (en) Method, apparatus, electronic device, readable storage medium and program for classifying video
CN112487242A (zh) 用于识别视频的方法、装置、电子设备及可读存储介质
CN112100530B (zh) 网页分类方法、装置、电子设备及存储介质
CN111090991A (zh) 场景纠错方法、装置、电子设备和存储介质
CN114154013A (zh) 视频推荐方法、装置、设备及存储介质
CN111309200B (zh) 一种扩展阅读内容的确定方法、装置、设备及存储介质
CN111582477A (zh) 神经网络模型的训练方法和装置
CN110955833A (zh) 一种搜索方法、装置、服务器、终端设备和介质
CN114065765A (zh) 结合ai和rpa的武器装备文本处理方法、装置及电子设备
CN112015845B (zh) 地图检索测试的方法、装置、设备以及存储介质
CN111666417B (zh) 生成同义词的方法、装置、电子设备以及可读存储介质
CN113542725A (zh) 视频审核方法、视频审核装置和电子设备
CN111026916A (zh) 文本描述的转换方法、装置、电子设备及存储介质
CN111510376B (zh) 图像处理方法、装置及电子设备
US20230177103A1 (en) Systems and methods for rendering interactive web pages
CN112783543B (zh) 小程序分发物料的生成方法、装置、设备及介质
CN111080369B (zh) 广告信息的展示方法、装置、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant