CN111797299A - 模型训练方法、网页分类方法、装置、存储介质及设备 - Google Patents
模型训练方法、网页分类方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN111797299A CN111797299A CN201910282469.1A CN201910282469A CN111797299A CN 111797299 A CN111797299 A CN 111797299A CN 201910282469 A CN201910282469 A CN 201910282469A CN 111797299 A CN111797299 A CN 111797299A
- Authority
- CN
- China
- Prior art keywords
- webpage
- web page
- types
- graph
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012549 training Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000013145 classification model Methods 0.000 claims abstract description 177
- 238000013528 artificial neural network Methods 0.000 claims description 58
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000007635 classification algorithm Methods 0.000 claims description 26
- 230000000306 recurrent effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000008447 perception Effects 0.000 description 6
- 230000001133 acceleration Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种模型训练方法、网页分类方法、装置、存储介质及设备,在申请提供的模型训练方法中,获取多个网页的网页地址的图特征,得到多个图特征;获取多个网页的网页内容的语义特征,得到多个语义特征;获取多个网页的网页类型,得到多个网页类型,网页类型包括深网或浅网;对多个图特征、多个语义特征以及多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型。而在申请提供的网页分类方法中,在电子设备当前执行网页访问操作时,将电子设备当前访问的网页作为待分类网页,利用本申请提供的模型训练方法所训练得到网页分类模型,识别待分类网页的网页类型,能够根据用户习惯进行个性化的权限管理。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种模型训练方法、网页分类方法、装置、存储介质及设备。
背景技术
互联网包含着丰富多样的信息,按其所蕴含信息的深度,互联网中的网页可以划分为浅网(或称表层网)和深网(或称暗网)。所谓浅网,是指可以通过统一资源定位符直接访问的网页,所谓深网,是指无法被搜索引擎直接检索到的网页。
发明内容
第一方面,本申请实施例提供一种模型训练方法,应用于电子设备,包括:
获取多个网页的网页地址的图特征,得到多个图特征;
获取所述多个网页的网页内容的语义特征,得到多个语义特征;
获取所述多个网页的网页类型,得到多个网页类型,所述网页类型包括深网或浅网;
对所述多个图特征、所述多个语义特征以及所述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型。
第二方面,本申请实施例提供一种网页分类方法,应用于电子设备,包括:
侦测电子设备的网页访问操作;
若电子设备当前执行网页访问操作,则将电子设备当前访问的网页作为待分类网页;
获取预先训练的网页分类模型;
根据所述网页分类模型识别所述待分类网页的网页类型;
其中,所述网页分类模型根据多个网页的网页地址的图特征、所述多个网页的网页内容的语义特征以及所述多个网页的网页类型训练得到。
第三方面,本申请实施例提供一种模型训练装置,应用于电子设备,包括:
第一特征获取模块,用于获取多个网页的网页地址的图特征,得到多个图特征;
第二特征获取模块,用于获取所述多个网页的网页内容的语义特征,得到多个语义特征;
网页类型获取模块,用于获取所述多个网页的网页类型,得到多个网页类型,所述网页类型包括深网或浅网;
分类模型训练模块,用于对所述多个图特征、所述多个语义特征以及所述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型。
第四方面,本申请实施例提供一种网页分类装置,应用于电子设备,包括:
侦测模块,用于侦测电子设备的网页访问操作;
确定模块,用于在电子设备当前执行网页访问操作时,将电子设备当前访问的网页作为待分类网页;
获取模块,用于获取预先训练的网页分类模型;
识别模块,用于根据所述网页分类模型识别所述待分类网页的网页类型;
其中,所述网页分类模型根据多个网页的网页地址的图特征、所述多个网页的网页内容的语义特征以及所述多个网页的网页类型训练得到。
第五方面,本申请实施例提供一种存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机上执行时,使得所述计算机执行本申请实施例提供的模型训练方法中的步骤,或者使得所述计算机执行本申请实施例提供的网页分类方法中的步骤。
第六方面,本申请实施例提供一种电子设备,包括存储器,处理器,所述处理器通过调用所述存储器中存储的计算机程序,用于执行本申请实施例提供的模型训练方法中的步骤,或者执行本申请实施例提供的网页分类方法中的步骤。
在申请提供的模型训练方法中,获取多个网页的网页地址的图特征,得到多个图特征;获取多个网页的网页内容的语义特征,得到多个语义特征;获取多个网页的网页类型,得到多个网页类型,网页类型包括深网或浅网;对多个图特征、多个语义特征以及多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型。而在申请提供的网页分类方法中,在电子设备当前执行网页访问操作时,将电子设备当前访问的网页作为待分类网页,利用本申请提供的模型训练方法所训练得到网页分类模型,识别待分类网页的网页类型,能够根据用户习惯进行个性化的权限管理。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的全景感知架构的结构示意图。
图2是本申请实施例提供的模型训练方法的一流程示意图。
图3是本申请实施例中构建的网页地址网络的示意图。
图4是本申请实施例提供的模型训练方法的另一流程示意图。
图5是本申请实施例提供的模型训练方法的应用场景示意图。
图6是本申请实施例提供的网页分类方法的一流程示意图。
图7是本申请实施例提供的网页分类方法的另一流程示意图。
图8是本申请实施例提供的模型训练装置的结构示意图。
图9是本申请实施例提供的网页分类装置的结构示意图。
图10是本申请实施例提供的电子设备的一结构示意图。
图11是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
随着传感器的小型化、智能化,如手机、平板电脑等电子设备集成了越来越多的传感器,比如光线传感器、距离传感器、位置传感器、加速度传感器以及重力传感器,等等。电子设备能够通过其配置的传感器以更小的功耗采集到更多的数据。同时,电子设备在运行过程中还会采集到自身状态相关的数据以及用户状态相关的数据,等等。笼统的说,电子设备能够获取到外部环境相关的数据(比如温度、光照、地点、声音、天气等)、用户状态相关的数据(比如姿势、速度、使用习惯、个人基本信息等)以及电子设备状态相关的数据(比如耗电量、资源使用状况、网络状况等)。本申请实施例中,将电子设备能够获取到的这些数据记为全景数据。
本申请实施例中,为了能够对电子设备获取到的这些数据进行处理,提出了一种全景感知架构。请参照图1,图1为本申请实施例提供的全景感知架构的结构示意图,应用于电子设备,其包括由下至上的信息感知层、数据处理层、特征抽取层、情景建模层以及智能服务层。
作为全景感知架构的最底层,信息感知层用于获取能够描述用户的各类型情景的原始数据,即全景数据。其中,信息感知层由多个用于数据采集的传感器组成,包括但不限于图示的用于检测电子设备与外部物体之间的距离的距离传感器、用于检测电子设备所处环境的磁场信息的磁场传感器、用于检测电子设备所处环境的光线信息的光线传感器、用于检测电子设备的加速度数据的加速度传感器、用于采集用户的指纹信息的指纹传感器、用于感应磁场信息的霍尔传感器、用于检测电子设备当前所处的地理位置的位置传感器、用于检测电子设备在各个方向上的角速度的陀螺仪、用于检测电子设备的运动数据惯性传感器、用于感应电子设备的姿态信息的姿态感应器、用于检测电子设备所处环境的气压的气压计以及用于检测用户的心率信息的心率传感器等。
作为全景感知架构的次底层,数据处理层用于对信息感知层获取到的原始数据进行处理,消除原始数据存在的噪声、不一致等问题。其中,数据处理层可以对信息感知层获取到的数据进行数据清理、数据集成、数据变换、数据归约等处理。
作为全景感知架构的中间层,特征抽取层用于对数据处理层处理后的数据进行特征抽取,以提取所述数据中包括的特征。其中,特征抽取层可以通过过滤法、包装法、集成法等方法来提取特征或者对提取到的特征进行处理。
过滤法是指对提取到的特征进行过滤,以删除冗余的特征数据。包装法用于对提取到的特征进行筛选。集成法是指将多种特征提取方法集成到一起,以构建一种更加高效、更加准确的特征提取方法,用于提取特征。
作为全景感知架构的次高层,情景建模层用于根据特征抽取层提取到的特征来构建模型,所得到的模型可以用于表示电子设备的状态或者用户状态或者环境状态等。例如,情景建模层可以根据特征抽取层提取到的特征来构建关键值模型、模式标识模型、图模型、实体联系模型、面向对象模型等。
作为全景感知架构的最高层,智能服务层用于根据情景建模层所构建的模型提供智能化服务。比如,智能服务层可以为用户提供基础应用服务,可以为电子设备进行系统智能优化服务,还可以为用户提供个性化智能服务等。
此外,全景感知架构中还包括算法库,算法库中包括但不限于图示的马尔科夫算法、隐含狄里克雷分布算法、贝叶斯分类算法、支持向量机、K均值聚类算法、K近邻算法、条件随机场、残差网络、长短期记忆网络、卷积神经网络以及循环神经网络等算法。
互联网包含着丰富多样的信息,按期所蕴含信息的深度,互联网中存在的网页可以划分为深网(或称暗网)和浅网(或称表层网)。所谓浅网,是指可以通过统一资源定位符直接访问的网页,所谓深网,是指无法被搜索引擎直接检索到的网页。其中,深网最大的特点就是实现例匿名的数据传输来进行隐私保护,且其蕴含的信息量远远高于浅网,其中的信息更丰富更有价值。但是,深网是以独立自主的形式分布与整个互联网中,而且是动态的、不断变化的。为了能够更好的理解深网,方便对深网的查询、检索,对网页进行分类也就变得十分必要。
为了能够实现对网页的分类(或者说,识别网页为深网、或是浅网),本申请实施例提供一种模型训练方法、网页分类方法、装置、存储介质及电子设备,其中,模型训练方法的执行主体可以是本申请实施例提供的模型训练装置,或者集成了该模型训练装置的电子设备,网页分类方法的执行主体可以是本申请实施例提供的网页分类装置,或者集成了该网页分类装置的电子设备,其中模型训练装置/网页分类装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。
基于本申请实施例所提供的模型训练方法、数据回收方法,信息感知层除了采集传感器数据提供给数据处理层之外,还获取电子设备上浏览的网页的图特征和语义特征提供给数据处理层;数据处理层根据来自于信息感知层的图特征以及语义特征,利用本申请实施例提供的模型训练方法所训练得到的网页分类模型对电子设备上浏览的网页类型进行分类,得到其对应的网页类型提供给特征抽取层;特征抽取层对来自于数据处理层的网页类型以及传感器数据等进行特征抽取,得到能够表征前述网页类型以及传感器数据的特征,将抽取到的特征提供给情景建模层;情景建模层基于来自于特征抽取层的特征进行建模,利用建模得到的模型来表征电子设备的状态或者用户状态或者环境状态等;最后,智能服务层根据情景建模层所构建的模型提供对应的智能化服务,比如基础应用服务、系统优化服务、个性化服务等。
请参照图2,图2是本申请实施例提供的模型训练方法的一流程示意图。该模型训练方法可以应用于电子设备,该模型训练方法的流程可以包括:
在101中,获取多个网页的网页地址的图特征,得到多个图特征。
本申请实施例中,电子设备首先获取多个网页的网页地址的图特征,对于其中任意一个网页将得到一个图特征,由此可以得到分别对应前述多个网页的多个图特征。比如,电子设备可以将机主历史浏览的100个不同网页作为获取图特征的对象,这样,电子设备将获取到这100个不同网页的图特征,也即是100个图特征。
其中,电子设备可以基于预设的图特征编码器神经网络来获取前述多个网页的网页地址的图特征。
在102中,获取前述多个网页的网页内容的语义特征,得到多个语义特征。
本申请实施例中,电子设备除了获取前述多个网页的网页地址的图特征之外,电子设备还会获取前述多个网页的网页内容的语义特征,这样对于其中任意一个网页将得到一个图特征,由此可以得到分别对应前述多个网页的多个语义特征。比如,假设电子设备将机主历史浏览的100个不同网页作为获取图特征的对象,这样,电子设备除了获取得到这100个不同网页的图特征之外,还会获取到这100个不同网页的语义特征。
其中,电子设备可以基于预设的语义特征编码器神经网络来获取前述多个网页的网页地址的图特征。
在103中,获取前述多个网页的网页类型,得到多个网页类型,网页类型包括深网或浅网。
对于前述多个网页中的任一网页,电子设备还获取其网页类型,由此得到对应前述多个网页的多个网页类型。其中,网页类型包括深网或浅网,换言之,对于任一网页而言,其不为浅网,即为深网。
作为一种可选的实施方式,在获取前述多个网页的网页类型时,电子设备可以接收对前述多个网页中各网页人工标定的网页类型。
其中,对于前述多个网页,电子设备在获取其网页类型时,可由人工分别标定前述多个网页中各网页的网页类型,比如,若存在100个网页,则由人工分别标定这100网页的网页类型。
作为另一种可选的实施方式,在获取前述多个网页的网页类型时,电子设备可以首先从前述多个网页中筛选出可能为深网的候选网页,然后接收对候选网页人工标定的网页类型,而对于前述多个网页中除候选网页之外的其它网页,直接将其它网页的网页类型记为浅网。
应当说明的是,深网是基于动态网页技术建立的网页,其网页地址为动态地址,虽然网页地址为动态地址的网页不一定为深网,但是深网的网页地址必然为动态地址。这样,电子设备在筛选候选网页时,将前述多个网页中网页地址为动态地址的网页筛选为候选网页。其中,动态地址中通常存在标识符“?”,电子设备可以通过判断一网页地址中是否存在“?”,来判定该网页地址是否为动态地址。
应当说明的是,101、102以及103的执行顺序不受序号大小的影响,可以是执行完成101后执行102,并在执行完成102后执行103,也可以是执行完成103后执行102,并在执行完成102后执行101,还可以是同时执行101、102以及103。
在104中,对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型。
本申请实施例中,电子设备在获取到前述多个网页所对应的多个图特征、多个语义特征以及多个网页类型之后,采用预先设定的模型训练算法对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型。
示例性的,电子设备在训练网页分类模型时,可以利用分类学习算法来进行模型训练,得到一个分类器,将该分类器作为网页分类模型。比如,利用分类学习算法训练得到一个二分类器,该二分类器的输出包括0和1两类,其中1表示待分类网页为深网,而0表示待分类网页为浅网。
其中,对于采用何种分类学习算法,可由本领域普通技术人员根据实际需要进行选取,包括但不限于朴素贝叶斯分类算法、支持向量机算法、KNN算法以及神经网络算法等分类学习算法。
由上可知,在本申请实施例中,电子设备可以获取多个网页的网页地址的图特征,得到多个图特征,以及获取前述多个网页的网页内容的语义特征,得到多个语义特征,获取前述多个网页的网页类型,得到多个网页类型,网页类型包括深网或浅网,然后对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型,利用该网页分类模型,即可实现对深网的自动识别。
在一实施例中,“获取前述多个网页的网页地址的图特征”包括:
(1)采用PageRank算法构建网页的网页地址的网页地址网络,网页地址网络包括多个节点;
(2)采用图卷积神经网络对网页地址网络的多个节点进行图表征,得到网页的网页地址的图特征。
应当说明的是,本申请实施例中,预先训练有构型为图卷积神经网络的图特征编码器神经网络,电子设备利用该图卷积神经网络实现图特征的获取。在其它实施例中,还可由本领域普通技术人员根据实际需要采用其他网络构型的神经网络进行训练,得到图特征编码器神经网络。
其中,对于前述多个网页中的任一网页,电子设备在获取其网页地址的图特征时,首先采用PageRank算法构建该网页的网页地址的网页地址网络,其中,网页地址网络包括多个节点,每一个节点即为一个网页地址,通俗的说,网页地址网络即该网页以及链接到该网页的其它网页所形成的网络。
比如,请参照图3,对应网页A,电子设备采用PageRank算法构建其网页地址的网页地址网络,包括5个节点,分别为对应网页A的节点A,对应链接到网页A的网页B的节点B,对应链接到网页A的网页C的节点C,对应链接到网页A的网页D的节点D,对应链接到网页A的网页E的节点E。
电子设备在完成对网页的网页地址网络的构建之后,进一步将构建的网页地址网络输入到图卷积神经网络,由图卷积神经网络对网页地址网络中的多个节点进行图表征,由此得到网页的网页地址的图特征。比如,对于网页A,电子设备获取到其网页地址的图特征G=(g1,g2,g3……gn),其中,g1到gn分别表示网页A对应的网页地址网络中各节点的特征。
在一实施例中,“获取前述多个网页的网页内容的语义特征”包括:
采用循环神经网络对网页的网页内容进行语义表征,得到网页的网页内容的语义特征。
应当说明的是,本申请实施例中,考虑到循环神经网络能够对文本进行较好的表征,预先训练有构型为循环神经网络的语义特征编码器神经网络,电子设备利用该循环神经网络实现语义特征的获取。在其它实施例中,还可由本领域普通技术人员根据实际需要采用其他网络构型的神经网络进行训练,得到语义特征编码器神经网络。
本领域普通技术人员可以理解的是,一个网页中通常包括多种不同类型的网页内容,比如文字内容、图片内容以及音视频内容等。因此,电子设备在获取前述多个网页的网页内容的语义特征时,对于任一网页,电子设备首先将该网页的非文字内容转换为文字内容,比如,对于图片内容,电子设备对图片内容进行图像识别,得到图片内容所对应的文字内容。在完成对非文字内容的转换之后,电子设备将网页中原始的文字内容以及转换得到的文字内容输入到循环神经网络进行语义表征,得到网页的网页内容的语义特征。比如,对于网页A,电子设备获取到其网页内容的语义特征S=(s1,s2,s3……sm),其中,s1到sm分别表示网页A对应的网页内容中不同维度的特征。
在一实施例中,“对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型”,包括:
(1)分别采用不同的预设分类算法前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到多个候选网页分类模型;
(1)将多个候选网页分类模型中满足预设条件的候选网页分类模型作为网页分类模型。
本申请实施例中,电子设备在训练网页分类模型时,可以分别采用不同的预设分类算法对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到多个候选网页分类模型。比如,电子设备可以采用线性的分类算法和非线性的分类算法分别对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,由此得到两个候选网页分类模型。
在训练得到多个候选网页分类模型之后,电子设备从多个候选网页分类模型中选取满足预设条件的候选网页分类模型作为用于对待分类网页的网页类型进行识别的网页分类模型。
应当说明的是,本申请实施例中对于前述用于筛选网页分类模型的预设条件不做具体限制,可由本领域普通技术人员根据实际需要进行设置,比如,可以设置为选取多个候选网页分类模型中识别速度最快的候选网页分类模型作为用于对待分类网页的网页类型进行识别的网页分类模型,还可以设置为选取多个候选网页分类模型中识别准确的最高的候选网页分类模型作为用于对待分类网页的网页类型进行识别的网页分类模型。
在一实施例中,“对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型”,包括:
分别采用不同的预设分类算法对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到多个网页分类模型。
本申请实施例中,电子设备在训练网页分类模型时,可以分别采用不同的预设分类算法对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到多个网页分类模型。比如,电子设备可以采用线性的分类算法和非线性的分类算法分别对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,由此得到两个网页分类模型。
这样,电子设备在后续对待分类网页的网页类型进行识别时,可以通过多个网页分类模型分别识别待分类网页的网页类型,得到多个网页类型,然后根据得到的多个网页类型确定待分类网页的网页类型。
请结合参照图4和图5,图4为本申请实施例提供的模型训练方法的另一流程示意图,图5为该模型训练方法的应用场景示意图,该模型训练方法可以应用于电子设备,该模型训练方法的流程可以包括:
在201中,电子设备根据图卷积神经网络获取多个网页的网页地址的图特征,得到多个图特征。
本申请实施例中,电子设备首先获取多个网页的网页地址的图特征,对于其中任意一个网页将得到一个图特征,由此可以得到分别对应前述多个网页的多个图特征。
应当说明的是,本申请实施例中,预先训练有构型为图卷积神经网络的图特征编码器神经网络,电子设备利用该图卷积神经网络实现图特征的获取。在其它实施例中,还可由本领域普通技术人员根据实际需要采用其他网络构型的神经网络进行训练,得到图特征编码器神经网络。
其中,对于前述多个网页中的任一网页,电子设备在获取其网页地址的图特征时,首先采用PageRank算法构建该网页的网页地址的网页地址网络,其中,网页地址网络包括多个节点,每一个节点即为一个网页地址,通俗的说,网页地址网络即该网页以及链接到该网页的其它网页所形成的网络。
比如,请参照图3,对应网页A,电子设备采用PageRank算法构建其网页地址的网页地址网络,包括5个节点,分别为对应网页A的节点A,对应链接到网页A的网页B的节点B,对应链接到网页A的网页C的节点C,对应链接到网页A的网页D的节点D,对应链接到网页A的网页E的节点E。
电子设备在完成对网页的网页地址网络的构建之后,进一步将构建的网页地址网络输入到图卷积神经网络,由图卷积神经网络对网页地址网络中的多个节点进行图表征,由此得到网页的网页地址的图特征。比如,对于网页A,电子设备获取到其网页地址的图特征G=(g1,g2,g3……gn),其中,g1到gn分别表示网页A对应的网页地址网络中各节点的特征。
在202中,电子设备根据循环神经网络获取前述多个网页的网页内容的语义特征,得到多个语义特征。
本申请实施例中,电子设备除了获取前述多个网页的网页地址的图特征之外,电子设备还会获取前述多个网页的网页内容的语义特征,这样对于其中任意一个网页将得到一个图特征,由此可以得到分别对应前述多个网页的多个语义特征。
应当说明的是,本申请实施例中,考虑到循环神经网络能够对文本进行较好的表征,预先训练有构型为循环神经网络的语义特征编码器神经网络,电子设备利用该循环神经网络实现语义特征的获取。在其它实施例中,还可由本领域普通技术人员根据实际需要采用其他网络构型的神经网络进行训练,得到语义特征编码器神经网络。
本领域普通技术人员可以理解的是,一个网页中通常包括多种不同类型的网页内容,比如文字内容、图片内容以及音视频内容等。因此,电子设备在获取前述多个网页的网页内容时,对于任一网页,电子设备首先将该网页的非文字内容转换为文字内容,比如,对于图片内容,电子设备对图片内容进行图像识别,得到图片内容所对应的文字内容。在完成对非文字内容的转换之后,电子设备将网页中原始的文字内容以及转换得到的文字内容输入到循环神经网络进行语义表征,得到网页的网页内容的语义特征。比如,对于网页A,电子设备获取到其网页内容的语义特征S=(s1,s2,s3……sm),其中,s1到sm分别表示网页A对应的网页内容中不同维度的特征。
在203中,电子设备获取前述多个网页的网页类型,得到多个网页类型,网页类型包括深网或浅网。
对于前述多个网页中的任一网页,电子设备还获取其网页类型,由此得到对应前述多个网页的多个网页类型。其中,网页类型包括深网或浅网,换言之,对于任一网页而言,其不为浅网,即为深网。
作为一种可选的实施方式,在获取前述多个网页的网页类型时,电子设备可以接收对前述多个网页中各网页人工标定的网页类型。
其中,对于前述多个网页,电子设备在获取其网页类型时,可由人工分别标定前述多个网页中各网页的网页类型,比如,若存在100个网页,则由人工分别标定这100网页的网页类型。
作为另一种可选的实施方式,在获取前述多个网页的网页类型时,电子设备可以首先从前述多个网页中筛选出可能为深网的候选网页,然后接收对候选网页人工标定的网页类型,而对于前述多个网页中除候选网页之外的其它网页,直接将其它网页的网页类型记为浅网。
应当说明的是,深网是基于动态网页技术建立的网页,其网页地址为动态地址,虽然网页地址为动态地址的网页不一定为深网,但是深网的网页地址必然为动态地址。这样,电子设备在筛选候选网页时,将前述多个网页中网页地址为动态地址的网页筛选为候选网页。其中,动态地址中通常存在标识符“?”,电子设备可以通过判断一网页地址中是否存在“?”,来判定该网页地址是否为动态地址。
应当说明的是,201、202以及203的执行顺序不受序号大小的影响,可以是执行完成201后执行202,并在执行完成202后执行203,也可以是执行完成203后执行202,并在执行完成202后执行201,还可以是同时执行201、202以及203。
在204中,电子设备分别采用不同的预设分类算法对前述多个图特征、前述多个语义特征以及前述多个链接类型信息进行训练,得到多个候选网页分类模型。
本申请实施例中,电子设备可以分别采用不同的预设分类算法对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到多个候选网页分类模型。比如,电子设备可以采用线性的分类算法和非线性的分类算法分别对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,由此得到两个候选网页分类模型。
在205中,电子设备将多个候选网页分类模型中满足预设条件的候选网页分类模型作为用于识别待分类网页的网页类型的网页分类模型。
在训练得到多个候选网页分类模型之后,电子设备从多个候选网页分类模型中选取满足预设条件的候选网页分类模型作为用于对待分类网页的网页类型进行识别的网页分类模型。
应当说明的是,本申请实施例中对于前述用于筛选网页分类模型的预设条件不做具体限制,可由本领域普通技术人员根据实际需要进行设置,比如,可以设置为选取多个候选网页分类模型中识别速度最快的候选网页分类模型作为用于对待分类网页的网页类型进行识别的网页分类模型,还可以设置为选取多个候选网页分类模型中识别准确的最高的候选网页分类模型作为用于对待分类网页的网页类型进行识别的网页分类模型。
请参照图6,图6是本申请实施例提供的网页分类方法的一流程示意图,该网页分类方法可以应用于电子设备,该网页分类方法的流程可以包括:
在301中,侦测电子设备的网页访问操作。
本申请实施例中,电子设备实时对其网页访问操作进行侦测,包括但不限于侦测基于系统自带的网页浏览器的网页访问操作以及基于第三方网页浏览器的网页访问操作。
在302中,若电子设备当前执行网页访问操作,则将电子设备当前访问的网页作为待分类网页。
本申请实施例中,电子设备在侦测到其当前执行网页访问操作时,当当前访问的网页作为待分类网页。比如,电子设备当前通过系统自带的网页浏览器访问网页A,则电子设备将该网页A作为待分类网页分类模型。
在303中,获取预先训练的网页分类模型。
应当说明的是,在本申请实施例中,预先训练有用于预存待分类网页的网页类型的网页分类模型,其中该网页分类模型根据多个网页的网页地址的图特征、多个网页的网页内容的语义特征以及多个网页的网页类型训练得到。
比如,电子设备在训练网页分类模型时,可以获取多个网页的网页地址的图特征,得到多个图特征,然后获取前述多个网页的网页内容的语义特征,得到多个语义特征,再获取前述多个网页的网页类型,得到多个网页类型,网页类型包括深网或浅网,最后采用预先设定的模型训练算法对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型。
在304中,根据获取的网页分类模型识别待分类网页的网页类型。
电子设备在确定待分类网页并获取预先训练的网页分类模型之后,即可根据获取到的网页分类模型识别待分类网页的网页类型。
比如,电子设备在训练网页分类模型时,利用分类学习算法训练得到一个二分类器,该二分类器的输出包括0和1两类,其中1表示待分类网页为深网,而0表示待分类网页为浅网,假设电子设备将网页A确定为待分类网页,若得到网页分类模型对应网页A的输出为1,则表示网页A的网页类型为深网。
在一实施例中,“获取预先训练的网页分类模型”包括:
获取预先训练的多个网页分类模型;
而“根据获取的网页分类模型识别待分类网页的网页类型”,包括:
根据获取的多个网页分类模型分别识别待分类网页的网页类型,得到多个网页类型;
根据得到的多个网页类型确定待分类网页的网页类型。
本申请实施例中,电子设备在训练网页分类模型时,分别采用不同的预设分类算法对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到多个网页分类模型。比如,电子设备可以采用线性的分类算法和非线性的分类算法分别对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,由此得到两个网页分类模型。
这样,电子设备在获取预先训练的网页分类模型时,可以获取预先训练的多个网页分类模型,而在根据获取的网页分类模型识别待分类网页的网页类型,电子设备可以根据获取的多个网页分类模型分别识别待分类网页的网页类型,得到多个网页类型,然后根据得到的多个网页类型确定待分类网页的网页类型。
本领域普通技术人员可以理解的是,不同的网页分类模型的识别结果可能相同,也可能不同。因此,电子设备在根据得到的多个网页类型确定待分类网页的网页类型时,可以在多个网页分类模型识别的网页类型相同时,将这网页分类模型识别的网页类型确定为待分类网页的网页类型,比如,电子设备预先训练有两个网页分类模型,且通过这两个网页分类模型对待分类网页的网页类型进行识别时,两个网页分类模型识别得到的网页类型均为深网,则电子设备确定该待分类网页的网页类型为深网。此外,电子设备还可以在多个网页分类模型识别的网页类型不同时,将多数相同的网页类型确定为待分类网页的网页类型,比如,电子设备预先训练有三个网页分类模型,且通过这三个网页分类模型对待分类网页的网页类型进行识别时,其中两个网页分类模型识别得到的网页类型均为深网,而另一个网页分类模型识别得到的网页类型为浅网,则电子设备将待分类网页的网页类型确定为深网。
在一实施例中,“根据获取的网页分类模型识别待分类网页的网页类型”,包括:
(1)获取待分类网页的网页地址的图特征;
(2)获取待分类网页的网页内容的语义特征;
(3)将获取到的图特征和语义特征输入网页分类模型进行处理,得到网页分类模型识别的待分类网页的网页类型。
其中,在根据获取的网页分类模型识别待分类网页的网页类型时,电子设备可基于预设的图特征编码器神经网络来获取待分类网页的网页地址的图特征。
示例性的,预先训练有构型为图卷积神经网络的图特征编码器神经网络,电子设备利用该图卷积神经网络实现图特征的获取。在其它实施例中,还可由本领域普通技术人员根据实际需要采用其他网络构型的神经网络进行训练,得到图特征编码器神经网络。
这样,在获取待分类网页的网页地址的图特征时,电子设备首先采用PageRank算法构建该待分类网页的网页地址的网页地址网络,其中,网页地址网络包括多个节点,每一个节点即为一个网页地址,通俗的说,网页地址网络即该网页以及链接到该待分类网页的其它网页所形成的网络。
电子设备在完成对待分类网页的网页地址网络的构建之后,进一步将构建的网页地址网络输入到图卷积神经网络,由图卷积神经网络对网页地址网络中的多个节点进行图表征,由此得到待分类网页的网页地址的图特征。比如,对于待分类网页,电子设备获取到其网页地址的图特征G=(g1,g2,g3……gn),其中,g1到gn分别表示待分类网页对应的网页地址网络中各节点的特征。
此外,电子设备还基于预设的语义特征编码器神经网络来获取待分类网页的网页内容的语义特征。
示例性的,预先训练有构型为循环神经网络的语义特征编码器神经网络,电子设备利用该循环神经网络实现语义特征的获取。在其它实施例中,还可由本领域普通技术人员根据实际需要采用其他网络构型的神经网络进行训练,得到语义特征编码器神经网络。
本领域普通技术人员可以理解的是,一个网页中通常包括多种不同类型的网页内容,比如文字内容、图片内容以及音视频内容等。因此,电子设备在获取待分类网页的网页内容的语义特征时,对于任一网页,电子设备首先将该待分类网页的非文字内容转换为文字内容,比如,对于图片内容,电子设备对图片内容进行图像识别,得到图片内容所对应的文字内容。在完成对非文字内容的转换之后,电子设备将待分类网页中原始的文字内容以及转换得到的文字内容输入到循环神经网络进行语义表征,得到待分类网页的网页内容的语义特征。比如,对于待分类网页,电子设备获取到其网页内容的语义特征S=(s1,s2,s3……sm),其中,s1到sm分别表示待分类网页对应的网页内容中不同维度的特征。
请参照图7,图7为本申请实施例提供的网页分类方法的另一流程示意图。该网页分类方法可以应用于电子设备。该网页分类方法的流程可以包括:
在401中,电子设备侦测电子设备的网页访问操作。
本申请实施例中,电子设备实时对其网页访问操作进行侦测,包括但不限于侦测基于系统自带的网页浏览器的网页访问操作以及基于第三方网页浏览器的网页访问操作。
在402中,若电子设备当前执行网页访问操作,则电子设备将电子设备当前访问的网页作为待分类网页。
本申请实施例中,电子设备在侦测到其当前执行网页访问操作时,当当前访问的网页作为待分类网页。比如,电子设备当前通过系统自带的网页浏览器访问网页A,则电子设备将该网页A作为待分类网页分类模型。
在403中,电子设备获取预先训练的多个网页分类模型。
本申请实施例中,电子设备在训练网页分类模型时,分别采用不同的预设分类算法对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到多个网页分类模型。比如,电子设备可以采用线性的分类算法和非线性的分类算法分别对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,由此得到两个网页分类模型。
在404中,电子设备获取待分类网页的网页地址的图特征,以及获取待分类网页的网页内容的语义特征。
其中,在根据获取的网页分类模型识别待分类网页的网页类型时,电子设备可基于预设的图特征编码器神经网络来获取待分类网页的网页地址的图特征。
而在获取待分类网页的网页内容的语义特征时,电子设备可基于预设的语义特征编码器神经网络来获取待分类网页的网页内容的语义特征。
在405中,电子设备将获取到的图特征和语义特征输入获取到的多个网页分类模型进行处理,得到对应待分类网页的多个网页类型。
电子设备在获取到待分类网页对应的图特征以及语义特征之后,将获取到的图特征和语义特征输入获取到的多个网页分类模型进行处理,根据获取的多个网页分类模型分别识别待分类网页的网页类型,得到多个网页类型。
在406中,电子设备根据得到的多个网页类型确定待分类网页的网页类型。
本领域普通技术人员可以理解的是,不同的网页分类模型的识别结果可能相同,也可能不同。因此,电子设备在根据得到的多个网页类型确定待分类网页的网页类型时,可以在多个网页分类模型识别的网页类型相同时,将这网页分类模型识别的网页类型确定为待分类网页的网页类型,比如,电子设备预先训练有两个网页分类模型,且通过这两个网页分类模型对待分类网页的网页类型进行识别时,两个网页分类模型识别得到的网页类型均为深网,则电子设备确定该待分类网页的网页类型为深网。
此外,电子设备还可以在多个网页分类模型识别的网页类型不同时,将多数相同的网页类型确定为待分类网页的网页类型,比如,电子设备预先训练有三个网页分类模型,且通过这三个网页分类模型对待分类网页的网页类型进行识别时,其中两个网页分类模型识别得到的网页类型均为深网,而另一个网页分类模型识别得到的网页类型为浅网,则电子设备将待分类网页的网页类型确定为深网。
请参照图8,图8为本申请实施例提供的模型训练装置的结构示意图。该模型训练装置可以应用于电子设备。模型训练装置可以包括:第一特征获取模块501、第二特征获取模块502、网页类型获取模块503以及分类模型训练模块504,其中,
第一特征获取模块501,用于获取多个网页的网页地址的图特征,得到多个图特征;
第二特征获取模块502,用于获取前述多个网页的网页内容的语义特征,得到多个语义特征;
网页类型获取模块503,用于获取前述多个网页的网页类型,得到多个网页类型,网页类型包括深网或浅网;
分类模型训练模块504,用于对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型。
在一实施例中,在获取前述多个网页的网页地址的图特征时,第一特征获取模块501可以用于:
采用PageRank算法构建网页的网页地址的网页地址网络,网页地址网络包括多个节点;
采用图卷积神经网络对网页地址网络的多个节点进行图表征,得到网页的网页地址的图特征。
在一实施例中,在获取前述多个网页的网页内容的语义特征时,第二特征获取模块502可以用于:
采用循环神经网络对网页的网页内容进行语义表征,得到网页的网页内容的语义特征。
在一实施例中,在对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型时,分类模型训练模块504可以用于:
分别采用不同的预设分类算法前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到多个候选网页分类模型;
将多个候选网页分类模型中满足预设条件的候选网页分类模型作为网页分类模型。
在一实施例中,在对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型时,分类模型训练模块504可以用于:
分别采用不同的预设分类算法对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到多个网页分类模型。
本申请实施例提供的模型训练装置与上文实施例中的模型训练方法属于同一构思,在模型训练装置上可以运行模型训练方法实施例中提供的任一方法,其具体实现过程详见模型训练方法实施例,此处不再赘述。
请参照图9,图9为本申请实施例提供的网页分类装置的结构示意图。该网页分类装置可以应用于电子设备。网页分类装置可以包括:侦测模块601、确定模块602、获取模块603以及识别模块604,其中,
侦测模块601,用于侦测电子设备的网页访问操作;
确定模块602,用于在电子设备当前执行网页访问操作时,则将电子设备当前访问的网页作为待分类网页;
获取模块603,用于获取预先训练的网页分类模型;
识别模块604,用于根据获取的网页分类模型识别待分类网页的网页类型;
其中,网页分类模型根据多个网页的网页地址的图特征、前述多个网页的网页内容的语义特征以及前述多个网页的网页类型训练得到。
在一实施例中,在获取预先训练的网页分类模型时,获取模块603可以用于:
获取预先训练的多个网页分类模型;
而在根据获取的网页分类模型识别待分类网页的网页类型时,识别模块604可以用于:
根据获取的多个网页分类模型分别识别待分类网页的网页类型,得到多个网页类型;
根据得到的多个网页类型确定待分类网页的网页类型。
在一实施例中,在根据获取的网页分类模型识别待分类网页的网页类型时,识别模块604可以用于:
获取待分类网页的网页地址的图特征;
获取待分类网页的网页内容的语义特征;
将获取到的图特征和语义特征输入网页分类模型进行处理,得到网页分类模型识别的待分类网页的网页类型。
本申请实施例提供的网页分类装置与上文实施例中的网页分类方法属于同一构思,在网页分类装置上可以运行网页分类方法实施例中提供的任一方法,其具体实现过程详见网页分类方法实施例,此处不再赘述。
本申请实施例提供一种计算机可读的存储介质,其上存储有计算机程序,当其存储的计算机程序在计算机上执行时,使得计算机执行如本申请实施例提供的模型训练方法中的步骤,或者使得计算机执行如本申请实施例提供的网页分类方法/模型训练方法中的步骤。
本申请实施例还提供一种电子设备,包括存储器,处理器,处理器通过调用存储器中存储的计算机程序,执行本申请实施例提供的模型训练方法中的步骤,或者执行本申请实施例提供的网页分类方法中的步骤。
请参照图10,图10为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括存储器702以及处理器701。本领域普通技术人员可以理解,图10中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器702可用于存储应用程序和数据。存储器702存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器701通过运行存储在存储器702的应用程序,从而执行各种功能应用以及数据处理。
处理器701是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器702内的应用程序,以及调用存储在存储器702内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
在本申请实施例中,电子设备中的处理器701会按照如下的指令,将一个或一个以上的模型训练程序的进程对应的可执行代码加载到存储器702中,并由处理器701来运行,从而执行:
获取多个网页的网页地址的图特征,得到多个图特征;
获取前述多个网页的网页内容的语义特征,得到多个语义特征;
获取前述多个网页的网页类型,得到多个网页类型,网页类型包括深网或浅网;
对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型。
或者,电子设备中的处理器701会按照如下的指令,将一个或一个以上的网页分类查询的进程对应的可执行代码加载到存储器702中,并由处理器701来运行,从而执行:
侦测电子设备的网页访问操作;
在电子设备当前执行网页访问操作时,则将电子设备当前访问的网页作为待分类网页;
获取预先训练的网页分类模型;
根据获取的网页分类模型识别待分类网页的网页类型;
其中,网页分类模型根据多个网页的网页地址的图特征、前述多个网页的网页内容的语义特征以及前述多个网页的网页类型训练得到。
请参照图11,图11为本申请实施例提供的电子设备的另一结构示意图,与图10所示电子设备的区别在于,电子设备还包括输入单元703和输出单元704等组件。
其中,输入单元703可用于接收输入的数字、字符信息或用户特征信息(比如指纹),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。
输出单元704可用于输出由用户输入的信息或提供给用户的信息,如扬声器等。
在本申请实施例中,电子设备中的处理器701会按照如下的指令,将一个或一个以上的模型训练程序的进程对应的可执行代码加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而执行:
获取多个网页的网页地址的图特征,得到多个图特征;
获取前述多个网页的网页内容的语义特征,得到多个语义特征;
获取前述多个网页的网页类型,得到多个网页类型,网页类型包括深网或浅网;
对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型。
在一实施例中,在获取前述多个网页的网页地址的图特征时,处理器701可以执行:
采用PageRank算法构建网页的网页地址的网页地址网络,网页地址网络包括多个节点;
采用图卷积神经网络对网页地址网络的多个节点进行图表征,得到网页的网页地址的图特征。
在一实施例中,在获取前述多个网页的网页内容的语义特征时,处理器701可以执行:
采用循环神经网络对网页的网页内容进行语义表征,得到网页的网页内容的语义特征。
在一实施例中,在对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型时,处理器701可以执行:
分别采用不同的预设分类算法前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到多个候选网页分类模型;
将多个候选网页分类模型中满足预设条件的候选网页分类模型作为网页分类模型。
在一实施例中,在对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型时,处理器701可以执行:
分别采用不同的预设分类算法对前述多个图特征、前述多个语义特征以及前述多个网页类型进行训练,得到多个网页分类模型。
或者,电子设备中的处理器701会按照如下的指令,将一个或一个以上的网页分类查询的进程对应的可执行代码加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而执行:
侦测电子设备的网页访问操作;
在电子设备当前执行网页访问操作时,则将电子设备当前访问的网页作为待分类网页;
获取预先训练的网页分类模型;
根据获取的网页分类模型识别待分类网页的网页类型;
其中,网页分类模型根据多个网页的网页地址的图特征、前述多个网页的网页内容的语义特征以及前述多个网页的网页类型训练得到。
在一实施例中,在获取预先训练的网页分类模型时,处理器701可以执行:
获取预先训练的多个网页分类模型;
而在根据获取的网页分类模型识别待分类网页的网页类型时,处理器701可以执行:
根据获取的多个网页分类模型分别识别待分类网页的网页类型,得到多个网页类型;
根据得到的多个网页类型确定待分类网页的网页类型。
在一实施例中,在根据获取的网页分类模型识别待分类网页的网页类型时,处理器701可以执行:
获取待分类网页的网页地址的图特征;
获取待分类网页的网页内容的语义特征;
将获取到的图特征和语义特征输入网页分类模型进行处理,得到网页分类模型识别的待分类网页的网页类型。
需要说明的是,对本申请实施例模型训练方法/网页分类方法而言,本领域普通技术人员可以理解实现本申请实施例模型训练方法/网页分类方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,如存储在存储器中,并被至少一个处理器执行,在执行过程中可包括如模型训练方法/网页分类方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)等。
对本申请实施例的模型训练装置/网页分类装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种模型训练方法、网页分类方法、装置、存储介质以及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种模型训练方法,应用于电子设备,其特征在于,包括:
获取多个网页的网页地址的图特征,得到多个图特征;
获取所述多个网页的网页内容的语义特征,得到多个语义特征;
获取所述多个网页的网页类型,得到多个网页类型,所述网页类型包括深网或浅网;
对所述多个图特征、所述多个语义特征以及所述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述获取多个网页的网页地址的图特征,包括:
采用PageRank算法构建所述网页的网页地址的网页地址网络,所述网页地址网络包括多个节点;
采用图卷积神经网络对所述网页地址网络的多个节点进行图表征,得到所述网页的网页地址的图特征。
3.根据权利要求1所述的模型训练方法,其特征在于,所述获取所述多个网页的网页内容的语义特征,包括:
采用循环神经网络对所述网页的网页内容进行语义表征,得到所述网页的网页内容的语义特征。
4.根据权利要求1所述的模型训练方法,其特征在于,所述对所述多个图特征、所述多个语义特征以及所述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型,包括:
分别采用不同的预设分类算法对所述多个图特征、所述多个语义特征以及所述多个链接类型信息进行训练,得到多个候选网页分类模型;
将所述多个候选网页分类模型中满足预设条件的候选网页分类模型作为所述网页分类模型。
5.根据权利要求1所述的模型训练方法,其特征在于,所述对所述多个图特征、所述多个语义特征以及所述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型,包括:
分别采用不同的预设分类算法对所述多个图特征、所述多个语义特征以及所述多个链接类型信息进行训练,得到多个所述网页分类模型。
6.一种网页分类方法,应用于电子设备,其特征在于,包括:
侦测电子设备的网页访问操作;
若电子设备当前执行网页访问操作,则将电子设备当前访问的网页作为待分类网页;
获取预先训练的网页分类模型;
根据所述网页分类模型识别所述待分类网页的网页类型;
其中,所述网页分类模型根据多个网页的网页地址的图特征、所述多个网页的网页内容的语义特征以及所述多个网页的网页类型训练得到。
7.一种模型训练装置,应用于电子设备,其特征在于,包括:
第一特征获取模块,用于获取多个网页的网页地址的图特征,得到多个图特征;
第二特征获取模块,用于获取所述多个网页的网页内容的语义特征,得到多个语义特征;
网页类型获取模块,用于获取所述多个网页的网页类型,得到多个网页类型,所述网页类型包括深网或浅网;
分类模型训练模块,用于对所述多个图特征、所述多个语义特征以及所述多个网页类型进行训练,得到用于识别待分类网页的网页类型的网页分类模型。
8.一种网页分类装置,应用于电子设备,其中,包括:
侦测模块,用于侦测电子设备的网页访问操作;
确定模块,用于在电子设备当前执行网页访问操作时,将电子设备当前访问的网页作为待分类网页;
获取模块,用于获取预先训练的网页分类模型;
识别模块,用于根据所述网页分类模型识别所述待分类网页的网页类型;
其中,所述网页分类模型根据多个网页的网页地址的图特征、所述多个网页的网页内容的语义特征以及所述多个网页的网页类型训练得到。
9.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至5任一项所述的模型训练方法,或者使得所述计算机执行如权利要求6所述的网页分类方法。
10.一种电子设备,包括处理器和存储器,所述存储器储存有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至5任一项所述的模型训练方法,或者用于执行如权利要求6所述的网页分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910282469.1A CN111797299A (zh) | 2019-04-09 | 2019-04-09 | 模型训练方法、网页分类方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910282469.1A CN111797299A (zh) | 2019-04-09 | 2019-04-09 | 模型训练方法、网页分类方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111797299A true CN111797299A (zh) | 2020-10-20 |
Family
ID=72805355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910282469.1A Withdrawn CN111797299A (zh) | 2019-04-09 | 2019-04-09 | 模型训练方法、网页分类方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797299A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287274A (zh) * | 2020-10-27 | 2021-01-29 | 中国科学院计算技术研究所 | 一种网站列表页面的分类方法、系统及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7783642B1 (en) * | 2005-10-31 | 2010-08-24 | At&T Intellectual Property Ii, L.P. | System and method of identifying web page semantic structures |
CN103678422A (zh) * | 2012-09-25 | 2014-03-26 | 北京亿赞普网络技术有限公司 | 网页分类方法和装置、网页分类器的训练方法和装置 |
CN108134784A (zh) * | 2017-12-19 | 2018-06-08 | 东软集团股份有限公司 | 网页分类方法及装置、存储介质及电子设备 |
CN109062972A (zh) * | 2018-06-29 | 2018-12-21 | 平安科技(深圳)有限公司 | 网页分类方法、装置及计算机可读存储介质 |
CN109241383A (zh) * | 2018-07-20 | 2019-01-18 | 北京开普云信息科技有限公司 | 一种基于深度学习的网页类型智能识别方法及系统 |
-
2019
- 2019-04-09 CN CN201910282469.1A patent/CN111797299A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7783642B1 (en) * | 2005-10-31 | 2010-08-24 | At&T Intellectual Property Ii, L.P. | System and method of identifying web page semantic structures |
CN103678422A (zh) * | 2012-09-25 | 2014-03-26 | 北京亿赞普网络技术有限公司 | 网页分类方法和装置、网页分类器的训练方法和装置 |
CN108134784A (zh) * | 2017-12-19 | 2018-06-08 | 东软集团股份有限公司 | 网页分类方法及装置、存储介质及电子设备 |
CN109062972A (zh) * | 2018-06-29 | 2018-12-21 | 平安科技(深圳)有限公司 | 网页分类方法、装置及计算机可读存储介质 |
CN109241383A (zh) * | 2018-07-20 | 2019-01-18 | 北京开普云信息科技有限公司 | 一种基于深度学习的网页类型智能识别方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287274A (zh) * | 2020-10-27 | 2021-01-29 | 中国科学院计算技术研究所 | 一种网站列表页面的分类方法、系统及存储介质 |
CN112287274B (zh) * | 2020-10-27 | 2022-10-18 | 中国科学院计算技术研究所 | 一种网站列表页面的分类方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798018A (zh) | 行为预测方法、装置、存储介质及电子设备 | |
CN110245564B (zh) | 一种行人检测方法、系统及终端设备 | |
CN111797078A (zh) | 数据清洗方法、模型训练方法、装置、存储介质及设备 | |
CN111814475A (zh) | 用户画像构建方法、装置、存储介质和电子设备 | |
CN111797288A (zh) | 数据筛选方法、装置、存储介质及电子设备 | |
CN111797861A (zh) | 信息处理方法、装置、存储介质及电子设备 | |
CN113516113A (zh) | 一种图像内容识别方法、装置、设备及存储介质 | |
CN111796925A (zh) | 算法模型的筛选方法、装置、存储介质和电子设备 | |
CN111797076A (zh) | 数据清理方法、装置、存储介质及电子设备 | |
CN115131604A (zh) | 一种多标签图像分类方法、装置、电子设备及存储介质 | |
CN111797849A (zh) | 用户活动识别方法、装置、存储介质及电子设备 | |
CN111797867A (zh) | 系统资源优化方法、装置、存储介质及电子设备 | |
CN111797874B (zh) | 行为预测方法、装置、存储介质及电子设备 | |
CN111797862A (zh) | 任务处理方法、装置、存储介质和电子设备 | |
CN111798367A (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN111797299A (zh) | 模型训练方法、网页分类方法、装置、存储介质及设备 | |
CN111816211B (zh) | 情绪识别方法、装置、存储介质及电子设备 | |
CN111797856B (zh) | 建模方法、装置、存储介质及电子设备 | |
CN111797303A (zh) | 信息处理方法、装置、存储介质及电子设备 | |
CN111797878B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111797075A (zh) | 数据回收方法、装置、存储介质及电子设备 | |
CN111796663B (zh) | 场景识别模型更新方法、装置、存储介质及电子设备 | |
CN111797077A (zh) | 数据清洗方法、装置、存储介质及电子设备 | |
CN111796992B (zh) | 行为偏好确定方法、装置、存储介质及电子设备 | |
CN111797866A (zh) | 特征提取方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201020 |
|
WW01 | Invention patent application withdrawn after publication |