CN112131445A - 用于对网页数据进行分类的分类模型的训练方法及装置 - Google Patents
用于对网页数据进行分类的分类模型的训练方法及装置 Download PDFInfo
- Publication number
- CN112131445A CN112131445A CN201910548164.0A CN201910548164A CN112131445A CN 112131445 A CN112131445 A CN 112131445A CN 201910548164 A CN201910548164 A CN 201910548164A CN 112131445 A CN112131445 A CN 112131445A
- Authority
- CN
- China
- Prior art keywords
- data
- webpage
- sample data
- content
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种对网页数据进行分类的分类模型的训练方法及装置,包括:从网页中对应不同路径的网页数据中获取训练样本数据,所述训练样本数据包括网页数据的网页内容和路径信息;获取关于所述训练样本数据的真实分类结果的分类标签;至少基于网页内容和路径信息来生成所述训练样本数据的特征;基于由所述训练样本数据的特征以及训练样本数据的分类标签组成的训练样本,通过预设机器学习算法,训练用于对网页数据进行分类的分类模型。本发明用于在网页数据进行分类时的分类模型的训练过程。
Description
技术领域
本发明涉及网络技术领域,尤其涉及一种用于对网页数据进行分类的分类模型的训练方法及装置。
背景技术
随着大数据时代的到来,网络中的数据量已大大增加。为了进行数据的分析和研究,对网页中数据进行分类已变得越发重要。一般情况下,在获取数据时需要确定需获取数据的位置,例如,确定网页中每一条数据的路径信息作为获取网页数据的依据。例如,基于机器学习的兴起,结合机器学习的网页数据挖掘方法也逐步广泛。在基于机器学习的网页数据挖掘过程中,一般需要对样本数据的位置进行标注从而训练对应的模型,其中该标注方式是通过对该样本数据的位置添加用以表征其位置的数组进行的。例如,样本数据A的标注方式是为其添加[1,2,6,3,1,2,1,3,2,2,1]数组。其中,数组中第一位的1表示为整个页面代码中最外面的第一层标签,即为html;第二位的2表示在上一层的html标签下的第二个标签body;第三位的6表示在上一层body标签下的第6个标签,即为div,以此类推。
然而,在实际应用中,这种基于位置数组为数据进行标注的方式,会导致分类模型训练的过程中存在较大难度,譬如当网页的数据内容较多、数据的位置层级较多、位置结构较为复杂时,其位置数组内的内容也大幅度增加,从而导致维度扩展极大,这样就导致模型的训练过程中增加了机器学习的难度,整体上增加了网页数据分类过程中的难度。另外,基于其训练过程中仅包含位置特征,这就使所训练的模型在网页结构变化较大时,模型判断的准确性降低,从而使得基于该模型的网页数据的分类结果的准确性也随之降低。由此,如何实现一种能够简化训练过程并提高模型的准确性的网页数据分类方法,已成为领域中亟待解决的问题。
发明内容
鉴于上述问题,本发明提出了一种用于对网页数据进行分类的分类模型的训练方法及装置,主要目的在于在对网页数据分类时简化分类模型的训练过程的同时提高模型的准确性。
为达到上述目的,本发明主要提供如下技术方案:
第一方面,本发明提供用于对网页数据进行分类的分类模型的训练方法,具体包括:
从网页中对应不同路径的网页数据中获取训练样本数据,所述训练样本数据包括网页数据的网页内容和路径信息;
获取关于所述训练样本数据的真实分类结果的分类标签;
至少基于网页内容和路径信息来生成所述训练样本数据的特征;以及
基于由所述训练样本数据的特征以及训练样本数据的分类标签组成的训练样本,通过预设机器学习算法,训练用于对网页数据进行分类的分类模型。
可选的,所述至少基于网页内容和路径信息来生成所述训练样本数据的特征,包括:基于网页内容生成训练样本数据的内容特征,并基于路径信息生成训练样本的结构特征。
可选的,所述至少基于网页内容和路径信息来生成所述训练样本数据的特征,还包括:
基于所述训练样本数据的路径信息与预设标准路径之间的差异来生成训练样本的路径相似度特征,所述预设标准路径对应所述网页数据所属网站中特定网页数据的路径;
可选的,所述从网页中对应不同路径的网页数据中获取训练样本数据包括:
在各个网页中,分别通过遍历全部路径的网页数据来分别获取对应网页数据的网页内容和路径信息,作为所述训练样本数据。
可选的,所述基于网页内容生成的内容特征包括以下项之中的至少一项:所述网页内容是否为中文、所述网页内容是否包含中文标点、所述网页内容的长度、所述网页内容是否包含特定关键词、所述网页内容包含的内容数量;
并且/或者,所述基于路径信息生成的结构特征包括以下项之中的至少一项:路径层数、路径层标识中是否存在目标标识以及目标标识的路径层中是否包含预设关键字。
可选的,所述分类标签指示所述训练样本数据需要进行挖掘或指示所述训练样本数据不需要进行挖掘;或者,所述分类标签指示所述训练样本数据的内容类别。
可选的,所述内容类别用于指示主体内容、广告、概述或标题。
第二方面,本发明提供一种用于对网页数据进行分类的分类模型的训练装置,具体包括:
第一获取单元,用于从网页中对应不同路径的网页数据中获取训练样本数据,所述训练样本数据包括网页数据的网页内容和路径信息;
第二获取单元,用于获取关于所述训练样本数据的真实分类结果的分类标签;
生成单元,用于至少基于网页内容和路径信息来生成所述训练样本数据的特征;以及
训练单元,用于基于由所述训练样本数据的特征以及训练样本数据的分类标签组成的训练样本,通过预设机器学习算法,训练用于对网页数据进行分类的分类模型。
可选的,所述生成单元,具体用于基于网页内容生成训练样本数据的内容特征,并基于路径信息生成训练样本的结构特征。
可选的,所述生成单元,还具体用于基于所述训练样本数据的路径信息与预设标准路径之间的差异来生成训练样本的路径相似度特征,所述预设标准路径对应所述网页数据所属网站中特定网页数据的路径。
可选的,所述第一获取单元具体用于在各个网页中,分别通过遍历全部路径的网页数据来分别获取对应网页数据的网页内容和路径信息,作为所述训练样本数据。
可选的,所述基于网页内容生成的内容特征包括以下项之中的至少一项:所述网页内容是否为中文、所述网页内容是否包含中文标点、所述网页内容的长度、所述网页内容是否包含特定关键词、所述网页内容包含的内容数量;
并且/或者,所述基于路径信息生成的结构特征包括以下项之中的至少一项:路径层数、路径层标识中是否存在目标标识以及目标标识的路径层中是否包含预设关键字。
可选的,所述分类标签指示所述训练样本数据需要进行挖掘或指示所述训练样本数据不需要进行挖掘;或者,所述分类标签指示所述训练样本数据的内容类别。
可选的,所述内容类别用于指示主体内容、广告、概述或标题。
第三方面,基于分类模型对网页数据进行分类的方法,其中,所述分类模型如第一方面中任一项所述的分类模型,包括:
从待预测网页数据中获取预测样本数据,所述预测样本数据包括待预测网页数据的网页内容和路径信息;
至少基于网页内容和路径信息,按照分类模型的训练样本数据的特征生成方式来生成所述预测样本数据的特征;以及
利用所述分类模型,基于由所述预测样本数据的特征组成的预测样本,提供对待预测网页数据进行分类的预测结果。
可选的,所述至少基于网页内容和路径信息,按照分类模型的训练样本数据的特征生成方式来生成所述预测样本数据的特征包括:基于网页内容生成预测样本数据的内容特征,并基于路径信息生成预测样本数据的结构特征;
所述至少基于网页内容和路径信息,按照分类模型的训练样本数据的特征生成方式来生成所述预测样本数据的特征,还包括:基于所述预测样本数据的路径信息与预设标准路径之间的差异来生成预测样本的路径相似度特征,所述预设标准路径对应所述网页数据所属网站中特定网页数据的路径。
可选的,所述至少基于网页内容和路径信息来生成所述预测样本数据的特征,包括:
基于内容特征、结构特征及路径相似度,生成所述预测样本数据的特征。
可选的,所述利用所述分类模型,基于由所述预测样本数据的特征组成的预测样本,提供对待预测网页数据进行分类的预测结果,包括:
将预测样本数据的特征组成所述预测样本;
根据所述分类模型及所述预测样本,基于所述预测样本中的内容特征、结构特征及路径相似度,对所述待预测网页数据进行分类,得到所述预测结果。
可选的,所述基于网页内容生成的内容特征包括以下项之中的至少一项:所述网页内容是否为中文、所述网页内容是否包含中文标点、所述网页内容的长度、所述网页内容是否包含特定关键词、所述网页内容包含的内容数量;
并且/或者,所述基于路径信息生成的结构特征包括以下项之中的至少一项:路径层数、路径层标识中是否存在目标标识以及目标标识的路径层中是否包含预设关键字。
第四方面,基于分类模型对网页数据进行分类的装置,其中,所述分类模型如第一方面中任一项所述的分类模型,包括:
获取单元,用于从待预测网页数据中获取预测样本数据,所述预测样本数据包括待预测网页数据的网页内容和路径信息;
生成单元,用于至少基于网页内容和路径信息,按照分类模型的训练样本数据的特征生成方式来生成所述预测样本数据的特征;以及
预测单元,用于利用所述分类模型,基于由所述预测样本数据的特征组成的预测样本,提供对待预测网页数据进行分类的预测结果。
可选的,所述生成单元,具体用于基于网页内容生成预测样本数据的内容特征,并基于路径信息生成预测样本数据的结构特征;
所述生成单元,还包括具体用于基于所述预测样本数据的路径信息与预设标准路径之间的差异来生成预测样本的路径相似度特征,所述预设标准路径对应所述网页数据所属网站中特定网页数据的路径。
可选的,所述生成单元,具体用于基于内容特征、结构特征及路径相似度,生成所述预测样本数据的特征。
可选的,所述预测单元,包括:
组成模块,用于将预测样本数据的特征组成所述预测样本;
分类模块,用于根据所述分类模型及所述预测样本,基于所述预测样本中的内容特征、结构特征及路径相似度,对所述待预测网页数据进行分类,得到所述预测结果。
可选的,所述基于网页内容生成的内容特征包括以下项之中的至少一项:所述网页内容是否为中文、所述网页内容是否包含中文标点、所述网页内容的长度、所述网页内容是否包含特定关键词、所述网页内容包含的内容数量;
并且/或者,所述基于路径信息生成的结构特征包括以下项之中的至少一项:路径层数、路径层标识中是否存在目标标识以及目标标识的路径层中是否包含预设关键字。
第五方面,本发明提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如第一方面中的任一项所述的方法,或第三方面中任一项所述的方法。
第六方面,本发明提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如第一方面中的任一项所述的方法,或第三方面中任一项所述的方法。
借由上述技术方案,本发明提供的一种用于对网页数据进行分类的分类模型的训练方法、装置、基于分类模型对网页数据进行分类的方法及装置,可以首先通过从网页中对应不同路径的网页数据中获取训练样本数据,然后获取关于所述训练样本数据的真实分类结果的分类标签,之后至少基于网页内容和路径信息来生成所述训练样本数据的特征,最后基于由所述训练样本数据的特征以及训练样本数据的分类标签组成的训练样本,通过预设机器学习算法,训练用于对网页数据进行分类的分类模型,从而能够以网页数据的内容、路径以及真实的分类结果来作为模型训练时的样本,从而根据网页数据的实际内容和具体路径,以及网页的真实分类情况来训练对应的分类模型,相较于现有的根据网页数据分配位置数组的方式进行分类相比,本方案所记载的方法无需在模型训练过程中考虑网页数据的具体层级结构,从而能够有效降低当网页数据的位置层级较多时导致分类模型训练时的内容大幅增加的问题,并且根据实际内容作为训练模型的依据可以进一步的确保分类模型的准确性,继而为后续根据该模型进行网页数据分类的预测结果的准确性奠定了基础。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文可选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出可选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提出的一种对网页数据进行分类的分类模型的训练方法的流程图;
图2示出了本发明实施例提出的另一种对网页数据进行分类的分类模型的训练方法的流程图;
图3示出了本发明实施例提供的一种获取训练样本时HTML网页的示意图;
图4示出了本发明实施例提供的一种基于分类模型对网页数据进行分类的方法的流程图;
图5示出了本发明实施例提供的一种获取预测样本数据时HTML网页的示意图;
图6示出了本发明实施例提出的一种对网页数据进行分类的分类模型的训练的装置的组成框图;
图7示出了本发明实施例提出的一种基于分类模型对网页数据进行分类的装置的组成框图;
图8示出了本发明实施例提供的另一种基于分类模型对网页数据进行分类的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种用于对网页数据进行分类的分类模型的训练方法及装置,主要目的在于在对网页数据分类时简化分类模型的训练过程的同时提高模型的准确性。
具体的,所述方法涉及具体执行步骤可以如图1所示,包括:
101、从网页中对应不同路径的网页数据中获取训练样本数据。
其中,所述训练样本数据包括网页数据的网页内容和路径信息。
在实际应用中,例如,当网络爬虫对网页进行内容爬取时,一般首先需要获取html内容,即网页内容。其中,HTML为超文本标记语言(英文:Hyper Text Markup Language),是一种应用于网页设计的标记性语言。然后从html内容中提取想要的数据。由于在一个网页存在多条数据内容,而每条数据内容都对应一个路径,并且在爬取网页中的数据内容时并不是每一条数据内容都是需要进行获取的,因此,在网络爬虫爬取网页中的数据内容时,对不同的数据内容进行判断以确定其是否是需要进行爬取,对于提高爬虫爬取数据的效率是具有十分重要的意义的。
基于此,在本发明实施例中,在训练用以进行网页数据分类的分类模型时,则需要首先获取用于进行训练的样本数据,由于网页中的每一条网页数据都有对应的路径,因此,在获取训练样本数据时可以根据路径将不同路径对应的网页数据一一获取从而得到训练样本数据。在此,基于训练样本数据是用于后续的模型训练过程,而网页数据的分类特点在于其内容及路径上不同,因此,在所述训练样本数据中包括网页数据的网页内容及路径信息。
例如,根据本步骤所述的方法,在网页A中存在网页数据a、网页数据b、网页数据c时,则可以获取如下表所示训练样本数据:
表1
网页数据a | 网页内容1 | 路径信息1 |
网页数据b | 网页内容2 | 路径信息2 |
网页数据c | 网页内容3 | 路径信息3 |
102、获取关于所述训练样本数据的真实分类结果的分类标签。
基于本发明实施例所述的方法是一种对网页数据进行分类的分类模型训练方法,其训练的模型的用途在于对网页数据进行分类,因此,在训练模型时,需要获取到当前训练样本数据中每条网页数据对应的真实分类结果的分类标签。
在此,对于分类标签的种类不做限定,既可以是二分类,也可以是多分类,具体的可以根据分类时的具体的应用场景进行选取,例如,当所述分类模型的应用场景为对网页数据是否适于挖掘进行分类时,则所述分类标签可以包括“挖掘”和“不挖掘”两种。
103、至少基于网页内容和路径信息来生成所述训练样本数据的特征。
基于训练样本数据包含有每条网页数据的网页内容及对应的路径信息,因此,在模型训练的过程中,可以至少基于网页内容及路径信息生成该条网页数据作为训练样本数据的特征,作为示例,训练样本数据也可以进一步包括其他特征。
104、基于由所述训练样本数据的特征以及训练样本数据的分类标签组成的训练样本,通过预设机器学习算法,训练用于对网页数据进行分类的分类模型。
在模型训练的过程中,当确定了模型的训练样本,以及机器学习算法后,就能够训练出符合该训练样本特点的模型,因此,在执行前述步骤101至103之后,经前述实施步骤得到了分类标签(每条样本的真实结果),以及训练样本数据的特征(每条样本的样本特征)后,则可以将分类标签及特征进行组合得到用于进行模型训练的训练样本(训练集),通过选取预设的机器学习算法并利用所述训练样本进行训练,从而得到对应的模型,即分类模型。这里,可根据实际情况选取任何适于分类的模型算法,例如,逻辑回归算法、决策树算法、神经网络算法等。
进一步的,作为前述实施例的扩展,在本发明实施例中,还提供了另一种用于对网页数据进行分类的分类模型的训练方法,以对网页数据分类时简化分类模型的训练过程,同时提高模型的准确性,具体的,如图2所示,其中步骤包括:
201、在各个网页中,分别通过遍历全部路径的网页数据来分别获取每条网页数据的网页内容及其对应的路径信息,作为所述训练样本数据。
其中,所述训练样本数据包括网页数据的网页内容和路径信息。在本发实施例中,所述网页内容可以为html内容,
例如,通常Html网页中的每条网页数据都对应一个路径以及其包含的网页内容,具体的Html网页如图3所示。该网页数据的网页内容为“商务部:投资环境没有最好只有更好将出台法律保障_新浪财经_新浪网”而其对应的路径信息包含路径/html/title。此外,在该条网页数据中,其路径信息还包括该路径的“title”层配置信息为name=”sudameta”content=”uripath.china/”,allCIDs.56404,257,51894,76746,258,51070,76729”。
202、获取关于所述训练样本数据的真实分类结果的分类标签。
其中,作为示例,分类标签指示所述训练样本数据需要进行挖掘或指示所述训练样本数据不需要进行挖掘;或者,所述分类标签指示所述训练样本数据的内容类别。另外,所述内容类别用于指示主体内容、广告、概述或标题。
基于不同的应用场景其分类标签的形式和种类也不尽相同,例如,当应用在对网页数据进行挖掘分类的场景时,且为所述标签添加的标识包含1和0两种时,则可以通过1表示内容是需要挖掘的数据,0则表示不需要挖掘。另外,在对网页中的每条网页数据的数据类型进行分类的场景时,当分别设置了1、2、3及4的四种标签时,则可以通过1表示主体内容,2表示广告,3表示概述,4表示标题。
203、至少基于网页内容和路径信息来生成所述训练样本数据的特征。
其中,在生成所述训练样本数据的特征过程中,可以基于网页内容生成训练样本数据的内容特征,并基于路径信息生成训练样本的结构特征,即在生成训练样本数据的特征时,可以分别通过网页内容进行内容特征的生成,以及通过路径信息进行结构特征的生成,并将内容特征与结构特征均作为所述训练样本数据的特征。
具体的,对于内容特征而言,所述基于网页内容生成的内容特征可以包括以下项之中的至少一项:所述网页内容是否为中文、所述网页内容是否包含中文标点、所述网页内容的长度、所述网页内容是否包含特定关键词、所述网页内容包含的内容数量等。
例如,在内容特征中,可以通过确定所述网页数据的网页内容中是否存在“热门推荐”、“引申阅读”,“微信","跟贴","分享","新闻","微博","朋友圈","二维码","空间","扫码","网易","新浪","热门","评论","首页","参考消息","客户端","下载","博客","搜狐”等关键词。
而对于结构特征而言,所述基于路径信息生成的结构特征可以包括以下项之中的至少一项:路径层数、路径层标识中是否存在目标标识以及目标标识的路径层中是否包含预设关键字。此外,所述结构特征还可以包括路径中相同子路径的数量,以及相同子路径的前缀数等,在此对于结构特征所包含的种类、数量包含但不限于上述所述的内容,可以根据实际应用场景的具体需要进行选取。
例如,在结构特征中,可以为在网页数据中确定其路径信息中是否存在名为“class”和/或“id”的层,当存在时,确定其中是否存在“title”和/或“content”和/或”article”的关键词。
进一步的,所述训练样本数据的特征还包括路径相似度特征,该路径相似度特征可以基于所述训练样本数据的路径信息与预设标准路径之间的差异来生成的,所述预设标准路径对应所述网页数据所属网站中特定网页数据的路径。具体的,其中,所述路径相似度是在获取预设标准路径后,根据所述训练样本数据的路径信息与所述预设标准路径进行相似度计算后得到的。其中,所述预设标准路径对应所述网页数据所属网站中特定网页数据的路径。
例如,在对网页数据是否需要挖掘进行分类的场景中,当所述训练样本的网页数据属于优酷网站时,则可以将优酷网站中特定网页数据的路径确定为预设标准路径。这里,所述特定网页数据可以是任意一条网页数据,例如,可以是具有某种分类结果(例如,分类结果为需要挖掘)的任意网页数据或典型路径网页数据。
因此,本步骤在生成训练样本数据的特征时还可以包括:首先,确定所述训练样本数据的路径相似度;然后,根据所述内容特征、路径特征以及路径相似度来生成所述训练样本数据的特征。进一步的,在本发明实施例中,所述路径可以为Xpath,其中XPath即为XML路径语言(XML Path Language),是一种用来确定XML文档中某部分位置的语言,Xpath可以用以表征网页中任意数据在网页中的路径。
204、基于由所述训练样本数据的特征以及训练样本数据的分类标签组成的训练样本,通过预设机器学习算法,训练用于对网页数据进行分类的分类模型。
当步骤203确定了样本数据的特征后,同时也获取到训练样本数据的分类标签,因此,可以将样本数据的特征及分类标签组合得到训练样本,并选取预设的机器学习算法,来训练对应的分类模型。
进一步的,作为上述分类模型的应用,在本发明实施例还提供了一种基于分类模型对网页数据进行分类的方法,其中,在该方法的执行过程中,其分类模型如前述任一实施例所述的分类模型,具体的,其执行过程可以如图4所示,具体如下:
301,从待预测网页数据中获取预测样本数据,所述预测样本数据包括待预测网页数据的网页内容和路径信息。
在本发明实施例中,基于分类模型是根据包含有网页内容及路径信息的训练样本数据得到的,因此,在根据该分类模型对网页数据进行分类的过程中,当根据待预测网页中获取预测样本数据时,既需要获取待预测样本数据的网页内容,也需要获取待预测样本数据的路径信息。作为示例,在具体的获取过程中,可以将html网页中的数据按照路径进行拆分,得到对应每一条路径的网页数据。具体的拆分过程如图4所示,可以为:将一个html可以拆分成多个路径(xpath),即图中5包含xpath有:/html、/html/head、/html/head/script[1]、/html/head/script[2]、/html/head/meta[1]、/html/head/meta[2]、/html/head/meta[3]、/html/head/meta[4]、/html/head/title、/html/head/meta[5]等,每条路径对应一个网页内容及其路径信息。譬如路径/html/head/title(图中框内)的网页数据的网页内容为:“欧央行料将维持退出购债时间表经济风险迭现|欧洲央行_新浪财经_新浪网”,路径信息则包括:路径上所有class,id,style信息。此外,作为另一示例,除了如上所述,将每条最细粒度路径对应一个样本之外,还有一种抽法是取次级粒度为一条样本,例如,针对以下三个最细粒度路径,其构成的一段内容具有同样的分类标签:
/html/div[2]/div[3]/div[4]
/html/div[2]/div[3]/div[5]
/html/div[2]/div[3]/div[2]
相应地,可抽取出一条样本,对应的路径为/html/div[2]/div[3]。在这种情况下,可以抽取网页内容包含的内容个数(即,各个子路径下的内容总数)作为特征。通过这种方式,可进一步减少预测偏差。
302、至少基于网页内容和路径信息,按照分类模型的训练样本数据的特征生成方式来生成所述预测样本数据的特征。
这里,预测样本数据的特征构成与分类模型的训练样本数据的特征构成需要是一致的。具体说来,所述至少基于网页内容和路径信息,按照分类模型的训练样本数据的特征生成方式来生成所述预测样本数据的特征包括:基于网页内容生成预测样本数据的内容特征,并基于路径信息生成预测样本数据的结构特征。其中,对于内容特征而言,其中可以包括以下项之中的至少一项:所述网页内容是否为中文、所述网页内容是否包含中文标点、所述网页内容的长度、所述网页内容是否包含特定关键词、所述网页内容包含的内容数量。而对于结构特征而言,其中可以包括以下项之中的至少一项:路径层数、路径层标识中是否存在目标标识以及目标标识的路径层中是否包含预设关键字。
进一步的,所述预测样本数据的特征还可以包括路径相似度,其中,所述路径相似度是在获取预设标准路径后,根据所述预测样本数据的路径信息与所述预设标准路径进行相似度计算后得到的。在所述网页数据的预测样本特征还包括路径相似度特征时,则在进行预测样本数据的特征生成过程中可以为:基于内容特征、结构特征及路径相似度,生成所述预测样本数据的特征。
303、利用所述分类模型,基于由所述预测样本数据的特征组成的预测样本,提供对待预测网页数据进行分类的预测结果。
其中,在利用分类模型进行预测的过程中,其过程可以包括:将预测样本数据的特征组成所述预测样本,将所述预测样本输入所述分类模型,由分类模型对所述待预测网页数据进行分类,得到所述预测结果。
这样,通过对待预测的网页数据进行内容特征、结构特征以及路径相似度特征的确定,得到待预测样本的特征,并以此作为预测样本,能够确保通过分类模型得到准确的预测结果的准确性。
进一步的,作为对上述图1、图2所示用于对网页数据进行分类的分类模型的训练方法的实现,本发明实施例提供了一种用于对网页数据进行分类的分类模型的训练装置,该装置主要目的在于在对网页数据分类时简化分类模型的训练过程的同时提高模型的准确性。为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图6所示,具体包括:
第一获取单元41,可以用于从网页中对应不同路径的网页数据中获取训练样本数据,所述训练样本数据包括网页数据的网页内容和路径信息;
第二获取单元42,可以用于获取关于所述训练样本数据的真实分类结果的分类标签;
生成单元43,可以用于至少基于第一获取单元41获取网页内容和路径信息来生成所述训练样本数据的特征;以及
训练单元44,可以用于基于由所述生成单元43得到的训练样本数据的特征以及第二获取单元42获取的训练样本数据的分类标签组成的训练样本,通过预设机器学习算法,训练用于对网页数据进行分类的分类模型。
进一步的,如图6所示,所述生成单元43,可以具体用于基于网页内容生成训练样本数据的内容特征,并基于路径信息生成训练样本的结构特征。
进一步的,如图6所示,所述生成单元43,还可以具体用于基于所述训练样本数据的路径信息与预设标准路径之间的差异来生成训练样本的路径相似度特征,所述预设标准路径对应所述网页数据所属网站中特定网页数据的路径。
进一步的,如图6所示,所述第一获取单元41,可以具体用于在各个网页中,分别通过遍历全部路径的网页数据来分别获取对应网页数据的网页内容和路径信息,作为所述训练样本数据。
进一步的,如图6所示,所述基于网页内容生成的内容特征包括以下项之中的至少一项:所述网页内容是否为中文、所述网页内容是否包含中文标点、所述网页内容的长度、所述网页内容是否包含特定关键词、所述网页内容包含的内容数量;
并且/或者,所述基于路径信息生成的结构特征包括以下项之中的至少一项:路径层数、路径层标识中是否存在目标标识以及目标标识的路径层中是否包含预设关键字。
进一步的,如图6所示,所述分类标签指示所述训练样本数据需要进行挖掘或指示所述训练样本数据不需要进行挖掘;或者,所述分类标签指示所述训练样本数据的内容类别。
进一步的,如图6所示,所述内容类别用于指示主体内容、广告、概述或标题。
进一步的,作为上述图3所示的基于分类模型对网页数据进行分类的方法的实现,本发明实施例还提供了一种基于分类模型对网页数据进行分类的装置,用以对网页数据进行分类,具体的,如图7所示,包括:
获取单元51,可以用于从待预测网页数据中获取预测样本数据,所述预测样本数据包括待预测网页数据的网页内容和路径信息;
生成单元52,可以用于至少基于获取单元51获取的网页内容和路径信息,按照分类模型的训练样本数据的特征生成方式来生成所述预测样本数据的特征;以及
预测单元53,可以用于利用所述分类模型,基于由所述生成单元52得到的预测样本数据的特征组成的预测样本,提供对待预测网页数据进行分类的预测结果。
进一步的,如图8所示,所述生成单元52,可以具体用于基于网页内容生成预测样本数据的内容特征,并基于路径信息生成预测样本数据的结构特征。
进一步的,如图8所示,所述生成单元52,还可以具体用于基于所述预测样本数据的路径信息与预设标准路径之间的差异来生成预测样本的路径相似度特征,所述预设标准路径对应所述网页数据所属网站中特定网页数据的路径。
进一步的,如图8所示,所述生成单元52,可以具体用于基于内容特征、结构特征及路径相似度,生成所述预测样本数据的特征。
进一步的,如图8所示,所述预测单元53包括:
组成模块531,可以用于将预测样本数据的特征组成所述预测样本;
分类模块532,可以用于根据所述分类模型及所述预测样本,基于所述预测样本中的内容特征、结构特征及路径相似度,对所述待预测网页数据进行分类,得到所述预测结果。
进一步的,如图8所示,所述基于网页内容生成的内容特征包括以下项之中的至少一项:所述网页内容是否为中文、所述网页内容是否包含中文标点、所述网页内容的长度、所述网页内容是否包含特定关键词、所述网页内容包含的内容数量;
并且/或者,所述基于路径信息生成的结构特征包括以下项之中的至少一项:路径层数、路径层标识中是否存在目标标识以及目标标识的路径层中是否包含预设关键字。
进一步的,本发明实施例还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被一个或多个计算装置执行时实现上述的对网页数据进行分类的分类模型的训练方法。
另外,本发明实施例还提供了一种包括一个或多个计算装置和一个或多个存储装置的系统,所述一个或多个存储装置上记录有计算机程序,所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现上述的对网页数据进行分类的分类模型的训练方法。
综上所述,本发明实施例提出的一种对网页数据进行分类的分类模型的训练方法及装置,可以首先通过从网页中对应不同路径的网页数据中获取训练样本数据,然后获取关于所述训练样本数据的真实分类结果的分类标签,之后至少基于网页内容和路径信息来生成所述训练样本数据的特征,最后基于由所述训练样本数据的特征以及训练样本数据的分类标签组成的训练样本,通过预设机器学习算法,训练用于对网页数据进行分类的分类模型,从而能够以网页数据的内容、路径以及真实的分类结果来作为模型训练时的样本,从而根据网页数据的实际内容和具体路径,以及网页的真实分类情况来训练对应的分类模型,相较于现有的根据网页数据分配位置数组的方式进行分类相比,本方案所记载的方法无需在模型训练过程中考虑网页数据的具体层级结构,从而能够有效降低当网页数据的位置层级较多时导致分类模型训练时的内容大幅增加的问题,并且根据实际内容作为训练模型的依据可以进一步的确保分类模型的准确性,继而为后续根据该模型进行网页数据分类的预测结果的准确性奠定了基础。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种用于对网页数据进行分类的分类模型的训练方法,其中,所述方法包括:
从网页中对应不同路径的网页数据中获取训练样本数据,所述训练样本数据包括网页数据的网页内容和路径信息;
获取关于所述训练样本数据的真实分类结果的分类标签;
至少基于网页内容和路径信息来生成所述训练样本数据的特征;以及
基于由所述训练样本数据的特征以及训练样本数据的分类标签组成的训练样本,通过预设机器学习算法,训练用于对网页数据进行分类的分类模型。
2.如权利要求1所述的方法,其中,所述至少基于网页内容和路径信息来生成所述训练样本数据的特征,包括:基于网页内容生成训练样本数据的内容特征,并基于路径信息生成训练样本的结构特征。
3.如权利要求2所述的方法,其中,所述至少基于网页内容和路径信息来生成所述训练样本数据的特征,还包括:
基于所述训练样本数据的路径信息与预设标准路径之间的差异来生成训练样本的路径相似度特征,所述预设标准路径对应所述网页数据所属网站中特定网页数据的路径。
4.如权利要求1所述的方法,其中,所述从网页中对应不同路径的网页数据中获取训练样本数据包括:
在各个网页中,分别通过遍历全部路径的网页数据来分别获取对应网页数据的网页内容和路径信息,作为所述训练样本数据。
5.如权利要求4所述的方法,其中,
所述基于网页内容生成的内容特征包括以下项之中的至少一项:所述网页内容是否为中文、所述网页内容是否包含中文标点、所述网页内容的长度、所述网页内容是否包含特定关键词、所述网页内容包含的内容数量;
并且/或者,所述基于路径信息生成的结构特征包括以下项之中的至少一项:路径层数、路径层标识中是否存在目标标识以及目标标识的路径层中是否包含预设关键字。
6.一种基于分类模型对网页数据进行分类的方法,其中,所述分类模型如权利要求1-5中任一项所述的分类模型,包括:
从待预测网页数据中获取预测样本数据,所述预测样本数据包括待预测网页数据的网页内容和路径信息;
至少基于网页内容和路径信息,按照分类模型的训练样本数据的特征生成方式来生成所述预测样本数据的特征;以及
利用所述分类模型,基于由所述预测样本数据的特征组成的预测样本,提供对待预测网页数据进行分类的预测结果。
7.一种用于对网页数据进行分类的分类模型的训练装置,其中,所述装置包括:
第一获取单元,用于从网页中对应不同路径的网页数据中获取训练样本数据,所述训练样本数据包括网页数据的网页内容和路径信息;
第二获取单元,用于获取关于所述训练样本数据的真实分类结果的分类标签;
生成单元,用于至少基于网页内容和路径信息来生成所述训练样本数据的特征;以及
训练单元,用于基于由所述训练样本数据的特征以及训练样本数据的分类标签组成的训练样本,通过预设机器学习算法,训练用于对网页数据进行分类的分类模型。
8.一种基于分类模型对网页数据进行分类的装置,其中,所述分类模型如权利要求1-5中任一项所述的分类模型,包括:
获取单元,用于从待预测网页数据中获取预测样本数据,所述预测样本数据包括待预测网页数据的网页内容和路径信息;
生成单元,用于至少基于网页内容和路径信息,按照分类模型的训练样本数据的特征生成方式来生成所述预测样本数据的特征;以及
预测单元,用于利用所述分类模型,基于由所述预测样本数据的特征组成的预测样本,提供对待预测网页数据进行分类的预测结果。
9.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到6中的任一权利要求所述的方法。
10.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到6中的任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910548164.0A CN112131445A (zh) | 2019-06-24 | 2019-06-24 | 用于对网页数据进行分类的分类模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910548164.0A CN112131445A (zh) | 2019-06-24 | 2019-06-24 | 用于对网页数据进行分类的分类模型的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112131445A true CN112131445A (zh) | 2020-12-25 |
Family
ID=73849707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910548164.0A Pending CN112131445A (zh) | 2019-06-24 | 2019-06-24 | 用于对网页数据进行分类的分类模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131445A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411587A (zh) * | 2010-09-21 | 2012-04-11 | 腾讯科技(深圳)有限公司 | 一种网页分类方法和装置 |
US20120209795A1 (en) * | 2011-02-12 | 2012-08-16 | Red Contexto Ltd. | Web page analysis system for computerized derivation of webpage audience characteristics |
CN104809125A (zh) * | 2014-01-24 | 2015-07-29 | 腾讯科技(深圳)有限公司 | 一种网页类别的识别方法和装置 |
CN105205090A (zh) * | 2015-05-29 | 2015-12-30 | 湖南大学 | 基于网页链接分析和支持向量机的网页文本分类算法研究 |
CN108874996A (zh) * | 2018-06-13 | 2018-11-23 | 北京知道创宇信息技术有限公司 | 网站分类方法及装置 |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
-
2019
- 2019-06-24 CN CN201910548164.0A patent/CN112131445A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411587A (zh) * | 2010-09-21 | 2012-04-11 | 腾讯科技(深圳)有限公司 | 一种网页分类方法和装置 |
US20120209795A1 (en) * | 2011-02-12 | 2012-08-16 | Red Contexto Ltd. | Web page analysis system for computerized derivation of webpage audience characteristics |
CN104809125A (zh) * | 2014-01-24 | 2015-07-29 | 腾讯科技(深圳)有限公司 | 一种网页类别的识别方法和装置 |
CN105205090A (zh) * | 2015-05-29 | 2015-12-30 | 湖南大学 | 基于网页链接分析和支持向量机的网页文本分类算法研究 |
CN108874996A (zh) * | 2018-06-13 | 2018-11-23 | 北京知道创宇信息技术有限公司 | 网站分类方法及装置 |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mühlroth et al. | A systematic literature review of mining weak signals and trends for corporate foresight | |
Zhu et al. | Unsupervised entity resolution on multi-type graphs | |
CN111125086B (zh) | 获取数据资源的方法、装置、存储介质及处理器 | |
US8359307B2 (en) | Method and apparatus for building sales tools by mining data from websites | |
CN103577490A (zh) | 一种网页浏览历史展现方法及装置 | |
Jirkovský et al. | Semantic Heterogeneity Reduction for Big Data in Industrial Automation. | |
Fletcher | A quality-based web api selection for mashup development using affinity propagation | |
CA3155031A1 (en) | Improved search engine using joint learning for multi-label classification | |
CN110020068B (zh) | 一种页面爬取规则的配置方法及装置 | |
Navarro Bullock et al. | Accessing information with tags: search and ranking | |
Salminen et al. | Using machine learning to predict ranking of webpages in the gift industry: factors for search-engine optimization | |
Yatskov et al. | Extraction of data from mass media web sites | |
CN117033744A (zh) | 数据查询方法、装置、存储介质以及电子设备 | |
Milovančević et al. | Time and ontology for resource recommendation system | |
Wanjari et al. | Automatic news extraction system for Indian online news papers | |
CN106776654B (zh) | 一种数据搜索方法及装置 | |
Katiyar et al. | TagIT: a system for image auto-tagging and clustering | |
Pan et al. | Improving recommendations in tag-based systems with spectral clustering of tag neighbors | |
CN112131445A (zh) | 用于对网页数据进行分类的分类模型的训练方法及装置 | |
Govind et al. | Semantic fingerprinting: a novel method for entity-level content classification | |
CN111125483B (zh) | 网页数据抽取模板生成方法、装置、计算机装置及存储介质 | |
CN110955845A (zh) | 用户兴趣识别方法及装置、搜索结果处理方法及装置 | |
Kundi et al. | A review of text summarization | |
Gupta et al. | Large-scale information extraction from emails with data constraints | |
Ridzuan et al. | A Thematic Review on Data Quality Challenges and Dimension in the Era of Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |