CN114970458A

CN114970458A - 基于机器学习技术提取html文档内容的方法和装置

Info

Publication number: CN114970458A
Application number: CN202210506859.4A
Authority: CN
Inventors: 朱冬平; 潘心冰; 李明明
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-08-30

Abstract

本发明公开了基于机器学习技术提取HTML文档内容的方法和装置，属于自然语言处理技术领域，本发明要解决的技术问题为如何提高网页文档内容信息提取的准确性，采用的技术方案为：该方法是利用机器学习算法中的决策树和支持向量机分类算法来训练文本数据得到一个二分类模型，利用二分类模型从HTML网页中分类出正文内容和其他无用样本信息；具体如下：数据获取：通过爬虫技术获取网页数据，通过获取的网页数据训练二分类模型；数据预处理：将获取的网页数据按照HTML特征进行标注；二分类模型训练：选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练；二分类模型评估：计算Accuracy进行模型评估；跨领域微调：选取多领域内文本，优化二分类模型。

Description

基于机器学习技术提取HTML文档内容的方法和装置

技术领域

本发明涉及自然语言处理技术领域，具体地说是一种基于机器学习技术提取HTML文档内容的方法和装置。

背景技术

自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向，其可以弥补人类交流和计算机理解之间的差距，为企业发展提供诸多便利。目前较为常用的自然语言处理方法大多基于机器学习算法甚至深度学习算法，其自然而然需要大量的文本数据用来进行训练。

网页通常是获取文本数据源的一种来源，但是网页中包含了诸多如标签等无价值的冗余信息。对于业务分析而言,有价值的信息往往是网页正文部分,为了便于分析,需要将网页中和正文不相干的部分给剔除。

对于特定的网站，可以分析其html结构，根据其结构来获取正文信息。不同的网站，正文所在的位置不同，并且HTML的结构也不同。对于爬虫而言，抓取的页面是各种各样的，不可能针对所有的页面去写抓取规则来提取正文内容，因此需要一种通用的算法将正文提取出来。

现有的一些网页正文提取算法具体如下：

(1)、基于标签用途的正文提取算法；比如title或h1,h2标签一般用作标题，p一般表示正文段落，根据标签的含义去提取正文。

(2)、基于标签密度判定的正文提取算法；即字符统计，正文部分html标签的密度比较低，确定一个阈值，按照标签密度提取正文部分。

(3)、基于数据挖掘思想的网页正文提取算法；这类方法会涉及到统计学和概率论的一些知识，进一步的会涉及到机器学习算法。

(4)、基于视觉网页块分析技术的正文提取算法。计算机视觉这种较为复杂的方法实现上比较困难，但就提取效果而言，这种方法提取的精度还是不错。

故如何提高网页文档内容信息提取的准确性是目前亟待解决的技术问题。

发明内容

本发明的技术任务是提供一种基于机器学习技术提取HTML文档内容的方法和装置，来解决如何提高网页文档内容信息提取的准确性的问题。

本发明的技术任务是按以下方式实现的，一种基于机器学习技术提取HTML文档内容的方法，该方法是利用机器学习算法中的决策树和支持向量机分类算法来训练文本数据得到一个二分类模型，利用二分类模型从HTML网页中分类出正文内容和其他无用样本信息；具体如下：

数据获取：通过爬虫技术获取网页数据，通过获取的网页数据训练二分类模型；

数据预处理：将获取的网页数据按照HTML特征进行标注；

二分类模型训练：选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练，并使用scikit-learn库进行二分类模型训练；

二分类模型评估：计算Accuracy进行模型评估；

跨领域微调：选取多领域内文本，优化二分类模型。

作为优选，数据预处理是指对文本按照文本块(子序列块)进行手工标注，文本块用于后期的模型验证分析；文本块包括，分别有标题、正文内容、用户评论、相关链接及补充内容。

更优地，数据预处理具体如下：

去除文本块中的无效内容；无效内容包括空白符、标点符号及停用词；

使用正则表达式过滤掉文本块中的多媒体链接地址url。

作为优选，二分类模型训练具体如下：

数据划分：使用sickit-learn库的train_test_split()方法按照8：2的比例将标注好的数据集划分为训练集和测试集；

分词：使用jieba分词工具库将句子分成多个词语；

特征提取：使用TF-IDF算法和scikit-learn库的TfidfVectorizer()方法对文本数据集进行特征提取；

通过决策树模块训练模型：调用scikit-learn库的决策树模块，输入训练数据集，通过决策树模块调用fit()方法进行模型训练；具体如下：

从训练数据集中随机取9成作为“训练集(train datasets)”，取1成作为“验证集(val datasets)”；

从scikit-learn库中进行调用；

将训练集数据训练一次称为一次迭代(epoch)，连续迭代10次，此即为10-折交叉验证法。

更优地，TF-IDF算法具体如下：

计算词频：TF＝任一个词在文本中的出现次数/文章的总词数；

计算逆文档频率：IDF＝log(语料库的文本总数/包含该词的文本数+1)；

计算TF-IDF：TF-IDF＝TF×IDF；

其中，TF表示词频；IDF表示逆文档频率。

作为优选，二分类模型评估是指利用测试集进行模型测试，具体如下：

输入测试集文本到训练好的二分类模型中，得出对应文本的预测标签类别；

根据预测结果进行统计求得混淆矩阵；其中，混淆矩阵由四个统计值构成，分别如下：

①、True Positive(TP)：真实值是阳(P)，模型预测为阳的数量(P)；

②、False Negative(FN)：真实值是阳(P)，模型预测为阴的数量(N)；

③、False Positive(FP)：真实值是阴(N)，模型预测为阳的数量(P)；

④、True Negative(TN)：真实值是阴(N)，模型预测为阴的数量(N)；

将True Positive(TP)、False Negative(FN)、False Positive(FP)及TrueNegative(TN)这四个统计值放在一个表格中，构成混淆矩阵；

计算二分类模型的准确率(Accuracy)及精度(Precision)作为评价标准，公式如下：

准确率(Accuracy)＝(TP+TN)/(TP+TN+FP+FN)；

二分类模型中所有判断正确的结果占总预测值的比重。

作为优选，跨领域微调具体如下：

使用CleanEval数据集中的测试集对前面训练好的二分类模型进行评估，即采用混淆矩阵计算准确率(Accuracy)来对分类模型进行评估；

根据评估的结果，使用CleanEval数据集中的训练集采用10-折交叉验证法对二分类模型进行训练，在多次迭代后使其达到最优效果。

一种基于机器学习技术提取HTML文档内容的装置，该装置包括：

获取模块，用于通过爬虫技术获取网页数据，通过获取的网页数据训练二分类模型；

预处理模块，用于将获取的网页数据按照HTML特征进行标注；

训练模块，用于选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练，并使用scikit-learn库进行二分类模型训练；

评估模块，用于计算Accuracy进行模型评估；

微调模块，用于选取多领域内文本，优化二分类模型。

一种电子设备，包括：存储器和至少一个处理器；

其中，所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上述的基于机器学习技术提取HTML文档内容的方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行时，实现如权上述的基于机器学习技术提取HTML文档内容的方法。

本发明的基于机器学习技术提取HTML文档内容的方法和装置具有以下优点：

(一)本发明采用了机器学习的思想，是、经过大量结构不同的HTML页面充分训练拟合得到；因此对各种不同结构的HTML页面具有普适性，并且算法实现相对简单，所得到的二分类模型也可以得到较高的准确性；

(二)本发明利用机器学习算法中的决策树和线性支持向量机分类算法来训练大量文本数据得到一个二分类模型，从而可以从HTML网页中分类出正文内容和其他大量无用样板信息；

(三)本发明利用了机器学习算法，并且经过了反复的通用性验证和微调训练，最终获得的模型具有普遍适用性，可以应对各种结果不同的HTML网页；

(四)本发明利用了机器学习算法的思想，是经过大量结构不同的HTML页面作为训练数据充分训练拟合得到，并且算法工程化实现相对简单，并且采用了统一的提取器接口来调用各种过滤方式；

(五)本发明利用机器学习模型进行分类而得到正文内容的方法具有普遍适用性，因此可以提取各种网站中结构异同的HTML网页，进而达到为后续其他自然语言处理任务中的模型训练提供较为纯净数据资源的目的；

(六)本发明采用了大量数据运用机器学习算法进行训练，从而得到一个可以分类出网页正文的二分类模型，其基于统计的思想可以适应于大多数结构不同的HTML网页；因此，根据本发明训练得出的模型可以较为准确的分类出网页的正文内容和无用内容；

(七)本发明为其他自然语言处理任务提供较为纯净的文本数据源，本发明算法基于机器学习中的决策树和支持向量机分类算法，在使用大量文本数据进行训练后，可以得到一个二分类模型；在对算法进行实现后，只需要输入HTML对应的URL链接以及选取所提供的具体解析器即可解析得到HTML中的正文文本、图像链接等有益内容；解析过程中去除了其中的大量样板文件、广告等无用信息，达到为其他自然语言处理任务提供初始文本数据集的目的；

(八)本发明设计了HTML网页正文内容提取算法，并对其进行实现。其可以在输入HTML对应的URL链接以及选择具体抽取器后得到网页正文内容，为其他相关的自然语言处理任务提供干净的文本数据源。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于机器学习技术提取HTML文档内容的方法的流程框图；

附图2为二分类模型训练的流程框图；

附图3为基于机器学习技术提取HTML文档内容的装置工作过程的流程框图。

具体实施方式

参照说明书附图和具体实施例对本发明的基于机器学习技术提取HTML文档内容的方法和装置作以下详细地说明。

实施例1：

如附图1所示，本实施例提供了一种基于机器学习技术提取HTML文档内容的方法，该方法是利用机器学习算法中的决策树和支持向量机分类算法来训练文本数据得到一个二分类模型，利用二分类模型从HTML网页中分类出正文内容和其他无用样本信息；具体如下：

S1、数据获取：通过爬虫技术获取网页数据，通过获取的网页数据训练二分类模型；

仅选取新闻类领域的网页进行实验，选择同一类型网页方便标注和后期处理分析。本次实验选取了开源的谷歌新闻数据集，本数据集来源于408个不同类型的网站中的621篇新闻类文章组成。这些新闻类文章通过谷歌搜索引擎爬取而得到7854个不同网站中的254000篇文章，并从中随机选取得到。

S2、数据预处理：将获取的网页数据按照HTML特征进行标注；

S3、二分类模型训练：选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练，并使用scikit-learn库进行二分类模型训练；

S4、二分类模型评估：计算Accuracy进行模型评估；

S5、跨领域微调：选取多领域内文本，优化二分类模型。

本实施例步骤S2中的数据预处理是指对文本按照文本块(子序列块)进行手工标注，文本块用于后期的模型验证分析；文本块包括，分别有标题、正文内容、用户评论、相关链接及补充内容。

当前主要是构建一个二分类模型，用来分类出文章中的正文和其他内容，这些除正文内容之外的其他内容也可称为样板文件。也即本发明需要训练一个可以分类出样板文件和正文内容的二分类模型。因此，对文章按照子序列块进行手工标注。子序列也可称为文本块，分别有标题、正文内容、用户评论、相关链接、补充内容等，这些文本块可用于后期的模型验证分析。

本实施例步骤S2中的数据预处理具体如下：

S201、去除文本块中的无效内容；无效内容包括空白符、标点符号及停用词；

S202、使用正则表达式过滤掉文本块中的多媒体链接地址url。

如附图2所示，本实施例步骤S3中的二分类模型训练具体如下：

S301、数据划分：使用sickit-learn库的train_test_split()方法按照8：2的比例将标注好的数据集划分为训练集和测试集；

S302、分词：使用jieba分词工具库将句子分成多个词语；

S303、特征提取：使用TF-IDF算法和scikit-learn库的TfidfVectorizer()方法对文本数据集进行特征提取；

S304、通过决策树模块训练模型：调用scikit-learn库的决策树模块，输入训练数据集，通过决策树模块调用fit()方法进行模型训练；具体如下：

①、从训练数据集中随机取9成作为“训练集(train datasets)”，取1成作为“验证集(val datasets)”；

②、从scikit-learn库中进行调用；

③、将训练集数据训练一次称为一次迭代(epoch)，连续迭代10次，此即为10-折交叉验证法。

本实施例步骤S303中的TF-IDF算法具体如下：

S30301、计算词频：TF＝任一个词在文本中的出现次数/文章的总词数；

S30302、计算逆文档频率：IDF＝log(语料库的文本总数/包含该词的文本数+1)；

S30303、计算TF-IDF：TF-IDF＝TF×IDF；

其中，TF表示词频；IDF表示逆文档频率。

某段文本所计算得到的特征向量示例如：0.3311628257997225，这个数值表示某个词的在语料库中的特征值为此值。

本实施例步骤S4中的二分类模型评估是指利用测试集进行模型测试，具体如下：

S401、输入测试集文本到训练好的二分类模型中，得出对应文本的预测标签类别；

S402、根据预测结果进行统计求得混淆矩阵；其中，混淆矩阵由四个统计值构成，分别如下：

将True Positive(TP)、False Negative(FN)、False Positive(FP)及TrueNegative(TN)这四个统计值放在一个表格中，构成混淆矩阵，如下表所示：

S403、计算二分类模型的准确率(Accuracy)及精度(Precision)作为评价标准，公式如下：

准确率(Accuracy)＝(TP+TN)/(TP+TN+FP+FN)；

二分类模型中所有判断正确的结果占总预测值的比重。本发明使用了这个评价标准来对训练好的模型进行评估。可在scikit-learn库中直接调用对应方法求得该值。

本实施例步骤S5中的跨领域微调：微调即是在原有训练好模型的基础上再次利用新的数据集进行训练。

上面步骤是针对新闻领域类的文章进行了训练，初步得到了一个二分类器，可以将网页的正文部分和非正文部分进行分类。但通常情况下，网页正文抽取所面对的网页类别各式各样，除了新闻类，还有百科、博客之类的文章类型。为了扩大此二分类模型适用领域，本发明选取了一个ACL开源的数据集CleanEval来作为分类模型微调数据集。其由733个HTML网页组成，这些网页来自于搜索引擎。这个数据集包含了多个领域的不同结构的HTML网页并且已经人工标注好。这个开源标准数据集已经被分割成含有58篇文章的训练集和675篇文章的测试集两部分。首先使用测试集对已训练好的模型进行评估，综合分析其对各种结构HTML网页的普适程度。

本实施例步骤S5中的跨领域微调具体如下：

S501、使用CleanEval数据集中的测试集对前面训练好的二分类模型进行评估，即采用混淆矩阵计算准确率(Accuracy)来对分类模型进行评估；

S502、根据评估的结果，使用CleanEval数据集中的训练集采用10-折交叉验证法对二分类模型进行训练，在多次迭代后使其达到最优效果。

实施例2：

本实施例提供了一种基于机器学习技术提取HTML文档内容的装置，该装置包括，

预处理模块，用于将获取的网页数据按照HTML特征进行标注；

评估模块，用于计算Accuracy进行模型评估；

微调模块，用于选取多领域内文本，优化二分类模型。

如附图3所示，该装置的工作过程具体如下：

(1)、通过获取模块获取标注好的网页文本数据；

(2)、通过预处理模块将数据进行划分，初步预处理；

(3)、选取决策树和SVM算法通过训练模块进行训练；

(4)、选取不同领域文章通过微调模块进行模型微调；

(5)、使用训练好模型进行网页正文内容提取。

实施例3：

本实施例还提供了一种电子设备，包括：存储器和处理器；

其中，所述存储器存储计算机执行指令；

处理器执行所述存储器存储的计算机执行指令，使得处理器执行任一实施例的基于机器学习技术提取HTML文档内容的方法。

处理器可以是中央处理单元(CPU)，还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通过处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于储存计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现电子设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器还可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，只能存储卡(SMC)，安全数字(SD)卡，闪存卡、至少一个磁盘存储期间、闪存器件、或其他易失性固态存储器件。

实施例4：

本实施例还提供了一种计算机可读存储介质，其中存储有多条指令，指令由处理器加载，使处理器执行本发明任一实施例中的基于机器学习技术提取HTML文档内容的方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于机器学习技术提取HTML文档内容的方法，其特征在于，该方法是利用机器学习算法中的决策树和支持向量机分类算法来训练文本数据得到一个二分类模型，利用二分类模型从HTML网页中分类出正文内容和其他无用样本信息；具体如下：

数据预处理：将获取的网页数据按照HTML特征进行标注；

二分类模型评估：计算Accuracy进行模型评估；

跨领域微调：选取多领域内文本，优化二分类模型。

2.根据权利要求1所述的基于机器学习技术提取HTML文档内容的方法，其特征在于，数据预处理是指对文本按照文本块进行手工标注，文本块用于后期的模型验证分析；文本块包括，分别有标题、正文内容、用户评论、相关链接及补充内容。

3.根据权利要求1或2所述的基于机器学习技术提取HTML文档内容的方法，其特征在于，数据预处理具体如下：

使用正则表达式过滤掉文本块中的多媒体链接地址url。

4.根据权利要求1所述的基于机器学习技术提取HTML文档内容的方法，其特征在于，二分类模型训练具体如下：

分词：使用jieba分词工具库将句子分成多个词语；

从训练数据集中随机取9成作为“训练集”，取1成作为“验证集”；

从scikit-learn库中进行调用；

将训练集数据训练一次称为一次迭代，连续迭代10次，此即为10-折交叉验证法。

5.根据权利要求4所述的基于机器学习技术提取HTML文档内容的方法，其特征在于，TF-IDF算法具体如下：

计算TF-IDF：TF-IDF＝TF×IDF；

其中，TF表示词频；IDF表示逆文档频率。

6.根据权利要求1所述的基于机器学习技术提取HTML文档内容的方法，其特征在于，二分类模型评估是指利用测试集进行模型测试，具体如下：

①、True Positive：真实值是阳，模型预测为阳的数量；

②、False Negative：真实值是阳，模型预测为阴的数量；

③、False Positive：真实值是阴，模型预测为阳的数量；

④、True Negative：真实值是阴，模型预测为阴的数量；

将True Positive、False Negative、False Positive及True Negative这四个统计值放在一个表格中，构成混淆矩阵；

计算二分类模型的准确率作为评价标准，公式如下：

准确率＝(TP+TN)/(TP+TN+FP+FN)；

二分类模型中所有判断正确的结果占总预测值的比重。

7.根据权利要求1所述的基于机器学习技术提取HTML文档内容的方法，其特征在于，跨领域微调具体如下：

使用CleanEval数据集中的测试集对前面训练好的二分类模型进行评估，即采用混淆矩阵计算准确率来对分类模型进行评估；

8.一种基于机器学习技术提取HTML文档内容的装置，其特征在于，该装置包括：

预处理模块，用于将获取的网页数据按照HTML特征进行标注；

评估模块，用于计算Accuracy进行模型评估；

微调模块，用于选取多领域内文本，优化二分类模型。

9.一种电子设备，其特征在于，包括：存储器和至少一个处理器；

其中，所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至7任一所述的基于机器学习技术提取HTML文档内容的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行时，实现如权利要求1至7中任一所述的基于机器学习技术提取HTML文档内容的方法。