CN114970458A - 基于机器学习技术提取html文档内容的方法和装置 - Google Patents

基于机器学习技术提取html文档内容的方法和装置 Download PDF

Info

Publication number
CN114970458A
CN114970458A CN202210506859.4A CN202210506859A CN114970458A CN 114970458 A CN114970458 A CN 114970458A CN 202210506859 A CN202210506859 A CN 202210506859A CN 114970458 A CN114970458 A CN 114970458A
Authority
CN
China
Prior art keywords
training
data
model
text
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210506859.4A
Other languages
English (en)
Inventor
朱冬平
潘心冰
李明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202210506859.4A priority Critical patent/CN114970458A/zh
Publication of CN114970458A publication Critical patent/CN114970458A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于机器学习技术提取HTML文档内容的方法和装置,属于自然语言处理技术领域,本发明要解决的技术问题为如何提高网页文档内容信息提取的准确性,采用的技术方案为:该方法是利用机器学习算法中的决策树和支持向量机分类算法来训练文本数据得到一个二分类模型,利用二分类模型从HTML网页中分类出正文内容和其他无用样本信息;具体如下:数据获取:通过爬虫技术获取网页数据,通过获取的网页数据训练二分类模型;数据预处理:将获取的网页数据按照HTML特征进行标注;二分类模型训练:选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练;二分类模型评估:计算Accuracy进行模型评估;跨领域微调:选取多领域内文本,优化二分类模型。

Description

基于机器学习技术提取HTML文档内容的方法和装置
技术领域
本发明涉及自然语言处理技术领域,具体地说是一种基于机器学习技术提取HTML文档内容的方法和装置。
背景技术
自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其可以弥补人类交流和计算机理解之间的差距,为企业发展提供诸多便利。目前较为常用的自然语言处理方法大多基于机器学习算法甚至深度学习算法,其自然而然需要大量的文本数据用来进行训练。
网页通常是获取文本数据源的一种来源,但是网页中包含了诸多如标签等无价值的冗余信息。对于业务分析而言,有价值的信息往往是网页正文部分,为了便于分析,需要将网页中和正文不相干的部分给剔除。
对于特定的网站,可以分析其html结构,根据其结构来获取正文信息。不同的网站,正文所在的位置不同,并且HTML的结构也不同。对于爬虫而言,抓取的页面是各种各样的,不可能针对所有的页面去写抓取规则来提取正文内容,因此需要一种通用的算法将正文提取出来。
现有的一些网页正文提取算法具体如下:
(1)、基于标签用途的正文提取算法;比如title或h1,h2标签一般用作标题,p一般表示正文段落,根据标签的含义去提取正文。
(2)、基于标签密度判定的正文提取算法;即字符统计,正文部分html标签的密度比较低,确定一个阈值,按照标签密度提取正文部分。
(3)、基于数据挖掘思想的网页正文提取算法;这类方法会涉及到统计学和概率论的一些知识,进一步的会涉及到机器学习算法。
(4)、基于视觉网页块分析技术的正文提取算法。计算机视觉这种较为复杂的方法实现上比较困难,但就提取效果而言,这种方法提取的精度还是不错。
故如何提高网页文档内容信息提取的准确性是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种基于机器学习技术提取HTML文档内容的方法和装置,来解决如何提高网页文档内容信息提取的准确性的问题。
本发明的技术任务是按以下方式实现的,一种基于机器学习技术提取HTML文档内容的方法,该方法是利用机器学习算法中的决策树和支持向量机分类算法来训练文本数据得到一个二分类模型,利用二分类模型从HTML网页中分类出正文内容和其他无用样本信息;具体如下:
数据获取:通过爬虫技术获取网页数据,通过获取的网页数据训练二分类模型;
数据预处理:将获取的网页数据按照HTML特征进行标注;
二分类模型训练:选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练,并使用scikit-learn库进行二分类模型训练;
二分类模型评估:计算Accuracy进行模型评估;
跨领域微调:选取多领域内文本,优化二分类模型。
作为优选,数据预处理是指对文本按照文本块(子序列块)进行手工标注,文本块用于后期的模型验证分析;文本块包括,分别有标题、正文内容、用户评论、相关链接及补充内容。
更优地,数据预处理具体如下:
去除文本块中的无效内容;无效内容包括空白符、标点符号及停用词;
使用正则表达式过滤掉文本块中的多媒体链接地址url。
作为优选,二分类模型训练具体如下:
数据划分:使用sickit-learn库的train_test_split()方法按照8:2的比例将标注好的数据集划分为训练集和测试集;
分词:使用jieba分词工具库将句子分成多个词语;
特征提取:使用TF-IDF算法和scikit-learn库的TfidfVectorizer()方法对文本数据集进行特征提取;
通过决策树模块训练模型:调用scikit-learn库的决策树模块,输入训练数据集,通过决策树模块调用fit()方法进行模型训练;具体如下:
从训练数据集中随机取9成作为“训练集(train datasets)”,取1成作为“验证集(val datasets)”;
从scikit-learn库中进行调用;
将训练集数据训练一次称为一次迭代(epoch),连续迭代10次,此即为10-折交叉验证法。
更优地,TF-IDF算法具体如下:
计算词频:TF=任一个词在文本中的出现次数/文章的总词数;
计算逆文档频率:IDF=log(语料库的文本总数/包含该词的文本数+1);
计算TF-IDF:TF-IDF=TF×IDF;
其中,TF表示词频;IDF表示逆文档频率。
作为优选,二分类模型评估是指利用测试集进行模型测试,具体如下:
输入测试集文本到训练好的二分类模型中,得出对应文本的预测标签类别;
根据预测结果进行统计求得混淆矩阵;其中,混淆矩阵由四个统计值构成,分别如下:
①、True Positive(TP):真实值是阳(P),模型预测为阳的数量(P);
②、False Negative(FN):真实值是阳(P),模型预测为阴的数量(N);
③、False Positive(FP):真实值是阴(N),模型预测为阳的数量(P);
④、True Negative(TN):真实值是阴(N),模型预测为阴的数量(N);
将True Positive(TP)、False Negative(FN)、False Positive(FP)及TrueNegative(TN)这四个统计值放在一个表格中,构成混淆矩阵;
计算二分类模型的准确率(Accuracy)及精度(Precision)作为评价标准,公式如下:
准确率(Accuracy)=(TP+TN)/(TP+TN+FP+FN);
二分类模型中所有判断正确的结果占总预测值的比重。
作为优选,跨领域微调具体如下:
使用CleanEval数据集中的测试集对前面训练好的二分类模型进行评估,即采用混淆矩阵计算准确率(Accuracy)来对分类模型进行评估;
根据评估的结果,使用CleanEval数据集中的训练集采用10-折交叉验证法对二分类模型进行训练,在多次迭代后使其达到最优效果。
一种基于机器学习技术提取HTML文档内容的装置,该装置包括:
获取模块,用于通过爬虫技术获取网页数据,通过获取的网页数据训练二分类模型;
预处理模块,用于将获取的网页数据按照HTML特征进行标注;
训练模块,用于选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练,并使用scikit-learn库进行二分类模型训练;
评估模块,用于计算Accuracy进行模型评估;
微调模块,用于选取多领域内文本,优化二分类模型。
一种电子设备,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上述的基于机器学习技术提取HTML文档内容的方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如权上述的基于机器学习技术提取HTML文档内容的方法。
本发明的基于机器学习技术提取HTML文档内容的方法和装置具有以下优点:
(一)本发明采用了机器学习的思想,是、经过大量结构不同的HTML页面充分训练拟合得到;因此对各种不同结构的HTML页面具有普适性,并且算法实现相对简单,所得到的二分类模型也可以得到较高的准确性;
(二)本发明利用机器学习算法中的决策树和线性支持向量机分类算法来训练大量文本数据得到一个二分类模型,从而可以从HTML网页中分类出正文内容和其他大量无用样板信息;
(三)本发明利用了机器学习算法,并且经过了反复的通用性验证和微调训练,最终获得的模型具有普遍适用性,可以应对各种结果不同的HTML网页;
(四)本发明利用了机器学习算法的思想,是经过大量结构不同的HTML页面作为训练数据充分训练拟合得到,并且算法工程化实现相对简单,并且采用了统一的提取器接口来调用各种过滤方式;
(五)本发明利用机器学习模型进行分类而得到正文内容的方法具有普遍适用性,因此可以提取各种网站中结构异同的HTML网页,进而达到为后续其他自然语言处理任务中的模型训练提供较为纯净数据资源的目的;
(六)本发明采用了大量数据运用机器学习算法进行训练,从而得到一个可以分类出网页正文的二分类模型,其基于统计的思想可以适应于大多数结构不同的HTML网页;因此,根据本发明训练得出的模型可以较为准确的分类出网页的正文内容和无用内容;
(七)本发明为其他自然语言处理任务提供较为纯净的文本数据源,本发明算法基于机器学习中的决策树和支持向量机分类算法,在使用大量文本数据进行训练后,可以得到一个二分类模型;在对算法进行实现后,只需要输入HTML对应的URL链接以及选取所提供的具体解析器即可解析得到HTML中的正文文本、图像链接等有益内容;解析过程中去除了其中的大量样板文件、广告等无用信息,达到为其他自然语言处理任务提供初始文本数据集的目的;
(八)本发明设计了HTML网页正文内容提取算法,并对其进行实现。其可以在输入HTML对应的URL链接以及选择具体抽取器后得到网页正文内容,为其他相关的自然语言处理任务提供干净的文本数据源。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于机器学习技术提取HTML文档内容的方法的流程框图;
附图2为二分类模型训练的流程框图;
附图3为基于机器学习技术提取HTML文档内容的装置工作过程的流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于机器学习技术提取HTML文档内容的方法和装置作以下详细地说明。
实施例1:
如附图1所示,本实施例提供了一种基于机器学习技术提取HTML文档内容的方法,该方法是利用机器学习算法中的决策树和支持向量机分类算法来训练文本数据得到一个二分类模型,利用二分类模型从HTML网页中分类出正文内容和其他无用样本信息;具体如下:
S1、数据获取:通过爬虫技术获取网页数据,通过获取的网页数据训练二分类模型;
仅选取新闻类领域的网页进行实验,选择同一类型网页方便标注和后期处理分析。本次实验选取了开源的谷歌新闻数据集,本数据集来源于408个不同类型的网站中的621篇新闻类文章组成。这些新闻类文章通过谷歌搜索引擎爬取而得到7854个不同网站中的254000篇文章,并从中随机选取得到。
S2、数据预处理:将获取的网页数据按照HTML特征进行标注;
S3、二分类模型训练:选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练,并使用scikit-learn库进行二分类模型训练;
S4、二分类模型评估:计算Accuracy进行模型评估;
S5、跨领域微调:选取多领域内文本,优化二分类模型。
本实施例步骤S2中的数据预处理是指对文本按照文本块(子序列块)进行手工标注,文本块用于后期的模型验证分析;文本块包括,分别有标题、正文内容、用户评论、相关链接及补充内容。
当前主要是构建一个二分类模型,用来分类出文章中的正文和其他内容,这些除正文内容之外的其他内容也可称为样板文件。也即本发明需要训练一个可以分类出样板文件和正文内容的二分类模型。因此,对文章按照子序列块进行手工标注。子序列也可称为文本块,分别有标题、正文内容、用户评论、相关链接、补充内容等,这些文本块可用于后期的模型验证分析。
本实施例步骤S2中的数据预处理具体如下:
S201、去除文本块中的无效内容;无效内容包括空白符、标点符号及停用词;
S202、使用正则表达式过滤掉文本块中的多媒体链接地址url。
如附图2所示,本实施例步骤S3中的二分类模型训练具体如下:
S301、数据划分:使用sickit-learn库的train_test_split()方法按照8:2的比例将标注好的数据集划分为训练集和测试集;
S302、分词:使用jieba分词工具库将句子分成多个词语;
S303、特征提取:使用TF-IDF算法和scikit-learn库的TfidfVectorizer()方法对文本数据集进行特征提取;
S304、通过决策树模块训练模型:调用scikit-learn库的决策树模块,输入训练数据集,通过决策树模块调用fit()方法进行模型训练;具体如下:
①、从训练数据集中随机取9成作为“训练集(train datasets)”,取1成作为“验证集(val datasets)”;
②、从scikit-learn库中进行调用;
③、将训练集数据训练一次称为一次迭代(epoch),连续迭代10次,此即为10-折交叉验证法。
本实施例步骤S303中的TF-IDF算法具体如下:
S30301、计算词频:TF=任一个词在文本中的出现次数/文章的总词数;
S30302、计算逆文档频率:IDF=log(语料库的文本总数/包含该词的文本数+1);
S30303、计算TF-IDF:TF-IDF=TF×IDF;
其中,TF表示词频;IDF表示逆文档频率。
某段文本所计算得到的特征向量示例如:0.3311628257997225,这个数值表示某个词的在语料库中的特征值为此值。
本实施例步骤S4中的二分类模型评估是指利用测试集进行模型测试,具体如下:
S401、输入测试集文本到训练好的二分类模型中,得出对应文本的预测标签类别;
S402、根据预测结果进行统计求得混淆矩阵;其中,混淆矩阵由四个统计值构成,分别如下:
①、True Positive(TP):真实值是阳(P),模型预测为阳的数量(P);
②、False Negative(FN):真实值是阳(P),模型预测为阴的数量(N);
③、False Positive(FP):真实值是阴(N),模型预测为阳的数量(P);
④、True Negative(TN):真实值是阴(N),模型预测为阴的数量(N);
将True Positive(TP)、False Negative(FN)、False Positive(FP)及TrueNegative(TN)这四个统计值放在一个表格中,构成混淆矩阵,如下表所示:
Figure BDA0003637712430000081
S403、计算二分类模型的准确率(Accuracy)及精度(Precision)作为评价标准,公式如下:
准确率(Accuracy)=(TP+TN)/(TP+TN+FP+FN);
二分类模型中所有判断正确的结果占总预测值的比重。本发明使用了这个评价标准来对训练好的模型进行评估。可在scikit-learn库中直接调用对应方法求得该值。
本实施例步骤S5中的跨领域微调:微调即是在原有训练好模型的基础上再次利用新的数据集进行训练。
上面步骤是针对新闻领域类的文章进行了训练,初步得到了一个二分类器,可以将网页的正文部分和非正文部分进行分类。但通常情况下,网页正文抽取所面对的网页类别各式各样,除了新闻类,还有百科、博客之类的文章类型。为了扩大此二分类模型适用领域,本发明选取了一个ACL开源的数据集CleanEval来作为分类模型微调数据集。其由733个HTML网页组成,这些网页来自于搜索引擎。这个数据集包含了多个领域的不同结构的HTML网页并且已经人工标注好。这个开源标准数据集已经被分割成含有58篇文章的训练集和675篇文章的测试集两部分。首先使用测试集对已训练好的模型进行评估,综合分析其对各种结构HTML网页的普适程度。
本实施例步骤S5中的跨领域微调具体如下:
S501、使用CleanEval数据集中的测试集对前面训练好的二分类模型进行评估,即采用混淆矩阵计算准确率(Accuracy)来对分类模型进行评估;
S502、根据评估的结果,使用CleanEval数据集中的训练集采用10-折交叉验证法对二分类模型进行训练,在多次迭代后使其达到最优效果。
实施例2:
本实施例提供了一种基于机器学习技术提取HTML文档内容的装置,该装置包括,
获取模块,用于通过爬虫技术获取网页数据,通过获取的网页数据训练二分类模型;
预处理模块,用于将获取的网页数据按照HTML特征进行标注;
训练模块,用于选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练,并使用scikit-learn库进行二分类模型训练;
评估模块,用于计算Accuracy进行模型评估;
微调模块,用于选取多领域内文本,优化二分类模型。
如附图3所示,该装置的工作过程具体如下:
(1)、通过获取模块获取标注好的网页文本数据;
(2)、通过预处理模块将数据进行划分,初步预处理;
(3)、选取决策树和SVM算法通过训练模块进行训练;
(4)、选取不同领域文章通过微调模块进行模型微调;
(5)、使用训练好模型进行网页正文内容提取。
实施例3:
本实施例还提供了一种电子设备,包括:存储器和处理器;
其中,所述存储器存储计算机执行指令;
处理器执行所述存储器存储的计算机执行指令,使得处理器执行任一实施例的基于机器学习技术提取HTML文档内容的方法。
处理器可以是中央处理单元(CPU),还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通过处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可用于储存计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现电子设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器还可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,只能存储卡(SMC),安全数字(SD)卡,闪存卡、至少一个磁盘存储期间、闪存器件、或其他易失性固态存储器件。
实施例4:
本实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的基于机器学习技术提取HTML文档内容的方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于机器学习技术提取HTML文档内容的方法,其特征在于,该方法是利用机器学习算法中的决策树和支持向量机分类算法来训练文本数据得到一个二分类模型,利用二分类模型从HTML网页中分类出正文内容和其他无用样本信息;具体如下:
数据获取:通过爬虫技术获取网页数据,通过获取的网页数据训练二分类模型;
数据预处理:将获取的网页数据按照HTML特征进行标注;
二分类模型训练:选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练,并使用scikit-learn库进行二分类模型训练;
二分类模型评估:计算Accuracy进行模型评估;
跨领域微调:选取多领域内文本,优化二分类模型。
2.根据权利要求1所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,数据预处理是指对文本按照文本块进行手工标注,文本块用于后期的模型验证分析;文本块包括,分别有标题、正文内容、用户评论、相关链接及补充内容。
3.根据权利要求1或2所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,数据预处理具体如下:
去除文本块中的无效内容;无效内容包括空白符、标点符号及停用词;
使用正则表达式过滤掉文本块中的多媒体链接地址url。
4.根据权利要求1所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,二分类模型训练具体如下:
数据划分:使用sickit-learn库的train_test_split()方法按照8:2的比例将标注好的数据集划分为训练集和测试集;
分词:使用jieba分词工具库将句子分成多个词语;
特征提取:使用TF-IDF算法和scikit-learn库的TfidfVectorizer()方法对文本数据集进行特征提取;
通过决策树模块训练模型:调用scikit-learn库的决策树模块,输入训练数据集,通过决策树模块调用fit()方法进行模型训练;具体如下:
从训练数据集中随机取9成作为“训练集”,取1成作为“验证集”;
从scikit-learn库中进行调用;
将训练集数据训练一次称为一次迭代,连续迭代10次,此即为10-折交叉验证法。
5.根据权利要求4所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,TF-IDF算法具体如下:
计算词频:TF=任一个词在文本中的出现次数/文章的总词数;
计算逆文档频率:IDF=log(语料库的文本总数/包含该词的文本数+1);
计算TF-IDF:TF-IDF=TF×IDF;
其中,TF表示词频;IDF表示逆文档频率。
6.根据权利要求1所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,二分类模型评估是指利用测试集进行模型测试,具体如下:
输入测试集文本到训练好的二分类模型中,得出对应文本的预测标签类别;
根据预测结果进行统计求得混淆矩阵;其中,混淆矩阵由四个统计值构成,分别如下:
①、True Positive:真实值是阳,模型预测为阳的数量;
②、False Negative:真实值是阳,模型预测为阴的数量;
③、False Positive:真实值是阴,模型预测为阳的数量;
④、True Negative:真实值是阴,模型预测为阴的数量;
将True Positive、False Negative、False Positive及True Negative这四个统计值放在一个表格中,构成混淆矩阵;
计算二分类模型的准确率作为评价标准,公式如下:
准确率=(TP+TN)/(TP+TN+FP+FN);
二分类模型中所有判断正确的结果占总预测值的比重。
7.根据权利要求1所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,跨领域微调具体如下:
使用CleanEval数据集中的测试集对前面训练好的二分类模型进行评估,即采用混淆矩阵计算准确率来对分类模型进行评估;
根据评估的结果,使用CleanEval数据集中的训练集采用10-折交叉验证法对二分类模型进行训练,在多次迭代后使其达到最优效果。
8.一种基于机器学习技术提取HTML文档内容的装置,其特征在于,该装置包括:
获取模块,用于通过爬虫技术获取网页数据,通过获取的网页数据训练二分类模型;
预处理模块,用于将获取的网页数据按照HTML特征进行标注;
训练模块,用于选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练,并使用scikit-learn库进行二分类模型训练;
评估模块,用于计算Accuracy进行模型评估;
微调模块,用于选取多领域内文本,优化二分类模型。
9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至7任一所述的基于机器学习技术提取HTML文档内容的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如权利要求1至7中任一所述的基于机器学习技术提取HTML文档内容的方法。
CN202210506859.4A 2022-05-11 2022-05-11 基于机器学习技术提取html文档内容的方法和装置 Pending CN114970458A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210506859.4A CN114970458A (zh) 2022-05-11 2022-05-11 基于机器学习技术提取html文档内容的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210506859.4A CN114970458A (zh) 2022-05-11 2022-05-11 基于机器学习技术提取html文档内容的方法和装置

Publications (1)

Publication Number Publication Date
CN114970458A true CN114970458A (zh) 2022-08-30

Family

ID=82981937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210506859.4A Pending CN114970458A (zh) 2022-05-11 2022-05-11 基于机器学习技术提取html文档内容的方法和装置

Country Status (1)

Country Link
CN (1) CN114970458A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205601A (zh) * 2023-02-27 2023-06-02 开元数智工程咨询集团有限公司 基于互联网的工程清单复核及数据统计方法与系统
CN117574009A (zh) * 2023-10-31 2024-02-20 灵犀科技有限公司 结构化政策数据生成方法、装置、电子设备和可读介质
CN118428321A (zh) * 2024-04-25 2024-08-02 北京深言科技有限责任公司 基于预训练语言模型的网页正文内容提取方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205601A (zh) * 2023-02-27 2023-06-02 开元数智工程咨询集团有限公司 基于互联网的工程清单复核及数据统计方法与系统
CN116205601B (zh) * 2023-02-27 2024-04-05 开元数智工程咨询集团有限公司 基于互联网的工程清单复核及数据统计方法与系统
CN117574009A (zh) * 2023-10-31 2024-02-20 灵犀科技有限公司 结构化政策数据生成方法、装置、电子设备和可读介质
CN118428321A (zh) * 2024-04-25 2024-08-02 北京深言科技有限责任公司 基于预训练语言模型的网页正文内容提取方法及系统

Similar Documents

Publication Publication Date Title
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN114970458A (zh) 基于机器学习技术提取html文档内容的方法和装置
CN109783631B (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
WO2017132071A1 (en) Methods, systems, and articles of manufacture for automatic fill or completion for application software and software services
CN107102993B (zh) 一种用户诉求分析方法和装置
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
Rajalakshmi et al. Design of kids-specific URL classifier using Recurrent Convolutional Neural Network
CN114757178A (zh) 核心产品词提取方法、装置、设备及介质
Plu et al. A hybrid approach for entity recognition and linking
Javed et al. Normalization of unstructured and informal text in sentiment analysis
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
CN105786971A (zh) 一种面向国际汉语教学的语法点识别方法
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
CN116069947A (zh) 一种日志数据事件图谱构建方法、装置、设备及存储介质
CN113486169B (zh) 基于bert模型的同义语句生成方法、装置、设备及存储介质
CN114742051A (zh) 日志处理方法、装置、计算机系统及可读存储介质
CN115481240A (zh) 一种数据资产质量检测方法和检测装置
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
Boiński et al. Towards facts extraction from text in Polish language
Hadwan et al. Soft Bigram distance for names matching
Marquard et al. Focused Crawling for Automated IsiXhosa Corpus Building
CN112100336A (zh) 一种档案的保存时间鉴定方法、装置及存储介质
Goel A study of text mining techniques: Applications and Issues

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination