CN111104636B - 一种基于多视角学习的网页船期数据抽取方法 - Google Patents

一种基于多视角学习的网页船期数据抽取方法 Download PDF

Info

Publication number
CN111104636B
CN111104636B CN201911393013.9A CN201911393013A CN111104636B CN 111104636 B CN111104636 B CN 111104636B CN 201911393013 A CN201911393013 A CN 201911393013A CN 111104636 B CN111104636 B CN 111104636B
Authority
CN
China
Prior art keywords
nodes
webpage
rendering tree
obtaining
rendering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911393013.9A
Other languages
English (en)
Other versions
CN111104636A (zh
Inventor
戴汝飞
孙伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN201911393013.9A priority Critical patent/CN111104636B/zh
Publication of CN111104636A publication Critical patent/CN111104636A/zh
Application granted granted Critical
Publication of CN111104636B publication Critical patent/CN111104636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06Q50/40
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于多视角学习的网页船期数据抽取方法,包含如下步骤:S1,爬取船期数据公布页面,获得N个页面的渲染树作为训练集;S2,标记各个渲染树上的最终所需的节点,并获得各个渲染树所有节点的特征;S3,将训练集中的各个渲染树的特征和标记渲染树的所需节点采用机器学习算法进行分类,获得分类器;S4,爬取需要应用的船期数据公布页面,并获得各个渲染树所有节点的特征;S5,根据步骤S1~S3训练得到的分类器对节点进行分类,得到含有船期数据的节点。

Description

一种基于多视角学习的网页船期数据抽取方法
技术领域
本发明涉及网页抽取方法,特别涉及一种基于多视角学习的网页船期数据抽取方法。
背景技术
互联网中,各大船公司与港口集团都会在官网上公布船期表,船期表中的船期数据有着方便货代公司揽货、方便船务公司装货、方便托运人和收货人查询到货期限等很多作用,因此近几年来也陆陆续续有与船期有关的或需要船期来核对校验的线上或线下的产品诞生。显而易见,船期数据的获取是非常重要的,而使用互联网爬虫程序来对船公司官网公布的船期表数据进行爬取是一种常见的获取船期数据的途径。一般在行业中,爬虫对所需数据的抽取规则是人为制定的,这就导致了数据获取十分被动,不仅需要人来费时费力找寻各个船期公布网站对应的个性化数据抽取规则,而且对于这些网站不时的大结构或小细节上的变化从而导致的数据爬取失败仍然需要有人监督跟进然后重新发现改变后的抽取规则。这种基于人工模板的方式前期需要大量的人力,并且由于不同网站通常有不同的模板,靠人工方式总结所有的网站模板极其不现实,且成本也无法承受。
网页的信息抽取方法分为模板有关的和模板无关的,传统的船期获取方法是基于模板的,需要大量人力,难以应对改变。而现有的很多网页信息抽取方法虽然都有所改进,但都是应用于正文类型的网页,这种页面主体信息包含大量的正文,正文部分网页源代码没有过多的链接或者是标签。还有少部分的研究对象为标题型网页比如某个学校的首页或者链接型网页比如包含着指向特定正文的超链接的列表页面二级导航页面。船期数据公布网页与这些网页大有不同,比如在文本的密度、标点的密度和代码结构等等这些方面,因此套用已有方法无法得出满意结果,需要另辟一种适合的方法。
发明内容
本发明的目的是提供一种基于多视角学习的网页船期数据抽取方法,采用网页源代码文本特征、DOM树结构特征和视觉特征融合的多特征挖掘的方式训练分类模型应用于船期数据公布的页面来自动对其判断所需数据节点,能够达到解放人为干预、灵活应对改变的效果,不用再靠人力去总结抽取规则,也不用再监督跟进网页发生变化时重新制定抽取规则。
为了实现以上目的,本发明是通过以下技术方案实现的:
一种基于多视角学习的网页船期数据抽取方法,其特点是,包含如下步骤:
S1,爬取船期数据公布页面,获得N个页面的渲染树作为训练集;
S2,标记各个渲染树上的最终所需的节点,并获得各个渲染树所有节点的特征;
S3,将训练集中的各个渲染树的特征和标记渲染树的所需节点采用机器学习算法进行分类,获得分类器;
S4,爬取需要应用的船期数据公布页面,并获得各个渲染树所有节点的特征;
S5,根据步骤S1~S3训练得到的分类器对节点进行分类,得到含有船期数据的节点。
所述的特征包括:标签比率、居左程度、居右程度、居上程度、XPath长度比率或字体颜色比率的一种或几种。
所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的标签比率,所述的标签比率为渲染树上各节点子树的html标签总数在该节点子树包含的文字字符总数里的占比。
所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的居左程度,所述的居左程度为渲染树每个节点的左侧位置与最佳左侧位置的相近程度,最佳左侧位置减去渲染树所有节点的左侧位置后取绝对值然后除以整个网页的宽度,用1减去此结果得到的即为居左程度,其中最佳左侧位置为从训练集渲染树得到N个页面中所需的节点的左侧位置坐标的平均值。
所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的居右程度,所述的居右程度为渲染树每个节点的右侧位置与最佳右侧位置的相近程度,最佳右侧位置减去渲染树所有节点的右侧位置后取绝对值然后除以整个网页的宽度,用1减去此结果得到的即为居右程度,其中最佳右侧位置为从训练集渲染树得到N个页面中所需的节点的右侧位置坐标的平均值。
所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的居上程度,所述的居上程度为渲染树每个节点的上侧位置与最佳上侧位置的相近程度,最佳上侧位置减去渲染树所有节点的上侧位置后取绝对值然后除以整个网页的宽度,用1减去此结果得到的即为居上程度,其中最佳上侧位置为从训练集渲染树得到N个页面中所需的节点的上侧位置坐标的平均值。
所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的XPath长度比率,所述的XPath长度比率为各个节点的XPath长度除以这个网页中最大的XPath的长度,其中每个DOM节点在网页中的XPath路径的长度称为XPath长度,XPath长度直接对应了该DOM节点在网页中的层次。
所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的字体颜色比率,所述的字体颜色比率为反映各个节点中的字体颜色分布和整个网页的字体颜色分布的一致度,具体则有:
各个节点所在子树中所有字体颜色的id分别和对应字体颜色的文字个数形成一个字体颜色的字典,将个数规范化,把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率,同样的方法获得整个网页所有文字的字体颜色字典,将两个字典中都存在的颜色id的文字比率相乘后求和得到字体颜色比率。
所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的字体大小比率,所述的字体大小比率为反映各个节点中的字体大小分布和整个网页的字体大小分布的一致度,具体则有:
各个节点所在子树中所有字体大小的id分别和对应字体大小的文字个数形成一个字体大的字典,将个数规范化,把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率,同样的方法获得整个网页所有文字的字体大字典,将两个字典中都存在的大id的文字比率相乘后求和得到字体大小比率。
本发明与现有技术相比,具有以下优点:
1、采用网页源代码文本特征、DOM树结构特征和视觉特征融合的多特征挖掘的方式训练分类模型应用于船期数据公布的页面来自动对其判断所需数据节点,能够达到解放人为干预、灵活应对改变的效果,不用再靠人力去总结抽取规则,也不用再监督跟进网页发生变化时重新制定抽取规则。
2、大量减少了人力,且网页的变化不会影响方法的效果,具有较强的鲁棒性。
附图说明
图1为本发明一种基于多视角学习的网页船期数据抽取方法的流程图;
图2为本发明中训练部分的流程图;
图3为本发明中应用部分的流程图。
具体实施方式
以下结合附图,通过详细说明一个较佳的具体实施例,对本发明做进一步阐述。
如图1所示,一种基于多视角学习的网页船期数据抽取方法,包含如下步骤:
S1,爬取船期数据公布页面,获得N个页面的渲染树作为训练集;
S2,标记各个渲染树上的最终所需的节点,并获得各个渲染树所有节点的特征;
S3,将训练集中的各个渲染树的特征和标记渲染树的所需节点采用机器学习算法进行分类,获得分类器;
需要说明的是,上述步骤S1~S3为本方法的训练部分。
S4,爬取需要应用的船期数据公布页面,并获得各个渲染树所有节点的特征;
S5,根据步骤S1~S3训练得到的分类器对节点进行分类,得到含有船期数据的节点。
需要说明的是,上述步骤S4、S5为本方法的应用部分。
如图2所示,在具体实施例中,上述训练部分包括:
S1,爬虫程序爬取到全球前10大船公司的船期数据公布页面,获得页面的渲染树,每家公司100个页面,共1000个渲染树。(在浏览器渲染网页过程中,当Dom树构建完成时,浏览器开始构建渲染树。渲染树由元素显示序列中的可见元素组成,它是文档的可视化表示,构建这棵树是为了以正确的顺序绘制文档内容。本方法通过程序使用浏览器内核获取船期数据网页的渲染树)
S2,标记出S1获得的1000个网页(渲染树)上最终所需要的节点,获得所有节点的源代码文本、DOM树结构和视觉上的特征。特征和做法如下:
A.标签比率:渲染树上各节点子树的html标签总数在该节点子树包含的文字字符总数里的占比。
B.居左程度:渲染树每个节点的左侧位置与最佳左侧位置的相近程度被称之为居左程度特征。最佳左侧位置减去渲染树所有节点的左侧位置后取绝对值然后除以整个网页的宽度,用1减去此结果得到的即为居左程度。(从训练集渲染树得到1000个页面中所需的节点的左侧位置坐标的平均值称为最佳左侧位置。)
C.居右程度:渲染树每个节点的右侧位置与最佳右侧位置的相近程度被称之为居右程度特征。最佳右侧位置减去渲染树所有节点的右侧位置后取绝对值然后除以整个网页的宽度,用1减去此结果得到的即为居右程度。(从训练集渲染树得到1000个页面中所需的节点的右侧位置坐标的平均值称为最佳右侧位置。)
D.居上程度:渲染树每个节点的上侧位置与最佳上侧位置的相近程度被称之为居上程度特征。最佳上侧位置减去渲染树所有节点的上侧位置后取绝对值然后除以整个网页的高度,用1减去此结果得到的即为居上程度。(从训练集渲染树得到1000个页面中所需的节点的上侧位置坐标的平均值称为最佳上侧位置。)
E.XPath长度比率:各个节点的XPath长度除以这个网页中最大的XPath的长度。(每个DOM节点在网页中的XPath路径的长度称为XPath长度,XPath长度直接对应了该DOM节点在网页中的层次。)
F.字体颜色比率:反映各个节点中的字体颜色分布和整个网页的字体颜色分布的一致度,因为网页的船期数据内容一般在网页中占据更大的比重,因此网页船期数据的字体颜色和整个网页的字体颜色分布更为接近。各个节点所在子树中所有字体颜色的id分别和对应字体颜色的文字个数形成一个字体颜色的字典。将个数规范化,把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率。同样的方法获得整个网页所有文字的字体颜色字典,将两个字典中都存在的颜色id的文字比率相乘后求和。
G.字体大小比率:反映各个节点中的字体大小分布和整个网页的字体大小分布的一致度,因为网页的船期数据内容一般在网页中占据更大的比重,因此网页船期数据的字体大小和整个网页的字体大小分布更为接近。各个节点所在子树中所有字体大小的id分别和对应字体大小的文字个数形成一个字体大小的字典。将个数规范化,把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率。同样的方法获得整个网页所有文字的字体大小字典,将两个字典中都存在的颜色id的文字比率相乘后求和。
S3,将S1获得1000个训练渲染树依次根据S2所得的特征和标记出的所需节点用机器学习中XGBoost(eXtreme Gradient Boosting)方法进行分类,获得分类器。
如图3所示,上述的应用部分包括:
S4.1,爬虫程序爬取到想要获得的船期数据公布页面,获得页面的渲染树,(在浏览器渲染网页过程中,当Dom树构建完成时,浏览器开始构建渲染树。渲染树由元素显示序列中的可见元素组成,它是文档的可视化表示,构建这棵树是为了以正确的顺序绘制文档内容。本方法通过程序使用浏览器内核获取船期数据网页的渲染树)
S4.2,取出S4.1获得的各个渲染树的所有节点,获得渲染树上所有节点的源代码文本、DOM树结构和视觉上的特征。特征和做法如下:
A.标签比率:渲染树上各节点子树的html标签总数在该节点子树包含的文字字符总数里的占比。
B.居左程度:渲染树每个节点的左侧位置与最佳左侧位置的相近程度被称之为居左程度特征。最佳左侧位置减去渲染树所有节点的左侧位置后取绝对值然后除以整个网页的宽度,用1减去此结果得到的即为居左程度。(从训练集渲染树得到1000个页面中所需的节点的左侧位置坐标的平均值称为最佳左侧位置。)
C.居右程度:渲染树每个节点的右侧位置与最佳右侧位置的相近程度被称之为居右程度特征。最佳右侧位置减去渲染树所有节点的右侧位置后取绝对值然后除以整个网页的宽度,用1减去此结果得到的即为居右程度。(从训练集渲染树得到1000个页面中所需的节点的右侧位置坐标的平均值称为最佳右侧位置。)
D.居上程度:渲染树每个节点的上侧位置与最佳上侧位置的相近程度被称之为居上程度特征。最佳上侧位置减去渲染树所有节点的上侧位置后取绝对值然后除以整个网页的高度,用1减去此结果得到的即为居上程度。(从训练集渲染树得到1000个页面中所需的节点的上侧位置坐标的平均值称为最佳上侧位置。)
E.XPath长度比率:各个节点的XPath长度除以这个网页中最大的XPath的长度。(每个DOM节点在网页中的XPath路径的长度称为XPath长度,XPath长度直接对应了该DOM节点在网页中的层次。)
F.字体颜色比率:反映各个节点中的字体颜色分布和整个网页的字体颜色分布的一致度,因为网页的船期数据内容一般在网页中占据更大的比重,因此网页船期数据的字体颜色和整个网页的字体颜色分布更为接近。各个节点所在子树中所有字体颜色的id分别和对应字体颜色的文字个数形成一个字体颜色的字典。将个数规范化,把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率。同样的方法获得整个网页所有文字的字体颜色字典,将两个字典中都存在的颜色id的文字比率相乘后求和。
G.字体大小比率:反映各个节点中的字体大小分布和整个网页的字体大小分布的一致度,因为网页的船期数据内容一般在网页中占据更大的比重,因此网页船期数据的字体大小和整个网页的字体大小分布更为接近。各个节点所在子树中所有字体大小的id分别和对应字体大小的文字个数形成一个字体大小的字典。将个数规范化,把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率。同样的方法获得整个网页所有文字的字体大小字典,将两个字典中都存在的字体id的文字比率相乘后求和。
S5,应用上述获得的分类器和获得的渲染树各个节点的特征分出结果,结果即所需的包含船期数据的节点。
综上所述,本发明一种基于多视角学习的网页船期数据抽取方法,采用网页源代码文本特征、DOM树结构特征和视觉特征融合的多特征挖掘的方式训练分类模型应用于船期数据公布的页面来自动对其判断所需数据节点,能够达到解放人为干预、灵活应对改变的效果,不用再靠人力去总结抽取规则,也不用再监督跟进网页发生变化时重新制定抽取规则。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (9)

1.一种基于多视角学习的网页船期数据抽取方法,其特征在于,包含如下步骤:
S1,爬取船期数据公布页面,获得N个页面的渲染树作为训练集;
S2,标记各个渲染树上的最终所需的节点,并获得各个渲染树所有节点的特征;
S3,将训练集中的各个渲染树的特征和标记渲染树的所需节点采用机器学习算法进行分类,获得分类器;
S4,爬取需要应用的船期数据公布页面,并获得各个渲染树所有节点的特征;
S5,根据步骤S1~S3训练得到的分类器对节点进行分类,得到含有船期数据的节点。
2.如权利要求1所述的基于多视角学习的网页船期数据抽取方法,其特征在于,所述的特征包括:标签比率、居左程度、居右程度、居上程度、XPath长度比率或字体颜色比率的一种或几种。
3.如权利要求2所述的基于多视角学习的网页船期数据抽取方法,其特征在于,所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的标签比率,所述的标签比率为渲染树上各节点子树的html标签总数在该节点子树包含的文字字符总数里的占比。
4.如权利要求2所述的基于多视角学习的网页船期数据抽取方法,其特征在于,所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的居左程度,所述的居左程度为渲染树每个节点的左侧位置与最佳左侧位置的相近程度,最佳左侧位置减去渲染树所有节点的左侧位置后取绝对值然后除以整个网页的宽度,用1减去此结果得到的即为居左程度,其中最佳左侧位置为从训练集渲染树得到N个页面中所需的节点的左侧位置坐标的平均值。
5.如权利要求2所述的基于多视角学习的网页船期数据抽取方法,其特征在于,所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的居右程度,所述的居右程度为渲染树每个节点的右侧位置与最佳右侧位置的相近程度,最佳右侧位置减去渲染树所有节点的右侧位置后取绝对值然后除以整个网页的宽度,用1减去此结果得到的即为居右程度,其中最佳右侧位置为从训练集渲染树得到N个页面中所需的节点的右侧位置坐标的平均值。
6.如权利要求2所述的基于多视角学习的网页船期数据抽取方法,其特征在于,所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的居上程度,所述的居上程度为渲染树每个节点的上侧位置与最佳上侧位置的相近程度,最佳上侧位置减去渲染树所有节点的上侧位置后取绝对值然后除以整个网页的宽度,用1减去此结果得到的即为居上程度,其中最佳上侧位置为从训练集渲染树得到N个页面中所需的节点的上侧位置坐标的平均值。
7.如权利要求2所述的基于多视角学习的网页船期数据抽取方法,其特征在于,所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的XPath长度比率,所述的XPath长度比率为各个节点的XPath长度除以这个网页中最大的XPath的长度,其中每个DOM节点在网页中的XPath路径的长度称为XPath长度,XPath长度直接对应了该DOM节点在网页中的层次。
8.如权利要求2所述的基于多视角学习的网页船期数据抽取方法,其特征在于,所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的字体颜色比率,所述的字体颜色比率为反映各个节点中的字体颜色分布和整个网页的字体颜色分布的一致度,具体则有:
各个节点所在子树中所有字体颜色的id分别和对应字体颜色的文字个数形成一个字体颜色的字典,将个数规范化,把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率,同样的方法获得整个网页所有文字的字体颜色字典,将两个字典中都存在的颜色id的文字比率相乘后求和得到字体颜色比率。
9.如权利要求2所述的基于多视角学习的网页船期数据抽取方法,其特征在于,所述的获得各个渲染树所有节点的特征包括:获得各个渲染树所有节点的字体大小比率,所述的字体大小比率为反映各个节点中的字体大小分布和整个网页的字体大小分布的一致度,具体则有:
各个节点所在子树中所有字体大小的id分别和对应字体大小的文字个数形成一个字体大的字典,将个数规范化,把字典中各项的文字个数分别除以该字典中所有项字数之和即文字比率,同样的方法获得整个网页所有文字的字体大字典,将两个字典中都存在的大id的文字比率相乘后求和得到字体大小比率。
CN201911393013.9A 2019-12-30 2019-12-30 一种基于多视角学习的网页船期数据抽取方法 Active CN111104636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911393013.9A CN111104636B (zh) 2019-12-30 2019-12-30 一种基于多视角学习的网页船期数据抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911393013.9A CN111104636B (zh) 2019-12-30 2019-12-30 一种基于多视角学习的网页船期数据抽取方法

Publications (2)

Publication Number Publication Date
CN111104636A CN111104636A (zh) 2020-05-05
CN111104636B true CN111104636B (zh) 2023-03-24

Family

ID=70424320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911393013.9A Active CN111104636B (zh) 2019-12-30 2019-12-30 一种基于多视角学习的网页船期数据抽取方法

Country Status (1)

Country Link
CN (1) CN111104636B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239206A (zh) * 2014-09-17 2014-12-24 可牛网络技术(北京)有限公司 网页测试方法和装置
CN106503211A (zh) * 2016-11-03 2017-03-15 福州大学 面向信息发布类网站的移动版自动生成的方法
CN106970938A (zh) * 2017-02-13 2017-07-21 上海大学 面向聚焦的Web网页获取和信息抽取方法
CN107436931A (zh) * 2017-07-17 2017-12-05 广州特道信息科技有限公司 网页正文抽取方法及装置
WO2019024755A1 (zh) * 2017-08-01 2019-02-07 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064920B (zh) * 2012-12-20 2014-03-05 优视科技有限公司 移动终端中的页面字体大小缩放方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239206A (zh) * 2014-09-17 2014-12-24 可牛网络技术(北京)有限公司 网页测试方法和装置
CN106503211A (zh) * 2016-11-03 2017-03-15 福州大学 面向信息发布类网站的移动版自动生成的方法
CN106970938A (zh) * 2017-02-13 2017-07-21 上海大学 面向聚焦的Web网页获取和信息抽取方法
CN107436931A (zh) * 2017-07-17 2017-12-05 广州特道信息科技有限公司 网页正文抽取方法及装置
WO2019024755A1 (zh) * 2017-08-01 2019-02-07 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于决策树的新闻内容抽取方法;胡俊坤等;《合肥工业大学学报(自然科学版)》;20090628(第06期);全文 *
基于集成学习的钓鱼网页深度检测系统;冯庆等;《计算机系统应用》;20161015(第10期);全文 *

Also Published As

Publication number Publication date
CN111104636A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN106095759B (zh) 一种基于启发式规则的发票货物归类方法
CN110598000A (zh) 一种基于深度学习模型的关系抽取及知识图谱构建方法
US8196037B2 (en) Method and device for extracting web information
US10936642B2 (en) Using machine learning to flag gender biased words within free-form text, such as job descriptions
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
CN107590219A (zh) 网页人物主题相关信息提取方法
CN105022803B (zh) 一种提取网页正文内容的方法及系统
CN104636428B (zh) 一种商标推荐方法及装置
CN103559199B (zh) 网页信息抽取方法和装置
CN107545460B (zh) 一种数字化彩页促销管理和分析方法、存储设备及移动终端
CN105653522A (zh) 一种针对植物领域的非分类关系识别方法
WO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
CN112732994B (zh) 网页信息的提取方法、装置、设备及存储介质
Evert A Lightweight and Efficient Tool for Cleaning Web Pages.
CN110427488A (zh) 文档的处理方法及装置
CN111737623A (zh) 网页信息提取方法及相关设备
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN115309864A (zh) 评论文本的情感智能分类方法、装置、电子设备及介质
CN104281711B (zh) Web应用多语言处理方法和装置
CN114969601A (zh) 一种基于深度学习的个人主页信息提取方法及装置
CN110851606A (zh) 基于网页结构相似性的网站聚类方法和系统
CN114722196A (zh) 基于注意力机制的企业文本多标签标注方法及系统
CN111104636B (zh) 一种基于多视角学习的网页船期数据抽取方法
CN109947894A (zh) 一种文本标签提取系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant