CN113343140B - 一种基于neo4j图形数据库自动提取网页正文内容的方法 - Google Patents

一种基于neo4j图形数据库自动提取网页正文内容的方法 Download PDF

Info

Publication number
CN113343140B
CN113343140B CN202010138403.8A CN202010138403A CN113343140B CN 113343140 B CN113343140 B CN 113343140B CN 202010138403 A CN202010138403 A CN 202010138403A CN 113343140 B CN113343140 B CN 113343140B
Authority
CN
China
Prior art keywords
nodes
node
text
webpage
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010138403.8A
Other languages
English (en)
Other versions
CN113343140A (zh
Inventor
刘亮
李萧洋
郑荣锋
李孟铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010138403.8A priority Critical patent/CN113343140B/zh
Publication of CN113343140A publication Critical patent/CN113343140A/zh
Application granted granted Critical
Publication of CN113343140B publication Critical patent/CN113343140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本方法公布了一种基于neo4j图形数据库自动提取网页正文内容的方法。本方法包括:步骤S101,利用模拟浏览器请求技术从开源渠道获取网页的HTML源码作为训练集合;步骤S102,提取HTML标签并将HTML源码转换为树形结构;步骤S103,遍历树中的所有节点提取出表示节点之间关系的三元组;步骤S104,利用neo4j图形数据库将关系三元组转换成图;步骤S105,通过节点压缩和枝节压缩,去除图中的冗余节点;步骤S106,提取多维特征,通过机器学习训练正文节点分类模型;步骤S107,利用分类模型提取出网页中的正文节点,并由正文节点的子节点按顺序恢复出完整的网页正文内容。本发明提供了一种简单易用、准确高效地提取网页正文内容的实现方法。

Description

一种基于neo4j图形数据库自动提取网页正文内容的方法
技术领域
本发明涉及计算机应用和网页内容提取领域,特别涉及一种基于neo4j图形数据库自动提取网页正文内容的方法。
背景技术
随着网络技术的发展,互联网跨越时空界限为人类提供了一个信息共享平台,而网页正文内容正是人们从互联网上快速获取信息重要来源。如今,网页正文内容提取的应用领域越来越广泛,普通用户利用搜索引擎从网页正文内容中直接获取自己想要的信息,而其他基于网页处理的工作,例如文本挖掘、人工智能、搜索引擎等,都以高效而准确地获取网页正文内容作为前提。
由于现有的大多数网站都使用了一些与正文内容无关的特定模板或者样式来提高网页的可读性,网页正文内容也往往混杂在一些广告链接、导航模板等网页噪音之中。快速而准确地从噪音中提取出网页正文内容,不仅能降低普通大众获取信息的负担,还能帮助基于网页内容提供服务的其他应用提高工作效率。因此如何自动化地从设计复杂的网页中提取出正文内容并应用到特定领域,是本领域技术人员亟需解决的问题。
根据提取网页正文内容所使用的依据,可以将现有的网页正文内容提取方法分为三大类,即基于文本信息的网页正文内容提取算法、基于视觉信息的网页正文内容提取算法和基于文档对象类型DOM的网页正文内容提取算法。
基于文本信息的网页正文内容提取算法的主要思想为:如果将网页划分为多个区域,那么网页正文文本部分的文本密度远远高于网页的其他区域,此外如果将整个网页转换为文本,则包含正文内容的文本行距一般较近且含有大量标点符号。此种方法虽然实现简单,但是可能识别到正文内容附近的文字,例如版权声明等,因而在实际应用上存在一定的局限性。
基于视觉信息的网页正文内容提取算法的主要思想为:用户在浏览网页时,会把一个语义块当做一个单一对象来看待,而用户在分辨语义块时往往会借助一些视觉信息,例如字体大小、字体颜色、背景、表格列表等。将视觉信息与DOM结合,通过将网页划分为多个块,计算每个块中文本节点与叶子节点的比例来判断所属的块是否为正文块。然而这种方法需要获取页面的视觉因素,因而计算量较大;此外,如果页面中的视觉因素使用了CSS等不同文件进行控制,则会导致提取效率低下。
基于文档对象类型DOM的网页正文内容提取算法的主要思想为:通过提取HTML源码中的标签生成一棵DOM树,将网页划分为多个块,研究树中节点之间的关系以及所存储的内容来提取网页正文内容。此种方法多适用于编程风格良好、排版一致的网站,此外HTML语言的关注点多在于如何显示信息,而不在于如何对网页分块,因而此种方法的通用性较差。
发明内容
针对现有方案中存在的缺陷,本申请的目的在于提供一种操作简单、高效准确地自动提取网页正文内容的实现方法。
为解决上述技术问题,本申请提供一种基于neo4j图形数据库自动提取网页正文内容的方法,所述实现方法包括以下步骤:
步骤S101:利用从开源渠道获取的HTML源码,使用HTML处理技术,去除与文章正文内容无关的CSS样式等,生成仅包含<html>标签的HTML文本文件。利用HTML处理技术获取HTML文本中的标签,如<div>、<table>等,根据这些标签的层次关系将源HTML转换成树形结构。
步骤S102:通过遍历树中的所有节点,根据各节点之间的连接关系以及子节点之间的顺序关系,提取出表示各标签之间相互关系的三元组。关系三元组结构形如:(src,r,dst),其中“src”和“dst”分别表示树形结构中的节点,“r”表示两个节点之间的关系。“src”中包括树中父节点的标签以及唯一标识符,“dst”包括树中子节点的标签、唯一标识符、该子节点所存储的具体内容、以及该子节点在其所在的子节点集合中的顺序。
步骤S103:利用neo4j图形数据库将所述的关系三元组结构转换成图结构,并去除一部分冗余的末节点。
步骤S104:对所述图结构,将与末节点直接相连的空节点,根据该空节点连接的末节点的数量分为两类,分别进行节点压缩和枝节压缩,得到压缩后的图结构。
步骤S105:对压缩后的图提取节点数量特征和平均文本长度特征。
步骤S106:将所述的特征结合生成特征向量,使用MLP模型进行训练出正文节点分类模型,并利用该分类模型对网页中的节点进行分类,提取出网页中的正文节点。
步骤S107:根据所提取出的正文节点,按照顺序依次恢复该正文节点的子节点中的内容,提取出完整的网页正文内容。
进一步,所述步骤S102中,生成关系三元组的流程为:
步骤S201:对于预处理后转换成的树形结构,循环遍历该树形结构中的所有节点,对于每个节点下的所有子节点,从左到右依次记录其顺序,对于<html>标签下的所有节点,生成形如{父节点,“连接关系”,[子节点,第x个子节点]}的记录;
步骤S202:将上述记录转换为关系三元组结构存入neo4j图形数据库,关系三元组结构形如:(src,r,dst),其中“src”中包括树中父节点的标签以及唯一标识符,“dst”中包括树中子节点的标签、唯一标识符、该子节点所存储的具体内容、以及该子节点在其所在的子节点集合中的顺序。
再进一步,所述步骤S103中,生成关系图结构的流程为:
步骤S301:将所述关系三元组存入neo4j图形数据库,以“src”和“dst”作为图的顶点,“r”作为图的边,表示出各个节点之间的连接关系,生成HTML文本对应的图结构;
步骤S302:在上述生成的图结构中,所有含有正文文本的节点都存在于图的末节点,循环去除仅包含空文本的末节点以及由此而产生的没有context属性的节点(即原末节点的父节点)。
更进一步,所述步骤S104中,枝节压缩和节点压缩的流程为:
步骤S401:对于上述图结构中与单一末节点相连的空节点,将单一末节点与该空节点的父节点直接相连,并删除该空节点,称为节点压缩。
步骤S402:对于上述图结构中与两个及两个以上末节点相连的空节点,将该空节点与该空节点的祖父节点直接相连,并删除该空节点的空父节点,称为枝节压缩。
更进一步,所述步骤S105中,提取多维特征的流程为:
步骤S501:正文节点相连接的非空节点的数量远小于与非正文节点相连的非空节点数量,所连接的非空节点数量多的节点更有可能是正文节点;
步骤S502:由于一个网页中有且仅有一个正文节点,且网页中包含推荐内容的节点,其平均文本长度远小于正常的正文节点的平均文本长度,因而平均文本长度较长的节点更有可能是正文节点。
本发明提供了一种网页正文内容提取方法,对网页的HTML源码进行预处理,去除其中与正文内容无关的样式模板,生成HTML文本文件;通过HTML处理技术,提取HTML文本中的标签并生成源HTML的树形结构;通过遍历树中的所有节点,提取出各个节点之间的关系以及子节点之间的顺序关系,生成关系三元组;利用neo4j图形数据库将关系三元组转换成图,并对所述图中的部分节点进行节点压缩和枝节压缩,去除冗余的空节点;通过自然语言处理技术,从图中提取特征,训练MLP分类模型,从大量节点中分离出正文节点;通过对正文节点的所有子节点中的内容按顺序恢复,提取出完整的网页正文内容。
附图说明
图1为本申请实施例所提供的一种网页正文内容提取方法的流程图。
图2为本申请中所生成的关系三元组的存储格式图。
图3为本申请中所述的节点压缩示意图。
图4为本申请中所述的枝节压缩示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整描述。
下面请参考图1,图1为本申请实施例所提供的网页正文内容提取方法的流程图。
具体步骤如下。
步骤S101:利用模拟浏览器请求技术从开源渠道获取网页的HTML源码,并对所述的HTML源码进行预处理获取HTML标签,将网页源码转换为树形结构。
通过HTML文件处理技术,去除与正文内容无关的CSS等模板样式,只保留HTML纯文本;利用BeautifulSoup提取HTML文本中的标签,如<div>、<table>等,根据各标签之间的层次关系生成树形结构。
步骤S102:遍历树中的节点,根据各节点之间的连接关系以及子节点之间的顺序关系提取三元组。
首先,根据所生成的树形结构,获取原始<html>标签下的所有一级节点,即在树形结构中直接与<html>标签相连的子节点。将所述的一级节点与<html>标签的关系记录为“subtag”,并记录下这些一级节点的顺序。
接着,循环遍历一级节点下的所有子节点,将每个节点与其子节点的关系记录为“subtag”并记录下这些子节点之间的顺序关系。
然后,将上述结果转换为关系三元组结构存入neo4j图形数据库,采用如图2所示的格式存储。图2中,“src”和“dst”分别表示树形结构中的节点,“r”表示两个节点之间的连接关系;“src”中包括树中父节点的标签以及唯一标识符,“dst”中包括树中子节点的标签、唯一标识符、该子节点所存储的具体内容、以及该子节点在其所在的子节点集合中的顺序,“unique_id”起标识作用,“children_sequence”表示子节点的顺序。
步骤S103:通过neo4j图形数据库将关系三元组转换成图,并对图进行简化处理。
将所述关系三元组结构中的src和“dst”作为图的顶点,“r”作为图的边,生成HTML文本对应的图结构。
根据HTML的结构特点,在上述生成的图结构中,所有含有文字的节点都必定存在于图的末节点。根据这一基础,循环去除为空文本的末节点以及由此而产生的没有context属性的节点(即原末节点的父节点)。此步骤的主要目的是减少冗余,降低后续处理的复杂度。
步骤S104:对所述图进行节点压缩和枝节压缩,进一步去除冗余节点。
由于在HTML结构中具有平行结构关系的节点会关联到同一个节点,而与同一主题相关的节点则会关联到同一节点或者是相近的节点。因而所有含有正文文本信息的节点,都直接或者在一定距离内关联着一个同一个节点。基于这一思想,通过压缩步骤来消除HTML标签结构带来的数据离散化的影响。
(1)节点压缩的具体步骤如图3所示。
对于上述图结构中与单一末节点相连的空节点,将单一末节点与该空节点的父节点直接相连,并删除该空节点,称为节点压缩。如图3,连接单一末节点的空节点B,其父节点和祖父节点均为空节点,因此节点B是一个冗余的空节点。删除空节点B,将末节点直接连接到B的父节点上。
(2)枝节压缩的具体步骤如图4所示。
对于上述图结构中与两个及两个以上末节点相连的空节点,将该空节点与该空节点的祖父节点直接相连,并删除该空节点的空父节点,称为枝节压缩。如图4,连接多个末节点的空节点C,其父节点与祖父节点均为空节点,因此节点C的父节点是一个冗余的空节点。删除空节点C的父节点,将空节点C直接与其祖父节点相连接。
步骤S105:通过自然语言处理技术对所述图结构中的节点进行多维特征提取,具体步骤包括。
(1)计算与每个节点相连接的不为空的节点数量,作为特征一。在所生成的图中,与正文节点相连接的非空节点的数量应该远小于与非正文节点相连的非空节点数量。
(2)计算每个节点的平均文本长度,作为特征二。由于一个网页中有且仅有一个正文节点,在许多网站中存在许多与主题相关的推荐内容或评价内容等,这些内容虽然不属于网页的正文内容但同样可以生成图结构。这些包含推荐内容的节点有如下特征:其平均文本长度远小于正常的正文节点的平均文本长度。
步骤S106:通过利用模拟浏览器请求技术从开源渠道获取网页的HTML源码,收集训练样本,提取所述的多维特征,通过机器学习,训练MLP分类模型。
首先利用模拟浏览器请求技术从开源渠道获取网页的HTML源码,收集一定数量的网页样本,使用步骤S105中所述方法提取样本中的多维特征,使用提取的特征训练MLP分类模型。训练好的MLP分类模型就可以根据正文节点的特征,将图中的所有节点划分为正文节点和非正文节点。
步骤S107:对所提取出的正文节点,按照数据库中“children_sequence”所记录的子节点的顺序恢复出其子节点中的内容,从而得到完整的正文内容。
以上实例仅说明本发明的技术方案而并非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者同等替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (7)

1.一种基于neo4j图形数据库自动提取网页正文内容的方法,其特征在于:
步骤S101,利用模拟浏览器请求技术从开源渠道获取网页的HTML源码,并对所述的HTML源码进行预处理获取HTML标签,将网页源码转换为树形结构;
步骤S102,遍历所述的树形结构中的所有节点,根据各节点之间的连接关系以及子节点之间的顺序关系,提取出表示各节点之间关系的三元组;
步骤S103,利用neo4j图形数据库将关系三元组结构转换成图结构;
步骤S104,在所述图结构中,将与末节点直接相连的空节点,根据该空节点连接的末节点的数量分为两类,分别进行节点压缩和枝节压缩;
步骤S105,对压缩后的图提取节点数量特征和平均文本长度特征,生成特征向量;
步骤S106,使用所述特征向量进行机器学习,训练出正文节点分类模型,利用该分类模型对网页中的节点进行分类,从而自动提取出网页中的正文节点;
步骤S107,根据所提取出的正文节点,按照其子节点的顺序依次恢复子节点中的内容,提取出完整的网页正文内容。
2.根据权利要求1所述的基于neo4j图形数据库自动提取网页正文内容的方法,其特征在于,所述的步骤S102进一步包括如下步骤:
步骤S201,对于预处理后转换成的树形结构,循环遍历该树形结构中的所有节点,对于每个节点下的所有子节点,从左到右依次记录其顺序,对于<html>标签下的所有节点,生成形如{父节点,“连接关系”,[子节点,第x个子节点]}的记录;
步骤S202,将上述记录转换为关系三元组结构存入neo4j图形数据库,关系三元组结构形如:(src,r,dst),其中“src”和“dst”分别表示树形结构中的节点,“r”表示两个节点之间的连接关系;“src”中包括树中父节点的标签以及唯一标识符,“dst”中包括树中子节点的标签、唯一标识符、该子节点所存储的具体内容、以及该子节点在其所在的子节点集合中的顺序。
3.根据权利要求2所述的基于neo4j图形数据库自动提取网页正文内容的方法,其特征在于,所述的步骤S103进一步包括如下步骤:
步骤S301,将所述关系三元组存入neo4j图形数据库,“src”和“dst”作为图的顶点,“r”作为图的边,生成HTML文本对应的图结构;
步骤S302,在上述生成的图结构中,所有的含有正文文本的节点都存在于图的末节点,循环去除仅包含空文本的末节点以及由此而产生的没有context属性的节点。
4.根据权利要求1所述的基于neo4j图形数据库自动提取网页正文内容的方法,其特征在于,所述的步骤S104进一步包括如下步骤:
步骤S401,对于上述图结构中与单一末节点相连的空节点,将单一末节点与该空节点的父节点直接相连,并删除该空节点,称为节点压缩;
步骤S402,对于上述图结构中与两个及两个以上末节点相连的空节点,将该空节点与该空节点的祖父节点直接相连,并删除该空节点的空父节点,称为枝节压缩。
5.根据权利要求1所述的基于neo4j图形数据库自动提取网页正文内容的方法,其特征在于,所述的步骤S105进一步包括如下步骤:
步骤S501,计算与每个节点相连接的不为空的节点数量,作为特征一;
步骤S502,计算每个节点的所连接节点的平均文本长度,作为特征二;
步骤S503,将所述的特征一和特征二结合生成特征向量,使用机器学习模型进行训练,得到正文节点分类模型;
步骤S504,对于待提取正文内容的网页,提取如特征一和特征二所述的特征,通过正文节点分类模型将图中的节点分为正文节点和非正文节点,每个网页仅可提取出唯一一个正文节点。
6.根据权利要求1所述的基于neo4j图形数据库自动提取网页正文内容的方法,其特征在于,所述的步骤S106进一步包括如下步骤:
步骤S601,使用步骤S105中的方法提取样本中的多维特征,使用提取的特征训练机器学习模型;
步骤S602,对于待提取正文内容的网页,使用训练好的分类模型根据正文节点的特征,将网页中的所有节点划分为正文节点和非正文节点。
7.根据权利要求2所述的基于neo4j图形数据库自动提取网页正文内容的方法,其特征在于,所述的步骤S107进一步包括如下步骤:
根据所述的正文节点,对其连接的所有子节点,根据步骤S202中记录的子节点顺序恢复子节点中的内容,即可提取出网页正文内容。
CN202010138403.8A 2020-03-03 2020-03-03 一种基于neo4j图形数据库自动提取网页正文内容的方法 Active CN113343140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010138403.8A CN113343140B (zh) 2020-03-03 2020-03-03 一种基于neo4j图形数据库自动提取网页正文内容的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010138403.8A CN113343140B (zh) 2020-03-03 2020-03-03 一种基于neo4j图形数据库自动提取网页正文内容的方法

Publications (2)

Publication Number Publication Date
CN113343140A CN113343140A (zh) 2021-09-03
CN113343140B true CN113343140B (zh) 2022-12-13

Family

ID=77467355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010138403.8A Active CN113343140B (zh) 2020-03-03 2020-03-03 一种基于neo4j图形数据库自动提取网页正文内容的方法

Country Status (1)

Country Link
CN (1) CN113343140B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023209640A1 (en) * 2022-04-29 2023-11-02 Content Square SAS Determining zone types of a webpage

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法
CN102915361A (zh) * 2012-10-18 2013-02-06 北京理工大学 一种基于文字分布特征的网页正文提取方法
CN103559202A (zh) * 2013-10-08 2014-02-05 北京奇虎科技有限公司 一种网页内容抽取装置和方法
CN103853760A (zh) * 2012-12-03 2014-06-11 中国移动通信集团公司 一种网页正文内容提取方法和装置
CN104268148A (zh) * 2014-08-27 2015-01-07 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及系统
WO2016036760A1 (en) * 2014-09-03 2016-03-10 Atigeo Corporation Method and system for searching and analyzing large numbers of electronic documents
CN106557565A (zh) * 2016-11-22 2017-04-05 福州大学 一种基于网页聚类的正文信息提取方法
CN107391678A (zh) * 2017-07-21 2017-11-24 福州大学 基于聚类的网页内容信息提取方法
CN109740097A (zh) * 2018-12-29 2019-05-10 温州大学瓯江学院 一种基于逻辑链接块的网页正文抽取方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法
CN102915361A (zh) * 2012-10-18 2013-02-06 北京理工大学 一种基于文字分布特征的网页正文提取方法
CN103853760A (zh) * 2012-12-03 2014-06-11 中国移动通信集团公司 一种网页正文内容提取方法和装置
CN103559202A (zh) * 2013-10-08 2014-02-05 北京奇虎科技有限公司 一种网页内容抽取装置和方法
CN104268148A (zh) * 2014-08-27 2015-01-07 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及系统
WO2016036760A1 (en) * 2014-09-03 2016-03-10 Atigeo Corporation Method and system for searching and analyzing large numbers of electronic documents
CN106557565A (zh) * 2016-11-22 2017-04-05 福州大学 一种基于网页聚类的正文信息提取方法
CN107391678A (zh) * 2017-07-21 2017-11-24 福州大学 基于聚类的网页内容信息提取方法
CN109740097A (zh) * 2018-12-29 2019-05-10 温州大学瓯江学院 一种基于逻辑链接块的网页正文抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"FiVaTech: Page-Level Web Data Extraction from Template Pages";Mohammed Kayed 等;《IEEE Transactions on Knowledge and Data Engineering》;20090417;第22卷(第2期);249-263 *
"基于可视块的多记录型复杂网页信息提取算法";王卫红 等;《计算机科学》;20190812;第46卷(第10期);63-70 *
"基于网页聚类的正文信息提取方法";王一洲 等;《小型微型计算机系统》;20180115;第39卷(第01期);111-115 *
"基于节点属性与正文内容的海量Web信息抽取方法";王海艳 等;《通信学报》;20161025;第37卷(第10期);9 *

Also Published As

Publication number Publication date
CN113343140A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
KR100324456B1 (ko) 구조화문서검색표시방법및장치
CN109492077A (zh) 基于知识图谱的石化领域问答方法及系统
Sanoja et al. Block-o-matic: A web page segmentation framework
CN103678412B (zh) 一种文档检索的方法及装置
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
WO2017080090A1 (zh) 一种网页正文提取比对方法
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
WO2008008213A2 (en) Interactively crawling data records on web pages
CN106960058A (zh) 一种网页结构变更检测方法及系统
CN111737623A (zh) 网页信息提取方法及相关设备
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
CN112307303A (zh) 基于云计算的网络页面高效精准去重系统
CN111428503A (zh) 同名人物的识别处理方法及处理装置
CN117312711A (zh) 一种基于ai分析的搜索引擎优化方法及系统
CN116244476A (zh) 基于富文本的预标注前端可视化实现方法及系统
CN107436931B (zh) 网页正文抽取方法及装置
CN113343140B (zh) 一种基于neo4j图形数据库自动提取网页正文内容的方法
CN107590288A (zh) 用于抽取网页图文块的方法和装置
CN109271616A (zh) 一种基于标准文献题录特征值的智能提取方法
US10628632B2 (en) Generating a structured document based on a machine readable document and artificial intelligence-generated annotations
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
JPH11110384A (ja) 構造化文書検索表示方法及び装置
CN117726826A (zh) 一种面向新闻报导的多场景ai辅助写稿方法
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质
US20080015843A1 (en) Linguistic Image Label Incorporating Decision Relevant Perceptual, Semantic, and Relationships Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant