CN112559929B - 提取网页页面目标信息的方法、电子设备和介质 - Google Patents

提取网页页面目标信息的方法、电子设备和介质 Download PDF

Info

Publication number
CN112559929B
CN112559929B CN202110207419.4A CN202110207419A CN112559929B CN 112559929 B CN112559929 B CN 112559929B CN 202110207419 A CN202110207419 A CN 202110207419A CN 112559929 B CN112559929 B CN 112559929B
Authority
CN
China
Prior art keywords
node
analyzed
content
nodes
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110207419.4A
Other languages
English (en)
Other versions
CN112559929A (zh
Inventor
张景龙
王殿胜
张乃钊
薄满辉
翟性国
唐红武
卞磊
刘宇
姚远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Mobile Technology Co Ltd
Original Assignee
China Travelsky Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Mobile Technology Co Ltd filed Critical China Travelsky Mobile Technology Co Ltd
Priority to CN202110207419.4A priority Critical patent/CN112559929B/zh
Publication of CN112559929A publication Critical patent/CN112559929A/zh
Application granted granted Critical
Publication of CN112559929B publication Critical patent/CN112559929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种提取网页页面目标信息的方法、电子设备和介质,方法包括步骤S1、获取待提取网页页面的HTML代码,并构建树形结构;步骤S2、遍历所述树形结构,获取标题节点文本数据,并获取每一内容节点的特征信息;步骤S3、基于所有内容节点的路径信息将所有内容节点分组;步骤S4、根据标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组;步骤S5、将目标分组的内容节点作为待分析节点,判断待分析节点中是否包括目标信息,若是,则从待分析节点中获取目标信息,否则,将待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点,直至获取到目标信息。本发明提高了网页页面目标信息提取的准确度和效率。

Description

提取网页页面目标信息的方法、电子设备和介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种提取网页页面目标信息的方法、电子设备和介质。
背景技术
在互联网中,每天都会产生海量的网页数据,在对网页数据分析过程中,需要提取目标信息,例如标题、网页文本信息和日期等,现有的网页页面的正文信息大部分的展示形式是html,如果是网络爬虫采集的信息,也有部分是以序列化(json)的结构展示。现有正文提取的方式通过分析各页面块中的文本密度,将文本密度最大的页面块作为正文处理,使用文本密度进行正文提取的方法,但是,这种识别率较低,通常情况下,这些网页页面中经常夹杂着大量无用的内容或这缺失部分正文,例如一些媒体平台支持样式编辑器,让页面结构更加复杂,如推荐链接和宣传视图等噪音信息,会导致文本密度下降,容易造成提取错误,信息准确度低。此外,现有的提取方式是要遍历整个网页页面源码进行提取目标信息的,因此,信息提取效率低。由此可知,如何提高网页页面目标信息提取的准确度和效率成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种提取网页页面目标信息的方法、电子设备和介质,提高了网页页面目标信息提取的准确度和效率。
根据本发明第一方面,提供了一种提取网页页面目标信息的方法,包括:
步骤S1、获取待提取网页页面的HTML代码,并基于所述HTML代码构建对应的树形结构;
步骤S2、遍历所述树形结构,根据所述树形结构head部分的标题信息获取标题节点文本数据,并从所述树形结构获取每一内容节点的特征信息,内容节点特征信息包括路径信息、内容节点文本数据和文本密度,所述内容节点为所述树形结构中除标题节点外的其他节点;
步骤S3、基于所有内容节点的路径信息将所有内容节点分组;
步骤S4、根据所述标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组;
步骤S5、将所述目标分组的内容节点作为待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,将所述待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点,直至获取到所述目标信息。
根据本发明第二方面,提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本发明第一方面所述的方法。
根据本发明第三方面,提供一种计算机可读存储介质,所述计算机指令用于执行本发明第一方面所述的方法。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种提取网页页面目标信息的方法、电子设备和介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明基于待提取网页页面的HTML代码构建树形结构,并将树形结构的内容节点进行分组,再从分组中确定最优组,基于最优组获取目标信息,提高了网页页面目标信息提取的准确度和效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的提取网页页面目标信息的方法流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种提取网页页面目标信息的方法、电子设备和介质的具体实施方式及其功效,详细说明如后。
本发明实施例提供了一种提取网页页面目标信息的方法,如图1所示,包括:
步骤S1、获取待提取网页页面的超文本标记语言(HTML)代码,并基于所述HTML代码构建对应的树形结构;
步骤S2、遍历所述树形结构,根据所述树形结构head部分的标题信息获取标题节点文本数据,并从所述树形结构获取每一内容节点的特征信息,内容节点特征信息包括路径信息、内容节点文本数据和文本密度,所述内容节点为所述树形结构中除标题节点外的其他节点;
其中,标题节点对应在树形结构head部分,内容节点对应在树形结构的body部分。
步骤S3、基于所有内容节点的路径信息将所有内容节点分组;
步骤S4、根据所述标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组;
其中,所述目标分组为预测的最可能包含目标信息的分组,即最优组。
步骤S5、将所述目标分组的内容节点作为待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,将所述待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点,直至获取到所述目标信息。
其中,具体可采用lxml库中的iterchildren()方法对子节点进行升格操作。目标信息具体可包括标题、正文、日期、点赞数、关注数、评论数等信息。
本发明实施例基于待提取网页页面的HTML代码构建树形结构,并将树形结构的内容节点进行分组,再从分组中确定最优组,基于最优组获取目标信息,提高了网页页面目标信息提取的准确度和效率。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
由于路径信息通常比长,直接获取并存储会占用大量内存,因此,作为一种实施例,所述步骤S2中,从所述树形结构获取每一内容节点的路径信息时,还包括:步骤S21、将每一内容节点的路径信息进行压缩编码处理,具体可采用md5进行压缩编码,通过对路径信息进行压缩编码处理可以调整分组粒度,减少分组路径的长度,且能节省内存。
作为一种实施例,所述路径信息为网页页面中主体内容的xpath路径信息,所述步骤S3包括:
步骤S31、将每一内容节点的路径信息的下标信息进行模糊处理;
可以理解的是,对下标进行模糊处理指的是将全部替换为同一的预设字符,或者删除。
步骤S32、将模糊处理后的路径信息一致的内容节点划分至同一分组中。
以下以一具体示例进行说明:
第一内容节点对应的xpath路径信息为:
“//*[@id="root"]/div/div[3]/div[1]/div[1]/div[3]/div/div[1]/p[1]”;
将第一内容节点对应的xpath路径信息进行模糊处理后得到:
“//*[@id="root"]/div/div$/div$/div$/div$/div/div$/p$”。
第二内容节点对应的xpath路径信息为:
“//*[@id="root"]/div/div[3]/div[1]/div[1]/div[3]/div/div[1]/p[2]”;
将第二内容节点对应的xpath路径信息进行模糊处理后得到:
“//*[@id="root"]/div/div$/div$/div$/div$/div/div$/p$”。
由此可知,对下标进行模糊处理后的第一内容节点和第二内容节点的路径信息相同,因此第一内容节点和第二内容节点属于同一分组。
文本密度指的是文本长度,是有效字符统计,具体可以是排除编码、大于一定数量的字符。需要说明的是,文本密度大的元素不一定是正文,有些文本如来源、时间、作者等元素有可能被错误的提取为正文;文本密度小的元素也不一定不是正文,比如在贴吧网页和论坛网页中,有可能一个用户分享的一句话或链接,这些内容都会导致文本密度下降,所以在此本发明实施例中,目标信息的提取可依靠多维度的特征指标进行处理,具体的,作为一种实施例,所述步骤S4包括:
步骤S41、根据每一分组中的内容节点文本数据获取每一分组对应的文本密度,并按从大到小的顺序排序P1,P2,…PN,其中,N表示分组总数;
其中,文本密度是有效字符统计
步骤S42、获取排在前预设n个的文本密度P1,P2,…Pn,其中,n为大于等于2的正整数,n小于N;
步骤S43、获取P1与P2,…Pn的数值均差,并与预设的均差阈值比较,若数值均差大于等于所述均差阈值,则将P1对应的分组确定为目标分组。
其中,n可以取值为3,即求P1与P2和P3的数值均差,并与均差阈值比较。
进一步的,若所述数值均差小于所述均差阈值,则所述步骤S4还包括:
步骤S44、判断所述标题节点文本是否为空,若为空,则直接将P1对应的分组确定为目标分组,否则,执行步骤S45,所述标题节点文本为空表示无法确定标题节点;
需要说明的是,有些网页的标题节点是不太确定的,这种情况下,就可直接采用文本密度来选择目标分组。
步骤S45、第x组对应的文本密度为Px,获取第x组的文本数据与所述标题节点文本数据的相似度Qx,x的取值为1到N,或者为1到n;
步骤S46、获取第x组对应的第一参考值Yx=Px*Qx,将第一参考值最大的分组确定为所述目标分组。
作为一种实施例,所述步骤S45具体可包括:
步骤S451、将第x组的文本数据与所述所述标题节点文本数据进行相似度计算,得到初始相似值a;
其中,具体可将标题节点和分组中各节点的文本使用difflib.SequenceMatcher函数计算出初始相似值。或者可以对分组后的数据进行扫描,采用相似度算法欧式距离计算分组中的文本数据到标题节点文本数据之间的距离,欧氏距离是一个通常采用的距离定义,在多维空间中两个点之间的真实距离,或者向量的自然长度。
步骤S452、将第x组的各内容节点的文本数据进行切分,双重循环遍历内容节点文本和所述标题节点文本,计算内容节点文本数据命中标题文本数据的命中比值b;
步骤S453、基于初始相似值a、命中比值b和预设的第一权重k确定第x组的文本数据与所述标题节点文本数据的相似度Qx:Qx=a+k*b。
其中,第一权重的值与命中比值对分组的影响成正相关,第一权重设置越高,分组结果受命中比值的影响越大。
在一些实施例中,网页页面链接数过多可能是文章的推荐链接或宣传广告等噪音信息,因此可以需要将基于链接数先进行过滤操作,从而减少计算量,具体的,所述内容节点特征信息还包括节点所包含的链接数,所述步骤S4中,在执行步骤S41之前,还可包括:
步骤S40、遍历每一分组的节点,获取每一分组的链接数,并与预设的链接数阈值比较,若超过所述链接数阈值,则将该分组滤除,从而实现对网页页面中噪音数据的滤除。
作为一种实施例,步骤S5具体可包括:
步骤S51、将所述目标分组的内容节点作为待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,执行步骤S52;
步骤S52、将所述目标分组连接的父节点作为第一父节点、将所述第一父节点以及所述第一父节点连接的各分组的节点加入所述待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,执行步骤S53;
步骤S53、将所述第一父节点的父节点作为第二父节点、将所述第二父节点以及所述第二父节点连接的各分组的节点加入所述待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,执行步骤S8;
…(“…”表示依照上述描述的规律执行)
步骤S5m+2、将所述第m父节点的父节点作为第m+1父节点,所述第m+1父节点为目标分组节点和标题节点共同的父节点、将所述第m+1父节点以及所述第m+1父节点连接的各分组的节点加入所述待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,结束流程。
所述步骤S5中,所述判断所述待分析节点中是否包括目标信息,具体可包括:
步骤S50、从所述待分析节点中获取正文节点数、小标题数和日期数,并判断三者是否相等,若相等,则确定所述待分析节点中包括目标信息。
需要说明的是,对最优块的每个内容节点检索标题、日期、正文等信息,通过标题、日期、正文的存在与否,以及标题节点还可作为特征对网页页面分类,基于分类也可确定目标信息所在的节点,以下通过几个具体示例进行说明:
作为一种示例,标题节点文本不为空,则表示网页源码中有确定的标题节点,目标分组中检索出的正文节点数和小标题数、日期数不对应,则判断网页页面类型属于文章类,主要信息就需要基于目标以及升格点来获取。
作为一种示例,网页源码中标题节点文本为空,标题节点不确定,但是目标组中的正文节点数和小标题、日期数对应,根据分类结果,这种网页源码类型确定为快讯简报类,网页源码的主要信息就直接从目标分组中获取。
作为一种示例,网页源码中有确定的标题节点,日期数对应,但是在目标分组中没有与之对应的小标题,根据分类结果,可以确定此类型为有社交属性的类型,目标信息也可直接在目标分组中进行整理。
作为一种示例,网页源码中有确定的标题节点,升格后元素中有多个超链接,超链接数量和内容节点中元素标签数量对应,内容节点中各文本大小的离散程度低于预设离散阈值,日期不对应,可以确定此类型为文章列表或导航类型,目标信息需基于目标分组和升格节点获取。
本发明实施例还提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本发明实施例所述的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机指令用于执行本发明实施例所述的方法。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (9)

1.一种提取网页页面目标信息的方法,其特征在于,包括:
步骤S1、获取待提取网页页面的HTML代码,并基于所述HTML代码构建对应的树形结构;
步骤S2、遍历所述树形结构,根据所述树形结构head部分的标题信息获取标题节点文本数据,并从所述树形结构获取每一内容节点的特征信息,内容节点特征信息包括路径信息、内容节点文本数据和文本密度,所述内容节点为所述树形结构中除标题节点外的其他节点;
步骤S3、基于所有内容节点的路径信息将所有内容节点分组;
步骤S4、根据所述标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组;
所述步骤S4包括:
步骤S41、根据每一分组中的内容节点文本数据获取每一分组对应的文本密度,并按从大到小的顺序排序P1,P2,…PN,其中,N表示分组总数;
步骤S42、获取排在前预设n个的文本密度P1,P2,…Pn,其中,n为大于等于2的正整数,n小于N;
步骤S43、获取P1与P2,…Pn的数值均差,并与预设的均差阈值比较,若数值均差大于等于所述均差阈值,则将P1对应的分组确定为目标分组;
步骤S5、将所述目标分组的内容节点作为待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,将所述待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点,直至获取到所述目标信息。
2.根据权利要求1所述的方法,其特征在于,
所述路径信息为网页页面中主体内容的xpath路径信息,所述步骤S3包括:
步骤S31、将每一内容节点的路径信息的下标信息进行模糊处理;
步骤S32、将模糊处理后的路径信息一致的内容节点划分至同一分组中。
3.根据权利要求1所述的方法,其特征在于,
若所述数值均差小于所述均差阈值,则所述步骤S4还包括:
步骤S44、判断所述标题节点文本是否为空,若为空,则直接将P1对应的分组确定为目标分组,否则,执行步骤S45,所述标题节点文本为空表示无法确定标题节点;
步骤S45、第x组对应的文本密度为Px,获取第x组的文本数据与所述标题节点文本数据的相似度Qx,x的取值为1到N,或者为1到n;
步骤S46、获取第x组对应的第一参考值Yx=Px*Qx,将第一参考值最大的分组确定为所述目标分组。
4.根据权利要求3所述的方法,其特征在于,
所述步骤S45包括:
步骤S451、将第x组的文本数据与所述标题节点文本数据进行相似度计算,得到初始相似值a;
步骤S452、将第x组的各内容节点的文本数据进行切分,双重循环遍历内容节点文本和所述标题节点文本,计算内容节点文本数据命中标题文本数据的命中比值b;
步骤S453、基于初始相似值a、命中比值b和预设的第一权重k确定第x组的文本数据与所述标题节点文本数据的相似度Qx:Qx=a+k*b。
5.根据权利要求1所述的方法,其特征在于,
所述内容节点特征信息还包括节点所包含的链接数,所述步骤S4中,在执行步骤S41之前,还包括:
步骤S40、遍历每一分组的节点,获取每一分组的链接数,并与预设的链接数阈值比较,若超过所述链接数阈值,则将该分组滤除。
6.根据权利要求1所述的方法,其特征在于,
步骤S5包括:
步骤S51、将所述目标分组的内容节点作为待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,执行步骤S52;
步骤S52、将所述目标分组连接的父节点作为第一父节点、将所述第一父节点以及所述第一父节点连接的各分组的节点加入所述待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,执行步骤S53;
步骤S53、将所述第一父节点的父节点作为第二父节点、将所述第二父节点以及所述第二父节点连接的各分组的节点加入所述待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,执行步骤S54;
步骤S5m+2、将第m父节点的父节点作为第m+1父节点,所述第m+1父节点为目标分组节点和标题节点共同的父节点、将所述第m+1父节点以及所述第m+1父节点连接的各分组的节点加入所述待分析节点,判断所述待分析节点中是否包括目标信息,若是,则从所述待分析节点中获取所述目标信息,否则,结束流程。
7.根据权利要求6所述的方法,其特征在于,
所述步骤S5中,所述判断所述待分析节点中是否包括目标信息,包括:
步骤S50、从所述待分析节点中获取正文节点数、小标题数和日期数,并判断三者是否相等,若相等,则确定所述待分析节点中包括目标信息。
8.一种电子设备,其特征在于,包括:
至少一个处理器;
以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行前述权利要求1-7任一项所述的方法。
9.种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行前述权利要求1-7中任一项所述的方法。
CN202110207419.4A 2021-02-25 2021-02-25 提取网页页面目标信息的方法、电子设备和介质 Active CN112559929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110207419.4A CN112559929B (zh) 2021-02-25 2021-02-25 提取网页页面目标信息的方法、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110207419.4A CN112559929B (zh) 2021-02-25 2021-02-25 提取网页页面目标信息的方法、电子设备和介质

Publications (2)

Publication Number Publication Date
CN112559929A CN112559929A (zh) 2021-03-26
CN112559929B true CN112559929B (zh) 2021-05-07

Family

ID=75034663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110207419.4A Active CN112559929B (zh) 2021-02-25 2021-02-25 提取网页页面目标信息的方法、电子设备和介质

Country Status (1)

Country Link
CN (1) CN112559929B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116090375B (zh) * 2023-03-01 2024-02-02 上海合见工业软件集团有限公司 基于覆盖率数据确定目标驱动源码的系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
CN104217025A (zh) * 2014-09-28 2014-12-17 福州大学 针对多记录网页的记录项抽取系统及方法
CN109582886A (zh) * 2018-11-02 2019-04-05 北京字节跳动网络技术有限公司 页面内容提取方法、模板的生成方法及装置、介质及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5367869B2 (ja) * 2012-04-27 2013-12-11 楽天株式会社 集計装置、集計プログラム、集計プログラムを記録したコンピュータ読み取り可能な記録媒体、及び集計方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
CN104217025A (zh) * 2014-09-28 2014-12-17 福州大学 针对多记录网页的记录项抽取系统及方法
CN109582886A (zh) * 2018-11-02 2019-04-05 北京字节跳动网络技术有限公司 页面内容提取方法、模板的生成方法及装置、介质及设备

Also Published As

Publication number Publication date
CN112559929A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
CA3124358C (en) Method and system for identifying citations within regulatory content
CN109933780B (zh) 使用深度学习技术确定文档中的上下文阅读顺序
US9589046B2 (en) Anomaly, association and clustering detection
Tkaczyk et al. Cermine--automatic extraction of metadata and references from scientific literature
CN110968667B (zh) 一种基于文本状态特征的期刊文献表格抽取方法
JP2005025763A (ja) 構造化文書の分割プログラム、分割装置、及び分割方法
CN105975459B (zh) 一种词项的权重标注方法和装置
KR20170004983A (ko) 라인 분할 방법
Rausch et al. Docparser: Hierarchical document structure parsing from renderings
Mäkinen et al. Linear time construction of indexable founder block graphs
Seth et al. Segmenting tables via indexing of value cells by table headers
CN112559929B (zh) 提取网页页面目标信息的方法、电子设备和介质
CN117376632B (zh) 基于智能深度合成的数据恢复方法和系统
CN106528509B (zh) 网页信息提取方法及装置
US10120852B2 (en) Data processing method, non-transitory computer-readable storage medium, and data processing device
CN113282717B (zh) 文本中实体关系的抽取方法、装置、电子设备及存储介质
CN105183732A (zh) 网页的处理方法及装置
CN109472020A (zh) 一种特征对齐中文分词方法
WO2013063734A1 (en) Determining document structure similarity using discrete wavelet transformation
CN105653567A (zh) 一种文本序列数据中快速查找特征字符串的方法
Kharisma et al. Comparison of Naïve Bayes Algorithm Model Combinations with Term Weighting Techniques in Sentiment Analysis
CN110795933A (zh) 一种网页正文的识别处理方法及装置
Nguyen-Hoang et al. Genre-oriented web content extraction with deep convolutional neural networks and statistical methods
KR102567896B1 (ko) 딥러닝을 이용한 종교 감성 분석 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant