CN105868363B - 一种基于模糊逻辑的网页页面正文抽取方法及系统 - Google Patents

一种基于模糊逻辑的网页页面正文抽取方法及系统 Download PDF

Info

Publication number
CN105868363B
CN105868363B CN201610189222.1A CN201610189222A CN105868363B CN 105868363 B CN105868363 B CN 105868363B CN 201610189222 A CN201610189222 A CN 201610189222A CN 105868363 B CN105868363 B CN 105868363B
Authority
CN
China
Prior art keywords
row block
characters
webpage
text
hyperlink
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610189222.1A
Other languages
English (en)
Other versions
CN105868363A (zh
Inventor
赵维平
钟新斌
张勇
曹震
王鑫毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN201610189222.1A priority Critical patent/CN105868363B/zh
Publication of CN105868363A publication Critical patent/CN105868363A/zh
Application granted granted Critical
Publication of CN105868363B publication Critical patent/CN105868363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于模糊逻辑的网页页面正文抽取方法,包括:读取网页页面的内容;统计网页页面中的行块字符数;统计网页页面中的行块超链接数;基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;判断所述行块正文概率值是否大于预设正文概率阈值,若是,则:输出行块正文概率值大于预设正文概率阈值所在的行块的内容。本发明无需针对特定的网页页面配置模板等监督规则,即可以准确识别网页页面中的正文内容,实现高效、通用的网页页面正文抽取。本发明还公开了一种基于模糊逻辑的网页页面正文抽取系统。

Description

一种基于模糊逻辑的网页页面正文抽取方法及系统
技术领域
本发明涉及网页页面处理技术领域,尤其涉及一种基于模糊逻辑的网页页面正文抽取方法及系统。
背景技术
随着互联网金融的发展,金融企业不再满足于单纯依靠内部的交易型结构化数据来进行价值发现,而越来越重视利用互联网上海量的非结化数据,用于行情研究、网络征信、品牌价值推广等。当前,个人、机构和企业在网络上发布的信息通常以网页形式存在,而这些互联网网页页面异构性大,且通常用包含大量的HMTL标签、JS脚本和广告推广等噪声信息所包围,给数据整合和分析工作带来了巨大的困扰。
网页信息的抽取目标是将网页页面中的信息抽取出来并标示为结构化、自描述的数据结构。当前在这一领域主要的技术方案有以下几点:
一是基于简单语言标记的去除,通常利用网页形式的页面标签包括“<”和“>”的特点,通过简单的程序遍历和赋值,将所要抽取的信息抽取出来。二是采用正则表达式进行文本匹配,提取内嵌的正文信息。三是采用Dom(Document Object Mode,文档对象模型)树的方式进行内容提取,通过将HTML等网页页面构建Dom树,再结合定制的模板文件,从相关叶子节点中提取相关信息。上述技术方案,通常是一种“监督”形式的网页信息抽取方案,需要对网页页面的结构具有精准的了解,通过制定精确的模板文件或匹配规则进行内容的抽取。由于网页的正文部分的每一行通常包括较高的文本长度,因此,有的技术方案也利用统计每行文本长度的分布特征,通过设定相关阈值来抽取通常分布在“波峰”范围内的行标号,最终完成网页页面正文内容抽取。
但是,上述的技术方法存在对页面的要求高,装置人工成本高。由于网页页面的结构千差万别,不管是简单语言标记去除、正则表达式信息抽取还是基于Dom树的网页抽取,都必须对待抽取目标的页面结构非常了解,需要构建大量的解析模板来匹配相应位置的内容,人力成本惊人。且由于页面异构性大,方案和装置通用性差。在网络上,网页页面的更新周期往往非常短,当页面结构发生变化时,需要修改装置的解析模板进行适配,大大降低了装置的稳定性和鲁棒性。同时,人工干预强,解析抽取的自动化程度受限。当前的网页抽取方案,往往需要较多的人工干预,需要阅读网页页面结构,或主观设立一些精准的参数,主观因素强,装置抽取的自动化程度受限。
发明内容
本发明提供了一种基于模糊逻辑的网页页面正文抽取方法,无需针对特定的网页页面配置模板等监督规则,即可以准确识别网页页面中的正文内容,实现高效、通用的网页页面正文抽取。
本发明提供了一种基于模糊逻辑的网页页面正文抽取方法,包括:
读取网页页面的内容;
统计网页页面中的行块字符数;
统计网页页面中的行块超链接数;
基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;
判断所述行块正文概率值是否大于预设正文概率阈值,若是,则:
输出行块正文概率值大于预设正文概率阈值所在的行块的内容。
优选地,所述统计网页页面中的行块字符数具体为:
过滤网页页面的HTML标签和JS脚本,得到网页纯文本;
依据字符数隶属度函数统计每个行块所包含的文本数;其中:SC表示少字符数、MC表示中字符数、LC表示多字符数。
优选地,所述统计网页页面中的行块超链接数具体为:
依据超链接数隶属度函数统计网页页面对应行块的超级链接数目;其中:SL表示少超链接数、ML表示中超链接数、LL表示多超链接数。
优选地,所述基于模糊逻辑推理进行参数模糊化和规则推理具体为:
依据预设的规则库,根据所述行块字符数和行块超链接数输出正文概率。
优选地,所述通过解模糊算法输出行块正文概率值具体为:
依据公式μC'(z)的加权平均值为z的清晰值,输出行块正文概率值。
一种基于模糊逻辑的网页页面正文抽取系统,包括:
读取单元,用于读取网页页面的内容;
行块字符数统计单元,用于统计网页页面中的行块字符数;
行块超链接数统计单元,用于统计网页页面中的行块超链接数;
模糊推理单元,用于基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;
判断单元,用于判断所述行块正文概率值是否大于预设正文概率阈值;
输出单元,用于当所述判断单元判断所述行块正文概率值大于预设正文概率阈值时,输出行块正文概率值大于预设正文概率阈值所在的行块的内容。
优选地,所述行块字符数统计单元具体用于:
过滤网页页面的HTML标签和JS脚本,得到网页纯文本;
依据字符数隶属度函数统计每个行块所包含的文本数;其中:SC表示少字符数、MC表示中字符数、LC表示多字符数。
优选地,所述行块超链接数统计单元具体用于:
依据超链接数隶属度函数统计网页页面对应行块的超级链接数目;其中:SL表示少超链接数、ML表示中超链接数、LL表示多超链接数。
优选地,所述模糊推理单元具体用于:
依据预设的规则库,根据所述行块字符数和行块超链接数输出正文概率。
优选地,所述模糊推理单元具体还用于:
依据公式μC'(z)的加权平均值为z的清晰值,输出行块正文概率值。
由上述方案可知,本发明提供的一种基于模糊逻辑的网页页面正文抽取方法,通过读取网页页面的内容,并统计网页页面中的行块字符数以及行块超链接数,然后基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;最后判断输出的行块正文概率值是否大于预设正文概率阈值,若是则输出行块正文概率值大于预设正文概率阈值所在的行块的内容,该方案无需针对特定的网页页面配置模板等监督规则,即可以准确识别网页页面中的正文内容,实现高效、通用的网页页面正文抽取。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一公开的一种基于模糊逻辑的网页页面正文抽取方法的流程图;
图2为本发明实施例一公开的一种基于模糊逻辑的网页页面正文抽取系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例一公开的一种基于模糊逻辑的网页页面正文抽取方法,包括:
S101、读取网页页面的内容;
通过分析互联网上网页的结构发现,网页页面每一行都表示一个完整的语义,正文内容代码在物理位置上会靠的很近,正文内容的一行中大都是文字,广告推广等噪声部分通常包括大量的推广链接。基于此,在对网页页面正文抽取时,首先读取网页页面的内容。其中,网页页面的内容可以是本地、HDFS分布式文件系统的网页文件或通过URL链接的某个远端网页页面。
S102、统计网页页面中的行块字符数;
然后对网页页面中的行块字符数进行统计,其中,行块是指网页页面中每行和它周围几行共同构成的部分。行块字符数是指网页页面中该行与周围行组成行块的字符数字的多少。将行块字符数定义为输入量x,其模糊语言集合可表示为:字符数={SC(少字符数),MC(中字符数),LC(多字符数)}。
S103、统计网页页面中的行块超链接数;
然后对网页页面中的行块超链接数进行统计,其中,行块超链接数是指网页页面代码中某行所在行块的超链接数的多少。将行块超链接数定义为输入量y,其模糊集合表示为:正文概率={VS(很小),S(小),M(中),L(大),很大(VL)}。
S104、基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;
将正文的概率定义为输出量z,其中模糊集合可表示为:正文概率={VS(很小),S(小),M(中),L(大),很大(VL)}。
S105、判断所述行块正文概率值是否大于预设正文概率阈值,若是,则进入S106:
对输出的正文概率值进行判断,判断输出的正文概率值是否大于预设的正文概率阈值,其中,正文概率阈值是根据网页页面正文抽取的需求预先设定的,例如,可将正文概率阈值设定为0.58,判断输出的正文概率值是否大于0.58.
S106、输出行块正文概率值大于预设正文概率阈值所在的行块的内容。
当判断输出的正文概率值大于预设的正文概率阈值时,拼接正文概率值大于预设的正文概率阈值所在的所有行块内容为正文内容输出,即抽取出的网页页面正文。
综上所述,在上述实施例中,通过读取网页页面的内容,并统计网页页面中的行块字符数以及行块超链接数,然后基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;最后判断输出的行块正文概率值是否大于预设正文概率阈值,若是则输出行块正文概率值大于预设正文概率阈值所在的行块的内容,该方案无需针对特定的网页页面配置模板等监督规则,即可以准确识别网页页面中的正文内容,实现高效、通用的网页页面正文抽取。
具体的,在上述实施例中,统计网页页面中的行块字符数具体可以为:过滤网页页面的HTML标签和JS脚本,得到网页纯文本,依据字符数隶属度函数统计每个行块所包含的文本数;其中:SC表示少字符数、MC表示中字符数、LC表示多字符数。
具体的,在上述实施例中,统计网页页面中的行块超链接数具体可以为:依据超链接数隶属度函数统计网页页面对应行块的超级链接数目;其中:SL表示少超链接数、ML表示中超链接数、LL表示多超链接数。
具体的上述实施例中,基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值具体可以为:依据正文概率隶属度函数其中,VS表示很小、S表示小、M表示中、L表示大、VL表示很大。以及如表1所示的FLC规则库输出正文概率,并依据公式μC'(z)的加权平均值为z的清晰值,输出行块正文概率值。
表1 FLC规则库
综上所述,本发明以模糊逻辑规则推理为基础进行网页正文抽取,无需制定繁多的解析模板,可以大大降低人工成本。采用通用的方式进行网页信息抽取工作,无需考虑页面的异构特征,使装置的可靠性和通用性大大增强。只需确立最终的正文概率阈值,无需过多的指导参数,人工干预小。
如图2所示,为本发明实施例一公开的一种基于模糊逻辑的网页页面正文抽取系统,包括:
读取单元201,用于读取网页页面的内容;
通过分析互联网上网页的结构发现,网页页面每一行都表示一个完整的语义,正文内容代码在物理位置上会靠的很近,正文内容的一行中大都是文字,广告推广等噪声部分通常包括大量的推广链接。基于此,在对网页页面正文抽取时,首先读取网页页面的内容。其中,网页页面的内容可以是本地、HDFS分布式文件系统的网页文件或通过URL链接的某个远端网页页面。
行块字符数统计单元202,用于统计网页页面中的行块字符数;
然后对网页页面中的行块字符数进行统计,其中,行块是指网页页面中每行和它周围几行共同构成的部分。行块字符数是指网页页面中该行与周围行组成行块的字符数字的多少。将行块字符数定义为输入量x,其模糊语言集合可表示为:字符数={SC(少字符数),MC(中字符数),LC(多字符数)}。
行块超链接数统计单元203,用于统计网页页面中的行块超链接数;
然后对网页页面中的行块超链接数进行统计,其中,行块超链接数是指网页页面代码中某行所在行块的超链接数的多少。将行块超链接数定义为输入量y,其模糊集合表示为:正文概率={VS(很小),S(小),M(中),L(大),很大(VL)}。
模糊推理单元204,用于基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;
将正文的概率定义为输出量z,其中模糊集合可表示为:正文概率={VS(很小),S(小),M(中),L(大),很大(VL)}。
判断单元205,用于判断所述行块正文概率值是否大于预设正文概率阈值;
对输出的正文概率值进行判断,判断输出的正文概率值是否大于预设的正文概率阈值,其中,正文概率阈值是根据网页页面正文抽取的需求预先设定的,例如,可将正文概率阈值设定为0.58,判断输出的正文概率值是否大于0.58。
输出单元206,用于当所述判断单元判断所述行块正文概率值大于预设正文概率阈值时,输出行块正文概率值大于预设正文概率阈值所在的行块的内容。
当判断输出的正文概率值大于预设的正文概率阈值时,拼接正文概率值大于预设的正文概率阈值所在的所有行块内容为正文内容输出,即抽取出的网页页面正文。
综上所述,在上述实施例中,通过读取网页页面的内容,并统计网页页面中的行块字符数以及行块超链接数,然后基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;最后判断输出的行块正文概率值是否大于预设正文概率阈值,若是则输出行块正文概率值大于预设正文概率阈值所在的行块的内容,该方案无需针对特定的网页页面配置模板等监督规则,即可以准确识别网页页面中的正文内容,实现高效、通用的网页页面正文抽取。
具体的,在上述实施例中,统计网页页面中的行块字符数具体可以为:过滤网页页面的HTML标签和JS脚本,得到网页纯文本,依据字符数隶属度函数统计每个行块所包含的文本数;其中:SC表示少字符数、MC表示中字符数、LC表示多字符数。
具体的,在上述实施例中,统计网页页面中的行块超链接数具体可以为:依据超链接数隶属度函数统计网页页面对应行块的超级链接数目;其中:SL表示少超链接数、ML表示中超链接数、LL表示多超链接数。
具体的上述实施例中,基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值具体可以为:依据正文概率隶属度函数其中,VS表示很小、S表示小、M表示中、L表示大、VL表示很大。以及如表1所示的FLC规则库输出正文概率,并依据公式μC'(z)的加权平均值为z的清晰值,输出行块正文概率值。
表1 FLC规则库
综上所述,本发明以模糊逻辑规则推理为基础进行网页正文抽取,无需制定繁多的解析模板,可以大大降低人工成本。采用通用的方式进行网页信息抽取工作,无需考虑页面的异构特征,使装置的可靠性和通用性大大增强。只需确立最终的正文概率阈值,无需过多的指导参数,人工干预小。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种基于模糊逻辑的网页页面正文抽取方法,其特征在于,包括:
读取网页页面的内容;
统计网页页面中的行块字符数;
统计网页页面中的行块超链接数;
基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;
判断所述行块正文概率值是否大于预设正文概率阈值,若是,则:
输出行块正文概率值大于预设正文概率阈值所在的行块的内容;
其中,所述统计网页页面中的行块字符数具体为:
过滤网页页面的HTML标签和JS脚本,得到网页纯文本;
依据字符数隶属度函数统计每个行块所包含的文本数;其中:SC表示少字符数、MC表示中字符数、LC表示多字符数;
所述统计网页页面中的行块超链接数具体为:
依据超链接数隶属度函数统计网页页面对应行块的超级链接数目;其中:SL表示少超链接数、ML表示中超链接数、LL表示多超链接数。
2.根据权利要求1所述的方法,其特征在于,所述基于模糊逻辑推理进行参数模糊化和规则推理具体为:
依据预设的规则库,根据所述行块字符数和行块超链接数输出正文概率。
3.根据权利要求2所述的方法,其特征在于,所述通过解模糊算法输出行块正文概率值具体为:
依据公式μC'(z)的加权平均值为z的清晰值,输出行块正文概率值。
4.一种基于模糊逻辑的网页页面正文抽取系统,其特征在于,包括:
读取单元,用于读取网页页面的内容;
行块字符数统计单元,用于统计网页页面中的行块字符数;
行块超链接数统计单元,用于统计网页页面中的行块超链接数;
模糊推理单元,用于基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;
判断单元,用于判断所述行块正文概率值是否大于预设正文概率阈值;
输出单元,用于当所述判断单元判断所述行块正文概率值大于预设正文概率阈值时,输出行块正文概率值大于预设正文概率阈值所在的行块的内容;
其中,所述行块字符数统计单元具体用于:
过滤网页页面的HTML标签和JS脚本,得到网页纯文本;
依据字符数隶属度函数统计每个行块所包含的文本数;其中:SC表示少字符数、MC表示中字符数、LC表示多字符数;
所述行块超链接数统计单元具体用于:
依据超链接数隶属度函数统计网页页面对应行块的超级链接数目;其中:SL表示少超链接数、ML表示中超链接数、LL表示多超链接数。
5.根据权利要求4所述的系统,其特征在于,所述模糊推理单元具体用于:
依据预设的规则库,根据所述行块字符数和行块超链接数输出正文概率。
6.根据权利要求5所述的系统,其特征在于,所述模糊推理单元具体还用于:
依据公式μC'(z)的加权平均值为z的清晰值,输出行块正文概率值。
CN201610189222.1A 2016-03-29 2016-03-29 一种基于模糊逻辑的网页页面正文抽取方法及系统 Active CN105868363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610189222.1A CN105868363B (zh) 2016-03-29 2016-03-29 一种基于模糊逻辑的网页页面正文抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610189222.1A CN105868363B (zh) 2016-03-29 2016-03-29 一种基于模糊逻辑的网页页面正文抽取方法及系统

Publications (2)

Publication Number Publication Date
CN105868363A CN105868363A (zh) 2016-08-17
CN105868363B true CN105868363B (zh) 2018-12-14

Family

ID=56627237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610189222.1A Active CN105868363B (zh) 2016-03-29 2016-03-29 一种基于模糊逻辑的网页页面正文抽取方法及系统

Country Status (1)

Country Link
CN (1) CN105868363B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776886B (zh) * 2016-11-29 2019-09-24 中国农业银行股份有限公司 一种网页页面正文内容抽取方法及装置
CN109657180B (zh) * 2018-12-11 2021-11-26 中科国力(镇江)智能技术有限公司 一种智能化网页内容自动模糊抽取系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN103425765A (zh) * 2013-08-06 2013-12-04 优视科技有限公司 网页正文的提取方法和装置、网页预览方法和系统
CN104615728A (zh) * 2015-02-09 2015-05-13 浪潮集团有限公司 一种网页正文提取方法及装置
CN105022803A (zh) * 2015-07-01 2015-11-04 广州市万隆证券咨询顾问有限公司 一种提取网页正文内容的方法及系统
CN105183801A (zh) * 2015-08-25 2015-12-23 北京信息科技大学 网页正文抽取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN103425765A (zh) * 2013-08-06 2013-12-04 优视科技有限公司 网页正文的提取方法和装置、网页预览方法和系统
CN104615728A (zh) * 2015-02-09 2015-05-13 浪潮集团有限公司 一种网页正文提取方法及装置
CN105022803A (zh) * 2015-07-01 2015-11-04 广州市万隆证券咨询顾问有限公司 一种提取网页正文内容的方法及系统
CN105183801A (zh) * 2015-08-25 2015-12-23 北京信息科技大学 网页正文抽取方法及装置

Also Published As

Publication number Publication date
CN105868363A (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN111897970B (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
US9477756B1 (en) Classifying structured documents
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
CN110008343A (zh) 文本分类方法、装置、设备及计算机可读存储介质
US20210073257A1 (en) Logical document structure identification
CN108737423A (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN105528416B (zh) 一种网站更新内容的监测方法及系统
CN109815381A (zh) 用户画像构建方法、系统、计算机设备及存储介质
CN107590262A (zh) 大数据分析的半监督学习方法
CN114817811B (zh) 一种网站解析方法和装置
CN103491116A (zh) 正文相关的结构化数据的处理方法及装置
CN103092973B (zh) 信息抽取方法和装置
CN115577701A (zh) 针对大数据安全的风险行为识别方法、装置、设备及介质
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN105868363B (zh) 一种基于模糊逻辑的网页页面正文抽取方法及系统
CN112650910A (zh) 确定网站更新信息的方法、装置、设备和存储介质
CN103078854A (zh) 报文过滤方法与装置
CN114398138A (zh) 界面生成方法、装置、计算机设备和存储介质
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
CN105589918B (zh) 一种提取页面信息的方法及装置
CN110134474A (zh) 基于用户画像分析的网页页面编排方法、系统及存储介质
CN105183730B (zh) 网页信息的处理方法和装置
CN111061975B (zh) 一种页面中无关内容的处理方法、装置
CN108256005A (zh) 互联网产品监控方法及终端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant