CN112287254B - 网页结构化信息提取方法、装置、电子设备及存储介质 - Google Patents
网页结构化信息提取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112287254B CN112287254B CN202011324516.3A CN202011324516A CN112287254B CN 112287254 B CN112287254 B CN 112287254B CN 202011324516 A CN202011324516 A CN 202011324516A CN 112287254 B CN112287254 B CN 112287254B
- Authority
- CN
- China
- Prior art keywords
- data
- information
- webpage
- extracting
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000003068 static effect Effects 0.000 claims description 26
- 239000012634 fragment Substances 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000000227 grinding Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种网页结构化信息提取方法、装置、电子设备及存储介质,其中,该方法包括:缓存移动互联网中的数据,存储为各Kafka数据;对每一Kafka数据进行http解析,获取网页中的URL和正文信息,根据预设的信元规则,提取URL和正文信息中的网页结构化信息。本发明提供的网页结构化信息提取方法、装置、电子设备及存储介质,通过对移动互联网中的数据进行解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取URL数据和正文信息中的网页结构化信息,能提高网页结构化信息的提取效率,能更有效地提取移动互联网网页中的结构化信息。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种网页结构化信息提取方法、装置、电子设备及存储介质。
背景技术
移动互联网中,基于移动终端上安装的应用程序(App,Application)与该应用程序的服务器,通常基于网页形式的数据进行交互。网页中的信息,分为结构化、半结构化和非结构化三种,其中结构化信息对人们最为有用,例如:商户网页中的地址电话信息,商品页面中的商品名称和价格,小说网页中的作者,更新时间,字数等信息。
当前对移动APP的识别方法主要包括以下两种:人工识别和DPI(深度包检测)技术。人工识别的方法,是使用数据包分析工具,获取网页结构化信息,提取APP特征,此方法识别率高,但是需要大量的人力。DPI方法基于应用层的流量检测和控制技术,获取整个应用程序的内容,此种方式能识别APP,但是无法提取APP的有效特征。
综上,现有技术存在获取网页结构化信息的效率低的不足。
发明内容
本发明提供一种网页结构化信息提取方法、装置、电子设备及存储介质,用以解决现有技术中获取网页结构化信息的效率低的缺陷,实现自动化提取网页结构化信息。
本发明提供一种网页结构化信息提取方法,包括:
缓存移动互联网中的数据,存储为各Kafka数据;
对每一所述Kafka数据进行http解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取所述URL数据和正文信息中的网页结构化信息。
根据本发明提供的一种网页结构化信息提取方法,所述对每一所述Kafka数据进行http解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取所述URL数据和正文信息中的网页结构化信息之后,还包括:
基于预设的时间周期,对当前时间周期内提取出的网页结构化信息进行统计。
根据本发明提供的一种网页结构化信息提取方法,所述根据预设的信元规则,提取所述URL数据和正文信息中的网页结构化信息的具体步骤包括:
若根据垃圾数据规则判断获知所述URL数据和正文信息不为垃圾数据,则根据预设的信元规则,提取所述URL数据中的网页结构化信息和所述正文信息中的网页结构化信息。
根据本发明提供的一种网页结构化信息提取方法,根据预设的信元规则,提取所述URL数据中的网页结构化信息的具体步骤包括:
若判断获知所述URL数据为标准结构,则根据预设的URL信元规则提取所述URL数据中的信元,作为所述URL数据中的网页结构化信息。
根据本发明提供的一种网页结构化信息提取方法,根据预设的信元规则,提取所述正文信息中的网页结构化信息的具体步骤包括:
若判断获知所述正文信息为标准结构,则根据预设的http正文信元规则提取所述正文信息中的信元,作为所述正文信息中的网页结构化信息。
根据本发明提供的一种网页结构化信息提取方法,所述基于预设的时间周期,对当前时间周期内提取出的网页结构化信息进行统计之后,还包括:
对当前时间周期内提取出的网页结构化信息进行去重。
根据本发明提供的一种网页结构化信息提取方法,所述对当前时间周期内提取出的网页结构化信息进行去重,还包括:
对已提取出的网页结构化信息进行去重。
本发明还提供一种网页结构化信息提取装置,包括:
Kafka模块,用于缓存移动互联网中的数据,存储为各Kafka数据;
信元提取模块,用于对每一所述Kafka数据进行http解析,获取网页中的URL和正文信息,根据预设的信元规则,提取所述URL和正文信息中的网页结构化信息。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述网页结构化信息提取方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述网页结构化信息提取方法的步骤。
本发明提供的网页结构化信息提取方法、装置、电子设备及存储介质,通过对移动互联网中的数据进行解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取URL数据和正文信息中的网页结构化信息,能提高网页结构化信息的提取效率,能更有效地提取移动互联网网页中的结构化信息。进一步地,通过解析规则的Kafka消息文本,能够提取网页中绝大多数文本中的结构化数据,从而能获取更多的有效特征,能更准确地识别移动APP。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种网页结构化信息提取方法的流程示意图;
图2是本发明提供的一种网页结构化信息提取方法中信元处理步骤的流程示意图;
图3是本发明提供的一种网页结构化信息提取方法中统计分析步骤的流程示意图;
图4是本发明提供的一种网页结构化信息提取装置的结构示意图;
图5是本发明提供的一种网页结构化信息提取装置的结构示意图;
图6是本发明提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
为了克服现有技术的上述问题,本发明实施例提供一种网页结构化信息提取方法、装置、电子设备及存储介质,其发明构思是,通过解析规则的消息文本,能够提取绝大多数文本中的结构化数据,从而获取更多的有效特征,通过自动化的提取,提取的效率更高,可以大大减少人力成本。
图1是本发明实施例提供的一种网页结构化信息提取方法的流程示意图。下面结合图1描述本发明实施例的网页结构化信息提取方法。如图1所示,该方法包括:步骤S101、缓存移动互联网中的数据,存储为各Kafka数据。
需要说明的是,本发明实施例网页结构化信息提取方法,适用于对移动互联网中网页形式的数据进行网页结构化信息提取。
具体地,移动互联网指互联网的技术、平台、商业模式和应用与移动通信技术结合并实践的活动的总称。
将移动互联网中的数据进行缓存,以Kafka数据的形式进行存储。
Kafka是一种高吞吐量、高扩展性的分布式发布订阅消息队列系统,它可以处理用户在网站中的所有动作流数据。
步骤S102、对每一Kafka数据进行http解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取URL数据和正文信息中的网页结构化信息。
具体地,可以通过Kafka轮询的方式,获取新存储的Kafka数据。
对于每一新存储的Kafka数据,可以消费该Kafka数据,并按照特定字段顺序进行http解析,获取网页中的URL(Uniform Resource Locator,统一资源定位器)数据和正文信息。
Http(HyperText Transfer Protocol)指超文本传输协议。
正文信息,为符合超文本传输协议的正文信息,即http正文。
GET和POST是HTTP请求的两种基本方法,网页结构化信息主要包括GET信息和POST信息。
对于GET请求,查询字符串(名称/值对)是在GET请求的URL中发送的,因此,需要获取网页中的URL数据。
对于POST请求,查询字符串(名称/值对)是在POST请求的HTTP消息主体中发送的,因此,需要获取网页中的正文信息。
信元规则,用于提取字符串(名称/值对)、域名、静态片段、首个参数等信元。字符串(名称/值对)等信元,为结构化信息。
对于提取出的URL数据和正文信息,判断其中是否有符合信元规则的字符串(名称/值对)、域名、静态片段、首个参数等信元。
如果有,则将上述符合信元规则的字符串(名称/值对)等信元,作为网页结构化信息提取出来。
获取网页结构化信息之后,可以根据网页结构化信息判断该网页结构化信息的来源是否源于移动终端上安装的App与该app的服务器之间的交互,从而识别出移动App。
获取网页结构化信息之后,还可以根据提取出的信元的优先级,对提取出的网页结构化信息进行打分。提取出的信元的优先级越高,提取出的网页结构化信息的分数越高。
本发明实施例通过对移动互联网中的数据进行解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取URL数据和正文信息中的网页结构化信息,能提高网页结构化信息的提取效率,能更有效地提取移动互联网网页中的结构化信息。进一步地,通过解析规则的Kafka消息文本,能够提取网页中绝大多数文本中的结构化数据,从而能获取更多的有效特征,能更准确地识别移动APP。
基于上述各实施例的内容,对每一Kafka数据进行http解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取URL数据和正文信息中的网页结构化信息之后,还包括:基于预设的时间周期,对当前时间周期内提取出的网页结构化信息进行统计。
具体地,可以按照预设的时间周期,对每一时间周期内提取出的网页结构化信息进行统计,统计该时间周期内域名、静态片段、静态片段加首个参数的分数。
时间周期,可以根据实际情况进行设置,例如:以一天为时间周期。对于时间周期的时长,本发明实施例不进行具体限制。
对当前时间周期内提取出的网页结构化信息进行统计之后,可以将当前时间周期对应的统计结果写入信元表和/或研判表。
信元表,用于存储提取出的全部网页结构化信息和各时间周期对应的统计结果。
研判表,用于存储各时间周期对应的统计结果,以及根据各时间周期对应的统计结果进行研判的研判结果。
本发明实施例通过对当前时间周期内提取出的网页结构化信息进行统计,能更高效地获取网页结构化信息的统计结果。
基于上述各实施例的内容,根据预设的信元规则,提取URL数据和正文信息中的网页结构化信息的具体步骤包括:若根据垃圾数据规则判断获知URL数据和正文信息不为垃圾数据,则根据预设的信元规则,提取URL数据中的网页结构化信息和正文信息中的网页结构化信息。
具体地,提取URL数据和正文信息之后,可以先进行垃圾数据过滤,过滤掉无用的数据,降低数据处理压力。
进行垃圾数据过滤,具体可以根据垃圾数据规则判断提取出的URL数据和正文信息是否为垃圾数据,根据判断结果进行过滤。
垃圾数据规则,用于判断是否为无用的垃圾数据。
如果是垃圾数据,则丢弃,不再进行后续的网页结构化信息提取步骤。
如果不是垃圾数据,则保留,进行网页结构化信息提取步骤,根据预设的信元规则,分别提取URL数据中的网页结构化信息和正文信息中的网页结构化信息。
URL数据中的网页结构化信息,主要为GET信息,主要包括GET请求携带的字符串(名称/值对)、域名、静态片段、首个参数等信元。
正文信息中的网页结构化信息,主要为POST信息,主要包括POST请求携带的字符串(名称/值对)、域名、静态片段、首个参数等信元。
本发明实施例通过在根据预设的信元规则,提取网页结构化信息之前,根据垃圾数据规则过滤掉无用的数据,能降低数据处理压力,能提高网页结构化信息提取的效率。
基于上述各实施例的内容,根据预设的信元规则,提取URL数据中的网页结构化信息的具体步骤包括:若判断获知URL数据为标准结构,则根据预设的URL信元规则提取URL数据中的信元,作为URL数据中的网页结构化信息。
具体地,进行垃圾数据过滤之后,对于保留的URL数据,可以判断该URL数据是否为标准结构。
如果不是,则可以不对该URL数据进行网页结构化信息的提取,而处理保留的正文信息。
如果是,则可以加载预设的URL信元规则,判断该URL数据中是否有符合上述URL信元规则的字符串(名称/值对)、域名、静态片段、首个参数等信元。
如果有,则将上述符合信元规则的字符串(名称/值对)、域名、静态片段、首个参数等信元,作为网页结构化信息提取出来。
需要说明的是,由于URL数据和正文信息中都可能存在网页结构化信息,信元规则可以包括URL信元规则和http正文信元规则。
URL信元规则,用于提取标准结构的URL数据中的字符串(名称/值对)、域名、静态片段、首个参数等信元。
http正文信元规则,用于提取标准结构的正文信息中的字符串(名称/值对)、域名、静态片段、首个参数等信元。
本发明实施例根据预设的URL信元规则,对标准结构的URL数据进行网页结构化信息提取,能提高网页结构化信息的提取效率,能更有效地提取移动互联网网页中的结构化信息。
基于上述各实施例的内容,根据预设的信元规则,提取正文信息中的网页结构化信息的具体步骤包括:若判断获知正文信息为标准结构,则根据预设的http正文信元规则提取正文信息中的信元,作为正文信息中的网页结构化信息。
具体地,进行垃圾数据过滤之后,对于保留的正文信息,可以判断该正文信息是否为标准结构。
如果不是,则可以不对该正文信息进行网页结构化信息的提取,而处理保留的正文信息。
如果是,则可以加载预设的http正文信元规则,判断该正文信息中是否有符合上述http正文信元规则的字符串(名称/值对)、域名、静态片段、首个参数等信元。
如果有,则将上述符合信元规则的字符串(名称/值对)、域名、静态片段、首个参数等信元,作为网页结构化信息提取出来。
本发明实施例根据预设的URL信元规则,对标准结构的URL数据进行网页结构化信息提取,能提高网页结构化信息的提取效率,能更有效地提取移动互联网网页中的结构化信息。
为了便于对本发明上述各实施例的理解,下面通过一个实施例对网页结构化信息提取方法中信元处理步骤进行说明。
图2是本发明提供的一种网页结构化信息提取方法中信元处理步骤的流程示意图。信元处理步骤,用于提取Kafka数据中的网页结构化信息。
如图2所示,信元处理步骤的具体流程可以包括:
步骤S201、Kafka轮询。
步骤S202、消息解析。通过解析Kafka数据,获取URL数据和正文信息。
步骤S203、判断是否为解码数据。判断Kafka数据是否为解码数据;若是,则执行步骤S205;若否,则进入执行步骤S204。
步骤S204、ES入库。将未解码数据保存在全文搜索和分析引擎ES(Elasticsearch)中。
步骤S205、垃圾规则加载。
步骤S206、判断是否匹配垃圾规则。判断Kafka数据是否匹配垃圾规则;若是,则执行步骤S217;若否,则进入执行步骤S207。
步骤S207、加载大类/动作规则。
步骤S208、URL解析。解析URL数据,匹配大类和动作。
步骤S209、判断URL数据是否为标准结构。若是,则执行步骤S210;若否,则执行步骤S212。
步骤S210、加载信元规则。具体为加载URL信元规则。
步骤S211、URL信元提取。
步骤S212、正文解析。解析http正文。
步骤S213、判断http正文是否为标准结构。若是,则执行步骤S214;若否,则执行步骤S217。
步骤S214、加载信元规则。具体为加载http正文信元规则。
步骤S215、正文信元提取。
步骤S216、数据写文件。对提取出的信元数据进行标识之后,写入文件进行保存。
步骤S217、垃圾数据丢弃。
基于上述各实施例的内容,基于预设的时间周期,对当前时间周期内提取出的网页结构化信息进行统计之后,还包括:对当前时间周期内提取出的网页结构化信息进行去重。
具体地,对于当前时间周期内提取出的网页结构化信息,可以根据静态片段对应的进行信元去重,或者静态片段加首个参数对应的信元进行去重,以去掉重复的信元。
本发明实施例通过对当前时间周期内提取出的网页结构化信息进行去重,能去掉重复的信元,能减少需存储的数据量,能节约存储空间。
基于上述各实施例的内容,对当前时间周期内提取出的网页结构化信息进行去重,还包括:对已提取出的网页结构化信息进行去重。
具体地,对当前时间周期内提取出的网页结构化信息进行去重之后,可以根据对各时间周期进行去重之后的网页结构化信息进行全量信元去重。
进行全量信元去重,具体可以根据静态片段对应的进行信元去重,或者静态片段加首个参数对应的信元进行去重,形成结果集,以去掉重复的信元。
进行全量信元去重之后,可以将去重之后的网页结构化信息写入信元表和/或研判表进行存储。
本发明实施例通过对已提取出的网页结构化信息进行去重,能去掉重复的信元,能减少需存储的数据量,能节约存储空间。
为了便于对本发明上述各实施例的理解,下面通过一个实施例对网页结构化信息提取方法中统计分析步骤进行说明。
图3是本发明提供的一种网页结构化信息提取方法中统计分析步骤的流程示意图。
如图3所示,统计分析步骤的具体流程可以包括:
步骤S301、原始数据导入。导入hdfs中的原始数据(即提取的网页结构化信息)。
步骤S302、每天定时统计域名、静态片段、静态片段+首个参数的份数。
步骤S303、根据静态片段、静态片段+首个参数信元每天去重。每天按照静态片段和/或静态片段+首个参数对应的信元进行去重。
步骤S304、全量信元去重。按照静态片段和/或静态片段+首个参数对应的信元进行去重。
步骤S305、写入信元/研判表。
下面对本发明实施例提供的网页结构化信息提取装置进行描述,下文描述的网页结构化信息提取装置与上文描述的网页结构化信息提取方法可相互对应参照。
图4是根据本发明实施例提供的网页结构化信息提取装置的结构示意图。基于上述各实施例的内容,如图4所示,该装置包括Kafka模块401和信元提取模块402,其中:
Kafka模块401,用于缓存移动互联网中的数据,存储为各Kafka数据;
信元提取模块402,用于对每一Kafka数据进行http解析,获取网页中的URL和正文信息,根据预设的信元规则,提取URL和正文信息中的网页结构化信息。
具体地,Kafka模块401和信元提取模块402电连接。
Kafka模块401可以将移动互联网中的数据进行缓存,以Kafka数据的形式进行存储。
信元提取模块402可以通过Kafka轮询的方式,获取新存储的Kafka数据;对于每一新存储的Kafka数据,可以消费该Kafka数据,并按照特定字段顺序进行http解析,获取网页中的URL数据和正文信息;对于提取出的URL数据和正文信息,判断其中是否有符合信元规则的字符串(名称/值对)、域名、静态片段、首个参数等信元;如果有,则将上述符合信元规则的字符串(名称/值对)等信元,作为网页结构化信息提取出来。
图5是本发明提供的一种网页结构化信息提取装置的结构示意图。如图5所示,Kafka模块401为Kafka集群。
Kafka模块401可以包括N个Kafka节点,分别为第1Kafka节点4011、第2Kafka节点4012、…、第N Kafka节点4013。其中,N为自然数。
优选地,1≤N≤10。
信元提取模块402,可以包括依次交互的HTTP数据解析模块4021、垃圾数据过滤模块4022、信元提取打分模块4023、原始数据索引模块4024和数据文件上传模块4025。
HTTP数据解析模块4021,用于获取Kafka数据并按照特定字段顺序进行http解析,获取URL数据和正文信息。
垃圾数据过滤模块4022,用于根据垃圾规则过滤掉无用的数据。
垃圾数据过滤模块4022,具体用于判断URL数据和正文信息
信元提取打分模块4023,用于根据预设的信元规则,提取URL数据和正文信息中的网页结构化信息。
信元提取打分模块4023,还可以用于按照优先级对提取出的网页结构化信息进行打分。
信元提取打分模块4023可以包括URL提取单元和http正文提取单元。
URL提取单元,用于根据预设的URL信元规则提取URL数据中的信元,作为URL数据中的网页结构化信息。
Http正文提取单元,用于根据预设的http正文信元规则提取正文信息中的信元,作为正文信息中的网页结构化信息。
原始数据索引模块4024,用于将未解码的数据写入ES。
数据文件上传模块4025,用于提取出的网页结构化信息写成文件上传至数据中心。
网页结构化信息提取装置还可以包括统计分析器403。
统计分析器403,用于基于预设的时间周期,对当前时间周期内提取出的网页结构化信息进行统计。
统计分析器403可以包括依次交互的原始数据导入模块4031、周期去重统计模块4032和全量去重统计模块4033。
原始数据导入模块4031,用于将数据文件加载到数据表中。数据文件中存储有提取出的网页结构化信息。
周期去重统计模块4032,用于对当前时间周期(例如每天)内提取出的网页结构化信息进行去重。
周期去重统计模块4032可以按照不同的维度对数据去重。
全量去重统计模块4033,用于对已提取出的网页结构化信息进行去重。
全量去重统计模块4033,可以根据周期去重的结果,进行全量去重。
本发明实施例提供的网页结构化信息提取装置,用于执行本发明上述各实施例提供的网页结构化信息提取方法,该网页结构化信息提取装置包括的各模块实现相应功能的具体方法和流程详见上述网页结构化信息提取方法的实施例,此处不再赘述。
该网页结构化信息提取装置用于前述各实施例的网页结构化信息提取方法。因此,在前述各实施例中的网页结构化信息提取方法中的描述和定义,可以用于本发明实施例中各执行模块的理解。
本发明实施例通过对移动互联网中的数据进行解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取URL数据和正文信息中的网页结构化信息,能提高网页结构化信息的提取效率,能更有效地提取移动互联网网页中的结构化信息。进一步地,通过解析规则的Kafka消息文本,能够提取网页中绝大多数文本中的结构化数据,从而能获取更多的有效特征,能更准确地识别移动APP。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)601、存储器(memory)602和总线603;其中,处理器601和存储器602通过总线603完成相互间的通信;处理器601用于调用存储在存储器602中并可在处理器601上运行的计算机程序指令,以执行上述各方法实施例提供的网页结构化信息提取方法,该方法包括:缓存移动互联网中的数据,存储为各Kafka数据;对每一Kafka数据进行http解析,获取网页中的URL和正文信息,根据预设的信元规则,提取URL和正文信息中的网页结构化信息。
此外,上述的存储器602中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的网页结构化信息提取方法,该方法包括:缓存移动互联网中的数据,存储为各Kafka数据;对每一Kafka数据进行http解析,获取网页中的URL和正文信息,根据预设的信元规则,提取URL和正文信息中的网页结构化信息。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的网页结构化信息提取方法,该方法包括:缓存移动互联网中的数据,存储为各Kafka数据;对每一Kafka数据进行http解析,获取网页中的URL和正文信息,根据预设的信元规则,提取URL和正文信息中的网页结构化信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种网页结构化信息提取方法,其特征在于,包括:
缓存移动互联网中的数据,存储为各Kafka数据;
对每一所述Kafka数据进行http解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取所述URL数据和正文信息中的网页结构化信息;
根据所述网页结构化信息判断所述网页结构化信息的来源是否源于移动终端上安装的App与所述App的服务器之间的交互,识别出移动App;
所述根据预设的信元规则,提取所述URL数据和正文信息中的网页结构化信息的具体步骤包括:
若根据垃圾数据规则判断获知所述URL数据和正文信息不为垃圾数据,则根据预设的信元规则,提取所述URL数据中的网页结构化信息和所述正文信息中的网页结构化信息;
所述网页结构化信息,包括字符串、域名、静态片段和首个参数;所述字符串为名称/值对。
2.根据权利要求1所述的网页结构化信息提取方法,其特征在于,所述对每一所述Kafka数据进行http解析,获取网页中的URL数据和正文信息,根据预设的信元规则,提取所述URL数据和正文信息中的网页结构化信息之后,还包括:
基于预设的时间周期,对当前时间周期内提取出的网页结构化信息进行统计。
3.根据权利要求1所述的网页结构化信息提取方法,其特征在于,根据预设的信元规则,提取所述URL数据中的网页结构化信息的具体步骤包括:
若判断获知所述URL数据为标准结构,则根据预设的URL信元规则提取所述URL数据中的信元,作为所述URL数据中的网页结构化信息。
4.根据权利要求1所述的网页结构化信息提取方法,其特征在于,根据预设的信元规则,提取所述正文信息中的网页结构化信息的具体步骤包括:
若判断获知所述正文信息为标准结构,则根据预设的http正文信元规则提取所述正文信息中的信元,作为所述正文信息中的网页结构化信息。
5.根据权利要求2所述的网页结构化信息提取方法,其特征在于,所述基于预设的时间周期,对当前时间周期内提取出的网页结构化信息进行统计之后,还包括:
对当前时间周期内提取出的网页结构化信息进行去重。
6.根据权利要求5所述的网页结构化信息提取方法,其特征在于,所述对当前时间周期内提取出的网页结构化信息进行去重,还包括:
对已提取出的网页结构化信息进行去重。
7.一种网页结构化信息提取装置,其特征在于,包括:
Kafka模块,用于缓存移动互联网中的数据,存储为各Kafka数据;
信元提取模块,用于对每一所述Kafka数据进行http解析,获取网页中的URL和正文信息,根据预设的信元规则,提取所述URL和正文信息中的网页结构化信息;
所述信元提取模块,还用于根据所述网页结构化信息判断所述网页结构化信息的来源是否源于移动终端上安装的App与所述App的服务器之间的交互,识别出移动App;
所述信元提取模块,还用于:若根据垃圾数据规则判断获知所述URL数据和正文信息不为垃圾数据,则根据预设的信元规则,提取所述URL数据中的网页结构化信息和所述正文信息中的网页结构化信息;
所述网页结构化信息,包括字符串、域名、静态片段和首个参数;所述字符串为名称/值对。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的网页结构化信息提取方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的网页结构化信息提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011324516.3A CN112287254B (zh) | 2020-11-23 | 2020-11-23 | 网页结构化信息提取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011324516.3A CN112287254B (zh) | 2020-11-23 | 2020-11-23 | 网页结构化信息提取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287254A CN112287254A (zh) | 2021-01-29 |
CN112287254B true CN112287254B (zh) | 2023-10-27 |
Family
ID=74425109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011324516.3A Active CN112287254B (zh) | 2020-11-23 | 2020-11-23 | 网页结构化信息提取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287254B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7454430B1 (en) * | 2004-06-18 | 2008-11-18 | Glenbrook Networks | System and method for facts extraction and domain knowledge repository creation from unstructured and semi-structured documents |
CN101582075A (zh) * | 2009-06-24 | 2009-11-18 | 大连海事大学 | Web信息抽取系统 |
CN102663291A (zh) * | 2012-03-23 | 2012-09-12 | 奇智软件(北京)有限公司 | 邮件的信息提示方法及装置 |
CN103838796A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页结构化信息抽取方法 |
CN103902667A (zh) * | 2014-03-14 | 2014-07-02 | 浪潮电子信息产业股份有限公司 | 一种基于元搜索的网络信息采集器简单实现方法 |
CN106484828A (zh) * | 2016-09-29 | 2017-03-08 | 西南科技大学 | 一种分布式互联网数据快速采集系统及采集方法 |
WO2017080090A1 (zh) * | 2015-11-14 | 2017-05-18 | 孙燕群 | 一种网页正文提取比对方法 |
CN107391675A (zh) * | 2017-07-21 | 2017-11-24 | 百度在线网络技术(北京)有限公司 | 用于生成结构化信息的方法和装置 |
CN107577788A (zh) * | 2017-09-15 | 2018-01-12 | 广东技术师范学院 | 一种自动结构化数据的电商网站主题爬虫方法 |
CN108520007A (zh) * | 2018-03-15 | 2018-09-11 | 江河瑞通(北京)技术有限公司 | 万维网网页信息提取方法、存储介质及计算机设备 |
CN109145233A (zh) * | 2018-08-27 | 2019-01-04 | 山东浪潮商用系统有限公司 | 互联网信息采集系统 |
CN110147439A (zh) * | 2018-07-18 | 2019-08-20 | 中山大学 | 一种基于大数据处理技术的新闻事件检测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10834113B2 (en) * | 2017-07-25 | 2020-11-10 | Netskope, Inc. | Compact logging of network traffic events |
-
2020
- 2020-11-23 CN CN202011324516.3A patent/CN112287254B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7454430B1 (en) * | 2004-06-18 | 2008-11-18 | Glenbrook Networks | System and method for facts extraction and domain knowledge repository creation from unstructured and semi-structured documents |
CN101582075A (zh) * | 2009-06-24 | 2009-11-18 | 大连海事大学 | Web信息抽取系统 |
CN102663291A (zh) * | 2012-03-23 | 2012-09-12 | 奇智软件(北京)有限公司 | 邮件的信息提示方法及装置 |
CN103838796A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页结构化信息抽取方法 |
CN103902667A (zh) * | 2014-03-14 | 2014-07-02 | 浪潮电子信息产业股份有限公司 | 一种基于元搜索的网络信息采集器简单实现方法 |
WO2017080090A1 (zh) * | 2015-11-14 | 2017-05-18 | 孙燕群 | 一种网页正文提取比对方法 |
CN106484828A (zh) * | 2016-09-29 | 2017-03-08 | 西南科技大学 | 一种分布式互联网数据快速采集系统及采集方法 |
CN107391675A (zh) * | 2017-07-21 | 2017-11-24 | 百度在线网络技术(北京)有限公司 | 用于生成结构化信息的方法和装置 |
CN107577788A (zh) * | 2017-09-15 | 2018-01-12 | 广东技术师范学院 | 一种自动结构化数据的电商网站主题爬虫方法 |
CN108520007A (zh) * | 2018-03-15 | 2018-09-11 | 江河瑞通(北京)技术有限公司 | 万维网网页信息提取方法、存储介质及计算机设备 |
CN110147439A (zh) * | 2018-07-18 | 2019-08-20 | 中山大学 | 一种基于大数据处理技术的新闻事件检测方法及系统 |
CN109145233A (zh) * | 2018-08-27 | 2019-01-04 | 山东浪潮商用系统有限公司 | 互联网信息采集系统 |
Non-Patent Citations (1)
Title |
---|
范晖.爬虫基础.《Python大数据基础与实战》.西安电子科技大学出版社,2019,第217-220页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112287254A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
US20170235726A1 (en) | Information identification and extraction | |
CN112541338A (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
CN111581376B (zh) | 一种知识图谱自动构建系统及方法 | |
CN111160019B (zh) | 一种舆情监测的方法、装置及系统 | |
CN112115342A (zh) | 搜索方法、装置、存储介质以及终端 | |
US20170235835A1 (en) | Information identification and extraction | |
CN112287254B (zh) | 网页结构化信息提取方法、装置、电子设备及存储介质 | |
CN112241458B (zh) | 文本的知识结构化处理方法、装置、设备和可读存储介质 | |
CN112989791A (zh) | 一种基于文本信息抽取结果的去重方法、系统以及介质 | |
CN107045497A (zh) | 一种快速的新闻文本内容情感分析系统及方法 | |
CN112232075A (zh) | 基于时间格式和网页元素特征的文章发布时间识别方法 | |
CN110347934B (zh) | 一种文本数据过滤方法、装置及介质 | |
CN115438147A (zh) | 面向轨道交通领域的信息检索方法及系统 | |
CN111382332B (zh) | 一种地震灾情信息处理方法及系统 | |
CN112115236A (zh) | 烟草科技文献数据去重模型的构建方法及装置 | |
CN114168860A (zh) | 一种基于网络特征的暗网站点用户关联方法及装置 | |
CN114925125A (zh) | 数据处理方法、装置和系统、电子设备及存储介质 | |
CN113722416A (zh) | 一种数据清洗方法、装置、设备及可读存储介质 | |
CN113688240A (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
CN113407889A (zh) | 小说转码方法、装置、设备以及存储介质 | |
CN106294587B (zh) | 一种快速实施的网站内专题模块引流效果展示方法 | |
CN107045529B (zh) | 网络内容获取方法、装置及服务终端 | |
CN113934914B (zh) | 一种针对新闻媒体批量加密数据的采集方法 | |
CN108491522A (zh) | 信息推送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |