CN108416048A - 一种面向词典集的复杂从属结构网页信息抽取方法及系统 - Google Patents

一种面向词典集的复杂从属结构网页信息抽取方法及系统 Download PDF

Info

Publication number
CN108416048A
CN108416048A CN201810220100.3A CN201810220100A CN108416048A CN 108416048 A CN108416048 A CN 108416048A CN 201810220100 A CN201810220100 A CN 201810220100A CN 108416048 A CN108416048 A CN 108416048A
Authority
CN
China
Prior art keywords
content
dictionary
page
hypotaxis
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810220100.3A
Other languages
English (en)
Other versions
CN108416048B (zh
Inventor
赵姝
刘洋
陈洁
段震
陈喜
张燕平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201810220100.3A priority Critical patent/CN108416048B/zh
Publication of CN108416048A publication Critical patent/CN108416048A/zh
Application granted granted Critical
Publication of CN108416048B publication Critical patent/CN108416048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向词典集的复杂从属结构网页信息抽取方法:根据页面标识判断页面是否完整并返回目标完整html页面;根据语义相关性将预设语种主标题挂接至定义的规则表示词典集中对应的规则表示中,生成全表示词典集;从复杂从属结构页面下提取全文本内容并最终形成目标文本内容,并用规则表示词典集中的规则表示替换全表示词典集分割目标文本内容得到包含每个规则表示子集的全分割复杂从属文本集;合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容;基于新发布页面重新抽取主标题内容动态扩充全表示词典集。本发明解决了传统的网页的信息解析方法中不同站点之间内容主题相同但页面结构不统一而导致的解析困难的问题。

Description

一种面向词典集的复杂从属结构网页信息抽取方法及系统
技术领域
本发明涉及文本信息提取技术领域,尤其涉及一种面向词典集的复杂从属结构网页信息抽取方法及系统。
背景技术
现如今,互联网技术高速发展,互联网上的数据呈爆炸式增长。网页信息抽取(网络爬虫)旨在从互联网上海量参差不齐的数据中爬取所需的有用数据以供研究或使用。
大部分网站的数据存在明确的从属关系,可根据DOM树的从属结构从固定位置筛选出可用信息。而针对不同的站点或站点间的数据从属结构不明确或相对复杂时,难以准确的知道所需数据的从属结构或表示方式,目前的爬取技术难以解决复杂从属结构的爬取问题。如在某些组织的招聘要求中,有教育背景、工作经历、技能、待遇、语言、附加要求等等信息,而在不同的组织招聘要求或同一组织的不同岗位中,这些信息伴随着不同的从属结构:可能这些信息都在同一级别的标签中独立出现;可能教育背景和语言信息包含在技能下是技能要求的子内容;相同内容的表示方式也可能不同。
发明内容
基于背景技术存在的技术问题,本发明提出了一种面向词典集的复杂从属结构网页信息抽取方法及系统。
本发明提出的面向词典集的复杂从属结构网页信息抽取方法,包括以下步骤:
S1、根据页面标识判断页面是否完整,若是,直接生成目标完整html页面,若否,利用splash技术动态渲染js脚本后返回目标完整html页面;
S2、定义规则表示词典集,抽取待爬取站点主标题且将不同国际语言主标题转换为预设语种主标题,并根据语义相关性将上述预设语种主标题挂接至规则表示词典集中对应的规则表示中,生成全表示词典集;
S3、从目标完整html页面中提取复杂从属结构下全文本内容并去除无效字符形成目标文本内容,基于全表示词典集分割目标文本内容,并用规则表示词典集中的规则表示替换,得到包含每个规则表示子集的全分割复杂从属文本集;
S4、合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容;
S5、在预设时间内基于新发布页面重新抽取主标题内容动态扩充全表示词典集。
优选地,步骤S1具体包括:
选取完整加载的html页面的特有内容作为页面标识,并基于上述特有内容判断页面是否有待解析的js脚本来判断页面是否完整,若无待解析的js脚本,直接生成目标完整html页面,若有待解析的js脚本,利用splash技术动态渲染js脚本后返回目标完整html页面。
优选地,步骤S2中,所述规则表示词典集为页面从属结构中顶级标题的对比集和页面文本的替换集;
所述全表示词典集为对规则表示词典集的一个分割子集合扩充。
优选地,步骤S3中,所述无效字符为复杂从属结构下全文本内容中除结构化文本外的内容;
优选地,步骤S3中,从目标完整html页面中提取复杂从属结构下全文本内容时,同级别对待所有从属结构下文本并保留原顺序。
优选地,步骤S5具体包括:
定义一个全表示词典集扩充间隔的时间戳,当进入时间戳时,重新抽取新发布页面的主标题,并判断主标题内容中与规则表示词典集中相同规则表示的内容是否已存在其对应的全表示词典集的子表示中,若不在,则将新发布页面的主标题内容转换为预设语种主标题后扩充至全表示词典集。
本发明提出的面向词典集的复杂从属结构网页信息抽取系统,包括:
页面判断模块,用于根据页面标识判断页面是否完整,若是,直接生成目标完整html页面,若否,利用splash技术动态渲染js脚本后返回目标完整html页面;
词典集生成模块,用于定义规则表示词典集,并抽取待爬取站点主标题且将不同国际语言主标题转换为预设语种主标题,且根据语义相关性将上述预设语种主标题挂接至规则表示词典集中对应的规则表示中,生成全表示词典集;
文本集调整模块,用于从目标完整html页面中提取复杂从属结构下全文本内容并去除无效字符形成目标文本内容,基于全表示词典集分割目标文本内容,并用规则表示词典集中的规则表示替换,得到包含每个规则表示子集的全分割复杂从属文本集;
文本集合并模块,用于合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容;
词典集扩充模块,用于在预设时间内基于新发布页面重新抽取主标题内容并转换为预设语种主标题后动态扩充全表示词典集。
优选地,页面判断模块具体用于:
选取完整加载的html页面的特有内容作为页面标识,并基于上述特有内容判断页面是否有待解析的js脚本来判断页面是否完整,若无待解析的js脚本,直接生成目标完整html页面,若有待解析的js脚本,利用splash技术动态渲染js脚本后返回目标完整html页面。
优选地,词典集生成模块中,所述规则表示词典集为页面从属结构中顶级标题的对比集和页面文本的替换集;
所述全表示词典集为对规则表示词典集的一个分割子集合扩充。
优选地,文本集调整模块中,所述无效字符为复杂从属结构下全文本内容中除结构化文本外的内容;
优选地,文本集调整模块中,从目标完整html页面中提取复杂从属结构下全文本内容时,同级别对待所有从属结构下文本并保留原顺序。
优选地,词典集扩充模块具体用于:
定义一个全表示词典集扩充间隔的时间戳,当进入时间戳时,重新抽取新发布页面的主标题,并判断主标题内容中与规则表示词典集中相同规则表示的内容是否已存在其对应的全表示词典集的子表示中,若不在,则将新发布页面的主标题内容转换为预设语种主标题后扩充至全表示词典集。
本发明针对多站点复杂从属结构类抽取任务提出了词典集的概念,解决了传统的网页的信息解析方法中不同站点之间内容主题相同但页面结构不统一而导致的解析困难的问题;本发明利用完整精确的词典集中的每个子表示来替换复杂从属结构下的页面内容,以生成“规则表示-规则表示文本内容”的平行化信息再处理,实现在不考虑复杂从属结构的前提下分析和提取本属于复杂从属结构下的信息的操作,大大降低了直接从复杂从属结构中提取信息的解析难度。进一步地,本发明还以与站点交互的方式动态扩充全表示词典集,使全表示词典集保持富足内容方便爬虫的后续爬取操作,提高复杂从属结构下页面内容平行化的精确性。
附图说明
图1为一种面向词典集的复杂从属结构网页信息抽取方法的步骤示意图;
图2为一种面向词典集的复杂从属结构网页信息抽取系统的步骤示意图。
具体实施方式
如图1、图2所示,图1、图2为本发明提出的一种面向词典集的复杂从属结构网页信息抽取方法及系统。
参照图1,本发明提出的面向词典集的复杂从属结构网页信息抽取方法,包括以下步骤:
S1、根据页面标识判断页面是否完整,若是,直接生成目标完整html页面,若否,利用splash技术动态渲染js脚本后返回目标完整html页面;
本实施方式中,步骤S1具体包括:
选取完整加载的html页面的特有内容作为页面标识,并基于上述特有内容判断页面是否有待解析的js脚本来判断页面是否完整,若无待解析的js脚本,直接生成目标完整html页面,若有待解析的js脚本,利用splash技术动态渲染js脚本后返回目标完整html页面。
S2、定义规则表示词典集,抽取待爬取站点主标题且将不同国际语言主标题转换为预设语种主标题,并根据语义相关性将上述预设语种主标题挂接至规则表示词典集中对应的规则表示中,生成全表示词典集;
本实施方式中,所述规则表示词典集是一个待匹配内容的固定词典集合,是页面从属结构中顶级标题的对比集和页面文本的替换集;
所述全表示词典集为对规则表示词典集的一个分割子集合扩充。
所述定义的规则表示词典集一般是一组词汇,用以进行内容分割与标识,在将爬取的标题挂接到规则表示词典集中进行子集合扩充时,挂接的是网页源语言内容而非定义的规则表示词典集中的语言。
在实际操作过程中,步骤S2具体包括以下步骤:
S21、根据欲爬取的内容和网站所提供的信息,定义一组待爬取内容,并给出一个规则表示,生成规则表示词典集;
S22、将规则表示分为相关内容规则表示和额外内容规则表示,其中相关内容规则表示是站点中出现且需要的信息,额外内容规则表示站点中出现但并不需要的信息;
S23、抽取全部站点的处于最高从属结构中的内容,即主标题内容,并根据其不同的国际语言转换为预设语种,可以是英语,也可以是别的语种;
S24、对S23所得的结果进行语义挂接,将每个主标题(转换前)挂接到其所属的规则表示中;
S25、当全部站点的主标题都挂接结束后,原规则表示词典集得以扩充,所得结果为一个初始的全表示词典集;
进一步地,为提高步骤S2操作的准确性和稳定性,本实施方式还包括S26,S26、重新审查全表示词典集中每个规则表示下挂接的子表示,对错挂或误挂情况进行纠正;以保证该操作的精确性;
S3、从目标完整html页面中提取复杂从属结构下全文本内容并去除无效字符形成目标文本内容,所述无效字符为复杂从属结构下全文本内容中除结构化文本外的内容,再基于全表示词典集分割目标文本内容,并用规则表示词典集中的规则表示替换,得到包含每个规则表示子集的全分割复杂从属文本集;
本实施方式中,从目标完整html页面中提取复杂从属结构下全文本内容时,不将页面解析成传统DOM树后遍历其从属结构再按从属结构级别提取内容,而是同级别对待所有从属结构下文本并保留原顺序;将复杂从属结构下全文本内容转换为一种“规则表示-规则表示文本内容”的平行化信息再进行处理,大大降低了直接从复杂从属结构中提取信息的解析难度;
在实际操作过程中,步骤S3具体包括:
S31、按照步骤S1的方式对目标站点发送请求,获取待解析的html页面;
S32、顺序遍历页面的全部文本内容,保存从页面抽取的文本内容,构建该页面的全文本内容;
S33、过滤在文本提取中跟随的无效字符,包括一些多余的空格、占位标识等,规范化保留全文本;
S34、使用全表示词典集中子表示来分割S33的全文本;
S35、根据全表示词典集中每个子表示所处的规则表示来替换原本的分隔符,生成“规则表示-规则表示文本内容”的全分割复杂从属结构文本集;
S4、合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容;
在实际操作过程中,步骤S4具体包括:
S41、对S3生成的“规则表示-规则表示文本内容”的全分割复杂从属结构文本集,合并其中规则表示相同的规则表示文本内容生成新的“规则表示-规则表示文本内容”;
S42、根据步骤S22,对S41中出现的全部规则表示进行分析,若该规则表示为相关内容规则表示,进入步骤S43,若该规则表示为额外内容规则表示,进入步骤S44;
S43、持久化该“规则表示-规则表示文本内容”到数据库;
S44、舍弃该“规则表示-规则表示文本内容”。
S5、在预设时间内基于新发布页面重新抽取主标题内容动态扩充全表示词典集。
本实施方式中,步骤S5具体包括:
定义一个全表示词典集扩充间隔的时间戳,当进入时间戳时,重新抽取新发布页面的主标题,并判断主标题内容中与规则表示词典集中相同规则表示的内容是否已存在其对应的全表示词典集的子表示中,若不在,则将新发布页面的主标题内容转换为预设语种主标题后扩充至全表示词典集。
在实际操作过程中,步骤S5具体包括:
S51、生成一个全表示词典集扩充间隔的时间戳;
S52、当进入时间戳时,抽取全部站点的处于最高从属结构中的内容,即主标题内容,并根据预设语言将其转换为原规则表示词典集中规则表示的语种;
S53、对S52中结果的每一个主标题进行分析,如匹配到对应的规则表示,进入步骤S54,否则进入步骤S56;
S54、对S52中结果的每一个主标题进行分析,如匹配到对应的规则表示但不在全表示词典集的子表示中,进入步骤S55,如匹配到对应的规则表示且在全表示词典集的子表示中,继续步骤S53;
S55、扩充该主标题到全表示词典集的对应规则表示中;
S56、根据主标题含义扩充新的规则表示到规则表示词典集;
S57、待全部的主标题扩充完全后,重新审查全表示词典集中每个规则表示下挂接的子表示,对错扩或误扩情况进行纠正。
参照图2,本发明提出的面向词典集的复杂从属结构网页信息抽取系统,包括:
页面判断模块,用于根据页面标识判断页面是否完整,若是,直接生成目标完整html页面,若否,利用splash技术动态渲染js脚本后返回目标完整html页面;
本实施方式中,页面判断模块具体用于:
选取完整加载的html页面的特有内容作为页面标识,并基于上述特有内容判断页面是否有待解析的js脚本来判断页面是否完整,若无待解析的js脚本,直接生成目标完整html页面,若有待解析的js脚本,利用splash技术动态渲染js脚本后返回目标完整html页面。
词典集生成模块,用于定义规则表示词典集,并抽取待爬取站点主标题且将不同国际语言主标题转换为预设语种主标题,且根据语义相关性将上述预设语种主标题挂接至规则表示词典集中对应的规则表示中,生成全表示词典集;
本实施方式中,所述规则表示词典集是一个待匹配内容的固定词典集合,是页面从属结构中顶级标题的对比集和页面文本的替换集;
所述全表示词典集为对规则表示词典集的一个分割子集合扩充。
所述定义的规则表示词典集一般是一组词汇,用以进行内容分割与标识,在将爬取的标题挂接到规则表示词典集中进行子集合扩充时,挂接的是网页源语言内容而非定义的规则表示词典集中的语言。
文本集调整模块,用于从目标完整html页面中提取复杂从属结构下全文本内容并去除无效字符形成目标文本内容,所述无效字符为复杂从属结构下全文本内容中除结构化文本外的内容,再基于全表示词典集分割目标文本内容,并用规则表示词典集中的规则表示替换,得到包含每个规则表示子集的全分割复杂从属文本集;
本实施方式中,从目标完整html页面中提取复杂从属结构下全文本内容时,不将页面解析成传统DOM树后遍历其从属结构再按从属结构级别提取内容,而是同级别对待所有从属结构下文本并保留原顺序;将复杂从属结构下全文本内容转换为一种“规则表示-规则表示文本内容”的平行化信息再进行处理,大大降低了直接从复杂从属结构中提取信息的解析难度;
文本集合并模块,用于合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容;
词典集扩充模块,用于在预设时间内基于新发布页面重新抽取主标题内容动态扩充全表示词典集。
本实施方式中,词典集扩充模块具体用于:
定义一个全表示词典集扩充间隔的时间戳,当进入时间戳时,重新抽取新发布页面的主标题,并判断主标题内容中与规则表示词典集中相同规则表示的内容是否已存在其对应的全表示词典集的子表示中,若不在,则将新发布页面的主标题内容转换为预设语种主标题后扩充至全表示词典集。
本实施方式针对多站点复杂从属结构类抽取任务提出了词典集的概念,解决了传统的网页的信息解析方法中不同站点之间内容主题相同但页面结构不统一而导致的解析困难的问题;本实施方式利用完整精确的词典集中的每个子表示来替换复杂从属结构下的页面内容,以生成“规则表示-规则表示文本内容”的平行化信息再处理,实现在不考虑复杂从属结构的前提下分析和提取本属于复杂从属结构下的信息的操作,大大降低了直接从复杂从属结构中提取信息的解析难度。进一步地,本实施方式还以与站点交互的方式动态扩充全表示词典集,使全表示词典集保持富足内容方便爬虫的后续爬取操作,提高复杂从属结构下页面内容平行化的精确性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种面向词典集的复杂从属结构网页信息抽取方法,其特征在于,包括以下步骤:
S1、根据页面标识判断页面是否完整,若是,直接生成目标完整html页面,若否,利用splash技术动态渲染js脚本后返回目标完整html页面;
S2、定义规则表示词典集,抽取待爬取站点主标题且将不同国际语言主标题转换为预设语种主标题,并根据语义相关性将上述预设语种主标题挂接至规则表示词典集中对应的规则表示中,生成全表示词典集;
S3、从目标完整html页面中提取复杂从属结构下全文本内容并去除无效字符形成目标文本内容,基于全表示词典集分割目标文本内容,并用规则表示词典集中的规则表示替换,得到包含每个规则表示子集的全分割复杂从属文本集;
S4、合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容;
S5、在预设时间内基于新发布页面重新抽取主标题内容动态扩充全表示词典集。
2.根据权利要求1所述的面向词典集的复杂从属结构网页信息抽取方法,其特征在于,步骤S1具体包括:
选取完整加载的html页面的特有内容作为页面标识,并基于上述特有内容判断页面是否有待解析的js脚本来判断页面是否完整,若无待解析的js脚本,直接生成目标完整html页面,若有待解析的js脚本,利用splash技术动态渲染js脚本后返回目标完整html页面。
3.根据权利要求1所述的面向词典集的复杂从属结构网页信息抽取方法,其特征在于,步骤S2中,所述规则表示词典集为页面从属结构中顶级标题的对比集和页面文本的替换集;
所述全表示词典集为对规则表示词典集的一个分割子集合扩充。
4.根据权利要求1所述的面向词典集的复杂从属结构网页信息抽取方法,其特征在于,步骤S3中,所述无效字符为复杂从属结构下全文本内容中除结构化文本外的内容;
优选地,步骤S3中,从目标完整html页面中提取复杂从属结构下全文本内容时,同级别对待所有从属结构下文本并保留原顺序。
5.根据权利要求1所述的面向词典集的复杂从属结构网页信息抽取方法,其特征在于,步骤S5具体包括:
定义一个全表示词典集扩充间隔的时间戳,当进入时间戳时,重新抽取新发布页面的主标题,并判断主标题内容中与规则表示词典集中相同规则表示的内容是否已存在其对应的全表示词典集的子表示中,若不在,则将新发布页面的主标题内容扩充至全表示词典集。
6.一种面向词典集的复杂从属结构网页信息抽取系统,其特征在于,包括:
页面判断模块,用于根据页面标识判断页面是否完整,若是,直接生成目标完整html页面,若否,利用splash技术动态渲染js脚本后返回目标完整html页面;
词典集生成模块,用于定义规则表示词典集,并抽取待爬取站点主标题且将不同国际语言主标题转换为预设语种主标题,且根据语义相关性将上述预设语种主标题挂接至规则表示词典集中对应的规则表示中,生成全表示词典集;
文本集调整模块,用于从目标完整html页面中提取复杂从属结构下全文本内容并去除无效字符形成目标文本内容,基于全表示词典集分割目标文本内容,并用规则表示词典集中的规则表示替换,得到包含每个规则表示子集的全分割复杂从属文本集;
文本集合并模块,用于合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容;
词典集扩充模块,用于在预设时间内基于新发布页面重新抽取主标题内容并转换为预设语种主标题后动态扩充全表示词典集。
7.根据权利要求6所述的面向词典集的复杂从属结构网页信息抽取方法,其特征在于,页面判断模块具体用于:
选取完整加载的html页面的特有内容作为页面标识,并基于上述特有内容判断页面是否有待解析的js脚本来判断页面是否完整,若无待解析的js脚本,直接生成目标完整html页面,若有待解析的js脚本,利用splash技术动态渲染js脚本后返回目标完整html页面。
8.根据权利要求6所述的面向词典集的复杂从属结构网页信息抽取方法,其特征在于,词典集生成模块中,所述规则表示词典集为页面从属结构中顶级标题的对比集和页面文本的替换集;
所述全表示词典集为对规则表示词典集的一个分割子集合扩充。
9.根据权利要求6所述的面向词典集的复杂从属结构网页信息抽取方法,其特征在于,文本集调整模块中,所述无效字符为复杂从属结构下全文本内容中除结构化文本外的内容;
优选地,文本集调整模块中,从目标完整html页面中提取复杂从属结构下全文本内容时,同级别对待所有从属结构下文本并保留原顺序。
10.根据权利要求6所述的面向词典集的复杂从属结构网页信息抽取方法,其特征在于,词典集扩充模块具体用于:
定义一个全表示词典集扩充间隔的时间戳,当进入时间戳时,重新抽取新发布页面的主标题,并判断主标题内容中与规则表示词典集中相同规则表示的内容是否已存在其对应的全表示词典集的子表示中,若不在,则将新发布页面的主标题内容转换为预设语种主标题后扩充至全表示词典集。
CN201810220100.3A 2018-03-16 2018-03-16 一种面向词典集的复杂从属结构网页信息抽取方法及系统 Active CN108416048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810220100.3A CN108416048B (zh) 2018-03-16 2018-03-16 一种面向词典集的复杂从属结构网页信息抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810220100.3A CN108416048B (zh) 2018-03-16 2018-03-16 一种面向词典集的复杂从属结构网页信息抽取方法及系统

Publications (2)

Publication Number Publication Date
CN108416048A true CN108416048A (zh) 2018-08-17
CN108416048B CN108416048B (zh) 2021-09-21

Family

ID=63131924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810220100.3A Active CN108416048B (zh) 2018-03-16 2018-03-16 一种面向词典集的复杂从属结构网页信息抽取方法及系统

Country Status (1)

Country Link
CN (1) CN108416048B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115330A (zh) * 2020-09-18 2020-12-22 电子科技大学成都研究院 一种优化定位精度及爬取效率的爬虫方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582075A (zh) * 2009-06-24 2009-11-18 大连海事大学 Web信息抽取系统
JP2014085991A (ja) * 2012-10-26 2014-05-12 Hammock:Kk 辞書分析手法
US20160140519A1 (en) * 2013-06-04 2016-05-19 Sebastjan Trepca Aggregating system
US20160371283A1 (en) * 2009-07-11 2016-12-22 International Business Machines Corporation Control of web content tagging
CN106844640A (zh) * 2017-01-22 2017-06-13 漳州科技职业学院 一种网页数据分析处理方法
CN107015986A (zh) * 2016-01-27 2017-08-04 北京国双科技有限公司 一种爬虫爬取网页的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582075A (zh) * 2009-06-24 2009-11-18 大连海事大学 Web信息抽取系统
US20160371283A1 (en) * 2009-07-11 2016-12-22 International Business Machines Corporation Control of web content tagging
JP2014085991A (ja) * 2012-10-26 2014-05-12 Hammock:Kk 辞書分析手法
US20160140519A1 (en) * 2013-06-04 2016-05-19 Sebastjan Trepca Aggregating system
CN107015986A (zh) * 2016-01-27 2017-08-04 北京国双科技有限公司 一种爬虫爬取网页的方法及装置
CN106844640A (zh) * 2017-01-22 2017-06-13 漳州科技职业学院 一种网页数据分析处理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115330A (zh) * 2020-09-18 2020-12-22 电子科技大学成都研究院 一种优化定位精度及爬取效率的爬虫方法

Also Published As

Publication number Publication date
CN108416048B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
US6073143A (en) Document conversion system including data monitoring means that adds tag information to hyperlink information and translates a document when such tag information is included in a document retrieval request
CN107729480B (zh) 一种限定区域的文本信息抽取方法及装置
US9218322B2 (en) Producing web page content
US6782505B1 (en) Method and system for generating structured data from semi-structured data sources
US7606816B2 (en) Record boundary identification and extraction through pattern mining
US8321396B2 (en) Automatically extracting by-line information
CN104598577B (zh) 一种网页正文的提取方法
CN105022803B (zh) 一种提取网页正文内容的方法及系统
CN109976840B (zh) 一种基于前后台分离平台下实现多语言自动适配的方法及系统
CN103810251B (zh) 一种文本提取方法及装置
JP2009230536A (ja) 表示制御装置、表示制御方法及び表示制御プログラム
KR100955758B1 (ko) 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법
US8862602B1 (en) Systems and methods for improved readability of URLs
CN107220250A (zh) 一种模板配置方法及系统
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN106992967A (zh) 恶意网站识别方法和系统
US20040261009A1 (en) Electronic document significant updating detection apparatus, electronic document significant updating detection method; electronic document significant updating detection program, and recording medium on which electronic document significant updating detection program is recording
CN111723265A (zh) 一种可扩展的新闻网站通用爬虫方法及系统
CN106446123A (zh) 一种网页中验证码元素识别方法
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
KR20090130364A (ko) 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그 결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN111381809B (zh) 一种焦点页面的查找方法及装置
CN108416048A (zh) 一种面向词典集的复杂从属结构网页信息抽取方法及系统
CN106528509A (zh) 网页信息提取方法及装置
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant