CN108132919A - 一种网页内容抽取的方法 - Google Patents

一种网页内容抽取的方法 Download PDF

Info

Publication number
CN108132919A
CN108132919A CN201711392836.0A CN201711392836A CN108132919A CN 108132919 A CN108132919 A CN 108132919A CN 201711392836 A CN201711392836 A CN 201711392836A CN 108132919 A CN108132919 A CN 108132919A
Authority
CN
China
Prior art keywords
text
web page
text block
block
word number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711392836.0A
Other languages
English (en)
Inventor
郭国庆
翟建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NINGBO SHENGWEI INFORMATION TECHNOLOGY Co Ltd
Original Assignee
NINGBO SHENGWEI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NINGBO SHENGWEI INFORMATION TECHNOLOGY Co Ltd filed Critical NINGBO SHENGWEI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201711392836.0A priority Critical patent/CN108132919A/zh
Publication of CN108132919A publication Critical patent/CN108132919A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种网页内容抽取的方法,涉及信息技术领域,可以在进行网页内容抽取时,准确抽取网页标题以及网页中各个元素。本发明通过将HTML源码转换为对应的文档树结构,并根据文档树结构的TITLE标签,确定网页标题;根据网页标题,确定网页中的网页元素,网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;根据网页标题,以及文档树结构的文本块的密度和文字数,确定各个文本块的属性;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。本发明提供的方案适于进行网页内容抽取时采用。

Description

一种网页内容抽取的方法
技术领域
本发明涉及信息技术领域,尤其涉及一种网页内容抽取的方法。
背景技术
通过SAX解析器将网页源码中表示文本区域的<P>标签、<Hn>标签、<a>标签、<DIV>标签等标签中的内容解析为多个文本块,并计算各个文本块中的预设指标,判断此文本块的内容是否可以作为正文,其中,预设指标可以包括单词数、超链接密度等指标。例如,当前文本块的链接密度小于等于0.333333,并且前一文本块的链接密度小于等于0.555556,并且当前文本块的单词数小于等于16,并且下一文本块的单词数小于等于14,并且前一文本块的单词数大于4时,当前文本块能作为正文;前面条件不变,最后一个条件为:前一文本块的单词数小于等于4时,当前文本块不能作为正文。
然而,当采用现有技术进行网页内容抽取时,网页标题抽取不准确,网页各个元素抽取不全面等问题,导致网页正文抽取不准确。
发明内容
本发明的实施例提供一种网页内容抽取的方法,可以在进行网页内容抽取时,准确抽取网页标题以及网页中各个元素。
本发明提供一种网页内容抽取的方法,包括:将HTML源码转换为对应的文档树结构,并根据所述文档树结构的TITLE标签,确定网页标题;根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。
本发明实施例提供一种网页内容抽取的方法,通过将HTML源码转换为对应的文档树结构,并根据所述文档树结构的TITLE标签,确定网页标题;根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。
与现有技术中进行网页内容抽取时,网页标题抽取不准确,网页各个元素抽取不全面等问题,导致网页正文抽取不准确相比,本发明实施例通过TITLE标签,确定网页标题,再根据网页标题确定网页其他元素,例如网站LOGO、页面导航、新闻发布时间、新闻来源等,使得在进行网页内容抽取时,准确抽取网页标题以及网页中各个元素。
附图说明
图1为本发明实施例提供的一种网页内容抽取的方法的流程图;
图2为本发明实施例提供的另一种网页内容抽取的方法的流程图;
图3为本发明实施例提供的一种确定当前文本块的网页内容为正文或者非正文的方法的流程图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例提供一种网页内容抽取的方法,如图1所示,该方法包括:
步骤101,将HTML源码转换为对应的文档树结构,并根据所述文档树结构的TITLE标签,确定网页标题。通过对网页的超文本标记语言(Hyper Text Mark-up Language,HTML) 源码解析,可以获得文档对象模型(Document Object Model,DOM),其也可以称为文档树结构。文档树结构中包含许多可以用于分析和模式匹配的有效信息。通过对文档树结构源码采用SAX解析,可以获得文本块。例如,在DIV布局的网页中,文档树结构由多个DIV块组成,DIV块即为DIV标签标记的文本块。DIV块作为一个容器,可以用来存放页面的文字和图片信息,网页正文页存在于DIV块之中。当然在本发明中,文档树结构中不仅包括DIV块,还可以包括由P标签标记的文本块、Hn标签标记的文本块等等。
可选的,根据文档树结构的TITLE标签,确定网页标题包括:根据文档树结构的TITLE 标签,和/或,所述文档树结构属性“name”的值为“description”的META标签,获得第一网页标题信息;根据第一网页标题信息,以及预设的划分原则,提取第二网页标题信息,其中划分原则可以为根据“|”进行划分的原则,第二网页标题信息在第一网页标题信息中第一“|”之前的信息;根据所述第二网页标题信息,遍历所述文档树结构中的body标签中包括的所有文本块,当确定第二文本块中的网页内容与所述第二网页标题信息相匹配时,则将所述第二文本块的网页内容标记为网页标题,所述第二文本块为网页标题所在的文本块。
步骤102,根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站 LOGO、页面导航、新闻发布时间、新闻来源。
可选的,在一个网页全文中,网页标题很重要,但是网站LOGO、页面导航、新闻发布时间、新闻来源等可以使得网页信息更加全面,因此本发明支持网页全文中显示网页元素,使得网页全文显示的信息更加全面,更加详细。
可选的,根据所述网页标题,确定网页中的网页元素包括:在所述网页标题所在的文本块之前,根据页面导航正则表达式确定页面导航;在所述页面导航所在的文本块之前,根据所述文档树结构的包含LOGO关键字的IMG标签,确定网站LOGO;在所述网页标题所在的文本块之后,根据日期正则表达式,确定新闻发布时间;在所述新闻发布时间所在的文本块之后,根据“来源”关键字,或者所述新闻发布时间所在的文本块之后的第一个文字串,确定新闻来源。
步骤103,根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文。文本块的密度包括文字密度和链接密度。文字密度为文本块中包含的中文汉字数与文本块中包含的全部字符数的比值。链接密度为A标签中中文汉字数与文本块中包含的中文汉字数的比值,其中A标签为标记链接的标签。
可选的,根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性包括:根据所述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正文或者非正文;根据所述网页标题,确定所述网页标题之前的网页内容为非正文;根据所述文档树结构的文本块中包含的网页正文结束特征词,确定包含所述特征词的文本块之后的网页内容为非正文。
步骤104,抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。
本发明实施例提供一种网页内容抽取的方法,通过文本树结构中的TITLE标签,确定网页标题,再根据网页标题确定网页其他元素,例如网站LOGO、页面导航、新闻发布时间、新闻来源等,使得在进行网页内容抽取时,抽取网页标题、网页元素以及网页内容为正文的正文文本块,获取网页全文,可以准确抽取网页标题以及网页中各个元素。
本发明实施例提供另一种网页内容抽取的方法,如图2所示,该方法包括:
步骤201,将HTML源码转换为对应的文档树结构。通过对网页的超文本标记语言HTML 源码解析,可以获得文档对象模型DOM,其也可以称为文档树结构。文档树结构中包含许多可以用于分析和模式匹配的有效信息。
步骤202,根据文档树结构中的Head部属性“http-equiv”的值为“Content-Type”的META标签,获取网页编码信息。例如,<meta http-equiv=″Content-Type″content =″text/html;charset=gb2312″/>,在META标签中,网页编码信息即为属性“charset”的值“gb2312”,gb2312表示中文网页页面的字符集。当获取到gb2312时,即可以按照字符集为gb2312进行网页内容的抽取,这样就不会出现乱码。现有技术中根据网页的URL,获取其页面编码信息,这种情况下强行指定“UTF-8”为默认的字符集,当网页的字符集为gb2312时,则会使得后续网页内容抽取时出现乱码。因此本发明实施例可以根据 META标签获取网页编码信息,从而根据网页设置的字符集进行后续网页内容抽取,使得可以避免出现乱码。
步骤203,将文档树结构的转义字符进行编码,获得转义字符普通文本形式。对获得的文档树结构中的转义字符进行编码。网页内容中含有转义字符,例如“&#160;”,显示为空格,为了避免转义字符在进行SAX解析时丢失,所以将转义字符转化为转义字符普通文本形式,转义字符普通文本形式可以为:#esc#xxx#/esc#。
步骤204,判断是否需要抽取图片。需要说明的是,在本步骤中,可以根据用户的设定或者设计人员的设定判断是否需要抽取图片。例如,根据某一型号的手机进行设定,当某一型号的手机能力较弱时,即运算速度较慢,屏幕较小,此时可以设定不需要抽取图像,以加快手机的处理速度;当另一型号的手机能力较强时,即运算速度较快,屏幕较大,此时可以设定需要抽取图像,以使得网页内容更详细丰富。
步骤205,当需要抽取图片时,将所述文档树结构的IMG标签进行编码,获得IMG标签普通文本形式。对IMG标签进行编码。为了避免图片在进行SAX解析时丢失,而将IMG标签转化为IMG标签普通文本的形式,其中IMG标签普通文本的形式可以为:
#img#<attributes>#/img#。当执行完步骤205之后,继续执行步骤206,对文档树结构源码解析为文本块。
步骤206,当不需要抽取图片时,则将文档树结构源码解析为文本块;将文档树结构采用SAX解析为文本块。例如,在DIV布局的网页中,文档树结构由多个DIV块组成,DIV 块即为DIV标签标记的文本块。DIV块作为一个容器,可以用来存放页面的文字和图片信息,网页正文页存在于DIV块之中。当然在本发明中,文档树结构中不仅包括DIV块,还可以包括由P标签标记的文本块、Hn标签标记的文本块等等。
步骤207,判断当前需要进行转码处理的网页是否为中文网页。当前需要进行转码处理的网页为中文网页时,继续执行步骤209;当前需要进行转码处理的网页为英文网页时,执行步骤208。
步骤208,将英文网页由Boilerplate算法进行网页内容抽取。Boilerplate算法为将英文网页进行网页内容抽取的算法,此步骤可以根据现有技术执行,因此不在详细描述,具体可参见Boilerplate算法的描述。当步骤208执行完成之后,继续执行步骤216。
步骤209,根据所述文档树结构的TITLE标签,确定网页标题;
可选的,根据文档树结构的Head部的TITLE标签,将TI TLE标签中的内容作为第一网页标题信息,其中第一网页标题信息可以为候选网页标题。例如TITLE标签中的内容如下:<title>人社部专家建议退休年龄应延至65岁|延迟退休|老龄化|养老保险_ 新浪新闻</title>。然后根据第一网页标题信息,提取第二网页标题信息。可选的,根据预设划分原则,其中划分原则可以为根据“|”进行划分的原则,第二网页标题信息为在第一网页标题信息中第一“|”之前的信息,第二网页标题信息即为“人社部专家建议退休年龄应延至65岁”。
再根据第二网页标题信息,遍历文档树结构中的body标签中包括的所有文本块,当确定第二文本块中的网页内容与第二网页标题信息相匹配时,则将所述第二文本块的网页内容标记为网页标题,所述第二文本块为网页标题所在的文本块。例如,当第二文本块的网页内容为“人社部专家建议退休年龄应延至65岁”,此时,第二文本块中的网页内容与第二网页标题信息相匹配,则第二文本块为网页标题所在的文本块,“人社部专家建议退休年龄应延至65岁”则为网页标题。这里第二文本块为文档树结构中的body标签中包括的所有文本块中的任意一个,“第二”并不是对文本块进行排序,而仅为了方便描述。另外,第二文本块中的网页内容与第二网页标题信息相匹配时,可以为第二文本块中的网页内容与第二网页标题信息相同,或者第二文本块中的网页内容与第二网页标题信息大部分相同。
可选的,根据文档树结构属性“name”的值为“description”的META标签,将META标签中的内容作为第一网页标题信息,其中第一网页标题信息可以为候选网页标题。例如,META标签中的内容为:<meta content=“人类首次发现银河系外行星距离地球38亿光年,国际新闻”name=“description”>。然后根据第一网页标题信息,提取第二网页标题信息。可选的,根据预设划分原则,其中划分原则可以为根据“,”进行划分的原则,第二网页标题信息即为“人类首次发现银河系外行星距离地球38亿光年”。再根据第二网页标题信息,遍历文档树结构中的body标签中包括的所有文本块,当确定第二文本块中的网页内容与第二网页标题信息相匹配时,则将所述第二文本块的网页内容标记为网页标题,所述第二文本块为网页标题所在的文本块。当第二文本块中的网页内容为“人类首次发现银河系外行星距离地球38亿光年”时,则第二文本块中的网页内容与第二网页标题信息相匹配,则第二文本块为网页标题所在的文本块,网页标题为“人类首次发现银河系外行星距离地球 38亿光年”。
可选的,根据所述文档树结构的TITLE标签,和根据所述文档树结构属性“name”的值为“description”的META标签,获得第一网页标题信息。例如,META标签的内容:<metacontent=“人类首次发现银河系外行星距离地球38亿光年,国际新闻”name=“description”>;TITLE标签的内容:<title>人类首次发现银河系外行星距离地球38 亿光年|黑洞|行星|银河系_新浪新闻</title>。META标签的内容和TITLE标签的内容都可以作为第一网页标题信息,然后根据第一网页标题信息获得第二网页标题信息,可以分别为:人类首次发现银河系外行星距离地球38亿光年;人类首次发现银河系外行星距离地球38 亿光年|黑洞|行星|银河系_新浪新闻。根据所述第二网页标题信息,遍历所述文档树结构中的body标签中包括的所有文本块,即将第二网页标题信息分别与文档树结构中的body标签中包括的所有文本块的网页内容进行比较,第二文本块中的网页内容可以为“人类首次发现银河系外行星距离地球38亿光年”。当确定第二文本块中的网页内容与第二网页标题信息相匹配时,则将第二文本块的网页内容标记为网页标题,第二文本块为网页标题所在的文本块。即“人类首次发现银河系外行星距离地球38亿光年”为网页标题。
步骤210,根据所述网页标题,确定网页中的网页元素。其中,网页元素至少包括网站 LOGO、页面导航、新闻发布时间、新闻来源。
可选的,根据网页标题,确定网页中页面导航包括:在所述网页标题所在的文本块之前,根据页面导航正则表达式确定页面导航。页面导航正则表达式为[\\u4e00-\\u9fa5]+[]*[>→],此页面导航正则表达式可以解释为:中文+0个或者多个空格+导航分隔符,导航分隔符包括“>”或“→”。从网页标题所在的文本块开始,向前搜索12个文字块,当查询到当前文本块符合页面导航正则表达式时,例如,“新华体育>正文”,则确定当前文本块为页面导航所在的文本块,“新华体育>”即为页面导航。
可选的,在页面导航所在的文本块之前,根据所述文档树结构的包含LOGO关键字的IMG 标签,确定网站LOGO。具体的,基于页面导航所在的文本块,向前搜索5个文本块,一旦发现含有“logo”字样的<img>标签,即作为网站LOGO。
可选的,在所述网页标题所在的文本块之后,根据日期正则表达式,确定新闻发布时间;日期正则表达式可以为:\\d{2,4}[-\\u5E74/\\.][01]?\\d[-\\u6708/\\.][0123]?\\d\\u65E5?(\\s)?([012]?\\d(:[0-6]\\d){1,2})?。从网页标题所在的文本块开始,向后搜索第一个匹配日期正则表达式的文本块,即可以确定新闻发布时间。此正则表达式可以匹配下列日期格式:第一,YYYY年MM月DD日hh:mm,例如,2012年02月 17日09时30分;第二,YYYY年MM月DD日hh:mm:ss,例如,2012年02月17日 09时30分30秒;第三,YYYY-MM-DDhh:mm,例如,2012年02月17日09时30分;第四,YYYY-MM-DD例如,2012年02月17日09时30分;第六,YYYY/MM/DD/hh:mm:ss,例如,2012年02月17日09时30分30秒。
可选的,在所述新闻发布时间所在的文本块之后,根据“来源”关键字,或者所述新闻发布时间所在的文本块之后的第一个文字串,确定新闻来源。例如,新闻发布时间所在的文本块之后的第一个文字串为京华时报,则新闻来源为京华日报。
步骤211,根据所述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正文或者非正文。所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文。具体的,如图3所示,根据所述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正文或者非正文包括:
301,判断当前文本块的文字密度是否大于等于文字密度下限值。其中,文字密度下限值可以为0.6,文字密度下限值为根据多次试验获得。当所述当前文本块的文字密度小于汉字密度下限值时,执行步骤302,当所述当前文本块的文字密度大于等于汉字密度下限值时,执行步骤303。302,确定所述当前文本块的网页内容为非正文。303,判断当前文本块的链接文字密度是否小于第一链接文字密度上限值。其中,第一链接文字密度上限值可以为0.5,第一链接文字密度上限值为根据多次试验获得。当所述当前文本块的链接文字密度小于第一链接文字密度上限值时,则执行步骤304,当所述当前文本块的链接文字密度大于等于第一链接文字密度上限值时,则执行步骤309。304,判断前一个文本块中链接文字密度是否小于第二链接文字密度上限值。其中,第二链接文字密度上限值可以为0.555556,第二链接文字密度上限值为根据多次试验获得。当所述前一个文本块中连接文字密度小于第二链接文字密度上限值时,则执行步骤305,当所述前一个文本块中连接文字密度大于等于第二链接文字密度上限值时,则执行步骤310。305,判断当前文本块的文字数是否小于第一文字数下限值。第一文字数下限值可以为3,即文本块中包含的文字数为3个汉字。第一文字数下限值为根据多次试验获得。当所述当前文本块的文字数小于第一文字数下限值时,则执行步骤306,当所述当前文本块的文字数大于等于第一文字数下限值时,则执行步骤308,即确定当前文本块的网页内容为正文。306,判断后一个文本块的文字数是否小于第二文字数下限值。第二文字数下限值可以为5,即文本块中包含的文字数为5个汉字。第二文字数下限值为根据多次试验获得。当所述后一个文本块的文字数小于第二文字数下限值时,则执行步骤307,当所述后一个文本块的文字数大于等于第二文字数下限值时,则执行步骤312。307,判断前一个文本块的文字数是否小于第三文字数下限值。第三文字数下限值可以为3,即文本块中包含的文字数为3个汉字。第三文字数下限值为根据多次试验获得。当所述前一个文本块的文字数小于所述第三文字数下限值时,则执行步骤302,即确定所述当前文本块的网页内容为非正文;当所述前一个文本块的文字数大于等于所述第三文字数下限值时,则执行步骤308。 308,确定当前文本块的网页内容为正文。309,当前一个文本块的网页内容为正文时,判断所述当前文本块中链接的文字数的平均值是否小于文字数上限值;此步骤为当所述当前文本块的链接文字密度大于等于第一链接文字密度上限值时,并且当前一个文本块的网页内容为正文时,判断当前文本块中链接的文字数的平均值是否小于文字数上限值;文字数上限值可以为5,文字数上限值为根据多次试验获得。当所述当前文本块中链接的文字数的平均值小于文字数上限值时,则执行步骤308,即确定所述当前文本块的网页内容为正文;当所述当前文本块中链接的文字数的平均值大于等于文字数上限值时,则执行步骤302,确定所述当前文本块的网页内容为非正文。310,判断当前文本块的文字数是否小于等于第四文字数下限值。此步骤为当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时,继续判断所述当前文本块的文字数是否小于等于第四文字数下限值。第四文字数下限值可以为30,四文字数下限值为根据多次试验获得。其中,第四文字数下限值为网页内容抽取时对于汉字的统计口径,字数大于30个汉字的文本块,就被认为是正文。当所述当前文本块的文字数大于第四文字数下限值时,则执行步骤308,即确定所述当前文本块的网页内容为正文;当所述当前文本块的文字数小于等于第四文字数下限值时,则执行步骤311。311,判断所述前一个文本块或者所述后一个文本块的文字数是否小于等于第五文字数下限值;第五文字数下限值可以为17,第五文字数下限值为根据经验获得。当所述前一个文本块或者后一个文本块的文字数小于等于第五文字数下限值时,则执行步骤302,即确定所述当前文本块的网页内容为非正文;当所述前一个文本块或者后一个文本块的文字数大于第五文字数下限值时,则执行步骤308,即确定所述当前文本块的网页内容为正文。312,判断前一个文本块的网页内容是否为正文。本步骤中,当所述后一个文本块的文字数大于等于第二文字数下限值时,判断所述前一个文本块的网页内容是否为正文;当前一个文本块的网页内容为正文时,则执行步骤308,确定所述当前文本块的网页内容为正文;当前一个文本块的网页内容为非正文时,则执行步骤302,确定所述当前文本块的网页内容为非正文。当确定了当前文本块的网页内容为正文或者非正文之后,继续执行步骤212。步骤212,根据网页标题所在的文本块,确定网页标题所在的文本块之前的网页内容为非正文。
可选的,首先定位在网页标题所在的文本块,然后将网页标题之前的网页内容标记为非正文。确定网页标题所在的文本块之前的网页内容为非正文后,过滤掉网页标题所在文本块之前的内容,这样可以有效过滤标题之前的无用信息,例如各个频道信息、广告等等。步骤 213,根据所述文档树结构的文本块中包含的网页正文结束特征词,确定包含所述特征词的文本块之后的网页内容为非正文。
可选的,统计网页正文结束的特征词,生成语料库。例如,网页正文结束的特征词包括:分享到、责任编辑、声明等。判断文档树结构的各个文本块的网页内容中是否包含所述语料库中的特征词;当文档树结构的第一文本块的网页内容中包含所述语料库中的特征词时,确定所述第一文本块为网页正文结束文本块,并确定所述网页正文结束文本块之后的网页内容为非正文,这样,有效地去除了正文之后的信息,例如广告、相关新闻链接以及其他栏目等无用的信息。这里第一文本块为文档树结构的各个文本块中的任意一个,“第一”不是为了对文本块进行排序,而是为了方便描述。在确定包含所述特征词的文本块之后的网页内容为非正文之后,过滤掉网页正文结束文本块之后的网页内容。步骤214,将含有图片的文本块与紧邻所述含有图片的文本块之后的网页内容为正文的文本块合并为一个正文文本块。在步骤211中,将含有IMG标签的文本标记为非正文,因此需要抽取图片时,需要将图片所在的文本块保留下来,因此可以将含有图片的文本块与其后一个正文文本块合并为一个新的正文文本块,这样在抽取网页内容时可以将图片一起抽取出来,方便快捷的完成抽取操作。步骤215,删除网页内容为非正文的文本块;网页内容为非正文的文本块为进行网页内容抽取时无用的文本块,因此删除这些文本块,有利于后续对正文内容的抽取。需要说明的是,当经过步骤209-步骤215的处理之后,仅正文文本块保留下来。步骤216,还原所述正文文本块的HTML标签,获得格式化后的网页正文;由于正文文本块中含有网页源码的地址信息,因此根据该地址信息可以确定正文文本块前后的HTML标签,例如P标签、DIV标签等等。将这些标签还原,作为格式化后的正文,以便在显示时采用。步骤217,将所述网页正文中的转义字符普通文本形式进行解码,恢复转义字符的功能;此步骤执行的操作为步骤203执行的操作的反操作,即恢复转义字符的功能。步骤218,将所述网页正文中的IMG标签普通文本形式进行解码,恢复IMG标签的功能;此步骤为可选步骤,当步骤205存在时,则执行此步骤,当步骤205不存在时,则不执行此步骤。步骤219,将所述网页正文中的链接添加转码应用的前缀。本步骤中,将网页正文中的链接添加转码应用的前缀,可以使得点击网页正文中的任意一个链接时,发送的访问请求都由转码应用进行处理,以实现网页转码的闭环操作。也就是说,点击网页正文中的任意一个链接之后,显示的二级页面为根据本发明提供的方法处理之后的网页正文。步骤220,根据所述网页标题、所述网页元素以及所述网页正文,获取网页全文,并以独立接口的形式显示所述网页全文。
本发明实施例提供一种网页内容抽取的方法,通过文本树结构中的TITLE标签,确定网页标题,再根据网页标题确定网页其他元素,例如网站LOGO、页面导航、新闻发布时间、新闻来源等。根据网页标题,将网页标题之前的网页内容标记为非正文删除,将正文之后的网页内容根据网页结束的特征词确定正文结束文本块之后的网页内容为非正文,然后删除。使得在进行网页内容抽取时,抽取网页标题、网页元素以及网页内容为正文的正文文本块,获取网页全文,可以准确抽取网页标题以及网页中各个元素,提升了中文网页正文抽取的完整性、格式一致性、无用信息分离度,从而获得了较高的正文判定准确率,并且增强了抽取中文网页内容的乱码问题,增强了图片处理。

Claims (10)

1.一种网页内容抽取的方法,其特征在于,包括:将超文本标记语言HTML源码转换为对应的文档树结构,并根据所述文档树结构的标题TITLE标签,确定网页标题;根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站商标LOGO、页面导航、新闻发布时间、新闻来源;根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。
2.根据权利要求1所述网页内容抽取的方法,其特征在于,文本块的密度包括文字密度和链接密度;所述根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性包括:根据所述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正文或者非正文;根据所述网页标题,确定所述网页标题之前的网页内容为非正文;根据所述文档树结构的文本块中包含的网页正文结束特征词,确定包含所述特征词的文本块之后的网页内容为非正文。
3.根据权利要求2所述网页内容抽取的方法,其特征在于,所述根据所述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正文或者非正文包括:判断所述当前文本块的文字密度是否大于等于文字密度下限值;当所述当前文本块的文字密度大于等于汉字密度下限值时,判断所述当前文本块的链接文字密度是否小于第一链接文字密度上限值;当所述当前文本块的链接文字密度小于所述第一链接文字密度上限值时,判断前一个文本块中链接文字密度是否小于第二链接文字密度上限值;当所述前一个文本块中连接文字密度小于所述第二链接文字密度上限值时,判断所述当前文本块的文字数是否小于第一文字数下限值;当所述当前文本块的文字数小于所述第一文字数下限值时,判断后一个文本块的文字数是否小于第二文字数下限值;当所述后一个文本块的文字数小于所述第二文字数下限值时,判断所述前一个文本块的文字数是否小于第三文字数下限值;当所述前一个文本块的文字数小于所述第三文字数下限值时,确定所述当前文本块的网页内容为非正文;当所述前一个文本块的文字数大于等于所述第三文字数下限值时,确定所述当前文本块的网页内容为正文。
4.根据权利要求3所述网页内容抽取的方法,其特征在于,当所述当前文本块的文字密度小于汉字密度下限值时,确定所述当前文本块的网页内容为非正文。
5.根据权利要求3所述网页内容抽取的方法,其特征在于,当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时,并且当所述前一个文本块的网页内容为正文时,判断所述当前文本块中链接的文字数的平均值是否小于文字数上限值;当所述当前文本块中链接的文字数的平均值小于文字数上限值时,确定所述当前文本块的网页内容为正文;当所述当前文本块中链接的文字数的平均值大于等于文字数上限值时,确定所述当前文本块的网页内容为非正文。
6.根据权利要求3所述网页内容抽取的方法,其特征在于,当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时,判断所述当前文本块的文字数是否小于等于第四文字数下限值;当所述当前文本块的文字数大于所述第四文字数下限值时,确定所述当前文本块的网页内容为正文;当所述当前文本块的文字数小于等于所述第四文字数下限值时,判断所述前一个文本块或者所述后一个文本块的文字数是否小于等于第五文字数下限值;当所述前一个文本块或者后一个文本块的文字数小于等于所述第五文字数下限值时,确定所述当前文本块的网页内容为非正文;当所述前一个文本块或者后一个文本块的文字数大于所述第五文字数下限值时,确定所述当前文本块的网页内容为正文。
7.根据权利要求3所述网页内容抽取的方法,其特征在于,当所述当前文本块的文字数大于等于所述第一文字数下限值时,确定所述当前文本块的网页内容为正文。
8.根据权利要求3所述网页内容抽取的方法,其特征在于,当所述后一个文本块的文字数大于等于所述第二文字数下限值时,判断所述前一个文本块的网页内容是否为正文;当所述前一个文本块的网页内容为正文时,确定所述当前文本块的网页内容为正文;当所述前一个文本块的网页内容为非正文时,确定所述当前文本块的网页内容为非正文。
9.根据权利要求2所述网页内容抽取的方法,其特征在于,所述根据所述文档树结构的文本块中包含的网页正文结束特征词,确定包含所述特征词的文本块之后的网页内容为非正文包括:统计网页正文结束的特征词,生成语料库;判断所述文档树结构的各个文本块的网页内容中是否包含所述语料库中的特征词;当所述文档树结构的第一文本块的网页内容中包含所述语料库中的特征词时,确定所述第一文本块为网页正文结束文本块,并确定所述网页正文结束文本块之后的网页内容为非正文。
10.根据权利要求1所述网页内容抽取的方法,其特征在于,在所述根据所述文档树结构的TITLE标签,确定网页标题之前,还包括:将所述文档树结构的转义字符进行编码,获得转义字符普通文本形式;当需要抽取图片时,将所述文档树结构的IMG标签进行编码,获得IMG标签普通文本形式。
CN201711392836.0A 2017-12-14 2017-12-14 一种网页内容抽取的方法 Pending CN108132919A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711392836.0A CN108132919A (zh) 2017-12-14 2017-12-14 一种网页内容抽取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711392836.0A CN108132919A (zh) 2017-12-14 2017-12-14 一种网页内容抽取的方法

Publications (1)

Publication Number Publication Date
CN108132919A true CN108132919A (zh) 2018-06-08

Family

ID=62391965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711392836.0A Pending CN108132919A (zh) 2017-12-14 2017-12-14 一种网页内容抽取的方法

Country Status (1)

Country Link
CN (1) CN108132919A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488534A (zh) * 2020-04-16 2020-08-04 成都安易迅科技有限公司 广告侦测方法、装置、电子设备及计算机可读存储介质
CN111651694A (zh) * 2020-05-21 2020-09-11 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064827A (zh) * 2013-01-16 2013-04-24 盘古文化传播有限公司 一种网页内容抽取的方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064827A (zh) * 2013-01-16 2013-04-24 盘古文化传播有限公司 一种网页内容抽取的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488534A (zh) * 2020-04-16 2020-08-04 成都安易迅科技有限公司 广告侦测方法、装置、电子设备及计算机可读存储介质
CN111651694A (zh) * 2020-05-21 2020-09-11 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法
CN111651694B (zh) * 2020-05-21 2023-09-29 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法

Similar Documents

Publication Publication Date Title
US8196037B2 (en) Method and device for extracting web information
JP6653334B2 (ja) 情報抽出方法及び装置
CN103064827A (zh) 一种网页内容抽取的方法及装置
Trampuš et al. Internals of an aggregated web news feed
CN102253979B (zh) 基于视觉的web页面萃取方法
CN102541874B (zh) 网页正文内容提取方法及装置
CN103166981B (zh) 一种无线网页转码方法及装置
CN101727461B (zh) 一种网页的正文抽取方法
CN105022803B (zh) 一种提取网页正文内容的方法及系统
CN109543126B (zh) 基于块文字占比的网页正文信息提取方法
CN101197849A (zh) 将互联网页面转换为无线应用协议页面的转换方法和装置
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
WO2017008448A1 (zh) 一种网页核心内容提取方法
CN113326413B (zh) 一种网页信息提取方法、系统、服务器及存储介质
CN103810251A (zh) 一种文本提取方法及装置
WO2023155303A1 (zh) 网页数据的提取方法和装置、计算机设备、存储介质
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN112380337A (zh) 基于富文本的高亮方法及装置
CN108132919A (zh) 一种网页内容抽取的方法
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
KR100463835B1 (ko) 무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출시스템 및 그 방법
JP2004220251A (ja) 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム
CN103455572A (zh) 获取网页中影视主体的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180608