CN107145591B - 一种基于标题的网页有效元数据内容提取方法 - Google Patents
一种基于标题的网页有效元数据内容提取方法 Download PDFInfo
- Publication number
- CN107145591B CN107145591B CN201710349934.XA CN201710349934A CN107145591B CN 107145591 B CN107145591 B CN 107145591B CN 201710349934 A CN201710349934 A CN 201710349934A CN 107145591 B CN107145591 B CN 107145591B
- Authority
- CN
- China
- Prior art keywords
- title
- text
- information
- content
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000035943 smell Effects 0.000 description 1
- 230000008719 thickening Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于标题的网页有效元数据内容提取方法,通过基于链接标题或网页标题来定义网页的主体内容所在的位置,可以无需对网页的HTML进行人工分析设定抽取规则,只需在识别时输入网页的HTML源码和链接标题信息即可以自动识别出与网页相关的各项元数据信息,本发明易维护,无需配置抽取规则,自动适应各种网站的网页风格,大大减轻了维护成本;速度快,无需学习模式,只要有标题经过简单过滤后识别即可以快速锁定文章的主体信息,在大规模识别网页内容时具备有速度快的特点;精准性高,易读性强,可以较好地保留原文的风格,如加粗、字体大小等风格。
Description
技术领域
本发明涉及,具体涉及一种基于标题的网页有效元数据内容提取方法。
背景技术
随着互联网络在全球范围内的飞速发展,网络新闻媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。 网络技术推陈出新,网络新闻、论坛、博客、聚合新闻等层出不穷,且具有范围广、交互性强、更新速度快的特点,可以说任何人都可以在 BBS 论坛,留言版或者自建站点上发布言论和观点,而且,随着Web2.0的发展与广泛应用,互联网上的舆论信息迅速传遍。从对社会影响方面看,网络舆论成为社会舆论的一种重要表现形式。由于原始的网页信息中包含有大量的导航信息与广告信息等,对识别有效的舆论信息带来极大的干扰。那么如何从不同的网页中自动抽取出有效的正文内容、发表时间、原始来源、原始作者、相关的图片、表格、文档等元数据就变得尤为重要。
对于提取网页中的元数据内容传统的方法是对每个不同的网站配置不同的抽取模板,即根据所要监测网站的文章内容网页的展现形式通过正则表达式、前后字符或网页元素的XPATH路径等预先定义好抽取规则后分别提取相关的元数据。中国专利“CN201611027102.8一种基于网页聚类的正文信息提取方法” 提供了一种网页正文信息提取方法。此专利在基于相似的网站链接地址情况下,自动根据多个相似的网页的特征生成正文信息的抽取规则。
传统的根据不同的网站配置不同的网页内容抽取规则,需要投入较多人力来根据不同的网站配置不同的抽取模板。一旦目标网站的网页改版了,或者有稍微细小的调整都可能导致原来的抽取模板规则失效,需要重新根据新的版面配置新的抽取规则。这种形式维护工作量较大,不宜对数万乃至数十万上百万个网站的网页内容抽取。中国专利“CN201611027102.8一种基于网页聚类的正文信息提取方法”需要通过对目标网站上的大量相似的网页进行学习后提取特征自动生成规则,也会存在目标网站的网页改版后,需要重新学习抽取规则特征的情况。
发明内容
本发明的目的是提取出一种无需根据每个网站的展现形式制定抽取规则,根据网页的标题信息自动识别网页中有效元数据的方法。
本发明的目的是通过以下技术方案实现的:
一种基于标题的网页有效元数据内容提取方法,提取方法基于链接标题或网页标题来确定网页的主体内容所在的位置,无需对网页的HTML进行人工分析设定抽取规则,只需在识别时输入网页的HTML源码和链接标题信息即可以自动识别出与网页相关的各项元数据信息。
具体步骤如下:
(1)通过爬虫系统读取每个网站的链接、链接标题和网页内容后;
(2)将网页内容送入内容识别算法,识别算法先判断输入的内容中是否有链接标题,没有链接标题的自动提取网页中的<title>到</title>中的内容作为信息标题;
(3)剔除网页源代码中的script、iframe、noscript、textarea、select、注释等信息,以加快有效内容的识别;
(4)将网页的HTML源代码转换成树状结构,在转换中同时记录每个树结点的中的句子数量、链接数量等以作为识别的辅助信息;
(5)逐个读取HTML树结点的元素中的文本内容,判断该文本内容是否是句子或段落,判断是否是句子或段落的依据是该文本内容中的逗号数量是否超过2个,而且含有中英文常用的句子结束符号(句号、省略号、感叹号等),如果不是句子的,判断文本内容的长度是否大于3个汉字或6个字符,小于3个汉字的可以认为是噪声信息不作后续的处理,继续读取下一个HTML树结点;大于3汉字的,通过公式计算该字符串与输入的标题的相似度;相似度计算公式为:(A∩B/A∪B)*100=相似度,即A为链接标题中的所有字符(英文以单词),B为当前文本的所有字符,A与B中共同出现的字符数量除与A与B中所有不重复的单词数量乘于100即为两个文本的相似度;
(6)当发现文本内容与标题的相似度超过20%时,先记录当前文本内容的位置,继续扫描其它的HTML树结点,当发现剩余文本相似度超过原先搜索到的文本的相似度时,即可以替换原来的结点信息,逐步替换直到找到首个句子或段落出现时即结束标题信息的搜索;
(7)当发现标题后到搜索到第一个句子或段落信息后,需要求出标题与首个句子的共同的首个父结点,并以此结点作为搜索起始通过深度扫描判断每个结点的句子数量是否发生变化,当数量的变化不超过1/2时将继续往下搜索,直到搜索出包含有最多句子和段落的HTML元素结点;至此,即可锁定网页的正文主体内容,通过HTML树结点上的标签信息如img可以获得文中的图片信息,通过table标签可以获得文中的表格信息,通过a标签与href属性判断是否是文中的文档信息;
(8)除了识别正文与正文中的元数据外,还需要抽取正文相关的作者、来源、发表时间等信息,这个可以通过对正文标题到首个句子或段落间的文本内容进行扫描,并通过正则表达式来判断是否是作者信息、来源信息或时间信息等属性;
(9)根据以上的信息,即可以将网页内容识别出相关的属性元数据信息。
本发明具有如下有益的效果:
本发明由于不需要对网页的内容进行人工分析,只需要输入链接的网页内容和链接标题即可完成文章元数据内容的抽取。据统计网页上80%以上的链接都有相应的标题信息,即便没有标题信息,我们也可以从网页的自身标题上获取该网页的大致内容,以此作为基础搜索正文主体所在信息,并抽取出相关的属性信息。通过该方法至少可以达到:①易维护,无需配置抽取规则,自动适应各种网站的网页风格,大大减轻了维护成本;②速度快,无需学习模式,只要有标题经过简单过滤后识别即可以快速锁定文章的主体信息,在大规模识别网页内容时具备有速度快的特点;③精准性,由于基于链接标题作为线索,即网页中必须要出现与链接标题大体相似的信息,并以此作为中心点探测网页的主体内容结点,所以获得的主体内容必是与标题相关的结点,就该结点中输出的内容就是网页的内容;④易读性,由于采用了HTML结构树的模式,可以在锁定主体内容结点后,可以以该结点为起始输入递归输出包含有HTML属性的文本内容,可以较好地保留原文的风格,如加粗、字体大小等风格。
附图说明
图1为本发明的流程图;
图2为本发明的HTML转换成结构树的效果图;
图3为本发明的扫描标题与首个句子后的效果图;
图4为本发明的识别到标题与句子段落的情况图;
图5为本发明的识别到网页中的元数据效果图。
具体实施方式
下面结合附图对本发明作进一步的说明:
如图1所示,一种基于标题的网页有效元数据内容提取方法,提取方法基于链接标题或网页标题来定义网页的主体内容所在的位置,无需对网页的HTML进行人工分析设定抽取规则,只需在识别时输入网页的HTML源码和链接标题信息即可以自动识别出与网页相关的各项元数据信息。
具体步骤如下:
(1)通过爬虫系统读取每个网站的链接、链接标题和网页内容后;
(2)将网页内容送入内容识别算法,识别算法先判断输入的内容中是否有链接标题,没有链接标题的自动提取网页中的<title>到</title>中的内容作为信息标题;
(3)剔除网页源代码中的script、iframe、noscript、textarea、select、注释等信息,以加快有效内容的识别;
(4)如图2所示,将网页的HTML源代码转换成树状结构,在转换中同时记录每个树结点的中的句子数量、链接数量等以作为识别的辅助信息;
(5)逐个读取HTML树结点的元素中的文本内容,判断该文本内容是否是句子或段落,判断是否是句子或段落的依据是该段文本内容中的逗号数量是否超过2个,而且含有中英文常用的句子结束符号(句号、省略号、感叹号等),如果不是句子的,判断文本内容的长度是否大于3个汉字,6个字符,小于3个汉字的可以认为是噪声信息不作后续的处理,继续读取下一个HTML树结点;大于3汉字的,通过公式计算该字符串与输入的标题的相似度;相似度计算公式为:(A∩B/A∪B)*100=相似度,即A为链接标题中的所有字符(英文以单词),B为当前文本内容的所有字符,A与B中共同出现的字符数量除与A与B中所有不重复的单词数量乘于100即为两个文本的相似度;
(6)如图3所示,当发现文本内容与标题的相似度超过20%时,先记录当前文本内容的位置,继续扫描其它的HTML树结点,当发现剩余文本相似度超过原先搜索到的文本的相似度时,即可以替换原来的结点信息,逐步替换直到找到首个句子或段落出现时即结束标题信息的搜索;
(7)如图4所示,当发现标题后到搜索到第一个句子或段落信息后,需要求出标题与首个句子的共同的首个父结点,并以此结点作为搜索起始通过深度扫描判断每个结点的句子数量是否发生变化,当数量的变化不超过1/2时将继续往下搜索,直到搜索出包含有最多句子和段落的HTML元素结点;至此,即可锁定网页的正文主体内容,通过HTML树结点上的标签信息如img可以获得文中的图片信息,通过table标签可以获得文中的表格信息,通过a标签与href属性判断是否是文中的文档信息;
(8)除了识别正文与正文中的元数据外,还需要抽取正文相关的作者、来源、发表时间等信息,这个可以通过对正文标题到首个句子或段落间的文本内容进行扫描,并通过正则表达式来判断是否是作者信息、来源信息或时间信息等属性;
(9)如图5所示,根据以上的信息,即可以将网页内容识别出相关的属性元数据信息。
具体实施例如下:
通过爬虫系统读取每个网站的链接、链接标题和网页内容后;读取到腾讯网有“德国联邦情报局再曝丑闻,监控国际刑警组织多年”的标题,通过内容识别算法识别出该标题为链接标题,进入标题的链接网页,剔除网页源代码中的注释等信息,将网页的HTML源代码转换成树状结构,对该网页进行逐句的文本读取,判断句子和段落文字长度,进而搜索相似标题、内容、作者、发表时间,搜索到中国日报和《明镜周刊》均有类似报道,进而读取到所需要的信息。
本发明通过基于链接标题或网页标题来定义网页的主体内容所在的位置,可以无需对网页的HTML进行人工分析设定抽取规则。只需在识别时输入网页的HTML源码和链接标题信息即可以自动识别出与网页相关的各项元数据信息,关键电涉及到将HTML源码转换为HTML结构树,要求HTML源码在转换为结构树能较好的地满足HTML规范,并具有一定的容错能力,如只有<p>的标签,没有</p>标签时可以自动结束一个HTML结点,同时还需要快速的文本相似度计算公式与句子段落判定公式,通过以上几项技术的,结合本发明算法即可以实现快速的对各种网页内容抽取文章的元数据信息。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施过程的限制,上述实施过程和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求护范围由所附的权利要求书及其效果界定。
Claims (2)
1.一种基于标题的网页有效元数据内容提取方法,其特征在于:所述的提取方法具体步骤如下:
(1)通过爬虫系统读取每个网站的链接、链接标题和网页内容后;
(2)将网页内容送入内容识别算法,识别算法先判断输入的内容中是否有链接标题,没有链接标题的自动提取网页中的<title>到</title>中的内容作为信息标题;
(3)剔除网页源代码中的script、iframe、noscript、textarea、select以及注释信息;
(4)将网页的HTML源代码转换成树状结构,在转换中同时记录每个树结点的中的句子数量、链接数量以作为识别的辅助信息;
(5)逐个读取HTML树结点的元素中的文本内容,判断该文本内容是否是句子或段落,判断是否是句子或段落的依据是该文本内容中的逗号数量是否超过2个,而且含有中英文常用的句子结束符号,如果不是句子的,判断文本内容的长度是否大于3个汉字或6个字符,小于3个汉字的认为是噪声信息不作后续的处理,继续读取下一个HTML树结点;大于3个汉字的,通过公式计算该文本内容与输入的标题的相似度;
(6)当发现文本内容与标题的相似度超过20%时,先记录当前文本内容的位置,继续扫描其它的HTML树结点,当发现剩余文本相似度超过原先搜索到的文本的相似度时,即替换原来的结点信息,逐步替换直到找到首个句子或段落出现时即结束标题信息的搜索;
(7)当发现标题搜索到第一个句子或段落信息后,求出标题与首个句子的共同的首个父结点,并以此结点作为搜索起始通过深度扫描判断每个结点的句子数量是否发生变化,当数量的变化不超过1/2时将继续往下搜索,直到搜索出包含有最多句子和段落的HTML元素结点;至此,即锁定网页的正文主体内容,通过HTML树结点上的标签信息获得文中的图片信息,通过table标签获得文中的表格信息,通过a标签与href属性判断是否是文中的文档信息;
(8)除了识别正文与正文中的元数据外,还需要抽取正文相关的作者、来源、发表时间信息,这个通过对正文标题到首个句子或段落间的文本信息进行扫描,并通过正则表达式来判断是否是作者信息、来源信息或时间信息属性;即将网页内容识别出相关的属性元数据信息。
2.根据权利要求1所述的一种基于标题的网页有效元数据内容提取方法,其特征在于:步骤(5)中相似度计算公式为:(A∩B/A∪B)*100=相似度,即A为链接标题中的所有字符,B为当前文本的所有字符,A与B中共同出现的字符数量除与A与B中所有不重复的单词数量乘于100即为两个文本的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710349934.XA CN107145591B (zh) | 2017-05-17 | 2017-05-17 | 一种基于标题的网页有效元数据内容提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710349934.XA CN107145591B (zh) | 2017-05-17 | 2017-05-17 | 一种基于标题的网页有效元数据内容提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107145591A CN107145591A (zh) | 2017-09-08 |
CN107145591B true CN107145591B (zh) | 2020-10-16 |
Family
ID=59778575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710349934.XA Expired - Fee Related CN107145591B (zh) | 2017-05-17 | 2017-05-17 | 一种基于标题的网页有效元数据内容提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107145591B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710771B (zh) * | 2018-10-30 | 2020-10-09 | 北京百度网讯科技有限公司 | 表格信息提取方法、装置和存储介质 |
CN111178057B (zh) * | 2020-01-02 | 2024-01-30 | 大汉软件股份有限公司 | 一种政务电子文档的内容分析提取系统 |
CN111597107B (zh) * | 2020-04-22 | 2023-04-28 | 北京字节跳动网络技术有限公司 | 信息输出方法、装置和电子设备 |
CN112765601B (zh) * | 2021-01-18 | 2023-04-18 | 西安博达软件股份有限公司 | 基于云端的网站首页结构监测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101470728A (zh) * | 2007-12-25 | 2009-07-01 | 北京大学 | 一种中文新闻网页正文的自动抽取方法及装置 |
CN102156737A (zh) * | 2011-04-12 | 2011-08-17 | 华中师范大学 | 一种中文网页主题内容的提取方法 |
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
CN105183801A (zh) * | 2015-08-25 | 2015-12-23 | 北京信息科技大学 | 网页正文抽取方法及装置 |
-
2017
- 2017-05-17 CN CN201710349934.XA patent/CN107145591B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101470728A (zh) * | 2007-12-25 | 2009-07-01 | 北京大学 | 一种中文新闻网页正文的自动抽取方法及装置 |
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
CN102156737A (zh) * | 2011-04-12 | 2011-08-17 | 华中师范大学 | 一种中文网页主题内容的提取方法 |
CN105183801A (zh) * | 2015-08-25 | 2015-12-23 | 北京信息科技大学 | 网页正文抽取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107145591A (zh) | 2017-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102253979B (zh) | 基于视觉的web页面萃取方法 | |
CN104598577B (zh) | 一种网页正文的提取方法 | |
US20150067476A1 (en) | Title and body extraction from web page | |
CN109543126B (zh) | 基于块文字占比的网页正文信息提取方法 | |
CN107145584B (zh) | 一种基于n-gram模型的简历解析方法 | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN105022803B (zh) | 一种提取网页正文内容的方法及系统 | |
CN107590219A (zh) | 网页人物主题相关信息提取方法 | |
US20080306941A1 (en) | System for automatically extracting by-line information | |
CN110609998A (zh) | 一种电子文档信息的数据提取方法、电子设备及存储介质 | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN103838796A (zh) | 一种网页结构化信息抽取方法 | |
CN103166981A (zh) | 一种无线网页转码方法及装置 | |
Cardoso et al. | An efficient language-independent method to extract content from news webpages | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
CN108959204B (zh) | 互联网金融项目信息抽取方法和系统 | |
JP5527845B2 (ja) | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 | |
CN105740355B (zh) | 基于聚集文本密度的网页正文提取方法及装置 | |
Fauzi et al. | Webpage segmentation for extracting images and their surrounding contextual information | |
CN106372232B (zh) | 基于人工智能的信息挖掘方法和装置 | |
CN103455572A (zh) | 获取网页中影视主体的方法及装置 | |
CN114970502A (zh) | 一种应用于数字政府的文本纠错方法 | |
CN106897287B (zh) | 网页发布时间抽取方法和用于网页发布时间抽取的装置 | |
Luo et al. | Web article extraction for web printing: a dom+ visual based approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201016 |
|
CF01 | Termination of patent right due to non-payment of annual fee |