CN102184189B - 基于dom节点文本密度的网页核心块确定方法 - Google Patents

基于dom节点文本密度的网页核心块确定方法 Download PDF

Info

Publication number
CN102184189B
CN102184189B CN2011100961325A CN201110096132A CN102184189B CN 102184189 B CN102184189 B CN 102184189B CN 2011100961325 A CN2011100961325 A CN 2011100961325A CN 201110096132 A CN201110096132 A CN 201110096132A CN 102184189 B CN102184189 B CN 102184189B
Authority
CN
China
Prior art keywords
node
density
webpage
text
dom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011100961325A
Other languages
English (en)
Other versions
CN102184189A (zh
Inventor
孙飞
宋丹丹
廖乐健
王晓华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN2011100961325A priority Critical patent/CN102184189B/zh
Publication of CN102184189A publication Critical patent/CN102184189A/zh
Application granted granted Critical
Publication of CN102184189B publication Critical patent/CN102184189B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种基于DOM节点文本密度的网页核心块确定方法,包括以下步骤:一、解析HTML网页,生成DOM树,使每一个HTML标签对应于DOM树中的一个节点,网页中的文字内容则是DOM树的叶子节点;二、为每个节点添加包含节点所包含的所有文本字符的个数、节点所包含的所有标签的个数、节点所包含的所有超链接文本字符个数、节点所包含的所有超链接个数的统计信息,并根据统计信息定义节点的文本密度;三、根据DOM树中节点的文本密度确定网页核心块。本发明可以在免受网页代码风格的影响及保留原始网页DOM结构的前提下,完整地提取出网页中的核心内容块。

Description

基于DOM节点文本密度的网页核心块确定方法
技术领域
本发明涉及一种基于DOM节点文本密度的网页核心块确定算法,属于计算机应用技术领域。
背景技术
随着互联网的高速发展,WWW已经成为目前世界上最大的资料库。因此,在web中进行数据挖掘以获取有用的信息或知识逐渐成为一个新兴的热点研究方向。
这些研究需要快速高效地收集、处理和存储web中核心内容。然而,网页中的这些核心内容,往往被大量的无关信息所包围。如,导航菜单、边栏广告、版权信息等等。虽然这些信息,能够使网页的内容丰富美观,同时方便用户浏览,但是其与网页的主题并不相关,也使得这些网页难以被计算机程序解析。
为了显著提高web数据挖掘和信息检索的效果,内容抽取(ContentExtraction——CE)技术被提出以删除网页中存在的这些噪声数据。一般情况下,内容抽取技术能够显著地提高这些算法的效果,并且对于很多实际应用来说,其也是必不可少的。
在传统情况下,构建语料库是一个非常昂贵且耗时的工程。但是,通过从web中自动地下载文本数据,可以在短时间内以相对较低的开销来建立一个异常庞大的语料库。因此,“Web as Corpus”(网络语料库)这个创意,已经吸引了众多自然语言处理以及相关领域的研究人员。为准备数据以用于自然语言研究,ACL-SIGWAC在2007年举行了第一届CleanEval比赛。
另一方面,随着手机、PDA等小屏幕移动设备的大量普及,得到网页核心内容,从而调整网页以适应这些小屏幕已成为一个日益重要且极具挑战的任务。
近十年来,研究人员已经提出了大量的CE方法。早期,一些方法根据多个结构相似的网页中存在的共同模板,利用正则表达式来手动提取网页中的核心内容。这种方法的准确度非常好,计算效率也很高。但是一个明显的缺陷是,对于不同的网站,都需要生成不同的正则表达式。甚至,大多数网站都具有多个不同的结构模板。另外,即使只针对一个站点,网站的改版也会使得此算法失效。
2010年WWW会议,Tim Weninger等人提出了CETR算法对网页进行核心内容的抽取。CETR算法首先计算每一行中字符个数与标签个数的比例,然后在此基础上提出了三种不同的方法来提取核心内容。CETR-TM使用简单的阈值办法进行核心内容的抽取;CETR-KM使用K-means聚类进行核心块的抽取;而最终的CETR算法添加了另一维数据,在二维数据上进行聚类。
但CETR算法存在以下缺点:
1.以行为单位计算文本比例。导致这种计算方法,受不同的网页代码风格影响很大,使得对于不同的网页可能效果差异很大。如极端情况下,所有的代码都写在一行。虽然作者进行了一定的处理,当一行字符数超过65,则截断。但并不能完全消除这样的影响。
2.只能提取网页核心块的文本信息,不能保留网页原本的结构信息。这样难以与其他应用集成,如结构化信息抽取。
3.没有充分利用网页中噪声数据的特点,区分效果不是十分明显。
4.不能完整地提取出核心块内容,容易丢失其中密度低的行。
发明内容
本发明的目的在于针对现有技术的缺点,提供一种新的高效的网页核心块确定方法。
本发明提供了一种基于DOM节点文本密度的网页核心块确定方法,包括以下步骤:
步骤一、解析HTML网页,生成DOM树;
本发明基于网页的DOM树结构对网页进行核心内容的抽取。文档对象模型(Document Object Model,DOM)是通用的用来操作和更新文档内容、结构和样式的标准的、语言和平台无关的接口。每一个网页都对应了一个DOM树,其中每一个HTML标签对应于DOM中的一个节点,其中网页中的文字内容,则是DOM树的叶子节点。
优选的,在生成DOM树之前,首先删除网页中的script、comment和style等标签内容,因为这些内容在网页中并不可见,如果将其计算在内则会干扰最终结果。在生成DOM树过程中,我们以<body>为起始标签,因为整个网页中所有可视内容都包含在<body>标签中。
步骤二、计算DOM树中各节点的文本密度
一旦一个HTML文档被解析成一棵DOM树,每一个节点所包含的文本字符和标签的数量都可以被统计出来。因此,可对每个节点添加两个统计信息:
1.Chars:节点所包含的所有文本字符的个数;
2.Tags:节点所包含的所有标签的个数;
一般情况下,网页的核心内容包含的字符会远高出其他部分。进一步的研究表明,网页中的噪声数据绝大部分都是以链接的形式存在。据此,我们可以统计出每一个节点所包含链接个数以及其下所有链接文本的字符个数。对每个节点添加如下信息:
1.LinkChars:节点所包含的所有超链接文本字符个数;
2.LinkTags:节点所包含的所有超链接个数;
利用上述四个统计,对于每一个节点,我们定义其文本密度如下:
若i是网页中的一个标签(对应于DOM树中的一个节点),则标签i的文本密度(Text Density,TD)为:
TD i = C i T i log log ( C i &Not; LC i LC i + LC b C b C i + e - 1 ) ( C i LC i T i LT i )
其中,Ci表示标签i对应的Chars,Ti表示标签i对应的Tags,LCi表示标签i对应的LinkChars,表示标签i所含的所有非超链接字符的个数即Chars与LinkChars的差值;LTi表示标签i对应的LinkTags,LCb表示<body>标签对应的LinkChars;Cb表示<body>标签对应的Chars。
步骤三、根据DOM树中节点的文本密度确定网页核心块。
在步骤二中,我们已经得到了每个节点的文本密度信息。文本密度信息是一个非常有用的信息,可以以各个节点的文本密度信息为基础,确定网页核心块。
根据DOM树中节点的文本密度确定网页核心块,最简单的的方法是利用密度值的高低来作为是否是核心块的判断依据,根据对密度值的统计定义一个阈值,如定义阈值为所有节点文本密度的均值,如果其高于阈值,则认为为核心块;反之,则认为是噪声数据。
通过对大量网页的统计分析发现,一般情况下,密度较高的节点为核心内容,而密度较低的则为噪声数据,而<body>标签的文本密度介于两者之间,可以作为区分这两者的依据。这是因为,<body>标签包含了比核心块更多的噪声数据,因此其文本密度要比核心块低;另一方面,它又比噪声块包含更多的核心内容,从而使得其密度高于噪声块的密度。因此,优选的,我们可以将<body>的文本密度作为阈值来区分核心块和噪声数据。
但是核心块中同样也会存在超链接或者一些段文本节点,这些节点的密度可能低于阈值,在上述方法下,便会丢失这些核心块数据,从而导致核心块数据的不完整。
进一步研究发现,对于大部分网页,其核心块在DOM树中都属于某一个上层节点。由于这些核心块节点,本身的密度值很大,那么将这些子节点的密度值相加,便会得到一个极大的密度和,远高于其他节点的子节点密度和值。我们可以利用这个特点,对文本密度信息进行进一步统计,用来进行网页核心块确定方法的优化。
定义节点的密度和如下:
对于网页中任一标签N(对应于DOM树中的节点),i是N的子标签,则N的密度和(DensitySum)计算公式如下:
DensitySum N = &Sigma; i &Element; C TextDensity i
这里,C表示N子标签的集合,TextDensityi表示标签i的文本密度值。
简单情形下,网页中只存在一个核心块。这时,只需要找到<body>节点下密度和最大的节点,并将其下所有子节点一起提取出来便可。利用这种方法,可以很简单的提取出一个完整的核心块。
但是,在很多情况下,网页中具有多个核心块。优选的,从<body>的下层节点开始,按照以下步骤提取出网页的核心块:
(一)定义一个阈值,如将<body>的文本密度作为阈值;
(二)按照从上至下的顺序,遍历DOM树中所有节点,对每个节点执行如下操作:
(1)如果节点文本密度低于阈值,则认为其为噪声数据,将该节点及其所包含的子树删除;
(2)如果节点文本密度高于阈值,则寻找其下密度和最大的节点,将其所包含的子树标记为核心块。
进一步,在某些特殊的网页中,某些核心块的文本密度可能低于<body>的文本密度。如果我们简单地以<body>的文本密度作为阈值的话,这部分核心块信息将会被丢失。
为解决这个问题,优选的,首先寻找网页中文本密度和最大的节点,然后从此节点回溯到<body>节点,设此路径上文本密度最小值为阈值。
有益效果
1.使用DOM树进行节点文本密度的计算,可以免受网页代码风格的影响。
2.基于DOM树进行网页核心块的抽取,可以保留原始网页的DOM结构,方便可视化及与其他应用集成。如:移动互联网和网页结构化信息抽取等应用。
3.文本密度的计算,利用了网页中噪声数据大多为超链接的特点,具有更好的区分度。
4.使用密度和的方法,可以完整地提取出网页中的核心内容块。
附图说明
图1为实施例中一部分代码片段的DOM树;
具体实施方式
下面结合附图,具体说明本发明的优选实施方式。
本实施例使用New York Times的一个实际页面为例。在页面中,包含很多图、文字和链接。在页面中包含的具体的文章为网页的核心内容。
首先将其解析成DOM树。选取其中一段代码作为示例,如下:
Figure BDA0000055831160000061
代码中省略号表示其他一些节点信息,为简化表示,以省略号代替。将其解析成DOM树如图1所示。
然后对整个页面的DOM树进行计算,得到每个节点的文本密度值及其子节点的密度和,结果如下:
<body>:Chars=6094,Tags=541,LinkChars=3243,LinkTags=445,Density=4.18771,densitySum=4.18549
<div id=″shell″>:Chars=6094,Tags=533,LinkChars=3243,LinkTags=444,Density=4.18549,densitySum=4.41271
<ul>:Chars=44,Tags=8,LinkChars=44,LinkTags=8,Density=0,densitySum=0
<li>:Chars=22,Tags=1,LinkChars=22,LinkTags=1,Density=0,densitySum=0
<a>:Chars=22,Tags=0,LinkChars=22,LinkTags=0,Density=0,densitySum=0
<div id=″page″>:Chars=5999,Tags=511,LinkChars=3148,LinkTags=423,Density=4.41271,densitySum=8.60376
<div class=″articleBody″>:Chars=2610,Tags=22,LinkChars=212,LinkTags=10,Density=195.663,densitySum=4601.71
<p>:Chars=157,Tags=0,LinkChars=0,LinkTags=0,Density=685.416,densitySum=685.416
注意,这里的结果是根据实际的网页计算出。从上面的结果中可以发现密度和最大的为<div class=″articleBody″>标签,将其与其所有子节点标记为核心块。然后从此节点回溯到<body>标签,此路径上文本密度最小的节点为<divid=″shell″>,其文本密度值为4.18549,将其设为阈值。
然后,对于<body>标签下所有节点,如果其文本密度值大于阈值,则寻找其下密度和最大的节点,将其所包含的子树标记为核心块;若节点的文本密度小于阈值,则认为其为噪声数据,将其以及其所包含的子树删除。
对于上述示例,<ul>的文本密度低于阈值,则删除<ul>以及其下的子树。<divclass=″articleBody″>的文本密度高于阈值,且其密度和值达到最大,则将其标记为核心块,保留其子树部分。
最后,将保留下来的DOM树完整输出。
应该理解的是,本实施例只是该发明的一种优选的实施方式。在不脱离本发明的精神和原则的前提下,任何对本发明做出的等同替换或变化,都应计入本发明的保护范围之内。

Claims (9)

1.一种基于DOM节点文本密度的网页核心块确定方法,包括以下步骤:
步骤一、解析HTML网页,生成DOM树,使每一个HTML标签对应于DOM树中的一个节点,网页中的文字内容则是DOM树的叶子节点;
步骤二、为每个节点添加4个统计信息:
(1)Chars:节点所包含的所有文本字符的个数;
(2)Tags:节点所包含的所有标签的个数;
(3)LinkChars:节点所包含的所有超链接文本字符个数;
(4)LinkTags:节点所包含的所有超链接个数;
对于每一个节点,定义其文本密度如下:
若i是网页中的一个标签,即i对应于DOM树中的一个节点,则标签i的文本密度为:
TD i = C i T i log log ( C i &Not; L C i LC i + LC b C b C i + e - 1 ) ( C i LC i T i LT i )
其中,Ci表示标签i对应的Chars,Ti表示标签i对应的Tags,LCi表示标签i对应的LinkChars,
Figure FDA00001920519300012
表示标签i所含的所有非超链接字符的个数,即Chars与LinkChars的差值;LTi表示标签i对应的LinkTags,LCb表示<body>标签对应的LinkChars;Cb表示<body>标签对应的Chars;
步骤三、根据DOM树中节点的文本密度确定网页核心块。
2.根据权利要求1所述的一种基于DOM节点文本密度的网页核心块确定方法,其特征在于,在步骤一中,以<body>为起始标签。
3.根据权利要求1或2所述的一种基于DOM节点文本密度的网页核心块确定方法,其特征在于,利用节点文本密度值的高低作为是否是核心块的判断依据,根据对文本密度值的统计定义一个阈值,如果其高于阈值,则认为为核心块;反之,则认为是噪声数据。
4.根据权利要求3所述的一种基于DOM节点文本密度的网页核心块确定方法,其特征在于,将<body>的文本密度值作为阈值来区分核心块和噪声数据。
5.根据权利要求1或2所述的一种基于DOM节点文本密度的网页核心块确定方法,其特征在于,在步骤三中,对于网页中任一标签N,定义N的密度和如下:
DensitySum N = &Sigma; i &Element; C TextDensity i
其中,C表示N子标签的集合,TextDensityi表示标签i的文本密度值;利用密度和值的高低作为是否是核心块的判断依据。
6.根据权利要求5所述的一种基于DOM节点文本密度的网页核心块确定方法,其特征在于,找到密度和最大的节点,并将其下所有子节点一起提取出来,作为网页的核心块。
7.根据权利要求5所述的一种基于DOM节点文本密度的网页核心块确定方法,其特征在于,从<body>的下层节点开始,按照以下步骤提取出网页的核心块:
(一)定义一个阈值;
(二)按照从上至下的顺序,遍历DOM树中所有节点,对每个节点执行如下操作:
(1)如果节点文本密度低于阈值,则认为其为噪声数据,将该节点及其所包含的子树删除;
(2)如果节点文本密度高于阈值,则寻找其下密度和最大的节点,将其所包含的子树标记为核心块。
8.根据权利要求7所述的一种基于DOM节点文本密度的网页核心块确定方法,其特征在于,所述阈值为<body>的文本密度值。
9.根据权利要求7所述的一种基于DOM节点文本密度的网页核心块确定方法,其特征在于,首先寻找网页中文本密度和最大的节点,然后从此节点回溯到<body>节点,设此路径上文本密度最小值为阈值。
CN2011100961325A 2011-04-18 2011-04-18 基于dom节点文本密度的网页核心块确定方法 Expired - Fee Related CN102184189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100961325A CN102184189B (zh) 2011-04-18 2011-04-18 基于dom节点文本密度的网页核心块确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100961325A CN102184189B (zh) 2011-04-18 2011-04-18 基于dom节点文本密度的网页核心块确定方法

Publications (2)

Publication Number Publication Date
CN102184189A CN102184189A (zh) 2011-09-14
CN102184189B true CN102184189B (zh) 2012-11-28

Family

ID=44570366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100961325A Expired - Fee Related CN102184189B (zh) 2011-04-18 2011-04-18 基于dom节点文本密度的网页核心块确定方法

Country Status (1)

Country Link
CN (1) CN102184189B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314513B (zh) * 2011-09-16 2013-01-02 华中科技大学 基于gpu的图像文本语义提取方法
CN103136312B (zh) * 2011-12-27 2016-08-31 北京麦克斯泰科技有限公司 一种新闻网页内容的抽取方法
CN102779170B (zh) * 2012-06-25 2015-01-07 北京奇虎科技有限公司 一种识别网页正文楼层的系统和方法
CN102779172B (zh) * 2012-06-25 2016-06-01 北京奇虎科技有限公司 一种网页中非正文文本的识别系统及方法
CN104462394B (zh) * 2012-06-25 2018-05-11 北京奇虎科技有限公司 一种识别网页正文楼层的系统和方法
CN102880707B (zh) * 2012-09-27 2016-03-16 广州市动景计算机科技有限公司 网页主体内容识别方法和装置
CN103020156B (zh) * 2012-11-23 2016-02-03 小米科技有限责任公司 一种针对网页的处理方法、装置和设备
CN103530430B (zh) * 2013-11-06 2016-05-25 焦点科技股份有限公司 一种含格式的html富文本数据的跨标签处理方法及系统
CN103870606B (zh) * 2014-04-08 2017-05-10 上海语天信息技术有限公司 一种网页信息提取系统及提取方法
CN103984770B (zh) * 2014-06-03 2017-02-22 袁运来 一种划分网页语义模块的方法
CN107203527B (zh) * 2016-03-16 2019-06-28 北大方正集团有限公司 新闻网页的正文抽取方法和系统
CN106503211B (zh) * 2016-11-03 2019-12-17 福州大学 面向信息发布类网站的移动版自动生成的方法
CN106960057A (zh) * 2017-04-05 2017-07-18 上海威固信息技术有限公司 一种基于信息密度提取网页正文的方法
CN107153716B (zh) * 2017-06-06 2021-01-01 百度在线网络技术(北京)有限公司 网页内容提取方法和装置
CN107943929B (zh) * 2017-11-22 2021-09-28 福州大学 基于dom树抽象的包装器自动生成方法
CN108897749A (zh) * 2018-04-19 2018-11-27 中国科学院计算技术研究所 基于语法树和文本块密度的网页信息抽取方法及系统
CN111104624B (zh) * 2018-10-25 2023-08-22 富士通株式会社 内容提取方法和设备以及存储介质
CN110381118B (zh) * 2019-06-19 2022-03-04 平安普惠企业管理有限公司 页面数据传输的控制方法和相关设备
CN110390037B (zh) * 2019-07-25 2021-12-03 中南民族大学 基于dom树的信息分类方法、装置、设备及存储介质
CN111625748B (zh) * 2020-06-01 2024-01-09 深圳市小满科技有限公司 网站的导航栏信息提取方法、装置、电子设备及存储介质
CN111625749B (zh) * 2020-06-01 2023-08-11 深圳市小满科技有限公司 参会公司网站详情页信息提取方法、装置、设备及介质
CN111723318B (zh) * 2020-06-09 2023-09-01 百度在线网络技术(北京)有限公司 页面数据处理方法、装置、设备和存储介质
CN112667874A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 网页的数据抽取方法、装置、电子设备及存储介质
CN112732994B (zh) * 2021-01-07 2022-01-28 上海携宁计算机科技股份有限公司 网页信息的提取方法、装置、设备及存储介质
CN112559929B (zh) * 2021-02-25 2021-05-07 中航信移动科技有限公司 提取网页页面目标信息的方法、电子设备和介质
CN113807050B (zh) * 2021-07-01 2024-04-09 西安华讯科技有限责任公司 一种基于富文本的节点截取方法、系统、设备和存储介质
CN113934914B (zh) * 2021-12-20 2022-03-01 成都橙视传媒科技股份公司 一种针对新闻媒体批量加密数据的采集方法
CN115658993B (zh) * 2022-09-27 2023-06-06 观澜网络(杭州)有限公司 一种网页的核心内容的智能化抽取方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565605B2 (en) * 2001-05-08 2009-07-21 Nokia, Inc. Reorganizing content of an electronic document

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法

Also Published As

Publication number Publication date
CN102184189A (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
CN102184189B (zh) 基于dom节点文本密度的网页核心块确定方法
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及系统
CN103544176B (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN103577466B (zh) 一种在浏览器中显示网页内容的方法和装置
CN104598577B (zh) 一种网页正文的提取方法
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
CN103853760A (zh) 一种网页正文内容提取方法和装置
CN103544210A (zh) 一种识别网页类型的系统和方法
CN103064845B (zh) 网页信息处理装置和网页信息处理方法
CN101727461A (zh) 一种网页的正文抽取方法
CN101872350A (zh) 网页正文抽取方法和装置
CN103246732A (zh) 一种在线Web新闻内容的抽取方法及系统
CN103810251A (zh) 一种文本提取方法及装置
WO2023155303A1 (zh) 网页数据的提取方法和装置、计算机设备、存储介质
CN107463571A (zh) 网页消重方法
CN102117289A (zh) 一种从网页中抽取评论内容的方法和装置
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN114398138B (zh) 界面生成方法、装置、计算机设备和存储介质
CN106528509B (zh) 网页信息提取方法及装置
CN117312711A (zh) 一种基于ai分析的搜索引擎优化方法及系统
CN104572787B (zh) 伪原创网站的识别方法及装置
CN102236713A (zh) 一种数字电视交互服务页面的信息提取方法及其装置
CN108694192B (zh) 网页类型的判断方法及装置
CN115391711B (zh) 网页正文信息提取方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121128

Termination date: 20140418