CN101094194A - 一种提取Web页面中用户所需Web信息的方法 - Google Patents

一种提取Web页面中用户所需Web信息的方法 Download PDF

Info

Publication number
CN101094194A
CN101094194A CNA2006100864273A CN200610086427A CN101094194A CN 101094194 A CN101094194 A CN 101094194A CN A2006100864273 A CNA2006100864273 A CN A2006100864273A CN 200610086427 A CN200610086427 A CN 200610086427A CN 101094194 A CN101094194 A CN 101094194A
Authority
CN
China
Prior art keywords
information
html
web
tag
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100864273A
Other languages
English (en)
Other versions
CN101094194B (zh
Inventor
程凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2006100864273A priority Critical patent/CN101094194B/zh
Priority to PCT/CN2007/070096 priority patent/WO2008000172A1/zh
Publication of CN101094194A publication Critical patent/CN101094194A/zh
Priority to US12/338,484 priority patent/US8196037B2/en
Application granted granted Critical
Publication of CN101094194B publication Critical patent/CN101094194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种提取Web页面中用户所需Web信息的方法,包括:按照Web页面对应的HTML文本顺序,选取若干个HTML标签作为标签尺元素生成标签尺,存储到系统中;系统按照所述标签尺中的HTML标签元素按序匹配所述HTML文本,根据匹配出的HTML标签分割Web信息,并存储分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息;用户根据所需Web信息确定包含该Web信息的HTML标签在HTML文本中的位置,并通知系统;系统查找并提取存储的分割后的对应Web信息块。采用本发明能灵活高效地获取Web页面中用户所需Web信息。

Description

一种提取Web页面中用户所需Web信息的方法
技术领域
本发明涉及互连网,尤其涉及一种提取Web页面中用户所需Web信息的方法。
背景技术
超文本标示语言(Hypertext Markup Language,HTML)是目前WWW上应用的文本标记语言。HTML通过一系列标记使Web浏览器能结构化显示Web页面。
例如,以下一段HTML文本信息,在IE浏览器中显示的效果如图1所示。
<TR bgColor=″#f2f8ff″><TD noWrap><a href=″/search.aspx?q=学习&p=Seed&b=0″>学习</a></TD><TD><Ahref=″http://www.cnplayer.com/upload/2006/2/13/200621323483592551238218.torrent″target=_blank>CPA2005学习资料-会计 经济法 税法ISO经典资料</A></TD><TD noWrap><a href=″http://bbs.fkee.com/″target=_blank>相关讨论</a></TD><TD><A href=″http://www.cnplayer.com/bt/study/210591.htm″target=_blank>查看</A></TD><TD align=″center″><b><font color=red>147</font></b></TD><TD align=″center″><b><font color=red>734</font></b></TD><TD align=″center″><font color=red>1354M</font></TD>
在上述HTML文本中,<TR></TR>,<TD></TD>,<A></A>等符号,称为HTML标签。另外,这段HTML文本的特征是,<TR></TR>标签之间的信息,标示了图1表中的第二行;每一个<TD></TD>之间的信息标示了图1表中的一个字段(Field);图1中每一个字段显示的信息都被一个“><”包含。
这些特征是上面的HTML文本呈现的特征,同时它也是多数以Table形式显示的Web页面的特征,具有普遍性。在一些页面中,可能标签出现差异,但是都符合这个基本规律。
综上所述,HTML文本具备以下基本特征:
1、HTML文本用标签标示其显示的形式;
2、HTML文本在用标签标示Web信息时必须按照一定的语法规则;
3、Table形式显示的Web页面,每一个<TR></TR>之间包含的信息用于显示表的一行;
4、Table形式显示的Web页面,每一个<TD></TD>之间的信息用于显示表中一行内容的一个字段;
5、Table形式显示的Web页面,字段中显示的内容必然用一个“><”包含;
6、HTML标签大小写不敏感。
Web浏览器解析HTML标记,并根据标记指定的格式显示Web信息。HTML标签是一个字符集的超级,即一个关键字的集合,浏览器的不同版本支持不同版本的HTML。浏览器在解析HTML文本时,首要需要对HTML文本做语法解析,同时需要执行HTML中的动态内容,最后将格式化的Web信息显示给用户。
Web浏览器具有如下特点:
1、支持采用HTML书写的静态页面;
2、支持其他一些动态脚本语言,如JavaScript,动态HTML(DHTML)等;
3、支持Web的Post和Get方法;
4、支持动态Web技术,如ASP、JSP、JaveBeans等等;
5、对于HTML文本仅仅做语法解析,不做任何语义分析;
6、仅仅是一个Web页面的显示工具,不对Web信息提供任何分类和聚合操作。
实际应用中,用户可能需要提取Web页面中感兴趣的Web信息进行分类、聚合,现有技术中一种最常规的方法就是分析Web文件的内容,根据内容中的关键字分析其信息。常用的方法有关键字完全匹配法,关键词模糊匹配法,内容正则表达式法。
其中,关键字匹配法的基本思想是将需要匹配的关键字作为查询字符串,待处理的Web文件作为源字符串,使用字符串匹配的算法,对源Web文本进行分析。这种方法比较适合少量信息提取,但是对于海量的数据处理,该算法的时间复杂度高,可扩展性差。
关键字模糊匹配是对关键字匹配法的一种改进,该算法在时间复杂度上没有改进,仅仅算法的扩展性有一点改观。
内容正则式对于形形色色的Web信息并不能表现其优势。
以上三种方法一个共同的特点是针对Web信息的内容做解析,提取Web信息。都存在算法的时间复杂度高、扩展性差的问题。
发明内容
本发明提供一种提取Web页面中用户所需Web信息的方法,用以解决现有技术中由于采用针对Web信息的内容做解析来提取所需Web信息,存在时间复杂度高、扩展性差的问题。
本发明方法包括:
A、按照Web页面对应的HTML文本顺序,选取若干个HTML标签作为标签尺元素生成标签尺,存储到系统中;
B、系统按照所述标签尺中的HTML标签元素按序匹配所述HTML文本,根据匹配出的HTML标签分割Web信息,并存储分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息;
C、用户根据所需Web信息确定包含该Web信息的HTML标签在HTML文本中的位置,并通知系统;系统查找并提取存储的分割后的对应Web信息块。
根据本发明的上述方法,所述标签尺所包含的标签元素为采用Table形式显示的Web页面中用于显示出表的一行的一对<TR></TR>之间所包含的全部HTML标签。
根据本发明的上述方法,所述步骤B包括:
系统按照所述标签尺包含的标签元素按序匹配HTML文本中对应标签;若匹配成功,继续匹配下一个标签,直到所述标签尺的标签元素全部匹配成功;在匹配过程中,根据匹配出的HTML标签分割Web信息;一并存储分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息;
若标签匹配失败,则将该匹配失败的HTML标签所在文本处作为断点,从该断点处重新开始按照所述标签尺包含的标签元素按序进行下一轮匹配。
根据本发明的上述方法,判断HTML标签是否匹配成功的具体方法为:
获取所述标签尺中的第N个标签元素,N为标签尺所包含的标签元素序号,在HTML文本中查找相同的HTML标签,若找到,将该第N个HTML标签在文本中的位置记为第N位置;
在所述第N位置之后的HTML文本中查找所述标签尺中的第N+1个标签,若找到,将该第N+1个HTML标签在文本中的位置记为第N+1位置;如果所述第N位置和第N+1位置之间的信息不合有所述标签尺中的任何标签元素,则判断第N+1个HTML标签匹配成功。
根据本发明的上述方法,采用堆栈方式存储所述分割后的Web信息块和包含该信息块的HTML标签在HTML文本中的位置信息;
若在本轮匹配过程中出现标签匹配失败,则弹出存入所述堆栈中的全部信息,以便存储下一轮匹配过程中分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息。
根据本发明的上述方法,定义所述标签尺为包含若干个所述标签元素的标签列表向量。
根据本发明的上述方法,所述系统将HTML标签分割后的每一个Web信息块格式化为一个对应的字段信息对象。
根据本发明的上述方法,用户根据所需Web信息设定一个信息提取矩阵,在该信息提取矩阵中指明包含所需Web信息的HTML标签在HTML文本中的位置;
所述系统根据用户设定的信息提取矩阵,利用向量乘法规则,从格式化后的所述字段信息对象中提取用户所需Web信息。
所述信息提取矩阵包含三列;
一列数据用以指明需要提取的Web信息位于一个Table行的第几个字段中;
另一列数字对应指明包含所述Web信息的HTML标签为HTML文本中对应<TD></TD>中的第几个信息域标签;
再一列数字用以指明提取出的每一个Web信息字段在数据库中的存储位置。
本发明有益效果如下:
本发明在Web页面对应的HTML文本中按序选取若干个HTML标签作为标签尺元素生成标签尺,存储到系统中;由系统按照标签尺中的HTML标签元素按序匹配HTML文本,采用匹配出的HTML标签分割Web信息,并存储分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息;由用户根据所需Web信息确定包含该Web信息字符串的HTML标签在HTML文本中的位置,并通知系统;系统查找并提取存储的分割后的对应Web信息块。因此,本发明使用HTML标签生成标签尺,并采用标签尺来分割HTML文本,使信息分割更加准确高效。
采用本发明,用户可以根据所需Web信息设定一个信息提取矩阵,在该信息提取矩阵中指明包含所需Web信息的HTML标签在HTML文本中的位置;系统根据用户设定的信息提取矩阵,利用向量乘法规则,从格式化后的Web信息对象中提取用户所需Web信息,使信息提取算法更加灵活,高效。
附图说明
图1采用HTML书写的8个字段的Table在IE中显示的视图;
图2为本发明方法流程图。
具体实施方式
本发明提出一种基于HTML语法标准的信息提取方法,将网页信息分割和信息提取算法与具体的信息内容耦合,使信息分割和提取算法更加通用灵活。
本发明提供的在Web页面中提取用户所需Web信息的方法,如图2所示,包括:
步骤S11、按照Web页面对应的HTML文本顺序,选取若干个HTML标签作为标签尺元素生成标签尺,存储到系统中;
步骤S12、系统按照标签尺中的HTML标签元素按序匹配HTML文本,根据匹配出的HTML标签分割Web信息,并存储分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息;
步骤S13、由用户根据所需Web信息确定包含该Web信息的HTML标签在HTML文本中的位置,并通知系统;系统查找并提取存储的分割后的对应Web信息块。
本发明对于以Table方式呈现的网页结构尤其适用,本发明通过改变标签尺中所包含的标签元素来灵活调整Web信息分割的尺度和标准,高效快速地提取网页中的相关信息。
本发明在Web信息分类和聚合中,对基于HTML标签标识的Web信息进行规格化,通过用户设定的信息提取矩阵,利用向量乘法的规则,提取网页中有用的信息。
下面用具体实施例对本发明方法加以详细描述。
基于HTML标签和向量计算的Web信息提取方法为:
将Web页面对应的HTML文本以及用户指定的标签尺和信息提取矩阵作为输入,提取出Web页面中感兴趣的信息。
例如:以上述背景技术中给出的HTML文本作为信息源,标签尺定义为:
<TR|<TD|</TD>|<TD|</TD>|<TD|</TD>|<TD|</TD>|<TD|</TD>|<TD|</TD>|<TD|</TD>|<TD|</TD>|/TR>|;
标签尺以“|”分割,包括“<”。
将标签尺作为分割HTML文本的HTML标签向量,在算法中可描述为:
vector<string>FLAGLIST
FLAGLIST中存储的内容根据实际的Web信息格式设定。在上述例子中,可以定义标签尺如下:
FLAGLIST fl,fl实例化以后为:
fl[0]=“<TR”;
fl[1]=“<TD”;
fl[2]=“</TD>”;
......
fl[17]=“/TR>”。
根据标签尺生成标签集合:
set<string>FLAGSET
标签集合用于在按照标签尺对HTML文本进行匹配时,判断某一个HTML标签的匹配是否为有效匹配。
在上例中,可以定义标签集合如下:
FLAGSET fs,fs实例化以后为:
fs[0]=“<TR”;
fs[1]=“<TD”;
fs[2]=“</TD>”;
fs[3]=“/TR>”。
该FLAGSET共含有四个元素。
下面具体描述如何根据设定的标签尺来分割Web信息。
系统按照标签尺包含的标签元素按序匹配HTML文本中对应标签;若匹配成功,继续匹配下一个标签,直到标签尺的标签元素全部匹配成功;在匹配过程中,采用匹配出的HTML标签分割Web信息;并存储分割后的Web信息块和包含该信息块的对应HTML标签在文本中的位置信息;
若标签匹配失败,则将该匹配失败的HTML标签所在文本处作为断点,从该断点处重新开始按照标签尺包含的标签元素按序进行下一轮匹配。
以采用堆栈方式存储分割后的Web信息块和包含该信息块的HTML标签在HTML文本中的位置信息为例,具体匹配存储过程为:
起始,在HTML文本中查找FLAGLIST中的第一个标签元素,如果找到,则将该标签以及该标签在HTML文本中出现的位置(记其位置为pos1)压入堆栈,然后在pos1之后的HTML文本中查找标签尺中的第二个标签,如果找到(记其位置为pos2),判断pos1和pos2之间的信息是否含有标签尺中的任何标签元素,如果pos1和pos2之间的信息不包含标签尺中的任何标签元素,则认为第二个标签匹配成功;按照上述方法,继续进行FLAGLIST中第三个标签元素、第四个标签元素直到最后一个标签元素的匹配。
上述判断HTML标签是否匹配成功的方法,可以概括为:
获取标签尺中的第N个标签元素(N为标签尺所包含的标签元素的序号),在HTML文本中查找相同的HTML标签,若找到,将该第N个HTML标签在文本中的位置记为第N位置;在第N位置之后的HTML文本中查找所述标签尺中的第N+1个标签,若找到,将该第N+1个HTML标签在文本中的位置记为第N+1位置;如果第N位置和第N+1位置之间的所有标签在标签集合中不存在,则判断第N+1个HTML标签匹配成功。否则判断为匹配失败。
若在匹配过程中出现匹配失败;则将堆栈内存储的全部信息弹(pop)出来,下一轮标签尺匹配从该匹配失败的HTML标签所在位置处开始,重新按照标签尺中的标签元素顺序进行匹配。即下一次信息分割将从FLAGLIST的第一个标签元素开始。
当堆栈内存储的信息个数为FLAGLIST的长度时,认为完成了一次信息分割,依次pop出堆栈中的全部信息保存到预先设置的数据库中。
通过以上步骤,获得了分割后的每个Web信息块。
可以将每一小块Web信息格式化为一个对应的字段信息(FieldsInfo)对象。
用户根据所需Web信息设定一个信息提取矩阵,在该信息提取矩阵中指明包含所需Web信息的HTML标签在HTML文本中的位置;
系统根据用户设定的信息提取矩阵,利用向量乘法规则,从格式化后的字段信息对象中提取用户所需Web信息。
仍以上述HTML文本及设定的标签尺为例,假设格式化后的FieldInfo对象定义为fi,其元素分别为:
fi[0]={“/search.aspx?q=学习&p=Seed&b=0”,“学习”};
fi[1]={“http://www.cnplayer.com/upload/2006/2/13/200621323483592551238218.torrent”,“CPA2005学习资料-会计经济法税法ISO经典资料”};
fi[2]={“http://bbs.fkee.com/”,“相关讨论”};
fi[3]={“http://www.cnplayer.com/bt/study/210591.htm”,“查看”};
fi[4]={“147”};
fi[5]={“734”};
fi[6]={“1354M”};
fi[7]={“2006-2-13 23:48”}。
假设用户设定的信息提取矩阵如下:
2    2    1
1    2    2
7    2    3
2    1    4
2    1    5
2    2    6
上述信息提取矩阵包含三列;其中从左到右第一列数据用以指明需要提取的Web信息位于一个Table行的第几个字段。上述信息提取矩阵第一列从上到下的数字分别为:2,1,7,2,2,2;表示用户需要按序提出一个Table行中的第2个字段,第1个字段,第7个字段,第2个字段,第2个字段,第2个字段中的信息。
上述信息提取矩阵从左到右第二列数字对应指明包含对应Web信息的HTML标签为HTML文本中对应<TD></TD>中的第几个信息域标签。上述信息提取矩阵第二列从上到下的数字分别为:2,2,2,1,1,2;结合信息提取矩阵中的第1列数字所表达的含义,进一步确定需要提取的Web信息的具体位置,分别为:
提取HTML文本中描述第2字段的对应<TD></TD>中第2个“><”包含的Web信息;以上述HTML文本为例,具体信息为:“CPA2005学习资料-会计经济法税法ISO经典资料”;
提取HTML文本中描述第1字段的对应<TD></TD>中第2个“><”包含的Web信息;以上述HTML文本为例,具体信息为:“学习”;
提取HTML文本中描述第7字段的对应<TD></TD>中第2个“><”包含的Web信息;以上述HTML文本为例,具体信息为:“1354M”;
提取HTML文本中描述第2字段的对应<TD></TD>中第1个“><”包含的Web信息;以上述HTML文本为例具体信息为:“http://www.cnplayer.com/upload/2006/2/13/200621323483592551238218.torrent”;
提取HTML文本中描述第2字段的对应<TD></TD>中第1个“><”包含的Web信息;以上述HTML文本为例具体信息为:“http://www.cnplayer.com/upload/2006/2/13/200621323483592551238218.torrent”;
提取HTML文本中描述第2字段的对应<TD></TD>中第2个“><”包含的Web信息;以上述HTML文本为例,具体信息为:“CPA2005学习资料-会计经济法税法ISO经典资料”。
上述信息提取矩阵从左到右第三列指明提取后的Web信息在数据库中的存储顺序,上述信息提取矩阵第三列从上到下的数字分别为:1,2,3,4,5,6;表示将提取的对应Web信息按序存储,形成数据库中的一条记录。
如果采取向量计算,则上述信息提取矩阵可定义为typedefvector<vector<int>>KeyWordMapInfo。例如:定义上述例子中的信息提取矩阵为KeyWordMapInfo keymap,其中的各个元素对应为:
keymap[0][0]=2;keymap[0][1]=2;keymap[0][2]=1;
keymap[1][0]=1;keymap[1][1]=2;keymap[1][2]=2;
keymap[2][0]=7;keymap[2][1]=2;keymap[2][2]=3;
keymap[3][0]=2;keymap[3][1]=1;keymap[3][2]=4;
keymap[4][0]=2;keymap[4][1]=1;keymap[4][2]=5;
keymap[5][0]=2;keymap[5][1]=2;keymap[5][2]=6。
将提取后的信息定义为一个字符串(string)向量,为:typedefvector<string>VECRESULT;定义vr是实际的结果向量对象,则通过向量计算以后的vr的各个元素为:
vr[0]=“CPA2005学习资料-会计经济法税法ISO经典资料”;
vr[1]=“学习”;
vr[2]=“1354M”;
vr[3]=“http://www.cnplayer.com/upload/2006/2/13/200621323483592551238218.torrent”;
vr[4]=“http://www.cnplayer.com/upload/2006/2/13/200621323483592551238218.torrent”;
vr[5]=“CPA2005学习资料-会计经济法税法ISO经典资料”。
综上所述,本发明在Web页面对应的HTML文本中按序选取若干个HTML标签作为标签尺元素生成标签尺,存储到系统中;由系统按照标签尺中的HTML标签元素按序匹配HTML文本,根据匹配出的HTML标签分割Web信息,并存储分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息;由用户根据所需Web信息确定包含该Web信息的HTML标签在HTML文本中的位置,并通知系统;系统查找并提取存储的分割后的对应Web信息块。因此,本发明使用HTML标签生成标签尺,用标签尺来分割HTML文本,使信息分割更加准确高效。
采用本发明,用户可以根据所需Web信息设定一个信息提取矩阵,在该信息提取矩阵中指明包含所需Web信息字符串的HTML标签在HTML文本中的位置;系统根据用户设定的信息提取矩阵,利用向量乘法规则,从格式化后的Web信息对象中提取用户所需Web信息,使信息提取算法更加灵活,高效。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1、一种提取Web页面中用户所需Web信息的方法,其特征在于包括:
A、按照Web页面对应的HTML文本顺序,选取若干个HTML标签作为标签尺元素生成标签尺,存储到系统中;
B、系统按照所述标签尺中的HTML标签元素按序匹配所述HTML文本,根据匹配出的HTML标签分割Web信息,并存储分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息;
C、用户根据所需Web信息确定包含该Web信息的HTML标签在HTML文本中的位置,并通知系统;系统查找并提取存储的分割后的对应Web信息块。
2、如权利要求1所述的方法,其特征在于,所述标签尺所包含的标签元素为采用Table形式显示的Web页面中用于显示出表的一行的一对<TR></TR>之间所包含的全部HTML标签。
3、如权利要求2所述的方法,其特征在于,所述步骤B包括:
系统按照所述标签尺包含的标签元素按序匹配HTML文本中对应标签;若匹配成功,继续匹配下一个标签,直到所述标签尺的标签元素全部匹配成功;在匹配过程中,根据匹配出的HTML标签分割Web信息;一并存储分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息;
若标签匹配失败,则将该匹配失败的HTML标签所在文本处作为断点,从该断点处重新开始按照所述标签尺包含的标签元素按序进行下一轮匹配。
4、如权利要求3所述的方法,其特征在于,判断HTML标签是否匹配成功的具体方法为:
获取所述标签尺中的第N个标签元素,N为标签尺所包含的标签元素序号,在HTML文本中查找相同的HTML标签,若找到,将该第N个HTML标签在文本中的位置记为第N位置;
在所述第N位置之后的HTML文本中查找所述标签尺中的第N+1个标签,若找到,将该第N+1个HTML标签在文本中的位置记为第N+1位置;如果所述第N位置和第N+1位置之间的信息不含有所述标签尺中的任何标签元素,则判断第N+1个HTML标签匹配成功。
5、如权利要求4所述的方法,其特征在于,采用堆栈方式存储所述分割后的Web信息块和包含该信息块的HTML标签在HTML文本中的位置信息;
若在本轮匹配过程中出现标签匹配失败,则弹出存入所述堆栈中的全部信息,以便存储下一轮匹配过程中分割后的Web信息块和包含该信息块的HTML标签在文本中的位置信息。
6、如权利要求2-5任意权项所述的方法,其特征在于,定义所述标签尺为包含若干个所述标签元素的标签列表向量。
7、如权利要求6所述的方法,其特征在于,所述系统将HTML标签分割后的每一个Web信息块格式化为一个对应的字段信息对象。
8、如权利要求7所述的方法,其特征在于,用户根据所需Web信息设定一个信息提取矩阵,在该信息提取矩阵中指明包含所需Web信息的HTML标签在HTML文本中的位置;
所述系统根据用户设定的信息提取矩阵,利用向量乘法规则,从格式化后的所述字段信息对象中提取用户所需Web信息。
9、如权利要求8所述的方法,其特征在于,所述信息提取矩阵包含三列;
一列数据用以指明需要提取的Web信息位于一个Table行的第几个字段中;
另一列数字对应指明包含所述Web信息的HTML标签为HTML文本中对应<TD></TD>中的第几个信息域标签;
再一列数字用以指明提取出的每一个Web信息字段在数据库中的存储位置。
CN2006100864273A 2006-06-19 2006-06-19 一种提取Web页面中用户所需Web信息的方法 Active CN101094194B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2006100864273A CN101094194B (zh) 2006-06-19 2006-06-19 一种提取Web页面中用户所需Web信息的方法
PCT/CN2007/070096 WO2008000172A1 (fr) 2006-06-19 2007-06-11 Procédé et dispositif pour l'extraction d'informations web
US12/338,484 US8196037B2 (en) 2006-06-19 2008-12-18 Method and device for extracting web information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006100864273A CN101094194B (zh) 2006-06-19 2006-06-19 一种提取Web页面中用户所需Web信息的方法

Publications (2)

Publication Number Publication Date
CN101094194A true CN101094194A (zh) 2007-12-26
CN101094194B CN101094194B (zh) 2010-06-23

Family

ID=38845127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006100864273A Active CN101094194B (zh) 2006-06-19 2006-06-19 一种提取Web页面中用户所需Web信息的方法

Country Status (3)

Country Link
US (1) US8196037B2 (zh)
CN (1) CN101094194B (zh)
WO (1) WO2008000172A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270206A (zh) * 2010-06-03 2011-12-07 北京迅捷英翔网络科技有限公司 一种有效网页内容的抓取方法及装置
CN101576885B (zh) * 2008-05-08 2012-02-22 韩露 提取动态生成网页内容的技术方案
CN102651019A (zh) * 2012-03-30 2012-08-29 奇智软件(北京)有限公司 一种标记文件解析方法和装置
CN101488123B (zh) * 2008-01-16 2013-02-13 鸿富锦精密工业(深圳)有限公司 文本解析系统及方法
CN103310014A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种提高检索结果准确率的方法
CN108629043A (zh) * 2018-05-14 2018-10-09 平安科技(深圳)有限公司 网页目标信息的提取方法、装置及存储介质
CN109359221A (zh) * 2018-10-29 2019-02-19 广东电网有限责任公司 移动式作业表单生成方法、装置、设备、存储介质
CN111274515A (zh) * 2020-03-24 2020-06-12 湘潭大学 基于html标签匹配的网页数据提取方法
CN112800078A (zh) * 2021-02-04 2021-05-14 北京明略软件系统有限公司 基于javascript的轻量级文本标注方法、系统、设备及存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9213776B1 (en) 2009-07-17 2015-12-15 Open Invention Network, Llc Method and system for searching network resources to locate content
US9645996B1 (en) * 2010-03-25 2017-05-09 Open Invention Network Llc Method and device for automatically generating a tag from a conversation in a social networking website
US9275023B2 (en) 2010-08-20 2016-03-01 Usablenet Inc. Methods for further adapting XSL to HTML document transformations and devices thereof
CN102831121B (zh) 2011-06-15 2015-07-08 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
EP3220284A4 (en) * 2014-11-14 2017-09-20 Fujitsu Limited Data acquisition program, data acquisition method and data acquisition device
CN105022803B (zh) * 2015-07-01 2018-05-15 广州市万隆证券咨询顾问有限公司 一种提取网页正文内容的方法及系统
WO2018053620A1 (en) * 2016-09-23 2018-03-29 Hvr Technologies Inc. Digital communications platform for webpage overlay
US12032651B2 (en) * 2022-04-01 2024-07-09 Wipro Limited Method and system for extracting information from input document comprising multi-format information
CN116306526B (zh) * 2023-03-10 2024-01-02 北京麦克斯泰科技有限公司 一种根据文本下标标记对应富文本的方法及装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2241836A1 (en) * 1998-06-29 1999-12-29 Object Technology International Inc. Natural language transformations for propagating hypertext label changes
JP3715444B2 (ja) * 1998-06-30 2005-11-09 株式会社東芝 構造化文書保存方法及び構造化文書保存装置
US6732102B1 (en) * 1999-11-18 2004-05-04 Instaknow.Com Inc. Automated data extraction and reformatting
EP1109117A1 (en) * 1999-12-14 2001-06-20 Sun Microsystems, Inc. Method for converting table data between a database representation and a representation in tag language
US7240067B2 (en) * 2000-02-08 2007-07-03 Sybase, Inc. System and methodology for extraction and aggregation of data from dynamic content
US7689906B2 (en) * 2000-04-06 2010-03-30 Avaya, Inc. Technique for extracting data from structured documents
US6920609B1 (en) * 2000-08-24 2005-07-19 Yahoo! Inc. Systems and methods for identifying and extracting data from HTML pages
US6662190B2 (en) * 2001-03-20 2003-12-09 Ispheres Corporation Learning automatic data extraction system
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US6912555B2 (en) * 2002-01-18 2005-06-28 Hewlett-Packard Development Company, L.P. Method for content mining of semi-structured documents
JP4226261B2 (ja) * 2002-04-12 2009-02-18 三菱電機株式会社 構造化文書種別判定システム及び構造化文書種別判定方法
EP1686499B1 (en) * 2002-06-28 2010-06-30 Nippon Telegraph and Telephone Corporation Selection and extraction of information from structured documents
JP2004062446A (ja) * 2002-07-26 2004-02-26 Ibm Japan Ltd 情報収集システム、アプリケーションサーバ、情報収集方法、およびプログラム
US7203901B2 (en) * 2002-11-27 2007-04-10 Microsoft Corporation Small form factor web browsing
US20040158799A1 (en) * 2003-02-07 2004-08-12 Breuel Thomas M. Information extraction from html documents by structural matching
CN1567303A (zh) * 2003-07-03 2005-01-19 富士通株式会社 结构文档信息块的自动分割方法和装置
CN1691009A (zh) * 2004-04-22 2005-11-02 西安大唐电信有限公司 计算机语言标识信息的方法
JP2006065467A (ja) * 2004-08-25 2006-03-09 Hitachi Ltd データ抽出定義情報生成装置およびデータ抽出定義情報生成方法
US7590647B2 (en) * 2005-05-27 2009-09-15 Rage Frameworks, Inc Method for extracting, interpreting and standardizing tabular data from unstructured documents
US7831545B1 (en) * 2005-05-31 2010-11-09 Google Inc. Identifying the unifying subject of a set of facts
US7669119B1 (en) * 2005-07-20 2010-02-23 Alexa Internet Correlation-based information extraction from markup language documents

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488123B (zh) * 2008-01-16 2013-02-13 鸿富锦精密工业(深圳)有限公司 文本解析系统及方法
CN101576885B (zh) * 2008-05-08 2012-02-22 韩露 提取动态生成网页内容的技术方案
CN102270206A (zh) * 2010-06-03 2011-12-07 北京迅捷英翔网络科技有限公司 一种有效网页内容的抓取方法及装置
CN102651019A (zh) * 2012-03-30 2012-08-29 奇智软件(北京)有限公司 一种标记文件解析方法和装置
CN102651019B (zh) * 2012-03-30 2013-12-04 北京奇虎科技有限公司 一种标记文件解析方法和装置
CN103310014A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种提高检索结果准确率的方法
CN103310014B (zh) * 2013-07-02 2016-06-29 北京航空航天大学 一种提高检索结果准确率的方法
CN108629043A (zh) * 2018-05-14 2018-10-09 平安科技(深圳)有限公司 网页目标信息的提取方法、装置及存储介质
CN109359221A (zh) * 2018-10-29 2019-02-19 广东电网有限责任公司 移动式作业表单生成方法、装置、设备、存储介质
CN111274515A (zh) * 2020-03-24 2020-06-12 湘潭大学 基于html标签匹配的网页数据提取方法
CN112800078A (zh) * 2021-02-04 2021-05-14 北京明略软件系统有限公司 基于javascript的轻量级文本标注方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN101094194B (zh) 2010-06-23
US20090100056A1 (en) 2009-04-16
WO2008000172A1 (fr) 2008-01-03
US8196037B2 (en) 2012-06-05

Similar Documents

Publication Publication Date Title
CN101094194B (zh) 一种提取Web页面中用户所需Web信息的方法
CN101878476B (zh) 用于查询扩展的机器翻译
US6912555B2 (en) Method for content mining of semi-structured documents
US8321396B2 (en) Automatically extracting by-line information
US8667004B2 (en) Providing suggestions during formation of a search query
CN111209728B (zh) 一种试题自动标注录入方法
CN103678362A (zh) 搜索方法及系统
CN103166981A (zh) 一种无线网页转码方法及装置
CN102662969A (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN114328951B (zh) 一种融合信息获取和三元组抽取的知识图谱构建方法
CN102937949A (zh) 一种在富文本编辑器内实现英文拼写检查的方法及系统
US20100198770A1 (en) Identifying previously annotated web page information
CN103376990B (zh) 一种网页操作的语音控制方法和系统
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN112541109B (zh) 答案摘要抽取方法及装置、电子设备、可读介质、产品
CN109684395A (zh) 一种基于自然语言处理的可视化数据接口通用解析方法
CN117421413A (zh) 一种问答对生成方法、装置及电子设备
US20090327210A1 (en) Advanced book page classification engine and index page extraction
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
CN101159100A (zh) 一种电子阅读学习方法及其系统
CN112241463A (zh) 一种基于融合文本语义与图片信息的搜索方法
CN116522904A (zh) 文本纠错方法及装置、存储介质及电子设备
CN117592446A (zh) 表格构建方法和装置、计算机设备及存储介质
CN113360152A (zh) 一种参数化数据查询网页显示程序实现方法和系统
KR101158331B1 (ko) 띄어쓰기 일관성 검사 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131021

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20131021

Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 2, 518044, East 410 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.