CN102768663A - 一种网页标题的提取方法、装置及信息处理系统 - Google Patents

一种网页标题的提取方法、装置及信息处理系统 Download PDF

Info

Publication number
CN102768663A
CN102768663A CN2011101153123A CN201110115312A CN102768663A CN 102768663 A CN102768663 A CN 102768663A CN 2011101153123 A CN2011101153123 A CN 2011101153123A CN 201110115312 A CN201110115312 A CN 201110115312A CN 102768663 A CN102768663 A CN 102768663A
Authority
CN
China
Prior art keywords
text block
web page
label
source file
unique point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101153123A
Other languages
English (en)
Inventor
杨巍
张立明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2011101153123A priority Critical patent/CN102768663A/zh
Publication of CN102768663A publication Critical patent/CN102768663A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明适用于信息处理领域,提供了一种网页标题的提取方法、装置及信息处理系统,所述方法包括下述步骤:提取网页源文件中标题标签和辅助性标签中的文字;提取所述网页源文件中每个文本块的特征点;根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值;将概率值最大的文本块提取为网页标题。本发明能够有效的过滤掉网页设计者在标题标签或者辅助性标签中堆砌的与网页内容无关的文字,将最能描述网页主题内容或者中心思想的文字作为网页标题提取出来,提高网页搜索的准确率和召回率。

Description

一种网页标题的提取方法、装置及信息处理系统
技术领域
本发明属于信息处理领域,尤其涉及一种网页标题的提取方法、装置及信息处理系统。
背景技术
所谓网页标题,是指表示网页正文主题内容或者中心思想的一句话。随着网络技术的发展,网页标题的提取被应用的越来越广泛,例如:网页预览、网页指纹计算等网页搜索中都需要用到网页标题的提取技术。
现有的网页标题提取方法主要是通过直接提取网页源文件中标题(title)标签和辅助性(meta)标签中的文字作为网页的标题。然而,随着网页标题在网页搜索相关性计算中地位的提升,越来越多的网站设计者通过在title标签或者meta标签中添加一些与网页主题无关但是热门的关键字来提升网页被检索到的可能性,严重影响了网页搜索的准确率和召回率。
发明内容
本发明实施例提供一种网页标题的提取方法,旨在解决现有技术在进行网页标题的提取时,造成网页搜索的准确率和召回率较低的问题。
本发明实施例是这样实现的,一种网页标题的提取方法,所述方法包括以下步骤:
提取网页源文件中标题标签和辅助性标签中的文字;
提取所述网页源文件中每个文本块的特征点;
根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值;
将概率值最大的文本块提取为网页标题。
本发明实施例提供一种网页标题的提取装置,所述装置包括:
文字提取单元,用于提取网页源文件中标题标签和辅助性标签中的文字;
特征点提取单元,用于提取所述网页源文件中每个文本块的特征点;
概率计算单元,用于根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值;
结果输出单元,用于将概率值最大的文本块提取为网页标题。
本发明实施例提供一种信息处理系统,所述信息处理系统包括所述网页标题的提取装置。
在本发明实施例中,根据提取的网页源文件中文本块的特征点和标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值,并根据计算得到的概率值,将概率值最大的文本块作为网页标题提取出来,能够有效的过滤掉网页设计者在标题标签或者辅助性标签中堆砌的与网页内容无关的文字,将最能描述网页主题内容或者中心思想的文字作为网页标题提取出来,有效的提高网页搜索的准确率和召回率。
附图说明
图1是本发明实施例一提供的网页标题提取方法的实现流程图;
图2是本发明实施例二提供的文本块概率计算的具体实现流程图;
图3是本发明实施例三提供的网页标题提取方法的具体实例图;
图4是本发明实施例四提供的网页标题提取装置的架构图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过提取的网页源文件中文本块的特征点和标题标签和辅助性标签中的文字,对网页源文件中的各个文本块进行概率判断,将概率值最大的文本块作为网页标题提取出来,能够有效的过滤掉网页设计者在标题标签或者辅助性标签中堆砌的与网页内容无关的文字,将最能描述网页主题内容或者中心思想的文字作为网页标题提取出来,有效的提高网页搜索的准确率和召回率。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明实施例一提供的网页标题提取方法的实现流程,该方法过程详述如下:
在步骤S101中,提取网页源文件中标题标签和辅助性标签中的文字。
在本实施例中,通过文本解析器解析网页源文件中标题(title)标签和辅助性(meta)标签,提取标题标签和辅助性标签中的文字。例如:在所述网页源文件为HTML(HyperText Mark-up Language,超文本标记语言)源文件,通过HTML文本解析器把标题标签<title>经济中心</title>和meta标签<metaname=“keywords”content=“政治,经济,科技,文化”>中的文字“经济中心”和“政治经济科技文化”解析出来。
作为本发明的一个实施例,该方法还可以通过文档对象模型(DocumentObject Model,DOM)树来代替网页源文件,后续的分析过程都可依赖DOM树来实现。其中,DOM树是一种用于HTML和XML文档的编程接口。
在步骤S102中,提取所述网页源文件中每个文本块的特征点。
在本实施例中,对网页源文件中每个文本块,提取所述文本块的特征点,通过所述特征点判断所述文本块是否为网页标题。其中,所述特征点包括但不局限于标签特征、视觉特征、位置特征和内容特征中的至少一个,各特征点的具体描述如下:
1)标签特征
该标签特征指的是文本块的父节点的标签特征,不同的标签特征其文本块为网页标题的概率也会不同。例如:文本块的父节点是h标签(h1-h6)时,该文本块是网页标题的概率大于父节点是a标签的文本块。
2)视觉特征
网页源文件中的font tag标签描述了各文本块的显示属性,一般来说显示的突出程度(例如:大字体、彩色等)和内容的重要程度成正比,即突出显示的文本块是网页标题的概率大于普通显示的文本块。例如:三号字体的文本块是网页标题的概率大于四号字体的文本块,加粗(或者彩色)显示的文本块是网页标题的概率大于正常显示的文本块。
3)位置特征
位置特征指的是文本块在网页中所处的位置。一般来说出现在网页偏上方的文本块是网页标题的概率远大于出现在网页偏下方的文本块。当然,还可以辅助一些特征网页块的情况,例如:对出现在“二级导航块”的下方,“版权声明块”上方的文本块,其作为网页标题的概率较高。另外,如果可以得到网页分块以及网页块类型等信息,也可以作为网页标题提取中的“位置特征”来使用。
4)内容特征
内容特征是指文本块中的内容与网页正文内容以及提取的title和meta标签中文字的相关度。对与网页正文内容相关度较高,同时也与title和meta标签中提取的文字相关度较高的文本块,其作为网页标题的概率也较高。
在步骤S103中,根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值。
在步骤S104中,将概率值最大的文本块提取为网页标题。
在本实施例中,通过计算得到的网页源文件中每个文本块作为网页标题的概率值,输出的概率值最大的文本块,该文本块即为网页标题。
为了更好的提取网页标题,作为本发明的另一实施例,所述方法还包括以下步骤:
根据网页源文件中的标签,将所述网页源文件中连续的文本节点分割成多个独立的文本块。
在本实施例中,所述“根据网页源文件中的标签”中的“标签”包含标题标签和辅助性标签,指的是网页源文件中的所有标签。根据网页源文件中的标签,将网页源文件中连续的文本节点分割成多个独立的文本块,根据提取文本块的特征点以及标题标签和辅助性标签中的文字,计算每个独立文本块作为网页标题的概率值。
在本发明实施例中,根据提取的文本块中的特征点以及标题标签和辅助性标签中的文字,计算网页源文件中每个文本块作为网页标题的概率值,将概率值最大的文本块作为网页标题输出,能够有效的过滤掉网页设计者在标题标签或者辅助性标签中堆砌的与网页内容无关的文字,将最能描述网页主题内容或者中心思想的文字作为网页标题提取出来,有效的提高网页搜索的准确率和召回率。
实施例二:
图2是本发明实施例二提供的根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值的具体流程:
在步骤S201中,根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,通过离线训练得到的决策模型获取所述文本块的特征点与网页标题相关的概率值。
在本实施例中,通过离线训练的方式从采集的网页样本中提取特征点,并将所述特征点存储至特征点数据库,根据所述数据库中的特征点,训练出一个决策模型,再根据该决策模型决策出各特征点与网页标题相关的概率值(例如:某文本块的视觉特征为二号字体,通过决策得出该特征点与网页标题相关的概率值为0.8),同时将决策后的特征点作为样本反馈给特征点数据库。其中,所述决策模型可通过机器学习算法、分支定界法或者阙值分支法等方法实现。
在步骤S202中,根据所述获取的文本块的特征点与网页标题相关的概率值,计算所述网页源文件中每个文本块作为网页标题的概率值。
在本实施例中,为了方便根据具体情况对特征点概率值的修改,提高文本块作为网页标题概率计算的准确率,通过离线训练得到的决策模型来获取所述文本块的特征点与网页标题相关的概率值来判断所述文本块作为网页标题的概率值。例如:当文本块的特征点包含标签特征,提取该本文块的标签特征(h1标签),通过离线训练得到的决策模型获取h1标签中与网页标题相关的具体概率值,当h1标签中文字与网页内容完全无关时,该特征点概率值为0。根据离线获取的特征点与网页标题相关的具体概率值,计算出对应的文本块的概率值。其中,所述文本块概率值的计算方式包括但不局限于以下方法:1)取该文本块中各特征点与网页标题相关概率值的平均值;2)为该文本块中各特征点设置权重,依据权重计算得出;3)直接将该文本块中各特征点的概率值相乘。例如:文本块包括特征点1、特征点2和特征点3。特征点1的概率值为0.6,特征点2的概率值为0.4,特征点3的概率值为0.5,则该文本块的概率值可以通过取特征点1、特征点2和特征点3的平均值即(0.6+0.5+0.4)/3=0.5得出;也可以为特征点设置权重,例如特征点1的权重为0.6,特征点2的权重为0.3,特征点1的权重为0.1,则该文本块的概率值为0.6*0.6+0.5*0.3+0.4*0.1=0.55;也可以通过将该文本块中各特征点的概率值相乘得出该文本块的概率值0.6*0.4*0.5=0.12。
作为本发明的一个实施例,如果可以得到页面的锚文本信息,也可以作为文本块提取的一个特征点参与计算。
实施例三:
为了更好的说明该网页标题提取方法,图3示出了本发明实施例三提供的网页标题提取方法的具体实例,该具体实例步骤如下:
1.输入URL(Universal Resource Locator,网页地址):http://news.qq.com/a/20101120/000780.htm,获取该网页的超文本标记语言源文件;
2.提取该源文件中titlte标签中的文字:“国务院出台16项措施稳定消费价格总水平新闻腾讯网”;
3.提取该源文件中meta标签中的文字:“国务院出台16项措施稳定消费价格总水平物价”;
4.将该源文件中连续的文本节点分割成多个独立的文本块,例如:“腾讯网首页”,“网站导航”,“邮箱”,“国务院出台16项措施稳定消费价格总水平”等文本块;
5.根据预设的特征点(标签特征、视觉特征、位置特征和内容特征)以及所述提取的标题标签和辅助性标签中的文字,计算该源文件中每个文本块作为网页标题的概率值。例如:“国务院出台16项措施稳定消费价格总水平”文本节点,其父节点是h1标签,因此,“标签特征”是标题的概率比较大;该文本节点中的字体是网页中的最大字体,因此,“视觉特征”是标题的概率比较大;该文本节点处于网页的上方,因此,“位置特征”是标题的概率比较大;该文本节点与网页中正文,title标签,meta标签中的文本的相关度很高,因此,“内容特征”是标题的概率比较大。可通过离线训练得到的决策模型获取各特征点与网页标题相关的具体概率值,根据获取的特征点的具体概率值,计算出对应的文本块的概率值。其他的文本块也作类似的计算;
6.通过计算得到的网页源文件中每个文本块作为网页标题的概率值,输出概率值最大的文本块“国务院出台16项措施稳定消费价格总水平”,该文本块即为网页标题。
实施例四:
图4示出了本发明实施例四提供的网页标题提取装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
该网页标题提取装置可以用于通过有线或者无线网络连接服务器的各种信息处理系统,例如掌上电脑、计算机、笔记本电脑、个人数字助理(Personal DigitalAssistant,PDA)等,可以是运行于这些信息处理系统内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些信息处理系统中或者运行于这些信息处理系统的应用系统中。
该网页标题提取装置包括文字提取单元41、特征点提取单元42、概率计算单元43和结果输出单元44。其中,各单元的具体功能如下:
文字提取单元41,用于提取网页源文件中标题标签和辅助性标签中的文字,其实现方式如上所述,在此不再赘述。
特征点提取单元42,用于提取所述网页源文件中每个文本块的特征点,其实现方式如上所述,在此不再赘述。
概率计算单元43,用于根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值。其中,所述概率计算单元43还包括特征点概率计算模块431和文本块概率计算模块432。
特征点概率计算模块431,用于根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,通过离线训练得到的决策模型获取所述文本块的特征点与网页标题相关的概率值;
文本块概率计算模块432,用于根据所述获取的文本块的特征点与网页标题相关的概率值,计算所述网页源文件中每个文本块作为网页标题的概率值。
结果输出单元44,用于将概率值最大的文本块提取为网页标题。
在本实施例中,通过计算得到的网页源文件中每个文本块作为网页标题的概率值,输出的概率值最大的文本块,该文本块即为网页标题。
在本发明实施例中,根据提取的网页源文件中文本块的特征点和标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值,并根据计算得到的概率值,将概率值最大的文本块作为网页标题输出,能够有效的过滤掉网页设计者在标题标签或者辅助性标签中堆砌的与网页内容无关的文字,将最能描述网页主题内容或者中心思想的文字作为网页标题提取出来,有效的提高网页搜索的准确率和召回率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种网页标题的提取方法,其特征在于,所述方法包括以下步骤:
提取网页源文件中标题标签和辅助性标签中的文字;
提取所述网页源文件中每个文本块的特征点;
根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值;
将概率值最大的文本块提取为网页标题。
2.如权利要求1所述的方法,其特征在于,在所述提取网页源文件中标题标签和辅助性标签中的文字的步骤之后,所述提取网页源文件中每个文本块的特征点的步骤之前还包括以下步骤:
根据网页源文件中的标签,将所述网页源文件中连续的文本节点分割成多个独立的文本块。
3.如权利要求1所述的方法,其特征在于,所述根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值的步骤具体为:
根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,通过离线训练得到的决策模型获取所述文本块的特征点与网页标题相关的概率值;
根据所述获取的文本块的特征点与网页标题相关的概率值,计算所述网页源文件中每个文本块作为网页标题的概率值。
4.如权利要求1或3所述的方法,其特征在于,所述特征点包括标签特征、视觉特征、位置特征和内容特征中的至少一个。
5.一种网页标题的提取装置,其特征在于,所述装置包括:
文字提取单元,用于提取网页源文件中标题标签和辅助性标签中的文字;
特征点提取单元,用于提取所述网页源文件中每个文本块的特征点;
概率计算单元,用于根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,计算所述网页源文件中每个文本块作为网页标题的概率值;
结果输出单元,用于将概率值最大的文本块提取为网页标题。
6.如权利要求5所述的装置,其特征在于,所述装置还包括:
文本节点分割单元,用于根据网页源文件中的标签,将所述网页源文件中连续的文本节点分割成多个独立的文本块。
7.如权利要求5所述的装置,其特征在于,所述概率计算单元还包括:
特征点概率计算模块,用于根据所述提取的文本块的特征点以及标题标签和辅助性标签中的文字,通过离线训练得到的决策模型获取所述文本块的特征点与网页标题相关的概率值;
文本块概率计算模块,用于根据所述获取的文本块的特征点与网页标题相关的概率值,计算所述网页源文件中每个文本块作为网页标题的概率值。
8.如权利要求5或7所述的装置,其特征在于,所述特征点包括标签特征、视觉特征、位置特征和内容特征中的至少一个。
9.一种信息处理系统,其特征在于,所述信息处理系统包含权利要求5至8任一项权利要求所述的网页标题提取装置。
CN2011101153123A 2011-05-05 2011-05-05 一种网页标题的提取方法、装置及信息处理系统 Pending CN102768663A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101153123A CN102768663A (zh) 2011-05-05 2011-05-05 一种网页标题的提取方法、装置及信息处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101153123A CN102768663A (zh) 2011-05-05 2011-05-05 一种网页标题的提取方法、装置及信息处理系统

Publications (1)

Publication Number Publication Date
CN102768663A true CN102768663A (zh) 2012-11-07

Family

ID=47096067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101153123A Pending CN102768663A (zh) 2011-05-05 2011-05-05 一种网页标题的提取方法、装置及信息处理系统

Country Status (1)

Country Link
CN (1) CN102768663A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218420A (zh) * 2013-04-01 2013-07-24 北京鹏宇成软件技术有限公司 一种网页标题提取方法及装置
CN103279490A (zh) * 2013-04-26 2013-09-04 百度在线网络技术(北京)有限公司 Web页面的标签提取方法及装置
CN107741942A (zh) * 2016-12-09 2018-02-27 腾讯科技(深圳)有限公司 一种网页内容提取方法及装置
CN109614482A (zh) * 2018-10-23 2019-04-12 北京达佳互联信息技术有限公司 标签的处理方法、装置、电子设备及存储介质
CN111061934A (zh) * 2019-11-27 2020-04-24 西安四叶草信息技术有限公司 指纹识别方法、设备和存储介质
CN112528205A (zh) * 2020-12-22 2021-03-19 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
US11074306B2 (en) 2016-12-09 2021-07-27 Tencent Technology (Shenzhen) Company Limited Web content extraction method, device, storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7505984B1 (en) * 2002-12-09 2009-03-17 Google Inc. Systems and methods for information extraction
CN101996190A (zh) * 2009-08-12 2011-03-30 北京大学 一种从网页中抽取信息的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7505984B1 (en) * 2002-12-09 2009-03-17 Google Inc. Systems and methods for information extraction
CN101996190A (zh) * 2009-08-12 2011-03-30 北京大学 一种从网页中抽取信息的方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YUNHUA HU ET AL.: "Title Extraction from Bodies of HTML Documents and its Application to Web Page Retrieval", 《ACM 2005》 *
朱青 等: "基于机器学习的HTML标题抽取", 《微计算机信息》 *
李国华等: "基于相似度的网页标题抽取方法", 《中文信息学报》 *
李连霞: "基于多特征的HTML网页内容提取的研究", 《中国优秀硕士学位全文数据库信息科技辑》 *
李连霞等: "基于多特征的网页内容提取研究", 《第三届和谐人机环境联合学术会议》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218420A (zh) * 2013-04-01 2013-07-24 北京鹏宇成软件技术有限公司 一种网页标题提取方法及装置
CN103218420B (zh) * 2013-04-01 2016-12-28 北京创世泰克科技股份有限公司 一种网页标题提取方法及装置
CN103279490A (zh) * 2013-04-26 2013-09-04 百度在线网络技术(北京)有限公司 Web页面的标签提取方法及装置
CN107741942A (zh) * 2016-12-09 2018-02-27 腾讯科技(深圳)有限公司 一种网页内容提取方法及装置
CN107741942B (zh) * 2016-12-09 2020-06-02 腾讯科技(深圳)有限公司 一种网页内容提取方法及装置
US11074306B2 (en) 2016-12-09 2021-07-27 Tencent Technology (Shenzhen) Company Limited Web content extraction method, device, storage medium
CN109614482A (zh) * 2018-10-23 2019-04-12 北京达佳互联信息技术有限公司 标签的处理方法、装置、电子设备及存储介质
CN111061934A (zh) * 2019-11-27 2020-04-24 西安四叶草信息技术有限公司 指纹识别方法、设备和存储介质
CN111061934B (zh) * 2019-11-27 2023-04-07 西安四叶草信息技术有限公司 指纹识别方法、设备和存储介质
CN112528205A (zh) * 2020-12-22 2021-03-19 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN102768663A (zh) 一种网页标题的提取方法、装置及信息处理系统
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN104598577B (zh) 一种网页正文的提取方法
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN101515272B (zh) 提取网页内容的方法和装置
CN103064827A (zh) 一种网页内容抽取的方法及装置
CN105653668A (zh) 云环境中基于DOMTree的网页内容分析提取优化方法
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN110765973B (zh) 账号类型的识别方法和装置
CN110020312B (zh) 提取网页正文的方法和装置
CN101833579B (zh) 一种自动检测学术不端文献的方法及系统
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN102184240B (zh) 基于移动通讯设备终端的网页页面排版方法及系统
CN103049536A (zh) 提取网页正文内容的方法和系统
CN105404693A (zh) 一种基于需求语义的服务聚类方法
CN103942211A (zh) 一种正文页的识别方法及装置
CN102999511A (zh) 一种页面快速转换方法、装置和系统
CN102629252A (zh) 信息提示方法和系统
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
CN110610003A (zh) 用于辅助文本标注的方法和系统
CN104572874A (zh) 一种网页信息的抽取方法及装置
KR20130099327A (ko) 오픈 도메인 정보 추출 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131023

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131023

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

RJ01 Rejection of invention patent application after publication

Application publication date: 20121107

RJ01 Rejection of invention patent application after publication