CN101079031A - 一种网页主题提取系统和方法 - Google Patents

一种网页主题提取系统和方法 Download PDF

Info

Publication number
CN101079031A
CN101079031A CN 200610036003 CN200610036003A CN101079031A CN 101079031 A CN101079031 A CN 101079031A CN 200610036003 CN200610036003 CN 200610036003 CN 200610036003 A CN200610036003 A CN 200610036003A CN 101079031 A CN101079031 A CN 101079031A
Authority
CN
China
Prior art keywords
web page
vocabulary
justice
word
page subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610036003
Other languages
English (en)
Inventor
丁江伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN 200610036003 priority Critical patent/CN101079031A/zh
Publication of CN101079031A publication Critical patent/CN101079031A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种网页主题提取系统,包括文档解析器,其用于从网页源文件中提取网页标题和具有不同突出显示属性的网页正文;还包括:分词模块,其用于将所述网页正文、网页标题和网页类别信息进行分词,得到第一词汇表;义元处理模块,其用于将所述第一词汇表中的词汇转换为义元,对所述义元计算权重,最后再对计算权重后的义元进行反向还原,得到主题词汇集合。本发明还提供了一种网页主题提取方法。本发明的有益效果在于:采用基于义元集的语义分析技术,避免了词汇稀疏的难题,对短文章的分析效果良好。充分考虑了网页的预分类、标题信息和显示属性,能够准确地提取出网页的主题。采用带权重的词汇排序表表示网页的主题,避免了信息的丢失。

Description

一种网页主题提取系统和方法
技术领域
本发明涉及本发明涉及网络通信技术,更具体地说,涉及一种网页主题提取系统和方法。
背景技术
所谓网页主题,就是网页正文所描述事件的摘要内容或者关键词列表,标示了该网页的主题内容和中心思想。现有的网页主题提取方法主要有两种。一种是是基于标题的网页主题提取技术。其方法是:采用Html(HyperText MarkupLanguage,超文件链接标记语言)文档解析器,按照html协议分析html网页,按照网页源文件的tag标识建立html语法树,以找出网页的标题、正文等的内容,然后将网页中标题<title>标签的值作为网页的主题思想。该方法是早期比较常用的网页主题提取方法。但是这种计算方法显然过于简单,实际应用中准确率、召回率均很低,并且不可避免的会出现正文部分信息丢失的情况。
另外一种是基于标题的网页主题提取技术。随着统计自然语言处理技术的发展,按照高词频关键词来标示网页主题的方法得到了广泛的应用,具体做法是先将网页源文件去tag标记,然后将文章内容进行分词统计词频,最后按词频对关键词排序,给出前N个高词频作为文章主题。但是由于表义语言发展得很充分,一义多词是普遍现象,再加上修辞法的运用使得词汇稀疏现象客观存在,特别是对于网页类的短文章,该算法整体效果不是很理想。
发明内容
本发明的目的在于针对现有技术的缺陷,提供一种网页主题提取系统和方法,其基于义元集语义分析技术、充分利用网页预分类信息、显示属性信息来增加单纯语义分析技术的准确度。
本发明的技术方案是:一种网页主题提取系统,包括文档解析器,其用于从网页源文件中提取网页标题和具有不同突出显示属性的网页正文;还包括:分词模块,其用于将所述网页正文、网页标题和网页类别信息进行分词,得到第一词汇表;义元处理模块,其用于将所述第一词汇表中的词汇转换为义元,对所述义元计算权重,最后再对计算权重后的义元进行反向还原,得到主题词汇集合。
进一步的,所述分词模块与义元处理模块之间还串联有分词后处理模块;所述分词模块还具有对切分后的词汇进行词性标注的功能;所述分词后处理模块用于根据第一词汇表中词汇的词性,剔除其中的停用词、虚词,得到第二词汇表;所述义元处理模块用于对所述第二词汇表中的词汇进行处理。
具体的,所述义元处理模块包括:义元扩展模块,其用于使用义元词典将所述第二词汇表中的词汇转换成义元,表示为第一义元表;网页主题义元计算模块,其用于对所述第一义元表中的所有义元计算权重;义元复原关键词模块,其用于对计算权重后的义元进行反向还原,得到主题词汇集合。
本发明一种网页主题提取系统还包括网页主题输出接口,其用于将所述主题词汇集合处理为适合应用层调用的词汇列表,所述词汇按照语义密度分别被赋予不同的权重。
本发明还提供了一种网页主题提取方法,包括以下步骤:
(a),所述文档解析器从网页源文件中提取网页标题和具有不同突出显示属性的网页正文;
(b),所述分词模块将所述网页正文、网页标题和网页类别信息进行分词,得到第一词汇表;
(c),所述义元处理模块将所述第一词汇表中的词汇转换为义元,对所述义元计算权重,最后再对计算权重后的义元进行反向还原,得到表征了网页主题的、具有不同权重的主题词汇集合。
其中,步骤(a)中,提取网页标题和网页正文的方法是:所述文档解析器对所述网页的源文件进行解析,得到网页的语法树,然后从语法树上获得网页标题、网页正文中具有不同突出显示属性的正文内容,并将所述正文内容按照其突出显示属性顺序记为body1 body2 body3到bodyN。
进一步的,步骤(b)中,所述分词模块还对切分后的词汇进行词性标注,得到第一词汇表。步骤(b)之后进一步包括步骤(b1),所述分词后处理模块至少对所述第一词汇表中的词汇进行去停用词、去虚词,得到第二词汇表。
具体的,步骤(c)包括步骤:
(c1),所述义元扩展模块按照词典与义元词典的对应关系将所述第二词汇表中的词汇转换成义元,组成第一义元表;
(c2),所述网页主题义元计算模块对所述第一义元表中的所有义元计算权重,得到具有不同权重的第二义元表;
(c3),所述义元复原关键词模块按照义元词典对所述第二义元表中的义元进行反向还原,得到表征了网页主题的、具有不同权重的主题词汇集合。
本发明方法中,步骤(c)之后进一步包括步骤(d),所述网页主题输出接口将所述主题词汇集合处理为适合应用层调用的词汇列表,所述词汇按照语义密度分别被赋予不同的权重。
本发明的有益效果在于:①采用基于义元集的语义分析技术,避免了词汇稀疏的难题,对短文章的分析效果良好。②充分考虑了网页的预分类、标题信息和显示属性,能够准确地提取出网页的主题。③采用带权重的词汇排序表表示网页的主题,避免了信息的丢失。
附图说明
图1是本发明一种网页主题提取系统的结构图。
图2是本发明一种网页主题提取方法的流程图。
具体实施方式
下面根据附图和具体实施例对本发明作进一步阐述。
如图1所示,本发明一种网页主题提取系统包括文档解析器1、分词模块2、分词后处理模块3、义元处理模块和网页主题输出接口7。义元处理模块包括义元扩展模块4、网页主题义元计算模块5和义元复原关键词模块6。网站或其它应用系统中与本发明系统相关的模块可以包括:网站网页存储中心8、网站导航树生成系统9、网页类别计算模块10和网页主题应用模块11。本发明中文档解析器1采用Html(HyperText Markup Language,超文件链接标记语言)文档解析器。
其中,Html文档解析器1能够把html网页按照Html协议解析成一棵语法树,同时具有提取网页标题、提取具有不同突出显示属性的网页正文的能力。它与分词模块2相连,并与网站网页存储中心8(或其它可获得相关网页源文件的模块)相连,以获得网页源文件。网页源文件中的font tag标记指示了网页的显示属性,一般来说显示的突出程度(大字体、彩色)和内容的重要程度成正比。本发明主要提取网页正文中比较突出、容易得到用户注意的正文(如大字体、彩色,及其后的正文),即具有突出显示属性的网页正文。
分词模块2负责按照词典将网页的正文和标题、类别切分成词汇。如将“我是一个学生”进行分词,分为“我”、“是”、“一个”、“学生”四个词。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。本实施例中采用基于字符串匹配的分词方法。该方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
本发明中,分词模块2还具有对切分后的词汇进行词性标注的功能,以方便分词后处理模块3将词汇中的停用词和虚词等去掉。它与文档解析器1、词典、分词后处理模块3相连,并与网页类别计算模块10(或其它可获得相应网页分类信息的模块)相连,以获得相应网页的类别信息。
分词后处理模块3的功能包括但不限于对分词模块2的输出去停用词、去虚词等功能,剔除对主题无关的信息。
义元扩展模块4用于使用义元词典完成词汇到义元的正向转换。它与分词后处理模块3、网页主题义元计算模块5和义元词典相连。
本发明在网页主题提取过程中并不是用词汇作为计算单元的,而是使用义元词典将词汇转换成义元表示,是一种基于义元集的语义分析技术。
所谓义元(semantic primitives)就是组义语言中最基本的元素。它可以解释成:一组意思的符号,它可以无需定义地被所有人理解,此外,所有的其它词汇都能用它们来定义。自然语言处理所面临的一个重大难题是词汇稀疏,所以将关键词转换成义元词表示能很大程度上避免词汇稀疏现象,义元集是一个小规模词汇或者义元序号集合,表征了自然界的所有概念,一个义元集元素唯一的、不重复的表示一个概念。
网页主题义元计算模块5用于利用统计语言学原理对网页义元进行计算,计算的结果是对不同的义元赋予了不同的权重。计算的过程中对于网页的分类信息、标题信息和不同显示属性的正文信息分别给予不同的统计权值。
义元复原关键词模块6用于按照义元词典和网页正文对义元进行反向还原,得到一组带权重的主题词汇集合。这些主题词汇集合表征了网页的主题。它与网页主题义元计算模块5、网页主题输出接口7和义元词典相连。
网页主题输出接口7用于将上述带权重的主题词汇集合转换为标准化的、带不同权重的词汇列表,以适合应用层的调用。故,其与网页主题应用模块11相连。
本实施例中,网站网页存储中心8与网站导航树生成系统9、网页类别计算模块10相连,网站导航树生成系统9与网页类别计算模块10相连。网站网页存储中心8内存储着网站中所有网页的源文件。网站导航树生成系统9用于生成网站导航树。网页类别计算模块10用于根据网站导航树生成系统9生成的网站导航树对网页源文件进行分析,以生成网页分类信息。网页主题应用模块11用于从所述网页主题输出接口调用对应网页的主题信息,然后根据业务相关性进行计算,为用户提供个性化的服务。例如,用户正在浏览一个关于手机的网站,本发明系统对其正在浏览的网页进行主题提取,得出其正在观看诺基亚3310款手机的资料,则网页主题应用模块立刻在其业务库中搜索与诺基亚3310相关的广告信息或服务,并推送给用户。
如图2所示,本发明一种网页主题提取方法包括步骤:
S1,文档解析器1从网站网页存储中心8获取一个网页的源文件,并从网页类别计算模块10上获得将该网页的分类信息。
多数网站导航条里面都指明了某个网页的所属类别信息,即网页的分类信息。分类信息一般是从网站导航树中获得,网站导航树可以是直接由网站中取得,也可以由网站目录树生成。
S2,文档解析器1对网页的源文件进行解析,得到网页的html语法树。
S3,文档解析器1从网页语法树上面取得网页的标题信息以及正文中具有不同突出显示属性的正文内容,并按照正文中的突出显示顺序记为body1body2 body3...bodyN。
S4,分词模块2对网页的类别、标题和正文body1 body2 body3...bodyN进行分词,并对上述切分后的词汇进行词性标注,形成第一词汇表。
S5,分词后处理模块3将第一词汇表中的停用词、虚词等剔除,形成第二词汇表。
S6,义元扩展模块4按照词典和义元词典的对应关系将第二词汇表中的词汇用义元表示为第一义元表。
S7,网页主题义元计算模块5按照量空间模型的Tf-Idf(特征项赋权因子)等算法给第一义元表里的所有义元计算权重,得到带权重的第二义元表。
本实施例中,采用Tf-Idf算法对第一义元表中的义元计算权重。当然也可以采用交叉熵等算法对第一义元表中的义元计算权重。Tf-Idf算法采用倒排索引技术,其主要应用在全文检索。该算法可以保证为中等频率的义元赋以高的权重,并排除噪声词汇。在计算时候,根据先前的分类信息、标题信息、突出显示信息(font)对关键词表赋予不同权值:扩展分类信息词表为classwords,每个词权重为m;标题扩展词汇为titlewords,每个词权重为n;font字体扩展词汇为fontwords,每个词权重随字体突出程度递增。
S8,义元复原关键词模块6按照义元词典和网页正文对第二义元表中的义元进行反向还原,得到表征了网页主题的、带权重的主题词汇集合。主题词汇集合即为考虑了预分类信息,标题信息,网页突出显示信息的网页主题词表。
S9,网页主题输出接口7将所述主题词汇集合处理为适合应用层调用的词汇列表,等待网页主题应用模块11调用。其中,列表中的词汇按照语义密度分别被赋予不同的权重
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1、一种网页主题提取系统,包括文档解析器,其用于从网页源文件中提取网页标题和具有不同突出显示属性的网页正文;其特征在于,还包括:
分词模块,其用于将所述网页正文、网页标题和网页类别信息进行分词,得到第一词汇表;
义元处理模块,其用于将所述第一词汇表中的词汇转换为义元,对所述义元计算权重,最后再对计算权重后的义元进行反向还原,得到主题词汇集合。
2、根据权利要求1所述的一种网页主题提取系统,其特征在于:所述分词模块与义元处理模块之间还串联有分词后处理模块;
所述分词模块还具有对切分后的词汇进行词性标注的功能;所述分词后处理模块用于根据第一词汇表中词汇的词性,剔除其中的停用词、虚词,得到第二词汇表;所述义元处理模块用于对所述第二词汇表中的词汇进行处理。
3、根据权利要求1或2所述的一种网页主题提取系统,其特征在于,所述义元处理模块包括:
义元扩展模块,其用于使用义元词典将所述第二词汇表中的词汇转换成义元,组成第一义元表;
网页主题义元计算模块,其用于对所述第一义元表中的所有义元计算权重;
义元复原关键词模块,其用于对计算权重后的义元进行反向还原,得到主题词汇集合。
4、根据权利要求1或2所述的一种网页主题提取系统,其特征在于:还包括网页主题输出接口,其用于将所述主题词汇集合处理为适合应用层调用的词汇列表,所述词汇按照语义密度分别被赋予不同的权重。
5、一种网页主题提取方法,其特征在于,包括以下步骤:
(a),所述文档解析器从网页源文件中提取网页标题和具有不同突出显示属性的网页正文;
(b),所述分词模块将所述网页正文、网页标题和网页类别信息进行分词,得到第一词汇表;
(c),所述义元处理模块将所述第一词汇表中的词汇转换为义元,对所述义元计算权重,最后再对计算权重后的义元进行反向还原,得到表征了网页主题的、具有不同权重的主题词汇集合。
6、根据权利要求5所述的一种网页主题提取方法,其特征在于,步骤(a)中,提取网页标题和网页正文的方法是:
所述文档解析器对所述网页的源文件进行解析,得到网页的语法树,然后从语法树上获得网页标题、网页正文中具有不同突出显示属性的正文内容,并将所述正文内容按照其突出显示属性顺序记为body1 body2 body3到bodyN。
7、根据权利要求5所述的一种网页主题提取方法,其特征在于,进一步的:步骤(b)中,所述分词模块还对切分后的词汇进行词性标注,得到第一词汇表。
8、根据权利要求7所述的一种网页主题提取方法,其特征在于:步骤(b)之后进一步包括步骤(b1),所述分词后处理模块至少对所述第一词汇表中的词汇进行去停用词、去虚词,得到第二词汇表。
9、根据权利要求8所述的一种网页主题提取方法,其特征在于,具体的,步骤(c)包括步骤:
(c1),所述义元扩展模块按照词典与义元词典的对应关系将所述W1中的词汇转换成义元,组成第一义元表;
(c2),所述网页主题义元计算模块对所述第一义元表中的所有义元计算权重,得到具有不同权重的第二义元表;
(c3),所述义元复原关键词模块按照义元词典对所述第二义元表中的义元进行反向还原,得到表征了网页主题的、具有不同权重的主题词汇集合。
10、根据权利要求5所述的一种网页主题提取方法,其特征在于:步骤(c)之后进一步包括步骤(d),所述网页主题输出接口将所述主题词汇集合处理为适合应用层调用的词汇列表,所述词汇按照语义密度分别被赋予不同的权重。
CN 200610036003 2006-06-15 2006-06-15 一种网页主题提取系统和方法 Pending CN101079031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610036003 CN101079031A (zh) 2006-06-15 2006-06-15 一种网页主题提取系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610036003 CN101079031A (zh) 2006-06-15 2006-06-15 一种网页主题提取系统和方法

Publications (1)

Publication Number Publication Date
CN101079031A true CN101079031A (zh) 2007-11-28

Family

ID=38906510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610036003 Pending CN101079031A (zh) 2006-06-15 2006-06-15 一种网页主题提取系统和方法

Country Status (1)

Country Link
CN (1) CN101079031A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101903874A (zh) * 2007-12-20 2010-12-01 雅虎公司 使用社交行为分析和词汇分类的推荐系统
WO2011079416A1 (en) * 2009-12-30 2011-07-07 Google Inc. Category-sensitive ranking for text
CN101702160B (zh) * 2009-10-28 2013-04-17 深圳市龙视传媒有限公司 一种互联网主题信息采集方法及装置
CN103106199A (zh) * 2011-11-09 2013-05-15 中国移动通信集团四川有限公司 文本检索方法和装置
CN103164439A (zh) * 2011-12-14 2013-06-19 中国电信股份有限公司 业务信息动态显示方法、服务器及在线文档浏览终端
CN103218420A (zh) * 2013-04-01 2013-07-24 北京鹏宇成软件技术有限公司 一种网页标题提取方法及装置
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN103279490A (zh) * 2013-04-26 2013-09-04 百度在线网络技术(北京)有限公司 Web页面的标签提取方法及装置
CN103294820A (zh) * 2013-06-14 2013-09-11 广东电网公司电力科学研究院 基于语义扩展的web页面归类方法和系统
CN103425735A (zh) * 2013-06-06 2013-12-04 深圳市宜搜科技发展有限公司 一种基于网站主题词查询的建立方法及系统
CN103870457A (zh) * 2012-12-07 2014-06-18 北京百度网讯科技有限公司 一种确定问答平台中的未回答问题优先级的方法及装置
CN103914504A (zh) * 2012-12-28 2014-07-09 富士通株式会社 信息处理装置和用于生成图表的方法
CN105468730A (zh) * 2015-11-20 2016-04-06 广州华多网络科技有限公司 一种网页信息提取方法及其设备
CN105765566A (zh) * 2013-06-27 2016-07-13 谷歌公司 标题的自动生成
CN106156372A (zh) * 2016-08-31 2016-11-23 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106534146A (zh) * 2016-11-28 2017-03-22 北京天行网安信息技术有限责任公司 一种安全监测系统及方法
CN106534145A (zh) * 2016-11-28 2017-03-22 北京天行网安信息技术有限责任公司 一种应用识别方法及设备
CN106557593A (zh) * 2016-12-05 2017-04-05 上海华测导航技术股份有限公司 一种切换网页主题的方法及系统
WO2017107696A1 (zh) * 2015-12-22 2017-06-29 北京奇虎科技有限公司 带权重的文章标识方法和装置
CN107526744A (zh) * 2016-06-21 2017-12-29 北京搜狗科技发展有限公司 一种基于搜索的信息展示方法和装置
WO2018000557A1 (zh) * 2016-06-30 2018-01-04 北京百度网讯科技有限公司 搜索结果展示方法和装置
CN108121736A (zh) * 2016-11-30 2018-06-05 北京搜狗科技发展有限公司 一种主题词确定模型的建立方法、装置及电子设备
CN108154395A (zh) * 2017-12-26 2018-06-12 上海新炬网络技术有限公司 一种基于大数据的客户网络行为画像方法
CN108614825A (zh) * 2016-12-12 2018-10-02 中移(杭州)信息技术有限公司 一种网页特征提取方法和装置
CN110781301A (zh) * 2019-09-25 2020-02-11 中国科学院信息工程研究所 一种面向人物属性稀疏页面的人物信息抽取方法
CN111831460A (zh) * 2020-06-30 2020-10-27 江西科技学院 一种文本复制粘贴方法、系统及可读存储介质

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101903874A (zh) * 2007-12-20 2010-12-01 雅虎公司 使用社交行为分析和词汇分类的推荐系统
CN101702160B (zh) * 2009-10-28 2013-04-17 深圳市龙视传媒有限公司 一种互联网主题信息采集方法及装置
WO2011079416A1 (en) * 2009-12-30 2011-07-07 Google Inc. Category-sensitive ranking for text
US9092422B2 (en) 2009-12-30 2015-07-28 Google Inc. Category-sensitive ranking for text
CN103106199A (zh) * 2011-11-09 2013-05-15 中国移动通信集团四川有限公司 文本检索方法和装置
CN103106199B (zh) * 2011-11-09 2016-03-02 中国移动通信集团四川有限公司 文本检索方法和装置
CN103164439A (zh) * 2011-12-14 2013-06-19 中国电信股份有限公司 业务信息动态显示方法、服务器及在线文档浏览终端
CN103164439B (zh) * 2011-12-14 2016-11-09 中国电信股份有限公司 业务信息动态显示方法、服务器及在线文档浏览终端
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN103870457A (zh) * 2012-12-07 2014-06-18 北京百度网讯科技有限公司 一种确定问答平台中的未回答问题优先级的方法及装置
CN103914504B (zh) * 2012-12-28 2017-08-25 富士通株式会社 信息处理装置和用于生成图表的方法
CN103914504A (zh) * 2012-12-28 2014-07-09 富士通株式会社 信息处理装置和用于生成图表的方法
US9633457B2 (en) 2012-12-28 2017-04-25 Fujitsu Limited Apparatus and method for automatically determining graph types, based on analysis of electronic document
CN103218420A (zh) * 2013-04-01 2013-07-24 北京鹏宇成软件技术有限公司 一种网页标题提取方法及装置
CN103218420B (zh) * 2013-04-01 2016-12-28 北京创世泰克科技股份有限公司 一种网页标题提取方法及装置
CN103279490A (zh) * 2013-04-26 2013-09-04 百度在线网络技术(北京)有限公司 Web页面的标签提取方法及装置
CN103425735A (zh) * 2013-06-06 2013-12-04 深圳市宜搜科技发展有限公司 一种基于网站主题词查询的建立方法及系统
CN103425735B (zh) * 2013-06-06 2017-08-11 深圳市宜搜科技发展有限公司 一种基于网站主题词查询的建立方法及系统
CN103294820A (zh) * 2013-06-14 2013-09-11 广东电网公司电力科学研究院 基于语义扩展的web页面归类方法和系统
CN103294820B (zh) * 2013-06-14 2017-11-10 广东电网有限责任公司电力科学研究院 基于语义扩展的web页面归类方法和系统
CN105765566B (zh) * 2013-06-27 2019-04-16 谷歌有限责任公司 一种自动生成标题的方法及系统
CN105765566A (zh) * 2013-06-27 2016-07-13 谷歌公司 标题的自动生成
CN105468730A (zh) * 2015-11-20 2016-04-06 广州华多网络科技有限公司 一种网页信息提取方法及其设备
WO2017107696A1 (zh) * 2015-12-22 2017-06-29 北京奇虎科技有限公司 带权重的文章标识方法和装置
CN107526744A (zh) * 2016-06-21 2017-12-29 北京搜狗科技发展有限公司 一种基于搜索的信息展示方法和装置
WO2018000557A1 (zh) * 2016-06-30 2018-01-04 北京百度网讯科技有限公司 搜索结果展示方法和装置
CN106156372B (zh) * 2016-08-31 2019-07-30 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106156372A (zh) * 2016-08-31 2016-11-23 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106534145A (zh) * 2016-11-28 2017-03-22 北京天行网安信息技术有限责任公司 一种应用识别方法及设备
CN106534146A (zh) * 2016-11-28 2017-03-22 北京天行网安信息技术有限责任公司 一种安全监测系统及方法
CN106534145B (zh) * 2016-11-28 2019-11-15 拓尔思天行网安信息技术有限责任公司 一种应用识别方法及设备
CN106534146B (zh) * 2016-11-28 2019-11-15 拓尔思天行网安信息技术有限责任公司 一种安全监测系统及方法
CN108121736B (zh) * 2016-11-30 2021-06-08 北京搜狗科技发展有限公司 一种主题词确定模型的建立方法、装置及电子设备
CN108121736A (zh) * 2016-11-30 2018-06-05 北京搜狗科技发展有限公司 一种主题词确定模型的建立方法、装置及电子设备
CN106557593A (zh) * 2016-12-05 2017-04-05 上海华测导航技术股份有限公司 一种切换网页主题的方法及系统
CN108614825A (zh) * 2016-12-12 2018-10-02 中移(杭州)信息技术有限公司 一种网页特征提取方法和装置
CN108614825B (zh) * 2016-12-12 2022-04-15 中移(杭州)信息技术有限公司 一种网页特征提取方法和装置
CN108154395A (zh) * 2017-12-26 2018-06-12 上海新炬网络技术有限公司 一种基于大数据的客户网络行为画像方法
CN108154395B (zh) * 2017-12-26 2021-10-29 上海新炬网络技术有限公司 一种基于大数据的客户网络行为画像方法
CN110781301A (zh) * 2019-09-25 2020-02-11 中国科学院信息工程研究所 一种面向人物属性稀疏页面的人物信息抽取方法
CN111831460A (zh) * 2020-06-30 2020-10-27 江西科技学院 一种文本复制粘贴方法、系统及可读存储介质
CN111831460B (zh) * 2020-06-30 2023-06-16 江西科技学院 一种文本复制粘贴方法、系统及可读存储介质

Similar Documents

Publication Publication Date Title
CN101079031A (zh) 一种网页主题提取系统和方法
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN107451126B (zh) 一种近义词筛选方法及系统
CN101079025B (zh) 一种文档相关度计算系统和方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
US20050267915A1 (en) Method and apparatus for recognizing specific type of information files
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN104598577B (zh) 一种网页正文的提取方法
CN103106287B (zh) 一种用户检索语句的处理方法及系统
CN106959944A (zh) 一种基于中文语法规则的事件提取方法和系统
CN101079024A (zh) 一种专业词表动态生成系统和方法
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN101075251A (zh) 一种基于数据挖掘的文本搜索方法
CN102043808A (zh) 利用网页结构抽取双语词条的方法及设备
CN111428444B (zh) 网页信息自动抽取方法
CN101794308B (zh) 一种面向有意义串挖掘的重复串提取方法及装置
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN102779135A (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN110866125A (zh) 基于bert算法模型的知识图谱构建系统
CN111858933A (zh) 基于字符的层次化文本情感分析方法及系统
CN111221976A (zh) 基于bert算法模型的知识图谱构建方法
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN115759037A (zh) 建筑施工方案智能审核框架及审核方法
CN100347706C (zh) 一种pdf文档到xml文档转换的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20071128