CN104361081A - 一种基于web文档的自动摘要方法 - Google Patents

一种基于web文档的自动摘要方法 Download PDF

Info

Publication number
CN104361081A
CN104361081A CN201410642510.9A CN201410642510A CN104361081A CN 104361081 A CN104361081 A CN 104361081A CN 201410642510 A CN201410642510 A CN 201410642510A CN 104361081 A CN104361081 A CN 104361081A
Authority
CN
China
Prior art keywords
web document
weights
document
participle
piecemeal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410642510.9A
Other languages
English (en)
Inventor
刘文婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201410642510.9A priority Critical patent/CN104361081A/zh
Publication of CN104361081A publication Critical patent/CN104361081A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于WEB文档的自动摘要方法,具体包括以下几个步骤:(1)利用Html文档对象模型标签树抓取WEB文档正文信息;(2)对抓取的WEB文档正文信息进行分块、分句;(3)对抓取的WEB文档正文信息,依据关键词库进行分词,分词后去除无意义的非关键词,并将网络新词及专业词语扩充到关键词库,对于网络上已停用的非关键词,扩充到非关键词库;(4)计算分词权值和分句、分块权值;(5)根据摘要精细程度,选择分块、分句的个数,最后从中选出权值最高的几个分块、分句形成文档摘要信息。本发明能够分析WEB文档信息,给用户提供简洁的、信息全面的页面内容的概要,以提高用户获取信息的效率。

Description

一种基于WEB文档的自动摘要方法
技术领域
本发明涉及文本处理技术领域,具体涉及一种基于WEB文档的自动摘要方法。
背景技术
在文本处理技术领域,如何在海量的WEB信息中快速而又准确地获取信息成为当前的研究热点,为了有效的提高信息获取效率,文档自动摘要技术的研究应运而生,并且得到了广泛的关注。它能够将繁杂、冗长的文档内容用简洁、明了的语言概括出来,对信息的快速甄别进而获取信息带来了很大的帮助。目前已有的文档自动摘要方法主要侧重于基于句子抽取的方法,形成的摘要还较粗糙,不能为用户提供简洁的文档内容概要,用户获取信息的效率较低。
发明内容
针对现有技术存在的不足,本发明目的是提供一种基于WEB文档的自动摘要方法,能够分析WEB文档信息,给用户提供简洁的、信息全面的页面内容的概要,以提高用户获取信息的效率。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明的一种基于WEB文档的自动摘要方法,具体包括以下几个步骤:
(1)利用Html文档对象模型标签树抓取WEB文档正文信息;
(2)对抓取的WEB文档正文信息进行分块、分句;
(3)对抓取的WEB文档正文信息,依据关键词库进行分词,分词后去除无意义的非关键词,并将网络新词及专业词语扩充到关键词库,对于网络上已停用的非关键词,扩充到非关键词库;
(4)计算分词权值和分句、分块权值;
(5)根据摘要精细程度,选择分块、分句的个数,最后从中选出权值最高的几个分块、分句形成文档摘要信息。
步骤(1)中,利用Html文档对象模型标签树抓取WEB文档正文信息具体步骤如下:Html文档对象模型通过解析器载入整个Html文档内容,根据Html文档对象模型的嵌套关系,将Html文档中嵌套标签解析成一个节点树,在内存中构建对象集合,通过Html文档对象模型标签树的遍历获取WEB文档正文信息。
Html文档内容包含以下信息:(1a)正文:即网页要发布的主体内容;(2a)页面的附带信息;(3a)HTML标记。
步骤(2)中,对抓取的WEB文档正文信息进行分块、分句方法如下:如果Html文档内容有<p>标签来展示文档段落,则根据<p>标签抓取元素,实现分块,采用分块模式;如果Html文档内容没有<p>标签,则采用分句模式,即将文档按句尾标点符号进行分割。
步骤(3)中,所述分词的过程具体如下:载入所述关键词库,预先把带有明显特征的词切分出来,所述明显特征的词指WEB文档正文标题和正文每一段的第一句中的关键词,并将WEB文档正文信息依照切分出的词分成几个小段,再基于反向最长匹配策略进行机械分词,并将网络新词及专业词语扩充到关键词库,完成关键词库的动态更新。
上述反向最长匹配策略具体方法如下:将WEB文档内容逐一与关键词库中的词条进行匹配,匹配成功的标准是在关键词库中找到某个词条,即完成对WEB文档中某个关键词的识别。
步骤(4)中,分词权值的计算方法如下:分词去除非关键词后,按词频计算单个分词的权值,并对带明显特征的分词的权值重新进行修正,修正方法为:带明显特征的分词权值增加n,其中,n为除带明显特征外的关键词的最大权值。
步骤(4)中,分句、分块权值的计算方法如下:根据分词权值,再加权计算分句或分块中所包含关键词的权值,作为分句、分块权值,加权计算方法为:设分句、分块K的权值为Q(K),其中,包含m个关键词,每个关键词出现的次数为n,每个关键词的权值为q(i),则Q(K)满足关系: Q ( K ) = &Sigma; i = 1 m n * q ( i ) .
步骤(5)中,所述摘要精细程度作为系统的基本参数进行定义,设系统定义的总级数为K,系统选择的级数为N,如果采用分句模式,则统计WEB文档的句子总数,记为L,则选择的分句总个数为如果采用分块模式,则统计WEB文档的总块数,记为M,则选择的分块总个数为其中,WEB文档的句子统计方法为:统计WEB文档中“?”、“。”、“!”、“……”符号出现的次数,即为句子总数L;WEB文档的总块数统计方法为:Html文档内容中<p>标签的个数,即为总块数M。
步骤(5)中,采用jQuery编程技术,以一个统一资源定位符URL作为信息来源,实现网页截图,再将生成的摘要信息与原始的网页截图进行对照,用来衡量摘要是否概括了原网页的主要内容。
本发明以一个URL作为输入,综合利用Html文档对象模型标签树抓取WEB文档信息,再对获取的信息的进行分块;采用特征扫描切分法对抓取的信息进行分词,去除无意义的非关键词;确定各分词的权值,并构建非关键词库;根据分词的权值结果对每块的权值进行计算,最后从中选出最高权值的句子形成文档摘要信息。
本发明应用于信息检索或咨询类网站,能够从大量的WEB信息中自动生成简洁、全面的摘要,从而帮助用户显著提高获取信息的效率和质量;本发明也能应用于电子商务领域,能够帮助用户获取更准确的商品信息,提高购物效率,改善购物环境。
附图说明
图1为本发明的基于WEB文档的自动摘要方法工作流程图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
本发明通过扩充关键词库,创建面向用户的非关键词库,将文本信息进行分词以及特征词的提取,生成能够准确反映全文意思的摘要。
本发明涉及文本处理技术领域,特别涉及一种基于WEB文档的自动摘要方法。该方法具体为:以一个URL作为输入,综合利用Html文档dom(Document Object Model,文档对象模型)标签树抓取WEB文档信息,再对获取的信息的进行分块;采用特征扫描切分法对抓取的信息进行分词,去除无意义的非关键词;确定各分词的权值,并构建非关键词库;根据分词的权值结果对每块的权值进行计算,最后从中选出最高权值的句子形成文档摘要信息。本发明应用于信息检索或咨询类网站,能够从大量的WEB信息中自动生成简洁、全面的摘要,从而帮助用户显著提高获取信息的效率和质量;本发明也能应用于电子商务领域,能够帮助用户获取更准确的商品信息,提高购物效率,改善购物环境。
参见图1,本发明的一种基于WEB文档的自动摘要方法,具体包括以下几个步骤:
第一步S100,综合利用Html文档dom(Document Object Model,文档对象模型)树抽取WEB文档信息;
为了获取WEB文档信息,并且生成WEB文档的截图,需要以下过程,分别为:
1-1)采用浏览器编程技术,以一个URL作为信息来源,实现整个网页预览或截图,自动生成的摘要信息与网页的预览或截图进行比对,有利于对摘要信息的理解;
1-2)以一个URL作为信息的来源,依照DOM树结构抓取网页文档的主要信息,在解析DOM的Html文档时,DOM通过解析器载入整个Html内容,根据DOM的嵌套关系,将文档中标签嵌套关系解析成一个节点树,在内存中构建出树结构的对象集合,通过对Html页面中的元素的DOM树的遍历获取信息;
1-3)其中Html页面主要包含以下信息:
1)正文:即网页要发布的主体内容,例如一则新闻,一篇论文,一则公文,一篇博客文章等。
2)页面的附带信息:一个网页除了发布主体内容之外,都会再提供一些附带信息,最常见的是广告和对其他网站、网页的链接信息。
3)HTML标记:<body></body>等,这些信息不会显示到浏览器上,但一个网页在浏览器上的内容的表现格式则是由这些HTML标记规定的。
因此,网页当中除了含有标题和正文这些我们所需要的信息以外,还含有上面列举的第2种和第3种这些我们不需要的无关信息。要获取网页文本,首先要做的事情是去除网页中无关信息。剔除网页当中无关信息的过程称为信息抓取。
第二步S200,对抓取的WEB文档信息进行分块或分句,具体为:对于抓取的WEB文档信息,如果Html页面有<p></p>标签来展示文档段落,可以根据<p>标签抓取元素,直接实现分段。如果Html页面没有<p>标签,则采用分句模式。将文档按句尾标点符号进行分割,句尾标点符号包括“。”,“!”,“?”,“......”等;
第三步S300,对抓取的WEB文档信息进行分词,具体为:
3-1)分词方式采用基于词典词库的反向最长匹配的机械分词。具体为,在分词过程中,将字符串与一个“足够大”的词典中的词条进行匹配,匹配成功的标准是在机械词典中找到某个字符串,即完成了对某字符串的词的识别,其中的匹配策略采用反向最长匹配方法。
3-2)分词过程主要为,载入关键词典,预先把待分析权重带有明显特征的词切分出来,并将原来的字符串依照切分出的词分成较小的几段,在此基础上对抓取到的信息进行再进行机械分词过程中需要对一些网络新词,专业词语等特殊词语扩充到关键词词典;
3-3)更新关键词库主要为,关键词库没有的关键词主要包括两大类:(1)新涌现的通用词或专业术语等;2)专有名词,又称为命名实体。如人名、外国译名、地名、机构名、网络流行语等;
3-4)对抓取到的信息进行分词后,去除无意义的词或对摘要没有帮助的词,同时把去除的词扩充到非关键词库,随着非关键词库的建立,可以用做进一步优化分词过程的基础词库。
第四步S400,分别计算分词权值、分句或分块权值的计算,具体为:
4-1)分词权值的计算:分词去除非关键词后,按词频计算单个分词的权值,把带明显特征的分词的权值重新进行修正,如,对于有明显特征的分词在计算出的权值基础加上所有分词权值的最大值。
4-2)分块和分句权值的计算:依据分词权值,再加权计算分块或分句的权值。
第五步S500,根据系统设定的摘要精细程度,形成摘要信息,具体方法为:
选择权值最高的几个分块和分句,构成摘要信息,选择分块和分句的个数取决于摘要的精细程度。摘要精细程度作为系统的基本参数进行定义,如摘要精细程度定义为5级,定义每级摘要选择的分块或分句数,级别越低越精细,选择的分块或分句越多,假定级数为N选择的分块或分句为M*(K-N),其中M表示每级需要选择的句子数,K表示定义的总级数,N表示系统定义的级数。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种基于WEB文档的自动摘要方法,其特征在于,具体包括以下几个步骤:
(1)利用Html文档对象模型标签树抓取WEB文档正文信息;
(2)对抓取的WEB文档正文信息进行分块、分句;
(3)对抓取的WEB文档正文信息,依据关键词库进行分词,分词后去除无意义的非关键词,并将网络新词及专业词语扩充到关键词库,对于网络上已停用的非关键词,扩充到非关键词库;
(4)计算分词权值和分句、分块权值;
(5)根据摘要精细程度,选择分块、分句的个数,最后从中选出权值最高的几个分块、分句形成文档摘要信息。
2.根据权利要求1所述的基于WEB文档的自动摘要方法,其特征在于,步骤(1)中,利用Html文档对象模型标签树抓取WEB文档正文信息具体步骤如下:
Html文档对象模型通过解析器载入整个Html文档内容,根据Html文档对象模型的嵌套关系,将Html文档中嵌套标签解析成一个节点树,在内存中构建对象集合,通过Html文档对象模型标签树的遍历获取WEB文档正文信息。
3.根据权利要求2所述的基于WEB文档的自动摘要方法,其特征在于,Html文档内容包含以下信息:
(1a)正文:即网页要发布的主体内容;
(2a)页面的附带信息;
(3a)HTML标记。
4.根据权利要求1所述的基于WEB文档的自动摘要方法,其特征在于,步骤(2)中,对抓取的WEB文档正文信息进行分块、分句方法如下:
如果Html文档内容有<p>标签来展示文档段落,则根据<p>标签抓取元素,实现分块,采用分块模式;
如果Html文档内容没有<p>标签,则采用分句模式,即将文档按句尾标点符号进行分割。
5.根据权利要求1所述的基于WEB文档的自动摘要方法,其特征在于,步骤(3)中,所述分词的过程具体如下:
载入所述关键词库,预先把带有明显特征的词切分出来,所述明显特征的词指WEB文档正文标题和正文每一段的第一句中的关键词,并将WEB文档正文信息依照切分出的词分成几个小段,再基于反向最长匹配策略进行机械分词,并将网络新词及专业词语扩充到关键词库,完成关键词库的动态更新。
6.根据权利要求5所述的基于WEB文档的自动摘要方法,其特征在于,所述反向最长匹配策略具体方法如下:
将WEB文档内容逐一与关键词库中的词条进行匹配,匹配成功的标准是在关键词库中找到某个词条,即完成对WEB文档中某个关键词的识别。
7.根据权利要求1所述的基于WEB文档的自动摘要方法,其特征在于,步骤(4)中,分词权值的计算方法如下:
分词去除非关键词后,按词频计算单个分词的权值,并对带明显特征的分词的权值重新进行修正,修正方法为:带明显特征的分词权值增加n,其中,n为除带明显特征外的关键词的最大权值。
8.根据权利要求7所述的基于WEB文档的自动摘要方法,其特征在于,步骤(4)中,分句、分块权值的计算方法如下:
根据分词权值,再加权计算分句或分块中所包含关键词的权值,作为分句、分块权值,加权计算方法为:设分句、分块K的权值为Q(K),其中,包含m个关键词,每个关键词出现的次数为n,每个关键词的权值为q(i),则Q(K)满足关系:
9.根据权利要求1所述的基于WEB文档的自动摘要方法,其特征在于,步骤(5)中,所述摘要精细程度作为系统的基本参数进行定义,设系统定义的总级数为K,系统选择的级数为N,如果采用分句模式,则统计WEB文档的句子总数,记为L,则选择的分句总个数为如果采用分块模式,则统计WEB文档的总块数,记为M,则选择的分块总个数为
10.根据权利要求1所述的基于WEB文档的自动摘要方法,其特征在于,步骤(5)中,采用jQuery编程技术,以一个统一资源定位符URL作为信息来源,实现网页截图,再将生成的摘要信息与原始的网页截图进行对照,用来衡量摘要是否概括了原网页的主要内容。
CN201410642510.9A 2014-11-13 2014-11-13 一种基于web文档的自动摘要方法 Pending CN104361081A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410642510.9A CN104361081A (zh) 2014-11-13 2014-11-13 一种基于web文档的自动摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410642510.9A CN104361081A (zh) 2014-11-13 2014-11-13 一种基于web文档的自动摘要方法

Publications (1)

Publication Number Publication Date
CN104361081A true CN104361081A (zh) 2015-02-18

Family

ID=52528341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410642510.9A Pending CN104361081A (zh) 2014-11-13 2014-11-13 一种基于web文档的自动摘要方法

Country Status (1)

Country Link
CN (1) CN104361081A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824962A (zh) * 2016-03-31 2016-08-03 北京奇虎科技有限公司 基于百科词条的词条互动方法及装置
CN105892836A (zh) * 2016-03-31 2016-08-24 北京奇虎科技有限公司 基于百科词条的激活态飞幕显示方法及装置
CN105893592A (zh) * 2016-04-12 2016-08-24 广东欧珀移动通信有限公司 一种搜索方法和装置
CN105912662A (zh) * 2016-04-11 2016-08-31 天津大学 基于Coreseek的垂直搜索引擎研究与优化的方法
CN105912225A (zh) * 2016-03-31 2016-08-31 北京奇虎科技有限公司 基于百科词条的飞幕显示方法及装置
CN105930471A (zh) * 2016-04-25 2016-09-07 上海交通大学 演讲摘要生成方法及装置
CN106021482A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种财税数据快速精确检索方法
CN106156100A (zh) * 2015-04-02 2016-11-23 阿里巴巴集团控股有限公司 一种网页标题处理方法和装置
CN106202050A (zh) * 2016-07-18 2016-12-07 东软集团股份有限公司 主题信息获取方法、装置和电子设备
CN106708932A (zh) * 2016-11-21 2017-05-24 百度在线网络技术(北京)有限公司 问答类网站的回复的摘要提取方法及装置
CN107045524A (zh) * 2016-12-30 2017-08-15 中央民族大学 一种网络文本舆情分类的方法及系统
CN107368504A (zh) * 2016-05-13 2017-11-21 中国移动通信有限公司研究院 一种信息处理方法、系统及相关设备
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN109508448A (zh) * 2018-07-17 2019-03-22 网易传媒科技(北京)有限公司 基于长篇文章生成短资讯方法、介质、装置和计算设备
CN109522402A (zh) * 2018-10-22 2019-03-26 国家电网有限公司 一种基于电力行业特征关键词的摘要提取方法及存储介质
CN109522549A (zh) * 2018-10-30 2019-03-26 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN110728143A (zh) * 2019-09-23 2020-01-24 上海蜜度信息技术有限公司 用于文档关键语句识别的方法与设备
CN113535940A (zh) * 2020-04-17 2021-10-22 阿里巴巴集团控股有限公司 事件摘要生成方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0779592B1 (en) * 1995-12-14 2001-10-24 Xerox Corporation Automatic method of identifying drop words in a document image without performing OCR
US20060190561A1 (en) * 2002-06-19 2006-08-24 Watchfire Corporation Method and system for obtaining script related information for website crawling
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN101833554B (zh) * 2009-03-09 2012-09-26 富士通株式会社 产生抽取模板的方法、设备和抽取网页内容的方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0779592B1 (en) * 1995-12-14 2001-10-24 Xerox Corporation Automatic method of identifying drop words in a document image without performing OCR
US20060190561A1 (en) * 2002-06-19 2006-08-24 Watchfire Corporation Method and system for obtaining script related information for website crawling
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN101833554B (zh) * 2009-03-09 2012-09-26 富士通株式会社 产生抽取模板的方法、设备和抽取网页内容的方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐晓丹: ""中文Web文档自动摘要系统的研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
熊芝: ""中文网页自动摘要系统的设计与实现"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156100A (zh) * 2015-04-02 2016-11-23 阿里巴巴集团控股有限公司 一种网页标题处理方法和装置
CN106156100B (zh) * 2015-04-02 2019-09-03 阿里巴巴集团控股有限公司 一种网页标题处理方法和装置
CN105824962A (zh) * 2016-03-31 2016-08-03 北京奇虎科技有限公司 基于百科词条的词条互动方法及装置
CN105892836A (zh) * 2016-03-31 2016-08-24 北京奇虎科技有限公司 基于百科词条的激活态飞幕显示方法及装置
CN105912225A (zh) * 2016-03-31 2016-08-31 北京奇虎科技有限公司 基于百科词条的飞幕显示方法及装置
CN105912225B (zh) * 2016-03-31 2019-08-23 北京奇虎科技有限公司 基于百科词条的飞幕显示方法及装置
CN105912662A (zh) * 2016-04-11 2016-08-31 天津大学 基于Coreseek的垂直搜索引擎研究与优化的方法
CN105893592A (zh) * 2016-04-12 2016-08-24 广东欧珀移动通信有限公司 一种搜索方法和装置
CN105930471A (zh) * 2016-04-25 2016-09-07 上海交通大学 演讲摘要生成方法及装置
CN107368504A (zh) * 2016-05-13 2017-11-21 中国移动通信有限公司研究院 一种信息处理方法、系统及相关设备
CN106021482A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种财税数据快速精确检索方法
CN106202050B (zh) * 2016-07-18 2020-02-07 东软集团股份有限公司 主题信息获取方法、装置和电子设备
CN106202050A (zh) * 2016-07-18 2016-12-07 东软集团股份有限公司 主题信息获取方法、装置和电子设备
CN106708932A (zh) * 2016-11-21 2017-05-24 百度在线网络技术(北京)有限公司 问答类网站的回复的摘要提取方法及装置
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN107045524A (zh) * 2016-12-30 2017-08-15 中央民族大学 一种网络文本舆情分类的方法及系统
CN107045524B (zh) * 2016-12-30 2019-12-27 中央民族大学 一种网络文本舆情分类的方法及系统
CN109508448A (zh) * 2018-07-17 2019-03-22 网易传媒科技(北京)有限公司 基于长篇文章生成短资讯方法、介质、装置和计算设备
CN109522402A (zh) * 2018-10-22 2019-03-26 国家电网有限公司 一种基于电力行业特征关键词的摘要提取方法及存储介质
CN109522549A (zh) * 2018-10-30 2019-03-26 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109522549B (zh) * 2018-10-30 2022-06-10 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN110728143A (zh) * 2019-09-23 2020-01-24 上海蜜度信息技术有限公司 用于文档关键语句识别的方法与设备
CN113535940A (zh) * 2020-04-17 2021-10-22 阿里巴巴集团控股有限公司 事件摘要生成方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN104361081A (zh) 一种基于web文档的自动摘要方法
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及系统
EP2057557B1 (en) Joint optimization of wrapper generation and template detection
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
US20140244692A1 (en) Converting xml to json with configurable output
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN107135092A (zh) 一种面向全局社交服务网的Web服务聚类方法
CN103577466A (zh) 一种在浏览器中显示网页内容的方法和装置
CN110134780B (zh) 文档摘要的生成方法、装置、设备、计算机可读存储介质
CN102521232B (zh) 一种互联网元数据的分布式采集处理系统及方法
US20190171713A1 (en) Semantic parsing method and apparatus
CN105404674B (zh) 一种知识依赖的网页信息抽取方法
CN104572934B (zh) 一种基于dom的网页关键内容抽取方法
CN103177036A (zh) 一种标签自动提取方法和系统
JP2006351002A5 (zh)
CN111339457B (zh) 用于从网页抽取信息的方法和设备及存储介质
KR20120051419A (ko) 종속형 스타일 시트 규칙 추출 장치 및 방법
CN103810251A (zh) 一种文本提取方法及装置
WO2023155303A1 (zh) 网页数据的提取方法和装置、计算机设备、存储介质
CN105069116A (zh) 一种将json串转化为数组的方法及系统
CN104765882A (zh) 一种基于网页特征字符串的互联网网站统计方法
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN103853770A (zh) 一种抽取论坛网页中帖子内容的方法及系统
US20150178300A1 (en) Methods for converting an xml artifact into a topic map instance and devices thereof
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150218

RJ01 Rejection of invention patent application after publication