CN104156452A - 一种网页文本摘要生成方法和装置 - Google Patents
一种网页文本摘要生成方法和装置 Download PDFInfo
- Publication number
- CN104156452A CN104156452A CN201410405758.3A CN201410405758A CN104156452A CN 104156452 A CN104156452 A CN 104156452A CN 201410405758 A CN201410405758 A CN 201410405758A CN 104156452 A CN104156452 A CN 104156452A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- entry
- weight
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 76
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003749 cleanliness Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种网页文本摘要生成方法和装置,所述方法包括:确定网页文本中的关键词条;根据所述网页文本中每一词条的出现频率,计算所述网页文本中每一词条的初始权重;当所述网页文本中的任一词条为关键词条时,增大所述关键词条的初始权重,得到所述关键词条的目标权重;当所述网页文本中的任一词条为非关键词条时,将所述非关键词条的初始权重作为所述非关键词条的目标权重;利用所述网页文本中每一词条的目标权重,计算得到每一句子的句子权重;根据所述句子权重,选择摘要句子,并由所述摘要句子生成网页文本摘要。本申请实施例提高了网页文本摘要的准确度。
Description
技术领域
本申请涉及信息处理技术领域,更具体的说是涉及一种网页文本摘要生成方法和装置。
背景技术
网页文本摘要是能够反映网页文本中心内容的简洁连贯的短文,在网络信息传输中,通过网页文本摘要可以实现信息快速浏览,减少网络搜索时间等优点,因此网页文本摘要的自动生成是网络信息传输过程中的重要技术。
现有技术中,一种网页文本摘要的生成方法主要利用出现频率等统计信息,确定出能够代表网页文本主题的句子作为摘要句,由摘要句组成网页文本摘要。
但是现有的这种方式,仅利用出现频率等统计信息得到的摘要句,并不能准确反映网页文本主题。
发明内容
有鉴于此,本申请提供了一种网页文本摘要生成方法和装置,用以提高网页文本摘要的准确度。
为实现上述目的,本申请提供如下技术方案:
一种网页文本摘要生成方法,包括:
确定网页文本中的关键词条;
根据所述网页文本中每一词条的出现频率,计算所述网页文本中每一词条的初始权重;
当所述网页文本中的任一词条为关键词条时,增大所述关键词条的初始权重,得到所述关键词条的目标权重;
当所述网页文本中的任一词条为非关键词条时,将所述非关键词条的初始权重作为所述非关键词条的目标权重;
利用所述网页文本中每一词条的目标权重,计算得到每一句子的句子权重;
根据所述句子权重,选择摘要句子,并由所述摘要句子生成网页文本摘要。
优选地,所述确定所述网页文本中的关键词条包括:
至少确定所述网页文本中标题中的词条、小标题中的词条、超链接中的词条、标签中的词条和/或出现频率大于预设值的词条作为关键词条。
优选地,当所述网页文本中的任一词条为关键词条时,增大所述关键词条的初始权重,得到所述关键词条的目标权重包括:
当所述网页文本中的任一词条为关键词条时,将所述关键词条的类型对应的权重比例因子与所述关键词条的初始权重相乘,得到所述关键词条的目标权重,所述关键词条的权重比例因子为大于1的自然数。
优选地,所述根据所述网页文本中每一词条的出现频率,计算所述网页文本中每一词条的初始权重包括:
根据所述网页文本中每一词条的出现频率,按照第一权重计算公式,计算所述述网页文本中每一词条的初始权重;
所述第一权重计算公式为:
其中,表示词条tk的初始权重,k=1、2、……n,n为网页文本中的词条数量;tfk表示词条tk的在网页文本中的出现次数;N为网页文本中的段落数目;nk表示存在词条tk的段落数量;N/nk表示词条tk的段落密度;
则当所述网页文本中的任一词条为关键词条时,增大所述关键词条的初始权重,得到所述关键词条的目标权重包括:
当所述网页文本中的任一词条为关键词条时,按照第二权重计算公式,得到所述关键词条的目标权重;
所述第二权重计算公式为:
其中,β表示关键词条的权重比例因子,表示词条tk的初始权重;
则所述利用所述网页文本中每一词条的目标权重,计算得到每一句子的句子权重包括:
利用所述网页文本中每一词条的目标权重,按照第三权重计算公式,得到每一句子的句子权重;
所述第三权重计算公式为:
其中,s(i)为网页文本中的第i个句子;ws(i)表示s(i)的权重;表示词条tk的初始权重;Len(s(i))为句子s(i)中的词条数量;α为结构比例因子;
f1表示句子s(i)中具有特殊格式的词条的数量;
f2表示句子s(i)中的书签词语和超链接词语的总数量;
f3表示句子s(i)位于网页文本的段落的段首时取值为1,位于网页文本中段落的段尾时取值为0;
f4表示句子s(i)包括指示性词语时取值为1,否则取值为0。
优选地,所述根据所述句子权重,选择摘要句子,并由所述摘要句子生成网页文本摘要包括:
按照句子权重从大到小的顺序,选择预设数量的句子作为摘要句子;
计算任意两个摘要句子之间的相似度;
将相似度大于预设值的任意两个摘要句子中的其中一个冗余句子删除;
由删除冗余句子之后的摘要句子生成网页文本摘要。
优选地,计算任意两个摘要句子之间的相似度包括:
按照相似度计算公式,计算任意两个摘要句子之间的相似度;
所述相似度计算公式为:
si和sj表示任意的两个摘要句子;ds(si,sj)表示si和sj的相似度;ik表示句子si中的词条,jl为sj中的词条;表示词条ik与句子sj的中每一词条之间的词义距离,词义距离表示词义相似度;d(ik)表示si中词条ik与句子jl的词义距离。
一种网页文本摘要生成装置,包括:
关键词条确定模块,用于确定所述网页文本中的关键词条;
第一权重确定模块,用于根据所述网页文本中每一词条的出现频率,计算所述网页文本中每一词条的初始权重;
第二权重确定模块,用于当所述网页文本中的任一词条为关键词条时,增大所述关键词条的初始权重,得到所述关键词条的目标权重;当所述网页文本中的任一词条为非关键词条时,将所述非关键词条的初始权重作为所述非关键词条的目标权重;
句子权重确定模块,用于利用所述网页文本中每一词条的目标权重,计算得到每一句子的句子权重;
摘要生成模块,用于根据所述句子权重,选择摘要句子,并由所述摘要句子生成网页文本摘要。
优选地,所述第一权重计算模块包括:
第一权重计算单元,用于根据所述网页文本中每一词条的出现频率,按照第一权重计算公式,计算所述述网页文本中每一词条的初始权重;
所述第一权重计算公式为:
其中,表示词条tk的初始权重,k=1、2、……n,n为网页文本中的词条数量;tfk表示词条tk的在网页文本中的出现次数;N为网页文本中的段落数目;nk表示存在词条tk的段落数量;N/nk表示词条tk的段落密度;
所述第二权重计算模块包括:
第二权重计算单元,用于当所述网页文本中的任一词条为关键词条时,按照第二权重计算公式,得到所述关键词条的目标权重;
所述第二权重计算公式为:
其中,β表示关键词条的权重比例因子,表示词条tk的初始权重;
第三权重计算单元,用于当所述网页文本中的任一词条为非关键词条时,将所述非关键词条的初始权重作为所述非关键词条的目标权重;
所述句子权重计算模块包括:
句子权重计算单元,用于利用所述网页文本中每一词条的目标权重,按照第三权重计算公式,得到每一句子的句子权重;
所述第三权重计算公式为:
其中,s(i)为网页文本中的第i个句子;ws(i)表示s(i)的权重;表示词条tk的初始权重;Len(s(i))为句子s(i)中的词条数量;α为结构比例因子;
f1表示句子s(i)中具有特殊格式的词条的数量;
f2表示句子s(i)中的书签词语和超链接词语的总数量;
f3表示句子s(i)位于网页文本的段落的段首时取值为1,位于网页文本中段落的段尾时取值为0;
f4表示句子s(i)包括指示性词语时取值为1,否则取值为0。
优选地,所述摘要生成模块包括:
选择单元,用于按照句子权重从大到小的顺序,选择预设数量的句子作为摘要句子;
相似度确定单元,用于计算任意两个摘要句子之间的相似度;
冗余消除单元,用于将相似度大于预设值的任意两个摘要句子中的其中一个冗余句子删除;
摘要生成单元,用于由删除冗余句子之后的摘要句子生成网页文本摘要。
优选地,所述相似度确定单元具体用于按照相似度计算公式,计算任意两个摘要句子之间的相似度;
所述相似度计算公式为:
si和sj表示任意的两个摘要句子;ds(si,sj)表示si和sj的相似度;ik表示句子si中的词条,jl为sj中的词条;表示词条ik与句子sj的中每一词条之间的词义距离,词义距离表示词义相似度;d(ik)表示si中词条ik与句子jl的词义距离。
经由上述的技术方案可知,与现有技术相比,本申请提供了一种网页文本摘要生成方法和装置,通常确定网页文本中的关键词条,并在计算出网页文本每一词条的初始权重时,若词条为关键词条,则将初始权重增大,得到关键词条的目标权重,若词条为非关键词条,则初始权重即作为目标权重,由于关键词条是与网页文本的主题最接近的词条,因此关键词条的目标权重可以准确表示关键词条在网页文本中的重要程度,加强了关键词条的重要性,可以得到更准确的句子权重,能够提高最终得到的摘要句子的准确性,从而提高了网页文本摘要的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种网页文本摘要生成方法一个实施例的流程图;
图1a为本申请实施例提供的网页文本的结构层次示意图;
图2为本申请实施例提供的一种网页文本摘要生成方法另一个实施例的流程图;
图3为本申请实施例提供的一种网页文本摘要生成方法又一个实施例的流程图;
图4为本申请实施例提供的一种网页文本摘要生成方法一个实施例的结构示意图;
图5为本申请实施例提供的一种网页文本摘要生成方法另一个实施例的结构示意图;
图6为本申请实施例提供的一种网页文本摘要生成方法又一个实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,首先确定网页文本中的关键词条,并在计算出网页文本每一词条的初始权重时,若词条为关键词条,则将初始权重增大,得到关键词条的目标权重,若词条为非关键词条,则初始权重即作为目标权重,由于关键词条是与网页文本的主题最接近的词条,因此关键词条的目标权重可以准确表示关键词条在网页文本中的重要程度,加强了关键词条的重要性,可以得到更准确的句子权重,能够提高最终得到的摘要句子的准确性,从而提高了网页文本摘要的准确度。
图1为本申请实施例提供的一种网页文本摘要生成方法一个实施例的流程图,该方法可以包括以下几个步骤:
101:确定网页文本中的关键词条。
102:根据所述网页文本中每一词条的出现频率,计算所述网页文本中每一词条的初始权重。
103:当所述网页文本中的任一词条为关键词条时,增大所述关键词条的初始权重,得到所述关键词条的目标权重。
104:当所述网页文本中的任一词条为非关键词条时,将所述非关键词条的初始权重作为所述非关键词条的目标权重。
105:利用所述网页文本中每一词条的目标权重,计算得到每一句子的句子权重。
106:根据所述句子权重,选择摘要句子,并由所述摘要句子生成网页文本摘要。
权重表示词条在网页文本中的重要程度。
初始权重是利用词条在网页文本中的出现频率等统计信息计算得到的,在现有技术中,通常是根据每一词条的初始权重计算得到每一句子的句子权重,但是由于初始权重仅是利用词条在网页文本中的出现频率计算得到,因此初始权重并不能准确表示词条在网页文本中的重要程度,容易导致得到摘要句子冗余。因此本实施例中,首先确定出网页文本中的关键词条,关键词条是指网页文本中较为重要的、与网页文本的主题最接近的词条。
由于关键词条是与网页文本的主题最接近的词条,因此需要增大关键词条的初始权重,得到目标权重,使得目标权重可以准确表示关键词条在网页文本中的重要程度,能够提高最终得到的摘要句子的准确性,使得网页文本摘要更准确,且可以减少句子冗余。
其中,关键词条的确定可以有多种实现方式,且由于不同类型的网页文本具有不同的特征,因此网页文本中关键词条可以是:
网页文本中的标题中的词条、小标题中的词条、超链接中的词条、标签中的词条、和/或出现频率大于预设值的词条。
由于标题和小标题中的词条能够更加突出网页文本的主题内容以及整体框架,通过标题和小标题有助于理清网页文本中的语义结构层次,因此可以选择标题和/小标题中的词条作为关键词条。
通常,网页文本中重要或需要强调的内容,会采用超链接或标签、或者采用特殊格式,如加黑、斜体、特定颜色等进行标注,因此可以选择超链接、标签、和/或具有特殊格式的文字、段落中的词条作为关键词条。
具有特定内容或特定类型的网页文本,通常属于该特定内容或特定类型的专有名词在网页文本中的出现频率较高,因此可以将出现频率大于预设值的词条作为关键词条。
在本申请实施例的一个应用场景中,所述网页文本的类型可以为新闻,即网页文本具体指网页新闻。网页新闻即具有如下特点:
(1)网页新闻的标题更突出主题,首段是对整篇新闻概括性的论述。
(2)正文内容中含有小标题,小标题的识别有助于把握文章的主题和整体框架,每一个小标题后面的段落围绕该小标题展开,有助于理清文章的语义结构层次。
(3)语言简洁、规范,专有名词出现频率高。
(4)当新闻中有些内容重要或需要强调的时候,将用超链接或书签指向这些内容
(5)对一些重要的文字或段落用一些加黑<b></b>、斜体<i></i>、颜色<color=””>、分级标题<h1></h1>等排版格式来展示。
因此,可以根据网页文本的类型,确定出网页文本的关键词条。
根据关键词条的确定依据,关键词条具有不同的类型,以网页新闻为例,可以将确定关键词条分为三类,该三类的关键词条可以按照如下方式确定:
第一类关键词:通常网页新闻的标题被视为提示主题的关键特征,且所有的网页新闻都包含头部内容,头部内容中最常用的标记符是title标签和meta标签。title标签以及head标签中包含网页文本的标题,标题被视为提示网页文本主题的关键特征,meta元数据主要包括关键字和摘要词。因此利用网页文本的HTML文档中的网页标识特征,将title标签、head标签和meta标签中的词作为第一类关键词条。
第二类关键词:网页新闻中的小标题将连续的自然段分割为若干个块,小标题即为所属块概括性的主旨短语或主旨句。小标题可以通过HTML标记中的各级子标题(<h1>,<h2>,…)提取。小标题中的词作为第二类关键词条,有助于把握文章的主题和整体框架,有助于理清文章的结构层次。
第三类关键词:为了使阅读简单易懂,新闻语言形式规范,描述事件的词语呈归一化,其同义词出现频率非常低,因此反复出现的名词往往具有重要的作用,我们把文章中出现频数最高的前N位名词可以作为第三类关键词条,N为大于等于1的整数,可以根据实际应用情况确定。
本申请实施例中,若词条为关键词条,则在该关键词条的初始权重基础上,需要增大所述初始权重,以得到关键词条的目标权重。若词条为非关键词条,则初始权重即作为目标权重。
目标权重能够更准确的表示词条在网页文本中的重要程度,提高了关键词条的重要性。使得在利用词条的目标权重计算句子权重时,可以得到更准确的句子权重,使得摘要句子能够更准确反映网页文本主题。
本申请实施例通过增大关键词条的权重,突出关键词条的重要性,进而提高了网页文本摘要的准确度。
初始权重的计算以及句子权重的计算可以有多种实现算法,在下面实施例中会进行介绍。
其中,句子权重的计算,可以按照下述公式实现:
其中,s(i)为网页文本中的第i个句子;ws(i)表示s(i)的权重;表示词条tk的初始权重;Len(s(i))为句子s(i)中的词条数量;α为结构比例因子。
f1表示句子s(i)中具有特殊格式的词条的数量,其中,特殊格式包括特定字体、特定颜色、特定背景、下划线等格式。特定字体例如可以是黑体、斜体等,特定颜色例如蓝色、绿色等。
f2表示句子s(i)中的书签(bookmark)词语和超链接(hypertext)词语的总数量。
f3表示句子s(i)位于网页文本的段落的段首,取值为1,位于网页文本中段落的段尾,取值为0。
f4表示句子s(i)包括指示性词语,取值为1,否则取值为0。其中,指示性词语包括短语“总之”,“综上所述”等具有概括性含义的词条。
该公式的具体描述可以参见下述实施例。
其中,根据句子权重选择摘要句子,可以是根据对网页文本摘要的句子数量的要求,按照句子权重从大到小的顺序,选择预设数量的句子作为摘要句子,也即选择句子权重较大的预设数量个句子作为摘要句子。
或者是,选择句子权重大于预设数值的句子作为摘要句子。
将获得的摘要句子,按照在网页文本中的出现顺序依次排列组合,即可以得到由摘要句子生成的网页文本摘要。
由于网页文本具有结构层次,如图1a所述,为网页文本的结构层次图,因此,在确定网页文本中的关键词时,可以将网页文本按照结构层次进行分割,依次得到网页的块、段落、句子以及词条等,从而能够更方便快速的得到关键词条。
由于网页文本是通过HTML标记提供了对文本摘要工作有利的一些辅助信息,包括:文档标题<Title>,各级子标题(<h1>,<h2>,…),强调句<strong>,超链接等等。但是,网页文本中的信息除了正文内容外,还包括大量的噪声,这些噪声包括脚本、广告链接、导航链接、版权信息等等。而对于网页文本做自动摘要,需要的则是网页的正文信息,而其他的都是无用信息。
因此,需要将网页文本进行预处理,预处理可以包括:将无用信息过滤掉;去除停用词;同时,还可以包括对网页文本正文进行分词和词性标注,从而可以方便快速确定出关键词条。
因此,确定网元文本中的关键词条具体是确定预处理之后的网页文本中的关键词条。
计算所述网页文本中每一词条的初始权重具体是计算所述预处理之后的网页文本中每一词条的初始权重。
其中,增大关键词条的初始权重,得到关键词条的目标权重,具体可以是将关键词条的初始权重乘以权重比例因子,得到关键词条的目标权重,权重比例因子为大于1的自然数,
由于关键词条根据其获取来源,可以分为不同的类型,例如上文描述中的第一类关键词条、第二类关键词条以及第三类关键词条等,不同类型的关键词条可以对应不同的权重比例因子,因此在计算关键词条的目标权重时,是将所述关键词条的类型对应的权重比例因子,与所述关键词条的初始权重相乘,得到所述关键词条的目标权重。
非关键词条的目标权重即为初始权重,非关键词条对应的权重比例因子即为1。
关键词的权重比例因子可以根据实际应用情况确定,以网页文本为网页新闻为例,第一类关键词的权重比例因子可以为2,第二类关键词的权重比例因子可以为1.5,第三类关键词的权重比例因子可以为1.2。
图2为本申请实施例提供一种网页文本摘要生成方法一个实施例的流程图,该方法可以包括以下几个步骤:
201:确定所述网页文本中的关键词条。
具体的,可以至少确定所述网页文本中标题中的词条、小标题中的词条、超链接中的词条、标签中的词条和/或出现频率大于预设值的词条作为关键词条。
202:根据所述网页文本中每一词条的出现频率,按照第一权重计算公式,计算所述网页文本中每一词条的初始权重。
其中,该第一权重计算公式为:
其中,表示词条tk的初始权重,k=1、2、……n,n为网页文本中的词条数量;tfk表示词条tk的在网页文本中的出现次数;N为网页文本中的段落数目;nk表示存在词条tk的段落数量;N/nk表示词条tk的段落密度。
203:当所述网页文本中的任一词条为关键词条时,按照第二权重计算公式,得到所述关键词条的目标权重。
其中,第二权重计算公式为:
其中,β表示关键词条的权重比例因子,表示词条tk的初始权重。
204:当所述网页文本中的任一词条为非关键词条时,将所述非关键词条的初始权重作为所述非关键词条的目标权重。
205:利用所述网页文本中每一词条的目标权重,按照第三权重计算公式,得到每一句子的句子权重。
其中,第三权重计算公式为:
其中,s(i)为网页文本中的第i个句子;ws(i)表示s(i)的权重;表示词条tk的初始权重;Len(s(i))为句子s(i)中的词条数量;α为结构比例因子。
f1表示句子s(i)中具有特殊格式的词条的数量,其中,特殊格式包括特定字体、特定颜色、特定背景、下划线等格式。特定字体例如可以是黑体、斜体等,特定颜色例如蓝色、绿色等。
f2表示句子s(i)中的书签词语和超链接词语的总数量。
f3表示句子s(i)位于网页文本的段落的段首,取值为1,位于网页文本中段落的段尾,取值为0。
f4表示句子s(i)包括指示性词语,取值为1,否则取值为0。其中,指示性词语包括短语“总之”,“综上所述”等具有概括性含义的词条。
其中,α为结构比例因子的确定可以采用预设数值,或者按照下述方式训练得到:
假设T为训练文本,S为训练文本T的摘要句子集合,t为训练文本中的句子,s为摘要句子集合S中的句子。
(1)初始α设为0.1,步长step为0.01;
(2)对训练文本中的每个句子t计算句子权重Wt,具体计算过程可以参见上述描述,并按照权重从大到小进行排序,选取前len(S)个句子,len(S)为摘要句子集合S中的句子数;
(3)若选出的句子存在句子则α=α+step;
(4)返回步骤(2)继续执行,直至选出的句子t全部属于S,此时的α的取值即为最终的结构比例因子。
206:根据所述句子权重,选择摘要句子,并由所述摘要句子生成网页文本摘要。
为了使得网页文本摘要更加简洁,对于得到摘要句子,可以进一步进行优先。
因此,作为又一实施例,该步骤106的操作可以具体包括:
按照句子权重从大到小的顺序,选择预设数量的句子作为摘要句子;
计算任意两个摘要句子之间的相似度;
将相似度大于预设值的任意两个摘要句子中的其中一个冗余句子删除;
由删除冗余句子之后的摘要句子生成网页文本摘要。
基于不同网页文本的类型,特别是网页新闻,为了起到强调作用,容易在文章中的不同位置用不同形式的句子重复网页文本的中心内容,这些句子很可能都会作为摘要句子,从而造成网页文本摘要的冗余。因此,可以通过计算句子之间相似度,将相似度较高的任意两个摘要句子中的其中一个冗余句子删除,以消除冗余。再由删除冗余句子之后的摘要句子生成网页文本摘要,可以进一步提高文本摘要的简洁度。
其中,计算任意两个摘要句子之间的相似度可以按照相似度计算公式得到。该相似度计算公式为:
si和sj表示任意的两个摘要句子;ds(si,sj)表示si和sj的相似度;ik表示句子si中的词条,jl为sj中的词条;表示词条ik与句子sj的中每一词条之间的词义距离,词义距离表示词义相似度;d(ik)表示si中词条ik与句子jl的词义距离。
ds(si,sj)越大,表示句子si和sj越接近,聚合度越高,形容冗余,因此将其中的一个冗余句子删除。再由删除冗余句子之后的摘要句子组成网页文本摘要,以提高网页文本摘要准确度的同时,提高网页文本摘要的简洁性。
图3为本申请实施例提供的一种网页文本摘要生成方法一个实施例的流程图,该方法可以包括以下几个步骤:
301:确定所述网页文本中的关键词条。
302:按照目标权重计算公式,计算所述网页文本中每一词条的目标权重。
其中,该目标权重计算公式:
其中,表示词条tk的初始权重,k=1、2、……n,n为网页文本中的词条数量;tfk表示词条tk的在网页文本中的出现次数;N为网页文本中的段落数目;nk表示存在词条tk的段落数量;N/nk表示词条tk的段落密度;当词条为非关键词条时,λ=1;当词条为关键词条时,λ>1,此时λ即为关键词条的权重比例因子β,根据关键词类型的不同取值不同。
303:利用所述网页文本中每一词条的目标权重,计算得到每一句子的句子权重。
304:根据所述句子权重,选择摘要句子,并由所述摘要句子生成网页文本摘要。
步骤303以及步骤304的操作可以参见图1或图2所对应的实施例中所述。在此不再赘述。
本实施例中,可以直接根据目标权重计算公式得到每一词条的目标权重,目标权重根据词条是否为关键词条,而权重比例因子不同,以能够提高关键词条的重要性,使得得到的网页文本摘要更准确。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
图4为本申请实施例提供的一种网页文本摘要生成装置一个实施例的结构示意图,所述装置可以包括:
关键词条确定模块401,用于确定所述网页文本中的关键词条。
第一权重确定模块402,用于根据所述网页文本中每一词条的出现频率,计算所述网页文本中每一词条的初始权重。
第二权重确定模块403,用于当所述网页文本中的任一词条为关键词条时,增大所述关键词条的初始权重,得到所述关键词条的目标权重;当所述网页文本中的任一词条为非关键词条时,将所述非关键词条的初始权重作为所述非关键词条的目标权重。
句子权重确定模块404,用于利用所述网页文本中每一词条的目标权重,计算得到每一句子的句子权重。
摘要生成模块405,用于根据所述句子权重,选择摘要句子,并由所述摘要句子生成网页文本摘要。
由于关键词条是与网页文本的主题最接近的词条,因此本实施例中通过增大关键词条的初始权重,得到目标权重,使得目标权重可以准确表示关键词条在网页文本中的重要程度,能够提高最终得到的摘要句子的准确性,使得网页文本摘要更准确,且可以减少句子冗余。
图5为本申请实施例提供的一种网页文本摘要生成装置另一个实施例的结构示意图,所述装置可以包括关键词条确定模块401、第一权重确定模块402、第二权重确定模块403、句子权重确定模块404以及摘要生成模块405,各个模块功能可以参见图4所对应实施例中所述,其中,在本实施例中:
所述第一权重计算模块402可以包括:
第一权重计算单元501,用于根据所述网页文本中每一词条的出现频率,按照第一权重计算公式,计算所述述网页文本中每一词条的初始权重;
所述第一权重计算公式为:
其中,表示词条tk的初始权重,k=1、2、……n,n为网页文本中的词条数量;tfk表示词条tk的在网页文本中的出现次数;N为网页文本中的段落数目;nk表示存在词条tk的段落数量;N/nk表示词条tk的段落密度。
所述第二权重计算模块403可以包括:
第二权重计算单元502,用于当所述网页文本中的任一词条为关键词条时,按照第二权重计算公式,得到所述关键词条的目标权重;
所述第二权重计算公式为:
其中,β表示关键词条的权重比例因子,表示词条tk的初始权重;
第三权重计算单元503,用于当所述网页文本中的任一词条为非关键词条时,将所述非关键词条的初始权重作为所述非关键词条的目标权重。
所述句子权重计算模块404可以包括:
句子权重计算单元504,用于利用所述网页文本中每一词条的目标权重,按照第三权重计算公式,得到每一句子的句子权重;
所述第三权重计算公式为:
其中,s(i)为网页文本中的第i个句子;ws(i)表示s(i)的权重;表示词条tk的初始权重;Len(s(i))为句子s(i)中的词条数量;α为结构比例因子;
f1表示句子s(i)中具有特殊格式的词条的数量;
f2表示句子s(i)中的书签(bookmark)词语和超链接(hypertext)词语的总数量;
f3表示句子s(i)位于网页文本的段落的段首时取值为1,位于网页文本中段落的段尾时取值为0;
f4表示句子s(i)包括指示性词语时取值为1,否则取值为0。
其中,α的确定可以参见方法实施例中所述,在此不再赘述。
其中,作为又一个实施例,该摘要生成模块405可以包括:
选择单元505,用于按照句子权重从大到小的顺序,选择预设数量的句子作为摘要句子;
相似度确定单元506,用于计算任意两个摘要句子之间的相似度;
冗余消除单元507,用于将相似度大于预设值的任意两个摘要句子中的其中一个冗余句子删除;
摘要生成单元508,用于由删除冗余句子之后的摘要句子生成网页文本摘要。
基于不同网页文本的类型,特别是网页新闻,为了起到强调作用,容易在文章中的不同位置用不同形式的句子重复网页文本的中心内容,这些句子很可能都会作为摘要句子句,从而造成文本摘要的冗余。因此,可以通过计算句子之间相似度,将相似度较高的任意两个摘要句子中的其中一个冗余句子删除,以消除冗余。再由删除冗余句子之后的摘要句子生成网页文本摘要,可以进一步提高文本摘要的简洁度。
其中,所述相似度确定单元可以具体用于按照相似度计算公式,计算任意两个摘要句子之间的相似度;
所述相似度计算公式为:
一词条之间的词义距离,词义距离表示词义相似度。d(ik)表示si中词条ik与句子jl的词义距离。
ds(si,sj)越大,表示句子si和sj越接近,聚合度越高,形容冗余,因此将其中的一个冗余句子删除。再由删除冗余句子之后的摘要句子组成网页文本摘要,以提高网页文本摘要准确度的同时,提高网页文本摘要的简洁性。
图6为本申请实施例提供的一种网页文本摘要生成装置又一个实施例的结构示意图,所述装置可以包括:
关键词条确定模块601,用于确定所述网页文本中的关键词条。
目标权重计算模块602,用于按照目标权重计算公式,计算所述网页文本中每一词条的目标权重。
其中,该目标权重计算公式:
其中,表示词条tk的初始权重,k=1、2、……n,n为网页文本中的词条数量;tfk表示词条tk的在网页文本中的出现次数;N为网页文本中的段落数目;nk表示存在词条tk的段落数量;N/nk表示词条tk的段落密度;当词条为非关键词条时,λ=1;当词条为关键词条时,λ>1,此时λ即为关键词条的权重比例因子β,根据关键词类型的不同取值不同。
句子权重计算模块603,用于利用所述网页文本中每一词条的目标权重,计算得到每一句子的句子权重。
摘要生成模块604,用于根据所述句子权重,选择摘要句子,并由所述摘要句子生成网页文本摘要。
本实施例中,可以直接根据目标权重计算公式得到每一词条的目标权重,目标权重根据词条是否为关键词条,而权重比例因子不同,以能够提高关键词条的重要性,使得得到的网页文本摘要更准确。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种网页文本摘要生成方法,其特征在于,包括:
确定网页文本中的关键词条;
根据所述网页文本中每一词条的出现频率,计算所述网页文本中每一词条的初始权重;
当所述网页文本中的任一词条为关键词条时,增大所述关键词条的初始权重,得到所述关键词条的目标权重;
当所述网页文本中的任一词条为非关键词条时,将所述非关键词条的初始权重作为所述非关键词条的目标权重;
利用所述网页文本中每一词条的目标权重,计算得到每一句子的句子权重;
根据所述句子权重,选择摘要句子,并由所述摘要句子生成网页文本摘要。
2.根据权利要求1所述的方法,其特征在于,所述确定所述网页文本中的关键词条包括:
至少确定所述网页文本中标题中的词条、小标题中的词条、超链接中的词条、标签中的词条和/或出现频率大于预设值的词条作为关键词条。
3.根据权利要求1或2所述的方法,其特征在于,当所述网页文本中的任一词条为关键词条时,增大所述关键词条的初始权重,得到所述关键词条的目标权重包括:
当所述网页文本中的任一词条为关键词条时,将所述关键词条的类型对应的权重比例因子与所述关键词条的初始权重相乘,得到所述关键词条的目标权重,所述关键词条的权重比例因子为大于1的自然数。
4.根据权利要求1或2所述的方法,其特征在于,所述根据所述网页文本中每一词条的出现频率,计算所述网页文本中每一词条的初始权重包括:
根据所述网页文本中每一词条的出现频率,按照第一权重计算公式,计算所述述网页文本中每一词条的初始权重;
所述第一权重计算公式为:
其中,表示词条tk的初始权重,k=1、2、……n,n为网页文本中的词条数量;tfk表示词条tk的在网页文本中的出现次数;N为网页文本中的段落数目;nk表示存在词条tk的段落数量;N/nk表示词条tk的段落密度;
则当所述网页文本中的任一词条为关键词条时,增大所述关键词条的初始权重,得到所述关键词条的目标权重包括:
当所述网页文本中的任一词条为关键词条时,按照第二权重计算公式,得到所述关键词条的目标权重;
所述第二权重计算公式为:
其中,β表示关键词条的权重比例因子,表示词条tk的初始权重;
则所述利用所述网页文本中每一词条的目标权重,计算得到每一句子的;句子权重包括:
利用所述网页文本中每一词条的目标权重,按照第三权重计算公式,得到每一句子的句子权重;
所述第三权重计算公式为:
其中,s(i)为网页文本中的第i个句子;ws(i)表示s(i)的权重;表示词条tk的初始权重;Len(s(i))为句子s(i)中的词条数量;α为结构比例因子;
f1表示句子s(i)中具有特殊格式的词条的数量;
f2表示句子s(i)中的书签词语和超链接词语的总数量;
f3表示句子s(i)位于网页文本的段落的段首时取值为1,位于网页文本中段落的段尾时取值为0;
f4表示句子s(i)包括指示性词语时取值为1,否则取值为0。
5.根据权利要求1所述的方法,其特征在于,所述根据所述句子权重,选择摘要句子,并由所述摘要句子生成网页文本摘要包括:
按照句子权重从大到小的顺序,选择预设数量的句子作为摘要句子;
计算任意两个摘要句子之间的相似度;
将相似度大于预设值的任意两个摘要句子中的其中一个冗余句子删除;
由删除冗余句子之后的摘要句子生成网页文本摘要。
6.根据权利要求5所述的方法,其特征在于,计算任意两个摘要句子之间的相似度包括:
按照相似度计算公式,计算任意两个摘要句子之间的相似度;
所述相似度计算公式为:
si和sj表示任意的两个摘要句子;ds(si,sj)表示si和sj的相似度;ik表示句子si中的词条,jl为sj中的词条;表示词条ik与句子sj的中每一词条之间的词义距离,词义距离表示词义相似度;d(ik)表示si中词条ik与句子jl的词义距离。
7.一种网页文本摘要生成装置,其特征在于,包括:
关键词条确定模块,用于确定所述网页文本中的关键词条;
第一权重确定模块,用于根据所述网页文本中每一词条的出现频率,计算所述网页文本中每一词条的初始权重;
第二权重确定模块,用于当所述网页文本中的任一词条为关键词条时,增大所述关键词条的初始权重,得到所述关键词条的目标权重;当所述网页文本中的任一词条为非关键词条时,将所述非关键词条的初始权重作为所述非关键词条的目标权重;
句子权重确定模块,用于利用所述网页文本中每一词条的目标权重,计算得到每一句子的句子权重;
摘要生成模块,用于根据所述句子权重,选择摘要句子,并由所述摘要句子生成网页文本摘要。
8.据权利要求7述的装置,其特征在于,所述第一权重计算模块包括:
第一权重计算单元,用于根据所述网页文本中每一词条的出现频率,按照第一权重计算公式,计算所述述网页文本中每一词条的初始权重;
所述第一权重计算公式为:
其中,表示词条tk的初始权重,k=1、2、……n,n为网页文本中的词条数量;tfk表示词条tk的在网页文本中的出现次数;N为网页文本中的段落数目;nk表示存在词条tk的段落数量;N/nk表示词条tk的段落密度;
所述第二权重计算模块包括:
第二权重计算单元,用于当所述网页文本中的任一词条为关键词条时,按照第二权重计算公式,得到所述关键词条的目标权重;
所述第二权重计算公式为:
其中,β表示关键词条的权重比例因子,表示词条tk的初始权重;
第三权重计算单元,用于当所述网页文本中的任一词条为非关键词条时,将所述非关键词条的初始权重作为所述非关键词条的目标权重;
所述句子权重计算模块包括:
句子权重计算单元,用于利用所述网页文本中每一词条的目标权重,按照第三权重计算公式,得到每一句子的句子权重;
所述第三权重计算公式为:
其中,s(i)为网页文本中的第i个句子;ws(i)表示s(i)的权重;表示词条tk的初始权重;Len(s(i))为句子s(i)中的词条数量;α为结构比例因子;
f1表示句子s(i)中具有特殊格式的词条的数量;
f2表示句子s(i)中的书签词语和超链接词语的总数量;
f3表示句子s(i)位于网页文本的段落的段首时取值为1,位于网页文本中段落的段尾时取值为0;
f4表示句子s(i)包括指示性词语时取值为1,否则取值为0。
9.根据权利要求7或8所述的装置,其特征在于,所述摘要生成模块包括:
选择单元,用于按照句子权重从大到小的顺序,选择预设数量的句子作为摘要句子;
相似度确定单元,用于计算任意两个摘要句子之间的相似度;
冗余消除单元,用于将相似度大于预设值的任意两个摘要句子中的其中一个冗余句子删除;
摘要生成单元,用于由删除冗余句子之后的摘要句子生成网页文本摘要。
10.根据权利要求9所述的装置,其特征在于,所述相似度确定单元具体用于按照相似度计算公式,计算任意两个摘要句子之间的相似度;
所述相似度计算公式为:
si和sj表示任意的两个摘要句子;ds(si,sj)表示si和sj的相似度;ik表示句子si中的词条,jl为sj中的词条;表示词条ik与句子sj的中每一词条之间的词义距离,词义距离表示词义相似度;d(ik)表示si中词条ik与句子jl的词义距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410405758.3A CN104156452A (zh) | 2014-08-18 | 2014-08-18 | 一种网页文本摘要生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410405758.3A CN104156452A (zh) | 2014-08-18 | 2014-08-18 | 一种网页文本摘要生成方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104156452A true CN104156452A (zh) | 2014-11-19 |
Family
ID=51881950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410405758.3A Pending CN104156452A (zh) | 2014-08-18 | 2014-08-18 | 一种网页文本摘要生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104156452A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408033A (zh) * | 2014-11-25 | 2015-03-11 | 中国人民解放军国防科学技术大学 | 一种文本信息提取的方法及系统 |
CN104615654A (zh) * | 2014-12-30 | 2015-05-13 | 中国联合网络通信有限公司广东省分公司 | 一种文本摘要获取方法及装置 |
CN105760546A (zh) * | 2016-03-16 | 2016-07-13 | 广州索答信息科技有限公司 | 互联网新闻摘要的自动生成方法和装置 |
CN105786849A (zh) * | 2014-12-22 | 2016-07-20 | 北京奇虎科技有限公司 | 一种文档类网页自定义摘要的生成方法和系统 |
CN105786835A (zh) * | 2014-12-22 | 2016-07-20 | 北京奇虎科技有限公司 | 一种搜索结果中图片网页自定义摘要的显示方法和系统 |
CN105786836A (zh) * | 2014-12-22 | 2016-07-20 | 北京奇虎科技有限公司 | 一种对影视网页的结构化摘要生成方法与系统 |
CN105786834A (zh) * | 2014-12-22 | 2016-07-20 | 北京奇虎科技有限公司 | 一种社交类网页结构化摘要的生成方法和系统 |
CN106569989A (zh) * | 2016-10-20 | 2017-04-19 | 北京智能管家科技有限公司 | 一种用于短文本的去重方法及装置 |
CN106598949A (zh) * | 2016-12-22 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种词语对文本贡献度的确定方法及装置 |
WO2017092316A1 (zh) * | 2015-12-03 | 2017-06-08 | 乐视控股(北京)有限公司 | 摘要生成方法及装置 |
CN106897267A (zh) * | 2017-02-27 | 2017-06-27 | 广州阿里巴巴文学信息技术有限公司 | 文章缩略文意生成方法、装置及服务器 |
CN108520007A (zh) * | 2018-03-15 | 2018-09-11 | 江河瑞通(北京)技术有限公司 | 万维网网页信息提取方法、存储介质及计算机设备 |
CN108776676A (zh) * | 2018-02-02 | 2018-11-09 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、计算机可读介质及电子设备 |
CN108804472A (zh) * | 2017-05-04 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种网页内容抽取方法、装置及服务器 |
WO2018214486A1 (zh) * | 2017-05-23 | 2018-11-29 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
CN109522390A (zh) * | 2018-11-14 | 2019-03-26 | 山东大学 | 一种搜索结果展示方法和装置 |
CN109522544A (zh) * | 2018-09-27 | 2019-03-26 | 厦门快商通信息技术有限公司 | 基于卡方检验的句向量计算方法、文本分类方法及系统 |
CN110162778A (zh) * | 2019-04-02 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 文本摘要的生成方法及装置 |
CN110704608A (zh) * | 2019-08-29 | 2020-01-17 | 中国平安人寿保险股份有限公司 | 文本主题生成方法、装置和计算机设备 |
CN110705287A (zh) * | 2019-09-27 | 2020-01-17 | 北京妙笔智能科技有限公司 | 一种用于文本摘要的生成方法和系统 |
CN112231468A (zh) * | 2020-10-15 | 2021-01-15 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
CN113486172A (zh) * | 2021-07-12 | 2021-10-08 | 北京小米移动软件有限公司 | 文本摘要生成方法、装置及存储介质 |
CN113535940A (zh) * | 2020-04-17 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 事件摘要生成方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080033970A1 (en) * | 2006-08-07 | 2008-02-07 | Chacha Search, Inc. | Electronic previous search results log |
CN101620608A (zh) * | 2008-07-04 | 2010-01-06 | 全国组织机构代码管理中心 | 信息采集方法及系统 |
CN103246687A (zh) * | 2012-06-13 | 2013-08-14 | 苏州大学 | 基于特征信息的Blog自动摘要方法 |
-
2014
- 2014-08-18 CN CN201410405758.3A patent/CN104156452A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080033970A1 (en) * | 2006-08-07 | 2008-02-07 | Chacha Search, Inc. | Electronic previous search results log |
CN101620608A (zh) * | 2008-07-04 | 2010-01-06 | 全国组织机构代码管理中心 | 信息采集方法及系统 |
CN103246687A (zh) * | 2012-06-13 | 2013-08-14 | 苏州大学 | 基于特征信息的Blog自动摘要方法 |
Non-Patent Citations (1)
Title |
---|
于俊洋: "智能搜索引擎导航器的研究和设计", 《中国优秀硕士学位论文全文库》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408033A (zh) * | 2014-11-25 | 2015-03-11 | 中国人民解放军国防科学技术大学 | 一种文本信息提取的方法及系统 |
CN105786849A (zh) * | 2014-12-22 | 2016-07-20 | 北京奇虎科技有限公司 | 一种文档类网页自定义摘要的生成方法和系统 |
CN105786835A (zh) * | 2014-12-22 | 2016-07-20 | 北京奇虎科技有限公司 | 一种搜索结果中图片网页自定义摘要的显示方法和系统 |
CN105786836A (zh) * | 2014-12-22 | 2016-07-20 | 北京奇虎科技有限公司 | 一种对影视网页的结构化摘要生成方法与系统 |
CN105786834A (zh) * | 2014-12-22 | 2016-07-20 | 北京奇虎科技有限公司 | 一种社交类网页结构化摘要的生成方法和系统 |
CN104615654B (zh) * | 2014-12-30 | 2017-09-22 | 中国联合网络通信有限公司广东省分公司 | 一种文本摘要获取方法及装置 |
CN104615654A (zh) * | 2014-12-30 | 2015-05-13 | 中国联合网络通信有限公司广东省分公司 | 一种文本摘要获取方法及装置 |
WO2017092316A1 (zh) * | 2015-12-03 | 2017-06-08 | 乐视控股(北京)有限公司 | 摘要生成方法及装置 |
CN105760546A (zh) * | 2016-03-16 | 2016-07-13 | 广州索答信息科技有限公司 | 互联网新闻摘要的自动生成方法和装置 |
CN105760546B (zh) * | 2016-03-16 | 2019-07-30 | 广州索答信息科技有限公司 | 互联网新闻摘要的自动生成方法和装置 |
CN106569989A (zh) * | 2016-10-20 | 2017-04-19 | 北京智能管家科技有限公司 | 一种用于短文本的去重方法及装置 |
CN106598949A (zh) * | 2016-12-22 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种词语对文本贡献度的确定方法及装置 |
CN106598949B (zh) * | 2016-12-22 | 2019-01-04 | 北京金山办公软件股份有限公司 | 一种词语对文本贡献度的确定方法及装置 |
CN106897267B (zh) * | 2017-02-27 | 2020-06-02 | 广州阿里巴巴文学信息技术有限公司 | 文章缩略文意生成方法、装置及服务器 |
CN106897267A (zh) * | 2017-02-27 | 2017-06-27 | 广州阿里巴巴文学信息技术有限公司 | 文章缩略文意生成方法、装置及服务器 |
CN108804472A (zh) * | 2017-05-04 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种网页内容抽取方法、装置及服务器 |
CN108959312A (zh) * | 2017-05-23 | 2018-12-07 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
US10929452B2 (en) | 2017-05-23 | 2021-02-23 | Huawei Technologies Co., Ltd. | Multi-document summary generation method and apparatus, and terminal |
WO2018214486A1 (zh) * | 2017-05-23 | 2018-11-29 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
CN108959312B (zh) * | 2017-05-23 | 2021-01-29 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
CN108776676A (zh) * | 2018-02-02 | 2018-11-09 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、计算机可读介质及电子设备 |
CN108776676B (zh) * | 2018-02-02 | 2020-05-05 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、计算机可读介质及电子设备 |
CN108520007A (zh) * | 2018-03-15 | 2018-09-11 | 江河瑞通(北京)技术有限公司 | 万维网网页信息提取方法、存储介质及计算机设备 |
CN108520007B (zh) * | 2018-03-15 | 2021-09-28 | 江河瑞通(北京)技术有限公司 | 万维网网页信息提取方法、存储介质及计算机设备 |
CN109522544A (zh) * | 2018-09-27 | 2019-03-26 | 厦门快商通信息技术有限公司 | 基于卡方检验的句向量计算方法、文本分类方法及系统 |
CN109522390A (zh) * | 2018-11-14 | 2019-03-26 | 山东大学 | 一种搜索结果展示方法和装置 |
CN110162778A (zh) * | 2019-04-02 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 文本摘要的生成方法及装置 |
CN110704608A (zh) * | 2019-08-29 | 2020-01-17 | 中国平安人寿保险股份有限公司 | 文本主题生成方法、装置和计算机设备 |
CN110705287A (zh) * | 2019-09-27 | 2020-01-17 | 北京妙笔智能科技有限公司 | 一种用于文本摘要的生成方法和系统 |
CN113535940A (zh) * | 2020-04-17 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 事件摘要生成方法、装置及电子设备 |
CN112231468A (zh) * | 2020-10-15 | 2021-01-15 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
CN113486172A (zh) * | 2021-07-12 | 2021-10-08 | 北京小米移动软件有限公司 | 文本摘要生成方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104156452A (zh) | 一种网页文本摘要生成方法和装置 | |
CN101464898B (zh) | 一种提取文本主题词的方法 | |
CN102722498B (zh) | 搜索引擎及其实现方法 | |
US20170235841A1 (en) | Enterprise search method and system | |
CN103399901B (zh) | 一种关键词抽取方法 | |
EP2798540B1 (en) | Extracting search-focused key n-grams and/or phrases for relevance rankings in searches | |
CN101872351B (zh) | 识别同义词的方法、装置及利用其进行搜索的方法和装置 | |
US9483557B2 (en) | Keyword generation for media content | |
US20110029513A1 (en) | Method for Determining Document Relevance | |
CN102722501B (zh) | 搜索引擎及其实现方法 | |
CN102722499B (zh) | 搜索引擎及其实现方法 | |
CN107590219A (zh) | 网页人物主题相关信息提取方法 | |
US20090030891A1 (en) | Method and apparatus for extraction of textual content from hypertext web documents | |
CN103136352A (zh) | 基于双层语义分析的全文检索系统 | |
CN104850574A (zh) | 一种面向文本信息的敏感词过滤方法 | |
CN107357777B (zh) | 提取标签信息的方法和装置 | |
CN105488077A (zh) | 生成内容标签的方法和装置 | |
CN104317786A (zh) | 一种文本段落切片方法及系统 | |
Jagadeesh et al. | Sentence extraction based single document summarization | |
Zhang et al. | DirectQuote: A Dataset for Direct Quotation Extraction and Attribution in News Articles | |
JP2009288870A (ja) | 文書重要度算出システム、文書重要度算出方法およびプログラム | |
CN111259661B (zh) | 一种基于商品评论的新情感词提取方法 | |
Pembe et al. | Automated querybiased and structure-preserving text summarization on web documents | |
Li et al. | Opinion mining of camera reviews based on semantic role labeling | |
Tsapatsoulis | Web image indexing using WICE and a learning-free language model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141119 |