CN108009135B - 生成文档摘要的方法和装置 - Google Patents

生成文档摘要的方法和装置 Download PDF

Info

Publication number
CN108009135B
CN108009135B CN201610940817.6A CN201610940817A CN108009135B CN 108009135 B CN108009135 B CN 108009135B CN 201610940817 A CN201610940817 A CN 201610940817A CN 108009135 B CN108009135 B CN 108009135B
Authority
CN
China
Prior art keywords
sentence
score
diversity
calculating
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610940817.6A
Other languages
English (en)
Other versions
CN108009135A (zh
Inventor
张剑
黄石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Raisound Technology Co ltd
Original Assignee
Shenzhen Raisound Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Raisound Technology Co ltd filed Critical Shenzhen Raisound Technology Co ltd
Priority to CN201610940817.6A priority Critical patent/CN108009135B/zh
Publication of CN108009135A publication Critical patent/CN108009135A/zh
Application granted granted Critical
Publication of CN108009135B publication Critical patent/CN108009135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Abstract

本发明涉及一种生成文档摘要的方法,包括对文档集进行句子切分得到句子集合并用向量空间模型表示,根据预设的相似度阈值,确定每个句子对应的相似句及相似句数量,计算得到对应的重要性得分,依次获取句子集合中每个句子为当前处理句,将当前处理句的相似句数量与当前处理句的所有相似句各自对应的相似句数量统计比较,查找最大值并将其对应的句子加入多样性参考集合,进而计算每个句子的多样性得分和综合性得分,最终将句子集合中所有句子进行排序并筛选形成文档摘要。此外还提供一种生成文档摘要的装置。上述生成文档摘要的方法和装置,综合考虑了句子的内部信息以及在文档集合中的全局信息,从整体上降低了文档摘要的冗余度。

Description

生成文档摘要的方法和装置
技术领域
本发明涉及语言文字处理领域,特别是涉及一种生成文档摘要的方法和装置。
背景技术
随着互联网技术的快速发展,计算机网络中的数据呈现出爆炸性增长的态势,严重的信息过载问题不容忽视。当浏览属于同一个主题的网页时,一些网页具有很多相同的信息,却包含比较少的不同信息,此时则需要一个概括信息的工具来快速浏览信息。因此,有必要将这些页面中的内容形成文档摘要以提高信息获取的效率。
在网络数据中,文本数据占据了很重要的一部分。文本摘要是利用计算机自动实现文本分析、内容归纳以及摘要自动生成的技术。文本摘要按照输入文本的数量可以分为单文档摘要和多文档摘要,多文档摘要是将属于同一个主题的多个文档所描述的主要信息按照一定的压缩比最终提炼出一个文本的自然语言处理技术。
然而传统的多文档摘要处理过程中,往往只将文档集中的所有句子根据预设的重要性指标特征计算对应的得分,仅仅考虑了句子的内部信息,最终导致生成的文档摘要存在冗余度过高的问题。
发明内容
基于此,有必要针对上述问题,提供一种能够降低文档摘要冗余度的生成文档摘要的方法和装置。
一种生成文档摘要的方法,所述方法包括:
对文档集进行句子切分得到所述文档集对应的句子集合,并将所述句子集合中每个句子用向量空间模型表示;
计算所述句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定所述句子集合中每个句子对应的相似句及相似句数量,并根据所述相似句数量计算得到每个句子对应的重要性得分;
依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应的句子加入多样性参考集合;
根据所述句子集合和所述多样性参考集合,计算所述句子集合中每个句子的多样性得分;
根据所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分;
根据所述综合性得分,将所述句子集合中的所有句子进行排序并筛选形成文档摘要。
在一个实施例中,所述根据所述句子集合和所述多样性参考集合,计算所述句子集合中每个句子的多样性得分的步骤包括:
依次获取所述句子集合中的每个句子作为待处理句,如果所述待处理句在所述多样性参考集合中,则在所述句子集合中找到与所述待处理句之间具有最小相似度的第一参考句,根据所述待处理句与所述第一参考句的相似度值计算所述待处理句的多样性得分;
如果所述待处理句不在所述多样性参考集合中,则在所述多样性参考集合中找到与所述待处理句之间具有最大相似度的第二参考句,根据所述待处理句与所述第二参考句之间的相似度值计算出所述待处理句的多样性得分。
在一个实施例中,所述根据所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的计算公式为:
S_S(i)=S_D(i)*S_C(i)
其中,S为所述句子集合,S(i)为S中第i个句子,S_S(i)为S中第i个句子S(i)的综合性得分,S_D(i)为S(i)的重要性得分,S_C(i)为S(i)的多样性得分。
在一个实施例中,所述方法还包括:
计算所述句子集合中的每个句子去除停用词之后的有效长度与对应的实际字符长度的比值,作为每一个所述句子的有效内容得分;
所述根据所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的步骤包括:
获取所述有效内容得分,根据所述有效内容得分、重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。
在一个实施例中,所述方法还包括:
计算所述句子集合中每个句子去除停用词之后的有效长度值与所述有效长度值的最大值的比例,根据预设的第一阈值、第二阈值以及所述比例,计算所述句子集合中每个句子的长度代价得分,所述第一阈值小于所述第二阈值,所述长度代价得分计算公式为:
Figure BDA0001138054300000031
其中,a为底数且a>1,S为所述句子集合,Si为所述集合S中的第i个句子,L1为所述第一阈值,L2为所述第二阈值,且L2>L1,Li为所述第i个句子的有效长度值,Lmax为所述有效长度Li最大值,S_L(i)为所述第i个句子Si的长度代价得分;
获取所述长度代价得分,根据所述长度代价得分、重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。
一种生成文档摘要的装置,所述装置包括:
文档预处理模块,用于对文档集进行句子切分得到所述文档集对应的句子集合,并将所述句子集合中每个句子用向量空间模型表示;
重要性得分计算模块,用于计算所述句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定所述句子集合中每个句子对应的相似句及相似句数量,并根据所述相似句数量计算得到每个句子对应的重要性得分;
多样性参考集合计算模块,用于依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应的句子加入多样性参考集合;
多样性得分计算模块,用于根据所述句子集合和所述多样性参考集合,计算所述句子集合中每个句子的多样性得分;
综合性得分计算模块,用于根据所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分;
文档摘要生成模块,用于根据所述综合性得分,将所述句子集合中的所有句子进行排序并筛选形成文档摘要。
在其中一个实施例中,所述多样性得分计算模块包括:
判断单元,用于依次获取所述句子集合中的每个句子作为待处理句,判断所述待处理句是否在所述多样性参考集合,如果所述待处理句在所述多样性参考集合中,则进入第一处理单元,否则进入第二处理单元;
第一处理单元,用于在所述句子集合中找到与所述待处理句之间具有最小相似度的第一参考句,根据所述待处理句与所述第一参考句之间的相似度值计算所述待处理句的多样性得分;
第二处理单元,用于在所述多样性参考集合中找到与所述待处理句之间具有最大相似度的第二参考句,根据所述待处理句与所述第二参考句之间的相似度值计算出所述待处理句的多样性得分。
在其中一个实施例中,所述综合性得分计算模块中根据所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的公式为:
S_S(i)=S_D(i)*S_C(i)
其中,S为所述句子集合,S(i)为S中第i个句子,S_S(i)为S中第i个句子S(i)的综合性得分,S_D(i)为S(i)的重要性得分,S_C(i)为S(i)的多样性得分。
在其中一个实施例中,所述装置还包括:
有效内容得分计算模块,用于计算所述句子集合中的每个句子去除停用词之后的有效长度与对应的实际字符长度的比值,作为每一个所述句子的有效内容得分,所述综合性得分计算模块还用于获取所述有效内容得分,并根据所述有效内容得分、重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。
在其中一个实施例中,所述装置还包括:
长度代价得分模块,用于计算所述句子集合中每个句子去除停用词之后的有效长度值与所述有效长度值的最大值的比例,根据预设的第一阈值、第二阈值以及所述比例,计算所述句子集合中每个句子的长度代价得分,所述第一阈值小于所述第二阈值,所述长度代价得分计算公式为:
Figure BDA0001138054300000051
其中,a为底数且a>1,S为所述句子集合,Si为所述集合S中的第i个句子,L1为所述第一阈值,L2为所述第二阈值,且L2>L1,Li为所述第i个句子的有效长度值,Lmax为所述有效长度Li最大值,S_L(i)为所述第i个句子Si的长度代价得分;
所述综合性得分模块还用于获取所述长度代价得分,根据所述长度代价得分、重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。
上述生成文档摘要的方法和装置,在对属于同一主题的文档集进行句子切分得到句子集合以及将所述句子集合中的所有句子用向量空间模型进行表示的基础上,进一步计算句子两两间的相似度,通过设定的相似度阈值确定句子集合中每个句子的相似句以及相似句数量,并将相似句数量作为对应的每个句子的重要性得分,依次获取句子集合中每个句子为当前处理句,将当前处理句的相似句数量与当前处理句的所有相似句各自对应的相似句数量进行统计比较,查找其中的最大值并将其对应的句子加入多样性参考集合,根据句子集合和多样性参考集合对句子集合中每个句子进行多样性得分,最后根据句子集合和多样性参考集合计算句子集合中每个句子的综合性得分,并将所述句子集合中的所有句子进行排序并筛选得到所述文档集对应的文档摘要,上述生成文档摘要的方法和装置,在综合考虑句子的重要性和多样性影响的基础上,将句子的多样性得分和重要性得分紧密结合在一起,一方面通过计算重要性得分,考虑了句子的本身的内部信息,体现了句子的重要性;另一方面,进一步通过计算句子的多样性得分,考虑了句子在文档集中的全局地位信息,使句子的多样性处理过程体现在文档句子处理的核心得分环节,进而进行句子的量化得分并筛选生成文档摘要,最终从整体上降低了文档摘要的冗余度。
附图说明
图1为一个实施例中生成文档摘要的方法流程图;
图2为一个实施例中根据句子集合和多样性参考集合,计算句子集合中每个句子的多样性得分的方法流程图;
图3为一个实施例中生成文档摘要的方法流程图;
图4为一个实施例中生成文档摘要的方法流程图;
图5为一个实施例中生成文档摘要的方法流程图;
图6为一个实施例中生成文档摘要的装置结构示意图;
图7为一个实施例中生成文档摘要的装置结构示意图;
图8为一个实施例中生成文档摘要的装置结构示意图;
图9为一个实施例中生成文档摘要的装置结构示意图;
图10为一个实施例中多样性得分计算模块的结构示意图。
具体实施方式
如图1所示,在一个实施例中,一种生成文档摘要的方法,包括如下步骤:
S110,对文档集进行句子切分得到文档集对应的句子集合,并将句子集合中每个句子用向量空间模型表示。
具体地,遍历属于同一个主题的整个文档集,对其进行句子切分处理,得到句子集合,然后对于英文文档集或者中文文档集进行分词处理,对于英文文档集按照空格、符号以及段落等方法进行分词,对于中文文档集合按照基于字符串匹配的分词方法、基于理解的分词方法和基于词频统计的分词方法,但不限于此;针对每个句子中的每个词判读其是否在预设的停用词表出现,若是则删除,若否则跳过,直至处理完所有句子;对去除停用词之后的每个句子中的每个词进行提取词干处理,得到句子集合所对应的词表集合,进一步根据词表集合和句子集合,通过向量空间模型将所述句子集合中的每个句子用向量表示。
在一个实施例中,遍历属于同一主题的中文文档集D={d1,d2,……dN,N为正整数},N为中文的文档数量,对D中所有文档根据标点等进行句子切分,得到句子集合S={S1,S2,……,Sk,k为正整数},k为句子总数,Si为S中的第i个句子(1≤i≤k,且i为正整数),然后采用分词方法,如对字符串匹配的分词方法对其进行分词处理;针对每个句子Si进行去除停用词处理,对于中文文档而言,停用词是指在所述句子集合中的每个句子中有很多虚词在文章中仅起到结构作用,并不表示实际意义的词,比如介词、副词等。
针对每个句子Si中的词,判读其是否在预设的停用词表t={t1,t2,……,tm,m为正整数}出现,若是则删除,若否则跳过,直至处理完所有句子;对去除停用词之后的每个句子中的每个词进行提取词干处理,得到句子集合所对应的词表集合T={T1,T2,……,Tv,v为正整数},词表数量大小为v,然后根据向量空间模型,针对句子集合S={S1,S2,……,Sk}中的每个句子进行如下处理:
如果词表集合中的第j个词Tj在Si中(1≤j≤v,且j为正整数),则给出权重Wji,这样每个句子均可以表示成长度为V的向量,即Si=(Wi1,Wi2,……,Wiv)。
在一个实例中,所述权重Wji计算公式可采用如下公式:
Figure BDA0001138054300000071
如果词表集合中的第j个词Tj在Si中(1≤j≤v,且j为正整数),则给出权重Wji=1。
在另一个实例中,所述权重Wji计算公式可采用TF-IDF算法(Term Frequency–Inverse Document Frequency,词频-逆向文档频率),如下列公式所示:
Figure BDA0001138054300000081
其中k表示总的句子数,kj表示Tj出现的句子总数,如果词表集合中的第j个词Tj在Si中,则Wji采用上述公式计算。
S120,计算句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定句子集合中每个句子对应的相似句及相似句数量,并根据相似句数量计算得到每个句子对应的重要性得分。
具体地,任意两个句子的相似性采用余弦距离,句子集合中两两句子间的相似度计算公式为:
Figure BDA0001138054300000082
其中,wt,i、wt,j分别对应表示词表集合T={T1,T2,……,Tv}中第t个位置的词Tt在第i与第j句的特征向量的权重,Si、Sj分别表示句子集合S={S1,S2,……,Sk}中对应的第i个和第j个句子。
任意两个句子的相似性也可采用标准欧式距离,即
Figure BDA0001138054300000083
其中,wt,i、wt,j分别对应表示词表集合T={T1,T2,……,Tv}中第t个位置的词Tt在第i与第j句的特征向量的权重,v表示词表的个数,St表示对应的方差。
根据待处理文本数据的规模,设置相似度阈值dc,针对集合S中的句子Si,按照设置的相似度阈值dc为标准计算Si对应的相似句个数,作为句子Si对应的重要性得分S_D(i):
即对于句子Si,设定句子的重要性得分S_D(i)初始值为0,然后将Si与S中其他所有句子的相似度simij与所述相似度阈值dc相减得到对应的差值,如果差值大于0,则认为句子Sj与句子Si相邻相似,即句子Sj即为Si的相邻句,那么就将句子重要性得分S_D(i)值加1;如果小于或等于0,则句子重要性得分S_D(i)值保持不变。按上述步骤计算句子集合S中除si之外的所有句子,得到句子si的重要性得分S_D(i)值;最后将所有句子对应的S_D(i),将该值除以句子集合S中句子总数K,作为归一化处理,得到最终归一化的句子重要性得分S_D(i)。
S130,依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应的句子加入多样性参考集合。
具体地,对于句子集合S={S1,S2,…,Sk},首先统计出该集合中的所有句子的相似句数量即Si的相似句数量mi,得到集合M={m1,m2,……,mk},然后根据集合M的统计信息,把mi值与对应的句子Si的相邻句子集合SiL={Si1,Si2,…Sij…,SiL,L∈N*且L≤k}中所有句子Sij对应的相似句数量mij放在同一个集合M1={mi,mi1,mi2,……,miL},得到其中最大的值M1max,并将M1max所对应的句子Six放入多样性参考集合SX中,如果有多个最大值,则将对应的句子一并放入多样性参考集合SX中。
S140,根据句子集合和多样性参考集合,计算句子集合中每个句子的多样性得分。
具体地,句子集合为S={S1,S2,…,Sk},多样性参考集合为SX,计算句子集合S中每个句子的多样性得分S_C(i),并可对S_C(i)进一步进行归一化处理。
S150,根据重要性得分和多样性得分计算句子集合中每个句子的综合性得分。
S160,根据综合性得分,将句子集合中的所有句子进行排序并筛选形成文档摘要。
具体地,根据预设的综合性得分阈值,选取满足综合性得分阈值条件的句子按照原文档集对应的句子顺序进行排序,形成初步的文档摘要。
在一个实施例中,句子集合为S={S1,S2,…,Sk},句子的综合性得分为S_S(i),综合性得分阈值为S_Sth,将综合性的得分不小于S_Sth的句子按照原文档集的顺序进行排序,形成初步的文档摘要Sth={Sth1,Sth2,…,Sthi,...,SthU},U为综合性的得分不小于S_Sth的句子数量。
在本实施例中,还可对初步的文档摘要作进一步筛选处理,假定句子Sth={Sth1,Sth2,…,Sthi,...,SthU}中句子Sthi在原文档集的句子集合S={S1,S2,…,Sk}中的位置为Ni,则判断集合Sth={Sth1,Sth2,…,Sthi,...,SthU}中范围为(Ni-Np,Ni+Np)的每个句子与Sthi相似度值是否大于冗余相似度判断阈值simR,Np为正整数,Np与simR值均为调节参数,根据所生成文档摘要的句子数目U与该文档摘要生成任务的目标句子数目的大小关系确定。
本实施例中生成文档摘要的方法和装置,在对属于同一主题的文档集进行句子切分得到句子集合以及将所述句子集合中的所有句子用向量空间模型进行表示的基础上,进一步计算句子两两间的相似度,通过设定的相似度阈值确定句子集合中每个句子的相似句以及相似句数量,并将相似句数量作为对应的每个句子的重要性得分,依次获取句子集合中每个句子为当前处理句,将当前处理句的相似句数量与当前处理句的所有相似句各自对应的相似句数量进行统计比较,查找其中的最大值并将其对应的句子加入多样性参考集合,根据句子集合和多样性参考集合对句子集合中每个句子计算多样性得分,最后根据重要性得分和多样性得分计算句子集合中每个句子的综合性得分,并将所述句子集合中的所有句子进行排序并筛选得到文档集对应的文档摘要,上述生成文档摘要的方法和装置,在综合考虑句子的重要性和多样性影响的基础上,将句子的多样性得分和重要性得分紧密结合在一起,一方面通过计算重要性得分,考虑了句子的本身的内部信息,体现了句子的内部信息重要性的影响;另一方面,进一步通过计算句子的多样性得分,考虑了句子在文档集中的全局地位信息,使句子的多样性处理过程体现在文档句子处理的核心处理环节,进而进行句子的量化评分并筛选生成文档摘要,最终从整体上降低了文档摘要的冗余度。
在一个实施例中,如图2所示,步骤S140包括:
S220,依次获取句子集合中的每个句子作为待处理句,判断待处理句是否在多样性参考集合中,如果待处理句在多样性参考集合中,则进入步骤S240,如果待处理句不在多样性参考集合中,则进入步骤S260。
其中,句子集合S={S1,S2,…Si,…,Sk},获取句子集合S中每个句子作为待处理句Si;
S240,则在句子集合中找到与待处理句之间具有最小相似度的第一参考句,根据待处理句与第一参考句的相似度值计算待处理句的多样性得分。
其中Si的相邻句子集合SiL={Si1,Si2,…Sij…,SiL,L∈N*且L≤k},多样性参考集合为SX,如果Si∈SX,则在集合S中找到与待处理句Si相似度最小的句子Sj,则待处理句Si的多样性得分为:
S_C(i)=1-min(simij)
S260,则在多样性参考集合中找到与待处理句之间具有最大相似度的第二参考句,根据待处理句与第二参考句之间的相似度值计算出待处理句的多样性得分。
其中,如果
Figure BDA0001138054300000111
则在多样性参考集合SX中找到与待处理句Si相似度最大的句子Sj,则待处理句Si的多样性得分为:
S_C(i)=1-max(simij)
本实施例中通过判断待处理句子是否在多样性参考集合中,对句子的多样性得分进行差异化计算,反映了句子Si在句子集合S中的全局信息,使多样性处理体现在文档句子处理的核心环节,有助于计算句子的综合量化评分,使得最终生成的文档摘要的冗余度显著降低。
在一个实施例中,步骤S150中根据重要性得分和多样性得分计算句子集合中每个句子的综合性得分的公式为:
S_S(i)=S_D(i)*S_C(i)
其中,S为所述句子集合,Si为S中第i个句子,S_S(i)为Si的综合性得分,S_D(i)为Si的重要性得分,S_C(i)为Si的多样性得分。
在一个实施例中,如图3所示,提供了一种生成文档摘要的方法,所述方法包括:
S310,对文档集进行句子切分得到文档集对应的句子集合,并将句子集合中每个句子用向量空间模型表示。
S320,计算句子集合中的每个句子去除停用词之后的有效长度与对应的实际字符长度的比值,作为每一个句子的有效内容得分。
具体地,根据文档集对应文本信息的种类与特点,设置相应的停用词表,进行去除停用词处理,针对句子集合S={S1,S2,…Si,…,Sk}中的每个句子Si,计算其实际的字符长度PF(i)和去除停用词之后的字符长度PE(i),将PE(i)除以PF(i),得到句子Si的有效内容得分S_P(i);还可进一步将所有句子的有效内容得分进行归一化处理,即将所有句子的有效内容得分值相加取和,然后把各句子的有效内容指标得分除以这个和值,得到每个句子si的归一化有效内容得分S_P(i)。
S330,计算句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定句子集合中每个句子对应的相似句及相似句数量,并根据相似句数量计算得到每个句子对应的重要性得分。
S340,依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应的句子加入多样性参考集合。
S350,根据句子集合和多样性参考集合,计算句子集合中每个句子的多样性得分。
S360,根据有效内容得分、重要性得分和多样性得分计算句子集合中每个句子的综合性得分。
具体地,句子集合S={S1,S2,…Si,…,Sk},对于句子集合中每个句子Si,S_P(i)为Si的有效内容得分,S_D(i)为Si的重要性得分,S_C(i)为Si的多样性得分,则句子集合中每个句子Si的综合性得分为:
S_S(i)=S_D(i)*S_C(i)*S_P(i)
S370,根据综合性得分,将句子集合中的所有句子进行排序并筛选形成文档摘要。
本实施例中,在计算句子的重要性得分以及多样性得分的基础上,进一步计算句子的有效内容得分,从句子有效内容属性反映了句子内部信息,最后得到句子的综合性量化得分,根据综合性量化得分对句子进行筛选形成文档摘要,使得最终生成的文档摘要的冗余度降低。
在一个实施例中,如图4所示,提供了一种生成文档摘要的方法,所述方法包括:
S410,对文档集进行句子切分得到文档集对应的句子集合,并将句子集合中每个句子用向量空间模型表示。
S420,计算句子集合中每个句子去除停用词之后的有效长度值与有效长度值的最大值的比例,根据预设的第一阈值、第二阈值以及比例,计算句子集合中每个句子的长度代价得分,第一阈值小于第二阈值,长度代价得分计算公式为:
Figure BDA0001138054300000131
其中,a为底数且a>1,S为句子集合,Si为集合S中的第i个句子,L1为第一阈值,L2为第二阈值,且L2>L1,Li为第i个句子的有效长度值,Lmax为有效长度Li最大值,S_L(i)为第i个句子Si的长度代价得分。
S430,计算句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定句子集合中每个句子对应的相似句及相似句数量,并根据相似句数量计算得到每个句子对应的重要性得分。
S440,依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应的句子加入多样性参考集合。
S450,根据句子集合和多样性参考集合,计算句子集合中每个句子的多样性得分。
S460,根据长度代价得分、重要性得分和多样性得分计算句子集合中每个句子的综合性得分。
具体地,句子集合S={S1,S2,…Si,…,Sk},对于句子集合中每个句子Si,S_L(i)为句子的长度代价得分,S_D(i)为Si的重要性得分,S_C(i)为Si的多样性得分,则句子集合中每个句子Si的综合性得分为:
S_S(i)=S_D(i)*S_L(i)*S_C(i)
S470,根据综合性得分,将句子集合中的所有句子进行排序并筛选形成文档摘要。
本实施例中,在计算句子的重要性得分以及多样性得分的基础上,进一步计算句子的长度代价得分,从句子的长度属性角度反映了句子的全局信息,最后得到句子的综合性量化得分,根据综合性量化得分对句子集合中的所有句子进行筛选形成文档摘要,使得最终生成的文档摘要的每个句子的长度保持在合理范围内,摘要的整体冗余度进一步降低。
在一个实施例中,如图5所示,提供了一种生成文档摘要的方法,所述方法包括:
S510,对文档集进行句子切分得到文档集对应的句子集合,并将句子集合中每个句子用向量空间模型表示。
S520,计算句子集合中的每个句子去除停用词之后的有效长度与对应的实际字符长度的比值,作为每一个句子的有效内容得分。
S530,计算句子集合中每个句子去除停用词之后的有效长度值与有效长度值的最大值的比例,根据预设的第一阈值、第二阈值以及比例,计算句子集合中每个句子的长度代价得分,第一阈值小于第二阈值,长度代价得分计算公式为:
Figure BDA0001138054300000151
其中,a为底数且a>1,S为句子集合,Si为集合S中的第i个句子,L1为第一阈值,L2为第二阈值,且L2>L1,Li为第i个句子的有效长度值,Lmax为有效长度Li最大值,S_L(i)为第i个句子Si的长度代价得分。
S540,计算句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定句子集合中每个句子对应的相似句及相似句数量,并根据相似句数量计算得到每个句子对应的重要性得分。
S550,依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应的句子加入多样性参考集合。
S560,根据句子集合和多样性参考集合,计算句子集合中每个句子的多样性得分。
S570,根据有效内容得分、长度代价得分、重要性得分和多样性得分计算句子集合中每个句子的综合性得分。
具体地,句子集合S={S1,S2,…Si,…,Sk},对于句子集合中每个句子Si,S_P(i)为Si的有效内容得分,S_L(i)为句子的长度代价得分,S_D(i)为Si的重要性得分,S_C(i)为Si的多样性得分,则句子集合中每个句子Si的综合性得分为:
S_S(i)=S_D(i)*S_L(i)*S_C(i)*S_P(i)
S580,根据综合性得分,将句子集合中的所有句子进行排序并筛选形成文档摘要。
本实施例中,在计算句子的重要性得分以及多样性得分的基础上,选取计算句子的有效内容得分与长度代价得分,进一步从有效内容属性反映了句子的句子内部信息和从句子的长度属性角度反映了句子全局信息,最后得到句子的综合性量化得分,根据综合性量化得分对句子集合中的所有句子进行筛选形成文档摘要,使得最终生成的文档摘要的每个句子的有效内容与长度属性均保持在合理范围内,文档摘要整体冗余度进一步显著降低。
在一个实施例中,如图6所示,提供了一种生成文档摘要的装置,所述装置包括:
文档预处理模块610,用于对文档集进行句子切分得到所述文档集对应的句子集合,并将所述句子集合中每个句子用向量空间模型表示;
重要性得分计算模块620,用于计算所述句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定所述句子集合中每个句子对应的相似句及相似句数量,并根据所述相似句数量计算得到每个句子对应的重要性得分;
多样性参考集合计算模块630,用于依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应的句子加入多样性参考集合;
多样性得分计算模块640,用于根据所述句子集合和所述多样性参考集合,计算所述句子集合中每个句子的多样性得分;
综合性得分计算模块650,用于根据所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分;
文档摘要生成模块660,用于根据所述综合性得分,将所述句子集合中的所有句子进行排序并筛选形成文档摘要。
在一个实施例中,如图7所示,所述装置还包括:
有效内容得分计算模块670,用于计算句子集合中的每个句子去除停用词之后的有效长度与对应的实际字符长度的比值,作为每一个句子的有效内容得分。
综合性得分计算模块650还用于根据有效内容得分计算模块670获取有效内容得分,根据所述有效内容得分、重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。
在一个实施例中,如图8所示,所述装置还包括:
长度代价得分模块680,用于计算所述句子集合中每个句子去除停用词之后的有效长度值与所述有效长度值的最大值的比例,根据预设的第一阈值、第二阈值以及所述比例,计算所述句子集合中每个句子的长度代价得分,所述第一阈值小于所述第二阈值,所述长度代价得分计算公式为:
Figure BDA0001138054300000171
其中,a为底数且a>1,S为所述句子集合,Si为所述集合S中的第i个句子,L1为所述第一阈值,L2为所述第二阈值,且L2>L1,Li为所述第i个句子的有效长度值,Lmax为所述有效长度Li最大值,S_L(i)为所述第i个句子Si的长度代价得分;
所述综合性得分模块650还用于根据长度代价得分模块680获取所述长度代价得分,根据所述长度代价得分、重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。
在一个实施例中,如图9所示,所述装置还包括:
有效内容得分计算模块670,用于计算句子集合中的每个句子去除停用词之后的有效长度与对应的实际字符长度的比值,作为每一个句子的有效内容得分。
长度代价得分模块680,用于计算所述句子集合中每个句子去除停用词之后的有效长度值与所述有效长度值的最大值的比例,根据预设的第一阈值、第二阈值以及所述比例,计算所述句子集合中每个句子的长度代价得分,所述第一阈值小于所述第二阈值,所述长度代价得分计算公式为:
Figure BDA0001138054300000181
其中,a为底数且a>1,S为所述句子集合,Si为所述集合S中的第i个句子,L1为所述第一阈值,L2为所述第二阈值,且L2>L1,Li为所述第i个句子的有效长度值,Lmax为所述有效长度Li最大值,S_L(i)为所述第i个句子Si的长度代价得分;
所述综合性得分模块650还用于根据根据有效内容得分计算模块670获取有效内容得分以及长度代价得分模块680获取所述长度代价得分,根据所述长度代价得分、有效内容得分、重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。
在一个实施例中,多样性得分计算模块640包括:
判断单元642,用于依次获取所述句子集合中的每个句子作为待处理句,判断所述待处理句是否在所述多样性参考集合,如果所述待处理句在所述多样性参考集合中,则进入第一处理单元644,否则进入第二处理单元646;
第一处理单元644,用于在所述句子集合中找到与所述待处理句之间具有最小相似度的第一参考句,根据所述待处理句与所述第一参考句之间的相似度值计算所述待处理句的多样性得分;
第二处理单元646,用于在所述多样性参考集合中找到与所述待处理句之间具有最大相似度的第二参考句,根据所述待处理句与所述第二参考句之间的相似度值计算出所述待处理句的多样性得分。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述程序可存储于一计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种生成文档摘要的方法,所述方法包括:
对文档集进行句子切分得到所述文档集对应的句子集合,并将所述句子集合中每个句子用向量空间模型表示;所述文档集中的文档属于同一主题;
计算所述句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定所述句子集合中每个句子对应的相似句及相似句数量,并根据所述相似句数量计算得到每个句子对应的重要性得分;
依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应的句子加入多样性参考集合;
获取所述句子集合中的每个句子作为待处理句,如果所述待处理句在所述多样性参考集合中,则在所述句子集合中找到与所述待处理句之间具有最小相似度的第一参考句,根据所述待处理句与所述第一参考句的相似度值计算所述待处理句的多样性得分;
根据所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分;
根据所述综合性得分,将所述句子集合中的所有句子进行排序并筛选形成所述主题对应的文档摘要。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述待处理句不在所述多样性参考集合中,则在所述多样性参考集合中找到与所述待处理句之间具有最大相似度的第二参考句,根据所述待处理句与所述第二参考句之间的相似度值计算出所述待处理句的多样性得分。
3.根据权利要求1所述的方法,其特征在于,所述根据所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的计算公式为:
S_S(i)=S_D(i)*S_C(i)
其中,S为所述句子集合,S(i)为S中第i个句子,S_S(i)为S中第i个句子S(i)的综合性得分,S_D(i)为S(i)的重要性得分,S_C(i)为S(i)的多样性得分。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算所述句子集合中的每个句子去除停用词之后的有效长度与对应的实际字符长度的比值,作为每一个所述句子的有效内容得分;
所述根据所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的步骤包括:
获取所述有效内容得分,根据所述有效内容得分、重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。
5.根据权利要求1或4所述的方法,其特征在于,所述方法还包括:
计算所述句子集合中每个句子去除停用词之后的有效长度值与所述有效长度值的最大值的比例,根据预设的第一阈值、第二阈值以及所述比例,计算所述句子集合中每个句子的长度代价得分,所述第一阈值小于所述第二阈值,所述长度代价得分计算公式为:
Figure FDA0002882557600000021
其中,a为底数且a>1,S为所述句子集合,S(i) 为所述集合S中的第i个句子,L1为所述第一阈值,L2为所述第二阈值,且L2>L1,Li为所述第i个句子的有效长度值,Lmax为所述有效长度Li最大值,S_L(i)为所述第i个句子 S(i) 的长度代价得分;
所述根据所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的步骤包括:
获取所述长度代价得分,根据所述长度代价得分、重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。
6.一种生成文档摘要的装置,所述装置包括:
文档预处理模块,用于对文档集进行句子切分得到所述文档集对应的句子集合,并将所述句子集合中每个句子用向量空间模型表示;所述文档集中的文档属于同一主题;
重要性得分计算模块,用于计算所述句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定所述句子集合中每个句子对应的相似句及相似句数量,并根据所述相似句数量计算得到每个句子对应的重要性得分;
多样性参考集合计算模块,用于依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应的句子加入多样性参考集合;
多样性得分计算模块,用于依次获取所述句子集合中的每个句子作为待处理句,如果所述待处理句在所述多样性参考集合中,则在所述句子集合中找到与所述待处理句之间具有最小相似度的第一参考句,根据所述待处理句与所述第一参考句的相似度值计算所述待处理句的多样性得分;
综合性得分计算模块,用于根据所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分;
文档摘要生成模块,用于根据所述综合性得分,将所述句子集合中的所有句子进行排序并筛选形成所述主题对应的文档摘要。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二处理单元,用于在所述多样性参考集合中找到与所述待处理句之间具有最大相似度的第二参考句,根据所述待处理句与所述第二参考句之间的相似度值计算出所述待处理句的多样性得分。
8.根据权利要求6所述的装置,其特征在于,所述综合性得分计算模块中根据所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的公式为:
S_S(i)=S_D(i)*S_C(i)
其中,S为所述句子集合,S(i)为S中第i个句子,S_S(i)为S中第i个句子S(i)的综合性得分,S_D(i)为S(i)的重要性得分,S_C(i)为S(i)的多样性得分。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
有效内容得分计算模块,用于计算所述句子集合中的每个句子去除停用词之后的有效长度与对应的实际字符长度的比值,作为每一个所述句子的有效内容得分;
所述综合性得分计算模块还用于获取所述有效内容得分,并根据所述有效内容得分、重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。
10.根据权利要求6或9所述的装置,其特征在于,所述装置还包括:
长度代价得分计算模块,用于计算所述句子集合中每个句子去除停用词之后的有效长度值与所述有效长度值的最大值的比例,根据预设的第一阈值、第二阈值以及所述比例,计算所述句子集合中每个句子的长度代价得分,所述第一阈值小于所述第二阈值,所述长度代价得分计算公式为:
Figure FDA0002882557600000041
其中,a为底数且a>1,S为所述句子集合,S(i) 为所述集合S中的第i个句子,L1为所述第一阈值,L2为所述第二阈值,且L2>L1,Li为所述第i个句子的有效长度值,Lmax为所述有效长度Li最大值,S_L(i)为所述第i个句子S(i) 的长度代价得分;
所述综合性得分计算模块还用于获取所述长度代价得分,根据所述长度代价得分、重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201610940817.6A 2016-10-31 2016-10-31 生成文档摘要的方法和装置 Active CN108009135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610940817.6A CN108009135B (zh) 2016-10-31 2016-10-31 生成文档摘要的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610940817.6A CN108009135B (zh) 2016-10-31 2016-10-31 生成文档摘要的方法和装置

Publications (2)

Publication Number Publication Date
CN108009135A CN108009135A (zh) 2018-05-08
CN108009135B true CN108009135B (zh) 2021-05-04

Family

ID=62048135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610940817.6A Active CN108009135B (zh) 2016-10-31 2016-10-31 生成文档摘要的方法和装置

Country Status (1)

Country Link
CN (1) CN108009135B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180032608A1 (en) * 2016-07-27 2018-02-01 Linkedin Corporation Flexible summarization of textual content
CN109033066B (zh) * 2018-06-04 2022-05-17 浪潮软件股份有限公司 一种摘要形成方法及装置
CN109508456B (zh) * 2018-10-22 2023-04-18 网易(杭州)网络有限公司 一种文本处理方法和装置
CN109657053B (zh) * 2018-12-13 2021-09-14 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
CN109684642B (zh) * 2018-12-26 2023-01-13 重庆电信系统集成有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN110413961B (zh) * 2019-06-21 2021-02-09 平安国际智慧城市科技股份有限公司 基于分类模型进行文本评分的方法、装置和计算机设备
CN111125301B (zh) * 2019-11-22 2023-07-14 泰康保险集团股份有限公司 文本方法及装置、电子设备和计算机可读存储介质
CN111125424B (zh) * 2019-12-26 2024-01-09 腾讯音乐娱乐科技(深圳)有限公司 提取歌曲核心歌词的方法、装置、设备及存储介质
CN114154461A (zh) * 2020-09-08 2022-03-08 第四范式(北京)技术有限公司 一种文本数据的处理方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382962A (zh) * 2008-10-29 2009-03-11 西北工业大学 一种考虑概念抽象度的浅层分析自动文档综述方法
CN101751425A (zh) * 2008-12-10 2010-06-23 北京大学 文档集摘要获取方法及装置
CN103699525A (zh) * 2014-01-03 2014-04-02 江苏金智教育信息技术有限公司 一种基于文本多维度特征自动生成摘要的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100185943A1 (en) * 2009-01-21 2010-07-22 Nec Laboratories America, Inc. Comparative document summarization with discriminative sentence selection
CN102254011A (zh) * 2011-07-18 2011-11-23 哈尔滨工业大学 一种动态多文档文摘建模方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382962A (zh) * 2008-10-29 2009-03-11 西北工业大学 一种考虑概念抽象度的浅层分析自动文档综述方法
CN101751425A (zh) * 2008-12-10 2010-06-23 北京大学 文档集摘要获取方法及装置
CN103699525A (zh) * 2014-01-03 2014-04-02 江苏金智教育信息技术有限公司 一种基于文本多维度特征自动生成摘要的方法和装置

Also Published As

Publication number Publication date
CN108009135A (zh) 2018-05-08

Similar Documents

Publication Publication Date Title
CN108009135B (zh) 生成文档摘要的方法和装置
CN107577785B (zh) 一种适用于法律识别的层次多标签分类方法
CN106156204B (zh) 文本标签的提取方法和装置
CN108228541B (zh) 生成文档摘要的方法和装置
Babar et al. Improving performance of text summarization
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
KR20190058935A (ko) 문서 내 핵심 키워드 추출 시스템 및 방법
US20080168056A1 (en) On-line iterative multistage search engine with text categorization and supervised learning
CN109033212B (zh) 一种基于相似度匹配的文本分类方法
WO2019218527A1 (zh) 多系统相结合的自然语言处理方法及装置
CN112507711A (zh) 文本摘要抽取方法及系统
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN111680152B (zh) 目标文本的摘要提取方法及装置、电子设备、存储介质
CN110866102A (zh) 检索处理方法
Twinandilla et al. Multi-document summarization using k-means and latent dirichlet allocation (lda)–significance sentences
CN110765266B (zh) 一种裁判文书相似争议焦点合并方法及系统
Ikeda et al. Person name disambiguation on the web by two-stage clustering
CN109255014A (zh) 基于多种算法提升文件关键词准确度的识别方法
CN113111178A (zh) 无监督的基于表示学习的同名作者消歧方法及装置
Zhang et al. A hot spot clustering method based on improved kmeans algorithm
Haribhakta et al. Unsupervised topic detection model and its application in text categorization
CN110209765B (zh) 一种按语义搜索关键词的方法和装置
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant