CN103699525B - 一种基于文本多维度特征自动生成摘要的方法和装置 - Google Patents

一种基于文本多维度特征自动生成摘要的方法和装置 Download PDF

Info

Publication number
CN103699525B
CN103699525B CN201410003152.7A CN201410003152A CN103699525B CN 103699525 B CN103699525 B CN 103699525B CN 201410003152 A CN201410003152 A CN 201410003152A CN 103699525 B CN103699525 B CN 103699525B
Authority
CN
China
Prior art keywords
sentence
weight
text
value
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410003152.7A
Other languages
English (en)
Other versions
CN103699525A (zh
Inventor
罗晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Wisedu Information Co Ltd
Original Assignee
Jiangsu Wisedu Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Wisedu Information Co Ltd filed Critical Jiangsu Wisedu Information Co Ltd
Priority to CN201410003152.7A priority Critical patent/CN103699525B/zh
Publication of CN103699525A publication Critical patent/CN103699525A/zh
Application granted granted Critical
Publication of CN103699525B publication Critical patent/CN103699525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于文本多维度特征自动生成摘要的方法和装置。本发明的方法包括以下步骤:断句,分词,计算句子和关键词权重值,计算句子位置权重值、句子精炼权重值和句子语义权重值,然后将句子位置权重值、句子精炼权重值和句子语义权重值加权求和后获得每个句子的权重值,再采用K均值聚类算法将句子划分成话题簇,最后从各话题簇中选取权重值最高的句子构成摘要。相比现有技术,本发明在计算句子权重时,增加了评判的维度,从多种维度考虑文本的句子特征,并且通过聚类算法得到话题簇中提取句子,获得高质量的文摘。本发明可以通过根据不同的文本来源调整不同维度的权重系数,从而实现调整句子权重算法,使得本发明不受领域限制。

Description

一种基于文本多维度特征自动生成摘要的方法和装置
技术领域
本发明涉及信息检索领域,具体涉及一种为文本文档自动生成摘要的方法和装置。
背景技术
随着互联网技术的发展,人们从网络中获取到的信息量越来越大,如何从海量信息中快速获取到有效信息一直是信息检索领域的研究热点。文本自动摘要是指利用计算机处理自然语言文本,自动从原始文本中提取文摘,文摘能准确地反映出文本的中心内容。这种技术能有效降低互联网用户所面临的信息过载问题,帮助用户更快、更有效地从互联网定位到需要的信息。
文本自动摘要出现于20世纪50年代末,可以分为基于统计的文本自动摘要、基于理解的文本自动摘要、基于信息抽取的文本自动摘要和基于结构的文本自动摘要。
1.基于统计的文本自动摘要方法通过对词和句子的统计特征计算,摘录权重较高的原文句子形成文摘。这种方法不受领域限制、速度快、摘要长度可调节,但局限于文本表层信息,生成的摘要质量较差,存在内容不全面、语句冗余、不连贯等问题;
2.基于理解的文本自动摘要可以通过对文本语法、语义和语用信息进行深层分析,提取出有用信息,最终形成连贯的文摘。这种方法可以深入理解文本,但是却有严格的领域限制,无法推广使用;
3.基于信息抽取的文本自动摘要只对有用的文本片段进行有限的深度分析,效率和灵活性比基于理解的文摘高。但是这种方法以依赖领域知识的摘要框架为中枢,仍然受到领域的限制;
4.基于结构的文本自动摘要将文本信息当作句子的关联网络,选择与其他句子联系较多的中心句构成摘要。这种方法可以避免领域限制,对结构规范的文章提取文摘质量高,但是互联网上的文章结构灵活,可用的统一结构规则并不多。
上述这些现有的文本自动摘要方法各有所长,适用于不同的场景,针对某一类型的文本进行自动摘要。这些方法实际上都是通过计算句子的权重,然后选择权重值高的句子作为摘要。所不同的是具体的句子的权重的计算方法之间的区别。也就是说,自动生成文档摘要功能中,计算句子权重的算法的好坏决定了自动生成文档的摘要的好坏。文献CN101446940也同样公开了一种句子权重的计算方法,该方法还是存在着一些欠缺。
总体来说,现有的算法下,只能针对特定领域来源的文档,在某一特定领域下,该算法可能具有相当好的技术效果,但是在其他领域下,该算法却存在很大的问题。特别是针对新闻门户、博客、论坛、微博等不同的文本来源,这些现有的算法还存在着一些缺陷。
发明内容
本发明所要解决的问题是更好地生成文本摘要,并增加生成的文本摘要的可读性。
一种基于文本多维度特征自动生成摘要的方法,该方法包括以下步骤:
S1:断句,将文本拆分成句子;
S2:分词,将本文拆分成关键词;
S3:计算各个句子的权重值Wi;
S4:根据句子的权重值选择句子构成摘要。
其中所述的步骤S3包括:
S31:计算每个句子与各个关键词的权重Wij;
S32:计算每个句子的位置权重值WPi、精炼权重值WCi、语义权重值WSi;
S33:计算每个句子的权重值Wi,Wi=α1*WPi2*WCi3*WSi,其中α1、α2、α3为权重系数。
进一步,根据本发明的基于文本多维度特征自动生成摘要的方法,所述的步骤S4包括:
S41:采用聚类算法将句子聚类成话题簇CP;
S42各话题簇选取权重值Wi最高的句子构成摘要。
进一步,根据本发明的基于文本多维度特征自动生成摘要的方法,所述的Wij表示文本第i个句子的第j个关键词的特征权重,Wij满足如下计算公式:
W i j = t f ( i , j ) × l o g ( 1 + m s f ( j ) ) Σ k = 1 n [ t f ( i , k ) × log ( 1 + m s f ( k ) ) ] 2 ;
其中,tf(i,j)表示第j个关键词在第i个句子中出现的频数;sf(j)表示各句子中包含有第j个关键词的句子数;m为句子总数;n为关键词总数。
进一步,根据本发明的基于文本多维度特征自动生成摘要的方法,所述的位置权重值WPi表示第i个句子的位置权重值,WPi满足如下计算公式:
其中,m为句子总数。
进一步,根据本发明的基于文本多维度特征自动生成摘要的方法,所述的精炼权重值WCi表示第i个句子的精炼权重值,WCi满足如下计算公式:
WC i = Σ j = 1 n W i j 2 l e n g t h ( i ) ;
其中,Wij表示文本第i个句子的第j个关键词的特征权重;length(i)为句子的字符数;n为关键词总数。
进一步,根据本发明的基于文本多维度特征自动生成摘要的方法,所述的语义权重值WSi为第i个句子的语义权重值,WSi满足如下计算公式:
WS i = Σ j = 1 n W i j W T j Σ j = 1 n W i j 2 × Σ j = 1 n W T j 2 ;
其中,Wij表示文本第i个句子的第j个关键词的特征权重;WTj表示文本标题的第j个关键词的特征权重;n为关键词总数。
进一步,根据本发明的基于文本多维度特征自动生成摘要的方法,所述的聚类算法为K均值法。
一种基于文本多维度特征自动生成摘要的装置,该装置包括:断句装置、分词装置、句子关键词权重装置、句子位置权重装置、句子精炼权重装置、句子语义权重装置、句子权重汇总装置;其中,所述的断句装置用于将文本拆分成句子;分词装置用于将文本拆分成关键词;句子关键词权重装置用于计算每个句子与各个关键词的权重Wij;句子位置权重装置用于计算每个句子的位置权重值WPi;句子精炼权重装置用于计算每个句子的精炼权重值WCi;句子语义权重装置用于计算每个句子的语义权重值WSi;句子权重汇总装置计算每个句子的权重值Wi;
所述的Wij表示文本第i个句子的第j个关键词的特征权重,Wij满足如下计算公式:
W i j = t f ( i , j ) × l o g ( 1 + m s f ( j ) ) Σ k = 1 n [ t f ( i , k ) × log ( 1 + m s f ( k ) ) ] 2 ;
所述的位置权重值WPi表示第i个句子的位置权重值,WPi满足如下计算公式:
所述的精炼权重值WCi表示第i个句子的精炼权重值,WCi满足如下计算公式:
WC i = Σ j = 1 n W i j 2 l e n g t h ( i ) ;
所述的语义权重值WSi为第i个句子的语义权重值,WSi满足如下计算公式:
WS i = Σ j = 1 n W i j W T j Σ j = 1 n W i j 2 × Σ j = 1 n W T j 2 ;
所述句子的权重值Wi满足计算公式:Wi=α1*WPi2*WCi3*WSi
公式中,tf(i,j)表示第j个关键词在第i个句子中出现的频数;sf(j)表示各句子中包含有第j个关键词的句子数;length(i)为句子的字符数;m为句子总数;n为关键词总数;α1、α2、α3为权重系数。
进一步,根据本发明的基于文本多维度特征自动生成摘要的装置,该装置还包括:句子聚类装置和话题簇句子选取装置;所述的句子聚类装置用于采用聚类算法将句子聚类成话题簇CP;所述的话题簇句子选取装置用于从各话题簇选取权重值Wi最高的句子构成摘要;所述的聚类算法为K均值法。
一种机器可读介质,该可读介质上存储有指令集合,当该指令集合被执行时,使得该机器可执行上述基于文本多维度特征自动生成摘要的方法。
本发明的技术效果:
1、本发明在计算句子权重时,增加了评判的维度,从多种维度考虑文本的句子特征。
2、本发明通过聚类算法得到话题簇中提取句子,提取出高质量的文摘。
3、本发明的文本自动摘要方法不受领域限制。本发明可以通过根据不同的文本来源调整不同维度的权重系数,从而实现调整句子权重的算法。
附图说明
图1为本发明完整实施方式下模块结构关系图。
图2为本发明可选实施方式下模块结构关系图。
具体实施方式
下面对本发明的发明内容和权利要求作进一步详细说明。
一、完整的模块结构和模块之间的关系
图1为本发明完整实施的模块结构关系图。本发明的基于文本多维度特征自动生成摘要的装置,如图1所示,包括:预处理模块、句子建模模块、句子特征分析模块、句子聚类分析模块、句子聚类抽取模块。输入的文本经这些模块处理后输出文本的摘要。下面就上述各个模块分别进行描述。
1、预处理模块
预处理模块用于实现发明内容中的步骤S1和S2,即实现断句、分词的步骤。相应地,预处理模块划分成两个模块或装置:断句模块(或装置)、分词模块(或装置)。
断句模块(或装置)用于将文本拆分成句子,其输入为文本,输出为句子列表。一般情况下,主要是以标点符号作为句子切分的依据,标点符号分为句末符号和句中符号,句末符号主要有“。”、“!”、“?”。考虑到文本行文的不规范性,本发明在进行断句时,以中文的句末符号“。”、“!”、“?”和英文的句末符号“.”、“!”、“?”、“…”以及分段符等特殊符号作为断句标准。由此,断句模块(或装置)实现将文本拆分成句子的过程即为将字符串根据特定的字符分割成子字符串的过程,本领域技术人员理解,该过程为现有技术,本说明书不再累述。
分词模块(或装置)用于将文本拆分成关键词,其输入为文本,输出为关键词列表。分词模块也可以称为分词器。分词器的分词过程的实现依赖于词典,通过对词典的查找,从文本中选出与词典对应的词语。现有分词器很多,比如ICTCLAS、Ansj,IKanalyzer、mmseg4j等系统。这些分词器可以直接应用于本发明。本发明的分词装置优先由分词器和滤词装置构成。滤词装置用于在拆分得到的词语中过滤掉无实义的词语后获得关键词。相应地,分词装置将文本拆分成关键词的过程由两个步骤组成:首先由分词器将输入的文本成分割成词语列表;然后对获得的词语列表进行过滤,过滤掉其中无实义的词语,留下的有实义的词语即为关键词。滤词可以通过查询事先定义的无实义词语词典或有实义词语词典实现。本领域技术人员理解,滤词也可以和分词器结合一起,只需要将分词器的词典改成有实义词语词典即可以实现上述分词和滤词过程。
2、句子建模模块
句子建模模块主要用于实现发明内容中步骤S31,即句子关键词权重装置,用于计算每个句子与各个关键词的权重Wij。设某一文本经前述预处理模块处理后得到m个句子和n个关键词,则m个句子和n个关键词可以构成m×n大小的句子和关键词权重矩阵{Wij}。Wij表示表示文本第i个句子的第j个关键词的特征权重。Wij本发明中也称为词项特征权重值。词项特征权重值Wij的计算本发明采用TF-IDF公式,具体如下:
W i j = t f ( i , j ) × l o g ( 1 + m s f ( j ) ) Σ k = 1 n [ t f ( i , k ) × log ( 1 + m s f ( k ) ) ] 2 ;
其中,tf(i,j)表示第j个关键词在第i个句子中出现的频数;sf(j)表示各句子中包含有第j个关键词的句子数。根据上述公式,如果一个词项在一个句子中出现的频率越高,同时在其他句子中出现的频率越低,则该词项越能表征该句子,该词项与该句子对应的词项特征权重值Wij也就越大。根据上述公式,本领域技术人员可以理解,本模块的实现依赖于前述预处理模块中分词和断句的处理。
需要说明的是,词项特征权重值Wij的计算还存在其他的方法。比如,文献CN101446940公开的方法中同样需要计算词项特征权重值Wij,但其具体的方法与本案不相同。也就是说,文献CN101446940公开的词项特征权重值Wij的计算方法也可以应用到本发明中。上述的公式仅为本发明的一种优先计算方法。
3、句子特征分析模块
句子特征分析模块用于实现发明内容中的步骤S32和S33。相应地,句子特征分析模块可以划分成四个模块或装置:句子位置权重模块(装置)、句子精炼权重模块(装置)、句子语义权重模块(装置)、句子权重汇总模块(装置)。句子位置权重模块(装置)、句子精炼权重模块(装置)、句子语义权重模块(装置)分别用于计算位置权重值WPi、精炼权重值WCi、语义权重值WSi。句子权重汇总模块(装置)根据位置权重值WPi、精炼权重值WCi、语义权重值WSi通过加权汇总后得到句子的权重值Wi。
位置权重值WPi表示第i个句子的位置权重值。本发明中,WPi优先满足计算公式:
其中m为文本句子总数。
精炼权重值WCi表示第i个句子的精炼权重值。本发明中,WCi优先满足计算公式:
其中,length(i)为句子的字符数。Wij表示表示文本第i个句子的第j个关键词的特征权重,由前述的句子关键词权重装置计算获得。
语义权重值WSi表示第i个句子的语义权重值。本发明中,WSi优先满足计算公式:
WS i = Σ j = 1 n W i j W T j Σ j = 1 n W i j 2 × Σ j = 1 n W T j 2 ;
。其中,Wij表示表示文本第i个句子的第j个关键词的特征权重,WTj表示文本标题的第j个关键词的特征权重,由前述的句子关键词权重装置计算获得。
需要说明的是,位置权重值WPi、精炼权重值WCi和语义权重值WSi的计算还存在其他的方法。比如文献CN101446940公开的方法中涉及了内容权重值(相当于本发明的语义权重值)的计算和位置权重值的计算,其中内容权重值和位置权重值的计算方法不同于上述的公式。本领域技术人员理解,文献CN101446940公开的方法中的内容权重值和位置权重值的计算方法同样可以应用本发明计算语义权重值和位置权重值。上述的公式仅为本发明的一种优先计算方法。
句子权重汇总模块(装置)根据位置权重值WPi、精炼权重值WCi、语义权重值WSi通过加权汇总后得到句子的权重值Wi采用的计算公式为:Wi=α1*WPi2*WCi3*WSi。α1、α2、α3为权重系数。用户可以自定义权重系数。在实际的应用中,用户可以通过在不同领域下修改并设定不同的α1、α2、α3为权重系数调整的句子权重值的算法。
根据上述公式,本领域技术人员理解,句子特征分析模块所实现的步骤依赖于句子建模模块得到的词项特征权重值Wij
4、句子聚类分析模块
句子聚类分析模块用于实现发明内容中步骤S51,即句子聚类装置,用于采用聚类算法将句子聚类成话题簇CP。聚类算法有很多,比如K-MEANS算法、K-MEDOIDS算法、CLARANS算法。本发明中句子聚类优先采用K-MEANS算法,即K均值法。选择K=3。具体的实现如下:
经过前述的预处理模块处理以及句子建模模块处理后,得到句子和关键词权重矩阵{Wij}。其中句子总数为m,关键词总数为n。设m个句子分别为{S1、S2、S3、...、Sm}。句子聚类装置的具体步骤如下:
S100:从m个句子中通过随机方法选择任意3(K=3)个句子Sx、Sy、Sz分别作为初始聚类中心构成三个话题簇Cx、Cy、Cz。其中,Sx、Sy、Sz∈{S1、S2、S3、...、Sm}。
S101:根据句子和关键词权重矩阵{Wij}计算{S1、S2、S3、...、Sm}中各个句子分别与Sx、Sy、Sz的距离得到分别得到Dx={Dx1、Dx2,Dx3,...,Dxm},Dy={Dy1、Dy2,Dy3,...,Dym},Dz={Dz1、Dz2,Dz3,...,Dzm}。其中 D y i = Σ j = 1 n ( W y j - W i j ) 2 , D z i = Σ j = 1 n ( W z j - W i j ) 2 . Wxj,Wyj,Wzj分别为三个话题簇Cx、Cy、Cz聚类中心的第j个关键词的特征权重,其初始值分别为三个初始聚类中心Sx、Sy、Sz句子的关键词权重。
S102:比较Dx,Dy,Dz中对于任意的i∈[1..m]的Dxi,Dyi,Dzi的大小将其中最小者分配至对应的聚类。比如第i个句子与话题簇Cx、Cy、Cz聚类中心的距离分别为Dxi,Dyi,Dzi;假如其中,Dxi的数值最小,则将该句子归类至Cx类中;如果Dyi的数值最小,则将该句子归类至Cy类中,否则将该句子归类至Cz类中。
S103:重新计算三个话题簇Cx、Cy、Cz聚类中心的第j个关键词的特征权重,并重复步骤S101和S102,直到三个话题簇内包含的句子不再变化为止。
需要说明的是上述聚类过程采用了K-MEANS算法(K均值法),并选择K=3。本领域技术人员理解,本发明中,聚类过程还可以采用其他的方法,比如K-MEDOIDS算法、CLARANS算法,K值也可以为4或5。
需要说明的是,图1中给出的句子特征分析模块和句子聚类分析模块的处理为并列关系,这种并列关系是模块的数据流之间的关系,表示这两个模块对数据的处理不论先后。
5、句子聚类抽取模块
句子聚类分析模块用于实现发明内容中步骤S52,即前述的话题簇句子选取装置,用于从各话题簇选取权重值Wi最高的句子构成摘要。经过句子聚类分析模块处理后,文本的句子分为几类话题簇(三类、四类或五类)。每类话题簇包含多个句子。分别对这些话题簇的句子根据句子权重值Wi按升序或降序进行排序后得到每类话题簇排序后的句子序列,然后从各类话题簇中分别选取权重值Wi最高的1至3个句子,作为文本摘要的基本句子。然后对这些句子按初始文本的顺序排序后即可得到文本摘要。
二、完整的实施方式下举例说明
设有一文本Text经过前述的断句装置处理后得到句子ST,S1,S2,S3,S4,S5,S6,S7,S8,S9。其中,ST为标题句子。经过分词器分词处理后得到50个词语,50个词语经滤词装置处理后得到6个关键词分别标记为:Word1,Word2,Word3,Word4,Word5,Word6。然后,句子建模计算每个句子与各个关键词的权重Wij得到10×6的矩阵数据,如下表所示:
Word1 Word2 Word3 Word4 Word5 Word6
ST W01 W02 W03 W04 W05 W06
S1 W11 W12 W13 W14 W15 W16
S2 W21 W22 W23 W24 W25 W26
S3 W31 W32 W33 W34 W35 W36
S4 W41 W42 W43 W44 W45 W46
S5 W51 W52 W53 W54 W55 W56
S6 W61 W62 W63 W64 W65 W66
S7 W71 W72 W73 W74 W75 W76
S8 W81 W82 W83 W84 W85 W86
S9 W91 W92 W93 W94 W95 W96
根据公式计算各个句子的位置权重值(m=9,为奇数,采用奇数公式)得到9个句子的位置权重值为:WP1=1,WP2=0.65,WP3=0.4,WP4=0.25,WP5=0.2,WP6=0.25,WP7=0.4,WP8=0.65,WP9=1。
根据公式计算各个句子的精炼权重值,得到9个句子的精炼权重值分别为:WC1,WC2,WC3,WC4,WC5,WC6,WC7,WC8,WC9
根据公式计算各个句子的语义权重值,得到9个句子的语义权重值分别为:WS1,WS2,WS3,WS4,WS5,WS6,WS7,WS8,WS9。该公式中WTj为上述表格中标题句子与各个关键词的权重分别为:W01,W02,W03,W04,W05,W06
根据上述的WP1,WP2,WP3,WP4,WP5,WP6,WP7,WP8,WP9和WC1,WC2,WC3,WC4,WC5,WC6,WC7,WC8,WC9以及WS1,WS2,WS3,WS4,WS5,WS6,WS7,WS8,WS9得到9个句子的权重值W1,W2,W3,W4,W5,W6,W7,W8,W9,分别为:W1=α1*WP12*WC13*WS1,,...,W9=α1*WP92*WC93*WS9
经句子聚类后,句子分成三类,Cx={S4,S8},Cy={S1,S3,S6,S9},Cz={S2,S5,S7},根据各个句子的权重值(W1,W2,W3,W4,W5,W6,W7,W8,W9)按降序排序后得到:Cx={S8,S4},Cy={S1,S9,S3,S6},Cz={S7,S2,S5},每一类中选择权重值最高的句子分别为:S8,S1,S7。然后按文本的顺序排序后得到文本摘要为:S1,S7,S8
三、可选技术方案
前述的实施方式为本发明完整的实施方式以及优先的实施方式。实际应用中,应用本发明还可以存在其他的实施方案。如图2所示,本发明的基于文本多维度特征自动生成摘要的装置包括:预处理模块、句子建模模块、句子特征分析模块、句子选择模块。其中预处理模块、句子建模模块、句子特征分析模块与前述实施方式相同。不同的是本实施方式下,缺少了句子聚类分析模块和句子聚类抽取模块,采用句子选择模块代替。句子选择模块用于从句子中选出句子的权重值Wi最高的3至10个句子组成文本摘要。该实施方式可以视为前述实施方式的一种特例形式,即聚类算法中将所有的句子聚为唯一的一类话题簇。

Claims (5)

1.一种基于文本多维度特征自动生成摘要的方法,其特征在于,该方法包括以下步骤:
S1:断句,将文本拆分成句子;
S2:分词,将本文拆分成关键词;
S3:计算各个句子的权重值Wi
S4:根据句子的权重值选择句子构成摘要;
其中所述的步骤S3包括:
S31:计算每个句子与各个关键词的权重Wij
S32:计算每个句子的位置权重值WPi、精炼权重值WCi、语义权重值WSi
S33:计算每个句子的权重值Wi,Wi=α1*WPi2*WCi3*WSi,其中α1、α2、α3为权重系数;
所述的Wij表示文本第i个句子的第j个关键词的特征权重,Wij满足如下计算公式:
W i j = t f ( i , j ) × l o g ( 1 + m s f ( j ) ) Σ k = 1 n [ t f ( i , k ) × l o g ( 1 + m s f ( k ) ) ] 2 ;
所述的位置权重值WPi表示第i个句子的位置权重值,WPi满足如下计算公式:
所述的精炼权重值WCi表示第i个句子的精炼权重值,WCi满足如下计算公式:
WC i = Σ j = 1 n W i j 2 l e n g t h ( i ) ;
所述的语义权重值WSi为第i个句子的语义权重值,WSi满足如下计算公式:
WS i = Σ j = 1 n W i j W T j Σ j = 1 n W i j 2 × Σ j = 1 n W T j 2 ;
其中,tf(i,j)表示第j个关键词在第i个句子中出现的频数;sf(j)表示各句子中包含有第j个关键词的句子数;length(i)为句子的字符数;m为句子总数;n为关键词总数;WTj表示文本标题的第j个关键词的特征权重;α1、α2、α3为权重系数。
2.如权利要求1所述的基于文本多维度特征自动生成摘要的方法,其特征在于,所述的步骤S4包括:
S41:采用聚类算法将句子聚类成话题簇CP
S42:从各话题簇选取权重值Wi最高的句子构成摘要。
3.如权利要求2所述的基于文本多维度特征自动生成摘要的方法,其特征在于,所述的聚类算法为K均值法。
4.一种基于文本多维度特征自动生成摘要的装置,其特征在于,该装置包括:断句装置、分词装置、句子关键词权重装置、句子位置权重装置、句子精炼权重装置、句子语义权重装置、句子权重汇总装置;其中,所述的断句装置用于将文本拆分成句子;分词装置用于将文本拆分成关键词;关键词权重装置用于计算每个句子与各个关键词的权重Wij;句子位置权重装置用于计算每个句子的位置权重值WPi;句子精炼权重装置用于计算每个句子的精炼权重值WCi;句子语义权重装置用于计算每个句子的语义权重值WSi;句子权重汇总装置计算每个句子的权重值Wi
所述的Wij表示文本第i个句子的第j个关键词的特征权重,Wij满足如下计算公式:
W i j = t f ( i , j ) × l o g ( 1 + m s f ( j ) ) Σ k = 1 n [ t f ( i , k ) × l o g ( 1 + m s f ( k ) ) ] 2 ;
所述的位置权重值WPi表示第i个句子的位置权重值,WPi满足如下计算公式:
所述的精炼权重值WCi表示第i个句子的精炼权重值,WCi满足如下计算公式:
WC i = Σ j = 1 n W i j 2 l e n g t h ( i ) ;
所述的语义权重值WSi为第i个句子的语义权重值,WSi满足如下计算公式:
WS i = Σ j = 1 n W i j W T j Σ j = 1 n W i j 2 × Σ j = 1 n W T j 2 ;
所述句子的权重值Wi满足计算公式:Wi=α1*WPi2*WCi3*WSi
公式中,tf(i,j)表示第j个关键词在第i个句子中出现的频数;sf(j)表示各句子中包含有第j个关键词的句子数;length(i)为句子的字符数;m为句子总数;n为关键词总数;WTj表示文本标题的第j个关键词的特征权重;α1、α2、α3为权重系数。
5.如权利要求4所述的基于文本多维度特征自动生成摘要的装置,其特征在于,该装置还包括:句子聚类装置和话题簇句子选取装置;所述的句子聚类装置用于采用聚类算法将句子聚类成话题簇CP;所述的话题簇句子选取装置用于从各话题簇选取权重值Wi最高的句子构成摘要;所述的聚类算法为K均值法。
CN201410003152.7A 2014-01-03 2014-01-03 一种基于文本多维度特征自动生成摘要的方法和装置 Active CN103699525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410003152.7A CN103699525B (zh) 2014-01-03 2014-01-03 一种基于文本多维度特征自动生成摘要的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410003152.7A CN103699525B (zh) 2014-01-03 2014-01-03 一种基于文本多维度特征自动生成摘要的方法和装置

Publications (2)

Publication Number Publication Date
CN103699525A CN103699525A (zh) 2014-04-02
CN103699525B true CN103699525B (zh) 2016-08-31

Family

ID=50361056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410003152.7A Active CN103699525B (zh) 2014-01-03 2014-01-03 一种基于文本多维度特征自动生成摘要的方法和装置

Country Status (1)

Country Link
CN (1) CN103699525B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005563B (zh) * 2014-04-15 2019-11-19 腾讯科技(深圳)有限公司 一种摘要生成方法及装置
CN104636431B (zh) * 2014-12-31 2017-12-12 南京新模式软件集成有限公司 一种不同领域文档摘要自动抽取及自动优化的方法
CN104657444B (zh) * 2015-02-04 2018-05-18 北京中搜云商网络技术有限公司 微博首页数据自动推荐方法
CN105653704B (zh) * 2015-12-31 2018-10-12 南京财经大学 自动摘要生成方法及装置
CN108009135B (zh) * 2016-10-31 2021-05-04 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN106599148A (zh) * 2016-12-02 2017-04-26 东软集团股份有限公司 一种文摘生成方法及装置
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质
CN110069623B (zh) * 2017-12-06 2022-09-23 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN108417204A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息安全处理方法
CN108417206A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息高速处理方法
CN108595411B (zh) * 2018-03-19 2022-02-01 南京邮电大学 一种同主题文本集合中多文本摘要获取方法
CN109255022B (zh) * 2018-08-08 2021-11-23 宜人恒业科技发展(北京)有限公司 一种用于网络文章的摘要自动提取方法
CN109857852B (zh) * 2019-01-24 2021-02-23 安徽商贸职业技术学院 一种电商在线评论训练集特征的筛选判断方法及系统
CN110222344B (zh) * 2019-06-17 2022-09-23 上海元趣信息技术有限公司 一种针对小学生作文辅导的作文要素分析算法
CN110264792B (zh) * 2019-06-17 2021-11-09 上海元趣信息技术有限公司 一种针对小学生作文智能辅导系统
CN110781669A (zh) * 2019-10-24 2020-02-11 泰康保险集团股份有限公司 文本关键信息提取方法与装置、电子设备、存储介质
CN110889292B (zh) * 2019-11-29 2022-06-03 福州大学 一种基于句义结构模型的文本数据生成观点摘要的方法及系统
CN113127611B (zh) * 2019-12-31 2024-05-14 北京中关村科金技术有限公司 对问句语料进行处理的方法、装置以及存储介质
CN111274388B (zh) * 2020-01-14 2024-05-10 平安科技(深圳)有限公司 一种文本聚类的方法及装置
CN111339303B (zh) * 2020-03-06 2023-08-22 成都晓多科技有限公司 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN112417139B (zh) * 2020-11-19 2023-07-25 深圳大学 一种基于预训练语言模型的摘要生成方法
CN113204956B (zh) * 2021-07-06 2021-10-08 深圳市北科瑞声科技股份有限公司 多模型训练方法、摘要分段方法、文本分段方法及装置
CN113485738B (zh) * 2021-07-19 2023-04-07 上汽通用五菱汽车股份有限公司 一种软件故障智能分类方法与可读存储介质
CN114580448B (zh) * 2022-05-05 2022-08-05 北京百度网讯科技有限公司 一种手语翻译方法、装置、电子设备及存储介质
CN117194657B (zh) * 2023-05-06 2024-09-03 国网江苏省电力有限公司南京供电分公司 一种电网运维文本的摘要生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867164A (en) * 1995-09-29 1999-02-02 Apple Computer, Inc. Interactive document summarization
CN101446940B (zh) * 2007-11-27 2011-09-28 北京大学 为文档集自动生成摘要的方法及装置

Also Published As

Publication number Publication date
CN103699525A (zh) 2014-04-02

Similar Documents

Publication Publication Date Title
CN103699525B (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
Zainuddin et al. Sentiment analysis using support vector machine
Paredes-Valverde et al. Sentiment analysis in Spanish for improvement of products and services: A deep learning approach
Zhong et al. Less is more: Learning to refine dialogue history for personalized dialogue generation
CN106055538A (zh) 主题模型和语义分析相结合的文本标签自动抽取方法
Huang et al. Cross-domain sentiment classification via topic-related TrAdaBoost
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
Al-Jumaily et al. A real time Named Entity Recognition system for Arabic text mining
Maher et al. Teaching master thesis writing to engineers: Insights from corpus and genre analysis of introductions
CN107402933A (zh) 实体多音字消歧方法和实体多音字消歧设备
Al-Osaimi et al. Role of emotion icons in sentiment classification of Arabic tweets
Sabbah et al. Support vector machine based approach for quranic words detection in online textual content
Sheang Multilingual complex word identification: Convolutional neural networks with morphological and linguistic features
CN106021413A (zh) 基于主题模型的自展式特征选择方法及系统
KR20130099327A (ko) 오픈 도메인 정보 추출 장치 및 방법
Elaraby et al. A Character Level Convolutional BiLSTM for Arabic Dialect Identification
Islam et al. Development of multilingual assamese electronic dictionary
Kulkarni Sanskrit wordnet at indian institute of technology (iitb) mumbai
Aroonmanakun et al. Thai monitor corpus: Challenges and contribution to thai nlp
CN105930443A (zh) 一种面向目标的RESTful Web服务发现方法
Dashdorj et al. Deep learning model for Mongolian Citizens Feedback Analysis using Word Vector Embeddings
Sharma et al. Domain sentiment matters: A two stage sentiment analyzer
Xin Design and application of English Chinese translation system based on feature extraction algorithm
Alikaşifoğlu et al. VISPool: Enhancing transformer encoders with vector visibility graph neural networks
Asif et al. Bidirectional Encoder Approach for Abstractive Text Summarization of Urdu Language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 211100, No. 100, general road, Jiangning Economic Development Zone, Jiangsu, Nanjing

Applicant after: JIANGSU WISEDU EDUCATION INFORMATION TECHNOLOGY CO., LTD.

Address before: 211100, No. 100, general road, Jiangning Economic Development Zone, Jiangsu, Nanjing

Applicant before: Jiangsu Wisedu Information Technology Co., Ltd.

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant