CN101382962B - 一种考虑概念抽象度的浅层分析自动文档综述方法 - Google Patents

一种考虑概念抽象度的浅层分析自动文档综述方法 Download PDF

Info

Publication number
CN101382962B
CN101382962B CN2008102319904A CN200810231990A CN101382962B CN 101382962 B CN101382962 B CN 101382962B CN 2008102319904 A CN2008102319904 A CN 2008102319904A CN 200810231990 A CN200810231990 A CN 200810231990A CN 101382962 B CN101382962 B CN 101382962B
Authority
CN
China
Prior art keywords
notion
sentence
text document
document
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008102319904A
Other languages
English (en)
Other versions
CN101382962A (zh
Inventor
郭雷
王晓东
方俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANTONG ZHONGBANG TEXTILE CO., LTD.
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN2008102319904A priority Critical patent/CN101382962B/zh
Publication of CN101382962A publication Critical patent/CN101382962A/zh
Application granted granted Critical
Publication of CN101382962B publication Critical patent/CN101382962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种考虑概念抽象度的浅层分析自动文档综述方法,属于信息检索、情报科学领域。其特征在于:首先对于文档进行预处理并设定抽象度值,然后通过多义词消歧处理把文档中的句子用概念矢量模型表示,再将句子聚类成多个主题相似的簇,接着根据从文集中抽取出的主题词个数确定综述的压缩比,之后确定句子的抽象度,继而依据IMMRA值依次从聚类簇中选取压缩比要求数量个文摘句,最后对抽取的文摘句进行排序并输出综述文档。有益效果:实现了考虑抽象度的自动文档综述,降低自动综述文摘因概念包含关系引起的信息冗余或缺失;方法可以根据主题的数量自适应调整文摘的长度,还可以根据用户的抽象度需求调节综述的归纳度,具有很好的适应性。

Description

一种考虑概念抽象度的浅层分析自动文档综述方法
技术领域
本发明涉及一种考虑概念抽象度的浅层分析自动文档综述方法,属于信息检索、情报科学领域。
背景技术
自动文档综述就是利用计算机对多篇文档编制文摘的技术,它将同一主题的多个文档去除冗余信息,按照一定的压缩比将主要内容有机地融合成一篇简短的综述文档,为人们廉价、迅速和准确地了解文集内容提供方便。随着互联网的发展和普及,自动文档综述被用作搜索引擎的后处理,它能够将搜索引擎返回的大量检索结果生成为综述提交给用户,显著地提高用户信息获取的效率。自动文档综述技术从实现方法上可以分为浅层分析法和深层分析法,其中浅层分析法利用统计特征和语言学特征获取主题信息,不需要对文档进行“理解”而易于工程实现,是目前自动文档综述的主流方法。
浅层分析自动综述通常采用从原文中摘取句子组成综述文档的方法实现。方法将文档视为句子的线性序列,将句子视为词的线性序列,操作分4步进行:(1)计算文集中词的权值;(2)根据词的权值计算句子的权值;(3)对原文中的所有句子按句子权值高低降序排列,选择权值最高的若干句子为文摘句;(4)将选定文摘句按照一定顺序排列输出形成综述文档。整个过程中,(1)、(2)、(3)步的权值计算和文摘句选择最为关键,传统的方法主要是依据词频、标题、位置、句法结构、线索词、指示性短语等特征来实现该计算和选择,力求组成综述的各个文摘句之间没有语义重复,信息冗余尽可能的小,进而达到在有限的字数内传达出最大量信息的目的。然而,在实际的文档句子中,经常会出现大量具有包含关系(part-of、kind-of等)的概念,它们在语义上存在重叠。可是,使用上述传统方法进行自动综述时这一现象会被忽视,而得不到符合文档综述概念归纳原则的处理,这就会造成信息的冗余或缺失。例如:“买苹果”、“买香蕉”、“买橘子”,其语义都可包含在“买水果”这句话中,可是当这4个句子都出现在文集中,现有自动文档综述方法无法确保选出“买水果”来对其它句子进行概括归纳,从而导致信息冗余或缺失。另外,在对搜索引擎返回的检索结果进行自动综述处理时,由于不同用户对归纳程度的要求不尽相同,因而上例中的归纳处理也应当与之相适应。例如:当人们只想知道检索结果文集的大体概况时,则归纳程度高,会从“买苹果”、“买香蕉”、“买橘子”、“买商品”、“买水果”中选择“买商品”作为综述文摘句;如果人们想了解更具体的细节则可以降低归纳程度,从5句话中选择“买水果”作为综述文摘句。然而,现有浅层分析自动综述也不具备这样的调节能力。
从以上背景介绍可以看出,现有浅层分析自动文档综述无法对具有包含关系的概念进行归纳处理,更不具有对概念归纳度的调节能力,具体表现为生成综述信息冗余量偏大或信息缺失,算法无归纳调节的功能。
发明内容
要解决的技术问题
为了消除现有浅层分析自动文档综述方法不具有概念归纳的综述能力,无概念归纳调节功能的缺陷,本发明提出一种考虑概念抽象度的浅层分析自动文档综述方法,可以根据概念抽象度进行自动文档综述的概念归纳和归纳度调节。
技术方案
本发明的基本思想是:参考知识本体所体现的概念抽象度来选择文摘句。生成综述的过程实际上就是对原文内容的选择和归纳的过程。这里的归纳可以将信息压缩为更抽象的形式,但由于统计特征和语言学特征不提供相关支持,所以传统综述方法很难做到。为此,本发明考虑利用知识本体的概念层级关系所体现的概念抽象度(如图1),来指导机器实现满足概念归纳原则的文摘句选择,从而降低信息冗余度。在一定抽象度值条件下,当句子的抽象度过低或过高时,降低其被选入综述的可能性,反之增加该可能性。由于本体描述了从最抽象概念到最具体概念的全部渐变过程,因而可以在这个连续的变化过程中任意调整一个抽象度值来控制上述文摘句的选取,从而实现自动综述的归纳度调节功能。
本发明的技术特征在于步骤如下(如图2):
步骤1:获得数据并设定抽象度值:将查询Q提交给搜索引擎,返回查询结果Web文档集D={d1,d2,…,dk,…},对D中的诸文档进行提取文本内容、去除停用词与网页标记、词根还原处理后,以文本文档句子为基本单位,按照文本文档句子出现的次序,顺序存储为集合 R = { S 1 d 1 , · · · , S l d k , · · · } , 其中:
Figure G2008102319904D00032
是序号为l、文本文档dk包含的一个文本文档句子,集合R包含的文本文档句子个数为N=|R|;然后设定文档综述的抽象度值θ,0≤θ≤1,θ值随抽象度增加而增大;
步骤2:将文本文档句子表示为概念模型矢量:先将R中所有出现的词汇转换为概念,将得到的所有概念无重复地组成概念集合C={c1,c2,…,ci,…},其中ci为一个概念,共计得到n=|C|个概念,然后以C为特征,仿照tf·idf加权方案将R表示为N个概念模型矢量组成的集合 R → = { S 1 d 1 → , · · · , S l d k → , · · · } , 其中 S l d k → = { w 1 ( l ) , · · · , w i ( l ) , · · · , w n ( l ) } ; 所述转换中,若词汇为多义词,则采用基于本体的多义词消歧处理实现,若词汇为单义词或为未在本体中出现的未登录词,则采用以词汇自身作为其概念的方法实现;所述文本文档句子概念模型矢量
Figure G2008102319904D00035
的分量 w i ( l ) = freq ( c i ) · tf i · log ( | D | / n i ) 为ci
Figure G2008102319904D00037
中的权重,其中ni为D中有词汇可转换为ci的文本文档数目,log(|D|/ni)是ci在D中的逆频率,tfi是ci对应词汇在dk中的出现频率,freq(ci)是ci中的频率;
步骤3:将主题近似的文本文档句子进行聚集:对
Figure G2008102319904D00039
中所有文本文档句子的概念矢量进行基于文本文档句子语义相似度的合成聚类,每次合成时计算合成前后,类的半偏相关系数HDCC,当HDCC大于阀值μ时聚类停止,0<μ≤1;聚类完成后得到由主题近似文本文档句子组成的聚类簇集合{LT1,…,LT0};所述文本文档句子语义相似度 sim ( S 1 &RightArrow; , S 2 &RightArrow; ) = 2 &times; sameWC ( S 1 &RightArrow; , S 2 &RightArrow; ) len ( S 1 &RightArrow; ) + len ( S 2 &RightArrow; ) , 其中
Figure G2008102319904D000311
Figure G2008102319904D000312
为任意两不同的文本文档句子概念模型矢量, S 1 &RightArrow; , S 2 &RightArrow; &Element; R &RightArrow; ,
Figure G2008102319904D000314
Figure G2008102319904D000315
权值非0的概念数,
Figure G2008102319904D000316
Figure G2008102319904D000318
权值非0且相同的概念数;所述的半偏相关系数 HDCC = W M - W K - W L T ,分子WM-WK-WL表示聚类过程中待合并的中间类CLK和CLL合并为下一层次的类CLM时引起的类内离差平方和的增量,分母 T = &Sigma; i W i 表示类CLK和类CLL合并前,同层次所有类的总离差平方和,其中任意类CL的类内离差平方和为 W = &Sigma; i &NotEqual; j , S i &RightArrow; S j &RightArrow; &Element; CL ( 1 - sim ( S i &RightArrow; , S j &RightArrow; ) ) 2 ;
步骤4:计算压缩比确定综述长度:利用子概念频度方法从C中抽出主题概念并构成主题概念集合TC={tc1,…,tcj,…,tcm},根据主题概念的数量|TC|和抽象度设定值θ计算自动综述的压缩比r,得到综述长度为N·r;所述的压缩比 r = &lambda; &beta; &CenterDot; | TC | &theta; &CenterDot; N , 其中,λβ为比例调节系数,取值为1≤λβ≤N/|TC|;
步骤5:确定各文本文档句子抽象度值:将TC作为基准,计算R的各文本文档句子抽象度值 deg ( S l d k &RightArrow; ) = [ &Sigma; i = 1 n a i ( l ) n - &Sigma; j = 1 m b j ( l ) m ] / 2 ;所述 a i ( l ) = max [ w i ( l ) &CenterDot; deg ( c i / tc 1 ) , &CenterDot; &CenterDot; &CenterDot; , w i ( l ) &CenterDot; deg l ( c i / tc m ) ] , 其中,deg(c1/c2)=|1/log2[|pcc(c1,Root)|+1]-1/log2[|pcc(tc2,Root)|+1]|为概念相对抽象度值,c1,c2∈C是任意一对概念,Root是本体的根概念,|pcc(c,Root)|是本体中概念c到Root之间连接边的条数;所述 b j ( l ) = max [ w 1 ( l ) &CenterDot; deg ( tc j / c 1 ) , &CenterDot; &CenterDot; &CenterDot; , w n ( l ) &CenterDot; deg ( tc j / c n ) ] ;
步骤6:抽取文摘句:根据θ值、各文本文档句子抽象度值、查询Q、文摘句集合A,A=φ,计算R各文本文档句子的IMMRA值;依次从{LT1,…,LT0}各簇中每次抽取一个IMMRA值最大的文本文档句子作为文摘句,放入A并从所属簇中去除,循环进行直到|A|≥N·r;所述 I MMRA &equiv; Arg max S i &Element; R \ A { [ &lambda; &CenterDot; sim ( S i , Q ) - ( 1 - &lambda; ) &CenterDot; max S j &Element; A sim ( S i , S j ) ] &CenterDot; cos [ ( deg ( S i ) - &theta; ) &CenterDot; &pi; 2 ] } ,其中,λ为相似度参考权值参数,0≤λ≤1;
步骤7:对文摘句进行排序并输出综述文档:在文档集合中找到包含A中文摘句最多的文档dc作为参考框架,将各文摘句按各自在dc中最相似文本文档句子的位置进行排序定位,最终生成文摘句排列顺序与dc一致的综述文档输出。
有益效果
本发明提出一种考虑抽象度的浅层分析自动文档综述方法,利用本体的概念层级关系结构赋予的概念抽象度来对句子进行抽象度计算,并参考初始设定的抽象度参数完成考虑抽象度的文摘句选取,从而降低自动综述文摘因概念包含关系引起的信息冗余或信息缺失。
方法可以根据主题的数量自适应调整文摘的长度,还可以根据抽象度需求调节综述的归纳度,具有很好的适应性。
附图说明
图1:本体概念抽象度关系示意图
图2:本发明方法的基本流程图
图3:文摘句抽取过程示意图
具体实施方式
现结合附图对本发明作进一步描述:
本发明采用Google搜索引擎输入查询Q,“水果”,将返回结果的前50个Web文档构成文集D作为实施实例;采用WordNet2.1作为本体;用于实施的硬件环境是:P43.0Ghz CPU、内存512M、硬盘80G;Windows XP Professional操作系统、NTFS文件系统;主程序采用VC++6.0实现。
1、获得数据并设定抽象度值。读入搜索引擎返回的Web文档,去除网页标记、去除非文本噪声信息、去除停用词、进行词根还原处理,以文本文档句子为基本单位构成文集R作为自动综述处理对象,另由用户设定自动综述抽象度值θ=0.5。
2、将文本文档句子表示为概念模型矢量。对文本文档句子中的多义词进行基于WordNet的扩展Lesk消歧处理算法得到对应概念,算法如(1)式:
c = arg max k [ R ( c k | t ) ] = arg max k [ &Sigma; i = - 16 13 &Sigma; j = 1 | t i , j | relatedness ( c k , t i , j ) ] , i≠0        (1)
这里,c为待消歧多义词t在文中的正确概念,ck是t的一个概念,ti,j表示t的上下文窗口(文本文档中t左16个和右13个位置的范围内的词)中的第i个词的第j个概念,这里函数relatedness定义如下:
relatedness ( A , B ) = &Sigma; i = 0 p &Sigma; j = 0 p score ( R i ( A ) , R j ( B ) ) - - - ( 2 )
A、B表示概念,Ri为WordNet中定义的概念之间的关系函数,Ri(A)的输出为与A具有Ri关系的概念的释义(gloss)。出于简化计算的目的,这里Ri只考虑同义关系、上下位关系、整体与部分关系三种关系,则p=4。其中,R0(A)表示概念A的同义概念释义、R1(A)表示概念A的上位概念释义,R2(A)表示概念A的下位概念释义,R3(A)表示概念A的整体概念释义,R4(A)表示概念A的部分概念释义。score为覆盖度评价函数,用于计算释义之间的单词覆盖度,有:
score ( gloss 1 , gloss 2 ) = | gloss 1 &cap; gloss 2 | max { | gloss 1 | , | gloss 2 | } - - - ( 3 )
gloss为释义词集合,|gloss|为释义词集合包含的词的个数。
由公式(1)、(2)、(3),可求得t在上下文语境中的正确概念c。
对于单义词直接从WordNet中获得对应的概念。对于WordNet不包含的未登录词保留不进行处理,以其本身代表所表达的概念。
将得到的所有概念组成无重复概念集合C={c1,c2,…,ci,…}。
仿照tf·idf加权方案,首先统计概念c1对应词汇在文集D中的逆频率log(50/n1)、文档频率tf1和概念c1在文集R各文本文档句子中的频率freq(c1),得到c1在文集R各文本文档句子中的权值
Figure G2008102319904D00063
然后按照同样方法完成所有|C|个概念的权值计算,进而将R中的所有文本文档句子表示为概念模型矢量形式,构成矢量集合
Figure G2008102319904D00064
{ S 1 d 1 &RightArrow; , &CenterDot; &CenterDot; &CenterDot; , S l d k , &RightArrow; &CenterDot; &CenterDot; &CenterDot; } .
3、将主题近似的文本文档句子进行聚集。对
Figure G2008102319904D00066
中所有句子的概念矢量进行AHC合成聚类。初始状态假设每个句子自成一类,然后对中句子相似度将最相似的两个类合并成一类,并计算半偏相关系数HDCC,当HDCC大于阀值μ时聚类停止,μ=0.5。经过聚类处理,
Figure G2008102319904D00068
中的句子被聚类到{LT1,…,LT0}共计o个聚类簇中。
4、计算压缩比确定综述长度。利用子概念频度方法从文集中抽出主题概念,根据主题概念的数量确定自动综述的压缩比。概念c的重要度I(c)定义如下:
I ( c ) = max i [ w ( son ( c ) i ) ] &Sigma; i w ( son ( c ) i ) - - - ( 4 )
son(c)i为概念c在WordNet中的直接子概念,w(c)为概念c在文本文档句子矢量集合
Figure G2008102319904D00072
中的权值w的总和
Figure G2008102319904D00073
,当I(c)≤I,则认定c为主题概念,记为tc,取I=0.3,所有tc构成主题概念集合TC,TC={tc1,…,tcm}。简便起见,只从具有最大tfi·log(50/n1)权重的50个概念中抽取主题概念,凡在WordNet中未出现的概念其重要度视为1。得到|TC|个主题概念,则在抽象度θ条件下文集的压缩比如下:
r = &lambda; &beta; &CenterDot; | TC | &theta; &CenterDot; 50 - - - ( 5 )
其中,λβ为比例调节系数可通过训练得到,这里取λβ=1.2。
5、确定各文本文档句子抽象度值。以主题概念tc1,tc2,…,tcm组成的集合TC为参照计算各句子的抽象度值,与R对应的N个抽象度值:
Figure G2008102319904D00075
6、抽取文摘句:首先创建空集A并计算LT1中各文本文档句子IMMRA的值,寻找最大值,从而的得到与查询Q相似,且与θ相匹配的句子,放入空集A并从R中去除,再依次对LT2、LT3、…、LTm做同样工作,循环进行直至A中达到N·r个文摘句(如图3所示), A = { S 1 A , &CenterDot; &CenterDot; &CenterDot; , S i A , &CenterDot; &CenterDot; &CenterDot; , S N &CenterDot; r A } 这里取λ=0.8。
7、对文摘句进行排序并输出综述文档。在文档集合中找到包含A中文摘句最多的文档dc作为参考框架,文档dc可按下式计算获得:
d c = arg max i { | d i &cap; A | } - - - ( 6 )
根据文摘句
Figure G2008102319904D00078
与文档dc中的文本文档句子
Figure G2008102319904D00079
相似度
Figure G2008102319904D000710
将与文摘句最相似句子的位置信息作为
Figure G2008102319904D000711
在文摘中的参考信息位置,生成句子顺序与dc一致的综述并输出。

Claims (1)

1.一种考虑概念抽象度的浅层分析自动文档综述方法,其特征在于步骤如下:
步骤1:获得数据并设定抽象度值:将查询Q提交给搜索引擎,返回查询结果Web文档集D={d1,d2,…,dk,…},对D中的诸文档进行提取文本内容、去除停用词与网页标记、词根还原处理后,以文本文档句子为基本单位,按照文本文档句子出现的次序,顺序存储为集合
Figure FSB00000296352500011
其中:是序号为l、文本文档dk包含的一个文本文档句子,集合R包含的文本文档句子个数为N=|R|;然后设定文档综述的抽象度值θ,0≤θ≤1,θ值随抽象度增加而增大;
步骤2:将文本文档句子表示为概念模型矢量:先将R中所有出现的词汇转换为概念,将得到的所有概念无重复地组成概念集合C={c1,c2,…,ci,…},其中ci为一个概念,共计得到n=|C|个概念,然后以C为特征,仿照tf·idf加权方案将R表示为N个概念模型矢量组成的集合
Figure FSB00000296352500013
其中
Figure FSB00000296352500014
所述转换中,若词汇为多义词,则采用基于本体的多义词消歧处理实现,若词汇为单义词或为未在本体中出现的未登录词,则采用以词汇自身作为其概念的方法实现;所述文本文档句子概念模型矢量
Figure FSB00000296352500015
的分量
Figure FSB00000296352500016
为ci
Figure FSB00000296352500017
中的权重,其中ni为D中有词汇可转换为ci的文本文档数目,log(|D|/ni)是ci在D中的逆频率,tfi是ci对应词汇在dk中的出现频率,freq(ci)是ci
Figure FSB00000296352500018
中的频率;
步骤3:将主题近似的文本文档句子进行聚集:对
Figure FSB00000296352500019
中所有文本文档句子的概念矢量进行基于文本文档句子语义相似度的合成聚类,每次合成时计算合成前后,类的半偏相关系数HDCC,当HDCC大于阈值μ时聚类停止,0<μ≤1;聚类完成后得到由主题近似文本文档句子组成的聚类簇集合{LT1,…,LTo};所述文本文档句子语义相似度
Figure FSB000002963525000110
其中
Figure FSB000002963525000111
Figure FSB000002963525000112
为任意两不同的文本文档句子概念模型矢量,
Figure FSB000002963525000113
Figure FSB000002963525000114
Figure FSB000002963525000115
权值非0的概念数,
Figure FSB000002963525000116
Figure FSB000002963525000118
权值非0且相同的概念数;所述的半偏相关系数
Figure FSB000002963525000119
分子WM-WK-WL表示聚类过程中待合并的中间类CLK和CLL合并为下一层次的类CLM时引起的类内离差平方和的增量,分母
Figure FSB00000296352500021
表示类CLK和类CLL合并前,同层次所有类的总离差平方和,其中任意类CL的类内离差平方和为
Figure FSB00000296352500022
步骤4:计算压缩比确定综述长度:对于概念c,当I(c)≤I,则认定c为主题概念,记为tc,
Figure FSB00000296352500023
son(c)i为概念c在本体中的直接子概念,w(c)为概念c在文本文档句子矢量集合中的权值w的总和I为0.3,由此利用子概念频度方法从C中抽出主题概念并构成主题概念集合TC={tc1,…,tcj,…,tcm},根据主题概念的数量|TC|和抽象度设定值θ计算自动综述的压缩比r,得到综述长度为N·r;所述的压缩比
Figure FSB00000296352500026
其中,λβ为比例调节系数,取值为1≤λβ≤N/|TC|;
步骤5:确定各文本文档句子抽象度值:将TC作为基准,计算R的各文本文档句子抽象度值
Figure FSB00000296352500027
所述
Figure FSB00000296352500028
其中,deg(c1/c2)=|1/log2[|pcc(c1,Root)|+1]-1/log2[|pcc(c2,Root)|+1]|为概念相对抽象度值,c1,c2∈C是任意一对概念,Root是本体的根概念,|pcc(c,Root)|是本体中概念c到Root之间连接边的条数;所述
Figure FSB00000296352500029
步骤6:抽取文摘句:根据θ值、各文本文档句子抽象度值、查询Q、文摘句集合A,A=φ,计算R各文本文档句子的IMMRA值;依次从{LT1,…,LTo}各簇中每次抽取一个IMMRA值最大的文本文档句子作为文摘句,放入A并从所属簇中去除,循环进行直到|A|≥N·r;所述
Figure FSB000002963525000210
其中,λ为相似度参考权值参数,0≤λ≤1;
步骤7:对文摘句进行排序并输出综述文档:在文档集合中找到包含A中文摘句最多的文档dc作为参考框架,将各文摘句按各自在dc中最相似文本文档句子的位置进行排序定位,最终生成文摘句排列顺序与dc一致的综述文档输出。
CN2008102319904A 2008-10-29 2008-10-29 一种考虑概念抽象度的浅层分析自动文档综述方法 Active CN101382962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102319904A CN101382962B (zh) 2008-10-29 2008-10-29 一种考虑概念抽象度的浅层分析自动文档综述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102319904A CN101382962B (zh) 2008-10-29 2008-10-29 一种考虑概念抽象度的浅层分析自动文档综述方法

Publications (2)

Publication Number Publication Date
CN101382962A CN101382962A (zh) 2009-03-11
CN101382962B true CN101382962B (zh) 2011-03-02

Family

ID=40462800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102319904A Active CN101382962B (zh) 2008-10-29 2008-10-29 一种考虑概念抽象度的浅层分析自动文档综述方法

Country Status (1)

Country Link
CN (1) CN101382962B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101640051B1 (ko) * 2009-10-30 2016-07-15 라쿠텐 인코포레이티드 특유 콘텐츠 판정 장치, 특유 콘텐츠 판정 방법, 기록 매체, 콘텐츠 생성 장치 및 관련 콘텐츠 삽입 장치
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium
CN102385574B (zh) * 2010-09-01 2014-08-20 株式会社理光 从文档抽取句子的方法和装置
CN102609413A (zh) * 2011-01-09 2012-07-25 华东师范大学 一种语义增强的词对间关系测度的控制方法以及系统
WO2014063354A1 (en) * 2012-10-26 2014-05-01 Hewlett-Packard Development Company, L.P. Method for summarizing document
CN108009135B (zh) * 2016-10-31 2021-05-04 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN108228541B (zh) * 2016-12-22 2021-08-03 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN106874469B (zh) * 2017-02-16 2020-05-05 北京大学 一种新闻综述生成方法与系统
CN109255085B (zh) * 2018-04-28 2021-09-21 云天弈(北京)信息技术有限公司 一种搜索结果的展现系统及方法

Also Published As

Publication number Publication date
CN101382962A (zh) 2009-03-11

Similar Documents

Publication Publication Date Title
CN101382962B (zh) 一种考虑概念抽象度的浅层分析自动文档综述方法
Papagiannopoulou et al. Local word vectors guiding keyphrase extraction
Li et al. Enhancing diversity, coverage and balance for summarization through structure learning
CN101398814B (zh) 一种同时抽取文档摘要和关键词的方法及系统
Ježek et al. Automatic text summarization (the state of the art 2007 and new challenges)
Waitelonis et al. Linked data enabled generalized vector space model to improve document retrieval
CN103064969A (zh) 自动建立关键词索引表的方法
CN104834735A (zh) 一种基于词向量的文档摘要自动提取方法
CN106383817A (zh) 利用分布式语义信息的论文标题生成方法
CN105243152A (zh) 一种基于图模型的自动文摘方法
CN100511214C (zh) 一种对文档集进行批量单文档摘要的方法及系统
CN104484380A (zh) 个性化搜索方法及装置
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
CN102760140A (zh) 一种基于事件本体的查询扩展方法
CN1916904A (zh) 一种基于文档扩展的单文档摘要方法
Wang et al. A semantic query expansion-based patent retrieval approach
Jiang et al. Word network topic model based on Word2Vector
Madnani et al. Multiple alternative sentence compressions for automatic text summarization
Zamanifar et al. AZOM: a Persian structured text summarizer
Sarkissian et al. Unsupervised topical organization of documents using corpus-based text analysis
Liu et al. Deep Text Retrieval Models based on DNN, CNN, RNN and Transformer: A review
Munirsyah et al. Development synonym set for the English wordnet using the method of comutative and agglomerative clustering
Li et al. Research on improve topic representation over short text
Osochkin et al. Automatic Identification of Authors' Stylistics and Gender on the Basis of the Corpus of Russian Fiction Using Extended Set-theoretic Model with Collocation Extraction.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NANTONG ZHONGBANG TEXTILE CO., LTD.

Free format text: FORMER OWNER: NORTHWESTERN POLYTECHNICAL UNIVERSITY

Effective date: 20140813

Owner name: NORTHWESTERN POLYTECHNICAL UNIVERSITY

Effective date: 20140813

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 710072 XI AN, SHAANXI PROVINCE TO: 226600 NANTONG, JIANGSU PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20140813

Address after: 226600 East Lake Road, Haian Development Zone, Haian County, Nantong, Jiangsu

Patentee after: NANTONG ZHONGBANG TEXTILE CO., LTD.

Patentee after: Northwestern Polytechnical University

Address before: 710072 Xi'an friendship West Road, Shaanxi, No. 127

Patentee before: Northwestern Polytechnical University