CN101620596A - 一种面向查询的多文档自动摘要方法 - Google Patents

一种面向查询的多文档自动摘要方法 Download PDF

Info

Publication number
CN101620596A
CN101620596A CN200810012093A CN200810012093A CN101620596A CN 101620596 A CN101620596 A CN 101620596A CN 200810012093 A CN200810012093 A CN 200810012093A CN 200810012093 A CN200810012093 A CN 200810012093A CN 101620596 A CN101620596 A CN 101620596A
Authority
CN
China
Prior art keywords
mrow
msub
semantic
mfrac
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810012093A
Other languages
English (en)
Other versions
CN101620596B (zh
Inventor
朱靖波
叶娜
王会珍
郑妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN2008100120934A priority Critical patent/CN101620596B/zh
Publication of CN101620596A publication Critical patent/CN101620596A/zh
Application granted granted Critical
Publication of CN101620596B publication Critical patent/CN101620596B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向查询的多文档自动摘要方法,包括以下步骤:对查询及文档进行预处理;将上述预处理后的文档进行主题分割和语义段落聚类,得到子主题;将查询及上述每个子主题内的句子表示成词频向量形式,计算查询与子主题的相关度;根据查询与子主题的相关度,对子主题进行筛选,并根据子主题的重要程度,进行排序,选择前T个重要的子主题,得到与查询相关的子主题有序序列;从子主题序列中依次循环摘取代表句,并将代表句连接起来,生成摘要。本发明方法通过主题分割技术使得摘要在有限的长度范围内,尽量包括了文档集内较为重要的信息,提供更加有针对性的服务,可以根据用户的查询主题调整摘要内容,实现与用户的互动。

Description

一种面向查询的多文档自动摘要方法
技术领域
本发明涉及一种自然语言的自动摘要处理技术,具体地说是一种面向查询的多文档自动摘要方法。
背景技术
随着人类社会的快速变化和发展,每天都有大量的新信息产生,而互联网技术的普及使得信息共享的程度越来越高,人们可以很容易地在网络上发布信息,造成网上信息源过多,信息大量重复。例如,对于同一个新闻事件,不同的新闻机构可能会发布不同的报道,但是报道的主要内容相似乃至完全重复,区别仅在于表达方式不同而已。这种重复信息会浪费读者的阅读时间。另一方面,同一主题下的不同文章也会涵盖一些不同的信息。例如不同的新闻报道对事件描述的侧重点不同,而不同的评论家也会从各自独特的视角发表对事件的观点,与公众共享。关于同一主题或相同事件的信息甚至可能存在互相矛盾的地方,而事件的更新进展也会造成先前报道的信息不准确,需要更正的情况。这种信息过量出现的现象称为信息过载(Information Overload)。为了从彼此重复而又互为补充的信息中提取想要的信息,需要进行大量的比较和筛选工作。
搜索引擎是处理信息过载问题的一个选择,可以根据用户的特定需求,查找到与之相关的信息,使信息处理的范围大大缩小。但是,搜索引擎技术并不能很好地解决信息过载问题。用户每输入一个查询条件,搜索引擎系统将返回成千上万的相关网页。虽然用户期望的信息很有可能就存在于返回的结果里,但仍然难于迅速准确地从中找到满意的结果。为了对所查询的问题有全面的了解,用户必须对检索结果进行人工分析和总结,去除冗余信息,识别矛盾信息,摒弃错误信息,从中提炼出全面而简洁的分析结果。
多文档摘要技术就是为了解决这个问题,其目的是识别多篇同主题文档中的有用信息,压缩其中的冗余信息,生成一篇简短、流畅的摘要。多文档摘要技术可以帮助用户快速形成对特定主题的全面了解,减少阅读时间,提高获取信息的效率,具有很高的实用价值。
根据摘要生成方法,可将现有多文档摘要方法分为两种:
(1)基于摘录的方法:直接摘取重要的原始句子或自然段落,按一定顺序形成摘要。方法简单,不需太多资源和语言学知识,可移植性好,但摘要的连贯性和全面性较差。
(2)基于语言生成的方法:识别出重要的信息片段,再用语言生成技术生成句子,形成摘要。摘要精炼、可读性较好,但对语言分析技术和语言生成模型有较高要求。
根据所采用的主要技术,可将现有多文档摘要方法分为四种:
(1)基于浅层分析的方法:通过一些浅层统计分析,识别文本浅层特征如关键词、位置、句子长度等来对句子打分排序。方法实现简单,不受领域和资源限制,可移植性较好,但摘要的准确性较差。
(2)基于深层理解的方法:对文本进行深层分析理解,如句法分析、语义分析、领域本体分析等,获得较高层次的特征,更准确地识别重要信息和重复信息。但对语言处理技术要求很高,往往受到领域限制。
(3)基于信息抽取的方法:利用信息抽取技术模板,对模板进行填充,从而识别出重要信息片段,表示成结构化形式,并利用语言生成系统生成摘要。摘要的可读性好,冗余信息少,但模板的获取是该方法的瓶颈。
(4)基于句子压缩的方法:通过现有的句子压缩技术将长句压缩成短句。缺点是难于控制压缩比。
上述各种传统的多文档摘要方法进行的是一般性摘要,即直接分析目标文档集合的内容,生成摘要。然而,随着研究的不断深入和进展,人们发现,虽然多文档摘要系统的处理对象是同一主题下的多篇文档,即文档具有相同的主题,但是不同的用户对于摘要的侧重点仍有不同的要求。例如,对于北京奥运会主场馆“鸟巢”的建设这一主题,建筑界人士可能较为关注“鸟巢”的建造技术和安全性,环保界人士可能较为关注项目所采用的环保技术和对北京环境的影响,商界人士可能较为关注奥运场馆的商业运营模式,而普通市民更关注场馆的独特外形和人文精神。也就是说,同一个主题下仍然有不同的信息侧面,从不同角度来论述主题的不同方面。如果能对主题信息进一步细化,从中找出更为贴合用户特定需求的一个或多个侧面信息形成摘要,将会为用户带来更大的便利,进一步提高用户的满意度。
面向查询(query)的多文档摘要技术研究就是在这样的背景下开始的。与一般性摘要,即查询无关的摘要技术不同,查询相关的多文档摘要技术允许用户提交当前主题下自己最为关心的问题,并依据问题的要求和侧重点生成摘要,使得摘要可以回答用户所提出的问题。其中问题可以看作当前主题下用户更为关注的侧面。
查询相关的多文档摘要技术的关键问题和难点是,如何识别同一主题下的不同侧面,即如何对文档集内描述主题不同方面的信息进行区分,并选取查询所关注的一个或多个侧面,用于生成摘要。现有方法主要是通过对查询进行分析和扩展,得到关键概念和特征词,然后根据文本与查询的相关度及与文档集主题的接近程度,在文档集里筛选或检索出相关文本,形成摘要。
然而,通过分析人工书写的参考摘要,可以看出好的摘要所涉及的方面较广,涵盖了文档集内与查询相关的多个不同事件或论点。而现有方法主要根据句子与查询的相似度生成摘要,并不考虑摘要中的子主题分布情况,经常造成大量摘要句来自同一子主题的现象,虽然通过计算文本重复度,尽量防止加入内容重复的摘要句,可以从一定程度上缓解了这个问题,但仍无法很好地保证摘要中信息的全面性。
发明内容
针对现有技术中面向查询的多文档摘要存在的难点及不足之处,本发明要解决的技术问题是提供一种利用文本分割技术识别当前主题下的不同子主题,从多个相关子主题内选取信息,并评价子主题的重要程度的多文档摘要方法。
为解决上述技术问题,本发明采用的技术方案包括以下步骤:
对查询及文档进行预处理;
将上述预处理后的文档进行主题分割和语义段落聚类,得到子主题;
将查询及上述每个子主题内的句子表示成词频向量形式,计算查询与子主题的相关度;
根据查询与子主题的相关度,对子主题进行筛选,并根据子主题的重要程度,进行排序,选择前T个重要的子主题,得到与查询相关的子主题有序序列;
从子主题序列中依次循环摘取代表句,并将代表句连接起来,生成摘要。
所述对查询进行预处理过程如下:
去除查询里的格式标记,提取出查询的主体部分;
对每个主体部分进行词根还原,去除查询里的禁用词,将余下的词作为查询的关键词,得到查询的关键词集合。
所述对文档进行预处理过程如下:
去除每篇文档内的格式标记,提取出文档的主体部分;
对每个文档中的英文文本进行词根还原,对中文文本进行分词,去除文档内的禁用词;
对每篇文档进行分句。
所述的禁用词包括查询禁用词和文本禁用词,其中针对查询的预处理,将频繁出现在查询内的无关词去掉。
所述的主题分割采取算法1:
算法1:通过一个反映文档词汇整体分布情况的点图来识别语义段落边界,包括以下步骤:
构造点图:假设某个词在文档中位置x和位置y处重复出现,则分别在图中(x,x),(x,y),(y,x)和(y,y)四个坐标上用一个点标出该词,即将整篇文本表示为一个对称的二维点图;
列出潜在语义段落边界:将文档中全部句子或自然段落边界作为潜在语义段落边界;
确定最佳语义段落边界:假设B为已确定的语义段落边界集合,那么余下的所有边界都是候选语义段落边界,参与下一轮的最佳边界评选,它们组成候选边界集合C;边界集合C中每个候选边界i,令P=B∪{i},计算由P分割出的点图上对角线外部区域的总体密度,选择使得总体密度最小的候选边界作为下一个最佳语义段落边界加入集合B,密度计算方法是:
f D 1 = Σ j = 2 | P | V P j - 1 , P j · V P j , n ( P j - P j - 1 ) ( n - P j ) + Σ j = 1 | P - 1 | V 0 , P j · V P j , P j + 1 P j ( P j + 1 - P j )
f D 2 = Σ j = 2 | P | V P j - 1 , P j · V P j , P j + 1 ( P j - P j - 1 ) ( P j + 1 - P j )
其中n为整篇文档的长度,Pj为第j个语义段落边界的位置,|P|为文档中的语段数目,为第Pj-1个词至第Pj个词组成的文本片段的词频向量;
Figure S2008100120934D00044
为第Pj个词至文档末尾组成的文本片段的词频向量;
Figure S2008100120934D00045
为文档开头至第Pj个词组成的文本片段的词频向量;
Figure S2008100120934D00046
为第Pj个词至第Pj+1个词组成的文本片段的词频向量。
重复上述过程,直至语段边界数目达到预先指定的数目K为止。
所述的主题分割采取算法2:
算法2:如果给定文档为数据空间,语义段落为类别,则将主题分割的过程转化为数据空间分割过程,求取最佳分割方式,具体包括以下步骤:
文档表示:定义文档W为块序列B=b1b2...bk,其中b1、b2和bk分别表示第1个、第2个和第k个块,k表示文本B包含块的个数,块定义为包含blocksize个词的文本片段,采用具有相同长度的块参与分割评价过程,将求解最优分割方式的过程转换成为求解具有最大评价值的文本分割方式的过程,计算公式如下式所示:
S ^ = arg max S P ( S | B ) = def arg max S J ( B , S )
其中,
Figure S2008100120934D00048
为具有最大评价值的文本分割方式;S为文本B的一个分割方式;J(B,S)为文本B下分割方式为S时的分割评价值。
构造候选分割方式集合:将文档中全部自然段落边界作为潜在的语义段落边界,自然段落边界的全部组合作为候选主题分割方式;
计算各种分割方式的评价值,其中:
定义语义段落内散布矩阵SW为:
S W = Σ i = 1 c P i 1 n i Σ b ∈ s i ( b - m i ) ( b - m i ) t
其中b为第i块的向量表示;S=s1s2...sc表示文本B的一个分割方式;c为当前文本分割方式S包含的语义段落个数;Pi为语义段落si的先验概率,即语义段落si的块个数与当前文本B的所有块个数的比值;ni表示语义段落si中块的个数;mi为语义段落si的中心向量;运算符t表示矩阵的转置。
其中:
m i = 1 n i Σ b ∈ s i b
定义语义段落间散布矩阵SB为:
S B = Σ i = 1 c P i ( m i - m ) ( m i - m ) t
其中m为当前分割方式S的总体平均向量:
m = 1 n Σ b ∈ B b = 1 n Σ i = 1 c n i m i
J为基于多元判别分析的分割评价函数,包括:
根据语义段落内距离和语义段落间距离,定义第1多元判别分析评价函数J1
J 1 ( B , S ) = tr ( S B ) tr ( S W )
根据语义段落内距离和语义段落间距离,定义第2多元判别分析评价函数J2
J2(B,S)=tr(SB)×tr(SW)
根据语义段落内距离、语义段落间距离和语义段落的长度,定义第3多元判别分析评价函数J3
J 3 ( B , S ) = S L × tr ( S B ) tr ( S W )
根据语义段落内距离、语义段落间距离和语义段落的长度,定义第4多元判别分析评价函数J4
J4(B,S)=SL×tr(SB)×tr(SW)
上述各式中tr(SB)和tr(SW)分别表示矩阵SB和矩阵SW的迹,为矩阵对角线元素之和;
采用第1、3多元判别分析评价函数J1或J3计算J(B,S)评价值;
确定最佳语义段落数目:
对于每个可能的语义段落数目,根据计算各种分割方式的评价值的结果求取该数目下所有分割方式中带有最大评价值J的最佳分割S;采用第2、4多元判别分析评价函数J2或J4来计算评价函数J*(B,S)评价值;具有最大评价值J*的分割方式所对应的语义段落数目N为最佳语义段落数目;
确定最佳分割方式:
最佳语义段落数目N下具有最大评价值J的分割方式为最佳分割方式。
所述的主题分割采取算法3:
算法3:通过定义各种分割方式的评价函数,采用动态规划方法寻求最佳分割方式,具体包括以下步骤:
定义评价文本分割方式的评价函数:
J = α · Σ i = 1 N Σ m = p i - 1 + 1 p i Σ n = p i - 1 + 1 p i W m , n D m , n ( p i - p i - 1 ) 2
- ( 1 - α ) · Σ i = 1 N Σ m = p i + 1 p i + 1 Σ n = p i - 1 + 1 p i W m , n D m , n ( p i + 1 - p i ) ( p i - p i - 1 ) + β · Σ i = 1 N ( L i L ) 2
其中pi第i个语义段落边界的位置,N为语义段落数目,L为整篇文档的长度,Li为每个语义段落的长度;公式中第一项为同一语义段落内部词汇相似度,第二项为相邻语义段落之间词汇相似度,α和1-α分别为它们的相对权重,第三项为语义段落长度惩罚因子,β为该因子的权重;Di,j为句子i和句子j之间的相似度,Wi,j为根据句子i和句子j之间的距离为相似度Di,j赋予的权重,计算方法如下式所示:
W m , n = 1 if | m - n | ≤ 2 1 | m - n | - 1 else
根据上述分割评价函数,采用动态规划算法求取使得函数值最大的最优分割方式,具体计算步骤如下:
1)初始化:
对文档中任意两个句子i和j,利用下列公式计算相似度值:
Si,j=Wi,j·Di,j
2)最大化:
递推地计算Ct,s,即从第1个句子到第t个句子组成的文本片段的最优分割方式的评价函数值,其中s为前一个语义段落边界,计算公式为:
C t , s = arg max ( C s , w + α · S s + 1 , t ( t - s ) 2 - ( 1 - α ) · S w + 1 , t - S w + 1 , s - S s + 1 , t ( t - s ) ( s - w ) + β · ( t - s K ) 2 )
其中w是t和s的前一个最优语义段落边界,K为文档里的句子数;
记录最优分割方式中边界s的前一个语义段落边界Zt,s
3)回溯:
逆序地推出最优分割方式
Figure S2008100120934D00065
向量,在该过程中,最佳语义段落数目N自动确定。
所述语义段落聚类的具体步骤如下:
1)将语义段落表示成词频向量,认为每个语义段落均为一个簇;
2)计算语义段落两两之间的相似度,选择相似度最高的两个簇合并为一个簇;语义段落之间的文本相似度通过向量余弦来计算,假设两个语义段落词频向量分别为x={x1,x2,...,xn}和y={y1,y2,...,yn},则相似度计算公式如下:
sim ( x , y ) = Σ i = 1 n x i y i Σ i = 1 n x i 2 Σ i = 1 n y i 2
3)计算新生成的语义段落簇两两之间的相似度,继续合并相似度最高的簇;语义段落簇之间的文本相似度计算方法是,将两个簇之间相似度最小的两个语义段落之间的文本相似度作为两个簇的相似度;
4)重复步骤3,直到相似度最高的两个簇之间的相似度也低于阈值C为止,这样,就得到了一定数量的簇,每个簇代表一个子主题。
所述查询与子主题之间相关度的计算方法是,计算查询与子主题内的每个句子之间的相似度,将最大的相似度作为查询与子主题的相关度;查询与子主题句之间的文本相似度通过向量余弦来计算,假设查询词频向量为q={q1,q2,...,qn},子主题句的词频向量为s={s1,s2,...,sn},则相似度计算公式如下:
sim ( q , s ) = Σ i = 1 n q i s i Σ i = 1 n q i 2 Σ i = 1 n s i 2
其中sim(q,s)表示查询q与句子s之间的相似度,qi和si分别为查询和句子对应的词频向量表示;
假设子主题S内有m个句子,即子主题表示为S={s(1),s(2),...,s(m)},则查询与子主题之间的相关度计算公式如下: relevance ( q , S ) = max 1 ≤ i ≤ m { sim ( q , s ( i ) ) } .
所述子主题的重要程度为子主题的簇内包含的句子数目;所述代表句为与查询相似度最大的句子。
本发明利用主题分割技术,较好地解决了面向查询的多文档摘要技术中的难点,具体体现在以下几个方面:
1.本发明方法通过主题分割技术,识别出当前主题下的不同子主题,并选择与查询相关的多个重要子主题,从中摘取代表句生成摘要。由于摘要覆盖了与查询相关的多个子主题,即多个主题侧面,因此摘要能在贴合查询的特定关注点的基础上,覆盖更多的信息;本发明还对子主题的重要程度进行了评价,在与查询相关的所有子主题中,选择对于当前主题来讲较为重要的子主题生成摘要,使得摘要在有限的长度范围内,尽量包括了文档集内较为重要的信息,提供更加有针对性的服务,允许用户提出最关心的问题,生成的摘要可以回答用户所提出的问题,进一步满足用户的个性化要求
2.本发明设计了合理的主题分割方法,其中方法1时间复杂度低,效果优于同类算法,方法2同时考虑语义段落内部距离和语义段落之间距离因素,具有很好的分割效果,且可自动确定语义段落数目,方法3在方法2的基础上,进一步考虑了语义段落长度和句子距离对相似度的影响因素,并采用动态规划算法寻求最优分割,时间复杂度较低。
3.本发明仅对文档进行了浅层分析,利用词汇分布和文档结构特点进行文本分割,并根据子主题的词汇使用和大小等表层信息,识别出与查询相关的重要子主题,进而生成摘要。方法不依赖于任何外部资源,是一种独立于具体领域的方法,这也是基于主题分割技术的多文档摘要方法的优势所在。
4.本发明是一种基于摘录的方法,直接从文档中摘取原始句子形成摘要,与基于语言生成的方法相比,无需语言分析技术、语言生成模型和其他语言学知识的支持,易于实现,具有较好的实用性,并且有较大的提升空间。
5.本发明方法可用于搜索引擎、新闻服务、信息智能处理等,无需占用过多的网络带宽资源,即可使用户获得大量信息。同时用户将自己的喜好和关注点返回给服务器,而本发明方法可以根据用户的查询主题调整摘要内容,实现与用户的互动。
附图说明
图1为本发明方法流程图。
具体实施方式
如图1所示,本发明一种面向查询的多文档自动摘要方法,包括以下步骤:
对查询及文档进行预处理;
将上述预处理后的文档进行主题分割和语义段落聚类,得到子主题;
将查询及上述每个子主题内的句子表示成词频向量形式,计算查询与子主题的相关度;
根据查询与子主题的相关度,对子主题进行筛选,并根据子主题的重要程度,进行排序,选择前T个重要的子主题,得到与查询相关的子主题有序序列;
从子主题序列中依次循环摘取代表句,并将代表句连接起来,生成摘要。
所述对查询进行预处理过程如下:
去除查询里的格式标记,提取出查询的主体部分;
对每个主体部分进行词根还原,去除查询里的禁用词,将余下的词作为查询的关键词,得到查询的关键词集合。
所述对文档进行预处理过程如下:
去除每篇文档内的格式标记,提取出文档的主体部分;
对每个文档中的英文文本进行词根还原,对中文文本进行分词,去除文档内的禁用词;
对每篇文档进行分句。
所述的禁用词包括查询禁用词和文本禁用词,其中针对查询的预处理,将频繁出现在查询内的无关词去掉。
所述主题分割可采取算法1:
通过一个反映文档词汇整体分布情况的点图来识别语义段落边界,包括以下步骤:
构造点图:假设某个词在文档中位置x和位置y处重复出现,则分别在图中(x,x),(x,y),(y,x)和(y,y)四个坐标上用一个点标出该词,即将整篇文本表示为一个对称的二维点图;
列出潜在语义段落边界:将文档中全部句子或自然段落边界作为潜在语义段落边界;
确定最佳语义段落边界:假设B为已确定的语义段落边界集合,那么余下的所有边界都是候选语义段落边界,参与下一轮的最佳边界评选,它们组成候选边界集合C;边界集合C中每个候选边界i,令P=B∪{i},计算由P分割出的点图上对角线外部区域的总体密度,选择使得总体密度最小的候选边界作为下一个最佳语义段落边界加入集合B,密度计算方法是:
f D 1 = Σ j = 2 | P | V P j - 1 , P j · V P j , n ( P j - P j - 1 ) ( n - P j ) + Σ j = 1 | P - 1 | V 0 , P j · V P j , P j + 1 P j ( P j + 1 - P j )
f D 2 = Σ j = 2 | P | V P j - 1 , P j · V P j , P j + 1 ( P j - P j - 1 ) ( P j + 1 - P j )
其中n为整篇文档的长度,Pi为第j个语义段落边界的位置,|P|为文档中的语段数目,为第Pj-1个词至第Pj个词组成的文本片段的词频向量;为第Pj个词至文档末尾组成的文本片段的词频向量;
Figure S2008100120934D00095
为文档开头至第Pj个词组成的文本片段的词频向量;为第Pj个词至第Pj+1个词组成的文本片段的词频向量。
重复上述过程,直至语段边界数目达到预先指定的数目K为止。
点图明显地反映了一篇文档内部的子主题分布情况。从这个图上,可以清楚地看到文本中词汇的密度分布情况。密度是评价主题连贯性的度量方法。一般地说,语义段落内部的词汇重复程度会比较高,点图中对角线上对应区域的点也会比较密集,对角线上密度较大的正方形区域就是语义段落,区域内部密度越大,表示该语义段落内部主题连贯性越高。相应地,对角线外部对应区域的点会比较稀疏,使得对角线外部区域总体密度最小的位置就是语义段落边界。
本发明方法中的主题分割还可采取算法2:
如果给定文档为数据空间,语义段落为类别,则将主题分割的过程转化为数据空间分割过程,求取最佳分割方式,具体包括以下步骤:
文档表示:定义文档W为块序列B=b1b2...bk,其中b1、b2和bk分别表示第1个、第2个和第k个块,k表示文本B包含块的个数,块定义为包含blocksize个词的文本片段,采用具有相同长度的块参与分割评价过程,能够有效解决不平衡比较现象。通过定义全局评价函数J来评价具体分割方式,评价值的大小表示分割方式的好坏。将求解最优分割方式的过程转换成为求解具有最大评价值的文本分割方式的过程,计算公式如下式所示:
S ^ = arg max S P ( S | B ) = def arg max S J ( B , S )
其中,
Figure S2008100120934D00102
为具有最大评价值的文本分割方式;S为文本B的一个分割方式;J(B,S)为文本B下分割方式为S时的分割评价值。
构造候选分割方式集合:将文档中全部自然段落边界作为潜在的语义段落边界,自然段落边界的全部组合作为候选主题分割方式;
计算各种分割方式的评价值,其中:
定义语义段落内散布矩阵SW为:
S W = Σ i = 1 c P i 1 n i Σ b ∈ s i ( b - m i ) ( b - m i ) t
其中b为第i块的向量表示;S=s1s2...sc表示文本B的一个分割方式;c为当前文本分割方式S包含的语义段落个数;Pi为语义段落si的先验概率,即语义段落si的块个数与当前文本B的所有块个数的比值;ni表示语义段落si中块的个数;mi为语义段落si的中心向量;运算符t表示矩阵的转置。其中:
m i = 1 n i Σ b ∈ s i b
定义语义段落间散布矩阵SB为:
S B = Σ i = 1 c P i ( m i - m ) ( m i - m ) t
其中m为当前分割方式S的总体平均向量:
m = 1 n Σ b ∈ B b = 1 n Σ i = 1 c n i m i
J为基于多元判别分析的分割评价函数,包括:
根据语义段落内距离和语义段落间距离,定义第1多元判别分析评价函数J1
J 1 ( B , S ) = tr ( S B ) tr ( S W )
根据语义段落内距离和语义段落间距离,定义第2多元判别分析评价函数J2
J2(B,S)=tr(SB)×tr(SW)
根据语义段落内距离、语义段落间距离和语义段落的长度,定义第3多元判别分析评价函数J3
J 3 ( B , S ) = S L × tr ( S B ) tr ( S W )
根据语义段落内距离、语义段落间距离和语义段落的长度,定义第4多元判别分析评价函数J4
J4(B,S)=SL×tr(SB)×tr(SW)
上述各式中tr(SB)和tr(SW)分别表示矩阵SB和矩阵SW的迹,为矩阵对角线元素之和;
采用第1、3多元判别分析评价函数J1或J3计算J(B,S)评价值;
确定最佳语义段落数目:
对于每个可能的语义段落数目,根据计算各种分割方式的评价值的结果求取该数目下所有分割方式中带有最大评价值J的最佳分割S;采用第2、4多元判别分析评价函数J2或J4来计算评价函数J*(B,S)评价值;具有最大评价值J*的分割方式所对应的语义段落数目N为最佳语义段落数目;
确定最佳分割方式:
最佳语义段落数目N下具有最大评价值J的分割方式为最佳分割方式。
上述文本主题分割方法独立于具体领域,其中采用多元判别分析方法定义四种分割全局评价函数,实现对文本分割的全局评价,比局部评价方法具有更好的文本分割性能。该评价函数主要考虑了语义段落内距离、语义段落间距离等几方面因素来评价各种分割方式。
本发明方法中所述的主题分割还可以采取算法3:
通过定义各种分割方式的评价函数,采用动态规划方法寻求最佳分割方式,具体包括以下步骤:
定义评价文本分割方式的评价函数:
J = α · Σ i = 1 N Σ m = p i - 1 + 1 p i Σ n = p i - 1 + 1 p i W m , n D m , n ( p i - p i - 1 ) 2
- ( 1 - α ) · Σ i = 1 N Σ m = p i + 1 p i + 1 Σ n = p i - 1 + 1 p i W m , n D m , n ( p i + 1 - p i ) ( p i - p i - 1 ) + β · Σ i = 1 N ( L i L ) 2
其中pi为第i个语义段落边界的位置,N为语义段落数目,L为整篇文档的长度,Li为每个语义段落的长度;公式中第一项为同一语义段落内部词汇相似度,第二项为相邻语义段落之间词汇相似度,α和1-α分别为它们的相对权重,第三项为语义段落长度惩罚因子,其作用是抑制生成过多的语义段落,β为该因子的权重;Di,j为句子i和句子j之间的相似度,计算方法是:若i和j之间有共同词,则Di,j取值为1,否则为0;Wi,j为根据句子i和句子j之间的距离为相似度Di,j赋予的权重,计算方法如下式所示:
W m , n = 1 if | m - n | ≤ 2 1 | m - n | - 1 else
根据上述分割评价函数,采用动态规划算法求取使得函数值最大的最优分割方式,具体计算步骤如下:
1)初始化:
对文档中任意两个句子i和j,利用下列公式计算相似度值:
Si,j=Wi,j·Di,j
2)最大化:
递推地计算Ct,s,即从第1个句子到第t个句子组成的文本片段的最优分割方式的评价函数值,其中s为前一个语义段落边界,计算公式为:
C t , s = arg max ( C s , w + α · S s + 1 , t ( t - s ) 2 - ( 1 - α ) · S w + 1 , t - S w + 1 , s - S s + 1 , t ( t - s ) ( s - w ) + β · ( t - s K ) 2 )
其中w是t和s的前一个最优语义段落边界,K为文档里的句子数;
记录最优分割方式中边界s的前一个语义段落边界Zt,s
3)回溯:
逆序地推出最优分割方式
Figure S2008100120934D00122
向量,在该过程中,最佳语义段落数目N自动确定。
上述主题分割算法尝试同时最大化同一语义段落内部相似度,最小化相邻语义段落之间相似度。另外,算法还考虑了其他文本结构特点,例如句子距离和语段长度,并将这些丰富的因素整合入分割评价函数,来识别子主题的跳转。利用动态规划寻求最佳分割方式,大大降低了算法的时间复杂度。
主题分割技术可以将一篇文档内论述不同子主题的文本片段分割开来,也就是划分出文档内描述主题不同侧面的不同语义段落,如果将全部文档的语义段落集合起来,进行聚类,就可以把整个文档集内关于同一个主题侧面的文本聚集在一起,这样聚类后形成的每一个簇就代表了一个主题侧面,即当前主题下的一个子主题。
本发明方法中的语义段落聚类的具体步骤如下:
1)将语义段落表示成词频向量,认为每个语义段落均为一个簇;
2)计算语义段落两两之间的相似度,选择相似度最高的两个簇合并为一个簇;语义段落之间的文本相似度通过向量余弦来计算,假设两个语义段落词频向量分别为x={x1,x2,,...,xn}和y={y1,y2,...,yn},则相似度计算公式如下:
sim ( x , y ) = Σ i = 1 n x i y i Σ i = 1 n x i 2 Σ i = 1 n y i 2
3)计算新生成的语义段落簇两两之间的相似度,继续合并相似度最高的簇;语义段落簇之间的文本相似度计算方法是,将两个簇之间相似度最小的两个语义段落之间的文本相似度作为两个簇的相似度;
4)重复步骤3,直到相似度最高的两个簇之间的相似度也低于阈值C为止,这样,就得到了一定数量的簇,每个簇代表一个子主题。
查询与子主题之间相关度的计算方法是,计算查询与子主题内的每个句子之间的相似度,将最大的相似度作为查询与子主题的相关度;查询与子主题句之间的文本相似度通过向量余弦来计算,假设查询词频向量为q={q1,q2,..,qn},子主题句的词频向量为s={s1,s2,...,sn},则相似度计算公式如下:
sim ( q , s ) = Σ i = 1 n q i s i Σ i = 1 n q i 2 Σ i = 1 n s i 2
其中sim(q,s)表示查询q与句子s之间的相似度,qi和si分别为查询和句子对应的词频向量表示;
假设子主题S内有m个句子,即子主题表示为S={s(1),s(2),...,s(m)},则查询与子主题之间的相关度计算公式如下: relevance ( q , S ) = max 1 ≤ i ≤ m { sim ( q , s ( i ) ) }
子主题的重要程度为子主题的簇内包含的句子数目,代表句为与查询相似度最大的句子。
在聚类后生成的子主题集合的基础上,计算各个子主题与查询的相关度,然后选择与查询相关的子主题,就是选出了用户所关注的侧面,最后按照相关子主题的重要程度进行排序,依次从每个子主题中摘取代表性句子,就可以形成摘要。用这种方式生成的摘要不但与查询紧密相关,而且涵盖了查询所涉及的多个侧面,具有较高的覆盖度。另一方面,摘要也尽可能地选择了当前主题下较为重要的信息。
本发明面向查询的多文档自动摘要方法可以提供更加有针对性的服务,允许用户提出最关心的问题,生成的摘要可以回答用户所提出的问题,进一步满足用户的个性化要求。本发明方法可用于搜索引擎,新闻服务、信息智能处理等,例如应用于手机新闻服务,服务器端将篇幅短小的新闻摘要以短信形式发送给用户,无需占用过多的网络带宽资源,即可使用户获得大量信息。同时用户将自己的喜好和关注点返回给服务器,而本发明方法可以根据用户的查询主题调整摘要内容,实现与用户的互动。

Claims (10)

1.一种面向查询的多文档自动摘要方法,其特征在于包括以下步骤:
对查询及文档进行预处理;
将上述预处理后的文档进行主题分割和语义段落聚类,得到子主题;
将查询及上述每个子主题内的句子表示成词频向量形式,计算查询与子主题的相关度;
根据查询与子主题的相关度,对子主题进行筛选,并根据子主题的重要程度,进行排序,选择前T个重要的子主题,得到与查询相关的子主题有序序列;
从子主题序列中依次循环摘取代表句,并将代表句连接起来,生成摘要。
2.按权利要求1所述的面向查询的多文档自动摘要方法,其特征在于所述对查询进行预处理过程如下:
去除查询里的格式标记,提取出查询的主体部分;
对每个主体部分进行词根还原,去除查询里的禁用词,将余下的词作为查询的关键词,得到查询的关键词集合。
3.按权利要求1所述的面向查询的多文档自动摘要方法,其特征在于所述对文档进行预处理过程如下:
去除每篇文档内的格式标记,提取出文档的主体部分;
对每个文档中的英文文本进行词根还原,对中文文本进行分词,去除文档内的禁用词;
对每篇文档进行分句。
4.按权利要求2或3所述的面向查询的多文档自动摘要方法,其特征在于:
所述的禁用词包括查询禁用词和文本禁用词,其中针对查询的预处理,将频繁出现在查询内的无关词去掉。
5.按权利要求1所述的面向查询的多文自动档摘要方法,其特征在于:所述的主题分割采取算法1:
算法1:通过一个反映文档词汇整体分布情况的点图来识别语义段落边界,包括以下步骤:
构造点图:假设某个词在文档中位置x和位置y处重复出现,则分别在图中(x,x),(x,y),(y,x)和(y,y)四个坐标上用一个点标出该词,即将整篇文本表示为一个对称的二维点图;
列出潜在语义段落边界:将文档中全部句子或自然段落边界作为潜在语义段落边界;
确定最佳语义段落边界:假设B为已确定的语义段落边界集合,那么余下的所有边界都是候选语义段落边界,参与下一轮的最佳边界评选,它们组成候选边界集合C;边界集合C中每个候选边界i,令P=B∪{i},计算由P分割出的点图上对角线外部区域的总体密度,选择使得总体密度最小的候选边界作为下一个最佳语义段落边界加入集合B,密度计算方法是:
f D 1 = Σ j = 2 | P | V P j - 1 , P j · V P j n ( P j - P j - 1 ) ( n - P j ) + Σ j = 1 | P - 1 | V 0 P j · V P j , P j + 1 P j ( P j + 1 - P j )
f D 2 = Σ j = 2 | P | V P j + 1 , P j · V P j , P j + 1 ( P j - P j - 1 ) ( P j + 1 - P j )
其中n为整篇文档的长度,Pj为第j个语义段落边界的位置,|P|为文档中的语段数目,
Figure A2008100120930003C3
为第Pj-1个词至第Pj个词组成的文本片段的词频向量;
Figure A2008100120930003C4
为第Pj个词至文档末尾组成的文本片段的词频向量;为文档开头至第Pj个词组成的文本片段的词频向量;
Figure A2008100120930003C6
为第pj个词至第Pj+1个词组成的文本片段的词频向量。
重复上述过程,直至语段边界数目达到预先指定的数目K为止。
6.按权利要求1所述的面向查询的多文档自动摘要方法,其特征在于:所述的主题分割采取算法2:
算法2:如果给定文档为数据空间,语义段落为类别,则将主题分割的过程转化为数据空间分割过程,求取最佳分割方式,具体包括以下步骤:
文档表示:定义文档W为块序列B=b1b2...bk,其中b1、b2和bk分别表示第1个、第2个和第k个块,k表示文本B包含块的个数,块定义为包含blocksize个词的文本片段,采用具有相同长度的块参与分割评价过程,将求解最优分割方式的过程转换成为求解具有最大评价值的文本分割方式的过程,计算公式如下式所示:
S ^ = arg max S P ( S | B ) = def arg max S J ( B , S )
其中,
Figure A2008100120930003C8
为具有最大评价值的文本分割方式;S为文本B的一个分割方式;J(B,S)为文本B下分割方式为S时的分割评价值。
构造候选分割方式集合:将文档中全部自然段落边界作为潜在的语义段落边界,自然段落边界的全部组合作为候选主题分割方式;
计算各种分割方式的评价值,其中:
定义语义段落内散布矩阵SW为:
S W = Σ i = 1 c P i 1 n i Σ b ∈ s i ( b - m i ) ( b - m i ) t
其中b为第i块的向量表示;S=s1s2...sc表示文本B的一个分割方式;c为当前文本分割方式S包含的语义段落个数;Pi为语义段落si的先验概率,即语义段落si的块个数与当前文本B的所有块个数的比值;ni表示语义段落si中块的个数;mi为语义段落si的中心向量;运算符t表示矩阵的转置。其中:
m i = 1 n i Σ b ∈ s i b
定义语义段落间散布矩阵SB为:
S B = Σ i = 1 c P i ( m i - m ) ( m i - m ) t
其中m为当前分割方式S的总体平均向量:
m = 1 n Σ b ∈ B b = 1 n Σ i = 1 c n i m i
J为基于多元判别分析的分割评价函数,包括:
根据语义段落内距离和语义段落间距离,定义第1多元判别分析评价函数J1
J 1 ( B , S ) = tr ( S B ) tr ( S W )
根据语义段落内距离和语义段落间距离,定义第2多元判别分析评价函数J2
J2(B,S)=tr(SB)×tr(SW)
根据语义段落内距离、语义段落间距离和语义段落的长度,定义第3多元判别分析评价函数J3
J 3 ( B , S ) = S L × tr ( S B ) tr ( S W )
根据语义段落内距离、语义段落间距离和语义段落的长度,定义第4多元判别分析评价函数J4
J4(B,S)=SI×tr(SB)×tr(SW)
上述各式中tr(SB)和tr(SW)分别表示矩阵SB和矩阵SW的迹,为矩阵对角线元素之和;
采用第1、3多元判别分析评价函数J1或J3计算J(B,S)评价值;
确定最佳语义段落数目:
对于每个可能的语义段落数目,根据计算各种分割方式的评价值的结果求取该数目下所有分割方式中带有最大评价值J的最佳分割S;采用第2、4多元判别分析评价函数J2或J4来计算评价函数J*(B,S)评价值;具有最大评价值J*的分割方式所对应的语义段落数目N为最佳语义段落数目;
确定最佳分割方式:
最佳语义段落数目N下具有最大评价值J的分割方式为最佳分割方式。
7.按权利要求1所述的面向查询的多文自动档摘要方法,其特征在于:所述的主题分割采取算法3:
算法3:通过定义各种分割方式的评价函数,采用动态规划方法寻求最佳分割方式,具体包括以下步骤:
定义评价文本分割方式的评价函数:
J = α · Σ i = 1 N Σ m = p i + 1 + 1 p i Σ n = p i + 1 + 1 p i W mn D mn ( p i - p i - 1 ) 2
- ( 1 - α ) · Σ i = 1 N Σ m = p + 1 p i + 1 Σ n = p - 1 + 1 p i W mn D mn ( p i + 1 - p i ) ( p i - p i - 1 ) + β Σ i = 1 N ( L i L ) 2
其中pi为第i个语义段落边界的位置,N为语义段落数目,L为整篇文档的长度,Li为每个语义段落的长度;公式中第一项为同一语义段落内部词汇相似度,第二项为相邻语义段落之间词汇相似度,α和1-α分别为它们的相对权重,第三项为语义段落长度惩罚因子,β为该因子的权重;Di,j为句子i和句子j之间的相似度,Wij为根据句子i和句子j之间的距离为相似度Dij赋予的权重,计算方法如下式所示:
W mn = 1 if | m - n | ≤ 2 1 | m - n | - 1 else
根据上述分割评价函数,采用动态规划算法求取使得函数值最大的最优分割方式,具体计算步骤如下:
1)初始化:
对文档中任意两个句子i和j,利用下列公式计算相似度值:
Si,j=Wi,j·Di,j
2)最大化:
递推地计算Ct,s,即从第1个句子到第t个句子组成的文本片段的最优分割方式的评价函数值,其中s为前一个语义段落边界,计算公式为:
C is = arg max ( C sn + α S s + 1 t ( t - s ) 2 - ( 1 - α ) S n + 1 t - S n + 1 s - S s + 1 t ( t - s ) ( s - w ) + β · ( t - s K ) 2 )
其中w是t和s的前一个最优语义段落边界,K为文档里的句子数;
记录最优分割方式中边界s的前一个语义段落边界Zt,s
3)回溯:
逆序地推出最优分割方式
Figure A2008100120930005C5
向量,在该过程中,最佳语义段落数目N自动确定。
8.如权利要求1所述的一种面向查询的多文档自动摘要方法,其特征在于:所述语义段落聚类的具体步骤如下:
1)将语义段落表示成词频向量,认为每个语义段落均为一个簇;
2)计算语义段落两两之间的相似度,选择相似度最高的两个簇合并为一个簇;语义段落之间的文本相似度通过向量余弦来计算,假设两个语义段落词频向量分别为x={x1,x2,...,xn}和y={y1,y2,...,yn},则相似度计算公式如下:
sim ( x , y ) = Σ i = 1 n x i y i Σ i = 1 n x i 2 Σ i = 1 n y i 2
3)计算新生成的语义段落簇两两之间的相似度,继续合并相似度最高的簇;语义段落簇之间的文本相似度计算方法是,将两个簇之间相似度最小的两个语义段落之间的文本相似度作为两个簇的相似度;
4)重复步骤3,直到相似度最高的两个簇之间的相似度也低于阈值C为止,这样,就得到了一定数量的簇,每个簇代表一个子主题。
9.按权利要求1所述的一种面向查询的多文档自动摘要方法,其特征在于:所述查询与子主题之间相关度的计算方法是,计算查询与子主题内的每个句子之间的相似度,将最大的相似度作为查询与子主题的相关度;查询与子主题句之间的文本相似度通过向量余弦来计算,假设查询词频向量为q={q1,q2,...,qn},子主题句的词频向量为s={s1,s2,...,sn},则相似度计算公式如下:
sim ( q , s ) = Σ i = 1 n q i s i Σ i = 1 n q i 2 Σ i = 1 n s i 2
其中sim(q,s)表示查询q与句子s之间的相似度,qi和si分别为查询和句子对应的词频向量表示;
假设子主题S内有m个句子,即子主题表示为S={s(1),s(2),...,s(m)},则查询与子主题之间的相关度计算公式如下: relevance ( q , S ) = max 1 ≤ i ≤ m { sim ( q , s ( i ) ) } .
10.按权利要求1所述的一种面向查询的多文档自动摘要方法,其特征在于:所述子主题的重要程度为子主题的簇内包含的句子数目;所述代表句为与查询相似度最大的句子。
CN2008100120934A 2008-06-30 2008-06-30 一种面向查询的多文档自动摘要方法 Expired - Fee Related CN101620596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100120934A CN101620596B (zh) 2008-06-30 2008-06-30 一种面向查询的多文档自动摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100120934A CN101620596B (zh) 2008-06-30 2008-06-30 一种面向查询的多文档自动摘要方法

Publications (2)

Publication Number Publication Date
CN101620596A true CN101620596A (zh) 2010-01-06
CN101620596B CN101620596B (zh) 2012-02-15

Family

ID=41513838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100120934A Expired - Fee Related CN101620596B (zh) 2008-06-30 2008-06-30 一种面向查询的多文档自动摘要方法

Country Status (1)

Country Link
CN (1) CN101620596B (zh)

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
CN103149840A (zh) * 2013-02-01 2013-06-12 西北工业大学 一种基于动态规划的语义服务组合方法
CN103377187A (zh) * 2012-04-19 2013-10-30 株式会社日立制作所 段落分割方法、装置以及程序
CN103631862A (zh) * 2012-11-02 2014-03-12 中国人民解放军国防科学技术大学 基于微博的事件特征演化挖掘方法及系统
CN103678278A (zh) * 2013-12-16 2014-03-26 中国科学院计算机网络信息中心 一种中文文本情感识别方法
CN103902694A (zh) * 2014-03-28 2014-07-02 哈尔滨工程大学 基于聚类和查询行为的检索结果排序方法
WO2014106339A1 (en) * 2013-01-06 2014-07-10 Empire Technology Development Llc Text billing based on semantic data reasoning
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法
CN104679730A (zh) * 2015-02-13 2015-06-03 刘秀磊 网页摘要抽取方法及其装置
CN104699847A (zh) * 2015-02-13 2015-06-10 刘秀磊 网页摘要抽取方法及其装置
CN104778204A (zh) * 2015-03-02 2015-07-15 华南理工大学 基于两层聚类的多文档主题发现方法
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104951430A (zh) * 2014-03-27 2015-09-30 携程计算机技术(上海)有限公司 产品特征标签的提取方法及装置
CN105183710A (zh) * 2015-06-23 2015-12-23 武汉传神信息技术有限公司 一种文档摘要自动生成的方法
CN105488024A (zh) * 2015-11-20 2016-04-13 广州神马移动信息科技有限公司 网页主题句的抽取方法及装置
CN105512335A (zh) * 2015-12-29 2016-04-20 腾讯科技(深圳)有限公司 一种摘要搜索方法和装置
CN105808552A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于滑动窗口从网页中提取摘要的方法和装置
CN105808561A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种从网页中提取摘要的方法和装置
CN105808562A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于权值提取网页摘要的方法和装置
CN106407178A (zh) * 2016-08-25 2017-02-15 中国科学院计算技术研究所 一种会话摘要生成方法及装置
CN106663087A (zh) * 2014-10-01 2017-05-10 株式会社日立制作所 文章生成系统
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN107766325A (zh) * 2017-09-27 2018-03-06 百度在线网络技术(北京)有限公司 文本拼接方法及其装置
CN107784127A (zh) * 2017-11-30 2018-03-09 杭州数梦工场科技有限公司 一种热点定位方法和装置
CN107808011A (zh) * 2017-11-20 2018-03-16 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108256539A (zh) * 2016-12-28 2018-07-06 北京智能管家科技有限公司 基于语义匹配的人机交互方法、交互系统及智能故事机
CN108427667A (zh) * 2017-02-15 2018-08-21 北京国双科技有限公司 一种法律文书的分段方法及装置
CN109101489A (zh) * 2018-07-18 2018-12-28 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN109241526A (zh) * 2018-08-22 2019-01-18 北京慕华信息科技有限公司 一种段落分割方法和装置
CN109800284A (zh) * 2018-12-19 2019-05-24 中国电子科技集团公司第二十八研究所 一种面向任务的非结构化信息智能问答系统构建方法
CN109885683A (zh) * 2019-01-29 2019-06-14 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法
CN110737820A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成事件信息的方法和装置
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及系统
CN111859950A (zh) * 2020-06-18 2020-10-30 达而观信息科技(上海)有限公司 一种自动化生成讲稿的方法
CN112183111A (zh) * 2020-09-28 2021-01-05 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN113076734A (zh) * 2021-04-15 2021-07-06 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置
CN114722836A (zh) * 2022-05-12 2022-07-08 北京中科闻歌科技股份有限公司 摘要生成方法、装置、设备及介质
US11514242B2 (en) 2019-08-10 2022-11-29 Chongqing Sizai Information Technology Co., Ltd. Method for automatically summarizing internet web page and text information
CN118171650A (zh) * 2024-03-21 2024-06-11 行至智能(北京)技术有限公司 一种完全无监督的大语言模型微调训练平台
CN118227781A (zh) * 2024-05-24 2024-06-21 辽宁人人畅享科技有限公司 一种用于智慧教学平台的智能化教务管理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2184518A1 (en) * 1996-08-30 1998-03-01 Jim Reed Real time structured summary search engine
CN100418093C (zh) * 2006-04-13 2008-09-10 北大方正集团有限公司 一种基于簇排列的面向主题或查询的多文档摘要方法

Cited By (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
CN103377187B (zh) * 2012-04-19 2016-09-28 株式会社日立制作所 段落分割方法和段落分割装置
CN103377187A (zh) * 2012-04-19 2013-10-30 株式会社日立制作所 段落分割方法、装置以及程序
CN103631862B (zh) * 2012-11-02 2017-01-11 中国人民解放军国防科学技术大学 基于微博的事件特征演化挖掘方法及系统
CN103631862A (zh) * 2012-11-02 2014-03-12 中国人民解放军国防科学技术大学 基于微博的事件特征演化挖掘方法及系统
WO2014106339A1 (en) * 2013-01-06 2014-07-10 Empire Technology Development Llc Text billing based on semantic data reasoning
CN103149840B (zh) * 2013-02-01 2015-03-04 西北工业大学 一种基于动态规划的语义服务组合方法
CN103149840A (zh) * 2013-02-01 2013-06-12 西北工业大学 一种基于动态规划的语义服务组合方法
CN103678278A (zh) * 2013-12-16 2014-03-26 中国科学院计算机网络信息中心 一种中文文本情感识别方法
CN104951430A (zh) * 2014-03-27 2015-09-30 携程计算机技术(上海)有限公司 产品特征标签的提取方法及装置
CN104951430B (zh) * 2014-03-27 2019-03-12 上海携程商务有限公司 产品特征标签的提取方法及装置
CN103902694A (zh) * 2014-03-28 2014-07-02 哈尔滨工程大学 基于聚类和查询行为的检索结果排序方法
CN103902694B (zh) * 2014-03-28 2017-04-12 哈尔滨工程大学 基于聚类和查询行为的检索结果排序方法
CN106663087A (zh) * 2014-10-01 2017-05-10 株式会社日立制作所 文章生成系统
CN106663087B (zh) * 2014-10-01 2019-08-16 株式会社日立制作所 文章生成系统
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法
CN105808562A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于权值提取网页摘要的方法和装置
CN105808552A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于滑动窗口从网页中提取摘要的方法和装置
CN105808561A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种从网页中提取摘要的方法和装置
CN104679730A (zh) * 2015-02-13 2015-06-03 刘秀磊 网页摘要抽取方法及其装置
CN104699847B (zh) * 2015-02-13 2018-02-06 刘秀磊 网页摘要抽取方法及其装置
CN104699847A (zh) * 2015-02-13 2015-06-10 刘秀磊 网页摘要抽取方法及其装置
CN104778204B (zh) * 2015-03-02 2018-03-02 华南理工大学 基于两层聚类的多文档主题发现方法
CN104778204A (zh) * 2015-03-02 2015-07-15 华南理工大学 基于两层聚类的多文档主题发现方法
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104778158B (zh) * 2015-03-04 2018-07-17 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN105183710A (zh) * 2015-06-23 2015-12-23 武汉传神信息技术有限公司 一种文档摘要自动生成的方法
CN105488024A (zh) * 2015-11-20 2016-04-13 广州神马移动信息科技有限公司 网页主题句的抽取方法及装置
US10482136B2 (en) 2015-11-20 2019-11-19 Guangzhou Shenma Mobile Information Technology Co., Ltd. Method and apparatus for extracting topic sentences of webpages
CN105512335A (zh) * 2015-12-29 2016-04-20 腾讯科技(深圳)有限公司 一种摘要搜索方法和装置
CN105512335B (zh) * 2015-12-29 2020-01-31 腾讯科技(深圳)有限公司 一种摘要搜索方法和装置
CN106407178A (zh) * 2016-08-25 2017-02-15 中国科学院计算技术研究所 一种会话摘要生成方法及装置
CN108256539A (zh) * 2016-12-28 2018-07-06 北京智能管家科技有限公司 基于语义匹配的人机交互方法、交互系统及智能故事机
CN108427667B (zh) * 2017-02-15 2021-08-10 北京国双科技有限公司 一种法律文书的分段方法及装置
CN108427667A (zh) * 2017-02-15 2018-08-21 北京国双科技有限公司 一种法律文书的分段方法及装置
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN107766325A (zh) * 2017-09-27 2018-03-06 百度在线网络技术(北京)有限公司 文本拼接方法及其装置
CN107808011B (zh) * 2017-11-20 2021-04-13 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质
CN107808011A (zh) * 2017-11-20 2018-03-16 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质
CN107784127A (zh) * 2017-11-30 2018-03-09 杭州数梦工场科技有限公司 一种热点定位方法和装置
CN108197111B (zh) * 2018-01-10 2020-12-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN110737820B (zh) * 2018-07-03 2022-05-31 百度在线网络技术(北京)有限公司 用于生成事件信息的方法和装置
CN110737820A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成事件信息的方法和装置
CN109101489A (zh) * 2018-07-18 2018-12-28 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN109101489B (zh) * 2018-07-18 2022-05-20 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN109241526B (zh) * 2018-08-22 2022-11-15 北京慕华信息科技有限公司 一种段落分割方法和装置
CN109241526A (zh) * 2018-08-22 2019-01-18 北京慕华信息科技有限公司 一种段落分割方法和装置
CN109800284B (zh) * 2018-12-19 2021-02-05 中国电子科技集团公司第二十八研究所 一种面向任务的非结构化信息智能问答系统构建方法
CN109800284A (zh) * 2018-12-19 2019-05-24 中国电子科技集团公司第二十八研究所 一种面向任务的非结构化信息智能问答系统构建方法
CN109885683A (zh) * 2019-01-29 2019-06-14 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法
US11514242B2 (en) 2019-08-10 2022-11-29 Chongqing Sizai Information Technology Co., Ltd. Method for automatically summarizing internet web page and text information
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及系统
CN111639175B (zh) * 2020-05-29 2023-05-02 电子科技大学 一种自监督的对话文本摘要方法及系统
CN111859950A (zh) * 2020-06-18 2020-10-30 达而观信息科技(上海)有限公司 一种自动化生成讲稿的方法
CN112183111A (zh) * 2020-09-28 2021-01-05 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN112183111B (zh) * 2020-09-28 2024-08-23 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN113076734A (zh) * 2021-04-15 2021-07-06 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置
CN114722836A (zh) * 2022-05-12 2022-07-08 北京中科闻歌科技股份有限公司 摘要生成方法、装置、设备及介质
CN118171650A (zh) * 2024-03-21 2024-06-11 行至智能(北京)技术有限公司 一种完全无监督的大语言模型微调训练平台
CN118227781A (zh) * 2024-05-24 2024-06-21 辽宁人人畅享科技有限公司 一种用于智慧教学平台的智能化教务管理方法
CN118227781B (zh) * 2024-05-24 2024-07-26 辽宁人人畅享科技有限公司 一种用于智慧教学平台的智能化教务管理方法

Also Published As

Publication number Publication date
CN101620596B (zh) 2012-02-15

Similar Documents

Publication Publication Date Title
CN101620596B (zh) 一种面向查询的多文档自动摘要方法
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
US7685201B2 (en) Person disambiguation using name entity extraction-based clustering
CN104915446B (zh) 基于新闻的事件演化关系自动提取方法及其系统
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
Giannakidou et al. Co-clustering tags and social data sources
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN100465954C (zh) 用于搜索术语建议的多种类型数据的加强群集
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
KR20080058356A (ko) 시맨틱 토픽의 자동화된 리치 프레젠테이션을 위한컴퓨터-구현 방법 및 컴퓨팅 장치
CN102184262A (zh) 基于web的文本分类挖掘系统及方法
KR100896702B1 (ko) 신뢰도를 향상시킨 문서 구조 기반 군집 장치 및 방법
CN115796181A (zh) 一种针对化工领域的文本关系抽取方法
Kennedy et al. Query-adaptive fusion for multimodal search
CN113032552A (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
CN116186372A (zh) 一种能够提供个性化服务的书目系统
Henderi et al. Unsupervised Learning Methods for Topic Extraction and Modeling in Large-scale Text Corpora using LSA and LDA
Liu et al. The research of Web mining
CN112417322B (zh) 一种面向兴趣点名称文本的类型判别方法及系统
Campbell et al. Content+ context networks for user classification in twitter
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120215

Termination date: 20150630

EXPY Termination of patent right or utility model