CN105868178A - 一种基于短语主题建模的多文档自动摘要生成方法 - Google Patents

一种基于短语主题建模的多文档自动摘要生成方法 Download PDF

Info

Publication number
CN105868178A
CN105868178A CN201610183423.0A CN201610183423A CN105868178A CN 105868178 A CN105868178 A CN 105868178A CN 201610183423 A CN201610183423 A CN 201610183423A CN 105868178 A CN105868178 A CN 105868178A
Authority
CN
China
Prior art keywords
word
theme
document
phrase
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610183423.0A
Other languages
English (en)
Other versions
CN105868178B (zh
Inventor
鲁伟明
庄越挺
张占江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610183423.0A priority Critical patent/CN105868178B/zh
Publication of CN105868178A publication Critical patent/CN105868178A/zh
Application granted granted Critical
Publication of CN105868178B publication Critical patent/CN105868178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于短语主题建模的多文档自动摘要生成方法。将样本多文档进行分词处理,得到短语及其出现频率,文档被表示为短语袋的形式;以LDA主题模型为基础计算文档的联合概率分布,转化到短语主题模型中,然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计,最后得到主题在单词上的概率分布;对被测文档进行分词处理,计算获得句子的主题权重和词频权重,加权计算得到句子的最终权重,根据最终权重生成摘要内容。本发明方法更加规范和精确,考虑了不同单词之间关系,引进句子的主题权重,生成结果更符合人们实际的撰写短文摘要的情况,在引进句子的主题权重后。

Description

一种基于短语主题建模的多文档自动摘要生成方法
技术领域
本发明涉及了一种多文档自动摘要算法,尤其涉及了一种基于短语主题建模的多文档自动摘要生成方法。
背景技术
随着互联网的快速普及,人们获取信息和知识越来越方便,同时由于网络信息的爆炸性增长,导致人们处理大量的文本信息时需要花费大量的精力。那么如何解决人们处理大量的文本信息自然成了当前研究的热点。
多文档自动摘要技术正是为了解决该问题而提出的。目前在新闻文章的自动短文应用较为成熟,新闻文章的特点是来源于不同媒体的新闻文章以同一事件为中心,使用尽可能相同的单词来描述该事件。通过对不同媒体的新闻文章提取相同部分作为主要内容,提取不同部分作为可能的补充内容,来完成应用于新闻文章的多文档自动摘要技术,大部分技术是利用文本聚类的方法实现的。
而我们的目标是研究为文献综述服务的多文档自动摘要技术。相比较新闻文章的以同一事件为中心而言,文献文本并不以同一对象为中心,而是以同一主题为中心。相同单词的频率也不如新闻文章那样高,使用文本聚类的方法无法准确为文献生成短文文摘。我们提出利用主题模型来挖掘出不同单词的主题,通过比较不同单词的主题来实现多文档自动摘要技术。同样,相同的高频单词对自动文摘的影响无法忽视。最终,我们决定利用主题建模计算句子的主题权重作为对以词频为特征的SumBasic自动摘要算法的补充,实现应用于文献综述的多文档自动摘要算法。
发明内容
本发明是为了实现对文献综述的多文档自动摘要生成,考虑到了不同单词属于同一主题的情况,提出了一种基于短语主题建模的多文档自动摘要生成方法,利用短语主题模型挖掘出隐藏在单词下的主题,对多文档自动摘要生成有重要的意义。
如图1所示,本发明解决其技术问题,首先是通过短语主题建模对文本进行主题挖掘处理,在该过程中,文本被分割成满足一定频率的短语,组成短语袋;在此短语袋的基础上利用短语主题模型进行建模,在参数估计过程中得到主题在单词上的概率分布;在SumBasic自动文摘方法的基础上,分别计算句子的词频权重和主题权重,两种权重最后通过加权求和得到句子的最终权重,选择权重最大的句子作为自动文摘的生成内容。
采用的具体技术方案如下:
1)预处理样本多文档:利用Mallet自然语言处理工具将样本多文档进行分词处理,得到短语及其出现频率,文档被表示为短语袋的形式;
所述步骤1)分词处理后的短语长度被限制为不超过3。
2)对样本多文档进行短语主题建模:
以LDA主题模型为基础,用短语代替单词作为计算的对象,计算文档的联合概率分布,转化到短语主题模型中,然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计,最后得到主题在单词上的概率分布;
3)多文档处理生成摘要:
对被测文档进行分词处理,计算获得句子的主题权重和词频权重,加权计算得到句子的最终权重,根据最终权重生成摘要内容。
所述的步骤2)具体是:
2.1)根据步骤1)中的分词处理后,文档以短语袋的形式,在词空间上用向量表示文档,采用以下公式计算获得文档在LDA主题模型下的联合概率分布:
其中,PLDA表示为文档在主题向量Z、单词向量W、主题的单词分布向量Φ和文档的主题分布向量Θ下的联合概率分布,i表示文档集的第i个文档,j表示文档的第j个单词,k表示第k个主题,θi表示文档i的主题分布,zi,j表示文档i第j个单词的主题,wi,j表示文档i第j个单词,表示主题k的单词分布;
2.2)短语主题模型在LDA主题模型的基础上,考虑了多次出现的连续单词比单个单词的意义更大,通过引进一个函数f作为连续单词(短语)的概率因子。采用以下公式进行转换为文档在短语主题模型下的联合概率分布:
P ( Z , W , Φ , Θ ) = 1 C P L D A ( Z , W , Φ , Θ ) Π i , g f ( C i . g )
其中,C表示归一值,C是一个常量使得左边为合理的概率分布,PLDA是2.1中的LDA主题模型计算的文档概率分布,Ci,g表示第i个文档的第g个短语,与下文wi,g的区别在于Ci,g还包括了短语中各个单词的主题变量,f(Ci,g)表示Ci,g的概率因子;
2.3)使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计,隐参数为文档在主题上的概率分布ɑ和主题在单词上的概率分布β,短语Ci,g取主题k的概率p(Ci,g=k|W,Z\Ci,g)为:
p ( C i , g = k | W , Z \ C i , g ) ∞ Π j = 1 W i , g ( α k + N i , k + j - 1 ) ( β w i , g , j + N w i , g , j , k ) ( Σ x = 1 V β x + N k + j - 1 )
其中,W为单词向量,Z为主题向量,Z\Ci,g表示去除主题Ci,g的主题向量,Wi,g表示第i个文档的第g个短语,αk表示文档选择主题为k的概率,Ni,k表示第i个文档中为主题k的单词的个数,βwi,g,j表示主题选择单词wi,g,j的概率,Nwi,g,j,k表示主题k中单词wi,g,j的个数,Nk表示主题k的总单词个数,V表示主题的单词向量,x表示主题的单词向量V的序数,j表示短语Wi,g中单词的序数;
Gibbs采样算法进行迭代计算使得隐参数收敛,迭代次数通常不少于500次,迭代计算后获得主题在单词上的概率分布β,从而得到单词在主题的概率分布。
所述的单词wi,j、单词分布主题zi,j、主题多项式分布θi通过以下LDA主题模型进行生成,LDA主题模型针对于主题的单词分布向量Φ和文档的主题分布向量Θ分别使用两个狄利克雷分布参数ɑ与β,ɑ和β分别表示文档在主题上的概率分布和主题在单词上的概率分布:
从狄利克雷分布ɑ中取样生成文档i的主题多项式分布θi,从主题多项式分布θi中取样生成文档i第j个词的主题zi,j;从狄利克雷分布β中取样生成主题zi,j的单词多项式分布从单词多项式分布中取样生成单词wi,j;各个主题zi,j的单词多项式分布合并形成主题k的单词分布
所述步骤2.2)中短语Ci,g的概率因子f(Ci,g)采用以下公式计算处理,以减少第i个文档的第g个短语Ci,g的可能状态的数量:
f ( C i . g ) = 1 , i f z i , g , 1 = z i , g , 2 = ... = z i , g , s 0 , o t h e r w i s e
其中,zi,g,s表示第i个文档的第g个短语中的第s个单词的主题,s表示Ci,g中包含单词的数量。
短语Ci,g有Ks个可能的状态,K表示主题的个数,经概率因子f(Ci,g)处理后Ci,g的可能状态从Ks减少为K个。
在考虑到短语中的单词概率差异过大可能造成计算不准确,所述步骤2.3)中的公式采用以下公式计算,引进标准差来减少可能的影响;
p ( C i , g = k | W , Z \ C i , g ) = Π j = 1 w i , g p ( w i , g , j | k ) V a r i a n c e S q r t ( p ( w i , g , j | k ) )
其中,p(wi,g,j|k)在参数估计中单词wi,g,j在主题k下的贝叶斯概率,即表示公式中的连乘项,VarianceSqrt是对短语中的单词wi,g,j的贝叶斯概率p(wi,g,j|k)的标准差计算。
所述步骤3)具体是:
3.1)利用步骤1)的结果对被测文档进行分词处理,得到短语或单词,
3.2)根据在步骤2)中得到的主题在单词上的概率分布得到单词属于某一主题的概率,根据句子和单词的关系计算得出句子属于该主题的概率,作为该主题下句子的主题权重;
3.3)采用SumBasic自动文摘算法以单词出现的频率作为依据计算获得句子的词频权重;
3.4)对主题权重和词频权重进行加权计算得到句子的最终权重,依次选择最终权重最大的句子作为自动文摘的生成内容,直至短文文摘长度达到要求。
所述的句子的主题权重具体是在经过分词处理后,利用步骤2)得到的单词在主题的概率分布采用以下公式计算:
T o p i c W e i g h t ( s e n t e n c e | k ) = Σ i = 1 G L ( g i ) Σ j L ( g i ) p ( g i , j | k )
其中,G为句子sentence的短语个数,L(gi)为gi的大小,p(gi,j)为短语gi的第j个单词在主题k下的概率,TopicWeight(sentence|k)表示主题k的主题权重,sentence|k表示主题k下的句子;
所述的词频权重具体采用以下方式计算:
统计被测文档获得被测文档中每个单词的频率,利用每个单词的频率使用以下公式计算获得句子的词频权重:
FrequencyWeight(sentence)=Max{p(wi)}
其中,Max{p(wi)}表示取句子中单词频率最大的作为句子的词频权重,p(wi)表示句子中单词出现的频率。
所述句子的最终权重具体使用以下公式计算:
Weight(sentence|k)=λTopicWeight(sentence|k)+(1-λFrequencyWeight(sentence)
其中,λ是用来控制主题权重和词频权重的影响因子,一般设置为0.5。
本发明将句子的主题权重计算引入到多文档自动摘要计算中,利用挖掘出句子的主题信息,在句子的权重计算时除了考虑词频之外还考虑句子与主题的关系,得到了适用于文献的多文档自动摘要。
本发明方法与现有技术相比具有的有益效果:
1、该方法针对文献文本通常是以实际主题为中心,相比较新闻文章用词更加规范和精确,利用短语主题建模挖掘出隐藏在单词下的主题,然后利用单词在主题的概率分布来计算句子的主题权重。
2、现有技术通常考虑相同的单词对多文档自动摘要算法的影响,忽略了不同单词之间关系,这并不符合人们实际的撰写短文摘要的情况,在引进句子的主题权重后,使得多文档自动摘要算法更加合理。
附图说明
图1是本发明的总体流程图;
图2是步骤2)的短语主题示意图。
表1是实施例结果短语主题结果;
表2是实施例结果自动文摘内容示。
具体实施方式
为了更好地理解本发明的技术方案,以下结合附图1对本发明作进一步的描述。
本实例实施例子的具体步骤,如下:
1)预处理样本多文档:利用Mallet自然语言处理工具将文档分词处理,得到短语及其出现频率(短语长度被限制为不超过3),在该过程中需要去除停词(如the、this)、无效词(如wepurpose),然后构建词向量空间。
2)短语主题建模:以LDA主题模型为基础,用短语代替单词作为计算的对象,计算文档的联合概率分布,转化到短语主题模型中,短语主题模型的示意图如图2所示,然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计,在经过500次数迭代后,得到主题在单词上的概率分布,转化得到单词在主题下的概率分布。根据贝叶斯概率模型,单词w在主题k下的概率在实际的应用中,对测试文档的自动摘要生成所根据的主题是固定的,即p(k)是个常量值,所以可通过记录单词w属于主题k的个数与单词w的总数的比例作为其概率。
3)被测多文档自动摘要:对被测文档进行分词处理,计算获得句子的主题权重和词频权重,如图1所示,句子的主题权重利用步骤2)中短语主题建模训练得到的单词在主题的概率分布,而句子的词频权重通过计算单词的频率得到。再加权计算得到句子的最终权重,λ取0.5,通过对句子的权重排序每次抽取权重最大的句子直到生成的短文长度达到要求。在实际的应用中,被测文档集与训练文档集不相同,且数量级差距很大,导致主题权重计算与词频权重计算不在同一层面上,需要分别对主题权重和词频权重进行归一化处理。
(1)实例采用的数据集均来自DBLP的数据挖掘、信息检索、图象识别、机器学习等领域的论文摘要,数量在8万篇左右,经过步骤1)的预处理得到词表大小为26034的词空间(去除停词、无效词后)。
(2)根据(1)中信息,利用短语主题建模挖掘出的五个主题结果如表1所示,从中可以看出每个主题中的短语虽然不相同,但是都是属于同一主题,例如“Database Systems”与“Concurrency Control”,虽然单词各不相同,但是隐藏在单词下的主题却是一致的。
表1
(3)利用(2)中挖掘出的单词在主题上的概率分布,计算句子的主题权重,并将其与句子的词频权重进行加权求和,得到句子的最终权重,在实际应用中我们选择抽取4-5个权重最大的句子。在本实例中对“database system”这一主题进行自动文摘生成得到的结果如表2。表中不仅包含被选择的句子,还显示了句子在原文中的上下文从结果。可以看出句子虽然很少包括“database system”关键词,却是与“database system”主题密切相关的句子。
表2
本实例的运行结果通过人工对自动生成的短文摘要进行评测,通过计算句子的接受率作为标准,将结果与SumBasic多文档自动摘要算法进行对,结果如下表3所示:
表3
文摘生成方式 文档集合1 文档集合2 文档集合3 文档集合4 文档集合5
SumBasic 88.9% 75% 66.7% 87.5% 88.9%
本方法 90% 88.9% 87.5% 88.9% 90%
有实施例结果的对比可看出,本发明方法在文献上的自动文摘生成的内容相比较SumBasic更容易接受,符合撰写短文摘要的情况,合理有效,具有其突出显著的效果和良好的使用价值和应用前景。

Claims (9)

1.一种基于短语主题建模的多文档自动摘要生成方法,其特征在于包括以下步骤:
1)预处理样本多文档:利用Mallet自然语言处理工具将样本多文档进行分词处理,得到短语及其出现频率,文档被表示为短语袋的形式;
2)对样本多文档进行短语主题建模:
以LDA主题模型为基础,用短语代替单词作为计算的对象,计算文档的联合概率分布,转化到短语主题模型中,然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计,最后得到主题在单词上的概率分布;
3)多文档处理生成摘要:对被测文档进行分词处理,计算获得句子的主题权重和词频权重,加权计算得到句子的最终权重,根据最终权重生成摘要内容。
2.根据权利要求1中所述的一种基于短语主题建模的多文档自动摘要生成方法,其特征在于:所述的步骤2)具体是:
2.1)根据步骤1)中的分词处理后,在词空间上用向量表示文档,采用以下公式计算获得文档在LDA主题模型下的联合概率分布:
其中,PLDA表示为文档在主题向量Z、单词向量W、主题的单词分布向量Ф和文档的主题分布向量Θ下的联合概率分布,i表示文档集的第i个文档,j表示文档的第j个单词,k表示第k个主题,θi表示文档i的主题分布,zi,j表示文档i第j个单词的主题,wi,j表示文档i的第j个单词,表示主题k的单词分布,(p(zi,ji))表示主题zi,j在θi条件下的后验概率,p(wi,j|zi,j,Φ)表示单词wi,j在zi,j和Φ条件下的后验概率,p(θi)和分别表示文档i的主题分布为θi的概率和主题k的单词分布为的概率。
2.2)采用以下公式进行转换为文档在短语主题模型下的联合概率分布:
P ( Z , W , Φ , Θ ) = 1 C P L D A ( Z , W , Φ , Θ ) Π i , g f ( C i . g )
其中,C表示归一值,PLDA是2.1中的LDA主题模型计算的文档概率分布,Ci,g表示第i个文档的第g个短语,f(Ci,g)表示Ci,g的概率因子;2.3)使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计,隐参数为文档在主题上的概率分布ɑ和主题在单词上的概率分布β,短语Ci,g取主题k的概率p(Ci,g=k|W,Z\Ci,g)为:
p ( C i , g = k | W , Z \ C i , g ) ∞ Π j = 1 W i , g ( α k + N i , k + j - 1 ) ( β w i , g , j + N w i , g , j , k ) ( Σ x = 1 V β x + N k + j - 1 )
其中,W为单词向量,Z为主题向量,Z\Ci,g表示去除主题Ci,g的主题向量,Wi,g表示第i个文档的第g个短语,αk表示文档选择主题为k的概率,Ni,k表示第i个文档中为主题k的单词的个数,βwi,g,j表示主题选择单词wi,g,j的概率,j表示文档i的第j个单词,Nwi,g,j,k表示主题k中单词wi,g,j的个数,Nk表示主题k的总单词个数,V表示主题的单词向量,x表示主题的单词向量V的序数,j表示短语Wi,g中单词的序数;
Gibbs采样算法进行迭代计算使得隐参数收敛,迭代计算后获得主题在单词上的概率分布β,从而得到单词在主题的概率分布。
3.根据权利要求2中所述的一种基于短语主题建模的多文档自动摘要生成方法,其特征在于:所述的单词wi,j、单词分布主题zi,j、主题多项式分布θi通过以下LDA主题模型进行生成,LDA主题模型针对于主题的单词分布向量Φ和文档的主题分布向量Θ分别使用两个狄利克雷分布参数ɑ与β,ɑ和β分别表示文档在主题上的概率分布和主题在单词上的概率分布:
从狄利克雷分布ɑ中取样生成文档i的主题多项式分布θi,从主题多项式分布θi中取样生成文档i第j个词的主题zi,j;从狄利克雷分布β中取样生成主题zi,j的单词多项式分布从单词多项式分布中取样生成单词wi,j;各个主题zi,j的单词多项式分布合并形成主题k的单词分布
4.根据权利要求2中所述的一种基于短语主题建模的多文档自动摘要生成方法,其特征在于:所述步骤2.2)中短语Ci,g的概率因子f(Ci,g)采用以下公式计算处理,以减少第i个文档的第g个短语Ci,g的可能状态的数量:
f ( C i . g ) = 1 , i f z i , g , 1 = z i , g , 2 = ... = z i , g , s 0 , o t h e r w i s e
其中,zi,g,s表示第i个文档的第g个短语中的第s个单词的主题,s表示Ci,g中包含单词的数量。
5.根据权利要求2中所述的一种基于短语主题建模的多文档自动摘要生成方法,其特征在于:所述步骤2.3)中的公式采用以下公式计算:
p ( C i , g = k | W , Z \ C i , g ) = Π j = 1 w i , g p ( w i , g , j | k ) V a r i a n c e S q r t ( p ( w i , g , j | k ) )
其中,p(wi,g,j|k)在参数估计中单词wi,g,j在主题k下的贝叶斯概率,即表示公式中的连乘项,VarianceSqrt是对短语中的单词wi,g,j的贝叶斯概率p(wi,g,j|k)的标准差计算。
6.根据权利要求1所述的一种基于短语主题建模的多文档自动摘要生成方法,其特征在于:所述步骤3)具体是:
3.1)利用步骤1)的结果对被测文档进行分词处理,得到短语或单词,
3.2)根据在步骤2)中得到的主题在单词上的概率分布得到单词属于某一主题的概率,根据句子和单词的关系计算得出句子属于该主题的概率,作为该主题下句子的主题权重;
3.3)采用SumBasic自动文摘算法以单词出现的频率作为依据计算获得句子的词频权重;
3.4)对主题权重和词频权重进行加权计算得到句子的最终权重,依次选择最终权重最大的句子作为自动文摘的生成内容,直至短文文摘长度达到要求。
7.根据权利要求1或6中所述的基于短语主题建模的多文档自动摘要生成算法,其特征在于:所述的句子的主题权重具体是在经过分词处理后,利用步骤2)得到的单词在主题的概率分布采用以下公式计算:
T o p i c W e i g h t ( s e n t e n c e | k ) = Σ i = 1 G L ( g i ) Σ j L ( g i ) p ( g i , j | k )
其中,G为句子sentence的短语个数,L(gi)为gi的大小,p(gi,j)为短语gi的第j个单词在主题k下的概率,TopicWeight(sentence|k)表示主题k的主题权重,sentence|k表示主题k下的句子。
8.根据权利要求1或6中所述的基于短语主题建模的多文档自动摘要生成算法,其特征在于:所述的词频权重具体采用以下方式计算:
统计被测文档获得被测文档中每个单词的频率,利用每个单词的频率使用以下公式计算获得句子的词频权重:
FrequencyWeight(sentence)=Max{p(wi)}
其中,Max{p(wi)}表示取句子中单词频率最大的作为句子的词频权重,p(wi)表示句子中单词出现的频率,sentence表示被测文档中的句子。
9.根据权利要求1或6中所述的基于短语主题建模的多文档自动摘要生成算法,其特征在于:所述句子的最终权重具体使用以下公式计算:
Weight(sentence|k)=λTopicWeight(sentence|k)+(1-λFrequencyWeight(sentence)
其中,λ是控制主题权重和词频权重的影响因子。
CN201610183423.0A 2016-03-28 2016-03-28 一种基于短语主题建模的多文档自动摘要生成方法 Active CN105868178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610183423.0A CN105868178B (zh) 2016-03-28 2016-03-28 一种基于短语主题建模的多文档自动摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610183423.0A CN105868178B (zh) 2016-03-28 2016-03-28 一种基于短语主题建模的多文档自动摘要生成方法

Publications (2)

Publication Number Publication Date
CN105868178A true CN105868178A (zh) 2016-08-17
CN105868178B CN105868178B (zh) 2018-07-17

Family

ID=56624994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610183423.0A Active CN105868178B (zh) 2016-03-28 2016-03-28 一种基于短语主题建模的多文档自动摘要生成方法

Country Status (1)

Country Link
CN (1) CN105868178B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407169A (zh) * 2016-09-09 2017-02-15 北京工商大学 一种基于主题模型的文档标注方法
CN106446109A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 语音文件摘要的获取方法和装置
CN106844341A (zh) * 2017-01-10 2017-06-13 北京百度网讯科技有限公司 基于人工智能的新闻摘要提取方法及装置
CN108062351A (zh) * 2017-11-14 2018-05-22 厦门市美亚柏科信息股份有限公司 关于特定主题类别的文本摘要提取方法、可读存储介质
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109657053A (zh) * 2018-12-13 2019-04-19 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
CN110134951A (zh) * 2019-04-29 2019-08-16 淮阴工学院 一种分析文本数据潜在主题短语的方法及系统
CN110334188A (zh) * 2019-07-11 2019-10-15 中国传媒大学 一种多文档摘要生成方法和系统
CN110390092A (zh) * 2018-04-18 2019-10-29 腾讯科技(深圳)有限公司 文档主题确定方法及相关设备
CN110807314A (zh) * 2019-09-19 2020-02-18 平安科技(深圳)有限公司 文本情感分析模型训练方法、装置、设备及可读存储介质
CN111460079A (zh) * 2020-03-06 2020-07-28 华南理工大学 一种基于概念信息和词权重的主题生成方法
CN111723563A (zh) * 2020-05-11 2020-09-29 华南理工大学 一种基于词共现网络的主题建模方法
CN113282704A (zh) * 2021-05-07 2021-08-20 天津科技大学 一种对评论有用性进行判断和筛选的方法与装置
CN113850336A (zh) * 2021-09-29 2021-12-28 平安科技(深圳)有限公司 语义相似度模型的评估方法、装置、设备及存储介质
CN114840563A (zh) * 2021-02-01 2022-08-02 腾讯科技(深圳)有限公司 一种字段描述信息的生成方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344248B (zh) * 2018-07-27 2021-10-22 中山大学 一种基于科技文献摘要聚类的学术主题生命周期分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
US20140079340A1 (en) * 2012-09-14 2014-03-20 Canon Kabushiki Kaisha Image management apparatus, management method, and storage medium
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN105320642A (zh) * 2014-06-30 2016-02-10 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
US20140079340A1 (en) * 2012-09-14 2014-03-20 Canon Kabushiki Kaisha Image management apparatus, management method, and storage medium
CN105320642A (zh) * 2014-06-30 2016-02-10 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407169B (zh) * 2016-09-09 2019-01-08 北京工商大学 一种基于主题模型的文档标注方法
CN106407169A (zh) * 2016-09-09 2017-02-15 北京工商大学 一种基于主题模型的文档标注方法
CN106446109A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 语音文件摘要的获取方法和装置
CN106844341B (zh) * 2017-01-10 2020-04-07 北京百度网讯科技有限公司 基于人工智能的新闻摘要提取方法及装置
CN106844341A (zh) * 2017-01-10 2017-06-13 北京百度网讯科技有限公司 基于人工智能的新闻摘要提取方法及装置
CN108062351A (zh) * 2017-11-14 2018-05-22 厦门市美亚柏科信息股份有限公司 关于特定主题类别的文本摘要提取方法、可读存储介质
CN110390092A (zh) * 2018-04-18 2019-10-29 腾讯科技(深圳)有限公司 文档主题确定方法及相关设备
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109657053A (zh) * 2018-12-13 2019-04-19 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
CN109657053B (zh) * 2018-12-13 2021-09-14 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
CN110134951B (zh) * 2019-04-29 2021-08-31 淮阴工学院 一种分析文本数据潜在主题短语的方法及系统
CN110134951A (zh) * 2019-04-29 2019-08-16 淮阴工学院 一种分析文本数据潜在主题短语的方法及系统
CN110334188A (zh) * 2019-07-11 2019-10-15 中国传媒大学 一种多文档摘要生成方法和系统
CN110807314A (zh) * 2019-09-19 2020-02-18 平安科技(深圳)有限公司 文本情感分析模型训练方法、装置、设备及可读存储介质
CN111460079A (zh) * 2020-03-06 2020-07-28 华南理工大学 一种基于概念信息和词权重的主题生成方法
CN111460079B (zh) * 2020-03-06 2023-03-28 华南理工大学 一种基于概念信息和词权重的主题生成方法
CN111723563A (zh) * 2020-05-11 2020-09-29 华南理工大学 一种基于词共现网络的主题建模方法
CN111723563B (zh) * 2020-05-11 2023-09-26 华南理工大学 一种基于词共现网络的主题建模方法
CN114840563A (zh) * 2021-02-01 2022-08-02 腾讯科技(深圳)有限公司 一种字段描述信息的生成方法、装置、设备及存储介质
CN114840563B (zh) * 2021-02-01 2024-05-03 腾讯科技(深圳)有限公司 一种字段描述信息的生成方法、装置、设备及存储介质
CN113282704A (zh) * 2021-05-07 2021-08-20 天津科技大学 一种对评论有用性进行判断和筛选的方法与装置
CN113850336A (zh) * 2021-09-29 2021-12-28 平安科技(深圳)有限公司 语义相似度模型的评估方法、装置、设备及存储介质
CN113850336B (zh) * 2021-09-29 2024-09-27 平安科技(深圳)有限公司 语义相似度模型的评估方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN105868178B (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
CN105868178A (zh) 一种基于短语主题建模的多文档自动摘要生成方法
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN103823896B (zh) 一种学科特征值算法及基于其的项目评审专家推荐算法
CN105243152A (zh) 一种基于图模型的自动文摘方法
CN107423282B (zh) 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
CN106844424A (zh) 一种基于lda的文本分类方法
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN106294863A (zh) 一种针对海量文本快速理解的文摘方法
CN104915448A (zh) 一种基于层次卷积网络的实体与段落链接方法
CN105975453A (zh) 评论标签提取方法和装置
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN110807084A (zh) 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
CN106610955A (zh) 基于词典的多维度情感分析方法
CN101231634A (zh) 一种多文档自动文摘方法
CN107943824A (zh) 一种基于lda的大数据新闻分类方法、系统及装置
CN101295294A (zh) 基于信息增益改进贝叶斯词义消歧方法
CN103473280A (zh) 一种网络可比语料的挖掘方法及装置
CN104346379A (zh) 一种基于逻辑和统计技术的数据元识别方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
CN106681985A (zh) 基于主题自动匹配的多领域词典构建系统
Scott et al. A recursive estimate for the predictive likelihood in a topic model
CN105550174A (zh) 基于样本重要性的自动机器翻译领域自适应方法
CN107015965A (zh) 一种中文文本情感分析装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant