CN106874469A - 一种新闻综述生成方法与系统 - Google Patents

一种新闻综述生成方法与系统 Download PDF

Info

Publication number
CN106874469A
CN106874469A CN201710082757.3A CN201710082757A CN106874469A CN 106874469 A CN106874469 A CN 106874469A CN 201710082757 A CN201710082757 A CN 201710082757A CN 106874469 A CN106874469 A CN 106874469A
Authority
CN
China
Prior art keywords
paragraph
news
sentence
roundup
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710082757.3A
Other languages
English (en)
Other versions
CN106874469B (zh
Inventor
张建敏
万小军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710082757.3A priority Critical patent/CN106874469B/zh
Publication of CN106874469A publication Critical patent/CN106874469A/zh
Application granted granted Critical
Publication of CN106874469B publication Critical patent/CN106874469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种新颖的基于段落进行新闻综述生成的方法与系统,涉及语言文字处理领域。目前有大量关于同一个事件的新闻报道,且新闻报道的综述都是由人工编辑的,经济成本高,且很难保证时效性。本发明提出基于段落重新分割,排序,选择并融合的新闻综述生成方法与系统,有效提高新闻综述的时效性,降低编辑成本。其包括如下步骤:针对原始新闻材料的段落重新分割构建;对新闻材料重新构建出的段落进行重要性预测;根据段落重要性进行段落选择,融合;对选择出来的段落进行重排序,构成新闻综述。本发明适用于介绍同一事件的大量新闻报道。

Description

一种新闻综述生成方法与系统
技术领域
本发明涉及语言文字处理领域,特别涉及一种新闻综述生成方法与系统。
背景技术
目前有很多关于同一事件的新闻报道,并且新闻摘要可以帮助读者更好地了解新闻内容。但是传统的新闻摘要多局限在100-150字左右,内容覆盖面小,不可很好得使读者多方面全面的了解事件发展过程,综述生成应运而生。
与综述生成的方法最相近的是传统的多文档摘要方法。多文档摘要方法多基于句子进行抽取,基于句子的方法在面对生成文章长度较长时会出现句子过多,不容易进行排序等问题。经典的多文档摘要方法包括:基于图的排序方法,例如Erkan和Radev在2004年提出的LexRank方法,Mihalcea和Tarau在2004年提出的TextRank方法;You Ouyang等人在2007年提出的基于句子分类回归的模型;Gillick和Favre在2009年提出的基于整数线性规划的方法等。
除了多文档摘要的方法,相关的工作还有Sauper和Barzilay提出的自动生成结构完整的维基百科的工作。
发明内容
本发明提供一种新闻综述生成方法,该方法通过对面向同一事件的新闻的段落重新分割,重要性排序,选择并且合并以及最后的重新排序,最终基于重组得到的新闻段落构建新闻综述。该方法方便快捷,可行性强,效果明显好于原先的多文档摘要方法所得到的新闻综述,有效节省人力物力。
本发明采用的技术方案包括:一种基于段落重新分割,重要性预测,选择融合和重新排序的新闻综述生成方法,包括如下步骤:
(1)针对原始新闻材料的段落重新分割构建;
(2)对新闻材料重新构建出的段落进行重要性预测;
(3)根据段落重要性进行段落选择,融合;
(4)对选择出来的段落进行重排序,构成新闻综述。
进一步,针对原始新闻材料的段落重新分割构建的具体做法包括四个部分:对新闻材料进行分词(预处理),计算句子间隔的语义学分数,计算句子间隔的“深度”分数,最后对新闻进行划分。
第一步:原始新闻材料进行分词等预处理。如果是英文的语料需要将单词都转化为小写字母,然后进行词干化,即将经过各种人称及时态变化的单词转化为其词干,如果是中文语料那么只需要进行分词。
第二步:计算句子间隔的语义学分数。由于句子是表达语义的较完整的单位,所以段落重新分割以句子的结束作为潜在的分割点是合理的。句子间隔的语义学分数来表明句子间隔前后两个单元的语义学相似度。而由于文章原有句子的长短十分不统一,不可以直接作为评价语义学相似度的单元,所以使用每个句子间隔前后的100个词语组成的文本单元作为计算语义相似度的内容。
对于每一个语义间隔,其前后的文本单位分别用b1和b2表示,那么句子间隔的语义学相似度可以用如下公式表示:
其中t表示所有在预处理过程中得到的原始新闻中的所有非停用词的词语。并且wt,b代表词语t在语义单元b中的权重,这里的权重用词语t在语义单元b中出现的频数决定;这个权重的取值在0到1之间。
第三步:计算句子间隔i的“深度”分数di。对于句子间隔所谓的“深度”分数代表了前后两个子话题在这个句子间隔发生改变的程度。这个分数取决于如果这个句子间隔是谷底的话,相对于两边的最高峰的语义相似度分数距离。相对的,这个“深度”分数越大,那么说明这个句子间隔最为最终进行段落分割的分割点越合适,反之越不合适。
计算过程中首先寻找相对于句子间隔i的左边的高峰位置l和右边的高峰位置r。左边的高峰位置l就是相对于i向左找到第一个位置,使其满足dl-1<dl。那么di=(dl-di)+(dr-di)。
第四步:对新闻进行划分。在得到每一个句子间隔的“深度”分数di之后,我们根据不同新闻类型可以取不同的“深度”分数阈值来决定划分段落的个数,即设置阈值为d,如果句子间隔的“深度”分数大于d,那么说明这个间隔前后的子话题变化足够大,可以作为新的段落分割。我们可以假设d满足正态分布,那么一般可以取阈值为d的平均值与d的标准差σ之间的差值,即
进一步,对新闻材料重新构建出的段落进行重要性预测的步骤如下:
使用基于节点重新加强的随机游走图模型进行重要性排序。这种重要性排序方法的优势在于可以在选出重要节点的同时保证节点间尽量多样,减少不必要的冗余,相当于全局的去冗余。
图模型的信息图建立过程是将每一个划分得到的新闻段落作为节点,节点之间的TFIDF向量相似度作为初始的转移概率,特殊的是在同一篇新闻中的段落,转移概率均为0,避免同一篇新闻之间的段落互相转移过多的概率,造成冗余。
假设pT(v)是T时刻游走于状态v概率,pT(u,v)是T时刻状态u转移到状态v的转移概率,这个算法需要迭代计算,计算公式如下:
pT(v)=∑u∈VpT-1(u,v)pT-1(u)
其中DT(u)=∑v∈Vp0(u,v)·pT(v),而且p*(v)是平均分布概率,表示初始每一个段落即图中的节点被访问的概率相同。
这个算法迭代计算到满足下面的公式即可,即达到收敛状态;
v∈VpT(v)-pT-1(v)<0.00001
达到收敛之后,pT(v)便是每个段落的重要性分数。
进一步,根据段落重要性进行段落选择,融合的步骤如下:
根据需要生成的综述的字数限制,选择重要性高的段落构成最终的新闻综述。选择的过程中进行段落的融合。段落融合的过程可以根据下面的算法描述进行:
算法:段落融合
输入:段落集合G={g1,…gn},并且每个段落都有一个重要性分数p(gi)每两个段落gi和gj之间的余弦相似度值gSimi,j
输出:新闻综述的段落集合O
算法过程:
进一步,对选择出来的段落进行重排序,构建新闻综述的步骤如下:
使用拓扑排序的方法对新闻综述的段落集合进行重新排序。重新排序满足两大准则:
第一大准则是如果段落u和段落v来自于同一篇原始新闻,那么段落的前后顺序保持原来的顺序,且位置在结果中相邻;
第二大准则是如果段落u和段落v不是来自于同一篇原始新闻,那么含有重要性分数高的段落及与其来自于同一篇原始新闻的段落靠前排列。
以上完成了新闻综述的自动构建过程。
本发明提供一种新闻综述生成系统,首先对原始新闻进行段落重新划分,接下来对新闻材料重新构建出的段落进行重要性预测,然后选择和融合段落,最后对段落进行重新排序构成新闻综述。其包括以下单元:新闻段落分割单元,段落重要性预测单元,段落选择和融合单元,段落重排序单元;
其中新闻段落分割单元通过计算段落中每个句子间隔的语义相似度分数,“深度”分数,决定段落重新分割的“深度”阈值,并得到重新分割的新闻段落。
段落重要性预测单元使用节点重新加强的随机游走算法迭代得预测段落的重要性。
段落选择和融合单元选择重要性高的段落,并且在选择的过程中进行段落的融合。
段落重新排序单元遵循两大原则,使用拓扑排序方法对经过选择和融合的段落进行重新排序,完成新闻综述的构建。
附图说明
图1.一种新闻综述生成方法流程图
具体实施方式
下面结合实施例和附图进一步阐述本发明所述的技术方案:
一种基于段落重新分割,重要性预测,选择融合和重新排序的新闻综述生成方法,包括如下步骤:
(1)针对原始新闻材料的段落重新分割构建;
具体做法包括四个部分:对新闻材料进行分词(预处理),计算句子间隔的语义学分数,计算句子间隔的“深度”分数,最后对新闻进行划分。
第一步:原始新闻材料进行分词等预处理。如果是英文的语料需要将单词都转化为小写字母,然后进行词干化,即将经过各种人称及时态变化的单词转化为其词干,如果是中文语料那么只需要进行分词。
第二步:计算句子间隔的语义学分数。由于句子是表达语义的较完整的单位,所以段落重新分割以句子的结束作为潜在的分割点是合理的。句子间隔的语义学分数来表明句子间隔前后两个单元的语义学相似度。而由于文章原有句子的长短十分不统一,不可以直接作为评价语义学相似度的单元,所以使用每个句子间隔前后的100个词语组成的文本单元作为计算语义相似度的内容。
对于每一个语义间隔,其前后的文本单位分别用b1和b2表示,那么句子间隔的语义学相似度可以用如下公式表示:
其中t表示所有在预处理过程中得到的原始新闻中的所有非停用词的词语。并且wt,b代表词语t在语义单元b中的权重,这里的权重用词语t在语义单元b中出现的频数决定;这个权重的取值在0到1之间。
第三步:计算句子间隔i的“深度”分数di。对于句子间隔所谓的“深度”分数代表了前后两个子话题在这个句子间隔发生改变的程度。这个分数取决于如果这个句子间隔是谷底的话,相对于两边的最高峰的语义相似度分数距离。相对的,这个“深度”分数越大,那么说明这个句子间隔最为最终进行段落分割的分割点越合适,反之越不合适。
计算过程中首先寻找相对于句子间隔i的左边的高峰位置l和右边的高峰位置r。左边的高峰位置l就是相对于i向左找到第一个位置,使其满足dl-1<dl。那么di=(dl-di)+(dr-di)。
第四步:对新闻进行划分。在得到每一个句子间隔的“深度”分数di之后,我们根据不同新闻类型可以取不同的“深度”分数阈值来决定划分段落的个数,即设置阈值为d,如果句子间隔的“深度”分数大于d,那么说明这个间隔前后的子话题变化足够大,可以作为新的段落分割。我们可以假设d满足正态分布,那么一般可以取阈值为d的平均值与d的标准差σ之间的差值,即
(2)对新闻材料重新构建出的段落进行重要性预测;
使用基于节点重新加强的随机游走图模型进行重要性排序。这种重要性排序方法的优势在于可以在选出重要节点的同时保证节点间尽量多样,减少不必要的冗余,相当于全局的去冗余。
图模型的信息图建立过程是将每一个划分得到的新闻段落作为节点,节点之间的TFIDF向量相似度作为初始的转移概率,特殊的是在同一篇新闻中的段落,转移概率均为0,避免同一篇新闻之间的段落互相转移过多的概率,造成冗余。
假设pT(v)是T时刻游走于状态v概率,pT(u,v)是T时刻状态u转移到状态v的转移概率,这个算法需要迭代计算,计算公式如下:
pT(v)=∑u∈VpT-1(u,v)pT-1(u)
其中DT(u)=∑v∈Vp0(u,v)·pT(v),而且p*(v)是平均分布概率,表示初始每一个段落即图中的节点被访问的概率相同。
这个算法迭代计算到满足下面的公式即可,即达到收敛状态;
v∈VpT(v)-pT-1(v)<0.00001
达到收敛之后,pT(v)便是每个段落的重要性分数。
(3)根据段落重要性进行段落选择,融合;
根据需要生成的综述的字数限制,选择重要性高的段落构成最终的新闻综述。选择的过程中进行段落的融合。段落融合的过程可以根据下面的算法描述进行:
算法:段落融合
输入:段落集合G={g1,…gn},并且每个段落都有一个重要性分数p(gi) 每两个段落gi和gj之间的余弦相似度值gSimi,j
输出:新闻综述的段落集合O
算法过程:
(4)对选择出来的段落进行重排序,构建新闻综述:
使用拓扑排序的方法对新闻综述的段落集合进行重新排序。重新排序满足两大准则:
第一大准则是如果段落u和段落v来自于同一篇原始新闻,那么段落的前后顺序保持原来的顺序,且位置在结果中相邻;
第二大准则是如果段落u和段落v不是来自于同一篇原始新闻,那么含有重要性分数高的段落及与其来自于同一篇原始新闻的段落靠前排列。
以上完成了新闻综述的自动构建过程。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求所界定的保护范围为准。

Claims (7)

1.一种新闻综述生成方法,其特征在于,该方法通过对面向同一事件的新闻的段落重新分割,重要性排序,选择并且合并以及最后的重新排序,最终基于重组得到的新闻段落构建新闻综述;该方法方便快捷,可行性强,效果明显好于原先的多文档摘要方法所得到的新闻综述,有效节省人力物力。
2.一种新闻综述生成方法,其特征在于包括如下步骤:
(1)针对原始新闻材料的段落重新分割构建;
(2)对新闻材料重新构建出的段落进行重要性预测;
(3)根据段落重要性进行段落选择,融合;
(4)对选择出来的段落进行重排序,构成新闻综述。
3.根据权利要求2所述的新闻综述生成方法,其特征在于,针对原始新闻材料的段落重新分割构建,其目的在于将原来新闻材料中有关于同一个子话题的相邻的句子或者小段落构建成新的意义更加完整的段落,避免使用句子为综述构建单位造成语言过于零散;就语言通顺性来讲,从一篇文章中抽取相邻的几句话要比从多个文章中抽取意义相近的多句话更好;
针对原始新闻材料的段落重新分割构建,其具体做法包括四个部分:对新闻材料进行分词(预处理),计算句子间隔的语义学分数,计算句子间隔的“深度”分数,最后对新闻进行划分;
第一步:原始新闻材料进行分词等预处理;如果是英文的语料需要将单词都转化为小写字母,然后进行词干化,即将经过各种人称及时态变化的单词转化为其词干,如果是中文语料那么只需要进行分词;
第二步:计算句子间隔的语义学分数;由于句子是表达语义的较完整的单位,所以段落重新分割以句子的结束作为潜在的分割点是合理的;句子间隔的语义学分数来表明句子间隔前后两个单元的语义学相似度;而由于文章原有句子的长短十分不统一,不可以直接作为评价语义学相似度的单元,所以使用每个句子间隔前后的100个词语组成的文本单元作为计算语义相似度的内容;
对于每一个语义间隔,其前后的文本单位分别用b1和b2表示,那么句子间隔的语义学相似度可以用如下公式表示;
其中t表示所有在预处理过程中得到的原始新闻中的所有非停用词的词语;并且wt,b代表词语t在语义单元b中的权重,这里的权重用词语t在语义单元b中出现的频数决定;这个权重的取值在0到1之间;
第三步:计算句子间隔i的“深度”分数di;对于句子间隔所谓的“深度”分数代表了前后两个子话题在这个句子间隔发生改变的程度;这个分数取决于如果这个句子间隔是谷底的话,相对于两边的最高峰的语义相似度分数距离;相对的,这个“深度”分数越大,那么说明这个句子间隔最为最终进行段落分割的分割点越合适,反之越不合适;
计算过程中首先寻找相对于句子间隔i的左边的高峰位置l和右边的高峰位置r;左边的高峰位置l就是相对于i向左找到第一个位置,使其满足dl-1<dl;那么di=(dl-di)+(dr-di)。
第四步:对新闻进行划分;在得到每一个句子间隔的“深度”分数di之后,我们根据不同新闻类型可以取不同的“深度”分数阈值来决定划分段落的个数,即设置阈值为d,如果句子间隔的“深度”分数大于d,那么说明这个间隔前后的子话题变化足够大,可以作为新的段落分割;我们可以假设d满足正态分布,那么一般可以取阈值为d的平均值与d的标准差σ之间的差值,即
4.根据权利要求2所述的新闻综述生成方法,其特征在于,对新闻材料重新构建出的段落进行重要性预测;这里使用基于节点重新加强的随机游走图模型进行重要性排序;这种重要性排序方法的优势在于可以在选出重要节点的同时保证节点间尽量多样,减少不必要的冗余,相当于全局的去冗余;
图模型的信息图建立过程是将每一个在权利要求3中划分的新闻段落作为节点,节点之间的TFIDF向量相似度作为初始的转移概率,特殊的是在同一篇新闻中的段落,转移概率均为0,避免同一篇新闻之间的段落互相转移过多的概率,造成冗余;
假设pT(v)是T时刻游走于状态v概率,pT(u,v)是T时刻状态u转移到状态v的转移概率,这个算法需要迭代计算,计算公式如下:
pT(v)=Σu∈VpT-1(u,v)pT-1(u)
其中DT(u)=Σv∈Vp0(u,v)·pT(v),而且p*(v)是平均分布概率,表示初始每一个段落即图中的节点被访问的概率相同。
这个算法迭代计算到满足下面的公式即可,即达到收敛状态;
v∈VpT(v)-pT-1(v)<0.00001
达到收敛之后,pT(v)便是每个段落的重要性分数。
5.根据权利要求2所述的新闻综述生成方法,其特征在于,根据段落重要性进行段落选择,融合;由权利要求4所述得到了段落的重要性分数,根据需要生成的综述的字数限制,选择重要性高的段落构成最终的新闻综述;选择的过程中进行段落的融合;段落融合的过程可以根据下面的算法描述进行:
算法:段落融合
输入:段落集合G={g1,…gn},并且每个段落都有一个重要性分数p(gi)每两个段落gi和gj之间的余弦相似度值g Simi,j
输出:新闻综述的段落集合O
算法过程:
6.根据权利要求2所述的新闻综述生成方法,其特征在于,对选择出来的段落进行重排序,构成新闻综述;使用拓扑排序的方法对权利要求5中得到的新闻综述的段落集合进行重新排序;重新排序满足两大准则:
第一大准则是如果段落u和段落v来自于同一篇原始新闻,那么段落的前后顺序保持原来的顺序,且位置在结果中相邻;
第二大准则是如果段落u和段落v不是来自于同一篇原始新闻,那么含有重要性分数高的段落及与其来自于同一篇原始新闻的段落靠前排列。
7.一种新闻综述生成系统,首先对原始新闻进行段落重新划分,接下来对新闻材料重新构建出的段落进行重要性预测,然后选择和融合段落,最后对段落进行重新排序构成新闻综述;其特征在于包括以下单元:新闻段落分割单元,段落重要性预测单元,段落选择和融合单元,段落重排序单元;
其中新闻段落分割单元通过计算段落中每个句子间隔的语义相似度分数,“深度”分数,决定段落重新分割的“深度”阈值,并得到重新分割的新闻段落;
段落重要性预测单元使用节点重新加强的随机游走算法迭代得预测段落的重要性;
段落选择和融合单元选择重要性高的段落,并且在选择的过程中进行段落的融合;
段落重新排序单元遵循两大原则,使用拓扑排序方法对经过选择和融合的段落进行重新排序,完成新闻综述的构建。
CN201710082757.3A 2017-02-16 2017-02-16 一种新闻综述生成方法与系统 Active CN106874469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710082757.3A CN106874469B (zh) 2017-02-16 2017-02-16 一种新闻综述生成方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710082757.3A CN106874469B (zh) 2017-02-16 2017-02-16 一种新闻综述生成方法与系统

Publications (2)

Publication Number Publication Date
CN106874469A true CN106874469A (zh) 2017-06-20
CN106874469B CN106874469B (zh) 2020-05-05

Family

ID=59166220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710082757.3A Active CN106874469B (zh) 2017-02-16 2017-02-16 一种新闻综述生成方法与系统

Country Status (1)

Country Link
CN (1) CN106874469B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391660A (zh) * 2017-07-18 2017-11-24 太原理工大学 一种用于子话题划分的诱导划分方法
CN108664465A (zh) * 2018-03-07 2018-10-16 珍岛信息技术(上海)股份有限公司 一种自动生成文本方法以及相关装置
CN109815328A (zh) * 2018-12-28 2019-05-28 东软集团股份有限公司 一种摘要生成方法及装置
CN111934937A (zh) * 2020-09-14 2020-11-13 中国人民解放军国防科技大学 基于重要性迭代的相依网络节点重要度评估方法和装置
CN112016292A (zh) * 2020-09-09 2020-12-01 平安科技(深圳)有限公司 文章截断点的设定方法、装置以及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382962A (zh) * 2008-10-29 2009-03-11 西北工业大学 一种考虑概念抽象度的浅层分析自动文档综述方法
CN103617158A (zh) * 2013-12-17 2014-03-05 苏州大学张家港工业技术研究院 一种对话文本情感摘要的生成方法
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN106294863A (zh) * 2016-08-23 2017-01-04 电子科技大学 一种针对海量文本快速理解的文摘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382962A (zh) * 2008-10-29 2009-03-11 西北工业大学 一种考虑概念抽象度的浅层分析自动文档综述方法
CN103617158A (zh) * 2013-12-17 2014-03-05 苏州大学张家港工业技术研究院 一种对话文本情感摘要的生成方法
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN106294863A (zh) * 2016-08-23 2017-01-04 电子科技大学 一种针对海量文本快速理解的文摘方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391660A (zh) * 2017-07-18 2017-11-24 太原理工大学 一种用于子话题划分的诱导划分方法
CN107391660B (zh) * 2017-07-18 2021-05-11 太原理工大学 一种用于子话题划分的诱导划分方法
CN108664465A (zh) * 2018-03-07 2018-10-16 珍岛信息技术(上海)股份有限公司 一种自动生成文本方法以及相关装置
CN109815328A (zh) * 2018-12-28 2019-05-28 东软集团股份有限公司 一种摘要生成方法及装置
CN109815328B (zh) * 2018-12-28 2021-05-25 东软集团股份有限公司 一种摘要生成方法及装置
CN112016292A (zh) * 2020-09-09 2020-12-01 平安科技(深圳)有限公司 文章截断点的设定方法、装置以及计算机设备
WO2021159760A1 (zh) * 2020-09-09 2021-08-19 平安科技(深圳)有限公司 文章截断点的设定方法、装置以及计算机设备
CN111934937A (zh) * 2020-09-14 2020-11-13 中国人民解放军国防科技大学 基于重要性迭代的相依网络节点重要度评估方法和装置
CN111934937B (zh) * 2020-09-14 2020-12-22 中国人民解放军国防科技大学 基于重要性迭代的相依网络节点重要度评估方法和装置

Also Published As

Publication number Publication date
CN106874469B (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN106874469A (zh) 一种新闻综述生成方法与系统
CN110874531B (zh) 一种话题分析方法、装置和存储介质
CN111143479B (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
CN106844424B (zh) 一种基于lda的文本分类方法
Liu et al. Language clustering with word co-occurrence networks based on parallel texts
CN110209808B (zh) 一种基于文本信息的事件生成方法以及相关装置
CN108363816A (zh) 基于句义结构模型的开放式实体关系抽取方法
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
US8027979B2 (en) Document summarization
CN102945228B (zh) 一种基于文本分割技术的多文档文摘方法
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
CN105824922A (zh) 一种融合深层特征和浅层特征的情感分类方法
US20220318317A1 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN106126734A (zh) 文档的分类方法和装置
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
JP2011227688A (ja) テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
WO2013118435A1 (ja) 意味的類似度計算方法、システム及びプログラム
Riedl et al. How text segmentation algorithms gain from topic models
JP2006293767A (ja) 文章分類装置、文章分類方法および分類辞書作成装置
CN102314448B (zh) 一种在文档中获得一个或多个关键元素的设备和方法
CN102360436B (zh) 一种基于部件的联机手写藏文字符的识别方法
Mishra et al. Text document clustering on the basis of inter passage approach by using K-means
CN111695358A (zh) 生成词向量的方法、装置、计算机存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant