CN103136359A - 单文档摘要生成方法 - Google Patents

单文档摘要生成方法 Download PDF

Info

Publication number
CN103136359A
CN103136359A CN2013100721180A CN201310072118A CN103136359A CN 103136359 A CN103136359 A CN 103136359A CN 2013100721180 A CN2013100721180 A CN 2013100721180A CN 201310072118 A CN201310072118 A CN 201310072118A CN 103136359 A CN103136359 A CN 103136359A
Authority
CN
China
Prior art keywords
sentence
similarity
paragragh
paragraph
sim
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100721180A
Other languages
English (en)
Other versions
CN103136359B (zh
Inventor
薛世帅
郭成林
彭春林
刘红玉
高云棋
刘丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd filed Critical NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201310072118.0A priority Critical patent/CN103136359B/zh
Publication of CN103136359A publication Critical patent/CN103136359A/zh
Application granted granted Critical
Publication of CN103136359B publication Critical patent/CN103136359B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种单文档摘要生成方法,包括步骤:对待摘要文档的段落进行聚类,每一个类别为一个语义块;计算语义块内两两句子的相似度,作为一个句子对另一个句子的打分,得分最高的句子为每个语义块中表述该部分核心内容的句子;根据核心句子的出现顺序,连接句子,生成摘要。本发明的方法将词的相似度和命名实体识别引入单文档摘要中,提高摘要的提取精度,同时利用了single-pass提高了的聚类的速度,能够准确的提取单文档摘要,对于新闻类型和公告类型的文档具有非常高的摘要准确率。

Description

单文档摘要生成方法
技术领域
本发明属于计算机应用技术领域,具体涉及单文档摘要的生成方法。
背景技术
随着电子文本数量的剧增,快速获取文本信息的需求越来越强烈。作为浓缩文本信息的技术,自动摘要可以扮演重要的角色。自动摘要的宗旨是为用户提供简短的文本表示。在保留尽可能多的原文信息的同时,形成尽可能短的摘要。对于一个理想的抽取式摘要而言,具有三个基本特征:源自文本、保留重要信息、长度短。按照摘要源自的文本个数,可分为单文本摘要和多文本摘要。按照摘要的方式,又分成生成式摘要和抽取式摘要。在抽取式摘要中,从文本中选取代表性句子是难点所在。
自动摘要研究始于1958年,由美国IBM公司的Luhn开创了自动摘要研究的先河。接着,美国马里兰州大学的Edmundson、美国俄亥俄州立大学的Rush、英国Lancaster大学的Paice等选取字词的不同特征作为提取摘要的关键。这一阶段人们只是围绕文章字词层面进行特征提取,只是简单地依赖粗糙的统计数据和不同性质的特征的简单线性叠加。
随后开始考虑文档的句法特征和语义特征,建立起以人工智能特别是计算语言学为基础的方法。美国耶鲁大学的Schank、意大利Udine大学的Fum等、美国GE研究开发中心的Rau等分别应用脚本分析、一阶谓词逻辑推理和框架等表示文档的结构和意义,从而分析和推理得到文档的摘要。
至此,自动摘要研究分为两大阵营:基于统计的机械摘要和基于意义的理解摘要。
单文档自动文摘是自然语言理解领域中的一个重要的研究方向。进入20世纪90年代,随着互联网的迅猛发展,信息的爆炸式增长满足人们对信息需求的同时,也使人们快速、准确地找到真正需要的信息变得更加困难。自动文摘是解决这一问题的一种非常有效的技术,因此目前又成为人们日益关注的研究热点。
现有的技术要么将单文档扩展为多文档利用多文档摘要的方法进行单文档摘要,要么只利用单文档进行摘要,但仍未充分利用单文档的内容,造成了摘要的提取精度不高。
发明内容
针对现有技术存在的上述问题,本发明提出了一种单文档摘要生成方法。
本发明的技术方案为:一种单文档摘要生成方法,具体包括如下步骤:
S1.对待摘要文档的段落进行聚类,每一个类别为一个语义块;
S2.计算语义块内两两句子的相似度,作为一个句子对另一个句子的打分,得分最高的句子为每个语义块中表述该部分内容的核心句子;
S3.根据核心句子的出现顺序,连接句子,生成摘要。
本发明的有益效果:本发明方法的基于段落划分生成单文档摘要,根据文章的外在特征抽取能够表达其中心意思的原文部分句子作为摘要,具体通过计算段落信息在文档中的权值,然后计算句子在段落中的权值,来评价句子中在文章中重要性。本发明的方法将词的相似度和命名实体识别引入单文档摘要中,提高摘要的提取精度,同时利用了single-pass提高了的聚类的速度,能够准确的提取单文档摘要,对于新闻类型和公告类型的文档具有非常高的摘要准确率。
附图说明
图1为本发明的单文档摘要生成方法流程示意图
图2为实施例中语义聚类算法的流程示意图。
图3为实施例中Single-pass段落聚类的流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明做进一步详细说明。
本发明实施例单文档摘要方法,流程示意图如图1所示,具体包括如下步骤:
S1.对待摘要文档的段落进行聚类,每一个类别为一个语义块;
S2.计算语义块内两两句子的相似度,作为一个句子对另一个句子的打分,得分最高的句子为每个语义块中表述该部分内容的核心句子;
S3.根据核心句子的出现顺序,连接句子,生成摘要。
即对待摘要文档的段落进行聚类,将段落划分为语义块,然后找出每个语义块的核心语句,最后按核心语句在文档中的出现顺序连接句子,即可得到文档的主要信息摘要。本发明主要分为三个步骤:语义聚类划分、句子打分、核心语句连接。
图2为对段落进行聚类的流程示意图,设设待摘要文档T有N个自然段,即T=P1∪P2∪P3…Pj…∪Pn,其中,Pj表示第j个自然段。
具体包括如下分步骤:
步骤101:对自然段Pj构建VSM模型;
步骤102:权值计算,对每个自然段Pj进行分词Pj={t1:w1,t2:w2,…,tn:wn},ti是自然段Pj分词后的词语,wi是词语ti的权重,计算自然段Pj中词语ti的权值wi的公式为
Figure BDA00002891647900021
其中,tf(ti)为词语ti在段落Pj中出现的次数,N为文章段落总数,fi为ti在fi个段落出现;
步骤103:对设待摘要文档T进行聚类,相似度用余弦相似度计算,具体如图3所示,具体过程如下:从未聚类的待摘要文档T的自然段中选取自然段P,利用步骤102得到的权值计算自然段P与其它每个已被聚类自然段的相似度;确定最大的相似度;判断最大的相似度是否大于预先设定的阈值,如果大于阈值,则将段落P放入与其具有最大相似度的自然段所在的类中,否则,新建类,将段落P放入该类中。这里的阈值可以根据实际情况进行设定。
这里的相似度具体可以为余弦相似度。
计算自然P1、P2相似度所用的段余弦相似度的方法描述如下:首先,统计待计算余弦相似度的段落P1、P2的总词语量,记为k,然后分别在P1、P2中添加缺少的词语,且这些词语的权值填写为0;然后利用余弦相似度公式进行相似度计算:
cos _ sim ( P 1 , P 2 ) = Σ i = 1 k ω 1 i * ω 2 i Σ i = 1 k ω 1 i 2 Σ i = 1 k ω 2 i 2 ,
ω1i为段落P1中词语ti的权值,ω2i为段落P2中词语ti的权值。
在步骤S2中,句子打分排序的核心内容是句子相似度的计算,用一种表层相似度,即构建VSM模型,把词看成句子的线性序列,不对句子进行语法结构分析,只对词的词性、词频信息进行计算。通过表层相似度计算,对每一个句子进行相互打分,找出得分最高的句子为核心句子。
句子相似度主要通过两层结构计算:
第一层计算句子中的名字动词相似度。两个词的相似度主要通过liuqun、lisujian提出的知网的词的语义相似度计算,结果为simw(t1,t2),其中,t1、t2为待计算的2个词语。计算句子s1、s2中的名字动词相似度为:
sim 1 ( s 1 , s 2 ) = ∑ i = 1 m max ( sim w ( t 1 i , t 21 ) , sim w ( t 1 i , t 22 ) , . . . , sim w ( t 1 i , t 2 j ) , . . . , sim w ( t 1 i , t 2 n ) ) m + n , 其中,m为句子s1中的名词和动词数,n为句子s2中的名词和动词数,t1i表示句子s1中的编号为i的名词或动词,t2j,j=1,…,n表示s2中的编号为j的名词或动词,simw(t1i,t2j)表示词语t1i、t2j的语义相似度。
第二层计算命名实体的相似度。利用中科院的ICTCLAS对句子进行词法标注,抽取标注中的命名实体,包括人名、地名、机构名、时间、日期、货币和百分比;计算命名实体相似度为
Figure BDA00002891647900041
其中,A、B分别为句子s1、s2中命名实体的集合。
最后句子的相似度为:sim(s1,s2)=αsim1(s1,s2)+βsim2(s1,s2),其中,α、β为加权因子,且α+β=1,可以根据实际情况进行调整。
本发明首先将相同语义的段落构3建VSM模型,然后进行聚类,这样具有较高的效率并且保证了较高的准确率。然后找出每个语义类中的最重要的句子,用这些句子分别表示语义类的内容,其中还用了句子相关性进行相互打分来确定句子分值来发现表述语义类里的核心意思的句子;同时在段落聚类中用了single-pass极大提高了聚类速度,只需要一遍扫描即可完成聚类;在句子相似度的计算中,提出了通过计算代表句义的名词和动词的最大相似词的相似度来计算句子相似度。本发明的方法具有非常高的效率,并且对于新闻公告类型的文档具有极高的准确率。

Claims (6)

1.一种单文档摘要生成方法,具体包括如下步骤:
S1.对待摘要文档的段落进行聚类,每一个类别为一个语义块;
S2.计算语义块内两两句子的相似度,作为一个句子对另一个句子的打分,得分最高的句子为每个语义块中表述该部分内容的核心句子;
S3.根据核心句子的出现顺序,连接句子,生成摘要。
2.根据权利要求1所述的单文档摘要生成方法,其特征在于,待摘要文档的段落进行聚类的具体过程如下:
步骤101:对自然段Pj构建VSM模型,其中,Pj表示第j个自然段,设待摘要文档T有N个自然段,即T=P1∪P2∪P3…Pj…∪Pn
步骤102:权值计算,对每个自然段Pj进行分词Pj={t1:w1,t2:w2,…,tn:wn},ti是自然段Pj分词后的词语,wi是词语ti的权重,计算自然段Pj中词语ti的权值wi的公式为
Figure FDA00002891647800011
其中,tf(ti)为词语ti在段落Pj中出现的次数,fi为ti在fi个段落出现;
步骤103:对待摘要文档T进行聚类,从未聚类的待摘要文档T的自然段中选取自然段P,利用步骤102得到的权值计算自然段P与其它每个已被聚类自然段的相似度;确定最大的相似度;判断最大的相似度是否大于预先设定的阈值,如果大于阈值,则将段落P放入与其具有最大相似度的自然段所在的类中,否则,新建类,将段落P放入该类中。
3.根据权利要求2所述的单文档摘要生成方法,其特征在于,步骤103所述的相似度具体为余弦相似度。
4.根据权利要求3所述的单文档摘要生成方法,其特征在于,所述的余弦相似度的具体计算过程如下:
统计待计算余弦相似度的段落P1、P2的总词语量,记为k,然后分别在P1、P2中添加缺少的词语,并且将添加的词语的权值填写为0;然后利用余弦相似度公式得到段落P1、P2的相似度cos_sim(P1,P2):
cos _ sim ( P 1 , P 2 ) = Σ i = 1 k ω 1 i * ω 2 i Σ i = 1 k ω 1 i 2 Σ i = 1 k ω 2 i 2 ,
ω1i为段落P1中词语ti的权值,ω2i为段落P2中词语ti的权值。
5.根据权利要求1-4任一项权利要求所述的单文档摘要生成方法,其特征在于,步骤S2所述的语义块内两两句子的相似度具体计算过程如下:
计算句子s1、s2的名字动词相似度,记为:
sim 1 ( s 1 , s 2 ) = Σ i = 1 m max ( sim w ( t 1 i , t 21 ) , sim ( t 1 i , t 22 ) , . . , sim w ( t 1 i , t 2 j ) , . . . , sim w ( t 1 i , t 2 n ) ) m + n , 其中,m为句子s1中的名词和动词数,n为句子s2中的名词和动词数,t1i表示句子s1中的编号为i的名词或动词,t2j,j=1,…,n表示s2中的编号为j的名词或动词;
计算命名实体相似度为
Figure FDA00002891647800022
其中,A、B分别为句子s1、s2中命名实体的集合;
句子s1、s2的相似度为:sim(s1,s2)=αsim1(s1,s2)+βsim2(s1,s2),其中,α、β为预先设定的加权因子,且α+β=1。
6.根据权利要求5所述的单文档摘要生成方法,其特征在于,所述的命名实体包括人名、地名、机构名、时间、日期、货币和百分比。
CN201310072118.0A 2013-03-07 2013-03-07 单文档摘要生成方法 Expired - Fee Related CN103136359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310072118.0A CN103136359B (zh) 2013-03-07 2013-03-07 单文档摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310072118.0A CN103136359B (zh) 2013-03-07 2013-03-07 单文档摘要生成方法

Publications (2)

Publication Number Publication Date
CN103136359A true CN103136359A (zh) 2013-06-05
CN103136359B CN103136359B (zh) 2016-01-20

Family

ID=48496184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310072118.0A Expired - Fee Related CN103136359B (zh) 2013-03-07 2013-03-07 单文档摘要生成方法

Country Status (1)

Country Link
CN (1) CN103136359B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077388A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN104090918A (zh) * 2014-06-16 2014-10-08 北京理工大学 一种基于信息量的句子相似度计算方法
CN104636465A (zh) * 2015-02-10 2015-05-20 百度在线网络技术(北京)有限公司 网页摘要生成方法、展示方法及相应装置
CN104636431A (zh) * 2014-12-31 2015-05-20 南京新模式软件集成有限公司 一种不同领域文档摘要自动抽取及自动优化方法
CN105760546A (zh) * 2016-03-16 2016-07-13 广州索答信息科技有限公司 互联网新闻摘要的自动生成方法和装置
CN105955965A (zh) * 2016-06-21 2016-09-21 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN105975460A (zh) * 2016-05-30 2016-09-28 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
WO2017092316A1 (zh) * 2015-12-03 2017-06-08 乐视控股(北京)有限公司 摘要生成方法及装置
CN107808011A (zh) * 2017-11-20 2018-03-16 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质
CN108280112A (zh) * 2017-06-22 2018-07-13 腾讯科技(深圳)有限公司 摘要生成方法、装置及计算机设备
CN109101489A (zh) * 2018-07-18 2018-12-28 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN109829161A (zh) * 2019-01-30 2019-05-31 延边大学 一种多语种自动摘要的方法
CN110390032A (zh) * 2019-07-26 2019-10-29 江苏曲速教育科技有限公司 一种手写作文的批阅方法及系统
CN110472055A (zh) * 2019-08-21 2019-11-19 北京百度网讯科技有限公司 用于标注数据的方法和装置
CN110889280A (zh) * 2018-09-06 2020-03-17 上海智臻智能网络科技股份有限公司 基于文档拆分的知识库建设方法及装置
CN111435405A (zh) * 2019-01-15 2020-07-21 北京行数通科技有限公司 一种文章关键句自动标注方法及装置
CN111859894A (zh) * 2020-07-24 2020-10-30 北京奇艺世纪科技有限公司 一种情节文本确定方法及装置
CN112464668A (zh) * 2020-11-26 2021-03-09 南京数脉动力信息技术有限公司 一种提取智能家居行业动态信息的方法和系统
CN113326866A (zh) * 2021-04-16 2021-08-31 山西大学 一种融合语义场景的摘要自动生成方法及系统
CN114780712A (zh) * 2022-04-06 2022-07-22 科技日报社 一种基于质量评价的新闻专题生成方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
US20120239650A1 (en) * 2011-03-18 2012-09-20 Microsoft Corporation Unsupervised message clustering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
US20120239650A1 (en) * 2011-03-18 2012-09-20 Microsoft Corporation Unsupervised message clustering

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘金岭,宋连友,范玉虹: "《基于语义信息的中文短信文本相似度研究》", 《计算机工程》, vol. 38, no. 13, 31 July 2012 (2012-07-31) *
卢中宁,张保威: "《一种基于改进TF-IDF函数的文本分类方法》", 《河南师范大学学报(自然科学版)》, vol. 40, no. 6, 30 November 2012 (2012-11-30) *
韩敏 等: "《基于TF-IDF相似度的标签聚类方法》", 《计算机科学与探索》, 31 December 2010 (2010-12-31), pages 240 - 246 *
黄承慧 等: "《一种结合词项语义信息和TF-IDF方法的文本相似度量方法》", 《计算机学报》, vol. 34, no. 5, 31 May 2011 (2011-05-31), pages 856 - 864 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090918A (zh) * 2014-06-16 2014-10-08 北京理工大学 一种基于信息量的句子相似度计算方法
CN104090918B (zh) * 2014-06-16 2017-02-22 北京理工大学 一种基于信息量的句子相似度计算方法
CN104077388A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN104636431B (zh) * 2014-12-31 2017-12-12 南京新模式软件集成有限公司 一种不同领域文档摘要自动抽取及自动优化的方法
CN104636431A (zh) * 2014-12-31 2015-05-20 南京新模式软件集成有限公司 一种不同领域文档摘要自动抽取及自动优化方法
CN104636465A (zh) * 2015-02-10 2015-05-20 百度在线网络技术(北京)有限公司 网页摘要生成方法、展示方法及相应装置
CN104636465B (zh) * 2015-02-10 2018-11-16 百度在线网络技术(北京)有限公司 网页摘要生成方法、展示方法及相应装置
WO2017092316A1 (zh) * 2015-12-03 2017-06-08 乐视控股(北京)有限公司 摘要生成方法及装置
CN105760546A (zh) * 2016-03-16 2016-07-13 广州索答信息科技有限公司 互联网新闻摘要的自动生成方法和装置
CN105760546B (zh) * 2016-03-16 2019-07-30 广州索答信息科技有限公司 互联网新闻摘要的自动生成方法和装置
CN105975460A (zh) * 2016-05-30 2016-09-28 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN105955965A (zh) * 2016-06-21 2016-09-21 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
CN106227722B (zh) * 2016-09-12 2019-07-05 中山大学 一种基于上市公司公告摘要的自动提取方法
US11409960B2 (en) 2017-06-22 2022-08-09 Tencent Technology (Shenzhen) Company Limited Summary generation method, apparatus, computer device, and storage medium
CN108280112A (zh) * 2017-06-22 2018-07-13 腾讯科技(深圳)有限公司 摘要生成方法、装置及计算机设备
CN108280112B (zh) * 2017-06-22 2021-05-28 腾讯科技(深圳)有限公司 摘要生成方法、装置及计算机设备
CN107808011B (zh) * 2017-11-20 2021-04-13 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质
CN107808011A (zh) * 2017-11-20 2018-03-16 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质
CN109101489B (zh) * 2018-07-18 2022-05-20 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN109101489A (zh) * 2018-07-18 2018-12-28 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN110889280A (zh) * 2018-09-06 2020-03-17 上海智臻智能网络科技股份有限公司 基于文档拆分的知识库建设方法及装置
CN110889280B (zh) * 2018-09-06 2023-09-26 上海智臻智能网络科技股份有限公司 基于文档拆分的知识库建设方法及装置
CN111435405A (zh) * 2019-01-15 2020-07-21 北京行数通科技有限公司 一种文章关键句自动标注方法及装置
CN109829161B (zh) * 2019-01-30 2023-08-04 延边大学 一种多语种自动摘要的方法
CN109829161A (zh) * 2019-01-30 2019-05-31 延边大学 一种多语种自动摘要的方法
CN110390032A (zh) * 2019-07-26 2019-10-29 江苏曲速教育科技有限公司 一种手写作文的批阅方法及系统
CN110390032B (zh) * 2019-07-26 2021-08-17 江苏曲速教育科技有限公司 一种手写作文的批阅方法及系统
CN110472055B (zh) * 2019-08-21 2021-09-14 北京百度网讯科技有限公司 用于标注数据的方法和装置
CN110472055A (zh) * 2019-08-21 2019-11-19 北京百度网讯科技有限公司 用于标注数据的方法和装置
CN111859894A (zh) * 2020-07-24 2020-10-30 北京奇艺世纪科技有限公司 一种情节文本确定方法及装置
CN111859894B (zh) * 2020-07-24 2024-01-23 北京奇艺世纪科技有限公司 一种情节文本确定方法及装置
CN112464668A (zh) * 2020-11-26 2021-03-09 南京数脉动力信息技术有限公司 一种提取智能家居行业动态信息的方法和系统
CN113326866A (zh) * 2021-04-16 2021-08-31 山西大学 一种融合语义场景的摘要自动生成方法及系统
CN114780712A (zh) * 2022-04-06 2022-07-22 科技日报社 一种基于质量评价的新闻专题生成方法及装置
CN114780712B (zh) * 2022-04-06 2023-07-04 科技日报社 一种基于质量评价的新闻专题生成方法及装置

Also Published As

Publication number Publication date
CN103136359B (zh) 2016-01-20

Similar Documents

Publication Publication Date Title
CN103136359B (zh) 单文档摘要生成方法
CN107247780A (zh) 一种基于知识本体的专利文献相似性度量方法
CN106445920A (zh) 利用句义结构特征的句子相似度计算方法
CN108363687A (zh) 主观题评分及其模型的构建方法、电子设备及存储介质
CN107305539A (zh) 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN103473280B (zh) 一种网络可比语料的挖掘方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN104778204A (zh) 基于两层聚类的多文档主题发现方法
CN103778207A (zh) 基于lda的新闻评论的话题挖掘方法
CN106484664A (zh) 一种短文本间相似度计算方法
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN108710611B (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN104036010B (zh) 一种基于半监督cbow的用户搜索词主题分类的方法
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN104199846A (zh) 基于维基百科的评论主题词聚类方法
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN102955853B (zh) 一种跨语言文摘的生成方法及装置
Qiu et al. Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN102841940B (zh) 一种基于数据重构的文档摘要提取方法
CN106570120A (zh) 一种改进的关键词优化实现搜索引擎优化技术
CN107526792A (zh) 一种中文问句关键词快速提取方法
CN103530316A (zh) 一种基于多视图学习的科学主题提取方法
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160120

Termination date: 20170307