CN104216875A - 基于非监督关键二元词串提取的微博文本自动摘要方法 - Google Patents
基于非监督关键二元词串提取的微博文本自动摘要方法 Download PDFInfo
- Publication number
- CN104216875A CN104216875A CN201410502810.7A CN201410502810A CN104216875A CN 104216875 A CN104216875 A CN 104216875A CN 201410502810 A CN201410502810 A CN 201410502810A CN 104216875 A CN104216875 A CN 104216875A
- Authority
- CN
- China
- Prior art keywords
- binary word
- sentence
- word string
- crucial
- microblogging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000000605 extraction Methods 0.000 title claims abstract description 19
- 238000012163 sequencing technique Methods 0.000 claims abstract description 6
- 239000000284 extract Substances 0.000 claims description 24
- 230000003252 repetitive effect Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 239000000463 material Substances 0.000 claims description 6
- 238000013016 damping Methods 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000036039 immunity Effects 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 239000003595 mist Substances 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 244000097202 Rathbunia alamosensis Species 0.000 description 4
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 201000001119 neuropathy Diseases 0.000 description 1
- 230000007823 neuropathy Effects 0.000 description 1
- 208000033808 peripheral neuropathy Diseases 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于非监督关键二元词串提取的微博文本自动摘要方法,包括:微博预处理;二元词串标准化;基于混合TF-IDF、TextRank和LDA的关键二元词串提取;基于交集相似度和互信息策略的句子排序;基于相似度阈值的摘要句抽取;以及合理组合摘要句以生成摘要。本发明以二元词串作为最小词汇单元,而二元词串比词语具备更丰富的上下文信息,因此基于关键二元词串比基于关键词抽取的句子抗噪性更强,准确率更高。同时,提取摘要句时引入相似度阈值控制冗余,因此摘要具备更高的召回率。本方法生成的摘要准确、简洁、全面,显著提高了用户获取知识的效率和质量,节省了用户大量时间。
Description
技术领域
本发明涉及一种对微博等社交媒体短文本进行自动摘要的方法,尤其是一种基于非监督关键二元词串(bigram)提取的微博文本自动摘要方法。
背景技术
目前,对社交媒体平台如Twitter和新浪微博等生成的大量微博文本进行自动摘要的方法并不多。现有基于微博文本特征的摘要方法大多数都直接基于词袋模型对句子打分或排序,然后提取排名靠前的句子组合成摘要输出(例如参考文章Inouye,D.,Kalita,J.K.“Comparing twittersummarization algorithms for multiple post summaries”,Social Computing,2011,298-306)。但是,对于微博这种极不规范的类对话风格的短文本,容易引入大量噪声,从而导致摘要准确率偏低。同样,传统文档自动摘要方法(例如参考文章Mihalcea,R.and Tarau,P.,“TextRank:Bringing orderinto texts”,EMNLP,2004,404-411)没有考虑到微博面临着的严重稀疏性、不规范性和噪声,因此直接将其应用于微博自动摘要往往也不能准确概括微博内容。少数研究者以二元词串作为文本单元,将多文档自动摘要问题转化为以最大化二元词串权重为目标的整型线性规划问题(例如参考文章Li,C.,Qian,X.,Liu,Y.,“Using Supervised Bigram-based ILP forExtractive Summarization”,ACL,2013,1004-1013)。但是类似工作并没有在噪声严重的微博上展开,二元词串的效果有待进一步研究和验证。微博已成为人们及时获取信息的重要来源之一,但是,人们同时也面临着严重的信息过载问题。而微博自动摘要技术可以通过内容分析自动把多条微博浓缩成简短的摘要,从而节省用户大量时间,方便用户浏览。因此,微博自动摘要技术的研究无疑具有非常重大的现实意义。
发明内容
为了克服现有微博文本自动摘要方法对噪声不鲁棒从而导致提取的摘要准确率偏低的不足,本发明提供了一种基于非监督关键二元词串提取的微博文本自动摘要方法,以实现自动为同一个热门话题下成千上万的微博文本自动生成简洁、准确、全面的摘要,从而改善用户的浏览体验。
本发明实现上述技术目的所采用的技术方案是:
一种基于非监督关键二元词串提取的微博文本自动摘要方法,包括以下步骤:
步骤1:采用正则表达式,去除微博文本中的噪声信息,以及去掉冗余的标点和过分连续重复的词组;将每条微博切分成句子,然后分词、去停用词;
步骤2:将每个句子中相邻的两个词语组合成一个二元词串,由此每个句子由一串二元词串序列表示;
步骤3:利用基于混合TF-IDF、TextRank和/或LDA的三种非监督关键二元词串抽取技术,提取若干个能准确反映话题微博集合某个子主题的二元词串作为关键二元词串,得到一个关键二元词串集合;
步骤4:基于上述关键二元词串集合,利用交集相似度和/或互信息策略,对由一串二元词串序列表示的所述句子打分排序;
步骤5:在引进相似度阈值以防止冗余的基础上,从排名靠前的所述句子中提取M个满足相似度条件的句子作为摘要句,其中M为正整数;
步骤6:将所述提取的摘要句组合成摘要,并输出。
其中,步骤1中去除的所述噪声信息包括标签、网址、符号表情、用户名、标题、无意义后缀。
其中,所述步骤1进一步包括下列步骤:
去除微博文本中所有标签、内嵌网址、转发符号、用户名、表情符号,以及对话题理解没有意义的后缀;
去除“【】”内长度短语10个字的标题;
去掉冗余的标点和过分重复的词语和短语,标点、词语、短语构成最小的重复单元时,除语气词保留两个重复单元外,其余仅保留一个重复单元;
将长度大于30个字的微博切分成句子,然后去除长度小于4个字的句子;
对句子进行分词,得到一元词串;
去停用词。
其中,当基于混合TF-IDF进行关键二元词串提取时,所述步骤3进一步包括下列步骤:
每个二元词串的混合TF-IDF权重可由以下公式计算得出:Hybrid_TF_IDF(bi)=tf(bi)*log2(idf(bi)),其中,tf(bi)为二元词串bi的TF值,其值等于bi在整个句子集合中出现的频率,其公式化定义如下:
idf(bi)为bi的IDF值,其值等于句子总数比上出现了bi的句子数目,其公式化定义如下:
将所有二元词串按照其混合TF-IDF值降序排列,然后取前N个作为关键二元词串,得到二元词串集合,其中N为预先定义的正整数。
其中,当基于TextRank进行关键二元词串提取时,所述步骤3进一步包括下列步骤:
以二元词串作为顶点,以设定为10个词的固定文本窗内两个有先后顺序的二元词串共现的次数作为边的权重,构造了一个有向带权图G(V,E),其中V为顶点集合,E为边集合;令In(vi)为指向顶点vi的顶点构成的集合,Out(vj)为顶点vj所指向的顶点构成的集合,wji为顶点vj到vi的边的权重,则每个顶点的TextRank分值可由下式计算得出:
其中,d为阻尼因子,取值为0.8;按上式迭代至收敛,得到每个二元词串的TextRank值,然后按该值降序排列二元词串,取前N个最具影响力的二元词串作为关键二元词串,其中N为预先定义的正整数。
其中,当基于LDA进行关键二元词串提取时,所述步骤3进一步包括下列步骤:
通过LDA对语料建模并推理可得到主题二元词串分布矩阵对该矩阵按列求和,将得到的值作为每个二元词串在主题集合上的全局得分,具体可公式化定义如下: 基于此全局得分对二元词串降序排序,取前N个二元词串构成关键二元词串集合,其中N为预先定义的正整数。
其中,当采用交集相似度策略时,所述步骤4进一步包括下列步骤:
交集相似度通过计算候选句子与关键二元词串集合中重叠的二元词串个数在整个关键二元词串集合中的占比,并乘以归一化因子得到,具体定义如下:
其中,S表示候选句,KBS表示关键二元词串集合,bi即为共现的关键二元词串,|S|和|KBS|分别表示候选句长度和关键二元词串集合的大小,AveLen表示句子集合中所有句子的平均长度。
其中,当采用互信息策略时,所述步骤4进一步包括下列步骤:
互信息具体定义如下:
其中,p(bi,S)为bi在句子S中出现的频率,p(bi)为bi在整个句子集合中出现的频率,p(S)为句子的长度比上句子集合的所有句子的长度,同样,该分值以交集相似度中用到的归一化因子对长度进行归一化。
其中,所述步骤5中所述基于相似度阈值的摘要句抽取的步骤具体是指:从排名最靠前的句子开始提取,当且仅当候选句与已提取的摘要句的相似度均小于某个阈值时,该候选句被选为摘要句,否则丢弃该候选句,考虑排名次之的下一个候选句,直到提取了M个摘要句为止,其中,M为抽取的句子的个数,相似度阈值sim(Sc,Ss)的计算公式如下所示:
其中,相似度采用的是候选句Sc与摘要句Ss的共现相似度,maxSim为事先设定的所允许的最大相似度阈值,设为0.5。
其中,步骤6中所述的组合成摘要句的原则按优先级如下:(1)如果摘要句包含时间信息,则按时序组合;(2)如果多条摘要句属于语料中的同一条微博,则按照原始微博中的句子顺序组合;(3)让相似度大的句子毗邻,以增强句子之间的连贯性。
通过上述技术方案可知,本发明的基于关键二元词串提取的微博文本自动摘要方法,不同于现有直接基于词袋模型对句子打分排序的方法,而是通过两步实现摘要句抽取:第一步,提取关键二元词串集合以挖掘子主题;第二步,基于关键二元词串集合提取摘要句。这种递阶式的摘要方法以二元词串作为最小词汇单元,而二元词串比词语具备更丰富的上下文信息,因此基于关键二元词串比基于关键词抽取的句子对噪声更鲁棒,准确率更高,覆盖率更全和冗余更少,从而显著提高了用户从海量信息中获取知识的质量和效率;同时,提取摘要句时引入相似度阈值控制冗余,因此摘要具备更高的召回率。本发明方法生成的摘要准确、简洁、全面,显著提高了用户获取知识的效率和质量,节省了用户大量时间。
附图说明
图1是本发明的基于非监督关键二元词串提取的微博文本自动摘要方法的总的方法流程图;
图2是本发明的基于非监督关键二元词串提取的微博文本自动摘要方法的预处理步骤的流程图;
图3是本发明的基于非监督关键二元词串提取的微博文本自动摘要方法中基于相似度阈值的摘要句抽取的方法流程图;
图4是本发明方法与其他方法在新浪微博数据集上的实验结果对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合为新浪微博热门话题#北京暴雨#自动生成摘要的例子,详细描述本发明的具体实施方式。
如图1所示,本发明的基于关键二元词串提取的微博自动摘要方法主要包括以下步骤:
一、微博预处理
微博的特点是:语义稀疏、表达不规范、噪声严重等。这些特点加剧了微博摘要的难度,因此,预处理环节至关重要。本发明中采用正则表达式,去除微博文本中的标签、网址、符号表情、用户名、标题、无意义后缀等噪声信息,以及去掉冗余的标点和过分连续重复的词组。将每条微博切分成句子,然后分词、去停用词等。具体的预处理流程如图2所示:
(1)去除微博文本中所有标签(如#.*#)、内嵌网址(如http://t.cn/[a-zA-Z]+)、转发符号(如//)和用户名(如[\\-\\w\\u4e00-\\u9fa5]+)、表情符号(如O(∩_∩)O),以及对话题理解没有意义的后缀(如“通过xxx发布”);
(2)去除“【】”内长度短语10个字的标题,因为过短的句子不适合用作摘要句。
(3)去掉冗余的标点(如。。。)和过分重复的词语和短语(如“哈哈哈哈哈哈哈”)。标点、词语、短语构成最小的重复单元时,除语气词外保留两个重复单元外(如“哈哈”),其余仅保留一个重复单元。
(4)将长度大于30个字的微博切分成句子,然后去除长度小于4个字的句子。
(5)对句子进行分词,得到一元词串(unigram),即单个词语。
(6)去停用词。
以下是热门话题#北京暴雨#中的微博预处理实例:
实例1:
预处理前:
TG舒歌:北京暴雨过后只有一种天气。。。。暴晒。。。暴晒。。。暴晒。。。无截止。。。。疯子_神经病二货僅此而已zm我在这里:http://t.cn/zj5UkoJ
句子切分后:
北京暴雨过后只有一种天气。暴晒。无截止。
分词去停用词后:
北京暴雨过后一种天气暴晒无截止
实例2:
·预处理前:
木易nj:【萧敬腾,你能不在高考时来吗?】6月7日讯,有“雨神”之称的萧敬腾现身北京机场,雨水甚少的京城也下起了暴雨。而今天也恰逢高考第一天,因此有网友调侃:“雨神果然名不虚传!可是,你能不在高考时来吗?”
·句子切分后:
1:萧敬腾,你能不在高考时来吗?
2:6月7日讯,有“雨神”之称的萧敬腾现身北京机场,雨水甚少的京城也下起了暴雨。
3:而今天也恰逢高考第一天,因此有网友调侃:“雨神果然名不虚传!可是,你能不在高考时来吗?”
·分词去停用词后:
1:萧敬腾不在高考时
2:6月7日讯雨神称萧敬腾现身北京机场雨水甚少京城下起暴雨
3:高考第一天网友调侃雨神名不虚传不在高考时
二、二元词串标准化
在上述预处理的基础上,将每个句子中相邻的两个词语组合成一个二元词串,每个句子由一串二元词串序列表示。二元词串是一种与词语和短语相似的文本单元,但是它比词语包含的信息量更大,因为结合了上下文信息,同时它比短语简单,因为短语生成通常需要借助语义词典或复杂的语法分析、语义解析等技术。微博普遍存在两个现象:1)转发行为可能导致大量重复的微博;2)用户倾向于用相似甚至相同的词语、短语表达同一个话题中某个观点。这些重复的词语、短语和句子,形成了话题中强烈的观点,因此它们更可能成为关键词。另一方面,句子中毗邻的关键词互相增强了对方作为关键词的可能性,同时也增强了句子的重要性。因此以二元词串作为文本单元,可以捕捉这种上下文信息,降低与噪声词毗邻的词语的权重,从而抗噪性更强。
以下是热门话题#北京暴雨#中的微博二元词串标准化实例:
·预处理结果:
北京气象台发布暴雨蓝色预警强雨将来袭
·二元词串标准化结果:
北京气象台气象台发布发布暴雨暴雨蓝色蓝色预警预警强强雨雨将来将来袭
三、关键二元词串提取
利用基于混合TF-IDF、TextRank和/或LDA的三种非监督关键二元词串抽取技术,分别提取N个能准确反映话题微博集合某个子主题的二元词串作为关键二元词串,得到一个关键二元词串集合。三种技术都能较好地辅助后续摘要,同时又各具优势:混合TF-IDF简单、高效,当对速度有较高要求时采用此技术;TextRank文本图节点选择性更多,可扩展性更强,利于多种N-gram的结合,当对扩展性有较高要求时采用此技术;LDA通过多次迭代对训练语料中的语义关系挖掘更充分,当优先准确率而不计较时间的代价时采用此技术。
(1)基于混合TF-IDF的关键二元词串提取
混合Term Frequency Inverse DocumentFrequency(TF-IDF)是一种基于词频的统计特征,对传统的TF-IDF特征做了适当的修正。每个二元词串的混合TF-IDF权重可由以下公式计算得出:
Hybrid_TF_IDF(bi)=tf(bi)*log2(idf(bi)) (1)
其中tf(bi)为二元词串bi的TF值,其值等于bi在整个句子集合中出现的频率,其公式化定义如下:
idf(bi)为bi的IDF值,其值等于句子总数比上出现了bi的句子数目,其公式化定义如下:
将所有二元词串按照其混合TF-IDF值降序排列,然后取前N个作为关键二元词串,得到二元词串集合。
以下是热门话题#北京暴雨#基于混合TF-IDF的关键二元词串提取结果中的top-20:
[北京暴雨,局地暴雨,伴有雷电,暴雨伴有,蓝色预警,大雨局地,暴雨蓝色,发布暴雨,黄色预警,北京发布,阴阵雨,暴雨预警,夜间阴,晚高峰,阴大雨,高考第一天,北京大暴雨,预警延庆,白天阴,现大到暴雨]
(2)基于TextRank的关键二元词串提取
我们以二元词串作为顶点,以固定文本窗内(我们设为10个词)两个有先后顺序的二元词串共现的次数作为边的权重,构造了一个有向带权图G(V,E),其中V为顶点集合,E为边集合。令In(vi)为指向顶点vi的顶点构成的集合,Out(vj)为顶点vj所指向的顶点构成的集合,wji为顶点vj到vi的边的权重,则每个顶点的TextRank分值可由下式计算得出:
其中d为阻尼因子,通常取值为0.85。按上式迭代至收敛,得到每个二元词串的TextRank值,然后按该值降序排列二元词串,取前N个最具影响力的二元词串作为关键二元词串。
以下是热门话题#北京暴雨#基于混合TextRank的关键二元词串提取结果中的top-20:
[北京暴雨,暴雨蓝色,蓝色预警,局地暴雨,伴有雷电,发布暴雨,暴雨伴有,大雨局地,北京发布,黄色预警,暴雨预警,北京大暴雨,高考第一天,预警延庆,阴阵雨,延庆现,现大到暴雨,北京北部,晚高峰,暴雨前]
(3)基于LDA的关键二元词串提取
前两种关键二元词串提取算法均没有考虑词语之间的语义关系,而LDA是一种可以挖掘词语之间潜在的主题关联从而减少语义鸿沟的主题模型。通过LDA对语料建模并推理可得到主题-词(在本文中是主题-二元词串)分布矩阵该矩阵中每一行是主题在二元词串集合上的概率分布,每个元素在一定程度上表征了该二元词串相对于该主题的重要程度。因此,我们对该矩阵按列求和,将得到的值作为每个二元词串在主题集合上的全局得分,具体可公式化定义如下:
基于此全局得分对二元词串降序排序,取前N个二元词串构成关键二元词串集合。
以下是热门话题#北京暴雨#基于混合LDA的关键二元词串提取结果中的top-20:
[北京暴雨,局地暴雨,伴有雷电,蓝色预警,暴雨伴有,暴雨蓝色,大雨局地,发布暴雨,黄色预警,北京发布,暴雨预警,阴阵雨,高考第一天,晚高峰,北京大暴雨,夜间阴,阴大雨,预警延庆,延庆现,现大到暴雨]
四、句子排序
基于上述关键二元词串集合,利用交集相似度和互信息两种策略,对句子打分排序。两种基于关键二元词串集合的句子打分排序策略均基于直观的思想:如果一个句子包含的关键二元词串越多,且该句子长度适中,则该句子越重要。交集相似度策略具有较高的召回率,互信息策略具有较高的准确率,折中考虑召回率和准确率,交集相似度策略略胜一筹。
具体策略如下:
(1)交集相似度策略
交集相似度是一种类似于召回率的分值,它通过计算候选句子与关键二元词串集合中重叠的二元词串个数在整个关键二元词串集合中的占比得到。同时,为了惩罚过长或者过短的句子,我们对该分值进行归一化,而归一化因子取的是候选句本身的长度和整个句子集合的平均句长中较大的数值。由交集相似度计算的候选句得分可公式化定义如下:
其中S表示候选句,KBS表示关键二元词串集合,bi即为共现的关键二元词串。|S|和|KBS|分别表示候选句长度和关键二元词串集合的大小,AveLen为句子集合中所有句子的平均长度。
以下是热门话题#北京暴雨#基于交集相似度策略对句子排序后的top-10(关键二元词串集合是由混合TF-IDF提取的100个二元词串):
1.北京发布暴雨蓝色预警延庆等地将现大到暴雨
2.北京发布暴雨蓝色预警延庆等地将现大到暴雨
3.北京发布暴雨蓝色预警延庆等地将现大到暴雨
4.北京发布暴雨蓝色预警延庆等地将现大到暴雨
5.北京发布暴雨蓝色预警延庆等地将现大到暴雨
6.北京发布暴雨蓝色预警延庆等地将现大到暴雨
7.北京发布暴雨蓝色预警延庆等地将现大到暴雨
8.北京发布暴雨蓝色预警延庆等地将现大到暴雨
9.——北京发布暴雨蓝色预警延庆等地将现大到暴雨
10.北京发布暴雨蓝色预警,延庆等地将现大到暴雨。
(2)互信息策略
互信息通常用于度量两个变量之间的相关性,因此,我们可以用互信息度量一个句子对关键二元词串集合的包含程度。越大的互信息值意味着句子对主题核心内容的覆盖程度越高。由互信息计算候选句得分可公式化定义如下:
其中p(bi,S)为bi在句子S中出现的频率,p(bi)为bi在整个句子集合中出现的频率,p(S)为句子的长度比上句子集合的所有句子的长度。我们直接将bi和S之间的点互信息累加求和,而没有乘以它们的联合概率p(bi,S),是因为p(bi,S)通常很小,乘以该概率值可能反而降低了不同二元词串之间的区分度。最后,该分值同样以交集相似度中用到的归一化因子对长度进行归一化。
以下是热门话题#北京暴雨#基于互信息策略对句子排序后的top-10(关键二元词串集合是由混合TF-IDF提取的150个二元词串):
1.今夜雾转中到大雨局地暴雨伴有雷电。
2.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外注意防范雷电灾害。
3.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外注意防范雷电灾害
4.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外注意防范雷电灾害。
5.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外,注意防范雷电灾害。
6.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外,注意防范雷电灾害。
7.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外,注意防范雷电灾害。
8.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外,注意防范雷电灾害。
9.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外,注意防范雷电灾害。
10.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外,注意防范雷电灾害。
五、摘要句抽取
由于排序靠前的句子可能会很相似甚至一样,因此摘要句抽取是在引进相似度阈值以防止冗余的基础上,从排名靠前的句子中提取M个满足相似度条件的句子作为摘要句。图3为抽取摘要句的流程图,具体步骤如下:
(1)初始化摘要句集合,为空;初始化候选集合,为排好序的句子集合;
(2)取当前排名最靠前的句子作为候选句Sc;
(3)当摘要句集合为空时,直接将候选句添加至摘要句集合;否则依次计算候选句Sc与每个摘要句Ss的相似度:
一旦出现sim(Sc,Ss)>maxSim的情况,直接转(5);
(4)将候选句添加至摘要句集合;
(5)从候选集合中(顶端)移除当前候选句;
(6)若摘要句集合中的句子数少于M,则转(1),否则转(7);
(7)输出摘要句集合。
以下是热门话题#北京暴雨#基于上述交集相似度排序的句子集合抽取的摘要句集合:
1.北京发布暴雨蓝色预警延庆等地将现大到暴雨
2.实拍暴雨前北京大白天变“黑夜”黑夜;黑暗模式;雷雨天气;降雨;实拍
3.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外注意防范雷电灾害。
4.夜间阴有大雨,局地暴雨,伴有雷电,最低气温18℃。
5.据消息,今天下午阴有阵雨,傍晚西部山区有雷阵雨并有雾,最高气温23℃。
6.北京今夜或遭大雨晚高峰或严重拥堵
7.北京天气变化:地质灾害气象风险黄色预警中。
8.现在白了《北京发布雷电暴雨预警白昼如夜》居民楼和道路行使的车辆都开灯照亮。
9.气象部门预报,今晚将有大雨,局部地区暴雨伴有雷电。
10.北京暴雨黄色预警未来5小时局地仍有暴雨
以下是热门话题#北京暴雨#基于上述互信息排序的句子集合抽取的摘要句集合:
1.今夜雾转中到大雨局地暴雨伴有雷电。
2.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外注意防范雷电灾害。
3.北京发布暴雨蓝色预警延庆等地将现大到暴雨
4.实拍暴雨前北京大白天变“黑夜”黑夜;黑暗模式;雷雨天气;降雨;实拍
5.北京今夜或遭大雨晚高峰或严重拥堵
6.北京气象信息:今天傍晚西部山区有雷阵雨,并有雾,最高气温23℃。
7.北京天气变化:地质灾害气象风险黄色预警中。
8.北京发布雷电暴雨预警白昼如夜
9.夜间阴有大雨,局地暴雨,有雾,伴有雷电,最低气温18℃。
10.忙里偷闲一下,话说北京今晚有暴雨,萧敬腾是不是又来北京了。
六、摘要生成
将提取的摘要句按合理的逻辑顺序组合成摘要,输出给用户。组合摘要句的原则有三条,按优先级顺序具体如下:
(1)如果摘要句包含时间信息,则按时序组合;
(2)如果多条摘要句属于语料中的同一条微博,则按照原始微博中的句子顺序组合;
(3)让相似度大的句子毗邻,以增强句子之间的连贯性。
以下是热门话题#北京暴雨#对基于交集相似度排序的句子集合抽取的摘要句集合组合后生成的自动摘要:
1.北京发布暴雨蓝色预警延庆等地将现大到暴雨
2.现在白了《北京发布雷电暴雨预警白昼如夜》居民楼和道路行使的车辆都开灯照亮。
3.实拍暴雨前北京大白天变“黑夜”黑夜;黑暗模式;雷雨天气;降雨;实拍
4.夜间阴有大雨,局地暴雨,伴有雷电,最低气温18℃。
5.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外注意防范雷电灾害。
6.据消息,今天下午阴有阵雨,傍晚西部山区有雷阵雨并有雾,最高气温23℃。
7.北京今夜或遭大雨晚高峰或严重拥堵
8.北京天气变化:地质灾害气象风险黄色预警中。
9.北京暴雨黄色预警未来5小时局地仍有暴雨
10.气象部门预报,今晚将有大雨,局部地区暴雨伴有雷电。
以下是热门话题#北京暴雨#对基于互信息排序的句子集合抽取的摘要句集合组合后生成的自动摘要:
1.今夜雾转中到大雨局地暴雨伴有雷电。
2.夜间阴有大雨,局地暴雨,有雾,伴有雷电,最低气温18℃。
3.近期本市降雨多,请山区注意加强防范山洪、泥石流、崩塌、滑坡等地质灾害,另外注意防范雷电灾害。
4.北京发布暴雨蓝色预警延庆等地将现大到暴雨
5.北京发布雷电暴雨预警白昼如夜
6.实拍暴雨前北京大白天变“黑夜”黑夜;黑暗模式;雷雨天气;降雨;实拍
7.北京今夜或遭大雨晚高峰或严重拥堵
8.北京气象信息:今天傍晚西部山区有雷阵雨,并有雾,最高气温23℃。
9.北京天气变化:地质灾害气象风险黄色预警中。
10.忙里偷闲一下,话说北京今晚有暴雨,萧敬腾是不是又来北京了。
图4为本方法与传统的TextRank摘要器和用于Twitter自动摘要的混合TF-IDF摘要器在50个新浪微博热门话题的数据集上的实验结果对比图。其中由于本发明实现了混合TF-IDF(HTI)、TextRank(TR)和LDA这三种非监督关键二元词串抽取算法,以及交集相似度(OS)和互信息(MI)这两种句子排序策略,因此本发明共六种实例化的摘要器,即HTI-OS、TR-OS、LDA-OS、HTI-MI、TR-MI和LDA-MI。图中召回率、准确率、F值三种指标是通过计算自动摘要与人工摘要的ROUGE-1值得到的。具体计算公式如下:
其中s表示句子,M(w)表示自动摘要(AS)与人工摘要(MS)匹配上的词语数目,C(w)表示词语数目。由图4结果可以看出,本发明的六种摘要器均比TextRank摘要器和混合TF-IDF摘要器效果好。在召回率、准确率和F值上,都有明显提升,尤其是准确率提升非常显著。这得益于本发明采用关键二元词串提取发现子主题,对噪声表现出更鲁棒的性能。综合考虑召回率和准确率,即从F值看,本发明的LDA-OS摘要器比混合TF-IDF摘要器提升了10.38%。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于非监督关键二元词串提取的微博文本自动摘要方法,包括以下步骤:
步骤1:采用正则表达式,去除微博文本中的噪声信息,以及去掉冗余的标点和过分连续重复的词组;将每条微博切分成句子,然后分词、去停用词;
步骤2:将每个句子中相邻的两个词语组合成一个二元词串,由此每个句子由一串二元词串序列表示;
步骤3:利用基于混合TF-IDF、TextRank和/或LDA的三种非监督关键二元词串抽取技术,提取若干个能准确反映话题微博集合某个子主题的二元词串作为关键二元词串,得到一个关键二元词串集合;
步骤4:基于上述关键二元词串集合,利用交集相似度和/或互信息策略,对由一串二元词串序列表示的所述句子打分排序;
步骤5:在引进相似度阈值以防止冗余的基础上,从排名靠前的所述句子中提取M个满足相似度条件的句子作为摘要句,其中M为正整数;
步骤6:将所述提取的摘要句组合成摘要,并输出。
2.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其中步骤1中去除的所述噪声信息包括标签、网址、符号表情、用户名、标题、无意义后缀。
3.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其中所述步骤1进一步包括下列步骤:
去除微博文本中所有标签、内嵌网址、转发符号、用户名、表情符号,以及对话题理解没有意义的后缀;
去除“【】”内长度短语10个字的标题;
去掉冗余的标点和过分重复的词语和短语,标点、词语、短语构成最小的重复单元时,除语气词保留两个重复单元外,其余仅保留一个重复单元;
将长度大于30个字的微博切分成句子,然后去除长度小于4个字的句子;
对句子进行分词,得到一元词串;
去停用词。
4.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其中当基于混合TF-IDF进行关键二元词串提取时,所述步骤3进一步包括下列步骤:
每个二元词串的混合TF-IDF权重可由以下公式计算得出:Hybrid_TF_IDF(bi)=tf(bi)*log2(idf(bi)),其中,tf(bi)为二元词串bi的TF值,其值等于bi在整个句子集合中出现的频率,其公式化定义如下:
idf(bi)为bi的IDF值,其值等于句子总数比上出现了bi的句子数目,其公式化定义如下:
将所有二元词串按照其混合TF-IDF值降序排列,然后取前N个作为关键二元词串,得到二元词串集合,其中N为预先定义的正整数。
5.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其中当基于TextRank进行关键二元词串提取时,所述步骤3进一步包括下列步骤:
以二元词串作为顶点,以设定为10个词的固定文本窗内两个有先后顺序的二元词串共现的次数作为边的权重,构造了一个有向带权图G(V,E),其中V为顶点集合,E为边集合;令In(vi)为指向顶点vi的顶点构成的集合,Out(vj)为顶点vj所指向的顶点构成的集合,wji为顶点vj到vi的边的权重,则每个顶点的TextRank分值可由下式计算得出:
其中,d为阻尼因子,取值为0.8;按上式迭代至收敛,得到每个二元词串的TextRank值,然后按该值降序排列二元词串,取前N个最具影响力的二元词串作为关键二元词串,其中N为预先定义的正整数。
6.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其中当基于LDA进行关键二元词串提取时,所述步骤3进一步包括下列步骤:
通过LDA对语料建模并推理可得到主题二元词串分布矩阵对该矩阵按列求和,将得到的值作为每个二元词串在主题集合上的全局得分,具体可公式化定义如下: 基于此全局得分对二元词串降序排序,取前N个二元词串构成关键二元词串集合,其中N为预先定义的正整数。
7.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其中当采用交集相似度策略时,所述步骤4进一步包括下列步骤:
交集相似度通过计算候选句子与关键二元词串集合中重叠的二元词串个数在整个关键二元词串集合中的占比,并乘以归一化因子得到,具体定义如下:
其中S表示候选句,KBS表示关键二元词串集合,bi即为共现的关键二元词串,|S|和|KBS|分别表示候选句长度和关键二元词串集合的大小,AveLen表示句子集合中所有句子的平均长度。
8.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其中当采用互信息策略时,所述步骤4进一步包括下列步骤:
互信息具体定义如下:
其中,p(bi,S)为bi在句子S中出现的频率,p(bi)为bi在整个句子集合中出现的频率,p(S)为句子的长度比上句子集合的所有句子的长度,同样,该分值以交集相似度中用到的归一化因子对长度进行归一化。
9.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其中所述步骤5中所述基于相似度阈值的摘要句抽取的步骤具体是指:从排名最靠前的句子开始提取,当且仅当候选句与已提取的摘要句的相似度均小于某个阈值时,该候选句被选为摘要句,否则丢弃该候选句,考虑排名次之的下一个候选句,直到提取了M个摘要句为止,其中,M为抽取的句子的个数,相似度阈值sim(Sc,Ss)的计算公式如下所示:
其中,相似度采用的是候选句Sc与摘要句Ss的共现相似度,maxSim为事先设定的所允许的最大相似度阈值,设为0.5。
10.根据权利要求1所述的基于非监督关键二元词串提取的微博文本自动摘要方法,其中步骤6中所述的组合成摘要句的原则按优先级如下:
(1)如果摘要句包含时间信息,则按时序组合;
(2)如果多条摘要句属于语料中的同一条微博,则按照原始微博中的句子顺序组合;
(3)让相似度大的句子毗邻,以增强句子之间的连贯性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410502810.7A CN104216875B (zh) | 2014-09-26 | 2014-09-26 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410502810.7A CN104216875B (zh) | 2014-09-26 | 2014-09-26 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104216875A true CN104216875A (zh) | 2014-12-17 |
CN104216875B CN104216875B (zh) | 2017-05-03 |
Family
ID=52098381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410502810.7A Active CN104216875B (zh) | 2014-09-26 | 2014-09-26 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104216875B (zh) |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426360A (zh) * | 2015-11-12 | 2016-03-23 | 中国建设银行股份有限公司 | 一种关键词抽取方法及装置 |
CN105718445A (zh) * | 2016-01-28 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 词与网页的关联度计算方法及装置 |
CN105740448A (zh) * | 2016-02-03 | 2016-07-06 | 天津大学 | 面向话题的多微博时序文摘方法 |
CN105868178A (zh) * | 2016-03-28 | 2016-08-17 | 浙江大学 | 一种基于短语主题建模的多文档自动摘要生成方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN107085581A (zh) * | 2016-02-16 | 2017-08-22 | 腾讯科技(深圳)有限公司 | 短文本分类方法和装置 |
CN107315734A (zh) * | 2017-05-04 | 2017-11-03 | 中国科学院信息工程研究所 | 一种基于时间窗口和语义的变体词规范化的方法和系统 |
CN107766318A (zh) * | 2016-08-17 | 2018-03-06 | 北京金山安全软件有限公司 | 一种关键词的抽取方法、装置及电子设备 |
CN107832298A (zh) * | 2017-11-16 | 2018-03-23 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN107977358A (zh) * | 2017-11-23 | 2018-05-01 | 浪潮金融信息技术有限公司 | 语句识别方法及装置、计算机存储介质和终端 |
CN107992472A (zh) * | 2017-11-23 | 2018-05-04 | 浪潮金融信息技术有限公司 | 句子相似度计算方法及装置、计算机存储介质和终端 |
CN108228808A (zh) * | 2017-12-29 | 2018-06-29 | 东软集团股份有限公司 | 确定热点事件的方法、装置和存储介质以及电子设备 |
CN108417206A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息高速处理方法 |
CN108536670A (zh) * | 2017-03-02 | 2018-09-14 | 公立大学法人首都大学东京 | 输出语句生成装置、方法和程序 |
CN108549640A (zh) * | 2018-04-24 | 2018-09-18 | 易联众信息技术股份有限公司 | 一种基于统计学的企业名称相似度计算方法 |
CN108664465A (zh) * | 2018-03-07 | 2018-10-16 | 珍岛信息技术(上海)股份有限公司 | 一种自动生成文本方法以及相关装置 |
CN109255123A (zh) * | 2018-08-14 | 2019-01-22 | 电子科技大学 | 一种基于混合打分模型的推文事件摘要生成方法 |
CN109325235A (zh) * | 2018-10-17 | 2019-02-12 | 武汉斗鱼网络科技有限公司 | 一种基于词权的文本摘要提取方法及计算装置 |
CN109492078A (zh) * | 2018-09-30 | 2019-03-19 | 普强信息技术(北京)有限公司 | 一种基于动态停词的原因挖掘方法 |
CN109670047A (zh) * | 2018-11-19 | 2019-04-23 | 内蒙古大学 | 一种抽象笔记生成方法、计算机装置及可读存储介质 |
CN109684642A (zh) * | 2018-12-26 | 2019-04-26 | 重庆誉存大数据科技有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
CN109710916A (zh) * | 2018-11-02 | 2019-05-03 | 武汉斗鱼网络科技有限公司 | 一种标签提取方法、装置、电子设备及存储介质 |
CN109739973A (zh) * | 2018-12-20 | 2019-05-10 | 北京奇安信科技有限公司 | 文本摘要生成方法、装置、电子设备及存储介质 |
CN109918660A (zh) * | 2019-03-04 | 2019-06-21 | 北京邮电大学 | 一种基于TextRank的关键词提取方法和装置 |
CN109947929A (zh) * | 2017-07-24 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 会话摘要生成方法及装置、存储介质及电子终端 |
CN109977220A (zh) * | 2019-04-09 | 2019-07-05 | 中通服公众信息产业股份有限公司 | 一种基于关键句和关键字的反向生成摘要的方法 |
CN110083835A (zh) * | 2019-04-24 | 2019-08-02 | 北京邮电大学 | 一种基于图和词句协同的关键词提取方法及装置 |
CN110134951A (zh) * | 2019-04-29 | 2019-08-16 | 淮阴工学院 | 一种分析文本数据潜在主题短语的方法及系统 |
CN110245230A (zh) * | 2019-05-15 | 2019-09-17 | 北京思源智通科技有限责任公司 | 一种图书分级方法、系统、存储介质和服务器 |
WO2019201295A1 (zh) * | 2018-04-18 | 2019-10-24 | 新华三信息安全技术有限公司 | 文件识别方法和特征提取方法 |
CN110532551A (zh) * | 2019-08-15 | 2019-12-03 | 苏州朗动网络科技有限公司 | 文本关键词自动提取的方法、设备和存储介质 |
CN110609997A (zh) * | 2018-06-15 | 2019-12-24 | 北京百度网讯科技有限公司 | 生成文本的摘要的方法和装置 |
CN110781303A (zh) * | 2019-10-28 | 2020-02-11 | 佰聆数据股份有限公司 | 一种短文本分类方法及系统 |
CN111177365A (zh) * | 2019-12-20 | 2020-05-19 | 山东科技大学 | 一种基于图模型的无监督自动文摘提取方法 |
CN111460117A (zh) * | 2020-03-20 | 2020-07-28 | 平安科技(深圳)有限公司 | 对话机器人意图语料生成方法、装置、介质及电子设备 |
CN111666402A (zh) * | 2020-04-30 | 2020-09-15 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
CN112328783A (zh) * | 2020-11-24 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种摘要确定方法和相关装置 |
CN112364155A (zh) * | 2020-11-20 | 2021-02-12 | 北京五八信息技术有限公司 | 一种信息处理方法及装置 |
CN113191147A (zh) * | 2021-05-27 | 2021-07-30 | 中国人民解放军军事科学院评估论证研究中心 | 无监督的自动术语抽取方法、装置、设备和介质 |
CN113449071A (zh) * | 2021-05-31 | 2021-09-28 | 中电福富信息科技有限公司 | 基于二元词主题模型的构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413330A (zh) * | 2013-08-30 | 2013-11-27 | 中国科学院自动化研究所 | 一种复杂场景下可靠的视频摘要生成方法 |
US20140079340A1 (en) * | 2012-09-14 | 2014-03-20 | Canon Kabushiki Kaisha | Image management apparatus, management method, and storage medium |
-
2014
- 2014-09-26 CN CN201410502810.7A patent/CN104216875B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140079340A1 (en) * | 2012-09-14 | 2014-03-20 | Canon Kabushiki Kaisha | Image management apparatus, management method, and storage medium |
CN103413330A (zh) * | 2013-08-30 | 2013-11-27 | 中国科学院自动化研究所 | 一种复杂场景下可靠的视频摘要生成方法 |
Non-Patent Citations (2)
Title |
---|
CHEN LI等: "Using Supervised Bigram-based ILP for Extractive Summarization", 《PROCEEDINGS OF THE 51ST ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
韩永峰等: "基于事件抽取的网络新闻多文档自动摘要", 《中文信息学报》 * |
Cited By (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426360A (zh) * | 2015-11-12 | 2016-03-23 | 中国建设银行股份有限公司 | 一种关键词抽取方法及装置 |
CN105426360B (zh) * | 2015-11-12 | 2018-08-07 | 中国建设银行股份有限公司 | 一种关键词抽取方法及装置 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN105718445B (zh) * | 2016-01-28 | 2018-05-11 | 中国人民解放军国防科学技术大学 | 词与网页的关联度计算方法及装置 |
CN105718445A (zh) * | 2016-01-28 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 词与网页的关联度计算方法及装置 |
CN105740448B (zh) * | 2016-02-03 | 2019-06-25 | 天津大学 | 面向话题的多微博时序文摘方法 |
CN105740448A (zh) * | 2016-02-03 | 2016-07-06 | 天津大学 | 面向话题的多微博时序文摘方法 |
CN107085581A (zh) * | 2016-02-16 | 2017-08-22 | 腾讯科技(深圳)有限公司 | 短文本分类方法和装置 |
CN105868178B (zh) * | 2016-03-28 | 2018-07-17 | 浙江大学 | 一种基于短语主题建模的多文档自动摘要生成方法 |
CN105868178A (zh) * | 2016-03-28 | 2016-08-17 | 浙江大学 | 一种基于短语主题建模的多文档自动摘要生成方法 |
CN107766318B (zh) * | 2016-08-17 | 2021-03-16 | 北京金山安全软件有限公司 | 一种关键词的抽取方法、装置及电子设备 |
CN107766318A (zh) * | 2016-08-17 | 2018-03-06 | 北京金山安全软件有限公司 | 一种关键词的抽取方法、装置及电子设备 |
CN108536670B (zh) * | 2017-03-02 | 2022-05-27 | 公立大学法人首都大学东京 | 输出语句生成装置、方法和程序 |
CN108536670A (zh) * | 2017-03-02 | 2018-09-14 | 公立大学法人首都大学东京 | 输出语句生成装置、方法和程序 |
CN107315734B (zh) * | 2017-05-04 | 2019-11-26 | 中国科学院信息工程研究所 | 一种基于时间窗口和语义的变体词规范化的方法和系统 |
CN107315734A (zh) * | 2017-05-04 | 2017-11-03 | 中国科学院信息工程研究所 | 一种基于时间窗口和语义的变体词规范化的方法和系统 |
CN109947929A (zh) * | 2017-07-24 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 会话摘要生成方法及装置、存储介质及电子终端 |
CN107832298A (zh) * | 2017-11-16 | 2018-03-23 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN107992472A (zh) * | 2017-11-23 | 2018-05-04 | 浪潮金融信息技术有限公司 | 句子相似度计算方法及装置、计算机存储介质和终端 |
CN107977358A (zh) * | 2017-11-23 | 2018-05-01 | 浪潮金融信息技术有限公司 | 语句识别方法及装置、计算机存储介质和终端 |
CN108228808B (zh) * | 2017-12-29 | 2020-07-31 | 东软集团股份有限公司 | 确定热点事件的方法、装置和存储介质以及电子设备 |
CN108228808A (zh) * | 2017-12-29 | 2018-06-29 | 东软集团股份有限公司 | 确定热点事件的方法、装置和存储介质以及电子设备 |
CN108417206A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息高速处理方法 |
CN108664465A (zh) * | 2018-03-07 | 2018-10-16 | 珍岛信息技术(上海)股份有限公司 | 一种自动生成文本方法以及相关装置 |
WO2019201295A1 (zh) * | 2018-04-18 | 2019-10-24 | 新华三信息安全技术有限公司 | 文件识别方法和特征提取方法 |
CN108549640A (zh) * | 2018-04-24 | 2018-09-18 | 易联众信息技术股份有限公司 | 一种基于统计学的企业名称相似度计算方法 |
CN110609997A (zh) * | 2018-06-15 | 2019-12-24 | 北京百度网讯科技有限公司 | 生成文本的摘要的方法和装置 |
CN110609997B (zh) * | 2018-06-15 | 2023-05-23 | 北京百度网讯科技有限公司 | 生成文本的摘要的方法和装置 |
CN109255123A (zh) * | 2018-08-14 | 2019-01-22 | 电子科技大学 | 一种基于混合打分模型的推文事件摘要生成方法 |
CN109492078A (zh) * | 2018-09-30 | 2019-03-19 | 普强信息技术(北京)有限公司 | 一种基于动态停词的原因挖掘方法 |
CN109325235A (zh) * | 2018-10-17 | 2019-02-12 | 武汉斗鱼网络科技有限公司 | 一种基于词权的文本摘要提取方法及计算装置 |
CN109710916B (zh) * | 2018-11-02 | 2024-02-23 | 广州财盟科技有限公司 | 一种标签提取方法、装置、电子设备及存储介质 |
CN109710916A (zh) * | 2018-11-02 | 2019-05-03 | 武汉斗鱼网络科技有限公司 | 一种标签提取方法、装置、电子设备及存储介质 |
CN109670047A (zh) * | 2018-11-19 | 2019-04-23 | 内蒙古大学 | 一种抽象笔记生成方法、计算机装置及可读存储介质 |
CN109670047B (zh) * | 2018-11-19 | 2022-09-20 | 内蒙古大学 | 一种抽象笔记生成方法、计算机装置及可读存储介质 |
CN109739973A (zh) * | 2018-12-20 | 2019-05-10 | 北京奇安信科技有限公司 | 文本摘要生成方法、装置、电子设备及存储介质 |
CN109684642B (zh) * | 2018-12-26 | 2023-01-13 | 重庆电信系统集成有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
CN109684642A (zh) * | 2018-12-26 | 2019-04-26 | 重庆誉存大数据科技有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
CN109918660B (zh) * | 2019-03-04 | 2021-03-02 | 北京邮电大学 | 一种基于TextRank的关键词提取方法和装置 |
CN109918660A (zh) * | 2019-03-04 | 2019-06-21 | 北京邮电大学 | 一种基于TextRank的关键词提取方法和装置 |
CN109977220A (zh) * | 2019-04-09 | 2019-07-05 | 中通服公众信息产业股份有限公司 | 一种基于关键句和关键字的反向生成摘要的方法 |
CN110083835A (zh) * | 2019-04-24 | 2019-08-02 | 北京邮电大学 | 一种基于图和词句协同的关键词提取方法及装置 |
CN110134951B (zh) * | 2019-04-29 | 2021-08-31 | 淮阴工学院 | 一种分析文本数据潜在主题短语的方法及系统 |
CN110134951A (zh) * | 2019-04-29 | 2019-08-16 | 淮阴工学院 | 一种分析文本数据潜在主题短语的方法及系统 |
CN110245230A (zh) * | 2019-05-15 | 2019-09-17 | 北京思源智通科技有限责任公司 | 一种图书分级方法、系统、存储介质和服务器 |
CN110532551A (zh) * | 2019-08-15 | 2019-12-03 | 苏州朗动网络科技有限公司 | 文本关键词自动提取的方法、设备和存储介质 |
CN110781303A (zh) * | 2019-10-28 | 2020-02-11 | 佰聆数据股份有限公司 | 一种短文本分类方法及系统 |
CN111177365A (zh) * | 2019-12-20 | 2020-05-19 | 山东科技大学 | 一种基于图模型的无监督自动文摘提取方法 |
CN111177365B (zh) * | 2019-12-20 | 2022-08-02 | 山东科技大学 | 一种基于图模型的无监督自动文摘提取方法 |
CN111460117A (zh) * | 2020-03-20 | 2020-07-28 | 平安科技(深圳)有限公司 | 对话机器人意图语料生成方法、装置、介质及电子设备 |
CN111460117B (zh) * | 2020-03-20 | 2024-03-08 | 平安科技(深圳)有限公司 | 对话机器人意图语料生成方法、装置、介质及电子设备 |
CN111666402A (zh) * | 2020-04-30 | 2020-09-15 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
CN111666402B (zh) * | 2020-04-30 | 2024-05-28 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
CN112364155A (zh) * | 2020-11-20 | 2021-02-12 | 北京五八信息技术有限公司 | 一种信息处理方法及装置 |
CN112364155B (zh) * | 2020-11-20 | 2024-05-31 | 北京五八信息技术有限公司 | 一种信息处理方法及装置 |
CN112328783A (zh) * | 2020-11-24 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种摘要确定方法和相关装置 |
CN113191147A (zh) * | 2021-05-27 | 2021-07-30 | 中国人民解放军军事科学院评估论证研究中心 | 无监督的自动术语抽取方法、装置、设备和介质 |
CN113449071A (zh) * | 2021-05-31 | 2021-09-28 | 中电福富信息科技有限公司 | 基于二元词主题模型的构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104216875B (zh) | 2017-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104216875A (zh) | 基于非监督关键二元词串提取的微博文本自动摘要方法 | |
Tedeschi et al. | WikiNEuRal: Combined neural and knowledge-based silver data creation for multilingual NER | |
CN102708096B (zh) | 一种基于语义的网络智能舆情监测系统及其工作方法 | |
CN103617169B (zh) | 一种基于Hadoop的微博热点话题提取方法 | |
WO2017076205A1 (zh) | 一种获取聊天发起句的回复提示内容的方法及装置 | |
CN104598535B (zh) | 一种基于最大熵的事件抽取方法 | |
CN106055658A (zh) | 一种针对Twitter文本事件抽取的方法 | |
CN103942340A (zh) | 一种基于文本挖掘的微博用户兴趣识别方法 | |
CN104809176A (zh) | 藏语实体关系抽取方法 | |
CN104536956A (zh) | 一种基于微博平台的事件可视化方法及系统 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN104268130B (zh) | 一种面向Twitter的社交广告可投放性分析方法 | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN104516947A (zh) | 一种融合显性和隐性特征的中文微博情感分析方法 | |
CN104679825A (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
CN103106287A (zh) | 一种用户检索语句的处理方法及系统 | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
CN112199606B (zh) | 一种基于层次用户表示的面向社交媒体的谣言检测系统 | |
CN103246644A (zh) | 一种网络舆情信息处理方法和装置 | |
CN104298746A (zh) | 一种基于短语网络图排序的领域文献关键词提取方法 | |
CN110532390A (zh) | 一种基于ner与复杂网络特征的新闻关键词提取方法 | |
CN104268230A (zh) | 一种基于异质图随机游走的中文微博客观点探测方法 | |
CN101794308A (zh) | 一种面向有意义串挖掘的重复串提取方法及装置 | |
CN104063428A (zh) | 一种中文微博突发热点话题检测方法 | |
CN103853763B (zh) | 获取信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |