CN105005563B - 一种摘要生成方法及装置 - Google Patents

一种摘要生成方法及装置 Download PDF

Info

Publication number
CN105005563B
CN105005563B CN201410151888.9A CN201410151888A CN105005563B CN 105005563 B CN105005563 B CN 105005563B CN 201410151888 A CN201410151888 A CN 201410151888A CN 105005563 B CN105005563 B CN 105005563B
Authority
CN
China
Prior art keywords
sentence
different degree
degree
body matter
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410151888.9A
Other languages
English (en)
Other versions
CN105005563A (zh
Inventor
蔡兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410151888.9A priority Critical patent/CN105005563B/zh
Publication of CN105005563A publication Critical patent/CN105005563A/zh
Application granted granted Critical
Publication of CN105005563B publication Critical patent/CN105005563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种摘要生成方法及装置,其中方法的实现包括:获取正文内容并获取所述正文内容的句子;对正文内容的各句子使用多元语言模型算法进行分词得到分词结果,确定所述分词结果的特征向量;所述特征向量包含典型特征,典型特征对应有特征权重;依据典型特征的特征权重计算正文内容的各句子的重要度;依据计算得到的重要度由高往低从所述正文内容中提取句子作为摘要。以上方法使用多元语言模型算法进行分词,使分词不再依赖于词典,而且能够最大程度地保留信息量;可以从正文内容中获取到重要度高的句子并作为摘要使用。以上方案不再依赖于词典也不必维护词典,可以准确并且高效的生成摘要。

Description

一种摘要生成方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种摘要生成方法及装置。
背景技术
基于移动互联网的场景碎片化特性,用户可能只有三五分钟来浏览和阅读。在这种情况下,传统的网页浏览方式已经不能满足用户快速获取关键信息的需求。因此,如何将网页正文里的核心关键信息提取出来,汇聚成一小段文字,使用户能够在极短时间内阅读完这些文字,并基本获取文章主要内容,将产生极大的价值。
提取关键信息生成摘要的方式,最初是采用人工的方式实现的。用人工提取网页关键信息作为摘要。但是,人工提取摘要的问题在于人工代价太高,每篇文章都需要人工操作,难以完成每天新产生的大量网页的摘要提取需求。
为了解决人工提取摘要的各种问题,技术人员提出了由设备自动生成摘要的方案。自动生成摘要的方案,采用的是通过维护大规模的词典实现。具体方案如下:依据词典对正文的句子进行分词。比如“王力宏要结婚了”,会分词为“王力宏/要/结婚/了”,然后过滤掉无用的单字,得到“王力宏/结婚”。
采用词典实现分词的缺点主要是过于依赖词典,而词典难以包含所有有意义的词,导致大量的信息量被丢弃,不利于摘要的准确生成。比如,如果“王力宏”不存在于词典中,则这个句子分词过滤后的结果仅为“结婚”,这样导致大量的信息量被丢弃,导致摘要信息不完整和准确。另外,采用词典生成摘要的方案需要维护词典,工作效率较低。
发明内容
本发明实施例提供了一种摘要生成方法及装置,用于实现准确并且高效的摘要生成方案。
一种摘要生成方法,包括:
获取正文内容并获取所述正文内容的句子;
对正文内容的各句子使用多元语言模型算法进行分词得到分词结果,确定所述分词结果的特征向量;所述特征向量包含典型特征,典型特征对应有特征权重;依据典型特征的特征权重计算正文内容的各句子的重要度;
依据计算得到的重要度由高往低从所述正文内容中提取句子作为摘要。
一种摘要生成装置,包括:
句子提取单元,用于获取正文内容并获取所述正文内容的句子;
计算单元,用于对所述句子提取单元提取的正文内容的各句子使用多元语言模型算法进行分词得到分词结果,确定所述分词结果的特征向量;所述特征向量包含典型特征,典型特征对应有特征权重;依据典型特征的特征权重计算正文内容的各句子的重要度;
摘要提取单元,用于依据所述计算单元计算得到的重要度由高往低从所述正文内容中提取句子作为摘要。
从以上技术方案可以看出,本发明实施例具有以下优点:使用多元语言模型算法进行分词,使分词不再依赖于词典,而且能够最大程度地保留信息量;通过确定分词结果的特征向量,特征向量包含典型特征,典型特征对应有特征权重;再依据典型特征的特征权重计算正文内容的各句子的重要度;从而可以从正文内容中获取到重要度高的句子并作为摘要使用。以上方案不再依赖于词典也不必维护词典,可以准确并且高效的生成摘要。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例方法流程示意图;
图2为本发明实施例系统架构示意图;
图3为本发明实施例装置结构示意图;
图4为本发明实施例装置结构示意图;
图5为本发明实施例装置结构示意图;
图6为本发明实施例装置结构示意图;
图7为本发明实施例装置结构示意图;
图8为本发明实施例装置结构示意图;
图9为本发明实施例装置结构示意图;
图10为本发明实施例服务器结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了一种摘要生成方法,如图1所示,包括:
101:获取正文内容并获取上述正文内容的句子;
本发明实施例方案可以在服务器一侧执行也可以在移动终端一侧执行,对此本发明实施例不予限定。若在移动终端一侧执行,那么本步骤中获取正文内容可以是接收到来自网络侧的正文内容;如果在服务器一侧执行,那么本步骤则可以是批量的获取正文内容,然后依此对各正文内容采用本发明实施例方案进行摘要生成。在正文获取以后,获取句子的方式可以采用获取句号对正文进行分断的方式来确定,具体实现方式本发明实施例不予限定。
102:对正文内容的各句子使用多元语言模型算法进行分词得到分词结果,确定上述分词结果的特征向量;上述特征向量包含典型特征,典型特征对应有特征权重;依据典型特征的特征权重计算正文内容的各句子的重要度;
在本发明实施例中使用多元语言模型算法进行分词。N-GRAM(N-gram languagemodel,多元语言模型,其中N≥2)算法,N-GRAM是大词汇连续语音识别中的一种语言模型,对于中文而言也有称为:汉语语言模型(CLM,Chinese Language Model)。本方案摈弃了依赖于词典的分词的做法,采用N-GRAM算法来对句子进行拆分,这样不仅不依赖于分词和词典,而且能够最大程度地保留信息量,为句子的挑选提供更多可利用的特征。N-GRAM的做法是利用固定大小的滑动窗口对句子进行遍历,并将窗口内的词串予以提取。比如窗口大小为2时,“王力宏要结婚了”可提取为“王力/力宏/宏要/要结/结婚/婚了”共6个词串。词串的数量远远大于分词得到的词串数。其中虽然存在一些无意义的词串,但是由于最终提取的是句子,且无意义串对句子重要度计算没有影响,所以此做法很有意义。
可选地,在本发明实施例中特征向量以及特征向量内的典型特征均可以是预置的,更具体地:上述典型特征的值包含:句子包含标题词串的数量、句子包含重要词串的数量、句子的长度、句子在正文中的位置以及句子是否包含总结性词汇中的至少一项。
在本发明实施例中,可以对分词得到的分词结果提取各种预先定义好的特征值(即典型特征),这样可将其格式化为一个特征向量<f1,f2,…,fn>,其中fi表示第i个特征的值。目前一般可以有约10个特征,每一个特征都对于衡量句子重要度较有作用,其中几个典型特征如下:
特征f1:句子包含标题词串的数量;
特征f2:句子包含重要词串的数量;
特征f3:句子的长度;
特征f4:句子在网页中的位置(段首、段中、段尾等);
特征f5:句子是否包含总结性词汇(如:总之、综上上述等)。
其中在f2中,重要词串的识别方式可以采用TFIDF(term frequency–inversedocument frequency,词频逆文档频率)的相关方法实现,TFIDF是一种用于资讯检索与资讯探勘的加权技术。另需说明的是,以上方案中典型特征的举例是本发明实施例做出的几个优选典型特征的举例,基于人们对正文内容的规律性分析总结,是可以获知其他影响句子重要性的特征的,并且基于不同的文章类型(例如:时事新闻、财经新闻、文学作品、科技文献等)还可能采用不同典型特征;因此以上举例不应理解为对本发明实施例的唯一性限定。
可选地,本发明实施例还提供了特征权重的获得方式,本实施例中特征权重的获得方式可以在摘要生成过程中进行对特征权重进行调整,也是可以在诸如测试过程或者预置过程中进行特征权重的生成,本实施例采用的是通过机器学习里的“训练”的方案来实现的,具体可以如下:上述特征权重的获得方法包括:获取训练正文,上述训练正文包含已知重要度的句子;循环执行如下步骤:对训练正文的句子使用多元语言模型算法进行分词得到分词结果,并确定分词结果的特征向量,然后使用典型特征的初始特征权重计算训练正文的句子的重要度,并调整初始特征权重;直到计算得到的重要度与已知重要度的接近程度高于预定阈值时,停止循环执行过程,并将最后一次调整后的初始特征权重作为上述典型特征的特征权重。
在以上“训练”的方案中,“计算得到的重要度与已知重要度的接近程度高于预定阈值”的判定方式有很多种,训练正文的数量可以是N篇,N≥1,以下实施例给出了几种可选的判定方式,具体如下:
(一)、若上述训练正文的数量为1篇,且已知重要度的句子为最重要的句子;
上述已知重要度的句子的已知重要度的值,与计算得到的上述已知重要度的句子的重要度的值的接近程度高于阈值;或者,计算得到的重要度最高的句子为上述已知重要度的句子。
(二)、若上述训练正文的数量为1篇,且已知重要度的句子的数量为M1个,M1大于1;
计算得到的重要度的排序在前的M1个句子,与已知重要度的M1个句子的重合度高于预定阈值;或者,计算得到的与上述已知重要度的M1个句子对应的句子的重要度的平均值,与已知重要度的句子的重要度的平均值的接近程度高于预定阈值。
(三)、若上述训练正文的数量为N篇,且N大于1;并且已知重要度的句子为各训练正文中最重要的句子;计算得到的已知重要度的句子在各自所在的训练正文中的重要度排名的平均值,与已知重要度的句子在各自所在的训练正文中的重要度排名的平均值的接近程度高于预定阈值。
(四)、若上述训练正文的数量为N篇,且N大于1;并且每篇训练正文中已知重要度的句子的数量为M2个,M2大于1;计算得到的各训练正文中重要度的排序在前的M2个句子,与各训练正文中已知重要度的M2个句子的重合度高于预定阈值;或者,计算得到的各训练正文中与上述已知重要度的M2个句子对应的句子的重要度的总和,与各训练正文中已知重要度的句子的重要度的总和的接近程度高于预定阈值。
103:依据计算得到的重要度由高往低从上述正文内容中提取句子作为摘要。
在本发明实施例中,提取句子的具体方式可以如下:可以按照计算得到的重要度对各句子排序以后,提取重要度排在前列的设定数量的句子;也可以基于摘要字数的限制,从重要度最高的句子开始提取,直到提取到最多句子并且满足摘要的字数要求。本步骤之前由于已经获得了各句子的重要度,因此只要将相对来说更为重要的句子提取出来作为摘要就可以实现本发明实施例的技术目的,具体的提取规则本发明实施例可以不予唯一性限定。
本发明实施例还提供了更为具体的提取句子的方案如下:上述方法还包括:获取约束条件;上述依据计算得到的重要度从上述正文内容中提取句子作为摘要包括:依据计算得到的重要度和上述约束条件从上述正文内容中提取句子作为摘要。可选地,上述约束条件包括:摘要的字数上限值,或者,摘要的句子数量。
本发明实施例,使用多元语言模型算法进行分词,使分词不再依赖于词典,而且能够最大程度地保留信息量;通过确定分词结果的特征向量,特征向量包含典型特征,典型特征对应有特征权重;再依据典型特征的特征权重计算正文内容的各句子的重要度;从而可以从正文内容中获取到重要度高的句子并作为摘要使用。以上方案不再依赖于词典也不必维护词典,可以准确并且高效的生成摘要。
进一步地,对于相似度较高的句子而言,它们的重要度也会较为接近,但是由于相似度较高的句子通常会表达相近的语义,在摘要中使用多个相似的句子则会浪费摘要宝贵的可用字数,本发明实施例基于此提出了如下方案:在上述依据计算得到的重要度由高往低从上述正文内容中提取句子之后,上述方法还包括:删除提取得到的句子,删除的句子满足如下条件:删除的句子与保留的句子的相似度高于预定门限,并且删除的句子的重要度低于保留的句子的重要度。
进一步地,本发明实施例中,提取的重要度高的句子是整个句子,由于这个句子是有可能存在代词的,特别是句首使用代词,如果将其直接显示在摘要中可能会导致语义的丢失,致使读者不清楚代词所代替的名词。本发明实施例基于此提出了如下解决方案:在上述依据计算得到的重要度由高往低从上述正文内容中提取句子之后,上述方法还包括:将提取得到的句子中的代词替换为名词,上述名词为上述代词指代的名词。
在本发明实施例中,若发现了代词时,可以对这个代词前的名词进行检索,特别是人名的检索获得其所指代的名称。在本实施例中,优选使用较为保守的算法以增加替换的准确度。
进一步地,通常来说正文内容本身会具有其逻辑联系,提取的重要度高的句子也可以遵循这种逻辑联系来适应正文内容的逻辑,具体如下:在上述依据计算得到的重要度由高往低从上述正文内容中提取句子之后,上述方法还包括:按照提取得到的句子在上述正文内容中的顺序进行排序。
以下实施例将就本发明实施例的实现方法进行举例说明,本发明实施例的方法可以应用于所有正文的摘要提取,以下实施例中将以网页正文的摘要提取进行举例说明,因此以下关于网页摘要生成的举例不应理解为摘要生成的唯一应用场景。具体请参阅后续实施例的说明。
本发明实施例提供了自动化的网页摘要生成方法,该方法通过将网页正文拆分为一个个的句子,然后根据一些标注数据,对句子进行打分并排序,最后将最重要的几个句子进行汇总和整理,生成自动化摘要。同时不依赖于词典,大大节省了词库的建设成本。
本发明实施例技术方案主要包括两部分,如图2所示:
一、离线训练。主要包括训练样本、特征权重训练并生成句子打分模型。其中在训练样本过程中会执行句子拆分以及特征提取。
二、在线判定。该部分会利用离线训练生成的句子打分模型,计算每篇网页的句子得分并生成摘要。主要包括网页分析、句子提取、依据句子打分模型计算句子得分从而生成摘要
以下分别就离线训练和在线判定进行详细说明,具体如下:
一、离线训练:
1、分词。
本发明实施例的方案摈弃了依赖于词典的分词做法,在本发明实施例中使用多元语言模型算法进行分词。N-GRAM(N-gram language model,多元语言模型,其中N≥2)算法,N-GRAM是大词汇连续语音识别中的一种语言模型,对于中文而言也有称为:汉语语言模型(CLM,Chinese Language Model)。本方案摈弃了依赖于词典的分词的做法,采用N-GRAM算法来对句子进行拆分,这样不仅不依赖于分词和词典,而且能够最大程度地保留信息量,为句子的挑选提供更多可利用的特征。N-GRAM的做法是利用固定大小的滑动窗口对句子进行遍历,并将窗口内的词串予以提取。比如窗口大小为2时,“王力宏要结婚了”可提取为“王力/力宏/宏要/要结/结婚/婚了”共6个词串。词串的数量远远大于分词得到的词串数。其中虽然存在一些无意义的词串,但是由于最终提取的是句子,且无意义串对句子重要度计算没有影响,所以此做法很有意义。
2、特征提取。
对于正文中的每一个句子,在本发明实施例中,可以对分词得到的分词结果提取各种预先定义好的特征值(即典型特征),这样可将其格式化为一个特征向量<f1,f2,…,fn>,其中fi表示第i个特征的值。目前一般可以有约10个特征,每一个特征都对于衡量句子重要度较有作用,其中几个典型特征如下:
特征f1:句子包含标题词串的数量;
特征f2:句子包含重要词串的数量;
特征f3:句子的长度;
特征f4:句子在网页中的位置(段首、段中、段尾等);
特征f5:句子是否包含总结性词汇(如:总之、综上上述等)。
其中在f2中,重要词串的识别方式可以采用TFIDF(term frequency–inversedocument frequency,词频逆文档频率)的相关方法实现,TFIDF是一种用于资讯检索与资讯探勘的加权技术。另需说明的是,以上方案中典型特征的举例是本发明实施例做出的几个优选典型特征的举例,基于人们对正文内容的规律性分析总结,是可以获知其他影响句子重要性的特征的,并且基于不同的文章类型(例如:时事新闻、财经新闻、文学作品、科技文献等)还可能采用不同典型特征;因此以上举例不应理解为对本发明实施例的唯一性限定。
3、确定特征权重。
对于正文中的每个一句子的特征向量<f1,f2,…,fn>,需要确定与之对应的特征权重向量<w1,w2,…,wn>,最终句子重要度由两者结合得到。对于上一步得到的每一个特征值fi,到底哪个特征最重要,哪个特征一般重要,传统的做法是利用人工经验来对每个特征定一个权重值,比如认为f1比f2重要,那么将w1定得高于w2。这种做法的缺点在于:人工经验有时候会与事实不符,这样导致最终确定的公式不是最优的;另外,权重向量<w1,w2,…,wn>中各值之间的相对关系到底差多少,人工的方式也相对主观一些。
本发明实施例利用类似于机器学习里“训练”的思路,即利用已知数据来确定特征权重。具体做法是:挑选N篇网页,每个网页人工标注最重要的句子是哪一个,这样得到训练数据集。然后找到一种特征权重组合<w1,w2,…,wn>,使得其在人工标注的数据集上的效果最优。最优的效果是指在训练集上最重要句子的平均排名最高。具体举例如下:对于一个特征权重组合<w1,w2,…,wn>,利用句子打分公式Score(s)=f1*w1+f2*w2+…+fn*wn,来得到N篇网页里每一个网页的句子重要度排序结果,然后分析人工标注的最重要句子的排名情况,最优效果是最重要句子的平均排名avgR=sum(Ri)/N最高,即max(avgR)对应的w是最好的w。这种方法不仅科学,而且利于后续的分析及优化。
以上算式中avg是SQL(Structured Query Language,结构化查询语言)数据库中求平均值函数,sum是求数组元素和的函数。
二、在线判定:
1、句子排序。具体的步骤:将正文的每个句子进行句子拆分、然后用打分公式进行评分确定重要程度,具体可以参阅离线训练中的方法。
2、摘要生成。
本步骤需要提取重要程度较高的句子作为摘要。本发明实施例还在简单提取重要程度较高的句子的基础上进行了几种优选的优化操作,具体如下:
A:多样性控制:即将比较相似的句子只保留一条;
B:代词替换,比如将“他”替换为文中的人物名字;
C:顺序控制,按句子在文章出现次数进行排列。
后续的优化操作还可以有其他,并不仅限于以上三种,以上三种优化的举例不应理解为对可选的优化方案的穷举。
以下是利用本发明实施例方案生成摘要的两个实例:
表1
表2
以上方案不需要维护词典,因此成本较低;不需要采用海量的词库进行匹配速度更快、不受词典是否收录词语全面的影响因此效果更好。该方案可以自动摘要生成,同时避免了词典建设和人工成本,能够达到一般网页的摘要提取需求,内部评测摘要提取准确率在90%以上。
本发明实施例还提供了一种摘要生成装置,如图3所示,包括:
句子提取单元301,用于获取正文内容并获取上述正文内容的句子;
计算单元302,用于对上述句子提取单元301提取的正文内容的各句子使用多元语言模型算法进行分词得到分词结果,确定上述分词结果的特征向量;上述特征向量包含典型特征,典型特征对应有特征权重;依据典型特征的特征权重计算正文内容的各句子的重要度;
摘要提取单元302,用于依据上述计算单元302计算得到的重要度由高往低从上述正文内容中提取句子作为摘要。
本发明实施例方案可以在服务器一侧执行也可以在移动终端一侧执行,对此本发明实施例不予限定。若在移动终端一侧执行,那么本步骤中获取正文内容可以是接收到来自网络侧的正文内容;如果在服务器一侧执行,那么本步骤则可以是批量的获取正文内容,然后依此对各正文内容采用本发明实施例方案进行摘要生成。在正文获取以后,获取句子的方式可以采用获取句号对正文进行分断的方式来确定,具体实现方式本发明实施例不予限定。
在本发明实施例中使用多元语言模型算法进行分词。N-GRAM(N-gram languagemodel,多元语言模型,其中N≥2)算法,N-GRAM是大词汇连续语音识别中的一种语言模型,对于中文而言也有称为:汉语语言模型(CLM,Chinese Language Model)。本方案摈弃了依赖于词典的分词的做法,采用N-GRAM算法来对句子进行拆分,这样不仅不依赖于分词和词典,而且能够最大程度地保留信息量,为句子的挑选提供更多可利用的特征。N-GRAM的做法是利用固定大小的滑动窗口对句子进行遍历,并将窗口内的词串予以提取。比如窗口大小为2时,“王力宏要结婚了”可提取为“王力/力宏/宏要/要结/结婚/婚了”共6个词串。词串的数量远远大于分词得到的词串数。其中虽然存在一些无意义的词串,但是由于最终提取的是句子,且无意义串对句子重要度计算没有影响,所以此做法很有意义。
本发明实施例,使用多元语言模型算法进行分词,使分词不再依赖于词典,而且能够最大程度地保留信息量;通过确定分词结果的特征向量,特征向量包含典型特征,典型特征对应有特征权重;再依据典型特征的特征权重计算正文内容的各句子的重要度;从而可以从正文内容中获取到重要度高的句子并作为摘要使用。以上方案不再依赖于词典也不必维护词典,可以准确并且高效的生成摘要。
可选地,在本发明实施例中特征向量以及特征向量内的典型特征均可以是预置的,更具体地:上述计算单元302,用于确定上述分词结果的特征向量所使用的上述典型特征的值包含:句子包含标题词串的数量、句子包含重要词串的数量、句子的长度、句子在正文中的位置以及句子是否包含总结性词汇中的至少一项。
在本发明实施例中,可以对分词得到的分词结果提取各种预先定义好的特征值(即典型特征),这样可将其格式化为一个特征向量<f1,f2,…,fn>,其中fi表示第i个特征的值。目前一般可以有约10个特征,每一个特征都对于衡量句子重要度较有作用,其中几个典型特征如下:
特征f1:句子包含标题词串的数量;
特征f2:句子包含重要词串的数量;
特征f3:句子的长度;
特征f4:句子在网页中的位置(段首、段中、段尾等);
特征f5:句子是否包含总结性词汇(如:总之、综上上述等)。
其中在f2中,重要词串的识别方式可以采用TFIDF(term frequency–inversedocument frequency,词频逆文档频率)的相关方法实现,TFIDF是一种用于资讯检索与资讯探勘的加权技术。另需说明的是,以上方案中典型特征的举例是本发明实施例做出的几个优选典型特征的举例,基于人们对正文内容的规律性分析总结,是可以获知其他影响句子重要性的特征的,并且基于不同的文章类型(例如:时事新闻、财经新闻、文学作品、科技文献等)还可能采用不同典型特征;因此以上举例不应理解为对本发明实施例的唯一性限定。
可选地,本发明实施例还提供了特征权重的获得方式,本实施例中特征权重的获得方式可以在摘要生成过程中进行对特征权重进行调整,也是可以在诸如测试过程或者预置过程中进行特征权重的生成,本实施例采用的是通过机器学习里的“训练”的方案来实现的,具体可以如下:如图4所示,上述句子提取单元301,还用于获取训练正文,上述训练正文包含已知重要度的句子;
上述计算单元302,还用于循环执行:对训练正文的句子使用多元语言模型算法进行分词得到分词结果,并确定分词结果的特征向量,然后使用典型特征的初始特征权重计算训练正文的句子的重要度;上述装置还包括:
权重调整单元401,用于调整初始特征权重,直到上述计算单元302计算得到的重要度与已知重要度的接近程度高于预定阈值时,停止循环执行过程,并将最后一次调整后的初始特征权重作为上述典型特征的特征权重。
在以上“训练”的方案中,“计算得到的重要度与已知重要度的接近程度高于预定阈值”的判定方式有很多种,训练正文的数量可以是N篇,N≥1,具体的判定方式可以参考前面方法实施例中的判定方式,在此不再赘述。
进一步地,对于相似度较高的句子而言,它们的重要度也会较为接近,但是由于相似度较高的句子通常会表达相近的语义,在摘要中使用多个相似的句子则会浪费摘要宝贵的可用字数,本发明实施例基于此提出了如下方案:如图5所示,上述装置还包括:
删除控制单元501,用于在上述摘要提取单元302依据计算得到的重要度由高往低从上述正文内容中提取句子之后,删除提取得到的句子,删除的句子满足如下条件:删除的句子与保留的句子的相似度高于预定门限,并且删除的句子的重要度低于保留的句子的重要度。
进一步地,本发明实施例中,提取的重要度高的句子是整个句子,由于这个句子是有可能存在代词的,特别是句首使用代词,如果将其直接显示在摘要中可能会导致语义的丢失,致使读者不清楚代词所代替的名词。本发明实施例基于此提出了如下解决方案:如图6所示,上述装置还包括:
替换控制单元601,用于在上述摘要提取单元302依据计算得到的重要度由高往低从上述正文内容中提取句子之后,将提取得到的句子中的代词替换为名词,上述名词为上述代词指代的名词。
在本发明实施例中,若发现了代词时,可以对这个代词前的名词进行检索,特别是人名的检索获得其所指代的名称。在本实施例中,优选使用较为保守的算法以增加替换的准确度。
进一步地,通常来说正文内容本身会具有其逻辑联系,提取的重要度高的句子也可以遵循这种逻辑联系来适应正文内容的逻辑,具体如下:如图7所示,上述装置还包括:
排序单元701,用于在上述摘要提取单元302依据计算得到的重要度由高往低从上述正文内容中提取句子之后,按照提取得到的句子在上述正文内容中的顺序进行排序。
在本发明实施例中,提取句子的具体方式可以如下:可以按照计算得到的重要度对各句子排序以后,提取重要度排在前列的设定数量的句子;也可以基于摘要字数的限制,从重要度最高的句子开始提取,直到提取到最多句子并且满足摘要的字数要求。本步骤之前由于已经获得了各句子的重要度,因此只要将相对来说更为重要的句子提取出来作为摘要就可以实现本发明实施例的技术目的,具体的提取规则本发明实施例可以不予唯一性限定。本发明实施例还提供了更为具体的提取句子的方案如下:如图8所示,上述装置还包括:条件获取单元801,用于获取约束条件;
上述摘要提取单元303,用于依据上述计算单元计算得到的重要度和上述条件获取单元获取到的约束条件从上述正文内容中提取句子作为摘要。
可选地,上述条件获取单元801,用于获取约束条件包括:摘要的字数上限值,或者,摘要的句子数量。
本发明实施例还提供了另一种摘要生成装置,如图9所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备,以终端为手机为例:
图9示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图9,手机包括:射频(Radio Frequency,RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity,WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解,图9中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图9对手机的各个构成部件进行具体的介绍:
RF电路910可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器980处理;另外,将设计上行的数据发送给基站。通常,RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元930可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元930可包括触控面板931以及其他输入设备932。触控面板931,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板931可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器980,并能接收处理器980发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931,输入单元930还可以包括其他输入设备932。具体地,其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板941。进一步的,触控面板931可覆盖显示面板941,当触控面板931检测到在其上或附近的触摸操作后,传送给处理器980以确定触摸事件的类型,随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中,触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器950,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板941的亮度,接近传感器可在手机移动到耳边时,关闭显示面板941和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路960、扬声器961,传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号,传输到扬声器961,由扬声器961转换为声音信号输出;另一方面,传声器962将收集的声音信号转换为电信号,由音频电路960接收后转换为音频数据,再将音频数据输出处理器980处理后,经RF电路910以发送给比如另一手机,或者将音频数据输出至存储器920以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器980是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器980可包括一个或多个处理单元;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
手机还包括给各个部件供电的电源990(比如电池),优选的,电源可以通过电源管理系统与处理器980逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该终端所包括的处理器980还具控制执行方法实施例中各步骤的功能。
图10是本发明实施例提供的服务器结构示意图,该服务器1000可配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。
服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058,和/或,一个或一个以上操作系统1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由摘要生成装置所执行的步骤可以基于该图10所示的服务器结构。
值得注意的是,上述装置实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (13)

1.一种摘要生成方法,其特征在于,包括:
获取正文内容并获取所述正文内容的句子;
利用固定大小的滑动窗口对句子进行遍历,并将窗口内的词串予以提取,得到所述句子的分词结果,确定所述分词结果的特征向量;所述特征向量包含典型特征,典型特征对应有特征权重;依据典型特征的特征权重计算正文内容的各句子的重要度;所述典型特征的值包含:句子包含标题词串的数量、句子包含重要词串的数量、句子的长度、句子在正文中的位置以及句子是否包含总结性词汇中的至少一项;
依据计算得到的重要度由高往低从所述正文内容中提取句子作为摘要;
其中,所述特征权重的获得方法包括:
获取训练正文,所述训练正文包含已知重要度的句子;
循环执行如下步骤:对训练正文的句子使用多元语言模型算法进行分词得到分词结果,并确定分词结果的特征向量,然后使用典型特征的初始特征权重计算训练正文的句子的重要度,并调整初始特征权重;
直到计算得到的重要度与已知重要度的接近程度高于预定阈值时,停止循环执行过程,并将最后一次调整后的初始特征权重作为所述典型特征的特征权重;
其中,计算得到的重要度与已知重要度的接近程度高于预定阈值,包括:
所述训练正文的数量为N篇,且N大于1;并且每篇训练正文中已知重要度的句子的数量为M2个,M2大于1;计算得到的各训练正文中重要度的排序在前的M2个句子,与各训练正文中已知重要度的M2个句子的重合度高于预定阈值;或者,计算得到的各训练正文中与上述已知重要度的M2个句子对应的句子的重要度的总和,与各训练正文中已知重要度的句子的重要度的总和的接近程度高于预定阈值。
2.根据权利要求1所述方法,其特征在于,在所述依据计算得到的重要度由高往低从所述正文内容中提取句子之后,所述方法还包括:
删除提取得到的句子,删除的句子满足如下条件:删除的句子与保留的句子的相似度高于预定门限,并且删除的句子的重要度低于保留的句子的重要度。
3.根据权利要求1所述方法,其特征在于,在所述依据计算得到的重要度由高往低从所述正文内容中提取句子之后,所述方法还包括:
将提取得到的句子中的代词替换为名词,所述名词为所述代词指代的名词。
4.根据权利要求1所述方法,其特征在于,在所述依据计算得到的重要度由高往低从所述正文内容中提取句子之后,所述方法还包括:
按照提取得到的句子在所述正文内容中的顺序进行排序。
5.根据权利要求1所述方法,其特征在于,所述方法还包括:
获取约束条件;
所述依据计算得到的重要度从所述正文内容中提取句子作为摘要包括:依据计算得到的重要度和所述约束条件从所述正文内容中提取句子作为摘要。
6.根据权利要求5所述方法,其特征在于,所述约束条件包括:摘要的字数上限值,或者,摘要的句子数量。
7.一种摘要生成装置,其特征在于,包括:
句子提取单元,用于获取正文内容并获取所述正文内容的句子;
计算单元,用于利用固定大小的滑动窗口对句子进行遍历,并将窗口内的词串予以提取,得到所述句子的分词结果,确定所述分词结果的特征向量;所述特征向量包含典型特征,典型特征对应有特征权重;依据典型特征的特征权重计算正文内容的各句子的重要度;
摘要提取单元,用于依据所述计算单元计算得到的重要度由高往低从所述正文内容中提取句子作为摘要;
其中,所述计算单元,用于确定所述分词结果的特征向量所使用的所述典型特征的值包含:句子包含标题词串的数量、句子包含重要词串的数量、句子的长度、句子在正文中的位置以及句子是否包含总结性词汇中的至少一项;
其中,所述句子提取单元,还用于获取训练正文,所述训练正文包含已知重要度的句子;
所述计算单元,还用于循环执行:对训练正文的句子使用多元语言模型算法进行分词得到分词结果,并确定分词结果的特征向量,然后使用典型特征的初始特征权重计算训练正文的句子的重要度;所述装置还包括:
权重调整单元,用于调整初始特征权重,直到所述计算单元计算得到的重要度与已知重要度的接近程度高于预定阈值时,停止循环执行过程,并将最后一次调整后的初始特征权重作为所述典型特征的特征权重;
其中,计算得到的重要度与已知重要度的接近程度高于预定阈值,包括:
所述训练正文的数量为N篇,且N大于1;并且每篇训练正文中已知重要度的句子的数量为M2个,M2大于1;计算得到的各训练正文中重要度的排序在前的M2个句子,与各训练正文中已知重要度的M2个句子的重合度高于预定阈值;或者,计算得到的各训练正文中与上述已知重要度的M2个句子对应的句子的重要度的总和,与各训练正文中已知重要度的句子的重要度的总和的接近程度高于预定阈值。
8.根据权利要求7所述装置,其特征在于,所述装置还包括:
删除控制单元,用于在所述摘要提取单元依据计算得到的重要度由高往低从所述正文内容中提取句子之后,删除提取得到的句子,删除的句子满足如下条件:删除的句子与保留的句子的相似度高于预定门限,并且删除的句子的重要度低于保留的句子的重要度。
9.根据权利要求7所述装置,其特征在于,所述装置还包括:
替换控制单元,用于在所述摘要提取单元依据计算得到的重要度由高往低从所述正文内容中提取句子之后,将提取得到的句子中的代词替换为名词,所述名词为所述代词指代的名词。
10.根据权利要求7所述装置,其特征在于,所述装置还包括:
排序单元,用于在所述摘要提取单元依据计算得到的重要度由高往低从所述正文内容中提取句子之后,按照提取得到的句子在所述正文内容中的顺序进行排序。
11.根据权利要求7所述装置,其特征在于,所述装置还包括:
条件获取单元,用于获取约束条件;
所述摘要提取单元,用于依据所述计算单元计算得到的重要度和所述条件获取单元获取到的约束条件从所述正文内容中提取句子作为摘要。
12.根据权利要求11所述装置,其特征在于,
所述条件获取单元,用于获取约束条件包括:摘要的字数上限值,或者,摘要的句子数量。
13.一种存储介质,其特征在于,包括若干指令用以执行如权利要求1-6任一项所述的方法。
CN201410151888.9A 2014-04-15 2014-04-15 一种摘要生成方法及装置 Active CN105005563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410151888.9A CN105005563B (zh) 2014-04-15 2014-04-15 一种摘要生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410151888.9A CN105005563B (zh) 2014-04-15 2014-04-15 一种摘要生成方法及装置

Publications (2)

Publication Number Publication Date
CN105005563A CN105005563A (zh) 2015-10-28
CN105005563B true CN105005563B (zh) 2019-11-19

Family

ID=54378239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410151888.9A Active CN105005563B (zh) 2014-04-15 2014-04-15 一种摘要生成方法及装置

Country Status (1)

Country Link
CN (1) CN105005563B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760546B (zh) * 2016-03-16 2019-07-30 广州索答信息科技有限公司 互联网新闻摘要的自动生成方法和装置
CN105912526A (zh) * 2016-04-15 2016-08-31 北京大学 一种面向体育比赛直播文字的体育新闻自动构建方法及装置
CN108959312B (zh) 2017-05-23 2021-01-29 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN108052686B (zh) * 2018-01-26 2022-02-11 腾讯科技(深圳)有限公司 一种摘要提取方法及相关设备
CN110609997B (zh) * 2018-06-15 2023-05-23 北京百度网讯科技有限公司 生成文本的摘要的方法和装置
CN109190109B (zh) * 2018-07-26 2020-09-29 中国科学院自动化研究所 融合用户信息生成评论摘要的方法及装置
CN109325110B (zh) * 2018-08-24 2021-06-25 广东外语外贸大学 印尼语文档摘要生成方法、装置、存储介质及终端设备
CN111538768A (zh) * 2020-06-23 2020-08-14 平安国际智慧城市科技股份有限公司 基于n元模型的数据查询方法、装置、电子设备及介质
CN112328783A (zh) * 2020-11-24 2021-02-05 腾讯科技(深圳)有限公司 一种摘要确定方法和相关装置
CN112765979B (zh) * 2021-01-15 2023-05-09 西华大学 论文关键词提取系统及其方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766287B1 (en) * 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
CN102411621B (zh) * 2011-11-22 2014-01-08 华中师范大学 一种基于云模型的中文面向查询的多文档自动文摘方法
CN103699525B (zh) * 2014-01-03 2016-08-31 江苏金智教育信息股份有限公司 一种基于文本多维度特征自动生成摘要的方法和装置

Also Published As

Publication number Publication date
CN105005563A (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
CN105005563B (zh) 一种摘要生成方法及装置
CN108875781B (zh) 一种标签分类方法、装置、电子设备及存储介质
CN104239535B (zh) 一种为文字配图的方法、服务器、终端及系统
JP6594534B2 (ja) テキスト情報処理方法およびデバイス
CN107943860A (zh) 模型的训练方法、文本意图的识别方法及装置
CN110162770A (zh) 一种词扩展方法、装置、设备及介质
US20200175397A1 (en) Method and device for training a topic classifier, and computer-readable storage medium
US20210034819A1 (en) Method and device for identifying a user interest, and computer-readable storage medium
CN109145303A (zh) 命名实体识别方法、装置、介质以及设备
CN110704661B (zh) 一种图像分类方法和装置
CN111931501B (zh) 一种基于人工智能的文本挖掘方法、相关装置及设备
CN110166828A (zh) 一种视频处理方法和装置
CN104217717A (zh) 构建语言模型的方法及装置
CN110019840B (zh) 一种知识图谱中实体更新的方法、装置和服务器
CN108228720B (zh) 识别目标文字内容和原图相关性的方法、系统、装置、终端、及存储介质
CN108776693B (zh) 一种基于定制语料库的语音搜题方法及家教设备
CN110276010B (zh) 一种权重模型训练方法和相关装置
CN109543014B (zh) 人机对话方法、装置、终端及服务器
CN109784165A (zh) 诗词内容的生成方法、装置、终端及存储介质
CN112749252A (zh) 一种基于人工智能的文本匹配方法和相关装置
CN111368171A (zh) 一种关键词推荐的方法、相关装置以及存储介质
CN114117056B (zh) 一种训练数据的处理方法、装置以及存储介质
CN110597957B (zh) 一种文本信息检索的方法及相关装置
CN116975295B (zh) 一种文本分类方法、装置及相关产品
CN109389977A (zh) 一种语音交互方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant