CN101404036B

CN101404036B - PowerPoint电子演示文稿的关键词抽取方法

Info

Publication number: CN101404036B
Application number: CN200810232193A
Authority: CN
Inventors: 郑庆华; 刘均; 林鹏; 常晓; 吴朝晖; 蒋路
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2008-11-07
Filing date: 2008-11-07
Publication date: 2012-09-05
Anticipated expiration: 2028-11-07
Also published as: CN101404036A

Abstract

本发明公开了一种PowerPoint电子演示文稿的关键词抽取方法，利用PowerPoint文件独特的格式特点，加以传统的统计学特性作为特征，采用非平衡数据的排序学习的方法，将候选关键词按照其关键性进行排序，实现PowerPoint电子演示中关键词的计算机自动抽取。本发明能够快速、有效的从PowerPoint电子演示文稿中自动抽取关键词，从而方便教育资源元数据的获取与建立，提高数字教育服务效率和质量。

Description

PowerPoint电子演示文稿的关键词抽取方法

技术领域

本发明涉及一种利用计算机自动抽取关键词的方法。特别涉及一种针对PowerPoint电子演示文稿的关键词抽取方法。

背景技术

关键词是各种文本资源的元数据之一。他在文本自动分类、聚类、文本资源管理、图书管理、文本资源检索等各个方面都有广泛的应用。关键词的自动抽取效率和精度直接影响到以元数据组织资源的服务系统的效率与质量。

PowerPoint电子演示文稿是一种在教育教学活动中被广泛使用的电子演示文稿格式。它也是网络教育中最常见的格式之一，也常见于授课和讲座过程中，在教育教学活动中有着不可替代的重要性。对PowerPoint电子演示文稿提取关键词有利于对教育教学资源进行分类组织，也有利于学习者快速掌握教学要点，加快学习速度，增强学习的效果。

然而，目前尚未见针对PowerPoint电子演示文稿的关键词抽取研究。通常常见的关键词自动抽取方法主要面向文本文档，采用的方法有词频统计法、互信息法、最大熵模型法等等。这些方法没有专门针对PowerPoint这个广泛使用而又有特色的格式抽取关键词，没有利用PowerPoint电子演示文稿独有的格式特征，并且忽略了关键词抽取任务数据的非平衡性特性，其效果也并不尽如人意。

目前常见的关键词自动抽取方法，主要面向文本文档。对于PowerPoint电子演示文稿这个在教育活动中被广泛应用的文档格式却没有相应的研究。若简单的将文本文档的关键词抽取方法在PowerPoint电子样式文稿中进行应用，则必然导致很多重要的有益信息的丢失，影响关键词抽取的准确度。

发明内容

本发明的目的在于提供一种PowerPoint电子演示文稿的关键词抽取方法，提高关键词抽取准确度。

本发明的技术方案是这样实现的：PowerPoint电子演示文稿的关键词抽取方法步骤如下：

1)PowerPoint电子演示文稿特征表示：将PowerPoint电子演示文稿中的候选关键词提取出来，并按照所选特征将候选关键词表示为向量形式，具体步骤如下：

步骤1.1，预处理：利用PowerPoint文档对象模型将PowerPoint电子演示文稿中文本形式的内容进行提取；

步骤1.2，分词及词性标注：利用ICTCLAS分词工具，对步骤1.1中提取出的文本内容进行分词和词性标注；

步骤1.3，候选特征词选择：采用了基于词性的独立词与非独立词结合的候选关键词选择方法，选取可能的词和词组作为候选关键词；

步骤1.4，特征统计：对预先选择好的特征进行统计，将候选关键词表示成向量形式；

步骤1.5，候选关键词过滤：按照过滤规则，过滤不合理的候选关键词；

2)训练与预测：以训练集中的候选关键词为输入，应用排序学习的方法训练出排序模型，并依据此模型对待预测文档中的候选关键词进行预测排序，最终选出待预测文档的关键词，具体步骤如下：

步骤2.1，候选关键词等级标注：对训练集中的候选关键词进行人工的等级标注，将候选关键词依照标注规范标注为“推荐”、“可接受”、“不可接受”三个等级；

步骤2.2，排序模型训练：以等级标注结果为依据，采用非平衡数据的RankingSVM排序学习方法，训练出排序模型；

步骤2.3，候选关键词排序：利用训练出的排序模型，对待预测文档的候选关键词进行排序；

步骤2.4，候选关键词选取：根据候选关键词排序结果，选取排序靠前的候选关键词作为待预测文档的关键词。

所述的候选特征词选择中，采用了基于词性的独立词与非独立词结合的候选关键词选择办法，具体步骤如下：

Step1：词语按照词性进行分类；

Step2：删除分隔词，并利用分隔词将文档分隔为词串；

Step3：候选特征词选择模块读入下一词串，若到达文档末尾则退出此过程；

Step4：候选特征词选择模块读入下一词语，若当前词是独立词，则将当前词与选词窗口中的词进行组合，将组合后的词组加入候选关键词集；若当前词是非独立词，进入step5；

Step5：将当前词推入窗口，最早进入窗口的词推出窗口；

Step6：检查是否到达当前词串末尾；若是，清空窗口转Step3；若否，

转Step4。

特征统计步骤，采用了三种PowerPoint特有的格式特点作为关键词抽取特征，具体包括候选关键词是否出现在首页中、是否出现在页面的顶部文本框中和候选关键词字号，特征向量格式为<FirstSilde，OnTop，FontSize，TFIDF，FirstOccurrence，Length>，

上述三种特征的获取步骤如下：

Step1：读取所要处理的文档

Step2：利用PowerPoint文档对象模型中slides集合，获取PowerPoint中的所有页面；

Step3：判断候选关键词是否在第一个页面中出现，结果作为是否出现在首页中这个特征，写入特征向量的FirstSlide字段；

Step4：利用PowerPoint文档对象模型中textframe对象获取页面中所有文本框；

Step5：比较所有文本框的top属性，选择整个PowerPoint文档中top属性最小的那些文本框作为顶部文本框；

Step6：判断候选关键词是否在这些文本框中出现，结果作为是否出现在顶部文本框这个特征，写入特征向量的OnTop字段；

Step7：利用PowerPoint文档对象模型中runs函数获取font属性一致的Textrange，从Textrange中获取候选关键词的font属性；

Step8：根据font属性获取候选关键词的字号，将获取来的原始字号利用公式

FontSize = \frac{FSize - FSi {ze}_{\min}}{{FSize}_{\max} - F {Size}_{\min}}

进行归一化，结果填入特征向量FontSize字段中。

根据候选关键词数据非平衡性和存在重要性偏序关系这个特点，采用了非平衡数据的RankingSVM排序学习算法，对候选关键词进行排序；

具体实现步骤如下：

Step1：将候选关键词等级标注信息进行数学表示，“推荐”表示为2，“可接受”表示为1，“不可接受”表示为0；

Step2：将经过上步处理的标注信息和训练数据集的候选关键词向量一起作为训练数据，交给非平衡RankingSVM排序算法进行模型训练，得到排序模型；非平衡RankingSVM排序算法优化方程为：

\min imize : V (\overset{&RightArrow;}{ω}, \overset{&RightArrow;}{ξ}) = \frac{1}{2} \overset{&RightArrow;}{ω} \cdot \overset{&RightArrow;}{ω} + \underset{r}{Σ} C_{r} Σ ξ_{i, j}

subject to：

&ForAll; q, i, j : \overset{&RightArrow;}{ω} \cdot Φ (d_{i}, q) >_{r} \overset{&RightArrow;}{ω} \cdot Φ (d_{i}, q) + 1 - ξ_{i, j}

&ForAll; i, j : ξ_{i, j} &GreaterEqual; 0

其中，r表示偏序关系，ξ_i，j表示松弛变量，C_r为代价参数；

Step3：将待抽取文档的候选关键词向量作为预测数据，同上步训练产生的排序模型一起，交给RankingSVM排序算法进行排序，得到候选关键词的排序结果。

本发明优于以往关键词抽取方法的地方在于：1.它是一个专门针对PowerPoint电子演示文稿的关键词抽取方法，填补了目前没有专门的PowerPoint电子演示文稿关键词抽取方法的空白；、2.它采用了针对非平衡数据的排序学习的方法对候选关键词进行排序，一定程度上克服了关键词抽取任务中的数据非平衡问题，更加符合关键词抽取任务的特点，能有效提高关键词抽取准确度。

附图说明

图1是特征表示部分的流程图。

图2是候选特征词选择流程图。

图3是训练与预测部分的流程图。

下面结合附图对本发明的内容作进一步详细说明。

具体实施方式

PowerPoint电子演示文稿的关键词抽取方法共由两个部分组成，分别是特征表示部分、训练与预测部分。

一、特征表示部分(参照图1所示)

特征表示部分就是对PowerPoint电子演示文稿中的候选关键词进行选取，并按照选取的特征进行特征表示，将其特征向量化的过程。

对待处理的PowerPoint电子演示文稿首先进行必要的预处理。这里预处理包括利用PowerPoint文档对象模型对PowerPoint电子演示文稿进行解析，从文件中提取slides，从slide中提取shapes。接着对每个shape判断其是否包含文本框textframe，每一个textframe中是否包含文本。最后利用runs函数从textframe中获得字体字号信息一致的Textrange，并从所有Textrange中获得PowerPoint电子演示文稿中的全部文字信息。

接着对上一步获得的文本进行分词和词性标注，将连续的文本转化为按词分隔，并标注词性的结果。这里分词和词性标注采用了《现代汉语语料库加工规范——词语切分与词性标注》所定义标准，也就是通常所说的北大标准。

在候选特征词选取步骤中(参照图2所示)，本方法采用了基于词性的独立词与非独立词结合的候选特征词选取办法。这个方法分词结果按照上一步所标注的词性，划分成三类，别称为独立词，非独立词，分隔词。其中独立词包括各种名词词性，动词词性的词，其特点在于单个词语可能独立的成为PowerPoint电子演示文稿的关键词；非独立词包括形容词，副词，及各种前接、后接成分，这类词的特点在于其不能独立的成为PowerPoint电子演示文稿的关键词，但是可以与独立词一起组成词组，成为PowerPoint电子演示文稿的关键词；分隔词包括助词，连词，叹词，拟声词，标点符号等词性的词，这类词的特征在于其不可能成为PowerPoint电子演示文稿的关键词或者关键词的一部分，并且在句子中能起到对关键词的分割作用，即关键词只可能出现在这类词的左侧或者右侧，不可能有跨越这类词组成的词组作为关键词。

具体的三类词的分类标准见下表：

表1 三类词的分类标准

本发明在特征词选择过程中，首先根据上述分类，排除分隔词，并利用分割词的性质，利用其作为分隔标记，将整段的文本划分为短小的子串。接着对每一个划分过的子串，按照给定一个窗口大小，逐个检索符合窗口大小的词和词组作为候选关键词。当读入的一个词为独立词时，将该词和它与窗口中所有词的搭配作为候选关键词；当读入的词为非独立词时，只将它与窗口中的词组成的搭配作为候选关键词。最后将新读入的词放入窗口，代替最早放入窗口中的旧词。例如窗口大小为4，即最多可选出4个词组成词组作为关键词，窗口中已有的词语为“国际”、“市场”、“营销”“、调研”，从子串中新读入的词为“策略”则此时选中的候选关键词包括“策略”、“调研策略”、“营销调研策略”、“市场营销调研策略”，更新后窗口中的词为“市场”、“营销”“、调研”、“策略”。

在候选关键词选择步骤过后，我们选择出了很多个候选关键词。接下来，对候选关键词进行特征的统计。本发明选取的候选关键词特征可分为两类：1.PowerPoint电子演示文稿特有特征；2.传统统计特征。下面就特征选择做出详细说明。

PowerPoint电子演示文稿特有特征包括：是否在首页中出现，是否在顶部文本框出现，字号。

PowerPoint电子演示文稿是由许多个页面组成的，在PowerPoint文档对象模型中被成为slide。通常来说，文档标题、总体介绍、内容综述等总结性内容多出现在PowerPoint的第一个页面中，而这些总结性内容是最容易包含文档关键词的地方。因此，本发明将候选关键词是否在PowerPoint电子演示文稿首页中出现过这一信息进行记录，作为候选关键词特征向量的一维特征，用于训练和预测。具体的特征获取方式为：首先，利用PowerPoint文档对象模型中的slides对象获得一个PowerPoint文档的所有页面，接着从该集合对象中获得位于第一个位置的slide对象，即首页，然后判断每个候选关键词是否出现在首页中，若出现记为1，未出现记为0。例如一篇关于市场营销的PowerPoint电子演示文稿，其首页内容为“市场营销调研策划”，此时就将候选关键词“市场营销”、“调研”、“策划”三个候选关键词的某一特征位标识为1，而其他没有在首页出现的候选特征词的对应位标识为0。

PowerPoint电子演示文稿的每一个页面(slide)都包含有若干个可让制作者输入文字内容的区域，称之为文本框。而对于整个页面进行总结、总述的内容通常位于页面顶部的文本框中。因此关键词出现在顶部文本框中的概率要大于一般文本框。鉴于此，本发明将候选关键词是否在页面顶部文本框中出现这一信息进行记录，作为候选关键词特征向量的一位特征，用于训练和预测。具体的特征获取方式为：首先，利用PowerPoint文档对象模型中的slides对象获得一个PowerPoint文档的所有页面，接着对所有页面利用shapes集合对象获得页面中的所有形状，然后判断每一个shape是否包含textframe，每个textframe中是否含有文字。对符合判断条件的shape利用其top属性获得顶部位置，将所有顶部位置进行比较，选出位置最高的那些。最后将包含在这样的shape中的候选关键词标记为1，其他标记为0。例如，上面说到的关于市场营销的PowerPoint电子演示文稿的顶部文本框中的内容为“市场营销信息系统”，此时就将候选关键词“市场营销”、“信息系统”这两个候选关键词的某一特征位标识为1，其他没有在顶部文本框中出现的候选关键词标识为0。

通常来说，PowerPoint电子演示文稿制作者为了醒目标识重要性高的内容，通常对其采用相对较大的字号表示。因此本发明将PowerPoint电子演示文稿中候选关键词的字号作为一个特征，用于训练和预测。具体的特征获取步骤为：首先，与上两步一样，从文档中获取slides，从slide中获取shapes，从shapes中获取textframe；接着利用textframe对象的runs函数，可获得字体字号信息一致的文本区域(Textrange)；然后，利用Font属性就可以获得出现在不同Textrange中的候选关键词的字号了。由于不同的PowerPoint电子演示文稿采用的字号整体大小可能不同，这里在获得了候选关键词的绝对字号后，为获得在单篇文档中相对大小，对绝对字号进行了归一化处理。归一化公式为：

FontSize = \frac{FSize - FSi {ze}_{\min}}{{FSize}_{\max} - F {Size}_{\min}} .

其中，FontSize为相对字号，FSize为绝对字号，FSize_min为整个文档中最小的绝对字号，FSize_max为整个文档中最大的绝对字号。例如，上面说到的关于市场营销的PowerPoint电子演示文稿的某一页中的内容为“市场营销信息系统”，其中“市场营销”采用宋体五号，“信息”采用宋体一号，“系统”采用宋体五号，则从中选出来的候选关键词为“市场营销”、“信息”、“系统”，并且会记录他们的字号，归一化后作为一维特征。

传统统计特征包括：TFIDF，首次出现位置，词长。

TFIDF包括候选特征词的词频信息，文档倒频信息，其计算公式为：TFIDF＝TF*IDF。其中TF为候选特征词词频，IDF为候选特征词在文档集中的倒排频率。首次出现位置是指候选特征词在单篇文档中第一次出现的位置信息。词长指的是候选特征词长度。这些特征通常在文本文档的关键词抽取中使用，PowerPoint作为具有特殊格式的文本文档，这特征对其同样适用。

经过候选关键词选择和特征表示，一篇PowerPoint电子演示文稿被处理为候选关键词向量的集合。然而，在这个集合中还存在着很多不合理的候选关键词。因此，需要利用统计特征初步过滤候选关键词，减少候选关键词数量，为以后的训练和预测减轻负担。本方法在候选关键词过滤步骤中采用了简单的基于词频的方法，过滤掉词频为1，且没有在PowerPoint电子演示文稿的首页或顶部文本框中出现过的候选关键词。某个候选关键词词频为1，很可能是由于该候选关键词是一个不合理的搭配造成的，因此可以将其过滤掉。这样在保证选取到真正关键词的基础上，减少了候选关键词数量，为训练和预测减轻了负担。

二、训练与预测部分(参照图3所示)

经过上面候选关键词选择和特征表示部分，PowerPoint电子演示文稿被处理成了候选关键词向量的集合。接下来将要对其进行训练和预测，对候选关键词的重要性进行排序，以便根据需要按照其重要性顺序抽取关键词。

训练和预测部分的整体框图如图2。总体上分为训练和预测两个部分。

训练部分首先将作为训练数据的PowerPoint电子演示文稿集合按照上一部分所述的方法，处理成候选关键词向量的集合。接着将选好的候选关键词进行人工等级标注。在标注部分，训练数据集中的每篇PowerPoint电子演示文稿的候选关键词被提供给标注工作人员。标注工作人员按照一定的标注规范，将候选关键词分别标记为“推荐”、“可接受”、“不可接受”三个等级。其中，“推荐”等级表示该候选关键词应该被推荐成为文档关键词；“可接受”等级表示该候选关键词虽不是最合适的文档关键词，但它作为文档关键词也是可接受的；“不可接受”等级表示该候选关键词不适合作为文档关键词。经过这样的标注之后，训练数据集中的候选关键词就都有了属于自己的等级，可以用其进行排序模型的训练了。

排序问题是指学习如何给一组对象按照一定标准设定它们之间的相对顺序，它是在近年来的机器学习研究中一个很受关注的问题。不同于传统的机器学习任务——分类和回归，排序问题被定义为将不同对象映射到某种序关系上。在人们的偏好关系起重要作用的一些领域，排序问题十分普遍。关键词抽取就是要将人们认为重要性最高的，最能反映文档中心的词语或词组抽取出来作为文档关键词，它的实质就是按照重要性对候选关键词进行排序。因此，排序学习方法比分类的方法更符合问题本身的特点，易于取得良好的效果。对于经过等级标注的训练数据，本方法采用rankingSVM排序算法对其进行训练。rankingSVM是由Cormell University的Thorsten Joachim于2002年提出的一种以支持向量机为基础的排序学习算法，该方法比较成熟，执行效率相对较高，因此本方法选取它作为排序学习方法。

训练数据集经过rankingSVM排序算法的训练，将会生成一个排序模型，该模型将用于对未知文档的预测。当有关键词未知的PowerPoint电子演示文稿输入时，本方法首先对新的文档进行候选关键词选择和特征表示，之后根据上面训练所得到的排序模型，即可将候选关键词向量按照其重要性偏序关系进行排序，达到排序目的。

关键词抽取任务跟普通机器学习任务不同的是，关键词抽取任务中存在着数据不平衡的问题。数据不平衡指一类数据的数量明显多于另一类数据的数量，普通的机器学习算法可能做出对多的那一类数据有利的判断，尽管实际任务中我们往往关心的是数量较少的那一类数据。这种数据不平衡问题在很大程度上会影响到排序的效果，进而影响到关键词抽取的准确度。为解决这一问题，本抽取方法采用了针对非平衡数据的改进排序方法，将不同的重要性等级间赋予不同的代价参数，使排序算法在学习的过程中给予真正的关键词更多的重视，从而提高排序的准确度，提高关键词抽取效果。改进将原有的rankingSVM优化方程变化为：

\min imize : V (\overset{&RightArrow;}{ω}, \overset{&RightArrow;}{ξ}) = \frac{1}{2} \overset{&RightArrow;}{ω} \cdot \overset{&RightArrow;}{ω} + \underset{r}{Σ} C_{r} Σ ξ_{i, j}

subject to：

&ForAll; q, i, j : \overset{&RightArrow;}{ω} \cdot Φ (d_{i}, q) >_{r} \overset{&RightArrow;}{ω} \cdot Φ (d_{i}, q) + 1 - ξ_{i, j}

&ForAll; i, j : ξ_{i, j} &GreaterEqual; 0

其中，r表示偏序关系。从优化方程上看，优化方程为不同的重要性等级定义了不同的代价参数C_r，而不是像原rankingSVM算法用了统一的C。由于不同代价参数的存在，排序算法将给予更重要性等级高的数据错排的情况给予更大的惩罚，由此给予高重要性等级的候选关键词更多重视，改善排序算法在非平衡数据上的效果。

排序后的候选关键词接着进行关键词的选取。关键词的选取可以根据用户的需要从重要性最高的候选关键词中选择若干个，作为整个PowerPoint电子演示文稿的关键词，返回给用户完成整个关键词抽取过程。

Claims

1.PowerPoint电子演示文稿的关键词抽取方法，其特征在于，该方法步骤如下：

1)PowerPoint电子演示文稿特征表示：将PowerPoint电子演示文稿中的候选关键词提取出来，并按照所选特征将候选关键词表示为向量形式，为2)训练与预测步骤提供向量形式的候选关键词数据，具体步骤如下：

步骤1.3，候选特征词选择：采用了基于词性的独立词与非独立词结合的候选关键词选择方法，选取可能的词和词组作为候选关键词；独立词包括各种名词词性，动词词性的词，非独立词包括形容词，副词；

步骤1.5，候选关键词过滤：按照过滤规则，过滤不合理的候选关键词，形成最终的候选关键词向量集合，作为2)训练与预测步骤的输入数据；

2)训练与预测：经过步骤1)PowerPoint电子演示文稿特征表示处理过的向量形式的候选关键词为输入，应用排序学习的方法训练出排序模型，并依据此模型对待预测文档中的候选关键词进行预测排序，最终选出待预测文档的关键词，具体步骤如下：

2.根据权利要求1所述的PowerPoint电子演示文稿的关键词抽取方法，其特征在于，所述的候选特征词选择中，采用了基于词性的独立词与非独立词结合的候选关键词选择办法，具体步骤如下：

Step1：词语按照词性进行分类；

Step2：删除分隔词，并利用分隔词将文档分隔为词串；

Step5：将当前词推入窗口，最早进入窗口的词推出窗口；

Step6：检查是否到达当前词串末尾；若是，清空窗口转Step3；

若否，转Step4。

3.根据权利要求1所述的PowerPoint电子演示文稿的关键词抽取方法，其特征在于，特征统计步骤，采用了PowerPoint特有的格式特点作为关键词抽取特征，特征向量格式为<

FirstSlide，OnTop，FontSize，TFIDF，FirstOccurrence，Length>，其中，FirstSlide表示候选关键词是否出现在首页中，OnTop表示候选关键词是否出现在页面的顶部文本框中，FontSize表示候选关键词字号，TFIDF为候选关键词的词频反文档频数值，FirstOccurrence表示候选关键词在文档中首次出现的页面的序号，Length为候选关键词长度；

FirstSlide，OnTop，FontSize三种特征的获取步骤如下：

Step1：读取所要处理的文档；

Step2：利用PowerPoint文档对象模型中slides集合，获取

PowerPoint中的所有页面；

进行归一化，结果填入特征向量FontSize字段中，其中FSize为绝对字号，FSize_min为整个文档中最小的绝对字号，FSize_max为整个文档中最大的绝对字号。