CN110222317B

CN110222317B - 一种PowerPoint演示文稿向Word文档转换的方法及系统

Info

Publication number: CN110222317B
Application number: CN201910246944.XA
Authority: CN
Inventors: 宋军; 徐衡; 张坤; 朱超群; 彭艳; 曹威; 吴雅笛
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2023-05-26
Anticipated expiration: 2039-03-29
Also published as: CN110222317A

Abstract

本发明提供了一种PowerPoint演示文稿向Word文档转换的方法及系统，包括以下三个步骤：原始演示文稿内容提取。根据用户提供的原始演示文稿，获取所有的幻灯片，再得到每个幻灯片上的文本段落的数据信息；演示文稿内容分析。根据变量中所记录的信息，以及数据存储的方式，使用最新颖的迁移学习技术对文本数据和属性进行分析，将不同的属性内容加以区分；并对复杂格式的数据进行转换处理；目标演示文稿生成。定义一个待转换格式的空白Word文档，根据区分的位置信息，将分析并转换完成的原始演示文稿信息依次写入Microsoft Office Word目标文档中。

Description

一种PowerPoint演示文稿向Word文档转换的方法及系统

技术领域

本发明涉及文档转换与提取技术，尤其涉及一种PowerPoint演示文稿向Word文档转换的方法及系统。

背景技术

文档和演示文稿作为办公软件的组件，在商业、教育、政府机构等领域的应用非常广泛。MicrosoftOffice PowerPoint，简称PowerPoint，是一个由Microsoft公司开发的演示文稿程序，是Microsoft Office系统中的其中一个组件。它被商业人员、教师、学生和培训人员广泛使用。Microsoft Office Word是微软公司的一个文字处理器应用程序，提供了许多易于使用的文档创建工具和丰富的功能集，也是目前市场最流行、最常见的文字处理器。

迁移学习，是人工智能和机器学习的学科中新潮的研究方向，也是一种新的学习思想和模式。机器学习是人工智能的一类重要方法，也是目前发展最迅速、效果最显著的方法。机器学习解决的是让机器自主地从数据中获取知识，应用于新的问题中。迁移学习作为机器学习的一个重要分支，侧重于将已经学习过的知识迁移应用于新的问题，重点在解决当原始数据不足时，将其他领域的数据迁移、扩充原始数据，以提高算法精度。

聚类算法是有名的非监督学习算法，对于聚类来说，给定一个数据集，将该数据集依照某个“指标”，把相似指标的数据归纳在一起，形成不同的类。K-means聚类是应用最广泛的聚类算法。和大部分传统机器学习算法一样，算法效果受原始数据限制，当原始数据不足时，算法精确度有限。

PPT和Word是Office文档中最常用的两个文案策划格式，随着办公自动化的普及，PowerPoint和Word的应用越来越广，实现它们之间的转换可以加快工作的进度，提高工作的效率，但发现Office文档之间的转换也是一个大问题。

在实现本发明过程中，发明人发现现有技术中至少存在如下两类问题：一是使用Office自带的“大纲”视图、“发送”功能转换，但效果很差，无法准确的将不同的文档的内容区分，如标题、正文、图题、表题、表格、图片、公式等。再者使用第三方软件，转换后的文档依然无法准确的分类文档的内容，大都需要对转换后内容进行人工二次排版，转换效果有限，实际使用价值不高。第三，无监督学习聚类算法只能将单个文件中不同的内容进行区分，效果有限。

为降低多文档呈现的难度，提高文档使用的高效性，一种适用于由MicrosoftOffice PowerPoint演示文稿向MicrosoftOffice Word文档类型的转化方案需要迫切提出。

发明内容

本发明要解决的技术问题在于，针对上述PowerPoint演示文稿与Word文档无法灵活转换的问题，尤其是使用传统机器学习算法针对单一文件分类细粒度不足的问题，提供一种PowerPoint演示文稿向Word文档转换的方法及系统。

一种PowerPoint演示文稿向Word文档转换的方法，包括以下步骤

S1、引入Apache POI实现Microsoft Office PowerPoint源文件的数据提取：对源文件进行预处理，获取源文件段落信息，接着进行包含文本、图片、表格、公式的数据提取并保存；

S2、进行源文件数据分析：根据对Microsoft Office PowerPoint源文件提取的内容，将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集T_a，预设的Microsoft Office PowerPoint转换Microsoft Office Word文档历史信息作为迁移数据集T_b，将二者合并为训练数据集T；定义用于K-means聚类算法的欧氏距离函数dist_ed和最小化平方误差函数E；执行迁移学习算法，初始化段落的权重向量w，并计算用于数据集T上的权重分布p^t；执行聚类算法对数据集T进行聚类，通过调用欧氏距离函数dist_ed和最小化平方误差函数E，将不同的段落划归到k类，再计算迁移错误率∈_t更新权值向量

迭代运行设定多次以获得最终分类器h_t，并将文本、图片、表格、公式的分类结果保存；对公式做放缩、去噪、二值化处理，再通过OCR和语义转换技术转化目标公式，生成格式化的MicrosoftOffice Word文档公式；

S3、引入JACOB实现Microsoft Office Word文档目标文件生成：对保存的文本、图片、表格、公式，将其依次写入目标的Microsoft Office Word文档文件中，完成文档的转换。

进一步的，步骤S1的引入Apache POI实现源文件数据提取的具体方法包括：

S11、调用系统文件中的选择对话框FileDialog，供用户上传待转换的MicrosoftOffice PowerPoint演示文稿；

S12、上传完成后，通过POI中HSLFSlideShow对象提供的getSlides方法，得到该Microsoft Office PowerPoint演示文稿中所有的幻灯片数据信息；

S13、文本数据的提取，通过JACOB组件中提供的“Item”、“Range”、“Text”、“Font”、“Size”参数读取文件中的文本内容、文本字体大小、段落格式、段落索引号信息；

S14、其余格式的数据提取，通过POI的GETALLPictures方法获取演示文稿中的图片，通过GETTables方法获取表格、提取FileOutputStream的图片、提取Clipboard的公式，并将提取的数据保存。

进一步的，步骤S2的源文件数据分析的具体方法包括：

S21、统计文本数据在PowerPoint存储的方式，将每个段落文本对应的字号、行数、水平布局位置汇总作为源数据集T_a，其长度为m，按照相同格式加载预设的PowerPoint转换Word历史信息作为迁移数据集T_b，其长度为n；将二者合并为训练数据集T，其长度为m+n；

S22、定义数据集文本数据段落样本表示为

质心表示为/>

其中i＝1，2，...，s表示段落索引号，j＝1，2，...，t表示特征数，再根据上述符号定义用于K-means算法计算每簇质心和该段落距离的欧氏距离函数：/>

定义K-means算法拟合簇质心的最小化平方误差函数：

其中

是簇C_i的均值向量；

S23、执行迁移算法，初始化段落的权重向量，w表示每个段落文本的初始权重，该权重用于调整迁移数据对源数据的影响作用：

S24、计算用于数据集T上的权重分布p^t，用于K-means算法训练数据的权值项，其权重分布p^t根据权重向量w^t计算得到：

S25、执行聚类算法对数据集T进行聚类，通过调用欧氏距离函数dist_ed和最小化平方误差函数E，将不同的段落划归到k类；

S26、根据K-means算法的聚类结果，计算迁移错误率∈_t：

h_t(x_i)表示分类器在T_a上分类结果，c(x_i)表示聚类算法分类在T_a上分类结果，设置

和β_t＝∈_t/(1-∈_t)并根据该错误率计算并更新权值向量：

S27、返回步骤S24进行迭代，直到达到设置的迭代次数N为止，以获得分类器最终在T_a上分类结果h_t，并将分类结果保存；

S28、对于不同的公式类型，当公式为图片格式时，对PowerPoint演示文稿的公式图片做放缩、去噪、二值化处理，再通过OCR和语义转换技术转化目标公式，生成格式化的Word文档公式。

进一步的，步骤S3的引入JACOB实现目标文件生成的方法包括：

S31、读取分类结果，将存储的标题、文本内容、表格、图片以及公式与源文件对应数据建立映射关系并确定生成文件中的目标元素的位置；

S32、通过目标元素生成目标文件的数据流，将目标文件数据流依次写入到目标Word文件中，生成最终的Word文档。

一种PowerPoint演示文稿向Word文档转换的系统，包括：

源文件数据提取模块：用于引入Apache POI实现PowerPoint源文件的数据提取：首先对源文件进行预处理，获取源文件段落信息，接着进行包含文本、图片、表格、公式的数据提取并保存；

源文件数据分析模块：用于根据对PowerPoint源文件提取的内容，将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集T_a，预设的PowerPoint转换Word历史信息作为迁移数据集T_b，将二者合并为训练数据集T；定义用于K-means聚类算法的欧氏距离函数dist_ed和最小化平方误差函数E；执行迁移学习算法，初始化段落的权重向量w，并计算用于数据集T上的权重分布p^t；执行聚类算法对数据集T进行聚类，通过调用欧氏距离函数dist_ed和最小化平方误差函数E，将不同的段落划归到k类，再计算迁移错误率∈_t更新权值向量

迭代运行设定多次以获得最终分类器h_t，并将文本、图片、表格、公式的分类结果保存；对公式做放缩、去噪、二值化处理，再通过OCR和语义转换技术转化目标公式，生成格式化的Word文档公式；

目标文件生成模块：引入JACOB实现Word目标文件生成：对保存的文本、图片、表格、公式依次写入目标的Word文件中，完成文档的转换。

与现有技术相比，本发明优势在于：本发明能够实现MicrosoftOfficePowerPoint演示文稿向MicrosoftOffice Word文档的智能转换，降低了专业文稿的制作难度，提高专业演示文稿制作的效率。采用本发明，用户在制作专业性较强的会议报告或者商业报告过程中，可实现MicrosoftOffice PowerPoint演示文稿快速转换为MicrosoftOffice Word文档。

附图说明

下面结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明的一种PowerPoint演示文稿向Word文档转换的方法流程图；

图2本发明实例中源文件信息提取的示意图；

图3本发明实例中源文件数据分析的示意图；

图4本发明实例中源文件数据进行迁移学习精确分析的流程图；

图5本发明实例中目标文件的生成的示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明提供一种PowerPoint演示文稿向Word文档转换的方法，如图1所示，包括源文件数据提取、源文件数据分析、目标文件生成。

1、源PowerPoint演示文稿分别数据提取、数据分析、文件生成得到目标Word文档。下面分别对三个步骤进行描述。

S1、源文件数据提取。源文件数据提取中首先对文件进行预处理，获取源文件段落信息，接着进行文本数据源提取和其它格式数据的提取。本发明根据不同的源PowerPoint演示文稿数据对象采用不同的提取方式，并将提取后的数据再处理，以更好的适应目标文件的数据格式。

S2、源文件数据分析。源文件数据分析的功能是对源文件内容的准确分类和对源文件公式的转换。其中准确分类是通过迁移学习技术提供细粒度更好的源文件数据分析方案。考虑Word文档内部元素位置及关联信息，在保证基本的转换效果前提下，对源PowerPoint演示文稿中的内容分类，使转换效果更符合实际文件情况。源文件公式的转换是因为PowerPoint演示文稿和目标Word文档种格式不同，需要单独对公式进行分析。

S3、目标文件生成。在系统将存储的文本、图片、表格、公式数据，根据源文件分析得到位置记录，进行目标文件数据流分析。载入预设Word模板，将文件数据流依次写入目标的Word文件中，完成演示文稿的转换。

2、本发明引入Apache POI实现源文件的数据提取，具体流程如下：

S11、如图2所示，图2是本发明的源文件信息提取模块关系示意图。本发明根据不同的源MicrosoftOffice PowerPoint演示文稿数据对象采用不同的提取方式，并将提取后的数据再次处理，以更好的适应目标文件的数据格式。流程是：

S12、程序运行，点击上传按钮，调用系统文件选择对话框FileDialog，供用户选择待转换的MicrosoftOffice PowerPoint演示文稿；上传完成后，通过POI中HSLFSlideShow对象提供的getSlides方法返回幻灯片中找到的所有普通幻灯片的数组，得到该MicrosoftOffice PowerPoint演示文档中所有的幻灯片。通过JACOB组件中提供的TextRun函数“Item”、“Range”、“Text”、“Font”、“Size”等多种参数读取文档中的段落内容、段落格式、段落间相对位置等信息。

S13、其他复杂格式的数据提取，通过POI的GETALLPictures方法获取演示文稿中的图片、GETTables方法获取表格，提取FileOutputStream的图片，提取Clipboard的公式，并将提取的数据保存，进行下一步的分析。

3、本发明的数据分析步骤的准确分析阶段，如图3所示，图3是本发明的源文件数据分析模块关系示意图。本发明在保证基本的转换效果外，考虑MicrosoftOffice Word文档内部元素的相对位置及相互关联信息，使之更符合实际文档情况。通过研究发现，单一的使用聚类算法并不能得到很好的文档内容分类结果，尤其是当文档过短时，分类出错的现象很容易发生。本发明使用迁移学习的改进后的聚类算法对源MicrosoftOfficePowerPoint的内容进行分类。使用迁移学习的优势在于历史文档数据可以帮助新MicrosoftOffice PowerPoint演示文稿进行内容分类。文档中的格式差异明显，但本发明可以自动将相同格式的文本自动聚类，再对不同格式文本内容自动区分，并通过迁移学习算法利用已分类的经验帮助分类。本发明的可以通过不断的累积文档分类转换的数据，内容分类的精度会越来越高，提高了系统判断的准确性，提高了系统的适用性能和适用范围。如图4所示，图4是本发明实例中源文件数据进行迁移学习精确分析的流程图，流程是：

S21、读取在源文件数据提取中记录的源文件中文本数据，通过统计文本数据在PowerPoint存储的方式，将每段的字号、行数、水平布局作为K-means聚类算法的输入矩阵，将其设置为源数据集T_a，其长度为m，按照相同格式加载历史转换文件信息，作为迁移数据集T_b，其长度为n；将二者合并为训练数据集T，其长度为m+n；

S22、定义数据集文本数据段落样本表示为

质心表示为

其中i＝1，2，...，s表示段落索引号，j＝1，2，...，t表示特征数，即位置信息种类数，再根据上述符号定义一个欧氏距离函数：

用于计算每簇质心和该段落距离，并根据该距离划分簇。再根据k-means算法针对聚类所的簇划分C＝{C₁，C₂，....，C_k}，定义最小化平方误差函数：

其中

是簇C_i的均值向量。

S23、执行迁移算法，初始化段落的权重向量，该权重用于调整迁移数据对源数据的影响作用，权重越小，作用越小，通过权值的大小区分迁移文数据中的可迁移文数据与不可迁移数据：

其中，w表示每个段落文本的初始权重。

S25：统计k种不同的字号数，表示有k种分类，将其作为K-means聚类算法的超参数，执行聚类算法对数据集T进行聚类，通过调用欧氏距离函数dist_ed和最小化平方误差函数E，将不同的段落划归到k类。

S26、根据K-means算法的聚类结果，计算迁移错误率∈_t：

和β_t＝∈_t/(1-∈_t)并根据该错误率计算并更新权值向量：

S27、重新执行S24到S26步骤，直到达到设置的迭代次数N为止。迁移算法迭代分析数据过程中，逐步降低不可迁移数据的权重，逐渐的将历史数据中可迁移的数据和不可迁移的数据区分开，当迭代次数达到设定值时停止迁移算法。此时历史数据中可迁移的数据和待分类的数据的特征分布趋向一致。此时获得分类器最终在T_a上分类结果h_t，并将分类结果保存。

S28、公式转化处理部分。公式的转换需要对源文件进行进一步的分析，对于不同的公式类型，当公式为图片格式时，首先参照PowerPoint演示文稿的位置信息，对公式图片做放缩、去噪、二值化处理，再通过OCR和语义转换技术转化目标公式，生成格式化的Word文档公式。

4、本发明引入JACOB实现目标文件生成，具体流程如下：

S31、如图5所示，图5是本发明的目标文件的生成模块关系示意图。使用JACOB组件定义一个新的MicrosoftOffice Word文档，根据本发明的数据分析模块结果得到对应文本、图片、表格、公式等数据及其在转换后的对应位置。

S32、JACOB依次向Word文档中写入信息。对于源MicrosoftOffice PowerPoint演示文稿中图片以及表格是通过JACOB组件依次写入到目标Word文件中，最终生成MicrosoftOffice Word文档。

本发明具有的理论意义和实际应用价值：解决了传统文档编辑软件难以支持多种类型文档相互转化的问题，为满足用户对不同文档类型在线转换提供了工具支持。降低专业演示文稿的制作难度，提高专业演示文稿制作的高效性，为高校师生、科研人员等提供快捷的MicrosoftOffice PowerPoint演示文稿向MicrosoftOffice Word文档转换系统。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种PowerPoint演示文稿向Word文档转换的方法，其特征在于，包括以下步骤

S3、引入JACOB实现Microsoft Office Word文档目标文件生成：对保存的文本、图片、表格、公式，将其依次写入目标的Microsoft Office Word文档文件中，完成文档的转换；

步骤S2的源文件数据分析的具体方法包括：

S22、定义数据集文本数据段落样本表示为

质心表示为

其中i＝1,2,…,s表示段落索引号，j＝1,2,…,t表示特征数，再根据上述符号定义用于K-means算法计算每簇质心和该段落距离的欧氏距离函数：

定义K-means算法拟合簇质心的最小化平方误差函数：

其中

是簇C_i的均值向量；

S26、根据K-means算法的聚类结果，计算迁移错误率∈_t：

和β_t＝_t/(1-∈_t)并根据该错误率计算并更新权值向量：

2.根据权利要求1所述的一种PowerPoint演示文稿向Word文档转换的方法，其特征在于，步骤S1的引入Apache POI实现源文件数据提取的具体方法包括：

3.根据权利要求1所述的一种PowerPoint演示文稿向Word文档转换的方法，其特征在于，步骤S3的引入JACOB实现目标文件生成的方法包括：

4.一种PowerPoint演示文稿向Word文档转换的系统，其特征在于，包括：

源文件数据分析模块：用于根据对PowerPoint源文件提取的内容，将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集Ta，预设的PowerPoint转换Word历史信息作为迁移数据集Tb，将二者合并为训练数据集T；定义用于K-means聚类算法的欧氏距离函数dist_ed和最小化平方误差函数E；执行迁移学习算法，初始化段落的权重向量w，并计算用于数据集T上的权重分布p^t；执行聚类算法对数据集T进行聚类，通过调用欧氏距离函数dist_ed和最小化平方误差函数E，将不同的段落划归到k类，再计算迁移错误率∈_t更新权值向量