CN110222317B - 一种PowerPoint演示文稿向Word文档转换的方法及系统 - Google Patents

一种PowerPoint演示文稿向Word文档转换的方法及系统 Download PDF

Info

Publication number
CN110222317B
CN110222317B CN201910246944.XA CN201910246944A CN110222317B CN 110222317 B CN110222317 B CN 110222317B CN 201910246944 A CN201910246944 A CN 201910246944A CN 110222317 B CN110222317 B CN 110222317B
Authority
CN
China
Prior art keywords
data
file
data set
formula
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910246944.XA
Other languages
English (en)
Other versions
CN110222317A (zh
Inventor
宋军
徐衡
张坤
朱超群
彭艳
曹威
吴雅笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201910246944.XA priority Critical patent/CN110222317B/zh
Publication of CN110222317A publication Critical patent/CN110222317A/zh
Application granted granted Critical
Publication of CN110222317B publication Critical patent/CN110222317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种PowerPoint演示文稿向Word文档转换的方法及系统,包括以下三个步骤:原始演示文稿内容提取。根据用户提供的原始演示文稿,获取所有的幻灯片,再得到每个幻灯片上的文本段落的数据信息;演示文稿内容分析。根据变量中所记录的信息,以及数据存储的方式,使用最新颖的迁移学习技术对文本数据和属性进行分析,将不同的属性内容加以区分;并对复杂格式的数据进行转换处理;目标演示文稿生成。定义一个待转换格式的空白Word文档,根据区分的位置信息,将分析并转换完成的原始演示文稿信息依次写入Microsoft Office Word目标文档中。

Description

一种PowerPoint演示文稿向Word文档转换的方法及系统
技术领域
本发明涉及文档转换与提取技术,尤其涉及一种PowerPoint演示文稿向Word文档转换的方法及系统。
背景技术
文档和演示文稿作为办公软件的组件,在商业、教育、政府机构等领域的应用非常广泛。MicrosoftOffice PowerPoint,简称PowerPoint,是一个由Microsoft公司开发的演示文稿程序,是Microsoft Office系统中的其中一个组件。它被商业人员、教师、学生和培训人员广泛使用。Microsoft Office Word是微软公司的一个文字处理器应用程序,提供了许多易于使用的文档创建工具和丰富的功能集,也是目前市场最流行、最常见的文字处理器。
迁移学习,是人工智能和机器学习的学科中新潮的研究方向,也是一种新的学习思想和模式。机器学习是人工智能的一类重要方法,也是目前发展最迅速、效果最显著的方法。机器学习解决的是让机器自主地从数据中获取知识,应用于新的问题中。迁移学习作为机器学习的一个重要分支,侧重于将已经学习过的知识迁移应用于新的问题,重点在解决当原始数据不足时,将其他领域的数据迁移、扩充原始数据,以提高算法精度。
聚类算法是有名的非监督学习算法,对于聚类来说,给定一个数据集,将该数据集依照某个“指标”,把相似指标的数据归纳在一起,形成不同的类。K-means聚类是应用最广泛的聚类算法。和大部分传统机器学习算法一样,算法效果受原始数据限制,当原始数据不足时,算法精确度有限。
PPT和Word是Office文档中最常用的两个文案策划格式,随着办公自动化的普及,PowerPoint和Word的应用越来越广,实现它们之间的转换可以加快工作的进度,提高工作的效率,但发现Office文档之间的转换也是一个大问题。
在实现本发明过程中,发明人发现现有技术中至少存在如下两类问题:一是使用Office自带的“大纲”视图、“发送”功能转换,但效果很差,无法准确的将不同的文档的内容区分,如标题、正文、图题、表题、表格、图片、公式等。再者使用第三方软件,转换后的文档依然无法准确的分类文档的内容,大都需要对转换后内容进行人工二次排版,转换效果有限,实际使用价值不高。第三,无监督学习聚类算法只能将单个文件中不同的内容进行区分,效果有限。
为降低多文档呈现的难度,提高文档使用的高效性,一种适用于由MicrosoftOffice PowerPoint演示文稿向MicrosoftOffice Word文档类型的转化方案需要迫切提出。
发明内容
本发明要解决的技术问题在于,针对上述PowerPoint演示文稿与Word文档无法灵活转换的问题,尤其是使用传统机器学习算法针对单一文件分类细粒度不足的问题,提供一种PowerPoint演示文稿向Word文档转换的方法及系统。
一种PowerPoint演示文稿向Word文档转换的方法,包括以下步骤
S1、引入Apache POI实现Microsoft Office PowerPoint源文件的数据提取:对源文件进行预处理,获取源文件段落信息,接着进行包含文本、图片、表格、公式的数据提取并保存;
S2、进行源文件数据分析:根据对Microsoft Office PowerPoint源文件提取的内容,将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,预设的Microsoft Office PowerPoint转换Microsoft Office Word文档历史信息作为迁移数据集Tb,将二者合并为训练数据集T;定义用于K-means聚类算法的欧氏距离函数disted和最小化平方误差函数E;执行迁移学习算法,初始化段落的权重向量w,并计算用于数据集T上的权重分布pt;执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类,再计算迁移错误率∈t更新权值向量
Figure GDA0004151873730000021
迭代运行设定多次以获得最终分类器ht,并将文本、图片、表格、公式的分类结果保存;对公式做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的MicrosoftOffice Word文档公式;
S3、引入JACOB实现Microsoft Office Word文档目标文件生成:对保存的文本、图片、表格、公式,将其依次写入目标的Microsoft Office Word文档文件中,完成文档的转换。
进一步的,步骤S1的引入Apache POI实现源文件数据提取的具体方法包括:
S11、调用系统文件中的选择对话框FileDialog,供用户上传待转换的MicrosoftOffice PowerPoint演示文稿;
S12、上传完成后,通过POI中HSLFSlideShow对象提供的getSlides方法,得到该Microsoft Office PowerPoint演示文稿中所有的幻灯片数据信息;
S13、文本数据的提取,通过JACOB组件中提供的“Item”、“Range”、“Text”、“Font”、“Size”参数读取文件中的文本内容、文本字体大小、段落格式、段落索引号信息;
S14、其余格式的数据提取,通过POI的GETALLPictures方法获取演示文稿中的图片,通过GETTables方法获取表格、提取FileOutputStream的图片、提取Clipboard的公式,并将提取的数据保存。
进一步的,步骤S2的源文件数据分析的具体方法包括:
S21、统计文本数据在PowerPoint存储的方式,将每个段落文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,其长度为m,按照相同格式加载预设的PowerPoint转换Word历史信息作为迁移数据集Tb,其长度为n;将二者合并为训练数据集T,其长度为m+n;
S22、定义数据集文本数据段落样本表示为
Figure GDA0004151873730000031
质心表示为/>
Figure GDA0004151873730000032
其中i=1,2,...,s表示段落索引号,j=1,2,...,t表示特征数,再根据上述符号定义用于K-means算法计算每簇质心和该段落距离的欧氏距离函数:/>
Figure GDA0004151873730000033
定义K-means算法拟合簇质心的最小化平方误差函数:
Figure GDA0004151873730000034
其中
Figure GDA0004151873730000035
是簇Ci的均值向量;
S23、执行迁移算法,初始化段落的权重向量,w表示每个段落文本的初始权重,该权重用于调整迁移数据对源数据的影响作用:
Figure GDA0004151873730000036
S24、计算用于数据集T上的权重分布pt,用于K-means算法训练数据的权值项,其权重分布pt根据权重向量wt计算得到:
Figure GDA0004151873730000037
S25、执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类;
S26、根据K-means算法的聚类结果,计算迁移错误率∈t
Figure GDA0004151873730000041
ht(xi)表示分类器在Ta上分类结果,c(xi)表示聚类算法分类在Ta上分类结果,设置
Figure GDA0004151873730000042
和βt=∈t/(1-∈t)并根据该错误率计算并更新权值向量:
Figure GDA0004151873730000043
S27、返回步骤S24进行迭代,直到达到设置的迭代次数N为止,以获得分类器最终在Ta上分类结果ht,并将分类结果保存;
S28、对于不同的公式类型,当公式为图片格式时,对PowerPoint演示文稿的公式图片做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Word文档公式。
进一步的,步骤S3的引入JACOB实现目标文件生成的方法包括:
S31、读取分类结果,将存储的标题、文本内容、表格、图片以及公式与源文件对应数据建立映射关系并确定生成文件中的目标元素的位置;
S32、通过目标元素生成目标文件的数据流,将目标文件数据流依次写入到目标Word文件中,生成最终的Word文档。
一种PowerPoint演示文稿向Word文档转换的系统,包括:
源文件数据提取模块:用于引入Apache POI实现PowerPoint源文件的数据提取:首先对源文件进行预处理,获取源文件段落信息,接着进行包含文本、图片、表格、公式的数据提取并保存;
源文件数据分析模块:用于根据对PowerPoint源文件提取的内容,将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,预设的PowerPoint转换Word历史信息作为迁移数据集Tb,将二者合并为训练数据集T;定义用于K-means聚类算法的欧氏距离函数disted和最小化平方误差函数E;执行迁移学习算法,初始化段落的权重向量w,并计算用于数据集T上的权重分布pt;执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类,再计算迁移错误率∈t更新权值向量
Figure GDA0004151873730000044
迭代运行设定多次以获得最终分类器ht,并将文本、图片、表格、公式的分类结果保存;对公式做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Word文档公式;
目标文件生成模块:引入JACOB实现Word目标文件生成:对保存的文本、图片、表格、公式依次写入目标的Word文件中,完成文档的转换。
与现有技术相比,本发明优势在于:本发明能够实现MicrosoftOfficePowerPoint演示文稿向MicrosoftOffice Word文档的智能转换,降低了专业文稿的制作难度,提高专业演示文稿制作的效率。采用本发明,用户在制作专业性较强的会议报告或者商业报告过程中,可实现MicrosoftOffice PowerPoint演示文稿快速转换为MicrosoftOffice Word文档。
附图说明
下面结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明的一种PowerPoint演示文稿向Word文档转换的方法流程图;
图2本发明实例中源文件信息提取的示意图;
图3本发明实例中源文件数据分析的示意图;
图4本发明实例中源文件数据进行迁移学习精确分析的流程图;
图5本发明实例中目标文件的生成的示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明提供一种PowerPoint演示文稿向Word文档转换的方法,如图1所示,包括源文件数据提取、源文件数据分析、目标文件生成。
1、源PowerPoint演示文稿分别数据提取、数据分析、文件生成得到目标Word文档。下面分别对三个步骤进行描述。
S1、源文件数据提取。源文件数据提取中首先对文件进行预处理,获取源文件段落信息,接着进行文本数据源提取和其它格式数据的提取。本发明根据不同的源PowerPoint演示文稿数据对象采用不同的提取方式,并将提取后的数据再处理,以更好的适应目标文件的数据格式。
S2、源文件数据分析。源文件数据分析的功能是对源文件内容的准确分类和对源文件公式的转换。其中准确分类是通过迁移学习技术提供细粒度更好的源文件数据分析方案。考虑Word文档内部元素位置及关联信息,在保证基本的转换效果前提下,对源PowerPoint演示文稿中的内容分类,使转换效果更符合实际文件情况。源文件公式的转换是因为PowerPoint演示文稿和目标Word文档种格式不同,需要单独对公式进行分析。
S3、目标文件生成。在系统将存储的文本、图片、表格、公式数据,根据源文件分析得到位置记录,进行目标文件数据流分析。载入预设Word模板,将文件数据流依次写入目标的Word文件中,完成演示文稿的转换。
2、本发明引入Apache POI实现源文件的数据提取,具体流程如下:
S11、如图2所示,图2是本发明的源文件信息提取模块关系示意图。本发明根据不同的源MicrosoftOffice PowerPoint演示文稿数据对象采用不同的提取方式,并将提取后的数据再次处理,以更好的适应目标文件的数据格式。流程是:
S12、程序运行,点击上传按钮,调用系统文件选择对话框FileDialog,供用户选择待转换的MicrosoftOffice PowerPoint演示文稿;上传完成后,通过POI中HSLFSlideShow对象提供的getSlides方法返回幻灯片中找到的所有普通幻灯片的数组,得到该MicrosoftOffice PowerPoint演示文档中所有的幻灯片。通过JACOB组件中提供的TextRun函数“Item”、“Range”、“Text”、“Font”、“Size”等多种参数读取文档中的段落内容、段落格式、段落间相对位置等信息。
S13、其他复杂格式的数据提取,通过POI的GETALLPictures方法获取演示文稿中的图片、GETTables方法获取表格,提取FileOutputStream的图片,提取Clipboard的公式,并将提取的数据保存,进行下一步的分析。
3、本发明的数据分析步骤的准确分析阶段,如图3所示,图3是本发明的源文件数据分析模块关系示意图。本发明在保证基本的转换效果外,考虑MicrosoftOffice Word文档内部元素的相对位置及相互关联信息,使之更符合实际文档情况。通过研究发现,单一的使用聚类算法并不能得到很好的文档内容分类结果,尤其是当文档过短时,分类出错的现象很容易发生。本发明使用迁移学习的改进后的聚类算法对源MicrosoftOfficePowerPoint的内容进行分类。使用迁移学习的优势在于历史文档数据可以帮助新MicrosoftOffice PowerPoint演示文稿进行内容分类。文档中的格式差异明显,但本发明可以自动将相同格式的文本自动聚类,再对不同格式文本内容自动区分,并通过迁移学习算法利用已分类的经验帮助分类。本发明的可以通过不断的累积文档分类转换的数据,内容分类的精度会越来越高,提高了系统判断的准确性,提高了系统的适用性能和适用范围。如图4所示,图4是本发明实例中源文件数据进行迁移学习精确分析的流程图,流程是:
S21、读取在源文件数据提取中记录的源文件中文本数据,通过统计文本数据在PowerPoint存储的方式,将每段的字号、行数、水平布局作为K-means聚类算法的输入矩阵,将其设置为源数据集Ta,其长度为m,按照相同格式加载历史转换文件信息,作为迁移数据集Tb,其长度为n;将二者合并为训练数据集T,其长度为m+n;
S22、定义数据集文本数据段落样本表示为
Figure GDA0004151873730000071
质心表示为
Figure GDA0004151873730000072
Figure GDA0004151873730000073
其中i=1,2,...,s表示段落索引号,j=1,2,...,t表示特征数,即位置信息种类数,再根据上述符号定义一个欧氏距离函数:
Figure GDA0004151873730000074
用于计算每簇质心和该段落距离,并根据该距离划分簇。再根据k-means算法针对聚类所的簇划分C={C1,C2,....,Ck},定义最小化平方误差函数:
Figure GDA0004151873730000075
其中
Figure GDA0004151873730000076
是簇Ci的均值向量。
S23、执行迁移算法,初始化段落的权重向量,该权重用于调整迁移数据对源数据的影响作用,权重越小,作用越小,通过权值的大小区分迁移文数据中的可迁移文数据与不可迁移数据:
Figure GDA0004151873730000077
其中,w表示每个段落文本的初始权重。
S24、计算用于数据集T上的权重分布pt,用于K-means算法训练数据的权值项,其权重分布pt根据权重向量wt计算得到:
Figure GDA0004151873730000078
S25:统计k种不同的字号数,表示有k种分类,将其作为K-means聚类算法的超参数,执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类。
S26、根据K-means算法的聚类结果,计算迁移错误率∈t
Figure GDA0004151873730000081
ht(xi)表示分类器在Ta上分类结果,c(xi)表示聚类算法分类在Ta上分类结果,设置
Figure GDA0004151873730000082
和βt=∈t/(1-∈t)并根据该错误率计算并更新权值向量:
Figure GDA0004151873730000083
S27、重新执行S24到S26步骤,直到达到设置的迭代次数N为止。迁移算法迭代分析数据过程中,逐步降低不可迁移数据的权重,逐渐的将历史数据中可迁移的数据和不可迁移的数据区分开,当迭代次数达到设定值时停止迁移算法。此时历史数据中可迁移的数据和待分类的数据的特征分布趋向一致。此时获得分类器最终在Ta上分类结果ht,并将分类结果保存。
S28、公式转化处理部分。公式的转换需要对源文件进行进一步的分析,对于不同的公式类型,当公式为图片格式时,首先参照PowerPoint演示文稿的位置信息,对公式图片做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Word文档公式。
4、本发明引入JACOB实现目标文件生成,具体流程如下:
S31、如图5所示,图5是本发明的目标文件的生成模块关系示意图。使用JACOB组件定义一个新的MicrosoftOffice Word文档,根据本发明的数据分析模块结果得到对应文本、图片、表格、公式等数据及其在转换后的对应位置。
S32、JACOB依次向Word文档中写入信息。对于源MicrosoftOffice PowerPoint演示文稿中图片以及表格是通过JACOB组件依次写入到目标Word文件中,最终生成MicrosoftOffice Word文档。
本发明具有的理论意义和实际应用价值:解决了传统文档编辑软件难以支持多种类型文档相互转化的问题,为满足用户对不同文档类型在线转换提供了工具支持。降低专业演示文稿的制作难度,提高专业演示文稿制作的高效性,为高校师生、科研人员等提供快捷的MicrosoftOffice PowerPoint演示文稿向MicrosoftOffice Word文档转换系统。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (4)

1.一种PowerPoint演示文稿向Word文档转换的方法,其特征在于,包括以下步骤
S1、引入Apache POI实现Microsoft Office PowerPoint源文件的数据提取:对源文件进行预处理,获取源文件段落信息,接着进行包含文本、图片、表格、公式的数据提取并保存;
S2、进行源文件数据分析:根据对Microsoft Office PowerPoint源文件提取的内容,将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,预设的Microsoft Office PowerPoint转换Microsoft Office Word文档历史信息作为迁移数据集Tb,将二者合并为训练数据集T;定义用于K-means聚类算法的欧氏距离函数disted和最小化平方误差函数E;执行迁移学习算法,初始化段落的权重向量w,并计算用于数据集T上的权重分布pt;执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类,再计算迁移错误率∈t更新权值向量
Figure FDA0004151873660000011
迭代运行设定多次以获得最终分类器ht,并将文本、图片、表格、公式的分类结果保存;对公式做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的MicrosoftOffice Word文档公式;
S3、引入JACOB实现Microsoft Office Word文档目标文件生成:对保存的文本、图片、表格、公式,将其依次写入目标的Microsoft Office Word文档文件中,完成文档的转换;
步骤S2的源文件数据分析的具体方法包括:
S21、统计文本数据在PowerPoint存储的方式,将每个段落文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,其长度为m,按照相同格式加载预设的PowerPoint转换Word历史信息作为迁移数据集Tb,其长度为n;将二者合并为训练数据集T,其长度为m+n;
S22、定义数据集文本数据段落样本表示为
Figure FDA0004151873660000012
质心表示为
Figure FDA0004151873660000013
其中i=1,2,…,s表示段落索引号,j=1,2,…,t表示特征数,再根据上述符号定义用于K-means算法计算每簇质心和该段落距离的欧氏距离函数:
Figure FDA0004151873660000021
定义K-means算法拟合簇质心的最小化平方误差函数:
Figure FDA0004151873660000022
其中
Figure FDA0004151873660000023
是簇Ci的均值向量;
S23、执行迁移算法,初始化段落的权重向量,w表示每个段落文本的初始权重,该权重用于调整迁移数据对源数据的影响作用:
Figure FDA0004151873660000024
S24、计算用于数据集T上的权重分布pt,用于K-means算法训练数据的权值项,其权重分布pt根据权重向量wt计算得到:
Figure FDA0004151873660000025
S25、执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类;
S26、根据K-means算法的聚类结果,计算迁移错误率∈t
Figure FDA0004151873660000026
ht(xi)表示分类器在Ta上分类结果,c(xi)表示聚类算法分类在Ta上分类结果,设置
Figure FDA0004151873660000027
和βtt/(1-∈t)并根据该错误率计算并更新权值向量:
Figure FDA0004151873660000028
S27、返回步骤S24进行迭代,直到达到设置的迭代次数N为止,以获得分类器最终在Ta上分类结果ht,并将分类结果保存;
S28、对于不同的公式类型,当公式为图片格式时,对PowerPoint演示文稿的公式图片做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Word文档公式。
2.根据权利要求1所述的一种PowerPoint演示文稿向Word文档转换的方法,其特征在于,步骤S1的引入Apache POI实现源文件数据提取的具体方法包括:
S11、调用系统文件中的选择对话框FileDialog,供用户上传待转换的MicrosoftOffice PowerPoint演示文稿;
S12、上传完成后,通过POI中HSLFSlideShow对象提供的getSlides方法,得到该Microsoft Office PowerPoint演示文稿中所有的幻灯片数据信息;
S13、文本数据的提取,通过JACOB组件中提供的“Item”、“Range”、“Text”、“Font”、“Size”参数读取文件中的文本内容、文本字体大小、段落格式、段落索引号信息;
S14、其余格式的数据提取,通过POI的GETALLPictures方法获取演示文稿中的图片,通过GETTables方法获取表格、提取FileOutputStream的图片、提取Clipboard的公式,并将提取的数据保存。
3.根据权利要求1所述的一种PowerPoint演示文稿向Word文档转换的方法,其特征在于,步骤S3的引入JACOB实现目标文件生成的方法包括:
S31、读取分类结果,将存储的标题、文本内容、表格、图片以及公式与源文件对应数据建立映射关系并确定生成文件中的目标元素的位置;
S32、通过目标元素生成目标文件的数据流,将目标文件数据流依次写入到目标Word文件中,生成最终的Word文档。
4.一种PowerPoint演示文稿向Word文档转换的系统,其特征在于,包括:
源文件数据提取模块:用于引入Apache POI实现PowerPoint源文件的数据提取:首先对源文件进行预处理,获取源文件段落信息,接着进行包含文本、图片、表格、公式的数据提取并保存;
源文件数据分析模块:用于根据对PowerPoint源文件提取的内容,将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,预设的PowerPoint转换Word历史信息作为迁移数据集Tb,将二者合并为训练数据集T;定义用于K-means聚类算法的欧氏距离函数disted和最小化平方误差函数E;执行迁移学习算法,初始化段落的权重向量w,并计算用于数据集T上的权重分布pt;执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类,再计算迁移错误率∈t更新权值向量
Figure FDA0004151873660000031
迭代运行设定多次以获得最终分类器ht,并将文本、图片、表格、公式的分类结果保存;对公式做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Word文档公式;
目标文件生成模块:引入JACOB实现Word目标文件生成:对保存的文本、图片、表格、公式依次写入目标的Word文件中,完成文档的转换;
源文件数据分析模块的源文件数据分析的具体方法包括:
S21、统计文本数据在PowerPoint存储的方式,将每个段落文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,其长度为m,按照相同格式加载预设的PowerPoint转换Word历史信息作为迁移数据集Tb,其长度为n;将二者合并为训练数据集T,其长度为m+n;
S22、定义数据集文本数据段落样本表示为
Figure FDA0004151873660000041
质心表示为
Figure FDA0004151873660000042
其中i=1,2,…,s表示段落索引号,j=1,2,…,t表示特征数,再根据上述符号定义用于K-means算法计算每簇质心和该段落距离的欧氏距离函数:
Figure FDA0004151873660000043
定义K-means算法拟合簇质心的最小化平方误差函数:
Figure FDA0004151873660000044
其中
Figure FDA0004151873660000045
是簇Ci的均值向量;
S23、执行迁移算法,初始化段落的权重向量,w表示每个段落文本的初始权重,该权重用于调整迁移数据对源数据的影响作用:
Figure FDA0004151873660000046
S24、计算用于数据集T上的权重分布pt,用于K-means算法训练数据的权值项,其权重分布pt根据权重向量wt计算得到:
Figure FDA0004151873660000047
S25、执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类;
S26、根据K-means算法的聚类结果,计算迁移错误率∈t
Figure FDA0004151873660000048
ht(xi)表示分类器在Ta上分类结果,c(xi)表示聚类算法分类在Ta上分类结果,设置
Figure FDA0004151873660000049
和βtt/(1-∈t)并根据该错误率计算并更新权值向量:
Figure FDA0004151873660000051
S27、返回步骤S24进行迭代,直到达到设置的迭代次数N为止,以获得分类器最终在Ta上分类结果ht,并将分类结果保存;
S28、对于不同的公式类型,当公式为图片格式时,对PowerPoint演示文稿的公式图片做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Word文档公式。
CN201910246944.XA 2019-03-29 2019-03-29 一种PowerPoint演示文稿向Word文档转换的方法及系统 Active CN110222317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910246944.XA CN110222317B (zh) 2019-03-29 2019-03-29 一种PowerPoint演示文稿向Word文档转换的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910246944.XA CN110222317B (zh) 2019-03-29 2019-03-29 一种PowerPoint演示文稿向Word文档转换的方法及系统

Publications (2)

Publication Number Publication Date
CN110222317A CN110222317A (zh) 2019-09-10
CN110222317B true CN110222317B (zh) 2023-05-26

Family

ID=67822435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910246944.XA Active CN110222317B (zh) 2019-03-29 2019-03-29 一种PowerPoint演示文稿向Word文档转换的方法及系统

Country Status (1)

Country Link
CN (1) CN110222317B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046841A (zh) * 2019-12-26 2020-04-21 中孚安全技术有限公司 一种PowerPoint文件的文字提取方法、系统、终端及存储介质
WO2021248435A1 (en) * 2020-06-12 2021-12-16 Bayer Aktiengesellschaft Method and apparatus for automatically generating summary document
KR102624095B1 (ko) * 2021-05-13 2024-01-15 김상종 인공지능을 이용한 문서 레이아웃 및 폰트 색상 추천 시스템 및 이의 실행 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156613A (zh) * 2011-03-29 2011-08-17 汉王科技股份有限公司 演示文稿的显示方法及装置
CN105824788A (zh) * 2016-03-18 2016-08-03 天津城建大学 一种将演示文稿文件转换为word文件的方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070061319A1 (en) * 2005-09-09 2007-03-15 Xerox Corporation Method for document clustering based on page layout attributes
US9256582B2 (en) * 2012-10-23 2016-02-09 International Business Machines Corporation Conversion of a presentation to Darwin Information Typing Architecture (DITA)
CN103020122B (zh) * 2012-11-16 2015-09-30 哈尔滨工程大学 一种基于半监督聚类的迁移学习方法
US10019424B2 (en) * 2014-12-30 2018-07-10 Universidad De Santiago De Chile System and method that internally converts PowerPoint non-editable and motionless presentation mode slides into editable and mobile presentation mode slides (iSlides)
JP2018028751A (ja) * 2016-08-16 2018-02-22 コニカミノルタ株式会社 文書変換方法及び文書変換プログラム
US10713306B2 (en) * 2017-09-22 2020-07-14 Microsoft Technology Licensing, Llc Content pattern based automatic document classification
CN108052496A (zh) * 2017-12-19 2018-05-18 国云科技股份有限公司 一种基于源文件的word图文格式编排系统及其实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156613A (zh) * 2011-03-29 2011-08-17 汉王科技股份有限公司 演示文稿的显示方法及装置
CN105824788A (zh) * 2016-03-18 2016-08-03 天津城建大学 一种将演示文稿文件转换为word文件的方法和系统

Also Published As

Publication number Publication date
CN110222317A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
Baviskar et al. Efficient automated processing of the unstructured documents using artificial intelligence: A systematic literature review and future directions
CN110222317B (zh) 一种PowerPoint演示文稿向Word文档转换的方法及系统
CN109918351B (zh) 一种Beamer演示文稿向PowerPoint演示文稿转换的方法及系统
US9141853B1 (en) System and method for extracting information from documents
US11830269B2 (en) System for information extraction from form-like documents
CN110083580B (zh) 一种Word文档向PowerPoint文档转换的方法及系统
CN109344914A (zh) 一种端到端的不定长文字识别的方法和系统
CN109885818B (zh) 一种PowerPoint演示文稿向Beamer演示文稿转换方法及系统
WO2023108985A1 (zh) 绿色资产的占比的识别方法及相关产品
CN110399493B (zh) 一种基于增量学习的作者消歧方法
CN115601473A (zh) 一种基于智能识别的印刷物排版系统和方法
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN110609895B (zh) 一种主动选择示例以进行高效文本分类的样本自动生成方法
Pedersen et al. Lessons learned developing and using a machine learning model to automatically transcribe 2.3 million handwritten occupation codes
CN113705157B (zh) 一种纸质作业拍照批改的方法
CN115587231A (zh) 基于云计算平台的数据组合处理及快速存储调取方法
CN109918622B (zh) 基于JAVA实现由Word文档向LaTeX文档转换的方法
CN111475641B (zh) 一种数据抽取方法、装置、存储介质及设备
CN113743052A (zh) 一种融合多模态的简历版面分析方法及装置
Vigneshwari et al. Optimized searching of video based on speech and video text content
Stoessel et al. Using optical music recognition to encode 17th-century music prints: the canonic works of Paolo Agostini (c. 1583–1629) as a test case
CN110147530B (zh) 一种Word文档向LaTeX文档转换的方法及系统
Mas-Candela et al. Sequential next-symbol prediction for optical music recognition
CN115563311B (zh) 一种文档标注和知识库管理方法及知识库管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant