CN101699426B - 文档格式转化系统及方法 - Google Patents

文档格式转化系统及方法 Download PDF

Info

Publication number
CN101699426B
CN101699426B CN2009101984219A CN200910198421A CN101699426B CN 101699426 B CN101699426 B CN 101699426B CN 2009101984219 A CN2009101984219 A CN 2009101984219A CN 200910198421 A CN200910198421 A CN 200910198421A CN 101699426 B CN101699426 B CN 101699426B
Authority
CN
China
Prior art keywords
ppt
flash
picture
document
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101984219A
Other languages
English (en)
Other versions
CN101699426A (zh
Inventor
陆昀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Shanghai Technology Co ltd
Original Assignee
Shanghai To Knowledge Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai To Knowledge Information Technology Co Ltd filed Critical Shanghai To Knowledge Information Technology Co Ltd
Priority to CN2009101984219A priority Critical patent/CN101699426B/zh
Publication of CN101699426A publication Critical patent/CN101699426A/zh
Application granted granted Critical
Publication of CN101699426B publication Critical patent/CN101699426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明揭示了一种文档格式转化系统及方法,该文档格式转化系统包括图片转化模块、文字获取模块、文字图像映射模块;图片转化模块用以把文档的每一页转为图片格式的数据;文字获取模块用以获取文档每一页的文字、各文字在图片中的状态信息;文字图像映射模块用以生成各页文字信息与图片所对应的映射表,该表中包含有各文字在图片中的状态信息。本发明可避免出现因未安装网页插件而不能阅读文档的问题。

Description

文档格式转化系统及方法
技术领域
本发明属于计算机技术领域,涉及一种格式转化系统,尤其涉及一种文档格式转化系统;此外,本发明还涉及上述文档格式转化系统的转化方法。
背景技术
如今,计算机用户可通过网络看各类电子书,如WORD、TXT、PDF等格式的文件。现有的通常做法是把文本制作成超文本标记语言HTML的格式。如中国专利CN200510125040.X提供了一种用于将格式化文档转化为网页的系统和方法,用于将文档转换为网页的系统和方法可包括映射模块,它被编程为将文档的文档样式映射到网页的样式。该系统也可包括转化模块,它被编程为基于该映射模块的映射将文档的内容转化为超文本标记语言;以及呈现模块,它被编程为基于该超文本标记语言呈现该网页。该方法可包括将文档中的文档样式映射到网页的样式、基于该映射将文档的内容转化为超文本标记语言、以及根据该超文本标记语言来呈现网页。
这种实现方案遇到复杂的文本,排版复杂。如,无法编辑文字的字体;再如,遇到既包含有文字又包含有图片格式的信息,需要对文字制作成超文本标记语言HTML的格式,对图片制作成图片格式,排版复杂,难以完美呈现。
另外,现在大部分读者使用Office PPT软件观看PPT,具有强大的编辑功能。缺点和桌面文档阅读器类似,不能共享、交流。
当前的在线PPT功能一般采用Flash格式,其功能有限,无动画效果,无交互功能,也不能整合外部的音频/视频资源等等。
发明内容
本发明所要解决的技术问题是:提供一种文档格式转化系统,可避免出现因未安装网页插件而不能阅读文档的问题。
此外,本发明还提供一种上述文档格式转化系统的转化方法。
为解决上述技术问题,本发明采用如下技术方案:
一种文档格式转化系统,其特征在于,该系统包括:
图片转化模块,用以把文档的每一页转为图片格式的数据;
文字获取模块,用以获取文档每一页的文字、各文字在图片中的状态信息;
文字图像映射模块,用以生成各页文字信息与图片所对应的映射表,该表中包含有各文字在图片中的状态信息。
作为本发明的一种优选方案,所述系统进一步包括PPT-FLASH转换模块,用以将PPT格式的数据转换为FLASH格式,其包括:
PPT分析器,用以分析PPT文档的结构,把PPT文档中的对象分为PPT对象、资源对象;所述PPT对象包括PPT对象的形状、文本、效果,所述资源对象包括图片、音乐、视频、FLASH文件;
FLASH生成器,用以把PPT对象的形状、文本、效果对应生成与FLASH一致的形状、文本、效果,同时把PPT中的图片、音乐、视频、FLASH文件嵌入或载入FLASH文档中。
作为本发明的一种优选方案,所述FLASH生成器包括:
形状生成单元,用以根据所述PPT分析器获取的PPT文件中每个形状的大小、几何形状、矩形轮廓框和位置,利用这些信息生成与Flash一致的形状;
文本生成单元,用以根据所述PPT分析器获取的PPT文件中的文本大小、定位、样式、字体和位置,利用这些信息生成与Flash一致的文本;
效果生成单元,用以根据所述PPT分析器获取的PPT文件中的动画效果类别、动画效果参数,利用这些信息生成包含ActionScript脚本的Flash一致的动画效果;
图片生成单元,用以根据所述PPT分析器解析出的图片尺寸、定位、位置,将图片数据进行压缩优化后直接生成与Flash一致的图片;
音乐生成单元,用以根据所述PPT分析器解析出的PPT文件中的音频对象,将音频数据进行压缩优化后直接嵌入到Flash文档;
视频生成单元,用以根据所述PPT分析器解析出的PPT文件中的视频对象,将视频数据转换成flv视频格式,利用Flash课件播放器进行播放视频;
FLASH生成单元,用以根据所述PPT分析器解析出的PPT文件中的Flash对象,直接将Flash对象生成单独的Flash文件,利用Flash课件播放器直接载入Flash文档。
作为本发明的一种优选方案,所述图片转化模块、文字获取模块把每一个文档的每一页转换为一张无损图片文件和一个包含该页所有文字信息的文本文件,图片文件用于在网页上显示,文本文件用于文档的全文搜索;为了能够提取在图片选择区域中的文字,在转换时,所述文字图像映射模块生成一张文字图像映射表,该表中定了所有文字在图片中的状态;所述文字在图片中的状态信息包括文字的位置、旋转状态数据、扭曲状态数据、缩放状态数据。
作为本发明的一种优选方案,通过三维矩阵定义文字在图片中的状态信息,三维矩阵中包括定义如下文字状态的参数:水平方向缩放参数;水平方向扭曲参数;垂直方向扭曲参数;垂直方向缩放参数;水平方向位置参数;垂直方向位置参数。
作为本发明的一种优选方案,所述图片转化模块使用逐字解析技术确保文档所有信息都被读取,使用32位图像技术生成内存图像,使用字体映射技术和二次立方算法确保图像的质量。
作为本发明的一种优选方案,所述图片转化模块包括
逐字解析单元,用以逐字解析出文档的所有信息;
字体映射单元,用以把文字信息显示为点阵图片;
二次立方算法单元,用以根据相邻像素重新计算本像素的颜色值,在视觉上呈现较光滑的效果,消除图像的锯齿;
图片最小化转换单元,使用动态分析色素技术保证生成小尺寸的图像文件,纯文本数据使用无格式文档存储。
一种文档格式转化方法,该方法包括如下步骤:
图片转化步骤,把文档的每一页转为图片格式的数据;
文字获取步骤,获取文档每一页的文字、各文字在图片中的状态信息;
文字图像映射步骤,生成各页文字信息与图片所对应的映射表,该表中包含有各文字在图片中的状态信息。
作为本发明的一种优选方案,所述方法进一步包括PPT-FLASH转换步骤,将PPT格式的数据转换为FLASH格式,其包括:
PPT分析步骤,分析PPT文档的结构,把PPT文档中的对象分为PPT对象、资源对象;所述PPT对象包括PPT对象的形状、文本、效果,所述资源对象包括图片、音乐、视频、FLASH文件;
FLASH生成步骤,把PPT对象的形状、文本、效果对应生成与FLASH一致的形状、文本、效果,同时把PPT中的图片、音乐、视频、FLASH文件嵌入或载入FLASH文档中;
FLASH生成步骤包括
-形状生成步骤,用以根据所述PPT分析器获取的PPT文件中每个形状的大小、几何形状、矩形轮廓框和位置,利用这些信息生成与Flash一致的形状;
-文本生成步骤,用以根据所述PPT分析步骤获取的PPT文件中的文本大小、定位、样式、字体和位置,利用这些信息生成与Flash一致的文本;
-效果生成步骤,用以根据所述PPT分析步骤获取的PPT文件中的动画效果类别、动画效果参数,利用这些信息生成包含ActionScript脚本的Flash一致的动画效果;
-图片生成步骤,用以根据所述PPT分析步骤解析出的图片尺寸、定位、位置,将图片数据进行压缩优化后直接生成与Flash一致的图片;
-音乐生成步骤,用以根据所述PPT分析步骤解析出的PPT文件中的音频对象,将音频数据进行压缩优化后直接嵌入到Flash文档;
-视频生成步骤,用以根据所述PPT分析步骤解析出的PPT文件中的视频对象,将视频数据转换成flv视频格式,利用Flash课件播放器进行播放视频;
-FLASH生成步骤,用以根据所述PPT分析步骤解析出的PPT文件中的Flash对象,直接将Flash对象生成单独的Flash文件,利用Flash课件播放器直接载入Flash文档。
作为本发明的一种优选方案,所述图片转化步骤、文字获取步骤把每一个文档的每一页转换为一张无损图片文件和一个包含该页所有文字信息的文本文件,图片文件用于在网页上显示,文本文件用于文档的全文搜索;为了能够提取在图片选择区域中的文字,在转换时,所述文字图像映射步骤中生成一张文字图像映射表,该表中定了所有文字在图片中的状态;所述文字在图片中的状态信息包括文字的位置、旋转状态数据、扭曲状态数据、缩放状态数据。
本发明的有益效果在于:本发明提出的文档格式转化系统及方法,把原来复杂的文档转变成为统一的基本的数据,这些数据都是现有Web2.0技术能够支持的数据格式,只需要标准的浏览器就可以查看各种文档资源;避免了因为没有安装软件而不能阅读文档的问题。转换成转有格式,会员不用下载任何插件或软件,即可进行高质量的阅读。
附图说明
图1为文档格式转化系统的组成示意图。
图2为FLASH生成器的组成示意图。
图3为文档格式转化方法的流程图。
图4为无损图片转换-图片最小化转换示意图。
图5为文字状态信息的示意图。
图6为文档转换的示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例一
请参阅图1,本发明揭示了一种文档格式转化系统10,该系统包括图片转化模块11、文字获取模块12、文字图像映射模块13、PPT-FLASH转换模块14。
图片转化模块11、文字获取模块12、文字图像映射模块13用于把文档转换为图片格式,并获取图片各位置对应的文字。
图片转化模块11用以把文档的每一页转为图片格式的数据;文字获取模块12用以获取文档每一页的文字、各文字在图片中的状态信息;文字图像映射模块13用以生成各页文字信息与图片所对应的映射表,该表中包含有各文字在图片中的状态信息。
所述图片转化模块11、文字获取模块12把每一个文档的每一页转换为一张无损图片文件和一个包含该页所有文字信息的文本文件,图片文件用于在网页上显示,文本文件用于文档的全文搜索;为了能够提取在图片选择区域中的文字,在转换时,所述文字图像映射模块生成一张文字图像映射表,该表中定了所有文字在图片中的状态;所述文字在图片中的状态信息包括文字的位置、旋转状态数据、扭曲状态数据、缩放状态数据。
作为本发明的一种实现方式,文字的位置、旋转状态数据、扭曲状态数据、缩放状态数据通过三维矩阵来定义,三维矩阵中包括定义如下文字状态的参数:水平方向缩放参数;水平方向扭曲参数;垂直方向扭曲参数;垂直方向缩放参数;水平方向位置参数;垂直方向位置参数。
所述图片转化模块11使用逐字解析技术确保文档所有信息都被读取,使用32位图像技术生成内存图像,使用字体映射技术和二次立方算法确保图像的质量。本实施例中,所述图片转化模块11包括逐字解析单元、字体映射单元、二次立方算法单元、图片最小化转换单元。逐字解析单元用以逐字解析出文档的所有信息;字体映射单元用以把文字信息显示为点阵图片;二次立方算法单元用以根据相邻像素重新计算本像素的颜色值,在视觉上呈现较光滑的效果,消除图像的锯齿;图片最小化转换单元使用动态分析色素技术保证生成小尺寸的图像文件,纯文本数据使用无格式文档存储。
PPT-FLASH转换模块14用于把PPT格式的文件转换为FLASH格式的文件,其包括PPT分析器141、FLASH生成器142。
PPT分析器141用以分析PPT文档的结构,把PPT文档中的对象分为PPT对象、资源对象;所述PPT对象包括PPT对象的形状、文本、效果,所述资源对象包括图片、音乐、视频、FLASH文件;
FLASH生成器142用以把PPT对象的形状、文本、效果对应生成与FLASH一致的形状、文本、效果,同时把PPT中的图片、音乐、视频、FLASH文件嵌入或载入FLASH文档中。
请参阅图2,具体地,所述FLASH生成器142包括:
形状生成单元1421用以根据所述PPT分析器141获取的PPT文件中每个形状的大小、几何形状、矩形轮廓框和位置,利用这些信息生成与Flash一致的形状;
文本生成单元1422用以根据所述PPT分析器141获取的PPT文件中的文本大小、定位、样式、字体和位置,利用这些信息生成与Flash一致的文本;
效果生成单元1423用以根据所述PPT分析器141获取的PPT文件中的动画效果类别、动画效果参数,利用这些信息生成包含ActionScript脚本的Flash一致的动画效果;
图片生成单元1424用以根据所述PPT分析器141解析出的图片尺寸、定位、位置,将图片数据进行压缩优化后直接生成与Flash一致的图片;
音乐生成单元1425用以根据所述PPT分析器141解析出的PPT文件中的音频对象,将音频数据进行压缩优化后直接嵌入到Flash文档;
视频生成单元1426用以根据所述PPT分析器141解析出的PPT文件中的视频对象,将视频数据转换成flv视频格式,利用Flash课件播放器进行播放视频;
FLASH生成单元1427用以根据所述PPT分析器141解析出的PPT文件中的Flash对象,直接将Flash对象生成单独的Flash文件,利用Flash课件播放器直接载入Flash文档。
以上介绍了本发明的文档格式转化系统,本发明在揭示上述文档格式转化系统的同时,还揭示一种文档格式转化方法,该方法包括如下步骤:
步骤A、图片转化步骤,把文档的每一页转为图片格式的数据;
步骤B、文字获取步骤,获取文档每一页的文字、各文字在图片中的状态信息;
步骤C、文字图像映射步骤,生成各页文字信息与图片所对应的映射表,该表中包含有各文字在图片中的状态信息。
所述图片转化步骤、文字获取步骤把每一个文档的每一页转换为一张无损图片文件和一个包含该页所有文字信息的文本文件,图片文件用于在网页上显示,文本文件用于文档的全文搜索;为了能够提取在图片选择区域中的文字,在转换时,所述文字图像映射步骤中生成一张文字图像映射表,该表中定了所有文字在图片中的状态;所述文字在图片中的状态信息包括文字的位置、旋转状态数据、扭曲状态数据、缩放状态数据。
此外,所述方法还可以包括步骤D、PPT-FLASH转换步骤,将PPT格式的数据转换为FLASH格式,其包括:
PPT分析步骤,分析PPT文档的结构,把PPT文档中的对象分为PPT对象、资源对象;所述PPT对象包括PPT对象的形状、文本、效果,所述资源对象包括图片、音乐、视频、FLASH文件;
FLASH生成步骤,把PPT对象的形状、文本、效果对应生成与FLASH一致的形状、文本、效果,同时把PPT中的图片、音乐、视频、FLASH文件嵌入或载入FLASH文档中;
FLASH生成步骤包括
-形状生成步骤,用以根据所述PPT分析器获取的PPT文件中每个形状的大小、几何形状、矩形轮廓框和位置,利用这些信息生成与Flash一致的形状;
-文本生成步骤,用以根据所述PPT分析步骤获取的PPT文件中的文本大小、定位、样式、字体和位置,利用这些信息生成与Flash一致的文本;
-效果生成步骤,用以根据所述PPT分析步骤获取的PPT文件中的动画效果类别、动画效果参数,利用这些信息生成包含ActionScript脚本的Flash一致的动画效果;
-图片生成步骤,用以根据所述PPT分析步骤解析出的图片尺寸、定位、位置,将图片数据进行压缩优化后直接生成与Flash一致的图片;
-音乐生成步骤,用以根据所述PPT分析步骤解析出的PPT文件中的音频对象,将音频数据进行压缩优化后直接嵌入到Flash文档;
-视频生成步骤,用以根据所述PPT分析步骤解析出的PPT文件中的视频对象,将视频数据转换成flv视频格式,利用Flash课件播放器进行播放视频;
-FLASH生成步骤,用以根据所述PPT分析步骤解析出的PPT文件中的Flash对象,直接将Flash对象生成单独的Flash文件,利用Flash课件播放器直接载入Flash文档。
综上所述,本发明提出的文档格式转化系统及方法,把原来复杂的文档转变成为统一的基本的数据,这些数据都是现有Web2.0技术能够支持的数据格式,只需要标准的浏览器就可以查看各种文档资源;避免了因为没有安装软件而不能阅读文档的问题。转换成转有格式,会员不用下载任何插件或软件,即可进行高质量的阅读。
本发明与现有的PPT网上播放方式相比具有以下优势:
(1)实现了大部分PPT的强大功能:
页内的各种动画效果;
页之间的切换效果;
左右手鼠标进行翻页(快捷键支持方向键);
缩略图查看;
全屏观看;
课件全文搜索。
(2)整合外部资源:
在线插入外部音频;
在线插入外部视频。
(3)整合学习社区功能:
课件提问,问答共享;
每页笔记,笔记共享;
在线书籍相关;
发表课件评论,评论共享;
相关文章,文章共享;
BBS讨论。
(4)只需Flash播放器插件即可(98%的电脑已安装此通用插件);
无刷新操作;
加载缓冲技术,提高加载速度;
支持大部分主流浏览器;
跨平台,与操作系统无关。
实施例二
本发明的改进之一在于对文档的转化,请参阅图6,本发明的转换规则如下所述:
文本数据的纯文本信息→纯文本数据(.txt格式);
字体信息,文本特效和图片数据→图片数据(.png格式);
文字数据与图片数据的对应关系→XML数据(.xml格式);
多媒体数据→Adobe Flash(.swf格式);
脚本数据→抛弃(出于安全角度考虑)。
请参阅图4,图片转化模块的无损图片转换中,使用逐字解析技术确保文档所有信息都被读取,使用目前色彩最好的32位图像技术生成内存图像,使用字体映射技术和二次立方算法保证图像的质量。
本实施例的原理及技术如下:
本发明中计算机成像的原理:计算机图像的最小单位是像素即每英寸72个像素,每个像素上可以使用的颜色有2的24次方种,就是现在通用的RGB规则。RGB规则就是使用红(red),绿(green),蓝(blue)分量合成一种颜色,每种颜色可以有256个分量,所以共有256×256×256中颜色,等价于2的24次方。在RGB规则的基础上再增加一个透明(Alpha)分量,就构成了ARGB规则,其中A表示透明度,透明度是一种颜色叠加算法,就是将一个像素上的两种颜色合成一种颜色使其在视觉效果上实现透明效果。
字体映射技术:字体是将一种文字显示为点阵图片的程序,分为两种,点阵字体和矢量字体,其中点阵字体主要用与老式的黑白显示器,矢量字体就是通过一种复杂算法生成点阵图,现在通用的TrueType字体就是这种。本实施例使用矢量字体点阵。
二次立方算法单元中所提到的二次立方算法:这种算法的主要目的是根据相邻像素重新计算本像素的颜色值,在视觉上呈现比较光滑的效果,是图像抗锯齿的一种常用算法。
图片最小化转换:使用动态分析色素技术保证生成最小尺寸的图像文件。纯文本数据使用无格式文档存储。虽然每个像素可以使用高达2的24次方种颜色,但是对于具体的一个图片,不可能使用这么多像素,所以就将这张图片所使用的颜色值存储为调色板。例如一般文档中都是白底黑字,那么它仅使用了两种颜色,在这种情况下使用RGB颜色方案就显得没有必要了,这时使用简单的位图就足够了,这样生成的图片文件就大大缩小了,而且图像数据没有丢失。
文字图像映射转换:每一个文档的每一页将被转换为一张无损图片文件和一个包含该页所有文字信息的文本文件,图片文件用于在网页上显示,文本文件用于文档的全文搜索。为了能够提取在图片选择区域中的文字,转换时会生成一张文字图像映射表,该表中定了所有文字在图片中的状态(位置,旋转,扭曲,缩放)。
由于文字在图像中表现方法非常复杂,使用常规算法很难确定,所以在文字图像映射转换中使用三维矩阵算法来实现。下面描述一下如何使用三维矩阵算法来计算文字在图片中的位置,旋转,扭曲和缩放。
本实施例通过三维矩阵 a b g c d h e f i 定义文字在图片中的位置,旋转,扭曲和缩放。各字母的表示如下:
a:水平方向缩放;
b:水平方向扭曲;
c:垂直方向扭曲;
d:垂直方向缩放;
e:水平方向位置;
f:水平方向位置;
g:三维图像使用,目前不使用,为常量值0;
h:三维图像使用,目前不使用,为常量值0;
i:三维图像使用,目前不使用,为常量值1。
请参阅图5,介绍了本实施例中字符的状态表示方法。
实施例三
本实施例在包含有文档转化功能的同时还包括FLASH转化功能,可把PPT文件转化为FLASH文件。
关键技术应用如下:
(1)PPT课件解析器
系统通过Microsoft Office Powerpoint提供的API接口获取PPT课件的文档信息,本发明收集PPT课件中的每一个对象、幻灯片的布局、形状,文本的动画效果和一些嵌入的对象。利用这些信息将它们转换成Flash格式的对象。
请参阅表1,系统解析出PPT的布局、文档内容,精确的计算出每个对象的位置、大小和几何形状等,并通过获取的动画效果生成相对应的flash格式文档,以下表格描述了系统是如何处理PPT的每个对象。
  对象   描述
  Shapes   系统获取PPT中每个Shape的大小、几何形状、矩形轮廓框和位置,利用这些信息生成与Flash一致的Shape
  Texts   系统获取PPT中的文本大小、定位、样式、字体和位置,利用这些信息生成与Flash一致的Text
  AnimationEffects   系统获取PPT中的动画效果类别(例如飞入、淡出等),动画效果参数(例如方向、速度、旋转、透明等),利用这些信息生成包含ActionScript脚本的Flash一致的动画效果
  Image   系统解析出图片尺寸、定位、位置,将图片数据进行压缩优化后直接生成与Flash一致的Image
  Audio   系统解析出PPT中的音频对象,将音频数据进行压缩优化后直接嵌入到Flash文档
  Video   系统解析出PPT中的视频对象,将视频数据转换成flv视频格式,利用Flash课件播放器进行播放视频
  Flash   系统解析出PPT中的Flash对象,直接将Flash对象生成单独的Flash文件,利用Flash课件播放器直接载入Flash文档
表1
(2)PPT课件转换成Flash格式文档
本发明中的Flash文档生成器,完全按照Adobe Flash 8文档格式规范,兼容Adobe Flash Player 8以上的所有插件版本(现在最新的是Adobe FlashPlayer 11),通过标准的xml格式定义生成Flash文档。
(3)Flash文档播放器
应该格式转换后,被转换的文件通过FLASH播放器播放。
本发明的播放器不仅可以完美保留PPT课件的动画效果,同时也支持文档、图片、设计稿件、流程图、工程文件等超多类型的文档资料。就像现有的视频网站的视频播放器一样,本发明播放器也是采用Flash技术实现,并嵌入到网页中展示文件。利用本发明播放器,常见的Word、Excel、TXT、PDF、PSD、JPG、PPT以及更多其他格式的文件资料,都可以直接在线浏览,而无需在电脑上安装这些文件的相应软件。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

Claims (8)

1.一种文档格式转化系统,其特征在于,该系统包括:
图片转化模块,用以把文档的每一页转为图片格式的数据;
文字获取模块,用以获取文档每一页的文字、各文字在图片中的状态信息;
文字图像映射模块,用以生成各页文字信息与图片所对应的映射表,该表中包含有各文字在图片中的状态信息;
所述图片转化模块、文字获取模块把每一个文档的每一页转换为一张无损图片文件和一个包含该页所有文字信息的文本文件,图片文件用于在网页上显示,文本文件用于文档的全文搜索;为了能够提取在图片选择区域中的文字,在转换时,所述文字图像映射模块生成一张文字图像映射表,该表中确定了所有文字在图片中的状态;所述文字在图片中的状态信息包括文字的位置、旋转状态数据、扭曲状态数据、缩放状态数据;
所述系统进一步包括PPT-FLASH转换模块,用以将PPT格式的数据转换为FLASH格式,其包括:
PPT分析器,用以分析PPT文档的结构,把PPT文档中的对象分为PPT对象、资源对象;所述PPT对象包括PPT对象的形状、文本、效果,所述资源对象包括图片、音乐、视频、FLASH文件;
FLASH生成器,用以把PPT对象的形状、文本、效果对应生成与FLASH一致的形状、文本、效果,同时把PPT中的图片、音乐、视频、FLASH文件嵌入或载入FLASH文档中;
所述FLASH生成器包括:
形状生成单元,用以根据所述PPT分析器获取的PPT文件中每个形状的大小、几何形状、矩形轮廓框和位置,利用这些信息生成与Flash一致的形状;
文本生成单元,用以根据所述PPT分析器获取的PPT文件中的文本大小、定位、样式、字体和位置,利用这些信息生成与Flash一致的文本;
效果生成单元,用以根据所述PPT分析器获取的PPT文件中的动画效果类别、动画效果参数,利用这些信息生成包含ActionScript脚本的Flash 一致的动画效果;
图片生成单元,用以根据所述PPT分析器解析出的图片尺寸、定位、位置,将图片数据进行压缩优化后直接生成与Flash一致的图片;
音乐生成单元,用以根据所述PPT分析器解析出的PPT文件中的音频对象,将音频数据进行压缩优化后直接嵌入到Flash文档;
视频生成单元,用以根据所述PPT分析器解析出的PPT文件中的视频对象,将视频数据转换成flv视频格式,利用Flash课件播放器进行播放视频;
FLASH生成单元,用以根据所述PPT分析器解析出的PPT文件中的Flash对象,直接将Flash对象生成单独的Flash文件,利用Flash课件播放器直接载入Flash文档。
2.一种文档格式转化系统,其特征在于,该系统包括:
图片转化模块,用以把文档的每一页转为图片格式的数据;
文字获取模块,用以获取文档每一页的文字、各文字在图片中的状态信息;
文字图像映射模块,用以生成各页文字信息与图片所对应的映射表,该表中包含有各文字在图片中的状态信息。
所述系统进一步包括PPT-FLASH转换模块,用以将PPT格式的数据转换为FLASH格式,其包括:
PPT分析器,用以分析PPT文档的结构,把PPT文档中的对象分为PPT对象、资源对象;所述PPT对象包括PPT对象的形状、文本、效果,所述资源对象包括图片、音乐、视频、FLASH文件;
FLASH生成器,用以把PPT对象的形状、文本、效果对应生成与FLASH一致的形状、文本、效果,同时把PPT中的图片、音乐、视频、FLASH文件嵌入或载入FLASH文档中。
3.根据权利要求2所述的文档格式转化系统,其特征在于: 
所述FLASH生成器包括:
形状生成单元,用以根据所述PPT分析器获取的PPT文件中每个形状的大小、几何形状、矩形轮廓框和位置,利用这些信息生成与Flash一致的形状;
文本生成单元,用以根据所述PPT分析器获取的PPT文件中的文本大小、定位、样式、字体和位置,利用这些信息生成与Flash一致的文本;
效果生成单元,用以根据所述PPT分析器获取的PPT文件中的动画效果类别、动画效果参数,利用这些信息生成包含ActionScript脚本的Flash一致的动画效果;
图片生成单元,用以根据所述PPT分析器解析出的图片尺寸、定位、位置,将图片数据进行压缩优化后直接生成与Flash一致的图片;
音乐生成单元,用以根据所述PPT分析器解析出的PPT文件中的音频对象,将音频数据进行压缩优化后直接嵌入到Flash文档;
视频生成单元,用以根据所述PPT分析器解析出的PPT文件中的视频对象,将视频数据转换成flv视频格式,利用Flash课件播放器进行播放视频;FLASH生成单元,用以根据所述PPT分析器解析出的PPT文件中的Flash对象,直接将Flash对象生成单独的Flash文件,利用Flash课件播放器直接载入Flash文档。
4.根据权利要求2所述的文档格式转化系统,其特征在于:
所述图片转化模块、文字获取模块把每一个文档的每一页转换为一张无损图片文件和一个包含该页所有文字信息的文本文件,图片文件用于在网页上显示,文本文件用于文档的全文搜索;
为了能够提取在图片选择区域中的文字,在转换时,所述文字图像映射模块生成一张文字图像映射表,该表中确定了所有文字在图片中的状态;
所述文字在图片中的状态信息包括文字的位置、旋转状态数据、扭曲状态数据、缩放状态数据。 
5.根据权利要求4所述的文档格式转化系统,其特征在于:
通过三维矩阵定义文字在图片中的状态信息,三维矩阵中包括定义如下文字状态的参数:
水平方向缩放参数;
水平方向扭曲参数;
垂直方向扭曲参数;
垂直方向缩放参数;
水平方向位置参数;
垂直方向位置参数。
6.根据权利要求2所述的文档格式转化系统,其特征在于:
所述图片转化模块使用逐字解析技术确保文档所有信息都被读取,使用32位图像技术生成内存图像,使用字体映射技术和二次立方算法确保图像的质量;
所述图片转化模块包括
逐字解析单元,用以逐字解析出文档的所有信息;
字体映射单元,用以把文字信息显示为点阵图片;
二次立方算法单元,用以根据相邻像素重新计算本像素的颜色值,在视觉上呈现较光滑的效果,消除图像的锯齿;
图片最小化转换单元,使用动态分析色素技术保证生成小尺寸的图像文件,纯文本数据使用无格式文档存储。
7.一种文档格式转化方法,其特征在于,该方法包括如下步骤:
图片转化步骤,把文档的每一页转为图片格式的数据;
文字获取步骤,获取文档每一页的文字、各文字在图片中的状态信息;
文字图像映射步骤,生成各页文字信息与图片所对应的映射表,该表中包含有各文字在图片中的状态信息。 
所述方法进一步包括PPT-FLASH转换步骤,将PPT格式的数据转换为FLASH格式,其包括:
PPT分析步骤,分析PPT文档的结构,把PPT文档中的对象分为PPT对象、资源对象;所述PPT对象包括PPT对象的形状、文本、效果,所述资源对象包括图片、音乐、视频、FLASH文件;
FLASH生成步骤,把PPT对象的形状、文本、效果对应生成与FLASH一致的形状、文本、效果,同时把PPT中的图片、音乐、视频、FLASH文件嵌入或载入FLASH文档中;
FLASH生成步骤包括:
-形状生成步骤,用以根据所述PPT分析器获取的PPT文件中每个形状的大小、几何形状、矩形轮廓框和位置,利用这些信息生成与Flash一致的形状;
-文本生成步骤,用以根据所述PPT分析步骤获取的PPT文件中的文本大小、定位、样式、字体和位置,利用这些信息生成与Flash一致的文本;
-效果生成步骤,用以根据所述PPT分析步骤获取的PPT文件中的动画效果类别、动画效果参数,利用这些信息生成包含ActionScript脚本的Flash一致的动画效果;
-图片生成步骤,用以根据所述PPT分析步骤解析出的图片尺寸、定位、位置,将图片数据进行压缩优化后直接生成与Flash一致的图片;
-音乐生成步骤,用以根据所述PPT分析步骤解析出的PPT文件中的音频对象,将音频数据进行压缩优化后直接嵌入到Flash文档;
-视频生成步骤,用以根据所述PPT分析步骤解析出的PPT文件中的视频对象,将视频数据转换成flv视频格式,利用Flash课件播放器进行播放视频;
-FLASH生成步骤,用以根据所述PPT分析步骤解析出的PPT文件中的Flash对象,直接将Flash对象生成单独的Flash文件,利用Flash课件播放器直接载入Flash文档。 
8.根据权利要求7所述的文档格式转化方法,其特征在于:
所述图片转化步骤、文字获取步骤把每一个文档的每一页转换为一张无损图片文件和一个包含该页所有文字信息的文本文件,图片文件用于在网页上显示,文本文件用于文档的全文搜索;
为了能够提取在图片选择区域中的文字,在转换时,所述文字图像映射步骤中生成一张文字图像映射表,该表中定了所有文字在图片中的状态;
所述文字在图片中的状态信息包括文字的位置、旋转状态数据、扭曲状态数据、缩放状态数据。 
CN2009101984219A 2009-11-06 2009-11-06 文档格式转化系统及方法 Active CN101699426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101984219A CN101699426B (zh) 2009-11-06 2009-11-06 文档格式转化系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101984219A CN101699426B (zh) 2009-11-06 2009-11-06 文档格式转化系统及方法

Publications (2)

Publication Number Publication Date
CN101699426A CN101699426A (zh) 2010-04-28
CN101699426B true CN101699426B (zh) 2012-02-29

Family

ID=42147886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101984219A Active CN101699426B (zh) 2009-11-06 2009-11-06 文档格式转化系统及方法

Country Status (1)

Country Link
CN (1) CN101699426B (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872364A (zh) * 2010-07-02 2010-10-27 苏州阔地网络科技有限公司 一种实现在线将文档转换为图片的方法
CN101963956B (zh) * 2010-09-19 2013-09-25 深圳万兴信息科技股份有限公司 一种xml文档转换为pptx文档的方法和装置
CN102222095B (zh) * 2011-06-10 2013-04-17 百度在线网络技术(北京)有限公司 一种用于对待显示的页面进行转换处理的设备及其方法
CN102331982B (zh) * 2011-07-28 2014-03-05 深圳万兴信息科技股份有限公司 自适应窗体大小的pdf文档显示方法、系统及移动终端
CN102332002B (zh) * 2011-07-28 2013-11-13 深圳市万兴软件有限公司 一种将pdf格式文件转换为epub格式的方法及系统
CN102387136A (zh) * 2011-10-10 2012-03-21 深圳中兴网信科技有限公司 一种分布式PPT转换成swf的系统及方法
CN102368263B (zh) * 2011-10-17 2013-03-06 苏州阔地网络科技有限公司 一种文件格式转换的方法及装置
CN102375884A (zh) * 2011-10-21 2012-03-14 北京百度网讯科技有限公司 一种用于对页面访问对象进行数据压缩的方法及设备
CN102402500A (zh) * 2011-11-23 2012-04-04 上海居冠软件有限公司 Pdf文件到swf文件转换方法及系统
CN103186912B (zh) * 2011-12-28 2016-07-06 北京神州泰岳软件股份有限公司 以图片格式展示文字的方法及系统
CN103365894B (zh) * 2012-03-29 2016-07-13 天津书生软件技术有限公司 一种字体格式转换方法和装置
CN102968403A (zh) * 2012-10-29 2013-03-13 陆昀 无插件在线阅读方法
CN103384346B (zh) * 2012-12-28 2016-09-28 深圳海联讯科技股份有限公司 一种ppt文件处理的方法及装置
CN103116604B (zh) * 2013-01-15 2016-06-29 北京天智通达信息技术有限公司 一种数字阅读格式到数字多维度多媒体(dmm)格式的转换方法
CN103246830B (zh) * 2013-04-28 2016-04-13 小米科技有限责任公司 客户端脚本的加密处理方法及装置和解密处理方法及装置
CN103353878A (zh) * 2013-06-14 2013-10-16 陆昀 将多种格式的文档显示在网页中的方法
CN103617151A (zh) * 2013-12-03 2014-03-05 深圳市问鼎资讯有限公司 一种flash课件的制作方法
CN103744983A (zh) * 2014-01-15 2014-04-23 北京理工大学 一种电子文档的元信息提取方法
CN103823684A (zh) * 2014-03-04 2014-05-28 徐州工业职业技术学院 一种基于浏览器的网页课件演示辅助系统及方法
CN105022749A (zh) * 2014-04-28 2015-11-04 上海未达数码科技有限公司 一种基于安卓平台的文档演示实现方法
CN104050155A (zh) * 2014-07-01 2014-09-17 西安诺瓦电子科技有限公司 文本编辑装置及文本编辑方法
CN105373471B (zh) * 2014-08-29 2019-05-24 腾讯科技(深圳)有限公司 用于内存泄露漏洞的检测方法和装置
CN104199806A (zh) * 2014-09-26 2014-12-10 广州金山移动科技有限公司 一种组合图示的配置方法及装置
CN104462522A (zh) * 2014-12-23 2015-03-25 深圳供电局有限公司 一种文件在线预览的方法和移动终端、服务器
CN106557289A (zh) * 2015-09-29 2017-04-05 珠海金山办公软件有限公司 一种幻灯片显示方法、系统及装置
CN105824788B (zh) * 2016-03-18 2019-04-12 天津城建大学 一种将演示文稿文件转换为word文件的方法和系统
CN105956593A (zh) * 2016-05-09 2016-09-21 珠海市魅族科技有限公司 图片处理方法和装置
CN106021343A (zh) * 2016-05-09 2016-10-12 杭州施强教育科技有限公司 一种应用于移动终端的ppt文件处理方法
CN107707932A (zh) * 2016-08-08 2018-02-16 北京优朋普乐科技有限公司 一种文件点播方法、装置及系统
CN106681615A (zh) * 2016-12-30 2017-05-17 深圳市创凯智能股份有限公司 一种文档查看方法及装置
CN108737482B (zh) * 2017-04-24 2020-11-27 腾讯科技(深圳)有限公司 文档分享方法、装置和系统
CN108781218A (zh) * 2017-11-07 2018-11-09 深圳市大疆创新科技有限公司 数据处理方法、数据发送端、接收端和通信系统
CN109992754B (zh) * 2017-12-29 2023-06-16 阿里巴巴(中国)有限公司 文档处理方法及装置
CN108415887B (zh) * 2018-02-09 2021-04-16 武汉大学 一种pdf文件向ofd文件转化的方法
CN109271535B (zh) * 2018-08-10 2021-07-23 全播教育科技(广东)有限公司 一种ppt动画分析、提取及转换为图片格式的处理方法
CN109271613B (zh) * 2018-09-25 2022-12-06 四川译讯信息科技有限公司 一种pdf文件解析方法
CN109408777A (zh) * 2018-10-15 2019-03-01 南京中孚信息技术有限公司 基于快速浏览的文档处理方法、装置和文档服务器
CN109493401B (zh) * 2018-10-23 2019-11-22 北京字节跳动网络技术有限公司 演示文稿生成方法、装置以及电子设备
CN109657211A (zh) * 2018-12-11 2019-04-19 万兴科技股份有限公司 在线格式转换的方法、装置及智能终端
CN109918351B (zh) * 2019-02-28 2021-04-23 中国地质大学(武汉) 一种Beamer演示文稿向PowerPoint演示文稿转换的方法及系统
CN111914760B (zh) * 2020-08-04 2021-03-30 华中师范大学 一种在线课程视频资源构成的解析方法及系统
CN114598893B (zh) * 2020-11-19 2024-04-30 京东方科技集团股份有限公司 文字的视频实现方法及系统、电子设备、存储介质
CN112287914B (zh) * 2020-12-27 2021-04-02 平安科技(深圳)有限公司 Ppt视频段提取方法、装置、设备及介质
CN113485160A (zh) * 2021-07-26 2021-10-08 中国核电工程有限公司 一种基于图形匹配识别的仿真建模方法及装置

Also Published As

Publication number Publication date
CN101699426A (zh) 2010-04-28

Similar Documents

Publication Publication Date Title
CN101699426B (zh) 文档格式转化系统及方法
CN100356372C (zh) 计算机版式文件生成方法和打开方法
Lowagie iText in Action
US9484006B2 (en) Manipulation of textual content data for layered presentation
CN102662926B (zh) 字库的存储与访问方法
US8159495B2 (en) Remoting sub-pixel resolved characters
CN106126760A (zh) 一种web网页图片优化的方法
CN110310226B (zh) 图片的拼接显示方法及系统
CN108961361B (zh) 生成特效文字图像的方法及系统、计算机设备
Bagley et al. Creating reusable well-structured PDF as a sequence of component object graphic (COG) elements
CN104424174B (zh) 文档处理系统和文档处理方法
Watt SVG unleashed
CN102332002A (zh) 一种将pdf格式文件转换为epub格式的方法及系统
CN103700363A (zh) 显示器的字型产生系统和显示器的字型产生方法
CN111399788B (zh) 媒体文件播放方法和媒体文件播放装置
CN112416340A (zh) 基于草图的网页生成方法和系统
CN106445320A (zh) 一种制作和展示电子书内容的方法及装置
CN103455808B (zh) 机器字符阅读码的发送装置及编码方法
CN102902658A (zh) 一种炫彩字显示方法和装置
CN101944081A (zh) 一种古琴减字谱的计算机生成、编辑方法与系统
CN103136171B (zh) 一种基于swf的电子书籍制作方法
Brownie A new history of temporal typography: towards fluid letterforms
Carlsson et al. Future Potentials for ASCII art CAC. 3, Paris, France
Dengler et al. Scalable vector graphics (SVG) 1.1
Heath Now You Can Annotate Your Statistical Graphics Procedure Graphs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHANGHAI FENGXIANG NETWORK TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: SHANGHAI TO KNOWLEDGE INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20150818

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150818

Address after: 200072, Shanghai, Zhabei District, 625 extension Road, 15 blocks, room 125

Patentee after: SHANGHAI FENGXIANG NETWORK TECHNOLOGY Co.,Ltd.

Address before: 200435, room 5, building 5199, Gonghe Road, Baoshan District, Shanghai, E

Patentee before: SHANGHAI TO KNOWLEDGE INFORMATION TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 200072 125 room, 15 story 125, Yanchang Road 625, Zhabei District, Shanghai.

Patentee after: SHANGHAI XUNFEI FENGXIANG NETWORK TECHNOLOGY CO.,LTD.

Address before: 200072 125 room, 15 story 125, Yanchang Road 625, Zhabei District, Shanghai.

Patentee before: SHANGHAI FENGXIANG NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20221104

Address after: 200335 room 1966, 1st floor, building 8, 33 Guangshun Road, Changning District, Shanghai

Patentee after: IFLYTEK (Shanghai) Technology Co.,Ltd.

Address before: 200072 125 room, 15 story 125, Yanchang Road 625, Zhabei District, Shanghai.

Patentee before: SHANGHAI XUNFEI FENGXIANG NETWORK TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right