CN102118439A

CN102118439A - 一种文档内容的自动处理方法、自动处理装置及编辑器

Info

Publication number: CN102118439A
Application number: CN2011100215052A
Authority: CN
Inventors: 陈浩然; 苏上海; 耿艳坤; 陈恭明; 来瑾颖
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Baidu Inc
Priority date: 2011-01-19
Filing date: 2011-01-19
Publication date: 2011-07-06

Abstract

本发明公开了一种文档内容的自动处理方法、自动处理装置及编辑器，所述方法包括：获取文档内容的格式标签；对所述文档内容的格式标签进行辨别，获取所述格式标签的类别；在预先存储的标签状态中匹配与所述格式标签的类别一致的标签状态，并根据匹配到的标签状态对所述文档内容进行处理。本发明能够对不同文档内容的格式标签对文档内容进行自动处理，满足对不同格式标签的文档内容的自动处理需求。

Description

一种文档内容的自动处理方法、自动处理装置及编辑器

【技术领域】

本发明涉及文档处理技术领域，特别涉及一种文档内容的自动处理方法、自动处理装置及编辑器。

【背景技术】

随着终端技术的不断发展，用户对终端功能的要求也越来越高，尤其在编辑文档内容时，希望自己编辑的内容能够得到完美的呈现。

但是现有技术中，不同的文档内容对应各种各样的格式标签，譬如HTML、JSP、ASP、PHP等。

其中，HTML(Hyper Text Mark-up Language)，即超文本标记语言或超文本链接标示语言，是目前网络上应用最为广泛的语言，也是构成网页文档内容的主要语言。

HTML文本是由HTML命令组成的描述性文本，HTML命令可以说明文字、图形、动画、声音、表格或者链接等。HTML的结构包括头部(Head)和主体(Body)两大部分，其中头部描述浏览器所需的信息，主体包含所要说明的具体内容。

HTML编辑器大体可以分为三种：

1)基本编辑软件，使用Windows自带的记事本或写字版都可以编写，当然，也可以用WPS来编写。存盘时使用.htm或.html作为扩展名，这样浏览器就可以解释执行了。

2)半所见即所得软件，这种软件能大大提高开发效率，可以在很短的时间内做出Homepage，且可以学习HTML，这种类型的软件主要有Hotdog，还有其他譬如软件网页作坊。

3)所见即所得软件，使用最广泛的编辑器，完全可以一点不懂HTML的知识就可以做出网页，这类软件主要有Frontpage等。

HTML文档具有以下优点：

1、简易性，HTML版本升级采用超集方式，从而更加灵活方便。

2、可扩展性，HTML语言的广泛应用带来了加强功能，增加标识符等要求，HTML采取子类元素的方式，为系统扩展带来保证。

3、平台无关性，虽然PC机大行其道，但使用MAC等其他机器的大有人在，HTML可以使用在广泛的平台上。

JSP(Java Server Pages)，是由Sun Microsystems公司倡导、其他公司参与一起建立的一种动态网页技术标准。

JSP是在传统的网页HTML文件(*.htm，*.html)中插入Java程序段(Scriptlet)和JSP标记(tag)，从而形成JSP文件(*.jsp)。用JSP开发的Web应用是跨平台的，既能在Linux下运行，也能在其他操作系统上运行。

JSP技术使用Java编程语言编写类XML的tags和scriptlets，来封装产生动态网页的处理逻辑。网页还能通过tags和scriptlets访问存在于服务端的资源的应用逻辑。JSP将网页逻辑与网页设计和显示分离，支持可重用的基于组件的设计，使基于Web的应用程序的开发变得迅速和容易。

Web服务器在遇到访问JSP网页的请求时，首先执行其中的程序段，然后将执行结果连同JSP文件中的HTML代码一起返回给客户。插入的Java程序段可以操作数据库、重新定向网页等，以实现建立动态网页所需要的功能。JSP与Java Servlet一样，是在服务器端执行的，通常返回给客户端的就是一个HTML文本，因此客户端只要有浏览器就能浏览。

JSP具有以下优点：

1、一次编写，到处运行，除了系统之外，代码不用做任何更改。

2、系统的多平台支持，基本上可以在所有平台上的任意环境中开发，在任意环境中进行系统部署，在任意环境中扩展。

3、强大的可伸缩性，从只有一个小的Jar文件就可以运行Servlet/JSP，到由多台服务器进行集群和负载均衡，到多台Application进行事务处理，消息处理。

4、多样化和功能强大的开发工具支持，Java已经有了许多非常优秀的开发工具，而且许多可以免费得到，并且其中许多已经可以顺利的运行于多种平台之下。

5、支持服务器端组件，web应用需要强大的服务器端组件来支持，开发人员需要利用其他工具设计实现复杂功能的组件供web页面调用，以增强系统性能。

ASP(Active Server Page)，即为动态服务器页面。ASP是微软公司开发的代替CGI脚本程序的一种应用，它可以与数据库和其它程序进行交互，是一种简单、方便的编程工具。

ASP的网页文件的格式是.asp，现在常用于各种动态网站中，可以用来创建和运行动态网页或Web应用程序。ASP网页可以包含HTML标记、普通文本、脚本命令等。利用ASP可以向网页中添加交互式内容，也可以创建使用HTML网页作为用户界面的web应用程序。

与HTML相比，ASP网页具有以下特点：

1)利用ASP可以实现突破静态网页的一些功能限制，实现动态网页技术。

2)ASP文件是包含在HTML代码所组成的文件中的，易于修改和测试。

3)服务器上的ASP解释程序会在服务器端执行ASP程序，并将结果以HTML格式传送到客户端浏览器上，因此使用各种浏览器都可以正常浏览ASP所产生的网页。

4)ASP提供了一些内置对象，使用这些对象可以使服务器端脚本功能更强。例如可以从web浏览器中获取用户通过HTML表单提交的信息，并在脚本中对这些信息进行处理，然后向web浏览器发送信息。

5)ASP可以使用服务器端ActiveX组件来执行各种各样的任务，例如存取数据库、发送Email或访问文件系统等。

6)由于服务器是将ASP程序执行的结果以HTML格式传回客户端浏览器，因此使用者不会看到ASP所编写的原始程序代码，可防止ASP程序代码被窃取。

PHP(Hypertext Preprocessor)，即超级文本预处理语言。

PHP是一种HTML内嵌式的语言，是一种在服务器端执行的嵌入HTML文档的脚本语言，语言的风格有类似于C语言，被广泛的运用

用PHP做出的动态页面与其他的编程语言相比，PHP是将程序嵌入到HTML文档中去执行，执行效率比完全生成HTML标记的公共网关接口(CGI)要高许多；PHP还可以执行编译后代码，编译可以达到加密和优化代码运行，使代码运行更快。PHP具有非常强大的功能，所有的CGI的功能PHP都能实现，而且支持几乎所有流行的数据库以及操作系统。

其中，PHP具有以下优点：

1、开放的源代码，所有的PHP源代码事实上都可以得到。

2、PHP是免费的，和其它技术相比，PHP本身免费。

3、PHP的快捷性，程序开发快，运行快，技术本身学习快，而且可以嵌入HTML，因为PHP可以嵌入HTML语言，它相对于其他语言，编辑简单，实用性强，更适合初学者。

4、跨平台性强，由于PHP是运行在服务器端的脚本，可以运行在UNIX、LINUX、WINDOWS下。

5、效率高，PHP消耗相当少的系统资源。

由于不同的文档内容对应各种各样的格式标签，因此在对用户编辑的文档内容进行处理时，基本上都是由系统固定的标签状态对文档内容进行处理，一旦用户编辑的文档内容的格式标签不符合系统自带的标签状态，将自动过滤掉用户编辑的文档内容，给用户的使用带来极大的不便。

如何能够针对不同文档内容的格式标签对相应的文档内容进行自动处理，满足对不同格式标签的文档内容的自动处理需求，是文档处理技术领域研究的方向之一。

【发明内容】

本发明所要解决的技术问题是提供一种文档内容的自动处理方法，以能够针对不同文档内容的格式标签对相应的文档内容进行自动处理，满足对不同格式标签的文档内容的自动处理需求。

本发明为解决技术问题而采用的技术方案是提供一种文档内容的自动处理方法，所述方法包括以下步骤：

获取文档内容的格式标签；

对所述文档内容的格式标签进行辨别，获取所述格式标签的类别；

在预先存储的标签状态中匹配与所述格式标签的类别一致的标签状态，并根据匹配到的标签状态对所述文档内容进行自动处理。

根据本发明之一优选实施例，所述方法还包括以下步骤：

预先设置对应不同格式标签类别的标签状态，其中，不同的标签状态对应不同的格式标签的类别。

根据本发明之一优选实施例，所述对所述文档内容的格式标签进行辨别，获取所述格式标签的类别的步骤具体包括：

对所述格式标签的统一标识进行判断，若符合统一标识，则判断与所述统一标识相邻的下一标签元素；

根据对与所述统一标识相邻的下一标签元素的判断结果获取所述格式标签的类别。

根据本发明之一优选实施例，所述格式标签包括：<html>、<％...>、以及<？php>，其中<html>表示Html标签，<％...>表示ASP或者JSP标签，<？php>表示PHP标签。

根据本发明之一优选实施例，所述格式标签的统一标识为“<”，其中，“<”为不同类别的格式标签都具有的开始标识符号，格式标签中的末尾还包括有标识符号“>”。

根据本发明之一优选实施例，若与统一标识“<”相邻的下一标签元素为“/”，则处理格式标签结束。

根据本发明之一优选实施例，处理格式标签结束的步骤中进一步包括下述步骤之一或其组合：判断是否包含被删除的内容标签、判断是否未闭合内容标签。

根据本发明之一优选实施例，若与统一标识“<”相邻的下一标签元素为“？”，则调用预先存储的PHP标签状态对文档内容的数据进行处理。

根据本发明之一优选实施例，若与统一标识“<”相邻的下一标签元素为“％”，则调用预先存储的JSP标签状态对文档内容的数据进行处理。

根据本发明之一优选实施例，若与统一标识“<”相邻的下一标签元素为“！”，则进行处理注释的步骤。

根据本发明之一优选实施例，若与统一标识“<”相邻的下一标签元素为不同于“/”、“？”、“％”、“！”的其他元素，则处理所述格式标签起始。

根据本发明之一优选实施例，处理所述格式标签起始的步骤中进一步包括下述步骤之一或其组合：判断是否属于内容删除、判断是否属于非法删除、判断是否属于嵌套规则以及判断属性是否合法。

根据本发明之一优选实施例，当判断属性合法时，则保留格式标签的起始标签。

根据本发明之一优选实施例，所述标签状态为用户输入的标签状态。

本发明为解决技术问题而采用的技术方案是提供一种文档内容的自动处理装置，其特征在于，所述装置包括：

格式标签获取模块，用于获取文档内容的格式标签；

类别获取模块，用于对所述文档内容的格式标签进行辨别，获取所述格式标签的类别；

处理模块，用于在预先存储的标签状态中匹配与所述格式标签的类别一致的标签状态，并根据匹配到的标签状态对所述文档内容进行自动处理。

根据本发明之一优选实施例，所述装置还包括：

设置模块，用于预先设置对应不同格式标签类别的标签状态，其中，不同的标签状态对应不同的格式标签的类别。

根据本发明之一优选实施例，所述类别获取模块具体包括：

判断模块，用于对所述格式标签的统一标识进行判断，若符合统一标识，则判断与所述统一标识相邻的下一标签元素；

执行模块，用于根据对与所述统一标识相邻的下一标签元素的判断结果获取所述格式标签的类别。

本发明为解决技术问题而采用的技术方案是提供一种编辑器，包括如上所述的文档内容的自动处理装置。

通过上述实施例，本发明能够对不同文档内容的格式标签对文档内容进行自动处理，满足对不同格式标签的文档内容的自动处理需求。

【附图说明】

图1是本发明实施例中的文档内容的自动处理方法的流程示意图；

图2是本发明实施例中的数据库的结构示意图；

图3是本发明实施例中文档内容的自动处理装置的结构示意图。

【具体实施方式】

下面结合附图和实施例对本发明进行详细说明。

本发明实施例提供了一种文档内容的自动处理方法，所述方法包括以下步骤：

获取文档内容的格式标签；

本发明实施例还提供了一种文档内容的自动处理装置，所述装置包括：

格式标签获取模块，用于获取文档内容的格式标签；

本发明实施例还提供了一种编辑器，所述编辑器包括一文档内容的自动处理装置，所述装置包括：

格式标签获取模块，用于获取文档内容的格式标签；

图1示出了本发明实施例提供的文档内容的自动处理方法的流程。

在步骤S101中，预先设置对应不同格式标签类别的标签状态。

其中，不同的标签状态对应不同的格式标签的类别。

在步骤S102中，获取文档内容的格式标签。

在步骤S103中，对文档内容的格式标签进行辨别，获取格式标签的类别。

譬如，数据标签的类别包括以下几种：

a)、Html：<html>；

b)、ASP或者JSP：<％...>；

c)、PHP：<？php>；

当然也不限于上述几种，此处不一一列举。

在具体实施过程中，在对格式标签进行辨别处理时，首先对格式标签的统一标识进行判断，若符合统一标识，则判断与统一标识相邻的下一标签元素，根据对与统一标识相邻的下一标签元素的判断结果获取格式标签的类别。

具体的辨别处理过程请参阅图2以及针对图2的详细描述。

在步骤S104中，在预先存储的标签状态中匹配与格式标签的类别一致的标签状态，并根据匹配到的标签状态对文档内容进行处理。

优选的，标签状态为用户输入的标签状态，当然也可以是系统自带的标签状态，此处不一一列举。

请参阅图2，图2示出了本发明实施例提供的对格式标签进行辨别处理的流程。

在步骤S201中，对文档内容的格式标签进行扫描，扫描格式标签的统一标识。

本发明实施例中，格式标签的统一标识为“<”，其中，“<”为不同类别的格式标签都具有的开始标识符号，格式标签中的末尾还包括有标识符号“>”。

在具体实施过程中，对格式标签进行扫描时，还判断是否扫描到格式标签的末尾，若是，则结束扫描，若没有，则判断数据是否为空。

若数据不为空，则保留有效数据，并进行步骤S202，若数据为空，仍进行步骤S202。

在步骤S202中，对与统一标识“<”相邻的下一标签元素进行判断。

譬如，在ASP的格式标签中，其格式为：<％...>，显然，与统一标识“<”相邻的下一标签元素为“％”，在判断到“％”后，则判定该格式标签的类别为JSP；

还譬如，在PHP的格式标签中，其格式为：<？php>，显然，与统一标识“<”相邻的下一标签元素为“？”，在判断到“？”后，则判定该格式标签的类别为PHP；

在步骤S203中，若与统一标识“<”相邻的下一标签元素为“/”，则处理格式标签结束。

在步骤S204中，若与统一标识“<”相邻的下一标签元素为“？”，则调用预先存储的PHP标签状态对文档内容的数据进行处理。

在步骤S205中，若与统一标识“<”相邻的下一标签元素为“％”，则调用预先存储的JSP标签状态对文档内容的数据进行处理。

在步骤S206中，若与统一标识“<”相邻的下一标签元素为“！”，则进行处理注释的步骤。

在步骤S207中，若与统一标识“<”相邻的下一标签元素为不同于“/”、“？”、“％”、“！”的其他元素，则处理所述格式标签起始。

在步骤S208中，判断是否属于内容删除，若是，则进行步骤S216，否则进行步骤S209。

在步骤S209中，判断是否属于非法删除，若是，则进行步骤S216，否则进行步骤S210。

在步骤S210中，判断是否属于嵌套规则，若是，则进行步骤S211，否则进行步骤S216。

在步骤S211中，判断属性是否合法，若是，则进行步骤S212，否则进行步骤S216。

在步骤S212中，保留格式标签的起始标签。

在步骤S213中，判断是否包含被删除的内容标签，若是，则进行步骤S216，否则进行步骤S214。

在步骤S214中，判断是否未闭合内容标签，若是，则进行步骤S215，否则进行步骤S216。

在步骤S215中，保留格式标签的尾标签。

在步骤S216中，过滤删除。

本发明实施例在处理用户编撰文档内容时，能够提供多格式的标签状态支持。

譬如，以一个PHP文档内容为例，其格式为：

<？php

namespace Math

{

class Complex

{

//...code...

function_construct()

{

print(″hey″)；

}

$m＝new Math::Complex()；

？>

首先对PHP文档内容的格式标签进行扫描，扫描格式标签的统一标识“<”，以及标签的末尾“>”，判断数据不为空；

之后，对与统一标识“<”相邻的下一标签元素进行判断，显然，在PHP格式中，与统一标识“<”相邻的下一标签元素为“？”，则调用预先存储的PHP标签状态对文档内容的数据进行处理，处理完毕后，进行过滤删除。

以一个ASP文档内容为例，其格式为：

<％

currentDate＝#8/4/99#

newDate＝DateAdd(″m″，3，currentDate)

response.write newDate

％> <％

currentDate＝#12:34:45 PM#

newDate＝DateAdd(″h″，3，currentDate)

response.write newDate

％>

首先对ASP文档内容的格式标签进行扫描，扫描格式标签的统一标识“<”，以及标签的末尾“>”，判断数据不为空；

之后，对与统一标识“<”相邻的下一标签元素进行判断，显然，在ASP格式中，与统一标识“<”相邻的下一标签元素为“％”，则调用预先存储的ASP标签状态对文档内容的数据进行处理。最后，进行过滤删除。

图3是本发明实施例提供的文档内容的自动处理装置的结构示意图，所述装置包括设置模块31，格式标签获取模块32，类别获取模块33以及处理模块34。

其中，设置模块31预先设置对应不同格式标签类别的标签状态。

譬如，数据标签的类别包括以下几种：

a)、Html：<html>；

b)、ASP或者JSP：<％...>；

c)、PHP：<？php>。

格式标签获取模块32获取文档内容的格式标签。

类别获取模块33对所述文档内容的格式标签进行辨别，获取所述格式标签的类别。

具体的格式标签的类别请参阅上文描述，此处不再赘述。

优选的，类别获取模块33具体包括判断模块331以及执行模块332：

判断模块331对格式标签的统一标识进行判断，若符合统一标识，则判断与统一标识相邻的下一标签元素；

执行模块332根据对与所述统一标识相邻的下一标签元素的判断结果获取格式标签的类别。

处理模块34在预先存储的标签状态中匹配与所述格式标签的类别一致的标签状态，并根据匹配到的标签状态对文档内容进行处理。

本发明实施例还提供一种编辑器，所述编辑器包括本发明实施例提供的文档内容的自动处理装置，鉴于该装置在上文已有详细的描述，此处不再赘述。

本发明实施例能够对不同文档内容的格式标签对文档内容进行自动处理，满足了对不同格式标签的文档内容的自动处理需求。

在上述实施例中，仅对本发明进行了示范性描述，但是本领域技术人员在阅读本专利申请后可以在不脱离本发明的精神和范围的情况下对本发明进行各种修改。

Claims

1.一种文档内容的自动处理方法，其特征在于，所述方法包括以下步骤：

获取文档内容的格式标签；

2.如权利要求1所述的文档内容的自动处理方法，其特征在于，在获取文档内容的格式标签的步骤之前，所述方法还包括以下步骤：

3.如权利要求1所述的文档内容的自动处理方法，其特征在于，所述对所述文档内容的格式标签进行辨别，获取所述格式标签的类别的步骤具体包括：

4.如权利要求3所述的文档内容的自动处理方法，其特征在于，所述格式标签包括：<html>、<％...>、以及<？php>，其中<html>表示Html标签，<％...>表示ASP或者JSP标签，<？php>表示PHP标签。

5.如权利要求4所述的文档内容的自动处理方法，其特征在于，所述格式标签的统一标识为“<”，其中，“<”为不同类别的格式标签都具有的开始标识符号，格式标签中的末尾还包括有标识符号“>”。

6.如权利要求5所述的文档内容的自动处理方法，其特征在于，若与统一标识“<”相邻的下一标签元素为“/”，则处理格式标签结束。

7.如权利要求6所述的文档内容的自动处理方法，其特征在于，处理格式标签结束的步骤中进一步包括下述步骤之一或其组合：判断是否包含被删除的内容标签、判断是否未闭合内容标签。

8.如权利要求5所述的文档内容的自动处理方法，其特征在于，若与统一标识“<”相邻的下一标签元素为“？”，则调用预先存储的PHP标签状态对文档内容的数据进行处理。

9.如权利要求5所述的文档内容的自动处理方法，其特征在于，若与统一标识“<”相邻的下一标签元素为“％”，则调用预先存储的JSP标签状态对文档内容的数据进行处理。

10.如权利要求5所述的文档内容的自动处理方法，其特征在于，若与统一标识“<”相邻的下一标签元素为“！”，则进行处理注释的步骤。

11.如权利要求5所述的文档内容的自动处理方法，其特征在于，若与统一标识“<”相邻的下一标签元素为不同于“/”、“？”、“％”、“！”的其他元素，则处理所述格式标签起始。

12.如权利要求11所述的文档内容的自动处理方法，其特征在于，处理所述格式标签起始的步骤中进一步包括下述步骤之一或其组合：判断是否属于内容删除、判断是否属于非法删除、判断是否属于嵌套规则以及判断属性是否合法。

13.如权利要求12所述的文档内容的自动处理方法，其特征在于，当判断属性合法时，则保留格式标签的起始标签。

14.如权利要求1所述的文档内容的自动处理方法，其特征在于，所述标签状态为用户输入的标签状态。

15.一种文档内容的自动处理装置，其特征在于，所述装置包括：

格式标签获取模块，用于获取文档内容的格式标签；

处理模块，用于在预先存储的标签状态中匹配与所述格式标签的类别一致的标签状态，并根据匹配到的标签状态对所述文档内容进行处理。

16.如权利要求15所述的文档内容的自动处理装置，其特征在于，所述装置还包括：

17.如权利要求15所述的文档内容的自动处理装置，其特征在于，所述类别获取模块具体包括：

18.如权利要求15所述的文档内容的自动处理装置，其特征在于，所述标签状态为用户输入的标签状态。

19.一种编辑器，其特征在于，所述编辑器包括如权利要求1 5至权利要求18所述的文档内容的自动处理装置。