CN102346731B

CN102346731B - 一种文件处理方法及文件处理装置

Info

Publication number: CN102346731B
Application number: CN201010243566.9A
Authority: CN
Inventors: 武亚强; 张建忠; 王哲鹏; 徐超; 王巍
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2010-08-02
Filing date: 2010-08-02
Publication date: 2014-09-03
Anticipated expiration: 2030-08-02
Also published as: US20130132816A1; US10210148B2; CN102346731A; WO2012016505A1

Abstract

本发明提供了一种文件处理方法及文件处理装置。其中所述文件处理方法包括：获得文件；解析所述文件获得所述文件包含的第一字；将所述第一字与预先设置的匹配字库匹配；在所述第一字满足预定条件时，获得所述第一字对应的注释内容；显示所述第一字和所述注释内容。本发明能够实现对文件中特定的字实现自动注释，改善用户的阅读体验。

Description

一种文件处理方法及文件处理装置

技术领域

本发明涉及文字处理技术领域，具体涉及一种文件处理方法及文件处理装置。

背景技术

用户在电子设备(如计算机、个人数字助理PDA、手机、电纸书等)阅读文件时，经常会遇到一些不认识的字词或者一些不能确定其含义或发音的字词，如生僻字词和/或多音字等，这些内容会影响用户对文件内容的充分理解。

为了获得对文件内容的充分理解，现有技术中用户在阅读文件时，例如在遇到生僻字词，需要中断阅读过程去对指定字词进行相关查询操作，例如查询字典，确定指定字词的发音和含义。显然，这种查询操作需要用户在畅快淋漓的阅读过程中不得不中断阅读，因此将打断阅读的连贯性，严重影响用户的阅读体验。

发明内容

本发明实施例所要解决的技术问题是提供一种文件处理方法及文件处理装置，用以实现对文件中特定的字实现自动注释，改善用户的阅读体验。

为解决上述技术问题，本发明实施例提供方案如下：

一种文件处理方法，包括：

获得文件；

解析所述文件获得所述文件包含的第一字；

将所述第一字与预先设置的匹配字库匹配；

在所述第一字满足预定条件时，获得所述第一字对应的注释内容；

显示所述第一字和所述注释内容。

优选地，上述的文件处理方法中，所述显示所述第一字和所述注释内容包括：按照具有第一显示效果的显示方案显示所述第一字，以及按照具有第二显示效果的第二显示方案显示所述注释内容，其中，所述第一显示效果和第二显示效果不同。

优选地，上述的文件处理方法中，

所述显示所述第一字和所述注释内容，包括：

获得所述文件的原始排版；

确定所述注释内容相对于所述第一字的显示位置；

判断所述原始排版中的所述显示位置处，是否有空间容纳所述注释内容；

在没有空间容纳所述注释内容时，对所述文件进行重新排版得到一新排版，使得所述新排版中的所述显示位置处有容纳所述注释内容的空间，并按照所述新排版显示所述第一字，并在所述显示位置处显示所述注释内容。

优选地，上述的文件处理方法中，

所述预定条件为所述第一字不属于所述匹配字库或所述第一字属于所述匹配字库。

优选地，上述的文件处理方法中，

所述注释内容包括用于标注所述第一字的发音方式及语调的标音符号、用于解释所述第一字含义的释义信息、用于控制播放所述第一字发音的音频文件的播放控制菜单、和利用不同于所述第一字所属语言的其它语言对所述第一字进行翻译的翻译内容中的至少一种。

优选地，上述的文件处理方法中，

在所述注释内容包括所述标音符号时，所述匹配字库包括预先设置的常用字库和易错字库，所述预定条件为所述第一字不属于所述常用字库或所述第一字属于所述易错字库，其中所述常用字库包含有预先设定的常用字，所述易错字库包括预先设定的容易读错的字。

优选地，上述的文件处理方法中，

在所述注释内容包括所述标音符号时，在所述解析所述文件获得所述文件包含的第一字后，还包括：根据所述第一字的上下文，对所述第一字进行分词处理，得到分词结果；

所述获得所述第一字对应的注释内容，包括：根据所述分词结果，查询预先设定的词库，获得所述第一字的标音符号。

优选地，上述的文件处理方法中，

存在至少两个预定字库，每个所述预定字库包含的字不完全相同；

在所述获得文件之前，还包括：

接收匹配字库设置信息；

根据所述匹配字库设置信息，将所述两个以上的预定字库中的一预定字库设置为所述匹配字库。

本发明实施例还提供了一种文件处理装置，包括：

第一获得单元，用于获得文件；

解析单元，用于解析所述文件获得所述文件包含的第一字；

匹配单元，用于将所述第一字与预先设置的匹配字库匹配；

注释单元，用于在所述第一字满足预定条件时，获得所述第一字对应的注释内容；

显示单元，用于显示所述第一字和所述注释内容。

优选地，上述文件处理装置中，所述显示单元包括：

效果确定单元，用于确定所述第一字的第一显示方案以及所述注释内容的第二显示方案，其中，所述第一显示方案的第一显示效果和所述第二显示方案的第二显示效果不同；

显示处理单元，用于在显示所述第一字时，按照所述第一显示方案显示所述第一字；以及在显示所述注释内容时，按照所述第二显示方案显示所述注释内容。

优选地，上述文件处理装置中，还包括：

第二获得单元，用于获得所述文件的原始排版；

位置确定单元，用于确定所述注释内容相对于所述第一字的显示位置；

判断单元，用于判断所述原始排版中的所述显示位置处，是否有空间容纳所述注释内容；

排版单元，用于在没有空间容纳所述注释内容时，对所述文件进行重新排版得到一新排版，使得所述新排版中的所述显示位置处有容纳所述注释内容的空间；

所述显示单元，还用于按照所述排版单元得到的所述新排版显示所述第一字，并在所述显示位置处显示所述注释内容。

优选地，上述文件处理装置中，

所述注释单元，进一步用于在所述第一字不属于所述匹配字库时，获得所述第一字对应的注释内容；或者在所述第一字属于所述匹配字库时，获得所述第一字对应的注释内容。

优选地，上述文件处理装置中，还包括：

存储单元，用于存储所述注释内容，其中，所述注释内容包括用于标注所述第一字的发音方式及语调的标音符号、用于解释所述第一字含义的释义信息、用于控制播放所述第一字发音的音频文件的播放控制菜单、和利用不同于所述第一字所属语言的其它语言对所述第一字进行翻译的翻译内容中的至少一种。

优选地，上述文件处理装置中，

所述存储单元还用于存储预先设定的词库；

在所述注释内容包括所述标音符号时，所述文件处理装置还包括：

分词单元，用于在所述解析单元获得所述第一字后，根据所述第一字的上下文，对所述第一字进行分词处理，得到分词结果；

查询单元，用于根据所述分词结果，查询所述存储单元存储的所述词库，获得所述第一字的标音符号。

优选地，上述文件处理装置中，还包括：

存储单元，用于存储至少两个预定字库，每个所述预定字库包含的字不完全相同；

接收单元，用于接收匹配字库设置信息；

设置单元，用于根据所述匹配字库设置信息，将所述存储单元存储的一预定字库设置为所述匹配字库。

从以上所述可以看出，本发明实施例提供的文件处理方法及文件处理装置，能够自动对文件中符合预定条件的字进行注释，从而避免了用户中断阅读过程去对这些字进行查询的操作，保证了用户阅读连贯性，同时本发明实施例还在阅读过程中向用户提供了一个学习更多知识的学习机会，这些都改善了用户的阅读体验。

附图说明

图1为本发明实施例一所述的文件处理方法的流程示意图；

图2为本发明实施例二所述的文件处理方法的流程示意图；

图3为本发明实施例五所述的文件处理方法的流程示意图；

图4为本发明实施例所述的文件处理装置的结构示意图。

具体实施方式

本发明实施例通过将解析文件所获得的字，与预先设置的匹配字库进行匹配，确定需要自动注释的字及其注释内容，进而在显示时进行自动注释，用以改善用户的阅读体验。以下将结合附图，通过具体实施例对本发明做进一步的说明。

<实施例一>

如图1所示，本实施例所述的文件处理方法，可以应用在诸如计算机、PDA、手机、MP4和电纸书等各种电子设备中，具体包括以下步骤：

步骤11，获得文件。

这里，获得文件可以是电子设备读取本地保存的文件，或者是从网络或其它设备处下载所述文件，还可以是通过网络在线阅读的文件。本实施例所述文件不限于具体文件格式，只要是解析后能够得到字的文件即可，具体包括以下三类：

(1)仅包括文本内容的文件，如Word文档文件和WPS文档文件等。

(2)仅包括非文本内容的文件，如PDF文件，图片文件等。

(3)既包括文本内容也包括非文本内容的文件，如包含有字幕信息的视频文件和流媒体文件等。

本实施例中所述字包括各种语言文字，具体可以是中文汉字、英语单词、法语单词等等。

步骤12，解析所述文件获得所述文件包含的第一字。

这里，根据所述文件格式，对所述文件进行解析，获得所述文件中包括的字。具体的，针对以上三类文件分别进行说明：

(1)针对仅文本内容的文件：读取文件后，获取其中包含的文本内容，即可得到该文件中包含的字，例如，Word文件中包含的字。

(2)仅包括非文本内容的文件：读取文件后，对文件进行文字识别，将其中的非文本内容转换为文本内容，从而得到该文件中包含的字，例如，对图片中的图像进行文字识别获得该图像代表的字。

(3)既包括文本内容也包括非文本内容的文件：读取文件后，忽略其中包含的非文本内容，提取其中包含的文本内容，从而得到文本内容中包含的字。例如，针对视频文件，忽略其中的视频图像，而提取其中的字幕内容中的字。针对包含图像的电子书，忽略其中的图像，而提取其中的文本内容中的字。当然，如果图像中同样存在需要识别的内容，可以使用上述第2类的方式进行进一步处理。

下面以解析得到的第一字为例进行说明。

步骤13，将所述第一字与预先设置的匹配字库匹配。这里，匹配字库可以有1个、2个或者多个。

步骤14，在所述第一字满足预定条件时，获得所述第一字对应的注释内容。

这里，步骤13中将所述第一字与预先设置的匹配字库匹配，得到所述第一字的匹配结果；在步骤14中，在所述匹配结果满足所述预定条件时则去获得第一字对应的注释内容。作为一个优选实施例，所述预定条件具体可以是所述第一字不属于所述匹配字库，此时将对不属于所述匹配字库中的第一字进行注释；作为另一个优选实施例，所述预定条件还可以是所述第一字属于所述匹配字库，此时将对属于所述匹配字库中的第一字进行注释。

本实施例中，注释内容可以预先保存数据库中，该数据库可以保存在电子设备本地的存储单元或与电子设备连接的网络上的存储单元中。上述步骤14中，在所述第一字满足预定条件时，以所述第一字为索引，查找所述数据库，确定所述第一字对应的注释内容。这里，所述的注释内容，至少包括以下四种中的一种：

A)、用于标注所述第一字的发音方式及语调的标音符号，例如，对于中文汉字可以是汉语拼音及声调，对于英语单词则是其音标及标示重读音节的重音符号等等。

B)、用于解释所述第一字含义的释义信息，具体可以使用各自语言中的标准字典中的释义，例如，对于某个中文汉字，可以使用《新华字典》、《古汉语字典》等中的文字释义。

C)、用于控制播放所述第一字发音的音频文件的播放控制菜单，通过该播放控制菜单可以控制播放音频文件，用以通过声音方式演示所述第一字的具体发音。

D)、利用不同于所述第一字所属语言的其它语言对所述第一字进行翻译的翻译内容，例如对于中文汉字的第一字，可以是利用英语、法语或其它语言对其进行翻译的翻译内容；对于英语单词的第一字，可以是利用中文对其进行翻译的翻译内容。

步骤15，显示所述第一字和所述注释内容。

这里，通过上述步骤13和14，将所述第一字与匹配字库进行匹配，判断所述第一字的匹配结果是否满足预定条件，若满足，则表示为所述第一字增加相应的注释内容，此时确定所述第一字所对应的注释内容，并在步骤15中显示所述文件时，将所述第一字及其对应的注释内容同时予以显示。

如果在步骤13中得到的所述第一字的匹配结果不满足预定条件，则无需为第一字增加注释内容，直接显示第一字即可。

通过本实施例的上述步骤，本实施例在显示文件时，对文件内容中满足预定条件的第一字实现了自动注释，使得在阅读过程中用户无需对所述第一字进行查询便可自动获得第一字的相关注释信息，实现了在阅读过程中为用户提供必要的知识，增加了用户的知识量，提高了用户对文件内容的充分理解，并简化了用户的阅读操作，改善了用户的阅读体验。

作为一个优选的实施方式，本实施例在所述文件的显示过程中，对将要显示的内容中包含的字进行实时处理，此时上述步骤12具体包括：

步骤121，解析所述文件，获得所述文件中将要显示的第一内容。例如，对于文档文件，将要显示的内容可能只是该文档文件中的某一页；对于流媒体文件，将要显示的内容可能只是某一帧数据。

步骤122，提取所述第一内容中包含的第一字。这里，所述第一字是所述第一内容中包含的字。

如果所述第一字满足预定条件，则获得所述第一字对应的注释内容，并在步骤15中，显示包括所述第一字在内的所述第一内容，同时显示所述第一字对应的注释内容。

以下通过一个优选的实施方式，说明上述步骤15的具体步骤，具体包括：

步骤151，获得所述文件的原始排版。

步骤152，确定所述注释内容相对于所述第一字的显示位置。

这里，步骤152中，注释内容的显示位置可以根据阅读习惯来确定。例如，在所述注释内容是中文汉字的拼音时，显示位置通常是对应汉字的正上方；在所述注释内容是英语单词的音标时，显示位置通常是紧随该英语单词，与该英语单词在同一行(如果同一行显示不下，则可以顺延至下一行)。

步骤153，判断所述原始排版中的所述显示位置处，是否有空间容纳所述注释内容。

这里，没有空间容纳所述注释内容，可能是文本的行间距太小，以致于在文本的行间隔中显示所述注释内容时会对原始文本形成遮挡；还有可能是字间隔太小，以致于在字间隔中显示所述注释内容时会对原始文本形成遮挡，等等。

步骤154，在没有空间容纳所述注释内容时，对所述文件进行重新排版得到一新排版，使得所述新排版中的所述显示位置处有容纳所述注释内容的空间，并按照所述新排版显示所述第一字，并在所述显示位置处显示所述注释内容。

这里，步骤154中，在没有空间容纳所述注释内容时，重新排版时可以根据需要调整行间距(如增加行间距)，或者增加新的一行用于显示注释内容，，还可以是增加所述第一字与所述第一个字的下一个字之间的字间隔，以使得注释内容有足够的容纳空间。

作为上述步骤154的另一个替换的实施方式，还可以不调整排版，而是先对所述注释内容进行透明化处理，使之透明度提高到预定值，然后将所述注释内容叠加显示在所述第一字的位置处，这样既可以看到注释内容，又不影响第一字的显示。

步骤155，在有空间容纳所述注释内容时，按照原始排版显示所述第一字，并在所述显示位置处显示所述注释内容。

作为一个优选的实施方式，本实施例还可以在上述步骤15中采用不同的显示效果，显示所述第一类字和所述注释内容：按照具有第一显示效果的第一显示方案显示所述第一字，以及按照具有第二显示效果的第二显示方案显示所述注释内容，其中，所述第一显示效果和第二显示效果不同。

这里，可以由用户根据个人偏好，针对第一类字和注释内容，预先设置不同的显示方案，也可以是电子设备中预先为第一类字和注释内容设置的默认显示方案。显示方案的内容包括：字体类型、大小、颜色、透明度、是否静态显示、是否动态显示(如闪烁显示、渐变显示等)等参数。在步骤15中进行显示前，确定所述第一字和所述注释内容各自对应的显示方案，然后，按照各自的显示方案进行显示，达到不同的显示效果。

作为另一优选实施方式，上述显示方案还可以与上述步骤151～155结合起来，在步骤154中按照所述新排版显示所述第一字，并在所述显示位置处显示所述注释内容时，可以进一步按照所述第一显示方案显示所述第一字，以及按照所述第二显示效果显示所述注释内容；在步骤155中按照原始排版显示所述第一字，并在所述显示位置处显示所述注释内容时，可以进一步按照所述第一显示方案显示所述第一字，以及按照所述第二显示效果显示所述注释内容。

基于上述文件处理方法，本实施例还提供了一种文件处理装置，如图4所示，该文件处理装置80具体包括：

第一获得单元，用于获得文件；

解析单元，用于解析所述文件获得所述文件包含的第一字；

匹配单元，用于将所述第一字与预先设置的匹配字库匹配；

显示单元，用于显示所述第一字和所述注释内容。

作为一个优选实施方式，所述显示单元包括：

作为一个优选实施方式，所述文件处理装置还包括：

第二获得单元，用于获得所述文件的原始排版；

作为一个优选实施方式，所述注释单元，进一步用于在所述第一字不属于所述匹配字库时，获得所述第一字对应的注释内容；或者在所述第一字属于所述匹配字库时，获得所述第一字对应的注释内容。

作为一个优选实施方式，所述文件处理装置还包括：

图4中还进一步显示了利用本实施例所述的文件处理装置，对文件中的中文汉字处理后的显示效果，其中左侧显示的是按照原始排版显示的文件，右侧是经过本实施例处理后的显示效果，其中增加了对非常见字“窫窳”的拼音标注：“y ày”。

<实施例二>

作为一个优选实施例，本实施例可以预先对所述文件的全部内容进行预处理，获得所述文件包含的所有字，进而确定是否需要显示注释内容的第一类字以及对应的注释内容；然后，在显示所述文件时，再确定将要显示的内容中所包括的所述第一类字，从而在显示时显示其所对应的注释内容。

如图2所示，本实施例所述的文件处理方法，可以应用各种电子设备中，具体包括以下步骤：

步骤21，获得文件。

步骤22，解析所述文件，获得所述文件的全部内容，提取所述全部内容中包含的所有字。

步骤23，将所述所有字逐个与预先设置的匹配字库匹配，从中选择出满足预定条件的第一类字。

这里预定条件和匹配字库的设置方式可以与实施例一相同。

步骤24，获得所述第一类字对应的注释内容。

步骤25，确定所述文件中将要显示的第一内容，从所述第一类字中选择出属于所述第一内容的第二类字；

步骤26，显示包括所述第二类字在内的所述第一内容，同时显示所述第二类字对应的注释内容。

本实施例以文件中包含的所有字为例进行说明：在解析文件时，利用匹配字库匹配的方式，从所述文件中的所有字中选择出满足预定条件的第一类字，进而针对第一类字获得对应的注释内容；然后在具体显示某个内容时，同时显示该内容中的第一类字所对应的注释内容，从而也同样实现了对文件中特定字进行自动注释的目的。

以下在实施例一的基础之上，通过更多实施例对本发明做进一步的说明。

<实施例三>

本实施例以所述注释内容包括标音符号为例做进一步说明。

在所述注释内容包括标音符号时，本实施例中所述匹配字库包括预先设置的常用字库，此时所述预定条件为所述第一字不属于所述常用字库。所述常用字库包含有预先设定的常用字，例如，对于中文汉字，可以将中国国家标准GB2312中收录的一级字库中的汉字作为常用字；对于英语单词，可以将大学公共英语CET-6级的英语单词作为常用字，等等。

本实施例所述的文件处理方法，可以应用在诸如计算机、PDA、手机、MP4和电纸书等各种电子设备中，具体包括以下步骤：

步骤31，获得文件。

步骤32，解析所述文件获得所述文件包含的第一字。

步骤33，将所述第一字与预先设置的匹配字库匹配，这里，所述匹配词库包括预先设定的常用字库。

步骤34，在所述第一字不属于所述常用字库时，获得所述第一字对应的注释内容，所述注释内容包括标音符号，还可以包括释义信息等内容。

步骤35，显示所述第一字和所述注释内容。

通过上述步骤，本实施例实现了对非常用字自动注释的功能，使得用户在阅读过程中能够学习到非常用字，提高了阅读学习的效率，改善了用户的阅读体验。

<实施例四>

本实施例以所述注释内容包括标音符号为例做进一步说明。

现有技术中，用户对于阅读过程中遇到的非常见字，可以主动去进行查字典获得其读音、释义等信息，但对于一些易错字，如果该用户将错误读音当成正确读音，该用户在阅读过程中通常不会主动再去确认该易错字的读音，也就无法改正其错误，不能学习到正确的读音。本实施例通过设置易错字库，在阅读过程中主动对易错字库中的字的读音进行自动标注，从而能够提供给用户一个学习正确读音的机会，改善用户的阅读体验。

在所述注释内容包括标音符号时，本实施例中所述匹配字库包括预先设置的易错字库，此时所述预定条件为所述第一字属于所述易错字库。所述易错字库包含有预先设定的容易读错的字，例如，中文汉字中的多音字，如“行”字在“银行”和“行人”中有不同的读音；再例如，英语中的地名“San Jose”是源自西班牙语的一个英文词组，经常被读错。这种容易读错的字词，在确定其读音时，需要根据上下文进行分词处理，根据分词结果去查找保存有读音信息的词库，才能确定其准确读音。

步骤41，获得文件。

步骤42，解析所述文件获得所述文件包含的第一字。

步骤43，将所述第一字与预先设置的匹配字库匹配，这里，所述匹配词库包括预先设定的易错字库。

步骤44，在所述第一字属于所述易错字库时，获得所述第一字对应的注释内容，所述注释内容包括标音符号，还可以包括释义信息等内容。

步骤45，显示所述第一字和所述注释内容。

这里，作为一个优选实施方式，在上述第一字为中文汉字时，在上述步骤42中，在所述解析所述文件获得所述文件包含的第一字后，还包括：根据所述第一字的上下文，对所述第一字进行分词处理，得到分词结果；在上述步骤44中，进一步根据所述分词结果，查询预先设定的词库，获得所述第一字的标音符号。

通过上述步骤，本实施例实现了对容易读错的字自动注释的功能，使得用户在阅读过程中能够学习到易错字的正确读音，提高了阅读学习的效率，改善了用户的阅读体验。

类似的，本实施例也提供了一种文件处理装置，具体包括：

第一获得单元，用于获得文件；

解析单元，用于解析所述文件获得所述文件包含的第一字；

匹配单元，用于将所述第一字与预先设置的匹配字库匹配；

显示单元，用于显示所述第一字和所述注释内容；

作为一个优选实施方式，所述存储单元还用于存储预先设定的词库；

<实施例五>

本实施例所述文件处理方法中，匹配字库包括常用字库和易错字库，此时所述预定条件为所述第一字不属于所述常用字库或所述第一字属于所述易错字库。此时，本实施例所述的文件处理方法，如图3所示，具体包括以下步骤：

步骤51，获得文件。

步骤52，解析所述文件获得所述文件包含的第一字。

步骤53，将所述第一字与预先设置的常用字库匹配：在所述第一字属于所述常用字库时进入步骤54，在所述第一字不属于所述常用字库时，进入步骤55。

步骤54，将所述第一字与预先设置的易错字库匹配：在所述第一字属于所述易错字库时进入步骤55，在所述第一字不属于所述易错字库时，进入步骤57。

步骤55，获得所述第一字对应的注释内容，然后进入步骤56。

步骤56，显示所述第一字和所述注释内容，所述注释内容包括标音符号。

步骤57，显示所述第一字。

以上步骤是先将第一字与常用字库匹配，如果第一字属于常用字库则进一步判断第一字与易错字库匹配，最终确定第一字是否为易错字或非常用字：若是，则需要确定第一字的注释内容，并在显示时显示第一字及其注释内容。

当然，本实施例也可以改变上述匹配的顺序，先将第一字与易错字库匹配，如果第一字不属于易错字库则进一步判断第一字与常用字库匹配，最终确定第一字是否为易错字或非常用字。

通过以上步骤，本实施例能够在第一字为易错字或非常用字时，在显示第一字时为第一字增加对应的注释内容，改善用户的阅读体验。

<实施例六>

在阅读文件时，不同的用户可能具有不同的知识能力，例如，小学生认识的汉字相对于大学生来说通常要少，小学生认识的英语单词相对于大学生来说通常要少，因此可以预先设置多个字库，例如，对于英语单词可以设置大学公共英语CET-4级单词字库、大学公共英语CET-6级单词字库等各种级别的字库，分别包括有不同级别的英语单词；对于汉字字库，则可以为不同年级的学生设置对应的年级字库，例如为一年级学生设置一年级字库，包括一年级学生应该掌握的汉字；为二年级学生设置二年级字库，包括二年级学生应该掌握的汉字......。

为此，本实施例预先设置至少两个预定字库，各个所述预定字库包含的字不完全相同。本实施例所述的文件处理方法，可以应用在诸如计算机、PDA、手机、MP4和电纸书等各种电子设备中，具体包括以下步骤：

步骤61，接收用户输入的匹配字库设置信息；

步骤62，根据所述匹配字库设置信息，将所述至少两个预定字库中的一预定字库设置为匹配字库。

步骤63，获得文件。

步骤64，解析所述文件获得所述文件包含的第一字。

步骤65，将所述第一字与所述匹配字库匹配。

步骤66，在所述第一字的匹配结果满足预定条件时，获得所述第一字对应的注释内容。

步骤67，显示所述第一字和所述注释内容。

这里，如果步骤65中所述第一字的匹配结果不满足预定条件，则在显示时不需要显示第一字的注释内容。

由于用户在文件阅读过程中，能够对显示有注释内容的所述第一字进行学习。在阅读该文件达到一定次数后，用户可能已经掌握了所述第一字的注释内容，此时再显示所述第一字的注释内容的必要性就大大降低。因此，本实施例还可以在设置所述匹配字库后，进一步地统计所述文件被显示的次数，在步骤67中显示所述第一字和所述注释内容之前，判断所述文件被显示的次数是否达到预先设置的所述匹配词库对应的次数：若达到所述匹配词库对应的次数，则在显示所述第一字时不显示所述注释内容；若未达到所述匹配词库对应的次数，则同时显示所述第一字和所述注释内容。

类似的，本实施例也提供了一种文件处理装置，具体包括：

第一获得单元，用于获得文件；

解析单元，用于解析所述文件获得所述文件包含的第一字；

匹配单元，用于将所述第一字与预先设置的匹配字库匹配；

显示单元，用于显示所述第一字和所述注释内容；

存储单元，，用于存储至少两个预定字库，每个所述预定字库包含的字不完全相同；

接收单元，用于接收匹配字库设置信息；

<实施例七>

在阅读文件时，同一用户的认知水平也会是变化的，该用户随着阅读文件次数的增加，将会学习到更多的字，从而认知水平得以提高。为此，本实施例根据统计得到的用户阅读文件的次数，设置当前的匹配字库，以使得匹配字库与当前用户的认知水平相适应，具体说明如下：

本实施例预先设置至少两个预定字库，各个所述预定字库包含的字不完全相同。并且，本实施例还预先设置每个所述预定字库对应的次数门限，其中，每个预定字库对应的次数门限不同。本实施例所述的文件处理方法，可以应用在诸如计算机、PDA、手机、MP4和电纸书等各种电子设备中，具体包括以下步骤：

步骤71，统计所述文件被显示的显示次数。

步骤72，根据所述显示次数，从所述至少两个预定字库中选择出第一预定字库，从而得到包含有所述第一预定字库信息的匹配字库设置信息，其中，所述第一预定字库是次数门限大于所述显示次数的预定字库中具有最小次数门限的预定字库。

步骤73，根据所述匹配字库设置信息，将所述第一预定字库设置为当前的匹配字库。

步骤74，获得文件。

步骤75，解析所述文件获得所述文件包含的第一字。

步骤76，将所述第一字与所述匹配字库匹配。

步骤77，在所述第一字的匹配结果满足预定条件时，获得所述第一字对应的注释内容。

步骤78，显示所述第一字和所述注释内容。

本实施例的上述步骤73与实施例六的步骤62不同。在上述步骤73中是电子设备根据预定策略，自动生成的匹配字库设置信息，然后根据该匹配字库设置信息将对应的预定字库设置为匹配字库，而非实施例六的步骤61、62中的接收用户输入的匹配字库设置信息并根据该信息进行匹配字库的设置。

本实施例以上步骤中，实现了根据文件阅读(显示)次数，自动设置当前匹配字库的功能，使得匹配字库与用户当前认知水平相适应。举例说明如下：

假设预定字库为常用字库，并且存在3个不同级别的常用字库，一级常用字库所包含的常用字的数量＜二级常用字库所包含的常用字的数量＜三级常用字库中所包含的常用字的数量，且设置一级常用字库对应的次数门限＜二级常用字库对应的次数门限＜三级常用字库对应的次数门限。下表中列出了一种可能的示例：

	一级常用字库	二级常用字库	三级常用字库
				常用字数量	3600	6000	9200
次数门限	3	10	30

这里，次数门限的含义在于：若显示次数达到当前的匹配字库的次数门限，则应该选用具有更高次数门限的预定字库作为匹配字库。例如，在当前匹配字库为一级常用字库时，若文件显示次数已达到3次，则应该选用次数门限高于3的二级常用字库作为匹配字库；若文件显示次数已达到3次，则从次数门限高于3的二级、三级常用字库选择具有较小次数门限10的二级常用字库作为匹配字库；若文件显示次数已达到30次以上，由不存在次数门限高于30的常用字库，因此不再设置匹配字库，此时由于该文件已被很多次显示，用户对其中的非常见字都已得到充分学习，因此没有必要再显示注释内容。

<实施例八>

有一些字，在不同国家会有不同的发音，例如，一些英语单词在美国有美国式发音，而在英国则有英国式发音；一些字在不同地区则有不同的方言发音，即这些字的发音和地理位置有关。为此，本实施例预先设置一个预定字库，该预定字库中所包含的字具有至少两种发音，其中第一种发音对应于第一地理位置，第二种发音对应于第二地理位置，所述第一地理位置与所述第二地理位置不同。此外，还设置一标音符号数据库，该数据库中保存了所述预定字库中的字在不同地理位置时的不同发音的标音符号。

本实施例所述文件处理方法，应用于一电子设备中，具体包括以下步骤：

步骤81，获得文件。

步骤82，解析所述文件获得所述文件包含的第一字。

步骤83，将所述第一字与所述预定字库匹配。

步骤83，在所述第一字属于所述预定字库时，获得所述电子设备的当前地理位置。

这里，电子设备的当前地理位置，可以根据电子设备的IP地址，查询保存有地理位置与IP地址对应关系的数据库，获得电子设备的当前地理位置；还可以利用全球定位系统GPS对所述电子设备进行定位，获取所述电子设备的当前地理位置。

步骤84，根据所述电子设备的当前地理位置，查找所述标音符号数据库，确定所述第一字在所述当前地理位置时的发音的第一标音符号。

步骤85，显示所述第一字和所述第一标音符号。

这样，本实施例可以依据用户当前所在地理位置，为用户显示字在当前地理位置的发音，使得用户能够入乡随俗，有利于用户与当地居民的沟通交流。

综上所述，本发明各个实施例所提供的文件处理方法及文件处理装置，能够自动对文件中符合预定条件的字进行注释，从而避免了用户中断阅读过程去对这些字进行查询的操作，保证了用户阅读连贯性，同时本发明实施例还在阅读过程中向用户提供了一个学习更多知识的学习机会，这些都改善了用户的阅读体验。

以上所述仅是本发明的实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文件处理方法，其特征在于，包括：

获得文件；

解析所述文件获得所述文件包含的第一字；

将所述第一字与预先设置的匹配字库匹配；

显示所述第一字和所述注释内容；

在所述获得文件之前，还包括：

统计所述文件被显示的显示次数；

根据所述显示次数，从所述至少两个预定字库中选择出第一预定字库，从而得到包含有所述第一预定字库信息的匹配字库设置信息，其中，所述第一预定字库是次数门限大于所述显示次数的预定字库中具有最小次数门限的预定字库；

根据所述匹配字库设置信息，将所述第一预定字库设置为当前的匹配字库。

2.如权利要求1所述的文件处理方法，其特征在于，所述显示所述第一字和所述注释内容包括：按照具有第一显示效果的显示方案显示所述第一字，以及按照具有第二显示效果的第二显示方案显示所述注释内容，其中，所述第一显示效果和第二显示效果不同。

3.如权利要求1所述的文件处理方法，其特征在于，

所述显示所述第一字和所述注释内容，包括：

获得所述文件的原始排版；

确定所述注释内容相对于所述第一字的显示位置；

4.如权利要求1所述的文件处理方法，其特征在于，

5.如权利要求1所述的文件处理方法，其特征在于，

6.如权利要求5所述的文件处理方法，其特征在于，

7.如权利要求5所述的文件处理方法，其特征在于，

8.一种文件处理装置，其特征在于，包括：

第一获得单元，用于获得文件；

解析单元，用于解析所述文件获得所述文件包含的第一字；

匹配单元，用于将所述第一字与预先设置的匹配字库匹配；

显示单元，用于显示所述第一字和所述注释内容；

统计单元，统计所述文件被显示的显示次数；

选择单元，根据所述显示次数，从所述至少两个预定字库中选择出第一预定字库，从而得到包含有所述第一预定字库信息的匹配字库设置信息，其中，所述第一预定字库是次数门限大于所述显示次数的预定字库中具有最小次数门限的预定字库；

设置单元，根据所述匹配字库设置信息，将所述第一预定字库设置为当前的匹配字库。

9.如权利要求8所述的文件处理装置，其特征在于，所述显示单元包括：

10.如权利要求8所述的文件处理装置，其特征在于，还包括：

第二获得单元，用于获得所述文件的原始排版；

11.如权利要求8所述的文件处理装置，其特征在于，

12.如权利要求8所述的文件处理装置，其特征在于，还包括：

13.如权利要求12所述的文件处理装置，其特征在于，

所述存储单元还用于存储预先设定的词库；