CN102169479A

CN102169479A - 文本阅读系统及其方法

Info

Publication number: CN102169479A
Application number: CN2011100983911A
Authority: CN
Inventors: 严华杰; 徐达峰; 王志远; 李庆瑜; 周后红
Original assignee: SHANGHAI WONDERTEK SOFTWARE CO Ltd
Current assignee: SHANGHAI WONDERTEK SOFTWARE CO Ltd
Priority date: 2011-04-19
Filing date: 2011-04-19
Publication date: 2011-08-31

Abstract

本发明公开一种文本阅读系统及方法，该系统至少包含：储存多笔背景资料项的分类背景资料库，各背景资料项至少包括一分类号、特征字/词及对应的背景资料；文本接收模块，接收并打开一文本资料；文本扫描模块，对该文本资料进行全文扫描，检查该文本资料中的每个字/词是否命中该分类背景资料库中的特征字/词，根据命中情况统计各分类号的选择率；以及背景截取及显示模块，根据各分类号的选择率，选择对应的背景资料进行显示，本发明不仅丰富了文本阅读的背景元素，而且由于背景元素与文本内容关联，可以给与用户更好的阅读体验。

Description

文本阅读系统及其方法

技术领域

本发明关于一种文本阅读系统及其方法，特别是关于一种文本背景可以根据文本内容自动适应的文本阅读系统及其方法。

背景技术

文本文件是微软公司提供的一种可以进行文字输入编辑浏览的可阅读的文件。一般而言，在个人计算机或手持终端设备上进行文本阅读的方法多为选择需要阅读的文本文件后，利用文本阅读程序直接打开文本进行文本内容的浏览。通常情况下，特别是手持终端设备上的文本阅读程序的背景设置通常较单一，有些文本阅读程序仅仅采用单色的背景乃至没有背景，加上文字单一，往往容易引起用户视觉疲劳，导致阅读效果不佳；有些文本阅读程序虽然也设置了背景图片，但其往往仅使用一张背景图片，或者虽然可以对背景图片进行变化，但仅仅是在背景图的基础上变换颜色，背景元素也不够丰富，无法给与用户良好的视觉感受；另外，前面所提到的现有这些处理背景的方法和文本内容之间没有关联，无法给与用户更好的阅读体验。

综上所述，可知先前技术的文本阅读系统及方法存在背景元素不够丰富且由于背景与文本内容没有关联导致无法给与用户更好的阅读体验的问题，因此实有必要提出改进的技术手段，来解决此一问题。

发明内容

为克服上述现有技术的文本阅读系统及方法存在的背景元素不丰富且与文本内容没有关联导致用户阅读体验不佳的问题，本发明的主要目的在于提供一种文本阅读系统，其通过将文本内容与背景资料进行关联，不仅丰富了文本阅读的背景元素，而且由于背景元素与文本内容关联，可以给与用户更好的阅读体验。

为达上述及其它目的，本发明一种文本阅读系统，至少包含：

分类背景资料库，储存有多笔背景资料项，其中各背景资料项至少包括一分类号、特征字/词及对应的背景资料；

文本接收模块，接收并打开一文本资料；

文本扫描模块，对该文本资料进行全文扫描，检查该文本资料中的每个字/词是否命中该分类背景资料库中的特征字/词，根据命中情况统计各分类号的选择率；以及

背景截取及显示模块，根据各分类号的选择率，选择选择率最高的分类号对应的背景资料进行显示。

进一步地，若所有分类号的选择率均为零，则该背景截取及显示模块选择默认背景资料进行显示。

进一步地，各背景资料项的特征字以哈希表方式保存。

进一步地，该哈希表的键为特征字的UNICODE-16小头编码，值为对应的该分类号或词组保存结构。

进一步地，该词组保存结构为特征词除去首字的字符串和对应的分类号的组合。

进一步地，该文本扫描模块逐一判断该文本资料的当前字是否命中某个特征字，若命中，则判断该当前字是否命中该特征字为首的某个特征词，若没有，则该特征字对应的分类号的选择率加一，若命中某个特征词，则该特征词对应的分类号的选择率加一。

本发明还揭示了一种文本阅读方法，该方法包括如下步骤：

建立分类背景资料库，分类背景资料库，储存有多笔背景资料项，其中各背景资料项至少包括一分类号、特征字/词及对应的背景资料；

接收并打开一文本资料；

对文本资料进行全文遍历扫描，检查该文本资料中的每个字/词是否命中该分类背景资料库中的特征字/词，以此确定各分类号的选择率；以及

选择选择率最高的分类号对应的背景资料进行显示。

进一步地，建立分类背景资料库的步骤进一步包括：

对多个背景资料进行分类，每个分类以一分类号唯一标识；

确定各分类号对应的特征字；

确定各分类号对应的特征词。

进一步地，该些特征字为以UNICODE-16小头编码的常用汉字单字

进一步地，该些特征字以哈希表方式保存，该哈希表的键为该些特征字的UNICODE-16小头编码，值为对应的该些分类号或词组保存结构。

进一步地，该词组保存结构为该特征词除去首字的字符串和对应的分类号的组合。

进一步地，确定各分类号的选择率的步骤进一步包括：

遍历该哈希表，检查该文本资料的当前字是否命中某个特征字；

若命中，则检查该当前字是否命中该特征字为首的某个特征词，否则继续检查下一个字；

若该当前字没有命中该特征字为首的某个特征词，则该特征字所对应的分类号的选择率加一，若命中某个特征词，则该特征词对应的分类号的选择率加一。

与现有技术相比，本发明一种文本阅读系统及方法通过建立包含特征字/词的分类背景资料库，对文本资料全文扫描后判断每个字/词的命中率，根据该命中率确定各分类号的选择率及根据选择率确定背景资料进行显示等技术手段，使得文本阅读时显示的背景资料与文本内容密切相联，提高用户阅读体验，并且，本发明的背景元素较为丰富，可以提供用户较好的视觉感受。

附图说明

图1为本发明一种文本阅读系统的系统架构图；

图2为本发明一种文本阅读方法的步骤流程图；

图3为本发明中建立分类资料库的步骤流程图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种文本阅读系统之系统架构图，以下将先以图1来说明本发明的系统运作。本发明之文本阅读系统用于可进行文本阅读的电子设备，尤其是移动设备，如手持式终端设备，以下以应用于手机终端为例，如图1所示，本发明之文本阅读系统至少包含分类背景资料库110、文本接收模块120、文本扫描模块130、背景截取及显示模块140。

分类背景资料库110储存有多笔背景资料项，其中各背景资料项至少包含分类号、特征字/词及对应的背景资料，本发明中的背景资料可以是背景图片，也可以是背景音乐，或两者都有，每个背景资料项以唯一的分类号识别，每个分类号可以对应多个特征字/词，特征字/词为与背景资料相关的汉字/词，比如，由“车”可以联想到交通工具，特征字“车”对应的背景资料则可以为与交通工具相关的背景图片，由“电”联想到科技或生活，则特征字“电”对应的背景资料可以为与科技相关的背景图片，而由“闪电”可以联想到自然现象，则特征词“闪电”对应的背景资料可以为与自然现象相关的背景图片，至于分类背景资料库110的建立后续会详细说明，这里不予赘述。另外，为加快查找速度，在本发明较佳实施例中，特征字/词可以哈希表方式保存，后续再予以具体说明。

文本接收模块120用于接收并打开文本资料200，文本200可以是预先存储于手机终端的，也可以是通过有线或无线等通讯方式获取的，并通过文本阅读程序打开文本资料200。

文本扫描模块130，用于对文本资料200进行全文扫描，检查该文本资料200中的每个字/词是否命中该分类背景资料库中的特征字/词，以此确定各分类号的选择率。

更具体地说，对于文本当前字，文本扫描模块130首先在哈希表中遍历，检查该文本当前字是否命中某个特征字；如果没有，则继续检查文本下一个字，如果命中，则检查它是否命中该字为首的某个特征词，如果没有，则该字所对应的分类号的选择率加一，继续检查下一个字直到结束；如果命中特征词，则该特征词对应的分类号的选择率加一，继续检查下一个字直到结束。

背景截取及显示模块140，根据各分类号的选择率，选择选择率最高的分类号对应的背景资料进行显示，如果所有分类号的选择率均为零，则选择默认背景资料进行显示。

图2为本发明一种文本阅读方法的步骤流程图，以下将根据图2说明本发明的实施流程。

步骤201，建立分类背景资料库，该分类背景资料库储存有多笔背景资料项，其中每笔背景资料项均包含有分类号、特征字/词及对应的背景资料，每笔背景资料项以唯一的分类号识别，每个分类号可以对应多个特征字/词；

步骤202，接收并打开一文本资料；

步骤203，对文本资料进行全文遍历扫描，检查文本资料中的每个字/词是否命中分类背景资料库中的特征字/词，以此确定各分类号的选择率；

更具体地说，对于文本当前字，首先在哈希表中遍历，检查该文本当前字是否命中某个特征字；如果没有，则继续检查文本下一个字，如果命中，则检查它是否命中该字为首的某个特征词，如果没有，则该字所对应的分类号的选择率加一，继续检查下一个字直到结束；如果命中某个特征词，则该特征词对应的分类号的选择率加一，并继续检查下一个字直到结束。

步骤204，比较各分类号的选择率，选择选择率最高的分类号对应的背景资料进行显示。当然，若选择率最高的分类号不止一个，则任意择一选择率最高的背景资料项进行显示；若所有分类号的选择率都为零，则使用默认背景进行显示。

由上可见，对于本发明，分类背景资料库的建立至关重要，以下将配合图3来详细说明本发明中分类背景资料库的建立。

首先，对多个背景资料进行分类，每个分类以唯一的分类号识别。分类的划分精细度取决于业务目标的需求和手机终端的软硬件条件两方面，分类越精细，消耗的系统资源越多。当分类较少时，背景图片或音乐的主旨需要适当模糊，避免和文本内容反差太大；

其次，确定各分类号对应的特征字。在本发明较佳实施例中，选取以UNICODE-16小头编码的常用汉字单字作为特征字，按背景做类别划分。很多单字本身就已有较为明确的一个或多个使用环境，比如，由“车”联想到交通工具，由“鸟”联想到生物，由“电”联想到科技或者生活，由“佛”联想到玄学。另外，虽然汉字博大精深，一字多义的现象非常普遍，但是当同一类别的字大量出现时，可以帮助认定文档类别。在本发明较佳实施里中，为加快后续查询速度，选取的特征字以哈希表保存，哈希表的键为汉字的UNICODE-16小头编码，值为分类号和更多信息的组合。由于后续步骤需要在特征字的基础上，进一步确定特征词，这里的更多信息就是一系列的特征词的保存结构。

最后，确定各分类号对应的特征词。从目标上看，词的含义比字明确的多。比如由“电梯”联想到都市，由“闪电”联想自然现象，由“公式”联想到科学，由“公示”联想到政务。在本发明较佳实施例中，词组保存结构为除去首字的字符串和分类号的组合，这个组合作为一个单元加在首字的哈希值中的特征值列表中。而对于非特征字的首字，需要在特征字哈希表中新增该字，并且给予一个无效的分类号。

综上本发明一种文本阅读系统及方法通过建立包含特征字/词的分类背景资料库，对文本资料全文扫描后判断每个字/词的命中率，根据该命中率确定各分类号的选择率及根据选择率确定背景资料进行显示等技术手段，使得文本阅读时显示的背景资料与文本内容密切相联，提高用户阅读体验，并且，本发明的背景元素较为丰富，可以提供用户较好的视觉感受。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种文本阅读系统，至少包含：

文本接收模块，接收并打开一文本资料；

2.如权利要求1所述的文本阅读系统，其特征在于：若所有分类号的选择率均为零，则该背景截取及显示模块选择默认背景资料进行显示。

3.如权利要求1所述的文本阅读系统，其特征在于：各背景资料项的特征字以哈希表方式保存。

4.如权利要求1所述的文本阅读系统，其特征在于：该哈希表的键为特征字的UNICODE-16小头编码，值为对应的该分类号或词组保存结构。

5.如权利要求4所述的文本阅读系统，其特征在于：该词组保存结构为特征词除去首字的字符串和对应的分类号的组合。

6.如权利要求5所述的文本阅读系统，其特征在于：该文本扫描模块逐一判断该文本资料的当前字是否命中某个特征字，若命中，则判断该当前字是否命中该特征字为首的某个特征词，若没有，则该特征字对应的分类号的选择率加一，若命中某个特征词，则该特征词对应的分类号的选择率加一。

7.一种文本阅读方法，包括如下步骤：

接收并打开一文本资料；

选择选择率最高的分类号对应的背景资料进行显示。

8.如权利要求7所述的文本阅读方法，其特征在于，建立分类背景资料库的步骤进一步包括：

对多个背景资料进行分类，每个分类以一分类号唯一标识；

确定各分类号对应的特征字；

确定各分类号对应的特征词。

9.如权利要求8所述的文本阅读方法，其特征在于：该些特征字为以UNICODE-16小头编码的常用汉字单字。

10.如权利要求9所述的文本阅读方法，其特征在于：该些特征字以哈希表方式保存，该哈希表的键为该些特征字的UNICODE-16小头编码，值为对应的该些分类号或词组保存结构。

11.如权利要求10所述的文本阅读方法，其特征在于：该词组保存结构为该特征词除去首字的字符串和对应的分类号的组合。

12.如权利要求11所述的文本阅读方法，其特征在于：确定各分类号的选择率的步骤进一步包括：