CN102169479A - 文本阅读系统及其方法 - Google Patents

文本阅读系统及其方法 Download PDF

Info

Publication number
CN102169479A
CN102169479A CN2011100983911A CN201110098391A CN102169479A CN 102169479 A CN102169479 A CN 102169479A CN 2011100983911 A CN2011100983911 A CN 2011100983911A CN 201110098391 A CN201110098391 A CN 201110098391A CN 102169479 A CN102169479 A CN 102169479A
Authority
CN
China
Prior art keywords
text
word
classification number
background information
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100983911A
Other languages
English (en)
Inventor
严华杰
徐达峰
王志远
李庆瑜
周后红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI WONDERTEK SOFTWARE CO Ltd
Original Assignee
SHANGHAI WONDERTEK SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI WONDERTEK SOFTWARE CO Ltd filed Critical SHANGHAI WONDERTEK SOFTWARE CO Ltd
Priority to CN2011100983911A priority Critical patent/CN102169479A/zh
Publication of CN102169479A publication Critical patent/CN102169479A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种文本阅读系统及方法,该系统至少包含:储存多笔背景资料项的分类背景资料库,各背景资料项至少包括一分类号、特征字/词及对应的背景资料;文本接收模块,接收并打开一文本资料;文本扫描模块,对该文本资料进行全文扫描,检查该文本资料中的每个字/词是否命中该分类背景资料库中的特征字/词,根据命中情况统计各分类号的选择率;以及背景截取及显示模块,根据各分类号的选择率,选择对应的背景资料进行显示,本发明不仅丰富了文本阅读的背景元素,而且由于背景元素与文本内容关联,可以给与用户更好的阅读体验。

Description

文本阅读系统及其方法
技术领域
本发明关于一种文本阅读系统及其方法,特别是关于一种文本背景可以根据文本内容自动适应的文本阅读系统及其方法。
背景技术
文本文件是微软公司提供的一种可以进行文字输入编辑浏览的可阅读的文件。一般而言,在个人计算机或手持终端设备上进行文本阅读的方法多为选择需要阅读的文本文件后,利用文本阅读程序直接打开文本进行文本内容的浏览。通常情况下,特别是手持终端设备上的文本阅读程序的背景设置通常较单一,有些文本阅读程序仅仅采用单色的背景乃至没有背景,加上文字单一,往往容易引起用户视觉疲劳,导致阅读效果不佳;有些文本阅读程序虽然也设置了背景图片,但其往往仅使用一张背景图片,或者虽然可以对背景图片进行变化,但仅仅是在背景图的基础上变换颜色,背景元素也不够丰富,无法给与用户良好的视觉感受;另外,前面所提到的现有这些处理背景的方法和文本内容之间没有关联,无法给与用户更好的阅读体验。
综上所述,可知先前技术的文本阅读系统及方法存在背景元素不够丰富且由于背景与文本内容没有关联导致无法给与用户更好的阅读体验的问题,因此实有必要提出改进的技术手段,来解决此一问题。
发明内容
为克服上述现有技术的文本阅读系统及方法存在的背景元素不丰富且与文本内容没有关联导致用户阅读体验不佳的问题,本发明的主要目的在于提供一种文本阅读系统,其通过将文本内容与背景资料进行关联,不仅丰富了文本阅读的背景元素,而且由于背景元素与文本内容关联,可以给与用户更好的阅读体验。
为达上述及其它目的,本发明一种文本阅读系统,至少包含:
分类背景资料库,储存有多笔背景资料项,其中各背景资料项至少包括一分类号、特征字/词及对应的背景资料;
文本接收模块,接收并打开一文本资料;
文本扫描模块,对该文本资料进行全文扫描,检查该文本资料中的每个字/词是否命中该分类背景资料库中的特征字/词,根据命中情况统计各分类号的选择率;以及
背景截取及显示模块,根据各分类号的选择率,选择选择率最高的分类号对应的背景资料进行显示。
进一步地,若所有分类号的选择率均为零,则该背景截取及显示模块选择默认背景资料进行显示。
进一步地,各背景资料项的特征字以哈希表方式保存。
进一步地,该哈希表的键为特征字的UNICODE-16小头编码,值为对应的该分类号或词组保存结构。
进一步地,该词组保存结构为特征词除去首字的字符串和对应的分类号的组合。
进一步地,该文本扫描模块逐一判断该文本资料的当前字是否命中某个特征字,若命中,则判断该当前字是否命中该特征字为首的某个特征词,若没有,则该特征字对应的分类号的选择率加一,若命中某个特征词,则该特征词对应的分类号的选择率加一。
本发明还揭示了一种文本阅读方法,该方法包括如下步骤:
建立分类背景资料库,分类背景资料库,储存有多笔背景资料项,其中各背景资料项至少包括一分类号、特征字/词及对应的背景资料;
接收并打开一文本资料;
对文本资料进行全文遍历扫描,检查该文本资料中的每个字/词是否命中该分类背景资料库中的特征字/词,以此确定各分类号的选择率;以及
选择选择率最高的分类号对应的背景资料进行显示。
进一步地,建立分类背景资料库的步骤进一步包括:
对多个背景资料进行分类,每个分类以一分类号唯一标识;
确定各分类号对应的特征字;
确定各分类号对应的特征词。
进一步地,该些特征字为以UNICODE-16小头编码的常用汉字单字
进一步地,该些特征字以哈希表方式保存,该哈希表的键为该些特征字的UNICODE-16小头编码,值为对应的该些分类号或词组保存结构。
进一步地,该词组保存结构为该特征词除去首字的字符串和对应的分类号的组合。
进一步地,确定各分类号的选择率的步骤进一步包括:
遍历该哈希表,检查该文本资料的当前字是否命中某个特征字;
若命中,则检查该当前字是否命中该特征字为首的某个特征词,否则继续检查下一个字;
若该当前字没有命中该特征字为首的某个特征词,则该特征字所对应的分类号的选择率加一,若命中某个特征词,则该特征词对应的分类号的选择率加一。
与现有技术相比,本发明一种文本阅读系统及方法通过建立包含特征字/词的分类背景资料库,对文本资料全文扫描后判断每个字/词的命中率,根据该命中率确定各分类号的选择率及根据选择率确定背景资料进行显示等技术手段,使得文本阅读时显示的背景资料与文本内容密切相联,提高用户阅读体验,并且,本发明的背景元素较为丰富,可以提供用户较好的视觉感受。
附图说明
图1为本发明一种文本阅读系统的系统架构图;
图2为本发明一种文本阅读方法的步骤流程图;
图3为本发明中建立分类资料库的步骤流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种文本阅读系统之系统架构图,以下将先以图1来说明本发明的系统运作。本发明之文本阅读系统用于可进行文本阅读的电子设备,尤其是移动设备,如手持式终端设备,以下以应用于手机终端为例,如图1所示,本发明之文本阅读系统至少包含分类背景资料库110、文本接收模块120、文本扫描模块130、背景截取及显示模块140。
分类背景资料库110储存有多笔背景资料项,其中各背景资料项至少包含分类号、特征字/词及对应的背景资料,本发明中的背景资料可以是背景图片,也可以是背景音乐,或两者都有,每个背景资料项以唯一的分类号识别,每个分类号可以对应多个特征字/词,特征字/词为与背景资料相关的汉字/词,比如,由“车”可以联想到交通工具,特征字“车”对应的背景资料则可以为与交通工具相关的背景图片,由“电”联想到科技或生活,则特征字“电”对应的背景资料可以为与科技相关的背景图片,而由“闪电”可以联想到自然现象,则特征词“闪电”对应的背景资料可以为与自然现象相关的背景图片,至于分类背景资料库110的建立后续会详细说明,这里不予赘述。另外,为加快查找速度,在本发明较佳实施例中,特征字/词可以哈希表方式保存,后续再予以具体说明。
文本接收模块120用于接收并打开文本资料200,文本200可以是预先存储于手机终端的,也可以是通过有线或无线等通讯方式获取的,并通过文本阅读程序打开文本资料200。
文本扫描模块130,用于对文本资料200进行全文扫描,检查该文本资料200中的每个字/词是否命中该分类背景资料库中的特征字/词,以此确定各分类号的选择率。
更具体地说,对于文本当前字,文本扫描模块130首先在哈希表中遍历,检查该文本当前字是否命中某个特征字;如果没有,则继续检查文本下一个字,如果命中,则检查它是否命中该字为首的某个特征词,如果没有,则该字所对应的分类号的选择率加一,继续检查下一个字直到结束;如果命中特征词,则该特征词对应的分类号的选择率加一,继续检查下一个字直到结束。
背景截取及显示模块140,根据各分类号的选择率,选择选择率最高的分类号对应的背景资料进行显示,如果所有分类号的选择率均为零,则选择默认背景资料进行显示。
图2为本发明一种文本阅读方法的步骤流程图,以下将根据图2说明本发明的实施流程。
步骤201,建立分类背景资料库,该分类背景资料库储存有多笔背景资料项,其中每笔背景资料项均包含有分类号、特征字/词及对应的背景资料,每笔背景资料项以唯一的分类号识别,每个分类号可以对应多个特征字/词;
步骤202,接收并打开一文本资料;
步骤203,对文本资料进行全文遍历扫描,检查文本资料中的每个字/词是否命中分类背景资料库中的特征字/词,以此确定各分类号的选择率;
更具体地说,对于文本当前字,首先在哈希表中遍历,检查该文本当前字是否命中某个特征字;如果没有,则继续检查文本下一个字,如果命中,则检查它是否命中该字为首的某个特征词,如果没有,则该字所对应的分类号的选择率加一,继续检查下一个字直到结束;如果命中某个特征词,则该特征词对应的分类号的选择率加一,并继续检查下一个字直到结束。
步骤204,比较各分类号的选择率,选择选择率最高的分类号对应的背景资料进行显示。当然,若选择率最高的分类号不止一个,则任意择一选择率最高的背景资料项进行显示;若所有分类号的选择率都为零,则使用默认背景进行显示。
由上可见,对于本发明,分类背景资料库的建立至关重要,以下将配合图3来详细说明本发明中分类背景资料库的建立。
首先,对多个背景资料进行分类,每个分类以唯一的分类号识别。分类的划分精细度取决于业务目标的需求和手机终端的软硬件条件两方面,分类越精细,消耗的系统资源越多。当分类较少时,背景图片或音乐的主旨需要适当模糊,避免和文本内容反差太大;
其次,确定各分类号对应的特征字。在本发明较佳实施例中,选取以UNICODE-16小头编码的常用汉字单字作为特征字,按背景做类别划分。很多单字本身就已有较为明确的一个或多个使用环境,比如,由“车”联想到交通工具,由“鸟”联想到生物,由“电”联想到科技或者生活,由“佛”联想到玄学。另外,虽然汉字博大精深,一字多义的现象非常普遍,但是当同一类别的字大量出现时,可以帮助认定文档类别。在本发明较佳实施里中,为加快后续查询速度,选取的特征字以哈希表保存,哈希表的键为汉字的UNICODE-16小头编码,值为分类号和更多信息的组合。由于后续步骤需要在特征字的基础上,进一步确定特征词,这里的更多信息就是一系列的特征词的保存结构。
最后,确定各分类号对应的特征词。从目标上看,词的含义比字明确的多。比如由“电梯”联想到都市,由“闪电”联想自然现象,由“公式”联想到科学,由“公示”联想到政务。在本发明较佳实施例中,词组保存结构为除去首字的字符串和分类号的组合,这个组合作为一个单元加在首字的哈希值中的特征值列表中。而对于非特征字的首字,需要在特征字哈希表中新增该字,并且给予一个无效的分类号。
综上本发明一种文本阅读系统及方法通过建立包含特征字/词的分类背景资料库,对文本资料全文扫描后判断每个字/词的命中率,根据该命中率确定各分类号的选择率及根据选择率确定背景资料进行显示等技术手段,使得文本阅读时显示的背景资料与文本内容密切相联,提高用户阅读体验,并且,本发明的背景元素较为丰富,可以提供用户较好的视觉感受。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (12)

1.一种文本阅读系统,至少包含:
分类背景资料库,储存有多笔背景资料项,其中各背景资料项至少包括一分类号、特征字/词及对应的背景资料;
文本接收模块,接收并打开一文本资料;
文本扫描模块,对该文本资料进行全文扫描,检查该文本资料中的每个字/词是否命中该分类背景资料库中的特征字/词,根据命中情况统计各分类号的选择率;以及
背景截取及显示模块,根据各分类号的选择率,选择选择率最高的分类号对应的背景资料进行显示。
2.如权利要求1所述的文本阅读系统,其特征在于:若所有分类号的选择率均为零,则该背景截取及显示模块选择默认背景资料进行显示。
3.如权利要求1所述的文本阅读系统,其特征在于:各背景资料项的特征字以哈希表方式保存。
4.如权利要求1所述的文本阅读系统,其特征在于:该哈希表的键为特征字的UNICODE-16小头编码,值为对应的该分类号或词组保存结构。
5.如权利要求4所述的文本阅读系统,其特征在于:该词组保存结构为特征词除去首字的字符串和对应的分类号的组合。
6.如权利要求5所述的文本阅读系统,其特征在于:该文本扫描模块逐一判断该文本资料的当前字是否命中某个特征字,若命中,则判断该当前字是否命中该特征字为首的某个特征词,若没有,则该特征字对应的分类号的选择率加一,若命中某个特征词,则该特征词对应的分类号的选择率加一。
7.一种文本阅读方法,包括如下步骤:
建立分类背景资料库,分类背景资料库,储存有多笔背景资料项,其中各背景资料项至少包括一分类号、特征字/词及对应的背景资料;
接收并打开一文本资料;
对文本资料进行全文遍历扫描,检查该文本资料中的每个字/词是否命中该分类背景资料库中的特征字/词,以此确定各分类号的选择率;以及 
选择选择率最高的分类号对应的背景资料进行显示。
8.如权利要求7所述的文本阅读方法,其特征在于,建立分类背景资料库的步骤进一步包括:
对多个背景资料进行分类,每个分类以一分类号唯一标识;
确定各分类号对应的特征字;
确定各分类号对应的特征词。
9.如权利要求8所述的文本阅读方法,其特征在于:该些特征字为以UNICODE-16小头编码的常用汉字单字。
10.如权利要求9所述的文本阅读方法,其特征在于:该些特征字以哈希表方式保存,该哈希表的键为该些特征字的UNICODE-16小头编码,值为对应的该些分类号或词组保存结构。
11.如权利要求10所述的文本阅读方法,其特征在于:该词组保存结构为该特征词除去首字的字符串和对应的分类号的组合。
12.如权利要求11所述的文本阅读方法,其特征在于:确定各分类号的选择率的步骤进一步包括:
遍历该哈希表,检查该文本资料的当前字是否命中某个特征字;
若命中,则检查该当前字是否命中该特征字为首的某个特征词,否则继续检查下一个字;
若该当前字没有命中该特征字为首的某个特征词,则该特征字所对应的分类号的选择率加一,若命中某个特征词,则该特征词对应的分类号的选择率加一。 
CN2011100983911A 2011-04-19 2011-04-19 文本阅读系统及其方法 Pending CN102169479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100983911A CN102169479A (zh) 2011-04-19 2011-04-19 文本阅读系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100983911A CN102169479A (zh) 2011-04-19 2011-04-19 文本阅读系统及其方法

Publications (1)

Publication Number Publication Date
CN102169479A true CN102169479A (zh) 2011-08-31

Family

ID=44490643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100983911A Pending CN102169479A (zh) 2011-04-19 2011-04-19 文本阅读系统及其方法

Country Status (1)

Country Link
CN (1) CN102169479A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765830A (zh) * 2015-04-13 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种信息搜索方法及装置
CN104778247A (zh) * 2015-04-13 2015-07-15 天脉聚源(北京)传媒科技有限公司 一种基于给定数据资源的信息检索方法及装置
CN110968390A (zh) * 2019-11-15 2020-04-07 广东智媒云图科技股份有限公司 一种电子屏自动配色方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765830A (zh) * 2015-04-13 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种信息搜索方法及装置
CN104778247A (zh) * 2015-04-13 2015-07-15 天脉聚源(北京)传媒科技有限公司 一种基于给定数据资源的信息检索方法及装置
CN104778247B (zh) * 2015-04-13 2018-01-05 天脉聚源(北京)传媒科技有限公司 一种基于给定数据资源的信息检索方法及装置
CN104765830B (zh) * 2015-04-13 2018-11-20 天脉聚源(北京)传媒科技有限公司 一种信息搜索方法及装置
CN110968390A (zh) * 2019-11-15 2020-04-07 广东智媒云图科技股份有限公司 一种电子屏自动配色方法及装置
CN110968390B (zh) * 2019-11-15 2023-04-28 广东智媒云图科技股份有限公司 一种电子屏自动配色方法及装置

Similar Documents

Publication Publication Date Title
US9836524B2 (en) Internal linking co-convergence using clustering with hierarchy
US8250156B2 (en) Method and system for providing additional information related to content of an e-mail
US20190379618A1 (en) Presenting visual media
CN106708817B (zh) 信息搜索方法及装置
US20140095308A1 (en) Advertisement distribution apparatus and advertisement distribution method
KR20110115542A (ko) 향상된 개체 발췌에 기초하여 메시지 및 대화 간의 의미 유사성을 계산하는 방법
CN107305551A (zh) 推送信息的方法和装置
CN1505869A (zh) 在移动终端中显示区分优先级的图标的方法和装置
US20100057559A1 (en) method of choosing advertisements to be shown to a search engine user
CN103430172A (zh) 检索装置、检索方法及程序
CN104063489A (zh) 一种确定网页图片相关度及显示检索结果的方法及装置
CN103186555B (zh) 评价信息生成方法及系统
EP2807602A1 (en) Pattern matching engine
CN106570020A (zh) 用于提供推荐信息的方法和装置
CN112784112B (zh) 报文校验方法及装置
US9275164B2 (en) Grouping and presenting search query results
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
JP2014160252A (ja) 電子機器、文字列表示方法、および文字列表示プログラム
CN102033928A (zh) 手写原笔迹记录及查询系统、电子装置
CN101281430A (zh) 具有表情符号联想输入功能的装置及其联想输入方法
CN112989148A (zh) 纠错词排序方法、装置、终端设备和存储介质
CN109947944A (zh) 短信显示方法、装置以及存储介质
US8943101B2 (en) Keyword acquiring device, content providing system, keyword acquiring method, a computer-readable recording medium and content providing method
CN107038224B (zh) 数据处理方法及数据处理装置
CN102169479A (zh) 文本阅读系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 201206 B unit, West Third, building 27, new Jinqiao Road, No. 13, Shanghai, Pudong

Applicant after: Shanghai Wondertek Software Co., Ltd.

Address before: 201206 B unit, West Third, building 27, new Jinqiao Road, No. 13, Shanghai, Pudong

Applicant before: Shanghai Wondertek Software Co.,Ltd.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110831