CN102722490A - 一种电子阅读器的取词方法、取词装置及电子阅读器 - Google Patents

一种电子阅读器的取词方法、取词装置及电子阅读器 Download PDF

Info

Publication number
CN102722490A
CN102722490A CN2011100785395A CN201110078539A CN102722490A CN 102722490 A CN102722490 A CN 102722490A CN 2011100785395 A CN2011100785395 A CN 2011100785395A CN 201110078539 A CN201110078539 A CN 201110078539A CN 102722490 A CN102722490 A CN 102722490A
Authority
CN
China
Prior art keywords
character
matched
repertoire
coupling
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100785395A
Other languages
English (en)
Other versions
CN102722490B (zh
Inventor
侯中华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN201110078539.5A priority Critical patent/CN102722490B/zh
Publication of CN102722490A publication Critical patent/CN102722490A/zh
Application granted granted Critical
Publication of CN102722490B publication Critical patent/CN102722490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种电子阅读器的取词方法、取词装置及电子阅读器,涉及信息索引领域,为提高取词的准确性而发明。所述方法包括:确定待匹配字符,以所述待匹配字符为索引,利用匹配字符库获取与所述待匹配字符相匹配的目标字符,其中所述匹配字符库是根据字符间的语意关系建立的,并对所述目标字符进行突出显示处理。装置包括:确定单元,用于确定待匹配字符;获取单元,用于以所述待匹配字符为索引,利用匹配字符库获取与所述待匹配字符相匹配的目标字符;显示处理单元,用于对所述目标字符进行突出显示处理。本发明实施例主要用于电子阅读器中,并且利用本发明实施例的技术方案可以提高取词的准确性。

Description

一种电子阅读器的取词方法、取词装置及电子阅读器
技术领域
本发明涉及信息索引领域,尤其涉及一种电子阅读器的取词方法、取词装置及电子阅读器。
背景技术
目前,电子阅读器作为一种以EPD(Electrophoretic Paper Display,电泳显示屏)为显示屏幕的新式数字阅读器,具有取词查询和摘录的功能。根据现有技术,电子阅读器一般基于目标位置的匹配选择进行取词,只能选中点击区域的一个或多个字符。
但是对于定位不准的触摸屏电子阅读器,用户需要多次重复操作才能选中目标字符,取词出错概率高。
发明内容
本发明实施例提供一种电子阅读器的取词方法、取词装置及电子阅读器,提高取词的准确性。
本发明实施例采用如下技术方案:
一种电子阅读器的取词方法,包括:
确定待匹配字符;
以所述待匹配字符为索引,利用匹配字符库获取与所述待匹配字符相匹配的目标字符,其中所述匹配字符库是根据字符间的语意关系建立的;
对所述目标字符进行突出显示处理。
一种取词装置,包括:
确定单元,用于确定待匹配字符;
获取单元,用于以所述待匹配字符为索引,利用匹配字符库获取与所述待匹配字符相匹配的目标字符,其中所述匹配字符库是根据字符间的语意关系建立的;
显示处理单元,用于对所述目标字符进行突出显示处理。
一种电子阅读器,包括:取词装置。
本发明实施例提供的电子阅读器的取词方法、取词装置及电子阅读器,确定待匹配字符,以所述待匹配字符为索引,利用匹配字符库获取与所述待匹配字符相匹配的目标字符,其中所述匹配字符库是根据字符间的语意关系建立的,并对所述目标字符进行突出显示处理。当用户在电子阅读器当前界面显示的文档中进行取词时,取词装置以选中的待匹配字符为索引自动搜索,并利用匹配字符库获取与所述待匹配字符相匹配的目标字符。由于所述匹配字符库是根据字符间的语意关系建立的,使得用户在选中待匹配字符的同时为用户选中与待匹配字符具有一定的语义关系的目标字符,因此,利用本发明实施例的技术方案,提高了取词的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例二电子阅读器的取词方法的流程图;
图2为本发明实施例二取词装置取词界面的示意图;
图3为本发明实施例二中TRIE字符树的示意图;
图4为本发明实施例二取词装置取词界面的又一示意图;
图5为本发明实施例三取词装置的示意图;
图6为本发明实施例三取词装置的又一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为丰富用户阅读的体验,本发明实施例一提供了一种电子阅读器的取词方法,首先,确定待匹配字符,以所述待匹配字符为索引,利用匹配字符库获取与所述待匹配字符相匹配的目标字符,其中所述匹配字符库是根据字符间的语意关系建立的,并对所述目标字符进行突出显示处理。
因而,通过上述描述可以看出,当用户在电子阅读器当前界面显示的文档中进行取词时,取词装置以选中的待匹配字符为索引自动搜索,并利用匹配字符库获取与所述待匹配字符相匹配的目标字符。由于所述匹配字符库是根据字符间的语意关系建立的,使得用户在选中待匹配字符的同时为用户选中与待匹配字符具有一定的语义关系的目标字符,因此,利用本发明实施例的技术方案,提高了取词的准确率。
如图1所示,本发明实施例二提供了一种电子阅读器的取词方法,包括如下步骤:
步骤11、取词装置接收用户的字符选择指令。
在本实施例中,所述取词装置可以设置于电子阅读器中。当用户使用电子阅读器进行阅读时,对当前界面显示的文档中的字符感兴趣,需要对其进行翻译或摘录等操作,首先要选择这些字符。通过所述用户对所述字符的选择,所述取词装置接收了所述用户的字符选择指令。通常情况下,当用户选定了某些字符时,这些选定的字符都会被突出显示,例如高亮显示等。
步骤12、取词装置根据所述字符选择指令以及当前文档的结构信息确定所述待匹配字符。
当利用电子阅读器为所述用户显示文档时,所述取词装置会自动读取该文档的结构信息。所述文档的结构信息也称为字符信息链表,该字符信息链表由单个字符信息节点构成,每个节点包含字符位置,字符数据,矩形区域位置等信息。其中,所述字符位置由段落编号、行编号、字符编号构成,所述字符数据为该字符的内容,所述矩形区域位置由矩形的左上角和右下角的坐标构成。
所述取词装置接收所述用户的字符选择指令之后,根据当前文档的结构信息就可以确定所述待匹配字符。如图2所示,当用户选择文档时,起始的点击坐标为(113,122),所述取词装置根据当前界面的文档的结构信息,获取“克”这个字符的左上角坐标为(100,110),并且该字符的宽度为28,高度为30,那么所述取词装置可以获知“克”这个字符的右上角坐标为(128,110),左下角坐标为(100,130),右下角坐标为(128,130),进而确定起始的点击坐标(113,122)包含于“克”这个字符区域内,所以所述取词装置确定所述用户点击的起始字符为“克”这个字符。
步骤13、取词装置读取样本词库,并根据所述样本词库建立所述匹配字符库。
在取词装置中还存储有一样本词库。在本实施例中,为了节省内存,只有当用户选择当前界面显示的文档中的字符时,所述取词装置才将所述样本词库读入内存中。进一步的,为便于所述用户利用该样本词库进行匹配取词,所述取词装置根据所述样本词库建立匹配字符库,其中所述匹配字符库是根据字符间的语意关系建立的。如图3所示,所述匹配字符库可以为TRIE字符树。以“中”这个字符为例,根据字符间的语意匹配关系,定义“华”和“国”都与“中”这个字符在语意上相匹配,故“华”和“国”都能分别和“中”组成语意组。为此,以“中”为根节点,建立如图3所示的树形结构。同理,再根据字符间的语意匹配关系,将与“华”和“国”相匹配的字符分别设置在“华”和“国”的下面。
步骤14、取词装置以所述待匹配字符为索引,利用匹配字符库获取与所述待匹配字符相匹配的目标字符。
在本实施例中,若所述待匹配字符为一个字符,那么所述取词装置首先以所述待匹配字符为索引,向前进行匹配搜索,或向后进行匹配搜索,或向前进行匹配搜索并向后进行匹配搜索;如果所述取词装置搜索到的字符与所述待匹配字符组成的语意组位于所述匹配字符库中,将所述搜索到的字符作为目标字符。
还以图2为例,来说明当所述待匹配字符为一个字符时,利用所述匹配字符库获取与所述待匹配字符相匹配的目标字符的过程。当所述用户点击的字符为“克”这个字符时,首先,所述取词装置以“克”为索引,向前搜索获取“马”这个字符,然后确定由“马”“克”组成的语意组“马克”是否位于所述匹配字符库中。经搜索匹配字符库,确定“马克”这个语意组存在于“马克思”这个语意组中,因此,将“马”作为目标字符。接着,以“马”为索引继续向前搜索,当搜索到“,”时,由于由“,”和“马”组成的语意组不存在于所述匹配字符库中,所以所述取词装置停止搜索。同理,以“克”为索引,向后搜索,所述取词装置将“思”也确定为目标字符。
若所述待匹配字符为两个以上的字符,那么所述取词装置首先确定所述字符中的起始字符和结束字符,然后以所述起始字符为索引向前进行匹配搜索,或以所述结束字符为索引向后进行匹配搜索,或以所述起始字符为索引向前进行匹配搜索,并以所述结束字符为索引向后进行匹配搜索。
当所述取词装置以所述起始字符为索引向前进行匹配搜索时,如果搜索到的字符与所述起始字符组成的语意组位于所述匹配字符库中,将所述搜索到的字符作为目标字符;当所述取词装置以所述结束字符为索引向后进行匹配搜索时,如果搜索到的字符与所述结束字符组成的语意组位于所述匹配字符库中,将所述搜索到的字符作为目标字符。
如图4所示,当所述用户选择的文档为“思分析并批”这五个字符时,那么所述取词装置首先将所述“思分析并批”中的“思”确定为起始字符,将“批”确定为结束字符。然后所述取词装置以“思”和“批”为索引分别向前和向后进行搜索。当所述取词装置向前搜索到“克”这个字符时,确定由“克”“思”组成的语意组“克思”是否位于所述匹配字符库中。经搜索匹配字符库,确定“克思”这个语意组存在于所述匹配字符库中的“马克思”这个语意组中,那么所述取词装置将“克”确定为目标字符。接着,以“克”为索引继续向前搜索,当搜索到“马”这个字符时,确定由“马”“克”“思”组成的语意组“马克思”是否位于所述匹配字符库中。经搜索匹配字符库,确定“马克思”恰好存在于所述匹配字符库中,那么所述取词装置再将“马”确定为目标字符。再接着,所述取词装置以“马”为索引继续向前搜索,当搜索到“,”时,由于由“,”和“马”组成的语意组不存在于所述匹配字符库中,所以所述取词装置停止搜索。同理,以“批”为索引,向后搜索,所述取词装置将“判”也确定为目标字符。
步骤15、取词装置对所述目标字符进行突出显示处理。
当所述取词装置确定目标字符之后,会自动提取所述目标字符,并对所述目标字符进行突出显示处理。所述突出显示处理,是指将提取的目标字符显示为高亮、反色、下划线或画框等形式,能够提示用户所述目标字符的存在,也便于用户对所述目标字符进行其他操作,如翻译或摘录等。
通过上述描述可以看出,当用户在电子阅读器当前界面显示的文档中进行取词时,取词装置以选中的待匹配字符为索引自动搜索,并利用匹配字符库获取与所述待匹配字符相匹配的目标字符。由于所述匹配字符库是根据字符间的语意关系建立的,使得用户在选中待匹配字符的同时为用户选中与待匹配字符具有一定的语义关系的目标字符,因此,利用本发明实施例的技术方案,提高了取词的准确率,节省了用户的时间,并丰富了用户的阅读体验。
如图5所示,本发明实施例三提供了一种取词装置,包括:确定单元51,用于确定待匹配字符;获取单元52,用于以所述待匹配字符为索引,利用匹配字符库获取与所述待匹配字符相匹配的目标字符,其中所述匹配字符库是根据字符间的语意关系建立的;显示处理单元53,用于对所述目标字符进行突出显示处理。
其中,所述确定单元51包括:指令接收模块,用于接收用户的字符选择指令;获取模块,用于根据所述字符选择指令以及当前文档的结构信息获取所述待匹配字符。
当所述待匹配字符为一个字符时,所述获取单元52包括:搜索模块,用于以所述待匹配字符为索引,向前和/或向后进行匹配搜索;获取模块,用于在搜索到的字符与所述待匹配字符组成的语意组位于所述匹配字符库中时,将所述搜索到的字符作为目标字符。
若所述待匹配字符为两个以上的字符,所述获取单元52包括:确定模块,用于确定所述字符中的起始字符和结束字符;搜索模块,用于以所述起始字符为索引,向前进行匹配搜索;以所述结束字符为索引,向后进行匹配搜索;获取模块,用于在以所述起始字符为索引向前进行匹配搜索时,如果搜索到的字符与所述起始字符组成的语意组位于所述匹配字符库中,将所述搜索到的字符作为目标字符;在以所述结束字符为索引向后进行匹配搜索时,如果搜索到的字符与所述结束字符组成的语意组位于所述匹配字符库中,将所述搜索到的字符作为目标字符。
另外,如图6所示,在图5的基础上,所述取词装置还包括字符库建立单元54,用于读取样本词库,并根据所述样本词库建立所述匹配字符库。具体的,只有当用户选择当前界面的文档时,所述字符库建立单元54才将所述样本词库读入内存中,并且,为便于所述用户利用该样本词库进行匹配取词,所述字符库建立单元54根据所述样本词库建立匹配字符库。
其中,所述取词装置的工作原理可参照前述方法实施例中的描述。
通过上述描述可以看出,当用户在电子阅读器当前界面显示的文档中进行取词时,取词装置以选中的待匹配字符为索引自动搜索,并利用匹配字符库获取与所述待匹配字符相匹配的目标字符。由于所述匹配字符库是根据字符间的语意关系建立的,使得用户在选中待匹配字符的同时为用户选中与待匹配字符具有一定的语义关系的目标字符,因此,利用本发明实施例的取词装置,提高了取词的准确率。
此外,本发明实施例还提供了一种电子阅读器,包括图5或图6所示的取词装置。
综上所述,本发明实施例提供的电子阅读器的取词方法、取词装置及电子阅读器,确定待匹配字符,以所述待匹配字符为索引,利用匹配字符库获取与所述待匹配字符相匹配的目标字符,其中所述匹配字符库是根据字符间的语意关系建立的,并对所述目标字符进行突出显示处理。因而,利用本发明实施例的技术方案,提高了取词的准确率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种电子阅读器的取词方法,其特征在于,包括:
确定待匹配字符;
以所述待匹配字符为索引,利用匹配字符库获取与所述待匹配字符相匹配的目标字符,其中所述匹配字符库是根据字符间的语意关系建立的;
对所述目标字符进行突出显示处理。
2.根据权利要求1所述的方法,其特征在于,所述确定待匹配字符包括:
接收用户的字符选择指令;
根据所述字符选择指令以及当前文档的结构信息确定所述待匹配字符。
3.根据权利要求1所述的方法,其特征在于,所述以所述待匹配字符为索引,利用匹配字符库获取与所述待匹配字符相匹配的目标字符包括:
若所述待匹配字符为一个字符,以所述待匹配字符为索引,向前和/或向后进行匹配搜索;如果搜索到的字符与所述待匹配字符组成的语意组位于所述匹配字符库中,将所述搜索到的字符作为目标字符;
若所述待匹配字符为两个以上的字符,确定所述字符中的起始字符和结束字符;以所述起始字符为索引,向前进行匹配搜索,如果搜索到的字符与所述起始字符组成的语意组位于所述匹配字符库中,将所述搜索到的字符作为目标字符;以所述结束字符为索引,向后进行匹配搜索,如果搜索到的字符与所述结束字符组成的语意组位于所述匹配字符库中,将所述搜索到的字符作为目标字符。
4.根据权利要求1-3任一所述的方法,其特征在于,所述确定待匹配字符之后,所述方法还包括:
读取样本词库,并根据所述样本词库建立所述匹配字符库。
5.一种取词装置,其特征在于,包括:
确定单元,用于确定待匹配字符;
获取单元,用于以所述待匹配字符为索引,利用匹配字符库获取与所述待匹配字符相匹配的目标字符,其中所述匹配字符库是根据字符间的语意关系建立的;
显示处理单元,用于对所述目标字符进行突出显示处理。
6.根据权利要求5所述的装置,其特征在于,所述确定单元包括:
指令接收模块,用于接收用户的字符选择指令;
获取模块,用于根据所述字符选择指令以及当前文档的结构信息获取所述待匹配字符。
7.根据权利要求5所述的装置,其特征在于,当所述待匹配字符为一个字符时,所述获取单元包括:
搜索模块,用于以所述待匹配字符为索引,向前和/或向后进行匹配搜索;
获取模块,用于在搜索到的字符与所述待匹配字符组成的语意组位于所述匹配字符库中时,将所述搜索到的字符作为目标字符。
8.根据权利要求5所述的装置,其特征在于,若所述待匹配字符为两个以上的字符,所述获取单元包括:
确定模块,用于确定所述字符中的起始字符和结束字符;
搜索模块,用于以所述起始字符为索引,向前进行匹配搜索;以所述结束字符为索引,向后进行匹配搜索;
获取模块,用于在以所述起始字符为索引向前进行匹配搜索时,如果搜索到的字符与所述起始字符组成的语意组位于所述匹配字符库中,将所述搜索到的字符作为目标字符;在以所述结束字符为索引向后进行匹配搜索时,如果搜索到的字符与所述结束字符组成的语意组位于所述匹配字符库中,将所述搜索到的字符作为目标字符。
9.根据权利要求5-8任一项所述的装置,其特征在于,所述装置还包括:
字符库建立单元,用于读取样本词库,并根据所述样本词库建立所述匹配字符库。
10.一种电子阅读器,其特征在于,包括权利要求5-9任一项所述的取词装置。
CN201110078539.5A 2011-03-30 2011-03-30 一种电子阅读器的取词方法、取词装置及电子阅读器 Active CN102722490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110078539.5A CN102722490B (zh) 2011-03-30 2011-03-30 一种电子阅读器的取词方法、取词装置及电子阅读器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110078539.5A CN102722490B (zh) 2011-03-30 2011-03-30 一种电子阅读器的取词方法、取词装置及电子阅读器

Publications (2)

Publication Number Publication Date
CN102722490A true CN102722490A (zh) 2012-10-10
CN102722490B CN102722490B (zh) 2015-06-17

Family

ID=46948257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110078539.5A Active CN102722490B (zh) 2011-03-30 2011-03-30 一种电子阅读器的取词方法、取词装置及电子阅读器

Country Status (1)

Country Link
CN (1) CN102722490B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599888A (zh) * 2016-12-13 2017-04-26 广东小天才科技有限公司 一种翻译方法、装置及移动终端
CN108985018A (zh) * 2018-06-27 2018-12-11 深圳市必发达科技有限公司 一种文学作品防网络盗版方法、装置、存储器和处理器
CN111694998A (zh) * 2020-05-28 2020-09-22 苏州浪潮智能科技有限公司 一种bmc配置参数的字符库定制方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539908A (zh) * 2008-03-19 2009-09-23 英业达股份有限公司 依据移动标示组件位置判断词组之翻译系统及其方法
CN101727271A (zh) * 2008-10-22 2010-06-09 北京搜狗科技发展有限公司 一种提供纠错提示的方法、装置及输入法系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539908A (zh) * 2008-03-19 2009-09-23 英业达股份有限公司 依据移动标示组件位置判断词组之翻译系统及其方法
CN101727271A (zh) * 2008-10-22 2010-06-09 北京搜狗科技发展有限公司 一种提供纠错提示的方法、装置及输入法系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599888A (zh) * 2016-12-13 2017-04-26 广东小天才科技有限公司 一种翻译方法、装置及移动终端
CN108985018A (zh) * 2018-06-27 2018-12-11 深圳市必发达科技有限公司 一种文学作品防网络盗版方法、装置、存储器和处理器
CN111694998A (zh) * 2020-05-28 2020-09-22 苏州浪潮智能科技有限公司 一种bmc配置参数的字符库定制方法及系统
CN111694998B (zh) * 2020-05-28 2022-06-14 苏州浪潮智能科技有限公司 一种bmc配置参数的字符库定制方法及系统

Also Published As

Publication number Publication date
CN102722490B (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
CN105786930B (zh) 基于触摸交互的搜索方法及装置
CN103294363B (zh) 一种搜索方法和终端
US8874604B2 (en) Method and system for searching an electronic map
KR20190104154A (ko) 서비스 객체 디스플레이 방법, 맵 데이터 처리 방법, 클라이언트 및 서버
US20150154442A1 (en) Handwriting drawing apparatus and method
CN101639760A (zh) 联系信息输入方法及系统
CN102236423B (zh) 一种字符自动补充的方法、装置和输入法系统
CN111310693B (zh) 图像中文本的智能标注方法、装置及存储介质
CN105631393A (zh) 信息识别方法及装置
CN102289322A (zh) 手写笔迹处理方法及系统
CN102063620A (zh) 一种手写识别方法、系统及手写识别终端
CN102073884A (zh) 一种手写识别方法、系统及手写识别终端
CN103699527A (zh) 图像翻译系统及图像翻译方法
CN111611468A (zh) 页面交互方法、装置和电子设备
CN103376986A (zh) 电子设备和用于输入和管理用户数据的方法
CN103778141A (zh) 一种混合pdf图书目录自动抽取算法
CN110990010A (zh) 一种软件界面代码的生成方法及装置
CN102243708B (zh) 一种手写识别方法、系统及手写识别终端
CN115509413A (zh) 显示方法、装置、词典笔、电子设备和存储介质
CN102722490A (zh) 一种电子阅读器的取词方法、取词装置及电子阅读器
CN101882025A (zh) 手写输入方法及系统
CN103605521A (zh) 一种实现界面对位的方法及装置
CN102194000A (zh) 一种信息处理方法、装置及终端
CN104598289A (zh) 一种识别方法及一种电子设备
CN104992136B (zh) 识别条形码的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant