CN1452101A - 用一个词库实现双向词汇翻译和单词分组记忆的方法 - Google Patents

用一个词库实现双向词汇翻译和单词分组记忆的方法 Download PDF

Info

Publication number
CN1452101A
CN1452101A CN 03110620 CN03110620A CN1452101A CN 1452101 A CN1452101 A CN 1452101A CN 03110620 CN03110620 CN 03110620 CN 03110620 A CN03110620 A CN 03110620A CN 1452101 A CN1452101 A CN 1452101A
Authority
CN
China
Prior art keywords
dictionary
entry word
data
language
numbering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 03110620
Other languages
English (en)
Inventor
祝庆涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIASHENG-LIANQIAO INFORMATION ENGINEERING Co Ltd BEIJING
Original Assignee
JIASHENG-LIANQIAO INFORMATION ENGINEERING Co Ltd BEIJING
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIASHENG-LIANQIAO INFORMATION ENGINEERING Co Ltd BEIJING filed Critical JIASHENG-LIANQIAO INFORMATION ENGINEERING Co Ltd BEIJING
Priority to CN 03110620 priority Critical patent/CN1452101A/zh
Publication of CN1452101A publication Critical patent/CN1452101A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种利用一个特殊结构的词库和相应的索引表实现双语翻译和分组背单词功能的方法。它可方便地作为一个模块嵌入到手持电子设备的软件系统中,实现方法简单,且节约资源和成本。

Description

用一个词库实现双向词汇翻译和单词分组记忆的方法
技术领域
本发明涉及一种双向词汇翻译和单词分组记忆的方法,特别是指一种仅用一个词库进行双向词汇翻译的和分组背单词的方法。
背景技术
现在想学外语的人很多,而词汇量的掌握又是重要的一环。记忆单词有很多方法,可使用词汇手册、计算机中的分组背单词软件和电子词典。背单词和翻译做的最好的是在微机的平台中,但显然不符合随身携带的特点,更不能嵌入到手持电子设备中。专用的电子词典,功能虽强,但体积大,操作不便,内置大量的不同词库,它的功能也是独立的,且难以和其它手持电子设备合一。在手机等小巧的手持电子设备日益普及的情况下,随身带者手机,想学外文时又要带上电子词典或PDA,就显得臃肿。有的手机有词典功能(可双语翻译),但却不具备分组背单词的功能,显得美中不足。并且它们虽集成了翻译和背单词功能,但需要多个词库支持,占用存储空间大。
有词汇学习功能手持电子产品也很多,主要是专用的电子词典和部分PDA。这种电子设备内置各种词典和电子记事簿等功能,有的能翻译不能背单词,有的能背单词不能翻译。它们在实现背单词时调用不同的分立的词库,做翻译时又用其他的词库,之所以这样是依靠于内部大量的存储空间,存储不同的词库。
如申请号为96112663.9的发明,是一种电子计算器英汉词典,内置了英汉词典,但只能英译汉,更不能背单词。
又如申请号为88218781.3的发明,是一种英汉及汉英电子词典,利用当今微电子和计算机技术在小于32开书本体积内,做成具有英汉、汉英词典功能的一种电子产品。它利用大容量存贮片把英汉单词按编码形式存入,完成查词、翻译,但不具备背单词的功能。
发明内容
本发明提供了一种方法,只利用一个词库,实现了双语翻译和分组背单词两种功能。它利用一个特殊结构的词库和相应的索引表,实现按类、按组记忆词汇,同时又能实现词汇双向翻译。它可方便地作为一个模块嵌入到手持电子设备的软件系统中,实现方法简单,并且节约了资源,降低了成本。
以上目的可通过本发明的一种用一个词库实现双向词汇翻译和单词分组记忆的方法实现,该方法包含:(1)使用一个特殊结构的词库,其包含一个词库本体,内含多个词目,每一词目包含一个第一语言标题词、一个第二语言注释、以及至少一个表示该词目所属的分词库的分词库编号;一个词目分类索引表,包含多个分词库索引,每一分词库索引至少包含一个分词库编号和一组位置信息,指出该分词库在所述词库本体中的位置范围;一个快速索引表,其中存储有多条搜索符位置索引,每个索引记录了一个第二语言的搜索符在所述词库本体中的至少一组位置信息;(2)一个背单词方法,包含以下步骤:根据用户选择的词目分类确定一个分词库编号;在所述词目分类索引表中找到对应该分词库编号的位置信息;在词库本体中找出词目中的分词库编号与所确定的分词库编号一致的词目;(3)一个正向翻译方法,按用户给出的第一种语言词汇在所述的词库中查询标题词与之相匹配的词目;(4)一个反向翻译方法,包含以下步骤:按用户给出的第二种语言词汇确定一个搜索符;从所述快速索引表中取得该搜索符对应的索引的所述位置信息;根据该位置信息找出所述词库中符合要求的词目;(5)将找到的词目提供给用户。
进一步地,本发明的方法中,在词目分类索引表中还可包含一分词库词目总数计数。
进一步地,本发明的方法中,在每一分词库索引中还可还包含一分词库名称信息。
进一步地,本发明的方法中,在词目中还可包含音标、读音数据或各种必要的分割符。
进一步地,本发明的方法中,词目分类索引表可以和词库本体存储在一个文件中,该词目分类索引表位于文件头。
进一步地,本发明的方法中,词库和索引表的任意组合可以是用内部编码形式存储的。
进一步地,本发明的方法中,词库或索引可以是经排序的。
更进一步地,本发明的方法可以应用于一个手持电子设备的,如手机或掌上电脑。
附图说明
图1(a)是本发明中的词库的一种实施例;
图1(b)是图1(a)中的词目的一种实施例;
图1(c)是图1(a)中的词目的另一种实施例;
图2是使用图1的词库进行分组背单词的方法的流程图;
图3是本发明中的反向翻译方法的流程图;
图4是本发明中的快速索引表的一种实施例;
图5是图4中的二级索引表元的结构;
图6是在快速索引表中查询方法的流程图。
具体实施方式
本发明是一种自带双语翻译功能的背单词软件。它只利用一个特殊结构的词库,实现了双语翻译和分组背单词两种功能。它利用一个特殊结构的词库和相应的快速索引表,实现按类、按组记忆词汇,同时又能实现词汇双向翻译。词库由多种分割符、编号、第一种语言的词汇、音标和第二种语言的注释组成,快速索引表记录了第二种语言的索引符在词库中的位置,由它可做反向翻译。而编号可用来实现背单词功能。本发明所用的词库数据库和索引表被表达为内部编码形式,连同背单词的软件主体一起作为手持电子设备软件系统的一部分,一起编译链接。
图1(a)是这个词库中词目分类索引表和词库本体的实施例。词目分类索引表可以实现为词库信息头101,包括分词库数目单元105和分词库信息体103,如果分词库信息体103的数目是固定的,则分词库数目单元105也可不要。分词库信息体103应包括分词库编号,分词库名称和在词库中的起始和结束的位置指针104,位置指针104指向词库主体102中的存储位置。通过这种结构实现用一个词库完成分类、分组背单词的功能。
词库主体102由多个词目组成,每一词目包含一个第一语言标题词、一个第二语言注释、以及至少一个表示该词目所属的分词库的分词库编号和分割符,图1(b)和图1(c)揭示了两种可行的词目的构成方式,它们都可在同一个词库中出现,但至少包含第一语言标题词、一个第二语言注释、编号和对应的分割符。
词库主体102按第一种语言的排序顺序存放所有词目,词目包括分词库编号、第一种语言的标题词、音标和第二种语言的注释等元素,和多种不同的分割各元素的分割符。这个分词库编号和分词库信息体103中的分词库编号是一致的,相同的分词库编号表示词目属于同一个分词库。
图2是使用这种结构的词库完成背单词功能的流程图。步骤201通过人机界面获得分词库的设置和分组信息。步骤202在词库信息头101中得到对应的位置指针104。步骤203通过这些位置指针104在词库主体102中可定位分词库的起讫位置,然后根据分组信息可查获对应的词目。这个词目的分词库编号应和选定的分词库编号一致。
在翻译时,如果由第一种语言翻译为第二种语言,将第一种语言的词汇和词库主体102中的标题词进行匹配,即可查到对应的词目。也可配置一个标题词的索引表,则查询速度会更快。在由第二种语言到第一种语言翻译(反向翻译)时,需利用快速索引表,快速索引表记录了第二种语言的搜索符在词库主体中词目开始和结束的位置,或者是每一次出现的位置。搜索符是第二种语言词汇的第一个单字或单词,它们必须在译文中出现。索引表也可以是排序的。
图3是一个反向翻译的操作流程图。在得到输入的词汇后,步骤301提取搜索符,步骤302通过查询模块得到搜索符在词库中出现的位置,步骤303再通过注释的匹配比较,判断当前词汇是否是注释的一部分,如果是,则当前词目是所需词目,翻译成功,可进行下一个翻译查询。
在图3中步骤302用到一种反向翻译算法,先为要查找的第二语言词汇提取搜索符,并在该快速索引表中查找对应的索引;之后在找到的索引中取得该第二语言搜索符在所述词库中的一个位置信息,找出该词库的该位置处的第二语言译文与所述要查找的第二语言词汇相匹配的词目;重复以上步骤直至处理完所有的位置信息即可找出所有符合要求的词汇。
这种反向翻译算法可以使用下面揭示的方案完成,在这个方案中,使用了一个如图4所示的快速索引表,以及一个如图6所示的处理流程。
图4中说明了一种快速索引表,可在步骤302中应用。在一级索引表401中,给每一个搜索符分配了一个指针403,分配顺序可按搜索符的特点排序。指针403都是固定长度,且指向二级索引表402中对应的二级索引表元404的地址。二级索引表402由二级索引表元404组成。二级索引表元404的长度不定,依赖于搜索符在词库中的统计信息。
进一步,图5表示了图4中的二级索引表元404的一种结构,二级索引表元404记录搜索符在词库中开始和结束的位置,或者是每一次发生的位置。如图5所示,如果标志符/计数器500等于0,则指针数为2(n=2),指针1(由标号501表示)指向词库中当前搜索符第一次出现的位置,指针2(由标号502表示)指向词库中当前搜索符最后出现的位置。如果标志符/计数器500大于0,则指针数为标志符/计数器表达的值(n=标志符/计数器值),指针1到指针n分别指向当前搜索符在词库中出现的位置。
图6则揭示了一种反向翻译方法的处理过程:得到搜索符后,由步骤602在一级索引表401中查到搜索符对应的位置,该位置存放在二级索引表402中的表元的指针;如果在一级索引表401中没查到,则返回查询不到的信息,这在图中没有标出。这时说明词库中没有当前输入词汇的记录。
再由步骤603在二级索引表的表元中查到在该搜索符在词库中的位置指针,指针可能有多个。
步骤604中当所有位置指针已经取完,则结束处理。
否则在步骤605对词库中由取到的位置指针所指示的位置处的译文进行词汇匹配,即判断所输入词汇是否在译文中出现。
在步骤606中,如果译文中出现了所输入的词汇,即匹配成功(“是”),则得到对应的词目,进而得到其它词目,否则继续处理下一个位置指针。
本发明所用的词库数据库和索引表被表达为内部编码形式,连同背单词的软件主体一起作为手持电子设备软件系统的一部分,一起编译链接,而手持电子设备可根据自己的设计风格提供操作界面。
对于本领域的技术人员来说显而易见的是,可在不脱离本发明的精神和范围的情况下对本发明做出各种改进和变化。因此,这意味着,如果对本发明的这些改进和变化落在所附权利要求的范围及其等效范围内,本发明就涵盖了这些改进和变化。

Claims (9)

1、一种用一个词库实现双向词汇翻译和单词分组记忆的方法,其特征在于该方法包含:
(1)建立一个特殊结构的词库,其包含:
一个词库本体,内含多个词目,每一词目包含一个第一语言标题词、一个第二语言注释、以及至少一个表示该词目所属的分词库的分词库编号数据;
一个词目分类索引表,包含多个分词库索引数据,每一分词库索引数据至少包含一个分词库编号数据和一组分词库位置数据,其中该分词库位置数据指出该分词库在所述词库本体中的位置范围;
一个快速索引表,其中存储有多条搜索符位置索引数据,每个索引数据记录了一个第二语言的搜索符在所述词库本体中的至少一组搜索符位置数据;
(2)一个背单词方法,进一步包含以下步骤:
根据用户选择的词目分类确定一个分词库编号;
在所述词目分类索引表中找到对应该分词库编号的分词库位置数据;
根据该找到的分词库位置数据,在词库本体中找出词目中的分词库编号数据与所确定的分词库编号一致的词目;
(3)一个正向翻译方法,按用户给出的第一种语言词汇在所述的词库中查询第一语言标题词与该待查的第一种语言词汇相匹配的词目;
(4)一个反向翻译方法,包含以下步骤:
按用户给出的第二种语言词汇确定一个搜索符;
从所述快速索引表中取得该搜索符对应的索引数据中的所述搜索符位置数据;
根据该找到的搜索符位置数据找出所述词库中符合要求的词目;
(5)将找到的词目提供给用户。
2、如权利要求1所述的方法,其特征在于,所述一个词目分类索引表还包含一分词库词目总数计数数据。
3、如权利要求1所述的方法,其特征在于,所述每一分词库索引还包含一分词库名称数据。
4、如权利要求1所述的方法,其特征在于,所述词目还包含音标数据、读音数据和必要的分割符的任意组合。
5、如权利要求1、2、3或4所述的方法,其特征在于所述的词目分类索引表与所述词库本体存储于一个文件中,该词目分类索引表位于文件头。
6、如权利要求1、2、3或4所述的方法,其特征在于,所述词库和/或索引表是以内部编码形式存储的。
7、如权利要求1、2、3或4所述的方法,其特征在于,所述词库和/或索引表是经排序的。
8、如权利要求1、2、3或4所述的方法,其特征在于,该方法是应用于一个手持电子设备的。
9、如权利要求8所述的方法,其特征在于所述的手持电子设备是一个手机或掌上电脑。
CN 03110620 2003-04-21 2003-04-21 用一个词库实现双向词汇翻译和单词分组记忆的方法 Pending CN1452101A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 03110620 CN1452101A (zh) 2003-04-21 2003-04-21 用一个词库实现双向词汇翻译和单词分组记忆的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 03110620 CN1452101A (zh) 2003-04-21 2003-04-21 用一个词库实现双向词汇翻译和单词分组记忆的方法

Publications (1)

Publication Number Publication Date
CN1452101A true CN1452101A (zh) 2003-10-29

Family

ID=29222732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 03110620 Pending CN1452101A (zh) 2003-04-21 2003-04-21 用一个词库实现双向词汇翻译和单词分组记忆的方法

Country Status (1)

Country Link
CN (1) CN1452101A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398834B (zh) * 2007-09-29 2010-08-11 北京搜狗科技发展有限公司 一种针对输入信息的处理方法和装置及一种输入法系统
WO2011035455A1 (en) * 2009-09-25 2011-03-31 Yahoo! Inc. Acquisition of out-of-vocabulary translations by dynamically learning extraction rules
CN103049447A (zh) * 2011-10-12 2013-04-17 英业达股份有限公司 辅助记忆双语同义词汇的系统及其方法
CN112036191A (zh) * 2020-08-31 2020-12-04 文思海辉智科科技有限公司 一种数据处理方法及装置、可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398834B (zh) * 2007-09-29 2010-08-11 北京搜狗科技发展有限公司 一种针对输入信息的处理方法和装置及一种输入法系统
WO2011035455A1 (en) * 2009-09-25 2011-03-31 Yahoo! Inc. Acquisition of out-of-vocabulary translations by dynamically learning extraction rules
US8670974B2 (en) 2009-09-25 2014-03-11 Yahoo! Inc. Acquisition of out-of-vocabulary translations by dynamically learning extraction rules
CN103049447A (zh) * 2011-10-12 2013-04-17 英业达股份有限公司 辅助记忆双语同义词汇的系统及其方法
CN112036191A (zh) * 2020-08-31 2020-12-04 文思海辉智科科技有限公司 一种数据处理方法及装置、可读存储介质
CN112036191B (zh) * 2020-08-31 2023-11-28 文思海辉智科科技有限公司 一种数据处理方法及装置、可读存储介质

Similar Documents

Publication Publication Date Title
US7275049B2 (en) Method for speech-based data retrieval on portable devices
CN100565515C (zh) 一种中文自动应答方法及系统
US7502781B2 (en) Flexible keyword searching
US8401838B2 (en) System and method for multilanguage text input in a handheld electronic device
US6026398A (en) System and methods for searching and matching databases
CN101819578B (zh) 检索方法、索引建立方法和装置及检索系统
CN110866089B (zh) 基于同义多语境分析的机器人知识库构建系统及方法
CN101697109A (zh) 一种获取输入法候选项的方法及系统
CN101097573A (zh) 一种自动问答系统及方法
CA2579052C (en) Multi language text input in a handheld electronic device
US20070136248A1 (en) Keyword driven search for questions in search targets
EP0775963B1 (en) Indexing a database by finite-state transducer
CN100492366C (zh) 摘要提取方法以及摘要提取模块
CN111198936B (zh) 一种语音搜索方法、装置、电子设备及存储介质
WO2003085562A9 (en) Searching a database with a key table
CN1452101A (zh) 用一个词库实现双向词汇翻译和单词分组记忆的方法
CN109727591B (zh) 一种语音搜索的方法及装置
CN113220824B (zh) 数据检索方法、装置、设备及存储介质
Mon et al. Myanmar language search engine
CN1452093A (zh) 用单一词库进行双向词汇翻译的方法
CN1648829A (zh) 用于输入汉字的方法和系统
CN1121655C (zh) 实现不规则片语快速查找的方法
CN1667611A (zh) 字汇查询方法及系统
CN1404289A (zh) 手机中的名字和号码查找方法
CN102103610A (zh) 一种检索信息、信息处理的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication