CN1452093A - 用单一词库进行双向词汇翻译的方法 - Google Patents
用单一词库进行双向词汇翻译的方法 Download PDFInfo
- Publication number
- CN1452093A CN1452093A CN 03110619 CN03110619A CN1452093A CN 1452093 A CN1452093 A CN 1452093A CN 03110619 CN03110619 CN 03110619 CN 03110619 A CN03110619 A CN 03110619A CN 1452093 A CN1452093 A CN 1452093A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- pointer
- language
- translation
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
提供一种用一个单一词库进行双向词汇翻译的方法,通过使用一个占用存储空间较小的快速索引表和一种相应的反向翻译方法,实现仅用一个词库实现词汇的双向翻译,达到节省词库占用的存储空间的目的。该方法包含:一个索引方法,预先建立一个快速索引表,其中含有多条索引,每个索引记录了一个第二语言的搜索符在所述词库中的至少一个位置信息;以及一个相应的反向翻译方法,根据要查找的第二语言词汇提取一个搜索符,从该快速索引表中找到对应的词库位置信息,进一步在词库中找到译文中出现要查找的第二语言词汇的词目。
Description
技术领域
本发明涉及一种双向词汇翻译的方法,特别是指一种仅使用一个单一词库进行双向词汇翻译的方法。
背景技术
现在的手持电子设备中很多都配置了电子词典,可以进行词语翻译。当由一种语言词汇翻译为另一种语言的译文时,一种通用和公知的方法是按顺序查询相应的词库。
比如申请号为98119459.1的发明,它可以由第一种语言翻译为第二种语言,只实现了一个方向的翻译。它只包含一个词库,根据输入的第一种语言的标题词,然后查询存储表检索出第二种语言的译文,但该发明不能实现反向翻译。
为实现两种语言词汇互译的功能,一般的电子词典中使用的一种已知通用的方法是,当由第一种语言的词汇翻译为第二种语言的译文时,通过查询第一种语言到第二种语言的词库实现(正向翻译),当由第二种语言翻译为第一种语言的译文时,则要通过查询第二种语言到第一种语言的词库实现(反向翻译),其代价是分别制作对应的词库。这对于大多数电子词典的应用来说没有问题,但因为包含了大量词汇和解释的词库要占用很大的存储空间,对于存储资源很宝贵的一些手持电子设备,要实现词典的双向功能所需要的两个词库会成倍地占用大量存储空间,进而增加了制造成本。
综上所述,现有的电子词典要实现正向和反向翻译,需要配置两种独立的词库,制作成本高且占用约多一倍的存储空间,在一些手持电子设备中有限的存储空间内不能包括更多的词汇条目。或者有些技术包含一个词库,不能做到双向翻译。这是因为现有的电子词典的词库都是按照第一种语言的词汇来存储第二种语言的译文的,只是由于目前没有一种方法,能够从这种词库中为第二种语言的词汇快速地找到可在译文中与之匹配的第一种语言的词目,因此必须使用分别独立的词库。
发明内容
本发明提供一种双向词汇翻译的方法,只用一个词库,结合一个占用存储空间较小的快速索引表和一种相应的反向翻译方法,实现了仅使用一个词库实现词汇的双向翻译,达到节省存储空间、降低制作成本的目的。
为实现上述目的,本发明提供一种用单一词库进行双向词汇翻译的方法,该词库是一电子词库,包含多个词目,每一词目包含有可区分的一个第一语言的标题词和一个第二语言的译文,该方法包含一个将第一语言词汇翻译为第二语言译文的正向翻译方法;以及一个相应的反向翻译方法,该反向翻译方法进一步包含一个索引方法,其预先建立一个快速索引表,其中含有多条索引,每个索引记录了一个第二语言的搜索符在所述词库中的至少一个位置信息,以及一个查找方法,其根据要查找的第二语言词汇提取一个搜索符,从该快速索引表中找到对应的词库位置信息,进一步在词库中找到译文中包含有要查找的第二语言词汇的词目。
本发明提供的方法中,也可以为正向翻译方法使用索引,即正向翻译方法中包含一个预先建立索引、和一个使用索引进行正向翻译的步骤,以加快翻译速度。
本发明提供的方法中,快速索引表还可使用多级索引方式存储,这有助于快速进行查找。
本发明提供的方法中,快速索引表可进一步包含至少一个二级索引表,每个二级索引表包含多个索引表元,每一表元包含至少一个词库位置指针,指出所述的搜索符在一个所述词库中的位置;以及一个一级索引表,包含多个一级索引表指针,每一个该一级索引表指针包含所述搜索符在至少一个二级索引表中对应索引表元的二级索引位置指针。
本发明提供的方法中,所述反向翻译方法中从快速索引表中找到对应的位置信息的操作可以包括以下步骤:在一级索引表中查找所述搜索符对应的一级索引表指针;根据找到的一级索引表指针中的二级索引位置指针在一个二级索引表中找出对应的二级索引表元;找出的二级索引表元中的词库位置指针即是要查找的词库位置信息。
本发明提供的方法中,每个二级索引表元还可包含一个标志符/计数器,当该标志符/计数器为0时,所述词库位置指针包含所述一个所述搜索符在词库中的开始位置指针和一个所述搜索符在词库中的结束位置指针;当该标志符/计数器非0时,该词库位置指针包含数量由该标志符/计数器值指定的发生位置指针,每个该发生位置指针指出所述搜索符在词库中的一个发生位置。
本发明提供的方法中,快速索引表可以是全部或部分地存储于一个快速访问存储器中的。
本发明提供的方法中,词库或索引表都可以预先经过排序,从而提高查找效率。
本发明提供的方法中,词库或快速索引表都可以使用内部编码储存。
本发明提供的方法可以应用于一个手持电子设备,比如手机、掌上电脑等。
以下结合附图以提供对本发明的进一步理解,将其结合构成了本说明书的一部分,其说明了本发明的实施例,并连同描述一起用于解释本发明的原理。
附图说明
图1是本发明中的快速索引表的一种实施例;
图2是图1中二级索引表元的一种实施例;
图3是本发明中的反向翻译方法的一种实施方式。
具体实施方式
本发明提供一种双向词汇翻译的方法,通过使用一个占用存储空间较小的快速索引表和一种相应的反向翻译方法,实现了仅使用一个词库实现词汇的双向翻译,达到节省词库占用的存储空间的目的。
本发明由一个词库、快速索引表和反向翻译方法组成。词库是单一的,即它的标题词只由第一种语言组成,译文由第二种语言组成,词库可能包含音标等其他信息,但应能区分标题词和译文,词库本身按标题词排序。
在以下给出的实施例中,快速索引表记录了第二种语言的搜索符在词库中开始和结束的位置,一般来说,搜索符可以是可供查询的词汇的第一个单字或单词;相应的反向翻译方法则是通过在该索引表中找到第二种语言的搜索符对应的索引项,进而找到词库中含有该搜索符的词目,通过将词目的译文中搜索符位置处的文字与要翻译的整个词汇进行比较,进一步确定完全符合要求的词目。
虽然本例中披露了这样一种具体的设计,但在公知的范围内可对这种索引方式设计出多种等效的替换方式,以及对应的反向翻译方法,因此本发明的保护范围不应局限于本实施例所披露的方式。
快速索引表记录了第二种语言的搜索符在词库中开始和结束的位置,或者是每一次发生的位置。搜索符是第二种语言的单字或单词,它们必须在译文中出现,且是预先根据词库生成的。索引表也可以是排序的。
正向翻译按正常的搜索完成,比如对于预先按标题词排序的词库,因正向是排序的,可用任何已知的方法翻译,为加速搜索,也可再使用一个索引表,并在正向翻译方法中加入使用索引的处理。
反向翻译时,搜索方法分析输入的第二种语言的词汇,查到搜索符,进而查到在词库中的位置,得到对应的第一个词目,进而得到其它词目。
现在将对本发明的优选实施例做出详细参照说明,它们的例子示于附图中。
本发明由一个词库、快速索引表和反向翻译方法组成。词库是单一的,即它的标题词只由第一种语言组成,译文由第二种语言组成,词库可能包含音标等其他信息,但应能区分标题词和译文,词库本身按标题词排序。该词库和索引表可以预先生成好,并存储于可供电子设备使用的存储介质中。词库和索引表以电子编码方式存储在电子设备中,可以和电子设备自己的数据共用存储设备,同时具有快速访问内存和其它辅助内存(如SD卡、CF卡等)的电子设备,平时可将词库和索引表存储在辅助内存中,在使用时将索引表复制到快速访问内存中。
首先,预先建立一个快速索引表,其中含有多条索引,每个索引记录了一个第二语言的搜索符在所述词库中的至少一个位置信息。为了提高效率,还可以使用多级索引结构的快速索引表。
图1说明了一种较佳的快速索引表。在一级索引表101中,给每一个搜索符分配了一个指针103,分配顺序可按搜索符的特点排序。指针103都是固定长度,且指向二级索引表102中对应的二级索引表元104的地址。二级索引表102由二级索引表元104组成。二级索引表元104的长度不定,依赖于搜索符在词库中的统计信息。
图2表示的二级索引表元104的一种结构,二级索引表元104记录搜索符在词库中开始和结束的位置,或者是每一次发生的位置。如图2所示,如果标志符/计数器200等于0,则指针数为2(n=2),指针1(由标号201表示)指向词库中当前搜索符第一次出现的位置,指针2(由标号202表示)指向词库中当前搜索符最后出现的位置。如果标志符/计数器200大于0,则指针数为标志符/计数器表达的值(n=标志符/计数器值),指针1到指针n分别指向当前搜索符在词库中出现的位置。
正向翻译使用正常的搜索方法完成,这可以是各种公知的方法。
反向翻译使用反向翻译方法,先为要查找的第二语言词汇提取搜索符,并在该快速索引表中查找对应的索引;之后在找到的索引中取得该第二语言搜索符在所述词库中的一个位置信息,找出该词库的该位置处的第二语言译文与所述要查找的第二语言词汇相匹配的词目;重复以上步骤直至处理完所有的位置信息即可找出所有符合要求的词汇。
对于本实施例中给出的二级索引结构的快速索引表,可以采用图3表示的一种反向翻译方法:
先在步骤301分析输入的第二种语言的词汇并提取搜索符;
由步骤302在一级索引表101中查到搜索符,找到该搜索符在二级索引表102中的项目的位置;如果在一级索引表101中没查到,则返回查询不到的信息,这在图中没有标出。这时说明词库中没有当前输入词汇的记录。
再由步骤303在二级索引表102中查到在该搜索符在词库中的位置指针。
步骤304中当所有位置指针已经取完,则结束处理。
否则在步骤305对词库中由取到的位置指针所指示的位置处的译文进行词汇匹配,即判断所输入词汇是否在译文中出现。
在步骤306中,如果译文中出现了所输入的词汇,即匹配成功(图中“是”的方向),则得到对应的词目,进而得到其它词目,否则继续处理下一个位置指针。
本发明的方法可以应用于各种电子设备中,尤其是一些手持电子设备,如手机、掌上电脑中,由于这类电子设备的容量有限、且使用的存储元件成本昂贵,因此使用本发明的方法能大大减低制造成本。
对于本领域的技术人员来说显而易见的是,可在不脱离本发明的精神和范围的情况下对本发明做出各种改进和变化。因此,这意味着,如果对本发明的这些改进和变化落在所附权利要求的范围及其等效范围内,本发明就涵盖了这些改进和变化。
Claims (10)
1、一种用单一词库进行双向词汇翻译的方法,该词库是一电子词库,包含多个词目,每一词目包含有可区分的一个第一语言的标题词数据和一个第二语言的译文数据,该方法包含一个将第一语言词汇翻译为第二语言译文的正向翻译方法,其特征在于,该方法还包含一个相应的反向翻译方法,该反向翻译方法进一步包含:
一个索引方法,预先建立一个快速索引表,其中含有多条索引,每个索引记录了一个第二语言的搜索符在所述词库中的至少一个位置信息;
一个查找方法,根据待查找的第二语言词汇提取一个搜索符,从该快速索引表中找到对应该搜索符的词库位置信息,根据该找到的位置信息,进一步在词库中找到在所述第二语言译文数据中包含有待查的第二语言词汇的词目。
2、如权利要求1所述的方法,其特征在于,该方法中的正向翻译方法包含一个预先建立索引、以及一个使用索引进行正向翻译的步骤。
3、如权利要求1所述的方法,其特征在于,所述的快速索引表使用多级索引结构。
4、如权利要求1所述的方法,其特征在于,所述快速索引表进一步包含:
至少一个二级索引表,每个二级索引表包含多个索引表元,每一表元包含至少一个词库位置指针,该词库位置指针是指所述的搜索符在一个所述词库中的位置;
一个一级索引表,包含多个一级索引表指针,每一个该一级索引表指针包含所述搜索符在至少一个二级索引表中对应索引表元的二级索引位置指针。
5、如权利要求4所述的方法,其特征在于,所述反向翻译方法中从快速索引表中找到对应该搜索符的词库位置信息的操作包括以下步骤:
在一级索引表中查找所述搜索符对应的一级索引表指针;
根据找到的一级索引表指针中的二级索引位置指针在一个二级索引表中找出对应的二级索引表元;
将找到的二级索引表元中的词库位置指针作为找到的对应所述搜索符的词库位置信息。
6、如权利要求3或4所述的方法,其特征在于:所述每个二级索引表元还包含一个标志符/计数器数据,当该标志符/计数器数据为0时,所述词库位置指针包含所述一个所述搜索符在词库中的开始位置指针和一个所述搜索符在词库中的结束位置指针;当该标志符/计数器数据非0时,该词库位置指针包含数量由该标志符/计数器值指定的发生位置指针,每个该发生位置指针指出所述搜索符在词库中的一个发生位置。
7、如权利要求1、2、3、4或5所述的方法,其特征在于所述的快速索引表是全部或部分地存储于一个快速访问存储器中的。
8、如权利要求1、2、3、4或5所述的方法,其特征在于所述词库和快速索引表的至少一个是经排序的。
9、如权利要求1、2、3、4或5所述的方法,其特征在于所述词库和快速索引表的至少一个是使用内部编码储存的。
10、如权利要求1、2、3、4或5所述的方法,其特征在于所述方法是用于一个手持电子设备的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 03110619 CN1452093A (zh) | 2003-04-21 | 2003-04-21 | 用单一词库进行双向词汇翻译的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 03110619 CN1452093A (zh) | 2003-04-21 | 2003-04-21 | 用单一词库进行双向词汇翻译的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1452093A true CN1452093A (zh) | 2003-10-29 |
Family
ID=29222731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 03110619 Pending CN1452093A (zh) | 2003-04-21 | 2003-04-21 | 用单一词库进行双向词汇翻译的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1452093A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011035455A1 (en) * | 2009-09-25 | 2011-03-31 | Yahoo! Inc. | Acquisition of out-of-vocabulary translations by dynamically learning extraction rules |
CN111897775A (zh) * | 2020-07-28 | 2020-11-06 | 厦门亿联网络技术股份有限公司 | 一种嵌入式系统翻译方法、装置、设备及可读存储介质 |
CN112036191A (zh) * | 2020-08-31 | 2020-12-04 | 文思海辉智科科技有限公司 | 一种数据处理方法及装置、可读存储介质 |
-
2003
- 2003-04-21 CN CN 03110619 patent/CN1452093A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011035455A1 (en) * | 2009-09-25 | 2011-03-31 | Yahoo! Inc. | Acquisition of out-of-vocabulary translations by dynamically learning extraction rules |
US8670974B2 (en) | 2009-09-25 | 2014-03-11 | Yahoo! Inc. | Acquisition of out-of-vocabulary translations by dynamically learning extraction rules |
CN111897775A (zh) * | 2020-07-28 | 2020-11-06 | 厦门亿联网络技术股份有限公司 | 一种嵌入式系统翻译方法、装置、设备及可读存储介质 |
CN112036191A (zh) * | 2020-08-31 | 2020-12-04 | 文思海辉智科科技有限公司 | 一种数据处理方法及装置、可读存储介质 |
CN112036191B (zh) * | 2020-08-31 | 2023-11-28 | 文思海辉智科科技有限公司 | 一种数据处理方法及装置、可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7031910B2 (en) | Method and system for encoding and accessing linguistic frequency data | |
CN110532347B (zh) | 一种日志数据处理方法、装置、设备和存储介质 | |
CN1531692A (zh) | 用于处理大量字符的高效排序元素结构 | |
CN101075231A (zh) | 手机名片索引方法 | |
CN1008016B (zh) | 输入处理系统 | |
CN1794589A (zh) | 转换方法以及系统 | |
CN110990406B (zh) | 一种模糊查询方法、装置、设备和介质 | |
CN101751416A (zh) | 一种对字符串排序和查找的方法 | |
CN1345426A (zh) | 用于提取索引关键字数据字段的系统和方法 | |
CN1924854A (zh) | 智能移动终端的桌面搜索方法 | |
WO2020037794A1 (zh) | 一种英文地名的索引建立方法及其查询方法和装置 | |
US20100217761A1 (en) | System and Method of Enhancing Decoding Performance of Text Indexes | |
US20120265765A1 (en) | Self-indexer and self indexing system | |
CN1452093A (zh) | 用单一词库进行双向词汇翻译的方法 | |
CN115080684A (zh) | 网盘文档索引方法、装置、网盘及存储介质 | |
CN1452101A (zh) | 用一个词库实现双向词汇翻译和单词分组记忆的方法 | |
CN1144144C (zh) | 快速文字查找方法 | |
Bell et al. | Compressing the digital library | |
CN1121655C (zh) | 实现不规则片语快速查找的方法 | |
CN1242353C (zh) | 在一句子中精确解释字义的系统与方法 | |
CN1254136A (zh) | 查询索引多媒体标题数据的方法与装置 | |
CN1317628C (zh) | 输入法增字系统与方法 | |
Marukawa et al. | A High Speed Word Matching Algorithm for Handwritten Chinese Character Recognition. | |
CN102103610A (zh) | 一种检索信息、信息处理的方法及装置 | |
CN1667611A (zh) | 字汇查询方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |