CN1266235A - 自动拾取英文原形单词的方法 - Google Patents

自动拾取英文原形单词的方法 Download PDF

Info

Publication number
CN1266235A
CN1266235A CN99102483A CN99102483A CN1266235A CN 1266235 A CN1266235 A CN 1266235A CN 99102483 A CN99102483 A CN 99102483A CN 99102483 A CN99102483 A CN 99102483A CN 1266235 A CN1266235 A CN 1266235A
Authority
CN
China
Prior art keywords
word
dictionary
original shape
english
special
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN99102483A
Other languages
English (en)
Inventor
林光信
宋建福
刘睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN99102483A priority Critical patent/CN1266235A/zh
Publication of CN1266235A publication Critical patent/CN1266235A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种自动拾取英文原形单词的方法,先将数个基本数据库读入存储器中,该各数据库包括一原形单词与字典间的对照库及一数据库,该数据库内设置有自然语言中不规则变化词库及特殊词库,且该数据库中可因需求而任意修改英文词汇,在搜索英文单词时,可根据原形单词与字典间的对照库内的词库查找原形单词,及该数据库内的词库与该英文单词进行相互匹配查找,即可搜索出该英文单词的准确原形单词及正确地翻译出来。

Description

自动拾取英文原形单词的方法
本发明涉及一种自动拾取英文原形单词的方法,其是指一种当搜索英文单词时,根据原形单词搜索规则及本发明所设的数据库内的词库,与该英文单词进行相互匹配查找,即能够准确拾取单词的原形及翻译。
请参阅图1和图2所示,一般现有翻译类软件,其帮助使用者可便捷地翻译英文单词,令使用者可免除查词典的麻烦,而直接了解英文单词的意思,该各翻译类软件在对一般规则、不规则英文单词进行查找时,可正确地依一定规则,找出正确原形单词的翻译。
但是,该各翻译类软件对许多特殊不规则变化的词汇,则无法自动正确地识别,因而找出一错误的原形单词及翻译,例如:1.针对单词use的现在分词using,易误以us作为其原形单词,而错误翻译成“我们”的意思2.针对单词hop的过去分词hopped,易误以hopper作为其原形单词,而错误翻译成“跳跃者,跳虫(跳蚤,蚱蜢等)”的意思,如此,常常造成使用者误解英文单词的意思。
鉴于此,发明人针对以上所述的缺陷及依据多年来从事制造电脑软件产品相关经验,细心观察研究,终于开发出本发明的一种自动拾取英文原形单词的方法。
本发明的一目的在于提供一种自动拾取英文原形单词的方法,当搜索英文单词时,根据本发明所设的原形单词与词典间的对照库内的词库查找原形单词,及本发明所设的数据库内的词库,与该英文单词进行相互匹配查找,即可搜索出英文单词的准确的原形单词及正确翻译来,如此,即不会抓出不正确的原形单词及翻译,令使用者误解英文单词的意思。
本发明的目的是这样实现的,即提供一种自动拾取英文原形单词的方法,首先:
当从一篇英语文章拾取一英文单词时,而将该英文单词进行如下步骤查词处理:
(一)根据存储器中原形单词与词典间的对照表及索引表,快速索引和判断此单词是否为原形单词,如是,则进行第五步骤,如否,则进行第二步骤;
(二)再根据存储器中的特殊词库对照表及索引表,快速索引和查找此单词的原形,如是,则进行第五步骤,如否,则进行第三步骤;
(三)再按照自然语言的规律变化规则进行匹配查找此单词的原形,如是,则进行第五步骤,如否,则进行第四步骤;
(四)则再根据存储器中单词不规则变化表及索引表进行快速匹配查找此单词的原形,如是,则进行第五步骤,如否,则认为未查到该单词;
(五)则根据该存储器中原形单词与词典间的对照表,计算及查找单词在词典中的正确位置,而得到该英文单词的正确解释。
下面结合附图,详细说明本发明的实施例,其中:
图1为一般现有的实施时的示意图之一;
图2为一般现有的实施时的示意图之二;
图3为本发明的动作流程图;
图4为本发明的数据库修改的动作流程图;
图5为本发明数据库修改的实施时的示意图;
图6为本发明实施例之一的动作流程图;
图7为本发明实施例的示意图之一;
图8为本发明实施例之二的动作流程图;
图9为本发明实施例的示意图之二;
图10为本发明实施例中索引库的示意图。
请参阅图3所示,本发明为一种自动拾取英文原形单词的方法,首先,将该数个基本数据库存入存储器中101,该各数据库另一原形单词(不具任何变化的英文单词)与词典间的对照库及一数据库,其中,该数据库内设置有数个自然语言中不规则变化词库及特殊词库,而该特殊词库包含的词汇是一有一定的规则可循,但又无法以一般规则搜索出其单词的原形(例:1.give的一般过去式gave、过去完成式given 2.foot的一般过去式feet),该特殊词库也可包含工程用单词、医学用单词、物理用单词、化学用单词等,又,该原形单词与词典间的对照库、不规则变化英文词库及特殊词库设有数个索引库,其中,该原形单词与词典间的对照库的索引库是以原形英文单词的起始词母做快速索引的关键词301,而特殊词库及不规则变化英文词库的索引库是以变化形式的英文单词的起始词母做快速索引的关键词302(如图10所示)。
当从一篇英文文章拾取到一英文单词时,先根据存储器中原形单词与词典间的对照表及索引表,快速索引和判断此单词是否为原形单词102,如是,则根据该存储器中原形单词与词典间的对照表,计算及查找单词在词典中的正确位置,而得到该英文单词的正确解释103。
如否,则再根据存储器中的特殊词库对照表及索引表,快速索引和查找此单词的原形104,查到,则根据该存储器中原形单词与词典间的对照表,计算及查找单词在词典中的正确位置,而得到该英文单词的正确解释103。
未查到,则再按照自然语言的变化规则进行匹配查找此单词的原形105,查到,则根据该存储器中原形单词与词典间的对照表,计算及查找单词在词典中的正确位置,而得到该英文单词的正确解释103。
未查到,则再根据存储器中单词不规则变化表及索引表进行快速匹配查找此单词的原形106。查到,则根据该存储器中原形单词与词典间的对照表,计算及查找单词在词典中的正确位置,而得到该英文单词的正确解释103,未查到,则认为未查到该单词。
另外,本发明针对单词的规则变化定义如下:对动词的一般变化是加ed,若该动词的结尾为e则直接加d,若该动词的结尾为(子音+y)则将y转为i并加ed;对形容词、副词的一般比较级、最高级加er、est,若该形容词、副词以e结尾则在e后面直接加r、st,若该形容词、副词的结尾为(子音+y)则将y转为i并加er、est;一般数个名词在其结尾加s,若该名词以s,ss,x,z,sh,ch词母结尾,则在词母结尾直接加es,若该名词的结尾为(子音+y)则将y转为i并加es,若该名词的结尾为(子音+o)则在词母结尾直接加es,若该名词的结尾为(母音+o)则在词母结尾直接加s,若该名词的结尾为f,fe,则在词母结尾直接加ves...等等一系列的规则。
请参阅图4和5所示,该数据库中可因应需求而任意修改、增加英文词汇,当需修改时跳到修改界面(以user单词为例),当选择MODIFY或DELETE时,均可从存储器中根据单词特殊变化形式搜索出与单词特殊变化形式对应的原形单词,而进行修改或删除,也可根据原形单词搜索出与原形单词对应的单词特殊变化形式,而进行修改或删除。
当user选择MODIFY选项201时,是由单词特殊变化形式与原形单词的相对应关系,而按照需要进行单词特殊变化形式202或原形单词203的修改,因而替换原存储中的数据204,而后,再对原存储器中的数据进行重新排序,并重新建立以单词特殊变化形式的起始词母为关键词的快速索引表205。
当user选择ADD选项206时,即可加入一单词特殊变化形式及与其相对应关系的原形单词,当在原形单词区及单词特殊变化形式区,加入一单词特殊变化形式及与其相对应关系的原形单词时,即扩充存储器内数据207,该各数据按顺序加入至存储器中,并重新建立以单词特殊变化形式的起始词母为关键词的快速索引表205。
当user选择DELETE选项208时,是根据快速索引表找到欲删除的单词特殊变化形式位置,及与其相对应关系的原形单词位置,而进行从存储器中删除209。
为了对本发明能更加详尽地了解与认识,以单词hopped及using为例及配合流程图,详细说明如下:
请参阅图6和图7所示,以单词hopped为例,首先,根据存储器中原形单词与词典间的对照表及索引表判断该单词是否已为原形单词,结果并非一原形单词,而再根据二分法查找在存储器中的原形单词与词典间的对照表,及其快速索引表判断该单词是否存在此存储器中,而判断出该单词hopped不是原形单词。
再根据存储器中单词特殊词对照表及其快速索引表判断出该单词hopped也不在此库中;再按照自然语言的规律变化规则进行匹配,因而找到该单词hopped的原形单词为hop,并于屏幕的适当位置上显示hopped的原形单词及翻译(如图7所示)。
请参阅图8和图9所示,以单词using为例,首先,根据存储器中原形单词与词典间的对照表及索引表判断该单词是否已为原形单词,结果并非一原形单词,而再根据二分法查找在存储器中的原形单词与词典间的对照表,及其快速索引表判断该单词是否存在此存储器中,而判断出该单词using不是原形单词。
再根据存储器中单词特殊词对照表及其快速索引表判断出该单词using是在此库中,再快速找出该单词using的原形单词是use,并于屏幕适当位置上显示using的原形单词及翻译(如图9所示)。
虽然以上结合最佳的具体实施例披露了本发明,但本发明的构造特征并不局限于此,任何熟悉该项技术人员在本发明领域内,可轻易的变化或修饰,都应函盖在以下本发明专利要求范围内。

Claims (7)

1.一种自动拾取英文原形单词的方法,其特征在于,首先:
当从一篇英语文章拾取一英文单词时,而将该英文单词进行如下步骤查词处理:
(一)根据存储器中原形单词与字典间的对照表及索引表,快速索引和判断此单词是否为原形单词,如是,则进行第五步骤,如否,则进行第二步骤;
(二)再根据存储器中的特殊词库对照表及索引表,快速索引和查找此单词的原形,如是,则进行第五步骤,如否,则进行第三步骤;
(三)再按照自然语言的规律变化规则进行匹配查找此单词的原形,如是,则进行第五步骤,如否,则进行第四步骤;
(四)则再根据存储器中单词不规则变化表及索引表进行快速匹配查找此单词的原形,如是,则进行第五步骤,如否,则认为未查到该单词;
(五)则根据该存储器中原形单词与字典间的对照表,计算及查找单词在字典中的正确位置,而得到该英文单词的正确解释。
2.如权利要求1所述的自动拾取英文原形单词的方法,其特征在于,其该特殊词库可包括工程用单词。
3.如权利要求1所述的自动拾取英文原形单词的方法,其特征在于,其该特殊词库可包括医学用单词。
4.如权利要求1所述的自动拾取英文原形单词的方法,其特征在于,其该特殊词库可包括物理用单词。
5.如权利要求1所述的自动拾取英文原形单词的方法,其特征在于,其该特殊词库可包括化学用单词。
6.如权利要求1所述的自动拾取英文原形单词的方法,其特征在于,该数据库中可因应需求而任意修改、增加及删除英文词汇,当需修改时跳到修改界面,其中:
当选择修改选项时,则由单词特殊变化形式与原形单词的相对应关系,而按照需要进行单词特殊变化形式或原形单词的修改,而替换原存储中的数据,再对原存储器中的数据进行重新排序,并重新建立以单词特殊变化形式的起始词母为关键词的快速索引表;
当选择增加选项时,则可加入一单词特殊变化形式及与其相对应关系的原形单词,当在原形单词区及单词特殊变化形式区,加入一单词特殊变化形式及与其相对应关系的原形单词时,即扩充存储器内数据,该各数据按序加入至存储器中,并重新建立以单词特殊变化形式的起始词母为关键词的快速索引表;
当选择删除选项时,则根据快速索引表找到欲删除的单词特殊变化形式位置,及与其相对应关系的原形单词位置,而进行从存储器中删除。
7.如权利要求1所述的自动拾取英文原形单词的方法,其特征在于,在电脑的存储器中存入一原形单词即不具任何变化的英文单词与词典的对照库及一数据库,且,该数据库内设置有数个自然语言中不规则变化词库及特殊词库,该原形单词与词典的对照库、不规则变化英文词库及特殊词库设有数个索引库,且,该原形单词与词典的对照库的索引库是以原形英文单词的起始词母做快速索引的关键词,而特殊词库及不规则变化英文词库的索引库是以变化形式的英文单词的起始词母做快速索引的关键词。
CN99102483A 1999-03-04 1999-03-04 自动拾取英文原形单词的方法 Pending CN1266235A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN99102483A CN1266235A (zh) 1999-03-04 1999-03-04 自动拾取英文原形单词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN99102483A CN1266235A (zh) 1999-03-04 1999-03-04 自动拾取英文原形单词的方法

Publications (1)

Publication Number Publication Date
CN1266235A true CN1266235A (zh) 2000-09-13

Family

ID=5270837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN99102483A Pending CN1266235A (zh) 1999-03-04 1999-03-04 自动拾取英文原形单词的方法

Country Status (1)

Country Link
CN (1) CN1266235A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1618064B (zh) * 2002-01-29 2010-05-05 国际商业机器公司 翻译方法与计算机设备
CN103678301B (zh) * 2012-08-30 2017-02-08 英业达科技有限公司 高级查询并新增翻译内容的翻译查询系统及其方法
CN111859972A (zh) * 2020-07-28 2020-10-30 平安科技(深圳)有限公司 实体识别方法、装置、计算机设备及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1618064B (zh) * 2002-01-29 2010-05-05 国际商业机器公司 翻译方法与计算机设备
CN103678301B (zh) * 2012-08-30 2017-02-08 英业达科技有限公司 高级查询并新增翻译内容的翻译查询系统及其方法
CN111859972A (zh) * 2020-07-28 2020-10-30 平安科技(深圳)有限公司 实体识别方法、装置、计算机设备及计算机可读存储介质
CN111859972B (zh) * 2020-07-28 2024-03-15 平安科技(深圳)有限公司 实体识别方法、装置、计算机设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
EP1011056B1 (en) Grouping words with equivalent substrings by automatic clustering based on suffix relationships
Singh et al. Text stemming: Approaches, applications, and challenges
Evans et al. Automatic indexing using selective NLP and first-order thesauri
US6151604A (en) Method and apparatus for improved information storage and retrieval system
CN101623202B (zh) 一种医学输入法及医疗设备
US6697801B1 (en) Methods of hierarchically parsing and indexing text
JPH02271468A (ja) データ処理方法
JPH0660119A (ja) フルテキスト情報検索システムに動的辞書を統合する方法と装置
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP2002229981A (ja) 文字列の正規化表示を生成するシステム
CN1254891A (zh) 从连续的中文文本中分离出中文词的方法
EP1011057B1 (en) Identifying a group of words using modified query words obtained from successive suffix relationships
US20170344629A1 (en) Element-noun reference numeral acquiring method for acquiring element-noun reference numeral of claim-element-noun
EP0813160B1 (en) Apparatus for and method of accessing a database
Porter Implementing a probabilistic information retrieval system
CN1266235A (zh) 自动拾取英文原形单词的方法
Torr Autobank: a semi-automatic annotation tool for developing deep minimalist grammar treebanks
Van der Wouden Celex: Building a multifunctional polytheoretical lexical data base
Bell et al. Towards everyday language information retrieval systems via minicomputers
Bunescu et al. Extracting gene and protein names from biomedical abstracts
CN1254136A (zh) 查询索引多媒体标题数据的方法与装置
Jenkins et al. Adaptive automatic classification on the web
Sojka Competing patterns for language engineering: Methods to handle and store empirical data
Beirade Search engine for Holy Quran
EP0625758A1 (en) Natural language processing system

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication