CN1063559C - 德汉翻译系统的词法分析方法 - Google Patents

德汉翻译系统的词法分析方法 Download PDF

Info

Publication number
CN1063559C
CN1063559C CN 95108230 CN95108230A CN1063559C CN 1063559 C CN1063559 C CN 1063559C CN 95108230 CN95108230 CN 95108230 CN 95108230 A CN95108230 A CN 95108230A CN 1063559 C CN1063559 C CN 1063559C
Authority
CN
China
Prior art keywords
word
affixe
german
carry out
original shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN 95108230
Other languages
English (en)
Other versions
CN1141465A (zh
Inventor
陈肇雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huajian long Technology Co. Ltd.
Original Assignee
BEIJING BRANCH OF KEZHI LANGUAGE INFORMATION TREATMENT Co Ltd SHENZHEN
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BRANCH OF KEZHI LANGUAGE INFORMATION TREATMENT Co Ltd SHENZHEN filed Critical BEIJING BRANCH OF KEZHI LANGUAGE INFORMATION TREATMENT Co Ltd SHENZHEN
Priority to CN 95108230 priority Critical patent/CN1063559C/zh
Publication of CN1141465A publication Critical patent/CN1141465A/zh
Application granted granted Critical
Publication of CN1063559C publication Critical patent/CN1063559C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明采用人工智能技术,建立在德语基本单词库、不规则单词库、规则变化词缀库、缩写词库和不需要再进行词法分析的单词库四个知识库之上,算法应用逻辑推理对德语单词进行原形单词和形变单词分析后,转换成原形单词和附加的词形特征属性,最终生成供机译系统的分析-转换用的单词内部结构。本算法提供全新的查询单词的方法,克服了许多形变单词在电子词典中无法查到的现象,可用于德汉翻译系统或德汉电子词典中。

Description

德汉翻译系统的词法分析方法
本发明是一种德汉翻译系统的词法分析方法,属于计算机科学中的机器翻译
技术领域。
机器翻译是指利用电子计算机将一种自然语言转换成另一种自然语言表达的过程,一般指整句或全文的翻译。对原文句子进行词法分析是机器翻译过程中的第一个阶段,其基本任务是在不考虑上下文的情况下处理词的形变问题,即:根据词法变化规律,分析它们的词法特征。词法分析算法取决于系统内部表示单词及词法规则的方法。目前比较普遍采用的两种实现算法是:描述性词法分析算法和过程性词法分析算法。
采用描述性词法分析算法实现时,字典入口就包括了单词的所有可能形变,每一形变都带有与其相关的词法信息。在这种情况下,系统并不需要进行词法分析,因为词法分析的结果已存放在字典中,因此只要从字典中找出词形,并把相关的词形信息拷出来就行了。这种方法的特点是分析处理速度快,但由于需要把单词的各种形变及其词形信息都存入字典,使得字典入口数目大量增加,存贮空间占用太大,检索速度太慢。另外,对于德语这种变化形式丰富的语言,要把每个单词的所有形变都总结出来,并提供相应的词形信息,工作量是十分可观的。所以,这一方法用在源语言是德语的词法分析上是存在许多困难的。
采用过程性词法分析算法时,在字典只存贮各单词的基层形式。分析处理时,词法分析程序通过比较,区分出词根和词缀以及该词缀所具有的词形特征。查字典时,根据词根查出原形单词的定义,并把分析出来的词形特征信息加入到相应的原形单词的定义中。在这种方法中,词法分析算法所依据的词缀将直接出现在程序的比较语句中。因此,这种方法与上述的描述性方法相比,虽然大大减少了字典的入口数量和存贮空间,提高了字典检索速度,减少了字典编撰工作量,但由于德语形变十分丰富,词缀繁多,规律复杂,使得算法臃肿繁复,修改和维护都十分困难。
本发明的目的是提出一种能区分所有德文单词词形变化的德汉翻译系统的词法分析方法,这种方法通过使用词法规则知识来表示德语中的单词形变规律,既克服了描述性词法分析算法中字典入口数量和存贮空间太大的不足,又克服了过程性词法分析算法程序中比较机构臃肿、不易修改与维护的缺陷。这种方法可将德语的单词分离成德语的原形单词和附加的词形特征属性,并生成单词的内部表示,以供德汉翻译系统的分析--转换之用。
本发明的目的是这样实现的:
一、首先建立五个知识库:德语基本单词库、规则变化词缀库、不规则变化单词库、缩写词库、不需要再进行词法分析的单词库。
德语基本单词库中每个单词有如下的内容:
·原形单词符号
·单词的分类标识符和词义属性标识符
·上下文区分函数
·单词的中文解释
·该单词的词组
规则变化词缀库中每条词缀有如下的内容:
·词缀
·添加字符
·条件
·追加的词形特征属性符号
不规则变化单词中每个不规则单词有如下的内容:
·不规则单词
·原形单词
·追加的词形特征属性符号
缩写词库以含′为特征,有如下内容:
·缩写词
·该词的完整词形。
不需要再进行词法分析的德语单词库中的内容只有德语单词的集合,通过访问集合中元素的方法可访问其内容。这个库的目的是使得词法分析算法确认当前分析的德语单词只有原形,不可能有形变单词。
二.在接收一个德语单词之后,执行如下词法分析算法步骤:
(1)首先访问德语基本单词库,查询单词是否在库中,若不在,则执行步骤(2);否则记录已有一个德语原形单词,继续执行步骤(2);
(2)通过访问不需要再进行词法分析的单词库,如果该单词在该库中,则不进行变形单词分析,直接执行步骤(7);
(3)如果该单词具有“’”后跟几个字母的形式,则查找缩写词库,然后从步骤(1)开始执行;
(4)访问不规则变化的单词库,如果该单词在该库中,则直接在不规则单词库中取出该单词的原形单词和追加的词形特征属性,并记录下来,然后执行步骤(7);
(5)按照步骤(6)遍访规则变化词缀库中的每一条词缀规则,遍访结束后执行步骤(7);
(6)如果根据当前位置的词缀,能将该单词分离成该单词的词干和词缀两部分,则根据规则中的<添加字符>将单词还原成原形,检查规则中的<条件>是否满足,如果满足则取出追加的词形特征属性,记录下来,然后取出下一条词缀按步骤(5)继续执行;
(7)如果该单词没有原形单词,则转例外出错处理;
(8)如果该单词有一个或多个原形单词时,则按照单词的内部存贮结构,逐个生成原形单词的内部存贮结构;
(9)如果该单词有多个原形单词时,则按照单词的存贮结构中的属性值链表和词组链表分别合并;
(10)词法分析结束。
不需要再进行词法分析的德语单词库中的内容只有德语单词的集合,通过访问集合中元素的方法可访问其内容。这个库的目的是使得词法分析算法确认当前分析的德语单词只有原形,不可能有形变单词。
二、在接收一个德语单词之后,执行如下词法分析算法步骤:
(1)首先访问德语基本单词库,查询单词是否在库中,若不在,则执行步骤(2);否则记录已有一个德语原形单词,继续执行步骤(2);
(2)通过访问不需要再进行词法分析的单词库,如果该单词在该库中,则不进行变形单词分析,直接执行步骤(7);
(3)如果该单词具有“’”后跟几个字母的形式,则查找缩写词库,然后从步骤(1)开始执行;
(4)访问不规则变化的单词库,如果该单词在该库中,则直接在不规则单词库中取出该单词的原形单词和追加的词形特征属性,并记录下来,然后执行步骤(7);
(5)按照步骤(6)遍访规则变化词缀库中的每一条词缀规则,遍访结束后执行步骤(7);
(6)如果根据当前位置的词缀,能将该单词分离成该单词的词干和词缀两部分,则根据规则中的<添加字符>将单词还原成原形,检查规则中的<条件>是否满足,如果满足则取出追加的词形特征属性,记录下来,然后取出下一条词缀按步骤(5)继续执行;
(7)如果该单词没有原形单词,则转例外出错处理;
(8)如果该单词有一个或多个原形单词时,则按照单词的内部存贮结构,逐个生成原形单词的内部存贮结构;
(9)如果该单词有多个原形单词时,则按照单词的存贮结构中的属性值链表和词组链表分别合并;
(10)词法分析结束。
本算法采用C语言,应用人工智能技术中知识结构的链表结构和顺序存贮相统一的方法组织存贮每一个知识库,另外分别采用BASB算法或快速分类算法对关键字建立索引文件,从而达到紧凑存贮信息和快速访问的最佳统一。
本算法不仅能查询到原形单词,而且还能查询到各种形变单词,为德汉电子词典中德语单词查询提供了全新的方法。
本算法应用了逻辑推理,可获得一个单词可能有的多个原形单词及其附加属性,不仅在德汉翻译系统中可以使用,而且在传统的德汉电子词典中也可以使用,以解决许多形变单词在电子词典中无法查到的现象。
以下结合附图和发明实例对本发明作详细描述。
图一是词法分析算法的总体结构图;
图二是德语基本单词库结构(含索引文件和单词交本文件);
图三是德语规则变化词缀库结构(含末字符链表索引文件和词缀文本文件);
图四是德语不规则单词库结构(含索引文件和不规则单词文本文件);
图五是不再需要词法分析的单词库结构(只有文本文件);
图六是德语单词内部结构及有关结构;
图七是访问德语基本单词库中单词及获取单词信息的算法流程;
图八是不规则单词访问及获取原形单词和词形变化属性的算法流程;
图九是根据词缀分离原形单词和词缀的算法流程;
图十是访问不需要再进行词法分析并生成单词内部结构的算法流程;
图十一是每个单词的词法分析并生成单词内部结构的算法流程。
在德汉机器翻译系统中,要将任意的德语句子翻译成相应的中文译文,其首要问题是要完整正确地识别出德语的各种单词,然后才能经分析--转换算法翻译成中文。我们知道,在一定领域内,德语中的基本(即原形)单词是有一定规模的,但另一方面,在各种时态、语态等场景下,原形单词又有它的形变单词,而且有部分单词的形变单词是不规则变化的,无规则可循,但这部分单词数量有限,因此可以建立一个不规则变化单词库来记录这些不规则变化的单词;另外,还有一部分单词的形变单词是规则变化的,体现在这些单词某一部分的变化上,而且数量不少,因此需要建立一个规则变化词缀库来记录这些变化字符的组合;由于一个原形单词经规则变化词缀库分离后,能够成功地分离成另外的原形单词和词缀,这种分离,有时对句子的翻译影响很大,因此是不允许的,因而需要建立一个不需要再进行词法分析的单词库来记录这些单词。
实例图一说明了词法分析算法是基于德语基本单词库、规则变化词缀库、不规则变化单词库、缩写词库和不再进行词法分析的单词库五个知识库之上的单词分析过程,即在词法分析算法接收一个德语单词之后,首先将访问德语的基本单词库,确认该单词是否有一个原形单词;通过访问不需要再进行词法分析的单词库,确认该单词不存在形变单词;通过访问规则变化词缀库和不规则单词库,确信该单词是形变单词,且能转化为一个原形单词和附加词形特征属性;最终,该单词如果具有多个原形单词,要将多个原形单词的属性值链表和词组链表合并。
下面将按知识库结构、数据结构和算法流程三个方面分别介绍。
(一)知识库结构
德语基本单词库
在实例图二所示的德语基本单词库中,采用快速分类算法,由于收录的单词较多(三万多个单词),分类索引表不能一次性地调入到内存中执行,因此采用多级分类索引技术来实现。其中,第一级索引以德语中的三十个字母(A-Z)作为分类符建立;第二级索引按照德语单词的首字母(A-Z)建立三十个文件,收集系统中要收录的所有基本单词,然后分别地对每个文件建立起索引表和对应的文本文件。多级索引表由索引字符(A-Z)和每个索引字符建立的分类表在索引文件中的首址两部分组成。只要知识单词的首字符,通过索引字符就可知道该字符下的单词分类表在索引文件中的首址,就能直接从索引文件中读出分类表;索引文件中的分类表由单词关键字、单词的字节数和单词在文本文件中的位置三部分组成,其中单词的字节数是指该单词中所有信息的字节数。分类表是根据快速分类算法,按照单词关键字建立的;在单词文本文件中,所有单词信息都是顺序、压缩存贮,每个单词信息的首址和字节数都是建立在索引文件的分类表中。访问单词时,按首字符获得该单词的分类表,按二分法查到后,按照单词字节数和在文本中首址,直接从文本文件中获得该单词的所有信息。
建立第一级索引表也可以不按德语单词首字符建立,而采用平均长法,这样,可减少第二级索引表占用的空间,但也增加了对库的维护工作量。
规则变化词缀库
在实例图三所示的规则变化词缀库中,库的内容有词缀、添加字符、条件和追加的词形特征即相应时态和人称、单复数变化的属性。有些情况下,形变单词去掉词缀字符后,能够直接变成原形单词;有些情况下,形变单词去掉词缀字符后,要再添加字符,才能构成原形单词(如studierst去掉st加en变成原形单词studieren);还有些情况下,形变单词要加上某些字符才能变成原形单词。德文由于有性数格等的变化,因而在形变单词还原成原形单词时,还要给出相应的条件。
例如:在规则变化词缀库中有这样的一条词缀知识:
-st en SIN PR2 PRES
其中st表示某个单词的后缀,en指在单词末尾去掉词缀后要加en,然后根据新组成的单词访问德语基本单词库,若访问不成功,则分离不成功。否则,读出该单词的所有信息。
规则变化词缀库的每条词缀知识都是根据德语单词的各种数格变化归纳出来的,比如:1)动词变位的词缀知识:-#  n SIN PR1 PRES-st en SIN PR2 PRES-st n SIN PR2 PRES2)动词过去时:-te en SIN PR1 PR3 PAST-te n SIN PR1 PR3 PAST3)动词第一分词:-d# VEN14)动词第二分词: ge-t en VEN25)动词命令式:-# n IPR SIN PR2-# en IPR SIN PR26)动词第一虚拟式:-e n SIN PR1 PR3 SJT17)名词变化:-e # PLU KASN KASG KASA-e # SIN KASD8)代词变化:-es # MALE SIN KASG-en n PLU KASD9)形容词比较级:-er  # COM-est # SUP-st  # SUP10)数量词:-te   # QNUMO-tel  # QNUMF-fach # QUNMB 等等
规则变化词缀库的结构分词缀文本文件和末字符链表索引文件两部分,词缀文本文件存贮词缀条目,存贮时对于含后缀的词缀知识,按照相同末字符组织存贮在一起,其余的(包括只含前缀的词缀知识)按照相同首字符组织存贮在一起。而且分别将每个存贮区的首址分A-Z建立起一级索引,从而达到快速访问和遍访所有词缀的有效统一。
图三中给出了按末字符组织的词缀区结构。对于按首字符组织的词缀区。其结构与按末字符组织的词缀区结构类似,在此不再另外附图。
在德语中,不规则变化的单词数量不大,因此,按照快速分类算法,建立一级索引,就能实现快速的访问。
在图四中,不规则单词库分为索引文件和文本文件两部分。索引文件建立了不规则变化单词的快速分类表,表中的每个项有关键字、单词的字节数和在文本文件中的位置;文本文件中顺序记录了所有不规则变化单词的形变单词、原形单词和追加词形特征属性。并将每个不规则变化单词的信息首址和字节记录在分类表中。
在不规则单词库中,每条不规则单词知识如下:
schrak schrecken PAST SIN PR1 PR3
·不需要再进行词法分析的单词库
图五是不需要再词法分析的单词库的结构,库的内容只有原形单词,原形单词之间用空格符分开。本库只收录那些在词法分析中会出错但又是原形单词的原形单词,以保障词法分析的正确性。如:Buch,machen等。
缩写词库是德语中缩写词与它的对应完整词形的对照表,库的内容是词(词组)的缩写形式,缩写形式与完整形式之间用逗号分开,各缩写对照条目之间用回车符分开。例如:
bist's,bist es
mal'n,mal ein
(二)数据结构
单词的内部结构是词法分析算法结束之后要生成的数据结构,如图六所示,它由属性值链表、词组链表、原形单词符号三部分内容和一个双向链表结构组成。使用双向链表结构是为了快速、方便地访问该单词的前后单词的内部结构。
属性值链表是由该单词的所有的属性值用链表联接起来的,每一个属性值包括一个语法分类符、若干语义和词义属性符、一种中文译文。多个属性值就存在多种中文译文,而每一种中文译文之间区别则用语法分类符或者语义、词义属性符不同来区别。属性值链表采用链表结构。
词组链表是由该单词的所有词组联接起来的,每一个词组都要解决德语中的一种固定搭配、一种语言现象,其内容有词组头部、词组归约项和中文译文。词组头部主要是描述固定搭配和语言现象,描述方式为kommen Np(NEG)in Frage→|VP(VS06,X),其中NP表示一种语法分类符,NEG,X指语义属性,符号“→|”指“归约成”。
(三)算法说明:
在图七即访问德语基本单词库中的单词及获取单词信息的算法流程中,算法名称is-word;入口参数:word-单词首址;第一级索引区和每个字符下的单词数均在整个系统初始化时装入内存;二级索引表可为一个结构数据,结构内容为关键字(unsigned int)、单词的字节数(int)、单词在文本文件中的地址(long)。当一个德语单词访问该库时,首先转换成关键字,然后按首字符装入第二级索引表,将表首址=>P=di。按照二分算法查询关键字key,若查不到,则访问失败,返回;否则查找与key相同的第一个位置送P-di。查找的原因在于从单词转换成key时是不唯一的,需要将单词和库中读出的单词直接比较,若相同则才是查到了唯一的单词。算法的后面部分就是循环地做这个比较。若找到,则设立成功标志返回,且返回读出的单词信息。
在实例图八即不规则单词访问及获取原形单词和追加词形特征属性算法流程中,算法名称为is-irr;入口参数:word-单词首址;索引表可为一个结构数据,结构内容为关键字(unsigned int)、字节数(int)单词在文本文件中位置(long),在整个系统初始化时,一次装入内存。图中buf.word是指不规则单词词条中的单词;buf.attr是指不规则单词词条中的词形特征属性符号。算法的执行过程与实例图七基本相同,详细叙述从略。
图九给出了根据词缀库分离词干和后缀的算法流程,对于前缀的分离与后缀相似,在此不再另给流程。算法名称是is-suf;入口参数:word-单词的首址;在整个系统初始化时,一次性地装入词缀索引表数据;由于在分离词缀的算法中,经常要将单词分离,因而在进入该算法后,将单词送到一个临时空间进行单词分离操作;然后根据单词首字符或末字符,从词缀索引表中直接指向该字符词缀区首址,并逐条从文件中读入词缀条目,进行分离操作。图中的p-di指p-di所指词缀地址;p-di.attr指p-di所指追加词形特征属性地址。
在读出一条词缀规则后,要比较词缀字符和单词相应部分字符是否相同,若不同,则要读下一条规则继续;若相同就要去掉单词中这些字符,再加上规则中的<添加字符>(有时为空),组成一个新的单词。
对新形成的单词,访问德语基本单词库即is-word(temp),若不是,则读下一词条继续;若是,则在读取单词的信息时,仅保留满足条件的属性值信息和词组信息,并返回原形单词和追加属性。
说明:在每次读下一条词缀规则时,都要将单词word送到临时空间temp中。当该词缀区所有词缀都被访问过,并且全部失败,则说明单词不能分离成两部分。由于要遍访某字符词缀区中的所有词缀,而且每次都要访问文件和基本单词库,因此不断改善算法的效率是重要的。
在访问不需要再进行词法分析的单词库算法流程即图十中,算法名称为is-not-parse,入口参数:word-单词首址;在整个系统初始化时,一次性装入不需要进行词法分析的单词库到内存中;访问算法符合元素属于集合的比较算法,访问之返回成功或失败标志。
在每个单词的词法分析算法及生成单词内部结构算法流程即图十一中,算法名称为parse,入口参数:word-单词首址;词法分析开始后,首先访问德语基本单词库即is-word(word),若不是,则直接进行形变单词分析;若是则设置成功标志,且按照单词内部结构生成单词信息,然后访问不需要再词法分析的单词库,若访同成功,则词法分析结束。
如果单词是缩写形式,即有’或’s等,则查找缩写词库,取出全形词,然后再从本函数开始部分执行,继续分析单词原形。
调用判断单词是否为不规则变化形态的过程即is-irr,确认该单词是否为不规则单词,若是,就按照单词信息和追加的词形特征属性生成单词结构。
当该单词有多个原形单词时,就需要根据单词内部结构,将多个原形单词信息按属性值链表和词组链表合并成一个单词内部结构。
当该单词无原形单词时,可有多种例外情况执行,一种是提醒用户,单词输入有错,请修正;第二种是单词输入正确,库中未收录,由用户输入属性值,系统继续执行;第三种可按照默认属性值生成单词内部结构继续执行。
在词法分析算法中,确立is-word、is-suf、is-irr、is-not-pase四个算法的先后执行次序是很重要的,是词法分析的重要特征;另外这种算法之间的排它性,如在成功执行is-suf下,不需执行is-irr,或者在成功执行is-irr下,不需执行is-suf,也是很重要的,都将直接决定成功分析单词时的执行效率。
下面举例说明词法分析算法的执行过程
例1 Buch
执行步骤1),该单词在英语基本单词库中,记录原形单词Buch。执行步骤2),该单词是不需要进行词法分析的,生成单词的内部结构后,结束算法。
例2 gibt's
执行步骤1),该单词不是原形单词。
执行步骤2),还需要进行词法分析。
执行步骤3),去查找缩写词库,给出全形词gibt es,继续执行步骤1)。
执行步骤1).gibt不是原形单词。
执行步骤2)还需进行词法分析。
执行步骤3)后继续执行4)。
执行步骤4)gibt在不规则词库中,取出gibt的原形单词geben.执行步骤7-9后生成该单词的内部结构,并将所有格属性值加入到单词内部结构相应的词形特征属性。
例3 studierst
执行步骤1)该单词不是原形单词。
执行步骤2)还需进行词法分析。
执行步骤3)后继续执行步骤4)。
执行步骤4)后该单词不在不规则单词库中,执行步骤5),执行步骤5),6)后能将单词studierst分离成studier和st两部分,然后添加en生成单词studieren,取出st所对应的词形特征。
执行步骤7-9)后生成该单词的内部结构,并将st对应的词形特征属性加入到单词内部结构相应的属性值中。
例4 besseren
执行步骤1),该单词是原形单词,记录原形单词besseren。
执行步骤2),还需要进行词法分析。
执行步骤3)后继续执行步骤4),不在不规则词库中。
执行步骤5),该单词利用规则变化词缀变化表,将单词分离成beseer及词缀en,去en形成形容词beeser,执行步骤7),执行步骤7-9),首先分别生成besseren和besser的单词内部结构,并将从词缀规则中取出的词形特征属性加到besser的单词内部结构相应的属性值中,然后,将两个单词内部结构分别按照属性值链和词组链合并。
本算法采用人工智能技术,建立在德语基本单词库、不规则单词库、规则变化词缀库、缩写词库和不需要再进行词法分析的单词库四个知识库之上,算法应用逻辑推理对德语单词进行原形单词和形变单词分析后,转换成原形单词和附加的词形特征属性,最终生成供机译系统的分析--转换用的单词内部结构。本算法提供全新的查询单词的方法,克服了许多形变单词在电子词典中无法查到的现象,可用于德汉翻译系统或德汉电子词典中。

Claims (2)

1.一种由逻辑运算部件、存储部件、视频显示部件、输入部件组成的德汉翻译系统的词法分析方法,其特征在于:
(一)建立五个知识库,即:德语基本单词库、规则变化词缀库、不规则变化单词库、缩写词库、不需要再进行词法分析的单词库,其中:
1)德语基本单词库中每个单词有如下的内容:
·原形单词符号
·单词的分类标识符和词义属性标识符
·上下文区分函数
·单词的中文解释
·该单词的词组
并采用多级分类算法建立德语基本单词库的索引文件;
2)规则变化词缀库中每条词缀有如下的内容:
·词缀
·添加字符
·条件
·追加的词形特征属性符号
并按首字符或末字符建立规则变化词缀库的索引文件,采用所有相同首字符的前缀存贮在一起、所有相同末字符的后缀存贮在一起的原则组织存贮;
3)不规则变化单词中每个不规则单词有如下的内容:
·不规则单词
·原形单词
·追加的词形特征属性符号
4)缩写词库以含′为特征,有如下内容:
·缩写词
·该词的完整词形
5)不需要再进行词法分析的德语单词库中的内容只有德语单词的集合;
(二)在接收一个德语单词之后,执行如下词法分析步骤:
1)首先访问德语基本单词库,查询单词是否在库中,如果不在,则执行步骤2);如果在,则记录已有一个德语原形单词,继续执行步骤2);
2)通过访问不需要再进行词法分析的单词库,如果该单词在该库中,则不进行变形单词分析,直接执行步骤7);
3)如果该单词具有缩写形式,即单词中有’号,则查找缩写词库,取出全形词,然后从步骤1)开始执行;
4)访问不规则变化的单词库,如果该单词在该库中,则直接在不规则单词库中取出该单词的原形单词和追加的词形特征属性,并记录下来,然后执行步骤7);
5)按照步骤6)遍访规则变化词缀库中的每一条词缀,遍访结束后执行步骤7);
6)如果根据当前规则的词缀,能将该单词分离成该单词的词干和词缀两部分,则直接取出原形单词并从该词缀规则中取出追加的词形特征属性,并记录下来,然后取出下一条词缀规则按步骤5)继续执行;
7)如果该单词没有原形单词,则转例外出错处理;
8)如果该单词有一个或多个原形单词时,则按照单词的内部存贮结构,逐个生成原形单词的内部存贮结构;
9)如果该单词有多个原形单词时,则按照单词的存贮结构中的属性值链表和词组链表分别合并;
10)词法分析结束。
2.如权利要求1所述的德汉翻译系统的词法分析方法,其特征在于:
访问德语基本单词库的算法是:
1)将单词word转换成一个关键字key;
2)根据二分算法,查询关键字key;
3)若没查到,则失败返回,否则继续执行4);
4)在索引表中找到相同关键字中的第一个关键字;
5)比较当前位置的关键字和要找的关键字key,若不同则失败返回,否则执行6);
6)根据在索引表中当前位置处的文本文件中的位置和字节数,读出单词的信息;
7)比较当前读出的单词与要访问的单词word,若相等则设成功标志及返回单词信息首址,否则继续执行8);
8)索引表中移到下一个关键字位置,转5)执行;
9)结束;
将单词分离成词干和词缀的算法是:
1)为单词作备份,分离前缀取单词首字符,分离后缀取单词末字符;
2)根据首字符或末字符取其词缀区首址;
3)若取完所有的词缀知识,则失败返回;
4)若取完该词缀区所有的词缀知识,均不等则转8),否则继续执行6);
5)取一条词缀知识,比较词缀和单词相应部分字符串,若不等则转8),否则继续执行6);
6)将单词分离成词干和词缀两部分,并根据<添加字符>将单词还原;
7)访问德语基本单词库,若失败,则取单词备份并转8)处理,否则转9)执行;
8)将指针移向下一条词缀知识,转5)执行;
9)检查规则中的<条件>是否满足,如满足则取形变单词的词形特征属性并保留;
10)取下一条词缀,若与当前词缀符号相同,检查该规则中的<条件>是否满足,如满足则取形变单词的新的词形特征属性并追加;
11)成功返回原形单词和词形特征属性,结束。
CN 95108230 1995-07-26 1995-07-26 德汉翻译系统的词法分析方法 Expired - Lifetime CN1063559C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 95108230 CN1063559C (zh) 1995-07-26 1995-07-26 德汉翻译系统的词法分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 95108230 CN1063559C (zh) 1995-07-26 1995-07-26 德汉翻译系统的词法分析方法

Publications (2)

Publication Number Publication Date
CN1141465A CN1141465A (zh) 1997-01-29
CN1063559C true CN1063559C (zh) 2001-03-21

Family

ID=5076696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 95108230 Expired - Lifetime CN1063559C (zh) 1995-07-26 1995-07-26 德汉翻译系统的词法分析方法

Country Status (1)

Country Link
CN (1) CN1063559C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168966A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 一种搜索引擎索引构建方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060173884A1 (en) * 2005-01-31 2006-08-03 Mediatek Incorporation Methods for merging files and related systems
JP4100637B2 (ja) * 2005-12-08 2008-06-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳のための装置、方法、プログラム及び翻訳支援サービス提供方法
CN108334502A (zh) * 2017-12-29 2018-07-27 内蒙古蒙科立蒙古文化股份有限公司 一种传统蒙古文与西里尔蒙古文的相互转换方法
CN110765766B (zh) * 2019-10-25 2022-05-17 北京中献电子技术开发有限公司 一种面向神经网络机器翻译的德文词法分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168966A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 一种搜索引擎索引构建方法及装置
CN107168966B (zh) * 2016-03-07 2020-10-20 创新先进技术有限公司 一种搜索引擎索引构建方法及装置

Also Published As

Publication number Publication date
CN1141465A (zh) 1997-01-29

Similar Documents

Publication Publication Date Title
US6697801B1 (en) Methods of hierarchically parsing and indexing text
US7464026B2 (en) Semantic analysis system for interpreting linguistic structures output by a natural language linguistic analysis system
JP4724357B2 (ja) コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法
Balmin et al. Incremental validation of XML documents
US7970768B2 (en) Content data indexing with content associations
KR101204128B1 (ko) 고성능의 구조적 데이터 변환을 위한 하드웨어/소프트웨어파티션
JP3690938B2 (ja) インデックスの作成装置および作成方法、ならびに記憶媒体
US7593940B2 (en) System and method for creation, representation, and delivery of document corpus entity co-occurrence information
US8412515B2 (en) System for normalizing a discourse representation structure and normalized data structure
US8244767B2 (en) Composite locality sensitive hash based processing of documents
Talbot et al. Randomised language modelling for statistical machine translation
WO1998048360A1 (en) Method and apparatus for processing free-format data
JP2007528052A (ja) 表現式のグループ化および評価
CN1193779A (zh) 中文语句分词方法及其在中文查错系统中的应用
KR20060101493A (ko) 구조적 데이터 변환을 위한 장치
US7587407B2 (en) System and method for creation, representation, and delivery of document corpus entity co-occurrence information
CN1950819A (zh) 检索信息的系统和方法以及储存信息的系统和方法
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
CN1063559C (zh) 德汉翻译系统的词法分析方法
CN1571966A (zh) 信息检索方法、信息检索程序、和记录有信息检索程序的计算机可读记录介质
CN1512406A (zh) 面向用户的电子词典、电子词典系统及其生成方法
US20200089697A1 (en) System and method for parsing user query
CN1134567A (zh) 英汉翻译系统的词法分析算法
US20050071333A1 (en) Method for determining synthetic term senses using reference text
CN1226692C (zh) 基于语义语言的机器翻译系统及方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: HUAJIAN ELECTRONICS CO.,LTD.

Free format text: FORMER OWNER: BEIJING BRANCH OF KEZHI LANGUAGE INFORMATION TREATMENT CO., LTD., SHENZHEN

Effective date: 20011116

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20011116

Address after: Beijing City, West Third Ring Road No. 19 Building, West building, room 3405 of Huajian group

Patentee after: Huajian Electronics Co., Ltd.

Address before: No. 22, Zhichun Road, Beijing, Haidian District

Patentee before: Beijing Branch of Kezhi Language Information Treatment Co., Ltd., Shenzhen

ASS Succession or assignment of patent right

Owner name: HUAJIAN MACHINE TRANSLATION CO., LTD

Free format text: FORMER OWNER: HUAJIAN ELECTRONICS CO.,LTD.

Effective date: 20071214

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20071214

Address after: Beijing City, Haidian District Zizhuyuan Road B gladful International Center No. 116 block 6 layer

Patentee after: Huajian Machine Translation Co., Ltd.

Address before: Beijing City, West Third Ring Road No. 19 Building, West building, room 3405 of Huajian group

Patentee before: Huajian Electronics Co., Ltd.

ASS Succession or assignment of patent right

Owner name: BEIJING HUAJIAN CHANGHE SCIENCE CO., LTD.

Free format text: FORMER OWNER: HUAJIAN MACHINE TRANSLATION CO., LTD

Effective date: 20090410

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090410

Address after: Beijing City, Haidian District Xueyuan Road No. 30, West Building Room 207

Patentee after: Beijing Huajian long Technology Co. Ltd.

Address before: Beijing City, Haidian District Zizhuyuan Road B gladful International Center No. 116 block 6 layer

Patentee before: Huajian Machine Translation Co., Ltd.

CX01 Expiry of patent term

Expiration termination date: 20150726

Granted publication date: 20010321

EXPY Termination of patent right or utility model