CN1134567A

CN1134567A - 英汉翻译系统的词法分析算法

Info

Publication number: CN1134567A
Application number: CN 95119582
Authority: CN
Inventors: 陈肇雄
Original assignee: 陈肇雄
Current assignee: Huajian Machine Translation Co., Ltd.
Priority date: 1995-11-29
Filing date: 1995-11-29
Publication date: 1996-10-30

Abstract

英汉翻译系统的词法分析算法系采用人工智能技术，基于英语基本单词库、不规则单词库、规则变化后缀库和不需要再进行词法分析单词库四个知识库之上的，算法应用逻辑推理对英语单词进行原形单词和形变单词分析后，转换成原形单词和附加词形特征属性，最终生成供机译系统的分析一转换用的单词内部结构。本算法提供全新的查询单词的方法，克服了许多形变单词在电子词典中无法查到的现象，可用于英汉翻译系统或英汉电子词典中。

Description

英汉翻译系统的词法分析算法

本发明是一种英汉翻译系统的词法分析算法，属计算机科学中机器翻译技术领域。

现有传统英汉电子词典只能区分出英语的不规则单词和英语的原形单词，而不能区分出原形单词的规则变化形式。

本发明的目的是提出一种能区分所有英文单词词形变化的英汉翻译系统的词法分析算法，它可将英语的单词分离成英语的原形单词和附加的词形特征属性，并生成单词的内部状态，以供英汉翻译系统的分析——转换之用。

本发明的目的是这样实现的：在一种由逻辑运算部件、存储部件、视频显示部件和含英语字母键的键盘组成的英汉翻译系统的词法分析算法中：

一.首先建立四个知识库：英语基本单词库、规则变化后缀库、不规则变化单词库、不需要再进行词法分析的单词库。

英语基本单词库中每个单词有如下的内容：

●原形单词符号

●单词的分类标识符和词义属性标识符

●上下文区分函数

●单词的中文解释

●该单词的词组

并用多级分类算法建立英语基本单词库的索引文件。

规则变化后缀库中每条后缀有如下的内容：

●后缀

●添加字符

●条件

●追加的词形特征属性符号

并按末字符建立规则变化后缀库的索引文件，采用所有相同末字符的后缀存贮在一起的原则组织存贮。

不规则变化单词中每个不规则单词有如下的内容：

●不规则单词

●原形单词

●追加的词形特征属性符号

并为不规则变化单词库建立索引文件；

不需要再进行词法分析的英语单词库中的内容只有英语单词的集合，通过访问集合中元素的方法可访问其内容。这个库的目的是使得词法分析算法确认当前分析的英语单词只有原型，不可能有形变单词。

二.每接收一个英语单词之后，执行如下词法分析算法步骤：

(1).访问英语基本单词库，查询该单词是否在库中，如果不在，则执行步骤(2)；如果在，则记录已有一个英语原形单词，继续执行步骤(2)。

(2).访问不需要再进行词法分析的单词库，如果该单词在该库中，则不进行变形单词分析，直接执行步骤(7)。

(3).如果该单词具有所有格，即单词末尾有′或′S，则首先记录该单词的所有格特征属性，然后去掉单词末尾的′或′S，然后从步骤(1)开始执行。

(4).访问不规则变化单词库，如果该单词在该库中，则直接从该库中取出该单词的原形单词和追加的词形特征属性，并记录下来，然后执行步骤(7)。

(5).按照步骤(6)遍访规则变化后缀库中的每一条后缀，遍访结束后执行步骤(7)。

(6).如果根据当前位置的后缀，能将该单词分离成该单词的原形单词和后缀两部分，则直接取出原形单词并从该后缀词条中取出追加的词形特征属性，记录下来，然后取出下一条后缀按步骤(5)继续执行。

(7).如果该单词没有原形单词，则转例外出错处理。

(8).如果该单词有一个或多个原形单词时，则按照单词的内部存贮结构，逐个生成原形单词的内部存贮结构。

(9).如果该单词有多个原形单词时，则按照单词的存贮结构中的属性值链表和词组链表分别合并。

(10).词法分析结束。

本算法采用C语言，应用人工智能技术中知识结构的链表结构和顺序存贮相统一的方法组织存贮每一个知识库，另外分别采用HASH算法或快速分类算法对关键字建立索引文件，从而达到紧凑存贮信息和快速访问的最佳统一。

本算法是英汉翻译系统中必不可少的一部分，尤其是提供了一个单词具有多个原形单词，从而为机译系统中的分析——转换算法生成出多个而且尽可能准确的中文译文奠定了基础。

本算法不仅能查询到原形单词，而且还能查询到各种形变单词，为传统英汉电子词典中英语单词查询提供了全新的方法。

本算法应用了逻辑推理，可获得一个单词可能有的多个原形单词及其附加属性，不仅在英汉翻译系统中可以使用，而且在传统的英汉电子词典中也可以使用，以解决许多形变单词在电子词典中无法查到的现象。

以下结合附图和发明实例对本发明作详细描述。

图一是词法分析算法的总体结构图；

图二是英语基本单词库结构(含索引文件和单词文本文件)；

图三是英语规则变化后缀库结构(含末字符链表索引文件和后缀文本文件)；

图四是英语不规则单词库结构(含索引文件和不规则单词文本文件)；

图五是不再需要词法分析的单词库结构(只有文本文件)；

图六是英语单词内部结构及有关项结构；

图七是访问英语基本单词库中单词及获取单词信息的算法流程；

图八是不规则单词访问及获取原形单词和词形特征属性的算法流程；

图九是根据后缀库分离原形单词和后缀的算法流程；

图十是访问不需要再进行词法分析单词库中的单词的算法流程；

图十一是每个单词的词法分析并生成单词内部结构的算法流程。

在英汉机器翻译系统中，要将任意的英语句子翻译成相应的中文译文，其首要问题是要完整正确地识别出英语的各种单词，然后才能经分析——转换算法翻译成中文。我们知道，在一定领域内，英语中的基本(即原形)单词是有一定规模的，但另一方面，在各种时态、语态等场景下，原形单词又有它的形变单词，而且有部分单词的形变单词是不规则变化的，无规则可循，但这部分单词数量有限，因此可以建立一个不规则变化单词库来记录这些不规则变化的单词；另外，还有一部分单词的形变单词是规则变化的，体现在这些单词的末尾变化上，而且数量不少，因此需要建立一个规则变化后缀库来记录这些末尾字符的组合；由于一个原形单词经规则变化后缀库分离后，能够成功地分离成另外的原形单词和后缀，这种分离，有时对句子的翻译影响很大，因此是不允许的，因而需要建立一个不需要再进行词法分析的单词库来记录这些单词。

本实例以配有逻辑运算部件、存储部件、视频显示部件和含英语字母键的键盘组成的微机为硬件支持。

实例图一说明了本词法分析算法是基于英语基本单词库、规则变化后缀库、不规则变化单词库和不再词法分析的单词库四个知识库之上的词法分析过程，即在词法分析算法接收一个英语单词之后，首先将访问英语的基本单词库，确认该单词是否有一个原形单词；通过访问不需要再进行词法分析的单词库，确认该单词不存在形变单词；通过访问规则变化后缀库和不规则单词库，确认该单词是形变单词，且能转化为一个原形单词和附加词形特征属性；最终，该单词如果具有多个原形单词，要将多个原形单词的属性值链表和词组链表合并。

下面将按知识库结构、数据结构和算法流程三个方面分别介绍。

(一)知识库结构

●英语基本单词库

在实例图二所示的英语基本单词库中，采用快速分类算法，由于收录的单词较多(三万多个单词)，分类索引表不能一次性地调入到内存中执行，因此采用多级分类索引技术来实现。其中，第一级索引以英语中的二十六个字母(A～Z)作为分类符建立；第二级索引按照英语单词的首字母(A～Z)建立二十六个文件，收集系统中要收录的所有基本单词，然后分别地对每个文件建立起索引表和对应的文本文件。多级索引表由索引字符(A～Z)和每个索引字符建立的分类表在索引文件中的首址两部分组成。只要知道单词的首字符，通过索引字符就可知道该字符下的单词分类表的首址，就能直接从索引文件中读出分类表；索引文件中的分类表由单词关键字、单词的字节数和单词在文本文件中的位置三部分组成，其中单词的字节数是指该单词中所有信息的字节数。分类表是根据快速分类算法，按照单词关键字建立的；在单词文本文件中，所有单词信息都是顺序、压缩存贮，每个单词信息的首址和字节致都是建立在索引文件的分类表中。访问单词时，按首字符获得该单词的分类表，按二分法查到后，按照单词字节数和在文本中首址，直接从文本文件中获得该单词的所有信息。

建立第一级索引表也可以不按英语单词首字符建立，而采用平均长法，这样，可减少第二级索引表占用的空间，但也增加了对库的维护工作量。

在英语基本单词库中，单词的内容包括原形单词符号、条件、译文和习惯用法等。以下是英语单词的知识结构表示：

原形单词条件中文译文

条件中文译文

其中：原形单词由英语单词符号构成，如work等；条件是一个语法和语义分类符的集合，且语法和语义分类符的形式为X11、X12等，可自行定义编码。

上述条件和中文译文的集合称作属性值。

库中的上下文区分函数和词组是为句法分析用的，此处略。

●规则变化后缀库

在实例图三所示的规则变化后缀库中，库的内容有后缀、添加字符、条件和追加的词形特征属性。一些情况下，形变单词去掉后缀字符之后，能够直接变成原形单词，但有些情况下，形变单词去掉后缀字符后，要在末尾再添加字符，才能构成原形单词(如studied，去掉ied，添加y构成study)；有些原形单词有动词译文、名词译文等，但形变单词总是在特定的时态、语态下使用，因而条件就是指明这个形变单词转换成原形单词时，只要保留相应词类的译文。如在规则变化后缀库中有这样的一条后缀知识：

ied y f(v) VEN

其中：ied表示某单词的后缀，y指单词末尾去掉后缀后要加y，然后根据新组成的单词访问英语基本单词库，若访问不成功则分离不成功。否则读出该单词的所有信息。

f(v)是函数，是指在读出的单词信息中，是否存在着动词译文，若有则保留该译文，记录形变单词的词形特征属性VEN，并要排除其它词类的译文。从而将减少推理求解的搜索路径。

规则变化后缀库的每条后缀知识都是根据英语单词的各种词性变化规则归纳出来的，比如：

1)过去式和过去分词的后缀知识：

ied y f(v) VEN

ed # f(v) VEN

2)动词的第三人称的后缀知识：

es # f(v) VES

s # f(v) VES

3)复数名词的后缀知识：

es # f(N) PLUR

s # f(N) PLUR

4)形容词和付词比较级的后缀知识：

er # f(A/D) AER

r # f(A/D) AER

5)形容词和付词最高级的后缀知识：

est # f(A/D) AST

st # f(A/D) AST等等。

图中，规则变化后缀库的结构分后缀文本文件和末字符链表索引文件两部分，后缀文本文件存贮后缀词条，存贮时按照相同末字符组织存贮在一起，而且分别将每个存贮区的首址分A～Z建立起一级索引，从而达到快速访问和遍访所有后缀的有效统一。

●不规则单词库

在英语中，不规则变化的单词数量不大，因此，按照快速分类算法，建立一级索引，就能实现快速的访问。

在图四中，不规则单词库分为索引文件和文本文件两部分。索引文件建立了不规则变化单词的快速分类表，表中的每个项有关键字、单词的字节数和在文本文件中的位置；文本文件中顺序记录了所有不规则变化单词的形变单词、原形单词和词形特征属性。并将每个不规则变化单词的信息首址和字节记录在分类表中。

例如，在不规则单词库中，不规则单词的规则内容为：ran run PAST

●不需要再进行词法分析的单词库

图五是不需要再词法分析的单词库的结构，库的内容只有原形单词，原形单词之间用空格符分开。本库只收录那些在词法分析中会出错但又是原形单词的原形单词，以保障词法分析的正确性。这样的单词有good，God等(如：God≠Go Peter≠Petgood≠go)。

(二)数据结构

单词的内部结构是词法分析算法结束之后要生成的数据结构，如图六所示，它由属性值链表、词组链表、原形单词符号三部分内容和一个双向链表结构组成。使用双向链表结构是为了快速、方便地访问该单词的前后单词的内部结构。

属性值链表是由该单词的所有的属性值用链表联接起来的，每一个属性值包括一个语法分类符、若干语义和词义属性符、一种中文译文。多个属性值就存在多种中文译文，而每一种中文译文之间区别则用语法分类符或者语义、词义属性符不同来区别。属性值链表采用循环链表结构。

词组链表是由该单词的所有词组联接起来的，每一个词组都要解决英语中的一种固定搭配、一种语言现象，其内容有词组头部、词组归约项和中文译文。词组头部主要是描述固定搭配和语言现象，描述方式为work at→|或者work DP(XOl)at→等形式，其中DP表示一种语法分类符，XOl指语义属性符，符号“→l”指“归约成”。词组归约项和中文译文同上说明，略。

说明：属性值内容和词组内容都是采用顺序连续动态存贮，附图六中的说明主要强调了有几种内容组成。

(三)算法说明：

在图七即访问英语基本单词库中的单词及获取单词信息的算法流程中，算法名称为is-word；入口参数：word-单词首址；第一级索引区和每个字符下的单词数均在整个系统初始化时装入内存；二级索引表可为一个结构数据，结构内容为关键字(unsigned int)、单词的字节数(int)、单词在文本文件中的地址(long)。当一个英语单词访问该库时，首先转换成关键字，然后按首字符装入第二级索引表，将表首址＝＞P-di。按照二分算法查询关键字key，若查不到，则访问失败，返回；否则向前找与key相同的第一个位置送P-di。向前找的原因在于从单词转换成key时是不唯一的，需要将单词和库中读出的单词直接比较，若相同，则才是查到了唯一的单词。算法的后面部分就是循环地做这个比较。若找到则设立成功标志返回，且返回读出的单词信息。

在实例图八即不规则单词访问及获取原形单词和追加词形特征属性算法流程中，算法名称为is-irr；入口参数：word-单词首址；索引表可为一个结构数据，结构内容为关键字(unsigned int)、字节数(int)、单词在文本文件中位置(long)，在整个系统初始化时，一次性装入内存。图中的buf.word指不规则单词词条中的单词；buf.attr指不规则单词词条中的词形特征属性符号。算法执行过程与图七基本相同，略。

在根据后缀库分离原形单词和后缀的算法流程即图九中，算法名称是is-suf；入口参数：word-单词的首址；在整个系统初始化时，一次性地装入后缀末字符索引表数据；由于在分离后缀的算法中，经常要将单词分离，因而在进入该算法后，将单词送到一个临时空间进行单词分离操作；然后根据单词末字符，从末字符索引表中直接指向该末字符的后缀区首址，并逐条从文件中读入后缀词条，进行分离操作。图中的p-di.suf指p-di所指后缀地址；p-di.attr指p-di所指追加的词形特征属性地址。

在读出一条后缀词条后，要比较后缀字符和单词末尾字符是否相同，若不同，则要读下一词条继续；若相同就要截掉单词中这些末字符，再加上后缀词条中添加字符(有时为空)，组成一个新的单词。

对新形成的单词，访问英语基本单词库即is-word(temp)，确认是否为原形单词，若不是，读下一词条继续；若是，则在读取单词的信息时，仅保留满足条件的属性值信息和词组信息，并返回原形单词和追加属性。

说明：在每次读下一条后缀词条时，都要将单词word送到临时空间temp中。

当该后缀区所有后缀都访问过后，都失败，则说明单词不能分离成两部分。由于要遍访同一字符的后缀区中的后缀，而且每次都要访问文件和基本单词库，因此不断改善算法的效率是重要的。

在访问不需要再进行词法分析的单词库算法流程即图十中，算法名称为is-not-parse，入口参数：word-单词首址；在整个系统初始化时，一次性装入不需要再进行词法分析的单词库到内存中；访问算法符合元素属于集合的比较算法，访问之后返回成功或失败标志。

在每个单词的词法分析算法及生成单词内部结构算法流程即图十一中，算法名称为parse，入口参数：word-单词首址；词法分析开始后，首先访问英语基本单词库即is-word(word)，若不是，则直接进行形变单词分析；若是则设置成功标志，且按照单词内部结构生成单词信息，然后访问不需要再词法分析的单词库，若访同成功，则词法分析结束。

如果单词是所有格形式，即末尾有′或′s，则去掉单词末尾的′或′s，并记录单词的所有格词形特征属性，然后再从本函数开始部分执行，继续分析单词原形。

调用分离原形单词和后缀算法即is-suf，确认分离是否能成功，若成功就按照单词信息和追加的词形特征属性生成单词结构。

调用访问不规则单词库算法即is-irr，确认该单词是否为不规则单词，若是，就按照单词信息和追加的词形特征属性生成单词结构。

当该单词有多个原形单词时，就需要根据单词内部结构，将多个原形单词信息按属性值链表和词组链表合并成一个单词内部结构。

当该单词无原形单词时，可有多种例外情况执行，一种是提醒用户，单词输入有错，请修正；第二种是单词输入正确，库中末收录，由用户输入属性值，系统继续执行；第三种可按照默认属性值生成单词内部结构继续执行。

在词法分析算法中，确立is-word、is-suf、is-irr和is-not-parse四个算法的先后执行次序是很重要的，是词法分析的重要特征；另外这种算法之间的排它性，如在成功执行is-suf下，不需执行is-irr，或者在成功执行is-irr下，不需执行is-suf，也是很重要的，都将直接决定成功分析单词时的执行效率。

下面举例说明词法分析算法的执行过程。

例1.good

执行步骤1)，该单词在英语基本单词库中，记录原形单词good。

执行步骤2)，该单词是不需要进行词法分析，生成单词的内部结构后，结束算法。

例2.boy′s

执行步骤1)，该单词不是原形单词。

执行步骤2)，还需要进行词法分析。

执行步骤3)，去掉单词末尾“′s”，记录所有格词形特征属性，继续执行步骤1)。

执行步骤1)，该单词是原形单词，记录原形单词boy。

执行步骤2)，还需要进行词法分析分析。

执行步骤3)后继续执行步骤4)。

执行步骤4)后不在不规则单词库中，执行步骤5)。

执行步骤5)、6)后也不能将单词boy分离成两部分。

执行步骤7-9)后生成该单词的内部结构，并将所有格属性值加入到单词内部结构相应的词形特征属性值中。

例3.studied

执行步骤1)，该单词不是原形单词。

执行步骤2)，还需进行词法分析。

执行步骤3)后继续执行步骤4)。

执行步骤4)后该单词不在不规则单词库中，执行步骤5)。

执行步骤5)、6)后能将单词studied分离成stud和ied两部分，然后添加y生成单词atudy和取出ied所对应的词形特征属性。

执行步骤7-9)后生成该单词的内部结构，并将ied对应的词形特征属性加入到单词内部结构相应的语义属性值中。

例4.lay

执行步骤1)，该单词是原形单词，记录原形单词lay。

执行步骤2)，还需要进行词法分析。

执行步骤3)后继续执行步骤4)。

执行步骤4)，该单词在不规则单词库中，再次取出该单词的原形单词lie，并取出对应的词形特征属性值，执行步骤7)。

执行步骤7-9)，首先分别生成lay和lie的单词内部结构，并将从不规则单词库中取出的词形特征属性加到lie的单词内部结构相应的语义属性值中。然后，将两个单词内部结构分别按照属性值链和词组链合并。

Claims

1.一种由逻辑运算部件、存储部件、视频显示部件和含英语字母键的键盘组成的英汉翻译系统的词法分析算法，其特征在于：

(一)首先建立四个知识库，即：英语基本单词库、规则变化后缀库、不规则变化单词库、不需要再进行词法分析的单词库，其中：

1)英语基本单词库中每个单词有如下的内容：

●原形单词符号

●单词的分类标识符和词义属性标识符

●上下文区分函数

●单词的中文解释

●该单词的词组

并用多级分类算法建立英语基本单词库的索引文件；

2)规则变化后缀库中每条后缀有如下的内容：

●后缀

●添加字符

●条件

●追加的词形特征属性符号

并按末字符建立规则变化后缀库的索引文件，采用所有相同末字符的后缀存贮在一起的原则组织存贮；

3)不规则变化单词库中每个不规则单词有如下的内容：

●不规则单词

●原形单词

●追加的词形特征属性符号

并为不规则变化单词库建立索引文件；

4)不需要再进行词法分析的英语单词库中的内容为英语单词的集合；

(二)每接收一个英语单词之后，执行如下词法分析步骤：

(1).访问英语基本单词库，查询该单词是否在库中，如果不在，则执行步骤(2)；如果在，则记录已有一个英语原形单词，继续执行步骤(2)；

(2).访问不需要再进行词法分析的单词库，如果该单词在该库中，则不进行变形单词分析，直接执行步骤(7)；

(3).如果该单词具有所有格，即单词末尾有′或′S，则首先记录该单词的所有格词形特征属性，然后去掉单词末尾的′或′S，然后从步骤(1)开始执行；

(4).访问不规则变化单词库，如果该单词在该库中，则直接从该库中取出该单词的原形单词和追加的词形特征属性，并记录下来，然后执行步骤(7)；

(5).按照步骤(6)遍访规则变化后缀库中的每一条后缀，遍访结束后执行步骤(7)；

(6).如果根据当前位置的后缀，能将该单词分离成该单词的原形单词和后缀两部分，则直接取出原形单词，从该后缀词条中取出追加的词形特征属性，并记录下来，然后取出下一条后缀按步骤(5)继续执行；

(7).如果该单词没有原形单词，则转例外出错处理；

(8).如果该单词有一个或多个原形单词时，则按照单词的内部存贮结构，逐个生成原形单词的内部存贮结构；

(9).如果该单词有多个原形单词时，则按照单词的存贮结构中的属性值链表和词组链表分别合并；

(10).词法分析结束。

2.根据权利要求1所述的英汉翻译系统的词法分析算法，其特征在于：访问英语基本单词库的算法是：

1)将单词word转换成一个关键字key；

2)根据二分算法，查询关键字key；

3)若没查到，则失败返回，否则继续执行4)；

4)在索引表中向前找到相同关键字中的第一个关键字；

5)比较当前位置的关键字和要找的关键字key，若不同则失败返回，否则执行6)；

6)根据在索引表中当前位置处的文本文件中的位置和字节数，读出单词的信息；

7)比较当前读出的单词与要访问的单词word，若相等则设成功标志并返回单词信息首址，否则继续执行8)；

8)索引表中移到下一个关键字位置，转5)执行；

9)结束；

将单词分离成单词原形和后缀的算法是：

1)为单词作备份，取单词末字符；

2)根据末字符取该末字符后缀区首址；

3)若取完所有的后缀知识，则失败返回；

4)若取完末字符后缀区所有的后缀知识，则失败返回；

5)取一条后缀知识，比较后缀和单词末字符，若不等则转8)，否则继续执行6)；

6)将单词分离成单词前部和后缀两部分，并在单词末尾添加末尾字符；

7)访问英语基本单词库，若失败，则取单词备份并转8)处理，否则转9)执行；

8)将指针移向下一个后缀知识，转5)执行；

9)取形变单词的词形特征属性并保留；

10)取下一条后缀，若与当前后缀符号相同，则取形变单词的新的词形特征属性并追加；

11)成功返回原形单词和词形特征属性，结束。