CN1063556C

CN1063556C - 分析转换过程中动态路径选择方法

Info

Publication number: CN1063556C
Application number: CN95119554A
Authority: CN
Inventors: 陈肇雄
Original assignee: HUAJIAN MACHINE TRANSLATION CO Ltd
Current assignee: Beijing Huajian long Technology Co. Ltd.
Priority date: 1995-12-26
Filing date: 1995-12-26
Publication date: 2001-03-21
Anticipated expiration: 2015-12-26
Also published as: CN1129829A

Abstract

分析转换过程动态路径选择算法是基于SC文法体系和规则体系，以类(子类)为启发式搜索信息而实现的一个高效路径选择算法，可根据英语词组格式和英语句子结构，选择自左向右或自右向左动态路径选择算法，将大大减少分析转换中的路径选择次数，避免信息组合爆炸，简化分析转换过程，提高翻译效率。

Description

分析转换过程中动态路径选择方法

本发明涉及分析转换过程中动态路径选择方法，属于G06F15/38类计算机科学技术领域。

在自然语言理解和机器翻译系统中，传统型分析转换系统是程序和数据紧密相关的，常采用最长路径或最短的路径方法分析，但这种方法在分析转换时自左向右(自右向左)最长或最短路径组合匹配中，存在许多无效路径及信息爆炸等问题，难以实现有效的路径选择，造成分析转换速度较低。

本发明的目的是提出一种以类为启发式搜索信息的动态路径选择方法，它可简化分析转换算法和推理过程，以提高系统的整体分析转换速度。

本发明的目的是通过以下方法实现的：

一．确定动态路径选择方法，即：

1)实行自右向左推理或自左向右推理；

2)以类及子类结构搜索起始匹配项和项数；

3)根据当前句子状态中起始匹配项和项数与规则匹配，匹配成功后生成新的项(归约项)，并形成新的句子状态，再从1)开始执行；

4)经3)、2)、1)之后都不能使规则和当前句子状态中的项匹配成功，则进行属性轮换后，再从1)开始执行；

5)经所有单词的属性轮换和3)、2)、1)之后，都不能使规则和当前句子中的项匹配成功，则回溯到上一个句子状态，并根据当时的状态信息，转1)开始执行；

二．分析转换过程动态路径选择方法的步骤为：

1)初始化：将当前句子状态进栈；

2)从当前句子状态信息中取出起始匹配项地址和项数；

(注：开始时起始匹配项为最末项地址，项数为句子的项数)

3)从起始匹配项地址开始，取所指定项数的规则进行匹配，如果匹配成功，则执行8)；否则执行4)；

4)如果项数不为0，则项数减1，继续转3)执行；否则转5)执行；

(注：在当前项地址开始满足最大项匹配)

5)如果起始匹配项地址没有指向句子开始项地址，则起始匹配项地址指向前一项地址，并生成起始匹配项地址到句首所具有的项数，然后转3)执行；否则转6)执行；

6)属性轮换，如果轮换不成功，则退栈，并转2)执行；否则转7)执行；

7)将起始匹配项地址指向句中末项地址，并且生成出从起始匹配项地址到首项的项数，然后转3)执行；

8)生成一个新的句子状态信息，其中包括新句子的每个项地址，以及项数和最右边项地址等信息，将新生成的句子状态信息压栈，并转2)执行。

本发明是在基于SC文法和规则体系之上，结合类启发式搜索信息实现的高效动态路径选择算法，它简化了分析转换路径选择算法，防止了路径选择过程中信息组合爆炸等问题，压缩了过程信息量，提高了整句翻译速度和翻译准确率，并已被应用于国际首创的袖珍英汉翻译机中。

下面结合附图和实例对本发明进行详细描述。

图1为分析转换过程动态路径选择算法流程图。

本发明方案提出了在计算机中进行的基于规则体系的结合类启发式搜索信息的高效动态路径选择算法，该方案可广泛应用于自然语言理解和多语种、多专业的基于规则体系的分析转换过程中的路径选择。

一)概念说明

1)句子状态结构

句子状态结构由句子状态信息和记录项地址两部份组成。句子状态信息记录栈指针、首项(或末项)地址、句子中项总数、当前推理地址和剩余推理项项数五个状态信息，这些状态信息用于句子的推理和回溯整个过程；记录项地址记录了当前句子中所有项的地址，在该系统中项有单词、归约项和标点三种类型，其中只有单词类型的项才能实现属性轮换。

例如：单词work的结构如下：

work VP()″工作″

NP()″著作″

这样推理过程中遇到VP不能再推理时，可轮回为NP。

例如：I buy the work.

只有当work换成NP后才能使整个句子归约成功。

归约项是指单词归约结果经过多次归约后产生的项，归约项只有唯一的内容，不能进行属性轮换。例如the books，当这两项归约之后产生一个项NP，只有唯一中文解释。

2)规则形式

NP()→｜NP(THE)，！NP

VP(V201) NP()→｜VP(V201，OBJ)，！VP！NP

VP(V301)NP()NP()→｜VP(V301，OBJ)，！VP！NP(P∶1)！NP(P∶2).

在上述规则中，符号″→｜″为规则左部和右部的分隔符，规则左部为推理项，可以由一个或多个项所组成，规则右部为归约项的生成信息，其中NP、VP等为归约项的分类信息(分类符和语义信息)，！VP、！NP等为继承规则左部项的中文信息。

例如：I send him a book.

首先将a book归约成NP，然后执行第三条规则将send him NP归约成VP(V301)，同时将生成中文″送他一本书″，VP(V301)和生成的中文″送他一本书″合在一起构成归约项。

3)类(子类)启发式信息库

类(子类)启发式信息库数据结构定义如下：

类(子类) 匹配项数超前项数

例如：VP(V2) 2 0

VP(V3) 3 0

VP(V3) 4 0

T() 2 0

PROP() 3 -1

其中超前项数n定义如下：

=0指该类当前项址

＜0指该类当前项前移n项

＞0指该类当前项后移n项

在类(子类)启发式信息库中对类及子类明确规定了项数和超前项数，而且每个类及子类可以有一个或多个项数和超前项数，如VP(V3)项数可以是3项也可为4项，以适应英语中灵活的句子结构组织。

例如：I send him a book和I send a book to him.

二)分析转换过程动态路径选择算法说明

确定分析转换过程动态路径选择方式为：

1)实行自右向左推理或自左向右推理；

2)以类及子类结构搜索起始匹配项和项数；

5)经所有单词的属性轮换和3)、2)、1)之后，都不能使规则和当前句子中的项匹配成功，则回溯到上一个句子状态，并根据当时的状态信息，转1)开始执行。

分析转换过程动态路径选择算法的步骤为：

1)初始化：将当前句子状态进栈；

2)从当前句子状态信息中取出起始匹配项地址和项数；

6)属性轮换，如果轮换不成功，则退栈，并转2)执行，否则转7)执行；

8)生成一个新的句子状态信息，其中包括新句子的每个项地址，以及项数和最右边项地址信息，将新生成的句子状态信息压栈，并转2)执行。

三)下面以一个实际例子来说明该算法的执行过程

例句：I send a good book.

每个单词对应的项为：

INP″我″

sendVP(V301)″送″

VP(V201) ″送″

aT() ″—″

goodAP() ″好″

bookNP() ″书″

规则体系：

AP NP→｜NP，！AP！NP.

T NP→｜NP，！T！NP.

VP(V201)NP→｜VP(V201，OBJ)，！VP！NP.

VP(V301)R NP→｜VP(V301，OBJ)，！VP ！R！NP.

NP VP(OBJ)→｜CS()，！NP！VP.

CS.→S，！CS.

类启发式信息库

类(子类) 匹配项数超前项数

VP(V2) 2 0

VP(V3) 3 0

VP(V3) 4 0

VP(OBJ) 2 -1

NP() 2 0

CS() 2 0

标点 0 0

该例子生成的句子状态为：

NP VP(V301) T AP NP

1 2 3 4 5 6

算法执行过程描述如下：

1)起始匹配项地址指向项6，为标点符号，推理项数为6；

根据起始匹配项地址，执行步骤4)，6)，直到匹配项数为0，无法与规则匹配成功；

执行步骤7)后，起始匹配项地址指向项5，生成项数为5。

2)起始匹配项地址指向项5，推理项数为5；

根据起始匹配项地址，执行步骤4)，6)，直到匹配项数为2；

经步骤4)，与规则AP NP匹配成功，转步骤5)生成新的句子状态：

NP VP(V301) T NP

1 2 3 4 5

转2)继续执行。

3)起始匹配项地址指向项5，为标点符号，推理项数为5；

执行步骤7)后，起始匹配项地址指向项4，生成项数为4。

4)起始匹配项地址指向项4，推理项数为4；

根据起始匹配项地址，执行步骤4)，6)，直到匹配项数为2；

经步骤4)，与规则T NP匹配成功，转步骤5)生成新的句子状态：

NP VP(V301) NP

1 2 3 4

转2)继续执行。

5)起始匹配项地址指向项4，为标点符号，推理项数为4；

执行步骤7)后，起始匹配项地址指向项3，生成项数为3。

6)起始匹配项地址指向项3，推理项数为3；

根据起始匹配项地址，经步骤4)，6)，直到匹配项数为0，无法与规则匹配成功；

执行步骤7)后，起始匹配项地址指向项2，生成项数为2。

7)起始匹配项地址指向项2，推理项数为2；

执行步骤7)后，起始匹配项地址指向项1，生成项数为1。

8)起始匹配项地址指向项1，推理项数为1；

执行步骤7)后，起始匹配项地址也无法左移；

执行步骤8)进行属性轮换。

属性轮换后，句子状态如下所示：

NP VP(V201) NP

1 2 3 4

起始匹配项地址指向项4，生成推理项数为4；

转3)继续执行。

9)起始匹配项地址指向项4，推理项数为4；

根据起始匹配项地址，执行步骤4)，6)，直到匹配项数为0，都无法与规则匹配；

执行步骤7)后，起始匹配项地址指向项3，生成项数为3。

转3)继续执行。

10)起始匹配项地址指向项3，推理项数为3；

根据起始匹配项地址，经步骤4)，6)，直到匹配项数为2；

经步骤4)，与VP NP规则匹配成功，转步骤5)生成新的句子状态：

NP VP(V201，OBJ) .

1 2 3

转2)继续执行。

11)起始匹配项地址指向项3，为标点符号，推理项数为3；

执行步骤7)后，起始匹配项地址指向项2，生成推理项数为2。

12)起始匹配项地址指向项2，推理项数为2；

根据起始匹配项地址经步骤3)、4)，与规则NP VP匹配成功，转步骤5)生成新的句子状态：

CS .

1 2

转2)继续执行。

13)起始匹配项地址指向项2，推理项数为2；

经步骤4)，与规则CS.匹配成功，转步骤5)生成新的句子状态：

S

经2)判断成功，整个句子共经历8次路径选择后归约成功。

四)其它实例说明：

本发明是一个分析转换过程中采用自右向左动态路径选择的高效算法，也可以很方便地修改成自左向右路径选择算法。在英汉机译系统中整句分析转换采用自右向左动态路径选择比自左向右动态路径选择效率要高，路径选择次数要少；但另一方面在词组定义格式中有左边界而不一定有右边界，故识别短语时需要采用自左向右动态路径选择算法。在机器翻译系统分析转换过程中根据英语词组和英语句子结构特点，有机地选择自右向左和自左向右动态路径选择算法，是减少路径选择、避免组合爆炸，提高翻译速度的有机组成部份。

Claims

1．一种使用计算机进行的分析转换过程中动态路径选择方法，其特征在于：

一．确定动态路径选择方法，即：

1)实行自右向左推理或自左向右推理；

2)以类及子类结构搜索起始匹配项和项数；

3)根据当前句子状态中起始匹配项和项数与规则匹配，匹配成功后生成新的项，并形成新的句子状态，再从1)开始执行；

二．分析转换过程动态路径选择方法的步骤为：

1)初始化：

将当前句子状态进栈；

2)从当前句子状态信息中取出起始匹配项地址和项数；