CN1067781C - 机器翻译中的复杂上下文相关处理方法 - Google Patents

机器翻译中的复杂上下文相关处理方法 Download PDF

Info

Publication number
CN1067781C
CN1067781C CN97111944A CN97111944A CN1067781C CN 1067781 C CN1067781 C CN 1067781C CN 97111944 A CN97111944 A CN 97111944A CN 97111944 A CN97111944 A CN 97111944A CN 1067781 C CN1067781 C CN 1067781C
Authority
CN
China
Prior art keywords
context
context dependent
reduction
rule
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN97111944A
Other languages
English (en)
Other versions
CN1180203A (zh
Inventor
陈肇雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huajian long Technology Co. Ltd.
Original Assignee
HUAJIAN MACHINE TRANSLATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUAJIAN MACHINE TRANSLATION CO Ltd filed Critical HUAJIAN MACHINE TRANSLATION CO Ltd
Priority to CN97111944A priority Critical patent/CN1067781C/zh
Publication of CN1180203A publication Critical patent/CN1180203A/zh
Application granted granted Critical
Publication of CN1067781C publication Critical patent/CN1067781C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明技术的步骤为:1.在规则和字典中嵌入上下文相关信息及上下文相关操作,规则的形式为:<头部>-><上下文相关函数>,<右部>,<转换本>;字典中每个单词的形式为:入口单词,特征集合,上下文相关函数,译文;2.对每一条规则,首先进行头部匹配,若匹配成功,则执行规则中的上下文相关函数,以判定当前头部模式的上下文相关条件是否成立,若成立才对当前模式中内容进行归约;3.与规则类似,进行词条中的上下文相关处理。本发明采用数据与操作一体化的技术,有效地解决了复杂上下文相关处理这一难题。

Description

机器翻译中的复杂上下文相关处理方法
本发明涉及机器翻译中复杂上下文相关处理技术,属于机器翻译技术领域。
复杂上下文相关处理是解决机器翻译中多义问题的主要手段。目前,绝大多数机译系统都回避了复杂上下文相关处理问题,而涉及上下文相关处理的一些理论,基本上也是无法实现的。
同样,在基于规则的机器翻译系统中,也很难处理复杂上下文相关问题。大多数机译系统只处理复杂相关问题中的最简单的情况,还有一些系统采用了程序包的方法,通过滚雪球的办法不断增加子程序来解决上下文相关问题。但从根本上说,它们并不能满足复杂上下文相关问题的处理,原因是效率太低,而且就事论事,遇到一种情况就加入一个子程序,给程序维护增加很大难度。另外,在子程序太多时,很难区分不同情况,带来了程序应用方面的模糊性。
因此,如何实现复杂上下文相关处理,便成为当前国内外机译研究的重要课题。
本发明的目的旨在提供一种复杂上下文相关处理技术,该技术可将全局问题局部化处理,既提高了区分多义的处理能力,又简化了复杂上下文相关的处理。
下面首先给出复杂上下文相关定义:
复杂上下文相关可定义为一个结构成分(或意段)的特征的选择与其左部和/或右部某一位置的结构成分(和/或意段)的特性有关,具体可分为以下几种情况:
(1)Property(A)<-context(L,B)&Property(B)
成分A的特性与左部特定位置L的成分B的特性相关。
(2)Property(A)<-context(XL,B)&Property(B)
成分A的特性与左部任意位置XL的成分B的特性相关。
(3)Property(A)<-context(R,B)&Property(B)
成分A的特性与右部特定位置R的成分B的特性相关。
(4)Property(A)<-context(XR,B)&Property(B)
成分A的特性与右部任意位置XR的成分B的特性相关。
上述情况中,B的特性只是临时用来决定A在句子中应表现的特性,而不决定B本身在句子中出现的特性。
本发明是通过如下方法实现的:
(一)把上述与规则头部模式和词条有关的上下文相关信息以函数的形式分别定义在规则和词条中。
(1)在规则中建立上下文相关函数,规则的形式为:
<头部>-><上下文相关函数>,<右部>,<转换体>
其中:<头部>为被归约成分,<右部>为当前归约结果,<转换体>对应于该次归约的转换体,<上下文相关函数>为若干个上下文相关函数。
(2)在字典中建立上下文相关函数,字典中每个单词的形式为:
入口单词  特征集合1  上下文相关函数11  译文11
          特征集合1  上下文相关函数12  译文12
          特征集合2  上下文相关函数21  译文21
(二)上下文相关函数既定义了上下文相关信息,同时它也是嵌入规则和词条数据中的一种操作。其中,上下文相关信息包含了当前头部模式(或词条)在当前归约结果下与其相关的成分特性及其位置。
在规则中定义了上下文相关信息后,复杂上下文相关问题即可通过在不同规则中调用上下文相关函数来解决。由于不同规则应用时头部模式不同,而且调用上下文相关函数的参数也不同,因而上下文相关函数在不同时刻执行的效果也就不同,自然就区别了不同情况。
上下文相关函数被执行时,根据调用参数的要求在当前归约模式中查找所需成分及其特性;若查找范围还未归约,则先调用系统翻译处理机制本身对当前模式中相应内容进行归约,然后再查找所需成分及其特性,上下文相关条件成立,才对规则头部进行归约。
(三)词条中的上下文相关处理与规则类似。
本发明采用数据与操作一体化的技术,在规则和字典嵌入上下文相关信息及上下文相关操作,使上下文相关处理情况的判定只局限于其所对应的当前模式有关的情况,从而减少了操作的模糊性。这样就实现了全局问题局部化处理,既提高了区分多义的处理能力,又简化了复杂上下文相关的处理,有效地解决了复杂上下文相关处理这一难题。
以下结合附图和发明实例对本发明作详细描述。
图1是本发明的算法流程图;图2和图3均为归约过程中生成的结构树。
本发明是使用普通计算机实现的,其步骤为:
一.在规则和字典中嵌入上下文相关信息及上下文相关操作
1.在规则中建立上下文相关函数
规则的形式为:
<头部>-><上下文相关函数>,<右部>,<转换体>
其中<头部>为被归约成分,<右部>为当前归约结果,<转换体>对应于该次归约的转换体。<上下文相关函数>为若干个函数,函数具体形式如下:
SEARCH(DIRECTION,RANGE,COMPONENT)其中,SEARCH表示查找相应成分,DIRECTION为L或R,分别表示向左或向右搜索,RANGE为左部或右部的某一特定范围,表示搜索范围,COMPONENT为相关成分及其所应具备的特性。
2.在字典中建立上下文相关函数
字典中每个单词的形式为:
入口单词  特征集合1  上下文相关函数11    译文11
                :
          特征集合1  上下文相关函数ln    译文ln
          特征集合2  上下文相关函数21    译文2l
                :
                :
单词可具有不同的特征集合。在具有相同特征集但不同的上下文情况下,可能有不同的译文。
词条中的上下文相关函数和规则中的上下文相关函数形式完全一样。
二.对每一条规则,首先进行头部匹配,若匹配成功,则执行下述算法流程(参见图1):
(1)置当前SEARCH函数下标为0。
(2)当前SEARCH函数下标加1。若该下标对应SEARCH为空,则本次匹配成功结束。否则,转步骤(3)。
(3)若该SEARCH函数规定的查找范围已归约成功,则在此范围内判定规定的查找成分是否存在;否则执行(4)。
若规定的查找成分存在,则转(2);否则,本次匹配失败结束。
(4)若该SEARCH函数规定的查找范围还未归约成功,则调用翻译处理机制对该段进行超前分析,即对该段提前进行归约。
(5)在超前分析的结果内,判定规定的查找成分是否存在。若该条件测试成功,则转(2);若该条件测试不成功,本次匹配失败结束。
三.词条中的上下文相关处理与规则类似。
下面举例说明本发明算法的执行过程。
将句子“We know this computer”和“We call this computer”翻译成中文。这两句中均出现单词this,但其用法不同。
假设现有字典:
词条1:we        NP      “我们”
词条2:know      VP(V1)  “知道”
词条3:call      VP(V2)  “称...为”
词条4:this      Q       “这”
词条5:computer  NP(台)  “计算机”
现有规则:
规则1:Q NP(台)→Search(L,(1,1),VP(V1)),NP,Q台NP.
规则2:Q→Search(L,(1,1),VP(V2)),NP,Q.
规则3:NP VP(V1) NP→,S,NP VP NP.
规则4:NP VP(V2)NP NP→,S,NP VP NP NP.
其中,V1表示单宾语动词,V2表示双宾语动词,NP表示名词短语,VP表示动词短语,Q表示限定词,S表示句子。
对第一个句子进行如下归约:
(1)使用词条1、2、4、5将句子归约为NP VP(V1)Q NP(台)。
(2)对于意段Q NP(台),其左边为VP(V1),规则1的上下文条件可满足,因而使用规则1将Q NP(台)归约为NP。得到句子归约结果为NP VP(V1)NP。
(3)使用规则3将NP VP(V1)NP归约为S。
归约过程中生成的结构树如图2所示。
根据规则1和3以及词条1、2、4、5,该句的译文为“我们知道这台计算机”。
对第二个句子进行如下归约:
(1)使用词条1、3、4、5将句子归约为:NP VP(V2)Q NP(台)。
(2)对于意段Q,其左边为VP(V2),规则2的上下文条件可满足,因而使用规则2将Q归约为NP。得到句子归约结果为NP VP(V2)NP NP(台)。
(3)使用规则4将NP VP(V2)NP NP(台)归约为S。
归约过程中生成的结构树如图3所示。
根据规则2和4以及词条1、3、4、5,该句的译文为“我们称这为计算机”。
由此可以看出this在不同的上下文环境下其用法也不相同。

Claims (1)

1.一种使用计算机进行的机器翻译中的复杂上下文相关处理方法,其步骤为:
(一)把与规则头部模式和词条有关的上下文相关信息以函数的形式分别定义在规则和词条中
(1)在规则中建立上下文相关函数
规则的形式为:
<头部>-><上下文相关函数>,<右部>,<转换体>
其中:<头部>为被归约成分,<右部>为当前归约结果,<转换体>对应于该次归约的转换体,<上下文相关函数>为若干个上下文相关函数,
(2)在字典中建立上下文相关函数
字典中每个单词的形式为:
入口单词  特征集合1  上下文相关函数11  译文11
          特征集合1  上下文相关函数12  译文12
          特征集合2  上下文相关函数21  译文21
(二)对每一条规则,首先进行头部匹配,若匹配成功,则执行句中上下文相关函数,根据上下文相关函数中调用参数的要求在当前归约模式中查找所需成分及其特性,若查找范围还未归约,则先调用系统翻译处理机制本身对当前模式中相应内容进行归约,然后再查找所需成分及其特性,上下文相关条件成立,才对规则头部进行归约,若头部匹配失败,则找下一条规则继续匹配;
(三)词条中的上下文相关处理与规则类似。
CN97111944A 1997-07-02 1997-07-02 机器翻译中的复杂上下文相关处理方法 Expired - Fee Related CN1067781C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN97111944A CN1067781C (zh) 1997-07-02 1997-07-02 机器翻译中的复杂上下文相关处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN97111944A CN1067781C (zh) 1997-07-02 1997-07-02 机器翻译中的复杂上下文相关处理方法

Publications (2)

Publication Number Publication Date
CN1180203A CN1180203A (zh) 1998-04-29
CN1067781C true CN1067781C (zh) 2001-06-27

Family

ID=5171967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97111944A Expired - Fee Related CN1067781C (zh) 1997-07-02 1997-07-02 机器翻译中的复杂上下文相关处理方法

Country Status (1)

Country Link
CN (1) CN1067781C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100418087C (zh) * 2004-11-02 2008-09-10 株式会社东芝 机器翻译系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0568319A2 (en) * 1992-04-30 1993-11-03 Sharp Kabushiki Kaisha Machine translation system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0568319A2 (en) * 1992-04-30 1993-11-03 Sharp Kabushiki Kaisha Machine translation system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100418087C (zh) * 2004-11-02 2008-09-10 株式会社东芝 机器翻译系统及方法

Also Published As

Publication number Publication date
CN1180203A (zh) 1998-04-29

Similar Documents

Publication Publication Date Title
CN100339855C (zh) 内容管理系统
CN1290036C (zh) 根据机器可读词典建立概念知识的计算机系统及方法
CN1220155C (zh) 基于对话的信息搜索方法和对话机
CN101035131A (zh) 协议识别方法及装置
CN1788266A (zh) 翻译系统
EP0805403A3 (en) Translating apparatus and translating method
CN1601520A (zh) 识别文本文档中的有机化学名称的系统和方法
CN1265307C (zh) 语言本地化中特征字符串的提取与替换方法
CN1492361A (zh) 嵌入式数据库查询的处理方法
CN1217798A (zh) 用于使互联网不同计算机中的程序同步的方法
CN1067781C (zh) 机器翻译中的复杂上下文相关处理方法
CN1940921A (zh) 图片搜索方法及其装置
EP1293913A3 (en) Information retrieving method
CN1797301A (zh) 数字化信息搜索方法及其系统
CN101055593A (zh) 藏文网页及其编码的识别方法
CN101079890A (zh) 一种生成特征码确定状态机的方法和装置
CN1704880A (zh) 将表意字符输入到手持设备中的方法和装置
CN1492359A (zh) 一种多关键字自动状态机查找匹配方法
CN1928854A (zh) 一种基于标点处理的层次化汉语长句句法分析方法及装置
CN1851690A (zh) 一种翻译网页的方法和系统
CN1560834A (zh) 一种口语识别理解的语法描述与识别分析的方法
CN1067783C (zh) 基于sc文法的转换生成方法
CN1282113C (zh) 一种基于快速排序算法的快速分页排序方法
CN1067784C (zh) 特殊语言现象处理方法
CN1525344A (zh) 设备驱动器和设备类型数据变换方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C53 Correction of patent for invention or patent application
COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: CHEN ZHAOXIONG TO: HUAJIAN MACHINE TRANSLATION CO., LTD

CP03 Change of name, title or address

Address after: 100083 Beijing City, Haidian District Xueyuan Road No. 30, West Building Huajian Corporation Li Hua

Applicant after: Huajian Machine Translation Co., Ltd.

Applicant before: Chen Zhaoxiong

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIJING HUAJIAN CHANGHE SCIENCE CO., LTD.

Free format text: FORMER OWNER: HUAJIAN MACHINE TRANSLATION CO., LTD

Effective date: 20090508

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090508

Address after: Room 207, West Building, Kequn Building, 30 College Road, Haidian District, Beijing: 100083

Patentee after: Beijing Huajian long Technology Co. Ltd.

Address before: Li Hua Zip Code of West Building Huajian Group Company, Kequn Building, 30 College Road, Haidian District, Beijing: 100083

Patentee before: Huajian Machine Translation Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20010627

Termination date: 20160702

CF01 Termination of patent right due to non-payment of annual fee