CN1173674A - 基于sc文法的转换生成技术 - Google Patents

基于sc文法的转换生成技术 Download PDF

Info

Publication number
CN1173674A
CN1173674A CN97111946A CN97111946A CN1173674A CN 1173674 A CN1173674 A CN 1173674A CN 97111946 A CN97111946 A CN 97111946A CN 97111946 A CN97111946 A CN 97111946A CN 1173674 A CN1173674 A CN 1173674A
Authority
CN
China
Prior art keywords
node
translation
rule
word
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN97111946A
Other languages
English (en)
Other versions
CN1067783C (zh
Inventor
陈肇雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huajian Long Technology Co Ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN97111946A priority Critical patent/CN1067783C/zh
Publication of CN1173674A publication Critical patent/CN1173674A/zh
Application granted granted Critical
Publication of CN1067783C publication Critical patent/CN1067783C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

基于SC文法的转换生成技术的步骤为:1.在建立字典库和规则库时,为每个单词和规则建立相应的转换体,它们是嵌入词条和规则内部的。2.对原文句子进行分析,生成一归约结构树,然后执行如下步骤:自顶向下搜索该结构树,设当前搜索结点为树的根结点;生成当前搜索结点的译文;根结点的译文即为整个句子对应的译文。本发明的特征是:1.在字典和规则中直接嵌入转换体。2.转换与原文分析集成为一体。3.不依赖于具体语种,可适用于多语种机器翻译。本发明简化了分析和转换机制的操作过程,提高了译文的准确性。

Description

基于SC文法的转换生成技术
本发明涉及一种机器翻译中的转换生成技术,属于机器翻译技术领域。
机器翻译中,基于规则的分析技术,其分析与转换的界限往往是通过形成的内部结构树来传递信息的,转换(即译文生成)部分需要反复对树中的结点进行测试,找出相应的生成码,才能生成译文。这种方法不仅严重浪费时间,而且由于生成码的内容和数量均不容易确定,因而人为地丢失许多信息,造成译文可读性较差。
本发明的目的旨在提供一种基于SC文法的转换生成技术,该技术可简化分析和转换机制的操作过程,并提高译文的准确性。
上述SC文法是指以语义文法和格文法(Semantic And Case Grammar)为基础的子类文法(Sub Category Grammar)。
本发明是通过如下方法实现的:
一种使用计算机进行的基于SC文法的转换生成技术,其步骤为:
(一)建立字典库和规则库
在建立字典库和规则库时,为每个单词和规则建立相应的转换体,它们是嵌入词条和规则内部的,其中:
字典库中每个单词的形式为:
入口单词 特征信息集合1  上下文相关函数11  转换体11
         特征信息集合1  上下文相关函数12  转换体12
         :
         :
         特征信息集合2  上下文相关函数21  转换体22
         :
         :
规则库中每条规则的形式为:
规则左部成分->上下文相关函数,将规则左部归约后的特征集合,转换体
其中,转换体中的各成分均为规则左部成分。
(二)在接收一个原文句子之后,用翻译处理算法对句子进行分析,分析成功后,生成一归约结构树,然后执行如下步骤:
(1)自顶向下搜索该结构树,设当前搜索结点P为树的根结点;
(2)生成当前搜索结点P的译文;
若P的下一层结点为非原文单词形态的非叶子结点,则首先查找原文分析过程中记录下的生成P的规则,根据规则中规定的转换体生成P的转换体,然后递归执行步骤(2)求出各结点转换体,并在P的转换体中替换掉各结点;
若P的下一层结点是原文单词形态的叶子结点,则查找字典中生成P的词条,根据该词条中规定的转换体生成P的译文;
(3)在选择具体词义时,若遇到同一单词具有相同特征集合但不同词义的词条,则顺序执行各词条中的上下文相关测试函数,当某一词条的上下文相关测试条件成立时,则选定该词条的词义为单词的译文;
(4)根结点的译文即为整个句子对应的译文。
本发明的特征是:1.在字典和规则中直接嵌入转换体。2.转换与原文分析集成为一体。3.不依赖于具体语种,可适用于多语种机器翻译。
本发明通过采用分析与转换规则共用同一头部和同一组上下文相关函数的方法,实现分析与转换的集成化。这样,不但可以把问题局部化,而且可以根据转换体的要求,直接生成目标结构,既简化了分析和转换机制的操作过程,也提高了译文的准确性。
以下结合附图和发明实例对本发明作详细描述。
图1和图2为本发明的算法流程图。
本发明是使用普通计算机实现的,其步骤为:
一、转换数据的建立
在建立字典库和规则库时,为每个单词和规则建立相应的转换体,它们是嵌入词条和规则内部的。
1、在字典库中建立转换体
字典中每个单词的形式为:
word  X1   F11  T11
      X1   F1n  T1n
      X2   F21  T21
      :
      :
其中,word为入口单词,X1、X2为特征集合,F11、F1n、F21为上下文相关函数,T11、T1n、T21为译文,即转换体部分。单词可具有不同的特征集,如X1,X2;在具有相同特征集但不同的上下文情况下可能有不同的译文,如X1特征在F11、...、F1n上下文条件下具有T11、...、T1n等不同的译文。
2、在规则库中建立转换体
每条规则的形式为:
X1 X2...Xn -> F,X,Xi1...Xim.
其中,X1、X2、...、Xn为特征集合,构成规则左部成分;F为上下文相关函数;X为将规则左部归约后的特征集合形式,Xi1...Xim为转换体部分,该转换体定义了当前归约操作所对应的译文,Xi1...Xim均为规则左部的成分。
二、在接收一个原文句子之后,翻译处理算法对句子进行分析,分析成功后,生成一归约结构树,然后执行如下算法步骤(参见图1):
(1)自顶向下搜索该结构树,设树的根结点为当前搜索结点P;
(2)求当前搜索结点P的转换体;
首先查找原文分析过程中记录下的生成P的规则,根据规则中规定的转换体生成P的转换体。若P的下一层结点为非原文单词形态的非叶子结点,则对各子结点分别递归执行步骤(2)求出各结点转换体,并在P的转换体中替换掉各结点;
若P的下一层结点是原文单词形态的叶子结点,则查找字典中生成P的词条,根据该词条中规定的转换体生成P的译文;
(3)在选择具体词义时,执行单词多义选择算法。若遇到同一单词具有相同特征集合但不同词义的词条,则顺序执行各词条中的上下文相关函数,当某一词条的上下文相关条件成立时,则选定该词条的词义为单词的译文;否则选第一条词条的译文为单词译文(参见图2);
(4)根结点的译文即为整个句子对应的译文。
在上述算法步骤中:
由于结构树根结点的译文即为整个句子的译文,所以只需求出根结点的译文。
结构树中记录了生成各结点的规则,根据规则中规定的转换体即可求出各结点译文。
根据规则,每个结点的转换体来自下层结点,因此,若求一个结点的译文,必须求出其下一层结点的译文。但由于只有叶结点(即单词)才有译文,所以求任一结点译文都必须求出其直至叶结点的全部子结点的译文。
因此,在自顶向下搜索该结构树求根结点的译文的过程中,转换体中各部分若非叶子结点(即非单词),则递归调用本算法求各转换体部分译文即可。
下面举例说明本发明算法的执行过程。
将句子“This is a car.″翻译成中文。
这一过程使用到的词条有:
词条1:this  NP  “这”
词条2:is    VP  “是”
词条3:a     Q   “一”
词条4:car   NP   SEARCH(L,(1,1),Q)“辆小汽车”
词条5:car   NP  “小汽车”
规则有:
规则1:Q NP ->,NP,Q NP.
规则2:NP VP NP ->,S,NP VP NP.
其中,NP表示名词短语,VP表示动词短语,Q表示量词,S表示句子。1、分析过程:(1)对句子进行第一次归约:使用词条1将this归约为NP。使用词条2将is归约为VP。使用词条3将a归约为Q。使用词条5将car归约为NP。第一次归约结果为:NP VP Q NP.(2)对句子进行第二次归约:使用规则1将Q NP归约为NP。第二次归约结果为:NP VP NP.(3)对句子进行第三次归约:使用规则2将NP VP NP归约为S。第三次归约结果为:S.分析过程生成的结构树如下:
Figure A9711194600061
2、转换过程
(1)求S结点(根结点)对应译文。根据生成S的规则2,S的转换体为NP VP NP。在结构树中,第一个NP对应结点NP(1),第二个NP对应结点NP(2)。
(2)由于S结点的下一层结点为非叶子结点,所以还需求NP(1)、VP、NP(2)的译文。
(3)求NP(1)结点对应译文。根据词条1,NP(1)的译文为“这”。
(4)求VP结点对应译文。根据词条2,VP的译文为“是”。
(5)求NP(2)结点对应译文。根据规则1,它的转换体为Q NP。其中,NP对应结构树中的NP(3)结点。由于Q、NP(3)为非叶子结点,还需求它们对应的译文。
(6)求Q结点对应译文。根据词条3,Q的译文为“一”。
(7)求NP(3)结点对应译文。根据词条4,NP(3)的译文为“辆小汽车”。
(8)由(5)(6)(7)求得NP(2)的译文为“一辆小汽车”。
(9)由(1)至(8)得出S对应译文为“这是一辆小汽车”。

Claims (1)

1.一种使用计算机进行的基于SC文法的转换生成技术,其步骤为:
(一)建立字典库和规则库
在建立字典库和规则库时,为每个单词和规则建立相应的转换体,它们是嵌入词条和规则内部的,其中:
字典库中每个单词的形式为:
入口单词 特征信息集合1 上下文相关函数11 转换体11
        特征信息集合1 上下文相关函数12 转换体12
        :
        :
        特征信息集合2 上下文相关函数21 转换体22
        :
        :
规则库中每条规则的形式为:
规则左部成分->上下文相关函数,将规则左部归约后的特征集合,转换体
(二)在接收一个原文句子之后,用翻译处理算法和句子进行分析,分析成功后,生成一归约结构树,然后执行如下步骤:
(1)自顶向下搜索该结构树,设当前搜索结点P为树的根结点;
(2)生成当前搜索结点P的译文;
若P的下一层结点为非原文单词形态的非叶子结点,则首先查找原文分析过程中记录下的生成P的规则,根据规则中规定的转换体生成P的转换体,然后递归执行步骤(2)求出各结点转换体,并在P的转换体中替换掉各结点;
若P的下一层结点是原文单词形态的叶子结点,则查找字典中生成P的词条,根据该词条中规定的转换体生成P的译文;
(3)在选择具体词义时,若遇到同一单词具有相同特征集合但不同词义的词条,则顺序执行各词条中的上下文相关测试函数,当某一词条的上下文相关测试条件成立时,则选定该词条的词义为单词的译文;
(4)根结点的译文即为整个句子对应的译文。
CN97111946A 1997-07-02 1997-07-02 基于sc文法的转换生成方法 Expired - Fee Related CN1067783C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN97111946A CN1067783C (zh) 1997-07-02 1997-07-02 基于sc文法的转换生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN97111946A CN1067783C (zh) 1997-07-02 1997-07-02 基于sc文法的转换生成方法

Publications (2)

Publication Number Publication Date
CN1173674A true CN1173674A (zh) 1998-02-18
CN1067783C CN1067783C (zh) 2001-06-27

Family

ID=5171969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97111946A Expired - Fee Related CN1067783C (zh) 1997-07-02 1997-07-02 基于sc文法的转换生成方法

Country Status (1)

Country Link
CN (1) CN1067783C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144135A (zh) * 2019-11-19 2020-05-12 珠海格力电器股份有限公司 一种词条转换方法、装置、设备以及可读介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1333361C (zh) * 2004-06-30 2007-08-22 高庆狮 提高文字、语音识别的准确率的方法和装置及自动翻译系统
JP4473702B2 (ja) * 2004-11-02 2010-06-02 株式会社東芝 機械翻訳システム、機械翻訳方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9209346D0 (en) * 1992-04-30 1992-06-17 Sharp Kk Machine translation system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144135A (zh) * 2019-11-19 2020-05-12 珠海格力电器股份有限公司 一种词条转换方法、装置、设备以及可读介质

Also Published As

Publication number Publication date
CN1067783C (zh) 2001-06-27

Similar Documents

Publication Publication Date Title
CN1159661C (zh) 用于中文的标记和命名实体识别的系统
CN1102271C (zh) 具有习惯用语处理功能的电子词典
CN1008016B (zh) 输入处理系统
CN1120436C (zh) 用于识别孤立、非相关汉字的语音识别方法和系统
CN101079028A (zh) 一种统计机器翻译中的在线翻译模型选择方法
CN1652106A (zh) 基于语言知识库的机器翻译方法与装置
CN1788266A (zh) 翻译系统
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN1841367A (zh) 用于通过在语言之间执行翻译来支持交流的交流支持设备和方法
CN1448868A (zh) 交叉语言信息检索装置和方法
CN1949211A (zh) 一种新的汉语口语解析方法及装置
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
CN1316689A (zh) 汉字输入装置和方法
CN1224954C (zh) 含有固定和可变语法块的语言模型的语音识别装置
CN1282932A (zh) 汉字分段装置
CN1238834C (zh) 一种口语识别理解的识别分析方法
CN1928854A (zh) 一种基于标点处理的层次化汉语长句句法分析方法及装置
CN1108572C (zh) 汉语和日语的双向机械翻译机
CN100347706C (zh) 一种pdf文档到xml文档转换的方法
CN1067783C (zh) 基于sc文法的转换生成方法
US20050256698A1 (en) Method and arrangement for translating data
CN1226692C (zh) 基于语义语言的机器翻译系统及方法
CN1302415C (zh) 一种英汉翻译机器的实现方法
CN1111814C (zh) 开放式全息模板式人机对话语言翻译方法及全息语义标注系统
CN1369833A (zh) 词汇式繁体中文与简体中文的转换系统及转换方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: CHEN ZHAOXIONG TO: HUAJIAN MACHINE TRANSLATION CO., LTD

CP03 Change of name, title or address

Address after: 100083 Beijing City, Haidian District Xueyuan Road No. 31, West Building Huajian Corporation Li Hua

Applicant after: Huajian Machine Translation Co., Ltd.

Applicant before: Chen Zhaoxiong

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIJING HUAJIAN CHANGHE SCIENCE CO., LTD.

Free format text: FORMER OWNER: HUAJIAN MACHINE TRANSLATION CO., LTD

Effective date: 20090508

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090508

Address after: Room 207, West Building, Kequn Building, 30 College Road, Haidian District, Beijing: 100083

Patentee after: Beijing Huajian long Technology Co. Ltd.

Address before: Li Hua Zip Code of West Building Huajian Group Company, Kequn Building, 30 College Road, Haidian District, Beijing: 100083

Patentee before: Huajian Machine Translation Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20010627

Termination date: 20160702

CF01 Termination of patent right due to non-payment of annual fee