CN1067784C - 特殊语言现象处理方法 - Google Patents

特殊语言现象处理方法 Download PDF

Info

Publication number
CN1067784C
CN1067784C CN97112502A CN97112502A CN1067784C CN 1067784 C CN1067784 C CN 1067784C CN 97112502 A CN97112502 A CN 97112502A CN 97112502 A CN97112502 A CN 97112502A CN 1067784 C CN1067784 C CN 1067784C
Authority
CN
China
Prior art keywords
rule
linguistic phenomenon
special linguistic
word
special
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN97112502A
Other languages
English (en)
Other versions
CN1172993A (zh
Inventor
陈肇雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huajian long Technology Co. Ltd.
Original Assignee
HUAJIAN MACHINE TRANSLATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUAJIAN MACHINE TRANSLATION CO Ltd filed Critical HUAJIAN MACHINE TRANSLATION CO Ltd
Priority to CN97112502A priority Critical patent/CN1067784C/zh
Publication of CN1172993A publication Critical patent/CN1172993A/zh
Application granted granted Critical
Publication of CN1067784C publication Critical patent/CN1067784C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明技术的步骤为:在字典中建立特殊语言现象规则;分析过程中,首先在字典中查找句子中的每个单词,并将各单词下的所有特殊语言现象规则检索出来;对句子进行归约时,若当前单词下有特殊语言现象规则,则首先对与该单词有关的特殊语言现象进行归约。本发明在词典中加入特殊语言现象信息,这样作不仅符合人们的思维习惯,而且便于翻译处理机制查找,便于分散处理和增强区分多义的能力,还可提高特殊语言现象的处理效率。

Description

特殊语言现象处理方法
本发明涉及机器翻译中的特殊语言现象处理技术,属于机器翻译技术领域。
特殊语言现象指成语、固定结构等。机译系统对特殊语言现象处理能力的强弱是衡量其性能好坏的标志之一。有些机译系统采取单独设立特殊语言现象词典的方法,其结果是不仅难以查找,而且也不便于总结归纳。
本发明的目的旨在提供一种特殊语言现象处理技术,该技术符合人们的思维习惯,便于翻译处理机制查找,可提高特殊语言现象的处理效率。
本发明是通过如下方法实现的:
一种使用计算机进行的特殊语言现象处理方法,其步骤为:
(一)在字典中建立特殊语言现象规则
规则的形式为:<头部>-><上下文相关函数>,<右部>,<转换体>。
其中<头部>由构成该特殊语言现象的单词或句子成分组成,<上下文相关函数>部分标明该特殊语言现象应用的上下文语境要求,<右部>指明特殊语言现象的语法及语义等特征信息,<转换体>对应于特殊语言现象的译文;
(二)翻译处理机制在分析过程中,首先在字典中查找句子中的每个单词,并将各单词下的所有特殊语言现象规则检索出来;
(三)对句子进行归约时,若当前归约单词下有特殊语言现象规则,则首先对与该单词有关的特殊语言现象进行归约;
翻译处理算法接收一句子时,对句中与每一个单词有关的特殊语言现象进行如下处理:
(1)对当前单词下的每一条特殊语言现象规则与原句进行匹配,直至有一条规则匹配成功或全部规则匹配完毕时本算法结束。
(2)对每一条特殊语言现象规则,若其头部均为单词,则只需用该规则直接与原句进行匹配,并判定上下文相关条件是否成立即可;若当前特殊语言现象规则头部含有句子成分,则需要首先对单词部分进行直接进行匹配,匹配成功后再调用翻译处理算法对句子中对应部分进行归约,看归约结果与特殊语言现象规则头部的成分是否能匹配成功。头部匹配成功后,再判定上下文相关条件是否成立。
本发明在词典中加入特殊语言现象信息,即把与具体单词有关的特殊语言现象以规则形式直接存储在特殊语言现象中的主要单词的词条下,这样作不仅符合人们的思维习惯,而且便于翻译处理机制查找,便于分散处理和增强区分多义的能力,还可提高特殊语言现象的处理效率。
以下结合附图和发明实例对本发明作详细描述。
图1是本发明算法流程图。
本发明是使用普通计算机实现的,其步骤为:
一、在字典中建立特殊语言现象规则
字典中的特殊语言现象等价于一条规则。规则的形式为:
<头部>-><上下文相关函数>,<右部>,<转换体>。
其中<头部>由构成该特殊语言现象的单词或句子成分组成,<上下文相关函数>部分标明该特殊语言现象应用的上下文语境要求,<右部>指明特殊语言现象的语法及语义等特征信息,<转换体>对应于特殊语言现象的译文。
同一个特殊语言现象,如果对应于若干个不同的译文,在词典中就表示为若干个不同的特殊规则。
二、翻译处理机制在分析过程中,首先在字典中查找句子中的每个单词,并将各单词下的所有特殊语言现象规则检索出来。
三、对句子进行归约时,若当前单词下有特殊语言现象规则,则首先对与该单词有关的特殊语言现象进行归约。
四、翻译处理算法接收一句子时,对句中与每一个单词有关的特殊语言现象进行处理的具体算法如下(参见图1,图中将特殊语言现象规则简称为规则):
1.置当前特殊语言现象规则下标为0。
2.当前特殊语言现象下标加1,即置当前特殊语言现象规则为下一条特殊语言现象规则。若当前特殊语言现象规则下标对应特殊语言现象规则为空,则当前单词对应特殊语言现象规则匹配失败结束。
3.若当前特殊语言现象规则头部均为单词,则用该规则直接进行匹配,若头部匹配失败,则当前规则失败,转步骤2;若头部匹配成功,则调用上下文相关处理算法判定上下文相关测试条件,若条件成立,则直接对该特殊语言现象进行归约,本过程成功结束;若条件不成立,转步骤2。若当前特殊语言现象规则头部含有句子成分(即非单词),则转步骤4。
4.若当前特殊语言现象规则头部含有句子成分,则先将单词部分进行匹配,匹配失败,转步骤2,否则对句子中对应部分进行归约,若归约结果与特殊语言现象规则头部的句子成分不一致,则当前规则匹配失败,转步骤2;否则,调用上下文相关处理算法判定上下文测试条件,若条件成立,则可对该特殊语言现象进行归约,本过程成功结束;若条件不成立,转步骤2。
下面举例说明本发明。
将句子“They put that question into account.”翻译为中文。
现有字典:
词条1:they     NP  他们
词条2:put      VP  放
词条3:put NP into account→,VP,把NP考虑进去
词条4:that     Q   那个
词条5:question NP  问题
现有规则:
规则1:Q NP→,NP,Q NP.
规则2:NP VP→,S,NP VP.
其中,词条3为成语。
对句子归约过程:
(1)用词条1将they归约为NP;
(2)对put进行归约时,由于put下有成语,首先匹配该成语。成语中的put...into account与句子中的对应单词可匹配。然后看that qustion是否能归约为短语中的NP。
(3)用词条4将that归约为Q。
(4)用词条5将question归约为NP。
(5)用规则1将Q NP归约为NP,与短语中的句子成分一致。因此,put NPinto account成语匹配成功。用词条3将其归约为VP。对句子的第一次归约结果为NP VP。
(6)用规则2将NP VP归约为S,句子归约成功。
最终译文为“他们把那个问题考虑进去了”。

Claims (1)

1.一种使用计算机进行的特殊语言现象处理方法,其步骤为:
(一)在字典中建立特殊语言现象规则
规则的形式为:<头部>-><上下文相关函数>,<右部>,<转换体>;
其中<头部>由构成该特殊语言现象的单词或句子成分组成,<上下文相关函数>部分标明该特殊语言现象应用的上下文语境要求,<右部>指明特殊语言现象的语法及语义等特征信息,<转换体>对应于特殊语言现象的译文;
(二)翻译处理机制在分析过程中,首先在字典中查找句子中的每个单词,并将各单词下的所有特殊语言现象规则检索出来;
(三)对句子进行归约时,若当前单词下有特殊语言现象规则,则首先对与该单词有关的特殊语言现象进行归约;
翻译处理算法接收一句子时,对句中与每一个单词有关的特殊语言现象进行如下处理步骤:
(1)对当前单词下的每一条特殊语言现象规则与原句进行匹配,直至有一条规则匹配成功或全部规则匹配完毕时本处理结束;
(2)对每一条特殊语言现象规则,若其头部均为单词,则只需用该规则直接与原句进行匹配:
若头部匹配失败,则当前规则失败,转步骤(1),继续使用下一条特殊语言现象规则;
若头部匹配成功,则需进一步判定上下文相关条件是否成立;
若条件成立,则直接对该特殊语言现象进行归约,本过程成功结束;
若条件不成立,则转步骤(1),继续使用下一条特殊语言现象规则;
若当前特殊语言现象规则头部含有句子成分,则需要首先对单词部分进行匹配,匹配成功后再调用翻译处理算法对句子中对应部分进行归约,看归约结果与特殊语言现象规则头部的成分是否能匹配成功:若匹配不成功,则转步骤(1),继续使用下一条特殊语言现象规则;若头部匹配成功,再判定上下文相关条件是否成立。
CN97112502A 1997-07-02 1997-07-02 特殊语言现象处理方法 Expired - Fee Related CN1067784C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN97112502A CN1067784C (zh) 1997-07-02 1997-07-02 特殊语言现象处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN97112502A CN1067784C (zh) 1997-07-02 1997-07-02 特殊语言现象处理方法

Publications (2)

Publication Number Publication Date
CN1172993A CN1172993A (zh) 1998-02-11
CN1067784C true CN1067784C (zh) 2001-06-27

Family

ID=5172302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97112502A Expired - Fee Related CN1067784C (zh) 1997-07-02 1997-07-02 特殊语言现象处理方法

Country Status (1)

Country Link
CN (1) CN1067784C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100418087C (zh) * 2004-11-02 2008-09-10 株式会社东芝 机器翻译系统及方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1302415C (zh) * 2000-06-19 2007-02-28 李玉鑑 一种英汉翻译机器的实现方法
JP5071373B2 (ja) * 2006-02-27 2012-11-14 日本電気株式会社 言語処理装置、言語処理方法および言語処理用プログラム
CN106372053B (zh) 2015-07-22 2020-04-28 华为技术有限公司 句法分析的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0651340A2 (en) * 1993-10-28 1995-05-03 International Business Machines Corporation Language translation apparatus and method using context-based translation models

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0651340A2 (en) * 1993-10-28 1995-05-03 International Business Machines Corporation Language translation apparatus and method using context-based translation models

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100418087C (zh) * 2004-11-02 2008-09-10 株式会社东芝 机器翻译系统及方法

Also Published As

Publication number Publication date
CN1172993A (zh) 1998-02-11

Similar Documents

Publication Publication Date Title
US6167370A (en) Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US7269547B2 (en) Tokenizer for a natural language processing system
JP3300866B2 (ja) テキスト処理システムにより使用されるテキストを準備する方法及び装置
EP0805403A3 (en) Translating apparatus and translating method
US20030074183A1 (en) Method and system for encoding and accessing linguistic frequency data
CN101079031A (zh) 一种网页主题提取系统和方法
WO2011065617A1 (ko) 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
CN86105459A (zh) 输入处理系统
CN1950831A (zh) 用于手写识别的装置和方法
EP0399533A3 (en) Machine translation system and method of machine translation
CN101079027A (zh) 一种中文分词方法及系统
EP1291790A3 (en) Text-based automatic content classification and grouping
CN1067784C (zh) 特殊语言现象处理方法
US20030074190A1 (en) Method and apparatus for dynamic configuration of a lexical analysis parser
CN1333615A (zh) 基于对话的信息搜索方法和对话机
CN1342942A (zh) 中文姓名的计算机识别及检索方法
Wechsler et al. Multi-language text indexing for internet retrieval
CN1290371A (zh) 中文文本中的字词分割方法
CN1369833A (zh) 词汇式繁体中文与简体中文的转换系统及转换方法
CN1107276C (zh) 一种全自动汉语分词系统
Hoch et al. On virtual partitioning of large dictionaries for contextual post-processing to improve character recognition
CN1086486C (zh) 阅读声译器
CN1055553C (zh) 外围设备的语言识别系统和方法
CN1173674A (zh) 基于sc文法的转换生成技术
CN1067782C (zh) 机器翻译中基于不完备知识的推理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: CHEN ZHAOXIONG TO: HUAJIAN MACHINE TRANSLATION CO., LTD

CP03 Change of name, title or address

Address after: 100083 Beijing Haidian District Xueyuan Road No. 30, West Building Huajian Corporation Li Hua

Applicant after: Huajian Machine Translation Co., Ltd.

Applicant before: Chen Zhaoxiong

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIJING HUAJIAN CHANGHE SCIENCE CO., LTD.

Free format text: FORMER OWNER: HUAJIAN MACHINE TRANSLATION CO., LTD

Effective date: 20090417

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090417

Address after: Room 207, West Building, Kequn Building, 30 College Road, Haidian District, Beijing: 100083

Patentee after: Beijing Huajian long Technology Co. Ltd.

Address before: Li Hua Zip Code of West Building Huajian Group Company, Kequn Building, 30 College Road, Haidian District, Beijing: 100083

Patentee before: Huajian Machine Translation Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20010627

Termination date: 20160702

CF01 Termination of patent right due to non-payment of annual fee