CN1296588A - 开放式全息模板式人机对话语言翻译方法及全息语义标注系统 - Google Patents

开放式全息模板式人机对话语言翻译方法及全息语义标注系统 Download PDF

Info

Publication number
CN1296588A
CN1296588A CN99804904A CN99804904A CN1296588A CN 1296588 A CN1296588 A CN 1296588A CN 99804904 A CN99804904 A CN 99804904A CN 99804904 A CN99804904 A CN 99804904A CN 1296588 A CN1296588 A CN 1296588A
Authority
CN
China
Prior art keywords
information
template
semantic
sentence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99804904A
Other languages
English (en)
Other versions
CN1111814C (zh
Inventor
刘莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN 98101156 external-priority patent/CN1231453A/zh
Priority claimed from CN 98125015 external-priority patent/CN1254895A/zh
Application filed by Individual filed Critical Individual
Publication of CN1296588A publication Critical patent/CN1296588A/zh
Application granted granted Critical
Publication of CN1111814C publication Critical patent/CN1111814C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种开放式全息模板式人机对话语言翻译方法,包括:建立一个以句子为对象的自然语言受限对话模板,模板中包含各种自然语言的所有必要语义信息要素,在模板上通过全选式人机对话确定自然语言符号实际携带的词汇信息项和句法信息项,完成原文信息求解,根据求解结果生成译文,并将求解结果转换成译文符号,供译文语义查询。该方法不依赖上下文语境作语义分析并充分利用人机优势互补的作用,用于在全球化网络通信中扫除语义信息传递障碍。

Description

开放式全息模板式人机对话语言翻译方法及全息语义标注系统 技术领域
本发明涉及一种计算机翻译方法, 更确切地说是涉及一种在计算机 网络中适于各网络终端以不同自然语言进行信息传递交流的机器翻译 方法。 背景技术
计算机网络技术以其四通八达、 无处不到的优势而迅速开创出一个 全球化的网络信息时代。但由于不同自然语言之间语义信息的传递交流 障碍, 已明显制约了网络及网络信息的使用效率, 如何通过机器翻译处 理使各网络终端用户仅使用自己的自然语言在网络上进行语义信息传 递, 对于节省网络空间、 提高网络信息的传递效率和实现网络信息资源 的大众化国际共享, 都无疑具有重要的现实意义和很高的商业价值。
目前在机器翻译领域, 一方面由人工智能教科书上系统介绍的机器 翻译方法在实际的产品开发中很少被使用, 另一方面, 在已开发出的机 器翻译系统中所应用的机器翻译方法又不能达到预期的目标,上述现象 说明: 基础理论研究严重滞后; 所采用的机器翻译技术方法具有普遍共 性的缺陷; 预期目标本身不具有现实性。 进入 90年代以来, 出现了大 致两类新兴的机器翻译方法并逐渐成为自然语言信息处理的技术主 流。'一种是以对大规模真实文本的统计分析为基本手段建设语料库, 另 一种是人机对话及自然语言受限的机器翻译方法。
大规模真实文本的统计分析是通过对大规模真实文本进行符号、 句 型、 词性、 语义等多角度的信息取样分析, 从而为任何一种自然语言中 的符号串提供多种匹配模式, 因而是一种基于经验的语言信息处理方 法。 从方法论上说, 用这种自然语言信息处理方法可以将源语的多种匹 配分析结果作叠加处理,并通过与译出目标语的多种匹配分析结果建立 匹配关系, 而直接完成自然语言的自动翻译, 但现实状况是, 自然语言 系统具有随机开放特性, 任何统计方法都只能提供概率性知识, 不可能 对自然语言词汇及其概念定义进行准入限制,不可能确定各种省略表达 部分的确切内容, 也不可能解决生成目标语后的新增歧义。 因此, 大规 模真实文本的统计分析虽然对于利用计算机进行各种自然语言信息处 理来说确是有意义的基础工作, 但对于机器翻译来说, 这种技术手段还 需要组合在一种全面有效的对象处理系统方法中才能充分实现其应用 价值。
人机对话及自然语言受限的机器翻译方法是由用户在输入端调整 机器翻译词典和调整源语言表达方式, 同时调整译文结果, 该方法虽可 获得较好的机器翻译质量,但要求用户熟练掌握机器翻译的源语和目标 语并需付出相当高的人机对话学习成本及操作成本,与人工翻译不相上 下。 本发明目的
本发明的目的是设计一种开放式全息模板式人机对话机器翻译方 法, 以全面解决计算机网络多语种信息传递交流障碍问题, 试图取得机 器翻译技术的实质性突破。 这种突破必须满足以下要求:
1 . 对自然语言普通词汇及其概念定义进行有效的准入限制;
2. 不依赖上下文语境进行语义分析;
3 . 通过直译手段实现语义信息准确传递;
4. 找到生成目标语后的新增歧义解决办法;
5 . 用户只需熟练掌握母语; 6. 利用大规模真实文本统计分析的手段与成果, 充分实现人机优 势互补;
7. 满足向多种目标语言转换的需要。
本发明的另一个目的是提出一种全息语义标注系统, 利用其可对一 文本进行全息语义标注, 并将标注信息与文本一起存储。 当需要时可将 标注信息与文本一起调出。 本发明概述
根据本发明的一个方面提出一种开放式全息模板式人机对话语言 翻译方法, 包括下述步骤:
a.对各种自然语言进行通约限制;
b.建立一个以句子为对象的包括各种自然语言的必要语义信息要素 的人机对话模板;
c.由人机对话模板提供与原文语言符号对应的经通约限制的所有备 选语义信息项及供用户扩展的空白信息项;
d.先由翻译系统的计算机对经通约限制的所有备选语义信息顶进行 自动优选,再由原文用户在人机对话模板上对优选结果进行人工调整和 确认;
e.由翻译系统根据人机互补确定的语义信息项生成译文, 并将所述 人机互补确定的语义信息项转换成译文符号,连同译文提供给译文用户 查询。
根据本发明的另一个方面提出一种全息语义标注系统, 包括: 必要语义信息库, 其内存有基本词汇及其概念定义以及句法信息 项;
文本输入装置, 用于输入待对其进行语义标注的文本; 文本存储装置, 用于存储通过文本输入装置输入的文本; 文本显示装置, 用于显示存储在文本存储装置中的某一文本; 句子选择装置, 用于选择文本显示装置所显示的文本中的某一句 子;
句子结构自动分析装置, 用于根据统计经验自动分析所选句子的结 构;
语义标注模板显示装置, 用于显示一语义标注模板, 该语义标注模 板在通过句子选择装置选择了一个句子时对应于所选择的句子被显 示,其内包括有对应于该句子中各词汇的词汇信息要素项和句法信息要 素项,词汇信息要素项中显示有对应词汇的在必要语义信息库中所包含 的概念定义和所有同义词,而各句法信息要素项则根据所述句子结构自 动分析装置分析的结果, 显示对应词汇的所有可能的句法信息项, 该各 句法信息项存储于所述必要语义信息库中;
语义标注装置, 用于供人对语义标注模板中的各词汇信息要素项中 的概念定义及同义词和各句法信息要素项中的句法信息项进行选择; 标注文本存储装置, 用于存储带有标注信息的文本;
标注指令装置, 用于指令对文本显示装置显示的文本中的某一句子 显示其标注;
标注显示装置, 用于以所述标注模板的形式显示存储在标注文本存 储装置中的对应于被指令句子的标注信息。
工业实用性
本发明开放式全息模板式人机对话机器翻译方法的技术特点是: 人 机对话的基本点是由用户对模板信息直接进行选择,对用户而言只需掌 握母语, 基本无学习成本; 本方法是在充分考虑计算机对信息处理的实 际边界能力并以语义信息传递的准确性为中心任务及实际目标而作出 的; 本方法充分利用了人机优势互补, 翻译内容不受语言环境和应用领 域限制; 本方法通过建立统一受限标准和全息全选全程的人机对话, 提 供了一揽子解决机器翻译基本技术障碍的系统方案,为根本改善机器翻 译质量提供了全方位的技术保证;本方法可充分利用大规模语料库建设 的成果, 对自然语言的处理方法简洁实用, 具有良好的可实施性; 虽然 在源语信息求解阶段, 用户看不懂的语言不可能进行人机对话, 但可在 保证翻译质量的前提下实现一种语言输入得到多语种译出结果。
本发明的开放式全息模板式人机对话语言翻译方法在网络信息交 流领域具有普遍应用的价值,在打开网络在线机器翻译服务方面有广阔 的国际市场。
本发明的全息语义标注系统可以将一文本的词汇释义及语法结构 信息与文本同时存储, 并在需要时显示这些标注信息。 该系统可广泛地 用于法律文件的释义及语言教学等方面。 附图的简要说明
图 1是以句子为对象的自然语言全息对话模板结构示意图; 图 2示出了以一个英文句子为对象的全息对话模板的内容; 图 3是不同自然语言之间词汇信息通约限制结构示意图; 图 4a、 图 4b是人机对话过程中的两种对话信息显示方法示意图; 图 5是句法成分信息的空间定位结构示意图;
图 6是根据本发明的方法对一个英文句子进行翻译时的人机交互信 息处理过程。
图 7是译文用户查询自然语言符号 "with a telescope " 实际携带的 句法信息项的示意图; 本发明的最佳实施方式 下面结合一个将英文句子翻译成中文的实例说明本发明的开放式 全息模板式人机对话语言翻译方法的原理和实施过程。所采用的例句为
"I saw a boy with a telescope near the bank. " ( "我在银行附近看见一 个带望远镜的男孩。 " )
该例句中包含多个语言符号, 这里所说的语言符号既可以是单词, 也可以是短语。 每个语言符号均携带了一定的语义信息, 其中包括语言 符号的概念定义、 时态、 语态以及该语言符号在句子中的成分等多种类 另 lj。 例如, 单词 " saw" 的概念定义是 "看见" , 时态为过去时, 语态 为主动语态, 在句子中的成分是谓语。 但是由于自然语言的复杂多样 性, 语言符号可能携带不止一个同类语义信息, 例如上述单词 " saw" 的概念除了可以定义为 "看见" , 还可以定义为 "理解与认识" , 又如 短语 "with a telescope" 的句法成分既可以是谓词修饰语, 也可以是宾 词修饰语。
本发明人认为自然语言翻译的根本任务就是将原文语言符号所携 带的实际语义信息准确地传递给不同语言的用户。 为此, 本发明采取的 手段是在原文用户方以人机交互的方式对原文的所有语义信息项进行 求解, 根据求解的结果生成译文, 并将该求解结果转换为译文符号, 随 译文提供给译文用户以便查询,从而实现原文用户和译文用户共同参与 的全程翻译, 提高语义信息的传递质量。
为了对原文的语义信息进行求解,本发明建立了一个如图 1所示的 以句子为对象的自然语言全息对话模板, 所谓 "全息"是指在这个模板 中包括各种自然语言文字符号系统所有必要的语义信息要素,包括属于 词汇信息要素的概念定义项、 时态信息项及语态信息项, 和属于句法信 息要素的句法成分项。对话模板用来向原文用户提供与原文各语言符号 相应的备选语义信息项以供人机交互选择。 这些对话信息项的内容, 如 后面将要说明的, 必须受到系统的限制。 该对话模板中还包括一些非用 户必选信息项, 如语义属性、 语法属性、 上位语义 (格) 等, 这些信息 项可以不由用户进行选择, 只由计算机进行概率性自动求解, 以便为自 动转换生成译文提供相关信息。
为了在不同语言之间准确传递语义信息, 最好采用直译手段, 这是 因为机器翻译系统不可能随机调整目标语句子的词汇和句型。但由于各 种自然语言的概念体系和句法体系之间存在差异,要想保证直译的译文 质量,必须保证词汇信息项和句法信息项能在源语与目标语间作等价交 换。因此本发明对不同自然语言间的差异通过建立系统的通约限制原则 进行统一整合处理。这种通约限制原则包括句法信息通约和词汇信息通 约。
本发明设计的句法信息通约原则包括: 统一合并功能同一、 对象不 同一的句法信息;尽量删除在语义聚合关系分析中并非不可缺少的句法 概念, 如英语语法中的直接宾语与间接宾语。 本发明在对话模板上只提 供经简化通约后的句法信息概念,作为不同自然语言的标准句法信息项 供用户选择。
本发明设计的词汇信息通约原则如图 3中所示, 是通过对大语种词 汇使用频率的统计分析和同义归并而确定一个基础概念集。但实际操作 时, 不是每一种自然语言的基础概念都是完整对应的, 当出现对应空缺 时, 则要采用该语言的其他常用词汇对这一概念进行解释性描述, 使各 种语言的基础概念强制性对齐。 如英文词汇 orphan的动词义项被定为 基础概念, 而中文中没有对应词, 则用 "使成为孤儿"进行解释性描述。 另外, 以各种自然语言的基础概念的近义词作为近义附码。 由于一种自 然语言中某个词汇的全部近义概念也不可能在其它自然语言中全部找 到对应概念, 因此在当某种自然语言的近义概念出现对应空缺时则由基 础概念词进行近义替换 (人工翻译中近义替换也是不可避免的)。 经过上 述两项通约处理后仍不能处理的则作为冗余信息在全息对话模板中提 供空白信息项。 本发明在确定不同自然语言词汇的概念定义时, 采用以 内涵为中心的模糊通约 (如中文的 "学校"与英文的" school" :);不考虑 词性差异的概念统一通约 (如不考虑英文词汇 become的所有时态变形) 和对多种语言中都使用的概念作优先考虑的概率通约处理。为了丰富语 言的表达力, 任何语言都需要有同一概念的近义词, 因此以词汇的使用 概率作为词汇概念冗余标准, 优先选择多种语言中都使用的词汇, 其次 是在一种自然语言使用概率高的词汇。对于不满足上述两种情况的词汇 则作为冗余概念处理, 相应地在全息对话模板中提供空白信息项。 经过 通约限制处理后的概念定义才作为全息模板中的词汇备选项提供给不 同自然语言用户进行选择, 以保证不同自然语言词汇概念信息间能够等 价互换。本发明还为不同自然语言中相对应的词汇概念设定了统一的编 码, 以便于在网络上进行信息传递。
另一方面, 为了能对系统未收入的自然语言符号进行处理, 使得人 机交互的方式更加灵活,在通约限制的基本原则下将本发明的对话模板 设计成开放式的, 即当某个原文自然语言符号未被收入在机器翻译系统 中时, 原文用户可以调用系统己收入的、 已限定信息项的自然语言符号 对其进行语义描述。
本发明的对多种自然语言概念系统进行强制性通约受限的方法, 与 传统的中间语言方法间有着本质区别. ·传统的中间语言技术面对的是完 全不受限的自然语言系统,通过建立多种自然语言间的中间概念体系来 实现多语互译,但各种自然语言概念体系的开放性使中间语言体系不可 能具有周延性; 强制性的通约受限方法是通过人机对话方式对词汇及义 项作必要的限制和通约,对各种自然语言概念体系之间的差异和开放性 进行合理限制, 以保证多种自然语言的词汇概念及句法概念能成功地进 行等价互换。
现在再参见图 2, 继续说明原文用户方对原文的语义信息进行求解 的方法。该图中示出了人机对话模板向原文用户提供的与原文各语言符 号相应的经通约限制的备选语义信息项。对原文的语义信息进行求解的 过程也就是对人机对话模板中的这些备选信息项的选择、确认和补充的 过程。
在对词汇信息项的选择中要充分利用人机优势互补,计算机自动优 选所遵循的基本原则是: 通过大规模的对真实文本的统计分析, 排列出 多义词的词汇信息项使用频率顺序, 以縮小用户选项的搜寻范围; 通过 大规模的对真实文本的统计分析,根据句法信息项与词汇信息项间的相 关性特性来优选词汇信息项, 以进一步缩小信息项选择范围, 例如凡可 做主语的词汇都优选其名词义项, 象图 2中的 " 和 "telescope"等; 通过大规模的对真实文本的统计分析, 获得词汇搭配的概率信息, 进一 步优选词汇信息项, 如汉语 "好漂亮的一朵花" , 其中的 "好"是多义 词, 而在形容词 "漂亮 "前的 "好"字的最可能的义项解是程度副词 "非 常"; 对于显性表达词性信息的文字符号, 通过词性即可推导出所选词 汇信息项来缩小信息项选择范围, 如英语中 " spring" 的词根虽然是多 义的, 但其动词的过去式 " spmng"则已明确限制了义项选择范围。
通过以上技术手段的自动选项处理, 已能够将用户实际所需的大多 数词汇信息项排在首位, 由于表达语义所需要的词汇信息项已存在于用 户心中, 因此对用户而言, 大多数的词汇信息项选择只是一个对模板中 各首选信息项的确认过程。
各种自然语言中, 无论是隐性表达还是显性表达的句法信息, 大体 上包括词性信息、 句法成分信息和上位语义 (格) 信息, 其中句法成分 信息是唯一具有完整组织能力的, 并具有普遍共性的句法组织系统, 因 此, 只要确定句法成分信息项, 实际上已经确定了一个自然语言符号串 的语义聚合关系。 在句法信息项的选择中也要充分利用人机优势互补, 其所遵循的基本原则是: 通过大规模的对真实文本的统计分析获得词 序、 词性、 上位语义 (格) 信息与句法信息之间的匹配关系, 以自动优 选句法信息项。 如一个词汇的词序为 1, 词性为名词, 上位语义为行为 主体, 则可判定为主语; 用户通过选项操作最终确定句法成分信息项。
通过以人机对话方式在模板上选定词汇信息项和句法信息项, 求解 原文的实际语义信息。 由用户直接在全息对话模板上选择各自然语言符 号串实际携带的词汇信息项和句法信息项, 是最简单的人机对话方式, 其具体方法可以是对所确定的项进行黑体标注处理, 如图 1中所示。
通过在全息对话模板中对句子中词汇信息项和句法信息项的人机 互补选择、 确认, 已能够完成自然语言的信息求解任务, 因此不再需要 依赖上下文语境对句子进行语义分析,
对于用户来说, 分析和确定抽象的句法关系远比判断多义词信息项 困难, 因此, 为了降低句法成分信息项的选择难度, 实际操作时可象图 5中所示的那样将呈线性排列的句法成分信息项转换成空间定位表达方 式, 协助进行句法成分信息项人机对话的选择。 以句法信息的修饰区、 核心区及补充区为横座标, 以句法信息的主语区、 谓语区及宾语区为纵 座标, 作出句法信息对话框架, 由用户在框架中对 " with a telescope" 的修饰对象进行选择。
在实际的人机对话过程中也可以采用模板部分显示方法和模板虚 拟方法,如图 4a所示的句法信息全显 (图中? 号表示由用户再选择:)和图 4b所示的 " I see a boy with a telescope near the bank"的虚拟对话模板后 的对话显示方法。 本领域的技术人员应该理解, 人机对话过程中的对话 信息显示方法可以有很多种, 而不限于本说明书中的示例。
本发明的方法通过对语法概念和普通概念的系统通约受限, 以及在 受限信息项范围内进行人机互补信息全选, 已经具有了向多种自然语言 表达形式作自动转换的必要信息, 但总有被用户省略的句法成分, 从逻 辑上说只要确定了已有文字符号的所有信息项,大多数省略部分可由用 户在阅读信息时根据上下文语境自动添加 (如主词、 宾词省略), 但为了 准确传递语义, 对不可省略的句子成分还要通过全息对话模板进行添 力口, 以保证机器翻译质量 (如在一个句子的备选信息项中已经选了主词 和宾词, 则不可省略相关动词)。
为了解决生成目标语译文后发现新增歧义的问题, 将经过全息对活 的中间翻译结果随译文提供给目标语用户作直接查询,可实现目标语新 增歧义的全面消解。 如果用户有意保留语言表达的模糊性或双关性, 则 可在选择信息项时作多项同时选择。
参见图 6, 图中流程说明了本发明的开放式全息模板式人机对话语 言翻译方法中的人机交互信息处理基本过程,其中中间列框 1 1至 17是 翻译系统计算机的主流程, 左边列框 21至 26示出用户的参与过程, 右 边列框 31至 35示出人机交互过程中与内部数据库、 规则库间的关系, 单向箭头表示人机交互流向,双向箭头表示在语言翻译过程中对数据及 规则的调用过程, 所标的 N表示系统信息处理需要人机交互, 所标的 Y 表示自动进入系统流程的下一个操作步骤, # # # #表示此翻 译系统与因特网系统的信息处理接口。 其上方表示原文用户端, 其下方 表示译文用户端。
处理过程开始, 执行步骤 1 1, 由原文用户顺序输入待翻译的自然语 言符号。
结合参见图 2,在模板的序位 1至 10中依次填入本例中的十个自然 语言符号 "I saw a boy with a telescope near the bank" ; 系统主程序的步骤 12在可扩展的多语对应的词汇信息项符号库 31中, 对各自然语言符号进行词汇备用信息项搜索, 当搜索不到时可通过步骤 21由原文用户在模板上用系统已收入的语义符号对自然语言符号的语 义进行描述, 上述过程最终生成模板中的由概念定义项、 语义属性项、 时态项、 语态项等构成的词汇备用信息项, 如果在某自然语言符号下出 现概念定义信息项空白, 如在符号 "bank"处出现 "? " , 则原文用户 可采用系统中已提供有信息项的词汇符号对其进行语义描述, 即模板中 概念定义项 "institution for keeping or lending money ^ ; 系统主程序的 步骤 13, 根据词汇信息项概率性优选规则库 32中的规则, 由计算机对 列入模板中的各自然语言符号的多个词汇备用信息项进行自动优选,如 模板中用黑体字指定的信息项, 并可通过步骤 22由原文用户对未获得 确定优选的语义信息项进行选择确认; 系统主程序的步骤 14, 通过调 用句法成分信息项自动标注规则库 33, 对列入模板中的各自然语言符 号的句法信息项进行自动标注, 上述过程最终生成模板中的句法成分 项、 词性项、 上位 "格 "项; 系统主程序的步骤 15, 调用句法成分信息 项自动优选规则库 34, 对各自然语言符号的句法成分信息项进行自动 优选, 其间可通过步骤 24调用句法信息项三维结构模型库 23, 由原文 用户在模板上对未获得唯一优选结果的句法信息项进行选择确认,如模 板中用黑体字指定的信息项;系统主程序至此就可以以自定的编码形式 在网络上传递所确定的上述信息项。
对话模板中包括了自然语言符号所能携带的所有信息项, 其全部备 用信息项不仅包括自然语言符号的概念定义、 时态信息、 语态信息、 句 法信息、 上位 "格"信息、 词性信息、 单复数信息、 阴阳性信息、 而且 可在开放式的模板下部扩展人工设计和标注的其它信息。 当原文用户在图 6的步骤 21中利用语义描述方法求解原文符号 时, 系统程序还要自动进行其使用频率的统计, 在使用频率达到一定水 平时, 即在翻译系统收入的所有语种的自然语言符号库中同步增添新增 的自然语言符号或新增信息项。 如人工描述求解 bank的使用频率达到 一定水平时, 系统即在法语的自然语言符号库中添加新增的符号
" banque "和利用系统已收入的相应法语符号进行语义描述, 并给出其 它相关备选信息项。 其它语言的扩展方法与其相同。
结合参见图 7, 译文用户端系统主程序的步骤 16, 调用译文自动转 换生成规则库 35, 根据多语符号与序位转换规则, 将经原文用户确认 的信息项求解结果自动转换成译文用户要求的自然语言译文,如图 7中 所示的中文转换生成结果 "在银行附近我看见一男孩带望远镜"; 系统 主程序在步骤 17将会询问用户译文是否已经无歧义, 如果有歧义, 译 文用户可在步骤 26通过人机交互过程确定相关信息项的查询范围, 其 间可调用多语对应信息项符号库 25, 如译文用户为了求解 "带望远镜" 到底是修饰主语还是修饰宾语, 如图 7中? 所示, 就可直接査询该符号 实际携带的句法信息项, 从而确定是修饰宾语。 至此翻译过程结束。
语义信息传递质量是全球化网络信息时代机器翻译技术赢得巨大 国际市场的根本障碍, 要想取得实质性突破, 人机对话是不可避免的, 本发明人机对话优势互补的翻译方案可切实提高翻译质量,具有实用价 值。 由于本方法具有语义信息传递准确、 不受语言环境限制、 用户操作 使用方便、 可同步转换生成多种目标语、 对话方案多语通用及技术手段 简单可靠等优点, 因而在网络信息交流领域将会具有普遍应用价值, 在 网络的在线机译服务方面也会有广阔的市场。 根据上述方法的构思本发明还提供了一种全息语义标注系统,该系 统包括: 必要语义信息库, 其内存有基本词汇及其概念定义以及句法信息 项;
文本输入装置, 用于输入待对其进行语义标注的文本;
文本存储装置, 用于存储通过文本输入装置输入的文本;
文本显示装置, 用于显示存储在文本存储装置中的某一文本; 句子选择装置, 用于选择文本显示装置所显示的文本中的某一句 子;
句子结构自动分析装置, 用于根据统计经验自动分析所选句子的结 构;
语义标注模板显示装置, 用于显示一语义标注模板, 该语义标注模 板在通过句子选择装置选择了一个句子时对应于所选择的句子被显 示,其内包括有对应于该句子中各词汇的词汇信息要素项和句法信息要 素项,词汇信息要素项中显示有对应词汇的在必要语义信息库中所包含 的概念定义和所有同义词,而各句法信息要素项则根据所述句子结构自 动分析装置分析的结果, 显示对应词汇的所有可能的句法信息项, 该各 句法信息项存储于所述必要语义信息库中;
语义标注装置, 用于供人对语义标注模板中的各词汇信息要素项中 的概念定义及同义词和各句法信息要素项中的句法信息项进行选择; 标注文本存储装置, 用于存储带有标注信息的文本;
标注指令装置, 用于指令对文本显示装置显示的文本中的某一句子 显示其标注;
标注显示装置, 用于以所述标注模板的形式显示存储在标注文本存 储装置中的对应于被指令句子的标注信息。 本发明的该全息语义标注系统的一种应用为同文种全息语义标注系 统, 以法律业为例: 法律分门别类很多, 需要建立相应的知识库。 开发专 家系统具有广泛的应用价值。 其中一个带普遍性的应用需求是普通用户对 法律条文的语义理解和识别。 国内外已有的各种专家系统, 都是"问答式" 人-机介面: 系统依次提出许许多多问题, 用户逐一作出 "Yes "或 "No " 的选择, 或者输入简单的数据, 然后由系统搜索知识库, 根据问题与知识 的匹配情况推断出某个结论, 然后告诉用户。
这种 "问答式"人-机介面呆板、 繁琐, 并且系统所提问题事先设定, 不灵活。 这样的系统显得智商太低。
如果在输入法律解释条文、 合同、 协议、 诉状时, 采用同文种语义标 注技术, 一次输入所使用语言符号的全息数据, 将大大方便用户査询及分 类整理。
同文种语义标注技术不仅适用于建立各类专家级知识系统开发, 而且 对于提高法律解释、 合同内容、 技术说明文件的语义表述精确性均具有普 遍实用价值。
同文种语义标注技术的实现方法:
仅应用全息翻译模板的原文加工技术并提供专业词库, 即可实现同文 种语义标注。
本发明的该全息语义标注系统的一种应用为外语全息语言教学系 统。
计算机辅助教学目前已经应用的十分广泛。 在外语教学领域领域 的应用主要釆用的是多媒体教学法 (听、 说、 读、 写并行) 和应试题库 教学。而语言全息模板为外语教学提供了一种系统反映不同语言概念共 性和符号化个性的计算机辅助教学手段。
当用户输入母语句子时:
如果用户选定母语词汇的概念定义, 通过系统提供的多语统一编 码, 全息模板即可调出多种语言的所有对应词汇。
如果用户选定母语句子的时态、 语态、 句法成分信息项, 全息教学 系统则可利用全息翻译系统的界面技术及内部转换规则,分步提供任意 语种的符号变形和排序变换过程。
如果用户直接输入外语句子, 通过系统提供的多语统一编码, 全息 模板则既可提供外语的全息语义标注,也可将全息语义标注直接转换为 母语。

Claims (1)

  1. 权利要求书
    1.一种开放式全息模板式人机对话语言翻译方法,其特征在于包括下 述步骤:
    a.对各种自然语言进行通约限制;
    b.建立一个以句子为对象的包括各种自然语言的必要语义信息要素 的人机对话模板;
    c.由人机对话模板提供与原文语言符号对应的经通约限制的所有备 选语义信息项及供用户扩展的空白信息项;
    d.先由翻译系统的计算机对经通约限制的所有备选语义信息顶进行 自动优选,再由原文用户在人机对话模板上对优选结果进行人工调整和 确认;
    e.由翻译系统根据人机互补确定的语义信息项生成译文,并将所述人 机互补确定的语义信息项转换成译文符号,连同译文提供给译文用户査 询。
    2.根据权利要求 1所述的开放式全息模板式人机对话语言翻译方 法, 其特征在于: 所述步骤 b中的必要语义信息要素包括概念定义、 时 态信息、 语态信息和句法成分信息项。
    3.根据权利要求 1或 2所述的开放式全息模板式人机对话语言翻译方 法, 其特征在于所述步骤 a中的对各种自然语言的通约限制包括: al . 统一合并功能同一、对象不同一的句法概念; a2.尽量删除可缺少的句法 概念; a3.通过对主要语种词汇使用频率的统计分析和同义归并,建立多 语通用基础概念集; a4.以各种自然语言的基础概念的近义词作为近义附 码, 当不同自然语言出现近义词对应空缺时, 由基础概念词进行近义替 换; a5.对于不能用基础概念进行统一表达的自然语言词汇或概念, 由对 话模板提供空白信息项。
    4.根据权利要求 1所述的开放式全息模板式人机对话语言翻译方 法, 其特征在于: 所述的步骤 c中, 当与原文语言符号项对应的同语种 某备选信息项中出现有空白时,用户可调用已被系统收入的自然语言符 号对其进行描述。
    5.根据权利要求 4所述的开放式全息模板式人机对话语言翻译方 法, 其特征在于该方法还包括: 对由用户扩展的信息项进行使用频率统 计, 并根据使用频率统计结果确定新增通用基础概念, 在翻译系统的所 有语种的人机对话模板中同步增添自然语言符号项及对应的信息项。
    6. 根据权利要求 1所述的开放式全息模板式人机对话语言翻译方 法, 其特征在于: 所述步骤 d的对自动优选结果进行人工调整和确认的 方法是由用户在全息对话模板上对不确定信息项进行人工选择。
    7.根据权利要求 1所述的开放式全息模板式人机对话语言翻译方 法, 其特征在于: 所述步骤 b的以句子为对象的人机对话模板是包括有 三维空间定位句法的对话框架。
    8.根据权利要求 1所述的开放式全息模板式人机对话语言翻译方 法, 其特征在于: 所述步骤 b的以句子为对象的人机对话模板是虚拟 的。
    9.根据权利要求 3所述的开放式全息模板式人机对话语言翻译方 法, 其特征在于: 对各种自然语言的通约限制方法还包括有 a6.以内涵 为中心的模糊通约和 a7.不考虑词性差异的概念统一通约。
    10.根据权利要求 1所述的开放式全息模板式人机对话语言翻译方 法, 其特征在于: 所述步骤 d中, 用户可单项或多项地在全息对话模板 上对优选结果进行人工调整和确认选择。
    11. 一种全息语义标注系统, 包括:
    必要语义信息库, 其内存有基本词汇及其概念定义以及句法信息 项;
    文本输入装置, 用于输入待对其进行语义标注的文本;
    文本存储装置, 用于存储通过文本输入装置输入的文本;
    文本显示装置, 用于显示存储在文本存储装置中的某一文本; 句子选择装置, 用于选择文本显示装置所显示的文本中的某一句 子;
    句子结构自动分析装置, 用于根据统计经验自动分析所选句子的结 构;
    语义标注模板显示装置, 用于显示一语义标注模板, 该语义标注模 板在通过句子选择装置选择了一个句子时对应于所选择的句子被显 示,其内包括有对应于该句子中各词汇的词汇信息要素项和句法信息要 素项,词汇信息要素项中显示有对应词汇的在必要语义信息库中所包含 的概念定义和所有同义词,而各句法信息要素项则根据所述句子结构自 动分析装置分析的结果, 显示对应词汇的所有可能的句法信息项, 该各 句法信息项存储于所述必要语义信息库中;
    语义标注装置, 用于供人对语义标注模板中的各词汇信息要素项中 的概念定义及同义词和各句法信息要素项中的句法信息项进行选择; 标注文本存储装置, 用于存储带有标注信息的文本;
    标注指令装置, 用于指令对文本显示装置显示的文本中的某一句子 显示其标注;
    标注显示装置, 用于以所述标注模板的形式显示存储在标注文本存 储装置中的对应于被指令句子的标注信息。
    12. 根据权利要求 11所述的全息语义标注系统, 其特征在于所述 必要语义信息库中相对应地存有多种语种的通约受限的词汇及其概念 定义并且相对应地存有多种语种的通约受限的句法信息项。
    13. 根据权利要求 11所述的全息语义标注系统, 其特征在于在所 述的某词汇的词汇信息要素项中还显示必要语义信息库中与该词汇对 应存储的指定语种的词汇且该词汇的句法信息要素项中还显示必要语 义信息库中与该词汇的句法信息项相对应地存储的该指定语种的句法 信息项。
    14. 根据权利要求 11所述的全息语义标注系统, 其特征在于在所 述的词汇信息要素项中的内容除所述可供选择的内容外,还可被改为其 他用于说明该词汇意义的信息。
CN99804904A 1998-04-06 1999-04-06 开放式全息模板式人机对话语言翻译方法及全息语义标注系统 Expired - Fee Related CN1111814C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN 98101156 CN1231453A (zh) 1998-04-06 1998-04-06 全息全选全程模板式人机对话语言翻译方法
CN98101156.X 1998-04-06
CN98125015.7 1998-11-20
CN 98125015 CN1254895A (zh) 1998-11-20 1998-11-20 开放式全息全选全程模板式人机互补语言翻译方法

Publications (2)

Publication Number Publication Date
CN1296588A true CN1296588A (zh) 2001-05-23
CN1111814C CN1111814C (zh) 2003-06-18

Family

ID=25744605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN99804904A Expired - Fee Related CN1111814C (zh) 1998-04-06 1999-04-06 开放式全息模板式人机对话语言翻译方法及全息语义标注系统

Country Status (3)

Country Link
CN (1) CN1111814C (zh)
AU (1) AU3324999A (zh)
WO (1) WO1999052041A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100346337C (zh) * 2002-12-27 2007-10-31 联想(北京)有限公司 用于生成业务系统信息的开放式自然语言动态生成系统
CN100367275C (zh) * 2003-04-18 2008-02-06 国际商业机器公司 用于在数据表中创建递归可缩放模板实例的装置和方法
CN109219812A (zh) * 2016-06-03 2019-01-15 马鲁巴公司 口语对话系统中的自然语言生成

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598443B (zh) * 2013-10-31 2018-05-18 腾讯科技(深圳)有限公司 语言服务提供方法、装置及系统
CN110852113B (zh) * 2019-10-10 2023-05-26 林原 翻译方法、装置、设备及存储介质
CN111738024B (zh) * 2020-07-29 2023-10-27 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2047494T3 (es) * 1986-10-03 1994-03-01 British Telecomm Sistema de traduccion de lenguas.
JP2814634B2 (ja) * 1989-12-29 1998-10-27 松下電器産業株式会社 機械翻訳装置
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
JP2821840B2 (ja) * 1993-04-28 1998-11-05 日本アイ・ビー・エム株式会社 機械翻訳装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100346337C (zh) * 2002-12-27 2007-10-31 联想(北京)有限公司 用于生成业务系统信息的开放式自然语言动态生成系统
CN100367275C (zh) * 2003-04-18 2008-02-06 国际商业机器公司 用于在数据表中创建递归可缩放模板实例的装置和方法
CN109219812A (zh) * 2016-06-03 2019-01-15 马鲁巴公司 口语对话系统中的自然语言生成
CN109219812B (zh) * 2016-06-03 2023-12-12 微软技术许可有限责任公司 口语对话系统中的自然语言生成

Also Published As

Publication number Publication date
CN1111814C (zh) 2003-06-18
WO1999052041A1 (fr) 1999-10-14
AU3324999A (en) 1999-10-25

Similar Documents

Publication Publication Date Title
Brill et al. An overview of empirical natural language processing
RU2509350C2 (ru) Способ семантической обработки естественного языка с использованием графического языка-посредника
US20020169592A1 (en) Open environment for real-time multilingual communication
JPH03278174A (ja) 異言語交信用翻訳方法およびシステム
Yan et al. Response selection from unstructured documents for human-computer conversation systems
Kang Spoken language to sign language translation system based on HamNoSys
Yang et al. Guwen-UNILM: machine translation between ancient and modern Chinese based on pre-trained models
Boguslavsky et al. Creating a Universal Networking Language module within an advanced NLP system
CN114757184A (zh) 实现航空领域知识问答的方法和系统
Dong [Retracted] RNN Neural Network Model for Chinese‐Korean Translation Learning
CN1296588A (zh) 开放式全息模板式人机对话语言翻译方法及全息语义标注系统
Qian et al. Ontological approach for Chinese language interface design
CN114091464B (zh) 一种融合五维特征的高普适性多对多关系三元组抽取方法
Boitet A research perspective on how to democratize machine translation and translation aids aiming at high quality final output
Zhang Russian speech conversion algorithm based on a parallel corpus and machine translation
Hanane et al. A model of a generic Arabic language interface for multimodel database
Khandait et al. Automatic question generation through word vector synchronization using lamma
Hunt Natural language processing
Narita A corpus-based English language assistant to Japanese software engineers
Zhai Application of Artificial Intelligence Technology in Tourism English Translation
Yang Design and Implementation of Automatic Examination Scoring System Based on Natural Language Processing
Boitet A roadmap for MT: four «keys» to handle more languages, for all kinds of tasks, while making it possible to improve quality (on demand)
Morgan et al. Translation by Meaning and Style in LOLITA
Bateman et al. The use of syntactic annotaion tools: partial and full parsing
Singh BERT Algorithm used in Google Search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee