CN102713897A - 机器翻译方法和系统 - Google Patents
机器翻译方法和系统 Download PDFInfo
- Publication number
- CN102713897A CN102713897A CN2010800598316A CN201080059831A CN102713897A CN 102713897 A CN102713897 A CN 102713897A CN 2010800598316 A CN2010800598316 A CN 2010800598316A CN 201080059831 A CN201080059831 A CN 201080059831A CN 102713897 A CN102713897 A CN 102713897A
- Authority
- CN
- China
- Prior art keywords
- paragraph
- mark
- fixed
- fixation
- formalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明揭示一种机器翻译方法和系统:以交互或自动方式对源语言进行形式化处理,然后以自动方式把形式化源语言转换成形式化或非形式化目标语言。使用者把非形式化的母语完全正确而且没有任何词汇歧义地翻译成自己完全不懂的非形式化的外语,所以,本发明完全消除了人和人之间的语言障碍;使用者和计算机用使用者的非形式化的母语完全正确而且没有任何词汇歧义地交流信息,所以,本发明完全消除了人和计算机之间的语言障碍。本发明除了可以用于网络终端设备,还可以用于互联网知识库和知识推理搜索引擎、专家系统、自动程序设计。源语言形式化处理模块和目标语言转换模块相互独立,所以本发明具有易扩充性。对源语言进行形式化处理是把源语言翻译成各种目标语言的共同基础,所以本发明适合“一对多”机器翻译。
Description
机器翻译方法和系统 发明领域
本发明涉及机器翻译方法和系统, 尤其涉及基于形式化处理的机器翻译方 法和系统。 背景技术
将文本从一种语言翻译成另一种语言一般是一项需要有经验的翻译的乏 味工作。 在出现计算机不久以后, 研究人员就开始利用计算机来帮助进行自然 语言的翻译。 最早的机器翻译 (MT ) 系统取决于大的双语词典, 其中记录了 对应于一个或多个目标语言 (TL) 同义词的源语言 (SL) 词汇。 很快, 显然由 于词典的句法和语法规则是如此复杂, 以至于专家不能开发出一个可描述的综 合规则集, 从而放弃了机器翻译。
机器翻译系统一般分为直接翻译、 基于转换的翻译或基于中间语言的翻 译。 在直接翻译方法中, 源语言和目标语言之间没有中间表现形式。 源语言文 本被 "直接" 处理以将其转换为目标文本。 这种处理基本上是一种字对字的翻 译, 同时进行一些调整。 但是由于忽略句子内部结构的所有方面而导致的明显 缺陷使得目前的任何机器翻译系统都不采用这种方法。
在基于转换的翻译方法中, 来自对源文本的不同分析界别的信息被转换成 生成的目标文本级别。 例如, 通过设置在词法级、 语法级或由语法构建而成的 结构级等的对应关系来实现转换。 但是转换方法只适用于特定的语言对, 因此 必须费心地生成每个语言对。
基于中间语言的翻译方法的基础是假设能够定义一种合适的中间表达形 式,使源文本能够映射到该中间表达形式,而中间表达形式再映射到目标文本。 但在是否能够产生一种真正的语言独立中间表达形式是不清楚的。 当前的基于 中间语言的系统对其所宣称的中间表达形式的普遍性少有信心。
机器翻译专家董振东先生在 《机器翻译漫谈》 一文中说: "近 20年左右, 机器翻译研究的方法真可谓花样翻新, 令人目不暇接。 有基于规则的, 基于知 识的, 基于语料库的, 基于统计和语料库的, 基于例子的, 基于对话的等等。 从另一种角度, 还有直接法、 转换法、 中间语言法等等。 但其中哪一种也未能
在翻译质量上取得实质性的突破。 "
自然语言是非形式化 (即, 一个形式表示两个或更多意义) 的符号系统。 对非形式化的源语言进行形式化 (即, 一个形式表示一个意义) 处理是高质量 的机器翻译的基础。
现有的机器翻译方法未能在翻译质量上取得实质性突破的根本原因是未 能对非形式化的源语言进行形式化处理。 发明概述
本发明的目的在于解决上述问题, 提出了一种机器翻译方法, 使得翻译质 量取得了实质性突破。
本发明的另一目的是提出了一种机器翻译系统。
本发明的技术方案为: 本发明揭示了一种把非形式化的源语言翻译成形式 化的目标语言的机器翻译方法, 该方法包括:
步骤一: 对非形式化的源语言进行形式化处理 对于非形式化的源语言 的初始语段, 首先, 逐个切分固定语段并标注固定语段的意义标记, 直到最后 一个固定语段,然后,逐层组合非固定语段并标注非固定语段的核心成分标记、 关系标记, 直到整个初始语段构成的一个非固定语段;
步骤二: 以自动方式把形式化的源语言转换成形式化的目标语言 以自 动方式运用固定语段转换规则把源语言的固定语段转换成目标语言的语段。
根据本发明的机器翻译方法的一实施例, 在步骤一中, 使用替代标记进行 预处理 预先使用替代标记把一个初始语段分解成若干个子语段, 接着对这 些子语段分别进行形式化处理。
根据本发明的机器翻译方法的一实施例, 步骤一是以交互方式对非形式化 的源语言进行形式化处理 对于非形式化的源语言的初始语段, 首先, 以交 互方式逐个切分固定语段并标注固定语段的意义标记, 直到最后一个固定语 段,然后, 以交互方式逐层组合非固定语段并标注非固定语段的核心成分标记、 关系标记, 直到整个初始语段构成的一个非固定语段。
根据本发明的机器翻译方法的一实施例, 以交互方式切分并标注固定语段 的过程进一步包括: 存储器里的固定语段模式包含固定语段及其意义标记, 其
中形式相同意义不同的固定语段带有意义标记; 处理器依次判断,在存储器里, 是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2个文字单元开 头的固定语段, 是否存在最前的 3个文字单元开头的固定语段, 依此类推; 如 果在存储器里存在最前的 n, 个文字单元开头的固定语段而不存在最前的 n+1个 文字单元开头的固定语段, 处理器就把最前的 n个文字单元切分为固定语段, 其中 n是自然数, 运用一个固定语段模式标注这个固定语段的意义标记,然后, 使用者确认或修改, 依此类推, 直到最后一个固定语段; 如果处理器査出在存 储器里不存在剩余语段的最前的 1个文字单元开头的固定语段,使用者就切分 剩余语段的最前的 1个文字单元开头的固定语段并标注这个固定语段的意义标 记, 然后, 处理器切分和标注下一个固定语段。
根据本发明的机器翻译方法的一实施例, 步骤一是以自动方式对非形式化 的源语言进行形式化处理 对于非形式化的源语言的初始语段, 首先, 以自 动方式逐个切分固定语段并标注固定语段的意义标记, 直到最后一个固定语 段,然后, 以自动方式逐层组合非固定语段并标注非固定语段的核心成分标记、 关系标记, 直到整个初始语段构成的一个非固定语段。
根据本发明的机器翻译方法的一实施例, 以自动方式切分并标注固定语段 的过程进一步包括: 存储器里的固定语段模式包含固定语段及其意义标记、 语 法属性标记、语义属性标记,其中形式相同意义不同的固定语段带有意义标记; 处理器依次判断, 在存储器里, 是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2个文字单元开头的固定语段, 是否存在最前的 3个文字单元开 头的固定语段, 依此类推; 如果, 在存储器里, 存在最前的 n个文字单元开头 的固定语段而不存在最前的 n+1个文字单元开头的固定语段, 处理器就把最前 的 n个文字单元切分为固定语段, 其中 n是自然数, 査出存储器里的各个可以运 用的固定语段模式, 按累计运用次数从多到少的选择顺序选择其中的一个固定 语段模式, 运用这个固定语段模式标注这个固定语段的意义标记、 语法属性标 记、 语义属性标记,依此类推, 直到最后一个固定语段; 如果处理器査出在存 储器里不存在剩余语段的最前的 1个文字单元开头的固定语段, 处理器就进行 回溯。
根据本发明的机器翻译方法的一实施例, 以自动方式组合并标注非固定语
段的过程进一步包括: 存储器里的非固定语段模式包含成分语段的语法属性标 记、 语义属性标记和组合语段的组合标记、 核心成分标记、 关系标记、 语法属 性标记、 语义属性标记; 处理器査出存储器里的各个可以运用的非固定语段模 式, 按累计运用次数从多到少的选择顺序选择其中的一个非固定语段模式, 运 用这个非固定语段模式组合一个非固定语段并标注这个非固定语段的核心成 分标记、 关系标记、 语法属性标记、 语义属性标记, 然后, 处理器组合和标注 下一个非固定语段,依此类推, 直到整个初始语段构成的一个非固定语段; 如 果处理器査出在存储器里不存在可以运用的非固定语段模式, 处理器就进行回 溯。
根据本发明的机器翻译方法的一实施例, 在步骤二中, 处理器査找固定语 段转换规则列表得到匹配的固定语段转换规则, 运用匹配的固定语段转换规则 把源语言的固定语段转换成目标语言的固定语段或非固定语段, 目标语言的固 定语段带有意义标记; 在使用者点击目标语言的固定语段的意义标记以后显示 器显示固定语段的意义特征, 在使用者点击关系标记以后显示器显示关系标记 所代表的关系。
本发明还揭示了一种把非形式化的源语言翻译成非形式化的目标语言的 机器翻译方法, 该方法包括:
步骤一: 对非形式化的源语言进行形式化处理 对于非形式化的源语言 的初始语段, 首先, 逐个切分固定语段并标注固定语段的意义标记, 直到最后 一个固定语段,然后,逐层组合非固定语段并标注非固定语段的核心成分标记、 关系标记, 直到整个初始语段构成的一个非固定语段;
步骤二: 以自动方式把形式化的源语言转换成非形式化的目标语言 首 先, 以自动方式运用固定语段转换规则把源语言的固定语段转换成目标语言的 语段, 然后, 以自动方式运用非固定语段转换规则逐层把源语言的非固定语段 转换成目标语言的语段。
根据本发明的机器翻译方法的一实施例, 在步骤一中, 使用替代标记进行 预处理 预先使用替代标记把一个初始语段分解成若干个子语段, 接着对这 些子语段分别进行形式化处理。
根据本发明的机器翻译方法的一实施例, 步骤一是以交互方式对非形式化
的源语言进行形式化处理进一步包括: 对于非形式化的源语言的初始语段, 首 先, 以交互方式逐个切分固定语段并标注固定语段的意义标记, 直到最后一个 固定语段, 然后, 以交互方式逐层组合非固定语段并标注非固定语段的核心成 分标记、 关系标记, 直到整个初始语段构成的一个非固定语段。
根据本发明的机器翻译方法的一实施例, 以交互方式切分并标注固定语段 的过程进一步包括: 存储器里的固定语段模式包含固定语段及其意义标记, 其 中形式相同意义不同的固定语段带有意义标记; 处理器依次判断,在存储器里, 是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2个文字单元开 头的固定语段, 是否存在最前的 3个文字单元开头的固定语段, 依此类推; 如 果在存储器里存在最前的 n个文字单元开头的固定语段而不存在最前的 n+1个 文字单元开头的固定语段, 处理器就把最前的 n个文字单元切分为固定语段, 其中 n是自然数, 运用一个固定语段模式标注这个固定语段的意义标记,然后, 使用者确认或修改, 依此类推, 直到最后一个固定语段; 如果处理器査出在存 储器里不存在剩余语段的最前的 1个文字单元开头的固定语段,使用者就切分 剩余语段的最前的 1个文字单元开头的固定语段并标注这个固定语段的意义标 记, 然后, 处理器切分和标注下一个固定语段。
根据本发明的机器翻译方法的一实施例, 步骤一是以自动方式对非形式化 的源语言进行形式化处理, 进一步包括: 对于非形式化的源语言的初始语段, 首先, 以自动方式逐个切分固定语段并标注固定语段的意义标记, 直到最后一 个固定语段, 然后, 以自动方式逐层组合非固定语段并标注非固定语段的核心 成分标记、 关系标记, 直到整个初始语段构成的一个非固定语段。
根据本发明的机器翻译方法的一实施例, 以自动方式切分并标注固定语段 的过程进一步包括: 存储器里的固定语段模式包含固定语段及其意义标记、 语 法属性标记、语义属性标记,其中形式相同意义不同的固定语段带有意义标记; 处理器依次判断, 在存储器里, 是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2个文字单元开头的固定语段, 是否存在最前的 3个文字单元开 头的固定语段, 依此类推; 如果, 在存储器里, 存在最前的 n个文字单元开头 的固定语段而不存在最前的 n+1个文字单元开头的固定语段, 处理器就把最前 的 n个文字单元切分为固定语段, 其中 n是自然数, 査出存储器里的各个可以运
用的固定语段模式, 按累计运用次数从多到少的选择顺序选择其中的一个固定 语段模式, 运用这个固定语段模式标注这个固定语段的意义标记、 语法属性标 记、 语义属性标记,依此类推, 直到最后一个固定语段; 如果处理器査出在存 储器里不存在剩余语段的最前的 1个文字单元开头的固定语段, 处理器就进行 回溯。
根据本发明的机器翻译方法的一实施例, 以自动方式组合并标注非固定语 段的过程进一步包括: 存储器里的非固定语段模式包含成分语段的语法属性标 记、 语义属性标记和组合语段的组合标记、 核心成分标记、 关系标记、 语法属 性标记、 语义属性标记; 处理器査出存储器里的各个可以运用的非固定语段模 式, 按累计运用次数从多到少的选择顺序选择其中的一个非固定语段模式, 运 用这个非固定语段模式组合一个非固定语段并标注这个非固定语段的核心成 分标记、 关系标记、 语法属性标记、 语义属性标记, 然后, 处理器组合和标注 下一个非固定语段,依此类推, 直到整个初始语段构成的一个非固定语段; 如 果处理器査出在存储器里不存在可以运用的非固定语段模式, 处理器就进行回 溯。
根据本发明的机器翻译方法的一实施例, 步骤二进一步包括:
处理器査找固定语段转换规则列表得到匹配的固定语段转换规则, 运用匹 配的固定语段转换规则把源语言的固定语段转换成目标语言的固定语段或非 固定语段;
处理器査找非固定语段转换规则列表得到匹配的非固定语段转换规则, 目 标语言的非固定语段的规则是根据源语言的非固定语段的核心成分标记、 关系 标记或关系词用源语言的非固定语段的成分的译文、 目标语言的关系词构成 的, 运用匹配的非固定语段转换规则把源语言的非固定语段转换成目标语言的 非固定语段, 通过递归执行此步骤逐层转换所有的非固定语段, 其中对形式化 的源语言的当前非固定语段来说, 首先把当前非固定语段的各个成分分别转换 成非形式化的目标语言, 然后运用匹配的非固定语段转换规则把当前非固定语 段转换成非形式化的目标语言, 返回当前非固定语段的转换结果供上一层次的 非固定语段调用, 直到把作为初始数据的非固定语段转换成非形式化的目标语 曰。
本发明又揭示了一种把非形式化的源语言翻译成形式化的目标语言的机 器翻译系统, 该系统包括:
源语言形式化处理模块, 该模块对非形式化的源语言进行形式化处理 对于非形式化的源语言的初始语段, 首先, 逐个切分固定语段并标注固定语段 的意义标记, 直到最后一个固定语段, 然后, 逐层组合非固定语段并标注非固 定语段的核心成分标记、关系标记,直到整个初始语段构成的一个非固定语段; 形式化目标语言转换模块, 该模块连接在源语言形式化处理模块之后, 以 自动方式把形式化的源语言转换成形式化的目标语言 以自动方式运用固 定语段转换规则把源语言的固定语段转换成目标语言的语段。
根据本发明的机器翻译系统的一实施例, 该系统还包括一个连接在源语言 形式化处理模块之前的替代模块, 该模块使用替代标记进行预处理 预先使 用替代标记把一个初始语段分解成若干个子语段, 接着对这些子语段分别进行 形式化处理。
根据本发明的机器翻译系统的一实施例, 源语言形式化处理模块以交互方 式对非形式化的源语言进行形式化处理, 该模块进一步包括:
交互方式固定语段切分单元, 该单元以交互方式逐个切分固定语段并标注 固定语段的意义标记, 直到最后一个固定语段;
交互方式非固定语段组合单元, 该单元连接在交互方式固定语段切分单元 之后, 以交互方式逐层组合非固定语段并标注非固定语段的核心成分标记、 关 系标记, 直到整个初始语段构成的一个非固定语段。
根据本发明的机器翻译系统的一实施例, 交互方式固定语段切分单元以交 互方式切分并标注固定语段的过程进一步包括: 存储器里的固定语段模式包含 固定语段及其意义标记, 其中形式相同意义不同的固定语段带有意义标记; 处 理器依次判断, 在存储器里, 是否存在最前的 1个文字单元开头的固定语段, 是 否存在最前的 2个文字单元开头的固定语段, 是否存在最前的 3个文字单元开头 的固定语段, 依此类推; 如果在存储器里存在最前的 n个文字单元开头的固定 语段而不存在最前的 n+1个文字单元开头的固定语段, 处理器就把最前的 n个文 字单元切分为固定语段, 其中 n是自然数, 运用一个固定语段模式标注这个固 定语段的意义标记,然后, 使用者确认或修改, 依此类推, 直到最后一个固定
语段; 如果处理器査出在存储器里不存在剩余语段的最前的 1个文字单元开头 的固定语段,使用者就切分剩余语段的最前的 1个文字单元开头的固定语段并 标注这个固定语段的意义标记, 然后, 处理器切分和标注下一个固定语段。
根据本发明的机器翻译系统的一实施例, 源语言形式化处理模块以自动方 式对非形式化的源语言进行形式化处理, 该模块进一步包括:
自动方式固定语段切分单元, 该单元以自动方式逐个切分固定语段并标注 固定语段的意义标记, 直到最后一个固定语段;
自动方式非固定语段组合单元, 该单元连接在自动方式固定语段切分单元 之后, 以自动方式逐层组合非固定语段并标注非固定语段的核心成分标记、 关 系标记, 直到整个初始语段构成的一个非固定语段。
根据本发明的机器翻译系统的一实施例, 自动方式固定语段切分单元以自 动方式切分并标注固定语段的过程进一步包括: 存储器里的固定语段模式包含 固定语段及其意义标记、 语法属性标记、 语义属性标记, 其中形式相同意义不 同的固定语段带有意义标记; 处理器依次判断, 在存储器里, 是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2个文字单元开头的固定语段, 是否存在最前的 3个文字单元开头的固定语段, 依此类推; 如果, 在存储器里, 存在最前的 n个文字单元开头的固定语段而不存在最前的 n+1个文字单元开头 的固定语段, 处理器就把最前的 n个文字单元切分为固定语段,其中 n是自然数, 査出存储器里的各个可以运用的固定语段模式, 按累计运用次数从多到少的选 择顺序选择其中的一个固定语段模式, 运用这个固定语段模式标注这个固定语 段的意义标记、 语法属性标记、 语义属性标记,依此类推, 直到最后一个固定 语段; 如果处理器査出在存储器里不存在剩余语段的最前的 1个文字单元开头 的固定语段, 处理器就进行回溯。
根据本发明的机器翻译系统的一实施例, 自动方式非固定语段组合单元以 自动方式组合并标注非固定语段的过程进一步包括: 存储器里的非固定语段模 式包含成分语段的语法属性标记、 语义属性标记和组合语段的组合标记、 核心 成分标记、 关系标记、 语法属性标记、 语义属性标记; 处理器査出存储器里的 各个可以运用的非固定语段模式, 按累计运用次数从多到少的选择顺序选择其 中的一个非固定语段模式, 运用这个非固定语段模式组合一个非固定语段并标
注这个非固定语段的核心成分标记、关系标记、语法属性标记、语义属性标记, 然后, 处理器组合和标注下一个非固定语段,依此类推, 直到整个初始语段构 成的一个非固定语段; 如果处理器査出在存储器里不存在可以运用的非固定语 段模式, 处理器就进行回溯。
根据本发明的机器翻译系统的一实施例, 形式化目标语言转换模块进一步 包括:
自动方式固定语段转换单元, 该单元査找固定语段转换规则列表得到匹配 的固定语段转换规则, 运用匹配的固定语段转换规则把源语言的固定语段转换 成目标语言的固定语段或非固定语段, 目标语言的固定语段带有意义标记; 标记点击单元, 该单元在使用者点击目标语言的固定语段的意义标记以后 显示固定语段的意义特征, 在使用者点击关系标记以后显示关系标记所代表的 关系。
本发明又揭示了一种把非形式化的源语言翻译成非形式化的目标语言的 机器翻译系统, 该系统包括:
源语言形式化处理模块, 该模块对非形式化的源语言进行形式化处理 对于非形式化的源语言的初始语段, 首先, 逐个切分固定语段并标注固定语段 的意义标记, 直到最后一个固定语段, 然后, 逐层组合非固定语段并标注非固 定语段的核心成分标记、关系标记,直到整个初始语段构成的一个非固定语段; 非形式化目标语言转换模块, 该模块连接在源语言形式化处理模块之后, 以自动方式把形式化的源语言转换成非形式化的目标语言 首先, 以自动方 式运用固定语段转换规则把源语言的固定语段转换成目标语言的语段, 然后, 以自动方式运用非固定语段转换规则逐层把源语言的非固定语段转换成目标 语言的语段。
根据本发明的机器翻译系统的一实施例, 该系统还包括一个连接在源语言 形式化处理模块之前的替代模块, 该模块使用替代标记进行预处理 预先使 用替代标记把一个初始语段分解成若干个子语段, 接着对这些子语段分别进行 形式化处理。
根据本发明的机器翻译系统的一实施例, 源语言形式化处理模块以交互方 式对非形式化的源语言进行形式化处理, 该模块进一步包括:
交互方式固定语段切分单元, 该单元以交互方式逐个切分固定语段并标注 固定语段的意义标记, 直到最后一个固定语段;
交互方式非固定语段组合单元, 该单元连接在交互方式固定语段切分单元 之后, 以交互方式逐层组合非固定语段并标注非固定语段的核心成分标记、 关 系标记, 直到整个初始语段构成的一个非固定语段。
根据本发明的机器翻译系统的一实施例, 交互方式固定语段切分单元以交 互方式切分并标注固定语段的过程进一步包括: 存储器里的固定语段模式包含 固定语段及其意义标记, 形式相同意义不同的固定语段带有意义标记; 处理器 依次判断, 在存储器里, 是否存在最前的 1个文字单元开头的固定语段, 是否 存在最前的 2个文字单元开头的固定语段, 是否存在最前的 3个文字单元开头的 固定语段, 依此类推; 如果在存储器里存在最前的 n个文字单元开头的固定语 段而不存在最前的 n+1个文字单元开头的固定语段, 处理器就把最前的 n个文字 单元切分为固定语段, 其中 n是自然数, 运用一个固定语段模式标注这个固定 语段的意义标记,然后, 使用者确认或修改, 依此类推, 直到最后一个固定语 段; 如果处理器査出在存储器里不存在剩余语段的最前的 1个文字单元开头的 固定语段,使用者就切分剩余语段的最前的 1个文字单元开头的固定语段并标 注这个固定语段的意义标记, 然后, 处理器切分和标注下一个固定语段。
根据本发明的机器翻译系统的一实施例, 源语言形式化处理模块以自动方 式对非形式化的源语言进行形式化处理, 该模块进一步包括:
自动方式固定语段切分单元, 该单元以自动方式逐个切分固定语段并标注 固定语段的意义标记, 直到最后一个固定语段;
自动方式非固定语段组合单元, 该单元连接在自动方式固定语段切分单元 之后, 以自动方式逐层组合非固定语段并标注非固定语段的核心成分标记、 关 系标记, 直到整个初始语段构成的一个非固定语段。
根据本发明的机器翻译系统的一实施例, 自动方式固定语段切分单元以自 动方式切分并标注固定语段的过程进一步包括: 存储器里的固定语段模式包含 固定语段及其意义标记、 语法属性标记、 语义属性标记, 其中形式相同意义不 同的固定语段带有意义标记; 处理器依次判断, 在存储器里, 是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2个文字单元开头的固定语段,
是否存在最前的 3个文字单元开头的固定语段, 依此类推; 如果, 在存储器里, 存在最前的 n个文字单元开头的固定语段而不存在最前的 n+1个文字单元开头 的固定语段, 处理器就把最前的 n个文字单元切分为固定语段,其中 n是自然数, 査出存储器里的各个可以运用的固定语段模式, 按累计运用次数从多到少的选 择顺序选择其中的一个固定语段模式, 运用这个固定语段模式标注这个固定语 段的意义标记、 语法属性标记、 语义属性标记,依此类推, 直到最后一个固定 语段; 如果处理器査出在存储器里不存在剩余语段的最前的 1个文字单元开头 的固定语段, 处理器就进行回溯。
根据本发明的机器翻译系统的一实施例, 自动方式非固定语段组合单元以 自动方式组合并标注非固定语段的过程进一步包括: 存储器里的非固定语段模 式包含成分语段的语法属性标记、 语义属性标记和组合语段的组合标记、 核心 成分标记、 关系标记、 语法属性标记、 语义属性标记; 处理器査出存储器里的 各个可以运用的非固定语段模式, 按累计运用次数从多到少的选择顺序选择其 中的一个非固定语段模式, 运用这个非固定语段模式组合一个非固定语段并标 注这个非固定语段的核心成分标记、关系标记、语法属性标记、语义属性标记, 然后, 处理器组合和标注下一个非固定语段,依此类推, 直到整个初始语段构 成的一个非固定语段; 如果处理器査出在存储器里不存在可以运用的非固定语 段模式, 处理器就进行回溯。
根据本发明的机器翻译系统的一实施例, 非形式化目标语言转换模块进一 步包括:
自动方式固定语段转换单元, 该单元査找固定语段转换规则列表得到匹配 的固定语段转换规则, 运用匹配的固定语段转换规则把源语言的固定语段转换 成目标语言的固定语段或非固定语段;
自动方式非固定语段转换单元, 该单元连接在自动方式固定语段转换单元 之后, 査找非固定语段转换规则列表得到匹配的非固定语段转换规则, 其中目 标语言的非固定语段的规则是根据源语言的非固定语段的核心成分标记、 关系 标记或关系词用源语言的非固定语段的成分的译文、 目标语言的关系词构成 的, 运用匹配的非固定语段转换规则把源语言的非固定语段转换成目标语言的 非固定语段, 通过递归执行此步骤逐层转换所有的非固定语段, 其中对形式化
的源语言的当前非固定语段来说, 首先把当前非固定语段的各个成分分别转换 成非形式化的目标语言, 然后运用匹配的非固定语段转换规则把当前非固定语 段转换成非形式化的目标语言, 返回当前非固定语段的转换结果供上一层次的 非固定语段调用, 直到把作为初始数据的非固定语段转换成非形式化的目标语 曰 α
本发明对比现有技术有如下的有益效果: 本发明的技术方案主要是先以交 互方式或自动方式对非形式化的源语言进行形式化处理, 然后以自动方式把形 式化的源语言转换成形式化的目标语言或非形式化的目标语言。 对比现有技 术, 本发明具有如下的三个特点: 1、 既可以以交互方式对非形式化的源语言 进行形式化处理, 又可以以自动方式对非形式化的源语言进行形式化处理; 既 可以以自动方式把形式化的源语言转换成形式化的目标语言, 又可以以自动方 式把形式化的源语言转换成非形式化的目标语言。 2、 用于对源语言进行形式 化处理的非固定语段模式和用于把源语言转换成目标语言的非固定语段转换 规则相互独立。 这样, 既可以在不牵涉非固定语段转换规则的情况下修改、 补 充非固定语段模式, 又可以在不牵涉非固定语段模式的情况下修改、 补充非固 定语段转换规则。 这一特点使机器翻译系统具有易扩充性。 3、 对源语言进行 形式化处理是把源语言转换成各种目标语言的共同基础。 这一特点十分有利于 "一对多" (例如英语转换成汉语 /日语 /法语 /德语 /俄语) 机器翻译系统的研 发。 附图说明
图 1是使用替代标记进行预处理的实现示意图。
图 2是以交互方式切分固定语段并标注标记的汉语实例的实现示意图。 图 3是以交互方式组合非固定语段并标注标记的实现示意图。
图 4是以自动方式切分固定语段并标注标记的汉语实例的实现示意图。 图 5是以自动方式组合非固定语段并标注标记的实现示意图。
图 6是把形式化的源语言转换成形式化的目标语言的实现示意图。
图 7是把形式化的源语言转换成非形式化的目标语言的实现示意图。 图 8是机器翻译系统的第一实施例的原理图。
图 9是机器翻译系统的第二实施例的原理图。
图 10是机器翻译系统的第三实施例的原理图。
图 1 1是机器翻译系统的第四实施例的原理图。 发明的详细说明
下面结合附图和实施例对本发明作进一步的描述。 一、 机器翻译方法的第一实施例 本实施例的机器翻译方法是将非形式化的源语言转换成形式化的目标语言, 主要包括两个步骤, 第一步骤是对于非形式化的源语言的初始语段, 首先, 以交互 方式逐个切分固定语段(标注固定语段标记)并标注固定语段的意义标记, 直到最 后一个固定语段, 然后, 以交互方式逐层组合非固定语段(标注组合标记)并标注 非固定语段的核心成分标记、关系标记,直到整个初始语段构成的一个非固定语段。 第二步骤是自动运用固定语段转换规则把源语言的固定语段转换为目标语言的语 段, 从而将非形式化的源语言转换为形式化的目标语言。 标记的说明
在详细介绍本实施例的第一步骤之前,首先对下文中经常提到的七种标记(固 定语段标记、 意义标记、 组合标记、 核心成分标记、 关系标记、 语法属性标记、 语 义属性标记) 进行说明。
( 1 ) 固定语段标记: 是表示固定语段的标记。 一般而言, 词、 词组、 成语、 典故、 俗语、 格言、 人名、 地名等都可以作为固定语段。 字符串 (即两个空格之间 的若干个字母) 、 汉字、 假名都是文字单元 (gp, 具有独立的形体的文字片段) 。 若干个文字单元构成一个固定语段。 例如, 固定语段的下划线用作固定语段标记。 一个文字单元构成的固定语段的固定语段标记可省略。
下面是固定语段标记的一个示例:
The Great St. Bernard Pass is the highest mountain pass in Europe.
圣伯纳德大山口是欧洲最高的山口。
( 2 )意义标记: 是使形式相同意义不同的固定语段成为形式不同意义不同的 固定语段的标记。 例如, 将固定语段的右上角的数字用作意义标记。
下面是意义标记的一个示例:
research1 research2
( 3 ) 组合标记: 表示若干个语段组合成一个语段的标记。 例如可以是括号式 组合标记, 如:
H ( 【 { [ ( ) 】 > 3 H } 】 ) ] } 3 示例为:
『(算术 运算) (逻辑 运算) I
组合标记也可以是横线式组合标记, 如:
示例为:
算术 运算 還辑 运-
(4) 核心成分标记: 表示核心成分的标记, 核心成分的对象包含组合成的语 段的对象或与组合成的语段的对象同一。可以将核心成分一方的星号用作核心成分 标记, 例如:
『(算术 运算 *) (逻辑 运算 *)1
算术 运算 還辑 运算
核心成分的对象包含组合成的对象或与组合成的语段的对象同一。 可以用两 种核心成分标记表示两种核心成分: 如果核心成分的对象包含组合成的语段的对 象,核心成分一方的星号用作核心成分标记; 如果核心成分的对象与组成的语段的 对象同一, 核心成分一方的#号用作核心成分标记。 示例如下:
cle ver man cle ver John
the man who wrote this book John , who wrote this book
( 5 ) 关系标记: 表示组合成的语段的各个成分的关系。 例如可将成分之间的 数字用作关系标记, 示例如下:
『(算术 4运算 *)21 (逻辑 4运算 *)1
算术 运算 還辑 运算
4 * 4 *
21
以下是用数字 1〜22表示不同的关系:
1 表示 非核心成分的对象承受核心成分的对象
2 表示 非核心成分的对象领有核心成分的对象
3 表示 非核心成分的对象限定核心成分的对象
4 表示 非核心成分的对象是核心成分的对象的属性
5 表示 非核心成分的对象是核心成分的对象的方式
6 表示 非核心成分的对象是核心成分的对象的目的
7 表示 非核心成分的对象是核心成分的对象的结果
8 表示 非核心成分的对象是核心成分的对象的手段
9 表示 非核心成分的对象是核心成分的对象的时间
10 表示 非核心成分的对象是核心成分的对象的处所
11 表示 非核心成分的对象是核心成分的对象的起点
12 表示 非核心成分的对象是核心成分的对象的方向
13 表示 非核心成分的对象是核心成分的对象的材料
14 表示 非核心成分的对象是核心成分的对象的条件
15 表示 非核心成分的对象是核心成分的对象的原因
16 表示 非核心成分的对象是核心成分的对象的频度
17 表示 非核心成分的对象是核心成分的对象的范围
18 表示 非核心成分的对象是核心成分的对象的程度
19 表示 左边的成分的对象是右边的成分的对象的主体
20 表示 核心成分的对象是非核心成分的对象的主体
21 表示 各成分的对象具有联合关系
22 表示 各成分的对象具有选择关系
( 6 ) 语法属性标记: 是在第二个步骤中涉及到的标记, 是表示语段的语法属 性的标记。通常将大写拉丁字母用作语法属性标记。下面是基于英语用于英语的语 法属性标记: 名词 N、 及物动词 VT、 不及物动词 VI、 连系动词 LV、 情态动词 MV、 形容词 A、 一般副词 AD、 疑问副词 IAD、 关系副词 RAD、 名词性代词 NP、 形容词性 代词 AP、 疑问代词 IP、 关系代词 RP、 数词 NUM、 冠词 ART、 介词 P、 并列连词 CC、 从属连词 SC; 限定动词 FV、 不定式 INF、 -ING分词 ING、 -ED分词 ED; 主动 AC、 被动 PA; 句3、 定语从句 ATC、 状语从句 ADC、 名词性从句 NC。 下面是基于汉语用 于汉语的语法属性标记: 名词 M、 及物动词 JD、 不及物动词 BJD、 连系动词 LD、 情 态动词 QD、 形容词 X、 一般副词F、 疑问副词 YF、 名词性代词 MD、 形容词性代词 XD、 疑问代词 YD、 数词 S、 介词 J、 并列连词 BL、 从属连词 CL; 句 JU、 定语从句 DC、 状语从句 ZC、 名词性从句 MC。
( 7 ) 语义属性标记: 也是在第二个步骤中涉及到的标记, 是表示语段的语义 属性的标记,通常将小写拉丁字母用作语义属性标记。下面是基于英语用于英语的 语义属性标记: 人 hu、 生物 l i、 物体 ob、 物质 su、 事物 th、 时间 ti、 处所 pl、 单位 un、 具体行为 ca、 抽象行为 aa、 状态 co、 心理活动 ma、 具体性质 cc、 抽象 性质 ac、 频度 fr、 程度 de、 否定 ne。 下面是基于汉语用于汉语的语义属性标记: 人 re、 生物 sw、 物体 wt、 物质 wz、 事物 ww、 时间 sj、 处所 cs、 单位 dw、 具体行 为 jw、 抽象行为 cw、 状态 z 心理活动 xh、 具体性质 jx、 抽象性质 cx、 频度 pd、 程度 cd、 否定 fd。 替代
在上述的第一个步骤中, 预先使用替换标记把一个初始语段分解成若干个子 语段,接着针对这些子语段分别进行后续的形式化处理。这里所说的替换标记是表
示替代的标记, 例如可以用带圈的数字作为替代标记, 如:
算术运算和逻辑运算 =®
下面是使用替代标记进行预处理的实例:
第一步: 计算机在屏幕上显示
电子计算机以惊人的速度完成算术运算和逻辑运算
第二步: 使用者在屏幕上选中
电子计算机以惊人的速度完成國;||議 I議;議;議;議國;;國
第三步: 使用者按 "替代"功能键
第四步: 计算机在屏幕上显示
算术运算和逻辑运算 =®
电子计算机以惊人的速度完成①
然后, 对 "算术运算和逻辑运算" 、 "电子计算机以惊人的速度完成①" 这两 个子语段分别进行形式化处理。
可见, 使用替代标记进行预处理使对结构复杂的语段进行形式化处理变得比 较方便。
图 1示出了使用替代标记进行预处理的实现, 请同时参见图 1, 下面是以一个 具体的实例来说明使用替代标记进行预处理的过程。
第一步: 以 String类型保存被输入的作为数据的语段 "电子计算机以惊人的 速度完成算术运算和逻辑运算"。进行数据初始化, 形成一个节点对应一个文字单 元的节点数组 (Array) 。 替代符号列表为空。
第二步: 使用者选中 "算术运算和逻辑运算" 。
第三步: 使用者按 "替代"功能键。
第四步: 更新节点数组——第 14个节点对应 "算术运算和逻辑运算" , 其容 量为 9个文字单元。 用符号 "①"代表被选中的语段, 在屏幕上显示更新后的作为 数据的语段。 以交互方式对源语言进行形式化处理
在第一步骤中, 本实施例是以交互方式对源语言进行形式化处理, 包含了以 交互方式切分固定语段并标注标记的过程以及以交互方式组合非固定语段并标注
标记的过程。 下面分别就上述的这两个过程进行详细的描述。 以交互方式切分固定语段并标注标记的过程
以交互方式切分固定语段并标注标记的过程详述如下: 存储装置里的固定语 段模式包含固定语段及其意义标记 (形式相同意义不同的固定语段带有意义标记); 计算机依次判断,在存储装置里,是否存在最前的 1个文字单元开头的固定语段, 是 否存在最前的 2个文字单元开头的固定语段, 是否存在最前的 3个文字单元开头的 固定语段, 依此类推; 如果在存储装置里, 存在最前的 n个文字单元开头的固定语 段但不存在最前的 n+1个文字单元开头的固定语段,计算机就把最前的 n个文字单 元切分为固定语段(标注固定语段标记) , 运用一个固定语段模式(固定语段模式 的实例为: methods1、 data processing、 automatic1)标注这个固定语段的意义标 记,然后, 使用者确认或修改, 依此类推, 直到最后一个固定语段; 如果计算机査 出在存储装置里不存在剩余语段的最前的 1个文字单元开头的固定语段,使用者就 切分剩余语段的最前的 1个文字单元开头的固定语段(标注固定语段标记)并标注 这个固定语段的意义标记, 然后, 计算机切分和标注下一个固定语段。
下面以一个实例来说明上述的以交互方式切分固定语段并标注标记。 设 ABCDEFGHIJKL丽 0PQRSTUVWXYZ是一个语段 (A、 B、 C…… X、 Y、 Ζ是文字单元) 。
计算机依次判定, 在存储装置里, 存在 Α开头的固定语段, 存在 AB开头的固 定语段, 存在 ABC开头的固定语段, 不存在 ABCD开头的固定语段, 于是计算机把 ABC切分为固定语段(标注固定语段标记) , 査出存储装置里的各个可以运用的固 定语段模式, 按累计运用次数从多到少的选择顺序选择其中的一个固定语段模式, 运用这个固定语段模式标注 ABC的意义标记,然后,使用者确认或修改,依此类推, 直到最后一个固定语段。
之所以将 ABC切分为一个固定语段, 是因为在存储装置里, 存在 A开头的固 定语段, 存在 AB开头的固定语段, 存在 ABC开头的固定语段, 不存在 ABCD开头的 固定语段, 所以, A开头的固定语段可能是 , 可能是 AB, 可能是 ABC, 不可能是 ABCD, 不可能是其他 A开头的语段 (ABCDE、 ABCDEF ······ ) 。 计算机把 A、 AB、 ABC 三者中最长 (文字单元最多) 的 ABC切分为固定语段。
计算机判定在存储装置里不存在 L开头的固定语段, 于是使用者切分 L开头
的固定语段 L丽 0 (标注固定语段标记) 并标注 L丽 0的意义标记, 计算机自动存储 这个新的固定语段模式, 然后, 计算机切分和标注下一个固定语段。
在使用者确认或修改意义标记的步骤中, 先由计算机显示各个可以运用的固 定语段模式及其意义特征。 例如:
degree1 [a step in a process]
degree2 [a step in a direct hereditary line of descent]
degree3 [relative social or official rank]
degree4 [relative intensity or amount]
degree5 [the extent of a state of being or an action]
degree6 [a unit division of a temperature scale]
degree7 [a planar unit of angular measure]
degree8 [a unit of latitude or longitude]
degree9 [an academic title]
degree10 [a classification of a specific crime]
degree1 1 [a classification of the severity of an injury]
degree12 [a form used in the comparison of adjectives and adverbs] degree13 [a note of a diatonic scale]
然后由使用者选择并点击一个意义标记。 以交互方式切分固定语段并标注标记的英语实例
Computer science is the branch of science that is concerned with methods relating to data processing performed by automatic means.
计算机依次判定, 在存储装置里, 存在 ?/7¾σί/½Λ开头的固定语段 (第一个文 字单元是 co/77 ?"te/"的固定语段, 例如 computer, computer assisted instruction, computer graphics) , 存在 co/^i/te sc/^/^e开头的固定语段 (第一个文字单元 是 co/77 7i/te/"第二个文字单元是 science的固定语段, 例如 computer science, computer science and technology, computer science department) ,不存在
/;s开头的固定语段(第一个文字单元是 computer第 H 字卑 元是 sc/^/^e第三个文字单元是 s的固定语段),于是计算机把 computer science
切分为固定语段(标注固定语段标记), 査出存储装置里的各个可以运用的固定语 段模式,按累计运用次数从多到少的选择顺序选择其中的一个固定语段模式,运用 这个固定语段模式标注 CC7/77 7i/te/"SC/^7Ce的意义标记, 然后, 使用者确认。
计算机依次判定, 在存储装置里, 存在 s开头的固定语段,不存在 s e开头 的固定语段, 于是计算机把 S切分为固定语段 (标注固定语段标记) , 査出存储 装置里的各个可以运用的固定语段模式,按累计运用次数从多到少的选择顺序选择 其中的一个固定语段模式, 运用这个固定语段模式标注 s的意义标记, 然后, 使 用者确认。
计算机依次判定,在存储装置里,存在 e开头的固定语段,不存在 the branch 开头的固定语段, 于是计算机把 e切分为固定语段(标注固定语段标记) , 査出 存储装置里的各个可以运用的固定语段模式,按累计运用次数从多到少的选择顺序 选择其中的一个固定语段模式,运用这个固定语段模式标注 e的意义标记, 然后, 使用者确认。
计算机依次判定,在存储装置里,存在 开头的固定语段,不存在 branch C7开头的固定语段, 于是计算机把 切分为固定语段(标注固定语段标记), 査出存储装置里的各个可以运用的固定语段模式,按累计运用次数从多到少的选择 顺序选择其中的一个固定语段模式, 运用这个固定语段模式标注 的意义标 记, 然后, 使用者确认。
计算机依次判定, 在存储装置里, 存在 σ开头的固定语段,不存在 ofsc/^7ce 开头的固定语段, 于是计算机把 £7切分为固定语段 (标注固定语段标记) , 査出 存储装置里的各个可以运用的固定语段模式,按累计运用次数从多到少的选择顺序 选择其中的一个固定语段模式, 运用这个固定语段模式标注 Of的意义标记, 然后, 使用者确认。
计算机依次判定,在存储装置里,存在 sc/^7ce开头的固定语段,不存在 science that 头的固定语段,于是计算机把 science切分为固定语段 (标注固定语段标记), 査出存储装置里的各个可以运用的固定语段模式,按累计运用次数从多到少的选择 顺序选择其中的一个固定语段模式,运用这个固定语段模式标注 的意义标 记, 然后, 使用者确认。
Computer science is1 the branch3 of science1 ···
之所以将
sc/^7ce作为固定语段, 是因为在存储装置里, 存在
CO/^i/te/"开头的固定语段, 存在 CC7/77 7i/te/" SC/^7Ce开头的固定语段,不存在 computer science is开头的固定语段, 所以, computer开头的固定语段可能是 computer, computer science,
其他 co/77 ?〃te/"开头的语段 ( computer science is the, computer science is the branch, computer science is the branch of )。计算机把 computer, computer science二者中最长 (文字单元最多) 的 computer science切分为固定语段。 以交互方式切分固定语段并标注标记的汉语实例
图 2示出了以交互方式切分固定语段并标注标记的汉语实例的实现过程,请参 见图 2, 其中粗实线表示不存在固定语段, 细实线箭头表示存在固定语段, 虚线箭 头表示不存在以此开头的固定语段。
计算机科学是研究用自动化工具完成数据处理的方法的一门科学。
计算机依次判定, 在存储装置里, 存在计开头的固定语段(第一个文字单元是 计的固定语段, 例如计、 计划、 计算机、 计量单位、 计算机辅助设计) ,存在计算 开头的固定语段 (第一个文字单元是计第二个文字单元是算的固定语段,例如计算、 计算机、 计算机辅助设计), 存在计算机开头的固定语段(第一个文字单元是计第 二个文字单元是算第三个文字单元是机的固定语段, 例如计算机、 计算机安全、 计 算机辅助设计), 存在计算机科开头的固定语段(第一个文字单元是计第二个文字 单元是算第三个文字单元是机第四个文字单元是科的固定语段, 例如计算机科学、 计算机科学技术、 计算机科学家), 存在计算机科学开头的固定语段(第一个文字 单元是计第二个文字单元是算第三个文字单元是机第四个文字单元是科第五个文 字单元是学的固定语段, 例如计算机科学、 计算机科学技术、 计算机科学家) ,不 存在计算机科学是开头的固定语段 (第一个文字单元是计第二个文字单元是算第三 个文字单元是机第四个文字单元是科第五个文字单元是学第六个文字单元是是的 固定语段) , 于是计算机把计算机科学切分为固定语段(标注固定语段标记) , 査 出存储装置里的各个可以运用的固定语段模式,按累计运用次数从多到少的选择顺 序选择其中的一个固定语段模式,运用这个固定语段模式标注计算机科学的意义标
记, 然后, 使用者确认。
计算机依次判定, 在存储装置里, 存在是开头的固定语段,不存在是研开头的 固定语段, 于是计算机把是切分为固定语段(标注固定语段标记) , 査出存储装置 里的各个可以运用的固定语段模式,按累计运用次数从多到少的选择顺序选择其中 的一个固定语段模式, 运用这个固定语段模式标注是的意义标记, 然后, 使用者确 认。
计算机依次判定, 在存储装置里, 存在研开头的固定语段,存在研究开头的固 定语段,不存在研究用开头的固定语段, 于是计算机把研究切分为固定语段 (标注 固定语段标记), 査出存储装置里的各个可以运用的固定语段模式, 按累计运用次 数从多到少的选择顺序选择其中的一个固定语段模式,运用这个固定语段模式标注 研究的意义标记, 然后, 使用者确认。
计算机依次判定, 在存储装置里, 存在用开头的固定语段,不存在用自开头的 固定语段, 于是计算机把用切分为固定语段(标注固定语段标记) , 査出存储装置 里的各个可以运用的固定语段模式,按累计运用次数从多到少的选择顺序选择其中 的一个固定语段模式, 运用这个固定语段模式标注用的意义标记, 然后, 使用者确 认。
计算机依次判定, 在存储装置里, 存在自开头的固定语段,存在自动开头的固 定语段, 存在自动化开头的固定语段,不存在自动化工开头的固定语段, 于是计算 机把自动化切分为固定语段(标注固定语段标记), 査出存储装置里的各个可以运 用的固定语段模式,按累计运用次数从多到少的选择顺序选择其中的一个固定语段 模式, 运用这个固定语段模式标注自动化的意义标记, 然后, 使用者确认。
计算机科学 是 用 1 自动化 …… 之所以将"计算机科学"作为固定语段, 是因为在存储装置里, 存在计开头的 固定语段, 存在计算开头的固定语段, 存在计算机开头的固定语段,存在计算机科 开头的固定语段, 存在计算机科学开头的固定语段,不存在计算机科学是开头的固 定语段, 所以, 计开头的固定语段可能是计, 可能是计算, 可能是计算机, 可能是 计算机科, 可能是计算机科学, 不可能是计算机科学是, 不可能是其他计开头的语 段(计算机科学是研、 计算机科学是研究、 计算机科学是研究用……)。计算机把
计、 计算、 计算机、 计算机科、 计算机科学五者中最长(文字单元最多) 的计算机 科学切分为固定语段。 以交互方式组合非固定语段并标注标记的过程
以交互方式组合非固定语段并标注标记的过程详述如下: 以交互方式逐层逐 个按组合标记、核心成分标记、关系标记的顺序标注非固定语段的标记, 直到整个 初始语段构成的一个非固定语段。 以交互方式组合非固定语段并标注标记的实例
第一步: 计算机在屏幕上显示
请组合一个非固定语段
第二步:使用者用鼠标在屏幕上点击第一层第一个非固定语段的第一个字符和 最后一个字符。
第三步: 计算机在屏幕上显示第一层第一个非固定语段的组合标记。
第四步: 计算机在屏幕上显示
请标注核心成分标记
第五步: 使用者用鼠标在屏幕上点击核心成分标记的位置。
第六步: 计算机在屏幕上显示核心成分标记。
第七步: 计算机在屏幕上显示
请选择关系标记
1 表示 非核心成分的对象承受核心成分的对象
2 表示 非核心成分的对象领有核心成分的对象
3 表示 非核心成分的对象限定核心成分的对象
4 表示 非核心成分的对象是核心成分的对象的属性
5 表示 非核心成分的对象是核心成分的对象的方式
6 表示 非核心成分的对象是核心成分的对象的目的
7 表示 非核心成分的对象是核心成分的对象的结果
8 表示 非核心成分的对象是核心成分的对象的手段
9 表示 非核心成分的对象是核心成分的对象的时间
10 表示 非核心成分的对象是核心成分的对象的处所
1 1 表示 非核心成分的对象是核心成分的对象的起点
12 表示 非核心成分的对象是核心成分的对象的方向
13 表示 非核心成分的对象是核心成分的对象的材料
14 表示 非核心成分的对象是核心成分的对象的条件
15 表示 非核心成分的对象是核心成分的对象的原因
16 表示 非核心成分的对象是核心成分的对象的频度
17 表示 非核心成分的对象是核心成分的对象的范围
18 表示 非核心成分的对象是核心成分的对象的程度
19 表示 左边的成分的对象是右边的成分的对象的主体
20 表示 核心成分的对象是非核心成分的对象的主体
21 表示 各成分的对象具有联合关系
22 表示 各成分的对象具有选择关系
第八步: 使用者用鼠标在屏幕上点击合适的关系标记。
第九步: 计算机在屏幕上显示关系标记。
第十步: 计算机在屏幕上显示
请组合一个非固定语段
第十一步:使用者用鼠标在屏幕上点击第一层第二个非固定语段的第一个字符 和最后一个字符。
…… 以交互方式组合非固定语段并标注标记的英语实例 初始语段
methods1 relating to data processing performed1 by2 automatic1 means1
第一层组合
methods1 relating to data processing performed1 by2 automatic1 means1
4
第二层组合
methods1 relating to data processing performed1 by2 automatic1 means1
4
*
第三层组合
methods1 relating to data processing performed1 by2 automatic1 means1
4
*
± 20
第四层组合
methods1 relating to data processing performed1 by2 automatic1 means1
4
*
± 20
* 以交互方式组合非固定语段并标注标记的实现
图 3示出了以交互方式组合非固定语段并标注标记的实现过程。 下面的说明 请同时参见图 3。
第一步: 在程序界面上显示初始语段, 提示 "请组合非固定语段" 。
第二步:接受鼠标的两次点击,获得非固定语段的第一个字符和最后一个字符, 给从第一个字符到最后一个字符的字符串标注横线式组合标记,提示 "请标注核心 成分标记,, 。
第三步: 如果使用者点击核心成分标记的位置, 程序就标注核心成分标记; 如 果使用者点击核心成分标记, 程序就删除核心成分标记。
第四步:使用者用鼠标右键点击非固定语段的横线式组合标记,程序弹出包含
"关系标记列表"和 "取消非固定语段"两项内容的右键菜单。 如果使用者在右键 菜单里点击一个关系标记,程序就标注这个关系标记; 如果使用者在右键菜单里选 择 "取消非固定语段" , 程序就删除这个非固定语段的横线式组合标记。
第五步: 重复第二步到第四步, 直到整个初始语段构成的一个非固定语段。
第六步: 生成节点列表。 把形式化的源语言转换成形式化的目标语言
以自动方式运用固定语段转换规则把源语言的固定语段转换成目标语言的语
把形式化的源语言转换成形式化的目标语言的实例
例子 1 : 英语到汉语的翻译
非形式化的英语 形式化的英语
methods1 relating to data processing performed1 b automatic1 means1
4 *
*
* 20
(以交互方式对源语言进行形式化处理的结果) 作为以自动方式对源语言进行形式化处理的结果的形式化的源语言有语法属 性标记和语义属性标记。 例如:
methods1 relating to data processing performed1 b automatic1 means1 Nth P Naa VTEDPAaa P Aac Nob
4 *
Nob
*
VTEDPAaa
* 20
Naa
Nth
(以自动方式对源语言进行形式化处理的结果) 首先, 以自动方式删除语法属性标记和语义属性标记。 例如:
methods1 relating to data processing performed1 b/ automatic
± 20
(形式化的源语言的语法属性标记和语义属性标记可以不删除)
然后, 以自动方式运用固定语段转换规则把英语的固定语段转换成汉语的语 固定语段转换规则
方法 有关 1数据处理 被执行被 5 自动 3工具
4 *
*
* 20
使用者点击意义标记以后, 计算机显示意义特征。 例如: 使用者点击自动 3的 以后, 计算机显示
自动 3 [能借助自身的控制系统进行工作]
使用者点击关系标记以后, 计算机显示关系。 例如: 使用者点击关系标记 4 以后, 计算机显示
4 表示 非核心成分的对象是核心成分的对象的属性 例子 2 : 汉语到英语的翻译
非形式化的汉语
计算机辅助教学通常包含学生和计算机的对话
形式化的汉语
* 1
16
19 和 4 [各成分的对象具有联合关系]
的 3 [非核心成分的对象施行核心成分的对象]
首先以自动方式把汉语的固定语段转换成英语的语段:
computer assisted instruction usually involv^ student and1 computer of 4 dialogue
16
19 involv^ [ contain as a part ]
and1 [ the objects of the elements join together]
of4 [ the object of the non-key element executes the object of the key
element ] 把形式化的源语言转换成形式化的目标语言的实现
图 6 以上述的英语到汉语翻译的实例示出了把形式化的源语言转换成形式化 的目标语言的实现过程。 下面的描述请同时参见图 6。
第一步: 删除形式化的源语言的语法属性标记和语义属性标记。
第二步: 査找固定语段转换规则列表得到匹配的固定语段转换规则, 运用匹 配的固定语段转换规则把源语言的固定语段转换成目标语言的固定语段或非固定 语段。 目标语言的固定语段带有意义标记。
第三步: 在使用者点击目标语言的固定语段的意义标记以后显示固定语段的 意义特征。 在使用者点击关系标记以后显示关系标记所代表的关系。 从源语言到形式化的目标语言的机器翻译的应用
1 从源语言到形式化的目标语言的机器翻译可以用于手机等网络终端设备。 例如: 在手机的存储装置里存储从源语言到形式化目标语言机器翻译系统。 甲是母语是汉语、完全不懂英语的使用者; 乙是母语是英语、完全不懂汉语的使用 者。 甲把非形式化的汉语输入自己的手机, 甲和自己的手机以交互方式对非形式化 的汉语进行形式化处理, 甲的手机以自动方式把形式化的汉语转换成形式化的英 语, 然后, 甲的手机把形式化的英语发送给乙, 乙在自己的手机上阅读形式化的英 语; 乙把非形式化的英语输入自己的手机, 乙和自己的手机以交互方式对非形式化 的英语进行形式化处理, 乙的手机以自动方式把形式化的英语转换成形式化的汉 语, 然后, 乙的手机把形式化的汉语发送给甲, 甲在自己的手机上阅读形式化的汉 语。 (具有从源语言到形式化目标语言机器翻译功能的手机所连接的电脑也具有从 源语言到形式化目标语言机器翻译功能)
母语不同的使用者可以使用手机在互联网上各自用母语进行绝对准确 (没有 任何歧义) 的信息交流 (即时交谈、 电子邮件等) 。
具有从源语言到形式化目标语言机器翻译功能的手机不但能够消除互联网的 语言障碍,增进各国人民的相互了解与合作,而且能够促进各种语言的相互借鉴共 同发展, 保持世界文化的多样性。
2 从源语言到形式化的目标语言的机器翻译可以用于互联网知识库和知识推 理搜索引擎:在其存储装置里存储用形式化的语言表示的普通知识和专业知识并且 存储以交互方式或自动方式对非形式化的源语言进行形式化处理然后以自动方式 把形式化的源语言转换成形式化的目标语言的机器翻译系统。
例如: 在互联网知识库里用形式化的英语全面而充分地表示普通知识和专业 知识。 母语是汉语 /日语 /法语 /德语 /俄语的科学技术工作者用非形式化的汉语 /日 语 /法语 /德语 /俄语在互联网发表论文。 作者和知识推理搜索引擎以交互方式对非 形式化的汉语 /日语 /法语 /德语 /俄语的论文摘要进行形式化处理,然后,知识推理 搜索引擎以自动方式把形式化的汉语 /日语 /法语 /德语 /俄语转换成形式化的英语, 然后,知识推理搜索引擎把形式化的英语的论文摘要存入互联网知识库。知识推理 搜索引擎根据使用者提出的某个专题, 从互联网知识库搜索出关于这个专题的知 识, 进行知识推理以延伸、 扩展或重组知识, 输出形式化的英语的推理结果, 启迪 使用者作出新的发现和发明。知识推理搜索引擎可以根据使用者的需要, 以自动方 式把形式化的英语的推理结果转换成形式化的汉语 /日语 /法语 /德语 /俄语的推理 结果。
知识推理搜索引擎能够大大加快科学技术的发展。
人类正处于以互联网和搜索引擎为特征的信息时代初级阶段; 人类将进入以 互联网知识库和知识推理搜索引擎为特征的信息时代高级阶段。
3 从源语言到形式化的目标语言的机器翻译可以用于专家系统。
例如: 在专家系统的知识库里用形式化的英语全面而充分地表示普通知识和 专业知识。母语是汉语 /日语 /法语 /德语 /俄语的专家用非形式化的汉语 /日语 /法语 /德语 /俄语向专家系统输入知识。然后,专家和专家系统以交互方式对非形式化的 汉语 /日语 /法语 /德语 /俄语进行形式化处理,然后,专家系统以自动方式把形式化 的汉语 /日语 /法语 /德语 /俄语转换成形式化的英语,然后,专家系统把用形式化的 英语表示的知识存入知识库。母语是汉语 /日语 /法语 /德语 /俄语的使用者用非形式 化的汉语 /日语 /法语 /德语 /俄语向专家系统提出问题,然后,使用者和专家系统以 交互方式对非形式化的汉语 /日语 /法语 /德语 /俄语进行形式化处理,然后,专家系 统以自动方式把形式化的汉语 /日语 /法语 /德语 /俄语转换成形式化的英语,然后, 专家系统进行知识推理,用形式化的英语作出解答。专家系统可以根据使用者的需
要,以自动方式把形式化的英语的解答转换成形式化的汉语 /日语 /法语 /德语 /俄语 的解答。
4 从源语言到形式化的目标语言的机器翻译可以用于自动程序设计。
例如: 母语是汉语 /日语 /法语 /德语 /俄语的使用者把用非形式化的汉语 /日语 /法语 /德语 /俄语设计的程序输入计算机, 然后, 使用者和计算机以交互方式对非 形式化的汉语 /日语 /法语 /德语 /俄语进行形式化处理,然后,计算机以自动方式把 形式化的汉语 /日语 /法语 /德语 /俄语转换成形式化的英语,然后,计算机以自动方 式把形式化的英语转换成程序设计语言。 二、 机器翻译方法的第二实施例
本实施例的机器翻译方法是将非形式化的源语言转换成形式化的目标语言, 主要包括两个步骤, 第一步骤是对于非形式化的源语言的初始语段, 首先, 以自动 方式逐个切分固定语段(标注固定语段标记)并标注固定语段的意义标记, 直到最 后一个固定语段, 然后, 以自动方式逐层组合非固定语段(标注组合标记)并标注 非固定语段的核心成分标记、关系标记,直到整个初始语段构成的一个非固定语段。 第二步骤是自动运用固定语段转换规则把源语言的固定语段转换为目标语言的语 段, 从而将非形式化的源语言转换为形式化的目标语言。
其中本实施例的标记的说明、 替代都和第一实施例相同, 在此不再赘述, 以 下重点说明本实施例和上述第一实施例的区别所在。 以自动方式对源语言进行形式化处理
在第一步骤中, 本实施例是以自动方式对源语言进行形式化处理, 包含了以 自动方式切分固定语段并标注标记的过程以及以自动方式组合非固定语段并标注 标记的过程。 下面分别就上述的这两个过程进行详细的描述。 以自动方式切分固定语段并标注标记的过程
存储装置里的固定语段模式包含固定语段及其意义标记 (形式相同意义不同的 固定语段带有意义标记)、 语法属性标记、 语义属性标记; 计算机依次判断, 在存 储装置里, 是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2个
文字单元开头的固定语段, 是否存在最前的 3个文字单元开头的固定语段, 依此 类推; 如果, 在存储装置里, 存在最前的 n个文字单元开头的固定语段, 不存在 最前的 n+1个文字单元开头的固定语段, 计算机就把最前的 n个文字单元切分为 固定语段(标注固定语段标记),査出存储装置里的各个可以运用的固定语段模式, 按累计运用次数从多到少的选择顺序选择其中的一个固定语段模式,运用这个固定 语段模式标注这个固定语段的意义标记、语法属性标记、语义属性标记,依此类推, 直到最后一个固定语段;如果计算机査出在存储装置里不存在剩余语段的最前的 1 个文字单元开头的固定语段,计算机就回溯。 在上述过程中, 计算机通过固定语段 自动切分和标注时的回溯改正固定语段自动切分和标注中的错误。
对于上述过程中提及的 "固定语段模式" , 其实例如下:
methods1 data processing automatic1
Nth Naa Aac 以自动方式切分固定语段并标注标记的实例
英语的例子
methods1 relating to data processing performed1 by2 automatic1 means1
Nth P Naa VTEDPAaa P Aac Nob
汉语的例子
计算机科学 是 研究 1 用 1 自动化 ……
Mww LDzt J Dew J Dew Xcx 以自动方式切分固定语段并标注标记的实现
图 4示出了以自动方式切分固定语段并标注标记的实现过程, 在图 4中粗实 线表示不存在固定语段,虚线表示不存在以此开头的固定语段,细实线表示存在固 定语段。 请结合图 4参考下面的描述。
第一步:获得作为初始数据的语段计算机科学是研究用自动化工具完成数据处 理的方法的一门科学。
第二步: 査找第一个文字单元是计的固定语段一有(存在计开头的固定语段) —在第一个文字单元是计的固定语段里査找第二个文字单元是算的固定语段一有
(存在计算开头的固定语段)一在第一个文字单元是计第二个文字单元是算的固定 语段里査找第三个文字单元是机的固定语段→有(存在计算机开头的固定语段)一 在第一个文字单元是计第二个文字单元是算第三个文字单元是机的固定语段里査 找第四个文字单元是科的固定语段一有 (存在计算机科开头的固定语段)一在第一 个文字单元是计第二个文字单元是算第三个文字单元是机第四个文字单元是科的 固定语段里査找第五个文字单元是学的固定语段一有 (存在计算机科学开头的固定 语段)一在第一个文字单元是计第二个文字单元是算第三个文字单元是机第四个文 字单元是科第五个文字单元是学的固定语段里査找第六个文字单元是是的固定语 段一没有 (不存在计算机科学是开头的固定语段)一把计算机科学切分为固定语段。
第三步: 査出计算机科学这个固定语段的标记组 (意义标记、 语法属性标记、 语义属性标记)列表,选择累计运用次数最多的一个标记组对计算机科学这个固定 语段进行标注。
第四步: 用一个节点把计算机科学这个固定语段及其标记组(意义标记、语法 属性标记、 语义属性标记) 存储于数据列表。
依此逐个切分和标注固定语段, 直到最后一个固定语段。
如果査出在固定语段列表里不存在剩余语段的最前的 1 个文字单元开头的固 定语段,就回溯。 以自动方式组合非固定语段并标注标记的过程
存储装置里的非固定语段模式包含成分语段的语法属性标记、 语义属性标记 和组合语段的组合标记、核心成分标记、关系标记、语法属性标记、语义属性标记; 计算机査出存储装置里的各个可以运用的非固定语段模式,按累计运用次数从多到 少的选择顺序选择其中的一个非固定语段模式,运用这个非固定语段模式组合一个 非固定语段 (标注组合标记) 并标注这个非固定语段的核心成分标记、 关系标记、 语法属性标记、 语义属性标记, 然后, 计算机组合和标注下一个非固定语段,依此 类推,直到整个初始语段构成的一个非固定语段; 如果计算机査出在存储装置里不 存在可以运用的非固定语段模式, 计算机就回溯。
其中计算机通过非固定语段自动组合和标注时的回溯改正非固定语段自动组 合和标注中的错误或固定语段自动切分和标注中的错误。固定语段自动切分和标注
中的错误往往通过非固定语段自动组合和标注时的回溯才能改正< 上述过程中的非固定语段模式的实例如下:
非固定语段模式的实例
Aac Nob
4
Nth Nob 模式三 模式四
VTEDPAaa P Nob Naa VTEDPAaa
* * 20
VTEDPAaa Naa 以自动方式组合非固定语段并标注标记的实例
下面以一个英语的例子来说明以自动方式组合非固定语段并标注标记的过
、王 (
初始语段
methods1 relating to data processing performed1 b automatic1 means1 Nth P Naa VTEDPAaa P Aac Nob 第一层组合
计算机査出存储装置里的各个可以运用的非固定语段模式,按累计运用次数从 多到少的选择顺序选择其中的一个非固定语段模式(上述的模式二), 运用这个非 固定语段模式组合一个非固定语段(标注组合标记)并标注这个非固定语段的核心 成分标记、 关系标记、 语法属性标记、 语义属性标记。
methods1 relating to data processing performed1 b automatic1 means1 Nth P Naa VTEDPAaa P Aac Nob
Nob
第二层组合
计算机査出存储装置里的各个可以运用的非固定语段模式,按累计运用次数从 多到少的选择顺序选择其中的一个非固定语段模式(上述的模式三), 运用这个非 固定语段模式组合一个非固定语段(标注组合标记)并标注这个非固定语段的核心 成分标记、 关系标记、 语法属性标记、 语义属性标记。
methods1 relating to data processing performed1 b automatic1 means1 Nth P Naa VTEDPAaa P Aac Nob
4 *
Nob
VTEDPAaa
第三层组合
计算机査出存储装置里的各个可以运用的非固定语段模式,按累计运用次数从 多到少的选择顺序选择其中的一个非固定语段模式(上述的模式四), 运用这个非 固定语段模式组合一个非固定语段(标注组合标记)并标注这个非固定语段的核心 成分标记、 关系标记、 语法属性标记、 语义属性标记。
methods1 relating to data processing performed1 b automatic1 means1 Nth P Naa VTEDPAaa P Aac Nob
4 *
Nob
VTEDPAaa
20
Naa
第四层组合
计算机査出存储装置里的各个可以运用的非固定语段模式,按累计运用次数从 多到少的选择顺序选择其中的一个非固定语段模式(上述的模式一), 运用这个非 固定语段模式组合一个非固定语段(标注组合标记)并标注这个非固定语段的核心
成分标记、 关系标记、 语法属性标记、 语义属性标记。
methods1 relating to data processing performed1 b automatic1 means
Nth P Naa VTEDPAaa P Aac Nob
4 *
Nob
VTEDPAaa
* 20
Naa
*
Nth 以自动方式组合非固定语段并标注标记的实现
图 5示出了以自动方式组合非固定语段并标注标记的实现过程。以下结合图 5 给出了实现过程的详细描述。
第一步: 査出各个可以运用的非固定语段模式, 按累计运用次数从多到少的 选择顺序选择其中的一个非固定语段模式,运用这个非固定语段模式组合一个非固 定语段(标注组合标记)并给这个非固定语段标注核心成分标记、 关系标记、 语法 属性标记、 语义属性标记。
第二步: 用一个节点把这个非固定语段及其标记组 (核心成分标记、 关系标 记、 语法属性标记、 语义属性标记)存储于数据列表。 保存成分语段的引用 (子节 点) 和组合语段的引用 (父节点) 。
依此逐个组合和标注非固定语段, 直到整个作为初始数据的语段构成的一个 非固定语段。
如果査出在非固定语段模式列表里不存在可以运用的非固定语段模式,就回 溯。 对于本实施例的第二个步骤, 即把形式化的源语言转换成形式化的目标语言 (包括其实现以及应用), 已经在上述的第一个实施例中详细描述, 因此在此不再
赘述。 三、 机器翻译方法的第三实施例
本实施例的机器翻译方法是将非形式化的源语言转换成形式化的目标语言, 主要包括两个步骤, 第一步骤是对于非形式化的源语言的初始语段, 首先, 以交互 方式逐个切分固定语段(标注固定语段标记)并标注固定语段的意义标记, 直到最 后一个固定语段, 然后, 以交互方式逐层组合非固定语段(标注组合标记)并标注 非固定语段的核心成分标记、关系标记,直到整个初始语段构成的一个非固定语段。 第二步骤是自动运用固定语段转换规则把源语言的固定语段转换为目标语言的语 段,然后以自动方式运用非固定语段转换规则逐层把源语言的非固定语段转换成目 标语言的语段, 从而将非形式化的源语言转换为非形式化的目标语言。
其中本实施例的标记的说明、替代、以交互方式对源语言进行形式化处理(包 括以交互方式切分固定语段并标注标记的过程以及以交互方式组合非固定语段并 标注标记的过程)都和第一实施例相同, 在此不再赘述, 以下重点说明本实施例和 上述第一实施例的区别所在。换句话说,本实施例的第一个步骤和第一实施例的第 一个步骤是完全一样的, 因此下面是对本实施例第二个步骤的详细描述。 把形式化的源语言转换成非形式化的目标语言的过程
以自动方式运用固定语段转换规则把源语言的固定语段转换成目标语言的语 段, 然后, 以自动方式运用非固定语段转换规则(即, 根据源语言的非固定语段的 核心成分标记和关系标记或关系词用源语言的非固定语段的成分的译文和目标语 言的关系词构成目标语言的非固定语段的规则)逐层把源语言的非固定语段转换成 目标语言的语段。 把形式化的源语言转换成非形式化的目标语言的实例
以下是以形式化的英语转换成非形式化的汉语为例来说明把形式化的源语言 转换成非形式化的目标语言的过程。
非形式化的英语
形式化的英语
methods1 relating to data processing performed1 b automatic1 means1
4 *
20
(以交互方式对源语言进行形式化处理的结果)
以自动方式运用固定语段转换规则把英语的固定语段转换成汉语的语段:
固定语段转换规则
methods → 方法
data processing → 数据处理
performed1 → 被执行
automatic1 → 白动 3
means1 → 工具 1
以自动方式运用非固定语段转换规则逐层把英语的非固定语段转换成汉语的 语段:
^固定语段转换规则
(…、 ……代表英语成分, /、 relating to是英语关系词, *是核心成分标记, 4、 1是关系标记; 一代表转换; " 、 …… R代表英语成分的汉语译文, 的、 被 5、 有关1是汉语关系词)
规则一
… 4 …… * → …汉的……汉
规则二
*··· b/ ······ → 被 5 · · · · · ·汉…汉
规则三
*··· 1 …… → ……汉的…汉
规则四
*〜 relating to …… → 有关 1……汉的…汉
第一层转换
automatic1 means1→ automatic1 Λ ή means1 — 自动 3的工具 1 (规则一) 第二层转换
performed1 b/ automatic1 means1— 被 5 automatic1 nwans1'11 perfornwd1'11
→ 被 5自动 3的工具1被执行 (规则二)
第三层转换
data processing performed1 b automatic1 means1→ performed1 b/ automatic1 means1 K ] data processing Λ → 被 5自动 3的工具 1被执行的数据处 ¾ (规则三)
第四层转换
methods1 relating to data processing performed1 b automatic1 means1→ 有关 1 data processing performed1 b/ automatic1 means1K j methods → 有关
1被 5自动 3的工具1被执行的数据处理的方法 (规则四)
非形式化的汉语
有关 1被 5自动 3的工具 1被执行的数据处理的方法 把形式化的源语言转换成非形式化的目标语言的实现
图 7示出了把形式化的源语言转换成非形式化的目标语言的实现过程。 请结 合图 Ί参考下面的实现过程的详细描述。
第一步: 査找固定语段转换规则列表得到匹配的固定语段转换规则, 运用匹 配的固定语段转换规则把源语言的固定语段转换成目标语言的固定语段或非固定 语段。 目标语言的固定语段带有意义标记。
第二步: 査找非固定语段转换规则列表得到匹配的非固定语段转换规则, 运
用匹配的非固定语段转换规则(gp, 根据源语言的非固定语段的核心成分标记、关 系标记或关系词用源语言的非固定语段的成分的译文、目标语言的关系词构成目标 语言的非固定语段的规则)把源语言的非固定语段转换成目标语言的语段。通过递 归执行此步骤逐层转换所有的非固定语段。就形式化的源语言的一个当前非固定语 段而言: 首先, 把它的各个成分分别转换成非形式化的目标语言; 然后, 运用匹配 的非固定语段转换规则把当前非固定语段转换成非形式化的目标语言;返回当前非 固定语段的转换结果供上一层次的非固定语段调用,直到把最高层次的非固定语段 (作为初始数据的非固定语段) 转换成非形式化的目标语言。
第三步: 输出非形式化的目标语言。 从源语言到非形式化的目标语言的机器翻译的应用
从源语言到非形式化的目标语言的机器翻译可以用于互联网终端设备。
例如: 在用作互联网终端设备并且连接电脑的手机的存储装置里存储从源语 言到非形式化目标语言机器翻译系统。 甲是母语是汉语、 完全不懂英语的使用者; 乙是母语是英语、 完全不懂汉语的使用者。 甲把非形式化的汉语输入自己的手机, 甲和自己的手机以交互方式对非形式化的汉语进行形式化处理,甲的手机以自动方 式把形式化的汉语转换成非形式化的英语,然后, 甲的手机把非形式化的英语发送 给乙, 乙在自己的手机上阅读非形式化的英语; 乙把非形式化的英语输入自己的手 机, 乙和自己的手机以交互方式对非形式化的英语进行形式化处理, 乙的手机以自 动方式把形式化的英语转换成非形式化的汉语,然后, 乙的手机把非形式化的汉语 发送给甲, 甲在自己的手机上阅读非形式化的汉语。 (具有从源语言到非形式化目 标语言机器翻译功能的手机所连接的电脑也具有从源语言到非形式化目标语言机 器翻译功能)
使用者可以使用手机把母语正确 (而且没有任何词汇歧义) 地翻译成任何一 种自己完全不懂的外语。
具有从源语言到非形式化目标语言机器翻译功能的手机能够消除互联网的语 言障碍, 增进各国人民的相互了解与合作。 四、 机器翻译方法的第四实施例
本实施例的机器翻译方法是将非形式化的源语言转换成形式化的目标语言, 主要包括两个步骤, 第一步骤是对于非形式化的源语言的初始语段, 首先, 以自动 方式逐个切分固定语段(标注固定语段标记)并标注固定语段的意义标记, 直到最 后一个固定语段, 然后, 以自动方式逐层组合非固定语段(标注组合标记)并标注 非固定语段的核心成分标记、关系标记,直到整个初始语段构成的一个非固定语段。 第二步骤是自动运用固定语段转换规则把源语言的固定语段转换为目标语言的语 段,然后以自动方式运用非固定语段转换规则逐层把源语言的非固定语段转换成目 标语言的语段, 从而将非形式化的源语言转换为非形式化的目标语言。
其中本实施例的标记的说明、替代、以自动方式对源语言进行形式化处理(包 括以自动方式切分固定语段并标注标记的过程以及以自动方式组合非固定语段并 标注标记的过程)都和第二实施例相同, 在此不再赘述, 以下重点说明本实施例和 上述第二实施例的区别所在。换句话说,本实施例的第一个步骤和第二实施例的第 一个步骤是完全一样的, 因此下面是对本实施例第二个步骤的详细描述。 把形式化的源语言转换成非形式化的目标语言的过程
以自动方式运用固定语段转换规则把源语言的固定语段转换成目标语言的语 段, 然后, 以自动方式运用非固定语段转换规则(即, 根据源语言的非固定语段的 核心成分标记和关系标记或关系词用源语言的非固定语段的成分的译文和目标语 言的关系词构成目标语言的非固定语段的规则)逐层把源语言的非固定语段转换成 目标语言的语段。 把形式化的源语言转换成非形式化的目标语言的实例
以下是以形式化的英语转换成非形式化的汉语为例来说明把形式化的源语言 转换成非形式化的目标语言的过程。
非形式化的英语 形式化的英语
methods1 relating to data processing performed1 by2 automatic1 means1
Nth P Naa VTEDPAaa P Aac Nob
4 i
Nob
VTEDPAaa
20
Naa
Nth
(以自动方式对源语言进行形式化处理的结果)
以自动方式运用固定语段转换规则把英语的固定语段转换成汉语的语段:
固定语段转换规则
methods → 方法
data processing → 数据处理
performed1 → 被执行
automatic1 → 白动 3
means1 → 工具 1
以自动方式运用非固定语段转换规则逐层把英语的非固定语段转换成汉语的 语段:
3 固定语段转换规则
(…、 ……代表英语成分, /、 relating to是英语关系词, *是核心成分标记, 4、 1是关系标记; 一代表转换; " 、 …… R代表英语成分的汉语译文, 的、 被 5、 有关1是汉语关系词)
规则一
… 4 …… * → …汉的……汉
规则二
*··· b/ ······ → 被 5 · · · · · ·汉…汉
规则三
*··· 1 …… → ……汉的…汉
规则四
*〜 relating to …… → 有关 1……汉的…汉
第一层转换
automatic1 means1→ automatic1 Λ ή means1 — 自动 3的工具 1 (规则一) 第二层转换
performed1 b/ automatic1 means1— 被 5 automatic1 nwans1'11 perfornwd1'11
→ 被 5自动 3的工具1被执行 (规则二)
第三层转换
data processing performed1 b/ automatic1 means1→ performed1 b automatic1 means1 K ] data processing Λ → 被 5自动 3的工具 1被执行的数据处 (规则三)
第四层转换
methods1 relating to data processing performed1 b automatic1 means1→ 有关1 data processing performed1 by2 automatic1 means1K j methods → 有关
1被 5自动 3的工具1被执行的数据处理的方法 (规则四)
非形式化的汉语
有关 1被 5自动 3的工具 1被执行的数据处理的方法 而把形式化的源语言转换成非形式化的目标语言的实现以及从源语言到非形 式化的目标语言的机器翻译的应用均在上述的第三实施例中说明, 在此不再赘述。 在描述了关于机器翻译方法的上述四个实施例之后, 本发明分别针对上述的 四个有关方法的实施例,提供了关于机器翻译系统的四个实施例。 由于这四个系统
的实施例的技术实现细节和对应的方法实施例相同,因此对于这些系统实施例下面 不提供对其具体实施技术的详细描述。 五、 机器翻译系统的第一实施例
图 8示出了机器翻译系统的第一实施例的原理。请参见图 8, 本实施例的机器 翻译系统至少包括两个模块: 源语言形式化处理模块 10和与之连接的形式化目标 语言转换模块 12。 对于源语言形式化处理模块 10, 对于非形式化的源语言的初始 语段, 首先, 以交互方式逐个切分固定语段并标注固定语段的意义标记, 直到最后 一个固定语段,然后, 以交互方式逐层组合非固定语段并标注非固定语段的核心成 分标记、关系标记, 直到整个初始语段构成的一个非固定语段。对于形式化目标语 言转换模块 12, 自动运用固定语段转换规则把源语言的固定语段转换为目标语言 的语段, 从而将非形式化的源语言转换为形式化的目标语言。
对于本实施例的机器翻译系统中涉及的标记, 和机器翻译方法的第一实施例 中详细记载的标记相同。
较佳的, 本实施例还可以设置一个替换标记模块, 替换标记模块连接在源语 言形式化处理模块 10之前,在源语言形式化处理模块 10之前预先使用替换标记把 一个初始语段分解成若干个子语段,针对这些子语段分别进行后续的源语言形式化 处理模块 10的处理。 替换标记模块的具体运作过程和机器翻译方法的第一实施例 中详细记载的替换标记相同。
对于源语言形式化处理模块 10而言, 其内部至少包括了交互式切分固定语段 单元 100以及与之连接的交互式组合非固定语段单元 102。
对于交互式切分固定语段单元 100来说, 存储器的固定语段模式包含固定语 段及其意义标记,其中形式相同意义不同的固定语段带有意义标记, 由处理器依次 判断在存储器里是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2 个文字单元开头的固定语段,是否存在最前的 3个文字单元开头的固定语段,依此 类推, 如果在存储器里存在最前的 n个文字单元开头的固定语段而不存在最前的 n + 1个文字单元开头的固定语段,处理器就将最前的 n个文字单元切分为固定语段, 标注固定语段标记, 运用一个固定语段模式标注该固定语段的意义标记, 其中 n 为自然数, 然后由使用者确认或修改, 依此类推直到最后一个固定语段; 其中如果
在存储器里不存在剩余语段的最前的 1个文字单元开头的固定语段,使用者就切分 剩余语段的最前的 1个文字单元开头的固定语段,标注固定语段标记并标注这个固 定语段的意义标记,然后由处理器继续切分和标注下一个固定语段。而其内部实现 的具体细节、 实例等均已在机器翻译方法的第一实施例中说明。
对于交互式组合非固定语段单元 102来说, 以交互方式逐层逐个按组合标记、 核心成分标记、关系标记的顺序标注非固定语段的标记,直到整个初始语段构成的 一个非固定语段。而交互式组合非固定语段单元 102具体的实现细节、实例等均已 在机器翻译方法的第一实施例中说明。
形式化目标语言转换模块 12进一步包括依次连接的标记删除单元 120、 固定 语段转换单元 122以及标记点击单元 124。标记删除单元 120删除形式化的源语言 的语法属性标记和语义属性标记。固定语段转换单元 122査找固定语段转换规则列 表得到匹配的固定语段转换规则,运用匹配的固定语段转换规则把源语言的固定语 段转换成目标语言的固定语段或非固定语段,其中目标语言的固定语段带有意义标 记。标记点击单元 124在使用者点击目标语言的固定语段的意义标记以后显示固定 语段的意义特征,在使用者点击关系标记以后显示关系标记所代表的关系。这三个 单元具体的实现细节以及形式化目标语言转换模块 12的实例, 均已在机器翻译方 法的第一实施例中说明。 六、 机器翻译系统的第二实施例
图 9示出了机器翻译系统的第二实施例的原理。请参见图 9, 本实施例的机器 翻译系统至少包括两个模块: 源语言形式化处理模块 20和与之连接的形式化目标 语言转换模块 22。 对于源语言形式化处理模块 20, 对于非形式化的源语言的初始 语段, 首先, 以自动方式逐个切分固定语段并标注固定语段的意义标记, 直到最后 一个固定语段,然后, 以自动方式逐层组合非固定语段并标注非固定语段的核心成 分标记、关系标记, 直到整个初始语段构成的一个非固定语段。对于形式化目标语 言转换模块 22, 自动运用固定语段转换规则把源语言的固定语段转换为目标语言 的语段, 从而将非形式化的源语言转换为形式化的目标语言。
对于本实施例的机器翻译系统中涉及的标记, 和机器翻译方法的第二实施例 中详细记载的标记相同。
较佳的, 本实施例还可以设置一个替换标记模块, 替换标记模块连接在源语 言形式化处理模块 20之前,在源语言形式化处理模块 20之前预先使用替换标记把 一个初始语段分解成若干个子语段,针对这些子语段分别进行后续的源语言形式化 处理模块 20的处理。 替换标记模块的具体运作过程和机器翻译方法的第二实施例 中详细记载的替换标记相同。
对于源语言形式化处理模块 20而言, 其内部至少包括了自动式切分固定语段 单元 200以及与之连接的自动式组合非固定语段单元 202。
对于自动式切分固定语段单元 200来说, 存储器的固定语段模式包含固定语 段及其意义标记,其中形式相同意义不同的固定语段带有意义标记, 由处理器依次 判断在存储器里是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2 个文字单元开头的固定语段,是否存在最前的 3个文字单元开头的固定语段,依此 类推, 如果在存储器里存在最前的 n个文字单元开头的固定语段而不存在最前的 n + 1个文字单元开头的固定语段,处理器就将最前的 n个文字单元切分为固定语段, 标注固定语段标记, 运用一个固定语段模式标注该固定语段的意义标记, 其中 n 为自然数, 然后由使用者确认或修改, 依此类推直到最后一个固定语段; 其中如果 在存储器里不存在剩余语段的最前的 1个文字单元开头的固定语段,使用者就切分 剩余语段的最前的 1个文字单元开头的固定语段,标注固定语段标记并标注这个固 定语段的意义标记,然后由处理器继续切分和标注下一个固定语段。而其内部实现 的具体细节、 实例等均已在机器翻译方法的第二实施例中说明。
对于自动式组合非固定语段单元 202来说, 以自动方式逐层逐个按组合标记、 核心成分标记、关系标记的顺序标注非固定语段的标记,直到整个初始语段构成的 一个非固定语段。而自动式组合非固定语段单元 202具体的实现细节、实例等均已 在机器翻译方法的第二实施例中说明。
形式化目标语言转换模块 22 进一步包括依次连接的自动方式标记删除单元 220、 自动方式固定语段转换单元 222以及标记点击单元 224。 自动方式标记删除 单元 220 以自动方式删除作为以自动方式对源语言进行形式化处理的结果的形式 化的源语言的语法属性标记和语义属性标记(自动方式标记删除单元 220可以不设 置)。 自动方式固定语段转换单元 222査找固定语段转换规则列表得到匹配的固定 语段转换规则,运用匹配的固定语段转换规则把源语言的固定语段转换成目标语言
的固定语段或非固定语段,其中目标语言的固定语段带有意义标记。标记点击单元
224在使用者点击目标语言的固定语段的意义标记以后显示固定语段的意义特征, 在使用者点击关系标记以后显示关系标记所代表的关系。这三个单元具体的实现细 节以及形式化目标语言转换模块 22的实例, 均已在机器翻译方法的第二实施例中 说明。 七、 机器翻译系统的第三实施例
图 10示出了机器翻译系统的第三实施例的原理。请参见图 10, 本实施例的机 器翻译系统至少包括两个模块: 源语言形式化处理模块 30和与之连接的非形式化 目标语言转换模块 32。 对于源语言形式化处理模块 30, 对于非形式化的源语言的 初始语段, 首先, 以交互方式逐个切分固定语段并标注固定语段的意义标记, 直到 最后一个固定语段,然后, 以交互方式逐层组合非固定语段并标注非固定语段的核 心成分标记、关系标记, 直到整个初始语段构成的一个非固定语段。对于非形式化 目标语言转换模块 32, 以自动方式运用固定语段转换规则把源语言的固定语段转 换成目标语言的语段,然后以自动方式运用非固定语段转换规则逐层把源语言的非 固定语段转换成目标语言的语段,从而将非形式化的源语言转换为非形式化的目标 a
对于本实施例的机器翻译系统中涉及的标记, 和机器翻译方法的第三实施例 中详细记载的标记相同。
较佳的, 本实施例还可以设置一个替换标记模块, 替换标记模块连接在源语 言形式化处理模块 30之前,在源语言形式化处理模块 30之前预先使用替换标记把 一个初始语段分解成若干个子语段,针对这些子语段分别进行后续的源语言形式化 处理模块 30的处理。 替换标记模块的具体运作过程和机器翻译方法的第三实施例 中详细记载的替换标记相同。
对于源语言形式化处理模块 30而言, 其内部至少包括了交互式切分固定语段 单元 300以及与之连接的交互式组合非固定语段单元 302。
对于交互式切分固定语段单元 300来说, 存储器的固定语段模式包含固定语 段及其意义标记,其中形式相同意义不同的固定语段带有意义标记, 由处理器依次 判断在存储器里是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2
个文字单元开头的固定语段,是否存在最前的 3个文字单元开头的固定语段,依此 类推, 如果在存储器里存在最前的 n个文字单元开头的固定语段而不存在最前的 n + 1个文字单元开头的固定语段,处理器就将最前的 n个文字单元切分为固定语段, 标注固定语段标记, 运用一个固定语段模式标注该固定语段的意义标记, 其中 n 为自然数, 然后由使用者确认或修改, 依此类推直到最后一个固定语段; 其中如果 在存储器里不存在剩余语段的最前的 1个文字单元开头的固定语段,使用者就切分 剩余语段的最前的 1个文字单元开头的固定语段,标注固定语段标记并标注这个固 定语段的意义标记,然后由处理器继续切分和标注下一个固定语段。而其内部实现 的具体细节、 实例等均已在机器翻译方法的第三实施例中说明。
对于交互式组合非固定语段单元 302来说, 以交互方式逐层逐个按组合标记、 核心成分标记、关系标记的顺序标注非固定语段的标记,直到整个初始语段构成的 一个非固定语段。而交互式组合非固定语段单元 302具体的实现细节、实例等均已 在机器翻译方法的第三实施例中说明。
非形式化目标语言转换模块 32进一步包括固定语段转换单元 320以及与之连 接的非固定语段转换单元 322。 固定语段转换单元 320査找固定语段转换规则列表 得到匹配的固定语段转换规则,运用匹配的固定语段转换规则把源语言的固定语段 转换成目标语言的固定语段或非固定语段, 其中目标语言的固定语段带有意义标 记。非固定语段转换单元 322査找非固定语段转换规则列表得到匹配的非固定语段 转换规则,运用匹配的非固定语段转换规则把源语言的非固定语段转换成目标语言 的语段,通过递归执行此步骤逐层转换所有的非固定语段,其中对形式化的源语言 的当前非固定语段来说,首先把当前非固定语段的各个成分分别转换成非形式化的 目标语言,然后运用匹配的非固定语段转换规则把当前非固定语段转换成非形式化 的目标语言,返回当前非固定语段的转换结果供上一层次的非固定语段调用,直到 把最高层次的非固定语段转换成非形式化的目标语言,最后输出非形式化的目标语 言。 这两个单元具体的实现细节以及非形式化目标语言转换模块 32的实例, 均已 在机器翻译方法的第三实施例中说明。 八、 机器翻译系统的第四实施例
图 11示出了机器翻译系统的第四实施例的原理。请参见图 11, 本实施例的机
器翻译系统至少包括两个模块: 源语言形式化处理模块 40和与之连接的非形式化 目标语言转换模块 42。 对于源语言形式化处理模块 40, 对于非形式化的源语言的 初始语段, 首先, 以自动方式逐个切分固定语段并标注固定语段的意义标记, 直到 最后一个固定语段,然后, 以自动方式逐层组合非固定语段并标注非固定语段的核 心成分标记、关系标记, 直到整个初始语段构成的一个非固定语段。对于非形式化 目标语言转换模块 42, 以自动方式运用固定语段转换规则把源语言的固定语段转 换成目标语言的语段,然后以自动方式运用非固定语段转换规则逐层把源语言的非 固定语段转换成目标语言的语段,从而将非形式化的源语言转换为非形式化的目标 a
对于本实施例的机器翻译系统中涉及的标记, 和机器翻译方法的第四实施例 中详细记载的标记相同。
较佳的, 本实施例还可以设置一个替换标记模块, 替换标记模块连接在源语 言形式化处理模块 40之前,在源语言形式化处理模块 40之前预先使用替换标记把 一个初始语段分解成若干个子语段,针对这些子语段分别进行后续的源语言形式化 处理模块 40的处理。 替换标记模块的具体运作过程和机器翻译方法的第四实施例 中详细记载的替换标记相同。
对于源语言形式化处理模块 40而言, 其内部至少包括了自动式切分固定语段 单元 400以及与之连接的自动式组合非固定语段单元 402。
对于自动式切分固定语段单元 400来说, 存储器的固定语段模式包含固定语 段及其意义标记,其中形式相同意义不同的固定语段带有意义标记, 由处理器依次 判断在存储器里是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2 个文字单元开头的固定语段,是否存在最前的 3个文字单元开头的固定语段,依此 类推, 如果在存储器里存在最前的 n个文字单元开头的固定语段而不存在最前的 n + 1个文字单元开头的固定语段,处理器就将最前的 n个文字单元切分为固定语段, 标注固定语段标记, 运用一个固定语段模式标注该固定语段的意义标记, 其中 n 为自然数, 然后由使用者确认或修改, 依此类推直到最后一个固定语段; 其中如果 在存储器里不存在剩余语段的最前的 1个文字单元开头的固定语段,使用者就切分 剩余语段的最前的 1个文字单元开头的固定语段,标注固定语段标记并标注这个固 定语段的意义标记,然后由处理器继续切分和标注下一个固定语段。而其内部实现
的具体细节、 实例等均已在机器翻译方法的第四实施例中说明。
对于自动式组合非固定语段单元 402来说, 以自动方式逐层逐个按组合标记、 核心成分标记、关系标记的顺序标注非固定语段的标记,直到整个初始语段构成的 一个非固定语段。而自动式组合非固定语段单元 402具体的实现细节、实例等均已 在机器翻译方法的第四实施例中说明。
非形式化目标语言转换模块 42进一步包括固定语段转换单元 420以及与之连 接的非固定语段转换单元 422。 固定语段转换单元 420査找固定语段转换规则列表 得到匹配的固定语段转换规则,运用匹配的固定语段转换规则把源语言的固定语段 转换成目标语言的固定语段或非固定语段, 其中目标语言的固定语段带有意义标 记。非固定语段转换单元 422査找非固定语段转换规则列表得到匹配的非固定语段 转换规则,运用匹配的非固定语段转换规则把源语言的非固定语段转换成目标语言 的语段,通过递归执行此步骤逐层转换所有的非固定语段,其中对形式化的源语言 的当前非固定语段来说,首先把当前非固定语段的各个成分分别转换成非形式化的 目标语言,然后运用匹配的非固定语段转换规则把当前非固定语段转换成非形式化 的目标语言,返回当前非固定语段的转换结果供上一层次的非固定语段调用,直到 把最高层次的非固定语段转换成非形式化的目标语言,最后输出非形式化的目标语 言。 这两个单元具体的实现细节以及非形式化目标语言转换模块 42的实例, 均已 在机器翻译方法的第四实施例中说明。
上述实施例是提供给本领域普通技术人员来实现或使用本发明的, 本领域普 通技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或 变化, 因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提 到的创新性特征的最大范围。
Claims (1)
- 权 利 要 求 书1 一种把非形式化的源语言翻译成形式化的目标语言的机器翻译方法, 该方法包括:步骤一: 对非形式化的源语言进行形式化处理 对于非形式化的源语言 的初始语段, 首先, 逐个切分固定语段并标注固定语段的意义标记, 直到最后 一个固定语段,然后,逐层组合非固定语段并标注非固定语段的核心成分标记、 关系标记, 直到整个初始语段构成的一个非固定语段;步骤二: 以自动方式把形式化的源语言转换成形式化的目标语言 以自 动方式运用固定语段转换规则把源语言的固定语段转换成目标语言的语段。2 根据权利要求 1 所述的机器翻译方法, 其特征在于: 在步骤一中, 使 用替代标记进行预处理 预先使用替代标记把一个初始语段分解成若干个 子语段, 接着对这些子语段分别进行形式化处理。3 根据权利要求 1 所述的机器翻译方法, 其特征在于: 步骤一是以交互 方式对非形式化的源语言进行形式化处理 对于非形式化的源语言的初始 语段, 首先, 以交互方式逐个切分固定语段并标注固定语段的意义标记, 直到 最后一个固定语段, 然后, 以交互方式逐层组合非固定语段并标注非固定语段 的核心成分标记、 关系标记, 直到整个初始语段构成的一个非固定语段。4 根据权利要求 3 所述的机器翻译方法, 其特征在于: 以交互方式切分 并标注固定语段的过程进一步包括: 存储器里的固定语段模式包含固定语段及 其意义标记, 其中形式相同意义不同的固定语段带有意义标记; 处理器依次判 断, 在存储器里, 是否存在最前的 1个文字单元开头的固定语段, 是否存在最 前的 2个文字单元开头的固定语段, 是否存在最前的 3个文字单元开头的固定 语段, 依此类推; 如果在存储器里存在最前的 n, 个文字单元开头的固定语段 而不存在最前的 n+1个文字单元开头的固定语段, 处理器就把最前的 n个文字 单元切分为固定语段, 其中 n是自然数, 运用一个固定语段模式标注这个固定 语段的意义标记,然后,使用者确认或修改,依此类推,直到最后一个固定语段; 如果处理器査出在存储器里不存在剩余语段的最前的 1个文字单元开头的固定 语段,使用者就切分剩余语段的最前的 1 个文字单元开头的固定语段并标注这 个固定语段的意义标记, 然后, 处理器切分和标注下一个固定语段。 5 根据权利要求 1 所述的机器翻译方法, 其特征在于: 步骤一是以自动 方式对非形式化的源语言进行形式化处理 对于非形式化的源语言的初始 语段, 首先, 以自动方式逐个切分固定语段并标注固定语段的意义标记, 直到 最后一个固定语段, 然后, 以自动方式逐层组合非固定语段并标注非固定语段 的核心成分标记、 关系标记, 直到整个初始语段构成的一个非固定语段。6 根据权利要求 5 所述的机器翻译方法, 其特征在于: 以自动方式切分 并标注固定语段的过程进一步包括: 存储器里的固定语段模式包含固定语段及 其意义标记、 语法属性标记、 语义属性标记, 其中形式相同意义不同的固定语 段带有意义标记; 处理器依次判断, 在存储器里, 是否存在最前的 1个文字单 元开头的固定语段, 是否存在最前的 2 个文字单元开头的固定语段, 是否存在 最前的 3个文字单元开头的固定语段, 依此类推; 如果, 在存储器里, 存在最 前的 n个文字单元开头的固定语段而不存在最前的 n+1个文字单元开头的固定 语段, 处理器就把最前的 n个文字单元切分为固定语段, 其中 n是自然数, 査 出存储器里的各个可以运用的固定语段模式, 按累计运用次数从多到少的选择 顺序选择其中的一个固定语段模式, 运用这个固定语段模式标注这个固定语段 的意义标记、语法属性标记、语义属性标记,依此类推,直到最后一个固定语段; 如果处理器査出在存储器里不存在剩余语段的最前的 1个文字单元开头的固定 语段, 处理器就进行回溯。7 根据权利要求 5 所述的机器翻译方法, 其特征在于: 以自动方式组合 并标注非固定语段的过程进一步包括: 存储器里的非固定语段模式包含成分语 段的语法属性标记、 语义属性标记和组合语段的组合标记、 核心成分标记、 关 系标记、 语法属性标记、 语义属性标记; 处理器査出存储器里的各个可以运用 的非固定语段模式, 按累计运用次数从多到少的选择顺序选择其中的一个非固 定语段模式, 运用这个非固定语段模式组合一个非固定语段并标注这个非固定 语段的核心成分标记、 关系标记、 语法属性标记、 语义属性标记, 然后, 处理 器组合和标注下一个非固定语段,依此类推,直到整个初始语段构成的一个非固 定语段; 如果处理器査出在存储器里不存在可以运用的非固定语段模式, 处理 器就进行回溯。8 根据权利要求 1 所述的机器翻译方法, 其特征在于: 在步骤二中, 处 理器査找固定语段转换规则列表得到匹配的固定语段转换规则, 运用匹配的固 定语段转换规则把源语言的固定语段转换成目标语言的固定语段或非固定语 段, 目标语言的固定语段带有意义标记; 在使用者点击目标语言的固定语段的 意义标记以后显示器显示固定语段的意义特征, 在使用者点击关系标记以后显 示器显示关系标记所代表的关系。9 一种把非形式化的源语言翻译成非形式化的目标语言的机器翻译方 法, 该方法包括:步骤一: 对非形式化的源语言进行形式化处理 对于非形式化的源语言 的初始语段, 首先, 逐个切分固定语段并标注固定语段的意义标记, 直到最后 一个固定语段,然后,逐层组合非固定语段并标注非固定语段的核心成分标记、 关系标记, 直到整个初始语段构成的一个非固定语段;步骤二: 以自动方式把形式化的源语言转换成非形式化的目标语言 首 先, 以自动方式运用固定语段转换规则把源语言的固定语段转换成目标语言的 语段, 然后, 以自动方式运用非固定语段转换规则逐层把源语言的非固定语段 转换成目标语言的语段。10 根据权利要求 9所述的机器翻译方法, 其特征在于: 在步骤一中, 使 用替代标记进行预处理 预先使用替代标记把一个初始语段分解成若干个 子语段, 接着对这些子语段分别进行形式化处理。11 根据权利要求 9所述的机器翻译方法, 其特征在于: 步骤一是以交互 方式对非形式化的源语言进行形式化处理进一步包括: 对于非形式化的源语言 的初始语段,首先, 以交互方式逐个切分固定语段并标注固定语段的意义标记, 直到最后一个固定语段, 然后, 以交互方式逐层组合非固定语段并标注非固定 语段的核心成分标记、 关系标记, 直到整个初始语段构成的一个非固定语段。12 根据权利要求 11 所述的机器翻译方法, 其特征在于: 以交互方式切 分并标注固定语段的过程进一步包括: 存储器里的固定语段模式包含固定语段 及其意义标记, 其中形式相同意义不同的固定语段带有意义标记; 处理器依次 判断, 在存储器里, 是否存在最前的 1个文字单元开头的固定语段, 是否存在 最前的 2个文字单元开头的固定语段, 是否存在最前的 3个文字单元开头的固 定语段, 依此类推; 如果在存储器里存在最前的 n个文字单元开头的固定语段 而不存在最前的 n+1个文字单元开头的固定语段, 处理器就把最前的 n个文字 单元切分为固定语段, 其中 n是自然数, 运用一个固定语段模式标注这个固定 语段的意义标记,然后,使用者确认或修改,依此类推,直到最后一个固定语段; 如果处理器査出在存储器里不存在剩余语段的最前的 1个文字单元开头的固定 语段,使用者就切分剩余语段的最前的 1 个文字单元开头的固定语段并标注这 个固定语段的意义标记, 然后, 处理器切分和标注下一个固定语段。13 根据权利要求 9所述的机器翻译方法, 其特征在于: 步骤一是以自动 方式对非形式化的源语言进行形式化处理, 进一步包括: 对于非形式化的源语 言的初始语段, 首先, 以自动方式逐个切分固定语段并标注固定语段的意义标 记, 直到最后一个固定语段, 然后, 以自动方式逐层组合非固定语段并标注非 固定语段的核心成分标记、 关系标记, 直到整个初始语段构成的一个非固定语 段。14 根据权利要求 13 所述的机器翻译方法, 其特征在于: 以自动方式切 分并标注固定语段的过程进一步包括: 存储器里的固定语段模式包含固定语段 及其意义标记、 语法属性标记、 语义属性标记, 其中形式相同意义不同的固定 语段带有意义标记; 处理器依次判断, 在存储器里, 是否存在最前的 1个文字 单元开头的固定语段, 是否存在最前的 2 个文字单元开头的固定语段, 是否存 在最前的 3个文字单元开头的固定语段, 依此类推; 如果, 在存储器里, 存在 最前的 n个文字单元开头的固定语段而不存在最前的 n+1个文字单元开头的固 定语段, 处理器就把最前的 n个文字单元切分为固定语段, 其中 n是自然数, 査出存储器里的各个可以运用的固定语段模式, 按累计运用次数从多到少的选 择顺序选择其中的一个固定语段模式, 运用这个固定语段模式标注这个固定语 段的意义标记、 语法属性标记、 语义属性标记,依此类推, 直到最后一个固定语 段; 如果处理器査出在存储器里不存在剩余语段的最前的 1个文字单元开头的 固定语段, 处理器就进行回溯。15 根据权利要求 13 所述的机器翻译方法, 其特征在于: 以自动方式组 合并标注非固定语段的过程进一步包括: 存储器里的非固定语段模式包含成分 语段的语法属性标记、 语义属性标记和组合语段的组合标记、 核心成分标记、 关系标记、 语法属性标记、 语义属性标记; 处理器査出存储器里的各个可以运 用的非固定语段模式, 按累计运用次数从多到少的选择顺序选择其中的一个非 固定语段模式, 运用这个非固定语段模式组合一个非固定语段并标注这个非固 定语段的核心成分标记、 关系标记、 语法属性标记、 语义属性标记, 然后, 处 理器组合和标注下一个非固定语段,依此类推,直到整个初始语段构成的一个非 固定语段; 如果处理器査出在存储器里不存在可以运用的非固定语段模式, 处 理器就进行回溯。16 根据权利要求 9所述的机器翻译方法, 其特征在于: 步骤二进一步包 括:处理器査找固定语段转换规则列表得到匹配的固定语段转换规则, 运用匹 配的固定语段转换规则把源语言的固定语段转换成目标语言的固定语段或非 固定语段;处理器査找非固定语段转换规则列表得到匹配的非固定语段转换规则, 目 标语言的非固定语段的规则是根据源语言的非固定语段的核心成分标记、 关系 标记或关系词用源语言的非固定语段的成分的译文、 目标语言的关系词构成 的, 运用匹配的非固定语段转换规则把源语言的非固定语段转换成目标语言的 非固定语段, 通过递归执行此步骤逐层转换所有的非固定语段, 其中对形式化 的源语言的当前非固定语段来说, 首先把当前非固定语段的各个成分分别转换 成非形式化的目标语言, 然后运用匹配的非固定语段转换规则把当前非固定语 段转换成非形式化的目标语言, 返回当前非固定语段的转换结果供上一层次的 非固定语段调用, 直到把作为初始数据的非固定语段转换成非形式化的目标语 曰。17 一种把非形式化的源语言翻译成形式化的目标语言的机器翻译系统, 该系统包括:源语言形式化处理模块, 该模块对非形式化的源语言进行形式化处理 对于非形式化的源语言的初始语段, 首先, 逐个切分固定语段并标注固定语段 的意义标记, 直到最后一个固定语段, 然后, 逐层组合非固定语段并标注非固 定语段的核心成分标记、关系标记,直到整个初始语段构成的一个非固定语段; 形式化目标语言转换模块, 该模块连接在源语言形式化处理模块之后, 以 自动方式把形式化的源语言转换成形式化的目标语言 以自动方式运用固 定语段转换规则把源语言的固定语段转换成目标语言的语段。18 根据权利要求 17所述的机器翻译系统, 其特征在于: 该系统还包括 一个连接在源语言形式化处理模块之前的替代模块, 该模块使用替代标记进行 预处理 预先使用替代标记把一个初始语段分解成若干个子语段, 接着对这 些子语段分别进行形式化处理。19 根据权利要求 17所述的机器翻译系统, 其特征在于: 源语言形式化 处理模块以交互方式对非形式化的源语言进行形式化处理,该模块进一步包括: 交互方式固定语段切分单元, 该单元以交互方式逐个切分固定语段并标注 固定语段的意义标记, 直到最后一个固定语段;交互方式非固定语段组合单元, 该单元连接在交互方式固定语段切分单元 之后, 以交互方式逐层组合非固定语段并标注非固定语段的核心成分标记、 关 系标记, 直到整个初始语段构成的一个非固定语段。20 根据权利要求 19所述的机器翻译系统, 其特征在于: 交互方式固定 语段切分单元以交互方式切分并标注固定语段的过程进一步包括: 存储器里的 固定语段模式包含固定语段及其意义标记, 其中形式相同意义不同的固定语段 带有意义标记; 处理器依次判断, 在存储器里, 是否存在最前的 1个文字单元 开头的固定语段, 是否存在最前的 2 个文字单元开头的固定语段, 是否存在最 前的 3个文字单元开头的固定语段, 依此类推; 如果在存储器里存在最前的 n 个文字单元开头的固定语段而不存在最前的 n+1个文字单元开头的固定语段, 处理器就把最前的 n个文字单元切分为固定语段, 其中 n是自然数, 运用一个 固定语段模式标注这个固定语段的意义标记,然后, 使用者确认或修改, 依此类 推, 直到最后一个固定语段; 如果处理器査出在存储器里不存在剩余语段的最 前的 1个文字单元开头的固定语段,使用者就切分剩余语段的最前的 1个文字单 元开头的固定语段并标注这个固定语段的意义标记, 然后, 处理器切分和标注 下一个固定语段。21 根据权利要求 17所述的机器翻译系统, 其特征在于: 源语言形式化 处理模块以自动方式对非形式化的源语言进行形式化处理, 该模块进一步包 括:自动方式固定语段切分单元, 该单元以自动方式逐个切分固定语段并标注 固定语段的意义标记, 直到最后一个固定语段;自动方式非固定语段组合单元, 该单元连接在自动方式固定语段切分单元 之后, 以自动方式逐层组合非固定语段并标注非固定语段的核心成分标记、 关 系标记, 直到整个初始语段构成的一个非固定语段。22 根据权利要求 21 所述的机器翻译系统, 其特征在于: 自动方式固定 语段切分单元以自动方式切分并标注固定语段的过程进一步包括: 存储器里的 固定语段模式包含固定语段及其意义标记、 语法属性标记、 语义属性标记, 其 中形式相同意义不同的固定语段带有意义标记; 处理器依次判断,在存储器里, 是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2个文字单元 开头的固定语段, 是否存在最前的 3个文字单元开头的固定语段, 依此类推; 如果, 在存储器里, 存在最前的 n个文字单元开头的固定语段而不存在最前的 n+1个文字单元开头的固定语段, 处理器就把最前的 n个文字单元切分为固定 语段, 其中 n是自然数, 査出存储器里的各个可以运用的固定语段模式, 按累 计运用次数从多到少的选择顺序选择其中的一个固定语段模式, 运用这个固定 语段模式标注这个固定语段的意义标记、 语法属性标记、 语义属性标记,依此类 推, 直到最后一个固定语段; 如果处理器査出在存储器里不存在剩余语段的最 前的 1个文字单元开头的固定语段, 处理器就进行回溯。23 根据权利要求 21 所述的机器翻译系统, 其特征在于: 自动方式非固 定语段组合单元以自动方式组合并标注非固定语段的过程进一步包括: 存储器 里的非固定语段模式包含成分语段的语法属性标记、 语义属性标记和组合语段 的组合标记、 核心成分标记、 关系标记、 语法属性标记、 语义属性标记; 处理 器査出存储器里的各个可以运用的非固定语段模式, 按累计运用次数从多到少 的选择顺序选择其中的一个非固定语段模式, 运用这个非固定语段模式组合一 个非固定语段并标注这个非固定语段的核心成分标记、 关系标记、 语法属性标 记、 语义属性标记, 然后, 处理器组合和标注下一个非固定语段,依此类推, 直 到整个初始语段构成的一个非固定语段; 如果处理器査出在存储器里不存在可 以运用的非固定语段模式, 处理器就进行回溯。24 根据权利要求 17所述的机器翻译系统, 其特征在于: 形式化目标语 言转换模块进一步包括: 自动方式固定语段转换单元, 该单元査找固定语段转换规则列表得到匹配 的固定语段转换规则, 运用匹配的固定语段转换规则把源语言的固定语段转换 成目标语言的固定语段或非固定语段, 目标语言的固定语段带有意义标记; 标记点击单元, 该单元在使用者点击目标语言的固定语段的意义标记以后 显示固定语段的意义特征, 在使用者点击关系标记以后显示关系标记所代表的 关系。25 一种把非形式化的源语言翻译成非形式化的目标语言的机器翻译系 统, 该系统包括:源语言形式化处理模块, 该模块对非形式化的源语言进行形式化处理 对于非形式化的源语言的初始语段, 首先, 逐个切分固定语段并标注固定语段 的意义标记, 直到最后一个固定语段, 然后, 逐层组合非固定语段并标注非固 定语段的核心成分标记、关系标记,直到整个初始语段构成的一个非固定语段; 非形式化目标语言转换模块, 该模块连接在源语言形式化处理模块之后, 以自动方式把形式化的源语言转换成非形式化的目标语言 首先, 以自动方 式运用固定语段转换规则把源语言的固定语段转换成目标语言的语段, 然后, 以自动方式运用非固定语段转换规则逐层把源语言的非固定语段转换成目标 语言的语段。26 根据权利要求 25 所述的机器翻译系统, 其特征在于: 该系统还包括 一个连接在源语言形式化处理模块之前的替代模块, 该模块使用替代标记进行 预处理 预先使用替代标记把一个初始语段分解成若干个子语段, 接着对这 些子语段分别进行形式化处理。27 根据权利要求 25 所述的机器翻译系统, 其特征在于: 源语言形式化 处理模块以交互方式对非形式化的源语言进行形式化处理, 该模块进一步包 括:交互方式固定语段切分单元, 该单元以交互方式逐个切分固定语段并标注 固定语段的意义标记, 直到最后一个固定语段;交互方式非固定语段组合单元, 该单元连接在交互方式固定语段切分单元 之后, 以交互方式逐层组合非固定语段并标注非固定语段的核心成分标记、 关 系标记, 直到整个初始语段构成的一个非固定语段。 28 根据权利要求 27所述的机器翻译系统, 其特征在于: 交互方式固定 语段切分单元以交互方式切分并标注固定语段的过程进一步包括: 存储器里的 固定语段模式包含固定语段及其意义标记, 形式相同意义不同的固定语段带有 意义标记; 处理器依次判断, 在存储器里, 是否存在最前的 1个文字单元开头 的固定语段, 是否存在最前的 2个文字单元开头的固定语段, 是否存在最前的 3 个文字单元开头的固定语段, 依此类推; 如果在存储器里存在最前的 n个文字 单元开头的固定语段而不存在最前的 n+1个文字单元开头的固定语段, 处理器 就把最前的 n个文字单元切分为固定语段, 其中 n是自然数, 运用一个固定语 段模式标注这个固定语段的意义标记,然后, 使用者确认或修改, 依此类推, 直 到最后一个固定语段; 如果处理器査出在存储器里不存在剩余语段的最前的 1 个文字单元开头的固定语段,使用者就切分剩余语段的最前的 1 个文字单元开 头的固定语段并标注这个固定语段的意义标记, 然后, 处理器切分和标注下一 个固定语段。29 根据权利要求 25 所述的机器翻译系统, 其特征在于: 源语言形式化 处理模块以自动方式对非形式化的源语言进行形式化处理, 该模块进一步包 括:自动方式固定语段切分单元, 该单元以自动方式逐个切分固定语段并标注 固定语段的意义标记, 直到最后一个固定语段;自动方式非固定语段组合单元, 该单元连接在自动方式固定语段切分单元 之后, 以自动方式逐层组合非固定语段并标注非固定语段的核心成分标记、 关 系标记, 直到整个初始语段构成的一个非固定语段。30 根据权利要求 29所述的机器翻译系统, 其特征在于: 自动方式固定 语段切分单元以自动方式切分并标注固定语段的过程进一步包括: 存储器里的 固定语段模式包含固定语段及其意义标记、 语法属性标记、 语义属性标记, 其 中形式相同意义不同的固定语段带有意义标记; 处理器依次判断,在存储器里, 是否存在最前的 1个文字单元开头的固定语段, 是否存在最前的 2个文字单元 开头的固定语段, 是否存在最前的 3个文字单元开头的固定语段, 依此类推; 如果, 在存储器里, 存在最前的 n个文字单元开头的固定语段而不存在最前的 n+1个文字单元开头的固定语段, 处理器就把最前的 n个文字单元切分为固定 语段, 其中 n是自然数, 査出存储器里的各个可以运用的固定语段模式, 按累 计运用次数从多到少的选择顺序选择其中的一个固定语段模式, 运用这个固定 语段模式标注这个固定语段的意义标记、 语法属性标记、 语义属性标记,依此类 推, 直到最后一个固定语段; 如果处理器査出在存储器里不存在剩余语段的最 前的 1个文字单元开头的固定语段, 处理器就进行回溯。31 根据权利要求 29所述的机器翻译系统, 其特征在于: 自动方式非固 定语段组合单元以自动方式组合并标注非固定语段的过程进一步包括: 存储器 里的非固定语段模式包含成分语段的语法属性标记、 语义属性标记和组合语段 的组合标记、 核心成分标记、 关系标记、 语法属性标记、 语义属性标记; 处理 器査出存储器里的各个可以运用的非固定语段模式, 按累计运用次数从多到少 的选择顺序选择其中的一个非固定语段模式, 运用这个非固定语段模式组合一 个非固定语段并标注这个非固定语段的核心成分标记、 关系标记、 语法属性标 记、 语义属性标记, 然后, 处理器组合和标注下一个非固定语段,依此类推, 直 到整个初始语段构成的一个非固定语段; 如果处理器査出在存储器里不存在可 以运用的非固定语段模式, 处理器就进行回溯。32 根据权利要求 25 所述的机器翻译系统, 其特征在于: 非形式化目标 语言转换模块进一步包括:自动方式固定语段转换单元, 该单元査找固定语段转换规则列表得到匹配 的固定语段转换规则, 运用匹配的固定语段转换规则把源语言的固定语段转换 成目标语言的固定语段或非固定语段;自动方式非固定语段转换单元, 该单元连接在自动方式固定语段转换单元 之后, 査找非固定语段转换规则列表得到匹配的非固定语段转换规则, 其中目 标语言的非固定语段的规则是根据源语言的非固定语段的核心成分标记、 关系 标记或关系词用源语言的非固定语段的成分的译文、 目标语言的关系词构成 的, 运用匹配的非固定语段转换规则把源语言的非固定语段转换成目标语言的 非固定语段, 通过递归执行此步骤逐层转换所有的非固定语段, 其中对形式化 的源语言的当前非固定语段来说, 首先把当前非固定语段的各个成分分别转换 成非形式化的目标语言, 然后运用匹配的非固定语段转换规则把当前非固定语 段转换成非形式化的目标语言, 返回当前非固定语段的转换结果供上一层次的 非固定语段调用, 直到把作为初始数据的非固定语段转换成非形式化的目标语 曰。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010800598316A CN102713897A (zh) | 2009-12-31 | 2010-12-28 | 机器翻译方法和系统 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910247943A CN101739395A (zh) | 2009-12-31 | 2009-12-31 | 机器翻译方法和系统 |
CN200910247943.3 | 2009-12-31 | ||
CN2010800598316A CN102713897A (zh) | 2009-12-31 | 2010-12-28 | 机器翻译方法和系统 |
PCT/CN2010/080353 WO2011079769A1 (zh) | 2009-12-31 | 2010-12-28 | 机器翻译方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102713897A true CN102713897A (zh) | 2012-10-03 |
Family
ID=42462889
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910247943A Pending CN101739395A (zh) | 2009-12-31 | 2009-12-31 | 机器翻译方法和系统 |
CN2010800598316A Pending CN102713897A (zh) | 2009-12-31 | 2010-12-28 | 机器翻译方法和系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910247943A Pending CN101739395A (zh) | 2009-12-31 | 2009-12-31 | 机器翻译方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8990067B2 (zh) |
CN (2) | CN101739395A (zh) |
WO (1) | WO2011079769A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9405513B2 (en) * | 2008-04-18 | 2016-08-02 | Software Ag | Systems and methods for graphically developing rules for transforming models between description notations |
CN101739395A (zh) * | 2009-12-31 | 2010-06-16 | 程光远 | 机器翻译方法和系统 |
CN102609410B (zh) * | 2012-04-12 | 2014-12-17 | 传神联合(北京)信息技术有限公司 | 规范文档辅助写作系统及规范文档生成方法 |
CN102662937B (zh) * | 2012-04-12 | 2016-03-02 | 传神联合(北京)信息技术有限公司 | 自动翻译系统及其自动翻译方法 |
JP6226321B2 (ja) * | 2013-10-23 | 2017-11-08 | 株式会社サン・フレア | 翻訳支援システム、翻訳支援システムのサーバー、翻訳支援システムのクライアント、翻訳支援システムの制御方法、及びそのプログラム |
KR102033395B1 (ko) * | 2014-11-20 | 2019-10-18 | 한국전자통신연구원 | 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법 |
CN107491443B (zh) * | 2017-08-08 | 2020-09-25 | 传神语联网网络科技股份有限公司 | 一种包含非常规词汇的中文句子翻译方法及系统 |
CN107451129B (zh) * | 2017-08-08 | 2020-09-25 | 传神语联网网络科技股份有限公司 | 非常规词语或非常规短句的判断以及翻译方法及其系统 |
CN110688840B (zh) * | 2019-09-26 | 2022-07-26 | 联想(北京)有限公司 | 一种文本转换方法及装置 |
CN111680520A (zh) * | 2020-04-30 | 2020-09-18 | 昆明理工大学 | 基于同义词数据增强的汉越神经机器翻译方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1233026A (zh) * | 1998-04-21 | 1999-10-27 | 程鸣 | 意义形式化自动翻译方法 |
CN1263315A (zh) * | 1999-02-11 | 2000-08-16 | 程鸣 | 意义形式化计算机辅助跨语言信息交流方法 |
CN1319836A (zh) * | 2000-03-10 | 2001-10-31 | 松下电器产业株式会社 | 转换表达方式的方法和装置 |
US20040243387A1 (en) * | 2000-11-21 | 2004-12-02 | Filip De Brabander | Language modelling system and a fast parsing method |
CN101201818A (zh) * | 2006-12-13 | 2008-06-18 | 李萍 | 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法 |
CN101430680A (zh) * | 2008-12-31 | 2009-05-13 | 阿里巴巴集团控股有限公司 | 一种无词边界标记语言文本的分词序列选择方法及系统 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4864503A (en) * | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
SE466029B (sv) * | 1989-03-06 | 1991-12-02 | Ibm Svenska Ab | Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem |
JPH05314166A (ja) * | 1992-05-08 | 1993-11-26 | Sharp Corp | 電子化辞書および辞書検索装置 |
JP3220560B2 (ja) * | 1992-05-26 | 2001-10-22 | シャープ株式会社 | 機械翻訳装置 |
ES2101613B1 (es) * | 1993-02-02 | 1998-03-01 | Uribe Echebarria Diaz De Mendi | Metodo de traduccion automatica interlingual asistida por ordenador. |
JP3066274B2 (ja) * | 1995-01-12 | 2000-07-17 | シャープ株式会社 | 機械翻訳装置 |
JPH0981569A (ja) * | 1995-09-12 | 1997-03-28 | Hitachi Ltd | 多カ国対応サービス提供システム |
US7672829B2 (en) * | 1997-03-04 | 2010-03-02 | Hiroshi Ishikura | Pivot translation method and system |
US7085708B2 (en) * | 2000-09-23 | 2006-08-01 | Ravenflow, Inc. | Computer system with natural language to machine language translator |
US20020173946A1 (en) * | 2001-03-28 | 2002-11-21 | Christy Samuel T. | Translation and communication of a digital message using a pivot language |
FI111107B (fi) * | 2001-05-15 | 2003-05-30 | Softageneraattori Oy | Menetelmä translaattorin kehittämiseksi ja vastaava järjestelmä |
CN1618064B (zh) * | 2002-01-29 | 2010-05-05 | 国际商业机器公司 | 翻译方法与计算机设备 |
JP4410486B2 (ja) * | 2003-05-12 | 2010-02-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳装置及びプログラム |
CN100437557C (zh) * | 2004-02-04 | 2008-11-26 | 北京赛迪翻译技术有限公司 | 基于语言知识库的机器翻译方法与装置 |
US7461059B2 (en) * | 2005-02-23 | 2008-12-02 | Microsoft Corporation | Dynamically updated search results based upon continuously-evolving search query that is based at least in part upon phrase suggestion, search engine uses previous result sets performing additional search tasks |
US8145473B2 (en) * | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US8195447B2 (en) * | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
JP5239307B2 (ja) * | 2007-11-20 | 2013-07-17 | 富士ゼロックス株式会社 | 翻訳装置及び翻訳プログラム |
CN101739395A (zh) * | 2009-12-31 | 2010-06-16 | 程光远 | 机器翻译方法和系统 |
-
2009
- 2009-12-31 CN CN200910247943A patent/CN101739395A/zh active Pending
-
2010
- 2010-12-28 WO PCT/CN2010/080353 patent/WO2011079769A1/zh active Application Filing
- 2010-12-28 CN CN2010800598316A patent/CN102713897A/zh active Pending
- 2010-12-28 US US13/520,146 patent/US8990067B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1233026A (zh) * | 1998-04-21 | 1999-10-27 | 程鸣 | 意义形式化自动翻译方法 |
CN1263315A (zh) * | 1999-02-11 | 2000-08-16 | 程鸣 | 意义形式化计算机辅助跨语言信息交流方法 |
CN1319836A (zh) * | 2000-03-10 | 2001-10-31 | 松下电器产业株式会社 | 转换表达方式的方法和装置 |
US20040243387A1 (en) * | 2000-11-21 | 2004-12-02 | Filip De Brabander | Language modelling system and a fast parsing method |
CN101201818A (zh) * | 2006-12-13 | 2008-06-18 | 李萍 | 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法 |
CN101430680A (zh) * | 2008-12-31 | 2009-05-13 | 阿里巴巴集团控股有限公司 | 一种无词边界标记语言文本的分词序列选择方法及系统 |
Non-Patent Citations (2)
Title |
---|
杨宪泽: "机器翻译的理论模型与语法分析研究", 《西南民族大学学报•自然科学版》 * |
杨宪泽: "机器翻译的理论模型与语法分析研究", 《西南民族大学学报•自然科学版》, vol. 32, 31 December 2006 (2006-12-31), pages 186 - 190 * |
Also Published As
Publication number | Publication date |
---|---|
WO2011079769A1 (zh) | 2011-07-07 |
CN101739395A (zh) | 2010-06-16 |
US8990067B2 (en) | 2015-03-24 |
US20120278062A1 (en) | 2012-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102713897A (zh) | 机器翻译方法和系统 | |
Pathak et al. | English–Mizo machine translation using neural and statistical approaches | |
Lei Zeng et al. | Trends and issues in establishing interoperability among knowledge organization systems | |
Missikoff et al. | Integrated approach to web ontology learning and engineering | |
CN100507903C (zh) | 检索确认句的方法和系统 | |
Ell et al. | SPARQL query verbalization for explaining semantic search engine queries | |
Simonsen | Augmented writing and lexicography: A symbiotic relationship? | |
Littell et al. | The ARIEL-CMU situation frame detection pipeline for LoReHLT16: a model translation approach | |
Kazi et al. | Uquad1. 0: development of an urdu question answering training data for machine reading comprehension | |
Kuhn et al. | Coral: Corpus access in controlled language | |
Dušek | Novel methods for natural language generation in spoken dialogue systems | |
Cardillo et al. | Towards the Automated Population of Thesauri Using BERT: A Use Case on the Cybersecurity Domain | |
Aikawa et al. | Generation for multilingual MT | |
Bahadur et al. | Machine translation—A journey | |
Kuznetsov et al. | Intelligent tools for the semantic Internet navigator design | |
O’Donnell | Interactions between natural–language processing and systemic functional linguistics | |
Rashel | Introducing Language Technology & Computational Linguistics in Bangladesh | |
Narita | A corpus-based English language assistant to Japanese software engineers | |
Gupta et al. | Identification and extraction of multiword expressions from Hindi & Urdu language in natural language processing | |
Akhand et al. | Recent progress, emerging techniques, and future research prospects of Bangla machine translation: a systematic review | |
Kumar et al. | Universal networking language: A framework for emerging NLP applications | |
Khoroshilov et al. | Machine phraseological translation of scientific-technical texts based on the model of generalized syntagmas | |
Mulingi | Development of Models For Non-Word Error Detectionfor and Correction System for Kiswahili Language | |
Said | Arabic Chatbots Challenges and Solutions: A Systematic Literature Review | |
Roxas et al. | Philippine language resources: trends and directions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20121003 |