CN1553381A

CN1553381A - 多语种对应目录式语言数据库及同步电脑互译、交流方法

Info

Publication number: CN1553381A
Application number: CNA031289533A
Authority: CN
Inventors: 杨宏惠
Original assignee: Individual
Current assignee: Individual
Priority date: 2003-05-26
Filing date: 2003-05-26
Publication date: 2004-12-08

Abstract

本发明公开了一种多语种对应目录式语言数据库及同步电脑互译、交流方法，以一种主要语言为中心语，组织专家分别就该语种与其他语种在“意”的层面上对日常生活用语、专业用语等进行科学分析，按内容、句型不同进行分类，经“标准化”处理后建立目录式编号。不同语种间同样语意的语句编同样的编号，前面冠以语种代号；任何一个语种都仅与中心语种作这样的语意比对分析，并按同样的原则进行编号；把所有涉及语种“标准化语句”及其语种代号、语句编号依次输入电脑，便可以形成多语种对应目录式语言数据库，包括单一语种或双语目录式语言数据库。本发明方便高效、准确规范、多语同步、有助于人类语言的标准化、规范化、应用范围十分广泛。

Description

多语种对应目录式语言数据库及同步电脑互译、交流方法

技术领域

本发明涉及一种多语种对应目录式语言数据库及语言互译、交流方法，尤其涉及一种目录式标准语库多语同步对应电脑互译、交流方法和纯个性化的电脑非键盘录入方法。

背景技术

不同语种间的电脑翻译，虽然经历了一个长期的技术探索历程，但由于实际语言的随机性，加之机器翻译理论和技术上的局限，翻译效果无法令人满意，有时甚至让人啼笑皆非。这还是就现成文本而论，即时交流语言互译更是无法解决。因而，不同语种间的人际无障碍语言交流就只能是一种美好愿望。

发明内容

本发明的目的在于：从语言的本质(“意”)出发，组织相关语言专家对各种语言的语句进行“标准化”处理，建立开放式多语种互相对应的“标准化”语库(语以“意”为先，“意”是语言的本质，是语句的核心。尽管语种多样，表达方式丰富，但在“意”的层面上，都有着不可否定的一致性。而语言的功用在于沟通，在于达意，语言的基本单元是单句。把丰富多彩的语句实意化、标准化、目录化，用于异语交流，既符合通常翻译的“意译”原则，又可搭建“公共平台”，满足异语交流的“会意”要求。更何况翻译本身已经是语言形式上的改变。)。电脑只承担数据存储，语句搜寻、匹配和语种转换功能。这样，以多语对应数据库作基础，通过电脑语种转换，实现人际间无语言障碍交流和多语种准确高效互译。作为一种有效补充，可安排专业人员提供网上在线翻译协助，对少量标准化语库无法匹配的语句进行处理。协助处理内容进行如实记录，转交专家组加工整理，“标准化”处理后补充进入标准语库。在线翻译协助十分重要，既可帮助解决使用者可能遇到的实际问题，又能及时充实、丰富标准语库，并跟上语言发展变化的步伐。

本发明方案的多语种对应目录式标准语库按以下方式建立：以一种主要语言为中心语(如中文)，组织专家分别就该语种与其他语种在“意”的层面上对日常生活用语、专业用语等进行科学分析，按内容、句型不同进行分类，经“标准化”处理后建立目录式编号。不同语种间同样语意的语句编同样的编号，前面冠以语种代号；任何一个语种都仅与中心语种作这样的语意比对分析，并按同样的原则进行编号；把所有涉及语种“标准化语句”及其语种代号、语句编号依次输入电脑，便可以形成多语种对应目录式语言数据库，包括单一语种或双语目录式语言数据库。该数据库采用开放式设计，可根据具体情况进行修改和补充。本发明所述的多语种对应目录式标准语库，可分三种不同级别：含人际交流、人机交流、人机人交流、网际交流的日常交流级、专业互译级、全能互译级。

本发明所述的多语种对应目录式标准语库，采用UBS硬盘等储存个人的语音样本数据库和字迹样本数据库及基于这两个数据库设计的与之匹配的识别处理系统，形成他自己的非键盘录入“钥匙”。

本发明所述的多语同步对应电脑互译方法为：进入多语互译系统，打开标准语库，选择交流或翻译状态；如进入交流状态，则选择己方、一种以上目标方语种，然后，把自己要表达的内容输入电脑；电脑根据句意在标准语库中进行模糊匹配，提供多种备选语句，使用者选定自己满意的“标准语句”，启动发送程序，电脑在选定的语种代号下依相同编号直接转换输出对方语种的“标准”表述；对方按同样方式回应，双方或多方实现正常异语交流；事实上，由于标准语库已考虑日常交流的实际需要，当然准备了足够多标准、规范的日常用语供使用者选择。所以，使用者还有一个更简单的输入办法，那就是在标准语库中用关键词或目录编号直选。如进入翻译状态，则选择被译语种和目标语种，调入原文，启动翻译转换程序，电脑将原文语句在标准语库中进行模糊匹配，并在选定的语种代号下依相同编号转换成目标语种的翻译文本；若有未译部分可求助在线服务或借助机译辅助系统，然后，启动逻辑处理程序对译文进行逻辑加工。

考虑到应用领域、应用范围的不同，标准化语库可分三种不同级别：日常交流级、专业互译级、全能互译级。日常交流级以日常生活用语、习惯用语为主；专业互译级，分专业进行，专业术语多，技术性强；全能互译级可以日常交流级和专业互译级为基础，充实必需的内容。日常交流级实现容易，应用极为广泛，如网上不同语种聊天，无语言限制的手机短讯，日常生活无语种障碍人际、人机交流等；专业互译级主要使用对象是专业技术人员，可实现无语种限制的专业学习查询与交流等；全能互译级功能强大，适用于各个方面、各个领域的无障碍语言交流。

本发明还提供一种纯个性化的电脑非键盘录入方式，完全采用使用者原声、字迹制作他自己的语音识别、字迹识别比对样本数据库，并分别基于这两个数据库设计与之匹配的识别处理系统。

一、语音录入。完全采用使用者原声制作他自己的语音识别数据库。它在理论上的依据是：每个人就他自己而言，他的发音就是“标准”的。具体做法是：事先由电脑提供一套精心设计的文字组合(对任何一种文字而言，都应具有全面的代表性，并带有符号、外文字母及简单编辑命令。但可以考虑以常用字、词为主序列，非常用字、词为辅助序列)供使用者顺序朗读，电脑进行同步录音，并逐字分解使用者语音信号，自动生成各字的信号数据，并通过这些字的信号数据组合生成词组(合成语、术语、外来词汇)、专用名词(含人名、地名等)的信号数据。汇总字、词组、专用名词的信号数据，建立该文字的纯个性化语音识别比对样本数据库。语音比对样本数据库实行开放式设计。开放式设计的目的有两个，一是可以随时录入新词汇，实现比对样本的及时更新；二是可以通过记忆功能，把每次校对中发现的“错误”以及句子处理过程中发现的纯个性化的词汇、语句储存到比对样本中，自动丰富或修正比对样本数据库。基于这个样本数据库，设计一套与之匹配的语音识别系统。该语音识别系统以句子为最小处理单位，以独立词汇为最小音征比对单元，并实行字数多者优先原则。即在实际识别过程中，对录入的每一句话(以标点符号为依据)先进行词汇拆分，按各词汇字数的多少进行有序比对，字数多者优先；然后，对整句进行逻辑处理。这样，可有效排除同音字对准确识别的影响。对人名用字等个别难以准确选定的字，系统允许用词组限定法，也可用多字待选方式。所谓词组限定法，就象人际交流中用词组限定的方式，告诉对方某个字是哪个词组限定的那个一样。

二、手写录入。完全采用使用者手写字迹制作他自己的字迹识别比对样本数据库。它在理论上的依据是：每个人的字迹有它相对的稳定性，这不但给字迹的准确识别带来了简捷的处理方式，而且特别有效地解决了连笔、草书等识别问题。具体作法是：事先由电脑提供一套文字组合(要求与语音录入基本相同)，供使用者逐字书写(可以考虑重复数次，尽量完成各种习惯写法)，电脑进行同步记录(记录各字的字迹和该字的笔迹流线形式及次序)，并自动生成该使用者纯个性化的字迹识别比对样本数据库。该数据库是开放式的，一是可以随时录入新的字迹，实现字迹比对样本的及时更新；二是可以通过记忆功能，把每次校对中发现的“错误”储存到比对样本中，自动丰富或修正字迹样本数据库。基于这个样本数据库，设计一套与之匹配的字迹识别系统，便可简便地实现快速准确的手写识别，并显然地对使用者没有书写工整等要求。

在语音样本数据库和字迹样本数据库完成之后，采用UBS硬盘储存该使用者个人的语音样本数据库和字迹样本数据库及基于这两个数据库并与之匹配的识别处理系统，做成他自己的非键盘录入“钥匙”。只要随身携带这把“钥匙”，便可以在任何一台具备配套功能的电脑或相关设备、设施上便利地进行语音或手写录入。

本发明具有以下特点：1、方便高效。由于电脑存储有丰富的“标准化”语句，而且是多语种统一目录管理，电脑不用作即时翻译，只做相应搜索和语种转换，语言互译(实际是转换)方便高效，在选定一种语言的“标准语句”的同时其他语种相应的“翻译”即已完成。2、准确规范。因为所有“标准语句”都由相应专家完成，确保互译质量之高，语句之规范。3、多语同步。由于标准语库是采用多语同“意”对应的统一目录化管理，从而确保了不同语种间的同步转换互译。这一点尤其对宣传、出版界提高有效覆盖面和传播速度有着革命性的意义。4、有助于人类语言的标准化、规范化。人类语言(尤其是口语)虽说是丰富多彩，但因各人语言素质不同也良莠不齐。随着本发明的实施，人们必将逐步习惯用“标准语言”交流。特别在互译方面，可以实现高水平的统一翻译效果。5、应用范围十分广泛。本发明可用于制作小型多语互译机，用于异地旅游、商务交往及异语居住的日常交际；可用于网上异语聊天、浏览、阅读，手机短讯异语互发；可用于公共场所，如宾馆、饭店、飞机、轮船、火车、机场、码头、出租车、候车室等的异语咨询、服务；尤其适用于新闻、出版、信息业一文多语版传播和情报业全面广泛收集国际信息；本发明在军事上也有广泛用途。

具体实施方式

以下结合实施例对本发明进行详细说明。

实施例1：日常人际交流。

以网上聊天为例。使用者首先进入多语互译系统，打开标准语库，选择交流状态，再选择己方和对方语种(可以是单方，亦可多方)。然后，把自己要表达的内容输入电脑(输入方式有多种选择：可以是语音、键盘或手写，有插入他自己的非键盘录入“钥匙”更好)，电脑根据句意在标准语库中进行模糊匹配，提供多种备选语句，使用者选择自己满意的句子发送(不满意的话，可以提示电脑重新提供待选语句，直到满意为止)。电脑自动将选定的句子转换成指定语种的相应语句发送给对方，反馈亦然。使用者也可以在标准语库中用关键词或目录编号直选。

实施例2：专业互译和全能互译。

进入系统后，选择翻译状态并进行语种选择。如果是将自己的表述同步译成其他多种文种，可以尽量选用语库的“标准语句”。对语库中没有的句子或无法代用的句子，可向在线服务人员求助。确定文稿内容后，启动翻译(转换)程序，电脑在选定的语种代号下依相同编号自动将其翻译(转换)成目标语种的文本。如果是翻译其他文种的内容，则先让电脑用“标准语库”进行模糊匹配并同步翻译(转换)成自己的文种，剩下为数不多的句子内容求助在线服务。

为了更好地实现本发明所独创的方法，最好建立一个专门网站或在一个具有相当实力的网站上挂接。这有利于多语种对应目录式语言数据库的广泛共享和高效互动，有利于在线翻译服务的顺利实现。

Claims

1、一种多语种对应目录式标准语库，其特征在于：以一种主要语言为中心语，组织专家分别就该语种与另外语种在“意”的层面上对日常生活用语、专业用语等进行科学分析，按内容、句型不同进行分类，经“标准化”处理后建立目录式编号；不同语种间同样语意的语句编同样的编号，前面冠以语种代号；任何一个语种都仅与中心语种作这样的语意比对分析，并按同样的原则进行编号；把所有涉及语种“标准化语句”及其语种代号、语句编号依次输入电脑，便可以形成多语种对应目录式语言数据库，包括单一语种或双语目录式语言数据库。

2、根据权利要求1所述的多语种对应目录式标准语库，其特征在于：标准化语库可分三种不同级别：含人际交流、人机交流、人机人交流、网际交流的日常交流级、专业互译级、全能互译级。

3、一种多语同步对应电脑互译、交流方法，其特征在于：进入多语互译系统，打开标准语库，选择交流或翻译状态；如进入交流状态，则选择己方、一种以上目标方语种，然后，把自己要表达的内容输入电脑；电脑根据句意在标准语库中进行模糊匹配，提供多种备选语句，使用者选定自己满意的“标准语句”，启动发送程序，电脑在选定的语种代号下依相同编号直接转换输出对方语种的“标准”表述；对方按同样方式回应，双方或多方实现正常异语交流，使用者还可以在标准语库中用关键词或目录编号直选；如进入翻译状态，则选择被译语种和目标语种，调入原文，启动翻译转换程序，电脑将原文语句在标准语库中进行模糊匹配，并在选定的语种代号下依相同编号转换成目标语种的翻译文本；若有未译部分可求助在线服务或借助机译辅助系统，然后，启动逻辑处理程序对译文进行逻辑加工。

4、一种纯个性化的电脑非键盘录入方式，其特征在于：完全采用使用者原声、字迹制作他自己的语音识别、字迹识别比对样本数据库，并分别基于这两个数据库设计与之匹配的识别处理系统。

5、根据权利要求1或2所述的多语种对应目录式标准语库，其特征在于：采用UBS硬盘等储存个人的语音样本数据库和字迹样本数据库及基于这两个数据库设计的与之匹配的识别处理系统，形成他自己的非键盘录入“钥匙”。