CN1602483A

CN1602483A - 进行多语种口述词语实时翻译的实时翻译装置与方法

Info

Publication number: CN1602483A
Application number: CNA028248325A
Authority: CN
Inventors: 内维尼·加雅拉特尼
Original assignee: Individual
Current assignee: Individual
Priority date: 2001-12-17
Filing date: 2002-12-17
Publication date: 2005-03-30
Also published as: CA2510663A1; WO2003052624A1; JP2005513619A; EP1468376A1

Abstract

一种实时翻译装置(11)，它具有语音接收器或麦克风(101)，语音文字转换器(102)，接收第一语言并将其翻译成第二选择语言的文字到文字口语翻译装置(103)，将翻好的第二选择语言转换成语音输出的文字语音转换器(105)以及发出语音输出的语音发生器或扬声器(211)。还具有第二语音接收器或麦克风(201)，语音文字转换器(202)，接收第二语言并将其翻译成第一选择语言的文字到文字口语翻译装置(203)，将翻好的第一选择语言转换成语音输出的文字语音转换器(105)以及发出语音输出的语音发生器或扬声器(111)。语音到文字的转换与/或文字翻译与/或文字到语音的转换存在着平行处理。两块声卡(151，152)或一块声卡(151)上两个独立工作的信道(151A，151B)可提供第一与第二语音接收器(101，201)与第一与第二扬声器(111，211)。平行处理可由中央处理器(cpu)，平行处理技术来进行，或通过软件控制的开关技术进行处理。

Description

进行多语种口述词语实时翻译的实时翻译装置与方法

技术领域

本发明涉及提供多语种“口述词语”交流、会话与/或对话、会议以及对公众讲话系统的实时翻译装置。本发明特别涉及旅游、商务或专业翻译的多语种会话翻译装置，但是不限于这些用途。

背景技术

毋庸置疑，人类具有的最大能力是能用长期进化演变而成的复杂语言进行交流。但是，这也成了人类面临的最大障碍。即使近来在商贸领域以及其他许多涉及世界不同国家人民交流的领域中，人们频繁地使用着“全球化”这个字眼，实现全球化的主要“障碍”还是语言障碍。语言障碍限制了使用许多不同语言之一进行交流的人们相互交流与一对一交流的能力。

在许多场合需要用翻译，这些场合包括：

●在语言不同的异国他乡，旅游者在问路、购物或类似装置最基本场合拼命想让人听懂自己的意思。

●商人与使用其不会讲的语言的国家的潜在客户或商业同事通电话。

●演讲者想在会议上或通过广播对讲不同语言的听众发表讲话，与之进行交流。

但是，翻译装置的创造必然联系到典型的口语翻译的基本结构，或要用自然语言处理系统来处理讲话者发出的语音，用模拟-数字转换器将其转换成数字形式。对该信号进行处理，抽出各种特征，如各不同频率的语音强度以及强度的随时变化。这些特征作为语音识别系统的输入，该系统通常采用隐马尔可夫模型(HMM)技术来识别最可能生成该语音信号的词语序列。语音识别器输出最有可能的词语序列，作为自然语言处理系统的输入。当自然语言处理系统需要生成发音时，它将句子送至将词语转换为语音序列并确定语调类型的模块，并将信息送至语音合成系统，由其生成语音输出。

大多数翻译装置看到口语翻译的难度，就口语转换成书面语言，再用一套翻译的规则与范畴对书面语言进行详细分析。

自然语言处理系统应用了大量的语言结构知识，包括词语是什幺，词语如何结合成句子，词语的意思是什幺，词语的意思对整句的意思起何作用。但是，如不考虑人类智慧的另一方面——即他们的普遍知识与表达能力，则语言学的知识就不全靠得住。例如，在回答问题或参与谈话时，人不仅要知道所用语言的结构，而且要知道普通常识以及谈话的场景。

与自然语言处理有关的不同形式的知识包括语音与音系知识、词法知识、句法知识、语意知识以及语用知识。语音与音系知识是关于单词与语音的联系以及如何发音的。词法知识是关于单词是如何由称为词素的基本单位构成的。词素是语言的最基本单位，例如friendly这个词是从名词friend与后缀“-ly”的意思派生出来的，将名词变成了形容词。

句法知识是关于如何将词语结合起来构成正确的句子，确定每个单词在句子中的结构作用，以及什幺短语是什幺其他短语的构成部分的。典型的语言句法结构基于无上下文语法的概念，即从什幺短语从属什幺短语这样的方式阐述句子结构的。这种句法信息往往用树形结构表示。

语意知识是关于词语的意思以及这些意思如何结合起来构成句子的意思的。这是研究独立于上下文的意思的——即不考虑句子使用的上下文时的句子意思。句子独立于上下文的意思的表示方式被称为其逻辑形式。

逻辑形式将单词可能有的含义代码化，确定单词与短语之间的语意关系。

自然语言处理系统还包括将一种表达方式变换成另一种表达方式的翻译处理。例如，将一个句子变换成句法结构与逻辑形式的处理叫解析，是用一个叫解析器的元件进行的。解析器使用单词、词义，即词典，一套定义合法结构的规则，即语法来确定输入句子的句法结构以及逻辑形式。从形式上来说，语言的无上下文语法是一个包括终结词汇、非终结词汇、一套有限的生成规则以及一切生成物的开始符的四元组。非终结词汇与终结词汇是不相交的。一套终结符号被称为语言的词汇。语用知识关心的是如何在不同场合使用句子，以及使用如何影响句子的解释。

但是，典型的自然语言处理只取得了有限的成功，因为其处理器只在窄小的框架内工作。自然语言处理器接受输入的句子，按词汇学，将句子划分成的单词，按句法学，确定单词的类型，按语意学理解单词的含义，按语用学确定要产生成的反应，生成概反应。

自然语言处理器要使用许多类型的知识，要存贮不同知识结构的不同类型的知识，将其分门别类组织起来。典型的自然语言处理器要用非常复杂的机器。典型的自然语言处理器所用的知识与容量必须降低其复杂性，才能使得自然语言处理器能操作，能应用，因为自然语言处理器必须做到能对输入的句子作出比较正确的反应。

自然语言处理器以前所用方法已经发现有许多问题，涉及典型口语翻译系统的许多组件。在口语翻译系统方面，以前有一种方法是将分析句子的句法规则与转换句型或转换规则结合起来。其结果是句法规则与转换规则变得相互依赖，系统变得不标准化，很难扩充或应用于新的翻译领域。

在授予索尼公司的第6,266,642号美国专利中，提出了一种口语翻译的方法与便携式装置。但是它要求对至少一种源语言的至少一种源表达采取识别步骤，要识别至少一种源表达的步骤包括对至少一个讲话输入进行操作，生成中间源语言数据结构，用一个模型从中间源语言数据结构生成至少一种源识别假设，从至少一种源识别假设确定最佳源识别假设，从最佳源识别假设生成至少一种源表达。很清楚，这要进行详细的计算机分析，不是便携式或会话翻译装置拿来就可用的。

第6,278,968号美国专利也详细说明了一种大型的计算机翻译装置。该发明涉及将一种语言翻成另一种语言。更具体地说，该发明涉及为至少是部分依据使用者选择要进行翻译的特定话题提供语言翻译。因此，该翻译装置能力有限，不能提供真正的会话翻译。

所以，很少有翻译装置从物理硬件与通讯信道着手来提供便携式会话实时翻译装置。

应当注意到第6,266,642号美国专利声称提供了一种便携式装置，该发明的实施例有一个便携式装置能进行口语翻译。其中有个实施例是一台手提电脑，另一个实施例是手机。便携式实施例可以是自足式的或非自足式的。自足式便携式实施例包括接收自然口语输入，进行翻译以及输出翻好的自然口语的硬件与软件。

非自足式的实施例包括接收自然口语输入，将输入数字化以及通过各种通讯方法将数字化的输入传送至进行翻译的远程硬件与软件用的硬件与软件，远程的硬件与软件生成对对用户讲的自然口语。

但是，这种翻译装置的结构只允许单向通讯，因此不是适合于双向会话的便携式翻译装置。

发明内容

本发明的目的是为不同语言间的口述词语障碍提供一种电子解决方案。

广义地说，本发明提供一种多语种会话翻译装置，该装置有用一个或多个声卡与软件操作的两个声道，对第一个人用一种口述词语讲的话进行翻译，并让用第二种口述词语的第二个人在其讲话被翻译与被第一个人收听的同时或基本同时所收听到，使得两人能在正常时间听懂不同口述词语的正常会话。

该翻译装置可以是便携式的或手持的，有内装或附加耳机或类似装置。

该系统的其他型号可附加于电话系统或个人讲话系统或类似装置。

本发明的实时翻译装置包括(a)语音接收器；(b)语音文字转换器；(c)接收第一语言并翻译成第二选择语言的文字至文字口语转换器；(d)将翻好的第二选择语言转换成语音输出的文字语音转换器；以及(e)发出语音输出的扬声器。

本发明的一种形式的实时翻译装置包括(a)至少一个语音接收器；(b)至少一个语音文字转换器；(c)至少一个接收第一选择语言文字并翻译成第二选择语言文字与/或接收第二选择语言文字并翻译成第一选择语言文字的文字至文字口语转换器；(d)至少一个将翻好的第一与/或第二选择语言转换成语音输出的文字语音转换器；以及(e)至少一个发出语音输出的扬声器。

实时翻译装置可以包括由两个独立的带软件的电子声音发生器形成的两个声道，这样可在翻成第二选择语言的文字被带软件的第二独立电子声音发生器转换成语音的同时，将正在接收的第一语言的第一语音转换成文字。独立电子声音发生器可以是两块个人电脑声卡或类似装置，或是一块个人电脑声卡的两个有独立软件控制的左右信道。

本发明的特别优选的实施例的便携式实时翻译装置包括(a)接收第一与第二选择语音的第一与第二语音接收器；(b)第一与第二语音文字转换器；(c)至少一个接收第一选择语言文字并翻译成第二选择语言文字与/或接收第二选择语言文字并翻译成第一选择语言文字的文字至文字口语转换器；(d)至少一个将翻好的第一与第二选择语言转换成第一与第二语音输出的文字语音转换器；以及(e)第一与第二发出语音输出的扬声器。

在进行第一与第二会话的语音与文字相互转换与/或文字至文字口语翻译的过程中，会有一个“反应时间”，这个时间要让接收语音和发出翻好的语音之间的时间滞后在合理的会话时间内。这个时间可以小于1秒，最多不超过2秒。为了更好地模仿会话，语音的翻译与发出是用基本上与输入语音的语音片段一致的语音片段进行的，形成一个连续的有间隔语音片段流来模仿会话。总的说来，这样的语音片段是一个句子或句子的一部分。

还有，在处理过程中可能会有“重叠”，接收、翻译第一语言的第一语音与发出翻好的语音与接收第二语言的第二语音以及翻译与发出第二翻好的语音会同时或显然同时进行。这可用独立处理路径，包括独立个人电脑声卡或类似装置或一张声卡的独立信道或类似装置，或用开关系统按保持同时合理实时处理两条路径的速率来开关两条处理路径。

本发明还提供了一种提供实时语音翻译的方法。该方法包括的步骤为：(a)提供接收第一与第二选择语音的第一与第二语音接收器；(b)提供分别与第一与第二语音接收器相连接的第一与第二发出语音输出的语音扬声器；(c)将上述第一与第二语音接收器来的上述第一与第二选择语音转换成文字(d)提供从上述第一语音接收器接收第一选择语言文字并翻译成第二选择语言文字与/或接收第二选择语言文字并翻译成第一选择语言文字的文字至文字口语转换器；(e)提供将翻好的第一与第二选择语言转换成第一与第二语音输出的语音转换器；以及(f)发出上述翻好、转换好的第一与第二语音输出。

语音到文字的转换与/或文字翻译与/或文字到语音的转换存在着平行处理。两块声卡或一块声卡上两个独立工作的信道可提供第一与第二语音接收器与第一与第二扬声器。语音到文字的转换与/或文字翻译与/或文字到语音的转换处理是由中央处理器(CUP)或类似装置与声卡的软件控制进行的。平行处理可由中央处理器(CUP)，平行处理技术来进行，但是主要是通过软件控制的开关技术进行平行处理。因此，两条路径总是在两个方向为提供会话进行工作。

软件要克服后装的声卡一般会在正常工作的单声卡工作环境中喧宾夺主的困难。软件可解决这种问题，解决两块声卡在软件控制的小于1秒与最多2秒的语音片段到中央处理器(CUP)的兆赫速度间进行开关平行操作的非同寻常的平行操作。

本发明提供了一种实用的解决方案，可以(1)通过面对面或通过电话线或类似装置在两种不同语言之间进行转换，使得想进行会话交流的两个人或两组人能会话与/或(较直接，即时，当场)对话；(2)让报告人用听众听起来困难的语言对听众讲话；(3)让听众作出反应，发表评论或向报告人提问。

本发明的翻译装置主要应用于三种场合：1.两种不同语言的人对人会话与/或对话，无论在何种情况下，均可使两个使用不同语言的讲话者面对面地会话或对话(交流方式)。

2.两种不同语言的人对人或团体对团体通过电话线(或类似工具)的会话与/或对话，无论在何种情况下，均可使两个使用不同语言的讲话者进行远程会话或对话(交流方式)。

3.在讲课、开会或对公众讲话系统中，一个人对许多人讲话，从一种语言转换为另一种语言，无论在何种情况下，均能使讲话者与听众间用两种不同语言进行一对多交流。

本发明为上述情况提供了一种具创造性与实用性的解决方案，该方案能用语言A进行交流(讲)并能立即、即时、“当场”用语言B听懂(听)。反过来也能用语言B交流(回答)，用语言A听懂(听)。在前两种场合，可以进行两种语言的实时会话/对话。在第三种场合，可以用一种语言“讲话”或“告诉”来进行交流，但用另一种语言听懂(听)，并接收听众的评论或提问或类似装置反应。

该系统作为教学工具也特别有用，因为它可以提供变化的输入与实时翻译。另外，还可以用键盘输入提供实时文字翻译。

附图说明

为了使发明更容易被理解，下面将参照附图对实施例教学说明，附图中，

图1是本发明第一实施例的实时翻译装置流程图；

图2是图1的实时翻译装置的示意图；

图3是本发明的实时翻译装置第一用途的示意图；

图4是是本发明的实时翻译装置第二用途的示意图；

图4A是本发明的实时翻译装置用作电话公司或通讯服务提供商的服务器的另一种用途的示意图；

图5是本发明的实时翻译装置第三用途的示意图。

具体实施方式

在附图中，特别是图1与2中，表示了本发明的一个实时翻译装置(11)，它具有语音接收器或麦克风(101)，语音文字转换器(102)，接收第一语言并将其翻译成第二选择语言的文字到文字口语翻译装置(103)，将翻好的第二选择语言转换成语音输出的文字语音转换器(105)以及发出语音输出的语音发生器或扬声器(211)。

另外，还表示了本发明的实时翻译装置(11)还具有第二语音接收器或麦克风(201)，语音文字转换器(202)，接收第二语言并将其翻译成第一选择语言的文字到文字口语翻译装置(203)，将翻好的第一选择语言转换成语音输出的文字语音转换器(105)以及发出语音输出的语音发生器或扬声器(111)。

语音到文字的转换与/或文字翻译与/或文字到语音的转换存在着平行处理。两块声卡(151，152)或一块声卡(151)上两个独立工作的信道(151A，151B)可提供第一与第二语音接收器(101，201)与第一与第二扬声器(111，211)。语音到文字的转换与/或文字翻译与/或文字到语音的转换处理是由中央处理器(CUP)或类似装置与声卡(151，152)的软件控制进行的。平行处理可由中央处理器(CUP)，平行处理技术来进行，或通过软件控制的开关技术进行处理。

实时翻译装置(11)包括由两个独立的带软件的电子声音发生器形成的两个声道，这样可在翻成第二选择语言的文字被带软件的第二独立电子声音发生器转换成语音的同时，将正在接收的第一语言的第一语音转换成文字。独立电子声音发生器可以是两块个人电脑声卡(151，152)或类似装置，或是一块个人电脑声卡(151)的两个有独立软件控制的独立左右信道(151A，151B)。

本发明的实质是使两种不同语言能进行会话/对话，不管用什么语言进行会话/对话，本发明均能进行。会话能在下列语言间进行：英语、朝鲜语、法语、简体汉语、繁体汉语、意大利语、德语、西班牙语与日语。

本发明的技术方法包括3个基本步骤：1.通过例如麦克风或类似装置输入信道(例如输入源-1)或通过电话线接收口述单词与/或句子，将其转换成文字。

2.将文字从一种语言翻译成另一种语言。

3.通过例如耳机的扬声器、电话或类似装置输出信道(输出源2)将翻好的文字再转换成语音输出。

步骤-1通过输入源接收口述单词或句子当对着麦克风(101)讲词语时，麦克风工作并接收词语作为输入。

通过麦克风(101)接收用语言A讲的词语并转换成文字。

在实时翻译装置(150)内将语言A的词语(文字形式)翻译成语言B(也是文字形式)。实时翻译装置开关(104)开到扬声器(211)，语言B的文字被转换成语音并通过扬声器(211)“讲出”。

通过麦克风(201)接收用语言B回答的词语或任何词语，并将其转换成文字。语言B的词语(文字形式)在实时翻译装置(150)内翻译成语言A)也是文字形式)。实时翻译装置(150)开到扬声器(111)，语言A的词语构成的文字被转换成语音并通过扬声器(111)“讲出”。上述一切都是立即、即时、“当场”发生的，实现了两种不同语言间的实时会话/对话。

实时翻译装置软件(160)根据两个语音输入源(101，201)中的一个的输入启动，通过例如麦克风或类似装置输入信道或通过电话线接收人-1用语言A讲的口述单词与/或句子的输入源。

如下面将要详细说明的硬件结构所示，本发明是依靠软件控制的两块声卡工作的，或通过软件利用一块声卡(151)的“左右”信道(151A，151B)操作系统特点工作的。

但是，优选实施例采用两块声卡加软件的方法。用这两种方法的任何一种，实时翻译装置的发明都是从下列语音输入装置接收口述词语的。

(1)从(耳机的或单独的)麦克风。

(2)从电话线。

(3)从会议或公共广播/讲话系统。

口述单词或句子被转换成文字供翻译。优选实施例采用专为开发语音识别应用技术而销售的国际商业机器公司的(IBMTM)软件包的语音识别(VIA VOICE)软件包。

但是，也可以用任何类似的语音识别软件，这种软件市售的有好几种，还可以自写类似软件。无论用何种软件，实时翻译装置软件(160)都是一样的。

步骤-2翻译文字在步骤-1接收并转换成文字的单词/句子输入源被从一种语言翻译成另一种语言。优选实施例为此采用的软件包也是IBM的“书面语言翻译”软件包。该软件包是IBMTM专为开发语音识别应用技术而上市销售的。但是，也可以用任何类似的语音识别软件，这种软件市售的有好几种，还可以自写类似软件。但是，无论用何种软件，用实时翻译装置软件(160)的整个实时翻译装置(150)都是一样的。

步骤-3播出被转换的文字最后的步骤是文字到语音。实时翻译装置(150)完成文字翻译后，最后一步是将其又转换成语音并用翻好的语言的词语“播出”该文字。

优选实施例为此采用的软件包是微软公司的语音引擎(TTS)软件包。该软件包是微软专为开发文字到语音应用技术而上市销售的。但是，也可以用任何类似的语音识别软件，这种软件市售的有好几种，还可以自写类似软件。但是，无论用何种软件，用实时翻译装置软件(160)的整个实时翻译装置(150)都是一样的。

图3所示的是通过会话/对话的人对人交流。当人-1与人-2谈话时，实时翻译装置硬件(151、152、153)(为使用实时翻译装置软件(160)设计的便携式硬件)运行实时翻译装置软件(160)。

麦克风/扬声器(通过耳机或类似装置)连接声卡-1。另一个麦克风/扬声器(独立或也通过耳机)连接声卡-2。声卡-1与相应的麦克风与扬声器由人-1使用。声卡-2与相应的麦克风与扬声器供人-2使用。

人-1对连接声卡1的麦克风讲语言A的单词(句子)，由实时翻译装置软件(160)控制的输入麦克风(101)接收，并转换成文字。

实时翻译装置软件(160)控制麦克风(101)的输入。

实时翻译装置软件(160)与其控制的软件将语言A的文字翻译成语言B的文字。

实时翻译装置软件(160)在实时翻译装置(150)内部开启对声卡-2的控制。前面由实时翻译装置(150)翻译成语言B的文字被转换成语音，并被“大声播出”，让人-2通过连接到声卡-2的扬声器听到。

当人-2回答人-1或与其讲话时，情况正相反：声卡-2与相应的麦克风与扬声器供人-2使用。

人-2对着连接声卡-2的麦克风进行回答(或讲话)。用语言B讲的词语由实时翻译装置软件(160)控制的输入麦克风(201)接收，并转换成文字。

实时翻译装置软件(160)控制麦克风(201)的输入。

实时翻译装置软件(160)与其控制的软件将语言B的文字翻译成语言A的文字。

实时翻译装置软件(160)在实时翻译装置(150)内部开启对声卡-1的控制。前面由实时翻译装置(150)翻译成语言A的文字被转换成语音，并被“大声播出”，让人-1通过连接到声卡-1的扬声器听到。

这就使得分别讲A、B两种语言的人1与2可进行双向交流。个人都用各自的语言讲话，从对方听到的是自己所用的语言。似乎没有语言差别的样子。通过便携式实时翻译装置(150)便可面对面地进行一对一的实时会话。

在图4所示的另一个人对人电话通讯实施例中，采用了电话系统或语音通讯系统。人-1与人-2通过电话或类似通讯方法谈话：

实时翻译装置硬件(151、152、153)(为使用实时翻译装置软件(160)设计的便携式硬件)运行实时翻译装置软件(160)。麦克风/扬声器(通过耳机或类似装置)连接声卡-1。

声卡-2与普通的工业标准语音调制解调器相连接，语音调制解调器的输出与普通的标准电话插头相连接。在人-2处不需要专门的连接设备，就用普通电话作为另一个麦克风/扬声器。因此，声卡-1与相应的麦克风与扬声器由人-1使用，声卡-2与相应的(电话)麦克风与扬声器由人-2使用。

电话拨号由人-1用语音调制解调器进行，电话接通后人-1对连接声卡1的麦克风讲语言A的单词(句子)，由实时翻译装置软件(160)控制的输入麦克风(101)接收，并转换成文字。

实时翻译装置软件(160)控制麦克风(101)的输入。

实时翻译装置软件(160)在实时翻译装置(150)内部开启对声卡-1的控制。

翻译成语言B的词语被转换成语音，并被通过与声卡-2相连接的电话线“大声播出”，让人-2通过普通电话耳机的扬声器听到。电话语音脉冲/音频会话由语音调制解调器进行，是其普通功能的一部分。

人-2用同样的电话或类似通讯方法进行回答或与人-1谈话：人-2在电话线(或类似电讯设备)的一端用语言B所作的回答或讲的其他话象平常一样由电话线进行传输，输入声卡-2。

实时翻译装置软件(160)控制麦克风(201)的输入。

被实时翻译装置(150)翻译成语言A的词语被送至声卡-1，转换成语音，并被通过与声卡-1相连接的扬声器(耳机或类似装置)“大声播出”，让人-1听到。

这就使得分别讲A、B两种语言的人1与2可通过普通标准电话线路进行双向交流。个人都用各自的语言讲话，从对方听到的是自己所用的语言。似乎没有语言差别的样子。通过便携式实时翻译装置(150)或(如下所述)将其连接到电话上)通过电话便可面对面地进行一对一的实时会话。采用普通标准语音调制解调器连接实时翻译装置硬件(151、152、153)(并软件)为用标准电话脉冲/音频进行语音会话提供了一种简单的解决方案。另外。在不同国家应用时，可方便有效地使用各国电讯局批准语音调制解调器，不必用必须得到各国批准的专门的转换器。

与面对面的情况一样，在用电话时，在另一端的人-2不需要实时翻译装置(150)或任何专用设备，因为人-1的实时翻译装置完成了全部的工作。

前面图4所示的人对人电话通讯实施例的有一种另外形式，该变化的形式如图4A所示，表示了人对人电话通讯的另一种使用方式。

如图4A所示，使用了电话系统或语音通讯系统。

但是，与前面不同的是软件与硬件有所改变，两块声卡的方法用于电讯公司或电讯服务供应商的系统中的计算机服务器(PC)上，通过许可进行工作，不再用外部的语音调制解调器。

人-1与人-2通过电话公司或电讯服务供应商提供的电话或类似通讯方法谈话：实时翻译装置硬件(151、152、153)(为使用实时翻译装置软件(160)设计的便携式硬件)运行实时翻译装置软件(160)。打电话的人(人-1)的电话耳机或麦克风/扬声器(通过耳机或类似装置)连接在电话公司或服务供应商的服务器上的声卡-1。

声卡-2也连接在电话公司或服务供应商的服务器上，并向外连接到电话网络，当接通人2打的电话时，便可进行人对人的电话会话。

由人-1用电话公司或服务供应商提供的专门用于该专门服务的专门号码拨号，将电话连接到(实时翻译装置软件(160)所在的)服务器。

然后，人-1按电话公司或服务供应商的语音指示拨通接听人的电话号码。

然后接听人被连接到实时翻译装置软件(160)所在的同一服务器上，连接到了声卡-2。

人-1对电话公司或服务供应商的声卡-1所附的麦克风讲话，语言A的词语由控制输入麦克风/电话(101)的实时翻译装置软件(160)接收，并转换成文字。

电话公司或服务供应商服务器的实时翻译装置软件(160)控制麦克风/电话(101)来的输入。

电话公司或服务供应商服务器的实时翻译装置软件(160)与其控制的软件将语言A的文字翻译成语言B的文字。

电话公司或服务供应商服务器的实时翻译装置软件(160)在实时翻译装置(150)内部开启对声卡-2的控制。

被翻译成语言B的词语被转换成语音，并被通过与电话公司或服务供应商服务器上声卡-2连接的电话线“大声播出”，让人-2通过普通电话耳机听到电话声音。

人-2用同样的电话或类似通讯方法进行回答或与人-1谈话：人-2在电话线(或类似电讯设备)的一端用语言B所作的回答或讲的其他话象平常一样由电话线进行传输，输入电话公司或服务供应商服务器上的声卡-2。

实时翻译装置软件(160)控制麦克风(201)来的输入。

实时翻译装置软件(160)在实时翻译装置(150)内部开启对声卡-1的控制，被实时翻译装置(150)翻译成语言A的词语被送至声卡-1，转换成语音，并被通过与声卡-1相连接的扬声器(耳机或类似装置)“大声播出”，让人-1听到。

这就使得分别讲A、B两种语言的人1与2可通过作为电话公司或服务供应商服务器许可操作的普通标准电话线路进行双向交流。个人都用各自的语言讲话，从对方听到的是自己所用的语言。似乎没有语言差别的样子。通过电话公司或服务供应商提供的实时翻译装置(150)，利用电话便可面对面地进行一对一的实时会话。

在如图4A所示的人对人电话通讯的例子中，如果一个法国人通过电话与日本人会话，首先由作为人-1的人，比如法国人拨通人-2，比如日本人的电话。人-1讲法语，人-2讲日语。通过连接到实时翻译装置，人1讲法语，实时翻译装置直接对人2讲日语。用日语进行的回答由实时翻译装置进行翻译，用法语回答人1。这样，虽然双方都不懂对方的语音，但可以即时进行交流。

在图5所示的一个人对许多人，即讲话人对听众或公众讲话场合的另一个实施例中，人-1与(以人-2为代表的)许多人谈话。实时翻译装置硬件(151、152、153)(为使用实时翻译装置软件(160)设计的便携式硬件)运行实时翻译装置软件(160)。麦克风/扬声器(通过耳机或类似装置)连接声卡-1。

如听众需要扩音器或其他任何扬声器/广播系统，将声卡-2连接到另一个麦克风/扬声器上(独立的或通过耳机)。声卡-1与相应的麦克风与扬声器由人-1(在本实施例中为讲师/演讲者)使用。

声卡-2与相应的麦克风与扬声器供人-2，即该场合下的听众使用。

人-1对连接声卡1的麦克风讲语言A的词语(句子)，由实时翻译装置软件(160)控制的输入麦克风(101)接收，并转换成文字。

实时翻译装置软件(160)控制麦克风(101)的输入。

实时翻译装置软件(160)在实时翻译装置(150)内部开启对声卡-2的控制。前面由实时翻译装置(150)翻译成语言B的文字被转换成语音，并被“大声播出”，让听众(人-2)通过连接到声卡-2的扬声器听到。

因此可以看到本发明包括了可提供两种不同语言之间的方便双向即时会话/对话的实时翻译装置软件(160)与硬件。(通过便携式实时翻译装置(150))便可面对面地会话。

通过标准电话或通讯工具进行会话。

进行一对多对话，如演讲者对听众的场合。

在一对多讲话的场合，如无线电、电视广播与广播讲话。

通过会议系统进行一对多对话。

实时翻译装置(150)对结构的特殊要求就是增加两块声卡。通过编码利用单一声卡的“左右”信道也能取得同样的效果，但是原型采用了两块声卡的方法。

本发明的实施例可以做成便携式的，做得越小越好，以便于由人携带。实时翻译装置软件(160)有效地打破了语言障碍。无论是英译汉还是德译日，不会讲某种语言，不能与听不懂你讲话、只会说不同语言的人对话的障碍被实时翻译装置(150)永远打破了。实时翻译装置(150)是旅行者与旅游者的伙伴与朋友，使他们获得了完全的自由。使用者可以自由自在地周游列国，让别人立即“当场”听懂自己讲话，根本无需学会任何外语。实时翻译装置(150)为商人提供了有效的通讯工具。本发明还提供了方便的电话通讯的商业工具，不需要进行耗时耗钱的昂贵且无用的练习。可与客户、供应商、潜在的商业伙伴直接谈话，没有语言障碍以及随之而来的问题/烦恼。

实时翻译装置(150)为需要用不同语言进行的公共通讯，教学，为需要处理讲不同语言的人民事务的政府部门提供了有效的工具。

本发明还提供了两种软件。第一种软件的配置如下：实时翻译装置软件装在个人电脑上，在屏幕上进行显示，引导用户。

麦克风由软件控制，通过麦克风或键盘输入接收用户讲话输入。

实时翻译装置软件将把输入从语言A转换成语言B，通过个人电脑的扬声器实时、基本上是立即进行回答。

因此可以看到该软件也是学习外语的有用工具/辅助教具。

该软件还能使使用者听懂用语言B回答的词语，使得使用者学到该语言的相应词语，正确的发音以及恰当的讲话方式。

与任何其他要先录音与先输入词语的类似工具相比，这是一个突出的优点。这使得用户可通过“自由”讲与听来学习他想学的语言。这样，学习过程就变得非常容易，也更切合实际。

第二种软件除了上述的之外，还有一个使用实时翻译装置相同功能的平行应用屏幕。这使得用户可用语言B练习发音与讲话，并将其实时、基本上是立即翻回语言A。用户因此可以学会正确的发音，因为只有发音基本正确时翻回到语言A才会说出原来的词语。

Claims

1.一种实时翻译装置，包括(a)语音接收器；(b)语音文字转换器；(c)接收第一语言并翻译成第二选择语言的文字至文字口语转换器；(d)将翻好的第二选择语言转换成语音输出的文字语音转换器；以及(e)发出语音输出的扬声器；其特征是该实时翻译装置作为一种多语种会话翻译装置，有用一个或多个声卡与软件操作的两个声道，对第一个人用一种口述词语讲的话进行翻译，并让用第二种口述词语的第二个人在其讲话被翻译与被第一个人收听的同时或基本同时所收听到，使得两人能在正常时间听懂不同口述词语的正常会话。

2.根据权利要求1所述的翻译装置，其特征是翻译装置是便携式的或手提式的或是一个耳机或类似装置。

3.根据权利要求1所述的翻译装置，其特征是能装在电话系统或个人讲话系统或类似装置上。

4.一种实时翻译装置；包括(a)至少一个语音接收器；(b)至少一个语音文字转换器；(c)至少一个接收第一选择语言文字并翻译成第二选择语言文字与/或接收第二选择语言文字并翻译成第一选择语言文字的文字至文字口语转换器；(d)至少一个将翻好的第一与/或第二选择语言转换成语音输出的文字语音转换器；以及(e)至少一个发出语音输出的扬声器。

5.根据权利要求4所述的翻译装置，其特征是该实时翻译装置包括由两个独立的带软件的电子声音发生器形成的两个声道，这样可在翻成第二选择语言的文字被带软件的第二独立电子声音发生器转换成语音的同时，将正在接收的第一语言的第一语音转换成文字。

6.根据权利要求4所述的翻译装置，其特征是独立电子声音发生器是两块个人电脑声卡或类似装置，或是一块个人电脑声卡的两个有独立软件控制的左右信道。

7.一种便携式实时翻译装置，包括：(a)接收第一与第二选择语音的第一与第二语音接收器；(b)第一与第二语音文字转换器；(c)至少一个接收第一选择语言文字并翻译成第二选择语言文字与/或接收第二选择语言文字并翻译成第一选择语言文字的文字至文字口语转换器；(d)至少一个将翻好的第一与第二选择语言转换成第一与第二语音输出的文字语音转换器；以及(e)第一与第二发出语音输出的扬声器。

8.根据权利要求7所述的翻译装置，其特征是具有一种结构，能处理语音到文字或文字到语音的第一与第二转换与/或文字到文字语音翻译过程中的“重叠”，使得接收语音与发出翻好的语音之间的时间滞后在合理的会话时间内，使这个时间小于1秒，最多不超过2秒。

9.根据权利要求8所述的翻译装置，其特征是该结构能使语音的翻译与发出用基本上与输入语音的语音片段一致的语音片段进行，形成一个连续的有间隔语音片段流，来模仿会话，最好这样的语音片段是一个句子或句子的一部分。

10.根据权利要求7所述的有两个声道的翻译装置，其特征是有“重叠”处理，使得接收、翻译第一语言的第一语音与发出翻好的语音与接收第二语言的第二语音以及翻译与发出第二翻好的语音由独立处理路径同时或显然同时进行。

11.根据权利要求10所述的翻译装置，其特征是两个声道包括独立个人电脑声卡或类似装置或一张声卡的独立信道或类似装置。

12.根据权利要求10所述的有两个声道的翻译装置，其特征是两个声道包括以保持同时合理实时处理两条路径的速率来开关两条处理路径的开关系统。

13.一种提供实时语音翻译的方法，该方法包括的步骤是：(a)提供接收第一与第二选择语音的第一与第二语音接收器；(b)提供分别与第一与第二语音接收器相连接的第一与第二发出语音输出的语音扬声器；(c)将上述第一与第二语音接收器来的上述第一与第二选择语音转换成文字；(d)提供从上述第一语音接收器接收第一选择语言文字并翻译成第二选择语言文字与/或接收第二选择语言文字并翻译成第一选择语言文字的文字至文字口语转换器；(e)提供将翻好的第一与第二选择语言转换成第一与第二语音输出的语音转换器；以及(f)发出上述翻好、转换好的第一与第二语音输出。

14.根据权利要求13所述的翻译方法，其特征是两块声卡或一块声卡上两个独立工作的信道提供第一与第二语音接收器与第一与第二扬声器。

15.根据权利要求13所述的翻译方法，其特征是语音到文字的转换与/或文字翻译与/或文字到语音的转换处理是由中央处理器(CPU)或类似装置与声卡的软件控制进行的，平行处理最好由中央处理器(CPU)平行处理技术或通过软件控制的开关技术进行。

16.根据权利要求13所述的翻译方法，其特征是语音到文字转换与/或文字翻译与/或文字到语音转换是2秒左右的语音片段到中央处理器(CPU)的兆赫速度间进行开关来处理的。

17.一种实时翻译装置，包括：(a)从至少一个语音接收器接收语音的翻译装置输入装置；(b)至少一个语音文字转换器；(c)至少一个接收第一选择语言文字并翻译成第二选择语言文字与/或接收第二选择语言文字并翻译成第一选择语言文字的文字至文字口语转换器；(d)至少一个将翻好的第一与/或第二选择语言转换成第一与第二语音输出的文字语音转换器；以及(e)至少能向一个发出语音输出的语音发生器输送语音输出的翻译装置输出装置。

18.根据权利要求17所述的翻译装置，其特征是实时翻译装置包括语音到文字转换与/或文字翻译与/或文字到语音转换的平行处理。

19.根据权利要求17所述的翻译装置，其特征是该实时翻译装置包括处理装置与两个电子声音发生器形成的两个声道，这样可在翻成第二选择语言的文字被第二声音发生器转换成语音的同时，由第一声音发生器将正在接收的第一语言的第一语音转换成文字。

20.根据权利要求17所述的翻译装置，其特征是独立电子声音发生器是两块个人电脑声卡或类似装置，或是一块个人电脑声卡或类似装置的两个有独立软件控制的左右信道，语音到文字的转换与/或文字翻译与/或文字到语音的转换存在着平行处理，语音到文字转换与/或文字翻译与/或文字到语音转换是在2秒左右的语音片段到中央处理器(CPU)的兆赫速度间进行开关处理的。

21.一种实时翻译装置，包括：(a)第一翻译装置输入装置，能(i)从至少一个语音接收器接收语音，供至少一个语音文字转换器接收，或(ii)接收键盘输入；(b)至少一个从翻译装置输入装置接收第一选择语言文字并翻译成第二选择语言文字的文字至文字口语转换器；(c)至少一个将翻好的第一与/或第二选择语言转换成第一与第二语音输出的文字语音转换器以及一个翻译装置输出装置，能至少将语音输出送至语音发生器，发出语音输出，或显示于屏幕；(d)第二翻译装置输入装置，能(i)从至少一个语音接收器接收语音，供至少一个语音文字转换器接收，或(ii)接收键盘输入；(e)至少一个接收第二选择语言文字并翻译成第一选择语言文字的文字至文字口语转换器；(f)至少一个将翻好的第二选择语言转换成第一语音输出的文字语音转换器以及一个翻译装置输出装置，能至少将语音输出送至语音发生器，发出语音输出，或显示于屏幕。

22.根据权利要求21所述的翻译装置，其特征是实时翻译装置包括语音到文字转换与/或文字翻译与/或文字到语音转换的平行处理。

23.根据权利要求22所述的翻译装置，其特征是该实时翻译装置包括处理装置与两个电子声音发生器，形成两个声道，这样可在翻成第二选择语言的文字被第二电子声音发生器转换成语音的同时，由第一电子声音发生器将正在接收的第一语言的第一语音转换成文字。

24.根据权利要求23所述的翻译装置，其特征是独立电子声音发生器是两块个人电脑声卡或类似装置，或是一块个人电脑声卡或类似装置的两个有独立软件控制的左右信道，语音到文字的转换与/或文字翻译与/或文字到语音的转换存在着平行处理，语音到文字转换与/或文字翻译与/或文字到语音转换是在2秒左右的语音片段到中央处理器(CPU)的兆赫速度间进行开关处理的。

25.上述参照附图说明的实时翻译装置。

26.上述参照附图说明的提供语音实时翻译的方法。