CN101502094A

CN101502094A - 用于手语图形解释器的方法和系统

Info

Publication number: CN101502094A
Application number: CNA2007800302781A
Authority: CN
Inventors: 维托里奥·G·布基耶里; 阿尔伯特·L·施密特
Original assignee: Verizon Data Services LLC
Current assignee: Verizon Data Services LLC
Priority date: 2006-06-15
Filing date: 2007-05-30
Publication date: 2009-08-05
Anticipated expiration: 2027-05-30
Also published as: WO2007145818A2; US20100223046A1; US8411824B2; CA2655359A1; CN101502094B; US20070291910A1; HK1132861A1; US7746986B2; JP2009540384A; WO2007145818A3; EP2027713A4; EP2027713A2

Abstract

公开了用于向用户显示视觉内容的系统和方法，该视觉内容对应于在用户终端处捕获到的声音。在通过网络从用户终端接收到将声音转换成表现该声音的视觉内容的请求之后，其中所述声音包括一个或多个词语，翻译服务器可以从数据库中检索对应于所述一个或多个词语的文本。然后，翻译服务器可以将该文本转换成一个或多个内容短语，其中所述内容短语表现所述一个或多个词语的意思，并且将一个或多个内容短语转换成新语言。最后，翻译服务器可以向表现新语言的用户终端发送视觉内容。

Description

用于手语图形解释器的方法和系统

本申请要求2006年6月15日提交的美国专利申请No.11/453，202的优先权。

背景技术

大多数生来就失聪的聋人更喜欢读“用手势表示”的内容而不是写下的内容。传达“用手势表示”的内容需要使用与面部表情结合的手势。“用手势表示”的内容不得不经常是手指拼写的(外国名称、电话号码等)，但是对于大多数情况，它传递概念行为和事实。ASL是与非英语的语言(即法语、德语等)等效的。在英语句子的词语序列与相应的手语翻译之间几乎不存在什么关系。ASL解释器将以不考虑口头或书面英语句子的句法和语法结构的方式来传达句子的意思。手语使用上部躯体(腰以上)、臂、手、手指、头、以及面部表情来描述和强调交流，与口述词语使用语调、音量和词语之间的停顿来描述和强调交流的方式相同。通常雇用手语翻译员来以美式手语(ASL)来翻译同时发生的会话或其他英语内容。

目前，影片化和数字化的视频也提供了对用手势表示的内容的传达。还使用了图形动画手或人物。在交互式词典中也可以获得单个词语或短句子的拼写词语以及用手势表示的意思。手语翻译员还经常被用于指导、咨询或者甚至被制成影片。

这些用于传达用手势表示的内容的当前方法具有许多缺点。在不将翻译人员制成影片的情况下，不能串连或者建立用手势表示的短语系列。不存在已有的动作手语库，该动作手语库将允许作者使用可用的各种类型和强度的上部躯体运动和面部表情来有效地构造用手势表示的句子。在每次产生新的内容时，不论是新的网页、电视公告、还是会话，都必须做出特定的翻译努力。在聋人和健听人之间的会见中，还不得不雇用人类手语翻译员，经由电传设备(TTY)或使用其他相互作用来详细说明会话。

因此，需要一个系统，该系统包括一个用于以手语传达内容的图形计算机代理，其中该代理可以同时传达对应于来自第三方的声音和词语的声音或者文本的呈现。图形描绘代理带来了有生命的翻译员不能够提供的一致性和视觉优势。

附图说明

图1示出了与有关本发明的某些方面一致的示例性系统环境的框图。

图2示出了与有关本发明的某些方面一致的示例性用户终端的框图。

图3示出了与有关本发明的某些方面一致的示例性翻译服务器的框图。

图4示出了例示有关本发明的一个方面的流程图。

图5示出了与本发明的实施例一致的示例性显示器。

具体实施方式

用于提供手语图形翻译器(SLGT)的系统和方法可以接收来自许多个源或第三方的声音。这些第三方可以是，例如，另一个人、电视、电话、无线电设备、或能够传送声音的任何其他设备。作为响应，SLGT可以将捕获到的声音转换成文本并且将词语和句子的内容翻译成ASL，所述捕获到的声音可以由口述词语或噪声组成。然后，SLGT可以将ASL内容与对应于该ASL的动画进行匹配，然后向SLGT的用户显示文本以及与捕获到的声音对应的ASL动画。

根据一个示例性实施例，一种方法可以包括：在用户终端处捕获来自第三方的声音，其中所述声音包括一个或多个词语；将所述一个或多个词语转换成表现所述一个或多个词语的文本；将所述一个或多个词语转换成一个或多个内容短语，其中内容短语表现所述一个或多个词语的意思；将所述一个或多个内容短语中的每一个转换成新语言；并且在表现新语言的用户终端处显示视觉内容。

根据另一示例性实施例，一种系统可以包括翻译服务器，该翻译服务器连接到网络并且可以由至少一个用户终端访问，并且其中该翻译服务器被配置用于：通过网络从用户终端接收将声音转换成表现该声音的视觉内容的请求，其中所述声音包括一个或多个词语；从数据库中检索对应于所述一个或多个词语的文本；将所述文本转换成一个或多个内容短语，其中内容短语表现所述一个或多个词语的意思；将所述一个或多个内容短语中的每一个转换成新语言；并且向用户终端发送视觉内容，所述用户终端以新语言表现内容。

现在将参考所提供的附图来更加详细地讨论示例性实施例。在可能的情况下，在所有的附图中使用相同的附图标记来指示相同或相似的元件。附图示出了优选的示例性实施例和实施方式，但是对那些实施例的描述并未指明或暗示其他实施例或实施方式不落在本发明的范围之内。将理解在不偏离由所附权利要求所阐述的本发明的范围的前提下，可以利用其他实施例并且可以进行结构上的和程序上的改变。

图1提供了例示与这里所描述的一个实施例一致的系统环境100的框图。系统环境100可以包括用户105、用户终端110、网络120、翻译服务器130、以及第三方140。

用户105可以是任何个人或公共的、慈善的、商业的、或任何其他实体。用户终端110可以是一个或多个数据处理系统，所述数据处理系统执行用于向用户105提供到网络120的接口的计算机执行的过程。用户终端110可以被实现为一个或多个计算机系统，包括，例如，个人计算机、小型计算机、微处理器、工作站、或者典型地在本技术中采用的类似的计算机平台。可替代地，用户终端110可以嵌入在专门的计算系统内，包括，例如，用于接收和显示电视广播的“机顶盒”、视频电话、移动电话、个人数字助理、或视频游戏设备。用户终端110可以位于用户家中、在企业中、在公共信息亭中、或者在便携设备中。

网络120可以是至少在用户终端110和翻译服务器130之间传递信息的一个或多个网络。网络120可以是用于传递信息的任何类型的网络，所述信息包括数据、文本、图片、语音、以及音频。在一些实例中，网络120具有用于实时地呈现从翻译服务器130传送到用户终端110的视觉内容的充足带宽。网络120可以是共享的、公共的、私有的、客户端服务器、或者包括广域或局域的对等网络，包括外联网(extranet)、内联网(Intranet)、因特网、局域网(LAN)、广域网(WAN)、公共交换电话网(PSTN)、综合业务数字网(ISDN)、无线电链路、地面无线网络、有线电视网络、卫星电视网络、以及任何其他形式的有线或无线通信网络。而且，网络120可以与被系统环境的组件用来交换信息的任何类型的通信协议兼容，所述通信协议诸如传输控制/因特网协议(TCP/IP)、超文本传输协议(HTTP)、安全超文本传输协议(HTTPS)、实时传输协议(RTP)、实时流协议(RTSP)、全球移动通信系统(GSM)、以及码分多址(CDMA)无线格式、无线应用协议(WAP)、用户数据报协议(UDP)、文件传输协议(FTP)、高带宽无线协议(例如，EV-DO、WCDMA)、或对等协议。可以由一个或多个服务提供商来提供网络120，所述服务提供商诸如因特网服务提供商(ISP)、有线/无线电话服务提供商、有线电视或卫星电视提供商、WAN或LAN运营商、或点对点网络运营商。

翻译服务器130可以是一个或多个计算机系统，包括，例如，个人计算机、小型计算机、微处理器、工作站、或典型地在本技术中采用的类似的计算机平台。翻译服务器130执行计算机可执行指令用于通过网络120向用户终端110提供翻译服务，如下面进一步描述的。

第三方140可以是个人、另一计算机、电视、电话、电影院等。在一些情况中，用户105可以使用用户终端110接收来自第三方140的信息。例如，第三方140可以是电影院，并且用户105希望翻译第三方140正在传送的无论什么信息，诸如电影中人物之间的会话。

图1中所示的单元105-140之间的一般相互作用如下。第三方140可以呈递声音，该声音由词语以及噪声组成，不论它是电影播放还是无线电设备传送的声音。用户105使用用户终端110来捕获由第三方140传送的声音。当第三方140呈递声音时，用户终端110通过网络120向翻译服务器130传送捕获到的声音。然后翻译服务器130可以为用户终端110提供翻译服务。翻译服务器130可以首先将捕获到的声音翻译成文本并且将与捕获到的声音对应的文本传送回用户终端110。翻译服务器130还可以将文本的内容翻译成ASL。一旦翻译服务器130将捕获到的声音翻译成了文本和ASL，则它可以将文本连同对应的ASL动画一起传送到用户终端110。

如图1中所示的，系统环境100包括单个用户105、用户终端110、网络120、翻译服务器130、以及第三方140。然而，如对技术人员显而易见的，实际的实施例可以包括多个用户、用户终端、服务器、和/或通过在多个网络之间共享数据的多个网络交换点链接在多个网络上的第三方。翻译服务器130还可以被包括在用户终端110中，这消除了对网络120的需要。

图2提供了说明示例性用户终端110的框图，用户终端110通过网络120向用户105提供到翻译服务器130的接口。用户终端110可以包括控制器210和输入/输出设备250。控制器210可以是一个或多个处理设备，该处理设备执行存储在一个或多个存储设备中的计算机指令以提供与这里所描述的优选实施例的某些方面一致的功能。控制器210可以包括，例如，中央处理单元(CPU)215、存储器216、网络接口218、视频接口220、音频接口222、通信接口224、以及数据存储设备230。

CPU 215使用例如存储在存储器216和/或数据存储设备230中的可执行指令和数据为用户终端110提供控制和处理功能。虽然图2示出了单个CPU 215，但是控制器210可以包括多个CPU。CPU 215还可以包括，例如，协处理器、存储器、寄存器、和/或其他适当的处理设备和系统。CPU 215可以是任何传统的处理器，诸如成品微处理器(例如，英特尔奔腾)；或者特别适用于用户终端110的专用集成电路。

存储器216可以是存储数据和指令的一个或多个存储设备，当所述数据和指令被CPU 215执行时，执行这里所描述的过程。存储器216可以包括半导体和磁存储器，诸如随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程ROM(EEPROM)、闪存、光盘、磁盘、等等。当用户终端110执行安装在数据存储设备230中的应用时，CPU 215可以从数据存储设备230下载至少一部分指令到存储器216中。

网络接口218可以是被配置用于翻译在CPU 215和网络120之间发送的信息的一个或多个硬件和/或软件组件。例如，网络接口218可以是调制解调器或者局域网(LAN)端口。网络接口218可以支持任何电信或数据网络，包括，例如，以太网、无线保真(WiFi)、令牌环、异步传输模式(ATM)或ISDN。可替代地，网络接口218可以是通过通信接口224连接到控制器210的外部设备。

视频接口220可以是用于对CPU 215和视频输出设备252之间交换的信息进行翻译的任何设备。还可以使用基于矢量的Flash^TM动画。视频接口220可以包含基于矢量的绘图库；基于矢量的绘图可以被做成动画以经由视频输出252来显示ASL内容。ASL动画数据库346还可以提供动画指令。例如，与木偶类似，物理木偶可以驻留在视频输出252中，并且移动绳子的信息和动作可以来自于ASL动画数据库346。虽然将视频接口220描述为硬件设备，但它也可以被实施为软件、固件、或其组合。

音频接口222可以是用于使信息能够在CPU 215和音频输入设备256之间交换的任何设备。此外，音频接口222可以包括CODEC用于对以压缩格式(例如，MP3)存储的音频数据进行解压缩。虽然将音频接口222描述为硬件设备，但它也可以完全在软件、固件、或其组合中实施。

通信接口224提供用于在控制器210和外部设备之间交换数据的一个或多个接口，其包括输入/输出设备250。通信接口224可以包括，例如，串行端口(例如，RS-232、RS-422、通用串行总线(USB)、IEEE-1394)、并行端口(例如，IEEE1284)、或无线端口(例如，红外线、紫外线、或射频收发器)。在一些实施例中，可以通过通信接口224与CPU 215交换音频、视频、和/或网络数据。

数据存储设备230可以为用户终端110提供存储器。数据存储设备230可以被实施为具有多种组件或子系统，包括，例如，磁盘驱动器、光盘驱动器、闪存、或能够永久地存储信息的其他设备。而且，虽然数据存储设备230被示出在用户终端110内，数据存储设备230可以被实施为在用户终端110的外部。数据存储设备230可以包括用于用户终端110与翻译服务器130进行通信的程序代码和数据。此外，数据存储设备230可以包括用于操作系统242、浏览器模块244、查看器模块246、和声音模块248的程序指令和数据。

示例性输入/输出设备250包括视频输出252、音频输入256、和用户输入260。视频输出252可以是用于显示视觉信息的任何设备，诸如阴极射线管(CRT)、液晶显示器(LCD)、发光二极管显示器(LED)、等离子显示器、或电致发光显示器。音频输入设备256可以是扬声器、头戴式耳机、听筒、或将可听的音调转换成电信号的其他音频转换器。用户输入设备260可以是用于向用户终端110传递用户105的命令的任何传统设备，包括键盘、小键盘、计算机鼠标、触摸屏、跟踪球、触笔、滚轮、操纵杆、电视遥控器、或语音识别控制器。

图2中示出的组件的配置或关系是示例性的。用户终端110的组件可以是可操作地连接的独立组件，或者它们可以被组合在单个设备中，包括前述组件的一些或全部功能。例如，输入/输出设备250可以是在分立壳体中的多个独立设备，可分离地连接到通用控制器210，诸如个人计算机或家庭娱乐系统。在其他实施例中，控制器210和输入/输出设备250可以被集成在具有专门的控制器210的单个壳体中，诸如便携电话。本技术领域的一个普通技术人员可以基于用户终端110的特定实施方式的要求、考虑下述因素来选择组件的不同配置，所述因素包括但不限于成本、尺寸、速度、外形规格、容量、携带性、功率消耗、以及可靠性。

如图2中进一步示出的，用户终端110可以执行终端软件过程240。提供软件过程240的计算机可执行指令可以存储在存储器216和/或数据存储设备230中，并且包括，例如，操作系统242、浏览器模块244、查看器模块246、和声音模块248。

操作系统242可以包括由CPU 215执行用于管理指令的执行、存储器、数据存储器、设备、安全、和/或网络通信的计算机可执行指令。此外，操作系统242可以提供用户界面，该用户界面使用户105能够经由视频输出252、音频输入256、以及用户输入260与用户终端110进行交互。例如，用户界面可以是在计算机显示器上显示的图形用户界面，诸如由微软公司制造的Windows中所提供的，通过该用户界面用户105通过利用计算机鼠标和键盘输入信息来进行交互。可替代地，用户界面可以是由机顶盒产生并且在电视上显示的在屏菜单(on-screenmenu)，通过该菜单用户105通过使用无线遥控输入信息来进行交互。

浏览器模块244(另一类型的用户界面)包括由CPU 215执行用于使用户105能够查看例如由翻译服务器130和/或其他网络服务器托管的图像和文档、并且使用户105能够与所述图像和文档进行交互的计算机可执行指令。例如，浏览器模块244可以是展现网页(在因特网的万维网上可访问的文档)的Web浏览器，所述网页具有使用超文本标记语言(HTML)或其变体格式化的内容。这种网页还可以提供用户界面，并且可以从存储器或使用超文本传输协议(HTTP)的web服务器中检索到这种网页。在一些实施例中，浏览器模块244可以是第三方浏览器，诸如微软公司的Internet Explorer或苹果计算机有限公司的Safari。在其他实施例中，浏览器模块244可以适用于特定用户终端110和/或网络120，诸如连接到有线电视网络的机顶盒。

查看器模块246可以包括由CPU 215处理的用于提供交互式用户界面的计算机可执行指令，该交互式用户界面用于通过视频输出252查看视觉内容以及文本。查看器模块246可以针对播放、记录、回退、回顾、提示、快进、和暂停视觉内容以及其他形式的媒体来提供控制。在一些实施例中，查看器模块246可以是第三方媒体查看器，诸如微软公司制造的Windows媒体播放器、苹果计算机有限公司发布的QuickTime、或Macromedia的Flash。在其他实施例中，查看器模块246可以与浏览器模块244集成在一起，形成一体的浏览器并被检查。在其他实施例中，这些模块可以是分立的但是可根据请求一起操作。

声音模块248包括由控制器210执行的用于接收和存储来自用户105和/或第三方140的声音的计算机可执行指令。例如，用户105可能希望看见与从第三方140传送的声音相对应的实际的词语和动画。声音模块248可以通过用户终端110捕获来自第三方140的声音。

图2中所示的软件模块242-248的配置或关系是示例性的。根据本发明的某些方面，终端软件过程242-248可以是独立的应用，或者它们可以被组合在单个应用中，包括一些或所有模块的功能。

图3提供了示例性翻译服务器130的框图，该示例性翻译服务器可以是执行存储在一个或多个计算机存储设备中的软件模块的一个或多个处理设备。翻译服务器130可以包括系统，该系统包括服务器系统，所述服务器系统包括控制器310、网络接口336、以及数据存储设备340。

控制器310可以是一个或多个普通计算机系统，包括，例如，个人计算机、小型计算机、微处理器、工作站、或典型地在本技术中采用的类似的计算机平台。控制器310可以由用于存储和执行数据及指令的CPU以及存储器组成。CPU可以是任何传统控制器，诸如成品微处理器(例如，因特尔奔腾)或适用于特定翻译服务器130的专用集成电路。CPU可以处理存储在计算机存储器和/或数据存储设备340中的指令和数据。存储器可以是存储数据的一个或多个存储设备，并且包括操作系统和软件模块，所述操作系统和软件模块在被控制器310执行时执行与有关本发明的某些方面一致的过程。这些存储设备可以包括半导体和磁存储器，诸如RAM、ROM、EEPROM、闪存、光盘、磁盘，等等。网络接口336可以支持任何通讯或数据网络，包括，例如，以太网、WiFi、令牌环、或光纤分布式数据接口。数据存储设备340可以是用于存储由控制器310使用的数据和可执行指令的一个或多个存储设备。

数据存储设备340可以包括声音数据库342、ASL内容数据库344、以及ASL动画数据库346。声音数据库342可以存储记录，该记录包括与通用类别的声音有关的信息，通用类别的声音从词语、串连的词语、和文本到各种噪声。声音数据库342还可以存储与每个声音对应的文本用于描述声音。例如，对于咳嗽的声音，声音数据库342可以存储“咳嗽”作为对应的文本。在另一示例中，对于词语“喂”，声音数据库342可以存储文本“喂”作为对应的文本。

ASL内容数据库344可以存储记录，该记录包括描述内容短语的信息以及用于该短语的已翻译的ASL的相当部分。ASL动画数据库346可以存储与存储在ASL内容数据库344中的各个内容短语相关联的视觉内容。对于每个内容短语，ASL内容数据库344可以存储表现人的嘴或唇的对应动画，其示出该短语好像一个人在讲和说该短语。ASL内容数据库344还可以存储通过拼出英语词语来用手势表示ASL短语的手的对应动画，以及强调ASL内容的手、臂、以及脸部运动的动画人物。ASL内容数据库344还可以存储字母表中的每一个字母以及每个数字的ASL动画。

例如，ASL内容数据库344将存储字母“A”、“B”、“C”等等、以及从“0”到“9”的每个数字的ASL动画等效物。ASL内容数据库344可以存储词语“喂”的图形ASL动画以及唇读动画。此外，ASL内容数据库344可以存储内容短语“你好吗？”的单个ASL动画。下面进一步对前述的每个数据库进行描述。

如图3中进一步示出的，控制器310可以执行多个软件过程320用于除其他事项之外提供实施这里所描述的优选实施例的实时翻译服务。可以将提供软件过程320的计算机可执行指令存储在计算机存储器和/或数据存储设备340中，软件过程320包括操作系统322、服务器模块324、声音到文本模块328、内容到ASL模块330、ASL到动画模块332、以及文本和动画显示模块334。

操作系统322可以包括由控制器310执行用于管理指令的执行、存储器、数据存储器、设备、安全、和/或网络通信的计算机可执行指令。此外，操作系统322可以提供用户界面，诸如由微软公司制造的Windows中所提供的。

服务器模块324可以包括由控制器310执行用于通过网络120接收和传送来自用户终端110和/或第三方140的数据通信的计算机可执行指令。例如，服务器模块324可以是用户终端110可以利用浏览器模块244访问的标准web服务器，诸如阿帕奇(Apache)web服务器。

声音到文本模块328可以包括由控制器310执行的用于将捕获到的声音转换成文本的计算机可执行指令，这与本发明的实施例一致。声音到文本模块328用来产生与用户终端110捕获到的声音相对应的文本。声音到文本模块328可以捕获声音，然后可以在声音数据库342中进行查找并且搜索对应于该声音的文本。

文本到内容模块329可以包括由控制器310执行的用于将来自声音到文本模块328的文本转换到内容的计算机可执行指令。文本到内容模块329可以在ASL内容数据库344中进行查找并且搜索对应于该文本的内容。

内容到ASL模块330可以包括由控制器310执行的用于将文本的内容转换到ASL的计算机可执行指令。内容到ASL模块330用于从翻译的文本形成内容，并且在内容形成之后，它将该内容转换成ASL。在将文本转换成内容之后，内容到ASL模块330可以针对对应的ASL等效物在ASL内容数据库344中查找内容短语。

ASL到动画模块332可以包括由控制器310执行的用于将文本的内容的ASL等效物转换成对应于该内容的ASL动画的计算机可执行指令。文本和动画显示模块334可以包括由控制器310执行的用于显示来自文本到内容模块329的文本以及来自ASL到动画模块332的一个或多个ASL动画的计算机可执行指令。

在一个示例性实施例中，声音到文本模块328、文本到内容模块329、内容到ASL模块330、ASL到动画模块332、以及文本和动画显示模块334可以都驻留在用户终端110中的控制器210上，与驻留在分立服务器上相对。

图4示出了例示有关本发明的翻译过程的流程图。用户终端110可以首先使用声音模块248来捕获由第三方传送的声音(阶段410)。根据第三方140采取的形式，可以捕获不同类型的声音。例如，如果第三方140是人，则所捕获到的声音可以是以会话或单个词语的形式。如果第三方140是电影屏幕或电视，则声音可以表现词语以及其他声音，诸如不包含任何词语而仅仅是代表可识别声音的声音，诸如例如汽车喇叭、门铃、或敲击。本技术领域的技术人员将了解其他声音是可能的，且该列表不限于以上示例。声音模块248持续地捕获声音并且通过网络120实时地将其传送到翻译服务器130。

然后，翻译服务器130可以将捕获到的声音转换成文本(阶段420)。翻译服务器130可以使用声音到文本模块328来转换该声音。声音到文本模块328可以获取所捕获到的每个声音，在声音数据库342中查找该声音，并且找到该声音的对应文本。可以例如利用任何声音或语音识别软件来实施声音到文本模块328，所述声音或语音识别软件诸如由加利福尼亚的库珀蒂诺的苹果计算机公司提供的苹果语音识别。

在翻译服务器130将捕获到的声音转换成文本后，翻译服务器130可以将文本的内容转换成英语内容(阶段421)并且从英语内容转换到ASL内容(阶段430)。翻译服务器130可以使用内容到ASL模块330将内容转换成ASL。内容到ASL模块330可以首先将这些文本词语的一个或多个编成组，并且针对它们传达的意思—短语的全部内容对它们进行检查。然后将该内容翻译成另一语言(即，ASL)的另一短语。该翻译的句子还由遵从ASL语法结构的词语的序列限定。

然后，翻译服务器130可以将翻译的ASL句子转换成表现ASL句子的动画(阶段440)。对于每个ASL短语，ASL到动画模块332可以在ASL动画数据库346中查找短语以找到相应的动画。ASL到动画模块332可以将每个ASL内容短语转换成表现该短语的动画。ASL到动画模块332还可以将每个ASL内容短语转换成动画人物，该动画人物在以ASL用手势表示内容时强调手、臂、以及脸部运动。

内容到ASL模块330还可以将由声音到文本模块328翻译的每个英语词语转换成表现该英语词语的拼写的单个ASL动画。例如，如果声音到文本模块328捕获到词语“狗”，则内容到ASL模块330可以针对每个字母的对应ASL等效物在ASL动画数据库346中查找该词语的每个字母。在显示模块510中将示出表现字母D-O-G的文本，在显示模块540中将示出字母D-O-G的手指拼写的动画，并且经由显示模块520中唇的运动将示出相同英语词语的唇动画(在图5中示出510、540和520)。

最后，翻译服务器130可以向用户显示动画以及，可选地，文本(阶段450)。翻译服务器130可以显示由声音到文本模块328转换的文本，以及由ASL到动画模块332转换的文本的内容的动画等效物。如上所述，动画可以由读词语的唇动画、用手势表示词语的拼写的手动画、以及用手势以ASL语言表示内容的动画人物构成。翻译服务器130可以在用户终端110处实时地将文本和动画显示为基于矢量的动画。

图5提供了说明与本发明的实施例一致的示例性图形翻译器代理500的示图。文本和动画显示模块334可以产生可由用户终端通过网络120访问的图形翻译器代理500。例如，图形翻译器代理500可以是通过XML和/或HTML产生的交互式用户界面，并且通过网络浏览器模块244将图形翻译器代理500作为交互式网页向用户显示。可替代地，可以使用由加利福尼亚的旧金山的Macromedia有限公司提供的Flash来产生图形翻译器代理500。图形翻译器代理500还可以包括文本滚屏510、词语唇读520、视频控制530、词语拼写540、动画人物550、以及显示定制560。

图形翻译器代理500还可以提供交互式用户界面，该交互式用户界面使用户105能够查看和操纵与从第三方140捕获到的声音有关的文本和视觉内容。在声音到文本模块328将捕获到的声音翻译成文本之后，然后由图形翻译器代理500在文本滚屏510中显示对应文本。当新的声音或口述的词语被翻译成文本时，文本滚屏510自动进行更新。

当显示文本时，在ASL到动画模块332针对词语中的每个字母确定了ASL动画之后，由该文本表现的词语的每个字母的拼写的ASL等效物也在词语拼写540中被显示。例如，如果正在文本滚屏510中显示的词语是“猫”，则ASL到动画模块332可以在ASL动画数据库346中查找“猫”中的每个字母，并且在词语手指拼写540和唇读520中显示每个字母的对应ASL动画。

此外，如前所讨论的，ASL到动画模块332可以将每个ASL内容短语转换成由动画人物用手势表示的ASL，该动画人物强调内容的手、臂、以及面部运动。因此，当正在显示英语文本以及词语的拼写的等效物时，也在词语唇读520中显示英语词语的唇读图形，以及在动画人物550中显示动画人物用手势表示内容短语的ASL等效物。

图形翻译器代理500还可以包括视频控制530以允许用户暂停或者回退先前显示的文本或动画。图形翻译器代理500还可以包括显示定制560。该显示定制560可以允许用户调整图形翻译器代理500的各个组件的大小。附加的定制和视觉增强通过定制显示器的大小、动画速度、句子之间的停顿、颜色对比等将允许关于不同类型的认知和视觉缺陷的可读性。

虽然在图5中将包括显示510-560的图形翻译器代理500示出为被实施在单个用户界面中，但本技术领域中的一个普通技术人员将容易地认识到在其他实施例中，每个显示可以是分立的用户界面，或者，可替代地，嵌套在一系列分层用户界面中。

仅出于说明的目的，这里参考图1-5中示出的组件描述了优选实施例的某些方面。然而，所示出的组件的功能性可以重叠，并且可以存在更少或更多数目的元件和模块。而且，所示出的元件的所有功能性或部分功能性可以共存或分布在地理上分散的几个位置之间。而且，可以在多种环境中且不限于所示出的环境中实施本发明的实施例、特征、方面、以及原理。

此外，在图4中描述的事件序列是示例性的且不旨在是限制性的。因此，在不偏离本发明的范围的前提下，可以使用其他方法步骤，并且甚至在使用图4所描述的方法时，事件的特定顺序可以变化。而且，在图4中可能没有呈现某些步骤并且可以实施附加的步骤。除此之外，这里描述的过程不是与任何特定装置固有相关的，且可以通过组件的任何适合的组合来实施。

前述对与本发明一致的优选实施例的描述不代表所描述的实施例的所有可能实施例或所有变化的全面列表。仅对一些实施例的描述不应被解释为旨在排除其他实施例或其变形。技术人员将理解如何使用不偏离下述权利要求的范围的等效和替代、以许多其他方式根据所附权利要求来实施本发明。而且，除非在先前描述中作出相反指示，否则在实施方式中所描述的组件对于本发明都不是本质的。

Claims

1.一种方法，包括：

在用户终端处捕获来自第三方的声音，其中所述声音包括一个或多个词语；

将所述一个或多个词语转换成文本，所述文本表现所述一个或多个词语中的每一个；

将所述文本转换成一个或多个内容短语，其中所述内容短语表现所述一个或多个词语的意思；

将所述一个或多个内容短语中的每一个转换成新语言；以及

在表现所述新语言的所述用户终端处显示视觉内容。

2.权利要求1所述的方法，进一步包括：

将所述新语言转换成所述视觉内容。

3.权利要求1所述的方法，其中所述新语言是美式手语。

4.权利要求1所述的方法，其中所述第三方是人、电视、影院、无线电设备、计算机、或电话中的至少一个。

5.权利要求1所述的方法，其中提供所述视觉内容包括：

在服务器和所述用户终端之间建立通信链路；以及

通过文件流将所述视觉内容传送到所述用户终端。

6.权利要求5所述的方法，其中所述视觉内容由至少一个或多个对应于所述新语言的动画以及对应于所述新语言的视觉文本组成。

7.权利要求6所述的方法，其中所述一个或多个动画包括唇读图形、手动画、以及动画人物中的至少一个。

8.权利要求1所述的方法，其中所述声音进一步包括一个或多个非口述的噪声。

9.一种计算机可读介质，存储可由处理器执行的指令并且被配置为当被所述处理器执行时执行权利要求1所述的方法。

10.一种系统，包括：

翻译服务器，连接到网络并且可被至少一个用户终端访问；并且

其中所述翻译服务器被配置用于：

通过网络从用户终端接收将声音转换成表现所述声音的视觉内容的请求，其中所述声音包括一个或多个词语；

将所述一个或多个词语匹配到与所述一个或多个词语中的每一个相对应的文本；

将所述一个或多个内容短语中的每一个转换成新语言；以及

将视觉内容发送到表现所述新语言的所述用户终端。

11.权利要求10所述的系统，其中所述翻译服务器进一步被配置用于将所述新语言转换成所述视觉内容。

12.权利要求10所述的系统，其中所述新语言是美式手语。

13.权利要求10所述的系统，其中所述第三方是人、电视、影院、无线电设备、或电话中的至少一个。

14.权利要求10所述的系统，其中所述翻译服务器进一步被配置用于：

在服务器和所述用户终端之间建立通信链路；以及

通过一个文件流将所述视觉内容传送到所述用户终端。

15.权利要求14所述的系统，其中所述视觉内容由对应于所述新语言的至少一个或多个动画以及对应于所述新语言的视觉文本组成。

16.权利要求15所述的系统，其中所述一个或多个动画包括唇读图形、手动画、以及动画人物中的至少一个。

17.权利要求15所述的系统，其中所述声音进一步包括一个或多个非口述的噪声。