CN104412260B - 根据现有的单语言过程构造多语言过程 - Google Patents
根据现有的单语言过程构造多语言过程 Download PDFInfo
- Publication number
- CN104412260B CN104412260B CN201380036928.9A CN201380036928A CN104412260B CN 104412260 B CN104412260 B CN 104412260B CN 201380036928 A CN201380036928 A CN 201380036928A CN 104412260 B CN104412260 B CN 104412260B
- Authority
- CN
- China
- Prior art keywords
- language
- linguistics
- component
- input
- machine translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000008569 process Effects 0.000 title abstract description 60
- 238000013519 translation Methods 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000004044 response Effects 0.000 claims abstract description 17
- 238000010276 construction Methods 0.000 abstract description 4
- 210000002105 tongue Anatomy 0.000 description 45
- 230000002093 peripheral effect Effects 0.000 description 17
- 238000003860 storage Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011165 process development Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
通过重新使用与不同的锚语言相关联的现有语言学组件连同在锚语言和一种或者多种语言之间进行翻译的机器翻译组件,而生成能够接受使用一种或者多种语言的语言学输入的过程。语言学输入被引导至机器翻译组件,该机器翻译组件将这样的输入从其语言翻译成锚语言。然后利用那些现有的语言学组件来启动响应处理并生成输出。可选地,输出被引导通过机器翻译组件。语言辨识器可以起初接收语言学输入,并辨识提供这样的语言学输入所用的语言,以选择合适的机器翻译组件。包括机器翻译组件和与锚语言相关联的语言学组件的混合过程也可以用作启动构造,随着时间过去从启动构造创建单语言过程。
Description
背景技术
传统地,计算设备的用户被迫对在那些计算设备上执行的过程以由那些过程所规定的方式提供输入。因此,例如,为了完成在计算设备上执行的电子表格应用程序中的计算,用户被迫以电子表格应用程序所规定的方式输进用户期望进行计算的值和公式。作为另一个示例,为了在计算设备上执行的字处理应用程序中选择不同的字体,用户被迫经由由字处理应用提供的机制来选择排版信息。虽然这样的机制对于频繁地与这样的在计算设备上执行的应用程序交互的用户来说可能变成第二天性,但是它们与用户传统上彼此通信的方式有所不同。
随着计算设备的处理能力日益增强,在那些计算设备上执行的更多数量的应用程序已经被设计成接受由用户更自然地提供的输入。例如,一种日益普遍的输入机制是要用户说出或者以其它方式在语言学上输进他们试图使应用程序执行什么,而且应用程序可以随后解译这样的语言学输入(linguistic input)并且相应地响应。通过给应用程序提供响应语言学输入的能力,这样的应用程序的程序设计员正提供用户更容易学习和利用的应用程序。
遗憾的是,语言学输入依赖于由用户说出的语言。因此,被设计成接受用一种语言提供的语言学输入的应用程序将不能理解用另一种不同语言提供的语言学输入。由于世界各地的用户所说的语言多种多样,且由于它们之间的相当大的语言学差异,期望使其应用程序接受语言学输入的应用程序开发者被迫对这样的应用程序将支持的不同语言的每一种语言都创建那些应用程序的不同版本。
更值得注意的是,创建可以接受语言学输入的应用程序的过程会是费时且昂贵的。例如,大量的时间和资源投入可以针对训练这样的应用程序的语言理解组件以便能够准确地从由用户提供的语言学输入中译解用户的意图。并且,正是这样的语言理解组件随后必须针对应用开发者期望他们的应用程序支持的每种语言来被重新创建。
发明内容
在一个实施例中,用锚语言(anchor language)操作并且代表大量的时间和资源投入的现有应用程序的语言学组件可以被重新使用,以创建能够接受用除了这样的锚语言之外的其它语言的语言学输入的应用程序。机器翻译技术(其通过计算设备提供用于从用一种语言接收的输入到用另一种不同语言的输入的翻译)可以与现有应用程序的这样的语言学组件相耦合,以便重新使用那些语言学组件,而同时使得能接受用除了锚语言之外的其它语言的输入。
在另一个实施例中,代表在多种语言和现有语言学组件的锚语言之间进行翻译的能力的多个机器翻译组件可以被打包到单个应用程序中,由此为这样的应用程序提供接收用多种多样不同语言的语言学输入的能力。语言辨识组件可以起初接收语言学输入,并且可以由此辨识提供这样的语言学输入所用的语言。合适的机器翻译组件可以随后基于这样的语言辨识而被选择。
在另外的实施例中,包括与锚语言相关联的现有语言学组件和用于在其它语言和这样的锚语言之间进行翻译的机器翻译组件的混合应用可以充当从其开始开发与本国语言相关联的语言学组件的起始点,由此排除对于机器翻译组件的需要。
本概要被提供来以简要形式介绍概念的选择,这些概念还将在下面的详细说明中进行描述。本概要既不打算标识所要求保护的主题的关键特征或必要特征,也不打算用来限制所要求保护的主题的范围。
从以下参考附图进行的详细说明中,另外的特征和优点将变得明显。
附图说明
当与附图协同考虑时,以下的详细说明可被最好地理解,其中:
图1是能够接收语言学输入的示范性计算设备的方框图;
图2是示范性混合过程的方框图,其包括与锚语言相关联的语言学组件和用于在锚语言和其它语言之间进行翻译的机器翻译组件;
图3是混合过程到本国语言过程的示范性转换的方框图;
图4是混合过程的示范性创建的流程图,所述混合过程包括与锚语言相关联的语言学组件和用于在锚语言和其它语言之间进行翻译的机器翻译组件;
图5是混合过程的示范性操作的流程图,所述混合过程包括与锚语言相关联的语言学组件和用于在锚语言和其它语言之间进行翻译的机器翻译组件;以及
图6是混合过程到本国语言过程的示范性转换的流程图。
具体实施方式
下文的描述涉及能够接受用一种或者多种语言进行语言学输入的过程的有效生成,这是通过重新使用与不同的锚语言相关联的现有语言学组件连同可以在锚语言和一种或者多种其它语言之间进行翻译的机器翻译组件来进行的。语言学输入可以被引导至机器翻译组件,其可以将这样的输入从其被提供所用的无论何种语言翻译成现有语言学组件与之相关联的锚语言。那些现有语言学组件随后可以被利用来响应于语言学输入而启动处理,并且生成合适的输出。可选地,输出可以被引导至机器翻译组件,以便被翻译回与接收输入所用的相同的语言,以便呈现给用户。可以利用多个机器翻译组件来接受来自多种不同语言的语言学输入,而且语言辨识组件可以起初接收这样的语言学输入并可以辨识提供这样的语言学输入所用的语言,由此而选择合适的机器翻译组件。包括机器翻译组件和与锚语言相关联的语言学组件的混合过程也可以用作为启动构造,可以随着时间过去而从所述启动构造创建单语言过程。
本文描述的技术聚焦于语言学输入,诸如口语输入。然而,虽然为了便于参考而做出这样的举例说明和描述,但是本文描述的技术并不被如此限制。特别地,所描述的技术对于基于语言的任何种类的输入都是同等适用的。因此,下文的举例说明和描述只打算是说明性的,而不打算把下文描述的技术限制在所描述的具体语言学输入。
虽然不是必需的,但是下文的描述将是在由具有计算能力的设备执行的指令的一般上下文中。这样的计算设备既包含传统的计算机又包含具有计算能力(诸如由中央处理单元所提供的那些)的消费者电子设备。因此,下文的描述将是在能够由这样的计算设备执行的、诸如程序模块那样的计算机可执行指令的一般上下文中。更具体地,除非另外地指明,否则描述将参考由一个或者多个计算设备或者外围设备执行的操作的动作和符号化表示。同样地,将理解的是,这样的有时被称为正由计算机执行的动作和操作包括由处理单元对于电信号的操纵,电信号代表采用结构化形式的数据。此操纵对数据进行变换,或者将其保持在存储器的存储单元中,其以本领域技术人员充分理解的方式重新配置或者以其它方式更改计算设备或者外围设备的操作。在其中保持数据的数据结构是具有由数据的格式定义的特定属性的物理位置。
一般地,程序模块包括执行具体任务或者实现具体抽象数据类型的例程、程序、对象、组件、数据结构等等。而且,本领域技术人员将意识到的是,计算设备不必被限制为常规的个人计算机和常规的个人电子设备,而是可以包括能够计算的其它设备,包括手持型设备、多处理器系统、其它基于微处理器或者可编程消费者电子装置、网络PC、小型计算机、大型计算机等等。相似地,计算设备不必被限制为孤立的设备,因为所述机制也可以在分布式计算环境中实践,在那里由通过通信网络链接的远程处理设备执行任务。在分布式计算环境中,程序模块既可以位于本地记忆存储设备中又可以位于远程记忆存储设备中。
参考图1,图示出示范性计算设备100,其可以包括但不限于:一个或者多个中央处理单元(CPU)120、系统存储器130和系统总线121,系统总线121将各种系统组件(包括系统存储器)耦合到处理单元120。系统总线121可以是总线结构的数种类型中的任一种,包括存储器总线或者存储器控制器、外围总线和使用多种多样的总线架构的任一种的本地总线。计算设备100可以包括外围设备,其可以使用户150能够与计算设备相交互。这样的外围设备可以包括用于将信息从计算设备100呈现给用户150(诸如用户反馈152)的外围设备,并且可以包括用于使用户150能够将信息和指令提供给计算设备100(诸如用户输入151)的外围设备。可以使计算设备100能够为用户呈现信息的外围设备可以包括图形硬件,图形硬件包括但不限于图形硬件接口190和显示设备191,其可以由计算设备利用来将视觉的图形用户界面呈现给用户。可以使计算设备100能够为用户呈现信息的附加的外围设备也可以包括一个或者多个扬声器189以及其它类似的、在图1中没有明显示出的外围设备,扬声器189可以将来自计算设备100的听觉信息提供给该计算设备的用户。这样的外围设备可以经由连接到系统总线121的外围接口180通信地耦合到计算设备100。可以使用户能够为计算设备100提供信息的外围设备可以包括鼠标182、键盘181、话筒184、移动检测器185或者在图1中没有明显图示的其它设备,诸如轨迹板、附属平板、多触摸输入设备等等。以上描述的外围设备可以经由外围接口180通信地耦合到计算设备100的系统总线121,并且通常包括硬件方面和软件方面两者,以便使能它们的功能性。同样,虽然在图1中仅示出了它们的硬件表示,但是下文中对于这样的外围设备的参考打算包括被利用于这样的外围设备的恰当操作的硬件和软件方面两者。
计算设备100也典型地包含计算机可读介质,其可以包括任何可以被计算设备100访问的可用介质,并且包括易失性和非易失性介质以及可拆卸和不可拆卸介质两者。作为示例而不是限制,计算机可读介质可包括计算机存储介质、通信介质或者其组合。计算机存储介质包括以任何方法或者技术实现的用于存储信息的介质,信息是诸如计算机可读指令、数据结构、程序模块或者其它数据。通信介质典型地将计算机可读指令、数据结构、程序模块、或其它数据具体化为诸如载波或其它输送机制那样的调制的数据信号,并且包括任何信息传递介质。
系统存储器130包括具有易失性和/或非易失性存储器形式的计算机存储介质,诸如只读存储器(ROM)131和随机访问存储器(RAM)132。基本输入/输出系统133(BIOS)(包含诸如在启动期间有助于在计算设备100内的元件之间转移信息的基本例程)典型地存储在ROM 131中。RAM 132典型地包含对于处理单元120来说可立即访问的和/或当前正由处理单元120操作的数据和/或程序模块。作为示例但不是限制,图1图示出操作系统134、其它程序模块135和程序数据136。
计算设备100也可以包括其它可拆卸/不可拆卸、易失性/非易失性计算机存储介质。仅作为示例,图1图示出从非易失性磁介质中读取或者写入到非易失性磁介质的硬盘驱动机141。其它可以与示范性计算设备一同使用的可拆卸/不可拆卸、易失性/非易失性计算机存储介质包括但不限于:盒式磁带、闪速存储器卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动机141典型地通过诸如非易失性存储器接口140那样的接口连接到系统总线121。
以上讨论的和在图1中图示的驱动机及其相关联的计算机存储介质提供了对于计算机可读指令、数据结构、程序模块和用于计算设备100的其它数据的存储。例如,在图1中,硬盘驱动机141被图示为存储操作系统144、其它程序模块145和程序数据146。要留意的是,这些组件既可以与操作系统134、其它程序模块135和程序数据136相同,又可以与其不同。此处给予操作系统144、其它程序模块145和程序数据146不同的标号,以举例说明最低限度它们是不同的副本(copy)。
计算设备100可以在联网环境中使用到一个或者多个远程计算机的逻辑连接进行操作。计算设备100不受限于任何特定的网络或者联网的协议。因此,为了举例说明的简单起见,图1中示出的计算设备100经由一般网络连接171连接到网络172,网络连接171可以是局域网(LAN)、广域网(WAN)或者其它网络。计算设备100通过网络接口或者适配器170连接到一般网络连接171,网络接口或者适配器170进而又连接到系统总线121。在联网环境中,相对于计算设备100或者其一部分或外围设备所描绘的程序模块可以被存储在通过一般网络连接171通信地耦合到计算设备100的一个或者多个其它计算设备的存储器中。将意识到的是,所示出的网络连接是示范性的,并且可以使用建立计算设备之间的通信链接的其它手段。
转向图2,其中所示出的系统200图示可以重新使用现有基础设施来用一种或者多种语言有效地提供现有语言学理解能力的示范性过程,所述一种或者多种语言不同于在其中创建现有基础设施的语言。在一个实施例中,在计算设备(诸如示范性计算设备100)上执行的现有应用或者过程可能能够接受语言学输入,并且可选地生成用创建应用或者过程所用的锚语言的语言学输出。当在本文中使用时,术语“语言学输入” 是指任何这样形式的输入,即:以单词或短语将被用于人类间交流的方式来包括单词或短语。例如,在家庭娱乐计算设备上运行的应用可能已经被编程来接受、理解并且响应于英语的口语命令,从而使用户能够搜索和选择将由这样的家庭娱乐计算设备呈现的娱乐内容。作为另一个示例,在智能电话计算设备上执行的应用可能已经被编程来接受、理解和响应于包括由用户询问的问题的英语口语输入。虽然“语言学输入”典型地将由用户以口语形式提供,但是本文中利用和定义的术语“语言学输入”不被如此限制。事实上,本文描述的机制同样适用于以如下形式提供的“语言学输入”,即以文本、手势、凝视、手语(sign language)、和其它通过其可以把本文所定义的“语言学输入”提供给计算设备的相似机制。
这样的应用或者过程可以包括现有应用基础设施220,诸如在图2中所图示的基础设施,其可以代表负责对用锚语言提供的语言学输入进行理解并且对其起作用的计算机可执行指令。正如本领域技术人员将认识到的,在现有应用基础设施220内所包含的组件和过程可以代表时间和资源的大量投入。此外,这样的基础设施对于创建其的语言而言是独一无二的。例如,如果现有应用基础设施220是被设计成接受用英语提供的语言学输入并且对其起作用的应用的一部分,那么这样的基础设施将不能对用另一种语言(诸如法语)提供的输入起作用。因此,如果包括现有应用基础设施220的应用或者过程的开发者试图发布例如这样的应用或者过程的法语版本,则该开发者将需要再次把大量的时间和资源投入到现有应用基础设施220的面向法语的版本中。对于要在世界范围内使用的应用或者过程而言,这样的单语言的限制可导致对于大量语言从零开始重复创建单语言应用基础设施。为了避免时间和资源的这样的大量投入,现有应用基础设施220可以在机器翻译组件的帮助下被重新利用。更具体地,且正如将在下文中详细描述的,机器翻译组件可以将输入和可选地将输出从应用或者过程的用户的本国语言翻译成现有应用基础设施220的锚语言,由此使现有应用基础设施220能够将语言学服务提供给用与锚语言不同的本国语言操作的应用或者过程。通过重新使用现有应用基础设施220,应用或者过程的开发者可以生成用其它语言的等效版本,而不用投入典型地对于用那些其它语言重新创建现有应用基础设施220的类似版本所需要的、大量的时间和资源。为了简明且便于参考,在本文中利用术语“锚语言”来意指创建初始语言学基础设施所用的语言,初始语言学基础设施将被重新使用。在本文中利用术语“本国语言”来意指将输入提供给应用或者过程所用的语言和预期要用来提供来自应用或者过程的任何输出的语言。
图2所示出的系统200将现有应用基础设施220图示为:其将在现有计算设备上执行的且接受来自用户(诸如用户150)的语言学输入的应用或者过程中被利用。特别地,且如由图2的系统200所示出的,由用户150生成的语言学输入可以起初由对用户150所提供的语言学输入是合适的输入识别组件211接收。例如,如果由用户150提供的语言学输入是口语输入,那么输入识别组件211可以是语音识别组件,其能够将代表用户口语输入的音频信息转换成文本信息。作为另一个示例,如果由用户150提供的语言学输入是经由手语的输入,那么输入识别组件211可以是手语识别组件,其能够将代表用户手语输入的图像信息转换成文本信息。
可以将代表用户语言学输入的文本信息提供给语言理解组件221。语言理解组件221可能能够接受这样的文本格式的语言学输入,并且连同对话管理器222和知识源223一起,来诸如在识别将被执行的、适当的响应性处理的上下文中,从该语言学输入中推导出含义。例如,如果用户已经说出指令去显示所给出的电视演出的可得到剧集的全部,则语言理解组件221连同对话管理器222和知识源223一起可以将这样的语言学输入解译为搜索并显示结果(search-and-display-results)请求,以及由用户具体说明的名称将是搜索参数且它是标题的详述。相似地,作为另一个示例,如果用户已经询问具体城市的中期预报(extended forecast),则语言理解组件221连同对话管理器222和知识源223一起可以将这样的语言学输入解译为对于气象学信息的事实的请求,并且由用户提供的名称是定义其气象学信息被请求的地理区域的城市的名称。
如所指示的,语言理解组件221、对话管理器222和知识源223可以代表大量的时间和资源投入。更具体地,语言理解单元221、对话管理器222和知识源223可能已经通过接收来自用户的语言学输入并确定且着手进行响应性处理的多次迭代而被构建和细化。这样的多次迭代可以试图改正可能在先前的迭代中已经次最优地实施的语言理解组件221、对话管理器222和知识源223的一些方面。例如,用户可以利用不同的单词和语言学风格来询问相同的信息,并且语言理解组件221、对话管理器222和知识源223可以通过各种迭代和细化来计及日益增多的这样的不同单词和语言学风格,以便能够有意义地响应范围更广的用户和更为多种多样的输入。
在一个实施例中,语言理解组件221、对话管理器222和知识源223可以基于它们在其中被利用的具体上下文而进一步被细化。例如,在家庭娱乐计算设备上提供对娱乐内容的访问的应用可以接收针对这样的娱乐内容的语言学输入,且语言理解组件221、对话管理器222和知识源223可被聚焦于考虑这样的上下文。继续这样的示例,如果添加新的电视演出,其名称包括之前不是现有应用基础设施220的一部分的单词或者术语,则可以把基础设施更新成包含这样的单词或者术语,以及用户对它们的发音和其它演讲方式(delivery),以使得如果用户请求这样的新电视演出,则现有应用基础设施将能够认知这样的请求。相似地,作为另一个示例,在智能电话计算设备中提供个人助理服务的应用可以接收针对典型地由这样的个人助理服务执行的有限一组动作的语言学输入,且语言理解组件221、对话管理器222和知识源223可被聚焦于考虑这样的上下文。继续这样的另一个示例,如果现有应用基础设施220的一次迭代没有恰当地推断或者没有有效地处理请求来为指定的用户创建文本消息,则可以更新现有应用基础设施220的后续迭代以便基于用户的语言学输入更容易地识别这样的请求且对其进行响应。
一旦语言理解组件221、对话管理器222和知识源223已经启动了响应处理的执行,输出(就任何合适的输出而言)可以被引导到语言生成组件224,其可以与对话管理器222和知识源223合作地以语言学的方式提供输出。与语言理解组件221、对话管理器222和知识源223相似,语言生成组件224也可以代表大量的时间和资源投入,并且可能已经作为多次迭代的结果而被生成,该多次迭代试图改进用户的语言学感知,由语言生成组件224在提供响应性输出时利用。
在一个实施例中,由语言生成组件224提供的输出可以被引导至输出产生组件212,从而以可由用户150感知的形式生成。例如,文本到语音(text-to-speech)组件可以是能够以口语格式产生语言学输出的输出产生组件。正如本领域技术人员将认识到的,可以同样地利用其它类型的输出产生组件。
如所指示的,现有应用基础设施220可以代表大量的时间和资源投入。遗憾的是,现有应用基础设施220典型地是在诸如像英语那样的单语言的上下文中创建的。因此,用另一种不同的语言(诸如法语)提供语言学输入的用户将不能利用这样的应用。然而在一个实施例中,可以使用机器翻译技术来在其它语言和锚语言(最初在其上下文内创建现有应用基础设施220)之间进行翻译,而不重新创建用这样的其它语言的、与现有应用基础设施220的那些组件类似的组件。图2的系统200图示出这样的混合应用,其可以包括用锚语言的现有应用基础设施220以及在本国语言和锚语言之间进行翻译的机器翻译组件,由此提供用一种或者多种本国语言的语言学理解功能性,而同时重新使用用锚语言的现有应用基础设施220和节省重新创建用那些其它的本国语言的类似基础设施的时间和开支。
首先,由用户利用与创建现有应用基础设施220所用的锚语言不同的本国语言提供的语言学输入可以被引导至语言辨识组件230。例如,外国用户250可以用本国语言提供输入。这样的输入可以被引导至语言辨识组件230,其可以利用已知技术来辨识正由外国用户250用以提供语言学输入的语言。一旦辨识出由外国用户250提供的语言学输入的语言,则输入可以被引导至输入识别组件241、261和271中合适的一个。例如,如果外国用户250提供法语的语言学输入,则语言辨识组件230可以将这样的语言学输入辨识为法语,并且可以将其引导至法语输入识别组件。输入识别组件241、261和271的每个都可以相对于这样的输入识别组件与之相关联且它们操作于其上下文中的语言来执行类似的功能。这样的功能也类似于输入识别组件211,其操作在上文中已经进行了详细描述。
一旦由外国用户250所提供的语言学输入已经转换成基于文本的语言学输入,而该基于文本的语言学输入是用外国用户250提供语言学输入所用的语言,则可以将基于文本的语言学输入提供给机器翻译组件去翻译成锚语言,由此使现有应用基础设施220能够被重新使用。取决于基于由语言辨识组件230执行的语言辨识,选择了输入识别组件241、261和271的哪一个,来自机器翻译组件240、260和270中的合适的机器翻译组件可被提供以由输入识别组件241、261和271中被选择的输入识别组件生成的基于文本的语言学输入。
一旦机器翻译组件(诸如机器翻译组件240、260和270)中的一个已经将语言学输入翻译成锚语言,则可以将所翻译的输入以和上文所详细描述的相同方式提供给语言理解组件221,因为所翻译的输入是用与上文描述中的输入相同的锚语言。附加地,如果现有应用基础设施220诸如经由语言生成组件224生成输出,则将所翻译的输入提供给语言理解组件221的机器翻译组件也可以接收由语言生成组件224所生成的输出,并且可以将其翻译回本国语言以呈现给外国用户250。更具体地,且正如本领域技术人员将认识到的,机器翻译技术可以是双向的,从一个应用翻译到另一个应用,且反之亦然。因此,在接收到由语言生成组件224所生成的输出后,机器翻译组件240、260和270中合适的一个可以从语言生成组件224用以提供这样的输出的锚语言翻译为本国语言,即起初由外国用户250利用以便提供输入的语言。
输出由机器翻译组件240、260和270中的一个翻译后,该输出可以被提供给对应的输出产生组件242、262和272,其可以以与上文详细描述的输出产生组件212相类似的方式操作。正如本领域技术人员将认识到的,如果输出产生组件只不过是非常基本的文本到语音组件,那么可能不需要特定于具体语言的输出产生组件。然而,这样的非常基本的文本到语音组件可能不能准确地用言辞表达语言学输出的某些方面,并且可能不能适应(accommodate)利用独特声音的语言。因此,图2的系统200示出语言特定的输出产生组件242、262和272,由此使每个输出产生组件都能够修改成适合与其相关联的语言的再现。
图2的系统200图示其中单组计算机可执行指令可以接受来自说多种不同语言的外国用户的输入的实施例;多语言混合应用。作为示例,如果现有应用基础设施220是英语应用或者过程的一部分,则图2的系统200图示其中单组计算机可执行指令可以同等地接受法语、中文和阿拉伯语的输入的实施例。法语输入可以同样由语言辨识组件230来辨识,并且可被引导至例如输入识别组件241,并且随后引导至对应的机器翻译组件240,其可以在法语和锚语言(在本示例中即英语)之间进行翻译。相似地,中文输入可以同样由语言辨识组件230来辨识,并且随着本示例的继续,其可被引导至输入识别组件261,并且随后引导至机器翻译组件260,机器翻译组件260可以运作来在中文和英语之间进行翻译。再次作为一个示例,阿拉伯语输入照样可以被引导至输入识别组件271和机器翻译组件270。
然而,在另一个实施例中,每单个应用或者过程可以被引导至仅仅一种具体语言;单语言混合应用。在这样的实施例中,可以移除语言辨识组件230,除了一个以外的所有机器翻译组件和相关联的输入识别和输出产生组件也可以被移除。例如,如果要利用为说英语的人构造的现有应用基础设施220来为说法语的人构造某个应用,则这样的应用可以包括单个输入识别组件和单个机器翻译组件,单个输入识别组件可以接受法语输入并且将其转换成法语的基于文本的语言学输入,而单个机器翻译组件可以将法语的基于文本的语言学输入翻译成英语的基于文本的语言学输入,以便将其提供给语言理解组件221。相似地,单个机器翻译组件可以将英语输出(就任何由现有应用基础设施220产生的英语输出而言)翻译成法语,并且将所翻译的法语输出提供给单个法语输出产生组件。以这样的方式,可以减小应用或者过程的复杂度和大小,但是每个这样的单语言应用或者过程仅可以在一种语言的上下文中操作。
正如本领域技术人员将认识到的,诸如在图2的系统200中所图示的那些的机器翻译组件在本领域是众所周知的,并且是继续研究和改进的主题。但是,在一个实施例中,打算的是可以对诸如以上文详细描述的方式利用的机器翻译组件进行调节,以便在应用或者过程的具体上下文中提供更好的准确度。例如,被设计用于为用户提供对娱乐内容的访问的应用——诸如将在家庭娱乐计算设备中执行的应用——可以包括机器翻译组件,机器翻译组件可以被修改成包括对于娱乐应用的措词(verbiage)相关性,其可以不是现成的机器翻译组件的一部分并且可以不断地发展,诸如由新电视演出或者电影所利用的术语。相似地,同样可以修改语言理解组件221、对话管理器222、知识源223和语言生成组件224,以解决随着机器翻译组件的引入而可能引发的具体问题。例如,锚语言中的某些单词、术语或者短语,与在相关语言中会是同义词的其它单词、术语或者短语相比,可被机器翻译组件更准确地翻译。在这样的情况下,那些单词、术语和短语可以得到现有应用基础设施220的优惠待遇。
在一个实施例中,由图2的系统200图示的混合应用——其中机器翻译组件被用来在本国语言和锚语言之间进行翻译,由此促进用锚语言的现有应用基础设施的重新利用——可以被用作为从其开始生成用与锚语言不同的本国语言的单语言应用或者过程的起始点。转向图3,图中所示出的系统300图示从混合应用或者过程示范性地创建非混合的单语言应用或者过程。首先,如由图3的系统300所图示的,输入可以由输入识别组件311用本国语言接收,并且随后可以被提供给机器翻译组件310,以便翻译成锚语言用于供给现有应用基础设施220,诸如以上文详细描述的方式。
如之前所指示的,对于用户的输入的某些术语、单词、短语和其它语言学成分,可以修改机器翻译组件310、现有应用基础设施220或者它们的某种组合,从而更准确地对那些语言学成分进行解译和响应。在一个实施例中,不是修改机器翻译组件310或者现有应用基础设施220来计及这样的改进,而是可以创建用本国语言的新语言理解组件321和同样用本国语言的新对话管理器322、新知识源323和新语言生成324,以便致力于这样的修改和改进。随着时间的过去,通过后续的迭代,语言理解组件321、对话管理器322、知识源323和语言生成组件324可以不断地被改进,并且扩展成最终能够在不凭借现有应用基础设施220的情况下操作。在这样的情况下,同样将不再需要机器翻译组件310,且因此用于本国语言的新应用或者过程可以不再是混合的,诸如那些在上文中详细描述的。替代地,这样的用于本国语言的新应用或者过程可以包括输入识别组件310、语言理解组件321、对话管理器322、知识源323、语言生成组件324和输出生成组件312,它们全都可以直接用本国语言操作。以这样的方式,重新使用现有应用基础设施220的混合应用或者过程可能已经充当权宜措施或者临时构造,非混合的单语言应用或者过程可以通过后续迭代从所述权宜措施或者临时架构生成,在迭代期间,用本国语言的单语言组件基于现实世界的利用和反馈而被开发和细化。
转向图4,图中所示出的流程图400图示出示范性的一系列步骤,通过这些步骤,用锚语言的现有应用的语言学组件可以被重新利用,以便用与锚语言不同的一种或者多种本国语言提供语言学功能性。例如,在一个实施例中,图4所示出的流程图400的示范性步骤可以通过某种服务而被执行,所述服务可以被提供给应用或者过程开发者,以使得他们能够有效地创建他们的应用或者过程的、可以接受来自一种或者多种本国语言的语言学输入的版本,本国语言与那些开发者最初用以创建他们的应用或者过程的锚语言不同。如所示出的,在步骤410,用锚语言的现有单语言过程或者应用可以被用作为起始点,诸如要被提供给服务的输入。随后,在步骤420,在接收到或者能访问来自步骤410的现有单语言过程时,可以安装语言辨识组件,其可以接受用除锚语言之外的其它语言的输入,而且其可以辨识这样的用以提供输入的语言,并且选择合适的机器翻译组件。如之前所指示的,在一个实施例中,如果要创建的混合应用或者过程将仅仅接受除锚语言之外的单语言的输入,那么步骤420可以是可选的,因为仅仅可以利用一个机器翻译组件,即用于在锚语言和混合应用或者过程将被引导至的单一其它语言之间进行翻译的机器翻译组件。
在步骤430,可以安装一个或者多个机器翻译组件,其可以在锚语言和一种或者多种本国语言之间进行翻译,其中,来自步骤410的单语言过程是在锚语言的上下文中创建的,而本国语言与可用以接受输入并且可选地可用以提供输出的锚语言不同。如果在步骤430安装了多个机器翻译组件,则在步骤430安装的机器翻译组件可以在锚语言和那些本国语言之间进行翻译,本国语言可由在步骤420所安装的语言辨识组件辨识。
随后,在步骤440,可以安装对应于在步骤430所安装的机器翻译组件的输入识别和输出生成组件。如之前所指示的,输入识别组件可以接受多种多样形式的语言学输入,诸如口语语言学输入的音频,并可以识别这样的形式,且将它们转换成基于文本的语言学输入。然后可以将这样的基于文本的语言学输入提供给诸如像机器翻译组件的另外的过程。同样如之前所指示的,诸如在步骤440安装的那些的输入识别组件可以是语言特定的,因为被设计来识别用一种语言的语言学输入的输入识别组件将仅能够准确地识别用那一种语言的、这样的语言学输入。因此,就这样的组件在其上下文中操作的语言而言,在步骤440安装的输入识别组件可对应于在步骤430安装的机器翻译组件。所以,如果在步骤430安装了用于特定的一组语言的机器翻译组件,那么在步骤440,可以安装用于那些相同语言的输入识别组件。
同样如之前所指示的,输出生成组件可以接受基于文本的语言学输出,并且可以以用户可接受的方式,诸如像通过说出语言学输出,来生成该输出。虽然有可能的是,输出生成组件可以是语言中性的(neutral),但是这样的输出生成组件可以是次最优的。因此,在一个实施例中,打算的是,在步骤440可以安装语言特定的输出生成组件,其对应于同样在步骤440安装的输入识别组件的语言。
随后,在步骤450,在步骤430安装的机器翻译组件可以与在步骤440安装的输入识别和输出生成组件以如下方式通信地耦合,即:接受用特定语言的语言学输入的输入识别组件与可以在这样的语言和锚语言之间进行翻译的机器翻译组件通信地耦合,并且以如下方式通信地耦合,即:生成用特定语言的语言学输出的输出生成组件与可以在该语言和锚语言之间进行翻译的机器翻译组件通信地耦合。在步骤460,在步骤430安装的机器翻译组件可以与步骤410的现有单语言过程或者应用的语言学组件通信地耦合。特别地,在步骤430安装的机器翻译组件可以为这样的现有单语言过程或者应用的语言学组件提供语言学输入,该语言学输入被从用以提供这样的语言学输入的本国语言翻译成锚语言。相似地,在步骤430安装的机器翻译组件可以可选地从现有单语言应用或者过程的这样的语言学组件接收用锚语言的语言学输出,机器翻译组件然后可以将其翻译成本国语言。
如由图2中的系统200所图示的,由步骤420至步骤460所执行的安装和通信耦合可以将现有的单语言应用或者过程——诸如在步骤410的那个输入——变换成混合应用或者过程,其可以接受来自与锚语言不同的一种或者多种本国语言的输入、并且可以可选地用那些相同的本国语言提供输出。因此,在图4中示出的流程图400的相关处理可以在步骤470结束。
转向图5,图中所示出的流程图500可以图示出示范性的一系列步骤,其可以由混合应用或者过程执行,混合应用或者过程可以在重新使用用与一种或者多种本国语言不同的锚语言的语言学组件的同时,接受用那些本国语言的输入并且可选地提供用那些本国语言的输出。首先,在步骤510,如所示出的,可以接收用本国语言的语言学输入。随后,在步骤515,可以辨识在步骤510用以接收语言学输入的本国语言。那个辨识然后可以在步骤520被利用来选择输入识别组件,在步骤510接收的语言学输入可以被引导至该输入识别组件。特别地,在步骤520选择的输入识别组件可以是被设计成识别用本国语言(如在步骤550所辨识的)的输入的输入识别组件。然后在步骤525,所选择的输入识别组件可以识别来自步骤510的语言学输入,并且将其转换成基于文本的语言学输入。
在步骤530,可以将基于文本的语言学输入提供给能够在步骤510所接收的语言学输入的本国语言(如在步骤515所辨识的)和锚语言之间进行翻译的机器翻译组件。在步骤535,机器翻译组件可以将基于文本的语言学输入从最初用以提供这样的语言学输入的本国语言翻译成锚语言。随后,在步骤540,可以将现在用锚语言的已翻译文本提供给最初用锚语言生成的现有应用或者过程的语言学组件。那些现有语言学组件(如先前所指示的,其可以代表大量的时间和资源投入)然后可以处理在步骤540用锚语言提供的输入,并且可以生成合适的响应。
在步骤545,来自现有语言学组件的响应可以用锚语言接收,并且在步骤550可以被从锚语言翻译成在步骤510用以接收语言学输入的本国语言。在步骤555,可以将已翻译的响应提供给与本国语言相关联的输出产生组件。例如,如先前所指示的,这样的输出产生组件可以是能用言辞表达已翻译的响应的文本到语音(text-to-speech)组件。如本领域技术人员将认识到的,这样的文本到语音组件可以是语言特定的,以便捕获特定口语语言的细微差别,并且提供更准确的输出来让用户接收。因此,在步骤555,可以被选择的输出产生组件可以是用所需的语言提供输出的输出产生组件,在步骤510接收的语言学输入用该所需的语言接收。在步骤560,可以由输出产生组件生成输出,并且将其提供给用户。相关处理然后可以在步骤565结束。
转向图6,图中所示出的流程图600图示出示范性的一系列步骤,其可以被执行来创建可以接受用本国语言的输入并且可选地提供用本国语言的输出的单语言过程,这样的单语言过程可以从混合过程创建,所述混合过程正重新使用最初用锚语言创建的现有语言学组件,连同用来在锚语言和本国语言之间进行翻译的机器翻译组件。首先,在步骤610,可能已经诸如像通过图4的流程图400的步骤创建这样的混合过程。随后,作为混合过程的执行的一部分,可以诸如在步骤650接收用本国语言的语言学输入。在步骤620,混合过程可以识别语言学输入,并且诸如以上文详细描述的方式,将其转换成基于文本的语言学输入,。
在步骤625,可以做出用本国语言的语言理解组件是否可以恰当地处理在步骤620生成的基于文本的语言学输入的确定。如果这样的用本国语言操作的语言理解组件不能恰当地处理这样的语言学输入,则处理可以进行到以上详细描述的步骤530至555。随后,在步骤530至555的执行之后,处理可以返回到步骤630,其中可以利用关于被接收进入由步骤530至555执行的处理中的语言学输入的信息来改进用本国语言实施的语言理解组件、对话管理器和其它相似的语言学组件。处理然后可以以步骤645继续进行,其中可以将由步骤530至555生成的响应用本国语言呈现给或者输出给用户。
然而如果在步骤625,确定用本国语言的语言处理组件可以合适地处理语言学输入,则处理可以替代地进行到步骤635,其中可以将基于文本的语言学输入提供给用本国语言的语言理解组件,而不需要在本国语言和锚语言之间的任何机器翻译。随后,在步骤640,可以接收来自语言生成组件的响应,语言生成组件像语言理解组件那样在本国语言的上下文内操作。在步骤645,如先前所指示的,这样的本国语言响应可以输出给用户。在一个实施例中,在步骤650,可以做出关于正由混合过程重新利用的用锚语言的现有语言学组件是否实际上仍在被利用的检查。如果在步骤650,确定这样的锚语言语言学组件仍在被利用,那么处理可以返回到步骤615来接收进一步的语言学输入。然而,如果在步骤650确定在锚语言的上下文中操作的语言学组件不再被利用,那么在一个实施例中,在步骤655,那些语言学组件可以从混合应用或者过程中丢弃,仅留下在本国语言的上下文中操作的单语言应用或者过程,如在步骤660所图示的。
正如可以从上文的描述中看到的,已经介绍了重新使用现有语言学组件去处理这样的语言的语言学输入和可选的输出的机制,即:该语言不同于现有语言学组件在其上下文中操作的语言,所述重新使用是通过利用机器翻译组件来在这样的语言和现有组件的语言之间进行翻译而进行的。考虑到本文所描述的主题的许多可能的变型,我们要求将所有像这样的实施例作为我们的发明,即:可归入以下的权利要求及其等同物的范围之内的实施例。
Claims (20)
1.一种提供语言学服务的方法,包括如下步骤:
接收来自用户的用第一语言的语言学输入;
通过识别所接收的语言学输入,生成用第一语言的基于文本的语言学输入;
确定在第一语言的上下文中操作的提供语言学服务的组件是否能够处理用第一语言的基于文本的语言学输入;
如果在第一语言的上下文中操作的提供语言学服务的组件不能处理用第一语言的基于文本的语言学输入,则利用机器翻译来将基于文本的语言学输入从第一语言翻译成与第一语言不同的第二语言;
将所翻译的用第二语言的基于文本的语言学输入提供给提供语言学服务的预先存在的组件,其在第二语言的上下文中操作;
从所述预先存在的组件接收响应于该语言学输入的输出,所述输出用第二语言提供;
利用机器翻译来将用第二语言的输出翻译成第一语言;
按照所翻译的用第一语言的输出,生成能由用户接收的输出。
2.如权利要求1的方法,其中所述语言学输入通过由用户以第一语言说出而由用户输入。
3.如权利要求1的方法,其中生成能由用户接收的输出包括利用文本到语音组件。
4.如权利要求1的方法,进一步包括如下步骤:从所接收的语言学输入辨识第一语言;以及基于所辨识的第一语言,选择用来执行生成基于文本的语言学输入的输入识别组件和机器翻译组件。
5.如权利要求4的方法,进一步包括利用至少两个机器翻译组件的步骤,其中的至少一个被用来将基于文本的语言学输入从第一语言翻译成第二语言。
6.如权利要求1的方法,其中在第一语言的上下文中操作的提供语言学服务的组件与在第二语言的上下文中操作的提供语言学服务的预先存在的组件相类似。
7.如权利要求6的方法,其中在第二语言的上下文中操作的提供语言学服务的预先存在的组件和机器翻译充当用于生成在第一语言的上下文中操作的提供语言学服务的组件的起始点。
8.如权利要求1的方法,其中所述机器翻译被修改成计及特定于由计算机可执行指令提供的功能性的语言学元素。
9.如权利要求1的方法,其中所述预先存在的组件被修改以计及特定于由计算机可执行指令提供的功能性的语言学元素。
10.一种提供语言学服务的装置,包括:
用于接收来自用户的用第一语言的语言学输入的单元;
用于通过识别所接收的语言学输入,生成用第一语言的基于文本的语言学输入的单元;
用于确定在第一语言的上下文中操作的提供语言学服务的组件是否能够处理用第一语言的基于文本的语言学输入的单元;
用于如果在第一语言的上下文中操作的提供语言学服务的组件不能处理用第一语言的基于文本的语言学输入,则利用机器翻译来将基于文本的语言学输入从第一语言翻译成与第一语言不同的第二语言的单元;
用于将所翻译的用第二语言的基于文本的语言学输入提供给提供语言学服务的预先存在的组件的单元,其在第二语言的上下文中操作;
用于从所述预先存在的组件接收响应于该语言学输入的输出的单元,所述输出用第二语言提供;
用于利用机器翻译来将用第二语言的输出翻译成第一语言的单元;
用于按照所翻译的用第一语言的输出,生成能由用户接收的输出的单元。
11.如权利要求10的装置,其中所述语言学输入通过由用户以第一语言说出而由用户输入。
12.如权利要求10的装置,其中生成能由用户接收的输出包括利用文本到语音组件。
13.如权利要求10的装置,进一步包括:用于从所接收的语言学输入辨识第一语言的单元;以及用于基于所辨识的第一语言,选择用来执行生成基于文本的语言学输入的输入识别组件和机器翻译组件的单元。
14.如权利要求13的装置,进一步包括用于利用至少两个机器翻译组件的单元,其中的至少一个被用来将基于文本的语言学输入从第一语言翻译成第二语言。
15.如权利要求10的装置,其中在第一语言的上下文中操作的提供语言学服务的组件与在第二语言的上下文中操作的提供语言学服务的预先存在的组件相类似。
16.如权利要求15的装置,其中在第二语言的上下文中操作的提供语言学服务的预先存在的组件和机器翻译充当用于生成在第一语言的上下文中操作的提供语言学服务的组件的起始点。
17.如权利要求10的装置,其中所述机器翻译被修改成计及特定于由计算机可执行指令提供的功能性的语言学元素。
18.如权利要求10的装置,其中所述预先存在的组件被修改以计及特定于由计算机可执行指令提供的功能性的语言学元素。
19.一种或多种计算机可读介质,其包括计算机可执行指令,所述计算机可执行指令在由处理单元执行时,使得所述处理单元执行权利要求1-9中的任意一项所述的方法。
20.一种计算设备,包括:
存储器,其用于存储指令;
处理单元,其耦合到所述存储器,所述处理单元用于执行所述指令以执行权利要求1-9中的任意一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/469078 | 2012-05-10 | ||
US13/469,078 US9098494B2 (en) | 2012-05-10 | 2012-05-10 | Building multi-language processes from existing single-language processes |
PCT/US2013/038966 WO2013169530A2 (en) | 2012-05-10 | 2013-05-01 | Building multi-language processes from existing single-language processes |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104412260A CN104412260A (zh) | 2015-03-11 |
CN104412260B true CN104412260B (zh) | 2018-09-21 |
Family
ID=48468775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380036928.9A Active CN104412260B (zh) | 2012-05-10 | 2013-05-01 | 根据现有的单语言过程构造多语言过程 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9098494B2 (zh) |
EP (1) | EP2847689A2 (zh) |
JP (1) | JP6595912B2 (zh) |
KR (1) | KR102092426B1 (zh) |
CN (1) | CN104412260B (zh) |
TW (1) | TWI585681B (zh) |
WO (1) | WO2013169530A2 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9503504B2 (en) * | 2014-11-19 | 2016-11-22 | Diemsk Jean | System and method for generating visual identifiers from user input associated with perceived stimuli |
US9690776B2 (en) | 2014-12-01 | 2017-06-27 | Microsoft Technology Licensing, Llc | Contextual language understanding for multi-turn language tasks |
US9792560B2 (en) * | 2015-02-17 | 2017-10-17 | Microsoft Technology Licensing, Llc | Training systems and methods for sequence taggers |
US9886958B2 (en) * | 2015-12-11 | 2018-02-06 | Microsoft Technology Licensing, Llc | Language and domain independent model based approach for on-screen item selection |
US10366690B1 (en) | 2017-05-15 | 2019-07-30 | Amazon Technologies, Inc. | Speech recognition entity resolution |
JP2019008570A (ja) * | 2017-06-26 | 2019-01-17 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
WO2019199306A1 (en) * | 2018-04-11 | 2019-10-17 | Google Llc | Low latency nearby group translation |
JP7434978B2 (ja) | 2020-02-10 | 2024-02-21 | トヨタ自動車株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
US11587362B2 (en) * | 2020-12-16 | 2023-02-21 | Lenovo (Singapore) Pte. Ltd. | Techniques for determining sign language gesture partially shown in image(s) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2063321U (zh) * | 1987-09-11 | 1990-10-03 | 桥本株式会社 | 自动应答话机 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0176858B1 (en) * | 1984-09-18 | 1993-01-20 | Sharp Kabushiki Kaisha | Translation system |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
KR100194798B1 (ko) * | 1995-11-16 | 1999-06-15 | 이계철 | 개념 구조를 이용한 다국어 번역시스템에서 단일의미단어 통합 처리 방법 |
US5956740A (en) * | 1996-10-23 | 1999-09-21 | Iti, Inc. | Document searching system for multilingual documents |
JPH10198680A (ja) * | 1997-01-07 | 1998-07-31 | Hitachi Ltd | 分散辞書管理方法及びそれを用いた機械翻訳方法 |
JP2000010999A (ja) * | 1998-06-24 | 2000-01-14 | Matsushita Electric Ind Co Ltd | 翻訳通信装置 |
US6085160A (en) | 1998-07-10 | 2000-07-04 | Lernout & Hauspie Speech Products N.V. | Language independent speech recognition |
US6999932B1 (en) | 2000-10-10 | 2006-02-14 | Intel Corporation | Language independent voice-based search system |
JP4089148B2 (ja) * | 2000-10-17 | 2008-05-28 | 株式会社日立製作所 | 通訳サービス方法および通訳サービス装置 |
GB2372864B (en) | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
US7043431B2 (en) | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
JP2005100335A (ja) * | 2003-09-01 | 2005-04-14 | Advanced Telecommunication Research Institute International | 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ |
US8249854B2 (en) * | 2005-05-26 | 2012-08-21 | Microsoft Corporation | Integrated native language translation |
US8090570B2 (en) * | 2006-10-26 | 2012-01-03 | Mobile Technologies, Llc | Simultaneous translation of open domain lectures and speeches |
DE102006057159A1 (de) | 2006-12-01 | 2008-06-05 | Deutsche Telekom Ag | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen |
JP5121252B2 (ja) * | 2007-02-26 | 2013-01-16 | 株式会社東芝 | 原言語による音声を目的言語に翻訳する装置、方法およびプログラム |
US8909532B2 (en) | 2007-03-23 | 2014-12-09 | Nuance Communications, Inc. | Supporting multi-lingual user interaction with a multimodal application |
JP5239307B2 (ja) * | 2007-11-20 | 2013-07-17 | 富士ゼロックス株式会社 | 翻訳装置及び翻訳プログラム |
WO2009129315A1 (en) * | 2008-04-15 | 2009-10-22 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
KR20100037813A (ko) * | 2008-10-02 | 2010-04-12 | 삼성전자주식회사 | 통계적 자동 번역 장치 및 방법 |
EP2192575B1 (en) | 2008-11-27 | 2014-04-30 | Nuance Communications, Inc. | Speech recognition based on a multilingual acoustic model |
KR101548907B1 (ko) | 2009-01-06 | 2015-09-02 | 삼성전자 주식회사 | 다중언어의 대화시스템 및 그 제어방법 |
US8554558B2 (en) * | 2010-07-12 | 2013-10-08 | Nuance Communications, Inc. | Visualizing automatic speech recognition and machine translation output |
TWI477989B (zh) * | 2010-10-07 | 2015-03-21 | Inventec Corp | 提供二個使用者同時進行翻譯會話的裝置及其方法 |
US9646001B2 (en) | 2011-09-19 | 2017-05-09 | Nuance Communications, Inc. | Machine translation (MT) based spoken dialog systems customer/machine dialog |
JP5712150B2 (ja) | 2012-02-22 | 2015-05-07 | 株式会社ゼンリンデータコム | 検索サーバ装置、情報検索方法および情報検索プログラム |
-
2012
- 2012-05-10 US US13/469,078 patent/US9098494B2/en active Active
-
2013
- 2013-04-19 TW TW102114033A patent/TWI585681B/zh not_active IP Right Cessation
- 2013-05-01 WO PCT/US2013/038966 patent/WO2013169530A2/en active Application Filing
- 2013-05-01 EP EP13724058.6A patent/EP2847689A2/en not_active Ceased
- 2013-05-01 JP JP2015511511A patent/JP6595912B2/ja active Active
- 2013-05-01 KR KR1020147031587A patent/KR102092426B1/ko active IP Right Grant
- 2013-05-01 CN CN201380036928.9A patent/CN104412260B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2063321U (zh) * | 1987-09-11 | 1990-10-03 | 桥本株式会社 | 自动应答话机 |
Non-Patent Citations (2)
Title |
---|
GNU gettext程序信息国际化解决方案;权小红;《哈尔滨理工大学学报》;20090815;第14卷(第4期);28-31 * |
Investigating multiple approaches for SLU portability to a new language;Bassam Jabaian 等;《Proceedings of the 11th annual conference of the international speech commucation association,interspeech 2010》;20100930;2502-2505 * |
Also Published As
Publication number | Publication date |
---|---|
WO2013169530A3 (en) | 2014-03-13 |
TWI585681B (zh) | 2017-06-01 |
TW201403471A (zh) | 2014-01-16 |
CN104412260A (zh) | 2015-03-11 |
US20130304451A1 (en) | 2013-11-14 |
KR102092426B1 (ko) | 2020-03-23 |
KR20150005608A (ko) | 2015-01-14 |
WO2013169530A2 (en) | 2013-11-14 |
JP2015523623A (ja) | 2015-08-13 |
US9098494B2 (en) | 2015-08-04 |
JP6595912B2 (ja) | 2019-10-23 |
EP2847689A2 (en) | 2015-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104412260B (zh) | 根据现有的单语言过程构造多语言过程 | |
US9575964B2 (en) | Generic virtual personal assistant platform | |
US11735182B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
JP4090040B2 (ja) | 双方主導マルチモーダル対話及び関連ブラウジング機構を作成するための方法及びシステム | |
CN105493027B (zh) | 用于实时语言翻译的用户界面 | |
US8321226B2 (en) | Generating speech-enabled user interfaces | |
US11775254B2 (en) | Analyzing graphical user interfaces to facilitate automatic interaction | |
TWI519968B (zh) | 輸入方法編輯器使用者資料檔 | |
US11200893B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
TW201921267A (zh) | 基於機器翻譯的自動生成重述以產生一對話式代理人的方法及系統 | |
US20220277748A1 (en) | User-configured and customized interactive dialog application | |
KR20190109651A (ko) | 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템 | |
KR102527107B1 (ko) | 음성에 기반하여 기능을 실행하기 위한 방법 및 이를 지원하는 사용자 전자 장치 | |
WO2022259005A1 (en) | Automated no-code coding of app-software using a conversational interface and natural language processing | |
CN116701811B (zh) | 一种网页处理方法、装置、设备及计算机可读存储介质 | |
KR101207435B1 (ko) | 대화형 음성인식 서버, 대화형 음성인식 클라이언트 및 대화형 음성인식 방법 | |
CN110447026B (zh) | 用于在新的域中提供自动化助理的开发人员平台 | |
Rosenfeld et al. | Universal Human-Machine Speech Interface | |
Selvaganapathy et al. | Voice Assistant System | |
US20230343336A1 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
Gunarto | Applications of AI-empowered electric vehicles for voice recognition in Asian and Austronesian languages | |
CN117608552A (zh) | 面向gui的任务自动执行插件生成方法及服务获取方法 | |
CN116959448A (zh) | 语音识别方法、装置和存储介质及电子设备 | |
Kuzmin | Kentico Voice Interface (KEVIN) | |
Rajendran et al. | AFramework FOR TEACHING MULTIMODAL INTERFACE CONSTRUCTION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150706 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20150706 Address after: Washington State Applicant after: Micro soft technique license Co., Ltd Address before: Washington State Applicant before: Microsoft Corp. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |