CN105493027B - 用于实时语言翻译的用户界面 - Google Patents
用于实时语言翻译的用户界面 Download PDFInfo
- Publication number
- CN105493027B CN105493027B CN201480045272.1A CN201480045272A CN105493027B CN 105493027 B CN105493027 B CN 105493027B CN 201480045272 A CN201480045272 A CN 201480045272A CN 105493027 B CN105493027 B CN 105493027B
- Authority
- CN
- China
- Prior art keywords
- language
- user
- terminal device
- client terminal
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims description 74
- 230000005236 sound signal Effects 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 abstract description 5
- 230000014616 translation Effects 0.000 description 66
- 230000008569 process Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241001456108 Castilla Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003756 stirring Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0346—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
数据处理设备接收指示第一用户进行的客户端装置的移动的数据。所述设备确定所述客户端装置的所述移动是用于在第一模式与第二模式之间切换的分隔符运动,其中,在所述第一模式中,所述客户端装置被配置成(i)提供用于说第一语言的第一用户的第一界面并且(ii)执行所述第一语言的语音辨识,并且在所述第二模式中,所述客户端装置被配置成(i)提供用于说第二语言的第二用户的第二界面并且(ii)执行所述第二语言的语音辨识,所述第二界面不同于所述第一界面。基于确定所述移动是分隔符运动,所述设备在所述第一模式与所述第二模式之间切换而所述第二用户不在物理上与所述客户端装置交互。
Description
技术领域
本说明书描述与语言翻译相关的技术。
背景技术
翻译可不止涉及单个用户翻译符号、菜单、消息或短语的活动。通过移动技术和可下载的语言应用,翻译活动可包含两个或更多人之间的交流。
发明内容
一些语言翻译交流可涉及主要用户使用第一语言在客户端装置处说出短语,并且一个或多个参与用户以其它语言提供响应。在一些翻译应用中,主要用户手动点击客户端装置的显示器上的图标或按钮以切换语言。然而,在客户端装置上点击可对于主要用户与另一用户的响应同步来说是棘手和/或困难的。此外,另一用户可因控制或查看语言选择机制的需要而分心或困扰。对于在主要用户维持客户端装置的控制时顺畅且准确地实时发生的交流来说,客户端装置检测姿势(例如,装置的旋转)且当客户端装置正被主要用户查看或向参与用户展示时在适当语言之间动态地切换。此外,客户端装置可向参与用户展示已从主要用户的话音、键盘或另一输入翻译的文本的全屏或大文本表示。
总的来说,本主题的一个方面包含以下动作:接收指示第一用户进行的客户端装置的移动的数据。所述动作还包含确定客户端装置的移动是用于在第一模式与第二模式之间切换的分隔符运动,其中,在所述第一模式中,所述客户端装置被配置成(i)提供用于说第一语言的第一用户的第一界面并且(ii)执行所述第一语言的语音辨识,并且在所述第二模式中,所述客户端装置被配置成(i)提供用于说第二语言的第二用户的第二界面并且(ii)执行所述第二语言的语音辨识,所述第二界面不同于所述第一界面。接着,基于确定该移动是分隔符运动,所述动作包含在所述第一模式与所述第二模式之间切换而所述第二用户不在物理上与所述客户端装置交互。
在一些实施方案中,第一用户进行的客户端装置的移动是所述第一用户进行的所述客户端装置的旋转。
在一些实施方案中,用于第一用户的第一界面是所述第一用户的话语的写录(transcription)和所述话语到所述第二语言的翻译。在一些实施方案中,用于第二用户的第二界面是第一用户的话语到第二语言的全屏翻译。
当客户端装置处于第一模式中时,一些实施方案包含以下动作:接收第一用户以第一语言的话语并且输出将所述话语到第二语言的翻译编码的音频信号。此外,这些实施方案可包含在客户端装置处将第一用户的话语翻译为第二语言。
当客户端装置处于第二模式中时,一些实施方案可涉及:接收第二用户以第二语言的话语并且输出将所述话语到第一语言的翻译编码的音频信号。
本说明书所述的主题的一个或多个实施例的细节阐述在附图和下文描述中。本主题的其它潜在特征、方面和优点将从描述和附图以及权利要求书变得显而易见。
一些实施方案可有利地使跨语言交流中的参与者沟通而不需要触摸客户端装置的屏幕。
附图说明
图1到图8图示说明促进说第一语言的主要用户与说第二语言的参与用户之间的交流的示例客户端装置。
图9是图示说明在语言之间翻译的过程的示例的流程图。
各图中的类似参考数字和标记指示类似元素。
具体实施方式
客户端装置上的应用可检测用户手势以选择适当语言翻译模型且实时改变客户端装置上的显示。在示例情形下,主要用户(例如,客户端装置的所有者)希望与说与主要用户的语言不同的语言的参与用户沟通。举例来说,主要用户可在不同国家中旅行且需要问路。主要用户在以纵向取向握持客户端装置的同时说话,或使用诸如键盘、相机或手写等替代方法,且接着将客户端装置旋转到横向取向以向参与用户呈现。当客户端装置处于纵向取向中时,客户端装置可确定主要用户正说话且查看显示器。结果,客户端装置可选择针对主要用户的语言的语言翻译模型,且将主要用户的语音的写录与到另一语言的翻译一起实时显示。当客户端装置旋转到横向取向中时,客户端装置可确定主要用户正向参与用户呈现客户端装置。因而,客户端装置可选择针对参与用户的语言的语言翻译模型,且显示主要用户的语音的全屏翻译。
这些应用可提供某些优点。举例来说,实施方案可不需要与参与用户的响应同步来触摸客户端装置或与客户端装置交互,而与参与用户的响应同步来触摸客户端装置或与客户端装置交互原本对于主要用户来说可成问题。此外,主要用户可能不想让参与用户触摸其客户端装置。此外,参与用户可能不愿意或不明白装置需要他们来触摸,或可能对于在触摸另一人的客户端装置上进行该行动感到不舒服。这些应用可因此允许参与用户以较自然的方式说出响应。
图1到图8图示说明促进说第一语言的主要用户与说第二语言的参与用户之间的交流的示例客户端装置10。虽然关于一个主要用户和一个参与用户来描述图1到图8中的交互,但在实施方案中,可涉及两个或多个参与用户。客户端装置10可例如是台式计算机、膝上型计算机、平板计算机、可穿戴计算机、蜂窝电话、智能电话、音乐播放器、电子书阅读器、导航系统或任何其它适当计算装置。
在图1中,客户端装置10显示用于发起主要用户与参与用户之间的交流的样本用户界面100。在操作中,主要用户通过话音或触摸屏输入而在客户端装置10上执行语言翻译应用。在执行时,语言翻译应用可提供输入屏幕,诸如,图1所示的输入屏幕。就这来说,图1包含用于选择语言的输入部分。主要用户可使用输入框110来选择第一语言,且使用输入框120来选择第二语言。举例来说,主要用户可在输入框110中选择English(英语),且在输入框120中选择Spanish(西班牙语)。在此上下文中,第一语言通常是主要用户的语言,且第二语言通常是参与用户的语言。话音或触摸屏输入可用于进行选择。或者或另外,语言翻译应用可选择默认语言作为第一语言。这默认语言可基于客户端装置10的当前语言设置。语言翻译应用还可选择默认语言作为第二语言,该第二语言可为客户端装置10的当前地理位置中所说的语言。举例来说,如果客户端装置10当前位于西班牙,那么默认第二语言可为西班牙语。
用户可接着选择用于输入待被翻译的语音或文本的模式。举例来说,用户可将文本键入或粘贴到文本框130中,选择相机图标140以用耦接到客户端装置的相机拍摄文本的照片,选择麦克风图标150以发起语音辨识,或选择手写图标160以发起手写辨识。对于语音辨识来说,用户可例如在说话之前选择麦克风图标150且接着说出话语。客户端装置10将话语编码为可例如为一段相对高质量的音频(诸如,16kHz无损音频)的音频信号,且如下所述发起经编码的话语的语音辨识。对于手写辨识来说,用户可例如选择手写图标160且接着使用手指或触笔而在输入区域130书写。客户端装置10接着对所输入的书写执行手写辨识。
在图2中,客户端装置10显示用于由主要用户发起的语音辨识会话的样本用户界面200。样本用户界面200包含指示客户端装置正等待来自主要用户的语音输入的说明“listening(收听)”210。用户界面200还包含客户端装置10当前正从英语翻译为西班牙语的图形指示。在此示例中,“英语”图标220被突出显示,而“西班牙语”图标230未被突出显示。
在操作中,客户端装置10接收主要用户的语音且将该语音转换为音频数据。语言翻译应用获得音频数据且发起该音频数据的语音辨识。
语音辨识涉及将音频数据转换为以用户的本土语言表示语音的文本。语音辨识器可包含用于辨识字词、词类等的子例程。举例来说,语音辨识器可包含用于将声音划分为子部分且使用这些子部分来识别字词的语音分割例程、用于识别字词的含义的字词解疑例程、用于识别句式结构、词类等的句法词典以及用以补偿用户的语言的地区口音或外地口音的例程。由语音辨识器输出的文本可为含有自描述计算语言的文本的文件,所述自描述计算语言诸如,可扩展标记语言(XML)、JavaScript对象表示法(JSON)或任何其它适当格式。在此上下文中,自描述计算语言可为有用的,这是因为自描述计算语言以对于其它计算机程序来说可辨识的方式来实现字词、句子、段落和语法特征的标记。因此,另一计算机程序,诸如,如下所述的语言翻译器,可读取文本文件,识别例如字词、句子、段落和语法特征,且在需要时使用该信息。
语音辨识可例如由客户端装置10、服务器或两者的组合执行。举例来说,客户端装置10可包含从音频数据生成主要用户语音的写录的语音辨识模块。或者或另外,客户端装置10可经由网络将音频数据发送到服务器处的语音辨识程序。网络可为有线或无线的或两者的组合,且可包含因特网。在一些实施方案中,对应于第一语言和第二语言的识别符可与音频数据一起、或在音频数据之前或之后发送。服务器处的语音辨识程序从客户端装置10接收音频数据,且适用时接收语言识别符。服务器处的语音辨识程序可接着基于与音频数据相关联的语言识别符来对主要用户的话语执行语音辨识。服务器可接着将主要用户的话语的写录传输回客户端装置10。
在图3中,客户端装置10显示示出主要用户的以第一语言的话语的写录以及主要用户的话语到第二语言的翻译的样本用户界面300。在主要用户正说话时,用户界面300处于纵向取向中。用户界面300包含显示主要用户的话语的写录的顶部310以及显示主要用户的话语到第二语言的翻译的底部320。用户界面300还包含被突出显示以指示客户端装置正从英语翻译的“英语”图标330以及未被突出显示以指示客户端装置正翻译为西班牙语的“西班牙语”图标340。图3还包含主要用户20与参与用户30之间的交流的说明。在此说明中,主要用户20正向参与用户30发起问题“where is…”。
主要用户的语音的翻译可由客户端装置10、服务器处的翻译程序或两者的组合执行。举例来说,客户端装置10可包含用于将第一语言(即,主要用户的语言)翻译为第二语言(即,参与用户的语言)的语言翻译模块或字典。在一些实施方案中,客户端装置10可经由网络来访问翻译服务,所述翻译服务将主要用户的以第一语言的话语的写录翻译为以第二语言表示主要用户的话语的文本。
在一些实施方案中,服务器处的翻译程序可将主要用户的话语翻译为第二语言。翻译程序可例如通过辨识识别符来识别第一语言和第二语言。在一些实施方案中,第二语言可为基于客户端装置10的位置的默认语言。在此状况下,翻译程序可基于例如客户端装置的IP地址以及客户端装置可从音频数据确定的任何其它地理标记来识别默认第二语言。翻译程序可接着查询数据库或任何其它源以识别在客户端装置的地理位置处说的主要语言。如果位置已知是说两种语言的(例如,西班牙巴塞罗那),那么翻译程序可将消息发送到客户端装置以提示用户从一位置说的语言的列表选择适当语言(例如,在巴塞罗那是加泰罗尼亚语或西班牙语)。基于所识别的语言,翻译程序将主要用户的话语的写录翻译为以第二语言表示主要用户的话语的文本。服务器可接着将文本翻译传输回客户端装置10以供显示。
语言翻译程序读取语音辨识器所输出的文本文件,且使用以主要用户的本土语言的此文本文件以生成预先指定的目标语言(例如,参与用户的语言)的文本文件。举例来说,语言翻译器可读取英语语言的文本文件,且基于英语语言的文本文件来生成西班牙语语言的文本文件。为了执行翻译,语言翻译器识别语言辨识器所生成的文本文件中所含有的英语语言的文本的词汇和语法,且使用供其支配的工具以生成含有英语语言的文本的西班牙语语言的翻译的文本文件(例如,XML文件)。语言翻译器可包含或参考将用户的本土语言与目标语言相关的电子字典。语言翻译器还可包含或参考目标语言的句法词典以在必要时相对于本土语言修改目标语言中的字词放置。举例来说,在英语中,形容词通常在名词之前。相比之下,在诸如西班牙语的一些语言中,(多数)形容词在名词之后。句法词典可用于基于例如英语语言的文本文件中所含有的标签而以目标语言设置字词次序和其它语法特征。语言翻译器的输出可为与语音辨识器所产生的文本文件类似的文本文件,不同之处在于以目标语言。文本文件可以自描述计算机语言,诸如,XML、JSON或任何其它适当格式。
在图4中,客户端装置10显示示出主要用户的话语的完整写录以及主要用户的话语到第二语言的完整翻译的样本用户界面400。用户界面400的顶部410示出主要用户的话语的完整写录“where is the bathroom”。用户界面400的底部420示出主要用户的话语到西班牙语的完整翻译“dónde está el”。用户界面400还包含被突出显示以指示客户端装置正从英语翻译的“英语”图标430以及未被突出显示以指示客户端装置正翻译为西班牙语的“西班牙语”图标440。图4还包含主要用户20正对参与用户30完成其问题“where isthe bathroom”的说明。
在一些实施方案中,客户端装置10还可输出对应于主要用户的话语到第二语言的翻译的音频信号。举例来说,如图4所示,客户端装置10处的麦克风可输出对应于翻译为西班牙语的主要用户的话语的音频信号450。音频信号450可由客户端装置10、服务器或两者的任何适当组合生成。
客户端装置或服务器处的音频生成器读取语言翻译器所输出的文本文件且基于文本文件中的文本来生成音频数据。具体地说,音频生成器使用语音合成器以生成对应于文本文件的音频数据。语音合成器可使用与所生成的音频数据相关联的任何指示符以影响语音如何合成(例如,以提供性别特定或口音特定的语音类型)。因为文本文件是根据第二语言(例如,参与用户的语言)来组织的,所以所生成的音频数据是针对以第二语言的语音。在图4所说明的示例中,音频生成器将读取语言翻译器所生成的文本文件,且使用西班牙语语言的文本以生成可播放的音频数据以生成对应于该文本的西班牙语语音。音频数据可与一个或多个指示符一起生成以合成具有口音或性别特性的语音。举例来说,指示符可向客户端装置10指定所得语音是针对男人或是女人。口音可为将播放音频数据的客户端装置所特定的。举例来说,如果语言转换是从英语到西班牙语,且客户端装置位于西班牙,那么音频生成器可包含将西班牙语语音合成在卡斯蒂利亚口音中的指示符。在音频生成器位于服务器处的状况下,服务器可将对应于西班牙语翻译的音频信号传输到客户端装置10。
客户端装置10获得针对第二语言的所生成的音频数据且对参与用户30播放所合成的语音。参与用户30进而能够以其本土(或优选)语言接收主要用户20以用户30的本土(或优选)语言所提供的语音的可听得见的翻译。在图4所示的示例中,参与用户30接收主要用户20的英语语言的语音到西班牙语的音频翻译。
图5显示客户端装置10从纵向取向到横向取向的旋转,其触发用户界面的改变以及客户端装置正收听的语言的改变。在示例交互中,主要用户20在以纵向取向握持客户端装置10的同时对客户端装置10说话以生成针对参与用户30的初始问题。当主要用户20已完成其问题时,主要用户接着将客户端装置10旋转到纵向取向中,且呈现客户端装置的屏幕供参与用户30查看。当处于纵向取向中时,用户界面被提供以便利于主要用户20,显示主要用户语音的写录与主要用户语音到参与用户30的第二语言的翻译两者,且收听以主要用户20的语言的语音。然而,当客户端装置10旋转到横向取向中时,用户界面被提供以便利于参与用户30,且因此显示主要用户的语音到参与用户的第二语言的全屏翻译,且收听以参与用户30的语言的语音。
虽然出于示例性目的而描述客户端装置到横向取向和纵向取向的旋转,但可使用任何适当姿势或运动。举例来说,客户端装置可检测客户端装置的翻转(例如,围绕水平轴的旋转),且客户端装置可因此针对主要用户与参与用户两者保持在纵向取向位置中。
图5还说明主要用户的语音到参与用户的语言的音频翻译510的输出。一定音频翻译510变得可用,音频翻译510就可由客户端装置10输出,且不需要延迟来等待客户端装置的移动。换句话说,客户端装置的移动未必触发音频翻译的输出,而是音频翻译可在任何时间输出(例如,当装置处于纵向取向中时,当装置从纵向取向旋转到横向取向中时和/或当装置处于横向取向中时)。
客户端装置10的运动可例如由内置于客户端装置中的加速度计和/或陀螺仪检测,且中继到翻译应用。翻译应用接着确定运动是否对应于用于在针对主要用户的模式(例如,收听以主要用户的语言的语音)与针对参与用户的模式(例如,收听以参与用户的语言的语音)之间切换的分隔符运动。分隔符运动是由主要用户20作出的手势或运动,其指示翻译应用应切换模式。在一个示例中,客户端装置10的分隔符运动可通过检测正交于客户端装置的表面的向量已穿过一个或多个平面(例如,垂直平面和/或水平平面)来确定。以此方式,可确定客户端装置10是否已翻转和/或旋转通过预先限定的角度,进而指示装置已从纵向取向旋转到横向取向,或从面向主要用户20旋转到面向参与用户30。
在图6中,客户端装置10显示示出主要用户的语音到参与用户的语言的全屏翻译的样本用户界面600。用户界面600示出翻译610“estáel”和小说明620(“Habla”)以确认参与用户说西班牙语。图6还示出参与用户30以参与用户的本土语言在口头上对主要用户的问题作出响应(“es la segunda puerta a la derecha”)。参与用户的语音可接着以如上所述的类似方式来写录和翻译,不同之处在于初始语言将为参与用户的语言,且目标语言将为主要用户的语言。
图7显示客户端装置10从横向取向到纵向取向的旋转,其触发用户界面的改变以及客户端装置正收听的语言的改变,如上所述。
在图8中,客户端装置10显示示出参与用户的话语的完整写录以及参与用户的话语到主要用户的语言的完整翻译的样本用户界面800。用户界面800的顶部810示出主要用户的话语到英语的完整翻译“it’s the second door on the right”。用户界面800的底部820示出参与用户的话语的完整写录“es la segunda puerta a la derecha”。用户界面800还包含被突出显示以指示客户端装置正从英语翻译的“英语”图标830以及未被突出显示以指示客户端装置正翻译为西班牙语的“西班牙语”图标840。客户端装置10、服务器或任何适当组合可执行参与用户的语音到主要用户的语言的翻译,如上所述。
在一些实施方案中,客户端装置10还可输出对应于参与用户的话语到主要用户的语言的翻译的音频信号。举例来说,如图8所示,客户端装置10处的麦克风可输出对应于翻译为英语的参与用户的话语的音频信号850。音频信号850可由客户端装置10、服务器或两者的任何适当组合生成,如上所述。也如上所述,音频信号850不需要延迟来等待客户端装置从横向取向到纵向取向的旋转。
值得注意的是,主要用户不需要在发起交流之后与客户端装置10交互。也就是说,在翻译应用已被执行且识别两种语言之后,从用户的观点来看,翻译过程是自动的。不需要对翻译应用进行进一步指示或控制就能继续翻译。简单地旋转客户端装置将继续该过程。此外,参与用户不需要在对话期间的任何点在物理上与客户端装置10交互(例如,触摸装置、点击装置的屏幕或手持装置)。
前述过程可重复,而不需要主要用户对客户端装置10提供任何额外输入(例如,点击或拨动)。具体地说,主要用户可收听参与用户的语音的翻译,且在听到翻译之后,以其本土语言(例如,英语)来对客户端装置10说话。根据上文所述的过程,此英语语音可被翻译为西班牙语语音,而所述西班牙语语音可在客户端装置10上播放。主要用户可接着再次将客户端装置旋转到横向取向,且收听来自参与用户的响应。此后,参与用户可收听英语翻译且用以本土语言(例如,西班牙语)来响应。只要双方想要对话,此来回过程就可继续。
图9图示说明用于在语言之间翻译的过程900的示例。过程900可由客户端装置执行,所述客户端装置诸如,上文所述的客户端装置10或另一客户端装置。
在步骤910中,客户端装置接收指示第一用户(例如,主要用户20)进行的客户端装置的移动的数据。客户端装置的移动可为(例如)客户端装置围绕垂直轴或水平轴的旋转。
在步骤920中,客户端装置确定客户端装置的移动是用于在两种模式之间切换的分隔符运动。分隔符运动可对应于在客户端装置的横向取向与纵向取向之间的切换。在第一模式中,客户端装置被配置成提供用于说第一语言的第一用户(例如,主要用户)的第一界面,且执行第一语言(例如,主要用户的语言)的语音辨识。在第二模式中,客户端装置被配置成提供用于说第二语言的第二用户(例如,参与用户)的第二界面,且执行第二语言(例如,参与用户的语言)的语音辨识。
第一界面和第二界面可为不同的。举例来说,在第一模式中,客户端装置可显示第一用户的话语的写录与该话语到第二语言的翻译两者。在第二模式中,客户端装置可显示第一用户的话语到第二语言的全屏翻译。
接着,在步骤930中,基于确定该移动是分隔符运动,客户端装置在第一模式与第二模式之间切换而第二用户不在物理上与客户端装置交互。换句话说,第二用户不需要在对话期间的任何点在物理上与客户端装置10交互(例如,触摸装置、点击装置的屏幕或握持装置)。
在一些实施方案中,当客户端装置处于第一模式中时,客户端装置可接收第一用户以第一语言的话语。客户端装置可接着输出将话语到第二语言的翻译编码的音频信号。音频信号可在客户端装置处于第一模式中时、在客户端装置正在第一模式与第二模式之间切换时和/或在客户端装置处于第二模式中时输出。在一些方面中,客户端装置可生成将该翻译编码的音频信号。或者或另外,客户端装置可将第一用户的话语传输到服务器,且从服务器接收对应于话语的翻译的音频信号。
在一些实施方案中,当客户端装置处于第二模式中时,客户端装置可接收第二用户以第二语言的话语。客户端装置可接着输出将话语到第一语言的翻译编码的音频信号。音频信号可在客户端装置处于第一模式中时、在客户端装置正在第一模式与第二模式之间切换时和/或在客户端装置处于第二模式中时输出。在一些方面中,客户端装置可生成将该翻译编码的音频信号。或者或另外,客户端装置可将第二用户的话语传输到服务器,且从服务器接收对应于话语的翻译的音频信号。
已描述许多实施方案。然而,应理解,可进行各种修改,而不偏离本公开的精神和范围。举例来说,可在步骤被重新排序、添加或移除的情况下使用上文所示的流程的各种形式。
本说明书中所描述的实施例和所有功能操作可实施在数字电子电路中,或实施在计算机软件、固件或硬件(包含本说明书中所公开的结构及其结构等同物)中,或实施在其中的一者或多者的组合中。实施例可被实施为一个或多个计算机程序产品,即,编码在计算机可读介质上以由数据处理设备执行或控制数据处理设备的操作的计算机程序指令的一个或多个模块。计算机可读介质可为机器可读存储装置、机器可读存储衬底、存储器装置、影响机器可读传播信号的物质组合物或其中的一者或多者的组合。计算机可读介质可为非暂时性计算机可读介质。术语“数据处理设备”涵盖用于处理数据的所有设备、装置和机器,例如包含可编程处理器、计算机或多个处理器或计算机。该设备可除硬件之外还包含创建用于所涉及的计算机程序的执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或其中的一者或多者的组合的代码。传播信号是人工生成的信号,例如,被生成以将用于传输到适当接收器设备的信息编码的机器生成的电信号、光信号或电磁信号。
计算机程序(还称为程序、软件、软件应用、脚本或代码)可用包含编译或解译语言的任何形式的编程语言来编写,且可按任何形式来部署,包含部署为独立程序或部署为适用于计算环境中的模块、组件、子例程或其它单元。计算机程序未必对应于文件系统中的文件。程序可存储在保持其它程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中、存储在专用于所涉及的程序的单个文件中或存储在多个协调的文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可被部署成在一个计算机上或在位于一个位置处或跨越多个位置而分布且由通信网络互连的多个计算机上执行。
本说明书中所描述的过程和逻辑流程可由执行一个或多个计算机程序的一个或多个可编程处理器执行以通过对输入数据操作且生成输出而执行若干功能。所述过程和逻辑流程还可由专用逻辑电路(例如,现场可编程门阵列(FPGA)或专用集成电路(ASIC))执行,且设备还可实施为该专用逻辑电路。
适用于计算机程序的执行的处理器包含(例如)通用与专用微处理器两者以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器装置。通常,计算机还将包含用于存储数据的一个或多个大容量存储装置,例如,磁盘、磁光盘或光盘,或计算机操作性地耦接以从所述大容量存储装置接收数据或将数据传递到所述大容量存储装置或两者。然而,计算机不需要具有这些装置。此外,计算机可嵌入在另一装置中,例如,略举几例,平板计算机、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器。适用于存储计算机程序指令和数据的计算机可读介质包含所有形式的非易失性存储器、介质和存储器装置,包含(例如)半导体存储器装置,例如EPROM、EEPROM和闪存装置;磁盘,例如,内部硬盘或移动硬盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入在专用逻辑电路中。
为了实现与用户的交互,实施例可实施在计算机上,所述计算机具有用于向用户显示信息的显示装置,例如,阴极射线管(CRT)或液晶显示器(LCD)监视器,以及用户可用于将输入提供给计算机的键盘和指向装置,例如,鼠标或跟踪球。其它种类的装置也可用于实现与用户的交互;例如,提供给用户的反馈可为任何形式的传感反馈,例如,视觉反馈、听觉反馈或触觉反馈;且来自用户的输入可按任何形式来接收,包含声音输入、语音输入或触觉输入。
实施例可实施在计算系统中,所述计算系统包含后端组件(例如,作为数据服务器)或包含中间件组件(例如,应用服务器)或包含前端组件(例如,具有用户可用于与所公开的技术的实施方案交互的图形用户界面或Web浏览器的客户端计算机)或包含一个或多个这些后端组件、中间件组件或前端组件的任何组合。系统的组件可由任何形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包含局域网(“LAN”)和广域网(“WAN”),例如,因特网。
计算系统可包含客户端和服务器。客户端和服务器通常相互远离且通常通过通信网络而交互。客户端和服务器的关系根据在相应计算机上运行且相互具有客户端-服务器关系的计算机程序而出现。
虽然本说明书含有许多细节,但这些细节不应解释为限制,而是解释为特定实施例所特有的特征的描述。在独立实施例的上下文中在本说明书中描述的某些特征还可组合地实施在单个实施例中。相反,在单个实施例的上下文中描述的各种特征还可独立地或以任何适当子组合实施在多个实施例中。此外,虽然特征可在上文中描述为在某些组合中起作用且甚至最初如此请求保护,但在一些状况下,可从所请求保护的组合删除所述组合的一个或多个特征,且所请求保护的组合可针对于子组合或子组合的变化。
类似地,虽然操作在附图中以特定次序来描述,但这不应理解为需要这些操作以所示出的特定次序或以顺序次序执行或需要执行所有所说明的操作来实现所要结果。在某些情形下,多任务和并行处理可为有利的。此外,各种系统组件在上文所述的实施例中的分离不应理解为需要所有实施例中的这种分离,而是应理解为所描述的程序组件和系统可通常一起集成在单个软件产品或封装到多个软件产品中。
因此,已描述特定实施例。其它实施例处于随附权利要求书的范围内。举例来说,权利要求书中所述的动作可按不同次序执行且仍实现所要结果。
Claims (12)
1.一种用于实时语言翻译的计算机实施的方法,包括:
接收指示第一用户进行的客户端装置的移动的数据;
确定所述客户端装置的所述移动被分类为分隔符运动;以及
基于确定所述移动被分类为分隔符运动,在第一模式与第二模式之间切换,其中,在所述第一模式中,所述客户端装置(i)配置自动语音辨识引擎的语言设置,以将所述第一用户的语音写录为以第一语言的文本,以及(ii)提供第一界面,所述第一界面包括所述第一用户的以所述第一语言的所写录文本、以及所述第一用户的所写录文本的以第二语言的翻译,在所述第二模式中,所述客户端装置(i)配置所述自动语音辨识引擎的所述语言设置,以将第二用户的语音写录为以所述第二语言的文本,以及(ii)提供第二界面,所述第二界面包括所述第二用户的以所述第二语言的所写录文本、以及所述第二用户的所写录文本的以所述第一语言的翻译,其中所述第二界面不同于所述第一界面,并且其中所述第一模式与所述第二模式之间的切换在所述第二用户没有在物理上与所述客户端装置交互的情况下发生。
2.根据权利要求1所述的方法,其中,所述第一用户进行的所述客户端装置的所述移动包括所述第一用户进行的所述客户端装置的旋转。
3.根据权利要求1所述的方法,还包括当所述客户端装置处于所述第一模式中时,
接收所述第一用户以所述第一语言的话语;以及
输出将所述第一用户的所转录文本的以所述第二语言的翻译编码的音频信号。
4.根据权利要求3所述的方法,还包括当所述客户端装置处于所述第一模式中时,
在所述客户端装置处将所述第一用户的所述话语翻译为所述第二语言。
5.根据权利要求1所述的方法,还包括当所述客户端装置处于所述第二模式中时,
接收所述第二用户以所述第二语言的话语;以及
输出将所述第二用户的所转录文本的以所述第一语言的翻译编码的音频信号。
6.根据权利要求1所述的方法,其中,所述客户端通过提供标识符来配置所述自动语音辨识引擎的所述语言设置,以将所述第一用户的语音写录为以所述第一语言的文本,所述标识符向所述自动语音辨识引擎指示所述语音为所述第一语言。
7.根据权利要求1所述的方法,其中,所述自动语音辨识引擎在远离所述客户端装置的服务器上执行。
8.一种用于实时语言翻译的系统,包括:
用于接收指示第一用户进行的客户端装置的移动的数据的装置;
用于确定所述客户端装置的所述移动被分类为分隔符运动的装置;以及
用于基于确定所述移动被分类为分隔符运动,在第一模式与第二模式之间切换的装置,其中,在所述第一模式中,所述客户端装置(i)配置自动语音辨识引擎的语言设置,以将所述第一用户的语音写录为以第一语言的文本,以及(ii)提供第一界面,所述第一界面包括所述第一用户的以所述第一语言的所写录文本、以及所述第一用户的所写录文本的以第二语言的翻译,并且在所述第二模式中,所述客户端装置(i)配置所述自动语音辨识引擎的所述语言设置,以将第二用户的语音写录为以所述第二语言的文本,以及(ii)提供第二界面,所述第二界面包括所述第二用户的以所述第二语言的所写录文本、以及所述第二用户的所写录文本的以所述第一语言的翻译,其中所述第二界面不同于所述第一界面,并且其中所述第一模式与所述第二模式之间的切换在所述第二用户没有在物理上与所述客户端装置交互的情况下发生。
9.根据权利要求8所述的系统,其中,所述第一用户进行的所述客户端装置的所述移动包括所述第一用户进行的所述客户端装置的旋转。
10.根据权利要求8所述的系统,当所述客户端装置处于所述第一模式中时,还包括,
用于接收所述第一用户以所述第一语言的话语的装置;以及
用于输出将所述第一用户的所转录文本的以所述第二语言的翻译编码的音频信号的装置。
11.根据权利要求10所述的系统,当所述客户端装置处于所述第一模式中时,还包括,
用于在所述客户端装置处将所述第一用户的所述话语翻译为所述第二语言的装置。
12.根据权利要求8所述的系统,当所述客户端装置处于所述第二模式中时,还包括,
用于接收所述第二用户以所述第二语言的话语的装置;以及
用于输出将所述第二用户的所转录文本的以所述第一语言的翻译编码的音频信号的装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361865867P | 2013-08-14 | 2013-08-14 | |
US61/865,867 | 2013-08-14 | ||
US14/077,411 | 2013-11-12 | ||
US14/077,411 US9355094B2 (en) | 2013-08-14 | 2013-11-12 | Motion responsive user interface for realtime language translation |
PCT/US2014/044649 WO2015023365A1 (en) | 2013-08-14 | 2014-06-27 | User interface for realtime language translation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105493027A CN105493027A (zh) | 2016-04-13 |
CN105493027B true CN105493027B (zh) | 2019-05-28 |
Family
ID=52467433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480045272.1A Active CN105493027B (zh) | 2013-08-14 | 2014-06-27 | 用于实时语言翻译的用户界面 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9355094B2 (zh) |
CN (1) | CN105493027B (zh) |
WO (1) | WO2015023365A1 (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US9159313B2 (en) * | 2012-04-03 | 2015-10-13 | Sony Corporation | Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis and segments not generated using speech synthesis |
EP2947861B1 (en) * | 2014-05-23 | 2019-02-06 | Samsung Electronics Co., Ltd | System and method of providing voice-message call service |
US10733905B2 (en) * | 2014-06-09 | 2020-08-04 | Lingozing Holding Ltd | Method and system for learning languages through a general user interface |
TW201608414A (zh) * | 2014-08-18 | 2016-03-01 | Richplay Information Co Ltd | 結合行動裝置之演講輔助系統 |
KR102188268B1 (ko) * | 2014-10-08 | 2020-12-08 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
KR102545764B1 (ko) | 2016-04-01 | 2023-06-20 | 삼성전자주식회사 | 음성 번역을 위한 장치 및 방법 |
US10481863B2 (en) * | 2016-07-06 | 2019-11-19 | Baidu Usa Llc | Systems and methods for improved user interface |
USD817337S1 (en) | 2016-07-07 | 2018-05-08 | Baidu Usa Llc | Display screen or portion thereof with graphical user interface |
USD812635S1 (en) * | 2016-07-07 | 2018-03-13 | Baidu Usa Llc. | Display screen or portion thereof with graphical user interface |
USD815110S1 (en) | 2016-07-07 | 2018-04-10 | Baidu Usa Llc | Display screen or portion thereof with graphical user interface |
US11262850B2 (en) * | 2016-07-20 | 2022-03-01 | Autodesk, Inc. | No-handed smartwatch interaction techniques |
KR101827773B1 (ko) * | 2016-08-02 | 2018-02-09 | 주식회사 하이퍼커넥트 | 통역 장치 및 방법 |
JP6876936B2 (ja) * | 2016-11-11 | 2021-05-26 | パナソニックIpマネジメント株式会社 | 翻訳装置の制御方法、翻訳装置、および、プログラム |
US10741174B2 (en) * | 2017-01-24 | 2020-08-11 | Lenovo (Singapore) Pte. Ltd. | Automatic language identification for speech |
IL252071A0 (en) * | 2017-05-03 | 2017-07-31 | Google Inc | Contextual language translation |
CN107291703B (zh) * | 2017-05-17 | 2021-06-08 | 百度在线网络技术(北京)有限公司 | 翻译服务应用中的发音方法及装置 |
US10936830B2 (en) * | 2017-06-21 | 2021-03-02 | Saida Ashley Florexil | Interpreting assistant system |
US10453459B2 (en) * | 2017-06-21 | 2019-10-22 | Saida Ashley Florexil | Interpreting assistant system |
US20190095430A1 (en) * | 2017-09-25 | 2019-03-28 | Google Inc. | Speech translation device and associated method |
WO2019064464A1 (ja) * | 2017-09-28 | 2019-04-04 | Line株式会社 | 情報処理方法、情報処理装置及び情報処理プログラム |
US10423727B1 (en) | 2018-01-11 | 2019-09-24 | Wells Fargo Bank, N.A. | Systems and methods for processing nuances in natural language |
CN108920224A (zh) * | 2018-04-11 | 2018-11-30 | Oppo广东移动通信有限公司 | 对话信息处理方法、装置、移动终端及存储介质 |
CN108401192B (zh) * | 2018-04-25 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 视频流处理方法、装置、计算机设备及存储介质 |
US10936635B2 (en) * | 2018-10-08 | 2021-03-02 | International Business Machines Corporation | Context-based generation of semantically-similar phrases |
JP7205697B2 (ja) * | 2019-02-21 | 2023-01-17 | 株式会社リコー | 通信端末、共用システム、表示制御方法およびプログラム |
CN110188363A (zh) * | 2019-04-26 | 2019-08-30 | 北京搜狗科技发展有限公司 | 一种信息切换方法、装置和翻译设备 |
CN110442879B (zh) * | 2019-04-30 | 2024-02-13 | 华为技术有限公司 | 一种内容翻译的方法和终端 |
USD945464S1 (en) | 2020-06-18 | 2022-03-08 | Apple Inc. | Display screen or portion thereof with graphical user interface |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101115245A (zh) * | 2006-07-25 | 2008-01-30 | 陈修志 | 具有语音识别及翻译功能的移动终端 |
CN101266600A (zh) * | 2008-05-07 | 2008-09-17 | 陈光火 | 多媒体多语言互动同步翻译方法 |
CN101458681A (zh) * | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
CN102214167A (zh) * | 2010-04-09 | 2011-10-12 | 倪劲松 | 一种即时翻译系统、终端及方法 |
CN102298578A (zh) * | 2011-08-25 | 2011-12-28 | 盛乐信息技术(上海)有限公司 | 基于手持设备的翻译方法及系统 |
KR20130043293A (ko) * | 2011-10-20 | 2013-04-30 | 엘지전자 주식회사 | 이동 단말기 및 그 이동 단말기를 이용한 음성 번역 방법 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPR956901A0 (en) | 2001-12-17 | 2002-01-24 | Jayaratne, Neville | Real time translator |
US7312981B2 (en) * | 2003-04-16 | 2007-12-25 | Carroll David W | Mobile, hand-held personal computer |
US20100030549A1 (en) * | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8775156B2 (en) | 2010-08-05 | 2014-07-08 | Google Inc. | Translating languages in response to device motion |
JP5664036B2 (ja) * | 2010-09-07 | 2015-02-04 | ソニー株式会社 | 情報処理装置、プログラム及び制御方法 |
US8849628B2 (en) * | 2011-04-15 | 2014-09-30 | Andrew Nelthropp Lauder | Software application for ranking language translations and methods of use thereof |
JP5875675B2 (ja) | 2011-05-05 | 2016-03-02 | オルツボ, インコーポレイテッド | 近接するモバイルデバイス間の言語間通信 |
US8793118B2 (en) * | 2011-11-01 | 2014-07-29 | PES School of Engineering | Adaptive multimodal communication assist system |
US20130173246A1 (en) | 2012-01-04 | 2013-07-04 | Sheree Leung | Voice Activated Translation Device |
-
2013
- 2013-11-12 US US14/077,411 patent/US9355094B2/en active Active
-
2014
- 2014-06-27 CN CN201480045272.1A patent/CN105493027B/zh active Active
- 2014-06-27 WO PCT/US2014/044649 patent/WO2015023365A1/en active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101115245A (zh) * | 2006-07-25 | 2008-01-30 | 陈修志 | 具有语音识别及翻译功能的移动终端 |
CN101458681A (zh) * | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
CN101266600A (zh) * | 2008-05-07 | 2008-09-17 | 陈光火 | 多媒体多语言互动同步翻译方法 |
CN102214167A (zh) * | 2010-04-09 | 2011-10-12 | 倪劲松 | 一种即时翻译系统、终端及方法 |
CN102298578A (zh) * | 2011-08-25 | 2011-12-28 | 盛乐信息技术(上海)有限公司 | 基于手持设备的翻译方法及系统 |
KR20130043293A (ko) * | 2011-10-20 | 2013-04-30 | 엘지전자 주식회사 | 이동 단말기 및 그 이동 단말기를 이용한 음성 번역 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20150051898A1 (en) | 2015-02-19 |
US9355094B2 (en) | 2016-05-31 |
CN105493027A (zh) | 2016-04-13 |
WO2015023365A1 (en) | 2015-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105493027B (zh) | 用于实时语言翻译的用户界面 | |
US10496759B2 (en) | User interface for realtime language translation | |
CN106471570B (zh) | 多命令单一话语输入方法 | |
CN105117391B (zh) | 翻译语言 | |
JP2019102063A (ja) | ページ制御方法および装置 | |
CN107924313A (zh) | 分布式个人助理 | |
US20140358516A1 (en) | Real-time, bi-directional translation | |
CN107735833A (zh) | 自动口音检测 | |
López-Ludeña et al. | Methodology for developing an advanced communications system for the Deaf in a new domain | |
CN109256133A (zh) | 一种语音交互方法、装置、设备及存储介质 | |
JP2021022928A (ja) | 人工知能基盤の自動応答方法およびシステム | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
US20120046933A1 (en) | System and Method for Translation | |
Hämäläinen et al. | Multilingual speech recognition for the elderly: The AALFred personal life assistant | |
KR20190109651A (ko) | 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템 | |
WO2019050601A1 (en) | GENERATION OF NAME-ENTITY PRONUNCIATION FOR SPEECH SYNTHESIS AND VOICE RECOGNITION | |
WO2019225028A1 (ja) | 翻訳装置、システム、方法及びプログラム並びに学習方法 | |
Graham et al. | Evaluating OpenAI's Whisper ASR: Performance analysis across diverse accents and speaker traits | |
CN109257942A (zh) | 用户特定的声学模型 | |
CN112289305A (zh) | 韵律预测方法、装置、设备以及存储介质 | |
Seligman et al. | 12 Advances in Speech-to-Speech Translation Technologies | |
US20220301250A1 (en) | Avatar-based interaction service method and apparatus | |
JP2022020062A (ja) | 特徴情報のマイニング方法、装置及び電子機器 | |
Wardhany et al. | Smart presentation system using hand gestures and Indonesian speech command | |
Pathak et al. | Designing a multilingual virtual agent capable of interacting with uneducated people for automated data collection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |