CN107710191B - 与单个词语音输入的翻译相关的方法和计算装置 - Google Patents
与单个词语音输入的翻译相关的方法和计算装置 Download PDFInfo
- Publication number
- CN107710191B CN107710191B CN201680038849.5A CN201680038849A CN107710191B CN 107710191 B CN107710191 B CN 107710191B CN 201680038849 A CN201680038849 A CN 201680038849A CN 107710191 B CN107710191 B CN 107710191B
- Authority
- CN
- China
- Prior art keywords
- computing device
- word
- user
- touch
- dictionary data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000009471 action Effects 0.000 claims abstract description 24
- 230000004044 response Effects 0.000 claims abstract description 16
- 230000015654 memory Effects 0.000 claims description 14
- 238000013518 transcription Methods 0.000 claims 5
- 230000035897 transcription Effects 0.000 claims 5
- 230000014616 translation Effects 0.000 abstract description 42
- 230000003993 interaction Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000977 initiatory effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000035620 dolor Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036407 pain Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
一种计算机实现的方法包括:由与具有一个或多个处理器的计算装置关联的麦克风来捕获来自用户的语音输入,所述语音输入包括以源语言的单个词;以及响应于接收到来自所述用户的所述语音输入,执行多个动作。所述多个动作可以包括由所述计算装置识别所述单个词的源语言以及与所述用户关联的目标语言;由所述计算装置获得一个或多个翻译词,所述一个或多个翻译词每个都是所述单个词至所述目标语言的潜在翻译;由所述计算装置获得用于所述一个或多个翻译词的词典数据,所述词典数据与所述一个或多个翻译词的至少一个语义含义相关;以及由所述计算装置来显示所述词典数据。
Description
相关申请的交叉引用
本申请要求2015年10月29日提交的美国申请No.14/926,175的优先权权益。以上申请的全部公开内容以引用方式并入本文中。
技术领域
本申请总体上涉及语言翻译,并且更具体地,涉及单个词语音输入的翻译。
背景技术
本文中提供的背景描述是出于总体上展示本公开背景的目的。目前署名的发明人在该背景部分中描述的范围内的工作以及在提交时原本不会被描述为现有技术的描述的各方面既没有明示地也没有暗示地被承认是针对本公开的现有技术。
移动计算装置和其他(例如,桌面型)计算装置之间的物理输入装置(触摸显示器、物理键盘等)可有所不同。例如,与可具有较大触摸显示器和/或全尺寸键盘的较大桌面或膝上型计算装置相比,诸如平板计算机和移动电话的手持移动计算装置可具有较小和/或有限的输入装置。这些较小的和/或有限的输入装置可使得更难以向移动计算装置快速有效地提供文本输入(例如,搜索查询)。因此,语音输入经常被用作避免需要不断使用这些输入装置向移动计算装置提供文本输入的快捷方式。
发明内容
展示了一种计算机实现的技术。所述技术可包括:由与具有一个或多个处理器的计算装置关联的麦克风来捕获来自用户的语音输入,所述语音输入包括以源语言的单个词;以及响应于接收到来自用户的语音输入,执行多个动作。所述多个动作可以包括由所述计算装置识别所述单个词的源语言以及与所述用户关联的目标语言;由所述计算装置获得一个或多个翻译词,所述一个或多个翻译词每个都是所述单个词至所述目标语言的潜在翻译;由所述计算装置获得用于所述一个或多个翻译词的词典数据,所述词典数据与所述一个或多个翻译词的至少一个语义含义相关;以及由所述计算装置来显示所述词典数据。
还展示了一种计算装置和一种非暂时性计算机可读介质。所述计算装置可包括:存储器,其被配置成存储指令集合;以及一个或多个处理器,其被配置成执行所述指令集合,由此使得所述计算装置执行操作。所述计算机可读介质可在其上存储指令集合,所述指令集合在由计算装置的一个或多个处理器执行时可使得所述计算装置执行所述操作。所述操作可包括:由与计算装置关联的麦克风来捕获来自用户的语音输入,所述语音输入包括以源语言的单个词;以及响应于接收到来自用户的语音输入,执行多个动作。所述多个动作可以包括识别所述单个词的源语言以及与所述用户关联的目标语言;获得一个或多个翻译词,所述一个或多个翻译词每个都是所述单个词至所述目标语言的潜在翻译;获得用于所述一个或多个翻译词的词典数据,所述词典数据与所述一个或多个翻译词的至少一个语义含义相关;以及显示所述词典数据。
在一些实施例中,所述词典数据包括以下中的至少一个:(i)特定翻译词的源语言定义,(ii)所述特定翻译词的源语言词性,(iii)包括所述单个词的源语言样本句子,(iv)包括所述特定翻译词的目标语言样本句子,以及(v)具有与所述特定翻译词相近语义含义的另一个源语言词。在一些实施例中,所述词典数据包括:(i)特定翻译词的源语言定义,(ii)所述特定翻译词的源语言词性,(iii)包括所述单个词的源语言样本句子,(iv)包括所述特定翻译词的目标语言样本句子,以及(v)具有与所述特定翻译词相近语义含义的另一个源语言词。
在一些实施例中,所述多个动作还包括:由所述计算装置来识别与特定翻译词关联的一个或多个应用;以及由所述计算装置来显示与所识别的所述一个或多个应用相关联的信息。在一些实施例中,所述语音输入包括所述以源语言的多个词,所述多个词包括所述单个词和一个或多个附加词,并且所述技术或操作还包括:接收来自所述用户的输入(例如,借助计算装置的触摸敏感显示器进行的触摸输入),所述输入指定来自所述多个词中的所述单个词,并且响应于接收到所述输入,执行所述多个动作。
在一些实施例中,所述源语言和所述目标语言是与所述用户关联的多种语言中的两种。在一些实施例中,所述技术或操作还包括接收来自所述用户的输入(例如,借助计算装置的触摸敏感显示器进行的触摸输入),并且响应于接收到来自用户的输入,用所述计算装置启动监听模式,在所述监听模式期间所述语音输入被所述麦克风捕获。
根据下文中提供的具体实施方式,本公开的适用性的其他范围将变得清楚。应该理解,具体实施方式和具体示例只是旨在出于例示的目的,而非旨在限制本公开的范围。
附图说明
根据具体实施方式和附图,将变得更全面地理解本公开,其中:
图1是根据本公开的一些实现方式的示例计算机系统的示图;
图2是图1的示例移动计算装置的功能框图;
图3是根据本公开的一些实现方式的示例用户界面的示图;以及
图4是根据本公开的一些实施例的用于提供用于单个词语音输入的翻译的词典数据的示例技术的流程图。
具体实施方式
如前所讨论的,可使用语音输入来避免经由移动计算装置的输入装置打字较慢。然而,在语言翻译中,因为语音检测中有可能有会由背景噪音、方言和其他类似来源引起的误差,所以语音输入相对于键入输入的速度增加可以是最小的或者是负的。此外,用于语言翻译的语音输入通常被设计用于(i)在两个或更多个用户(人与人或人与计算机)之间的对话,或者甚至是与其他实体交谈的完整句子的翻译(例如,针对人与计算机的问题/回答),或者(ii)诸如在学习新语言的过程中,练习如何说出短语或句子。然而,移动计算装置的用户可使用语音输入在一个特定上下文中快速发现词的含义。例如,以源语言的词在目标语言中可能具有多个潜在的翻译或含义。此外,以源语言的口语可能听起来像是具有不同拼写和含义的其他词。如此,当使用语音输入来获得单个词的翻译时,在目标语言中存在所返回的词其含义与用户口述的词的含义不对应的可能性。
因此,在这种情形下,语音输入只是解决方案的一部分,在该解决方案中还需要用户来验证装置所返回的翻译词的含义。对翻译词的验证可包括例如访问可帮助他们识别含义和特定含义的适宜使用的定义、词性、口语例子或样本句子、同义词和/或图像。然而,获得该附加信息常常是困难且耗时的处理,这需要用户与其装置之间进行大量交互。该交互会导致使用诸如功率、处理和/或带宽的计算资源。更特别地,语音输入和特定于翻译的词典资源通常是分段的,因此特定于翻译的词典资源不可用于其他潜在的翻译以及作为用于经转录的语音输入的替选。相反,用特定于翻译的词典资源只能提供最可能的语音输入和对应的翻译。在这些情形下,会需要用户将替选的翻译词剪切/粘贴到诸如搜索应用的其他应用中。
因此,展示了能减少允许用户验证单个词语音输入的翻译所需的计算资源的技术。这些技术使得用户能够快速且有效地验证将语音输入所提供的以源语言的单个词翻译成不同的目标语言,而无需任何进一步的用户交互。特别地,计算装置或系统可被配置成通过获得并显示用于单个词语音输入的翻译的词典数据来响应单个词语音输入。如此,与只执行语音到文本和后续翻译相比,可以说这些技术更像搜索引擎的功能。源语言和目标语言可以是与用户相关联(例如,优选)的多种语言中的两种。如本文中使用的术语“词典数据”可指的是与一个或多个翻译词的至少一个语义含义相关的任何信息。词典数据的示例包括定义、词性、例子或样本句子、相关词和代表性图像。这些技术可利用包含单个词和其他内容(图像、地址/地图、产品名称、歌词等)之间关系的知识图谱。
通过向用户显示词典数据,用户可快速断定以例如用户优选的或与用户关联的目标语言的翻译词的含义。用户可按能减少用户与设备之间的交互的方式来验证翻译词的含义(以确保其与口述词的含义对应)。在一些实现方式中,用户可初始地经由语音输入提供多个词(例如,短语或句子),并且用户可根据本公开的技术来选择用于翻译和词典数据置配的多个词中的一个。例如,用户可选择他们不知道或不理解的特定词。还可向与翻译词相关的用户提供其他信息,诸如,上下文相关图像、指向相关网站的链接和/或相关应用或游戏的列表。这些技术也展示了一种根源是计算机技术的解决方案,该解决方案用于克服使得用户能够在没有进一步的用户交互的情况下快速有效地获得和验证经翻译的语音输入的问题。这可与移动计算装置的领域特别相关,在移动计算装置中,由于较小的屏幕和/或用户输入界面,导致用户-装置交互可能是棘手的。还应该注意,这些技术可扩展到语言翻译之外,诸如,扩展到相机应用或手写应用。在这些应用中,图像/手写的捕获可使得自动获得相关信息/内容。
现在,参照图1,图示了示例计算机系统100的示图。根据本公开的一些实现方式,计算机系统100可包括示例服务器104和示例移动计算装置108。本文中使用的术语“服务器”可指的是单个计算机或以并行或分布式架构操作的多个计算机。移动计算装置108的示例包括膝上型计算机、平板计算机和移动电话。然而,应该理解,本公开的技术也可应用于诸如桌面型计算机的其他计算装置。服务器104和移动计算装置108可经由网络112彼此通信。网络112可以是局域网(LAN)、广域网(WAN)(例如,互联网)或其组合。移动计算装置108可与用户116相关联。用户116可操作移动计算装置108,包括提供语音和物理(例如,触摸)输入和接收可视和/或音频输出。因此,移动计算装置的示例组件可包括以下更详细讨论的触摸敏感显示器和麦克风。
现在,参照图2,图示了示例移动计算装置108的功能框图。如之前提到的,移动计算装置108的非限制示例包括平板计算机和移动电话。移动计算装置108可包括通信装置200、处理器204和存储器208。通信装置200可以是被配置用于经由网络112与服务器104通信的诸如收发器的任何合适装置。存储器208可以是被配置成将信息存储在服务器104处的任何合适的存储介质(闪存、硬盘等)。例如,存储器208可以是非暂时性计算机可读介质,被配置成存储供处理器204执行的存储在其上的一组指令。用户116可经由用户接口212提供输入和接收输出。用户接口212的示例组件包括显示器216(例如,触摸敏感显示器)和麦克风220。用户接口212还可或替选地包括诸如不同类型的用户输入接口(例如,物理按钮)的其他组件。
对于显示器216的触摸敏感配置,用户116可提供触摸输入,诸如,选择以源语言的单个词。其他触摸输入可包括通过针对翻译词显示的词典数据进行导航以及启动在期间用麦克风220捕获语音输入的监听模式。本文中使用的术语“处理器”可指的是单个处理器或以并行或分布式架构进行操作的多个处理器。处理器204可被配置成控制服务器104的操作,包括执行/加载服务器104的操作系统以及操作通信装置200、存储器208和用户接口212。处理器204还可被配置成执行以下更详细讨论的本公开的技术的至少一部分。
用户116可初始地提供语音输入。可在移动计算装置108的默认或本原状态期间提供该语音输入。相反,可不经由移动计算装置108的特定翻译应用来提供语音输入。在一些实现方式中,可响应于用户输入(例如,触摸输入),诸如通过选择麦克风图标来启动监听模式。随后,在监听模式期间,用麦克风220来捕获语音输入。还可使用监听模式来检测语音输入的语言;然而,源语言也可以是用户116预先选择的。在一个实现方式中,语音输入只包括以源语言的单个词。在另一实现方式中,语音输入包括多个词(例如,句子或短语),并且用户116随后可提供输入(例如,触摸输入),以从多个词中选择单个词。因此,用户116能够在语音输入之后不进行任何进一步交互的情况下或者替选地在语音输入之后只经由单个输入来获得词典数据。
响应于接收到语音输入并且更具体地响应于获得以源语言的单个词,移动计算装置108可执行多个动作。可在没有任何进一步用户交互的情况下执行这多个动作。换句话讲,除了(可选地)启动监听模式和提供语音输入之外,可以不需要用户116提供任何进一步的输入来获得用于翻译词的词典数据。这多个动作中的第一个可以是识别源语言(例如,英语)和目标语言(例如,西班牙语)。如之前提到的,可检测源语言,并且可由用户116预先选择或者基于他们的偏好(例如,从多个相关语言中)选择目标语言。在下面的示例中,用户116是讲英语的用户,他期望的是用于将英语词“bear”翻译成西班牙语的词典数据。
如图3的示例用户界面300中所示,源语言和目标语言可经由靠近麦克风图标308的语言指示符304a(英语)、304b(西班牙语)来显示。这多个动作中的另一个可包括获得将单个词从源语言翻译成目标语言的一个或多个潜在翻译。这一个或多个潜在翻译也可指代以源语言的单个词在目标语言中的不同含义。该翻译任务可在本地、在服务器104处或按其组合发生。在一个实现方式中,以源语言的单个源词312可在用户界面300的第一/上部区域316a中显示,而翻译词320和词典数据可在用户界面300的第二/下部区域中316b中显示。通过将语音输入和特定于翻译的词典数据界面共混在一起,为用户116提供改进的快速有效地断定翻译词含义的界面。
这多个动作还可包括获得并显示特定翻译词的词典数据。例如,可选择最有可能的翻译词并且针对最有可能的翻译词获得词典数据。如图3中所示,英语单个源词“bear”的最有可能的西班牙语翻译320是“soportar”。词典数据可包括词性指示符324(动词)、具有与特定翻译词相近语义含义的源词(bear、endure、hold up)的相关源语言词指示符328、示例句子指示符332(I bear the pain)和翻译示例句子指示符336(Yo soporto el dolor)。还可针对以源语言的单个词的其他潜在翻译(resistir、aguantar),获得并显示词典数据。在一些实现方式中,可选择图标340,以获得诸如与特定翻译词相关的分立网站列表(未示出)的其他信息。
在另一个实现方式中,在用户界面300的第二/下部区域316b中,可能连同词典数据一起显示过多的潜在翻译。在这些情况下,可在没有对应词典数据的情况下显示潜在翻译的子集。例如,只可显示最有可能的翻译。然后,用户116可选择图标340来显示用于所显示的潜在翻译的词典数据。如果用户116期望的是与没有显示的另一个潜在翻译对应的词典数据,则用户116可选择另一个图标来显示并且选择其他潜在翻译中的一个来获得其对应的词典数据。仅仅举例来说,这个其他图标(未示出)可以是最有可能翻译320(soportar)下面的向下箭头,并且可指示其他潜在翻译的量(例如,“还有12个”)。例如,选择该图标可显示如图3中所示的可能翻译和词典数据的列表。
现在,参照图4,图示了用于提供以源语言的单个词的翻译的词典数据的示例技术300。在304中,诸如,响应于诸如触摸输入的用户输入(例如,选择麦克风图标308),移动计算装置108可以可选地确定是否启动了监听模式。如果是,则技术400可前进至408。否则,技术400可结束或返回到404。在408中,移动计算装置108可在监听模式期间,使用麦克风220来捕获来自用户116的语音输入。在412中,移动计算装置108可确定是否已经识别了以源语言的单个词。例如,语音输入可只包括单个源词,然后可终止监听模式。替选地,例如,语音输入可包括以源语言的多个词,并且在监听模式终止之后,用户116可提供输入(例如,触摸输入)来选择多个词中的一个以获得以源语言的单个词。响应于识别到单个词,技术400可前进至416。否则,技术400可结束或返回到412。
在416至428中,移动计算装置108可在不进行任何进一步用户交互的情况下执行多个动作。在416中,移动计算装置108可识别单个词的源语言以及与用户116关联的目标语言。用户116可预先选择或(例如,通过基于用户偏好的语音输入)检测这些语言中的一个或两个。在420中,移动计算装置108可获得一个或多个翻译词,其中每个翻译词均是该单个词至目标语言的潜在翻译。该翻译可在本地、远程地在服务器104处或按其某个组合发生。在424中,移动计算装置108可获得用于一个或多个翻译词的词典数据。该词典数据获得也可在本地、远程地在服务器104处或按其某个组合发生。例如,获得词典数据可以是比单个源词的翻译更复杂的任务,因此这可能是至少部分在服务器104处执行的更合适的任务。在428中,移动计算装置108可显示(例如,在显示器216处)词典数据。然后,技术400可结束或返回到404以便进行一个或多个附加循环。
提供这些示例实施例,使得本公开将彻底地并且将把该范围充分传达给本领域的技术人员。阐述了诸如特定组件、装置和方法示例的众多具体细节,以提供对本公开的实施例的彻底理解。对于本领域的技术人员将显而易见的是,不需要采用具体细节,示例实施例可按许多不同形式来实施,并且都不应该被解释为限制本公开的范围。在一些示例实施例中,没有详细描述公知的过程、公知的装置结构和公知的技术。
本文中使用的术语只是出于描述特定示例实施例的目的,不旨在进行限制。如本文中使用的,单数形式“一”、“一个”和“该”也可旨在包括复数形式,除非上下文另外清楚指示。术语“和/或”包括一个或多个关联的所列项的任何和全部组合。术语“包括”、其变型和“具有”是包括性的,因此指明存在所述特征、整体、步骤、操作、元件和/或组件,而并不排除存在或附加一个或更多个其他特征、整体、步骤、操作、元件、组件和/或其组。本文中描述的方法步骤、过程和操作不被解释为必须要求它们按所讨论或例示的特定次序执行,除非被特定标识执行顺序。还要理解,可采用另外地或替选的步骤。
尽管在本文中可使用术语“第一”、“第二”、“第三”等来描述各种元件、组件、区域、层和/或部分,但是这些元件、部件、区域、层和/或部分不应该受这些术语的限制。这些术语可仅用于将一个元件、组件,区域、层或部分与另一个区域、层或部分区分开。诸如“第一”、“第二”和其他数字术语的术语当在本文中使用时,没有暗示顺序或次序,除非上下文明确指示。因此,下面讨论的第一元件、组件、区域、层或部分可在不脱离示例实施例的教导的情况下被称为第二元件、组件、区域、层或部分。
如本文中使用的,术语“模块”可指的是以下中的部分或包括:专用集成电路(ASIC);电子电路;组合的逻辑电路;现场可编程门阵列(FPGA);处理器或处理器的分布式网络(共享、专用或分组的)以及执行代码或进程的联网集群或数据中心中的存储;提供所描述功能的其他合适组件;或者诸如芯片上系统中的以上一些或全部的组合。术语“模块”还可包括存储由一个或多个处理器执行的代码的存储器(共享、专用或分组的)。
如上所使用的术语“代码”可包括软件、固件、字节-代码和/或微代码,并且可指的是程序、例程、函数、类和/或对象。如上所使用的术语“共享”意指来自多个模块的一些或全部代码可使用单个(共享)处理器来执行。另外,来自多个模块的一些或全部代码可由单个(共享)存储器进行存储。如上所使用的术语“分组”意指来自单个模块的一些或全部代码可使用处理器的组来执行。另外,来自单个模块的一些或全部代码可使用存储器的组进行存储。
本文中描述的技术可由一个或多个处理器所执行的一个或多个计算机程序来实现。计算机程序包括存储在非暂时性有形计算机可读介质上的处理器可执行指令。计算机程序也可包括所存储的数据。非暂时性有形计算机可读介质的非限制示例是非易失性存储器、磁存储器和光学存储器。
以上描述中的一些部分依据对信息进行的操作的算法和符号表示来展示本文中描述的技术。这些算法描述和表示是数据处理领域的技术人员最有效地将其工作实质传达给本领域技术人员的手段。这些操作虽然是在功能上或逻辑上描述的,但是被理解为由计算机程序实现。此外,有时还证明方便的是,将这些操作的布置称为模块或用功能名称来表示,而不失一般性。
除非特别说明,否则从以上讨论显而易见地,要理解,在通篇说明书中,利用诸如“处理”或“运算”或“计算”或“确定”或“显示”等术语是指计算机系统或类似的电子计算装置的动作和进程,这些动作和进程操纵被表示为计算机系统的存储器或寄存器或其他这种信息存储、传输或显示装置内的物理(电子)量的数据。
所描述的技术的某些方面包括以算法形式在本文中描述的处理步骤和指令。应该注意,所描述的过程步骤和指令可用软件、固件或硬件来实施,并且当用软件来实施时可被下载以驻留在实时网络操作系统所使用的不同平台上并且可以用不同平台进行操作。
本公开还涉及用于执行本文中操作的设备。该设备可以是为所需目的而特别构造的,或者它可包括由存储在可供计算机访问的计算机可读介质上的计算机程序选择性地激活或重新配置的通用计算机。此计算机程序可被存储在有形计算机可读存储介质中,该计算机可读存储介质诸如但不限于包括软盘、光盘、CD-ROM和磁光盘的任何类型的盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROMs、磁或光卡、专用集成电路(ASIC)或适于存储电子指令的任何类型的介质并且各自与计算机系统总线联接。此外,本说明书中引用的计算机可包括单个处理器或者可以是针对增加的计算能力采用多种处理器设计的架构。
本文中提出的算法和操作没有固有地与任何特定计算机或其他设备相关。各种通用系统还可根据本文中的教导与程序一起使用,或者可证实方便地构造更专业的设备来执行所需的方法步骤。对于本领域的技术人员而言,各种这些系统所需的结构连同等同变形形式将是清楚的。另外,本公开不参考任何特定的编程语言来描述。要理解,可使用各种编程语言来实现本文中描述的本公开的教导,并且为了公开本发明的实现和最佳模式,提供对特定语言的任何引用。
本公开通过众多拓扑结构很好地适于各种各样的计算机网络系统。在该领域内,大型网络的配置和管理包括存储装置和计算机,这些存储装置和计算机通过诸如互联网的网络与不相似的计算机和存储装置通信联接。
已经出于图示和描述的目的提供了以上对实施例的描述。其目的不是穷尽的或限制本公开。特定实施例的个体元件或特征通常不限于该特定实施例,而是在适用时是可互换的并且可在选定实施例中使用,即使没有被具体示出或描述。其还可按许多方式而变化。这些变形形式将不被视为脱离了本公开,并且所有这些修改形式旨在被包括在本公开的范围内。
Claims (19)
1.一种计算机实现的方法,包括:
由与计算装置相关联的麦克风来捕获来自用户的语音输入;以及
响应于捕获所述语音输入并且在没有来自所述用户的任何附加输入的情况下,执行多个动作,所述多个动作包括:
由所述计算装置获得所述语音输入的潜在转录,每个潜在转录是以源语言的词;
由所述计算装置获得每个词的从所述源语言至不同的目标语言的潜在翻译;
由所述计算装置获得用于每个潜在翻译的词典数据,每个词典数据是与相关联的潜在翻译的至少一个语义含义相关的信息。
2.根据权利要求1所述的计算机实现的方法,其中,所述多个动作进一步包括:由所述计算装置通过确定最可能潜在转录来获得以所述源语言的最可能词。
3.根据权利要求2所述的计算机实现的方法,其中,所述多个动作进一步包括:通过所述计算装置来显示以所述目标语言的最可能词。
4.根据权利要求3所述的计算机实现的方法,其中,所述多个动作进一步包括:由所述计算装置通过确定最可能潜在翻译来获得以所述目标语言的最可能词。
5.根据权利要求4所述的计算机实现的方法,其中,所述多个动作进一步包括:通过所述计算装置来显示以所述目标语言的最可能词。
6.根据权利要求5所述的计算机实现的方法,进一步包括:通过所述计算装置来显示第一可选择图标,所述第一可选择图标被配置为控制通过所述计算装置对所述词典数据的显示。
7.根据权利要求6所述的计算机实现的方法,进一步包括:
通过所述计算装置从所述用户接收对所述第一可选择图标的选择;以及
响应于接收到所述选择,通过所述计算装置来显示所述词典数据的至少一部分。
8.根据权利要求7所述的计算机实现的方法,进一步包括:通过所述计算装置来显示第二可选择图标,所述第二可选择图标被配置为从以所述目标语言的最可能词切换到以所述目标语言的另一个词,所述另一个词是另一潜在翻译。
9.根据权利要求8所述的计算机实现的方法,进一步包括:
通过所述计算装置从所述用户接收对所述第二可选择图标的选择;
响应于接收所述选择,通过所述计算装置来修改对所述词典数据的所述至少一部分的显示。
10.根据权利要求1所述的计算机实现的方法,进一步包括:通过所述计算装置在所述捕获期间以默认或本原状态进行操作。
11.一种计算装置,包括:
触摸敏感显示器;
存储指令集合的存储器;以及
一个或多个处理器,被配置成执行所述指令集合,所述指令集合使得所述计算装置执行操作,所述操作包括:
通过与所述计算装置相关联的麦克风来捕获来自用户的语音输入;
从所述语音输入获得多个词,每个词是以源语言;
通过所述触摸敏感显示器显示所述多个词;
通过所述触摸敏感显示器从所述用户接收第一触摸输入,所述第一触摸输入指示对所述多个词中的特定词的选择;以及
响应于接收到所述第一触摸输入并且在没有来自所述用户的任何附加输入的情况下,执行多个动作,所述多个动作包括:
获得所述特定词的从所述源语言至不同的目标语言的潜在翻译;以及
获得用于每个潜在翻译的词典数据,每个词典数据是与相关联的潜在翻译的至少一个语义含义相关的信息。
12.根据权利要求11所述的计算装置,其中,所述多个动作进一步包括:通过所述触摸敏感显示器来显示以所述目标语言的最可能词。
13.根据权利要求12所述的计算装置,其中,所述操作进一步包括通过所述触摸敏感显示器来显示第一可选择图标,所述第一可选择图标被配置为控制通过所述触摸敏感显示器对所述词典数据的显示。
14.根据权利要求13所述的计算装置,其中,所述操作进一步包括:通过所述触摸敏感显示器从所述用户接收第二触摸输入,所述第二触摸输入指示对所述第一可选择图标的选择;以及响应于接收到所述选择,通过所述触摸敏感显示器来显示所述词典数据的至少一部分。
15.根据权利要求14所述的计算装置,其中,所述操作还包括:通过所述触摸敏感显示器来显示第二可选择图标,所述第二可选择图标被配置为从以所述目标语言的最可能词切换到以所述目标语言的另一个词,所述另一个词是另一潜在翻译。
16.根据权利要求15所述的计算装置,其中,所述操作进一步包括:
通过所述触摸敏感显示器从所述用户接收第三触摸输入,所述第三触摸输入指示对所述第二可选择图标的选择;
响应于接收所述选择,通过所述触摸敏感显示器来修改对所述词典数据的所述至少一部分的显示。
17.根据权利要求11所述的计算装置,其中,所述操作进一步包括:获得所述语音输入的多个潜在转录,每个潜在转录包括一组词;以及通过选择所述一组词中的最可能词来获得所述多个词。
18.根据权利要求11所述的计算装置,其中,所述操作进一步包括在所述捕获期间以默认或本原状态进行操作。
19.一种其上存储有指令集合的非暂时性计算机可读介质,所述指令集合在由计算装置的一个或多个处理器执行时使得所述计算装置执行根据权利要求1至10中的任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/926,175 | 2015-10-29 | ||
US14/926,175 US9678954B1 (en) | 2015-10-29 | 2015-10-29 | Techniques for providing lexicon data for translation of a single word speech input |
PCT/US2016/058366 WO2017074834A1 (en) | 2015-10-29 | 2016-10-24 | Methods and computing devices relating to translation of a single word speech input |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107710191A CN107710191A (zh) | 2018-02-16 |
CN107710191B true CN107710191B (zh) | 2022-01-21 |
Family
ID=57286813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680038849.5A Active CN107710191B (zh) | 2015-10-29 | 2016-10-24 | 与单个词语音输入的翻译相关的方法和计算装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9678954B1 (zh) |
EP (1) | EP3308293A1 (zh) |
CN (1) | CN107710191B (zh) |
WO (1) | WO2017074834A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6872505B2 (ja) * | 2018-03-02 | 2021-05-19 | 日本電信電話株式会社 | ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラム |
US10930278B2 (en) * | 2018-04-09 | 2021-02-23 | Google Llc | Trigger sound detection in ambient audio to provide related functionality on a user interface |
US11798560B1 (en) | 2018-12-21 | 2023-10-24 | Cerner Innovation, Inc. | Rapid event and trauma documentation using voice capture |
US11062704B1 (en) | 2018-12-21 | 2021-07-13 | Cerner Innovation, Inc. | Processing multi-party conversations |
US11869509B1 (en) | 2018-12-21 | 2024-01-09 | Cerner Innovation, Inc. | Document generation from conversational sources |
US11875883B1 (en) | 2018-12-21 | 2024-01-16 | Cerner Innovation, Inc. | De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources |
US11410650B1 (en) | 2018-12-26 | 2022-08-09 | Cerner Innovation, Inc. | Semantically augmented clinical speech processing |
US11232271B1 (en) * | 2019-04-11 | 2022-01-25 | Meta Platforms, Inc. | Systems and methods for message-based interaction |
NL1043894B1 (en) * | 2021-01-05 | 2022-07-22 | Van Der Jagt Consultants B V | Method for automated verification of a user suggested translation in an online translation tool |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8332206B1 (en) * | 2011-08-31 | 2012-12-11 | Google Inc. | Dictionary and translation lookup |
CN103678460A (zh) * | 2012-09-13 | 2014-03-26 | 国际商业机器公司 | 用于识别适于在多语言环境中进行通信的非文本元素的方法和系统 |
Family Cites Families (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4914704A (en) | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
US5073054A (en) * | 1990-08-23 | 1991-12-17 | Mcdowell W Stuart | Electronic dictionary with vertical keyboard |
JP3176059B2 (ja) * | 1990-11-15 | 2001-06-11 | キヤノン株式会社 | 翻訳装置 |
US5295070A (en) * | 1991-05-31 | 1994-03-15 | Franklin Electronic Publishers Incorporated | Electronic dual language dictionary |
US5689616A (en) * | 1993-11-19 | 1997-11-18 | Itt Corporation | Automatic language identification/verification system |
JP3741156B2 (ja) * | 1995-04-07 | 2006-02-01 | ソニー株式会社 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
JPH0916602A (ja) | 1995-06-27 | 1997-01-17 | Sony Corp | 翻訳装置および翻訳方法 |
ATE211277T1 (de) * | 1997-05-28 | 2002-01-15 | Shinar Linguistic Technologies | Übersetzungssystem |
IL121457A (en) * | 1997-08-03 | 2004-06-01 | Guru Internat Inc | Computerized dictionary and thesaurus applications |
US6188986B1 (en) * | 1998-01-02 | 2001-02-13 | Vos Systems, Inc. | Voice activated switch method and apparatus |
US6085160A (en) * | 1998-07-10 | 2000-07-04 | Lernout & Hauspie Speech Products N.V. | Language independent speech recognition |
US6385586B1 (en) * | 1999-01-28 | 2002-05-07 | International Business Machines Corporation | Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices |
US6615178B1 (en) * | 1999-02-19 | 2003-09-02 | Sony Corporation | Speech translator, speech translating method, and recorded medium on which speech translation control program is recorded |
US6397186B1 (en) * | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
GB2366009B (en) * | 2000-03-22 | 2004-07-21 | Canon Kk | Natural language machine interface |
US20010029455A1 (en) * | 2000-03-31 | 2001-10-11 | Chin Jeffrey J. | Method and apparatus for providing multilingual translation over a network |
US7107204B1 (en) * | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
KR100387918B1 (ko) * | 2000-07-11 | 2003-06-18 | 이수성 | 통역기 |
US6788767B2 (en) * | 2000-12-28 | 2004-09-07 | Gateway, Inc. | Apparatus and method for providing call return service |
US20020169592A1 (en) * | 2001-05-11 | 2002-11-14 | Aityan Sergey Khachatur | Open environment for real-time multilingual communication |
US20030009342A1 (en) * | 2001-07-06 | 2003-01-09 | Haley Mark R. | Software that converts text-to-speech in any language and shows related multimedia |
US7369997B2 (en) * | 2001-08-01 | 2008-05-06 | Microsoft Corporation | Controlling speech recognition functionality in a computing device |
AUPR956901A0 (en) * | 2001-12-17 | 2002-01-24 | Jayaratne, Neville | Real time translator |
US20030236658A1 (en) * | 2002-06-24 | 2003-12-25 | Lloyd Yam | System, method and computer program product for translating information |
US7260529B1 (en) * | 2002-06-25 | 2007-08-21 | Lengen Nicholas D | Command insertion system and method for voice recognition applications |
EP1576586A4 (en) * | 2002-11-22 | 2006-02-15 | Transclick Inc | LANGUAGE TRANSLATION SYSTEM AND METHOD |
US20100070265A1 (en) * | 2003-05-28 | 2010-03-18 | Nelson David D | Apparatus, system, and method for multilingual regulation management |
US7475390B2 (en) * | 2004-01-12 | 2009-01-06 | International Business Machines Corporation | System and method for automatic natural language translation during information transfer |
US8825157B2 (en) * | 2003-07-28 | 2014-09-02 | Cameron Health, Inc. | Vector switching in an implantable cardiac stimulus system |
US20050035855A1 (en) * | 2003-08-11 | 2005-02-17 | Visteon Global Technologies, Inc. | Voice command system for remote control and monitoring of home networked devices |
US7369998B2 (en) * | 2003-08-14 | 2008-05-06 | Voxtec International, Inc. | Context based language translation devices and methods |
US7539619B1 (en) | 2003-09-05 | 2009-05-26 | Spoken Translation Ind. | Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy |
US7283950B2 (en) * | 2003-10-06 | 2007-10-16 | Microsoft Corporation | System and method for translating from a source language to at least one target language utilizing a community of contributors |
GB2428853A (en) | 2005-07-22 | 2007-02-07 | Novauris Technologies Ltd | Speech recognition application specific dictionary |
US20080221862A1 (en) * | 2007-03-09 | 2008-09-11 | Yahoo! Inc. | Mobile language interpreter with localization |
US20090248392A1 (en) * | 2008-03-25 | 2009-10-01 | International Business Machines Corporation | Facilitating language learning during instant messaging sessions through simultaneous presentation of an original instant message and a translated version |
US20090313007A1 (en) * | 2008-06-13 | 2009-12-17 | Ajay Bajaj | Systems and methods for automated voice translation |
US8150677B2 (en) * | 2008-06-26 | 2012-04-03 | Microsoft Corporation | Machine translation using language order templates |
US20100121630A1 (en) * | 2008-11-07 | 2010-05-13 | Lingupedia Investments S. A R. L. | Language processing systems and methods |
US20100128994A1 (en) * | 2008-11-24 | 2010-05-27 | Jan Scott Zwolinski | Personal dictionary and translator device |
TWI403911B (zh) * | 2008-11-28 | 2013-08-01 | Inst Information Industry | 中文辭典建置裝置和方法,以及儲存媒體 |
US20100138221A1 (en) * | 2008-12-02 | 2010-06-03 | Boys Donald R | Dedicated hardware/software voice-to-text system |
US8862478B2 (en) * | 2009-10-02 | 2014-10-14 | National Institute Of Information And Communications Technology | Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server |
US10496714B2 (en) * | 2010-08-06 | 2019-12-03 | Google Llc | State-dependent query response |
US8996386B2 (en) * | 2011-01-19 | 2015-03-31 | Denso International America, Inc. | Method and system for creating a voice recognition database for a mobile device using image processing and optical character recognition |
US9015030B2 (en) * | 2011-04-15 | 2015-04-21 | International Business Machines Corporation | Translating prompt and user input |
US8812295B1 (en) | 2011-07-26 | 2014-08-19 | Google Inc. | Techniques for performing language detection and translation for multi-language content feeds |
US8914277B1 (en) * | 2011-09-20 | 2014-12-16 | Nuance Communications, Inc. | Speech and language translation of an utterance |
US9152376B2 (en) * | 2011-12-01 | 2015-10-06 | At&T Intellectual Property I, L.P. | System and method for continuous multimodal speech and gesture interaction |
US20130173246A1 (en) * | 2012-01-04 | 2013-07-04 | Sheree Leung | Voice Activated Translation Device |
US8903708B2 (en) * | 2012-02-10 | 2014-12-02 | Microsoft Corporation | Analyzing restaurant menus in view of consumer preferences |
US8606577B1 (en) * | 2012-06-25 | 2013-12-10 | Google Inc. | Visual confirmation of voice recognized text input |
US8918308B2 (en) * | 2012-07-06 | 2014-12-23 | International Business Machines Corporation | Providing multi-lingual searching of mono-lingual content |
US9411801B2 (en) * | 2012-12-21 | 2016-08-09 | Abbyy Development Llc | General dictionary for all languages |
US20140278393A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US9436287B2 (en) * | 2013-03-15 | 2016-09-06 | Qualcomm Incorporated | Systems and methods for switching processing modes using gestures |
US9183198B2 (en) * | 2013-03-19 | 2015-11-10 | International Business Machines Corporation | Customizable and low-latency interactive computer-aided translation |
US20140365200A1 (en) * | 2013-06-05 | 2014-12-11 | Lexifone Communication Systems (2010) Ltd. | System and method for automatic speech translation |
JP2015060095A (ja) * | 2013-09-19 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
JP2017504876A (ja) | 2013-12-09 | 2017-02-09 | グーグル インコーポレイテッド | テキストのコンテキストベースの定義および翻訳を提供するためのシステムおよび方法 |
KR101864361B1 (ko) * | 2014-04-08 | 2018-06-04 | 네이버 주식회사 | 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템 |
-
2015
- 2015-10-29 US US14/926,175 patent/US9678954B1/en active Active
-
2016
- 2016-10-24 WO PCT/US2016/058366 patent/WO2017074834A1/en active Application Filing
- 2016-10-24 CN CN201680038849.5A patent/CN107710191B/zh active Active
- 2016-10-24 EP EP16794805.8A patent/EP3308293A1/en not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8332206B1 (en) * | 2011-08-31 | 2012-12-11 | Google Inc. | Dictionary and translation lookup |
CN103678460A (zh) * | 2012-09-13 | 2014-03-26 | 国际商业机器公司 | 用于识别适于在多语言环境中进行通信的非文本元素的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
EP3308293A1 (en) | 2018-04-18 |
WO2017074834A1 (en) | 2017-05-04 |
CN107710191A (zh) | 2018-02-16 |
US9678954B1 (en) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107710191B (zh) | 与单个词语音输入的翻译相关的方法和计算装置 | |
CN107924483B (zh) | 通用假设排序模型的生成与应用 | |
CN107632980B (zh) | 语音翻译方法和装置、用于语音翻译的装置 | |
US9043300B2 (en) | Input method editor integration | |
US8543375B2 (en) | Multi-mode input method editor | |
KR102447607B1 (ko) | 터치스크린 상에 표시되는 조치 가능한 콘텐츠 | |
US10558701B2 (en) | Method and system to recommend images in a social application | |
CN107357849B (zh) | 基于测试类应用的交互方法和装置 | |
US20150161110A1 (en) | Techniques for a gender weighted pinyin input method editor | |
WO2015169134A1 (en) | Method and apparatus for phonetically annotating text | |
JP6726354B2 (ja) | 訂正済みタームを使用する音響モデルトレーニング | |
US20140019462A1 (en) | Contextual query adjustments using natural action input | |
US10325018B2 (en) | Techniques for scheduling language models and character recognition models for handwriting inputs | |
US20170046330A1 (en) | Context specific language model for input method editor | |
JP6709997B2 (ja) | 翻訳装置、翻訳システム、および評価サーバ | |
US20160239470A1 (en) | Context sensitive input tools | |
RU2733816C1 (ru) | Способ обработки речевой информации, устройство и запоминающий носитель информации | |
US10635730B2 (en) | Modification of search subject in predictive search sentences | |
US11709653B1 (en) | Contextual assistant using mouse pointing or touch cues | |
JP2008083952A (ja) | 辞書作成支援システム、方法及びプログラム | |
US20220188525A1 (en) | Dynamic, real-time collaboration enhancement | |
US9953631B1 (en) | Automatic speech recognition techniques for multiple languages | |
CN116127062A (zh) | 预训练语言模型的训练方法、文本情感分类方法及装置 | |
EP3149926B1 (en) | System and method for handling a spoken user request | |
WO2016155643A1 (zh) | 一种基于输入的显示候选词的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |