CN104850542B - 非可听语音输入校正 - Google Patents
非可听语音输入校正 Download PDFInfo
- Publication number
- CN104850542B CN104850542B CN201410851581.XA CN201410851581A CN104850542B CN 104850542 B CN104850542 B CN 104850542B CN 201410851581 A CN201410851581 A CN 201410851581A CN 104850542 B CN104850542 B CN 104850542B
- Authority
- CN
- China
- Prior art keywords
- input
- voice
- audible
- capture
- voice input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title description 7
- 238000003860 storage Methods 0.000 claims abstract description 27
- 230000010365 information processing Effects 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000013519 translation Methods 0.000 claims abstract description 21
- 230000015654 memory Effects 0.000 claims description 20
- 230000005670 electromagnetic radiation Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims 2
- 238000003672 processing method Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000005674 electromagnetic induction Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000010358 mechanical oscillation Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及非可听语音输入校正。根据本发明的方法包括:在信息处理设备的音频接收器处接收用户的语音输入;使用处理器翻译所述语音输入;使用处理器识别在翻译所述语音输入中的至少一个歧义项;随后访问存储的在时间上与所述至少一个歧义项相关联的非可听输入;以及使用所述非可听输入来调整所述语音输入的翻译。描述和要求保护了其它方面。
Description
技术领域
本发明涉及信息处理技术领域,具体地涉及非可听语音输入校正。
背景技术
信息处理设备(“设备”),例如笔记本电脑、平板电脑、智能手机、电子阅读器、台式电脑、智能电视等,可以用来与语音输入接口连接,其将语音输入转换成机器文本。如果提供了语音输入接口,则因此很多不同设备应用程序(例如所有允许文本输入的那些)可以使用语音输入。常见的示例包括消息应用程序(例如即时消息应用程序、SMS文本消息应用程序、电子邮件应用程序)、字处理应用程序、互联网搜索应用程序、导航应用程序(车载式或者以手持式或其它移动格式提供)等。设备将运行语音输入接口(语音到文本或者语音识别引擎)作为全球性服务,其提供可以跨应用程序使用的输入接口,例如类似于键盘或者触摸屏输入接口。某些应用程序(或者其集合)可以独立地或者作为应用子组件或特征提供语音输入功能。
语音输入接口可能曲解语音输入,亦即,对于对应的语音输入(例如命令、消息内容等)输入错误的文本。用户可以手动地更改或者校正曲解的文本,例如,将其删除并且重新输入。这要求选择无效的文本并且重新说话或者键入正确的文本。用户也可以选择低置信度文本,例如,语音输入接口指示可能被曲解的词或短语,并且从下拉列表中选择替换项。
发明内容
总之,一方面提供了一种方法,包括:在信息处理设备的音频接收器处接收用户的语音输入;使用处理器翻译所述语音输入;使用处理器识别翻译所述语音输入中的至少一个歧义项;随后访问存储的在时间上与所述至少一个歧义项相关联的非可听输入;以及使用所述非可听输入来调整所述语音输入的翻译。
另一方面提供了一种信息处理设备,包括:音频接收器;传感器,其捕获输入;处理器;以及存储器,其存储指令,所述指令由所述处理器执行以:在所述音频接收器处接收用户的语音输入;翻译所述语音输入;识别翻译所述语音输入中的至少一个歧义项;随后访问存储的在时间上与所述至少一个歧义项相关联的非可听输入;以及使用来源于所述传感器的所述非可听输入调整所述语音输入的翻译。
另一方面提供了一种产品,包括:设备可读存储装置,其具有随其存储的设备可读代码,所述设备可读代码由处理器执行,并且包括:接收用户语音输入的代码;翻译所述语音输入的代码;识别翻译所述语音输入中的至少一个歧义项的代码;随后访问存储的在时间上与所述至少一个歧义项相关联的非可听输入的代码;以及使用所述非可听输入调整所述语音输入的翻译的代码。
前面是总结并且因此可能包含简化、概括以及细节的遗漏;因此,本领域技术人员将理解,总结仅是示例性的,并且不意在以任何方式进行限制。
为了更好地理解实施例、连同其它和进一步的特征及其优势,结合附图对以下的说明作出参考。本发明的范围将在所附权利要求中指出。
附图说明
图1图示了信息处理设备电路的示例。
图2图示了信息处理设备的另一个示例。
图3图示了使用非可听语音输入校正的示例方法。
具体实施方式
将容易理解的是,除了所描述的示例实施例以外,可以以多种不同的配置来放置和设计如在本文图中一般性地描述和说明的实施例中的部件。因此,如在图中所表示的以下示例实施例的更详细描述不意图限制如所要求保护的实施例的范围,而仅仅是示例实施例的代表。
贯穿这个说明书中提到“一个实施例”或“实施例”(等等)意思为结合实施例所描述的具体特征、结构或特性被包含在至少一个实施例中。因此,贯穿这个说明书中各处出现的短语“在一个实施例中”或“在实施例中”等等未必都指代同一个实施例。
此外,可以在一个或者多个实施例中以任何适当的方式对所描述的特征、结构或特性进行组合。在下面的描述中,提供了许多具体的细节以提供对实施例的彻底理解。然而,相关领域的技术人员将认识到,可以在没有一个或多个具体的细节的情况下,或者使用其它方法、部件、材料等来实践各种实施例。在其它的实例中,未详细示出或描述公知的结构、材料或操作以避免模糊。
语音输入接口正变得越来越流行。虽然语音到文本转换的精度已经改进并且将继续改进,但是在语音输入到机器文本的正确转换中仍会发生不可避免的错误。例如,现有的语音检测使用音频以确定说的是什么。因为很多发音是相似的,所以这导致错误的语音检测。例如,辅音(例如“B”、“C”、“D”、“E”、“G”、“P”、“T”、“V”、“Z”等)发音相同或相近,并且基于音频的语音检测无法总是正确地翻译说的是什么。
虽然存在传统的方法用于校正错误的输入转换,例如,手动校正它或者从下拉菜单中选择“最好的猜测”,但是每个都要求颇有侵入性的修复,其通过用户中断他的或者她的语音输入并且手动地干预系统来实现。因此,即使当提供下拉菜单时,这仍然要求用户手动地修复每个曲解项。此外,依靠下拉菜单预先假定的是,语音输入接口已正确地识别可能已发生错误的输入的(一个或多个)词。亦即,文本输入的一些单词可能是错误的,并且尽管如此,但是不能被系统识别为低置信度,或反之亦然。这减少了以直观的或者用户友好的方式快速修复每个曲解项的机会。
此外,在采用语境数据以协助翻译语音输入的系统中,这预先假定适当的语境数据可用并且可以被使用。例如,很多现有的解决方案使用语境,通过验证词在给定的短语/句子中初始的翻译是合理的以确定正确的语音。这种方法的缺点包括但不限于:由存在的大量可能性给出的不完善的校正;在一个句子可以具有多个可以接受的语境的情况下的不精确性;对庞大的语境数据库和处理能力的要求以为每个短语快速地检查数据库;除了存储在本地的语境数据库的子集之外,对云连接(或类似的连接)的要求等等。
因此,实施例提供了用于校正语音(贯穿全文被称作“语音输入”)到机器文本的错误转换的机制。通过示例的方式,实施例提供了一种方法,其中语音输入在音频接收器处接收,该音频接收器例如是信息处理设备(例如平板电脑设备、智能手机、笔记本电脑设备、导航设备等)的麦克风。然后可以使用语音识别引擎来翻译语音输入,以关于该语音输入包括什么词/短语/命令做出初步确定。作为识别/翻译处理的部分,实施例可以识别翻译语音输入中的歧义项,例如,具有关于正确翻译的低置信水平的词或者短语。
因此,实施例可以随后访问存储的在时间上与歧义项相关联的非可听输入,而不是例如征求反馈或者利用惯例语境解决机制(例如,简单检查周围的词等)。例如,实施例可以操作非可听传感器例如摄像机,其在提供语音输入时捕获用户的图像并且存储这个非可听输入以便在重新翻译歧义项中使用。以这种方式,例如,使用来源于以嘴唇的动作、用户的动作(例如嘴巴、头、手势等)为例的非可听输入,实施例可以确定被识别为歧义项的语音输入的适当翻译。
参考附图将最好地理解所说明的示例实施例。以下描述仅意图通过示例的方式,并且简要说明了某些示例实施例。
虽然可以在信息处理设备中使用各种其它电路、电路系统或者部件,但是对智能手机和/或平板电脑的电路100而言,在图1中图示的示例包括在例如平板电脑或者其它移动计算机平台中找到的芯片或电路设计上的系统。在单个芯片或者电路110中结合软件和(一个或多个)处理器。如在本领域所公知的,处理器包括内部运算单元、寄存器、高速缓冲存储器、总线、I/O端口等。内部总线等等依赖于不同的供应商,但基本上所有的外围设备(120)可以附接到单个芯片或者电路110。电路100将处理器、存储控制器以及I/O控制器集线器全部合成到单个芯片110中。同时,这种类型的系统100通常不使用SATA或PCI或LPC。通用接口例如包括SDIO和I2C。
存在(一个或多个)电力管理芯片或(一个或多个)电路130如电池管理单元BMU,该电池管理单元BMU管理例如经由可充电电池140供应的电力,该可充电电池140可以通过到电源(未示出)的连接来进行再充电。在至少一个设计中,单个芯片或者电路如110用来提供BIOS类功能和DRAM存储器。
系统100通常包括一个或多个WWAN收发器150和WLAN收发器160用于连接到各种网络如电信网络和无线互联网设备如访问点。可以包括额外的设备120如音频接收器(例如用于接收语音输入到语音输入接口的麦克风)以及其它传感器如非可听传感器(例如摄像机)。麦克风包括诸如变换器或者传感器之类的部件,其基于电磁感应、电容变化、压电发电或者其它调制以从由语音或者声波产生的机械振动产生电信号(电压)而将语音转换成电信号。非可听传感器包括例如(一个或多个)元件,其捕获可以用来获得图像的数据,例如来源于可见光、不可见的电磁辐射(例如红外线和/或非可听声波等)的图像。通常,系统100会包括触摸屏170,用于数据输入和显示/绘制。系统100通常还包括各种存储设备,例如快闪存储器180和SDRAM 190。
图2描述了信息处理设备电路、电路系统或部件的另一示例的框图。在图2中所描述的示例可以对应于计算系统(例如由Morrisville,NC的联想(美国)公司所销售的个人电脑的THINKPAD系列)或者其它设备。如从本文的说明书中明显的是,实施例可以包括其它特征,或者可以仅包括图2中图示的示例的特征中的某些特征。
图2的示例包括所谓的芯片组210(芯片组,一起工作的一组集成电路或者芯片),其具有可能取决于制造商(例如INTEL、AMD、ARM等)而变化的架构。INTEL是英特尔公司在美国和其它国家的注册商标。AMD是Advanced Micro Devices,Inc.在美国和其它国家的注册商标。ARM是ARM Holdings plc在美国和其它国家的未注册商标。芯片组210的架构包括核和存储器控制组220以及I/O控制器集线器250,该I/O控制器集线器250通过直接管理接口(DMI)242或链路控制器244交换信息(例如数据、信号、命令等)。在图2中,DMI 242是芯片到芯片的接口(有时称为作为“北桥”和“南桥”之间的链接)。核和存储器控制组220包括一个或多个处理器222(例如单核或多核)和存储器控制器集线器226,该存储器控制器集线器226通过前端总线(FSB)224交换信息。注意,组220的组件可以集成在取代传统的“北桥”式架构的芯片中。正如本领域公知的,一个或多个处理器222包括内部运算单元、寄存器、高速缓冲存储器、总线、I/O端口等。
在图2中,存储器控制器集线器226与存储器240对接(例如为可以称为“系统存储器”或“存储器”的RAM类型提供支持)。存储器控制器集线器226还包括用于显示设备292(例如CRT、平板、触摸屏等)的LVDS接口232。块238包括可以通过LVDS接口232(例如串行数字视频、HDMI/DVI、显示器端口)得以支持的一些技术。存储器控制器集线器226还包括可以支持独立显卡236的PCI-express接口(PCI-E)234。
在图2中,I/O控制器集线器250包括SATA接口251(例如用于HDD、SDD等280)、PCI-E接口252(例如用于无线连接282)、USB接口253(例如用于设备284如数字转换器、键盘、鼠标、摄像机、手机、麦克风、存储器、其它连接设备等)、网络接口254(例如LAN)、GPIO接口255、LPC接口270(用于ASIC 271、TPM 272、超级I/O 273、固件集线器274、BIOS支持件275以及诸如ROM 277、闪存278和NVRAM 279之类的各种类型的存储器276)、电力管理接口261、时钟发生器接口262、音频接口263(例如用于扬声器294)、TCO接口264、系统管理总线接口265以及SPI闪存266,其可以包括BIOS 268和启动代码290。I/O控制器集线器250可以包括千兆位以太网支持。
系统在通电时可以被配置为执行存储在SPI闪存266内的用于BIOS 268的启动代码290,并且随后在一个或多个操作系统和应用软件(例如存储在系统存储器240中)的控制下处理数据。操作系统可以存储在多个地点中的任何一个并且例如根据BIOS 268的指令被访问。如本文所述的,设备可以包括比在图2的系统中示出的更少或更多的特征。
如例如在图1或者图2中所示出的信息处理设备电路可以用于提供语音输入接口的设备。例如,在图1中所示出的电路可以用于诸如智能手机、平板电脑、导航设备、汽车副仪表台等的设备,其接收语音输入并且将语音输入转换为用于通过底层应用程序(例如字处理应用程序、导航应用程序、互联网搜索应用程序、消息应用程序等)来处理的语音。同样地,图2中的电路可以用于诸如接收用于各种应用程序的语音命令或者输入的笔记本电脑或者台式电脑之类的设备。
通过如在图1和/或图2中所示出的设备的音频接收器来接收语音输入。例如,用户可以向智能手机或者平板电脑设备提供语音命令,其通过设备的麦克风来接收。所接收的音频被处理,例如被转换成数字信号,并且通过语音输入接口或其组件(例如语音识别引擎)来进行分析。存在不同的语音识别引擎。语音识别引擎分析由语音输入的音频信号表示的各种特性。
例如,可以从语法上分析语音的音频信号内的块或段以识别词边界。然后可以分析词本身,用于识别指示具体词的音素。通常基于置信度指标来识别词,例如,基于音频信号内的特性匹配到已知的一个或多个词的置信度。在实施例中,可以使用任何这样的语音识别引擎。在这个方面,可以通过语音识别引擎使用不同的数据源(本地存储和/或远程访问)用于比较和分析的目的。
在一些语音识别引擎中,一旦至少最初已经识别(一个或多个)词本身时,就可以进行更高的排序和/或另外的通过分析以提高精度。例如,可以对所识别的词的语法和句法及其顺序进行分析,考虑到他们出现的语境,以确定是否已正确地识别(一个或多个)词。此外,可以从语法上分析语音输入,以识别具有与其相关联的不同功能的各种组件部分,例如预定的命令对比于消息内容。
正如以上所述,这个过程的常见后果是,在语音输入的处理及其转换中没有正确识别词。例如,在从语音输入接口接收输入的消息应用程序中,用户可以说出下面的短语:“Text Bob”继之以“What time is the game”。虽然实际语音输入包括词“time”,但是语音输入接口可能曲解了这个词,并且选择发声相似的词(并且因此类似于语音识别引擎)。例如,这个文本可能被翻译为“What dime is the game”。
传统地,面对这样的翻译,用户可以手动地返回并且校正词“dime”,例如,经由触摸输入接口来触摸它/点击它并且键入正确的词“time”等。或者,在一些语音输入接口中,语音识别引擎可以指定“dime”作为低置信度匹配项,以使得用户只需触摸词“dime”并且从预先确定的匹配项中选择,其中之一可能包括“time”。
在这种情况下,语音识别已经为词指定了低置信度,例如,在以上示例中的“dime”,实施例可以使用非可听输入以重新翻译歧义的一个或多个词。
作为例子,用户提供语音输入“time”(其以低置信度被评为“dime”的输入),语境(例如句子结构等)可能确实有助于重新翻译该词。然而,存在很多语境数据要么不可用要么没有用的情况。例如,在考虑实际语音输入“look at this guy”对比于曲解项“look atthe sky”中,语境数据(例如短语的周边词)可能对确定正确的短语没有用。
因此,实施例使用非可听输入,例如通过摄像机捕获的视觉线索,以确定用户的嘴巴/嘴唇动作是否比另一个词或短语更好地与一个词或短语相匹配。在实施例中,标准摄像机(例如可见光摄像机)可以用来捕获与语音输入相关的非可听数据(例如检测用户的嘴巴/嘴唇动作)用于可视化数据,该可视化数据有助于翻译包括在语音输入中的语音,例如辅音如“P”或“T”,其中,嘴唇清晰地接触或不接触。
虽然存在现有方法以通过嘴唇/嘴巴阅读来检测语音本身,但是这种方法尚未被有效地用于在重新翻译歧义语音输入中增强语音识别引擎。值得注意的是,虽然可见光摄像机已被描述为非可听传感器,但是可以使用其它传感器,例如包括红外摄像机、超声波接收器或者其它能够捕捉有用信息的传感器,以确定有助于消除语音输入的歧义的数据,该有用信息例如关于用户语音输入的表面特征(例如用户的嘴唇)和/或内部特征(例如嘴巴、咽喉、肌肉或者骨骼特征)。
因此,例如通过将非可听输入映射到与语音输入的声音/短语相关的已知的特征,实施例可以使用这种与用户的语音输入有关(例如在时间上相匹配)的非可听输入来消除语音输入(或其部分)的歧义。这可以一般地进行和/或为特定的用户或用户群体进行训练。例如,同一身体部位的动作可以与过去的声音相匹配,以协助语音检测并且随着时间过去在重新解释语音输入中提供改进。
可以根据策略例如考虑能源节约和/或其它语境参数来执行非可听输入的捕获和/或处理。例如,如果电力或者电池使用对具体设备来说是个问题,则例如根据预定的策略,在某些场景中,常规语音识别可以通过非可听辅助的语音识别(例如使用摄像机输入)来进行辅助。
策略例如可以包括:如果语音置信度低(当前或历史,例如在具体对话期间或者用于具体的一个或多个用户),则使用非可听输入。对于包括与歧义项有关的预定声音特性的(一个或多个)特定词,例如某些辅音,置信度可以预定为低。因此,例如策略可以连续地捕获非可听输入,但是仅当包括某些语音时才处理非可听输入。
策略例如可以包括:如果存在多种语音候选项,其超过预先定义的(检测的)置信度阈值和/或具有类似的(检测的)高置信水平,则使用非可听输入。策略例如可以包括:当背景噪音超过阈值时、当同时存在其它检测到的由非主要用户的某人的语音时、当用户重复短语或者进行校正(例如例如通过摄像机捕捉到的非可听输入可以用于第二而非第一输入的翻译等)时等等,使用非可听输入。策略例如可以包括:当用户的语音是非典型的(例如:基于输入的时间,例如在清晨对比于在傍晚;基于用户的情况,例如正在吃、躺下(例如通过回转仪感测到)、生病的(声音是非典型的)等)时,使用非可听输入。策略例如可以包括:基于设备使用历史(例如首次在设备上检测到的输入)、基于设备的状态(例如设备移动或者环境等)来使用非可听输入。因此可以实施策略,以使得非可听传感器及其输入不被连续地捕获和/或不被连续地处理。
因此,实施例可以以智能的方式使用来自用户的非可听输入,以重新翻译歧义的语音。参考图3作为例子,在301处用户初始提供语音输入,并且如策略所规定的那样,实施例还捕捉用户的非可听输入,例如通过摄像机捕获的图像。在302处,实施例可以在翻译语音输入中使用语音识别引擎。作为这个过程的一部分,实施例可以确定某些词被评分为例如关于预定的阈值较低的置信水平。
因此,在303处,实施例可以识别翻译语音输入中的至少一个歧义项,例如那些具有较低置信度得分的词。如果确定没有歧义项,则实施例可以按照正确的翻译提交输入。然而,如果例如根据阈值存在歧义项(即使是轻微的),则随后在304处,实施例可以访问存储的非可听输入(亦即在301处的语音输入期间捕获的非可听输入),其在时间上与至少一个歧义项相关联。在303处,实施例可以再次基于某些触发项确定存在歧义项,该触发项包括除了低置信度得分之外的触发项,例如,在语音输入中检测到的词或词的语音,其虽然评分为有置信度,但是与歧义项有关联,例如某些辅音、某些词、在一定的条件下所接收的语音输入等。
使用非可听输入,例如嘴唇或嘴巴的动作特性等,在305处,实施例可以使用非可听输入重新翻译至少一个歧义项。例如,这可以包括将非可听输入特征映射到与预定的语音输入或其部分相关的特征,例如与已知的声音相关的已知的嘴唇动作等。以这种方式,实施例可以使用在用非可听输入中可用的额外数据,以协助翻译各种(一个或多个)词或(一个或多个)短语。这允许实施例更准确地翻译语音输入。此外,它允许实施例使用比平时更低的阈值用于翻译,以使得可以使用非可听输入经由重新翻译来确认通常可能是“有置信度地”被翻译的词。这可能有助于避免以下情况:即使就传统置信度评分而言得分高,也曲解了某些词或短语。在304处的重新翻译还包括校正语音输入,例如,使用非可听输入改变语音输入的初始翻译。
如本领域的技术人员将理解的,各个方面可以被实施为系统、方法或设备程序产品。因此,方面可以采用全部硬件实施例或者包括软件的实施例的形式,所有这些实施例在本文中通常可以称为“电路”、“模块”或“系统”。此外,方面可以采用设备程序产品的形式,所述设备程序产品包含在一个或多个设备可读存储介质中,所述设备可读存储介质具有包含在其中的设备可读程序代码。
可以利用一个或多个非信号设备可读存储介质的任何组合。存储介质可以是例如电子、磁、光、电磁、红外或半导体系统、装置或设备或前述的任何适当的组合。存储介质的更多的具体示例可以包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式紧致盘只读存储器(CD-ROM)、光存储设备、磁存储设备或前述的任何适当的组合。在本文的上下文中,存储介质不是信号,并且“非暂态的”包括除了信号介质以外的所有介质。
可以使用任何合适的介质来发送包含在存储介质上的程序代码,所述介质包括但不限于无线、有线、光纤电缆、RF等或者前述的任何合适的组合。
可以用一种或多种编程语言的任何组合来编写用于执行操作的程序代码。程序代码可以作为独立软件包来完全地在单一设备上执行、部分地在单一设备上执行、部分地在单一设备上执行且部分地在另一设备上执行或完全地在另一设备上执行。在某些情况下,设备可以通过包括局域网(LAN)或广域网(WAN)的任何类型的连接或网络进行连接,或者可以通过其它设备(例如通过使用互联网服务提供商的因特网)、通过无线连接(例如近场通信)或者通过硬线连接(例如通过USB连接)进行连接。
在本文中参照图示了根据各种示例实施例的示例方法、设备以及程序产品的附图来描述示例实施例。将要理解的是,操作和功能可以至少部分地通过程序指令来实现。这些程序指令可以提供给通用的信息处理设备、专用的信息处理设备或者其它可编程数据处理设备的处理器以产生机器,以使得经由设备的处理器执行的指令实现具体的功能/操作。
值得注意的是,虽然在图中使用具体的框并且已图示了框的具体顺序,但这些是非限制性示例。在某些情况下,两个或更多的框可以组合,一个框可以被分为两个或更多的框,或某些框可以视情况重新排列或重新组织,因为明确图示的示例仅用于说明的目的,而非解释为限制。
如本文所用的,除非另有明确指示,否则单数“一个”可以解释为包括复数“一个或多个”。
出于解释和说明的目的已介绍了本公开,但意图不是要穷举或者限制。很多修改和变化对本领域的那些技术人员来说将变得明显。示例实施例被选择并描述以便解释原理和实际应用,并且使本领域的其他技术人员能够理解用于具有各种修改的各种实施例的本公开,如适合于所设想的特定用途那样。
因此,虽然在本文中参考附图已描述了说明性示例实施例,但是将理解的是,这种描述不是进行限制,并且本领域的技术人员可以在不背离本公开的范围或精神的情况下在其中进行其它各种改变和修改。
Claims (15)
1.一种信息处理方法,包括:
在信息处理设备的音频接收器处接收用户的语音输入;
使用处理器翻译所述语音输入;
使用处理器识别翻译所述语音输入中的至少一个歧义项;
随后访问存储的在时间上与所述至少一个歧义项相关联的非可听输入;以及
使用非可听输入来调整所述语音输入的翻译;
其中,所述非可听输入的捕获根据策略来进行;所述策略响应于检测到从由以下组成的组中选择的因素而允许所述捕获:低语音识别置信度的历史、检测到多个语音候选项、检测到背景噪声超过预定阈值、检测到重复的词以及检测到非典型的语音特性。
2.如权利要求1所述的方法,其中,所述调整包括校正所述语音输入。
3.如权利要求1所述的方法,进一步包括使用传感器捕获在时间上与所述至少一个歧义项相关联的非可听输入。
4.如权利要求3所述的方法,其中,所述传感器是摄像机。
5.如权利要求1所述的方法,其中,响应于低于预定阈值的电池电量,所述策略调整所述捕获。
6.如权利要求1所述的方法,其中,访问存储的在时间上与所述至少一个歧义项相关联的非可听输入包括访问来源于从由以下组成的组中选择的数据的非可听输入:可见光图像数据、非可见电磁辐射图像数据以及非可听语音图像数据。
7.如权利要求1所述的方法,其中,使用处理器识别翻译所述语音输入中的至少一个歧义项包括识别包括与歧义项相关联的预定语音特性的词。
8.如权利要求7所述的方法,其中,与歧义项相关联的预定语音特性是辅音。
9.一种信息处理设备,包括:
音频接收器;
传感器,其捕获输入;
处理器;以及
存储器,其存储指令,所述指令由所述处理器执行以:
在所述音频接收器处接收用户的语音输入;
翻译所述语音输入;
识别翻译所述语音输入中的至少一个歧义项;
随后访问存储的在时间上与所述至少一个歧义项相关联的非可听输入;以及
使用来源于所述传感器的非可听输入来调整所述语音输入的翻译;
其中,所述指令进一步由所述处理器执行以捕获在时间上与所述至少一个歧义项相关联的非可听输入;其中,捕获包括根据策略捕获所述非可听输入;所述策略响应于检测到从由以下组成的组中选择的因素而允许所述捕获:低语音识别置信度的历史、检测到多个语音候选项、检测到背景噪声超过预定阈值、检测到重复的词以及检测到非典型的语音特性。
10.如权利要求9所述的信息处理设备,其中,调整包括校正所述语音输入。
11.如权利要求9所述的信息处理设备,其中,所述传感器是摄像机。
12.如权利要求9所述的信息处理设备,其中,响应于低于预定阈值的电池电量,所述策略调整所述捕获。
13.如权利要求9所述的信息处理设备,其中,访问存储的在时间上与所述至少一个歧义项相关联的非可听输入包括访问来源于从由以下组成的组中选择的数据的非可听输入:可见光图像数据、非可见电磁辐射图像数据以及非可听语音图像数据。
14.如权利要求9所述的信息处理设备,其中,使用处理器识别翻译所述语音输入中的至少一个歧义项包括识别包括与歧义项相关联的预定语音特性的词。
15.一种信息处理产品,包括:
设备可读存储设备,其具有随其存储的设备可读代码,所述设备可读代码由处理器执行,并且包括:
接收用户语音输入的代码;
翻译所述语音输入的代码;
识别翻译所述语音输入中的至少一个歧义项的代码;
随后访问存储的在时间上与所述至少一个歧义项相关联的非可听输入的代码;以及
使用非可听输入来调整所述语音输入的翻译的代码;
其中,所述非可听输入的捕获根据策略来进行;所述策略响应于检测到从由以下组成的组中选择的因素而允许所述捕获:低语音识别置信度的历史、检测到多个语音候选项、检测到背景噪声超过预定阈值、检测到重复的词以及检测到非典型的语音特性。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/182,875 US10741182B2 (en) | 2014-02-18 | 2014-02-18 | Voice input correction using non-audio based input |
US14/182,875 | 2014-02-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104850542A CN104850542A (zh) | 2015-08-19 |
CN104850542B true CN104850542B (zh) | 2019-01-01 |
Family
ID=52781721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410851581.XA Active CN104850542B (zh) | 2014-02-18 | 2014-12-31 | 非可听语音输入校正 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10741182B2 (zh) |
CN (1) | CN104850542B (zh) |
DE (1) | DE102015101236B4 (zh) |
GB (1) | GB2524877B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9881610B2 (en) | 2014-11-13 | 2018-01-30 | International Business Machines Corporation | Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities |
US9626001B2 (en) * | 2014-11-13 | 2017-04-18 | International Business Machines Corporation | Speech recognition candidate selection based on non-acoustic input |
KR20170033722A (ko) * | 2015-09-17 | 2017-03-27 | 삼성전자주식회사 | 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치 |
CN105551327A (zh) * | 2016-03-07 | 2016-05-04 | 浙江理工大学 | 一种基于柔性电子皮肤的互动式发音矫正系统及方法 |
JP2018091954A (ja) * | 2016-12-01 | 2018-06-14 | オリンパス株式会社 | 音声認識装置、及び音声認識方法 |
US10754441B2 (en) * | 2017-04-26 | 2020-08-25 | Microsoft Technology Licensing, Llc | Text input system using evidence from corrections |
US10366691B2 (en) * | 2017-07-11 | 2019-07-30 | Samsung Electronics Co., Ltd. | System and method for voice command context |
EP3652664A1 (de) * | 2017-07-14 | 2020-05-20 | Cognigy GmbH | Verfahren zur dialogführung zwischen mensch und computer |
US11087748B2 (en) * | 2018-05-11 | 2021-08-10 | Google Llc | Adaptive interface in a voice-activated network |
JP6779943B2 (ja) * | 2018-06-11 | 2020-11-04 | 株式会社東芝 | コンポーネント管理装置、コンポーネント管理方法およびプログラム |
US11257493B2 (en) | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
US11348581B2 (en) * | 2019-07-12 | 2022-05-31 | Qualcomm Incorporated | Multi-modal user interface |
US11941345B2 (en) | 2021-10-26 | 2024-03-26 | Grammarly, Inc. | Voice instructed machine authoring of electronic documents |
US20240073518A1 (en) * | 2022-08-25 | 2024-02-29 | Rovi Guides, Inc. | Systems and methods to supplement digital assistant queries and filter results |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0254409A1 (en) * | 1986-07-25 | 1988-01-27 | Smiths Industries Public Limited Company | Speech recognition apparatus and methods |
US20030125945A1 (en) * | 2001-12-14 | 2003-07-03 | Sean Doyle | Automatically improving a voice recognition system |
US20040122675A1 (en) * | 2002-12-19 | 2004-06-24 | Nefian Ara Victor | Visual feature extraction procedure useful for audiovisual continuous speech recognition |
US20040243416A1 (en) * | 2003-06-02 | 2004-12-02 | Gardos Thomas R. | Speech recognition |
CN102314595A (zh) * | 2010-06-17 | 2012-01-11 | 微软公司 | 用于改善话音识别的rgb/深度相机 |
WO2013097075A1 (en) * | 2011-12-26 | 2013-07-04 | Intel Corporation | Vehicle based determination of occupant audio and visual input |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US7082393B2 (en) * | 2001-03-27 | 2006-07-25 | Rast Associates, Llc | Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech |
WO2007114346A1 (ja) | 2006-03-30 | 2007-10-11 | Honda Moter Co., Ltd. | 音声認識装置 |
JP4517303B2 (ja) * | 2006-12-28 | 2010-08-04 | ソニー株式会社 | 情報処理装置、起動方法、およびプログラム |
JP5911796B2 (ja) * | 2009-04-30 | 2016-04-27 | サムスン エレクトロニクス カンパニー リミテッド | マルチモーダル情報を用いるユーザ意図推論装置及び方法 |
US10276170B2 (en) * | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8635066B2 (en) * | 2010-04-14 | 2014-01-21 | T-Mobile Usa, Inc. | Camera-assisted noise cancellation and speech recognition |
US8473289B2 (en) * | 2010-08-06 | 2013-06-25 | Google Inc. | Disambiguating input based on context |
US8700392B1 (en) * | 2010-09-10 | 2014-04-15 | Amazon Technologies, Inc. | Speech-inclusive device interfaces |
US9620122B2 (en) * | 2011-12-08 | 2017-04-11 | Lenovo (Singapore) Pte. Ltd | Hybrid speech recognition |
US20140379346A1 (en) * | 2013-06-21 | 2014-12-25 | Google Inc. | Video analysis based language model adaptation |
US20150088515A1 (en) * | 2013-09-25 | 2015-03-26 | Lenovo (Singapore) Pte. Ltd. | Primary speaker identification from audio and video data |
US11138971B2 (en) * | 2013-12-05 | 2021-10-05 | Lenovo (Singapore) Pte. Ltd. | Using context to interpret natural language speech recognition commands |
-
2014
- 2014-02-18 US US14/182,875 patent/US10741182B2/en active Active
- 2014-12-31 CN CN201410851581.XA patent/CN104850542B/zh active Active
-
2015
- 2015-01-28 DE DE102015101236.7A patent/DE102015101236B4/de active Active
- 2015-02-17 GB GB1502621.4A patent/GB2524877B/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0254409A1 (en) * | 1986-07-25 | 1988-01-27 | Smiths Industries Public Limited Company | Speech recognition apparatus and methods |
US20030125945A1 (en) * | 2001-12-14 | 2003-07-03 | Sean Doyle | Automatically improving a voice recognition system |
US20040122675A1 (en) * | 2002-12-19 | 2004-06-24 | Nefian Ara Victor | Visual feature extraction procedure useful for audiovisual continuous speech recognition |
US20040243416A1 (en) * | 2003-06-02 | 2004-12-02 | Gardos Thomas R. | Speech recognition |
CN102314595A (zh) * | 2010-06-17 | 2012-01-11 | 微软公司 | 用于改善话音识别的rgb/深度相机 |
WO2013097075A1 (en) * | 2011-12-26 | 2013-07-04 | Intel Corporation | Vehicle based determination of occupant audio and visual input |
Also Published As
Publication number | Publication date |
---|---|
DE102015101236B4 (de) | 2023-09-07 |
GB2524877A (en) | 2015-10-07 |
US10741182B2 (en) | 2020-08-11 |
CN104850542A (zh) | 2015-08-19 |
US20150235641A1 (en) | 2015-08-20 |
GB2524877B (en) | 2018-04-11 |
GB201502621D0 (en) | 2015-04-01 |
DE102015101236A1 (de) | 2015-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104850542B (zh) | 非可听语音输入校正 | |
EP3709294B1 (en) | Electronic device for providing speech recognition service and method thereof | |
US20160170710A1 (en) | Method and apparatus for processing voice input | |
US9653073B2 (en) | Voice input correction | |
US20170025117A1 (en) | Speech recognition apparatus and method | |
US10741174B2 (en) | Automatic language identification for speech | |
CN104700834B (zh) | 信息处理方法及信息处理装置 | |
CN104252311B (zh) | 使用所推断的情绪修改触笔输入或响应 | |
GB2533842A (en) | Text correction based on context | |
EP3107012A1 (en) | Modifying search results based on context characteristics | |
US10437350B2 (en) | Stylus shorthand | |
KR20170053127A (ko) | 필드 기재사항의 오디오 입력 | |
US20210050005A1 (en) | Method for operating voice recognition service and electronic device supporting same | |
US9423890B2 (en) | Stylus lexicon sharing | |
US10032071B2 (en) | Candidate handwriting words using optical character recognition and spell check | |
WO2022140015A1 (en) | Multilingual model training using parallel corpora, crowdsourcing, and accurate monolingual models | |
US9710701B2 (en) | Handwriting data search | |
US11238865B2 (en) | Function performance based on input intonation | |
US10133920B2 (en) | OCR through voice recognition | |
US20190050391A1 (en) | Text suggestion based on user context | |
US10726197B2 (en) | Text correction using a second input | |
US10380460B2 (en) | Description of content image | |
US20150310095A1 (en) | Input correction enhancement | |
US11741302B1 (en) | Automated artificial intelligence driven readability scoring techniques | |
US11836299B1 (en) | Virtual sign language system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |