CN105068987A - 语音输入的字词级纠正 - Google Patents
语音输入的字词级纠正 Download PDFInfo
- Publication number
- CN105068987A CN105068987A CN201510420200.7A CN201510420200A CN105068987A CN 105068987 A CN105068987 A CN 105068987A CN 201510420200 A CN201510420200 A CN 201510420200A CN 105068987 A CN105068987 A CN 105068987A
- Authority
- CN
- China
- Prior art keywords
- words
- voice
- transcribing
- user
- word lattice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 59
- 230000004044 response Effects 0.000 claims description 24
- 238000013518 transcription Methods 0.000 abstract 2
- 230000035897 transcription Effects 0.000 abstract 2
- 230000008569 process Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 18
- 238000001514 detection method Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 241000282994 Cervidae Species 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04886—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Telephone Function (AREA)
Abstract
本发明的各实施例涉及语音输入的字词级纠正。可以在一种计算机实施的方法以及其它实施方式中实施本说明书的主题内容,其中该方法用于纠正转录的文字中的字词,该方法包括从麦克风接收语音音频数据。该方法还包括向转录系统发送语音音频数据。该方法还包括接收转录系统从语音音频数据转录的字词网格。该方法还包括呈现来自字词网格的一个或者多个转录的字词。该方法还包括接收呈现的转录的字词中的至少一个转录的字词的用户选择。该方法还包括呈现来自字词网格的用于所选转录的字词的一个或者多个替代字词。该方法还包括接收替代字词中的至少一个替代字词的用户选择。该方法还包括用所选替代字词取代呈现的转录的字词中的所选转录的字词。
Description
分案申请说明
本申请是于2011年1月5日提交的、于2012年8月9日进入中国国家阶段的、申请号为201180008973.4、名称为“语音输入的字词级纠正”的中国发明专利申请的分案申请。
相关申请的交叉引用
本申请要求对通过引用将内容结合于此、于2010年1月5日提交并且标题为“Word-LevelCorrectionofSpeechInput”的第61/292,440号美国临时申请以及于2010年10月27日提交并且标题为“Word-LevelCorrectionofSpeechInput”的第12/913,407号美国申请的优先权。
技术领域
本说明书涉及纠正从向计算设备的语音输入转录的文字中的一个或者多个字词。
背景技术
语音输入的转录是一种越来越流行的向计算设备中输入信息的方式。对于移动计算设备(比如移动电话和智能电话)而言甚至更是如此,其中可用于容用户进行用户输入的接口不如桌面型计算机中的用户接口(比如全尺寸键盘)那样易于操纵。例如一些移动计算设备使用最小硬件键盘(例如完全QWERTY键盘的子集)、虚拟/软件键盘(例如触屏键盘)或者甚至十二个键的电话键区(例如ITU-T文字录入)。通常,这些用户输入接口比传统桌面型用户接口更小,并且用户经常使用他们的拇指来键入或者在键入之时看一个键打一个字。这可以至少部分说明越来越多地使用向移动计算设备的语音输入。
发明内容
总体上,本文献描述纠正从向计算设备的语音输入转录的文字中的一个或者多个字词。在一些实施方式中,计算设备是无线移动设备(比如移动电话或者智能电话)。计算设备例如从用户接收语音输入并且向与计算设备分离的转录系统发送语音输入。转录系统转录语音输入并且向计算设备提供对应字词网格。计算设备允许用户使用来自字词网格的替代字词和/或短语对转录的文字中的一个或者多个字词进行纠正。
在第一方面中,一种用于纠正转录的文字中的字词的计算机实施的方法包括从移动计算设备中的麦克风接收语音音频数据。该方法还包括向转录系统发送来自移动计算设备的语音音频数据。该方法还包括在移动计算设备接收转录系统从语音音频数据转录的字词网格。该方法还包括在移动计算设备的显示器屏幕上呈现来自字词网格的一个或者多个转录的字词。该方法还包括在移动计算设备接收呈现的转录的字词中的至少一个转录的字词的用户选择。该方法还包括响应于接收转录的字词的用户选择,在显示器屏幕上呈现来自字词网格的用于所选转录的字词的一个或者多个替代字词。该方法还包括在移动计算设备接收替代字词中的至少一个替代字词的用户选择。该方法还包括响应于接收替代字词的用户选择,用所选替代字词取代呈现的转录的字词中的所选转录的字词。
实施方式可以包括以下特征中的任何、所有或者零个特征。该方法可以包括:响应于接收转录的字词的用户选择,在显示器屏幕上呈现用于所选转录的字词的去除命令;在移动计算设备接收去除命令的用户选择;并且响应于接收去除命令的用户选择,从呈现的转录的字词去除所选转录的字词。该方法可以包括:在显示器屏幕上呈现来自字词网格的用于呈现的转录的字词的至少一个替代短语;在移动计算设备接收替代短语的用户选择;并且响应于接收替代短语的用户选择,用所选替代短语取代呈现的转录的字词。该方法可以包括:响应于接收去除命令或者替代字词的用户选择,自动基于所选替代字词或者去除的转录的字词从字词网格选择至少一个新的替代短语;并且用新的替代短语取代呈现的替代短语。接收呈现的字词的用户选择和替代字词的用户选择可以包括通过移动计算设备的触屏接口接收呈现的字词的用户选择和替代字词的用户选择。字词网格可以包括与转录的字词和替代字词对应的节点、在节点之间的边,边标识经过字词网格的可能路径,并且每个路径可以具有路径正确的关联概率。该方法可以包括从字词网格中所选转录的字词的开始节点与结束节点之间的一个或者多个替代路径识别用于所选转录的字词的替代字词。该方法可以包括从字词网格中呈现的转录的字词的开始节点与结束节点之间的至少一个替代路径识别用于呈现的转录的字词的替代短语。
在第二方面中,一种在计算机可读介质上编码的计算机程序产品,可操作用于使一个或者多个处理器执行用于纠正转录的文字中的字词的操作,操作包括从移动计算设备中的麦克风接收语音音频数据。操作还包括向转录系统发送来自移动计算设备的语音音频数据。操作还包括在移动计算设备接收转录系统从语音音频数据转录的字词网格。操作还包括在移动计算设备的显示器屏幕上呈现来自字词网格的一个或者多个转录的字词。操作还包括在移动计算设备接收呈现的转录的字词中的至少一个转录的字词的用户选择。操作还包括响应于接收转录的字词的用户选择,在显示器屏幕上呈现来自字词网格的用于所选转录的字词的一个或者多个替代字词。操作还包括在移动计算设备接收替代字词中的至少一个替代字词的用户选择。操作还包括响应于接收替代字词的用户选择,用所选替代字词取代呈现的转录的字词中的所选转录的字词。
实施方式可以包括以下特征中的任何、所有或者零个特征。操作可以包括:响应于接收转录的字词的用户选择,在显示器屏幕上呈现用于所选转录的字词的去除命令;在移动计算设备接收去除命令的用户选择;并且响应于接收去除命令的用户选择,从呈现的转录的字词去除所选转录的字词。操作可以包括:在显示器屏幕上呈现来自字词网格的用于呈现的转录的字词的至少一个替代短语;在移动计算设备接收替代短语的用户选择;并且响应于接收替代短语的用户选择,用所选替代短语取代呈现的转录的字词。操作可以包括:响应于接收去除命令或者替代字词的用户选择,自动基于所选替代字词或者去除的转录的字词从字词网格选择至少一个新的替代短语;并且用新的替代短语取代呈现的替代短语。接收呈现的字词的用户选择和替代字词的用户选择可以包括通过移动计算设备的触屏接口接收呈现的字词的用户选择和替代字词的用户选择。字词网格可以包括与转录的字词和替代字词对应的节点、在节点之间的边,边标识经过字词网格的可能路径,并且每个路径可以具有路径正确的关联概率。操作可以包括从字词网格中所选转录的字词的开始节点与结束节点之间的一个或者多个替代路径识别用于所选转录的字词的替代字词。操作可以包括从字词网格中呈现的转录的字词的开始节点与结束节点之间的至少一个替代路径识别用于呈现的转录的字词的替代短语。
在第三方面中,一种用于纠正转录的文字中的字词的计算机实施的系统包括:转录系统,可操作用于接收语音音频数据并且作为响应将语音音频数据转录成字词网格。该系统还包括移动计算设备,移动计算设备包括:麦克风,可操作用于接收语音音频并且生成语音音频数据,网络接口,可操作用于向转录系统发送语音音频数据并且作为响应从转录系统接收字词网格,显示器屏幕,可操作用于呈现来自字词网格的一个或者多个转录的字词,用户接口,可操作用于接收转录的字词中的至少一个转录的字词的用户选择,一个或者多个处理器和存储指令的存储器,指令在由处理器执行时执行以下操作:在显示器屏幕上呈现来自字词网格的用于所选转录的字词的一个或者多个替代字词;接收替代字词中的至少一个替代字词的用户选择;并且用所选替代字词取代呈现的转录的字词中的所选转录的字词。
这里描述的系统和技术可以提供以下优点中的一个或者多个优点。首先,系统可以用最少用户输入(比如一个、两个或者三个用户输入)对转录的文字中的一个或者多个字词进行纠正。第二,系统可以提供在远程转录系统的对语音输入向文字的转录而在纠正转录的文字中的一个或者多个字词期间无或者最少的与远程转录系统的附加通信。第三,系统可以在具有有限输入接口(比如小型触屏)的计算设备中提供对转录的文字的纠正的高效用户选择。
在附图和下文描述中阐述一个或者多个实施方式的细节。根据说明书和附图并且根据权利要求书将清楚其它特征和优点。
附图说明
图1是示出了用于纠正转录的文字中的一个或者多个字词的系统的例子的示意图。
图2是示出了用于纠正转录的文字中的一个或者多个字词的移动计算设备的例子的框图。
图3A-B是用于纠正转录的文字中的一个或者多个字词的字词网格的例子。
图4A-D是用于纠正转录的文字中的一个或者多个字词的图形用户接口的例子。
图5是示出了用于纠正转录的文字中的一个或者多个字词的过程的例子的流程图。
图6示出了可以与在本文中描述的计算机实施的方法和系统结合使用的计算设备和移动计算设备的例子。
在各图中的相似标号指示相似要素。
具体实施方式
图1是示出了用于纠正转录的文字中的一个或者多个字词的系统100的例子的示意图。一般而言,系统允许用户的设备向服务器系统发送语音的音频数据并且让服务器系统发送回用于转录语音的可能解决方案的排列,从而如果第一建议解决方案不准确,则用户可以容易替换被服务器系统确定为其它可能解决方案的其它字词或者字词集。
系统100包括通过网络106与转录系统104通信的移动计算设备102。移动计算设备102从用户接收语音音频输入并且将语音音频转换成语音数据输出108。移动计算设备102通过网络106向转录系统104发送语音数据输出108。转录系统104将语音数据输108转录成多个字词并且在字词网格110中排列字词。字词网格110包括用于语音数据输出108转录的最可能或者最佳假设以及替代转录或者假设。转录系统104向移动计算设备102发送字词网格110。
移动计算设备102向用户呈现来自字词网格110的最可能转录。移动计算设备102然后从用户接收一个或者多个字词选择112、呈现用于所选字词的对应替代字词并且从用户接收一个或者多个替代选择114。字词选择112指示向用户呈现的转录的文字中的一个或者多个不正确转录的字词。在一些实施方式中,替代字词是用于不正确字词的下一最佳假设。响应于替代选择114,移动计算设备102用所选替代字词替换呈现的转录的文字中的不正确字词。
在一些实施方式中,移动计算设备102也呈现用于转录的文字的一个或者多个替代短语。例如替代短语可以是用于语音数据输出108或者语音数据输出108的包括多个字词的部分的转录的下一最佳假设。移动计算设备102可以从用户接收替代短语的选择并且用所选替代短语取代呈现的转录的文字的对应部分。
在一些实施方式中,移动计算设备102是移动电话或者智能电话并且包括有限的用户输入接口(比如小型QWERTY硬件键盘、小型触屏或者数字键区)。移动计算设备102使用无线连接(比如蜂窝电话数据连接、Wi-Fi连接或者可以用于向转录系统104发送数据和从转录系统104接收数据的其它无线连接)来接入网络106。
在一些实施方式中,网络106包括一个或者多个网络(比如局域网、广域网和/或因特网)。网络106中的一个或者多个网络可以是无线的(比如蜂窝电话网络或者Wi-Fi网络)。
转录系统104包括将语音数据输出108转录成字词网格110的语音识别器。一般而言,字词网格110包括用于语音数据输出108转录的多个假设。在一些实施方式中,字词网格110包括特定字词在转录的文字中出现于特定位置的一个或者多个加权因子或者概率。用于说话声转录的每个假设代表经过字词网格110的可能路径。在一些实施方式中,从假设中的一个字词向下一字词的分叉点依赖于假设中的其它字词。例如字词网格110中的特定字词可以具有依赖于假设中包括的其它字词的多个权值或者概率。此外,字词网格110可以包括用于字词网格110中包括的字词集或者来自字词网格110的字词的最可能组合的子集的所有可能假设。移动计算设备102选择通过字词网格110的最有可能路径,并且向用户呈现该假设。
图2是示出了用于纠正转录的文字中的一个或者多个字词的移动计算设备200的例子的框图。移动计算设备200包括负责呈现从用户说话声转录的文字并且用于接收一个或者多个用户输入以纠正转录的文字的字词纠正模块202。
具体而言,移动计算设备200包括从用户接收语音音频输入206的语音输入接口204。例如语音输入接口204可以是将来自用户的说话声中的声音转换成语音数据输出208的麦克风。语音输入接口204向字词纠正模块202传递语音数据输出208,并且字词纠正模块202向转录系统发送语音数据输出208。
转录系统对语音数据输出208执行语音识别操作以生成字词网格210。转录系统向移动计算设备200发送字词网格210。
字词纠正模块202接收字词网格210并且在显示器接口214中呈现来自字词网格210的转录的文字212。在一些实施方式中,显示器接口214是硬件显示器屏幕(比如液晶显示器(LCD)屏幕)。呈现的转录的文字212包括来自字词网格210的多个字词,并且转录的字词网格212包括待由用户纠正的一个或者多个字词。字词纠正模块202从用户接收转录的文字212中的不正确字词(即不是用户说出的字词)的选择216。字词纠正模块202通过用户输入接口218(比如触屏、跟踪球或者其它指示设备或者键盘)接收选择216。
字词纠正模块202呈现用于选择216的一个或者多个替代字词220。字词纠正模块202使用显示器接口214来显示替代字词220。字词纠正模块202通过用户输入接口218从用户接收呈现的替代字词之一的选择222。字词纠正模块202用从替代字词的选择222取代从转录的文字212的选择216并且在显示器接口214中向用户呈现更新的转录的字词。
图3A是用于纠正转录的字词中的一个或者多个字词的字词网格300的例子。这里呈现字词网格300为有限状态转录器。字词网格300包括与在字词之间的可能边界对应的一个或者多个节点302a-g。字词网格300包括用于由字词网格300产生的转录假设中的可能字词的多个边304a-I。此外,每个边304a-I可以具有该边是来自对应节点的正确边的一个或者多个权值或者概率。权值由转录系统确定并且可以例如基于在语音数据与用于该边的字词之间的匹配的置信度以及字词有多么好地在语法和/或词汇上与字词网格300中的其它字词相配。
例如起初,经过字词网格300的最可能路径可以包括具有文字“We’recomingabout11:30”的边304c、304e、304i和304k。第二最佳路径可以包括具有文字“deerhuntingscouts7:30”的边304d、304h、304j和304I。
每对节点可以具有与各种转录假设中的替代字词对应的一个或者多个路径。例如开始于节点302a并且结束于节点302c的在节点对之间的初始最可能路径是边304c“we’re”。这一路径具有包括边304a-b“weare”和边304d“deer”的替代路径。因而边304e“coming”具有包括边304f-g“comeat”和边304h“hunting”的替代字词。边304i“about”具有包括边304j“scouts”的替代字词,并且边304k“11:30”具有包括边304I“7:30”的替代字词。
图3B是用于纠正转录的文字中的一个或者多个字词的字词网格350的例子。字词网格350是分层次的。字词网格350包括多个节点352a-I,这些节点代表用于转录的文字的各种假设中的字词。在节点352a-I之间的边示出了可能假设包括节点352c、352e、352i和352k“we’recomingabout11:30”、节点352a、352b、352e、352i和352k“wearecomingabout11:30”、节点352a、352b、352f、352g、352i和352k“wearecomeatabout11:30”、节点352d、352f、352g、352i和352k“deercomeatabout11:30”、节点352d、352h、352j和352k“deerhuntingscouts11:30”以及节点352d、352h、352j和352I“deerhuntingscouts7:30”。
同样,在节点352a-I之间的边可以具有基于语音识别的置信度和所得文字的语法/词汇分析的关联权值或者概率。在这一例子中,“we’recomingabout11:30”目前可以是最佳假设,并且“deerhuntingscouts7:30”可以是次最佳假设。可以在字词网格350中进行将字词及其替代分组在一起的一个或者多个划分354a-d。例如划分354a包括字词“we’re”以及替代“weare”和“deer”。划分354b包括字词“coming”以及替代“comeat”和“hunting”。划分354c包括字词“about”和替代“scouts”,并且划分354d包括字词“11:30”和替代“7:30”。
随着用户从最佳假设选择字词用于纠正而从其它假设选择替代用于取代不正确字词,其它假设之一可以变成最佳假设。例如,如果用户选择“we’re”、然后选择替代“deer”以取代“we’re”,则“deerhuntingscouts7:30”可以变成最佳假设。
在一些实施方式中,字词纠正模块仅呈现和/或允许用户选择如下替代,存在从这些替代到转录的文字中的其它字词的边。例如,如果当前呈现“we’recomingabout11:30”作为最佳假设,则字词纠正模块可以呈现“weare”而不是“deer”作为用于“we’re”的替代,因为“deer”无如下边,该边连接到转录的文字的其余字词“…comingabout11:30”。字词“weare”具有通向“…comingabout11:30”的边,因此包含于“we’re”的替代列表中。在另一例子中,如果用户选择字词“coming”用于纠正,则字词纠正模块可以扩展选择以包括“we’recoming”、然后呈现包括“wearecomeat”和“deercomeat”的替代。
图4A是用于纠正转录的文字中的一个或者多个字词的GUI400的例子。GUI400可以与接收文字输入的应用(比如即时消息应用、电子邮件应用或者字处理器应用)关联。GUI400包括文字输入区域402和用于向文字输入区域402中输入文字的键盘404。在一些实施方式中,键盘404是触屏键盘。在一些实施方式中提供GUI400的计算设备可以包括用于向文字输入区域402中进行输入的物理键盘。此外,提供GUI400的计算设备可以接收发声或者语音输入。例如键盘404可以包括用于发起向文字输入区域402中的语音到文字输入的控件或者图标。字词纠正模块向转录系统发送接收的语音数据并且接收字词。
GUI400在文字输入区域402中呈现最佳假设“we’recomingabout11:30”。用户可以通过选择字词来请求纠正字词。例如用户可以通过在屏幕上按压来进行字词“we’re”的选择406。取而代之,GUI400可以具有用于选择文字输入区域402中的字词的关联指示设备或者其它导航控件。
GUI在替代短语控件408中呈现次最佳假设“Deerhuntingscouts7:30”。用户可以选择替代短语控件408以用替代短语控件408中所示文字取代文字输入区域402中的转录的文字。
图4B是用于纠正转录的文字中的一个或者多个字词的GUI420的例子。GUI420示出了来自字词网格的用于所选字词“we’re”的替代字词的列表422。列表422包括替代“weare”和“deer”。列表422也包括用于从文字输入区域402去除字词而未用替代取代它的去除控件。这里,用户对去除控件进行选择424以请求GUI420从文字输入区域402去除字词“we’re”。
图4C是用于纠正转录的文字中的一个或者多个字词的GUI440的例子。字词纠正模块已经更新GUI440以不再在呈现于文字输入区域402中的转录假设中包括字词“we’re”。此外,字词纠正模块已经基于文字输入区域402中的由于用户进行的纠正而产生的当前最佳假设来更新替代短语控件408以包括新的次最佳假设“Comeatabout11:30”。用户可以对替代短语控件408进行选择442以请求用“comeatabout11:30”取代文字输入区域402中的文字。
图4D是用于纠正转录的文字中的一个或者多个字词的GUI460的例子。字词纠正模块已经更新GUI460以包括通过用户选择替代短语控件408来请求的新的最佳转录假设“Comeatabout11:30”。
在一些实施方式中,字词纠正模块允许用户通过进行仅两个简单用户输入来纠正字词。例如用户可以触摸屏幕以选择不正确字词、然后第二次触摸屏幕以选择用于取代不正确字词的替代。
在一些实施方式中,字词选择模块可以响应于单个用户输入来纠正一个或者多个字词。例如用户可以选择替代短语控件408以用次最优假设取代最优假设。在另一例子中,当仅一个替代字词存在时,字词纠正模块可以自动响应于选择不正确字词来取代不正确字词而未提供替代列表。在又一例子中,当一个替代正确的概率明显大于其它替代时,字词纠正模块可以自动响应于选择不正确字词用最佳替代取代不正确字词而未提供替代列表。替代正确的概率明显更大可以例如包括概率接近百分之一百的最佳替代和概率接近零的其它替代或者概率比次最佳替代大若干倍的最佳替代。在一些实施方式中,对字词的长按可以指示应当从文字输入区域402和假设去除字词。取而代之,对不正确字词的长按可以指示对用次最佳替代取代不正确字词的请求。
图5是示出了用于纠正转录的文字中的一个或者多个字词的过程500的例子的流程图。过程500可以例如由系统(比如系统100、移动计算设备200、字词网格300和/或GUI400、420、440和460)执行。为了呈现清楚,下文描述使用系统100、移动计算设备200、字词网格300和/或GUI400、420、440和460作为用于描述过程500的例子的基础。然而另一系统或者系统组合可以用来执行过程500。
过程500开始于从移动计算设备中的麦克风接收(502)语音音频数据。例如用户可以向蜂窝电话或者智能电话上的麦克风中输入说话声。
过程500向转录系统发送(504)来自移动计算设备的语音音频数据。例如移动计算设备102可以向转录系统104发送语音数据输出108。
过程500在移动计算设备接收转录系统从语音音频数据转录的字词网格。例如移动计算设备200可以接收从语音数据输出208转录的字词网格210。
过程500在移动计算设备的显示器屏幕上呈现(508)来自字词网格的一个或者多个转录的字词。例如字词纠正模块202可以在GUI400中呈现转录的文字212。
如果过程500在移动计算设备接收(510)呈现的转录字词中的至少一个转录的字词的用户选择,则响应于接收转录的字词的用户选择,过程500在显示器屏幕上呈现(512)来自字词网格的用于所选转录的字词的一个或者多个替代字词。例如字词纠正模块202可以接收转录的字词“we’re”的选择406并且作为响应呈现替代字词的列表422。
过程500在移动计算设备接收(514)替代字词中的至少一个替代字词的用户选择。例如字词纠正模块202可以接收去除控件的选择424或者列表422中的替代字词“weare”和“deer”中的一个或者多个替代字词的选择。
响应于接收替代字词的用户选择,过程500用所选替代字词取代(508)呈现的转录的字词中的所选转录的字词。例如字词纠正模块202可以在GUI440的文字输入区域402中呈现更新的转录的文字“comingabout11:30”。
图6示出了可以用来实施这里描述的技术的计算设备600和移动计算设备的例子。计算设备600旨在于代表各种形式的数字计算机(比如膝上型计算机、桌面型计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其它适当计算机)。移动计算设备旨在于代表各种形式的移动设备(比如个人数字助理、蜂窝电话、智能电话和其它相似计算设备)。这里所示部件、它们的连接和关系以及它们的功能是为了仅举例并且不是为了限制本文中描述和/或要求保护的本发明的实施方式。
计算设备600包括处理器602、存储器604、存储设备606、连接到存储器604和多个高速扩展端口610的高速接口608以及连接到低速扩展端口614和存储设备606的低速接口612。处理器602、存储器604、存储设备606、高速接口608、高速扩展端口610和低速接口612中的每个部件使用各种总线来互连并且可以装配于公共母板上或者以如适当的其它方式来装配。处理器602可以处理用于在计算设备600内执行的指令(包括存储于存储器604中或者存储设备606上以在外部输入/输出设备(比如耦合到高速接口608的显示器616)上显示GUI的图形信息的指令)。在其它实施方式中,多个处理器和/或多个总线可以如适当的那样与多个存储器和存储器类型一起使用。也可以连接多个计算设备而每个设备提供必需操作的部分(例如作为服务器组、一组刀片服务器或者多处理器系统)。
存储器604存储计算设备600内的信息。在一些实施方式中,存储器604是一个或者多个易失性存储器单元。在一些实施方式中,存储器604是一个或者多个非易失性存储器单元。存储器604也可以是另一形式的计算机可读介质(比如磁盘或者光盘)。
存储设备606能够提供用于计算设备600的海量存储。在一些实施方式中,存储设备606可以是或者包含计算机可读介质(比如软盘设备、硬盘设备、光盘设备或者磁带设备、闪存或者其它相似固态存储器设备或者设备阵列(包括在存储区域网络或者其它配置中的设备))。计算机程序产品可以有形地具体化于信息载体中。计算机程序产品也可以包含在被执行时执行一种或者多种方法(比如上文描述的方法)的指令。计算机程序产品也可以有形地具体化于计算机或者机器可读介质(比如存储器604、存储设备606或者处理器602上的存储器)中。
高速接口608管理用于计算设备600的带宽密集操作,而低速接口612管理较低带宽密集操作。这样的功能分配仅为举例。在一些实施方式中,高速接口608耦合到存储器604、显示器616(例如通过图形处理器或者加速器)并且耦合到可以接受各种扩展卡(未示出)的高速扩展端口610。在该实施方式中,低速接口612耦合到存储设备606和低速扩展端口614。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口614可以耦合到一个或者多个输入/输出设备(比如键盘、指示设备、扫描仪或者通过网络适配器连接到网络设备(比如交换机或者路由器))。
可以如图中所示以多个不同形式实施计算设备600。例如它可以实施为标准服务器620或者多次实施于一组这样的服务器中。此外,它可以实施于个人计算机(比如膝上型计算机622)中。它也可以实施为机架服务器系统624的部分。取而代之,来自计算设备600的部件可以与移动设备(比如移动计算设备650)中的其它部件(未示出)组合。这样的设备中的每个设备可以包含计算设备600和移动计算设备650中的一个或者多个设备,并且整个系统可以由相互通信的多个计算设备组成。
移动计算设备650包括处理器652、存储器664、输入/输出设备(比如显示器654)、通信接口666和收发器668以及其它部件。移动计算设备650也可以具有用于提供附加存储的存储设备(比如微驱动或者其它设备)。使用各种总线来互连处理器652、存储器664、显示器654、通信接口666和收发器668中的每个部件,并且若干部件可以装配于公共母板上或者如适当的那样以其它方式来装配。
处理器652可以执行移动计算设备650内的指令(包括存储于存储器664中的指令)。处理器652可以实施为包括单独和多个模拟和数字处理器的芯片的芯片组。处理器652可以例如提供移动计算设备650的其它部件的协调(比如控制用户接口、移动计算设备650运行的应用和移动计算设备650的无线通信)。
处理器652可以通过耦合到显示器654的控制接口658和显示器接口656来与用户通信。显示器654可以例如是TFT(薄膜晶体管液晶显示器)显示器或者OLED(有机发光二极管)显示器或者其它适当显示器技术。显示器接口656可以包括用于驱动显示器654以向用户呈现图形和其它信息的适当电路。控制接口658可以从用户接收命令并且转换它们用于向处理器652提交。此外,外部接口662可以提供与处理器652的通信以便实现移动计算设备650与其它设备的近场通信。外部接口662可以在一些实施方式中提供有线通信或者在其它实施方式中提供无线通信,并且也可以使用多个接口。
存储器664存储移动计算设备650内的信息。存储器664可以实施为一个或者多个计算机可读介质、一个或者多个易失性存储器单元或者一个或者多个非易失性存储器单元中的一项或者多项。扩展存储器674也可以被提供并且通过可以例如包括SIMM(单列直插式存储器模块)卡接口的扩展接口672连接到移动计算设备650。扩展存储器674可以提供用于移动计算设备650的额外存储空间或者也可以存储用于移动计算设备650的应用或者其它信息。具体而言,扩展存储器674可以包括用于实现或者补充上文描述的过程的指令并且也可以包括安全信息。因此例如扩展存储器674可以被提供作为用于移动计算设备650的安全模块并且可以用允许安全使用移动计算设备650的指令来编程。此外,可以经由SIMM卡将安全应用与附加信息一起提供(比如以不可黑客方式在SIMM卡上放置识别信息)。
如上文讨论的那样,存储器可以例如包括闪存和/或NVRAM存储器(非易失性随机存取存储器)。在一些实施方式中,计算机程序产品有形地具体化于信息载体中。计算机程序产品包含在执行时执行一种或者多种方法(比如上文描述的方法)的指令。计算机程序产品可以是计算机或者机器可读介质(比如存储器664、扩展存储器674或者处理器652上的存储器)。在一些实施方式中,可以例如通过收发器668或者外部接口662在传播的信号中接收计算机程序产品。
移动计算设备650可以通过可以在必需时包括数字信号处理电路的通信接口666进行无线通信。通信接口666可以提供在各种模式或者协议(比如GSM(全球移动通信系统)语音呼叫、SMS(短消息服务)、EMS(增强型消息接发服务)或者MMS消息接发(多媒体消息接发服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或者GPRS(通用分组无线电服务)以及其它模式或者协议)之下的通信。这样的通信例如可以通过使用射频的收发器668来出现。此外,短程通信可以比如使用蓝牙、WiFi或者其它这样的收发器(未示出)来出现。此外,GPS(全球定位系统)接收器模块670可以向移动计算设备650提供附加的与导航和位置有关的无线数据,该数据可以如适当的那样由在移动计算设备650上运行的应用使用。
移动计算设备650也可以使用音频编码解码器660来可听地通信,该编码解码器可以从用户接收口头信息并且将它转换成可用数字信息。音频编码解码器660可以类似地比如通过例如移动计算设备650的听筒中的扬声器生成用于用户的可听声音。这样的声音可以包括来自语音电话呼叫的声音、可以包括记录的声音(例如语音消息、音乐文件等)并且也可以包括由在移动计算设备650上操作的应用生成的声音。
可以如图中所示以多个不同形式实施移动计算设备650。例如它可以实施为蜂窝电话680。它也可以实施为智能电话682、个人数字助理或者其它相似移动设备的部分。
这里描述的系统和技术的各种实施方式可以实施于数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中。这些各种实施方式可以包括在包括可以是专用或者通用的至少一个可编程处理器(该处理器被耦合成从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令并且向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令)的可编程系统上可执行和/或可解译的一个或者多个计算机程序中的实施方式。
这些计算机程序(也称为程序、软件、软件应用或者代码)包括用于可编程处理器的机器指令并且可以用高级过程和/或面向对象的编程语言和/或用汇编/机器语言来实施。如这里所用,术语机器可读介质和计算机可读介质指代用来向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如磁盘、光盘、存储器、可编程逻辑器件(PLD))(包括接收作为机器可读信号的机器指令的机器可读介质)。术语机器可读信号指代用来向可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,这里描述的系统和技术可以实施于如下计算机上,该计算机具有用于向用户显示信息的显示器设备(例如CRT(阴极射线管)或者LCD(液晶显示器)监视器)以及用户可以向计算机提供输入的键盘和指示设备(例如鼠标或者跟踪球)。其它种类的设备也可以用来提供与用户的交互;例如向用户提供的反馈可以是任何形式的感官反馈(例如视觉反馈、听觉反馈或者触觉反馈);并且可以用包括声学、语音或者触觉输入的任何形式接收来自用户的输入。
这里描述的系统和技术可以实施于如下计算系统中,该计算系统包括后端部件(例如作为数据服务器)或者包括中间件部件(例如应用服务器)或者包括前端部件(例如具有如下图形用户接口或者Web浏览器的客户端计算机,用户可以通过该图形用户接口或者Web浏览器来与这里描述的系统和技术的实施交互)或者这样的后端、中间件或者前端部件的任何组合。系统的部件可以由任何数字数据通信形式或者介质(例如通信网络)互连。通信网络的例子包括局域网(LAN)、广域网(WAN)和因特网。
计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助在相应计算机上运行并且相互具有客户端-服务器关系的计算机程序来产生。
虽然上文已经具体描述少数实施方式,但是其它修改是可能的。此外,在图中描绘的逻辑流程无需所示特定顺序或者依次顺序以实现希望的结果。此外,可以提供其它步骤或者可以从描绘的流程消除步骤,并且可以向描述的系统添加或者从描述的系统去除其它部件。因而其它实施方式在所附权利要求的范围内。
Claims (21)
1.一种计算机实施的方法,包括:
在计算设备的显示器屏幕上呈现包括来自字词网格的一个或者多个转录的字词的第一短语;
在所述计算设备处接收对来自所述第一短语的字词的用户选择;
响应于接收到对所述字词的所述用户选择,在所述计算设备的所述显示器屏幕上呈现(i)各自对应于用于来自所述字词网格的用户选择的所述字词的一个或者多个替代字词的一个或者多个控件,以及(ii)与用于去除用户选择的所述字词的去除命令对应的控件;
在所述计算设备处接收对与所述去除命令对应的所述控件的用户选择;以及
响应于接收到对与所述去除命令对应的所述控件的所述用户选择,(i)从所述字词网格选择不包括用户选择的所述字词的第二短语,以及(ii)在所述显示器屏幕上用所述第二短语取代所述第一短语。
2.根据权利要求1所述的方法,其中所述显示器屏幕包括触摸屏显示器,并且其中所述用户选择通过所述触摸屏显示器被接收。
3.根据权利要求1所述的方法,其中各自对应于一个或者多个替代字词的所述一个或者多个控件和与所述去除命令对应的所述控件正在与用户选择的所述字词相邻的下拉菜单中被呈现。
4.根据权利要求1所述的方法,其中所述字词网格包括与所述转录的字词和所述替代字词对应的节点、在所述节点之间的标识经过所述字词网格的可能路径的边,并且每个路径具有为正确的关联概率。
5.根据权利要求4所述的方法,还包括从所述字词网格中的用户选择的所述字词的开始节点与结束节点之间的一个或者多个替代路径标识用于用户选择的所述字词的所述替代字词。
6.根据权利要求4所述的方法,还包括从所述字词网格中的所述第一短语的开始节点与结束节点之间的至少一个替代路径标识用于呈现的所述转录的字词的第二替代短语。
7.一种用于纠正转录的文字中的字词的计算机实施的系统,所述系统包括:
转录系统,可操作用于接收语音音频数据并且作为响应将所述语音音频数据转录成字词网格;以及
计算设备,包括:
麦克风,可操作用于接收语音音频并且生成所述语音音频数据,
网络接口,可操作用于向所述转录系统发送所述语音音频数据并且作为响应从所述转录系统接收所述字词网格,
显示器屏幕,可操作用于呈现来自所述字词网格的一个或者多个转录的字词,
用户接口,可操作用于接收对所述转录的字词中的至少一个转录的字词的用户选择,
一个或者多个处理器和存储指令的存储器,所述指令在由所述处理器执行时使得所述计算设备执行以下操作:
在所述计算设备处接收由所述转录系统从所述语音音频数据转录的字词网格,
在计算设备的显示器屏幕上呈现包括来自字词网格的一个或者多个转录的字词的第一短语;
在所述计算设备处接收对来自所述第一短语的字词的用户选择;
响应于接收到对所述字词的所述用户选择,在所述计算设备的所述显示器屏幕上呈现(i)各自对应于用于来自所述字词网格的用户选择的所述字词的一个或者多个替代字词的一个或者多个控件,以及(ii)与用于去除用户选择的所述字词的去除命令对应的控件;
在所述计算设备处接收对与所述去除命令对应的所述控件的用户选择;以及
响应于接收到对与所述去除命令对应的所述控件的所述用户选择,(i)从所述字词网格选择不包括用户选择的所述字词的第二短语,以及(ii)在所述显示器屏幕上用所述第二短语取代所述第一短语。
8.根据权利要求7所述的系统,其中各自对应于一个或者多个替代字词的所述一个或者多个控件和与所述去除命令对应的所述控件正在与用户选择的所述字词相邻的下拉菜单中被呈现。
9.一种计算机实施的方法,包括:
从自动化语音识别器获得说话声的第一转录和第二转录,其中所述说话声的所述第二转录代表对所述说话声的所述第一转录的替代识别结果,并且其中所述说话声的所述第一转录的一部分不同于所述说话声的所述第二转录的对应部分;
提供所述说话声的所述第一转录以用于输出;
接收指示对所述说话声的所述第一转录的所述一部分的单个选择的数据;以及
响应于接收到指示所述单个选择的所述数据,提供所述说话声的所述第二转录以用于输出。
10.根据权利要求9所述的计算机实施的方法,其中所述说话声的所述第一转录包括来自字词网格的一个或者多个字词,并且所述说话声的所述第二转录包括来自所述字词网格的一个或者多个替代字词,所述一个或者多个替代字词对应于所述说话声的所述第一转录的所述一部分。
11.根据权利要求10所述的计算机实施的方法,其中所述字词网格包括与所述说话声的所述第一转录的字词和所述说话声的所述第二转录的字词对应的节点以及在所述节点之间的边,所述边标识经过所述字词网格的可能路径,其中每个路径具有为正确的关联概率。
12.根据权利要求9所述的计算机实施的方法,其中所述说话声的所述第一转录对应于来自所述自动化语音识别器的具有最高语音识别置信度分值的识别结果。
13.根据权利要求9所述的计算机实施的方法,其中所述说话声的所述第二转录对应于来自所述自动化语音识别器的、包括与所述说话声的所述第一转录的所述一部分对应的一个或者多个替代字词并且具有为正确的最高概率的识别结果。
14.根据权利要求9所述的计算机实施的方法,其中获得所述说话声的所述第二转录包括:
标识所述说话声的所述第一转录的所述一部分;
确定与所述说话声的所述第一转录的所述一部分对应的替代部分是最可能为正确替代部分的所述替代部分;以及
获得所述说话声的所述第二转录,所述说话声的所述第二转录包括最可能为正确替代部分的所述替代部分。
15.根据权利要求9所述的计算机实施的方法,其中:
所述说话声的所述第一转录和所述说话声的所述第二转录被提供用于在计算设备的触摸屏显示器处输出;以及
指示对所述说话声的所述第一转录的所述一部分的所述单个选择的所述数据响应于在所述计算设备的所述触摸屏显示器处的用户输入而被接收。
16.一种用于纠正转录的文字中的字词的计算机实施的系统,所述系统包括:
自动化语音识别器,可操作用于接收语音音频数据并且作为响应将所述语音音频数据转录成字词网格;以及
计算设备,包括:
麦克风,可操作用于接收语音音频并且生成所述语音音频数据,
网络接口,可操作用于向所述自动化语音识别器发送所述语音音频数据并且作为响应从所述自动化语音识别器接收所述字词网格,
显示器屏幕,可操作用于呈现来自所述字词网格的一个或者多个转录的字词,
用户接口,可操作用于接收对所述转录的字词中的至少一个转录的字词的用户选择,
一个或者多个处理器和存储指令的存储器,所述指令在由所述处理器执行时使得所述计算设备执行以下操作:
提供所述用户接口,所述用户接口包括(i)用于输出说话声的第一转录的输出区域,以及(ii)与所述说话声的第二转录相关联的控件,其中所述说话声的所述第二转录代表对所述说话声的所述第一转录的替代识别结果,并且其中所述说话声的所述第一转录的一部分不同于所述说话声的所述第二转录的对应部分;
在所述输出区域处呈现所述说话声的所述第一转录,其中所述说话声的所述第一转录包括来自所述字词网格的一个或者多个字词;
接收指示对与所述说话声的所述第二转录相关联的所述控件的选择;以及
更新所述输出区域以用所述说话声的所述第二转录取代所述说话声的所述第一转录。
17.根据权利要求16所述的系统,其中所述字词网格包括与所述说话声的所述第一转录和所述说话声的所述第二转录的字词对应的节点以及在所述节点之间的边,所述边标识经过所述字词网格的可能路径,其中每个路径具有为正确的关联概率。
18.根据权利要求17所述的系统,其中所述说话声的所述第一转录对应于经过所述字词网格的具有为正确的最高概率的路径。
19.根据权利要求17所述的系统,其中所述说话声的所述第二转录对应于经过所述字词网格的具有为正确的次最高概率的路径。
20.根据权利要求17所述的系统,其中所述说话声的所述第二转录对应于经过所述字词网格的作为除了经过所述字词网格的对应于所述说话声的所述第一转录的路径之外经过所述字词网格的唯一路径的路径。
21.根据权利要求16所述的系统,其中所述用户接口包括用于输出所述说话声的所述第二转录的第二输出区域。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29244010P | 2010-01-05 | 2010-01-05 | |
US61/292,440 | 2010-01-05 | ||
US12/913,407 US8494852B2 (en) | 2010-01-05 | 2010-10-27 | Word-level correction of speech input |
US12/913,407 | 2010-10-27 | ||
CN201180008973.4A CN102971725B (zh) | 2010-01-05 | 2011-01-05 | 语音输入的字词级纠正 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180008973.4A Division CN102971725B (zh) | 2010-01-05 | 2011-01-05 | 语音输入的字词级纠正 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105068987A true CN105068987A (zh) | 2015-11-18 |
CN105068987B CN105068987B (zh) | 2019-03-01 |
Family
ID=44225217
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810522217.7A Active CN108733655B (zh) | 2010-01-05 | 2011-01-05 | 语音输入的字词级纠正 |
CN201910118297.4A Active CN110110319B (zh) | 2010-01-05 | 2011-01-05 | 语音输入的字词级纠正 |
CN201711106138.XA Active CN108052498B (zh) | 2010-01-05 | 2011-01-05 | 纠正转录的文字中的字词的方法和系统 |
CN201180008973.4A Active CN102971725B (zh) | 2010-01-05 | 2011-01-05 | 语音输入的字词级纠正 |
CN201510420200.7A Active CN105068987B (zh) | 2010-01-05 | 2011-01-05 | 语音输入的字词级纠正方法及系统 |
Family Applications Before (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810522217.7A Active CN108733655B (zh) | 2010-01-05 | 2011-01-05 | 语音输入的字词级纠正 |
CN201910118297.4A Active CN110110319B (zh) | 2010-01-05 | 2011-01-05 | 语音输入的字词级纠正 |
CN201711106138.XA Active CN108052498B (zh) | 2010-01-05 | 2011-01-05 | 纠正转录的文字中的字词的方法和系统 |
CN201180008973.4A Active CN102971725B (zh) | 2010-01-05 | 2011-01-05 | 语音输入的字词级纠正 |
Country Status (6)
Country | Link |
---|---|
US (11) | US8494852B2 (zh) |
EP (6) | EP3318982A1 (zh) |
KR (3) | KR102128561B1 (zh) |
CN (5) | CN108733655B (zh) |
CA (5) | CA2977063A1 (zh) |
WO (1) | WO2011084998A2 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107086040A (zh) * | 2017-06-23 | 2017-08-22 | 歌尔股份有限公司 | 语音识别能力测试方法和装置 |
CN109767763A (zh) * | 2018-12-25 | 2019-05-17 | 苏州思必驰信息科技有限公司 | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 |
CN109791761A (zh) * | 2016-07-29 | 2019-05-21 | 谷歌有限责任公司 | 使用校正的术语的声学模型训练 |
CN115023761A (zh) * | 2020-01-30 | 2022-09-06 | 谷歌有限责任公司 | 语音识别 |
CN115605950A (zh) * | 2020-10-15 | 2023-01-13 | 谷歌有限责任公司(Us) | 跨计算设备和/或对话会话维护语音假设 |
Families Citing this family (292)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6630800A (en) * | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US8677377B2 (en) * | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) * | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080129520A1 (en) * | 2006-12-01 | 2008-06-05 | Apple Computer, Inc. | Electronic device with enhanced audio feedback |
US7912828B2 (en) * | 2007-02-23 | 2011-03-22 | Apple Inc. | Pattern searching methods and apparatuses |
US8977255B2 (en) * | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US9053089B2 (en) * | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) * | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) * | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) * | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8396714B2 (en) * | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8352272B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8352268B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8355919B2 (en) * | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) * | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110010179A1 (en) * | 2009-07-13 | 2011-01-13 | Naik Devang K | Voice synthesis and processing |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
EP3091535B1 (en) | 2009-12-23 | 2023-10-11 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US8494852B2 (en) * | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US20110167350A1 (en) * | 2010-01-06 | 2011-07-07 | Apple Inc. | Assist Features For Content Display Device |
US8600743B2 (en) * | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) * | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US9417754B2 (en) | 2011-08-05 | 2016-08-16 | P4tents1, LLC | User interface system, method, and computer program product |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9317605B1 (en) | 2012-03-21 | 2016-04-19 | Google Inc. | Presenting forked auto-completions |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9679568B1 (en) * | 2012-06-01 | 2017-06-13 | Google Inc. | Training a dialog system using user feedback |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
KR20140014510A (ko) * | 2012-07-24 | 2014-02-06 | 삼성전자주식회사 | 음성 인식에 의하여 형성된 문자의 편집 방법 및 그 단말 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
CN103714048B (zh) * | 2012-09-29 | 2017-07-21 | 国际商业机器公司 | 用于校正文本的方法和系统 |
US9697827B1 (en) * | 2012-12-11 | 2017-07-04 | Amazon Technologies, Inc. | Error reduction in speech processing |
CN103076893B (zh) * | 2012-12-31 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 一种用于实现语音输入的方法与设备 |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
KR102045382B1 (ko) * | 2013-02-13 | 2019-11-15 | 삼성전자주식회사 | 휴대 단말기에서 문자를 편집하는 장치 및 방법 |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN112230878B (zh) | 2013-03-15 | 2024-09-27 | 苹果公司 | 对中断进行上下文相关处理 |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9646606B2 (en) | 2013-07-03 | 2017-05-09 | Google Inc. | Speech recognition using domain knowledge |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9779724B2 (en) * | 2013-11-04 | 2017-10-03 | Google Inc. | Selecting alternates in speech recognition |
US8768712B1 (en) * | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
CN103645876B (zh) * | 2013-12-06 | 2017-01-18 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9448991B2 (en) * | 2014-03-18 | 2016-09-20 | Bayerische Motoren Werke Aktiengesellschaft | Method for providing context-based correction of voice recognition results |
USD819041S1 (en) | 2014-05-14 | 2018-05-29 | Touchtype Ltd. | Electronic device display with a keyboard graphical user interface |
USD818470S1 (en) | 2014-05-14 | 2018-05-22 | Touchtype Ltd. | Electronic display with a graphical user interface |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US9569062B2 (en) * | 2014-05-21 | 2017-02-14 | Facebook, Inc. | Asynchronous execution of animation tasks for a GUI |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
USD872119S1 (en) * | 2014-06-01 | 2020-01-07 | Apple Inc. | Display screen or portion thereof with animated graphical user interface |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
CN105446572A (zh) * | 2014-08-13 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 一种用于屏幕显示设备的文字编辑方法及装置 |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
USD791783S1 (en) | 2014-11-14 | 2017-07-11 | Touchtype Limited | Electronic device display with a keyboard graphical user interface |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9384188B1 (en) | 2015-01-27 | 2016-07-05 | Microsoft Technology Licensing, Llc | Transcription correction using multi-token structures |
WO2016126768A2 (en) * | 2015-02-03 | 2016-08-11 | Dolby Laboratories Licensing Corporation | Conference word cloud |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
JP2016181018A (ja) * | 2015-03-23 | 2016-10-13 | ソニー株式会社 | 情報処理システムおよび情報処理方法 |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
EP3089159B1 (en) | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10048842B2 (en) | 2015-06-15 | 2018-08-14 | Google Llc | Selection biasing |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN106328144A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种基于电话网络的远程语音控制系统 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9787819B2 (en) * | 2015-09-18 | 2017-10-10 | Microsoft Technology Licensing, Llc | Transcription of spoken communications |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
DK201670539A1 (en) * | 2016-03-14 | 2017-10-02 | Apple Inc | Dictation that allows editing |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN106098060B (zh) * | 2016-05-19 | 2020-01-31 | 北京搜狗科技发展有限公司 | 语音的纠错处理方法和装置、用于语音的纠错处理的装置 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
USD855636S1 (en) * | 2016-09-29 | 2019-08-06 | Beijing Sogou Technology Development Co., Ltd. | Mobile phone with graphical user interface |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10831366B2 (en) * | 2016-12-29 | 2020-11-10 | Google Llc | Modality learning on mobile devices |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10643601B2 (en) | 2017-02-09 | 2020-05-05 | Semantic Machines, Inc. | Detection mechanism for automated dialog systems |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10621282B1 (en) | 2017-10-27 | 2020-04-14 | Interactions Llc | Accelerating agent performance in a natural language processing system |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10629205B2 (en) * | 2018-06-12 | 2020-04-21 | International Business Machines Corporation | Identifying an accurate transcription from probabilistic inputs |
CN109325227A (zh) * | 2018-09-14 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于生成修正语句的方法和装置 |
JP7243106B2 (ja) | 2018-09-27 | 2023-03-22 | 富士通株式会社 | 修正候補提示方法、修正候補提示プログラムおよび情報処理装置 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN109461436B (zh) * | 2018-10-23 | 2020-12-15 | 广东小天才科技有限公司 | 一种语音识别发音错误的纠正方法及系统 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US10978069B1 (en) * | 2019-03-18 | 2021-04-13 | Amazon Technologies, Inc. | Word selection for natural language interface |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11023202B2 (en) | 2019-05-29 | 2021-06-01 | International Business Machines Corporation | Enhanced autocorrect features using audio interface |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021029627A1 (en) * | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | Server that supports speech recognition of device, and operation method of the server |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11961511B2 (en) * | 2019-11-08 | 2024-04-16 | Vail Systems, Inc. | System and method for disambiguation and error resolution in call transcripts |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11900921B1 (en) | 2020-10-26 | 2024-02-13 | Amazon Technologies, Inc. | Multi-device speech processing |
KR20220124547A (ko) * | 2021-03-03 | 2022-09-14 | 삼성전자주식회사 | 사용자의 음성 입력을 정정하는 전자 장치 및 그 동작 방법 |
US12112742B2 (en) | 2021-03-03 | 2024-10-08 | Samsung Electronics Co., Ltd. | Electronic device for correcting speech input of user and operating method thereof |
US11967306B2 (en) | 2021-04-14 | 2024-04-23 | Honeywell International Inc. | Contextual speech recognition methods and systems |
US11721347B1 (en) * | 2021-06-29 | 2023-08-08 | Amazon Technologies, Inc. | Intermediate data for inter-device speech processing |
CN113779972B (zh) * | 2021-09-10 | 2023-09-15 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
US20230335124A1 (en) * | 2022-04-14 | 2023-10-19 | Google Llc | Comparison Scoring For Hypothesis Ranking |
US11880645B2 (en) | 2022-06-15 | 2024-01-23 | T-Mobile Usa, Inc. | Generating encoded text based on spoken utterances using machine learning systems and methods |
KR20240039363A (ko) * | 2022-09-19 | 2024-03-26 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
CN1555553A (zh) * | 2001-09-17 | 2004-12-15 | �ʼҷ����ֵ��ӹɷ�����˾ | 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本 |
US20070100635A1 (en) * | 2005-10-28 | 2007-05-03 | Microsoft Corporation | Combined speech and alternate input modality to a mobile device |
CN101042867A (zh) * | 2006-03-24 | 2007-09-26 | 株式会社东芝 | 语音识别设备和方法 |
CN101238508A (zh) * | 2005-08-05 | 2008-08-06 | 微软公司 | 使用备选列表重述错误识别的词语 |
Family Cites Families (124)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5909666A (en) * | 1992-11-13 | 1999-06-01 | Dragon Systems, Inc. | Speech recognition system which creates acoustic models by concatenating acoustic models of individual words |
US5367453A (en) * | 1993-08-02 | 1994-11-22 | Apple Computer, Inc. | Method and apparatus for correcting words |
DE69423838T2 (de) * | 1993-09-23 | 2000-08-03 | Xerox Corp., Rochester | Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen |
US5864815A (en) * | 1995-07-31 | 1999-01-26 | Microsoft Corporation | Method and system for displaying speech recognition status information in a visual notification area |
US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
US5855000A (en) * | 1995-09-08 | 1998-12-29 | Carnegie Mellon University | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input |
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US5794189A (en) * | 1995-11-13 | 1998-08-11 | Dragon Systems, Inc. | Continuous speech recognition |
US6055515A (en) * | 1996-07-30 | 2000-04-25 | International Business Machines Corporation | Enhanced tree control system for navigating lattices data structures and displaying configurable lattice-node labels |
US5857099A (en) * | 1996-09-27 | 1999-01-05 | Allvoice Computing Plc | Speech-to-text dictation system with audio message capability |
GB2303955B (en) * | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5899976A (en) * | 1996-10-31 | 1999-05-04 | Microsoft Corporation | Method and system for buffering recognized words during speech recognition |
US5829000A (en) * | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
US5952942A (en) * | 1996-11-21 | 1999-09-14 | Motorola, Inc. | Method and device for input of text messages from a keypad |
US5864805A (en) * | 1996-12-20 | 1999-01-26 | International Business Machines Corporation | Method and apparatus for error correction in a continuous dictation system |
US5953541A (en) * | 1997-01-24 | 1999-09-14 | Tegic Communications, Inc. | Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use |
US5909667A (en) * | 1997-03-05 | 1999-06-01 | International Business Machines Corporation | Method and apparatus for fast voice selection of error words in dictated text |
DE69817844T2 (de) * | 1997-06-27 | 2004-05-06 | M.H. Segan Ltd. Partnership, Great Barrington | Verfahren und vorrichtung zur spracherkennungscomputereingabe |
US6182028B1 (en) | 1997-11-07 | 2001-01-30 | Motorola, Inc. | Method, device and system for part-of-speech disambiguation |
US7203288B1 (en) * | 1997-11-21 | 2007-04-10 | Dictaphone Corporation | Intelligent routing of voice files in voice data management system |
US6397179B2 (en) * | 1997-12-24 | 2002-05-28 | Nortel Networks Limited | Search optimization system and method for continuous speech recognition |
JP2991178B2 (ja) * | 1997-12-26 | 1999-12-20 | 日本電気株式会社 | 音声ワープロ |
US5970451A (en) * | 1998-04-14 | 1999-10-19 | International Business Machines Corporation | Method for correcting frequently misrecognized words or command in speech application |
US6424983B1 (en) | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
US6374220B1 (en) * | 1998-08-05 | 2002-04-16 | Texas Instruments Incorporated | N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states |
US6606598B1 (en) | 1998-09-22 | 2003-08-12 | Speechworks International, Inc. | Statistical computing and reporting for interactive speech applications |
US6405170B1 (en) | 1998-09-22 | 2002-06-11 | Speechworks International, Inc. | Method and system of reviewing the behavior of an interactive speech recognition application |
US20010025232A1 (en) * | 1998-10-02 | 2001-09-27 | Klimasauskas Casimir C. | Hybrid linear-neural network process control |
US6192343B1 (en) * | 1998-12-17 | 2001-02-20 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms |
US6397181B1 (en) * | 1999-01-27 | 2002-05-28 | Kent Ridge Digital Labs | Method and apparatus for voice annotation and retrieval of multimedia data |
KR100828884B1 (ko) * | 1999-03-05 | 2008-05-09 | 캐논 가부시끼가이샤 | 데이터베이스 주석 및 검색 |
ATE281689T1 (de) * | 1999-03-26 | 2004-11-15 | Scansoft Inc | Client-server spracherkennungssystem |
US6314397B1 (en) * | 1999-04-13 | 2001-11-06 | International Business Machines Corp. | Method and apparatus for propagating corrections in speech recognition software |
US6327566B1 (en) * | 1999-06-16 | 2001-12-04 | International Business Machines Corporation | Method and apparatus for correcting misinterpreted voice commands in a speech recognition system |
US6374214B1 (en) * | 1999-06-24 | 2002-04-16 | International Business Machines Corp. | Method and apparatus for excluding text phrases during re-dictation in a speech recognition system |
US6789231B1 (en) * | 1999-10-05 | 2004-09-07 | Microsoft Corporation | Method and system for providing alternatives for text derived from stochastic input sources |
US6581033B1 (en) * | 1999-10-19 | 2003-06-17 | Microsoft Corporation | System and method for correction of speech recognition mode errors |
US7310600B1 (en) * | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US7212968B1 (en) * | 1999-10-28 | 2007-05-01 | Canon Kabushiki Kaisha | Pattern matching method and apparatus |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
WO2001084535A2 (en) * | 2000-05-02 | 2001-11-08 | Dragon Systems, Inc. | Error correction in speech recognition |
US7149970B1 (en) | 2000-06-23 | 2006-12-12 | Microsoft Corporation | Method and system for filtering and selecting from a candidate list generated by a stochastic input method |
US6856956B2 (en) * | 2000-07-20 | 2005-02-15 | Microsoft Corporation | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system |
US6836759B1 (en) * | 2000-08-22 | 2004-12-28 | Microsoft Corporation | Method and system of handling the selection of alternates for recognized words |
US7216077B1 (en) * | 2000-09-26 | 2007-05-08 | International Business Machines Corporation | Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation |
EP1209659B1 (en) * | 2000-11-22 | 2005-10-05 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for text input utilizing speech recognition |
WO2003009570A1 (en) * | 2001-07-18 | 2003-01-30 | Min-Kyum Kim | Apparatus and method for inputting alphabet characters |
US7027988B1 (en) * | 2001-07-20 | 2006-04-11 | At&T Corp. | System and method of ε removal of weighted automata and transducers |
US7809574B2 (en) * | 2001-09-05 | 2010-10-05 | Voice Signal Technologies Inc. | Word recognition using choice lists |
US7444286B2 (en) * | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
US7149550B2 (en) * | 2001-11-27 | 2006-12-12 | Nokia Corporation | Communication terminal having a text editor application with a word completion feature |
US20030112277A1 (en) * | 2001-12-14 | 2003-06-19 | Koninklijke Philips Electronics N.V. | Input of data using a combination of data input systems |
US6928407B2 (en) * | 2002-03-29 | 2005-08-09 | International Business Machines Corporation | System and method for the automatic discovery of salient segments in speech transcripts |
JP3762327B2 (ja) * | 2002-04-24 | 2006-04-05 | 株式会社東芝 | 音声認識方法および音声認識装置および音声認識プログラム |
EP1525739A1 (en) | 2002-07-29 | 2005-04-27 | British Telecommunications Public Limited Company | Improvements in or relating to information provision for call centres |
US7386454B2 (en) * | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
EP1604350A4 (en) * | 2002-09-06 | 2007-11-21 | Voice Signal Technologies Inc | METHODS, SYSTEMS AND PROGRAMMING FOR REALIZING VOICE RECOGNITION |
US7003457B2 (en) * | 2002-10-29 | 2006-02-21 | Nokia Corporation | Method and system for text editing in hand-held electronic device |
KR100668297B1 (ko) * | 2002-12-31 | 2007-01-12 | 삼성전자주식회사 | 음성인식방법 및 장치 |
US7516070B2 (en) * | 2003-02-19 | 2009-04-07 | Custom Speech Usa, Inc. | Method for simultaneously creating audio-aligned final and verbatim text with the assistance of a speech recognition program as may be useful in form completion using a verbal entry method |
JP2004334193A (ja) * | 2003-05-01 | 2004-11-25 | Microsoft Corp | 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム |
EP1654727A4 (en) * | 2003-07-23 | 2007-12-26 | Nexidia Inc | INTERROGATIONS FOR THE DETECTION OF WORDS |
US7395203B2 (en) * | 2003-07-30 | 2008-07-01 | Tegic Communications, Inc. | System and method for disambiguating phonetic input |
US7475015B2 (en) * | 2003-09-05 | 2009-01-06 | International Business Machines Corporation | Semantic language modeling and confidence measurement |
US7440895B1 (en) * | 2003-12-01 | 2008-10-21 | Lumenvox, Llc. | System and method for tuning and testing in a speech recognition system |
US7729912B1 (en) * | 2003-12-23 | 2010-06-01 | At&T Intellectual Property Ii, L.P. | System and method for latency reduction for automatic speech recognition using partial multi-pass results |
US20060036438A1 (en) * | 2004-07-13 | 2006-02-16 | Microsoft Corporation | Efficient multimodal method to provide input to a computing device |
KR100651384B1 (ko) * | 2004-09-16 | 2006-11-29 | 삼성전자주식회사 | 휴대용 단말기의 키 입력 방법 및 장치 |
JP4604178B2 (ja) * | 2004-11-22 | 2010-12-22 | 独立行政法人産業技術総合研究所 | 音声認識装置及び方法ならびにプログラム |
US8275618B2 (en) * | 2004-12-22 | 2012-09-25 | Nuance Communications, Inc. | Mobile dictation correction user interface |
US8438142B2 (en) * | 2005-05-04 | 2013-05-07 | Google Inc. | Suggesting and refining user input based on original user input |
US20060293889A1 (en) * | 2005-06-27 | 2006-12-28 | Nokia Corporation | Error correction for speech recognition systems |
US20060293890A1 (en) | 2005-06-28 | 2006-12-28 | Avaya Technology Corp. | Speech recognition assisted autocompletion of composite characters |
DE102005030963B4 (de) * | 2005-06-30 | 2007-07-19 | Daimlerchrysler Ag | Verfahren und Vorrichtung zur Bestätigung und/oder Korrektur einer einem Spracherkennungssystems zugeführten Spracheingabe |
US20070011012A1 (en) | 2005-07-11 | 2007-01-11 | Steve Yurick | Method, system, and apparatus for facilitating captioning of multi-media content |
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US7930168B2 (en) * | 2005-10-04 | 2011-04-19 | Robert Bosch Gmbh | Natural language processing of disfluent sentences |
US20070106732A1 (en) * | 2005-11-10 | 2007-05-10 | Nokia Corporation | Mobile communication terminal and method therefor |
CN1979638A (zh) * | 2005-12-02 | 2007-06-13 | 中国科学院自动化研究所 | 一种语音识别结果纠错方法 |
US20070208567A1 (en) * | 2006-03-01 | 2007-09-06 | At&T Corp. | Error Correction In Automatic Speech Recognition Transcripts |
KR100778668B1 (ko) * | 2006-03-24 | 2007-11-22 | 삼성전자주식회사 | 휴대용 단말기에서 데이터 입력 장치 및 방법 |
WO2007121441A2 (en) | 2006-04-17 | 2007-10-25 | Vovision Llc | Methods and systems for correcting transcribed audio files |
US8209175B2 (en) * | 2006-06-08 | 2012-06-26 | Microsoft Corporation | Uncertainty interval content sensing within communications |
US7675435B2 (en) * | 2006-08-31 | 2010-03-09 | Microsoft Corporation | Smart filtering with multiple simultaneous keyboard inputs |
US7949536B2 (en) | 2006-08-31 | 2011-05-24 | Microsoft Corporation | Intelligent speech recognition of incomplete phrases |
US8214210B1 (en) * | 2006-09-19 | 2012-07-03 | Oracle America, Inc. | Lattice-based querying |
JP2008090625A (ja) * | 2006-10-02 | 2008-04-17 | Sharp Corp | 文字入力装置、文字入力方法、制御プログラム、および、記録媒体 |
US9830912B2 (en) * | 2006-11-30 | 2017-11-28 | Ashwin P Rao | Speak and touch auto correction interface |
US7953627B2 (en) | 2006-12-12 | 2011-05-31 | American Express Travel Related Services Company, Inc. | Identifying industry segments with highest potential for new customers or new spending for current customers |
US20080154576A1 (en) * | 2006-12-21 | 2008-06-26 | Jianchao Wu | Processing of reduced-set user input text with selected one of multiple vocabularies and resolution modalities |
JP4867654B2 (ja) * | 2006-12-28 | 2012-02-01 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
JP4812029B2 (ja) * | 2007-03-16 | 2011-11-09 | 富士通株式会社 | 音声認識システム、および、音声認識プログラム |
CN101295293B (zh) * | 2007-04-29 | 2010-06-02 | 摩托罗拉公司 | 用于对表意字符的输入字符串进行自动纠错的方法 |
US20080300874A1 (en) * | 2007-06-04 | 2008-12-04 | Nexidia Inc. | Speech skills assessment |
US8831946B2 (en) * | 2007-07-23 | 2014-09-09 | Nuance Communications, Inc. | Method and system of indexing speech data |
US8413049B2 (en) * | 2007-08-31 | 2013-04-02 | Research In Motion Limited | Handheld electronic device and associated method enabling the generation of a proposed character interpretation of a phonetic text input in a text disambiguation environment |
US8036464B2 (en) * | 2007-09-07 | 2011-10-11 | Satyam Computer Services Limited | System and method for automatic segmentation of ASR transcripts |
JP4839291B2 (ja) * | 2007-09-28 | 2011-12-21 | Kddi株式会社 | 音声認識装置およびコンピュータプログラム |
US8155959B2 (en) * | 2007-11-07 | 2012-04-10 | Robert Bosch Gmbh | Dialog system for human agent to correct abnormal output |
DE102008051756A1 (de) * | 2007-11-12 | 2009-05-14 | Volkswagen Ag | Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen |
KR101170612B1 (ko) * | 2008-03-11 | 2012-08-03 | 에스케이 텔레콤주식회사 | 사용자 영상을 이용한 음성인식 시스템 및 방법 |
KR101462932B1 (ko) * | 2008-05-28 | 2014-12-04 | 엘지전자 주식회사 | 이동 단말기 및 그의 텍스트 수정방법 |
US20090326938A1 (en) * | 2008-05-28 | 2009-12-31 | Nokia Corporation | Multiword text correction |
KR100988397B1 (ko) * | 2008-06-09 | 2010-10-19 | 엘지전자 주식회사 | 이동 단말기 및 그의 텍스트 수정방법 |
JP5226401B2 (ja) * | 2008-06-25 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文書データの検索を支援する装置及び方法 |
US8768852B2 (en) | 2009-01-13 | 2014-07-01 | Amazon Technologies, Inc. | Determining phrases related to other phrases |
CN101539929B (zh) * | 2009-04-17 | 2011-04-06 | 无锡天脉聚源传媒科技有限公司 | 利用计算机系统进行的电视新闻标引方法 |
US8739055B2 (en) | 2009-05-07 | 2014-05-27 | Microsoft Corporation | Correction of typographical errors on touch displays |
US8407617B2 (en) * | 2009-09-11 | 2013-03-26 | Visual Study Bible, Llc | Providing a visual representation of various resources related to passages of classic literature |
US9275640B2 (en) * | 2009-11-24 | 2016-03-01 | Nexidia Inc. | Augmented characterization for speech recognition |
US8589163B2 (en) * | 2009-12-04 | 2013-11-19 | At&T Intellectual Property I, L.P. | Adapting language models with a bit mask for a subset of related words |
US8903793B2 (en) | 2009-12-15 | 2014-12-02 | At&T Intellectual Property I, L.P. | System and method for speech-based incremental search |
US8914401B2 (en) * | 2009-12-30 | 2014-12-16 | At&T Intellectual Property I, L.P. | System and method for an N-best list interface |
US8494852B2 (en) * | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US8782556B2 (en) | 2010-02-12 | 2014-07-15 | Microsoft Corporation | User-centric soft keyboard predictive technologies |
US20120016671A1 (en) * | 2010-07-15 | 2012-01-19 | Pawan Jaggi | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions |
US9099087B2 (en) * | 2010-09-03 | 2015-08-04 | Canyon IP Holdings, LLC | Methods and systems for obtaining language models for transcribing communications |
US9418152B2 (en) * | 2011-02-09 | 2016-08-16 | Nice-Systems Ltd. | System and method for flexible speech to text search mechanism |
WO2012116110A1 (en) * | 2011-02-22 | 2012-08-30 | Speak With Me, Inc. | Hybridized client-server speech recognition |
US8972240B2 (en) * | 2011-05-19 | 2015-03-03 | Microsoft Corporation | User-modifiable word lattice display for editing documents and search queries |
US9009041B2 (en) * | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
JP2013025299A (ja) * | 2011-07-26 | 2013-02-04 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
US9384736B2 (en) | 2012-08-21 | 2016-07-05 | Nuance Communications, Inc. | Method to provide incremental UI response based on multiple asynchronous evidence about user input |
-
2010
- 2010-10-27 US US12/913,407 patent/US8494852B2/en active Active
-
2011
- 2011-01-05 KR KR1020187013338A patent/KR102128561B1/ko active IP Right Grant
- 2011-01-05 WO PCT/US2011/020218 patent/WO2011084998A2/en active Application Filing
- 2011-01-05 CN CN201810522217.7A patent/CN108733655B/zh active Active
- 2011-01-05 EP EP17207258.9A patent/EP3318982A1/en not_active Withdrawn
- 2011-01-05 CA CA2977063A patent/CA2977063A1/en not_active Abandoned
- 2011-01-05 KR KR1020127020493A patent/KR101801308B1/ko active IP Right Grant
- 2011-01-05 CN CN201910118297.4A patent/CN110110319B/zh active Active
- 2011-01-05 CA CA2977076A patent/CA2977076A1/en not_active Abandoned
- 2011-01-05 CN CN201711106138.XA patent/CN108052498B/zh active Active
- 2011-01-05 EP EP11732082.0A patent/EP2531932A4/en not_active Ceased
- 2011-01-05 CA CA2786313A patent/CA2786313A1/en not_active Abandoned
- 2011-01-05 CN CN201180008973.4A patent/CN102971725B/zh active Active
- 2011-01-05 EP EP17207249.8A patent/EP3318980A1/en not_active Withdrawn
- 2011-01-05 EP EP17207254.8A patent/EP3318981A1/en not_active Withdrawn
- 2011-01-05 EP EP17207269.6A patent/EP3318984A1/en not_active Ceased
- 2011-01-05 CA CA3030743A patent/CA3030743A1/en not_active Abandoned
- 2011-01-05 KR KR1020177017613A patent/KR101859709B1/ko active IP Right Grant
- 2011-01-05 CN CN201510420200.7A patent/CN105068987B/zh active Active
- 2011-01-05 CA CA2977095A patent/CA2977095A1/en not_active Abandoned
- 2011-01-05 EP EP17207263.9A patent/EP3318983A1/en not_active Withdrawn
- 2011-09-30 US US13/249,539 patent/US8478590B2/en active Active
-
2013
- 2013-07-22 US US13/947,284 patent/US9087517B2/en active Active
-
2015
- 2015-06-23 US US14/747,306 patent/US9263048B2/en active Active
-
2016
- 2016-01-05 US US14/988,201 patent/US9466287B2/en active Active
- 2016-02-17 US US15/045,571 patent/US9542932B2/en active Active
- 2016-11-14 US US15/350,309 patent/US9711145B2/en active Active
-
2017
- 2017-05-30 US US15/608,110 patent/US9881608B2/en active Active
- 2017-12-21 US US15/849,967 patent/US10672394B2/en active Active
-
2020
- 2020-04-21 US US16/854,670 patent/US11037566B2/en active Active
-
2021
- 2021-06-07 US US17/340,729 patent/US20210295842A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
CN1555553A (zh) * | 2001-09-17 | 2004-12-15 | �ʼҷ����ֵ��ӹɷ�����˾ | 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本 |
CN101238508A (zh) * | 2005-08-05 | 2008-08-06 | 微软公司 | 使用备选列表重述错误识别的词语 |
US20070100635A1 (en) * | 2005-10-28 | 2007-05-03 | Microsoft Corporation | Combined speech and alternate input modality to a mobile device |
CN101042867A (zh) * | 2006-03-24 | 2007-09-26 | 株式会社东芝 | 语音识别设备和方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109791761A (zh) * | 2016-07-29 | 2019-05-21 | 谷歌有限责任公司 | 使用校正的术语的声学模型训练 |
CN109791761B (zh) * | 2016-07-29 | 2023-04-25 | 谷歌有限责任公司 | 使用校正的术语的声学模型训练 |
CN107086040A (zh) * | 2017-06-23 | 2017-08-22 | 歌尔股份有限公司 | 语音识别能力测试方法和装置 |
CN107086040B (zh) * | 2017-06-23 | 2021-03-02 | 歌尔股份有限公司 | 语音识别能力测试方法和装置 |
CN109767763A (zh) * | 2018-12-25 | 2019-05-17 | 苏州思必驰信息科技有限公司 | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 |
CN115023761A (zh) * | 2020-01-30 | 2022-09-06 | 谷歌有限责任公司 | 语音识别 |
CN115605950A (zh) * | 2020-10-15 | 2023-01-13 | 谷歌有限责任公司(Us) | 跨计算设备和/或对话会话维护语音假设 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102971725B (zh) | 语音输入的字词级纠正 | |
US9002708B2 (en) | Speech recognition system and method based on word-level candidate generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |