CN113506567A - 基于场境的语音识别语法选择方法和系统 - Google Patents
基于场境的语音识别语法选择方法和系统 Download PDFInfo
- Publication number
- CN113506567A CN113506567A CN202110625294.7A CN202110625294A CN113506567A CN 113506567 A CN113506567 A CN 113506567A CN 202110625294 A CN202110625294 A CN 202110625294A CN 113506567 A CN113506567 A CN 113506567A
- Authority
- CN
- China
- Prior art keywords
- grammar
- computing device
- user
- search
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title abstract description 3
- 238000000034 method Methods 0.000 claims abstract description 63
- 230000015654 memory Effects 0.000 claims description 35
- 230000002441 reversible effect Effects 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 5
- 238000013518 transcription Methods 0.000 claims 22
- 230000035897 transcription Effects 0.000 claims 22
- 238000012545 processing Methods 0.000 abstract description 22
- 230000001755 vocal effect Effects 0.000 abstract description 5
- 230000001413 cellular effect Effects 0.000 description 33
- 238000004891 communication Methods 0.000 description 17
- 230000006399 behavior Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 235000014510 cooky Nutrition 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Automation & Control Theory (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开涉及基于场境的语音识别语法选择方法和系统。除其它外,本说明书的主题可以实现在包括以下的方法中:接收从与第一计算设备相关联的非语言用户行为取得的地理信息。非语言用户行为暗示用户对地理位置感兴趣。该方法还包括使用取得的地理信息来识别与该地理位置相关联的语法,以及输出语法指示符以供在选择所识别的语法对来自用户的话音输入进行语音识别处理中使用。
Description
分案说明
本申请属于申请日为2009年3月6日的中国发明专利申请No.201710202874.9的分案申请。
技术领域
本说明书涉及语音识别。
背景技术
多模式应用可以接受多种类型或模式的输入。例如,多模式应用可以从用户接受诸如键入命令和鼠标点击的输入;然而,多模式应用还可以接受诸如语音输入的其它形式的输入。语音识别系统可以使用包括特定词汇表的语法来解释语音输入。
某些多模式应用实现表格填充模型,其中应用中的不同输入字段与不同语法相关联。例如,多模式应用可以将包括名称的词汇表的“名称”语法与接受人的名称的“名称”字段相关联。在某人用他或她的鼠标选择“名称”字段时,多模式应用可以选择与该字段相关联的“名称”语法。
发明内容
总的来说,本文档描述了选择用于在语音识别中使用的语法,其中该语法基于隐式场境(context)信息来选择,所述隐式场境信息基于一个或多个用户行为。
在第一总括方面,描述了一种计算机实现的方法。该方法包括接收从与第一计算设备相关联的非语言用户行为取得的地理信息。该非语言用户行为暗示用户对地理位置感兴趣。该方法还包括使用取得的地理信息来识别与该地理位置相关联的语法,以及输出语法指示符以供在选择所识别的语法对来自用户的话音输入进行语音识别处理中使用。
在第二总括方面,描述了一种计算机实现的方法,其包括基于与计算设备相关联的用户行为接收场境信息,其中语音识别处理器不提示(unprompted)该用户行为。该方法包括基于该场境信息取得地理位置,识别与该地理位置相关联的语法,以及输出语法标识符以供在选择所述语法用来处理来自所述用户的话音输入中使用
在又一个总括方面,描述了一个系统。该系统包括基于与第一计算设备相关联的非语言用户行为来接收场境信息的接口。该非语言用户行为暗示用户对地理感兴趣。该系统还包括用于识别与从所接收的场境信息取得的地理位置相关联的语法的装置,以及配置为使用所识别的语法来解释从用户接收的话音输入的语音识别服务器。
在此描述的系统和技术可以提供以下优势的一个或多个。首先,系统可以通过识别语法的适当子集而不是使用更大的普通语法来提高识别话音输入的速度。额外地,选择语法的子集对于在与该子集相关联的特定场境内给定的话音命令可以提高语音识别的准确性。系统还可以减少在语音识别过程中的用户交互量。此外,可以以对用户透明的方式(例如,基于与软件应用的用户交互而不是基于对语音识别系统的提示的明确用户回答)选择额外或新的语法。
在下面的附图和描述中阐述了一个或多个实施例的细节。其它特征和优势从描述和附图、以及从权利要求将是显而易见的。
附图说明
图1是用于选择在计算机实现的语音识别中使用的语法的示例性系统的图。
图2是在选择用于语音识别的语法中使用的示例性客户端和示例性音频处理系统的图。
图3是用于基于场境信息来选择语法的示例性方法的流程图。
图4示出了用于客户端的与音频处理系统交互的用户界面的示例性截屏。
图5是可以用于实现所描述的系统和方法的计算设备的框图。
在各个附图中相同的参考符号指示相同的元素。
具体实施方式
本文档描述了用于选择在话音识别中使用的语法的系统和技术。更具体地,应用可以基于用户与运行该应用的设备如何交互来生成场境信息。所述设备可以将所述场境信息传送给语音识别系统。语音识别系统可以识别与所述场境信息相关联的特定语法,并且可以随后在对从所述设备接收的话音输入(例如,来自所述设备的用户的语音命令)进行音频识别中使用所识别的语法。
在一些实施方式中,场境信息包括地理信息。如果用户使用蜂窝电话上的移动浏览器来查看地图,则该蜂窝电话可以将与所述地图显示的地理位置有关的信息传送给语音识别系统。语音识别系统可以基于所接收的信息来识别所述地理位置,以及可以选择与所述地理位置相关联的语法,所述语法包括词的词汇表、句法等。语音识别系统可以使用所选择的语法来解释随后从所述蜂窝电话接收的话音输入。
用户可以选择允许与该用户相关联的设备(例如,通过分配给该用户的唯一标识符—诸如cookie)与语音识别系统共享场境信息。如果用户不选择共享场境信息,则语音识别系统可以使用默认语法或为用于在选择在语音识别处理中使用的特定语法时使用的地理或其它场境信息明确提示用户。
图1是用于选择在计算机实现的语音识别中使用的语法的示例性系统100的图。在一些实施方式中,示例性系统100基于作为用户行为的结果生成的隐式场境信息来选择语法。系统100包括客户端设备102、语法选择服务器104和语音识别服务器106。
在图1的实施方式中,客户端102将场境信息传送给语法选择服务器104,其使用所述场境信息来选择语法。语法选择服务器将与所选择的语法有关的信息发送给语音识别服务器106,其使用所选择的语法来解释从客户端102接收的音频输入。
例如,客户端102可以是正在运行移动浏览器108的蜂窝电话。用户可以将搜索输入到移动浏览器以识别出售“冰屋”的企业。浏览器可以显示示出了位于加拿大的南、北达科他州和明尼苏达州的相关企业的地图。用户可能先前已输入了由浏览器使用来识别用于在地图上示出的位置的位置标识符,诸如邮编。用户可以在先前会话中输入位置标识符,以及浏览器可以存储标识符以供在随后会话中使用(例如,位置标识符可以作为cookie被存储在客户端上)。
在其它实施方式中,蜂窝电话运行专用应用108,而不是移动浏览器108。例如,专用应用108可以不能够浏览网页,但是可以被配置为与诸如在线地图应用的特定远程应用对接。
在蜂窝电话102上运行的移动浏览器或另一个应用如标记“1”的箭头所指示可以将隐式地理信息114传送给语法选择服务器。在一些实施方式中,场境信息包括基于移动浏览器108显示的地图的隐式地理信息114。例如,隐式地理信息114可以包括识别所显示的地图的中心的坐标。在该示例中,地图的中心与在明尼苏达州的中间的位置一致。
语法选择服务器104可以基于所接收的场境信息来选择116语法。在一些实施方式中,如果场境信息包括地理信息114,则语法选择服务器可以访问识别与地理位置相关联的语法112的数据存储110。特定语法可以与特定地理位置相关联。
语法112中的每一个可以包括和与相应的地理位置相关联的词汇表相对应的词汇表。例如,与明尼苏达州明尼阿波利斯相关联的语法可以包括描述位于明尼阿波利斯或与明尼阿波利斯关联地发生的企业、兴趣点、事件、新闻等的词或短语。
在图1中,隐式地理信息114包括位于明尼苏达州的中间的位置的坐标。语法选择服务器识别锚定在最接近于明尼苏达州的中间的位置处或具有在该位置处的中心的语法。语法选择服务器如标记“2A”和“2B”的箭头所指示可以生成识别语法的信息118。
在一些实施方式中,然后,语法选择服务器104如标记“3”的箭头所指示将所识别的语法信息118传送给语音识别服务器106。
用户可以对蜂窝电话102说话,蜂窝电话102如箭头“4”所指示将话音输入120传送给语音识别服务器106。语音识别服务器106可以使用语法选择服务器104已识别的语法来解释话音输入120。
识别服务器106可以基于话音输入来执行一个或多个动作。在一些实施方式中,语音识别服务器106如标记“5”的箭头所指示可以基于话音输入将响应传送回蜂窝电话102。例如,蜂窝电话102的用户可以可听见地请求对“Paul Bunyan”的新搜索。蜂窝电话102可以将话音搜索请求传送给语音识别服务器106。由于用户当前在移动浏览器108上查看(或先前查看过)的地图以明尼苏达州为中心,所以语音识别服务器106使用锚定在明尼苏达州的中心附近的位置处或以该位置为中心的语法。语音识别服务器106使用该语法来搜索与话音输入“Paul Bunyan”相对应的声音、词、短语。在一些实施方式中,由于词语“PaulBunyan”相对于世界的其它部分同与明尼苏达州相关联的信息更频繁地关联,所以锚定在明尼苏达州附近或之内的语法可以包括用于解释名称“Paul Bunyan”的信息。
语音识别服务器106可以传送文本“Paul Bunyan”,其对应于来自蜂窝电话102的话音输入。蜂窝电话102可以在移动浏览器108上显示所接收的文本。如果用户认可语音识别服务器106执行的翻译,则浏览器可以通过将文本“Paul Bunyan”作为搜索词语提交给搜索引擎来发起新的搜索。在其它实施方式中,语音识别服务器106可以在没有来自蜂窝电话102的用户的认可的情况下使用词语“Paul Bunyan”来发起搜索。语音识别服务器106可以在先前没有传送从话音输入识别的文本的情况下将来自搜索的结果传送给蜂窝电话102。
图1的标记箭头指示在系统100中发生的事件的示例性序列。然而,事件的发生不限于所示的序列。例如,序列中的一个或多个步骤可以并行发生。
图2是在选择用于语音识别的语法中使用的示例性客户端200和示例性音频处理系统202的图。客户端200和音频处理系统202可以使用在一些实施方式中可以包括因特网和蜂窝网络的网络204来通信。客户端200可以包括进而包括应用环境208的蜂窝电话或其它移动设备206。应用环境208可以包括因特网浏览器210、麦克风接口212以及GPS收发器接口214。音频处理系统202可以包括提供音频处理系统202与客户端200的接口的多模式服务器216、语法选择服务器218以及语音识别服务器220。
应用环境208内的应用可以生成或识别地理联系信息222,并且将该信息传送给多模式服务器216。例如,GPS收发器接口214可以基于蜂窝电话206的位置从GPS收发器接收GPS坐标。GPS收发器接口214可以将GPS坐标信息传送给多模式服务器216。
在一些实施方式中,GPS坐标信息可以附加为包括在浏览器210提交给多模式服务器216的超文本传输协议(HTTP)POST命令中的统一资源定位符(URI)的部分。在使用不同于浏览器的应用的其它实施方式中,应用可以生成HTTP GET命令,其中命令中的URI包括GPS坐标信息(或其它场境信息)。在另一个实施方式中,GPS坐标或其它场境信息不附加在URI中,而是作为二进制信息包括在HTTP请求(例如,GET或POST)的主体中。
在另一个示例中,浏览器210可以传送与浏览器210显示的项有关的地理场境信息。例如,如果用户查看包括百慕大群岛的多次提及的网页,则浏览器210可以传送指定百慕大群岛的地理场境信息。
多模式服务器216可以接收地理场境信息222,并且可以将该信息转送给语法选择服务器218。语法选择服务器218可以包括反向地理编码器224,其使用地理场境信息222来识别位置。例如,如果地理场境信息222包括GPS坐标,则反向地理编码器224可以使用在坐标和地理位置之间的已存储的映射来确定对应于GPS坐标的位置。
在一些实施方式中,语法选择服务器包括将特定位置与特定语法相关联的语法索引226。例如,语法索引226将位置“百慕大群岛”与包括与该位置相关联的词汇表、句法等的百慕大语法相关联。
语法选择服务器218通过识别与反向地理编码器224识别的位置相关联的语法,使用语法索引226来选择语法。语法索引可以在使用语法ID的情况下识别语法中的每一个。
语法选择服务器218可以将所选择的语法ID 228传送给多模式服务器216,其进而可以将语法ID 228转送给语音识别系统。在图2中未示出的其它实施方式中,反向地理编码器224可以识别并且返回与最靠近所识别的位置的位置相关联的语法,然后将用于该语法的所选择的语法ID 228传送给多模式服务器216。
语音识别系统可以使用语法ID来加载所识别的语法以供在随后的音频处理中使用。例如,语音识别服务器可以将对语法的请求232传送给数据存储230,其中请求232包括语法ID 228。数据存储可以返回语法ID 232指定的语法234。
语音识别服务器可以使用语法234来解释随后从蜂窝电话206接收的音频。例如,用户可以说出搜索词语,其由蜂窝电话206内的麦克风接收。麦克风接口212可以将音频236从麦克风传送到多模式服务器216。
多模式服务器216可以将音频236传送给语音识别服务器220,其使用音频解码器238来解释音频236。例如,音频解码器238可以加载语法234来将音频236处理成文本表示。例如,语音识别服务器220可以使用文本表示来发起搜索引擎(未示出)的搜索。在另一个示例中,可以将已解释的音频作为文本240传送给多模式服务器216。多模式服务器216可以将文本240传送回蜂窝电话206。蜂窝电话106可以使用应用环境208中的浏览器210或另一个应用来显示文本。
在一些实施方式中,客户端200基于新的用户交互来提交新的地理场境信息。例如,如果用户改变位置,则蜂窝电话206内的GPS收发器可以将新的GPS坐标传送给多模式服务器216。在另一个示例中,用户可以查看与不同的位置相关联的地图。浏览器210可以将新的地图位置传送给多模式服务器216。音频处理系统可以基于新的地理场境信息来选择新的语法,并且基于该新的语法来解释所接收的音频。
尽管将多模式服务器216、语法选择服务器218和语音识别服务器220图示为独立设备,但是可以将服务器组合成单个设备或可以使用多个设备来实现单个服务器。
图3是用于基于场境信息来选择语法的示例性方法300的流程图。在方法300的示例实施方式中使用系统200和202。然而,包括系统100的其它系统可以实现方法300。
在步骤302,在客户端200和音频处理系统202之间创建会话。例如,蜂窝电话206可以(例如,基于HTTP协议)建立与多模式服务器216的通信会话。例如,可以在浏览器访问用于搜索引擎的web接口(例如,搜索网页、交互式地图、允许用户搜索托管在站点上的简档的社交联网站点等)时建立会话。在另一个实施方式中,在蜂窝电话206上起动特定应用时,建立会话。例如,可以在蜂窝电话206上起动专用地图程序时发起会话。
在可选步骤304,接收用户ID。例如,蜂窝电话206可以包括将cookie存储在蜂窝电话的存储器内的移动浏览器。Cookie可以包括识别蜂窝电话的用户的标识符。音频处理系统202可能响应于移动浏览器与音频处理系统202或音频处理系统202可以访问的另一个服务器的早先交互,先前已将用户ID传送给浏览器。例如,用户可以访问包括用于搜索引擎的接口的网页。搜索引擎可以向用户发布唯一标识符。音频处理系统202可以访问搜索引擎存储的标识符的列表。
在步骤306,接收场境信息。例如,多模式服务器216接收地理场境信息,诸如指定移动设备206的当前位置的GPS坐标。
在一些实施方式中,多模式服务器216可以接收其它场境信息,诸如特定于应用的场境信息。客户端202可以传送指定用户访问哪个应用的信息。例如,信息可以指定用户正与浏览器应用交互。此外,信息可以包括应用的用户先前执行的过去导航或其它行为的历史。例如,场境信息可以指定用户已通过指定邮编来请求过地图、在给定的地图上缩小、在地图上向西导航了大约200英里、请求了对地图的卫星查看、请求了在地图上显示兴趣点等。
在另一个实施方式中,多模式服务器216可以接收与运行于客户端200上的应用显示的项有关的场境信息,所述客户端200可以是台式机。例如,用户可以查看包括诸如财经新闻内容、娱乐新闻内容、技术新闻内容等的数种类型的内容的门户网页。如果用户的光标悬停于财经新闻内容上,则计算设备可以从环绕光标的区域提取信息(例如,可以提取光标的中心的一定半径内的文本)。可以将所提取的信息的部分或全部包括在传送给多模式服务器的场境信息中。
在步骤308,基于所接收的场境信息来选择语法。例如,语法选择服务器218可以选择包括在所接收的场境信息中的财经词汇表的语法,所述场境信息指示用户的鼠标正悬停于网页上的描述财经信息的内容上。更具体的,语法选择服务器218内的分类模块(未示出)可以对提取的内容分类。语法选择服务器218可以将产生于对提取的内容的分类的一个或多个关键词与通过语法索引226与语法相关联的关键词相匹配。
在另一个示例中,语法选择服务器218可以选择与特定地理相关联的语法,其中特定地理对应于指示蜂窝电话206的当前位置的GPS坐标。
在又一个示例中,如果所接收的场境信息指定用户正与特定应用交互,则语法选择服务器218可以选择包括特定于应用的词汇表的语法。例如,如果用户正与(例如,驻存于客户端200上或托管并经由浏览器210访问的)日历应用交互,则语法选择服务器218可以选择包括特定于日历的词汇表和特定于日历的语法规则的语法。
语法选择服务器218还可以使用所接收的用户ID来选择语法。在一些实施方式中,可以基于用户的过去Web搜索历史来构建语法。例如,如果用户频繁执行与考古学相关联的过去web搜索查询,则语法创建器(未示出)可以构建用于该用户的包括与考古学相关联的词汇表、句法等的个性化语法。
在一些实施方式中,可以使用一种或多种类型的场境信息来选择多于一个语法。例如,从用户查看的项取得的场境信息可以与两个或更多个语法关联。在这种情况下,语法选择服务器可以选择多个语法以供语音识别时使用。
在步骤310,可以接收音频。例如,设备206的用户可以对着设备206的麦克风说话。麦克风接口212可以将麦克风捕捉到的话音传送给语音识别服务器220。
在步骤312,可以使用先前选择的语法来解释所接收的音频。例如,语音识别服务器220可以访问存储语法的数据结构来选择语法选择服务器218识别的语法。音频解码器238可以使用所选择的语法来解释所接收的音频。
在步骤314,确定会话是否超时。例如,在步骤302在客户端200和音频处理系统220之间建立的会话可以具有时限。如果超过时限,则方法300可以结束。在另一个实施方式中,如果会话超时,则音频处理系统202提示客户端200建立新的会话。在一些实施方式中,限制会话时间可以阻止客户端独占音频处理系统,尤其在客户端长时间处于非活动状态时。
在步骤316,确定场境是否已改变。例如,用户可以改变位置。如果用户移动到新的位置,则GPS收发器可以响应于反映新的位置而更新GPS坐标。可以如先前与步骤306和随后步骤相关联地描述的来接收并处理新的场境信息。在另一个示例中,用户可以访问不同的应用,或使用同一应用来查看不同的数据。应用的改变或对应用的使用可以发起对新的场境信息的传送。
如果场境信息没有改变,则方法300可以重复以步骤310开始的步骤。例如,音频处理系统202可以继续使用先前选择的语法来解释任何接收的音频。
图4示出了用于客户端的与基于场境信息来选择语法的音频处理系统交互的用户界面的示例性截屏。截屏400包括地图402。用户可以启用客户端的浏览器,并且登录到诸如GOOGLE地图或YAHOO!地图的在线交互式地图服务。用户可以通过输入邮编、区号、城市和州或其它位置标识符来指定到地图的位置。例如,用户可以输入邮编95661。地图服务然后可以传送加州罗斯维尔的相应地图以在浏览器上显示。
浏览器(或浏览器显示的网页)可以呈现搜索选项窗口404。用户可以与搜索选项窗口404交互来发起对企业、兴趣点、位置等的搜索,并且可以在地图402上显示结果。搜索选项窗口404如选项406所指示可以接受“输入的”搜索。例如,用户可以使用小键盘来选择选项406。替选地,用户可以说出选择“输入新的搜索”。用户然后可以经由小键盘输入搜索。
搜索选项窗口如选项408所指示还可以接受口语搜索。例如,用户可以使用小键盘或通过说出选择来选择选项408。
截屏410示出了在用户选择了指示用户期望说出新的搜索的选项408后显示的示例性界面。在该示例中,客户端可视地提示用户说出企业的类型或企业名称。图412图示了用户说出搜索词语“Fry's”。
在其它实施方式中,客户端可以提示用户说出诸如兴趣点、地理位置等的其它词语。
在又其它实施方式中,没有可视地提示用户说出搜索,但是用户可以自行发起搜索。例如,浏览器可以显示显示技术新闻的网页。用户可以说“搜索AJAX”。在又其它实施方式中,客户端可以可听见地提示用户输入或说出搜索或其它话音输入。
在另一个实施方式中,用户可以按下设备上的键—诸如蜂窝电话上的“接听呼叫”键—来指示用户意欲发起语音搜索。用户可以在说话时按住该键,或通过按住该键预定时长来发起搜索。在后者实施方式中,语音搜索可以在没有检测到语音信号的情况下经过预定时间量后终止。
尽管在先前截屏中没有指示,但是客户端可以传送与客户端显示的地图402有关的地理信息。音频处理系统可以选择与该地理信息相关联的语法以供解释响应于截屏410中显示的提示所接收的音频时使用。
截屏416示出了基于口语搜索词语“Fry's”的已解释的音频。用户可以使用小键盘或通过说出例如与解释的每一个相关联的数字来选择可能的解释中的一个。截屏418示出了加州罗斯维尔的地图402以及识别Fry's电子商店的位置的图钉图标420。
图5是作为客户端或作为服务器或多个服务器的可以用于实现本文档中描述的系统和方法的计算设备500、550的框图。计算设备500意在表示各种形式的数字计算机,诸如膝上型机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机以及其它适当的计算机。计算设备550意在表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能手机以及其它相似的计算设备。额外地,计算设备500或550可以包括通用串行总线(USB)闪存驱动。USB闪存驱动可以存储操作系统和其它应用。USB闪存驱动可以包括输入/输出组件,诸如无线发送器或可以被插入另一个计算设备的USB端口的USB连接器。在此示出的组件、其连接和关系以及其功能意在只是示例性的,并且并不意在限制在本文档中描述和/或主张的本发明的实施方式。
计算设备500包括处理器502、存储器504、存储设备506、连接到存储器504和高速扩展端口510的高速接口508以及连接到低速总线514和存储设备506的低速接口512。组件502、504、506、508、510和512中的每一个使用各种总线互连,并且可以视情况被安装在公共主板上或以其它方式安装。处理器502可以处理用于在计算设备500内执行的指令,包括存储在存储器504中或存储设备506上用来在诸如耦接到高速接口508的显示516的外部输入/输出设备上显示GUI的图形信息的指令。在其它实施方式中,可以视情况使用多个处理器和/或多个总线以及多个存储器和存储器类型。并且,可以连接多个计算设备500,其中每一个设备提供部分必需操作(例如,作为服务器簇、刀片服务器组或多处理器系统)。
存储器504存储在计算设备500内的信息。在一个实施方式中,存储器504是易失性存储器单元。在另一个实施方式中,存储器504是非易失性存储器单元。存储器504还可以是另一种形式的计算机可读介质,诸如磁或光盘。
存储设备506能够为计算设备500提供海量存储。在一个实施方式中,存储设备506可以是或包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或带设备、闪存或其它相似的固态存储器设备、或设备阵列,包括在存储区域网络或其它配置中的设备。计算机程序产品可以被有形地包含在信息载体中。计算机程序产品还可以包含在被执行时执行诸如上述那些方法的一个或多个方法的指令。信息载体是计算机或机器可读介质,诸如存储器504、存储设备506、在处理器502上的存储器或传播信号。
高速控制器508管理关于计算设备500的带宽密集型操作,而低速控制器512管理较低带宽密集型操作。职责的这样的分配只是示例性的。在一个实施方式中,高速控制器508(例如通过图形处理器或加速器)耦接到存储器504、显示516,以及耦接到可以接受各种扩展卡(未示出)的高速扩展端口510。在该实施方式中,低速控制器512耦接到存储设备506和低速扩展端口514。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口可以耦接到诸如键盘、指示设备、扫描仪的一个或多个输入/输出设备,或例如通过网络适配器耦接到诸如交换机或路由器的联网设备。
计算设备500可以如图中所示以多种不同的形式实现。例如,计算设备500可以被实现为标准服务器520或更多时间被实现在一组这样的服务器中。计算设备500还可以被实现为机架服务器系统524的一部分。另外,计算设备500可以在诸如膝上型计算机522的个人计算机中实现。替选地,来自计算设备500的组件可以与诸如设备550的移动设备(未示出)中的其它组件相结合。这样的设备中的每一个可以包含计算设备500、550中的一个或多个,以及整个系统可以由相互通信的多个计算设备500、550组成。
除其它组件外,计算设备550包括处理器552、存储器564、诸如显示554的输入/输出设备、通信接口566以及收发器568。设备550还可以提供有诸如微驱动或其它设备的存储设备以提供额外的存储。组件550、552、564、554、566和568中的每一个使用各种总线互连,以及组件中的数个可以视情况被安装在公共主板上或以其它方式安装。
处理器552可以执行在计算设备550内的指令,包括存储在存储器564中的指令。处理器可以被实现为包括独立和多个模拟和数字处理器的芯片的芯片集。额外地,处理器可以使用多个体系结构中的任何来实现。例如,处理器410可以是CISC(复杂指令集计算机)处理器、RISC(精简指令集计算机)处理器或MISC(最小指令集计算机)处理器。处理器可以提供例如对设备550的其它组件的协调,诸如对用户接口、由设备550运行的应用以及设备550的无线通信的控制。
处理器552可以通过耦接到显示554的控制接口558和显示接口556与用户通信。显示554可以是例如TFT(薄膜晶体管液晶显示)显示或OLED(有机发光二极管)显示或其它适当的显示技术。显示接口556可以包括用于驱动显示554向用户呈现图形和其它信息的适当的电路。控制接口558可以从用户接收命令并且将命令进行转换以提交给处理器552。另外,可以提供与处理器552通信的外部接口562,以使得设备550能够与其它设备进行近区域通信。外部接口562可以例如在一些实施方式中提供有线通信,或在其它实施方式中提供无线通信,以及还可以使用多个接口。
存储器564存储在计算设备550内的信息。存储器564可以被实现为计算机可读介质、易失性存储器单元或非易失性存储器单元中的一个或多个。还可以提供扩展存储器574并且通过可以包括例如SIMM(单列直插内存模块)卡接口的扩展接口572将其连接到设备550。这样的扩展存储器574可以为设备550提供额外的存储空间,或还可以存储用于设备550的应用或其它信息。具体地,扩展存储器574可以包括指令来实现或补充上述过程,以及还可以包括安全信息。因此,扩展存储器574可以例如作为用于设备550的安全模块提供,以及可以被编程有允许安全使用设备550的指令。另外,安全应用以及额外的信息可以经由SIMM卡提供,诸如以不可非法侵入的方式将标识信息放置在SIMM卡上。
存储器可以如下所述包括例如闪存和/或NVRAM存储器。在一个实施方式中,将计算机程序产品有形地包含在信息载体中。计算机程序产品包含在被执行时执行诸如上述那些方法的一个或多个方法的指令。信息载体是计算机或机器可读介质,诸如存储器564、扩展存储器574、在处理器552上的存储器或可以例如通过收发器568或外部接口562接收的传播信号。
设备550可以在需要的情况下通过可以包括数字信号处理电路的通信接口566无线地通信。通信接口566可以提供在各种模式或协议下的通信,诸如GSM语音通话、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。可以例如通过射频收发器568来发生这样的通信。另外,诸如使用蓝牙、WiFi或其它这样的收发器(未示出),可以发生短程通信。另外,GPS(全球定位系统)接收器模块570可以向设备550提供可以由运行在设备550上的应用视情况使用的额外的导航和位置相关的无线数据。
设备550还可以使用音频编解码器560可听见地通信,音频编解码器560可以从用户接收口语信息并且将其转换为可使用的数字信息。同样,音频编解码器560可以诸如通过例如在设备550的送受话器中的扬声器,为用户生成可听见的声音。这样的声音可以包括来自语音电话呼叫的声音,可以包括已记录的声音(例如,语音消息、音乐文件等)以及还可以包括由在设备550上操作的应用生成的声音。
计算设备550可以如图中所示以多种不同的形式实现。例如,计算设备550可以被实现为蜂窝电话580。计算设备550还可以被实现为智能电话582、个人数字助理或其它相似的移动设备的部分。
可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或以上的组合中实现在此描述的系统和技术的各种实施方式。这些各种实施方式可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式,所述可编程系统包括至少一个可编程处理器,其可以是专用或通用的,被耦接以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令以及向存储系统、至少一个输入设备和至少一个输出设备传送数据和指令。
这些计算机程序(也被称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且可以以高级程序和/或面向对象的编程语言、和/或汇编/机器语言来实现。如在此所使用的,术语“机器可读介质”、“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑设备(PLD)),包括接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,在此描述的系统和技术可以在具有下述的计算机上实现:用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示)监视器),以及用户通过其可以向计算机提供输入的键盘和指示设备(例如,鼠标或跟踪球)。也可以使用其它类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感知反馈(例如,视觉反馈、听觉反馈或触觉反馈);以及可以以任何形式,包括声学的、话音的或触觉的输入,接收来自用户的输入。
在此描述的系统和技术可以在包括后端组件(例如作为数据服务器)、或包括中间件组件(例如应用服务器)、或包括前端组件(例如具有用户通过其可以与在此描述的系统和技术的实施方式交互的图形用户界面或Web浏览器的客户端计算机)、或者这样的后端、中间件或前端组件的任何组合的计算系统中实现。系统的组件可以通过任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网("LAN")、广域网("WAN")、对等网络(具有自组或静态成员)、网格计算基础设施以及因特网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系依靠在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。
尽管在上面详细描述了一些实施方式,但是其它修改是可能的。例如,可以基于用户查看的文本来取得用于选择地理位置的地理信息。例如,用户可以访问描述伟大俄克拉荷马州的网站。Web浏览器(或其它应用)可以传送指示用户对俄克拉荷马感兴趣的地理信息。在一些实施方式中,如果出现阈值数量的与俄克拉荷马有关的单词,则web浏览器(或其它应用)仅传送地理信息。
在另一个实施方式中,用于选择地理位置的地理信息基于用户输入的文本。例如,用户可以将诸如“野火”和“加利福尼亚”的搜索词语输入到搜索引擎界面中。语法选择器还可以将这些与词语关联以识别加利福尼亚内的特定位置。例如,来自搜索引擎用户的聚组的最近搜索结果可以指示结果通常包括加利福尼亚圣地亚哥的提及。语法选择器可以基于最近搜索结果来识别锚定在圣地亚哥附近的语法。
额外地,尽管关于蜂窝电话或其它便携式设备内的GPS能力描述了定位设备的当前位置,但是可以使用其它基于位置的检测系统。例如,移动设备的位置还可以经由起源蜂窝小区(COO)移动定位技术、到达时间差(TDOA)信号检测技术、到达时间(TOA)技术、到达角(AoA)测量技术、增强型观察时间差(EOTD)技术等来确定。
在其它实施方式中,语法创建器可以基于用户发送或接收的电子邮件来编辑用于用户的个性化语法。语法选择服务器可以基于从客户端接收的用户ID选择要使用的个性化语法。
另外,图中所描绘的逻辑流不需要所示的特定顺序或相继顺序才能获得期望的结果。另外,可以提供其它步骤,或可以从所描述的流程除去步骤,以及可以将其它组件添加到所描述的系统或从所描述的系统移除组件。因此,其它实施方式在权利要求的范围内。
Claims (68)
1.一种计算机实现的方法,包括:
由计算设备确定所述计算设备的场境;
由所述计算设备接收来自用户的第一输入;
基于来自所述用户的第一输入和所述计算设备的所述场境,由所述计算设备选择来自词语组的词语子集;
由所述计算设备接收来自所述用户的第二输入;以及
由所述计算设备基于来自所述用户的第二输入和来自所述词语组的所述词语子集来提供输出。
2.如权利要求1所述的方法,其中:
确定所述计算设备的所述场境包括:
确定所述计算设备的位置,以及
来自所述词语组的所述词语子集包括在所述计算设备附近的位置名称。
3.如权利要求1所述的方法,其中,来自所述词语组的所述词语子集是由话音识别器使用的语法。
4.如权利要求1所述的方法,其中:
接收来自所述用户的所述第二输入包括:
接收对所述词语子集中的词语的选择,以及
基于来自所述用户的第二输入和来自所述词语组的所述词语子集来提供所述输出包括:
基于对所述词语子集中的所述词语的选择来提供所述输出。
5.如权利要求1所述的方法,其中,接收来自所述用户的所述第一输入包括接收指示所述用户将提供作为话语的所述第二输入的所述第一输入。
6.如权利要求1所述的方法,其中,基于来自所述用户的第二输入和来自所述词语组的所述词语子集来提供所述输出包括:
提供地图,所述地图包括与所述第二输入和所述词语子集相关联的地理位置的视觉指示符。
7.如权利要求1所述的方法,包括:
通过接收由所述用户说出的话语的音频数据来接收来自所述用户的所述第二输入;
由所述计算设备通过使用所述词语子集作为语法对所述音频数据执行自动话音识别来生成所述话语的转录;以及
通过以下来提供所述输出:基于所述话语的所述转录来提供所述输出。
8.一种系统,包括:
一个或多个计算机;以及
一个或多个计算机和一个或多个存储指令的存储设备,所述指令在由所述一个或多个计算机执行时,能够操作以使所述一个或多个计算机执行操作,所述操作包括:
由计算设备确定所述计算设备的场境;
由所述计算设备接收来自用户的第一输入;
基于来自所述用户的第一输入和所述计算设备的所述场境,由所述计算设备选择来自词语组的词语子集;
由所述计算设备接收来自所述用户的第二输入;以及
由所述计算设备基于来自所述用户的第二输入和来自所述词语组的所述词语子集来提供输出。
9.如权利要求8所述的系统,其中:
确定所述计算设备的所述场境包括:
确定所述计算设备的位置,以及
来自所述词语组的所述词语子集包括在所述计算设备附近的位置名称。
10.如权利要求8所述的系统,其中,来自所述词语组的所述词语子集是由话音识别器使用的语法。
11.如权利要求8所述的系统,其中:
接收来自所述用户的所述第二输入包括:
接收对所述词语子集中的词语的选择,以及
基于来自所述用户的第二输入和来自所述词语组的所述词语子集来提供所述输出包括:
基于对所述词语子集中的所述词语的选择来提供所述输出。
12.如权利要求8所述的系统,其中,接收来自所述用户的所述第一输入包括接收指示所述用户将提供作为话语的所述第二输入的所述第一输入。
13.如权利要求8所述的系统,其中,基于来自所述用户的第二输入和来自所述词语组的所述词语子集来提供所述输出包括:
提供地图,所述地图包括与所述第二输入和所述词语子集相关联的地理位置的视觉指示符。
14.如权利要求8所述的系统,其中,所述操作包括:
通过接收由所述用户说出的话语的音频数据来接收来自所述用户的所述第二输入;
由所述计算设备通过使用所述词语子集作为语法对所述音频数据执行自动话音识别来生成所述话语的转录;以及
通过以下来提供所述输出:基于所述话语的所述转录来提供所述输出。
15.一种存储软件的非暂时性计算机可读介质,所述软件包括能够由一个或多个计算机执行的指令,所述指令在这样的执行时,使所述一个或多个计算机执行操作,所述操作包括:
由计算设备确定所述计算设备的场境;
由所述计算设备接收来自用户的第一输入;
基于来自所述用户的第一输入和所述计算设备的所述场境,由所述计算设备选择来自词语组的词语子集;
由所述计算设备接收来自所述用户的第二输入;以及
由所述计算设备基于来自所述用户的第二输入和来自所述词语组的所述词语子集来提供输出。
16.如权利要求15所述的介质,其中:
确定所述计算设备的所述场境包括:
确定所述计算设备的位置,以及
来自所述词语组的所述词语子集包括在所述计算设备附近的位置名称。
17.如权利要求15所述的介质,其中,来自所述词语组的所述词语子集是由话音识别器使用的语法。
18.如权利要求15所述的介质,其中:
接收来自所述用户的所述第二输入包括:
接收对所述词语子集中的词语的选择,以及
基于来自所述用户的第二输入和来自所述词语组的所述词语子集来提供所述输出包括:
基于对所述词语子集中的所述词语的选择来提供所述输出。
19.如权利要求15所述的介质,其中,基于来自所述用户的第二输入和来自所述词语组的所述词语子集来提供所述输出包括:
提供地图,所述地图包括与所述第二输入和所述词语子集相关联的地理位置的视觉指示符。
20.如权利要求15所述的介质,其中,所述操作包括:
通过接收由所述用户说出的话语的音频数据来接收来自所述用户的所述第二输入;
由所述计算设备通过使用所述词语子集作为语法对所述音频数据执行自动话音识别来生成所述话语的转录;以及
通过以下来提供所述输出:基于所述话语的所述转录来提供所述输出。
21.一种计算机实现的方法,包括:
提供地理区域的地图以供在计算设备上显示;
基于在所述计算设备上显示的所述地理区域的所述地图来选择用于话音识别的语法;
在所述计算设备显示所述地理区域的所述地图时,接收与话语相对应的语音数据以发起搜索;
(i)通过使用基于在所述计算设备上显示的所述地理区域的所述地图所选择的所述语法来对所述话语执行话音识别并且(ii)基于从先前提供用于显示的内容得出的地理信息,生成所述话语的转录;以及
更新所述地图以提供识别与所述话语的所述转录相关联的位置的视觉指示符。
22.如权利要求21所述的方法,其中,所述转录是进一步基于从所述地理区域的所述地图得出的地理信息来生成的。
23.如权利要求21所述的方法,其中,所述话语识别位置。
24.如权利要求21所述的方法,其中,所述转录是进一步基于识别一个或多个搜索查询的搜索历史来生成的,所述一个或多个搜索查询由与所述计算设备的用户相关联的一个或多个计算设备提交至一个或多个搜索服务。
25.如权利要求21所述的方法,其中,所述语法是基于地理位置来选择的,所述地理位置是基于与先前所提交的一个或多个搜索查询相关联的搜索结果来识别的。
26.一种系统,包括:
用于存储数据的存储器;以及
硬件处理器,所述硬件处理器能够操作以执行操作,所述操作包括:
提供地理区域的地图以供在计算设备上显示;
基于在所述计算设备上显示的所述地理区域的所述地图来选择用于话音识别的语法;
在所述计算设备显示所述地理区域的所述地图时,接收与话语相对应的语音数据以发起搜索;
(i)通过使用基于在所述计算设备上显示的所述地理区域的所述地图所选择的所述语法来对所述话语执行话音识别并且(ii)基于识别一个或多个搜索查询的搜索历史来生成所述话语的转录,所述一个或多个搜索查询由与所述计算设备的用户相关联的一个或多个计算设备先前提交至一个或多个搜索服务;以及
更新所述地图以提供识别与所述话语的所述转录相关联的位置的视觉指示符。
27.如权利要求26所述的系统,其中,所述转录是进一步基于从所述地理区域的所述地图得出的地理信息来生成的。
28.如权利要求26所述的系统,其中,所述转录是进一步基于从先前提供以供显示的内容得出的地理信息来生成的。
29.如权利要求26所述的系统,其中,所述话语识别位置。
30.如权利要求26所述的系统,其中,所述语法是进一步基于地理位置来选择的,所述地理位置是基于与先前所提交的一个或多个搜索查询相关联的搜索结果来识别的。
31.一种存储指令的非暂时性计算机可读介质,所述指令在被执行时,能够操作以使一个或多个处理器执行操作,所述操作包括:
提供地理区域的地图以供在计算设备上显示;
基于(i)在所述计算设备上显示的所述地理区域的所述地图以及(ii)地理位置来选择用于话音识别的语法,所述地理位置是基于与先前所提交的一个或多个搜索查询相关联的搜索结果来识别的;
在所述计算设备显示所述地理区域的所述地图时,接收与话语相对应的语音数据以发起搜索;
通过使用基于在所述计算设备上显示的所述地理区域的所述地图所选择的所述语法来对所述话语执行话音识别,生成所述话语的转录;以及
更新所述地图以提供识别与所述话语的所述转录相关联的位置的视觉指示符。
32.如权利要求31所述的计算机可读介质,其中,所述转录是进一步基于从所述地理区域的所述地图得出的地理信息来生成的。
33.如权利要求31所述的计算机可读介质,其中,所述转录是进一步基于从先前提供以供显示的内容得出的地理信息来生成的。
34.如权利要求31所述的计算机可读介质,其中,所述操作进一步包括:
通过接收与搜索查询的话语相对应的语音数据来接收与发起搜索的话语相对应的所述语音数据;
在所述计算设备显示所述地理区域的所述地图时,向搜索引擎传送所述搜索查询;
在所述计算设备显示所述地理区域的所述地图时响应于所述搜索查询,从所述搜索引擎接收搜索结果;以及
通过基于所述搜索查询来更新所述地图以提供所述视觉指示符来更新所述地图以提供识别与所述话语的转录相关联的位置的视觉指示符。
35.一种计算机实现的方法,包括:
提供地理区域的地图以供在计算设备上显示;
基于在所述计算设备上显示的所述地理区域的所述地图来选择用于话音识别的语法;
在所述计算设备显示所述地理区域的所述地图时:
接收与搜索查询的话语相对应的语音数据;
通过使用基于所述地理区域的所述地图所选择的所述语法来对所述话语执行话音识别,生成所述搜索查询的所述话语的转录;
向搜索引擎传送所述搜索查询的所述转录;以及
从所述搜索引擎接收响应于所述搜索查询的所述转录的搜索结果;以及
更新所述地图以提供识别与所述搜索结果相关联的位置的视觉指示符。
36.一种计算机实现的方法,包括:
由计算机系统访问搜索历史,所述搜索历史识别与用户相关联的移动计算设备先前提交至一个或多个搜索服务的一个或多个搜索查询;
访问识别先前在所述移动计算设备上显示的一个或多个网页的信息;
至少部分地基于以下来识别来自所述用户的未来语音输入很可能涉及的地理位置:i)所述移动计算设备的所述搜索历史,ii)与所述搜索历史中的所述一个或多个搜索查询相关联的搜索结果,以及iii)先前在所述移动计算设备上显示的所述一个或多个网页中所包括的内容;
由所述计算机系统至少部分地基于所识别的地理位置来从多个语法当中选择第一语法,其中,所述第一语法包括词汇表,所述词汇表与所识别的地理位置相关;以及
由所述计算机系统输出识别所述第一语法的信息,其中,所输出的信息使得用来分析来自移动计算设备的语音输入的语法被改变为所述第一语法。
37.如权利要求36所述的计算机实现的方法,其中,所述搜索查询的所述搜索结果是跨提供给所述一个或多个搜索服务的多个用户的搜索结果集合而聚合的。
38.如权利要求36所述的计算机实现的方法,进一步包括:
至少部分地基于所述移动计算设备的所述搜索历史,识别来自所述用户的未来语音输入很可能涉及的一个或多个话题;
至少部分地基于所识别的一个或多个话题,从所述多个语法当中选择第二语法,其中,所述第二语法包括与所述一个或多个话题相关的词汇表;以及
其中,所输出的信息进一步识别所述第二语法并且使得用来分析来自所述移动计算设备的所述语音输入的所述语法被改变为包括所述第一语法和所述第二语法的多个语法。
39.如权利要求36所述的计算机实现的方法,其中,所述地理位置是独立于所述移动计算设备的当前地理位置来识别的。
40.如权利要求36所述的计算机实现的方法,其中,所述移动计算设备包括智能电话。
41.一种计算机实现的方法,包括:
由计算机系统访问由与用户相关联的移动计算设备先前请求并在所述移动计算设备上显示的内容的信息,其中,所述内容包括先前在所述移动计算设备上显示的一个或多个网页;
至少部分地基于先前被请求并被显示在所述移动计算设备上的所述内容,识别来自所述用户的未来语音输入很可能涉及的地理位置;
由所述计算机系统至少部分地基于所识别的地理位置来从多个语法当中选择第一语法,其中,所述第一语法包括词汇表,所述词汇表与所述地理位置相关;以及
由所述计算机系统输出识别所述第一语法的信息,其中,所输出的信息使得用来分析来自移动计算设备的语音输入的语法被改变为所述第一语法。
42.如权利要求41所述的计算机实现的方法,进一步包括:
识别所述内容的、所述用户表达了至少阈值水平的兴趣的特定部分;以及
其中,所述地理位置是基于所述内容的所述特定部分来识别的。
43.如权利要求42所述的计算机实现的方法,其中,当用户控制的指示器在所述内容的所述特定部分上方悬停了至少阈值时间段时,所述用户被确定为已经对所述特定部分表达了至少所述阈值水平的兴趣。
44.如权利要求41所述的计算机实现的方法,进一步包括:
由所述计算机系统将所述内容分类为一个或多个关键字;
至少部分地基于所述一个或多个关键字,从所述多个语法当中选择第二语法,其中,所述第二语法包括与所述一个或多个关键字相关的词汇表;以及
其中,所输出的信息进一步识别所述第二语法并且使得用来分析来自所述移动计算设备的所述语音输入的所述语法被改变为包括所述第一语法和所述第二语法的多个语法。
45.如权利要求41所述的计算机实现的方法,其中,所述地理位置是基于所述地理位置在所述内容中出现了至少阈值次数而从所述内容中被识别的。
46.如权利要求41所述的计算机实现的方法,其中,所述内容包括在所述移动计算设备上显示的文本内容。
47.一种计算机系统,包括:
一个或多个计算设备;
所述一个或多个计算设备的接口,所述接口被编程来访问识别以下中的一个或多个的信息:i)识别先前由用户输入到移动计算设备的一个或多个搜索查询的搜索历史以及与所述一个或多个搜索查询相关联的搜索结果,以及ii)先前被请求并在所述移动计算设备上向所述用户显示的内容,其中,所述内容包括先前在所述移动计算设备上显示的一个或多个网页;
反向地理编码器,所述反向地理编码器安装在所述一个或多个计算设备上并且被编程为至少部分地基于以下中的一个或多个来识别来自所述用户的未来语音输入很可能涉及的地理位置:i)识别先前由所述用户输入的所述一个或多个搜索查询的所述搜索历史以及关联的搜索结果,以及ii)先前被请求并被显示在所述移动计算设备上的所述内容;以及
语法索引,所述语法索引能够由所述一个或多个计算设备访问并且包括将地理位置与多个语法关联的索引;
语法选择器,所述语法选择器被安装在所述一个或多个计算设备上并且被编程为至少部分地基于由所述反向地理编码器识别的所述地理位置来从所述多个语法当中选择第一语法,其中,所述第一语法包括与所述地理位置相关的词汇表;
其中,所述接口进一步被编程为输出识别所述第一语法的信息,其中,所输出的信息使得用来分析来自所述移动计算设备的语音输入的语法被改变为所述第一语法。
48.如权利要求47所述的计算机系统,其中:
所述一个或多个计算设备被进一步编程为至少部分地基于以下中的一个或多个来识别来自所述用户的未来语音输入很可能涉及的一个或多个话题;i)识别先前由所述用户输入到所述移动计算设备的所述一个或多个搜索查询的所述搜索历史以及关联的搜索结果,以及ii)先前被请求并被显示在所述移动计算设备上的所述内容;
所述语法选择器被进一步编程为至少部分地基于所识别的一个或多个话题来从所述多个语法当中选择第二语法,其中,所述第二语法包括与所述一个或多个话题相关的词汇表;以及
所述接口进一步被编程为输出进一步识别所述第二语法的信息,并且其中,输出所述信息进一步使得用来分析来自所述移动计算设备的所述语音输入的所述语法被改变为包括所述第一语法和所述第二语法的多个语法。
49.如权利要求47所述的计算机系统,其中,所述地理位置是由所述反向地理编码器独立于所述移动计算设备的当前地理位置来被识别的。
50.如权利要求47所述的计算机系统,其中,所述地理位置是由所述反向地理编码器基于所述地理位置在以下中的一个或多个中出现了至少阈值次数而被识别的:i)识别先前由所述用户输入到所述移动计算设备的所述一个或多个搜索查询的所述搜索历史以及关联的搜索结果,以及ii)先前被请求并被显示在所述移动计算设备上的所述内容。
51.如权利要求47所述的计算机系统,其中,所述搜索查询的所述搜索结果是跨提供给所述一个或多个搜索服务的多个用户的搜索结果集合而聚合的。
52.如权利要求47所述的计算机系统,其中,所述反向地理编码器进一步被编程为基于所述内容的、所述用户表达了至少阈值水平的兴趣的特定部分来识别所述地理位置。
53.一种计算机实现的方法,包括:
由计算机系统访问搜索历史,所述搜索历史识别先前由与用户相关联的一个或多个计算设备提交至一个或多个搜索服务的一个或多个搜索查询;
至少部分地基于在所述搜索历史中包括的所述搜索查询,识别来自所述用户的未来语音输入很可能涉及的地理位置,所述地理位置是独立于所述一个或多个计算设备的当前地理位置来被识别的;
在对来自所述一个或多个计算设备的语音输入执行自动化话音识别之前,由所述计算机系统至少部分地基于所述地理位置来从多个语法当中选择第一语法,所述地理位置是至少部分地基于所述搜索历史中所包括的所述搜索查询来识别的,所述第一语法包括词汇表,所述词汇表与至少部分地基于所述搜索历史中所包括的所述搜索查询来识别的所述地理位置相关;以及
由所述计算机系统输出识别所述第一语法的信息,其中,所输出的信息使得用来分析来自所述一个或多个计算设备的随后接收的语音输入的语法被改变为所述第一语法。
54.如权利要求53所述的计算机实现的方法,其中,所述地理位置是进一步基于与所述搜索历史中的所述一个或多个搜索查询相关联的搜索结果来识别的。
55.如权利要求54所述的计算机实现的方法,其中,所述搜索查询的所述搜索结果是跨由所述一个或多个搜索服务提供给多个用户的搜索结果集合而聚合的。
56.如权利要求53所述的计算机实现的方法,进一步包括:
至少部分地基于所述搜索历史,识别来自所述用户的未来语音输入很可能涉及的一个或多个话题;
至少部分地基于所识别的一个或多个话题,从所述多个语法当中选择第二语法,其中,所述第二语法包括与所述一个或多个话题相关的词汇表;以及
其中,所输出的信息进一步识别所述第二语法并且使得用来分析来自所述移动计算设备的所述语音输入的所述语法被改变为包括所述第一语法和所述第二语法的多个语法。
57.如权利要求53所述的计算机实现的方法,其中,所述一个或多个计算设备包括智能电话。
58.如权利要求53所述的计算机实现的方法,其中,所述地理位置是进一步基于先前被呈现在所述一个或多个计算设备上的内容来识别的。
59.如权利要求58所述的计算机实现的方法,其中,所述内容包括一个或多个网页。
60.如权利要求58所述的计算机实现的方法,其中,所述内容包括一个或多个地图。
61.一种计算机系统,包括:
一个或多个计算设备;
所述一个或多个计算设备的接口,所述接口被编程来访问识别一个或多个搜索查询的搜索历史,所述一个或多个搜索查询先前由与用户相关联的一个或多个客户端计算设备提交至一个或多个搜索服务;
反向地理编码器,所述反向地理编码器安装在所述一个或多个计算设备上并且被编程为至少部分地基于所述搜索历史中包括的所述搜索查询来识别来自所述用户的未来语音输入很可能涉及的地理位置,其中,所述地理位置是独立于所述一个或多个客户端计算设备的当前地理位置来被识别的;以及
语法索引,所述语法索引能够由所述一个或多个计算设备访问并且包括将地理位置与多个语法关联的索引;
语法选择器,所述语法选择器被安装在所述一个或多个计算设备上,并且被编程为在对来自所述一个或多个客户端计算设备的语音输入执行自动化话音识别之前,至少部分地基于所述地理位置来从所述多个语法当中选择第一语法,所述地理位置是由所述反向地理编码器至少部分地基于所述搜索历史中所包括的所述搜索查询来识别的,所述第一语法包括词汇表,所述词汇表与至少部分地基于所述搜索历史中所包括的所述搜索查询来识别的所述地理位置相关;以及
其中,所述接口进一步被编程为输出识别所述第一语法的信息,其中,所输出的信息使得用来分析来自所述一个或多个客户端计算设备的随后接收的语音输入的语法被改变为所述第一语法。
62.如权利要求61所述的计算机系统,其中,所述地理位置是进一步基于与所述搜索历史中的所述一个或多个搜索查询相关联的搜索结果来识别的。
63.如权利要求62所述的计算机系统,其中,所述搜索查询的所述搜索结果是跨由所述一个或多个搜索服务提供给多个用户的搜索结果集合而聚合的。
64.如权利要求61所述的计算机系统,其中:
所述一个或多个计算设备被进一步编程为至少部分地基于所述搜索历史和关联的搜索结果,识别来自所述用户的未来语音输入很可能涉及的一个或多个话题,所述搜索历史识别由所述用户先前输入至所述一个或多个客户端计算设备的一个或多个搜索查询;
所述语法选择器被进一步编程为至少部分地基于所识别的一个或多个话题来从所述多个语法当中选择第二语法,其中,所述第二语法包括与所述一个或多个话题相关的词汇表;以及
所述接口进一步被编程为输出进一步识别所述第二语法的信息,并且其中,输出所述信息进一步使得用来分析来自所述一个或多个客户端计算设备的所述语音输入的所述语法被改变为包括所述第一语法和所述第二语法的多个语法。
65.如权利要求61所述的计算机系统,其中,所述一个或多个客户端计算设备包括智能电话。
66.如权利要求61所述的计算机系统,其中,所述地理位置是进一步基于先前被呈现在所述一个或多个计算设备上的内容来识别的。
67.如权利要求66所述的计算机系统,其中,所述内容包括一个或多个网页。
68.如权利要求66所述的计算机系统,其中,所述内容包括一个或多个地图。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/044,310 | 2008-03-07 | ||
US12/044,310 US8255224B2 (en) | 2008-03-07 | 2008-03-07 | Voice recognition grammar selection based on context |
CN200980115721.4A CN102016502B (zh) | 2008-03-07 | 2009-03-06 | 基于场境的语音识别语法选择方法及系统 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980115721.4A Division CN102016502B (zh) | 2008-03-07 | 2009-03-06 | 基于场境的语音识别语法选择方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113506567A true CN113506567A (zh) | 2021-10-15 |
Family
ID=41054557
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710202874.9A Expired - Fee Related CN107331389B (zh) | 2008-03-07 | 2009-03-06 | 基于场境的语音识别语法选择方法和系统 |
CN200980115721.4A Active CN102016502B (zh) | 2008-03-07 | 2009-03-06 | 基于场境的语音识别语法选择方法及系统 |
CN202110625294.7A Pending CN113506567A (zh) | 2008-03-07 | 2009-03-06 | 基于场境的语音识别语法选择方法和系统 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710202874.9A Expired - Fee Related CN107331389B (zh) | 2008-03-07 | 2009-03-06 | 基于场境的语音识别语法选择方法和系统 |
CN200980115721.4A Active CN102016502B (zh) | 2008-03-07 | 2009-03-06 | 基于场境的语音识别语法选择方法及系统 |
Country Status (6)
Country | Link |
---|---|
US (6) | US8255224B2 (zh) |
EP (1) | EP2260264A4 (zh) |
JP (1) | JP2011513795A (zh) |
KR (4) | KR101758302B1 (zh) |
CN (3) | CN107331389B (zh) |
WO (1) | WO2009111721A2 (zh) |
Families Citing this family (363)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US10032452B1 (en) | 2016-12-30 | 2018-07-24 | Google Llc | Multimodal transmission of packetized data |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US20100106407A1 (en) * | 2007-06-11 | 2010-04-29 | Wataru Yamazaki | Navigation system |
US10013536B2 (en) * | 2007-11-06 | 2018-07-03 | The Mathworks, Inc. | License activation and management |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20090182562A1 (en) * | 2008-01-14 | 2009-07-16 | Garmin Ltd. | Dynamic user interface for automated speech recognition |
US8255224B2 (en) | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US8380512B2 (en) * | 2008-03-10 | 2013-02-19 | Yahoo! Inc. | Navigation using a search engine and phonetic voice recognition |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US20130218565A1 (en) * | 2008-07-28 | 2013-08-22 | Nuance Communications, Inc. | Enhanced Media Playback with Speech Recognition |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9424339B2 (en) | 2008-08-15 | 2016-08-23 | Athena A. Smyros | Systems and methods utilizing a search engine |
US8965881B2 (en) * | 2008-08-15 | 2015-02-24 | Athena A. Smyros | Systems and methods for searching an index |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
KR101545582B1 (ko) * | 2008-10-29 | 2015-08-19 | 엘지전자 주식회사 | 단말기 및 그 제어 방법 |
US20100125523A1 (en) * | 2008-11-18 | 2010-05-20 | Peer 39 Inc. | Method and a system for certifying a document for advertisement appropriateness |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
EP2211336B1 (en) * | 2009-01-23 | 2014-10-08 | Harman Becker Automotive Systems GmbH | Improved speech input using navigation information |
US8346901B2 (en) * | 2009-01-26 | 2013-01-01 | Apple Inc. | Selection of an appropriate online content source based on program information |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8510117B2 (en) * | 2009-07-09 | 2013-08-13 | Nuance Communications, Inc. | Speech enabled media sharing in a multimodal application |
US9117448B2 (en) * | 2009-07-27 | 2015-08-25 | Cisco Technology, Inc. | Method and system for speech recognition using social networks |
US20110067059A1 (en) * | 2009-09-15 | 2011-03-17 | At&T Intellectual Property I, L.P. | Media control |
US10319376B2 (en) * | 2009-09-17 | 2019-06-11 | Avaya Inc. | Geo-spatial event processing |
WO2011059997A1 (en) * | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8468012B2 (en) * | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
US8442827B2 (en) * | 2010-06-18 | 2013-05-14 | At&T Intellectual Property I, L.P. | System and method for customized voice response |
US8538760B2 (en) * | 2010-07-13 | 2013-09-17 | Qualcomm Incorporated | Methods and apparatuses for identifying audible samples for use in a speech recognition capability of a mobile device |
US8645136B2 (en) | 2010-07-20 | 2014-02-04 | Intellisist, Inc. | System and method for efficiently reducing transcription error using hybrid voice transcription |
US20120059658A1 (en) * | 2010-09-08 | 2012-03-08 | Nuance Communications, Inc. | Methods and apparatus for performing an internet search |
US8718622B2 (en) * | 2010-09-22 | 2014-05-06 | Avaya Inc. | Pervasive contact center |
US9015043B2 (en) * | 2010-10-01 | 2015-04-21 | Google Inc. | Choosing recognized text from a background environment |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
CN102074231A (zh) * | 2010-12-30 | 2011-05-25 | 万音达有限公司 | 语音识别方法和语音识别系统 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
CN102270213A (zh) * | 2011-04-20 | 2011-12-07 | 深圳市凯立德科技股份有限公司 | 一种导航系统兴趣点的搜索方法、装置及位置服务终端 |
US8538742B2 (en) * | 2011-05-20 | 2013-09-17 | Google Inc. | Feed translation for a social network |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
KR20130016644A (ko) * | 2011-08-08 | 2013-02-18 | 삼성전자주식회사 | 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 |
US8706499B2 (en) * | 2011-08-16 | 2014-04-22 | Facebook, Inc. | Periodic ambient waveform analysis for enhanced social functions |
US8707157B1 (en) * | 2011-08-19 | 2014-04-22 | Intuit Inc. | System and method for pre-populating forms using statistical analysis |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10672280B1 (en) * | 2011-09-29 | 2020-06-02 | Rockwell Collins, Inc. | Bimodal user interface system, device, and method for streamlining a user's interface with an aircraft display unit |
US9299110B2 (en) * | 2011-10-19 | 2016-03-29 | Facebook, Inc. | Periodic ambient waveform analysis for dynamic device configuration |
US8886546B2 (en) * | 2011-12-19 | 2014-11-11 | Verizon Patent And Licensing Inc. | Voice application access |
CN103226548A (zh) * | 2012-01-30 | 2013-07-31 | 北京四维图新科技股份有限公司 | 一种互联网地图的搜索服务方法、装置和系统 |
US8909255B1 (en) * | 2012-02-21 | 2014-12-09 | Google Inc. | Reverse geocoder |
US10326648B2 (en) * | 2012-03-01 | 2019-06-18 | Mentor Graphics Corporation | Virtual use of electronic design automation tools |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
KR101951417B1 (ko) * | 2012-03-09 | 2019-02-22 | 엘지전자 주식회사 | 휴대 전자기기 및 이의 제어 방법 |
US10019991B2 (en) * | 2012-05-02 | 2018-07-10 | Electronics And Telecommunications Research Institute | Apparatus and method for speech recognition |
KR101700819B1 (ko) * | 2012-05-02 | 2017-02-01 | 한국전자통신연구원 | 음성 인식 장치 및 방법 |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10776830B2 (en) | 2012-05-23 | 2020-09-15 | Google Llc | Methods and systems for identifying new computers and providing matching services |
US10152723B2 (en) | 2012-05-23 | 2018-12-11 | Google Llc | Methods and systems for identifying new computers and providing matching services |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
EP2862163A4 (en) * | 2012-06-18 | 2015-07-29 | Ericsson Telefon Ab L M | METHOD AND NODE FOR ACTIVATING AND MANUFACTURING INPUTS FOR APPLICATION |
US9043205B2 (en) * | 2012-06-21 | 2015-05-26 | Google Inc. | Dynamic language model |
CN103514875A (zh) * | 2012-06-29 | 2014-01-15 | 联想(北京)有限公司 | 语音数据的匹配方法和电子设备 |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
WO2014008494A1 (en) | 2012-07-04 | 2014-01-09 | Kreft Carlos | Communication of position data via text message |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) * | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN103678404A (zh) * | 2012-09-21 | 2014-03-26 | 联想(北京)有限公司 | 一种关键词识别方法及电子设备 |
JP6068901B2 (ja) * | 2012-09-26 | 2017-01-25 | 京セラ株式会社 | 情報端末、音声操作プログラムおよび音声操作方法 |
US20140114646A1 (en) * | 2012-10-24 | 2014-04-24 | Sap Ag | Conversation analysis system for solution scoping and positioning |
US20140142948A1 (en) * | 2012-11-21 | 2014-05-22 | Somya Rathi | Systems and methods for in-vehicle context formation |
CN103903611B (zh) * | 2012-12-24 | 2018-07-03 | 联想(北京)有限公司 | 一种语音信息的识别方法和设备 |
US10735552B2 (en) | 2013-01-31 | 2020-08-04 | Google Llc | Secondary transmissions of packetized data |
US10650066B2 (en) | 2013-01-31 | 2020-05-12 | Google Llc | Enhancing sitelinks with creative content |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10515076B1 (en) | 2013-04-12 | 2019-12-24 | Google Llc | Generating query answers from a user's history |
US10593326B2 (en) * | 2013-04-25 | 2020-03-17 | Sensory, Incorporated | System, method, and apparatus for location-based context driven speech recognition |
US9626963B2 (en) | 2013-04-30 | 2017-04-18 | Paypal, Inc. | System and method of improving speech recognition using context |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9786296B2 (en) * | 2013-07-08 | 2017-10-10 | Qualcomm Incorporated | Method and apparatus for assigning keyword model to voice operated function |
US9305554B2 (en) * | 2013-07-17 | 2016-04-05 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
KR102228455B1 (ko) * | 2013-08-05 | 2021-03-16 | 삼성전자주식회사 | 대화의 소재를 제공하는 장치, 서버 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
WO2015030737A1 (en) * | 2013-08-27 | 2015-03-05 | Snap Trends, Inc. | Methods and systems of aggregating information based on geographical locations of social network communications via a network |
US9477991B2 (en) | 2013-08-27 | 2016-10-25 | Snap Trends, Inc. | Methods and systems of aggregating information of geographic context regions of social networks based on geographical locations via a network |
US9263038B2 (en) * | 2013-10-03 | 2016-02-16 | Marchex, Inc. | System and method for analyzing and classifying calls without transcription via keyword spotting |
US11138971B2 (en) | 2013-12-05 | 2021-10-05 | Lenovo (Singapore) Pte. Ltd. | Using context to interpret natural language speech recognition commands |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
TWI506458B (zh) | 2013-12-24 | 2015-11-01 | Ind Tech Res Inst | 辨識網路產生裝置及其方法 |
US10276154B2 (en) | 2014-04-23 | 2019-04-30 | Lenovo (Singapore) Pte. Ltd. | Processing natural language user inputs using context data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9786276B2 (en) * | 2014-08-25 | 2017-10-10 | Honeywell International Inc. | Speech enabled management system |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
WO2016044321A1 (en) | 2014-09-16 | 2016-03-24 | Min Tang | Integration of domain information into state transitions of a finite state transducer for natural language processing |
EP3195145A4 (en) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Voice commerce |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
WO2016061309A1 (en) | 2014-10-15 | 2016-04-21 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
DE102015211101A1 (de) * | 2015-06-17 | 2016-12-22 | Volkswagen Aktiengesellschaft | Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
EP3414759B1 (en) * | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10142754B2 (en) | 2016-02-22 | 2018-11-27 | Sonos, Inc. | Sensor on moving component of transducer |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
CN106168895A (zh) * | 2016-07-07 | 2016-11-30 | 北京行云时空科技有限公司 | 用于智能终端的语音控制方法及智能终端 |
US10026398B2 (en) * | 2016-07-08 | 2018-07-17 | Google Llc | Follow-up voice query prediction |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9693164B1 (en) | 2016-08-05 | 2017-06-27 | Sonos, Inc. | Determining direction of networked microphone device relative to audio playback device |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US9794720B1 (en) | 2016-09-22 | 2017-10-17 | Sonos, Inc. | Acoustic position measurement |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10540451B2 (en) * | 2016-09-28 | 2020-01-21 | International Business Machines Corporation | Assisted language learning |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10296586B2 (en) * | 2016-12-23 | 2019-05-21 | Soundhound, Inc. | Predicting human behavior by machine learning of natural language interpretations |
US10708313B2 (en) * | 2016-12-30 | 2020-07-07 | Google Llc | Multimodal transmission of packetized data |
US10593329B2 (en) | 2016-12-30 | 2020-03-17 | Google Llc | Multimodal transmission of packetized data |
GB2563967A (en) * | 2016-12-30 | 2019-01-02 | Google Llc | Multimodal transmission of packetized data |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
KR101964514B1 (ko) * | 2017-03-23 | 2019-04-01 | 이동민 | 사용자 상태를 고려한 중의적 표현 분석 장치 및 방법 |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10810278B2 (en) | 2017-04-18 | 2020-10-20 | Google Llc | Contextual deep bookmarking |
US20180315414A1 (en) | 2017-04-26 | 2018-11-01 | International Business Machines Corporation | Adaptive digital assistant and spoken genome |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US20190019516A1 (en) * | 2017-07-14 | 2019-01-17 | Ford Global Technologies, Llc | Speech recognition user macros for improving vehicle grammars |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10558426B2 (en) * | 2017-12-08 | 2020-02-11 | Google Llc | Graphical user interface rendering management by voice-driven computing infrastructure |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
KR102592907B1 (ko) | 2018-06-22 | 2023-10-23 | 삼성전자주식회사 | 텍스트 입력 디바이스 및 그 방법 |
EP3607274B1 (en) * | 2018-06-26 | 2021-10-06 | Google LLC | Interfacing between digital assistant applications and navigation applications |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
JP7034027B2 (ja) * | 2018-07-26 | 2022-03-11 | ヤフー株式会社 | 認識装置、認識方法及び認識プログラム |
CN109189365A (zh) * | 2018-08-17 | 2019-01-11 | 平安普惠企业管理有限公司 | 一种语音识别方法、存储介质和终端设备 |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US10789955B2 (en) * | 2018-11-16 | 2020-09-29 | Google Llc | Contextual denormalization for automatic speech recognition |
EP3874489A1 (en) * | 2018-12-03 | 2021-09-08 | Google LLC | Speech input processing |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN109783681B (zh) * | 2019-01-18 | 2021-03-09 | 中国农业科学院农业信息研究所 | 一种农产品价格信息采集及处理装置和方法 |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US12020696B2 (en) | 2019-10-21 | 2024-06-25 | Soundhound Ai Ip, Llc | Automatic synchronization for an offline virtual assistant |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
JP7029434B2 (ja) * | 2019-10-23 | 2022-03-03 | サウンドハウンド,インコーポレイテッド | コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US20220130377A1 (en) * | 2020-10-27 | 2022-04-28 | Samsung Electronics Co., Ltd. | Electronic device and method for performing voice recognition thereof |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
CN113113024B (zh) * | 2021-04-29 | 2024-08-23 | 中国科学技术大学 | 语音识别方法、装置、电子设备和存储介质 |
CN113299287A (zh) * | 2021-05-24 | 2021-08-24 | 山东新一代信息产业技术研究院有限公司 | 基于多模态的服务机器人交互方法、系统及存储介质 |
US11688390B2 (en) | 2021-05-27 | 2023-06-27 | Honeywell International Inc. | Dynamic speech recognition methods and systems with user-configurable performance |
KR20230039423A (ko) * | 2021-09-14 | 2023-03-21 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020111810A1 (en) * | 2001-02-15 | 2002-08-15 | Khan M. Salahuddin | Spatially built word list for automatic speech recognition program and method for formation thereof |
JP2002318132A (ja) * | 2001-04-23 | 2002-10-31 | Hitachi Ltd | 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ |
JP2003032399A (ja) * | 2001-07-12 | 2003-01-31 | Fuji Xerox Co Ltd | 画像処理装置および給電方法 |
US20030125869A1 (en) * | 2002-01-02 | 2003-07-03 | International Business Machines Corporation | Method and apparatus for creating a geographically limited vocabulary for a speech recognition system |
WO2005066934A1 (en) * | 2004-01-07 | 2005-07-21 | Toyota Infotechnology Center Co., Ltd. | Method and system for speech recognition using grammar weighted based upon location information |
CN1674091A (zh) * | 2005-04-18 | 2005-09-28 | 南京师范大学 | 地理信息的语音识别方法及其在导航系统中的应用 |
US20060074660A1 (en) * | 2004-09-29 | 2006-04-06 | France Telecom | Method and apparatus for enhancing speech recognition accuracy by using geographic data to filter a set of words |
JP2006171305A (ja) * | 2004-12-15 | 2006-06-29 | Nissan Motor Co Ltd | ナビゲーション装置およびナビゲーション装置における音声認識による情報の検索方法 |
Family Cites Families (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5524169A (en) * | 1993-12-30 | 1996-06-04 | International Business Machines Incorporated | Method and system for location-specific speech recognition |
US5905773A (en) * | 1996-03-28 | 1999-05-18 | Northern Telecom Limited | Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models |
US6202023B1 (en) | 1996-08-22 | 2001-03-13 | Go2 Systems, Inc. | Internet based geographic location referencing system and method |
US5819220A (en) * | 1996-09-30 | 1998-10-06 | Hewlett-Packard Company | Web triggered word set boosting for speech interfaces to the world wide web |
JPH10141974A (ja) * | 1996-11-12 | 1998-05-29 | Sony Corp | カーナビゲーション装置およびその操作方法 |
JPH10143191A (ja) * | 1996-11-13 | 1998-05-29 | Hitachi Ltd | 音声認識システム |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US6184823B1 (en) * | 1998-05-01 | 2001-02-06 | Navigation Technologies Corp. | Geographic database architecture for representation of named intersections and complex intersections and methods for formation thereof and use in a navigation application program |
US7031925B1 (en) * | 1998-06-15 | 2006-04-18 | At&T Corp. | Method and apparatus for creating customer specific dynamic grammars |
US6745165B2 (en) * | 1999-06-16 | 2004-06-01 | International Business Machines Corporation | Method and apparatus for recognizing from here to here voice command structures in a finite grammar speech recognition system |
BR0014954A (pt) | 1999-10-22 | 2002-07-30 | Activesky Inc | Sistema de vìdeo baseado em objetos |
WO2001065541A1 (fr) * | 2000-02-28 | 2001-09-07 | Sony Corporation | Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement |
AU2001259446A1 (en) * | 2000-05-02 | 2001-11-12 | Dragon Systems, Inc. | Error correction in speech recognition |
WO2001089183A1 (en) * | 2000-05-16 | 2001-11-22 | John Taschereau | Method and system for providing geographically targeted information and advertising |
US6487495B1 (en) * | 2000-06-02 | 2002-11-26 | Navigation Technologies Corporation | Navigation applications using related location-referenced keywords |
US7376640B1 (en) * | 2000-11-14 | 2008-05-20 | At&T Delaware Intellectual Property, Inc. | Method and system for searching an information retrieval system according to user-specified location information |
US6937986B2 (en) * | 2000-12-28 | 2005-08-30 | Comverse, Inc. | Automatic dynamic speech recognition vocabulary based on external sources of information |
US20030023440A1 (en) * | 2001-03-09 | 2003-01-30 | Chu Wesley A. | System, Method and computer program product for presenting large lists over a voice user interface utilizing dynamic segmentation and drill down selection |
US7437295B2 (en) * | 2001-04-27 | 2008-10-14 | Accenture Llp | Natural language processing for a location-based services system |
JP2003032388A (ja) * | 2001-07-12 | 2003-01-31 | Denso Corp | 通信端末装置及び処理システム |
US6757544B2 (en) * | 2001-08-15 | 2004-06-29 | Motorola, Inc. | System and method for determining a location relevant to a communication device and/or its associated user |
US20030093419A1 (en) * | 2001-08-17 | 2003-05-15 | Srinivas Bangalore | System and method for querying information using a flexible multi-modal interface |
US6813342B1 (en) | 2001-10-17 | 2004-11-02 | Bevocal, Inc. | Implicit area code determination during voice activated dialing |
US20030171926A1 (en) * | 2002-03-07 | 2003-09-11 | Narasimha Suresh | System for information storage, retrieval and voice based content search and methods thereof |
US6999930B1 (en) * | 2002-03-27 | 2006-02-14 | Extended Systems, Inc. | Voice dialog server method and system |
US20030191639A1 (en) * | 2002-04-05 | 2003-10-09 | Sam Mazza | Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition |
US20050055216A1 (en) * | 2003-09-04 | 2005-03-10 | Sbc Knowledge Ventures, L.P. | System and method for the automated collection of data for grammar creation |
US7752210B2 (en) * | 2003-11-13 | 2010-07-06 | Yahoo! Inc. | Method of determining geographical location from IP address information |
US7584422B2 (en) * | 2004-07-12 | 2009-09-01 | Informatica Corporation | System and method for data format transformation |
US7373248B2 (en) * | 2004-09-10 | 2008-05-13 | Atx Group, Inc. | Systems and methods for off-board voice-automated vehicle navigation |
US7630900B1 (en) * | 2004-12-01 | 2009-12-08 | Tellme Networks, Inc. | Method and system for selecting grammars based on geographic information associated with a caller |
US20060129533A1 (en) * | 2004-12-15 | 2006-06-15 | Xerox Corporation | Personalized web search method |
US7672931B2 (en) | 2005-06-30 | 2010-03-02 | Microsoft Corporation | Searching for content using voice search queries |
US20070112739A1 (en) * | 2005-07-19 | 2007-05-17 | 4Info, Inc. | Intelligent mobile search client |
JP2007052397A (ja) * | 2005-07-21 | 2007-03-01 | Denso Corp | 操作装置 |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7577665B2 (en) | 2005-09-14 | 2009-08-18 | Jumptap, Inc. | User characteristic influenced search results |
US7860871B2 (en) | 2005-09-14 | 2010-12-28 | Jumptap, Inc. | User history influenced search results |
JP4505821B2 (ja) * | 2005-11-21 | 2010-07-21 | 株式会社デンソー | 車載ナビゲーション装置および検索範囲絞込み施設検索方法 |
ATE439665T1 (de) * | 2005-11-25 | 2009-08-15 | Swisscom Ag | Verfahren zur personalisierung eines dienstes |
US7616964B2 (en) * | 2005-12-13 | 2009-11-10 | Yahoo! Inc. | System and method for providing geo-relevant information based on a mobile device |
KR100725792B1 (ko) * | 2006-02-01 | 2007-06-08 | 엔에이치엔(주) | 개인 웹페이지에서의 지리 정보 제공 방법 및 시스템 |
US7778837B2 (en) * | 2006-05-01 | 2010-08-17 | Microsoft Corporation | Demographic based classification for local word wheeling/web search |
US20070276651A1 (en) * | 2006-05-23 | 2007-11-29 | Motorola, Inc. | Grammar adaptation through cooperative client and server based speech recognition |
US7606715B1 (en) * | 2006-05-25 | 2009-10-20 | Rockwell Collins, Inc. | Avionics system for providing commands based on aircraft state |
US20070280445A1 (en) * | 2006-06-05 | 2007-12-06 | Roy Shkedi | Method for Interacting Via an Internet Accessible Address-Book Using a Visual Interface Phone Device |
US7937402B2 (en) * | 2006-07-10 | 2011-05-03 | Nec (China) Co., Ltd. | Natural language based location query system, keyword based location query system and a natural language and keyword based location query system |
US20080086368A1 (en) * | 2006-10-05 | 2008-04-10 | Google Inc. | Location Based, Content Targeted Online Advertising |
US7890326B2 (en) * | 2006-10-13 | 2011-02-15 | Google Inc. | Business listing search |
US20080312934A1 (en) * | 2007-03-07 | 2008-12-18 | Cerra Joseph P | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility |
US20080222119A1 (en) * | 2007-03-08 | 2008-09-11 | Microsoft Corporation | Detecting a user's location, local intent and travel intent from search queries |
US8219406B2 (en) * | 2007-03-15 | 2012-07-10 | Microsoft Corporation | Speech-centric multimodal user interface design in mobile technology |
US7788252B2 (en) * | 2007-03-28 | 2010-08-31 | Yahoo, Inc. | System for determining local intent in a search query |
US7774348B2 (en) * | 2007-03-28 | 2010-08-10 | Yahoo, Inc. | System for providing geographically relevant content to a search query with local intent |
US20080312969A1 (en) | 2007-04-20 | 2008-12-18 | Richard Raines | System and method for insurance underwriting and rating |
US7949936B2 (en) * | 2007-04-27 | 2011-05-24 | International Business Machines Corporation | Selecting advertising for a web page |
US9360337B2 (en) * | 2007-06-20 | 2016-06-07 | Golba Llc | Navigation system and methods for route navigation |
US8060367B2 (en) * | 2007-06-26 | 2011-11-15 | Targus Information Corporation | Spatially indexed grammar and methods of use |
US7983913B2 (en) * | 2007-07-31 | 2011-07-19 | Microsoft Corporation | Understanding spoken location information based on intersections |
US8140335B2 (en) * | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8255224B2 (en) | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US8255217B2 (en) * | 2009-10-16 | 2012-08-28 | At&T Intellectual Property I, Lp | Systems and methods for creating and using geo-centric language models |
US8473433B2 (en) | 2010-11-04 | 2013-06-25 | At&T Intellectual Property I, L.P. | Systems and methods to facilitate local searches via location disambiguation |
-
2008
- 2008-03-07 US US12/044,310 patent/US8255224B2/en active Active
-
2009
- 2009-03-06 WO PCT/US2009/036369 patent/WO2009111721A2/en active Application Filing
- 2009-03-06 JP JP2010549918A patent/JP2011513795A/ja active Pending
- 2009-03-06 CN CN201710202874.9A patent/CN107331389B/zh not_active Expired - Fee Related
- 2009-03-06 EP EP09716241.6A patent/EP2260264A4/en not_active Withdrawn
- 2009-03-06 CN CN200980115721.4A patent/CN102016502B/zh active Active
- 2009-03-06 KR KR1020157021616A patent/KR101758302B1/ko active IP Right Grant
- 2009-03-06 CN CN202110625294.7A patent/CN113506567A/zh active Pending
- 2009-03-06 KR KR1020177018264A patent/KR101881985B1/ko active IP Right Grant
- 2009-03-06 KR KR1020187011064A patent/KR20180043405A/ko not_active Application Discontinuation
- 2009-03-06 KR KR1020107022439A patent/KR101605147B1/ko active IP Right Grant
-
2012
- 2012-08-23 US US13/593,140 patent/US8527279B2/en active Active
-
2013
- 2013-08-02 US US13/958,049 patent/US9858921B2/en active Active
-
2016
- 2016-12-14 US US15/378,504 patent/US10510338B2/en active Active
-
2019
- 2019-08-13 US US16/539,054 patent/US11538459B2/en active Active
-
2022
- 2022-12-13 US US18/065,588 patent/US20230112412A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020111810A1 (en) * | 2001-02-15 | 2002-08-15 | Khan M. Salahuddin | Spatially built word list for automatic speech recognition program and method for formation thereof |
JP2002318132A (ja) * | 2001-04-23 | 2002-10-31 | Hitachi Ltd | 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ |
JP2003032399A (ja) * | 2001-07-12 | 2003-01-31 | Fuji Xerox Co Ltd | 画像処理装置および給電方法 |
US20030125869A1 (en) * | 2002-01-02 | 2003-07-03 | International Business Machines Corporation | Method and apparatus for creating a geographically limited vocabulary for a speech recognition system |
WO2005066934A1 (en) * | 2004-01-07 | 2005-07-21 | Toyota Infotechnology Center Co., Ltd. | Method and system for speech recognition using grammar weighted based upon location information |
US20060074660A1 (en) * | 2004-09-29 | 2006-04-06 | France Telecom | Method and apparatus for enhancing speech recognition accuracy by using geographic data to filter a set of words |
JP2006171305A (ja) * | 2004-12-15 | 2006-06-29 | Nissan Motor Co Ltd | ナビゲーション装置およびナビゲーション装置における音声認識による情報の検索方法 |
CN1674091A (zh) * | 2005-04-18 | 2005-09-28 | 南京师范大学 | 地理信息的语音识别方法及其在导航系统中的应用 |
Also Published As
Publication number | Publication date |
---|---|
CN107331389A (zh) | 2017-11-07 |
CN102016502A (zh) | 2011-04-13 |
US20200043472A1 (en) | 2020-02-06 |
KR101881985B1 (ko) | 2018-08-24 |
WO2009111721A2 (en) | 2009-09-11 |
US8527279B2 (en) | 2013-09-03 |
KR20170081745A (ko) | 2017-07-12 |
US8255224B2 (en) | 2012-08-28 |
US9858921B2 (en) | 2018-01-02 |
KR20100126796A (ko) | 2010-12-02 |
US10510338B2 (en) | 2019-12-17 |
KR20180043405A (ko) | 2018-04-27 |
US20120316878A1 (en) | 2012-12-13 |
CN107331389B (zh) | 2021-06-18 |
KR101758302B1 (ko) | 2017-07-14 |
US11538459B2 (en) | 2022-12-27 |
EP2260264A2 (en) | 2010-12-15 |
CN102016502B (zh) | 2017-06-09 |
JP2011513795A (ja) | 2011-04-28 |
KR101605147B1 (ko) | 2016-04-01 |
US20230112412A1 (en) | 2023-04-13 |
KR20150097816A (ko) | 2015-08-26 |
US20140195234A1 (en) | 2014-07-10 |
EP2260264A4 (en) | 2015-05-06 |
US20170092267A1 (en) | 2017-03-30 |
US20090228281A1 (en) | 2009-09-10 |
WO2009111721A3 (en) | 2010-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11538459B2 (en) | Voice recognition grammar selection based on context | |
US20230082927A1 (en) | Automatic Routing Using Search Results | |
CN112270925B (zh) | 用于创建可定制对话系统引擎的平台 | |
US8862467B1 (en) | Contextual speech recognition | |
US10496714B2 (en) | State-dependent query response | |
KR102364401B1 (ko) | 문맥형 음성-구동 딥 북마킹 | |
JP2015052745A (ja) | 情報処理装置、制御方法、及びプログラム | |
US12124523B2 (en) | Automatic routing using search results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |