CN109791476A - 通信装置 - Google Patents
通信装置 Download PDFInfo
- Publication number
- CN109791476A CN109791476A CN201680089555.5A CN201680089555A CN109791476A CN 109791476 A CN109791476 A CN 109791476A CN 201680089555 A CN201680089555 A CN 201680089555A CN 109791476 A CN109791476 A CN 109791476A
- Authority
- CN
- China
- Prior art keywords
- microphone
- group
- communication device
- engine
- calculating equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 100
- 230000004044 response Effects 0.000 claims description 64
- 238000000034 method Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 37
- 241000209140 Triticum Species 0.000 claims description 6
- 235000021307 Triticum Nutrition 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 16
- 238000012549 training Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000009434 installation Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
在本公开的一个示例中,通信装置包括第一麦克风。通信装置将无线地并且同时地连接到包括第一麦克风的一组麦克风。通信装置从该组麦克风中的每个麦克风接收麦克风数据,其中麦克风数据指示由该组麦克风捕获的用户口述短语。通信装置基于所接收的麦克风数据从该组麦克风中建立选择的麦克风。
Description
背景技术
在当今世界,用户越来越多地利用基于技术的设备(包括智能手机、平板电脑和个人计算机)来访问语音可访问的虚拟助理功能。流行的虚拟助理功能包括使用户能够根据语音指令创建可操作的任务,并通过访问搜索引擎、电子邮件、SMS、电子日历、电子联系人目录以及其他应用程序来执行这些任务。
附图说明
图1是描绘通信装置的示例的框图。
图2是描绘用于实现通信装置的示例的存储器资源和处理资源的框图。
图3示出了通信装置的示例,该通信装置无线连接到一组麦克风,并且基于接收的麦克风数据从该组中建立选择的麦克风。
图4是描绘通信方法的示例的实施方式的流程图。
图5是描绘通信方法的示例的实施方式的流程图,其中通信装置经由Wi-FiTM网络连接到一组麦克风。
图6是描绘通信方法的示例的实施方式的流程图,其中通信装置将从计算设备接收响应短语并且经由扬声器输出响应短语。
具体实施方式
在当前工业状态中,用户可以使用具有其自己的麦克风和扬声器的通信装置来与虚拟助理服务进行交互。随着用户越来越多地使用这种通信装置,他们可能希望访问多个虚拟助理服务,因为某些服务对于某些任务或功能将比其他服务更好。例如,用户可能希望让一个虚拟助理管理日历,另一个虚拟助理服务来获得新闻和体育比分,以及又一个虚拟助理服务来控制家中的灯。
使具有嵌入(或以其他方式专用的)麦克风的多个通信装置与一个或多个虚拟助理服务通信可能存在操作困难。取决于用户相对于通信装置的位置、背景噪声和其他因素,将请求发送到期望的虚拟助理服务的通信装置可能会检测不到用户口述短语。在另一个示例中,使用具有专用麦克风的多个通信装置与多个虚拟助理服务通信可能是不令人满意的,因为用户被提供了过多的对通过麦克风的用户口述短语检测的响应。
为了解决这些问题,下面更详细描述的各种示例提供了一种通信装置和方法,其能够利用一组麦克风与虚拟助理服务进行有效且高效的通信。在一个示例中,通信装置无线地并且同时地连接到一组麦克风,该组包括作为通信装置的一部分的第一麦克风。在某些示例中,无线并且同时的连接是Wi-FiTM连接。通信装置从该组麦克风中的每个麦克风接收麦克风数据,其中麦克风数据指示由该组麦克风捕获的用户口述短语。通信装置基于接收的麦克风数据从该组麦克风中建立选择的麦克风。所选择的麦克风通过无线连接将与在所选择的麦克风处捕获的用户口述短语相关联的麦克风数据发送到计算设备。计算设备又将麦克风数据的至少一部分发送到托管虚拟助理服务的服务器系统。在某些示例中,服务器系统可以向计算设备发送响应短语,计算设备又可以将响应短语发送到通信装置,以便在通信装置内包括的扬声器处进行音频输出。
然后,以这种方式,所公开的通信装置和通信方法的示例将使得能够建立一组可以在整个用户家中传播的Wi-FiTM激活的麦克风。该组麦克风之间的Wi-FiTM连接使得能够基于所接收的麦克风数据建立选择的麦克风,以将捕获的用户话语同时发送到多个虚拟助理服务。用户将享受由所公开的通信装置和方法可能实现的效率和易用性,并且对语音激活的虚拟助理服务的利用会加强。
图1和图2描绘了用于实现各种示例的物理和逻辑部件的示例。在图1中,各种部件被标识为引擎102、104、106、108、110和112。在描述引擎102-112时,焦点在于每个引擎的指定功能。然而本文使用的术语“引擎”通常是指用于执行指定功能的硬件和/或编程的组合。如稍后参照图2所示的,每个引擎的硬件例如可以包括处理器和存储器中的一个或两个,而编程可以是存储在该存储器上并且可由处理器执行以执行指定功能的代码。
图1是描绘通信装置100的部件的框图。在该示例中,计算设备100包括连接引擎102、接收引擎104、建立引擎106、训练引擎108、响应引擎110、输出引擎112和麦克风114(本文有时称为“目标麦克风114”)。引擎102-112在执行它们各自的功能时可以访问数据存储库,例如可以用于存储和检索数据的、计算设备100可访问的存储器。
在一个示例中,连接引擎102通常表示用以无线地且同时地将通信装置100连接到一组麦克风的硬件和编程的组合,该组包括目标麦克风114。一个示例中,通信装置100与该组麦克风之间的无线且同时连接可以通过基于无线电的计算机网络。如本文所使用的,通信装置与该组麦克风的“同时连接”通常是指通信装置例如经由令牌环、以太网或其他网络配置将麦克风数据同时发送到该组的麦克风的能力,这与通信装置依赖于与该组的麦克风的一对一连接相反。在特定示例中,通信装置100与该组麦克风的无线且同时连接可以经由Wi-FiTM网络连接。
在一个示例中,接收引擎104通常表示用以从该组麦克风中的每个麦克风接收麦克风数据的硬件和编程的组合。如本文所使用的,“麦克风”通常是指将声波转换成电能变化的任何设备,该电能变化然后可以被记录或以其他方式被捕获、放大或传输。如本文所使用的,“数据”通常是指数字电信号形式的表示(包括但不限于数量、字符和符号的表示),计算机可对其执行操作(例如包括但不限于读、写和传输操作)。如本文所使用的,“麦克风数据”通常指的是指示在通信装置的麦克风处检测到的用户口述短语的数据。如本文所使用的,“短语”通常是指用作传达思想或概念的单元或组成部分的一组单词(即一个或多个单词)。如本文所使用的,“单词”通常是指有意义的语音或书写元素,通常用于传达思想或概念。在一些示例中,麦克风数据可以包括触发短语。如本文所使用的,“触发短语”通常是指这样的短语,当其被检测为已经说出时,指使设备(例如通信装置、计算设备或系统)或由设备托管的应用或服务执行操作或启动事件。在特定示例中,触发短语可以是由服务器系统托管的虚拟助理服务所独有的短语。如本文所使用的,“虚拟助理服务”或“虚拟助理”通常是指通过与托管服务的服务器系统电子连接的智能电话、笔记本电脑、台式计算机或其他计算设备,基于用户口述短语为用户执行任务或服务的应用程序或其他计算机程序。在示例中,可以基于用户输入、位置感知以及从各种在线源(诸如天气或交通状况,新闻,股票价格,用户时间表,零售价格等)访问信息的能力,来执行任务或服务。
在特定示例中,目标麦克风114可以是还包括扬声器的通信装置的部件。如本文所使用的,“扬声器”通常指的是将接收的电音频信号转换成相应声音的任何设备。在示例中,该组麦克风中的一些或所有麦克风可以是还包括扬声器的通信装置的一部分。在示例中,该组麦克风中的一些麦克风可以是具有Wi-FiTM或其他同时连接无线能力的独立麦克风。
建立引擎106通常表示用以基于所接收的麦克风数据从该组麦克风中建立选择的麦克风的硬件和编程的组合。所选择的麦克风经由无线连接将与在所选择的麦克风处捕获的用户口述短语相关联的麦克风数据发送到计算设备。从通信装置100接收麦克风数据的计算设备又将麦克风数据的至少一部分发送到托管虚拟助理服务的服务器系统。
在某些示例中,建立引擎106还可以向计算设备发送将所选择的麦克风建立为计算设备的默认麦克风的消息。以这种方式,计算设备将知道从所选择的麦克风接收麦克风数据(相对于该组麦克风的其他麦克风),用于随后的用户捕获的短语。
在某些示例中,建立引擎106可以确定从该组麦克风中的每个麦克风接收的麦克风数据指示相同的用户口述短语。以这种方式,通信装置100可以知道该组的麦克风正在检测相同的用户话语。在这种情况下,建立引擎106可以通过确定所选择的麦克风具有最强的信号电平,基于所接收的麦克风数据从该组麦克风建立所选择的麦克风。
在特定示例中,建立引擎106在基于所接收的麦克风数据从该组麦克风中建立所选择的麦克风时,可以利用声学回声消除过程来识别并消除背景声音。如本文所使用的,声学回声消除过程通常是指通过防止回声产生或者通过在已经存在回声之后去除回声,来改善语音或声音质量的过程。在某些示例中,回声消除可以涉及识别在发送或接收的信号中以一定延迟重新出现的原始发送信号。一旦识别出回声,就可以通过从发送或接收的信号中减去它来去除它。在某些示例中,该过程可以使用数字信号处理器或编程以数字方式实现。
在其他示例中,建立引擎106在基于所接收的麦克风数据建立所选择的麦克风时,可以确定用户相对于该组的其他麦克风与所选择的麦克风的接近度。在某些示例中,建立引擎106可以基于用于检测用户的存在的一个或多个传感器来确定用户与麦克风的接近度。在示例中,传感器可以包括在该组的一个或多个麦克风内。在另一个示例中,传感器可以远离该组的麦克风定位,其中传感器与通信装置进行电子通信。
在特定示例中,通信装置100可以包括训练引擎108。训练引擎108通常表示用以基于麦克风检测预定声音的能力来识别该组麦克风中的麦克风之间的距离的硬件和编程的组合。在示例中,预定声音可以是以预定频率和/或预定音量发出的为了测试例程的音调。利用该训练例程的结果,建立引擎106在建立该组麦克风中的哪一个将是所选择的麦克风时,可以考虑所识别的麦克风之间的距离。
在另一个示例中,建立引擎106在从该组麦克风中建立所选择的麦克风时,可以基于对与用户相关联的移动计算设备的接近度的确定,来确定用户的接近度。如本文所使用的,术语“移动计算设备”和“移动设备”同义使用,并且通常指代任何便携式计算设备,包括但不限于笔记本电脑、平板电脑或智能电话。例如,如果建立引擎106获得由目标用户拥有或以其他方式与目标用户相关联的智能电话、平板电脑、游戏设备或其他移动计算设备的IP地址或其他标识符,则建立引擎106可以利用所确定的移动设备距该组的各个麦克风的距离作为与这种移动设备相关联的用户到各种麦克风的距离的代理。在示例中,建立引擎106可以通过访问查找表来确定移动设备和/或移动设备的标识符与用户的关联。
在通信装置100包括扬声器的某些示例中,通信装置100还可以包括响应引擎110和输出引擎112。响应引擎110通常表示用以从麦克风数据所发送到的计算设备并且经由同时连接无线网络接收响应短语的硬件和编程的组合。在示例中,响应短语可以是在从计算设备接收麦克风数据的服务器系统处确定的并且此后由服务器系统发送到同一计算设备的短语或消息。输出引擎112通常表示用以使得通过通信装置100处的扬声器输出由响应引擎110接收的响应短语的硬件和编程的组合。
在通信装置100包括响应引擎110和输出引擎112的特定示例中,当第一和第二计算设备是通向同一虚拟助理服务的渠道时,用户可以向通信装置100发送指令以经由同时无线网络接受来自第一计算设备的响应短语,而不是通过同时无线网络接受来自第二计算设备的响应短语。以这种方式,减少了通信装置接收和/或输出重复响应短语的可能性。
例如,在建立引擎106已经基于所接收的麦克风数据从集合中建立了选择的麦克风之后,所选择的麦克风可以经由同时无线连接,将与在所选择的麦克风处捕获的用户口述短语相关联的麦克风数据发送到第一计算设备和第二计算设备。在该示例中,第一计算设备和第二计算设备又将麦克风数据的至少一部分发送到托管虚拟助理服务的服务器系统。第一计算设备和第二计算设备从托管虚拟助理服务的服务器系统接收响应短语,并将响应短语发送到通信装置100。响应引擎110接收由第一计算设备和第二计算设备中的每一个发送的响应短语。然而在该示例中,当装置100已经接收到避免从同一虚拟助理服务输出多个响应短语的用户指令时,输出引擎112促使从第一计算设备接收的响应短语而不是从第二计算设备接收的响应短语通过扬声器输出。在另一示例中,通信装置100例如基于所接收的用户不将麦克风数据发送到特定服务器或特定虚拟助理服务的选择或指令,可以不将麦克风数据发送到托管虚拟助理服务的用户指定的服务器。
在通信装置100包括响应引擎110和输出引擎112的另一特定示例中,所选择的麦克风可以通过无线连接,将与在所选择的麦克风处捕获的用户口述短语相关联的麦克风数据发送到第一计算设备和多个其他计算设备。在该示例中,假设麦克风数据指示语音触发短语,其中该语音触发短语在由特定虚拟助理服务接收时将使该虚拟助理服务发送响应短语。例如,如果触发短语是“你好,小娜(Cortana)”,则发送包括触发短语的麦克风数据到第一计算设备(第一计算设备又将具有触发短语的麦克风数据发送到托管小娜虚拟助理服务的第一服务器系统),将使第一服务器系统服务发送响应短语,例如“有什么需要我帮忙的吗?”。在该示例中,进一步假设“你好,小娜”触发短语在被其他计算设备接收并被传递至其他服务器系统时,调用来自其他接收麦克风数据的(非小娜)虚拟助理服务的响应是无效的。例如,如果作为“ABC虚拟助理服务”的第二虚拟助理服务期望触发短语“Hello ABC”,则接收“Hello,小娜”触发短语不会导致与ABC虚拟助理服务相关联的第二服务器系统发送响应。因此,在该示例中,由于第一虚拟助理服务识别包括在麦克风数据中的“你好,小娜”触发短语,因此响应引擎110从第一计算设备接收响应短语。在该示例中,响应引擎110不从第二计算设备或除第一计算设备之外的任何其他计算设备接收响应短语,因为其他计算设备正在与托管无法识别或不回应“你好,小娜”触发短语的虚拟助理服务的服务器系统进行通信。
在通信装置100包括响应引擎110和输出引擎112的又一特定示例中,所选择的麦克风可以通过无线连接将与在所选择的麦克风处捕获的用户口述短语相关联的麦克风数据的至少一部分发送到计算设备,其中计算设备又将麦克风数据的该至少一部分发送到一组服务器系统,其中该组中的每个服务器系统托管不同的虚拟助理服务。在该示例中,响应引擎110接收由被该组中的第一服务器系统托管的第一虚拟助理服务确定的响应短语,其中第一虚拟助理服务将麦克风数据的该至少一部分识别为第一虚拟助理服务独有的触发短语。例如,如果第一虚拟助理服务是识别麦克风数据中的短语“你好,小娜”(小娜虚拟助理服务独有的触发短语)的小娜虚拟助理服务,则第一(小娜)虚拟助理服务可以确定第一服务器系统发送到计算机系统的以及响应引擎110从计算机系统接收的响应(例如,“今天我可以帮助你什么?”)。该组中连接到计算机系统的其他服务器系统不会发送响应短语以转发到响应引擎110,因为与其他服务器系统相关联的其他(非小娜)虚拟助理服务不会接受“你好,小娜”作为一个可接受的触发短语。
如本文所使用的,“链路”通常是指能够实现电子连接、无线连接、其他连接或其组合以能够实现部件和/或计算设备之间的数据通信的基础设施或基础设施的组合。这种基础设施可以包括但不限于经由电信链路、红外链路或射频链路的电缆、无线、光纤或远程连接。例如,“链路”可以指代或表示因特网、内联网和中间路由器、交换机和其他接口。如本文所使用的,“计算设备”可以是服务器、计算机网络设备、芯片组、台式计算机、笔记本电脑、工作站、平板电脑、智能电话或其他处理设备或装备。如本文所使用的,部件之间(例如两个计算设备之间)的“电子连接”通常指的是经由可以实现部件之间的数据传输的电导体的连接。部件之间(例如两个计算设备之间)的“无线连接”通常指的是部件之间的、不通过电导体并且可以实现部件之间的数据传输的连接。无线连接可以通过无线通信协议或无线标准来交换数据。
在图1的前述讨论中,引擎102-112被描述为硬件和编程的组合。引擎102-112可以以多种方式实现。参见图2,编程可以是存储在有形存储器资源230上的处理器可执行指令,并且硬件可以包括用于执行那些指令的处理资源240。因此,可以说存储器资源230存储程序指令,该程序指令在由处理资源240执行时实现图1的计算设备100。
存储器资源230通常表示能够存储可由处理资源240执行的指令的任意数量的存储器部件。存储器资源230在某种意义上是非暂存的,即它不包含暂时性信号,而是由存储器部件构成以存储相关指令。存储器资源230可以在单个设备中实现或者跨设备分布。同样地,处理资源240表示能够执行由存储器资源230存储的指令的任何数量的处理器。处理资源240可以集成在单个设备中或者跨设备分布。进一步的,存储器资源230可以完全或部分地集成在与处理资源240相同的设备中,或者它可以是独立的但可由该设备和处理资源240访问。
在一个示例中,程序指令可以是安装包的一部分,安装包在安装时可以由处理资源240来执行以实现计算设备100。在这种情况下,存储器资源230可以是诸如CD、DVD或闪存驱动器之类的便携式介质,或者可以是由可以从其下载和安装安装包的服务器维护的存储器。在另一示例中,程序指令可以是已经安装的应用程序的一部分。这里,存储器资源230可以包括集成存储器,诸如硬盘驱动器、固态驱动器等。
在图2中,存储在存储器资源230中的可执行程序指令被描绘为连接模块202、接收模块204、建立模块206、训练模块208、响应模块210和输出模块212。连接模块202表示当由处理资源240执行时可以执行上文关于图1的连接引擎102描述的任何功能的程序指令。接收模块204表示当由处理资源240执行时可以执行上文关于图1的接收引擎104描述的任何功能的程序指令。建立模块206表示当由处理资源240执行时可以执行上文关于图1的建立引擎106描述的任何功能的程序指令。训练模块208表示当由处理资源240执行时可以执行上文关于图1的训练引擎108描述的任何功能的程序指令。响应模块210表示当由处理资源240执行时可以执行上文关于图1的响应引擎110描述的任何功能的程序指令。输出模块212表示当由处理资源240执行时可以执行上文关于图1的输出引擎112描述的任何功能的程序指令。
鉴于图1和图2,图3示出了无线连接到一组麦克风并且从该组中建立选择的麦克风的通信装置的示例。在该示例中,用户在一组麦克风(麦克风一304、麦克风二306、麦克风三308和麦克风四310)中的每一个可以检测到话语的环境中说出短语“你好,小娜。天气预报是什么?”302。麦克风一304、麦克风二306、麦克风三308和麦克风四310中的每一个经由无线网络312同时连接到通信装置100,其中麦克风一304是通信装置100的一部分。在示例中,无线网络312可以是Wi-FiTM网络。
通信装置100从该组麦克风中的每个麦克风(麦克风一304、麦克风二306、麦克风三308和麦克风四310)接收麦克风数据314,其中麦克风数据314指示由该组麦克风中的每一个捕获的用户口述短语。
通信装置100基于所接收的麦克风数据,将麦克风四310建立为该组麦克风中的选择的麦克风。反过来,所选择的麦克风四310经由无线网络312将在所选择的麦克风四310处捕获的麦克风数据314'发送到计算设备316。计算设备316又将麦克风数据314'的至少一部分发送到托管虚拟助理服务320的服务器系统318。
在示例中,托管在服务器系统318处的虚拟助理服务320可以基于所接收的麦克风数据314'的该至少一部分,来确定适合于用户口述短语302的响应短语。服务器系统318又可以将响应短语发送到计算设备316。计算设备316可以反过来经由无线网络312发送响应短语并且通信装置100可以接收响应短语。在示例中,通信装置100然后可以使得所接收的响应短语通过扬声器输出。
在示例中,通信装置100可以是独立的通信装置,或者可以包括在家庭用具或其他普通用具或媒体中,例如装饰植物或家具。在其他示例中,通信装置100可以包括在例如智能手表或其他可穿戴计算设备的另一计算设备内。在特定示例中,通信装置100可以但不是必须包括在计算设备316中。
图4是用于识别优选通信装置的方法的实施方式的流程图。在讨论图4时,可以参考图1和图2中所示的部件。这样的参考是为了提供上下文的示例而不是限制可以实现图4所示的方法的方式。通信装置包括第一麦克风。通信装置无线地并且同时地连接到包括第一麦克风的一组麦克风(框402)。再次参考图1和图2,连接引擎102(图1)或连接模块202(图2)在由处理资源240执行时,可以负责实现框402。
从该组麦克风中的每个麦克风接收麦克风数据。麦克风数据指示由该组麦克风捕获的用户口述短语(框404)。再次参考图1和图2,接收引擎104(图1)或接收模块204(图2)在由处理资源240执行时,可以负责实现框404。
基于所接收的麦克风数据从该组麦克风中建立选择的麦克风。所选择的麦克风经由无线连接,将与在所选择的麦克风处捕获的用户口述短语相关联的麦克风数据的至少一部分发送到计算设备。计算设备又将麦克风数据的该至少一部分发送到托管虚拟助理服务的服务器系统(框406)。再次参考图1和图2,建立引擎106(图1)或建立模块206(图2)在由处理资源240执行时,可以负责实现框406。
图5是用于识别优选通信装置的方法的实施方式的流程图。在讨论图5时,可以参考图1和图2中所示的部件。这样的参考是为了提供上下文的示例而不是限制可以实现图5所示的方法的方式。通信装置经由Wi-Fi网络连接到一组麦克风。该组麦克风包括通信装置处的第一麦克风(框502)。再次参考图1和图2,连接引擎102(图1)或连接模块202(图2)在由处理资源240执行时,可以负责实现框502。
从该组麦克风中的每个麦克风接收麦克风数据。麦克风数据指示由该组麦克风捕获的用户口述短语(框504)。再次参考图1和图2,接收引擎104(图1)或接收模块204(图2)在由处理资源240执行时,可以负责实现框504。
基于所接收的麦克风数据,从该组麦克风组中建立选择的麦克风作为默认麦克风,用于经由Wi-Fi网络将与用户口述短语相关联的麦克风数据发送到计算设备。计算设备又将该麦克风数据的至少一部分发送到托管虚拟助理服务的服务器系统(框506)。再次参考图1和图2,建立引擎106(图1)或建立模块206(图2)在由处理资源240执行时,可以负责实现框506。
图6是用于识别优选通信装置的方法的实施方式的流程图。在讨论图6时,可以参考图1和图2中所示的部件。这样的参考是为了提供上下文的示例而不是限制可以实现图6所示的方法的方式。通信装置经由Wi-Fi网络连接到一组麦克风。该组麦克风包括通信装置处的第一麦克风(框602)。再次参考图1和图2,连接引擎102(图1)或连接模块202(图2)在由处理资源240执行时,可以负责实现框602。
从该组麦克风中的每个麦克风接收麦克风数据。麦克风数据指示由该组麦克风捕获的用户口述短语(框604)。再次参考图1和图2,接收引擎104(图1)或接收模块204(图2)在由处理资源240执行时,可以负责实现框604。
基于所接收的麦克风数据从该组麦克风中建立选择的麦克风。所选择的麦克风将经由Wi-Fi网络,将与在所选择的麦克风处捕获的用户口述短语相关联的麦克风数据发送到计算设备。计算设备又将该麦克风数据的至少一部分发送到托管虚拟助理服务的服务器系统(框606)。再次参考图1和图2,建立引擎106(图1)或建立模块206(图2)在由处理资源240执行时,可以负责实现框606。
从计算设备接收从服务器系统发送到计算设备的响应短语(框608)。再次参考图1和图2,响应引擎110(图1)或响应模块210(图2)在由处理资源240执行时,可以负责实现框608。
通过扬声器输出响应短语(框610)。再次参考图1和图2,输出引擎112(图1)或输出模块212(图2)在由处理资源240执行时,可以负责实现框610。
图1至图6有助于描绘各种示例的架构、功能和操作。特别地,图1和图2描绘了各种物理和逻辑部件。各种部件被至少部分地定义为程序或编程。每个这样的部件、其部分或其各种组合可以全部或部分地表示包括用于实现任何指定的逻辑功能的可执行指令的模块、片段或代码部分。每个部件或其各种组合可以表示用于实现指定的逻辑功能的电路或多个互连电路。示例可以在由处理资源使用或与处理资源结合使用的存储器资源中实现。“处理资源”是指令执行系统,诸如基于计算机/处理器的系统或ASIC(专用集成电路)或可以从计算机可读介质获取或获得指令和数据并执行其中包含的指令的其他系统。“存储器资源”是非暂存存储介质,其可以包含、存储或维护程序和数据、供指令执行系统使用或与指令执行系统结合使用。术语“非暂存”仅用于阐明如本文所使用的术语介质不包含信号。因此,存储器资源可以包括物理介质,例如电子、磁、光、电磁或半导体介质。合适的计算机可读介质的更具体示例包括但不限于硬盘驱动器、固态驱动器、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存驱动器和便携式光盘。
尽管图4至图6的流程图示出了特定的执行顺序,但执行顺序可能与所描述的顺序不同。例如,两个或多个块或箭头的执行顺序可相对于所示顺序被弄乱。而且,连续示出的两个或更多个块可以同时执行或部分同时执行。这些变化在本公开的范围内。
应了解,提供所公开示例的先前描述是为了使所属领域的技术人员能够制作或使用本公开。对于本领域技术人员来说,对这些示例的各种修改是显而易见的,并且在不脱离本公开的精神或范围的情况下,可以将这里定义的一般原理应用于其他示例。因此,本公开不旨在限于本文所示的示例,而是与符合本文公开的原理和新颖特征的最宽范围相一致。本说明书中公开的所有特征(包括任何所附权利要求、摘要和附图),和/或如此公开的任何方法或过程的所有块或阶段,可以以任何组合方式组合,除了其中这些特征、块和/或阶段中的至少一些是互斥的组合。权利要求中的术语“第一”、“第二”、“第三”等仅仅区分不同的元件,并且除非另有说明,否则不与本公开中的元件的特定顺序或特定编号具体相关联。
Claims (15)
1.一种通信装置,包括:
第一麦克风;
连接引擎,用于将所述通信装置无线地且同时地连接到包括所述第一麦克风的一组麦克风;
接收引擎,用于从所述一组麦克风中的每个麦克风接收麦克风数据,其中所述麦克风数据指示由所述一组麦克风捕获的用户口述短语;
建立引擎,用于基于所接收的麦克风数据从所述一组麦克风中建立选择的麦克风,其中所述选择的麦克风经由无线连接,将与在所述选择的麦克风处捕获的所述用户口述短语相关联的所述麦克风数据的至少一部分发送到计算设备,所述计算设备又将所述麦克风数据的所述至少一部分发送到托管虚拟助理服务的服务器系统。
2.根据权利要求1所述的通信装置,其中所述建立引擎向所述计算设备发送将所述选择的麦克风建立为默认麦克风的消息,以使所述计算设备从所述默认麦克风接收麦克风数据。
3.根据权利要求1所述的通信装置,其中所述建立引擎确定从所述一组麦克风中的每一个接收的所述麦克风数据指示相同的用户口述短语。
4.根据权利要求1所述的通信装置,其中所述建立引擎通过确定所述选择的麦克风具有最强信号电平,来从所述一组麦克风中建立所述选择的麦克风。
5.根据权利要求1所述的通信装置,其中所述建立引擎在从所述一组麦克风中建立所述选择的麦克风时,利用声学回声消除过程来识别并消除背景声音。
6.根据权利要求1所述的通信装置,其中所述建立引擎在从所述一组麦克风中建立所述选择的麦克风时,基于用于检测用户存在的传感器,确定用户与所述一组麦克风中的麦克风的接近度。
7.根据权利要求1所述的通信装置,其中所述建立引擎在从所述一组麦克风中建立所述选择的麦克风时,基于对与用户相关联的移动计算设备的接近度的确定,来确定所述用户的接近度。
8.根据权利要求1所述的通信装置,进一步包括训练引擎,所述训练引擎基于所述麦克风检测预定声音的能力来识别所述一组麦克风中的麦克风之间的距离。
9.根据权利要求1所述的通信装置,进一步包括:
扬声器;
响应引擎,用于从所述计算设备接收从所述服务器系统发送到所述计算设备的响应短语;以及
输出引擎,用于使所述响应短语经由所述扬声器输出。
10.根据权利要求9所述的通信装置,其中计算设备经由无线网络连接到所述通信装置,并且其中所述响应引擎从所述计算设备接收所述响应短语。
11.根据权利要求9所述的通信装置,
其中所述计算设备是第一计算设备,并且所述响应短语是第一响应短语,并且
其中所述选择的麦克风经由所述无线连接,将与在所述选择的麦克风处捕获的所述用户口述短语相关联的所述麦克风数据发送到第二计算设备,并且
其中所述第二计算设备又将所述麦克风数据的所述至少一部分发送给托管所述虚拟助理服务的所述服务器系统,并且
其中所述响应引擎从所述第二计算设备接收第二响应短语,并且
其中所述输出引擎根据用户指令使所述第一响应短语经由所述扬声器输出,而不使所述第二响应短语输出。
12.根据权利要求9所述的通信装置,
其中所述计算设备是第一计算设备,并且所述虚拟助理服务是第一虚拟助理服务,并且
其中所述选择的麦克风经由所述无线连接,将与在所述选择的麦克风处捕获的所述用户口述短语相关联的所述麦克风数据发送到第二计算设备,并且
其中所述第二计算设备又将所述麦克风数据的所述至少一部分发送到托管第二虚拟助理服务的第二服务器系统,并且
其中因为所述第一虚拟助理服务识别出所述麦克风数据的所述至少一部分,因此所述响应引擎从所述第一计算设备接收所述响应短语,并且因为所述第二虚拟助理服务未识别出所述麦克风数据的所述至少一部分,因此所述响应引擎不从所述第二计算设备接收响应短语。
13.根据权利要求9所述的通信装置,其中所述计算设备将所述麦克风数据的所述至少一部分发送到一组服务器系统,其中所述组中的每个服务器系统托管不同的虚拟助理服务,并且其中所述响应短语由所述组中的第一服务器系统所托管的第一虚拟助理服务确定,并且其中所述第一虚拟助理服务将所述麦克风数据的所述至少一部分识别为所述第一虚拟助理服务独有的触发短语。
14.一种通信方法,包括:
通过Wi-Fi网络将通信装置连接到一组麦克风,其中所述一组麦克风包括所述通信装置处的第一麦克风;
从所述一组麦克风中的每个麦克风接收麦克风数据,其中所述麦克风数据指示由所述一组麦克风捕获的用户口述短语;以及
基于所接收的麦克风数据,从所述一组麦克风中建立选择的麦克风作为默认麦克风,所述默认麦克风经由所述Wi-Fi网络将与所述用户口述短语相关联的麦克风数据发送到计算设备,所述计算设备又将所述麦克风数据的至少一部分发送到托管虚拟助理服务的服务器系统。
15.一种存储指令的存储器资源,所述指令在被执行时使得通信装置处的处理资源实现通信,所述指令包括:
连接模块,在被执行时使所述处理资源将所述通信装置经由Wi-Fi网络连接到一组麦克风,所述组包括所述通信装置处的第一麦克风;
接收模块,在被执行时使所述处理资源从所述一组麦克风中的每个麦克风接收麦克风数据,其中所述麦克风数据指示由所述一组麦克风捕获的用户口述短语;
建立模块,在被执行时使所述处理资源基于所接收的麦克风数据从所述一组麦克风中建立选择的麦克风,其中所述选择的麦克风经由所述Wi-Fi网络,将与在所述选择的麦克风处捕获的所述用户口述短语相关联的麦克风数据发送到计算设备,所述计算设备又将所述麦克风数据的至少一部分发送到托管虚拟助理服务的服务器系统;
响应模块,在被执行时使所述处理资源从所述计算设备接收从所述服务器系统发送到所述计算设备的响应短语;以及
输出模块,在被执行时使所述处理资源经由扬声器输出所述响应短语。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2016/053949 WO2018063155A1 (en) | 2016-09-27 | 2016-09-27 | Communication apparatuses |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109791476A true CN109791476A (zh) | 2019-05-21 |
CN109791476B CN109791476B (zh) | 2022-08-05 |
Family
ID=61760928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680089555.5A Active CN109791476B (zh) | 2016-09-27 | 2016-09-27 | 通信装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11367436B2 (zh) |
EP (1) | EP3475807A4 (zh) |
KR (1) | KR102204488B1 (zh) |
CN (1) | CN109791476B (zh) |
WO (1) | WO2018063155A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110718219B (zh) * | 2019-09-12 | 2022-07-22 | 百度在线网络技术(北京)有限公司 | 一种语音处理方法、装置、设备和计算机存储介质 |
US11676589B2 (en) * | 2019-09-17 | 2023-06-13 | Global Strategies International LLC | Systems and methods for voice search and response retrieval |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070238490A1 (en) * | 2006-04-11 | 2007-10-11 | Avnera Corporation | Wireless multi-microphone system for voice communication |
CN101282186A (zh) * | 2007-04-05 | 2008-10-08 | 索尼株式会社 | 无线音频传送系统和无线麦克风 |
US20100114944A1 (en) * | 2008-10-31 | 2010-05-06 | Nokia Corporation | Method and system for providing a voice interface |
US20140330560A1 (en) * | 2013-05-06 | 2014-11-06 | Honeywell International Inc. | User authentication of voice controlled devices |
US20140365222A1 (en) * | 2005-08-29 | 2014-12-11 | Voicebox Technologies Corporation | Mobile systems and methods of supporting natural language human-machine interactions |
WO2016039992A1 (en) * | 2014-09-12 | 2016-03-17 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4109414B2 (ja) * | 2000-12-18 | 2008-07-02 | セイコーエプソン株式会社 | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US9094768B2 (en) | 2012-08-02 | 2015-07-28 | Crestron Electronics Inc. | Loudspeaker calibration using multiple wireless microphones |
KR102103057B1 (ko) | 2013-02-07 | 2020-04-21 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
GB2515527B (en) * | 2013-06-26 | 2016-08-31 | Cirrus Logic Int Semiconductor Ltd | Speech Recognition |
TW201505023A (zh) | 2013-07-19 | 2015-02-01 | Richplay Information Co Ltd | 個人化語音助理之方法 |
EP2881898A1 (en) | 2013-12-09 | 2015-06-10 | Accenture Global Services Limited | Virtual assistant interactivity platform |
US9542648B2 (en) | 2014-04-10 | 2017-01-10 | Palo Alto Research Center Incorporated | Intelligent contextually aware digital assistants |
US8995972B1 (en) | 2014-06-05 | 2015-03-31 | Grandios Technologies, Llc | Automatic personal assistance between users devices |
US10140827B2 (en) | 2014-07-07 | 2018-11-27 | Google Llc | Method and system for processing motion event notifications |
US9721566B2 (en) * | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
-
2016
- 2016-09-27 WO PCT/US2016/053949 patent/WO2018063155A1/en unknown
- 2016-09-27 EP EP16917866.2A patent/EP3475807A4/en not_active Withdrawn
- 2016-09-27 US US16/074,280 patent/US11367436B2/en active Active
- 2016-09-27 KR KR1020197008755A patent/KR102204488B1/ko active IP Right Grant
- 2016-09-27 CN CN201680089555.5A patent/CN109791476B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140365222A1 (en) * | 2005-08-29 | 2014-12-11 | Voicebox Technologies Corporation | Mobile systems and methods of supporting natural language human-machine interactions |
US20070238490A1 (en) * | 2006-04-11 | 2007-10-11 | Avnera Corporation | Wireless multi-microphone system for voice communication |
CN101282186A (zh) * | 2007-04-05 | 2008-10-08 | 索尼株式会社 | 无线音频传送系统和无线麦克风 |
US20100114944A1 (en) * | 2008-10-31 | 2010-05-06 | Nokia Corporation | Method and system for providing a voice interface |
US20140330560A1 (en) * | 2013-05-06 | 2014-11-06 | Honeywell International Inc. | User authentication of voice controlled devices |
WO2016039992A1 (en) * | 2014-09-12 | 2016-03-17 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
Also Published As
Publication number | Publication date |
---|---|
KR102204488B1 (ko) | 2021-01-18 |
US20210193132A1 (en) | 2021-06-24 |
CN109791476B (zh) | 2022-08-05 |
EP3475807A4 (en) | 2020-03-04 |
US11367436B2 (en) | 2022-06-21 |
KR20190043576A (ko) | 2019-04-26 |
WO2018063155A1 (en) | 2018-04-05 |
EP3475807A1 (en) | 2019-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10805470B2 (en) | Voice-controlled audio communication system | |
US11900930B2 (en) | Method and apparatus for managing voice-based interaction in Internet of things network system | |
CN109313897B (zh) | 利用多个虚拟助理服务的通信 | |
US20190155566A1 (en) | Identification of preferred communication devices | |
CN110336723A (zh) | 智能家电的控制方法及装置、智能家电设备 | |
CN108028044A (zh) | 使用多个识别器减少延时的语音识别系统 | |
CN109493852A (zh) | 一种语音识别的评测方法及装置 | |
CN110288995B (zh) | 基于语音识别的交互方法、装置、存储介质和电子设备 | |
CN110060663A (zh) | 一种应答服务的方法、装置及系统 | |
US20200342853A1 (en) | Selective activation of smaller resource footprint automatic speech recognition engines by predicting a domain topic based on a time since a previous communication | |
CN109791476A (zh) | 通信装置 | |
CN108600559B (zh) | 静音模式的控制方法、装置、存储介质及电子设备 | |
CN106571143B (zh) | 智能设备的控制方法及装置 | |
CN112954602A (zh) | 语音控制方法、传输方法、装置、电子设备及存储介质 | |
CN108270925A (zh) | 语音信息的处理方法、装置、终端和计算机可读存储介质 | |
KR20150103855A (ko) | 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템 | |
US20190147860A1 (en) | Method and apparatus for identifying information | |
CN112735381B (zh) | 一种模型更新方法及装置 | |
CN112306560B (zh) | 用于唤醒电子设备的方法和装置 | |
CN112911074A (zh) | 一种语音通信处理方法、装置、设备和机器可读介质 | |
CN106231109A (zh) | 一种通信方法和终端 | |
CN113889102A (zh) | 指令接收方法、系统、电子设备、云端服务器和存储介质 | |
CN113611298A (zh) | 智能设备的唤醒方法和装置、存储介质及电子装置 | |
KR20150104942A (ko) | 조도 센서를 이용한 음성 인식 서비스 제공 방법 및 음성 인식 서비스를 제공하는 통신 단말기 | |
CN114333823A (zh) | 会议记录方法及装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |