CN109087637B - 语音代理转发 - Google Patents

语音代理转发 Download PDF

Info

Publication number
CN109087637B
CN109087637B CN201810599592.1A CN201810599592A CN109087637B CN 109087637 B CN109087637 B CN 109087637B CN 201810599592 A CN201810599592 A CN 201810599592A CN 109087637 B CN109087637 B CN 109087637B
Authority
CN
China
Prior art keywords
voice
agent
signal strength
query
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810599592.1A
Other languages
English (en)
Other versions
CN109087637A (zh
Inventor
C.冈瑟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Inc
Original Assignee
Harman International Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman International Industries Inc filed Critical Harman International Industries Inc
Publication of CN109087637A publication Critical patent/CN109087637A/zh
Application granted granted Critical
Publication of CN109087637B publication Critical patent/CN109087637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/523Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing with call distribution or queueing
    • H04M3/5237Interconnection arrangements between ACD systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5183Call or contact centers with computer-telephony arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5183Call or contact centers with computer-telephony arrangements
    • H04M3/5191Call or contact centers with computer-telephony arrangements interacting with the Internet
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5166Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with interactive voice response systems or voice portals, e.g. as front-ends

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了用于控制包括多个语音代理的语音代理网络中的语音输入检测的示例。示例性语音代理包括音频传感器、通信接口、处理器和存储指令的存储器装置,所述指令可由所述处理器执行,以经由所述音频传感器检测对应于语音输入的音频数据;并且响应于确定语音代理网络的至少一个其他语音代理正在检测对应于所述语音输入的音频数据,而确定检测到所述音频数据时的信号强度,将所述信号强度与来自所述至少一个其他语音代理的报告的信号强度进行比较,并基于将所述信号强度与来自所述至少一个其他语音代理的所述报告的信号强度进行比较来选择性地传输所述信号强度的指示和所述检测到的音频数据中的一个或多个。

Description

语音代理转发
技术领域
本公开涉及控制联网语音控制装置中的语音数据处理。
背景技术
语音控制装置可以响应于传感器数据和/或根据对检测到的状况的编程响应而执行各种功能。例如,语音控制装置可以充当个人助理并存储与一个或多个用户有关的数据,以便帮助一个或多个用户回答语音查询、控制连接的装置、管理日历、便签、通信等和/或以其他方式响应来自用户的语音输入。
在一些示例中,语音控制装置被放置在用户的家、企业或其他环境中。语音控制装置的操作范围(例如,其中语音控制装置可以检测语音数据的区域)可以基于该语音控制装置的集成或以其他方式相关联的麦克风的特征。语音控制装置的范围可能没有大到足以覆盖整个房屋、建筑物或其他环境,尤其是考虑到障碍物诸如分隔房间的墙壁时,其会进一步缩小装置的有效范围。
发明内容
为了有效扩展一系列语音控制装置,可以在目标环境中部署多个装置。例如,在具有房间的房屋或其他建筑物中,可以将语音控制装置定位在每个房间中和/或分布在环境周围,以便能够在整个环境中检测到语音输入。在这样的示例中,每个语音控制装置可以充当语音代理网络的单独的语音代理。语音代理网络中的每个语音代理可以直接连接(例如,没有任何中间装置)到至少一个其他语音代理和/或相关联的网络装置,使得语音代理网络的每个语音代理直接或间接(例如,经由一个或多个其他语音代理和/或网络装置)连接到语音代理网络的每个其他语音代理。
如上所述,语音代理网络的每个语音代理可以具有可以检测语音数据(例如,通过该语音代理的麦克风)的相关联的范围。选定的语音代理的语音代理区域因此可以由选定的语音代理的范围来定义和/或约束。为了提供给定环境的无缝覆盖,语音代理网络的语音代理区域可能至少部分重叠。当用户在部署语音代理网络的环境中移动时,用户可以穿过不同的语音代理区域。因此,如果用户在提供语音输入(例如,语音查询、语音命令等)时从第一语音代理的第一区域转变到第二语音代理的第二区域,则语音输入可以部分由第一语音代理检测并且部分由第二语音代理检测。由于典型的语音代理是单独操作的,因此在解决由多于一个语音代理检测到的语音输入时可能会出现困难。本公开提供了用于控制语音代理之间的语音数据转发和语音数据处理以便在用户在语音代理区域之间转变时避免丢失的系统和方法。
公开了用于控制包括多个语音代理的语音代理网络中的语音输入检测的实施方案。示例性语音代理包括音频传感器、通信接口、处理器和存储指令的存储器装置,所述指令可由处理器执行以经由音频传感器检测对应于语音输入的第一音频数据;并且响应于确定语音代理网络的至少一个其他语音代理正在检测对应于语音输入的第二音频数据,而确定检测到第一音频数据时的信号强度,将所述信号强度与如从至少一个其他语音代理接收的第二音频数据的报告的信号强度进行比较,并且基于将第一音频数据的信号强度与如从至少一个其他语音代理接收的第二音频数据的报告的信号强度进行比较,来选择性地传输第一音频数据的信号强度的指示和检测到的音频数据中的一个或多个。
用于控制语音代理网络中的语音输入检测的示例性方法包括:在第一语音代理处以第一信号强度检测对应于语音输入的第一音频数据;响应于确定第一信号强度高于由语音代理网络中的每个其他语音代理报告的所接收的信号强度,而将第一语音代理分配为主控语音代理;在将第一语音代理分配为主控语音代理时,从第一语音代理传输包括第一音频数据和检测到第一音频数据时的连续更新的信号强度的报告的流;以及响应于接收到网络中的第二语音代理以高于来自第一语音代理的当前报告的信号强度的信号强度检测到对应于语音输入的第二音频数据的指示,而将第二语音代理分配为主控语音代理并停止在第一语音代理处传输所述流。
用于控制语音输入检测的示例性语音代理网络包括多个语音代理以及通信地耦合到多个语音代理和查询响应服务器的网络装置,多个语音代理中的第一语音代理包括存储指令的存储器装置,所述指令可由第一语音代理的处理器执行以以第一信号强度检测对应于语音输入的第一音频数据;响应于确定第一信号强度高于由语音代理网络中的每个其他语音代理报告的所接收的信号强度,而接收作为主控语音代理的分配;在将第一语音代理分配为主控语音代理时,传输包括第一音频数据和检测到第一音频数据时的连续更新的信号强度的报告的流;并且响应于接收到多个语音代理中的第二语音代理以高于来自第一语音代理的当前报告的信号强度的信号强度检测到对应于语音输入的第二音频数据的指示,而将第二语音代理分配为主控语音代理并在第一语音代理处停止传输所述流。
附图说明
通过参考附图阅读以下对非限制性实施方案的描述,可以更好地理解本公开,其中以下是:
图1示出了根据本公开的一个或多个实施方案的用于部署语音代理的示例性环境;
图2A和图2B示出了根据本公开的一个或多个实施方案的语音代理网络中的语音数据和控制消息转发的示例性通信图;
图3示出了根据本公开的一个或多个实施方案的用于重建语音查询并生成语音查询响应的示例性通信图;
图4示出了根据本公开的一个或多个实施方案的示例性语音代理网络的框图;
图5是根据本公开的一个或多个实施方案的处理语音代理网络中的语音数据的示例性方法的流程图;
图6是根据本公开的一个或多个实施方案的在语音代理网络中移交语音代理控制的示例性方法的流程图;以及
图7是根据本公开的一个或多个实施方案的在语音代理网络中接收语音代理控制的移交的示例性方法的流程图。
具体实施方式
语音代理可以包括任何语音控制和/或语音响应装置,所述语音控制和/或语音响应装置检测语音输入并响应于语音输入而执行动作。例如,语音代理可以检测(例如,经由集成的或以其他方式相关联的麦克风)语音输入,所述语音输入可以包括语音查询(例如,“What is the weather today(今天是什么天气)”)、语音备忘录(例如,“Remember to buymilk(记得买牛奶)”)、语音命令(例如,“Turn on lights(开灯)”)和/或其他语音数据。在多个语音代理分布在环境中的示例中,用户可以开始提供由第一语音代理检测到的语音输入(例如,开始语音输入字符串)。然而,当用户在环境中移动时,不同的语音代理可以检测到语音输入的不同部分(例如,语音输入字符串的后面部分)。增加进一步的复杂性,环境中的一些语音代理可能具有重叠的范围,使得语音输入的一部分被多个语音代理检测到。在完成语音输入(例如,完成语音查询)之后,由多个语音代理收集的语音数据可以被聚合和分析以解析语音数据并提供相关联的响应或执行相关联的动作。在许多示例中,上述处理可以在板外(例如,在远程服务器处)或至少仅在一个语音代理上执行。因此,在一些系统中,每个语音代理可以将所有检测到的语音数据发送到处理装置(例如,远程服务器和/或指定的语音代理)。
为了减少在语音数据处理期间使用的处理负载和带宽资源,本公开提供了用于控制语音代理网络中的语音代理的系统和方法,使得仅单个语音代理(例如,主控语音代理)负责在给定时间将语音数据转发给网络和/或语音处理装置。特定地说,本公开提供了一种语音代理网络,其中基于检测到的语音数据的信号强度来选择语音代理作为主控语音代理,并且其中响应于确定另一个语音代理正在以高于当前主控语音代理的信号强度检测语音数据,主控语音代理转发控制(例如,将另一个语音代理分配为主控语音代理)。这样,只有主控语音代理将语音数据转发到语音数据处理装置,并且其他语音代理传输检测到的语音数据的信号强度的指示符,并且不传输检测到的语音数据(或者传输比主控语音代理更少的检测到的语音数据)。
此外,语音代理可以被配置成仅在检测到唤醒词(例如,特定语音数据字符串,其可以是词、短语、音调或其他预定义声音)时才开始侦听语音数据。因此,检测唤醒词的语音代理可以识别相关联的检测到的语音数据的语音指纹并且与其他语音代理共享此语音指纹。这样,由每个代理检测到的语音数据可以与对应于语音指纹的识别的用户相关联,以便在主控语音代理移交期间维持语音数据与给定用户的相关性。下面将更详细地描述上述特征和其他特征。
图1示意性地示出了包括语音代理网络的示例性环境100。特定地说,所示示例的语音代理网络包括语音代理102a、102b和102c。在其他示例中,语音代理网络可以包括任意数量的语音代理。每个语音代理可以直接和/或经由网络装置104彼此通信(例如,经由无线或有线连接)。网络装置104可以包括路由器或其他中间网络装置,所述路由器或其他中间网络装置也可以将语音代理连接到远程计算装置以执行另外的处理(例如,如下面关于图4的查询响应服务器所描述)。在一些示例中,执行另外的处理的远程计算装置可以位于语音代理网络的环境之外(例如,在语音代理所在的建筑物之外,如同远程服务器或服务器的分布)或位于语音代理网络环境中(例如,在语音代理所在的建筑物内,如同移动装置或桌上型计算装置)。
每个语音代理可以具有相关联的操作范围,所述操作范围基于语音代理的麦克风或其他音频传感器的特性以及环境100中的障碍物来确定大小和形状。例如,语音代理102a具有相关联的操作范围106a,语音代理102b具有相关联的操作范围106b,并且语音代理106c具有相关联的操作范围106c。在所示示例中,由于语音代理102b位于更开放的区域,因此操作范围106b大于操作范围106a和106c。在其他示例中,语音代理网络的每个语音代理的操作范围可以彼此相等。
当用户108在环境100中移动时,用户108可以从一个操作范围转变到另一个操作范围。由用户108提供的任何语音输入由与用户所在的操作范围相关联的语音代理检测。如图1所示,一些操作范围彼此重叠。因此,用户可能在一些时间点位于两个不同语音代理的操作范围内。例如,在位置A处,用户108仅位于语音代理102a的操作范围106a中。然而,在位置B处,用户从操作范围106a转变到操作范围106b(对于语音代理102b)。最后,在位置C处,用户从操作范围106b转变到操作范围106c(对于语音代理102c)。
因此,在图1所示的示例中,如果用户108提供在用户处于位置A时开始并且然后在用户移动到位置B并且然后位置C时继续的语音输入字符串,则语音输入的部分可以在提供完整的语音输入字符串的过程中由不同的语音代理检测。下面在图2A和图2B中描述在这样的转变期间语音代理控制的示例性移交。
图2A和图2B示出了语音代理网络中语音代理和网络装置之间的数据传送的通信图200。在图2A和图2B的示例中,提供了三个语音代理,VA1(其可以是图1的语音代理102a的示例)、VA2(其可以是图1的语音代理102b的示例)以及VA3(其可以是图1的语音代理102c的示例)。然而,应当理解,语音代理网络中可以包括更多或更少的语音代理,并且更多或更少的语音代理可以将类似的消息交换到关于图2A和图2B所讨论的语音代理。语音代理被示为与网络装置202通信,所述网络装置可以是图1的网络装置104和/或远程服务器或云计算装置的示例。
为了构建和维护语音代理网络中的装置地图,每个语音代理可以在进入语音代理网络时传输识别语音代理的通告消息。如在204处所示,当VA1加入网络时,将通告消息从VA1传输到网络装置202。在其他示例中,通告消息可以周期性地(例如,以规则的预定义间隔和/或响应于不同触发诸如网络的配置或其他参数的变化)从语音代理发出。在一些示例中,从一个语音代理传输通告消息可以触发从语音代理网络中的每个其他语音代理传输通告消息。在206和208处,来自VA1的通告消息从网络装置202分别转发到VA2和VA3。在210和212处,VA2和VA3将相应的通告消息发送到网络装置202。虽然为了清楚起见而没有示出,但应当理解,响应于接收到相应的通告消息,网络装置202还可以将通告消息从VA2转发到VA1和VA3,并且可以将通告消息从VA3转发到VA1和VA2。
在214处,用户(例如,图1的用户108)开始语音查询。为了简明公开的目的,本文描述的涉及语音查询的示例对应地适用于任何其他语音输入(例如,语音备忘录、语音命令等)。如上所述,语音代理可以被配置成响应于检测到预定义的唤醒词而开始侦听语音输入。例如,语音代理可以使用仅能够识别唤醒词(或者仅能够识别包括唤醒词的少量命令项)的简化的言语检测算法。在检测到唤醒词之前,语音代理可以以被动和/或流动性方式先检测语音数据(例如,除了确定语音数据是否包括唤醒词,不对语音数据执行任何处理,不存储语音数据,不传输语音数据等)直到检测到唤醒词为止,此时,语音代理主动侦听并处理和/或传输检测到的语音数据。这样,唤醒词可以充当将语音代理从被动(例如,睡眠或低功率)状态唤醒并将语音代理转变到主动侦听状态的中断信号。
因此,在214处开始的语音查询可以包括与语音代理网络相关联的唤醒词,唤醒词后面是语音查询的一个或多个部分(例如,包括将由语音代理网络回答的问题的语音字符串)。为了说明性目的,本示例中的唤醒词是语音字符串“Hey agent(嘿,代理)”,并且本示例中的语音查询是“What is the forecast for today?(今天的预报是什么?)”。因此,在214处,用户可以通过陈述“Hey agent,what…”或者语音查询的某个其他部分来开始语音查询。
在216处,VA1辨识唤醒词并从语音数据中提取语音指纹。使用图1的环境100作为说明性示例,提供语音查询的用户可以位于语音代理102a的范围内的位置A处,同时说出唤醒词和语音查询的第一部分。语音指纹可以包括与提供语音查询的用户相关联的识别符或声音标记,所述识别符或声音标记可以使其他语音代理能够使具有相同的语音指纹的语音输入与在VA1处检测到的语音输入相关联。相应地,在218处,VA1将语音指纹传输到网络装置202以分布在整个语音代理网络中。例如,虽然为了清楚起见没有示出,但是在218处传输的语音指纹和/或传输到网络装置202的任何其他数据可以从网络装置202转发到VA2和/或VA3(例如,以存储在VA2和VA3处)。在220处,VA1将第一查询部分的音频(例如,语音数据,其可以包括由VA1的音频传感器检测到的原始和/或数字化的语音数据)连同检测到该查询部分时的信号强度的指示(例如,在本示例中为100)一起流式传输到至少网络装置202。在一些示例中,网络装置202可以将音频和信号强度的指示中的一个或两个转发给语音代理网络中的每个其他语音代理(或者当前正在检测相同语音输入的语音数据的每个其他语音代理)。在另外的或替代示例中,网络装置202可以将音频转发给远程计算装置,诸如查询响应服务器。在进一步另外的或替代示例中,其中一个或多个语音代理直接连接到主控语音代理(例如,没有中间网络装置),可以将音频和信号强度的指示中的一个或两个直接发送到一个或多个语音代理(例如,可以使用语音代理之间的布线或其他连接来代替物理联网装置)。这样,可以在语音代理网络中的语音代理之间共享音频和/或信号强度数据,其中在给定的时间仅单个语音代理正在传输语音输入/语音查询的音频数据。
信号强度可以是绝对值(例如,指示检测到语音数据时的平均或其他计算的分贝水平的分贝值)或功能值(例如,表示不同水平的估计的信号质量的百分比或范围)。在一些示例中,信噪比(SNR)测量值可以指示和/或用于确定检测到语音数据时的信号强度。在任何情况下,由每个语音代理(例如,正在检测具有相同语音指纹的语音数据的每个语音代理)检测到的语音数据的相对信号强度可以彼此比较以确定哪个语音代理将被指定为主控语音代理(例如,哪个语音代理会将包括检测到的语音数据的音频流式传输到网络)。在另外的或替代示例中,可以使用信号质量测量来代替信号强度测量或与信号强度测量结合,以便确定哪个语音代理将被指定为主控语音代理(例如,其中接收具有最高质量的语音数据的语音代理被指定为主控语音代理)。信号质量测量可以从以下一个或多个的测量导出:SNR(例如,其中质量随着SNR增加而增加)、回声和/或反射量(例如,其中质量随着回声和/或反射增加而下降)、失真量(例如,其中质量随着失真增加而下降)、丢弃的语音数据的量或速率(例如,其中质量随着丢弃的数据量或速率增加而下降)等。应当理解,可以调整本文描述的与信号强度有关的示例以除信号强度之外或代替信号强度来利用信号质量而不脱离本公开的范围。
在222处,用户在移动的同时继续提供语音查询。例如,用户可以在图1中的位置A和B之间移动,同时以查询的下一个词(例如,“is”)继续。由于用户可能仍然处于VA1的操作范围内,但是朝向所述范围的边缘移动,所以在提供语音查询时信号强度可能下降。例如,由于用户正在移动远离VA1的麦克风,因此VA1可以在比语音查询的第二部分更高的分贝水平下检测语音查询的第一部分。尽管为了说明目的就“部分”来进行描述,但应当理解,主控语音代理可以在检测到语音数据时和/或在基于主控语音代理可用的联网资源描绘的块中,连续地流式传输语音数据和相关联的信号强度。因此,在224处,VA1可以报告检测到第二查询时的信号强度较低(例如,在本示例中为90)。然而,由于还没有其他语音代理已经报告检测到语音查询,所以在224处VA1也继续流式传输音频(例如,包括语音查询的第二部分,例如“is”)。
在226处,VA2检测对应于语音查询的语音数据(例如,VA2可以检测语音查询的“is”部分)。VA2可以从检测到的语音数据中提取语音指纹,以便确定或确认语音数据是由VA1流式传输的语音查询的一部分(例如,确定提取的语音指纹至少在重叠的阈值量内与VA1报告的语音指纹匹配)。例如,在226处,用户可能刚刚进入了VA2的操作范围(例如,部分在图1中的位置A和B之间)。然而,由于用户仍然相比VA2更接近VA1,所以在VA2处检测到的语音数据的信号强度可能低于VA1处的信号强度。VA2可以将检测到的语音数据的信号强度与VA1报告的信号强度进行比较,并确定VA1正在以较高的信号强度检测语音数据。因此,VA2可能不传输检测到的语音数据的信号强度。在其他示例中,VA2可以传输检测到的语音数据的信号强度,但是由于VA2处的信号强度低于VA1处的信号强度,因此可能仍然不发生移交。
在228处,VA1继续流式传输对应于语音查询的第三部分(例如,“the”)的音频并且指示信号强度正在减小(例如,信号强度是80)。在230处,VA2确定VA2正在检测语音查询时的信号强度高于由VA1报告的信号强度(例如,高于80)。因此,在232处,VA2传输VA2正在检测语音查询时的信号强度的指示(例如,85)。由于VA2的报告的信号强度大于VA1的信号强度,因此,VA1通过在234处将检测到的语音数据的源分配给VA2,将对语音查询检测的控制移交给VA2。这样,主控语音代理从VA1切换或移交到VA2。
应当理解,在一些示例中,响应于非主控语音代理的信号强度比主控语音代理的信号强度大了阈值,移交可能发生。作为非限制性示例,直到非主控语音代理检测到比主控语音代理报告的信号强度高出五个点或分贝水平的信号强度才可能发生移交,使得当非主控语音代理检测到比主控语音代理报告的信号强度高出不到五个点或分贝水平的信号强度时不发生移交。所述阈值可以基于网络中语音代理的数量、网络中语音代理的布置、网络中语音代理的操作范围的大小和/或任何其他合适的参数或参数的组合。在另外的或替代示例中,为了提供平滑转变,当确定非主控语音代理在至少预定时段内检测到比主控语音代理报告的信号强度高(和/或高出阈值)的信号强度时,可能发生移交。在其他另外的或替代示例中,只有在非主控语音代理检测到既高于主控语音代理报告的信号强度又高于预定最小信号强度的信号强度时才可能发生移交。
在236处,VA2开始流式传输第四查询部分(例如,“fore”)的音频并传输在VA2处检测到语音数据时的信号强度(例如,85)。由于VA1在此时间之前已经移交了对语音检测的控制,所以VA1可以停止流式传输音频并且可以不传输第四查询部分中的任何一个。然而,在其他示例中,VA1可以在移交控制之后(例如,在VA2开始流式传输音频之后)传输阈值量的数据或阈值量的时间,以便在完成语音查询时提供将来自多个源的语音数据缝合在一起的重叠。
通信图200在图2B上继续,其中在238处,VA2继续流式传输第五查询部分(例如,“cast”)的音频并且指示相关联的信号强度。然而,当提供语音查询(例如,从图1中的位置B移动到位置C)时,用户可能正朝向VA2的操作范围的边缘移动,因此报告的信号强度可能下降(例如,下降到78)。在240处,VA3可以确定VA3正在以大于VA2最后报告的信号强度的信号强度检测语音查询(例如,如语音指纹所识别的)(例如,用户可能已经移动到图1的示例的位置C)。相应地,在242处,VA3可以指示VA3正在检测语音查询时的信号强度(例如,82)。在244处,响应于确定由VA3报告的信号强度大于VA2正在检测语音查询时的信号强度,VA2通过将语音数据源分配给VA3来移交对语音查询检测的控制,由此指定VA3作为新的主控语音代理。相应地,分别在246和248处流式传输和报告接下来的查询部分(第六和第七部分,例如,“for”和“today”)和相关联的信号强度(例如,82和88)。
在250处,VA3辨识查询结束的指示(例如,指示问题的语音音调变化、大于阈值的语音数据的停顿、关键词等)。响应于检测到查询结束,在252处,VA3将查询结束的指示连同对查询响应的请求一起发送到网络装置202。在一些示例中,网络装置可以将查询结束的指示转发给其他语音代理,使得其他语音代理停止侦听语音数据,和/或丢弃语音查询的语音指纹与当前语音查询的关联(例如,使得任何随后检测到的语音数据与不同的语音查询相关联)。网络装置可以不转发对响应的请求到其他语音代理,但可以将对响应的请求转发给查询响应服务器或配置成解析语音查询和/或向所解析的语音查询提供响应的其他远程或本地装置。
在254处,网络装置202将查询响应发送到VA3。在一些示例中,可以在网络装置202处从查询响应服务器或用于向语音查询提供响应的其他装置接收查询响应。在其他示例中,网络装置可以包括处理元件以解析语音查询和/或生成语音查询响应,在该情况下,查询响应在本地生成。在256处,最后的主控语音代理(例如,VA3,其是辨识查询结束的语音代理)输出查询响应(例如,经由扬声器、显示器和/或集成在VA3中和/或与VA3相关联的其他输出装置)。
图3是通信图300,其示出了语音代理网络与查询响应服务器之间为了生成对语音查询的响应而进行的示例性通信。所述语音代理网络是上述语音代理网络的简化版本,并且包括VA4、VA5和网络装置302。VA4和VA5可以是任何上述语音代理的示例,并且网络装置302可以是图1的网络装置104和/或图2A和图2B的网络装置202的示例。查询响应服务器304可以通过网络装置302通信地连接到VA4和VA5。查询响应服务器304可以包括处理元件以由从多个源(例如,多个语音代理)接收的语音数据重建语音查询并对其进行解析。查询响应服务器304还可以包括用于生成信息请求以形成对所解析的语音查询的响应和用于基于所接收的信息生成查询响应的处理元件。用于生成查询响应的信息可以从一个或多个信息源306接收。例如,用于完成上面关于图2A和图2B描述的示例性语音查询的信息源可以是天气信息源。在其他示例中,信息源可以包括用户简档/社交联网服务、媒体存储装置、互联网搜索引擎等。
在308处,VA4将语音查询的第一检测到的部分的音频和相关联的信号强度流式传输到网络装置302。为了清楚起见,可以从通信图300中省略上面在图2A和图2B中描述的通信的一些细节。但是,应当理解,这种通信仍然可能发生。例如,VA4可能先前已经协商为第一主控语音代理,并且可以在检测到语音查询时发送语音指纹,如上所述。在310处继续,网络装置302将语音查询的第一部分的所接收的语音数据转发给查询响应服务器304。在其他示例中,网络装置可以另外或者另选地聚合语音数据,并且可以不将语音数据传输到查询响应服务器,直到语音代理指示查询结束为止。然而,在所示示例中,随着从主控语音代理接收数据,网络基本上实时地将语音数据从当前主控语音代理连续地转发给查询响应服务器。
在312处,VA5检测到语音查询并报告比VA4最后报告的信号强度更高的信号强度。因此,在314处,VA4将语音数据的源分配给VA5,由此将主控地位移交给VA5。在316处,VA5将语音查询的第二部分连同信号强度的指示一起流式传输到网络装置302。在318处,网络装置将来自VA5的语音数据(例如,语音查询的第二部分)转发给查询响应服务器304。
在320处,VA5辨识查询结束(例如,如上面在图2B的250处所述)。因此,在322处,VA5将查询结束的指示和对查询响应的请求发送到网络装置302。在324处,网络装置302将对查询响应的请求转发给查询响应服务器304。在326处,查询响应服务器304使用从VA4和VA5接收的数据构建和/或解析语音查询。在一些示例中,当从网络装置302接收数据时,查询响应服务器304可以连续地构建查询。在其他示例中,查询响应服务器可以等待直到已经检测到查询结束,以便一次处理所有接收到的数据并由其构建查询。构建查询可以包括将来自多个语音代理的语音数据缝合在一起并执行言语辨识以确定查询的内容(例如,以确定查询请求了什么信息)。所公开的对语音查询的语音数据的流式传输的控制具有相对于其他系统减少语音代理网络上的带宽负载和减少查询响应服务器上的处理负载的技术效果,因为语音数据基本上一次仅从一个语音代理接收。相比之下,在其他系统中,检测到语音查询的每个语音代理可以连续地发送检测到的语音数据,从而使查询响应服务器充满将被分析以重建语音查询的语音数据。
在328处,查询响应服务器可以将信息请求发送到一个或多个信息源306以完成语音查询(例如,请求关于图2A和图2B描述的示例性语音查询的天气信息)。在330处,可以从信息源306接收所请求的信息。应当理解,在一些示例中,可以在查询响应服务器本地存储用于完成语音查询(例如,响应语音查询提出的问题)的信息,在该情况下,可能无法执行从信息源的信息请求和随后的信息接收。在332处,查询响应服务器生成包括所请求的信息(和/或用于响应查询的本地信息)的查询响应。在一些示例中,查询响应服务器可以构建包括信息占位符的查询响应(例如,“the current forecast for today is [forecast]”,其中[forecast]是识别从信息源接收到时要插入响应中的信息的类型的占位符标签)。可以使用本地数据和/或来自一个或多个信息源306的数据来填充占位符。
在334处,将生成的查询响应发送到网络装置302,所述网络装置在336处将查询响应转发给最后的主控语音代理(例如,VA5)。在338处,最后的主控语音代理(例如,VA5)输出查询响应(例如,经由扬声器、显示器或其他输出装置)。
图4是示例性语音代理网络400和相关联装置的框图。语音代理网络400包括一个或多个语音代理402和网络装置404,其中的每一个或任何一个可以被配置成与查询响应服务器406或其他远程装置进行通信。语音代理402可以包括存储指令的存储器装置408(例如,随机存取存储器[RAM]、只读存储器[ROM]、闪速存储器、硬盘驱动器和/或其他硬件存储装置),所述指令可由处理器410执行以执行操作,诸如语音指纹分析、唤醒词检测、信号强度分析和/或本文描述的任何操作或方法。在一些示例中,存储器408可以包括用于在语音代理上执行操作系统或其他应用的指令和/或用于控制语音代理的其他元件的指令。
指令可以存储在单个装置上和/或分布在多个装置上,并且用于给定操作的指令可以被组织为用于执行该操作的模块。例如,语音指纹分析模块可以包括可由处理器执行以分析所接收的语音数据并提取语音数据的识别分量以使语音数据与特定用户和/或查询相关联的指令。唤醒词检测模块可以包括可由处理器执行以通过将语音数据与对应于预定义唤醒词的已知音频样本(例如,“hey voice agent”)进行比较来分析检测到的语音数据的指令。如上所述,虽然唤醒词被称为“词”,但唤醒词也可以包括用于指示语音输入(例如,语音查询)的开始并控制语音代理开始检测和报告检测到的语音数据的言语和/或音频音调的任何字符串。在一些示例中,唤醒词可以另外或另选地包括由除了用户语音之外的源(例如,按钮致动、手势等)进行的输入。在这样的示例中,可以在替代唤醒词输入之后对下一个口语输入执行语音指纹分析和随后的处理/传输。信号强度分析模块可以包括可由处理器执行以分析检测到的语音数据以确定检测到语音数据时的强度(例如,分贝水平或其他指示符)的指令。
存储器408中的指令可以与语音代理的其他硬件元件(诸如人机接口412和/或天线/通信接口414的元件)的操作协调地执行。人机接口412可以包括使用户能够与语音代理进行交互的麦克风、扬声器、可选显示器和/或其他输入装置(例如,按钮、触摸传感器、拨号盘、旋钮、相机或用于手势检测的其他传感器等)。天线/通信接口414可以包括硬件接口元件以将信息传输到语音代理和/或从语音代理接收信息。例如,天线/通信接口414可以用于将语音数据和其他信息传送给网络装置404和/或查询响应服务器406。在语音代理彼此直接连接的示例中,可以经由相应的天线/通信接口在语音代理之间传输信息。天线/通信接口414可以包括有线(例如,以太网)和/或无线(例如,WIFI、蓝牙、近场通信等)接口元件,以实现装置之间的相关联的有线或无线通信。
网络装置404可以包括存储器416、处理器418和天线/通信接口420,它们可以包括与上面关于存储器408、处理器410和天线/通信接口414所描述的特征类似的特征。在一些示例中,网络装置404可以仅充当中间数据转发装置以在语音代理网络的装置之间传播数据和/或将数据从语音代理网络的装置传播到远程装置(例如,查询响应服务器406)。在这样的示例中,存储器416可以仅包括用于处理数据传输和接收(例如,处理数据使得数据可以被正确地传输,执行封装,编码,解码等等,调度数据传输等等)的指令。在这样的示例中,诸如移交控制模块和/或语音代理地图等的模块可以存储在语音代理402处。在其他示例中,移交控制模块和/或语音代理地图可以存储在网络装置处。移交控制模块可以包括指令,所述指令可执行以将在非主控语音代理处接收到语音数据时的信号强度与来自主控语音代理的报告的信号强度进行比较,以便确定何时移交控制给新的主控语音代理(例如,如上面关于图2A和图2B所描述的)。语音代理地图可以使用通告数据(例如,如上面关于图2A所述)来构建,并且在语音代理加入和离开语音代理网络时进行维护。语音代理地图可以包括语音代理网络中的所有活动语音代理的列表,包括每个语音代理的相关联识别符和/或其他信息(例如,来自每个语音代理的最后接收的通信等)。
查询响应服务器406可以包括存储器422、处理器424和天线/通信接口426,它们可以包括与上面关于存储器408、处理器410和天线/通信接口414所描述的特征类似的特征。查询响应服务器406可以直接连接(或经由中间装置连接)到网络装置404和/或语音代理402,以便接收对应于语音查询的语音数据并发送语音查询响应。存储器422可以包括用于处理语音数据以构建语音查询并生成语音查询响应的一个或多个模块。例如,存储器422可以包括言语辨识模块,所述言语辨识模块包括可由处理器424执行以辨识从语音代理接收的原始语音数据内的言语的指令。在一些示例中,语音代理402可以包括一些基本的言语处理能力,在该情况下,言语辨识模块可以根据由语音代理执行的言语处理构建以确定用户提出的查询。存储器422还可以包括查询处理模块,所述查询处理模块包括指令,所述指令可由处理器424执行以将语音数据缝合在一起以构建语音查询,解析语音查询以确定查询请求了什么信息,并生成包括所请求的信息的查询响应。查询处理模块可以与言语辨识模块一起工作,以便智能地处理原始语音数据并重建查询字符串。
图5是用于控制多语音代理环境中的语音查询的处理的示例性方法500的流程图。例如,方法500可以由图4的语音代理网络400的一个或多个装置和/或相关联的装置执行。更特定地,方法500可以由网络装置来执行,诸如图1的网络装置104;图2A、图2B和图3的网络装置202或302;和/或图4的网络装置404。在502处,所述方法包括从加入网络的每个语音代理接收一个或多个通告消息。在504处,所述方法包括基于所接收的通告消息来构建语音代理地图。例如,每当语音代理加入网络并发送通告消息时,可以将语音代理的识别信息(例如,包括在通告消息中)添加到语音代理地图,以添加对应于新加入的语音代理的条目。在一些示例中,可以响应于语音代理已经离开网络的指示(例如,在阈值时段内从语音代理没有接收到通信,没有对通信请求的响应等),而从地图中移除语音代理。
在506处,所述方法包括接收语音查询的开始的指示符。例如,指示符可以包括由至少一个语音代理辨识的唤醒词,如508处所指示,和/或识别提供语音查询的用户的语音指纹,如510处所指示。如本文所使用,除了对应于语音输入的语音数据之外,还可以接收唤醒词(例如,所述唤醒词可以是来自语音输入诸如语音查询的单独输入)。在512处,所述方法包括基于检测到的语音数据的信号强度来协商主控语音代理。例如,检测到语音数据的第一语音代理可以被自动地指定为主控语音代理,直到其他语音代理报告检测到相同的语音查询(例如,如基于将检测到的语音数据的语音指纹匹配在510处指示的语音指纹而确定)为止。一旦其他语音代理报告检测到相同的语音查询,则以最高信号强度检测到语音查询的语音代理可以被指定为主控语音代理。
在514处,所述方法包括从主控语音代理接收语音数据和相关联的信号强度(在该信号强度下检测到语音数据)的流。在516处,所述方法包括确定主控语音代理是否仍在以最大信号强度(例如,相对于网络的其他语音代理)接收语音数据。如果主控语音代理不是以最大信号强度接收语音数据(例如,如果另一个语音代理已经报告了该语音查询的信号强度大于主控语音代理报告的信号强度,则在516处为“否”),则所述方法返回到512以基于信号强度重新协商主控语音代理(例如,将主控语音代理切换到相对于其他语音代理正在以最高信号强度检测语音数据的语音代理),并且然后从新的主控语音代理接收语音数据(例如,在514处)。如果主控语音代理仍然以最大信号强度接收语音数据(例如,如果还没有其他语音代理报告该语音查询的信号强度大于主控语音代理报告的信号强度,则在516处为“是”),则所述方法进行到518以确定是否检测到查询结束。
如果未检测到查询结束(例如,在518处为“否”),则所述方法返回到514以继续从主控语音代理接收用于语音查询的语音数据流。如果检测到查询结束(例如,在518处为“是”),则所述方法进行到520以将查询发送到查询响应服务器。例如,发送查询可以包括发送在执行方法500的过程中收集的聚合的语音数据,或者可以包括发送语音数据的最后部分,条件是当从主控语音代理接收到语音数据时,语音数据的部分被连续转发给查询响应服务器。在任何一种情况下,发送查询还可以包括发送检测到查询结束(例如,查询完成)的指示。在522处,所述方法包括接收查询响应以在最后的主控语音代理处输出。
图6是用于移交对检测语音查询的控制的示例性方法600的流程图。例如,方法600可以由被指定为主控语音代理的语音代理执行,诸如上述任何语音代理(例如,图4的语音代理402)。在602处,所述方法包括辨识唤醒词。如上所述,唤醒词可以包括用于控制语音代理开始侦听语音输入的任何合适的声音或一系列声音。这样,语音代理可以忽略所有不是唤醒词的语音输入,直到检测到唤醒词为止。在604处,所述方法包括以相关联的信号强度接收语音查询。如在606处所指示,可以分析语音查询和/或唤醒词以确定识别提供语音查询的用户和/或以其他方式唯一识别语音查询的源的语音指纹。
在608处,所述方法包括传输所接收的语音查询的第一部分以及接收到该部分时的相关联的信号强度的指示。如上所述,尽管为了说明的目的就“部分”进行了描述,但是应当理解,当检测到语音数据时,主控语音代理可以连续地流式传输语音数据和相关联的信号强度。在608处,流式传输语音数据的语音代理可以被指定为主控语音代理,使得没有其他语音代理正在流式传输与该语音查询相关联的任何检测到的语音数据。在传输所接收的语音查询的第一部分之前或同时,语音代理可以传输语音指纹的指示,以便允许网络中的其他语音代理识别检测到的语音查询是否与主控语音代理正在检测的语音查询相同。
在610处,所述方法包括确定是否已经接收到第二(不同)语音代理正在以更高信号强度检测语音查询的指示(例如,基于由检测语音查询的其他语音代理所接收的信号强度的报告)。如果未接收到第二语音代理具有更高信号强度的指示(例如,在610处为“否”),则所述方法进行到612以传输所接收的语音查询的下一部分以及相关联的信号强度的指示,并且返回到610以监视另一个语音代理是否正在报告更高的信号强度。
如果接收到第二语音代理具有更高信号强度的指示(例如,在610处为“是”),则所述方法进行到614以将语音查询检测移交给第二语音代理。如在616处所指示,所述移交可以包括停止传输所接收的语音查询,和/或如在618处所指示继续传输所接收的语音查询的信号强度的指示。应当理解,如果在610处多个语音代理报告比主控语音代理更高的信号强度,则主控语音代理可以将语音查询检测移交给报告最高信号强度的语音代理。
在620处,所述方法包括确定是否检测到查询结束(例如,基于来自主控语音代理的查询结束的报告)。如果未检测到查询结束(例如,在620处为“否”),则所述方法包括继续监视语音查询并选择性地传输所接收的语音查询的信号强度的指示(例如,只要检测到语音查询,就可以报告信号强度,或者只有在信号强度高于主控语音代理报告的信号强度时才可以报告信号强度)。所述方法然后返回到620以继续监视查询结束。应当理解,如果在622和620处执行监视期间的任何点(例如,在检测到查询结束之前的任何点),语音代理的信号强度高于主控语音代理报告的信号强度,则所述方法可以返回到612,因为语音代理可以被切换回主控语音代理。如果检测到查询结束(例如,在620处为“是”),则所述方法包括停止语音查询监视。例如,语音代理可以仅返回到监视唤醒词。
图7是用于接收对语音查询检测的控制的移交的方法700的流程图。例如,方法700可以由未被指定为主控语音代理的语音代理执行,诸如上述任何语音代理(例如,图4的语音代理402)。在702处,所述方法可选地包括辨识唤醒词。非主控语音代理在语音查询输入开始时可能检测不到语音查询,并且因此在一些示例中可能辨识不出唤醒词。在其他示例中,非主控语音代理可以检测唤醒词,但是可以相对于另一个语音代理以较低信号强度来检测唤醒词(并且因此可以在语音查询的开始时不被指定为主控语音代理)。
在704处,所述方法包括以相关联的信号强度接收语音查询。在非主控语音代理未检测到唤醒词的示例中,从主控语音代理接收语音指纹(例如,如图2A在218处所述,检测唤醒词和随后的语音查询的第一语音代理提取并传输语音查询的语音指纹到网络中的其他语音代理以用于之后的比较)可以触发非主控语音代理开始侦听除唤醒词以外的语音数据(例如,可以触发非主控语音代理“唤醒”,好像非主控语音代理已经检测到唤醒词一样)。如在706处所指示,可以在接收语音查询时确定识别提供语音查询的用户的语音指纹并将其与由第一主控语音代理传输的用于语音查询的语音指纹进行比较以确定匹配。在708处,所述方法包括传输相关联的信号强度的指示。在710处,所述方法包括确定是否以比主控语音代理报告的信号强度更高的信号强度来接收语音查询。如果语音代理正在检测语音查询时的信号强度不高于主控装置最后报告的信号强度(例如,在710处为“否”),则所述方法返回到704以继续接收语音查询和传输相关联的信号强度的指示。应当理解,在一些示例中,相关联的信号强度的指示可能仅在高于来自主控语音代理的最后报告的信号强度时才被传输。
如果以比主控语音代理的最后报告的信号强度更高的信号强度接收语音查询(例如,在710处为“是”),则所述方法进行到712以从当前主控语音代理接收对语音查询检测控制的移交。在714处,所述方法包括传输所接收的语音查询的下一部分以及检测到该部分时的相关联的信号强度的指示。应当理解,响应于从先前的主控语音代理接收移交,语音查询的传输可以立即由新的主控语音代理执行,而没有延迟(除了标称处理延迟之外)。
在716处,所述方法包括确定是否检测到查询结束。如果未检测到查询结束(例如,在716处为“否”),则所述方法进行到718以确定是否接收到另一个语音代理具有更高信号强度的指示。如果未接收到这样的指示(例如,在718处为“否”),则所述方法返回到714以继续传输如检测到的语音查询并继续监视查询结束。如果接收到另一个语音代理具有更高信号强度的指示(例如,在718处为“是”),则所述方法进行到720以将语音查询检测移交给该另一个语音代理。所述方法还可以包括在722处继续在语音代理处传输信号强度的指示(或者一旦信号强度大于新的主控语音代理报告的信号强度,则传输信号强度的指示)并且返回到716以继续监视查询结束。如果检测到查询结束(例如,在716处为“是”),则所述方法进行到724以停止监视语音查询。所述方法包括将查询发送到查询响应服务器,如在726处所指示,并且在728处接收并输出查询响应。
另一个示例包括语音代理,所述语音代理包括音频传感器、通信接口、处理器和存储指令的存储器装置,所述指令可由处理器执行以经由音频传感器检测对应于语音输入的第一音频数据;并且响应于确定语音代理网络的至少一个其他语音代理正在检测对应于语音输入的第二音频数据,而确定检测到第一音频数据时的信号强度,将所述信号强度与如从至少一个其他语音代理接收的第二音频数据的报告的信号强度进行比较,并且基于将第一音频数据的信号强度与如从至少一个其他语音代理接收的第二音频数据的报告的信号强度进行比较,来选择性地传输第一音频数据的信号强度的指示和检测到的音频数据中的一个或多个。在语音代理的第一示例中,指令可以另外或另选地可进一步执行以通过以下动作确定至少一个其他语音代理正在检测对应于语音输入的音频数据:从另一个语音代理接收与语音输入相关联的第一语音指纹;确定音频数据的第二语音指纹;以及将第二语音指纹与第一语音指纹进行比较以确定第二语音指纹与第一语音指纹匹配。语音代理的第二示例可选地包括第一示例,并且还包括语音代理,其中指令可进一步执行以响应于从至少一个其他语音代理的选定语音代理接收到第三音频数据的报告的信号强度而停止传输检测到的音频数据,所述报告的信号强度高于检测到音频数据时的当前信号强度。语音代理的第三示例可选地包括第一和第二示例中的一个或两个,并且还包括语音代理,其中指令可进一步执行以检测语音输入的结束的指示,并且响应于检测到语音输入的结束的指示,选择性地将指示语音输入的结束的消息传输到语音代理网络的至少网络装置。语音代理的第四示例可选地包括第一至第三示例中的一个或多个,并且还包括语音代理,其中选择性地传输所述消息包括:如果在检测到语音输入的结束的指示时语音代理正在传输检测到的音频数据,则传输所述消息,以及如果在检测到语音输入的结束的指示时语音代理不在传输检测到的音频数据,则不传输所述消息。第五示例可选地包括第一至第四示例中的一个或多个,并且还包括语音代理,所述语音代理包括输出装置,其中指令可进一步执行以在检测到语音输入的结束的指示时,基于语音代理是否正在传输检测到的音频数据,而选择性地接收语音输入的响应并经由输出装置输出语音输入的响应。第六示例可选地包括第一至第五示例中的一个或多个,并且还包括语音代理,其中指令可进一步执行以开始检测对应于语音输入的音频数据,并响应于检测到预定义的唤醒词,而向语音代理网络中的每个其他语音代理报告检测到音频数据时的信号强度。第七示例可选地包括第一至第六示例中的一个或多个,并且还包括语音代理,其中指令可进一步执行以响应于语音代理加入语音代理网络而传输通告消息。第八示例可选地包括第一至第七示例中的一个或多个,并且还包括语音代理,其中选择性地传输信号强度的指示和检测到的音频数据中的一个或多个包括:响应于被分配为主控语音代理,而将检测到的音频数据和信号强度的指示传输到语音代理网络的至少网络装置;以及响应于确定信号强度高于至少一个其他语音代理的报告的信号强度和语音代理当前没有被分配为主控语音代理,而仅将信号强度的指示传输到语音代理网络的至少网络装置。
另一个示例包括一种控制包括多个语音代理的语音代理网络中的语音输入检测的方法,所述方法包括:在多个语音代理中的第一语音代理处以第一信号强度检测对应于语音输入的第一音频数据;响应于确定第一信号强度高于由语音代理网络中的每个其他语音代理报告的所接收的信号强度,而将第一语音代理分配为主控语音代理;在将第一语音代理分配为主控语音代理时,从第一语音代理传输包括第一音频数据和检测到第一音频数据时的连续更新的信号强度的报告的流;以及响应于接收到多个语音代理中的第二语音代理以高于来自第一语音代理的当前报告的信号强度的信号强度检测到对应于语音输入的第二音频数据的指示,而将第二语音代理分配为主控语音代理并停止在第一语音代理处传输所述流。在第一示例中,所述方法还可以另外或另选地包括从第一语音代理传输识别语音输入的语音指纹。第二示例可选地包括第一示例,并且还包括所述方法,还包括在将第二语音代理分配为主控语音代理时,仅响应于确定当前信号强度高于从第二语音代理接收的最后报告的信号强度,而从第一语音代理传输对应于语音输入的检测到的音频数据的当前信号强度的报告。第三示例可选地包括第一和第二示例中的一个或两个,并且还包括所述方法,还包括在将第一语音代理分配为主控语音代理时检测语音输入的结束的指示;以及响应于检测到语音输入的结束的指示,而将指示语音输入结束的消息发送到远程装置。第四示例可选地包括第一至第三示例中的一个或多个,并且还包括所述方法,其中语音输入包括语音查询,并且远程装置包括查询响应服务器,所述方法还包括在第一语音代理处接收语音查询的响应,并经由第一语音代理的输出装置输出语音查询的响应。
另一个示例包括语音代理网络,其含有多个语音代理以及通信地耦合到多个语音代理和查询响应服务器的网络装置,多个语音代理中的第一语音代理包括存储指令的存储器装置,所述指令可由第一语音代理的处理器执行以以第一信号强度检测对应于语音查询的第一音频数据;响应于确定第一信号强度高于由语音代理网络中的每个其他语音代理报告的所接收的信号强度,而接收作为主控语音代理的分配;在将第一语音代理分配为主控语音代理时,传输包括第一音频数据和检测到第一音频数据时的连续更新的信号强度的报告的流;并且响应于接收到多个语音代理中的第二语音代理以高于来自第一语音代理的当前报告的信号强度的信号强度检测到对应于语音查询的第二音频数据的指示,而将第二语音代理分配为主控语音代理并停止在第一语音代理处传输所述流。在第一示例中,指令可以另外或另选地可进一步执行以从第一语音代理传输识别语音查询的语音指纹。第二示例可选地包括第一示例,并且还包括语音代理网络,其中指令可进一步执行以在将第二语音代理分配为主控语音代理时,仅响应于确定当前信号强度高于从第二语音代理接收的最后报告的信号强度,而从第一语音代理传输对应于语音查询的检测到的音频数据的当前信号强度的报告。第三示例可选地包括第一和第二示例中的一个或两个,并且还包括语音代理网络,其中指令可进一步执行以在将第一语音代理分配为主控语音代理时检测语音查询的结束的指示,并且响应于检测到语音查询的结束的指示,将指示语音输入的结束的消息发送到网络装置以转发给查询响应服务器。第四示例可选地包括第一至第三示例中的一个或多个,并且还包括语音代理网络,其中指令可进一步执行以在第一语音代理处接收语音查询的响应,并经由第一语音代理的输出装置输出语音查询的响应。第五示例可选地包括第一至第四示例中的一个或多个,并且还包括语音代理网络,其中指令可进一步执行以响应于第一语音代理加入语音代理网络而传输通告消息。
另一个示例包括语音代理网络,其含有多个语音代理以及通信地耦合到多个语音代理和查询响应服务器的网络装置,多个语音代理中的第一语音代理包括存储指令的存储器装置,所述指令可由第一语音代理的处理器执行以以第一信号强度和第一信号质量检测对应于语音查询的第一音频数据;响应于确定第一信号强度和第一信号质量中的一个或两个高于由语音代理网络中的每个其他语音代理报告的相应接收的信号强度和信号质量,而接收作为主控语音代理的分配;在将第一语音代理分配为主控语音代理时,传输包括第一音频数据和检测到第一音频数据时连续更新的信号强度和/或连续更新的信号质量的报告的流;并且响应于接收到多个语音代理中的第二语音代理以高于来自第一语音代理的相应的当前报告的信号强度和信号质量的第二信号强度和第二信号质量中的一个或两个检测到对应于语音查询的第二音频数据的指示,而将第二语音代理分配为主控语音代理并停止在第一语音代理处传输所述流。
已经出于说明和描述的目的给出了实施方案的描述。根据以上描述可以对实施方案进行合适的修改和变化,或者可以从实践所述方法中获得所述修改和变化。例如,除非另外指出,否则所描述的一个或多个方法可以由合适的装置和/或装置的组合来执行,诸如上面关于图1-4描述的语音代理、网络装置和/或查询响应服务器。所述方法可以通过结合一个或多个另外的硬件元件(例如存储装置、存储器、硬件网络接口/天线、开关、致动器、时钟电路等)使用一个或多个逻辑装置(例如,处理器)来执行存储的指令。所描述的方法和相关联的动作还可以以除了本申请中描述的顺序之外的各种顺序、并行地和/或同时执行。所描述的系统本质上是示例性的,并且可以包括另外的元件和/或省略元件。本公开的主题包括各种系统和配置的所有新颖且不明显的组合和子组合,以及所公开的其他特征、功能和/或性质。
如本申请中所使用,以单数形式叙述并且前面带有词“一(a或an)”的元件或步骤应当理解为不排除多个所述元件或步骤,除非声明了这种排除。此外,对本公开的“一个实施方案”或“一个示例”的引用不意在被解释为排除也并入所述特征的另外实施方案的存在。术语“第一”、“第二”和“第三”等仅用作标签,并不意在对其对象施加数字要求或特定位置顺序。以下权利要求特别指出了来自上述公开的被认为新颖且不明显的主题。

Claims (8)

1.一种语音代理,其包括:
音频传感器;
通信接口;
处理器;以及
存储指令的存储器装置,所述指令由所述处理器执行以:
经由所述音频传感器检测对应于语音输入的第一音频数据;以及
响应于确定语音代理网络的至少一个其他语音代理正在检测对应于所述语音输入的第二音频数据:
确定检测到所述第一音频数据时的信号强度,
将所述信号强度与从所述至少一个其他语音代理接收的所述第二音频数据的报告的信号强度进行比较,以及
如果所述第一音频数据的所述信号强度高于从所述至少一个其他语音代理接收的所述第二音频数据的所述报告的信号强度,则传输所述第一音频数据的所述信号强度的指示。
2.根据权利要求1所述的语音代理,其中所述指令进一步可执行以通过以下动作来确定至少一个其他语音代理正在检测对应于所述语音输入的音频数据:从另一个语音代理接收与所述语音输入相关联的第一语音指纹,确定所述音频数据的第二语音指纹,以及将所述第二语音指纹与所述第一语音指纹进行比较以确定所述第二语音指纹与所述第一语音指纹匹配。
3.根据权利要求1所述的语音代理,其中所述指令进一步可执行以响应于从所述至少一个其他语音代理的选定语音代理接收到高于检测到所述音频数据时的当前信号强度的第三音频数据的报告的信号强度,而停止传输所述检测到的音频数据。
4.根据权利要求1所述的语音代理,其中所述指令进一步可执行以检测所述语音输入的结束的指示,并且响应于检测到所述语音输入的结束的所述指示,选择性地将指示所述语音输入的结束的消息传输到所述语音代理网络的至少一个网络装置。
5.根据权利要求4所述的语音代理,其中选择性地传输所述消息包括:如果在检测到所述语音输入的结束的所述指示时所述语音代理正在传输检测到的音频数据,则传输所述消息;以及如果在检测到所述语音输入的结束的所述指示时所述语音代理没有在传输检测到的音频数据,则不传输所述消息。
6.根据权利要求4所述的语音代理,其还包括输出装置,并且其中所述指令进一步可执行以基于在检测到所述语音输入的结束的所述指示时所述语音代理是否正在传输检测到的音频数据,来选择性地接收针对所述语音输入的响应并经由所述输出装置将所述响应输出。
7.根据权利要求1所述的语音代理,其中所述指令进一步可执行以开始检测对应于所述语音输入的所述音频数据,并且响应于检测到预定义的唤醒词,而向所述语音代理网络中的每个其他语音代理报告检测到所述音频数据时的信号强度。
8.根据权利要求1所述的语音代理,其中所述指令进一步可执行以响应于所述语音代理加入所述语音代理网络而传输通告消息。
CN201810599592.1A 2017-06-13 2018-06-12 语音代理转发 Active CN109087637B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/621,678 2017-06-13
US15/621,678 US10069976B1 (en) 2017-06-13 2017-06-13 Voice agent forwarding

Publications (2)

Publication Number Publication Date
CN109087637A CN109087637A (zh) 2018-12-25
CN109087637B true CN109087637B (zh) 2023-09-19

Family

ID=62245146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810599592.1A Active CN109087637B (zh) 2017-06-13 2018-06-12 语音代理转发

Country Status (5)

Country Link
US (2) US10069976B1 (zh)
EP (2) EP3800635B1 (zh)
JP (1) JP7152196B2 (zh)
KR (1) KR20180135817A (zh)
CN (1) CN109087637B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130898A1 (en) * 2017-11-02 2019-05-02 GM Global Technology Operations LLC Wake-up-word detection
CN107895573B (zh) * 2017-11-15 2021-08-24 百度在线网络技术(北京)有限公司 用于识别信息的方法及装置
US11250840B1 (en) * 2018-04-09 2022-02-15 Perceive Corporation Machine-trained network detecting context-sensitive wake expressions for a digital assistant
US10649727B1 (en) * 2018-05-14 2020-05-12 Amazon Technologies, Inc. Wake word detection configuration
KR20200044175A (ko) * 2018-10-05 2020-04-29 삼성전자주식회사 전자 장치 및 그의 비서 서비스 제공 방법
CN109448725A (zh) * 2019-01-11 2019-03-08 百度在线网络技术(北京)有限公司 一种语音交互设备唤醒方法、装置、设备及存储介质
JP7266418B2 (ja) * 2019-02-14 2023-04-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
EP3726856B1 (en) 2019-04-17 2022-11-16 Oticon A/s A hearing device comprising a keyword detector and an own voice detector
CN110033775A (zh) * 2019-05-07 2019-07-19 百度在线网络技术(北京)有限公司 多音区唤醒交互方法、装置及存储介质
JPWO2020235141A1 (zh) * 2019-05-17 2020-11-26
KR102245953B1 (ko) * 2019-06-05 2021-04-28 엘지전자 주식회사 복수의 전자기기의 제어방법
CN110246501B (zh) * 2019-07-02 2022-02-01 思必驰科技股份有限公司 用于会议记录的语音识别方法及系统
US10839060B1 (en) * 2019-08-27 2020-11-17 Capital One Services, Llc Techniques for multi-voice speech recognition commands
EP4037328A4 (en) * 2019-09-27 2023-08-30 LG Electronics Inc. ARTIFICIAL INTELLIGENCE DISPLAY DEVICE AND SYSTEM
US11164563B2 (en) * 2019-12-17 2021-11-02 Motorola Solutions, Inc. Wake word based on acoustic analysis
CN111601004A (zh) * 2020-05-18 2020-08-28 海能达通信股份有限公司 一种呼叫处理方法、装置及系统
US11893985B2 (en) 2021-01-15 2024-02-06 Harman International Industries, Incorporated Systems and methods for voice exchange beacon devices
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101313482A (zh) * 2005-11-17 2008-11-26 微软公司 确定音频设备的质量
CN102131136A (zh) * 2010-01-20 2011-07-20 微软公司 自适应环境声抑制和语音跟踪
CN103456306A (zh) * 2012-05-29 2013-12-18 三星电子株式会社 用于在电子装置中执行语音命令的方法和设备
CN105960673A (zh) * 2014-10-09 2016-09-21 谷歌公司 多个设备上的热词检测

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2881867A1 (fr) * 2005-02-04 2006-08-11 France Telecom Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole
US20150117674A1 (en) * 2013-10-24 2015-04-30 Samsung Electronics Company, Ltd. Dynamic audio input filtering for multi-device systems
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices
US9996316B2 (en) * 2015-09-28 2018-06-12 Amazon Technologies, Inc. Mediation of wakeword response for multiple devices
US20170351330A1 (en) * 2016-06-06 2017-12-07 John C. Gordon Communicating Information Via A Computer-Implemented Agent

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101313482A (zh) * 2005-11-17 2008-11-26 微软公司 确定音频设备的质量
CN102131136A (zh) * 2010-01-20 2011-07-20 微软公司 自适应环境声抑制和语音跟踪
CN103456306A (zh) * 2012-05-29 2013-12-18 三星电子株式会社 用于在电子装置中执行语音命令的方法和设备
CN105960673A (zh) * 2014-10-09 2016-09-21 谷歌公司 多个设备上的热词检测

Also Published As

Publication number Publication date
KR20180135817A (ko) 2018-12-21
JP2019003190A (ja) 2019-01-10
EP3800635B1 (en) 2022-11-16
JP7152196B2 (ja) 2022-10-12
CN109087637A (zh) 2018-12-25
EP3800635A1 (en) 2021-04-07
US20180359364A1 (en) 2018-12-13
US10069976B1 (en) 2018-09-04
EP3416164B1 (en) 2020-12-09
EP3416164A1 (en) 2018-12-19
US10298768B2 (en) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109087637B (zh) 语音代理转发
US11343611B2 (en) Selection of master device for synchronized audio
US20210074291A1 (en) Implicit target selection for multiple audio playback devices in an environment
KR102098136B1 (ko) 응답을 제공하기 위한 디바이스 선택
KR102421255B1 (ko) 음성 신호를 제어하기 위한 전자 장치 및 방법
US20180233136A1 (en) Audio playback device that dynamically switches between receiving audio data from a soft access point and receiving audio data from a local access point
CN110520925A (zh) 询问结束检测
WO2016127550A1 (zh) 人机语音交互方法和装置
US20140214429A1 (en) Method for Voice Activation of a Software Agent from Standby Mode
US10580407B1 (en) State detection and responses for electronic devices
US20150025890A1 (en) Multi-level speech recognition
US11586413B2 (en) Synchronous sounds for audio assistant on devices
US20130218553A1 (en) Information notification supporting device, information notification supporting method, and computer program product
CN110383236A (zh) 对主装置进行选择以实现同步音频
US11295743B1 (en) Speech processing for multiple inputs
US20210195500A1 (en) Electronic device for setting up network of external device and method for operating same
US11783833B2 (en) Multi-device output management based on speech characteristics
CN114999496A (zh) 音频传输方法、控制设备及终端设备
US11818820B2 (en) Adapting a lighting control interface based on an analysis of conversational input
US11893985B2 (en) Systems and methods for voice exchange beacon devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant