CN108630204A

CN108630204A - 在多装置系统中执行语音命令

Info

Publication number: CN108630204A
Application number: CN201810235389.6A
Authority: CN
Inventors: S.M.金
Original assignee: Crown Audio Inc
Current assignee: Crown Audio Inc
Priority date: 2017-03-21
Filing date: 2018-03-21
Publication date: 2018-10-09
Anticipated expiration: 2038-03-21
Also published as: JP2018159918A; JP7152866B2; KR20180107003A; EP3379534B1; KR102475904B1; US10621980B2; US20180277107A1; CN108630204B; EP3379534A1

Abstract

在多装置系统中执行语音辨识包括：接收由第一麦克风响应于口头话语而生成的第一音频信号以及由第二麦克风响应于所述口头话语而生成的第二音频信号；将所述第一音频信号划分成第一序列的时间片段；将所述第二音频信号划分成第二序列的时间片段；将与所述第一序列的第一时间片段相关联的声能水平和与所述第二序列的第一时间片段相关联的声能水平进行比较；基于所述比较，选择所述第一序列的所述第一时间片段和所述第二序列的所述第一时间片段中的一个作为语音辨识音频信号的第一时间片段；以及对所述语音辨识音频信号执行语音辨识。

Description

在多装置系统中执行语音命令

技术领域

本发明的实施方案大体上涉及一种语音处理装置，并且更具体地涉及在多装置系统中执行语音命令。

背景技术

语音辨识软件近年来得到了广泛的应用，特别是因为智能手机、电子平板电脑等移动计算装置通常配备有麦克风和功能强大的处理器。例如，已经开发了许多语音到文本软件应用程序，这些软件应用程序可以解译所记录的说出的话语的音频表示，并生成所说话语的对应的文本表示。当与适当配备的计算装置结合使用时，这样的软件使得用户能够通过向计算装置的麦克风中说出单词或短语来向软件应用程序提交文本。这种软件的一个示例是智能个人助理(IPA)。

IPA是可以基于用户提供的口头输入为用户执行任务或服务的软件代理或其他应用程序。IPA的示例包括Microsoft Cortana^TM、Apple Siri^TM、Google Home^TM和AmazonAlexa^TM。在计算装置中实现的IPA可以使得能够基于口头请求为用户执行某些任务，由此规避了用户通过触摸屏、键盘、鼠标或其他输入装置提供手动输入的需要。例如，用户可以通过IPA从各种在线资源中访问信息(例如，天气、交通状况、新闻、股票价格、用户时间表、零售价格等)。此外，IPA可以为用户完成基于信息的任务(例如，电子邮件管理、日历事件、文件、待办事项列表等)。

然而，随着启用IPA的装置的使用日益普遍，可能会出现各种问题。具体而言，当多个启用IPA的装置定位成彼此邻近时(例如在相同或相邻的房间中)，既定用于一个启用IPA的装置的用户语音命令可以由不同的启用IPA的装置来接收、解译并且对其起作用。例如，在一个房间内向配置为控制灯开关的家庭自动化装置发出的语音命令也可以由位于相邻房间中的类似配置的智能扬声器来接收和实施，从而致使将不需要的灯打开或关闭。因此，在一些情况下，定位成彼此邻近的启用IPA的装置之间的冲突可能降低这种装置原本将提供的便利性和效率。

因此，用于在包括多个启用IPA的装置的系统中执行语音命令的经改进技术将是有用的。

发明内容

各种实施方案阐述了一种包括指令的非暂时性计算机可读介质，所述指令在由一个或多个处理器执行时将所述一个或多个处理器配置为通过执行以下步骤来在多装置系统中执行语音辨识：接收由第一麦克风响应于口头话语而生成的第一音频信号和由第二麦克风响应于口头话语而生成的第二音频信号；将第一音频信号划分为第一序列的时间片段；将第二音频信号划分成第二序列的时间片段；将与所述第一序列的第一时间片段相关联的声能水平和与所述第二序列的第一时间片段相关联的声能水平进行比较；基于所述比较，选择所述第一序列的第一时间片段及所述第二序列的第一时间片段中的一个作为语音辨识音频信号的第一时间片段；以及将语音辨识音频信号传输到语音辨识应用程序，或者对语音辨识音频信号执行语音辨识。

所公开实施方案的至少一个优点是，用户可以发出可由多个智能装置检测的语音命令，但仅接收来自单个智能装置的单个响应。另一优点是，多个智能装置的系统能够根据情境来确定智能装置中的哪一个被预期执行语音命令，而不需要用户在语音命令中包括特定的位置信息。

附图说明

为了能够详细地理解各个实施方案的上述特征，可参考多个实施方案来更具体地描述以上已简要概述的各个实施方案，这些实施方案中的一些在附图中示出。然而，应注意，附图仅仅示出了典型的实施方案，并且因此不应被认为是对本发明范围的限制，这是因为各个实施方案可容许其他等效的实施方案。

图1是示出了多装置智能个人助理(IPA)系统的示意图，所述多装置IPA系统被配置为实施各种实施方案的一个或多个方面。

图2示出了被配置为实施本公开的一个或多个方面的计算装置。

图3示意性地示出了根据各种实施方案的由图1的多装置IPA系统中的主智能装置接收并处理的音频信号。

图4阐述了根据各种实施方案的用于在多装置系统中执行语音辨识的方法步骤的流程图。

图5A-D示意性地示出了根据本公开的各种实施方案的图4的方法步骤的不同阶段。

图6A示意性地示出了任何响度匹配之前的语音辨识音频信号中的时间片段。

图6B示意性地示出了根据一个实施方案的在响度匹配应用程序已经在时间片段中的一个上执行响度匹配之后的图6A的时间片段。

图6C示意性地示出了根据另一实施方案的在响度匹配应用程序已经在时间片段中的一个上执行响度匹配之后的图6A的时间片段。

图6D示意性地示出了根据另一实施方案的在响度匹配应用程序已经在两个时间片段上执行响度匹配之后的图6A的时间片段。

图7示意性地示出了根据各种实施方案的与图1中的多装置IPA系统类似的多装置IPA系统所服务的区域的拓扑表示。

图8阐述了根据各种实施方案的用于在多装置系统中执行语音辨识的方法步骤的流程图。

为清楚起见，在适用情况下，相同的参考符号被用于指代各图中共有的相同元件。应预测，一个实施方案的特征可并入于其他实施方案中而无需进一步叙述。

具体实施方式

图1是示出了多装置智能个人助理(IPA)系统100的示意图，所述多装置IPA系统100被配置为实施各种实施方案的一个或多个方面。多装置IPA系统100包括全部经由通信网络150彼此通信地连接的主智能装置120、从智能装置130和从智能装置140。图1中还示出了用户90，其经由口头话语91生成用户请求。在一些实施方案中，多装置IPA系统100包括两个以上从智能装置。

通信网络150可以是允许数据在主智能装置120、从智能装置130、从智能装置140和/或其他实体或装置(例如web服务器或另一联网的计算装置)之间交换的任何技术上可行类型的通信网络。例如，通信网络150可以包括广域网(WAN)、局域网(LAN)、无线(WiFi)网络、无线个域网(WPAN)(例如蓝牙网络)和/或互联网等。因此，在一些实施方案中，通信网络150可以包括图1中未示出的一个或多个额外的网络装置，例如WiFi路由器。在其他实施方案中，通信网络150可以限于主智能装置120、从智能装置130和从智能装置140。

主智能装置120、从智能装置130和从智能装置140中的每一个均是被配置为接收来自用户的某些语音命令并对其起作用的启用IPA的计算装置。在操作中，主智能装置120、从智能装置130和从智能装置140中的一个或多个检测口头话语91，并将口头话语91转换为相应的音频信号，例如数字音频信号。因此，从智能装置130例如经由麦克风132响应于口头话语91而生成音频信号131，并将音频信号131传输到主智能装置120。类似地，从智能装置140例如经由麦克风142响应于口头话语91而产生音频信号141，并将音频信号141传输到主智能装置120。主智能装置120还响应于口头话语91经由麦克风122生成音频信号121，且然后基于音频信号131、音频信号141和/或音频信号121的各部分来构建语音辨识音频信号，如下面更详细地描述。然后，将语音辨识音频信号传送到语音辨识应用程序以进行评估。当由语音辨识应用程序返回响应音频信号125时，主智能装置120确定多装置IPA系统100中的哪个智能装置最靠近用户90，并将响应音频信号125传输到该智能装置以通过适当的扬声器123、133或143转换成声能。因此，尽管多装置IPA系统100中的多个智能装置可以接收包括语音命令的口头话语91，但多装置IPA系统100中的仅单个智能装置生成与对语音命令的响应相关联的声音。

主智能装置120、从智能装置130和从智能装置140中的每一个可以是任何独立计算装置，其可操作来经由通信网络150进行通信并且执行IPA应用和与IPA应用相关联的应用。适合用作主智能装置120、从智能装置130和从智能装置140的计算装置的示例包括但不限于智能扬声器、智能电话、家庭自动化集线器、电子平板电脑、膝上型计算机、台式计算机等。替代地或附加地，主智能装置120、从智能装置130和/或从智能装置140中的一个或多个可以是计算装置，其可操作来经由通信网络150进行通信并且并入到电子装置、消费产品或其他设备中，包括但不限于视频游戏控制台、机顶盒、数字录像机、家庭自动化装置等。下面结合图2描述这种计算装置的一个实施方案。

图2示出了被配置为实施本公开的一个或多个方面的计算装置200。计算装置200可以被用作多装置IPA系统100中的主智能装置120、从智能装置130和/或从智能装置140。这样，计算装置200被配置为执行语音辨识程序211、音频信号合并应用程序212和/或拓扑应用程序216中的一个或多个，其中的每一者均可驻留在存储器210中。在一些实施方案中，音频信号合并应用程序212可以包括响度匹配应用程序213、时间对准应用程序214和主选择应用程序215中的一个或多个。计算装置200还被配置为例如通过将响应音频信号125(在图1中示出)转换为声能来致使扬声器282生成声音。应注意，本文描述的计算装置是说明性的，并且任何其他技术上可行的配置都落入本发明的范围内。

如图所示，计算装置200包括但不限于互连件(总线)240，其连接处理单元250、耦合到输入/输出(I/O)装置280的输入/输出(I/O)装置接口260、存储器210、存储装置230和网络接口270。处理单元250可以是任何合适的处理器，其实施为中央处理单元(CPU)、应用特定的集成电路(ASIC)、现场可编程门阵列(FPGA)、任何其他类型的处理单元或不同处理单元的组合，例如被配置为结合数字信号处理器(DSP)进行操作的CPU。例如，在一些实施方案中，处理单元250包括CPU和DSP。通常，处理单元250可以是能够处理数据和/或执行软件应用程序的任何技术上可行的硬件单元，所述软件应用程序包括语音辨识程序211、音频信号合并应用程序212、响度匹配应用程序213、时间对准应用程序214、主选择应用程序215和/或拓扑应用程序216。此外，在本公开的上下文中，计算装置200中示出的计算元件可以对应于物理计算系统(例如，数据中心中的系统)，或者可以是在计算云内执行的虚拟计算实例。在这样的实施方案中，语音辨识程序211可以经由在计算云或服务器内执行的虚拟计算实例来实施。

I/O装置280可以包括能够提供输入的装置(例如键盘、鼠标、触敏屏幕、麦克风281等)以及能够提供输出的装置(例如扬声器282和显示屏)。显示屏可以是计算机监视器、视频显示屏、并入到手持式装置中的显示设备、或任何其他技术上可行的显示屏。图1中的麦克风281的特定实例包括麦克风122、132和142，其被配置为将例如口头话语91的声能转换成例如音频信号121、131或141的音频信号。图1中的扬声器282的特定实例包括扬声器123、133和143，其被配置为将例如由语音辨识应用程序211返回的响应音频信号125的音频信号转换成声能。

I/O装置280可以包括能够接收输入和提供输出的额外装置，例如触摸屏、通用串行总线(USB)端口等。这样的I/O装置280可以被配置为接收来自计算装置200的最终用户的各种类型的输入，并且还向计算装置200的最终用户提供各种类型的输出，例如显示的数字图像或数字视频。在一些实施方案中，I/O装置280中的一个或多个被配置为将计算装置200耦合到通信网络150。

I/O接口260实现I/O装置280与处理单元250的通信。I/O接口通常包括用于解译对应于I/O装置280的由处理单元250生成的地址的必要逻辑。I/O接口260还可以被配置为实施处理单元250和I/O装置280之间的握手，和/或生成与I/O装置280相关联的中断。I/O接口260可以被实施为任何技术上可行的CPU、ASIC、FPGA，任何其他类型的处理单元或装置。

网络接口270是将处理单元250连接到通信网络150的计算机硬件部件。网络接口270可以作为独立卡、处理器或其他硬件装置在计算装置200中实施。在其中通信网络150包括WiFi网络或WPAN的实施方案中，网络接口270包括合适的无线收发器。替代地或附加地，网络接口270可以被配置有蜂窝通信能力、卫星电话通信能力、无线WAN通信能力或允许与包括在多装置IPA系统100中的通信网络150和其他计算装置200进行通信的其他类型的通信能力。

存储器210可以包括随机存取存储器(RAM)模块、快闪存储器单元或任何其他类型的存储器单元或其组合。处理单元250、I/O装置接口260和网络接口270被配置为从存储器210读取数据并将数据写入到存储器210。存储器210包括可由处理器250执行的各种软件程序以及与所述软件程序相关联的应用程序数据，所述软件程序包括语音辨识应用程序211、音频信号合并应用程序212、响度匹配应用程序213、时间对准应用程序214、主选择应用程序215和/或拓扑应用程序216。在图2所示的实施方案中，存储器210和存储装置230被示出为并入到计算装置200中的物理部件。在其他实施方案中，存储器210和/或存储装置230可以被包括在分布式计算环境中，例如计算云。

语音辨识应用程序211可以是被配置为将语音(例如图1中的口头话语91)转换为文本的任何应用程序。附加地，语音辨识应用程序可以被配置为用作一个或多个单独应用程序的语音接口。在一些实施方案中，语音辨识应用程序211是并入到与计算装置200相关联的IPA系统中的软件应用程序或模块。

音频信号合并应用程序212被配置为从例如音频信号121、音频信号131或音频信号141的多个输入音频信号生成语音辨识音频信号。为此，音频信号合并应用程序212被配置为将音频信号划分成多个连续的时间片段。附加地，关于已经被划分成时间片段序列的多个音频信号，音频信号合并应用程序212被配置为比较来自多个音频信号中的每一个的与特定时间戳相关联的时间片段、选择具有最佳音频信号强度的时间片段，并使用选定的时间片段来构建语音辨识音频信号的一部分。通过针对与多个音频信号相关联的每个时间戳重复该过程，音频信号合并应用程序212生成供语音辨识应用程序211使用的单个语音辨识音频信号。因此，为语音辨识应用程序211生成的语音辨识音频信号包括多个音频信号的具有最强音频信号强度的部分。

在一些实施方案中，音频信号合并应用程序212包括响度匹配应用程序213和/或时间对准应用程序214。下面更详细地描述音频信号合并应用程序212、响度匹配应用程序213、时间对准应用程序214和拓扑应用程序216的操作。

主选择应用程序215被配置为确定包括在多装置IPA系统100中的哪个智能装置作为主智能装置进行操作以及哪个智能装置作为从智能装置进行操作。在一些实施方案中，当新的智能装置被添加到多装置IPA系统100时，例如当在通信网络150内给额外的启用IPA的智能装置通电时，主选择应用程序215协调多装置IPA系统100内的各种智能装置之间的通信，使得选择主智能装置。因此，即使当主智能装置120、从智能装置130和从智能装置140是类似或相同的装置时，也选择单个主智能装置。

主选择应用程序215中可以采用任何技术上可行的算法来选择主智能装置。例如，在一些实施方案中，多装置IPA系统100中的具有最大计算能力的智能装置被选择为主智能装置120。替代地，在一些实施方案中，多装置IPA系统100中的具有最大电池电量的智能装置被选择为主智能装置120。在又其他实施方案中，多装置IPA系统100中的位于最居中处的智能装置被选择为主智能装置120。在这样的实施方案中，可以采用描述与多装置IPA系统100一致的居住空间的房间的拓扑来决定哪个智能装置位于最居中处。下面结合图7描述这种拓扑的实施方案。

如前所述，根据本公开的实施方案，主智能装置120被配置为基于音频信号131、音频信号141和/或音频信号151(全部在图1中示出)的各部分来构建语音辨识音频信号，并将语音辨识音频信号传送到语音辨识应用程序以供评估和解译。主智能装置120还被配置为确定多装置IPA系统100中的哪个智能装置最靠近用户90并且向该智能装置提供由语音辨识应用程序211返回的任何响应音频信号125。因此，多装置IPA系统100中的适当的智能装置向用户90提供任何即将到来的音频响应。下面结合图3-5描述这样的实施方案。

图3示意性地示出根据各种实施方案的由主智能装置120接收并处理的音频信号300。音频信号300可以表示由主智能装置120生成的音频信号121、由从智能装置130生成的音频信号131或由从智能装置140生成的音频信号141。如图所示，音频信号300被划分成时间片段序列301A-301N。时间片段301A-301N中的每一个分别包括来自音频信号300的与特定时间间隔相关联的特定音频数据部分(即，音频信号片段数据303A-303N中的一个)。附加地，时间片段301A-301N中的每一个包括与音频信号300和特定时间间隔相关联的元数据，即片段元数据302A-302N。例如，时间片段301A包括音频信号片段数据303A和片段元数据302A。同样，时间片段301B包括音频信号片段数据303B和片段元数据302B，时间片段301C包括音频信号片段数据303C和片段元数据302C等等。

本文统称为时间片段301的时间片段301A-301N中的每一个包括关于唯一时间间隔的音频信号数据，其中每个时间片段301的时间间隔在大约50毫秒和大约2秒之间。很短持续时间的时间片段301通常需要更大的计算资源，并且因此可能难以在主智能装置120、从智能装置130或从智能装置140的一些配置中实施。此外，较长持续时间的音频片段301可能无法在音频信号131内提供足够的时间粒度，以将来自不同音频信号的时间片段有效地合并为语音辨识音频信号，如下所述。因此，在一些实施方案中，每个时间片段301的时间间隔在大约100毫秒和大约500毫秒之间。本文统称为音频信号片段数据303的音频信号片段数据303A-303N中的每一个均具有与其相关联的音频信号强度或声能水平，如图所示，所述音频信号强度或声能水平对比时间以图形方式示出。

本文统称为片段元数据302的片段元数据302A-302N各自包括与音频信号300和特定时间片段303相关联的元数据。例如，在一些实施方案中，与特定时间片段301相关联的片段元数据302的实例包括时间戳或其他识别符，其指示该时间片段301的音频信号片段数据303由多装置IPA系统100中的智能装置生成的时间。在一些实施方案中，与特定时间片段301相关联的片段元数据302的实例包括指示时间片段301源自多装置IPA系统100中的哪个智能装置的信息。此外，在一些实施方案中，与特定时间片段301相关联的片段元数据302的实例包括与该时间片段301中所包括的音频信号片段数据303有关的元数据，例如时间片段301上的平均音频信号强度、时间片段内的音频信号片段数据的峰值音频信号强度，等等。

在一些实施方案中，音频信号300被生成音频信号300的智能装置划分成时间片段301。在这样的实施方案中，片段元数据302中的一些或全部也由生成音频信号300的智能装置生成。替代地，在一些实施方案中，音频信号300可以在从智能装置130或从装置140接收时由主智能装置120划分为时间片段301。类似地，在一些实施方案中，一旦生成了时间片段301，就可以由主智能装置120生成片段元数据302中的一些或全部。

图4阐述了根据各种实施方案的用于在多装置系统中执行语音辨识的方法步骤的流程图。图5A-D示意性地示出了根据本公开的各种实施方案的图4的方法步骤的不同阶段。虽然相对于图1-3的系统描述了所述方法步骤，但本领域技术人员应理解，被配置来以任何次序执行所述方法步骤的任何系统均落在各个实施方案的范围内。

如图所示，方法400在步骤401处开始，在步骤401中，主智能装置120从多装置IPA系统100中所包括的每个智能装置接收多个音频信号。音频信号是响应于来自用户90的口头话语91而产生的。例如，在一个实施方案中，主智能装置120从麦克风122接收音频信号121，从智能装置130接收音频信号131以及从智能装置140接收音频信号141，如图5A所示。由于从智能装置130被选择为从智能装置，因此当从智能装置130从麦克风132接收到音频信号131时，将音频信号131传输到主智能装置120，而不是由从智能装置130在本地包括的任何语音辨识应用程序来处理。类似地，从智能装置140将音频信号141传输到主智能装置120，而不是在本地处理音频信号141。

在步骤402中，如图5B所示，主智能装置120将在步骤401中接收到的音频信号划分为带时间戳的时间片段序列501A-501N。应注意，在步骤401中接收到的音频信号中的一个音频信号相对于其他音频信号的相对信号强度可以在所有时间片段501A-501N间变化。例如，音频信号131在时间片段510中具有最强的音频信号强度，而音频信号141在时间片段520中具有最强的音频信号强度。相对音频信号强度的这种改变可以是用户90相对于主智能装置120、从智能装置130或从装置140中的一个或多个的位置或取向改变的结果。因此，在由时间片段510表示的时间间隔期间，用户90可以接近或直接面向从智能装置130，而在由时间片段520表示的时间间隔内，用户90可以更直接地面向或更靠近从智能装置140。

除了将音频信号121、131和141划分为时间片段序列之外，在一些实施方案中，主智能装置120还生成音频信号121、131和141的每个时间片段501A-501N的片段元数据302中的一些或全部。在替代性实施方案中，将音频信号131和141划分成时间片段是在被传输到主智能装置120之前在本地执行。在这样的实施方案中，从智能装置130将音频信号131划分成时间片段301并且生成每个时间片段301的片段元数据302，而从智能装置140将音频信号141划分为时间片段301并且生成每个时间片段301的片段元数据302。

在步骤403中，主智能装置120从在步骤401中接收的每个音频信号选择对应的时间片段501。在一些实施方案中，按时间顺序选择时间片段，因此，在步骤403的每次迭代中，从每个音频信号121、131和141选择稍后的时间片段501。例如，在这样的实施方案中，在步骤403的第一次迭代中，主智能装置120从音频信号121、131和141中的每一个选择时间片段501A，在步骤403的下一次迭代中，主智能装置120从每个音频信号选择时间片段501B，等等。在步骤403中，可以基于时间戳来选择来自每个音频信号的对应的时间片段501。也就是说，在步骤403中，具有相同时间戳信息的每个音频信号中的时间片段被一起选择。

在步骤404中，主智能装置120比较在步骤403中选择的时间片段501的音频信号强度，如图5C所示。作为说明，图5C示出了被同时比较的音频信号121、131和141的所有时间片段501的比较。实际上，主智能装置120通常在步骤404的每次迭代时比较来自音频信号121、131和141中的每一个的单个时间片段501。例如，在步骤404的一个迭代中，主智能装置120将音频信号121的时间片段501A的音频信号强度与音频信号131的时间片段501A以及音频信号141的时间片段501A的音频信号强度进行比较。在步骤404的后续迭代中比较音频信号121、131和141中的每一个的时间片段501B的音频信号强度，等等。

在一些实施方案中，音频信号强度的比较是基于在步骤403中选择的每个时间片段501的片段元数据302中包括的信息。在一些实施方案中，主智能装置120比较每个时间片段501的平均音频信号强度。在其他实施方案中，主智能装置120比较每个时间片段501的峰值音频信号强度。

在步骤405中，主智能装置120选择具有最高音频信号强度或声能水平的时间片段501。

在步骤406中，主智能装置120将在步骤405中选择的时间片段501添加到语音辨识音频信号530，如图5D所示。图5D示出了在方法400被完成并且已经从同时比较的音频信号121、131和141添加了所有时间片段531之后的语音辨识音频信号530。实际上，在步骤406的每次迭代中，主智能装置120通常从音频信号121、131和141中的每一个添加单个时间片段501。例如，在步骤406的一次迭代中，主智能装置120为语音辨识音频信号530选择音频信号131的时间片段501A作为时间片段531A。然后，在步骤406的后续迭代中，主智能装置120为语音辨识音频信号530选择音频信号131的时间片段501B作为时间片段531B，等等。在图5D所示的实施方案中，音频信号131在时间片段510中具有最强的音频信号强度，因此在步骤406的多次迭代期间，将来自音频信号131的时间片段510添加到语音辨识音频信号530。类似地，音频信号141在时间片段520中具有最强的音频信号强度，因此在步骤406的多次迭代期间，将来自音频信号141的时间片段520添加到语音辨识音频信号530。

在步骤407中，主智能装置120确定在步骤401中接收到的音频信号的任何时间片段是否仍待处理。如果是，则方法400返回到步骤403；如果否，则方法400进行到步骤408。

在步骤408中，主智能装置120将语音辨识音频信号530传送到语音辨识应用程序211以进行处理和解译。在一些实施方案中，语音辨识应用程序211将语音辨识音频信号530转换为文本，然后检测与语音辨识应用程序211或和多装置IPA系统100相关的在文本中包括的其他应用程序相关联的语音命令。例如，在一些实施方案中，所检测的语音命令由主智能装置120实施，而在其他实施方案中，所检测的语音命令被传输到在主智能装置120或可通信地耦合到通信网络150的其他计算装置中执行的任何合适的应用程序。通常，所检测的语音命令可以包括由常规IPA系统采用的任何合适的命令，例如对话式问题或命令。

在步骤409中，主智能装置120从语音辨识应用程序211接收响应音频信号，例如图1中的响应音频信号125。例如，响应音频信号125可以包括对在步骤408中检测的一个或多个语音命令的基于语音的响应。

在步骤410中，主智能装置120确定多装置IPA系统100中包括的哪个智能装置最靠近用户90。在一些实施方案中，主智能装置120基于片段元数据302来确定哪个智能装置最靠近用户90。具体而言，主智能装置120可以确定最靠近用户90的智能装置是语音辨识音频信号530的最后一个时间片段531N起源的智能装置。

在步骤411中，主智能装置120将响应音频信号125传输到在步骤410中被确定为最靠近用户90的智能装置。因此，定位在最靠近用户90处的智能装置提供对口头话语91中包括的语音命令的可听响应。此外，多装置IPA系统100中没有其他智能装置提供可听响应。因此，通过实施方法400，避免了由多个启用IPA的装置同时回复同一口头命令而对用户90造成的混乱。

在一些情况下，由于来自多个来源的时间片段501被组合来形成语音辨识音频信号530，因此在方法400中生成的语音辨识音频信号530中可能存在不连续性。例如，当来自第一来源(例如，音频信号131)的语音辨识音频信号530中的时间片段501与来自第二来源(例如，音频信号141)的时间片段501相邻时，可能存在显著的音频信号强度不连续性，如图5D所示。语音辨识音频信号530中的时间片段501J是从音频信号131获取的，并且具有比从音频信号141获取的时间片段501K更高的音频信号强度。这样的不连续性可以产生可听见的嘀嗒声，其能够影响语音辨识应用程序211辨识口头命令的能力。根据一些实施方案，响度匹配应用程序213被配置来使这种不连续性流畅化，如图6A-D所示。

图6A示意性地示出了在任何响度匹配之前的语音辨识音频信号530中的时间片段501J和501K。如图所示，在时间片段501J和时间片段501K之间的转变时间601处，发生响度不连续性602。

图6B示意性地示出了根据一个实施方案的在响度匹配应用程序213已经在时间片段501J上执行响度匹配之后的时间片段501J和501K。具体来说，响度匹配应用程序213已经降低了时间片段501J的至少一部分的音频信号强度，使得在转变时间601处的时间片段501J的音频信号电平等于在转变时间601处的时间片段501K的音频信号电平。以这种方式，由响度匹配应用程序213生成增强的语音辨识音频信号630。在一些实施方案中，如图所示，音频信号强度的降低可以在由时间片段501J表示的时间间隔的一些或全部上渐变。图6B所描绘的音频信号强度的降低可以用常规的数字信号处理技术容易地执行。替代地或附加地，可采用用于将与时间片段501J相关联的音频信号和与时间片段501K相关联的音频信号混合的任何技术上可行的技术来使时间片段501J和501K之间的转变可听地流畅化，例如回声消除技术、去卷积算法等。

图6C示意性地示出了根据另一实施方案的在响度匹配应用程序213已经在时间片段501K上执行响度匹配之后的时间片段501J和501K。具体而言，响度匹配应用程序213已经增加了时间片段501K的至少一部分的音频信号强度，使得时间片段501K在转变时间601处的音频信号电平等于时间片段501J在转变时间601处的音频信号电平。以这种方式，由响度匹配应用程序213生成增强的语音辨识音频信号631。在一些实施方案中，如图所示，音频信号强度的增加可以在由时间片段501K表示的时间间隔的一些或全部上渐变。图6C所描绘的音频信号强度的增加可以用上面结合图6B所描述的任何数字信号处理技术容易地执行。

图6D示意性地示出根据另一实施方案的响度匹配应用程序213已经在时间片段501J和时间片段501K上执行响度匹配之后的时间片段501J和501K。具体而言，响度匹配应用程序213已经降低了时间片段501J的至少一部分的音频信号强度，并且增加了时间片段501K的至少一部分的音频信号强度，使得时间片段501K在转变时间601的音频信号电平等于时间片段501J在转变时间601处的音频信号电平。以这种方式，由响度匹配应用程序213生成增强的语音辨识音频信号632。音频信号强度的这种改变可以用上面结合图6B描述的任何数字信号处理技术容易地执行。

在一些实施方案中，时间片段501J和501K之间的音频信号强度的不连续性由时间对准应用程序214来解决。例如，当与一个音频信号(例如，音频信号131)相关联的时间片段501中的一个或多个的时间戳和与另一音频信号(例如，音频信号141)相关联的时间片段501中的一个或多个的时间戳之间存在较小的时间未对准时，可以使用众所周知的数字信号处理技术来将时间片段501J和501K中的波形对准。以这种方式，例如由不同地定位的智能装置中固有的小延迟引起的音频信号之间的可听见的不连续性可以被最小化或以其他方式减小。

在一些实施方案中，包括在多装置IPA系统中的智能装置中的一些或全部各自链接到与通信网络150相关联的特定位置，例如家庭或办公室空间中的特定房间。在这样的实施方案中，主智能装置120、从智能装置130和从装置140是位置感知智能装置。也就是说，每一个都与特定的房间或拱门内的其他位置(例如居住空间)相关联。因此，由多装置IPA系统100中的特定智能装置接收到的命令可以由智能装置在位置感知背景中理解，其中智能装置知晓用户的位置、居住空间中的其他装置和智能装置本身。在这样的实施方案中，拓扑应用程序216被配置为使得用户能够使多装置IPA系统100中的每个智能装置与由多装置IPA系统100所服务的区域的拓扑表示中的特定位置相关联。图7示出了这样的拓扑表示的一个实施方案。

图7示意性地示出根据各种实施方案的与图1中的多装置IPA系统100类似的多装置IPA系统所服务的区域的拓扑表示700。拓扑表示700获取与多装置IPA系统100相关联的居住空间的各个房间之间的物理关系。这样，拓扑表示700包括房间710和连接部720，连接部720指示在各个房间710之间存在通道。附加地，拓扑表示700还可以包括一个或多个区域731和732，每个区域包括彼此靠近的多个房间。拓扑表示700通常由用户例如经由拓扑应用程序216提供的图形用户界面输入，并且通常在智能装置被添加到多装置IPA系统100时被修改。

在图7所示的实施方案中，房间710包括厨房701、餐厅702、中央走廊703、客厅704、入口走廊705、浴室706、入口707和卧室708。连接部720包括某些房间710之间的门通道连接部721及某些房间710之间的开放区域通道连接部722。因此，连接部720可以指示什么样的房间可以是用于语音控制的目标空间，其中经由开放区域通道连接部722连接的房间被认为是可能的目标，且通过门通道连接部721而与用户分开的房间不是。附加地，拓扑表示700包括智能装置(例如可由语音命令控制的装置)的位置。在图7所示的实施方案中，拓扑表示700中的智能装置包括灯701A、702A、702B、703A、703B、704A、704B、705A、706A、707A和708A。

区域731-733各自包括多个房间以及可以在语音命令中使用的唯一识别符。因此，当区域731在拓扑表示700中被定义为“家庭区域”时，语音命令可以涉及影响该区域中包括的任何房间中的所有智能装置的家庭区域。例如，用户给出语音命令“打开家庭区域中的灯”将导致灯701A、702A、702B、703A、703B、704A和704B被打开。

图8阐述了根据各种实施方案的用于在多装置系统中执行语音辨识的方法步骤的流程图。虽然相对于图1-3的系统描述了所述方法步骤，但本领域技术人员应理解，被配置来以任何次序执行所述方法步骤的任何系统均落在各个实施方案的范围内。

如图所示，方法800在步骤801处开始，在步骤801中，与拓扑表示700相关联的多装置IPA系统中的主智能装置接收一个或多个音频信号。主智能装置从已经检测到来自用户的口头话语的包括在多装置IPA系统中的每个智能装置接收一个这样的音频信号。例如，一个或多个音频信号可以由主智能装置经由WiFi网络或类似于图1中的通信网络150的其他网络来接收，并且响应于来自用户的口头话语而生成。

在步骤802中，主智能装置例如经由上述方法400从步骤801中接收到的一个或多个音频信号构建语音辨识音频信号。

在步骤803中，主智能装置将语音辨识音频信号传送到语音辨识应用程序(例如语音辨识应用程序211)，以进行处理和解译。在一些实施方案中，语音辨识应用程序将语音辨识音频信号转换为文本，然后检测可由多装置IPA系统执行的语音命令。

在步骤804中，主智能装置通常以文本格式接收由语音辨识应用程序检测到的语音命令。

在步骤805中，主智能装置确定在步骤804中接收到的语音命令是否可由多装置IPA系统中包括的一个或多个智能装置执行。如果否，则方法800进行到步骤806；如果是，则方法800进行到步骤807。

在步骤806中，主智能装置将语音命令传送到适当的应用程序以供执行。

在步骤807中，主智能装置确定在步骤804中接收到的语音命令是否包括指示多装置IPA系统中的哪个智能装置意图执行语音命令的位置信息。例如，语音命令可以包括例如“客厅中的灯”或“客厅灯”等短语。如果是，则所述方法进行到步骤808；如果否，则所述方法进行到步骤809。

在步骤808中，主智能装置将语音命令传送到多装置IPA系统中的在语音命令中指示的位置处的一个或多个智能装置。例如，在其中语音命令包括短语“客厅中的灯”的实施方案中，主智能装置将语音命令传送到与拓扑表示700中的灯704A和704B对应的智能装置，以用于执行语音命令。

在步骤809中，主智能装置基于什么样的装置是多装置IPA系统中最靠近用户的智能装置来确定用户的当前位置。例如，在一些实施方案中，主智能装置确定最靠近用户的智能装置是语音辨识音频信号的最后一个时间片段起源的智能装置，如上述方法400中所述。

在步骤810中，主智能装置将语音命令传送到被配置为执行语音命令并且被安置在用户的当前位置处的一个或多个智能装置。

总的来说，即使语音命令是位置特定的命令，方法800的实施也使得用户能够采用不包括位置信息的语音命令。因此，已知适当配置的多房间空间的拓扑表示，则用户可以发出简单的语音命令，例如“打开灯”并且正确执行命令。由于包括在多装置IPA系统中的位置感知智能装置，用户想要执行特定语音命令的一个或多个智能装置的位置可以根据情境被确定，从而简化了用户发出的语音命令。

总的来说，各种实施方案阐述了用于进行以下操作的系统和技术：基于从多个智能装置接收的多个音频信号的各部分来构建语音辨识音频信号、将语音辨识音频信号传送到语音辨识应用程序以用于评估和解译以及确定多个智能装置中的哪个智能装置最靠近用户。将由语音辨识应用程序返回的响应音频信号传送到被确定为最靠近用户的智能装置以供执行和/或播放。所公开实施方案的至少一个优点是，用户可以发出可由多个智能装置检测的语音命令，但仅接收单个响应。

已出于说明目的而呈现了对各种实施方案的描述，但这些描述并非意图是详尽性的或限制于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员来说是显而易见的。

本实施方案的各方面可体现为系统、方法或计算机程序产品。因此，本公开的各方面可采取完全硬件实施方案、完全软件实施方案(包括固件、驻留软件、微代码等)或组合软件方面和硬件方面的实施方案的形式，所述实施方案在本文中可全部概括地称为“模块”或“系统”。此外，本公开的各方面可采取在一个或多个计算机可读介质中体现的计算机程序产品的形式，所述一个或多个计算机可读介质具有在其上体现的计算机可读程序代码。

可利用一个或多个计算机可读介质的任何组合。计算机可读介质可为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是(例如)但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或者上述各项的任何合适组合。计算机可读存储介质的更特定的示例(非详尽性的列表)将包括以下各项：具有一个或多个电线的电气连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或上述各项的任何合适组合。在本文档的上下文中，计算机可读存储介质可为任何有形介质，所述有形介质可含有或存储供指令执行系统、设备或装置使用或连同指令执行系统、设备或装置一起使用的程序。

以上参考根据本公开的实施方案的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述了本公开的各方面。应理解，可通过计算机程序指令来实施流程图和/或方框图中的每个方框以及流程图和/或方框图中的方框组合。这些计算机程序指令可提供至通用计算机、专用计算机的处理器或其他可编程数据处理设备以产生一种机器，使得经由计算机的处理器或其他可编程数据处理设备执行的指令启用一个或多个流程图方框和/或一个或多个方框图方框中指定的功能/动作的实施。这样的处理器可为，但不限于通用处理器、专用处理器、应用特定的处理器或现场可编程处理器或门阵列。

附图中的流程图和方框图示出了根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。就此而言，流程图或方框图中的每个方框均可表示代码的模块、片段或部分，所述代码包括用于实施指定的逻辑功能的一个或多个可执行指令。还应注意，在一些替代性实施方式中，方框中指出的功能可按照附图中指出的次序以外的次序发生。例如，连续示出的两个方框实际上可以大致同时执行，或者所述方框有时可以按相反的次序执行，这取决于所涉及的功能性。还应注意，方框图和/或流程图中的每个方框，以及方框图和/或流程图中的方框的组合可由执行指定功能或动作的基于专用硬件的系统、或者专用硬件和计算机指令的组合来实施。

虽然前述内容涉及本公开的实施方案，但在不脱离本公开的基本范围的情况下可设想本公开的其他和更多实施方案，并且本公开的范围由所附权利要求书确定。

Claims

1.一种包括指令的非暂时性计算机可读存储介质，所述指令在由一个或多个处理器执行时，将所述一个或多个处理器配置为通过执行以下步骤在多装置系统中执行语音辨识：

接收由第一麦克风响应于口头话语而生成的第一音频信号以及由第二麦克风响应于所述口头话语而生成的第二音频信号；

将所述第一音频信号划分成第一序列的时间片段；

将所述第二音频信号划分成第二序列的时间片段；

将与所述第一序列的第一时间片段相关联的声能水平和与所述第二序列的第一时间片段相关联的声能水平进行比较；

基于所述比较，选择所述第一序列的所述第一时间片段和所述第二序列的所述第一时间片段中的一个作为语音辨识音频信号的第一时间片段；和

将所述语音辨识音频信号传输到语音辨识应用程序，或

对所述语音辨识音频信号执行语音辨识。

2.根据权利要求1所述的非暂时性计算机可读存储介质，其还包括在由一个或多个处理器执行时将所述一个或多个处理器配置为执行以下步骤的指令：

将与所述第一序列的第二时间片段相关联的声能水平和与所述第二序列的第二时间片段相关联的声能水平进行比较；和

基于将与所述第一序列的所述第二时间片段相关联的所述声能水平和与所述第二序列的所述第二时间片段相关联的所述声能水平进行比较，选择所述第一序列的所述第二时间片段或所述第二序列的所述第二时间片段中的一个作为所述语音辨识音频信号的第二时间片段。

3.根据权利要求2所述的非暂时性计算机可读存储介质，其中将所述语音辨识音频信号传输到所述语音辨识应用程序包括：将所述语音辨识音频信号的所述第一时间片段和所述语音辨识音频信号的所述第二时间片段传输到所述语音辨识应用程序。

4.根据权利要求1所述的非暂时性计算机可读存储介质，其还包括在由一个或多个处理器执行时将所述一个或多个处理器配置为执行以下步骤的指令：

将与所述第一序列的最终时间片段相关联的声能水平和与所述第二序列的最终时间片段相关联的声能水平进行比较；和

基于将与所述第一序列的所述最终时间片段相关联的所述声能水平和与所述第二序列的所述最终时间片段相关联的所述声能水平进行比较，确定所述第一麦克风或所述第二麦克风是否为最靠近用户的与所述口头话语相关联的麦克风。

5.根据权利要求4所述的非暂时性计算机可读存储介质，其还包括在由一个或多个处理器执行时将所述一个或多个处理器配置为执行以下步骤的指令：

从所述语音辨识应用程序接收音频信号，和

致使所述音频信号从与所述最近的麦克风并置的装置播放。

6.根据权利要求5所述的非暂时性计算机可读存储介质，其中致使所述音频信号从与所述最靠近的麦克风并置的所述装置播放包括：将所述音频信号传输到与所述最靠近的麦克风并置的所述装置。

7.根据权利要求1所述的非暂时性计算机可读存储介质，其中与所述第一序列的所述第一时间片段相关联的所述声能水平包括所述第一序列的所述第一时间片段的平均声能水平和所述第一时间片段的峰值声能水平中的一个，并且与所述第二序列的所述第一时间片段相关联的所述声能水平包括所述第二序列的所述第一时间片段的平均声能水平和所述第二序列的所述第一时间片段的峰值声能水平中的一个。

8.根据权利要求1所述的非暂时性计算机可读存储介质，其中选择所述第一序列的所述第一时间片段或所述第二序列的所述第一时间片段中的一个作为所述语音辨识音频信号的所述第一时间片段包括：选择具有最高声能水平的时间片段。

9.根据权利要求1所述的非暂时性计算机可读存储介质，其还包括在由一个或多个处理器执行时将所述一个或多个处理器配置为执行以下步骤的指令：

检测所述语音辨识音频信号的第二时间片段与所述语音辨识音频信号的第三时间片段之间的响度不连续性；和

对所述语音辨识音频信号的所述第二时间片段和所述语音辨识音频信号的所述第三时间片段中的至少一个执行响度匹配过程。

10.根据权利要求9所述的非暂时性计算机可读存储介质，其中所述语音辨识音频信号的所述第二时间片段包括所述第一音频信号中所包括的时间片段，且所述语音辨识音频信号的所述第三时间片段包括所述第二音频信号中所包括的时间片段。

11.一种系统，其包括：

扬声器，其安置在混响环境中；

存储器，其存储语音辨识应用程序和信号合并应用程序；和

一个或多个处理器，其耦合到所述存储器并且当执行所述语音辨识应用程序或所述信号合并应用程序时被配置为：

将所述第一音频信号划分成第一序列的时间片段；

将所述第二音频信号划分成第二序列的时间片段；

基于将与所述第一序列的所述第一时间片段相关联的所述声能水平和与所述第二序列的所述第一时间片段相关联的所述声能水平进行比较，选择所述第一序列的所述第一时间片段和所述第二序列的所述第一时间片段中的一个作为语音辨识音频信号的第一时间片段；和

将所述语音辨识音频信号传输到语音辨识应用程序，或

对所述语音辨识音频信号执行语音辨识。

12.根据权利要求11所述的系统，其中与所述第一序列的所述第一时间片段相关联的所述声能水平包括所述第一序列的所述第一时间片段的平均声能水平和所述第一时间片段的峰值声能水平中的一个，并且与所述第二序列的所述第一时间片段相关联的所述声能水平包括所述第二序列的所述第一时间片段的平均声能水平和所述第二序列的所述第一时间片段的峰值声能水平中的一个。

13.根据权利要求11所述的系统，其中选择所述第一序列的所述第一时间片段或所述第二序列的所述第一时间片段中的一个作为所述语音辨识音频信号的所述第一时间片段包括：选择具有最高声能水平的时间片段。

14.根据权利要求11所述的系统，其还包括：

15.根据权利要求14所述的系统，其中所述语音辨识音频信号的所述第二时间片段包括所述第一音频信号中所包括的时间片段，并且所述语音辨识音频信号的所述第三时间片段包括所述第二音频信号中所包括的时间片段。

16.根据权利要求11所述的系统，其还包括：

从所述语音辨识应用程序接收语音命令，其中所述语音命令不包括指示要执行所述语音命令的智能装置的位置信息；

确定最靠近所述用户的智能装置的位置；和

将所述语音命令传送到最靠近所述用户的所述智能装置。

17.根据权利要求16所述的系统，其中确定所述智能装置的位置包括：咨询多个智能装置所位于的区域的拓扑表示。

18.一种用于在多装置系统中执行语音辨识的方法，所述方法包括：

将所述第一音频信号划分成第一序列的时间片段；

将所述第二音频信号划分成第二序列的时间片段；

将所述语音辨识音频信号传输到语音辨识应用程序，或

对所述语音辨识音频信号执行语音辨识。

19.根据权利要求18所述的方法，其中与所述第一序列的所述第一时间片段相关联的所述声能水平包括所述第一序列的所述第一时间片段的平均声能水平和所述第一时间片段的峰值声能水平中的一个，并且与所述第二序列的所述第一时间片段相关联的所述声能水平包括所述第二序列的所述第一时间片段的平均声能水平和所述第二序列的所述第一时间片段的峰值声能水平中的一个。

20.根据权利要求18所述的方法，其中选择所述第一序列的所述第一时间片段或所述第二序列的所述第一时间片段中的一个作为所述语音辨识音频信号的所述第一时间片段包括：选择具有最高声能水平的时间片段。