CN112634883A

CN112634883A - 控制用户界面

Info

Publication number: CN112634883A
Application number: CN202011017893.2A
Authority: CN
Inventors: 克里斯托夫·J·米切尔; 萨夏·克尔斯图洛维奇; 乔·帕特里克·莱纳斯; 朱利安·哈里斯
Original assignee: Audio Analytic Ltd
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-09-24
Filing date: 2020-09-24
Publication date: 2021-04-09
Also published as: US20210090558A1

Abstract

一种计算设备，用于控制计算设备的用户界面，该计算设备包括处理器，该处理器被配置成：检测在监控的环境中的至少一个目标声音；确定计算设备的与至少一个目标声音相关联的操作模式；经由计算设备的用户界面来输出与操作模式相关联的内容，其中，响应于对至少一个目标声音的识别，该内容提示计算设备的用户使用计算设备的输入设备来执行动作，以指示计算设备控制监控的环境中的其自身的显示器。

Description

控制用户界面

技术领域

本发明总体上涉及控制计算设备的用户界面，并且涉及相关的系统、方法和计算机程序代码。

背景技术

关于声音识别系统和方法的背景信息可以在申请人的PCT申请WO2010/070314中找到，所述PCT申请的全部内容以引用方式并入本文中。

本申请人已经认识到声音识别系统的新应用的潜力。

发明内容

发明人已经认识到，对于用户而言，配置智能设备体验是复杂且耗时的过程，其通常涉及用户预先创建例程以便从他们的智能设备体验中获得最大收益(例如，如果X被传感器Y检测到，则进行Z)。

本公开的各实施例提供了用户界面的动态智能适配，以在当前提供上下文适当的支持。

根据本公开的一方面，提供了一种计算设备，用于控制计算设备的显示器，该计算设备包括耦接到麦克风的处理器，其中该处理器被配置成：在计算设备的显示器上输出至少一个显示元素；当至少一个显示元素正显示在显示器上时，识别监控的环境中的至少一个目标声音；确定计算设备的与至少一个目标声音相关联的操作模式；以及基于操作模式来修改至少一个显示元素在显示器上的输出。

至少一个显示元素可以包括文本，并且处理器被配置成通过修改文本的字体大小来修改文本的输出。

至少一个显示元素可以包括用户可选择元素，并且处理器被配置成通过修改用户可选择元素的大小来修改用户可选择元素的输出。

至少一个显示元素可以包括多个显示元素，并且处理器可以被配置成通过显示数量减少的多个显示元素来修改多个用户可选择元素的输出。

至少一个目标声音可以是非语言声音。

处理器可以耦接到麦克风，并且处理器可以被配置成：经由麦克风接收在监控的环境中的音频的音频信号；以及处理音频信号以识别至少一个目标声音。

计算设备可以包括通信接口，并且处理器可以被配置成：经由所述通信接口从在监控的环境中的远程计算设备接收消息；以及基于所述消息的接收来识别至少一个目标声音。

根据本公开的另一方面，提供了一种控制计算设备的显示器的方法，该方法包括：在计算设备的显示器上输出至少一个显示元素；当至少一个显示元素正显示在显示器上时，识别监控的环境中的至少一个目标声音；确定计算设备的与至少一个目标声音相关联的操作模式；以及基于操作模式来修改至少一个显示元素在显示器上的输出。

根据本公开的另一方面，提供了一种计算机可读存储介质，包括指令，当指令由计算设备的处理器执行时使计算设备：在计算设备的显示器上输出至少一个显示元素；当至少一个显示元素正显示在显示器上时，识别监控的环境中的至少一个目标声音；确定计算设备的与至少一个目标声音相关联的操作模式；以及基于操作模式来修改至少一个显示元素在显示器上的输出。

根据本公开的另一方面，提供了一种计算设备，用于控制该计算设备的用户界面，该计算设备包括处理器，该处理器被配置成：识别监控的环境中的至少一个目标声音；确定计算设备的与至少一个目标声音相关联的操作模式；经由计算设备的用户界面来输出与操作模式相关联的内容，其中，响应于对至少一个目标声音的识别，该内容提示计算设备的用户使用计算设备的输入设备执行动作，以发起对远程计算设备的呼叫。

响应于对至少一个目标声音的识别，由计算设备输出的内容可以提示计算设备的用户使用计算设备的输入设备来执行动作，以发起对紧急服务电话号码的呼叫。

响应于对至少一个目标声音的识别，由计算设备输出的内容可以提示计算设备的用户使用计算设备的输入设备来执行动作，以发起对存储在计算设备的联系人列表中的联系人的电话号码的呼叫。

根据本公开的另一方面，提供一种计算设备，包括处理器，该处理器被配置成：识别监控的环境中的至少一个目标声音；确定计算设备的与至少一个目标声音相关联的操作模式；以及启动安装在计算设备上的应用，其中该应用与操作模式相关联。

根据本公开的另一方面，提供了一种计算设备，用于控制计算设备的用户界面，该计算设备包括处理器，该处理器被配置成：识别监控的环境中的至少一个目标声音；确定计算设备的与至少一个目标声音相关联的操作模式；经由计算设备的用户界面来输出与操作模式相关联的内容，其中，响应于对至少一个目标声音的识别，该内容提示计算设备的用户使用计算设备的输入设备来执行动作，以指示计算设备控制在监控的环境中的可控设备。

因此，在本公开的各实施例中，声音识别被用于向用户界面通知上下文适当的个性化(例如，所显示的UI元素的外观和感觉、声音或合成语音回放、所呈现的信息等)，从而通过简化可控设备的配置和操作来改善用户体验。

用户界面可以是耦接到所述处理器的扬声器，并且输入设备是计算设备的麦克风，内容是音频消息。

处理器可以被配置成：经由麦克风从用户接收指令以控制可控设备；以及响应于接收到所述指令而控制可控设备。

用户界面可以是耦接到所述处理器的显示器，并且内容包括至少一个用户可选择元素。

处理器可以被配置成：检测对至少一个用户可选择元素的选择；以及响应于所述选择而控制可控设备。

至少一个目标声音可以是非语言声音。

至少一个目标声音包括碎玻璃声音、烟雾警报声和婴儿哭声中的一种。

内容可以提示计算设备的用户使用计算设备的输入设备来执行动作，以指示计算设备控制在监控的环境中的远程警报设备以输出声音警报。

内容可以提示计算设备的用户使用计算设备的输入设备来执行动作，以指示计算设备控制在监控的环境中的照明单元。

内容可以提示计算设备的用户使用计算设备的输入设备来执行动作，以指示计算设备控制在监控的环境中的门的门锁。

内容可以提示计算设备的用户使用计算设备的输入设备来执行动作，以指示计算设备控制在监控的环境中的扬声器以播放音频。

计算设备可以包括通信接口，并且处理器可以被配置成：经由所述通信接口从监控的环境中的远程计算设备接收消息；以及基于所述消息的接收来识别至少一个目标声音。

响应于对至少一个目标声音的识别，内容可以附加地提示计算设备的用户使用计算设备的输入设备来执行动作，以发起对远程计算设备的呼叫。

根据本公开的另一方面，提供了一种控制计算设备的用户界面的方法，该方法包括：识别监控的环境中的至少一个目标声音；确定计算设备的与至少一个目标声音相关联的操作模式；经由计算设备的用户界面来输出与操作模式相关联的内容，其中，响应于对至少一个目标声音的识别，该内容提示计算设备的用户使用计算设备的输入设备来执行动作，以指示计算设备控制在监控的环境中的可控设备。

根据本发明的另一方面，提供了一种计算机可读存储介质，包括指令，当指令由计算设备的处理器执行时使计算设备：识别监控的环境中的至少一个目标声音；确定计算设备的与至少一个目标声音相关联的操作模式；经由计算设备的用户界面来输出与操作模式相关联的内容，其中，响应于对至少一个目标声音的识别，该内容提示计算设备的用户使用计算设备的输入设备来执行动作，以指示计算设备控制在监控的环境中的可控设备。

发明人还认识到，在某些情况下，用户难以与在其设备的显示器上显示的显示元素进行交互(例如，当用户正在步行或驾驶车辆时)。这导致用户在显示在计算设备的显示器上的用户界面中做出错误或无意的选择，并且计算设备上的处理器必须招致不必要的处理器资源来处理这些输入。

应当理解，所描述的设备的功能可以划分为几个模块。备选地，可以在单个模块或处理器中提供功能。该处理器或每个处理器可以在任何已知的合适硬件(诸如微处理器、数字信号处理(DSP)芯片、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等)中实现。该处理器或每个处理器可以包括一个或多个处理核心，每个核心被配置成独立执行。该处理器或每个处理器可以具有到总线的连接性，以执行指令并处理例如存储在存储器中的信息。

本发明还提供处理器控制代码以例如在通用计算机系统上或在数字信号处理器(DSP)上实现上述系统和方法。本发明还提供了一种载有处理器控制代码的载体，处理器控制代码在运行时实现上述任何一种方法，特别是在诸如磁盘、微处理器、CD-ROM或DVD-ROM之类的非暂时性数据载体，诸如只读存储器(固件)之类的编程存储器或诸如光或电信号载体之类的数据载体上。可以在诸如磁盘、微处理器、CD-ROM或DVD-ROM的载体、诸如非易失性存储器(例如，闪存)或只读存储器(固件)之类的编程存储器上提供代码。实现本发明的实施例的代码(和/或数据)可以包括以诸如C的常规编程语言(解释或编译)的源代码、目标代码或可执行代码，或汇编代码，用于设置或控制ASIC(专用集成电路)或FPGA(现场可编程门阵列)的代码，或诸如Verilog^TM或VHDL(超高速集成电路硬件描述语言)之类的硬件描述语言的代码。如本领域技术人员将理解，这样的代码和/或数据可以分布在彼此通信的多个耦接组件之间。本发明可以包括控制器，该控制器包括耦接到系统的一个或多个组件的微处理器、工作存储器和程序存储器。

这些和其它方面将从下面描述的实施例中显而易见。本发明的范围既不限于该概述，也不限于必须解决所指出的任何或所有缺点的实施方式。

附图说明

为了更好地理解本发明并示出实施例如何实现，参考附图，其中：

图1示出了监控的环境中的示例设备的框图；

图2示出了计算设备的框图；

图3是示出根据第一实施例的控制计算设备的用户界面的过程的流程图；

图4a示出了计算设备以音频消息的形式向计算设备的用户输出内容；

图4b示出了计算设备在计算设备的显示器上输出内容；

图5是示出根据第二实施例的控制计算设备的用户界面的过程的流程图；以及

图6a和图6b示出了计算设备如何修改在计算设备的显示器上显示的显示元素的示例。

具体实施方式

现在仅以示例的方式描述实施例。

图1示出了在监控的环境100中的计算设备102，该监控的环境可以是室内空间(例如，房屋、健身房、商店、火车站等)、室外空间或交通工具中。计算设备102与用户103相关联。

在本发明的一些实施例中，计算设备102经由网络106耦接到一个或多个可控设备108。一个或多个可控设备108可以包括例如监控的环境100中的扬声器108a、监控的环境中的门的智能门锁108b、监控的环境中可操作为输出声音警报的远程警报设备108c、以及监控的环境中的照明单元108d。将理解，以上仅是可控设备的示例，并且实施例扩展到提示计算设备102的用户103使用计算设备的输入设备来执行动作，以指示计算设备控制除上述可控设备之外的替代类型的可控设备。术语“可控设备”在本文中用于指代能够从计算设备102接收命令并且可由其控制的任何设备。在一些实施例中，可控设备不执行任何声音识别和/或语音识别。

网络106可以是无线网络、有线网络，或者可以包括设备之间的有线连接和无线连接的组合。

如以下更详细描述，计算设备102可以执行音频处理以识别(即检测)监控的环境100中的目标声音。在备选实施例中，计算设备102外部的声音识别设备104可以执行音频处理以识别监控的环境100中的目标声音，然后向计算设备102警告已检测到目标声音。

图2示出了计算设备102的框图。从下面将认识到，图2仅是说明性的，并且本发明的实施例的计算设备102可以不包括图2中所示的所有组件。

计算设备102可以是PC、诸如膝上型计算机、智能电话、平板PC等的移动计算设备、消费电子设备(例如，智能扬声器、TV、耳机、可穿戴设备等)或其它电子设备(例如，车载设备)。计算设备102可以是移动设备，使得用户103可以使计算设备102在监控的环境周围移动。备选地，计算设备102可以固定在监控的环境中的某个位置(例如，安装到房屋墙壁上的板)。备选地，用户可以通过附接到身体部位或置于身体部位上或者通过附接到一件衣服来穿戴该设备。

计算设备102包括耦接到存储器204的处理器202，该存储器存储声音识别软件206的计算机程序代码，该声音识别软件用于通过将检测到的声音与存储在存储器204中的一个或多个声音模型208进行比较来识别目标声音。声音模型可以与一个或多个目标声音(例如可以是碎玻璃声、烟雾警报声、婴儿哭声、指示计算设备在车辆中的声音、指示计算设备在室外等)相关联。

计算设备102可以包括一个或多个输入设备，例如物理按钮(包括单个按钮、小键盘或键盘)或物理控件(包括旋钮或拨盘、滚轮或触摸条)210和/或麦克风212。计算设备102可以包括一个或多个输出设备，例如扬声器214和/或显示器216。应该理解，显示器216可以是触敏显示器，因此可以用作输入设备。

计算设备102还可以包括用于与一个或多个可控设备108和/或声音识别设备进行通信的通信接口218(I/F)。通信接口218可以包括有线接口和/或无线接口。

如图2中所示，计算设备102可以在本地(在存储器204中)存储声音模型，因此不需要为了识别捕获的声音而与任何远程系统保持恒定通信。备选地，声音模型208的存储是在与计算设备102耦接的远程服务器(图2中未示出)上，并且远程服务器上的声音识别软件206用于执行从计算设备102接收到的音频的处理，以识别由计算设备102捕获的声音与目标声音相对应。这有利地减少了在计算设备102上执行的处理。

下面提供关于声音模型208的进一步信息。

基于对与目标声音类别相对应的捕获声音的处理，来生成与目标声音相关联的声音模型。优选地，多次捕获相同声音的多个实例，以便提高关于捕获的声音类别的所生成的声音模型的可靠性。

为了生成声音模型，对捕获的声音类别进行处理，并针对特定的捕获的声音类别来生成参数。生成的声音模型包括这些生成的参数和可用于表征所捕获的声音类别的其它数据。

有多种方法可以生成与目标声音类别相关联的声音模型。可以使用机器学习技术或预测建模技术(例如：隐马尔可夫模型、神经网络、支持向量机(SVM)、决策树学习等)来生成捕获的声音的声音模型。

申请人的PCT申请WO2010/070314(以引用方式整体并入)详细描述了识别声音的各种方法。广义上讲，输入样本声音通过分解为频带进行处理，并且例如使用PCA/ICA进行可选地去相关，然后将该数据与一个或多个马尔可夫模型进行比较以针对要识别的输入声音生成对数似然比(LLR)数据。然后可以使用(硬)置信度阈值来确定是否已识别到声音；如果检测到对两个或多个存储的马尔可夫模型的“拟合”，则系统优选地选择最可能的模型。通过将要识别的声音与由Markov模型预测的预期频域数据有效地进行比较，可以将声音“拟合”到模型中。通过基于干扰(包括背景)噪声校正/更新模型中的均值和方差，可以减少误报。

应当理解，可以采用除本文描述的技术以外的其它技术来创建声音模型。

声音识别系统可以使用压缩音频或未压缩音频进行工作。例如，用于44.1KHz信号的时频矩阵可能是具有512重叠的1024点FFT。这大约是20毫秒的窗口，重叠时间为10毫秒。然后将所得的512个频率间隔(bin)分组为子带，或范围在62.5Hz到8000Hz的示例四分之一八度音阶(quarter-octave)，给出了30个子带。

查找表可用于从压缩或未压缩的频带映射到新的子带表示频带。对于给定的采样率和STFT大小示例，针对支持的每个采样率/间隔编号对，阵列可以由(间隔大小÷2)×6阵列组成。这些行与间隔编号(中心)–STFT大小或频率系数的数量相对应。前两列确定较低和较高的四分之一八度音阶间隔索引编号。接下来的四列确定应放置在从第一列中定义的下四分之一八度音阶开始到第二列中定义的上四分之一八度音阶间隔的对应的四分之一八度音阶间隔中的间隔幅度的比例，例如如果间隔重叠了两个四分之一八度音阶音程(range)，则3列和4列的比例值总和将为1，而5列和6列的比例值将为零。如果间隔重叠一个以上的子带，则更多的列将具有成比例的幅度值。该示例对人类听觉系统中的关键频段建模。然后，通过概述的归一化方法来处理这种减少的时间/频率表示。对所有帧以10ms的跳跃大小递增地移动帧位置来重复该过程。重叠的窗口(跳跃大小不等于窗口大小)提高了系统的时间分辨率。这被视为信号频率的适当表示，可以用于总结声音的感知特性。然后，归一化阶段取子带分解中的每个帧并除以每个子带中平均功率的平方根。平均值被计算为所有频带中的总功率除以频带数。将该归一化时间频率矩阵传递到系统的下一部分，其中可以生成声音识别模型及其参数，以完全表征声音的频率分布和时间趋势。

声音表征的下一个阶段需要进一步定义。

机器学习模型用于定义和获取对声音进行识别所需的可训练参数。这种模型由以下定义：

-可训练的参数θ的集合，例如但不限于，隐马尔可夫模型(HMM)的均值、方差和跃迁，支持向量机(SVM)的支持向量，深度神经网络(DNN)的权重、偏差和激活函数，

-具有音频观测o和相关的声音标签l的数据集，例如，音频录音的集合，该音频录音捕获用于识别的感兴趣的目标声音的集合，例如，婴儿啼哭、狗吠或烟雾警报，以及不是要识别的目标声音并且可能被不利地识别为目标声音的其它背景声音。该音频观测数据集与标签l的集合相关联，该标签l指示感兴趣的目标声音的位置，例如，在音频观测o中发生婴儿啼哭声的时间和持续时间。

生成模型参数是定义并最小化在音频观测集合中的损失函数L(θ|o,l)的问题，其中通过训练方法来执行最小化，训练方法为例如但不限于，HMM的Baum-Welsh算法、SVM的软裕度(soft margin)最小化或DNN的随机梯度下降。

为了对新声音进行分类，推理算法使用模型来确定根据模型及其参数θ新的传入音频观测o附属于一个或多个声音类别C的概率或分数P(C|o,θ)。然后，通过例如但不限于阈值或动态编程的决策方法将概率或分数转换为离散的声音类别符号。

这些模型将在许多不同的声学条件下运行，并且由于实际上限制呈现代表系统将要接触的所有声学条件的示例，因此将执行模型的内部调整以使系统能够在所有这些不同的声学条件下操作。许多不同的方法可以用于该更新。例如，该方法可以包括取子带的平均值，例如，最后T秒数的四分之一八度音阶频率值。将这些平均值添加到模型值，以更新该声学环境中声音的内部模型。

在计算设备102执行音频处理以识别监控的环境100中的目标声音的实施例中，该音频处理包括计算设备102的麦克风212捕获声音，以及声音识别206分析该捕获的声音。具体地，声音识别206将捕获的声音与存储在存储器204中的一个或多个声音模型208进行比较。如果捕获的声音与存储的声音模型匹配，则该声音被识别为目标声音。

I.内容输出

图3是示出根据第一实施例的控制计算设备的用户界面的过程300的流程图。过程300的步骤由处理器202执行。

在步骤S302处，处理器202识别监控的环境100中的目标声音。

计算设备102的麦克风212被布置为捕获在监控的环境100中的声音。步骤S302可以由处理器执行，以将捕获的声压波转换成数字音频样本并执行声音识别软件206以分析数字音频样本(在执行该分析之前，处理器可以压缩数字音频样本)。具体地，声音识别软件206将捕获的声音与存储在存储器204中的一个或多个声音模型208进行比较。如果捕获的声音与存储的声音模型匹配，则捕获的声音被识别为目标声音。备选地，处理器202可以经由通信接口218将捕获的声音传输给远程服务器，以进行处理以识别由计算设备102捕获的声音是否与目标声音相对应。也就是说，处理器202可以基于从远程服务器接收到由计算设备102捕获的声音与目标声音相对应的消息，来识别监控的环境100中的目标声音。

备选地，声音识别设备104的麦克风可以被布置为捕获在监控的环境100中的声音并且处理所捕获的声音以识别由声音识别设备104捕获的声音是否与目标声音相对应。在该示例中，声音识别设备104被配置成经由网络106向计算设备102传输消息，以向计算设备102警告已经检测到目标声音。也就是说，处理器202可以基于从声音识别设备104接收到消息来识别监控的环境100中的目标声音。

无论在何处对捕获的声音执行处理，目标声音的识别都包括识别非语言声音(即非语音声音事件)。非语言声音可以是可以在声音捕获设备(计算设备102或声音识别设备104)的环境中生成的任何非语音声音，例如碎玻璃声、烟雾警报声、婴儿哭声等。非语言声音可以是人类(例如笑声或咳嗽之类的副语言语音)或动物发出的声音。非语言声音可以是诸如拟声之类的有声声音(例如模仿动物声音)。这与通常对检测到讲命令字词的人做出响应的已知语音辅助设备相对比。

在步骤S304处，处理器202确定与目标声音相关联的计算设备102的操作模式。

在步骤S306处，处理器202经由计算设备的用户界面输出与操作模式相关联的内容。响应于目标声音的识别，由处理器202输出的内容提示计算设备102的用户103使用计算设备102的输入设备来执行动作。

可控设备模式

操作模式可以与控制在监控的环境100中的可控设备108相关联。也就是说，由处理器202输出的内容提示用户使用计算设备102的输入设备来执行动作，以指示计算设备控制在监控的环境100中的可控设备108。

在步骤S306处，计算设备102可以输出内容，该内容提示计算设备的用户使用计算设备的输入设备来执行动作，以指示计算设备控制在监控的环境中的远程警报设备108c以输出声音警报。例如，在计算设备102识别到碎玻璃声音(示例目标声音)或烟雾警报声(示例目标声音)的情况下。当识别到除烟雾警报声以外的目标声音时，可以输出该示例内容。

在步骤S306处，计算设备102可以输出内容，该内容提示计算设备的用户使用计算设备的输入设备来执行动作，以指示计算设备控制扬声器108a播放音频(例如，尝试让婴儿平静下来的摇篮曲)。例如，在计算设备102识别到婴儿哭声(示例目标声音)的情况下。当识别到除婴儿哭声以外的目标声音时，可以输出该示例内容。响应于对婴儿哭声的识别，如果计算设备102耦接到婴儿房间中的婴儿监控器，则计算设备102还可以输出供用户查看或收听来自婴儿房间的音频的选项。

在步骤S306处，计算设备102可以输出内容，该内容提示计算设备的用户使用计算设备的输入设备来执行动作，以指示计算设备控制照明单元108d。例如，如果计算设备102识别到婴儿哭声(示例目标声音)，则可以提示用户103打开位于父母房间与婴儿房间之间的照明单元以帮助父母步行到婴儿的房间，或控制由位于婴儿房间中的照明单元发出的光的颜色、亮度、顺序。在另一个示例中，如果计算设备102识别到烟雾警报声(示例目标声音)，则可以提示用户103打开家中所有连接的灯。当识别到除婴儿哭声或烟雾警报声以外的目标声音时，可以输出该示例内容。

在步骤S306处，计算设备102可以输出内容，该内容提示计算设备的用户使用计算设备的输入设备来执行动作，以指示计算设备控制智能门锁108b打开。例如，如果计算设备102识别到烟雾警报声(示例目标声音)，则可以提示用户103解锁智能门锁108b，以确保家庭中的人员安全。当识别到除烟雾警报声以外的目标声音时，可以输出该示例内容。

将理解，在步骤S306处，处理器202可以响应于对目标声音的识别而经由计算设备的用户界面输出内容，该内容提示计算设备102的用户103使用计算设备102的输入设备来执行动作，以指示计算设备控制本文未提及的其它可控设备108。

将理解，上面提到的目标声音(碎玻璃声、烟雾警报声、婴儿哭声等)仅是示例。其它示例包括狗吠、异常检测、鼾声、汽车警报、咳嗽、大笑、汽车喇叭、紧急车辆警报、门铃、自行车铃、倒车警报、打哈欠、喊叫、敲门、入侵者警报和打喷嚏。实施例扩展到本文所指的其它目标声音。

在步骤S306处，例如在其中计算设备102是语音辅助设备(智能扬声器)的实施例中，计算设备102可以经由扬声器214以音频消息的形式向用户103输出内容。图4a示出了计算设备102向用户103输出音频消息402，由此音频消息402提示计算设备102的用户103使用计算设备102的输入设备来执行动作，以指示计算设备102控制可控设备108，例如“检测到烟雾，我应该发出警报吗？”。

计算设备102被布置为处理用户103的响应。例如，在计算设备102是语音辅助设备的情况下，处理器202被配置成经由麦克风212接收语音，使用语音识别模块(图2中未示出)执行语音识别，并响应于处理所接收的语音来控制适当的可控设备。

备选地，计算设备102可以经由显示器216以至少一个用户可选择元素的形式输出内容，每个用户可选择元素与控制可控设备相关联。图4b示出了已经输出第一用户可选择元素406a以及第二用户可选择元素406b的计算设备102，该第一用户可选择元素406a提示计算设备102的用户103使用计算设备102的输入设备来执行动作，以指示计算设备102控制可控设备108(在该示例中为照明单元108d)，该第二用户可选择元素406b提示计算设备102的用户103使用计算设备102的输入设备来执行动作，以指示计算设备102控制另一可控设备108(在该示例中为门锁108b)。内容还可以包括文本404，其指示已经识别到什么目标声音。

虽然图4b将用户可选择元素图示为按钮，但这仅是示例，并且用户可选择元素可以采用替代形式(例如，滑块)。

计算设备102被布置为处理用户103的响应。也就是说，处理器202被配置成检测用户103对所显示的用户可选择元素的选择并控制与所选择的用户可选择元素相关联的可控设备108。

呼叫模式

备选地或附加地，操作模式可以与呼叫模式相关联。

在该实施方式中，在步骤S306处，处理器202被配置成经由计算设备的用户界面输出内容，其中，内容提示计算设备的用户使用计算设备的输入设备来执行动作以发起对远程计算设备的呼叫(call)。

例如，如果计算设备102识别到烟雾警报声(示例目标声音)或碎玻璃声(示例目标声音)，则处理器202可以响应于对目标声音的识别而提示用户103发起对紧急服务电话号码的呼叫。当识别到除烟雾警报声或碎玻璃声以外的目标声音(例如枪声或其它示例)时，可以输出该示例内容。

在另一示例中，处理器202可以经由计算设备的用户界面输出内容，其中，响应于对目标声音的识别，该内容提示计算设备的用户使用计算设备的输入设备来执行动作，以发起对存储在计算设备上的联系人列表中的联系人的电话号码的呼叫。

目标声音可以是例如与老年人的相关孤独感相关联的声音(成人哭泣、抽泣、抽鼻子、叹气、嘘声、特定活动模式、没有运动)，并且响应于识别到目标声音，处理器202可以输出内容提示用户向亲戚或看护人发起呼叫。

目标声音可以是例如可能在孩子独自时感到恐惧的声音(呼喊、轮胎爆破声、枪声、紧急车辆警报、警笛、汽车喇叭、直升机)，并且响应于识别到目标声音，处理器202可以输出内容提示用户向父母或看护人发起呼叫。

目标声音可以是例如指示与家庭成员重新连接的合适时机的声音(例如，唱歌声、儿童笑声、音乐声)，并且响应于识别到目标声音，处理器202可以输出提示用户向家庭成员发起呼叫的内容。

应用模式

在另一实施方式中，操作模式可以与启动应用相关联。也就是说，在步骤S306处，处理器202被配置成启动安装在计算设备上的应用，其中该应用与操作模式相关联，从而输出与该应用相关联的内容。

目标声音可以是例如指示“一天的开始”的声音(例如，闹钟、脚步声、陶器、餐具、橱柜开/关、吹风机、电动剃须刀、水壶沸腾)，并且响应于识别到目标声音，处理器202可以启动日历应用或安装在设备上的一些商务辅助应用，从而输出与应用相关联的内容。

目标声音可以是例如指示“适合或需要我的时间的时刻”的声音(例如，键盘键入、汽车警报、儿童哭泣、吹风机、吸尘器、脚步声、安静)，并且响应于识别到目标声音，处理器202可以启动音乐回放应用或放松应用，从而输出与该应用相关联的内容。

目标声音可以是例如指示“适合于放松浴室体验的时刻”的声音(例如，门打开/关闭、叹气、吹风机、浴缸放水/洗涤、安静、音乐)，并且响应于识别到目标声音，处理器202可以启动音乐回放，从而输出与应用相关联的内容。

II.内容的修改

图5是示出了根据第二实施例的控制计算设备的用户界面的过程500的流程图。过程500的步骤由处理器202执行。

与过程300相对比，过程300涉及计算设备102响应于识别到目标声音而向用户输出“新”内容(即，在识别目标声音之前未输出内容)，过程500涉及计算机设备响应于对目标声音的识别而修改由计算设备102输出的内容的输出。

在步骤S502处，处理器202在计算机设备102的显示器216上输出至少一个显示元素。

显示元素可以例如是由运行在处理器202上的网络浏览器显示的网页的元素、运行在处理器202上的应用的用户界面的元素、或由运行在处理器202上的操作系统显示的主页的元素。

仅作为帮助解释构思的说明，图6a示出了在已识别到目标声音之前计算设备102显示音乐回放应用的用户界面。

音乐回放应用的用户界面包括多个显示元素，该多个显示元素包括文本602(例如，与正在向用户103输出的歌曲的艺术家和歌名有关)和多个用户可选择元素606-614。在图6a的示例中，多个用户可选择元素包括允许用户跳过歌曲的向前/向后回放的滑块致动器按钮604、喜欢按钮606、前一曲目选择按钮608、暂停按钮610、下一曲目选择按钮612和不喜欢按钮614。

在步骤S504处，当至少一个显示元素正显示在计算机设备102的显示器216上时，处理器202识别监控的环境100中的目标声音。

计算设备102的麦克风212被布置为捕获在监控的环境100中的声音。步骤S504可以由处理器执行，以将捕获的声压波转换成数字音频样本并执行声音识别软件206以分析数字音频样本(在执行该分析之前，处理器可以压缩数字音频样本)。具体地，声音识别软件206将捕获的声音与存储在存储器204中的一个或多个声音模型208进行比较。如果捕获的声音与存储的声音模型匹配，则捕获的声音被识别为目标声音。备选地，处理器202可以经由通信接口218将捕获的声音传输给远程服务器，以进行处理以识别由计算设备102捕获的声音是否对应于目标声音。也就是说，处理器202可以基于从远程服务器接收到由计算设备102捕获的声音与目标声音相对应的消息，来识别监控的环境100中的目标声音。

备选地，声音识别设备104的麦克风可以被布置为捕获在监控的环境100中的声音并且处理所捕获的声音以识别由声音识别设备104捕获的声音是否对应于目标声音。在该示例中，声音识别设备104被配置为经由网络106向计算设备102传输消息，以向计算设备102警告已经识别到目标声音。也就是说，处理器202可以基于从声音识别设备104接收到消息来识别监控的环境100中的目标声音。

无论在何处对捕获的声音执行处理，目标声音的识别都包括识别非语言声音(即非语音声音事件)。非语言声音可以是可以在声音捕获设备(计算设备102或声音识别设备104)的环境中生成的任何声音，例如碎玻璃声、烟雾警报声、婴儿哭声等。非语言声音可以是人类(例如笑声或咳嗽之类的副语言语音)或动物发出的声音。非语言声音可以是诸如拟声之类的有声声音(例如模仿动物声音)。

在步骤S506处，处理器202确定与目标声音相关联的计算设备102的操作模式。

在步骤S508处，处理器202基于操作模式来修改至少一个显示元素的输出。

将理解，在步骤S508处执行的修改取决于计算设备的操作模式。图6b示出了在已识别到目标声音之后计算设备102显示音乐回放应用的用户界面。

在一个示例中，如图6b中所示，在步骤S508处执行的修改包括通过修改文本602的字体大小(例如，增大文本602的字体大小)来修改文本的输出。

在另一示例中，在步骤S508处执行的修改包括通过修改用户可选择元素的大小(例如，增大用户可选择元素的大小)来修改用户可选择元素的输出。这在图6b中示出，其中已经增大了滑块致动器按钮604、前一曲目选择按钮608、暂停按钮610和下一曲目选择按钮612的大小。

在其中在识别到目标声音之前处理器202显示多个显示元素的另一示例中，在步骤S508处执行的修改包括通过显示数量减少的多个显示元素来修改多个显示元素的输出。这在图6b中示出，其中在已经识别到目标声音之后，处理器202不显示喜欢按钮606和不喜欢按钮614。

在另一示例中，在步骤S508处执行的修改包括用新的显示元素(在识别到目标声音之前未显示)替换显示元素(在识别到目标声音之前显示)。

目标声音可以是例如指示用户与他们的计算设备102一起在车辆中的声音(例如，安全带卡扣声、安全带拉动、车门关闭、按键、发动机起动、指示器吧嗒声等)。通过自动检测用户103在车辆中，将简化的控件提供给用户103，以使他们能够更容易地与由他们的计算设备显示的用户界面进行交互(例如，更容易地控制音乐应用或导航应用)。这避免了当用户103由于在驾驶时操作设备而在显示在计算设备102的显示器上的用户界面中做出不正确或无意的选择时，处理器202必须处理多个按钮按下。由于避免了不正确的选择，过程500最小化了用户与显示在计算设备102的显示器上的用户界面交互所花费的时间，从而还为用户提供了安全益处。在另一示例中，目标声音可以是例如指示用户正在户外行走的声音(例如，鸟鸣、树沙沙作响、汽车喇叭、飞机飞越、割草机等)。通过自动检测到用户103正在室外散步，将简化的控件提供给用户103，以使他们能够更容易地与由他们的计算设备正在显示的用户界面进行交互(例如，读取显示在网页上的文本)。这避免了当用户103由于在室外行走而在显示在计算设备102的显示器上的用户界面中做出不正确或无意的选择时，处理器202必须处理多个按钮按下。

因此，可以看出，本文所述的实施例使用声音识别以通过适应用户的环境来改善用户对计算设备的体验。

Claims

1.一种计算设备，用于控制所述计算设备的显示器，所述计算设备包括耦接到麦克风的处理器，其中所述处理器被配置成：

在所述计算设备的显示器上输出至少一个显示元素；

当所述至少一个显示元素正显示在所述显示器上时，识别监控的环境中的至少一个目标声音；

确定所述计算设备的与所述至少一个目标声音相关联的操作模式；以及

基于所述操作模式来修改所述至少一个显示元素在所述显示器上的输出。

2.根据权利要求1所述的计算设备，其中所述至少一个显示元素包括文本，并且所述处理器被配置成通过修改所述文本的字体大小来修改所述文本的输出。

3.根据权利要求1所述的计算设备，其中所述至少一个显示元素包括用户可选择元素，并且所述处理器被配置成通过修改所述用户可选择元素的大小来修改所述用户可选择元素的输出。

4.根据权利要求1所述的计算设备，其中所述至少一个显示元素包括多个显示元素，并且所述处理器被配置成通过显示数量减少的所述多个显示元素来修改所述多个用户可选择元素的输出。

5.根据权利要求1所述的计算设备，其中所述至少一个目标声音是非语言声音。

6.一种控制计算设备的显示器的计算机实现的方法，所述计算设备包括耦接到麦克风的处理器，所述方法包括：

在所述计算设备的显示器上输出至少一个显示元素；

7.根据权利要求6所述的方法，其中所述至少一个显示元素包括文本，所述方法包括通过修改所述文本的字体大小来修改所述文本的输出。

8.根据权利要求6所述的方法，其中所述至少一个显示元素包括用户可选择元素，并且所述方法包括通过修改所述用户可选择元素的大小来修改所述用户可选择元素的输出。

9.根据权利要求6所述的方法，其中所述至少一个显示元素包括多个显示元素，并且所述方法包括通过显示数量减少的所述多个显示元素来修改所述多个用户可选择元素的输出。

10.根据权利要求6所述的方法，其中所述至少一个目标声音是非语言声音。

11.一种非暂时性计算机可读存储介质，包括计算机可执行指令，所述计算机可执行指令可操作为配置计算机设备以执行控制计算设备的显示器的方法，所述计算设备包括耦接到麦克风的处理器，所述方法包括：

在所述计算设备的显示器上输出至少一个显示元素；

12.一种计算设备，用于控制所述计算设备的用户界面，所述计算设备包括处理器，所述处理器被配置成：

识别监控的环境中的至少一个目标声音；

使所述计算设备响应于对所述至少一个目标声音的识别而控制所述监控的环境中的可控设备。

13.一种计算设备，用于控制所述计算设备的输出界面，所述计算设备包括耦接到麦克风的处理器，其中所述处理器被配置成：

识别监控的环境中的至少一个目标声音；

基于所述操作模式来修改所述输出界面处的输出。