CN103620680A

CN103620680A - 保护移动装置中的音频数据收集隐私

Info

Publication number: CN103620680A
Application number: CN201280030290.3A
Authority: CN
Inventors: 里昂纳德·H·葛罗科普; 维迪亚·纳拉亚南; 詹姆斯·W·多尔特尔; 桑吉夫·南达
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-05-23
Filing date: 2012-05-14
Publication date: 2014-03-05
Anticipated expiration: 2032-05-14
Also published as: WO2012162009A1; US20120303360A1; US20140172424A1; KR101580510B1; JP5937202B2; US8700406B2; KR20140021681A; JP2014517939A; EP2715722A1; EP2715722B1; CN103620680B

Abstract

本发明揭示用于在背景感知应用程序使用音频数据作出背景确定之前使用移动装置的硬件和／或软件来遮掩所述音频数据中的语音的技术。明确地说，捕获连续音频流的子集，使得从所搜集的音频无法可靠地重构语音(词语、短语和句子)。针对音频特性分析所述子集，且可作出关于周围环境的确定。

Description

保护移动装置中的音频数据收集隐私

相关申请案的交叉引用

本申请案主张2011年5月23日申请的题为“保护移动装置中的音频数据收集隐私(PRESERVING AUDIO DATA COLLECTION PRIVACY IN MOBILE DEVICES)”的第61／488,927号美国临时专利申请案(代理人案号111174P1)的优先权，所述申请案的全文出于所有目的特此以引用方式并入本文中。本申请案还主张2011年8月19日申请的题为“保护移动装置中的音频数据收集隐私(PRESERVING AUDIO DATA COLLECTIONPRIVACY IN MOBILE DEVICES)”的第13／213,294号美国专利申请案(代理人案号111174)的优先权，所述申请案的全文出于所有目的特此以引用方式并入本文中。

技术领域

背景技术

移动装置在当今社会中极为普遍。举例来说，人们使用蜂窝式电话、智能电话、个人数字助理、膝上型计算机、寻呼机、平板计算机等从无数的位置无线地发送和接收数据。此外，无线通信技术的进步已极大地增加了当今移动装置的多功能性，使得用户能够通过单个便携式装置执行常规上需要多个装置或较大的非便携式设备的各种各样的任务。

举例来说，移动装置可经配置以通过称作背景确定的过程来确定移动装置用户可能处于什么环境(例如，餐馆、汽车、公园、机场等)中。执行此些背景确定的背景感知应用程序设法通过利用来自移动装置的传感器输入(例如，GPS、WiFi和Blue

)的信息来确定移动装置的环境。在许多情形中，对来自移动装置的麦克风的音频进行分类在进行背景确定过程中是非常有价值的，但是收集可能包含语音的音频的过程可能会引起隐私问题。

发明内容

本文中揭示的技术用于在背景感知应用程序使用音频数据进行背景确定之前使用移动装置的硬件和／或软件来遮掩音频数据中的语音。明确地说，捕获连续音频流的子集，使得从所搜集的音频无法可靠地重构语音(词语、短语和句子)。针对音频特性分析所述子集，且可作出关于周围环境的确定。

在一些实施例中，提出一种隐私敏感音频分析方法。所述方法可包含捕获连续音频流中含有的音频数据的子集。所述连续音频流可能含有人类语音。音频数据的所述子集可遮掩所述人类语音的内容。所述方法可包含针对音频特性分析音频数据的所述子集。所述方法可包含至少部分基于所述音频特性来作出周围环境的确定。

此种方法的实施例可包含以下各项中的一者或一者以上：音频数据的所述子集可包括所述连续音频流的计算函数，所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。音频数据的所述子集可包括多个音频数据段，每一音频数据段包括来自所述连续音频流的不同时间分量的数据。所述方法可包含至少部分基于所述音频特性来作出人员身份的确定。所述多个音频数据段可包括30ms到100ms之间的所记录音频。所述连续音频流的每一时间分量的长度可在250ms到2s之间。所述方法可包含在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。随机地更改所述多个音频数据段的次序可至少部分基于来自以下各项中的一者的信息：全球定位系统(GPS)装置、来自移动装置内的电路的信号噪声、来自麦克风的信号噪声，以及来自天线的信号噪声。

在一些实施例中，提出一种用于遮掩隐私敏感音频的装置。所述装置可包含麦克风。所述装置可包含通信地耦合到麦克风的处理单元。所述处理单元可经配置以从所述麦克风捕获以信号表示的连续音频流中含有的音频数据的子集。所述连续音频流可能含有人类语音。音频数据的所述子集可遮掩所述人类语音的内容。所述处理单元可经配置以针对音频特性分析音频数据的所述子集。所述处理单元可经配置以至少部分基于所述音频特性来作出周围环境的确定。

此种装置的实施例可包含以下各项中的一者或一者以上：音频数据的所述子集可包括所述连续音频流的计算函数，所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。音频数据的所述子集可包括多个音频数据段，每一音频数据段包括来自所述连续音频流的不同时间分量的数据。所述处理单元可经配置以至少部分基于所述音频特性来作出人员身份的确定。所述多个音频数据段中的每一者可包括30ms到100ms之间的所记录音频。所述连续音频流的每一时间分量的长度可在250ms到2s之间。所述装置，其中所述处理单元进一步经配置以在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。随机地更改所述多个音频数据段的次序可至少部分基于来自以下各项中的一者的信息：全球定位系统(GPS)装置、来自移动装置内的电路的信号噪声、来自麦克风的信号噪声，以及来自天线的信号噪声。

在一些实施例中，提出一种用于确定与移动装置相关联的环境的系统。所述系统可包含经配置以接收连续音频流的视频传感器。所述系统可包含耦合到所述音频传感器的至少一个处理单元。所述处理单元可经配置以捕获所述连续音频流中含有的音频数据的子集，使得音频数据的所述子集遮掩所述连续音频流中包含的人类语音的内容。所述处理单元可经配置以针对音频特性分析音频数据的所述子集。所述处理单元可经配置以至少部分基于所述音频特性来作出周围环境的确定。

此种系统的实施例可包含以下各项中的一者或一者以上：所述系统可包含经配置以经由网络将表示音频数据的所述子集的信息发送到远离所述移动装置的位置的网络接口。所述至少一个处理单元可经配置以在远离所述移动装置的所述位置处作出周围环境的确定。音频数据的所述子集可包括多个音频数据段，每一音频数据段包括来自所述连续音频流的不同时间分量的数据。所述至少一个处理单元可经配置以至少部分基于所述音频特性来作出人员身份的确定。所述多个音频数据段中的每一者可包括30ms到100ms之间的所记录音频。所述连续音频流的每一时间分量的长度可在250ms到2s之间。所述处理单元可进一步经配置以在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。

在一些实施例中，提出一种驻存在非暂时性处理器可读媒体上的计算机程序产品。所述非暂时性处理器可读媒体包含经配置以致使处理器捕获连续音频流中含有的音频数据的子集的处理器可读指令。所述连续音频流可能含有人类语音。音频数据的所述子集可遮掩所述人类语音的内容。所述处理器可读指令可经配置以致使所述处理器针对音频特性分析音频数据的所述子集。所述处理器可读指令可经配置以致使所述处理器至少部分基于所述音频特性来作出周围环境的确定。

此种计算机程序产品的实施例可包含以下各项中的一者或一者以上：音频数据的所述子集可包括所述连续音频流的计算函数，所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。音频数据的所述子集可包括多个音频数据段，每一音频数据段包括来自所述连续音频流的不同时间分量的数据。所述处理器可读指令可经配置以致使所述处理器至少部分基于所述音频特性来作出人员身份的确定。所述多个音频数据段中的每一者可包括30ms到100ms之间的所记录音频。所述连续音频流的每一时间分量的长度可在250ms到2s之间。所述处理器可读指令可经配置以在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。用于随机地更改所述多个音频数据段的次序的处理器可读指令是至少部分基于来自以下各项中的一者的信息：全球定位系统(GPS)装置、来自移动装置内的电路的信号噪声、来自麦克风的信号噪声，以及来自天线的信号噪声。

在一些实施例中，提出一种用于遮掩隐私敏感音频的装置。所述装置可包含用于从麦克风捕获以信号表示的连续音频流中含有的音频数据的子集的装置。所述连续音频流可能含有人类语音。音频数据的所述子集可遮掩所述人类语音的内容。所述装置可包含用于针对音频特性分析音频数据的所述子集的装置。所述装置可包含用于至少部分基于所述音频特性来确定周围环境的装置。

此种装置的实施例可包含以下各项中的一者或一者以上：所述用于捕获音频数据的所述子集的装置可经配置以根据所述连续音频流的计算函数来捕获音频数据的所述子集，所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。所述用于捕获音频数据的所述子集的装置可经配置以捕获音频数据的所述子集，使得音频数据的所述子集包括多个音频数据段，每一音频数据段包括来自所述连续音频流的不同时间分量的数据。所述用于确定周围环境的装置可经配置以至少部分基于所述音频特性来作出人员身份的确定。所述用于捕获音频数据的所述子集的装置可经配置以捕获音频数据的所述子集，使得所述多个音频数据段中的每一者包括30ms到100ms之间的所记录音频。

本文中描述的项目和／或技术可提供以下能力中的一者或一者以上，以及未提及的其它能力。遮掩可能包含在用于背景确定的音频流中的语音的内容，同时对背景确定的准确性具有很少影响或没有影响。利用可使用最少处理资源实时执行的相对简单的方法。包含上载音频数据的子集(具有被遮掩的语音)以帮助改善背景确定中使用的模型的准确性的能力。虽然已描述了至少一个项目／技术效果对，但是可以通过除所述之外的装置实现所述的效果，且所述的项目／技术可不一定得到所述的效果。

附图说明

通过参考以下诸图，可促进理解各种实施例的性质和优点。在附图中，类似组件或特征可具有相同的参考标号。另外，同一类型的各组件可通过在参考标号之后附上破折号以及对类似组件进行区分的第二标号来进行区分。如果说明书中仅使用第一参考标号，那么所述描述适用于具有相同的第一参考标号的类似组件中的任一者，而不管第二参考标号如何。

图1是根据一个实施例的经配置以支持背景感知应用程序的移动装置的基本组件的简化框图。

图2a到2c是用于在没有性能降级的情况下捕获足够的音频信息来对移动装置的周围环境进行分类同时帮助确保语音隐私的过程的视觉化。

图3a和3b是用于提供图2b和2c中所示的功能性的方法的流程图。

图4是说明计算语音辨识器从由本文所述的某些处理方法产生的音频数据重构词语的n元语法的概率的上限的分析的结果的图表。

具体实施方式

参考图式提供以下描述，其中相同的参考标号通篇用以指代相同的元件。虽然本文中描述了一种或一种以上技术的各种细节，但是其它技术也是可能的。在一些情况中，以框图形式展示众所周知的结构和装置，以便促进描述各种技术。

可用背景感知应用程序来启用移动装置，例如个人数字助理(PDA)、移动电话、平板计算机以及其它个人电子装置。这些背景感知应用程序可确定(例如)移动装置的用户身处何处以及用户可能正在做何事，以及其它。此些背景确定可有助于使得移动装置能够向用户提供额外功能性，例如在确定用户在车上之后进入汽车模式，或在确定用户已进入电影院之后进入静寂模式。

本文中描述用于保护可能在用于移动装置的背景确定的音频中捕获到的语音中的隐私的技术。更明确地说，可从可能含有语音的连续音频流捕获音频数据的子集，借此取样的性质遮掩了所述连续音频流中可能含有的任何语音。然而，取样的性质还保留了连续音频流的某些音频特性，使得背景确定(例如，关于移动装置的特定周围环境的确定)的准确性降低很少或不降低。在下文更详细地描述这些和其它技术。

图1是说明根据一个实施例的可实现背景感知的移动装置100的某些组件的简化框图。此图是实例且并非限制性的。举例来说，移动装置100可包含为了简单起见而从图1省略的额外组件(例如，用户接口、天线、显示器等)。另外，取决于移动装置100的功能性，可将所示组件组合、分离或省略。

在此实施例中，移动装置100包含移动网络接口120。此类接口可包含用于与移动运营商通信的硬件、软件，和／或固件。移动网络接口120可利用高速分组接入(HSPA)、增强型HSPA(HSPA+)、3GPP长期演进(LTE)，和／或移动通信的其它标准。移动网络接口120还可提供在背景感知应用程序中可为有用的某些信息，例如位置数据。

另外，移动装置100可包含其它无线接口170。此些接口可包含IEEE802.11(WiFi)、

和／或其它无线技术。这些无线接口170可向移动装置100提供可用在背景确定中的信息。举例来说，无线接口170可通过确定无线接口170中的一者或一者以上连接到的无线网络的大致位置来提供关于位置的信息。另外或替代地，无线接口170可使得移动装置100能够与其它装置(例如，无线耳机和／或麦克风)通信，所述其它装置可提供在确定移动装置100的背景的过程中有用的信息。

移动装置100还可包含全球定位系统(GPS)单元160、加速度计130，和／或其它传感器150。这些额外特征可提供例如位置、定向、移动、温度、接近度等信息。与无线接口170一样，来自这些组件的信息可帮助背景感知应用程序作出关于移动装置100的背景的背景确定。

移动装置100另外可包含分析／确定模块110。分析／确定模块110尤其可从其通信地耦合到的各种组件接收传感器信息。分析／确定模块110还可执行存储于存储器180上的软件(包含背景感知应用程序)，所述存储器可与分析／确定模块110分离和／或集成到分析／确定模块110中。此外，分析／确定模块110可包括一个或多个处理装置，包含中央处理单元(CPU)、微处理器、数字信号处理器(DSP)，和／或尤其具有能够分析音频数据并基于所述分析作出确定的装置的组件。

虽然来自无线接口170、GPS单元160、加速度计130和／或其它传感器150的信息可在用户处于户外、接近可识别的WiFi或蓝牙接入点、步行等等时极大地辅助确定位置，但是这些组件具有其局限性。在许多情形中，它们不大可用于确定环境和处境。举例来说，来自这些组件的信息不大可用于区分用户是在开会还是在他们的办公室里，或者用户是在食品杂货店还是在其紧邻的健身房里。在这些情形和其它情形中，来自移动装置100的音频捕获模块140(例如，麦克风和／或其它音频捕获装置)的信息可提供非常有价值的音频数据，所述音频数据可用以帮助对环境进行分类，以及确定是否存在语音、是否存在多个讲话者、讲话者的身份等等。

移动装置100捕获音频数据以用于背景确定的过程可包含将音频数据临时和／或永久地存储到电话的存储器180。然而，捕获包含可理解的语音的音频数据可引起隐私问题。实际上，如果移动装置100未经同意便捕获来自移动装置100的用户或另一人的语音，那么可能会牵涉到联邦、州和／或当地法律。通过在捕获音频数据之前使用移动装置100的硬件和／或软件对其进行预处理，使得无法从所捕获的音频数据可靠地重构语音(词语、短语和句子)，可以减轻这些问题。此外，所述预处理仍可允许确定周围环境(例如，根据背景噪声)和／或音频数据的其它音频特性，例如语音、音乐、打字声等等的存在。

图2a是用于在没有性能降级的情况下捕获足够的音频信息来对移动装置和／或用户的处境／环境进行分类的过程的视觉化。另外，所述过程还可帮助确保无法从所捕获的信息可靠地重构语音(词语、短语和句子)。此过程涉及减少输入音频流的维数。换句话说，减少连续音频的输入流中的位(即，数字数据)，使得所得音频流具有比以可理解的保真度再现连续音频流所需的位数目少的位。减少维数因此可以是经设计以确保语音不可再现的计算函数。

举例来说，连续音频流可包括持续T_window秒的音频数据窗口210。窗口210可被视为具有多个音频数据段。更特定来说，窗口210可包括N个时间分量，或块220，其中每一块220持续T_block秒且包括各T_frame秒的多个帧230。可对麦克风信号进行取样，使得在T_block秒的每个块中仅收集一个帧230(具有T_frame秒的数据)。

T_frame和T_block的值可取决于所要功能性而变化。在一个实施例中，例如，T_frame=50ms且T_block=500ms，但这些设置可发生相当大的变化，且对使用所得音频信息240-a的背景确定的准确性具有很小的影响。举例来说，T_frame的范围可从小于30ms到100ms或100ms以上，T_block的范围可从小于250ms直到2000ms(2s)或2000ms以上，且T_window可短至单个块(例如，每窗口一个块)，直到一分钟或一分钟以上。不同的帧、块和窗口长度可影响每块220帧230的数目以及每窗口210块220的数目。

可用不同的方式来实现对帧230的捕获。举例来说，分析／确定模块110可在连续音频的窗口210期间对麦克风信号进行连续取样，丢弃(即，不存储)不想要的帧230。因此，在T_frame=50ms且T_block=500ms的上述实例中，处理单元可简单地丢弃所取样的每500ms中的450ms。另外或替代地，分析／确定模块110可在不想要的帧230期间关闭音频捕获模块140(例如，在每500ms中的450ms内关闭音频捕获模块140)，由此仅收集将被插入到在背景确定中使用的所得音频信息240-a中的帧230。

所得音频信息240-a是仅包括窗口210中的连续音频流的子集的帧230集合。即便如此，此所得音频信息240-a可包含可帮助实现背景确定(例如确定周围环境)且不会对确定的准确性有重大影响的音频特性。因此，可将所得音频信息240-a实时地提供给用于背景分类的应用程序，且／或作为一个或一个以上波形存储在存储器180中以供稍后分析且／或上载到通信地耦合到移动装置100的服务器。

图2b和2c是类似于图2a所示的过程的用于捕获音频信息的过程的视觉化。然而，在图2b和2c中，采取额外步骤来帮助确保可能捕获到的任何语音的进一步隐私。

参考图2b，提供说明对于T_window秒的每个窗口210可如何捕获每一块220的第一帧230的视觉化。在捕获了窗口210的最后一块220的帧230-1之后，可将窗口210的所有捕获到的帧随机排列(即，随机洗牌)以提供所得音频信息240-b。因此，所得音频信息240-b类似于图2a的所得音频信息240-a，其具有包括所得音频信息240-b的帧经随机化的额外特征，由此进一步减小可以可理解的保真度再现可能包含于所得音频信息240-b中的任何语音的可能性。

图2c说明与图2b中所示的过程类似的过程，但进一步随机化针对每一块220而捕获到的帧230。更特定来说，不是如图2a和2b中所示捕获窗口210的每一块220的第一帧230，而是图2c中所示的过程演示了可改为选择来自每一块220的随机帧230。窗口210的帧230的捕获以及帧230在所得音频信息240-c中的排序两者的随机化帮助进一步确保窗口210内的连续音频流中所含的任何语音被遮掩并且是不可再现的。

图2b和2c所示的过程中使用的随机化可使用以多种方式产生的种子来进行计算。举例来说，所述种子可基于由GPS单元160提供的GPS时间、来自移动装置100内的电路的噪声、来自音频捕获模块140的噪声(或其它信号)、来自天线的噪声，等等。此外，可丢弃(例如，不存储)所述排列以帮助确保洗牌效果不可逆转。

图2a、2b和2c中所示的过程被提供作为实例且并非限制性的。预期其它实施例。举例来说，可在捕获帧230之前对块220进行随机排列。替代地，可贯穿整个窗口210随机地捕获帧230，而非每块220捕获一个帧230。

图3a是说明用于提供图2b和2c中所示的功能性的方法300-1的实施例的流程图。方法300-1可开始于阶段310，其中接收来自连续音频流的音频数据的块220。连续音频流可为(例如)移动装置100的音频捕获装置140经历的时间的窗口210内的音频。

在阶段320处，捕获音频数据的块220的帧230。如早先所论述，帧230可为音频数据的每一块220的预定帧(例如，第一帧)，或其可随机地选择。举例来说，通过将帧230存储(临时或永久地)在移动装置100的存储器180中，来捕获帧230。如先前所论述，帧230的捕获可包含开启和关闭音频捕获模块140且／或对来自音频捕获模块140的表示连续音频流的信号的某些部分进行取样。

在阶段330处，确定当前窗口210中是否存在额外的块220。如果是，那么重复从块220捕获帧230的过程。这可重复任何数目次，其取决于所要的功能性。举例来说，在T_block=500ms且T_window=10秒的情况中，捕获帧230的过程将重复20次，从而产生20个所捕获的帧230。

如果已捕获了来自当前窗口210中的所有块220的帧230，那么过程移到阶段340，其中对所捕获的帧的次序进行随机化。可将这些经随机化的帧(例如)存储在由背景感知应用程序用于进行分析的音频文件中。最后，在阶段350处，至少部分地基于经随机化的帧的音频特性来作出周围环境的确定(或其它背景确定)。

方法300-1的不同阶段可由移动装置100的一个或一个以上不同的组件和／或与移动装置100通信地耦合的其它系统执行。此外，阶段可由硬件、软件和／或固件的任何组合执行。举例来说，为帮助确保由移动装置100执行的软件应用程序不能存取整个音频流(例如，可能具有可辨识语音的音频流)，可由硬件(例如分析／确定模块110)执行某些阶段，例如阶段320到340，在将所捕获的帧存储在存储器180上且／或将其提供到软件应用程序之前例如在缓冲器上对所捕获的帧进行随机化。另外或替代地，一些实施例可使得某些参数(例如，T_window、T_block和／或T_frame)能够可由软件至少部分地配置。

在又其它实施例中，移动装置100可将包含所捕获的帧的所得音频信息240上载到远程服务器。在这种情况下，远程服务器可作出阶段350中的周围环境确定。替代地，移动装置100可上载所得音频信息240以及由移动装置100作出的周围环境确定。在任一情况下，远程服务器可使用所述确定以及所得音频信息240来修改用以作出周围环境确定的现有模型。这使得服务器能够维持能够从由移动装置100接收到的输入进行“学习”的模型。接着可将经修改和／或经更新的模型下载到移动装置100，以帮助改善由移动装置100作出的周围环境确定的准确性。因此，可不断地改善周围环境确定(或其它背景确定)。

如上文所指示，本文所述的技术可不仅允许确定周围环境和／或其它背景确定，而且也允许确定音频数据的其它音频特性。这些音频特性可包含语音、音乐、打字声以及更多的存在。取决于所包含的音频特性，可作出不同的确定。

图3b是说明方法300-1的实例的流程图，其包含与图3的方法300-1类似的阶段。然而，图3b的方法300—2包含额外阶段360，在所述阶段中作出关于讲话者身份的确定，所述讲话者的语音包含在用以作出周围环境确定的所捕获帧中。与阶段350一样，阶段360中的确定可由移动装置100和／或所捕获帧被上载到的远程服务器作出。另外，关于身份的确定可包含使用其它信息和／或模型，例如用以帮助确定讲话者的年龄、性别等的模型，以及关于特定个人的语音的音频特性的所存储信息，以及其它数据。

收听由上文论述的过程产生的所捕获音频文件清楚地论证了由此方案无法可靠地重构词语。然而，此观点可通过执行用以计算语音辨识器重构词语的n元语法的概率的上限的分析而在数学上进行论证，其中在给出用于开发商用语音辨识器的来自公众可得来源的所收集的音频数据的情况下，词语的n元语法是n个相连词语的集合。

图4是说明此分析的结果的图，展示了在给出所收集的音频的情况下正确地猜出n元语法的概率的上限。展示正确地重构1元语法410和2元语法420的结果，其中对于可变长度的T_block，T_frame=50ms。重构n元语法的概率随n增加而直观地减小。此情况可从图4中看出，其中，对于T_block=500ms，正确地重构1元语法410的概率为14％，而正确地重构2元语法420的概率为8％。(应注意，此分析不包含本文所论述的帧排列，本文所论述的帧排列可更进一步地掩盖语言，从而将概率减小大约（T_window／T_block)阶乘倍。)

尽管减小了重构语音的概率，但本文所论述的技术对分类器(例如，背景感知应用程序中使用的概率分类器)鉴别用户的环境的能力没有显著影响。此在表1中得到论证，表1展示了背景感知分类器的查准率和查全率，其使用具有一个混合分量和两个混合分量的统计模型，其中T_frame=50ms且T_block是可变的。所使用的数据是背景感知应用程序中共用的一组环境(例如，公园内、街道上、市场内、车内、机场内等等)的环境声音的商业上采集的音频数据集合。

表1

因为T_frame=50ms，所以表1中针对T_block=50ms展示的查准率和查全率是连续音频。表1因此指示，在T_block接近2秒(即，麦克风在每2秒中仅开启50ms，或所述时间的2.5％)之前，通过仅对连续音频流的子集进行取样来减少音频数据的维数可如何对分类器确定周围环境的准确性具有很少影响。对于不同分类器，结果可能不同。

上述论述的方法、系统、装置、图表和表格是实例。在适当时，各种配置可省略、替换、或添加各种程序或组件。举例来说，在替代配置中，方法可按与所描述的次序不同的次序来执行，且／或可添加、省略和／或组合各阶段。并且，关于某些配置所描述的特征可组合在各种其它配置中。可按照类似方式来组合配置的不同方面和元件。并且，技术会发展，且因此许多元件是实例且不限制本发明或权利要求书的范围。另外，使用不同类型的背景感知分类器，本文论述的技术可提供不同的结果。

在描述中给出具体细节以提供对实例性实施例(包含实施方案)的彻底理解。然而，可在无这些具体细节的情况下实践实施例。举例来说，已在没有非必要的细节的情况下展示了众所周知的电路、过程、算法、结构以及技术，以免混淆所述配置。此描述仅提供实例性配置，且并不限制权利要求书的范围、适用性或配置。而是，配置的前文描述将向所属领域的技术人员提供使得能够实施所述技术的描述。在不脱离本发明的精神或范围的情况下，可对元件的功能和布置作出各种改变。

并且，可将配置描述为被描绘成流程图或框图的过程。尽管各自可将操作描述为连续过程，但是所述操作中的许多操作可并行或同时地执行。另外，可对操作的次序进行重新布置。过程可具有未包含在图中的额外步骤。

并入有本发明的各种特征的计算机程序可编码在各种非暂时性计算机可读和／或非暂时性处理器可读存储媒体上，合适的媒体包含磁性媒体、光学媒体、快闪存储器，以及其它非暂时性媒体。编码有程序代码的非暂时性处理器可读存储媒体可与可兼容装置一起封装，或与其它装置分开提供。另外，可对程序代码进行编码并经由有线光学装置和／或遵照多种协议的无线网络(包含因特网)进行传输，由此允许例如经由因特网下载进行分布。

已描述了若干实例性配置，可在不脱离本发明的精神的情况下使用各种修改、替代构造和等效物。举例来说，上述元件可为较大型系统的组件，其中其它规则可优先于本发明的应用或以其它方式修改本发明的应用。并且，可在考虑上述元件之前、期间或之后采取多个步骤。因此，上文的描述并未限制权利要求书的范围。

Claims

1.一种隐私敏感音频分析方法，所述方法包括：

捕获连续音频流中含有的音频数据的子集，其中：

所述连续音频流含有人类语音，且

音频数据的所述子集遮掩了所述人类语音的内容；

针对音频特性分析音频数据的所述子集；以及

至少部分基于所述音频特性来作出周围环境的确定。

2.根据权利要求1所述的隐私敏感音频分析方法，其中音频数据的所述子集包括所述连续音频流的计算函数，所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。

3.根据权利要求1所述的隐私敏感音频分析方法，其中音频数据的所述子集包括多个音频数据段，每一音频数据段包括来自所述连续音频流的不同时间分量的数据。

4.根据权利要求3所述的隐私敏感音频分析方法，其进一步包括至少部分基于所述音频特性来作出人员身份的确定。

5.根据权利要求3所述的隐私敏感音频分析方法，其中所述多个音频数据段中的每一者包括30ms到100ms之间的所记录音频。

6.根据权利要求3所述的隐私敏感音频分析方法，其中所述连续音频流的每一时间分量的长度是在250ms到2s之间。

7.根据权利要求3所述的隐私敏感音频分析方法，其进一步包括在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。

8.根据权利要求7所述的隐私敏感音频分析方法，其中随机地更改所述多个音频数据段的所述次序是至少部分基于来自以下各项中的一者的信息：

全球定位系统GPS装置，

来自移动装置内的电路的信号噪声，

来自麦克风的信号噪声，以及

来自天线的信号噪声。

9.一种用于遮掩隐私敏感音频的装置，所述装置包括：

麦克风；以及

处理单元，其通信地耦合到所述麦克风且经配置以：

从所述麦克风捕获以信号表示的连续音频流中含有的音频数据的子集，其中：

所述连续音频流含有人类语音，且

音频数据的所述子集遮掩了所述人类语音的内容；

针对音频特性分析音频数据的所述子集；以及

至少部分基于所述音频特性来作出周围环境的确定。

10.根据权利要求9所述的用于遮掩隐私敏感音频的装置，其中音频数据的所述子集包括所述连续音频流的计算函数，所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。

11.根据权利要求9所述的用于遮掩隐私敏感音频的装置，其中音频数据的所述子集包括多个音频数据段，每一音频数据段包括来自所述连续音频流的不同时间分量的数据。

12.根据权利要求11所述的用于遮掩隐私敏感音频的装置，其中所述处理单元经配置以至少部分基于所述音频特性来作出人员身份的确定。

13.根据权利要求11所述的用于遮掩隐私敏感音频的装置，其中所述多个音频数据段中的每一者包括30ms到100ms之间的所记录音频。

14.根据权利要求11所述的用于遮掩隐私敏感音频的装置，其中所述连续音频流的每一时间分量的长度是在250ms到2s之间。

15.根据权利要求11所述的用于遮掩隐私敏感音频的装置，其中所述处理单元经配置以在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。

16.根据权利要求15所述的用于遮掩隐私敏感音频的装置，其中所述处理单元经配置以至少部分基于来自以下各项中的一者的信息来随机地更改所述多个音频数据段的所述次序：

全球定位系统GPS装置，

来自移动装置内的电路的信号噪声，

来自所述麦克风的信号噪声，以及

来自天线的信号噪声。

17.一种用于确定与移动装置相关联的环境的系统，所述系统包括：

音频传感器，其经配置以接收连续音频流；以及

至少一个处理单元，其耦合到所述音频传感器且经配置以：

捕获所述连续音频流中含有的音频数据的子集，使得音频数据的所述子集遮掩了所述连续音频流中包含的人类语音的内容；

针对音频特性分析音频数据的所述子集；以及

至少部分基于所述音频特性来作出周围环境的确定。

18.根据权利要求17所述的用于确定与所述移动装置相关联的所述环境的系统，其进一步包括经配置以经由网络将表示音频数据的所述子集的信息发送到远离所述移动装置的位置的网络接口。

19.根据权利要求18所述的用于确定与所述移动装置相关联的所述环境的系统，其中所述至少一个处理单元经配置以在远离所述移动装置的所述位置处作出所述周围环境的所述确定。

20.根据权利要求18所述的用于确定与所述移动装置相关联的所述环境的系统，其中音频数据的所述子集包括多个音频数据段，每一音频数据段包括来自所述连续音频流的不同时间分量的数据。

21.根据权利要求20所述的用于确定与所述移动装置相关联的所述环境的系统，其中所述至少一个处理单元经配置以至少部分基于所述音频特性来作出人员身份的确定。

22.根据权利要求20所述的用于确定与所述移动装置相关联的所述环境的系统，其中所述多个音频数据段中的每一者包括30ms到100ms之间的所记录音频。

23.根据权利要求20所述的用于确定与所述移动装置相关联的所述环境的系统，其中所述连续音频流的每一时间分量的长度是在250ms到2s之间。

24.根据权利要求20所述的用于确定与所述移动装置相关联的所述环境的系统，其中所述至少一个处理单元经配置以在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。

25.一种计算机程序产品，其驻存在非暂时性处理器可读媒体上且包括处理器可读指令，所述处理器可读指令经配置以致使处理器：

捕获连续音频流中含有的音频数据的子集，其中：

所述连续音频流含有人类语音，且

音频数据的所述子集遮掩了所述人类语音的内容；

针对音频特性分析音频数据的所述子集；以及

至少部分基于所述音频特性来作出周围环境的确定。

26.根据权利要求25所述的计算机程序产品，其中音频数据的所述子集包括所述连续音频流的计算函数，所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。

27.根据权利要求25所述的计算机程序产品，其中音频数据的所述子集包括多个音频数据段，每一音频数据段包括来自所述连续音频流的不同时间分量的数据。

28.根据权利要求27所述的计算机程序产品，其中所述处理器可读指令经配置以致使所述处理器至少部分基于所述音频特性来作出人员身份的确定。

29.根据权利要求27所述的计算机程序产品，其中所述多个音频数据段中的每一者包括30ms到100ms之间的所记录音频。

30.根据权利要求27所述的计算机程序产品，其中所述连续音频流的每一时间分量的长度是在250ms到2s之间。

31.根据权利要求27所述的计算机程序产品，其中所述处理器可读指令经配置以致使所述处理器在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。

32.根据权利要求31所述的计算机程序产品，其中所述处理器可读指令经配置以致使所述处理器随机地更改所述多个音频数据段的所述次序是至少部分基于来自以下各项中的一者的信息：

全球定位系统GPS装置，

来自移动装置内的电路的信号噪声，

来自麦克风的信号噪声，以及

来自天线的信号噪声。

33.一种用于遮掩隐私敏感音频的装置，所述装置包括：

用于从麦克风捕获以信号表示的连续音频流中含有的音频数据的子集的装置，其中：

所述连续音频流含有人类语音，且

音频数据的所述子集遮掩了所述人类语音的内容；

用于针对音频特性分析音频数据的所述子集的装置；以及

用于至少部分基于所述音频特性来确定周围环境的装置。

34.根据权利要求33所述的用于遮掩隐私敏感音频的装置，其中所述用于捕获音频数据的所述子集的装置经配置以根据所述连续音频流的计算函数来捕获音频数据的所述子集，所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。

35.根据权利要求33所述的用于遮掩隐私敏感音频的装置，其中所述用于捕获音频数据的所述子集的装置经配置以捕获音频数据的所述子集，使得音频数据的所述子集包括多个音频数据段，每一音频数据段包括来自所述连续音频流的不同时间分量的数据。

36.根据权利要求35所述的用于遮掩隐私敏感音频的装置，其中所述用于确定所述周围环境的装置经配置以至少部分基于所述音频特性来作出人员身份的确定。

37.根据权利要求35所述的用于遮掩隐私敏感音频的装置，其中所述用于捕获音频数据的所述子集的装置经配置以捕获音频数据的所述子集，使得所述多个音频数据段中的每一者包括30ms到100ms之间的所记录音频。