CN103620680A - 保护移动装置中的音频数据收集隐私 - Google Patents
保护移动装置中的音频数据收集隐私 Download PDFInfo
- Publication number
- CN103620680A CN103620680A CN201280030290.3A CN201280030290A CN103620680A CN 103620680 A CN103620680 A CN 103620680A CN 201280030290 A CN201280030290 A CN 201280030290A CN 103620680 A CN103620680 A CN 103620680A
- Authority
- CN
- China
- Prior art keywords
- audio
- subset
- audio data
- privacy
- audio stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013480 data collection Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000000712 assembly Effects 0.000 description 5
- 238000000429 assembly Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000012800 visualization Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- VJYFKVYYMZPMAB-UHFFFAOYSA-N ethoprophos Chemical compound CCCSP(=O)(OCC)SCCC VJYFKVYYMZPMAB-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/02—Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明揭示用于在背景感知应用程序使用音频数据作出背景确定之前使用移动装置的硬件和/或软件来遮掩所述音频数据中的语音的技术。明确地说,捕获连续音频流的子集,使得从所搜集的音频无法可靠地重构语音(词语、短语和句子)。针对音频特性分析所述子集,且可作出关于周围环境的确定。
Description
相关申请案的交叉引用
本申请案主张2011年5月23日申请的题为“保护移动装置中的音频数据收集隐私(PRESERVING AUDIO DATA COLLECTION PRIVACY IN MOBILE DEVICES)”的第61/488,927号美国临时专利申请案(代理人案号111174P1)的优先权,所述申请案的全文出于所有目的特此以引用方式并入本文中。本申请案还主张2011年8月19日申请的题为“保护移动装置中的音频数据收集隐私(PRESERVING AUDIO DATA COLLECTIONPRIVACY IN MOBILE DEVICES)”的第13/213,294号美国专利申请案(代理人案号111174)的优先权,所述申请案的全文出于所有目的特此以引用方式并入本文中。
技术领域
背景技术
移动装置在当今社会中极为普遍。举例来说,人们使用蜂窝式电话、智能电话、个人数字助理、膝上型计算机、寻呼机、平板计算机等从无数的位置无线地发送和接收数据。此外,无线通信技术的进步已极大地增加了当今移动装置的多功能性,使得用户能够通过单个便携式装置执行常规上需要多个装置或较大的非便携式设备的各种各样的任务。
发明内容
本文中揭示的技术用于在背景感知应用程序使用音频数据进行背景确定之前使用移动装置的硬件和/或软件来遮掩音频数据中的语音。明确地说,捕获连续音频流的子集,使得从所搜集的音频无法可靠地重构语音(词语、短语和句子)。针对音频特性分析所述子集,且可作出关于周围环境的确定。
在一些实施例中,提出一种隐私敏感音频分析方法。所述方法可包含捕获连续音频流中含有的音频数据的子集。所述连续音频流可能含有人类语音。音频数据的所述子集可遮掩所述人类语音的内容。所述方法可包含针对音频特性分析音频数据的所述子集。所述方法可包含至少部分基于所述音频特性来作出周围环境的确定。
此种方法的实施例可包含以下各项中的一者或一者以上:音频数据的所述子集可包括所述连续音频流的计算函数,所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。音频数据的所述子集可包括多个音频数据段,每一音频数据段包括来自所述连续音频流的不同时间分量的数据。所述方法可包含至少部分基于所述音频特性来作出人员身份的确定。所述多个音频数据段可包括30ms到100ms之间的所记录音频。所述连续音频流的每一时间分量的长度可在250ms到2s之间。所述方法可包含在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。随机地更改所述多个音频数据段的次序可至少部分基于来自以下各项中的一者的信息:全球定位系统(GPS)装置、来自移动装置内的电路的信号噪声、来自麦克风的信号噪声,以及来自天线的信号噪声。
在一些实施例中,提出一种用于遮掩隐私敏感音频的装置。所述装置可包含麦克风。所述装置可包含通信地耦合到麦克风的处理单元。所述处理单元可经配置以从所述麦克风捕获以信号表示的连续音频流中含有的音频数据的子集。所述连续音频流可能含有人类语音。音频数据的所述子集可遮掩所述人类语音的内容。所述处理单元可经配置以针对音频特性分析音频数据的所述子集。所述处理单元可经配置以至少部分基于所述音频特性来作出周围环境的确定。
此种装置的实施例可包含以下各项中的一者或一者以上:音频数据的所述子集可包括所述连续音频流的计算函数,所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。音频数据的所述子集可包括多个音频数据段,每一音频数据段包括来自所述连续音频流的不同时间分量的数据。所述处理单元可经配置以至少部分基于所述音频特性来作出人员身份的确定。所述多个音频数据段中的每一者可包括30ms到100ms之间的所记录音频。所述连续音频流的每一时间分量的长度可在250ms到2s之间。所述装置,其中所述处理单元进一步经配置以在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。随机地更改所述多个音频数据段的次序可至少部分基于来自以下各项中的一者的信息:全球定位系统(GPS)装置、来自移动装置内的电路的信号噪声、来自麦克风的信号噪声,以及来自天线的信号噪声。
在一些实施例中,提出一种用于确定与移动装置相关联的环境的系统。所述系统可包含经配置以接收连续音频流的视频传感器。所述系统可包含耦合到所述音频传感器的至少一个处理单元。所述处理单元可经配置以捕获所述连续音频流中含有的音频数据的子集,使得音频数据的所述子集遮掩所述连续音频流中包含的人类语音的内容。所述处理单元可经配置以针对音频特性分析音频数据的所述子集。所述处理单元可经配置以至少部分基于所述音频特性来作出周围环境的确定。
此种系统的实施例可包含以下各项中的一者或一者以上:所述系统可包含经配置以经由网络将表示音频数据的所述子集的信息发送到远离所述移动装置的位置的网络接口。所述至少一个处理单元可经配置以在远离所述移动装置的所述位置处作出周围环境的确定。音频数据的所述子集可包括多个音频数据段,每一音频数据段包括来自所述连续音频流的不同时间分量的数据。所述至少一个处理单元可经配置以至少部分基于所述音频特性来作出人员身份的确定。所述多个音频数据段中的每一者可包括30ms到100ms之间的所记录音频。所述连续音频流的每一时间分量的长度可在250ms到2s之间。所述处理单元可进一步经配置以在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。
在一些实施例中,提出一种驻存在非暂时性处理器可读媒体上的计算机程序产品。所述非暂时性处理器可读媒体包含经配置以致使处理器捕获连续音频流中含有的音频数据的子集的处理器可读指令。所述连续音频流可能含有人类语音。音频数据的所述子集可遮掩所述人类语音的内容。所述处理器可读指令可经配置以致使所述处理器针对音频特性分析音频数据的所述子集。所述处理器可读指令可经配置以致使所述处理器至少部分基于所述音频特性来作出周围环境的确定。
此种计算机程序产品的实施例可包含以下各项中的一者或一者以上:音频数据的所述子集可包括所述连续音频流的计算函数,所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。音频数据的所述子集可包括多个音频数据段,每一音频数据段包括来自所述连续音频流的不同时间分量的数据。所述处理器可读指令可经配置以致使所述处理器至少部分基于所述音频特性来作出人员身份的确定。所述多个音频数据段中的每一者可包括30ms到100ms之间的所记录音频。所述连续音频流的每一时间分量的长度可在250ms到2s之间。所述处理器可读指令可经配置以在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。用于随机地更改所述多个音频数据段的次序的处理器可读指令是至少部分基于来自以下各项中的一者的信息:全球定位系统(GPS)装置、来自移动装置内的电路的信号噪声、来自麦克风的信号噪声,以及来自天线的信号噪声。
在一些实施例中,提出一种用于遮掩隐私敏感音频的装置。所述装置可包含用于从麦克风捕获以信号表示的连续音频流中含有的音频数据的子集的装置。所述连续音频流可能含有人类语音。音频数据的所述子集可遮掩所述人类语音的内容。所述装置可包含用于针对音频特性分析音频数据的所述子集的装置。所述装置可包含用于至少部分基于所述音频特性来确定周围环境的装置。
此种装置的实施例可包含以下各项中的一者或一者以上:所述用于捕获音频数据的所述子集的装置可经配置以根据所述连续音频流的计算函数来捕获音频数据的所述子集,所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。所述用于捕获音频数据的所述子集的装置可经配置以捕获音频数据的所述子集,使得音频数据的所述子集包括多个音频数据段,每一音频数据段包括来自所述连续音频流的不同时间分量的数据。所述用于确定周围环境的装置可经配置以至少部分基于所述音频特性来作出人员身份的确定。所述用于捕获音频数据的所述子集的装置可经配置以捕获音频数据的所述子集,使得所述多个音频数据段中的每一者包括30ms到100ms之间的所记录音频。
本文中描述的项目和/或技术可提供以下能力中的一者或一者以上,以及未提及的其它能力。遮掩可能包含在用于背景确定的音频流中的语音的内容,同时对背景确定的准确性具有很少影响或没有影响。利用可使用最少处理资源实时执行的相对简单的方法。包含上载音频数据的子集(具有被遮掩的语音)以帮助改善背景确定中使用的模型的准确性的能力。虽然已描述了至少一个项目/技术效果对,但是可以通过除所述之外的装置实现所述的效果,且所述的项目/技术可不一定得到所述的效果。
附图说明
通过参考以下诸图,可促进理解各种实施例的性质和优点。在附图中,类似组件或特征可具有相同的参考标号。另外,同一类型的各组件可通过在参考标号之后附上破折号以及对类似组件进行区分的第二标号来进行区分。如果说明书中仅使用第一参考标号,那么所述描述适用于具有相同的第一参考标号的类似组件中的任一者,而不管第二参考标号如何。
图1是根据一个实施例的经配置以支持背景感知应用程序的移动装置的基本组件的简化框图。
图2a到2c是用于在没有性能降级的情况下捕获足够的音频信息来对移动装置的周围环境进行分类同时帮助确保语音隐私的过程的视觉化。
图3a和3b是用于提供图2b和2c中所示的功能性的方法的流程图。
图4是说明计算语音辨识器从由本文所述的某些处理方法产生的音频数据重构词语的n元语法的概率的上限的分析的结果的图表。
具体实施方式
参考图式提供以下描述,其中相同的参考标号通篇用以指代相同的元件。虽然本文中描述了一种或一种以上技术的各种细节,但是其它技术也是可能的。在一些情况中,以框图形式展示众所周知的结构和装置,以便促进描述各种技术。
可用背景感知应用程序来启用移动装置,例如个人数字助理(PDA)、移动电话、平板计算机以及其它个人电子装置。这些背景感知应用程序可确定(例如)移动装置的用户身处何处以及用户可能正在做何事,以及其它。此些背景确定可有助于使得移动装置能够向用户提供额外功能性,例如在确定用户在车上之后进入汽车模式,或在确定用户已进入电影院之后进入静寂模式。
本文中描述用于保护可能在用于移动装置的背景确定的音频中捕获到的语音中的隐私的技术。更明确地说,可从可能含有语音的连续音频流捕获音频数据的子集,借此取样的性质遮掩了所述连续音频流中可能含有的任何语音。然而,取样的性质还保留了连续音频流的某些音频特性,使得背景确定(例如,关于移动装置的特定周围环境的确定)的准确性降低很少或不降低。在下文更详细地描述这些和其它技术。
图1是说明根据一个实施例的可实现背景感知的移动装置100的某些组件的简化框图。此图是实例且并非限制性的。举例来说,移动装置100可包含为了简单起见而从图1省略的额外组件(例如,用户接口、天线、显示器等)。另外,取决于移动装置100的功能性,可将所示组件组合、分离或省略。
在此实施例中,移动装置100包含移动网络接口120。此类接口可包含用于与移动运营商通信的硬件、软件,和/或固件。移动网络接口120可利用高速分组接入(HSPA)、增强型HSPA(HSPA+)、3GPP长期演进(LTE),和/或移动通信的其它标准。移动网络接口120还可提供在背景感知应用程序中可为有用的某些信息,例如位置数据。
另外,移动装置100可包含其它无线接口170。此些接口可包含IEEE802.11(WiFi)、和/或其它无线技术。这些无线接口170可向移动装置100提供可用在背景确定中的信息。举例来说,无线接口170可通过确定无线接口170中的一者或一者以上连接到的无线网络的大致位置来提供关于位置的信息。另外或替代地,无线接口170可使得移动装置100能够与其它装置(例如,无线耳机和/或麦克风)通信,所述其它装置可提供在确定移动装置100的背景的过程中有用的信息。
移动装置100还可包含全球定位系统(GPS)单元160、加速度计130,和/或其它传感器150。这些额外特征可提供例如位置、定向、移动、温度、接近度等信息。与无线接口170一样,来自这些组件的信息可帮助背景感知应用程序作出关于移动装置100的背景的背景确定。
移动装置100另外可包含分析/确定模块110。分析/确定模块110尤其可从其通信地耦合到的各种组件接收传感器信息。分析/确定模块110还可执行存储于存储器180上的软件(包含背景感知应用程序),所述存储器可与分析/确定模块110分离和/或集成到分析/确定模块110中。此外,分析/确定模块110可包括一个或多个处理装置,包含中央处理单元(CPU)、微处理器、数字信号处理器(DSP),和/或尤其具有能够分析音频数据并基于所述分析作出确定的装置的组件。
虽然来自无线接口170、GPS单元160、加速度计130和/或其它传感器150的信息可在用户处于户外、接近可识别的WiFi或蓝牙接入点、步行等等时极大地辅助确定位置,但是这些组件具有其局限性。在许多情形中,它们不大可用于确定环境和处境。举例来说,来自这些组件的信息不大可用于区分用户是在开会还是在他们的办公室里,或者用户是在食品杂货店还是在其紧邻的健身房里。在这些情形和其它情形中,来自移动装置100的音频捕获模块140(例如,麦克风和/或其它音频捕获装置)的信息可提供非常有价值的音频数据,所述音频数据可用以帮助对环境进行分类,以及确定是否存在语音、是否存在多个讲话者、讲话者的身份等等。
移动装置100捕获音频数据以用于背景确定的过程可包含将音频数据临时和/或永久地存储到电话的存储器180。然而,捕获包含可理解的语音的音频数据可引起隐私问题。实际上,如果移动装置100未经同意便捕获来自移动装置100的用户或另一人的语音,那么可能会牵涉到联邦、州和/或当地法律。通过在捕获音频数据之前使用移动装置100的硬件和/或软件对其进行预处理,使得无法从所捕获的音频数据可靠地重构语音(词语、短语和句子),可以减轻这些问题。此外,所述预处理仍可允许确定周围环境(例如,根据背景噪声)和/或音频数据的其它音频特性,例如语音、音乐、打字声等等的存在。
图2a是用于在没有性能降级的情况下捕获足够的音频信息来对移动装置和/或用户的处境/环境进行分类的过程的视觉化。另外,所述过程还可帮助确保无法从所捕获的信息可靠地重构语音(词语、短语和句子)。此过程涉及减少输入音频流的维数。换句话说,减少连续音频的输入流中的位(即,数字数据),使得所得音频流具有比以可理解的保真度再现连续音频流所需的位数目少的位。减少维数因此可以是经设计以确保语音不可再现的计算函数。
举例来说,连续音频流可包括持续Twindow秒的音频数据窗口210。窗口210可被视为具有多个音频数据段。更特定来说,窗口210可包括N个时间分量,或块220,其中每一块220持续Tblock秒且包括各Tframe秒的多个帧230。可对麦克风信号进行取样,使得在Tblock秒的每个块中仅收集一个帧230(具有Tframe秒的数据)。
Tframe和Tblock的值可取决于所要功能性而变化。在一个实施例中,例如,Tframe=50ms且Tblock=500ms,但这些设置可发生相当大的变化,且对使用所得音频信息240-a的背景确定的准确性具有很小的影响。举例来说,Tframe的范围可从小于30ms到100ms或100ms以上,Tblock的范围可从小于250ms直到2000ms(2s)或2000ms以上,且Twindow可短至单个块(例如,每窗口一个块),直到一分钟或一分钟以上。不同的帧、块和窗口长度可影响每块220帧230的数目以及每窗口210块220的数目。
可用不同的方式来实现对帧230的捕获。举例来说,分析/确定模块110可在连续音频的窗口210期间对麦克风信号进行连续取样,丢弃(即,不存储)不想要的帧230。因此,在Tframe=50ms且Tblock=500ms的上述实例中,处理单元可简单地丢弃所取样的每500ms中的450ms。另外或替代地,分析/确定模块110可在不想要的帧230期间关闭音频捕获模块140(例如,在每500ms中的450ms内关闭音频捕获模块140),由此仅收集将被插入到在背景确定中使用的所得音频信息240-a中的帧230。
所得音频信息240-a是仅包括窗口210中的连续音频流的子集的帧230集合。即便如此,此所得音频信息240-a可包含可帮助实现背景确定(例如确定周围环境)且不会对确定的准确性有重大影响的音频特性。因此,可将所得音频信息240-a实时地提供给用于背景分类的应用程序,且/或作为一个或一个以上波形存储在存储器180中以供稍后分析且/或上载到通信地耦合到移动装置100的服务器。
图2b和2c是类似于图2a所示的过程的用于捕获音频信息的过程的视觉化。然而,在图2b和2c中,采取额外步骤来帮助确保可能捕获到的任何语音的进一步隐私。
参考图2b,提供说明对于Twindow秒的每个窗口210可如何捕获每一块220的第一帧230的视觉化。在捕获了窗口210的最后一块220的帧230-1之后,可将窗口210的所有捕获到的帧随机排列(即,随机洗牌)以提供所得音频信息240-b。因此,所得音频信息240-b类似于图2a的所得音频信息240-a,其具有包括所得音频信息240-b的帧经随机化的额外特征,由此进一步减小可以可理解的保真度再现可能包含于所得音频信息240-b中的任何语音的可能性。
图2c说明与图2b中所示的过程类似的过程,但进一步随机化针对每一块220而捕获到的帧230。更特定来说,不是如图2a和2b中所示捕获窗口210的每一块220的第一帧230,而是图2c中所示的过程演示了可改为选择来自每一块220的随机帧230。窗口210的帧230的捕获以及帧230在所得音频信息240-c中的排序两者的随机化帮助进一步确保窗口210内的连续音频流中所含的任何语音被遮掩并且是不可再现的。
图2b和2c所示的过程中使用的随机化可使用以多种方式产生的种子来进行计算。举例来说,所述种子可基于由GPS单元160提供的GPS时间、来自移动装置100内的电路的噪声、来自音频捕获模块140的噪声(或其它信号)、来自天线的噪声,等等。此外,可丢弃(例如,不存储)所述排列以帮助确保洗牌效果不可逆转。
图2a、2b和2c中所示的过程被提供作为实例且并非限制性的。预期其它实施例。举例来说,可在捕获帧230之前对块220进行随机排列。替代地,可贯穿整个窗口210随机地捕获帧230,而非每块220捕获一个帧230。
图3a是说明用于提供图2b和2c中所示的功能性的方法300-1的实施例的流程图。方法300-1可开始于阶段310,其中接收来自连续音频流的音频数据的块220。连续音频流可为(例如)移动装置100的音频捕获装置140经历的时间的窗口210内的音频。
在阶段320处,捕获音频数据的块220的帧230。如早先所论述,帧230可为音频数据的每一块220的预定帧(例如,第一帧),或其可随机地选择。举例来说,通过将帧230存储(临时或永久地)在移动装置100的存储器180中,来捕获帧230。如先前所论述,帧230的捕获可包含开启和关闭音频捕获模块140且/或对来自音频捕获模块140的表示连续音频流的信号的某些部分进行取样。
在阶段330处,确定当前窗口210中是否存在额外的块220。如果是,那么重复从块220捕获帧230的过程。这可重复任何数目次,其取决于所要的功能性。举例来说,在Tblock=500ms且Twindow=10秒的情况中,捕获帧230的过程将重复20次,从而产生20个所捕获的帧230。
如果已捕获了来自当前窗口210中的所有块220的帧230,那么过程移到阶段340,其中对所捕获的帧的次序进行随机化。可将这些经随机化的帧(例如)存储在由背景感知应用程序用于进行分析的音频文件中。最后,在阶段350处,至少部分地基于经随机化的帧的音频特性来作出周围环境的确定(或其它背景确定)。
方法300-1的不同阶段可由移动装置100的一个或一个以上不同的组件和/或与移动装置100通信地耦合的其它系统执行。此外,阶段可由硬件、软件和/或固件的任何组合执行。举例来说,为帮助确保由移动装置100执行的软件应用程序不能存取整个音频流(例如,可能具有可辨识语音的音频流),可由硬件(例如分析/确定模块110)执行某些阶段,例如阶段320到340,在将所捕获的帧存储在存储器180上且/或将其提供到软件应用程序之前例如在缓冲器上对所捕获的帧进行随机化。另外或替代地,一些实施例可使得某些参数(例如,Twindow、Tblock和/或Tframe)能够可由软件至少部分地配置。
在又其它实施例中,移动装置100可将包含所捕获的帧的所得音频信息240上载到远程服务器。在这种情况下,远程服务器可作出阶段350中的周围环境确定。替代地,移动装置100可上载所得音频信息240以及由移动装置100作出的周围环境确定。在任一情况下,远程服务器可使用所述确定以及所得音频信息240来修改用以作出周围环境确定的现有模型。这使得服务器能够维持能够从由移动装置100接收到的输入进行“学习”的模型。接着可将经修改和/或经更新的模型下载到移动装置100,以帮助改善由移动装置100作出的周围环境确定的准确性。因此,可不断地改善周围环境确定(或其它背景确定)。
如上文所指示,本文所述的技术可不仅允许确定周围环境和/或其它背景确定,而且也允许确定音频数据的其它音频特性。这些音频特性可包含语音、音乐、打字声以及更多的存在。取决于所包含的音频特性,可作出不同的确定。
图3b是说明方法300-1的实例的流程图,其包含与图3的方法300-1类似的阶段。然而,图3b的方法300—2包含额外阶段360,在所述阶段中作出关于讲话者身份的确定,所述讲话者的语音包含在用以作出周围环境确定的所捕获帧中。与阶段350一样,阶段360中的确定可由移动装置100和/或所捕获帧被上载到的远程服务器作出。另外,关于身份的确定可包含使用其它信息和/或模型,例如用以帮助确定讲话者的年龄、性别等的模型,以及关于特定个人的语音的音频特性的所存储信息,以及其它数据。
收听由上文论述的过程产生的所捕获音频文件清楚地论证了由此方案无法可靠地重构词语。然而,此观点可通过执行用以计算语音辨识器重构词语的n元语法的概率的上限的分析而在数学上进行论证,其中在给出用于开发商用语音辨识器的来自公众可得来源的所收集的音频数据的情况下,词语的n元语法是n个相连词语的集合。
图4是说明此分析的结果的图,展示了在给出所收集的音频的情况下正确地猜出n元语法的概率的上限。展示正确地重构1元语法410和2元语法420的结果,其中对于可变长度的Tblock,Tframe=50ms。重构n元语法的概率随n增加而直观地减小。此情况可从图4中看出,其中,对于Tblock=500ms,正确地重构1元语法410的概率为14%,而正确地重构2元语法420的概率为8%。(应注意,此分析不包含本文所论述的帧排列,本文所论述的帧排列可更进一步地掩盖语言,从而将概率减小大约(Twindow/Tblock)阶乘倍。)
尽管减小了重构语音的概率,但本文所论述的技术对分类器(例如,背景感知应用程序中使用的概率分类器)鉴别用户的环境的能力没有显著影响。此在表1中得到论证,表1展示了背景感知分类器的查准率和查全率,其使用具有一个混合分量和两个混合分量的统计模型,其中Tframe=50ms且Tblock是可变的。所使用的数据是背景感知应用程序中共用的一组环境(例如,公园内、街道上、市场内、车内、机场内等等)的环境声音的商业上采集的音频数据集合。
表1
因为Tframe=50ms,所以表1中针对Tblock=50ms展示的查准率和查全率是连续音频。表1因此指示,在Tblock接近2秒(即,麦克风在每2秒中仅开启50ms,或所述时间的2.5%)之前,通过仅对连续音频流的子集进行取样来减少音频数据的维数可如何对分类器确定周围环境的准确性具有很少影响。对于不同分类器,结果可能不同。
上述论述的方法、系统、装置、图表和表格是实例。在适当时,各种配置可省略、替换、或添加各种程序或组件。举例来说,在替代配置中,方法可按与所描述的次序不同的次序来执行,且/或可添加、省略和/或组合各阶段。并且,关于某些配置所描述的特征可组合在各种其它配置中。可按照类似方式来组合配置的不同方面和元件。并且,技术会发展,且因此许多元件是实例且不限制本发明或权利要求书的范围。另外,使用不同类型的背景感知分类器,本文论述的技术可提供不同的结果。
在描述中给出具体细节以提供对实例性实施例(包含实施方案)的彻底理解。然而,可在无这些具体细节的情况下实践实施例。举例来说,已在没有非必要的细节的情况下展示了众所周知的电路、过程、算法、结构以及技术,以免混淆所述配置。此描述仅提供实例性配置,且并不限制权利要求书的范围、适用性或配置。而是,配置的前文描述将向所属领域的技术人员提供使得能够实施所述技术的描述。在不脱离本发明的精神或范围的情况下,可对元件的功能和布置作出各种改变。
并且,可将配置描述为被描绘成流程图或框图的过程。尽管各自可将操作描述为连续过程,但是所述操作中的许多操作可并行或同时地执行。另外,可对操作的次序进行重新布置。过程可具有未包含在图中的额外步骤。
并入有本发明的各种特征的计算机程序可编码在各种非暂时性计算机可读和/或非暂时性处理器可读存储媒体上,合适的媒体包含磁性媒体、光学媒体、快闪存储器,以及其它非暂时性媒体。编码有程序代码的非暂时性处理器可读存储媒体可与可兼容装置一起封装,或与其它装置分开提供。另外,可对程序代码进行编码并经由有线光学装置和/或遵照多种协议的无线网络(包含因特网)进行传输,由此允许例如经由因特网下载进行分布。
已描述了若干实例性配置,可在不脱离本发明的精神的情况下使用各种修改、替代构造和等效物。举例来说,上述元件可为较大型系统的组件,其中其它规则可优先于本发明的应用或以其它方式修改本发明的应用。并且,可在考虑上述元件之前、期间或之后采取多个步骤。因此,上文的描述并未限制权利要求书的范围。
Claims (37)
1.一种隐私敏感音频分析方法,所述方法包括:
捕获连续音频流中含有的音频数据的子集,其中:
所述连续音频流含有人类语音,且
音频数据的所述子集遮掩了所述人类语音的内容;
针对音频特性分析音频数据的所述子集;以及
至少部分基于所述音频特性来作出周围环境的确定。
2.根据权利要求1所述的隐私敏感音频分析方法,其中音频数据的所述子集包括所述连续音频流的计算函数,所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。
3.根据权利要求1所述的隐私敏感音频分析方法,其中音频数据的所述子集包括多个音频数据段,每一音频数据段包括来自所述连续音频流的不同时间分量的数据。
4.根据权利要求3所述的隐私敏感音频分析方法,其进一步包括至少部分基于所述音频特性来作出人员身份的确定。
5.根据权利要求3所述的隐私敏感音频分析方法,其中所述多个音频数据段中的每一者包括30ms到100ms之间的所记录音频。
6.根据权利要求3所述的隐私敏感音频分析方法,其中所述连续音频流的每一时间分量的长度是在250ms到2s之间。
7.根据权利要求3所述的隐私敏感音频分析方法,其进一步包括在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。
8.根据权利要求7所述的隐私敏感音频分析方法,其中随机地更改所述多个音频数据段的所述次序是至少部分基于来自以下各项中的一者的信息:
全球定位系统GPS装置,
来自移动装置内的电路的信号噪声,
来自麦克风的信号噪声,以及
来自天线的信号噪声。
9.一种用于遮掩隐私敏感音频的装置,所述装置包括:
麦克风;以及
处理单元,其通信地耦合到所述麦克风且经配置以:
从所述麦克风捕获以信号表示的连续音频流中含有的音频数据的子集,其中:
所述连续音频流含有人类语音,且
音频数据的所述子集遮掩了所述人类语音的内容;
针对音频特性分析音频数据的所述子集;以及
至少部分基于所述音频特性来作出周围环境的确定。
10.根据权利要求9所述的用于遮掩隐私敏感音频的装置,其中音频数据的所述子集包括所述连续音频流的计算函数,所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。
11.根据权利要求9所述的用于遮掩隐私敏感音频的装置,其中音频数据的所述子集包括多个音频数据段,每一音频数据段包括来自所述连续音频流的不同时间分量的数据。
12.根据权利要求11所述的用于遮掩隐私敏感音频的装置,其中所述处理单元经配置以至少部分基于所述音频特性来作出人员身份的确定。
13.根据权利要求11所述的用于遮掩隐私敏感音频的装置,其中所述多个音频数据段中的每一者包括30ms到100ms之间的所记录音频。
14.根据权利要求11所述的用于遮掩隐私敏感音频的装置,其中所述连续音频流的每一时间分量的长度是在250ms到2s之间。
15.根据权利要求11所述的用于遮掩隐私敏感音频的装置,其中所述处理单元经配置以在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。
16.根据权利要求15所述的用于遮掩隐私敏感音频的装置,其中所述处理单元经配置以至少部分基于来自以下各项中的一者的信息来随机地更改所述多个音频数据段的所述次序:
全球定位系统GPS装置,
来自移动装置内的电路的信号噪声,
来自所述麦克风的信号噪声,以及
来自天线的信号噪声。
17.一种用于确定与移动装置相关联的环境的系统,所述系统包括:
音频传感器,其经配置以接收连续音频流;以及
至少一个处理单元,其耦合到所述音频传感器且经配置以:
捕获所述连续音频流中含有的音频数据的子集,使得音频数据的所述子集遮掩了所述连续音频流中包含的人类语音的内容;
针对音频特性分析音频数据的所述子集;以及
至少部分基于所述音频特性来作出周围环境的确定。
18.根据权利要求17所述的用于确定与所述移动装置相关联的所述环境的系统,其进一步包括经配置以经由网络将表示音频数据的所述子集的信息发送到远离所述移动装置的位置的网络接口。
19.根据权利要求18所述的用于确定与所述移动装置相关联的所述环境的系统,其中所述至少一个处理单元经配置以在远离所述移动装置的所述位置处作出所述周围环境的所述确定。
20.根据权利要求18所述的用于确定与所述移动装置相关联的所述环境的系统,其中音频数据的所述子集包括多个音频数据段,每一音频数据段包括来自所述连续音频流的不同时间分量的数据。
21.根据权利要求20所述的用于确定与所述移动装置相关联的所述环境的系统,其中所述至少一个处理单元经配置以至少部分基于所述音频特性来作出人员身份的确定。
22.根据权利要求20所述的用于确定与所述移动装置相关联的所述环境的系统,其中所述多个音频数据段中的每一者包括30ms到100ms之间的所记录音频。
23.根据权利要求20所述的用于确定与所述移动装置相关联的所述环境的系统,其中所述连续音频流的每一时间分量的长度是在250ms到2s之间。
24.根据权利要求20所述的用于确定与所述移动装置相关联的所述环境的系统,其中所述至少一个处理单元经配置以在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。
25.一种计算机程序产品,其驻存在非暂时性处理器可读媒体上且包括处理器可读指令,所述处理器可读指令经配置以致使处理器:
捕获连续音频流中含有的音频数据的子集,其中:
所述连续音频流含有人类语音,且
音频数据的所述子集遮掩了所述人类语音的内容;
针对音频特性分析音频数据的所述子集;以及
至少部分基于所述音频特性来作出周围环境的确定。
26.根据权利要求25所述的计算机程序产品,其中音频数据的所述子集包括所述连续音频流的计算函数,所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。
27.根据权利要求25所述的计算机程序产品,其中音频数据的所述子集包括多个音频数据段,每一音频数据段包括来自所述连续音频流的不同时间分量的数据。
28.根据权利要求27所述的计算机程序产品,其中所述处理器可读指令经配置以致使所述处理器至少部分基于所述音频特性来作出人员身份的确定。
29.根据权利要求27所述的计算机程序产品,其中所述多个音频数据段中的每一者包括30ms到100ms之间的所记录音频。
30.根据权利要求27所述的计算机程序产品,其中所述连续音频流的每一时间分量的长度是在250ms到2s之间。
31.根据权利要求27所述的计算机程序产品,其中所述处理器可读指令经配置以致使所述处理器在分析音频数据的所述子集之前随机地更改所述多个音频数据段的次序。
32.根据权利要求31所述的计算机程序产品,其中所述处理器可读指令经配置以致使所述处理器随机地更改所述多个音频数据段的所述次序是至少部分基于来自以下各项中的一者的信息:
全球定位系统GPS装置,
来自移动装置内的电路的信号噪声,
来自麦克风的信号噪声,以及
来自天线的信号噪声。
33.一种用于遮掩隐私敏感音频的装置,所述装置包括:
用于从麦克风捕获以信号表示的连续音频流中含有的音频数据的子集的装置,其中:
所述连续音频流含有人类语音,且
音频数据的所述子集遮掩了所述人类语音的内容;
用于针对音频特性分析音频数据的所述子集的装置;以及
用于至少部分基于所述音频特性来确定周围环境的装置。
34.根据权利要求33所述的用于遮掩隐私敏感音频的装置,其中所述用于捕获音频数据的所述子集的装置经配置以根据所述连续音频流的计算函数来捕获音频数据的所述子集,所述计算函数具有比以可理解的保真度再现所述连续音频流所需的位数目少的位。
35.根据权利要求33所述的用于遮掩隐私敏感音频的装置,其中所述用于捕获音频数据的所述子集的装置经配置以捕获音频数据的所述子集,使得音频数据的所述子集包括多个音频数据段,每一音频数据段包括来自所述连续音频流的不同时间分量的数据。
36.根据权利要求35所述的用于遮掩隐私敏感音频的装置,其中所述用于确定所述周围环境的装置经配置以至少部分基于所述音频特性来作出人员身份的确定。
37.根据权利要求35所述的用于遮掩隐私敏感音频的装置,其中所述用于捕获音频数据的所述子集的装置经配置以捕获音频数据的所述子集,使得所述多个音频数据段中的每一者包括30ms到100ms之间的所记录音频。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161488927P | 2011-05-23 | 2011-05-23 | |
US61/488,927 | 2011-05-23 | ||
US13/213,294 | 2011-08-19 | ||
US13/213,294 US8700406B2 (en) | 2011-05-23 | 2011-08-19 | Preserving audio data collection privacy in mobile devices |
PCT/US2012/037783 WO2012162009A1 (en) | 2011-05-23 | 2012-05-14 | Preserving audio data collection privacy in mobile devices |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103620680A true CN103620680A (zh) | 2014-03-05 |
CN103620680B CN103620680B (zh) | 2015-12-23 |
Family
ID=46178795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280030290.3A Active CN103620680B (zh) | 2011-05-23 | 2012-05-14 | 保护移动装置中的音频数据收集隐私 |
Country Status (6)
Country | Link |
---|---|
US (2) | US8700406B2 (zh) |
EP (1) | EP2715722B1 (zh) |
JP (1) | JP5937202B2 (zh) |
KR (1) | KR101580510B1 (zh) |
CN (1) | CN103620680B (zh) |
WO (1) | WO2012162009A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114072792A (zh) * | 2019-07-03 | 2022-02-18 | 高通股份有限公司 | 用于音频渲染的基于密码的授权 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
ES2767097T3 (es) * | 2011-09-30 | 2020-06-16 | Orange | Método, aparatos y aplicaciones para los atributos de oscurecimiento contextual de un perfil de usuario |
US8925037B2 (en) * | 2013-01-02 | 2014-12-30 | Symantec Corporation | Systems and methods for enforcing data-loss-prevention policies using mobile sensors |
US9300266B2 (en) | 2013-02-12 | 2016-03-29 | Qualcomm Incorporated | Speaker equalization for mobile devices |
US9076459B2 (en) * | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
KR102149266B1 (ko) * | 2013-05-21 | 2020-08-28 | 삼성전자 주식회사 | 전자 기기의 오디오 데이터의 관리 방법 및 장치 |
WO2015061712A1 (en) | 2013-10-24 | 2015-04-30 | Tourmaline Labs, Inc. | Systems and methods for collecting and transmitting telematics data from a mobile device |
US10057764B2 (en) * | 2014-01-18 | 2018-08-21 | Microsoft Technology Licensing, Llc | Privacy preserving sensor apparatus |
JP6215129B2 (ja) * | 2014-04-25 | 2017-10-18 | 京セラ株式会社 | 携帯電子機器、制御方法及び制御プログラム |
US10404697B1 (en) | 2015-12-28 | 2019-09-03 | Symantec Corporation | Systems and methods for using vehicles as information sources for knowledge-based authentication |
US10326733B2 (en) | 2015-12-30 | 2019-06-18 | Symantec Corporation | Systems and methods for facilitating single sign-on for multiple devices |
US10116513B1 (en) | 2016-02-10 | 2018-10-30 | Symantec Corporation | Systems and methods for managing smart building systems |
US10375114B1 (en) | 2016-06-27 | 2019-08-06 | Symantec Corporation | Systems and methods for enforcing access-control policies |
US10462184B1 (en) | 2016-06-28 | 2019-10-29 | Symantec Corporation | Systems and methods for enforcing access-control policies in an arbitrary physical space |
US10469457B1 (en) | 2016-09-26 | 2019-11-05 | Symantec Corporation | Systems and methods for securely sharing cloud-service credentials within a network of computing devices |
US10812981B1 (en) | 2017-03-22 | 2020-10-20 | NortonLifeLock, Inc. | Systems and methods for certifying geolocation coordinates of computing devices |
US10540521B2 (en) | 2017-08-24 | 2020-01-21 | International Business Machines Corporation | Selective enforcement of privacy and confidentiality for optimization of voice applications |
GB2567703B (en) * | 2017-10-20 | 2022-07-13 | Cirrus Logic Int Semiconductor Ltd | Secure voice biometric authentication |
DE102019108178B3 (de) * | 2019-03-29 | 2020-06-18 | Tribe Technologies Gmbh | Verfahren und Vorrichtung zur automatischen Überwachung von Telefonaten |
US11354085B2 (en) | 2019-07-03 | 2022-06-07 | Qualcomm Incorporated | Privacy zoning and authorization for audio rendering |
WO2021107218A1 (ko) * | 2019-11-29 | 2021-06-03 | 주식회사 공훈 | 음성 데이터의 프라이버시 보호를 위한 방법 및 디바이스 |
KR20210100368A (ko) | 2020-02-06 | 2021-08-17 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100063803A1 (en) * | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Spectrum Harmonic/Noise Sharpness Control |
Family Cites Families (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4221931A (en) * | 1977-10-17 | 1980-09-09 | Harris Corporation | Time division multiplied speech scrambler |
JPS59111441A (ja) * | 1982-12-17 | 1984-06-27 | Sony Corp | 音声信号の秘話方式 |
US5267312A (en) * | 1990-08-06 | 1993-11-30 | Nec Home Electronics, Ltd. | Audio signal cryptographic system |
JP2655046B2 (ja) * | 1993-09-13 | 1997-09-17 | 日本電気株式会社 | ベクトル量子化装置 |
WO1997027578A1 (en) * | 1996-01-26 | 1997-07-31 | Motorola Inc. | Very low bit rate time domain speech analyzer for voice messaging |
US7930546B2 (en) * | 1996-05-16 | 2011-04-19 | Digimarc Corporation | Methods, systems, and sub-combinations useful in media identification |
US6078666A (en) * | 1996-10-25 | 2000-06-20 | Matsushita Electric Industrial Co., Ltd. | Audio signal processing method and related device with block order switching |
US7809138B2 (en) * | 1999-03-16 | 2010-10-05 | Intertrust Technologies Corporation | Methods and apparatus for persistent control and protection of content |
US6119086A (en) * | 1998-04-28 | 2000-09-12 | International Business Machines Corporation | Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens |
JP3180762B2 (ja) * | 1998-05-11 | 2001-06-25 | 日本電気株式会社 | 音声符号化装置及び音声復号化装置 |
US7457415B2 (en) * | 1998-08-20 | 2008-11-25 | Akikaze Technologies, Llc | Secure information distribution system utilizing information segment scrambling |
US7263489B2 (en) * | 1998-12-01 | 2007-08-28 | Nuance Communications, Inc. | Detection of characteristics of human-machine interactions for dialog customization and analysis |
US6937730B1 (en) * | 2000-02-16 | 2005-08-30 | Intel Corporation | Method and system for providing content-specific conditional access to digital content |
US8677505B2 (en) * | 2000-11-13 | 2014-03-18 | Digital Doors, Inc. | Security system with extraction, reconstruction and secure recovery and storage of data |
US7177808B2 (en) * | 2000-11-29 | 2007-02-13 | The United States Of America As Represented By The Secretary Of The Air Force | Method for improving speaker identification by determining usable speech |
US20040059918A1 (en) * | 2000-12-15 | 2004-03-25 | Changsheng Xu | Method and system of digital watermarking for compressed audio |
US7350228B2 (en) * | 2001-01-23 | 2008-03-25 | Portauthority Technologies Inc. | Method for securing digital content |
JP3946965B2 (ja) * | 2001-04-09 | 2007-07-18 | ソニー株式会社 | 無体財産権を保護する情報を記録する記録装置、記録方法、記録媒体、およびプログラム |
DE10138650A1 (de) * | 2001-08-07 | 2003-02-27 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verschlüsseln eines diskreten Signals sowie Verfahren und Vorrichtung zur Entschlüsselung |
US7143028B2 (en) * | 2002-07-24 | 2006-11-28 | Applied Minds, Inc. | Method and system for masking speech |
GB2392807A (en) * | 2002-09-06 | 2004-03-10 | Sony Uk Ltd | Processing digital data |
FR2846179B1 (fr) * | 2002-10-21 | 2005-02-04 | Medialive | Embrouillage adaptatif et progressif de flux audio |
FR2846178B1 (fr) * | 2002-10-21 | 2005-03-11 | Medialive | Desembrouillage adaptatif et progressif de flux audio |
JP4206876B2 (ja) * | 2003-09-10 | 2009-01-14 | ヤマハ株式会社 | 遠隔地の様子を伝達する通信装置およびプログラム |
US7564906B2 (en) * | 2004-02-17 | 2009-07-21 | Nokia Siemens Networks Oy | OFDM transceiver structure with time-domain scrambling |
US7720012B1 (en) * | 2004-07-09 | 2010-05-18 | Arrowhead Center, Inc. | Speaker identification in the presence of packet losses |
JP2006238110A (ja) * | 2005-02-25 | 2006-09-07 | Matsushita Electric Ind Co Ltd | 監視システム |
EP1725056B1 (en) * | 2005-05-16 | 2013-01-09 | Sony Ericsson Mobile Communications AB | Method for disabling a mobile device |
US8781967B2 (en) * | 2005-07-07 | 2014-07-15 | Verance Corporation | Watermarking in an encrypted domain |
US8700791B2 (en) * | 2005-10-19 | 2014-04-15 | Immersion Corporation | Synchronization of haptic effect data in a media transport stream |
US8214516B2 (en) * | 2006-01-06 | 2012-07-03 | Google Inc. | Dynamic media serving infrastructure |
JP2009534713A (ja) * | 2006-04-24 | 2009-09-24 | ネロ アーゲー | 低減ビットレートを有するデジタル音声データを符号化するための装置および方法 |
US8433915B2 (en) * | 2006-06-28 | 2013-04-30 | Intellisist, Inc. | Selective security masking within recorded speech |
US20080243492A1 (en) * | 2006-09-07 | 2008-10-02 | Yamaha Corporation | Voice-scrambling-signal creation method and apparatus, and computer-readable storage medium therefor |
CN101669308B (zh) * | 2007-02-20 | 2013-03-20 | 尼尔森(美国)有限公司 | 表征媒体的方法和装置 |
JP4245060B2 (ja) * | 2007-03-22 | 2009-03-25 | ヤマハ株式会社 | サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム |
US8243924B2 (en) * | 2007-06-29 | 2012-08-14 | Google Inc. | Progressive download or streaming of digital media securely through a localized container and communication protocol proxy |
JP4914319B2 (ja) * | 2007-09-18 | 2012-04-11 | 日本電信電話株式会社 | コミュニケーション音声処理方法とその装置、及びそのプログラム |
US8379854B2 (en) * | 2007-10-09 | 2013-02-19 | Alcatel Lucent | Secure wireless communication |
KR101444099B1 (ko) * | 2007-11-13 | 2014-09-26 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
US8140326B2 (en) * | 2008-06-06 | 2012-03-20 | Fuji Xerox Co., Ltd. | Systems and methods for reducing speech intelligibility while preserving environmental sounds |
CA2731732A1 (en) * | 2008-07-21 | 2010-01-28 | Auraya Pty Ltd | Voice authentication system and methods |
JP5222680B2 (ja) * | 2008-09-26 | 2013-06-26 | セコム株式会社 | 端末利用者監視装置およびシステム |
US8244531B2 (en) * | 2008-09-28 | 2012-08-14 | Avaya Inc. | Method of retaining a media stream without its private audio content |
US20100114568A1 (en) * | 2008-10-24 | 2010-05-06 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
US20100114344A1 (en) * | 2008-10-31 | 2010-05-06 | France Telecom | Communication system incorporating ambient sound pattern detection and method of operation thereof |
WO2010054373A2 (en) * | 2008-11-10 | 2010-05-14 | Google Inc. | Multisensory speech detection |
EP2221803A2 (en) * | 2009-02-19 | 2010-08-25 | Yamaha Corporation | Masking sound generating apparatus, masking system, masking sound generating method, and program |
KR101581883B1 (ko) * | 2009-04-30 | 2016-01-11 | 삼성전자주식회사 | 모션 정보를 이용하는 음성 검출 장치 및 방법 |
US8200480B2 (en) * | 2009-09-30 | 2012-06-12 | International Business Machines Corporation | Deriving geographic distribution of physiological or psychological conditions of human speakers while preserving personal privacy |
US8861742B2 (en) * | 2010-01-26 | 2014-10-14 | Yamaha Corporation | Masker sound generation apparatus and program |
US20110184740A1 (en) * | 2010-01-26 | 2011-07-28 | Google Inc. | Integration of Embedded and Network Speech Recognizers |
US8423351B2 (en) * | 2010-02-19 | 2013-04-16 | Google Inc. | Speech correction for typed input |
US20110218798A1 (en) * | 2010-03-05 | 2011-09-08 | Nexdia Inc. | Obfuscating sensitive content in audio sources |
US20110216905A1 (en) * | 2010-03-05 | 2011-09-08 | Nexidia Inc. | Channel compression |
US8965545B2 (en) * | 2010-09-30 | 2015-02-24 | Google Inc. | Progressive encoding of audio |
US20120136658A1 (en) * | 2010-11-30 | 2012-05-31 | Cox Communications, Inc. | Systems and methods for customizing broadband content based upon passive presence detection of users |
US8938619B2 (en) * | 2010-12-29 | 2015-01-20 | Adobe Systems Incorporated | System and method for decrypting content samples including distinct encryption chains |
US20120203491A1 (en) * | 2011-02-03 | 2012-08-09 | Nokia Corporation | Method and apparatus for providing context-aware control of sensors and sensor data |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9407706B2 (en) * | 2011-03-31 | 2016-08-02 | Qualcomm Incorporated | Methods, devices, and apparatuses for activity classification using temporal scaling of time-referenced features |
US20130006633A1 (en) * | 2011-07-01 | 2013-01-03 | Qualcomm Incorporated | Learning speech models for mobile device users |
US9159324B2 (en) * | 2011-07-01 | 2015-10-13 | Qualcomm Incorporated | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
-
2011
- 2011-08-19 US US13/213,294 patent/US8700406B2/en active Active
-
2012
- 2012-05-14 KR KR1020137034145A patent/KR101580510B1/ko active IP Right Grant
- 2012-05-14 JP JP2014512870A patent/JP5937202B2/ja active Active
- 2012-05-14 WO PCT/US2012/037783 patent/WO2012162009A1/en unknown
- 2012-05-14 EP EP12724453.1A patent/EP2715722B1/en active Active
- 2012-05-14 CN CN201280030290.3A patent/CN103620680B/zh active Active
-
2014
- 2014-02-21 US US14/186,730 patent/US20140172424A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100063803A1 (en) * | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Spectrum Harmonic/Noise Sharpness Control |
Non-Patent Citations (3)
Title |
---|
DANIEL P.W. ELLIS, ET AL.: "Minimal-Impact Audio-Based Personal Archives.", 《CARPE "04: PROCEEDINGS OF THE FIRST ACM WORKSHOP ON CONTINUOUS ARCHIVAL AND RETRIEVAL OF PERSONAL EXPERIENCES》 * |
ROBERT G. MALKIN: "The CLEAR 2006 CMU Acoustic Environment Classification System", 《MULTIMODAL TECHNOLOGIES FOR PERCEPTION OF HUMANS LECTURE NOTES IN COMPUTER SCIENCE》 * |
UTA CHRISTOPH, ET AL.: "Automatic context detection of a mobile user", 《WIRELESS INFORMATION NETWORKS AND SYSTEMS (WINSYS), PROCEEDINGS OF THE 2010 INTERNATIONAL CONFERENCE ON》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114072792A (zh) * | 2019-07-03 | 2022-02-18 | 高通股份有限公司 | 用于音频渲染的基于密码的授权 |
Also Published As
Publication number | Publication date |
---|---|
WO2012162009A1 (en) | 2012-11-29 |
US20120303360A1 (en) | 2012-11-29 |
US20140172424A1 (en) | 2014-06-19 |
KR101580510B1 (ko) | 2015-12-28 |
JP5937202B2 (ja) | 2016-06-22 |
US8700406B2 (en) | 2014-04-15 |
KR20140021681A (ko) | 2014-02-20 |
JP2014517939A (ja) | 2014-07-24 |
EP2715722A1 (en) | 2014-04-09 |
EP2715722B1 (en) | 2018-06-13 |
CN103620680B (zh) | 2015-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103620680B (zh) | 保护移动装置中的音频数据收集隐私 | |
ES2574680T3 (es) | Sistema y procedimiento de registro de audio inteligente para dispositivos móviles | |
US9159324B2 (en) | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context | |
CN107274885B (zh) | 语音识别方法及相关产品 | |
US20130006633A1 (en) | Learning speech models for mobile device users | |
CN104834847B (zh) | 身份验证方法及装置 | |
KR20180120146A (ko) | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 | |
JP2021516786A (ja) | 複数人の音声を分離する方法、装置、およびコンピュータプログラム | |
CN109473104B (zh) | 语音识别网络延时优化方法及装置 | |
JP7071504B2 (ja) | ネットワーク化されたシステムにおける分散型の識別 | |
CN104158945A (zh) | 通话信息获取方法、装置及系统 | |
CN107316635B (zh) | 语音识别方法及装置、存储介质、电子设备 | |
CN108628813A (zh) | 处理方法和装置、用于处理的装置 | |
CN107656923A (zh) | 语音翻译方法和装置 | |
KR20240100384A (ko) | 신호 부호화/복호화 방법, 장치, 사용자 기기, 네트워크측 기기 및 저장 매체 | |
US9552813B2 (en) | Self-adaptive intelligent voice device and method | |
CN117711420B (zh) | 目标人声提取方法、电子设备及存储介质 | |
CN111833865B (zh) | 一种人机交互方法与终端、计算机可读存储介质 | |
CN105739940A (zh) | 存储方法及装置 | |
CN112929501B (zh) | 语音通话服务方法、装置、设备、介质及计算机程序产品 | |
KR20230132588A (ko) | 오디오 대화에 기초하는 사용자 지향 액션들 | |
CN114005436A (zh) | 语音端点的确定方法、装置及存储介质 | |
CN107391498A (zh) | 语音翻译方法和装置 | |
CN107610697B (zh) | 一种音频处理方法及电子设备 | |
CN112687293A (zh) | 一种基于机器学习及数据挖掘的智能坐席训练方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |