CN116584112A - 使用声学直接序列扩频信号估计声学场景度量 - Google Patents
使用声学直接序列扩频信号估计声学场景度量 Download PDFInfo
- Publication number
- CN116584112A CN116584112A CN202180081314.7A CN202180081314A CN116584112A CN 116584112 A CN116584112 A CN 116584112A CN 202180081314 A CN202180081314 A CN 202180081314A CN 116584112 A CN116584112 A CN 116584112A
- Authority
- CN
- China
- Prior art keywords
- audio
- dsss
- signal
- audio device
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 299
- 230000008569 process Effects 0.000 claims description 118
- 238000003892 spreading Methods 0.000 claims description 105
- 230000007480 spreading Effects 0.000 claims description 104
- 230000001427 coherent effect Effects 0.000 claims description 68
- 230000008859 change Effects 0.000 claims description 60
- 238000012545 processing Methods 0.000 claims description 50
- 238000003672 processing method Methods 0.000 claims description 43
- 230000010354 integration Effects 0.000 claims description 39
- 230000004044 response Effects 0.000 claims description 27
- 230000003111 delayed effect Effects 0.000 claims description 24
- 230000008447 perception Effects 0.000 claims description 15
- 230000000873 masking effect Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 abstract description 19
- 238000009877 rendering Methods 0.000 abstract description 10
- 230000000875 corresponding effect Effects 0.000 description 64
- 238000005259 measurement Methods 0.000 description 40
- 238000010586 diagram Methods 0.000 description 23
- 230000001276 controlling effect Effects 0.000 description 13
- 238000013459 approach Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000005457 optimization Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000001934 delay Effects 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000010363 phase shift Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Landscapes
- Stereophonic System (AREA)
Abstract
一些方法可以涉及接收包括第一音频信号的第一内容流,渲染第一音频信号以产生第一音频回放信号,生成第一直接序列扩频(DSSS)信号,通过将第一DSSS信号插入第一音频回放信号来产生第一修改音频回放信号,以及使扩音器系统回放第一修改音频回放信号,以生成第一音频设备回放声音。该(多个)方法可以涉及接收对应于至少第一音频设备回放声音和第二至第N音频设备回放声音的麦克风信号,第二至第N音频设备回放声音对应于由第二至第N音频设备回放的第二至第N修改音频回放信号(包括第二至第NDSSS信号),从麦克风信号中提取第二至第N DSSS信号,以及至少部分地基于第二至第N DSSS信号来估计至少一个声学场景度量。
Description
相关申请的交叉引用
本申请要求2020年12月3日提交的美国临时专利申请No.63/121,085;2021年9月7日提交的美国临时专利申请No.63/260,953;2020年12月3日提交的美国临时专利申请No.63/120,887;以及2021年5月4日提交的美国临时专利申请No.63/201,561的优先权权益,其内容通过引用并入本文。
技术领域
本公开涉及音频处理系统和方法。
背景技术
音频设备和系统被广泛部署。尽管用于估计声学场景度量(例如,音频设备可听度)的现有系统和方法是已知的,但是改进的系统和方法是期望的。
符号和命名法
贯穿本公开,包括在权利要求中,术语“扬声器”、“扩音器”和“音频再现换能器”被同义地使用以表示任何发出声音的换能器(或换能器组)。典型的耳机组包括两个扬声器。扬声器可以被实现为包括多个换能器(例如,低音扬声器和高音扬声器),它们可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中,(多个)扬声器馈送可以在耦合到不同换能器的不同电路分支中经历不同处理。
贯穿本公开,包括在权利要求中,表述“对”信号或数据执行操作(例如,对信号或数据进行滤波、缩放、变换或应用增益)在广义上用于表示直接对信号或数据执行操作,或对信号或数据的经处理版本(例如,对其执行操作之前已经历初步滤波或预处理的信号版本)执行操作。
贯穿本公开,包括在权利要求中,表述“系统”在广义上用于表示设备、系统或子系统。例如,实现解码器的子系统可以称为解码器系统,而包括这种子系统的系统(例如,响应于多个输入生成X个输出信号的系统,其中子系统生成M个输入,而其他X–M个输入是从外部源接收的)也可以称为解码器系统。
贯穿本公开,包括在权利要求中,术语“处理器”在广义上用于表示可编程或以其他方式可配置(例如,使用软件或固件)以对数据(例如,音频或视频或其他图像数据)执行操作。处理器的示例包括现场可编程门阵列(或其他可配置的集成电路或芯片组)、被编程和/或以其他方式配置为对音频或其他声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机、和可编程微处理器芯片或芯片组。
贯穿本公开,包括在权利要求中,术语“耦合”或“耦合到”用于表示直接或间接连接。因此,如果第一设备耦合到第二设备,则该连接可以是通过直接连接,或通过经由其他设备和连接的间接连接。
如本文所使用的,“智能设备”是一种电子设备,通常被配置用于经由可以在某种程度上交互和/或自主运行的各种无线协议(例如是蓝牙、Zigbee、近场通信、Wi-Fi、光保真(Li-Fi)、3G、4G、5G等)与一个或多个其他设备(或网络)通信。几种值得注意的智能设备类型是智能手机、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板电脑、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以指代展现诸如人工智能之类的普适计算的某些性质的设备。
在此,我们使用表述“智能音频设备”来表示如下智能设备:它可以是单一用途的音频设备,也可以是多用途的音频设备(例如,至少实现虚拟助手功能的某些方面的音频设备)。单一用途音频设备是包括或耦合到至少一个麦克风(并且可选地还包括或耦合到至少一个扬声器和/或至少一个相机)的设备(例如,电视(TV)),并且它是大体或主要为实现单一目的而设计的。例如,尽管电视通常可以播放(并且被认为能够播放)节目素材中的音频,但在大多数情况下,现代电视运行某种操作系统,应用在该操作系统上本地运行,包括看电视的应用。从这个意义上讲,具有(多个)扩音器和(多个)麦克风的单一用途音频设备通常被配置为运行本地应用和/或服务,以直接使用(多个)扬声器和(多个)麦克风。一些单一用途的音频设备可以被配置为分组在一起以实现在地区或用户配置的区域上播放音频。
一种常见类型的多用途音频设备是实现虚拟助手功能的至少一些方面的音频设备,尽管虚拟助手功能的其他方面可以由一个或多个其他设备实现,例如一个或多个服务器,其中多用途音频设备被配置用于通信。这样的多用途音频设备在本文中可以被称为“虚拟助手”。虚拟助手是包括或耦合到至少一个麦克风(并且可选地还包括或耦合到至少一个扬声器和/或至少一个相机)的设备(例如,智能扬声器或语音助手集成设备)。在一些示例中,虚拟助手可以提供将多个设备(不同于虚拟助手)用于在某种意义上是支持云的或以其他方式未完全在虚拟助手自身之中或之上实现的应用的能力。换言之,虚拟助手功能的至少一些方面,例如语音识别功能,可以(至少部分地)由一个或多个服务器或虚拟助手可以经由网络(例如互联网)与之通信的其他设备来实现。虚拟助手有时可以一起工作,例如,以离散和有条件定义的方式。例如,两个或更多虚拟助手可以在其中一个(例如,最有信心听到唤醒词的那个)响应唤醒词的意义上一起工作。在一些实现中,所连接的虚拟助手可以形成一种星座,其可以由可以是(或实现)虚拟助手的一个主应用管理。
在此,“唤醒词”在广义上用于表示任何声音(例如,人说出的词,或一些其他声音),其中智能音频设备被配置为响应于检测到(“听到”)声音(使用包括在智能音频设备中或耦合到智能音频设备的至少一个麦克风,或至少一个其他麦克风)而唤醒。在此上下文中,“唤醒”表示设备进入等待(换言之,正在收听)声音命令的状态。在一些情况下,本文中可称为“唤醒词”的内容可以包括多于一个词,例如短语。
在此,表述“唤醒词检测器”表示被配置为连续搜索实时声音(例如,语音)特征与训练模型之间的对准的设备(或包括用于配置设备的指令的软件)。通常,无论何时唤醒词检测器确定检测到唤醒词的概率超过预定义的阈值,就会触发唤醒词事件。例如,阈值可以是预先确定的阈值,其被调整以在错误接受率和错误拒绝率之间给出合理的折衷。在唤醒词事件之后,设备可能会进入如下状态(可以称为“唤醒”状态或“专注”状态):在该状态下它会收听命令并将接收到的命令传递给更大、更计算密集型的识别器。
如本文所使用的,术语“节目流”和“内容流”指的是一个或多个音频信号的集合,并且在一些情况下是视频信号,其中的至少一部分旨在被一起听到。示例包括音乐、电影配乐、电影、电视节目、电视节目的音频部分、播客、实时语音呼叫、来自智能助手的合成语音响应等的选集。在一些情况下,内容流可以包括音频信号的至少一部分的多个版本,例如,多于一种语言的相同对话。在这种情况下,旨在一个时间再现音频数据或其一部分的仅一个版本(例如,对应于一种语言的版本)。
发明内容
本公开的至少一些方面可以经由一个或多个音频处理方法来实现。在一些情况下,(多个)方法可以至少部分地由控制系统和/或经由存储在一个或多个非瞬态介质上的指令(例如,软件)来实现。一些方法涉及由控制系统使音频环境的第一音频设备生成第一直接序列扩频(DSSS)信号。根据一些实现,控制系统可以是或可以包括编排(orchestrating)设备控制系统。一些这样的方法涉及由控制系统使第一DSSS信号被插入对应于第一内容流的第一音频回放信号中,以生成用于第一音频设备的第一修改音频回放信号。一些这样的方法涉及由控制系统使第一音频设备回放第一修改音频回放信号,以生成第一音频设备回放声音。
一些这样的方法涉及由控制系统使音频环境的第二音频设备生成第二DSSS信号。一些这样的方法涉及由控制系统使第二DSSS信号被插入第二内容流中以生成用于第二音频设备的第二修改音频回放信号。一些这样的方法涉及由控制系统使第二音频设备回放第二修改音频回放信号,以生成第二音频设备回放声音。一些方法可以涉及使音频环境中的多个音频设备中的每一个同时回放修改音频回放信号。
一些这样的方法涉及由控制系统使音频环境的至少一个麦克风检测至少第一音频设备回放声音和第二音频设备回放声音,并且生成对应于至少第一音频设备回放声音和第二音频设备回放声音的麦克风信号。一些这样的方法涉及由控制系统使得从麦克风信号中提取第一DSSS信号和第二DSSS信号。一些这样的方法涉及由控制系统使得至少部分地基于第一DSSS信号和第二DSSS信号来估计至少一个声学场景度量。一些方法可以涉及至少部分地基于至少一个声学场景度量来控制音频设备回放的一个或多个方面。
在一些示例中,至少一个声学场景度量可以包括飞行时间、到达时间、距离、音频设备可听度、音频设备脉冲响应、音频设备之间的角度、音频设备位置、音频环境噪声或信噪比中的一个或多个。根据一些示例,使得估计至少一个声学场景度量可以涉及估计至少一个声学场景度量。备选地或附加地,使得估计至少一个声学场景度量可以涉及使另一设备估计至少一个声学场景度量。
在一些示例中,第一音频设备回放声音的第一内容流分量可以导致第一音频设备回放声音的第一DSSS信号分量的感知掩蔽(perceptual masking)。在一些示例中,第二音频设备回放声音的第二内容流分量可以导致第二音频设备回放声音的第二DSSS信号分量的感知掩蔽。
一些方法可以涉及由控制系统使音频环境的三个或更多个音频设备生成三个或更多个直接序列扩频(DSSS)信号。一些这样的方法可以涉及由控制系统使三个或更多个DSSS信号被插入三个或更多个内容流中,以生成用于三个或更多个音频设备的三个或更多个修改音频回放信号。一些这样的方法可以涉及由控制系统使三个或更多个音频设备回放三个或更多个修改音频回放信号的对应实例,以生成音频设备回放声音的三个或更多个实例。
一些这样的方法可以涉及由控制系统使音频环境的第三至第N音频设备生成第三至第N直接序列扩频(DSSS)信号。一些这样的方法可以包括由控制系统使第三至第N DSSS信号被插入第三至第N内容流中,以生成用于第三至第N音频设备的第三至第N修改音频回放信号。一些这样的方法可以涉及由控制系统使第三至第N音频设备回放第三至第N修改音频回放信号的对应实例,以生成音频设备回放声音的第三至第N实例。
一些方法可以涉及由控制系统使第一至第N音频设备中的每一个的至少一个麦克风检测音频设备回放声音的第一至第N实例并生成对应于音频设备回放声音的第一至第N实例的麦克风信号。在一些示例中,音频设备回放声音的第一至第N实例可以包括第一音频设备回放声音、第二音频设备回放声音和音频设备回放声音的至少第三实例(在一些示例中,第三至第N实例)。
一些这样的方法可以涉及由控制系统使得从麦克风信号中提取第一至第N DSSS信号。在一些示例中,可以至少部分地基于第一至第N DSSS信号来估计至少一个声学场景度量。
一些方法可以涉及为音频环境中的多个音频设备确定一个或多个DSSS参数。在一些示例中,一个或多个DSSS参数可用于生成DSSS信号。一些这样的方法可以涉及向多个音频设备中的每个音频设备提供一个或多个DSSS参数。
在一些示例中,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备调度用于回放修改音频回放信号的时隙。在一些这样的示例中,第一音频设备的第一时隙可以不同于第二音频设备的第二时隙。
根据一些示例,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备确定用于回放修改音频回放信号的频带。在一些这样的示例中,第一音频设备的第一频带可以不同于第二音频设备的第二频带。
在一些示例中,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备确定扩展码。根据一些这样的示例,第一音频设备的第一扩展码可以不同于第二音频设备的第二扩展码。
一些方法可以涉及确定至少部分地基于对应音频设备的可听度的至少一个扩展码长度。在一些示例中,确定一个或多个DSSS参数可以涉及应用至少部分地基于音频环境中的多个音频设备中的每一个的相互可听度(mutual audibility)的声学模型。
根据一些示例,确定一个或多个DSSS参数可以涉及确定当前回放目标。一些这样的方法可以涉及应用至少部分地基于音频环境中的多个音频设备中的每一个的相互可听度的声学模型,以确定音频环境中DSSS信号的估计性能。一些这样的方法可以涉及应用基于人类声音感知的感知模型,以确定音频环境中DSSS信号的感知影响。一些这样的方法可以涉及至少部分地基于当前回放目标、估计的性能和感知影响中的一个或多个来确定一个或多个DSSS参数。
在一些示例中,确定一个或多个DSSS参数可以涉及检测DSSS参数改变触发。一些这样的方法可以涉及确定对应于DSSS参数改变触发的一个或多个新的DSSS参数。一些这样的方法可以涉及向音频环境的一个或多个音频设备提供一个或多个新的DSSS参数。
根据一些示例,检测DSSS参数改变触发可以涉及检测以下一个或多个:音频环境中的新音频设备、音频设备位置的改变、音频设备取向的改变、音频设备设置的改变、人在音频环境中的位置的改变、音频环境中再现的音频内容类型的改变、音频环境中的背景噪声的改变、音频环境配置改变,包括但不限于音频环境的门或窗的改变配置、音频环境的两个或更多个音频设备之间的时钟偏斜(clock skew)、音频环境的两个或更多个音频设备之间的时钟偏差(clock bias)、音频环境的两个或更多个音频设备之间的相互可听度的改变、或者回放目标的改变。
一些方法可以涉及处理接收到的麦克风信号以产生预处理的麦克风信号。在一些这样的示例中,DSSS信号可以从预处理的麦克风信号中提取。处理接收到的麦克风信号可以例如涉及波束成形、应用带通滤波器或回声消除中的一个或多个。
根据一些示例,使得从麦克风信号中提取至少第一DSSS信号和第二DSSS信号可以涉及将匹配滤波器应用于麦克风信号或麦克风信号的预处理版本,以产生延迟波形。在一些示例中,延迟波形可以至少包括基于第一DSSS信号的第一延迟波形和基于第二DSSS信号的第二延迟波形。一些方法可以涉及对延迟波形应用低通滤波器。根据一些示例,应用匹配滤波器可以是解调过程的一部分。在一些示例中,解调过程的输出可以是解调相干基带信号。
一些方法可以涉及估计体延迟(bulk delay)并向解调过程提供体延迟估计。一些方法可以涉及对解调相干基带信号执行基带处理。在一些示例中,基带处理可以输出至少一个估计的声学场景度量。
根据一些示例,基带处理可以涉及基于在非相干积分周期期间接收到的解调相干基带信号来产生非相干积分延迟波形。在一些示例中,产生非相干积分延迟波形可以涉及对在非相干积分(incoherent integration)时段期间接收到的解调相干基带信号进行平方,以产生平方解调基带信号。一些这样的示例可以涉及对平方解调基带信号进行积分。在一些示例中,基带处理可以涉及对非相干积分延迟波形应用前沿估计过程、受控响应功率估计过程或信噪比估计过程中的一个或多个。
一些方法可以涉及估计体延迟。一些这样的示例可以涉及向基带处理提供体延迟估计。
一些方法可以涉及至少估计第一音频设备位置处的第一噪声功率级别和估计第二音频设备位置处的第二噪声功率级别。在一些示例中,估计第一噪声功率级别可以基于第一延迟波形并且估计第二噪声功率级别可以基于第二延迟波形。一些这样的示例可以涉及至少部分地基于估计的第一噪声功率级别和估计的第二噪声功率级别产生针对音频环境的分布式噪声估计。
一些方法可以涉及执行异步双向测距过程以消除两个异步音频设备之间的未知时钟偏差。在一些示例中,异步双向测距过程可以基于由两个异步音频设备中的每一个发送的DSSS信号。一些这样的示例可以涉及在音频环境的多个音频设备对中的每一对之间执行异步双向测距过程。
一些方法可以涉及执行时钟偏差估计过程以确定两个异步音频设备之间的估计时钟偏差。在一些示例中,时钟偏差估计过程可以基于由两个异步音频设备中的每一个发送的DSSS信号。一些这样的示例可以涉及补偿估计时钟偏差。
一些方法可以涉及在音频环境的多个音频设备中的每一个之间执行时钟偏差估计过程,以产生多个估计时钟偏差。一些这样的示例可以涉及针对多个估计时钟偏差中的每个估计时钟偏差进行补偿。
一些方法可以涉及执行时钟偏斜估计过程以确定两个异步音频设备之间的估计时钟偏斜。在一些示例中,时钟偏斜估计过程可以基于由两个异步音频设备中的每一个发送的DSSS信号。一些这样的示例可以涉及针对估计时钟偏斜进行补偿。一些方法可以涉及在音频环境的多个音频设备中的每一个之间执行时钟偏斜估计过程,以产生多个估计时钟偏斜。一些这样的示例可以涉及针对多个估计时钟偏斜中的每个估计时钟偏斜进行补偿。
一些方法可以涉及检测音频设备传输的DSSS信号。在一些示例中,DSSS信号可以对应于第一扩展码。一些这样的示例可以涉及为音频设备提供第二扩展码。在一些示例中,第一扩展码可以是或者可以包括为新激活的音频设备预留的第一伪随机数序列。
在一些示例中,第一音频回放信号的至少一部分、第二音频回放信号的至少一部分、或者第一音频回放信号和第二音频回放信号中的每一个的至少一部分对应于静音。
本公开的至少一些方面可以经由装置来实现。例如,一个或多个设备可能能够至少部分地执行本文公开的方法。在一些实现中,装置是或包括具有接口系统和控制系统的音频处理系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、离散硬件组件或其组合。
根据一些实现,该装置还可以包括扩音器系统,该扩音器系统包括至少一个扩音器。在一些实现中,该装置还可以包括麦克风系统,该麦克风系统包括至少一个麦克风。
在一些实现中,控制系统可以被配置为接收第一内容流。第一内容流可以包括第一音频信号。在一些这样的示例中,控制系统可以被配置为渲染第一音频信号以产生第一音频回放信号。在一些这样的实现中,控制系统可以被配置为生成第一直接序列扩频(DSSS)信号。在一些这样的示例中,控制系统可以被配置为将第一DSSS信号插入到第一音频回放信号中,以生成第一修改音频回放信号。在一些示例中,将第一DSSS信号插入到第一音频回放信号中可以涉及混合第一DSSS信号和第一音频回放信号。在一些这样的实现中,控制系统可以被配置为使扩音器系统回放第一修改音频回放信号,以生成第一音频设备回放声音。
根据一些示例,控制系统可以包括被配置为生成DSSS信号的DSSS信号生成器。在一些示例中,控制系统可以包括被配置为调制由DSSS信号生成器生成的DSSS信号以产生第一DSSS信号的DSSS信号调制器。在一些示例中,控制系统可以包括被配置为将第一DSSS信号插入第一音频回放信号以生成第一修改音频回放信号的DSSS信号注入器。
在一些示例中,控制系统可以被配置为从麦克风系统接收至少对应于第一音频设备回放声音和第二音频设备回放声音的麦克风信号。在一些示例中,第二音频设备回放声音可以对应于由第二音频设备回放的第二修改音频回放信号。在一些情况下,第二修改音频回放信号可以包括第二DSSS信号。在一些示例中,控制系统可以被配置为从麦克风信号中至少提取第二DSSS信号。
在一些实现中,控制系统可以被配置为从麦克风系统接收对应于至少第一音频设备回放声音和第二至第N音频设备回放声音的麦克风信号。在一些示例中,第二至第N音频设备回放声音可以对应于由第二至第N音频设备回放的第二至第N修改音频回放信号。在一些示例中,第二至第N修改音频回放信号可以包括第二至第N DSSS信号。在一些实现中,控制系统可以被配置为从麦克风信号中提取至少第二至第N DSSS信号。
在一些示例中,控制系统可以被配置为至少部分地基于第二至第N DSSS信号来估计至少一个声学场景度量。在一些示例中,至少一个声学场景度量可以包括飞行时间、到达时间、距离、音频设备可听度、音频设备脉冲响应、音频设备之间的角度、音频设备位置、音频环境噪声或信噪比中的一个或多个。在一些实现中,控制系统可以被配置为至少部分地基于至少一个声学场景度量和/或至少一个音频设备特性来控制音频设备回放的一个或多个方面。
在一些示例中,控制系统可以被配置为确定音频环境中的多个音频设备中的每个音频设备的一个或多个DSSS参数。在一些示例中,一个或多个DSSS参数可用于生成DSSS信号。在一些这样的实现中,控制系统可以被配置为向多个音频设备中的每个音频设备提供一个或多个DSSS参数。
在一些示例中,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备调度用于回放修改音频回放信号的时隙。在一些这样的示例中,第一音频设备的第一时隙可以不同于第二音频设备的第二时隙。
根据一些示例,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备确定用于回放修改音频回放信号的频带。在一些情况下,第一音频设备的第一频带可以不同于第二音频设备的第二频带。
在一些实现中,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备确定扩展码。在一些情况下,第一音频设备的第一扩展码可以不同于第二音频设备的第二扩展码。在一些示例中,控制系统可以被配置为至少部分地基于对应音频设备的可听度来确定至少一个扩展码长度。根据一些实现,确定一个或多个DSSS参数可以涉及应用声学模型,该声学模型至少部分地基于音频环境中的多个音频设备中的每一个的相互可听度。
在一些实现中,确定一个或多个DSSS参数可以涉及确定当前回放目标。在一些这样的示例中,确定一个或多个DSSS参数可以涉及应用至少部分地基于音频环境中的多个音频设备中的每一个的相互可听度的声学模型,以确定DSSS信号在音频环境中的估计性能。在一些这样的示例中,确定一个或多个DSSS参数可以涉及应用基于人类声音感知的感知模型以确定音频环境中DSSS信号的感知影响。在一些这样的示例中,确定一个或多个DSSS参数可以至少部分地基于当前回放目标、估计性能或感知影响中的一个或多个。在一些示例中,确定一个或多个DSSS参数可以至少部分地基于当前回放目标、估计性能和感知影响。
根据一些实现,确定一个或多个DSSS参数可以涉及检测DSSS参数改变触发。在一些这样的实现中,控制系统可以被配置为确定对应于DSSS参数改变触发的一个或多个新的DSSS参数。在一些这样的实现中,控制系统可以被配置为向音频环境的一个或多个音频设备提供一个或多个新的DSSS参数。
在一些实现中,检测DSSS参数改变触发可以涉及检测以下一个或多个:音频环境中的新音频设备、音频设备位置的改变、音频设备取向的改变、音频设备设置的改变、在音频环境中的人的位置的改变、音频环境中再现的音频内容类型的改变、音频环境中的背景噪声的改变、音频环境配置改变,包括但不限于音频环境的门或窗的改变配置、音频环境的两个或更多个音频设备之间的时钟偏差、音频环境的两个或更多个音频设备之间的时钟偏差、音频环境的两个或更多个音频设备之间的相互可听度的改变、或者回放目标的改变。
在一些实现中,控制系统可以被配置为处理接收到的麦克风信号,以产生预处理的麦克风信号。在一些这样的示例中,控制系统可以被配置为从预处理的麦克风信号中提取DSSS信号。在一些实现中,处理接收到的麦克风信号可以涉及波束成形、应用带通滤波器或回声消除中的一个或多个。
根据一些示例,从麦克风信号中提取至少第二至第N DSSS信号可以涉及将匹配滤波器应用于麦克风信号或麦克风信号的预处理版本,以产生第二至第N延迟波形。在一些这样的示例中,第二至第N延迟波形可以对应于第二至第N DSSS信号中的每一个。在一些示例中,控制系统可以被配置为将低通滤波器应用于第二至第N延迟波形中的每一个。
在一些实现中,控制系统可以被配置为实现解调器。在一些这样的实现中,应用匹配滤波器可以是解调器执行的解调过程的一部分。在一些这样的示例中,解调过程的输出可以是解调相干基带信号。
在一些示例中,控制系统可以被配置为估计体延迟并且向解调器提供体延迟估计。在一些实现中,控制系统可以被配置为实现基带处理器,该基带处理器被配置用于对解调相干基带信号进行基带处理。在一些这样的示例中,基带处理器可以被配置为输出至少一个估计的声学场景度量。
根据一些示例,基带处理可以涉及基于在非相干积分周期期间接收到的解调相干基带信号来产生非相干积分延迟波形。在一些示例中,产生非相干积分延迟波形可以涉及对在非相干积分时段期间接收到的解调相干基带信号进行平方,以产生平方解调基带信号,并对平方解调基带信号进行积分。根据一些示例,基带处理可以涉及对非相干积分延迟波形应用前沿估计过程、受控响应功率估计过程或信噪比估计过程中的一个或多个。在一些示例中,控制系统可以被配置为估计体延迟并且向基带处理器提供体延迟估计。
在一些实现中,控制系统可以被配置为基于第二至第N延迟波形来估计在第二至第N音频设备位置处的第二至第N噪声功率级别。在一些这样的示例中,控制系统可以被配置为至少部分地基于第二至第N噪声功率级别来产生针对音频环境的分布式噪声估计。
在一些示例中,控制系统可以被配置为执行异步双向测距过程以消除两个异步音频设备之间的未知时钟偏差。根据一些示例,异步双向测距过程可以基于由两个异步音频设备中的每一个发送的DSSS信号。在一些示例中,控制系统可以进一步被配置为在音频环境的多个音频设备中的每一个之间执行异步双向测距过程。
在一些实现中,控制系统可以被配置为执行时钟偏斜估计过程以确定两个异步音频设备之间的估计时钟偏斜。在一些示例中,时钟偏斜估计过程可以基于由两个异步音频设备中的每一个发送的DSSS信号。在一些实现中,控制系统可以被配置用于针对估计时钟偏斜进行补偿。
在一些示例中,控制系统可以被配置为在音频环境的多个音频设备中的每一个之间执行时钟偏斜估计过程,以产生多个估计时钟偏斜。在一些实现中,控制系统可以被配置为针对多个估计时钟偏斜中的每个估计时钟偏斜进行补偿。
在一些实现中,控制系统可以被配置为执行时钟偏差估计过程以确定两个异步音频设备之间的估计时钟偏差。在一些实现中,时钟偏差估计过程可以基于由两个异步音频设备中的每一个发送的DSSS信号。在一些这样的示例中,控制系统可以被配置用于针对估计时钟偏差进行补偿。
在一些示例中,控制系统可以被配置为在音频环境的多个音频设备中的每一个之间执行时钟偏差估计过程,以产生多个估计时钟偏差。在一些这样的示例中,控制系统可以被配置为针对多个估计时钟偏差中的每个估计时钟偏差进行补偿。
在一些实现中,控制系统可以被配置为检测由音频设备发送的DSSS信号。在一些这样的示例中,DSSS信号可以对应于第一扩展码。在一些这样的示例中,第一扩展码可以是或者可以包括为新激活的音频设备预留的第一伪随机数序列。在一些实现中,控制系统可以被配置为向音频设备提供用于未来发送的第二扩展码。
在一些示例中,控制系统可以被配置为使音频环境中的多个音频设备中的每一个同时回放修改音频回放信号。
本公开的一些附加方面可以经由一个或多个方法来实现。在一些情况下,(多个)方法可以至少部分地由控制系统和/或经由存储在一个或多个非瞬态介质上的指令(例如,软件)来实现。一些方法可以涉及由控制系统接收第一内容流。第一内容流可以包括第一音频信号。一些这样的方法涉及由控制系统渲染第一音频信号以产生第一音频回放信号。一些这样的方法涉及由控制系统生成第一直接序列扩频(DSSS)信号。一些这样的方法涉及由控制系统将第一DSSS信号插入到第一音频回放信号中以生成第一修改音频回放信号。一些这样的方法涉及由控制系统使扩音器系统回放第一修改音频回放信号,以生成第一音频设备回放声音。
一些方法可以涉及由控制系统并且从麦克风系统接收至少对应于第一音频设备回放声音和第二个音频设备回放声音的麦克风信号。在一些示例中,第二音频设备回放声音可以对应于由第二音频设备回放的第二修改音频回放信号。在一些示例中,第二修改音频回放信号可以包括第二DSSS信号。一些方法可以涉及由控制系统从麦克风信号中提取至少第二DSSS信号。
一些方法可以涉及由控制系统并且从麦克风系统接收至少对应于第一音频设备回放声音和对应于第二至第N音频设备回放声音的麦克风信号。在一些示例中,第二至第N音频设备回放声音可以对应于由第二至第N音频设备回放的第二至第N修改音频回放信号。在一些示例中,第二至第N修改音频回放信号可以包括第二至第NDSSS信号。一些方法可以涉及由控制系统从麦克风信号中提取至少第二至第N DSSS信号。
一些方法可以涉及由控制系统至少部分地基于第二至第N DSSS信号来估计至少一个声学场景度量。在一些示例中,至少一个声学场景度量包括飞行时间、到达时间、距离、音频设备可听度、音频设备脉冲响应、音频设备之间的角度、音频设备位置、音频环境噪声或信噪比中的一个或多个。
一些方法可以涉及由控制系统至少部分地基于至少一个声学场景度量、至少一个音频设备特性或至少一个声学场景度量和至少一个音频设备特性两者来控制音频设备回放的一个或多个方面。
在一些示例中,第一音频设备回放声音的第一内容流分量可以导致第一音频设备回放声音的第一DSSS信号分量的感知掩蔽。
一些方法可以涉及由控制系统为音频环境中的多个音频设备中的每个音频设备确定一个或多个DSSS参数。在一些示例中,一个或多个DSSS参数可用于生成DSSS信号。一些方法可以涉及由控制系统向多个音频设备中的每个音频设备提供一个或多个DSSS参数。
在一些示例中,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备调度用于回放修改音频回放信号的时隙。在一些示例中,第一音频设备的第一时隙可以不同于第二音频设备的第二时隙。根据一些示例,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备确定用于回放修改音频回放信号的频带。在一些示例中,第一音频设备的第一频带可以不同于第二音频设备的第二频带。
根据一些示例,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备确定扩展码。在一些情况下,第一音频设备的第一扩展码可以不同于第二音频设备的第二扩展码。一些示例可以涉及确定至少一个扩展码长度,扩展码长度至少部分地基于对应音频设备的可听度。在一些示例中,确定一个或多个DSSS参数可以涉及应用声学模型,该声学模型至少部分地基于音频环境中的多个音频设备中的每一个的相互可听度。
在一些示例中,第一音频信号的至少一部分可以对应于静音。
本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非瞬态介质上的指令(例如,软件)来执行。这样的非瞬态介质可以包括诸如本文所描述的那些存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此,本公开中描述的主题的一些创新方面可以经由其上存储有软件的一个或多个非瞬态介质来实现。
本说明书中描述的主题的一个或多个实现的细节在附图和下面的描述中阐述。其他特征、方面和优点将从说明书、附图和权利要求中变得显而易见。请注意,以下附图的相对尺寸可能未按比例绘制。
附图说明
各附图中相同的附图标记和名称指示相同的元件。
图1A示出了音频环境的示例。
图1B是示出能够实施本公开的各个方面的装置的组件示例的框图。
图2是示出根据一些公开实现的音频设备元件的示例的框图。
图3是示出根据另一公开实现的音频设备元件的示例的框图。
图4是示出根据另一公开实现的音频设备元件的示例的框图。
图5是示出在频率范围内音频设备回放声音的内容流分量和音频设备回放声音的DSSS信号分量的级别示例的图表。
图6是示出具有不同带宽但位于相同中心频率处的两个DSSS信号的功率示例的图表。
图7示出了根据一个示例的编排模块的元件。
图8示出了音频环境的另一个示例。
图9示出了图8的音频设备100B和100C产生的声学DSSS信号的主瓣的示例。
图10是提供时域多址(TDMA)方法示例的图表。
图11是示出频域多址(FDMA)方法示例的图表。
图12是示出编排方法的另一个示例的图表。
图13是示出编排方法的另一个示例的图表。
图14示出了根据另一个示例的音频环境的元件。
图15是概述所公开的音频设备编排方法的另一个示例的流程图。
图16示出了另一个音频环境示例。
图17是示出根据一些公开实现的DSSS信号解调器元件、基带处理器元件和DSSS信号生成器元件的示例的框图。
图18示出了根据另一个示例的DSSS信号解调器的元件。
图19是示出根据一些公开实现的基带处理器元件示例的框图。
图20示出了延迟波形的示例。
图21示出了根据另一实现的块的示例。
图22示出了根据又一实现的块的示例。
图23是示出根据一些公开实现的音频设备元件示例的框图。
图24示出了另一个示例实现的块。
图25示出了音频环境的另一个示例。
图26是根据一个示例的时序图。
图27是示出根据一个示例在估计两个异步音频设备之间的飞行时间时的相关时钟项的时序图。
图28是示出可以如何经由单个声学DSSS信号检测两个音频设备之间的相对时钟偏斜的示例的图表。
图29是示出可以如何经由对单个声学DSSS信号进行的多次测量来检测两个音频设备之间的相对时钟偏斜的示例的图表。
图30是示出为设备发现预留的声学DSSS扩展码示例的图表。
图31示出了音频环境的另一个示例。
图32A示出了图31的音频设备100C基于从音频设备100A和100B接收到的声学DSSS信号而产生的延迟波形的示例。
图32B示出了图31的音频设备100B基于从音频设备100A和100C接收到的声学DSSS信号而产生的延迟波形的示例。
图33是概述所公开方法的另一个示例的流程图。
图34是概述所公开方法的另一个示例的流程图。
图35、36A和36B是示出根据一些实现的多个音频设备如何编排测量会话的示例的流程图。
具体实施方式
为了实现媒体和娱乐内容的引人注目的空间回放,应评估并考虑可用扬声器的物理布局和相关能力。类似地,为了提供高质量的语音驱动的交互(与虚拟助手和远程谈话者两者),用户既需要被听到,也需要听到经由扩音器再现的对话。预期随着更多协作设备被添加到音频环境中,对用户的组合效用将增加,因为设备将更常见地处于方便的语音范围内。由于可以利用媒体呈现的空间性,更多数量的扬声器允许更好的沉浸感。
设备之间的充分的编排和合作可能会实现这些机会和体验。关于每个音频设备的声学信息是这种编排和合作的关键分量。这样的声学信息可以包括每个扩音器从音频环境中的不同位置的可听度,以及音频环境中的噪声量。
一些先前的映射和校准智能音频设备的星座的方法需要专门的校准过程,从而从音频设备播放已知刺激(通常一个时间播放一个音频设备),同时一个或多个麦克风记录。尽管可以通过创造性的声音设计使这个过程对选定的用户群体具有吸引力,但随着设备的添加、移除或甚至只是简单地重新定位,需要反复重新执行该过程,这阻碍了广泛采用。将这样的过程强加给用户会干扰设备的正常运行,并且可能使某些用户感到沮丧。一种更基本但也很流行的方法是经由软件应用(“app”)和/或用户指示音频设备在音频环境中的物理位置的引导过程进行手动的用户干预。这种方法对用户采用提出了进一步的障碍,并且与专用校准过程相比,可以向系统提供相对较少的信息。
校准和映射算法通常需要音频环境中每个音频设备的一些基本声学信息。已经提议了许多这样的方法,使用一系列不同的基本声学测量和正在测量的声学性质。从用于这样的算法的麦克风信号导出的声学性质(本文也称为“声学场景度量”)的示例包括:
ο设备之间的物理距离的估计(声学测距);
ο设备之间的角度的估计(到达方向(DoA));
ο设备之间的脉冲响应的估计(例如,通过扫频正弦波刺激或其他测量信号);以及
ο背景噪声的估计。
然而,现有的校准和映射算法通常无法被实现为响应音频环境的声学场景的改变,例如音频环境内的人的移动、音频环境中的音频设备的重新定位等。
本公开描述了涉及注入到由音频设备渲染的内容中的直接序列扩频(DSSS)信号的技术。这样的方法可以使音频设备能够在接收到音频环境中的其他音频设备发送的信号后产生观察。在一些实现中,音频环境中的每个参与的音频设备可以被配置为生成DSSS信号,将DSSS信号注入所渲染的扩音器馈送信号中以产生修改音频回放信号,以及使扩音器系统回放修改音频回放信号以生成第一音频设备回放声音。在一些实现中,音频环境中的每个参与的音频设备可以被配置为进行前述操作同时还检测来自音频环境中的其他被编排音频设备的音频设备回放声音并且处理音频设备回放声音以提取DSSS信号。
DSSS信号先前已部署在电信上下文中。当在电信上下文中使用DSSS信号时,DSSS信号用于在通过通道将传输数据发送到接收器之前将传输数据扩展到更宽的频率范围。相比之下,大多数或所有公开实现不涉及使用DSSS信号来修改或发送数据。相反,这样的公开实现涉及在音频环境的音频设备之间发送DSSS信号。在发送和接收之间传输的DSSS信号发生了什么,其本身就是传输的信息。这是在电信上下文中如何使用DSSS信号与在公开实现中如何使用DSSS信号之间的一个重要区别。
此外,公开实现涉及发送和接收声学DSSS信号,而不是发送和接收电磁DSSS信号。在许多公开实现中,声学DSSS信号被插入已经渲染用于回放的内容流中,使得声学DSSS信号被包括在回放的音频中。根据一些这样的实现,声学DSSS信号对人来说是听不到的,使得音频环境中的人将感知不到声学DSSS信号,而只会检测到回放的音频内容。
本文公开的声学DSSS信号的使用与DSSS信号在电信上下文中的使用方式之间的另一个区别涉及本文可称之为“近/远问题”的问题。在一些情况下,本文公开的声学DSSS信号可以由音频环境中的许多音频设备发送和接收。声学DSSS信号可能会在时间和频率上重叠。一些公开实现依赖于如何生成DSSS扩展码来分离声学DSSS信号。在一些情况下,音频设备可能彼此靠得太近,以至于信号级别可能会影响声学DSSS信号分离,因此可能难以分离信号。这是近/远问题的一种表现形式,对此本文公开了一些解决方案。
一些方法可以涉及接收包括第一音频信号的第一内容流,渲染第一音频信号以产生第一音频回放信号,生成第一直接序列扩频(DSSS)信号,通过将第一DSSS信号插入第一音频回放信号中来生成第一修改音频回放信号,以及使扩音器系统回放第一修改音频回放信号,以生成第一音频设备回放声音。(多个)方法可以涉及接收对应于至少第一音频设备回放声音和对应于第二至第N音频设备回放声音的麦克风信号,第二至第N音频设备回放声音对应于由第二至第N音频设备回放的第二至第N修改音频回放信号(包括第二至第N DSSS信号),从麦克风信号中提取第二至第N DSSS信号,以及至少部分地基于第二至第N DSSS信号估计至少一个声学场景度量。
(多个)声学场景度量可以是或者可以包括音频设备可听度、音频设备脉冲响应、音频设备之间的角度、音频设备位置和/或音频环境噪声。一些所公开的方法可以涉及至少部分地基于(多个)声学场景度量来控制音频设备回放的一个或多个方面。
一些所公开的方法可以涉及编排多个音频设备以执行涉及DSSS信号的方法。一些这样的方法可以涉及由控制系统使音频环境的第一音频设备生成第一DSSS信号,由控制系统使第一DSSS信号被插入与第一内容流相对应的第一音频回放信号中以生成第一音频设备的第一修改音频回放信号,以及由控制系统使第一音频设备回放第一修改音频回放信号以生成第一音频设备回放声音。
一些这样的方法可以涉及由控制系统使音频环境的第二音频设备生成第二DSSS信号,由控制系统使第二DSSS信号被插入第二内容流中以生成第二音频设备的第二修改音频回放信号,以及由控制系统使第二音频设备回放第二修改音频回放信号以生成第二音频设备回放声音。
一些这样的实现可以涉及由控制系统使音频环境的至少一个麦克风检测至少第一音频设备回放声音和第二音频设备回放声音,以生成对应于至少第一音频设备回放声音和第二音频设备回放声音的麦克风信号。一些这样的方法可以涉及由控制系统使得从麦克风信号中提取至少第一DSSS信号和第二DSSS信号,以及由控制系统使得至少部分地基于第一DSSS信号和第二DSSS信号估计至少一个声学场景度量。
图1A示出了音频环境的示例。与本文提供的其他附图一样,图1A中所示的元件的类型和数量仅作为示例提供。其他实现可以包括更多、更少和/或不同类型和数量的元件。
根据该示例,音频环境130是家庭的居住空间。在图1A所示的示例中,音频设备100A、100B、100C和100D位于音频环境130内。在该示例中,音频设备100A-100D中的每一个包括扩音器系统110A、110B、110C和110D中的对应一个。根据该示例,音频设备100B的扩音器系统110B至少包括左扩音器110B1和右扩音器110B2。在这种情况下,音频设备100A-100D包括具有各种尺寸和各种能力的扩音器。在图1A所示的时间,音频设备100A-100D正在产生音频设备回放声音120A、120B1、120B2、120C和120D的对应实例。
在该示例中,音频设备100A-100D中的每一个包括麦克风系统111A、111B、111C和111D中的对应一个。麦克风系统111A-111D中的每一个包括一个或多个麦克风。在一些示例中,音频环境130可以包括至少一个没有扩音器系统的音频设备或至少一个没有麦克风系统的音频设备。
在一些情况下,音频环境130中可能正在发生至少一个声学事件。例如,一个这样的声学事件可能是由说话的人引起的,在某些情况下他可能正在说出语音命令。在其他情况下,声学事件可能至少部分地由诸如音频环境130的门或窗的可变元素引起。例如,当门打开时,来自音频环境130外部的声音可以在音频环境130内部被更清楚地感知。此外,改变门的角度可以改变音频环境130内的一些回声路径。
图1B是示出能够实现本公开的各个方面的装置的组件示例的框图。与本文提供的其他附图一样,图1B中所示的元件的类型和数量仅作为示例提供。其他实现可以包括更多、更少和/或不同类型和数量的元件。根据一些示例,装置150可以被配置用于执行本文公开的方法中的至少一些。在一些实现中,装置150可以是或者可以包括音频系统的一个或多个组件。例如,在一些实现中,装置150可以是音频设备,例如智能音频设备。在其他示例中,装置150可以是移动设备(例如蜂窝电话)、膝上型计算机、平板设备、电视或另一类型的设备。
在图1A所示的示例中,音频设备100A-100D是装置150的实例。根据一些示例,图1A的音频环境100可以包括编排设备,例如本文可以称为智能家居集线器的设备。智能家居集线器(或其他编排设备)可以是装置150的实例。在一些实现中,音频设备100A-100D中的一个或多个可能能够充当编排设备。
根据一些备选实现,装置150可以是或者可以包括服务器。在一些这样的示例中,装置150可以是或者可以包括编码器。因此,在一些情况下,装置150可以是被配置为在诸如家庭音频环境的音频环境中使用的设备,而在其他情况下,装置150可以是被配置为在“云”中使用的设备,例如服务器。
在该示例中,装置150包括接口系统155和控制系统160。在一些实现中,接口系统155可以包括被配置用于与音频环境的一个或多个其他设备通信的有线或无线接口。在一些示例中,音频环境可以是家庭音频环境。在其他示例中,音频环境可以是另一类型的环境,例如办公环境、汽车环境、火车环境、街道或人行道环境、公园环境等。在一些实现中,接口系统155可以被配置用于与音频环境的音频设备交换控制信息和关联数据。在一些示例中,控制信息和关联数据可以与装置150正在执行的一个或多个软件应用有关。
在一些实现中,接口系统155可以被配置用于接收或提供内容流。内容流可以包括音频数据。音频数据可以包括但不限于音频信号。在一些情况下,音频数据可以包括空间数据,例如通道数据和/或空间元数据。例如,元数据可能已经由本文称为“编码器”的设备提供。在一些示例中,内容流可以包括视频数据和对应于视频数据的音频数据。
接口系统155可以包括一个或多个网络接口和/或一个或多个外部设备接口(例如一个或多个通用串行总线(USB)接口)。根据一些实现,接口系统155可以包括例如被配置用于Wi-Fi或蓝牙TM通信的一个或多个无线接口。
在一些示例中,接口系统155可以包括用于实现用户接口的一个或多个设备,例如一个或多个麦克风、一个或多个扩音器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中,接口系统155可以包括控制系统160和存储器系统(诸如图1B所示的可选存储器系统165)之间的一个或多个接口。然而,在一些情况下,控制系统160可以包括存储器系统。在一些实现中,接口系统155可以被配置用于从环境中的一个或多个麦克风接收输入。
在一些实现中,控制系统160可以被配置用于至少部分地执行本文公开的方法。控制系统160例如可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑和/或离散硬件组件。
在一些实现中,控制系统160可以存在于多于一个设备中。例如,在一些实现中,控制系统160的一部分可以驻留在本文描述的环境之一内的设备中,而控制系统160的另一部分可以驻留在该环境之外的设备中,例如服务器、移动设备(例如,智能手机或平板电脑)等。在其他示例中,控制系统160的一部分可以驻留在本文描述的环境之一内的设备中,并且控制系统160的另一部分可以驻留在该环境的一个或多个其他设备中。例如,控制系统功能可以分布在环境的多个智能音频设备上,或者可以由编排设备(例如本文可以称为智能家居集线器的设备)和环境中的一个或多个其他设备共享。在其他示例中,控制系统160的一部分可以驻留在实现基于云的服务的设备中,例如服务器中,而控制系统160的另一部分可以驻留在实现基于云的服务的另一设备中,例如另一台服务器、存储器设备等中。在一些示例中,接口系统155也可以驻留在多于一个设备中。
本文描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非瞬态介质上的指令(例如,软件)来执行。这样的非瞬态介质可以包括诸如本文所描述的那些存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非瞬态介质可以例如驻留在图1B所示的可选存储器系统165和/或控制系统160中。因此,本公开中描述的主题的各种创新方面可以在其上存储有软件的一个或多个非瞬态介质中实现。例如,该软件可以包括用于控制至少一个设备以执行本文公开的一些或所有方法的指令。该软件例如可以由控制系统(诸如图1B的控制系统160)的一个或多个组件执行。
在一些示例中,装置150可以包括图1B中所示的可选麦克风系统111。可选麦克风系统111可以包括一个或多个麦克风。根据一些示例,可选麦克风系统111可以包括麦克风阵列。在一些情况下,例如,根据来自控制系统160的指令,麦克风阵列可以被配置用于接收侧的波束成形。在一些示例中,麦克风阵列可以被配置为例如根据来自控制系统160的指令来确定到达方向(DOA)和/或到达时间(TOA)信息。备选地或附加地,控制系统160可以被配置为例如根据从麦克风系统111接收的麦克风信号来确定到达方向(DOA)和/或到达时间(TOA)信息。
在一些实现中,一个或多个麦克风可以是另一设备的一部分或与另一设备相关联,例如扬声器系统的扬声器、智能音频设备等。在一些示例中,装置150可以不包括麦克风系统111。然而,在一些这样的实现中,装置150却可以被配置为经由接口系统160接收音频环境中的一个或多个麦克风的麦克风数据。在一些这样的实现中,装置150的基于云的实现可以被配置为经由接口系统160从音频环境中的一个或多个麦克风接收麦克风数据或对应于麦克风数据的数据。
根据一些实现,装置150可以包括图1B中所示的可选扩音器系统110。可选扩音器系统110可以包括一个或多个扩音器,其在本文中也可称为“扬声器”或更一般地称为“音频再现换能器”。在一些示例中(例如,基于云的实现),装置150可以不包括扩音器系统110。
在一些实现中,装置150可以包括图1B中所示的可选传感器系统180。可选传感器系统180可以包括一个或多个触摸传感器、手势传感器、运动检测器等。根据一些实现,可选传感器系统180可以包括一个或多个相机。在一些实现中,相机可以是独立式相机。在一些示例中,可选传感器系统180的一个或多个相机可以驻留在智能音频设备中,该智能音频设备可以是单一用途音频设备或虚拟助手。在一些这样的示例中,可选传感器系统180的一个或多个相机可以驻留在电视、移动电话或智能扬声器中。在一些示例中,装置150可以不包括传感器系统180。然而,在一些这样的实现中,装置150却可以被配置为经由接口系统160在音频环境中接收一个或多个传感器的传感器数据。
在一些实现中,装置150可以包括图1B中所示的可选显示系统185。可选显示系统185可以包括一个或多个显示器,例如一个或多个发光二极管(LED)显示器。在一些情况下,可选显示系统185可以包括一个或多个有机发光二极管(OLED)显示器。在一些示例中,可选显示系统185可以包括智能音频设备的一个或多个显示器。在其他示例中,可选显示系统185可以包括电视显示器、膝上型显示器、移动设备显示器或另一类型的显示器。在装置150包括显示系统185的一些示例中,传感器系统180可以包括靠近显示系统185的一个或多个显示器的触摸传感器系统和/或手势传感器系统。根据一些这样的实现,控制系统160可以被配置用于控制显示系统185以呈现一个或多个图形用户界面(GUI)。
根据一些这样的示例,装置150可以是或者可以包括智能音频设备。在一些这样的实现中,装置150可以是或者可以包括唤醒词检测器。例如,装置150可以是或者可以包括虚拟助手。
图2是示出根据一些公开实现的音频设备元件的示例的框图。与本文提供的其他附图一样,图2中所示的元件的类型和数量仅作为示例提供。其他实现可以包括更多、更少和/或不同类型和数量的元件。在该示例中,图2的音频设备100A是上面参考图1B描述的装置150的实例。在该示例中,音频设备100A是音频环境中的多个音频设备之一,并且在一些情况下可以是图1A中所示的音频设备100A的示例。根据该实现,音频设备100A是音频环境中的多个被编排音频设备之一。在该示例中,音频环境包括至少两个其他被编排音频设备,即,音频设备100B和音频设备100C。
根据该实现,音频设备100A包括以下元件:
110A:图1B的扩音器系统110的实例,其包括一个或多个扩音器;
111A:图1B的麦克风系统111的实例,其包括一个或多个麦克风;
120A、120B、120C:与音频设备100A-100C在同一声学空间中回放的已渲染内容相对应的音频设备回放声音;
201A:渲染模块210A输出的音频回放信号;
202A:DSSS信号注入器211A输出的修改音频回放信号;
203A:DSSS信号生成器212A输出的DSSS信号;
204A:对应于由音频环境的其他音频设备(在该示例中,至少音频设备100B和100C)生成的DSSS信号的DSSS信号副本。在一些示例中,可以(例如,经由诸如Wi-Fi或蓝牙TM的无线通信协议)从诸如编排设备(其可以是音频环境的另一个音频设备、诸如智能家居集线器的另一本地设备,等等)的外部源接收DSSS信号副本204A;
205A:与音频环境中的一个或多个音频设备有关和/或由其使用的DSSS信息。DSSS信息205A可以包括音频设备100A的控制系统160用来生成DSSS信号、调制DSSS信号、解调DSSS信号等的参数。DSSS信息205A可以包括一个或多个DSSS扩展码参数和一个或多个DSSS载波参数。DSSS扩展码参数可以例如包括DSSS扩展码长度信息、码片率信息(或码片周期信息)等。一个码片周期是扩展码的一个码片(比特)被回放所需的时间。码片周期的倒数是码片率。DSSS扩展码中的比特可以被称为“码片”,以指示它们不包含数据(因为比特通常包含数据)。在一些情况下,DSSS扩展码参数可以包括伪随机数序列。在一些示例中,DSSS信息205A可以指示哪些音频设备正在产生声学DSSS信号。在一些示例中,DSSS信息205A可以从诸如编排设备的外部源接收(例如,经由无线通信);
206A:由(多个)麦克风111A接收的麦克风信号;
208A:解调相干基带信号;
210A:渲染模块,其被配置为渲染诸如音乐、电影和TV节目的音频数据等内容流的音频信号,以产生音频回放信号;
211A:DSSS信号注入器,其被配置为将由DSSS信号调制器220A调制的DSSS信号230A插入由渲染模块210A产生的音频回放信号中以生成修改音频回放信号。插入过程例如可以是混合过程,其中由DSSS信号调制器220A调制的DSSS信号230A与由渲染模块210A产生的音频回放信号进行混合,以生成修改音频回放信号;
212A:DSSS信号生成器,其被配置为生成DSSS信号203A并将DSSS信号203A提供给DSSS信号调制器220A和DSSS信号解调器214A。在该示例中,DSSS信号生成器212A包括DSSS扩展码生成器和DSSS载波生成器。在该示例中,DSSS信号生成器212A向DSSS信号解调器214A提供DSSS信号副本204A;
214A:DSSS信号解调器,其被配置为解调由(多个)麦克风111A接收的麦克风信号206A。在该示例中,DSSS信号解调器214A输出解调相干基带信号208A。麦克风信号206A的解调例如可以使用标准相关技术来执行,包括积分和转储(integrate and dump)式匹配滤波相关器组。下面提供了一些详细的示例。为了改进这些解调技术的性能,在一些实现中,可以在解调之前对麦克风信号206A进行滤波以便去除不需要的内容/现象。根据一些实现,解调相干基带信号208A可以在被提供给基带处理器218A之前被滤波。信噪比(SNR)通常随着积分时间的增加(随着使用的扩展码长度的增加)而提高;
218A:基带处理器,其被配置用于对解调相干基带信号208A进行基带处理。在一些示例中,基带处理器218A可以被配置为实现诸如非相干平均的技术,以便通过减少平方波形的方差以产生延迟波形来提高SNR。下面提供了一些详细的示例。在该示例中,基带处理器218A被配置为输出一个或多个估计的声学场景度量225A;
220A:DSSS信号调制器,其被配置为调制由DSSS信号生成器生成的DSSS信号203A,以产生DSSS信号230A;
225A:一个或多个DSSS导出的观察,其在本文中也称为声学场景度量。(多个)声学场景度量225A可以包括或者可以是对应于飞行时间、到达时间、距离、音频设备可听度、音频设备脉冲响应、音频设备之间的角度、音频设备位置、音频环境噪声和/或信噪比;
233A:声学场景度量处理模块,其被配置为接收和应用声学场景度量225A。在该示例中,声学场景度量处理模块233A被配置为至少部分地基于至少一个声学场景度量225A和/或至少一个音频设备特性来生成信息235A(和/或命令)。取决于特定实现,(多个)音频设备特性可以对应于音频设备100A或音频环境的另一音频设备。(多个)音频设备特性可以例如被存储在控制系统160的存储器中或可由其访问;以及
235A:用于控制音频处理和/或音频设备回放的一个或多个方面的信息。例如,信息235A可以包括用于控制渲染过程、音频环境映射过程(例如音频设备自动定位过程)、音频设备校准过程、噪声抑制过程和/或回声衰减过程的信息(和/或命令)。
声学场景度量示例
如上所述,在一些实现中,基带处理器218A(或控制系统160的另一模块)可以被配置为确定一个或多个声学场景度量225A。以下是声学场景度量225A的一些示例。
测距
音频设备从另一个设备接收到的DSSS信号包含关于两个设备之间距离的信息,其形式为信号的飞行时间(ToF)。因此,根据一些示例,控制系统可以被配置为从解调的DSSS信号中提取延迟信息并将延迟信息转换为伪距(pseudorange)测量,例如,如下:
ρ=τc
在前述公式中,τ表示延迟信息(在本文中也称为ToF),ρ表示伪距测量并且c表示声速。我们提到“伪距”是因为距离本身不是直接测量的,因此设备之间的距离是根据定时估计来估计的。在音频设备的分布式异步系统中,每个音频设备都在自己的时钟上运行,因此原始延迟测量存在偏差。给定足够的延迟测量集合,可以解决这些偏差,有时还可以估计它们。下面提供了提取延迟信息、产生和使用伪距测量以及确定和解决时钟偏差的详细示例。
DoA
以类似于测距的方式,使用收听设备上可用的多个麦克风,控制系统可以被配置为通过处理解调的声学DSSS信号来估计到达方向(DoA)。在一些这样的实现中,所得到的DoA信息可以用作基于DoA的音频设备自动定位方法的输入。
可听度
解调的声学DSSS信号的信号强度与音频设备正在音频设备发送声学DSSS信号的带中收听的可听度成正比。在一些实现中,控制系统可以被配置为在频带范围内进行多次观察以获得整个频率范围的带状估计。在了解发送音频设备的数字信号级别的情况下,在一些示例中,控制系统可以被配置为估计发送音频设备的绝对声学增益。
图3是示出根据另一公开实现的音频设备元件的示例的框图。与本文提供的其他附图一样,图3中所示的元件的类型和数量仅作为示例提供。其他实现可以包括更多、更少和/或不同类型和数量的元件。在该示例中,图3的音频设备100A是上面参考图1B和图2描述的装置150的实例。然而,根据该实现,音频设备100A被配置用于在音频环境中编排多个音频设备,至少包括音频设备100B、100C和100D。
图3中所示的实现包括图2的所有元件以及一些附加元件。图2和图3共有的元件在此不再赘述,除了它们的功能在图3的实现中可能有所不同。根据该实现,音频设备100A包括以下元件和功能:
120A、120B、120C、120D:与音频设备100A-100D在同一声学空间中回放的渲染内容相对应的音频设备回放声音;
204A、204B、204C、204D:与由音频环境的其他音频设备(在该示例中,至少音频设备100B、100C和100D)生成的DSSS信号相对应的DSSS信号副本。在该示例中,DSSS信号副本204A-204D由编排模块213A提供。这里,编排模块213A例如经由无线通信向音频设备100B-100D提供DSSS信息204B-204D;
205A、250B、250C、250D:这些元件对应于属于音频设备100A-100D中的每一个和/或由其使用的DSSS信息。DSSS信息205A可以包括音频设备100A的控制系统160用来生成DSSS信号、调制DSSS信号、解调DSSS信号等的参数(例如一个或多个DSSS扩展码参数和一个或多个DSSS载波参数)。DSSS信息205B、205C和205D可以包括分别由音频设备100B、100C和100D用来生成DSSS信号、调制DSSS信号、解调DSSS信号等的参数(例如,一个或多个DSSS扩展码参数和一个或多个DSSS载波参数)。在某些示例中,DSSS信息205A-205D可以指示哪些音频设备正在产生声学DSSS信号;
213A:编排模块。在该示例中,编排模块213A生成DSSS信息205A-205D,将DSSS信息205A提供给DSSS信号生成器212A,将DSSS信息205A-205D提供给DSSS信号解调器,并且将DSSS信息205B-205D提供给音频设备100B-100D,例如,经由无线通信。在一些示例中,编排模块213A至少部分地基于信息235A-235D和/或声学场景度量225A-225D生成DSSS信息205A-205D;
214A:DSSS信号解调器,其被配置为至少解调由(多个)麦克风111A接收的麦克风信号206A。在该示例中,DSSS信号解调器214A输出解调相干基带信号208A。在一些备选实现中,DSSS信号解调器214A可以从音频设备100B-100D接收并解调麦克风信号206B-206D,并且可以输出解调相干基带信号208B-208D;
218A:基带处理器,其被配置用于至少对解调相干基带信号208A进行基带处理,并且在一些示例中,对从音频设备100B-100D接收的解调相干基带信号208B-208D进行基带处理。在该示例中,基带处理器218A被配置为输出一个或多个估计的声学场景度量225A-225D。在一些实现中,基带处理器218A被配置为基于从音频设备100B-100D接收的解调相干基带信号208B-208D来确定声学场景度量225B-225D。然而,在一些情况下,基带处理器218A(或声学场景度量处理模块233A)可以从音频设备100B-100D接收声学场景度量225B-225D;
233A:声学场景度量处理模块,其被配置为接收并应用声学场景度量225A-225D。在该示例中,声学场景度量处理模块233A被配置为至少部分地基于声学场景度量225A-225D和/或至少一个音频设备特性来生成信息235A-235D。(多个)音频设备特性可以对应于音频设备100A和/或一个或多个音频设备100B-100D。
图4是示出根据另一公开实现的音频设备元件的示例的框图。与本文提供的其他附图一样,图4中所示的元件的类型和数量仅作为示例提供。其他实现可以包括更多、更少和/或不同类型和数量的元件。在该示例中,图4的音频设备100A是上面参考图1B、2和3描述的装置150的实例。图4中所示的实现包括图3的所有元件以及附加元件。图2和图3共有的元件在此不再赘述,除了它们的功能在图4的实现中可能有所不同。
根据该实现,控制系统160被配置为处理接收到的麦克风信号206A以产生预处理的麦克风信号207A。在一些实现中,处理接收到的麦克风信号可以涉及应用带通滤波器和/或回声消除。在该示例中,控制系统160(并且更具体地,DSSS信号解调器214A)被配置为从预处理的麦克风信号207A中提取DSSS信号。
根据该示例,麦克风系统111A包括麦克风阵列,其在一些情况下可以是或包括一个或多个定向麦克风。在该实现中,处理接收到的麦克风信号涉及接收侧的波束成形,在该示例中经由波束成形器215A。在该示例中,由波束成形器215A输出的预处理的麦克风信号207A是或包括空间麦克风信号。
在该实现中,DSSS信号解调器214A处理空间麦克风信号,这可以增强其中音频设备在空间上分布在音频环境周围的音频系统的性能。接收侧的波束成形是解决前面提到的“近/远问题”的一种方式:例如,控制系统160可以被配置为使用波束成形以补偿更近和/或声音更大的音频设备以便从更远和/或响度更小的音频设备接收音频设备回放声音。
例如,接收侧的波束成形可以涉及将来自麦克风阵列中的每个麦克风的信号延迟和乘以不同的因子。在一些示例中,波束成形器215A可以应用Dolph-Chebyshev加权模式。然而,在其他实现中,波束成形器215A可以应用不同的加权模式。根据一些这样的示例,可以产生主瓣以及零点和旁瓣。除了控制主瓣宽度(波束宽度)和旁瓣电平外,在某些示例中还可以控制零点的位置。
亚可听(sub-audible)信号
根据一些实现,音频设备回放声音的DSSS信号分量可能无法被音频环境中的人听到。在一些这样的实现中,音频设备回放声音的内容流分量可能导致音频设备回放声音的DSSS信号分量的感知掩蔽。
图5是示出在一定频率范围内音频设备回放声音的内容流分量和音频设备回放声音的DSSS信号分量的级别示例的图表。在该示例中,曲线501对应于内容流分量的级别,而曲线530对应于DSSS信号分量的级别。
DSSS信号典型地包括数据、载波信号和扩展码。如果我们省略通过通道发送数据的需要,那么我们可以将调制信号s(t)表示如下:
s(t)=AC(t)sin(2πf0t)
上式中,A表示DSSS信号的幅度,C(t)表示扩展码,并且Sin()表示载波频率为f0Hz的正弦载波。图5中的曲线530对应于上式中s(t)的示例。
涉及声学DSSS信号的一些公开实现的潜在优势之一是通过扩展信号可以降低音频设备回放声音的DSSS信号分量的可感知性,因为DSSS信号分量的幅度降低了给定量的声学DSSS信号中的能量。
这允许我们将音频设备回放声音的DSSS信号分量(例如,如图5的曲线530所示)置于充分低于音频设备回放声音的内容流分量(例如,如图5的曲线501所示)的级别,使得DSSS信号分量不被收听者感知。一些公开实现利用人类听觉系统的掩蔽性质以最大化导出的DSSS信号观察的信噪比(SNR)和/或降低DSSS信号分量的感知概率的方式来优化DSSS信号的参数。一些公开示例涉及将权重应用于内容流分量的级别和/或将权重应用于DSSS信号分量的级别。一些这样的示例应用噪声补偿方法,其中声学DSSS信号分量被视为信号而内容流分量被视为噪声。一些这样的示例涉及根据播放/收听目标度量(例如,与之成比例)来应用一个或多个权重。
DSSS扩展码
如本文别处所指出的,在一些示例中,由编排设备提供的DSSS信息205(例如,由上面参考图3描述的编排模块213A提供的那些)可以包括一个或多个DSSS扩展码参数。
用于扩展载波以创建(多个)DSSS信号的扩展码非常重要。优选地是选择DSSS扩展码集合,使得对应的DSSS信号具有以下性质:
1.自相关波形中的尖锐主瓣;
2.自相关波形中非零延迟的低旁瓣;
3.如果多个设备要同时访问媒体(例如,同时回放包括DSSS信号分量的修改音频回放信号),则要使用的扩展码集合中的任何两个扩展码之间的低互相关;以及
4.DSSS信号是无偏差的(DC分量为零)。
扩展码系列(例如,在GPS上下文中常用的Gold码)通常表现上述四点。如果多个音频设备都在同时回放包括DSSS信号分量的修改音频回放信号,并且每个音频设备使用不同的扩展码(具有良好的互相关性质,例如,低互相关),那么接收音频设备应该能够通过使用码域多址(CDMA)方法同时接收和处理所有声学DSSS信号。通过使用CDMA方法,多个音频设备可以同时发送声学DSSS信号,在某些情况下使用单个频带。扩展码可以在运行时期间生成和/或预先生成并存储在存储器中,例如在诸如查找表的数据结构中。
为了实现DSSS,在一些示例中可以利用二进制相移键控(BPSK)调制。此外,在一些示例中,DSSS扩展码可以彼此正交(互复用)以实现正交相移键控(QPSK)系统,例如,如下所示:
s(t)=AICI(t)cos(2πf0t)+AQCQ(t)sin(2πf0t)
上式中,AI和AQ分别表示同相信号和正交信号的幅度,CI和CQ分别表示同相信号和正交信号的码序列,并且f0表示DSSS信号的中心频率(8200)。以上是根据一些示例参数化DSSS载波和DSSS扩展码的系数的示例。这些参数是上述DSSS信息205的示例。如上所述,DSSS信息205可以由诸如编排模块213A的编排设备提供,并且可以例如由信号生成器块212使用以生成DSSS信号。
图6是示出具有不同带宽但位于相同中心频率的两个DSSS信号的功率示例的图表。在这些示例中,图6示出了两个DSSS信号630A和630B的频谱,它们都以相同的中心频率605为中心。在一些示例中,DSSS信号630A可以由音频环境的一个音频设备(例如,由音频设备100A)产生,并且DSSS信号630B可以由音频环境的另一个音频设备(例如,由音频设备100B)产生。
根据该示例,DSSS信号630B以比DSSS信号630A高的速率码片化(换言之,在扩展信号中使用每秒更多的比特数),导致DSSS信号630B的带宽610B比DSSS信号630A的带宽610A更大。对于每个DSSS信号的给定量的能量,DSSS信号630B的更大带宽导致DSSS信号630B的幅度和可感知性比DSSS信号630A的幅度和可感知性相对更低。更高带宽的DSSS信号还会导致基带数据产品的延迟分辨率更高,从而导致基于DSSS信号的声学场景度量的更高分辨率估计(例如飞行时间估计、到达时间(ToA)估计、距离估计、到达方向(DoA)估计等)。然而,更高带宽的DSSS信号也会增加接收器的噪声带宽,从而降低提取声学场景度量的SNR。此外,如果DSSS信号的带宽太大,则可能会出现与DSSS信号相关联的相干和衰落问题。
用于生成DSSS信号的扩展码的长度限制了互相关抑制的数量。例如,一个10位Gold码对相邻码的抑制只有-26dB。这可能会导致上述近/远问题的情况,其中相对低幅度的信号可能被另一个更响声音的互相关噪声所掩盖。本公开中描述的系统和方法的一些新颖性涉及被设计为减轻或避免这种问题的编排方案。
编排方法
图7示出了根据一个示例的编排模块的元件。与本文提供的其他附图一样,图7中所示的元件的类型和数量仅作为示例提供。其他实现可以包括更多、更少和/或不同类型和数量的元件。根据一些示例,编排模块213可以由上面参考图1B描述的装置150的实例来实现。在一些这样的示例中,编排模块213可以由控制系统160的实例来实现。在一些示例中,编排模块213可以是上面参考图3描述的编排模块的实例。在一些这样的示例中,
根据该实现,编排模块213包括感知模型应用模块710、声学模型应用模块711和优化模块712。
在该示例中,感知模型应用模块710被配置为应用人类听觉系统的模型,以便至少部分地基于先验信息701来对声学DSSS信号在声学空间中对收听者的感知影响做出一个或多个感知影响估计702。声学空间例如可以是编排模块213将编排的音频设备所在的音频环境、这样的音频环境的房间等。(多个)估计702可以随时间改变。在一些示例中,感知影响估计702可以是收听者感知声学DSSS信号的能力的估计,例如,基于当前正在声学空间中回放的音频内容(如果有的话)的类型和级别。感知模型应用模块710例如可以被配置为应用一个或多个听觉掩蔽模型,诸如根据频率和响度的掩蔽、空间听觉掩蔽等。感知模型应用模块710例如可以被配置为应用一个或多个人类响度感知模型,例如根据频率的人类响度感知。
根据一些示例,先验信息701可以是或者可以包括与声学空间有关的信息、与声学空间中声学DSSS信号的传输有关的信息和/或与已知使用声学空间的收听者有关的信息。例如,先验信息701可以包括与声学空间中的音频设备(例如,被编排音频设备)的数量、音频设备的位置、关于音频设备的扩音器系统和/或麦克风系统能力的信息、关于音频环境的脉冲响应的信息、关于音频环境的一个或多个门和/或窗的信息、关于当前在声学空间中回放的音频内容的信息等。在一些情况下,先验信息701可以包括与一个或多个收听者的听力有关的信息。
在该实现中,声学模型应用模块711被配置为至少部分地基于先验信息701来对声学空间中的声学DSSS信号做出一个或多个声学DSSS信号性能估计703。例如,声学模型应用模块711可以被配置为估计每个音频设备的麦克风系统能够多好地检测来自声学空间中的其他音频设备的声学DSSS信号,这在本文中可以被称为音频设备的“相互可听度”的一个方面。在一些情况下,这样的相互可听度可以是由基带处理器先前至少部分地基于先前接收的声学DSSS信号估计的声学场景度量。在一些这样的实现中,相互可听度估计可以是先验信息701的一部分,并且在一些这样的实现中,编排模块213可以不包括声学模型应用模块711。然而,在一些实现中,相互可听度估计可以由声学模型应用模块711独立地进行。
在该示例中,优化模块712被配置为至少部分地基于(多个)感知影响估计702和声学DSSS信号性能估计703以及当前播放/收听目标信息704来确定由编排模块213编排的所有音频设备的DSSS参数705。当前播放/收听目标信息704可以例如指示对基于声学DSSS信号的新声学场景度量的相对需求。
例如,如果在声学空间中新开启一个或多个音频设备,则可能存在对于与音频设备自动定位、音频设备相互可听度等有关的新的声学场景度量的高度需求。至少一些新的声学场景度量可以基于声学DSSS信号。同样,如果现有音频设备已在声学空间内移动,则可能存在对新的声学场景度量的高度需求。同样,如果新的噪声源在声学空间中或附近,则可能存在对确定新的声学场景度量的高度需求。
如果当前播放/收听目标信息704指示存在对于确定新声学场景度量的高度需求,则优化模块712可以被配置为通过对(多个)声学DSSS信号性能估计703施加比(多个)感知影响估计702相对更高的权重来确定DSSS参数705。例如,优化模块712可以被配置为通过强调系统产生声学DSSS信号的高SNR观察的能力并且不强调用户对声学DSSS信号的影响/可感知性来确定DSSS参数705。在一些这样的示例中,DSSS参数705可以对应于可听见的声学DSSS信号。
然而,如果在声学空间中或附近没有检测到新近改变,并且至少已经存在一个或多个声学场景度量的初始估计,则可能不存在对新声学场景度量的高度需求。如果在声学空间中或附近没有检测到新近改变,至少已经存在一个或多个声学场景度量的初步估计,并且当前正在声学空间内再现音频内容,那么立即估计一个或多个新的声学场景度量的相对重要性可能会进一步减少。
如果当前播放/收听目标信息704指示对确定新声学场景度量的需求度低,则优化模块712可以被配置为通过对(多个)声学DSSS信号性能估计703施加比(多个)感知影响估计702相对更低的权重来确定DSSS参数705。在这样的示例中,优化模块712可以被配置为通过不强调系统产生声学DSSS信号的高SNR观察的能力并且强调用户对声学DSSS信号的影响/可感知性来确定DSSS参数705。在一些这样的示例中,DSSS参数705可以对应于亚可听的声学DSSS信号。
如本文档稍后所描述的(例如,在音频设备编排的其他示例中),声学DSSS信号的参数提供了丰富的多样性,从而编排设备可以修改声学DSSS信号以增强音频系统的性能。
图8示出了另一个音频环境示例。在图8中,音频设备100B和100C分别与设备100A分开距离810和811。在这种特定情况下,距离811大于距离810。假设音频设备100B和100C正在以大致相同的级别产生音频设备回放声音,这意味着音频设备100A从音频设备100C接收比来自音频设备100B的声学DSSS信号更低级别的声学DSSS信号,因此距离811造成的额外声学损耗。在一些实施例中,可以编排音频设备100B和100C以便增强音频设备100A提取声学DSSS信号并基于声学DSSS信号确定声学场景度量的能力。
图9示出了图8的音频设备100B和100C产生的声学DSSS信号主瓣的示例。在该示例中,这些声学DSSS信号具有相同的带宽并且位于相同的频率,但具有不同的幅度。这里,声学DSSS信号230B的主瓣由音频设备100B产生并且声学DSSS信号230C的主瓣由音频设备100C产生。根据该示例,声学DSSS信号230B的峰值功率是905B并且声学DSSS信号230C的峰值功率是905C。这里,声学DSSS信号230B和声学DSSS信号230C具有相同的中心频率901。
在该示例中,编排设备(在一些示例中其可以包括图7的编排模块213的实例并且在一些示例中其可以是图8的音频设备100A)增强了音频设备100A通过均衡由音频设备100B和100C产生的声学DSSS信号的数字级别来提取声学DSSS信号的能力,使得声学DSSS信号230C的峰值功率比声学DSSS信号230B的峰值功率大一个因子,该因子抵消了由于距离810和811的差值而导致的声学损耗的差值。因此,根据该示例,音频设备100A从音频设备100C接收级别与从音频设备100B接收的声学DSSS信号大致相同的声学DSSS信号230B,因为较长距离811引起额外声学损耗。
点声源周围的表面面积随着与声源距离的平方而增加。这意味着,根据平方反比定律,来自声源的相同声能分布在更大的面积上,并且能量强度随着与声源距离的平方而减小。设置距离810为b而距离811为c,音频设备100A从音频设备100B接收的声能与1/b2成正比,并且音频设备100A从音频设备100C接收的声能与1/c2成正比。声能的差值与l/(c2-b2)成正比。因此,在一些实现中,编排设备可以使音频设备100C产生的能量倍增(c2-b2)。这是如何更改DSSS参数以提高性能的示例。
在一些实现中,优化过程可能比平方反比定律更复杂并且可能考虑更多因素。在一些示例中,均衡可以经由应用于DSSS信号的全频带增益或经由均衡(EQ)曲线来完成,该均衡曲线使得麦克风系统110A的非平坦(频率相关)响应能够均衡。
图10是提供时域多址(TDMA)方法示例的图表。避免近/远问题的一种方法是编排多个正在发送和接收声学DSSS信号的音频设备,使得为每个音频设备调度不同的时隙来播放其声学DSSS信号。这被称为TDMA方法。在图10所示的示例中,编排设备使音频设备1、2和3根据TDMA方法发出声学DSSS信号。在该示例中,音频设备1、2和3在同一频带中发出声学DSSS信号。根据该示例,编排设备使音频设备3从时间t0到时间t1发出声学DSSS信号,之后编排设备使音频设备2从时间t1到时间t2发出声学DSSS信号,之后编排设备使音频设备1从时间t2到时间t3发出声学DSSS信号,依此类推。
因此,在该示例中,没有两个DSSS信号同时被发送或接收。因此,其余的DSSS信号参数,诸如幅度、带宽和长度(只要每个DSSS信号保持在其分配的时隙内)与多址无关。然而,此类DSSS信号参数与从DSSS信号中提取的观察的质量相关。
图11是示出频域多址(FDMA)方法示例的图表。在一些实现中(例如,由于DSSS信号的带宽有限),编排设备可以被配置为使音频设备同时从音频环境中的两个其他音频设备接收声学DSSS信号。在一些这样的示例中,如果发送声学DSSS信号的每个音频设备在不同频带中播放其各自的声学DSSS信号,则声学DSSS信号在接收功率级别方面明显不同。这是一种FDMA方法。在图11所示的FDMA方法示例中,DSSS信号230B和230C的主瓣由不同的音频设备同时发送,但具有不同的中心频率(f1和f2)并在不同的频带(b1和b2)中。在该示例中,主瓣的频带b1和b2不重叠。这种FDMA方法可能有利于声学DSSS信号在与其路径相关联的声学损耗方面具有很大差异的情况。
在一些实现中,编排设备可以被配置为改变FDMA、TDMA或CDMA方法以便减轻近/远问题。在一些示例中,可以根据房间中设备的相对可听度来改变DSSS扩展码的长度。如上文参考图6所述,给定声学DSSS信号中的相同能量,如果扩展码增加声学DSSS信号的带宽,则声学DSSS信号将具有相对较低的最大功率并且将相对较不可听。备选地或附加地,在一些实现中,DSSS信号可以彼此正交。这样的实现允许系统同时具有不同扩展码长度的DSSS信号。备选地或附加地,在一些实现中,可以修改每个DSSS信号中的能量以减少近/远问题的影响(例如,以提高由相对更不响的和/或更远的发送音频设备产生的声学DSSS信号的级别)和/或针对给定的操作目标获得最佳信噪比。
图12是示出编排方法的另一个示例的图表。图12的元件如下:
1210、1211和1212:不相互重叠的频带;
230Ai、230Bi和230Ci:在频带1210内时域复用的多个声学DSSS信号。尽管看起来音频设备1、2和3正在使用频带1210的不同部分,但是在该示例中,声学DSSS信号230Ai、230Bi和230Ci的主瓣延伸跨越频带1210的大部分或全部;
230D和230E:在频带1211内码域复用的多个声学DSSS信号。尽管看起来音频设备4和5正在使用频带1211的不同部分,但是在该示例中,声学DSSS信号230D和230E的主瓣延伸跨越频带1211的大部分或全部;以及
230Aii、230Bii和230Cii:在频带1212内码域复用的多个声学DSSS信号。尽管看起来音频设备1、2和3正在使用频带1210的不同部分,但是在该示例中,声学DSSS信号230Aii、Bii和Cii的主瓣延伸跨越频带1212的大部分或全部。
图12示出了TDMA、FDMA和CDMA如何在本发明的某些实现中一起使用的示例。在频带1(1210)中,TDMA用于编排分别由音频设备1-3传输的声学DSSS信号230Ai、230Bi和230Ci。频带1210是其中声学DSSS信号230Ai、230Bi和230Ci不能在不重叠的情况下同时容纳的单个频带。
在频带2(1211)中,CDMA用于编排分别来自音频设备4和5的声学DSSS信号230D和230E。在该特定示例中,已经通过使用比用于生成声学DSSS信号230E的DSSS扩展码更长的DSSS扩展码来生成声学DSSS信号230D。从接收音频设备的角度来看,如果音频设备5比音频设备4响,则音频设备5的较短DSSS扩展码持续时间可能会有用,因为较短的DSSS扩展码持续时间会增加带宽并降低所得到的DSSS信号的峰值频率。还可以利用声学DSSS信号230D的相对较长的DSSS扩展码持续时间来提高信噪比(SNR)。
在频带3(1212)中,CDMA用于编排分别由音频设备1-3传输的声学DSSS信号230Aii、230Bii和230Cii。这些声学DSSS信号是由音频设备1-3传输的交替的码,音频设备1-3同时在频带1210中为相同的音频设备传输TDMA编排的声学DSSS信号。这是FDMA的一种形式,其中较长的扩展码位于一个频带(1212)内并同时传输(无TDMA),而较短的扩展码位于另一个使用TDMA的频带(1210)内。
图13是示出编排方法的另一个示例的图表。根据该实现,音频设备4正在传输彼此正交的声学DSSS信号230Di和230Dii,而音频设备5正在传输也彼此正交的声学DSSS信号230Ei和230Eii。根据该示例,所有声学DSSS信号同时在单个频带1310内传输。在这种情况下,正交声学DSSS信号230Di和230Ei比两个音频设备传输的同相码230Dii和230Eii长。这导致每个音频设备除了具有从声学DSSS信号230Di和230Ei导出的更高SNR观察集合之外,还具有从声学DSSS信号230Dii和230Eii导出的更快和更多噪声的观察集合,尽管其更新速率更低。这是基于CDMA的编排方法的示例,其中两个音频设备正在传输为两个音频设备共享的声学空间设计的声学DSSS信号。在一些情况下,编排方法也可以至少部分地基于当前收听目标。
图14示出了根据另一个示例的音频环境的元件。在该示例中,音频环境1401是包括声学空间130A、130B和130C的多房间住宅。根据该示例,门1400A和1400B可以改变每个声学空间的耦合。例如,如果门1400A打开,声学空间130A和130C至少在某种程度上声学耦合,而如果门1400A关闭,声学空间130A和130C没有任何显著程度的声学耦合。在一些实现中,编排设备可以被配置为根据检测到或未检测到相邻声学空间中的音频设备回放声音,而检测门被打开(或另一个声学障碍物被移动)。
在一些示例中,编排设备可以编排所有声学空间130A、130B和130C中的所有音频设备100A-100E。然而,由于当门1400A和1400B关闭时声学空间130A、130B和130C之间存在显著级别的声学隔离,因此在一些示例中,当门1400A和1400B关闭时,编排设备可以将声学空间130A、130B和130C视为独立的。在一些示例中,即使当门1400A和1400B打开时,编排设备也可以将声学空间130A、130B和130C视为独立的。然而,在一些情况下,编排设备可以管理位置靠近门1400A和/或1400B的音频设备,使得当声学空间由于门打开而耦合时,靠近打开的门的音频设备被视为对应于门两侧房间的音频设备。例如,如果编排设备确定门1400A是打开的,则编排设备可以被配置为将音频设备100C认为是声学空间130A的音频设备并且也是声学空间130C的音频设备。
图15是概述所公开的音频设备编排方法的另一个示例的流程图。与本文描述的其他方法一样,方法1500的块不一定按所指示的顺序执行。此外,这样的方法可以包括比所示出和/或描述的更多或更少的块。方法1500可以由包括编排设备和被编排音频设备的系统执行。该系统可以包括图1B中所示和上文描述的装置150的实例,其中一个被配置为编排设备。在一些示例中,编排设备可以包括本文公开的编排模块213的实例。
根据该示例,块1505涉及所有参与的音频设备的稳态操作。在这种情况下,“稳态”操作意味着根据最近从编排设备接收到的参数集的操作。根据该实现,参数集包括一个或多个DSSS扩展码参数和一个或多个DSSS载波参数。
在该示例中,块1505还涉及一个或多个设备等待触发条件。触发条件例如可以是被编排音频设备所在的音频环境中的声学改变。声学改变可以是或者可以包括来自噪声源的噪声、对应于打开或关闭的门或窗的改变(例如,来自相邻房间中一个或多个扩音器的回放声音的增加或减少的可听度)、检测到音频环境中的音频设备的移动、检测到音频环境中的人的移动、检测到音频环境中的人的话语(例如唤醒词)、音频内容回放的开始(例如电影、电视节目、音乐内容等的开始)、音频内容回放的改变(例如,音量改变等于或大于以分贝为单位的阈值改变)等。在一些情况下,经由声学DSSS信号检测声学改变,例如,如本文所公开的(例如,由音频环境中的音频设备的基带处理器218估计的一个或多个声学场景度量225A)。
在一些情况下,触发条件可以是新的音频设备已经在音频环境中开启的指示。在一些这样的示例中,新的音频设备可以被配置为产生一个或多个特性声音,这一个或多个特性声音对于人类来说可能是可听见的,也可能是不可听见的。根据一些示例,新的音频设备可以被配置为根据为新设备预留的DSSS扩展码的类型来回放声学DSSS信号。下面描述了预留的DSSS扩展码的一些示例。
在该示例中,在块1510中确定是否已经检测到触发条件。如果是,则过程进行到块1515。如果不是,则过程返回到块1505。在一些实现中,块1505可以包括块1510。
根据该示例,块1515涉及由编排设备确定用于一个或多个(在一些实例中,所有)被编排音频设备的一个或多个更新的声学DSSS参数并将(多个)更新的声学DSSS参数提供给(多个)被编排音频设备。在一些示例中,块1515可以涉及由编排设备提供在本文别处描述的DSSS信息205。确定(多个)更新的声学DSSS参数可以涉及使用现有知识和声学空间的估计,例如:
·设备位置;
·设备距离;
·设备取向和相对入射角;
·设备之间的相对时钟偏差和偏斜;
·设备的相对可听度;
·房间噪声估计;
·每个设备中麦克风和扩音器的数量;
·每个设备的扩音器的方向性;
·每个设备的麦克风的方向性;
·被渲染到声学空间中的内容的类型;
·一个或多个收听者在声学空间中的位置;和/或
·声学空间知识,包括镜面反射和遮挡。
在一些示例中,这样的因素可以与操作目标组合以确定新的操作点。请注意,在确定更新的DSSS参数时用作现有知识的这些参数中的许多参数进而可以从声学DSSS参数中导出。因此,人们可以很容易地理解,在一些示例中,被编排声学DSSS系统可以随着系统获得更多信息、更准确的信息等而迭代地提高其性能。
在该示例中,块1520涉及由一个或多个被编排音频设备根据从编排设备接收的(多个)更新的声学DSSS参数来重新配置用于生成声学DSSS信号的一个或多个参数。根据该实现,在块1520完成之后,过程返回到块1505。尽管图15的流程图未示出结束,但是方法1500可以以各种方式结束,例如,当音频设备关机时。
图16示出了另一个音频环境示例。图16中所示的音频环境130与图8中所示的相同,但也从(相对于)音频设备100A的角度示出了音频设备100B与音频设备100C的角度分离。在图16中,音频设备100B和100C分别与设备100A分开距离810和811。在这种特定情况下,距离811大于距离810。假设音频设备100B和100C正在以大致相同的级别产生音频设备回放声音,这意味着音频设备100A从音频设备100C接收的声学DSSS信号处于比来自音频设备100B的声学DSSS信号更低的级别,因为距离811造成额外的声学损耗。
在该示例中,我们专注于设备100B和100C的编排以优化设备100A收听它们两者的能力。如上所述,还有其他因素要考虑,但是该示例专注于由音频设备100B与音频设备100C相对于音频设备100A的角度分离引起的到达角分集。由于距离810和811不同,编排可能导致音频设备100B和100C的码长度被设置得更长,以通过降低交叉通道相关性来缓解近-远问题。然而,如果接收侧的波束成形器(215)由音频设备100A实现,则近/远问题有所缓解,因为音频设备100B和100C之间的角度分离将与来自音频设备100B和100C的声音相对应的麦克风信号放置在不同的波瓣中,并提供两个接收信号的额外分离。因此,这种额外分离可以允许编排设备减少声学DSSS扩展码长度并以更快的速率获得观察。
这不仅适用于声学DSSS扩展码长度。当音频设备100A(和/或音频设备100B和100C)使用空间麦克风馈送、而非全向麦克风馈送时,可能不再需要可更改以减轻近-远问题的任何声学DSSS参数(例如,甚至使用FDMA或TDMA)。
根据空间方式(在这种情况下为角度分集)的编排取决于对这些已经可用的性质的估计。在一个示例中,可以针对全向麦克风馈送优化DSSS参数(206),然后在DoA估计可用之后,可以针对空间麦克风馈送优化声学DSSS参数。这是上面参考图15描述的触发条件的一种实现。
图17是示出根据一些公开实现的DSSS信号解调器元件、基带处理器元件和DSSS信号生成器元件的示例的框图。与本文提供的其他附图一样,图17中所示的元件的类型和数量仅作为示例提供。其他实现可以包括更多、更少和/或不同类型和数量的元件。其他示例可以实现其他方法,例如频域相关。在该示例中,DSSS信号解调器214、基带处理器218和DSSS信号生成器212由上面参考图1B描述的控制系统160的实例实现。
根据一些实现,对于来自其声学DSSS信号将被接收的每个音频设备的传输(回放)的声学DSSS信号,存在DSSS信号解调器214、基带处理器218和DSSS信号生成器212的一个实例。换言之,对于图16所示的实现,音频设备100A将实现对应于从音频设备100B接收的声学DSSS信号的DSSS信号解调器214、基带处理器218和DSSS信号生成器212的一个实例,以及对应于从音频设备100C接收的声学DSSS信号的DSSS信号解调器214、基带处理器218和DSSS信号生成器212的一个实例。
为了说明的目的,图17的以下描述将继续使用图16的音频设备100A的这个示例作为实现DSSS信号解调器214、基带处理器218和DSSS信号生成器212的实例的本地设备。更具体地,图17的以下描述将假定由DSSS信号解调器214接收的麦克风信号206包括由音频设备100B的扩音器产生的回放声音,该回放声音包括由音频设备100B产生的声学DSSS信号,并且图17中所示的DSSS信号解调器214、基带处理器218和DSSS信号生成器212的实例对应于由音频设备100B的扩音器回放的声学DSSS信号。
根据该实现,DSSS信号生成器212包括声学DSSS载波模块1715,声学DSSS载波模块1715被配置为向DSSS信号解调器214提供正由音频设备100B使用以产生其声学DSSS信号的DSSS载波的DSSS载波副本1705。在一些备选实现中,声学DSSS载波模块1715可以被配置为向DSSS信号解调器214提供正由音频装置100B使用以产生其声学DSSS信号的一个或多个DSSS载波参数。
在该实现中,DSSS信号生成器212还包括声学DSSS扩展码模块1720,声学DSSS扩展码模块1720被配置为向DSSS信号解调器214提供正由音频设备100B使用以产生其声学DSSS信号的DSSS扩展码1706。DSSS扩展码1706对应于本文公开的公式中的扩展码C(t)。DSSS扩展码1706例如可以是伪随机数(PRN)序列。
根据该实现,DSSS信号解调器214包括带通滤波器1703,带通滤波器1703被配置为从接收到的麦克风信号206产生经带通滤波的麦克风信号1704。在一些情况下,带通滤波器1703的通带可以以来自音频设备100B的由DSSS信号解调器214处理的声学DSSS信号的中心频率为中心。带通滤波器1703可以例如使声学DSSS信号的主瓣通过。在一些示例中,带通滤波器1703的通带可以等于用于从音频设备100B传输声学DSSS信号的频带。
在该示例中,DSSS信号解调器214包括乘法块1711A,乘法块1711A被配置为将经带通滤波的麦克风信号1704与DSSS载波副本1705进行卷积,以产生基带信号1700。根据该实现,DSSS信号解调器214还包括乘法块1711B,乘法块1711B被配置为将DSSS扩展码1706应用于基带信号1700,以产生解扩展基带信号1701。
根据该示例,DSSS信号解调器214包括累加器1710A并且基带处理器218包括累加器1710B。累加器1710A和1710B在本文中也可以称为求和元件。累加器1710A在与每个声学DSSS信号的码长度(在本示例中,当前正在由音频设备100B回放的声学DSSS信号的码长度)相对应的时间(本文可以称之为“相干时间”)操作。在该示例中,累加器1710A实现“积分和转储”过程;换言之,在针对相干时间对解扩展基带信号1701求和之后,累加器1710A将解调相干基带信号208输出(“转储”)到基带处理器218。在一些实现中,解调相干基带信号208可以是单个数。
在该示例中,基带处理器218包括平方律模块1712,平方律模块1712在该示例中被配置为对解调相干基带信号208的绝对值求平方并将功率信号1722输出到累加器1710B。经过绝对值和平方处理后,功率信号可以被视为非相干信号。在该示例中,累加器1710B在“非相干时间”上操作。在一些示例中,非相干时间可以基于来自编排设备的输入。在一些示例中,非相干时间可以基于期望的SNR。根据该示例,累加器1710B以多个延迟(本文也称为“taus”或tau(τ)的实例)输出延迟波形400。
可以如下表示图17中从1704到208的阶段:
在上式中,Y(tau)表示相干解调器输出(208),d[n]表示带通滤波信号(图17中的1704或A)),CA表示由房间中的远端设备(在该示例中,音频设备100B)用于调制DSSS信号的扩展码的本地副本,并且最后一项是载波信号。在一些示例中,所有这些信号参数都在音频环境中的音频设备之间编排(例如,可以由编排设备确定和提供)。
图17中从Y(tau)(208)到<Y(tau)>(400)的信号链是非相干积分,其中相干解调器输出被平方和平均。平均次数(非相干累加器1710B运行的次数)是一个参数,在一些示例中,该参数可以由编排设备确定和提供,例如,基于已实现足够的SNR的确定。在一些情况下,实现基带处理器218的音频设备可以例如基于已经实现足够的SNR的确定来确定平均的次数。
非相干积分可以在数学上表示如下:
上述公式涉及在由N定义的时间段内对平方相干延迟波形进行简单的平均,其中N表示非相干积分中使用的块数。
图18示出了根据另一个示例的DSSS信号解调器的元件。根据该示例,DSSS信号解调器214被配置为产生延迟估计、DoA估计和可听度估计。在该示例中,DSSS信号解调器214被配置为执行相干解调,然后对全延迟波形执行非相干积分。如上文参考图17所描述的示例中那样,在该示例中我们将假设DSSS信号解调器214由音频设备100A实现并且被配置为解调由音频设备100B回放的声学DSSS信号。
在该示例中,DSSS信号解调器214包括带通滤波器1703,带通滤波器1703被配置为从其他音频信号中去除不想要的能量,例如为收听者的体验而渲染的一些音频内容和已经放置在其他频段中以避免近/远问题的声学DSSS信号。
匹配滤波器1811被配置为通过将带通滤波信号1704与感兴趣的声学DSSS信号的本地副本相关来计算延迟波形1802:在该示例中,本地副本是对应于由音频设备100B生成的DSSS信号的DSSS信号副本204的实例。匹配滤波器输出1802然后由低通滤波器712进行低通滤波,以产生相干解调的复延迟波形208。在一些备选实现中,低通滤波器712可以放置在产生非相干平均延迟波形的基带处理器218中的平方操作之后,例如在上面参考图17描述的示例中。
在该示例中,通道选择器1813被配置为根据DSSS信息205控制带通滤波器1703(例如,带通滤波器1703的通带)和匹配滤波器1811。如上所述,DSSS信息205可以包括控制系统160用来解调DSSS信号等的参数。在一些示例中,DSSS信息205可以指示哪些音频设备正在产生声学DSSS信号。在一些示例中,可以从诸如编排设备的外部源接收(例如,经由无线通信)DSSS信息205。
图19是示出根据一些公开实现的基带处理器元件的示例的框图。与本文提供的其他附图一样,图19中所示的元件的类型和数量仅作为示例提供。其他实现可以包括更多、更少和/或不同类型和数量的元件。在该示例中,基带处理器218由上面参考图1B描述的控制系统160的实例实现。
在该特定实现中,没有应用相干技术。因此,执行的第一个操作是经由平方律模块1712获取复延迟波形208的功率,以产生非相干延迟波形1922。非相干延迟波形1922由累加器1710B积分一时间段(该时间段在该示例中是在从编排设备接收的DSSS信息205中指定的,但在一些示例中可以在本地确定),以产生非相干平均延迟波形400。根据该示例,延迟波形400然后以多种方式被处理,如下:
1.前沿估计器1912被配置为进行延迟估计1902,这是接收信号的估计时间延迟。在一些示例中,延迟估计1902可以至少部分地基于对延迟波形400的前沿位置的估计。根据一些这样的示例,延迟估计1902可以根据直至并包括对应于延迟波形400前沿位置的时间样本,或延迟波形400的前沿位置之后小于一个码片周期(与信号带宽成反比)的时间样本的延迟波形的信号部分(例如,正部分)的时间样本的数量来确定。在后一种情况下,此延迟可用于补偿DSSS码的自相关宽度。随着码片率的增加,自相关的峰宽变窄,直到当码片率等于采样率时它达到最小。该条件(码片率等于采样率)产生延迟波形400,延迟波形400是给定DSSS码的音频环境的真实脉冲响应的最接近近似。随着码片率增加,频谱重叠(混叠)可能发生在DSSS信号调制器220A之后。在一些示例中,如果码片率等于采样率,则可以绕过或省略DSSS信号调制器220A。接近采样率的码片率(例如,码片率为采样率的80%、采样率的90%等)可以提供延迟波形400,其出于某些目的令人满意地近似实际脉冲响应。在一些这样的示例中,延迟估计1902可以部分地基于关于DSSS信号特性的信息。在一些示例中,前沿估计器1912可以被配置为根据在时间窗口期间大于阈值的值的第一实例来估计延迟波形400的前沿的位置。下面将参考图20描述一些示例。在其他示例中,前沿估计器1912可以被配置为根据最大值(例如,时间窗内的局部最大值)的位置来估计延迟波形400的前沿的位置,这是“峰值拾取”的示例。请注意,可以使用许多其他技术来估计延迟(例如,峰值拾取)。
2.在该示例中,基带处理器218被配置为在使用延迟求和DoA估计器1914之前通过对延迟波形400加窗(利用加窗块1913)来进行DoA估计1903。延迟求和DoA估计器1914可以至少部分地基于延迟波形400的受控响应功率(SRP)的确定来进行DoA估计。因此,延迟求和DoA估计器1914在本文中也可以被称为SRP模块或延迟求和波束成形器。加窗有助于隔离前沿周围的时间间隔,使得所得到的DoA估计更多地基于信号而非噪声。在一些示例中,窗口大小可以在几十或几百毫秒的范围内,例如,在10到200毫秒的范围内。在一些情况下,可以基于典型房间衰减时间的知识或所讨论的音频环境的衰减时间的知识来选择窗口大小。在一些情况下,窗口大小可以随时间自适应地更新。例如,一些实现可以涉及确定导致窗口的至少某些部分被延迟波形400的信号部分占据的窗口大小。一些这样的实现可以涉及根据出现在前沿之前的时间样本来估计噪声功率。一些这样的实现可以涉及选择窗口大小,该窗口大小将导致窗口的至少阈值百分比被对应于至少阈值信号级别(例如比估计噪声功率大至少6dB,比估计噪声功率大至少8dB,比估计的噪声功率大至少10dB,等等)的延迟波形的一部分占据。
3.根据该示例,基带处理器218被配置为通过使用SNR估计块1915估计信噪比来进行可听度估计1904。在该示例中,SNR估计块1915被配置为从延迟波形400中提取信号功率估计402和噪声功率估计401。根据一些这样的示例,SNR估计块1915可以被配置为确定延迟波形400的信号部分和噪声部分,如下面参考图20所描述的。在一些这样的示例中,SNR估计块1915可以被配置为通过对所选时间窗上的信号部分和噪声部分进行平均来确定信号功率估计402和噪声功率估计401。在一些这样的示例中,SNR估计块1915可以被配置为根据信号功率估计402与噪声功率估计401的比率来进行SNR估计。在一些情况下,基带处理器218可以被配置为根据SNR估计来进行可听度估计1904。对于给定量的噪声功率,SNR与音频设备的可听度成正比。因此,在一些实现中,SNR可以直接用作实际音频设备可听度的估计的代表(例如,与之成比例的值)。一些包括校准麦克风馈送的实现可以涉及测量绝对可听度(例如,以dBSPL为单位)并将SNR转换为绝对可听度估计。在一些这样的实现中,用于确定绝对可听度估计的方法将考虑由于音频设备之间的距离和房间中噪声的可变性引起的声学损耗。在其他实现中,其他技术用于从延迟波形估计信号功率、噪声功率和/或相对可听度。
图20示出了延迟波形的示例。在该示例中,延迟波形400已经由基带处理器218的实例输出。根据该示例,纵轴表示功率,并且横轴表示伪距,以米为单位。如上所述,基带处理器218被配置为从解调声学DSSS信号中提取延迟信息,在本文中有时称为τ。τ的值可以转换为伪距测量,在本文中有时称为ρ,如下所示:
ρ=τc
在上述表达式中,c代表声速。在图20中,延迟波形400包括噪声部分2001(也可称为本底噪声)和信号部分2002。伪距测量中的负值(以及相应的延迟波形)可以被标识为噪声:因为负距(距离)没有物理意义,对应于负伪距的功率被假定为噪声。
在该示例中,波形400的信号部分2002包括前沿2003和后沿。如果信号部分2002的功率相对较强,则前沿2003是延迟波形400的显著特征。在一些示例中,图19的前沿估计器1912可以被配置为根据在时间窗期间大于阈值的功率值的第一实例来估计前沿2003的位置。在一些示例中,时间窗口可以在τ(或ρ)为零时开始。在一些情况下,窗口大小可以在几十或几百毫秒的范围内,例如,在10到200毫秒的范围内。根据一些实现,阈值可以是先前选择的值,例如,-5dB、-4dB、-3dB、-2dB等。在一些备选示例中,阈值可以基于延迟波形400的至少一部分中的功率,例如噪声部分的平均功率。
然而,如上所述,在其他示例中,前沿估计器1912可以被配置为根据最大值(例如,时间窗口内的局部最大值)的位置估计前沿2003的位置。在一些情况下,可以如上所述选择时间窗口。
在一些示例中,图19的SNR估计块1915可以被配置为确定对应于噪声部分2001的至少一部分的平均噪声值和对应于信号部分2002的至少一部分的平均或峰值信号值。在一些这样的示例中,图19的SNR估计块1915可以被配置为通过将平均信号值除以平均噪声值来估计SNR。
图21示出了根据另一种实现的块的示例。该示例包括DSSS信号解调器214的相关器组(correlator bank)实现。在这种情况下,术语“相关器组”意味着声学DSSS信号的多个实例以不同的延迟相关。根据该示例,体延迟估计器2110被用来粗略地对准DSSS相关器组(214),使得只有所有延迟的一个子集需要由基带处理器218计算。在该实现中,DSSS相关器组(214)产生加窗解调相干基带信号208并且基带处理器218产生加窗非相干平均延迟波形400。
在该实施例中,体延迟估计器2110利用远端设备渲染的信号的参考来估计体延迟。在一个这样的示例中,体延迟估计器2110被配置为实现将音频环境中的另一音频设备(“远端设备”)正在回放的参考信号(2102)与接收到的麦克风信号206相关以估计体延迟2103的互相关器。对于从其接收声学DSSS信号的每个音频设备,所估计的体延迟2103将通常是不同的。
一些备选实现涉及根据正在消除远端设备的参考回放的声学回声消除器的滤波器抽头中的信息来估计体延迟2103。滤波器将显示与来自其他设备的直接信号相对应的峰值,这提供了粗略的对准。
体延迟估计器2110可以通过限制后续的“下游”计算来提高效率。例如,加窗过程可以将伪距限制在x到y米的范围内,例如1到4米、0到4米、1到5米、-1到4米等,而不是诸如图20所示的范围。
图22示出了根据又一实现的块的示例。该示例包括DSSS信号解调器214的“匹配滤波器”版本,DSSS信号解调器214在一些情况下可以如上文参考图18所述地那样配置。该示例还包括体延迟估计器2110的实例,其在该实现中向基带处理器218提供体延迟估计2103。
根据该示例,对于使用加窗块1913提取的延迟波形2204的信号分量,窗口由外部体延迟估计2103控制(确定中心)。附加窗口块2213使用体延迟估计2103和偏移2206确定中心以在延迟波形的仅噪声区域中对延迟波形400进行加窗。例如,偏移加窗延迟波形2205可以对应于图20的噪声部分2001。
在该示例中,基带处理器218在经由延迟和波束成形器1914执行SRP之前对延迟波形400加窗,如上文参考图19所述。然而,在该示例中,基带处理器218基于体延迟估计2103控制加窗块1913。根据该实现,加窗块1913将加窗延迟波形2204提供给前沿估计器1912、延迟和波束成形器1914和SNR估计块1915。此外,在该示例中,基带处理器218基于体延迟估计2103控制加窗块2213。
在一些实现中,使用前沿估计器1912估计的延迟估计1902在一些示例中可以用于对随后的声学DSSS观察进行加窗。在一些这样的实现中,延迟估计1902可以代替图21和图22中的体延迟2103。
图23是示出根据一些公开实现的音频设备元件的示例的框图。与本文提供的其他附图一样,图23中所示的元件的类型和数量仅作为示例提供。其他实现可以包括更多、更少和/或不同类型和数量的元件。在该示例中,图23的音频设备100A是上面参考图1B和图2-4描述的装置150的实例。图23中所示的实现包括图4的所有元件,除了在图23中,图4的波束成形器215A已经被更通用的预处理模块221A代替。图4和图23共有的元件在此不再赘述,除了它们的功能在图23的实现中可能有所不同。
根据该实现,预处理模块221A被配置为对接收到的麦克风信号206A进行预处理以产生预处理的麦克风信号207A。在一些实现中,对接收到的麦克风信号进行预处理可以涉及应用带通滤波器和/或回声消除。根据一些示例,麦克风系统111A可以包括麦克风阵列,在一些情况下麦克风阵列可以是或包括一个或多个定向麦克风。在一些这样的示例中,对接收到的麦克风信号进行预处理可以涉及经由预处理模块221A的接收侧波束成形。
通常,每个音频设备具有它自己的通常独立于音频环境的其他音频设备实现的时钟而运作的内部时钟。时钟偏移或偏差是指时钟(例如,音频设备A的时钟和音频设备B的时钟)偏移特定时间。时钟通常会以略有不同的速度运行,这称为时钟偏斜。时钟偏斜会随时间改变时钟偏差。这种时钟偏差的改变将导致所估计的设备之间的范围或距离发生变化,这是被称为“距离游走”的现象。
对于通过网络同步限制时钟偏斜和/或对时钟偏斜进行估计(可能通过本公开中列出的技术)的系统,那么限制接收设备的相干积分时间可能是有利的,以便减轻由于积分期间的距离游走而引起的SNR损耗。在一些示例中,这可以与距离游走补偿技术相结合,例如,如果偏斜在相干积分时间尺度上不显著但在非相干积分时间尺度上显著的话。
图24示出了另一个示例实现的块。与本文提供的其他附图一样,图23中所示的元件的类型和数量仅作为示例提供。其他实现可以包括更多、更少和/或不同类型和数量的元件。例如,在一些实现中,基带处理器218可以包括附加元件,例如上面参考图19和22描述的元件。
在该实施例中,一种监控上面参考图15提到的触发条件(用于触发声学DSSS参数的更新)类型之一的一种方法被实现为被配置为检测音频环境的任意两个音频设备的相对时钟偏斜的改变的块。下面提供了计算两个音频设备的相对时钟偏斜的一些详细示例。在一些示例中,用于DSSS信号解调器214和基带处理器218的增强系数可以至少部分地基于相对时钟偏斜。此外,大于阈值的时钟偏斜改变在一些示例中可以是触发条件,其可能会导致所有参与的音频设备的全局操作配置发生变化(例如CDMA、FDMA、TDMA分配),从而触发在某些情况下从图15的块1510流向块1515。
根据图24所示的示例,DSSS信号生成器212A接收信号偏斜参数2402并将对应于由音频环境的其他音频设备生成的DSSS信号的DSSS信号副本204提供给DSSS信号解调器214。在一些示例中,DSSS信号生成器212A可以从编排设备接收DSSS信号副本204和信号偏斜参数2402。
在图24所示的示例中,DSSS信号解调器214被示为接收麦克风信号206和相干积分时间信息2401,以及DSSS信号副本204。根据该示例,基带处理器218的平方律模块1712被配置为从DSSS信号解调器214接收解调相干基带信号208,以产生非相干延迟波形1922并将非相干延迟波形1922提供给延迟游走补偿器2410。根据该示例,延迟游走补偿器2410被配置为针对接收音频设备与基带处理器218当前正在为其处理声学DSSS信号的音频设备之间的延迟游走进行补偿。在该示例中,延迟游走补偿器2410被配置为根据接收到的延迟率估计2403补偿延迟游走并且输出非相干补偿的功率延迟波形2405。术语“延迟游走”是指非零延迟率项的影响,例如,延迟波形在一段时间内移动了多远。这是由发送和接收设备的物理时钟频率不匹配引起的。在该示例中,延迟率估计2403是估计的延迟随时间的变化率。根据一些示例,延迟率估计2403可以根据在一时间段(例如,小时、天、周等)内确定的延迟估计的存储实例来确定。如果估计的延迟率显著,当延迟波形被非相干积分(平均)时,瞬时延迟波形的平移(例如,图24中的解调相干基带信号208的平移)将导致最终非相干平均信号(例如,图24中的信号400)的模糊。如果我们考虑由于延迟率引起的误差导致的峰值功率响应中的-3dB未对准(作为对应于“显著”延迟率的影响的一个示例),则延迟率高于下面公式中被表示为delay_rate_lim的延迟率限制,将引发比-3dB更差的误差。在下式中,T_code表示整个扩展码序列的时间长度。
根据一些示例,延迟游走补偿器2410可以使用延迟率估计2403在对信号求平均之前平移信号(1922)。在一些这样的示例中,此平移将等于在非相干积分周期上发生的延迟游走量,但该平移被应用在相反方向上以抵消延迟游走。
在一些备选实现中,在DSSS信号解调器214中发生的相干处理可以根据时钟偏差和/或时钟偏斜信息而更改。根据一个这样的示例,时钟偏差估计可以用于平移DSSS信号生成器212中的副本信号码(1720)相位,使得延迟波形中的延迟仅因为音频设备之间的物理距离。在一些示例中,时钟偏斜估计可用于在DSSS信号生成器212中平移副本信号载波(1715)频率,使得所得到的相干波形(208)没有残余频率分量(换言之,没留下正弦波)。当副本信号生成与当前正在评估/收听的音频设备传输的物理信号相对应的载波时,可能会出现这种情况。由于时钟频率不同,这些载波频率会略有不同。
图25示出了音频环境的另一个示例。根据该示例,图25的元件如下:
100i、100j、100k:多个被编排的分布式音频设备;
2500:从音频设备i(100i)发送并由音频设备j(100j)接收的信号;
2501:从音频设备i(100i)发送并由音频设备i(100i)接收的信号;
2502:从音频设备j(100j)发送并由音频设备i(100i)接收的信号;
2503:从音频设备j(100j)发送并由音频设备j(100j)接收的信号;
2510:音频设备i(100i)与音频设备j(100i)之间的实际距离;以及
2511(i、j):音频设备的扩音器和麦克风之间的距离。
现在将参考图25描述异步双向测距的一些示例。在该示例中,音频设备是异步的,并且在它们的时钟之间存在偏差。该特定实现使用双向测距,因此所有未知的时钟项都被抵消。该特定示例是用成对的音频设备执行的,并且将参考音频设备100i和100j来解释。可以通过对所有音频设备对(例如,音频设备对100i-100k和音频设备对100j-100k)重复此操作来获得声学空间中所有音频设备之间的距离集合。
图26是根据一个示例的时序图。图26的时序图将用作描述异步双向测距方法的过程的一部分的参考。此讨论中将使用的符号和首字母缩略词及其含义如下:
c-声速
ρ-伪距
τ-延迟
-设备i上的时钟纪元
-设备i上的回放纪元
-设备i上的记录纪元
-设备i上的回放延时/>
-设备i上的记录延时
-设备i上的声学延时(由于它自己的扩音器和麦克风之间的间隔)
Δtij-设备i与设备j之间的相对时钟偏差
τij-设备i与设备j之间的实际延迟
-设备i与设备j之间的测量(根据DW)延迟
-设备i与设备j之间的估计(处理后)延迟
ToF–飞行时间
ToR–接收时间
ToT–发送时间
此外,首字母缩略词“DW”表示延迟波形。符号上的帽子表示估计值。符号上的波浪号表示测量值。音频设备的“时钟纪元”是音频设备控制系统向(多个)扩音器发送回放信号的时间。音频设备的“回放纪元”是(多个)扩音器实际回放与回放信号对应的声音的时间。术语“延时”和“延迟”作为同义词使用。例如,“回放延时”是音频设备控制系统向(多个)扩音器发送回放信号的时间与(多个)扩音器实际回放与回放信号对应的声音的时间之间的延迟。同样,
“记录延时”是麦克风接收信号的时间与控制系统接收信号的时间之间的延迟。
在图26中,示出了估计音频设备i的播放记录延时时所涉及的定时。假设回放和记录输入/输出(I/O)流是同步的,如果全双工音频线程与音频设备时钟同步,并输出信号,那么由于回放延时/>信号在/>之前不会从扩音器播放出来。也就是说,
然后在音频设备上的扩音器和麦克风之间的距离引起的声学延迟之后,信号到达同一音频设备的麦克风。接收到的信号被记录延时/>进一步延迟,直到它进入音频设备的音频线程。
音频设备产生的DW将有位于延迟处的峰值,其中~表示测量值。换言之,/>表示音频设备i与其自身之间的测量伪距。音频线程生成的本地副本与麦克风馈送中的信号的码相位差值确定了DW中峰值的码延迟,其被测量为
并且等于音频设备的播放记录延时(包括声学延迟)。该公式可用于估计音频设备的体延迟以用于回声管理,稍后我们将看到如何使用该公式来消除异步音频设备之间的伪距测量中的偏差。
图27是示出根据一个示例在估计两个异步音频设备之间的飞行时间时的相关时钟项的时序图。现在我们将考虑这样一种情况:两个音频设备都在回放声学DSSS信号,并且还通过处理另一个音频设备的声学DSSS信号来产生DW。这导致对应于音频设备之间的ToF的延迟测量和/>图27表示从设备i发送,并在设备j接收,反之亦然。
在该示例中,图27的符号和首字母缩略词具有以下含义和上下文:
·和/>分别与设备i和j上的音频线程同步。
·两个设备之间的实际声学延迟是相同的,即τij=τji=ToF,各声学路径显示为绿色和蓝色箭头。
·在发送时间(ToT)在设备i的扬声器处的传输信号的码相位是
·在ToF之后,此信号到达接收器(设备j),并被设备j上运行的记录延时延迟,因此设备j的音频线程的麦克风缓冲区中的传输信号的相位在接收时间(ToR)是
·由运行在设备j上的音频线程生成的本地副本的码相位在ToR的相位是
因为本地副本和接收信号的码相位的差确定了DW中峰值出现的位置;测量延迟可以表示如下:
可以执行类似的分析,以获得设备j发送而i接收时的测量延迟,以获得如下表达式:
参考(5)和(6),可以观察到相对时钟偏差项
在将两个反向延迟测量值相加的情况下,其可以被消除:
如果现在将(4)代入(8)并整理,可以获得如下表达式:
这允许我们获得无偏差伪距估计,如下所示:
因此,当我们可以访问以下内容时,使用(9)我们可以获得无偏差伪距估计:
·反向延迟测量:和/>
·播放记录延时测量:和/>
·包括特定设备的播放记录延时的声学延迟估计:和/>
在一些情况下,可能无法估计或消除δa。在这种情况下,可以选择省略(9)中的δa,从而在估计伪距中留下偏差:
备选地,可以基于音频设备类型使用δa的近似值或依赖于预先测量的δa。
时钟偏差估计
代替将任何两个反向伪距估计相加,取差得到以下:
如果使
表示设备i的回放和记录延时的差,将(7)代入(12)并整理,可以得到以下:
公式(14)允许(例如,允许控制系统)求解相对时钟偏差Δtij,如果以下任何一项为真:
1.回放和记录延时之差是已知的(即预先测量并代入(14)),或者
2.回放和记录延时之差在两个设备上是相等的(使得这些项在(14)中抵消),或者
3.回放和记录延时之差为零(因此这些项在(13)中抵消)。
时钟偏斜估计
取决于用于生成DW的信号,也可以以如下方式对其进行处理,使得我们可以获得两个音频设备上的时钟的频率差(偏斜)的估计。在这个实验中使用的DSSS信号只是位于f0Hz的载波信号,它被伪随机数序列(这里可以称为PRN序列、PRN码、扩展码或简称为码)扩展。该信号的接收涉及“解扩展(de-spreading)”并将其下移回基带。然而,如果两个时钟的频率不同,则在相干积分(使用本地副本的匹配滤波)之后,将存在等于两个时钟频率之差的残余频率。因此,不是通过对相干积分结果的平方进行平均来产生DW,一些实现涉及执行频谱分析以确定残余载波的频率是多少,并从残余载波的频率推断时钟频率之差。这样的方法允许控制系统在单个相干积分周期之后获得估计。然而,除非改变DSSS参数以针对此类测量进行优化,否则仅在单个相干积分周期后估计可能会非常嘈杂。这种DSSS参数改变可以涉及使扩展码(和相干积分周期)在时间上非常长(例如,在数百毫秒到几秒的范围内),这可以通过使用更长的码(更多码片)和/或减少码片率(带宽)来完成。
另一种方法涉及利用时钟频率差也会导致相对码相位(和时钟偏差)游走(换言之,随时间变化)这一事实。在一些这样的实现中,控制系统可以追踪~τij如何随时间变化,这是码相位游走的速率。
两种方法之间存在折衷,可归纳如下:
·需要对基于载波的方法的每个相干积分结果执行频谱分析,其复杂度不可忽略。对于基于码游走的方法,控制系统只需要预留测量伪距的历史记录并处理这个小得多得数据量。如果时钟频率差足够大以致能在相干积分周期尺度上检测到,则DW中可能存在SNR损耗,并且应缩短周期,这将导致无法解决时钟速率差。
·基于载波的方法仅在一个相干积分周期后产生估计,而基于码游走的方法需要足够数量的DW和伪距估计,使得可以在DW的相位噪声中自信地估计码游走。因此,基于码游走的方法要慢得多。然而,固有嘈杂的基于相干载波的方法可能需要时间平滑,这可能导致所需的观察时间量相似。
根据一些实现,(例如,如上文参考图24所讨论的)延迟率估计器可用于估计时钟偏斜。延迟率与时钟偏斜成正比。
图28是示出了如何经由单个声学DSSS信号检测两个音频设备之间的相对时钟偏斜的示例的图表。在该示例中,横轴表示频率,并且纵轴表示功率。图28指示接收到的调制声学DSSS信号2807的主瓣频谱以及解调声学DSSS信号2808的频率。人们可能会注意到解调声学DSSS信号2808不是零赫兹,表明设备之间有相对时钟偏斜。
图29是示出如何经由对单个声学DSSS信号的多次测量来检测两个音频设备之间的相对时钟偏斜的示例的图表。在该示例中,横轴表示延迟时间,并且纵轴表示功率。图29示出了从接收到的音频块(在t=1和t=2)中的声学DSSS信号产生的延迟波形的示例。延迟波形峰值位置的平移(它本身表示体延迟)表示设备之间的时钟偏斜。在一些示例中,时间2可能是时间1之后的数小时或数天。如果时钟偏斜相对较小,则使用这种相对较大的时间间隔可能是有利的。
时钟训练
在一些实现中,控制系统被配置为利用时钟偏差和延迟估计来使用闭环方法实际驱动本地时钟(训练它)。锁频环、延迟锁定环、锁相环或它们的组合可用于实施信号处理链以完成时钟训练。
在备选示例中,不是实际调整本地时钟,而是可以调整DSSS信号参数以针对时钟偏差进行补偿。
时钟偏差和延迟估计技术的准确性在很大程度上取决于SNR,因此最适合于其中优化模块712通过对(多个)声学DSSS信号性能估计703应用比(多个)感知影响估计702相对更高的权重来确定DSSS参数705的观察(参见图7)。例如,优化模块712可以被配置为通过强调系统产生声学DSSS信号的高SNR观察的能力并且不强调用户对声学DSSS信号的影响/可感知性来确定DSSS参数705。在一些这样的示例中,DSSS参数705可以对应于可听见的声学DSSS信号。
然而,在一些备选示例中,可以以连续的亚可听和低SNR方式实现粗略技术(例如DW延迟追踪方法)。
设备可发现性
图30是示出为设备发现预留的声学DSSS扩展码示例的图表。在该示例中,例如,当一个新的音频设备已经开启并且正在被配置为在音频环境中使用时,使用预留的扩展码。在运行时操作期间,使用不同的(“正常”)声学DSSS扩展码。预留的扩展码可以或可以不使用与正常声学DSSS扩展码相同的频带。
图30的元件如下:
3001:多个预留的声学DSSS扩展码,也被称为伪随机数序列;
3002:多个(由编排设备)分配的伪随机数序列;
3003:设备1已经具有分配的码;
3006:设备2正在发送预留码(3001);
3004:检测到设备2,并且编排设备为设备2分配码;
3007:设备2正在发送其分配的码;
3008:设备3第一次开启后开始发送预留码;
3005:检测到设备3,并且编排设备为设备3分配码;以及
3009:设备3正在发送分配的码。
在该示例中,当新的音频设备被引入音频环境系统时,新的音频设备开始回放使用预留的扩展码序列产生的声学DSSS信号。这允许房间中的其他设备识别出新的音频设备已被引入声学空间并启动集成序列。在发现新的音频设备并将其集成到被编排音频设备系统之后,新音频设备开始使用在该示例中由编排设备分配给它的扩展码来回放声学DSSS信号。
根据该示例,设备2和3从发现码通道(频带)移动到由编排系统分配给它们的频带。集成后,所有回放声学DSSS信号的设备的幅度、带宽和中心频率可能会发生变化,使得针对新系统配置进行最佳观察。在一些示例中,编排设备可以重新计算声学空间中所有设备的声学DSSS参数,因此新发现的音频设备可能导致所有音频设备的DSSS参数改变。
噪声估计
在该示例中,由多个音频设备产生的基于声学DSSS的观察被用于估计声学空间中的噪声。
图31示出了音频环境的另一个示例。在图31中,示出了具有参与DSSS操作的多个分布式的被编排音频设备100A、100B和100C的声学空间130。在该示例中,还存在产生噪声8501的噪声源8500。图31的元件如下:
130:声学空间;
100(A、B、C):多个分布式的被编排音频设备;
110:多个扩音器;
111:多个麦克风;
8010:100A和100B之间的距离;
8011:100A和100C之间的距离;
8012:100B和100C之间的距离;
8500:噪声源;
8501:噪声;
8510:8500和100A之间的距离;
8511:8500和100B之间的距离;以及
8512:8500和100C之间的距离。
图32A示出了图31的音频设备100C基于从音频设备100A和100B接收到的声学DSSS信号而产生的延迟波形的示例。对应于从音频设备100A接收的声学DSSS信号的延迟波形被标记为400Ca,并且对应于从音频设备100B接收的声学DSSS信号的延迟波形被标记为400Cb。
图32B示出了图31的音频设备100B基于从音频设备100A和100C接收到的声学DSSS信号而产生的延迟波形的示例。对应于从音频设备100A接收的声学DSSS信号的延迟波形被标记为400Ba,并且对应于从音频设备100C接收的声学DSSS信号的延迟波形被标记为400Bc。
图32A和图32B的元件如下:
400Ca:设备100C产生的延迟波形,对应于从100A接收到的声学DSSS信号;
400Cb:设备100C产生的延迟波形,对应于从100B接收到的声学DSSS信号;
400Ba:设备100B产生的延迟波形,对应于从100A接收到的声学DSSS信号;
400Bc:设备100B产生的延迟波形,对应于从100C接收到的声学DSSS信号;
401C、401B:延迟波形的本底噪声区域;
8552Ca:100C产生的延迟波形中的信号功率,对应于从100A接收到的声学DSSS信号;
8552Cb:100C产生的延迟波形中的信号功率,对应于从100B接收到的声学DSSS信号;
8552Ba:100B产生的延迟波形中的信号功率,对应于从100A接收到的声学DSSS信号;
8552Bc:100B产生的延迟波形中的信号功率,对应于从100C接收到的声学DSSS信号;
8551Ca:100C产生的延迟波形中的噪声功率,对应于从100A接收到的声学DSSS信号;
8551Cb:100C产生的延迟波形中的噪声功率,对应于从100B接收到的声学DSSS信号;
8551Ba:100B产生的延迟波形中的噪声功率,对应于从100A接收到的声学DSSS信号;以及
8551Bc:100B产生的延迟波形中的噪声功率,对应于从100C接收到的声学DSSS信号。
再次参考图31,在该示例中,音频设备100B与噪声源8500之间的距离8511短于音频设备100C与噪声源8500之间的距离8512,并且也短于音频设备100A与噪声源8500之间的距离8510。在该特定场景中,音频设备100B和噪声源8500的相对接近度导致信号400Ba和400Bc中的噪声功率8551Ba和8551Bc大于信号400Ca和400Cb中的噪声功率8551Ca和8551Cb。此外,信号400Bc中的噪声比信号400Ba中的噪声相对要多。这表明与音频设备100B和100A之间的路径相比,噪声源8500更靠近音频设备100B和100C之间的路径。在一些实现中,一个或多个音频设备可以包括定向麦克风或者可以被配置用于接收侧波束成形。这样的功能可以提供有关来自噪声源的声音的DoA的进一步信息,并因此提供有关噪声源位置的信息。
因此,使用音频设备的已知或计算的位置、音频设备之间的已知或计算的距离、噪声源的测量位置和每个音频设备产生的延迟波形的相对噪声级别,在一些示例中,控制系统可以被配置为产生音频环境130的分布式噪声估计。这样的分布式噪声估计可以是或者可以基于由声学空间中不同位置处的音频设备上的麦克风测量的噪声估计集合。例如,一个音频设备可能位于厨房工作台附近,另一个音频设备可能位于躺椅附近,而另一个音频设备可能位于门附近。这些设备中的每一个都会对其附近的噪声以及声学空间中的各个位置更加敏感,并且能够作为一个组来产生跨房间的噪声分布估计。一些这样的实现可以涉及由控制系统应用基于音频设备和噪声源之间的距离的假定衰减函数。一些这样的示例可以涉及由控制系统比较每个音频设备的计算的噪声级别与延迟波形的测量的本底噪声和/或与延迟波形的测量的本底噪声之差(例如,8551Ca和8551Cb之间的级别或功率之差)。
图33是概述所公开方法的另一个示例的流程图。与本文描述的其他方法一样,方法3300的块不一定按指示的顺序执行。此外,这样的方法可以包括比所示出和/或描述的块更多或更少的块。方法3300可以由装置或系统执行,例如图1B中所示和上文描述的装置150。
在该示例中,块3305涉及由控制系统接收包括第一音频信号的第一内容流。内容流和第一音频信号可以根据特定实现而异。在一些情况下,内容流可以对应于电视节目、电影、音乐、播客等。
根据该示例,块3310涉及由控制系统渲染第一音频信号以产生第一音频回放信号。第一音频回放信号可以是或者可以包括用于音频设备的扩音器系统的扩音器馈送信号。
在该示例中,块3315涉及由控制系统生成第一直接序列扩频(DSSS)信号。根据该示例,第一DSSS信号对应于本文中称为声学DSSS信号的信号。在一些情况下,第一DSSS信号可以由一个或多个DSSS信号生成器模块生成,例如上面参考图2描述的DSSS信号生成器212A和DSSS信号调制器220A。
根据该示例,块3320涉及由控制系统将第一DSSS信号插入第一音频回放信号,以生成第一修改音频回放信号。在一些示例中,块3320可以由上面参考图2描述的DSSS信号注入器211A执行。
在该示例中,块3325涉及由控制系统使扩音器系统回放第一修改音频回放信号,以生成第一音频设备回放声音。在一些示例中,块3320可以涉及图2的控制系统160控制扩音器系统110A回放第一修改音频回放信号,以产生第一音频设备回放声音。
在一些实现中,方法3300可以涉及由控制系统并且从麦克风系统接收对应于至少第一音频音频设备回放声音和第二个音频设备回放声音的麦克风信号。第二音频设备回放声音可以对应于由第二音频设备回放的第二修改音频回放信号。在一些示例中,第二修改音频回放信号可以包括由第二音频设备生成的第二DSSS信号。在一些这样的示例中,方法3300可以涉及由控制系统从麦克风信号中至少提取第二DSSS信号。
根据一些实现,方法3300可以涉及由控制系统并且从麦克风系统接收对应于至少第一音频设备回放声音和第二至第N音频设备回放声音的麦克风信号。第二至第N音频设备回放声音可以对应于由第二至第N音频设备回放的第二至第N修改音频回放信号。在一些情况下,第二至第N修改音频回放信号可以包括第二至第N DSSS信号。在一些这样的示例中,方法3300可以涉及由控制系统从麦克风信号中提取至少第二至第N DSSS信号。
在一些实现中,方法3300可以涉及由控制系统至少部分地基于第二至第N DSSS信号来估计至少一个声学场景度量。在一些示例中,(多个)声学场景度量可以是或者可以包括飞行时间、到达时间、距离、音频设备可听度、音频设备脉冲响应、音频设备之间的角度、音频设备位置、音频环境噪声和/或信噪比。根据一些示例,方法3300可以涉及由控制系统至少部分地基于至少一个声学场景度量和/或至少一个音频设备特性来控制音频设备回放的一个或多个方面。
根据一些示例,第一音频设备回放声音的第一内容流分量可以导致第一音频设备回放声音的第一DSSS信号分量的感知掩蔽。在一些这样的示例中,第一DSSS信号分量可能对人类来说是不可听的。
在一些示例中,方法3300可以涉及由控制系统为音频环境中的多个音频设备中的每个音频设备确定一个或多个DSSS参数。一个或多个DSSS参数可用于生成DSSS信号。一些这样的示例可以涉及由控制系统向多个音频设备中的每个音频设备提供一个或多个DSSS参数。
在一些实现中,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备调度时隙以回放修改音频回放信号。在一些这样的示例中,第一音频设备的第一时隙可以不同于第二音频设备的第二时隙。
根据一些示例,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备确定用于回放修改音频回放信号的频带。在一些这样的示例中,第一音频设备的第一频带可以不同于第二音频设备的第二频带。
在一些情况下,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备确定DSSS扩展码。在一些这样的示例中,第一音频设备的第一扩展码可以不同于第二音频设备的第二扩展码。在一些示例中,确定一个或多个DSSS参数可以涉及确定至少部分地基于对应音频设备的可听度的至少一个扩展码长度。根据一些示例,确定一个或多个DSSS参数可以涉及应用声学模型,该声学模型至少部分地基于音频环境中的多个音频设备中的每一个的相互可听度。
在一些示例中,确定一个或多个DSSS参数可以涉及确定当前回放目标。一些这样的示例可以涉及应用声学模型,该声学模型至少部分地基于音频环境中多个音频设备中的每一个的相互可听度,以确定音频环境中DSSS信号的估计性能。一些这样的示例可以涉及应用基于人类声音感知的感知模型,以确定音频环境中DSSS信号的感知影响。一些这样的示例可以涉及至少部分地基于当前回放目标、估计性能和/或感知影响来确定一个或多个DSSS参数。
根据一些示例,确定一个或多个DSSS参数可以涉及检测DSSS参数改变触发以及确定对应于DSSS参数改变触发的一个或多个新的DSSS参数。一些这样的示例可以涉及向音频环境的一个或多个音频设备提供一个或多个新的DSSS参数。
在一些情况下,检测DSSS参数改变触发可以涉及检测以下一个或多个:音频环境中的新音频设备;音频设备位置的改变;音频设备取向的改变;音频设备设置的改变;音频环境中人所处位置的改变;在音频环境中再现的音频内容类型改变;音频环境中背景噪声的改变;音频环境配置改变,包括但不限于音频环境的门或窗的配置改变;音频环境的两个或更多个音频设备之间的时钟偏斜;音频环境的两个或更多个音频设备之间的时钟偏差;音频环境的两个或更多个音频设备之间的相互可听度的改变;和/或回放目标的改变。
在一些示例中,方法3300可以涉及处理接收到的麦克风信号以产生预处理的麦克风信号。一些这样的示例可以涉及从预处理的麦克风信号中提取DSSS信号。处理接收到的麦克风信号可以例如涉及波束成形、应用带通滤波器和/或回声消除。
根据一些实现,从麦克风信号中提取至少第二至第N DSSS信号可以涉及将匹配滤波器应用于麦克风信号或应用于麦克风信号的预处理版本,以产生第二至第N延迟波形。第二至第N延迟波形可以例如对应于第二至第N DSSS信号中的每一个。一些这样的示例可以涉及将低通滤波器应用于第二至第N延迟波形中的每一个。
在一些示例中,方法3300可以涉及经由控制系统实现解调器。一些这样的示例可以涉及应用匹配滤波器作为由解调器执行的解调过程的一部分。在一些这样的示例中,解调过程的输出可以是解调相干基带信号。一些示例可以涉及经由控制系统估计体延迟并向解调器提供体延迟估计。
在一些示例中,方法3300可以涉及经由控制系统实现被配置用于对解调相干基带信号进行基带处理的基带处理器。在一些这样的示例中,基带处理器可以被配置为输出至少一个估计的声学场景度量。在一些示例中,基带处理可以涉及基于在非相干积分周期期间接收的解调相干基带信号产生非相干积分延迟波形。在一些这样的示例中,产生非相干积分延迟波形可以涉及对在非相干积分周期内接收的解调相干基带信号进行平方,以产生平方解调基带信号,并对平方解调基带信号进行积分。在一些示例中,基带处理可以涉及对非相干积分延迟波形应用前沿估计过程、受控响应功率估计过程或信噪比估计过程中的一个或多个。一些示例可以涉及经由控制系统估计体延迟并向基带处理器提供体延迟估计。
根据一些示例,方法3300可以涉及由控制系统基于第二至第N延迟波形来估计在第二至第N音频设备位置处的第二至第N噪声功率级别。一些这样的示例可以涉及至少部分地基于第二至第N噪声功率级别来产生针对音频环境的分布式噪声估计。
在一些示例中,方法3300可以涉及执行用于消除两个异步音频设备之间的未知时钟偏差的异步双向测距过程。异步双向测距过程例如可以基于由两个异步音频设备中的每一个传输的DSSS信号。一些这样的示例可以涉及在音频环境中的多个音频设备对中的每一对之间执行异步双向测距过程。
根据一些示例,方法3300可以涉及执行时钟偏差估计过程以确定两个异步音频设备之间的估计时钟偏差。时钟偏差估计过程可以例如基于由两个异步音频设备中的每一个传输的DSSS信号。一些这样的示例可以涉及针对估计时钟偏差进行补偿。一些实现可以涉及在音频环境的多个音频设备中的每一个之间执行时钟偏差估计过程,以产生多个估计时钟偏差。一些这样的实现可以涉及针对每个估计时钟偏差进行补偿。
在一些示例中,方法3300可以涉及执行时钟偏斜估计过程以确定两个异步音频设备之间的估计时钟偏斜。时钟偏斜估计过程例如可以基于由两个异步音频设备中的每一个传输的DSSS信号。一些这样的示例可以涉及针对估计时钟偏斜进行补偿。一些这样的示例可以涉及在音频环境的多个音频设备对中的每一对之间执行时钟偏斜估计过程,以产生多个估计时钟偏斜。一些这样的示例可以涉及针对每个估计时钟偏斜进行补偿。
根据一些示例,方法3300可以涉及检测由音频设备传输的DSSS信号。在一些示例中,DSSS信号可以对应于第一扩展码。一些这样的示例可以涉及为音频设备提供第二扩展码以供将来传输。在一些这样的示例中,第一扩展码可以是为新激活的音频设备预留的第一伪随机数序列。
在一些示例中,方法3300可以涉及使音频环境中的多个音频设备中的每一个同时回放修改音频回放信号。
在一些示例中,声学DSSS信号可以在其中音频回放信号不可听的一个或多个时间间隔(在本文中可称为“静音间隔”或“静音”)期间被回放。在一些这样的示例中,第一音频信号的至少一部分可以对应于静音。
图34是概述所公开方法的另一个示例的流程图。与本文描述的其他方法一样,方法3400的块不一定按指示的顺序执行。此外,这样的方法可以包括比所示出和/或描述的块更多或更少的块。方法3400可由装置或系统执行,例如图1B中所示和上文描述的装置150。
在一些示例中,方法3400的块可以由音频环境内的一个或多个设备执行,例如,由诸如音频系统控制器(例如,本文中称为智能家居集线器)的编排设备或由音频系统的另一个组件,例如智能扩音器、电视、电视控制模块、膝上型计算机、移动设备(例如手机)等。在一些实现中,音频环境可以包括家庭环境的一个或多个房间。在其他示例中,音频环境可以是另一种类型的环境,例如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。然而,在备选实现中,方法3400的至少一些块可以由实现基于云的服务的设备(例如服务器)来执行。
在该示例中,块3405涉及由控制系统使音频环境的第一音频设备生成第一直接序列扩频(DSSS)信号。根据该示例,第一DSSS信号对应于本文中称为声学DSSS信号的信号。在一些情况下,第一DSSS信号可以根据从编排设备接收的指令,由一个或多个DSSS信号生成器模块(例如上面参考图2描述的DSSS信号生成器212A和DSSS信号调制器220A)生成。因此,控制系统可以是编排设备控制系统。在一些示例中,可以从音频设备的编排模块接收指令,例如,第一音频设备的编排模块。
根据该示例,块3410涉及由控制系统使第一DSSS信号被插入对应于第一内容流的第一音频回放信号中,以生成第一音频设备的第一修改音频回放信号。在一些示例中,块3410可以由上面参考图2描述的DSSS信号注入器211A根据从编排设备或编排模块接收的指令来执行。
在该示例中,块3415涉及由控制系统使第一音频设备回放第一修改音频回放信号,以生成第一音频设备回放声音。在一些示例中,块3415可以涉及图2的控制系统160(根据从编排设备或编排模块接收的指令)控制扩音器系统110A回放第一修改音频回放信号,以生成第一音频设备回放声音。
在一些实现中,块3405、3410和3415可以涉及由编排设备或编排模块向音频环境的第一音频设备提供DSSS信息(例如上面参考图2描述的DSSS信息205A)。如上所述,DSSS信息可以包括由第一音频设备的控制系统用来生成DSSS信号、调制DSSS信号、解调DSSS信号等的参数。DSSS信息可以包括一个或多个DSSS扩展码参数和一个或多个DSSS载波参数,例如,如本文别处所描述的。
根据该示例,块3420涉及由控制系统使音频环境的第二音频设备生成第二DSSS信号。在该实现中,块3425涉及由控制系统使第二DSSS信号被插入第二内容流中以生成用于第二音频设备的第二修改音频回放信号。在该示例中,块3430涉及由控制系统使第二音频设备回放第二修改音频回放信号,以生成第二音频设备回放声音。块3420-3430例如可以根据块3405-3415来执行。在一些示例中,3420-3430可以与块3405-3415并行执行。
在该示例中,块3435涉及由控制系统使音频环境的至少一个麦克风检测至少第一音频设备回放声音和第二音频设备回放声音并且生成对应于至少第一音频设备回放声音和第二音频设备回放声音的麦克风信号。至少一个麦克风可以是音频环境的一个或多个音频设备(例如第一音频设备、第二音频设备、另一个音频设备(例如编排设备)等)的组件。
根据该示例,块3440涉及由控制系统使得从麦克风信号中提取第一DSSS信号和第二DSSS信号。例如,块3440可以由音频环境的包括块3435中提到的至少一个麦克风的一个或多个音频设备执行。
在该示例中,块3445涉及由控制系统使得至少部分地基于第一DSSS信号和第二DSSS信号估计至少一个声学场景度量。至少一个声学场景度量例如可以包括飞行时间、到达时间、距离、音频设备可听度、音频设备脉冲响应、音频设备之间的角度、音频设备位置、音频环境噪声或信噪比中的一个或多个。
在一些情况下,使得估计至少一个声学场景度量可以涉及估计至少一个声学场景度量或使另一设备估计至少一个声学场景度量。换言之,声学场景度量可以由编排设备或音频环境的另一设备来估计。
在一些实现中,方法3400可以涉及至少部分地基于至少一个声学场景度量来控制音频设备回放的一个或多个方面。例如,一些实现可以涉及至少部分地基于一个或多个声学场景度量来控制噪声补偿过程。一些示例可以涉及至少部分地基于一个或多个声学场景度量来控制渲染过程和/或一个或多个音频设备回放级别。
根据一些实现,音频设备回放声音的DSSS信号分量可能对人类来说是不可听的。在一些情况下,第一音频设备回放声音的第一个内容流分量可以导致第一音频设备回放声音的第一DSSS信号分量的感知掩蔽。在一些示例中,第二音频设备回放声音的第二内容流分量可以导致第二音频设备回放声音的第二DSSS信号分量的感知掩蔽。
在一些示例中,方法3400可以涉及由控制系统使音频环境的第三至第N音频设备生成第三至第N直接序列扩频(DSSS)信号。一些这样的示例可以涉及由控制系统使第三至第N DSSS信号被插入第三至第N内容流中,以生成用于第三至第N音频设备的第三至第N修改音频回放信号。一些这样的示例可以涉及由控制系统使第三至第N音频设备回放第三至第N修改音频回放信号的对应实例,以生成音频设备回放声音的第三至第N实例。
在一些示例中,方法3400可以涉及使音频环境中的多个音频设备中的每一个同时回放修改音频回放信号。
一些这样的示例可以涉及由控制系统使第一至第N音频设备中的每一个的至少一个麦克风检测音频设备回放声音的第一至第N实例并且生成对应于音频设备回放声音的第一至第N实例的麦克风信号。在一些这样的示例中,音频设备回放声音的第一至第N实例可以包括第一音频设备回放声音、第二音频设备回放声音以及音频设备回放声音的第三至第N实例。一些这样的示例可以涉及由控制系统使得从麦克风信号中提取第一至第N DSSS信号,其中至少部分地基于第一至第N DSSS信号来估计至少一个声学场景度量。
在一些示例中,方法3400可以涉及为音频环境中的多个音频设备确定一个或多个DSSS参数。一个或多个DSSS参数可用于生成DSSS信号。一些这样的示例可以涉及向多个音频设备中的每个音频设备提供一个或多个DSSS参数。在一些示例中,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备调度用于回放修改音频回放信号的时隙。在一些情况下,第一音频设备的第一时隙可以不同于第二音频设备的第二时隙。
根据一些示例,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备确定用于回放修改音频回放信号的频带。在一些情况下,第一音频设备的第一频带可以不同于第二音频设备的第二频带。
在一些示例中,确定一个或多个DSSS参数可以涉及为多个音频设备中的每个音频设备确定扩展码。在一些情况下,第一音频设备的第一扩展码可以不同于第二音频设备的第二扩展码。在一些示例中,确定一个或多个DSSS参数可以涉及确定至少部分地基于对应音频设备的可听度的至少一个扩展码长度。
根据一些示例,确定一个或多个DSSS参数可以涉及应用声学模型,该声学模型至少部分地基于音频环境中的多个音频设备中的每一个的相互可听度。
在一些示例中,确定一个或多个DSSS参数可以涉及确定当前回放目标。一些这样的示例可以涉及应用声学模型,该声学模型至少部分地基于音频环境中多个音频设备中的每一个的相互可听度,以确定音频环境中DSSS信号的估计性能。一些这样的示例可以涉及应用基于人类声音感知的感知模型,以确定音频环境中DSSS信号的感知影响。一些这样的示例可以涉及至少部分地基于当前回放目标、估计性能和感知影响来确定一个或多个DSSS参数。
根据一些示例,确定一个或多个DSSS参数可以涉及检测DSSS参数改变触发。一些这样的示例可以涉及确定对应于DSSS参数改变触发的一个或多个新DSSS参数。一些这样的示例可以涉及向音频环境的一个或多个音频设备提供一个或多个新的DSSS参数。
在一些示例中,检测DSSS参数改变触发可以涉及检测以下一个或多个:音频环境中的新音频设备、音频设备位置的改变、音频设备取向的改变、音频设备设置的改变、人在音频环境中的位置的改变、音频环境中正在再现的音频内容类型的改变、音频环境中背景噪声的改变、音频环境配置改变,包括但不限于音频环境的门或窗的配置改变、音频环境的两个或更多个音频设备之间的时钟偏斜、音频环境的两个或更多个音频设备之间的时钟偏差、音频环境的两个或更多个音频设备之间相互可听度的改变、和/或回放目标的改变。
根据一些示例,方法3400可以涉及处理接收到的麦克风信号以产生预处理的麦克风信号。在一些这样的示例中,DSSS信号可以从预处理的麦克风信号中提取。在一些这样的示例中,处理接收到的麦克风信号可以涉及波束成形、应用带通滤波器或回声消除中的一个或多个。
在一些示例中,使得从麦克风信号中提取至少第一DSSS信号和第二DSSS信号可以涉及将匹配滤波器应用到麦克风信号或应用到麦克风信号的预处理版本,以产生延迟波形。在一些这样的示例中,延迟波形可以至少包括基于第一DSSS信号的第一延迟波形和基于第二DSSS信号的第二延迟波形。一些示例可以涉及对延迟波形应用低通滤波器。
根据一些示例,应用匹配滤波器是解调过程的一部分。在一些这样的示例中,解调过程可以由上文参考图2描述的解调器214A、上文参考图17描述的解调器214或上文参考图18描述的解调器214执行。根据一些这样的示例,解调过程的输出可以是解调相干基带信号。一些示例可以涉及估计体延迟并向解调过程提供体延迟估计。
一些示例可以涉及例如通过本文公开的基带处理器218的实例对解调相干基带信号执行基带处理。在一些情况下,基带处理可以输出至少一个估计的声学场景度量。在一些示例中,基带处理可以涉及基于在非相干积分周期期间接收的解调相干基带信号产生非相干积分延迟波形。根据一些这样的示例,产生非相干积分延迟波形可以涉及对非相干积分周期接收的解调相干基带信号进行平方,以产生平方解调基带信号,并对平方解调基带信号进行积分。根据一些实现,基带处理可以涉及对非相干积分延迟波形应用前沿估计过程、受控响应功率估计过程和/或信噪比估计过程。一些示例可以涉及估计体延迟并向基带处理提供体延迟估计。
一些示例可以涉及估计至少第一音频设备位置处的第一噪声功率级别和估计第二音频设备位置处的第二噪声功率级别。在一些这样的示例中,估计第一噪声功率级别可以基于第一延迟波形并且估计第二噪声功率级别可以基于第二延迟波形。一些这样的示例可以涉及至少部分地基于估计第一噪声功率级别和估计第二噪声功率级别产生针对音频环境的分布式噪声估计。
在一些示例中,方法3400可以涉及执行用于消除两个异步音频设备之间的未知时钟偏差的异步双向测距过程。在一些情况下,异步双向测距过程可以基于由两个异步音频设备中的每一个传输的DSSS信号。一些示例可以涉及在音频环境的多个音频设备对中的每一对之间执行异步双向测距过程。
根据一些示例,方法3400可以涉及执行时钟偏差估计过程以确定两个异步音频设备之间的估计时钟偏差。在一些情况下,时钟偏差估计过程可以基于由两个异步音频设备中的每一个传输的DSSS信号。一些这样的示例可以涉及针对估计时钟偏差进行补偿。一些实现可以涉及在音频环境的多个音频设备中的每一个之间执行时钟偏差估计过程,以产生多个估计时钟偏差。一些这样的示例可以涉及针对多个估计时钟偏差中的每个估计时钟偏差进行补偿。
在一些示例中,方法3400可以涉及执行时钟偏斜估计过程以确定两个异步音频设备之间的估计时钟偏斜。时钟偏斜估计过程可以基于由两个异步音频设备中的每一个传输的DSSS信号。一些这样的示例可以涉及针对估计时钟偏斜进行补偿。一些示例可以涉及在音频环境的多个音频设备中的每一个之间执行时钟偏斜估计过程,以产生多个估计时钟偏斜。一些这样的示例可以涉及针对多个估计时钟偏斜中的每个估计时钟偏斜进行补偿。
根据一些示例,方法3400可以涉及检测由音频设备传输的DSSS信号。在一些情况下,DSSS信号可以对应于第一扩展码。一些这样的示例可以涉及向音频设备提供第二扩展码。在一些示例中,第一扩展码可以是或者可以包括为新激活的音频设备预留的第一伪随机数序列。
在一些示例中,声学DSSS信号可以在其中音频回放信号不可听的一个或多个时间间隔期间被回放。在一些这样的示例中,第一音频回放信号的至少一部分、第二音频回放信号的至少一部分、或者第一音频回放信号和第二音频回放信号中的每一个的至少一部分对应于静音。
图35、36A和36B是示出多个音频设备如何根据一些实现编排测量会话的示例的流程图。与本文描述的其他方法的那些框一样,图35-36B中所示的块不一定按指示的顺序执行。例如,在一些实现中,图35的块3501的操作可以在块3500的操作之前执行。此外,这样的方法可以包括比所示出和/或描述的块更多或更少的块。
根据这些示例,智能音频设备是编排设备(其在本文中也可称为“领导者”)并且一个时间只有一个设备可以是编排设备。在其他示例中,编排设备可以是本文所称的智能家居集线器。编排设备可以是上面参考图1B描述的装置150的实例。
图35示出了根据此示例由所有参与的音频设备执行的块。在该示例中,块3500涉及获得所有其他参与的音频设备的列表。块3500的列表可以例如通过经由网络分组聚合来自其他音频设备的信息来创建:其他音频设备可以例如广播它们参与测量会话的意图。随着音频设备被添加和/或从音频环境中移除,块3500的列表可以被更新。在一些这样的示例中,可以根据各种试探法更新块3500的列表,以便仅关于最重要的设备(例如,当前在图1A的主要生活空间130内的音频设备)保持列表最新。
在图35所示的示例中,链接3504指示块3500的列表传递到块3501,协商领导过程。块3501的协商过程可以采用不同的形式,这取决于特定的实现。在最简单的实施例中,最低或最高设备ID代码(或其他唯一设备标识符)的字母数字排序可以确定领导者,而无需设备之间的多轮通信,假设所有设备都可以实现相同的方案。在更复杂的实现中,设备可以相互协商以确定哪个设备最适合作为领导者。例如,出于便于测量会话的目的,可能方便的是让聚合编排信息的设备也成为领导者。正常运行时间最长的设备、计算能力最强的设备和/或连接到主电源的设备可能是领导者的良好候选者。总的来说,在多个设备之间安排这样的共识是具有挑战性的问题,但是这个问题有许多现有的和令人满意的协议和解决方案(例如,Paxos协议)。应当理解,存在许多这样的协议并且将是适合的。
根据该示例,所有参与的音频设备然后继续执行块3503,意味着链接3506在这个示例中是无条件链接。下面参考图36B描述块3503。如果设备是领导者,那么它将执行块3502。在该示例中,链接3505涉及对领导的检查。下面参考图36A描述了领导过程的一个示例。图35的链接3507指示了来自该领导过程的输出,包括但不限于发送给其他音频设备的消息。
图36A示出了由编排设备或领导者执行的过程的示例。块3601涉及为每个参与的音频设备确定声学DSSS参数。在一些示例中,块3601可以涉及确定一个或多个DSSS扩展码参数和一个或多个DSSS载波参数。在一些示例中,块3601可以涉及为每个参与的音频设备确定扩展码。根据一些这样的示例,第一音频设备的第一扩展码可以不同于第二音频设备的第二扩展码。在一些示例中,块3601可以涉及确定至少部分地基于对应音频设备的可听度的扩展码长度。根据一些示例,块3601可以至少部分地基于当前回放目标。在一些示例中,块3601可以至少部分地基于是否已经检测到DSSS参数改变触发。
根据该示例,在编排设备已经在块3601中确定声学DSSS参数之后,图36A的过程继续到块3602。在该示例中,块3602涉及将在块3601中确定的声学DSSS参数发送到其他参与的音频设备。在一些示例中,块3602可以涉及经由无线通信,例如,经由本地Wi-Fi网络、经由蓝牙等,将声学DSSS参数发送到其他参与的音频设备。在一些示例中,块3602可以涉及发送“会话开始”指示,例如,如下面参考图36B所描述的。在一些示例中,参与的音频设备在块502中更新它们的声学DSSS参数。
根据该示例,在块3602之后,图36A的过程继续到块3603,其中编排设备等待当前测量会话结束。在该示例中,在块3603中,编排设备等待所有其他参与的音频设备已经结束它们的会话的确认。在其他示例中,块503可以涉及等待预定时间段。在一些情况下,框503可以涉及等待检测到DSSS参数改变触发。
在该示例中,在块3603之后,图36A的过程继续到块3600,其中编排设备提供关于测量会话的信息。这种信息可能会影响未来测量会话的选择和定时。在一些实施例中,块3600涉及接受在测量会话期间从所有其他参与的音频设备获得的测量。接收到的测量的类型可能取决于特定的实现。根据一些示例,接收到的测量可以是或者可以包括麦克风信号。备选地或附加地,在一些示例中,接收到的测量可以是或者可以包括从麦克风信号中提取的音频数据。在一些实现中,编排设备可以对接收到的测量执行(或导致执行)一个或多个操作。例如,编排设备可以至少部分地基于所提取的音频数据来估计(或导致估计)目标音频设备可听度或目标音频设备的位置。一些实现可以涉及至少部分地基于所提取的音频数据来估计远场音频环境脉冲响应和/或音频环境噪声。
在图36A中所示的示例中,过程将在执行块3600之后返回到块3601。在一些这样的示例中,该过程将在执行块3600之后的预定时间段返回到块3601。在一些情况下,该过程可以响应于用户输入返回到块3601。在一些情况下,该过程可以在检测到DSSS参数改变触发之后返回到块3601。
图36B示出了由编排设备以外的参与的音频设备执行的过程的示例。这里,块3610涉及每个其他参与的音频设备向编排设备发送传输(例如,网络分组),用信号通知每个设备参与一个或多个测量会话的意图。在一些实施例中,块3610还可以涉及将一个或多个先前的测量会话的结果发送给领导者。
在该示例中,块3615在块3610之后。根据该示例,块3615涉及等待新测量会话将开始的通知,例如,如经由“会话开始”分组所指示的。
根据该示例,例如连同在块3615中等待的“会话开始”分组,块3620涉及根据编排设备提供的信息应用DSSS参数。在该示例中,块3620涉及应用DSSS参数以生成修改音频回放信号,该修改音频回放信号将在测量会话期间由参与的音频设备回放。根据该示例,块3620涉及经由音频设备麦克风检测音频设备回放声音并且在测量会话期间生成对应的麦克风信号。如链接3622所示,在一些情况下,块3620可以重复,直到由编排设备指示的所有测量会话都完成(例如,根据从编排设备接收到的“停止”指示(例如,停止分组),或在预定的持续时间之后)。在一些情况下,可以针对多个目标音频设备中的每一个重复块3620。
最后,块3625涉及将在测量会话期间获得的信息提供给编排设备。在该示例中,在块3625之后,图36B的过程返回到块3610。在一些这样的示例中,该过程将在执行块3625之后的预定时间段返回到块3610。在一些情况下,该过程可以响应于用户输入返回到块3610。
本公开的一些方面包括被配置(例如,编程)为执行所公开方法的一个或多个示例的系统或设备,以及存储用于实现所公开的方法或其步骤的一个或多个示例的代码的有形计算机可读介质(例如,盘)。例如,一些所公开的系统可以是或包括可编程的通用处理器、数字信号处理器或微处理器,它们用软件或固件编程和/或以其他方式配置为对数据执行多种操作中的任何一种,包括所公开方法的实施例或其步骤。这样的通用处理器可以是或包括计算机系统,该计算机系统包括输入设备、存储器和处理子系统,该处理子系统被编程(和/或以其他方式配置)为响应于对其断言的数据执行所公开的方法(或其步骤)的一个或多个示例。
一些实施例可以实现为可配置的(例如,可编程的)数字信号处理器(DSP),其被配置(例如,编程或以其他方式配置)为对(多个)音频信号执行所需的处理,包括执行所公开方法的一个或多个示例。备选地,所公开系统(或其元件)的实施例可以实现为通用处理器(例如,个人计算机(PC)或其他计算机系统或微处理器,其可以包括输入设备和存储器),它用软件或固件编程为和/或以其他方式配置为执行多种操作中的任何一种,包括所公开方法的一个或多个示例。备选地,本发明系统的一些实施例的元件可以实现为通用处理器或DSP,它们被配置(例如,编程)为执行所公开方法的一个或多个示例,并且该系统还包括其他元件(例如,一个或多个扩音器和/或一个或多个麦克风)。被配置为执行所公开方法的一个或多个示例的通用处理器可以耦合到输入设备(例如,鼠标和/或键盘)、存储器和显示设备。
本公开的另一方面是一种计算机可读介质(例如,盘或其他有形存储介质),其存储用于执行(例如,可执行编码器以执行)所公开方法或其步骤的一个或多个示例的代码。
虽然本文已经描述了本公开的具体实施例和本公开的应用,但是对于本领域的普通技术人员来说显而易见的是,在不脱离所描述和本文要求保护的公开的范围的情况下,可以对本文描述的实施例和应用进行许多变化。应当理解,虽然已经示出和描述了本公开的某些形式,但是本公开不限于所描述和示出的特定实施例或所描述的特定方法。
Claims (46)
1.一种音频处理方法,包括:
由控制系统使音频环境的第一音频设备生成第一直接序列扩频(DSSS)信号;
由控制系统使第一DSSS信号被插入对应于第一内容流的第一音频回放信号中,以生成用于第一音频设备的第一修改音频回放信号;
由控制系统使第一音频设备回放第一修改音频回放信号,以生成第一音频设备回放声音;
由控制系统使音频环境的第二音频设备生成第二DSSS信号;
由控制系统使第二DSSS信号被插入第二内容流中,以生成用于第二音频设备的第二修改音频回放信号;
由控制系统使第二音频设备回放第二修改音频回放信号,以生成第二音频设备回放声音;
由控制系统使音频环境的至少一个麦克风检测至少第一音频设备回放声音和第二音频设备回放声音,并且生成对应于至少第一音频设备回放声音和第二音频设备回放声音的麦克风信号;
由控制系统使得从所述麦克风信号中提取第一DSSS信号和第二DSSS信号;以及
由控制系统使得至少部分地基于第一DSSS信号和第二DSSS信号来估计至少一个声学场景度量。
2.如权利要求1所述的音频处理方法,其中所述至少一个声学场景度量包括飞行时间、到达时间、距离、音频设备可听度、音频设备脉冲响应、音频设备之间的角度、音频设备位置、音频环境噪声或信噪比中的一个或多个。
3.如权利要求1或权利要求2所述的音频处理方法,其中使得估计所述至少一个声学场景度量涉及估计所述至少一个声学场景度量或使另一设备估计至少一个声学场景度量。
4.如权利要求1-3中任一项所述的音频处理方法,还包括至少部分地基于所述至少一个声学场景度量来控制音频设备回放的一个或多个方面。
5.如权利要求1-4中任一项所述的音频处理方法,其中第一音频设备回放声音的第一内容流分量导致第一音频设备回放声音的第一DSSS信号分量的感知掩蔽。
6.如权利要求1-5中任一项所述的音频处理方法,其中第二音频设备回放声音的第二内容流分量导致第二音频设备回放声音的第二DSSS信号分量的感知掩蔽。
7.如权利要求1-6任一项所述的音频处理方法,其中所述控制系统是编排设备控制系统。
8.如权利要求1-7中任一项所述的音频处理方法,还包括:
由控制系统使音频环境的第三至第N音频设备生成第三至第N直接序列扩频(DSSS)信号;
由控制系统使第三至第N DSSS信号被插入第三至第N内容流中,以生成第三至第N音频设备的第三至第N修改音频回放信号;以及
由控制系统使第三至第N音频设备回放第三至第N修改音频回放信号的对应实例,以生成音频设备回放声音的第三至第N实例。
9.如权利要求8所述的音频处理方法,还包括:
由控制系统使第一至第N音频设备中的每一个的至少一个麦克风检测音频设备回放声音的第一至第N实例,并且生成对应于音频设备回放声音的第一至第N实例的麦克风信号,音频设备回放声音的第一至第N实例包括第一音频设备回放声音、第二音频设备回放声音和音频设备回放声音的第三至第N实例;以及
由控制系统使得从所述麦克风信号中提取第一至第N DSSS信号,其中至少部分地基于第一至第N DSSS信号来估计所述至少一个声学场景度量。
10.如权利要求1-9中任一项所述的音频处理方法,还包括:
针对音频环境中的多个音频设备确定一个或多个DSSS参数,所述一个或多个DSSS参数能用于DSSS信号的生成;以及
向所述多个音频设备中的每个音频设备提供所述一个或多个DSSS参数。
11.如权利要求10所述的音频处理方法,其中确定所述一个或多个DSSS参数涉及为所述多个音频设备中的每个音频设备调度用于回放修改音频回放信号的时隙,其中第一音频设备的第一时隙不同于第二个音频设备的第二时隙。
12.如权利要求10所述的音频处理方法,其中确定所述一个或多个DSSS参数涉及为所述多个音频设备中的每个音频设备确定用于回放修改音频回放信号的频带。
13.如权利要求12所述的音频处理方法,其中第一音频设备的第一频带不同于第二音频设备的第二频带。
14.如权利要求10-12中任一项所述的音频处理方法,其中确定所述一个或多个DSSS参数涉及为所述多个音频设备中的每个音频设备确定扩展码。
15.如权利要求14所述的音频处理方法,其中第一音频设备的第一扩展码不同于第二音频设备的第二扩展码。
16.如权利要求14或权利要求15所述的装置,还包括确定至少部分地基于对应音频设备的可听度的至少一个扩展码长度。
17.如权利要求10-16中任一项所述的音频处理方法,其中确定所述一个或多个DSSS参数涉及应用至少部分地基于音频环境中的多个音频设备中的每一个的相互可听度的声学模型。
18.如权利要求10-16中任一项所述的音频处理方法,其中确定所述一个或多个DSSS参数涉及:
确定当前回放目标;
应用至少部分地基于音频环境中的多个音频设备中的每一个的相互可听度的声学模型,以确定音频环境中DSSS信号的估计性能;
应用基于人类声音感知的感知模型,以确定音频环境中DSSS信号的感知影响;以及
至少部分地基于所述当前回放目标、所述估计性能和所述感知影响,确定所述一个或多个DSSS参数。
19.如权利要求10-18中任一项所述的音频处理方法,其中确定所述一个或多个DSSS参数涉及:
检测DSSS参数改变触发;
确定与所述DSSS参数改变触发相对应的一个或多个新的DSSS参数;以及
向音频环境的一个或多个音频设备提供所述一个或多个新的DSSS参数。
20.如权利要求19所述的音频处理方法,其中检测所述DSSS参数改变触发包括检测以下一个或多个:音频环境中的新音频设备、音频设备位置的改变、音频设备取向的改变、音频设备设置的改变、人在音频环境中的位置的改变、音频环境中再现的音频内容类型的改变、音频环境中的背景噪声的改变、音频环境配置改变,包括但不限于音频环境的门或窗的改变配置、音频环境的两个或更多个音频设备之间的时钟偏斜、音频环境的两个或更多个音频设备之间的时钟偏差、音频环境的两个或更多个音频设备之间的相互可听度的改变、或者回放目标的改变。
21.如权利要求1-20中任一项所述的音频处理方法,还包括处理接收到的麦克风信号以产生预处理麦克风信号,其中从所述预处理麦克风信号中提取DSSS信号。
22.如权利要求21所述的音频处理方法,其中处理接收到的麦克风信号涉及波束成形、应用带通滤波器或回声消除中的一个或多个。
23.如权利要求1-22中任一项所述的音频处理方法,其中使得从麦克风信号中提取至少第一DSSS信号和第二DSSS信号涉及向所述麦克风信号或向所述麦克风信号的预处理版本应用匹配滤波器,以产生延迟波形,所述延迟波形至少包括基于第一DSSS信号的第一延迟波形和基于第二DSSS信号的第二延迟波形。
24.如权利要求23所述的音频处理方法,还包括向所述延迟波形应用低通滤波器。
25.如权利要求23或权利要求24所述的音频处理方法,其中应用所述匹配滤波器是解调过程的一部分,并且其中所述解调过程的输出是解调相干基带信号。
26.如权利要求25所述的音频处理方法,还包括估计体延迟并将体延迟估计提供给所述解调过程。
27.如权利要求25或权利要求26所述的音频处理方法,还包括对所述解调相干基带信号执行基带处理,并且其中所述基带处理输出至少一个估计的声学场景度量。
28.如权利要求27所述的音频处理方法,其中所述基带处理涉及基于在非相干积分周期中接收的经解调的相干基带信号产生非相干积分延迟波形。
29.如权利要求28所述的音频处理方法,其中产生所述非相干积分延迟波形涉及对在非相干积分周期中接收的所述解调相干基带信号进行平方,以产生平方解调基带信号,并且对所述平方解调基带信号进行积分。
30.如权利要求28或权利要求29所述的音频处理方法,其中所述基带处理涉及向所述非相干积分延迟波形应用前沿估计过程、受控响应功率估计过程或信噪比估计过程中的一个或多个。
31.如权利要求27-30中任一项所述的音频处理方法,还包括估计体延迟并将体延迟估计提供给所述基带处理。
32.如权利要求23-31中任一项所述的音频处理方法,还包括估计至少第一音频设备位置处的第一噪声功率级别,以及估计第二音频设备位置处的第二噪声功率级别,其中估计第一噪声功率级别基于第一延迟波形并且估计第二噪声功率级别基于第二延迟波形。
33.如权利要求32所述的音频处理方法,还包括至少部分地基于所估计的第一噪声功率级别和所估计的第二噪声功率级别产生针对所述音频环境的分布式噪声估计。
34.如权利要求1-33中任一项所述的音频处理方法,还包括执行用于消除两个异步音频设备之间的未知时钟偏差的异步双向测距过程,所述异步双向测距过程基于由所述两个异步音频设备中的每一个发送的DSSS信号。
35.如权利要求34所述的音频处理方法,还包括在音频环境的多个音频设备对中的每一对之间执行所述异步双向测距过程。
36.如权利要求1-33中任一项所述的音频处理方法,还包括:
执行用于确定两个异步音频设备之间的估计时钟偏差的时钟偏差估计过程,所述时钟偏差估计过程基于由所述两个异步音频设备中的每一个发送的DSSS信号;以及
针对所述估计时钟偏差进行补偿。
37.如权利要求36所述的音频处理方法,还包括:
在音频环境的多个音频设备中的每一个之间执行所述时钟偏差估计过程,以产生多个估计时钟偏差;以及
针对所述多个估计时钟偏差中的每个估计时钟偏差进行补偿。
38.如权利要求1-37中任一项所述的音频处理方法,还包括:
执行用于确定两个异步音频设备之间的估计时钟偏斜的时钟偏斜估计过程,所述时钟偏斜估计过程基于由所述两个异步音频设备中的每一个发送的DSSS信号;以及
针对所述估计时钟偏斜进行补偿。
39.如权利要求38所述的音频处理方法,还包括:
在音频环境的多个音频设备中的每一个之间执行所述时钟偏斜估计过程,以产生多个估计时钟偏斜;以及
针对所述多个估计时钟偏斜中的每个估计时钟偏斜进行补偿。
40.如权利要求1-39中任一项所述的音频处理方法,还包括:
检测由音频设备发送的DSSS信号,所述DSSS信号对应于第一扩展码;以及
向所述音频设备提供第二扩展码。
41.如权利要求40所述的音频处理方法,其中第一扩展码包括为新激活的音频设备预留的第一伪随机数序列。
42.如权利要求1-41中任一项所述的音频处理方法,还包括使音频环境中的多个音频设备中的每一个同时回放修改音频回放信号。
43.如权利要求1-42中任一项所述的音频处理方法,其中第一音频回放信号的至少一部分、第二音频回放信号的至少一部分、或者第一音频回放信号和第二音频回放信号中的每一个的至少一部分对应于静音。
44.一种装置,被配置为执行如权利要求1-43中任一项所述的方法。
45.一种系统,被配置为执行如权利要求1-43中任一项所述的方法。
46.一种或多种存储有软件的非瞬态介质,所述软件包括用于控制一个或多个设备执行如权利要求1-43中任一项所述的方法的指令。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/120,887 | 2020-12-03 | ||
US63/121,085 | 2020-12-03 | ||
US63/201,561 | 2021-05-04 | ||
US202163260953P | 2021-09-07 | 2021-09-07 | |
US63/260,953 | 2021-09-07 | ||
PCT/US2021/061614 WO2022120051A2 (en) | 2020-12-03 | 2021-12-02 | Orchestration of acoustic direct sequence spread spectrum signals for estimation of acoustic scene metrics |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116584112A true CN116584112A (zh) | 2023-08-11 |
Family
ID=87544038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180081314.7A Pending CN116584112A (zh) | 2020-12-03 | 2021-12-02 | 使用声学直接序列扩频信号估计声学场景度量 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116584112A (zh) |
-
2021
- 2021-12-02 CN CN202180081314.7A patent/CN116584112A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9936323B2 (en) | System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering | |
EP3011763B1 (en) | Method for generating a surround sound field, apparatus and computer program product thereof. | |
KR101415026B1 (ko) | 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치 | |
CN105165026B (zh) | 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法 | |
JP2024501426A (ja) | パーベイシブ音響マッピング | |
US10728662B2 (en) | Audio mixing for distributed audio sensors | |
US12003673B2 (en) | Acoustic echo cancellation control for distributed audio devices | |
US20210314699A1 (en) | Loudspeaker with transmitter | |
US9412354B1 (en) | Method and apparatus to use beams at one end-point to support multi-channel linear echo control at another end-point | |
US10431238B1 (en) | Memory and computation efficient cross-correlation and delay estimation | |
US20230037824A1 (en) | Methods for reducing error in environmental noise compensation systems | |
CN110169082B (zh) | 用于组合音频信号输出的方法和装置、及计算机可读介质 | |
CN116584112A (zh) | 使用声学直接序列扩频信号估计声学场景度量 | |
CN116569567A (zh) | 编排声学直接序列扩频信号以估计声学场景度量 | |
US20240048931A1 (en) | Orchestration of acoustic direct sequence spread spectrum signals for estimation of acoustic scene metrics | |
US20240056757A1 (en) | Orchestration of acoustic direct sequence spread spectrum signals for estimation of acoustic scene metrics | |
JP2023054779A (ja) | 空間オーディオキャプチャ内の空間オーディオフィルタリング | |
CN116830599A (zh) | 遍布式声学映射 | |
Pasha et al. | A survey on ad hoc signal processing: Applications, challenges and state-of-the-art techniques | |
US20240187811A1 (en) | Audibility at user location through mutual device audibility | |
RU2818982C2 (ru) | Управление акустической эхокомпенсацией для распределенных аудиоустройств | |
Huang | Spatial auditory processing for a hearing robot | |
WO2023086303A1 (en) | Rendering based on loudspeaker orientation | |
EP4256815A2 (en) | Progressive calculation and application of rendering configurations for dynamic applications | |
EP4256814A1 (en) | Insertion of forced gaps for pervasive listening |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |