发明内容
因此,本发明试图单独地或者以任何组合方式优选地减轻、缓解或者消除在上文中所提到的缺点中的一个或多个。
根据本发明的一个方面,提供用于生成语音信号的装置,该装置包括:用于接收来自多个麦克风的麦克风信号的麦克风接收器;比较器,其被配置来对于每个麦克风信号,确定指示在麦克风信号以及非回响语音之间的相似性的语音相似性指示,该比较器被配置来响应于从麦克风信号所导出的至少一个特性与用于非回响语音的至少一个参考特性的比较来确定相似性指示;以及用于响应于相似性指示通过组合麦克风信号来生成语音信号的生成器。
本发明可以允许在多个实施例中生成改进的语音信号。特别地,在多个实施例中,它可以允许生成具有较少回响和/或通常较少噪声的语音信号。该方法可以允许语音应用改进的性能,并且可以特别地在多个场景中以及实施例中提供改进的语音通信。
从麦克风信号中所导出的至少一个特性与用于非回响语音的参考特性的比较提供一种识别单独的麦克风信号相对于语音信号的相对重要性的特别有效和精确的方法,并且可以特别地提供比基于例如信号水平和信号噪声比度量的方法更好的评估。实际上,所捕获的音频与非回响语音信号的对应可以提供关于多少语音经由直接路径到达麦克风以及多少语音经由回响路径到达麦克风的强烈指示。
至少一个参考特性可以是与非回响语音相关联的一个或多个特性/数值。在某些实施例中,至少一个参考特性可以是对应于非回响语音的不同样本的特性的集合。相似性指示可以被确定以便反映从麦克风信号中所导出的至少一个特性的数值与用于非回响语音的至少一个参考特性之间的差异,以及特别地,对于一个非回响语音样本的至少一个参考特性。在某些实施例中,从麦克风信号中所导出的至少一个特性可以是麦克风信号自身。在某些实施例中,用于非回响语音的至少一个参考特性可以是非回响语音信号。可替换地,该特性可以是诸如增益归一化的频谱包络之类的适当的特征。
提供麦克风信号的麦克风在多个实施例中可以是在区域中被分布的麦克风,并且可以彼此远离。特别地,该方法可以提供在不同位置处所捕获的音频的改进的使用,而不要求这些位置被用户或装置/系统已知或假定。例如,麦克风可以是以自组织的方式在房间周围随机地分布,并且系统可以自动地适配来提供用于特定布置的改进的语音信号。
特别地,非回响语音样本可以基本上是干式的(dry)或无回声的语音样本。
语音相似性指示可以是在单独的麦克风信号(或者其一部分)和非回响语音(诸如例如非回响语音样本之类的)之间的差异或者相似性的程度的任何指示。相似性指示可以是感知的相似性指示。
根据本发明的可选的特征,装置包括多个分离的设备,每个设备包括用于接收多个麦克风信号中的至少一个麦克风信号的麦克风接收器。
这可以提供用于生成语音信号的特别有效的方法。在多个实施例中,每个设备可以包括提供麦克风信号的麦克风。本发明可以允许具有改进的性能的改进的和/或新的用户体验。
例如,许多可能的不同设备可以被放置在房间周围。当执行诸如语音通信之类的语音应用时,单独的设备每一个可以提供麦克风信号,并且这些设备可以被评估以便找到最合适的设备/麦克风来使用以用于生成语音信号。
根据本发明的可选的特征,多个分离的设备中的至少第一设备包括用于确定用于该第一设备的至少一个麦克风信号的第一语音相似性指示的本地比较器。
这可以在多个场景中提供改进的操作,并且特别地可以允许可以降低例如通信资源和/或分散计算资源需求的分布式处理。
特别地,在多个实施例中,分离的设备可以在本地确定相似性指示,并且如果该相似性准则满足准则,则可以仅发送麦克风信号。
根据本发明的可选的特征,生成器被实现在与至少第一设备分离的生成器设备中;以及其中该第一设备包括用于向生成器设备发送第一语音相似性指示的发送器。
在多个实施例中,这可以允许有利的实现方式和操作。特别地,在多个实施例中,可以允许一个设备评估在所有其他设备处的语音质量,而不要求任何音频或语音信号的通信。发送器可以被布置来经由诸如蓝牙TM或者Wi-Fi通信链路之类的无线通信链路发送第一语音相似性指示。
根据本发明的可选的特征,生成器设备可以被布置来从多个分离的设备中的每一个接收语音相似性指示,并且其中该生成器被布置来使用来自多个分离的设备的麦克风信号的子集生成语音信号,该子集是响应于从多个分离的设备所接收到的语音相似性指示而被确定。
这可以允许在多个场景中的高效的系统,其中语音信号可以从由不同的设备所获取的麦克风信号中而被生成,仅仅设备的最佳子集被用来生成语音信号。因此,显著地降低了通信资源,同时典型地对作为结果产生的语音信号质量没有显著的影响。
在多个实施例中,该子集可以包括仅仅单个麦克风。在某些实施例中,生成器可以被布置来从基于相似性准则从多个麦克风信号中所选择的单个麦克风信号生成语音信号。
根据本发明的可选的特征,多个分离的设备中的至少一个设备被布置来仅当至少一个设备中的至少一个麦克风信号被包括在麦克风信号的子集中的情况下,向生成器设备发送该至少一个设备的至少一个麦克风信号。
这可以降低通信资源使用率,并且对于麦克风信号没有被包括在子集中的设备可以减少计算资源使用率。发送器可以被布置来经由诸如蓝牙TM或者Wi-Fi通信链路之类的无线通信链路发送至少一个麦克风信号。
根据本发明的可选的特征,生成器设备包括被布置来确定麦克风信号的子集的选择器以及用于向多个分离的设备中的至少一个发送该子集的指示的发送器。
这可以在多个场景中提供有利的操作。
在某些实施例中,生成器可以确定该子集并且可以被布置来向多个设备中的至少一个设备发送该子集的指示。例如,对于被包括在该子集中的麦克风信号的该一个设备或多个设备,该生成器可以发送该设备应该向生成器发送麦克风信号的指示。
发送器可以被布置来经由诸如蓝牙TM或者Wi-Fi通信链路之类的无线通信链路发送该指示。
根据本发明的可选的特征,比较器被布置来响应于从麦克风信号所导出的至少一个特性与非回响语音样本的集合中的语音样本的参考特性的比较,来确定用于第一麦克风信号的相似性指示。
麦克风信号与非回响的语音样本(例如,在适当的特征域)的大集合的比较提供识别单独的麦克风信号相对于语音信号的相对重要性的特别有效和精确的方法,并且特别地可以提供比基于例如信号水平或信号噪声比度量的方法更好的评估。实际上,所捕获的音频与非回响语音信号的对应可以提供关于多少语音经由直接的路径到达麦克风以及多少语音经由回响/反射路径到达麦克风的强烈指示。实际上,可以考虑与非回响语音样本的比较包括对声学路径的冲激响应的形状的考虑,而不是仅仅对能量或者水平的考虑。
该方法可以是与说话者无关的,并且在某些实施例中,非回响语音样本的集合可以包括对应于不同的说话者特性(诸如高音或者低音之类的)的样本。在多个实施例中,处理可以是分段的,并且非回响语音样本的集合例如可以包括对应于人类语音的音素的样本。
比较器可以对于每个麦克风信号确定用于非回响语音样本的集合中的每个语音样本的单独的相似性指示。用于麦克风信号的相似性指示然后可以例如通过选择指示最高相似度的单独的相似性指示从单独的相似性指示中被确定。在多个场景中,最佳匹配的语音样本可以被识别,并且用于麦克风信号的相似性指示可以相对于这个语音样本而被确定。该相似性指示可以提供麦克风信号(或者其一部分)与针对其发现最高相似性的非回响语音样本的集合的非回响语音样本的相似性的指示。
对于给定的语音信号样本,相似性指示可以反映麦克风信号从对应于语音样本的语音发声中产生的似然性。
根据本发明的可选的特征,非回响的语音样本的集合中的语音样本由用于非回响语音模型的参数来表示。
这可以提供有效而且可靠和/或精确的操作。该方法在多个实施例中可以降低计算和/或存储器资源要求。
比较器在某些实施例中可以评估用于不同参数集合的模型,并将结果的信号与(多个)麦克风信号进行比较。例如,麦克风信号和语音样本的频率表示可以被比较。
在某些实施例中,用于语音模型的模型参数可以根据麦克风信号而被生成,即,将要导致产生与麦克风信号相匹配的语音样本的模型参数可以被确定。这些模型参数然后可以与非回响的语音样本集合的参数进行比较。
特别地,非回响的语音模型可以是诸如CELP(码激励线性预测)模型之类的线性预测模型。
根据本发明的可选的特征,比较器被布置来根据通过使用用于第一语音样本的参数来评估非回响语音模型所生成的语音样本信号来确定非回响语音样本的集合中的第一语音样本的第一参考特性,并且被布置来响应于从第一麦克风信号中所导出的特性和第一参考特性的比较来确定多个麦克风信号的第一麦克风信号的相似性指示。
这可以在多个场景中提供有利的操作。用于第一麦克风信号的相似性指示可以通过将为第一麦克风信号所确定的特性与为非回响语音样本中的每一个所确定的参考特性进行比较而被确定,参考特性是根据通过评估模型所生成的信号表示而被确定的。因此,比较器可以将麦克风信号的特性与作为通过使用用于非回响语音样本的被存储的参数来评估非回响语音模型的结果而产生的信号样本的特性进行比较。
根据本发明的可选的特征,比较器被布置来将多个麦克风信号的第一麦克风信号分解为基本信号向量的集合;并且被布置来响应于该基本信号向量的集合的特性确定相似性指示。
这可以在多个场景中提供有利的操作。该方法可以在多个场景中允许降低的复杂度和/或资源使用率。参考特性可以与在适当的特征域中的基本向量集合相关,从中非回响特征向量可以被生成为基本向量的加权和。这个集合可以设计,以便仅仅利用一些基本向量的加权和对于精确地描述非回响特征向量而言是足够的,即,基本向量的集合提供非回响语音的稀疏表示。参考特性可以是在加权和中出现的基本向量的数量。使用已经针对非回响语音设计的基本向量的集合来描述回响语音特征向量将导致更稀疏的分解。该特性可以是在被使用来描述从麦克风信号中提取的特征向量时,接收非零权重(或者高于给定门限的权重)的基本向量的数量。对于减少数量的基本信号向量而言,相似性指示可以指示与非回响语音的增加的相似性。
根据本发明的可选的特征,比较器被布置来针对语音信号的多个分段中的每个分段确定语音相似性指示,并且生成器被布置来确定用于对每个分段进行组合的组合参数。
装置可以利用分段的处理。对于每个分段,组合可以是不变的,但是可以是从一个分段到下一个分段变化的。例如,语音信号可以通过在每个分段中选择一个麦克风信号而被生成。例如,组合参数可以是麦克风信号的组合权重或者例如可以是要包括在该组合中的麦克风信号的子集的选择。该方法可以提供改进的性能和/或容易的操作。
根据本发明的可选的特征,生成器被布置来响应于至少一个之前的分段的相似性指示来确定一个分段的组合参数。
这可以在多个场景中提供改进的性能。例如,可以提供对慢变化的更好的适配,并且可以降低在所生成的语音信号的中断。
在某些实施例中,组合参数可以仅仅基于包含语音的分段而不基于在静默期或暂停期间中的分段而被确定。
在某些实施例中,生成器被布置来响应于用户运动模型确定用于第一分段的组合参数。
根据本发明的可选的特征,生成器被布置来响应于相似性指示来选择要组合的麦克风信号的子集。
这可以在多个实施例中允许改进的和/或容易的操作。特别地,组合可以是选择组合。特别地,生成器可以仅仅选择相似性指示满足绝对或者相对准则的麦克风信号。
在某些实施例中,麦克风信号的子集包括仅仅一个麦克风信号。
根据本发明的可选的特征,生成器被布置来生成语音信号作为麦克风信号的加权的组合,用于麦克风信号中第一个麦克风信号的权重依赖于该麦克风信号的相似性指示。
这可以在多个实施例中允许改进的和/或容易的操作。
根据本发明的一个方面,提供产生语音信号的方法,该方法包括:从多个麦克风接收麦克风信号,针对每个麦克风信号确定指示麦克风信号与非回响语音之间的相似性的语音相似性指示,该相似性指示是响应于将从麦克风信号中所导出的至少一个特性与用于非回响语音的至少一个参考特性进行比较而被确定的,以及响应于该相似性指示通过组合麦克风信号来生成语音信号。
从下文所描述的(多个)实施例中,本发明的这些以及其他方面、特征和优点将变得显然,并且参考下文所描述的(多个)实施例,本发明的这些以及其他发明、特征和优点将被阐述。
具体实施方式
下面的说明书集中于可适用于捕获语音以便生成用于远程通信的语音信号的发明的实施例。但是,将意识到的是,本发明不限于这个应用,而是可以被应用于多个其他的服务和应用。
图1图示了根据本发明的某些实施例的语音捕获装置的元件的示例。
在该示例中,语音捕获装置包括被耦合到多个麦克风103(其可以是该装置的一部分或者可以是位于该装置的外部)的多个麦克风接收器101。
因此,麦克风接收器101的集合从麦克风103接收麦克风信号的集合。在该示例中,麦克风103被分布在房间的各种不同的和未知的位置。因此,不同的麦克风可以从不同的区域获取声音,可以获取具有不同特性的相同的声音,或者如果它们彼此接近,可以实际上获取具有类似特性的相同的声音。在麦克风103之间的以及在麦克风103与不同的声源之间的关系典型地不被系统所知。
语音捕获装置被布置来根据麦克风信号生成语音信号。特别地,系统被布置来处理麦克风信号以便从麦克风103所捕获的音频中提取语音信号。系统被布置来根据麦克风信号中的每一个对应于非回响语音信号的紧密程度来组合麦克风信号,从而提供最可能与这样的信号相对应的组合的信号。特别地,该组合可以是选择组合,其中,该装置选择与非回响语音信号最密切相似的麦克风信号。语音信号的生成可以与单独的麦克风的特定的位置相独立,并且不依赖于麦克风103或者任何说话者的位置的任何知识。相反,例如,麦克风103可以在房间周围随机分布,并且该系统可以自动地适配来例如主要地使用来自到任何给定说话者最近的麦克风的信号。这个适配可以自动地发生,并且用于识别这样最近的麦克风103的特定的方法(如在下文中将被描述的)在多数场景中将导致特别合适的语音信号。
在图1的语音捕获装置中,麦克风接收器103与比较器或者向其馈送麦克风信号的相似性处理器105相耦合。
对于每个麦克风信号,相似性处理器105确定指示在麦克风信号以及非回响语音之间的相似性的语音相似性指示(此后仅称之为相似性指示)。特别地,相似性处理器105响应于将从麦克风信号中导出的至少一个特性与用于非回响语音的至少一个参考特性进行比较,来确定相似性指示。在某些实施例中,参考特性可以是单个的标量数值,而在其他实施例中,其可以是数值或者函数的复数集合。在某些实施例中,参考特性可以从特定的非回响语音信号中导出,而在其他实施例中,其可以是与非回响语音相关联的一般特性。例如,参考特性和/或从麦克风信号中导出的特性可以是频谱、功率谱密度特性、非零的基本向量的数量等。在一些实施例中,特性可以是信号,并且特别地,从麦克风信号中所导出的特性可以是麦克风信号自身。类似地,参考特性可以是非回响语音信号。
特别地,相似性处理器105可以被布置来生成用于麦克风信号中的每一个的相似性指示,其中该相似性指示用来指示麦克风信号与来自非回响语音样本的集合的语音样本的相似性。因此,在示例中,相似性处理器105包括存储一定数量(典型地大量)语音样本的存储器,其中每个语音样本对应于非回响以及特别地基本上无回响的房间中的语音。作为实例,相似性处理器105可以将每个麦克风信号与语音样本中的每一个进行比较,并且针对每个语音样本确定在所存储的语音样本与麦克风信号之间的差异的度量。语音样本的差异度量然后可以被比较并且指示最小差异的度量可以被选择。这个度量然后可以被使用来生成(或者作为)用于特定麦克风信号的相似性指示。该过程针对全部麦克风信号来重复,从而导致产生相似性指示的集合。因此,相似性指示的集合可以指示麦克风信号中的每一个与非回响信号的相似程度。
在多个实施例和场景中,由于与麦克风水平、噪声等中的变化相关的不确定性,这样的信号样本域比较可能不是足够可靠的。因此,在多个实施例中,比较器可以被布置来响应于在特征域所执行的比较来确定相似性指示。因此,在多个实施例中,比较器可以被布置来从麦克风信号中确定一些特征/参数,并且将这些与用于非回响语音的所存储的特征/参数进行比较。例如,如将在下文中更详细描述的,比较可以是基于语音模型的参数,诸如用于线性预测模型的系数之类的。然后,对应的参数可以为麦克风信号确定,并且对应的参数可以与对应于无回响环境中的各种不同的发声的所存储的参数来进行比较。
典型地,在来自说话者的声学传递函数由直接路径所支配时并且反射和回响部分是被显著地衰减的情况下实现非回响语音。典型地,这也对应于其中说话者到麦克风相对接近的情况,并且可以最接近地对应于其中麦克风被放置在靠近说话者嘴部的传统布置。非回响语音也可以常常被认为是最可理解的,并且其实际上是与实际语音源最为密切对应的。
图1的装置利用允许用于单独的麦克风的语音回响特性被评估以便这可以被考虑的方法。实际上,发明人已经认识到,不仅在生成语音信号时对单独麦克风信号的语音回响特性的考虑可以显著地改进质量,而且在不要求专用测试信号以及测量的情况下这可以如何被可行地实现。实际上,发明人已经认识到通过将单独的麦克风信号的特性与关联于非回响语音的参考特性进行比较,并且特别地与非回响语音样本的集合进行比较,确定用于组合麦克风信号以便生成改进的语音信号的合适的参数是可能的。特别地,该方法允许在任何专用测试信号、测试测量或者实际上语音的先验知识都不是必要的情况下,来生成语音信号。实际上,系统可以被设计来与任何语音进行操作,并且不要求说话者说出例如特定的测试词语或者句子。
在图1的系统中,相似性处理器105与向其馈送相似性指示的生成器107相耦合。生成器107被进一步耦合到它从中接收麦克风信号的麦克风接收器101。生成器107被布置来响应于相似性指示通过将麦克风信号进行组合来生成输出的语音信号。
作为低复杂度的示例,生成器107可以实现选择组合器,其中例如单个麦克风信号从多个麦克风信号中被选择。特别地,生成器107可以选择最接近地匹配非回响语音样本的麦克风信号。然后,根据其典型地最可能是最纯净以及最清晰的语音捕获的这个麦克风信号,来生成语音信号。特别地,它很可能是很接近地对应于由收听者所发出的语音的一个。典型地,它也将对应于最接近于说话者的麦克风。
在某些实施例中,语音信号可以例如经由电话网络、无线连接、互联网或者任何其他通信网络或链路而被传送到远程用户。语音信号的传送可以典型地包括语音编码以及潜在地其他处理。
因此,图1的装置可以自动地适配于说话者以及麦克风的位置,以及可以适配于声学环境特性,以便生成最接近地对应于原始语音信号的语音信号。特别地,所生成的语音信号将倾向于具有降低的回响和噪声,并且相应地将听起来有更少失真、更加纯净以及更可理解。
将意识到的是,处理可以包括各种不同的其他处理,典型地包括在音频和语音处理中被典型地使用的放大、滤波以及在时域和频域之间的转换等。例如,常常,麦克风信号可以在被组合和/或被使用来生成相似性指示之前被放大和滤波。相似地,作为对语音信号的组合和/或生成的一部分,生成器107可以包括滤波、放大等。
在多个实施例中,语音获取装置可以使用分段的处理。因此,处理可以在短时间间隔内(诸如在短于100毫秒持续时间的分段中,以及常常在大约20毫秒的分段中)被执行。
因此,在某些实施例中,相似性指示可以针对给定的分段中的每个麦克风信号而被生成。例如,比如说50毫秒持续时间的麦克风信号分段可以针对麦克风信号中的每一个而被生成。然后,分段可以与其自身可以包括语音分段样本的非回响语音样本的集合进行比较。相似性指示可以针对这个50毫秒的分段而被确定,并且生成器107可以继续进行以便基于麦克风信号的分段以及用于该分段/时间间隔的相似性指示来生成针对该50毫秒时间间隔的语音信号分段。因此,组合可以针对每个分段而被更新,例如,通过在每个分段中选择其具有与非回响语音样本的语音分段样本最高相似性的麦克风信号。这可以提供特别有效的处理和操作,并且可以允许对特别环境的连续和动态的适配。实际上,对说话者声源和/或麦克风位置中的动态运动的适配可以以低复杂度实现。例如,如果语音在两个源(说话者)之间进行切换,该系统可以适配来相应地在两个麦克风之间进行切换。
在某些实施例中,非回响语音分段样本可以具有与麦克分信号分段的那些样本相匹配的持续时间。但是,在某些实施例中,它们可以更长。例如,每个非回响语音分段样本可以对应于音素或者具有更长的持续时间的特定的语音声音。在这样的实施例中,针对每个非回响语音分段样本的相似性度量的确定可以包括将麦克风信号分段相对于语音分段样本进行对准。例如,可以针对不同的时间偏移确定相关性数值,并且最高的数值可以为选择为相似性指示。这可以允许要被存储的语音分段样本数量降低。
在某些示例中,诸如要使用的麦克风信号的子集的选择或者用于线性求和的权重之类的组合参数可以针对语音信号的时间间隔而被确定。因此,语音信号可以根据基于对于分段是恒定的而在分段之间可以变化的参数的组合在分段中被确定。
在某些实施例中,组合参数的确定与每个时间分段无关,即,用于时间分段的组合参数可以仅仅基于针对那个时间分段所确定的相似性指示而被计算。
但是,在其他实施例中,可替换地或附加地,组合参数可以响应于至少一个之前的分段的相似性指示而被确定。例如,相似性指示可以使用在若干分段上延伸的低通滤波器而被滤波。这可以确保可以例如降低在所生成的语音信号中的波动和变化的更慢的适配。作为另一个示例,例如防止在被放置在离说话者大致相同距离的两个麦克风之间的快速的兵乓切换的滞后效应可以被应用。
在某些实施例中,生成器107可以被布置来响应于用户运动模型为第一分段确定组合参数。这样的方法可以被使用来跟踪用户相对于麦克风设备201,203,205的相对位置。用户模型不需要显式地跟踪该用户或麦克风设备201,203,205的位置,但是可以直接地跟踪相似性指示的变化。例如,状态空间表示可以被使用来描述人类运动模型,并且卡尔曼滤波可以被应用于一个麦克风信号的单独的分段的相似性指示以便跟踪由于运动的相似性指示的变化。卡尔曼滤波的结果输出然后可以被用作当前分段的相似性指示。
在多个实施例中,图1的功能可以以分布式的方式实现,并且特别地,系统可以在多个设备上分散。特别地,麦克风103的每一个可以是不同的设备的一部分或者是与不同的设备相连接,并且因此麦克风接收器101可以被包含在不同的设备中。
在某些实施例中,相似性处理器105以及生成器107被实现在单个设备中。例如,许多不同的远程设备可以向被布置来根据所接收到的麦克风信号生成语音信号的生成器设备发送麦克风信号。这个生成器设备可以实现如之前所描述的相似性处理器105以及生成器107的功能。
但是,在多个实施例中,相似性处理器105的功能被分布在多个分离的设备上。特别地,设备中的每一个可以包括(子)相似性处理器105,其被布置来确定用于那个设备的麦克风信号的相似性指示。然后,相似性指示可以被发送到可以基于所接收到的相似性指示确定用于组合的参数的生成器设备。例如,它可以简单地选择具有最高相似性指示的麦克风信号/设备。在某些实施例中,设备可以不向生成器设备发送麦克风信号,除非生成器设备对此做出请求。相应地,生成器设备可以向所选择的设备发送对于麦克风信号的请求,所述被选择的设备进而向生成器设备提供这个信号。然后,生成器设备继续进行来基于所接收到的麦克风信号生成输出信号。实际上,在这个示例中,生成器107可以被认为是在设备上进行分布,组合是由选择和选择性地发送麦克风信号的过程来实现的。这样的方法的优点在于麦克风信号中的仅仅一个(或者至少一个子集)需要被发送到生成器设备,并且因此可以实现通信资源使用率的显著降低。
作为示例,该方法可以使用在感兴趣的区域中分布的设备的麦克风以便捕获用户的语音。典型的现代客厅典型地具有许多装备有一个或多个麦克风和无线发送能力的设备。示例包括无绳固定线电话、移动电话、启用视频聊天的电视、平板PC、膝上型计算机等等。在某些实施例中,这些设备可以被用来例如通过自动地以及自适应地选择由最接近说话者的麦克风所捕获的语音来生成语音信号。这可以提供典型地具有高质量和没有回响的捕获的语音。
实际上,一般地,由麦克风所捕获的信号将倾向于受回响、环境噪声以及影响取决于其相对于声源(例如,用户的嘴部)的位置的麦克风噪声影响。系统可以尝试选择与将由靠近用户嘴部的麦克风所记录的那个最为接近的麦克风。所生成的语音信号可以被应用于诸如例如家庭/办公室电话、电话会议系统、用于话音控制系统的前端等之类的免提语音获取是合期望的场合。
更详细地,图2图示了分布式的语音生成/捕获装置/系统的示例。示例包括多个麦克风设备201,203,205以及生成器设备207。
麦克风设备201,203,205中的每一个包括从麦克风103接收麦克风信号的麦克风接收器101,在本示例中,所述麦克风103可以是是麦克风设备201,203,205的一部分,但是在其他情况下,所述麦克风103可以是与之分离的(例如,麦克风设备201,203,205的一个或多个可以包括用于附加外部麦克风的麦克风输入)。在每个麦克风设备201,203,205中的麦克风接收器101被耦合到确定用于麦克风信号的相似性指示的相似性处理器105。
特别地,针对单独的麦克风设备201,203,205的特定的麦克风信号,每个麦克风设备201,203,205的相似性处理器105执行图1的相似性处理器105的操作。因此,特别地,麦克风设备201,203,205中的每一个的相似性处理器105继续进行来将麦克风信号与在设备中的每一个中本地存储的非回响语音样本的集合进行比较。特别地,相似性处理器105可以将该麦克风信号与非回响语音样本中的每一个进行比较,并且针对每个语音样本确定这些信号相似程度的指示。例如,如果相似性处理器105包括用于存储包括人类语音的音素的每一个的表示的本地数据库的存储器,则相似性处理器105可以继续进行来将麦克风信号与每个音素进行比较。因此,指示麦克风信号与不包括任何回响或者噪声的音素中的每一个的相似的接近程度的指示的集合被确定。因此,对应于最接近匹配的指示很可能对应于所捕获的音频与由说出该音素的说话者所生成的声音相对应的接近程度的指示。因此,最接近的相似性的指示被选为用于麦克风信号的相似性指示。相应地,这个相似性指示反映捕获的音频在多大程度上对应于无噪声以及无回响的语音。对于远离说话者所放置的麦克风(以及因此典型地对于设备),相比于来自各种不同的反射、回响以及噪声的贡献,所捕获的音频很可能仅包括原始发出的语音的相对低的水平。但是,对于被放置在靠近说话者的麦克风(以及因此对于设备),所捕获的声音很可能包括来自直接声学路径的显著更高的贡献,以及来自反射和噪声的相对更低的贡献。相应地,相似性指示提供对于单独的设备的所捕获的音频的语音的纯净程度和可理解程度的良好指示。
此外,麦克风设备201,203,205中的每一个还包括被耦合到相似性处理器105以及每个设备的麦克风接收器101的无线收发信机209。特别地,无线收发信机209被布置来通过无线连接与生成器设备207进行通信。
生成器设备207也包括可以通过无线连接与麦克风设备201,203,205进行通信的无线收发信机211。
在多个实施例中,麦克风设备201,203,205以及生成器设备207可以被布置来双向地传送数据。但是,将意识到的是,在某些实施例中,仅仅从麦克风设备201,203,205到生成器设备207的单向通信可以被应用。
在多个实施例中,设备可以经由诸如本地Wi-Fi通信网络之类的无线通信网络进行通信。因此,特别地,麦克风设备201,203,205的无线收发信机207可以被布置来经由Wi-Fi通信来与其他设备(以及特别地与生成器设备207)进行通信。但是,将意识到的是,在其他实施例中,其他通信方法可以被使用,例如包括通过例如有线或者无线局域网络、广域网络、互联网、蓝牙TM通信链路等之类进行的通信。
在某些实施例中,麦克风设备201,203,205的每一个都可以总是向生成器设备207发送相似性指示和麦克风信号。将意识到的是,技术人员很好地知晓诸如参数数据以及音频数据之类的数据可以如何在设备之间进行传送。特别地,技术人员将很好地知晓音频信号传输可以如何包括编码、压缩、纠错等等。
在这样的实施例中,生成器设备207可以从全部麦克风设备201,203,205来接收麦克风信号以及相似性指示。然后,可以继续进行来基于该相似性指示来对麦克风信号进行组合以便生成语音信号。
特别地,生成器设备207的无线收发信机211被耦合到控制器213以及语音信号生成器215。向控制器213馈送来自无线收发信机211的相似性指示,并且作为响应,控制器213确定控制语音信号如何根据麦克风信号生成的组合参数的集合。控制器213被耦合到向其馈送组合参数的语音信号生成器215。附加地,向语音信号生成器215馈送来自无线收发信机211的麦克风信号,并且语音信号生成器215可以相应地继续进行来基于组合参数生成语音信号。
作为特定的示例,控制器213可以比较接收到的相似性指示并且识别指示最高相似性程度的一个。然后,对应的设备/麦克风信号的指示可以被传递到可以继续进行来选择来自这个设备的麦克风信号的语音信号生成器215。然后,根据这个麦克风信号来生成该语音信号。
作为另一个示例,在某些实施例中,语音信号生成器215可以继续进行来生成作为所接收到的麦克风信号的加权组合的输出语音信号。例如,接收到的麦克风信号的加权求和可以应用在每个单独的信号的权重根据相似性指示来生成的场合。例如,相似性指示可以直接作为在给定范围内的标量数值而被提供,并且单独的权重可以直接与该标量数值成比例(例如,利用确保该信号水平或者累计的权重数值是恒定的比例因子)。
这样的方法在其中可用的通信带宽不是限制的场景中可以是特别有吸引力的。因此,代替选择最接近说话者的设备,权重可以被指派给每个设备/麦克风信号,并且来自各种不同麦克风的麦克风信号可以被组合为加权和。这样的方法可以提供鲁棒性并且缓解在高回响或者高噪声环境中的错误选择的影响。
也将意识到的是,组合方法可以被组合。例如,不使用单纯的选择组合,控制器213可以选择麦克风信号的子集(诸如,例如相似性指示超过门限的麦克风信号),并且然后使用取决于相似性指示的权重来对该子集的麦克风信号进行组合。
也将意识到的是,在某些实施例中,组合可以包括不同信号的对准。例如,时间延迟可以被引入来确保针对给定的说话者而言,所接收到的语音信号被相干地相加。
在多个实施例中,麦克风信号不会从全部麦克风设备201,203,205发送到生成器设备207,而是仅仅从语音信号将从中被生成的那些麦克风设备201,203,205中发送。
例如,麦克风设备201,203,205可以首先向生成器设备207发送相似性指示,控制器213评估相似性指示以便选择麦克风信号的子集。例如,控制器213可以选择来自已经发送指示最高相似性的相似性指示的麦克风设备201,203,205的麦克风信号。控制器213然后可以使用无线收发信机211向所选择的麦克风设备201,203,205发送请求消息。麦克风设备201,203,205可以被布置来仅仅在请求消息被接收时向生成器设备207发送数据,即,麦克风信号仅在当它被包括在所选择的子集中时,才被发送到该生成器设备207。因此,在其中仅仅单个麦克风信号被选择的示例中,麦克风设备201,203,205中的仅仅一个发送麦克风信号。这样的方法可以显著地降低通信资源使用率以及降低例如单独的设备的功率消耗。它也可以显著地降低生成器设备207的复杂度,这是由于其每次仅仅需要处理例如一个麦克风信号。在这个示例中,因此被用来生成语音信号的选择组合功能在设备上进行分布。
用于确定相似性指示的不同的方法可以在不同的实施例中被使用,并且特别地,所存储的非回响语音样本的表示在不同的实施例中可以是不同的,并且在不同的实施例中可以被不同地使用。
在某些实施例中,所存储的非回响语音样本由用于非回响语音模型的参数来表示。因此,不存储例如该信号的采样的时间或频率域表示,相反,非回响语音样本的集合可以包括可以允许样本被生成的每个样本的参数的集合。
例如,非回响语音模型可以是线性预测模型,特别地诸如CELP(码激励线性预测)模型之类的。在这样的场景中,非回响语音样本的每个语音样本可以由指定可以被用来激励合成滤波器的激励信号的码书条目所表示(也可以由所存储的参数来表示)。
这样的方法可以显著地降低非回响语音样本的集合的存储要求,并且这对于其中相似性指示的确定在单独的设备本地被执行的分布式实现方式来说可以是特别重要的。此外,通过使用直接对来自语音源的语音进行合成的语音模型(不考虑声学环境),非回响、无回声的语音的良好表示是可以实现的。
在某些实施例中,将麦克风信号与特定语音样本进行比较可以通过针对那个信号的所存储的语音模型参数的特定集合评估该语音模型来执行。因此,将要针对那个参数集合由语音模型进行合成的语音信号的表示可以被导出。然后,作为结果产生的表示可以与麦克风信号进行比较,并且在这些之间的差异的度量可以被运算。例如,该比较可以在时域或者在频域执行,并且可以是随机的比较。例如,用于一个麦克风信号以及一个语音样本的相似性指示可以被确定来反映所捕获的麦克风信号是从辐射由语音模型的合成所产生的语音信号的声源产生的似然性。然后,导致产生最高似然性的语音样本可以被选择,并且用于麦克风信号的相似性指示可以被确定为最高的似然性。
在下文中,用于基于LP语音模型来确定相似性指示的可能的方法的详细的示例将被给出。
在示例中,K个麦克风可以分布在区域中。被观察的麦克风信号可以被建模为:
其中,是在用户嘴部的语音信号,是在对应于用户嘴部的位置与第k个麦克风的位置之间的声学传递函数,以及是包括环境噪声以及麦克风自身噪声两者的噪声信号。假设语音和噪声信号是独立的,则根据相对应信号的功率谱密度(PSD)在频域的等价表示可以由下式给出:
。
在无回声的环境中,冲激响应对应于单纯的时延,其对应于该信号以声速从生成的点传播到该麦克风所花费的时间。因此,信号的PSD与的PSD是一致的。在回响的环境中,不仅对来从声源到麦克风的信号直接路径进行建模,也对作为由墙壁、天花板、家具等进行反射的结果而到达麦克风的信号进行建模。每个反射都对该信号进行延迟和衰减。
在这个情况下,取决于回响的水平,的PSD可以与的PSD显著地不同。图3图示了对应于在回响的房间中在三个不同的距离处所记录的32毫秒语音分段的频谱包络的示例,其中是0.8秒。清楚地,在距离说话者5厘米和50厘米处所记录的语音的频谱包络是相对地接近,而在350厘米处的包络显著地不同。
当感兴趣的信号是语音时,如在免提通信应用中,PSD可以使用通过使用大型数据库来离线训练的码书来进行建模。例如,码书可以包括线性预测(LP)系数,其对频谱包络进行建模。
典型地,训练集包括从发音均衡的语音数据的大集合中的短分段(20-30毫秒)中所提取的LP向量。这样的码本已经成功地在语音编码和增强中被使用。然后,在使用位于靠近用户嘴部的麦克风所记录的语音上训练的码本可以被用作在特定麦克风处所接收到信号的回响程度的参考度量。
典型地,对应于在靠近说话者的麦克风处所捕获的麦克风信号的短时分段的频谱包络,相比于在距离更远的麦克风处所捕获的那个(并且,因此相对更多地受到回响和噪声的影响),将在码本中找到更好的匹配。然后,这个观察可以被例如用来在给定的场景中选择适当的麦克风信号。
假设噪声是高斯的,以及给定LP系数的向量a,在第k个麦克风处,我们可以得到(例如,参考S.Srinivasan,J.Samuelsson以及W.B.Kleijn的“Codebookdrivenshort-termpredictorparameterestimationforspeechenhancement(用于语音增强的码本驱动的短期预测器参数估计)”,IEEE会刊,Speech,AudioandLanguageProcessing(语音、音频以及语言处理),第14卷,第1期,163-176页,2006年1月):
其中,是LP系数的给定的向量,M是LP模型阶数,N是在短时间分段中的样本数量,是在第k个麦克风处的噪声信号的自相关矩阵,以及其中A是N×N的下三角托普利兹(Toeplitz)矩阵,其中是作为第一列,以及g是针对在归一化的码本谱与所观察的谱之间的水平差异进行补偿的增益项。
如果我们让帧长趋于无穷,则协方差矩阵可以被描述为循环矩阵并且其可以通过傅里叶(Fourier)变换来对角化。在上面的等式中的似然性的对数,对应于第i个语音码本向量,然后可以使用频域量被写为(例如,参考U.Grenander和G.Szego的"Toeplitzformsandtheirapplications(Toeplitz范式及其应用)",第二版,纽约:Chelsea,1984年):
其中C捕获与信号无关的常数项,而是来自码本的第i个向量的谱,由下式给出
对于给定的码本向量,增益补偿项可以被获取为:
其中,由于对噪声PSD的错误估计而可能出现在分子中的负值被设置为0。应该指出的是,在这个等式中的全部的数量都是可用的。有噪声的PSD以及噪声PSD可以根据麦克风信号而被估计,以及是由第i个码本向量所指定的。
对于每个传感器,在所有码本向量上计算最大似然值,即
其中I是在语音码本中的向量的数量。然后,这个最大似然值被用作特定麦克风信号的相似性指示。
最后,针对最大似然值t的极大值的麦克风被确定为最接近说话者的麦克风,即导致极大最大似然值的麦克风信号被确定:
。
针对这个特定的示例,已经执行了实验。使用来自华尔街日报(WSJ)语音数据库(CSR-II(WSJ1)完备"语言学数据协会,费城,1994)的训练数据,生成语音LP系数的码本。每一个都来自25个男性以及25个女性的50个不同的说话者的大约5秒钟持续时间的180个不同的训练发声被用作训练数据。使用训练发声,从大小为256个样本的Hann加窗的分段中提取了大约55000个LP系数,以8kHz的采样频率具有50%的重叠。使用LBG算法(Y.Linde,A.Buzo,和R.M.Gray,"Analgorithmforvectorquantizerdesign(用于向量量化器设计的算法),"IEEE通信会刊,vol.COM-28卷,第1期,84-95页,1980年1月)并且以Itakura-Saito失真(S.R.Quackenbush,T.P.Barnwell和M.A.Clements,"ObjectiveMeasuresofSpeechQuality(语音质量的客观度量)".新泽西:Prentice-Hall,1988年.)作为误差准则来训练码本。码本大小被固定在256个条目。考虑3个麦克风的设置,并且在回响的房间中将麦克风放置在距离说话者50厘米,150厘米,以及350厘米(T60=800毫秒)。在说话者的位置与三个麦克风中的每一个之间的冲激响应被记录,并且然后将其与干式语音信号进行卷积以便得到麦克风数据。在每个麦克风处的麦克风噪声是低于语音水平40dB。
图4示出了针对位于距离说话者50厘米远的麦克风的似然性。在语音支配的区域,这个麦克风(其位于最接近该说话者之处)接收接近1(unity)的数值,而在其他两个麦克风处的似然值接近0。因此,最接近的麦克风被正确地识别。
该方法的特定的优点在于其固有地针对在不同麦克风之间的信号水平差异进行补偿。
应该指出的是,该方法在语音活跃期间选择适当的麦克风。但是,在非语音分段期间(诸如,例如在语音中的暂停或者当说话者改变时)将不会允许确定这样的选择。但是,这可以简单地由包括语音活跃检测器(诸如简单的水平检测器之类)以便识别非语音周期的系统来解决。在这些周期期间,该系统可以简单地使用针对包括语音分量的最后分段所确定的组合参数来进行。
在之前的实施例中,通过将麦克风信号的特性与非回响语音样本的特性进行比较,以及特别地将麦克风信号的特性与作为使用所存储的参数对语音模型进行评估的结果产生的语音信号的特性进行比较,相似性指示已经被生成。
但是,在其他实施例中,可以通过分析麦克风信号来导出特性的集合,并且然后这些特性可以与非回响语音的期望值进行比较。因此,该比较可以在参数或者特性域中被执行,而不考虑特定的非回响语音样本。
特别地,相似性处理器105可以被布置来使用基本信号向量的集合对麦克风信号进行分解。特别地,这样的分解可以使用包含信号原型(也被称为原子)的稀疏过完备字典。然后,信号被描述为字典的子集的线性组合。因此,在这个情况下,每个原子可以对应于基本信号向量。
在这样的实施例中,根据麦克风信号所导出的以及在比较中被使用的特性可以是基本信号向量的数量,以及特别地可以是在适当的特征域中表示信号所需的字典原子的数量。
然后,可以将特性与非回响语音的一个或多个期望特性进行比较。例如,在多个实施例中,可以将基本向量的集合的数值与对应于特定非回响语音样本的基本向量的集合的数值的样本进行比较。
但是,在多个实施例中,更简单的方法可以被使用。特别地,如果在非回响语音上对字典进行训练,则然后包含较少回响语音的麦克风信号可以被使用相对少数量的字典原子来描述。随着信号被越来越多地暴露于回响和噪声,将要求越来越多数量的原子,即,能量将倾向于更平均地分散在更多的基本向量上。
相应地,在多个实施例中,能量在基本向量上的分布可以被评估并且可以被使用来确定相似性指示。该分布越被分散,相似性指示就越低。
作为特定的示例,当对来自两个麦克风的信号进行比较时,可以使用更少字典原子描述的那个与非回响语音更为相似(其中,该字典已经在非回响语音上被训练)。
作为特定的示例,其数值(特别地,在对信号进行近似的基本向量的组合中的每个基本向量的权重)超过给定门限的基本向量的数量可以被使用来确定相似性指示。实际上,超过该门限的基本向量的数量可以被简单地运算,以及直接地被用作给定的麦克风信号的相似性指示,基本向量数量的增加指示了降低的相似性。因此,根据麦克风信号所导出的特性可以是超过门限的基本向量数值的数量,并且这可以与具有高于门限的数值的零个或一个基本向量的非回响语音的参考特性进行比较。因此,基本向量的数量越多,相似性指示就越低。
将意识到的是,出于清晰起见,上面的说明书已经参考不同的功能电路、单元以及处理器描述了本发明的实施例。但是,将显然的是,在不偏离本发明的情况下,在不同功能电路、单元以及处理器之间的功能的任何合适的分布可以被使用。例如,被图示为由分离的处理器或控制器所执行的功能可以由相同的处理器或控制器来执行。因此,对特定功能单元或者电路的参考仅仅被视作为对用于提供所描述的功能的合适手段的参考,而不是指示了严格的逻辑或者物理结构或组织。
本发明可以以包括硬件、软件、固件或其任意组合在内的任何合适的形式来实现。可选地,本发明可以至少部分地被实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和组件可以以任何合适的方式被物理地、功能地以及逻辑地实现。实际上,功能可以以单个单元、以多个单元或者作为其他功能单元的一部分来被实现。同样地,本发明可以以单个单元被实现,或者可以在不同的单元、电路和处理之间被物理地以及功能地分布。
尽管本发明已经结合一些实施例而被描述,但是其不是旨在被限制为在本文中所阐述的特定形式。相反,本发明的范围仅仅是由所附的权利要求所限制的。附加地,尽管特征可能看起来是结合特定的实施例而被描述的,但是本领域技术人员将认识到所描述的实施例的各种不同的特征可以根据本发明进行组合。在权利要求中,术语包括不排除其他元件或者步骤的存在。
此外,尽管被单独地列出,但是多个装置、元件、电路或者方法步骤可以由例如单个电路、单元或者处理器来实现。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可能可以被有利地组合,并且在不同权利要求中的包含不意味着特征的组合是不可行的和/或有利的。并且,将特征包含在一类权利要求中不意味着局限于这类权利要求,相反指示该特征视需要可以同样被应用到其他权利要求类型。此外,在权利要求中特征的顺序不意味着这些特征必须以此来工作的任何特定的顺序,并且特别地,在方法权利要求中的单独步骤的顺序并不意味着这些步骤必须以这个顺序来执行。相反,这些步骤可以以任何合适的顺序来执行。附加地,单数的引用不排除复数。因此,对“一”、“一个”、“第一”、“第二”等等的引用不排除复数。权利要求中的参考标记仅仅被提供作为澄清的示例,并不应该被解释为以任何方式对权利要求的范围的限制。