CN1802695A

CN1802695A - 用于分析音源压缩表示的声音信号的方法及系统

Info

Publication number: CN1802695A
Application number: CNA038267411A
Authority: CN
Inventors: 亚辛·马米; 德尔菲娜·沙莱
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2003-07-01
Filing date: 2003-07-01
Publication date: 2006-07-12
Also published as: US20060253284A1; EP1639579A1; AU2003267504A1; KR101011713B1; JP2007514959A; WO2005015547A1; US7539617B2; KR20060041208A; JP4652232B2

Abstract

本发明涉及一种用于分析音源(λ)的声音信号的方法，其中，使用了概率密度，其表示在预定模型中的音源(λ)的声音表示和在所述预定模型中的一定数量(E)个参考音源的声音表示的预定集合之间的相似度，并因此使用该概率密度以便预测有关声音信号的信息。

Description

用于分析音源压缩表示的声音信号的方法及系统

技术领域

本发明涉及一种用于分析声音信号的方法和设备。

背景技术

更具体而言，对声音信号的分析需要能够表示音源。通过高斯型曲线(“高斯型曲线混合模型，Gaussian Mixture Model”或简写为：GMM)的混合表示音源是表示音源声学或声音本身的有效途径。根据该技术，音源被通过预定数量的高斯型曲线的加权总和在预定尺寸的声学参考空间中所表示。

当有大量数据可用时，并且对于模型参数的存储或对这些大量参数计算的执行没有物理限制时，这种类型的表示是很准确的。

现在，在实践中，为了在IT系统内表示音源，众所周知音源谈话的时间很短，且这些表示所需的存储器的空间很大，同时计算这些参数所需的时间很长。

因此寻找一种可以在极大地减少所需参数数量的音源表示的同时保持其正确性能的方式是很重要的。该性能是指那些不能被识别是否属于音源的声音序列相对于声音序列总量的错误率。

已经有人提出了这方面的解决方案，更具体而言，是在D.E.Sturim、D.A.Reynolds、E.Singer和J.P.Campbell所著的文献“SPEAKERINDEXING IN LARGE AUDIO DATA BASES USING ANCHORMODELS”中所提出的。特别地，作者建议不是以一种在声学参考空间中的独立方式表示音源，而是代之以一种相对于参考音源的表示的预定集合的相对方式——也称作锚标模型(anchor models)，对于该模型GMM-UBM(UBM代表“通用背景模型，Universal Background Model”)模型是可用的。通过欧氏距离计算一音源与参考音源之间的近似程度。这极大地减少了计算负载，但是性能仍然受限而且不充分。

发明内容

考虑到上述问题，本发明的一个目的是通过相对于参考音源的一预定集合表示音源来分析声音信号，其与使用GMM-UBM模型的表示相比，减少了参数数量从而减少了实时应用的计算负荷，并具有可以接受的性能。

于是，也就可以，例如，执行以音源为关键字的大型数据库音频文件的索引。

这样，根据本发明的一个方面，提出了一种分析音源(λ)的声音信号的方法，其使用概率密度表示在预定模型中的音源(λ)的声音表示和在所述预定模型中的数量为E的参考音源的声音表示的预定集合之间的相似度(resemblances)，而且该概率密度被分析以便由此推导出有关声音信号的信息。

这使得在缩短所需要的计算时间、减小所需要的存储空间的同时，可以极大地减少所使用参数的数量并且允许实现该方法的设备能够实时工作。

在一个优选实施例中，将维度为D、使用M高斯型曲线混合模型的独立模型(GMM)作为预定模型，对于该模型音源(λ)通过如下参数集合所表示，包括：用于所述独立模型(GMM)中的高斯型曲线混合模型的加权系数(α_i，i＝1～M)、维度为D的均值向量(μ_i，i＝1～M)，以及维度为D×D的协方差矩阵(Σ_i，i＝1～M)。

在一个优选的实施例中，在音源(λ)的所述声音信号的表示和参考音源的声音表示的预定集合之间的相似度的概率密度由维度为E的均值向量(μ^λ)和维度为E×E的协方差矩阵(Σ^λ)的高斯分布(Ψ(μ^λ，Σ^λ))表示，该等均值向量(μ^λ)和协方差矩阵(Σ^λ)是在与E个参考音源的预定集合相似度的空间中估算的。

在一个优选实施例中，作为维度为E的均值向量(μ^λ)和相对于E个参考音源的音源(λ)的相似度的协方差矩阵(Σ^λ)的函数(function)，我们定义了相对于E个参考音源的音源(λ)的相似度(Ψ(μ^λ，Σ^λ))，而对于音源(λ)，存在N_λ个由相对于E个参考音源的预定集合的相似度的空间的N_λ个矢量所表示的声音信号片段。

在一个优选实施例中，另外还引入先验(Priori)信息到相对于E个参考音源的相似度的概率密度中。

在一个优选实施例中，音源(λ)的协方差矩阵与所述音源

({\tilde{Σ}}^{λ} = \tilde{Σ})

无关。

根据本发明的另一个方面，发明人提出了一种用于分析音源(λ)的声音信号的系统，包括数据库，其中存储了E个参考音源的声音信号的预定集合和他们在预定模型中的相关声音表示，以及音频档案数据库，其特征在于，它包括用在音源(λ)的声音表示和E个参考音源的声音表示的预定集合之间相似度的矢量表示的声音信号分析装置。

在一个优选实施例中，数据库也存储通过所述分析装置所进行的声音信号分析。

本发明可以应用于音频文件的检索，然而也可以考虑用于其他应用中，例如音源声学识别或音源身份验证。

通过阅读说明书的下述部分，本发明的其他目的、特征和优点将更加清楚，其给出并非限制本发明内容的实施例，并提供了对使用音频文件检索的方法的有关应用的附图的参考描述。

该图描述了根据本发明关于音频数据库检索方面的系统的一个应用。当然，本发明也可以应用于音源的声学识别或音源的身份验证，也就是说，在通常的方式下，用于有关音源在声学信号方面的信息识别。该系统包括一个用于接收音源声音数据的装置，例如一个扩音器(mike)1，通过有线或无线连接2连接到记录装置3，其由音源λ发出请求并且包括一声音信号集合。记录装置3通过连接4连接到存储装置5，并且通过连接6连接到针对上述请求的声学处理装置7。这些声学处理装置通过用于表示音源λ的GMM模型将音源λ的声音信号转换成为维度为D的声学空间表示。

根据如下等式，通过M高斯型曲线的加权总和定义了上述表示：

\{\begin{matrix} p (x | λ) = Σ_{i = 1}^{M} α_{i} b_{i} (x) & - - - (1) \\ b_{i} (x) = \frac{1}{{(2 π)}^{D / 2} \cdot {| Σ_{i} |}^{1 / 2}} \times \exp [- \frac{1}{2} t (x - μ_{i}) Σ_{i}^{- 1} (x - μ_{i})] & - - - (2) \\ Σ_{i = 1}^{M} α_{i} = 1 & - - - (3) \end{matrix}

其中：

D是独立GMM模型声学空间的维度；

x是维度为D的声学矢量，即，独立GMM模型中音源λ的声音信号序列的cepstral系数的矢量；

M表示独立GMM模型的高斯型曲线的数量，通常是数值处于16和1024之间的2的乘方；

b_i(x)表示通过维度为D的均值向量μ_i和维度为D×D的协方差矩阵Σ_i予以参数化的高斯型曲线密度，其中i＝1～D，以及

α_i表示独立GMM模型中高斯型曲线混合模型的加权系数，其中i＝1～D。

用于对请求进行处理的声学处理装置7通过连接8连接到分析装置9。该等分析装置9能够通过概率密度矢量表示音源，该概率密度矢量表示被选择的GMM模型中的所述音源的声音表示和被选择的GMM模型中E个参考音源的声音表示之间的相似度。此外，该分析装置9还能执行用于验证和/或识别音源的测试。

为了执行上述测试，分析装置进行概率密度矢量，即在音源和参考音源之间的相似度，的公式化。

这要求通过下列等式的方式描述音源λ的信号的一个单个片段x的相关表示：

其中：

w^λ是该表示空间中与表示片段x的E个参考音源的预定集合相似度的空间的矢量；

是通过通用模型标准化的概率或概率密度，表示存在参考音源 λ_j时，音源λ的声音信号片段的声学表示X^λ的相似度；

T_X是语音(speech)片段x的帧或声学矢量的数量；

p(x^λ| λ_j)表示存在参考音源 λ_j时，音源λ的声音信号片段的声学表示X^λ的相似度的概率；

p(x^λ| λ_UBM)是在UBM领域的模型中，表示音源λ的声音信号片段的声学表示X^λ的相似度的概率；

M是相对GMM模型的高斯型曲线的数量，通常是数值处于16和1024之间的2的乘方；

D是独立GMM模型声学空间的维度；

X^λ是维度为D的声学矢量，即独立GMM模型中音源λ的声音信号序列的cepstral系数的矢量；

b_k(x)表示通过维度为D的均值向量μ_K和维度为D×D的协方差矩阵Σ_K参数化的高斯型曲线密度，其中k＝1～D；

α_K表示，独立GMM模型中高斯型曲线混合模型的加权系数，其中i＝1～D。

基于音源λ的语音(speech)X_j(j＝1，...，N_λ)的片段的表示W_j，音源λ通过高斯分布ψ表示，其参数μ^λ和Σ_λ由下列关系式定义：

\{\begin{matrix} μ^{λ} = {μ_{i}^{λ}}_{i = 1, . . ., E} & with & μ_{i}^{λ} = \frac{1}{N_{λ}} Σ_{j = 1}^{N_{λ}} \tilde{p} (x_{j}^{λ} | {\overset{&OverBar;}{λ}}_{i}) - - - (8) \\ Σ^{λ} = {Σ_{{ii}^{'}}^{λ}}_{{i, i}^{'} = 1, . . ., E} & with & Σ_{{ii}^{'}}^{λ} = \frac{1}{N_{λ}} Σ_{j = 1}^{N_{λ}} (\tilde{p} (x_{j}^{λ} | {\overset{&OverBar;}{λ}}_{i}) - μ_{i}^{λ}) (\tilde{p} (x_{j}^{λ} | λ_{i^{'}}) - μ_{i^{'}}^{λ}) \end{matrix}, - - - (9)

其中，μ_i ^λ表示相对于E个参考音源的音源λ的相似度Ψ(μ^λ，Σ^λ)的维度为E的均值向量的μ^λ的组成，并且Σ_ii ^λ表示相对于E音源的音源λ的相似度Ψ(μ^λ，Σ^λ)的维度为E×E的协方差矩阵Σ^λ的组成。

分析装置9通过连接10连接到训练装置11，使得对被选择的GMM模型中的E个参考音源的以维度为D的矢量形式的声音表式的计算成为可能。训练装置11通过连接12连接到数据库13，该数据库13包括音源的预定集合的声音信号以及在参考GMM模型中他们的相关声音表示。该数据库也可以存储初始音源，而不是所述E个参考音源，的声音信号的分析结果。数据库13通过连接14连接到分析装置9，并通过连接15连接到声学处理装置7。

该系统还包括数据库16，通过连接17连接到声学处理装置7，并通过连接18连接到分析装置9。数据库16包括声音条目形式的音频档案，以及被选择的GMM模型中的相关声音表示。数据库16也能存储通过分析装置9计算的音频条目的相关表示。该训练装置11还通过连接19连接到声学处理装置7。

附图说明

图1是本发明所提供的用于分析音源压缩表示的声音信号的系统的示意图。

具体实施方式

下面将描述该系统操作方式的例子，由于使用的参数的数量相对于GMM模型大大地减少，并由于可以脱机执行多个步骤，因此该系统可以实时运作。

训练模块11将借助于存储在数据库13中的这些E个参考音源的声音信号以及声学处理装置7来确定E个参考音源在参考GMM模型中的表示，其根据上述的关系(1)至(3)完成该确定过程。E个参考音源的集合将表示新的声学表示空间。在该GMM模型中的E个参考音源的表示存储在存储器中，例如数据库13。所有这些可以脱机执行。

当音源λ的声音数据被接收时，例如通过扩音器1被接收，该等数据通过连接2传送到记录装置3，而装置3能借助于连接4将这些数据存储到存储装置5中。记录装置3通过连接6将该等记录传送至声学处理装置7。声学处理装置7如之前提到的关系(1)至(3)描述的那样计算在预定GMM模型中的音源的声音表示。

此外，声学处理装置7已经计算了S个测试音源的集合的声音表示以及在预定GMM模型中的T个音源的集合的声音表示，例如以脱机的方式计算。这些集合是有区别的。这些表示存储于数据库13中。分析装置9计算S个音源的声音表示以及相对于E个参考音源的T个音源的声音表示，例如以脱机方式计算。如前所描述的，该表示是相对于这些E个参考音源的矢量表示。分析装置9也执行S个音源的声音表示以及相对于E个参考音源的T个音源的声音表示，以及音频基础的音源的条目的声音表示，例如脱机执行。该表示是相对于这些参考音源的矢量表示。

处理装置7将预定GMM模型中的音源λ的声音表示传送至分析装置9，其计算音源λ的声音表示。该表示是一个通过与E个参考音源相似度的概率密度的表示。其通过借助于T个音源的声音表示的方式引入先验信息来计算的。特别地，通过利用该先验信息，使其可能保持可靠的估算，即使当可利用的音源λ的语音(speech)片段很少。先验信息借助于下列等式引入：

\{\begin{matrix} {\overset{&OverBar;}{μ}}^{λ} = \frac{N_{0} μ_{0} + N_{λ} μ^{λ}}{N_{0} + N_{λ}} - - - (10) \\ W = \begin{matrix} (\begin{matrix} w_{1}^{spk_1} & . . . & w_{N_{1}}^{spk_1} & . . . & w_{1}^{spk_T} & . . . & w_{N_{T}}^{spk_T} \end{matrix}) - - - (11) \end{matrix} \end{matrix}

其中：

μ^λ：相对于E个参考音源的音源λ的相似度Ψ(μ^λ，Σ^λ)的维度为E的均值向量；

N^λ：音源λ的声音信号片段的数量，由与E个参考音源的预定集合的相似度的空间的n_λ矢量表示；

W：T个音源spk_i的集合的所有原始数据的矩阵，它的列是表示声音信号片段的维度为E的矢量，而该等声音信号由E个参考音源的预定集合的相似度的空间矢量表示，其中每个音源spk_i具有n_i个声音片段，其特征在于它的维度为E的均值向量μ₀，以及它的维度为E×E的协方差矩阵Σ₀，其中i＝1～T；

随着先验信息的引用，相对于E个参考音源的音源λ的相似度的维度为E的均值向量；

Σ^λ：随着先验信息的引用，相对于E个参考音源的音源λ的相似度的维度为E×E的协方差矩阵。

此外，有可能对每个音源采用单个协方差矩阵，由此使得脱机地正交化所述矩阵成为可能，并且随后采用对角协方差矩阵执行概率密度的计算。在这种情况下，根据下列关系式定义该单个的协方差矩阵：

\{\begin{matrix} {\tilde{Σ}}_{{ii}^{'}} = \frac{1}{N_{0}} Σ_{s = i}^{T} \underset{j &Element; I_{s}}{Σ} (W_{ij} - {\overset{&OverBar;}{W}}_{is}) (W_{i^{'} j} - {\overset{&OverBar;}{W}}_{i^{'} s}) & - - - (12) \\ {\overset{&OverBar;}{W}}_{is} = \frac{1}{N_{T}} \underset{j &Element; I_{s}}{Σ} W_{ij} & - - - (13) \end{matrix}

其中

W是T个音源spk_i的集合的所有原始数据的矩阵，它的列是表示声音信号片段的维度为E的矢量，该声音信号由E个参考音源的预定集合的相似度的空间的矢量表示，每个音源spk_i具有n_i个声音片段，其特征在于它的维度为E的均值向量μ₀，和它的维度为E×E的协方差矩阵Σ₀，其中i＝1～T。

接下来，分析装置9将通过音源识别和/或验证的测试，比较请求的声音表示和基础条目的声音表示。音源识别测试包括对该测试片段w_x和音频基础条目的表示的集合之间的相似性的度量的计算。被识别的音源对应于从S个音源的集合中得出最大相似性分值的音源，即：

\hat{λ} = \arg \max_{λ} p (w_{x} | {\tilde{μ}}^{λ}, {\tilde{Σ}}^{λ}) - - - (14)

音源验证测试包括计算测试片段w_x的矢量和音频基础条目的表示的集合之间的相似性的分值，其通过采用一先验信息的表示的似然性(likelihood)分值进行标准化。如果该分值超过预定给出的阈值则该片段即通过验证，所述分值由下列关系式给出：

score = \frac{p (w_{x} | {\tilde{μ}}^{λ}, {\tilde{Σ}}^{λ})}{p (w_{x} | μ_{0}, Σ_{0})} - - - (15)

每次，在一个基础条目中音源λ被识别出，该条目借助于信息被检索，使得确定该音源λ在该音频条目中交谈成为可能。

本发明还可以用于其他运用，例如音源识别或音源鉴定。

由于大幅度削减了表示音源所需的参数的数量使得只需要更少的基本操作，该音源的压缩表示使得可以极大地减少计算成本。

例如，对于音源所请求的长度为4秒钟的语音，即250帧，对于维度为27的一个GMM模型，采用16个高斯型曲线，基本操作的数量减少了540倍(factor)，因此极大地缩短了计算时间。此外，用于存储音源表示的存储空间也相对地减少了。

因此本发明使得极大地缩短计算时间和减少存储音源的声音表示的存储空间的情况下分析音源的声音信号成为可能。

Claims

1.一种分析音源(λ)的声音信号的方法，其特征在于，其使用概率密度，表示在预定模型中的音源(λ)的声音表示和在所述预定模型中的数量为E个的参考音源的声音表示的预定集合之间的相似度，且该概率密度被分析以便由此推导出有关声音信号的信息。

2.如权利要求1所述的方法，其特征在于，把维度为D、使用M高斯型曲线混合模型的独立模型(GMM)作为预定模型，该模型通过如下参数集合表示音源(λ)，包括：用于所述独立模型(GMM)中的高斯型曲线混合模型的加权系数(α_i，i＝1～M)、维度为D的均值向量(μ_i，i＝1～M)，以及维度为D×D的协方差矩阵(∑_i，i＝1～M)。

3.如权利要求2所述的方法，其特征在于，在所述的音源(λ)的声音信号的表示和参考音源的声音表示的预定集合之间的相似度的概率密度是通过维度为E的均值向量(μ^λ)和维度为E×E的协方差矩阵(∑^λ)的高斯分布(ψ(μ^λ，∑^λ))表示的，均值向量(μ^λ)和协方差矩阵(∑^λ)是在E个参考音源的预定集合相似度的空间中估算的。

4.如权利要求3所述的方法，其特征在于，相对于E个参考音源的音源(λ)的相似度(ψ(μ^λ，∑^λ))被定义，作为维度为E的均值向量(μ^λ)和相对于E个参考音源的音源(λ)的相似度的协方差矩阵(∑^λ)的函数，其中，对于音源(λ)存在N_λ个相对于E个参考音源的预定集合的相似度的空间的N_λ矢量所表示的声音信号的片段。

5.如权利要求4所述的方法，其特征在于，进一步地，一先验信息被引入到相对于E个参考音源的相似度

的概率密度中。

6.如权利要求5所述的方法，其特征在于，音源(λ)的协方差矩阵与所述音源(

{\tilde{Σ}}^{λ} = \tilde{Σ}

)无关。

7.一种用于分析音源(λ)的声音信号的系统，包括：

数据库，存储音源预定集合的声音信号以及他们在预定模型中通过高斯型曲线混合的相关声音表示，以及，

音频档案数据库，其特征在于，其包括使用在音源(λ)的声音表示和E个参考音源的声音表示的预定集合之间相似度的矢量表示的声音信号分析装置。

8.如权利要求7所述的系统，其特征在于，数据库还存储由所述分析装置执行的声音信号分析。

9.如权利要求1至6中的任一权利要求所述的方法，其用于音频文件的检索。

10.如权利要求1至6中的任一权利要求的方法，其用于音源的识别。

11.如权利要求1至6中的任一权利要求所述的方法，其用于音源的验证。