CN1802695A - 用于分析音源压缩表示的声音信号的方法及系统 - Google Patents

用于分析音源压缩表示的声音信号的方法及系统 Download PDF

Info

Publication number
CN1802695A
CN1802695A CNA038267411A CN03826741A CN1802695A CN 1802695 A CN1802695 A CN 1802695A CN A038267411 A CNA038267411 A CN A038267411A CN 03826741 A CN03826741 A CN 03826741A CN 1802695 A CN1802695 A CN 1802695A
Authority
CN
China
Prior art keywords
sound
source
similarity
voice signal
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA038267411A
Other languages
English (en)
Inventor
亚辛·马米
德尔菲娜·沙莱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN1802695A publication Critical patent/CN1802695A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种用于分析音源(λ)的声音信号的方法,其中,使用了概率密度,其表示在预定模型中的音源(λ)的声音表示和在所述预定模型中的一定数量(E)个参考音源的声音表示的预定集合之间的相似度,并因此使用该概率密度以便预测有关声音信号的信息。

Description

用于分析音源压缩表示的声音信号的方法及系统
技术领域
本发明涉及一种用于分析声音信号的方法和设备。
背景技术
更具体而言,对声音信号的分析需要能够表示音源。通过高斯型曲线(“高斯型曲线混合模型,Gaussian Mixture Model”或简写为:GMM)的混合表示音源是表示音源声学或声音本身的有效途径。根据该技术,音源被通过预定数量的高斯型曲线的加权总和在预定尺寸的声学参考空间中所表示。
当有大量数据可用时,并且对于模型参数的存储或对这些大量参数计算的执行没有物理限制时,这种类型的表示是很准确的。
现在,在实践中,为了在IT系统内表示音源,众所周知音源谈话的时间很短,且这些表示所需的存储器的空间很大,同时计算这些参数所需的时间很长。
因此寻找一种可以在极大地减少所需参数数量的音源表示的同时保持其正确性能的方式是很重要的。该性能是指那些不能被识别是否属于音源的声音序列相对于声音序列总量的错误率。
已经有人提出了这方面的解决方案,更具体而言,是在D.E.Sturim、D.A.Reynolds、E.Singer和J.P.Campbell所著的文献“SPEAKERINDEXING IN LARGE AUDIO DATA BASES USING ANCHORMODELS”中所提出的。特别地,作者建议不是以一种在声学参考空间中的独立方式表示音源,而是代之以一种相对于参考音源的表示的预定集合的相对方式——也称作锚标模型(anchor models),对于该模型GMM-UBM(UBM代表“通用背景模型,Universal Background Model”)模型是可用的。通过欧氏距离计算一音源与参考音源之间的近似程度。这极大地减少了计算负载,但是性能仍然受限而且不充分。
发明内容
考虑到上述问题,本发明的一个目的是通过相对于参考音源的一预定集合表示音源来分析声音信号,其与使用GMM-UBM模型的表示相比,减少了参数数量从而减少了实时应用的计算负荷,并具有可以接受的性能。
于是,也就可以,例如,执行以音源为关键字的大型数据库音频文件的索引。
这样,根据本发明的一个方面,提出了一种分析音源(λ)的声音信号的方法,其使用概率密度表示在预定模型中的音源(λ)的声音表示和在所述预定模型中的数量为E的参考音源的声音表示的预定集合之间的相似度(resemblances),而且该概率密度被分析以便由此推导出有关声音信号的信息。
这使得在缩短所需要的计算时间、减小所需要的存储空间的同时,可以极大地减少所使用参数的数量并且允许实现该方法的设备能够实时工作。
在一个优选实施例中,将维度为D、使用M高斯型曲线混合模型的独立模型(GMM)作为预定模型,对于该模型音源(λ)通过如下参数集合所表示,包括:用于所述独立模型(GMM)中的高斯型曲线混合模型的加权系数(αi,i=1~M)、维度为D的均值向量(μi,i=1~M),以及维度为D×D的协方差矩阵(Σi,i=1~M)。
在一个优选的实施例中,在音源(λ)的所述声音信号的表示和参考音源的声音表示的预定集合之间的相似度的概率密度由维度为E的均值向量(μλ)和维度为E×E的协方差矩阵(Σλ)的高斯分布(Ψ(μλ,Σλ))表示,该等均值向量(μλ)和协方差矩阵(Σλ)是在与E个参考音源的预定集合相似度的空间中估算的。
在一个优选实施例中,作为维度为E的均值向量(μλ)和相对于E个参考音源的音源(λ)的相似度的协方差矩阵(Σλ)的函数(function),我们定义了相对于E个参考音源的音源(λ)的相似度(Ψ(μλ,Σλ)),而对于音源(λ),存在Nλ个由相对于E个参考音源的预定集合的相似度的空间的Nλ个矢量所表示的声音信号片段。
在一个优选实施例中,另外还引入先验(Priori)信息到相对于E个参考音源的相似度 的概率密度中。
在一个优选实施例中,音源(λ)的协方差矩阵与所述音源 ( Σ ~ λ = Σ ~ ) 无关。
根据本发明的另一个方面,发明人提出了一种用于分析音源(λ)的声音信号的系统,包括数据库,其中存储了E个参考音源的声音信号的预定集合和他们在预定模型中的相关声音表示,以及音频档案数据库,其特征在于,它包括用在音源(λ)的声音表示和E个参考音源的声音表示的预定集合之间相似度的矢量表示的声音信号分析装置。
在一个优选实施例中,数据库也存储通过所述分析装置所进行的声音信号分析。
本发明可以应用于音频文件的检索,然而也可以考虑用于其他应用中,例如音源声学识别或音源身份验证。
通过阅读说明书的下述部分,本发明的其他目的、特征和优点将更加清楚,其给出并非限制本发明内容的实施例,并提供了对使用音频文件检索的方法的有关应用的附图的参考描述。
该图描述了根据本发明关于音频数据库检索方面的系统的一个应用。当然,本发明也可以应用于音源的声学识别或音源的身份验证,也就是说,在通常的方式下,用于有关音源在声学信号方面的信息识别。该系统包括一个用于接收音源声音数据的装置,例如一个扩音器(mike)1,通过有线或无线连接2连接到记录装置3,其由音源λ发出请求并且包括一声音信号集合。记录装置3通过连接4连接到存储装置5,并且通过连接6连接到针对上述请求的声学处理装置7。这些声学处理装置通过用于表示音源λ的GMM模型将音源λ的声音信号转换成为维度为D的声学空间表示。
根据如下等式,通过M高斯型曲线的加权总和定义了上述表示:
p ( x | λ ) = Σ i = 1 M α i b i ( x ) - - - ( 1 ) b i ( x ) = 1 ( 2 π ) D / 2 · | Σ i | 1 / 2 × exp [ - 1 2 t ( x - μ i ) Σ i - 1 ( x - μ i ) ] - - - ( 2 ) Σ i = 1 M α i = 1 - - - ( 3 )
其中:
D是独立GMM模型声学空间的维度;
x是维度为D的声学矢量,即,独立GMM模型中音源λ的声音信号序列的cepstral系数的矢量;
M表示独立GMM模型的高斯型曲线的数量,通常是数值处于16和1024之间的2的乘方;
bi(x)表示通过维度为D的均值向量μi和维度为D×D的协方差矩阵Σi予以参数化的高斯型曲线密度,其中i=1~D,以及
αi表示独立GMM模型中高斯型曲线混合模型的加权系数,其中i=1~D。
用于对请求进行处理的声学处理装置7通过连接8连接到分析装置9。该等分析装置9能够通过概率密度矢量表示音源,该概率密度矢量表示被选择的GMM模型中的所述音源的声音表示和被选择的GMM模型中E个参考音源的声音表示之间的相似度。此外,该分析装置9还能执行用于验证和/或识别音源的测试。
为了执行上述测试,分析装置进行概率密度矢量,即在音源和参考音源之间的相似度,的公式化。
这要求通过下列等式的方式描述音源λ的信号的一个单个片段x的相关表示:
其中:
wλ是该表示空间中与表示片段x的E个参考音源的预定集合相似度的空间的矢量;
Figure A0382674100081
是通过通用模型标准化的概率或概率密度,表示存在参考音源 λj时,音源λ的声音信号片段的声学表示Xλ的相似度;
TX是语音(speech)片段x的帧或声学矢量的数量;
p(xλ| λj)表示存在参考音源 λj时,音源λ的声音信号片段的声学表示Xλ的相似度的概率;
p(xλ| λUBM)是在UBM领域的模型中,表示音源λ的声音信号片段的声学表示Xλ的相似度的概率;
M是相对GMM模型的高斯型曲线的数量,通常是数值处于16和1024之间的2的乘方;
D是独立GMM模型声学空间的维度;
Xλ是维度为D的声学矢量,即独立GMM模型中音源λ的声音信号序列的cepstral系数的矢量;
bk(x)表示通过维度为D的均值向量μK和维度为D×D的协方差矩阵ΣK参数化的高斯型曲线密度,其中k=1~D;
αK表示,独立GMM模型中高斯型曲线混合模型的加权系数,其中i=1~D。
基于音源λ的语音(speech)Xj(j=1,...,Nλ)的片段的表示Wj,音源λ通过高斯分布ψ表示,其参数μλ和Σλ由下列关系式定义:
μ λ = { μ i λ } i = 1 , . . . , E with μ i λ = 1 N λ Σ j = 1 N λ p ~ ( x j λ | λ ‾ i ) - - - ( 8 ) Σ λ = { Σ ii ′ λ } i , i ′ = 1 , . . . , E with Σ ii ′ λ = 1 N λ Σ j = 1 N λ ( p ~ ( x j λ | λ ‾ i ) - μ i λ ) ( p ~ ( x j λ | λ i ′ ) - μ i ′ λ ) - - - ( 9 )
其中,μi λ表示相对于E个参考音源的音源λ的相似度Ψ(μλ,Σλ)的维度为E的均值向量的μλ的组成,并且Σii λ表示相对于E音源的音源λ的相似度Ψ(μλ,Σλ)的维度为E×E的协方差矩阵Σλ的组成。
分析装置9通过连接10连接到训练装置11,使得对被选择的GMM模型中的E个参考音源的以维度为D的矢量形式的声音表式的计算成为可能。训练装置11通过连接12连接到数据库13,该数据库13包括音源的预定集合的声音信号以及在参考GMM模型中他们的相关声音表示。该数据库也可以存储初始音源,而不是所述E个参考音源,的声音信号的分析结果。数据库13通过连接14连接到分析装置9,并通过连接15连接到声学处理装置7。
该系统还包括数据库16,通过连接17连接到声学处理装置7,并通过连接18连接到分析装置9。数据库16包括声音条目形式的音频档案,以及被选择的GMM模型中的相关声音表示。数据库16也能存储通过分析装置9计算的音频条目的相关表示。该训练装置11还通过连接19连接到声学处理装置7。
附图说明
图1是本发明所提供的用于分析音源压缩表示的声音信号的系统的示意图。
具体实施方式
下面将描述该系统操作方式的例子,由于使用的参数的数量相对于GMM模型大大地减少,并由于可以脱机执行多个步骤,因此该系统可以实时运作。
训练模块11将借助于存储在数据库13中的这些E个参考音源的声音信号以及声学处理装置7来确定E个参考音源在参考GMM模型中的表示,其根据上述的关系(1)至(3)完成该确定过程。E个参考音源的集合将表示新的声学表示空间。在该GMM模型中的E个参考音源的表示存储在存储器中,例如数据库13。所有这些可以脱机执行。
当音源λ的声音数据被接收时,例如通过扩音器1被接收,该等数据通过连接2传送到记录装置3,而装置3能借助于连接4将这些数据存储到存储装置5中。记录装置3通过连接6将该等记录传送至声学处理装置7。声学处理装置7如之前提到的关系(1)至(3)描述的那样计算在预定GMM模型中的音源的声音表示。
此外,声学处理装置7已经计算了S个测试音源的集合的声音表示以及在预定GMM模型中的T个音源的集合的声音表示,例如以脱机的方式计算。这些集合是有区别的。这些表示存储于数据库13中。分析装置9计算S个音源的声音表示以及相对于E个参考音源的T个音源的声音表示,例如以脱机方式计算。如前所描述的,该表示是相对于这些E个参考音源的矢量表示。分析装置9也执行S个音源的声音表示以及相对于E个参考音源的T个音源的声音表示,以及音频基础的音源的条目的声音表示,例如脱机执行。该表示是相对于这些参考音源的矢量表示。
处理装置7将预定GMM模型中的音源λ的声音表示传送至分析装置9,其计算音源λ的声音表示。该表示是一个通过与E个参考音源相似度的概率密度的表示。其通过借助于T个音源的声音表示的方式引入先验信息来计算的。特别地,通过利用该先验信息,使其可能保持可靠的估算,即使当可利用的音源λ的语音(speech)片段很少。先验信息借助于下列等式引入:
μ ‾ λ = N 0 μ 0 + N λ μ λ N 0 + N λ - - - ( 10 ) W = w 1 spk _ 1 . . . w N 1 spk _ 1 . . . w 1 spk _ T . . . w N T spk _ T - - - ( 11 )
其中:
μλ:相对于E个参考音源的音源λ的相似度Ψ(μλ,Σλ)的维度为E的均值向量;
Nλ:音源λ的声音信号片段的数量,由与E个参考音源的预定集合的相似度的空间的nλ矢量表示;
W:T个音源spk_i的集合的所有原始数据的矩阵,它的列是表示声音信号片段的维度为E的矢量,而该等声音信号由E个参考音源的预定集合的相似度的空间矢量表示,其中每个音源spk_i具有ni个声音片段,其特征在于它的维度为E的均值向量μ0,以及它的维度为E×E的协方差矩阵Σ0,其中i=1~T;
随着先验信息的引用,相对于E个参考音源的音源λ的相似度的维度为E的均值向量;
Σλ:随着先验信息的引用,相对于E个参考音源的音源λ的相似度的维度为E×E的协方差矩阵。
此外,有可能对每个音源采用单个协方差矩阵,由此使得脱机地正交化所述矩阵成为可能,并且随后采用对角协方差矩阵执行概率密度的计算。在这种情况下,根据下列关系式定义该单个的协方差矩阵:
Σ ~ ii ′ = 1 N 0 Σ s = i T Σ j ∈ I s ( W ij - W ‾ is ) ( W i ′ j - W ‾ i ′ s ) - - - ( 12 ) W ‾ is = 1 N T Σ j ∈ I s W ij - - - ( 13 )
其中
W是T个音源spk_i的集合的所有原始数据的矩阵,它的列是表示声音信号片段的维度为E的矢量,该声音信号由E个参考音源的预定集合的相似度的空间的矢量表示,每个音源spk_i具有ni个声音片段,其特征在于它的维度为E的均值向量μ0,和它的维度为E×E的协方差矩阵Σ0,其中i=1~T。
接下来,分析装置9将通过音源识别和/或验证的测试,比较请求的声音表示和基础条目的声音表示。音源识别测试包括对该测试片段wx和音频基础条目的表示的集合之间的相似性的度量的计算。被识别的音源对应于从S个音源的集合中得出最大相似性分值的音源,即:
λ ^ = arg max λ p ( w x | μ ~ λ , Σ ~ λ ) - - - ( 14 )
音源验证测试包括计算测试片段wx的矢量和音频基础条目的表示的集合之间的相似性的分值,其通过采用一先验信息的表示的似然性(likelihood)分值进行标准化。如果该分值超过预定给出的阈值则该片段即通过验证,所述分值由下列关系式给出:
score = p ( w x | μ ~ λ , Σ ~ λ ) p ( w x | μ 0 , Σ 0 ) - - - ( 15 )
每次,在一个基础条目中音源λ被识别出,该条目借助于信息被检索,使得确定该音源λ在该音频条目中交谈成为可能。
本发明还可以用于其他运用,例如音源识别或音源鉴定。
由于大幅度削减了表示音源所需的参数的数量使得只需要更少的基本操作,该音源的压缩表示使得可以极大地减少计算成本。
例如,对于音源所请求的长度为4秒钟的语音,即250帧,对于维度为27的一个GMM模型,采用16个高斯型曲线,基本操作的数量减少了540倍(factor),因此极大地缩短了计算时间。此外,用于存储音源表示的存储空间也相对地减少了。
因此本发明使得极大地缩短计算时间和减少存储音源的声音表示的存储空间的情况下分析音源的声音信号成为可能。

Claims (11)

1.一种分析音源(λ)的声音信号的方法,其特征在于,其使用概率密度,表示在预定模型中的音源(λ)的声音表示和在所述预定模型中的数量为E个的参考音源的声音表示的预定集合之间的相似度,且该概率密度被分析以便由此推导出有关声音信号的信息。
2.如权利要求1所述的方法,其特征在于,把维度为D、使用M高斯型曲线混合模型的独立模型(GMM)作为预定模型,该模型通过如下参数集合表示音源(λ),包括:用于所述独立模型(GMM)中的高斯型曲线混合模型的加权系数(αi,i=1~M)、维度为D的均值向量(μi,i=1~M),以及维度为D×D的协方差矩阵(∑i,i=1~M)。
3.如权利要求2所述的方法,其特征在于,在所述的音源(λ)的声音信号的表示和参考音源的声音表示的预定集合之间的相似度的概率密度是通过维度为E的均值向量(μλ)和维度为E×E的协方差矩阵(∑λ)的高斯分布(ψ(μλ,∑λ))表示的,均值向量(μλ)和协方差矩阵(∑λ)是在E个参考音源的预定集合相似度的空间中估算的。
4.如权利要求3所述的方法,其特征在于,相对于E个参考音源的音源(λ)的相似度(ψ(μλ,∑λ))被定义,作为维度为E的均值向量(μλ)和相对于E个参考音源的音源(λ)的相似度的协方差矩阵(∑λ)的函数,其中,对于音源(λ)存在Nλ个相对于E个参考音源的预定集合的相似度的空间的Nλ矢量所表示的声音信号的片段。
5.如权利要求4所述的方法,其特征在于,进一步地,一先验信息被引入到相对于E个参考音源的相似度
Figure A038267410002C1
的概率密度中。
6.如权利要求5所述的方法,其特征在于,音源(λ)的协方差矩阵与所述音源( Σ ~ λ = Σ ~ )无关。
7.一种用于分析音源(λ)的声音信号的系统,包括:
数据库,存储音源预定集合的声音信号以及他们在预定模型中通过高斯型曲线混合的相关声音表示,以及,
音频档案数据库,其特征在于,其包括使用在音源(λ)的声音表示和E个参考音源的声音表示的预定集合之间相似度的矢量表示的声音信号分析装置。
8.如权利要求7所述的系统,其特征在于,数据库还存储由所述分析装置执行的声音信号分析。
9.如权利要求1至6中的任一权利要求所述的方法,其用于音频文件的检索。
10.如权利要求1至6中的任一权利要求的方法,其用于音源的识别。
11.如权利要求1至6中的任一权利要求所述的方法,其用于音源的验证。
CNA038267411A 2003-07-01 2003-07-01 用于分析音源压缩表示的声音信号的方法及系统 Pending CN1802695A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FR2003/002037 WO2005015547A1 (fr) 2003-07-01 2003-07-01 Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs

Publications (1)

Publication Number Publication Date
CN1802695A true CN1802695A (zh) 2006-07-12

Family

ID=34130575

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA038267411A Pending CN1802695A (zh) 2003-07-01 2003-07-01 用于分析音源压缩表示的声音信号的方法及系统

Country Status (7)

Country Link
US (1) US7539617B2 (zh)
EP (1) EP1639579A1 (zh)
JP (1) JP4652232B2 (zh)
KR (1) KR101011713B1 (zh)
CN (1) CN1802695A (zh)
AU (1) AU2003267504A1 (zh)
WO (1) WO2005015547A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1881443B1 (en) * 2003-10-03 2009-04-08 Asahi Kasei Kogyo Kabushiki Kaisha Data processing unit, method and control program
ATE491202T1 (de) * 2006-05-16 2010-12-15 Loquendo Spa Kompensation der variabilität zwischen sitzungen zur automatischen extraktion von informationen aus sprache
JP4717872B2 (ja) * 2006-12-06 2011-07-06 韓國電子通信研究院 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
AU2007335251B2 (en) 2006-12-19 2014-05-15 Validvoice, Llc Confidence levels for speaker recognition
CN102237084A (zh) * 2010-04-22 2011-11-09 松下电器产业株式会社 声音空间基准模型的在线自适应调节方法及装置和设备
US8635067B2 (en) * 2010-12-09 2014-01-21 International Business Machines Corporation Model restructuring for client and server based automatic speech recognition
US9595260B2 (en) * 2010-12-10 2017-03-14 Panasonic Intellectual Property Corporation Of America Modeling device and method for speaker recognition, and speaker recognition system
JP6556575B2 (ja) 2015-09-15 2019-08-07 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
CA3172758A1 (en) * 2016-07-11 2018-01-18 FTR Labs Pty Ltd Method and system for automatically diarising a sound recording

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2105034C (en) * 1992-10-09 1997-12-30 Biing-Hwang Juang Speaker verification with cohort normalized scoring
US5664059A (en) * 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
JPH08110792A (ja) * 1994-10-12 1996-04-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者適応化装置及び音声認識装置
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5790758A (en) * 1995-07-07 1998-08-04 The United States Of America As Represented By The Secretary Of The Navy Neural network architecture for gaussian components of a mixture density function
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification
US6212498B1 (en) * 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6009390A (en) * 1997-09-11 1999-12-28 Lucent Technologies Inc. Technique for selective use of Gaussian kernels and mixture component weights of tied-mixture hidden Markov models for speech recognition
US5946656A (en) * 1997-11-17 1999-08-31 At & T Corp. Speech and speaker recognition using factor analysis to model covariance structure of mixture components
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6411930B1 (en) * 1998-11-18 2002-06-25 Lucent Technologies Inc. Discriminative gaussian mixture models for speaker verification
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
US6954745B2 (en) * 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US6754628B1 (en) * 2000-06-13 2004-06-22 International Business Machines Corporation Speaker recognition using cohort-specific feature transforms

Also Published As

Publication number Publication date
US20060253284A1 (en) 2006-11-09
EP1639579A1 (fr) 2006-03-29
AU2003267504A1 (en) 2005-02-25
KR101011713B1 (ko) 2011-01-28
JP2007514959A (ja) 2007-06-07
WO2005015547A1 (fr) 2005-02-17
US7539617B2 (en) 2009-05-26
KR20060041208A (ko) 2006-05-11
JP4652232B2 (ja) 2011-03-16

Similar Documents

Publication Publication Date Title
US7539616B2 (en) Speaker authentication using adapted background models
CN111243602B (zh) 基于性别、国籍和情感信息的声纹识别方法
US7266494B2 (en) Method and apparatus for identifying noise environments from noisy signals
US20050044053A1 (en) Method and apparatus for object identification, classification or verification
US9002706B2 (en) Cut and paste spoofing detection using dynamic time warping
CN1162839C (zh) 产生声学模型的方法和装置
CN1726532A (zh) 基于传感器的语音识别器选择、自适应和组合
CN1662955A (zh) 借助压缩分配和定域格式存取的大词汇量语音识别的模式匹配
US20100057452A1 (en) Speech interfaces
CN1301379A (zh) 语音识别系统的动态可配置声模型
CN1280783C (zh) 声音识别装置和声音识别方法
CN101076851A (zh) 口语识别系统以及用于训练和操作该系统的方法
US20130253931A1 (en) Modeling device and method for speaker recognition, and speaker recognition system
CN1802695A (zh) 用于分析音源压缩表示的声音信号的方法及系统
Ntalampiras et al. Automatic recognition of urban soundscenes
CN1514432A (zh) 语音处理中基于高斯模型的动态时间弯曲系统和方法
CN110232928B (zh) 文本无关说话人验证方法和装置
Fathan et al. Mel-spectrogram image-based end-to-end audio deepfake detection under channel-mismatched conditions
CN1787077A (zh) 基于锚模型空间投影序数比较的快速说话人确认方法
CN101053020A (zh) 利用信号属性的有效音频编码
KR102415519B1 (ko) 인공지능 음성의 컴퓨팅 탐지 장치
CN1183511C (zh) 用于识别语音的方法
Gupta et al. Speech Recognition Using Correlation Technique
Martínez et al. Fast parallel audio fingerprinting implementation in reconfigurable hardware and GPUs
CN1209743C (zh) 使用音调建模的话音识别系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20060712