CN103562993A - 说话人识别方法及设备 - Google Patents
说话人识别方法及设备 Download PDFInfo
- Publication number
- CN103562993A CN103562993A CN201180003380.9A CN201180003380A CN103562993A CN 103562993 A CN103562993 A CN 103562993A CN 201180003380 A CN201180003380 A CN 201180003380A CN 103562993 A CN103562993 A CN 103562993A
- Authority
- CN
- China
- Prior art keywords
- gmm
- characteristic parameter
- tested speech
- vector
- scoring function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 104
- 238000012549 training Methods 0.000 claims description 22
- 239000002131 composite material Substances 0.000 claims description 10
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 41
- 238000005516 engineering process Methods 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供一种说话人识别方法及设备。本发明通过采用SVM对得分函数中的第一向量(即权重向量)进行可鉴别性的重新估计,使得测试语音的特征参数的识别结果更加准确,从而提高了说话人识别的可鉴别性。
Description
说话人识别方法及设备
技术领域 本发明涉及说话人识别技术, 尤其涉及一种说话人识别方法及设备。 背景技术
声纹识别技术也称说话人识别技术, 是根据语音对说话人进行区别, 用 以进行说话人身份鉴别的技术。 一般来说, 说话人识别技术主要包括目标说 话人模型注册和测量得分, 使得根据获得的分数得出识别结果。 例如: 在基 于高斯混合模型 (Gaussian Mixture Model , 简称 GMM ) -通用背景模型 ( Universal Background Model, 简称 UBM ) 的系统中, 首先, 利用 UBM 和目标说话人的 GMM, 获得测试语音的特征参数基于对数似然比的得分函 数; 然后, 将测试语音的特征参数作为得分函数的输入, 获得对应的说话人 分数; 如果上述分数高于一个预先设置的门限值, 则识别结果为真(True ); 如果上述分数低于上述预先设置的门限值, 则识别结果为假(False ) 。
然而, 上述现有技术中的说话人识别方法的可鉴别性较低。 发明内容
本发明实施例提供一种说话人识别方法及设备, 用以提高可鉴别性。 —方面提供了一种说话人识别方法, 包括:
利用测试语音的特征参数、第一 GMM和第二 GMM,获得所述测试语音 的特征参数的第一得分函数, 所述第一得分函数为所述测试语音的特征参数 在所述第一 GMM上的第一似然概率的对数与所述测试语音的特征参数在所 述第二 GMM上的第二似然概率的对数的差值;
利用所述测试语音的特征参数和第三 GMM,获得所述测试语音的特征参 数在所述第三 GMM上的第三似然概率, 所述第三 GMM 由所述第一 GMM 和所述第二 GMM构成;
根据所述第一得分函数和所述第三似然概率, 获得所述测试语音的特征 参数的第二得分函数, 所述第二得分函数等于第一向量与第二向量的内积,
所述第一向量为一个元素全为 1 的向量, 所述第二向量为所述测试语音的特 征参数在所述第一 GMM和所述第二 GMM上的平均后验概率差值向量; 利用训练识别对的第二向量, 并通过 SVM, 对所述第一向量进行重新估 计, 获得第三向量, 并获得所述测试语音的特征参数的第三得分函数, 以便 将测试语音的特征参数作为输入, 获得对应的说话人分数, 所述第三得分函 数等于所述第三向量与所述第二向量的内积。
另一方面提供了一种说话人识别设备, 包括:
第一获得单元,用于利用测试语音的特征参数、第一 GMM和第二 GMM, 获得所述测试语音的特征参数的第一得分函数, 所述第一得分函数为所述测 试语音的特征参数在所述第一 GMM上的第一似然概率的对数与所述测试语 音的特征参数在所述第二 GMM上的第二似然概率的对数的差值;
第二获得单元,用于利用所述测试语音的特征参数和第三 GMM,获得所 述测试语音的特征参数在所述第三 GMM上的第三似然概率,所述第三 GMM 由所述第一 GMM和所述第二 GMM构成;
第三获得单元, 用于根据所述第一得分函数和所述第三似然概率, 获得 所述测试语音的特征参数的第二得分函数, 所述第二得分函数等于第一向量 与第二向量的内积, 所述第一向量为一个元素全为 1 的向量, 所述第二向量 为所述测试语音的特征参数在所述第一 GMM和所述第二 GMM上的平均后 验概率差值向量;
第四获得单元, 用于利用训练识别对的第二向量, 并通过 SVM, 对所述 第一向量进行重新估计, 获得第三向量, 并获得所述测试语音的特征参数的 第三得分函数, 以便将测试语音的特征参数作为输入, 获得对应的说话人分 数, 所述第三得分函数等于所述第三向量与所述第二向量的内积。
由上述技术方案可知,本发明实施例通过采用 SVM对得分函数中的第一 向量(即权重向量)进行可鉴别性的重新估计, 使得测试语音的特征参数的 识别结果更加准确, 从而提高了说话人识别的可鉴别性。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实 施例或现有技术描述中所需要使用的附图作一简单地介绍, 显而易见地, 下
面描述中的附图是本发明的一些实施例, 对于本领域普通技术人员来讲, 在 不付出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。
图 1为本发明一实施例提供的说话人识别方法的流程示意图;
图 2为本发明另一实施例提供的说话人识别设备的结构示意图。 具体实施方式 为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发 明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例, 都属于本发明保护的范围。
图 1为本发明一实施例提供的说话人识别方法的流程示意图, 如图 1所 示, 本实施例的说话人识别方法可以包括:
101、 利用测试语音的特征参数、 第一 GMM和第二 GMM, 获得上述测 试语音的特征参数的第一得分函数, 上述第一得分函数为上述测试语音的特 征参数在上述第一 GMM上的第一似然概率的对数与上述测试语音的特征参 数在上述第二 GMM上的第二似然概率的对数的差值;
其中, 测试语音(即每个人)的特征参数与其他人都不同, 具有唯一性, 不易伪造和假冒。
102、 利用上述测试语音的特征参数和第三 GMM, 获得上述测试语音的 特征参数在上述第三 GMM上的第三似然概率, 上述第三 GMM由上述第一 GMM和上述第二 GMM构成;
103、根据上述第一得分函数和上述第三似然概率,获得上述测试语音的 特征参数的第二得分函数, 上述第二得分函数等于第一向量与第二向量的内 积, 上述第一向量(即权重向量) 为一个元素全为 1 的向量, 上述第二向量 为上述测试语音的特征参数在上述第一 GMM和上述第二 GMM上的平均后 验概率差值向量;
104、 利用训练识别对的第二向量, 并通过 SVM, 对上述第一向量进行 重新估计, 获得第三向量, 并获得上述测试语音的特征参数的第三得分函数, 以便将测试语音的特征参数作为输入, 获得对应的说话人分数, 上述第三得
分函数等于上述第三向量与上述第二向量的内积。
在本实施例的一个应用场景中, 上述第一 GMM 可以为目标说话人的 GMM , 上述第二 GMM可以为 UBM; 或者上述第一 GMM可以为 UBM, 上 述第二 GMM可以为目标说话人的 GMM。首先,可以利用测试语音的特征参 数、 UBM和目标说话人的 GMM, 获得上述测试语音的特征参数的第一得分 函数, 上述第一得分函数为上述测试语音的特征参数在目标说话人的 GMM 上的第一似然概率的对数与上述测试语音的特征参数在 UBM 上的第二似然 概率
其中, 为测试语音的特征参数, r为测试语音的特征参数的总个数; s为 目标说话人的 GMM; 为测试语音的特征参数在目标说话人的 GMM上的 似然概率; m为 UBM; p (ot \m)为测试语音的特征参数在 UBM上的似然概率。
然后, 则可以利用上述测试语音的特征参数、 以及 UBM 和目标说话人 的 GMM构成的组合目标说话人的 GMM ,获得上述测试语音的特征参数在上 述组合目标说话人的 GMM上的第三似然概率, 即:
其中, ;^ | /;)为测试语音的特征参数在组合目标说话人的 GMM上的似 然概率。
对于一个测试语音的特征参数与一个目标说话人模型构成的识别对 ( Trial ) 来说, 获得的分数越大, 识别结果被判决为真(True ) 的概率就越 大; 反之, 获得的分数越小, 识别结果被判决为假(False ) 的概率就越大。 在没有先验的情况下, 被判决为真和假的概率是相同的, 因此可以令
= p (m) = Q.5。
对于公式(3 )利用二阶泰勒级数展开即 log x = x - l进行近似, 去掉不影响
识别结果的常 则公式(3)可以简化为:
其中, 公式(4)可以表示成 与/ 的内积。 其中, 为一个元素全为
1 的向量, 即: = [l,...,lf ; /^/;;)为上述测试语音的特征参数在 UBM和目标 说话人的 GMM上的平均后验概率差值向量, 可以称之为识别对信息向量, 即: W = [ …, ,
其中, φ
实际上, =[1,...,1]'可以看作是一个权重向量, 由于该权重向量对于目 标说话人的 GMM与 UBM中的每个高斯分量来说,对应的权重都是相等的, 所以会影响识别结果的可鉴别性。 因此, 可以通过如下方式, 对上述权重向 量即 进行重新估计, 用以提高可鉴别性。
首先, 假设一个训练集来训练权重向量; 其中, 识别结果被判决为真 (True) 的训练识别对(即一个测试语音的特征参数与一个目标说话人模型 构成的识别对) 为 {x,}, i = \,..., N 识别结果被判决为假(False) 的训练识 别对(即一个测试语音的特征参数与一个目标说话人模型构成的识别对) 为
{y,}, i = ..., N2 , 则上述训练识别对的识别对信息向量则为 和 6(3,)。
然后, 利用训练识别对的识别对信息向量则为 ^χ,)和 6(3,), 并通过支持 向量机(Support Vector Machine, 简称 SVM) , 获得重新估计之后的权重 向量, 即:
其中, /为支持向量的个数; δ,.为 -1或者 +1, 由训练识别对的类别来决定, 为支持向量的权重; V,为支持向量; )=μο,...,ο]'。
其中, SVM 可以采用线性核函数或广义线性区分序列 (Generalized linear discriminant sequence, 简称 GLDS )核函数等。
最后, 可以将公式 (6) 代入公式 (4) 中, 可以得到:
至此, 可以将测试语音的特征参数作为输入, 获得对应的说话人分数, 使得能够根据获得的分数得出识别结果(真或假) 。
本实施例中, 通过采用 SVM对得分函数中的第一向量(即权重向量)进 行可鉴别性的重新估计, 使得测试语音的特征参数的识别结果更加准确, 从 而提高了说话人识别的可鉴别性。
需要说明的是: 对于前述的方法实施例, 为了简单描述, 故将其表述为 一系列的动作组合, 但是本领域技术人员应该知悉, 本发明并不受所描述的 动作顺序的限制, 因为依据本发明, 某些步骤可以采用其他顺序或者同时进 行。 其次, 本领域技术人员也应该知悉, 说明书中所描述的实施例均属于优 选实施例, 所涉及的动作和模块并不一定是本发明所必须的。
图 2为本发明另一实施例提供的说话人识别设备的结构示意图, 如图 2 所示, 本实施例的说话人识别设备可以包括第一获得单元 21、 第二获得单元 22、 第三获得单元 23和第四获得单元 24。 其中, 第一获得单元 21用于利用 测试语音的特征参数、第一 GMM和第二 GMM,获得上述测试语音的特征参 数的第一得分函数, 上述第一得分函数为上述测试语音的特征参数在上述第 一 GMM 上的第一似然概率的对数与上述测试语音的特征参数在上述第二 GMM上的第二似然概率的对数的差值; 第二获得单元 22用于利用上述测试 语音的特征参数和第三 GMM , 获得上述测试语音的特征参数在上述第三 GMM上的第三似然概率,上述第三 GMM由上述第一 GMM和上述第二 GMM 构成; 第三获得单元 23用于根据上述第一得分函数和上述第三似然概率,获 得上述测试语音的特征参数的第二得分函数, 上述第二得分函数等于第一向 量与第二向量的内积, 上述第一向量为一个元素全为 1 的向量, 上述第二向 量为上述测试语音的特征参数在上述第一 GMM和上述第二 GMM上的平均 后验概率差值向量; 第四获得单元 24用于利用训练识别对的第二向量, 并通 过 SVM, 对上述第一向量进行重新估计, 获得第三向量, 并获得上述测试语 音的特征参数的第三得分函数, 以便将测试语音的特征参数作为输入, 获得
对应的说话人分数, 上述第三得分函数等于上述第三向量与上述第二向量的 内积。
上述图 1对应的实施例中方法可以由本实施例提供的说话人识别设备实现。 在本实施例的一个应用场景中, 上述第一 GMM 可以为目标说话人的 GMM , 上述第二 GMM可以为 UBM; 或者上述第一 GMM可以为 UBM, 上 述第二 GMM可以为目标说话人的 GMM。
例如: 本实施例中第一获得单元 21具体可以用于
利用测试语音的特征参数、 UBM和目标说话人的 GMM, 获得上述测试 语音的特征参数的第一得分函数公式( 1 ) , 即:
( 1 )
其中, 为测试语音的特征参数, Γ为测试语音的特征参数的总个数; s为 目标说话人的 GMM; 为测试语音的特征参数在目标说话人的 GMM上的 似然概率; m为 UBM; p (ot \m)为测试语音的特征参数在 UBM上的似然概率。
例如: 本实施例中第二获得单元 22具体可以用于
利用上述测试语音的特征参数、以及 UBM和目标说话人的 GMM构成的 组合目标说话人的 GMM,获得上述测试语音的特征参数在上述组合目标说话 人的 GMM上的似然概率, 即:
其中, 为测试语音的特征参数在组合目标说话人的 GMM上的似 然概率。
例如: 本实施例中第三获得单元 23具体可以用于
将 ^) = p( ) = 0.5和公式 (2 ) , 代入公式 (1 ) 中, 得到公式 (3 ) , 即:
利用二阶泰勒级数展开, 对公式(3 )进行简化, 获得上述测试语音的特 征参数的第二得分函数公式(4 ) , 即:
Score =
其中, '为一个元素全为 1的向量, 即: v'=[l,...,l了; 为上述测试语 音的特征参数在 UBM和目标说话人的 GMM上的平均后验概率差值向量,可 以称之为识别对信息向量, 即: 6(;7;)=[ ..., φ^-,
其中, ( 5 )
例如: 本实施例中第四获得单元 24具体可以用于
利用识别结果被判决为真的训练识别对 {χ, }, i = \,..., 的识别对信息向 量 和识别结果被判决为假的训练识别对 i = ..., N2的识别对信息向 量 6( ), 并通过支持向量机 SVM, 获得重新估计之后的 即:
( I
W (6) 其中, /为支持向量的个数, δ,.为 -1或者 +1, 由训练识别对的类别来决定, ζ,.为支持向量的权重, V,.为支持向量; Ζ) = [ί,0,...,0]'。
将公式 (6) 代入公式 (4) 中, 得到上述测试语音的特征参数的第三 得分函数公式(7) , 即:
至此, 可以将测试语音的特征参数作为输入, 获得对应的说话人分数, 使得能够根据获得的分数得出识别结果(真或假) 。
本实施例中,通过第四获得单元采用 SVM对得分函数中的第一向量(即 权重向量)进行可鉴别性的重新估计, 使得测试语音的特征参数的识别结果 更加准确, 从而提高了说话人识别的可鉴别性。
所属领域的技术人员可以清楚地了解到, 为描述的方便和简洁, 上述描 述的装置和单元的具体工作过程, 可以参考前述方法实施例中的对应过程,
在此不再赘述。
在本申请所提供的实施例中, 应该理解到, 所揭露的装置和方法, 可以 通过其它的方式实现。 例如, 以上所描述的装置实施例仅仅是示意性的, 例 如, 上述单元的划分, 仅仅为一种逻辑功能划分, 实际实现时可以有另外的 划分方式, 例如多个单元或组件可以结合或者可以集成到另一个系统, 或一 些特征可以忽略, 或不执行。 另一点, 所显示或讨论的相互之间的耦合或直 接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接, 可以是电性, 机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作 为单元显示的部件可以是或者也可以不是物理单元, 即可以位于一个地方, 或者也可以分布到多个网络单元上。 可以根据实际的需要选择其中的部分或 者全部单元来实现本实施例方案的目的。
另外 ,在本发明各个实施例中的各功能单元可以集成在一个处理单元中 , 也可以是各个单元单独物理存在, 也可以两个或两个以上单元集成在一个单 元中。 上述集成的单元既可以采用硬件的形式实现, 也可以采用硬件加软件 功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元, 可以存储在一个计算机 可读取存储介质中。 上述软件功能单元存储在一个存储介质中, 包括若干指 令用以使得一台计算机设备(可以是个人计算机, 服务器, 或者网络设备等) 执行本发明各个实施例上述方法的部分步骤。 而前述的存储介质包括: U盘、 移动硬盘、 只读存储器(Read-Only Memory, 简称 ROM ) 、 随机存取存储 器( Random Access Memory, 简称 RAM )、 磁碟或者光盘等各种可以存储 程序代码的介质。
最后应说明的是: 以上实施例仅用以说明本发明的技术方案, 而非对其 限制; 尽管参照前述实施例对本发明进行了详细的说明, 本领域的普通技术 人员应当理解: 其依然可以对前述各实施例所记载的技术方案进行修改, 或 者对其中部分技术特征进行等同替换; 而这些修改或者替换, 并不使相应技 术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (1)
- 权 利 要求 书1、 一种说话人识别方法, 其特征在于, 包括:利用测试语音的特征参数、第一高斯混合模型 GMM和第二 GMM,获得 所述测试语音的特征参数的第一得分函数, 所述第一得分函数为所述测试语 音的特征参数在所述第一 GMM上的第一似然概率的对数与所述测试语音的 特征参数在所述第二 GMM上的第二似然概率的对数的差值;利用所述测试语音的特征参数和第三 GMM,获得所述测试语音的特征参 数在所述第三 GMM上的第三似然概率, 所述第三 GMM 由所述第一 GMM 和所述第二 GMM构成;根据所述第一得分函数和所述第三似然概率, 获得所述测试语音的特征 参数的第二得分函数, 所述第二得分函数等于第一向量与第二向量的内积, 所述第一向量为一个元素全为 1 的向量, 所述第二向量为所述测试语音的特 征参数在所述第一 GMM和所述第二 GMM上的平均后验概率差值向量; 利用训练识别对的第二向量, 并通过支持向量机 SVM, 对所述第一向量 进行重新估计, 获得第三向量, 并获得所述测试语音的特征参数的第三得分 函数, 以便将测试语音的特征参数作为输入, 获得对应的说话人分数, 所述 第三得分函数等于所述第三向量与所述第二向量的内积。2、 根据权利要求 1所述的方法, 其特征在于, 所述第一 GMM或者所述 第二 GMM为通用背景模型 UBM。3、 根据权利要求 2所述的方法, 其特征在于, 所述利用测试语音的特征 参数、第一高斯混合模型 GMM和第二 GMM,获得所述测试语音的特征参数 的第一得分函数, 具体为:利用测试语音的特征参数、 UBM和目标说话人的 GMM, 获得所述测试 语音的特征参数的第一得分函数:( 1 ) 其中, 为测试语音的特征参数, Γ为测试语音的特征参数的总个数; s 为目标说话人的 GMM; P (ot \s)为测试语音的特征参数在目标说话人的 GMM 上的似然概率; w为 UBM; 为测试语音的特征参数在 UBM上的似然 概率。 4、根据权利要求 2或 3所述的方法, 其特征在于, 所述利用所述测试语 音的特征参数和第三 GMM, 获得所述测试语音的特征参数在所述第三 GMM 上的第三似然概率, 具体为:利用所述测试语音的特征参数、以及 UBM和目标说话人的 GMM构成的 组合目标说话人的 GMM,获得所述测试语音的特征参数在所述组合目标说话 人的 GMM上的似然概率:p(ot + p(ot \m)p(m) ( 2 ) 其中, 为测试语音的特征参数在组合目标说话人的 GMM上的似 然概率。5、 根据权利要求 4所述的方法, 其特征在于, 所述根据所述第一得分函 数和所述第三似然概率, 获得所述测试语音的特征参数的第二得分函数, 具 体为:(3); 利用二阶泰勒级数展开, 对公式(3)进行简化, 获得所述测试语音的特 征 其中, '为一个元素全为 1 的向量; 6(/7;)为所述测试语音的特征参数在UBM和目 后验概率差值向量: 6(;7;)=[ ..., φε]·, 其中, (5);6、 根据权利要求 5所述的方法, 其特征在于, 所述利用训练识别对的第 二向量, 并通过 SVM, 对所述第一向量进行重新估计, 获得第三向量, 并获 得所述测试语音的特征参数的第三得分函数, 具体为:利用识别结果被判决为真的训练识别对 {x, }, i = \,..., 的识别对信息向 量 和识别结果被判决为假的训练识别对 { ψ = !, ..., Ν2的识别对信息向 量 6 获得重新估计之后的 κ :的个数, δ,.为 -1或者 + 1 , 由训练识别对的类别来决定, ζ,.为支持向量的权重, ν,.为支持向量; Ζ) = [ί,0,...,0]' ;将公式 (6 ) 代入公式 (4 ) 中, 得到所述测试语音的特征参数的第三 得分7、 一种说话人识别设备, 其特征在于, 包括:第一获得单元,用于利用测试语音的特征参数、第一高斯混合模型 GMM 和第二 GMM,获得所述测试语音的特征参数的第一得分函数,所述第一得分 函数为所述测试语音的特征参数在所述第一 GMM上的第一似然概率的对数 与所述测试语音的特征参数在所述第二 GMM上的第二似然概率的对数的差 值;第二获得单元,用于利用所述测试语音的特征参数和第三 GMM ,获得所 述测试语音的特征参数在所述第三 GMM上的第三似然概率,所述第三 GMM 由所述第一 GMM和所述第二 GMM构成;第三获得单元, 用于根据所述第一得分函数和所述第三似然概率, 获得 所述测试语音的特征参数的第二得分函数 , 所述第二得分函数等于第一向量 与第二向量的内积, 所述第一向量为一个元素全为 1 的向量, 所述第二向量 为所述测试语音的特征参数在所述第一 GMM和所述第二 GMM上的平均后 验概率差值向量;第四获得单元, 用于利用训练识别对的第二向量, 并通过支持向量机 SVM , 对所述第一向量进行重新估计, 获得第三向量, 并获得所述测试语音 的特征参数的第三得分函数, 以便将测试语音的特征参数作为输入, 获得对 应的说话人分数, 所述第三得分函数等于所述第三向量与所述第二向量的内 积。 8、 根据权利要求 7所述的设备, 其特征在于, 所述第一 GMM或者所述 第二 GMM为通用背景模型 UBM。9、 根据权利要求 8所述的设备, 其特征在于, 所述第一获得单元具体用 于利用测试语音的特征参数、 UBM和目标说话人的 GMM, 获得所述测试 语音 一得分函数: 其中, 为测试语音的特征参数, r为测试语音的特征参数的总个数; s 为目标说话人的 GMM; P(ot \s)为测试语音的特征参数在目标说话人的 GMM 上的似然概率; w为 UBM; 为测试语音的特征参数在 UBM上的似然 概率。10、 根据权利要求 8或 9所述的设备, 其特征在于, 所述第二获得单元 具体用于利用所述测试语音的特征参数、以及 UBM和目标说话人的 GMM构成的 组合目标说话人的 GMM,获得所述测试语音的特征参数在所述组合目标说话 人的 GMM上的似然概率:其中, 为测试语音的特征参数在组合目标说话人的 GMM上的似 然概率。11、 根据权利要求 10 所述的设备, 其特征在于, 所述第三获得单元具 体用于利用二阶泰勒级数展开, 对公式(3 )进行简化, 获得所述测试语音的特 征参数的第二得分函数: 其中, '为一个元素全为 1 的向量; 6(/7;)为所述测试语音的特征参数在UBM和目标其中 , φ12、 根据权利要求 11 所述的设备, 其特征在于, 所述第四获得单元具 体用于利用识别结果被判决为真的训练识别对 {x, }, i = \,..., 的识别对信息向 量 和识别结果被判决为假的训练识别对 i = ..., N2的识别对信息向 量 6( ), 并通过 SVM, 获得重新估计之后的 κ :( IW (6) 其中, /为支持向量的个数, δ,.为 -1或者 +1, 由训练识别对的类别来决定, ζ,.为支持向量的权重, ν,.为支持向量; Ζ) = [ί,0,...,0]' ;将公式 (6) 代入公式 (4) 中, 得到所述测试语音的特征参数的第三 得分函数:
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2011/084121 WO2013086736A1 (zh) | 2011-12-16 | 2011-12-16 | 说话人识别方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103562993A true CN103562993A (zh) | 2014-02-05 |
CN103562993B CN103562993B (zh) | 2015-05-27 |
Family
ID=48611835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180003380.9A Active CN103562993B (zh) | 2011-12-16 | 2011-12-16 | 说话人识别方法及设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9142210B2 (zh) |
CN (1) | CN103562993B (zh) |
WO (1) | WO2013086736A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091340A (zh) * | 2016-11-22 | 2018-05-29 | 北京京东尚科信息技术有限公司 | 声纹识别方法和声纹识别系统 |
CN108140386A (zh) * | 2016-07-15 | 2018-06-08 | 谷歌有限责任公司 | 说话者验证 |
CN109429523A (zh) * | 2017-06-13 | 2019-03-05 | 北京嘀嘀无限科技发展有限公司 | 说话者确认方法、装置及系统 |
CN110265035A (zh) * | 2019-04-25 | 2019-09-20 | 武汉大晟极科技有限公司 | 一种基于深度学习的说话人识别方法 |
WO2021139589A1 (zh) * | 2020-01-10 | 2021-07-15 | 华为技术有限公司 | 一种语音处理方法、介质及系统 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103562993B (zh) * | 2011-12-16 | 2015-05-27 | 华为技术有限公司 | 说话人识别方法及设备 |
CN103677729B (zh) * | 2013-12-18 | 2017-02-08 | 北京搜狗科技发展有限公司 | 一种语音输入方法和系统 |
WO2016095218A1 (en) * | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
CN111145737B (zh) * | 2018-11-06 | 2022-07-01 | 中移(杭州)信息技术有限公司 | 语音测试方法、装置和电子设备 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
US11043218B1 (en) * | 2019-06-26 | 2021-06-22 | Amazon Technologies, Inc. | Wakeword and acoustic event detection |
US11132990B1 (en) * | 2019-06-26 | 2021-09-28 | Amazon Technologies, Inc. | Wakeword and acoustic event detection |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004112001A1 (en) * | 2003-06-19 | 2004-12-23 | Kwangwoon Foundation | Gmm incremental robust adaptation with forgetting factor for speaker verification |
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN102034472A (zh) * | 2009-09-28 | 2011-04-27 | 戴红霞 | 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005055200A1 (en) * | 2003-12-05 | 2005-06-16 | Queensland University Of Technology | Model adaptation system and method for speaker recognition |
US20080010065A1 (en) * | 2006-06-05 | 2008-01-10 | Harry Bratt | Method and apparatus for speaker recognition |
CN103562993B (zh) * | 2011-12-16 | 2015-05-27 | 华为技术有限公司 | 说话人识别方法及设备 |
-
2011
- 2011-12-16 CN CN201180003380.9A patent/CN103562993B/zh active Active
- 2011-12-16 WO PCT/CN2011/084121 patent/WO2013086736A1/zh active Application Filing
-
2013
- 2013-12-31 US US14/145,318 patent/US9142210B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004112001A1 (en) * | 2003-06-19 | 2004-12-23 | Kwangwoon Foundation | Gmm incremental robust adaptation with forgetting factor for speaker verification |
CN102034472A (zh) * | 2009-09-28 | 2011-04-27 | 戴红霞 | 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法 |
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
Non-Patent Citations (1)
Title |
---|
陈黎等: "基于SVM-GMM的开集说话人识别方法", 《计算机工程》, vol. 37, no. 14, 31 July 2011 (2011-07-31) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108140386A (zh) * | 2016-07-15 | 2018-06-08 | 谷歌有限责任公司 | 说话者验证 |
CN108140386B (zh) * | 2016-07-15 | 2021-11-23 | 谷歌有限责任公司 | 说话者验证 |
CN108091340A (zh) * | 2016-11-22 | 2018-05-29 | 北京京东尚科信息技术有限公司 | 声纹识别方法和声纹识别系统 |
WO2018095167A1 (zh) * | 2016-11-22 | 2018-05-31 | 北京京东尚科信息技术有限公司 | 声纹识别方法和声纹识别系统 |
CN108091340B (zh) * | 2016-11-22 | 2020-11-03 | 北京京东尚科信息技术有限公司 | 声纹识别方法、声纹识别系统和计算机可读存储介质 |
CN109429523A (zh) * | 2017-06-13 | 2019-03-05 | 北京嘀嘀无限科技发展有限公司 | 说话者确认方法、装置及系统 |
CN110265035A (zh) * | 2019-04-25 | 2019-09-20 | 武汉大晟极科技有限公司 | 一种基于深度学习的说话人识别方法 |
CN110265035B (zh) * | 2019-04-25 | 2021-08-06 | 武汉大晟极科技有限公司 | 一种基于深度学习的说话人识别方法 |
WO2021139589A1 (zh) * | 2020-01-10 | 2021-07-15 | 华为技术有限公司 | 一种语音处理方法、介质及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20140114660A1 (en) | 2014-04-24 |
CN103562993B (zh) | 2015-05-27 |
US9142210B2 (en) | 2015-09-22 |
WO2013086736A1 (zh) | 2013-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103562993A (zh) | 说话人识别方法及设备 | |
CN107609466A (zh) | 人脸聚类方法、装置、设备及存储介质 | |
CN105261367A (zh) | 一种说话人识别方法 | |
CN110111113B (zh) | 一种异常交易节点的检测方法及装置 | |
CN107544726A (zh) | 基于人工智能的语音识别结果纠错方法、装置及存储介质 | |
WO2017040632A4 (en) | Event categorization and key prospect identification from storylines | |
CN107026831A (zh) | 一种身份识别方法和装置 | |
CN103399896A (zh) | 识别用户间关联关系的方法及系统 | |
CN106782604A (zh) | 语音消息的处理方法、装置及其电子设备 | |
CN103279746B (zh) | 一种基于支持向量机的人脸识别方法及系统 | |
CN111627423B (zh) | Vad尾点检测方法、装置、服务器和计算机可读介质 | |
CN105022754A (zh) | 基于社交网络的对象分类方法及装置 | |
CN102890777B (zh) | 可识别面部表情的电脑系统 | |
CN108091326A (zh) | 一种基于线性回归的声纹识别方法及系统 | |
CN106022208A (zh) | 人体动作识别方法及装置 | |
CN110046941A (zh) | 一种人脸识别方法、系统及电子设备和存储介质 | |
CN101452704B (zh) | 一种基于信息传递的说话人聚类方法 | |
CN105450412B (zh) | 身份认证方法及装置 | |
CN111274390B (zh) | 一种基于对话数据的情感原因确定方法及装置 | |
CN102509548B (zh) | 一种基于多距离声传感器的音频索引方法 | |
CN109088788A (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN102411712A (zh) | 基于笔迹的身份识别的方法及终端 | |
CN103810210B (zh) | 搜索结果显示方法及装置 | |
Zhang et al. | Topic detection based on K-means | |
CN106651564B (zh) | 一种目标客户获取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |