CN108417226A - 语音对比方法、终端及计算机可读存储介质 - Google Patents
语音对比方法、终端及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108417226A CN108417226A CN201810019441.4A CN201810019441A CN108417226A CN 108417226 A CN108417226 A CN 108417226A CN 201810019441 A CN201810019441 A CN 201810019441A CN 108417226 A CN108417226 A CN 108417226A
- Authority
- CN
- China
- Prior art keywords
- vector
- voice
- speech
- fisrt feature
- feature speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 205
- 238000012795 verification Methods 0.000 claims abstract description 71
- 239000011159 matrix material Substances 0.000 claims description 31
- 239000000203 mixture Substances 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 10
- 230000001755 vocal effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音对比方法,应用于终端,包括步骤:计算注册语音的第一特征语音向量;利用K‑means聚类将所述第一特征语音向量聚类为K类;获取K类中每一类的质心,所述质心为所述质心所属类中的一个第一特征语音向量;获取用户的验证语音并计算所述验证语音的第二特征语音向量;将所述第二特征语音向量分别与所述每一类的质心进行比对;根据比对结果判断所述验证语音所属的类别;当判断出所述验证语音所属的类别后,将所述第二特征语音向量分别与所述验证语音所属的类别中的所有所述第一特征语音向量进行比对;输出比对结果。本发明还提供一种终端及计算机可读存储介质。本发明通过上述方式,大幅度减少计算时间,使终端能够实时返回结果。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种语音对比方法、终端及计算机可读存储介质。
背景技术
随着语音识别技术的不断发展,支持语音识别的应用也越来越多,比如语音开锁,语音支付等等。但在语音识别技术的应用中,其中涉及非常重要的一步就是验证语音与声纹库中N个注册语音的比对。目前传统的语音比对是利用1比N系统,然而1比N系统在识别时,识别语音的i-Vector要和声纹库中的N个语音的i-Vector(特征语音向量)分别进行比对,一共要有N次计算,耗费大量时间,导致比对效率低下,进而不利于语音识别技术的普及和应用。
发明内容
有鉴于此,本发明提出一种语音对比方法、终端及计算机可读存储介质,通过实施上述方式,可以克服现有声纹系统在识别时要和声纹库中的N个人分别进行比对,耗费大量时间的弊端,进而提升语音识别的效率,促进语音识别技术的普及和产业化发展。
首先,为实现上述目的,本发明提出一种终端,所述移动终端包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的语音对比程序,所述语音对比程序被所述处理器执行时实现如下步骤:计算注册语音的第一特征语音向量;利用K-means聚类将所述第一特征语音向量聚类为K类;获取K类中每一类的质心,所述质心为所述质心所属类中的一个第一特征语音向量;获取用户的验证语音并计算所述验证语音的第二特征语音向量;将所述第二特征语音向量分别与所述每一类的质心进行比对;根据比对结果判断所述验证语音所属的类别;当判断出所述验证语音所属的类别后,将所述第二特征语音向量分别与所述验证语音所属的类别中的所有所述第一特征语音向量进行比对;输出比对结果。
可选地,所述处理器在执行所述计算注册语音的第一特征语音向量的步骤时,具体执行如下步骤:使用MFCC方法提取所述注册语音中每帧语音的MFCC特征并组成第一矩阵;使用UBM通用背景模型和语音向量提取器筛选出所述第一矩阵中最核心的特征,组成所述第一特征语音向量;所述计算所述验证语音的第二特征语音向量的步骤时,具体执行如下步骤:使用MFCC方法分别提取所述验证语音中每帧语音的MFCC特征并组成第二矩阵;使用UBM通用背景模型和语音向量提取器筛选出所述第二矩阵中最核心的特征,组成所述第二特征语音向量。
可选地,所述处理器还用于在执行所述利用K-means聚类将所述第一特征语音向量聚类为K类的步骤时,具体执行如下步骤:从所述第一特征语音向量中选出K个所述第一特征语音向量作为K-means聚类的样本;以所述K-means聚类的样本中K个所述第一特征语音向量为聚类中心;将所有所述第一特征语音向量中与任何一个所述聚类中心距离最近的所述第一特征向量聚为一类,进而将所有所述第一特征语音向量聚类为K类。
可选地,所述处理器在执行所述将所述第二特征语音向量分别与所述每一类的质心进行比对的步骤时,具体执行如下步骤:利用向量点积算法和PLDA算法对所述第二特征语音向量和所述每一类的质心进行两两对比打分。
此外,为实现上述目的,本发明还提供一种语音对比方法,应用于终端,所述方法包括:计算注册语音的第一特征语音向量;利用K-means聚类将所述第一特征语音向量聚类为K类;获取K类中每一类的质心,所述质心为所述质心所属类中的一个第一特征语音向量;获取用户的验证语音并计算所述验证语音的第二特征语音向量;将所述第二特征语音向量分别与所述每一类的质心进行比对;根据比对结果判断所述验证语音所属的类别;当判断出所述验证语音所属的类别后,将所述第二特征语音向量分别与所述验证语音所属的类别中的所有所述第一特征语音向量进行比对;输出比对结果。
可选地,所述计算注册语音的第一特征语音向量的步骤具体包括:使用MFCC方法提取所述注册语音中每帧语音的MFCC特征并组成第一矩阵;使用UBM通用背景模型和语音向量提取器筛选出所述第一矩阵中最核心的特征,组成所述第一特征语音向量;所述计算所述验证语音的第二特征语音向量的步骤时,具体执行如下步骤:使用MFCC方法分别提取所述验证语音中每帧语音的MFCC特征并组成第二矩阵;使用UBM通用背景模型和语音向量提取器筛选出所述第二矩阵中最核心的特征,组成所述第二特征语音向量。
可选地,所述利用K-means聚类将所述第一特征语音向量聚类为K类的步骤具体包括:从所述第一特征语音向量中选出K个所述第一特征语音向量作为K-means聚类的样本;以所述K-means聚类的样本中K个所述第一特征语音向量为聚类中心;将所有所述第一特征语音向量中与任何一个所述聚类中心距离最近的所述第一特征向量聚为一类,进而将所有所述第一特征语音向量聚类为K类。
可选的,所述将所述第二特征语音向量分别与所述每一类的质心进行比对的步骤具体包括:利用向量点积算法和PLDA算法对所述第二特征语音向量和所述每一类的质心进行两两对比打分。
可选的,所述根据比对结果判断所述验证语音所属的类别的步骤具体包括:从所述比对结果中选择分数最低的两两对比打分;将所述验证语音归类到分数最低的两两对比打分对应的类别。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有语音对比程序,所述语音对比程序可被至少一个处理器执行,以使所述至少一个处理器执行如上所述的语音对比方法的步骤。
相较于现有技术,本发明所提出的语音对比方法、终端及计算机可读存储介质,首先计算注册语音的第一特征语音向量;然后,利用K-means聚类将所述第一特征语音向量聚类为K类;接着,获取K类中每一类的质心,所述质心为所述质心所属类中的一个第一特征语音向量;以及,获取用户的验证语音并计算所述验证语音的第二特征语音向量;最后,将所述第二特征语音向量分别与所述每一类的质心进行比对,根据比对结果判断所述验证语音所属的类别,当判断出所述验证语音所属的类别后,将所述第二特征语音向量分别与所述验证语音所属的类别中的所有所述第一特征语音向量进行比对,输出比对结果。这样,可以解决现有声纹系统在识别时要和声纹库中的N个人分别进行比对,耗费大量时间的弊端,进而提升语音识别的效率,促进语音识别技术的普及和产业化发展。而且,大幅度减少计算时间,使终端能够实时返回结果。
附图说明
图1是实现本发明各个实施例的一种终端的硬件结构示意图;
图2是本发明实施例提供的一种通信网络系统架构图;
图3是本发明语音对比程序一实施例的程序模块图;
图4为本发明语音对比方法一实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
请参阅图1,其为实现本发明各个实施例的一种终端100的硬件结构示意图,该终端100可以包括:RF(Radio Frequency,射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解,图1中示出的终端100的结构并不构成对终端100的限定,终端100可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
尽管图1未示出,终端100还可以包括蓝牙模块等,在此不再赘述。
为了便于理解本发明实施例,下面对本发明的终端100所基于的通信网络系统进行描述。
请参阅图2,图2为本发明实施例提供的一种通信网络系统架构图,该通信网络系统为通用移动通信技术的LTE系统,该LTE系统包括依次通讯连接的UE(User Equipment,用户设备)201,E-UTRAN(Evolved UMTS Terrestrial Radio Access Network,演进式UMTS陆地无线接入网)202,EPC(Evolved Packet Core,演进式分组核心网)203和运营商的IP业务204。
基于上述终端100硬件结构以及通信网络系统,提出本发明方法各个实施例。
首先,本发明提出一种语音对比程序300,并通过上述图1中所述终端100并结合可能的通信网络执行所述语音对比程序300进行,进而实现相应功能。
参阅图3所示,是本发明语音对比程序300第一实施例的程序模块图。
本实施例中,所述的语音对比程序300包括一系列的存储于存储器109上的计算机程序指令,当该计算机程序指令被处理器110执行时,可以实现本发明各实施例的语音的对比操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,所述语音对比程序300可以被划分为一个或多个模块。例如,在图3中,所述的语音对比程序300可以被分割成计算模块301、聚类模块302、质心获取模块303、比对模块304以及判断模块305。其中:
所述计算模块301,用于计算注册语音的第一特征语音向量。所述注册语音可以通过终端100上的语音输入设备进行获取,比如麦克风,当然也可以通过通信网络从远端的语音获取设备上进行注册语音的获取,本发明对此并不做限定。
在本实施方式中,所述计算模块301在计算注册语音的第一特征语音向量的步骤具体包括:使用MFCC方法提取所述注册语音中每帧语音的MFCC特征并组成第一矩阵;使用UBM和语音向量提取器(i-vector extractor)筛选出所述第一矩阵中最核心的特征,组成所述第一特征语音向量。
其中,MFCC是Mel-Frequency Cepstral Coefficients的缩写,包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。在本实施方式中,先对每一份语音进行语音分帧,获取多个帧的语音频谱;再将上述获取的频谱通过Mel滤波器组得到Mel频谱,其中Mel滤波器组可以将不统一的频率转化到统一的频率;最后在Mel频谱上面进行倒谱分析,获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征,其中所谓倒谱分析即为对Mel频谱取对数,再做逆变换,其中实际逆变换一般是通过DCT离散余弦变换来实现,并取DCT后的第2个到第13个系数作为MFCC系数。如此,将每一帧语音的MFCC组成一个向量矩阵,并通过背景模型(UBM)和特征语音向量(i-vector)提取器(extractor)筛选出所述矩阵中最核心的向量,将该向量作为所述语音的特征语音向量,其中通过背景模型(UBM)和特征语音向量(i-vector)提取器(extractor)筛选出所述矩阵中最核心的向量属于向量矩阵计算的现有数据算法,本文便不再多做赘述。
所述聚类模块302,用于利用K-means聚类将所述第一特征语音向量聚类为K类。
在本实施方式中,所述聚类模块302利用K-means聚类将所述第一特征语音向量聚类为K类的步骤具体包括:从所述第一特征语音向量中选出K个所述第一特征语音向量作为K-means聚类的样本;以所述K-means聚类的样本中K个所述第一特征语音向量为聚类中心;将所有所述第一特征语音向量中与任何一个所述聚类中心距离最近的所述第一特征向量聚为一类,进而将所有所述第一特征语音向量聚类为K类。
所述质心获取模块303,用于获取K类中每一类的质心,所述质心为所述质心所属类中的一个第一特征语音向量。所述计算模块301还用于获取用户的验证语音并计算所述验证语音的第二特征语音向量。
在本实施方式中,所述质心获取模块303从K类中每一类的质心,而所谓的质心实质上是该质心所属类别中个一个第一特征语音向量,即可以用这么一个质心表示其所属类别。计算模块301在计算所述验证语音的第二特征语音向量的步骤具体包括:使用MFCC方法分别提取所述验证语音中每帧语音的MFCC特征并组成第二矩阵;使用UBM(通用背景模型)和语音向量提取器(i-vector extractor)筛选出所述第二矩阵中最核心的特征,组成所述第二特征语音向量。
所述比对模块304,用于将所述第二特征语音向量分别与所述每一类的质心进行比对。
在本实施方式中,所述比对模块304具体是利用dot-product(向量点积)算法和PLDA算法对所述第二特征语音向量和所述每一类的质心进行两两对比打分。其中,向量点积算法和PLDA算法属于一种现有的算法,本文便不再多做赘述。
所述判断模块305,用于根据比对结果判断所述验证语音所属的类别。
在本实施方式中,判断模块305根据比对结果判断所述验证语音所属的类别的步骤具体包括:从所述比对结果中选择分数最低的两两对比打分;将所述验证语音归类到分数最低的两两对比打分对应的类别,即两两对比打分中分数最低对应质心所述的类别。
所述比对模块304还用于当判断出所述验证语音所属的类别后,将所述第二特征语音向量分别与所述验证语音所属的类别中的所有所述第一特征语音向量进行比对,并输出比对结果。
在本实施方式中,上述质心本身就是一个第一语音特征向量(i-Vector),而将识别语音的第二特征语音向量i-Vector与k个质心的i-Vector进行比对,选择最相近的一类,即选择两两对比打分最低的质心所属的一类,则判定该识别语音属于此类。此时只需进行k次比对,节省大量时间。当然在选择完验证语音归属于哪一类后,将识别语音第二语音特征向量i-Vector与所在类别中的其他每个第一特征语音向量i-Vector进行一一比对,得到距离最近的第二语音特征向量i-Vector即为与识别语音最为相似的第二语音特征向量i-Vector,则二者来源于同一说话人语音的可能性最大。
通过上述程序模块301-305,本发明所提出的语音对比程序300,首先计算注册语音的第一特征语音向量;然后,利用K-means聚类将所述第一特征语音向量聚类为K类;接着,获取K类中每一类的质心,所述质心为所述质心所属类中的一个第一特征语音向量;以及,获取用户的验证语音并计算所述验证语音的第二特征语音向量;最后,将所述第二特征语音向量分别与所述每一类的质心进行比对,根据比对结果判断所述验证语音所属的类别,当判断出所述验证语音所属的类别后,将所述第二特征语音向量分别与所述验证语音所属的类别中的所有所述第一特征语音向量进行比对,输出比对结果。这样,可以解决现有声纹系统在识别时要和声纹库中的N个人分别进行比对,耗费大量时间的弊端,进而提升语音识别的效率,促进语音识别技术的普及和产业化发展。
此外,本发明还提出一种语音对比方法。
参阅图4所示,是本发明语音对比方法第一实施例的实施流程示意图。在本实施例中,根据不同的需求,图4所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S401,计算注册语音的第一特征语音向量。
在本实施方式中,所述终端100在计算注册语音的第一特征语音向量的步骤具体包括:使用MFCC方法提取所述注册语音中每帧语音的MFCC特征并组成第一矩阵;使用UBM和语音向量提取器(i-vector extractor)筛选出所述第一矩阵中最核心的特征,组成所述第一特征语音向量。
其中,MFCC是Mel-Frequency Cepstral Coefficients的缩写,包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。在本实施方式中,先对每一份语音进行语音分帧,获取多个帧的语音频谱;再将上述获取的频谱通过Mel滤波器组得到Mel频谱,其中Mel滤波器组可以将不统一的频率转化到统一的频率;最后在Mel频谱上面进行倒谱分析,获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征,其中所谓倒谱分析即为对Mel频谱取对数,再做逆变换,其中实际逆变换一般是通过DCT离散余弦变换来实现,并取DCT后的第2个到第13个系数作为MFCC系数。如此,将每一帧语音的MFCC组成一个向量矩阵,并通过背景模型(UBM)和特征语音向量(i-vector)提取器(extractor)筛选出所述矩阵中最核心的向量,将该向量作为所述语音的特征语音向量,其中通过背景模型(UBM)和特征语音向量(i-vector)提取器(extractor)筛选出所述矩阵中最核心的向量属于向量矩阵计算的现有数据算法,本文便不再多做赘述。
步骤S402,利用K-means聚类将所述第一特征语音向量聚类为K类。
在本实施方式中,所述终端100利用K-means聚类将所述第一特征语音向量聚类为K类的步骤具体包括:从所述第一特征语音向量中选出K个所述第一特征语音向量作为K-means聚类的样本;以所述K-means聚类的样本中K个所述第一特征语音向量为聚类中心;将所有所述第一特征语音向量中与任何一个所述聚类中心距离最近的所述第一特征向量聚为一类,进而将所有所述第一特征语音向量聚类为K类。
步骤S403,获取K类中每一类的质心,所述质心为所述质心所属类中的一个第一特征语音向量。在本实施方式中,所述终端100从K类中每一类的质心,而所谓的质心实质上是该质心所属类别中一个第一特征语音向量,即可以用一个质心表示其所属类别。
步骤S404,获取用户的验证语音并计算所述验证语音的第二特征语音向量。
所述终端100在计算所述验证语音的第二特征语音向量的步骤具体包括:使用MFCC方法分别提取所述验证语音中每帧语音的MFCC特征并组成第二矩阵;使用UBM(通用背景模型)和语音向量提取器(i-vector extractor)筛选出所述第二矩阵中最核心的特征,组成所述第二特征语音向量。
步骤S405,将所述第二特征语音向量分别与所述每一类的质心进行比对。
在本实施方式中,所述终端100具体是利用dot-product(向量点积)算法和PLDA算法对所述第二特征语音向量和所述每一类的质心进行两两对比打分。其中,向量点积算法和PLDA算法属于一种现有的算法,本文便不再多做赘述。
步骤S406,用于根据比对结果判断所述验证语音所属的类别。
在本实施方式中,所述终端100根据比对结果判断所述验证语音所属的类别的步骤具体包括:从所述比对结果中选择分数最低的两两对比打分;将所述验证语音归类到分数最低的两两对比打分对应的类别,即两两对比打分中分数最低对应质心所述的类别。
步骤S407,当判断出所述验证语音所属的类别后,将所述第二特征语音向量分别与所述验证语音所属的类别中的所有所述第一特征语音向量进行比对,并输出比对结果。
在本实施方式中,上述质心本身就是一个第一语音特征向量(i-Vector),而将识别语音的第二特征语音向量i-Vector与k个质心的i-Vector进行比对,选择最相近的一类,即选择两两对比打分最低的质心所属的一类,则判定该识别语音属于此类。此时只需进行k次比对,节省大量时间。当然在选择完验证语音归属于哪一类后,将识别语音第二语音特征向量i-Vector与所在类别中的其他每个第一特征语音向量i-Vector进行一一比对,得到距离最近的第二语音特征向量i-Vector即为与识别语音最为相似的第二语音特征向量i-Vector,则二者来源于同一说话人语音的可能性最大。
通过上述步骤S401-407,本发明所提出的语音对比方法,首先计算注册语音的第一特征语音向量;然后,利用K-means聚类将所述第一特征语音向量聚类为K类;接着,获取K类中每一类的质心,所述质心为所述质心所属类中的一个第一特征语音向量;以及,获取用户的验证语音并计算所述验证语音的第二特征语音向量;最后,将所述第二特征语音向量分别与所述每一类的质心进行比对,根据比对结果判断所述验证语音所属的类别,当判断出所述验证语音所属的类别后,将所述第二特征语音向量分别与所述验证语音所属的类别中的所有所述第一特征语音向量进行比对,输出比对结果。这样,可以解决现有声纹系统在识别时要和声纹库中的N个人分别进行比对,耗费大量时间的弊端,进而提升语音识别的效率,促进语音识别技术的普及和产业化发展。
本发明还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有语音对比程序,所述语音对比程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语音对比方法的步骤。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音对比方法,应用于终端,其特征在于,所述方法包括步骤:
计算注册语音的第一特征语音向量;
利用K-means聚类将所述第一特征语音向量聚类为K类;
获取K类中每一类的质心,所述质心为所述质心所属类中的一个第一特征语音向量;
获取用户的验证语音并计算所述验证语音的第二特征语音向量;
将所述第二特征语音向量分别与所述每一类的质心进行比对;
根据比对结果判断所述验证语音所属的类别;
当判断出所述验证语音所属的类别后,将所述第二特征语音向量分别与所述验证语音所属的类别中的所有所述第一特征语音向量进行比对;及
输出比对结果。
2.如权利要求1所述的语音对比方法,其特征在于,所述计算注册语音的第一特征语音向量的步骤,包括:
使用MFCC方法提取所述注册语音中每帧语音的MFCC特征并组成第一矩阵;
使用UBM通用背景模型和语音向量提取器筛选出所述第一矩阵中最核心的特征,组成所述第一特征语音向量;
所述计算所述验证语音的第二特征语音向量的步骤,包括:
使用MFCC方法分别提取所述验证语音中每帧语音的MFCC特征并组成第二矩阵;及
使用UBM通用背景模型和语音向量提取器筛选出所述第二矩阵中最核心的特征,组成所述第二特征语音向量。
3.如权利要求1所述的语音对比方法,其特征在于,所述利用K-means聚类将所述第一特征语音向量聚类为K类的步骤,包括:
从所述第一特征语音向量中选出K个所述第一特征语音向量作为K-means聚类的样本;
以所述K-means聚类的样本中K个所述第一特征语音向量为聚类中心;及
将所有所述第一特征语音向量中与任何一个所述聚类中心距离最近的所述第一特征向量聚为一类,进而将所有所述第一特征语音向量聚类为K类。
4.如权利要求1-3任一项所述的语音对比方法,其特征在于,所述将所述第二特征语音向量分别与所述每一类的质心进行比对的步骤,包括:
利用向量点积算法和PLDA算法对所述第二特征语音向量和所述每一类的质心进行两两对比打分。
5.如权利要求4所述的语音对比方法,其特征在于,所述根据比对结果判断所述验证语音所属的类别的步骤,包括:
从所述比对结果中选择分数最低的两两对比打分;及
将所述验证语音归类到分数最低的两两对比打分对应的类别。
6.一种终端,其特征在于,所述终端包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的语音对比程序,所述语音对比程序被所述处理器执行时实现如下步骤:
计算注册语音的第一特征语音向量;
利用K-means聚类将所述第一特征语音向量聚类为K类;
获取K类中每一类的质心,所述质心为所述质心所属类中的一个第一特征语音向量;
获取用户的验证语音并计算所述验证语音的第二特征语音向量;
将所述第二特征语音向量分别与所述每一类的质心进行比对;
根据比对结果判断所述验证语音所属的类别;
当判断出所述验证语音所属的类别后,将所述第二特征语音向量分别与所述验证语音所属的类别中的所有所述第一特征语音向量进行比对;及
输出比对结果。
7.如权利要求6所述的终端,其特征在于,所述处理器在执行所述计算注册语音的第一特征语音向量的步骤时,执行如下步骤:
使用MFCC方法提取所述注册语音中每帧语音的MFCC特征并组成第一矩阵;
使用UBM通用背景模型和语音向量提取器筛选出所述第一矩阵中最核心的特征,组成所述第一特征语音向量;
所述计算所述验证语音的第二特征语音向量的步骤,包括:
使用MFCC方法分别提取所述验证语音中每帧语音的MFCC特征并组成第二矩阵;及
使用UBM通用背景模型和语音向量提取器筛选出所述第二矩阵中最核心的特征,组成所述第二特征语音向量。
8.如权利要求6所述的终端,其特征在于,所述处理器还用于在执行所述利用K-means聚类将所述第一特征语音向量聚类为K类的步骤时,执行如下步骤:
从所述第一特征语音向量中选出K个所述第一特征语音向量作为K-means聚类的样本;
以所述K-means聚类的样本中K个所述第一特征语音向量为聚类中心;及
将所有所述第一特征语音向量中与任何一个所述聚类中心距离最近的所述第一特征向量聚为一类,进而将所有所述第一特征语音向量聚类为K类。
9.如权利要求6-8任一项所述的终端,其特征在于,所述处理器在执行所述将所述第二特征语音向量分别与所述每一类的质心进行比对的步骤时,执行如下步骤:
利用向量点积算法和PLDA算法对所述第二特征语音向量和所述每一类的质心进行两两对比打分。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有语音对比程序,所述语音对比程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-5中任一项所述的语音对比方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810019441.4A CN108417226A (zh) | 2018-01-09 | 2018-01-09 | 语音对比方法、终端及计算机可读存储介质 |
PCT/CN2018/077626 WO2019136811A1 (zh) | 2018-01-09 | 2018-02-28 | 语音对比方法、终端及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810019441.4A CN108417226A (zh) | 2018-01-09 | 2018-01-09 | 语音对比方法、终端及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108417226A true CN108417226A (zh) | 2018-08-17 |
Family
ID=63125809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810019441.4A Pending CN108417226A (zh) | 2018-01-09 | 2018-01-09 | 语音对比方法、终端及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108417226A (zh) |
WO (1) | WO2019136811A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648670A (zh) * | 2019-10-22 | 2020-01-03 | 中信银行股份有限公司 | 欺诈识别方法、装置、电子设备及计算机可读存储介质 |
WO2020238777A1 (zh) * | 2019-05-24 | 2020-12-03 | 腾讯科技(深圳)有限公司 | 音频片段的匹配方法、装置、计算机可读介质及电子设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11341185B1 (en) * | 2018-06-19 | 2022-05-24 | Amazon Technologies, Inc. | Systems and methods for content-based indexing of videos at web-scale |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024455A (zh) * | 2009-09-10 | 2011-04-20 | 索尼株式会社 | 说话人识别系统及其方法 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN102509547A (zh) * | 2011-12-29 | 2012-06-20 | 辽宁工业大学 | 基于矢量量化的声纹识别方法及系统 |
US20120232900A1 (en) * | 2009-11-12 | 2012-09-13 | Johan Nikolaas Langehoveen Brummer | Speaker recognition from telephone calls |
CN103258535A (zh) * | 2013-05-30 | 2013-08-21 | 中国人民财产保险股份有限公司 | 基于声纹识别的身份识别方法及系统 |
CN105161093A (zh) * | 2015-10-14 | 2015-12-16 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及系统 |
CN105469784A (zh) * | 2014-09-10 | 2016-04-06 | 中国科学院声学研究所 | 概率线性鉴别分析模型生成方法和说话人聚类方法及系统 |
CN105632502A (zh) * | 2015-12-10 | 2016-06-01 | 江西师范大学 | 一种基于加权成对约束度量学习算法的说话人识别方法 |
CN106531170A (zh) * | 2016-12-12 | 2017-03-22 | 姜卫武 | 基于说话人识别技术的口语测评身份认证方法 |
CN106782564A (zh) * | 2016-11-18 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
CN107452403A (zh) * | 2017-09-12 | 2017-12-08 | 清华大学 | 一种说话人标记方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1932974A (zh) * | 2005-09-13 | 2007-03-21 | 东芝泰格有限公司 | 说话者识别设备、说话者识别程序、和说话者识别方法 |
CN102201236B (zh) * | 2011-04-06 | 2012-12-19 | 中国人民解放军理工大学 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
CN104464738B (zh) * | 2014-10-31 | 2018-01-02 | 北京航空航天大学 | 一种面向智能移动设备的声纹识别方法 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
-
2018
- 2018-01-09 CN CN201810019441.4A patent/CN108417226A/zh active Pending
- 2018-02-28 WO PCT/CN2018/077626 patent/WO2019136811A1/zh active Application Filing
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024455A (zh) * | 2009-09-10 | 2011-04-20 | 索尼株式会社 | 说话人识别系统及其方法 |
US20120232900A1 (en) * | 2009-11-12 | 2012-09-13 | Johan Nikolaas Langehoveen Brummer | Speaker recognition from telephone calls |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN102509547A (zh) * | 2011-12-29 | 2012-06-20 | 辽宁工业大学 | 基于矢量量化的声纹识别方法及系统 |
CN103258535A (zh) * | 2013-05-30 | 2013-08-21 | 中国人民财产保险股份有限公司 | 基于声纹识别的身份识别方法及系统 |
CN105469784A (zh) * | 2014-09-10 | 2016-04-06 | 中国科学院声学研究所 | 概率线性鉴别分析模型生成方法和说话人聚类方法及系统 |
CN105161093A (zh) * | 2015-10-14 | 2015-12-16 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及系统 |
CN105632502A (zh) * | 2015-12-10 | 2016-06-01 | 江西师范大学 | 一种基于加权成对约束度量学习算法的说话人识别方法 |
CN106782564A (zh) * | 2016-11-18 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
CN106531170A (zh) * | 2016-12-12 | 2017-03-22 | 姜卫武 | 基于说话人识别技术的口语测评身份认证方法 |
CN107452403A (zh) * | 2017-09-12 | 2017-12-08 | 清华大学 | 一种说话人标记方法 |
Non-Patent Citations (1)
Title |
---|
WENYONG LIN: "An Improved GMM-based Clustering Algorithm for Efficient Speaker Identification", 《2015 4TH INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020238777A1 (zh) * | 2019-05-24 | 2020-12-03 | 腾讯科技(深圳)有限公司 | 音频片段的匹配方法、装置、计算机可读介质及电子设备 |
US11929090B2 (en) | 2019-05-24 | 2024-03-12 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for matching audio clips, computer-readable medium, and electronic device |
CN110648670A (zh) * | 2019-10-22 | 2020-01-03 | 中信银行股份有限公司 | 欺诈识别方法、装置、电子设备及计算机可读存储介质 |
CN110648670B (zh) * | 2019-10-22 | 2021-11-26 | 中信银行股份有限公司 | 欺诈识别方法、装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019136811A1 (zh) | 2019-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103456301B (zh) | 一种基于环境声音的场景识别方法及装置及移动终端 | |
CN110288978B (zh) | 一种语音识别模型训练方法及装置 | |
CN110838286B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN110164452A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
WO2019134247A1 (zh) | 基于声纹识别模型的声纹注册方法、终端装置及存储介质 | |
CN110428842A (zh) | 语音模型训练方法、装置、设备及计算机可读存储介质 | |
JP2019509523A (ja) | 音声データ処理の方法、装置及び記憶媒体 | |
CN106952643A (zh) | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 | |
CN108417226A (zh) | 语音对比方法、终端及计算机可读存储介质 | |
CN106971741A (zh) | 实时将语音进行分离的语音降噪的方法及系统 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN108648769A (zh) | 语音活性检测方法、装置及设备 | |
CN110415701A (zh) | 唇语的识别方法及其装置 | |
CN104538035B (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
CN109872713A (zh) | 一种语音唤醒方法及装置 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN111508524B (zh) | 语音来源设备的识别方法和系统 | |
CN108281158A (zh) | 基于深度学习的语音活体检测方法、服务器及存储介质 | |
CN114627863A (zh) | 一种基于人工智能的语音识别方法和装置 | |
CN108509416A (zh) | 句意识别方法及装置、设备和存储介质 | |
CN108681390A (zh) | 信息交互方法和装置、存储介质及电子装置 | |
CN108962231A (zh) | 一种语音分类方法、装置、服务器及存储介质 | |
CN103456302A (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN111048097A (zh) | 一种基于3d卷积的孪生网络声纹识别方法 | |
CN113611318A (zh) | 一种音频数据增强方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180817 |
|
RJ01 | Rejection of invention patent application after publication |