CN108269575A - 更新声纹数据的语音识别方法、终端装置及存储介质 - Google Patents

更新声纹数据的语音识别方法、终端装置及存储介质 Download PDF

Info

Publication number
CN108269575A
CN108269575A CN201810030623.1A CN201810030623A CN108269575A CN 108269575 A CN108269575 A CN 108269575A CN 201810030623 A CN201810030623 A CN 201810030623A CN 108269575 A CN108269575 A CN 108269575A
Authority
CN
China
Prior art keywords
voice
registration
vector
threshold
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810030623.1A
Other languages
English (en)
Other versions
CN108269575B (zh
Inventor
王健宗
郑斯奇
于夕畔
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810030623.1A priority Critical patent/CN108269575B/zh
Priority to PCT/CN2018/089415 priority patent/WO2019136911A1/zh
Publication of CN108269575A publication Critical patent/CN108269575A/zh
Application granted granted Critical
Publication of CN108269575B publication Critical patent/CN108269575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种更新声纹数据的语音识别方法,包括:注册预设数目的注册语音,并计算每条注册语音的特征语音向量;将所述每条注册语音的特征语音向量进行两两比对打分;获取验证语音,并计算所述验证语音的特征语音向量;将所述验证语音的特征语音向量分别和注册语音的特征语音向量进行两两比对打分,并根据所述验证语音更新所述预设数目的注册语音。本发明还提供一种终端装置及存储介质。本发明提供的更新声纹数据的语音识别方法、终端装置及存储介质,可以在用户每次验证时,都将按照对比和更新的流程进行,可以提升后续声纹验证准确率,且能适应注册人随时间波动的声音变化。

Description

更新声纹数据的语音识别方法、终端装置及存储介质
技术领域
本发明涉及语音识别领域,尤其涉及一种更新声纹数据的语音识别方法、终端装置及存储介质。
背景技术
目前传统的声纹注册识别方法中,一般包括如下几个步骤:1.特征提取,在获得用户注册语音数据后,对数据进行声音特征的提取。2.生成鉴别向量。3.比对验证,声纹库中保留用户注册时的特征向量(i-vector),每次验证时,验证语音提取的i-vector与注册时i-vector进行比较,即利用预先确定的余弦距离公式计算当前鉴别向量与用户对应的注册向量之间的距离,若距离在设定的阈值范围内,则认为两个i-vector为同一人的语音所产生,即验证成功;否则返回失败。
然而,在这种传统的注册验证下,每次比对时,对比的鉴别向量皆为用户第一次注册语音时生成的鉴别向量。随时间变化,用户声音可能因年龄、身体状况、环境等因素发生改变,每次验证时使用注册时的i-vector进行比较,可能导致验证失败。
发明内容
有鉴于此,本发明提出一种更新声纹数据的语音识别方法、终端装置及存储介质,通过实施上述方式,可以提升后续声纹验证准确率,且能适应注册人随时间波动的声音变化。
首先,为实现上述目的,本发明提出一种终端装置,所述终端装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的更新声纹数据的语音识别程序,所述更新声纹数据的语音识别程序被所述处理器执行时实现如下步骤:
注册预设数目的用户注册语音,并计算所述预设数目的用户注册语音中的每条用户注册语音的特征语音向量;
将所述每条用户注册语音的特征语音向量进行两两比对打分,并获取第一打分平均值作为第一阈值;
获取验证语音,并计算所述验证语音的特征语音向量;
将所述验证语音的特征语音向量分别和注册语音的特征语音向量进行两两比对打分,并获取第二打分平均值;
判断所述第二打分平均值是否大于第二阈值,所述第二阈值为所述第一阈值加一预设值;及
若所述第二打分平均值大于所述第二阈值,则根据所述验证语音更新注册语音。
可选地,所述计算所述预设数目的用户注册语音中的每条用户注册语音的特征语音向量的步骤,包括:
使用MFCC方法提取每一份语音中每帧语音的MFCC特征并组成一个矩阵;及
使用UBM和特征语音向量提取器筛选出所述矩阵中最核心的特征,组成所述特征语音向量。
可选地,所述根据所述验证语音更新所述预设数目的用户注册语音的步骤,还包括:
判断所述第二打分平均值是否大于第三阈值,所述第三阈值大于所述第二阈值;及
将所述第二打分平均值大于所述第三阈值的所述验证语音更新到所述注册语音中,并根据更新后的所述注册语音进行注册。
可选地,所述第三阈值通过如下步骤确定:
选取所有所述第二打分平均值高于所述第二阈值的验证语音,并计数为N;
将选取后的验证语音对应的所述第二打分平均值进行由高到低排序;及
选取第N/3的第二打分平均值作为所述第三阈值。
此外,为实现上述目的,本发明还提供一种更新声纹数据的语音识别方法,应用于终端装置,所述方法包括:
注册预设数目的用户注册语音,并计算所述预设数目的用户注册语音中的每条用户注册语音的特征语音向量;
将所述每条用户注册语音的特征语音向量进行两两比对打分,并获取第一打分平均值作为第一阈值;
获取验证语音,并计算所述验证语音的特征语音向量;
将所述验证语音的特征语音向量分别和注册语音的特征语音向量进行两两比对打分,并获取第二打分平均值;
判断所述第二打分平均值是否大于第二阈值,所述第二阈值为所述第一阈值加一预设值;及
若所述第二打分平均值大于所述第二阈值,则根据所述验证语音更新注册语音。
可选地,所述计算所述预设数目的用户注册语音中的每条用户注册语音的特征语音向量的步骤,包括:
使用MFCC方法提取每一份语音中每帧语音的MFCC特征并组成一个矩阵;及
使用UBM和特征语音向量提取器筛选出所述矩阵中最核心的特征,组成所述特征语音向量。
可选地,所述将所述每条用户注册语音的特征语音向量进行两两比对打分的步骤,包括:
利用向量点积算法和PLDA算法对所述每一份语音的特征语音向量进行两两对比打分。
可选地,所述根据所述验证语音更新所述预设数目的用户注册语音的步骤,还包括:
判断所述第二打分平均值是否大于第三阈值,所述第三阈值大于所述第二阈值;及
将所述第二打分平均值大于所述第三阈值的所述验证语音更新到所述注册语音中,并根据更新后的所述注册语音进行注册。
可选地,所述第三阈值通过如下步骤确定:
选取所有所述第二打分平均值高于所述第二阈值的验证语音,并计数为N;
将选取后的验证语音对应的所述第二打分平均值进行由高到低排序;及
选取第N/3的第二打分平均值作为所述第三阈值。
进一步地,为实现上述目的,本发明还提供一种存储介质,所述存储介质存储有更新声纹数据的语音识别程序,所述更新声纹数据的语音识别程序可被至少一个处理器执行,以使所述至少一个处理器执行如上所述的更新声纹数据的语音识别方法的步骤。
相较于现有技术,本发明所提出的更新声纹数据的语音识别方法、终端装置及存储介质,首先,注册预设数目的用户注册语音,并计算所述预设数目的用户注册语音中的每条用户注册语音的特征语音向量;其次,将所述每条用户注册语音的特征语音向量进行两两比对打分,并获取第一打分平均值作为第一阈值;接着,获取验证语音,并计算所述验证语音的特征语音向量;然后,将所述验证语音的特征语音向量和注册语音的特征语音向量进行两两比对打分,并获取第二打分平均值;进一步地,判断所述第二打分平均值是否大于第二阈值,所述第二阈值大于所述第一阈值;最后,若所述第二打分平均值大于所述第二阈值,则根据所述验证语音更新所述预设数目的用户注册语音。这样,可以解决现有语音识别方法中随时间变化,用户声音可能因年龄、身体状况、环境等因素发生改变,每次验证时使用注册时的i-vector进行比较,可能导致验证失败的弊端,进而可以在用户每次验证时,都将按照对比和更新的流程进行,即每次符合要求的验证通过,用户在声纹库中的注册信息都将进行更新,可以提升后续声纹验证准确率,且能适应注册人随时间波动的声音变化。
附图说明
图1是本发明较佳实施例之终端装置的运行环境图;
图2是本发明更新声纹数据的语音识别程序一实施例的程序模块图;
图3为本发明更新声纹数据的语音识别程序一实施例的流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
终端装置可以以各种形式来实施。例如,本发明中描述的终端装置可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
参阅图1所示,是本发明较佳实施例之终端装置100的运行环境图。电子装置100还包括更新声纹数据的语音识别程序300、存储器20、处理器30和感测单元40等。所述感测单元40可以是各种感测用户语音的传感器,主要用于获取验证语音。
所述存储器20至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。所述处理器30可以是中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片等。
基于上述终端装置100的运行环境图,提出本发明方法各个实施例。
首先,本发明提出一种更新声纹数据的语音识别程序300。
参阅图2所示,是本发明更新声纹数据的语音识别程序300第一实施例的程序模块图。
本实施例中,所述的更新声纹数据的语音识别程序300包括一系列的存储于存储器109上的计算机程序指令,当该计算机程序指令被处理器110执行时,可以实现本发明各实施例的更新声纹数据的语音识别操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,所述更新声纹数据的语音识别程序300可以被划分为一个或多个模块。例如,在图2中,所述的更新声纹数据的语音识别程序300可以被分割成注册模块301、第一比对模块302、获取模块303、第二比对模块304、判断模块305以及更新模块306。其中:
所述注册模块301,用于注册预设数目的注册语音,并计算所述预设数目的注册语音中的每条注册语音的特征语音向量。例如,所述注册模块301注册N条注册语音。本实施例中,所述的更新声纹数据的语音识别程序300存储于终端装置100,本实施例的终端装置100可以为具有语音识别功能的任何一个终端,比如手机,便携式电脑、个人数字助理、银行支付终端、门禁设备等等,这些设备通过语音识别技术可以去实现一些具体的功能和应用。另外,终端装置100获取用户进行语音注册时的有效语音,可以从用户点击语音录入的时候开始获取,一直到用户停止语音录入,如此可以避免一些不必要的噪音干扰,提高待处理语音样本的纯净度。另外,上述N条注册语音优选为3条注册语音,当然根据需要,N也可以选择为其他合适的正整数。
本实施例中,所述注册模块301通过以下方式分别计算所述预设数目的注册语音中的每条注册语音的特征语音向量:
所述注册模块301使用梅尔频率倒谱系数MFCC方法提取每一份语音中每帧语音的MFCC特征并组成一个矩阵,并使用通用背景模型(UBM)和特征语音向量(i-vector)提取器(extractor)筛选出所述矩阵中最核心的特征,组成所述特征语音向量。
其中,MFCC是Mel-Frequency Cepstral Coefficients的缩写,包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。在本实施方式中,先对每一份语音进行语音分帧,获取多个帧的语音频谱;再将上述获取的频谱通过Mel滤波器组得到Mel频谱,其中Mel滤波器组可以将不统一的频率转化到统一的频率;最后在Mel频谱上面进行倒谱分析,获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征,其中所谓倒谱分析即为对Mel频谱取对数,再做逆变换,其中实际逆变换一般是通过DCT离散余弦变换来实现,并取DCT后的第2个到第13个系数作为MFCC系数。如此,将每一帧语音的MFCC组成一个向量矩阵,并通过背景模型(UBM)和特征语音向量(i-vector)提取器(extractor)筛选出所述矩阵中最核心的向量,将该向量作为所述语音的特征语音向量,其中通过背景模型(UBM)和特征语音向量(i-vector)提取器(extractor)筛选出所述矩阵中最核心的向量属于向量矩阵计算的现有计算方法,本文便不再多做赘述。
所述第一比对模块302,用于将所述每条注册语音的特征语音向量进行两两比对打分,并获取第一打分平均值作为第一阈值。具体地,所述第一比对模块302利用向量点积(dot-product)算法和PLDA算法对所述每一份语音的特征语音向量进行两两对比打分。在本实施方式中,向量点积算法和PLDA算法为一种现有算法,本文便不多做赘述。
所述获取模块303,用于获取验证语音,并计算所述验证语音的特征语音向量。在本实施方式中,获取模块303在获取验证语音后,同样是利用上述MFCC算法和UBM模型及向量提取器计算出验证语音的特征语音向量。
所述第二比对模块304,用于将所述验证语音的特征语音向量分别和注册语音的特征语音向量进行两两比对打分,并获取第二打分平均值。在本实施方式中,通过将验证语音的特征语音向量分别与多个注册语音的特征语音向量进行两两比对打分,进而获取多个相应的第二打分值,并对多个第二打分值取平均值获得第二打分平均值。在本实施方式中,所述注册模块301注册了预设数目的注册语音,比如注册了3条注册语音,此时注册语音相应的特征语音向量即为包括3条语音特征向量的特征语音向量组。此时对于在语音验证的过程中,获取的验证语音只有一条,同时也存在着一条验证语音的特征语音向量。第二比对模块304将所述验证语音的特征语音向量分别和注册语音的特征语音向量进行两两比对打分的过程,具体就是将获取的一条验证语音分别和注册语音的特征语音向量组中的3条特征语音向量分别进行比对打分,得到三个打分值,对三个打分值进行平均进而获取第二打分平均值。
所述判断模块305,用于判断所述第二打分平均值是否大于第二阈值。本实施例中,所述第二阈值为所述第一阈值加一预设值。在本实施方式中,第二阈值大于第一阈值,其相差的预设值可以根据用户在反复实验中根据实际情况自定义设定,本发明并不对此预设值大小进行限制。
所述更新模块306,用于在所述第二打分平均值大于所述第二阈值时,根据所述验证语音更新注册语音。本实施例中,所述更新模块306通过以下方式更新注册语音:
所述更新模块306还进一步判断所述第二打分平均值是否大于第三阈值,所述第三阈值大于所述第二阈值。所述更新模块306将所述第二打分平均值大于所述第三阈值的所述验证语音更新到所述注册语音中,并根据更新后的所述注册语音进行注册。其中,第三阈值可以通过如下步骤确定:
所述更新模块306首先,选取所有所述第二打分平均值高于第二阈值的验证语音,并计数为N,然后,将选取后的验证语音对应的所述第二打分平均值进行由高到低排序;最后,选取第N/3的第二打分平均值作为所述第三阈值。通过利用不断验证过程中验证语音对应的第二打分平均值动态设定第三阈值,进而根据第三阈值动态的更新注册语音,及保证注册语音可以根据用户不同时期的变化而产生变化。
需要说明的是,上述第一阈值、第二阈值、第三阈值的大小关系分别为第一阈值小于第二阈值,第二阈值小于第三阈值,其中第一阈值也就是第一打分平均值实质上是注册语音之间的一个平均差值,而第二打分平均值实质上反应了验证语音与注册语音的一个差值,如果此时验证语音与注册语音的一个差值比注册语音之间的一个平均差值还大了一个预设值,说明此时验证语音与之前的注册语音的差距比较大,此时就需要对注册语音进行更新。更进一步的,在第二阈值的基础上进一步设定一个第三阈值,可以进一步筛选出与注册语音明显差异的验证语音,进而根据此类验证语音更新注册语音。
通过执行上述程序模块301-306,可以解决现有语音识别方法中随时间变化,用户声音可能因年龄、身体状况、环境等因素发生改变,每次验证时使用注册时的i-vector进行比较,可能导致验证失败的弊端,进而可以在用户每次验证时,都将按照对比和更新的流程进行,即每次符合要求的验证通过,用户在声纹库中的注册信息都将进行更新,可以提升后续声纹验证准确率,且能适应注册人随时间波动的声音变化。
此外,本发明还提出一种更新声纹数据的语音识别方法。
参阅图3所示,是本发明更新声纹数据的语音识别方法第一实施例的实施流程示意图。在本实施例中,根据不同的需求,图3所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S401,注册预设数目的注册语音,并计算所述预设数目的注册语音中的每条注册语音的特征语音向量。例如,所述终端装置100注册N条注册语音。本实施例中,所述的更新声纹数据的语音识别方法存储于终端装置100,本实施例的终端装置100可以为具有语音识别功能的任何一个终端,比如手机,便携式电脑、个人数字助理、银行支付终端、门禁设备等等,这些设备通过语音识别技术可以去实现一些具体的功能和应用。另外,终端装置100获取用户进行语音注册时的有效语音,可以从用户点击语音录入的时候开始获取,一直到用户停止语音录入,如此可以避免一些不必要的噪音干扰,提高待处理语音样本的纯净度。另外,上述N条注册语音优选为3条注册语音,当然根据需要,N也可以选择为其他合适的正整数。
本实施例中,所述终端装置100通过以下方式分别计算所述预设数目的注册语音中的每条注册语音的特征语音向量:
所述终端装置100使用梅尔频率倒谱系数MFCC方法提取每一份语音中每帧语音的MFCC特征并组成一个矩阵,并使用通用背景模型(UBM)和特征语音向量(i-vector)提取器(extractor)筛选出所述矩阵中最核心的特征,组成所述特征语音向量。
其中,MFCC是Mel-Frequency Cepstral Coefficients的缩写,包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。在本实施方式中,先对每一份语音进行语音分帧,获取多个帧的语音频谱;再将上述获取的频谱通过Mel滤波器组得到Mel频谱,其中Mel滤波器组可以将不统一的频率转化到统一的频率;最后在Mel频谱上面进行倒谱分析,获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征,其中所谓倒谱分析即为对Mel频谱取对数,再做逆变换,而逆变换实际一般是通过DCT离散余弦变换来实现,并取DCT后的第2个到第13个系数作为MFCC系数。如此,将每一帧语音的MFCC组成一个向量矩阵,并通过背景模型(UBM)和特征语音向量(i-vector)提取器(extractor)筛选出所述矩阵中最核心的向量,将该向量作为所述语音的特征语音向量,其中通过背景模型(UBM)和特征语音向量(i-vector)提取器(extractor)筛选出所述矩阵中最核心的向量属于向量矩阵计算的现有数据算法,本文便不再多做赘述。
步骤S402,将所述每条注册语音的特征语音向量进行两两比对打分,并获取第一打分平均值作为第一阈值。具体地,所述终端装置100利用向量点积(dot-product)算法和PLDA算法对所述每一份语音的特征语音向量进行两两对比打分。在本实施方式中,向量点积算法和PLDA算法为一种现有算法,本文便不多做赘述。
步骤S403,获取验证语音,并计算所述验证语音的特征语音向量。在本实施方式中,获取模块303在获取验证语音后,同样是利用上述MFCC算法和UBM模型及向量提取器计算出验证语音的特征语音向量。
步骤S404,将所述验证语音的特征语音向量分别和注册语音的特征语音向量进行两两比对打分,并获取第二打分平均值。通过将验证语音的特征语音向量分别与多个注册语音的特征语音向量进行两两比对打分,进而获取多个相应的第二打分值,并对多个第二打分值取平均值获得第二打分平均值。在本实施方式中,所述注册模块301注册了预设数目的注册语音,比如注册了3条注册语音,此时注册语音相应的特征语音向量即为包括3条语音特征向量的特征语音向量组。此时对于在语音验证的过程中,获取的验证语音只有一条,同时也存在着一条验证语音的特征语音向量。第二比对模块304将所述验证语音的特征语音向量分别和注册语音的特征语音向量进行两两比对打分的过程,具体就是将获取的一条验证语音分别和注册语音的特征语音向量组中的3条特征语音向量分别进行比对打分,得到三个打分值,对三个打分值进行平均进而获取第二打分平均值。
步骤S405,判断所述第二打分平均值是否大于第二阈值。本实施例中,所述第二阈值为所述第一阈值加一预设值。在所述第二打分平均值大于所述第二阈值时,执行步骤S406,否则,结束流程。在本实施方式中,第二阈值大于第一阈值,其相差的预设值可以根据用户在反复实验中根据实际情况自定义设定,本发明并不对此预设值大小进行限制。
步骤S406,根据所述验证语音更新注册语音。本实施例中,所述终端装置100进一步通过以下方式更新注册语音:
所述终端装置100首先判断所述第二打分平均值是否大于第三阈值,其中,所述第三阈值大于所述第二阈值。然后,所述终端装置100将所述第二打分平均值大于所述第三阈值的所述验证语音更新到所述注册语音中,并根据更新后所述注册语音进行注册。在本实施方式中,所述第三阈值通过如下步骤进行确定:
所述终端装置100首先,选取所有所述第二打分平均值高于第二阈值的验证语音,并计数为N,然后,将选取的所述验证语音对应的所述第二打分平均值进行由高到低排序;最后,选取第N/3的第二打分平均值作为所述第三阈值。通过利用不断验证过程中验证语音对应的第二打分平均值动态设定第三阈值,进而根据第三阈值动态的更新注册语音,及保证注册语音可以根据用户不同时期的变化而产生变化。
需要说明的是,上述第一阈值、第二阈值、第三阈值的大小关系分别为第一阈值小于第二阈值,第二阈值小于第三阈值,其中第一阈值也就是第一打分平均值实质上是注册语音之间的一个平均差值,而第二打分平均值实质上反应了验证语音与注册语音的一个差值,如果此时验证语音与注册语音的一个差值比注册语音之间的一个平均差值还大了一个预设值,说明此时验证语音与之前的注册语音的差距比较大,此时就需要对注册语音进行更新。更进一步的,在第二阈值的基础上进一步设定一个第三阈值,可以进一步筛选出与注册语音明显差异的验证语音,进而根据此类验证语音更新注册语音。
通过上述步骤S401-406,本发明所提出的更新声纹数据的语音识别方法,可以解决现有语音识别方法中随时间变化,用户声音可能因年龄、身体状况、环境等因素发生改变,每次验证时使用注册时的i-vector进行比较,可能导致验证失败的弊端,进而可以在用户每次验证时,都将按照对比和更新的流程进行,即每次符合要求的验证通过,用户在声纹库中的注册信息都将进行更新,可以提升后续声纹验证准确率,且能适应注册人随时间波动的声音变化。
本发明还提供了另一种实施方式,即提供一种存储介质,所述存储介质存储有更新声纹数据的语音识别程序,所述更新声纹数据的语音识别程序可被至少一个处理器执行,以使所述至少一个处理器执行如上所述的更新声纹数据的语音识别方法的步骤。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种更新声纹数据的语音识别方法,应用于终端装置,其特征在于,所述方法包括步骤:
注册预设数目的注册语音,并计算所述预设数目的注册语音中的每条注册语音的特征语音向量;
将所述每条注册语音的特征语音向量进行两两比对打分,并获取第一打分平均值作为第一阈值;
获取验证语音,并计算所述验证语音的特征语音向量;
将所述验证语音的特征语音向量分别和注册语音的特征语音向量进行两两比对打分,并获取第二打分平均值;
判断所述第二打分平均值是否大于第二阈值,所述第二阈值为所述第一阈值加一预设数值;及
若所述第二打分平均值大于所述第二阈值,则根据所述验证语音更新所述注册语音。
2.如权利要求1所述的更新声纹数据的语音识别方法,其特征在于,所述计算所述预设数目的注册语音中的每条注册语音的特征语音向量的步骤,包括:
使用MFCC方法提取每一份语音中每帧语音的MFCC特征并组成一个矩阵;及
使用UBM和特征语音向量提取器筛选出所述矩阵中最核心的特征,组成所述特征语音向量。
3.如权利要求1所述的更新声纹数据的语音识别方法,其特征在于,所述将所述每条注册语音的特征语音向量进行两两比对打分的步骤,包括:
利用向量点积算法和PLDA算法对所述每一份语音的特征语音向量进行两两对比打分。
4.如权利要求1所述的更新声纹数据的语音识别方法,其特征在于,所述根据所述验证语音更新所述预设数目的注册语音的步骤,还包括:
判断所述第二打分平均值是否大于第三阈值,所述第三阈值大于所述第二阈值;及
将所述第二打分平均值大于所述第三阈值的所述验证语音更新到所述注册语音中,并根据更新后的所述注册语音进行注册。
5.如权利要求4所述的更新声纹数据的语音识别方法,其特征在于,所述第三阈值通过如下步骤进行确定:
选取所有高于所述第二阈值的所述第二打分平均值的验证语音,并计数为N;
将选取后验证语音对应的所述第二打分平均值进行由高到低排序;及
选取第N/3的第二打分平均值作为所述第三阈值。
6.一种终端装置,其特征在于,所述终端装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的更新声纹数据的语音识别程序,所述更新声纹数据的语音识别程序被所述处理器执行时实现如下步骤:
注册预设数目的注册语音,并计算所述预设数目的注册语音中的每条注册语音的特征语音向量;
将所述每条注册语音的特征语音向量进行两两比对打分,并获取第一打分平均值作为第一阈值;
获取验证语音,并计算所述验证语音的特征语音向量;
将所述验证语音的特征语音向量分别和注册语音的特征语音向量进行两两比对打分,并获取第二打分平均值;
判断所述第二打分平均值是否大于第二阈值,所述第二阈值为所述第一阈值加一预设值;及
若所述第二打分平均值大于所述第二阈值,则根据所述验证语音更新注册语音。
7.如权利要求6所述的终端装置,其特征在于,所述计算所述预设数目的注册语音中的每条注册语音的特征语音向量的步骤,包括:
使用MFCC方法提取每一份语音中每帧语音的MFCC特征并组成一个矩阵;及
使用UBM和特征语音向量提取器筛选出所述矩阵中最核心的特征,组成所述特征语音向量。
8.如权利要求6所述的终端装置,其特征在于,所述根据所述验证语音更新所述预设数目的注册语音的步骤,还包括:
判断所述第二打分平均值是否大于第三阈值,所述第三阈值大于所述第二阈值;及
将所述第二打分平均值大于所述第三阈值的所述验证语音更新到所述注册语音中,并根据更新后的所述注册语音进行注册。
9.如权利要求8所述的终端装置,其特征在于,所述第三阈值通过如下步骤确定:
选取所有所述第二打分平均值高于所述第二阈值的验证语音,并计数为N;
将选取后的验证语音对应的所述第二打分平均值进行由高到低排序;及选取第N/3的第二打分平均值作为所述第三阈值。
10.一种存储介质,所述存储介质存储有更新声纹数据的语音识别程序,所述更新声纹数据的语音识别程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-5中任一项所述的更新声纹数据的语音识别方法的步骤。
CN201810030623.1A 2018-01-12 2018-01-12 更新声纹数据的语音识别方法、终端装置及存储介质 Active CN108269575B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810030623.1A CN108269575B (zh) 2018-01-12 2018-01-12 更新声纹数据的语音识别方法、终端装置及存储介质
PCT/CN2018/089415 WO2019136911A1 (zh) 2018-01-12 2018-05-31 更新声纹数据的语音识别方法、终端装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810030623.1A CN108269575B (zh) 2018-01-12 2018-01-12 更新声纹数据的语音识别方法、终端装置及存储介质

Publications (2)

Publication Number Publication Date
CN108269575A true CN108269575A (zh) 2018-07-10
CN108269575B CN108269575B (zh) 2021-11-02

Family

ID=62775513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810030623.1A Active CN108269575B (zh) 2018-01-12 2018-01-12 更新声纹数据的语音识别方法、终端装置及存储介质

Country Status (2)

Country Link
CN (1) CN108269575B (zh)
WO (1) WO2019136911A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110400567A (zh) * 2019-07-30 2019-11-01 深圳秋田微电子股份有限公司 注册声纹动态更新方法及计算机存储介质
CN110660398A (zh) * 2019-09-19 2020-01-07 北京三快在线科技有限公司 声纹特征更新方法、装置、计算机设备及存储介质
CN111785280A (zh) * 2020-06-10 2020-10-16 北京三快在线科技有限公司 身份认证方法和装置、存储介质和电子设备
CN112289322A (zh) * 2020-11-10 2021-01-29 苏州思必驰信息科技有限公司 声纹识别方法和装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599365B (zh) * 2020-04-08 2023-05-05 云知声智能科技股份有限公司 一种用于声纹识别系统中的自适应阈值生成系统和方法
CN112487804B (zh) * 2020-11-25 2024-04-19 合肥三恩信息科技有限公司 一种基于语义上下文场景的中文小说语音合成系统
TWI787996B (zh) * 2021-09-08 2022-12-21 華南商業銀行股份有限公司 用於金融交易系統之聲紋辨識裝置與其方法
TWI817897B (zh) * 2021-09-08 2023-10-01 華南商業銀行股份有限公司 用於金融交易系統之低雜訊聲紋辨識裝置與其方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104184587A (zh) * 2014-08-08 2014-12-03 腾讯科技(深圳)有限公司 声纹生成方法、服务器、客户端及系统
US20170092276A1 (en) * 2014-07-31 2017-03-30 Tencent Technology (Shenzhen) Company Limited Voiceprint Verification Method And Device
CN106782564A (zh) * 2016-11-18 2017-05-31 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
CN107068154A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 基于声纹识别的身份验证的方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1905445B (zh) * 2005-07-27 2012-02-15 国际商业机器公司 使用可移动的语音标识卡的语音认证系统及语音认证方法
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
CN106157959B (zh) * 2015-03-31 2019-10-18 讯飞智元信息科技有限公司 声纹模型更新方法及系统
CN107424614A (zh) * 2017-07-17 2017-12-01 广东讯飞启明科技发展有限公司 一种声纹模型更新方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170092276A1 (en) * 2014-07-31 2017-03-30 Tencent Technology (Shenzhen) Company Limited Voiceprint Verification Method And Device
CN104184587A (zh) * 2014-08-08 2014-12-03 腾讯科技(深圳)有限公司 声纹生成方法、服务器、客户端及系统
CN106782564A (zh) * 2016-11-18 2017-05-31 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
CN107068154A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 基于声纹识别的身份验证的方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110400567A (zh) * 2019-07-30 2019-11-01 深圳秋田微电子股份有限公司 注册声纹动态更新方法及计算机存储介质
CN110660398A (zh) * 2019-09-19 2020-01-07 北京三快在线科技有限公司 声纹特征更新方法、装置、计算机设备及存储介质
CN110660398B (zh) * 2019-09-19 2020-11-20 北京三快在线科技有限公司 声纹特征更新方法、装置、计算机设备及存储介质
CN111785280A (zh) * 2020-06-10 2020-10-16 北京三快在线科技有限公司 身份认证方法和装置、存储介质和电子设备
CN112289322A (zh) * 2020-11-10 2021-01-29 苏州思必驰信息科技有限公司 声纹识别方法和装置

Also Published As

Publication number Publication date
CN108269575B (zh) 2021-11-02
WO2019136911A1 (zh) 2019-07-18

Similar Documents

Publication Publication Date Title
CN108269575A (zh) 更新声纹数据的语音识别方法、终端装置及存储介质
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN108460081B (zh) 语音数据库创建方法、声纹注册方法、装置、设备及介质
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
CN101894548A (zh) 一种用于语种识别的建模方法及装置
CN108040032A (zh) 一种声纹认证方法、账号注册方法及装置
CN107068154A (zh) 基于声纹识别的身份验证的方法及系统
WO2019134247A1 (zh) 基于声纹识别模型的声纹注册方法、终端装置及存储介质
CN109428719A (zh) 一种身份验证方法、装置及设备
WO2019136912A1 (zh) 电子装置、身份验证的方法、系统及存储介质
CN109378002A (zh) 声纹验证的方法、装置、计算机设备和存储介质
CN101640043A (zh) 基于多坐标序列内核的说话人识别方法和系统
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN110287311B (zh) 文本分类方法及装置、存储介质、计算机设备
CN110400567B (zh) 注册声纹动态更新方法及计算机存储介质
CN109448732B (zh) 一种数字串语音处理方法及装置
CN110556126A (zh) 语音识别方法、装置以及计算机设备
CN110473552A (zh) 语音识别认证方法及系统
CN108520752A (zh) 一种声纹识别方法和装置
CN108877783A (zh) 确定音频数据的音频类型的方法和装置
CN108776795A (zh) 用户身份识别方法、装置及终端设备
CN109545226A (zh) 一种语音识别方法、设备及计算机可读存储介质
CN110889009A (zh) 一种声纹聚类方法、装置、处理设备以及计算机存储介质
WO2019136811A1 (zh) 语音对比方法、终端及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant