TWI527023B - A voiceprint recognition method and apparatus - Google Patents

A voiceprint recognition method and apparatus Download PDF

Info

Publication number
TWI527023B
TWI527023B TW102132753A TW102132753A TWI527023B TW I527023 B TWI527023 B TW I527023B TW 102132753 A TW102132753 A TW 102132753A TW 102132753 A TW102132753 A TW 102132753A TW I527023 B TWI527023 B TW I527023B
Authority
TW
Taiwan
Prior art keywords
neural network
deep neural
voiceprint
speaker
model
Prior art date
Application number
TW102132753A
Other languages
English (en)
Other versions
TW201430830A (zh
Inventor
er-yu Wang
Li Lu
Xiang Zhang
Hai-Po Liu
Lu Li
Feng Rao
Du-Ling Lu
Shuai Yue
Po Chen
Original Assignee
Tencent Tech Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Tech Shenzhen Co Ltd filed Critical Tencent Tech Shenzhen Co Ltd
Publication of TW201430830A publication Critical patent/TW201430830A/zh
Application granted granted Critical
Publication of TWI527023B publication Critical patent/TWI527023B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

一種聲紋識別方法和裝置
本申請實施方式涉及身份認證技術領域,更具體地,涉及一種聲紋識別方法和裝置。
聲紋識別(Voiceprint Recognition,VPR)是生物識別技術的一種,也稱為說話人識別(Speaker Recognition)。說話人識別包括兩類,即說話人辨認(Speaker Identification)和說話人確認(Speaker Verification)。說話人辨認用以判斷某段語音是若干人中的哪一個所說的,是“多選一”問題;而說話人確認用以確認某段語音是否是指定的某個人所說的,是“一對一判別”問題。
聲紋識別包括文本相關(Text-Dependent)和文本無關(Text-Independent)兩種。與文本有關的聲紋識別系統要求使用者按照規定的內容發音,每個人的聲紋模型逐個被精確地建立,而識別時也必須按規定的內容發音,因此可以達到較好的識別效果,但系統需要使用者配合,如果使用者的發音與規定的內容不符合,則無法正確識別該用戶。與文本無關的識別系統則不規定說話人的發音內容,模型建立相對困難,但用戶使用方便,可應用範圍較寬。
在現有的說話人識別技術中,主流的識別系統 均採用譜基的特徵,如MFCC,PLP以及LPCC等。它們均來自比較直觀的語譜圖,容易受各種雜訊影響。而在說話人識別技術的應用場景當中,採集到的語音資料不太可能是乾淨的,並且其中包含的雜訊種類複雜,信噪比很差。如果使用傳統的底層譜基特徵,需要在特徵提取之後,再進行大量的特徵端、模型端以及得分端的雜訊補償,計算複雜度較大,消耗時間過長,並且不能完全的消除雜訊的影響。
本申請實施方式提出一種聲紋識別方法,以抵禦雜訊干擾。
本申請實施方式提出一種聲紋識別裝置,以抵禦雜訊干擾。
本申請實施方式的技術方案如下:一種聲紋識別方法,該方法包括:基於無標注語音資料建立深層神經網路初級模型,並且基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型;利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識;接收測試語音資料,基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並且基於該測試語音高層聲紋特徵確定說話人標識。
一種聲紋識別裝置,該裝置包括深層神經網路二級模型獲取單元、註冊單元和聲紋識別單元,其中: 深層神經網路二級模型獲取單元,用於基於無標注語音資料建立深層神經網路初級模型,並且基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型;註冊單元,用於利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識;聲紋識別單元,用於接收測試語音資料,基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並且基於該測試語音高層聲紋特徵確定說話人標識。
從上述技術方案可以看出,在本申請實施方式中,基於無標注語音資料建立深層神經網路初級模型,並且基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型;利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識;接收測試語音資料,基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並且基於該測試語音高層聲紋特徵確定說話人標識。由此可見,應用本申請實施方式之後,可以有效地從底層語譜特徵入手,通過深層神經網路自動學習語音信號當中包含能夠抵禦雜訊干擾的高層次說話人資訊,從而可以有效抵禦雜訊干擾。
另外,可以將本申請實施方式應用於特徵提取端,在有計算開銷限制的環境下,能夠直接獲取魯棒性特徵用於說話人識別應用。在沒有計算資源限制的環境下,在獲取這種特徵之後,本申請實施方式仍然可以通過原來 的通道補償演算法,並且可以獲得進一步的性能提升。
701‧‧‧深層神經網路二級模型獲取單元
702‧‧‧註冊單元
703‧‧‧聲紋識別單元
圖1為根據本申請實施方式聲紋識別方法流程圖;圖2為根據本申請實施方式的深層神經網路基本單元示意圖;圖3為根據本申請實施方式的深層神經網路層疊示意圖;圖4為根據本申請實施方式深層神經網路二級模型建立過程示意圖;圖5為根據本申請實施方式說話人註冊過程示意圖;圖6為根據本申請實施方式說話人測試過程示意圖;圖7為根據本申請實施方式說話人聲紋識別裝置結構示意圖。
為使本申請的目的、技術方案和優點更加清楚,下面結合附圖對本申請作進一步的詳細描述。
首先,說話人辨識是一種多分類問題,而說話人確認是一個二分類問題,多分類問題可以轉換成多個二分類問題。因此可以利用說話人確認問題為例,闡述本申請實施方式的相關細節。
實際上,本領域技術人員可以意識到,本申請實施方式同樣適用於說話人辨識問題。
文本無關的說話人識別由於不需要存儲特定的文本密碼,而直接使用說話人的語音作為密碼,可以廣 泛的應用在互聯網用戶身份認證等安全領域,本申請實施方式尤其適用于針對文本無關的應用。
傳統的說話人識別系統採用GMM-UBM技術框架,首先利用包含大量說話人的語音資料訓練一個說話人無關的通用背景模型(Universal Background Model,UBM),然後利用可以獲得的少量當前說話人的語音資料,通過最大後驗概率(Maximum A Posteriori,MAP)或者最大似然線性回歸(Maximum Likelihood Linear Regression,MLLR)準則,訓練得到說話人的模型。
在現有技術中,在做說話人身份判決的時候,分別針對待測試語音資料計算說話人對應的GMM模型和UBM模型似然度,並通過對數似然比(Logistic Likelihood Ratio,LLR)這個度量來計算最終的得分。對於說話人確認任務來說,通過比較與預先設定的一個門限(Threshold)的關係,來進行判決,而對於說話人識別來說,模型得分高的則為說話人識別結果。
由於測試語音資料和訓練語音資料存在通道不匹配的問題,現有技術給識別過程帶來不必要的干擾,因此通道補償技術就顯得尤為重要。傳統的說話人識別任務中,使用聯合因數分析(Joint Factor Analysis,JFA)的方法來去除各種可能的通道干擾帶來的性能損失。
由於聯合因數分析系統訓練和測試需要消耗較多的系統資源,I因數方法近年來被廣泛的使用。它通過因數分析方法,訓練一個能夠反映整句語音資料的載荷空間,然後提取載荷因數,即I因數來表徵語音資料中包含 的資訊,再通過線性區分性分析(Linear Discriminant Analysis,LDA)和類內協方差規整(Within-Class Covariance Normalization,WCCN)消除不必要的非說話人資訊,之後可以採用余弦距離(Cosine Kernel)或者LLR測度,計算相似度,然後再進行說話人身份判定。
然而,現有的說話人識別技術,基本採用的均是譜基的特徵,如MFCC,PLP以及LPCC等。這些特徵均來自比較直觀的語譜圖,容易受各種雜訊影響。而在說話人識別技術的應用場景當中,採集到的語音資料很難為乾淨,並且其中包含的雜訊種類複雜,信噪比很差。如果使用傳統的底層譜基特徵,需要在特徵提取之後,再進行大量的特徵端,模型端,以及得分端的雜訊補償。計算複雜度較大,消耗時間過長,並且不能完全的消除雜訊的影響。在人類感知的實驗中,獲知音高,基頻,共振峰,以及習慣用語等高層特徵不易受雜訊影響,但是現有的說話人識別方法均不能將這些資訊直接應用於真實環境的說話人識別。
在本申請實施方式中,有效地從底層語譜特徵入手,通過深層神經網路的方法自動學習語音信號當中包含能夠抵禦雜訊干擾的高層次的說話人資訊。
神經網路方法通過多個層次的網路結構來類比人類對於聲音資訊處理的過程。神經網路的輸入為原始的底層聲學特徵,隨著經過的處理層次的增多,其獲取的資訊越來越偏向於具有一定物理含義,具有一定抽象概念的資訊。本申請實施方式通過這上述過程有效提取說話人 高層身份資訊。
可以將本申請實施方式應用於特徵提取端,在有計算開銷限制的環境下,可以直接獲取魯棒性特徵用於說話人識別的應用。在沒有計算資源限制的環境下,在獲取這種特徵之後,仍然可以通過原來的通道補償演算法,並且可以獲得進一步的性能提升。
由於深層神經網路在訓練的過程中,包含了使用未標注資料的預訓練步驟,以及使用標注資料的精細調節步驟。因此本申請實施方式還可以使用大量的無標注資料,在某種程度上解決大資料應用的問題,只需要標注少量的資料便可以應用全部資料。
圖1為根據本申請實施方式聲紋識別方法流程圖。
如圖1所示,該方法包括:步驟101:基於無標注語音資料建立深層神經網路初級模型,並且基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型。
在這裡,可以從無標注語音資料中提取無標注語音底層聲紋特徵;再基於該無標注語音底層聲紋特徵建立用於提取高層聲紋特徵的深層神經網路初級模型。然後,從有標注語音資料中提取有標注語音底層聲紋特徵;再基於該有標注語音底層聲紋特徵對深層神經網路初級模型進行訓練,以獲取用於提取與說話人相關的高層聲紋特徵的深層神經網路二級模型。
其中,無標注語音資料是無說話人資訊標注的 語音資料,而有標注語音資料是有說話人資訊標注的語音資料。
在一個實施方式中,可以應用稀疏編碼限制規則或最大交互熵規則,基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型。
在一個實施方式中,可以基於相同說話人的不同語音資料所獲得的高層聲紋特徵之間距離變小,以及不同說話人的相同語音資料所獲得的高層聲紋特徵之間距離變大的方式,對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型。
步驟102:利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識。
在這裡,可以從說話人註冊語音中提取說話人底層聲紋特徵,利用該深層神經網路二級模型從說話人底層聲紋特徵中獲取說話人高層聲紋特徵;再在說話人高層聲紋特徵與說話人標識之間建立對應關係。
步驟103:接收測試語音資料,基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並且基於該測試語音高層聲紋特徵確定說話人標識。
在這裡,可以從測試語音資料中提取測試語音底層聲紋特徵;基於該深層神經網路二級模型,根據測試語音底層聲紋特徵獲取測試語音高層聲紋特徵;再基於該測試語音高層聲紋特徵確定說話人標識。
在一個實施方式中,可以基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵, 並建立該測試語音高層聲紋特徵的高斯模型;再計算該測試語音高層聲紋特徵的高斯模型與所註冊的高層聲紋特徵的高斯模型之間的距離,並基於該距離確定說話人標識。
比如:在說話人確認中,可以判斷該測試語音高層聲紋特徵的高斯模型與待確認說話人所註冊的高層聲紋特徵的高斯模型之間的距離,是否低於預先設定的門限值,如果是,則確認該測試語音的說話人為該註冊的待確認說話人。
在說話人辨識中,可以判斷該測試語音高層聲紋特徵的高斯模型與待辨識說話人群所註冊的高層聲紋特徵的高斯模型之間的距離中的最小值,並判定該距離最小值所對應的註冊說話人為說話人。
基於上述流程,下面對本申請實施方式進行更加具體的闡述。
本申請實施方式主要包括兩部分內容:首先是構造用於提取反映高層說話人身份資訊特徵的深層神經網路二級模型,然後再利用提取之後的身份資訊特徵實現說話人識別。
下面對深層神經網路的結構進行說明。
圖2為根據本申請實施方式的深層神經網路基本單元示意圖;圖3為根據本申請實施方式的深層神經網路層疊示意圖。
如圖2和圖3所示,用於獲取說話人相關的高層聲紋特徵的深層神經網路是一個具有多層次的網路結構,每層之間均可以通過某些映射函數相互連接。其中任 意相連的兩層,都採用具有重建功能的結構,稱之為深層神經網路的基本單元。
比如,基本單元可以是消除干擾的自動編碼器(Denoising Autoencoders,DAs)或者限制性波爾茲曼機(Restrictive Boltzmann Machines,RBMs),等等。
以DAs為例進行說明,它是一個2層的雙向映射網路,即包含輸入層和輸出層,如圖2所示。x對於輸入層,輸入特徵通過映射函數f( )映射為輸出層y。同時輸出層y,也可以通過映射函數g( )重新映射到輸入層,稱之為重建特徵z。通過最小重建誤差準則(x與z之間的距離最小),這裡的訓練資料並不需要說話人資訊標注,就可以非監督地訓練出映射函數f( )和g( )。映射函數為線性映射函數,正向映射f( )其形式為Wx+b,W為映射矩陣,x為輸入向量,b為偏移向量。反向映射g( )其形式為W’y+c,W’為正向映射函數中映射矩陣W的轉置,c為偏移向量。DAs在由輸入層x映射到輸出層y的過程中,添加了一定程度的隨機雜訊,這個添加的雜訊,可以避免基本單元陷入過訓練的問題。
在介紹了任意相連的2層基本結構之後,可以然後通過層疊的方式,將多個基本單元堆積起來,由下至上的構成一個深層的神經網路。
如圖3所示,x->h1為第一個基本單元,h1->h2為第二個基本單元,h1是第一個基本單元的輸出向量,同時是第二個基本單元的輸入向量。
具體的,h1在作為第二個基本單元的輸入向量 之前,需要通過將向量h1的每一維數值都通過sigmoid函數。由於sigmoid函數的輸出是一個[0,1]之間的數值,在這裡設定一個亂數,使其均勻分佈在[0,1]之間,然後比較sigmoid函數的輸出與設定的亂數,如果sigmoid的輸出大,則將h1在這個維度上的數值設為1,反之設為0。這樣,在深層神經網路的構建當中,人為添加了一定程度的隨機性,可以在學習到已有模式特徵基礎上,既能夠產生一些類似的新模式特徵,也能消除同樣模式雜訊的干擾。
由於深層神經網路的每一層都具備重建功能,可以利用貪婪演算法,由下至上逐層地訓練深層神經網路結構。這個網路結構的最初輸入特徵,就是底層的聲紋特徵,而經過多個網路層次的處理,最終輸出的特徵就是包含一定物理意義,具有抽象意義的高層聲紋特徵。通過這一步驟訓練得到的網路結構,可以保證高層特徵以最小的代價重建初始特徵,並沒有起到區分說話人資訊和干擾資訊的作用。
在獲得映射網路結構的初級模型之後,為了在高層特徵之中去除非說話人的雜訊影響,需要進一步調節當前的網路結構模型。這裡需要相對少量的標注資料,即需要知曉語音資料和它對應的說話人身份資訊。
圖3中,底層特徵如果為x,那麼獲得高層特徵將是hk。在這個步驟之前,hk當中代表說話人資訊還有另外的雜訊資訊,這個步驟需要保留說話人資訊,而抑制雜訊資訊。
在一個實施方式中,可以提出2個限制手段。 首先:對於輸入端輸入相同說話人的不同語音資料的時候,輸出層獲得的特徵之間的距離應該變小,而當輸入端輸入不同的說話人的語音資料的時候,輸出層獲得的特徵之間的距離應該變大(這裡輸出層對應圖3中hk)。其次,為了保證輸出特徵可以重建輸入特徵,減小獲取說話人資訊帶來的其它損耗,也兼顧新結構對於語音資料的重建誤差。可以綜合考慮上述2個限制,構造目標函數,然後利用神經網路訓練的反向傳播演算法(Back Propagation,BP),進一步調節深層神經網路的結構。在這一步驟之後,獲得網路同樣拓撲結構的深層神經網路二級模型,但是模型的各種參數,如Wn等和初級模型不一樣。
在將神經網路初級模型精細調節為深層神經網路的二級模型的過程中,使深層神經網路二級模型具有提取高層說話人資訊能力的時候。這個步驟在深層神經網路提取特徵當中至關重要,除了上述實施方式之外,可以利用其它不同的目標函數,比如深層神經網路輸出層的稀疏編碼限制規則,最大交互熵規則等規則,本申請實施方式對此並無限定。
通過深層神經網路二級模型,就可以將底層的聲紋特徵,映射為說話人相關的高層聲紋特徵。
在獲得底層的聲紋資訊之後,如MFCC的特徵序列之後,可以將這些特徵輸入訓練好的深層神經網路的二級模型,然後在神經網路的輸出端收集輸出向量,這是一個向量序列,即為高層的聲紋特徵。
如圖2和圖3所示,將底層特徵x輸入深層神 經網路二級模型,可以得到hk這個高層特徵。如果輸入的底層特徵是一個時間序列,即{x1,x2,,...,xn},輸出也將是一個時間序列,即{hk1,hk2,,...,hkn}
圖4為根據本申請實施方式深層神經網路二級模型建立過程示意圖。
如圖4所示,在構造深層神經網路二級模型的過程中,首先收集包含大量語音資料,其中並不需要對這批資料進行身份資訊的標注,即不需要表明每條語音資料是由哪個人說的這樣資訊。通常,優選期望語音資料庫中儘量包含大量的說話人的語音資料。
然後,通過底層聲紋特徵提取處理將輸入的語音資料轉換成底層聲紋資訊,常用的有MFCC,LPCC和PLP等特徵,這些特徵比較容易受環境雜訊的影響。可以定義雜訊為:在地鐵,機場,車站,餐館等地方採集的語音;說話人高興,生氣,憤怒或者著急等情態下收集的語音;在麥克風,固定電話,行動電話下收集的語音資料,等等。
還可以使用如上所述收集的沒有標注的語音資料的底層聲紋特徵,建立用於提取高層聲紋特徵的深層神經網路初級模型。這個映射結構,可以將底層特徵映射到高層,但是這個高層資訊中,包含大量的與說話人無關的資訊。
接著,可以收集少量語音資料,這些語音資料包含說話人身份資訊的標注,同樣對這批資料進行底層特徵提取,然後聯合上一步驟得到的神經網路初級模型,通過精細調節處理建立深層神經網路的二級模型,這個深層 神經網路二級模型可以將底層特徵完全的映射為說話人相關的模型,極大程度上消除非說話人的雜訊影響。
建立完深層神經網路二級模型之後,可以利用該深層神經網路二級模型註冊說話人,以及執行說話人識別處理。
圖5為根據本申請實施方式說話人註冊過程示意圖。
如圖5所示,本申請實施方式可以利用深層神經網路二級模型提取說話人的註冊資訊的高層特徵序列,並針對該高層說話人註冊資訊序列建立高斯模型,以獲取說話人模型參數。
具體包括:首先獲取說話人發出的註冊語音資料,並對註冊語音資料執行底層聲紋特徵提取,以獲取註冊語音底層聲紋特徵,再結合利用深層神經網路二級模型提取註冊語音高層聲紋特徵,並針對註冊語音高層聲紋特徵建立高斯模型,即為說話人註冊模型。
圖6為根據本申請實施方式說話人測試過程示意圖。
如圖6所示,本申請實施方式可以利用深層神經網路二級模型提取高層說話人測試資訊序列,並針對該高層說話人測試資訊序列建立測試高斯模型,獲取測試模型參數。然後通過計算註冊高斯模型與測試高斯模型之間的KL距離,識別說話人的身份。
具體包括:首先獲取說話人發出的測試語音資料,並對測試語音資料執行底層聲紋特徵提取,以獲取測 試語音底層聲紋特徵,再結合利用深層神經網路二級模型提取測試語音高層聲紋特徵,並針對測試語音高層聲紋特徵建立高斯模型,即為說話人測試模型。然後,將該說話人測試模型與說話人註冊模型進行比較,以確定最終的說話人身份。
實際上,可以通過多種方式執行說話人測試模型與說話人註冊模型的比較過程,比如計算說話人測試模型與說話人註冊模型之間的KL距離。在說話人確認中,可以判斷該說話人測試模型與說話人註冊模型之間的距離,是否低於預先設定的門限值,如果是,則確認該測試語音的說話人為該註冊的待確認說話人。
在說話人辨識中,可以判斷該說話人測試模型與待辨識說話人群所註冊的模型之間的距離中的最小值,並判定該距離最小值所對應的註冊說話人為說話人。
基於上述詳細分析,本申請實施方式還提出了一種聲紋識別裝置。
圖7為根據本申請實施方式說話人聲紋識別裝置結構示意圖。
如圖7所示,該裝置包括深層神經網路二級模型獲取單元701、註冊單元702和聲紋識別單元703,其中:深層神經網路二級模型獲取單元701,用於基於無標注語音資料建立深層神經網路初級模型,並且基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型;註冊單元702,用於利用該深層神經網路二級 模型註冊說話人高層聲紋特徵與說話人標識;聲紋識別單元703,用於接收測試語音資料,基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並且基於該測試語音高層聲紋特徵確定說話人標識。
在一個實施方式中,深層神經網路二級模型獲取單元701,用於從無標注語音資料中提取無標注語音底層聲紋特徵,基於無標注語音底層聲紋特徵建立用於提取高層聲紋特徵的深層神經網路初級模型。
在一個實施方式中,深層神經網路二級模型獲取單元701,用於從有標注語音資料中提取有標注語音底層聲紋特徵,基於該有標注語音底層聲紋特徵對深層神經網路初級模型進行訓練,以獲取用於提取與說話人相關的高層聲紋特徵的深層神經網路二級模型。
在一個實施方式中,深層神經網路二級模型獲取單元701,用於應用稀疏編碼限制規則或最大交互熵規則,基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型。
在一個實施方式中,深層神經網路二級模型獲取單元702,用於基於相同說話人的不同語音資料所獲得的高層聲紋特徵之間距離變小,以及不同說話人的相同語音資料所獲得的高層聲紋特徵之間距離變大的方式,對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型。
優選地,註冊單元702,用於從說話人註冊語 音中提取說話人底層聲紋特徵,利用該深層神經網路二級模型從說話人底層聲紋特徵中獲取說話人高層聲紋特徵;在說話人高層聲紋特徵與說話人標識之間建立對應關係。
在一個實施方式中,聲紋識別單元703,用於從測試語音資料中提取測試語音底層聲紋特徵;基於該深層神經網路二級模型,根據測試語音底層聲紋特徵獲取測試語音高層聲紋特徵;基於該測試語音高層聲紋特徵確定說話人標識。
在一個實施方式中,聲紋識別單元703,用於基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並建立該測試語音高層聲紋特徵的高斯模型;計算該測試語音高層聲紋特徵的高斯模型與所註冊的高層聲紋特徵的高斯模型之間的距離,並基於該距離確定說話人標識。
可以將圖7所示裝置集成到各種網路的硬體實體當中。比如,可以將聲紋識別裝置集成到:功能手機、智慧手機、掌上型電腦、個人電腦(PC)、平板電腦或個人數位助理(PDA),等等設備之中。
實際上,可以通過多種形式來具體實施本申請實施方式所提出的聲紋識別裝置。比如,可以遵循一定規範的應用程式介面,將聲紋識別裝置編寫為安裝到自然語言處理伺服器中的外掛程式程式,也可以將其封裝為應用程式以供使用者自行下載使用。當編寫為外掛程式程式時,可以將其實施為ocx、dll、cab等多種外掛程式形式。也可以通過Flash外掛程式、RealPlayer外掛程式、MMS外 掛程式、MI五線譜外掛程式、ActiveX外掛程式等具體技術來實施本申請實施方式所提出的聲紋識別裝置。
可以通過指令或指令集存儲的儲存方式將用於實現本申請實施方式所提出的聲紋識別方法的電腦程式代碼存儲在各種存儲介質上。這些存儲介質包括但是不局限於:軟碟、光碟、DVD、硬碟、快閃記憶體、U盤、CF卡、SD卡、MMC卡、SM卡、記憶棒(Memory Stick)、xD卡等。
另外,還可以將用於實現本申請實施方式所提出的聲紋識別方法的電腦程式代碼存儲到基於快閃記憶體(Nand flash)的存儲介質中,比如U盤、CF卡、SD卡、SDHC卡、MMC卡、SM卡、記憶棒、xD卡等。
綜上所述,在本申請實施方式中,基於無標注語音資料建立深層神經網路初級模型,並且基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型;利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識;接收測試語音資料,基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並且基於該測試語音高層聲紋特徵確定說話人標識。由此可見,應用本申請實施方式之後,可以有效地從底層語譜特徵入手,通過深層神經網路自動學習語音信號當中包含能夠抵禦雜訊干擾的高層次說話人資訊,從而可以有效抵禦雜訊干擾。
另外,可以將本申請實施方式應用於特徵提取端,在有計算開銷限制的環境下,能夠直接獲取魯棒性特 徵用於說話人識別應用。在沒有計算資源限制的環境下,在獲取這種特徵之後,本申請實施方式仍然可以通過現有的通道補償演算法,並且可以獲得進一步的性能提升。
以上所述,僅為本申請的較佳實施例而已,並非用於限定本申請的保護範圍。凡在本申請的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本申請的保護範圍之內。

Claims (16)

  1. 一種聲紋識別方法,其特徵在於,該方法包括:基於無標注語音資料建立深層神經網路初級模型,並且基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型;利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識;接收測試語音資料,基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並且基於該測試語音高層聲紋特徵確定說話人標識。
  2. 如請求項1所述的聲紋識別方法,其特徵在於,所述基於無標注語音資料建立深層神經網路初級模型包括:從無標注語音資料中提取無標注語音底層聲紋特徵;基於該無標注語音底層聲紋特徵建立用於提取高層聲紋特徵的深層神經網路初級模型。
  3. 如請求項1所述的聲紋識別方法,其特徵在於,所述基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型包括:從有標注語音資料中提取有標注語音底層聲紋特徵;基於該有標注語音底層聲紋特徵對深層神經網路初級模型進行訓練,以獲取用於提取與說話人相關的高層聲紋特徵的深層神經網路二級模型。
  4. 如請求項1所述的聲紋識別方法,其特徵在於,所述基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型包括: 應用稀疏編碼限制規則或最大交互熵規則,基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型。
  5. 如請求項1所述的聲紋識別方法,其特徵在於,所述基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型包括:基於相同說話人的不同語音資料所獲得的高層聲紋特徵之間距離變小,以及不同說話人的相同語音資料所獲得的高層聲紋特徵之間距離變大的方式,對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型。
  6. 如請求項1所述的聲紋識別方法,其特徵在於,所述利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識包括:從說話人註冊語音中提取說話人底層聲紋特徵,利用該深層神經網路二級模型從說話人底層聲紋特徵中獲取說話人高層聲紋特徵;在說話人高層聲紋特徵與說話人標識之間建立對應關係。
  7. 如請求項1所述的聲紋識別方法,其特徵在於,所述基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並且基於該測試語音高層聲紋特徵確定說話人標識包括:從測試語音資料中提取測試語音底層聲紋特徵;基於該深層神經網路二級模型,根據測試語音底層聲紋特徵獲取測試語音高層聲紋特徵; 基於該測試語音高層聲紋特徵確定說話人標識。
  8. 如請求項1所述的聲紋識別方法,其特徵在於,所述基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並且基於該測試語音高層聲紋特徵確定說話人標識包括:基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並建立該測試語音高層聲紋特徵的高斯模型;計算該測試語音高層聲紋特徵的高斯模型與所註冊的高層聲紋特徵的高斯模型之間的距離,並基於該距離確定說話人標識。
  9. 一種聲紋識別裝置,其特徵在於,該裝置包括深層神經網路二級模型獲取單元、註冊單元和聲紋識別單元,其中:深層神經網路二級模型獲取單元,用於基於無標注語音資料建立深層神經網路初級模型,並且基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型;註冊單元,用於利用該深層神經網路二級模型註冊說話人高層聲紋特徵與說話人標識;聲紋識別單元,用於接收測試語音資料,基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並且基於該測試語音高層聲紋特徵確定說話人標識。
  10. 如請求項9所述的聲紋識別裝置,其特徵在於, 深層神經網路二級模型獲取單元,用於從無標注語音資料中提取無標注語音底層聲紋特徵,基於無標注語音底層聲紋特徵建立用於提取高層聲紋特徵的深層神經網路初級模型。
  11. 如請求項9所述的聲紋識別裝置,其特徵在於,深層神經網路二級模型獲取單元,用於從有標注語音資料中提取有標注語音底層聲紋特徵,基於該有標注語音底層聲紋特徵對深層神經網路初級模型進行訓練,以獲取用於提取與說話人相關的高層聲紋特徵的深層神經網路二級模型。
  12. 如請求項9所述的聲紋識別裝置,其特徵在於,深層神經網路二級模型獲取單元,用於應用稀疏編碼限制規則或最大交互熵規則,基於有標注語音資料對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型。
  13. 如請求項9所述的聲紋識別裝置,其特徵在於,深層神經網路二級模型獲取單元,用於基於相同說話人的不同語音資料所獲得的高層聲紋特徵之間距離變小,以及不同說話人的相同語音資料所獲得的高層聲紋特徵之間距離變大的方式,對該深層神經網路初級模型進行訓練,以獲取深層神經網路二級模型。
  14. 如請求項9所述的聲紋識別裝置,其特徵在於,註冊單元,用於從說話人註冊語音中提取說話人底層聲紋特徵,利用該深層神經網路二級模型從說話人底層聲紋特徵中獲取說話人高層聲紋特徵;在說話人高層聲紋特 徵與說話人標識之間建立對應關係。
  15. 如請求項9所述的聲紋識別裝置,其特徵在於,聲紋識別單元,用於從測試語音資料中提取測試語音底層聲紋特徵;基於該深層神經網路二級模型,根據測試語音底層聲紋特徵獲取測試語音高層聲紋特徵;基於該測試語音高層聲紋特徵確定說話人標識。
  16. 如請求項9所述的聲紋識別裝置,其特徵在於,聲紋識別單元,用於基於該深層神經網路二級模型從測試語音資料中提取測試語音高層聲紋特徵,並建立該測試語音高層聲紋特徵的高斯模型;計算該測試語音高層聲紋特徵的高斯模型與所註冊的高層聲紋特徵的高斯模型之間的距離,並基於該距離確定說話人標識。
TW102132753A 2013-01-28 2013-09-11 A voiceprint recognition method and apparatus TWI527023B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310032846.9A CN103971690A (zh) 2013-01-28 2013-01-28 一种声纹识别方法和装置

Publications (2)

Publication Number Publication Date
TW201430830A TW201430830A (zh) 2014-08-01
TWI527023B true TWI527023B (zh) 2016-03-21

Family

ID=51226891

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102132753A TWI527023B (zh) 2013-01-28 2013-09-11 A voiceprint recognition method and apparatus

Country Status (3)

Country Link
CN (1) CN103971690A (zh)
TW (1) TWI527023B (zh)
WO (1) WO2014114116A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI776799B (zh) * 2017-01-24 2022-09-11 香港商阿里巴巴集團服務有限公司 一種設定操作的執行方法及裝置
TWI787996B (zh) * 2021-09-08 2022-12-21 華南商業銀行股份有限公司 用於金融交易系統之聲紋辨識裝置與其方法
US11663462B2 (en) 2018-07-09 2023-05-30 National Central University Machine learning method and machine learning device
TWI817897B (zh) * 2021-09-08 2023-10-01 華南商業銀行股份有限公司 用於金融交易系統之低雜訊聲紋辨識裝置與其方法

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016037350A1 (en) * 2014-09-12 2016-03-17 Microsoft Corporation Learning student dnn via output distribution
CN104573818B (zh) * 2014-12-25 2017-06-13 中国科学院自动化研究所 一种基于神经网络的办公建筑房间分类方法
CN105991288B (zh) * 2015-03-06 2019-07-30 科大讯飞股份有限公司 声纹密码文本生成方法及系统
CN104732978B (zh) * 2015-03-12 2018-05-08 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN107430677B (zh) 2015-03-20 2022-04-12 英特尔公司 基于对二进制卷积神经网络特征进行提升的目标识别
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN106683661B (zh) * 2015-11-05 2021-02-05 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN105513609B (zh) * 2015-11-26 2019-05-24 中国船舶工业系统工程研究院 一种水声目标信号声纹特征提取装置和方法
CN105513597B (zh) * 2015-12-30 2018-07-10 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
US10459727B2 (en) 2015-12-31 2019-10-29 Microsoft Technology Licensing, Llc Loop code processor optimizations
CN106024011A (zh) * 2016-05-19 2016-10-12 仲恺农业工程学院 一种基于moas的深层特征提取方法
CN107492382B (zh) * 2016-06-13 2020-12-18 阿里巴巴集团控股有限公司 基于神经网络的声纹信息提取方法及装置
CN106372653B (zh) * 2016-08-29 2020-10-16 中国传媒大学 一种基于堆栈式自动编码器的广告识别方法
CN106710599A (zh) * 2016-12-02 2017-05-24 深圳撒哈拉数据科技有限公司 一种基于深度神经网络的特定声源检测方法与系统
CN108615525B (zh) * 2016-12-09 2020-10-09 中国移动通信有限公司研究院 一种语音识别方法及装置
CN107610707B (zh) * 2016-12-15 2018-08-31 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN108268948B (zh) * 2017-01-03 2022-02-18 富士通株式会社 数据处理装置和数据处理方法
CN108288470B (zh) * 2017-01-10 2021-12-21 富士通株式会社 基于声纹的身份验证方法和装置
WO2018150089A1 (en) 2017-02-17 2018-08-23 Curious Ai Oy Solution for training a neural network system
GB2580856A (en) * 2017-06-13 2020-08-05 Beijing Didi Infinity Technology & Dev Co Ltd International Patent Application For Method, apparatus and system for speaker verification
CN107481717B (zh) * 2017-08-01 2021-03-19 百度在线网络技术(北京)有限公司 一种声学模型训练方法及系统
CN107610709B (zh) * 2017-08-01 2021-03-19 百度在线网络技术(北京)有限公司 一种训练声纹识别模型的方法及系统
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
WO2019072899A2 (en) * 2017-10-11 2019-04-18 Bp Exploration Operating Company Limited EVENT DETECTION USING FREQUENCY DOMAIN ACOUSTIC CHARACTERISTICS
CN107731233B (zh) * 2017-11-03 2021-02-09 王华锋 一种基于rnn的声纹识别方法
CN107886943A (zh) * 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
CN108154085B (zh) * 2017-12-06 2022-02-18 北京顺源开华科技有限公司 基于心电数据进行身份识别的方法、装置及电子设备
CN108198574B (zh) * 2017-12-29 2020-12-08 科大讯飞股份有限公司 变声检测方法及装置
CN108417217B (zh) * 2018-01-11 2021-07-13 思必驰科技股份有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108091326B (zh) * 2018-02-11 2021-08-06 张晓雷 一种基于线性回归的声纹识别方法及系统
CN108447490B (zh) * 2018-02-12 2020-08-18 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN108877809B (zh) * 2018-06-29 2020-09-22 北京中科智加科技有限公司 一种说话人语音识别方法及装置
CN110875053A (zh) * 2018-08-29 2020-03-10 阿里巴巴集团控股有限公司 语音处理的方法、装置、系统、设备和介质
CN109326294B (zh) * 2018-09-28 2022-09-20 杭州电子科技大学 一种文本相关的声纹密钥生成方法
CN110164452B (zh) * 2018-10-10 2023-03-10 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN109243467B (zh) * 2018-11-14 2019-11-05 龙马智声(珠海)科技有限公司 声纹模型构建方法、声纹识别方法及系统
US11114103B2 (en) 2018-12-28 2021-09-07 Alibaba Group Holding Limited Systems, methods, and computer-readable storage media for audio signal processing
CN111462760B (zh) * 2019-01-21 2023-09-26 阿里巴巴集团控股有限公司 声纹识别系统、方法、装置及电子设备
CN110033757A (zh) * 2019-04-04 2019-07-19 行知技术有限公司 一种人声识别算法
CN109903774A (zh) * 2019-04-12 2019-06-18 南京大学 一种基于角度间隔损失函数的声纹识别方法
TWI745968B (zh) * 2019-05-20 2021-11-11 仁寶電腦工業股份有限公司 降噪方法和使用該方法的降噪裝置及降噪系統
CN110838295B (zh) * 2019-11-17 2021-11-23 西北工业大学 一种模型生成方法、声纹识别方法及对应装置
CN111048097B (zh) * 2019-12-19 2022-11-29 中国人民解放军空军研究院通信与导航研究所 一种基于3d卷积的孪生网络声纹识别方法
CN111341322A (zh) * 2020-04-15 2020-06-26 厦门快商通科技股份有限公司 一种声纹模型训练方法和装置以及设备
CN111816191A (zh) * 2020-07-08 2020-10-23 珠海格力电器股份有限公司 语音处理方法、装置、系统及存储介质
CN112164404A (zh) * 2020-10-28 2021-01-01 广西电网有限责任公司贺州供电局 一种基于声纹识别技术的远程身份认证方法及系统
CN112420069A (zh) * 2020-11-18 2021-02-26 北京云从科技有限公司 一种语音处理方法、装置、机器可读介质及设备
CN112820324A (zh) * 2020-12-31 2021-05-18 平安科技(深圳)有限公司 多标签语音活动检测方法、装置及存储介质
CN112767950A (zh) * 2021-02-24 2021-05-07 嘉楠明芯(北京)科技有限公司 一种声纹识别方法、装置及计算机可读存储介质
CN116205806B (zh) * 2023-01-28 2023-09-19 荣耀终端有限公司 一种图像增强方法及电子设备
CN117153193B (zh) * 2023-10-30 2024-02-13 国网安徽省电力有限公司电力科学研究院 融合物理特性和数据诊断的电力设备故障声纹识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204399A (ja) * 1992-01-29 1993-08-13 Meidensha Corp 不特定話者音素認識方法
WO1995005656A1 (en) * 1993-08-12 1995-02-23 The University Of Queensland A speaker verification system
AUPQ684400A0 (en) * 2000-04-11 2000-05-11 Telstra R & D Management Pty Ltd A gradient based training method for a support vector machine
CN1221940C (zh) * 2004-01-06 2005-10-05 中国人民解放军保密委员会技术安全研究所 电话信道说话人声纹识别系统
US8345962B2 (en) * 2007-11-29 2013-01-01 Nec Laboratories America, Inc. Transfer learning methods and systems for feed-forward visual recognition systems
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
CN102360544A (zh) * 2011-06-17 2012-02-22 上海先先信息科技有限公司 一种利用简单算术进行汉语声纹验证的方式

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI776799B (zh) * 2017-01-24 2022-09-11 香港商阿里巴巴集團服務有限公司 一種設定操作的執行方法及裝置
US11663462B2 (en) 2018-07-09 2023-05-30 National Central University Machine learning method and machine learning device
TWI787996B (zh) * 2021-09-08 2022-12-21 華南商業銀行股份有限公司 用於金融交易系統之聲紋辨識裝置與其方法
TWI817897B (zh) * 2021-09-08 2023-10-01 華南商業銀行股份有限公司 用於金融交易系統之低雜訊聲紋辨識裝置與其方法

Also Published As

Publication number Publication date
CN103971690A (zh) 2014-08-06
WO2014114116A1 (en) 2014-07-31
TW201430830A (zh) 2014-08-01

Similar Documents

Publication Publication Date Title
TWI527023B (zh) A voiceprint recognition method and apparatus
US9940935B2 (en) Method and device for voiceprint recognition
CN106847292B (zh) 声纹识别方法及装置
US9336781B2 (en) Content-aware speaker recognition
US10476872B2 (en) Joint speaker authentication and key phrase identification
CN104217149B (zh) 基于语音的生物认证方法及设备
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN104143326B (zh) 一种语音命令识别方法和装置
Liu et al. An MFCC‐based text‐independent speaker identification system for access control
Thiolliere et al. A hybrid dynamic time warping-deep neural network architecture for unsupervised acoustic modeling.
WO2018166112A1 (zh) 基于声纹识别的身份验证的方法、电子装置及存储介质
WO2021047319A1 (zh) 基于语音的个人信用评估方法、装置、终端及存储介质
CN102737633B (zh) 一种基于张量子空间分析的说话人识别方法及其装置
JP2019522810A (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
Das et al. Development of multi-level speech based person authentication system
CN112259106A (zh) 声纹识别方法、装置、存储介质及计算机设备
CN104575490A (zh) 基于深度神经网络后验概率算法的口语发音评测方法
Gałka et al. Voice authentication embedded solution for secured access control
CN110111798B (zh) 一种识别说话人的方法、终端及计算机可读存储介质
Aloufi et al. Emotion filtering at the edge
Li et al. Cost-sensitive learning for emotion robust speaker recognition
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
CN104901807A (zh) 一种可用于低端芯片的声纹密码方法
Guo et al. Speaker Verification Using Short Utterances with DNN-Based Estimation of Subglottal Acoustic Features.
Das et al. Multi-style speaker recognition database in practical conditions