CN111009248A - 说话者识别装置、说话者识别方法及记录介质 - Google Patents

说话者识别装置、说话者识别方法及记录介质 Download PDF

Info

Publication number
CN111009248A
CN111009248A CN201910930409.6A CN201910930409A CN111009248A CN 111009248 A CN111009248 A CN 111009248A CN 201910930409 A CN201910930409 A CN 201910930409A CN 111009248 A CN111009248 A CN 111009248A
Authority
CN
China
Prior art keywords
speaker
similarity
feature
calculated
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910930409.6A
Other languages
English (en)
Other versions
CN111009248B (zh
Inventor
板仓光佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2019107341A external-priority patent/JP7326033B2/ja
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of CN111009248A publication Critical patent/CN111009248A/zh
Application granted granted Critical
Publication of CN111009248B publication Critical patent/CN111009248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种即使在混入杂音的环境下也能提高说话者识别的精度的说话者识别装置、说话者识别方法及记录介质等。具备:特征量算出部(12),针对所取得的发声的语音算出两个以上的音响特征量;相似度计算部(13),计算针对识别对象说话者的一个以上的说话者性特征量、和由特征量算出部(12)算出的两个以上的音响特征量中的每一个的相似度;合成部(14),合成由相似度计算部(13)所计算的两个以上的相似度;以及判定部(15),基于由合成部(14)得到的合成值,判定该发声的说话者是否为识别对象说话者,两个以上的音响特征量中的至少两个音响特征量的性质及两个以上的相似度中的至少两个相似度的性质中的至少一方是不同的。

Description

说话者识别装置、说话者识别方法及记录介质
技术领域
本公开涉及一种说话者识别装置、说话者识别方法及记录介质。
背景技术
说话者识别技术是预先收集登记对象的说话者的发声的语音,基于从收集到的语音计算出的特征量与新取得的未知的说话者的发声的语音之间的相似度,判定未知的说话者是否为所登记的说话者的技术。
例如,在非专利文献1中,作为用于说话者识别的高精度的特征量,公开了被称为i-Vector的说话者固有的特征量及对其计算方法。通过根据登记说话者的发声的语音及未知说话者的发声的语音来计算这样的特征量,能够高精度地判定未知说话者是否为登记说话者。
在先技术文献
非专利文献
非专利文献1:Dehak,Najim,et al.“Front-end factor analysis for speakerverification.”Audio,Speech,and Language Processing,IEEE Transactions on19.4(2011):788-798.
非专利文献2:David,Snyder,et al.“X-VECTORS:ROBUST DNN EMBEDDINGS FORSPEAKER RECOGNITION.”Center for Language and Speech Processing&Human LanguageTechnology Center of Excellence The Johns Hopkins University,Baltimore,MD21218,USA.
发明内容
发明要解决的问题
然而,即使将通过上述非专利文献1所公开的计算方法计算出的特征量用于说话者识别,在所取得的未知说话者的发声的语音中混入了杂音等的情况下,即使未知说话者的发声不是登记说话者的发声时,也会识别为登记说话者的发声。即,在杂音等混入新取得的未知说话者的发声的语音中的情况下,说话者识别的精度降低。
本公开是鉴于上述的情况而完成的,其目的为提供一种说话者识别装置、说话者识别方法及存储介质,即使在杂音混入的环境下也能够提高说话者识别的精度。
解决问题的手段
本公开的一个方式的说话者识别装置,具备:特征量算出部,其针对所取得的发声的语音算出两个以上的音响特征量;相似度计算部,其计算针对作为识别对象的说话者的一个以上的说话者性特征量与由所述特征量算出部算出的所述两个以上的音响特征量的每一个之间的相似度;合成部,其合成由所述相似度计算部计算出的两个以上的相似度;以及判定部,其基于由所述合成部得到的合成值,判定所述发声的说话者是否为所述作为识别对象的说话者,所述两个以上的音响特征量中的至少两个音响特征量的性质及所述两个以上的相似度中的至少两个相似度的性质中的至少一方不同。
此外,这些全面或具体的方式可以通过系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质来实现,也可以通过系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。
发明的效果
根据本公开的说话者识别装置等,即使在杂音混入的环境中,也能够提高说话者识别的精度。
附图说明
图1是表示实施方式的说话者识别系统的结构的一例的框图。
图2是表示图1所示的语音取得部的具体结构的一例的框图。
图3是表示实施方式的说话者识别装置的具体结构的一例的框图。
图4A是表示图3所示的说话者识别装置的第一相似度计算部所计算出的第一相似度的一例的图。
图4B是表示图3所示的说话者识别装置的第二相似度计算部所计算出的第二相似度的一例的图。
图5是表示实施方式的说话者识别装置的动作概要的流程图。
图6是表示比较例的说话者识别系统的结构的框图。
图7是表示实施方式的变形例1的说话者识别装置的具体结构的一例的框图。
图8是用于说明以不同的数据学习图7所示的第一模型以及第二模型的图。
图9是表示实施方式的变形例2的说话者识别装置的具体结构的一例的框图。
图10是表示实施方式的实施例的说话者识别装置的具体结构的一例的框图。
图11A是表示由图10所示的相似度计算部所计算出的相似度的一例的图。
图11B是表示由图10所示的相似度计算部所计算出的相似度的一例的图。
图11C是表示由图10所示的相似度计算部所计算出的相似度的一例的图。
图12是表示图10所示的合成部计算出的合成值的一例的图。
附图标记说明
1 说话者识别系统
10 语音取得部
11、11A、11B、11C、91 说话者识别装置
12、12A、12B、12C、92 特征量算出部
13、13A、13B、13C、93 相似度计算部
14 合成部
15、94 判定部
16、96 存储部
17 学习部
101 语音输入部
102 语音物理量计算部
121、121A 第一特征量算出部
122、122A 第二特征量算出部
131、131A、131B 第一相似度计算部
132、132A、132B 第二相似度计算部
161、162 说话者性特征量
163 学习完毕计算用模型
171 第一学习数据
172 第二学习数据
1200 DNN模型
1211 第一模型
1221 第二模型
具体实施方式
本公开的一个方式的说话者识别装置,具备:特征量算出部,其针对所取得的发声的语音算出两个以上的音响特征量;相似度计算部,其计算针对作为识别对象的说话者的一个以上的说话者性特征量与由所述特征量算出部算出的所述两个以上的音响特征量的每一个之间的相似度;合成部,其合成由所述相似度计算部计算出的两个以上的相似度;以及判定部,其基于由所述合成部得到的合成值,判定所述发声的说话者是否为所述作为识别对象的说话者,所述两个以上的音响特征量中的至少两个音响特征量的性质及所述两个以上的相似度中的至少两个相似度的性质中的至少一方不同。
根据本方式,合成根据至少两个性质不同的音响特征量计算出的与登记说话者的两个以上的相似度或者性质不同的两个以上的相似度,来判定是否与登记说话者一致。由此,即使在由于杂音混入而不能计算准确的音响特征量的情况下,也可以通过使用合成的相似度来更准确地判定是否与登记的说话者一致。因此,根据本方式,即使在杂音混入的环境下也能够提高说话者识别的精度。
另外,例如,也可以是,所述两个以上的相似度中的至少两个相似度是性质不同的第一相似度和第二相似度,所述第一相似度是使用作为所述一个以上的说话者性特征量中的第一说话者性特征量的学习完毕计算用模型,根据由所述特征量算出部算出的第一音响特征量,通过概率线性判别分析PLDA(Probabilistic Linear Discriminant Analysis)来计算的,该学习完毕计算用模型是针对包含所述说话者的说话方式的所述说话者的特征量进行了学习的学习完毕计算用模型,所述第二相似度是作为所述一个以上的说话者性特征量中的第二说话者性特征量与由所述特征量算出部算出的第二音响特征量的余弦距离来计算的。
另外,例如,也可以是,所述两个以上的音响特征量中的至少两个音响特征量是性质不同的第一音响特征量和第二音响特征量,所述第一音响特征量是通过由所述特征量算出部使用i-Vector将所述发声的语音物理量进行线性变换而算出的,所述第二音响特征量是通过由所述特征量算出部使用深度神经网络DNN(Deep Neural Network)将所述语音物理量进行非线性变换而算出的。
另外,例如,也可以是,所述两个以上的音响特征量中的至少两个音响特征量是性质不同的第一音响特征量和第二音响特征量,所述第一音响特征量是通过由所述特征量算出部使用DNN的第一模型进行非线性变换而算出的,所述第二音响特征量是通过由所述特征量算出部使用作为DNN的第二模型的、性质与所述第一模型不同的第二模型进行非线性变换而算出的,所述第一模型是使用第一学习数据进行了学习的模型,所述第一学习数据包括阈值以上的杂音环境下的所述作为识别对象的说话者的语音,所述第二模型是使用第二学习数据进行了学习的模型,所述第二学习数据包括低于所述阈值的杂音环境下的所述作为识别对象的说话者的语音。
此外,例如,也可以是,所述第一音响特征量和所述第二音响特征量相同。
此外,例如,也可以是,所述合成部通过将表示由所述相似度计算部计算出的相似度的每一个的得分合计,来合成所述两个以上的相似度。
此外,例如,也可以是,所述合成部通过以由所述相似度计算部计算出的相似度各自的平均值为0且方差为1的方式进行标准化并进行合计,来合成所述两个以上的相似度。
此外,例如,也可以是,所述合成部通过以由所述相似度计算部计算出的相似度各自的平均值为0且方差为1的方式进行标准化并计算加权和,来合成所述两个以上的相似度。
在此,例如,也可以是,所述合成部通过所取得的所述发声的时间长度越长则乘以越大的系数来计算所述加权和。
本公开的一个方式的说话者识别方法,由计算机进行,包括:特征量算出步骤,针对所取得的发声的语音算出两个以上的音响特征量;相似度计算步骤,计算针对作为识别对象的说话者的一个以上的说话者性特征量与在所述特征量算出步骤中算出的所述两个以上的音响特征量的每一个之间的相似度;合成步骤,合成在所述相似度计算步骤中计算出的两个以上的相似度;以及判定步骤,基于在所述合成步骤中得到的合成值,判定所述发声的说话者是否为所述作为识别对象的说话者,所述两个以上的音响特征量中的至少两个音响特征量的性质及所述两个以上的相似度中的至少两个相似度的性质中的至少一方不同。
另外,本公开的一个方式的记录介质,记录有使所述计算机执行如下步骤的程序:特征量算出步骤,针对所取得的发声的语音算出两个以上的音响特征量;相似度计算步骤,计算针对作为识别对象的说话者的一个以上的说话者性特征量与在所述特征量算出步骤中算出的所述两个以上的音响特征量的每一个之间的相似度;合成步骤,合成在所述相似度计算步骤中计算出的两个以上的相似度;以及判定步骤,基于在所述合成步骤中得到的合成值,判定所述发声的说话者是否为所述作为识别对象的说话者,所述两个以上的音响特征量中的至少两个音响特征量的性质及所述两个以上的相似度中的至少两个相似度的性质中的至少一方不同。
此外,这些总括性或具体的方式可以通过系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质来实现,也可以通过系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。
以下,参照附图对本公开的实施方式进行说明。以下说明的实施方式均表示本公开的一个具体例。以下的实施方式所示的数值、形状、构成要素、步骤、步骤的顺序等是一例,并非旨在限定本公开。另外,关于以下实施方式中的构成要素中的、表示最上位概念的独立权利要求中未记载的构成要素,作为任意的构成要素进行说明。另外,在所有的实施方式中,也能够将各自的内容组合。
(实施方式)
以下,参照附图,对实施方式中的说话者识别方法等进行说明。
[说话者识别系统1]
图1是表示实施方式的说话者识别系统1的结构的一例的框图。
本实施方式的说话者识别系统1用于对照例如A先生等发声者,例如用于出入管理系统或安保系统等。
如图1所示,说话者识别系统1具备语音取得部10、说话者识别装置11和存储部16。
[语音取得部10]
图2是表示图1所示的语音取得部的具体结构的一例的框图。
如图2所示,语音取得部10具备语音输入部101和语音物理量计算部102。
语音输入部101例如由麦克风构成,输入说话者的发声的语音。语音输入部101将输入的语音变换为语音信号并输出到语音物理量计算部102。
语音物理量计算部102根据发声的语音信号计算发声的语音物理量。在本实施方式中,语音物理量计算部102根据发声的语音信号计算作为语音的特征量的MFCC(Mel-Frequency Cepstrum Coefficients,梅尔频率倒谱系数)。MFCC是表示发声者的声道特性的特征量。另外,语音物理量计算部102不限于计算MFCC作为发声的语音物理量的情况,可以计算通过将发声的语音信号与梅尔滤波器组相乘的值,也可以计算发声的语音信号的频谱图。另外,语音物理量计算部102也可以使用DNN(Deep Neural Network,深度神经网络),根据发声的语音信号计算语音的特征量作为发声的语音物理量。
[说话者识别装置11]
图3是表示本实施方式的说话者识别装置的具体结构的一例的框图。
说话者识别装置11例如由具备处理器(微处理器)、存储器、通信接口等的计算机来实现。说话者识别装置11可以包含在服务器中进行动作,也可以是说话者识别装置11的一部分结构包含在云服务器中进行动作。说话者识别装置11进行识别发声者是否与识别对象登记说话者一致的处理。
如图1所示,说话者识别装置11具备特征量算出部12、相似度计算部13、合成部14、以及判定部15。另外,说话者识别装置11也可以还具备存储部16,但不是必须的结构。
[特征量算出部12]
特征量算出部12针对所取得的发声的语音算出两个以上的音响特征量。更具体而言,特征量算出部12通过将发声的语音物理量变换为两个以上说话者性特征量,来算出该两个以上的音响特征量。两个以上的音响特征量中的至少两个音响特征量的性质可以不同。
在本实施方式中,特征量算出部12如图3所示,具备第一特征量算出部121和第二特征量算出部122,通过将从语音取得部10输入的发声的语音物理量变换为两个说话者性特征量,来算出性质不同的两个音响特征量。以下,将两个音响特征量作为第一音响特征量和第二音响特征量进行说明。
<第一特征量算出部121>
第一特征量算出部121通过使用i-Vector将从语音取得部10输入的发声的语音物理量线性变换为说话者性特征量,来算出第一音响特征量。
在此,所谓使用i-Vector的方法,是使用混合高斯模型分布,以发声的统计性特征量为基础,提取作为说话者固有的特征量的说话者性特征量作为发声的音响特征量的统计方法。在使用i-Vector的方法中,由于发声越长越容易得到准确的统计量,所以具有如下优点,即能够得到发声越长性能越容易提高的说话者性特征量。算出方法的详细内容在非专利文献1中公开,因此省略详细说明。
<第二特征量算出部122>
第二特征量算出部122通过使用DNN(Deep Neural Network)将从语音取得部10输入的发声的语音物理量非线性变换为说话者性特征量,来算出性质与第一音响特征量不同的第二音响特征量。
在此,所谓使用DNN的方法,是指通过将发声的语音物理量输入到由学习完毕的特征提取部和识别部构成的DNN,输出将可变长度的发声映射到固定维度插入(日语:固定次元埋め込み)的发声的音响特征量即说话者性特征量的方法。将可变长度的发声映射到固定维度插入来算出说话者性特征量的方法被称为x-Vector。即,第一特征量算出部121使用DNN,根据发声的语音物理量算出被称为x-Vector的作为说话者固有的特征的第一音响特征量。在使用x-Vector的方法中,具有如下优点,即能够得到根据准备的模型,即使发声短性能也不易劣化的说话者性特征量。此外,x-Vector的算出方法等的详细内容在非专利文献2中公开,因此省略详细说明。
[相似度计算部13]
相似度计算部13计算针对识别对象说话者(即,作为识别对象的说话者)的一个以上说话者性特征量、和由特征量算出部12所算出的两个以上的音响特征量的每一个之间的相似度。
在本实施方式中,如图3所示,相似度计算部13具备第一相似度计算部131和第二相似度计算部132。
<第一相似度计算部131>
第一相似度计算部131计算由第一特征量算出部121所算出的第一音响特征量与存储于存储部16的识别对象说话者的说话者性特征量161之间的相似度。在此,说话者性特征量161是预先存储的说话者性特征量。更具体而言,说话者性特征量161是使用i-Vector对预先收集的识别对象说话者的语音物理量进行了线性变换的说话者性特征量。在图3所示的例子中,说话者性特征量161是作为识别对象说话者的A先生的说话者性特征量。
在本实施方式中,第一相似度计算部131在向量空间模型中使用内积来计算余弦,从而计算表示第一音响特征量和说话者特性161之间的向量间角度的余弦距离(也称为余弦相似度)作为第一相似度。在这种情况下,向量间角度的数值越大表示相似度越低。另外,第一相似度计算部131可以使用表示第一音响特征量的向量和表示说话者性特征量161的向量的内积来计算取-1到1的值的余弦距离作为第一相似度。在这种情况下,表示如下情况:表示余弦距离的数值越大,相似度越高。
<第二相似度计算部132>
第二相似度计算部132计算由第二特征量算出部122所算出的第二音响特征量与存储于存储部16的识别对象说话者的说话者性特征量162之间的相似度。在此,说话者性特征量162是预先存储的说话者性特征量。更具体而言,说话者性特征量162是使用DNN对预先收集的识别对象说话者的语音物理量进行了非线性变换的说话者性特征量。在图3所示的例子中,说话者性特征量162是作为识别对象说话者的A先生的说话者性特征量。
在本实施方式中,第二相似度计算部132在向量空间模型中使用内积来计算余弦,从而计算表示第二音响特征量和说话者特性量162之间的向量间角度的余弦距离作为第二相似度。另外,第二相似度计算部132可以使用表示第二音响特征量的向量和表示说话者性特征量162的向量的内积来计算取-1到1的值的余弦距离作为第二相似度。
这样,在本实施方式中,可以通过相同的方法计算由第一相似度计算部131所计算的第一相似度和由第二相似度计算部132所计算的第二相似度。
[合成部14]
合成部14合成由相似度计算部13所计算的两个以上的相似度。合成部14可以通过将表示由相似度计算部13所计算的相似度的每一个的得分合计来合成两个以上的相似度。此外,合成部14可以通过以由相似度计算部13所计算的相似度各自的平均值为0且方差为1的方式进行标准化并合计,来合成两个以上的相似度。
另外,合成部14可以通过以由相似度计算部13所计算的相似度各自的平均值为0且方差为1的方式进行标准化并计算加权和,来合成两个以上的相似度。在这种情况下,合成部14只要所取得的发声的时间长度越长则乘以越大的系数来计算加权和即可。
在本实施方式中,合成部14通过将第一相似度计算部131所计算的第一相似度和第二相似度计算部132所计算的第二相似度相加即合计来合成。例如,合成部14可通过将作为表示第一相似度的得分的向量间角度与作为表示第二相似度的得分的向量间角度相加来计算合成值。
另外,设为第一相似度作为第一音响特征量而根据发声越长性能越容易提高的说话者性特征量来计算,第二相似度作为第二音响特征量而根据即使发声短性能也不易劣化的说话者性特征量来计算。在这种情况下,合成部14可通过以作为表示第一相似度的得分的向量间角度和作为表示第二相似度的得分的向量间角度的平均值为0并且方差为1的方式进行标准化、并计算加权和,来计算合成了第一相似度和第二相似度的合成值。只要加权和随着发声的时间长度越长乘以越大的系数即可。
[判定部15]
判定部15基于由合成部14得到的合成值来判定发声者是否为识别对象说话者。
在本实施方式中,判定部15使用由合成部14得到的合成值即表示第一相似度的得分和表示第二相似度的得分的相加值,来判定发声者是否为识别对象说话者。在图3所示的例子中,判定部15使用由合成部14得到的相加值作为合成值,判定发声者是否为A先生。
在此,使用图4A及图4B对在发声者不是识别对象说话者的情况、并且语音取得部10取得的发声中混入了杂音等发声以外的分量的情况下,使用合成值判定发声者不是识别对象说话者的方法的一例。
图4A是表示图3所示的说话者识别装置11的第一相似度计算部131所计算的第一相似度的一例的图。图4A示出了在语音取得部10取得的发声中混入了杂音等发声以外的分量的情况下,示出了表示由第一特征量算出部121所算出的第一特征量的向量即含杂音发声的第一特征量向量。另外,在图4A中,为了参考,示出了存储于存储部16的登记特征量向量,该登记特征量向量是表示作为识别对象说话者的A先生的说话者性特征量的向量。另外,图4A中,为了参考,示出了由语音取得部10所取得的仅发声的第一特征量向量,该第一特征量向量是表示仅发声即发声中未混入杂音等发声以外的分量的情况下由第一特征量算出部121所算出的第一特征量的向量。
图4B是表示图3所示的说话者识别装置11的第二相似度计算部132所计算的第二相似度的一例的图。与图4A同样地,在图4B中在语音取得部10取得的发声中混入了杂音等发声以外的分量的情况下,示出了表示由第二特征量算出部122所算出的第二特征量的向量即含杂音发声的第二特征量向量。另外,在图4B中,为了参考,示出了存储于存储部16的登记特征量向量,该登记特征量向量是表示作为识别对象说话者的A先生的说话者性特征量的向量。另外,在图4B中,为了参考,示出了由语音取得部10取得的仅发声的第二特征量向量,该第二特征量向量是表示仅发声即发声中未混入杂音等发声以外的分量的情况下由第二特征量算出部122所算出的第二特征量的向量。
如图4A所示,含杂音发声的第一特征量与A的说话者性特征量的相似度由含杂音发声的第一特征量向量与登记特征量向量的向量间角度θ1表示,例如为30度。另一方面,如图4B所示,含杂音发声的第二特征量与A的说话者性特征量的相似度由含杂音发声的第二特征量向量与登记特征量向量的向量间角度θ2表示,例如为90度。
在这种情况下,由合成部14算出的相似度的合成值成为将30度和90度相加而得到的120度。因此,由于作为由合成部14得到的合成值的角度较大,判定部15判定为发声者不同于A即不是识别对象说话者。
另外,在发声者是识别对象说话者的情况下,含杂音发声的第一特征量向量和登记特征量向量之间的向量间角度以及在含杂音发声的第二特征量向量和登记特征量向量之间的向量间角度都易于变小。而且,由于作为由合成部14得到的合成值的角度易于变小,所以判定部15根据由合成部14得到的合成值容易地判定为发声者是与A相同的说话者即识别对象说话者。
另一方面,在发声者不同于识别对象说话者的情况下,即使在含杂音发声的第一特征量向量和登记特征量向量之间的向量间角度以及含杂音发声的第二特征量向量和登记特征量向量之间的向量间角度中的一方具有较小的值,另一个具有较小的值的可能性也低。因此,由于由合成部14得到的合成值不易变小,所以判定部15根据由合成部14得到的合成值容易地判定为发声者不同于识别对象说话者。
[存储部16]
存储部16例如由硬盘驱动器或固态驱动器等可改写的非易失性存储器构成,存储登记的识别对象说话者固有的特征量即说话者性特征量。在本实施方式中,如图3所示,存储部16存储有A的说话者性特征量161和A的说话者性特征量162。如上所述,说话者性特征量161是使用i-Vector对预先收集的识别对象说话者的语音物理量进行了线性变换的说话者性特征量。说话者性特征量162是使用DNN对预先收集的识别对象说话者的语音物理量进行了非线性变换的说话者性特征量。
[说话者识别装置11的动作]
接着,说明如上构成的说话者识别装置11的动作。
图5是表示实施方式的说话者识别装置11的动作概要的流程图。
首先,说话者识别装置11针对由语音取得部10取得的发声的语音算出两个以上的音响特征量(S10)。接着,说话者识别装置11计算针对识别对象说话者的一个以上说话者性特征量与在步骤S10中所算出的两个以上的音响特征量的每一个之间的相似度(S11)。接着,说话者识别装置11合成在步骤S11中所计算的两个以上的相似度(S12)。接着,说话者识别装置11基于在步骤S11中通过合成两个以上的相似度而得到的合成值,来判定语音取得部10所取得的发声的说话者是否为识别对象说话者(S13)。
[效果等]
如上所述,根据本实施方式,能够实现即使在杂音混入的环境下也能够提高说话者识别的精度的说话者识别装置11。
在此,使用比较例,对本实施方式的说话者识别装置11的效果进行说明。
图6是表示比较例的说话者识别装置91的结构的框图。
对与图1及图2同样的要素赋予相同的附图标记,省略详细的说明。
比较例的说话者识别装置91具备特征量算出部92、相似度计算部93、判定部94和存储部96。
特征量算出部92通过使用i-Vector将从语音物理量计算部102取得的发声的语音物理量线性变换为说话者性特征量,来算出取得的发声的特征量(第一特征量)。另外,特征量算出部92相当于与第一特征量算出部121同样的要素。
相似度计算部93计算由特征量算出部92所算出的特征量(第一特征量)与存储于存储部96的作为识别对象说话者的A先生的说话者性特征量之间的相似度。在图6所示的例子中,相似度计算部93计算表示由特征量算出部92所算出的特征量与存储于存储部96的A先生的说话者性特征量之间的向量间角度的余弦距离,作为相似度。此外,相似度计算部93相当于与第一相似度计算部131同样的元素。
判定部94基于由相似度计算部93所计算的相似度来判定发声者是否为识别对象说话者。
在此,发声者不是A先生即识别对象说话者,并且取得的发声中混入杂音等发声以外的分量。在这种情况下,如图4A所示,含杂音发声的第一特征量与A的说话者性特征量的相似度由含杂音发声的第一特征量向量与登记特征量向量之间的向量间角度θ1表示,例如成为30度。因此,由于在含杂音发声的第一特征量向量与登记特征量向量之间的向量间角度θ1较小,判定部94会错误地判定为发声者是作为识别对象说话者的A先生。
即,如图4A所示,在取得的发声中未混入杂音等发声以外的分量的情况下,由于仅发声的特征量向量和A的登记特征量向量之间的向量间角度较大,判定部94能够正确地判定发声者不同于作为识别对象说话者的A。但是,在取得的发声中混入有杂音等发声以外的分量的情况下,由于特征量算出部92不能计算准确的说话者性特征量,判定部94基于作为不准确的说话者性特征量的含杂音发声的第一特征量(含杂音发声的第一特征量向量),会错误地判定。
另一方面,在本实施方式的说话者识别装置11中,如上所述,合成根据至少两个性质不同的音响特征量所计算的与登记说话者的两个以上的相似度,判定是否与登记说话者一致。由此,即使在由于混入杂音而不能计算准确的音响特征量的情况下,也能够通过使用合成了的相似度来更准确地判定是否与登记说话者一致。
这样,本实施方式的说话者识别装置11即使在杂音混入的环境下也能够提高说话者识别的精度。
(变形例1)
在上述实施方式中,说明了通过将发声的语音物理量线性变换及非线性变换为说话者性特征量并得到至少两个的性质不同的音响特征量,从而合成根据该音响特征量所计算的与登记说话者之间的两个以上的相似度的情况,但不限于此。通过使用利用不同的学习数据学习的至少两个模型,根据发声的语音物理量算出说话者性特征量,从而得到至少两个性质不同的音响特征量,可以说是同样的。以下,将该情况作为变形例1进行说明。另外,以下,以与上述实施方式的不同点为中心进行说明。
[说话者识别装置11A]
图7是表示本实施方式的变形例1的说话者识别装置11A的具体结构的一例的框图。对于与图3同样的要素赋予相同的附图标记,并省略详细的说明。
如图7所示,说话者识别装置11A具备特征量算出部12A、相似度计算部13A、合成部14和判定部15。另外,说话者识别装置11A也可以还具备存储部16,但不是必须的结构。相对于上述实施方式的说话者识别装置11,图7所示的说话者识别装置11A的特征量算出部12A和相似度计算部13A的结构不同。
[特征量算出部12A]
特征量算出部12A通过使用利用不同的数据学习的至少两个模型,将发声的语音物理量变换为两个以上说话者性特征量,来算出该两个以上的音响特征量。在两个以上的音响特征量中,使用通过使用利用不同数据学习的至少两个DNN的模型所算出的至少两个音响特征量的性质不同。
在本变形例中,特征量算出部12A如图7所示,具备第一特征量算出部121A和第二特征量算出部122A。特征量算出部12A使用DNN的第一模型1211和DNN的第二模型1221,将从语音取得部10输入的发声的语音物理量变换为两个说话者性特征量,来算出两个音响特征量。以下,将两个音响特征量作为第一音响特征量和第二音响特征量进行说明。
<第一特征量算出部121A>
第一特征量算出部121A通过使用DNN的第一模型1211将从语音取得部10输入的发声的语音物理量非线性变换为说话者性特征量,来算出第一音响特征量。更具体而言,第一特征量算出部121A使用DNN的第一模型1211,根据发声的语音物理量算出被称为x-Vector的作为说话者固有的特征的第一音响特征量。
<第二特征量算出部122A>
第二特征量算出部122A,通过使用作为DNN的第二模型1221的、性质与第一模型1211不同的第二模型1221,将从语音取得部10输入的发声的语音物理量非线性变换为说话者性特征量,来算出第一音响特征量。更具体而言,第二特征量算出部122A使用DNN的第二模型1221,根据发声的语音物理量算出被称为x-Vector的作为说话者固有的特征的第二音响特征量。
在此,如上所述,第一模型1211和第二模型1221是使用不同的数据学习的DNN的模型。使用图8对此进行说明。
图8是用于说明通过不同的数据学习图7所示的第一模型1211以及第二模型1221的图。
DNN模型1200是由特征提取部和识别部构成的DNN的模型,并且是参数等未被学习的模型。DNN模型1200通过由计算机等的学习部17使用第一学习数据171学习而成为第一模型1211,该第一学习数据171包含阈值以上的杂音环境下的识别对象说话者的语音。即,第一模型1211是使用第一学习数据学习的模型,该第一学习数据包含阈值以上的杂音环境中的识别对象说话者的语音。由此,第一模型1211成为即使在杂音多的环境下也能够高精度地识别发声的语音的DNN的模型。
此外,DNN模型1200通过由学习部17使用第二学习数据172来学习而成为第二模型1221,该第二学习数据172包含低于阈值的杂音环境下的识别对象说话者的语音。即,第二模型1221是使用第二学习数据学习的模型,第二学习数据包含在低于阈值的杂音环境下的识别对象说话者的语音。由此,第二模型1221成为在杂音少的环境下能够高精度地识别发声的语音的DNN的模型。
这样,在本变形例中,第一模型1211和第二模型1221是使用不同的学习数据学习的性质不同的DNN的模型。因此,算出的第一音响特征量以及第二音响特征量也性质不同。
[相似度计算部13A]
相似度计算部13A计算针对识别对象说话者的一个以上说话者性特征量、和由特征量算出部12所算出的两个以上的音响特征量的每一个之间的相似度。在本变形例中,也说明了通过相同的计算方法计算两个以上的相似度的情况,但也可以通过两个以上的相似度中的至少两个相似度不同的计算方法来计算。
在本变形例中,如图7所示,相似度计算部13A具备第一相似度计算部131A和第二相似度计算部132A。
<第一相似度计算部131A>
第一相似度计算部131A计算由第一特征量算出部121A所算出的第一音响特征量、和存储于存储部16的识别对象说话者的说话者性特征量162之间的相似度。在图7所示的例子中,说话者性特征量162也是作为识别对象说话者的A先生的说话者性特征量。在本变形例中,第一相似度计算部131A计算表示第一音响特征量和说话者性特征量162之间的向量间角度的余弦距离作为第一相似度。
<第二相似度计算部132A>
第二相似度计算部132A计算由第二特征量算出部122A所算出的第二音响特征量、和存储于存储部16的识别对象说话者的说话者性特征量162之间的相似度。在本变形例中,第二相似度计算部132A计算表示第二音响特征量和说话者性特征量162之间的向量间角度的余弦距离作为第二相似度。
[效果等]
如上所述,根据本变形例,能够实现即使在杂音混入的环境下也能够提高说话者识别的精度的说话者识别装置11A。更具体而言,如上所述,本变形例的说话者识别装置11A通过使用利用不同的学习数据学习的至少两个模型,根据发声的语音物理量算出说话者性特征量,能够得到至少两个性质不同的音响特征量。然后,本变形例的说话者识别装置11A合成根据至少两个性质不同的音响特征量所计算的与登记说话者的两个以上的相似度,判定是否与登记说话者一致。由此,即使在由于混入杂音而不能计算准确的音响特征量的情况下,也能够通过使用通过合成相似度而得到的合成值来更准确地判定是否与登记说话者一致。
这样,本变形例的说话者识别装置11A即使在杂音混入的环境下也能够提高说话者识别的精度。
另外,在本变形例中,说明了使用利用不同的学习数据学习的两个DNN的模型,根据发声的语音物理量算出被称为x-Vector的说话者固有的特征(说话者性特征量),但不限于此。也可以使用利用不同的学习数据学习的两个统计模型,根据发声的语音物理量算出被称为i-Vector的说话者固有的特征(说话者性特征量),可以说是同样的。
(变形例2)
在上述实施方式以及变形例1中,说明了合成根据至少两个性质不同的音响特征量所计算的与登记说话者的两个以上的相似度的情况,但不限于此。在根据性质相同(性质并非不同)的至少两个音响特征量,合成与登记说话者的性质不同的两个以上的相似度的情况下也同样地,即使在杂音混入的环境下,也能够提高说话者识别的精度。以下,将该情况作为变形例2进行说明。另外,以下,以与上述实施方式以及变形例2的不同点为中心进行说明。
[说话者识别装置11B]
图9是表示本实施方式的变形例2的说话者识别装置11B的具体结构的一例的框图。对于与图3同样的要素赋予相同的附图标记,并省略详细的说明。
如图9所示,说话者识别装置11B具备特征量算出部12B、相似度计算部13B、合成部14和判定部15。另外,说话者识别装置11B也可以还具备存储部16,但不是必须的结构。相对于上述实施方式的说话者识别装置11,图9所示的说话者识别装置11B的特征量算出部12B和相似度计算部13B的结构不同。此外,本变形例的存储部16还存储有在相似度计算部13B中使用的学习完毕计算用模型163。
[特征量算出部12B]
特征量算出部12B通过将发声的语音物理量变换为两个以上说话者性特征量,来算出该两个以上的音响特征量。
在本变形例中,如图9所示,特征量算出部12B具备两个第一特征量算出部121,根据从语音取得部10输入的发声的语音物理量,变换为两个说话者性特征量,由此算出两个音响特征量。两个音响特征量可以被称为第一音响特征量和第二音响特征量,但是由于第一音响特征量和第二音响特征量相同,以下作为两个第一音响特征量进行说明。
[相似度计算部13B]
相似度计算部13B计算针对识别对象说话者的一个以上的说话者性特征量、和由特征量算出部12所算出的两个以上的音响特征量的每一个之间的相似度。以下,说明两个以上的相似度的性质中的至少两个相似度的性质不同的情况。
在本变形例中,如图9所示,相似度计算部13B具备第一相似度计算部131B和第二相似度计算部132B。
<第一相似度计算部131B>
第一相似度计算部131B使用存储于存储部16的学习完毕计算用模型163来计算第一相似度,该第一相似度是由第一特征量算出部121所算出的第一音响特征量与作为识别对象说话者的A先生的说话者性特征量之间的相似度。更具体而言,第一相似度计算部131B使用存储于存储部16的学习完毕计算用模型,根据由第一特征量算出部121所算出的第一音响特征量,通过概率线性判别分析(Probabilistic Linear Discriminant Analysis:PLDA)来计算第一相似度。
在此,学习完毕计算用模型是针对包括识别对象说话者的说话方式的说话者性特征量学习的计算用模型,是作为一个以上说话者性特征量中的一个说话者性特征量的计算用模型。学习完毕计算用模型是通过事先学习即使是相同说话者的发声在其说话方式及周围环境等的收音条件下特征量如何变化所得的分布而得到的模型。由此,学习完毕计算用模型成为如下模型:当由语音取得部10输入说话者的发声的语音时的收音条件,越接近事先学习时的条件,具有越高的性能。
<第二相似度计算部132B>
第二相似度计算部132B计算由第一特征量算出部121所算出的第一音响特征量与存储于存储部16的识别对象说话者的说话者性特征量161之间的相似度。在本变形例中,第二相似度计算部132B计算表示第一音响特征量和说话者性特征量161之间的向量间角度的余弦距离作为第二相似度。
另外,第二相似度计算部132B的相似度计算不需要学习完毕说话者模型。因此,与第一相似度相比,第二相似度不易取决于当语音取得部10输入说话者的发声的语音时的收音条件。这样,第一音响特征量和第二音响特征量性质不同。
[效果等]
如上所述,根据本变形例,能够实现即使在杂音混入的环境下也可以提高说话者识别的精度的说话者识别装置11B。更具体而言,本变形例的说话者识别装置11B,如上所述,合成与登记说话者之间的两个以上的相似度、即性质不同的两个以上的相似度,判定是否与登记说话者一致。由此,即使在由于混入杂音而不能计算出准确的音响特征量的情况下,使用通过合成性质不同的相似度而得到的合成值,从而能够更准确地判定是否与登记说话者一致。
这样,本变形例的说话者识别装置11B即使在杂音混入的环境下也能够提高说话者识别的精度。
(实施例)
在上述实施方式等中,作为两个以上的音响特征量和两个以上的相似度的一例,说明了根据两个音响特征量计算两个相似度并合成的情况,但不限于此。在本实施例中,作为两个以上的音响特征量和两个以上的相似度的一例,说明根据三个音响特征量计算三个相似度并合成的情况。此外,以下,以与上述实施方式等不同的点为中心进行说明。
[说话者识别装置11C]
图10是表示本实施方式的实施例的说话者识别装置11C的具体结构的一例的框图。对与图3、图7及图9同样的要素赋予相同的附图标记,省略详细说明。
如图10所示,说话者识别装置11C具备特征量算出部12C、相似度计算部13C、合成部14和判定部15。另外,说话者识别装置11C还可以具备存储部16,但不是必须的结构。相对于上述实施方式等的说话者识别装置11等,图10所示的说话者识别装置11C的特征量算出部12C和相似度计算部13C的结构不同。此外,本变形例的存储部16还存储有在相似度计算部13C中使用的学习完毕计算用模型163。
[特征量算出部12C]
特征量算出部12C通过将发声的语音物理量变换为三个以上说话者性特征量,来算出该三个以上音响特征量。
在本实施例中,如图10所示,特征量算出部12C具备两个第一特征量算出部121和一个第二特征量算出部122,通过根据从语音取得部10输入的发声的语音物理量变换为三个说话者性特征量,算出三个音响特征量。三个音响特征量可被称为第一音响特征量至第三音响特征量,但仿效上述实施方式,以下称为两个第一音响特征量(i-Vector)和一个第二音响特征量(x-Vector)来说明。另外,两个第一音响特征量(i-Vector)和一个第二音响特征量(x-Vector)由于计算方法不同,性质不同。
[相似度计算部13C]
相似度计算部13C计算针对识别对象说话者的多个说话者性特征量与由特征量算出部12C所算出的三个音响特征量的每一个之间的相似度。
在本实施例中,如图10所示,相似度计算部13C具备第一相似度计算部131、第一相似度计算部131B和第二相似度计算部132。相似度计算部13C根据由特征量算出部12C所算出的三个音响特征量,算出相对于存储于存储部16的识别对象说话者的说话者性特征量的三个相似度。三个相似度可以被称为第一相似度至第三相似度,,但仿效上述实施方式,以下称为第一相似度(余弦距离)、第二相似度(x-Vector)和第一相似度(PLDA)来说明。另外,由于第一相似度(余弦距离)及第二相似度(余弦距离)与第一相似度(PLDA)计算方法不同而性质不同。
[合成部14]
合成部14合成由相似度计算部13所计算的两个以上的相似度。在本实施例中,合成部14通过以第一相似度(余弦距离)、第二相似度(余弦距离)和第一相似度(PLDA)各自的平均值为0且方差为1的方式进行标准化并计算加权和,合成三个相似度。
在此,图11A至图11C是表示图10所示的相似度计算部13C所计算的相似度的一例的图。图11A示出了由图10所示的第二相似度计算部132所计算的、取从-1到1的值的第二相似度(余弦距离)的一例。图11B示出了图10所示的第一相似度计算部131所计算的、取从-1到1的值的第一相似度(余弦距离)的一例。图11C示出了图10所示的第一相似度计算部131B所计算的第一相似度(PLDA)的一例。另外,图11A至图11C中的测试发声示出了由语音取得部10取得的十三个独立的发声的语音文件。另外,图11A至图11C中所示的本人或他人示出了进行了测试发声的发声者是否为识别对象说话者。
图12是表示图10所示的合成部14所计算的合成值的一例的图。图12示出了通过以图11A所示的第一相似度(余弦距离)、图11B所示的第二相似度(余弦距离)和图11C所示的第一相似度(PLDA)各自的平均值为0且方差为1的方式进行标准化并计算加权和而得到的合成值。
根据图12可知,通过设定例如1.7等阈值,能够使用合成值来判定测试发声者是否为识别对象说话者。
即,即使三个音响特征量中的至少两个音响特征量的性质及三个相似度中的至少两个相似度的性质不同,只要以三个相似度各自的平均值为0且方差为1的方式进行标准化并计算加权和而得到合成值即可。由此,使用该合成值,能够用于判定进行了测试发声的发声者是否为识别对象说话者。因此,能够根据性质不同的两个相似度等得到合成值,该合成值能够用于判定进行了测试发声的发声者是否为识别对象说话者。
以上,对实施方式以及变形例等的说话者识别装置进行了说明,但本公开并不限定于该实施方式。
例如,根据上述实施方式和变形例的说话者识别装置中包括的各处理部通常作为集成电路即LSI而被实现。这些可以单独地进行单芯片化,也可以包括一部分或全部地进行单芯片化。
另外,集成电路化不限于LSI,也可以由专用电路或通用处理器来实现。也可以利用在LSI制造后能够编程的FPGA(Field Programmable Gate Array,现场可编程门阵列)、或者能够对LSI内部的电路单元的连接或设定进行重构的可重构处理器。
此外,本公开可以实现为由说话者识别装置执行的说话者识别方法。
此外,在上述各实施方式中,各构成要素可以由专用的硬件构成,或者通过执行适合于各构成要素的软件程序来实现。各构成要素也可以通过CPU或处理器等程序执行部读出并执行记录在硬盘或半导体存储器等记录介质中的软件程序来实现。
此外,框图中的功能块的分割是一例,也可以将多个功能块作为一个功能块来实现,或者将一个功能块分割为多个,也可以将一部分功能转移到其他功能块。另外,也可以由单一的硬件或软件并行或分时地处理具有相似功能的多个功能块的功能。
此外,执行流程图中的各步骤的顺序是为了具体说明本公开而例示的,也可以是上述以外的顺序。另外,上述步骤的一部分也可以与其他步骤同时(并行)执行。
以上,基于实施方式以及变形例等对一个或多个方式的说话者识别装置进行了说明,但本公开并不限定于该实施方式以及变形例等。只要不脱离本公开的主旨,将本领域技术人员想到的各种变形实施于本实施方式以及变形例等而得到的方式、将不同的实施方式以及变形例等中的构成要素组合而构建的方式也可以包含于一个或多个方式的范围内。
工业适用性
本公开能够利用于说话者识别装置、说话者识别方法以及记录介质,例如进入/退出管理系统、安保系统、AI扬声器、呼叫中心等,能够利用于需要根据发声的语音进行说话者识别的功能的说话者识别装置、说话者识别方法以及记录介质。

Claims (11)

1.一种说话者识别装置,具备:
特征量算出部,其针对所取得的发声的语音算出两个以上的音响特征量;
相似度计算部,其计算针对作为识别对象的说话者的一个以上的说话者性特征量与由所述特征量算出部算出的所述两个以上的音响特征量的每一个之间的相似度;
合成部,其合成由所述相似度计算部计算出的两个以上的相似度;以及
判定部,其基于由所述合成部得到的合成值,判定所述发声的说话者是否为所述作为识别对象的说话者,
所述两个以上的音响特征量中的至少两个音响特征量的性质及所述两个以上的相似度中的至少两个相似度的性质中的至少一方不同。
2.根据权利要求1所述的说话者识别装置,其中,
所述两个以上的相似度中的至少两个相似度是性质不同的第一相似度和第二相似度,
所述第一相似度是使用作为所述一个以上的说话者性特征量中的第一说话者性特征量的学习完毕计算用模型,根据由所述特征量算出部算出的第一音响特征量,通过概率线性判别分析PLDA来计算的,该学习完毕计算用模型是针对包含所述说话者的说话方式的所述说话者的特征量进行了学习的学习完毕计算用模型,
所述第二相似度是作为所述一个以上的说话者性特征量中的第二说话者性特征量与由所述特征量算出部算出的第二音响特征量的余弦距离来计算的。
3.根据权利要求1所述的说话者识别装置,其中,
所述两个以上的音响特征量中的至少两个音响特征量是性质不同的第一音响特征量和第二音响特征量,
所述第一音响特征量是通过由所述特征量算出部使用i-Vector将所述发声的语音物理量进行线性变换而算出的,
所述第二音响特征量是通过由所述特征量算出部使用深度神经网络DNN将所述语音物理量进行非线性变换而算出的。
4.根据权利要求1所述的说话者识别装置,其中,
所述两个以上的音响特征量中的至少两个音响特征量是性质不同的第一音响特征量和第二音响特征量,
所述第一音响特征量是通过由所述特征量算出部使用深度神经网络DNN的第一模型进行非线性变换而算出的,
所述第二音响特征量是通过由所述特征量算出部使用作为DNN的第二模型的、性质与所述第一模型不同的第二模型进行非线性变换而算出的,
所述第一模型是使用第一学习数据进行了学习的模型,所述第一学习数据包括阈值以上的杂音环境下的所述作为识别对象的说话者的语音,
所述第二模型是使用第二学习数据进行了学习的模型,所述第二学习数据包括低于所述阈值的杂音环境下的所述作为识别对象的说话者的语音。
5.根据权利要求2所述的说话者识别装置,其中,
所述第一音响特征量和所述第二音响特征量相同。
6.根据权利要求1至5中任一项所述的说话者识别装置,其中,
所述合成部通过将表示由所述相似度计算部计算出的相似度的每一个的得分合计,来合成所述两个以上的相似度。
7.根据权利要求1至5中任一项所述的说话者识别装置,其中,
所述合成部通过以由所述相似度计算部计算出的相似度各自的平均值为0且方差为1的方式进行标准化并进行合计,来合成所述两个以上的相似度。
8.根据权利要求1至5中任一项所述的说话者识别装置,其中,
所述合成部通过以由所述相似度计算部计算出的相似度各自的平均值为0且方差为1的方式进行标准化并计算加权和,来合成所述两个以上的相似度。
9.根据权利要求8所述的说话者识别装置,其中,
所述合成部通过所取得的所述发声的时间长度越长则乘以越大的系数来计算所述加权和。
10.一种说话者识别方法,由计算机进行,其中,包括:
特征量算出步骤,针对所取得的发声的语音算出两个以上的音响特征量;
相似度计算步骤,计算针对作为识别对象的说话者的一个以上的说话者性特征量与在所述特征量算出步骤中算出的所述两个以上的音响特征量的每一个之间的相似度;
合成步骤,合成在所述相似度计算步骤中计算出的两个以上的相似度;以及
判定步骤,基于在所述合成步骤中得到的合成值,判定所述发声的说话者是否为所述作为识别对象的说话者,
所述两个以上的音响特征量中的至少两个音响特征量的性质及所述两个以上的相似度中的至少两个相似度的性质中的至少一方不同。
11.一种非暂时性的计算机可读取的记录介质,记录有使所述计算机执行如下步骤的程序:
特征量算出步骤,针对所取得的发声的语音算出两个以上的音响特征量;
相似度计算步骤,计算针对作为识别对象的说话者的一个以上的说话者性特征量与在所述特征量算出步骤中算出的所述两个以上的音响特征量的每一个之间的相似度;
合成步骤,合成在所述相似度计算步骤中计算出的两个以上的相似度;以及
判定步骤,基于在所述合成步骤中得到的合成值,判定所述发声的说话者是否为所述作为识别对象的说话者,
所述两个以上的音响特征量中的至少两个音响特征量的性质及所述两个以上的相似度中的至少两个相似度的性质中的至少一方不同。
CN201910930409.6A 2018-10-05 2019-09-29 说话者识别装置、说话者识别方法及记录介质 Active CN111009248B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862741712P 2018-10-05 2018-10-05
US62/741712 2018-10-05
JP2019107341A JP7326033B2 (ja) 2018-10-05 2019-06-07 話者認識装置、話者認識方法、及び、プログラム
JP2019-107341 2019-06-07

Publications (2)

Publication Number Publication Date
CN111009248A true CN111009248A (zh) 2020-04-14
CN111009248B CN111009248B (zh) 2024-07-05

Family

ID=70051817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910930409.6A Active CN111009248B (zh) 2018-10-05 2019-09-29 说话者识别装置、说话者识别方法及记录介质

Country Status (2)

Country Link
US (1) US11222641B2 (zh)
CN (1) CN111009248B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793615A (zh) * 2021-09-15 2021-12-14 北京百度网讯科技有限公司 说话人识别方法、模型训练方法、装置、设备及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102294638B1 (ko) * 2019-04-01 2021-08-27 한양대학교 산학협력단 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
US20200394994A1 (en) * 2019-06-12 2020-12-17 Nvidia Corporation Invertible neural network to synthesize audio signals
BR112021025892A2 (pt) * 2019-06-28 2022-02-08 Nec Corp Aparelho de detecção de falsificação, método de detecção de falsificação e meio de armazenamento legível por computador
US11798562B2 (en) * 2021-05-16 2023-10-24 Google Llc Attentive scoring function for speaker identification
CN114140723B (zh) * 2021-12-01 2023-07-04 北京有竹居网络技术有限公司 多媒体数据的识别方法、装置、可读介质及电子设备
CN114464194A (zh) * 2022-03-12 2022-05-10 云知声智能科技股份有限公司 声纹聚类方法、装置、存储介质及电子装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100106502A1 (en) * 2008-10-24 2010-04-29 Nuance Communications, Inc. Speaker verification methods and apparatus
CN103229233A (zh) * 2010-12-10 2013-07-31 松下电器产业株式会社 用于识别说话人的建模设备和方法、以及说话人识别系统
WO2015081681A1 (en) * 2013-12-03 2015-06-11 Tencent Technology (Shenzhen) Company Limited Systems and methods for audio command recognition
KR20150093059A (ko) * 2014-02-06 2015-08-17 주식회사 에스원 화자 검증 장치 및 방법
US20150301796A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Speaker verification
CN105679324A (zh) * 2015-12-29 2016-06-15 福建星网视易信息系统有限公司 一种声纹识别相似度评分的方法和装置
US20160314790A1 (en) * 2015-04-22 2016-10-27 Panasonic Corporation Speaker identification method and speaker identification device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19630109A1 (de) * 1996-07-25 1998-01-29 Siemens Ag Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner
JP6556575B2 (ja) * 2015-09-15 2019-08-07 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
US11264037B2 (en) * 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100106502A1 (en) * 2008-10-24 2010-04-29 Nuance Communications, Inc. Speaker verification methods and apparatus
US20140081640A1 (en) * 2008-10-24 2014-03-20 Nuance Communications, Inc. Speaker verification methods and apparatus
CN103229233A (zh) * 2010-12-10 2013-07-31 松下电器产业株式会社 用于识别说话人的建模设备和方法、以及说话人识别系统
WO2015081681A1 (en) * 2013-12-03 2015-06-11 Tencent Technology (Shenzhen) Company Limited Systems and methods for audio command recognition
KR20150093059A (ko) * 2014-02-06 2015-08-17 주식회사 에스원 화자 검증 장치 및 방법
US20150301796A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Speaker verification
US20160314790A1 (en) * 2015-04-22 2016-10-27 Panasonic Corporation Speaker identification method and speaker identification device
CN105679324A (zh) * 2015-12-29 2016-06-15 福建星网视易信息系统有限公司 一种声纹识别相似度评分的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUJUAN XING等: "Improved i-vector Speaker Verification Based on WCCN and ZT-norm", CCBR 2016: BIOMETRIC RECOGNITION *
臧晓昱 等: "基于高斯混合模型GMM的说话人识别方法", 科技信息, no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793615A (zh) * 2021-09-15 2021-12-14 北京百度网讯科技有限公司 说话人识别方法、模型训练方法、装置、设备及存储介质
CN113793615B (zh) * 2021-09-15 2024-02-27 北京百度网讯科技有限公司 说话人识别方法、模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111009248B (zh) 2024-07-05
US11222641B2 (en) 2022-01-11
US20200111496A1 (en) 2020-04-09

Similar Documents

Publication Publication Date Title
CN111009248B (zh) 说话者识别装置、说话者识别方法及记录介质
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
US11315550B2 (en) Speaker recognition device, speaker recognition method, and recording medium
Nayana et al. Comparison of text independent speaker identification systems using GMM and i-vector methods
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
CN106875936B (zh) 语音识别方法及装置
JPWO2009133719A1 (ja) 音響モデル学習装置および音声認識装置
US9043207B2 (en) Speaker recognition from telephone calls
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
JP7326033B2 (ja) 話者認識装置、話者認識方法、及び、プログラム
US10665227B2 (en) Voice recognition device and voice recognition method
JP5229124B2 (ja) 話者照合装置、話者照合方法およびプログラム
US20220383880A1 (en) Speaker identification apparatus, speaker identification method, and recording medium
US11580989B2 (en) Training method of a speaker identification model based on a first language and a second language
CN112420021A (zh) 学习方法、说话者识别方法以及记录介质
KR101023211B1 (ko) 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
Prasad et al. Gender based emotion recognition system for telugu rural dialects using hidden markov models
KR101524848B1 (ko) 오디오 유형 판별장치
JP2007127891A (ja) 発話主体同定装置及びコンピュータプログラム
RU2530314C1 (ru) Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке
JP5749186B2 (ja) 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム
Jagtap et al. Speaker verification using Gaussian mixture model
Nair et al. A reliable speaker verification system based on LPCC and DTW
JP7353839B2 (ja) 話者識別装置、話者識別方法、及び、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant