CN109119069A - 特定人群识别方法、电子装置及计算机可读存储介质 - Google Patents

特定人群识别方法、电子装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109119069A
CN109119069A CN201810813196.4A CN201810813196A CN109119069A CN 109119069 A CN109119069 A CN 109119069A CN 201810813196 A CN201810813196 A CN 201810813196A CN 109119069 A CN109119069 A CN 109119069A
Authority
CN
China
Prior art keywords
feature
ivector
voice data
voice
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810813196.4A
Other languages
English (en)
Other versions
CN109119069B (zh
Inventor
郑能恒
林�吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201810813196.4A priority Critical patent/CN109119069B/zh
Publication of CN109119069A publication Critical patent/CN109119069A/zh
Priority to PCT/CN2019/086770 priority patent/WO2020019831A1/zh
Application granted granted Critical
Publication of CN109119069B publication Critical patent/CN109119069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种特定人群识别方法、电子装置及计算机可读存储介质,通过声音数据判定该声音特征属于哪一类特定人群。其中,该特定人群识别方法包括:通过基于ivector的支持向量子系统中的N种类别的分类器,根据所述变化因子特征确定第一初步预测结果;通过基于ivector的逻辑回归子系统中的N‑1级的逻辑回归分类器,根据所述变化因子特征确定第二初步预测结果;通过语音时态神经网络子系统,根据声音数据的滤波器组特征,对所述声音数据的所属类别进行预测,得到第三初步预测结果;根据预设的权重,所述第一初步预测结果,所述第二初步预测结果以及所述第三初步预测结果进行综合判定,获得所述声音数据的所属类别的综合预测结果。

Description

特定人群识别方法、电子装置及计算机可读存储介质
技术领域
本申请涉及电子技术领域,尤其涉及一种特定人群识别方法、电子装置及计算机可读存储介质。
背景技术
在当下的便携式智能终端里,和机器进行语音交互已经变成了一项不可或缺的功能。随着语音识别技术和自然语言处理技术愈发成熟与完善,更多市场化的智能终端在探索语音交互的可实践性时,也更多的会对不同类别的使用者进行个性化服务,以便提升服务的精准性和用户的产品体验满意度。
以性别和年龄作为区分特征为例,现有技术的做法如下:
通过智能终端的麦克风收集交互人的语音数据;将使用者的语音数据通过智能终端上传至云服务器;由云服务器判断该语音数据属于“男儿童”、“女儿童”、“成年男性”、“成年女性”中的哪一类;云服务器根据该语音数据的类性别标签做出相应的个性化回复,反馈给智能终端,最终和使用者完成一次交互。
现有技术采用单一的支持向量机作为打分器,识别效果欠佳。
发明内容
本申请实施例提供一种特定人群识别方法、电子装置及计算机可读存储介质,用于基于声音进行精确的特定人群识别。
本申请实施例第一方面提供一种特定人群识别方法,包括:
应用于特定人群识别系统,所述系统包括:基于ivector的支持向量子系统,基于ivector的逻辑回归子系统,语音时态神经网络子系统;
方法包括:
获取待识别的声音数据,并提取所述声音数据的变化因子特征;
通过所述基于ivector的支持向量子系统中的N种类别的分类器,根据所述变化因子特征确定第一初步预测结果,所述N为大于一的整数;
通过所述基于ivector的逻辑回归子系统中的N-1级的逻辑回归分类器,根据所述变化因子特征确定第二初步预测结果;
通过所述语音时态神经网络子系统,根据声音数据的滤波器组FilterBank特征,对所述声音数据的所属类别进行预测,得到第三初步预测结果;
根据预设的权重,所述第一初步预测结果,所述第二初步预测结果以及所述第三初步预测结果进行综合判定,获得所述声音数据的所属类别的综合预测结果。
本申请实施例第二方面提供另一种电子装置,包括:
基于ivector的支持向量子系统,基于ivector的逻辑回归子系统,语音时态神经网络子系统以及综合判定单元;
所述基于ivector的支持向量子系统用于基于N种类别的分类器,根据声音数据的变化因子特征确定第一初步预测结果,所述N为大于一的整数;
所述基于ivector的逻辑回归子系统用于基于N-1级的逻辑回归分类器,根据声音数据的变化因子特征确定第二初步预测结果;
所述语音时态神经网络子系统用于根据声音数据的滤波器组FilterBank特征,对所述声音数据的所属类别进行预测,得到第三初步预测结果;
所述综合判定单元用于根据预设的权重对所述基于ivector的支持向量子系统,所述基于ivector的逻辑回归子系统以及所述语音时态神经网络子系统的输出结果进行综合判定,获得所述声音数据的所属类别的综合预测结果。
本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述本申请实施例第一方面提供的特定人群识别方法。
由上可见,本申请方案通过对系统中的基于ivector的支持向量子系统、基于ivector的逻辑回归子系统以及所述语音时态神经网络子系统的输出结果进行综合判定,提高了声音所属类别识别的准确率。
附图说明
图1-a为本申请实施例提供的特定人群识别方法的实现流程示意图;
图1-b为本申请实施例提供的基于ivector的支持向量子系统和基于ivector的逻辑回归子系统的测试图;
图1-c为本申请实施例提供的语音时态神经网络子系统的测试图;
图1-d为本申请实施例提供的基于ivector的支持向量子系统、基于ivector的逻辑回归子系统和语音时态神经网络子系统的综合流程图;
图2为本申请一实施例提供的电子装置结构示意图;
图3为本申请另一实施例提供的电子装置硬件结构示意图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例中的特定人群识别方法应用于特定人群识别系统所述系统包括:基于ivector的支持向量子系统(如,ivector-SVM(Support Vector Machine)),基于ivector的逻辑回归子系统(如,ivector-LR(Logistic Regression)),语音时态神经网络子系统(如,PTN(Phonetic temporal neural model for language identification))。
在本发明实施例中,所述初步预测结果为所述声音数据属于所述N种类别的某一类别,通过基于ivector的支持向量子系统,基于ivector的逻辑回归子系统和语音时态神经网络子系统得到的初步预测结果分别为第一初步预测结果,第二初步预测结果和第三初步预测结果,其中,“第一”,“第二”和“第三”之间不存在先后顺序和重要程度等关系,仅用于区别不同的初步预测结果。
实施例一
本申请实施例提供一种特定人群识别方法,请参阅图1-a,该特定人群识别方法主要包括以下步骤:
101、获取待识别的声音数据,并提取所述声音数据的变化因子特征;
其中,所述变化因子特征用于表征所述语音数据相关的综合信息,所述综合信息至少包括声音传输通道信息,声音环境信息以及发声对象信息。
示例性的,所述变化因子特征模型构建中的ivector(identity vector,ivector)特征,ivector特征了说话对象的大量信息,如传输通道信息、声学环境信息、说话人信息等。
102、通过所述基于ivector的支持向量子系统中的N种类别的分类器,根据所述变化因子特征确定第一初步预测结果;
将所述变化因子特征输入所述基于ivector的支持向量子系统,根据所述变化因子特征确定第一初步预测结果,所述第一初步预测结果为所述声音数据属于所述N种类别的某一类别,所述N为大于一的整数。
示例性的,所述基于ivector的支持向量子系统包括N个类别的分类器,所述类别例如:“男儿童”、“女儿童”、“成年男性”、“成年女性”。
示例性的,所述基于ivector的支持向量子系统的训练方法包括:
步骤一:分别提取N种类别的声音数据的梅尔频率倒谱系数MFCC特征;
步骤二:根据所述MFCC特征训练通用背景模型UBM(Universal BackgroundModel),并获得所述通用背景模型的均值超矢量;
步骤三:对所述通用背景模型的高斯混合模型(GMM.Gaussian Mixed Model)进行参数调整,获得所述声音数据中每句话的GMM,以及所述每句话的均值超矢量(supervector);示例性的,参数调整可以通过MAP(Maximum A Posteriori)方法实现。
步骤四:根据所述每句话的均值超矢量,所述通用背景模型的均值超矢量以及总变化空间矩阵求解所述声音数据的变化因子特征;示例性的,可以根据如下公式计算得到变化因子特征:M=m+Tw;
其中,M为步骤三所求得的均值超矢量,即一个与说话人和信道相关的GMM超均值矢量。m为步骤二求得的UBM均值超矢量,T为总变化空间矩阵,w为ivector特征。在已知M、m、T的情况下去求解w,即每条语音的ivector特征。
步骤五:采用线性判别分析对所述变化因子特征进行信道补偿,得到变化因子的特征集,所述变化因子的特征集包括N个特征子集;其中,这里提取到的初始ivector向量因为同时包含说话人信息和信道信息,还是存在很大的信息冗余,可以通过对上述过程中提取到的初始ivector特征进行信道补偿,以减弱该特征中信道因素的影响。本发明实施例拟采用线性判别分析(Linear discriminant analysis,LDA)来进行信道补偿,以期达到两种效果:一、突出说话人信息减少信息冗余;二、降低ivector特征维度,为分类模型的训练和测试带来更高的运算效率。
步骤六:根据所述变化因子的特征集分别训练N个类别的分类器,其中,对于任一个所述分类器的训练,将当前分类器对应的特征子集作为正类训练数据,其余的N-1个分类器对应的特征子集作为反类训练数据。
示例性的,假设变化因子的特征集包含四个特征子集:成年男性ivector特征子集、成年女性ivector特征子集、男儿童ivector特征子集、女儿童ivector特征子集。针对四种不同年龄和性别的使用者,训练四个不同的svm分类器。利用各自所对应的ivector特征作为正类、其他三种的ivector特征作为反类作为训练SVM分类器的输入。
103、通过所述基于ivector的逻辑回归子系统中的N-1级的逻辑回归分类器,根据所述变化因子特征确定第二初步预测结果;
将所述变化因子特征输入所述基于ivector的逻辑回归子系统,确定所述声音数据是否属于所述N种类别的第二初步预测结果。
示例性的,所述基于ivector的逻辑回归子系统的训练方法包括:
步骤一:分别提取N种类别的声音数据的梅尔频率倒谱系数MFCC特征;
步骤二:根据所述MFCC特征训练通用背景模型,并获得所述通用背景模型的均值超矢量;
步骤三:对所述通用背景模型的GMM进行参数调整,获得所述声音数据中每句话的GMM,以及所述每句话的均值超矢量(supervector);
步骤四:根据所述每句话的均值超矢量,所述通用背景模型的均值超矢量以及总变化空间矩阵求解所述声音数据的变化因子特征;
步骤五:采用线性判别分析对所述变化因子特征进行信道补偿,得到变化因子的特征集,所述变化因子的特征集包括N个特征子集;
步骤六:根据所述变化因子的特征集分别训练N-1级基于ivector的逻辑回归子系统,其中,第一级的基于ivector的逻辑回归子系统以任一特征子集作为正类训练数据,其余的N-1个特征子集作为反类训练数据;第二级的基于ivector的逻辑回归子系统以上一级的N-1个反类训练数据中任一特征子集集作为正类训练数据,其余的N-2个特征子集作为反类训练数据;以此类推,直至完成N-1个基于ivector的逻辑回归子系统的分级训练。
示例性的,假设变化因子的特征集包含四个特征子集:成年男性ivector特征子集、成年女性ivector特征子集、男儿童ivector特征子集、女儿童ivector特征子集。基于ivector的逻辑回归子系统分为三级LR分类器进行训练。训练第一级LR分类器时,成年男性所对应的ivector特征作为正类输入,成年女性、男儿童、女儿童所对应的ivector特征作为反类输入;训练第二级LR分类器时,成年女性所对应的ivector特征作为正类输入,男儿童、女儿童所对应的ivector特征作为反类输入;训练第三级LR分类器时,男儿童作为正类输入,女儿童作为反类输入。
104、通过所述语音时态神经网络子系统,根据声音数据的滤波器组特征,对所述声音数据的所属类别进行预测,得到第三初步预测结果;
将所述变化因子特征输入所述语音时态神经网络子系统,对所述声音数据的所属类别进行预测,得到第三初步预测结果。所述语音时态神经网络子系统包括:phonetic语音深度神经网络和LSTM长短期记忆卷积神经网络;所述phonetic语音深度神经网络是通过自动语音识别ASR数据训练得到,通过所述phonetic语音深度神经网络得到音素特征,所述LSTM长短期记忆卷积神经网络是通过所述音速特征训练得到,训练完成后,通过LSTM卷积神经网络对声音数据的所述音素特征进行声音类别预测。
所述音素特征通过以下方式得到:分别提取N种类别的声音数据的滤波器组FilterBank特征,然后利用phonetic语音深度神经网络从所述FilterBank特征中提取得到音素特征。
语音时态神经网络子系统近来被率先用于语种识别,但考虑到它相比说话人识别领域常见的神经网络系统只使用声学特征(acoustic features)以外,它还考虑到了语音音素特征(phonetic features),捕捉并利用了高时间分辨率的语音音素特性,对类性别识别的准确率提升也有所助益。
示例性的,语音时态神经网络子系统的训练方法包括:
步骤一:分别提取N种类别的声音数据的滤波器组FilterBank特征;尽量保证每个声音类别的训练数据量相对均衡。
步骤二:通过phonetic深度神经网络来提取所述FilterBank特征的音素特征;phonetic深度神经网络可采用多种神经网络架构,包括但不限于RNN(Recurrent NeuralNetwork)、TDNN(Time-Delay Neural Network)等。本专利采用TDNN架构,训练数据为带有音素标签的语音识别数据,输出为各音素所对应的分值。采用与本申请所针对的特定人群的ASR(Automatic Speech Recognition)数据进行训练可以得到更有效的phonetic DNN。
步骤三:将训练好的TDNN架构作为phonetic DNN,从其隐藏层中读取输出作为音素特征。本申请采用最后一个隐藏层作为音素特征的读取层。从TDNN中读取到音素特征后,将其作为LSTM(Long Short-Term Memory)卷积神经网络的输入进行训练。
105、根据预设的权重,所述第一初步预测结果,所述第二初步预测结果以及所述第三初步预测结果进行综合判定,获得所述声音数据的所属类别的综合预测结果。
在本发明实施中,采用三种不同的单元(基于ivector的支持向量子系统,基于ivector的逻辑回归子系统和语音时态神经网络子系统),特别是引入与传统ivector系统运作机理完全不同的PTN神经网络系统,将各自所预测得到的结果赋予不同的权重并给出最终分数,可以有效规避单一系统的错误高发点。其中,基于ivector的支持向量子系统(ivector-SVM)、基于ivector的逻辑回归子系统(ivector-LR)共用经特征提取得到的ivector数据,以便在减少不必要的资源损耗的同时,提高系统运算效率。而基于ivector的逻辑回归子系统中的LR分类器创新性的采用了N-1级分类,将获取到的声纹特征逐级进行判别,增强了传统LR分类器的多类判别能力。
实施例二
下面对本发明的应用示例进行描述:
在本发明实施例中,训练的声音数据包括:“男儿童”、“女儿童”、“成年男性”、“成年女性”,其中,ivector-SVM及ivector-LR的测试流程包括,请参阅图1-b:
步骤一:通过智能终端的麦克风收集交互人的语音数据;
步骤二:将使用者的语音数据通过智能终端上传至云服务器;
步骤三:从语音数据中提取MFCC特征,使用MAP adaptation自适应方法对UBM的GMM进行参数调整,从而获得每句话的GMM,进而得到每句话的均值超矢量(supervector);
步骤四:提取初始ivector特征;
根据所述每句话的均值超矢量,所述通用背景模型的均值超矢量以及总变化空间矩阵求解所述声音数据的变化因子特征;示例性的,可以根据如下公式计算得到变化因子特征:M=m+Tw;
其中,M为步骤三所求得的均值超矢量,即一个与说话人和信道相关的GMM超均值矢量。m为步骤二求得的UBM均值超矢量,T为总变化空间矩阵,w为ivector特征。在已知M、m、T的情况下去求解w,即每条语音的ivector特征。
步骤五:将初始ivector特征进行信道转换;
采用线性判别分析对所述变化因子特征进行信道补偿,得到变化因子的特征集,所述变化因子的特征集包括N个特征子集;其中,这里提取到的初始ivector向量因为同时包含说话人信息和信道信息,还是存在很大的信息冗余,可以通过对上述过程中提取到的初始ivector特征进行信道补偿,以减弱该特征中信道因素的影响。本发明实施例拟采用线性判别分析(Linear discriminant analysis,LDA)来进行信道补偿,以期达到两种效果:一、突出说话人信息减少信息冗余;二、降低ivector特征维度,为分类模型的训练和测试带来更高的运算效率。
针对ivector-SVM子系统及ivector-LR子系统,图1-b中所述的各大分类器为实施例一中的步骤102和103的步骤六训练所得。如图中所示,在ivetor-SVM子系统中共包含四个SVM分类器,都采用同一个ivector特征集进行训练。训练SVM分类器1所用的正类数据为成年男性的ivector特征,反列为其他三类ivector特征;训练SVM分类器2所用的正类数据为成年女性的ivector特征,反类为其他三类ivector特征;训练SVM分类器3所用的正类数据为男儿童的ivector特征,反类为其他三类ivector特征;训练SVM分类器4所用的正类数据为女儿童的ivector特征,反类为其他三类ivector特征。
其中,PTN(语音时态神经网络子系统)的测试流程包括,请参阅图1-c:
步骤一:通过智能终端的麦克风收集交互人的语音数据;
步骤二:将使用者的语音数据通过智能终端上传至云服务器;
步骤三:从语音数据中提取Fbank特征,作为Phonetic DNN的输入,其输出为音素特征;
步骤四:将音素特征作为LSTM-RNN的输入,其输出为判定结果。
将基于ivector的支持向量子系统(ivector-SVM),基于ivector的逻辑回归子系统(ivector-LR),语音时态神经网络子系统(PTN)三大单元综合,得到图1-d的流程图。
如图1-d所示,三个子系统将各自运行所得的结果赋予不同的权值进行融合投票,票值最多的类别作为混合系统最终输出的判定类别。其中三个单元的权值数默认为1:1:1。
实施例四
请参阅图2,为本申请实施例提供一种特定人群识别系统。该特定人群识别系统可用于实现上述图1-a所示实施例提供的特定人群识别方法。如图2所示,该特定人群识别系统主要包括:
基于ivector的支持向量子系统201,基于ivector的逻辑回归子系统202,语音时态神经网络子系统203以及综合判定单元204;
所述基于ivector的支持向量子系统用于基于N种类别的分类器,根据声音数据的变化因子特征确定所述声音数据属于所述N种类别的某一类别,所述N为大于一的整数;
所述基于ivector的逻辑回归子系统用于基于N-1级的逻辑回归分类器,根据声音数据的变化因子特征确定所述声音数据是否属于所述N种类别的第二初步预测结果;
所述语音时态神经网络子系统用于根据声音数据的滤波器组FilterBank特征,对所述声音数据的所属类别进行预测;
所述综合判定单元用于根据预设的权重对所述基于ivector的支持向量子系统,所述基于ivector的逻辑回归子系统以及所述语音时态神经网络子系统的输出结果进行综合判定,获得所述声音数据的所属类别的综合预测结果。
所述基于ivector的支持向量子系统包括N个类别的分类器;
所述基于ivector的支持向量子系统的训练方法包括:
分别提取N种类别的声音数据的梅尔频率倒谱系数MFCC特征;
根据所述MFCC特征训练通用背景模型,并获得所述通用背景模型的均值超矢量;
对所述通用背景模型的GMM进行参数调整,获得所述声音数据中每句话的GMM,以及所述每句话的均值超矢量;
根据所述每句话的均值超矢量,所述通用背景模型的均值超矢量以及总变化空间矩阵求解所述声音数据的变化因子特征;
采用线性判别分析对所述变化因子特征进行信道补偿,得到变化因子的特征集,所述变化因子的特征集包括N个特征子集;
根据所述变化因子的特征集分别训练N个类别的分类器,其中,对于任一个所述分类器的训练,将当前分类器对应的特征子集作为正类训练数据,其余的N-1个分类器对应的特征子集作为反类训练数据。
所述基于ivector的逻辑回归子系统包括N-1级的逻辑回归分类器;
所述基于ivector的逻辑回归子系统的训练方法包括:
分别提取N种类别的声音数据的MFCC特征;
根据所述MFCC特征训练通用背景模型,并获得所述通用背景模型的均值超矢量;
对所述通用背景模型的GMM进行参数调整,获得所述声音数据中每句话的GMM,以及所述每句话的均值超矢量;
根据所述每句话的均值超矢量,所述通用背景模型的均值超矢量以及总变化空间矩阵求解所述声音数据的变化因子特征;
采用线性判别分析对所述变化因子特征进行信道补偿,得到变化因子的特征集,所述变化因子的特征集包括N个特征子集;
根据所述变化因子的特征集分别训练N-1级基于ivector的逻辑回归子系统,其中,第一级的基于ivector的逻辑回归子系统以任一特征子集作为正类训练数据,其余的N-1个特征子集作为反类训练数据;第二级的基于ivector的逻辑回归子系统以上一级的N-1个反类训练数据中任一特征子集集作为正类训练数据,其余的N-2个特征子集作为反类训练数据;以此类推,直至完成N-1个基于ivector的逻辑回归子系统的分级训练。
所述语音时态神经网络子系统包括:phonetic语音深度神经网络和LSTM长短期记忆卷积神经网络;所述phonetic语音深度神经网络是通过自动语音识别ASR数据训练得到,通过所述phonetic语音深度神经网络得到音素特征,所述LSTM长短期记忆卷积神经网络是通过所述音素特征训练得到,训练完成后,通过LSTM卷积神经网络对声音数据的所述音素特征进行声音类别预测;
所述音素特征通过以下方式得到:分别提取N种类别的声音数据的滤波器组FilterBank特征,然后利用phonetic语音深度神经网络从所述FilterBank特征中提取得到音素特征。
需要说明的是,以上图2示例的电子装置的实施方式中,各功能模块的划分仅是举例说明,实际应用中可以根据需要,例如相应硬件的配置要求或者软件的实现的便利考虑,而将上述功能分配由不同的功能模块完成,即将电子装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。而且,在实际应用中,本实施例中的相应的功能模块可以是由相应的硬件实现,也可以由相应的硬件执行相应的软件完成。本说明书提供的各个实施例都可应用上述描述原则,以下不再赘述。
本实施例提供的电子装置中各功能模块实现各自功能的具体过程,请参见上述图1-a所示实施例中描述的具体内容,此处不再赘述。
实施例五
本申请实施例提供一种电子装置,请参阅图3,该电子装置包括:
存储器301、处理器302及存储在存储器301上并可在处理器302上运行的计算机程序,处理器302执行该计算机程序时,实现前述图1-a所示实施例中描述的特定人群识别方法。
进一步的,该电子装置还包括:
至少一个输入设备303以及至少一个输出设备304。
上述存储器301、处理器302、输入设备303以及输出设备304,通过总线305连接。
其中,输入设备303具体可为麦克风、摄像头、触控面板、物理按键或者鼠标等等。输出设备304具体可为显示屏。
存储器301可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器301用于存储一组可执行程序代码,处理器302与存储器301耦合。
进一步的,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的电子装置中,该计算机可读存储介质可以是前述图3所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1-a所示实施例中描述的特定人群识别方法。进一步的,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的特定人群识别方法、电子装置及计算机可读存储介质的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种特定人群识别方法,其特征在于,应用于特定人群识别系统,所述系统包括:基于ivector的支持向量子系统,基于ivector的逻辑回归子系统,语音时态神经网络子系统;
方法包括:
获取待识别的声音数据,并提取所述声音数据的变化因子特征;
通过所述基于ivector的支持向量子系统中的N种类别的分类器,根据所述变化因子特征确定第一初步预测结果,所述N为大于一的整数;
通过所述基于ivector的逻辑回归子系统中的N-1级的逻辑回归分类器,根据所述变化因子特征确定第二初步预测结果;
通过所述语音时态神经网络子系统,根据声音数据的滤波器组FilterBank特征,对所述声音数据的所属类别进行预测,得到第三初步预测结果;
根据预设的权重,所述第一初步预测结果,所述第二初步预测结果以及所述第三初步预测结果进行综合判定,获得所述声音数据的所属类别的综合预测结果。
2.根据权利要求1所述的方法,其特征在于,
所述基于ivector的支持向量子系统包括N个类别的分类器;
所述基于ivector的支持向量子系统的训练方法包括:
分别提取N种类别的声音数据的梅尔频率倒谱系数MFCC特征;
根据所述MFCC特征训练通用背景模型UBM,并获得所述通用背景模型的均值超矢量;
对所述通用背景模型的高斯混合模型GMM进行参数调整,获得所述声音数据中每句话的GMM,以及所述每句话的均值超矢量;
根据所述每句话的均值超矢量,所述通用背景模型的均值超矢量以及总变化空间矩阵求解所述声音数据的变化因子特征;
采用线性判别分析对所述变化因子特征进行信道补偿,得到变化因子的特征集,所述变化因子的特征集包括N个特征子集;
根据所述变化因子的特征集分别训练N个类别的分类器,其中,对于任一个所述分类器的训练,将当前分类器对应的特征子集作为正类训练数据,其余的N-1个分类器对应的特征子集作为反类训练数据。
3.根据权利要求1所述的方法,其特征在于,
所述基于ivector的逻辑回归子系统包括N-1级的逻辑回归分类器;
所述基于ivector的逻辑回归子系统的训练方法包括:
分别提取N种类别的声音数据的MFCC特征;
根据所述MFCC特征训练通用背景模型,并获得所述通用背景模型的均值超矢量;
对所述通用背景模型的GMM进行参数调整,获得所述声音数据中每句话的GMM,以及所述每句话的均值超矢量;
根据所述每句话的均值超矢量,所述通用背景模型的均值超矢量以及总变化空间矩阵求解所述声音数据的变化因子特征;
采用线性判别分析对所述变化因子特征进行信道补偿,得到变化因子的特征集,所述变化因子的特征集包括N个特征子集;
根据所述变化因子的特征集分别训练N-1级基于ivector的逻辑回归子系统,其中,第一级的基于ivector的逻辑回归子系统以任一特征子集作为正类训练数据,其余的N-1个特征子集作为反类训练数据;第二级的基于ivector的逻辑回归子系统以上一级的N-1个反类训练数据中任一特征子集集作为正类训练数据,其余的N-2个特征子集作为反类训练数据;以此类推,直至完成N-1个基于ivector的逻辑回归子系统的分级训练。
4.根据权利要求1所述的方法,其特征在于,
所述语音时态神经网络子系统包括:phonetic语音深度神经网络和LSTM长短期记忆卷积神经网络;所述phonetic语音深度神经网络是通过自动语音识别ASR数据训练得到,通过所述phonetic语音深度神经网络得到音素特征,所述LSTM长短期记忆卷积神经网络是通过所述音素特征训练得到,训练完成后,通过LSTM卷积神经网络对声音数据的所述音素特征进行声音类别预测;
所述音素特征通过以下方式得到:分别提取N种类别的声音数据的滤波器组FilterBank特征,然后利用phonetic语音深度神经网络从所述FilterBank特征中提取得到音素特征。
5.一种特定人群识别系统,其特征在于,包括:
基于ivector的支持向量子系统,基于ivector的逻辑回归子系统,语音时态神经网络子系统以及综合判定单元;
所述基于ivector的支持向量子系统用于基于N种类别的分类器,根据声音数据的变化因子特征确定第一初步预测结果,所述N为大于一的整数;
所述基于ivector的逻辑回归子系统用于基于N-1级的逻辑回归分类器,根据声音数据的变化因子特征确定第二初步预测结果;
所述语音时态神经网络子系统用于根据声音数据的滤波器组FilterBank特征,对所述声音数据的所属类别进行预测,得到第三初步预测结果;
所述综合判定单元用于根据预设的权重对所述基于ivector的支持向量子系统,所述基于ivector的逻辑回归子系统以及所述语音时态神经网络子系统的输出结果进行综合判定,获得所述声音数据的所属类别的综合预测结果。
6.根据权利要求5所述的系统,其特征在于,
所述基于ivector的支持向量子系统包括N个类别的分类器;
所述基于ivector的支持向量子系统的训练方法包括:
分别提取N种类别的声音数据的梅尔频率倒谱系数MFCC特征;
根据所述MFCC特征训练通用背景模型,并获得所述通用背景模型的均值超矢量;
对所述通用背景模型的GMM进行参数调整,获得所述声音数据中每句话的GMM,以及所述每句话的均值超矢量;
根据所述每句话的均值超矢量,所述通用背景模型的均值超矢量以及总变化空间矩阵求解所述声音数据的变化因子特征;
采用线性判别分析对所述变化因子特征进行信道补偿,得到变化因子的特征集,所述变化因子的特征集包括N个特征子集;
根据所述变化因子的特征集分别训练N个类别的分类器,其中,对于任一个所述分类器的训练,将当前分类器对应的特征子集作为正类训练数据,其余的N-1个分类器对应的特征子集作为反类训练数据。
7.根据权利要求5所述的系统,其特征在于,
所述基于ivector的逻辑回归子系统包括N-1级的逻辑回归分类器;
所述基于ivector的逻辑回归子系统的训练方法包括:
分别提取N种类别的声音数据的MFCC特征;
根据所述MFCC特征训练通用背景模型,并获得所述通用背景模型的均值超矢量;
对所述通用背景模型的GMM进行参数调整,获得所述声音数据中每句话的GMM,以及所述每句话的均值超矢量;
根据所述每句话的均值超矢量,所述通用背景模型的均值超矢量以及总变化空间矩阵求解所述声音数据的变化因子特征;
采用线性判别分析对所述变化因子特征进行信道补偿,得到变化因子的特征集,所述变化因子的特征集包括N个特征子集;
根据所述变化因子的特征集分别训练N-1级基于ivector的逻辑回归子系统,其中,第一级的基于ivector的逻辑回归子系统以任一特征子集作为正类训练数据,其余的N-1个特征子集作为反类训练数据;第二级的基于ivector的逻辑回归子系统以上一级的N-1个反类训练数据中任一特征子集集作为正类训练数据,其余的N-2个特征子集作为反类训练数据;以此类推,直至完成N-1个基于ivector的逻辑回归子系统的分级训练。
8.根据权利要求5所述的系统,其特征在于,
所述语音时态神经网络子系统包括:phonetic语音深度神经网络和LSTM长短期记忆卷积神经网络;所述phonetic语音深度神经网络是通过ASR数据训练得到,通过所述phonetic语音深度神经网络得到音素特征,和所述LSTM长短期记忆卷积神经网络是通过所述音速特征训练得到,训练完成后,通过LSTM卷积神经网络对声音数据的所述音素特征进行声音类别预测;
所述音素特征通过以下方式得到:分别提取N种类别的声音数据的滤波器组FilterBank特征,然后利用phonetic语音深度神经网络从所述FilterBank特征中提取得到音素特征。
9.根据权利要求5所述的系统,其特征在于,
所述综合判定单元具体用于按照1:1:1的权重分别对所述基于ivector的支持向量子系统,所述基于ivector的逻辑回归子系统以及所述语音时态神经网络子系统输出的初步预测结果进行融合投票,将票值最多的类别作为所述系统最终输出的判定类别。
10.一种电子装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至4中的任意一项所述方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至4中的任意一项所述方法。
CN201810813196.4A 2018-07-23 2018-07-23 特定人群识别方法、电子装置及计算机可读存储介质 Active CN109119069B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810813196.4A CN109119069B (zh) 2018-07-23 2018-07-23 特定人群识别方法、电子装置及计算机可读存储介质
PCT/CN2019/086770 WO2020019831A1 (zh) 2018-07-23 2019-05-14 特定人群识别方法、电子装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810813196.4A CN109119069B (zh) 2018-07-23 2018-07-23 特定人群识别方法、电子装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109119069A true CN109119069A (zh) 2019-01-01
CN109119069B CN109119069B (zh) 2020-08-14

Family

ID=64862384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810813196.4A Active CN109119069B (zh) 2018-07-23 2018-07-23 特定人群识别方法、电子装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN109119069B (zh)
WO (1) WO2020019831A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020019831A1 (zh) * 2018-07-23 2020-01-30 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN110931023A (zh) * 2019-11-29 2020-03-27 厦门快商通科技股份有限公司 性别识别方法、系统、移动终端及存储介质
CN111951783A (zh) * 2020-08-12 2020-11-17 北京工业大学 一种基于音素滤波的说话人识别方法
CN112530407A (zh) * 2020-11-25 2021-03-19 北京快鱼电子股份公司 一种语种识别方法及系统
CN113327616A (zh) * 2021-06-02 2021-08-31 广东电网有限责任公司 声纹识别方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016165120A1 (en) * 2015-04-17 2016-10-20 Microsoft Technology Licensing, Llc Deep neural support vector machines
CN106294343A (zh) * 2015-05-13 2017-01-04 富士通株式会社 数据聚类方法、模型融合方法以及装置
CN106663096A (zh) * 2014-07-22 2017-05-10 纽昂斯通讯公司 用于对内容仓库的基于语音的搜索的系统和方法
CN106874927A (zh) * 2016-12-27 2017-06-20 合肥阿巴赛信息科技有限公司 一种随机强分类器的构建方法和系统
CN107203775A (zh) * 2016-03-18 2017-09-26 阿里巴巴集团控股有限公司 一种图像分类的方法、装置和设备
US20180012592A1 (en) * 2013-11-04 2018-01-11 Google Inc. Selecting alternates in speech recognition
CN107705807A (zh) * 2017-08-24 2018-02-16 平安科技(深圳)有限公司 基于情绪识别的语音质检方法、装置、设备及存储介质
CN107886949A (zh) * 2017-11-24 2018-04-06 科大讯飞股份有限公司 一种内容推荐方法及装置
CN108076154A (zh) * 2017-12-21 2018-05-25 广东欧珀移动通信有限公司 应用信息推荐方法、装置及存储介质和服务器

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664011B (zh) * 2012-05-17 2014-03-12 吉林大学 一种快速说话人识别方法
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
CN105139857B (zh) * 2015-09-02 2019-03-22 中山大学 一种自动说话人识别中针对语音欺骗的对抗方法
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN106127156A (zh) * 2016-06-27 2016-11-16 上海元趣信息技术有限公司 基于声纹和人脸识别的机器人交互方法
US10141009B2 (en) * 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
CN107146601B (zh) * 2017-04-07 2020-07-24 南京邮电大学 一种用于说话人识别系统的后端i-vector增强方法
CN107610706A (zh) * 2017-09-13 2018-01-19 百度在线网络技术(北京)有限公司 语音搜索结果的处理方法和处理装置
CN108091326B (zh) * 2018-02-11 2021-08-06 张晓雷 一种基于线性回归的声纹识别方法及系统
CN109119069B (zh) * 2018-07-23 2020-08-14 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180012592A1 (en) * 2013-11-04 2018-01-11 Google Inc. Selecting alternates in speech recognition
CN106663096A (zh) * 2014-07-22 2017-05-10 纽昂斯通讯公司 用于对内容仓库的基于语音的搜索的系统和方法
WO2016165120A1 (en) * 2015-04-17 2016-10-20 Microsoft Technology Licensing, Llc Deep neural support vector machines
CN106294343A (zh) * 2015-05-13 2017-01-04 富士通株式会社 数据聚类方法、模型融合方法以及装置
CN107203775A (zh) * 2016-03-18 2017-09-26 阿里巴巴集团控股有限公司 一种图像分类的方法、装置和设备
CN106874927A (zh) * 2016-12-27 2017-06-20 合肥阿巴赛信息科技有限公司 一种随机强分类器的构建方法和系统
CN107705807A (zh) * 2017-08-24 2018-02-16 平安科技(深圳)有限公司 基于情绪识别的语音质检方法、装置、设备及存储介质
CN107886949A (zh) * 2017-11-24 2018-04-06 科大讯飞股份有限公司 一种内容推荐方法及装置
CN108076154A (zh) * 2017-12-21 2018-05-25 广东欧珀移动通信有限公司 应用信息推荐方法、装置及存储介质和服务器

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020019831A1 (zh) * 2018-07-23 2020-01-30 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN110931023A (zh) * 2019-11-29 2020-03-27 厦门快商通科技股份有限公司 性别识别方法、系统、移动终端及存储介质
CN110931023B (zh) * 2019-11-29 2022-08-19 厦门快商通科技股份有限公司 性别识别方法、系统、移动终端及存储介质
CN111951783A (zh) * 2020-08-12 2020-11-17 北京工业大学 一种基于音素滤波的说话人识别方法
CN111951783B (zh) * 2020-08-12 2023-08-18 北京工业大学 一种基于音素滤波的说话人识别方法
CN112530407A (zh) * 2020-11-25 2021-03-19 北京快鱼电子股份公司 一种语种识别方法及系统
CN112530407B (zh) * 2020-11-25 2021-07-23 北京快鱼电子股份公司 一种语种识别方法及系统
CN113327616A (zh) * 2021-06-02 2021-08-31 广东电网有限责任公司 声纹识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2020019831A1 (zh) 2020-01-30
CN109119069B (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN109119069A (zh) 特定人群识别方法、电子装置及计算机可读存储介质
Ma et al. Audio-visual emotion fusion (AVEF): A deep efficient weighted approach
Kim et al. Towards speech emotion recognition" in the wild" using aggregated corpora and deep multi-task learning
Noroozi et al. Vocal-based emotion recognition using random forests and decision tree
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN102664011B (zh) 一种快速说话人识别方法
CN110675860A (zh) 基于改进注意力机制并结合语义的语音信息识别方法及系统
CN110838286A (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN107610707A (zh) 一种声纹识别方法及装置
WO2021047319A1 (zh) 基于语音的个人信用评估方法、装置、终端及存储介质
JPWO2019102884A1 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
CN110222827A (zh) 基于文本的抑郁判定网络模型的训练方法
CN112259106A (zh) 声纹识别方法、装置、存储介质及计算机设备
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN110349597A (zh) 一种语音检测方法及装置
CN105810191B (zh) 融合韵律信息的汉语方言辨识方法
CN107180084A (zh) 词库更新方法及装置
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN105702251B (zh) 基于Top-k加强音频词袋模型的语音情感识别方法
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN110534133A (zh) 一种语音情感识别系统及语音情感识别方法
CN109710760A (zh) 短文本的聚类方法、装置、介质及电子设备
Gao et al. An adversarial feature distillation method for audio classification
CN111081255A (zh) 说话人确认方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant