CN110782876A - 一种用于语音情感计算的无监督主动学习方法 - Google Patents

一种用于语音情感计算的无监督主动学习方法 Download PDF

Info

Publication number
CN110782876A
CN110782876A CN201910999055.0A CN201910999055A CN110782876A CN 110782876 A CN110782876 A CN 110782876A CN 201910999055 A CN201910999055 A CN 201910999055A CN 110782876 A CN110782876 A CN 110782876A
Authority
CN
China
Prior art keywords
sample
marked
samples
iteration
optimized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910999055.0A
Other languages
English (en)
Other versions
CN110782876B (zh
Inventor
伍冬睿
刘子昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910999055.0A priority Critical patent/CN110782876B/zh
Publication of CN110782876A publication Critical patent/CN110782876A/zh
Application granted granted Critical
Publication of CN110782876B publication Critical patent/CN110782876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于语音情感计算的无监督主动学习方法,属于情感计算领域。相比于现有的用于语音情感计算的有监督主动学习方法需要已知少量真实标签并需要和人工专家多次交互,本发明通过多步迭代优化,每轮迭代依次优化待打标样本集Sc中的样本,每次只优化一个样本,每轮迭代中每个样本只优化一次,来选择少量最有价值的待打标样本,使得这些样本能够更好地代表样本集中的所有样本,不需要任何已知标签或现有回归模型,适用于完全无标签的语音数据集,也不需要与专家多次交互,可以一次性向专家提供所有待打标语音样本,限制条件更少,适用范围更广,使用更方便。

Description

一种用于语音情感计算的无监督主动学习方法
技术领域
本发明属于情感计算领域,更具体地,涉及一种用于语音情感计算的无监督主动学习方法。
背景技术
情感计算是一种通过计算机来自动识别人类情感的人工智能技术,语音情感计算是指,给计算机输入人们说的话,然后计算机对原始语音信号进行特征提取后,输入机器学习模型获得预测输出,再通过情感解码获取这句话中的情感。语音情感的编码一般是使用连续值来对情感的程度进行编码(例如用0-1表示平静到很愤怒),因此所用的机器学习模型是回归模型。这项技术能够让计算机理解人类语音中蕴藏的情感,从而扩展人机交互的功能。
目前,语音情感计算技术遇到的主要挑战之一是,训练一个语音情感计算的机器学习模型需要大量带标签的语音数据,这导致人工专家的打标劳动量很大。因为,虽然原始语音数据很容易采集,但是要获取这些语音数据中的真实情感,则十分困难,需要多名专家仔细聆听多次,才能给出相对可靠的结果。所以,减少人工专家的打标劳动量能使得语音情感计算模型的训练成本大大降低。主动学习是常用的减少打标劳动的机器学习算法,将其运用到回归问题中,便是主动学习回归算法。其基本思想是,从未打标的样本池中选择出最有价值的少量样本来交给人工专家打标,从而训练出与给所有语音样本打标后训练出的回归模型性能相当的回归模型。其关键在于如何找到最有价值的少量样本。
D.Wu等人提出了一种用于语音情感计算的有监督主动学习回归算法,它的基本思想是,利用已有的少量真实标签和现有的回归模型,找到下一个最有价值的未打标样本交给专家打标,然后再更新回归模型,如此往复直到已经给指定数量的样本打标。该算法的性能大大优于随机采样。但是它的使用需要两个条件:1.已知少量真实标签。2.需要和人工专家多次交互。正因为这两个限制条件的存在,使得这些该算法在实际应用中存在局限性。
发明内容
针对现有的用于语音情感计算的有监督主动学习方法需要已知少量真实标签并需要和人工专家多次交互的问题,本发明提供了一种用于语音情感计算的无监督主动学习方法,其目的在于解除现有的用于语音情感计算的有监督主动学习回归算法在使用时需要已知少量真实标签,以及需要和人工专家多次交互的这两个条件限制。
为实现上述目的,按照本发明的第一方面,提供了一种用于语音情感计算的无监督主动学习方法,该方法包括以下步骤:
S1.获取提取特征后语音样本的特征维度d,设定交给专家打标的语音样本个数M、迭代次数c的最大值cmax、步数索引i的最大值S、第i步需要获取的待打标样本数目Mi、第i步使用的优化方法,要求
Figure BDA0002240470710000021
初始化步数索引i为1;
S2.初始化迭代次数c为1,从语音样本集中选取Mi个样本初始化待打标样本集Sic,将Sic存入待打标样本集库SLi中,其中,Sic表示第i步的第c轮迭代对应的待打标样本集;
S3.从待打标样本集Sic中选择一个第c轮迭代中未被优化的待打标样本,固定其余(Mi-1)个样本和之前所有步选出的样本,通过第i步使用的优化方法,从排除固定样本后的语音样本集中选择一个最有价值的样本替换待优化的待打标样本,更新Sic
S4.如果第c轮迭代中,待打标样本集Sic中的所有样本都被优化了一次,则进入步骤S5,否则,返回步骤S3;
S5.如果第c轮迭代的待打标样本集Sic已经存在于待打标样本集库SLi中,或者已经达到最大迭代次数cmax,则进入步骤S6;否则,将当前迭代的待打标样本集Sic存入待打标样本集库SLi中,下一轮迭代的待打标样本集Si(c+1)初始化为Sic,c=c+1,返回步骤S3;
S6.如果i=S,则输出这i步选出的共计M个待打标样本给专家,结束;否则,i=i+1,返回步骤S2。
具体地,根据打标成本预算与回归模型的期望精度,设定交给专家打标的语音样本个数M;根据期望的运算代价,设定最大迭代次数cmax;根据待打标的语音样本个数M和语音样本的特征向量的维度d,设定步数索引i的最大值S。
具体地,当M≤d+1时,使用一步优化,当M>d+1时,使用两步优化。
具体地,每一步使用的优化方法不同。
具体地,从语音样本集中聚类选取出Mi个样本作为初始待打标样本集Sic
具体地,第一步优化第c轮迭代中的第i次优化使用线性流形法,i=1,…,M1,该方法包括以下步骤:
(1)固定待打标样本集S1c中除待优化的待打标样本xi外的其他(M1-1)个样本,这些固定的样本可以确定一个(M1-2)维的超平面H;
(2)计算待优化的待打标样本xi所在的聚类Ci中所有样本点到超平面H的距离然后计算聚类Ci中每个样本与聚类Ci中所有样本的平均距离
Figure BDA0002240470710000032
其中,
Figure BDA0002240470710000033
表示聚类Ci中的样本个数;
(3)计算聚类Ci中每个样本的重要性度量
Figure BDA0002240470710000041
(4)选择V值最大的样本,作为当前的最优样本替换待优化的待打标样本xi,从而更新S1c
具体地,第二步优化第c轮迭代中的第i次优化使用贪婪搜索法,i=1,…,M2,该方法包括以下步骤:
(1)固定待打标样本集S2c中除待优化的待打标样本xi外的其他(M2-1)个样本,加上第一步选出的样本S1,形成含有(M-1)个固定样本的集合St
(2)计算待优化的待打标样本xi所在的聚类
Figure BDA0002240470710000042
中所有样本点到固定样本的集合St的贪婪距离
Figure BDA0002240470710000043
计算聚类
Figure BDA0002240470710000044
中每个样本与聚类
Figure BDA0002240470710000045
中所有样本的平均距离其中,
Figure BDA0002240470710000047
表示聚类
Figure BDA0002240470710000048
中的样本个数;
(3)计算聚类
Figure BDA0002240470710000049
中每个样本的重要性度量
Figure BDA00022404707100000410
(4)选择V值最大的样本,作为当前的最优样本替换待优化的待打标样本xi,从而更新S2c
为实现上述目的,按照本发明的第二方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的用于语音情感计算的无监督主动学习方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
相比于现有的用于语音情感计算的有监督主动学习方法,本发明通过多步迭代优化,每轮迭代依次优化待打标样本集Sc中的样本,每次只优化一个样本,每轮迭代中每个样本只优化一次,来选择少量最有价值的待打标样本,使得这些样本能够更好地代表样本集中的所有样本,不需要任何已知标签或现有回归模型,适用于完全无标签的语音数据集,也不需要与专家多次交互,可以一次性向专家提供所有待打标语音样本,限制条件更少,适用范围更广,使用更方便。
附图说明
图1为本发明实施例1提供的一种用于语音情感计算的无监督主动学习方法流程图;
图2为本发明实施例2提供的一种用于语音情感计算的无监督主动学习方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出一种用于语音情感计算的无监督主动学习方法,该方法包括以下步骤:
步骤S1.获取提取特征后语音样本的特征维度d,设定交给专家打标的语音样本个数M、迭代次数c的最大值cmax、步数索引i的最大值S、第i步需要获取的待打标样本数目Mi、第i步使用的优化方法,要求
Figure BDA0002240470710000051
初始化步数索引i为1。
采集到的语音数据集共有N个样本
Figure BDA0002240470710000052
对语音数据集预处理后进行特征提取(例如音调特征、音长特征、能量特征和梅尔频率倒谱系数特征),得到N个特征向量{x1,x2,...,xN},提取特征后每个样本的特征维度是d。
用户根据打标成本预算与回归模型的期望精度,设定交给专家打标的语音样本个数M。M越大,打标成本越高,模型的期望精度也越高。
用户根据期望的运算代价,设定最大迭代次数cmax。cmax越大,计算代价越大,回归模型的期望精度可能会提升(若已收敛则不再提升)。
使用一步、两步还是多步优化,取决于语音数据集以及所使用的优化方法。
设定每一步使用的优化方法,用于选出当前步的Mi个待打标样本。由于上一步确定的待打标样本参与到当前待打标样本的优化,因此,每一步的优化方法不同。
第i步需要获取的待打标样本数目Mi由用户设定,必须保证
Figure BDA0002240470710000061
步骤S2.初始化迭代次数c为1,从语音样本集中选取Mi个样本初始化待打标样本集Sic,将Sic存入待打标样本集库SLi中,其中,Sic表示第i步的第c轮迭代对应的待打标样本集。
从语音样本集中选取Mi个样本作为初始待打标样本集Sic,选取方式可以不同,例如,随机选取或者聚类选取。聚类选取具体如下:对经过特征提取后的语音数据集中的全部样本使用k-mea聚类,其中,k=M1=d+1,选取每个类中距离类中心最近的样本作为初始待打标样本集S1c,将S1c存入待打标样本集库SLi中。
步骤S3.从待打标样本集Sic中选择一个第c轮迭代中未被优化的待打标样本,固定其余(Mi-1)个样本和之前所有步选出的样本,使用第i步的优化方法,从排除固定样本后的语音样本集中选择一个最有价值的样本替换待优化的待打标样本,更新Sic
步骤S4.如果第c轮迭代中,待打标样本集Sic中的所有样本都被优化了一次,则进入步骤S5,否则,返回步骤S3。
步骤S5.如果第c轮迭代的待打标样本集Sic已经存在于待打标样本集库SLi中:Sic∈SLi,或者已经达到最大迭代次数c=cmax,则进入步骤S6;否则,将当前迭代的待打标样本集Sic存入待打标样本集库SLi中,下一轮迭代的待打标样本集Si(c+1)初始化为Sic,c=c+1,回到步骤S3开始下一轮的迭代。
若Sic∈SLi,则Sic已经收敛。
步骤S6.如果i=S,则输出这i步选出的共计M个待打标样本给专家,结束;否则,i=i+1,返回步骤S2。
本发明的所有实施例中均使用德国视听即兴演讲数据集(德文为The Vera amMittag,英文为German Audio-Visual Spontaneous Speech Database),后文均简称为VAM数据集。该数据集包含947个语音样本,已经对原始语音信号进行了特征提取,生成的特征向量维度为46,包括:9个音调特征、5个时间特征、6个能量特征和26个梅尔频率倒谱系数(MFCC)特征。每个样本拥有三个标签,分别代表三个情感维度:效价(valence)、唤醒度(arousal)、优势度(dominance),它们都是连续值。在46维的样本空间中,每个特征向量对应一个点,后文称它为样本点。本发明的所有实施例选择效价(valence)作为标签。
实施例1——一步优化
如图1所示,该方法包括以下步骤:
步骤S1.获取VAM数据集中样本的特征向量的维度d=46,交给专家打标的语音样本个数设定为M=1,迭代次数c的最大值设定为cmax=5,优化方法设定为线性流形法(详见后文叙述)。
本实施例优选cmax=5。
步骤S2.对VAM数据集使用主成分分析法(PCA)降维到d=M-1=9维。
这是对VAM数据集的进行特征处理,以便线性流形法的执行,实施例1之后的步骤都是基于降维后的VAM数据集来运算。M1=M=d+1=10。
步骤S3.迭代次数c初始化为1,第c轮迭代对应的待打标样本集表示为Sc:{x1,x2,...,x10},对VAM数据集中的全部样本使用k均值聚类算法(k-means)获得k个聚类{C1,C2,...,C10},其中,k=M=10,选取每个类中距离类中心最近的样本作为初始待打标样本集S1,将S1存入库SL中。本实施例选用欧氏距离。
待打标样本集中样本的下标与对应的聚类的下标相同,即聚类Ci中的待打标样本为xi,i=1,2,...,10。各待优化的样本会一直处在其对应的聚类中,每个聚类中只会有一个待打标样本。库P的作用是判断每轮迭代后算法是否收敛。
步骤S4.依次优化待打标样本集Sc中的样本,每次只优化一个样本,每轮迭代中每个样本只优化一次,每次优化所使用的方法为线性流形法。
令正在优化的样本为xi,i=1,2,...,10,每次优化所使用的线性流形法的具体过程如下:
(1)固定待打标样本集Sc中除xi外的其他M-1=9个样本,这些固定的样本可以确定一个M-2=8维的超平面H。
计算待优化样本xi所在的聚类Ci中所有样本点到超平面H的距离
Figure BDA0002240470710000081
计算聚类Ci中每个样本与聚类Ci中所有样本的平均距离
Figure BDA0002240470710000082
其中,
Figure BDA0002240470710000083
表示聚类Ci中的样本个数。
(3)计算聚类Ci中每个样本的重要性度量
Figure BDA0002240470710000084
(4)选择V最大的样本作为当前的最优样本,替换待优化的待打标样本xi,从而更新Sc
步骤S5.如果待打标样本集Sc已经存在于库SL中(代表算法已经收敛),或者已经达到最大迭代次数c=cmax=5,那么算法结束,输出当前待打标样本集Sc,否则,将Sc存入库SL,令下一轮迭代的初始待打标样本集Sc+1=Sc,然后c加一,返回步骤S4。
实施例2——两步优化。
如图2所示,该方法包括以下步骤:
步骤S1.获取VAM数据集中样本的特征向量的维度d=46,交给专家打标的语音样本个数设定为M=60,迭代次数c的最大值设定为cmax=5,第一步的优化方法设定为线性流形法,第二步的优化方法设定为贪婪搜索法(详见后文叙述),第一步选择出M1=d+1=47个待打标样本,第二步选择出M2=M-M1=13个样本。
各步选出的待打标样本数量之和必须等于M,即M1+M2=M。
步骤S2.开始执行算法的第一步优化。迭代次数c初始化为1,第c轮迭代对应的待打标样本集表示为S1c:{x1,x2,...,x47},对VAM数据集中的全部样本使用k均值聚类算法(k-means算法,这里k=M1=47)获得47个聚类{C1,C2,...,C47},选取每个类中距离类中心最近的样本作为初始待打标样本集S11,将S11存入库SL1中。
待打标样本集中样本的下标与对应的聚类的下标相同,即聚类Ci中的待打标样本为xi,i=1,2,...,47。各待优化的样本会一直处在其对应的聚类中,每个聚类中只会有一个待打标样本。库SLi的作用是判断第i轮迭代后算法是否收敛。
步骤S3.依次优化待打标样本集S1c中的样本,每次只优化一个样本,每轮迭代中每个样本只优化一次,每次优化所使用的方法为线性流形法。令正在优化的样本为xi,i=1,2,...,47,每次优化所使用的线性流形法的具体过程如下:
(1)固定待打标样本集S1c中除xi外的其他M1-1=46个样本,这些固定的样本可以确定一个M1-2=45维的超平面H。
(2)计算待优化样本xi所在的聚类Ci中所有样本点到超平面H的距离
Figure BDA0002240470710000101
然后计算聚类Ci中每个样本与聚类Ci中所有样本的平均距离
Figure BDA0002240470710000102
其中,表示聚类Ci中的样本个数。
(3)计算聚类Ci中每个样本的重要性度量
Figure BDA0002240470710000104
(4)选择V值最大的样本,作为当前的最优样本替换待优化的待打标样本xi,从而更新S1c
步骤S4.如果待打标样本集S1c已经存在于库SL1中(代表算法已经收敛),或者已经达到最大迭代次数c=cmax=5,那么第一步优化结束,第一步选出的M1=47个待打标样本就是当前的待打标样本集S1c,将其记为S1,进入步骤S5;否则,将S1c存入库SL1,令下一轮迭代的初始待打标样本集S1(c+1)=S1c,然后c加一,返回步骤S3。
步骤S5.开始执行算法的第二步优化。对VAM数据集中去除第一步已经找到的待打标样本集合S1后的样本使用k均值聚类算法(k-means算法,这里k=M2=13)获得13个聚类
Figure BDA0002240470710000105
选取每个类中距离类中心最近的样本作为初始待打标样本集S21:{x1,x2,...,x13},将S21存入库SL2中。
步骤S6.依次优化待打标样本集S2c中的样本,每次只优化一个样本,每轮迭代中每个样本只优化一次,每次优化所使用的方法为贪婪搜索法。
令正在优化的样本为xi,i=1,2,...,1,每次优化所使用的贪婪搜索法的具体过程如下:
(1)固定待打标样本集S2c中除xi外的其他M2-1=12个样本,加上第一步选择的47个样本S1,形成含有59个固定样本的集合St
(2)计算待优化样本xi所在的聚类
Figure BDA0002240470710000106
中所有样本点到固定样本的集合St的贪婪距离
Figure BDA0002240470710000107
(贪婪距离定义为xj到St中每个样本点的59个距离中的最小值),计算聚类
Figure BDA0002240470710000108
和每个样本与聚类中所有样本的平均距离
Figure BDA0002240470710000111
(
Figure BDA0002240470710000112
表示聚类
Figure BDA0002240470710000113
中的样本个数)。
(3)计算聚类
Figure BDA0002240470710000114
中每个样本的重要性度量
Figure BDA0002240470710000115
(4)选择V值最大的样本,作为当前的最优样本替换待优化的待打标样本xi,从而更新S2c
步骤S7.如果待打标样本集S2c已经存在于库SL2中(代表算法已经收敛),或者已经达到最大迭代次数c=cmax=5,那么第二步优化结束,第二步选出的M2=13个待打标样本就是当前的待打标样本集S2c,将其记为S2,进入步骤S8;否则,将S2c存入库SL2,令下一轮迭代的初始待打标样本集S2(c+1)=S2c,然后c加一,返回步骤S6。
步骤S8.将第一步选出的M1=4个待打标样本的集合S1与第二步选出的M2=13个待打标样本的集合S2合并为最终得出的M=60个样本作为算法最终得到的待打标样本集S输出。
将待打标样本集S交给人工专家打标后,即可训练并获得VAM数据集的回归模型。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种用于语音情感计算的无监督主动学习方法,其特征在于,该方法包括以下步骤:
S1.获取提取特征后语音样本的特征维度d,设定交给专家打标的语音样本个数M、迭代次数c的最大值cmax、步数索引i的最大值S、第i步需要获取的待打标样本数目Mi、第i步使用的优化方法,要求
Figure FDA0002240470700000011
初始化步数索引i为1;
S2.初始化迭代次数c为1,从语音样本集中选取Mi个样本初始化待打标样本集Sic,将Sic存入待打标样本集库SLi中,其中,Sic表示第i步的第c轮迭代对应的待打标样本集;
S3.从待打标样本集Sic中选择一个第c轮迭代中未被优化的待打标样本,固定其余(Mi-1)个样本和之前所有步选出的样本,通过第i步使用的优化方法,从排除固定样本后的语音样本集中选择一个最有价值的样本替换待优化的待打标样本,更新Sic
S4.如果第c轮迭代中,待打标样本集Sic中的所有样本都被优化了一次,则进入步骤S5,否则,返回步骤S3;
S5.如果第c轮迭代的待打标样本集Sic已经存在于待打标样本集库SLi中,或者已经达到最大迭代次数cmax,则进入步骤S6;否则,将当前迭代的待打标样本集Sic存入待打标样本集库SLi中,下一轮迭代的待打标样本集Si(c+1)初始化为Sic,c=c+1,返回步骤S3;
S6.如果i=S,则输出这i步选出的共计M个待打标样本给专家,结束;否则,i=i+1,返回步骤S2。
2.如权利要求1所述的方法,其特征在于,根据打标成本预算与回归模型的期望精度,设定交给专家打标的语音样本个数M;根据期望的运算代价,设定最大迭代次数cmax;根据待打标的语音样本个数M和语音样本的特征向量的维度d,设定步数索引i的最大值S。
3.如权利要求2所述的方法,其特征在于,当M≤d+1时,使用一步优化,当M>d+1时,使用两步优化。
4.如权利要求1所述的方法,其特征在于,每一步使用的优化方法不同。
5.如权利要求1所述的方法,其特征在于,从语音样本集中聚类选取出Mi个样本作为初始待打标样本集Sic
6.如权利要求1所述的方法,其特征在于,第一步优化第c轮迭代中的第i次优化使用线性流形法,i=1,…,M1,该方法包括以下步骤:
(1)固定待打标样本集S1c中除待优化的待打标样本xi外的其他(M1-1)个样本,这些固定的样本可以确定一个(M1-2)维的超平面H;
(2)计算待优化的待打标样本xi所在的聚类Ci中所有样本点到超平面H的距离
Figure FDA0002240470700000021
然后计算聚类Ci中每个样本与聚类Ci中所有样本的平均距离
Figure FDA0002240470700000022
其中,
Figure FDA0002240470700000023
表示聚类Ci中的样本个数;
(3)计算聚类Ci中每个样本的重要性度量
Figure FDA0002240470700000024
(4)选择V值最大的样本,作为当前的最优样本替换待优化的待打标样本xi,从而更新S1c
7.如权利要求1所述的方法,其特征在于,第二步优化第c轮迭代中的第i次优化使用贪婪搜索法,i=1,…,M2,该方法包括以下步骤:
(1)固定待打标样本集S2c中除待优化的待打标样本xi外的其他(M2-1)个样本,加上第一步选出的样本S1,形成含有(M-1)个固定样本的集合St
(2)计算待优化的待打标样本xi所在的聚类
Figure FDA0002240470700000025
中所有样本点到固定样本的集合St的贪婪距离
Figure FDA0002240470700000031
计算聚类
Figure FDA0002240470700000032
中每个样本与聚类
Figure FDA0002240470700000033
中所有样本的平均距离
Figure FDA0002240470700000034
其中,
Figure FDA0002240470700000035
表示聚类
Figure FDA0002240470700000036
中的样本个数;
(3)计算聚类
Figure FDA0002240470700000037
中每个样本的重要性度量
(4)选择V值最大的样本,作为当前的最优样本替换待优化的待打标样本xi,从而更新S2c
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~7任一项所述的用于语音情感计算的无监督主动学习方法。
CN201910999055.0A 2019-10-21 2019-10-21 一种用于语音情感计算的无监督主动学习方法 Active CN110782876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910999055.0A CN110782876B (zh) 2019-10-21 2019-10-21 一种用于语音情感计算的无监督主动学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910999055.0A CN110782876B (zh) 2019-10-21 2019-10-21 一种用于语音情感计算的无监督主动学习方法

Publications (2)

Publication Number Publication Date
CN110782876A true CN110782876A (zh) 2020-02-11
CN110782876B CN110782876B (zh) 2022-03-18

Family

ID=69386135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910999055.0A Active CN110782876B (zh) 2019-10-21 2019-10-21 一种用于语音情感计算的无监督主动学习方法

Country Status (1)

Country Link
CN (1) CN110782876B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396094A (zh) * 2020-11-02 2021-02-23 华中科技大学 同时用于情感分类和回归的多任务主动学习方法和系统
CN113807631A (zh) * 2020-12-28 2021-12-17 京东科技控股股份有限公司 回归模型的训练方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156438A (zh) * 2014-08-12 2014-11-19 德州学院 一种基于置信度和聚类的未标记样本选择的方法
CN106844743A (zh) * 2017-02-14 2017-06-13 国网新疆电力公司信息通信公司 维吾尔语文本的情感分类方法及装置
CN108898225A (zh) * 2018-05-04 2018-11-27 成都信息工程大学 基于人机协同学习的数据标注方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156438A (zh) * 2014-08-12 2014-11-19 德州学院 一种基于置信度和聚类的未标记样本选择的方法
CN106844743A (zh) * 2017-02-14 2017-06-13 国网新疆电力公司信息通信公司 维吾尔语文本的情感分类方法及装置
CN108898225A (zh) * 2018-05-04 2018-11-27 成都信息工程大学 基于人机协同学习的数据标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONGRUI WU: "Pool-Based Sequential Active Learning for Regression", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
DONGRUI WU等: "Active learning for regression using greedy sampling", 《INFORMATION CCIENCES》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396094A (zh) * 2020-11-02 2021-02-23 华中科技大学 同时用于情感分类和回归的多任务主动学习方法和系统
CN112396094B (zh) * 2020-11-02 2022-05-20 华中科技大学 同时用于情感分类和回归的多任务主动学习方法和系统
CN113807631A (zh) * 2020-12-28 2021-12-17 京东科技控股股份有限公司 回归模型的训练方法、装置、电子设备和存储介质
CN113807631B (zh) * 2020-12-28 2024-02-06 京东科技控股股份有限公司 回归模型的训练方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN110782876B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
KR102323046B1 (ko) 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체
JP6444530B2 (ja) 音声言語理解システム
Graves Sequence transduction with recurrent neural networks
CN112015868B (zh) 基于知识图谱补全的问答方法
JP2775140B2 (ja) パターン認識方法、音声認識方法および音声認識装置
CN116662582B (zh) 基于自然语言的特定领域业务知识检索方法及检索装置
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
EP0771461A1 (en) Method and apparatus for speech recognition using optimised partial probability mixture tying
CN117435716B (zh) 电网人机交互终端的数据处理方法及系统
CN110570879A (zh) 基于情绪识别的智能会话方法、装置及计算机设备
CN110782876B (zh) 一种用于语音情感计算的无监督主动学习方法
CN112732864A (zh) 一种基于稠密伪查询向量表示的文档检索方法
Kurimo Using self-organizing maps and learning vector quantization for mixture density hidden Markov models
CN115019083A (zh) 基于少样本学习的词嵌入图神经网络的细粒度图分类方法
CN117037789B (zh) 一种客服语音识别方法、装置、计算机设备及存储介质
CN116955579B (zh) 一种基于关键词知识检索的聊天回复生成方法和装置
Song et al. Exploiting different word clusterings for class-based RNN language modeling in speech recognition
CN117454988A (zh) 智能问答系统语义分析与序列生成方法
CN117216012A (zh) 主题建模方法、装置、电子设备和计算机可读存储介质
Shinoda Acoustic model adaptation for speech recognition
Becerra et al. A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish
CN117291193A (zh) 机器翻译方法、设备及存储介质
CN114757310A (zh) 情感识别模型及其训练方法、装置、设备及可读存储介质
CN115083419A (zh) 说话人识别方法及装置、设备、存储介质
Hammami et al. Tree distributions approximation model for robust discrete speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant