CN111506757A - 基于增量迭代的语音标记装置及方法 - Google Patents
基于增量迭代的语音标记装置及方法 Download PDFInfo
- Publication number
- CN111506757A CN111506757A CN202010279932.XA CN202010279932A CN111506757A CN 111506757 A CN111506757 A CN 111506757A CN 202010279932 A CN202010279932 A CN 202010279932A CN 111506757 A CN111506757 A CN 111506757A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- voice data
- feature
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 91
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000002372 labelling Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 239000000523 sample Substances 0.000 description 100
- 230000008569 process Effects 0.000 description 11
- 239000010410 layer Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000013068 control sample Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于增量迭代的语音标记装置及方法,能够基于含有语音数据以及对应类别标签的标记样本对仅含有语音数据的未标记样本进行自动标记,其特征在于,包括:多视图特征提取部、标记样本池存储部、样本平衡部、特征回归处理部以及集成分类器训练部,多视图特征提取部用于对所有样本的语音数据进行多视图特征的提取,并通过样本平衡部平衡不同类别的标记样本分布,在特征回归处理部处理得到特征权重后通过集成分类器训练部进行训练,从而得到了能够对未标记样本进行针对类别标签的概率预测的集成分类器,进一步,通过判断预测概率以及置信度阈值从而将符合条件的未标记样本作为新的标记样本并进行不断的迭代训练。
Description
技术领域
本发明属于语音识别领域,涉及语音数据的自动标记技术,具体涉及一种基于增量迭代的语音标记装置及方法。
背景技术
随着分类预测模型的兴起,通过不同的分类预测模型对各类数据进行预测从而实现智能评判、智能识别等功能的应用越来越多。然而,所有的分类预测模型都需要预先通过充足的被标记好的样本进行训练,才能对输入的数据进行更稳定、准确的预测。
但是,由于一些领域的特殊性,例如一些实际应用较少的领域,往往需要分析人员自主采集相应的样本数据,也就不会存在事先标记好的样本。此时,分析人员需要一一对各个样本进行人工标记,直到标记样本的数量满足预测模型的训练需求,一般而言,标记样本的需求量非常大,因此会极大地花费分析人员的时间和精力。尤其是在语音识别领域,与图像识别领域中分析人员可以较为直观且迅速地为图像进行标记相比,分析人员需要对完成的语音进行听取才能完成后续的标记,因此会更大程度地在标记语音样本过程中的浪费时间和精力。
目前,已有的半监督学习方法能够在一定程度上解决未知样本的标记问题,例如,自训练,协同训练等,从而实现自动生成样本并让模型根据这些样本进行训练,然而,这些方法并不能有效地对语音样本进行标记:首先,由于语音数据的复杂性,语音数据不仅包含了用户的声音信息,同时也传达了用户的语义表达内容,二者来自同一信息源(用户),但却传达了不同类型的信息,因此通过已有半监督办法很难正确地进行标记;其次,更为重要的是,已有半监督方法在训练和进行标签预测的同时,对样本的分布考虑不足,因此也很难对少数类未知样本进行有效标记。因此这些标记方法难以应用在语音识别的领域。
发明内容
为解决上述问题,提供一种能够基于少量的已标记语音样本自动对未标记的语音样本数据进行标记的语音标记装置及方法,本发明采用了如下技术方案:
本发明提供了一种基于增量迭代的语音标记装置,能够基于含有语音数据以及对应类别标签的标记样本对仅含有语音数据的未标记样本进行自动标记,其特征在于,包括:语音样本获取部、多视图特征提取部、标记样本池存储部、迭代训练控制部、样本平衡部、特征回归处理部、集成分类器训练部、标签预测部、迭代终止判定部、置信度判断部以及标记样本匹配更新部,其中,语音样本获取部获取标记样本以及未标记样本,多视图特征提取部对标记样本以及未标记样本中的语音数据进行多视图特征提取从而得到对应每一个标记样本以及未标记样本的多视图特征,标记样本池存储部将所有标记样本的语音数据以及类别标签与相应的多视图特征进行对应存储并形成一个标记样本池,迭代训练控制部控制样本平衡部基于标记样本池中所有语音数据的类别标签对标记样本进行合成少数类过采样(SMOTE)从而平衡对应不同类别标签的语音数据并基于平衡后的语音数据形成多个相应的待训练样本,并控制特征回归处理部基于L1范数对待训练样本的多视图特征进行回归以及归一化并得到对应每一个待训练样本的特征权重,再控制集成分类器训练部基于待训练样本以及特征权重进行训练处理从而构建出用于预测语音数据所对应的类别标签的集成分类器,进一步控制标签预测部依次将每一个未标记样本对应的多视图特征输入集成分类器并得到该未标记样本中语音数据对应各个标签类别的预测概率,从而完成一次迭代训练,迭代终止判定部在迭代训练完成后判定是否完成迭代终止条件,当迭代终止判定部判定未完成迭代终止条件时,置信度判断部就依次判断每一个未标记样本对应的所有预测概率是否高于预设的置信度阈值,标记样本匹配更新部将所有被判断高于置信度阈值的预测概率所对应的标签类别与未标记样本进行匹配,并作为新的标记样本加入标记样本池从而更新形成新的标记样本池,每当标记样本匹配更新部更新形成新的标记样本池时,迭代训练控制部就再次控制样本平衡部、特征回归处理部、集成分类器训练部以及标签预测部进行一次迭代训练,直到迭代终止判定部判定完成迭代终止条件。
本发明提供的基于增量迭代的语音标记装置,还可以具有这样的技术特征,其中,多视图特征包括文本特征、时域特征以及频域特征,多视图特征提取部具有:文本处理提取单元,用于将语音数据处理为预处理词并进行提取得到对应该文本信息的文本特征;以及语音处理提取单元,用于对语音数据进行处理从而提取得到对应该语音的时域特征以及频域特征。
本发明提供的基于增量迭代的语音标记装置,还可以具有这样的技术特征,其中,文本处理提取单元包括:文本转换部分,用于将语音数据转换为文本信息;预处理部分,用于对文本信息进行至少包括分词、去噪的预处理得到多个预处理词;向量化部分,用于通过预设的word2vec模型对多个预处理词进行向量化得到相应的多个词向量;以及文本特征提取部分,将多个词向量输入预先基于标记样本训练得到的LSTM模型并将该LSTM模型中最后一个神经单元中最后一个隐含层的输出作为文本特征。
本发明提供的基于增量迭代的语音标记装置,还可以具有这样的技术特征,其中,语音处理提取单元包括:语音转换部分,用于将语音数据转换为梅尔频率倒谱系数;以及特征指标提取部分,基于梅尔频率倒谱系数进行特征提取从而得到时域特征以及频域特征。
本发明提供的基于增量迭代的语音标记装置,还可以具有这样的技术特征,其中,时域特征包括波形因子、脉冲因子、峭度、偏度、裕度因子和峰值,频域特征包括重心频率、均方频率、均方根频率、频率方差和频率标准差。
本发明提供的基于增量迭代的语音标记装置,还可以具有这样的技术特征,其中,集成分类器由一个基分类器构成,集成分类器训练部包括:特征子集抽取单元,用于根据特征权重从待训练样本中抽取所有相应的特征权重非零的待训练样本作为特征子集;以及分类器训练单元,用于根据特征子集对基分类器进行训练从而得到集成分类器。
本发明提供的基于增量迭代的语音标记装置,还可以具有这样的技术特征,其中,集成分类器包含预定数量个基分类器,集成分类器训练部包括:特征子集抽取单元,用于根据特征权重对多视图特征进行概率抽样得到预定数量个特征子集;以及分类器训练单元,基于每个特征子集分别进行训练从而得到预订数量个对应的基分类器,并将各个基分类器的输出通过预设的输出融合模块进行融合从而形成集成分类器,输出融合模块基于投票策略或平均策略将基分类器的输出进行融合。
本发明还提供了一种基于增量迭代的语音标记方法,能够基于含有语音数据以及对应类别标签的标记样本对仅含有语音数据的未标记样本进行自动标记,其特征在于,包括如下步骤:步骤一,获取标记样本以及未标记样本;步骤二,对标记样本以及未标记样本中的语音数据进行多视图特征提取从而得到对应每一个标记样本以及未标记样本的多视图特征;步骤三,将所有标记样本的语音数据以及类别标签与相应的多视图特征进行对应存储并形成一个标记样本池;步骤四,基于标记样本池中所有语音数据的类别标签对标记样本进行合成少数类过采样(SMOTE)从而平衡对应不同类别标签的语音数据并基于平衡后的语音数据形成多个相应的待训练样本;步骤五,基于L1范数对待训练样本的多视图特征进行回归以及归一化并得到对应每一个待训练样本的特征权重;步骤六,基于待训练样本以及特征权重进行训练处理从而构建出用于预测语音数据所对应的类别标签的集成分类器;步骤七,依次将每一个未标记样本对应的多视图特征输入集成分类器并得到该未标记样本中语音数据对应各个标签类别的预测概率;步骤八,判定是否完成迭代终止条件,当判定未完成迭代终止条件时进入步骤九,当判定完成迭代终止条件时进入结束状态;步骤九,依次判定每一个未标记样本对应的所有预测概率是否高于预设的置信度阈值;步骤十,将所有被判定高于置信度阈值的预测概率所对应的标签类别与未标记样本进行匹配,并作为新的标记样本加入标记样本池形成新的标记样本池,进一步返回步骤四。
发明作用与效果
根据本发明的基于增量迭代的语音标记装置及方法,由于在获取标记样本以及未标记样本后,通过多视图特征提取部对所有样本的语音数据进行多视图特征的提取,并通过样本平衡部平衡不同类别的标记样本分布,在特征回归处理部处理得到特征权重后通过集成分类器训练部进行训练,从而得到了能够对未标记样本进行针对类别标签的概率预测的集成分类器,进一步,通过判断预测概率以及置信度阈值从而将符合条件的未标记样本作为新的标记样本并进行不断的迭代训练,因此,本发明的语音标记装置可以不断地基于已有的标记样本,将未标记样本转换为高置信度的标记样本并加入训练,从而使得模型能够不断成长,不断获得对更多未知样本的预测能力。同时,还因为基于各个样本的多视图特征进行了预测以及训练,并对标记样本的类别非均衡问题进行了应对,所以语音标记装置的预测能力会更加准确。
附图说明
图1是本发明实施例中语音标记装置的结构框图;以及
图2是本发明实施例中语音标记装置的处理流程示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的基于增量迭代的语音标记装置及方法作具体阐述。
<实施例>
本实施例中,语音标记装置为一台由用户持有的计算机,该计算机中运行有预先根据基于增量迭代的语音标记方法编写形成的计算机程序。
图1是本发明实施例中语音标记装置的结构框图。
如图1所示,语音标记装置100包括语音样本获取部101、多视图特征提取部102、标记样本池存储部103、迭代训练控制部104、样本平衡部105、特征回归处理部106、集成分类器训练部107、标签预测部108、迭代终止判定部109、置信度判断部110、标记样本匹配更新部111、装置侧通信部112以及装置侧控制部113。
其中,装置侧通信部112用于进行语音标记装置100的各个组成部分之间以及语音标记装置100与其他装置之间的数据交换,装置侧控制部113存储有用于对语音标记装置100的各个组成部分的工作进行控制的计算机程序。
语音样本获取部101用于获取标记样本以及未标记样本。
本实施例中,标记样本以及未标记样本均为用户向计算机中导入的语音数据。其中,标记样本中的语音数据还对应有事先标记好的类别标签,该类别标签可以为语音数据对应的话术类别,也可以为其他根据实际需求对语音数据划分的类别标签。
本实施例中,语音数据采用了话务员在工作时产生的座席语音数据,类别标签为评价各个座席语音数据的话术高低的评价类别标签。
多视图特征提取部102用于对语音样本获取部101获取到的标记样本以及未标记样本中的语音数据进行多视图特征提取,从而得到对应每一个标记样本以及未标记样本的多视图特征,
本实施例中,多视图特征提取部102会对语音数据进行多视图构建从而得到多视图特征,即分别通过如下的文本处理提取单元21以及语音处理提取单元22对语音数据衍生出文本数据(通过语音转写得到)和序列数据(音频通过傅里叶变换得到)并进行特征提取。
文本处理提取单元21用于将语音数据处理为预处理词并进行提取得到对应该文本信息的文本特征。
本实施例中,文本处理提取部分21具有文本转换部分21a、预处理部分21b、向量化部分21c以及文本特征提取部分21d。
文本转换部分21a用于将座席语音转换为文本信息。
预处理部分21b用于对文本信息进行至少包括分词、去噪的预处理得到预处理词。
本实施例中,预处理词通过预处理部分21b进行分词形成多个词汇以及去噪从而去除多个词汇中无用的词汇,最终得到由多个词汇组成的预处理词。
向量化部分21c用于通过预设的word2vec模型对多个预处理词进行向量化得到相应的多个文本向量。
文本特征提取部分21d用于将文本向量输入预设的LSTM模型并将该LSTM模型中最后一个神经部分中最后一个隐含层的输出作为文本特征。
本实施例中,LSTM模型预先基于标记样本,由类别标签监督,训练得到。
本实施例中,word2vec模型以及LSTM模型为常规的语言分析模型,LSTM模型采用了单层LSTM模型,其具有(1)embedding层(batch=32,input_length=500,dimention=字典维度);(2)LSTM层(隐含层神经元个数为128);(3)softmax层(激活函数为sigmoid),输出维度等于话术等级个数。
语音处理提取单元22用于对座席语音进行处理从而提取得到对应该座席语音的时域特征以及频域特征。
本实施例中,语音处理提取部22具有语音转换部分22a以及特征指标提取部分22b。
语音转换部分22a用于将座席语音转换为梅尔频率倒谱系数。
特征指标提取部分22b基于梅尔频率倒谱系数进行特征及指标提取从而得到时域特征以及频域特征。
具体地,语音转换部分22a首先对连续语音数据做预加重(滤波)处理,然后分帧,加窗(增加帧左端和右端的连续性),之后进行快速傅里叶变换,输入Mel(梅尔)频率滤波器组对频谱进行平滑化,并消除谐波,接着,特征指标提取部分22b计算每个滤波器组输出的对数能量,最后,经过离散余弦变换(DCT)得到MFCC系数。
本实施例中,时域特征包括波形因子、脉冲因子、峭度、偏度、裕度因子、峰值;频域特征包括重心频率、均方频率、均方根频率、频率方差、频率标准差。
上述文本特征、时域特征以及频域特征构成了各个语音数据的多视图特征。
标记样本池存储部103用于将所有标记样本的语音数据以及类别标签与相应的多视图特征进行对应存储并形成一个标记样本池。
迭代训练控制部104用于对语音标记装置100中涉及迭代训练过程的组成部分的工作进行控制。本实施例中,迭代训练控制部104能够依次控制样本平衡部105、特征回归处理部106、集成分类器训练部107以及标签预测部108执行各自的工作从而完成一次迭代训练。
样本平衡部105能够基于标记样本池中所有语音数据的类别标签,对标记样本进行合成少数类过采样(SMOTE),从而平衡对应不同类别标签的语音数据,并基于平衡后的语音数据形成多个相应的待训练样本。
特征回归处理部106能够基于L1范数(Lasso)对待训练样本的多视图特征进行回归以及归一化并得到对应每一个待训练样本的特征权重。
集成分类器训练部107能够基于待训练样本以及特征权重进行训练处理从而构建出用于预测语音数据所对应的类别标签的集成分类器。
本实施例中,集成分类器可以是一个独立的基分类器,能够根据多视图特征直接输出语音数据对应各个类别标签的预测概率;也可以也可以是一个由多个基分类器构成、并通过输出融合模块将所有基分类器的输出融合为预测概率的集成型分类器。
本实施例中,集成分类器训练部107包括特征子集抽取单元71以及分类器训练单元72。
具体地,当集成分类器由一个基分类器构成时,特征子集抽取单元71根据特征权重从待训练样本中抽取所有相应的特征权重非零的待训练样本作为特征子集;分类器训练单元72根据特征子集对基分类器进行训练从而得到集成分类器。
当集成分类器由多个基分类器以及输出融合模块构成时,特征子集抽取单元71根据特征权重对多视图特征进行概率抽样得到多个特征子集;分类器训练单元72基于每个特征子集分别进行训练从而得到多个对应的基分类器,并将各个基分类器的输出通过预设的输出融合模块进行融合从而形成集成分类器。
本实施例中,输出融合模块基于投票策略或平均策略将基分类器的输出进行融合,基分类器选取为XGBoost模型。
本实施例中,当集成分类器包含多个基分类器时,特征子集以及基分类器的数量优选为10个。在抽取10个特征子集时,特征抽取比例选择0.5,最终对应训练得到10个基分类器,使得融合出的预测概率更稳定且准确。在本发明的其他方案中,特征子集的提取数量以及基分类器的构建数量也可以根据实际需求进行调整,特征抽取比例也可在(0,1)范围内进行调整。
标签预测部108用于依次将每一个未标记样本对应的多视图特征输入集成分类器训练部107训练好的集成分类器中,从而得到该未标记样本中语音数据对应各个标签类别的预测概率。
迭代终止判定部109用于在每一次迭代训练控制部104控制相应部分完成迭代训练后判定是否完成迭代终止条件。
本实施例中,迭代终止条件有两条,满足以下其中任意一条即停止模型的训练,具体为:
(1)当迭代次数达到预先设定的上限时,停止。本实施例中该上限的设置值是1000,根据学习场景的变化可调整。
(2)当前后两次新增的高置信度标记样本数量不超过设定值时,停止迭代。即,模型的训练不再增加或带来新的可靠样本时,停止迭代。该设定值目前为5,可根据样本量大小进一步调整。
本实施例中,在迭代终止判定部109判定未完成迭代终止条件后,置信度判断部110以及标记样本匹配更新部111就会启动并执行各自的工作,具体地:
置信度判断部110依次判断每一个未标记样本对应的所有预测概率是否高于预设的置信度阈值。
标记样本匹配更新部111将所有被判断高于置信度阈值的预测概率所对应的标签类别与未标记样本进行匹配,并作为新的标记样本加入标记样本池形成新的标记样本池(即、对标记样本池存储部103进行更新)。
本实施例中,针对每一条未标记样本,通过集成分类器得到对应各个类别标签的预测概率,其概率和为1。例如类别标签有三分类,置信度阈值为0.6,针对各个预测标签的预测概率分别为0.8、0.1、0.1,那么认为该样本是可靠的第一类样本,标记样本匹配更新部111就会将未标记样本与第一类的类别标签进行对应,形成一个标记样本。
本实施例中,每当标记样本匹配更新部111更新形成新的标记样本池时,迭代训练控制部104就再次控制样本平衡部105、特征回归处理部106、集成分类器训练部107以及标签预测部108进行一次迭代训练,直到迭代终止判定部109判定完成迭代终止条件。
图2是本发明实施例中语音标记装置的处理流程示意图。
如图2所示,在用户向语音标记装置100导入标记样本以及未标记样本后,开始如下步骤:
步骤S1,语音样本获取部101获取用户导入的标记样本以及未标记样本,该标记样本以及未标记样本都包含座席语音数据,然后进入步骤S2;
步骤S2,多视图特征提取部102对步骤S1获取到的标记样本以及未标记样本中的座席语音数据进行多视图特征提取,该多视图特征包含文本特征、时域特征以及频域特征,然后进入步骤S3;
步骤S3,标记样本池存储部103用于将所有的标记样本的语音数据、相应的类别标签与多视图特征进行对应存储并形成一个标记样本池,然后进入步骤S4;
步骤S4,样本平衡部105基于被存储的标记样本池中所有语音数据的类别标签,对标记样本进行合成少数类过采样(SMOTET),从而平衡对应不同类别标签的语音数据,并基于平衡后的语音数据形成多个相应的待训练样本,然后进入步骤S5;
步骤S5,特征回归处理部106基于L1范数(Lasso)对待训练样本的多视图特征进行回归以及归一化并得到对应每一个待训练样本的特征权重,然后进入步骤S6;
步骤S6,集成分类器训练部107基于待训练样本以及特征权重抽取特征子集,并进行训练处理从而构建出集成分类器,然后进入步骤S7;
步骤S7,标签预测部108依次将每一个未标记样本对应的多视图特征输入步骤S6训练好的集成分类器中,从而得到该未标记样本中语音数据对应各个标签类别的预测概率,然后进入步骤S8;
步骤S8,迭代终止判定部109用于在每一次迭代训练控制部104控制相应部分完成迭代训练后判定是否完成迭代终止条件,若判定未完成则进入步骤S9,若判定完成则进入结束状态;
步骤S9,置信度判断部110依次判断每一个未标记样本对应的所有预测概率是否高于预设的置信度阈值,标记样本匹配更新部111将所有被判断高于置信度阈值的预测概率所对应的标签类别与未标记样本进行匹配并作为新的标记样本,然后进入步骤S3。
实施例作用与效果
根据本实施例提供的基于增量迭代的语音标记装置,由于在获取标记样本以及未标记样本后,通过多视图特征提取部对所有样本的语音数据进行多视图特征的提取,并通过样本平衡部平衡不同类别的标记样本分布,在特征回归处理部处理得到特征权重后通过集成分类器训练部进行训练,从而得到了能够对未标记样本进行针对类别标签的概率预测的集成分类器,进一步,通过判断预测概率以及置信度阈值从而将符合条件的未标记样本作为新的标记样本并进行不断的迭代训练,因此,本发明的语音标记装置可以不断地基于已有的标记样本,将未标记样本转换为高置信度的标记样本并加入训练,从而使得模型能够不断成长,不断获得对更多未知样本的预测能力。同时,还因为基于各个样本的多视图特征进行了预测以及训练,并对标记样本的类别非均衡问题进行了应对,所以语音标记装置的预测能力会更加准确。
实施例中,由于使用LSTM模型对语音数据对应的文本特征进行提取,因此可以有效地捕捉语境中的序列依赖关系,使得对文本信息的表征更加准确。同时,还由于将语音数据转换为梅尔频率倒谱系数,并提取出相应的时域特征以及频域特征,因此还可以基于语音数据的用词、语调等多个方面完成对语音数据的分析,使得最终预测得到的结果能够更符合语音数据本身的实际含义。
实施例中,由于每一次迭代训练的集成分类器可以仅由一个基分类器构成,因此,使得集成分类器每一次都能够以更小的计算量完成迭代训练,也使得本发明语音标记装置进行迭代预测的所需时间更短。
实施例中,由于每一次迭代训练的集成分类器可以仅由多个基分类器以及输出融合模块构成,因此同时满足了准确性要求和多样性要求。此外,通过融合多个基分类器的预测结果作为评分也可以使得该评分更加准确和稳定。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
Claims (8)
1.一种基于增量迭代的语音标记装置,能够基于含有语音数据以及对应类别标签的标记样本对仅含有语音数据的未标记样本进行自动标记,其特征在于,包括:
语音样本获取部、多视图特征提取部、标记样本池存储部、迭代训练控制部、样本平衡部、特征回归处理部、集成分类器训练部、标签预测部、迭代终止判定部、置信度判断部以及标记样本匹配更新部,
其中,所述语音样本获取部获取所述标记样本以及所述未标记样本,
多视图特征提取部对所述标记样本以及所述未标记样本中的所述语音数据进行多视图特征提取从而得到对应每一个所述标记样本以及所述未标记样本的多视图特征,
所述标记样本池存储部将所有所述标记样本的所述语音数据以及所述类别标签与相应的所述多视图特征进行对应存储并形成一个标记样本池,
所述迭代训练控制部控制所述样本平衡部基于所述标记样本池中所有所述语音数据的所述类别标签对所述标记样本进行合成少数类过采样(SMOTE)从而平衡对应不同所述类别标签的所述语音数据并基于平衡后的所述语音数据形成多个相应的待训练样本,
并控制所述特征回归处理部基于L1范数对所述待训练样本的所述多视图特征进行回归以及归一化并得到对应每一个所述待训练样本的特征权重,
再控制所述集成分类器训练部基于所述待训练样本以及所述特征权重进行训练处理从而构建出用于预测所述语音数据所对应的类别标签的集成分类器,
进一步控制所述标签预测部依次将每一个所述未标记样本对应的所述多视图特征输入所述集成分类器并得到该未标记样本中所述语音数据对应各个标签类别的预测概率,从而完成一次迭代训练,
所述迭代终止判定部在所述迭代训练完成后判定是否完成迭代终止条件,
当所述迭代终止判定部判定未完成所述迭代终止条件时,所述置信度判断部就依次判断每一个所述未标记样本对应的所有所述预测概率是否高于预设的置信度阈值,
所述标记样本匹配更新部将所有被判断高于所述置信度阈值的所述预测概率所对应的所述标签类别与所述未标记样本进行匹配,并作为新的标记样本加入所述标记样本池从而更新形成新的标记样本池,
每当所述标记样本匹配更新部更新形成所述新的标记样本池时,所述迭代训练控制部就再次控制所述样本平衡部、所述特征回归处理部、所述集成分类器训练部以及所述标签预测部进行一次所述迭代训练,直到所述迭代终止判定部判定完成所述迭代终止条件。
2.根据权利要求1所述的基于增量迭代的语音标记装置,其特征在于:
其中,所述多视图特征包括文本特征、时域特征以及频域特征,
所述多视图特征提取部具有:
文本处理提取单元,用于将所述语音数据处理为预处理词并进行提取得到对应该文本信息的文本特征;以及
语音处理提取单元,用于对所述语音数据进行处理从而提取得到对应该语音的时域特征以及频域特征。
3.根据权利要求2所述的基于增量迭代的语音标记装置,其特征在于:
其中,所述文本处理提取单元包括:
文本转换部分,用于将所述语音数据转换为文本信息;
预处理部分,用于对所述文本信息进行至少包括分词、去噪的预处理得到多个预处理词;
向量化部分,用于通过预设的word2vec模型对所述多个预处理词进行向量化得到相应的多个词向量;以及
文本特征提取部分,将所述多个词向量输入预先基于所述标记样本训练得到的LSTM模型并将该LSTM模型中最后一个神经单元中最后一个隐含层的输出作为所述文本特征。
4.根据权利要求2所述的基于增量迭代的语音标记装置,其特征在于:
其中,所述语音处理提取单元包括:
语音转换部分,用于将所述语音数据转换为梅尔频率倒谱系数;以及
特征指标提取部分,基于所述梅尔频率倒谱系数进行特征提取从而得到所述时域特征以及所述频域特征。
5.根据权利要求2所述的基于增量迭代的语音标记装置,其特征在于:
其中,所述时域特征包括波形因子、脉冲因子、峭度、偏度、裕度因子和峰值,
所述频域特征包括重心频率、均方频率、均方根频率、频率方差和频率标准差。
6.根据权利要求1所述的基于增量迭代的语音标记装置,其特征在于:
其中,所述集成分类器由一个基分类器构成,
所述集成分类器训练部包括:
特征子集抽取单元,用于根据所述特征权重从所述待训练样本中抽取所有相应的所述特征权重非零的所述待训练样本作为特征子集;以及
分类器训练单元,用于根据所述特征子集对所述基分类器进行训练从而得到所述集成分类器。
7.根据权利要求1所述的基于增量迭代的语音标记装置,其特征在于:
其中,所述集成分类器包含预定数量个基分类器,
所述集成分类器训练部包括:
特征子集抽取单元,用于根据所述特征权重对所述多视图特征进行概率抽样得到预定数量个特征子集;以及
分类器训练单元,基于每个所述特征子集分别进行训练从而得到预订数量个对应的所述基分类器,并将各个所述基分类器的输出通过预设的输出融合模块进行融合从而形成所述集成分类器,
所述输出融合模块基于投票策略或平均策略将所述基分类器的输出进行融合。
8.一种基于增量迭代的语音标记方法,能够基于含有语音数据以及对应类别标签的标记样本对仅含有语音数据的未标记样本进行自动标记,其特征在于,包括如下步骤:
步骤一,获取所述标记样本以及所述未标记样本;
步骤二,对所述标记样本以及所述未标记样本中的所述语音数据进行多视图特征提取从而得到对应每一个所述标记样本以及所述未标记样本的多视图特征;
步骤三,将所有所述标记样本的所述语音数据以及所述类别标签与相应的所述多视图特征进行对应存储并形成一个标记样本池;
步骤四,基于所述标记样本池中所有所述语音数据的所述类别标签对所述标记样本进行合成少数类过采样(SMOTE)从而平衡对应不同所述类别标签的所述语音数据并基于平衡后的所述语音数据形成多个相应的待训练样本;
步骤五,基于L1范数对所述待训练样本的所述多视图特征进行回归以及归一化并得到对应每一个所述待训练样本的特征权重;
步骤六,基于所述待训练样本以及所述特征权重进行训练处理从而构建出用于预测所述语音数据所对应的类别标签的集成分类器;
步骤七,依次将每一个所述未标记样本对应的所述多视图特征输入所述集成分类器并得到该未标记样本中所述语音数据对应各个所述标签类别的预测概率;
步骤八,判定是否完成迭代终止条件,当判定未完成所述迭代终止条件时进入步骤九,当判定完成所述迭代终止条件时进入结束状态;
步骤九,依次判定每一个所述未标记样本对应的所有所述预测概率是否高于预设的置信度阈值;
步骤十,将所有被判定高于所述置信度阈值的所述预测概率所对应的所述标签类别与所述未标记样本进行匹配,并作为新的标记样本加入所述标记样本池形成新的标记样本池,进一步返回所述步骤四。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010279932.XA CN111506757A (zh) | 2020-04-10 | 2020-04-10 | 基于增量迭代的语音标记装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010279932.XA CN111506757A (zh) | 2020-04-10 | 2020-04-10 | 基于增量迭代的语音标记装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111506757A true CN111506757A (zh) | 2020-08-07 |
Family
ID=71869263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010279932.XA Pending CN111506757A (zh) | 2020-04-10 | 2020-04-10 | 基于增量迭代的语音标记装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506757A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205124A (zh) * | 2015-09-11 | 2015-12-30 | 合肥工业大学 | 一种基于随机特征子空间的半监督文本情感分类方法 |
CN107644235A (zh) * | 2017-10-24 | 2018-01-30 | 广西师范大学 | 基于半监督学习的图像自动标注方法 |
CN108875816A (zh) * | 2018-06-05 | 2018-11-23 | 南京邮电大学 | 融合置信度准则和多样性准则的主动学习样本选择策略 |
CN109492026A (zh) * | 2018-11-02 | 2019-03-19 | 国家计算机网络与信息安全管理中心 | 一种基于改进的主动学习技术的电信欺诈分类检测方法 |
CN109711452A (zh) * | 2018-12-20 | 2019-05-03 | 四川新网银行股份有限公司 | 一种基于wgan-gp模型对用户行为的不平衡分类方法 |
CN110188199A (zh) * | 2019-05-21 | 2019-08-30 | 北京鸿联九五信息产业有限公司 | 一种用于智能语音交互的文本分类方法 |
CN110232114A (zh) * | 2019-05-06 | 2019-09-13 | 平安科技(深圳)有限公司 | 语句意图识别方法、装置及计算机可读存储介质 |
CN110909131A (zh) * | 2019-11-26 | 2020-03-24 | 携程计算机技术(上海)有限公司 | 模型的生成方法、情绪识别方法、系统、设备和存储介质 |
-
2020
- 2020-04-10 CN CN202010279932.XA patent/CN111506757A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205124A (zh) * | 2015-09-11 | 2015-12-30 | 合肥工业大学 | 一种基于随机特征子空间的半监督文本情感分类方法 |
CN107644235A (zh) * | 2017-10-24 | 2018-01-30 | 广西师范大学 | 基于半监督学习的图像自动标注方法 |
CN108875816A (zh) * | 2018-06-05 | 2018-11-23 | 南京邮电大学 | 融合置信度准则和多样性准则的主动学习样本选择策略 |
CN109492026A (zh) * | 2018-11-02 | 2019-03-19 | 国家计算机网络与信息安全管理中心 | 一种基于改进的主动学习技术的电信欺诈分类检测方法 |
CN109711452A (zh) * | 2018-12-20 | 2019-05-03 | 四川新网银行股份有限公司 | 一种基于wgan-gp模型对用户行为的不平衡分类方法 |
CN110232114A (zh) * | 2019-05-06 | 2019-09-13 | 平安科技(深圳)有限公司 | 语句意图识别方法、装置及计算机可读存储介质 |
CN110188199A (zh) * | 2019-05-21 | 2019-08-30 | 北京鸿联九五信息产业有限公司 | 一种用于智能语音交互的文本分类方法 |
CN110909131A (zh) * | 2019-11-26 | 2020-03-24 | 携程计算机技术(上海)有限公司 | 模型的生成方法、情绪识别方法、系统、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110021308B (zh) | 语音情绪识别方法、装置、计算机设备和存储介质 | |
CN110289003A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN106227721B (zh) | 汉语韵律层级结构预测系统 | |
CN112259105B (zh) | 一种声纹识别模型的训练方法、存储介质和计算机设备 | |
CN108364662B (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
CN107610707A (zh) | 一种声纹识别方法及装置 | |
Jancovic et al. | Bird species recognition using unsupervised modeling of individual vocalization elements | |
CN111353029B (zh) | 一种基于语义匹配的多轮对话口语理解方法 | |
WO2021047319A1 (zh) | 基于语音的个人信用评估方法、装置、终端及存储介质 | |
CN112259104B (zh) | 一种声纹识别模型的训练装置 | |
KR102221513B1 (ko) | 음성 감정 인식 방법 및 시스템 | |
CN109313892A (zh) | 稳健的语言识别方法和系统 | |
CN113707125B (zh) | 一种多语言语音合成模型的训练方法及装置 | |
CN107767881B (zh) | 一种语音信息的满意度的获取方法和装置 | |
CN106340297A (zh) | 一种基于云计算与置信度计算的语音识别方法与系统 | |
Vadwala et al. | Survey paper on different speech recognition algorithm: challenges and techniques | |
JP2020038343A (ja) | 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム | |
CN113223560A (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN108877769A (zh) | 识别方言种类的方法和装置 | |
CN112885336A (zh) | 语音识别系统的训练、识别方法、装置、电子设备 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
CN109545202A (zh) | 一种调整语义逻辑混乱的语料的方法及系统 | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 | |
CN112863485A (zh) | 口音语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200807 |
|
WD01 | Invention patent application deemed withdrawn after publication |