CN107808661A - 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 - Google Patents
一种基于协作式批量主动学习的藏语语音语料标注方法及系统 Download PDFInfo
- Publication number
- CN107808661A CN107808661A CN201710995917.3A CN201710995917A CN107808661A CN 107808661 A CN107808661 A CN 107808661A CN 201710995917 A CN201710995917 A CN 201710995917A CN 107808661 A CN107808661 A CN 107808661A
- Authority
- CN
- China
- Prior art keywords
- mark
- data
- person
- sample
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000011156 evaluation Methods 0.000 claims abstract description 11
- 238000010276 construction Methods 0.000 claims abstract description 7
- 238000013480 data collection Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 239000012141 concentrate Substances 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 239000000463 material Substances 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000035699 permeability Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于协作式批量主动学习的藏语语音语料标注方法及系统,其中系统包括:样本选择模块,手工标注模块,标注决策模块,标注者评估模块,训练集生成模块。本发明通过临近最优批量样本选择方法解决样本评价函数的构造及其submodular函数性质的证明,通过标注委员会协作标注方法,解决标注决策函数的构造、标注者评估模型和标注者辅助学习模型的建模。此外,本发明的系统能够实现样本的优化选择、用户的标注评估、标注信息和藏语语音知识的共享、标注者辅助学习等功能,拟提高藏语语音数据的标注质量,加快语音语料建设。
Description
技术领域
本发明涉及语音识别、语料训练领域,特别涉及一种基于协作式批量主动学习的藏语语音语料标注方法及系统。
背景技术
在语音识别领域中,传统的语音识别算法(例如HMM、DBNs、ANN和DTW等)采用有监督学习方式建立语音识别模型,为了建立高准确率的语音识别模型,这种学习方式需要大量的带标注语音语料,而标注语音语料是一个极其费时费力的工作。通常以词为语音识别单元的标注工作所花费的时间是实际音频语句时间的10倍(例如,一个一分钟的语音语句所花费的标注时间接近10分钟),以音素为识别单元的语音标注工作将会达到语音语句时间长度的400倍(假设语音句子时间长度一分钟,那么标注时间将接近7个小时)。
目前,在藏语拉萨话非特定人大词汇量连续语音识别研究工作中,由于训练有素的语音标注专家的缺少,语音标注耗时耗力的问题更为突出,使能够用来建立语音识别模型的训练语料十分有限,并且更为严重的是,在标注过程中,由于标注人员的经验不足或是粗心大意,训练数据中还带有一些标注错误的语料,这更加降低了语音识别模型的性能。因此,现有的面向藏语拉萨话LVCSR的连续语音语料的情况是,带标注语音语料数量较少,并且存在标注噪声。
为了解决语音标注工作繁琐冗长的问题,主动学习方法通常被用来减少人工标注的数据量。它可以从大量未标注的语音数据中挑选一些有价值的样本交给用户进行标注,以便利用少量高质量的训练样本构建与被动学习方式一样精度的识别模型(Lewis D D,Gale W A.A Sequential Algorithm for Training Text Classifiers.Proceedings of17th ACM International Conference on Research and Development in InformationRetrieval[C].Dubl in,Ireland,July 1994,3-12)。然而,以往的主动学习方法每次只选择一个样本进行人工标注,且假设是理想的标注。但是,现实情况通常是多人同时对多个样本进行并行标注,且数据的标注存在一定的错误。
发明内容
本发明要解决的技术问题是,一种基于协作式批量主动学习的藏语语音语料标注方法,基于主动学习进行语音数据的选择和优化的样本集选择方法以及更有效的标注委员会协同工作方法。通过临近最优批量样本选择方法解决样本评价函数的构造及其submodularity性质的证明。通过标注委员会协作标注方法,解决标注决策函数的构造、标注者评估模型和标注者辅助学习模型的建模。
解决上述技术问题,本发明提供了一种语音标注系统,包括:
样本选择模块,用以在未标注数据集中选择数据样本子集,以及随机抽取样本用以初始训练集的构建,
手工标注模块,用以提供在待标注的数据样本子集进入各用户的标注池后的数据标注调用接口,
标注决策模块,用以根据标注决策函数对共享标注数据池中新增加的标注数据进行投票和/或标签确认,
标注者评估模块,用以在共享标注数据池中查询标注者本次标注的信息,并根据评估模型更新计算标注者的可信度,
训练集生成模块,用以根据预设的可信度阈值来抽取共享标注数据池中的数据,并加载到语音识别模型中的训练数据集中,训练并生成模型。
更进一步,语音标注系统还包括:若可信度低于可信度阈,则通过辅助学习模块进行新一轮的手工标注。
更进一步,在所述辅助学习模块中使用共享标注数据池中决策后的数据样本建立一辅助学习模型,所述辅助学习模型用以为标注者提供新数据的标注参考信息。
更进一步,所述训练集生成模块中若语音识别模型未达到预先设定的识别精度并且未标注数据集仍有剩余数据,则再一次运行样本选择和/或标注过程。
本发明还提供了一种基于协作式批量主动学习的藏语语音语料标注方法,包括如下步骤:
选择代表整个数据集的全局最优样本子集,并在共享标注数据池中得到新的共享标注数据集,
通过共享标注数据集,对标注者进行可信度评估并进入分类器训练得到语音识别模型,以及,
建立用以下一轮标注的辅助学习器。
更进一步,通过submodular函数得到全局最优样本子集。
更进一步,对标注者进行可信度评估并进入分类器训练得到语音识别模型的方法具体为:
标注者对各自标注池中出现的新数据进行手工标注,
每个标注池中相同的数据被载入到共享标注数据池中,通过标注决策函数确定每一个数据的最终标签,
每个标注者的标注信息被传递给标注者评估模型,以输出和/或更新每个标注者的标注可信度。
更进一步,所述共享标注数据集用以建立辅助学习器,所述辅助学习器用以在下一次标注过程中,为可信度低的标注者提供参考信息,其对某一数据的分类预测高于设定值时,分类结果将直接作为该标注者对数据的标注结果。
更进一步,采用多数票法构建标所述注决策函数。
更进一步,通过动态贝叶斯网络模型构建所述标注者评估模型。
本发明的有益效果:
1)本发明实现了标注工作中批量最优样本的选择、标注委员会的协作学习和标注质量的控制,从而为藏语LVCSR模型提供充分、可信的训练数据。
2)更进一步,在本发明中还针对批量样本选择问题,基于数据分布情况和语音识别目标的临近最优批量样本选择算法,以减少冗余样本的标注。
3)更进一步,在本发明中针对协作式批量主动学习,提出一种基于数据共享的标注质量控制方法,其可以实现标注者的评估和辅助学习,从根本上抑制了标注噪声;
4)本发明还提供了语音标注系统,该系统能够实现样本的优化选择、用户的标注评估、标注信息和藏语语音知识的共享、标注者辅助学习等功能,拟提高藏语语音数据的标注质量,加快语音语料建设。
附图说明
图1是本发明一实施例中的系统结构示意图;
图2是本发明另一实施例中的优选系统结构示意图;
图3是本发明一实施例中的方法流程示意图;
图4是本发明一实施例中的实现原理示意图。
具体实施方式
现在将参考一些示例实施例描述本公开的原理。可以理解,这些实施例仅出于说明并且帮助本领域的技术人员理解和实施例本公开的目的而描述,而非建议对本公开的范围的任何限制。在此描述的本公开的内容可以以下文描述的方式之外的各种方式实施。
如本文中所述,术语“包括”及其各种变体可以被理解为开放式术语,其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。
在本申请中,采集的藏语连续语音语料,包括但不限于新闻广播语料和口语对话语料,发音人大约在50个左右,8000条语句,总时长40小时左右。
请参考图1是本发明一实施例中的系统结构示意图,在本实施例中系统包括:样本选择模块1,用以在未标注数据集中选择数据样本子集,以及随机抽取样本用以初始训练集的构建,手工标注模块2,用以提供在待标注的数据样本子集进入各用户的标注池后的数据标注调用接口,标注决策模块3,用以根据标注决策函数对共享标注数据池中新增加的标注数据进行投票和/或标签确认,标注者评估模块4,用以在共享标注数据池中查询标注者本次标注的信息,并根据评估模型更新计算标注者的可信度,训练集生成模块5,用以根据预设的可信度阈值来抽取共享标注数据池中的数据,并加载到语音识别模型中的训练数据集中,训练并生成模型。在本实施例中的藏语连续语音标注系统在软件实现开发方面采用了跨平台的J2EE技术,并利用轻量级开发架构SSH(Spring+Structs+Hibernate)技术,采用Storm Workflow工作流平台统一管理工作流程,并对数据的更新采用事务处理的方式进行分层协同开发。
具体地,所述样本选择模块1主要基于提出的临近最优样本选择算法在未标注数据集中选择样本子集,并且该模块也配备随机抽取样本的功能,以满足主动学习初始训练集的构建。在交给多个用户标注数据之前,根据用户个数,将待标注样本集合划分成若干子集,并且各子集中包含一定量的相同数据样本。待标注数据子集进入各用户的标注池,用户使用手工标注模块2进行数据标注工作。所述手工标注模块2将对语音数据的藏文内容、多种拉丁转写和注释符号进行语音转写和标注。手工标注任务结束后,各标注池中的相同数据样本被装入共享标注数据池中,由所述标注决策模块3根据标注决策函数对新增加的标注数据进行投票和标签确认。所述标注者评估模块4在共享标注数据池中查询标注者本次标注的信息,根据评估模型更新计算标注者的可信度。所述训练集生成模块5根据事先设定的可信度阈值来抽取标注池中的数据,加载这些数据进入到语音识别模型的训练数据集中,以便再次学习语音识别模型。如果语音识别模型还没有达到预先设定的识别精度并且未标注数据集仍有剩余数据,那么标注系统再一次运行样本选择和标注过程。
请参考图2,作为本实施例中的优选,若可信度低于可信度阈,则通过辅助学习模块进行新一轮的手工标注。在一些实施例中,在所述辅助学习模块中使用共享标注数据池中决策后的数据样本建立一辅助学习模型,所述辅助学习模型用以为标注者提供新数据的标注参考信息。在本实施例中针对可信度低于阈值的标注者来说,新一轮的手工标注可以借鉴辅助学习模块6,所述辅助学习模块6中使用共享标注数据池中决策后的数据样本建立辅助学习模型,其可以为标注者提供新数据的标注参考信息,该模块可以实现语音数据的自动标注,其结果再由标注者进行手工校正。同时该模块中也存储一些藏语语音发音学知识供用户查询。
上述实施例中的系统,基于协作式批量主动学习的藏语连续语音标注系统可以根据藏语连续语音识别目标,对未标注数据进行自动的评价,并选择出临近最优样本集交给多个用户在线同时标注。同时,提出的协作式标注方法运用共享数据集、标注者评估模型和辅助学习模型来使标注者之间进行信息共享和学习,这为标注噪声的抑制和标注质量的控制提供了可行性。
请参考图3是本发明一实施例中的方法流程示意图,在本实施例中的一种基于协作式批量主动学习的藏语语音语料标注方法,包括如下步骤:
步骤S100选择代表整个数据集的全局最优样本子集,并在共享标注数据池中得到新的共享标注数据集,
步骤S101通过共享标注数据集,对标注者进行可信度评估并进入分类器训练得到语音识别模型,以及,
步骤S102建立用以下一轮标注的辅助学习器。
在本实施例中的提出标注者之间共享标注数据,其不仅为评估标注者提供信息,更为标注者之间共享了准确的标注知识,为标注水平差的标注者提供可借鉴的信息,同时其也能防止不负责任的标注者提供较差的标注,因为辅助学习模型的输出结果可以直接作为标注结果。这种协作标注方法从本质上降低了标注噪声,提高了训练数据集的标注质量。
作为本实施例中的优选,通过submodular函数得到上述步骤S100中全局最优样本子集。为了选择到代表整个数据集的全局最优样本子集,本申请利用submodular函数理论优化样本集的选择问题,通过构造具有submodular函数性质的样本子集评价函数,使得学习器利用greedy算法获得临近最优的数据子集,以保证学习器使用较少的全局最具代表性的样本和较少的训练次数建立分类器。
作为本实施例中的优选,在上述步骤S101中对标注者进行可信度评估并进入分类器训练得到语音识别模型的方法具体为:标注者对各自标注池中出现的新数据进行手工标注,每个标注池中相同的数据被载入到共享标注数据池中,通过标注决策函数确定每一个数据的最终标签,每个标注者的标注信息被传递给标注者评估模型,以输出和/或更新每个标注者的标注可信度。本申请拟采用多数票法来构建标注决策函数。对共享标注数据集中的某个数据来说,其最终标签由标注委员会投票决定。得票最多的标签将成为该数据的最终标注。标注决策函数的数学表达式见公式
其中vote(yi)是某一个类标签的得票数。多数票法能保证数据的标注接近于真实标签,因为多个标注者同时出现错误的可能性很小。
作为本实施例中的优选,采用多数票法构建标上述注决策函数。当共享标注数据集中的数据样本确定了其最终标签后,记录每个标注者的数据标注信息,并结合标注者的年龄、性别、学历、专业、标注历史时间等信息,通过动态贝叶斯网络模型构建标注者评估模型。评估模型可以动态地评价标注者数据标注可信度,并给出连续的评估值,而不是给出“好”与“坏”二进制的评估值,这为动态调整各标注池数据进入训练数据集提供了方便。
作为本实施例中的优选,通过动态贝叶斯网络模型构建所述标注者评估模型。动态贝叶斯网络是动态随机序列建模方法之一。动态贝叶斯网络中可以引入隐藏变量,对一些影响目标变量变化的无法观测到的隐含因素,同样可以很好地建立分析预测模型。在标注者评估模型中,一些影响标注者标注可信度的潜在因素,如责任心、标注经验等,都无法得到它们的观测值,因此动态贝叶斯网络较其他动态随机序列建模方法,如HMM和卡尔曼滤波模型更适合于构建标注者评估模型。
作为本实施例中的优选,所述共享标注数据集用以建立辅助学习器,所述辅助学习器用以在下一次标注过程中,为可信度低的标注者提供参考信息,其对某一数据的分类预测高于设定值时,分类结果将直接作为该标注者对数据的标注结果。
请参考图4是本发明一实施例中的实现原理示意图,如图4所述,首先包括了:临近最优批量样本选择方法。
本申请基于音子覆盖度和期望误差最小的样本评价策略,其目的在于挑选涵盖最多的音素个数,最多的稀疏音子个数和最大的期望识别误差减少的样本子集,这样的样本集是分类信息丰富和具有泛化性的样本。样本子集评价函数依据涵盖的音素个数,涵盖的稀疏音子个数和最大的期望识别误差减少来确定,其选择的样本子集应能够使三类信息量的总和达到最大值。
为了选择到代表整个数据集的全局最优样本子集,本申请利用submodular函数理论优化样本集的选择问题,通过构造具有submodular函数性质的样本子集评价函数,使得学习器利用贪心算法获得临近最优的数据子集,以保证学习器使用较少的全局最具代表性的样本和较少的训练次数建立分类器。本申请利用submodular函数性质既可以保障主动学习过程选择到最具代表性的样本子集,又可以通过贪婪算法减少搜索的计算复杂度。
如图4所述,其次包括了:标注委员会协作标注方法。
标注委员会协作标注的基本思想是:通过共享标注数据,实现标注者的评估和辅助学习,这样既可以识别出差标注者,抑制他们的标注噪声数据进入训练数据集,又使得标注者通过共享数据学习他人的标注经验,提高标注水平,最终标注质量得到控制。
标注委员会的协作标注流程是:首先,标注者对各自标注池中出现的新数据进行手工标注,接着每个标注池中相同的数据被载入到共享标注数据池中,通过标注决策函数确定每一个数据的最终标签,然后每个标注者的标注信息被传递给标注者评估模型,以输出(或更新)每个标注者的标注可信度,只有可信度高于阈值的标注者,其标注池中的标注数据才被允许进入分类器的训练数据集中,同时,共享标注数据集被用来建立辅助学习器,该辅助学习器被用来在下一次标注过程中,为可信度低的标注者提供参考信息,其对某一数据的分类预测高于设定值时,分类结果将直接作为该标注者对数据的标注结果。
本申请拟采用多数票法来构建标注决策函数。对共享标注数据集中的某个数据来说,其最终标签由标注委员会投票决定。得票最多的标签将成为该数据的最终标注。当共享标注数据集中的数据样本确定了其最终标签后,记录每个标注者的数据标注信息,并结合标注者的年龄、性别、学历、专业、标注历史时间等信息,通过动态贝叶斯网络模型构建标注者评估模型。评估模型可以动态地评价标注者数据标注可信度,并给出连续的评估值,而不是给出“好”与“坏”二进制的评估值,这为动态调整各标注池数据进入训练数据集提供了方便。
动态贝叶斯网络是动态随机序列建模方法之一。其典型的网络模型如图4所示。动态贝叶斯网络中可以引入隐藏变量,对一些影响目标变量变化的无法观测到的隐含因素,同样可以很好地建立分析预测模型。在标注者评估模型中,一些影响标注者标注可信度的潜在因素,如责任心、标注经验等,都无法得到它们的观测值,因此动态贝叶斯网络较其他动态随机序列建模方法,如HMM和卡尔曼滤波模型更适合于构建标注者评估模型。
标注者辅助学习模型将基于共享标注数据集中的数据,使用与语音识别模型相同的分类算法构建。
提出标注者之间共享标注数据,其不仅为评估标注者提供信息,更为标注者之间共享了准确的标注知识,为标注水平差的标注者提供可借鉴的信息,同时其也能防止不负责任的标注者提供较差的标注,因为辅助学习模型的输出结果可以直接作为标注结果。这种协作标注方法从本质上降低了标注噪声,提高了训练数据集的标注质量。
如图4所述,还包括了:面向语音识别的藏语语音标注系统。
该语音标注系统可以分为6个主要模块,包括样本选择模块、手工标注模块、标注决策模块、标注者评估模块、辅助学习模块和训练集生成模块。
样本选择模块主要基于提出的临近最优样本选择算法在未标注数据集中选择样本子集,并且该模块也配备随机抽取样本的功能,以满足主动学习初始训练集的构建。在交给多个用户标注数据之前,根据用户个数,将待标注样本集合划分成若干子集,并且各子集中包含一定量的相同数据样本。
待标注数据子集进入各用户的标注池,用户使用手工标注模块进行数据标注工作。手工标注模块提供对语音数据的波形显示、语音数据的藏文内容输入、多种拉丁转写方法和注释符号的转写和标注功能。
手工标注任务结束后,各标注池中的相同数据样本被装入共享标注数据池中,由标注决策模块根据标注决策函数对新增加的标注数据进行投票和标签确认。标注者评估模块在共享标注数据池中查询标注者本次标注的信息,根据评估模型更新计算标注者的可信度。训练集生成模块根据事先设定的可信度阈值来抽取标注池中的数据,加载这些数据进入到语音识别模型的训练数据集中,以便再次学习语音识别模型。如果语音识别模型还没有达到预先设定的识别精度并且未标注数据集仍有剩余数据,那么标注系统再一次运行样本选择和标注过程。
针对可信度低于阈值的标注者来说,新一轮的手工标注可以借鉴辅助学习模块。辅助学习模块中使用共享标注数据池中决策后的数据样本建立辅助学习模型,其可以为标注者提供新数据的标注参考信息,该模块可以实现语音数据的自动标注,其结果再由标注者进行手工校正。同时该模块中也存储一些藏语语音发音学知识供用户查询。
对于已有的语音标注系统,仍存在一些缺陷,即没有对未标注数据进行精心选择,其系统多是用户单机操作。随着人工智能和计算机网络技术的发展,本申请提出的基于协作式批量主动学习的藏语连续语音标注系统可以根据藏语连续语音识别目标,对未标注数据进行自动的评价,并选择出临近最优样本集交给多个用户在线同时标注。同时,提出的协作式标注方法运用共享数据集、标注者评估模型和辅助学习模型来使标注者之间进行信息共享和学习,这为标注噪声的抑制和标注质量的控制提供了可行性。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种语音标注系统,其特征在于,包括:
样本选择模块,用以在未标注数据集中选择数据样本子集,以及随机抽取样本用以初始训练集的构建,
手工标注模块,用以提供在待标注的数据样本子集进入各用户的标注池后的数据标注调用接口,
标注决策模块,用以根据标注决策函数对共享标注数据池中新增加的标注数据进行投票和/或标签确认,
标注者评估模块,用以在共享标注数据池中查询标注者本次标注的信息,并根据评估模型更新计算标注者的可信度,
训练集生成模块,用以根据预设的可信度阈值来抽取共享标注数据池中的数据,并加载到语音识别模型中的训练数据集中,训练并生成模型。
2.根据权利要求1所述的语音标注系统,其特征在于,还包括:若可信度低于可信度阈,则通过辅助学习模块进行新一轮的手工标注。
3.根据权利要求2所述的语音标注系统,其特征在于,在所述辅助学习模块中使用共享标注数据池中决策后的数据样本建立一辅助学习模型,所述辅助学习模型用以为标注者提供新数据的标注参考信息。
4.根据权利要求1所述的语音标注系统,其特征在于,所述训练集生成模块中若语音识别模型未达到预先设定的识别精度并且未标注数据集仍有剩余数据,则再一次运行样本选择和/或标注过程。
5.一种基于协作式批量主动学习的藏语语音语料标注方法,其特征在于,包括如下步骤:
选择代表整个数据集的全局最优样本子集,并在共享标注数据池中得到新的共享标注数据集,
通过共享标注数据集,对标注者进行可信度评估并进入分类器训练得到语音识别模型,以及,
建立用以下一轮标注的辅助学习器。
6.根据权利要求5所述的藏语语音语料标注方法,其特征在于,通过submodular函数得到全局最优样本子集。
7.根据权利要求5所述的藏语语音语料标注方法,其特征在于,对标注者进行可信度评估并进入分类器训练得到语音识别模型的方法具体为:
标注者对各自标注池中出现的新数据进行手工标注,
每个标注池中相同的数据被载入到共享标注数据池中,通过标注决策函数确定每一个数据的最终标签,
每个标注者的标注信息被传递给标注者评估模型,以输出和/或更新每个标注者的标注可信度。
8.根据权利要求7所述的藏语语音语料标注方法,其特征在于,所述共享标注数据集用以建立辅助学习器,所述辅助学习器用以在下一次标注过程中,为可信度低的标注者提供参考信息,其对某一数据的分类预测高于设定值时,分类结果将直接作为该标注者对数据的标注结果。
9.根据权利要求7所述的藏语语音语料标注方法,其特征在于,采用多数票法构建标所述注决策函数。
10.根据权利要求5所述的藏语语音语料标注方法,其特征在于,通过动态贝叶斯网络模型构建所述标注者评估模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710995917.3A CN107808661B (zh) | 2017-10-23 | 2017-10-23 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710995917.3A CN107808661B (zh) | 2017-10-23 | 2017-10-23 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107808661A true CN107808661A (zh) | 2018-03-16 |
CN107808661B CN107808661B (zh) | 2020-12-11 |
Family
ID=61584735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710995917.3A Expired - Fee Related CN107808661B (zh) | 2017-10-23 | 2017-10-23 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107808661B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597520A (zh) * | 2018-04-23 | 2018-09-28 | 四川斐讯信息技术有限公司 | 一种智能插排和智能插排的控制方法 |
CN109949796A (zh) * | 2019-02-28 | 2019-06-28 | 天津大学 | 一种基于藏文部件的端到端架构拉萨方言语音识别方法 |
CN110264996A (zh) * | 2019-04-17 | 2019-09-20 | 北京爱数智慧科技有限公司 | 语音标注质量确定方法、装置、设备及计算机可读介质 |
CN110796180A (zh) * | 2019-10-12 | 2020-02-14 | 吉林大学 | 一种基于人工智能的模型训练系统与方法 |
CN111128373A (zh) * | 2019-12-11 | 2020-05-08 | 上海交通大学 | 一种通过协同主动学习模型的乳腺癌数据标注方法 |
CN111259918A (zh) * | 2018-11-30 | 2020-06-09 | 重庆小雨点小额贷款有限公司 | 一种意图标签的标注方法、装置、服务器及存储介质 |
CN111310799A (zh) * | 2020-01-20 | 2020-06-19 | 中国人民大学 | 一种基于历史评估结果的主动学习算法 |
CN111652177A (zh) * | 2020-06-12 | 2020-09-11 | 中国计量大学 | 基于深度学习的信号特征提取方法 |
CN112435651A (zh) * | 2020-11-20 | 2021-03-02 | 昆明学院 | 一种语音数据自动标注的质量评估方法 |
CN113554130A (zh) * | 2021-09-22 | 2021-10-26 | 平安科技(深圳)有限公司 | 基于人工智能的数据标注方法、装置、电子设备及介质 |
CN114398943A (zh) * | 2021-12-09 | 2022-04-26 | 北京百度网讯科技有限公司 | 样本增强方法及其装置 |
CN115240659A (zh) * | 2022-09-21 | 2022-10-25 | 深圳市北科瑞声科技股份有限公司 | 分类模型训练方法、装置、计算机设备及存储介质 |
CN111461179B (zh) * | 2020-03-11 | 2023-06-30 | 清华大学 | 小样本学习的基类选择方法及装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7620550B1 (en) * | 2004-01-09 | 2009-11-17 | At&T Intellectual Property Ii, L.P. | Method for building a natural language understanding model for a spoken dialog system |
JP2011138484A (ja) * | 2009-12-30 | 2011-07-14 | Nec (China) Co Ltd | マルチレベル分類モデルを構築する方法とシステム |
CN102662930A (zh) * | 2012-04-16 | 2012-09-12 | 乐山师范学院 | 一种语料标注方法及装置 |
US20130097103A1 (en) * | 2011-10-14 | 2013-04-18 | International Business Machines Corporation | Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set |
CN104462614A (zh) * | 2015-01-14 | 2015-03-25 | 苏州大学 | 一种基于网络数据的主动学习方法及装置 |
US20160063993A1 (en) * | 2014-09-02 | 2016-03-03 | Microsoft Corporation | Facet recommendations from sentiment-bearing content |
CN105426826A (zh) * | 2015-11-09 | 2016-03-23 | 张静 | 一种基于标签噪声纠正的众包标注数据质量提升方法 |
CN105608318A (zh) * | 2015-12-18 | 2016-05-25 | 清华大学 | 众包标注整合方法 |
US9472188B1 (en) * | 2013-11-15 | 2016-10-18 | Noble Systems Corporation | Predicting outcomes for events based on voice characteristics and content of a contact center communication |
CN106571135A (zh) * | 2016-10-27 | 2017-04-19 | 苏州大学 | 一种耳语音特征提取方法及系统 |
CN107067025A (zh) * | 2017-02-15 | 2017-08-18 | 重庆邮电大学 | 一种基于主动学习的数据自动标注方法 |
CN107247972A (zh) * | 2017-06-29 | 2017-10-13 | 哈尔滨工程大学 | 一种基于众包技术的分类模型训练方法 |
US10535016B2 (en) * | 2015-10-27 | 2020-01-14 | Legility Data Solutions, Llc | Apparatus and method of implementing batch-mode active learning for technology-assisted review of documents |
-
2017
- 2017-10-23 CN CN201710995917.3A patent/CN107808661B/zh not_active Expired - Fee Related
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7620550B1 (en) * | 2004-01-09 | 2009-11-17 | At&T Intellectual Property Ii, L.P. | Method for building a natural language understanding model for a spoken dialog system |
JP2011138484A (ja) * | 2009-12-30 | 2011-07-14 | Nec (China) Co Ltd | マルチレベル分類モデルを構築する方法とシステム |
US20130097103A1 (en) * | 2011-10-14 | 2013-04-18 | International Business Machines Corporation | Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set |
CN102662930A (zh) * | 2012-04-16 | 2012-09-12 | 乐山师范学院 | 一种语料标注方法及装置 |
US9472188B1 (en) * | 2013-11-15 | 2016-10-18 | Noble Systems Corporation | Predicting outcomes for events based on voice characteristics and content of a contact center communication |
US20160063993A1 (en) * | 2014-09-02 | 2016-03-03 | Microsoft Corporation | Facet recommendations from sentiment-bearing content |
CN104462614A (zh) * | 2015-01-14 | 2015-03-25 | 苏州大学 | 一种基于网络数据的主动学习方法及装置 |
US10535016B2 (en) * | 2015-10-27 | 2020-01-14 | Legility Data Solutions, Llc | Apparatus and method of implementing batch-mode active learning for technology-assisted review of documents |
CN105426826A (zh) * | 2015-11-09 | 2016-03-23 | 张静 | 一种基于标签噪声纠正的众包标注数据质量提升方法 |
CN105608318A (zh) * | 2015-12-18 | 2016-05-25 | 清华大学 | 众包标注整合方法 |
CN106571135A (zh) * | 2016-10-27 | 2017-04-19 | 苏州大学 | 一种耳语音特征提取方法及系统 |
CN107067025A (zh) * | 2017-02-15 | 2017-08-18 | 重庆邮电大学 | 一种基于主动学习的数据自动标注方法 |
CN107247972A (zh) * | 2017-06-29 | 2017-10-13 | 哈尔滨工程大学 | 一种基于众包技术的分类模型训练方法 |
Non-Patent Citations (4)
Title |
---|
HAO HUANG: "An enhanced category detection based on active learning", 《2010 IEEE INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEMS AND KNOWLEDGE ENGINEERING》 * |
PAN X: "Tibetan Language Speech Recognition Model Based on Active Learning and Semi-Supervised Learning", 《2010 10TH IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION TECHNOLOGY》 * |
吴伟宁: "主动学习算法中采样策略研究", 《中国优秀博士学位论文全文数据库信息科技辑》 * |
赵悦等: "一种基于半监督主动学习的动态贝叶斯网络算法", 《信息与控制》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597520A (zh) * | 2018-04-23 | 2018-09-28 | 四川斐讯信息技术有限公司 | 一种智能插排和智能插排的控制方法 |
CN111259918A (zh) * | 2018-11-30 | 2020-06-09 | 重庆小雨点小额贷款有限公司 | 一种意图标签的标注方法、装置、服务器及存储介质 |
CN111259918B (zh) * | 2018-11-30 | 2023-06-20 | 重庆小雨点小额贷款有限公司 | 一种意图标签的标注方法、装置、服务器及存储介质 |
CN109949796A (zh) * | 2019-02-28 | 2019-06-28 | 天津大学 | 一种基于藏文部件的端到端架构拉萨方言语音识别方法 |
CN110264996B (zh) * | 2019-04-17 | 2021-12-17 | 北京爱数智慧科技有限公司 | 语音标注质量确定方法、装置、设备及计算机可读介质 |
CN110264996A (zh) * | 2019-04-17 | 2019-09-20 | 北京爱数智慧科技有限公司 | 语音标注质量确定方法、装置、设备及计算机可读介质 |
CN110796180A (zh) * | 2019-10-12 | 2020-02-14 | 吉林大学 | 一种基于人工智能的模型训练系统与方法 |
CN110796180B (zh) * | 2019-10-12 | 2022-06-07 | 吉林大学 | 一种基于人工智能的模型训练系统与方法 |
CN111128373A (zh) * | 2019-12-11 | 2020-05-08 | 上海交通大学 | 一种通过协同主动学习模型的乳腺癌数据标注方法 |
CN111128373B (zh) * | 2019-12-11 | 2023-06-27 | 上海交通大学 | 一种通过协同主动学习模型的乳腺癌数据标注方法 |
CN111310799A (zh) * | 2020-01-20 | 2020-06-19 | 中国人民大学 | 一种基于历史评估结果的主动学习算法 |
CN111310799B (zh) * | 2020-01-20 | 2024-04-26 | 中国人民大学 | 一种基于历史评估结果的主动学习方法 |
CN111461179B (zh) * | 2020-03-11 | 2023-06-30 | 清华大学 | 小样本学习的基类选择方法及装置 |
CN111652177A (zh) * | 2020-06-12 | 2020-09-11 | 中国计量大学 | 基于深度学习的信号特征提取方法 |
CN112435651A (zh) * | 2020-11-20 | 2021-03-02 | 昆明学院 | 一种语音数据自动标注的质量评估方法 |
CN112435651B (zh) * | 2020-11-20 | 2023-05-02 | 昆明学院 | 一种语音数据自动标注的质量评估方法 |
CN113554130B (zh) * | 2021-09-22 | 2022-01-18 | 平安科技(深圳)有限公司 | 基于人工智能的数据标注方法、装置、电子设备及介质 |
CN113554130A (zh) * | 2021-09-22 | 2021-10-26 | 平安科技(深圳)有限公司 | 基于人工智能的数据标注方法、装置、电子设备及介质 |
CN114398943A (zh) * | 2021-12-09 | 2022-04-26 | 北京百度网讯科技有限公司 | 样本增强方法及其装置 |
CN115240659A (zh) * | 2022-09-21 | 2022-10-25 | 深圳市北科瑞声科技股份有限公司 | 分类模型训练方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107808661B (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107808661A (zh) | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 | |
CN106228977B (zh) | 基于深度学习的多模态融合的歌曲情感识别方法 | |
CN105741832B (zh) | 一种基于深度学习的口语评测方法和系统 | |
CN105096941B (zh) | 语音识别方法以及装置 | |
CN102142253B (zh) | 语音情感识别设备及方法 | |
CN1790481B (zh) | 基于辨音成分的发音评估方法与系统 | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN110321418A (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN101673356A (zh) | 产生具有多样化对话行为的对话管理机制的方法及系统 | |
KR20210070213A (ko) | 음성 사용자 인터페이스 | |
CN107767881A (zh) | 一种语音信息的满意度的获取方法和装置 | |
CN110211594A (zh) | 一种基于孪生网络模型和knn算法的说话人识别方法 | |
CN108806694A (zh) | 一种基于声音识别的教学考勤方法 | |
CN110046232A (zh) | 自然智能的自然表达处理方法、回应方法、设备及系统 | |
CN110059166A (zh) | 自然智能的自然表达处理方法、回应方法、设备及系统 | |
CN117765981A (zh) | 一种基于语音文本跨模态融合的情感识别方法及系统 | |
Chen et al. | Sequence-to-sequence modelling for categorical speech emotion recognition using recurrent neural network | |
Wu et al. | Development countermeasures of college english education based on deep learning and artificial intelligence | |
Fan et al. | The impact of student learning aids on deep learning and mobile platform on learning behavior | |
Zorrilla et al. | Audio Embedding-Aware Dialogue Policy Learning | |
CN110059167A (zh) | 自然智能的自然表达处理方法、回应方法、设备及系统 | |
CN111522913A (zh) | 一种适用于长文本和短文本的情感分类方法 | |
Trabelsi et al. | A multi level data fusion approach for speaker identification on telephone speech | |
Wang | The application of intelligent speech recognition technology in the tone correction of college piano teaching | |
CN109271482A (zh) | 一种研究生英语口语教学语音自动评估平台的实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201211 |