CN116705001A - 一种蒙古语语音数据选择方法及系统 - Google Patents
一种蒙古语语音数据选择方法及系统 Download PDFInfo
- Publication number
- CN116705001A CN116705001A CN202310483166.2A CN202310483166A CN116705001A CN 116705001 A CN116705001 A CN 116705001A CN 202310483166 A CN202310483166 A CN 202310483166A CN 116705001 A CN116705001 A CN 116705001A
- Authority
- CN
- China
- Prior art keywords
- pseudo
- labeling
- sentence
- mongolian
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000002372 labelling Methods 0.000 claims description 97
- 238000000034 method Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种蒙古语语音数据选择方法及系统,涉及语音识别技术领域,本发明将困惑度与可信度两种选择机制优势互补,对伪标注数据的语义组合关系正确性和声学特征匹配正确性同时进行评价,解决蒙古语伪标注数据集单词语义关系正确性和音义关系正确性不能兼顾的问题,进而提升蒙古语语音识别模型半监督训练的性能。
Description
技术领域
本发明涉及语音识别技术领域,更具体的说是涉及一种蒙古语语音数据选择方法及系统。
背景技术
伪标注数据选择任务是在蒙古语端到端语音识别模型半监督训练过程中按相应的伪标注选择机制得到伪标注句子集,并选出高质量伪标注句序列,与相应的无标注语音数据匹配组成蒙古语伪标注数据集的过程。伪标注选择方法通常分为两类,(1)可信度是常见的伪标注数据选择机制,词作为蒙古语端到端语音识别模型的建模单元,一般使用句级可信度选取伪标注数据。但句级可信度只能在伪标注数据和无标注数据声学特征的匹配程度方面对伪标注数据进行可靠性评价,然而选择出的部分高质量伪标注数据不符合蒙古语语法要求,包含不正确的语义组合关系;(2)困惑度也被应用于伪标注选择任务,从语义关系的正确性对伪标注数据的进行可靠性评价,选择出其中高质量伪标注数据和相应的无标注数据声学特征匹配。
但是,目前蒙古语数据集中标注的蒙古语语音数据量稀少,且分布在不同的地区。得到无标注蒙古语语音数据相对容易,只需要简单重复地大量采集即可。基于半监督学习的蒙古语语音识别是利用经过伪标注后的无标注蒙古语语音数据加强语音识别模型训练,缓解由于标注训练数据缺乏而造成语音识别模型性能不高的现象。但是在获得的伪标注数据集中的大量的识别错误会影响下一次更新训练的种子模型性能,并且训练更新次数的增加导致错误积累的问题。
因此,提出一种蒙古语语音数据选择方法及系统,解决半监督蒙古语语音识别伪标注选择任务中存在的蒙古语伪标注数据集中单词语义关系正确性和音义关系正确性不能兼顾是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种蒙古语语音数据选择方法及系统,通过语音识别模型半监督训练在标注蒙古语语音数据集D和无标注蒙古语语音数据集S上采用蒙古语语音数据选择方法寻找高质量伪标注句子集,解决半监督蒙古语语音识别伪标注选择任务中存在的蒙古语伪标注数据集中单词语义关系正确性和音义关系正确性不能兼顾的问题。为了实现上述目的,本发明采用如下技术方案:
一种蒙古语语音数据选择方法,包括:
获取标注语音数据集和无标注语音数据集;
使用标注语音数据集训练种子语音识别模型;
通过训练后的所述种子语音识别模型解码无标注语音数据集得到伪标注句子集;
通过种子语言模型计算伪标注句子集中每条伪标注句序列的困惑度值;
计算伪标注句序列中全部单词的后验概率的平均值得到可信度值;
通过伪标注句序列的可信度值和困惑度值计算得到伪标注句序列的可信困惑度分数;
设定可信困惑度临界值,让伪标注句子集通过可信困惑度数据选择机制,选择可信困惑度分数大于临界值的句序列,得到的高质量伪标注句子集;
将高质量伪标注句子集与相应的无标注语音数据进行匹配,得到蒙古语伪标注数据集。
可选的,所述获取伪标注句子集中每条伪标注句序列的困惑度值具体步骤为:
获取标注语音数据集和无标注语音数据集;
利用标注语音数据集训练得到种子语音识别模型和种子语言模型,再次将无标注语音数据集输入进种子语音识别模型,输出伪标注句子集;
利用伪标注句子集为测试数据通过种子语言模型,得到每条伪标注句序列的困惑度值。
可选的,所述获取其中每条伪标注句序列的困惑度值具体步骤为:
其中,PPL(t)为困惑度值,n代表伪标注句序列t中单词数量,wi代表伪标注句序列中第i个位置的单词。
可选的,获取所述可信度值的具体步骤为:
其中,Confi(t)为可信度值,wi代表伪标注句序列中第i个位置的单词,n代表伪标注句序列t的单词个数,xi代表该位置单词的声学特征。
可选的,获取所述可信困惑度分数的具体步骤为:
其中,CP-Score(t)为可信困惑度分数,wi代表伪标注句序列中第i个位置的单词,n代表伪标注句序列t的单词个数,xi表示该位置单词的声学特征,/>代表伪标注句子集T中句序列的平均长度,/>表示利用指数函数将困惑度值完成平均归一化,α为权重值,对于伪标注句子集T中的一条伪标注句序列t=w1wn-1wn,其相似概率为p(t)=P(w1wn-1wn),/>其中,M代表伪标注句子集T中句子数量,|tj|为T中第j条伪标注句序列长度。
可选的,所述得到蒙古语伪标注数据集的具体步骤为:
标注语音数据集训练语音识别种子模型;
语音识别种子模型解码无标注语音数据集生成伪标注句子集,并通过可信困惑度选择机制得到高质量伪标注句子集;
输出高质量伪标注句子集的伪标注句序列和相应的无标注语音数据匹配组成蒙古语伪标注数据集。
可选的,一种蒙古语语音数据选择系统,包括:
数据输入模块:用于输入标注语音数据集和无标注语音数据集;
训练模块:使用标注语音数据集训练种子语音识别模型;
解码模块:通过训练后的所述种子语音识别模型解码无标注语音数据集得到伪标注句子集;
计算模块:通过种子语言模型计算伪标注句子集中每条伪标注句序列的困惑度值;计算伪标注句序列中全部单词的后验概率的平均值得到可信度值;
通过伪标注句序列的可信度值和困惑度值计算得到伪标注句序列的可信困惑度分数;
输出模块:通过可信困惑度伪标注选择机制选择高质量伪标注句子集,与对应的无标注语音数据配对成蒙古语伪标注数据集并输出。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种蒙古语语音数据选择方法及系统,具有如下有益效果:
本发明所述蒙古语句子可信困惑度同时使用句级可信度和困惑度从不同方面评价伪标注句序列的正确性。句级可信度是评价种子模型产生的伪标注句序列的可靠性,困惑度是评价伪标注句序列中词间语义组合关系的可靠性。因此,句子可信困惑度同时评价伪标注句序列与句中语义组合关系的可靠度,进一步得到符合语法要求的伪标注句子,进而提高蒙古语伪标注数据集的准确性。本发明解决了半监督蒙古语语音识别伪标注选择任务中存在蒙古语伪标注数据集单词语义关系正确性和音义关系正确性不能兼顾的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的结构框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种蒙古语语音数据选择方法,包括:
获取标注语音数据集和无标注语音数据集;
使用标注语音数据集训练种子语音识别模型;
通过训练后的所述种子语音识别模型解码无标注语音数据集得到伪标注句子集;
通过种子语言模型计算伪标注句子集中每条伪标注句序列的困惑度值;
计算伪标注句序列中全部单词的后验概率的平均值得到可信度值;
通过伪标注句序列的可信度值和困惑度值计算得到伪标注句序列的可信困惑度分数;
设定可信困惑度临界值,让伪标注句子集通过可信困惑度数据选择机制,选择可信困惑度分数大于临界值的句序列,得到的高质量伪标注句子集;
将高质量伪标注句子集与相应的无标注语音数据进行匹配,得到蒙古语伪标注数据集。
本发明在半监督蒙古语语音识别的伪标注选择任务中,可信困惑度伪标注选择机制能够获得高准确性的蒙古语伪标注数据集,提升了蒙古语端到端语音识别模型的识别性能。
进一步的,在实施例1中,一种蒙古语语音数据选择方法,具体包括:
(1)蒙古语语音识别模型半监督训练的目标是在标注蒙古语语音数据集D和无标注蒙古语语音数据集S,利用标注蒙古语数据集D训练蒙古语语音识别种子模型,即SeedASR1=train(L);
(2)蒙古语语音识别种子模型解码所有无标注蒙古语语音数据生成伪标注句子集T,即T=SeedASR1(S),其中T={t1,...,tj,...,tM},tj表示无标注蒙古语语音sj对应的伪标注句子;
(3)句子可信困惑度选择机制选择伪标注句子集得到高质量伪标注句子集T',即T'=filter(T),其中T'={t'1,t'2,K,t'm|m≤M},t'm表示选择得到的高质量伪标注句序列,m表示高质量伪标注句序列的数量;高质量伪标注句子集T'的伪标注句序列和相应的无标注蒙古语语音数据S'={s'1,s'2,K,s'm}匹配组成蒙古语伪标注数据集D',其中D'=(S',T');
本发明提供一种蒙古语语音数据选择方法,来缓解标注的蒙古语音频稀少且分布地区不均衡问题,句子可信困惑度同时使用句级可信度值和困惑度值从不同方面对伪标注句序列的进行正确性评价。句级可信度是评价种子模型产生的伪标注句序列的可靠性,困惑度是评价伪标注句序列中词间语义组合关系的可靠性。因此,句子可信困惑度同时评价伪标注句序列与句中语义组合关系的可靠度,从而进一步提升蒙古语语音识别模型半监督训练的性能。
进一步的,在实施例2中,一种蒙古语语音数据选择方法中计算伪标注句序列的可信困惑度分数过程的具体步骤为:
首先,蒙古语种子语音识别模型SeedASR和种子语言模型SeedLM由标注蒙古语语音数据训练得到,无标注蒙古语语音数据集S通过种子语音识别模型SeedASR解码得到伪标注句子集T。然后,测试数据伪标注句子集T通过语言参照模型SeedLM,计算每条伪标注句序列t的困惑度值PPL(t),可信度值Confi(t)是伪标注句序列中全部单词的后验概率的平均值。最后,利用每条伪标注句序列t的可信度值Confi(t)和困惑度值PPL(t)计算可信困惑度分数CP-Score(t)。对于伪标注句子集T中的一条伪标注句序列t=w1...wn-1wn,其相似概率为p(t)=P(w1...wn-1wn),则t的可信度值、困惑度值和可信困惑度分数计算公式如下:
其中,wi代表伪标注句序列中第i个位置的单词,n代表伪标注句序列t中单词个数,xi表示该位置单词的声学特征,代表伪标注句子集T中句序列的平均长度,详细见公式(3-4)。/>表示利用指数函数将困惑度值完成平均归一化,α为权重值,取值区间为[0.5,1]。
其中,M表示伪标注句子集T中伪标注句序列数量,|tj|为T中第j条伪标注句序列的长度。
进一步的,在实施例3中,一种蒙古语语音数据选择方法中,句子可信困惑度伪标注机制是计算伪标注句序列的可信困惑度分数,然后设置可信困惑度临界值来确定选择数据构建高质量伪标注句子集。句子可信困惑度伪标注选择算法如下所示:
进一步的,在实施例3中,一种蒙古语语音数据选择系统,包括:
数据输入模块:用于输入标注语音数据集和无标注语音数据集;
训练模块:使用标注语音数据集训练种子语音识别模型;
解码模块:通过训练后的所述种子语音识别模型解码无标注语音数据集得到伪标注句子集;
计算模块:通过种子语言模型计算伪标注句子集中每条伪标注句序列的困惑度值;计算伪标注句序列中全部单词的后验概率的平均值得到可信度值;
通过伪标注句序列的可信度值和困惑度值计算得到伪标注句序列的可信困惑度分数;
输出模块:通过可信困惑度伪标注选择机制选择高质量伪标注句子集,与对应的无标注语音数据配对成蒙古语伪标注数据集并输出。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种蒙古语语音数据选择方法,其特征在于,包括:
获取标注语音数据集和无标注语音数据集;
使用标注语音数据集训练种子语音识别模型;
通过训练后的所述种子语音识别模型解码无标注语音数据集得到伪标注句子集;
通过种子语言模型计算伪标注句子集中每条伪标注句序列的困惑度值;计算伪标注句序列中全部单词的后验概率的平均值得到可信度值;通过伪标注句序列的可信度值和困惑度值计算得到伪标注句序列的可信困惑度分数;
设定可信困惑度临界值,让伪标注句子集通过可信困惑度数据选择机制,选择可信困惑度分数大于临界值的句序列,得到的高质量伪标注句子集;将高质量伪标注句子集与相应的无标注语音数据进行匹配,得到蒙古语伪标注数据集。
2.根据权利要求1所述的一种蒙古语语音数据选择方法,其特征在于,所述获取伪标注句子集中每条伪标注句序列的困惑度值具体步骤为:
获取标注语音数据集和无标注语音数据集;
利用标注语音数据集训练得到种子语音识别模型和种子语言模型,再次将无标注语音数据集输入进种子语音识别模型,输出伪标注句子集;
利用伪标注句子集为测试数据通过种子语言模型,得到每条伪标注句序列的困惑度值。
3.根据权利要求2所述的一种蒙古语语音数据选择方法,其特征在于,所述获取其中每条伪标注句序列的困惑度值具体步骤为:
其中,PPL(t)为困惑度值,n代表伪标注句序列t中单词数量,wi代表伪标注句序列中第i个位置的单词。
4.根据权利要求1所述的一种蒙古语语音数据选择方法,其特征在于,获取所述可信度值的具体步骤为:
其中,Confi(t)为可信度值,wi代表伪标注句序列中第i个位置的单词,n代表伪标注句序列t的单词个数,xi代表该位置单词的声学特征。
5.根据权利要求1所述的一种蒙古语语音数据选择方法,其特征在于,获取所述可信困惑度分数的具体步骤为:
其中,CP-Score(t)为可信困惑度分数,wi代表伪标注句序列中第i个位置的单词,n代表伪标注句序列t的单词个数,xi表示该位置单词的声学特征,/>代表伪标注句子集T中句序列的平均长度,/>表示利用指数函数将困惑度值完成平均归一化,α为权重值,对于伪标注句子集T中的一条伪标注句序列t=w1wn-1wn,其相似概率为p(t)=P(w1wn-1wn),/>其中,M代表伪标注句子集T中句子数量,|tj|为T中第j条伪标注句序列长度。
6.根据权利要求1所述的一种蒙古语语音数据选择方法,其特征在于,所述得到蒙古语伪标注数据集的具体步骤为:
标注语音数据集训练语音识别种子模型;
语音识别种子模型解码无标注语音数据集生成伪标注句子集,并通过可信困惑度选择机制得到高质量伪标注句子集;
输出高质量伪标注句子集的伪标注句序列和相应的无标注语音数据匹配组成蒙古语伪标注数据集。
7.一种蒙古语语音数据选择系统,其特征在于,包括:
数据输入模块:用于输入标注语音数据集和无标注语音数据集;
训练模块:使用标注语音数据集训练种子语音识别模型;
解码模块:通过训练后的所述种子语音识别模型解码无标注语音数据集得到伪标注句子集;
计算模块:通过种子语言模型计算伪标注句子集中每条伪标注句序列的困惑度值;计算伪标注句序列中全部单词的后验概率的平均值得到可信度值;
通过伪标注句序列的可信度值和困惑度值计算得到伪标注句序列的可信困惑度分数;
输出模块:通过可信困惑度伪标注选择机制选择高质量伪标注句子集,与对应的无标注语音数据配对成蒙古语伪标注数据集并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310483166.2A CN116705001A (zh) | 2023-05-04 | 2023-05-04 | 一种蒙古语语音数据选择方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310483166.2A CN116705001A (zh) | 2023-05-04 | 2023-05-04 | 一种蒙古语语音数据选择方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116705001A true CN116705001A (zh) | 2023-09-05 |
Family
ID=87826674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310483166.2A Pending CN116705001A (zh) | 2023-05-04 | 2023-05-04 | 一种蒙古语语音数据选择方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705001A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6263308B1 (en) * | 2000-03-20 | 2001-07-17 | Microsoft Corporation | Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process |
JP2014215578A (ja) * | 2013-04-30 | 2014-11-17 | 日本電信電話株式会社 | 音響モデル選択装置とその方法とプログラム |
CN108549703A (zh) * | 2018-04-17 | 2018-09-18 | 内蒙古工业大学 | 一种基于循环神经网络的蒙古语语言模型的训练方法 |
CN112381098A (zh) * | 2020-11-19 | 2021-02-19 | 上海交通大学 | 基于目标分割领域自学习的半监督学习方法和系统 |
CN113611293A (zh) * | 2021-08-19 | 2021-11-05 | 内蒙古工业大学 | 一种蒙古语数据集扩充方法 |
CN113901992A (zh) * | 2021-09-17 | 2022-01-07 | 作业帮教育科技(北京)有限公司 | 训练数据的筛选方法、系统、装置及介质 |
KR20220082790A (ko) * | 2021-06-09 | 2022-06-17 | 아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디. | 오디오 신호를 처리하는 방법과 장치, 모델의 훈련 방법과 장치, 전자 기기, 저장 매체, 및 컴퓨터 프로그램 |
-
2023
- 2023-05-04 CN CN202310483166.2A patent/CN116705001A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6263308B1 (en) * | 2000-03-20 | 2001-07-17 | Microsoft Corporation | Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process |
JP2014215578A (ja) * | 2013-04-30 | 2014-11-17 | 日本電信電話株式会社 | 音響モデル選択装置とその方法とプログラム |
CN108549703A (zh) * | 2018-04-17 | 2018-09-18 | 内蒙古工业大学 | 一种基于循环神经网络的蒙古语语言模型的训练方法 |
CN112381098A (zh) * | 2020-11-19 | 2021-02-19 | 上海交通大学 | 基于目标分割领域自学习的半监督学习方法和系统 |
KR20220082790A (ko) * | 2021-06-09 | 2022-06-17 | 아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디. | 오디오 신호를 처리하는 방법과 장치, 모델의 훈련 방법과 장치, 전자 기기, 저장 매체, 및 컴퓨터 프로그램 |
CN113611293A (zh) * | 2021-08-19 | 2021-11-05 | 内蒙古工业大学 | 一种蒙古语数据集扩充方法 |
CN113901992A (zh) * | 2021-09-17 | 2022-01-07 | 作业帮教育科技(北京)有限公司 | 训练数据的筛选方法、系统、装置及介质 |
Non-Patent Citations (3)
Title |
---|
牛米佳;飞龙;高光来;: "蒙古语长音频语音文本自动对齐的研究", 中文信息学报, no. 01, 15 January 2020 (2020-01-15) * |
王兮楼;郭武;解传栋;: "基于解码多候选结果的半监督数据挑选的语音识别", 模式识别与人工智能, no. 07, 15 July 2018 (2018-07-15) * |
钱彦旻;刘加;: "低数据资源条件下基于优化的数据选择策略的无监督语音识别声学建模", 清华大学学报(自然科学版), no. 07, 15 July 2013 (2013-07-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7584103B2 (en) | Automated extraction of semantic content and generation of a structured document from speech | |
US6188976B1 (en) | Apparatus and method for building domain-specific language models | |
CN104143327B (zh) | 一种声学模型训练方法和装置 | |
US20100299135A1 (en) | Automated Extraction of Semantic Content and Generation of a Structured Document from Speech | |
CN112712804A (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
EP0573553A1 (en) | Method for recognizing speech using linguistically-motivated hidden markov models | |
US9620117B1 (en) | Learning from interactions for a spoken dialog system | |
JP7266683B2 (ja) | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム | |
WO2021139257A1 (zh) | 标注数据的选择方法、装置、计算机设备和存储介质 | |
CN110517693A (zh) | 语音识别方法、装置、电子设备和计算机可读存储介质 | |
CN112364125B (zh) | 一种联合阅读课程学习机制的文本信息抽取系统及方法 | |
CN110688450A (zh) | 一种基于蒙特卡洛树搜索的关键词生成方法、基于强化学习的关键词生成模型及电子设备 | |
CN111291175A (zh) | 一种基于策略梯度算法的自动生成提交需求摘要的方法 | |
CN115293139A (zh) | 一种语音转写文本纠错模型的训练方法和计算机设备 | |
CN115293138A (zh) | 一种文本纠错方法及计算机设备 | |
CN114648015B (zh) | 一种基于依存关系注意力模型的方面级情感词识别方法 | |
CN117094325B (zh) | 水稻病虫害领域命名实体识别方法 | |
CN113823257A (zh) | 语音合成器的构建方法、语音合成方法及装置 | |
CN116189671B (zh) | 一种用于语言教学的数据挖掘方法及系统 | |
CN116956881A (zh) | 一种面向任务式对话系统的纠错方法、装置、设备及介质 | |
CN116662515A (zh) | 检索式多轮对话方法及装置、存储介质、电子设备 | |
CN116705001A (zh) | 一种蒙古语语音数据选择方法及系统 | |
CN116306592A (zh) | 一种基于阅读理解的老年痴呆量表纠错方法、系统及介质 | |
CN115062603A (zh) | 对齐增强语义解析方法、装置和计算机程序产品 | |
CN115374884B (zh) | 基于对比学习的摘要生成模型的训练方法和摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |