CN111627427B - 特定领域的语音识别模型的构建方法 - Google Patents
特定领域的语音识别模型的构建方法 Download PDFInfo
- Publication number
- CN111627427B CN111627427B CN202010413228.9A CN202010413228A CN111627427B CN 111627427 B CN111627427 B CN 111627427B CN 202010413228 A CN202010413228 A CN 202010413228A CN 111627427 B CN111627427 B CN 111627427B
- Authority
- CN
- China
- Prior art keywords
- recognition model
- voice recognition
- speech recognition
- subset
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 238000013526 transfer learning Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000013518 transcription Methods 0.000 claims abstract description 4
- 230000035897 transcription Effects 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 34
- 238000012216 screening Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种特定领域的语音识别模型的构建方法,该方法包括:S1.将特定领域的音频数据进行文本转录,以构建所述音频数据及其对应的转录文本组成的训练集;S2.将所述训练集输入一现有的语音识别模型,对所述语音识别模型执行针对所述特定领域的迁移学习训练;S3.选择所述训练集的一个子集,将所述子集输入所述语音识别模型进行语音识别测试;S4.校准所述语音识别测试的输出结果,根据校准后的输出结果更新所述子集,将所述子集输入所述语音识别模型,对所述语音模型执行迭代训练;S5.利用根据所述训练集生成的语言模型,对所述语音识别模型进行超参数调整处理,获得特定领域的语音识别模型。此外,本发明还提供了相应的计算机介质。
Description
技术领域
本发明涉及语音识别的神经网络算法领域,尤其涉及一种特定领域的语音识别模型的构建方法。
背景技术
目前,智能呼叫中心通常使用语音识别模型来实现实时语音识别,面对涉及特定领域的对话所产生的交流语音时,普通的语音识别模型对所述特定领域包含的专业名词、术语识别率欠佳,往往需要针对所述特定领域构建语音识别率达标的语音识别模型。若训练一个全新的语音识别模型,并使其满足所述特定领域的语音识别率要求,需要提供大量的训练样本以及占用大量的计算资源,来进行长时间训练计算,因此构建所述语音识别模型所需花费的时间成本和硬件成本一直难以得到控制。
发明内容
为了克服现有技术中的上述缺陷,本发明提供了一种特定领域的语音识别模型的构建方法,该方法包括:
S1.将特定领域的音频数据进行文本转录,以构建所述音频数据及其对应的转录文本组成的训练集;
S2.将所述训练集输入一现有的语音识别模型,对所述语音识别模型执行针对所述特定领域的迁移学习训练;
S3.选择所述训练集的一个子集,将所述子集输入所述语音识别模型进行语音识别测试;
S4.校准所述语音识别测试的输出结果,根据校准后的输出结果更新所述子集,将所述子集输入所述语音识别模型,对所述语音模型执行迭代训练;
S5.利用根据所述训练文本集生成的语言模型,对所述语音识别模型进行超参数调整处理,获得特定领域的语音识别模型。
根据本发明的一个方面,在执行步骤S5之前,该方法还包括:S6.重复执行步骤S3和步骤S4,直至所述语音识别模型满足预定的准确率。
根据本发明的另一个方面,该方法的步骤S3中选择所述训练集的一个子集的步骤包括:从所述训练集中选择多个具有预定准确率的元素组成所述子集。
根据本发明的另一个方面,该方法的步骤S4中校准所述语音识别测试的输出结果的步骤包括:根据预定规则从所述输出结果中筛选出至少一条待校准数据;根据人工校准操作更新所述待校准数据。
根据本发明的另一个方面,该方法的步骤S4中根据校准后的输出结果更新所述子集的步骤包括:组织校准后的输出结果的数据格式,使所述校准后的输出结果的数据格式与所述训练集的数据格式相同;将所述输出结果合并至所述子集中。
根据本发明的另一个方面,该方法中所述转录文本包括:由所述特定领域的专业词汇构成的语料。
根据本发明的另一个方面,该方法中所述语言模型包括N-gram模型。
相应地,本发明还提供了一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的特定领域的语音识别模型的构建方法。
本发明提供的特定领域的语音识别模型的构建方法采用现有的语音识别模型作为基础模型,利用特定领域的音频样本对其进行迁移学习训练,进一步使用经过校准的测试数据对所述语音识别模型进行迭代训练,最终获得特定领域的语音识别模型。通过实施本发明可以在较短的开发周期内获得满足识别率需求的特定领域的语音识别模型,相比现有技术,训练该语音识别模型所需的时间成本和硬件成本明显降低。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据本发明的特定领域的语音识别模型的构建方法的一个具体实施方式的流程示意图;
图2是根据本发明的特定领域的语音识别模型的构建方法的一个可选具体实施方式的流程示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
为了更好地理解和阐释本发明,下面将结合附图对本发明作进一步的详细描述。本发明并不仅仅局限于这些具体实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
需要说明的是,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有这些具体细节,本发明同样可以实施。在下文给出的多个具体实施方式中,对于本领域熟知的结构和部件未作详细描述,以便于凸显本发明的主旨。
本发明提供了一种特定领域的语音识别模型的构建方法,请参考图1,图1是根据本发明的特定领域的语音识别模型的构建方法的一个具体实施方式的流程示意图,该方法包括:
步骤S100,将特定领域的音频数据进行文本转录,以构建所述音频数据及其对应的转录文本组成的训练集;
步骤S200,将所述训练集输入一现有的语音识别模型,对所述语音识别模型执行针对所述特定领域的迁移学习训练;
步骤S300,选择所述训练集的一个子集,将所述子集输入所述语音识别模型进行语音识别测试;
步骤S400,校准所述语音识别测试的输出结果,根据校准后的输出结果更新所述子集,将所述子集输入所述语音识别模型,对所述语音模型执行迭代训练;
步骤S500,利用根据所述训练集生成的语言模型,对所述语音识别模型进行超参数调整处理,获得特定领域的语音识别模型。
具体地,在步骤S100中,对所述特定领域的音频数据进行文本转录的步骤可使用第三方语音识别模型来实现,更具体而言,所述第三方语音识别模型例如是科大讯飞ASR模型、阿里ASR模型等。典型地,所述音频数据对应的转录文本内包括根据所述音频数据所生成的多个句子,也即所述转录文本包括由所述特定领域的专业词汇构成的语料。所述特定领域指的是包含了日常对话交流中不常出现的专有术语、专有名词的专业领域,例如保险领域、银行业领域等,或指的是包含了与标准普通话发音不同的字词的地区方言领域,本发明的目的之一是针对上述特定领域构建一个识别率能满足所述特定领域的语音识别需求的语音识别模型。
在步骤S200中,将所述训练文本集输入一现有的语音识别模型,所述现有的语音识别模型是已经具有开源的预训练模型,但由于所述特定领域会出现词语发音差异、同音字、专有名词/术语等情况,该现有的语音识别模型并不能全面地覆盖所述特定领域中可能出现的各种情况,因此所述现有的语音识别模型对所述特定领域的语音识别结果存在偏差,例如对识别出来的词语标注错误。基于迁移学习的算法理论,由于所述训练集是根据所述特定领域的音频数据来进行构建的,因此将所述训练集对所述预训练模型进行迁移学习训练后,所述现有的语音识别模型相对于所述特定领域具有会达到更好的识别率,也即,通过所述迁移学习训练,所述现有的语音识别模型对于标准普通话和日常对话类型的音频的泛化识别经验可用于进行所述特定领域的语音识别任务。
虽然在步骤S200中对所述语音识别模型进行了所述迁移学习训练,但是该语音识别模型的识别能力往往还需要进一步提升,才能满足所述特定领域的语音识别的识别率要求。在此,执行步骤S300,选择所述训练集的一个子集,将所述子集输入所述语音识别模型进行语音识别测试。以及执行步骤S400,校准所述语音识别测试的输出结果,根据所述输出结果更新所述子集,将所述子集输入所述语音识别模型,对所述语音模型执行迭代训练。执行步骤S300至步骤400的目的是为了加快所述语音识别模型的收敛,使其更快地达到所需求的识别准确率。基于该期望,所选择的所述子集可以与所述训练集的识别率期望值具有相近,典型地,步骤S300中选择所述训练集的一个子集的步骤包括:从所述训练集中选择多个具有预定准确率的元素组成所述子集。
步骤S400中校准所述语音识别测试的输出结果的步骤包括:根据预定规则从所述输出结果中筛选出至少一条待校准数据;根据人工校准操作更新所述待校准数据。具体而言,更新所述待校准数据的意义在于将所述待校准数据修正为更符合所述特定领域的特定语音识别结果的数据。此外,步骤S400中根据所述输出结果更新所述子集的步骤包括:组织所述输出结果的数据格式,使该输出结果的数据格式与所述训练集的数据格式相同;将所述输出结果合并至所述子集中。本领域技术人员可以理解,对所述语音识别模型进行所述迭代训练能加速所述语音识别模型的收敛,对所述输出结果进行所述校准可以有效地约束所述迭代训练的发散,进一步加强所述收敛的效果。
执行步骤S300至步骤S400之后,虽然所述语音识别模型相对于所述特定领域的识别率得到了提升,但为了达到更好的效果还需要对所述语音识别模型的超参数进行优化。一种典型的方法就是执行步骤S500,即利用根据所述训练集生成的语言模型,对所述语音识别模型进行超参数调整处理,典型地,所述语言模型包括N-gram模型。利用所述N-gram模型能实现修正同音错别字词等功能,例如将识别结果中的“岳父”修正为“月付”,使得所述语音识别模型与所述特定领域的耦合度大大提升。进行了所述超参数调整的所述语音识别模型即所述特定领域的语音识别模型。
如果所述特定领域的语料较多,仅执行一次步骤S300至步骤S400可能无法令所述语音识别模型达到理想的识别率。为了充分利用所述训练集所携带的信息,可以考虑对所述语音识别模型进行多次的所述迭代训练。请参考图2,图2是根据本发明的特定领域的语音识别模型的构建方法的一个可选具体实施方式的流程示意图,图2与图1示出的具体实施方式的不同之处在于,在步骤S500执行前,图2示出的特定领域的语音识别模型的构建方法还包括:
步骤S600,重复执行步骤S300和步骤S400,直至所述语音识别模型满足预定的准确率。
每执行一次步骤S300至步骤S400,都可以实现将所述训练集的一个子集用来约束地迭代训练所述语音识别模型,若每次选择的所述子集所包含的元素各不相同,还能在提升所述语音识别模型的泛化性的基础上加快所述语音识别模型的收敛速度。
需要说明的是,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
相应地,本发明还公开了一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的特定领域的语音识别模型的构建方法,例如图1示出的特定领域的语音识别模型的构建方法。所述计算机可读介质可以是可由计算机设备访问的任何可用介质,且包括用任何方法和技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性介质、可移动和不可移动介质。计算机可读介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并且可由计算设备访问的任何其它介质。上述的任意组合也应包含在计算机可读介质的范围内。
本发明提供的特定领域的语音识别模型的构建方法中涉及软件逻辑的部分可以使用可编程逻辑器件来实现,也可以实施为计算机程序产品,该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现上述涉及软件逻辑的部分的各个步骤。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如可热拔插的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如RAM、ROM和硬盘。所述可移动介质包括但不限于:光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如磁带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。
本领域技术人员应当理解,任何具有适当编程装置的计算机系统都能够执行包含在计算机程序产品中的本发明的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序,但是以硬件方式实现本发明提供的方法的替代实施例同样在本发明要求保护的范围之内。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,在权利要求的等同要件的含义和范围内的所有变化均涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他部件、单元或步骤,单数不排除复数。权利要求中陈述的多个部件、单元或装置也可以由一个部件、单元或装置通过软件或者硬件来实现。
本发明提供的特定领域的语音识别模型的构建方法采用现有的语音识别模型作为基础模型,利用特定领域的音频样本对其进行迁移学习训练,进一步使用经过校准的测试数据对所述语音识别模型进行迭代训练,最终获得特定领域的语音识别模型。通过实施本发明可以在较短的开发周期内获得满足识别率需求的特定领域的语音识别模型,相比现有技术,训练该语音识别模型所需的时间成本和硬件成本明显降低。
以上所披露的仅为本发明的一些较佳实施例,不能以此来限定本发明之权利范围,依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (8)
1.一种特定领域的语音识别模型的构建方法,该方法包括:
S1.将特定领域的音频数据进行文本转录,以构建所述音频数据及其对应的转录文本组成的训练集;
S2.将所述训练集输入一现有的语音识别模型,对所述语音识别模型执行针对所述特定领域的迁移学习训练;
S3.选择所述训练集的一个子集,将所述子集输入所述语音识别模型进行语音识别测试;
S4.校准所述语音识别测试的输出结果,根据校准后的输出结果更新所述子集,将所述子集输入所述语音识别模型,对所述语音识别模型执行迭代训练;
S5.利用根据所述训练集生成的语言模型,对所述语音识别模型进行超参数调整处理,获得特定领域的语音识别模型。
2.根据权利要求1所述的特定领域的语音识别模型的构建方法,在执行步骤S5之前,该方法还包括:
S6.重复执行步骤S3和步骤S4,直至所述语音识别模型满足预定的准确率。
3.根据权利要求1所述的特定领域的语音识别模型的构建方法,其中,步骤S3中选择所述训练集的一个子集的步骤包括:
从所述训练集中选择多个具有预定准确率的元素组成所述子集。
4.根据权利要求1所述的特定领域的语音识别模型的构建方法,其中,步骤S4中校准所述语音识别测试的输出结果的步骤包括:
根据预定规则从所述输出结果中筛选出至少一条待校准数据;
根据人工校准操作更新所述待校准数据。
5.根据权利要求1所述的特定领域的语音识别模型的构建方法,其中,步骤S4中根据校准后的输出结果更新所述子集的步骤包括:
组织校准后的输出结果的数据格式,使所述校准后的输出结果的数据格式与所述训练集的数据格式相同;
将所述输出结果合并至所述子集中。
6.根据权利要求1所述的特定领域的语音识别模型的构建方法,其中,所述转录文本包括:
由所述特定领域的专业词汇构成的语料。
7.根据权利要求1所述的特定领域的语音识别模型的构建方法,其中:
所述语言模型包括N-gram模型。
8.一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如权利要求1至7任一项所述的特定领域的语音识别模型的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010413228.9A CN111627427B (zh) | 2020-05-15 | 2020-05-15 | 特定领域的语音识别模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010413228.9A CN111627427B (zh) | 2020-05-15 | 2020-05-15 | 特定领域的语音识别模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627427A CN111627427A (zh) | 2020-09-04 |
CN111627427B true CN111627427B (zh) | 2023-05-05 |
Family
ID=72259032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010413228.9A Active CN111627427B (zh) | 2020-05-15 | 2020-05-15 | 特定领域的语音识别模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627427B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112885351B (zh) * | 2021-04-30 | 2021-07-23 | 浙江非线数联科技股份有限公司 | 一种基于迁移学习的方言语音识别方法及装置 |
CN113469338B (zh) * | 2021-06-30 | 2023-10-31 | 平安科技(深圳)有限公司 | 模型训练方法、模型训练装置、终端设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN109346064A (zh) * | 2018-12-13 | 2019-02-15 | 苏州思必驰信息科技有限公司 | 用于端到端语音识别模型的训练方法及系统 |
CN110532568A (zh) * | 2019-09-05 | 2019-12-03 | 哈尔滨理工大学 | 基于树特征选择和迁移学习的汉语词义消歧方法 |
CN110827805A (zh) * | 2019-12-09 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
CN110930993A (zh) * | 2018-09-20 | 2020-03-27 | 蔚来汽车有限公司 | 特定领域语言模型生成方法及语音数据标注系统 |
CN111081259A (zh) * | 2019-12-18 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 基于说话人扩充的语音识别模型训练方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190354850A1 (en) * | 2018-05-17 | 2019-11-21 | International Business Machines Corporation | Identifying transfer models for machine learning tasks |
-
2020
- 2020-05-15 CN CN202010413228.9A patent/CN111627427B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN110930993A (zh) * | 2018-09-20 | 2020-03-27 | 蔚来汽车有限公司 | 特定领域语言模型生成方法及语音数据标注系统 |
CN109346064A (zh) * | 2018-12-13 | 2019-02-15 | 苏州思必驰信息科技有限公司 | 用于端到端语音识别模型的训练方法及系统 |
CN110532568A (zh) * | 2019-09-05 | 2019-12-03 | 哈尔滨理工大学 | 基于树特征选择和迁移学习的汉语词义消歧方法 |
CN110827805A (zh) * | 2019-12-09 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
CN111081259A (zh) * | 2019-12-18 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 基于说话人扩充的语音识别模型训练方法及系统 |
Non-Patent Citations (2)
Title |
---|
王俊超 等.基于迁移学习的低资源度维吾尔语语音识别.计算机工程.2019,第44卷(第44卷),第281-291页. * |
邱意 等.民航陆空通话语音识别BiLSTM网络模型.信号处理.2019,第35卷(第35卷),第293-300页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111627427A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210287663A1 (en) | Method and apparatus with a personalized speech recognition model | |
CN110556093B (zh) | 一种语音标注方法及其系统 | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
US7996209B2 (en) | Method and system of generating and detecting confusing phones of pronunciation | |
CN111627427B (zh) | 特定领域的语音识别模型的构建方法 | |
CN112634866B (zh) | 语音合成模型训练和语音合成方法、装置、设备及介质 | |
Qian et al. | Capturing L2 segmental mispronunciations with joint-sequence models in computer-aided pronunciation training (CAPT) | |
Kurimo et al. | Modeling under-resourced languages for speech recognition | |
CN111627428B (zh) | 构建压缩的语音识别模型的方法 | |
CN110808049B (zh) | 语音标注文本修正方法、计算机设备和存储介质 | |
Michalek et al. | A survey of recent DNN architectures on the TIMIT phone recognition task | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
KR20220070709A (ko) | 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법 | |
Davel et al. | Bootstrapping in language resource generation | |
Wohlan et al. | A Text-Independent Forced Alignment Method for Automatic Phoneme Segmentation | |
CN112259084A (zh) | 语音识别方法、装置和存储介质 | |
CN112530405A (zh) | 一种端到端语音合成纠错方法、系统及装置 | |
Baranwal et al. | Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers | |
Zhang et al. | Discriminatively trained sparse inverse covariance matrices for speech recognition | |
Ármannsson | Grapheme-to-phoneme transcription of English words in Icelandic text | |
CN112037770B (zh) | 发音词典的生成方法、单词语音识别的方法和装置 | |
US20230215421A1 (en) | End-to-end neural text-to-speech model with prosody control | |
Devi et al. | LARVIS-Linux AIRelied Virtual Intelligent System | |
Davel et al. | Developing consistent pronunciation models for phonemic variants | |
CN113035237B (zh) | 语音测评方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |